WO2021200307A1 - 情報処理装置、対話型ロボット、制御方法 - Google Patents

情報処理装置、対話型ロボット、制御方法 Download PDF

Info

Publication number
WO2021200307A1
WO2021200307A1 PCT/JP2021/011574 JP2021011574W WO2021200307A1 WO 2021200307 A1 WO2021200307 A1 WO 2021200307A1 JP 2021011574 W JP2021011574 W JP 2021011574W WO 2021200307 A1 WO2021200307 A1 WO 2021200307A1
Authority
WO
WIPO (PCT)
Prior art keywords
conversation
user
utterance
users
voice
Prior art date
Application number
PCT/JP2021/011574
Other languages
English (en)
French (fr)
Inventor
凌輔 中山
玄 阿部
妙織 吉戸
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to EP21782201.4A priority Critical patent/EP4129122A4/en
Priority to US17/913,021 priority patent/US20230147704A1/en
Priority to CN202180023765.5A priority patent/CN115335898A/zh
Priority to JP2022511941A priority patent/JPWO2021200307A1/ja
Publication of WO2021200307A1 publication Critical patent/WO2021200307A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • AHUMAN NECESSITIES
    • A47FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
    • A47FSPECIAL FURNITURE, FITTINGS, OR ACCESSORIES FOR SHOPS, STOREHOUSES, BARS, RESTAURANTS OR THE LIKE; PAYING COUNTERS
    • A47F10/00Furniture or installations specially adapted to particular types of service systems, not otherwise provided for
    • A47F10/06Furniture or installations specially adapted to particular types of service systems, not otherwise provided for for restaurant service systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/26Pc applications
    • G05B2219/2642Domotique, domestic, home control, automation, smart house
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • This technology is particularly related to an information processing device, an interactive robot, and a control method that enable smooth communication between two parties.
  • Patent Document 1 describes an interactive agent system that collects personal information in a conversational format and proposes an appropriate product or the like to an individual user based on the collected personal information.
  • Non-Patent Document 1 discloses a matching service for making a video call through a third party called a matchmaker.
  • the relationship between the user and the system is generally 1: 1 to respond to the user's question or the like.
  • This technology was made in view of such a situation, and enables smooth communication between the two parties.
  • the information processing device of one aspect of the present technology analyzes the utterances of the two users, which are detected by the interactive robots used by the two users who are having a conversation via the network.
  • a unit and a control unit that outputs a conversation assisting voice, which is a voice assisting the conversation, from each of the interactive robots according to the conversation situation of the two users.
  • the interactive robot of the other aspect of the present technology detects the utterance of the user after the liquor is served and the waiter who provides the liquor to the user, and outputs the voice data of the detected utterance.
  • the utterance of the user and the utterance of another user who is the other party of the conversation are transmitted to the information processing device, and the conversation transmitted from the information processing device according to the situation of the conversation between the two people. It is provided with a conversation control unit that outputs a conversation auxiliary voice, which is an auxiliary voice.
  • the utterances of each of the two users detected by the respective interactive robots used by the two users talking over the network are analyzed and the two users Depending on the conversation situation of the user, a process of outputting a conversation assisting voice, which is a voice assisting the conversation, from each of the interactive robots is performed.
  • liquor is provided to the user, the utterance of the user after the liquor is provided is detected, and the voice data of the detected utterance is used to talk with the user's utterance.
  • a process of transmitting to an information processing device that analyzes the utterance of another user who is the other party of the data is performed.
  • a process is performed to output a conversation assisting voice, which is a voice assisting the conversation, transmitted from the information processing device according to the situation of the conversation between the two people.
  • FIG. 1 It is a figure which shows the configuration example of the voice communication system which concerns on one Embodiment of this technique. It is a figure which shows the output example of an assist utterance. It is a figure which shows the example of AI which realizes a conversation assist function. It is a figure which shows the state of a conversation. It is a perspective view which shows the appearance of the interactive agent apparatus in an enlarged manner. It is a figure which shows the mounting example of a bottle. It is a figure which shows the display example of the drinking record. It is a figure which shows the display example of a conversation record. It is a figure which shows the specific example of the conversation between the user A and the user B. It is a figure which shows the specific example of the conversation following FIG.
  • FIG. 1 It is a figure which shows the specific example of the conversation following FIG. It is a figure which shows the specific example of the conversation between the user C and the user D. It is a figure which shows the specific example of the conversation following FIG. It is a figure which shows the specific example of the conversation between the user A and the user B. It is a figure which shows the specific example of the conversation following FIG. It is a figure which shows the specific example of the conversation between the user A and the user B. It is a figure which shows the example of matching.
  • the server that manages the voice communication system of this technology is an information processing device that realizes smooth conversation between two parties by the conversation assist function by AI (Artificial Intelligence).
  • AI Artificial Intelligence
  • the conversation assist function outputs the utterance on the system side and prompts the user who is having a conversation to speak.
  • each utterance time during a conversation between two parties is measured.
  • the utterance on the system side prompts the user who has a short utterance time to speak.
  • the phrase spoken on the system side is selected from preset phrases. For example, a phrase including the user's account name, such as "What do you think of Mr. A?", Is output as an utterance on the system side.
  • the silence time during a conversation between the two is measured. If there is a certain amount of silence, such as 10 seconds, the system utterances provide a new topic. For example, the latest article with a title corresponding to a topic that two users are commonly interested in is extracted from a news site on the Web, and the content related to that article is provided as a new topic.
  • Dedicated hardware for input / output of voice is prepared in the vicinity of each user.
  • detailed settings and a function for confirming conversation archives are provided by a dedicated application installed on a mobile terminal such as a smartphone owned by each user.
  • FIG. 1 is a diagram showing a configuration example of a voice communication system according to an embodiment of the present technology.
  • the voice communication system of FIG. 1 is configured by connecting two interactive agent devices 1A and 1B, which are interactive agent devices 1, via a network 21.
  • the communication management server 11 is also connected to the network 21 including the Internet and the like.
  • the interactive agent device 1A is a device used by the user A and is installed at the user A's home or the like.
  • the interactive agent device 1B is a device used by the user B and is installed at the user B's home or the like. Although two interactive agent devices 1 are shown in FIG. 1, in reality, more interactive agent devices 1 are connected to the network 21.
  • users A and B have mobile terminals 2A and 2B such as smartphones, respectively.
  • the mobile terminals 2A and 2B are also connected to the network 21.
  • the interactive agent device 1 is a device having an interactive agent function capable of exchanging voice with the user.
  • the interactive agent device 1 is provided with a microphone that detects the voice of the user, a speaker that outputs the voice of another user, and the like.
  • the agent function of the interactive agent device 1 is realized by appropriately linking the interactive agent device 1 and the communication management server 11. Various types of information are transmitted and received between the interactive agent device 1 and the communication management server 11.
  • the agent function of the interactive agent device 1 realizes, for example, a conversation between two matched users.
  • the user A and the user B shown in FIG. 1 are users matched by the communication management server 11.
  • the voice of the user A is collected by the interactive agent device 1A and transmitted to the interactive agent device 1B via the communication management server 11.
  • the voice of the user A transmitted via the communication management server 11 is output.
  • the voice of the user B is collected by the interactive agent device 1B and transmitted to the interactive agent device 1A via the communication management server 11.
  • the voice of the user B transmitted via the communication management server 11 is output.
  • the user A and the user B can have a remote conversation at home, respectively.
  • an utterance that assists the conversation between the two is appropriately transmitted from the communication management server 11 to the interactive agent device 1A and the interactive agent device 1B as the utterance on the system side. , It is output in the interactive agent device 1A and the interactive agent device 1B, respectively.
  • User A and User B each listen to the utterance on the system side and take a reaction.
  • the communication management server 11 not only matches two people who have a conversation, but also analyzes the situation of the conversation between the two people and assists the conversation between the two people according to the situation of the conversation. It has a conversation assist function to perform.
  • the utterance output from the interactive agent device 1 by the communication management server 11 by the conversation assist function is referred to as an assist utterance.
  • Assisted utterance is a conversational assist voice that assists in conversation.
  • FIG. 2 is a diagram showing an output example of assisted utterance.
  • FIG. 2 shows the states of user A and user B who are actively talking.
  • the illustration of the interactive agent device 1 and the like is omitted in FIG. 2, the utterances of each user are transmitted from the interactive agent device 1 used by oneself to the interactive agent device 1 used by the other party. , Is output.
  • the assist utterance is output from the interactive agent device 1A and the interactive agent device 1B as shown in the lower part of FIG.
  • an assisted utterance that encourages conversation by talking about "baseball", which is a common hobby of two people, is output.
  • User A and User B will talk about "baseball” and resume the conversation.
  • the communication management server 11 analyzes the conversation status such as whether or not the conversation is interrupted, and outputs an assist utterance based on the analysis result.
  • the conversation assist function is realized by AI prepared in the communication management server 11.
  • the communication management server 11 is managed by, for example, the manufacturer of the interactive agent device 1.
  • FIG. 3 is a diagram showing an example of AI that realizes the conversation assist function.
  • the communication management server 11 is provided with a conversation assist AI, which is an AI that realizes a conversation assist function.
  • the conversation assist AI is an inference model composed of, for example, a neural network that inputs the personal information of users A and B, such as the situation of conversation and hobbies, and outputs the content provided as a topic. Is.
  • the conversation situation includes the utterance time of each of the user A and the user B, the silence time (the time when the conversation is interrupted), and the like.
  • the inference model that composes the conversation assist AI is generated by performing machine learning using information representing various conversation situations, personal information of various users, and information of news articles acquired from news sites. Will be done.
  • the interactive agent device 1A and the interactive agent device 1B are each connected to the conversation assist AI.
  • the conversation assist AI the situation of the conversation between the two people is analyzed based on the information transmitted from the interactive agent device 1A and the interactive agent device 1B, and the topic is provided by the conversation assist function as appropriate.
  • user A and user B each use their own mobile terminal 2 on which a dedicated application is installed to provide profile information such as topics of interest (events, topics). It has been entered in advance.
  • profile information such as topics of interest (events, topics). It has been entered in advance.
  • user A and user B start a dedicated application and perform a login operation by inputting account information or the like, the profiles of user A and user B managed in the communication management server 11 in association with the account information. Information is identified.
  • the conversation between two people using such a conversation assist function is performed, for example, in a situation where two users are drinking alcohol prepared by the interactive agent device 1 at their respective homes. That is, the interactive agent device 1 is provided with a function of serving alcohol in response to a user's request. The assisted utterance is output to the two users according to the situation of the conversation after the alcohol is provided by the interactive agent device 1.
  • User A and User B each have a one-on-one conversation with the other party while drinking alcohol prepared by the interactive agent device 1 at home. Since the assisted utterance, which is a third party's utterance, is appropriately sandwiched in the one-to-one conversation between the user A and the user B depending on the situation of the conversation, the situation where the user A and the user B are having a conversation is As shown in FIG. 4, the situation is similar to the situation in front of the bartender who enters the conversation at an appropriate timing.
  • User A and User B can have a conversation while drinking alcohol with the support of assisted utterance, and can communicate smoothly.
  • FIG. 4 shows a situation in which user A and user B are sitting next to each other, but in reality, user A and user B are at their respective homes and head for the interactive agent device 1. I'm talking about it.
  • the interactive agent device 1 that plays the role of a bartender who enters a one-on-one conversation at an appropriate timing and creates the feeling of being in a bar can also be called a bartender robot.
  • FIG. 5 is an enlarged perspective view showing the appearance of the interactive agent device 1.
  • the interactive agent device 1 has a vertically long substantially rectangular parallelepiped housing 51 having a gentle slope formed on its upper surface.
  • a recessed portion 51A is formed on the upper surface of the housing 51.
  • a bottle 61 containing liquor such as whiskey is attached to the recessed portion 51A.
  • a rectangular opening 51B is formed below the front surface of the housing 51.
  • the opening 51B is used as an outlet for the glass 62.
  • a glass 62 is placed in the opening 51B, and the liquor contained in the bottle 61 is poured into the glass 62 in response to a request for liquor by the user.
  • a server mechanism for automatically pouring alcohol is also provided inside the housing 51.
  • the user can continue to use the interactive agent device 1 by attaching the delivered new bottle 61 to the recess 51A.
  • a liquor subscription service is provided in which bottles 61 are delivered on a regular basis.
  • a inlet for ice, water used as a split material, carbonated water, etc. is provided on the side surface of the housing 51.
  • the user can try various drinking styles such as straight, on the rocks, and highball by requesting the drinking style by voice.
  • the interactive agent device 1 is provided with recipe data that controls the server mechanism and reproduces how to pour the bartender.
  • a dedicated application for the voice communication system is installed in each mobile terminal 2.
  • the dedicated application is prepared, for example, by the manufacturer of the interactive agent device 1.
  • the user operates a dedicated application to register profile information such as age, address, and hobbies.
  • the registered profile information is transmitted to the communication management server 11 and is managed in association with the user's account information.
  • FIG. 7 and 8 are diagrams showing an example of a screen of a dedicated application.
  • a drinking record tab T1 and a conversation recording tab T2 are prepared.
  • the drinking record tab T1 is tapped, the drinking record is displayed as shown in FIG.
  • information such as the date and time and amount of alcohol consumed and how to drink alcohol is displayed as a drinking record.
  • the conversation record tab T2 when the conversation record tab T2 is tapped, the conversation record is displayed as shown in FIG. In the example of FIG. 8, information such as the name of the other party, the date and time of the conversation, and the tag indicating the content of the conversation is displayed as the conversation record.
  • the function of displaying such a drinking record and a conversation record is realized based on the information managed by the communication management server 11.
  • the dedicated application communicates with the communication management server 11 and displays various screens based on the information transmitted from the communication management server 11.
  • Assisted utterance according to the conversation situation (1) Assisted utterance according to the utterance time
  • a fixed phrase is used to speak to user A as follows. Assist utterance is output. "What do you think of Mr. A?” (A utterance that asks for an opinion on Mr. B's story) "What do you like about Mr. A?” (Utterance asking Mr. A) "What is Mr. A doing lately?” (Utterance of topic change)
  • Such assisted utterance is output when the difference between the utterance time of user A and the utterance time of user B is large, such that the utterance time of user B exceeds 80% of the total.
  • "Mr. A” represents user A
  • "Mr. B” represents user B.
  • Such assisted utterances search the web for news articles related to the most frequently occurring words in the last 10 minutes of conversation, including, for example, the title of the latest news article of interest on a news site. Will be generated.
  • 9 to 11 are diagrams showing specific examples of conversations between user A and user B.
  • the utterance shown in the left column represents the utterance of user A
  • the utterance shown in the right column represents the utterance of user B.
  • the utterance shown in the center is a system-side utterance (system utterance) output from the interactive agent device 1 under the control of the communication management server 11.
  • the system utterance also includes the assist utterance described above. The same applies to the figures described later that show specific examples of other conversations.
  • a system utterance S1 such as "Mr. A and Mr. B are calling" is output from the interactive agent device 1A, and the user who hears the system utterance S1.
  • A is initiated in response to consenting to initiate a conversation with user B.
  • the system utterance S1 is an utterance that tells the user A that the user B wants to start a conversation with the user A.
  • the system utterance S1 is output when, for example, the user A is selected by the user B from the candidates of the conversation partner matched by the communication management server 11.
  • Matching by the communication management server 11 is performed based on topics of interest such as "economy” and "entertainment" registered in advance by each user, for example. Matching may be performed based on the text data input at the time of selecting the other party instead of the topics registered in advance. As a result, each user can select a user who has a common topic of interest as a conversation partner.
  • the utterance of "Yes, please” is made by the user A, and in the time from time t2 to time t3, "Nice to meet you. User B is saying, "Mr. A also likes baseball.”
  • the voice data of the user A is transmitted from the interactive agent device 1A to the interactive agent device 1B via the communication management server 11, and is output to the interactive agent device 1B as an utterance of the user A.
  • the voice data of the user B is transmitted from the interactive agent device 1B to the interactive agent device 1A via the communication management server 11, and is output in the interactive agent device 1A as the utterance of the user B.
  • the utterance time of the user A and the utterance time of the user B are measured as the utterance status of the user A and the user B, respectively.
  • the section shown with a hatch represents the utterance time of user A
  • the section shown in light color represents the utterance time of user B. The same applies to other figures.
  • a word as a keyword is extracted from the utterance of the user A and the utterance of the user B.
  • the words enclosed in a frame in FIG. 9 are words extracted by the communication management server 11 as keywords.
  • user A and user B After time t3, user A and user B alternately speak, and the conversation between user A and user B continues.
  • user B speaks for a longer time than user A.
  • system utterance S2 such as "What does Mr. A like?" Is output at time t12 in FIG.
  • the system utterance S2 is an assisted utterance that uses a fixed phrase to speak to the user A. For example, when the utterance time of the user B exceeds 80% of the total time of the conversation between the two people, such an assist utterance is output.
  • the voice data of the system utterance S2 is transmitted from the communication management server 11 to both the interactive agent device 1A and the interactive agent device 1B, and is output as an assist utterance in each of the interactive agent device 1A and the interactive agent device 1B. Will be done.
  • User A who heard the system utterance S2, made an utterance such as "Well, I like Tokyo Skull Falcon" in the time from time t13 to time t14, in response to the utterance being thrown. Will do.
  • the communication management server 11 gives the user A, who has a short utterance time, an opportunity to speak, and balances the utterance time of user A and the utterance time of user B, so that smooth communication can be realized. ..
  • the system utterance S3 is an assist utterance that provides a topic to two people because the silence continues.
  • the time during which the two users are silent is also measured as the utterance status of the user A and the user B.
  • the communication management server 11 can realize smooth communication by encouraging two people who are silent to speak and having a conversation.
  • a system utterance S4 such as "It is time to end the conversation. Thank you.” Is output as shown in the lower part of FIG. The user A and the user B who have heard the system utterance S4 greet each other and end the conversation.
  • the communication management server 11 analyzes the situation of the conversation between the two people. Assisted utterances according to the conversation situation are appropriately output, whereby smooth communication between user A and user B is realized.
  • the assisted utterance including information such as the usage status of the linked Web service user is It will be provided to users as a new topic.
  • an assisted utterance that provides information related to the content of the conversation as a topic is output.
  • Information on the song that the user is listening to is acquired, for example, from a server that provides a music streaming service by a dedicated application, or from an application that the user has installed on the mobile terminal 2 to use the music streaming service. ..
  • an assist utterance that provides information related to the content of the conversation as a topic is output.
  • the user's shopping history information is acquired from, for example, a server that manages the shopping site by a dedicated application, or from an application that the user has installed on the mobile terminal 2 for shopping.
  • 12 and 13 are diagrams showing specific examples of conversations between user C and user D.
  • the conversation between the user C and the user D is started in the same manner as the conversation between the user A and the user B described with reference to FIG.
  • User C and user D are, for example, users who are matched as conversation partners based on their common hobby being "overseas drama".
  • the voice data of the user C is transmitted from the interactive agent device 1C, which is the interactive agent device 1 used by the user C, to the interactive agent device 1D via the communication management server 11, and has a dialogue as the utterance of the user C. Output in the type agent device 1D.
  • the interactive agent device 1D is the interactive agent device 1 used by the user D.
  • the voice data of the user D is transmitted from the interactive agent device 1D to the interactive agent device 1C via the communication management server 11, and is output in the interactive agent device 1C as the utterance of the user D.
  • the communication management server 11 analyzes the content of the conversation, and for example, detects words in the soundtrack of the movie that user C likes to listen to. Here, it is assumed that the user C is listening to the soundtrack of the movie using a music streaming service that can cooperate with the communication management server 11.
  • the system utterance S12 is an assist utterance that provides information related to the content of the conversation as a topic based on the information of the song that the user C is listening to.
  • the voice data of the system utterance S12 is transmitted from the communication management server 11 to both the interactive agent device 1C and the interactive agent device 1D, and is output as an assist utterance in each of the interactive agent device 1C and the interactive agent device 1D. Will be done. User D who heard the system utterance S12 said, "I also listen to the soundtrack! That song will be repeated many times.” In the time from time t9 to time t10, depending on the topic provided. Will make an utterance like this.
  • the communication management server 11 can prompt the user D to speak and realize smooth communication by giving the user D information about the user C that triggers the utterance.
  • time t10 As shown in FIG. 13, user C and user D alternately speak with the assisted utterance as a trigger.
  • System utterance S13 is output.
  • the system utterance S13 is an assist utterance that provides information related to the content of the conversation as a topic based on the information of the shopping history of the user C.
  • the system utterance S14 is an assist utterance that provides information on an event related to the content of the conversation as a topic based on the information acquired from the Web.
  • the communication management server 11 analyzes the content of the conversation between the two people, and the information related to the content of the conversation is acquired based on the usage status of the Web service. NS.
  • an assist utterance that provides information acquired based on the usage status of the Web service as a topic is output. As a result, smooth communication between user C and user D is realized.
  • the glass 62 used by the user is provided with a sensor that detects the remaining amount of alcohol.
  • the information on the remaining amount of alcohol detected by the sensor is acquired by the interactive agent device 1 and transmitted to the communication management server 11.
  • the remaining amount of alcohol may be detected by analyzing the image taken by the camera provided in the interactive agent device 1.
  • the image analysis for detecting the remaining amount of alcohol may be performed by the interactive agent device 1 or may be performed by the communication management server 11.
  • 14 and 15 are diagrams showing specific examples of conversations between user A and user B.
  • the conversation shown in FIG. 14 is the same conversation as the conversation between user A and user B described with reference to FIG.
  • a time series of the remaining amount of alcohol that user A is drinking is shown.
  • a time series of the remaining amount of alcohol consumed by user B is shown.
  • the remaining amount of alcohol is specified in the communication management server 11 based on the information transmitted from the interactive agent device 1 used by each.
  • the remaining amount of alcohol of user A is 80% and the remaining amount of alcohol of user B is 50% at the timing t10 when the utterance of user A ends.
  • System utterance S23 is an assist utterance that recommends a second drink.
  • the voice data of the system utterance S23 is transmitted from the communication management server 11 to both the interactive agent device 1A and the interactive agent device 1B, and is output as an assist utterance in each of the interactive agent device 1A and the interactive agent device 1B. Will be done.
  • the user B who has heard the system utterance S23 can request a second cup and have the interactive agent device 1B prepare alcohol.
  • the remaining amount of alcohol of user A is 60%, and more than half of it remains.
  • the communication management server 11 recommends a second cup according to the fact that only one user has run out of alcohol, and by adjusting the progress of the two people's alcohol, smooth communication between user A and user B Can be realized. Users who run out of alcohol usually care about it and can't concentrate on the conversation, which can be prevented.
  • the conversation between user A and user B shown in FIG. 15 ends, for example, in response to an assist utterance output when the two people run out of alcohol.
  • the user's emotions are analyzed based on the utterance, and the following processing is performed according to the emotion analysis results.
  • the communication management server 11 is equipped with an emotion analysis function (emotion analysis engine).
  • the user's emotions are analyzed based on the user's speaking time, listening time, keywords included in the utterance, and the like.
  • assisted utterances that provide topics that are thought to give positive emotions to users who have negative emotions are output. For example, assisted utterances provide a topic about what a user with negative emotions likes.
  • Matching with the optimum user is performed according to the personality and preference of the user specified based on the emotion analysis result.
  • the personality / preference of the user is analyzed based on the utterance of the timing immediately before the timing of changing from the negative emotion to the positive emotion.
  • a user's personality and preferences are analyzed based on changes in emotions during one conversation, and when matching the next conversation, matching is performed with users who are likely to have positive emotions with each other.
  • the IoT (Internet of Things) device is controlled based on the emotion analysis result.
  • an IoT device that can be controlled from the interactive agent device 1 is provided together with the interactive agent device 1.
  • LED lighting whose brightness and color temperature can be adjusted is provided as an IoT device.
  • the communication management server 11 controls the operation of the IoT device via the interactive agent device 1 by transmitting a control command to the interactive agent device 1.
  • the operation of the IoT device may be controlled by the communication management server 11 via the mobile terminal 2 by transmitting a control command to the mobile terminal 2.
  • FIG. 16 is a diagram showing a specific example of a conversation between user A and user B.
  • the conversation shown in FIG. 16 is basically the same conversation as the conversation between user A and user B described with reference to FIG.
  • the waveform shown on the right side of the utterance of the user A represents the emotion of the user A during the utterance
  • the waveform shown on the left side of the utterance of the user B represents the emotion of the user B during the utterance.
  • the hatched waveforms represent negative emotions
  • the lightly colored waveforms represent positive emotions.
  • the amplitude of the waveform represents the emotional value, which is the degree of emotion.
  • the utterance is performed by the user B at each time from time t1 to time t2, time t3 to time t4, and time t5 to time t6.
  • User B's emotions during each utterance are positive emotions.
  • the utterance is performed by the user A at each short time from time t2 to time t3, time t4 to time t5, and time t6 to time t7.
  • the emotion of the user A between the utterances made between the time t2 and the time t3 and between the utterances made between the time t4 and the time t5 is a negative emotion.
  • User A's emotions during the utterances made between time t6 and time t7 are positive emotions.
  • the communication management server 11 analyzes the user's emotions, the user's personality / preference, etc., as well as the conversation status, based on each utterance. For example, it is presumed that the user B has characteristics such as a long utterance time, a short listening time, and always positive emotions. In addition, it is presumed that he likes to talk and is interested in topics such as "baseball".
  • a system utterance S31 such as "I checked the latest news about Takamori" is output.
  • the system utterance S31 is an assisted utterance that provides a topic that is thought to give a positive emotion. After the output of the system utterance S31, the system utterance that conveys the content of the latest searched news article is output.
  • the communication management server 11 makes the emotion of the user A a positive emotion, and thereafter, it becomes possible to realize smooth communication between the user A and the user B.
  • FIG. 17 is a diagram showing an example of matching.
  • one utterance is relatively short, and matching is performed with user C who is interested in training professional baseball.
  • the matching between the user A and the user C is performed according to the personality and preference of the user estimated based on each emotion during the conversation.
  • a system utterance S41 such as "Mr. A and Mr. C are calling" is output from the interactive agent device 1A, and the user who hears the system utterance S41. A is initiated in response to consenting to initiate a conversation with user C.
  • the communication management server 11 can perform matching with the optimum user according to the personality and preference of the user.
  • the communication management server 11 has information on a combination of users that is considered to be optimal.
  • the LED lighting control based on the emotion analysis result is performed so as to adjust to bright light when the content of the conversation is bright.
  • the LED lighting is controlled so as to adjust to a calm and dark light. For example, conversations about hobbies, family, romance, etc. are bright conversations, and conversations about consultations, worries, funerals, etc. are dark conversations.
  • the communication management server 11 can adjust the environment around the user according to the content of the conversation.
  • FIG. 18 is a block diagram showing a configuration example of the interactive agent device 1.
  • the interactive agent device 1 is configured by connecting the microphone 102, the communication unit 103, and the liquor serving unit 104 to the control unit 101 together with the speaker 52.
  • the control unit 101 is composed of a CPU (Central Processing Unit), a ROM (Read Only Memory), and a RAM (Random Access Memory).
  • the control unit 101 executes a predetermined program by the CPU and controls the entire operation of the interactive agent device 1.
  • the agent function unit 111 the conversation control unit 112, the device control unit 113, and the sensor data acquisition unit 114 are realized by executing a predetermined program.
  • the agent function unit 111 realizes the agent function of the interactive agent device 1. For example, the agent function unit 111 executes various tasks requested by the user by voice, and presents the execution result of the task to the user by synthetic voice. For example, the agent function unit 111 executes various tasks such as checking the weather and preparing alcohol.
  • the agent function is realized by appropriately communicating with an external server such as the communication management server 11.
  • the conversation control unit 112 controls the conversation with the user selected as the conversation partner. For example, the conversation control unit 112 transmits the voice data of the user supplied from the microphone 102 to the communication management server 11 by controlling the communication unit 103. The voice data transmitted to the communication management server 11 is transmitted to the interactive agent device 1 used by the user to talk to.
  • the conversation control unit 112 receives the voice data of the other party's user transmitted from the communication management server 11 in the communication unit 103, the conversation control unit 112 of the other party's user based on the voice data supplied from the communication unit 103.
  • the utterance is output from the speaker 52.
  • the conversation control unit 112 When the voice data of the system utterance transmitted from the communication management server 11 is received by the communication unit 103, the conversation control unit 112 outputs the system utterance from the speaker 52 based on the voice data supplied from the communication unit 103. Let me.
  • the device control unit 113 transmits a control command to an external device to be controlled and controls the operation of the device.
  • the device control unit 113 controls the IoT device and the like according to the user's emotions as described above, based on the information transmitted from the communication management server 11.
  • the sensor data acquisition unit 114 receives the sensor data transmitted from the sensor provided on the glass 62 by controlling the communication unit 103. From the sensor provided in the glass 62, for example, sensor data indicating the remaining amount of alcohol is transmitted. The sensor data acquisition unit 114 transmits information indicating the remaining amount of alcohol to the communication management server 11. The sensor data acquisition unit 114 functions as a detection unit that detects the remaining amount of alcohol of the user based on the sensor data transmitted from the sensor provided on the glass 62.
  • the microphone 102 detects the user's utterance and outputs voice data to the control unit 101.
  • the communication unit 103 is composed of a network interface that communicates with a device on the network 21, a wireless communication interface that performs short-range wireless communication such as wireless LAN and Bluetooth (registered trademark), and the like.
  • the communication unit 103 transmits and receives various data such as voice data to and from the communication management server 11. Further, the communication unit 103 transmits and receives various data to and from an external device provided in the same space as the interactive agent device 1, such as a device to be controlled and a sensor provided in the glass 62.
  • the liquor serving unit 104 pours the liquor contained in the bottle 61 into the glass 62 under the control of the agent function unit 111.
  • the liquor server mechanism described above is realized by the liquor serving unit 104.
  • the liquor preparation section 104 prepares liquor according to the recipe data.
  • the recipe data included in the control unit 101 describes information on how to prepare alcohol according to how to drink.
  • FIG. 19 is a block diagram showing a hardware configuration example of the communication management server 11.
  • the CPU 201, ROM 202, and RAM 203 are connected to each other by the bus 204.
  • An input / output interface 205 is further connected to the bus 204.
  • An input unit 206 including a keyboard and a mouse, and an output unit 207 including a display and a speaker are connected to the input / output interface 205.
  • the input / output interface 205 is connected to a storage unit 208 composed of a hard disk, a non-volatile memory, etc., a communication unit 209 composed of a network interface, etc., and a drive 210 for driving the removable media 211.
  • the communication management server 11 is composed of a computer having such a configuration.
  • the communication management server 11 may be configured by a plurality of computers instead of one computer.
  • FIG. 20 is a block diagram showing a functional configuration example of the communication management server 11.
  • the control unit 221 is realized in the communication management server 11.
  • the control unit 221 is composed of a profile management unit 231, a matching unit 232, a Web service analysis unit 233, a robot control unit 234, a conversation analysis unit 235, an emotion analysis unit 236, a liquor progress analysis unit 237, and a system utterance generation unit 238. It is composed. At least a part of the configuration shown in FIG. 20 is realized by executing a predetermined program by the CPU 201 of FIG.
  • the profile management unit 231 manages the profile information of each user who uses the voice communication system. Not only the information registered by using the dedicated application but also the information such as the emotion during the conversation and the characteristics of the user specified based on the content of the conversation are managed by the profile management unit 231 as profile information.
  • the matching unit 232 matches the user to be talked to based on the profile information and the like managed by the profile management unit 231.
  • the user information matched by the matching unit 232 is supplied to the Web service analysis unit 233 and the robot control unit 234.
  • the Web service analysis unit 233 analyzes the usage status of the Web service by each user who is having a conversation. For example, the Web service analysis unit 233 acquires information on the usage status of the Web service from the dedicated application installed on the mobile terminal 2 and analyzes it.
  • the analysis by the Web service analysis unit 233 identifies information such as songs that the user is listening to using the music streaming service and products purchased by the user using the shopping site.
  • the analysis result by the Web service analysis unit 233 is supplied to the system utterance generation unit 238. Based on the analysis result by the Web service analysis unit 233, the assisted utterance linked with the Web service is generated as described with reference to FIGS. 12 and 13.
  • the robot control unit 234 controls the interactive agent device 1 which is a bartender robot used by the user having a conversation.
  • the robot control unit 234 controls the communication unit 209 and transmits the voice data transmitted from the interactive agent device 1 of one user to the interactive agent device 1 of the other user.
  • the voice data of the user's utterance received by the robot control unit 234 is supplied to the conversation analysis unit 235 and the emotion analysis unit 236.
  • the robot control unit 234 transmits the voice data of the system utterance generated by the system utterance generation unit 238 to the interactive agent device 1 of both users having a conversation, and outputs the system utterance.
  • the robot control unit 234 uses the information indicating the remaining amount of alcohol received by the communication unit 209 as the progress of alcohol. Output to the analysis unit 237.
  • the robot control unit 234 communicates with the interactive agent device 1 and performs various processes such as controlling the IoT device via the interactive agent device 1.
  • the conversation analysis unit 235 analyzes the utterance status such as the utterance time and silence time of each user having a conversation based on the voice data supplied from the robot control unit 234. In addition, the conversation analysis unit 235 analyzes the keywords included in the utterance by analyzing the content of the conversation. The analysis result by the conversation analysis unit 235 is supplied to the system utterance generation unit 238. Based on the analysis result by the conversation analysis unit 235, the assisted utterance is generated according to the conversation situation as described with reference to FIGS. 9 to 11.
  • the emotion analysis unit 236 analyzes the emotions of each user who is having a conversation based on the voice data supplied from the robot control unit 234.
  • the analysis result by the emotion analysis unit 236 is supplied to the system utterance generation unit 238.
  • the assisted utterance according to the emotion is generated as described with reference to FIG.
  • the liquor progress analysis unit 237 analyzes the liquor progress of each user having a conversation based on the information supplied from the robot control unit 234. As described above, the information representing the remaining amount of alcohol transmitted from the interactive agent device 1 is the sensor data transmitted from the sensor provided on the glass 62. The liquor progress analysis unit 237 analyzes the liquor progress of each user based on the sensor data transmitted from the sensor provided on the glass 62.
  • the analysis result by the liquor progress analysis unit 237 is supplied to the system utterance generation unit 238. Based on the analysis result by the liquor progress analysis unit 237, the assisted utterance is generated according to the remaining amount of liquor as described with reference to FIGS. 14 and 15.
  • the system utterance generation unit 238 generates an assist utterance based on the analysis results in each of the Web service analysis unit 233, the conversation analysis unit 235, the emotion analysis unit 236, and the liquor progress analysis unit 237, and the generated voice of the assist utterance. Data is supplied to the robot control unit 234. Further, the system utterance generation unit 238 appropriately generates system utterances other than the assist utterance, and supplies the generated voice data of the system utterance to the robot control unit 234.
  • step S1 the matching unit 232 matches the user to be talked to by referring to the profile information managed by the profile management unit 231 and starts the conversation.
  • step S2 the robot control unit 234 transmits and receives voice data spoken by the user to and from the interactive agent device 1 used by the user having a conversation.
  • step S3 the conversation analysis unit 235 analyzes the conversation status of the two users who are having a conversation based on the voice data of the utterance.
  • step S4 the system utterance generation unit 238 determines whether or not assisted utterance is necessary based on the result of analysis of the conversation situation.
  • step S5 When it is determined in step S4 that assisted utterance is necessary, in step S5, the system utterance generation unit 238 generates the assisted utterance, and the voice data of the assisted utterance is transmitted from the robot control unit 234 to the interactive agent device of each user. Send to 1.
  • step S6 the robot control unit 234 determines whether or not the conversation has ended.
  • step S6 If it is determined in step S6 that the conversation is not over, the process returns to step S2 and the above-mentioned process is repeated. Similarly, when it is determined in step S4 that the assisted utterance is not necessary, the processes after step S2 are repeated.
  • step S6 If it is determined in step S6 that the conversation is over, the process ends.
  • step S11 the microphone 102 detects the user's utterance.
  • step S12 the conversation control unit 112 transmits the voice data of the user's utterance supplied from the microphone 102 to the communication management server 11.
  • step S13 the conversation control unit 112 determines whether or not the voice data of the utterance of the user to talk to or the voice data of the system utterance has been transmitted from the communication management server 11.
  • step S14 the speaker 52 outputs the utterance of the user to talk to or the system utterance according to the control by the conversation control unit 112.
  • step S15 If it is determined in step S15 that the conversation has ended, the process ends.
  • the user of the interactive agent device 1 can easily enjoy a conversation with another user at home by using the sake prepared by the interactive agent device 1 for an evening drink. For example, even if the conversation is interrupted, the communication management server 11 assists the user, so that the user can smoothly communicate with the other party.
  • an elderly person living alone can eliminate the feeling of loneliness.
  • the interactive agent device 1 allows the user to easily introduce such an environment into his or her home.
  • the user will be able to manage alcohol intake and review conversation records using a dedicated application.
  • the product provided by the interactive agent device 1 is alcohol
  • it may be other beverages such as coffee, tea, and juice.
  • food may be served. By providing the food, each user can enjoy talking with other users while eating the food.
  • the series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed from the program recording medium on a computer embedded in dedicated hardware, a general-purpose personal computer, or the like.
  • the installed program is provided by recording it on a removable medium consisting of an optical disk (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.) or a semiconductor memory. It may also be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting.
  • the program can be pre-installed in the ROM or storage.
  • the program executed by the computer may be a program that is processed in chronological order according to the order described in this specification, or may be a program that is processed in parallel or at a necessary timing such as when a call is made. It may be a program in which processing is performed.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a device in which a plurality of modules are housed in one housing are both systems. ..
  • this technology can have a cloud computing configuration in which one function is shared by a plurality of devices via a network and processed jointly.
  • each step described in the above flowchart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • the present technology can also have the following configurations.
  • An analysis unit that analyzes the utterances of the two users, which are detected by the interactive robots used by the two users who are having a conversation over the network.
  • An information processing device including a control unit that outputs a conversation assisting voice, which is a voice assisting the conversation, from each of the interactive robots according to the conversation situation of the two users.
  • the control unit outputs the conversation assisting voice to the two users according to the situation of conversation after the alcohol is provided by the interactive robots.
  • control unit outputs the conversation assisting voice that prompts the utterance in response to the utterance of the two users being interrupted for a certain period of time.
  • control unit outputs the conversation assisting voice of the content related to the information attracting attention in the news site on the network.
  • the control unit outputs the conversation assist voice based on the usage status of the Web service.
  • the control unit transmits a control command for controlling the device to the interactive robot and transmits the control command to the mobile terminal owned by the user via the interactive robot or via the mobile terminal.
  • the information processing apparatus according to (10), which controls the device.
  • Information processing device Analyzing the utterances of each of the two said users detected by their respective interactive robots used by the two users talking over the network.
  • a control method in which a conversation assisting voice, which is a voice assisting a conversation is output from each of the interactive robots according to the conversation situation of the two users.
  • the waitperson department that provides alcohol to users, For an information processing device that detects the utterance of the user after the liquor is served and analyzes the voice data of the detected utterance between the utterance of the user and the utterance of another user with whom the conversation is made.
  • An interactive robot equipped with a conversation control unit that outputs a conversation assisting voice, which is a voice that assists the conversation, that is transmitted from the information processing device according to the situation of the conversation between the two people.
  • a detection unit that detects the remaining amount of alcohol of the user and transmits information indicating the detected remaining amount of alcohol to the information processing device is further provided.
  • Interactive robot Serve liquor to users For an information processing device that detects the utterance of the user after the liquor is served and analyzes the voice data of the detected utterance between the utterance of the user and the utterance of another user with whom the conversation is made.
  • Send A control method for outputting a conversation assisting voice, which is a voice assisting a conversation, transmitted from the information processing device according to the situation of a conversation between two people.
  • 1A, 1B interactive agent device 2A, 2B mobile terminal, 11 communication management server, 21 network, 51 housing, 61 bottle, 62 glass, 101 control unit, 102 microphone, 103 communication unit, 104 liquor serving department, 111 Agent function unit, 112 conversation control unit, 113 device control unit, 114 sensor data acquisition unit, 221 control unit, 231 profile management unit, 232 matching unit, 233 Web service analysis unit, 234 robot control unit, 235 conversation analysis unit, 236 Emotion analysis department, 237 liquor progress analysis department, 238 system utterance generation department

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本技術は、2者間のコミュニケーションを円滑に行わせることができるようにする情報処理装置、対話型ロボット、制御方法に関する。 本技術の一側面の情報処理装置は、ネットワークを介して会話を行っている2人のユーザが使用するそれぞれの対話型ロボットにより検出された、2人のユーザのそれぞれの発話を解析し、2人のユーザの会話の状況に応じて、会話の補助となる音声である会話補助音声をそれぞれの対話型ロボットから出力させる装置である。本技術は、遠隔で会話を行う2人が利用する対話型ロボットの動作を制御するサーバに適用することができる。

Description

情報処理装置、対話型ロボット、制御方法
 本技術は、特に、2者間のコミュニケーションを円滑に行わせることができるようにした情報処理装置、対話型ロボット、制御方法に関する。
 近年、音声によるユーザの問いかけに対して音声で応答することによってユーザを支援する対話型エージェントが普及してきている。ユーザは、このような対話型エージェントの機能を搭載したデバイスに話しかけることによって、天気予報を聞いたり、音楽を再生したり、予定を確認したりすることができる。
 特許文献1には、会話形式で個人情報を収集し、収集した個人情報に基づいて、個別のユーザに的確な商品等を提案する対話型エージェントシステムが記載されている。
 非特許文献1には、仲人と呼ばれる第三者を介してビデオ通話を行うマッチングサービスが開示されている。
特開2008-52449号公報
「Yi Dui」,インターネット,<URL https://www.520yidui.com/>,令和2年3月16日検索
 従来の対話型エージェントシステムは、一般的に、ユーザとシステムの関係が1:1の関係となって、ユーザの質問等に対して応答するものである。
 本技術はこのような状況に鑑みてなされたものであり、2者間のコミュニケーションを円滑に行わせることができるようにするものである。
 本技術の一側面の情報処理装置は、ネットワークを介して会話を行っている2人のユーザが使用するそれぞれの対話型ロボットにより検出された、2人の前記ユーザのそれぞれの発話を解析する解析部と、2人の前記ユーザの会話の状況に応じて、会話の補助となる音声である会話補助音声をそれぞれの前記対話型ロボットから出力させる制御部とを備える。
 本技術の他の側面の対話型ロボットは、ユーザに対してお酒を提供する給仕部と、お酒が提供された後の前記ユーザの発話を検出し、検出した発話の音声データを、前記ユーザの発話と、会話の相手となる他のユーザの発話とを解析する情報処理装置に対して送信させるとともに、2人の会話の状況に応じて前記情報処理装置から送信されてきた、会話の補助となる音声である会話補助音声を出力させる会話制御部とを備える。
 本技術の一側面においては、ネットワークを介して会話を行っている2人のユーザが使用するそれぞれの対話型ロボットにより検出された、2人の前記ユーザのそれぞれの発話が解析され、2人の前記ユーザの会話の状況に応じて、会話の補助となる音声である会話補助音声をそれぞれの前記対話型ロボットから出力させる処理が行われる。
 本技術の他の側面においては、ユーザに対してお酒が提供され、お酒が提供された後の前記ユーザの発話が検出され、検出した発話の音声データを、前記ユーザの発話と、会話の相手となる他のユーザの発話とを解析する情報処理装置に対して送信させる処理が行われる。また、2人の会話の状況に応じて前記情報処理装置から送信されてきた、会話の補助となる音声である会話補助音声を出力させる処理が行われる。
本技術の一実施形態に係る音声コミュニケーションシステムの構成例を示す図である。 アシスト発話の出力例を示す図である。 会話アシスト機能を実現するAIの例を示す図である。 会話の様子を示す図である。 対話型エージェント装置の外観を拡大して示す斜視図である。 ボトルの取り付け例を示す図である。 飲酒記録の表示例を示す図である。 会話記録の表示例を示す図である。 ユーザA-ユーザB間の会話の具体例を示す図である。 図9に続く会話の具体例を示す図である。 図10に続く会話の具体例を示す図である。 ユーザC-ユーザD間の会話の具体例を示す図である。 図12に続く会話の具体例を示す図である。 ユーザA-ユーザB間の会話の具体例を示す図である。 図14に続く会話の具体例を示す図である。 ユーザA-ユーザB間の会話の具体例を示す図である。 マッチングの例を示す図である。 対話型エージェント装置の構成例を示すブロック図である。 コミュニケーション管理サーバのハードウェア構成例を示すブロック図である。 コミュニケーション管理サーバの機能構成例を示すブロック図である。 コミュニケーション管理サーバの処理について説明するフローチャートである。 対話型エージェント装置の処理について説明するフローチャートである。 対話型エージェント装置の使用例を示す図である。
<本技術の概要>
 本技術の音声コミュニケーションシステムを管理するサーバは、AI(Artificial Intelligence)による会話アシスト機能によって、2者間の円滑な会話を実現させる情報処理装置である。会話アシスト機能により、システム側の発話が出力され、会話を行っているユーザに対して発話が促される。
 例えば、2者間の会話中におけるそれぞれの発話時間が計測される。それぞれのユーザの発話時間に差がある場合、システム側の発話によって、発話時間の少ないユーザに対して発話が促される。システム側の発話のフレーズは、あらかじめ設定されたフレーズの中から選択される。例えば、「Aさんはどう思いますか?」などのような、ユーザのアカウント名を含むフレーズがシステム側の発話として出力される。
 また、2者間の会話中における沈黙時間が計測される。10秒間といったような一定の時間の沈黙が生じた場合、システム側の発話によって新たな話題が提供される。例えば、2人のユーザが共通して興味のあるトピックスに該当するタイトルの最新記事がWeb上のニュースサイトから抽出され、その記事に関する内容が新たな話題として提供される。
 すなわち、本技術の音声コミュニケーションシステムは、ユーザ:AI=2:1の構成によって、ユーザ同士のコミュニケーションを補助する役割をAIによって実現するものである。それぞれのユーザの近傍には、音声の入出力等を行う専用のハードウェアが用意される。また、詳細な設定や会話のアーカイブの確認の機能などが、それぞれのユーザが有するスマートフォンなどの携帯端末にインストールされた専用のアプリケーションによって提供される。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.音声コミュニケーションシステムの構成
 2.対話型エージェント装置の外観構成
 3.専用アプリケーションについて
 4.アシスト発話を含む会話の具体例
 5.各装置の構成例
 6.各装置の動作
 7.その他
<音声コミュニケーションシステムの構成>
 図1は、本技術の一実施形態に係る音声コミュニケーションシステムの構成例を示す図である。
 図1の音声コミュニケーションシステムは、2台の対話型エージェント装置1である対話型エージェント装置1A,1Bがネットワーク21を介して接続されることによって構成される。インターネットなどよりなるネットワーク21にはコミュニケーション管理サーバ11も接続される。
 対話型エージェント装置1Aは、ユーザAによって使用される装置であり、ユーザAの自宅などに設置される。同様に、対話型エージェント装置1Bは、ユーザBによって使用される装置であり、ユーザBの自宅などに設置される。図1には2台の対話型エージェント装置1が示されているが、実際には、さらに多くの対話型エージェント装置1がネットワーク21に接続される。
 図1の例においては、ユーザA,Bは、それぞれ、スマートフォンなどの携帯端末2A,2Bを有している。携帯端末2A,2Bもネットワーク21に接続される。
 対話型エージェント装置1は、ユーザとの間で音声によるやりとりが可能な対話型のエージェント機能を有する装置である。対話型エージェント装置1には、ユーザの音声を検出するマイクロフォン、他のユーザの音声などを出力するスピーカなどが設けられる。対話型エージェント装置1が有するエージェント機能は、適宜、対話型エージェント装置1とコミュニケーション管理サーバ11が連携することによって実現される。対話型エージェント装置1とコミュニケーション管理サーバ11との間では各種の情報の送受信が行われる。
 対話型エージェント装置1が有するエージェント機能により、例えば、マッチングされた2人のユーザ間での会話が実現される。図1に示すユーザAとユーザBは、コミュニケーション管理サーバ11によりマッチングされたユーザである。
 ユーザAの音声は、対話型エージェント装置1Aにより集音され、コミュニケーション管理サーバ11を介して対話型エージェント装置1Bに対して送信される。対話型エージェント装置1Bにおいては、コミュニケーション管理サーバ11を介して送信されてきたユーザAの音声が出力される。
 同様に、ユーザBの音声は、対話型エージェント装置1Bにより集音され、コミュニケーション管理サーバ11を介して対話型エージェント装置1Aに対して送信される。対話型エージェント装置1Aにおいては、コミュニケーション管理サーバ11を介して送信されてきたユーザBの音声が出力される。これにより、ユーザAとユーザBは、それぞれ自宅において、遠隔での会話を行うことが可能となる。
 ユーザAとユーザBの会話中、適宜、2人の会話をアシスト(補助)する発話が、システム側の発話としてコミュニケーション管理サーバ11から対話型エージェント装置1Aと対話型エージェント装置1Bに対して送信され、対話型エージェント装置1Aと対話型エージェント装置1Bにおいてそれぞれ出力される。ユーザAとユーザBは、それぞれ、システム側の発話を聞いてリアクションをとることになる。
 すなわち、コミュニケーション管理サーバ11は、会話を行う2人をマッチングさせるだけでなく、2人の会話の状況を解析し、2人の会話の状況に応じて、2人の会話をアシストするような発話を行う会話アシスト機能を有する。以下、適宜、会話アシスト機能によってコミュニケーション管理サーバ11が対話型エージェント装置1から出力させる発話をアシスト発話という。アシスト発話は、会話の補助となる会話補助音声である。
 図2は、アシスト発話の出力例を示す図である。
 図2の上段は、活発に会話をしているユーザAとユーザBの状態を示す。図2においては対話型エージェント装置1等の図示を省略しているが、それぞれのユーザの発話は、自分が使用する対話型エージェント装置1から相手が使用する対話型エージェント装置1に対して送信され、出力される。
 ユーザAとユーザBの会話が図2の中段に示すように途切れた場合、図2の下段に示すように、対話型エージェント装置1Aと対話型エージェント装置1Bからアシスト発話が出力される。図2の例においては、2人の共通の趣味である「野球」を話題にして会話をすることを促すアシスト発話が出力されている。ユーザAとユーザBは、「野球」を話題にして会話を再開することになる。
 このように、コミュニケーション管理サーバ11においては、会話が途切れたかどうかなどの会話の状況が解析され、解析結果に基づいてアシスト発話が出力される。会話アシスト機能は、コミュニケーション管理サーバ11に用意されたAIによって実現される。コミュニケーション管理サーバ11は、例えば対話型エージェント装置1のメーカーにより管理される。
 図3は、会話アシスト機能を実現するAIの例を示す図である。
 図3の上方に示すように、コミュニケーション管理サーバ11には、会話アシスト機能を実現するAIである会話アシストAIが用意される。会話アシストAIは、例えば、会話の状況と、趣味趣向等の、ユーザAとユーザBのそれぞれの個人情報とを入力とし、話題として提供する内容を出力とするニューラルネットワークなどにより構成される推論モデルである。会話の状況には、ユーザAとユーザBのそれぞれの発話時間、沈黙の時間(会話が途切れた時間)などが含まれる。
 会話アシストAIを構成する推論モデルは、様々な会話の状況を表す情報、様々なユーザの個人情報、および、ニュースサイトから取得されたニュース記事の情報などを用いた機械学習が行われることによって生成される。
 破線#1,#2に示すように、対話型エージェント装置1Aと対話型エージェント装置1Bは、それぞれ会話アシストAIに接続されている。会話アシストAIにおいては、対話型エージェント装置1Aと対話型エージェント装置1Bから送信されてきた情報に基づいて2人の会話の状況が解析され、適宜、会話アシスト機能による話題の提供が行われる。
 なお、図3の下方に示すように、ユーザAとユーザBは、それぞれ、専用のアプリケーションがインストールされた自分の携帯端末2を用いて、興味のあるトピックス(出来事、話題)などのプロフィール情報をあらかじめ入力している。ユーザAとユーザBが専用のアプリケーションを起動させ、アカウント情報を入力するなどしてログイン操作を行ったとき、アカウント情報と紐付けてコミュニケーション管理サーバ11において管理されていたユーザAとユーザBのプロフィール情報が特定される。
 このような会話アシスト機能を利用した2人の会話は、例えば、2人のユーザが、それぞれの自宅で、対話型エージェント装置1により用意されたお酒を飲んでいる状況で行われる。すなわち、対話型エージェント装置1には、ユーザのリクエストに応じてお酒を提供する機能が用意されている。アシスト発話は、2人のユーザに対してそれぞれの対話型エージェント装置1によりお酒が提供された後の会話の状況に応じて出力される。
 ユーザAとユーザBは、それぞれ、対話型エージェント装置1により用意されたお酒を自宅で飲みながら、1対1で相手と会話を行うことになる。1対1で行われるユーザAとユーザBの会話には第三者の発話であるアシスト発話が会話の状況に応じて適宜挟まれるから、ユーザAとユーザBが会話を行っている状況は、図4に示すように、あたかも、適切なタイミングで会話に入ってくるバーテンダーを前にした状況と同じような状況となる。
 ユーザAとユーザBは、お酒を飲みながらアシスト発話によるサポートを受けて会話を行い、円滑なコミュニケーションを図ることが可能となる。
 なお、図4にはユーザAとユーザBが隣同士に座っている状況が示されているが、実際には、ユーザAとユーザBは、それぞれの自宅にいて、対話型エージェント装置1に向かって話をしていることになる。1対1の会話に適切なタイミングで入り込むバーテンダーの役割を担って、バーにいる感覚を演出する対話型エージェント装置1は、バーテンダーロボットということもできる。
<対話型エージェント装置の外観>
 図5は、対話型エージェント装置1の外観を拡大して示す斜視図である。
 図5に示すように、対話型エージェント装置1は、上面に緩やかな斜面が形成された、縦長の略直方体状の筐体51を有する。筐体51の上面には凹陥部51Aが形成される。凹陥部51Aには、図6の矢印で示すように、ウィスキーなどのお酒が入ったボトル61が取り付けられる。
 また、筐体51の正面下方には矩形の開口部51Bが形成される。開口部51Bはグラス62の取り出し口として用いられる。開口部51Bにグラス62が置かれ、ユーザによりお酒のリクエストがあったことに応じて、ボトル61に入っているお酒がグラス62に注がれる。筐体51の内部には、お酒を自動的に注ぐサーバ機構も設けられる。
 ボトル61が空になった場合、ユーザは、届けられた新しいボトル61を凹陥部51Aに取り付けることによって、対話型エージェント装置1を継続して利用することができる。例えば、対話型エージェント装置1のユーザ向けのサービスとして、ボトル61が定期的に届けられる、お酒のサブスクリプションサービスが用意される。
 筐体51の側面には、氷や、割り材となる水、炭酸水などの投入口が設けられる。ユーザは、飲み方を音声でリクエストすることにより、ストレート、オンザロック、ハイボールなどの様々な飲み方を試すことができる。対話型エージェント装置1には、サーバ機構を制御してバーテンダーの注ぎ方を再現するレシピデータが用意されている。
<専用アプリケーションについて>
 上述したように、それぞれの携帯端末2には、音声コミュニケーションシステムの専用のアプリケーションがインストールされる。専用アプリケーションは、例えば対話型エージェント装置1のメーカーにより用意される。
 ユーザは、専用アプリケーションを操作して、年齢、住所、趣味などのプロフィール情報の登録を行う。登録されたプロフィール情報は、コミュニケーション管理サーバ11に対して送信され、ユーザのアカウント情報と紐付けて管理される。
 図7および図8は、専用アプリケーションの画面の例を示す図である。
 専用アプリケーションの画面には、飲酒記録タブT1と会話記録タブT2が用意される。飲酒記録タブT1がタップされた場合、図7に示すように飲酒記録が表示される。図7の例においては、お酒を飲んだ日時と量、飲み方などの情報が飲酒記録として表示されている。
 一方、会話記録タブT2がタップされた場合、図8に示すように会話記録が表示される。図8の例においては、相手の名前、会話を行った日時、会話の内容を表すタグなどの情報が会話記録として表示されている。
 このような飲酒記録と会話記録を表示する機能が、コミュニケーション管理サーバ11により管理されている情報に基づいて実現される。専用アプリケーションは、コミュニケーション管理サーバ11と通信を行い、コミュニケーション管理サーバ11から送信されてきた情報に基づいて各種の画面を表示させる。
<アシスト発話を含む会話の具体例>
 ここで、音声コミュニケーションシステムにおいて2者間で行われる会話の具体例について説明する。
 1.会話の状況に応じたアシスト発話
 (1)発話時間に応じたアシスト発話
 例えば、ユーザBの発話時間がユーザAの発話時間よりも多い場合、定型文を用いてユーザAに話を投げかける以下のようなアシスト発話が出力される。
 「Aさんはどう思いますか?」(Bさんの話に対する意見を求める発話)
 「Aさんは何が好きですか?」(Aさんに問いかける発話)
 「Aさんは最近何をしていますか?」(話題転換の発話)
 このようなアシスト発話は、ユーザBの発話時間が全体の80%を超えるといったように、ユーザAの発話時間とユーザBの発話時間の差が大きい場合に出力される。なお、アシスト発話の具体例において、「Aさん」はユーザAを表し、「Bさん」はユーザBを表す。
 (2)沈黙時間に応じたアシスト発話
 10秒間などの一定の時間、どちらのユーザも話さなかった場合、話題を提供する以下のようなアシスト発話が出力される。
 「(ニュースタイトル)について知っていますか?」(話の継続・深堀りを促す発話)
 「(ニュースタイトル)なんですよ。」(情報を提供する発話)
 このようなアシスト発話は、直近10分間の会話の中で最も多く現れた単語に関連のあるニュース記事をWeb上で検索し、例えばニュースサイトにおいて注目されている最新のニュース記事のタイトルを含むようにして生成される。
 図9乃至図11は、ユーザA-ユーザB間の会話の具体例を示す図である。
 図9乃至図11において、左列に示す発話はユーザAの発話を表し、右列に示す発話はユーザBの発話を表す。中央に示す発話は、コミュニケーション管理サーバ11による制御に従って対話型エージェント装置1から出力されるシステム側の発話(システム発話)である。システム発話には上述したアシスト発話も含まれる。他の会話の具体例を示す後述する図においても同様である。
 ユーザA-ユーザB間の会話は、例えば、「Aさん、Bさんからお声がかかっています。」のようなシステム発話S1が対話型エージェント装置1Aから出力され、システム発話S1を聞いたユーザAが、ユーザBとの会話を始めることを承諾することに応じて開始される。
 システム発話S1は、ユーザAを相手として会話を始めることをユーザBが希望していることをユーザAに対して伝える発話である。システム発話S1は、例えば、コミュニケーション管理サーバ11によりマッチングされた話し相手の候補の中から、ユーザAがユーザBにより選択されたときに出力される。
 コミュニケーション管理サーバ11によるマッチングは、例えば、それぞれのユーザによりあらかじめ登録された、「経済」、「エンタテインメント」などの興味のあるトピックスに基づいて行われる。あらかじめ登録されたトピックスではなく、話し相手の選択時に入力されたテキストデータに基づいてマッチングが行われるようにしてもよい。これにより、それぞれのユーザは、興味のあるトピックスが共通するユーザを話し相手として選択することが可能となる。
 図9の例においては、時刻t1から時刻t2までの時間において、「はいー、お願いしますー」の発話がユーザAにより行われ、時刻t2から時刻t3までの時間において、「はじめましてー、よろしくお願いします。Aさんも野球がお好きなんですね。」の発話がユーザBにより行われている。ユーザAの音声データは、対話型エージェント装置1Aからコミュニケーション管理サーバ11を経由して対話型エージェント装置1Bに対して送信され、ユーザAの発話として対話型エージェント装置1Bにおいて出力される。一方、ユーザBの音声データは、対話型エージェント装置1Bからコミュニケーション管理サーバ11を経由して対話型エージェント装置1Aに対して送信され、ユーザBの発話として対話型エージェント装置1Aにおいて出力される。
 コミュニケーション管理サーバ11においては、ユーザAとユーザBの発話の状況として、ユーザAの発話時間とユーザBの発話時間がそれぞれ計測される。図9の中央に示す帯状部分のうち、ハッチを付して示す区間はユーザAの発話時間を表し、薄く色を付して示す区間はユーザBの発話時間を表す。他の図においても同様である。
 また、コミュニケーション管理サーバ11においては、ユーザAとユーザBの発話の状況として、ユーザAの発話とユーザBの発話からキーワードとなる単語が抽出される。図9において枠で囲んで示す単語は、キーワードとしてコミュニケーション管理サーバ11により抽出された単語である。
 時刻t3以降、ユーザAとユーザBにより交互に発話が行われ、ユーザA-ユーザB間の会話が続けられる。図9、図10の例においては、ユーザBの方が、ユーザAより長い時間話している。
 ユーザAの発話時間とユーザBの発話時間の差が閾値より大きくなった場合、図10の時刻t12において、「Aさんは何が好きですか?」のようなシステム発話S2が出力される。システム発話S2は、定型文を用いてユーザAに話を投げかけるアシスト発話である。例えば、ユーザBの発話時間が、2人の会話全体の時間のうちの80%を超えるようになった場合に、このようなアシスト発話が出力される。
 システム発話S2の音声データは、コミュニケーション管理サーバ11から対話型エージェント装置1Aと対話型エージェント装置1Bの双方に対して送信され、対話型エージェント装置1Aと対話型エージェント装置1Bのそれぞれにおいてアシスト発話として出力される。システム発話S2を聞いたユーザAは、話が投げかけられたことに応じて、時刻t13から時刻t14までの時間において、「えっと私は東京スクルナハヤブサズが好きです。」のような発話を行うことになる。
 コミュニケーション管理サーバ11は、発話時間が短いユーザAに対して発話の機会を与え、ユーザAの発話時間とユーザBの発話時間のバランスをとることで、円滑なコミュニケーションを実現させることが可能となる。
 時刻t14から時刻t17までの間、アシスト発話をきっかけとして、ユーザAとユーザBにより交互に発話が行われる。
 図11の上段に示すように、ユーザAとユーザBが2人とも沈黙し、会話が10秒間などの一定の時間途切れた場合、『「2019年のセリーグ優勝は東都」についてどう思いますか?』のようなシステム発話S3が出力される。システム発話S3は、沈黙が続いたことから、2人に話題を提供するアシスト発話である。
 このように、コミュニケーション管理サーバ11においては、ユーザAとユーザBの発話の状況として、2人が沈黙している時間なども計測される。
 システム発話S3による話題の提供を受けたユーザAとユーザBのうちのユーザBは、時刻t21から時刻t22までの時間において、「今年は完敗でしたねー。でも来年はもちろん京阪ですよ!」のような発話を行うことになる。
 コミュニケーション管理サーバ11は、沈黙している2人に対して発話を促し、会話を行わせることで円滑なコミュニケーションを実現させることが可能となる。
 時刻t22から時刻t24までの間、アシスト発話をきっかけとして、ユーザAとユーザBにより交互に発話が行われる。
 例えば、1時間などのあらかじめ決められた時間が経過した場合、図11の下方に示すように、「会話終了のお時間です。ありがとうございました。」のようなシステム発話S4が出力される。システム発話S4を聞いたユーザAとユーザBは、それぞれ挨拶をして会話を終えることになる。
 このように、ユーザA-ユーザB間の会話中、コミュニケーション管理サーバ11においては、2人の会話の状況が解析される。会話の状況に応じたアシスト発話が適宜出力され、これにより、ユーザA-ユーザB間の円滑なコミュニケーションが実現される。
 2.Webサービスと連携したアシスト発話
 ユーザ間の会話から抽出された単語の中に、連携するWebサービスに関連する単語がある場合、連携するWebサービスのユーザの利用状況等の情報を含むアシスト発話が、新たな話題としてユーザに提供される。
 (1)音楽ストリーミングサービスとの連携
 ユーザが聴いている曲の情報に基づいて、会話の内容に関連する情報を話題として提供するアシスト発話が出力される。ユーザが聴いている曲の情報は、例えば、専用アプリケーションにより、音楽ストリーミングサービスを提供するサーバから、または、音楽ストリーミングサービスを利用するためにユーザが携帯端末2にインストールしているアプリケーションから取得される。
 (2)ショッピングサービスとの連携
 ユーザのショッピング履歴の情報に基づいて、会話の内容に関連する情報を話題として提供するアシスト発話が出力される。ユーザのショッピング履歴の情報は、例えば、専用アプリケーションにより、ショッピングサイトを管理するサーバから、または、ショッピングを行うためにユーザが携帯端末2にインストールしているアプリケーションから取得される。
 (3)Webから取得されたイベント情報との連携
 Webから取得された情報に基づいて、会話の内容に関連するイベントの情報を話題として提供するアシスト発話が出力される。
 図12および図13は、ユーザC-ユーザD間の会話の具体例を示す図である。
 図12に示すように、ユーザC-ユーザD間の会話は、図9を参照して説明したユーザA-ユーザB間の会話と同様にして開始される。ユーザCとユーザDは、例えば、共通の趣味が「海外ドラマ」であることに基づいて話し相手としてマッチングされたユーザである。
 時刻t1から時刻t7までの時間において、ユーザCとユーザDにより交互に発話が行われる。ユーザCの音声データは、ユーザCが使用する対話型エージェント装置1である対話型エージェント装置1Cからコミュニケーション管理サーバ11を経由して対話型エージェント装置1Dに対して送信され、ユーザCの発話として対話型エージェント装置1Dにおいて出力される。対話型エージェント装置1Dは、ユーザDが使用する対話型エージェント装置1である。一方、ユーザDの音声データは対話型エージェント装置1Dからコミュニケーション管理サーバ11を経由して対話型エージェント装置1Cに対して送信され、ユーザDの発話として対話型エージェント装置1Cにおいて出力される。
 例えば時刻t6から時刻t7までの時間において、映画のシーンを話題として「わかります!私も第3シーズンが一番好きです。最後の〇〇storyのシーンが最高でした。」の発話がユーザDにより行われている。また、時刻t7から時刻t8までの時間においては、「いいですよねあのシーン!はまりすぎて最近はストレンジャーXXXXのサントラばっかり聞いてます。」の発話がユーザCにより行われる。
 コミュニケーション管理サーバ11においては、会話の内容が解析され、例えば、ユーザCが好んで聞いている映画のサウンドトラックの単語が検出される。ここでは、ユーザCが、コミュニケーション管理サーバ11と連携可能な音楽ストリーミングサービスを使って映画のサウンドトラックを聞いているものとする。
 ユーザCが聞いているサウンドトラックの単語が検出された後、時刻t8において、『Cさんはこの1週間で「〇〇story」を10回以上聴いているようです。』のようなシステム発話S12が出力される。システム発話S12は、ユーザCが聴いている曲の情報に基づいて、会話の内容に関連する情報を話題として提供するアシスト発話である。
 システム発話S12の音声データは、コミュニケーション管理サーバ11から対話型エージェント装置1Cと対話型エージェント装置1Dの双方に対して送信され、対話型エージェント装置1Cと対話型エージェント装置1Dのそれぞれにおいてアシスト発話として出力される。システム発話S12を聞いたユーザDは、話題が提供されたことに応じて、時刻t9から時刻t10までの時間において、「私もサントラ聞いてます!あの曲何回もリピートしちゃいますよね。」のような発話を行うことになる。
 コミュニケーション管理サーバ11は、発話のきっかけとなるようなユーザCに関する情報をユーザDに与えることにより、ユーザDの発話を促し、円滑なコミュニケーションを実現させることが可能となる。
 時刻t10以降、図13に示すように、アシスト発話をきっかけとして、ユーザCとユーザDにより交互に発話が行われる。
 例えば、時刻t10から時刻t11までの間に行われたユーザCの発話が解析されることによって、ユーザCが購入した商品の単語が検出された後、時刻t12において、「Cさんは1週間前にマグカップを購入したそうですね。他の人気商品にはTシャツもありますよ。」のようなシステム発話S13が出力される。システム発話S13は、ユーザCのショッピング履歴の情報に基づいて、会話の内容に関連する情報を話題として提供するアシスト発話である。
 また、発話の内容が解析されることによってユーザCとユーザDの嗜好が特定された後、時刻t14において、『「ストレンジャーXXXX」好きのお二人には渋谷で開催中のイベントがおすすめですよ』のようなシステム発話S14が出力される。システム発話S14は、Webから取得された情報に基づいて、会話の内容に関連するイベントの情報を話題として提供するアシスト発話である。
 このようなアシスト発話をきっかけとした会話が続けられた後、図13の下方に示すように、ユーザCとユーザDは、それぞれ挨拶をして会話を終えることになる。
 このように、ユーザC-ユーザD間の会話中、コミュニケーション管理サーバ11においては、2人の会話の内容が解析され、会話の内容に関連する情報が、Webサービスの利用状況に基づいて取得される。また、Webサービスの利用状況に基づいて取得された情報を話題として提供するアシスト発話が出力される。これにより、ユーザC-ユーザD間の円滑なコミュニケーションが実現される。
 3.お酒の残量に応じたアシスト発話
 ユーザが飲んでいるお酒の残量に応じて以下のようなアシスト発話が出力される。
 (1)会話を終わらせるアシスト発話(2人ともお酒がなくなった場合)
 (2)2杯目のお酒を勧めるアシスト音声(一方のユーザのお酒だけがなくなり、他方のユーザのお酒が半分以上残っている場合)
 例えば、ユーザが使うグラス62には、お酒の残量を検出するセンサが設けられる。センサにより検出されたお酒の残量の情報は、対話型エージェント装置1により取得され、コミュニケーション管理サーバ11に対して送信される。
 対話型エージェント装置1に設けられたカメラにより撮影された画像を解析することによってお酒の残量が検出されるようにしてもよい。お酒の残量を検出するための画像の解析が対話型エージェント装置1において行われるようにしてもよいし、コミュニケーション管理サーバ11において行われるようにしてもよい。
 図14および図15は、ユーザA-ユーザB間の会話の具体例を示す図である。
 図14に示す会話は、図9を参照して説明したユーザA-ユーザB間の会話と同じ会話である。図14の左端には、ユーザAが飲んでいるお酒の残量の時系列が示されている。また、図14の右端には、ユーザBが飲んでいるお酒の残量の時系列が示されている。お酒の残量は、それぞれが使用する対話型エージェント装置1から送信されてきた情報に基づいてコミュニケーション管理サーバ11において特定される。
 図14の例においては、ユーザAの発話が終わった時刻t10のタイミングでのユーザAのお酒の残量は80%であり、ユーザBのお酒の残量は50%である。
 時刻t10以降、図15に示すように、ユーザAとユーザBにより交互に発話が行われる。図15の例においては、10秒間などの所定の時間の沈黙の後、図11を参照して説明したアシスト発話と同じシステム発話S22が出力されている。
 ユーザBにより発話が行われた時刻t24において、図15の右側に示すように、ユーザBのお酒の残量は0%になっている。この場合、時刻t24において、「Bさん、2杯目のお酒はいかがですか?」のようなシステム発話S23が出力される。システム発話S23は、2杯目のお酒を勧めるアシスト発話である。
 システム発話S23の音声データは、コミュニケーション管理サーバ11から対話型エージェント装置1Aと対話型エージェント装置1Bの双方に対して送信され、対話型エージェント装置1Aと対話型エージェント装置1Bのそれぞれにおいてアシスト発話として出力される。システム発話S23を聞いたユーザBは、2杯目をリクエストし、対話型エージェント装置1Bにお酒を用意してもらうことができる。なお、時刻t24においては、図15の左側に示すように、ユーザAのお酒の残量は60%であり、半分以上残っている。
 コミュニケーション管理サーバ11は、一方のユーザのお酒だけがなくなったことに応じて2杯目を勧め、2人のお酒の進み具合を調整することにより、ユーザA-ユーザB間の円滑なコミュニケーションを実現させることが可能となる。お酒がなくなったユーザは、通常、そのことを気にしてしまい、会話に集中することができなくなるが、そのようなことを防ぐことが可能となる。
 図15に示すユーザA-ユーザB間の会話は、例えば、2人のお酒がなくなったタイミングで出力されるアシスト発話に応じて終了となる。
 4.感情の解析結果を用いた例
 発話に基づいてユーザの感情が解析され、感情の解析結果に応じて以下のような処理が行われる。コミュニケーション管理サーバ11には感情解析機能(感情解析エンジン)が搭載される。ユーザの感情は、ユーザが話している時間、聞いている時間、発話に含まれるキーワードなどに基づいて解析される。
 (1)ネガティブな感情を持っているユーザに対して、ポジティブな感情を与えるであろうと考えられる話題を提供するアシスト発話が出力される。例えば、ネガティブな感情を持つユーザが好む内容に関する話題がアシスト発話によって提供される。
 (2)感情の解析結果に基づいて特定されたユーザの性格・好みに応じて最適なユーザとのマッチングが行われる。この場合、例えば、ユーザの性格・好みは、ネガティブな感情からポジティブな感情に変化するタイミングの直前のタイミングの発話などに基づいて解析される。ある会話のときの感情の変化に基づいてユーザの性格・好みが解析され、次の会話のマッチングのときに、お互いがポジティブな感情になる可能性が高いユーザとのマッチングが行われる。
 (3)感情の解析結果に基づいて、IoT(Internet of Things)デバイスの制御が行われる。ユーザがいる空間には、対話型エージェント装置1とともに、対話型エージェント装置1から制御することが可能なIoTデバイスが設けられる。例えば、輝度、色温度の調整が可能なLED照明などがIoTデバイスとして設けられる。
 コミュニケーション管理サーバ11は、制御コマンドを対話型エージェント装置1に対して送信することにより、対話型エージェント装置1経由でIoTデバイスの動作を制御する。コミュニケーション管理サーバ11によるIoTデバイスの動作の制御が、制御コマンドを携帯端末2に対して送信することにより、携帯端末2経由で行われるようにしてもよい。
 図16は、ユーザA-ユーザB間の会話の具体例を示す図である。
 図16に示す会話は、基本的には、図9を参照して説明したユーザA-ユーザB間の会話と同じ会話である。ユーザAの発話の右側に示す波形は、発話中のユーザAの感情を表し、ユーザBの発話の左側に示す波形は、発話中のユーザBの感情を表す。感情を表す波形のうち、ハッチを付して示す波形はネガティブな感情を表し、薄い色を付して示す波形はポジティブな感情を表す。波形の振幅は感情の度合いである感情値を表す。
 図16の例においては、時刻t1から時刻t2、時刻t3から時刻t4、時刻t5から時刻t6までのそれぞれの時間において、ユーザBにより発話が行われている。それぞれの発話の間のユーザBの感情は、ポジティブな感情である。
 一方、時刻t2から時刻t3、時刻t4から時刻t5、時刻t6から時刻t7までのそれぞれの短い時間において、ユーザAにより発話が行われている。時刻t2から時刻t3までの時間に行われた発話の間と、時刻t4から時刻t5までの時間に行われた発話の間のユーザAの感情は、ネガティブな感情である。時刻t6から時刻t7までの時間に行われた発話の間のユーザAの感情は、ポジティブな感情である。
 コミュニケーション管理サーバ11においては、それぞれの発話に基づいて、会話の状況とともに、ユーザの感情、ユーザの性格・好みなどが解析される。例えば、ユーザBについては、発話時間が長い、聞く時間が短い、常にポジティブな感情である、などの特性が推測される。また、自分が話すことが好き、「野球」等の話題に興味がある、などの特性が推測される。
 一方、ユーザAについては、発話時間が短い、聞く時間が長い、などの特性が推測される。また、時刻t5から時刻t6までの時間のユーザBの発話を聞くことに応じてポジティブな感情になったことから、その発話にキーワードとして含まれる「高森」という野球選手の名前に対して興味があるということが推測される。
 この場合、時刻t7において、「高森選手について最新のニュースをお調べいたしました」のようなシステム発話S31が出力される。システム発話S31は、ポジティブな感情を与えるであろうと考えられる話題を提供するアシスト発話である。システム発話S31の出力後、検索された最新のニュース記事の内容を伝えるシステム発話が出力される。
 これにより、コミュニケーション管理サーバ11は、ユーザAの感情をポジティブな感情とさせ、それ以降、ユーザA-ユーザB間の円滑なコミュニケーションを実現させることが可能となる。
 図17は、マッチングの例を示す図である。
 この例においては、様々なユーザとの会話の履歴から、ユーザAは、基本的に、人の話を聞くのは苦手だが、自分の興味のある話であれば積極的に会話に参加する特性を有していることがコミュニケーション管理サーバ11において推測されているものとする。
 また、上述したような感情の変化のタイミングにおける発話の内容に基づいて、「新人王」、「ドラフト」、「甲子園」などの、プロ野球に関する事柄の中でも、特定の事柄に興味があることが推測されているものとする。
 この場合、図17に示すように、要点をまとめて話すため、1回の発話が比較的短く、プロ野球の育成に興味のあるユーザであるユーザCとのマッチングが行われる。ユーザAとユーザCのマッチングは、会話中のそれぞれの感情などに基づいて推測されたユーザの性格・好みに応じて行われたものである。
 ユーザA-ユーザC間の会話は、例えば、「Aさん、Cさんからお声がかかっています。」のようなシステム発話S41が対話型エージェント装置1Aから出力され、システム発話S41を聞いたユーザAが、ユーザCとの会話を始めることを承諾することに応じて開始される。
 これにより、コミュニケーション管理サーバ11は、ユーザの性格・好みに応じて最適なユーザとのマッチングを行うことが可能となる。最適であると考えられるユーザの組み合わせに関する情報をコミュニケーション管理サーバ11は有している。
 なお、感情の解析結果に基づくLED照明の制御は、会話の内容が明るい内容である場合には、明るい光に調整するようにして行われる。また、LED照明の制御は、会話の内容が暗い内容である場合には、落ち着いた暗めの光に調整するようにして行われる。例えば、趣味、家族、恋愛などに関する会話は明るい内容の会話となり、相談、悩み、葬式などに関する会話は暗い内容の会話となる。
 これにより、コミュニケーション管理サーバ11は、ユーザの周りの環境を会話の内容に応じて調整することが可能となる。
<各装置の構成例>
 ここで、図1の音声コミュニケーションシステムの各装置の構成について説明する。
・対話型エージェント装置1の構成
 図18は、対話型エージェント装置1の構成例を示すブロック図である。
 対話型エージェント装置1は、スピーカ52とともに、マイクロフォン102、通信部103、および、お酒給仕部104が制御部101に接続されることによって構成される。
 制御部101は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)により構成される。制御部101は、所定のプログラムをCPUにより実行し、対話型エージェント装置1の全体の動作を制御する。
 制御部101においては、所定のプログラムが実行されることによって、エージェント機能部111、会話制御部112、デバイス制御部113、およびセンサデータ取得部114が実現される。
 エージェント機能部111は、対話型エージェント装置1のエージェント機能を実現する。例えば、エージェント機能部111は、音声によってユーザによりリクエストされた各種のタスクを実行し、タスクの実行結果を合成音声によってユーザに提示する。例えば、エージェント機能部111は、天気を調べたり、お酒を用意したりするなどの各種のタスクを実行する。エージェント機能は、適宜、コミュニケーション管理サーバ11などの外部のサーバとの間で通信を行うことによって実現される。
 会話制御部112は、話し相手として選択されたユーザとの会話を制御する。例えば、会話制御部112は、通信部103を制御することによって、マイクロフォン102から供給されたユーザの音声データをコミュニケーション管理サーバ11に送信する。コミュニケーション管理サーバ11に対して送信された音声データは、話し相手のユーザが使う対話型エージェント装置1に対して送信される。
 また、会話制御部112は、コミュニケーション管理サーバ11から送信されてきた話し相手のユーザの音声データが通信部103において受信された場合、通信部103から供給された音声データに基づいて、話し相手のユーザの発話をスピーカ52から出力させる。
 会話制御部112は、コミュニケーション管理サーバ11から送信されてきたシステム発話の音声データが通信部103において受信された場合、通信部103から供給された音声データに基づいて、システム発話をスピーカ52から出力させる。
 デバイス制御部113は、通信部103を制御することによって、制御対象となる外部のデバイスに対して制御コマンドを送信し、デバイスの動作を制御する。上述したようなユーザの感情に応じたIoTデバイスなどの制御が、コミュニケーション管理サーバ11から送信されてきた情報に基づいて、デバイス制御部113により行われる。
 センサデータ取得部114は、通信部103を制御することによって、グラス62に設けられたセンサから送信されてきたセンサデータを受信する。グラス62に設けられたセンサからは、例えば、お酒の残量を表すセンサデータが送信されてくる。センサデータ取得部114は、お酒の残量を表す情報をコミュニケーション管理サーバ11に送信する。センサデータ取得部114は、ユーザのお酒の残量をグラス62に設けられたセンサから送信されてきたセンサデータに基づいて検出する検出部として機能する。
 マイクロフォン102は、ユーザの発話を検出し、音声データを制御部101に出力する。
 通信部103は、ネットワーク21上の装置と通信を行うネットワークインタフェースや、無線LAN、Bluetooth(登録商標)などの近距離の無線通信を行う無線通信インタフェースなどにより構成される。通信部103は、コミュニケーション管理サーバ11との間で音声データなどの各種のデータの送受信を行う。また、通信部103は、制御対象のデバイス、グラス62に設けられたセンサなどの、対話型エージェント装置1と同じ空間に設けられた外部の装置との間で各種のデータの送受信を行う。
 お酒給仕部104は、エージェント機能部111による制御に従って、ボトル61に入っているお酒をグラス62に注ぐ。上述したお酒のサーバ機構がお酒給仕部104により実現される。お酒給仕部104によるお酒の用意は、レシピデータに従って行われる。制御部101が有するレシピデータには、飲み方に応じたお酒の用意の仕方に関する情報が記述されている。
・コミュニケーション管理サーバ11の構成
 図19は、コミュニケーション管理サーバ11のハードウェア構成例を示すブロック図である。
 CPU201、ROM202、RAM203は、バス204により相互に接続される。
 バス204には、さらに、入出力インタフェース205が接続される。入出力インタフェース205には、キーボード、マウスなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207が接続される。
 また、入出力インタフェース205には、ハードディスクや不揮発性のメモリなどよりなる記憶部208、ネットワークインタフェースなどよりなる通信部209、リムーバブルメディア211を駆動するドライブ210が接続される。
 コミュニケーション管理サーバ11は、このような構成を有するコンピュータにより構成される。1台のコンピュータではなく、複数台のコンピュータによりコミュニケーション管理サーバ11が構成されるようにしてもよい。
 図20は、コミュニケーション管理サーバ11の機能構成例を示すブロック図である。
 図20に示すように、コミュニケーション管理サーバ11においては制御部221が実現される。制御部221は、プロフィール管理部231、マッチング部232、Webサービス解析部233、ロボット制御部234、会話解析部235、感情解析部236、お酒進み具合解析部237、およびシステム発話生成部238により構成される。図20に示す構成のうちの少なくとも一部は、図19のCPU201により所定のプログラムが実行されることによって実現される。
 プロフィール管理部231は、音声コミュニケーションシステムを利用するそれぞれのユーザのプロフィール情報を管理する。専用アプリケーションを用いて登録された情報だけでなく、会話中の感情や、会話の内容に基づいて特定されたユーザの特性などの情報もプロフィール情報としてプロフィール管理部231により管理される。
 マッチング部232は、プロフィール管理部231が管理するプロフィール情報などに基づいて、話し相手となるユーザのマッチングを行う。マッチング部232によりマッチングされたユーザの情報はWebサービス解析部233とロボット制御部234に供給される。
 Webサービス解析部233は、会話を行っているそれぞれのユーザによるWebサービスの利用状況を解析する。例えば、Webサービス解析部233は、Webサービスの利用状況に関する情報を、携帯端末2にインストールされた専用アプリケーションから取得し、解析する。
 Webサービス解析部233による解析により、音楽ストリーミングサービスを利用してユーザが聴いている曲、ショッピングサイトを利用してユーザが購入した商品などの情報が特定される。Webサービス解析部233による解析結果はシステム発話生成部238に供給される。Webサービス解析部233による解析結果に基づいて、図12、図13を参照して説明したような、Webサービスと連携したアシスト発話の生成が行われる。
 ロボット制御部234は、会話を行っているユーザが使用するバーテンダーロボットである対話型エージェント装置1を制御する。例えば、ロボット制御部234は、通信部209を制御し、一方のユーザの対話型エージェント装置1から送信されてきた音声データを他方のユーザの対話型エージェント装置1に対して送信する。ロボット制御部234により受信されたユーザの発話の音声データは会話解析部235と感情解析部236に供給される。
 また、ロボット制御部234は、システム発話生成部238により生成されたシステム発話の音声データを、会話を行っている双方のユーザの対話型エージェント装置1に対して送信し、システム発話を出力させる。
 さらに、ロボット制御部234は、お酒の残量を表す情報が対話型エージェント装置1から送信されてきた場合、通信部209において受信された、お酒の残量を表す情報をお酒進み具合解析部237に出力する。ロボット制御部234は、対話型エージェント装置1と通信を行い、対話型エージェント装置1を介してIoTデバイスを制御するなどの各種の処理を行う。
 会話解析部235は、ロボット制御部234から供給された音声データに基づいて、会話を行っているそれぞれのユーザの発話時間、沈黙時間などの発話の状況を解析する。また、会話解析部235は、会話の内容を解析することによって、発話に含まれるキーワードを解析する。会話解析部235による解析結果はシステム発話生成部238に供給される。会話解析部235による解析結果に基づいて、図9乃至図11を参照して説明したような、会話の状況に応じたアシスト発話の生成が行われる。
 感情解析部236は、ロボット制御部234から供給された音声データに基づいて、会話を行っているそれぞれのユーザの感情を解析する。感情解析部236による解析結果はシステム発話生成部238に供給される。感情解析部236による解析結果に基づいて、図16を参照して説明したような、感情に応じたアシスト発話の生成が行われる。
 お酒進み具合解析部237は、ロボット制御部234から供給された情報に基づいて、会話を行っているそれぞれのユーザのお酒の進み具合を解析する。上述したように、対話型エージェント装置1から送信されてきたお酒の残量を表す情報は、グラス62に設けられたセンサから送信されてきたセンサデータである。お酒進み具合解析部237によるそれぞれのユーザのお酒の進み具合の解析は、グラス62に設けられたセンサから送信されてきたセンサデータに基づいて行われる。
 お酒進み具合解析部237による解析結果はシステム発話生成部238に供給される。お酒進み具合解析部237による解析結果に基づいて、図14、図15を参照して説明したような、お酒の残量に応じたアシスト発話の生成が行われる。
 システム発話生成部238は、Webサービス解析部233、会話解析部235、感情解析部236、お酒進み具合解析部237の各部における解析結果に基づいてアシスト発話を生成し、生成したアシスト発話の音声データをロボット制御部234に供給する。また、システム発話生成部238は、アシスト発話以外のシステム発話を適宜生成し、生成したシステム発話の音声データをロボット制御部234に供給する。
<各装置の動作>
 ここで、以上のような構成を有するコミュニケーション管理サーバ11と対話型エージェント装置1の基本的な動作について説明する。
・コミュニケーション管理サーバ11の動作
 はじめに、図21のフローチャートを参照して、コミュニケーション管理サーバ11の処理について説明する。
 ステップS1において、マッチング部232は、プロフィール管理部231が管理するプロフィール情報を参照して話し相手となるユーザのマッチングを行い、会話を開始させる。
 ステップS2において、ロボット制御部234は、会話を行っているユーザが使用する対話型エージェント装置1との間でユーザ発話の音声データの送受信を行う。
 ステップS3において、会話解析部235は、発話の音声データに基づいて、会話を行っている2人のユーザの会話の状況を解析する。
 ステップS4において、システム発話生成部238は、会話の状況の解析の結果に基づいて、アシスト発話が必要であるか否かを判定する。
 アシスト発話が必要であるとステップS4において判定した場合、ステップS5において、システム発話生成部238は、アシスト発話を生成し、アシスト発話の音声データをロボット制御部234からそれぞれのユーザの対話型エージェント装置1に対して送信させる。
 ステップS6において、ロボット制御部234は、会話終了か否かを判定する。
 会話終了ではないとステップS6において判定された場合、ステップS2に戻り、上述した処理が繰り返される。アシスト発話が必要ではないとステップS4において判定された場合も同様に、ステップS2以降の処理が繰り返される。
 会話終了であるとステップS6において判定された場合、処理は終了となる。
・対話型エージェント装置1の動作
 次に、図22のフローチャートを参照して、対話型エージェント装置1の処理について説明する。
 ステップS11において、マイクロフォン102は、ユーザの発話を検出する。
 ステップS12において、会話制御部112は、マイクロフォン102から供給されたユーザの発話の音声データをコミュニケーション管理サーバ11に送信する。
 ステップS13において、会話制御部112は、話し相手のユーザの発話またはシステム発話の音声データがコミュニケーション管理サーバ11から送信されてきたか否かを判定する。
 音声データが送信されてきたとステップS13において判定した場合、ステップS14において、スピーカ52は、会話制御部112による制御に従って、話し相手のユーザの発話またはシステム発話を出力する。
 会話終了であるとステップS15において判定された場合、処理は終了となる。
 以上の処理により、対話型エージェント装置1のユーザは、対話型エージェント装置1によって用意されたお酒を晩酌に使うなどして、他のユーザとの会話を自宅で気軽に楽しむことができる。例えば会話が途切れた場合でもコミュニケーション管理サーバ11によるアシストが行われるため、ユーザは、話し相手と円滑なコミュニケーションをとることが可能となる。
 特に一人暮らしの高齢者にとっては外出などが困難になる。対話型エージェント装置1をコミュニケーションツールとして利用し、図23に示すように遠隔にいる人と会話を行うことにより、一人暮らしの高齢者は、孤独感を解消させることが可能となる。
 不安や悩み事を他人に気軽に話せるようにするためには、相手が聞き上手であること、直接会わないことが保証されていること、個人情報を守ってくれること、周りから信用されている人であること、仲介者のような第三者がいること、などの条件を満たす環境が必要となる。対話型エージェント装置1により、ユーザは、そのような環境を容易に自宅に導入することができる。
 さらに、ユーザは、専用アプリケーションにより、アルコール摂取量の管理や会話の記録の振り返りなどを行うことが可能となる。
<その他>
 図20に示す全ての構成がコミュニケーション管理サーバ11に設けられるものとしたが、図20に示す構成のうちの少なくとも一部の構成が、対話型エージェント装置1に設けられるようにしてもよい。
 対話型エージェント装置1により提供される物がお酒であるものとしたが、コーヒー、紅茶、ジュースなどの他の飲料であってもよい。また、料理が提供されるようにしてもよい。料理が提供されることにより、それぞれのユーザは、料理を食べながら他のユーザとの会話を楽しむことができる。
・プログラムについて
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
 インストールされるプログラムは、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)や半導体メモリなどよりなるリムーバブルメディアに記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROMや記憶部に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
<構成の組み合わせ例>
 本技術は、以下のような構成をとることもできる。
(1)
 ネットワークを介して会話を行っている2人のユーザが使用するそれぞれの対話型ロボットにより検出された、2人の前記ユーザのそれぞれの発話を解析する解析部と、
 2人の前記ユーザの会話の状況に応じて、会話の補助となる音声である会話補助音声をそれぞれの前記対話型ロボットから出力させる制御部と
 を備える情報処理装置。
(2)
 前記制御部は、2人の前記ユーザに対してそれぞれの前記対話型ロボットによりお酒が提供された後の会話の状況に応じて前記会話補助音声を出力させる
 前記(1)に記載の情報処理装置。
(3)
 それぞれの前記ユーザのプロフィール情報に基づいて、会話を行う2人の前記ユーザのマッチングを行うマッチング部をさらに備える
 前記(1)または(2)に記載の情報処理装置。
(4)
 前記制御部は、2人の前記ユーザのそれぞれの発話時間に基づいて、発話時間が短い前記ユーザの発話を促す前記会話補助音声を出力させる
 前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
 前記制御部は、2人の前記ユーザの発話が一定時間途切れたことに応じて、発話を促す前記会話補助音声を出力させる
 前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
 前記制御部は、前記ネットワーク上のニュースサイトにおいて注目されている情報に関する内容の前記会話補助音声を出力させる
 前記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)
 前記制御部は、前記ユーザが利用するWebサービスに関連する単語が2人の前記ユーザの発話に含まれる場合、前記Webサービスの利用状況に基づいて前記会話補助音声を出力させる
 前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
 前記制御部は、発話に基づいて解析された2人の前記ユーザの感情に基づいて前記会話補助音声を出力させる
 前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
 前記制御部は、2人の前記ユーザのそれぞれの嗜好情報に基づいて特定された、ネガティブな感情を持っている前記ユーザが好む内容に関する前記会話補助音声を出力させる
 前記(8)に記載の情報処理装置。
(10)
 前記制御部は、発話に基づいて解析された2人の前記ユーザの感情に基づいて、それぞれの前記ユーザがいる空間に前記対話型ロボットとともに設置されたデバイスを制御する
 前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
 前記制御部は、前記デバイスを制御する制御コマンドを前記対話型ロボットに送信し、前記対話型ロボット経由で、または、前記制御コマンドを前記ユーザが有する携帯端末に送信し、前記携帯端末経由で、前記デバイスを制御する
 前記(10)に記載の情報処理装置。
(12)
 前記制御部は、センサデータに基づいて解析された2人の前記ユーザのそれぞれのお酒の進み具合に応じて前記会話補助音声を出力させる
 前記(2)に記載の情報処理装置。
(13)
 情報処理装置が、
 ネットワークを介して会話を行っている2人のユーザが使用するそれぞれの対話型ロボットにより検出された、2人の前記ユーザのそれぞれの発話を解析し、
 2人の前記ユーザの会話の状況に応じて、会話の補助となる音声である会話補助音声をそれぞれの前記対話型ロボットから出力させる
 制御方法。
(14)
 ユーザに対してお酒を提供する給仕部と、
 お酒が提供された後の前記ユーザの発話を検出し、検出した発話の音声データを、前記ユーザの発話と、会話の相手となる他のユーザの発話とを解析する情報処理装置に対して送信させるとともに、2人の会話の状況に応じて前記情報処理装置から送信されてきた、会話の補助となる音声である会話補助音声を出力させる会話制御部と
 を備える対話型ロボット。
(15)
 前記ユーザのお酒の残量を検出し、検出したお酒の残量を表す情報を前記情報処理装置に対して送信する検出部をさらに備え、
 前記会話制御部は、2人のそれぞれのお酒の進み具合に応じて前記情報処理装置から送信されてきた前記会話補助音声を出力させる
 前記(14)に記載の対話型ロボット。
(16)
 対話型ロボットが、
 ユーザに対してお酒を提供し、
 お酒が提供された後の前記ユーザの発話を検出し、検出した発話の音声データを、前記ユーザの発話と、会話の相手となる他のユーザの発話とを解析する情報処理装置に対して送信させ、
 2人の会話の状況に応じて前記情報処理装置から送信されてきた、会話の補助となる音声である会話補助音声を出力させる
 制御方法。
 1A,1B 対話型エージェント装置, 2A,2B 携帯端末, 11 コミュニケーション管理サーバ, 21 ネットワーク, 51 筐体, 61 ボトル, 62 グラス, 101 制御部, 102 マイクロフォン, 103 通信部, 104 お酒給仕部, 111 エージェント機能部, 112 会話制御部, 113 デバイス制御部, 114 センサデータ取得部, 221 制御部, 231 プロフィール管理部, 232 マッチング部, 233 Webサービス解析部, 234 ロボット制御部, 235 会話解析部, 236 感情解析部, 237 お酒進み具合解析部, 238 システム発話生成部

Claims (16)

  1.  ネットワークを介して会話を行っている2人のユーザが使用するそれぞれの対話型ロボットにより検出された、2人の前記ユーザのそれぞれの発話を解析する解析部と、
     2人の前記ユーザの会話の状況に応じて、会話の補助となる音声である会話補助音声をそれぞれの前記対話型ロボットから出力させる制御部と
     を備える情報処理装置。
  2.  前記制御部は、2人の前記ユーザに対してそれぞれの前記対話型ロボットによりお酒が提供された後の会話の状況に応じて前記会話補助音声を出力させる
     請求項1に記載の情報処理装置。
  3.  それぞれの前記ユーザのプロフィール情報に基づいて、会話を行う2人の前記ユーザのマッチングを行うマッチング部をさらに備える
     請求項1に記載の情報処理装置。
  4.  前記制御部は、2人の前記ユーザのそれぞれの発話時間に基づいて、発話時間が短い前記ユーザの発話を促す前記会話補助音声を出力させる
     請求項1に記載の情報処理装置。
  5.  前記制御部は、2人の前記ユーザの発話が一定時間途切れたことに応じて、発話を促す前記会話補助音声を出力させる
     請求項1に記載の情報処理装置。
  6.  前記制御部は、前記ネットワーク上のニュースサイトにおいて注目されている情報に関する内容の前記会話補助音声を出力させる
     請求項1に記載の情報処理装置。
  7.  前記制御部は、前記ユーザが利用するWebサービスに関連する単語が2人の前記ユーザの発話に含まれる場合、前記Webサービスの利用状況に基づいて前記会話補助音声を出力させる
     請求項1に記載の情報処理装置。
  8.  前記制御部は、発話に基づいて解析された2人の前記ユーザの感情に基づいて前記会話補助音声を出力させる
     請求項1に記載の情報処理装置。
  9.  前記制御部は、2人の前記ユーザのそれぞれの嗜好情報に基づいて特定された、ネガティブな感情を持っている前記ユーザが好む内容に関する前記会話補助音声を出力させる
     請求項8に記載の情報処理装置。
  10.  前記制御部は、発話に基づいて解析された2人の前記ユーザの感情に基づいて、それぞれの前記ユーザがいる空間に前記対話型ロボットとともに設置されたデバイスを制御する
     請求項1に記載の情報処理装置。
  11.  前記制御部は、前記デバイスを制御する制御コマンドを前記対話型ロボットに送信し、前記対話型ロボット経由で、または、前記制御コマンドを前記ユーザが有する携帯端末に送信し、前記携帯端末経由で、前記デバイスを制御する
     請求項10に記載の情報処理装置。
  12.  前記制御部は、センサデータに基づいて解析された2人の前記ユーザのそれぞれのお酒の進み具合に応じて前記会話補助音声を出力させる
     請求項2に記載の情報処理装置。
  13.  情報処理装置が、
     ネットワークを介して会話を行っている2人のユーザが使用するそれぞれの対話型ロボットにより検出された、2人の前記ユーザのそれぞれの発話を解析し、
     2人の前記ユーザの会話の状況に応じて、会話の補助となる音声である会話補助音声をそれぞれの前記対話型ロボットから出力させる
     制御方法。
  14.  ユーザに対してお酒を提供する給仕部と、
     お酒が提供された後の前記ユーザの発話を検出し、検出した発話の音声データを、前記ユーザの発話と、会話の相手となる他のユーザの発話とを解析する情報処理装置に対して送信させるとともに、2人の会話の状況に応じて前記情報処理装置から送信されてきた、会話の補助となる音声である会話補助音声を出力させる会話制御部と
     を備える対話型ロボット。
  15.  前記ユーザのお酒の残量を検出し、検出したお酒の残量を表す情報を前記情報処理装置に対して送信する検出部をさらに備え、
     前記会話制御部は、2人のそれぞれのお酒の進み具合に応じて前記情報処理装置から送信されてきた前記会話補助音声を出力させる
     請求項14に記載の対話型ロボット。
  16.  対話型ロボットが、
     ユーザに対してお酒を提供し、
     お酒が提供された後の前記ユーザの発話を検出し、検出した発話の音声データを、前記ユーザの発話と、会話の相手となる他のユーザの発話とを解析する情報処理装置に対して送信させ、
     2人の会話の状況に応じて前記情報処理装置から送信されてきた、会話の補助となる音声である会話補助音声を出力させる
     制御方法。
PCT/JP2021/011574 2020-03-30 2021-03-22 情報処理装置、対話型ロボット、制御方法 WO2021200307A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP21782201.4A EP4129122A4 (en) 2020-03-30 2021-03-22 INFORMATION PROCESSING DEVICE, INTERACTIVE ROBOT, CONTROL METHOD
US17/913,021 US20230147704A1 (en) 2020-03-30 2021-03-22 Information processing apparatus, interactive robot, and control method
CN202180023765.5A CN115335898A (zh) 2020-03-30 2021-03-22 信息处理设备、交互式机器人、控制方法
JP2022511941A JPWO2021200307A1 (ja) 2020-03-30 2021-03-22

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-060600 2020-03-30
JP2020060600 2020-03-30

Publications (1)

Publication Number Publication Date
WO2021200307A1 true WO2021200307A1 (ja) 2021-10-07

Family

ID=77928826

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/011574 WO2021200307A1 (ja) 2020-03-30 2021-03-22 情報処理装置、対話型ロボット、制御方法

Country Status (5)

Country Link
US (1) US20230147704A1 (ja)
EP (1) EP4129122A4 (ja)
JP (1) JPWO2021200307A1 (ja)
CN (1) CN115335898A (ja)
WO (1) WO2021200307A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004096171A (ja) * 2002-08-29 2004-03-25 Advanced Telecommunication Research Institute International 通話活性化システム
JP2008052449A (ja) 2006-08-23 2008-03-06 Synapse Communications Kk 対話型エージェントシステム及び方法
JP2015018174A (ja) * 2013-07-12 2015-01-29 ヤフー株式会社 情報処理装置及び方法
WO2017163515A1 (ja) * 2016-03-24 2017-09-28 ソニー株式会社 情報処理システム、情報処理装置、情報処理方法、および記録媒体
JP2020030231A (ja) * 2018-08-20 2020-02-27 Zホールディングス株式会社 情報処理装置、情報処理方法および情報処理プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721704B1 (en) * 2001-08-28 2004-04-13 Koninklijke Philips Electronics N.V. Telephone conversation quality enhancer using emotional conversational analysis
US9202171B2 (en) * 2008-11-11 2015-12-01 Digideal Corporation Virtual game assistant based on artificial intelligence
US10373508B2 (en) * 2012-06-27 2019-08-06 Intel Corporation Devices, systems, and methods for enriching communications
EP3259754B1 (en) * 2015-02-16 2022-06-15 Samsung Electronics Co., Ltd. Method and device for providing information
US10896688B2 (en) * 2018-05-10 2021-01-19 International Business Machines Corporation Real-time conversation analysis system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004096171A (ja) * 2002-08-29 2004-03-25 Advanced Telecommunication Research Institute International 通話活性化システム
JP2008052449A (ja) 2006-08-23 2008-03-06 Synapse Communications Kk 対話型エージェントシステム及び方法
JP2015018174A (ja) * 2013-07-12 2015-01-29 ヤフー株式会社 情報処理装置及び方法
WO2017163515A1 (ja) * 2016-03-24 2017-09-28 ソニー株式会社 情報処理システム、情報処理装置、情報処理方法、および記録媒体
JP2020030231A (ja) * 2018-08-20 2020-02-27 Zホールディングス株式会社 情報処理装置、情報処理方法および情報処理プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
See also references of EP4129122A4
SUMI KAORU : "Communication support for users background knowledge and the context ", PROCEEDINGS OF IEICE, vol. J84-D-I, no. 8, 31 July 2001 (2001-07-31), pages 1211 - 1221, XP009536188 *
SUMI YASUYUKI: "AgentSalon: Facilitating face-to-face knowledge exchange by conversations of personal agents", PROCEEDINGS OF IEICE, vol. J84-D-I, no. 8, 1 August 2001 (2001-08-01), pages 1231 - 1243, XP009536192 *

Also Published As

Publication number Publication date
EP4129122A1 (en) 2023-02-08
EP4129122A4 (en) 2023-05-03
US20230147704A1 (en) 2023-05-11
CN115335898A (zh) 2022-11-11
JPWO2021200307A1 (ja) 2021-10-07

Similar Documents

Publication Publication Date Title
US11373658B2 (en) Device, system, method, and computer-readable medium for providing interactive advertising
KR102523982B1 (ko) 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드
US10235620B2 (en) Guided personal companion
KR102541523B1 (ko) 인간 대 컴퓨터 다이얼로그들에 요청되지 않은 콘텐츠의 사전 통합
Spindler Møller Polylingual performance among Turkish-Danes in late-modern Copenhagen
EP3259754B1 (en) Method and device for providing information
US20150379981A1 (en) Automatically presenting different user experiences, such as customized voices in automated communication systems
CN114584660A (zh) 向人类操作员的升级
US10298640B1 (en) Overlaying personalized content on streaming audio
WO2021200307A1 (ja) 情報処理装置、対話型ロボット、制御方法
KR20190004486A (ko) 더빙/증강현실을 이용한 참여형 대화훈련 학습 방법
JP2001249924A (ja) 対話型自動説明装置および対話型自動説明方法およびこの方法の実行プログラムを記録した記録媒体
WO2020027073A1 (ja) 情報処理装置および情報処理方法
US20220270162A1 (en) Computing devices and systems for sending and receiving a digital gift using a voice interface
US10965391B1 (en) Content streaming with bi-directional communication
JP2004184788A (ja) 音声対話システムおよびプログラム
WO2024023901A1 (ja) 通信端末、コメント出力方法、及びプログラム
Drager et al. Speech synthesis in background noise: Effects of message formulation and visual information on the intelligibility of American English DECTalk™
Graham Ambient ageism: Exploring ageism in acoustic representations of older adults in AgeTech advertisements
JP7409628B2 (ja) 結婚式における音楽選曲のための自動選曲システム
US20220157314A1 (en) Interruption detection and handling by digital assistants
WO2020217848A1 (ja) 情報処理装置、情報処理方法およびプログラム
Leon Thinking about Public Speaking
Kamalina et al. THE POWER OF VERBAL EXPRESSION: EXAMINING LANGUAGE FUNCTIONS IN THE SHORT FILM'THE DARKEST BLUE'
Palaniappan An Enhancement For Voice Assistant Skills That Uses Natural Language Processing (NLP) Technique–A Research Proposal

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21782201

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022511941

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021782201

Country of ref document: EP

Effective date: 20221031