JP2018017764A - Robot and voice interactive method - Google Patents

Robot and voice interactive method Download PDF

Info

Publication number
JP2018017764A
JP2018017764A JP2016145367A JP2016145367A JP2018017764A JP 2018017764 A JP2018017764 A JP 2018017764A JP 2016145367 A JP2016145367 A JP 2016145367A JP 2016145367 A JP2016145367 A JP 2016145367A JP 2018017764 A JP2018017764 A JP 2018017764A
Authority
JP
Japan
Prior art keywords
robot
utterance
sentence
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016145367A
Other languages
Japanese (ja)
Other versions
JP6680125B2 (en
Inventor
池野 篤司
Tokuji Ikeno
篤司 池野
宗明 島田
Muneaki Shimada
宗明 島田
浩太 畠中
Kota HATANAKA
浩太 畠中
西島 敏文
Toshifumi Nishijima
敏文 西島
史憲 片岡
Fuminori Kataoka
史憲 片岡
刀根川 浩巳
Hiromi Tonegawa
浩巳 刀根川
倫秀 梅山
Norihide Umeyama
倫秀 梅山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2016145367A priority Critical patent/JP6680125B2/en
Publication of JP2018017764A publication Critical patent/JP2018017764A/en
Application granted granted Critical
Publication of JP6680125B2 publication Critical patent/JP6680125B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To enable a natural conversation between robots.SOLUTION: A robot which structures a conversation system for dialogue between robots has: communication means for performing radio communication with other robot; speech sentence acquisition means for acquiring a speech sentence for the other robot; voice output means for outputting the speech sentence by a synthetic voice; speech transmission means for transmitting speech data which is data related to the speech sentence output by the voice output means to the other robot by radio communication; and speech reception means for acquiring the contents of a speech uttered by the robot by receiving the speech data transmitted by the robot that is an interactive mate.SELECTED DRAWING: Figure 1

Description

本発明は、音声によって対話するロボットに関する。   The present invention relates to a robot that interacts by voice.

近年、人と対話をすることによって様々な情報を提供するロボットが開発されている。例えば、特許文献1には、マイクによって入力された音声をネットワーク上で処理し、入力に対する応答を音声で返すコミュニケーションロボットが開示されている。   In recent years, robots that provide various information by interacting with people have been developed. For example, Patent Document 1 discloses a communication robot that processes voice input by a microphone on a network and returns a response to the input by voice.

また、音声による対話が可能なロボットを複数用いると、ロボット同士による会話が可能になる。例えば、複数のユーザがロボットを持ち寄って互いに会話を行わせるといった楽しみ方ができる。   Further, when a plurality of robots capable of voice conversation are used, conversation between the robots becomes possible. For example, it can be enjoyed such that a plurality of users bring a robot and have a conversation with each other.

特開2015−013351号公報Japanese Patent Laid-Open No. 2015-013351 特開2010−166377号公報JP 2010-166377 A 特開2002−307354号公報JP 2002-307354 A

しかし、音声認識が可能な複数のロボットを互いに対話させようとした場合、いくつかの問題が発生する。一つは、音声認識の精度の問題である。一般的な音声認識モデルは、人の肉声を対象としているため、合成された音声に対して十分な認識精度が得られないことがある。もう一つの問題は、どのロボットがどのロボットに話しかけているかが判別しづらいという問題である。合成された音声は特徴が似通っているため、判別が難しく、話者が増えると正しく会話が成立しないことがある。   However, when a plurality of robots capable of voice recognition are tried to interact with each other, several problems occur. One problem is the accuracy of speech recognition. Since a general speech recognition model is intended for human voice, sufficient recognition accuracy may not be obtained for synthesized speech. Another problem is that it is difficult to determine which robot is talking to which robot. Since the synthesized speech has similar characteristics, it is difficult to discriminate, and when the number of speakers increases, the conversation may not be established correctly.

本発明は上記の課題を考慮してなされたものであり、ロボット同士の自然な対話を可能にする技術を提供することを目的とする。   The present invention has been made in consideration of the above-described problems, and an object of the present invention is to provide a technique that enables a natural dialogue between robots.

本発明に係るロボットは、ロボット同士が相互に対話を行う対話システムを構成するロボットである。
具体的には、他のロボットとの間で無線通信を行う通信手段と、前記他のロボットに対する発話文を取得する発話文取得手段と、合成音声によって前記発話文を出力する音声出力手段と、前記音声出力手段が出力する発話文に関連するデータである発話データを、無線通信によって他のロボットに送信する発話送信手段と、対話相手のロボットが送信した発話データを受信することで、当該ロボットが発した発話の内容を取得する発話受信手段と、を有することを特徴とする。
The robot according to the present invention is a robot constituting an interactive system in which robots interact with each other.
Specifically, a communication means for performing wireless communication with another robot, an utterance sentence acquisition means for acquiring an utterance sentence for the other robot, an audio output means for outputting the utterance sentence by synthesized speech, By receiving utterance data that is data related to the utterance sentence output by the voice output means to another robot by wireless communication, and by receiving the utterance data transmitted by the robot of the conversation partner, the robot And utterance receiving means for acquiring the content of the utterance uttered by.

本発明に係るロボットは、発話文を音声によって出力するとともに、当該発話文に関連するデータである発話データを無線通信によって送信する。発話データとは、例えば、発話文を含んだテキストデータであってもよいし、発話の内容を要約したデータであってもよい。また、発話の種別や、ロボットの感情などを含んだデータであってもよい。また、発話元であるロボットと対話相手であるロボットを識別する情報が含まれたデータであってもよい。
かかる構成によると、ロボットが実際に音声によって会話をしているような効果を演出
しつつ、対話を成立させるために必要なデータを相手側のロボットに伝送することができる。すなわち、音声認識の精度にかかわらず、ロボット間の会話を正しく成立させることができる。
The robot according to the present invention outputs an utterance sentence by voice and transmits utterance data, which is data related to the utterance sentence, by wireless communication. The utterance data may be, for example, text data including an utterance sentence, or data summarizing the contents of the utterance. Further, it may be data including the type of utterance and the emotion of the robot. Further, it may be data including information for identifying a robot that is a speech source and a robot that is a conversation partner.
According to such a configuration, it is possible to transmit data necessary for establishing a conversation to the robot on the other side while producing an effect that the robot is actually speaking through voice. That is, the conversation between the robots can be correctly established regardless of the accuracy of voice recognition.

また、前記発話文取得手段は、前記対話相手のロボットが送信した発話データを用いて、当該ロボットに対する返答となる発話文を取得することを特徴としてもよい。   Further, the utterance sentence acquisition means may acquire an utterance sentence that becomes a reply to the robot using utterance data transmitted by the robot of the conversation partner.

対話相手のロボットから送信された発話データを用いることで、的確な内容の返答を取得することができる。   By using the utterance data transmitted from the robot of the conversation partner, an accurate response can be acquired.

また、前記発話データは、発話を行うロボットを識別する情報を含むことを特徴としてもよい。また、前記発話データは、対話相手のロボットを識別する情報を含むことを特徴としてもよい。   The speech data may include information for identifying a robot that performs speech. Further, the utterance data may include information for identifying the robot of the conversation partner.

ロボットが発話する際に、「誰が発話したか」および「誰に対して発話したか」を識別する情報を同時に伝送することで、対話相手のロボットが正しく反応できるようになる。特に、三台以上のロボットを対話させる場合に、相手を正しく識別できるようになる。このように、対話相手のロボットは二台以上であってもよい。   When the robot speaks, information identifying “who spoke” and “who spoke” is transmitted at the same time, so that the robot of the conversation partner can react correctly. In particular, when three or more robots interact with each other, the opponent can be correctly identified. In this way, there may be two or more robots as conversation partners.

また、前記発話データは、発話を行うロボットのオーナーと、対話相手のロボットのオーナーをそれぞれ識別する情報を含み、前記発話文取得手段は、前記オーナーに関する情報をさらに用いて前記発話文を取得することを特徴としてもよい。   The utterance data includes information for identifying the owner of the robot that performs the utterance and the owner of the robot of the conversation partner, and the utterance sentence acquisition means acquires the utterance sentence by further using information about the owner. This may be a feature.

ユーザが所有するロボットを持ち寄って会話させる場合がある。このような場合、ロボットがオーナーに関する情報を取得し、当該情報を用いて発話文を生成することで、ロボットの会話内容がバラエティ豊かなものとなる。   There is a case where a robot owned by a user is brought into a conversation. In such a case, the robot acquires information about the owner, and generates an utterance sentence using the information, so that the conversation contents of the robot become rich in variety.

なお、本発明は、上記手段の少なくとも一部を含むロボットとして特定することができる。また、前記ロボットが行う音声対話方法として特定することもできる。上記処理や手段は、技術的な矛盾が生じない限りにおいて、自由に組み合わせて実施することができる。   In addition, this invention can be specified as a robot containing at least one part of the said means. It can also be specified as a voice interaction method performed by the robot. The above processes and means can be freely combined and implemented as long as no technical contradiction occurs.

本発明によれば、ロボット同士の自然な対話を可能にする技術を提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the technique which enables the natural dialogue between robots can be provided.

実施形態に係る音声対話システムのシステム構成図である。1 is a system configuration diagram of a voice interaction system according to an embodiment. 実施形態におけるデータフロー図である。It is a data flow figure in an embodiment. 実施形態におけるデータフロー図である。It is a data flow figure in an embodiment.

以下、本発明の好ましい実施形態について図面を参照しながら説明する。
本実施形態に係る音声対話システムは、ロボットが、ユーザおよび他のロボットと自然言語による対話を行うシステムである。
Hereinafter, preferred embodiments of the present invention will be described with reference to the drawings.
The voice interaction system according to the present embodiment is a system in which a robot interacts with a user and other robots in a natural language.

<システム構成>
図1は、本実施形態に係る音声対話システムのシステム構成図である。本実施形態に係る音声対話システムは、ロボット10と対話サーバ20から構成される。なお、図1には示していないが、本実施形態に係る音声対話システムは、複数のロボット10を含んで構
成することができる。
<System configuration>
FIG. 1 is a system configuration diagram of a spoken dialogue system according to the present embodiment. The voice interaction system according to this embodiment includes a robot 10 and an interaction server 20. Although not shown in FIG. 1, the voice interaction system according to this embodiment can be configured to include a plurality of robots 10.

まず、ロボット10について説明する。ロボット10は、外部から音声を取得する機能と、対話サーバ20と通信することで発話内容の文章(以下、発話文)を取得する機能と、当該発話文を音声によって出力する機能を有するロボットである。ロボット10は、例えば、コミュニケーションロボットであるが、必ずしもキャラクターの形をしている必要はない。例えば、ロボットに組み込むことができる汎用のコンピュータであってもよい。   First, the robot 10 will be described. The robot 10 is a robot having a function of acquiring a voice from the outside, a function of acquiring a utterance content sentence (hereinafter referred to as a uttered sentence) by communicating with the dialogue server 20, and a function of outputting the uttered sentence by voice. is there. The robot 10 is a communication robot, for example, but does not necessarily have a character shape. For example, it may be a general-purpose computer that can be incorporated into a robot.

ロボット10は、通信部11、音声入力部12、音声出力部13、近距離通信部14、制御部15から構成される。   The robot 10 includes a communication unit 11, a voice input unit 12, a voice output unit 13, a short-range communication unit 14, and a control unit 15.

通信部11は、通信回線(例えば携帯電話網)を介してネットワークにアクセスすることで、対話サーバ20との通信を行う手段である。
音声入力部12は、音声を取得する手段である。具体的には、不図示のマイクを用いて、音声を電気信号(以下、音声データ)に変換する。取得した音声データは制御部15へ送信される。音声入力部12は、主にユーザが発した音声を取得するために用いられる。
音声出力部13は、音声を出力する手段である。具体的には、不図示のスピーカを用いて、制御部15から送信された音声データを音声に変換する。
The communication unit 11 is means for communicating with the dialogue server 20 by accessing the network via a communication line (for example, a mobile phone network).
The voice input unit 12 is a means for acquiring voice. Specifically, sound is converted into an electrical signal (hereinafter referred to as sound data) using a microphone (not shown). The acquired voice data is transmitted to the control unit 15. The voice input unit 12 is mainly used to acquire voice uttered by the user.
The sound output unit 13 is a means for outputting sound. Specifically, voice data transmitted from the control unit 15 is converted into voice using a speaker (not shown).

近距離通信部14は、ロボット10同士で無線通信を行う手段である。本実施形態では、近距離通信部14は、Bluetooth(登録商標)接続を利用した通信を行う。本実施形態では、「対話相手となる他のロボットの検出」と、「ロボット間における情報交換」という二つの機能を、近距離通信部14を用いて実現する。   The short-range communication unit 14 is means for performing wireless communication between the robots 10. In the present embodiment, the short-range communication unit 14 performs communication using a Bluetooth (registered trademark) connection. In the present embodiment, two functions of “detection of another robot as a conversation partner” and “information exchange between robots” are realized using the short-range communication unit 14.

制御部15は、ロボット10が行う音声対話全般を制御する手段である。
具体的には、対話相手(例えば、ユーザや他のロボット)が存在することを検出して対話を開始する機能、対話サーバ20から発話文を取得する機能、取得した発話文を音声データに変換し音声出力部13を介して出力する機能などを実行する。
The control unit 15 is a means for controlling the overall voice conversation performed by the robot 10.
Specifically, a function for detecting the presence of a conversation partner (for example, a user or another robot) and starting a conversation, a function for acquiring an utterance sentence from the conversation server 20, and converting the acquired utterance sentence into voice data The function of outputting via the audio output unit 13 is executed.

また、本実施形態では、制御部15は、対話相手が他のロボットである場合に、発話文を音声データに変換して出力するのと同時に、当該発話文の内容を表すテキスト(以下、発話データ)を、自ロボットの識別子とともに近距離通信部14を介して対話相手のロボットに送信する。また、制御部15は、発話データが他のロボットから送信された場合に、当該発話データに基づいて、当該他のロボットが行った発話の内容を取得する。詳細な処理内容については後述する。   In the present embodiment, when the conversation partner is another robot, the control unit 15 converts the utterance sentence into voice data and outputs it, and at the same time, the text representing the contents of the utterance sentence (hereinafter referred to as utterance). Data) is transmitted to the robot of the conversation partner via the short-range communication unit 14 together with the identifier of the robot. In addition, when the utterance data is transmitted from another robot, the control unit 15 acquires the content of the utterance performed by the other robot based on the utterance data. Detailed processing contents will be described later.

対話サーバ20は、ロボット10から送信されたデータに基づいて発話文を生成するサーバ装置である。対話サーバ20は、ロボット10から、音声データ、発話データ、あるいは、対話相手であるロボットに関する情報を取得し、発話文を生成する。対話サーバ20は、通信部21、音声認識部22、発話生成部23から構成される。   The dialogue server 20 is a server device that generates an utterance sentence based on data transmitted from the robot 10. The dialogue server 20 acquires voice data, utterance data, or information about a robot that is a dialogue partner from the robot 10 and generates an utterance sentence. The dialogue server 20 includes a communication unit 21, a voice recognition unit 22, and an utterance generation unit 23.

通信部21が有する機能は、前述した通信部11と同様であるため、詳細な説明は省略する。
音声認識部22は、ロボット10から送信された音声データに対して音声認識を行い、テキストに変換する手段である。音声認識は、既知の技術によって行うことができる。例えば、音声認識部22には、音響モデルと認識辞書が記憶されており、取得した音声データと音響モデルとを比較して特徴を抽出し、抽出した特徴を認識辞書とをマッチングさせることで音声認識を行う。
Since the function which the communication part 21 has is the same as that of the communication part 11 mentioned above, detailed description is abbreviate | omitted.
The voice recognition unit 22 is means for performing voice recognition on the voice data transmitted from the robot 10 and converting the voice data into text. Speech recognition can be performed by known techniques. For example, the speech recognition unit 22 stores an acoustic model and a recognition dictionary, extracts features by comparing the acquired speech data with the acoustic model, and matches the extracted features with the recognition dictionary to generate speech. Recognize.

発話生成部23は、ロボット10から取得したデータ、または、音声認識部22が出力
したテキストに基づいて、発話文を生成する手段である。具体的には、(1)ロボット10から取得した発話データ、(2)ロボット10から取得した、対話相手に関する情報、(3)音声認識を行った結果得られたテキスト、のいずれかに基づいて、発話文の生成を行う。ロボット10の対話相手が他のロボット10である場合、前述した(1)および(2)によって発話文が生成され、ロボット10の対話相手が人間である場合、前述した(3)によって発話文が生成される。それぞれの具体的な処理例については、データフロー図を参照しながら後ほど説明する。
The utterance generation unit 23 is a unit that generates an utterance sentence based on the data acquired from the robot 10 or the text output by the voice recognition unit 22. Specifically, based on one of (1) utterance data acquired from the robot 10, (2) information about a conversation partner acquired from the robot 10, and (3) text obtained as a result of voice recognition. Generate utterance sentences. When the conversation partner of the robot 10 is another robot 10, an utterance sentence is generated by the above-described (1) and (2), and when the conversation partner of the robot 10 is a human being, the utterance sentence is converted by the aforementioned (3). Generated. Each specific processing example will be described later with reference to a data flow diagram.

発話文は、例えば、対話シナリオ(対話辞書)によって生成されてもよい。また、データベースを検索して得られた情報であってもよいし、ウェブ検索によって得られた情報であってもよい。
発話生成部23が取得した情報は、ロボット10へテキスト形式で送信され、その後、合成音声によって出力される。
The utterance sentence may be generated by, for example, a dialogue scenario (a dialogue dictionary). Further, it may be information obtained by searching a database, or information obtained by web search.
The information acquired by the utterance generation unit 23 is transmitted to the robot 10 in a text format, and then output as synthesized speech.

ロボット10および対話サーバ20は、いずれもCPU、主記憶装置、補助記憶装置を有する情報処理装置として構成することができる。補助記憶装置に記憶されたプログラムが主記憶装置にロードされ、CPUによって実行されることで、図1に図示した各手段が機能する。なお、図示した機能の全部または一部は、専用に設計された回路を用いて実行されてもよい。   Both the robot 10 and the dialogue server 20 can be configured as an information processing apparatus having a CPU, a main storage device, and an auxiliary storage device. Each unit shown in FIG. 1 functions by loading a program stored in the auxiliary storage device into the main storage device and executing it by the CPU. Note that all or part of the illustrated functions may be executed using a circuit designed exclusively.

<処理フローチャート>
次に、ロボット10が行う具体的な処理の内容について説明する。
まず、ロボット10とユーザが音声によって対話する処理について、装置間のデータフロー図である図2を参照しながら説明する。
<Process flowchart>
Next, the content of specific processing performed by the robot 10 will be described.
First, the process in which the robot 10 and the user interact by voice will be described with reference to FIG. 2 which is a data flow diagram between apparatuses.

まず、ステップS11で、音声入力部12が、不図示のマイクを通して装置のユーザから音声を取得する。取得した音声は音声データに変換され、対話サーバ20(音声認識部22)へ送信される。   First, in step S11, the voice input unit 12 acquires voice from the user of the apparatus through a microphone (not shown). The acquired voice is converted into voice data and transmitted to the dialogue server 20 (voice recognition unit 22).

次に、対話サーバ20が有する音声認識部22が、ロボット10から送信された音声データに対して音声認識を実行する(ステップS12)。音声を認識した結果のテキストは、発話生成部23へ送信される。   Next, the voice recognition unit 22 included in the dialogue server 20 performs voice recognition on the voice data transmitted from the robot 10 (step S12). The text as a result of recognizing the voice is transmitted to the utterance generation unit 23.

次に、対話サーバ20が有する発話生成部23が、音声認識部22が出力したテキストに基づいて発話文を生成する(ステップS13)。生成された発話文はロボット10(制御部15)へ送信される。
そして、ステップS14で、ロボット10が有する制御部15が、発話文に基づいて音声合成を行い、音声出力部13を介して出力する。
Next, the utterance generation unit 23 of the dialogue server 20 generates an utterance sentence based on the text output by the speech recognition unit 22 (step S13). The generated utterance sentence is transmitted to the robot 10 (control unit 15).
In step S <b> 14, the control unit 15 included in the robot 10 synthesizes speech based on the uttered sentence and outputs the synthesized speech via the speech output unit 13.

次に、ロボット10同士が対話する場合の処理について、図3を参照しながら説明する。
なお、ここでは、一台目のロボットをロボット10、ロボット10と対話する二台目のロボットをロボット10’と称し、両者を区別する。また、ロボット10’が有している各手段については、符号にアポストロフィを付加することで区別する。
Next, processing when the robots 10 interact with each other will be described with reference to FIG.
Here, the first robot is referred to as the robot 10, and the second robot that interacts with the robot 10 is referred to as the robot 10 '. Further, each means possessed by the robot 10 ′ is distinguished by adding an apostrophe to the code.

まず、ステップS21で、制御部15が、ロボット同士の対話を開始するためのトリガ(対話開始トリガ)を生成する。本例では、ロボット10が、近距離通信部14を介して、自らの近傍に他のロボットの存在を検出した場合に、対話開始トリガを生成するものとする。例えば、各ロボットが、自己の識別子を無線によって周期的にブロードキャストするように構成し、所定の距離以内に他のロボットを検出した場合に、対話開始トリガを生
成してもよい。この際、制御部15は、検出した他のロボット(すなわち、対話相手となるロボット)の識別子をさらに取得する。
First, in step S21, the control unit 15 generates a trigger (dialog start trigger) for starting a dialog between robots. In this example, when the robot 10 detects the presence of another robot in the vicinity of the robot 10 via the short-range communication unit 14, it is assumed that a dialogue start trigger is generated. For example, each robot may be configured to periodically broadcast its own identifier wirelessly, and when another robot is detected within a predetermined distance, an interaction start trigger may be generated. At this time, the control unit 15 further acquires an identifier of another detected robot (that is, a robot that is a conversation partner).

次に、発話文を生成するための情報を対話サーバ20(発話生成部23)に送信する。ここで送信される情報は、対話相手のロボットに関する情報である。例えば、ステップS21で検出した他のロボットに関する情報(例えば、対話相手の台数や識別子など)を送信してもよいし、対話相手を検出したという情報のみを送信してもよい。   Next, information for generating an utterance sentence is transmitted to the dialogue server 20 (the utterance generation unit 23). The information transmitted here is information regarding the robot of the conversation partner. For example, information on other robots detected in step S21 (for example, the number of conversation partners or identifiers) may be transmitted, or only information indicating that a conversation partner has been detected may be transmitted.

次に、対話サーバ20が有する発話生成部23が、ロボット10から取得した情報に基づいて発話文を生成する(ステップS22)。生成された発話文はロボット10(制御部15)へ送信される。
ステップS23では、ロボット10が有する制御部15が、発話文に基づいて音声合成を行い、音声出力部13を介して出力する。また、同時に、(1)発話データに加えて、(2)発話を行ったロボットの識別子と、(3)相手先ロボットの識別子を、対話先のロボット10’へ無線通信によって送信する。以降、これら三つのデータを発話データセットと称する。
Next, the utterance generation unit 23 included in the dialogue server 20 generates an utterance sentence based on the information acquired from the robot 10 (step S22). The generated utterance sentence is transmitted to the robot 10 (control unit 15).
In step S <b> 23, the control unit 15 included in the robot 10 synthesizes speech based on the uttered sentence and outputs it through the speech output unit 13. At the same time, in addition to (1) utterance data, (2) the identifier of the robot that made the utterance and (3) the identifier of the partner robot are transmitted to the robot 10 ′ that is the conversation destination by wireless communication. Hereinafter, these three data are referred to as an utterance data set.

ステップS24において、ロボット10’が発話データを受信すると、上記(3)を参照し、当該発話データセットが自分宛のものであるか否かを判定する。ここで、受信した発話データセットが自分宛のものであった場合、対話開始トリガを生成する。
そして、発話文を生成するための情報を対話サーバ20(発話生成部23)に送信する。ここで送信される情報は、ロボット10から送信された発話データセットそのものである。
なお、本例では発話データセットそのものを対話サーバ20に送信するものとしたが、対話相手に関する情報であれば、他の情報を追加で対話サーバ20に送信してもよい。例えば、発話内容の要約、発話文の種別、相手側ロボットの感情などを送信してもよい。
In step S24, when the robot 10 'receives the utterance data, it is determined whether or not the utterance data set is addressed to itself with reference to (3) above. Here, when the received utterance data set is addressed to itself, a dialog start trigger is generated.
And the information for producing | generating an utterance sentence is transmitted to the dialogue server 20 (utterance production | generation part 23). The information transmitted here is the utterance data set itself transmitted from the robot 10.
In this example, the utterance data set itself is transmitted to the dialog server 20, but other information may be additionally transmitted to the dialog server 20 as long as the information is related to the dialog partner. For example, a summary of the utterance content, the type of the utterance sentence, and the emotion of the partner robot may be transmitted.

次に、対話サーバ20が有する発話生成部23が、ロボット10’から取得した情報に基づいて発話文を生成する(ステップS25)。生成された発話文はロボット10’(制御部15’)へ送信される。
なお、発話文の生成においては、発話を行ったロボットの識別子と、相手先ロボットの識別子を加味してもよい。例えば、対話サーバ20に、ロボットのプロフィールや、当該ロボットのオーナーのプロフィール、当該ロボットと行った過去の会話の内容などを、ロボットの識別子と関連付けて記憶させておき、発話文の生成に利用してもよい。
Next, the utterance generation unit 23 included in the dialogue server 20 generates an utterance sentence based on the information acquired from the robot 10 ′ (step S25). The generated utterance sentence is transmitted to the robot 10 ′ (control unit 15 ′).
In the generation of the spoken sentence, the identifier of the robot that made the utterance and the identifier of the partner robot may be taken into account. For example, the dialog server 20 stores the robot profile, the owner profile of the robot, the contents of past conversations with the robot, etc., in association with the identifier of the robot, and uses them for generating spoken sentences. May be.

ステップS26では、ロボット10’が有する制御部15’が、対話サーバ20から取得した発話文に基づいて音声合成を行い、音声出力部13’を介して出力する。また、この際、新たな発話データセットを生成し、音声の出力と平行してロボット10へ送信する。
以降は、前述した処理を繰り返すことでロボット同士の対話が進行する。
In step S26, the control unit 15 ′ of the robot 10 ′ synthesizes speech based on the utterance sentence acquired from the dialogue server 20, and outputs it through the speech output unit 13 ′. At this time, a new utterance data set is generated and transmitted to the robot 10 in parallel with the voice output.
Thereafter, the robots interact with each other by repeating the process described above.

以上説明したように、本実施形態では、ロボットが発話を行う際に、無線通信によって当該発話の内容を相手側のロボットに伝送する。すなわち、ロボットが行う音声出力は、ユーザに対する演出であり、実際の情報の伝達は無線通信によって行う。
ロボット同士が実際に音声を介して対話を行う場合、当該ロボットが置かれた環境によっては、音声の認識精度が確保できず、正しい応答を生成できなくなることがあるが、本実施形態によると、精度の高い対話を行うことができる。
As described above, in this embodiment, when a robot utters, the content of the utterance is transmitted to the partner robot by wireless communication. That is, the voice output performed by the robot is an effect for the user, and actual information is transmitted by wireless communication.
When the robots actually interact with each other via voice, depending on the environment in which the robot is placed, the voice recognition accuracy may not be ensured, and a correct response may not be generated. A highly accurate dialogue can be performed.

(変形例)
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適
宜変更して実施しうる。
(Modification)
The above embodiment is merely an example, and the present invention can be implemented with appropriate modifications within a range not departing from the gist thereof.

例えば、実施形態の説明では、対話サーバ20が音声認識を行ったが、音声認識を行う手段をロボット10に持たせてもよい。また、実施形態の説明では、応答文の生成を対話サーバ20で行ったが、応答文の生成をロボット10が行うようにしてもよい。
また、実施形態の説明では、ロボット10がユーザとの対話を行ったが、外部との入出力を行う手段をロボット10から分離してもよい。例えば、音声出力部13や音声入力部12を独立させてもよい。
For example, in the description of the embodiment, the dialogue server 20 performs voice recognition, but the robot 10 may be provided with means for performing voice recognition. Further, in the description of the embodiment, the response sentence is generated by the dialog server 20, but the robot 10 may generate the response sentence.
In the description of the embodiment, the robot 10 has interacted with the user. However, the means for performing input / output with the outside may be separated from the robot 10. For example, the audio output unit 13 and the audio input unit 12 may be independent.

また、実施形態の説明では、近距離無線通信を用いて他のロボットの存在を検出したが、無線通信以外の手段を用いて他のロボットを検出してもよい。例えば、内蔵されたカメラを用いて画像を撮像し、当該画像を解析することで、対話相手である他のロボットを検出してもよい。また、パターンマッチングやバーコードの読み取りといった既知の技術を用いて、検出したロボットの個体を識別してもよい。   In the description of the embodiment, the presence of another robot is detected using short-range wireless communication, but other robots may be detected using means other than wireless communication. For example, another robot that is a conversation partner may be detected by capturing an image using a built-in camera and analyzing the image. Alternatively, the detected robot may be identified using a known technique such as pattern matching or barcode reading.

また、実施形態の説明では、発話データセットに、発話データとロボットの識別子を含ませたが、付加的な他のデータを追加してもよい。例えば、「現在時刻」、「会話の種別」、「ロボットの擬似的感情」などを付加し、発話生成部23が、これらの情報にさらに基づいて発話文を生成するようにしてもよい。
また、実施形態の説明では、発話データセットにロボットの識別子を含ませたが、例えば、対話を行うロボットが一対一である場合など、対話相手となるロボットが一意に特定できる場合、省略してもよい。
In the description of the embodiment, the utterance data and the robot identifier are included in the utterance data set, but other additional data may be added. For example, “current time”, “conversation type”, “robot emotion” may be added, and the utterance generation unit 23 may further generate an utterance sentence based on these pieces of information.
Also, in the description of the embodiment, the robot identifier is included in the utterance data set, but this is omitted when the robot that is the conversation partner can be uniquely identified, for example, when the robot that performs the conversation is one-to-one. Also good.

10・・・ロボット
11,21・・・通信部
12・・・音声出力部
13・・・音声入力部
14・・・音声認識部
15・・・近距離通信部
16・・・制御部
20・・・対話サーバ
22・・・発話生成部
DESCRIPTION OF SYMBOLS 10 ... Robot 11, 21 ... Communication part 12 ... Voice output part 13 ... Voice input part 14 ... Voice recognition part 15 ... Short-range communication part 16 ... Control part 20 .. Dialog server 22 ... Utterance generator

Claims (7)

ロボット同士が相互に対話を行う対話システムを構成するロボットであって、
他のロボットとの間で無線通信を行う通信手段と、
前記他のロボットに対する発話文を取得する発話文取得手段と、
合成音声によって前記発話文を出力する音声出力手段と、
前記音声出力手段が出力する発話文に関連するデータである発話データを、無線通信によって他のロボットに送信する発話送信手段と、
対話相手のロボットが送信した発話データを受信することで、当該ロボットが発した発話の内容を取得する発話受信手段と、
を有するロボット。
A robot constituting an interactive system in which robots interact with each other,
Communication means for performing wireless communication with other robots;
An utterance sentence acquisition means for acquiring an utterance sentence for the other robot;
Voice output means for outputting the utterance sentence by synthesized voice;
Speech transmission means for transmitting speech data, which is data related to a speech sentence output by the voice output means, to another robot by wireless communication;
Utterance receiving means for acquiring the content of the utterances uttered by the robot by receiving the utterance data transmitted by the robot of the conversation partner;
Robot with
前記発話文取得手段は、前記対話相手のロボットが送信した発話データを用いて、当該ロボットに対する返答となる発話文を取得する、
請求項1に記載のロボット。
The utterance sentence acquisition means acquires an utterance sentence that becomes a response to the robot using the utterance data transmitted by the robot of the conversation partner.
The robot according to claim 1.
前記発話データは、発話を行うロボットを識別する情報を含む、
請求項1または2に記載のロボット。
The speech data includes information for identifying a robot that performs speech.
The robot according to claim 1 or 2.
前記発話データは、対話相手のロボットを識別する情報を含む、
請求項3に記載のロボット。
The utterance data includes information for identifying a robot of a conversation partner.
The robot according to claim 3.
前記発話データは、発話を行うロボットのオーナーと、対話相手のロボットのオーナーをそれぞれ識別する情報を含み、
前記発話文取得手段は、前記オーナーに関する情報をさらに用いて前記発話文を取得する、
請求項1から4のいずれかに記載のロボット。
The utterance data includes information for identifying the owner of the robot that performs the utterance and the owner of the robot of the conversation partner,
The utterance sentence acquisition means acquires the utterance sentence by further using information about the owner.
The robot according to any one of claims 1 to 4.
ロボット同士が相互に対話を行う対話システムを構成するロボットが行う音声対話方法であって、
他のロボットに対する発話文を取得する発話文取得ステップと、
合成音声によって前記発話文を出力する音声出力ステップと、
前記発話文に関連するデータである発話データを、無線通信によって他のロボットに送信する発話送信ステップと、
他のロボットから発話データを受信する発話受信ステップと、
を含み、
対話相手のロボットが送信した発話データを用いて、当該ロボットが発した発話の内容を取得する、
音声対話方法。
A voice dialogue method performed by robots that constitute a dialogue system in which robots interact with each other,
An utterance acquisition step for acquiring an utterance for another robot;
A voice output step of outputting the spoken sentence by synthesized voice;
A speech transmission step of transmitting speech data, which is data related to the speech sentence, to another robot by wireless communication;
An utterance receiving step of receiving utterance data from another robot;
Including
Using the utterance data sent by the robot of the conversation partner, acquire the content of the utterance uttered by the robot,
Voice interaction method.
請求項6に記載の音声対話方法をコンピュータに実行させるプログラム。   A program for causing a computer to execute the voice interaction method according to claim 6.
JP2016145367A 2016-07-25 2016-07-25 Robot and voice interaction method Active JP6680125B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016145367A JP6680125B2 (en) 2016-07-25 2016-07-25 Robot and voice interaction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016145367A JP6680125B2 (en) 2016-07-25 2016-07-25 Robot and voice interaction method

Publications (2)

Publication Number Publication Date
JP2018017764A true JP2018017764A (en) 2018-02-01
JP6680125B2 JP6680125B2 (en) 2020-04-15

Family

ID=61081710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016145367A Active JP6680125B2 (en) 2016-07-25 2016-07-25 Robot and voice interaction method

Country Status (1)

Country Link
JP (1) JP6680125B2 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11207031A (en) * 1998-01-22 1999-08-03 Namco Ltd Portable communication toy and information storage medium
JP2002287953A (en) * 2001-03-23 2002-10-04 Sony Corp User interface system
JP2003205483A (en) * 2001-11-07 2003-07-22 Sony Corp Robot system and control method for robot device
JP2004062063A (en) * 2002-07-31 2004-02-26 Matsushita Electric Ind Co Ltd Interactive apparatus
JP2008506510A (en) * 2004-06-08 2008-03-06 スピーチギア,インコーポレイティド Figurine using external computing power using wireless communication
JP2016071247A (en) * 2014-09-30 2016-05-09 シャープ株式会社 Interaction device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11207031A (en) * 1998-01-22 1999-08-03 Namco Ltd Portable communication toy and information storage medium
JP2002287953A (en) * 2001-03-23 2002-10-04 Sony Corp User interface system
JP2003205483A (en) * 2001-11-07 2003-07-22 Sony Corp Robot system and control method for robot device
JP2004062063A (en) * 2002-07-31 2004-02-26 Matsushita Electric Ind Co Ltd Interactive apparatus
JP2008506510A (en) * 2004-06-08 2008-03-06 スピーチギア,インコーポレイティド Figurine using external computing power using wireless communication
JP2016071247A (en) * 2014-09-30 2016-05-09 シャープ株式会社 Interaction device

Also Published As

Publication number Publication date
JP6680125B2 (en) 2020-04-15

Similar Documents

Publication Publication Date Title
JP6402748B2 (en) Spoken dialogue apparatus and utterance control method
US10412206B1 (en) Communications for multi-mode device
US10600414B1 (en) Voice control of remote device
US9552815B2 (en) Speech understanding method and system
JP5613335B2 (en) Speech recognition system, recognition dictionary registration system, and acoustic model identifier sequence generation device
JP6497372B2 (en) Voice dialogue apparatus and voice dialogue method
JP2018049143A (en) Voice acquisition system and voice acquisition method
WO2011048826A1 (en) Speech translation system, control apparatus and control method
JP2017215468A (en) Voice interactive device and voice interactive method
US9390426B2 (en) Personalized advertisement device based on speech recognition SMS service, and personalized advertisement exposure method based on partial speech recognition SMS service
JP6614080B2 (en) Spoken dialogue system and spoken dialogue method
US10143027B1 (en) Device selection for routing of communications
JP2020046478A (en) Robot system
JP6448950B2 (en) Spoken dialogue apparatus and electronic device
JP2010139744A (en) Voice recognition result correcting device and voice recognition result correction method
WO2019187521A1 (en) Voice information transmission device, voice information transmission method, voice information transmission program, voice information analysis system, and voice information analysis server
JP2018021953A (en) Voice interactive device and voice interactive method
US11790913B2 (en) Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal
JP6680125B2 (en) Robot and voice interaction method
US11172527B2 (en) Routing of communications to a device
US11161038B2 (en) Systems and devices for controlling network applications
KR102181583B1 (en) System for voice recognition of interactive robot and the method therof
KR20210098250A (en) Electronic device and Method for controlling the electronic device thereof
JP5929810B2 (en) Voice analysis system, voice terminal apparatus and program
US20170195278A1 (en) Communication support device, communication support method, and computer program product

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200302

R151 Written notification of patent or utility model registration

Ref document number: 6680125

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151