JP2023001299A - Interaction system and program - Google Patents
Interaction system and program Download PDFInfo
- Publication number
- JP2023001299A JP2023001299A JP2022179640A JP2022179640A JP2023001299A JP 2023001299 A JP2023001299 A JP 2023001299A JP 2022179640 A JP2022179640 A JP 2022179640A JP 2022179640 A JP2022179640 A JP 2022179640A JP 2023001299 A JP2023001299 A JP 2023001299A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- dialogue
- utterance
- person
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title abstract description 11
- 230000004044 response Effects 0.000 claims abstract description 140
- 230000006870 function Effects 0.000 claims description 11
- 238000013515 script Methods 0.000 abstract description 27
- 230000015556 catabolic process Effects 0.000 abstract description 6
- 238000000034 method Methods 0.000 description 12
- 210000001508 eye Anatomy 0.000 description 10
- 210000003128 head Anatomy 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 210000005252 bulbus oculi Anatomy 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 210000000744 eyelid Anatomy 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 240000000220 Panda oleosa Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 241000209094 Oryza Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 235000008429 bread Nutrition 0.000 description 1
- 235000021329 brown rice Nutrition 0.000 description 1
- 235000012970 cakes Nutrition 0.000 description 1
- 235000013330 chicken meat Nutrition 0.000 description 1
- 235000021438 curry Nutrition 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 235000019688 fish Nutrition 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 235000021156 lunch Nutrition 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 210000000323 shoulder joint Anatomy 0.000 description 1
- 235000012046 side dish Nutrition 0.000 description 1
- 235000011888 snacks Nutrition 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Manipulator (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、対話システムおよびプログラムに関し、特にたとえば、対話場所において少なくとも1体のエージェントが少なくとも1人の人と対話する、対話システムおよびプログラムに関する。 The present invention relates to dialogue systems and programs, and more particularly to dialogue systems and programs in which, for example, at least one agent interacts with at least one person at a dialogue location.
ロボット分野の広がりとともに、ロボット研究は日常的な場面で働くロボットの研究に焦点を移しつつあり、人間が生活する環境の中で、人と対話することができるロボットの開発が注目されている。 With the expansion of the robot field, the focus of robot research is shifting to research on robots that work in everyday situations, and the development of robots that can interact with people in the environment where humans live is attracting attention.
近年の音声認識の技術の発展により、これまでにも人間と音声言語でやりとりをする機能を持つロボットが開発されてきているが、音声認識技術をいくら優れたものにしても、ロボットと人との対話において、人が人との対話に参加しているときに抱く「対話感(対話に参加しているという感覚)」と同等の感覚を、ロボットと対話する人に与え続けることは容易ではなかった。つまり、人が明らかに対話感を喪失することがあった。 With the recent development of speech recognition technology, robots with the ability to communicate with humans in verbal language have been developed. It is not easy to continue to give the person who interacts with the robot the same feeling of "dialogue feeling (the feeling of participating in the dialogue)" that a person has when participating in a dialogue with a human being. I didn't. In other words, people sometimes clearly lost the sense of dialogue.
背景技術の一例である特許文献1には、ロボットと人との対話において、ロボットが人の感情を推測して応答文の発話とその発話に伴う動作を決定することが開示されている。 Patent Literature 1, which is an example of the background art, discloses that in a dialogue between a robot and a person, the robot guesses the emotion of the person and determines the utterance of a response sentence and the action associated with the utterance.
特許文献2には、人とロボットとの対話システムにおいて、両者の同調を図ることで、持続的で自然なインタラクションを実現しようとするものである。 Japanese Patent Laid-Open No. 2002-200000 describes a dialog system between a human and a robot that attempts to realize a continuous and natural interaction by synchronizing the two.
特許文献1の技術においても、特許文献2の技術においても、音声認識に基づく処理に限界があり、上述の「対話感」を人が持続することは容易ではない。つまり、対話の破綻を招来し易い。 In both the technique of Patent Document 1 and the technique of Patent Document 2, there is a limit to the processing based on speech recognition, and it is not easy for a person to maintain the above-described "sense of dialogue". In other words, it is easy to invite the failure of dialogue.
それゆえに、この発明の主たる目的は、新規な、対話システムおよびプログラムを提供することである。 SUMMARY OF THE INVENTION Therefore, a primary object of the present invention is to provide a novel interactive system and program.
この発明の他の目的は、人との対話の破綻を可及的回避できる、対話システムおよびプログラムを提供することである。 Another object of the present invention is to provide a dialogue system and program that can avoid breakdown of dialogue with people as much as possible.
この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、この発明の理解を助けるために記述する実施形態との対応関係を示したものであって、この発明を何ら限定するものではない。 In order to solve the above problems, the present invention employs the following configuration. It should be noted that reference numerals in parentheses, supplementary descriptions, etc. indicate the correspondence with the embodiments described to aid understanding of the invention, and do not limit the invention in any way.
第1の発明は、対話場所にある少なくとも1体のエージェントを備え、対話場所においてエージェントが、ダイアログに従って、人と対話する対話システムであって、エージェントに質問文を発話させる質問文発話部、質問文に対する人からの応答文の発話の有無を判断する第1判断部、第1判断部が、応答文が発話されたことを判断したとき、応答文が所定のキーワードにヒットしたかどうか判断する第2判断部、第2判断部が、応答文が特定のキーワードにヒットしたことを判断したとき、エージェントに、人からの応答の後のエージェントの次の発話を誘う、事前フレーズを発話させる事前フレーズ発話部、および事前フレーズ発話部による事前フレーズの発話に続いて、事前フレーズに関し対話の脈絡を作る認識応答文を発話させる認識応答文発話部を備える、対話システムである。 A first invention is a dialogue system comprising at least one agent at a dialogue place, wherein the agent at the dialogue place interacts with a person according to a dialogue, comprising a question sentence utterance part for causing the agent to utter a question sentence, a question; A first judging part for judging whether or not a response sentence is uttered by a person to the sentence, when judging that the response sentence is uttered, judges whether or not the response sentence hits a predetermined keyword. A second determination unit, when the second determination unit determines that the response sentence hits a specific keyword, causes the agent to utter a pre-phrase that invites the agent's next utterance after the response from the person. The dialog system includes a phrase utterance unit and a recognition response sentence utterance unit that, following the utterance of the preliminary phrase by the preliminary phrase utterance unit, utters a recognition response sentence that creates a dialogue context for the preliminary phrase.
第1の発明では、対話システム(10:実施例において相当する部分を例示する、限定を意図しない参照符号。以下、同様。)は、対話場所(12)ある少なくとも1体のエージェント(R1、R2)を備え、対話場所においてエージェントがダイアログに従って人(H)と対話する。質問発話部(20a、S7)は、エージェントに質問文を発話させる。人(H)はその質問文に対して応答文を発話するが、第1判断部(20a、S9)が、その質問文に対する人からの応答文の発話の有無を判断する。第1判断部(20a、S9)が、応答文が発話されたことを判断したとき、第2判断部(20a、S11、S13)は、応答文が所定のキーワードにヒットしたかどうか判断する。第2判断部(20a、S11、S13)が、応答文が特定のキーワードにヒットしたことを判断したとき、事前フレーズ発話部(20a、S17)が、エージェントに、人からの応答の後のエージェントの次の発話を誘う、事前フレーズを発話させる。認識応答文発話部(20a、S19)は、事前フレーズに関し対話の脈絡を作る認識応答文を発話させる。 In the first invention, the dialogue system (10: a non-limiting reference sign exemplifying the corresponding part in the embodiment; hereinafter the same) includes at least one agent (R1, R2) in a dialogue place (12). ), and the agent interacts with the person (H) according to the dialog at the interaction place. The question utterance unit (20a, S7) makes the agent utter a question sentence. The person (H) utters a response sentence to the question sentence, and the first determination unit (20a, S9) determines whether or not the person has uttered a response sentence to the question sentence. When the first determination unit (20a, S9) determines that the response sentence is uttered, the second determination unit (20a, S11, S13) determines whether the response sentence hits a predetermined keyword. When the second determination unit (20a, S11, S13) determines that the response sentence hits a specific keyword, the pre-phrase utterance unit (20a, S17) instructs the agent to Invite the next utterance of the utterance of a pre-phrase. A recognition response sentence utterance unit (20a, S19) utters a recognition response sentence that creates a dialogue context for the preliminary phrase.
第1の発明によれば、認識応答文を発話させることによって、対話の破綻を可及的回避できる。 According to the first invention, by causing the recognized response sentence to be spoken, it is possible to avoid breakdown of the dialogue as much as possible.
第2の発明は、対話場所にある少なくとも1体のエージェントを備え、対話場所においてエージェントが、ダイアログに従って、人と対話する対話システムであって、エージェントに質問文を発話させる質問文発話部、質問文に対する人からの応答文の発話の有無を判断する第1判断部、第1判断部が、応答文が発話されたことを判断しなかったとき、エージェントに、質問文に対して人にかわって応答するための代理応答文を発話させる、代理応答文発話部、および代理応答文発話部による代理応答文の発話に続いて、代理応答文に関し対話の脈絡を作る認識応答文を発話させる認識応答文発話部を備える、対話システムである。 A second invention is a dialogue system comprising at least one agent at a dialogue place, wherein the agent at the dialogue place interacts with a person according to a dialogue, comprising a question sentence utterance unit for causing the agent to utter a question sentence, a question; When the first judging unit for judging whether or not the person has uttered a response sentence to the sentence does not judge that the response sentence has been uttered, the agent is instructed to replace the person in response to the question sentence. a proxy response sentence utterance unit, and following the utterance of the proxy response sentence by the proxy response sentence utterance unit, recognition of uttering a response sentence that creates a dialogue context for the proxy response sentence A dialogue system comprising a response sentence utterance unit.
第2の発明では、第1判断部(20a、S9)が、応答文が発話されたことを判断しなかったとき、代理応答文発話部(20a、S27)によって、エージェントに、質問文に対して人にかわって応答するための代理応答文を発話させ、さらに認識応答文発話部(20a、S29)が、代理応答文発話部による代理応答文の発話に続いて、代理応答文に関し対話の脈絡を作る認識応答文を発話させる。 In the second invention, when the first determination unit (20a, S9) does not determine that the response sentence is uttered, the proxy response sentence utterance unit (20a, S27) instructs the agent to respond to the question sentence. A recognized response sentence utterance unit (20a, S29) utters a proxy response sentence for responding on behalf of a person, and furthermore, a recognition response sentence utterance unit (20a, S29) utters a dialogue regarding the proxy response sentence following the utterance of the proxy response sentence by the proxy response sentence utterance unit. Speak a recognition response sentence that creates a context.
第2の発明によれば、応答文が発話されなくても、代理応答発話や認識応答発話を行わせることによって、対話の破綻を可及的回避できる。 According to the second invention, even if no response sentence is uttered, the breakdown of the dialogue can be avoided as much as possible by making the proxy response utterance or the recognition response utterance.
第3の発明は、対話場所にある少なくとも1体のエージェントを備え、対話場所においてエージェントが、ダイアログに従って、人と対話する対話システムのコンピュータを、エージェントに質問文を発話させる質問文発話部、質問文に対する人からの応答文の発話の有無を判断する第1判断部、第1判断部が、応答文が発話されたことを判断したとき、応答文が所定のキーワードにヒットしたかどうか判断する第2判断部、第2判断部が、応答文が特定のキーワードにヒットしたことを判断したとき、エージェントに、人からの応答の後のエージェントの次の発話を誘う、事前フレーズを発話させる事前フレーズ発話部、および事前フレーズ発話部による事前フレーズの発話に続いて、事前フレーズに関し対話の脈絡を作る認識応答文を発話させる認識応答文発話部として機能させる、対話システムのプログラムである。 A third aspect of the invention comprises at least one agent at a dialogue location, and the agent at the dialogue location interacts with a person according to the dialogue. A first judging part for judging whether or not a response sentence is uttered by a person to the sentence, when judging that the response sentence is uttered, judges whether or not the response sentence hits a predetermined keyword. A second determination unit, when the second determination unit determines that the response sentence hits a specific keyword, causes the agent to utter a pre-phrase that invites the agent's next utterance after the response from the person. This is a dialogue system program that functions as a phrase utterance unit and a recognition response sentence utterance unit that, following the utterance of a preliminary phrase by the preliminary phrase utterance unit, utters a recognition response sentence that creates a dialogue context for the preliminary phrase.
第3の発明によれば、第1の発明と同様の効果が期待できる。 According to the third invention, effects similar to those of the first invention can be expected.
第4の発明は、対話場所にある少なくとも1体のエージェントを備え、対話場所においてエージェントが、ダイアログに従って、人と対話する対話システムのコンピュータを、エージェントに質問文を発話させる質問文発話部、質問文に対する人からの応答文の発話の有無を判断する第1判断部、第1判断部が、応答文が発話されたことを判断しなかったとき、エージェントに、質問文に対して人にかわって応答するための代理応答文を発話させる、代理応答文発話部、および代理応答文発話部による代理応答文の発話に続いて、代理応答文に関し対話の脈絡を作るる認識応答文を発話させる認識応答文発話部として機能させる、対話システムのプログラムである。 A fourth invention is provided with at least one agent at a dialogue location, and the agent at the dialogue location interacts with a person according to the dialogue. When the first judging unit for judging whether or not the person has uttered a response sentence to the sentence does not judge that the response sentence has been uttered, the agent is instructed to replace the person in response to the question sentence. the proxy response sentence utterance unit, and following the utterance of the proxy response sentence by the proxy response sentence utterance unit, the recognition response sentence that creates the dialogue context for the proxy response sentence is uttered. This is a dialog system program that functions as a recognition response sentence utterance unit.
第4の発明によれば、第2の発明と同様の効果が期待できる。 According to the fourth invention, effects similar to those of the second invention can be expected.
この発明によれば、エージェントと人の対話の破綻を可及的回避することができる。 According to the present invention, breakdown of dialogue between an agent and a person can be avoided as much as possible.
この発明の上述の目的、その他の目的、特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。 The above object, other objects, features and advantages of the present invention will become more apparent from the following detailed description of the embodiments with reference to the drawings.
図1を参照して、この実施例の対話システム10の対話場所12には、第1ロボットR1および第2ロボットR2と1人の人Hが存在する。ただし、ロボットの数は1体でもよく、3体以上でもよい。また、人の数は2人以上でもよい。なお、以下において、第1ロボットR1および第2ロボットR2を特に区別する必要がないとき、単にロボットRと呼ぶことがある。
Referring to FIG. 1, a first robot R1, a second robot R2 and one person H are present at a
この実施例の対話システム10は、図1の矢印Aで示すように、ロボットR1またはR2が予め準備したダイアログ(台本)に従って人Hに対して質問文を発話させ、その質問文に対して人Hからの応答発話が適切な場合や、その質問文に対して人Hからの応答発話がない場合など、矢印Bで示すようにロボットR1またはR2が質問文を発話したロボットR1またはR2に対してダイアログに従って事前フレーズ発話や代理応答発話などを行わせる。
The
人Hに対してロボットR1またはR2が質問文を発話しても、人Hから応答発話がなかったり、あるいは応答発話があったとしても、たとえば「わからない」、「知らない」、「忘れた」、「覚えていない」または「答えたくない」などのネガティブな発話であったりした場合、人HとロボットR1またはR2が対話を続けていくこと自体が困難になりやすい。つまり、ロボットR1またはR2に応じる形で人Hの発話が生成されなければ、対話は破綻しやすい。そこで、この実施例では、人Hから適切な応答発話がない場合には、人Hに対して質問文を発話したロボットR1またはR2に対して、ロボットR1またはR2(質問発話をしたロボットと同じであってもよいし、別のロボットであってもよい)に発話をさせることによって、対話の継続を可及的可能にする。 Even if the robot R1 or R2 utters a question sentence to the person H, there is no response utterance from the person H, or even if there is a response utterance, for example, "I don't know", "I don't know", "I forgot". , "I don't remember" or "I don't want to answer", it is likely to be difficult for the person H and the robot R1 or R2 to continue the dialogue. In other words, unless the human H's utterance is generated in response to the robot R1 or R2, the dialogue is likely to break down. Therefore, in this embodiment, when there is no appropriate response utterance from the person H, the robot R1 or R2 (same as the robot that uttered the question) is given to the robot R1 or R2 that has uttered the question sentence to the person H. or another robot) to make it possible to continue the dialogue as much as possible.
他方で、人Hから適切な応答発話がある場合には、人Hに対して質問文を発話したロボットR1またはR2に対して、ロボットR1またはR2(質問発話をしたロボットと同じであってもよいし、別のロボットであってもよい)に事前フレーズを発話させることによって、そのメイントピックでの対話の継続を助長する。つまり、人Hに対して質問を続けることによって、ロボットR側からするとロボットRの、人Hと経験を共有したいという欲求を表現して、人Hに対話感を提供する。 On the other hand, when there is an appropriate response utterance from the person H, the robot R1 or R2 (even if it is the same robot that uttered the question) is sent to the robot R1 or R2 that uttered the question sentence to the person H. or another robot) to utter a preliminary phrase to encourage continuation of the dialogue on that main topic. In other words, by continuing to ask questions to the person H, the robot R expresses the desire of the robot R to share the experience with the person H and provides the person H with a sense of dialogue.
この実施例のような対話システムは、たとえば、高齢者の発話を引き出すツールなどとして、利用可能である。 A dialogue system like this embodiment can be used, for example, as a tool for extracting utterances from the elderly.
対話システム10の対話場所12には、この実施例では、聴覚センサとしてのマイク14および視覚センサとしてのカメラ16が設けられる。マイク14は、ロボットRや人Hの発話による音声を聴取し、あるいは環境音を取得するためのもので、必要ならマイクアレイであってよい。カメラ16は、同じく対話場所12の状況、特に人Hの表情や動作を撮影するカメラであり、動画または静止画を撮影する。カメラ16も必要なら2台以上設置してもよい。
The
さらに、上述のマイク14やカメラ16の他に、センサとして、図示はしないが、装着型の姿勢センサ、加速度センサ、心拍の状態、呼吸の状態、体動(体の動き)の状態などの生体信号を検知する生体センサ、モーションキャプチャシステムなどを設けてもよい。
Furthermore, in addition to the
マイク14が取得した音声信号およびカメラ16が撮影した画像信号などのセンサ信号は、センサマネージャ18に入力される。センサマネージャ18は、これらのセンサ信号を取得して、対話場所12の状況を判定して、判定結果をセンシングデータとして、グループマネージャ20に出力する。
Sensor signals such as audio signals acquired by the
図2を参照して、センサマネージャ18は、CPU(中央演算処理装置)18aを含み、CPU18aには、内部バス18bを介して通信装置18cが接続される。通信装置18cは、たとえばネットワークインターフェースコントローラ(NIC)などを含み、CPU18aはこの通信装置18cを介してグループマネージャ20などと通信でき、それらの間でデータの授受を行うことができる。
Referring to FIG. 2, the
CPU18aにはさらに、内部バス18bを介して、メモリ18dが接続される。メモリ18dはROMやRAMを含む。たとえばDSP(Digital Signal Processor)で構成されるセンサI/F(インタフェース)18eを通して、マイク14(図1)からの音声信号やカメラ16(図1)からの画像信号を含むセンサ信号が入力される。そして、メモリ18dは、センサ信号を一時的に記憶する。
A
センサマネージャ18は一種の判定器であり、CPU18aは、メモリ18dに記憶したセンサデータに基づいて、対話場所12の状態を判定する。そして、センサマネージャ18は、判定した状態を示すデータをグループマネージャ20に送る。
The
また、センサマネージャ18に必要なプログラム(OSやセンサ信号取得プログラムなど)は、メモリ18dに記憶される。センサマネージャ18はメモリ18dに記憶されたプログラムに従って動作する。
Programs (OS, sensor signal acquisition program, etc.) required for the
なお、CPU18aにはさらに、図示しないが、キーボードやディスプレイが付属されてもよい。
Note that the
グループマネージャ20は、たとえば後述の図6のフロー図に従って、2体のロボットR1およびR2のそれぞれの発話動作(言語動作:Verbal operation)および振舞い(非言語動作:Nonverbal operation)を制御する。
The
グループマネージャ20は、CPU20aを含み、CPU20aには、内部バス20bを介して通信装置20cが接続される。通信装置20cは、たとえばネットワークインターフェースコントローラ(NIC)などを含み、CPU20aはこの通信装置20cを介してセンサマネージャ18やロボットRなどと通信でき、それらの間でデータの授受を行うことができる。
The
CPU20aにはさらに、内部バス20bを介して、メモリ20dが接続される。メモリ20dはROMやRAMを含む。メモリI/F20eを通してダイアログ(Dialog:対話)データベース22から、スクリプトデータを読み込み、それをメモリ20dに一時的に記憶する。
A
また、グループマネージャ20に必要なプログラム(OSやセンサ信号取得プログラムなど)は、メモリ20dに記憶される。グループマネージャ20はメモリ20dに記憶されたプログラムに従って動作する。
Programs (OS, sensor signal acquisition program, etc.) required for the
なお、このグループマネージャ20のCPU20aは、上述のように、各ロボットの動作つまり振舞いを制御するが、その振舞いの履歴は、上述のメモリ20dに蓄積され、必要に応じて、センサマネージャ18に提供する。
The
CPU20aにはさらに、内部バス20bを介して、メモリ20dおよび入力装置20eが接続される。メモリ20dはROMやRAMを含む。メモリI/F20fを通してダイアログデータベース22から、スクリプト(ダイアログ)を読み込み、それをメモリ20dに一時的に記憶する。
A
ただし、「ダイアログ」は、対話中に行うべき発話や非言語動作の指令の系列を意味し、ダイアログデータベース22は、ダイアログの集合(たとえば、子供のころの話、旅行の話、健康の話など、各メイントピックの対話のための指令の系列が含まれる)である。そして、「スクリプト」は、その指令の系列を表す文字列のことであり、スクリプトデータは、その指令を表す文字列である。したがって、スクリプトデータの系列がスクリプトになる。このようなスクリプトは、グループマネージャ20によって、ダイアログキュー23cからロボットR1およびR2に送信される。
However, "dialogue" means a sequence of commands for utterances and nonverbal actions to be performed during a dialogue, and the
ただし、スクリプトデータは、言語データだけでなく、非言語データも含む。言語データは、ロボットR1およびR2の発話を指示するスクリプトデータであり、非言語データは、たとえばロボットR1およびR2の動作、人Hを見る、頷く、首を横に振る、首をかしげるなどの、非言語動作を指示するスクリプトデータである。 However, script data includes not only linguistic data but also non-linguistic data. The linguistic data is script data that instructs the utterances of the robots R1 and R2, and the non-linguistic data is, for example, actions of the robots R1 and R2, looking at the person H, nodding, shaking his head sideways, tilting his head, etc. It is script data that instructs non-verbal actions.
また、グループマネージャ20に必要なプログラム(OSやセンサ信号取得プログラムなど)は、メモリ20dに記憶される。グループマネージャ20はメモリ20dに記憶されたプログラムに従って動作する。
Programs (OS, sensor signal acquisition program, etc.) required for the
なお、このグループマネージャ20のCPU20aは、上述のように、各ロボットの動作つまり振舞いを制御するが、その振舞いの履歴は、上述のメモリ20dに蓄積され、必要に応じて、センサマネージャ18に提供する。
The
さらに、図1に示す対話システム10は、次ダイアログ候補プール23aを備える。次ダイアログ候補プール23aは、ダイアログキュー23cに記憶されている現在進行中のスクリプトに対する人Hの応答に応じて動的に選択される候補となる次に発話すべき一群のスクリプトを記憶しておくための記憶領域であって、特に、人Hからの応答文の発話の有無、応答文に含まれるキーワードが予め設定している特定のキーワードに対してヒットしたかどうか、などに応じて、個別に準備しておく。
Further, the
不応答ダイアログプール23bは、たとえばロボットR1が発話した質問文に対して人Hからの応答文の発話がないとき(マイク14への応答文の音声入力がないときだけでなく、音声入力がマイク14にあった場合でも、その応答文が認識できなかった場合、認識できたとしてもその応答文がネガティブな発話のものである場合なども含む。)にロボットR1および/またはR2が発話すべきダイアログがプールしている。すなわち、不応答ダイアログプール23bは、次ダイアログ候補プール23aにロードした将来の一群のダイアログやダイアログキュー23cにロードされ、進行中であるダイアログでは予定していなかった例外的な場合に対処するために発話しまたは非言語動作を実行すべき一群のスクリプトを記憶しておくための記憶領域である。
The
ダイアログキュー23cもたとえばメモリ20dの中の一領域であるが、このダイアログキュー23cには、次ダイアログ候補プール23aにロードされているスクリプトデータや、不応答ダイアログプール23bにロードされているスクリプトデータを、次にロボットR1および/またはR2が即座に実行できるように,待ち行列の形でロードすることができる。
The
スクリプトには、たとえばヘッダとして、それに含まれるスクリプトデータの実行時間(tnext)が書き込まれていて、ダイアログキュー23cでは、その実行時間(tnext)によって常にスクリプトデータがソーティングされ、グループマネージャ20は、実行時間が同じスクリプトデータが同時に実行されるように、各ロボットコントローラ24にスクリプトデータを送る。したがって、たとえば、ロボットR1およびR2が同時に同じ動作、たとえば人Hを見るなどの動作ができるし、同じロボットR1またはR2が、たとえば、発話と同時に他方のロボットまたは人Hを見ることもできる。
In the script, for example, the execution time (tnext) of the script data contained therein is written as a header, and the
ここで、この実施例におけるダイアログは、メイントピックないしメインカテゴリと、各メイントピックないしメインカテゴリの中のいくつかのサブトピックないしサブカテゴリで構成される。この実施例では、人Hとの対話の深度を深くすることができるように、たとえば子供のころの話、旅行の話、健康の話など、比較的少ないメイントピック(ないしカテゴリ)のダイアログを準備する。 Here, the dialog in this embodiment consists of a main topic or main category and several subtopics or subcategories within each main topic or main category. In this embodiment, in order to deepen the depth of dialogue with person H, dialogues on relatively few main topics (or categories) such as childhood stories, travel stories, and health stories are prepared. do.
子供のころの話、というメイントピック(大トピック)の中には、たとえば、遊び、食事、生活・住まい、などのサブトピック(中トピック)を設定する。サブトピック「遊び」には、たとえば、場所、公園、おもちゃ、かくれんぼ、ままごと、鬼ごっこ、かけっこ、だるまさんがころんだ、などのサブトピック(小トピック)を設定する。サブトピック「食事」には、たとえば、給食、おやつ、おかず、玄米、好きなもの、嫌いなもの、牛乳、ケーキ、魚と肉、ごはんとパン、カレーと寿司、などのサブトピックを設定する。サブトピック「生活・住まい」には、たとえば、住んでいたところ、家、井戸、お父さんとお母さん、兄弟姉妹、仕事、鶏、牛、馬、犬と猫、楽しかったこと、辛かったこと、などを設定する。 In the main topic (major topic) of the story of childhood, subtopics (middle topics) such as play, meals, life and housing are set. For the subtopic “play”, subtopics (small topics) such as places, parks, toys, hide-and-seek, playing house, tag, running, and Daruma-san fell are set. For the subtopic "meal", subtopics such as school lunch, snacks, side dishes, brown rice, favorite things, disliked things, milk, cake, fish and meat, rice and bread, curry and sushi, etc. are set. In the sub-topic "life/housing", for example, where you lived, house, well, father and mother, brothers and sisters, work, chickens, cows, horses, dogs and cats, fun times, hard times, etc. set.
旅行の話、というメイントピックの中には、たとえば、温泉、富士山、移動手段(飛行機、新幹線)などのサブトピックを設定し、それぞれのサブトピックにはさらに細かいサブトピックを準備しておく。 Within the main topic of travel, set subtopics such as hot springs, Mt.
健康の話、というメイントピックの中には、たとえば、運動、ゴルフ、などのサブトピックを設定し、それぞれのサブトピックにはさらに細かいサブトピックを準備しておく。 Within the main topic of health, subtopics such as exercise and golf are set, and further detailed subtopics are prepared for each subtopic.
図4を参照して、この図4は実施例のロボットRの外観を示し、ロボットRは台30上に、台30に対して、前後左右に回転できるように、設けられる。つまり、胴体32には2自由度が設定されている。
Referring to FIG. 4, this FIG. 4 shows the appearance of the robot R of the embodiment. In other words, the
胴体32の人の肩に相当する左右位置からは、それぞれに、肩関節(図示せず)によって、右腕34Rおよび左腕34Lが、前後左右に回転可能に設けられる。つまり、右腕34Rおよび左腕34Lには、それぞれ、2自由度が設定されている。
A
胴体32の上端中央部には首36が設けられ、さらにその上には頭部38が設けられる。首36すなわち頭部38は、胴体32に対して、前後左右に回転できるように、取り付けられている。つまり、首36すなわち頭部38には、ロール角(左右の傾げ)、ピッチ角(前後の傾げ)、ヨー(左右の回転)3自由度が設定されている。
A
頭部38の前面すなわち人間の顔に相当する面には、右目40Rおよび左目40Lが設けられ、右目40Rおよび左目40Lには眼球42Rおよび42Lが設けられる。右目40Rおよび左目40Lは、まぶたを閉じたり開いたりでき、眼球42Rおよび42Lはそれぞれ上下左右に回転可能である。つまり、右目40Rおよび左目40Lすなわちまぶたには1自由度が、眼球42Rおよび42Lには2自由度が設定されている。
A
顔にはさらに、口44が設けられていて、口44は、閉じたり開いたりできる。つまり、口44には1自由度が設定されている。
The face is further provided with a
胴体32の、人間の胸の位置には、対話システム10において人Hに聞かせるための発話を行うスピーカ46および環境特に人Hの発話音声を聞き取るマイク48が設けられる。
A
なお、頭部38の顔の額に相当する部分には動画または静止画を撮影できるカメラ50が内蔵される。このカメラ50は、対面する人Hを撮影でき、このカメラ50からのカメラ信号(映像信号)は、環境カメラ16(図1)と同様に、センサマネージャ18のセンサI/Fを介してCPU22aに、入力されてもよい。
A
図5はロボットRに内蔵されてロボットRの動作(発話やジェスチャなど)を制御するロボットコントローラ24を示すブロック図である。この図5を参照して、ロボットコントローラ24は、CPU20aを含み、CPU20aには、内部バス24bを介して通信装置24cが接続される。通信装置24cは、たとえばネットワークインターフェースコントローラ(NIC)などを含み、CPU20aはこの通信装置24cを介してセンサマネージャ18、グループマネージャ20、さらには外部のコンピュータや他のロボット(ともに図示せず)などと通信でき、それらの間でデータの授受を行うことができる。
FIG. 5 is a block diagram showing a
CPU20aにはさらに、内部バス24bを介して、メモリ24dが接続される。メモリ24dはROMやRAMを含む。グループマネージャ20から送られる制御データやスクリプトデータがメモリ24dに一時的に記憶される。
A
また、ロボット制御に必要なプログラム(OSやセンサ信号取得プログラムなど)は、メモリ24dに記憶される。ロボットコントローラ24はメモリ24dに記憶されたプログラムに従ってロボットRの動作を制御する。
Programs (OS, sensor signal acquisition program, etc.) necessary for robot control are stored in the
つまり、ロボットコントローラ24のCPU20aにはさらに、たとえばDSPで構成されたアクチュエータ制御ボード24eが接続され、このアクチュエータ制御ボード24eは、以下に説明するように、ロボットRの上述の各部に設けられたアクチュエータの動作を制御する。
That is, the
胴体32の2自由度の動き、すなわち前後左右の回転は、アクチュエータ制御ボード24eを通してCPU20aが胴体アクチュエータ52を制御するとこによって制御される。
The two-degree-of-freedom movement of the
右腕34Rおよび左腕34Lの2自由度の動き、すなわち前後左右の回転は、アクチュエータ制御ボード24eを通してCPU20aが腕アクチュエータ54を制御することによって制御される。
The two-degree-of-freedom movement of the
首36すなわち頭部38の3自由度の動き、すなわち前後左右の回転は、アクチュエータ制御ボード24eを通してCPU20aが頭部アクチュエータ56によって制御される。
Movement of the
右目40Rおよび左目40Lすなわちまぶたの開閉動作は、アクチュエータ制御ボード24eを通してCPU20aがまぶたアクチュエータ58を制御することによって制御される。眼球42Rおよび眼球42Lの2自由度の動きすなわち前後左右の回転は、アクチュエータ制御ボード24eを通してCPU20aが眼球アクチュエータ60を制御することによって制御される。口44の開閉動作は、アクチュエータ制御ボード24eを通してCPU20aが口アクチュエータ62を制御することによって制御される。
The
なお、図4に示すロボットRのスピーカ46がロボットコントローラ24のCPU24aに接続される。CPU24aは、グループマネージャ20から与えられ、必要に応じてメモリ24dに記憶されたスクリプトデータに従って、スピーカ46から発声(発話)させる。
A
このようなロボットコントローラ24によって、ロボットRの頭や腕は、対話システム10において必要なとき、たとえばスクリプトで非言語動作が要求されているとき、必要な動きをするが、以下の説明では、各アクチュエータなどの具体的な制御は、上述の説明から容易に推測できるので、必ずしも説明しない。
With such a
図1に示すように、それぞれのロボットR1およびR2には、ロボットコントローラ24と同様に内蔵したロボットセンサ26が設けられる。ロボットセンサ26は、ロボットR1およびR2のそれぞれの可動コンポーネントの状態を検知するための姿勢センサや加速度センサなどを含み、それらのセンサからのセンサ信号は、センサマネージャ18に入力される。したがって、センサマネージャ18は、ロボットセンサ26からのセンサ信号に基づいて、ロボットR1およびR2の状態をセンシングすることができる。
As shown in FIG. 1, each robot R1 and R2 is provided with a built-in
なお、図4に示すロボットRのマイク48やカメラ50がロボットセンサ26を介してセンサマネージャ18に入力される。センサマネージャ18は、マイク48から取り込んだ音声データをメモリ18d(図2)に記憶し、必要に応じて、音声認識処理を実行する。センサマネージャ18はまた、カメラ50からのカメラ信号を処理して、対話場所12の状況をセンシングする。
Note that the
なお、センサマネージャ18は、図1の実施例では1つだけが図示されているが、2つ以上の任意数のセンサマネージャが設けられてもよく、その場合には、各センサマネージャはセンシング項目を分担することができる。
Although only one
同様に、必要なら、2以上のグループマネージャ20を用いるようにしてもよいし、逆にセンサマネージャ18およびグループマネージャ20を1台のコンピュータで実現するようにしてもよい。
Similarly, if desired, two or
また、図1実施例の対話システム10に用いられるロボットRは図4を参照して上で説明したロボットに限定されるものではなく、少なくともスクリプトに従って発話できる機能があればよい。
Also, the robot R used in the
図6を参照して、図1の対話システム10のグループマネージャ20のCPU20aは、ダイアログデータベース26(図1)からたとえば先に説明したようなダイアログデータ(スクリプトデータ)を読み込むなど、初期化を実行する。この図6の動作は、たとえばフレームレート程度の速度で繰り返し実行される。
Referring to FIG. 6,
次のステップS3でCPU20aは、ダイアログのメイントピック(大トピック)を変更するかどうか判断する。メイントピックを変更するかどうかは、タイムスケジュールに従って変更する場合、所定時間経過したかどうか、などを判断することによって、このステップS3で決定される。なお、以下の実施例の具体的な説明では、メイントピック「旅行の話」のダイアログに従う場合を例に挙げて説明する。
In the next step S3, the
なお、ステップS3で判断するメイントピックを変更する条件としては、他に、前回のメイントピックの変更から所定数N回(これは、同じメイントピックの話が続きすぎることによって、対話が退屈になるのを避けるために設定する、同一メイントピックの繰り返し回数の最大値である。)以上経過したとき、人Hからの応答発話が今対話中のメイントピックとは別のメイントピックのキーワードにヒットしたとき、人Hからの応答発話が所定回数認識できなかったとき、などが考えられる。 In addition, as a condition for changing the main topic determined in step S3, a predetermined number of times N times since the last change of the main topic (this is because the same main topic continues too long, making the dialogue boring). This is the maximum number of repetitions of the same main topic, which is set in order to avoid this.) When the above period has elapsed, the response utterance from person H hits a keyword of a main topic different from the main topic currently being spoken. and when the response utterance from the person H cannot be recognized a predetermined number of times.
ステップS3で“NO”を判断したときはそのまま、“YES”を判断したときはステップS5でメイントピックを変更して、次ダイアログ候補プール23aから読み出したスクリプトに従って、たとえばロボットR1が、人Hに対して、たとえば「休みの日にはどこへ行きたいですか?」のような質問文を発話する。ここで、「どこへ行く」というのが、「旅行の話」というメイントピックのサブトピックと考えることができる。このステップS7を実行するCPU20aは、質問文発話部として機能する。
If "NO" is determined in step S3, the main topic is changed in step S5. In response, a question such as "Where do you want to go on your day off?" is uttered. Here, "where to go" can be considered a subtopic of the main topic "travel story". The
ステップS9において、CPU20aは、ステップS7でたとえばロボットR1が発話した質問文に対して人Hからの応答発話があったかどうか、センサマネージャ16で検出したマイク14からの音声データに基づいて、判断する。このステップS9を実行するCPU20aは、人からの応答発話の有無を判断する第1判断部として機能する。
In step S9, the
応答発話があったと判断したとき、CPU20aは、次のステップS11では、ステップS9で検出した人Hからの応答発話が認識できたかどうか、すなわち、その応答発話がたとえばダイアログデータベース22に予め設定しているキーワードにヒットしたかどうか、判断する。つまり、人Hの応答文の中に予め設定しているキーワードが含まれているかどうか、判断する。これは、マイク14からの音声データを任意の音声認識技術を利用して処理することによって、簡単に実行することができる。
When it is determined that there is a response utterance, in the next step S11, the
ただし、キーワードがヒットした場合であっても、人Hの応答文が複数のキーワードに同時にヒットしている場合には、このステップS11では“NO”と判断するようにしている。どのキーワードで対話を進めていくべきか判断しにくいためである。このステップS11(次のステップS13を含むことがある)を実行するCPU20aは、人からの応答文がキーワードにヒットしたかどうかを判断する第2判断部として機能する。
However, even if a keyword is hit, if the response sentence of the person H hits a plurality of keywords at the same time, it is determined "NO" in step S11. This is because it is difficult to determine which keyword should be used to proceed with the dialogue. The
ステップS13でCPU20aは、ステップS11で検出したキーワードがネガティブな発言であるかどうか、判断する。ネガティブな発言とは、前述したとおり、質問文に対して回答を拒否しているかのような発言のことである。
In step S13, the
ステップS13で“NO”を判断したとき、次のステップS15で、そのキーワードは現在対話中のメイントピックの中に定められているキーワードか、別のメイントピックの中に設定されているキーワードかを判断する。 If "NO" is determined in step S13, in the next step S15, it is determined whether the keyword is defined in the main topic currently being spoken or set in another main topic. to decide.
もし、このステップS15で“YES”を判断したら、ステップS3に関連して説明したように、人Hからの応答発話が今対話中のメイントピックとは別のメイントピックのキーワードに及んだとき、という条件を充足することになるので、ステップS5に戻って、メイントピックの変更処理を実行した後、再度ステップS7に進む。 If "YES" is determined in step S15, as described in relation to step S3, when the response utterance from person H reaches a keyword of a main topic different from the main topic currently being spoken. , the process returns to step S5 to execute the main topic change process, and then the process proceeds to step S7 again.
ステップS11でキーワードがヒットしたことを判断しかつステップS15でそのキーワードが現在進行中のメイントピックのものであると判断したとき、続くステップS17で、CPU20aは、質問文を発話したロボット、この例ではロボットR1と別のロボット、ロボット2に、たとえば「やっぱり梅田かな」という事前フレーズを発話させる。ここで、事前フレーズとは、次のロボットR1(またはロボットR2)の発話を誘導する意味の発話文である。ただし、検出されたキーワードの発話を人Hが実際に意図していたら、そのときには、ロボットR2が発話した事前フレーズは単に傾聴感(ロボットRが人Hの発話を傾聴しているという感覚)に貢献するに過ぎないが、人Hが意図していない事前フレーズであった場合、続くロボットR1からの返答の脈絡を作る効果がある。
When it is determined in step S11 that the keyword is hit and in step S15 the keyword is of the main topic currently in progress, in subsequent step S17, the
つまり、事前フレーズは、いわば「話の振り」(対話や議論などが円滑に進行するように、話題を提供することを意味する語)の役目をする。この実施例では、ロボットR2がそのキーワード(この例では「梅田」)で話を振ったので、ロボットR1がそれを受け継いで、たとえば「梅田は便利だもんね」という発話をし、それによって人Hに、梅田の話になったことについて違和感を与えない効果がある。 In other words, the pre-phrase serves as a so-called "talking point" (a word that means providing a topic so that dialogue, discussion, etc., can proceed smoothly). In this embodiment, the robot R2 speaks with the keyword ("Umeda" in this example), so the robot R1 picks it up and says, for example, "Umeda is convenient, isn't it?" H has the effect of not giving a sense of incongruity to Umeda's discussion.
他に想定されている対話としては次の例1や例2などがある。
<例1>
ロボットR1:休みの日にはどこにいきたいですか?(ステップS7)
人H:一番は梅田かな(「梅田」と認識される)(ステップS11)
ロボットR2:やっぱり梅田かな(ステップS17)
ロボットR1:梅田は便利だもんね(ステップS19)
<例2>
ロボットR1:休みの日にはどこにいきたいですか?(ステップS7)
人H:青梅だな(「お、梅田な」と認識される)(ステップS11)
ロボットR2:やっぱり梅田かな(ステップS17)
ロボットR1:梅田は便利だもんね(ステップS19)
このように、ロボットR2による「やっぱり梅田かな」という事前フレーズの発話は、次のステップS19において発話されるロボットR1の返答の脈絡になる。
Other assumed interactions include example 1 and example 2 below.
<Example 1>
Robot R1: Where would you like to go on your day off? (Step S7)
Person H: First is Umeda Kana (recognized as "Umeda") (step S11)
Robot R2: Umeda after all (step S17)
Robot R1: Umeda is convenient (step S19)
<Example 2>
Robot R1: Where would you like to go on your day off? (Step S7)
Person H: It's Ome (recognized as "O, Umeda") (step S11)
Robot R2: Umeda after all (step S17)
Robot R1: Umeda is convenient (step S19)
In this way, the utterance of the pre-phrase "As expected, Umeda kana" by the robot R2 becomes the context of the reply uttered by the robot R1 in the next step S19.
ここで、ステップS17では、ステップS7で質問文を発話したロボットR1とは違うロボットR2に事前フレーズを発話させるようにし、さらにステップS19でそれに続く認識応答発話(ロボットR2による事前フレーズを認識した上での発話)を別のロボットR1に発話させるようにした。つまり、2体のロボットR1およびR2に交互に、質問文、事前フレーズ、認識応答発話を行わせたが、順番は逆でもよい。さらには、質問文、事前フレーズ、認識応答発話を全て同じロボットR1またはR2に発話させるようにしてもよい。あるいは、図示しいてない、さらに他のロボット(R3)にステップS19の認識応答発話を行わせるようにしてもよい。 Here, in step S17, the robot R2, which is different from the robot R1 that uttered the question sentence in step S7, is made to utter a preliminary phrase, and in step S19, the following recognition response utterance (after the robot R2 has recognized the preliminary phrase) is made to utter a preliminary phrase. ) is made to be uttered by another robot R1. In other words, the two robots R1 and R2 alternately made the question sentence, the preliminary phrase, and the recognition response utterance, but the order may be reversed. Furthermore, the same robot R1 or R2 may be made to utter all of the question sentence, preliminary phrase, and recognition response utterance. Alternatively, another robot (R3), not shown, may be made to perform the recognition response utterance of step S19.
なお、ステップS17でたとえば「エキスポランド」という事前フレーズをロボットR2に発話させたときには、ステップS19でたとえば「エキスポは人気だね」という認識応答発話をロボットR1(またはR3)にさせるようなダイアログも考えられる。 It should be noted that when the robot R2 is made to utter a pre-phrase such as "Expoland" in step S17, a dialogue may be considered in which the robot R1 (or R3) is made to make a recognition response utterance such as "Expo is popular" in step S19. be done.
また、ステップS17でたとえば「そうだ、北海道があった」という事前フレーズをロボットR2に発話させたときには、ステップS19でたとえば「北海道はカニがおすすめです」という認識応答発話をロボットR1(またはR3)にさせるようなダイアログも考えられる。 Further, when the robot R2 is made to utter a preliminary phrase, for example, "Yes, there was Hokkaido" in step S17, the recognition response utterance, for example, "Hokkaido recommends crab" is made to the robot R1 (or R3) in step S19. It is also conceivable to have a dialog that
このような事前フレーズに含まれる「梅田」、「エキスポランド」または「北海道」などは、「旅行の話」というメイントピックの「どこへ行くか」というサブトピックのさらにサブトピックであると考えられる。 "Umeda", "Expoland", or "Hokkaido" included in such preliminary phrases are considered to be further subtopics of the subtopic "where to go" of the main topic "travel story".
なお、ステップS17を実行するCPU20aは、事前フレーズ発話部として機能する。
Note that the
ステップS19でロボットR2に認識応答発話をさせた後、CPU20aは、次のステップS21で、対話を終了するかどうか、判断する。ここでは、たとえば、対話の開始から一定時間(たとえば15分)経過したこと、カメラ16(図1)の映像によると人Hが不在になったこと、などの対話を終了する条件を判断する。
After having the robot R2 make the recognition response utterance in step S19, the
終了する場合は、ステップS23で終了処理をした後、終了する。終了処理は、たとえば対話のログを保存するなどの処理を含む。 If it is to be terminated, the process is terminated after termination processing is performed in step S23. Termination processing includes, for example, processing such as saving a log of dialogue.
終了しない場合には、先のステップS3に戻る。 If not, the process returns to step S3.
先のステップS9で“NO”の場合、すなわちマイク14を通して人Hの返答発話を取得できなかった場合、CPU20aは、不応答ダイアログプール23bから、次のステップS23で現在進行中のメイントピックの中でキーワードをランダムに選択する。そして、ステップS25で、質問文を発話したロボットR1とは異なるロボットR2によって、その選択したキーワードに従った代理応答文(たとえば、「僕は、やっぱり梅田かな」)を発話させる。ここでは、先のステップS17の事前フレーズとは異なり、たとえば「僕は」という発話主体を表す語を発話させることによって、ロボットR2の主体的な代理応答文であることをはっきりさせる。このステップS25(ステップS23を含むことがある。)を実行するCPU20aは、代理応答文発話部部として機能する。
If "NO" in the previous step S9, that is, if the response utterance of the person H could not be obtained through the
その後、ステップS29で、CPU20aは、先のステップS19と同じような認識応答発話をロボットR1に行わせる。ただし、ステップS7、S27およびS29がすべて同じロボットR1またはR2であってもよいことは、先に述べたとおりである。
After that, in step S29, the
ステップS27においてロボットR2に代理応答文を発話させることによって、人Hからの応答発話が無くても、取り敢えず対話が破綻することはなく、ステップS29での認識応答発話によって、人Hの対話意欲の回復を期待することができる。たとえば、ステップS7での質問文に対して人Hが急には返答できない場合であっても、ステップS27の代理応答文によってトリガされ人Hが応答文を着想する可能性がある。この場合、人Hは、そのときのメイントピックたとえば「旅行の話」について対話を継続することができる。その意味では、ステップS27の代理応答文はステップS17での事前フレーズと同様の効果(対話の脈絡を作る)を奏することができる。 By causing the robot R2 to utter a substitute response sentence in step S27, even if there is no response utterance from the person H, the dialogue will not be broken for the time being, and the recognition response utterance in step S29 will increase the willingness of the person H to have a dialogue. recovery can be expected. For example, even if the person H cannot immediately reply to the question in step S7, there is a possibility that the person H will come up with a response sentence triggered by the proxy response sentence in step S27. In this case, person H can continue the dialogue on the main topic at the time, for example, "talk about travel." In that sense, the substitute response sentence in step S27 can have the same effect as the preliminary phrase in step S17 (creating a dialogue context).
なお、ステップS13で“YES”を判断しステップS25でキーワードを変更した回数が一定回数以上になったときステップS3、S5でメイントピックを変更するようにしてもよい。 It should be noted that the main topic may be changed in steps S3 and S5 when "YES" is determined in step S13 and the number of times the keyword has been changed in step S25 exceeds a predetermined number of times.
ステップS29の後、先のステップS21に進んで、終了かどうか判断する。 After step S29, the process advances to the previous step S21 to determine whether or not the process is completed.
ステップS11で“NO”を判断したとき、CPU20aは、ステップS31において、不応答ダイアログプール23bから選択した曖昧な応答文(たとえば、「とっか行きたいね」)をたとえばロボットR2に発話させる。この曖昧な応答は、ステップS27で代理応答が「ロボットR2が人Hの代わりにロボットR1の質問に対して答える」という意味を持つのに対し、「ロボットR1やR2が人Hの発話に対して答える」という意味を持つ。つまり、ステップS9で人Hからの応答発話は検出したけれどもステップS11でその応答発話文を認識することができなかったとき、そのままであれば対話が破綻することがあるが、曖昧な応答文をロボットに発話させることによって、人Hの次の発話を引き出すことができ、それによって対話の破綻を回避できる可能性が生まれる。
When "NO" is determined in step S11, the
このステップS31を実行するCPU20aは、曖昧応答文発話部として機能し、そして、ステップS31の後、ステップS21に進む。
The
なお、上述の説明ではメイントピックについては時間の経過や、人Hの発話や発話なしなどで変更できることを説明したが、サブトピックについては、次のような場合に変更することができる。 In the above description, it was explained that the main topic can be changed according to the passage of time, the person H speaking or not speaking, etc. However, the subtopic can be changed in the following cases.
人Hの発話が、現在のサブトピックと同じサブトピック内に前の発話に関連度の高い未発話のダイアログ(シナリオ)がある場合、その関連度の高いサブトピックに移動する。たとえば、各シナリオに予め登録しておくキーワードと距離が近い語(言葉)が含まれているかどうか判定する。距離は、たとえばWord2Vec等の手法を用いて評価する。ただし、そのような言葉が含まれていても、同様に他のキーワードと近い別の言葉が含まれていたら、それを割り引いて評価する。 If there is an unspoken dialogue (scenario) highly relevant to the previous utterance within the same subtopic as the current subtopic, the utterance of person H moves to that highly relevant subtopic. For example, it is determined whether or not each scenario includes a word (word) that is close to a keyword that has been registered in advance. The distance is evaluated using a technique such as Word2Vec. However, even if such a word is included, if another word similarly similar to other keywords is included, it will be discounted and evaluated.
ステップS11でキーワードにヒットせず、ステップS31へ進む回数が所定回数N以上になったときに、サブトピックを変更するようにしてもよい。 The subtopic may be changed when no keyword is hit in step S11 and the number of times of proceeding to step S31 reaches a predetermined number N or more.
なお、上述の実施例では、各ロボットR1およびダイアログデータベース22に予め蓄積しておくようにした。しかしながら、このデータベース22に代えて、たとえばネットから、必要なダイアロク(スクリプトデータ)を逐次グループマネージャ20に供給するようにしてもよい。
In the above-described embodiment, each robot R1 and
さらに、上述の実施例は、物理的なエージェントであるロボットを用いた対話システムであるが、この発明は、そのような物理的なエージェントだけでなく、たとえばディスプレイの画面上に表示されるアバタないしキャラクタのようなエージェントを用いることも可能である。この場合、図1のロボットコントローラ24やロボットセンサ26は、そのようなアバタやキャラクタを表示するためのディスプレイコントローラ(図示せず)に代えられ、対話場所はそのエージェントを表示しているディスプレイの近傍が想定できる。
Furthermore, the above-described embodiment is a dialogue system using a robot that is a physical agent, but the present invention can be applied not only to such a physical agent, but also to an avatar or robot displayed on the screen of a display. It is also possible to use agents such as characters. In this case, the
さらに、上述のロボットによるエージェントやCGによるエージェントに代えて、音声だけのエージェントも人との対話のためのエージェントとして採用することができる。たとえば、カーナビのスピーカが車両の左右についているとして、その左側から聞こえてくる声の主をR1(実施例のロボットR1に相当する。)とし、右側の声の主をR2(実施例のロボットR2に相当する。)とすることが考えられる。この場合、対話場所は車の中ということになり、図1のロボットコントローラ24は、そのような音声エージェントの発話を制御するオーディオコントローラ(図示せず)に代えられる。
Furthermore, in place of the robot agent or the CG agent described above, an agent that only speaks can also be employed as an agent for dialogue with people. For example, if car navigation speakers are installed on the left and right sides of the vehicle, the voice heard from the left side is R1 (corresponding to the robot R1 in the embodiment), and the voice from the right side is R2 (the robot R2 in the embodiment). equivalent to ). In this case, the place of interaction is in a car, and the
つまり、この発明は、任意のエージェントを用いた人との対話システムである。 In other words, the present invention is a dialogue system with humans using arbitrary agents.
10 …対話システム
12 …対話場所
R1、R2 …ロボット
18 …センサマネージャ
20 …グループマネージャ
22 …ダイアログデータベース
24 …ロボットコントローラ
10 ...
Claims (4)
前記エージェントに質問文を発話させる質問文発話部、
前記質問文に対する前記人からの応答文の発話の有無を判断する第1判断部、
前記第1判断部が、前記応答文が発話されたことを判断したとき、前記応答文が所定のキーワードにヒットしたかどうか判断する第2判断部、
前記第2判断部が、前記応答文が前記特定のキーワードにヒットしたことを判断したとき、前記エージェントに、前記人からの応答の後の前記エージェントの次の発話を誘う、事前フレーズを発話させる事前フレーズ発話部、および
前記事前フレーズ発話部による事前フレーズの発話に続いて、前記事前フレーズに関し対話の脈絡を作る認識応答文を発話させる認識応答文発話部を備える、対話システム。 A dialogue system comprising at least one agent at a dialogue location, wherein the agent at the dialogue location interacts with a person according to a dialogue,
a question sentence utterance unit that causes the agent to utter a question sentence;
A first determination unit that determines whether or not the person has uttered a response sentence to the question sentence,
a second determination unit that determines whether the response sentence hits a predetermined keyword when the first determination unit determines that the response sentence is uttered;
When the second determination unit determines that the response sentence hits the specific keyword, the agent utters a pre-phrase that invites the agent to next utterance after the response from the person. A dialogue system, comprising: a pre-phrase utterance unit; and a recognition response sentence utterance unit that, following utterance of the pre-phrase by the pre-phrase utterance unit, utters a recognition response sentence that creates a dialogue context for the pre-phrase.
前記エージェントに質問文を発話させる質問文発話部、
前記質問文に対する前記人からの応答文の発話の有無を判断する第1判断部、
前記第1判断部が、前記応答文が発話されたことを判断しなかったとき、前記エージェントに、前記質問文に対して前記人にかわって応答するための代理応答文を発話させる、代理応答文発話部、および
前記代理応答文発話部による代理応答文の発話に続いて、前記代理応答文に関し対話の脈絡を作る認識応答文を発話させる認識応答文発話部を備える、対話システム。 A dialogue system comprising at least one agent at a dialogue location, wherein the agent at the dialogue location interacts with a person according to a dialogue,
a question sentence utterance unit that causes the agent to utter a question sentence;
A first determination unit that determines whether or not the person has uttered a response sentence to the question sentence,
proxy response, wherein the first determination unit causes the agent to utter a proxy response sentence for responding to the question sentence on behalf of the person when the first determination unit does not determine that the response sentence has been uttered. A dialogue system comprising: a sentence utterance unit; and a recognition response sentence utterance unit that, following utterance of a proxy response sentence by the proxy response sentence utterance unit, utters a recognition response sentence that creates a dialogue context for the proxy response sentence.
前記エージェントに質問文を発話させる質問文発話部、
前記質問文に対する前記人からの応答文の発話の有無を判断する第1判断部、
前記第1判断部が、前記応答文が発話されたことを判断したとき、前記応答文が所定のキーワードにヒットしたかどうか判断する第2判断部、
前記第2判断部が、前記応答文が前記特定のキーワードにヒットしたことを判断したとき、前記エージェントに、前記人からの応答の後の前記エージェントの次の発話を誘う、事前フレーズを発話させる事前フレーズ発話部、および
前記事前フレーズ発話部による事前フレーズの発話に続いて、前記事前フレーズに関し対話の脈絡を作る認識応答文を発話させる認識応答文発話部として機能させる、対話システムのプログラム。 a computer of a dialogue system comprising at least one agent at a dialogue place, where the agent interacts with a person according to a dialog at the dialogue place;
a question sentence utterance unit that causes the agent to utter a question sentence;
A first determination unit that determines whether or not the person has uttered a response sentence to the question sentence,
a second determination unit that determines whether the response sentence hits a predetermined keyword when the first determination unit determines that the response sentence is uttered;
When the second determination unit determines that the response sentence hits the specific keyword, the agent utters a pre-phrase that invites the agent to next utterance after the response from the person. A dialogue system program that functions as a pre-phrase utterance unit, and a recognition response sentence utterance unit that utters a recognition response sentence that creates a dialogue context for the pre-phrase following the utterance of the pre-phrase by the pre-phrase utterance unit. .
前記エージェントに質問文を発話させる質問文発話部、
前記質問文に対する前記人からの応答文の発話の有無を判断する第1判断部、
前記第1判断部が、前記応答文が発話されたことを判断しなかったとき、前記エージェントに、前記質問文に対して前記人にかわって応答するための代理応答文を発話させる、代理応答文発話部、および
前記代理応答文発話部による代理応答文の発話に続いて、前記代理応答文に関し対話の脈絡を作る認識応答文を発話させる認識応答文発話部として機能させる、対話システムのプログラム。 a computer of a dialogue system comprising at least one agent at a dialogue place, where the agent interacts with a person according to a dialog at the dialogue place;
a question sentence utterance unit that causes the agent to utter a question sentence;
A first determination unit that determines whether or not the person has uttered a response sentence to the question sentence,
proxy response, wherein the first determination unit causes the agent to utter a proxy response sentence for responding to the question sentence on behalf of the person when the first determination unit does not determine that the response sentence has been uttered. A dialogue system program that functions as a sentence utterance unit, and a recognition response sentence utterance unit that, following the utterance of the proxy response sentence by the proxy response sentence utterance unit, utters a recognition response sentence that creates a dialogue context for the proxy response sentence. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022179640A JP7432960B2 (en) | 2018-07-30 | 2022-11-09 | Dialogue systems and programs |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018142022A JP2020020846A (en) | 2018-07-30 | 2018-07-30 | Dialog system and program |
JP2022179640A JP7432960B2 (en) | 2018-07-30 | 2022-11-09 | Dialogue systems and programs |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018142022A Division JP2020020846A (en) | 2018-07-30 | 2018-07-30 | Dialog system and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023001299A true JP2023001299A (en) | 2023-01-04 |
JP7432960B2 JP7432960B2 (en) | 2024-02-19 |
Family
ID=69588473
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018142022A Pending JP2020020846A (en) | 2018-07-30 | 2018-07-30 | Dialog system and program |
JP2022179640A Active JP7432960B2 (en) | 2018-07-30 | 2022-11-09 | Dialogue systems and programs |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018142022A Pending JP2020020846A (en) | 2018-07-30 | 2018-07-30 | Dialog system and program |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP2020020846A (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003241797A (en) * | 2002-02-22 | 2003-08-29 | Fujitsu Ltd | Speech interaction system |
JP2014191029A (en) * | 2013-03-26 | 2014-10-06 | Fuji Soft Inc | Voice recognition system and method for controlling voice recognition system |
JP2017079004A (en) * | 2015-10-21 | 2017-04-27 | 国立大学法人大阪大学 | Agent dialogue system |
-
2018
- 2018-07-30 JP JP2018142022A patent/JP2020020846A/en active Pending
-
2022
- 2022-11-09 JP JP2022179640A patent/JP7432960B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003241797A (en) * | 2002-02-22 | 2003-08-29 | Fujitsu Ltd | Speech interaction system |
JP2014191029A (en) * | 2013-03-26 | 2014-10-06 | Fuji Soft Inc | Voice recognition system and method for controlling voice recognition system |
JP2017079004A (en) * | 2015-10-21 | 2017-04-27 | 国立大学法人大阪大学 | Agent dialogue system |
Non-Patent Citations (1)
Title |
---|
杉山弘晃、外4名: "複数ロボット連携による雑談対話における対話破綻感の軽減", 第81回 言語・音声理解と対話処理研究会資料 (SIG−SLUD−B508) 人工知能学会研究会資料, JPN6023038139, 5 October 2017 (2017-10-05), pages 39 - 40, ISSN: 0005159408 * |
Also Published As
Publication number | Publication date |
---|---|
JP7432960B2 (en) | 2024-02-19 |
JP2020020846A (en) | 2020-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220254343A1 (en) | System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs | |
US11017779B2 (en) | System and method for speech understanding via integrated audio and visual based speech recognition | |
US11468894B2 (en) | System and method for personalizing dialogue based on user's appearances | |
US11151997B2 (en) | Dialog system, dialog method, dialog apparatus and program | |
US11017551B2 (en) | System and method for identifying a point of interest based on intersecting visual trajectories | |
US20190371318A1 (en) | System and method for adaptive detection of spoken language via multiple speech models | |
US20220101856A1 (en) | System and method for disambiguating a source of sound based on detected lip movement | |
US11222634B2 (en) | Dialogue method, dialogue system, dialogue apparatus and program | |
US10785489B2 (en) | System and method for visual rendering based on sparse samples with predicted motion | |
US11308312B2 (en) | System and method for reconstructing unoccupied 3D space | |
US20190251350A1 (en) | System and method for inferring scenes based on visual context-free grammar model | |
JP6583765B2 (en) | Agent dialogue system and program | |
WO2018163645A1 (en) | Dialogue method, dialogue system, dialogue device, and program | |
JP6992957B2 (en) | Agent dialogue system | |
JP2023027060A (en) | Robot, method for controlling robot and program | |
CN116188642A (en) | Interaction method, device, robot and storage medium | |
JP7432960B2 (en) | Dialogue systems and programs | |
JP2017162268A (en) | Dialog system and control program | |
JP2024505503A (en) | Methods and systems that enable natural language processing, understanding and generation | |
JP7286303B2 (en) | Conference support system and conference robot | |
JP7075168B2 (en) | Equipment, methods, programs, and robots | |
Austermann et al. | Teaching a pet-robot to understand user feedback through interactive virtual training tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230904 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7432960 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |