JP7058588B2 - Conversation system and conversation program - Google Patents
Conversation system and conversation program Download PDFInfo
- Publication number
- JP7058588B2 JP7058588B2 JP2018211056A JP2018211056A JP7058588B2 JP 7058588 B2 JP7058588 B2 JP 7058588B2 JP 2018211056 A JP2018211056 A JP 2018211056A JP 2018211056 A JP2018211056 A JP 2018211056A JP 7058588 B2 JP7058588 B2 JP 7058588B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- conversation
- user
- keywords
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、会話システムおよび会話プログラムに係り、特に、ユーザと共有されている画像に関連した発話に関する。 The present invention relates to conversation systems and conversation programs, and in particular relates to image-related utterances shared with users.
従来、画像に写し出された被写体に関連する事項をキーワードとして抽出する手法が知られている。例えば、特許文献1には、写真等の画像に被写体として含まれるものの名前や説明を取得する情報処理装置が開示されている。この情報処理装置では、所定の画像に関連する情報が画像関連情報として取得され、これに基づいてキーワードが生成される。また、特許文献2には、画像からその画像に関連する情報を抽出する情報検索装置が開示されている。この情報検索装置では、まず、検索対象となる画像データについて、この画像データの特徴データが抽出される。つぎに、この特徴データを検索キーにデータベースが検索される。このデータベースには、画像の特徴データと、これに関連付けられたキーワードとが格納されている。これにより、検索キーと同一または類似の特徴データが特定され、これに関連付けられたキーワードが抽出される。
Conventionally, a method of extracting items related to a subject projected on an image as a keyword has been known. For example,
また、カメラで撮像した画像に写し出された被写体に関連するキーワードを参照して、ユーザの発話に対する応答文を生成する手法も知られている。例えば、特許文献3には、ユーザが見ている物体と関連する情報を参照して、応答文を生成する情報処理装置が開示されている。具体的には、まず、ユーザの発話がマイクによって取得されると共に、ロボットが見ている物体が「目」であるCCDカメラによって撮像される。つぎに、この撮像された物体と関連する単語の辞書情報が参照され、音声認識および言語解析が行われる。そして、知識データベースに記憶されている情報のうち、撮像された物体と関連する情報が参照され、言語解析結果(意味理解の結果)に対応する応答文が生成される。これにより、ユーザの発話に対する応答文を正確かつ高速に生成することができる。
Further, there is also known a method of generating a response sentence to a user's utterance by referring to a keyword related to a subject projected on an image captured by a camera. For example,
ところで、従来の会話システムは、ユーザの問いかけがあれば受動的には応答するものの、ユーザの問いかけがない状態でシステム側から自発的に発話を行うもの、換言すれば、システム側から話題を能動的に提示するものは殆ど存在しない。そのため、ユーザ自身の発話が乏しい場合、会話が途切れがちになり、会話としての流れが成立し難いという問題があった。この点は、カメラの撮像画像から取得されたキーワードを用いて、ユーザの発話に対する応答文を生成する場合であっても異なることはない。なお、上述した特許文献3は、カメラの撮像画像から取得されたキーワードを応答文の正確性やレスポンスを高めるために用いるものであって、会話の流れに連続性を持たせるために用いるものではない。
By the way, the conventional conversation system passively responds to a user's question, but spontaneously speaks from the system side without the user's question, in other words, the topic is active from the system side. There is almost nothing to present. Therefore, when the user's own utterance is poor, the conversation tends to be interrupted, and there is a problem that it is difficult to establish the flow as a conversation. This point does not differ even when a response sentence to the user's utterance is generated by using the keyword acquired from the image captured by the camera. In addition, the above-mentioned
本発明は、かかる事情に鑑みてなされたものであり、その目的は、ユーザと共有されている画像から取得された被写体に関連するキーワードを用いて会話を行う会話システムにおいて、会話の流れに連続性を持たせることである。 The present invention has been made in view of such circumstances, and an object of the present invention is to be continuous with the flow of conversation in a conversation system in which a conversation is performed using keywords related to a subject acquired from an image shared with a user. It is to have sex.
かかる課題を解決すべく、第1の発明は、キーワード生成部と、会話処理部とを有し、ユーザと会話を行う会話システムを提供する。キーワード生成部は、ユーザと共有されている共有画像を入力として、共有画像に写し出された被写体に関連する複数のキーワードを生成する。会話処理部は、キーワード生成部によって生成された複数のキーワードの中から第1のキーワードを選択し、第1のキーワードを用いた会話文を自発的に発話する。また、会話処理部は、第1のキーワードを用いた会話文の発話を発端とした会話において、ユーザの応答が途切れたと判定された場合、キーワード生成部によって生成された複数のキーワードの中から、第1のキーワードとは異なる第2のキーワードを選択し、第2のキーワードを用いた会話文を自発的に発話する。 In order to solve such a problem, the first invention provides a conversation system having a keyword generation unit and a conversation processing unit and having a conversation with a user. The keyword generation unit receives a shared image shared with the user as an input, and generates a plurality of keywords related to the subject projected on the shared image. The conversation processing unit selects a first keyword from a plurality of keywords generated by the keyword generation unit, and spontaneously utters a conversation sentence using the first keyword. Further, when it is determined that the user's response is interrupted in the conversation starting from the utterance of the conversation sentence using the first keyword, the conversation processing unit selects from a plurality of keywords generated by the keyword generation unit. A second keyword different from the first keyword is selected, and a conversational sentence using the second keyword is spontaneously spoken.
ここで、第1の発明において、ユーザとの会話におけるキーワードの使用状態を管理するキーワード管理テーブルをさらに設けてもよい。この場合、上記キーワード生成部は、生成した複数のキーワードをキーワード管理テーブルに新規に登録する。また、上記会話処理部は、第1のキーワードの選択に応じて、キーワード管理テーブルにおける第1のキーワードの使用状態を更新すると共に、第2のキーワードの選択に応じて、キーワード管理テーブルにおける第2のキーワードの使用状態を更新する。 Here, in the first invention, a keyword management table for managing the usage state of the keyword in the conversation with the user may be further provided. In this case, the keyword generation unit newly registers the generated plurality of keywords in the keyword management table. Further, the conversation processing unit updates the usage state of the first keyword in the keyword management table according to the selection of the first keyword, and the second keyword management table according to the selection of the second keyword. Update the usage status of the keyword.
第1の発明において、上記会話処理部は、ユーザの応答がない状態が所定時間継続したこと、および、ユーザの応答内容が所定の条件を満たすことの少なくとも一方を満たす場合、ユーザの応答が途切れたと判定してもよい。また、上記会話処理部は、第1のキーワードの属性に応じて選択された第1の会話文テンプレートに、第1のキーワードを挿入することによって、第1の会話文を発話すると共に、第2のキーワードの属性に応じて選択された第2の会話文テンプレートに、第2のキーワードを挿入することによって、第2の会話文を発話してもよい。 In the first invention, the conversation processing unit interrupts the user's response when the user's no response continues for a predetermined time and the user's response content satisfies at least one of the predetermined conditions. It may be determined that the product has been used. In addition, the conversation processing unit utters the first conversation sentence by inserting the first keyword into the first conversation sentence template selected according to the attribute of the first keyword, and the second conversation sentence. The second conversation sentence may be uttered by inserting the second keyword into the second conversation sentence template selected according to the attribute of the keyword.
第2の発明は、第1から第4のステップを有する処理をコンピュータに実行させることによって、ユーザと会話を行う会話プログラムを提供する。第1のステップでは、ユーザと共有されている共有画像を入力として、共有画像に写し出された被写体に関連する複数のキーワードを生成する。第2のステップでは、複数のキーワードの中から第1のキーワードを選択し、第1のキーワードを用いた会話文を自発的に発話する。第3のステップでは、第1のキーワードを用いた会話文の発話を発端とした会話において、ユーザの応答が途切れたか否かを判定する。第4のステップでは、ユーザの応答が途切れたと判定された場合、複数のキーワードの中から、第1のキーワードとは異なる第2のキーワードを選択し、第2のキーワードを用いた会話文を自発的に発話する。 The second invention provides a conversation program for having a conversation with a user by causing a computer to execute a process having the first to fourth steps. In the first step, a shared image shared with the user is input, and a plurality of keywords related to the subject projected on the shared image are generated. In the second step, the first keyword is selected from a plurality of keywords, and a conversational sentence using the first keyword is spontaneously uttered. In the third step, it is determined whether or not the user's response is interrupted in the conversation starting from the utterance of the conversation sentence using the first keyword. In the fourth step, when it is determined that the user's response is interrupted, a second keyword different from the first keyword is selected from a plurality of keywords, and a conversation sentence using the second keyword is spontaneously generated. Speak to the target.
ここで、第2の発明において、ユーザとの会話において、キーワードの使用状態を管理するキーワード管理テーブルに、複数のキーワードを新規に登録する第5のステップをさらに設けてもよい。この場合、上記第2のステップは、キーワード管理テーブルにおける第1のキーワードの使用状態を更新するステップを含む。また、上記第4のステップは、キーワード管理テーブルにおける第2のキーワードの使用状態を更新するステップを含む。 Here, in the second invention, there may be further provided a fifth step of newly registering a plurality of keywords in the keyword management table that manages the usage state of the keywords in the conversation with the user. In this case, the second step includes a step of updating the usage state of the first keyword in the keyword management table. Further, the fourth step includes a step of updating the usage state of the second keyword in the keyword management table.
第2の発明において、上記第3のステップは、ユーザの応答がない状態が所定時間継続したこと、および、ユーザの応答内容が所定の条件を満たすことの少なくとも一方を満たす場合、ユーザの応答が途切れたと判定してもよい。また、上記第2のステップは、第1のキーワードの属性に応じて選択された第1の会話文テンプレートに、第1のキーワードを挿入することによって、第1の会話文を発話するステップを含み、上記第4のステップは、第2のキーワードの属性に応じて選択された第2の会話文テンプレートに、第2のキーワードを挿入することによって、第2の会話文を発話するステップを含んでいてもよい。 In the second aspect of the invention, the third step is that the user's response satisfies at least one of the condition that the user's response continues for a predetermined time and the user's response content satisfies the predetermined condition. It may be determined that it is interrupted. Further, the second step includes a step of uttering a first conversation sentence by inserting the first keyword into the first conversation sentence template selected according to the attribute of the first keyword. , The fourth step described above includes a step of uttering a second conversation sentence by inserting the second keyword into the second conversation sentence template selected according to the attribute of the second keyword. You may.
本発明によれば、共有画像に関する複数のキーワードを選択的に用いて、システム側からの発話が自発的かつ連続的に行われる。第1のキーワードを用いた発話を発端とした会話において、ユーザの応答が途切れた場合、第1のキーワードとは異なる第2のキーワードを用いた発話が自発的に行われ、ユーザに対して新たな話題が提示される。これらのキーワードは、ユーザ自身が認識・共有している共有画像に関するものゆえに、その範囲内で新たな話題を提示しても、ユーザに唐突感を抱かせることはない。これにより、自然な流れで会話に連続性を持たせることができる。 According to the present invention, utterances from the system side are spontaneously and continuously performed by selectively using a plurality of keywords related to the shared image. In a conversation that starts with an utterance using the first keyword, if the user's response is interrupted, an utterance using a second keyword different from the first keyword is spontaneously made to the user. Topic is presented. Since these keywords relate to shared images that the user recognizes and shares, even if a new topic is presented within the range, the user does not feel abrupt. As a result, it is possible to give continuity to the conversation in a natural flow.
特に、ユーザとの会話におけるキーワードの使用状態をキーワード管理テーブルで管理すれば、あるキーワードに関する話題が途切れた直後に、同じキーワードに関する話題が繰り返されるといった事態、すなわち、話題の重複を避けることができる。 In particular, if the usage status of a keyword in a conversation with a user is managed in a keyword management table, it is possible to avoid a situation in which a topic related to the same keyword is repeated immediately after a topic related to a certain keyword is interrupted, that is, duplication of topics is possible. ..
図1は、本実施形態に係る会話システムのブロック構成図である。この会話システム1は、対話型ロボット玩具、対話アプリがインストールされたスマートフォン、スマートスピーカー、パーソナルコンピュータ(PC)などに搭載され、会話の相手方であるユーザと会話を行う。この会話において、会話システム1は、ユーザからの問いかけに対して随時応答するほか、「共有画像」に関連した話題を自発的・能動的にユーザに提示する。本明細書において、「共有画像」とは、会話相手であるユーザと共有され、ユーザ自身が把握している画像をいう。例えば、対話型ロボットのような玩具において、ロボットの目として搭載されたカメラによって撮像されたロボット周囲の画像、スマートフォンの内蔵カメラによって撮像された画像、スマートフォンやパーソナルコンピュータ(PC)のディスプレイに表示された画像などが挙げられる。これらの画像に写し出された全ての被写体は、ユーザ自身が把握しているものゆえに、ユーザと共有された話題となり得るものである。
FIG. 1 is a block configuration diagram of a conversation system according to the present embodiment. The
会話システム1は、マイク2によって集音されたユーザの発話と、特定の共有画像の内容とに基づいて、これらに応じた発話を出力する。ユーザの発話は、マイク2によって集音された音声情報として取得することのみならず、例えば、LINEボットのように、キーボード等で入力された文字情報をユーザの発話として取得してもよい。また、共有画像を取得する手段としては、例えば、ユーザの操作によって画像を撮像するカメラを用いることができる。これ以外にも、玩具に予め記憶された画像(画像ファイル)を表示するといった如く、会話システム1内に予め保存された画像のうちユーザによって選択されたもの、あるいは、ユーザが現に視認しているものなどを共有画像としてもよい。
The
会話システム1は、ユーザの発話を集音するマイク2の他に、キーワード生成部3と、会話処理部4とを主体に構成されている。また、会話システム1は、必要な情報を記憶する記憶部として、キーワード管理テーブル5、属性テーブル6、会話文テンプレート格納部7などを備えている。
The
キーワード生成部3は、ユーザとの会話に際して、共有画像を入力とし、この共有画像に写し出された被写体に関連する事項をキーワード(テキスト)として生成・出力する。例えば、富士山を被写体とした共有画像から、「富士山」というキーワードが得られるといった如くである。キーワードの抽出手法、それ自体は公知であり、任意のものを用いることができる。例えば、上述した特許文献1や特許文献2に記載された手法を用いてよいし、YOLO(You Only Look Once)やSSD(Single Shot MultiBox Detector)の如く、深層学習による物体検出アルゴリズムを用いてもよい。キーワード生成部3によって生成された複数のキーワードは、会話処理部4に出力されると共に、キーワード管理テーブル5に新規に登録される。
The
キーワード管理テーブル5は、ユーザとの会話におけるキーワードの使用状態を管理する。図2は、一例としてのキーワード管理テーブル5の説明図である。このキーワード管理テーブル5は、複数のキーワードA~Dについて、ユーザとの会話における使用状態をステータスとして管理する。ステータスには、会話において未だ使用されていない状態を示す「未使用」と、会話において既に使用された状態を示す「使用済」とが存在する。キーワード管理テーブル5への新規登録に際して、キーワードA~Dのステータスは全て「未使用」にセットされる。 The keyword management table 5 manages the usage state of the keyword in the conversation with the user. FIG. 2 is an explanatory diagram of the keyword management table 5 as an example. The keyword management table 5 manages the usage status of the plurality of keywords A to D in a conversation with the user as a status. There are two statuses, "unused", which indicates a state that has not been used in the conversation, and "used", which indicates a state that has already been used in the conversation. At the time of new registration in the keyword management table 5, all the statuses of the keywords A to D are set to "unused".
会話処理部4は、テキスト文を音声で読み上げるテキスト読上部4a(TTS)を備えており、既存のスマートスピーカーなどと同様、マイク2によって取得されたユーザの音声を解析して、その内容に応答した発話文(応答文)を発話する。また、会話処理部4は、ユーザの発話に応答した受動的な発話のほかに、新たな話題を能動的に提示する自発的な発話も行う。この自発的な発話は、システム主導のプッシュ型の発話であり、受動的な発話(応答)とは異なりユーザの発話に依存しない。これにより、ユーザと共有されている共有画像に関連する事項の範囲内で、各種の話題がユーザに提示される。
The
この自発的な発話は、キーワード管理テーブル5を参照することによって行われる。具体的には、まず、キーワード生成部3によって生成された複数のキーワードA~Dの中から、キーワード管理テーブル5におけるステータスが「未使用」のもの(例えば、キーワードA)が選択される。キーワードAの選択に応じて、キーワード管理テーブル5が更新され、選択されたキーワードAのステータスが「未使用」から「使用済」に変更される。つぎに、属性テーブル6を参照することによって、キーワードAの属性が特定される。つぎに、会話文テンプレート格納部7に格納されている多数の会話文テンプレートの中から、キーワードAの属性に応じた会話文テンプレートが選択される。キーワードAの属性に対応する会話文テンプレートが複数存在する場合には、所定の選択規則に基づいて、あるいは、ランダムに一つの会話文テンプレートが選択される。そして、選択された会話文テンプレートにおける空欄箇所にキーワードAを挿入することによって、キーワードAを話題とした会話文が生成され、テキスト読上部5aによって発話される。
This spontaneous utterance is performed by referring to the keyword management table 5. Specifically, first, from a plurality of keywords A to D generated by the
また、会話処理部4は、キーワードAを用いた会話文の発話を発端とした会話において、ユーザの応答が途切れたか否かを判定する。ユーザの応答が途切れたと判定された場合、直近に使用されたキーワードAとは異なるもの、すなわち、キーワードB~Dのいずれかを用いた新たな話題がユーザに提示される。具体的には、まず、キーワード生成部3によって生成された複数のキーワードA~Dの中から、その時点において、キーワード管理テーブル5におけるステータスが「未使用」のもの(例えば、キーワードB)が選択される。キーワードBの選択に応じて、キーワード管理テーブル5が更新され、キーワードBのステータスが「未使用」から「使用済」に変更される。つぎに、属性テーブル6を参照することによって、キーワードBの属性が特定される。つぎに、会話文テンプレート格納部7に格納されている多数の会話文テンプレートの中から、キーワードBの属性に応じたいずれかの会話文テンプレートが選択される。そして、選択された会話文テンプレートにおける空欄箇所にキーワードBを挿入することによって、キーワードBを話題とした会話文が生成され、テキスト読上部5aによって発話される。
Further, the
図3は、会話処理の手順を示すフローチャートである。図1に示した会話システムは、予めインストールされたコンピュータプログラム(アプリを含む。)をコンピュータ(マイコン)に実行させることによって、実現することができる。以下、図4に示すように、会話アプリがインストールされたスマートフォンにおいて、内蔵カメラで富士山の景色を撮像した画像を共有画像とした場合を例に説明する。 FIG. 3 is a flowchart showing the procedure of conversation processing. The conversation system shown in FIG. 1 can be realized by causing a computer (microcomputer) to execute a computer program (including an application) installed in advance. Hereinafter, as shown in FIG. 4, a case where an image obtained by capturing a view of Mt. Fuji with a built-in camera as a shared image in a smartphone on which a conversation application is installed will be described as an example.
まず、ステップ1において、会話システム1に共有画像が入力される。共有画像の指定は、ユーザの明示的な指示に応じて行ってもよいし、システム側が自動的に行ってもよい。
First, in
つぎに、ステップ2において、ステップ1で入力された共有画像に写し出された被写体に関連する事項が複数のキーワードとして生成・出力される。例えば、図4に示したように、富士山の共有画像から、「富士山」、「山」、「雪」、「空」、「青い」、「白」、「火山」といった7つのキーワードが取得される。なお、キーワードの抽出アルゴリズムによっては、個々のキーワードの出力と共に、その確度(確からしさ)も出力される。
Next, in
ステップ3において、ステップ2で取得された複数のキーワードがキーワード管理テーブル5に新規に登録される。例えば、図5に示すように、「富士山」、「山」、「雪」、「空」、「青い」、「白」、「火山」といった7つのキーワードについて、ステータスを「未使用」にセットした上で、キーワード管理テーブル5に登録される。
In
ステップ4では、ステップ2で生成された複数のキーワードの中から、ステータスが「未使用」であるいずれかのキーワードが選択される。キーワードの選択は、ランダムで行ってもよいし、例えば、確度が高いもの順といった如く、所定の選択規則に基づいて行ってもよい。そして、ステータス管理テーブル5が更新され、選択されたキーワードのステータスが「未使用」から「使用済」に変更される。例えば、上記7つのキーワードの中から「富士山」が選択された場合、「富士山」のステータスは、「未使用」から「使用済」に変更される。
In
ステップ5において、ステップ4で選択されたキーワードを用いて、自発的な会話文が発話される(自発発話)。キーワードとして「富士山」が選択された場合を例に説明すると、属性テーブル6を参照して、「富士山」の属性として「山」が特定される。つぎに、会話文テンプレート格納部7から、属性「山」に対応する会話文テンプレートとして、「○○きれいだね」という会話文テンプレートが選択される。そして、選択された会話文テンプレートの「○○」にキーワード「富士山」を挿入することによって、「富士山きれいだね」という会話文が発話され、「富士山」の話題がユーザに提起される。
In
ステップ6において、ステップ5の自発発話を発端とした会話において、会話が途切れたか否かが判定される。この判定条件は任意に設定することができるが、例えば、ユーザの応答がない状態が所定時間継続した場合、会話が途切れたものと判定してもよい。ユーザの応答がないことをもって、ユーザは本話題に興味がないとみなせるからである。また、ユーザの応答はあったものの、その内容が所定の条件を満たす場合、例えば、ユーザの否定的応答や消極的肯定などの場合、会話が途切れたものと判定してもよい。その際、ユーザの声の抑揚などを考慮してもよい。
In
ステップ6の判定結果が否定の場合、すなわち、ユーザの応答があって会話が途切れていないと判定された場合には、ステップ7に進み、ユーザの応答に応じた受動的な会話文が発話される(受動発話)。この受動的な会話文の発話は、会話が途切れたと判定されるまで繰り返される(ステップ6,7)。これにより、システムによる自発的な発話「富士山きれいだね」を発端としたユーザとの会話が継続されることになる。
If the determination result in
これに対して、ステップ6の判定結果が肯定の場合、すなわち、会話が途切れたと判定された場合には、ステップ4に戻る。そして、ステータスが「未使用」である新たなキーワードの選択(ステップ4)と、このキーワードを用いた自発的な会話文の発話(ステップ5)とが行われる。これにより、以後の会話は、「富士山」の話題から別の話題(例えば「火山」)に移行することになる。
On the other hand, if the determination result in
以上のようなユーザとの一連のやり取りは、別ルーチンによって会話が終了したと判定されるまで継続される。 The series of exchanges with the user as described above is continued until it is determined by another routine that the conversation has ended.
図6は、ユーザとの会話の流れの一例を示す図である。まず、会話システム1側の自発発話として、「富士山」をキーワードとした「富士山きれいだね」が発話される。そして、これを発端としたユーザ側の応答と、会話システム1側の受動発話とが繰り返される。その後、「そうだよね」というユーザ側の応答(消極的肯定)が発話されると、途切れ条件が満たされて、「富士山」の話題は終了する。
FIG. 6 is a diagram showing an example of the flow of conversation with the user. First, as a spontaneous utterance on the
この話題の終了に伴い、会話システム1側の自発発話として、「富士山」とは異なる「火山」をキーワードとした「でも火山は怖いよね」が発話される。その後、「怖くないよ」というユーザ側の応答(否定的応答)が発話されると、途切れ条件が満たされて、「火山」の話題は終了する。
With the end of this topic, "But volcanoes are scary, aren't they?" With the keyword "volcano", which is different from "Mt. Fuji", as a spontaneous utterance on the
この話題の終了に伴い、会話システム1側の自発発話として、「火山」とは異なる「山」をキーワードとした「じゃあ山に登りに行こうよ」が発話される。その後、「いいね」というユーザ応答(消極的肯定)が発話されると、途切れ条件が満たされて、「山」の話題は終了する。
With the end of this topic, as a spontaneous utterance on the
この話題の終了に伴い、会話システム1側の自発発話として、「山」とは異なる「雪」をキーワードとした「雪のない日がいいね」が発話され、以後、ユーザとのやり取りが継続される。富士山の撮像画像がユーザと共有されている状況下において、「富士山」、「火山」、「山」、「雪」の順に話題が移行したとしても、会話に流れに不自然さはなく、ユーザに唐突感を抱かせることはない。
With the end of this topic, as a spontaneous utterance on the
このように、本実施形態によれば、共有画像に関する複数のキーワードを選択的に用いて、システム側からの発話が自発的かつ連続的に行われる。あるキーワードを用いた発話を発端とした会話において、ユーザの応答が途切れた場合、このキーワードとは異なる別のキーワードを用いた発話が自発的に行われ、ユーザに対して新たな話題が提示される。これらのキーワードは、ユーザと共有されている共有画像に関するものゆえに、その範囲内で新たな話題を提示しても、ユーザに唐突感を抱かせることはない。これにより、自然な流れで会話に連続性を持たせることができる。 As described above, according to the present embodiment, utterances from the system side are spontaneously and continuously performed by selectively using a plurality of keywords related to the shared image. In a conversation that starts with an utterance using a certain keyword, if the user's response is interrupted, an utterance using another keyword different from this keyword is spontaneously performed, and a new topic is presented to the user. To. Since these keywords are related to the shared image shared with the user, even if a new topic is presented within the range, the user does not feel abrupt. As a result, it is possible to give continuity to the conversation in a natural flow.
また、本実施形態によれば、キーワード管理テーブル5を用いて、ユーザとの会話におけるキーワードの使用状態を管理することで、例えば「富士山」の話題が途切れた直後に「富士山」の話題が繰り返されるといった事態を避けることができる。これにより、ユーザに違和感を与えることなく、会話に連続性を持たせることができる。 Further, according to the present embodiment, by managing the usage state of the keyword in the conversation with the user by using the keyword management table 5, for example, the topic of "Mt. Fuji" is repeated immediately after the topic of "Mt. Fuji" is interrupted. It is possible to avoid such a situation. As a result, it is possible to give continuity to the conversation without giving the user a sense of discomfort.
なお、上述した実施形態では、キーワード管理テーブル5のステータスとして、個々のキーワードの使用の有無(未使用/使用済)を管理しているが、例えば、図7に示すように、0回、1回、2回といった如く、個々のキーワードの使用回数を管理してもよい。また、図8に示すように、現時点でテーマとなっているキーワードが何であるのかだけをフラグで管理してもよい。例えば、キーワードAを用いた自発発話を発端とした会話において、ユーザの応答が途切れた場合、同図のステータス(使用状態)から、次の自発発話として、現時点のキーワードA以外のもの、すなわち、キーワードB~Dのいずれかが選択される。これにより、上述した実施形態と同様、新たな話題への移行に際して、直前の話題が繰り返されるといった事態を避けることができる。 In the above-described embodiment, the presence / absence (unused / used) of each keyword is managed as the status of the keyword management table 5, but as shown in FIG. 7, for example, 0 times and 1 time. You may manage the number of times each keyword is used, such as once or twice. Further, as shown in FIG. 8, only what is the keyword currently the theme may be managed by the flag. For example, in a conversation starting from a spontaneous utterance using the keyword A, when the user's response is interrupted, the next spontaneous utterance from the status (usage state) in the figure is something other than the current keyword A, that is, One of the keywords B to D is selected. As a result, as in the above-described embodiment, it is possible to avoid a situation in which the immediately preceding topic is repeated when shifting to a new topic.
1 会話システム
2 マイク
3 キーワード生成部
4 会話処理部
4a テキスト読上部
5 キーワード管理テーブル
6 属性テーブル
7 会話文テンプレート格納部
1
Claims (8)
ユーザと共有されている共有画像を入力として、前記共有画像に写し出された被写体に関連する複数のキーワードを生成するキーワード生成部と、
前記キーワード生成部によって生成された複数のキーワードの中から第1のキーワードを選択し、前記第1のキーワードを用いた会話文を自発的に発話すると共に、前記第1のキーワードを用いた会話文の発話を発端とした会話において、ユーザの応答が途切れたと判定された場合、前記キーワード生成部によって生成された複数のキーワードの中から、前記第1のキーワードとは異なる第2のキーワードを選択し、前記第2のキーワードを用いた会話文を自発的に発話する会話処理部と
を有することを特徴とする会話システム。 In a conversation system that talks with the user
A keyword generation unit that generates a plurality of keywords related to the subject projected on the shared image by inputting a shared image shared with the user, and a keyword generation unit.
A first keyword is selected from a plurality of keywords generated by the keyword generation unit, a conversation sentence using the first keyword is spontaneously spoken, and a conversation sentence using the first keyword is spoken. When it is determined that the user's response is interrupted in the conversation starting from the utterance of the above, a second keyword different from the first keyword is selected from the plurality of keywords generated by the keyword generation unit. , A conversation system characterized by having a conversation processing unit that spontaneously utters a conversation sentence using the second keyword.
前記キーワード生成部は、前記生成した複数のキーワードを前記キーワード管理テーブルに新規に登録し、
前記会話処理部は、前記第1のキーワードの選択に応じて、前記キーワード管理テーブルにおける前記第1のキーワードの使用状態を更新すると共に、前記第2のキーワードの選択に応じて、前記キーワード管理テーブルにおける前記第2のキーワードの使用状態を更新することを特徴とする請求項1に記載された会話システム。 It also has a keyword management table that manages the usage status of keywords in conversations with users.
The keyword generation unit newly registers the generated plurality of keywords in the keyword management table, and then registers the generated keywords in the keyword management table.
The conversation processing unit updates the usage state of the first keyword in the keyword management table according to the selection of the first keyword, and the keyword management table according to the selection of the second keyword. The conversation system according to claim 1, wherein the usage state of the second keyword is updated.
ユーザと共有されている共有画像を入力として、前記共有画像に写し出された被写体に関連する複数のキーワードを生成する第1のステップと、
前記複数のキーワードの中から第1のキーワードを選択し、前記第1のキーワードを用いた会話文を自発的に発話する第2のステップと、
前記第1のキーワードを用いた会話文の発話を発端とした会話において、ユーザの応答が途切れたか否かを判定する第3のステップと、
ユーザの応答が途切れたと判定された場合、前記複数のキーワードの中から、前記第1のキーワードとは異なる第2のキーワードを選択し、前記第2のキーワードを用いた会話文を自発的に発話する第4のステップと
を有する処理をコンピュータに実行させることを特徴とする会話プログラム。 In a conversation program that talks to the user
The first step of generating a plurality of keywords related to the subject projected on the shared image by inputting the shared image shared with the user, and
A second step of selecting a first keyword from the plurality of keywords and spontaneously uttering a conversational sentence using the first keyword.
In the conversation starting from the utterance of the conversation sentence using the first keyword, the third step of determining whether or not the user's response is interrupted, and
When it is determined that the user's response is interrupted, a second keyword different from the first keyword is selected from the plurality of keywords, and a conversation sentence using the second keyword is spontaneously spoken. A conversation program comprising causing a computer to execute a process having a fourth step.
前記第2のステップは、前記キーワード管理テーブルにおける前記第1のキーワードの使用状態を更新するステップを含み、
前記第4のステップは、前記キーワード管理テーブルにおける前記第2のキーワードの使用状態を更新するステップを含むことを特徴とする請求項5に記載された会話プログラム。 It further has a fifth step of newly registering the plurality of keywords in the keyword management table that manages the usage state of the keywords in the conversation with the user.
The second step includes updating the usage status of the first keyword in the keyword management table.
The conversation program according to claim 5, wherein the fourth step includes a step of updating the usage state of the second keyword in the keyword management table.
前記第4のステップは、前記第2のキーワードの属性に応じて選択された第2の会話文テンプレートに、前記第2のキーワードを挿入することによって、前記第2の会話文を発話するステップを含むことを特徴とする請求項5から7のいずれかに記載された会話プログラム。
The second step is a step of uttering the first conversation sentence by inserting the first keyword into the first conversation sentence template selected according to the attribute of the first keyword. Including,
The fourth step is a step of uttering the second conversation sentence by inserting the second keyword into the second conversation sentence template selected according to the attribute of the second keyword. The conversation program according to any one of claims 5 to 7, wherein the conversation program comprises.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018211056A JP7058588B2 (en) | 2018-11-09 | 2018-11-09 | Conversation system and conversation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018211056A JP7058588B2 (en) | 2018-11-09 | 2018-11-09 | Conversation system and conversation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020077272A JP2020077272A (en) | 2020-05-21 |
JP7058588B2 true JP7058588B2 (en) | 2022-04-22 |
Family
ID=70724209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018211056A Active JP7058588B2 (en) | 2018-11-09 | 2018-11-09 | Conversation system and conversation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7058588B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489645A (en) * | 2020-11-05 | 2021-03-12 | 北京中凯信通信息技术有限公司 | Intelligent voice interaction method, system and storage medium |
CN112819569B (en) * | 2021-01-21 | 2024-01-12 | 万象春天实业集团(武汉)有限公司 | Commodity purchasing method and device based on intelligent bidding platform |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011030372A1 (en) | 2009-09-09 | 2011-03-17 | 株式会社 東芝 | Speech interaction device and program |
JP2011180729A (en) | 2010-02-26 | 2011-09-15 | Sony Corp | Information processing apparatus, keyword registration method, and program |
JP2014106832A (en) | 2012-11-29 | 2014-06-09 | Nec Software Tohoku Ltd | Information providing apparatus and information providing method |
JP2017049427A (en) | 2015-09-01 | 2017-03-09 | カシオ計算機株式会社 | Dialogue control apparatus, dialogue control method, and program |
WO2017094212A1 (en) | 2015-11-30 | 2017-06-08 | ソニー株式会社 | Information processing device, information processing method, and program |
-
2018
- 2018-11-09 JP JP2018211056A patent/JP7058588B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011030372A1 (en) | 2009-09-09 | 2011-03-17 | 株式会社 東芝 | Speech interaction device and program |
JP2011180729A (en) | 2010-02-26 | 2011-09-15 | Sony Corp | Information processing apparatus, keyword registration method, and program |
JP2014106832A (en) | 2012-11-29 | 2014-06-09 | Nec Software Tohoku Ltd | Information providing apparatus and information providing method |
JP2017049427A (en) | 2015-09-01 | 2017-03-09 | カシオ計算機株式会社 | Dialogue control apparatus, dialogue control method, and program |
WO2017094212A1 (en) | 2015-11-30 | 2017-06-08 | ソニー株式会社 | Information processing device, information processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2020077272A (en) | 2020-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10977452B2 (en) | Multi-lingual virtual personal assistant | |
US20210314523A1 (en) | Proactive In-Call Content Recommendations for Assistant Systems | |
CN111145756B (en) | Voice recognition method and device for voice recognition | |
EP3631793B1 (en) | Dynamic and/or context-specific hot words to invoke automated assistant | |
US9053096B2 (en) | Language translation based on speaker-related information | |
TW201913300A (en) | Human-computer interaction method and human-computer interaction system | |
WO2022125938A1 (en) | Voice-based auto-completions and auto-responses for assistant systems | |
JP6122792B2 (en) | Robot control apparatus, robot control method, and robot control program | |
CN104795065A (en) | Method for increasing speech recognition rate and electronic device | |
KR20210037857A (en) | Realistic AI-based voice assistant system using relationship setting | |
KR102544249B1 (en) | Electronic device and method thereof for performing translation by sharing context of utterance | |
KR102104294B1 (en) | Sign language video chatbot application stored on computer-readable storage media | |
US10388325B1 (en) | Non-disruptive NUI command | |
CN108399914A (en) | A kind of method and apparatus of speech recognition | |
CN111128183A (en) | Speech recognition method, apparatus and medium | |
JP7058588B2 (en) | Conversation system and conversation program | |
CN111557001B (en) | Method for providing natural language dialogue, computer device and computer readable storage medium | |
US11443738B2 (en) | Electronic device processing user utterance and control method thereof | |
US20210166685A1 (en) | Speech processing apparatus and speech processing method | |
JP2010109898A (en) | Photographing control apparatus, photographing control method and program | |
JP2014149571A (en) | Content search device | |
CN117198335A (en) | Voice interaction method and device, computer equipment and intelligent home system | |
JP2017198790A (en) | Speech evaluation device, speech evaluation method, method for producing teacher change information, and program | |
JP2019203998A (en) | Conversation device, robot, conversation device control method and program | |
CN118098224A (en) | Screen sharing control method, device, equipment, medium and program product |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210511 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7058588 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |