JP2013072887A - Interactive device - Google Patents
Interactive device Download PDFInfo
- Publication number
- JP2013072887A JP2013072887A JP2011209504A JP2011209504A JP2013072887A JP 2013072887 A JP2013072887 A JP 2013072887A JP 2011209504 A JP2011209504 A JP 2011209504A JP 2011209504 A JP2011209504 A JP 2011209504A JP 2013072887 A JP2013072887 A JP 2013072887A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- unit
- template
- utterance set
- concept
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明の実施形態は、対話装置に関する。 Embodiments described herein relate generally to an interactive apparatus.
従来、ユーザと対話する対話装置が知られている。対話装置を利用した対話は、例えば、ユーザの入力文章を把握して対話するものと、ユーザの音声を把握して対話するものとがある。これらのような対話装置では、ユーザの入力文章又は音声を正確に把握し、より自然な対話を実現するために、高度な言語処理や音声認識処理が行われる場合がある。 Conventionally, an interactive apparatus that interacts with a user is known. The dialogue using the dialogue device includes, for example, a dialogue that grasps a user's input sentence and a dialogue that grasps a user's voice. In such an interactive apparatus, there are cases where advanced language processing and speech recognition processing are performed in order to accurately grasp a user's input sentence or voice and realize a more natural conversation.
しかしながら、従来技術においては、ユーザの入力文章又は音声を正確に把握できない場合に、自然な対話を実現することが困難であるという問題がある。具体的には、従来技術では、言語処理や音声認識処理において、誤りが発生する可能性があるので、自然な対話を実現することが困難である。 However, in the prior art, there is a problem that it is difficult to realize a natural dialogue when the user's input sentence or voice cannot be accurately grasped. Specifically, in the prior art, errors may occur in language processing and speech recognition processing, so it is difficult to realize natural conversation.
本発明が解決しようとする課題は、自然な対話を実現することができる対話装置を提供することである。 The problem to be solved by the present invention is to provide an interactive apparatus capable of realizing natural conversation.
実施形態の対話装置は、発話セット記憶部と、発話セット取得部と、第1出力部と、検知部と、第2出力部とを有する。発話セット記憶部は、第1発話と、第1発話に対する応答として想定されるユーザによる発話に対する応答の発話を表す第2発話とを含んだ発話セットを記憶する。発話セット取得部は、発話セットを取得する。第1出力部は、取得された発話セットに含まれる第1発話を出力する。検知部は、第1発話が出力された後のユーザによる発話を検知する。第2出力部は、ユーザによる発話が検知された場合に、取得された発話セットに含まれる第2発話を出力する。 The interactive apparatus according to the embodiment includes an utterance set storage unit, an utterance set acquisition unit, a first output unit, a detection unit, and a second output unit. The utterance set storage unit stores an utterance set including a first utterance and a second utterance representing an utterance of a response to an utterance by a user assumed as a response to the first utterance. The utterance set acquisition unit acquires an utterance set. The first output unit outputs the first utterance included in the acquired utterance set. The detection unit detects an utterance by the user after the first utterance is output. The second output unit outputs the second utterance included in the acquired utterance set when the utterance by the user is detected.
(第1の実施形態)
図1は、第1の実施形態に係る対話装置の構成例を示すブロック図である。例えば、図1に示すように、対話装置100は、発話セット記憶部101と、発話セット取得部102と、出力部103と、検知部104とを有する。かかる対話装置100は、例えば、ディスプレイ又はスピーカ等を備えた所定の表示出力装置に、文字又は音声を出力することによりユーザとの対話を実現する。
(First embodiment)
FIG. 1 is a block diagram illustrating a configuration example of the interactive apparatus according to the first embodiment. For example, as illustrated in FIG. 1, the dialogue apparatus 100 includes an utterance
発話セット記憶部101は、第1発話と、第1発話に対する応答として想定されるユーザによる発話に対する応答の発話を表す第2発話とを含んだ発話セットを記憶する。ここで、図2を用いて、第1の実施形態に係る発話セット記憶部101に記憶される情報について説明する。図2は、第1の実施形態に係る発話セット記憶部101に記憶される情報例を示す図である。
The utterance set
例えば、図2に示すように、発話セット記憶部101は、第1発話「映画は好き?」と、第1発話に対して想定されるユーザによる発話を表す想定ユーザ発話「好きです」と、第2発話「そうなんだ」とを含んだ「発話セット1」を記憶する。図2では、説明の便宜上、「想定ユーザ発話」を含む発話セット記憶部101を例示したが、「想定ユーザ発話」は、発話セット記憶部101に含まれていなくても良い。すなわち、図2に示すように、発話セット記憶部101は、第1発話に対するユーザ発話がどのような応答であっても、自然な対話を実現できる発話セットを記憶している。
For example, as illustrated in FIG. 2, the utterance set
発話セット取得部102は、発話セットを取得する。例えば、発話セット取得部102は、ユーザが対話装置100の前に立ったり、ユーザによる対話装置100の利用準備が整ったりした等、任意のタイミングで、発話セット記憶部101に記憶された発話セットを取得する。例を挙げると、発話セット取得部102は、発話セット記憶部101に記憶された「発話セット1」である、第1発話「映画は好き?」と、第2発話「そうなんだ」とを取得する。
The utterance set
出力部103は、発話セット取得部102によって取得された発話セットを出力する。かかる出力部103は、第1出力部103aと、第2出力部103bとを有する。これらのうち、第1出力部103aは、発話セット取得部102によって取得された発話セットに含まれる第1発話を出力する。例を挙げると、第1出力部103aは、発話セット取得部102によって取得された発話セット「発話セット1」に含まれる第1発話「映画は好き?」を所定の表示出力装置に出力する。なお、第2出力部103bによる処理については後述する。
The output unit 103 outputs the utterance set acquired by the utterance
検知部104は、第1発話が出力された後のユーザによる発話を検知する。例えば、検知部104は、第1出力部103aによる第1発話の出力後に、ユーザによる発話を検知する。例を挙げると、検知部104は、第1出力部103aによって第1発話「映画は好き?」が所定の表示出力装置へ出力された後に、ユーザが「好きです」等を発話したことを検知する。なお、ユーザによる発話は、上記の例に限られるものではなく、どのような発話であっても良い。
The
また、第2出力部103bは、検知部104によってユーザによる発話が検知された場合に、発話セット取得部102によって取得された発話セットに含まれる第2発話を出力する。例を挙げると、第2出力部103bは、検知部104によってユーザによる発話「好きです」が検知された場合に、発話セット取得部102によって取得された発話セット「発話セット1」に含まれる第2発話「そうなんだ」を所定の表示出力装置に出力する。但し、検知部104によってユーザによる発話を一定時間検知できない場合には、第2出力部103bによる第2発話の出力を行わずに、次の発話セットを発話セット取得部102に取得させる。
The
次に、図3を用いて、第1の実施形態に係る対話処理の流れを説明する。図3は、第1の実施形態に係る対話処理の流れの例を示すフローチャートである。 Next, the flow of interactive processing according to the first embodiment will be described with reference to FIG. FIG. 3 is a flowchart illustrating an example of the flow of the interactive processing according to the first embodiment.
例えば、図3に示すように、発話セット取得部102は、発話セット記憶部101から発話セットを取得する(ステップS101)。また、第1出力部103aは、発話セット取得部102によって取得された発話セットに含まれる第1発話を所定の表示出力装置に出力する(ステップS102)。
For example, as illustrated in FIG. 3, the utterance set
また、検知部104は、第1出力部103aによって出力された第1発話に対する、ユーザによる発話を検知したか否かを判定する(ステップS103)。このとき、検知部104によってユーザによる発話が検知された場合に(ステップS103肯定)、第2出力部103bは、発話セット取得部102によって取得された発話セットに含まれる第2発話を所定の表示出力装置に出力する(ステップS104)。また、第2発話の出力後、発話セット取得部102は、次の発話セットを発話セット記憶部101から取得する(ステップS101)。
Moreover, the
一方、検知部104は、ユーザによる発話を検知していない場合に(ステップS103否定)、一定時間が経過したか否かを判定する(ステップS105)。このとき、検知部104は、一定時間が経過していない場合に(ステップS105否定)、再度、ユーザによる発話を検知したか否かを判定する(ステップS103)。一方、一定時間が経過した場合に(ステップS105肯定)、発話セット取得部102は、次の発話セットを発話セット記憶部101から取得する(ステップS101)。
On the other hand, when the utterance by the user is not detected (No at Step S103), the
本実施形態によれば、ユーザによる発話を限定する発話と、ユーザによる発話に対する応答の発話とを利用して対話するので、自然な対話を実現することができる。換言すると、ユーザによる発話の内容を認識することなく、自然な対話を実現することができる。 According to the present embodiment, since the dialogue is performed using the utterance that limits the utterance by the user and the utterance of the response to the utterance by the user, a natural dialogue can be realized. In other words, a natural conversation can be realized without recognizing the content of the utterance by the user.
(第2の実施形態)
図4は、第2の実施形態に係る対話装置の構成例を示すブロック図である。第2の実施形態では、第1の実施形態と同様の処理を実行する機能部については同一の符号を付し、同様の処理についてはその説明を省略する場合がある。
(Second Embodiment)
FIG. 4 is a block diagram illustrating a configuration example of the interactive apparatus according to the second embodiment. In the second embodiment, functional units that perform the same processes as in the first embodiment are denoted by the same reference numerals, and descriptions of the same processes may be omitted.
例えば、図4に示すように、対話装置200は、発話セット記憶部101と、発話セット取得部102と、出力部103と、検知部104と、概念辞書記憶部205と、発話テンプレート記憶部206と、概念取得部207と、発話テンプレート取得部208と、発話セット生成部209とを有する。また、第1の実施形態と同様に、対話装置200は、ディスプレイ又はスピーカ等を備えた所定の表示出力装置に、文字又は音声を出力することによりユーザとの対話を実現する。
For example, as illustrated in FIG. 4, the
概念辞書記憶部205は、語句と概念とを対応付けて記憶する。例えば、概念辞書記憶部205に記憶される単語は、常用されている単語であり、固有名詞や新しい単語等は含まれていない。発話テンプレート記憶部206は、一部の語句が概念で表現された第1発話と第2発話とを含んだ発話セットのテンプレートを記憶する。ここで、図5A及び図5Bを用いて、第2の実施形態に係る発話テンプレート記憶部206に記憶される情報について説明する。図5A及び図5Bは、第2の実施形態に係る発話テンプレート記憶部206に記憶される情報例を示す図である。
The concept
例えば、図5Aに示すように、発話テンプレート記憶部206は、第1発話「[食べ物]は好き?」と、想定ユーザ発話「好きだよ」と、第2発話「[食べ物]はおいしいんだよ」とを含んだ発話セットのテンプレート「テンプレート1」を記憶する。ここで、“[]”で囲まれた「食べ物」は、単語の概念である。すなわち、発話テンプレート記憶部206に記憶される発話セットのテンプレートには、発話に含まれる単語が概念で表現されている。
For example, as illustrated in FIG. 5A, the utterance
また、例えば、図5Bに示すように、発話テンプレート記憶部206は、第1発話「[食べ物]は好き?」と、想定ユーザ発話「好きだよ」と、第2発話「[食べ物]は「味」んだよ」とを含んだ発話セットのテンプレート「テンプレート1」を記憶する。同様に、“[]”で囲まれた「食べ物」及び「味」は、単語の概念である。すなわち、発話テンプレート記憶部206に記憶される発話セットのテンプレートには、発話に含まれる複数の単語が概念で表現されていても良い。なお、図5A及び図5Bでは、説明の便宜上、「想定ユーザ発話」を含む発話テンプレート記憶部206を例示したが、「想定ユーザ発話」は、発話テンプレート記憶部206に含まれていなくても良い。
For example, as illustrated in FIG. 5B, the utterance
概念取得部207は、語句が入力された場合に、該語句に対応する概念を概念辞書記憶部205から取得する。例を挙げると、概念取得部207は、ユーザによる対話装置200の操作により、単語「チョコレート」の入力を受け付ける。そして、概念取得部207は、受け付けた単語「チョコレート」に対応する概念「食べ物」を概念辞書記憶部205から取得する。また、複数の単語が入力される場合の例を挙げると、概念取得部207は、ユーザによる対話装置200の操作により、単語「チョコレート」、「甘い」の入力を受け付ける。そして、概念取得部207は、受け付けた単語「チョコレート」、「甘い」に対応する概念「食べ物」、「味」を概念辞書記憶部205から取得する。なお、対話装置200は、単語に対応する概念が概念辞書記憶部205に登録されていなかった場合に処理を終了する。
When a phrase is input, the
発話テンプレート取得部208は、概念取得部207によって取得された概念を含む発話セットのテンプレートを発話テンプレート記憶部206から取得する。例を挙げると、発話テンプレート取得部208は、概念取得部207によって取得された概念「食べ物」を含む発話セットのテンプレート「テンプレート1」を発話テンプレート記憶部206(図5A参照)から取得する。また、複数の単語が入力された場合の例を挙げると、発話テンプレート取得部208は、概念取得部207によって取得された概念「食べ物」、「味」を含む発話セットのテンプレート「テンプレート1」を発話テンプレート記憶部206(図5B参照)から取得する。なお、対話装置200は、概念を含む発話セットのテンプレートが発話テンプレート記憶部206に登録されていなかった場合に処理を終了する。
The utterance
発話セット生成部209は、発話テンプレート取得部208によって取得された発話セットのテンプレートに含まれる概念に、入力された語句を挿入して新たな発話セットを生成する。そして、発話セット生成部209は、生成した新たな発話セットを発話セット記憶部101に格納する。
The utterance set
例を挙げると、発話セット生成部209は、発話テンプレート取得部208によって取得された発話セットのテンプレート「テンプレート1」(図5A参照)に含まれる概念「食べ物」に、入力を受け付けた単語「チョコレート」を挿入して新たな発話セットを生成する。上記の例で生成される発話セットは、第1発話「チョコレートは好き?」と、想定ユーザ発話「好きだよ」と、第2発話「チョコレートはおいしいんだよ」とを含むものとなる。そして、発話セット生成部209は、生成した新たな発話セットを発話セット記憶部101に格納する。
For example, the utterance set
また、複数の単語が入力された場合の例を挙げると、発話セット生成部209は、発話テンプレート取得部208によって取得された発話セットのテンプレート「テンプレート1」(図5B参照)に含まれる概念「食べ物」、「味」に、入力を受け付けた単語「チョコレート」、「甘い」を挿入して新たな発話セットを生成する。上記の例で生成される発話セットは、第1発話「チョコレートは好き?」と、想定ユーザ発話「好きだよ」と、第2発話「チョコレートは甘いんだよ」とを含むものとなる。そして、発話セット生成部209は、生成した新たな発話セットを発話セット記憶部101に格納する。
Further, when an example in which a plurality of words are input is given, the utterance set
次に、図6を用いて、第2の実施形態に係る発話セット生成処理の流れを説明する。図6は、第2の実施形態に係る発話セット生成処理の流れの例を示すフローチャートである。 Next, the flow of the utterance set generation process according to the second embodiment will be described with reference to FIG. FIG. 6 is a flowchart illustrating an example of the flow of an utterance set generation process according to the second embodiment.
例えば、図6に示すように、概念取得部207は、単語の入力を受け付けた場合に(ステップS201肯定)、該単語に対応する概念を概念辞書記憶部205から検索する(ステップS202)。また、概念取得部207は、単語の入力を受け付けていない場合に(ステップS201否定)、該単語の入力待ちの状態となる。
For example, as shown in FIG. 6, when the
このとき、概念取得部207によって単語に対応する概念が概念辞書記憶部205から取得された場合に(ステップS203肯定)、発話テンプレート取得部208は、取得された概念を含む発話セットのテンプレートを発話テンプレート記憶部206から検索する(ステップS204)。一方、対話装置200は、概念取得部207によって単語に対応する概念が概念辞書記憶部205から取得されなかった場合に(ステップS203否定)、処理を終了する。
At this time, when the concept corresponding to the word is acquired from the concept
また、発話テンプレート取得部208は、概念取得部207によって取得された概念を含む発話セットのテンプレートを発話テンプレート記憶部206から検索する(ステップS204)。このとき、発話テンプレート取得部208によって発話セットのテンプレートが発話テンプレート記憶部206から取得された場合に(ステップS205肯定)、発話セット生成部209は、取得された発話セットのテンプレートに含まれる概念に、入力された単語を挿入して新たな発話セットを生成する(ステップS206)。その後、発話セット生成部209は、生成した発話セットを発話セット記憶部101に格納する。一方、対話装置200は、発話テンプレート取得部208によって発話セットのテンプレートが発話テンプレート記憶部206から取得されなかった場合に(ステップS205否定)、処理を終了する。
Also, the utterance
本実施形態によれば、予め登録された発話セットを使用した対話だけでなく、任意の単語に基づいた発話セットを使用した種々の対話を実現することができる。 According to the present embodiment, not only a dialogue using a previously registered utterance set but also various dialogues using a utterance set based on an arbitrary word can be realized.
(第3の実施形態)
図7は、第3の実施形態に係る対話装置の構成例を示すブロック図である。第3の実施形態では、第1の実施形態又は第2の実施形態と同様の処理を実行する機能部については同一の符号を付し、同様の処理についてはその説明を省略する場合がある。
(Third embodiment)
FIG. 7 is a block diagram illustrating a configuration example of the interactive apparatus according to the third embodiment. In the third embodiment, functional units that perform the same processes as those in the first or second embodiment are denoted by the same reference numerals, and the description of the same processes may be omitted.
例えば、図7に示すように、対話装置300は、発話セット記憶部101と、発話セット取得部102と、出力部103と、検知部104と、発話テンプレート記憶部206と、発話テンプレート取得部308と、発話セット生成部309と、特有単語記憶部310とを有する。また、第1の実施形態と同様に、対話装置300は、ディスプレイ又はスピーカ等を備えた所定の表示出力装置に、文字又は音声を出力することによりユーザとの対話を実現する。
For example, as shown in FIG. 7, the dialogue apparatus 300 includes an utterance set
特有単語記憶部310は、外部から取得された特有な語句と、該特有な語句の概念とを対応付けて記憶する。ここで、図8を用いて、第3の実施形態に係る特有単語記憶部310に記憶される情報について説明する。図8は、第3の実施形態に係る特有単語記憶部310に記憶される情報例を示す図である。
The unique
例えば、図8に示すように、特有単語記憶部310は、特有単語「猛暑」と、特有単語の概念「天気」と、特有単語の出所を表す素性「http://tenki_jouhou.jp」とを対応付けて記憶する。また、特有単語は、特有な語句の一例である。特有単語記憶部310に記憶される情報は、日々変化する情報に基づいて適宜更新される。具体的には、天気に該当する特有単語は、予め登録された地域の天気に基づいた単語(例えば、「晴れ」、「雨」、「猛暑」、「ゲリラ豪雨」等)に更新される。同様に、ニュースに該当する特有単語は、解析された特定のニュースサイトの記事に基づいた単語(例えば、「なでしこジャパン」、「東日本大震災」、「○○首相」等)に更新される。同様に、このほかの特有単語は、マイクロブログ(Micro Blogging)等で頻出する単語(例えば、「台風○○号」、「正心誠意」、「女子会」等)に更新される。このように、特有単語記憶部310に記憶される特有単語は、常用されない単語を含む等、上述した概念辞書記憶部205等に登録された単語とは異なる性質を有する単語である。なお、特有単語記憶部310への特有単語の登録は、対話装置300内で実行されても良いし、特有単語を抽出するサービスを利用しても良い。
For example, as illustrated in FIG. 8, the unique
発話テンプレート取得部308は、特有な語句の概念を含む発話セットのテンプレートを発話テンプレート記憶部206から取得する。例を挙げると、発話テンプレート取得部308は、特有単語記憶部310に記憶された特有単語「わさびソフト」の概念「食べ物」を取得する。そして、発話テンプレート取得部308は、取得した概念「食べ物」を含む発話セットのテンプレート「テンプレート1」を発話テンプレート記憶部206(図5A参照)から取得する。なお、発話テンプレート取得部308は、特有単語記憶部310から特有単語の概念を取得する際、一つの様態として、特有単語記憶部310への登録が最新のものから取得する。
The utterance template acquisition unit 308 acquires an utterance set template including a unique phrase concept from the utterance
また、複数の特有単語の概念を取得する場合の例を挙げると、発話テンプレート取得部308は、特有単語記憶部310に記憶された特有単語「わさびソフト」、「涙が出るほど辛い」の概念「食べ物」、「味」を取得する。そして、発話テンプレート取得部308は、取得した概念「食べ物」、「味」を含む発話セットのテンプレート「テンプレート1」を発話テンプレート記憶部206(図5B参照)から取得する。
Further, as an example in the case of acquiring the concept of a plurality of unique words, the utterance template acquisition unit 308 has a concept of the unique words “wasabi soft” and “spicy enough to tear” stored in the unique
発話セット生成部309は、発話テンプレート取得部308によって取得された発話セットのテンプレートに含まれる概念に、特有な語句を挿入して新たな発話セットを生成する。そして、発話セット生成部309は、生成した新たな発話セットを発話セット記憶部101に格納する。
The utterance set
例を挙げると、発話セット生成部309は、発話テンプレート取得部308によって取得された発話セットのテンプレート「テンプレート1」(図5A参照)に含まれる概念「食べ物」に、特有単語「わさびソフト」を挿入して新たな発話セットを生成する。上記の例で生成される発話セットは、第1発話「わさびソフトは好き?」と、想定ユーザ発話「好きだよ」と、第2発話「わさびソフトはおいしいんだよ」とを含むものとなる。そして、発話セット生成部309は、生成した新たな発話セットを発話セット記憶部101に格納する。
For example, the utterance set
また、複数の特有単語の概念を取得した場合の例を挙げると、発話セット生成部309は、発話テンプレート取得部308によって取得された発話セットのテンプレート「テンプレート1」(図5B参照)に含まれる概念「食べ物」、「味」に、特有単語「わさびソフト」、「涙が出るほど辛い」を挿入して新たな発話セットを生成する。上記の例で生成される発話セットは、第1発話「わさびソフトは好き?」と、想定ユーザ発話「好きだよ」と、第2発話「わさびソフトは涙が出るほど辛いんだよ」とを含むものとなる。そして、発話セット生成部309は、生成した新たな発話セットを発話セット記憶部101に格納する。
Further, when an example in which a concept of a plurality of unique words is acquired, the utterance set
なお、特有単語記憶部310から複数の特有単語の概念を取得する場合には、同じ素性を有する特有単語の概念を取得することが好ましい。なぜならば、何らかの関係を有する特有単語同士を利用して発話を生成することにより、より好適な発話を生成することができるからである。このことから、上記の例では、同じ素性「http://web.Analyze.cgi」を有する特有単語「わさびソフト」、「涙が出るほど辛い」の概念「食べ物」、「味」を取得する場合を例に挙げた。
In addition, when acquiring the concept of a some specific word from the specific word memory |
次に、図9を用いて、第3の実施形態に係る発話セット生成処理の流れを説明する。図9は、第3の実施形態に係る発話セット生成処理の流れの例を示すフローチャートである。 Next, the flow of an utterance set generation process according to the third embodiment will be described with reference to FIG. FIG. 9 is a flowchart illustrating an example of the flow of an utterance set generation process according to the third embodiment.
例えば、図9に示すように、発話テンプレート取得部308は、特有単語の概念を特有単語記憶部310から取得する(ステップS301)。そして、発話テンプレート取得部308は、取得した特有単語の概念を含む発話セットのテンプレートを発話テンプレート記憶部206から検索する(ステップS302)。
For example, as shown in FIG. 9, the utterance template acquisition unit 308 acquires the concept of the specific word from the specific word storage unit 310 (step S301). Then, the utterance template acquisition unit 308 searches the utterance
このとき、発話テンプレート取得部308によって該当する発話セットのテンプレートが発話テンプレート記憶部206から取得された場合に(ステップS303肯定)、発話セット生成部309は、取得された発話セットのテンプレートに含まれる概念に、取得された特有単語を挿入して新たな発話セットを生成する(ステップS304)。
At this time, when the utterance template acquisition unit 308 acquires the template of the corresponding utterance set from the utterance template storage unit 206 (Yes in step S303), the utterance set
その後、発話セット生成部309は、生成した発話セットを発話セット記憶部101に格納する。一方、対話装置300は、発話テンプレート取得部308によって発話セットのテンプレートが発話テンプレート記憶部206から取得されなかった場合に(ステップS303否定)、処理を終了する。
Thereafter, the utterance set
本実施形態によれば、日々更新される最新のキーワードが含まれた発話セットを使用した対話を実現することができる。 According to the present embodiment, it is possible to realize a dialogue using an utterance set including the latest keyword updated daily.
(第4の実施形態)
図10は、第4の実施形態に係る対話装置の構成例を示すブロック図である。第4の実施形態では、第1の実施形態又は第2の実施形態と同様の処理を実行する機能部については同一の符号を付し、同様の処理についてはその説明を省略する場合がある。
(Fourth embodiment)
FIG. 10 is a block diagram illustrating a configuration example of the interactive apparatus according to the fourth embodiment. In the fourth embodiment, functional units that perform the same processes as those in the first embodiment or the second embodiment are denoted by the same reference numerals, and descriptions of the same processes may be omitted.
例えば、図10に示すように、対話装置400は、発話セット記憶部101と、発話セット取得部102と、出力部103と、検知部104と、概念辞書記憶部205と、発話テンプレート記憶部206と、概念取得部407と、発話テンプレート取得部208と、発話セット生成部409と、抽出部411とを有する。また、第1の実施形態と同様に、対話装置400は、ディスプレイ又はスピーカ等を備えた所定の表示出力装置に、文字又は音声を出力することによりユーザとの対話を実現する。
For example, as shown in FIG. 10, the dialogue apparatus 400 includes an utterance set
抽出部411は、概念辞書記憶部205に記憶された語句に合致する、ユーザによる発話に含まれる語句を抽出する。例えば、抽出部411は、検知部104によって検知されたユーザによる発話の音声認識を行なう。そして、抽出部411は、音声認識処理の結果残った単語を、概念辞書記憶部205に記憶された単語に合致する、ユーザによる発話に含まれる単語として抽出する。
The extraction unit 411 extracts words / phrases included in the user's utterance that match the words / phrases stored in the concept
かかる音声認識処理では、一つの様態として、ユーザによる発話を形態素解析することで単語に分割され、各単語を概念辞書記憶部205から検索する処理が実行される。ここで、概念辞書記憶部205に記憶されていない単語は、助詞や助動詞等のため排除される。これらにより、音声認識処理の結果、残った単語が抽出される。ここでは、音声認識処理の結果残った単語が「カレー」である場合を例に挙げる。
In such a speech recognition process, as one aspect, a utterance by a user is divided into words by performing a morphological analysis, and a process of searching each word from the concept
概念取得部407は、抽出部411によって抽出された語句に対応する概念を概念辞書記憶部205から取得する。例を挙げると、概念取得部407は、抽出部411による音声認識処理の結果、残った単語「カレー」に対応する概念「食べ物」を概念辞書記憶部205から取得する。また、発話テンプレート取得部208は、第2の実施形態と同様に、概念取得部407によって取得された概念「食べ物」を含む発話セットのテンプレート「テンプレート1」を発話テンプレート記憶部206(図5A参照)から取得する。
The
発話セット生成部409は、発話テンプレート取得部208によって取得された発話セットのテンプレートに含まれる概念に、抽出部411によって抽出された語句を挿入して新たな発話セットを生成する。そして、発話セット生成部409は、生成した新たな発話セットを発話セット記憶部101に格納する。
The utterance set
例を挙げると、発話セット生成部409は、発話テンプレート取得部208によって取得された発話セットのテンプレート「テンプレート1」(図5A参照)に含まれる概念「食べ物」に、抽出部411によって抽出された単語「カレー」を挿入して新たな発話セットを生成する。上記の例で生成される発話セットは、第1発話「カレーは好き?」と、想定ユーザ発話「好きだよ」と、第2発話「カレーはおいしいんだよ」とを含むものとなる。そして、発話セット生成部409は、生成した新たな発話セットを発話セット記憶部101に格納する。
For example, the utterance set
次に、図11を用いて、第4の実施形態に係る発話セット生成処理の流れを説明する。図11は、第4の実施形態に係る発話セット生成処理の流れの例を示すフローチャートである。 Next, the flow of an utterance set generation process according to the fourth embodiment will be described with reference to FIG. FIG. 11 is a flowchart illustrating an example of the flow of an utterance set generation process according to the fourth embodiment.
例えば、図11に示すように、検知部104によってユーザによる発話が検知された場合に(ステップS401肯定)、抽出部411は、音声認識処理を実行することにより、ユーザによる発話に含まれる単語を抽出する(ステップS402)。また、抽出部411は、検知部104によってユーザによる発話が検知されていない場合に(ステップS401否定)、検知部104によるユーザによる発話の検知待ちの状態となる。
For example, as shown in FIG. 11, when the utterance by the user is detected by the detection unit 104 (Yes in step S401), the extraction unit 411 executes a speech recognition process to thereby extract a word included in the utterance by the user. Extract (step S402). In addition, when the
また、概念取得部407は、抽出部411によって抽出された単語に対応する概念を概念辞書記憶部205から検索する(ステップS403)。このとき、概念取得部407によって単語に対応する概念が概念辞書記憶部205から取得された場合に(ステップS404肯定)、発話テンプレート取得部208は、取得された概念を含む発話セットのテンプレートを発話テンプレート記憶部206から検索する(ステップS405)。一方、対話装置400は、概念取得部407によって単語に対応する概念が概念辞書記憶部205から取得されなかった場合に(ステップS404否定)、処理を終了する。
The
また、発話テンプレート取得部208によって発話セットのテンプレートが発話テンプレート記憶部206から取得された場合に(ステップS406肯定)、発話セット生成部409は、取得された発話セットのテンプレートに含まれる概念に、抽出部411によって抽出された単語を挿入して新たな発話セットを生成する(ステップS407)。その後、発話セット生成部409は、生成した発話セットを発話セット記憶部101に格納する。一方、対話装置400は、発話テンプレート取得部208によって発話セットのテンプレートが発話テンプレート記憶部206から取得されなかった場合に(ステップS406否定)、処理を終了する。
Further, when the utterance set template is acquired from the utterance
本実施形態によれば、ユーザ発話に基づいて生成された発話セットを使用して対話するので、自然な対話の流れを実現することができる。 According to the present embodiment, since the dialogue is performed using the utterance set generated based on the user utterance, a natural flow of dialogue can be realized.
(第5の実施形態)
図12は、第5の実施形態に係る対話装置の構成例を示すブロック図である。第5の実施形態では、第1の実施形態又は第2の実施形態と同様の処理を実行する機能部については同一の符号を付し、同様の処理についてはその説明を省略する場合がある。
(Fifth embodiment)
FIG. 12 is a block diagram illustrating a configuration example of the interactive apparatus according to the fifth embodiment. In the fifth embodiment, functional units that perform the same processes as those in the first embodiment or the second embodiment are denoted by the same reference numerals, and the description of the same processes may be omitted.
例えば、図12に示すように、対話装置500は、発話セット記憶部101と、発話セット取得部502と、出力部103と、検知部104と、概念辞書記憶部205と、発話テンプレート記憶部506と、概念取得部207と、発話テンプレート取得部208と、発話セット生成部209と、類似度算出部512と、共起辞書記憶部513と、決定部514とを有する。また、第1の実施形態と同様に、対話装置500は、ディスプレイ又はスピーカ等を備えた所定の表示出力装置に、文字又は音声を出力することによりユーザとの対話を実現する。
For example, as shown in FIG. 12, the dialogue apparatus 500 includes an utterance set
発話テンプレート記憶部506は、第2の実施形態と同様に、一部の語句が概念で表現された第1発話と第2発話とを含んだ発話セットのテンプレートを記憶する。さらに、発話テンプレート記憶部506は、第1発話の種類と、第1発話に対するユーザによる発話から得られるユーザ情報と、発話セットのテンプレートの話題とを、第1発話及び第2発話に対応付けて記憶する。ここで、図13を用いて、第5の実施形態に係る発話テンプレート記憶部506に記憶される情報について説明する。図13は、第5の実施形態に係る発話テンプレート記憶部506に記憶される情報例を示す図である。
Similar to the second embodiment, the utterance
例えば、図13に示すように、発話テンプレート記憶部506は、第1発話の種類「質問」と、第1発話「[食べ物]は好き?」と、想定ユーザ発話「好きだよ」と、ユーザ情報「好きな食べ物」と、第2発話「[食べ物]は[味]んだよ」と、話題「食べ物」とを含んだ発話セットのテンプレート「テンプレート1」を記憶する。ここで、“[]”で囲まれた「食べ物」、「味」は、単語の概念である。
For example, as illustrated in FIG. 13, the utterance
また、発話テンプレート記憶部506は、第1発話の種類「申し出」と、第1発話「[食べ物]はいかが?」と、想定ユーザ発話「どうも」と、第2発話「[食べ物]おすすめだよ」と、話題「食べ物」とを含んだ発話セットのテンプレート「テンプレート7」を記憶する。同様に、“[]”で囲まれた「食べ物」は、単語の概念である。「テンプレート7」のように、ユーザ情報は、発話セットのテンプレートによっては得られない場合もあるため、得られない場合にはその情報は保持されない。なお、「想定ユーザ発話」は、発話テンプレート記憶部506に含まれていなくても良い。
In addition, the utterance
類似度算出部512は、新たな発話セットを含む発話セット間、又は、発話セットのテンプレート間の類似度を算出する。例えば、類似度算出部512は、発話セットのテンプレート間で、「第1発話の種類」による類似度を算出する。詳細には、類似度算出部512は、発話セットのテンプレート「s1」と、発話セットのテンプレート「s2」との第1発話の種類による類似度「Rt(s1,s2)」を、第1発話の種類が同じであれば「1」、異なれば「0」とする。例を挙げると、類似度算出部512は、発話セットのテンプレート「テンプレート1」と、発話セットのテンプレート「テンプレート6」との第1発話の種類による類似度「Rt(s1,s2)」を、第1発話の種類が同じ「質問」であるので「1」とする。同様に、類似度算出部512は、発話セットのテンプレート「テンプレート1」と、発話セットのテンプレート「テンプレート7」との第1発話の種類による類似度「Rt(s1,s2)」を、第1発話の種類が異なる「質問」、「申し出」であるので「0」とする。第1の発話による類似度を算出する理由は、発話の種類が同じものを連続させてしまうことで、似たような対話ばかりになるのを防ぐためである。
The
また、例えば、類似度算出部512は、発話セットのテンプレート間で、「ユーザ情報」による類似度を算出する。詳細には、類似度算出部512は、発話セットのテンプレート「s1」と、発話セットのテンプレート「s2」とのユーザ情報による類似度「Ru(s1,s2)」を、ユーザ情報が同じであれば「1」、異なれば「0」とする。例を挙げると、類似度算出部512は、発話セットのテンプレート「テンプレート1」と、発話セットのテンプレート「テンプレート6」とのユーザ情報による類似度「Ru(s1,s2)」を、ユーザ情報が同じ「好きな食べ物」であるので「1」とする。同様に、類似度算出部512は、発話セットのテンプレート「テンプレート1」と、発話セットのテンプレート「テンプレート7」とのユーザ情報による類似度「Ru(s1,s2)」を、異なる「好きな食べ物」、「(空欄)」であるので「0」とする。ユーザ情報による類似度を算出する理由は、似たようなことを尋ねる対話を連続させてしまうことが好ましくないからである。
Further, for example, the
また、例えば、類似度算出部512は、発話セットのテンプレート間で、「話題」による類似度を算出する。詳細には、類似度算出部512は、発話セットのテンプレート「s1」と、発話セットのテンプレート「s2」との話題による類似度「Rd(s1,s2)」を、話題が同じであれば「1」、異なれば「0」とする。例を挙げると、類似度算出部512は、発話セットのテンプレート「テンプレート1」と、発話セットのテンプレート「テンプレート6」との話題による類似度「Rd(s1,s2)」を、話題が同じ「食べ物」であるので「1」とする。同様に、類似度算出部512は、発話セットのテンプレート「テンプレート1」と、発話セットのテンプレート「テンプレート5」との話題による類似度「Rd(s1,s2)」を、異なる「食べ物」、「人」であるので「0」とする。話題による類似度を算出する理由は、同じ話題の発話を連続させてしまうことで、似たような対話ばかりになるのを防ぐためである。
Further, for example, the
これまで、発話セットのテンプレートの状態で類似度を算出する場合を説明したが、以下では、発話セットの状態で類似度を算出する場合を説明する。例えば、類似度算出部512は、発話セット間で、第1発話と第2発話との類似度を算出する。かかる類似度の算出の一つの様態として、編集距離を例に挙げる。編集距離とは、ある文章から別の文章に書き換えるときの、書き換えた単語の数を表す手数のことを指す。
The case where the similarity is calculated in the state of the utterance set template has been described so far, but the case where the similarity is calculated in the state of the utterance set will be described below. For example, the
また、以下では、下記の2つの発話セットを例に挙げる。
発話セットs1
「第1発話:カレーは好き? 第2発話:カレーって辛いよね」
発話セットs2
「第1発話:アイスクリームは好き? 第2発話:アイスクリームは冷たいよね」
In the following, the following two utterance sets are taken as an example.
Utterance set s1
"First utterance: Do you like curry? Second utterance: Curry is hard?"
Utterance set s2
"First utterance: Do you like ice cream? Second utterance: Ice cream is cold"
詳細には、類似度算出部512は、発話セットs1と発話セットs2とに含まれる第1発話同士の編集距離を求める。
発話セットs1の第1発話:カレー /は/好き?
発話セットs2の第1発話:アイスクリーム/は/好き?
上記の例では、発話セットs1の第1発話から、発話セットs2の第1発話へ書き換えるときに、「カレー」を「アイスクリーム」に書き換えるだけで良いので、手数は「1」となる。また、編集距離は、文章が長いほど大きくなることが多い。このため、文章の長さで正規化する。但し、助詞や助動詞は文章の内容に影響するものではないので、これら以外の単語に限定して正規化編集距離「手数÷文章の長さ」を求める。すなわち、類似度算出部512は、「は」以外の単語の正規化編集距離「1/2=0.5」を求める。
Specifically, the
First utterance of utterance set s1: curry / ha / do you like?
First utterance of utterance set s2: Ice cream / Ha / Do you like it?
In the above example, when rewriting from the first utterance of the utterance set s1 to the first utterance of the utterance set s2, it is only necessary to rewrite “curry” with “ice cream”, so the number of steps becomes “1”. Also, the edit distance often increases as the sentence becomes longer. For this reason, it normalizes with the length of a sentence. However, particles and auxiliary verbs do not affect the content of the sentence, so the normalized edit distance “number of words / sentence length” is obtained by limiting to other words. That is, the
続いて、類似度算出部512は、発話セットs1と発話セットs2とに含まれる第2発話同士の編集距離を求める。
発話セットs1の第2発話:カレー /って/辛い /よね
発話セットs2の第2発話:アイスクリーム/は /冷たい/よね
上記の例では、発話セットs1の第2発話から、発話セットs2の第2発話へ書き換えるときに、「カレー」を「アイスクリーム」に書き換えるとともに、「辛い」を「冷たい」に書き換えれば良いので、手数は「2」となる。すなわち、類似度算出部512は、正規化編集距離「2/2=1」を求める。
Subsequently, the
The second utterance of the utterance set s1: curry / te / spicy / Yone The second utterance of the utterance set s2: Ice cream / ha / cold / Yone In the above example, from the second utterance of the utterance set s1, the utterance set s2 When rewriting to the second utterance, “curry” should be rewritten to “ice cream” and “spicy” should be rewritten to “cold”, so the number of steps becomes “2”. That is, the
その後、類似度算出部512は、発話セットs1と発話セットs2との間の編集距離「0.5+1=1.5」を求める。すなわち、発話セット間の編集距離は、第1発話同士の編集距離と、第2発話同士の編集距離との和で求められる。そして、類似度算出部512は、発話セットs1と発話セットs2との間の編集距離による類似度「Re(s1,s2)」を、求めた和の逆数「1/1.5=0.67」として求める。
Thereafter, the
ところで、上記の例では、単語が一致するか否かを判定したが、単語間の関係性をさらに考慮しても良い。単語間の関係性の一例として、単語間の概念の違いが挙げられる。単語の概念は、概念辞書記憶部205に記憶された情報を利用する。例えば、「カレー」は、「生産物」、「食べ物」、「料理」という3階層の概念が付与されているものとする。また、「アイスクリーム」は、「生産物」、「食べ物」、「菓子」という3階層の概念が付与されているものとする。同様に、「辛い」は、「自然」、「自然」、「味」という3階層の概念が付与されているものとする。また、「冷たい」は、「関係」、「量」、「寒暖」という3階層の概念が付与されているものとする。概念の下位層まで一致する単語同士ほど、互いの意味が近い単語であると言える。そこで、概念の一致しなかった数で編集距離を求める。
By the way, in the above example, it is determined whether or not the words match, but the relationship between the words may be further considered. An example of the relationship between words is a conceptual difference between words. For the word concept, information stored in the concept
詳細には、類似度算出部512は、発話セットs1と発話セットs2とに含まれる第1発話同士の単語の概念の編集距離を求める。上記の例では、第1発話それぞれに含まれる単語「カレー」、「アイスクリーム」の概念は2階層まで一致しているため、手数は「3−2=1」となる。この結果、第1発話同士の単語の概念の正規化編集距離は、「1/2=0.5」となる。
Specifically, the
続いて、類似度算出部512は、発話セットs1と発話セットs2とに含まれる第2発話同士の単語の概念の編集距離を求める。上記の例では、第2発話それぞれに含まれる単語「カレー」、「アイスクリーム」の概念は2階層まで一致しているため、手数は「3−2=1」となる。加えて、第2発話それぞれに含まれる単語「辛い」、「冷たい」の概念は1階層も一致していないため、手数は「3−0=3」となる。この結果、第2発話同士の単語の概念の正規化編集距離は、「(1+3)/2=2」となる。
Subsequently, the
その後、類似度算出部512は、発話セットs1と発話セットs2との間の編集距離「0.5+2=2.5」を求める。そして、類似度算出部512は、発話セットs1と発話セットs2との間の編集距離による類似度「Rec(s1,s2)」を、求めた和の逆数「1/2.5=0.4」として求める。
Thereafter, the
ところで、上記の例では、単語間の関係性の一例として、単語間の概念の違いを挙げたが、単語間の共起性をさらに考慮しても良い。共起性に関しては、共起辞書記憶部513を利用する。共起辞書記憶部513は、例えば、任意の2つの単語の共起率を記憶する。共起率とは、2つの単語が同じ文書中でどれくらい使用されているかを表すものである。このような共起率の算出方法は、一つの様態として、以下の(数1)等がある。 By the way, in the above example, the difference in concept between words is given as an example of the relationship between words, but co-occurrence between words may be further considered. For co-occurrence, the co-occurrence dictionary storage unit 513 is used. The co-occurrence dictionary storage unit 513 stores the co-occurrence rate of any two words, for example. The co-occurrence rate represents how much two words are used in the same document. Such a co-occurrence rate calculation method includes the following (Equation 1) as one aspect.
(数1)
(Equation 1)
(数1)では、共起率の一例として「cosine係数」を挙げており、「単語Aと単語Bとの共起頻度」とは単語A、単語Bが同じ文書中で使用される頻度を意味する。このように、共起辞書記憶部513には、大量の文書を含んだデータを使用して予め算出された2つの単語の共起率が記憶されている。 In (Equation 1), “cosine coefficient” is given as an example of the co-occurrence rate, and “co-occurrence frequency of word A and word B” is the frequency with which word A and word B are used in the same document. means. As described above, the co-occurrence dictionary storage unit 513 stores the co-occurrence rate of two words calculated in advance using data including a large amount of documents.
詳細には、類似度算出部512は、発話セットs1と発話セットs2とに含まれる第1発話同士の単語の共起率の編集距離を求める。上記の例において、第1発話それぞれに含まれる単語「カレー」、「アイスクリーム」の共起率は、「0.2」であることとする。この結果、第1発話同士の単語の共起率の正規化編集距離は、「1/0.2/2=10」となる。
Specifically, the
続いて、類似度算出部512は、発話セットs1と発話セットs2とに含まれる第2発話同士の単語の概念の編集距離を求める。上記の例では、第2発話それぞれに含まれる単語「カレー」、「アイスクリーム」の共起率は、「0.2」であることとする。加えて、第2発話それぞれに含まれる単語「辛い」、「冷たい」の共起率は、「0.01」であることとする。この結果、第2発話同士の単語の共起率の正規化編集距離は、「(1/0.2+1/0.01)/2=52.5」となる。
Subsequently, the
その後、類似度算出部512は、発話セットs1と発話セットs2との間の編集距離「10+52.5=62.5」を求める。そして、類似度算出部512は、発話セットs1と発話セットs2との間の共起率を用いた編集距離による類似度「Res(s1,s2)」を、求めた和の逆数「1/62.5=0.016」として求める。
Thereafter, the
以上をふまえ、類似度算出部512は、発話セットs1と発話セットs2との間の類似度「R(s1,s2)」を、以下の(数2)により算出する。
Based on the above, the
(数2)
R(s1,s2)=Wt*Rt(s1,s2)+Wu*Ru(s1,s2)+Wd*Rd(s1,s2)+We*Re(s1,s2)+Wec*Rec(s1,s2)+Wes*Res(s1,s2)
(Equation 2)
R (s1, s2) = Wt * Rt (s1, s2) + Wu * Ru (s1, s2) + Wd * Rd (s1, s2) + We * Re (s1, s2) + Wec * Rec (s1, s2) + Wes * Res (S1, s2)
(数2)に含まれる「Wt」、「Wu」、「Wd」、「We」、「Wec」及び「Wes」は、類似度それぞれに対する重みであり、0から1の間の値をとる。なお、類似度「R(s1,s2)」の算出では、上記の類似度のいずれかを利用することとしても良い。 “Wt”, “Wu”, “Wd”, “We”, “Wec”, and “Wes” included in (Equation 2) are weights for the respective similarities and take values between 0 and 1. In calculating the similarity “R (s1, s2)”, any of the above similarities may be used.
決定部514は、類似度が所定値を超えない範囲で、連続する発話セット間又は発話セットのテンプレート間の類似度が最も高くなるように、発話セット又は発話セットのテンプレートの順番を決定する。ここで、図14を用いて、第5の実施形態に係る順番決定処理を説明する。図14は、第5の実施形態に係る順番決定処理を説明する図である。 The determination unit 514 determines the order of utterance sets or utterance set templates so that the similarity between consecutive utterance sets or between utterance set templates is highest within a range in which the similarity does not exceed a predetermined value. Here, the order determination processing according to the fifth embodiment will be described with reference to FIG. FIG. 14 is a diagram for explaining the order determination process according to the fifth embodiment.
図14では、類似度算出部512によって算出された、「発話セット1」、「発話セット2」、「発話セット3」及び「発話セット4」それぞれの間の類似度が表されている。また、ここでは、所定値が「0.9」である場合を例に挙げる。例えば、図14に示すように、決定部514は、「発話セット1」の次に利用する発話セットを、所定値「0.9」を超えない範囲で、「発話セット1」との間の類似度が最も高い「発話セット4」に決定する。
In FIG. 14, similarities between “utterance set 1”, “utterance set 2”, “utterance set 3”, and “utterance set 4” calculated by the
そして、決定部514は、「発話セット4」の次に利用する発話セットを、所定値「0.9」を超えない範囲で、「発話セット4」との間の類似度が最も高い「発話セット3」に決定する。続いて、決定部514は、「発話セット3」の次に利用する発話セットを、所定値「0.9」を超えない範囲で、「発話セット3」との間の類似度が最も高い「発話セット2」に決定する。すなわち、決定部514は、図14に示す類似度と所定値「0.9」とである場合に、「発話セット1」、「発話セット4」、「発話セット3」、「発話セット2」の順に発話セットの順番を決定する。
Then, the determination unit 514 sets the utterance set used next to the “utterance set 4” to the “utterance” having the highest degree of similarity with the “utterance set 4” within a range not exceeding the predetermined value “0.9”.
これらのように、連続する発話セット同士の類似度に所定値を設定し、類似度が所定値以上となる発話セットは連続して使用しないようにする。但し、類似度が低い発話セット同士を連続して使用すると、対話の内容が急に変化する場合があるため、所定値を超えない範囲で、連続する発話セット間の類似度が最も高くなるように発話セットの順番が決定される。 As described above, a predetermined value is set for the degree of similarity between consecutive utterance sets, and utterance sets whose similarity is equal to or higher than the predetermined value are not used continuously. However, if utterance sets with low similarity are used consecutively, the content of the conversation may change suddenly, so that the similarity between consecutive utterance sets is the highest within a range not exceeding the predetermined value. The order of utterance sets is determined.
発話セット取得部502は、決定された順番に従って発話セットを取得する。例えば、発話セット取得部502は、決定部514によって決定された発話セットの順番に従って、発話セット記憶部101から発話セットを取得する。また、第1出力部103aは、発話セットの取得順に、第1発話を出力する。例えば、第1出力部103aは、発話セット取得部502による発話セットの取得順に、発話セットに含まれる第1発話を所定の表示出力装置に出力する。なお、第2出力部103bは、検知部104によるユーザ発話の検知後に、第1出力部103aによって出力された第1発話に対応する第2発話を所定の表示出力装置に出力する。
The utterance set acquisition unit 502 acquires an utterance set according to the determined order. For example, the utterance set acquisition unit 502 acquires an utterance set from the utterance set
次に、図15を用いて、第5の実施形態に係る対話処理の流れを説明する。図15は、第5の実施形態に係る対話処理の流れの例を示すフローチャートである。 Next, the flow of dialogue processing according to the fifth embodiment will be described with reference to FIG. FIG. 15 is a flowchart illustrating an example of a flow of interactive processing according to the fifth embodiment.
例えば、図15に示すように、類似度算出部512は、発話セット間又は発話セットのテンプレート間の類似度を算出する(ステップS501)。また、決定部514は、類似度算出部512によって算出された類似度が所定値を超えない範囲で、連続する発話セット間又は発話セットのテンプレート間の類似度が最も高くなるように、発話セット又は発話セットのテンプレートの順番を決定する(ステップS502)。
For example, as shown in FIG. 15, the
また、発話セット取得部502は、決定部514によって決定された順番に従って、発話セット記憶部101に記憶された発話セットを取得する(ステップS503)。また、第1出力部103aは、発話セット取得部502によって取得された発話セットに含まれる第1発話を所定の表示出力装置に出力する(ステップS504)。
Further, the utterance set acquisition unit 502 acquires the utterance set stored in the utterance set
また、検知部104は、第1出力部103aによって出力された第1発話に対する、ユーザによる発話を検知したか否かを判定する(ステップS505)。このとき、検知部104によってユーザによる発話が検知された場合に(ステップS505肯定)、第2出力部103bは、第1出力部103aによって出力された第1発話に対応する、発話セット取得部502によって取得された発話セットに含まれる第2発話を所定の表示出力装置に出力する(ステップS506)。また、第2発話の出力後、発話セット取得部502は、決定部514によって決定された順番に従って、次の発話セットを発話セット記憶部101から取得する(ステップS503)。
Moreover, the
一方、検知部104は、ユーザによる発話を検知していない場合に(ステップS505否定)、一定時間が経過したか否かを判定する(ステップS507)。このとき、検知部104は、一定時間が経過していない場合に(ステップS507否定)、再度、ユーザによる発話を検知したか否かを判定する(ステップS505)。一方、一定時間が経過した場合に(ステップS507肯定)、発話セット取得部502は、決定部514によって決定された順番に従って、次の発話セットを発話セット記憶部101から取得する(ステップS503)。
On the other hand, when the utterance by the user is not detected (No at Step S505), the
本実施形態によれば、発話セット間の類似度に基づいて発話セットの順番を決定するので、より自然な対話の流れを実現することができる。 According to this embodiment, since the order of utterance sets is determined based on the similarity between utterance sets, a more natural flow of conversation can be realized.
(第6の実施形態)
図16は、第6の実施形態に係る対話装置の構成例を示すブロック図である。第6の実施形態では、第1の実施形態、第2の実施形態又は第5の実施形態と同様の処理を実行する機能部については同一の符号を付し、同様の処理についてはその説明を省略する場合がある。
(Sixth embodiment)
FIG. 16 is a block diagram illustrating a configuration example of the interactive apparatus according to the sixth embodiment. In the sixth embodiment, functional units that perform the same processes as those in the first embodiment, the second embodiment, or the fifth embodiment are denoted by the same reference numerals, and the description of the same processes is described. May be omitted.
例えば、図16に示すように、対話装置600は、発話セット記憶部101と、発話セット取得部602と、出力部103と、検知部104と、概念辞書記憶部205と、発話テンプレート記憶部506と、概念取得部207と、発話テンプレート取得部208と、発話セット生成部209と、類似度算出部612と、共起辞書記憶部513と、決定部614とを有する。また、第1の実施形態と同様に、対話装置600は、ディスプレイ又はスピーカ等を備えた所定の表示出力装置に、文字又は音声を出力することによりユーザとの対話を実現する。
For example, as shown in FIG. 16, the
類似度算出部612は、新たな発話セットを含む発話セット間、又は、発話セットのテンプレート間の類似度を算出する。かかる類似度算出部612による処理は、第5の実施形態に係る類似度算出部512による処理と同様であるため、ここでは詳細な説明を省略する。
The similarity calculation unit 612 calculates the similarity between utterance sets including a new utterance set or between templates of an utterance set. Since the processing by the similarity calculation unit 612 is the same as the processing by the
決定部614は、類似度が所定値以上となる発話セット同士又は発話セットのテンプレート同士を同一のグループにグループ分けし、類似度が最も近い異なるグループを順次選択して、連続する発話セット又は発話セットのテンプレートの順番を決定する。例えば、決定部614は、類似度算出部612によって算出された類似度が所定値「X1」以上であるというルールのもとに発話セットをグルーピングする。 The determination unit 614 groups utterance sets having similarities equal to or higher than a predetermined value or templates of utterance sets into the same group, sequentially selects different groups having the closest similarity, and successively sets utterance sets or utterances. Determine the order of the templates in the set. For example, the determination unit 614 groups speech sets based on a rule that the similarity calculated by the similarity calculation unit 612 is equal to or greater than a predetermined value “X1”.
そして、決定部614は、グループ同士の類似度を求める。グループ同士の類似度は、例えば、同一グループに属する発話セット間の類似度の平均値、最大値又は最小値のいずれかとする。続いて、決定部614は、同じグループから連続する発話セットを選択しない、すなわち異なるグループから連続する発話セットを順次選択し、発話セットの順番を決定する。但し、決定部614は、異なるグループから連続する発話セットを順次選択する場合に、グループ間の類似度が最も近いグループから連続する発話セットを順次選択する。 And the determination part 614 calculates | requires the similarity of groups. The similarity between groups is, for example, one of an average value, a maximum value, and a minimum value of the similarity between utterance sets belonging to the same group. Subsequently, the determination unit 614 does not select a continuous utterance set from the same group, that is, sequentially selects a continuous utterance set from a different group, and determines the order of the utterance sets. However, when the determination unit 614 sequentially selects continuous speech sets from different groups, the determination unit 614 sequentially selects continuous speech sets from the group having the closest similarity between the groups.
なお、グループから発話セットを選択する場合には、一度選択されたグループは全てのグループが選択された後にしか再選択できないようにしても良い。また、毎発話セットで類似度が所定値未満のグループに属する発話セットを選択しなくても良く、N回(「N」は、自然数)だけ同じグループ内から連続して発話セットを選択し、その後、他のグループから同じようにN回選択するようにしても良い。 When selecting an utterance set from a group, a group once selected may be selected again only after all groups are selected. Further, it is not necessary to select an utterance set belonging to a group having a similarity less than a predetermined value in each utterance set, and select an utterance set continuously from the same group N times (“N” is a natural number), Then, you may make it select N times from another group similarly.
発話セット取得部602は、決定された順番に従って発話セットを取得する。例えば、発話セット取得部602は、決定部614によって決定された発話セットの順番に従って、発話セット記憶部101から発話セットを取得する。また、第1出力部103aは、発話セットの取得順に、第1発話を出力する。例えば、第1出力部103aは、発話セット取得部602による発話セットの取得順に、発話セットに含まれる第1発話を所定の表示出力装置に出力する。なお、第2出力部103bは、検知部104によるユーザ発話の検知後に、第1出力部103aによって出力された第1発話に対応する第2発話を所定の表示出力装置に出力する。
The utterance set acquisition unit 602 acquires the utterance set according to the determined order. For example, the utterance set acquisition unit 602 acquires the utterance set from the utterance set
次に、図17を用いて、第6の実施形態に係る対話処理の流れを説明する。図17は、第6の実施形態に係る対話処理の流れの例を示すフローチャートである。 Next, the flow of dialogue processing according to the sixth embodiment will be described with reference to FIG. FIG. 17 is a flowchart illustrating an example of the flow of interactive processing according to the sixth embodiment.
例えば、図17に示すように、類似度算出部612は、発話セット間又は発話セットのテンプレート間の類似度を算出する(ステップS601)。また、決定部614は、類似度算出部612によって算出された類似度が所定値以上となる発話セット同士を同一グループにグループ分けする(ステップS602)。続いて、決定部614は、グループ同士の類似度に基づいて、連続する発話セットを各グループから選択し、発話セットの順番を決定する(ステップS603)。 For example, as shown in FIG. 17, the similarity calculation unit 612 calculates the similarity between utterance sets or between templates of an utterance set (step S601). The determination unit 614 groups utterance sets whose similarity calculated by the similarity calculation unit 612 is equal to or greater than a predetermined value into the same group (step S602). Subsequently, the determination unit 614 selects a continuous utterance set from each group based on the similarity between the groups, and determines the order of the utterance sets (step S603).
また、発話セット取得部602は、決定部614によって決定された順番に従って、発話セット記憶部101に記憶された発話セットを取得する(ステップS604)。また、第1出力部103aは、発話セット取得部602によって取得された発話セットに含まれる第1発話を所定の表示出力装置に出力する(ステップS605)。
Further, the utterance set acquisition unit 602 acquires the utterance set stored in the utterance set
また、検知部104は、第1出力部103aによって出力された第1発話に対する、ユーザによる発話を検知したか否かを判定する(ステップS606)。このとき、検知部104によってユーザによる発話が検知された場合に(ステップS606肯定)、第2出力部103bは、第1出力部103aによって出力された第1発話に対応する、発話セット取得部602によって取得された発話セットに含まれる第2発話を所定の表示出力装置に出力する(ステップS607)。また、第2発話の出力後、発話セット取得部602は、決定部614によって決定された順番に従って、次の発話セットを発話セット記憶部101から取得する(ステップS604)。
In addition, the
一方、検知部104は、ユーザによる発話を検知していない場合に(ステップS606否定)、一定時間が経過したか否かを判定する(ステップS608)。このとき、検知部104は、一定時間が経過していない場合に(ステップS608否定)、再度、ユーザによる発話を検知したか否かを判定する(ステップS606)。一方、一定時間が経過した場合に(ステップS608肯定)、発話セット取得部602は、決定部614によって決定された順番に従って、次の発話セットを発話セット記憶部101から取得する(ステップS604)。
On the other hand, when the utterance by the user is not detected (No at Step S606), the
本実施形態によれば、発話セット同士の類似度が所定値以上のものをグルーピングして、グループ同士の類似度に基づいて発話セットの順番を決定するので、より自然な対話を実現することができる。 According to the present embodiment, groups having similarities between utterance sets are grouped, and the order of the utterance sets is determined based on the similarity between the groups, so that more natural dialogue can be realized. it can.
(第7の実施形態)
図18は、第7の実施形態に係る対話装置の構成例を示すブロック図である。第7の実施形態では、第1の実施形態、第2の実施形態、第4の実施形態又は第5の実施形態と同様の処理を実行する機能部については同一の符号を付し、同様の処理についてはその説明を省略する場合がある。
(Seventh embodiment)
FIG. 18 is a block diagram illustrating a configuration example of the interactive apparatus according to the seventh embodiment. In the seventh embodiment, the same reference numerals are given to the functional units that perform the same processes as those in the first embodiment, the second embodiment, the fourth embodiment, or the fifth embodiment, and the same The description of the processing may be omitted.
例えば、図18に示すように、対話装置700は、発話セット記憶部101と、発話セット取得部702と、出力部103と、検知部104と、概念辞書記憶部205と、発話テンプレート記憶部206と、概念取得部407と、発話テンプレート取得部208と、発話セット生成部409と、抽出部411と、類似度算出部712と、共起辞書記憶部513と、決定部714とを有する。また、第1の実施形態と同様に、対話装置700は、ディスプレイ又はスピーカ等を備えた所定の表示出力装置に、文字又は音声を出力することによりユーザとの対話を実現する。
For example, as shown in FIG. 18, the dialogue apparatus 700 includes an utterance set
類似度算出部712は、抽出された語句と新たな発話セットを含む発話セットとの間、及び、発話セット間の類似度を算出する。例えば、類似度算出部712は、抽出部411による音声認識処理で抽出された単語と、各発話セットと間の類似度を算出するとともに、発話セット間の類似度を算出する。発話セット間の類似度の算出は上述してきた実施形態と同様であるためその説明を省略し、ここでは、抽出された単語と発話セットとの間の類似度の算出について説明する。 The similarity calculation unit 712 calculates the similarity between the extracted words and utterance sets including the new utterance set and between utterance sets. For example, the similarity calculation unit 712 calculates the similarity between the words extracted by the speech recognition processing by the extraction unit 411 and each utterance set, and calculates the similarity between the utterance sets. Since the calculation of the similarity between utterance sets is the same as in the above-described embodiment, the description thereof will be omitted. Here, the calculation of the similarity between the extracted word and the utterance set will be described.
また、以下では、下記の単語と発話セットとを例に挙げる。
単語k1「カレー」
発話セットs1
「第1発話:アイスクリームは好き? 第2発話:アイスクリームは冷たいよね」
In the following, the following words and utterance sets are given as examples.
The word k1 “curry”
Utterance set s1
"First utterance: Do you like ice cream? Second utterance: Ice cream is cold"
詳細には、類似度算出部712は、単語k1と発話セットs1とに含まれる単語「カレー」、「アイスクリーム」の概念の類似度「Rec(k1,s1)=1」を算出する。なお、発話セット中に複数の単語が含まれている場合には、平均値、最大値又は最小値のいずれかを類似度とすれば良い。 Specifically, the similarity calculation unit 712 calculates the similarity “Rec (k1, s1) = 1” of the concepts “curry” and “ice cream” included in the word k1 and the utterance set s1. When a plurality of words are included in the utterance set, any one of the average value, the maximum value, and the minimum value may be set as the similarity.
また、類似度算出部712は、単語「カレー」、「アイスクリーム」の共起率「0.2」と、単語「カレー」、「冷たい」の共起率「0.01」と、単語「カレー」、「好き」の共起率「0.05」とを共起辞書記憶部513から取得する。そして、類似度算出部712は、共起率を用いた類似度「Res(k1,s1)=(0.2+0.01+0.05)/3=0.087」を求める。ここでは、平均値を使用する例を挙げたが、最大値又は最小値のいずれかを類似度としても良い。 In addition, the similarity calculation unit 712 has a co-occurrence rate “0.2” of the words “curry” and “ice cream”, a co-occurrence rate “0.01” of the words “curry” and “cold”, and the word “curry”. The co-occurrence rate “0.05” of “curry” and “like” is acquired from the co-occurrence dictionary storage unit 513. Then, the similarity calculation unit 712 calculates the similarity “Res (k1, s1) = (0.2 + 0.01 + 0.05) /3=0.087” using the co-occurrence rate. Here, an example in which the average value is used has been described, but either the maximum value or the minimum value may be used as the similarity.
以上をふまえ、類似度算出部712は、単語k1と発話セットs1との間の類似度「R(k1,s1)」を、以下の(数3)により算出する。 Based on the above, the similarity calculation unit 712 calculates the similarity “R (k1, s1)” between the word k1 and the utterance set s1 by the following (Equation 3).
(数3)
R(k1,s1)=Wec*Rec(k1,s1)+Wes*Res(k1,s1)
(Equation 3)
R (k1, s1) = Wec * Rec (k1, s1) + Wes * Res (k1, s1)
(数3)に含まれる「Wec」及び「Wes」は、類似度それぞれに対する重みであり、0から1の間の値をとる。なお、類似度「R(k1,s1)」の算出では、上記の類似度のいずれかを利用することとしても良い。 “Wec” and “Wes” included in (Equation 3) are weights for the respective similarities, and take values between 0 and 1. In calculating the similarity “R (k1, s1)”, any of the above similarities may be used.
決定部714は、類似度が最も高い発話セットを一番目の発話セットとして、該一番目の発話セットから類似度が所定値を超えない範囲で、連続する発話セット間の類似度が最も高くなるように、発話セットの順番を決定する。例えば、決定部714は、類似度算出部712によって算出された単語k1と各発話セットとの間の類似度のうち、最も高い類似度となった発話セットを一番目の発話セットとする。 The determination unit 714 sets the utterance set having the highest similarity as the first utterance set, and the similarity between consecutive utterance sets is highest within a range in which the similarity does not exceed a predetermined value from the first utterance set. Thus, the order of the utterance set is determined. For example, the determination unit 714 sets the utterance set having the highest similarity among the similarities between the word k1 calculated by the similarity calculation unit 712 and each utterance set as the first utterance set.
そして、決定部714は、類似度算出部712によって算出された発話セット間の類似度に基づいて、一番目の発話セットから類似度が所定値を超えない範囲で、連続する発話セット間の類似度が最も高くなるように、発話セットの順番を決定していく。すなわち、一番目の発話セットが決定された後、連続する発話セット同士の類似度に所定値を設定し、類似度が所定値以上となる発話セットは連続して使用しないようにする。但し、類似度が低い発話セット同士を連続して使用すると、対話の内容が急に変化する場合があるため、所定値を超えない範囲で、連続する発話セット間の類似度が最も高くなるように発話セットの順番が決定される。 Based on the similarity between utterance sets calculated by the similarity calculation unit 712, the determination unit 714 determines the similarity between consecutive utterance sets within a range in which the similarity does not exceed a predetermined value from the first utterance set. The order of the utterance set is determined so that the degree becomes the highest. That is, after the first utterance set is determined, a predetermined value is set for the similarity between consecutive utterance sets, and an utterance set having a similarity greater than or equal to the predetermined value is not used continuously. However, if utterance sets with low similarity are used consecutively, the content of the conversation may change suddenly, so that the similarity between consecutive utterance sets is the highest within a range not exceeding the predetermined value. The order of utterance sets is determined.
発話セット取得部702は、決定された順番に従って発話セットを取得する。例えば、発話セット取得部702は、決定部714によって決定された発話セットの順番に従って、発話セット記憶部101から発話セットを取得する。また、第1出力部103aは、発話セットの取得順に、第1発話を出力する。例えば、第1出力部103aは、発話セット取得部702による発話セットの取得順に、発話セットに含まれる第1発話を所定の表示出力装置に出力する。なお、第2出力部103bは、検知部104によるユーザ発話の検知後に、第1出力部103aによって出力された第1発話に対応する第2発話を所定の表示出力装置に出力する。また、抽出部411によって新たな単語が抽出された場合には、上記処理を再度実行して、発話セットの順番を更新する。
The utterance set
次に、図19を用いて、第7の実施形態に係る対話処理の流れを説明する。図19は、第7の実施形態に係る対話処理の流れの例を示すフローチャートである。 Next, the flow of interactive processing according to the seventh embodiment will be described with reference to FIG. FIG. 19 is a flowchart illustrating an example of the flow of interactive processing according to the seventh embodiment.
例えば、図19に示すように、検知部104によってユーザによる発話が検知された場合に(ステップS701肯定)、抽出部411は、音声認識処理を実行することにより、ユーザによる発話に含まれる単語を抽出する(ステップS702)。また、抽出部411は、検知部104によってユーザによる発話が検知されていない場合に(ステップS701否定)、検知部104によるユーザによる発話の検知待ちの状態となる。
For example, as shown in FIG. 19, when the utterance by the user is detected by the detection unit 104 (Yes in step S701), the extraction unit 411 executes a speech recognition process, thereby detecting a word included in the utterance by the user. Extract (step S702). Further, when the
また、類似度算出部712は、抽出部411によって抽出された単語と各発話セットとの間、及び、発話セット間の類似度を算出する(ステップS703)。また、決定部714は、類似度算出部712によって算出された単語と発話セットとの類似度をもとに一番目の発話セットを決定し、類似度算出部712によって算出された発話セット間の類似度をもとに一番目の発話セットに続く発話セットの順番を決定する(ステップS704)。 Further, the similarity calculation unit 712 calculates the similarity between the words extracted by the extraction unit 411 and each utterance set and between utterance sets (step S703). Also, the determination unit 714 determines the first utterance set based on the similarity between the word calculated by the similarity calculation unit 712 and the utterance set, and between the utterance sets calculated by the similarity calculation unit 712. The order of the utterance set following the first utterance set is determined based on the similarity (step S704).
また、発話セット取得部702は、決定部714によって決定された順番に従って、発話セット記憶部101に記憶された発話セットを取得する(ステップS705)。また、第1出力部103aは、発話セット取得部702によって取得された発話セットに含まれる第1発話を所定の表示出力装置に出力する(ステップS706)。
In addition, the utterance set
また、検知部104は、第1出力部103aによって出力された第1発話に対する、ユーザによる発話を検知したか否かを判定する(ステップS707)。このとき、検知部104によってユーザによる発話が検知された場合に(ステップS707肯定)、第2出力部103bは、第1出力部103aによって出力された第1発話に対応する、発話セット取得部702によって取得された発話セットに含まれる第2発話を所定の表示出力装置に出力する(ステップS708)。また、第2発話の出力後、発話セット取得部702は、決定部714によって決定された順番に従って、次の発話セットを発話セット記憶部101から取得する(ステップS705)。
Moreover, the
一方、検知部104は、ユーザによる発話を検知していない場合に(ステップS707否定)、一定時間が経過したか否かを判定する(ステップS709)。このとき、検知部104は、一定時間が経過していない場合に(ステップS709否定)、再度、ユーザによる発話を検知したか否かを判定する(ステップS707)。一方、一定時間が経過した場合に(ステップS709肯定)、発話セット取得部702は、決定部714によって決定された順番に従って、次の発話セットを発話セット記憶部101から取得する(ステップS705)。
On the other hand, when the utterance by the user is not detected (No at Step S707), the
本実施形態によれば、音声認識で抽出された単語を含んだ発話セットを使用するので、より自然な対話を実現することができる。 According to the present embodiment, since an utterance set including a word extracted by speech recognition is used, a more natural dialogue can be realized.
(上記以外の実施形態)
上記実施形態では、ユーザによる発話の内容を認識することなく対話を実現する場合を説明したが、対話の続行に支障をきたさないような対話を実現することが好ましい。例えば、ユーザによる発話が「聞き返し」等の所定発話である場合に、そのまま次の発話を出力すると、ユーザを無視した対話になる可能性がある。これを回避するために、ユーザによる発話が「聞き返し」等の所定発話である場合に、再度、直前の発話を出力することもできる。
(Embodiments other than the above)
In the above-described embodiment, the case where the dialogue is realized without recognizing the content of the utterance by the user has been described. However, it is preferable to realize the dialogue that does not hinder the continuation of the dialogue. For example, when the utterance by the user is a predetermined utterance such as “return”, if the next utterance is output as it is, there is a possibility that the dialogue is ignored by the user. In order to avoid this, when the utterance by the user is a predetermined utterance such as “return”, the previous utterance can be output again.
図20は、再発話の要求時に係る対話処理の流れの例を示すフローチャートである。例えば、図20に示すように、対話装置100は、発話セットを発話セット記憶部101から取得し(ステップS801)、取得した発話セットに含まれる第1発話を所定の表示出力装置に出力する(ステップS802)。 FIG. 20 is a flowchart illustrating an example of the flow of dialogue processing related to a request for recurrent speech. For example, as shown in FIG. 20, the interactive device 100 acquires an utterance set from the utterance set storage unit 101 (step S801), and outputs the first utterance included in the acquired utterance set to a predetermined display output device ( Step S802).
そして、対話装置100は、ユーザによる発話を検知した場合に(ステップS803肯定)、検知したユーザによる発話が再発話の要求であるか否かを判定する(ステップS804)。かかる再発話の要求であるか否かの判定では、「もう一回話して」等の所定発話を予め保持しておき、検知したユーザによる発話が所定発話に該当するか否かを判定する。また、所定のボタンが押下された場合に、これを再発話の要求とみなしても良い。このとき、対話装置100は、再発話の要求であると判定した場合に(ステップ804肯定)、再度、第1発話を出力する(ステップS802)。第1発話の再出力では、例えば、音声を大きくしたり、発話の速度をさらに遅くしたりする等、ユーザに理解されやすいように変更しても良い。 Then, when the utterance by the user is detected (Yes at Step S803), the dialogue apparatus 100 determines whether or not the detected utterance by the user is a request for re-utterance (Step S804). In determining whether or not it is a request for such a recurrent utterance, a predetermined utterance such as “speak again” is held in advance, and it is determined whether or not the detected utterance by the user corresponds to the predetermined utterance. Further, when a predetermined button is pressed, this may be regarded as a request for re-speech. At this time, when the interactive apparatus 100 determines that the request is for a recurrent utterance (Yes at step 804), it outputs the first utterance again (step S802). In the re-output of the first utterance, for example, the voice may be increased or the utterance speed may be further reduced so as to be easily understood by the user.
一方、対話装置100は、再発話の要求でないと判定した場合に(ステップS804否定)、第2発話を出力する(ステップS805)。また、対話装置100は、ユーザによる発話を検知していない場合に(ステップS803否定)、一定時間が経過したか否かを判定する(ステップS806)。このとき、対話装置100は、一定時間が経過していないと判定した場合に(ステップS806否定)、ステップS803の処理を実行する。一方、対話装置100は、一定時間が経過したと判定した場合に(ステップS806肯定)、ステップS801の処理を実行する。なお、再発話要求の判定処理は、第2発話の出力後にも実行しても良い。 On the other hand, when determining that the request is not a re-utterance request (No at Step S804), the interactive apparatus 100 outputs the second utterance (Step S805). In addition, when the utterance by the user is not detected (No at Step S803), the dialogue apparatus 100 determines whether a certain time has passed (Step S806). At this time, when it is determined that the predetermined time has not elapsed (No at Step S806), the interactive apparatus 100 executes the process at Step S803. On the other hand, when it is determined that the certain time has elapsed (Yes at Step S806), the interactive apparatus 100 executes the process at Step S801. The re-utterance request determination process may be executed even after the second utterance is output.
本実施形態によれば、ユーザ発話が所定発話である場合に、再度直前の発話を出力するので、一方的な対話になるのを抑制することができる。 According to the present embodiment, when the user utterance is a predetermined utterance, since the immediately previous utterance is output again, it is possible to suppress a one-way conversation.
また、上記実施形態では、ユーザによる発話を一定時間検知できなければ次の発話セットを使用した発話を行なう場合を説明したが、ユーザが何も発話しなかった場合でも適切な発話をすることもできる。ここでは、ユーザによる発話の応答の発話を表す「第2発話」に、ユーザが何も発話しなかった場合に出力する発話を表す「第3発話」が含まれる場合を例に挙げる。 Further, in the above embodiment, the case has been described in which the utterance using the next utterance set is performed if the utterance by the user cannot be detected for a certain period of time, but an appropriate utterance may be made even if the user does not utter anything. it can. Here, a case where the “second utterance” representing the utterance of the response of the utterance by the user includes the “third utterance” representing the utterance output when the user does not utter anything.
図21は、第3発話を含む発話セット記憶部101に記憶される情報例を示す図である。例えば、図21に示すように、発話セット記憶部101は、第1発話「映画は好き?」と、想定ユーザ発話「好きだよ」、「(応答なし)」と、第2発話「映画はいいよね」、「僕は映画好きだよ(第3発話)」とを含んだ「発話セット1」を記憶する。上記実施形態と同様に、「想定ユーザ発話」は、発話セット記憶部101に含まれていなくても良い。
FIG. 21 is a diagram illustrating an example of information stored in the utterance set
図22は、一定時間にユーザ発話を検知できない場合の対話処理の流れの例を示すフローチャートである。例えば、図22に示すように、対話装置100は、発話セットを発話セット記憶部101から取得し(ステップS901)、取得した発話セットに含まれる第1発話を所定の表示出力装置に出力する(ステップS902)。 FIG. 22 is a flowchart illustrating an example of the flow of interactive processing when a user utterance cannot be detected at a certain time. For example, as shown in FIG. 22, the dialogue apparatus 100 acquires an utterance set from the utterance set storage unit 101 (step S901), and outputs the first utterance included in the acquired utterance set to a predetermined display output device ( Step S902).
そして、対話装置100は、ユーザによる発話を検知した場合に(ステップS903肯定)、検知したユーザによる発話が再発話の要求であるか否かを判定する(ステップS904)。このとき、対話装置100は、再発話の要求であると判定した場合に(ステップS904肯定)、再度、第1発話を出力する(ステップS902)。一方、対話装置100は、再発話の要求でないと判定した場合に(ステップS904否定)、第2発話を出力する(ステップS905)。 Then, when the utterance by the user is detected (Yes at Step S903), the dialogue apparatus 100 determines whether or not the detected utterance by the user is a request for re-utterance (Step S904). At this time, when the dialogue apparatus 100 determines that the request is a request for recurrent utterance (Yes in step S904), it outputs the first utterance again (step S902). On the other hand, when determining that the request is not a re-utterance request (No at step S904), the interactive apparatus 100 outputs the second utterance (step S905).
また、対話装置100は、ユーザによる発話を検知していない場合に(ステップS903否定)、一定時間が経過したか否かを判定する(ステップS906)。このとき、対話装置100は、一定時間が経過していないと判定した場合に(ステップS906否定)、ステップS903の処理を実行する。一方、対話装置100は、一定時間が経過したと判定した場合に(ステップS906肯定)、第3発話を出力する(ステップS907)。 In addition, when the utterance by the user is not detected (No at Step S903), the dialogue apparatus 100 determines whether a certain time has passed (Step S906). At this time, when it is determined that the predetermined time has not elapsed (No at Step S906), the interactive apparatus 100 executes the process at Step S903. On the other hand, when determining that the predetermined time has elapsed (Yes at Step S906), the interactive apparatus 100 outputs the third utterance (Step S907).
本実施形態によれば、一定時間にユーザ発話を検知できない場合でも、対応する発話を出力するので、適切な対話を実現することができる。 According to the present embodiment, even when a user utterance cannot be detected at a certain time, a corresponding utterance is output, so that an appropriate dialogue can be realized.
また、上記実施形態2では、概念辞書記憶部205には固有名詞や新しい単語等が含まれていないが、発話セットのテンプレート中に記載された概念に合わせて未知の単語を追加することもできる。未知の単語を追加する場合には、単語の概念を概念辞書記憶部205から取得及び付与し、概念を含む発話セットのテンプレートを検索し、発話セットを生成する。これにより、常用される単語だけでなく、話題のキーワードやおすすめの商品名等を追加することができる。例えば、商品名「チョコレートクランチNEW」という未知の単語を概念「食べ物」と設定し、商品の特徴である「やみつきになるほどおいしい」というフレーズを概念「味」と設定する。この結果、「チョコレートクランチNEWは好き?」や、「チョコレートクランチNEWはやみつきになるほどおいしいんだよ」等の発話セットを生成することができる。すなわち、本実施形態によれば、日常の対話だけでなく、商品の販売促進等にも適用することができる。
In the second embodiment, the concept
また、上記実施形態では、2つの発話セットに含まれる第1発話同士、第2発話同士の編集距離をもとに類似度を算出する場合を説明したが、第2発話と次の発話セットの第1発話との編集距離をもとに類似度を算出することもできる。すなわち、第1発話、第2発話の順にユーザが認識することから、第2発話と次の発話セットの第1発話との発話が似たような発話であると好ましくないので、これらの編集距離をもとに類似度を算出する。 Moreover, although the said embodiment demonstrated the case where similarity was calculated based on the edit distance of the 1st utterances contained in two utterance sets, and the 2nd utterances, a 2nd utterance and the following utterance set of The similarity can also be calculated based on the edit distance from the first utterance. That is, since the user recognizes in the order of the first utterance and the second utterance, it is not preferable that the utterance between the second utterance and the first utterance of the next utterance set is similar. The similarity is calculated based on the above.
また、上述してきた実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Further, the above-described embodiments are presented as examples, and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.
100 対話装置
101 発話セット記憶部
102 発話セット取得部
103 出力部
103a 第1出力部
103b 第2出力部
104 検知部
DESCRIPTION OF SYMBOLS 100
Claims (9)
前記発話セットを取得する発話セット取得部と、
取得された前記発話セットに含まれる前記第1発話を出力する第1出力部と、
前記第1発話が出力された後の前記ユーザによる発話を検知する検知部と、
前記ユーザによる発話が検知された場合に、取得された前記発話セットに含まれる前記第2発話を出力する第2出力部と
を有することを特徴とする対話装置。 An utterance set storage unit that stores an utterance set including a first utterance and a second utterance representing an utterance of a response to an utterance by a user assumed as a response to the first utterance;
An utterance set acquisition unit for acquiring the utterance set;
A first output unit that outputs the first utterance included in the acquired utterance set;
A detection unit for detecting an utterance by the user after the first utterance is output;
And a second output unit that outputs the second utterance included in the acquired utterance set when an utterance by the user is detected.
前記語句と前記概念とを対応付けて記憶する概念辞書記憶部と、
前記語句が入力された場合に、該語句に対応する前記概念を前記概念辞書記憶部から取得する概念取得部と、
取得された前記概念を含む前記発話セットのテンプレートを前記発話テンプレート記憶部から取得する発話テンプレート取得部と、
取得された前記発話セットのテンプレートに含まれる概念に、入力された前記語句を挿入して新たな発話セットを生成し、生成した新たな発話セットを前記発話セット記憶部に格納する発話セット生成部と
をさらに有することを特徴とする請求項1に記載の対話装置。 An utterance template storage unit for storing a template of the utterance set in which some words are expressed in concept;
A concept dictionary storage that stores the word and the concept in association with each other;
A concept acquisition unit that acquires the concept corresponding to the word from the concept dictionary storage unit when the word is input;
An utterance template acquisition unit for acquiring a template of the utterance set including the acquired concept from the utterance template storage unit;
An utterance set generation unit that generates a new utterance set by inserting the input phrase into the concept included in the acquired utterance set template, and stores the generated new utterance set in the utterance set storage unit The interactive apparatus according to claim 1, further comprising:
前記概念取得部は、抽出された前記語句に対応する前記概念を前記概念辞書記憶部から取得し、
前記発話セット生成部は、取得された前記発話セットのテンプレートに含まれる概念に、抽出された前記語句を挿入して新たな発話セットを生成することを特徴とする請求項2に記載の対話装置。 An extractor for extracting a phrase included in the utterance by the user that matches the phrase stored in the concept dictionary storage;
The concept acquisition unit acquires the concept corresponding to the extracted phrase from the concept dictionary storage unit,
The dialogue apparatus according to claim 2, wherein the utterance set generation unit generates a new utterance set by inserting the extracted phrase into a concept included in the acquired template of the utterance set. .
外部から取得された特有な語句と、該特有な語句の概念とを対応付けて記憶する特有単語記憶部と、
前記特有な語句の概念を含む前記発話セットのテンプレートを前記発話テンプレート記憶部から取得する発話テンプレート取得部と、
取得された前記発話セットのテンプレートに含まれる概念に、前記特有な語句を挿入して新たな発話セットを生成し、生成した新たな発話セットを前記発話セット記憶部に格納する発話セット生成部と
をさらに有することを特徴とする請求項1に記載の対話装置。 An utterance template storage unit for storing a template of the utterance set in which some words are expressed in concept;
A unique word storage unit that stores a unique phrase acquired from the outside and the concept of the unique phrase in association with each other;
An utterance template acquisition unit for acquiring a template of the utterance set including the concept of the unique phrase from the utterance template storage unit;
An utterance set generation unit that generates a new utterance set by inserting the unique words into the concept included in the acquired template of the utterance set, and stores the generated new utterance set in the utterance set storage unit; The interactive apparatus according to claim 1, further comprising:
前記類似度が所定値を超えない範囲で、連続する前記発話セット間又は前記発話セットのテンプレート間の類似度が最も高くなるように、前記発話セット又は前記発話セットのテンプレートの順番を決定する決定部と
をさらに有し、
前記発話セット取得部は、前記順番に従って前記発話セットを取得し、
前記第1出力部は、前記発話セットの取得順に、前記第1発話を出力することを特徴とする請求項2〜4のいずれか一つに記載の対話装置。 A similarity calculation unit that calculates a similarity between the utterance sets including the new utterance set, or between templates of the utterance set;
Determination that determines the order of the utterance set or the templates of the utterance set so that the similarity between the consecutive utterance sets or between templates of the utterance set is the highest within a range where the similarity does not exceed a predetermined value. And further comprising
The utterance set acquisition unit acquires the utterance set according to the order,
The interactive apparatus according to claim 2, wherein the first output unit outputs the first utterance in the order of acquisition of the utterance set.
前記類似度が所定値以上となる前記発話セット同士又は前記発話セットのテンプレート同士を同一グループにグループ分けし、類似度が最も近い異なるグループを順次選択して、連続する前記発話セット又は発話セットのテンプレートの順番を決定する決定部と
をさらに有し、
前記発話セット取得部は、前記順番に従って前記発話セットを取得し、
前記第1出力部は、前記発話セットの取得順に、前記第1発話を出力することを特徴とする請求項2〜4のいずれか一つに記載の対話装置。 A similarity calculation unit that calculates a similarity between the utterance sets including the new utterance set, or between templates of the utterance set;
Grouping the utterance sets or the utterance set templates whose similarity is equal to or greater than a predetermined value into the same group, sequentially selecting different groups with the closest similarity, and the successive utterance sets or utterance sets And a determination unit for determining the order of the templates,
The utterance set acquisition unit acquires the utterance set according to the order,
The interactive apparatus according to claim 2, wherein the first output unit outputs the first utterance in the order of acquisition of the utterance set.
前記類似度が最も高い前記発話セットを一番目の発話セットとして、該一番目の発話セットから前記類似度が所定値を超えない範囲で、連続する前記発話セット間の類似度が最も高くなるように、前記発話セットの順番を決定する決定部と
をさらに有し、
前記発話セット取得部は、前記順番に従って前記発話セットを取得し、
前記第1出力部は、前記発話セットの取得順に、前記第1発話を出力することを特徴とする請求項3に記載の対話装置。 A similarity calculation unit that calculates a similarity between the extracted phrase and the utterance set including the new utterance set, and between the utterance sets;
The utterance set having the highest similarity is set as the first utterance set, and the similarity between consecutive utterance sets is highest within a range in which the similarity does not exceed a predetermined value from the first utterance set. And a determination unit for determining the order of the utterance set,
The utterance set acquisition unit acquires the utterance set according to the order,
The interactive apparatus according to claim 3, wherein the first output unit outputs the first utterance in order of acquisition of the utterance set.
前記第1出力部は、前記ユーザによる所定発話が検知された場合に、前記第1発話を出力することを特徴とする請求項1に記載の対話装置。 The detection unit further detects a predetermined utterance by the user,
The interactive apparatus according to claim 1, wherein the first output unit outputs the first utterance when a predetermined utterance by the user is detected.
前記第2出力部は、前記ユーザによる発話が検知されなかった場合に、取得された前記発話セットに含まれる前記第3発話を出力することを特徴とする請求項1又は8に記載の対話装置。 The utterance set storage unit stores the utterance set further including a third utterance representing an utterance of a response to a case where the user does not utter,
9. The dialogue apparatus according to claim 1, wherein the second output unit outputs the third utterance included in the acquired utterance set when an utterance by the user is not detected. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011209504A JP2013072887A (en) | 2011-09-26 | 2011-09-26 | Interactive device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011209504A JP2013072887A (en) | 2011-09-26 | 2011-09-26 | Interactive device |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015229153A Division JP6147836B2 (en) | 2015-11-24 | 2015-11-24 | Dialogue device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013072887A true JP2013072887A (en) | 2013-04-22 |
Family
ID=48477470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011209504A Pending JP2013072887A (en) | 2011-09-26 | 2011-09-26 | Interactive device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013072887A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014222400A (en) * | 2013-05-13 | 2014-11-27 | 日本電信電話株式会社 | Utterance sentence generation device, interactive device, utterance sentence generation method, interactive method, utterance sentence generation program, and interactive program |
WO2017212689A1 (en) * | 2016-06-08 | 2017-12-14 | シャープ株式会社 | Responding device, method for controlling responding device, and control program |
JP2018097201A (en) * | 2016-12-14 | 2018-06-21 | トヨタ自動車株式会社 | Voice dialog device and voice dialog method |
WO2020121638A1 (en) * | 2018-12-13 | 2020-06-18 | ソニー株式会社 | Information processing device, information processing system, information processing method, and program |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169590A (en) * | 2000-12-01 | 2002-06-14 | Namco Ltd | System and method for simulated conversation and information storage medium |
JP2004045616A (en) * | 2002-07-10 | 2004-02-12 | Equos Research Co Ltd | On-board device, data preparation device and data preparation program |
JP2004513444A (en) * | 2000-10-30 | 2004-04-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | User interface / entertainment device that simulates personal interactions and augments external databases with relevant data |
JP2005301017A (en) * | 2004-04-14 | 2005-10-27 | Sony Corp | Apparatus and method for information processing, and program |
JP2007219149A (en) * | 2006-02-16 | 2007-08-30 | Toyota Central Res & Dev Lab Inc | Response generation device, method and program |
JP2007285976A (en) * | 2006-04-19 | 2007-11-01 | Fujitsu Ltd | Voice guidance apparatus |
JP2009003811A (en) * | 2007-06-22 | 2009-01-08 | Toyota Central R&D Labs Inc | Attribute determination device, interaction device and program |
JP2010073191A (en) * | 2008-08-20 | 2010-04-02 | Universal Entertainment Corp | Customer dealing system and conversation server |
-
2011
- 2011-09-26 JP JP2011209504A patent/JP2013072887A/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004513444A (en) * | 2000-10-30 | 2004-04-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | User interface / entertainment device that simulates personal interactions and augments external databases with relevant data |
US6795808B1 (en) * | 2000-10-30 | 2004-09-21 | Koninklijke Philips Electronics N.V. | User interface/entertainment device that simulates personal interaction and charges external database with relevant data |
JP2002169590A (en) * | 2000-12-01 | 2002-06-14 | Namco Ltd | System and method for simulated conversation and information storage medium |
JP2004045616A (en) * | 2002-07-10 | 2004-02-12 | Equos Research Co Ltd | On-board device, data preparation device and data preparation program |
JP2005301017A (en) * | 2004-04-14 | 2005-10-27 | Sony Corp | Apparatus and method for information processing, and program |
JP2007219149A (en) * | 2006-02-16 | 2007-08-30 | Toyota Central Res & Dev Lab Inc | Response generation device, method and program |
JP2007285976A (en) * | 2006-04-19 | 2007-11-01 | Fujitsu Ltd | Voice guidance apparatus |
JP2009003811A (en) * | 2007-06-22 | 2009-01-08 | Toyota Central R&D Labs Inc | Attribute determination device, interaction device and program |
JP2010073191A (en) * | 2008-08-20 | 2010-04-02 | Universal Entertainment Corp | Customer dealing system and conversation server |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014222400A (en) * | 2013-05-13 | 2014-11-27 | 日本電信電話株式会社 | Utterance sentence generation device, interactive device, utterance sentence generation method, interactive method, utterance sentence generation program, and interactive program |
WO2017212689A1 (en) * | 2016-06-08 | 2017-12-14 | シャープ株式会社 | Responding device, method for controlling responding device, and control program |
CN109313899A (en) * | 2016-06-08 | 2019-02-05 | 夏普株式会社 | The control method of answering device and answering device, control program |
JPWO2017212689A1 (en) * | 2016-06-08 | 2019-02-14 | シャープ株式会社 | Response device, response device control method, and control program |
JP2018097201A (en) * | 2016-12-14 | 2018-06-21 | トヨタ自動車株式会社 | Voice dialog device and voice dialog method |
WO2020121638A1 (en) * | 2018-12-13 | 2020-06-18 | ソニー株式会社 | Information processing device, information processing system, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200388282A1 (en) | Intent-specific automatic speech recognition result generation | |
US20210142794A1 (en) | Speech processing dialog management | |
CN109509470B (en) | Voice interaction method and device, computer readable storage medium and terminal equipment | |
US11037553B2 (en) | Learning-type interactive device | |
US7310601B2 (en) | Speech recognition apparatus and speech recognition method | |
KR101634086B1 (en) | Method and computer system of analyzing communication situation based on emotion information | |
KR20160089152A (en) | Method and computer system of analyzing communication situation based on dialogue act information | |
US20090326947A1 (en) | System and method for spoken topic or criterion recognition in digital media and contextual advertising | |
CN109791761B (en) | Acoustic model training using corrected terms | |
CN104598644B (en) | Favorite label mining method and device | |
EP3736807A1 (en) | Apparatus for media entity pronunciation using deep learning | |
US9922650B1 (en) | Intent-specific automatic speech recognition result generation | |
JP2006201870A (en) | Interactive processor | |
CN1302025A (en) | Equipment, method, computer system and storage medium for speed identification | |
KR101763679B1 (en) | Method and computer system of analyzing communication situation based on dialogue act information | |
JP2015219583A (en) | Topic determination device, utterance device, method, and program | |
JP6715943B2 (en) | Interactive device, interactive device control method, and control program | |
US11043215B2 (en) | Method and system for generating textual representation of user spoken utterance | |
JP2017125921A (en) | Utterance selecting device, method and program | |
US11315552B1 (en) | Responding with unresponsive content | |
JP6027476B2 (en) | Dialog program, server, and method for inserting dynamic dialog node in dialog scenario | |
JP2013072887A (en) | Interactive device | |
WO2022260790A1 (en) | Error correction in speech recognition | |
KR20180022156A (en) | Dialog management apparatus and method | |
US10957313B1 (en) | System command processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130906 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140507 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150120 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150323 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150825 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20151102 |