JP2015148758A - Voice interactive system and voice interactive method - Google Patents
Voice interactive system and voice interactive method Download PDFInfo
- Publication number
- JP2015148758A JP2015148758A JP2014022385A JP2014022385A JP2015148758A JP 2015148758 A JP2015148758 A JP 2015148758A JP 2014022385 A JP2014022385 A JP 2014022385A JP 2014022385 A JP2014022385 A JP 2014022385A JP 2015148758 A JP2015148758 A JP 2015148758A
- Authority
- JP
- Japan
- Prior art keywords
- response
- user
- word
- utterance
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、音声対話システム及び音声対話方法に関し、特に、ユーザと連続した対話を行うための音声対話システム及び音声対話方法に関する。 The present invention relates to a voice dialogue system and a voice dialogue method, and more particularly, to a voice dialogue system and a voice dialogue method for performing continuous dialogue with a user.
ユーザとロボットが音声で対話する音声対話システムとしては、例えば、特許文献1に係る技術がある。特許文献1に係る技術は、ユーザの発話内容からキーワードを抽出し、抽出されたキーワードにより会話データベース等を検索し、ヒットしたコンテンツを応答として音声により出力するものである。 As a voice dialogue system in which a user and a robot talk by voice, for example, there is a technique according to Patent Document 1. The technique according to Patent Document 1 extracts keywords from user's utterance contents, searches a conversation database or the like with the extracted keywords, and outputs the hit contents as a response by voice.
ここで、人間同士がある話題に対して複数回の会話のやり取りを行う場合には、それまでの会話で出現した単語等を踏まえて次の発話が行われることが一般的である。そのため、会話における話題において重要な単語であっても、後続の発話においては省略されることもある。 Here, when exchanging a plurality of conversations on a topic with each other, it is common that the next utterance is performed based on words or the like that have appeared in the previous conversation. Therefore, even an important word in a conversation topic may be omitted in subsequent utterances.
特許文献1では、対話の対象となる発話に含まれる表現のみを解析し、解析により得られた単語をキーワードとして検索をしているため、ユーザの意図とは異なるコンテンツが応答としてヒットしてしまう可能性がある。 In Patent Document 1, only the expression included in the utterance subject to dialogue is analyzed, and the word obtained by the analysis is searched as a keyword. Therefore, content different from the user's intention is hit as a response. there is a possibility.
例えば、ユーザが「木星って何でできてるの?」と発話し、ロボットが「木星はガスで出来ていて、太陽系最大の惑星です。」と応答した後、続けてユーザが「直径を教えて」と発話した場合に、ロボットは、「土星の直径は約XXキロメートルです。」等と応答してしまう可能性がある。しかし、ユーザの2番目の発話「直径を教えて」における「直径」は、本来「木星の直径」を意図したものであったが、それまでの対話の続きであることから「木星の」という言葉が省略されたものである。そのため、検索キーワードに「木星」が含まれず、何らかの直径に関する応答がデータベースからヒットしてしまったことを示す。このように、特許文献1に係る技術では、ユーザからの入力に、特定の話題における重要なキーワードが省略されている場合に、省略されたキーワードを考慮していないために、ユーザの意図を正確に把握することができないという問題点がある。 For example, after the user says, “What is Jupiter made of?” And the robot responds, “Jupiter is made of gas and is the largest planet in the solar system.” , The robot may respond such as “Saturn's diameter is about XX kilometers”. However, the "diameter" in the user's second utterance "Tell me the diameter" was originally intended to be "the diameter of Jupiter", but it is called "Jupiter" because it is a continuation of the previous dialogue. The words are omitted. Therefore, “Jupiter” is not included in the search keyword, indicating that a response regarding a certain diameter has been hit from the database. As described above, in the technique according to Patent Document 1, when an important keyword in a specific topic is omitted in the input from the user, the omitted keyword is not considered, and thus the user's intention is accurately determined. There is a problem that cannot be grasped.
本発明は、このような問題を解決するためになされたものであり、ユーザとの自然な対話を継続的に行う場合に、ユーザの意図に対してより的確な応答を実現するための音声対話システム及び音声対話方法を提供することを目的としている。 The present invention has been made to solve such a problem, and in a case where a natural dialogue with the user is continuously performed, a voice dialogue for realizing a more accurate response to the intention of the user. It is an object to provide a system and a voice interaction method.
本発明の第1の態様にかかる音声対話システムは、
ユーザからの発話と当該発話に対する応答との組み合わせである対話を複数回連続して行う音声対話システムであって、
前記応答の候補を示す複数の応答文を予め記憶した応答文データベースと、
前記ユーザとの過去の対話内容を所定回数分記録する対話記録部と、
前記対話記録部から前記対話内容におけるキーワードを抽出するキーワード抽出部と、
前記ユーザから新たに発話が入力された場合に、当該発話に含まれる単語を抽出する単語抽出部と、
前記応答文データベース内に記憶された複数の応答文のうち、前記抽出された単語と前記抽出されたキーワードとに対応する応答文を選択する選択部と、
前記ユーザへ前記選択した応答文を前記発話に対する応答として音声により出力する出力部と、
を備える。
A spoken dialogue system according to a first aspect of the present invention includes:
A spoken dialogue system that continuously conducts a dialogue that is a combination of an utterance from a user and a response to the utterance a plurality of times,
A response sentence database in which a plurality of response sentences indicating candidate responses are stored in advance;
A dialog recording unit for recording the past dialog content with the user a predetermined number of times;
A keyword extraction unit for extracting keywords in the dialogue content from the dialogue recording unit;
A word extraction unit that extracts a word included in the utterance when a new utterance is input from the user;
A selection unit that selects a response sentence corresponding to the extracted word and the extracted keyword among a plurality of response sentences stored in the response sentence database;
An output unit that outputs the selected response sentence to the user by voice as a response to the utterance;
Is provided.
本発明の第2の態様にかかる音声対話方法は、
ユーザからの発話と当該発話に対する応答との組み合わせである対話を複数回連続して行う音声対話システムを用いた音声対話方法であって、
前記音声対話システムは、
前記応答の候補を示す複数の応答文を予め記憶した応答文データベースと、
前記ユーザとの過去の対話内容を所定回数分記録した対話記録部とを備え、
前記対話記録部から前記対話内容におけるキーワードを抽出し、
前記ユーザから新たに発話が入力された場合に、当該発話に含まれる単語を抽出し、
前記応答文データベース内に記憶された複数の応答文のうち、前記抽出された単語と前記抽出されたキーワードとに対応する応答文を選択し、
前記ユーザへ前記選択した応答文を前記発話に対する応答として音声により出力する。
The voice interaction method according to the second aspect of the present invention includes:
A voice dialogue method using a voice dialogue system that continuously performs a dialogue that is a combination of an utterance from a user and a response to the utterance a plurality of times,
The spoken dialogue system includes:
A response sentence database in which a plurality of response sentences indicating candidate responses are stored in advance;
A dialogue recording unit that records a past number of dialogues with the user a predetermined number of times,
Extracting keywords in the dialogue content from the dialogue recording unit,
When a new utterance is input from the user, a word included in the utterance is extracted,
Selecting a response sentence corresponding to the extracted word and the extracted keyword from a plurality of response sentences stored in the response sentence database;
The selected response sentence is output to the user by voice as a response to the utterance.
このように、本発明の各態様では、ユーザの発話時における発話内容に含まれる単語だけでなく、直近における対話内容に含まれる単語(キーワード)も含めて、これらの単語に対応する応答文を選択する。そのため、ユーザがそれまでの対話内容を踏まえて重要なキーワードを省略した発話を行った場合であっても、ユーザの意図を把握することができ、それまでの対話内容に沿った応答文を出力することができる。 As described above, in each aspect of the present invention, not only words included in the utterance contents at the time of the user's utterance but also words (keywords) included in the latest conversation contents, response sentences corresponding to these words are included. select. Therefore, even if the user has made an utterance omitting an important keyword based on the content of the previous conversation, the user's intention can be grasped, and a response sentence according to the content of the previous conversation is output. can do.
本発明により、ユーザとの自然な対話を継続的に行う場合に、ユーザの意図に対してより的確な応答を実現するための音声対話システム及び音声対話方法を提供することができる。 According to the present invention, it is possible to provide a voice dialogue system and a voice dialogue method for realizing a more accurate response to a user's intention when a natural dialogue with the user is continuously performed.
以下では、上述した各態様を含む本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略する。 Hereinafter, specific embodiments to which the present invention including the above-described aspects are applied will be described in detail with reference to the drawings. In the drawings, the same elements are denoted by the same reference numerals, and redundant description will be omitted as necessary for the sake of clarity.
<発明の実施の形態1>
図1は、本発明の実施の形態1にかかる音声対話システム100の構成を示す図である。音声対話システム100は、ユーザ200との対話を複数回連続して行う情報システムである。ここで、対話とは、ユーザからの発話とその発話に対する応答との組み合わせを指すものとする。音声対話システム100は、例えば、対話型のロボット等であってもよい。音声対話システム100は、キーワード抽出部110と、発話受付部120と、単語抽出部130と、選択部140と、出力部150と、対話記録部160と、応答文データベース(DB)170とを備える。
<Embodiment 1 of the Invention>
FIG. 1 is a diagram showing a configuration of a
対話記録部160は、ユーザ200との過去の対話内容を所定回数分記録する。ここで、対話内容とは、ユーザ200から音声対話システム100への発話をテキストデータに変換したものと、音声対話システム100からユーザ200への応答であるテキストデータとを含む。つまり、対話記録部160は、特定の話題に関してユーザ200と連続して行われている対話の過去数回分の履歴データを記録し、保持している。
The
応答文DB170は、ユーザ200からの発話に対する応答の候補を示す複数の応答文を予め記憶したデータベースである。対話記録部160及び応答文DB170は、音声対話システム100にかかるロボット等の内部の記憶装置(不図示)により実現されている。但し、対話記録部160及び応答文DB170は、当該ロボット等の外部の記憶装置内で実現しても構わない。
The
キーワード抽出部110は、対話記録部160から過去の対話内容におけるキーワードを抽出する。ここで、キーワード抽出部110は、対話記録部160に記録された過去の対話内容に含まれる単語のうち、一連の対話における話題に関して代表的な単語をキーワードとするものとする。つまり、キーワード抽出部110は、対話記録部160内の全ての単語ではなく一部の単語、しかも連続する対話における特徴的な単語をキーワードとすることが望ましい。例えば、過去の対話内容のうち、直近の数回で頻出する単語を次回の発話におけるキーワードとしてもよい。または、過去の対話内容のうち所定の基準において重要性の高い単語をキーワードとしてもよい。
The
発話受付部120は、ユーザ200からの発話の入力を受け付け、発話をテキストデータに変換し、対話記録部160へ格納する。単語抽出部130は、ユーザ200から新たに発話が入力された場合に、当該発話に含まれる単語を抽出する。ここで、単語抽出部130は、入力された発話に含まれる全て又は一部の単語を抽出するものとする。一部の単語を抽出する場合には、単語抽出部130は、所定の基準において重要性の高い単語を抽出してもよい。選択部140は、応答文DB170内に記憶された複数の応答文のうち、抽出された単語と抽出されたキーワードとに対応する応答文を選択する。ここで、抽出された単語と抽出されたキーワードとに対応する応答文としては、単語及びキーワードそのものを含む応答文、または、単語又はキーワードのいずれかを含まないとしても当該単語又はキーワードに関連する他の単語を含む応答文としてもよい。例えば、選択部140は、上記単語又はキーワードに関連する他の単語を特定し、特定した単語を含む応答文を選択しても構わない。
出力部150は、選択した応答文を発話に対する応答として音声に変換してユーザ200へ出力する。
The
The
尚、単語に関連する他の単語の特定としては、例えば、述語項構造解析の技術を用いてもよい。その場合、選択部140は、解析した構造が類似した文章を選択することとなる。ここで、述語項構造解析としては、例えば、“吉野幸一郎等、「述語項の類似度に基づく情報推薦を行う音声対話システム」、情報処理学会研究報告、Vol. 2011-SLP-87, No. 11”に開示された技術を適用することができる。その場合、単語抽出部130は、対象のテキストデータを形態素解析し、テキストデータに含まれる複数の単語を抽出する。そして、選択部140は、まず、抽出された複数の単語とキーワードとである検索語を全て含む応答文を、応答文DB170の中から検索する。検索できない場合、選択部140は、検索語の一部を選択し、選択した検索語を含む応答文を応答文DB170の中から検索する。このとき、選択部140は、例えば、各検索語について所定の手法により要素間の関連度を算出し、関連度のより高い検索語を一部の検索語として選択するとよい。これにより、選択される応答文の精度を向上させることができる。尚、上記において単語抽出部130をキーワード抽出部110に置き換えても同様となる。但し、述語項構造解析以外の技術を適用してもよい。
In addition, as specification of the other word relevant to a word, you may use the technique of a predicate term structure analysis, for example. In that case, the
図2は、本発明の実施の形態1にかかる応答処理の流れを示すフローチャートである。前提として、既にユーザ200と音声対話システム100との間で、特定の話題に関する複数回の対話(発話と応答)の記録が対話記録部160に保持されているものとする。
FIG. 2 is a flowchart showing a flow of response processing according to the first exemplary embodiment of the present invention. As a premise, it is assumed that records of a plurality of dialogues (utterances and responses) regarding a specific topic are already held in the
まず、キーワード抽出部110は、対話記録部160を参照し、過去の対話記録からキーワードを抽出する(S11)。また、発話受付部120は、新たな発話を受け付け、受け付けた発話から変換されたテキストデータを対話記録部160に記録する(S12)。続いて、単語抽出部130は、受け付けた発話のテキストデータから形態素解析等により単語を抽出する(S13)。尚、実施の形態1では、ステップS11と、ステップS12及びS13との順序は問わない。
First, the
次に、選択部140は、ステップS11により抽出されたキーワード及びステップS13により抽出された単語に対応する応答文を応答文DB170の中から選択する(S14)。そして、選択部140は、選択した応答文を対話記録部160へ記録する(S15)。また、出力部150は、選択した応答文を音声に変換してユーザ200へ出力する(S16)。
Next, the
このように、本発明の実施の形態1では、ステップS12でユーザ200から受け付けた発話内容に含まれる単語だけでなく、それ以前に対話記録部160に記録済みの対話内容に含まれる単語も含めて、これらに対応する応答文を選択する。そのため、ユーザがそれまでの対話内容を踏まえて重要なキーワードを省略した発話を行った場合であっても、ユーザの意図を正確に把握することができ、それまでの対話内容に沿った応答文を出力することができる。
As described above, in the first embodiment of the present invention, not only the words included in the utterance content received from the
<発明の実施の形態2>
本発明の実施の形態2は、上述した実施の形態1を改良したものである。実施の形態1では、ユーザ200からの発話を受け付けてから都度、応答文DB170を検索して応答文を取得している。つまり、単語が入力される度に、入力された単語と応答文DB170内の応答文との照合を行う必要がある。そのため、発話を受け付けてから応答するまでにある程度の処理時間を要することになる。ユーザ200とのより自然な会話を継続するには、応答時間を短縮することが望ましい。
<Embodiment 2 of the Invention>
The second embodiment of the present invention is an improvement over the first embodiment described above. In the first embodiment, every time an utterance from the
ここで、図1の応答文DB170には、ユーザ200との様々な話題における発話に対応するために、多数の応答文が格納されている。しかし、特定の話題について連続して対話を行う場合には、実際に選択される応答文は当該特定の話題に関係するものに限られる。そこで、本発明の実施の形態2では、ユーザ200から新たな発話を受け付けるより前の段階で、既に行われた対話の履歴に基づいて予め応答文DB170から応答文の候補を選択しておくものである。例えば、直前の応答処理と並行して次に受け付けるであろう発話の応答文の候補を検索し、キャッシュとして保存しておくものである。これにより、新たな発話を受け付けてから大量のデータが保存された応答文DB170と照合を行う必要がなくなり、応答処理時間を短縮することができる。
Here, a large number of response sentences are stored in the
図3は、本発明の実施の形態2にかかる音声対話システム100aの構成を示す図である。図3は、上述した音声対話システム100を改良したものであり、音声対話システム100と同一の構成には同一の符号を付し、詳細な説明を省略する。
FIG. 3 is a diagram showing a configuration of the
音声対話システム100aは、音声対話システム100との違いとして、キーワード抽出部110がキーワード抽出部110a、選択部140が選択部140aに置き換わり、単語重要度DB180及びキャッシュ190が追加されたものである。
The
単語重要度DB180は、複数の単語のそれぞれについて所定の基準に基づく重要度が定義されたデータベースである。所定の基準とは例えば、複数の話題やテーマのそれぞれに応じた基準である。また、重要度は、ある話題における文書集合の中に含まれる各単語について、単語の出現頻度等に基づいて算出されたものである。例えば、tf−idf(tf : Term Frequency, idf : Inverse Document Frequency)といった公知の技術を用いて重要度を算出することができる。または、各単語の重要度を話題ごとに人間が判断して予め設定したものであってもよい。
The
キャッシュ190は、複数の応答文の一部を記憶可能な部分記憶部である。つまり、キャッシュ190に記憶されるデータ量は、応答文DB170に保存されるデータ量より少ない。また、キャッシュ190は、応答文DB170を実現する記憶装置よりも高速な記憶装置、例えば、一次記憶装置等により実現しても構わない。
The
キーワード抽出部110aは、キーワード抽出部110の機能に加え、対話記録部160から複数の単語がキーワードとして抽出された場合、単語重要度DB180を参照し、当該抽出された複数の単語のうち、重要度が所定値以上の単語をキーワードとする。尚、所定値は任意に設定可能である。また、キーワード抽出部110aは、ユーザからの発話が新たに入力される前に実行される。例えば、直前の発話により選択部140aや出力部150の処理と並行して実行される。または、ユーザ200が次の発話を行う前、一定時間以上、間が空いている際に実行してもよい。
In addition to the function of the
選択部140aは、関連文選択部141と、応答文選択部142とを備える。関連文選択部141は、ユーザからの発話が新たに入力される前に、応答文DB170の中から抽出されたキーワードを含む複数の応答文(関連文)を選択する。そして、関連文選択部141は、選択した複数の応答文をキャッシュ190に格納する。応答文選択部142は、ユーザ200からの発話が新たに入力された後に、キャッシュ190の中から当該発話に含まれる単語に対応する応答文を選択する。尚、応答文選択部142における単語に対応する応答文の選択の仕方は、上記実施の形態1と同様に、単語に関連する他の単語を特定し、特定した他の単語を含む応答文を選択するようにしてもよい。
The
尚、本実施の形態においては、キーワード抽出部110a及び単語重要度DB180は、必須ではない。その場合であっても処理時間を短縮できる。そして、キーワード抽出部110a及び単語重要度DB180を用いることにより、応答文を選択する精度を向上させることができる。
In the present embodiment, the
図4は、本発明の実施の形態2にかかる応答処理の流れを示すフローチャートである。尚、以下では図2と同等の処理については説明を省略する。キーワード抽出部110aは、過去の対話記録と単語の重要度からキーワードを抽出する(S11a)。すなわち、キーワード抽出部110aは、直前の発話についての応答処理中又は応答処理後であって、次の発話が入力される前に、対話記録部160から複数の単語を抽出する。そして、キーワード抽出部110aは、抽出された各単語について重要度が所定値以上のものをキーワードとする。
FIG. 4 is a flowchart showing a flow of response processing according to the second embodiment of the present invention. In the following, description of processing equivalent to that in FIG. 2 is omitted. The
次に、関連文選択部141は、応答文DB170の中から、キーワードを含む複数の応答文を関連文として選択する(S11b)。尚、関連文選択部141は、応答文DB170内に応答文の一部を選択するものとする。そして、関連文選択部141は、選択した関連文をキャッシュ190に格納する(S11c)。
Next, the related
その後、図2と同様にステップS12及びS13が実行される。そして、応答文選択部142は、キャッシュ190からステップS13により抽出された単語に対応する応答文を選択する(S14a)。その後、図2と同様にステップS15及びS16が実行される。
Thereafter, steps S12 and S13 are executed as in FIG. Then, the response
このように、本実施の形態では、過去の対話記録に基づき応答文の候補を予めリストアップしておき、その後、発話された際にはリストアップされた(絞り込まれた)候補の中から応答文を選択することとなるため、処理時間を短縮できる。そのため、これまでの対話内容に基づき重要なキーワードが省略された発話がされた場合であっても、ユーザの意図を短時間で正確に把握できる。 As described above, in this embodiment, response sentence candidates are listed in advance based on past conversation records, and then, when uttered, responses are selected from the listed (restricted) candidates. Since the sentence is selected, the processing time can be shortened. Therefore, even if an utterance in which an important keyword is omitted based on the contents of the conversation so far, the user's intention can be accurately grasped in a short time.
<その他の発明の実施の形態>
尚、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述の実施の形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。
<Other embodiments of the invention>
Note that the present invention is not limited to the above-described embodiment, and can be modified as appropriate without departing from the spirit of the present invention. For example, in the above-described embodiment, the present invention has been described as a hardware configuration, but the present invention is not limited to this. The present invention can also realize arbitrary processing by causing a CPU (Central Processing Unit) to execute a computer program.
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、DVD(Digital Versatile Disc)、BD(Blu-ray(登録商標) Disc)、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。 In the above example, the program can be stored and supplied to a computer using various types of non-transitory computer readable media. Non-transitory computer readable media include various types of tangible storage media. Examples of non-transitory computer-readable media include magnetic recording media (for example, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (for example, magneto-optical disks), CD-ROMs (Read Only Memory), CD-Rs, CD-R / W, DVD (Digital Versatile Disc), BD (Blu-ray (registered trademark) Disc), semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM ( Random Access Memory)). The program may also be supplied to the computer by various types of transitory computer readable media. Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves. The temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
100 音声対話システム
100a 音声対話システム
110 キーワード抽出部
110a キーワード抽出部
120 発話受付部
130 単語抽出部
140 選択部
140a 選択部
141 関連文選択部
142 応答文選択部
150 出力部
160 対話記録部
170 応答文DB
180 単語重要度DB
190 キャッシュ
200 ユーザ
DESCRIPTION OF
180 word importance DB
190
Claims (5)
前記応答の候補を示す複数の応答文を予め記憶した応答文データベースと、
前記ユーザとの過去の対話内容を所定回数分記録する対話記録部と、
前記対話記録部から前記対話内容におけるキーワードを抽出するキーワード抽出部と、
前記ユーザから新たに発話が入力された場合に、当該発話に含まれる単語を抽出する単語抽出部と、
前記応答文データベース内に記憶された複数の応答文のうち、前記抽出された単語と前記抽出されたキーワードとに対応する応答文を選択する選択部と、
前記ユーザへ前記選択した応答文を前記発話に対する応答として音声により出力する出力部と、
を備える音声対話システム。 A spoken dialogue system that continuously conducts a dialogue that is a combination of an utterance from a user and a response to the utterance a plurality of times,
A response sentence database in which a plurality of response sentences indicating candidate responses are stored in advance;
A dialog recording unit for recording the past dialog content with the user a predetermined number of times;
A keyword extraction unit for extracting keywords in the dialogue content from the dialogue recording unit;
A word extraction unit that extracts a word included in the utterance when a new utterance is input from the user;
A selection unit that selects a response sentence corresponding to the extracted word and the extracted keyword among a plurality of response sentences stored in the response sentence database;
An output unit that outputs the selected response sentence to the user by voice as a response to the utterance;
A voice dialogue system comprising:
前記選択部は、
前記ユーザからの発話が新たに入力される前に、前記応答文データベースの中から前記抽出されたキーワードを含む複数の応答文を選択し、
前記選択した複数の応答文を前記部分記憶部に格納し、
前記ユーザからの発話が新たに入力された後に、前記部分記憶部の中から当該発話に含まれる単語を含む応答文を選択する
請求項1に記載の音声対話システム。 A partial storage unit capable of storing a part of the plurality of response sentences;
The selection unit includes:
Before a new utterance from the user is input, select a plurality of response sentences including the extracted keyword from the response sentence database;
Storing the selected plurality of response sentences in the partial storage unit;
The speech dialogue system according to claim 1, wherein a response sentence including a word included in the utterance is selected from the partial storage unit after a new utterance from the user is input.
前記キーワード抽出部は、前記対話記録部から複数の単語が前記キーワードとして抽出された場合、前記単語重要度データベースを参照し、当該抽出された複数の単語のうち、前記重要度が所定値以上の単語を前記キーワードとする
請求項1又は2に記載の音声対話システム。 A word importance database in which importance based on a predetermined criterion is defined for each of a plurality of words;
The keyword extracting unit refers to the word importance database when a plurality of words are extracted as the keyword from the dialogue recording unit, and the importance is equal to or higher than a predetermined value among the extracted words. The spoken dialogue system according to claim 1, wherein a word is the keyword.
請求項1乃至3のいずれか1項に記載の音声対話システム。 The selection unit specifies the extracted word or another word related to the extracted keyword, does not include any of the extracted word or the extracted keyword, and The voice dialogue system according to any one of claims 1 to 3, wherein a response sentence including a word is selected as the corresponding response sentence among the plurality of response sentences.
前記音声対話システムは、
前記応答の候補を示す複数の応答文を予め記憶した応答文データベースと、
前記ユーザとの過去の対話内容を所定回数分記録した対話記録部とを備え、
前記対話記録部から前記対話内容におけるキーワードを抽出し、
前記ユーザから新たに発話が入力された場合に、当該発話に含まれる単語を抽出し、
前記応答文データベース内に記憶された複数の応答文のうち、前記抽出された単語と前記抽出されたキーワードとに対応する応答文を選択し、
前記ユーザへ前記選択した応答文を前記発話に対する応答として音声により出力する
音声対話方法。 A voice dialogue method using a voice dialogue system that continuously performs a dialogue that is a combination of an utterance from a user and a response to the utterance a plurality of times,
The spoken dialogue system includes:
A response sentence database in which a plurality of response sentences indicating candidate responses are stored in advance;
A dialogue recording unit that records a past number of dialogues with the user a predetermined number of times,
Extracting keywords in the dialogue content from the dialogue recording unit,
When a new utterance is input from the user, a word included in the utterance is extracted,
Selecting a response sentence corresponding to the extracted word and the extracted keyword from a plurality of response sentences stored in the response sentence database;
A voice dialogue method for outputting the selected response sentence to the user by voice as a response to the utterance.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014022385A JP2015148758A (en) | 2014-02-07 | 2014-02-07 | Voice interactive system and voice interactive method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014022385A JP2015148758A (en) | 2014-02-07 | 2014-02-07 | Voice interactive system and voice interactive method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015148758A true JP2015148758A (en) | 2015-08-20 |
Family
ID=53892142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014022385A Pending JP2015148758A (en) | 2014-02-07 | 2014-02-07 | Voice interactive system and voice interactive method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015148758A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017191390A (en) * | 2016-04-12 | 2017-10-19 | ロボットスタート株式会社 | Communication system, communication log collection system, server, and communication method |
JP2019197183A (en) * | 2018-05-11 | 2019-11-14 | トヨタ自動車株式会社 | Voice interactive device |
JP2019211516A (en) * | 2018-05-31 | 2019-12-12 | トヨタ自動車株式会社 | Voice dialogue system, processing method of the same and program thereof |
CN111554298A (en) * | 2020-05-18 | 2020-08-18 | 北京百度网讯科技有限公司 | Voice interaction method, voice interaction equipment and electronic equipment |
CN113113002A (en) * | 2019-12-25 | 2021-07-13 | 斑马智行网络(香港)有限公司 | Vehicle voice interaction method and system and voice updating system |
-
2014
- 2014-02-07 JP JP2014022385A patent/JP2015148758A/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017191390A (en) * | 2016-04-12 | 2017-10-19 | ロボットスタート株式会社 | Communication system, communication log collection system, server, and communication method |
JP2019197183A (en) * | 2018-05-11 | 2019-11-14 | トヨタ自動車株式会社 | Voice interactive device |
JP2019211516A (en) * | 2018-05-31 | 2019-12-12 | トヨタ自動車株式会社 | Voice dialogue system, processing method of the same and program thereof |
US11170763B2 (en) | 2018-05-31 | 2021-11-09 | Toyota Jidosha Kabushiki Kaisha | Voice interaction system, its processing method, and program therefor |
JP7059813B2 (en) | 2018-05-31 | 2022-04-26 | トヨタ自動車株式会社 | Voice dialogue system, its processing method and program |
CN113113002A (en) * | 2019-12-25 | 2021-07-13 | 斑马智行网络(香港)有限公司 | Vehicle voice interaction method and system and voice updating system |
CN111554298A (en) * | 2020-05-18 | 2020-08-18 | 北京百度网讯科技有限公司 | Voice interaction method, voice interaction equipment and electronic equipment |
CN111554298B (en) * | 2020-05-18 | 2023-03-28 | 阿波罗智联(北京)科技有限公司 | Voice interaction method, voice interaction equipment and electronic equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11398236B2 (en) | Intent-specific automatic speech recognition result generation | |
US9978363B2 (en) | System and method for rapid customization of speech recognition models | |
US9154629B2 (en) | System and method for generating personalized tag recommendations for tagging audio content | |
US10019514B2 (en) | System and method for phonetic search over speech recordings | |
Żelasko et al. | Punctuation prediction model for conversational speech | |
US9442910B2 (en) | Method and system for adding punctuation to voice files | |
US10489451B2 (en) | Voice search system, voice search method, and computer-readable storage medium | |
EP2680165B1 (en) | System and method to perform textual queries on voice communications | |
US20160104482A1 (en) | Dynamically biasing language models | |
US9922650B1 (en) | Intent-specific automatic speech recognition result generation | |
JP2015148758A (en) | Voice interactive system and voice interactive method | |
US20140207451A1 (en) | Method and Apparatus of Adaptive Textual Prediction of Voice Data | |
WO2017020011A1 (en) | Searching the results of an automatic speech recognition process | |
JP2013025648A (en) | Interaction device, interaction method and interaction program | |
US20150178274A1 (en) | Speech translation apparatus and speech translation method | |
US8805871B2 (en) | Cross-lingual audio search | |
Moyal et al. | Phonetic search methods for large speech databases | |
US9747891B1 (en) | Name pronunciation recommendation | |
JP6208631B2 (en) | Voice document search device, voice document search method and program | |
JP6709558B2 (en) | Conversation processor | |
Tan et al. | Four-in-One: a joint approach to inverse text normalization, punctuation, capitalization, and disfluency for automatic speech recognition | |
JP2012173432A (en) | Voice interactive device and voice interactive method | |
Neergaard et al. | Graph theoretic approach to Mandarin syllable segmentation | |
JP6115487B2 (en) | Information collecting method, dialogue system, and information collecting apparatus | |
Tetariy et al. | An efficient lattice-based phonetic search method for accelerating keyword spotting in large speech databases |