JP2009198614A - Interaction device and program - Google Patents
Interaction device and program Download PDFInfo
- Publication number
- JP2009198614A JP2009198614A JP2008038069A JP2008038069A JP2009198614A JP 2009198614 A JP2009198614 A JP 2009198614A JP 2008038069 A JP2008038069 A JP 2008038069A JP 2008038069 A JP2008038069 A JP 2008038069A JP 2009198614 A JP2009198614 A JP 2009198614A
- Authority
- JP
- Japan
- Prior art keywords
- user
- question
- input
- request
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、対話装置及びプログラムに係り、特に、ユーザによる発話又は入力文に応答して対話する対話装置及びプログラムに関する。 The present invention relates to a dialog device and a program, and more particularly to a dialog device and a program for dialog in response to a user's utterance or input sentence.
従来より、利用者の音声に対する制限を行わずとも、精度よく利用者の要求内容を把握して、利用者とのやりとりをスムーズに行えるようにする音声対話装置が知られている(特許文献1)。この音声対話装置は、システム主導型の対話システムとユーザ主導型の対話システムとを混在させ、認識結果や対話履歴に応じて、2種類の対話システムを適切に切り替えることで、システム主導型対話の頑健性を保ちつつ、ユーザ主導型対話の柔軟性を有している。
しかしながら、上記の特許文献1に記載の技術では、想定外の入力に対しては、適切に応答することができない、という問題がある。例えば、音声認識の認識結果と共に出力される信頼度などを利用して、想定外の入力らしい時は、「もう一度言って下さい」などの定型文を応答することができるが、ユーザがシステムとは対話ができないと判断し、対話を中断してしまうため、対話を継続させることができない。
However, the technique described in
本発明は、上記の問題点を解決するためになされたもので、任意の入力に対して適切に応答することができ、対話を継続させることができる対話装置及びプログラムを提供することを目的とする。 The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a dialog device and a program that can appropriately respond to an arbitrary input and can continue the dialog. To do.
上記の目的を達成するために第1の発明に係る対話装置は、ユーザによる発話及び入力文の少なくとも一方を入力する入力手段と、前記入力手段への入力がない状態が継続する時間を計測する無入力時間計測手段と、前記入力手段に入力された前記発話及び入力文の少なくとも一方が、前記ユーザの要求又は質問を表わしているか否かを判定する要求質問判定手段と、前記無入力時間計測手段によって計測された時間が所定時間以上である場合には、前記ユーザとの対話が、自装置が自発的に情報を提供する情報提供型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていると判定された場合には、前記ユーザとの対話が、ユーザの要求又は質問に対して自装置が回答する質問応答型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていないと判定された場合には、前記ユーザとの対話が、ユーザが自発的に提供する情報を自装置が受理する情報受理型であると判別する対話型判別手段と、前記発話及び入力文の少なくとも一方に対して、前記対話型判別手段による判別結果に応じた応答文を生成する応答生成手段と、前記応答生成手段によって生成された応答文を出力する出力手段とを含んで構成されている。 In order to achieve the above object, an interactive apparatus according to a first aspect of the present invention measures an input means for inputting at least one of an utterance and an input sentence by a user and a time during which there is no input to the input means. Non-input time measurement means, request question determination means for determining whether or not at least one of the utterance and the input sentence input to the input means represents the user's request or question, and the non-input time measurement When the time measured by the means is a predetermined time or more, it is determined that the interaction with the user is an information providing type in which the device itself provides information voluntarily, and the request question determining means determines the user If it is determined that the user's request or question is expressed, it is determined that the dialogue with the user is a question answering type in which the device responds to the user's request or question, When it is determined that the user's request or question is not represented by the question determination unit, the dialogue with the user is an information reception type in which the device itself receives information that the user voluntarily provides. An interactive discriminating unit for discriminating; a response generating unit for generating a response sentence corresponding to a discrimination result by the interactive discriminating unit for at least one of the utterance and the input sentence; and a response generated by the response generating unit Output means for outputting a sentence.
第2の発明に係るプログラムは、コンピュータを、ユーザによる発話及び入力文の少なくとも一方を入力する入力手段への入力がない状態が継続する時間を計測する無入力時間計測手段、前記入力手段に入力された前記発話及び入力文の少なくとも一方が、前記ユーザの要求又は質問を表わしているか否かを判定する要求質問判定手段、前記無入力時間計測手段によって計測された時間が所定時間以上である場合には、前記ユーザとの対話が、自装置が自発的に情報を提供する情報提供型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていると判定された場合には、前記ユーザとの対話が、ユーザの要求又は質問に対して自装置が回答する質問応答型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていないと判定された場合には、前記ユーザとの対話が、ユーザが自発的に提供する情報を自装置が受理する情報受理型であると判別する対話型判別手段、及び前記発話及び入力文の少なくとも一方に対して、前記対話型判別手段による判別結果に応じた応答文を生成する応答生成手段として機能させるためのプログラムである。 According to a second aspect of the present invention, there is provided a non-input time measuring unit that measures a time during which a computer is not input to an input unit that inputs at least one of an utterance and an input sentence by a user. When the time measured by the requested question determination means and the non-input time measurement means for determining whether at least one of the uttered speech and the input sentence represents the user's request or question is a predetermined time or more In the case where it is determined that the dialogue with the user is an information providing type in which the device itself provides information voluntarily, and it is determined by the request question determination means that it represents the user's request or question Determining that the interaction with the user is a question answering type in which the device responds to the user's request or question, and the request question determining means If it is determined that it does not represent the user's request or question, the interactive determination for determining that the dialogue with the user is an information acceptance type in which the device itself accepts information that the user voluntarily provides And a program for functioning as at least one of the utterance and the input sentence as a response generation unit that generates a response sentence according to the determination result by the interactive determination unit.
第1の発明及び第2の発明によれば、入力手段に、ユーザによる発話及び入力文の少なくとも一方が入力される。また、無入力時間計測手段によって、入力手段への入力がない状態が継続する時間を計測する。 According to the first and second inventions, at least one of the user's utterance and the input sentence is input to the input means. Further, the non-input time measuring means measures the time during which the state where there is no input to the input means continues.
また、要求質問判定手段によって、入力手段に入力された発話及び入力文の少なくとも一方が、ユーザの要求又は質問を表わしているか否かを判定する。 Further, the request question determination unit determines whether at least one of the utterance and the input sentence input to the input unit represents a user request or a question.
そして、対話型判別手段によって、無入力時間計測手段によって計測された時間が所定時間以上である場合には、ユーザとの対話が、自装置が自発的に情報を提供する情報提供型であると判別する。また、要求質問判定手段によってユーザの要求又は質問を表わしていると判定された場合には、ユーザとの対話が、ユーザの要求又は質問に対して自装置が回答する質問応答型であると判別する。また、要求質問判定手段によってユーザの要求又は質問を表わしていないと判定された場合には、ユーザとの対話が、ユーザが自発的に提供する情報を自装置が受理する情報受理型であると判別する。 Then, when the time measured by the no-input time measuring means is equal to or longer than the predetermined time by the interactive discrimination means, the dialogue with the user is an information providing type in which the device itself provides information voluntarily. Determine. Further, when it is determined by the request question determination means that it represents a user request or question, it is determined that the dialogue with the user is a question response type in which the own device answers the user request or question. To do. Further, when it is determined by the request question determination means that it does not represent the user's request or question, the interaction with the user is an information reception type in which the device itself receives information that the user voluntarily provides Determine.
そして、応答生成手段によって、発話及び入力文の少なくとも一方に対して、対話型判別手段による判別結果に応じた応答文を生成する。出力手段によって、応答生成手段によって生成された応答文を出力する。 Then, the response generation means generates a response sentence corresponding to the determination result by the interactive determination means for at least one of the utterance and the input sentence. The response means generated by the response generation means is output by the output means.
このように、無入力時間、及び入力された発話又は入力文が要求又は質問を表わしているか否かに基づいて、ユーザとの対話の対話型分類が、情報提供型、質問応答型、及び情報受理型の何れであるかを判別し、応答文を生成することにより、任意の入力に対して適切に応答することができ、対話を継続させることができる。 Thus, based on whether there is no input time and whether the input utterance or input sentence represents a request or a question, the interactive classification of the dialog with the user is an information providing type, a question answering type, and an information type. It is possible to appropriately respond to an arbitrary input and continue the dialogue by determining which type is an acceptance type and generating a response sentence.
第3の発明に係る対話装置は、ユーザによる発話及び入力文の少なくとも一方を入力する入力手段と、前記入力手段への入力がない状態が継続する時間を計測する無入力時間計測手段と、前記入力手段に入力された前記発話及び入力文の少なくとも一方が、前記ユーザの要求又は質問を表わしているか否かを判定する要求質問判定手段と、前記無入力時間計測手段によって計測された時間が所定時間以上である場合には、前記ユーザとの対話が、自装置が自発的に質問する情報獲得型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていると判定された場合には、前記ユーザとの対話が、ユーザの要求又は質問に対して自装置が回答する質問応答型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていないと判定された場合には、前記ユーザとの対話が、ユーザが自発的に提供する情報を自装置が受理する情報受理型であると判別する対話型判別手段と、前記発話及び入力文の少なくとも一方に対して、前記対話型判別手段による判別結果に応じた応答文を生成する応答生成手段と、前記応答生成手段によって生成された応答文を出力する出力手段とを含んで構成されている。 An interactive apparatus according to a third aspect of the present invention is an input unit that inputs at least one of a user's utterance and an input sentence, a non-input time measuring unit that measures a time during which there is no input to the input unit, The request question determination means for determining whether or not at least one of the utterance and the input sentence input to the input means represents the user's request or question, and the time measured by the non-input time measurement means is predetermined. If it is more than the time, it is determined that the dialogue with the user is an information acquisition type in which the device voluntarily asks a question, and it is determined that the request question determination means represents the user's request or question. If it is determined that the dialogue with the user is a question answering type in which the user's own device answers the user's request or question, the request question determining means determines the user. If it is determined that the request or question is not represented, the dialog with the user is determined to be an information reception type in which the user apparatus accepts information that the user voluntarily provides; Response generation means for generating a response sentence corresponding to the determination result by the interactive determination means for at least one of the utterance and the input sentence; and output means for outputting the response sentence generated by the response generation means; It is comprised including.
第4の発明に係るプログラムは、コンピュータを、ユーザによる発話及び入力文の少なくとも一方を入力する入力手段への入力がない状態が継続する時間を計測する無入力時間計測手段、前記入力手段に入力された前記発話及び入力文の少なくとも一方が、前記ユーザの要求又は質問を表わしているか否かを判定する要求質問判定手段、前記無入力時間計測手段によって計測された時間が所定時間以上である場合には、前記ユーザとの対話が、自装置が自発的に質問する情報獲得型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていると判定された場合には、前記ユーザとの対話が、ユーザの要求又は質問に対して自装置が回答する質問応答型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていないと判定された場合には、前記ユーザとの対話が、ユーザが自発的に提供する情報を自装置が受理する情報受理型であると判別する対話型判別手段、及び前記発話及び入力文の少なくとも一方に対して、前記対話型判別手段による判別結果に応じた応答文を生成する応答生成手段として機能させるためのプログラムである。 According to a fourth aspect of the present invention, there is provided a non-input time measuring unit that measures a time during which a computer is not input to an input unit that inputs at least one of an utterance and an input sentence by a user. When the time measured by the requested question determination means and the non-input time measurement means for determining whether at least one of the uttered speech and the input sentence represents the user's request or question is a predetermined time or more In the case where it is determined that the dialogue with the user is an information acquisition type in which the device itself asks a question voluntarily, and the request question determination unit determines that the request or the question represents the user The dialogue with the user is determined to be a question response type in which the own device answers the user's request or question, and the user is asked by the request question determination means. If it is determined that it does not represent a request or a question, the interactive type discriminating means for discriminating that the dialogue with the user is an information accepting type in which the device itself accepts information that the user voluntarily provides; and It is a program for functioning as a response generation unit that generates a response sentence corresponding to a determination result by the interactive determination unit for at least one of the utterance and the input sentence.
第3の発明及び第4の発明によれば、入力手段に、ユーザによる発話及び入力文の少なくとも一方が入力される。また、無入力時間計測手段によって、入力手段への入力がない状態が継続する時間を計測する。 According to the third and fourth inventions, at least one of a user's utterance and an input sentence is input to the input means. Further, the non-input time measuring means measures the time during which the state where there is no input to the input means continues.
また、要求質問判定手段によって、入力手段に入力された発話及び入力文の少なくとも一方が、ユーザの要求又は質問を表わしているか否かを判定する。 Further, the request question determination unit determines whether at least one of the utterance and the input sentence input to the input unit represents a user request or a question.
そして、対話型判別手段によって、無入力時間計測手段によって計測された時間が所定時間以上である場合には、ユーザとの対話が、自装置が自発的に質問する情報獲得型であると判別する。また、要求質問判定手段によってユーザの要求又は質問を表わしていると判定された場合には、ユーザとの対話が、ユーザの要求又は質問に対して自装置が回答する質問応答型であると判別する。また、要求質問判定手段によってユーザの要求又は質問を表わしていないと判定された場合には、ユーザとの対話が、ユーザが自発的に提供する情報を自装置が受理する情報受理型であると判別する。 Then, when the time measured by the no-input time measuring means is equal to or longer than the predetermined time by the interactive discrimination means, it is determined that the dialogue with the user is an information acquisition type in which the device spontaneously asks a question. . Further, when it is determined by the request question determination means that it represents a user request or question, it is determined that the dialogue with the user is a question response type in which the own device answers the user request or question. To do. Further, when it is determined by the request question determination means that it does not represent the user's request or question, the interaction with the user is an information reception type in which the device itself receives information that the user voluntarily provides Determine.
そして、応答生成手段によって、発話及び入力文の少なくとも一方に対して、対話型判別手段による判別結果に応じた応答文を生成する。出力手段によって、応答生成手段によって生成された応答文を出力する。 Then, the response generation means generates a response sentence corresponding to the determination result by the interactive determination means for at least one of the utterance and the input sentence. The response means generated by the response generation means is output by the output means.
このように、無入力時間、及び入力された発話又は入力文が要求又は質問を表わしているか否かに基づいて、ユーザとの対話の対話型分類が、情報獲得型、質問応答型、及び情報受理型の何れであるかを判別し、応答文を生成することにより、任意の入力に対して適切に応答することができ、対話を継続させることができる。 Thus, based on whether there is no input time and whether the input utterance or input sentence represents a request or question, the interactive classification of user interaction is classified as an information acquisition type, a question response type, and an information type. It is possible to appropriately respond to an arbitrary input and continue the dialogue by determining which type is an acceptance type and generating a response sentence.
第5の発明に係る対話装置は、ユーザによる発話及び入力文の少なくとも一方を入力する入力手段と、前記入力手段への入力がない状態が継続する時間を計測する無入力時間計測手段と、前記入力手段に入力された前記発話及び入力文の少なくとも一方が、前記ユーザの要求又は質問を表わしているか否かを判定する要求質問判定手段と、ユーザと自装置との対話における、自装置が自発的に情報を提供する情報提供型、自装置が自発的に質問する情報獲得型、ユーザの要求又は質問に対して自装置が回答する質問応答型、及びユーザが自発的に提供する情報を自装置が受理する情報受理型からなる対話型分類の遷移履歴を記憶する遷移履歴記憶手段と、前記無入力時間計測手段によって計測された時間が所定時間以上である場合には、過去の判別結果及び前記遷移履歴に基づいて、前記ユーザとの対話が、前記情報提供型及び情報獲得型の何れかであると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていると判定された場合には、前記ユーザとの対話が、前記質問応答型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていないと判定された場合には、前記ユーザとの対話が、前記情報受理型であると判別する対話型判別手段と、前記発話及び入力文の少なくとも一方に対して、前記対話型判別手段による判別結果に応じた応答文を生成する応答生成手段と、前記応答生成手段によって生成された応答文を出力する出力手段とを含んで構成されている。 An interactive apparatus according to a fifth aspect of the present invention is an input unit that inputs at least one of an utterance and an input sentence by a user, a non-input time measuring unit that measures a time during which there is no input to the input unit, In the dialogue between the user and his / her own device, the own device spontaneously makes a decision as to whether or not at least one of the utterance and the input sentence input to the input device represents the user's request or question. Information provision type that provides information automatically, information acquisition type that self device voluntarily asks, question response type that self device answers user's request or question, and information that user provides voluntarily A transition history storage means for storing a transition history of an interactive classification consisting of an information acceptance type accepted by the apparatus, and a past time when the time measured by the no-input time measurement means is a predetermined time or more, Based on the determination result and the transition history, it is determined that the interaction with the user is either the information provision type or the information acquisition type, and the request question determination unit represents the request or question of the user. If it is determined that the dialogue with the user is the question answering type, and if it is determined by the request question determination means that it does not represent the user's request or question, An interactive type discriminating unit that discriminates that the dialogue with the user is the information acceptance type, and a response that generates a response sentence according to the discrimination result by the interactive type discriminating unit for at least one of the utterance and the input sentence The generating unit includes an output unit that outputs the response sentence generated by the response generating unit.
第6の発明に係るプログラムは、コンピュータを、ユーザによる発話及び入力文の少なくとも一方を入力する入力手段への入力がない状態が継続する時間を計測する無入力時間計測手段、前記入力手段に入力された前記発話及び入力文の少なくとも一方が、前記ユーザの要求又は質問を表わしているか否かを判定する要求質問判定手段、ユーザと自装置との対話における、自装置が自発的に情報を提供する情報提供型、自装置が自発的に質問する情報獲得型、ユーザの要求又は質問に対して自装置が回答する質問応答型、及びユーザが自発的に提供する情報を自装置が受理する情報受理型からなる対話型分類の遷移履歴を記憶する遷移履歴記憶手段、前記無入力時間計測手段によって計測された時間が所定時間以上である場合には、過去の判別結果及び前記遷移履歴に基づいて、前記ユーザとの対話が、前記情報提供型及び情報獲得型の何れかであると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていると判定された場合には、前記ユーザとの対話が、前記質問応答型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていないと判定された場合には、前記ユーザとの対話が、前記情報受理型であると判別する対話型判別手段、及び前記発話及び入力文の少なくとも一方に対して、前記対話型判別手段による判別結果に応じた応答文を生成する応答生成手段として機能させるためのプログラムである。 According to a sixth aspect of the present invention, there is provided a non-input time measuring unit that measures a time during which a computer is not input to an input unit that inputs at least one of an utterance and an input sentence by a user. Request question determination means for determining whether or not at least one of the uttered speech and input sentence represents the user's request or question, and the device itself provides information spontaneously in the dialogue between the user and the device Information-providing type, information-acquiring type in which the device itself asks questions, question-answering type in which the device responds to user requests or questions, and information that the device accepts information that the user voluntarily provides Transition history storage means for storing the transition history of the interactive type consisting of acceptance type, and when the time measured by the non-input time measuring means is a predetermined time or more, Based on the result and the transition history, it is determined that the interaction with the user is one of the information provision type and the information acquisition type, and the request question determination unit represents the user's request or question. If determined, it is determined that the dialogue with the user is the question answering type, and if it is determined by the request question determination means that it does not represent the user's request or question, the user Generating a response sentence according to a determination result by the interactive determination means for at least one of the utterance and the input sentence, and an interactive determination means for determining that the dialogue with the information acceptance type It is a program for functioning as a means.
第5の発明及び第6の発明によれば、入力手段に、ユーザによる発話及び入力文の少なくとも一方が入力される。また、無入力時間計測手段によって、入力手段への入力がない状態が継続する時間を計測する。 According to the fifth and sixth inventions, at least one of the user's utterance and the input sentence is input to the input means. Further, the non-input time measuring means measures the time during which the state where there is no input to the input means continues.
また、要求質問判定手段によって、入力手段に入力された発話及び入力文の少なくとも一方が、ユーザの要求又は質問を表わしているか否かを判定する。 Further, the request question determination unit determines whether at least one of the utterance and the input sentence input to the input unit represents a user request or a question.
そして、対話型判別手段によって、無入力時間計測手段によって計測された時間が所定時間以上である場合には、過去の判別結果及び遷移履歴に基づいて、ユーザとの対話が、情報提供型及び情報獲得型の何れかであると判別する。また、要求質問判定手段によってユーザの要求又は質問を表わしていると判定された場合には、ユーザとの対話が、質問応答型であると判別する。また、要求質問判定手段によってユーザからの要求又は質問を表わしていないと判定された場合には、ユーザとの対話が、情報受理型であると判別する。 Then, when the time measured by the no-input time measuring means is equal to or longer than the predetermined time by the interactive discrimination means, the dialogue with the user is based on the past discrimination result and the transition history. It is determined that it is one of acquisition type. Further, when it is determined by the request question determination means that it represents the user's request or question, it is determined that the dialogue with the user is a question response type. Further, when it is determined by the request question determination means that the request or question from the user is not represented, it is determined that the dialogue with the user is an information acceptance type.
そして、応答生成手段によって、発話及び入力文の少なくとも一方に対して、対話型判別手段による判別結果に応じた応答文を生成する。出力手段によって、応答生成手段によって生成された応答文を出力する。 Then, the response generation means generates a response sentence corresponding to the determination result by the interactive determination means for at least one of the utterance and the input sentence. The response means generated by the response generation means is output by the output means.
このように、無入力時間、対話型分類の遷移履歴、及び入力された発話又は入力文が要求又は質問を表わしているか否かに基づいて、ユーザとの対話の対話型分類が、情報提供型、情報獲得型、質問応答型、及び情報受理型の何れであるかを判別し、応答文を生成することにより、任意の入力に対して適切に応答することができ、対話を継続させることができる。 Thus, based on the no-input time, the transition history of the interactive classification, and whether or not the input utterance or input sentence represents a request or question, the interactive classification of the dialog with the user is an information provision type. It is possible to respond appropriately to any input and continue the dialogue by discriminating whether it is information acquisition type, question answering type, or information receiving type and generating a response sentence it can.
第5の発明に係る対話型判別手段は、要求質問判定手段によってユーザの要求又は質問を表わしていないと判定された場合には、過去の判別結果及び遷移履歴に基づいて、ユーザとの対話が、情報受理型及び情報獲得型の何れかであると判別することができる。これによって、入力された発話又は入力文が要求又は質問を表わしていない場合に、情報受理型及び情報獲得型の何れかであるかを更に判別することにより、任意の入力に対してより適切に応答することができる。 In the interactive discrimination means according to the fifth invention, when it is determined that the request question determination means does not represent the user's request or question, the dialogue with the user is performed based on the past determination result and the transition history. Therefore, it can be determined that the information reception type or the information acquisition type. As a result, when the input utterance or input sentence does not represent a request or a question, it is more appropriate for any input by further determining whether it is an information acceptance type or an information acquisition type. Can respond.
第1の発明及び第5の発明に係る応答生成手段は、情報提供型であると判別された場合、ユーザに提供するための情報を複数記憶した情報データベースに記憶された複数の情報から選択した情報を用いて、応答文を生成することができる。 The response generating means according to the first and fifth inventions, when determined to be of the information providing type, has selected from a plurality of information stored in an information database storing a plurality of information for providing to the user A response sentence can be generated using the information.
上記の応答生成手段は、質問応答型であると判別された場合、質問文又は要求文と質問文又は要求文に対する回答文とを対応させて記憶した質問回答データベースに記憶された質問文又は要求文から、発話及び入力文の少なくとも一方が表わす要求又は質問に対応する質問文又は要求文を検索し、検索された前記質問文又は要求文に対する回答文を用いて、応答文を生成することができる。 When it is determined that the response generation means is a question response type, the question sentence or request stored in the question answer database in which the question sentence or request sentence and the answer sentence to the question sentence or request sentence are stored in association with each other Searching a question sentence or request sentence corresponding to a request or question represented by at least one of an utterance and an input sentence from a sentence, and generating a response sentence using an answer sentence to the searched question sentence or request sentence it can.
上記の対応装置は、入力手段によって入力された発話及び入力文の少なくとも一方の構造を解析する解析手段を更に含み、応答生成手段は、情報受理型であると判別された場合、構造と構造に対する応答文とを対応させて記憶した応答データベースに記憶され、かつ、解析手段によって解析された構造に対応する応答文を用いて、応答文を生成することができる。 The corresponding device further includes an analysis unit that analyzes the structure of at least one of the utterance and the input sentence input by the input unit, and the response generation unit determines that the structure and the structure are in a case where the response generation unit is determined to be an information reception type. The response sentence can be generated using the response sentence stored in the response database stored in correspondence with the response sentence and corresponding to the structure analyzed by the analyzing means.
第3の発明及び第5の発明に係る応答生成手段は、情報獲得型であると判別された場合、ユーザへの質問文又は要求文を複数記憶した質問要求データベースに記憶された複数の質問文から選択した質問文を用いて、応答文を生成することができる。 When it is determined that the response generation means according to the third and fifth inventions is an information acquisition type, a plurality of question sentences stored in a question request database storing a plurality of question sentences or request sentences to the user A response sentence can be generated using the question sentence selected from the above.
上記の入力手段は、ユーザによる発話を入力し、要求質問判定手段は、入力手段から入力された発話について、音声の特徴量を抽出し、抽出した特徴量と、予め求められた質問又は要求を表わす発話の特徴量とを比較して、発話及び入力文の少なくとも一方が、ユーザの要求又は質問を表わしているか否かを判定することができる。 The input means inputs an utterance by the user, and the request question determination means extracts a voice feature amount for the utterance input from the input means, and extracts the extracted feature amount and a previously obtained question or request. It is possible to determine whether or not at least one of the utterance and the input sentence represents the user's request or question by comparing with the feature amount of the expressed utterance.
以上説明したように、本発明の対話装置及びプログラムによれば、無入力時間、及び入力された発話又は入力文が要求又は質問を表わしているか否かに基づいて、ユーザとの対話の対話型分類を判別し、応答文を生成することにより、任意の入力に対して適切に応答することができ、対話を継続させることができる、という効果が得られる。 As described above, according to the dialogue apparatus and program of the present invention, the interactive type of dialogue with the user is based on the no-input time and whether or not the inputted utterance or input sentence represents a request or a question. By discriminating the classification and generating a response sentence, it is possible to appropriately respond to an arbitrary input and to obtain an effect that the dialogue can be continued.
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態では、ユーザの発話に対して音声を利用して応答する対話装置に本発明を適用した場合について説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the present embodiment, a case will be described in which the present invention is applied to an interactive device that responds to a user's utterance using speech.
図1に示すように、第1の実施の形態に係る対話装置10は、マイクロホンで構成され、かつ、ユーザ発話を集音して音声信号を生成する入力部12と、入力部12によって入力された音声信号に基づいて、応答発話を生成するコンピュータ14と、スピーカで構成され、かつ、生成された応答発話を音声出力する音声出力部16とを備えている。
As shown in FIG. 1, an
コンピュータ14は、CPUと、RAMと、後述する応答生成処理ルーチンを実行するためのプログラムを記憶したROMとを備え、機能的には次に示すように構成されている。コンピュータ14は、入力部12から入力された信号から、入力音声を示す音声信号を切り出す音声切り出し部20と、入力部12から入力される信号に基づいて、入力音声が入力されない状態が継続している無入力時間を計測する無入力時間カウンタ22と、認識用辞書データベース(図示省略)に登録された単語を参照して、音声信号に基づいて、ユーザ発話を認識する音声認識部24と、音声信号に基づいて、音声の特徴量(例えば、継続長や基本周波数など)を抽出する特徴量抽出部26と、遷移履歴として、ユーザとの対話における後述する4種類の対話型分類の遷移確率を記憶した遷移確率記憶部28と、後述する対話型分類判別部34によって前回判別された結果を記憶する判別結果記憶部30と、記憶された遷移確率と前回の判別結果とに基づいて、現在の対話が各対話型分類である確率を算出する確率算出部32と、無入力時間カウンタ22によって計測された無入力時間、音声認識部24による認識結果、特徴量抽出部26によって抽出された特徴量、及び確率算出部32によって算出された確率に基づいて、ユーザとの対話を、4種類の対話型分類の何れかに判別する対話型分類判別部34とを備えている。
The
ここで、4種類の対話型分類について説明する。ユーザとの対話は、対話装置10がユーザに対して自発的に情報を提供する情報提供型対話、対話装置10がユーザに対して自発的に質問する情報獲得型対話、ユーザの要求又は質問に対して対話装置10が回答する質問応答型対話、及びユーザが自発的に提供する情報を対話装置10が受理する情報受理型対話の4種類の対話型分類に分類される。
Here, four types of interactive classification will be described. The dialogue with the user is an information providing dialogue in which the
情報提供型対話は、対話装置10側に対話の主導権があり、かつ、対話装置10が情報を提供することを想定した対話であり、対話装置10の状態や対話装置10に記憶された情報を、対話装置10が自発的にユーザに提供する対話である。例えば、ユーザが対話装置10に接近した場合や、対話装置10の前でユーザが無言でいる場合に、対話装置10が保持している情報(ニュースや、天気情報、対話装置10の扱い方に関する情報など)をユーザに提供する。
The information provision type dialogue is a dialogue on the assumption that the
情報獲得型対話は、対話装置10側に対話の主導権があり、かつ、ユーザが対話装置10に対して情報を提供することを想定した対話であり、ユーザ自身の情報や要求、あるいは、ユーザが知っている情報に関して、対話装置10が自発的に質問する対話である。例えば、対話装置10が、ユーザに提供すべき情報を絞り込むために必要なユーザ情報を取得するための対話(「何について知りたい?」や「今日は何見に来たの?」など)をしたり、対話を継続させるための対話をしたりする。
The information acquisition type dialogue is a dialogue on the assumption that the
質問応答型対話は、ユーザ側に対話の主導権があり、かつ、対話装置10がユーザに対して情報を提供することを想定した対話であり、対話装置10が、ユーザからの質問に対する回答を検索して回答する対話である。例えば、ユーザからの質問又は要求(「トイレはどこ?」や「何時までやってるの?」など)に対し、質問や要求の答えとなる情報をデータベースから検索して、ユーザに提供する。
The question answering type dialogue is a dialogue on the assumption that the user has the initiative of the dialogue and the
情報受理型対話は、ユーザ側に対話の主導権があり、かつ、ユーザが対話装置10に対して情報を提供することを想定した対話であり、ユーザ自身の情報やユーザが知っている情報など、ユーザが自発的に提供する情報を、対話装置10が受理する対話である。例えば、ユーザからの質問又は要求以外の入力に対し、相槌を返したり(例えば、「僕、あっくんです。」に対して「へぇそうなんだ。」と応答する。)、問い返したり(例えば、「遊びに来たよ。」に対して「誰と来たの?」と応答する。)、話題を広げたり(例えば、「今日は天気がいいね。」に対して「洗濯物が良く乾くね。」と応答する。)して、上記の情報提供型対話、情報獲得型対話、及び質問応答型対話では想定していない入力に対して、可能な限り広く待ち受け、対話を継続させるための対話をする。
The information-accepting dialogue is a dialogue on the assumption that the user has the initiative of the dialogue and the user provides information to the
音声認識部24は、入力音声に基づいて、ユーザ発話を認識すると共に、各認識結果に対する信頼度を出力する。例えば、入力された発話が「今日の天気は?」であるとき、認識結果として、「今日の天気は?」、「今日天気。」、及び「今日天気がいい。」が得られると共に、「今日の天気は?」に対する信頼度「0.8」、「今日天気。」に対する信頼度「0.5」、及び「今日天気がいい。」に対する信頼度「0.3」が得られる。
The
特徴量抽出部25は、入力された音声信号から、音声の特徴量として基本周波数を抽出する。特徴量抽出部25により抽出される基本周波数に基づいて、音声の韻律が上がっているか否かを判断することができる。 The feature quantity extraction unit 25 extracts a fundamental frequency as a voice feature quantity from the input voice signal. Based on the fundamental frequency extracted by the feature amount extraction unit 25, it can be determined whether or not the prosody of the speech is raised.
遷移確率記憶部28は、図2に示すような、上記の4種類の対話型分類の遷移確率が遷移履歴を示す情報として記憶されている。ここで、遷移確率a_xyは、以下のように算出される。
In the transition
まず、WOZ(Wizard of OZ)実験などで、以下に示すような正解の対話遷移履歴データを作成する。
ユーザ:遊びに来たよ。
対話装置:こんにちは、誰と来たの?(情報受理型対話)
ユーザ:友達と来たよ。
対話装置:へぇそうなんだ。(情報受理型対話)
対話装置:今日は○○が展示してあるよ。(情報提供型対話)
ユーザ:○○って何?
対話装置:今話題の××だよ。あの有名な△△が製作したものだよ。(質問応答型対話)
対話装置:○○に興味ある?(情報獲得型対話)
そして、上記のような対話遷移履歴データ(初期状態→情報受理型対話→情報受理型対話→情報提供型対話→質問応答型対話→情報獲得型対話)から、以下に(1)式に従って、対話型分類x→対話型分類yに遷移する遷移確率a_xyを計算する。
a_xy=
(対話型分類xから対話型分類yに遷移した回数)/(対話型分類xにいた回数)
・・・(1)
ただし、情報提供型対話を対話型分類1とし、情報獲得型対話を対話型分類2とし、質問応答型対話を対話型分類3とし、情報受理型対話を対話型分類4とする。
First, in the WOZ (Wizard of OZ) experiment or the like, correct dialogue transition history data as shown below is created.
User: I came to play.
The interactive device: Hello, Who did you come? (Information-accepting dialogue)
User: I came with a friend.
Dialogue device: Yeah. (Information-accepting dialogue)
Dialogue device: XX is on display today. (Information-providing dialogue)
User: What is XX?
Dialogue device: It's the topic of xx now. That famous △△ made it. (Question answering dialogue)
Dialogue device: Are you interested in XX? (Information acquisition dialogue)
From the above dialog transition history data (initial state → information acceptance type dialogue → information acceptance type dialogue → information provision type dialogue → question answer type dialogue → information acquisition type dialogue) A transition probability a_xy for transition from the type classification x to the interactive classification y is calculated.
a_xy =
(Number of times of transition from interactive classification x to interactive classification y) / (Number of times of interactive classification x)
... (1)
However, the information provision type dialogue is assumed to be
複数の対話遷移履歴データから、上記(1)式を用いて、4種類の対話型分類の遷移の全組み合わせについて遷移確率を算出して、遷移確率記憶部28に記憶する。
From the plurality of dialog transition history data, the transition probability is calculated for all combinations of transitions of the four types of interactive classification using the above equation (1), and stored in the transition
確率算出部32は、遷移確率記憶部28に記憶された遷移確率と、判別結果記憶部30に記憶された前回の判別結果としての対話型分類とに基づいて、前回の判別結果の対話型分類から所定の対話型分類への遷移確率を、現在の判別対象の対話の対話型分類が所定の対話型分類である確率として算出する。
Based on the transition probability stored in the transition
対話型分類判別部34は、無入力時間カウンタ22によって計測された無入力時間が、5秒以上であると、確率算出部32によって算出された情報提供型対話である確率及び情報獲得型対話である確率に基づいて、現在のユーザとの対話が、情報提供型対話及び情報獲得型対話の何れかであると判別する。また、音声切り出し部20によって入力音声が切り出された場合には、音声認識部24の結果及び特徴量抽出部26によって抽出された音声の特徴量に基づいて、ユーザからの発話が、質問又は要求であるか否かを判定する。
When the no-input time measured by the no-
質問又は要求であるか否かの判定では、音声認識部24で得られた信頼度が最も高い音声認識結果の文末の構造が、質問文又は要求文の構造(例えば、「〜か?」、「〜教えて」、又は「〜したい」)と同一であれば、ユーザからの発話が、質問又は要求であると判定する。また、音声の特徴量としての基本周波数を、予め求められた質問又は要求であるときの基本周波数(音声の最後で右上りになる基本周波数)と比較して、抽出された基本周波数と、質問又は要求であるときの予め求められた基本周波数とが類似していれば、ユーザからの発話が、質問又は要求であると判定する。
In the determination as to whether or not it is a question or a request, the structure at the end of the speech recognition result with the highest reliability obtained by the
上記のように、ユーザからの発話が、質問又は要求であると判定された場合には、現在のユーザとの対話が、質問応答型対話であると判別し、質問又は要求でないと判定された場合には、確率算出部32によって算出された情報獲得型対話である確率及び情報受理型対話である確率に基づいて、現在のユーザとの対話が、情報獲得型対話及び情報受理型対話の何れかであると判別する。
As described above, when it is determined that the utterance from the user is a question or a request, it is determined that the current interaction with the user is a question answering-type interaction, and is determined not to be a question or a request. In this case, based on the probability of the information acquisition type dialogue and the probability of the information reception type dialogue calculated by the
また、対話装置10のコンピュータ14は、音声認識部24によって認識されたユーザからの発話、及び後述する応答生成部38によって生成された応答文を対話履歴として記憶する対話履歴記憶部36と、対話型分類判別部34によって判別された対話型分類、音声認識部24によって認識されたユーザからの発話、及び対話履歴記憶部36に記憶された対話履歴に基づいて、ユーザからの発話に対する応答文を生成する応答生成部38とを備えている。
In addition, the
応答生成部38は、図3に示すように、対話型分類判別部34により情報提供型対話であると判別されたときに、情報提供型対話に応じた応答文を生成する情報提供型応答生成部42と、対話型分類判別部34により情報獲得型対話であると判別されたときに、情報獲得型対話に応じた応答文を生成する情報獲得型応答生成部44と、対話型分類判別部34により質問応答型対話であると判別されたときに、質問応答型対話に応じた応答文を生成する質問応答型応答生成部46と、対話型分類判別部34により情報受理型対話であると判別されたときに、情報受理型対話に応じた応答文を生成する情報受理型応答生成部48とを備えている。
As illustrated in FIG. 3, the
情報提供型応答生成部42は、ユーザに提供する情報を複数記憶した情報データベース42Aと、対話履歴記憶部36に記憶された対話履歴と情報データベース42Aの情報とに基づいて、情報提供型対話に応じた応答文を生成する応答文生成部42Bとを備えている。応答文生成部42Bは、対話履歴を利用して、情報データベース42Aからまだ出力されていない情報を選出し、選出された情報から、対話履歴から得られる前回のユーザからの発話に含まれる単語と最も関連深い情報を選択し、選択された情報を用いて応答文を生成する。
Based on the information database 42A storing a plurality of pieces of information to be provided to the user, the dialogue history stored in the dialogue
例えば、まだ出力されていない情報が、「今日は天気がいいね」や「今日は○○○が展示してあるよ」などであり、前回のユーザからの発話が「こんにちは」である場合には、「今日は天気がいいね」を選択して応答文を生成する。 For example, information that has not yet been output, and the like "I today are exhibited is ○○○", "weather It would be a good today" and, if the utterance from the previous user is "Hello" Selects “I like the weather today” and generates a response sentence.
情報獲得型応答生成部44は、ユーザへの質問文を複数記憶した質問データベース44Aと、対話履歴記憶部36に記憶された対話履歴と質問データベース44Aの質問文とに基づいて、情報獲得型対話に応じた応答文を生成する応答文生成部44Bとを備えている。応答文生成部44Bは、対話履歴を利用して、質問データベース44Aからまだ出力されていない質問文を選出し、選出された質問文から、対話履歴から得られる前回のユーザからの発話に含まれる単語と最も関連深い質問文を選択し、選択された質問文を用いて応答文を生成する。また、質問データベース44Aの中に、対話装置10が最も知りたい質問を示す質問文が存在する場合には、最も知りたい質問を示す質問文を選択し、選択された質問文を用いて応答文を生成する。
The information acquisition type
例えば、まだ出力されていない質問文が、「何について知りたい?」や「○○○(例えば、展示物の名称)に興味ある?」などであり、最も知りたい質問を示す質問文が「○○○(展示物の名称)に興味ある?」である場合には、「○○○(展示物の名称)に興味ある?」を選択して応答文を生成する。 For example, a question sentence that has not been output yet is “What do you want to know?” Or “Is you interested in XX (for example, the name of an exhibit?)? If it is “Is interested in the name of the exhibit?”, The user selects “Are you interested in the name of the exhibit?” And generates a response sentence.
質問応答型応答生成部46は、ユーザからの質問文又は要求文と質問文又は要求文に対する回答文とを対応させて複数記憶した質問回答データベース46Aと、対話履歴記憶部36に記憶された対話履歴と質問回答データベース46Aの回答文とに基づいて、質問応答型対話に応じた応答文を生成する応答文生成部46Bとを備えている。応答文生成部46Bは、対話履歴を利用して、質問回答データベース46Aからまだ出力されていない回答文を選出し、選出された回答文に対応する質問文から、音声認識部24から得られたユーザからの発話に最も一致する質問文を選択し、選択された質問文に対する回答文を用いて応答文を生成する。
The question response type
例えば、まだ出力されていない回答文が、「案内カウンタの右奥にあるよ」や「2F特別展示室にあるよ」であり、これらの回答文に対する質問文「トイレはどこ?」及び「○○(展示物の名称)はどこにある?」から、音声認識結果である「トイレは?」に最も類似する質問文「トイレはどこ?」を選択し、選択された質問文に対応する回答文「案内カウンタの右奥にあるよ」を用いて応答文を生成する。 For example, the answer sentences that have not yet been output are “I am in the right back of the guide counter” and “I am in the 2F special exhibition room”, and the question sentences “Where is the toilet?” And “○” ○ From "Where is the name of the exhibit?", Select the question sentence "Where is the toilet?" That is most similar to the voice recognition result "Where is the toilet?", And the answer sentence corresponding to the selected question sentence A response sentence is generated using “I'm right behind the guide counter”.
情報受理型応答生成部48は、文構造と文構造に対する応答文とを対応させて複数記憶した応答データベース48Aと、音声認識部24から得られたユーザからの発話の構造を解析する構造解析部48Cと、構造解析部48Cによって解析されたユーザからの発話の構造と応答データベース48Aの応答文とに基づいて、情報受理型対話に応じた応答文を生成する応答文生成部48Bとを備えている。
The information reception type
構造解析部48Cは、音声認識部24から得られたユーザからの発話に対して形態素解析を行い、また、単語辞書を用いて、ユーザからの発話の構造(品詞や意味)を解析する。応答文生成部48Bは、応答データベース48Aを利用して、構造解析部48Cにより解析された構造に対する応答文の候補を複数生成し、対話履歴を利用して、最も自然な応答文の候補を選択して、ユーザ発話に対する応答文を生成する。
The
例えば、「○○(人名)」というキーワードに対する応答文が「へぇそうなんだ。」であり、「天気」や「良い」というキーワードに対する応答文が「選択物がよく乾くね」であり、「来たよ」という述語に対する応答文が「誰と来たの?」であり、「見たよ」という述語に対する応答文が「いつ見たの?」である場合、音声認識結果であるユーザ発話「あっくんと遊びに来たよ」から、「あっくん」という人名と、「来たよ」という述語とが構造として得られると、応答文の候補として「誰と来たの?」及び「へぇそうなんだ。」が生成される。そして、対話履歴を利用して、最も自然な応答文として、「へぇそうなんだ。」が選択され、応答文が生成される。 For example, the response sentence for the keyword “XX (person name)” is “Yes”, the response sentence for the keyword “weather” or “good” is “the selection is dry well” If the response to the predicate “Tayo” is “Who are you with?” And the response to the predicate “I saw you” is “When did you see it?”, The user's utterance “Akkun When the name “Aku” and the predicate “I came” are obtained as a structure from “I came to play,” “Who are you?” And “Hey, are n’t you?” Is done. Then, using the conversation history, “Hey is so” is selected as the most natural response sentence, and a response sentence is generated.
次に、本実施の形態の原理について説明する。ユーザと対話装置との対話には、対話の主導権がユーザ側及び対話装置型の何れにあるかで、対話装置主導型の対話とユーザ主導型の対話の2種類がある。対話装置主導型の対話装置は、対話装置が応答できる応答をユーザに示すことができるが、ユーザが入力したいことを直接入力することができない、という問題がある。そこで、本実施の形態に係る対話装置10では、ユーザが入力したいことを直接入力した場合に、質問応答型対話に応じた応答文を生成して、ユーザの発話に対して応答する。
Next, the principle of this embodiment will be described. There are two types of dialogues between the user and the dialogue device, depending on whether the user has the initiative of dialogue or the dialogue device type, the dialogue device-led dialogue and the user-led dialogue. The interactive device initiative type interactive device can show the user a response that the interactive device can respond to, but has a problem that the user cannot directly input what he / she wants to input. Therefore, in the
また、ユーザ主導型の対話装置は、ユーザの入力を待ち受け、入力に応じた応答を返すことができるが、ユーザの入力がない場合には、対話が成立しない、という問題がある。そこで、本実施の形態では、情報提供型対話に応じた応答文を生成して、ユーザの入力がない場合であっても対話を成立させる。 In addition, the user-initiated interactive device can wait for a user input and return a response according to the input, but there is a problem that a dialog is not established if there is no user input. Therefore, in this embodiment, a response sentence corresponding to the information provision type dialogue is generated, and the dialogue is established even when there is no user input.
また、対話装置主導型及びユーザ主導型のどちらの対話装置においても、擬人化された対話装置(2次元キャラクタ、動物・人型ロボットなどの形状をしていて、人間的な言葉を発する対話装置)を用いた場合には、対話装置として任意の入力を受け付けることができないにもかかわらず、ユーザは対人と同等の入力を対話装置に対して行なうことがある。例えば、展示場などに設置された音声入力可能な館内案内システム(展示場に関する発声「トイレはどこ?」や「何時までやってるの?」などを待ち受けている)に、館内案内システムとしては受け付けていない入力(例えば、「僕は、あっくんです。」、「遊びに来たよ。」、及び「今日は天気がいいね。」)があると(人間の心理的傾向で志向姿勢と呼ばれる。)、想定外の入力により、システムが誤応答したり、受け付けない発話として破棄(リジェクション)してしまう、という問題がある。システムが誤応答したり、「別の言い方で言って下さい。」などのリジェクション時の定型文を返すと、ユーザは、対話装置とは対話ができないと判断して、対話をやめてしまう。 In both interactive device-driven and user-driven interactive devices, anthropomorphic interactive devices (two-dimensional characters, animal / humanoid robots, etc., which generate human language) ), The user may make an input equivalent to that of a person to the dialog device even though the dialog device cannot accept any input. For example, an in-house guidance system installed in an exhibition hall that accepts voice input (waiting for utterances such as “Where is the toilet?” Or “What time are you waiting?”) (For example, “I'm so happy.”, “I'm coming to play.”, And “I like the weather today.”) There is a problem that the system erroneously responds due to an unexpected input or is discarded (rejected) as an unacceptable utterance. If the system responds incorrectly or returns a fixed phrase at the time of rejection such as “Please say in another way”, the user decides that he / she cannot interact with the dialog device and stops the dialog.
想定外発話の多くがユーザからの情報提供である場合が多いため、本実施の形態の対話装置10では、ユーザから任意の入力が行なわれる場合に、情報獲得型対話又は情報受理型対話に応じた応答文を生成して、ユーザからの発話に応答する。
Since many of the unexpected utterances are often information provision from the user, the
上記のように、本実施の形態では、任意の入力に対し、ユーザとの対話を対話型分類に判別し、判別された対話型分類に応じた応答生成を行ことにより、想定外発話に対しても適切に受け付けることができる。 As described above, in the present embodiment, for an arbitrary input, an interaction with the user is determined as an interactive classification, and a response is generated according to the determined interactive classification. Can be accepted properly.
以下、上記のコンピュータ22で実行される応答生成処理ルーチンについて図4を用いて説明する。まず、ステップ100において、無入力時間の測定を開始し、次のステップ102において、入力部12から入力された信号から、入力音声を示す音声信号が切り出されたか否かを判定する。入力部12によってユーザによる発話に応じた音声信号が生成され、入力音声を示す音声信号が切り出されると、ステップ104において、認識用辞書データベースに登録された単語を参照して、入力された音声信号に基づいて、ユーザ発話を認識すると共に、認識されたユーザ発話の各々について信頼度を算出する。
Hereinafter, the response generation processing routine executed by the
そして、ステップ106では、音声の特徴量として、入力された音声信号の基本周波数を抽出し、ステップ108において、上記ステップ104で認識された信頼度が最も高いユーザ発話、及び上記ステップ106で抽出された音声信号の基本周波数に基づいて、ユーザからの発話が、質問又は要求を表わしているか否かを判定する。
In
上記ステップ108で、ユーザからの発話が、質問又は要求を表わしていると判定されると、ユーザとの対話が質問応答型対話であると判別し、ステップ110において、上記ステップ104で認識されたユーザからの発話、及び質問回答データベース46Aに基づいて、ユーザからの発話に対して、質問応答型対話に応じた応答文を生成して、音声出力部16に出力して、応答生成処理ルーチンを終了する。
If it is determined in
また、上記ステップ108で、ユーザからの発話が、質問又は要求を表わしていないと判定されると、ステップ112において、遷移確率記憶部28に記憶された遷移確率と前回の判別結果とに基づいて、現在のユーザとの対話が情報獲得型対話である確率及び情報受理型対話である確率の各々を算出する。そして、ステップ114で、上記ステップ112で算出された情報受理型対話である確率が情報獲得型対話である確率より大きいか否かを判定する。上記ステップ114で、情報受理型対話である確率が情報獲得型対話である確率より大きい場合には、ユーザとの対話が情報受理型対話であると判別し、ステップ116において、上記ステップ104で認識されたユーザからの発話の構造を解析し、解析されたユーザからの発話の構造及び応答データベース48Aに基づいて、ユーザからの発話に対して、情報受理型対話に応じた応答文を生成して、生成された応答文を音声合成し、音声出力部16に出力して、応答生成処理ルーチンを終了する。
If it is determined in
上記ステップ114で、情報獲得型対話である確率が情報受理型対話である確率以下である場合には、ユーザとの対話が情報獲得型対話であると判別し、ステップ118において、記憶された対話履歴及び前回のユーザの発話に基づいて、情報獲得型対話に応じた応答文を生成して、生成された応答文を音声合成し、音声出力部16に出力して、応答生成処理ルーチンを終了する。
If the probability of the information acquisition dialogue is equal to or less than the probability of the information acceptance dialogue in
上記ステップ102で、入力部12から入力された信号から、音声信号が切り出されなかった場合には、ステップ120において、測定された無入力時間が、5秒以上であるか否かを判定し、ユーザから音声が入力されない時間が5秒未満である場合には、ステップ102へ戻る。一方、上記ステップ120において、測定された無入力時間が、5秒以上であると判定されると、ステップ122において、遷移確率記憶部28に記憶された遷移確率と前回の判別結果とに基づいて、現在のユーザとの対話が情報提供型対話である確率及び情報獲得型対話である確率の各々を算出する。そして、ステップ124で、上記ステップ122で算出された情報提供型対話である確率が、情報獲得型対話である確率より大きいか否かを判定する。上記ステップ124で、情報提供型対話である確率が情報獲得型対話である確率より大きい場合には、ユーザとの対話が情報提供型対話であると判別し、ステップ126において、記憶された対話履歴、前回のユーザからの発話、及び情報データベース42Aに基づいて、ユーザからの発話に対して、情報提供型対話に応じた応答文を生成して、生成された応答文を音声合成し、音声出力部16に出力して、応答生成処理ルーチンを終了する。
If the audio signal is not cut out from the signal input from the
一方、上記ステップ124で、情報獲得型対話である確率が情報提供型対話である確率以上である場合には、ユーザとの対話が情報獲得型対話であると判別し、上記ステップ118へ移行し、情報獲得型対話に応じた応答文を生成して、生成された応答文を音声合成し、音声出力部16に出力して、応答生成処理ルーチンを終了する。
On the other hand, if the probability of the information acquisition type dialogue is greater than or equal to the probability of the information provision type dialogue in
そして、上記のように生成された応答文が、音声出力部16によって音声出力される。
Then, the response sentence generated as described above is output as voice by the
以上説明したように、第1の実施の形態に係る対話装置によれば、無入力時間、対話型分類の遷移確率、及びユーザからの発話が要求又は質問を表わしているか否かに基づいて、ユーザとの対話の対話型分類が、情報提供型対話、情報獲得型対話、質問応答型対話、及び情報受理型対話の何れであるかを判別し、判別された対話型分類に応じて応答文を生成することにより、任意の入力に対して適切に応答することができ、対話を継続させることができる。 As described above, according to the dialogue apparatus according to the first embodiment, based on the no-input time, the transition probability of the interactive classification, and whether the utterance from the user represents a request or a question, It is determined whether the interactive classification of the dialogue with the user is an information providing dialogue, an information acquisition dialogue, a question answering dialogue, or an information acceptance dialogue, and the response sentence is determined according to the identified interactive classification. By generating, it is possible to appropriately respond to any input and continue the dialogue.
また、判別された対話型分類に応じて、応答文の生成方法を切り替えることで、ユーザからのあらゆる入力を受け付け、破綻しない対話を実現することができる。 In addition, by switching the response sentence generation method according to the determined interactive classification, it is possible to realize a dialog that accepts any input from the user and does not fail.
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成になっている部分については、同一符号を付して説明を省略する。 Next, a second embodiment will be described. In addition, about the part which has the structure similar to 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.
第2の実施の形態では、対話装置の前を撮像部によって撮像し、対話装置の前に存在するユーザが、対話装置を見ているか否かを判定している点と、ユーザが対話装置を見ていると判定されると無入力時間の測定を開始している点とが第1の実施の形態と異なっている。 In the second embodiment, an image is captured in front of the interactive device by the imaging unit, and it is determined whether or not the user existing in front of the interactive device is watching the interactive device. The difference from the first embodiment is that the measurement of the no-input time is started when it is determined that the user is watching.
図5に示すように、第2の実施の形態に係る対話装置210は、入力部12と、自装置の前を撮像する撮像部212と、入力部12によって入力された信号、及び撮像装置212によって撮像された画像に基づいて、応答発話を生成するコンピュータ214と、音声出力部16とを備えている。
As illustrated in FIG. 5, the
撮像部212は、自装置の前にユーザが存在する場合に、ユーザの顔を含む領域を撮像するように配置されている。ユーザが自装置の前で自装置を見ている場合には、ユーザの顔が正面を向いている正面顔画像が撮像される。
The
コンピュータ214は、音声切り出し部20と、撮像部212によって撮像された画像から、ユーザの正面顔画像を検出する正面顔検出部220と、正面顔検出部220によって正面顔画像が検出された時から、入力音声の無入力時間を計測する無入力時間カウンタ222と、音声認識部24と、特徴量抽出部26と、遷移確率記憶部28と、判別結果記憶部30と、確率算出部32と、対話型分類判別部34と、対話履歴記憶部36と、応答生成部38とを備えている。
The
正面顔検出部220は、撮像部212により撮像された画像から、正面を向いている顔画像の学習パターンを用いて、自装置の前に存在するユーザの正面顔画像を検出する。
The front
無入力時間カウンタ222は、正面顔検出部220によってユーザの正面顔画像が検出されると、ユーザが対話装置210に目を向けていると判断して、ユーザから音声が入力されない状態が継続する時間の計測を開始する。
When the front face image of the user is detected by the front
第2の実施の形態に係る応答生成処理ルーチンでは、撮像された画像からユーザの正面顔画像が検出されたか否かを判定し、正面顔画像が検出されると、無入力時間の測定を開始する。そして、入力部12から入力された信号から、音声信号が切り出されたか否かを判定し、入力された信号から、音声信号が切り出されなかった場合には、測定された無入力時間が、5秒以上であるか否かを判定する。測定された無入力時間が、5秒以上であると判定されると、ユーザが対話装置210を見ているにもかかわらず、音声入力が中断している時間が長いと判断し、現在の対話が情報提供型対話である確率及び情報獲得型対話である確率に基づいて、ユーザとの対話の対話型分類が、情報提供型対話及び情報獲得型対話の何れかであるかを判別し、判別された対話型分類に応じて、応答文を生成する。
In the response generation processing routine according to the second embodiment, it is determined whether or not the front face image of the user is detected from the captured image, and measurement of the no-input time is started when the front face image is detected. To do. Then, it is determined whether or not the audio signal is cut out from the signal input from the
一方、入力された信号から音声信号が切り出されると、音声認識結果及び音声信号の基本周波数に基づいて、ユーザからの発話が、質問又は要求を表わしているか否かを判定し、ユーザからの発話が、質問又は要求を表わしていると判定されると、ユーザとの対話が質問応答型対話であると判別し、質問応答型対話に応じた応答文を生成する。また、ユーザからの発話が、質問又は要求を表わしていないと判定されると、情報獲得型対話である確率及び情報受理型対話である確率に基づいて、ユーザとの対話の対話型分類が、情報受理型対話及び情報獲得型対話の何れであるかを判別し、判別された対話型分類に応じて、応答文を生成する。 On the other hand, when a speech signal is cut out from the input signal, it is determined whether or not the speech from the user represents a question or a request based on the speech recognition result and the fundamental frequency of the speech signal. If it is determined that it represents a question or a request, it is determined that the dialogue with the user is a question-response dialogue, and a response sentence corresponding to the question-response dialogue is generated. Further, when it is determined that the utterance from the user does not represent a question or a request, the interactive classification of the dialog with the user is based on the probability of the information acquisition dialog and the probability of the information acceptance dialog. It is determined whether the dialogue is an information reception type dialogue or an information acquisition type dialogue, and a response sentence is generated according to the discriminated dialogue type.
このように、ユーザが対話装置を見ていると判断されたときから、無入力時間の測定を開始することにより、ユーザからの入力がない状態が継続している時間を精度よく測定することができ、測定された無入力時間に基づいて、ユーザとの対話が情報提供型対話であると精度よく判別することができる。 Thus, it is possible to accurately measure the time during which there is no input from the user by starting the measurement of the no-input time from when it is determined that the user is looking at the interactive device. In addition, based on the measured no-input time, it is possible to accurately determine that the interaction with the user is an information providing interaction.
なお、上記の実施の形態では、ユーザからの発話に対する応答を、スピーカによる音声出力によって行う場合を例に説明したが、これに限定されるものではなく、ディスプレイに応答文を表示するようにしてもよい。 In the above embodiment, the case where the response to the utterance from the user is performed by the sound output by the speaker is described as an example, but the present invention is not limited to this, and the response sentence is displayed on the display. Also good.
次に、第3の実施の形態について説明する。なお、第1の実施の形態と同様の構成になっている部分については、同一符号を付して説明を省略する。 Next, a third embodiment will be described. In addition, about the part which has the structure similar to 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.
第3の実施の形態では、ユーザからテキストデータが入力される点が第1の実施の形態と主に異なっている。 The third embodiment is mainly different from the first embodiment in that text data is input from the user.
図6に示すように、第3の実施の形態に係る対話装置310は、キーボードで構成され、かつ、ユーザからの入力文をテキストデータで入力する入力部312と、入力部312によって入力されたテキストデータに基づいて、応答文を生成するコンピュータ314と、ディスプレイで構成され、かつ、生成された応答文を表示する表示部316とを備えている。
As shown in FIG. 6, the
コンピュータ314は、入力部312からの入力に基づいて、無入力時間を計測する無入力時間カウンタ322と、遷移確率記憶部28と、判別結果記憶部30と、確率算出部32と、無入力時間カウンタ322によって計測された無入力時間、入力部312から入力されたテキストデータ、及び確率算出部32によって算出された確率に基づいて、ユーザとの対話を、4種類の対話型分類の何れかに判別する対話型分類判別部334と、対話履歴記憶部36と、応答生成部38とを備えている。
The
次に、第3の実施の形態に係る応答生成処理ルーチンについて図7を用いて説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。 Next, a response generation processing routine according to the third embodiment will be described with reference to FIG. In addition, about the process similar to 1st Embodiment, the same code | symbol is attached | subjected and detailed description is abbreviate | omitted.
まず、ステップ100において、無入力時間の測定を開始し、次のステップ350において、入力部312からテキストデータとして入力文が入力されたか否かを判定する。ユーザが入力部312によって入力文を入力すると、ステップ352において、上記ステップ350で入力された入力文が、質問又は要求を表わしているか否かを判定する。
First, in
上記ステップ352で、ユーザからの入力文が、質問又は要求を表わしていると判定されると、ユーザとの対話が質問応答型対話であると判別し、ステップ110において、ユーザからの入力文に対して、質問応答型対話に応じた応答文を生成して、表示部316に出力して、応答生成処理ルーチンを終了する。
If it is determined in
また、上記ステップ352で、ユーザからの入力文が、質問又は要求を表わしていないと判定されると、ステップ112において、情報獲得型対話である確率及び情報受理型対話である確率の各々を算出する。そして、ステップ114で、情報受理型対話である確率が情報獲得型対話である確率より大きいか否かを判定し、情報受理型対話である確率が情報獲得型対話である確率より大きい場合には、ユーザとの対話が情報受理型対話であると判別し、ステップ116において、ユーザからの入力文の構造、及び応答データベース48Aに基づいて、ユーザからの入力文に対して、情報受理型対話に応じた応答文を生成して、表示部316に出力し、応答生成処理ルーチンを終了する。
If it is determined in
上記ステップ114で、情報獲得型対話である確率が情報受理型対話である確率以下である場合には、ユーザとの対話が情報獲得型対話であると判別し、ステップ118において、記憶された対話履歴及び前回のユーザの入力文に基づいて、情報獲得型対話に応じた応答文を生成して、表示部316に出力し、応答生成処理ルーチンを終了する。
If the probability of the information acquisition dialogue is equal to or less than the probability of the information acceptance dialogue in
上記ステップ350で、入力部312から入力がなかった場合には、ステップ120において、測定された無入力時間が、5秒以上であるか否かを判定し、ユーザから入力文が入力されない状態が継続している時間が5秒未満である場合には、ステップ350へ戻る。一方、上記ステップ120において、測定された無入力時間が、5秒以上であると判定されると、ステップ122において、情報提供型対話である確率及び情報獲得型対話である確率の各々を算出する。そして、ステップ124で、情報提供型対話である確率が情報獲得型対話である確率より大きいか否かを判定し、情報提供型対話である確率が情報獲得型対話である確率より大きい場合には、ユーザとの対話が情報提供型対話であると判別し、ステップ126において、対話履歴、前回のユーザからの入力文、及び情報データベース42Aに基づいて、ユーザからの入力文に対して、情報提供型対話に応じた応答文を生成して、表示部316に出力し、応答生成処理ルーチンを終了する。
If there is no input from the
一方、上記ステップ124で、情報獲得型対話である確率が情報提供型対話である確率以上である場合には、ユーザとの対話が情報獲得型対話であると判別し、上記ステップ118へ移行し、情報獲得型対話に応じた応答文を生成して、表示部16に出力し、応答生成処理ルーチンを終了する。
On the other hand, if the probability of the information acquisition type dialogue is greater than or equal to the probability of the information provision type dialogue in
そして、上記のように生成された応答文が、表示部16によって表示される。
Then, the response sentence generated as described above is displayed on the
このように、無入力時間、対話型分類の遷移確率、及びユーザからの入力文が要求又は質問を表わしているか否かに基づいて、ユーザとの対話の対話型分類が、情報提供型対話、情報獲得型対話、質問応答型対話、及び情報受理型対話の何れであるかを判別し、判別された対話型分類に応じて応答文を生成することにより、任意の入力に対して適切に応答することができ、対話を継続させることができる。 Thus, based on the no-input time, the transition probability of the interactive classification, and whether the input sentence from the user represents a request or a question, the interactive classification of the interaction with the user is an information providing conversation, Appropriate response to any input by discriminating between information acquisition type dialogue, question answering type dialogue and information acceptance type dialogue, and generating a response sentence according to the discriminated dialogue type Can continue the dialogue.
なお、上記の第1の実施の形態〜第3の実施の形態では、ユーザとの対話を4種類の対話型分類の中から判別する場合を例に説明したが、これに限定されるものではなく、情報提供型対話、質問応答型対話、及び情報受理型対話の3種類の対話型分類の中から判別するようにしてもよい。この場合には、無入力時間が所定時間以上である場合には、情報提供型対話であると判別し、ユーザからの発話が質問又は要求でないと判定された場合には、情報受理型対話であると判別すればよい。また、情報獲得型対話、質問応答型対話、及び情報受理型対話の3種類の対話型分類の中から判別するようにしてもよい。この場合には、無入力時間が所定時間以上である場合には、情報獲得型対話であると判別し、ユーザからの発話が質問又は要求でないと判定された場合には、算出された情報獲得型対話の確率及び情報受理型対話の確率に基づいて、情報獲得型対話及び情報受理型対話の何れかであると判別すればよい。 In the first to third embodiments, the case where the user interaction is determined from the four types of interactive classifications has been described as an example. However, the present invention is not limited to this. Instead, the determination may be made from three types of interactive classifications, that is, an information provision type dialogue, a question answering type dialogue, and an information reception type dialogue. In this case, when the non-input time is equal to or longer than the predetermined time, it is determined that the dialogue is an information provision type dialogue. When it is determined that the utterance from the user is not a question or a request, the information acceptance type dialogue is performed. What is necessary is just to discriminate | determine. Further, it may be determined from three types of interactive classifications, that is, an information acquisition type dialogue, a question answering type dialogue, and an information acceptance type dialogue. In this case, if the non-input time is equal to or longer than the predetermined time, it is determined that the dialogue is an information acquisition type. If it is determined that the utterance from the user is not a question or a request, the calculated information acquisition is performed. What is necessary is just to discriminate | determine that it is either an information acquisition type | mold dialog and an information reception type | mold dialog based on the probability of a type | mold dialog, and the probability of an information reception type | mold dialog.
また、前回の判別結果と遷移確率とを用いて、各対話型分類である確率を算出する場合を例に説明したが、これに限定されるものではなく、前回以前の複数の判別結果と遷移確率とを用いて、各対話型分類の確率を算出するようにしてもよい。 In addition, the case where the probability of each interactive classification is calculated using the previous discrimination result and the transition probability has been described as an example, but the present invention is not limited to this. The probability of each interactive classification may be calculated using the probability.
また、情報データベース、質問データベース、質問回答データベース、及び応答データベースが、対話装置の内部に設けられている場合を例に説明したが、これに限定するものではなく、情報データベース、質問データベース、質問回答データベース、及び応答データベースを対話装置の外部に設け、これらのデータベースと対話装置とをネットワークで接続し、対話装置がネットワークを介してこれらのデータベースにアクセスするようにしてもよい。 In addition, the case where the information database, the question database, the question answer database, and the response database are provided inside the dialogue apparatus has been described as an example. However, the information database, the question database, and the question answer are not limited thereto. The database and the response database may be provided outside the interactive apparatus, and these databases and the interactive apparatus may be connected via a network so that the interactive apparatus accesses these databases via the network.
10、210 対話装置
12 マイクロホン
14 スピーカ
16 認識用辞書データベース
18 概念語辞書データベース
20、220 概念表現データベース
21 不明応答データベース
22、222 コンピュータ
218 形容語辞書データベース
10, 210
Claims (12)
前記入力手段への入力がない状態が継続する時間を計測する無入力時間計測手段と、
前記入力手段に入力された前記発話及び入力文の少なくとも一方が、前記ユーザの要求又は質問を表わしているか否かを判定する要求質問判定手段と、
前記無入力時間計測手段によって計測された時間が所定時間以上である場合には、前記ユーザとの対話が、自装置が自発的に情報を提供する情報提供型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていると判定された場合には、前記ユーザとの対話が、ユーザの要求又は質問に対して自装置が回答する質問応答型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていないと判定された場合には、前記ユーザとの対話が、ユーザが自発的に提供する情報を自装置が受理する情報受理型であると判別する対話型判別手段と、
前記発話及び入力文の少なくとも一方に対して、前記対話型判別手段による判別結果に応じた応答文を生成する応答生成手段と、
前記応答生成手段によって生成された応答文を出力する出力手段と、
を含む対話装置。 An input means for inputting at least one of an utterance and an input sentence by the user;
No-input time measuring means for measuring the time during which no input to the input means continues,
Request question determination means for determining whether at least one of the utterance and the input sentence input to the input means represents the request or question of the user;
When the time measured by the non-input time measuring means is a predetermined time or more, it is determined that the dialogue with the user is an information providing type in which the device itself provides information voluntarily, and the request question When it is determined by the determination means that the user's request or question is represented, it is determined that the dialogue with the user is a question response type in which the own device answers the user's request or question, When it is determined that the request question determination unit does not represent the user's request or question, the user's device is an information reception type in which the user's own device accepts information that the user voluntarily provides. Interactive discrimination means for discriminating;
Response generation means for generating a response sentence according to a determination result by the interactive determination means for at least one of the utterance and the input sentence;
Output means for outputting a response sentence generated by the response generation means;
Interactive device including
前記入力手段への入力がない状態が継続する時間を計測する無入力時間計測手段と、
前記入力手段に入力された前記発話及び入力文の少なくとも一方が、前記ユーザの要求又は質問を表わしているか否かを判定する要求質問判定手段と、
前記無入力時間計測手段によって計測された時間が所定時間以上である場合には、前記ユーザとの対話が、自装置が自発的に質問する情報獲得型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていると判定された場合には、前記ユーザとの対話が、ユーザの要求又は質問に対して自装置が回答する質問応答型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていないと判定された場合には、前記ユーザとの対話が、ユーザが自発的に提供する情報を自装置が受理する情報受理型であると判別する対話型判別手段と、
前記発話及び入力文の少なくとも一方に対して、前記対話型判別手段による判別結果に応じた応答文を生成する応答生成手段と、
前記応答生成手段によって生成された応答文を出力する出力手段と、
を含む対話装置。 An input means for inputting at least one of an utterance and an input sentence by the user;
No-input time measuring means for measuring the time during which no input to the input means continues,
Request question determination means for determining whether at least one of the utterance and the input sentence input to the input means represents the request or question of the user;
When the time measured by the no-input time measuring means is a predetermined time or more, it is determined that the dialogue with the user is an information acquisition type in which the own device asks a question spontaneously, and the request question determining means When it is determined that the user's request or question is represented by the user's request or question, it is determined that the user's request or question is a question answering type in which the device answers the request. When it is determined by the question determination means that the request or question of the user is not represented, it is determined that the interaction with the user is an information reception type in which the device itself receives information that the user voluntarily provides Interactive discrimination means,
Response generation means for generating a response sentence according to a determination result by the interactive determination means for at least one of the utterance and the input sentence;
Output means for outputting a response sentence generated by the response generation means;
Interactive device including
前記入力手段への入力がない状態が継続する時間を計測する無入力時間計測手段と、
前記入力手段に入力された前記発話及び入力文の少なくとも一方が、前記ユーザの要求又は質問を表わしているか否かを判定する要求質問判定手段と、
ユーザと自装置との対話における、自装置が自発的に情報を提供する情報提供型、自装置が自発的に質問する情報獲得型、ユーザの要求又は質問に対して自装置が回答する質問応答型、及びユーザが自発的に提供する情報を自装置が受理する情報受理型からなる対話型分類の遷移履歴を記憶する遷移履歴記憶手段と、
前記無入力時間計測手段によって計測された時間が所定時間以上である場合には、過去の判別結果及び前記遷移履歴に基づいて、前記ユーザとの対話が、前記情報提供型及び情報獲得型の何れかであると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていると判定された場合には、前記ユーザとの対話が、前記質問応答型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていないと判定された場合には、前記ユーザとの対話が、前記情報受理型であると判別する対話型判別手段と、
前記発話及び入力文の少なくとも一方に対して、前記対話型判別手段による判別結果に応じた応答文を生成する応答生成手段と、
前記応答生成手段によって生成された応答文を出力する出力手段と、
を含む対話装置。 An input means for inputting at least one of an utterance and an input sentence by the user;
No-input time measuring means for measuring the time during which no input to the input means continues,
Request question determination means for determining whether at least one of the utterance and the input sentence input to the input means represents the request or question of the user;
In the dialogue between the user and the user device, the information providing type in which the user device voluntarily provides information, the information acquisition type in which the user device voluntarily asks a question, the question response in which the user device answers the user request or question A transition history storage means for storing a transition history of an interactive classification consisting of a type and an information acceptance type in which the device accepts information that the user voluntarily provides;
When the time measured by the non-input time measuring means is a predetermined time or more, based on the past determination result and the transition history, the interaction with the user is either the information providing type or the information acquiring type. If it is determined by the request question determination means that it represents the user's request or question, it is determined that the interaction with the user is the question response type, and the request If it is determined by the question determination means that it does not represent the user's request or question, the interactive determination means for determining that the interaction with the user is the information acceptance type,
Response generation means for generating a response sentence according to a determination result by the interactive determination means for at least one of the utterance and the input sentence;
Output means for outputting a response sentence generated by the response generation means;
Interactive device including
前記応答生成手段は、前記情報受理型であると判別された場合、前記構造と前記構造に対する応答文とを対応させて記憶した応答データベースに記憶され、かつ、前記解析手段によって解析された前記構造に対応する応答文を用いて、前記応答文を生成する請求項1〜請求項6のいずれか1項記載の対話装置。 An analysis unit that analyzes the structure of at least one of the utterance and the input sentence input by the input unit;
When it is determined that the response generation unit is the information acceptance type, the structure is stored in a response database in which the structure and a response sentence to the structure are associated with each other and analyzed by the analysis unit The dialogue apparatus according to claim 1, wherein the response sentence is generated using a response sentence corresponding to.
前記要求質問判定手段は、前記入力手段から入力された前記発話について、音声の特徴量を抽出し、前記抽出した前記特徴量と、予め求められた質問又は要求を表わす発話の前記特徴量とを比較して、前記発話及び入力文の少なくとも一方が、ユーザの要求又は質問を表わしているか否かを判定する請求項1〜請求項8の何れか1項記載の対話装置。 The input means inputs an utterance by a user,
The request question determination unit extracts a feature amount of speech for the utterance input from the input unit, and the extracted feature amount and the feature amount of an utterance representing a question or request obtained in advance. The dialogue apparatus according to any one of claims 1 to 8, wherein at least one of the utterance and the input sentence indicates whether or not it represents a user request or a question.
ユーザによる発話及び入力文の少なくとも一方を入力する入力手段への入力がない状態が継続する時間を計測する無入力時間計測手段、
前記入力手段に入力された前記発話及び入力文の少なくとも一方が、前記ユーザの要求又は質問を表わしているか否かを判定する要求質問判定手段、
前記無入力時間計測手段によって計測された時間が所定時間以上である場合には、前記ユーザとの対話が、自装置が自発的に情報を提供する情報提供型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていると判定された場合には、前記ユーザとの対話が、ユーザの要求又は質問に対して自装置が回答する質問応答型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていないと判定された場合には、前記ユーザとの対話が、ユーザが自発的に提供する情報を自装置が受理する情報受理型であると判別する対話型判別手段、及び
前記発話及び入力文の少なくとも一方に対して、前記対話型判別手段による判別結果に応じた応答文を生成する応答生成手段
として機能させるためのプログラム。 Computer
A no-input time measuring means for measuring the time during which there is no input to the input means for inputting at least one of the utterance and the input sentence by the user,
Request question determination means for determining whether at least one of the utterance and the input sentence input to the input means represents the user's request or question,
When the time measured by the non-input time measuring means is a predetermined time or more, it is determined that the dialogue with the user is an information providing type in which the device itself provides information voluntarily, and the request question When it is determined by the determination means that the user's request or question is represented, it is determined that the dialogue with the user is a question response type in which the own device answers the user's request or question, When it is determined that the request question determination unit does not represent the user's request or question, the user's device is an information reception type in which the user's own device accepts information that the user voluntarily provides. And an interactive type discriminating unit that discriminates between the utterance and the input sentence, and a response generating unit that generates a response sentence according to the discrimination result by the interactive type discriminating unit Because of the program.
ユーザによる発話及び入力文の少なくとも一方を入力する入力手段への入力がない状態が継続する時間を計測する無入力時間計測手段、
前記入力手段に入力された前記発話及び入力文の少なくとも一方が、前記ユーザの要求又は質問を表わしているか否かを判定する要求質問判定手段、
前記無入力時間計測手段によって計測された時間が所定時間以上である場合には、前記ユーザとの対話が、自装置が自発的に質問する情報獲得型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていると判定された場合には、前記ユーザとの対話が、ユーザの要求又は質問に対して自装置が回答する質問応答型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていないと判定された場合には、前記ユーザとの対話が、ユーザが自発的に提供する情報を自装置が受理する情報受理型であると判別する対話型判別手段、及び
前記発話及び入力文の少なくとも一方に対して、前記対話型判別手段による判別結果に応じた応答文を生成する応答生成手段
として機能させるためのプログラム。 Computer
A no-input time measuring means for measuring the time during which there is no input to the input means for inputting at least one of the utterance and the input sentence by the user,
Request question determination means for determining whether at least one of the utterance and the input sentence input to the input means represents the user's request or question,
When the time measured by the no-input time measuring means is a predetermined time or more, it is determined that the dialogue with the user is an information acquisition type in which the own device asks a question spontaneously, and the request question determining means When it is determined that the user's request or question is represented by the user's request or question, it is determined that the user's request or question is a question answering type in which the device answers the request. When it is determined by the question determination means that the request or question of the user is not represented, it is determined that the interaction with the user is an information reception type in which the device itself receives information that the user voluntarily provides An interactive discriminating means for generating a response sentence corresponding to a discrimination result by the interactive discriminating means for at least one of the utterance and the input sentence. Program.
ユーザによる発話及び入力文の少なくとも一方を入力する入力手段への入力がない状態が継続する時間を計測する無入力時間計測手段、
前記入力手段に入力された前記発話及び入力文の少なくとも一方が、前記ユーザの要求又は質問を表わしているか否かを判定する要求質問判定手段、
ユーザと自装置との対話における、自装置が自発的に情報を提供する情報提供型、自装置が自発的に質問する情報獲得型、ユーザの要求又は質問に対して自装置が回答する質問応答型、及びユーザが自発的に提供する情報を自装置が受理する情報受理型からなる対話型分類の遷移履歴を記憶する遷移履歴記憶手段、
前記無入力時間計測手段によって計測された時間が所定時間以上である場合には、過去の判別結果及び前記遷移履歴に基づいて、前記ユーザとの対話が、前記情報提供型及び情報獲得型の何れかであると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていると判定された場合には、前記ユーザとの対話が、前記質問応答型であると判別し、前記要求質問判定手段によって前記ユーザの要求又は質問を表わしていないと判定された場合には、前記ユーザとの対話が、前記情報受理型であると判別する対話型判別手段、及び
前記発話及び入力文の少なくとも一方に対して、前記対話型判別手段による判別結果に応じた応答文を生成する応答生成手段
として機能させるためのプログラム。 Computer
A no-input time measuring means for measuring the time during which there is no input to the input means for inputting at least one of the utterance and the input sentence by the user,
Request question determination means for determining whether at least one of the utterance and the input sentence input to the input means represents the user's request or question,
In the dialogue between the user and the user device, the information providing type in which the user device voluntarily provides information, the information acquisition type in which the user device voluntarily asks a question, the question response in which the user device answers the user request or question A transition history storage means for storing a transition history of interactive classification consisting of a type and an information reception type in which the device accepts information voluntarily provided by the user,
When the time measured by the non-input time measuring means is a predetermined time or more, based on the past determination result and the transition history, the interaction with the user is either the information providing type or the information acquiring type. If it is determined by the request question determination means that it represents the user's request or question, it is determined that the interaction with the user is the question response type, and the request When it is determined by the question determination means that the user's request or question is not represented, the interactive determination means for determining that the dialogue with the user is the information acceptance type, and the utterance and the input sentence A program for causing at least one to function as a response generation unit that generates a response sentence according to a determination result by the interactive determination unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008038069A JP5045486B2 (en) | 2008-02-19 | 2008-02-19 | Dialogue device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008038069A JP5045486B2 (en) | 2008-02-19 | 2008-02-19 | Dialogue device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009198614A true JP2009198614A (en) | 2009-09-03 |
JP5045486B2 JP5045486B2 (en) | 2012-10-10 |
Family
ID=41142190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008038069A Expired - Fee Related JP5045486B2 (en) | 2008-02-19 | 2008-02-19 | Dialogue device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5045486B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012094075A (en) * | 2010-10-28 | 2012-05-17 | Toshiba Corp | Interaction device |
JP2014098844A (en) * | 2012-11-15 | 2014-05-29 | Ntt Docomo Inc | Interaction support device, interaction system, interaction support method, and program |
JP2014191271A (en) * | 2013-03-28 | 2014-10-06 | Kddi Corp | Interactive program, server, and method for inserting dynamic interactive node into interactive scenario |
JP2016085747A (en) * | 2015-11-24 | 2016-05-19 | 株式会社東芝 | Interactive device |
US9837082B2 (en) | 2014-02-18 | 2017-12-05 | Samsung Electronics Co., Ltd. | Interactive server and method for controlling the server |
JP2017219845A (en) * | 2016-06-05 | 2017-12-14 | 国立大学法人 千葉大学 | Speech promotion apparatus and speech promotion program |
WO2018097181A1 (en) * | 2016-11-25 | 2018-05-31 | 株式会社 東芝 | Knowledge construction and utilization system and program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107003723A (en) * | 2014-10-21 | 2017-08-01 | 罗伯特·博世有限公司 | For the response selection in conversational system and the method and system of the automation of composition |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208388A (en) * | 1993-01-08 | 1994-07-26 | A T R Jido Honyaku Denwa Kenkyusho:Kk | Interactive speech recognition device |
JP2000048038A (en) * | 1998-07-29 | 2000-02-18 | Nec Corp | Natural language interactive system and recording medium for natural language interactive program |
JP2003108581A (en) * | 2001-09-27 | 2003-04-11 | Mitsubishi Electric Corp | Interactive information retrieving device and interactive information retrieving method |
JP2003255990A (en) * | 2002-03-06 | 2003-09-10 | Sony Corp | Interactive processor and method, and robot apparatus |
JP2004513445A (en) * | 2000-10-30 | 2004-04-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | User interface / entertainment device that simulates personal interaction and responds to the user's emotional state and / or personality |
JP2004226881A (en) * | 2003-01-27 | 2004-08-12 | Casio Comput Co Ltd | Conversation system and conversation processing program |
JP2007102104A (en) * | 2005-10-07 | 2007-04-19 | Nippon Telegr & Teleph Corp <Ntt> | Device and method for answer sentence generation, and program and storage medium thereof |
JP2007206888A (en) * | 2006-01-31 | 2007-08-16 | Toyota Central Res & Dev Lab Inc | Apparatus, method and program for generating answer |
JP2008026621A (en) * | 2006-07-21 | 2008-02-07 | Fujitsu Ltd | Information processor with speech interaction function |
-
2008
- 2008-02-19 JP JP2008038069A patent/JP5045486B2/en not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06208388A (en) * | 1993-01-08 | 1994-07-26 | A T R Jido Honyaku Denwa Kenkyusho:Kk | Interactive speech recognition device |
JP2000048038A (en) * | 1998-07-29 | 2000-02-18 | Nec Corp | Natural language interactive system and recording medium for natural language interactive program |
JP2004513445A (en) * | 2000-10-30 | 2004-04-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | User interface / entertainment device that simulates personal interaction and responds to the user's emotional state and / or personality |
JP2003108581A (en) * | 2001-09-27 | 2003-04-11 | Mitsubishi Electric Corp | Interactive information retrieving device and interactive information retrieving method |
JP2003255990A (en) * | 2002-03-06 | 2003-09-10 | Sony Corp | Interactive processor and method, and robot apparatus |
JP2004226881A (en) * | 2003-01-27 | 2004-08-12 | Casio Comput Co Ltd | Conversation system and conversation processing program |
JP2007102104A (en) * | 2005-10-07 | 2007-04-19 | Nippon Telegr & Teleph Corp <Ntt> | Device and method for answer sentence generation, and program and storage medium thereof |
JP2007206888A (en) * | 2006-01-31 | 2007-08-16 | Toyota Central Res & Dev Lab Inc | Apparatus, method and program for generating answer |
JP2008026621A (en) * | 2006-07-21 | 2008-02-07 | Fujitsu Ltd | Information processor with speech interaction function |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012094075A (en) * | 2010-10-28 | 2012-05-17 | Toshiba Corp | Interaction device |
JP2014098844A (en) * | 2012-11-15 | 2014-05-29 | Ntt Docomo Inc | Interaction support device, interaction system, interaction support method, and program |
JP2014191271A (en) * | 2013-03-28 | 2014-10-06 | Kddi Corp | Interactive program, server, and method for inserting dynamic interactive node into interactive scenario |
US9837082B2 (en) | 2014-02-18 | 2017-12-05 | Samsung Electronics Co., Ltd. | Interactive server and method for controlling the server |
JP2016085747A (en) * | 2015-11-24 | 2016-05-19 | 株式会社東芝 | Interactive device |
JP2017219845A (en) * | 2016-06-05 | 2017-12-14 | 国立大学法人 千葉大学 | Speech promotion apparatus and speech promotion program |
WO2018097181A1 (en) * | 2016-11-25 | 2018-05-31 | 株式会社 東芝 | Knowledge construction and utilization system and program |
JPWO2018097181A1 (en) * | 2016-11-25 | 2018-11-22 | 株式会社東芝 | Knowledge building utilization system and program |
Also Published As
Publication number | Publication date |
---|---|
JP5045486B2 (en) | 2012-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112262430B (en) | Automatically determining a language for speech recognition of a spoken utterance received via an automatic assistant interface | |
JP5045486B2 (en) | Dialogue device and program | |
US11037553B2 (en) | Learning-type interactive device | |
KR101309042B1 (en) | Apparatus for multi domain sound communication and method for multi domain sound communication using the same | |
CN112417102B (en) | Voice query method, device, server and readable storage medium | |
JP3454897B2 (en) | Spoken dialogue system | |
KR100772660B1 (en) | Dialog management system, and method of managing dialog using example-based dialog modeling technique | |
JP3472194B2 (en) | Automatic response method and device, and medium recording the program | |
JP5377430B2 (en) | Question answering database expansion device and question answering database expansion method | |
US20150331665A1 (en) | Information provision method using voice recognition function and control method for device | |
KR20130128716A (en) | Foreign language learning system and method thereof | |
KR20080086791A (en) | Feeling recognition system based on voice | |
JP7132090B2 (en) | Dialogue system, dialogue device, dialogue method, and program | |
JP4729902B2 (en) | Spoken dialogue system | |
CN109754793A (en) | Device and method for recommending the function of vehicle | |
CN110808038B (en) | Mandarin evaluating method, device, equipment and storage medium | |
CN109086455B (en) | Method for constructing voice recognition library and learning equipment | |
JP2006189730A (en) | Speech interactive method and speech interactive device | |
US11615787B2 (en) | Dialogue system and method of controlling the same | |
JP2020160425A (en) | Evaluation system, evaluation method, and computer program | |
JP2004053652A (en) | Pronunciation judging system, server for managing system and program therefor | |
CN110099332B (en) | Audio environment display method and device | |
CN111933107A (en) | Speech recognition method, speech recognition device, storage medium and processor | |
WO2021254838A1 (en) | Driving companion comprising a natural language understanding system and method for training the natural language understanding system | |
JP4042435B2 (en) | Voice automatic question answering system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101019 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20101029 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20101029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120619 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120702 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150727 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5045486 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |