JP2021101348A - 対話システム、方法、及びプログラム - Google Patents
対話システム、方法、及びプログラム Download PDFInfo
- Publication number
- JP2021101348A JP2021101348A JP2021031980A JP2021031980A JP2021101348A JP 2021101348 A JP2021101348 A JP 2021101348A JP 2021031980 A JP2021031980 A JP 2021031980A JP 2021031980 A JP2021031980 A JP 2021031980A JP 2021101348 A JP2021101348 A JP 2021101348A
- Authority
- JP
- Japan
- Prior art keywords
- user
- utterance
- words
- target
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 24
- 230000000717 retained effect Effects 0.000 claims description 6
- 230000014759 maintenance of location Effects 0.000 claims 2
- 230000006870 function Effects 0.000 description 21
- 230000004044 response Effects 0.000 description 6
- 235000013550 pizza Nutrition 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241000219051 Fagopyrum Species 0.000 description 2
- 235000009419 Fagopyrum esculentum Nutrition 0.000 description 2
- 235000012149 noodles Nutrition 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Navigation (AREA)
Abstract
【課題】ユーザの要求の仕方に柔軟に対応できるようにする。【解決手段】一実施形態に係る対話システムは、設定部と、認識部と、保持部と、処理部とを備える。設定部は、予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せ不可の関係にある複数の単語を登録する。認識部は、ユーザの発話を取得し、当該発話を音声認識する。保持部は、前記ユーザが発話した発話履歴を保持する。処理部は、前記ユーザの音声認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力する。前記処理部は、前記発話履歴に基づいて、前記ユーザが意図する単語の少なくとも一部を置換して出力し、前記設定部は、前記発話履歴の中に所定の閾値以上の置換がある場合には、置換された単語を追加する。【選択図】図2
Description
本発明の実施形態は、対話システム、方法、及びプログラムに関する。
近年、商品やサービスの案内など、事前に用意されたシナリオに従って自動応答することが可能になってきている。利用者にとって多様な質問ができることが望ましいが、対話システムの提供においては限られた状況の設定のみできる場合が多い。一方で、多様なシステムがあることにより、システム側の応答内容が利用者に伝わらず、何度も確認が必要な場合もある。
本実施形態はユーザにとって使いやすい対話システム、方法及びプログラムを提供することを目的とする。
一実施形態に係る対話システムは、設定部と、認識部と、保持部と、処理部とを備える。設定部は、予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せ不可の関係にある複数の単語を登録する。認識部は、ユーザの発話を取得し、当該発話を音声認識する。保持部は、前記ユーザが発話した発話履歴を保持する。処理部は、前記ユーザの音声認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力し、さらに前記対応可能な対象の組合せの中から利用可能な組合せを選択し出力する。前記処理部は、前記発話履歴に基づいて、前記ユーザが意図する単語の少なくとも一部を置換して出力し、前記設定部は、前記発話履歴の中に所定の閾値以上の置換がある場合には、置換された単語を追加する。
一般に、複数の選択肢をシステム側から提示し、ユーザが該当項目を選択するという方法をとる場合、特に該当する項目を番号で入力するように促すような場合には、ユーザの回答は明確である。システムが処理できない(対象外の)内容入力であれば、そのまま、ユーザの入力がシステム処理の対象外であることを伝えればよい。一方で、自由な発話を受けてユーザの要求に対応しようとする場合、ユーザの表現は多様なものとなりうる。
同様に、システムの応答が明確でない場合もある。たとえば、店舗検索を提供するシステムに対して、「カフェを予約して」という要求があった場合を想定する。もし該当の店舗検索システムが予約する機能をもっていても、ユーザが要望した「カフェ」が予約制を採用していない店舗であることもある。この場合、「わかりません」、「できません」等と応答すると、該当システムでは予約ができないのか、ユーザの要望する「カフェ」で予約ができないのか、「カフェ」が分からないのか、不明になる。更に、音声対話システムを利用した場合、音声認識自体の認識がうまくないのか、ユーザの発話の意図が分からないのか、正しく認識できたが指定された機能が無いという意味なのか、ユーザにその意味を伝えることができない。その結果、何度も言い回しを変えて入力するなど、過大な負荷が生じる場合がある。本実施形態に関わる対話システムは、対応できないことをユーザにフィードバックすることによって、ユーザの過大な負荷を軽減する。
以下、図面を参照しながら実施形態を説明する。実施形態では、例えば店舗案内で利用されることを想定する。店舗案内とは、複数のお店の中から好みのお店をみつけたり、場所を確認したり、混雑状況、予約の案内等の情報を得ることを指す。図1は、本実施形態に係る対話システムの構成を示すブロック図である。図1に示す対話システム11は、音声認識部111と、設定部112と、処理部113と、発話履歴保持部114を備える。
音声認識部111は、マイクロフォンを通じて取得したユーザの発話からユーザの音声を認識する。設定部112は、複数の単語の組合せが処理可能か否か設定する。具体的には複数の述語と複数の目的語の組合せの可・不可の関係である。例えば、図2に示すようにテーブル化してもよい。以下、予めできないことをまとめたリストを準備しておくことを例に説明するが、これに限らない。音声認識された単語をリストと照合する、ユーザの発話の例えば音素を利用したキーワードスポッティングを用いてもよい。RNN(Recurrent Neural Networks:再帰型ニューラルネットワーク)のような統計モデルによる比較処理によって、ユーザの発話から述語、目的語を特定してもよい。
処理部113は、音声認識されたユーザの発話に含まれる述語と目的語について、設定部112が設定した単語の組合せを参照して両者の関係の可・不可を決定する。ユーザが意図する述語と目的語との組合せについて、対話システムの所定の機能を利用できない場合、処理できない(処理不可)を出力する。ここで所定の機能とは、例えば図2に示すように、カフェ(目的語)と予約する(述語)の関係において、「予約する」を指す。例えば「地図を表示する」機能の場合、「地図表示(目的語)」などとなっていてもよい。述語と目的語との組合せからなる機能が利用できる場合、所定のシナリオに基づいて処理を実行し、それぞれの応答情報を出力する。発話履歴保持部114は、音声認識で認識された単語を所定の条件で保持しておき、処理部113からの要求に応じて保持している単語を出力する。
システムはユーザの最初の数発話で対応できない場合は「対応できません」と応答するのが好ましい。例えば、システムが「できない」ことを提示しても、ユーザは、音声認識の失敗なのか、正しく認識できたがその機能が無いと言っているのか判断できない場合があるためである。更に、ユーザの声のトーンや速度、表情等を考慮した出力制御を行うとより好ましい。システム応答の文調、音声のトーンや速度を制御することによって、システムが対応できないことに対するユーザの理解が得られる場合がある。
(第1の実施例)
図3に示すフローチャートを参照して、第1の実施例を説明する。まず、ユーザの音声を取得して音声認識を行う(ステップS11)。次に認識結果からユーザが意図している述語と目的語を推定する(ステップS12)。次に、設定部112に予め設定された述語と目的語との組合せを参照して、その関係が不可となっているか照合する(ステップS13)。ここで、処理が不可でなかった場合には(NO)、対応処理を実行して出力し(ステップS14)、一連の処理を終了する。また、不可だった場合には(YES)、ユーザに意図する組合せの利用が不可である(できない)ことを提示して(ステップS15)、一連の処理を終了する。
図3に示すフローチャートを参照して、第1の実施例を説明する。まず、ユーザの音声を取得して音声認識を行う(ステップS11)。次に認識結果からユーザが意図している述語と目的語を推定する(ステップS12)。次に、設定部112に予め設定された述語と目的語との組合せを参照して、その関係が不可となっているか照合する(ステップS13)。ここで、処理が不可でなかった場合には(NO)、対応処理を実行して出力し(ステップS14)、一連の処理を終了する。また、不可だった場合には(YES)、ユーザに意図する組合せの利用が不可である(できない)ことを提示して(ステップS15)、一連の処理を終了する。
図2は店舗案内での利用を想定した組み合わせも関係を示している。具体的に説明すると、「カフェ」を「調べる」、「レストラン」を「調べる・予約する」は対応可能であるが、「カフェ」を「予約する」は対応不可能である。例えば、ユーザが「カフェを予約して」と要求したとする。このとき、システム側は、テーブルに示される関係から、「カフェを予約することはできません。」と不可の回答を提示する。これにより、ユーザは、意図している要求は認識されたものの、要求内容が適切でなかったことを把握することができる。
なお、本実施例では、「カフェを予約」の要求に関し、「カフェ」と「予約して(予約する)」と分けるようにしたが、3つ以上の単語の組合せを利用してもよい。この場合、ユーザの発話から得られた単語の3つ以上を一つの集合として利用する。例えば「テレビの電源を入れて」と要求された場合、「テレビ」と「電源」と「入れて(入れる)」と分けようにしてもよい。
なお、本実施例では、「カフェを予約」の要求に関し、「カフェ」と「予約して(予約する)」と分けるようにしたが、3つ以上の単語の組合せを利用してもよい。この場合、ユーザの発話から得られた単語の3つ以上を一つの集合として利用する。例えば「テレビの電源を入れて」と要求された場合、「テレビ」と「電源」と「入れて(入れる)」と分けようにしてもよい。
(第2の実施例)
図4に示すフローチャートを参照して、第2の実施例を説明する。なお、図4において、図3と同一ステップには同一符号を付して示し、ここでは異なる点を説明する。
本実施例では、第1の実施例において、ステップS13で、音声認識された述語と目的語の関係が不可だった場合に、関係可の機能を抽出する(ステップS16)。ここで、関係可の機能がない場合には、対応する処理ができないことを提示して一連の処理を終了する(ステップS15)。関係可の機能がある場合には、対応処理ができないということを提示すると共に、利用可能な機能を提示する(ステップS17)。ユーザがこの提示をうけて再入力した場合、その再入力した音声を音声認識する(ステップS18)。認識した結果について述語と目的語の意図の再推定を行う(ステップS19)。ここで、システム11は利用可能な単語の組合せか否かを照合し(ステップS20)、利用可能な単語の組合せならば対応する機能を処理し出力して(ステップS21)、一連の処理を終了する。また、利用可能な単語の組合せでなかった場合には、対応する機能がないこと(「不可」)を提示して(ステップS22)、一連の処理を終了する。
図4に示すフローチャートを参照して、第2の実施例を説明する。なお、図4において、図3と同一ステップには同一符号を付して示し、ここでは異なる点を説明する。
本実施例では、第1の実施例において、ステップS13で、音声認識された述語と目的語の関係が不可だった場合に、関係可の機能を抽出する(ステップS16)。ここで、関係可の機能がない場合には、対応する処理ができないことを提示して一連の処理を終了する(ステップS15)。関係可の機能がある場合には、対応処理ができないということを提示すると共に、利用可能な機能を提示する(ステップS17)。ユーザがこの提示をうけて再入力した場合、その再入力した音声を音声認識する(ステップS18)。認識した結果について述語と目的語の意図の再推定を行う(ステップS19)。ここで、システム11は利用可能な単語の組合せか否かを照合し(ステップS20)、利用可能な単語の組合せならば対応する機能を処理し出力して(ステップS21)、一連の処理を終了する。また、利用可能な単語の組合せでなかった場合には、対応する機能がないこと(「不可」)を提示して(ステップS22)、一連の処理を終了する。
図2の場合、「カフェを予約して」というユーザの要求に対して、「カフェを予約することはできません。」との不可の回答と共に、「レストラン、宅配ピザならば、予約することができます。カフェを探すことはできます。」と可能な機能を応答する。これに対し、ユーザが「レストランを予約して」と発話した場合には、「それではレストランを予約します。」というように、対応可能な機能で処理を行うことを明示するとよい。このように、本実施例によれば、ユーザは、不可の要求をしてもシステム側で対応可能な機能を紹介するので、次の要求時に対応可能な機能を選択指示することができるようになる。
なお、例えば店舗案内の場合、対象となる店舗数が非常に多くなる場合がある。この場合、システムを管理するユーザが店舗ごとの優先順位を設け、対応可能な機能として優位なものから提示させてもよい。また、扱う商品やサービスが類似する店舗をまとめた分類を別途つくったりしてもよいし、店舗同士の距離など所定の規則を用いることによって、代替可能な機能の提示を行ってもよい。
(第3の実施例)
図5に示すフローチャートを参照して、第3の実施例を説明する。なお、図5において、図4と同一ステップには同一符号を付して示し、ここでは異なる点を説明する。
本実施例では、第2の実施例において、ステップS12で意図の推定が行われた後、推定した単語を履歴として保持する(ステップS23)。また、ユーザの発話に述語または目的語のいずれかについて不足する単語がある場合、単語履歴を参照する。より具体的にはユーザ発話の時間的に近い発話から、現時点で取得できた単語を除き、不足単語として抽出する(ステップS24)。要求内容を認識して対応処理を実行する(ステップS21)。
図5に示すフローチャートを参照して、第3の実施例を説明する。なお、図5において、図4と同一ステップには同一符号を付して示し、ここでは異なる点を説明する。
本実施例では、第2の実施例において、ステップS12で意図の推定が行われた後、推定した単語を履歴として保持する(ステップS23)。また、ユーザの発話に述語または目的語のいずれかについて不足する単語がある場合、単語履歴を参照する。より具体的にはユーザ発話の時間的に近い発話から、現時点で取得できた単語を除き、不足単語として抽出する(ステップS24)。要求内容を認識して対応処理を実行する(ステップS21)。
例えば、上記の例で、「レストラン、宅配ピザならば、予約することができます。カフェを探すことはできます。」と可能な機能を紹介した上で、ユーザが「それではレストランで」と発話した場合を想定する。単語履歴と比較し、省略されている「予約して」補完する。このように対話において、一部の単語が省略された場合でも、履歴から省略されている単語を検出し、それを補うことができる。
(第4の実施例)
図6に示すフローチャートを参照して、第4の実施例を説明する。なお、図6において、図4及び図5と同一ステップには同一符号を付して示し、ここでは異なる点を説明する。
本実施例では、第3の実施例と同様に、ステップS12で意図推定が行われた後、推定した単語を履歴として保持する(ステップS23)。また、ステップS20で可能な機能の単語が選択された場合に、要求内容を認識して対応処理を実行した後(ステップS21)、単語の履歴を参照して置き換えがあった使用単語を提示する(ステップS25)。ここで置き換えとは、設定部112に予め設定されている目的語や述語などの単語と類似する意味をもつ単語の入れ換えを指す。後述するが、「予約する(reserve)」を「とっておく(keep)」など、ユーザの言い換えである。システム11は、今後の利用で単語、置き換えの指示がなければ(ステップS26)そのまま一連の処理を終了する。置き換えの指示があれば(ステップS26)、置き換えの単語を設定して(ステップS27)一連の処理を終了する。なお、特定の単語、特定のフレーズ(phrase)の置き換えが所定の回数以上あった場合に、置き換えられた単語を設定部112に追加するようにしてもよい。例えば、ユーザが所定の閾値を設定してもよく、置き換えが所定の閾値以上になった場合に、システムは自動的に置き換えて対応処理を継続する。また、処理部113は、ユーザ発話の少なくとも一部を復唱することによって、対象となる組合せの単語に類似する類似単語を確定させ、設定部112に、類似単語を新たに設定するようにしてもよい。類似単語は、一般的な類似単語を集めたものを用いてもよい。例えば、シソーラス(Thesaurus)を別に用意し、ユーザ発話に含まれる単語と照合する。設定部112で設定された単語と類似した単語をステップ25で提示し、置き換えするか否かをユーザに確認してもよい。
図6に示すフローチャートを参照して、第4の実施例を説明する。なお、図6において、図4及び図5と同一ステップには同一符号を付して示し、ここでは異なる点を説明する。
本実施例では、第3の実施例と同様に、ステップS12で意図推定が行われた後、推定した単語を履歴として保持する(ステップS23)。また、ステップS20で可能な機能の単語が選択された場合に、要求内容を認識して対応処理を実行した後(ステップS21)、単語の履歴を参照して置き換えがあった使用単語を提示する(ステップS25)。ここで置き換えとは、設定部112に予め設定されている目的語や述語などの単語と類似する意味をもつ単語の入れ換えを指す。後述するが、「予約する(reserve)」を「とっておく(keep)」など、ユーザの言い換えである。システム11は、今後の利用で単語、置き換えの指示がなければ(ステップS26)そのまま一連の処理を終了する。置き換えの指示があれば(ステップS26)、置き換えの単語を設定して(ステップS27)一連の処理を終了する。なお、特定の単語、特定のフレーズ(phrase)の置き換えが所定の回数以上あった場合に、置き換えられた単語を設定部112に追加するようにしてもよい。例えば、ユーザが所定の閾値を設定してもよく、置き換えが所定の閾値以上になった場合に、システムは自動的に置き換えて対応処理を継続する。また、処理部113は、ユーザ発話の少なくとも一部を復唱することによって、対象となる組合せの単語に類似する類似単語を確定させ、設定部112に、類似単語を新たに設定するようにしてもよい。類似単語は、一般的な類似単語を集めたものを用いてもよい。例えば、シソーラス(Thesaurus)を別に用意し、ユーザ発話に含まれる単語と照合する。設定部112で設定された単語と類似した単語をステップ25で提示し、置き換えするか否かをユーザに確認してもよい。
例えば、ユーザが「今晩レストランをとりたい」と要求した場合、システム側は「レストランをとることはできません。調べることと予約することはできます。」と応答する。これに対して、ユーザが「そうだった、予約をお願い。」と回答した場合に、システム側は対応処理として「それではレストランを予約します。」と復唱する。このとき、システムでは、レストランが“とる”を予約の言い換えと判定し、「レストランの場合、“とる”を予約の言い換えとして登録しますか?」と問い合わせる。ユーザが許可した場合には、システムは置き換えワードを登録しておき、次回の予約時にユーザの要求の仕方に合わせて処理を進めることができる。
他の例として、ユーザが「そばの出前を取りたい」と要求した場合、「そばの出前は対応できません。ピザなら出前の発注ができます。」と応答する。この場合、ユーザは対応可能な選択肢をその場で理解することができるので、次の対話で確実に要求に応答した処理を実行させることができるようになる。また、「ピザを届けて」との要求に対して「ピザを届けることはできません。出前の発注ならできます。」と応答した場合に、「出前でお願い」と再入力した場合に「“届ける”を出前の言い換え表現として登録します。」と案内して次回の対話に役立てることが可能となる。
なお、実施形態の対話システム11は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声認識部111、設定部112、処理部113、発話履歴保持部114は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このような対話システムに適用可能なコンピュータ装置は、CPU(Central Processing Unit)131などの制御装置と、ROM(Read Only Memory)132やRAM(Random Access Memory)133などの記憶装置と、マイクロフォン、操作入力装置、表示装置等が接続される入出力I/F134と、ネットワークに接続して通信を行う通信I/F135と、各部を接続するバス136を備えている。上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、対話ログ記憶部、シナリオ記憶部、辞書記憶部、及び意図記憶部は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスク若しくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
11…対話システム、111…音声認識部、112…設定部、113…処理部、114…発話履歴保持部、131…CPU、132…ROM、133…RAM、134…入出力I/F、135…通信I/F、136…バス。
Claims (9)
- 予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せが不可の関係にある複数の単語を設定する設定部と、
ユーザの発話を取得し、当該発話を音声認識する認識部と、
前記ユーザが発話した発話履歴を保持する保持部と、
前記ユーザの音声認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力し、さらに前記対応可能な対象の組合せの中から利用可能な組合せを選択し出力する処理部と
を備え、
前記処理部は、前記発話履歴に基づいて、前記ユーザが意図する単語の少なくとも一部を置換して出力し、
前記設定部は、前記発話履歴の中に所定の閾値以上の置換がある場合には、置換された単語を追加する
対話システム。 - 予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せが不可の関係にある複数の単語を設定する設定部と、
ユーザの発話を取得し、当該発話を音声認識する認識部と、
前記ユーザが発話した発話履歴を保持する保持部と、
前記ユーザの音声認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力し、さらに前記対応可能な対象の組合せの中から利用可能な組合せを選択し出力する処理部と
を備え、
前記処理部は、前記ユーザの発話の少なくとも一部を復唱することによって前記対象となる組合せの単語に類似する類似単語を確定させ、
前記設定部は、前記類似単語を新たに設定する
対話システム。 - 前記設定される互いに組合せが不可の関係にある単語は、述語と目的語の組合せである請求項1または2記載の対話システム。
- 前記設定部は、予め互いに組合せが対応可能の関係にある複数の単語を設定し、
前記処理部は、前記組合せの対象が不可である場合に、前記対応可能な組合せを出力する請求項1または2記載の対話システム。 - 前記ユーザが発話した発話履歴を保持する保持部を更に備え、
前記処理部は、前記発話履歴に基づいて、ユーザが意図する単語の組合せの一部を補完して出力する請求項1または2記載の対話システム。 - 予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せが不可の関係にある複数の単語を設定部に登録しておき、
ユーザの発話を取得して当該発話を音声認識し、
前記ユーザが発話した発話履歴を保持部に保持しておき、
前記ユーザの音声認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力し、さらに前記対応可能な対象の組合せの中から利用可能な組合せを選択し出力する対話方法であって、
前記発話履歴に基づいて、前記ユーザが意図する単語の少なくとも一部を置換して出力し、
前記発話履歴の中に所定の閾値以上の置換がある場合には、置換された単語を追加する対話方法。 - 予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せが不可の関係にある複数の単語を設定部に登録しておき、
ユーザの発話を取得して当該発話を音声認識し、
前記ユーザが発話した発話履歴を保持部に保持しておき、
前記ユーザの音声認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力し、さらに前記対応可能な対象の組合せの中から利用可能な組合せを選択し出力する対話方法であって、
前記ユーザの発話の少なくとも一部を復唱することによって前記対象となる組合せの単語に類似する類似単語を確定させ、
前記類似単語を新たに設定する
対話方法。 - ユーザと対話する処理をコンピュータに実行させるための対話プログラムであって、
予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せが不可の関係にある複数の単語を設定する設定ステップと、
ユーザの発話を取得して当該発話を音声認識する認識ステップと、
前記ユーザが発話した発話履歴を保持する保持ステップと、
前記ユーザの音声を取得し、当該音声の認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力し、さらに前記対応可能な対象の組合せの中から利用可能な組合せを選択し出力する出力ステップと
を具備し、
前記出力ステップは、前記発話履歴に基づいて、前記ユーザが意図する単語の少なくとも一部を置換して出力し、
前記設定ステップは、前記発話履歴の中に所定の閾値以上の置換がある場合には、置換された単語を追加する
対話プログラム。 - ユーザと対話する処理をコンピュータに実行させるための対話プログラムであって、
予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せが不可の関係にある複数の単語を設定する設定ステップと、
ユーザの発話を取得して当該発話を音声認識する認識ステップと、
前記ユーザが発話した発話履歴を保持する保持ステップと、
前記ユーザの音声を取得し、当該音声の認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力し、さらに前記対応可能な対象の組合せの中から利用可能な組合せを選択し出力する出力ステップと
を具備し、
前記出力ステップは、前記ユーザの発話の少なくとも一部を復唱することによって前記対象となる組合せの単語に類似する類似単語を確定させ、
前記設定ステップは、前記類似単語を新たに設定する
対話プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021031980A JP7035239B2 (ja) | 2017-09-21 | 2021-03-01 | 対話システム、方法、及びプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017180998A JP2019057123A (ja) | 2017-09-21 | 2017-09-21 | 対話システム、方法、及びプログラム |
JP2021031980A JP7035239B2 (ja) | 2017-09-21 | 2021-03-01 | 対話システム、方法、及びプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017180998A Division JP2019057123A (ja) | 2017-09-21 | 2017-09-21 | 対話システム、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021101348A true JP2021101348A (ja) | 2021-07-08 |
JP7035239B2 JP7035239B2 (ja) | 2022-03-14 |
Family
ID=65721539
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017180998A Pending JP2019057123A (ja) | 2017-09-21 | 2017-09-21 | 対話システム、方法、及びプログラム |
JP2021031980A Active JP7035239B2 (ja) | 2017-09-21 | 2021-03-01 | 対話システム、方法、及びプログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017180998A Pending JP2019057123A (ja) | 2017-09-21 | 2017-09-21 | 対話システム、方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11417319B2 (ja) |
JP (2) | JP2019057123A (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7151181B2 (ja) * | 2018-05-31 | 2022-10-12 | トヨタ自動車株式会社 | 音声対話システム、その処理方法及びプログラム |
JP6993382B2 (ja) | 2019-04-26 | 2022-02-04 | ファナック株式会社 | ロボット教示装置 |
JP7063844B2 (ja) * | 2019-04-26 | 2022-05-09 | ファナック株式会社 | ロボット教示装置 |
JP7063843B2 (ja) * | 2019-04-26 | 2022-05-09 | ファナック株式会社 | ロボット教示装置 |
KR20210033837A (ko) * | 2019-09-19 | 2021-03-29 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN112489620B (zh) * | 2020-11-20 | 2022-09-09 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、可读介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002342065A (ja) * | 2001-05-21 | 2002-11-29 | Nec Corp | 音声ガイダンス生成装置、音声ガイダンス生成方法、およびそのプログラム |
JP2003248497A (ja) * | 2002-02-25 | 2003-09-05 | Nec Corp | 対話エージェント方式 |
JP2006119625A (ja) * | 2004-10-22 | 2006-05-11 | Microsoft Corp | 音声認識における動詞誤りの回復 |
WO2006083020A1 (ja) * | 2005-02-04 | 2006-08-10 | Hitachi, Ltd. | 抽出された音声データを用いて応答音声を生成する音声認識システム |
JP2010145930A (ja) * | 2008-12-22 | 2010-07-01 | Nissan Motor Co Ltd | 音声認識装置及び方法 |
WO2017145373A1 (ja) * | 2016-02-26 | 2017-08-31 | 三菱電機株式会社 | 音声認識装置 |
JP2019012228A (ja) * | 2017-06-30 | 2019-01-24 | シャープ株式会社 | 制御装置、被操作機器、制御方法、および制御プログラム |
Family Cites Families (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3289304B2 (ja) * | 1992-03-10 | 2002-06-04 | 株式会社日立製作所 | 手話変換装置および方法 |
US6311157B1 (en) * | 1992-12-31 | 2001-10-30 | Apple Computer, Inc. | Assigning meanings to utterances in a speech recognition system |
US5734749A (en) * | 1993-12-27 | 1998-03-31 | Nec Corporation | Character string input system for completing an input character string with an incomplete input indicative sign |
US5521816A (en) * | 1994-06-01 | 1996-05-28 | Mitsubishi Electric Research Laboratories, Inc. | Word inflection correction system |
DE19646634A1 (de) * | 1996-11-12 | 1998-05-14 | Bosch Gmbh Robert | Verfahren zur Befehlseingabe mit Sprache |
JP3531468B2 (ja) * | 1998-03-30 | 2004-05-31 | 株式会社日立製作所 | 文書処理装置及び方法 |
US7447637B1 (en) * | 1998-12-23 | 2008-11-04 | Eastern Investments, Llc | System and method of processing speech within a graphic user interface |
US6606599B2 (en) * | 1998-12-23 | 2003-08-12 | Interactive Speech Technologies, Llc | Method for integrating computing processes with an interface controlled by voice actuated grammars |
US6505155B1 (en) * | 1999-05-06 | 2003-01-07 | International Business Machines Corporation | Method and system for automatically adjusting prompt feedback based on predicted recognition accuracy |
US6327566B1 (en) * | 1999-06-16 | 2001-12-04 | International Business Machines Corporation | Method and apparatus for correcting misinterpreted voice commands in a speech recognition system |
US6704709B1 (en) * | 1999-07-28 | 2004-03-09 | Custom Speech Usa, Inc. | System and method for improving the accuracy of a speech recognition program |
US8510668B1 (en) * | 2000-04-03 | 2013-08-13 | Google Inc. | Indicating potential focus in a user interface |
GB2366399B (en) * | 2000-08-26 | 2005-02-16 | Ibm | Recognition of command related items in object code |
JP3795350B2 (ja) | 2001-06-29 | 2006-07-12 | 株式会社東芝 | 音声対話装置、音声対話方法及び音声対話処理プログラム |
US7752293B1 (en) * | 2002-07-30 | 2010-07-06 | Cisco Technology, Inc. | Command processing in a telecommunications network |
JP4107093B2 (ja) * | 2003-01-30 | 2008-06-25 | 株式会社日立製作所 | 対話型端末装置及び対話アプリケーション提供方法 |
US6988990B2 (en) * | 2003-05-29 | 2006-01-24 | General Electric Company | Automatic annotation filler system and method for use in ultrasound imaging |
US7890928B2 (en) * | 2003-07-26 | 2011-02-15 | Pilla Gurumurty Patrudu | Mechanism and system for representing and processing rules |
US7590942B2 (en) * | 2004-09-16 | 2009-09-15 | Novatech Llc | System, method and computer program product for documenting and managing execution of procedures in a graphical interface environment |
US7620549B2 (en) * | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US20070240231A1 (en) * | 2006-03-29 | 2007-10-11 | Haswarey Bashir A | Managing objects in a role based access control system |
US7725308B2 (en) * | 2006-06-07 | 2010-05-25 | Motorola, Inc. | Interactive tool for semi-automatic generation of a natural language grammar from a device descriptor |
US20080082922A1 (en) * | 2006-09-29 | 2008-04-03 | Bryan Biniak | System for providing secondary content based on primary broadcast |
US8321197B2 (en) * | 2006-10-18 | 2012-11-27 | Teresa Ruth Gaudet | Method and process for performing category-based analysis, evaluation, and prescriptive practice creation upon stenographically written and voice-written text files |
US20080134038A1 (en) * | 2006-12-05 | 2008-06-05 | Electronics And Telecommunications Research | Interactive information providing service method and apparatus |
US8626688B2 (en) * | 2007-01-12 | 2014-01-07 | Nec Corporation | Pattern matching device and method using non-deterministic finite automaton |
WO2008132265A1 (en) * | 2007-04-27 | 2008-11-06 | Nokia Corporation | Modifying audiovisual output in a karaoke system based on performance context |
DE102007033472A1 (de) * | 2007-07-18 | 2009-01-29 | Siemens Ag | Verfahren zur Spracherkennung |
US20090089057A1 (en) * | 2007-10-02 | 2009-04-02 | International Business Machines Corporation | Spoken language grammar improvement tool and method of use |
US8165886B1 (en) * | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
WO2009105821A1 (en) * | 2008-02-29 | 2009-09-03 | Hamish Mclennan | A method and system responsive to intentional movement of a device |
US8682661B1 (en) * | 2010-08-31 | 2014-03-25 | Google Inc. | Robust speech recognition |
US8452451B1 (en) * | 2011-05-06 | 2013-05-28 | Google Inc. | Methods and systems for robotic command language |
US9236045B2 (en) * | 2011-05-23 | 2016-01-12 | Nuance Communications, Inc. | Methods and apparatus for proofing of a text input |
US9485330B2 (en) * | 2012-07-30 | 2016-11-01 | Tencent Technology (Shenzhen) Company Limited | Web browser operation method and system |
KR101364774B1 (ko) * | 2012-12-07 | 2014-02-20 | 포항공과대학교 산학협력단 | 음성 인식의 오류 수정 방법 및 장치 |
US10235511B2 (en) * | 2013-04-19 | 2019-03-19 | Pearson Education, Inc. | Authentication integrity protection |
US9384731B2 (en) * | 2013-11-06 | 2016-07-05 | Microsoft Technology Licensing, Llc | Detecting speech input phrase confusion risk |
DE112014005354T5 (de) * | 2013-11-25 | 2016-08-04 | Mitsubishi Electric Corporation | Dialog-management-system und dialog-management-verfahren |
US20150256873A1 (en) * | 2014-03-04 | 2015-09-10 | Microsoft Technology Licensing, Llc | Relayed voice control of devices |
US20170075653A1 (en) * | 2014-03-26 | 2017-03-16 | Sony Corporation | Electronic device and method for controlling the electronic device |
RU2631975C2 (ru) * | 2014-08-29 | 2017-09-29 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для обработки входных команд пользователя |
US9984685B2 (en) * | 2014-11-07 | 2018-05-29 | Hand Held Products, Inc. | Concatenated expected responses for speech recognition using expected response boundaries to determine corresponding hypothesis boundaries |
JP6514503B2 (ja) * | 2014-12-25 | 2019-05-15 | クラリオン株式会社 | 意図推定装置、および意図推定システム |
FR3031823A1 (fr) * | 2015-01-20 | 2016-07-22 | Davi | Lemmatisateur semantique base sur des dictionnaires ontologiques. |
CA2968425A1 (en) * | 2015-03-12 | 2016-09-15 | 2402326 Ontario Inc. O/A Nuage Telecom Inc. | Cloud computing telecommunications platform |
CN104933030B (zh) * | 2015-06-25 | 2018-03-09 | 中通服公众信息产业股份有限公司 | 一种维吾尔语拼写检查方法及装置 |
US10320926B2 (en) * | 2015-09-15 | 2019-06-11 | International Business Machines Corporation | Modifying application functionality based on usage patterns of other users |
GB2543759B (en) * | 2015-10-23 | 2019-03-20 | Jaguar Land Rover Ltd | Vehicle user advice system |
JP6671020B2 (ja) * | 2016-06-23 | 2020-03-25 | パナソニックIpマネジメント株式会社 | 対話行為推定方法、対話行為推定装置及びプログラム |
-
2017
- 2017-09-21 JP JP2017180998A patent/JP2019057123A/ja active Pending
-
2018
- 2018-02-20 US US15/899,835 patent/US11417319B2/en active Active
-
2021
- 2021-03-01 JP JP2021031980A patent/JP7035239B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002342065A (ja) * | 2001-05-21 | 2002-11-29 | Nec Corp | 音声ガイダンス生成装置、音声ガイダンス生成方法、およびそのプログラム |
JP2003248497A (ja) * | 2002-02-25 | 2003-09-05 | Nec Corp | 対話エージェント方式 |
JP2006119625A (ja) * | 2004-10-22 | 2006-05-11 | Microsoft Corp | 音声認識における動詞誤りの回復 |
WO2006083020A1 (ja) * | 2005-02-04 | 2006-08-10 | Hitachi, Ltd. | 抽出された音声データを用いて応答音声を生成する音声認識システム |
JP2010145930A (ja) * | 2008-12-22 | 2010-07-01 | Nissan Motor Co Ltd | 音声認識装置及び方法 |
WO2017145373A1 (ja) * | 2016-02-26 | 2017-08-31 | 三菱電機株式会社 | 音声認識装置 |
JP2019012228A (ja) * | 2017-06-30 | 2019-01-24 | シャープ株式会社 | 制御装置、被操作機器、制御方法、および制御プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2019057123A (ja) | 2019-04-11 |
US20190088252A1 (en) | 2019-03-21 |
JP7035239B2 (ja) | 2022-03-14 |
US11417319B2 (en) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7035239B2 (ja) | 対話システム、方法、及びプログラム | |
US10331784B2 (en) | System and method of disambiguating natural language processing requests | |
KR102289917B1 (ko) | 화행 정보를 이용한 대화 처리 방법 및 그 장치 | |
US10332513B1 (en) | Voice enablement and disablement of speech processing functionality | |
EP3146523B1 (en) | Context interpretation in natural language processing using previous dialog acts | |
US20190318735A1 (en) | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface | |
JP6827479B2 (ja) | パーソナルアシスタントモジュールによる非決定的なタスク開始 | |
EP4224468A2 (en) | Task initiation using long-tail voice commands | |
US7680661B2 (en) | Method and system for improved speech recognition | |
JP2020505643A (ja) | 音声認識方法、電子機器、及びコンピュータ記憶媒体 | |
JP6122642B2 (ja) | 機能実行システム及び発話例出力方法 | |
JP6024675B2 (ja) | 音声認識端末装置、音声認識システム、音声認識方法 | |
US20050131684A1 (en) | Computer generated prompting | |
EP2863385B1 (en) | Function execution instruction system, function execution instruction method, and function execution instruction program | |
WO2020222957A1 (en) | Systems and methods for disambiguating a voice search query | |
US11823664B2 (en) | Correcting speech misrecognition of spoken utterances | |
US11238855B1 (en) | Voice user interface entity resolution | |
US20190311716A1 (en) | Dialog device, control method of dialog device, and a non-transitory storage medium | |
US10140981B1 (en) | Dynamic arc weights in speech recognition models | |
EP3451189B1 (en) | A system and method for user query recognition | |
JP6772916B2 (ja) | 対話装置および対話方法 | |
US20220324460A1 (en) | Information output system, server device, and information output method | |
US20220084503A1 (en) | Speech recognition hypothesis generation according to previous occurrences of hypotheses terms and/or contextual data | |
CN110858216A (zh) | 对话方法、对话系统及存储介质 | |
US11875786B2 (en) | Natural language recognition assistant which handles information in data sessions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210301 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220302 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7035239 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |