JP6540414B2 - 音声処理装置および音声処理方法 - Google Patents
音声処理装置および音声処理方法 Download PDFInfo
- Publication number
- JP6540414B2 JP6540414B2 JP2015183973A JP2015183973A JP6540414B2 JP 6540414 B2 JP6540414 B2 JP 6540414B2 JP 2015183973 A JP2015183973 A JP 2015183973A JP 2015183973 A JP2015183973 A JP 2015183973A JP 6540414 B2 JP6540414 B2 JP 6540414B2
- Authority
- JP
- Japan
- Prior art keywords
- question
- priority
- unit
- user
- visitor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 74
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000000034 method Methods 0.000 claims description 62
- 238000012790 confirmation Methods 0.000 claims description 24
- 230000005236 sound signal Effects 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 6
- 241000287462 Phalacrocorax carbo Species 0.000 claims description 2
- 230000008569 process Effects 0.000 description 31
- 230000004044 response Effects 0.000 description 28
- 238000003384 imaging method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(4)また、本発明の一態様に係る音声処理装置において、前記質問部は、前記音声認識部によってN−Bestを用いて前記利用者の発話内容に対する候補を抽出し、抽出した前記候補を前記画像表示部に表示させるようにしてもよい。
まず、本発明の概要を説明する。
本発明では、人型ロボット(以下、単にロボットともいう)が受付にて来客者を認識したとき、受け付け業務を開始する。ロボットは、まず、所定の優先度に応じて、来客者に来客者の所属と名前、訪問先の担当者の所属と名前の発話を促す1回目の質問または発話を行う。そして、ロボットは、来客者の発話を音声認識した結果を理解し、理解した内容が正しいか否かを来客者に確認する。理解した内容が正しい場合、ロボットは、担当者に来客者が訪れたことを送信、または担当者に電話を接続する。理解した内容が正しくなかった場合、ロボットは、来客者の発話内容におけるキーワードを聞き出すために、1回目の質問とは異なる質問を所定の優先度に応じて行い、質問への応答内容を変更する。このように、本発明では、質問内容を質問回数毎に変化させることで、発話者が意図するキーワードを適切に発話者から聞き出すことができる。
<音声処理装置1の構成>
図1は、本実施形態に係る音声処理装置1を含むロボット2の概略構成を示すブロック図である。図1に示すように、ロボット2は、音声処理装置1、センサ21、駆動制御部22、駆動部23を含んで構成される。音声処理装置1は、撮像部10、画像認識部11、収音部12、音声認識辞書13、音声認識部14、DB15、意図理解部16、および質問部17を備えている。質問部17は、シナリオ記憶部171、シナリオ選択部172、質問回数記憶部173、および音声出力部174を備えている。
なお、以下の説明では、ロボット2が、担当者への来客時の受付を行う場合について説明する。
駆動制御部22は、センサ21が出力した検出結果に応じて、各駆動部23の駆動を制御する。また、駆動制御部22は、音声処理装置1が出力した画像に基づいて、例えば、ロボット2の顔に相当する部分を訪問者に向けるように制御してもよい。
駆動部23は、ロボット2の腕、脚、頭部等に取り付けられている例えば複数のモータ、機構部等である。
なお、ロボット2は、電源(不図示)等をさらに備えている。
なお、本実施形態では、撮像部10と画像認識部11を用いて、訪問者の訪問を認識する例を説明するが、訪問者の認識は、例えば人感センサ等を用いて行うようにしてもよい。
次に、優先度とシナリオの例を説明する。
図2は、本実施形態に係る優先度とシナリオの例を示す図である。図2に示すように、各シナリオには、優先度と、何回目の質問でシナリオを用いるのかと、発話を切るタイミングおよび理解結果を確認するタイミングとが対応付けられてシナリオ記憶部171に記憶されている。
質問回数が1回目のとき優先度は1であり、質問回数が2回目または3回目のとき優先度は2であり、質問回数が4回目のとき優先度は3である。また、図2において「−>」は、発話を切るタイミングと理解結果を確認するタイミングを表している。なお、図2に示した例は一例であり、これに限られない。例えば、質問回数が2回目のとき優先度は2であり、質問回数が3回目のとき優先度は3であってもよい。また、優先度は2つ以上であればよく、4つ以上であってもよい。
質問回数が1回目であるため、シナリオ選択部172は優先度を1に設定し、優先度が1に対応するシナリオをシナリオ記憶部171から読み出す。
図3に示すように、ロボット2は、読み出されたシナリオに対応する発話R11を、音声出力部174を介して行うことによって、「訪問者の所属、訪問者の名前、担当者の所属、および担当者の名前」の4つの項目を、訪問者に発話させることを促す。
この発話R11に応じて、訪問者は、発話H11を行う。
この発話R12に対して、訪問者は、発話H12を行う。すなわち、音声処理装置1の認識、理解結果が間違っていたため、間違っていることを示す発話を行う。
シナリオ選択部172は、図3に示した一連の会話を終了した後、理解結果が誤っていたため、質問回数に1を加算する。
優先度が2では、「訪問者の所属」、「訪問者の名前」、「担当者の所属」、および「担当者の名前」の項目の1つずつを、訪問者に発話させることを促すシナリオと、「訪問者の所属」、「訪問者の名前」、「担当者の所属」、および「担当者の名前」それぞれを逐次理解した結果を逐次確認するシナリオが設定されている。
訪問者は、発話R21に応じて、発話H21を行う。
そして、シナリオ選択部172は、発話H21が理解された結果を用いて、優先度が2に対応するシナリオに応じた発話R22を、音声出力部174を介して行うことで、訪問者の発話を理解した結果が正しいか否かを確認する。2回目では、このように1つの項目毎に認識および理解と確認を行う。
訪問者は、発話R22に応じて、発話H22を行う。なお、シナリオ選択部172は、確認した応答である発話H22が「いいえ」であっても、C22以下の会話を継続する。
以下、音声処理装置1は、「訪問者の名前」、「担当者の所属」、および「担当者の名前」1つずつを、訪問者に発話させることを促し、1つの項目毎に理解された結果を確認していく。
シナリオ選択部172は、図4に示したC21〜C24の一連の会話を終了した後、理解結果が誤っていたため、質問回数に1を加算する。
優先度が3では、「担当者の所属」と「担当者の名前」1つずつを、訪問者に発話させることを促すシナリオと、「担当者の所属」と「担当者の名前」それぞれを逐次理解した結果を、逐次確認するシナリオが設定されている。このように、優先度が3の場合に、「担当者の所属」と「担当者の名前」のみを質問して、訪問者から得る理由は、仮に訪問者の名前や所属の認識・理解結果が間違っていても、担当者へ連絡する優先順位が高いためである。例えば、初めて来社された訪問者の場合、訪問者名がDB15に格納されていず、正しく音声認識できない場合もある。その場合であっても、例えば電話を接続することが優先であるため、会社名および訪問者名の再質問を担当者に行わない。
図5に示す例では、発話R31に対して、訪問者が担当者の名前に関する発話H31を行ったため、意図理解部16は、発話H31に含まれている名詞が担当者の名前であると理解する。なお、図5に示す例では、音声認識部14によって、担当者の名前が「すずき」と認識された例である。そして、意図理解部16は、DB15を参照して、「すずき」に該当する担当者が「鈴木」であると理解する。次に、意図理解部16は、複数の「鈴木」がDB15に存在する場合、DB15を探索して「鈴木」が所属する部署を抽出する。図5に示す例では、該当する担当者「鈴木」が2名存在していたため、意図理解部16は、該当する2人の担当者に関する情報(所属と名前)を、シナリオ選択部172に出力する。シナリオ選択部172は、優先度が3に対応付けられているシナリオに応じて、担当者がどちらであるかを質問する発話R31のシナリオを選択する。
なお、図5に示した例では、同じ名字の担当者が異なる部署に存在する例を示したが、同じ部署に同じ名字の担当者が複数存在する場合、該当者が男性と女性の場合、男性であるか女性であるかを質問するシナリオを選択するようにしてもよく、該当者のフルネームを質問するシナリオを選択するようにしてもよく、該当者が主に担当している業務内容を質問するシナリオを選択するようにしてもよい。
一方、優先度が2および3の場合、音声処理装置1は、1つの項目(訪問者の所属、訪問者名、担当者の所属、担当者の名前のうちの1つ)毎に発話を促し、1つの項目が含まれている発話から認識する。このため、仮に1つの項目に対する認識率が90%である場合、4つの項目それぞれを正しく認識できる確率それぞれは90%である。すなわち、項目を1つずつ認識することで、4つの項目全ての認識率を向上させることができる。また、認識結果が誤っていた項目のみについて質問を行う(すなわち、前回と異なる質問を行う)ようにしたので、全ての項目に対して再度認識を繰り返す必要がなくなり、認識にかかる時間を短縮することができる。
次に、音声処理装置1の処理手順を説明する。
図6は、本実施形態に係る音声処理装置1の処理のフローチャートである。なお、図6では、優先度が1〜3の例を説明する。
(ステップS3)シナリオ選択部172は、優先度が1であるか2であるか3であるかを判別する。シナリオ選択部172は、優先度が1であると判別した場合(ステップS3;優先度1)、ステップS4に処理を進め、優先度が2であると判別した場合(ステップS3;優先度2)、ステップS10に処理を進め、優先度が3であると判別した場合(ステップS3;優先度3)、ステップS13に処理を進める。
(ステップS6)音声認識部14は、収音部12によって収音された訪問者への質問に対する応答である音声信号を取得する。続けて、音声認識部14は、取得した音声信号に対して、音声認識辞書13を参照して、音声認識を行う。
(ステップS11)音声認識部14、意図理解部16、およびシナリオ選択部172は、ステップS5〜ステップS9の処理を行う。
(ステップS14)音声認識部14、意図理解部16、およびシナリオ選択部172は、ステップS5〜ステップS9の処理を行う。
以上で、音声処理装置1の処理を終了する。
第1実施形態では、訪問者が発話した発話内容に対する理解結果が正しいか否かを、音声を用いて確認する例を説明した。本実施形態では、画像表示部に理解結果を提示して、訪問者に確認してもらい、または認識結果または理解結果の候補が複数有る場合に複数の候補を提示して訪問者に選択してもらう例を説明する。
次に、画像表示部18に表示される画像の例を説明する。
図8は、本実施形態に係る画像表示部18に表示される画像g101の例を示す図である。なお、図8に示した例は、4つの項目(訪問者の所属、訪問者の名前、担当者の所属、および担当者の名前)それぞれに対する理解結果を画像表示部18に表示させ、タッチパネル入力部19を訪問者が操作して、それぞれの確認を行う例である。符号121で囲んだ領域における各欄の領域毎(ただし空欄を除く)には、ボタンが割り当てられている。図8に示した画像g101は、例えば、優先度が1の場合に、訪問者の返答を音声認識、理解したときに表示される。
次に、音声処理装置1Aの処理手順を説明する。
図9は、本実施形態に係る音声処理装置1Aの処理のフローチャートである。なお、図9では、優先度が1〜3の例を説明する。
(ステップS1〜S3)音声処理装置1Aは、ステップS1〜S2の処理を行う。シナリオ選択部172Aは、優先度が1であるか2であるか3であるかを判別する。シナリオ選択部172Aは、優先度が1であると判別した場合(ステップS3;優先度1)、ステップS4に処理を進め、優先度が2であると判別した場合(ステップS3;優先度2)、ステップS105に処理を進め、優先度が3であると判別した場合(ステップS3;優先度3)、ステップS110に処理を進める。
(ステップS101)音声処理装置1Aは、ステップS5〜S7の処理を行い、処理の終了後、ステップS102の処理に進む。
(ステップS104)シナリオ選択部172Aは、タッチパネル入力部19が出力した結果の中に、「該当なし」を示す情報が含まれていないか否かを判別する。シナリオ選択部172Aは、「該当なし」を示す情報が含まれていると判別した場合(ステップS104;NO)、「該当なし」が含まれていた項目を示す情報を抽出し、ステップS2に処理を戻す。シナリオ選択部172Aは、「該当なし」を示す情報が含まれていないと判別した場合(ステップS104;YES)、処理を終了する。
(ステップS106)音声処理装置1Aは、「該当なし」を示す情報が含まれていた項目のシナリオについて、ステップS5〜ステップS7の処理を行う。
(ステップS108)タッチパネル入力部19は、訪問者が操作した結果を取得する。
(ステップS111)音声処理装置1Aは、「該当なし」を示す情報が含まれていた項目のシナリオについて、ステップS5〜ステップS7の処理を行う。
(ステップS113)タッチパネル入力部19は、訪問者が操作した結果を取得する。
以上で、音声処理装置1Aの処理を終了する。
また、本実施形態の音声処理装置1Aにおいて、質問部17Aは、音声認識部14によってN−Bestを用いて利用者の発話内容に対する候補を抽出し、抽出した候補を画像表示部18に表示させる。
例えば、図8において、ロボット2が訪問者に対して「お名前は田中さまでしょうか?竹中さまでしょうか?真中さまでしょうか?」と音声信号を用いて確認を行った場合、音声処理装置1Aは、訪問者のこの確認に応じた返答の「田中です。」に対して、再度、音声認識を行う必要がある。この場合、前述したように、仮に認識率が90%の場合、2回音声認識を行うことで、認識率が約80%(=0.9^2)に低下する。一方、本実施形態によれば、画像表示部18への表示と、タッチパネル入力部19による選択により、音声認識を行う回数が1回で済むため、認識率90%を得ることができる。
第2実施形態では、例えば図8に示したように、全ての項目に対して、画像表示部18に表示させてタッチパネル入力部19の操作によって選択させる例を説明したが、本実施形態では、予め定められている使用タイミングと項目のみタッチパネル入力部19の操作によって選択させる例を説明する。
まず、DB15に格納されている担当者に関する情報の例を説明する。
図10は、第1実施形態〜第3実施形態に係るDB15に格納されている担当者に関する情報の例を示す図である。
図10に示すように、DB15には、担当者の名字の読みに、担当者の名前、所属、電話番号、性別、および主な業務内容等が関連付けられて格納されている。図9に示す例は、担当者の名前の読みが「すずき」と「よしだ」である情報の一例である。図9に示す例では、読みが「すずき」である担当者は4名であり、読みが「よしだ」である担当者は2名である。
次に、本実施形態に係るシナリオ記憶部171に記憶されている情報の一例を説明する。
図11は、本実施形態に係るシナリオ記憶部171に記憶されている情報の一例を示す図である。図11に示すように、シナリオ記憶部171には、確認を行うタイミングといずれの項目に対してタッチパネル入力部19を用いるかが、優先度と質問回数とシナリオに関連付けられている。図11に示すように、本実施形態では、受け付けにおいて、特に重要な項目である担当者の所属と担当者の名前についてタッチパネル入力による選択を併用する。
意図理解部16は、DB15を参照した結果、候補が4人以上の場合、DB15に格納されている同じ読みの名字である担当者のうち、格納されている上位3人を選択する。そして、意図理解部16は、選択した候補者に関する情報を読み出して、読み出した候補者にかんする情報をシナリオ選択部172Aに出力する。
次に、画像表示部18に表示される画像の例を説明する。
例えば、優先度が2の場合、画像表示部18には、図8における鎖線g113と鎖線g114で囲まれた領域の画像が、画像表示部18に表示される。訪問者は、タッチパネル入力部19を操作して、それぞれの確認または選択を行う。
図12は、本実施形態に係る画像表示部18に表示される画像g201の例を示す図である。図12に示した例は、読み「すずき」に対して複数の候補が存在する場合の表示例である。
図12に示す例では、担当者の名前が「すずき」であり、3人の候補者を表示した例である。この場合、図12に示すように担当者の所属と名前とが関連付けられている。これにより、鎖線g211、g212、g213で囲まれた領域それぞれには、1つのボタンが設定されている。例えば、鎖線g211で囲まれた領域のうち、候補の欄、所属の欄、名前の欄のいずれがタッチパネル入力部19の操作によって選択されても、第1候補が選択される。
また、従来技術では、意図理解部の理解が誤っていた場合、例えば、訪問者が「ZZZ部の金髪の方をお願いします。」と発話した場合、「金髪」を担当者名であると理解を誤る場合もあり得た。このような場合、再度、訪問者に同じ質問を繰り返しても認識率を向上できなかった。第1実施形態〜第3実施形態によれば、優先度毎に、目的語を聞き出せるように質問を変え、質問を区切るタイミングと質問を認識・理解した結果を確認するタイミングを変えたので、上述したように1つの項目の認識率を向上させることができる。
また、第1実施形態〜第3実施形態では、音声処理装置1(または1A)がロボット2に搭載されている例を説明したが、これに限られない。音声処理装置1(または1A)は、例えば、スマートフォン等の携帯電話、タブレット端末等に搭載されていてもよい。
Claims (5)
- 音声信号を取得する音声入力部と、
前記音声入力部によって取得された前記音声信号に対して音声認識を行う音声認識部と、
前記音声認識部によって認識された認識結果に基づいて、利用者の意図を理解する意図理解部と、
前記利用者に対して質問を行う質問部と、を備え、
第1の優先度に対応する質問内容は、複数の項目を一度に質問して、前記利用者に発話を促す質問であり、
第2の優先度に対応する質問内容は、複数の項目それぞれを1つずつ質問して、前記利用者に発話を促す質問であり、
前記質問部は、
優先度を第1の優先度とし、前記第1の優先度に対応する質問内容を前記利用者に対して行い質問する質問を行い、前記第1の優先度に対応する質問内容に対する前記利用者の音声信号を前記意図理解部が理解した理解結果が正しいか否かを前記利用者に対して確認する確認質問を行い、
前記確認質問に対する前記利用者の音声信号を前記意図理解部が理解した前記理解結果が誤っていると理解された場合に、優先度を第2の優先度に変更し、前記第2の優先度に対応する質問内容に変更して、前記第2の優先度に対応する質問内容の質問を前記利用者に行う、音声処理装置。 - 前記質問部は、前記第2の優先度の場合に、前記第1の優先度に対応する質問内容を、前記第1の優先度に対応する質問内容に含まれる項目が前記利用者に発話を促したい目的語を聞きだす質問内容に変更する、請求項1に記載の音声処理装置。
- 画像表示部を備え、
前記画像表示部は、
前記質問内容に対する音声信号を理解した前記理解結果の候補が複数の場合に、前記複数の候補を前記画像表示部に表示させ、前記利用者により前記複数の候補から1つを選択可能にする、請求項1または請求項2に記載の音声処理装置。 - 前記質問部は、前記音声認識部によってN−Bestを用いて前記利用者の発話内容に対する候補を抽出し、抽出した前記候補を前記画像表示部に表示させる、請求項3に記載の音声処理装置。
- 第1の優先度に対応する質問内容は、複数の項目を一度に質問して、利用者に発話を促す質問であり、
第2の優先度に対応する質問内容は、複数の項目それぞれを1つずつ質問して、前記利用者に発話を促す質問であり、
音声入力部が、音声信号を取得する音声入力手順と、
音声認識部が、前記音声入力手順によって取得された前記音声信号に対して音声認識を行う音声認識手順と、
意図理解部が、前記音声認識手順によって認識された認識結果に基づいて、利用者の意図を理解する意図理解手順と、
質問部が、優先度を第1の優先度とし、前記第1の優先度に対応する質問内容を前記利用者に対して行い質問する質問を行う手順と、
前記質問部が、前記第1の優先度に対応する質問内容に対する前記利用者の音声信号を前記意図理解手順によって理解された理解結果が正しいか否かを前記利用者に対して確認する確認質問を行う手順と、
前記質問部が、前記確認質問に対する前記利用者の音声信号を前記意図理解部が理解した前記理解結果が誤っていると理解された場合に、優先度を第2の優先度に変更し、前記第2の優先度に対応する質問内容に変更して、前記第2の優先度に対応する質問内容の質問を前記利用者に行う手順と、
を含む音声処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015183973A JP6540414B2 (ja) | 2015-09-17 | 2015-09-17 | 音声処理装置および音声処理方法 |
US15/235,540 US9858924B2 (en) | 2015-09-17 | 2016-08-12 | Voice processing apparatus and voice processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015183973A JP6540414B2 (ja) | 2015-09-17 | 2015-09-17 | 音声処理装置および音声処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017058545A JP2017058545A (ja) | 2017-03-23 |
JP6540414B2 true JP6540414B2 (ja) | 2019-07-10 |
Family
ID=58282963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015183973A Active JP6540414B2 (ja) | 2015-09-17 | 2015-09-17 | 音声処理装置および音声処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9858924B2 (ja) |
JP (1) | JP6540414B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6854170B2 (ja) * | 2017-03-30 | 2021-04-07 | アイホン株式会社 | インターホン装置 |
CN107678561A (zh) | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音输入纠错方法及装置 |
JP6867939B2 (ja) * | 2017-12-20 | 2021-05-12 | 株式会社日立製作所 | 計算機、言語解析方法、及びプログラム |
JP7276129B2 (ja) * | 2017-12-22 | 2023-05-18 | ソニーグループ株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
JP6984474B2 (ja) | 2018-02-14 | 2021-12-22 | トヨタ自動車株式会社 | 情報処理装置および情報処理方法 |
JP2019215685A (ja) * | 2018-06-12 | 2019-12-19 | 株式会社国際情報ネット | ロボットを利用した接客システム |
KR102175022B1 (ko) * | 2018-11-16 | 2020-11-05 | (주)아이컴시스 | 주소봇 서비스 시스템 |
KR102666658B1 (ko) * | 2018-12-19 | 2024-05-20 | 현대자동차주식회사 | 차량 및 그 제어방법 |
JP7135896B2 (ja) * | 2019-01-28 | 2022-09-13 | トヨタ自動車株式会社 | 対話装置、対話方法及びプログラム |
CN109979462A (zh) * | 2019-03-21 | 2019-07-05 | 广东小天才科技有限公司 | 一种结合上下文语境获取意图的方法和系统 |
CN111860335A (zh) * | 2020-07-22 | 2020-10-30 | 安徽兰臣信息科技有限公司 | 一种基于人脸识别的智能穿戴设备 |
CN112002321B (zh) * | 2020-08-11 | 2023-09-19 | 海信电子科技(武汉)有限公司 | 显示设备、服务器及语音交互方法 |
US12073831B1 (en) * | 2021-01-15 | 2024-08-27 | Apple Inc. | Using visual context to improve a virtual assistant |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06259090A (ja) | 1993-03-09 | 1994-09-16 | Nec Corp | 音声対話システム |
JPH06308996A (ja) * | 1993-04-23 | 1994-11-04 | Nippon Telegr & Teleph Corp <Ntt> | 質問応答型の対話装置におけるコマンドの要求およびコマンドの認識結果の確認のためのプロンプトの作成方法 |
JP3700266B2 (ja) * | 1996-07-18 | 2005-09-28 | 株式会社日立製作所 | 音声対話制御方法および音声対話システム |
JP2000194386A (ja) * | 1998-12-24 | 2000-07-14 | Omron Corp | 音声認識応答装置及び方法 |
JP2004333543A (ja) * | 2003-04-30 | 2004-11-25 | Matsushita Electric Ind Co Ltd | 音声対話システム及び音声対話方法 |
JP2008009153A (ja) * | 2006-06-29 | 2008-01-17 | Xanavi Informatics Corp | 音声対話システム |
US9082406B2 (en) * | 2006-11-30 | 2015-07-14 | Robert Bosch Llc | Method and system for extending dialog systems to process complex activities for applications |
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
KR101250897B1 (ko) * | 2009-08-14 | 2013-04-04 | 한국전자통신연구원 | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 |
US9514737B2 (en) * | 2011-09-13 | 2016-12-06 | Mitsubishi Electric Corporation | Navigation apparatus |
WO2013155619A1 (en) * | 2012-04-20 | 2013-10-24 | Sam Pasupalak | Conversational agent |
-
2015
- 2015-09-17 JP JP2015183973A patent/JP6540414B2/ja active Active
-
2016
- 2016-08-12 US US15/235,540 patent/US9858924B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017058545A (ja) | 2017-03-23 |
US20170084271A1 (en) | 2017-03-23 |
US9858924B2 (en) | 2018-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6540414B2 (ja) | 音声処理装置および音声処理方法 | |
US10977452B2 (en) | Multi-lingual virtual personal assistant | |
US9742912B2 (en) | Method and apparatus for predicting intent in IVR using natural language queries | |
JP6465077B2 (ja) | 音声対話装置および音声対話方法 | |
JP5158174B2 (ja) | 音声認識装置 | |
JP5967569B2 (ja) | 音声処理システム | |
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP6966979B2 (ja) | 対話システムの制御方法、対話システム及びプログラム | |
US9484034B2 (en) | Voice conversation support apparatus, voice conversation support method, and computer readable medium | |
JP2017058673A (ja) | 対話処理装置及び方法と知能型対話処理システム | |
JP6084654B2 (ja) | 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 | |
CN106796788A (zh) | 基于用户反馈来改善自动语音识别 | |
JP5951161B2 (ja) | 音声認識装置及び音声認識方法 | |
US20060020471A1 (en) | Method and apparatus for robustly locating user barge-ins in voice-activated command systems | |
US20170278146A1 (en) | Reception system and reception method | |
JP2010054549A (ja) | 回答音声認識システム | |
JP6723907B2 (ja) | 言語認識システム、言語認識方法、及び言語認識プログラム | |
US20210241755A1 (en) | Information-processing device and information-processing method | |
US11755652B2 (en) | Information-processing device and information-processing method | |
WO2019146199A1 (ja) | 情報処理装置、及び情報処理方法 | |
JP7132206B2 (ja) | 案内システム、案内システムの制御方法、およびプログラム | |
JP3883066B2 (ja) | 音声対話システム及び方法、音声対話プログラム並びにその記録媒体 | |
JPH09230889A (ja) | 音声認識応答装置 | |
JP2003263190A (ja) | 音声自動質問応答装置 | |
JPWO2016021058A1 (ja) | 対話システム、および情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180928 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190527 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6540414 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |