JP2007322757A - 音声対話装置 - Google Patents
音声対話装置 Download PDFInfo
- Publication number
- JP2007322757A JP2007322757A JP2006153070A JP2006153070A JP2007322757A JP 2007322757 A JP2007322757 A JP 2007322757A JP 2006153070 A JP2006153070 A JP 2006153070A JP 2006153070 A JP2006153070 A JP 2006153070A JP 2007322757 A JP2007322757 A JP 2007322757A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- word
- response
- user
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】音声認識部102は、使用者から入力された発話音声を認識し、言語理解部104は、音声認識手段による認識結果に基づいて使用者による発話内容を理解する。応答生成部109は、発話内容理解手段で理解した使用者による発話内容に応じて使用者に対する応答文を生成し、さらに騒音検出手段112で検出された音声認識に対する騒音の程度に基づいて、生成した応答文の内容を変化させる。そして、音声合成部110およびGUI表示部111は、内容が変化された後の応答文を出力する。
【選択図】図1
Description
Score(c) = Score(c) * weights + Conf(c) ・・・(4)
Score(ca) = Score(ca) * weightt- Conf(cb) + Conf(ca) ・・・(5)
方針2:認識履歴中の単語Aと認識結果単語Bが詳細化の関係にあった場合、単語Aのスコアを上げる。
方針3:認識履歴中の単語Aと認識履歴中の単語Bが訂正の関係にあった場合、単語Aのスコアを下げる。
方針4:認識結果に肯定(はい、うん等)が含まれていた場合、応答に含まれていた単語のスコアを上げる。
方針5:認識結果に否定後(いいえ、ちがう等)が含まれていた場合、応答に含まれていた単語のスコアを下げる。
Score(Wd)=Score(Wd)-p1+p2*Conf(Ws)-p3*Conf(Wt)
+i*(p4*Conf(yes)-p5*Conf(no)-p6*Conf(rej)) ・・・(6)
但し、Scoreは認識履歴中の単語のスコアであり、右辺が更新前、左辺が更新後である。Wdは計算対象となる認識履歴メモリ113中の単語である。
方針7:システム応答が質問(例、何インターチェンジですか)であって、認識結果の内容が回答である場合、認識結果の単語のスコアを上げる。
方針8:認識結果の上位には正解単語が多く含まれているので、上位に含まれる単語のスコアを上げる。
方針9:発話長が長い発話(短い発話)は認識されやすい(認識されにくい)ため、1カテゴリの結果はその単語のスコアを下げ、2カテゴリ以上の単語はそのスコアを上げる。
Score(Wd)=Conf(Wd)+p7*Score(Ws)+p8*Conf(Wa)
+Conf(Wd)*(p9+p10*len2-p11*len1) ・・・(7)
但し、Scoreは認識履歴中の単語のスコアであり、Confは最新の認識結果から得られる信頼度である。Wdは計算対象となる認識履歴中の単語である。
下位カテゴリがなく、上位カテゴリまたは中位カテゴリのスコア評価が評価1の場合、対話をスムーズに進めるための応答を行う。
例 ユーザ発話 …「愛知県」
システム応答…「はい」
スコア評価が2の場合や、ユーザ発話の文頭に否定後が来た場合は確認の意味も込めて復唱を行う。
例 ユーザ発話 …「愛知県」
システム応答…「愛知県」
下位カテゴリが発話され、信頼できる(スコア評価が1か2)場合は、最終確認を行う。
例 ユーザ発話 …「豊橋駅」
システム応答…「豊橋駅を設定してよろしいですか」
前応答に下位カテゴリがあり、肯定発話が信頼できる(スコア評価が1か2)場合は、目的地に設定する。
例 システム応答…「豊橋駅を設定してよろしいですか」
ユーザ発話 …「はい」
システム応答…「目的地に設定しました」
ユーザに対して分からない情報のみを尋ねる。
例 ユーザ発話…「愛知県の名古屋鉄道」 (「名古屋」部分のスコア評価が低い時)
システム応答…「愛知県の何鉄道ですか」
上位カテゴリ(PR)と中位カテゴリ(HR)の組み合わせで、どちらか一方だけ信頼できない(スコア評価が4)場合、スコアの高いものだけ応答することで対話を進める。
例 ユーザ発話…「愛知県の名古屋鉄道」(「愛知」部分のスコア評価が低いとき)
システム応答…「名古屋鉄道」
例 ユーザ発話…「豊橋駅」(「豊橋」部分のスコア評価が低いとき)
システム応答…「何県の駅ですか」
上位カテゴリにつづいて肯定発話がきて、信頼できる場合(スコア評価が1か2の場合)次の発話を促す。
例 システム応答…「名古屋鉄道」
ユーザ発話 …「はい」
システム応答…「名古屋鉄道のどこですか」
否定発話が信頼できる場合(スコア評価が1か2の場合)前回の応答に用いていない別候補を返す。
例 システム応答…「倉橋駅を設定しますか」
ユーザ発話 …「いいえ」
システム応答…「倉橋駅を設定しますか」
肯定発話や否定発話が信頼できない場合(スコア評価が4の場合)
例 システム応答…「豊橋駅を設定してよろしいですか」
ユーザ発話 …「はい」 (発話全体のスコア評価が低いとき)
システム応答…「豊橋駅を設定してよろしいですか」
全ての情報に対して信頼できない場合(スコア評価が4の場合)
例 ユーザ発話 …「愛知県」 (発話全体のスコア評価が低いとき)
システム応答…「もう一度発話してください」
レベル0の場合には、音声認識の障害となる騒音はほとんど発生していないと考えられることから、応答方針7による応答文をそのまま使用する。すなわち、別情報の付加情報が少なく、スコア評価が悪いときに、上のカテゴリを聞くことによって認識率の向上を図る。例えば、ユーザ発話が「豊橋駅」であり、「豊橋」部分のスコア評価が低いときには、システム応答は上述したように「何県の駅ですか」となる。この場合、これを受けたユーザ発話としては「愛知」が予想される。
レベル1の場合には、音声認識の障害となる騒音が若干発生していると考えられる。このため、別情報の付加情報が少なく、スコア評価が悪いときに、上のカテゴリを語尾に付帯するカテゴリ名称を省略した形で聞くことによって認識率の向上を図るように、応答方針7に従って生成した応答文の内容を変化させる。例えば、ユーザ発話が「豊橋駅」であり、「豊橋」部分のスコア評価が低いときには、システム応答を「どちらの駅ですか」に変化させる。この場合、これを受けたユーザ発話としては「愛知県」が予想され、これはレベル0におけるユーザ発話「愛知」と比較して語尾切れに対して頑健な形となっている。
レベル2の場合には、騒音レベル1のときと比較すると、音声認識の障害となる騒音が大きくなっている。このため、別情報の付加情報が少なく、スコア評価が悪いときに、質問に含まれる質問項目数を増加させるため、発話されたカテゴリと上のカテゴリの両方を聞くことによって認識率の向上を図るように、応答方針7に従って生成した応答文の内容を変化させる。例えば、ユーザ発話が「豊橋駅」であり、「豊橋」部分のスコア評価が低いときには、システム応答を「何県の何駅ですか」に変化させる。この場合、これを受けたユーザ発話としては「愛知の豊橋」が予想され、これはレベル1におけるユーザ発話「愛知」と比較してさらに語尾切れに対して頑健な形となっている。
レベル3の場合には、音声認識の障害となる騒音が大きく発生していると考えられる。このため、別情報の付加情報が少なく、スコア評価が悪いときに、発話されたカテゴリと上のカテゴリの両方を聞き、さらに語尾への付帯語の付加を指示することによって認識率の向上を図るように応答方針7に従って生成した応答文の内容を変化させる。例えば、ユーザ発話が「豊橋駅」であり、「豊橋」部分のスコア評価が低いときには、システム応答を「何県の何駅に設定、とおっしゃってください」に変化させる。この場合、これを受けたユーザ発話としては「愛知県の豊橋駅に設定」が予想され、これはレベル2におけるユーザ発話と比較してさらに語尾切れに対して頑健な形となっている。
レベル4の場合には、音声認識の障害となる騒音がかなり大きく発生していると考えられる。このため、別情報の付加情報が少なく、スコア評価が悪いときに、発話されたカテゴリと上のカテゴリの両方を聞き、さらに語頭および語尾への付帯語の付加を指示することによって認識率の向上を図るように応答方針7に従って生成した応答文の内容を変化させる。例えば、ユーザ発話が「豊橋駅」であり、「豊橋」部分のスコア評価が低いときには、システム応答を「目的地を何県の何駅に設定、とおっしゃってください」に変化させる。この場合、これを受けたユーザ発話としては「目的地を愛知県の豊橋駅に設定」が予想され、これはレベル3におけるユーザ発話と比較してさらに語頭切れに対して頑健な形となっている。
(1)周囲の騒音の程度に基づいて応答文の内容を変化させるようにした。これによって、使用者は、騒音に応じた応答文に対応して新たな発話を行うため、音声認識時に誤認識が発生する可能性を低下させることができる。
なお、上述した実施の形態の音声対話装置は、以下のように変形することもできる。
(1)上述した実施の形態では、音声認識部102は、図3に示したパターンを認識対象としてユーザ発話を待ち受ける例について説明した。しかしながら、音声認識部102は、応答生成部109によって生成された応答文に対応して、その他のパターンも認識対象として設定して次のユーザ発話を待ち受けるようにしてもよい。例えば、次のユーザ発話として「愛知県の豊橋駅に設定」や「目的地を愛知県の豊橋駅に設定」が予想される場合には、これらの発話も待ち受け可能となるように待ち受け文法を変更する。このとき、単語の語頭または語尾が騒音によって欠落することを想定して、あらかじめ単語の語頭または語尾を欠落させた欠落パターン(語彙)も待ち受け単語とすることでさらに騒音に対する頑健性を向上することができる。例えば、図20に示すように、語頭の「もくてきちを」の欠落パターンとして「くてきちを」および「てきちを」を用意し、語尾の「にせってい」の欠落パターンとして「にせって」、「にせ」をパターンとして待ち受けることによって、さらに語頭または語尾の欠落に頑健なシステムとすることができる。
101 音声入力部
102 音声認識部
103 信頼度生成部
104 言語理解部
105 クラススコア生成部
106 カテゴリ理解部
107 単語スコア生成部
108 理解内容生成部
109 応答生成部
110 音声合成部
111 GUI表示部
112 騒音検出部
113 認識履歴メモリ
Claims (9)
- 使用者から入力された発話音声を認識する音声認識手段と、
前記音声認識手段による認識結果に基づいて、前記使用者による発話内容を理解する発話内容理解手段と、
前記発話内容理解手段で理解した使用者による発話内容に応じて、使用者に対する応答文を生成する応答文生成手段と、
音声認識に対する騒音の程度を検出する騒音検出手段と、
前記騒音検出手段で検出した騒音の程度に基づいて、前記応答文生成手段で生成した応答文の内容を変化させる内容変化手段と、
前記内容変化手段で内容を変化させた後の応答文を出力する出力手段とを備えることを特徴とする音声対話装置。 - 請求項1に記載の音声対話装置において、
前記内容変化手段は、認識対象単語の語頭または語尾が前記騒音に起因して欠落しないような発話を使用者に促すように、前記応答文の内容を変化させることを特徴とする音声対話装置。 - 請求項1または2に記載の音声対話装置において、
前記騒音の程度は、第1〜第5の騒音レベルによって5段階で表され、各騒音レベル間の前記騒音の程度の大小関係は、第1の騒音レベル<第2の騒音レベル<第3の騒音レベル<第4の騒音レベル<第5の騒音レベルであることを特徴とする音声対話装置。 - 請求項3に記載の音声対話装置において、
前記内容変化手段は、前記騒音の程度が前記第1の騒音レベルである場合には、前記応答文生成手段で生成した応答文をそのまま使用することを特徴とする音声対話装置。 - 請求項3に記載の音声対話装置において、
前記認識対象単語はカテゴリ単位に分類され、
前記内容変化手段は、前記騒音の程度が前記第2の騒音レベルである場合には、前記応答文生成手段で生成した応答文が、前記認識対象単語にカテゴリ名称を付帯したものである場合に、前記カテゴリ名称を省略するように前記応答文の内容を変化させることを特徴とする音声対話装置。 - 請求項3に記載の音声対話装置において、
前記内容変化手段は、前記騒音の程度が前記第3の騒音レベルである場合には、前記応答文生成手段で生成した応答文よりも使用者に対する質問項目数を増加させるように前記応答文の内容を変化させることを特徴とする音声対話装置。 - 請求項3に記載の音声対話装置において、
前記内容変化手段は、前記騒音レベルが第4の騒音レベルである場合には、前記認識対象単語の後に付帯語の付加を指示するように前記応答文の内容を変化させることを特徴とする音声対話装置。 - 請求項3に記載の音声対話装置において、
前記内容変化手段は、前記騒音レベルが第5の騒音レベルである場合には、前記認識対象単語の前および後のそれぞれに付帯語の付加を指示するように前記応答文の内容を変化させることを特徴とする音声対話装置。 - 請求項1〜8のいずれか一項に記載の音声対話装置において、
前記音声認識手段は、単語の語頭または語尾を欠落させた語彙を音声認識時の待ち受け単語とすることを特徴とする音声対話装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006153070A JP5034323B2 (ja) | 2006-06-01 | 2006-06-01 | 音声対話装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006153070A JP5034323B2 (ja) | 2006-06-01 | 2006-06-01 | 音声対話装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007322757A true JP2007322757A (ja) | 2007-12-13 |
JP5034323B2 JP5034323B2 (ja) | 2012-09-26 |
Family
ID=38855621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006153070A Expired - Fee Related JP5034323B2 (ja) | 2006-06-01 | 2006-06-01 | 音声対話装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5034323B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011227237A (ja) * | 2010-04-19 | 2011-11-10 | Honda Motor Co Ltd | コミュニケーションロボット |
JP2014160168A (ja) * | 2013-02-20 | 2014-09-04 | Nippon Telegr & Teleph Corp <Ntt> | 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム |
JP2015148712A (ja) * | 2014-02-06 | 2015-08-20 | トヨタ自動車株式会社 | 音声対話装置、音声対話システム及びプログラム |
KR20180107909A (ko) * | 2017-03-23 | 2018-10-04 | 네이버랩스 주식회사 | 알림에 대한 음성 조작 방법 및 시스템 |
WO2019163242A1 (ja) * | 2018-02-20 | 2019-08-29 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1069291A (ja) * | 1996-08-27 | 1998-03-10 | Nissan Motor Co Ltd | 音声認識装置 |
JPH10105192A (ja) * | 1996-10-03 | 1998-04-24 | Toyota Motor Corp | 車両用音声案内装置 |
-
2006
- 2006-06-01 JP JP2006153070A patent/JP5034323B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1069291A (ja) * | 1996-08-27 | 1998-03-10 | Nissan Motor Co Ltd | 音声認識装置 |
JPH10105192A (ja) * | 1996-10-03 | 1998-04-24 | Toyota Motor Corp | 車両用音声案内装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011227237A (ja) * | 2010-04-19 | 2011-11-10 | Honda Motor Co Ltd | コミュニケーションロボット |
JP2014160168A (ja) * | 2013-02-20 | 2014-09-04 | Nippon Telegr & Teleph Corp <Ntt> | 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム |
JP2015148712A (ja) * | 2014-02-06 | 2015-08-20 | トヨタ自動車株式会社 | 音声対話装置、音声対話システム及びプログラム |
KR20180107909A (ko) * | 2017-03-23 | 2018-10-04 | 네이버랩스 주식회사 | 알림에 대한 음성 조작 방법 및 시스템 |
KR102011036B1 (ko) * | 2017-03-23 | 2019-08-14 | 네이버랩스 주식회사 | 알림에 대한 음성 조작 방법 및 시스템 |
WO2019163242A1 (ja) * | 2018-02-20 | 2019-08-29 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
US11694675B2 (en) | 2018-02-20 | 2023-07-04 | Sony Corporation | Information processing apparatus, information processing system, and information processing method |
Also Published As
Publication number | Publication date |
---|---|
JP5034323B2 (ja) | 2012-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
US8886534B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition robot | |
JP4542974B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
US20070239455A1 (en) | Method and system for managing pronunciation dictionaries in a speech application | |
US20080154591A1 (en) | Audio Recognition System For Generating Response Audio by Using Audio Data Extracted | |
JP2005331882A (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
JP2005208643A (ja) | ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法 | |
JP2007114475A (ja) | 音声認識機器制御装置 | |
JP3702867B2 (ja) | 音声制御装置 | |
JP5034323B2 (ja) | 音声対話装置 | |
JP4104313B2 (ja) | 音声認識装置、プログラム及びナビゲーションシステム | |
JPWO2020036195A1 (ja) | 話し終わり判定装置、話し終わり判定方法およびプログラム | |
JP2004333543A (ja) | 音声対話システム及び音声対話方法 | |
JP4293340B2 (ja) | 対話理解装置 | |
JP4661239B2 (ja) | 音声対話装置及び音声対話方法 | |
JP2004226881A (ja) | 会話システム及び会話処理プログラム | |
JP2018031985A (ja) | 音声認識補完システム | |
JP2003177779A (ja) | 音声認識のための話者学習法 | |
JP4296290B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP4610249B2 (ja) | 対話理解装置 | |
JP2004029354A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP3720595B2 (ja) | 音声認識装置及びその方法、コンピュータ可読メモリ | |
JP2011180416A (ja) | 音声合成装置、音声合成方法およびカーナビゲーションシステム | |
JP4736423B2 (ja) | 音声認識装置および音声認識方法 | |
JP2005283646A (ja) | 音声認識率推定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090325 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101130 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110816 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111013 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120605 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120618 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150713 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |