JP6391925B2 - 音声対話装置、方法およびプログラム - Google Patents
音声対話装置、方法およびプログラム Download PDFInfo
- Publication number
- JP6391925B2 JP6391925B2 JP2013196143A JP2013196143A JP6391925B2 JP 6391925 B2 JP6391925 B2 JP 6391925B2 JP 2013196143 A JP2013196143 A JP 2013196143A JP 2013196143 A JP2013196143 A JP 2013196143A JP 6391925 B2 JP6391925 B2 JP 6391925B2
- Authority
- JP
- Japan
- Prior art keywords
- reading
- character string
- written character
- voice
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
(第1の実施形態)
第1の実施形態に係る音声対話装置について図1のブロック図を参照して説明する。
第1の実施形態に係る音声対話装置100は、音声認識部101、対話判定部102、シナリオデータベース103(以下、シナリオDB103という)、表記読みデータベース104(以下、表記読みDB104という)、応答文生成部105、中間言語化部106および音声合成部107を含む。
対話が成功したかどうかの判定は、例えば、現在の判定対象となる発話の次の発話中に予め用意した言い直し表現が含まれていなければ成功、含まれていなければ失敗と判定すればよい。言い直し表現としては、例えば、「そうじゃなくて」、「いやいや」、「ちがうちがう」といった表現が挙げられる。また、別の判定方法としては、音声認識部101から受け取った表記文字列に必要な情報が含まれるかどうかで判定してもよい。例えば、表記文字列に日時表現が含まれれば対話が成功、含まれていなければ失敗と判定すればよい。また、本実施形態では、表記文字列を用いて対話が成功したかどうかを判定する例を示すが、これに限らず、読みを用いて対話が成功したかどうかを判定してもよい。なお、対話の成否判定を言い直し表現による方法のみで行う場合には、成否判定時にシナリオDB103はなくてもよい。
本実施形態の対話システムでは、1つまたは複数の対話ステップを遷移することでユーザとシステムとの対話が行われると想定する。
各対話ステップの遷移順や各対話ステップにおける処理は、予め設計しておいてもよいし、ユーザとの対話中に遷移順を変更するようにしてもよい。
シナリオDB103に格納されるテーブル300は、ステップ名301、応答文302、遷移条件303、遷移先ステップ304およびドメイン305を含み、それぞれ対応付けられる。
例えば、ステップ名301「S3(目的または行き先を確認)」、応答文302「ご希望の旅行先は?」、遷移条件303「場所表現」および遷移先ステップ304「S5(日時を確認)」、遷移条件303「目的表現」および遷移先ステップ304「S4(旅行プラン紹介)」、および、ドメイン305「旅行予約、対話全体」が対応付けられる。
図4に示すテーブル400には、表記401ごとに、読み402、読み頻度スコア403がそれぞれ対応付けられて格納される。
ステップS501では、音声認識部101が、入力信号を受け取り、入力信号から表記文字列と読みとを生成する。
ステップS502では、音声認識部101が、表記文字列と読みとを1組のペアとして生成する。
ステップS504では、対話判定部102が、表記読みDB104を更新する。以上でデータ収集装置の処理を終了する。
音声認識部101の音声認識処理により、表記文字列「新千歳便の・・・」と読み「しんちとせびん・・・」とを得る。続いて、表記文字列の単語とこの単語の読みとの組である、「(便、びん)」を得る。次に、対話判定部102が、現在の対話ステップにおいて、入力音声に「新千歳便」という地名が含まれているので、対話は成功であると判定する。対話判定部102は、この判定結果に基づき、シナリオDB103における対話ステップ「日時を確認」は、旅行予約ドメインおよび対話全体ドメインに属するので、表記読みDB104に格納されるテーブルの「表記:便、読み:びん」において、対話全体ドメインと旅行予約ドメインとの読み頻度スコアを1つずつインクリメントする。
例えば、ユーザ発話において言い直し表現として「いやいや」が含まれる場合、上述の例では対話が失敗したと判定するが、「いやいや」という発話は必ずしも言い直し表現とは限らないため、対話が成功したと判定して、スコアの値を0.5として読み頻度スコアにインクリメントするといった処理を行なってもよい。
この場合は、表記文字列の単語とこの単語の読みとの組として、「(便、べん)」を得る。音声対話装置は、誤認識結果「便からドル・・・」に基いて対話ステップの遷移や、応答文生成を行うため、ユーザの意図と異なる挙動をすることになる。このとき、ユーザが「そうじゃなくて」などと否定する内容の発話をしたとすると、対話判定部102は対話が失敗した場合と判定し、表記読みDB104の更新を行わずに処理を終了する。
ここでは、現在の対話ステップが「日時を確認」である場合の判定処理を示す。
ステップS601では、応答文生成部105が、図3に示すシナリオDB103に格納されるステップ名301「S2(日時を確認)」に対応する応答文302を参照して、応答文「出発日はいつですか?」を生成し、音声合成部107からこの応答文の応答音声の出力がユーザになされる。
ステップS603では、対話判定部102が、ユーザからの発話に日時を示す表現が含まれるかどうかを判定する。日時を示す表現が含まれているかどうかを判定する方法としては、正規表現によるマッチングを使用する方法が考えられる。
ステップS701では、音声認識部101が、入力音声から表記文字列と読みとを生成する。
ステップS704では、音声合成部107が、応答文の読みから音声合成処理し、応答音声を生成する。以上で音声対話装置100の動作を終了する。
第2の実施形態では、読みの信頼度に応じて応答文の読みを画面に表示する点が異なる。
第2の実施形態に係る音声対話装置800は、音声認識部101、対話判定部102、シナリオDB103、表記読みDB104、応答文生成部105、音声合成部107、中間言語化部801および画像表示部802を含む。
ステップS701からステップS704までの処理については、図7に示すステップと同様であるのでここでの説明は省略する。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
Claims (5)
- 発話された音声を音声認識し、該音声に対応する表記文字列と該表記文字列の読みとを生成する音声認識部と、
前記表記文字列および前記表記文字列の読みの少なくともどちらか一方と音声対話で用いられるシナリオとを用いて前記音声対話が成功したかどうかを判定し、前記音声対話が成功したと判定した場合、前記表記文字列および前記表記文字列の読みの少なくともどちらか一方を更新する対話判定部と、
前記発話された音声に対する応答である応答文を生成する生成部と、
前記表記文字列および前記表記文字列の読みに基づいて、前記応答文の読みを得る中間言語化部と、
前記応答文の読みを用いて該応答文を音声合成し応答音声を生成する音声合成部と、を具備する音声対話装置。 - 前記対話判定部は、前記表記文字列の読みとしての確からしさを示すスコアを、前記表記文字列の読みに対して算出し、
前記中間言語化部は、前記スコアに基づいて前記応答文の読みを推定する請求項1に記載の音声対話装置。 - 画像を表示する表示部をさらに具備し、
前記中間言語化部は、前記スコアに基づいて前記応答文の読みの信頼度を算出し、
前記表示部は、前記信頼度が閾値未満であれば、前記応答文の文字列を表示する請求項2に記載の音声対話装置。 - 発話された音声を音声認識し、該音声に対応する表記文字列と該表記文字列の読みとを生成し、
前記表記文字列および前記表記文字列の読みの少なくともどちらか一方と音声対話で用いられるシナリオとを用いて前記音声対話が成功したかどうかを判定し、
前記音声対話が成功したと判定される場合、前記表記文字列および前記表記文字列の読みの少なくともどちらか一方を更新し、
前記発話された音声に対する応答である応答文を生成し、
前記表記文字列および前記表記文字列の読みに基づいて、前記応答文の読みを得、
前記応答文の読みを用いて該応答文を音声合成し応答音声を生成する音声対話方法。 - コンピュータを、
発話された音声を音声認識し、該音声に対応する表記文字列と該表記文字列の読みとを生成する音声認識手段と、
前記表記文字列および前記表記文字列の読みの少なくともどちらか一方と音声対話で用いられるシナリオとを用いて前記音声対話が成功したかどうかを判定し、前記音声対話が成功したと判定される場合、前記表記文字列および前記表記文字列の読みの少なくともどちらか一方を更新する対話判定手段と、
前記発話された音声に対する応答である応答文を生成する生成手段と、
前記表記文字列および前記表記文字列の読みに基づいて、前記応答文の読みを得る中間言語化手段と、
前記応答文の読みを用いて該応答文を音声合成し応答音声を生成する音声合成手段として機能させるための音声対話プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013196143A JP6391925B2 (ja) | 2013-09-20 | 2013-09-20 | 音声対話装置、方法およびプログラム |
CN201410305619.3A CN104464731A (zh) | 2013-09-20 | 2014-06-30 | 数据收集装置及方法、语音对话装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013196143A JP6391925B2 (ja) | 2013-09-20 | 2013-09-20 | 音声対話装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015060210A JP2015060210A (ja) | 2015-03-30 |
JP6391925B2 true JP6391925B2 (ja) | 2018-09-19 |
Family
ID=52817742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013196143A Expired - Fee Related JP6391925B2 (ja) | 2013-09-20 | 2013-09-20 | 音声対話装置、方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6391925B2 (ja) |
CN (1) | CN104464731A (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170316783A1 (en) * | 2016-04-28 | 2017-11-02 | GM Global Technology Operations LLC | Speech recognition systems and methods using relative and absolute slot data |
JP6515897B2 (ja) * | 2016-09-28 | 2019-05-22 | トヨタ自動車株式会社 | 音声対話システムおよび発話意図理解方法 |
CN109840062B (zh) * | 2017-11-28 | 2022-10-28 | 株式会社东芝 | 输入辅助装置以及记录介质 |
JP2022021349A (ja) * | 2018-11-28 | 2022-02-03 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001236091A (ja) * | 2000-02-23 | 2001-08-31 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識結果の誤り訂正方法およびその装置 |
JP2005227545A (ja) * | 2004-02-13 | 2005-08-25 | Matsushita Electric Ind Co Ltd | 辞書作成装置、番組案内装置及び辞書作成方法 |
JP4679254B2 (ja) * | 2004-10-28 | 2011-04-27 | 富士通株式会社 | 対話システム、対話方法、及びコンピュータプログラム |
JP4639990B2 (ja) * | 2005-06-27 | 2011-02-23 | 日産自動車株式会社 | 音声対話装置及び音声理解結果生成方法 |
JP4188989B2 (ja) * | 2006-09-15 | 2008-12-03 | 本田技研工業株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラム |
JP2008185805A (ja) * | 2007-01-30 | 2008-08-14 | Internatl Business Mach Corp <Ibm> | 高品質の合成音声を生成する技術 |
CN101488342A (zh) * | 2008-12-31 | 2009-07-22 | 广东协联科贸发展有限公司 | 人机语言交互演绎系统及人机语言交互需求应答的智能化实现方法 |
CN201699845U (zh) * | 2010-06-23 | 2011-01-05 | 天津三星电子显示器有限公司 | 一种具有真人发音朗读功能的电视机 |
CN102651217A (zh) * | 2011-02-25 | 2012-08-29 | 株式会社东芝 | 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法 |
-
2013
- 2013-09-20 JP JP2013196143A patent/JP6391925B2/ja not_active Expired - Fee Related
-
2014
- 2014-06-30 CN CN201410305619.3A patent/CN104464731A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2015060210A (ja) | 2015-03-30 |
CN104464731A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6251958B2 (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
CN103714048B (zh) | 用于校正文本的方法和系统 | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
JP5318230B2 (ja) | 認識辞書作成装置及び音声認識装置 | |
CN108052498B (zh) | 纠正转录的文字中的字词的方法和系统 | |
KR102390940B1 (ko) | 음성 인식을 위한 컨텍스트 바이어싱 | |
US9594744B2 (en) | Speech transcription including written text | |
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
US9837070B2 (en) | Verification of mappings between phoneme sequences and words | |
US11074909B2 (en) | Device for recognizing speech input from user and operating method thereof | |
JP2012037619A (ja) | 話者適応化装置、話者適応化方法および話者適応化用プログラム | |
JP6235280B2 (ja) | 音声同時処理装置、方法およびプログラム | |
KR20210138776A (ko) | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 | |
US11151996B2 (en) | Vocal recognition using generally available speech-to-text systems and user-defined vocal training | |
JP6391925B2 (ja) | 音声対話装置、方法およびプログラム | |
KR20210001937A (ko) | 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법 | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
CN112580340A (zh) | 逐字歌词生成方法及装置、存储介质和电子设备 | |
JP2013109061A (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP2011164175A (ja) | 言語モデル生成装置、そのプログラムおよび音声認識システム | |
JP5068225B2 (ja) | 音声ファイルの検索システム、方法及びプログラム | |
JP5740368B2 (ja) | 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム | |
JP2003162293A (ja) | 音声認識装置及び方法 | |
KR102299269B1 (ko) | 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160316 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170411 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180201 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180724 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180822 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6391925 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |