JP6391925B2 - 音声対話装置、方法およびプログラム - Google Patents

音声対話装置、方法およびプログラム Download PDF

Info

Publication number
JP6391925B2
JP6391925B2 JP2013196143A JP2013196143A JP6391925B2 JP 6391925 B2 JP6391925 B2 JP 6391925B2 JP 2013196143 A JP2013196143 A JP 2013196143A JP 2013196143 A JP2013196143 A JP 2013196143A JP 6391925 B2 JP6391925 B2 JP 6391925B2
Authority
JP
Japan
Prior art keywords
reading
character string
written character
voice
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013196143A
Other languages
English (en)
Other versions
JP2015060210A (ja
Inventor
祐一 宮村
祐一 宮村
山崎 智弘
智弘 山崎
尚義 永江
尚義 永江
憲治 岩田
憲治 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2013196143A priority Critical patent/JP6391925B2/ja
Priority to CN201410305619.3A priority patent/CN104464731A/zh
Publication of JP2015060210A publication Critical patent/JP2015060210A/ja
Application granted granted Critical
Publication of JP6391925B2 publication Critical patent/JP6391925B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明の実施形態は、データ収集装置、音声対話装置、方法およびプログラムに関する。
近年、携帯電話、スマートフォンなどの高機能携帯端末に搭載されるアプリケーションとして、ユーザと音声で対話を行なう音声対話システムが増えている。音声対話システムでは、ユーザが質問またはアプリケーションの実行を発話によってシステムに依頼すると、ユーザの発話に対する応答を音声出力や画像表示によって行なう。
特開2004−145014号公報
システムから音声出力によりユーザへ応答する場合は、応答文の表記文字列から応答文の読みを推定し、音声合成処理によって読みを合成音声に変換して出力することが一般的である。よって、誤った読みを推定した場合、正しい応答音声を出力できず、誤った情報を伝えてしまう可能性がある。特に、1つの表記で複数の読みを有する単語の読み分けは困難である。
そこで、音声合成処理を行なう際に、直前のユーザの発話の音声認識結果から作成した読み情報を用いることで、複数の読みを持つ単語の読み誤りを防ぐ手法がある。
しかし、この手法は直前のユーザ発話に含まれる人名などの単語を応答文に再利用することを想定しており、再利用する単語をユーザ発話の発した読みと同じように読み上げることで読み誤りを防ぐものである。よって、直前のユーザ発話に含まれない単語については、読み誤りを防ぐことができない。
本発明は、上述した課題を解決するためになされたものであり、高精度に読みを推定することができるデータ収集装置、音声対話装置、方法およびプログラムを提供することを目的とする。
本発明の一実施形態に係る音声対話装置は、音声対話で用いられるデータを、対話の所定の分類ごとに対応付けて収集するデータ収集装置であって、音声認識部、対話判定部および格納部を含む。音声認識部は、発話された音声を音声認識し、該音声に対応する表記文字列と該表記文字列の読みとを生成する。対話判定部は、前記表記文字列および前記読みの少なくともどちらか一方を用いて前記音声対話が成功したかどうかを判定する。格納部は、前記音声対話が成功したと判定される場合、前記表記文字列および前記読みを前記分類に対応付けて格納する。
第1の実施形態に係る音声対話装置を示すブロック図。 ドメインおよび対話ステップの概念を示す図。 シナリオDBに格納されるデータの一例を示す図。 表記読みDBに格納される表記読みおよび読みの一例を示す図。 データ収集装置の動作を示すフローチャート。 対話判定部における対判定処理の具体例を示すフローチャート。 第1の実施形態に係る音声対話装置の動作を示すフローチャート。 第2の実施形態に係る音声対話装置を示すブロック図。 第2の実施形態に係る音声対話装置の動作を示すフローチャート。
以下、図面を参照しながら本開示の一実施形態に係るデータ収集装置、音声対話装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行なうものとして、重ねての説明を省略する。
(第1の実施形態)
第1の実施形態に係る音声対話装置について図1のブロック図を参照して説明する。
第1の実施形態に係る音声対話装置100は、音声認識部101、対話判定部102、シナリオデータベース103(以下、シナリオDB103という)、表記読みデータベース104(以下、表記読みDB104という)、応答文生成部105、中間言語化部106および音声合成部107を含む。
なお、音声認識部101、対話判定部102、シナリオDB103および表記読みDB104をまとめてデータ収集装置とも呼ぶ。
音声認識部101は、ユーザにより発話された音声を入力音声として受け取り、入力音声に対して音声認識処理を行い、入力音声に対応した表記文字列と表記文字列に対応する読みとを生成する。表記文字列と読みとは、単語単位で生成してもよいし、節単位、一文単位で生成してもよい。表記文字列は、本実施形態では1文字である場合も含む。また、読みは音素列でもよい。音声認識処理は、例えば、隠れマルコフモデル(Hidden Markov Model:HMM)を利用するなど、一般的な方法で行えばよいのでここでの詳細な説明は省略する。
対話判定部102は、音声認識部101から表記文字列と読みとの少なくともどちらか一方を受け取り、表記文字列と読みとの少なくともどちらか一方と後述のシナリオDB103とを参照して、対話が成功したかどうかを判定する。
対話が成功したかどうかの判定は、例えば、現在の判定対象となる発話の次の発話中に予め用意した言い直し表現が含まれていなければ成功、含まれていなければ失敗と判定すればよい。言い直し表現としては、例えば、「そうじゃなくて」、「いやいや」、「ちがうちがう」といった表現が挙げられる。また、別の判定方法としては、音声認識部101から受け取った表記文字列に必要な情報が含まれるかどうかで判定してもよい。例えば、表記文字列に日時表現が含まれれば対話が成功、含まれていなければ失敗と判定すればよい。また、本実施形態では、表記文字列を用いて対話が成功したかどうかを判定する例を示すが、これに限らず、読みを用いて対話が成功したかどうかを判定してもよい。なお、対話の成否判定を言い直し表現による方法のみで行う場合には、成否判定時にシナリオDB103はなくてもよい。
シナリオDB103は、ユーザと装置との間の対話の順序などを定める対話ステップの集合を格納する。シナリオDB103に格納されている対話ステップは、1以上のグループに分類しておく。このグループのことをドメインと呼ぶ。シナリオDB103の詳細については、図3を参照して後述する。
表記読みDB104は、単語の表記文字列と単語の1以上の読みとを対応付けて格納する。単語の読みは、予め与えておいてもよいし、対話判定部102において成功と判定された単語の表記文字列と読みとを対話判定部102から受けとり、それぞれ対応付けて格納して蓄積してもよい。表記読みDB104の詳細については、図4を参照して後述する。
応答文生成部105は、対話判定部102から判定結果を受け取り、シナリオDB103を参照して、判定結果に応じたユーザへの応答文を作成する。応答文の生成方法としては様々な方法が考えられるが、本実施形態では、シナリオDB103における現在判定中の対話ステップを参照して応答文を作成する。
中間言語化部106は、応答文生成部105から応答文を受け取り、表記読みDB104に格納される表記文字列および読みを参照して、応答文に含まれる単語の読みを推定する。
音声合成部107は、中間言語化部106から単語の読みが推定された応答文を受け取り、読みが推定された応答文を音声合成して応答音声を作成する。なお、応答音声の作成は、一般的な音声合成システムを用いればよいため、ここでの説明を省略する。
次に、シナリオDB103に格納されるドメインおよび対話ステップの概念について図2を参照して説明する。
本実施形態の対話システムでは、1つまたは複数の対話ステップを遷移することでユーザとシステムとの対話が行われると想定する。
図2では、対話全体のドメインである対話全体ドメイン201の下位ドメインとして、百貨店案内ドメイン202、旅行予約ドメイン203を含む。また、各対話ステップがそれぞれドメインに対応付けられる。具体的には、例えば、ステップ251「S1:あいさつ」は、対話全体ドメイン201に属し、ステップ253「S2:目的または行き先を確認」は、旅行予約ドメイン203およびその上位ドメインである対話全体ドメイン201に属する。
図2の対話シナリオの遷移例としては、対話シナリオの各対話ステップとして、はじめにステップ251「S1:あいさつ」があり、次の遷移としてステップ252「S2:要求の聞き取り」があり、ユーザの発話が旅行に関する発話であれば、ステップ253「S3:目的または行き先を確認」に遷移する。さらに、ユーザの発話が旅行の目的であれば、ステップ254「S4:旅行プラン紹介」に遷移し、ユーザの発話が旅行先であれば、ステップ255「S5:日時を確認」に遷移することになる。
各対話ステップの遷移順や各対話ステップにおける処理は、予め設計しておいてもよいし、ユーザとの対話中に遷移順を変更するようにしてもよい。
次に、シナリオDB103に格納されるデータの一例について図3を参照して説明する。
シナリオDB103に格納されるテーブル300は、ステップ名301、応答文302、遷移条件303、遷移先ステップ304およびドメイン305を含み、それぞれ対応付けられる。
ステップ名301は、対話ステップを示す識別子である。応答文302は、ユーザへの応答として出力する応答文の文例を示す文字列である。遷移条件303は、次の対話ステップへ遷移するための条件を示す。遷移先ステップ304は、遷移先となる対話ステップを示す。ドメイン305は、ステップ名301で示される対話ステップが属するドメインを示す。また、対話ステップの遷移条件に応じて、1つのステップ名301に、複数の遷移条件303および遷移先ステップ304が対応付けられることもある。
例えば、ステップ名301「S3(目的または行き先を確認)」、応答文302「ご希望の旅行先は?」、遷移条件303「場所表現」および遷移先ステップ304「S5(日時を確認)」、遷移条件303「目的表現」および遷移先ステップ304「S4(旅行プラン紹介)」、および、ドメイン305「旅行予約、対話全体」が対応付けられる。
すなわち、ステップ名301「S3(目的または行き先を確認)」における処理では、ユーザの発話に場所を示す単語が含まれていれば、「S5(日時を確認)」に遷移し、ユーザの発話に目的を示す単語が含まれていれば、「S4(旅行プラン紹介)」に遷移することがわかる。
なお、1つのステップが複数のドメインに属する場合は、下位のドメインを先に記述することで、ドメインの従属関係を判別できるようにしておくことが望ましい。例えば、ステップ名301「S3」の場合は、対話全体ドメインの下位ドメインに旅行予約ドメインが存在することがわかる。
また、図3の例では、対話ステップの遷移先を遷移条件で決定するが、これに限らず、ランダムでもよいし、確率に基づいて決定してもよい。
次に、表記読みDB104に格納される表記文字列および読みの一例について図4を参照して説明する。
図4に示すテーブル400には、表記401ごとに、読み402、読み頻度スコア403がそれぞれ対応付けられて格納される。
表記401は、単語の表記文字列を示す。読み402は、表記文字列の読みを示す。読み頻度スコア403は、ドメインごとに算出される、読み402としての確からしさを示すスコアである。ここでは、特定のドメインにおける対話で、表記401の読みとして読み402が出現した頻度が読み頻度スコア403である。また、対話全体ドメインの読み頻度スコア403には、対話全体ドメインの下位ドメインにて算出された頻度を合計した値が格納される。
具体的には、例えば、表記401「便」には、2つの読み402が対応付けられる。読み402「べん」に対して、対話全体ドメインの読み頻度スコア403「6」、旅行予約ドメインの読み頻度スコア「1」および百貨店ドメインの読み頻度スコア「5」がそれぞれ対応付けられる。また、別の読み402「びん」に対して、対話全体の読み頻度スコア403「4」、旅行予約ドメインの読み頻度スコア403「4」および百貨店ドメインの読み頻度スコア403「0」がそれぞれ対応付けられる。
なお、本実施形態では、表記読みDB104に単一の表記読みテーブルを保持している場合を想定するが、対話システム利用者や利用者グループごとに表記読みDBを用意しておいてもよい。例えば、「Aさんの表記読みデータベース」や「C社社員用の表記読みデータベース」が挙げられる。これにより、例えば、「Aさん」の知り合いには「長田(ながた)さん」より「長田(おさだ)さん」が多い、といった情報が表記読みデータベースのスコアに反映されることとなり、利用者に合わせた読み分けが可能になる。なお、利用者を特定する方法としては、様々な方法が考えられる。例えば、対話システムにカメラを付けておき、カメラに映る利用者が誰であるかを顔認識技術で特定する方法が挙げられる。
さらに、利用者ごとに表記読みデータベースを用意するのではなく、利用者ごとのドメインを用意することでも同等の効果を得ることができる。例えば、表記読みDB104に「Aさんのドメイン」といったドメインを用意すればよい。
次に、音声対話装置に含まれるデータ収集装置の動作について図5のフローチャートを参照して説明する。
ステップS501では、音声認識部101が、入力信号を受け取り、入力信号から表記文字列と読みとを生成する。
ステップS502では、音声認識部101が、表記文字列と読みとを1組のペアとして生成する。
ステップS503では、対話判定部102が、ユーザとの対話が成功したかどうかを判定する。対話が成功していればステップS504へ進み、対話が失敗した場合は処理を終了する。
ステップS504では、対話判定部102が、表記読みDB104を更新する。以上でデータ収集装置の処理を終了する。
次に、データ収集装置のデータ収集処理について具体例を挙げて説明する。
ここでは、現在の対話ステップが「S5:日時を確認」であり、入力音声として「新千歳便の・・・」が入力される場合を想定する。
音声認識部101の音声認識処理により、表記文字列「新千歳便の・・・」と読み「しんちとせびん・・・」とを得る。続いて、表記文字列の単語とこの単語の読みとの組である、「(便、びん)」を得る。次に、対話判定部102が、現在の対話ステップにおいて、入力音声に「新千歳便」という地名が含まれているので、対話は成功であると判定する。対話判定部102は、この判定結果に基づき、シナリオDB103における対話ステップ「日時を確認」は、旅行予約ドメインおよび対話全体ドメインに属するので、表記読みDB104に格納されるテーブルの「表記:便、読み:びん」において、対話全体ドメインと旅行予約ドメインとの読み頻度スコアを1つずつインクリメントする。
なお、一度の更新で変動させるスコアの値は、必ずしも1である必要はなく、音声認識結果の信頼度や、対話が成功したかどうかを判定する根拠に応じて変動させてもよい。
例えば、ユーザ発話において言い直し表現として「いやいや」が含まれる場合、上述の例では対話が失敗したと判定するが、「いやいや」という発話は必ずしも言い直し表現とは限らないため、対話が成功したと判定して、スコアの値を0.5として読み頻度スコアにインクリメントするといった処理を行なってもよい。
別例として、入力音声として「円からドル・・・」が入力され、音声認識部101において表記文字列「便からドル・・・」、読み「べんからドル・・・」と誤認識した場合を想定する。
この場合は、表記文字列の単語とこの単語の読みとの組として、「(便、べん)」を得る。音声対話装置は、誤認識結果「便からドル・・・」に基いて対話ステップの遷移や、応答文生成を行うため、ユーザの意図と異なる挙動をすることになる。このとき、ユーザが「そうじゃなくて」などと否定する内容の発話をしたとすると、対話判定部102は対話が失敗した場合と判定し、表記読みDB104の更新を行わずに処理を終了する。
次に、対話判定部102における具体的な対話判定処理の一例について図6のフローチャートを参照して説明する。
ここでは、現在の対話ステップが「日時を確認」である場合の判定処理を示す。
ステップS601では、応答文生成部105が、図3に示すシナリオDB103に格納されるステップ名301「S2(日時を確認)」に対応する応答文302を参照して、応答文「出発日はいつですか?」を生成し、音声合成部107からこの応答文の応答音声の出力がユーザになされる。
ステップS602では、音声認識部101が、ユーザからの発話を取得する。
ステップS603では、対話判定部102が、ユーザからの発話に日時を示す表現が含まれるかどうかを判定する。日時を示す表現が含まれているかどうかを判定する方法としては、正規表現によるマッチングを使用する方法が考えられる。
例えば、ユーザ発話の表記文字列の一部が正規表現「¥d日.*¥d¥d:¥d¥d」にマッチすれば日時表現を含んでいると判定する。なお、「¥d」は0〜9の任意の数字を、「.」は任意の文字を表し、「*」はゼロまたは1回以上の繰り返しを表す。これ以外の方法として、日時表現や場所表現といったラベルを予め単語に付与した単語辞書を活用する方法でもよく、ユーザ発話内に日時表現のラベルが付いた単語が出現するかどうかで日時表現を含むかどうかを判定してもよい。さらに、統計モデルを用いて、日時表現を含むかどうかの判定をおこなってもよい。
日時を示す表現が含まれる場合は、ステップS604に進み、日時を示す表現が含まれない場合は、ステップS601に戻り、同じ応答文で同様の処理を繰り返す。
ステップS604では、対話が成功したと考えられるので、シナリオDB103を参照して、現在の対話ステップから遷移先となる対話ステップへ遷移する。その後、シナリオDB103を参照して、各対話ステップの遷移条件に基づいて、同様の処理を行なう。以上で、対話判定部102の対話判定処理を終了する。
次に、第1の実施形態に係る音声対話装置100の動作について図7のフローチャートを参照して説明する。
ステップS701では、音声認識部101が、入力音声から表記文字列と読みとを生成する。
ステップS702では、応答文生成部105が、表記文字列およびシナリオDB103に格納されるシナリオに基づいて、応答文を生成する。応答文の生成は、本実施形態では、シナリオDB103から現在の対話ステップの応答文302を用いればよいが、これに限らず、予め応答文のテンプレートを作成しておき、ユーザの発話内容に応じてテンプレートに情報を埋めて応答文を作成してもよい。
ステップS703では、中間言語化部106が、表記読みDB104を参照して、応答文の読みを推定する。
ステップS704では、音声合成部107が、応答文の読みから音声合成処理し、応答音声を生成する。以上で音声対話装置100の動作を終了する。
次に、図7のステップS703に示す中間言語化部106の動作について具体例を挙げて説明する。ここでは、音声対話装置からユーザへの応答文「新千歳便は17時です」の読みを推定する場合を想定する。
まず、応答文である「新千歳便は17時です」を形態素解析し、単語列として「新千歳」「便」「は」「17」「時」「です」を得る。そして各単語の読みを表記読みDB104を参照して推定する。例えば、単語「便」の場合、現在の対話ステップの属するドメインを参照し、現在の対話ステップが属するドメインのうち最も下位にあるドメインのスコアを参照する。ここでは、対話ステップ「日時を確認」が属するドメインのうちの最も下位にあるドメインは、「旅行予約ドメイン」であるので、旅行予約ドメインの読み頻度スコアを参照する。図4を参照すると、旅行予約ドメインでは単語「便」に対し、読み402「べん」の読み頻度スコア403が1、読み402「びん」の読み頻度スコア403が4であるので、単語「便」の読みとして「びん」が推定される。他の単語に対しても同様に処理すればよい。
以上に示した第1の実施形態によれば、ユーザの発話の音声認識結果から作成した単語の表記と読みとを対応付けをドメインに対応付けてデータベースに格納することで、読み分けが必要な単語の読みの尤度情報を蓄積することができ、ドメインに応じて読み分けが可能となる。これによって、高精度に読みを推定することができる。
(第2の実施形態)
第2の実施形態では、読みの信頼度に応じて応答文の読みを画面に表示する点が異なる。
第2の実施形態に係る音声対話装置のブロック図について図8を参照して説明する。
第2の実施形態に係る音声対話装置800は、音声認識部101、対話判定部102、シナリオDB103、表記読みDB104、応答文生成部105、音声合成部107、中間言語化部801および画像表示部802を含む。
音声認識部101、対話判定部102、シナリオDB103、表記読みDB104、応答文生成部105および音声合成部107は、第1の実施形態と同様の動作を行なうので、ここでの説明を省略する。
中間言語化部801は、応答文生成部105から応答文を受け取り、第1の実施形態と同様に応答文の読みを推定することに加え、応答文の読みが正しいかどうかを示す信頼度を算出し、信頼度に基づいて応答文を音声出力するか画像表示するかを決定する。
画像表示部802は、中間言語化部106から応答文を受け取り、ディスプレイに応答文の文字列を表示する。応答文を表示する際、応答文の表記文字列をそのまま表示してもよいし、画面に表示する際には応答文を変換して表示してもよい。例えば、応答文を音声で出力する場合は、口語調の文であることが多いため、画面に表示する際に書き言葉に変換して表示する。具体的には、応答文の文末が「〜だよ」という文であれば、「〜です」といった丁寧語に変換するといった手法を用いればよい。
次に、第2の実施形態に係る音声対話装置800の動作について図9のブロック図を参照して説明する。
ステップS701からステップS704までの処理については、図7に示すステップと同様であるのでここでの説明は省略する。
ステップS901では、中間言語化部106が、応答文の読みに関する信頼度を算出する。信頼度の算出方法としては、例えば、表記読みDB104に格納される読みの第1位と第2位とのスコア差を用いればよい。信頼度が閾値以上であれば、ステップS704に進み、信頼度が閾値未満であれば、ステップS902へ進む。
ステップS902では、応答文の読みの信頼度が低いと判定されているので、画像表示部802が、応答文の表記文字列を画面に表示する。以上で第2の実施形態にかかる音声対話装置800の動作を終了する。
つぎに、信頼度の算出方法の具体例について説明する。図4に示す表記読みDB104の場合、旅行予約ドメインにおける表記401「長田」の読みは、第1位の読み402が「おさだ」で読み頻度スコア403が3、第2位の読み402が「ながた」で読み頻度スコア403が2であるため、スコア差は1となる。ここで、応答文に含まれる単語の中で最も小さいスコア差を応答文の読みの推定信頼度とし、スコア差が2以下を推定信頼度が低いと定義した場合、応答文に「長田」が含まれれば、音声出力をせずに画像を出力する。なお、信頼度として、第1位の読みと第2位の読みとのスコアの比を用いてもよいし、信頼度が閾値未満であると判定された場合に、応答文の音声出力と画像表示とを両方行なってもよい。
以上に示した第2の実施形態によれば、信頼度に基づいて音声出力と画像表示とを選択することで、応答文を正確にユーザに伝えることができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述したデータ収集装置および音声対話装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態のデータ収集装置および音声対話装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,800・・・音声対話装置、101・・・音声認識部、102・・・対話判定部、103・・・シナリオデータベース(シナリオDB)、104・・・表記読みデータベース(表記読みDB)、105・・・応答文生成部、106,801・・・中間言語化部、107・・・音声合成部、201・・・対話全体ドメイン、202・・・百貨店案内ドメイン、203・・・旅行予約ドメイン、251〜255・・・ステップ、300,400・・・テーブル、301・・・ステップ名、302・・・応答文、303・・・遷移条件、304・・・遷移先ステップ、305・・・ドメイン、401・・・表記、402・・・読み、403・・・読み頻度スコア、802・・・画像表示部。

Claims (5)

  1. 発話された音声を音声認識し、該音声に対応する表記文字列と該表記文字列の読みとを生成する音声認識部と、
    前記表記文字列および前記表記文字列の読みの少なくともどちらか一方と音声対話で用いられるシナリオとを用いて前記音声対話が成功したかどうかを判定し、前記音声対話が成功したと判定した場合、前記表記文字列および前記表記文字列の読みの少なくともどちらか一方を更新する対話判定部と、
    前記発話された音声に対する応答である応答文を生成する生成部と、
    前記表記文字列および前記表記文字列の読みに基づいて、前記応答文の読みを得る中間言語化部と、
    前記応答文の読みを用いて該応答文を音声合成し応答音声を生成する音声合成部と、を具備する音声対話装置。
  2. 前記対話判定部は、前記表記文字列の読みとしての確からしさを示すスコアを、前記表記文字列の読みに対して算出し、
    前記中間言語化部は、前記スコアに基づいて前記応答文の読みを推定する請求項1に記載の音声対話装置。
  3. 画像を表示する表示部をさらに具備し、
    前記中間言語化部は、前記スコアに基づいて前記応答文の読みの信頼度を算出し、
    前記表示部は、前記信頼度が閾値未満であれば、前記応答文の文字列を表示する請求項2に記載の音声対話装置。
  4. 発話された音声を音声認識し、該音声に対応する表記文字列と該表記文字列の読みとを生成し、
    前記表記文字列および前記表記文字列の読みの少なくともどちらか一方と音声対話で用いられるシナリオとを用いて前記音声対話が成功したかどうかを判定し、
    前記音声対話が成功したと判定される場合、前記表記文字列および前記表記文字列の読みの少なくともどちらか一方を更新し、
    前記発話された音声に対する応答である応答文を生成し、
    前記表記文字列および前記表記文字列の読みに基づいて、前記応答文の読みを得、
    前記応答文の読みを用いて該応答文を音声合成し応答音声を生成する音声対話方法。
  5. コンピュータを、
    発話された音声を音声認識し、該音声に対応する表記文字列と該表記文字列の読みとを生成する音声認識手段と、
    前記表記文字列および前記表記文字列の読みの少なくともどちらか一方と音声対話で用いられるシナリオとを用いて前記音声対話が成功したかどうかを判定し、前記音声対話が成功したと判定される場合、前記表記文字列および前記表記文字列の読みの少なくともどちらか一方を更新する対話判定手段と
    前記発話された音声に対する応答である応答文を生成する生成手段と、
    前記表記文字列および前記表記文字列の読みに基づいて、前記応答文の読みを得る中間言語化手段と、
    前記応答文の読みを用いて該応答文を音声合成し応答音声を生成する音声合成手段として機能させるための音声対話プログラム。
JP2013196143A 2013-09-20 2013-09-20 音声対話装置、方法およびプログラム Expired - Fee Related JP6391925B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013196143A JP6391925B2 (ja) 2013-09-20 2013-09-20 音声対話装置、方法およびプログラム
CN201410305619.3A CN104464731A (zh) 2013-09-20 2014-06-30 数据收集装置及方法、语音对话装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013196143A JP6391925B2 (ja) 2013-09-20 2013-09-20 音声対話装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015060210A JP2015060210A (ja) 2015-03-30
JP6391925B2 true JP6391925B2 (ja) 2018-09-19

Family

ID=52817742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013196143A Expired - Fee Related JP6391925B2 (ja) 2013-09-20 2013-09-20 音声対話装置、方法およびプログラム

Country Status (2)

Country Link
JP (1) JP6391925B2 (ja)
CN (1) CN104464731A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170316783A1 (en) * 2016-04-28 2017-11-02 GM Global Technology Operations LLC Speech recognition systems and methods using relative and absolute slot data
JP6515897B2 (ja) * 2016-09-28 2019-05-22 トヨタ自動車株式会社 音声対話システムおよび発話意図理解方法
CN109840062B (zh) * 2017-11-28 2022-10-28 株式会社东芝 输入辅助装置以及记录介质
JP2022021349A (ja) * 2018-11-28 2022-02-03 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001236091A (ja) * 2000-02-23 2001-08-31 Nippon Telegr & Teleph Corp <Ntt> 音声認識結果の誤り訂正方法およびその装置
JP2005227545A (ja) * 2004-02-13 2005-08-25 Matsushita Electric Ind Co Ltd 辞書作成装置、番組案内装置及び辞書作成方法
JP4679254B2 (ja) * 2004-10-28 2011-04-27 富士通株式会社 対話システム、対話方法、及びコンピュータプログラム
JP4639990B2 (ja) * 2005-06-27 2011-02-23 日産自動車株式会社 音声対話装置及び音声理解結果生成方法
JP4188989B2 (ja) * 2006-09-15 2008-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
JP2008185805A (ja) * 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
CN101488342A (zh) * 2008-12-31 2009-07-22 广东协联科贸发展有限公司 人机语言交互演绎系统及人机语言交互需求应答的智能化实现方法
CN201699845U (zh) * 2010-06-23 2011-01-05 天津三星电子显示器有限公司 一种具有真人发音朗读功能的电视机
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法

Also Published As

Publication number Publication date
JP2015060210A (ja) 2015-03-30
CN104464731A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
CN103714048B (zh) 用于校正文本的方法和系统
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JP5318230B2 (ja) 認識辞書作成装置及び音声認識装置
CN108052498B (zh) 纠正转录的文字中的字词的方法和系统
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
US9594744B2 (en) Speech transcription including written text
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US9837070B2 (en) Verification of mappings between phoneme sequences and words
US11074909B2 (en) Device for recognizing speech input from user and operating method thereof
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
JP6235280B2 (ja) 音声同時処理装置、方法およびプログラム
KR20210138776A (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
US11151996B2 (en) Vocal recognition using generally available speech-to-text systems and user-defined vocal training
JP6391925B2 (ja) 音声対話装置、方法およびプログラム
KR20210001937A (ko) 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
CN112580340A (zh) 逐字歌词生成方法及装置、存储介质和电子设备
JP2013109061A (ja) 音声データ検索システムおよびそのためのプログラム
JP2011164175A (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
JP5068225B2 (ja) 音声ファイルの検索システム、方法及びプログラム
JP5740368B2 (ja) 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム
JP2003162293A (ja) 音声認識装置及び方法
KR102299269B1 (ko) 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160316

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180724

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180822

R151 Written notification of patent or utility model registration

Ref document number: 6391925

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees