JP2008009153A - 音声対話システム - Google Patents

音声対話システム Download PDF

Info

Publication number
JP2008009153A
JP2008009153A JP2006179985A JP2006179985A JP2008009153A JP 2008009153 A JP2008009153 A JP 2008009153A JP 2006179985 A JP2006179985 A JP 2006179985A JP 2006179985 A JP2006179985 A JP 2006179985A JP 2008009153 A JP2008009153 A JP 2008009153A
Authority
JP
Japan
Prior art keywords
voice
recognition
unit
dictionary
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006179985A
Other languages
English (en)
Inventor
Takeshi Honma
健 本間
Hirohiko Sagawa
浩彦 佐川
Nobuo Hataoka
信夫 畑岡
Hiroaki Kokubo
浩明 小窪
Hisashi Takahashi
久 高橋
Takeshi Ono
健 大野
Minoru Togashi
実 冨樫
Daisuke Saito
大介 斎藤
Keiko Katsuragawa
景子 桂川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Faurecia Clarion Electronics Co Ltd
Original Assignee
Xanavi Informatics Corp
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xanavi Informatics Corp, Nissan Motor Co Ltd filed Critical Xanavi Informatics Corp
Priority to JP2006179985A priority Critical patent/JP2008009153A/ja
Publication of JP2008009153A publication Critical patent/JP2008009153A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】大語彙を対象とした音声対話システムにおいて、語彙を短時間で、かつ確実に認識する。
【解決手段】音声対話システムに、入力された音声を音声データに変換する音声入力部2と、複数の単語が格納される第1の認識辞書と、第1の認識辞書に格納されている何れかの単語と対応付けられた第2の認識辞書とを記憶する音声認識辞書記憶部3と、第1の認識辞書を用いて、変換した音声データの中に含まれるキーワードを音声認識すると共に、その音声認識されたキーワードの信頼度を算出し、算出した信頼度が所定の閾値以上である場合、第2の認識辞書を用いて、音声データを音声認識する音声認識部4と、音声認識の結果を出力する出力部8と、各部の動作を制御する対話管理部6と、を設ける。そして、対話管理部6は、ユーザとの対話状況に応じて閾値を変更する。
【選択図】図1

Description

本発明は、音声対話システムおよび装置の技術に関する。
近年の音声認識技術は、実用レベルに達してきているものの、依然として大語彙を対象とした音声認識では、処理時間が長くかかる点、認識率が低い点といった問題がある。
とくに、音声認識技術を使った音声対話システムにおいて、データベース検索などの大語彙を対象とした作業を行う場合、誤認識のためにユーザとシステムの間の対話がスムーズに進まなくなり、タスク未達成になることや、ユーザに同じ内容の発話を多数回強要することなどが問題となっている。
これらの大語彙を対象とした音声認識に関する問題を解決するため、特許文献1では、入力されたユーザ発話から、最初にユーザ発話に含まれる話題に関する単語のみをワードスポッティングにより抽出し、その後、抽出された単語に応じて認識に使う辞書を再構成し、前に入力されたユーザ発話の音声データに対し再び認識処理を行うことによって、ユーザ発話全体を認識する技術が公開されている。また、特許文献1では、認識語の音声認識尤度が低い場合に、誤認識の可能性があると判断すること、また、ユーザへの問いかけを駆動するなどの動作を行うことについて記述されている。
特開2004−334228号公報
特許文献1に記載した技術では、最初に、ユーザ発話の一部分を対象とした認識処理を行うが、この認識結果が誤認識であると、その後に読み込まれる認識辞書も間違ったものが選定されるため、最終的な結果として出力される認識結果も誤りとなるという問題がある。特に、特許文献1で使われるワードスポッティングや信頼度の利用は、未だ発展途上であり、誤った結果が出力される可能性がある。また、認識の精度は、周囲の雑音の状況、発話される語彙、個人差などにも影響されるため、同じような誤認識を繰り返してしまう可能性がある。また、従来技術では、最初の認識で使われる辞書に、ユーザ発話に存在する語彙が1つも登録されていない場合、ユーザ発話の入力を完了させる手段が無かった。
本発明では、これらの課題を解決し、大語彙を対象とした音声認識において、誤認識の表出を防止しつつ、かつ短い時間で入力する技術を提供する。
上記課題を解決するため、本発明の第1の態様は、音声対話システムであって、ユーザから入力された音声を音声データに変換する音声入力部と、複数の単語が格納される第1の認識辞書と、上記第1の認識辞書に格納されている何れかの単語と対応付けられた単語が格納される第2の認識辞書とを記憶する音声認識辞書記憶部と、上記第1の認識辞書を用いて、上記変換した音声データの中に含まれるキーワードを音声認識すると共に、該音声認識されたキーワードの信頼度を算出し、該信頼度が所定の閾値以上である場合に、上記第2の認識辞書を用いて、上記音声データを音声認識する音声認識部と、上記音声認識部が行った音声認識の結果を出力する出力部と、上記音声入力部、上記音声認識辞書記憶部、上記音声認識部、および上記出力部の動作を制御する対話管理部と、を有し、上記対話管理部は、ユーザとの対話状況に応じて上記閾値を変更する。
また、上記課題を解決するため、本発明の第2の態様は、ユーザから入力された音声を音声データに変換する音声入力部と、複数の単語が格納される第1の認識辞書と、上記第1の認識辞書に格納されている何れかの単語と対応付けられた単語が格納される第2の認識辞書とを記憶する音声認識辞書記憶部と、上記第1の認識辞書を用いて、上記変換した音声データの中に含まれるキーワードを音声認識すると共に、該音声認識されたキーワードの信頼度を算出し、該信頼度が所定の閾値以上である場合に、上記第2の認識辞書を用いて、上記音声データを音声認識する音声認識部と、上記音声認識部が行った音声認識の結果を出力する出力部と、上記音声入力部、上記音声認識辞書記憶部、上記音声認識部、および上記出力部の動作を制御する対話管理部と、を有し、上記対話管理部は、ユーザとの対話状況に応じて、上記第1の認識辞書に格納されるキーワードの数を変更する。
このように、本発明によれば、誤認識結果がシステム応答に表出することを防ぎ、語彙の入力にかかる時間を短縮化できる。
以下、本発明の実施形態について図面を用いて説明する。
なお、以下では、カーナビゲーションシステムでの行き先の施設名称を受け付ける音声対話システムを例に取り、実施形態を説明する。
本実施形態の音声対話システムの機能構成を図1に示す。
マイク1は、ユーザが発話した音声を電気信号へ変換し、音声入力部2へ送る。
音声入力部2は、マイク1からの音声信号をA/D変換して音声データに変換し、その音声データを音声データ記憶部3へ送る。また、音声入力部2は、対話管理部6の指示に従い、音声認識部4へ送る音声データをマイク1からの音声にするか、音声データ記憶部3からの音声にするかを選択する。
音声データ記憶部3は、音声入力部2から送られた音声データを保存する。
音声認識部4は、入力された音声データに対し、対話管理部6から指定された認識辞書を音声認識辞書記憶部5から読み込み、読み込んだ辞書を使用して音声認識処理を実行する。さらに、音声認識処理の結果得られた認識結果を対話管理部6へ送る。
音声認識辞書記憶部5は、音声認識に使用する辞書を保存する。
対話管理部6は、音声対話システムの各部の動作を制御する。具体的には、対話管理部6は、音声認識部4から送られた認識結果を所定の規則で音声認識結果記憶部7へ入力する。また、音声認識結果記憶部7の内容に応じて、応答音声のためのデータや画面出力のためのデータを生成し、その生成したデータを出力部8に出力する。また、音声認識結果記憶部7の内容に応じて、次の音声認識処理の対象とする音声データを音声入力部2へ指定し、かつ次の音声認識処理に使用する認識辞書を音声認識部4へ指示する。
音声認識結果記憶部7は、対話管理部6から送られた認識結果を所定の規則で保存する。
出力部8は、対話管理部6からの出力内容に応じ、画面表示内容または応答音声を出力する。
本実施形態では、音声対話システムが受理できる施設名称の発話としては、ユーザが「○○県の△△ホテル」というように都道府県名と施設名を続けて発話するパターンと、「△△ホテル」のように施設名だけを発話するパターンを想定する。また、「○○県」のような都道府県名だけの発話も受理できるものとする。これら発話パターンにおいて、ユーザ発話に頻出する語彙の種類は2つある。1つめは、「神奈川県」「東京都」などの都道府県名が挙げられる。2つめは、「ホテル」「駅」「公園」といった施設名称中に頻出する語彙が挙げられる。この施設名称中に頻出する語彙のことを共通語彙と呼ぶこととする。
そこで、第1の認識辞書に登録するキーワードとしては、都道府県名と共通語彙があるものとする。具体的な辞書の構成については、以下の第1実施形態の説明の中で記述する。
なお、上述した音声対話システムの各機能部は、ソフトウェアにより実現されてもいいし、各機能部を実行するために専用に設計された回路(ASIC(Application Specific Integrated Circuit)等)により実現されてもよい。
例えば、ソフトウェアにより実現する場合、音声対話システムに、CPU(Central Processing Unit)、メモリ、I/Oインタフェースを有する情報処理装置を用いる。なお、I/Oインタフェースには、マイク1、ディスプレイ(図示しない)、スピーカ(図示しない)が接続されているものとする。また、メモリに、音声入力部2、音声認識部4、および対話管理部6の機能を実現するためのプログラムを記憶させておく。そして、音声入力部2、音声認識部4、および対話管理部6の各機能は、CPUがメモリに記憶されている上記のプログラムを実行することにより実現される。また、音声データ記憶部3、音声認識辞書記憶部5、および音声認識結果記憶部7は、メモリの所定の領域に形成される。
以下、図1に示す各機能部を備える音声対話システムが適用された実施形態について具体的に説明していく。
(第1実施形態)
先ず、本発明に関する第1実施形態を図2、図3のフローチャートを踏まえながら説明する。
図2、3は、本発明の実施形態の音声対話処理のフローチャートである。
対話が開始されると、まずS1010において、音声データ記憶部3および音声認識結果記憶部7が初期化される。
S1020では、ユーザに施設名の発話を促す応答音声と画面表示が生成される。具体的には、対話管理部6は、ユーザに施設名の発話を促す応答音声を生成し、出力部8を介して出力する。また、対話管理部6は、ユーザに施設名の発話を促す画像データを生成し、出力部8を介して表示する。例えば、出力部8は、「行き先の名称をお話下さい」との文字が含まれる画面を表示する。また、出力部8は、「行き先の名称をお話下さい」という応答音声を出力する。
S1030では、ユーザ発話を待ち受けるための第1の認識辞書が設定され、音声認識が実行される。具体的には、対話管理部6は、音声認識部4に、第1の認識辞書を指定した音声認識処理の指示を行う。音声認識部4は、対話管理部6から指定された第1の認識辞書を音声認識辞書記憶部5から読み込む。
ここで、第1の認識辞書の構成を図4に示す。図4は、本実施形態の第1の認識辞書の構成を模擬的に例示した図である。なお、図示する第1の認識辞書は、キーワードを未知語でつないでいる。この辞書は、ネットワーク文法と呼ばれる形式で記述されている。認識できる単語の語順は、矢印に従って示されており、”S”から”E”までのいずれかのパスを通る単語列を認識することができる。また、四角で表した要素には、その場所において認識できる単語の内訳を示している。図4のようなネットワーク文法形式の辞書を使用した音声認識の方法については、たとえば、鹿野らの文献(鹿野、他4名、「音声認識システム」,オーム社,2001)に記載している方法により実現できる。
また、図4に示す「(未知語)」は、任意の音韻列を認識できるモデルを示しており、たとえば武田らが公開した方法(武田、小沼:「自由発話文理解のためのGarbage HMMの利用の検討」,電子情報通信学会技術研究報告,vol.SP92-127,pp.33-40,2002)によって実現することができる。
図4の辞書では、都道府県と共通語彙をキーワードとして持ち、その他の部分を未知語でつないでいる。また、想定されるユーザの発話に合わせ、「の」「にある」といった助詞や、「です」といった文末の助動詞も備えている。この辞書によって生成される認識結果の例としては、「北海道/にある/(未知語)/温泉/です」「東京/の/ホテル/(未知語)」「(未知語)/公園」「東京都」などが挙げられる。
図2のS1030の説明にもどる。S1030では、さらに、ユーザ発話を受け付け、第1の認識辞書で認識処理を実行する。具体的には、マイク1が、ユーザが発話した音声を電気信号へ変換し、音声入力部2へ送信する。音声入力部2は、マイク1からの音声信号をA/D変換した音声データを生成し、その音声データを音声認識部3に送る。音声認識部3は、第1の辞書を用いて音声認識処理を行う。
なお、本実施形態では、ユーザが「東京都の国分寺駅」と発話した場合を例にして説明する。この場合、正しく認識されれば、ここでの結果は、「東京都/の/(未知語)/駅」と認識される。そして、この「東京都」と「駅」のそれぞれについて、所定の方法によって単語信頼度が計算される。単語信頼度の計算方法としては、音声認識尤度から各単語信頼度を計算する方法などが考案されている。たとえば、北岡らが公開した方法(北岡,赤堀,中川:「認識結果の正解確率に基づく信頼度とリジェクション」,電子情報通信学会論文誌,vol.J83-D-II,no.11,pp.2160-2170,2000)などにより計算を行うことができる。
S1040では、音声認識結果と信頼度を音声認識結果記憶部7に保存し、後に参照できるようにする。具体的には、音声認識部4は、音声認識結果および信頼度を対話管理部6に送信する。対話管理部6は、音声認識部4からの音声認識結果および信頼度を音声認識結果記憶部7に格納する。
S1050では、音声認識結果に未知語が含まれていたか否かを判断する。もし含まれていれば、後に辞書を変更して再認識を行う可能性があるため、S1060へ進み、先のユーザ発話の音声データを音声データ記憶部3に記憶する。一方、未知語が含まれていなかった場合には、再認識を行うことがないため、音声データの保存は行わずに、S1110のシステム応答生成処理へ進む。
具体的には、対話管理部6は、音声認識結果に未知語がふくまれていたか否かを判断し、未知語が含まれていれば、S1060に進む。そして、S1060では、対話管理部6は、音声入力部2を制御して、S1030で受信したユーザ発話の音声データを音声データ記憶部3に記憶する。
S1070では、対話管理部6は、音声認識結果記憶部7に保存されている第1の認識辞書による認識結果にしたがって、後の処理を選択する。ここでは、都道府県名と共通語彙の2種のキーワードの信頼度に対して、それぞれ、無条件に信頼するか確認するかを分ける閾値Tp1, Ta1と、確認を行うか棄却するかを分ける閾値Tp2, Ta2を設けるものとする。すなわち、対話管理部6は、予め、閾値Tp1およびTa1と、閾値Tp2およびTa2とを保持している。
そして、対話管理部6は、例えば、「都道府県名の信頼度がTp1以上」、かつ「共通語彙の信頼度がTa1以上」だった場合、両キーワードは信頼できると判断し、都道府県名と共通語彙(ここでは、「東京都」と「駅」)の両キーワードを含む認識対象語彙群が登録された第2の認識辞書に切り替えた認識処理(図3のS1120以降)へ移る。また、対話管理部6は、「都道府県名の信頼度がTp2未満」、または「共通語彙の信頼度がTa2未満」だった場合、キーワードは信頼できないと判断し、S1110へ移る。また、対話管理部6は、上記以外の場合、キーワードが正しいかをユーザ確認する必要があると判断し、S1080に進む。すなわち、対話管理部6は、「都道府県名の信頼度がTp2以上」、かつ「共通語彙の信頼度がTa2以上」であって、かつ「都道府県名の信頼度がTp1未満」、または「共通語彙の信頼度がTa1未満」の場合にS1080に進む。
S1080では、対話管理部6は、出力部8を介して、「東京都の駅でよろしいですか」、「東京都でよろしいですか」、「駅でよろしいですか」といった応答音声を出力する。
S1090では、「はい」、「いいえ」などの確認のための語彙を登録した確認用辞書を設定し、ユーザの発話を認識する。具体的には、対話管理部6は、音声認識部4に、確認用辞書を指定した音声認識処理の指示を行う。音声認識部4は、対話管理部6から指定された確認用辞書を音声認識辞書記憶部5から読み込む。そして、音声認識部4は、音声入力部2を介して、ユーザが発話した音声データ(確認発話)を受け付けて、確認用辞書を用いて確認発話を認識する。音声認識部4は、確認発話の認識結果を対話管理部6に出力する。
S1100では、対話管理部6は、確認発話の認識結果を判断し、肯定語であればS1120(図3)以降の第2の認識辞書に切り替えた再認識へ移り、否定語であればS1110へ移り再びユーザ発話を促す応答音声を流す。なお、確認の方法に関して言えば、もし「東京都」「駅」の両方を確認する必要があるのであれば、前述のように「東京都の駅でよろしいですか」と問う方法の他に、「東京都でよろしいですか」「駅でよろしいですか」と2回に分けて問う方法でもよい。このように、S1070においてキーワードの信頼度に応じて次の処理を変えることにより、誤った第2の認識辞書が選定されることを防いでいる。
また、2種類のキーワードのうち、1つは信頼度が高く、もう1つは信頼度が低い場合においては、信頼度が高いキーワードだけをユーザに確認をとった後、S1110のシステム応答生成に移っても良い。
また、S1070で使われる信頼度閾値は、ユーザの発話回数または対話継続時間によって変化する。たとえば、ユーザの発話回数または対話継続時間が増えていくに従い、ユーザに確認を行う信頼度の範囲を広げていくことによって、より確認が挿入されやすくなる。これにより、タスク完遂への確実性が増す。かつ、高信頼度でキーワードを認識できた場合には、すぐに辞書を切り替えた再認識へ移るため、ユーザ発話回数を低減することも実現できる。また、ユーザの発話回数とユーザの発話時間の双方に閾値を設け、どちらか一方または両方が閾値を越えた場合に、信頼度閾値を変更するようにしてもよい。
S1110では、対話管理部6が、上記の処理で、キーワードが信用されず辞書を切り替えた認識ができないと判断された場合や、未知語が検出されていない場合において、辞書を絞り込んだ処理ができないと判断された場合のシステム応答を生成する。ここでは、「もう一度お話ください」のように単にユーザの再発話を促すものでも良いが、これまで高信頼度で認識されているキーワードを応答音声に含め、「東京都の何という施設ですか」「何県の何という駅ですか」というような応答音声を生成しても良い。
つぎに、S1120以降の処理を、図3を用いて説明する。S1120以降は、キーワードが信頼されたため、先のユーザ発話の音声データに対して辞書を変更して再認識を行う部分である。
S1120では、まず、信頼されたキーワードに従い、そのキーワードを含む語彙が登録されている第2の認識辞書を設定する。具体的には、対話管理部6は、音声認識部4に、第2の認識辞書を指定した音声認識処理の指示を行う。音声認識部4は、対話管理部6から指定された第2の認識辞書を音声認識辞書記憶部5から読み込む。音声認識部4は、読込んだ第2の認識辞書を用いて、先に発話された音声データに対して認識処理を行う(S1060で保存しておいた音声データに対する音声認識を行う)。
たとえば、「東京都」「駅」がキーワードとして認識されているのであれば、図5に示すような「東京都」「駅」というキーワードを含む認識対象語彙が登録された第2の認識辞書を設定する(ここでは、「東京都」「駅」というキーワードに関連する施設名称が含まれる第2の認識辞書を設定する)。なお、図5は、本実施形態の第2の認識辞書の構成を模擬的に例示した図である。そして、先に発話された音声データに対して認識処理を行う。正しく認識されれば、「東京都の国分寺駅」と認識される。また、この音声認識処理においても、上述したS1030と同様、所定の方法によって単語信頼度が計算される。
S1130では、上述したS1040と同様の手順により、音声認識結果と信頼度を音声認識結果記憶部に保存し、後に参照できるようにする。
S1140では、対話管理部6は、認識された施設名称の信頼度に応じて、後の処理を分岐する。ここでは、無条件に信頼するか確認するかを分ける閾値Tn1と、確認するか棄却するかを分ける閾値Tn2を設けるものとする。もし信頼度がTn1以上であれば、認識された施設名称は正しいと判断しS1180へ進む。一方、信頼度がTn2未満であれば、S1190へ移る。また、信頼度がTn2以上Tn1未満であれば、S1150〜S1170でユーザに対して確認を行い、正しいと確認されればS1180へ、間違っていればS1190へ進む。なお、S1150〜S1170は、S1080〜S1100と同様の処理であるためここでの説明は省略する。
S1180では、施設名称の入力が確定したことを示す応答音声と画面表示を出力する。本実施形態であれば、対話管理部6は、出力部8を介して、「国分寺駅を目的地に設定しました」という音声を出力する。なお、対話管理部6は、出力部8を介して、「国分寺駅を目的地に設定しました」という画像データをディスプレイ(図示せず)に表示するようにしてもよい。
つぎに、認識された施設名称が信頼できないと判断された場合に行う、S1190〜S1220の処理を説明する。
S1190では、第1の認識で得られたキーワードがユーザ確認済みかどうかによって分岐を行っている。対話管理部6は、キーワードが確認済みなのであればS1200に進み、確認済みでなければS1220に進む。
S1200では、対話管理部6は、例えば「東京都の何という駅ですか」といった確認済みキーワードを含めた応答音声を生成し、その応答音声を出力部8から出力する。
S1210では、S1120と同様の手順により、都道府県と共通語彙で選定した第2の認識辞書によってユーザ発話を待ち受け、認識処理を行い、S1130の処理に戻る。
一方、キーワードが高信頼度ではあるもののユーザの明示的な確認を受けていない場合は、キーワードが誤認識である可能性がある。そのため、S1220では、対話管理部6は、「もう一度お話ください」などの応答音声を生成して出力し、ユーザの再発話を受け付け、図2のS1030へ戻る。
以上説明したように、第1の認識の結果を信頼するための判定において、信頼度に応じた処理の分岐を行い、ユーザに適切な確認を行っていくことにより、より確実にタスクを終了させることができる。また、信頼度閾値をユーザの発話回数または対話時間に応じて変化させることにより、適宜確認を入れていくことによりタスク達成率を高めることができる。
また、S1070の判断条件として、音声認識信頼度を使わず、ユーザの発話回数または対話時間のみを判断基準としても良い。たとえば、ユーザ発話が増えた場合は、音声認識信頼度に寄らず必ず確認を入れるなどの対話戦略が考えられる。
(第2実施形態)
続いて、本発明の第2実施形態について図2、図3のフローチャートを踏まえながら説明する。なお、第2実施形態は、上述した第1実施形態のS1070の処理を変更したものであり、それ以外の部分は第1実施形態のものと同じである。そのため、以下では、第1実施形態と異なる部分を中心に説明する。
具体的には、第2実施形態は、第1の認識の後の分岐、つまり図2のS1070の条件分岐で、各ユーザ発話の継続時間やユーザの発話音声の大きさやユーザの発話音声の高さを判断基準として、信頼度閾値を変更するものである。これらのパラメータは、ユーザが訂正発話や再発話を行う際に、特徴的な変化をすることがある。対話管理部6は、それらを検出し、分岐の条件を変える。例えば、対話管理部6は、ユーザが再発話であることが確認できれば、このときの信頼度の閾値は、確認を行う範囲を大きく取るように設定し、必ず確認を入れるようにする。これにより、単に誤認識が繰り返されることを防ぐことができる。
また、S1070の判断条件として、音声認識信頼度を使わず、単に各ユーザ発話の継続時間やユーザの発話音声の大きさやユーザの発話音声の高さだけを判断基準としてもよい。
なお、上記の説明では、図2のS1070の処理について説明したが、図3のS1140においても同様に、各ユーザ発話の継続時間やユーザの発話音声の大きさやユーザの発話音声の高さを判断基準として、信頼度閾値を変更するようにしてもよい。
(第2実施形態の変形例1)
続いて、本発明の第2実施形態の変形例1について図2、図3のフローチャートを踏まえながら説明する。なお、第2実施形態の変形例1は、上述した第1実施形態のS1070の処理を変更したものであり、それ以外の部分は第1実施形態のものと同じである。そのため、以下では、第1実施形態と異なる部分を中心に説明する。
具体的には、第2実施形態の変形例1は、第1の認識の後の分岐、つまり図2のS1070の条件分岐で、信頼度閾値を雑音の大きさによって変更するものである。雑音が大きい状況では、音声認識の性能が低下することが予想される。そこで、確認を行う信頼度の範囲を増やすなどの条件変更を行うことが対策として取れる。これにより、雑音が大きく音声認識が困難な状況でも、タスク達成率を高めることができる。
また、S1070の判断条件として、音声認識信頼度を使わず、雑音の大きさのみを判断基準としても良い。たとえば、雑音が大きな場合では、必ず確認を入れるなどの対話戦略が考えられる。
なお、上記の説明では、図2のS1070の処理について説明したが、図3のS1140においても同様に、雑音の大きさによって信頼度閾値を変更するようにしてもよい。
(第2実施形態の変形例2)
続いて、本発明の第2実施形態の変形例2について、図2、図3のフローチャートを踏まえながら説明する。なお、第2実施形態の変形例2は、上述した第1実施形態のS1070の処理を変更したものであり、それ以外の部分は第1実施形態のものと同じである。そのため、以下では、第1実施形態と異なる部分を中心に説明する。
具体的には、第2実施形態の変形例2では、雑音の大きさと発話回数・対話時間情報を複合して、S1070の条件分岐の信頼度閾値を変更するようにしたものである。たとえば、雑音が少なく高認識率が期待できるときには、閾値の変更は発話回数だけに依存し、発話回数が多くなるほど確認を入れる信頼度の範囲を大きくしていく。一方、雑音が大きな場合、最初から確認する信頼度の範囲を大きくしておくなどが対策としてとられる。このことにより、どんな環境に対してでも、よりユーザがスムーズにタスクを完了させることが可能となる。
なお、上記の説明では、図2のS1070の処理について説明したが、図3のS1140においても同様に、雑音の大きさと発話回数・対話時間情報を複合して信頼度閾値を変更するようにしてもよい。
(第3実施形態)
続いて、本発明の第3実施形態について図2、図3、図6のフローチャートを踏まえながら説明する。第3実施形態は、第1実施形態のS1080〜S1100(図2)の処理を図6に示す処理に置き換えたものであり、それ以外の部分は第1実施形態のものと同じである。そのため、以下では、第1実施形態と異なる部分を中心に説明する。
第3実施形態では、キーワードをユーザに確認する際に、肯定語と否定語を受け付ける確認用辞書のほかに、第1の認識辞書も併用する。そして、認識結果に都道府県や共通語彙といったキーワードが含まれていた場合は、図2のS1040へ戻り、キーワードの認識結果として採用する。
具体的には、図6に示すS3010では、上述したS1080と同様の手順により、対話管理部6が、出力部8を介して、「東京都の駅でよろしいですか」、「東京都でよろしいですか」、「駅でよろしいですか」といった応答音声を出力する。
S3020では、確認用辞書のほかに、第1の認識辞書も併用して、ユーザの発話を認識する。
S3030では、認識結果が肯定語だけの場合、S1120(図3)の処理に進み、認識結果が否定語だけの場合、S1110(図2)へ進む。また、認識結果に都道府県や共通語彙といったキーワードが含まれていた場合は、S1040(図2)へ戻る。
このように、第3実施形態では、ユーザに対する確認処理において、確認用辞書のほかに、第1の認識辞書も併用して、ユーザの発話を認識するようにしている。このことによって、確認の場面で「はい」、「いいえ」といった単語のほかに、「東京都の国分寺駅です」のような施設名称の再発話も受理(認識)できるため、ユーザ発話の回数を低減することができる。また、確認の際に併用する辞書としては、第1の認識辞書をそのまま使用するのではなくて、「いや」「じゃない」など、ユーザの訂正意図を表す語彙を含んだ辞書を使用してもよい。このようにすれば、「いや、東京の国分寺駅」のような、よりユーザにとって自然性の高い発話も受理することができる。
(第4実施形態)
続いて、本発明の第4実施形態について、図7、図8のフローチャートを踏まえながら説明する。
図7、8は、本発明の第4実施形態の音声対話処理のフローチャートである。なお、以下では、ユーザが「東京都の国立能楽堂」と発話した場合を例にして説明する。また、第1の認識辞書には、図4のように「国立能楽堂」内の語彙が共通語彙として登録されていないものとする。
第4実施形態では、先ず、上述した図2のS1010〜1060と同様の処理が実行される(S4010〜S4060)。本例では、S4030の認識処理において正しく認識された場合、「東京都/の/(未知語)」と認識される。よって、都道府県は認識されているものの、共通語彙は認識されていないこととなる(「コクリツオンガクドウ」という韻列には、第1の認識辞書に登録されている共通語彙が1つも含まれないため)。
この結果を受け、S4070では、2種類のキーワードのうち、共通語彙が認識されていないため、S4075に移る。
なお、本ステップにおいて、2種類のキーワードが高信頼度(所定の信頼度以上)で認識されていればS4080に進む。S4080では、認識したキーワードを含む語彙を登録した第2の認識辞書を設定してS4100(図8)に進む。
S4075では、設定されているモードにより、S4090およびS4095のうちのいずれかに分岐する。具体的には、対話管理部6は、全種類のキーワードを高信頼度で認識できなかった場合に、予め設定されているモードにより、図9に示す第3の辞書を利用するか、図10に示す第2の辞書を利用するかを判定する。なお、このモードは、例えば、音声対話システムを初期設定する際、ユーザが対話管理部6に設定しておく。
つぎに、S4075において、S4090に移行すると判定された場合を説明する。
S4090では、キーワード「東京都」は含むが、「駅」「ホテル」「公園」といった共通語彙は1つも含まない語彙を登録した第3の認識辞書が設定され、S4100(図8)に移行する。ここで、第3の認識辞書の構成を図9に示す。図示する第3の認識辞書では、「東京都」を含む都道府県名と、助詞と、施設名称とが登録されている。すなわち、第3の認識辞書では、例えば、図4に示す認識辞書のように、「駅」「ホテル」「公園」といった共通語彙が含まれる語彙が登録されていない。
そして、S4100において、図9に示す第3の辞書を使った認識では、正しく認識されれば「国立能楽堂」と認識される。これにより、キーワードを含まない語彙に対しても、ユーザの発話を受理することができる。
なお、本実施形態では、図7のS4030で設定する第1の認識辞書に登録するキーワード数は、ユーザの発話回数または対話継続時間に応じて調整されるものとする。また、S4090で設定される第3の認識辞書に関しても、第1の認識辞書のキーワード数の変化に対応して、キーワードを含まない語彙を網羅するように調整される。ユーザの発話回数が増え、タスク達成が困難と予想される場合において、第1の認識辞書に登録する共通語彙の数を少なくし、認識率を向上させることができる。このことにより、誤認識の表出を防ぎ、より確実にタスクを遂行することができる。また、ユーザの発話回数とユーザの発話時間の双方に依存して、キーワード数を変更するようにしてもよい。
つぎに、S4075において、S4095に移行すると判定された場合を説明する。
S4095では、たとえばユーザが「東京の国分寺駅」と発話した場合、認識結果の「東京都」だけを採用して、図10に示す、東京都のすべての施設名称を登録した第2の認識辞書を選定するようにしている。なお、本ステップでは、「駅」だけを採用して、図11のような全国の駅名を登録した第2の認識辞書を選定することも可能である。たとえば、タスク達成が困難で発話回数が増えていった場合、「駅」「ホテル」「温泉」といった共通語彙は、音韻の短さなどが原因で認識が困難なことが考えられる。この場合、都道府県名だけをキーワードとして採用し、一都道府県の全施設の辞書を第2の認識辞書に切り替えて再認識を行うことで、タスク達成を見込むことができる。また、ユーザが都道府県名を省略し「国分寺駅」と施設名だけを発話した場合など、1種類のキーワードしか含まれていない場合においても、全国の駅の名称が登録された第2の認識辞書を使って再認識することにより、語彙の入力を完了させることができる。これにより、キーワードの全種類が認識結果から得られなかった場合や、誤認識した場合においても、正しい辞書を選定することができる。
続いて、S4080、S4090、S4095のそれぞれの処理の後に行われるS4100以降の処理を説明する。
図8に示すように、まず、S4100において、上述した図3のS1120と同様の手順にしたがい、音声データの認識処理を実行する。
その後、図3に示すS1130、1140、1150、1160、1170、1180と同様の処理(S4110、4120、4130、4140、4150、4160)が行われる。
つぎに、S4120で「施設名称の信頼度がTn2未満」と判定された場合、およびS4150で「認識結果が肯定的ではない」場合に進むS4170について説明する。
S4170では、図3のS1220と同様の処理が行われて、S4030(図7)の処理に戻る。
また、上述した第4実施形態を以下のように変形してもよい。
(第4実施形態の変形例1)
まず、第4実施形態の変形例1を示す。具体的には、第4実施形態の変形例1では、各ユーザ発話の継続時間、ユーザの発話音声の大きさ、ユーザの発話音声の高さを判断基準として、キーワード数を変更する。これらのパラメータは、ユーザが訂正発話や再発話を行う際に、特徴的な変化をすることがある。それらを検出し、キーワード数を少なくし、認識率を高める。また、ユーザが再発話であることが確認できた場合、複数の種類あるキーワードのうち、一部の種類のキーワードだけを採用するといった戦略を取ることができる。例えば、所定値以上の信頼度を有するキーワードを用いることとする。
たとえば、ユーザが「東京都の国分寺駅」と発話した場合において、「東京都」だけを採用して、図10のような東京都のすべての施設名称を登録した第2の認識辞書を選定すること、または、「駅」だけを採用して、図11のような全国の駅名を登録した第2の認識辞書を選定することがあげられる。これにより、認識率の悪い単語の影響を排除でき、単に誤認識が繰り返されることを防ぐことができる。
(第4実施形態の変形例2)
つぎに、第4実施形態の変形例2を示す。具体的には、変形例2は、第4実施形態において、雑音の大きさを判断基準として使用することにより、キーワード数を変更するようにしたものである。雑音が大きい状況では、音声認識の性能が低下することが予想される。そこで、キーワード数を少なくし、認識率を高めることが考えられる。また、第4実施形態の変形例1と同様、複数の種類あるキーワードのうち、一部の種類のキーワードだけを採用し、辞書を選定するという戦略もとることができる(S4095)。これにより、雑音が大きく音声認識が困難な状況でも、タスク達成率を高めることができる。
(第4実施形態の変形例3)
つぎに、第4実施形態の変形例3を示す。変形例3は、第4実施形態において、雑音の大きさと発話回数・対話時間情報を複合して、キーワード数を変更するようにしてものである。たとえば、雑音が少なく高認識率が期待できるときには、発話回数が多くなるほどキーワード数を減らしていく。一方、雑音が大きな場合、最初からキーワード数を少なくする、あるいはキーワードの種類を少なくするなどの対策が取られる。このことにより、どんな環境に対してでも、よりユーザがスムーズにタスクを完了させることが可能となる。
(第5実施形態)
続いて、本発明の第5実施形態について、図2、図3のフローチャートと、図12の内部状態図とを用いて説明する。本実施形態は、図2のS1070の条件分岐において、音声認識結果記憶部5に保存されている最新の認識結果の信頼度だけでなく、過去の対話の認識結果の信頼度も判断基準とすることを特徴としている。以下、本実施形態での音声対話システムの内部状態を示す図12に従い、場面ごとに説明する。なお、以下では、ユーザが最初に、「東京」とだけ発話した場合を例にする。
具体的には、音声対話システムは、ユーザに対して、行き先の名称の発話を促す音声出力を行う(S6010)。例えば、「行き先の名称をお話しください」という音声データを出力する。
これに対して、本実施形態では、ユーザが「東京」とだけ発話する(S6020)。音声対話システムは、ユーザが発話した音声を第1の認識辞書を利用して認識処理を実行する。そして、認識処理を実行した結果、S6030のように複数の候補が得られ、その中でも「東京」が最も信頼される認識結果として得られたとする。この結果は、音声認識結果記憶部7に保存される(S6040)。さらに、音声対話システムは、信頼できるキーワードを含めて、システムの応答音声として「東京の何という施設ですか」という音声が生成し、その生成した応答音声を出力する(S6050)。
次に、ユーザは「国分寺駅」と発話したとする(S6055)。音声対話システムは、ユーザが発話した音声データを第1の認識辞書を利用して認識処理を実行する。そして、認識処理を実行した結果、S6060のように「(未知語)/駅」がもっとも信頼できる結果として得られたとする。なお、ここでは、未知語が検出されたため、ユーザ発話の音声データは、音声データ記憶部3に保存される(S6080)。
なお、S6060で得られた結果は、音声認識結果記憶部7に記憶されるが、その際、前の対話で得られた結果に追加するようにする(S6070)。また、ここでは、過去の結果に対しては信頼度を一定値減算するものとする。こうすることにより、音声認識結果記憶部7において、都道府県名として「東京」、共通語彙として「駅」の2つが高信頼度であると判断され、この2つのキーワードを含む語彙が登録された第2の認識辞書により、音声データを再認識する(S6085)。この認識の結果、S6090に示すように「国分寺駅」がもっとも信頼できる結果として得られ、対話を終了することができる。すなわち、音声対話システムは、S6090の認識結果を音声認識結果記憶部7に記憶し(S6100)、もっとも信頼できる認識結果を音声出力し(S6110)、対話を終了する。ここでは、音声対話システムは、「国分寺駅を目的地に設定しました」という音声データを出力して対話処理を終了する。
以上説明したように、本実施形態によれば、最新の認識結果の音声認識信頼度だけでなく、過去のユーザ発話の音声認識結果の信頼度も利用することにより、最初に「東京」とだけ発話し、次に「国分寺駅」と発話するような、漸次的な発話を受け付けることができる。また、最新の音声認識結果に誤認識が含まれていた場合においても、過去の結果も参照することにより、より信頼できる結果を採用することができる。
なお、音声認識結果記憶部7への認識結果の追加方法は、図12に書いた限りではない。たとえば、音声認識結果記憶部7に保存されているキーワードについて、ユーザ確認によって正しいと確定しているものについては、その確定済みの情報も合わせて保存しておく。このことによって、たとえばユーザが最初に「東京」と発話し、それをユーザに対して「東京でよろしいですか」と確認し、「はい」などの発話があった場合、音声認識結果記憶部7に記憶されている都道府県名「東京」は確定済みと登録される。これにより、次にユーザが「国分寺駅」とだけ発話した場合、音声認識結果記憶部7に記憶されている「東京」を参照でき、第2の認識辞書として東京の駅を登録した辞書を選定し、再認識処理を実行できる。
また、音声認識結果記憶部7に信頼度を記憶するルールとして、図12のような足し合わせる形式ではなく、最新の認識結果に高信頼度のキーワードがあった場合、音声認識結果記憶部にある同種のキーワードの情報をいったん消去し、最新の結果で上書きするような方法も考えられる。
(第6実施形態)
続いて、本発明の第6実施形態を説明する。第6実施形態では、対話の状況に応じて、信頼度閾値の変更とキーワード数の変更の両方を行うものである。たとえば、ユーザ発話回数が増えていった場合に、信頼度の閾値で確認を増やす範囲を大きくし、かつキーワード数を減らすことが考えられる。このことによって、より確実にタスク達成へ導くことができる。
なお、本発明は以上で説明した実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形が可能である。
本発明の実施形態の音声対話システムの機能構成図である。 本発明の実施形態の音声対話処理のフローチャートである。 本発明の実施形態の音声対話処理のフローチャートである。 本実施形態の第1の認識辞書の構成を模擬的に例示した図である。 特定のキーワードを含む認識対象語彙を登録した第2の認識辞書を模擬的に例示した図である。 本発明の第3実施形態の音声対話処理のフローチャートである。 本発明の第4実施形態の音声対話処理のフローチャートである。 本発明の第4実施形態の音声対話処理のフローチャートである。 キーワードを含まない認識対象語彙を登録した第3の認識辞書を模擬的に例示した図である。 都道府県と共通語彙という2種類のキーワードがある場合において、一都道府県にあるすべての認識対象語彙を登録した第2の認識辞書を模擬的に例示した図である。 都道府県と共通語彙という2種類のキーワードがある場合において、1つの共通語彙を含むすべての認識対象語彙を登録した第2の認識辞書を模擬的に例示した図である。 本発明の第5実施形態の音声対話処理を説明するための内部状態図である。
符号の説明
1…マイク、2…声入力部、3…声データ記憶部、4…音声認識部、5…音声認識辞書記憶部、6…対話管理部、7…音声認識結果記憶部、8…出力部

Claims (7)

  1. ユーザから入力された音声を音声データに変換する音声入力部と、
    複数の単語が格納される第1の認識辞書と、上記第1の認識辞書に格納されている何れかの単語と対応付けられた単語が格納される第2の認識辞書とを記憶する音声認識辞書記憶部と、
    上記第1の認識辞書を用いて、上記変換した音声データの中に含まれるキーワードを音声認識すると共に、該音声認識されたキーワードの信頼度を算出し、該信頼度が所定の閾値以上である場合に、上記第2の認識辞書を用いて、上記音声データを音声認識する音声認識部と、
    上記音声認識部が行った音声認識の結果を出力する出力部と、
    上記音声入力部、上記音声認識辞書記憶部、上記音声認識部、および上記出力部の動作を制御する対話管理部と、を有し、
    上記対話管理部は、ユーザとの対話状況に応じて上記閾値を変更すること
    を特徴とする音声対話システム。
  2. 請求項1に記載の音声対話システムであって、
    上記対話管理部は、上記音声認識されたキーワードの信頼度が上記所定の閾値に満たない場合、上記出力部を介して、再度の音声入力を求める出力又は上記音声認識されたキーワードの確認を求める出力を行うこと
    を特徴とする音声対話システム。
  3. 請求項1又は2に記載の音声対話システムであって、
    上記音声認識辞書記憶部は、上記第1の認識辞書および第2の認識辞書の何れにも格納されない単語を格納する第3の認識辞書を有し、
    上記音声認識部は、上記信頼度が所定の閾値に満たない場合には、上記第3の辞書を用いて上記音声データの音声認識を行うこと
    特徴とする音声対話システム。
  4. ユーザから入力された音声を音声データに変換する音声入力部と、
    複数の単語が格納される第1の認識辞書と、上記第1の認識辞書に格納されている何れかの単語と対応付けられた単語が格納される第2の認識辞書とを記憶する音声認識辞書記憶部と、
    上記第1の認識辞書を用いて、上記変換した音声データの中に含まれるキーワードを音声認識すると共に、該音声認識されたキーワードの信頼度を算出し、該信頼度が所定の閾値以上である場合に、上記第2の認識辞書を用いて、上記音声データを音声認識する音声認識部と、
    上記音声認識部が行った音声認識の結果を出力する出力部と、
    上記音声入力部、上記音声認識辞書記憶部、上記音声認識部、および上記出力部の動作を制御する対話管理部と、を有し、
    上記対話管理部は、ユーザとの対話状況に応じて、上記第1の認識辞書に格納されるキーワードの数を変更すること
    を特徴とする音声対話システム。
  5. 請求項1〜4のいずれか一項に記載の音声対話システムであって、
    上記対話状況には、上記音声認識結果中のユーザの発話回数、対話開始からの継続時間、各ユーザ発話の継続時間、ユーザの発話音声の大きさ、ユーザの発話音声の高さ、および雑音の大きさのうちの少なくとも何れかが含まれること
    を特徴とする音声対話システム。
  6. 請求項1〜5のいずれか一項に記載の音声対話システムであって、
    上記第1の認識辞書は、ユーザの発話順にキーワードと任意の音韻列を認識するモデルである未知語とを接続した規則に基づいて構成されていること
    を特徴とする音声対話システム。
  7. 請求項1に記載の音声対話システムにおいて、
    複数の上記音声認識されたキーワードの一部を用いて上記第2の認識辞書の選択を行うこと
    を特徴とする音声対話システム。
JP2006179985A 2006-06-29 2006-06-29 音声対話システム Pending JP2008009153A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006179985A JP2008009153A (ja) 2006-06-29 2006-06-29 音声対話システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006179985A JP2008009153A (ja) 2006-06-29 2006-06-29 音声対話システム

Publications (1)

Publication Number Publication Date
JP2008009153A true JP2008009153A (ja) 2008-01-17

Family

ID=39067440

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006179985A Pending JP2008009153A (ja) 2006-06-29 2006-06-29 音声対話システム

Country Status (1)

Country Link
JP (1) JP2008009153A (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010014885A (ja) * 2008-07-02 2010-01-21 Advanced Telecommunication Research Institute International 音声認識機能付情報処理端末
JP2010224153A (ja) * 2009-03-23 2010-10-07 Toyota Central R&D Labs Inc 音声対話装置及びプログラム
WO2010128560A1 (ja) * 2009-05-08 2010-11-11 パイオニア株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
JP2012073361A (ja) * 2010-09-28 2012-04-12 Fujitsu Ltd 音声認識装置及び音声認識方法
US20130080161A1 (en) * 2011-09-27 2013-03-28 Kabushiki Kaisha Toshiba Speech recognition apparatus and method
WO2014112226A1 (ja) * 2013-01-16 2014-07-24 シャープ株式会社 電子機器及び掃除機
JP2014142626A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
JP2014182307A (ja) * 2013-03-19 2014-09-29 Sharp Corp 音声認識システム、および発話システム
JP2015087728A (ja) * 2013-11-01 2015-05-07 富士ソフト株式会社 音声認識システムおよび音声認識システムの制御方法
CN105229724A (zh) * 2013-02-20 2016-01-06 索尼电脑娱乐公司 混合性能缩放或语音识别
JP2016048338A (ja) * 2014-08-28 2016-04-07 アルパイン株式会社 音声認識装置及びコンピュータプログラム
WO2016088411A1 (ja) * 2014-12-02 2016-06-09 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP2016529603A (ja) * 2013-12-25 2016-09-23 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド オンライン音声翻訳方法及び装置
JP2017058545A (ja) * 2015-09-17 2017-03-23 本田技研工業株式会社 音声処理装置および音声処理方法
US9607619B2 (en) 2013-01-24 2017-03-28 Huawei Device Co., Ltd. Voice identification method and apparatus
JP2019079034A (ja) * 2017-10-26 2019-05-23 株式会社日立製作所 自己学習自然言語理解を伴うダイアログ・システム
US10553219B2 (en) 2015-09-23 2020-02-04 Samsung Electronics Co., Ltd. Voice recognition apparatus, voice recognition method of user device, and non-transitory computer readable recording medium
JP2022101663A (ja) * 2021-08-18 2022-07-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6060080B2 (ja) * 1977-12-28 1985-12-27 日本電気株式会社 音声認識装置
JPH01321499A (ja) * 1988-06-23 1989-12-27 Matsushita Electric Ind Co Ltd 音声認識装置
JP2004334228A (ja) * 2004-06-07 2004-11-25 Denso Corp 単語列認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6060080B2 (ja) * 1977-12-28 1985-12-27 日本電気株式会社 音声認識装置
JPH01321499A (ja) * 1988-06-23 1989-12-27 Matsushita Electric Ind Co Ltd 音声認識装置
JP2004334228A (ja) * 2004-06-07 2004-11-25 Denso Corp 単語列認識装置

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010014885A (ja) * 2008-07-02 2010-01-21 Advanced Telecommunication Research Institute International 音声認識機能付情報処理端末
JP2010224153A (ja) * 2009-03-23 2010-10-07 Toyota Central R&D Labs Inc 音声対話装置及びプログラム
WO2010128560A1 (ja) * 2009-05-08 2010-11-11 パイオニア株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
JPWO2010128560A1 (ja) * 2009-05-08 2012-11-01 パイオニア株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
JP2012073361A (ja) * 2010-09-28 2012-04-12 Fujitsu Ltd 音声認識装置及び音声認識方法
US20130080161A1 (en) * 2011-09-27 2013-03-28 Kabushiki Kaisha Toshiba Speech recognition apparatus and method
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
JP2014137430A (ja) * 2013-01-16 2014-07-28 Sharp Corp 電子機器及び掃除機
CN104871239A (zh) * 2013-01-16 2015-08-26 夏普株式会社 电子设备和吸尘器
WO2014112226A1 (ja) * 2013-01-16 2014-07-24 シャープ株式会社 電子機器及び掃除機
US9607619B2 (en) 2013-01-24 2017-03-28 Huawei Device Co., Ltd. Voice identification method and apparatus
JP2014142626A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
US9666186B2 (en) 2013-01-24 2017-05-30 Huawei Device Co., Ltd. Voice identification method and apparatus
CN105229724A (zh) * 2013-02-20 2016-01-06 索尼电脑娱乐公司 混合性能缩放或语音识别
CN112863510A (zh) * 2013-02-20 2021-05-28 索尼电脑娱乐公司 混合性能缩放或语音识别
JP2014182307A (ja) * 2013-03-19 2014-09-29 Sharp Corp 音声認識システム、および発話システム
JP2015087728A (ja) * 2013-11-01 2015-05-07 富士ソフト株式会社 音声認識システムおよび音声認識システムの制御方法
US9910851B2 (en) 2013-12-25 2018-03-06 Beijing Baidu Netcom Science And Technology Co., Ltd. On-line voice translation method and device
JP2016529603A (ja) * 2013-12-25 2016-09-23 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド オンライン音声翻訳方法及び装置
JP2016048338A (ja) * 2014-08-28 2016-04-07 アルパイン株式会社 音声認識装置及びコンピュータプログラム
CN107004406A (zh) * 2014-12-02 2017-08-01 索尼公司 信息处理设备、信息处理方法及程序
WO2016088411A1 (ja) * 2014-12-02 2016-06-09 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10540968B2 (en) 2014-12-02 2020-01-21 Sony Corporation Information processing device and method of information processing
JP2017058545A (ja) * 2015-09-17 2017-03-23 本田技研工業株式会社 音声処理装置および音声処理方法
US10553219B2 (en) 2015-09-23 2020-02-04 Samsung Electronics Co., Ltd. Voice recognition apparatus, voice recognition method of user device, and non-transitory computer readable recording medium
JP2019079034A (ja) * 2017-10-26 2019-05-23 株式会社日立製作所 自己学習自然言語理解を伴うダイアログ・システム
CN110019745A (zh) * 2017-10-26 2019-07-16 株式会社日立制作所 具有自学习自然语言理解的对话系统
JP2022101663A (ja) * 2021-08-18 2022-07-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Similar Documents

Publication Publication Date Title
JP2008009153A (ja) 音声対話システム
US7996218B2 (en) User adaptive speech recognition method and apparatus
US9754586B2 (en) Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US7529678B2 (en) Using a spoken utterance for disambiguation of spelling inputs into a speech recognition system
Souvignier et al. The thoughtful elephant: Strategies for spoken dialog systems
US20070239455A1 (en) Method and system for managing pronunciation dictionaries in a speech application
US20030139925A1 (en) Automating tuning of speech recognition systems
US11948571B2 (en) Wakeword selection
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
JP2007093789A (ja) 音声認識装置、音声認識方法および音声認識プログラム
US20080154591A1 (en) Audio Recognition System For Generating Response Audio by Using Audio Data Extracted
US20150310853A1 (en) Systems and methods for speech artifact compensation in speech recognition systems
US20170270923A1 (en) Voice processing device and voice processing method
WO2006093092A1 (ja) 会話システムおよび会話ソフトウェア
Bousquet-Vernhettes et al. Error handling in spoken dialogue systems: toward corrective dialogue
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
KR20100051214A (ko) 화자 독립 음성 인식 처리 방법
JP2007183516A (ja) 音声対話装置及び音声認識方法
JP4537755B2 (ja) 音声対話システム
JP4661216B2 (ja) 音声認識装置、方法、およびシステム
JPH06161488A (ja) 音声認識装置
JP2006023444A (ja) 音声対話装置
JP4946358B2 (ja) 音声対話装置及び音声理解結果生成方法
EP1160767A2 (en) Speech recognition with contextual hypothesis probabilities

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090420

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20100212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120110