JP6221301B2

JP6221301B2 - 音声処理装置、音声処理システムおよび音声処理方法

Info

Publication number: JP6221301B2
Application number: JP2013070682A
Authority: JP
Inventors: 太郎外川; 千里石川; 猛大谷
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-03-28
Filing date: 2013-03-28
Publication date: 2017-11-01
Anticipated expiration: 2033-03-28
Also published as: JP2014194480A; US20140297281A1

Description

本発明は、音声処理装置等に関する。

ユーザとの間で音声による対話を繰り返して、情報検索をはじめとする各種タスクを実行する音声対話システムが存在する。この音声対話システムは、ユーザから入力される音声を単語に変換する音声認識技術を用いる。現状の音声対話システムでは、音声認識結果が正しいか否かを独自に判定できない。このため、音声対話システムは、音声認識結果をディスプレイ等に表示して音声認識結果が正しいか否かをユーザに確認する。

ここで、音声対話システムが、音声認識結果の確認を頻繁にユーザに対して実行すると、ユーザに対する負担が増加するため、音声認識結果の確認を効率良く実行することが求められる。

例えば、音声認識の信頼度が低い単語全体をゆっくり再生して、音声認識結果の確認をユーザに対して実行する従来技術がある。例えば、ユーザが「岡山県の天気は？」と発音し、音声対話システムが「和歌山県の天気は？」と音声認識し、「和歌山県」の信頼度が低くなった場合に、音声認識結果のうち「和歌山県」をゆっくり再生して、音声認識結果が正しいか否かをユーザに確認する。

特開２００３−２０８１９６号公報特開２００６−１３３４７８号公報

しかしながら、上述した従来技術では、音声認識結果の間違いが判りづらいという問題がある。

従来技術のように、音声認識の信頼度が低い単語全体をゆっくり再生すると、正しい認識結果との区別がつきにくく、ユーザが誤認識であるか否かを判断できない場合がある。例えば、上記の例に関して、音声対話システムが、信頼度の低い「和歌山県」をゆっくり再生したとしても、単語全体で聞いた場合には「和歌山県」と「岡山県」とが似ており、ユーザが違いを判別できない場合がある。

一つの側面では、上記に鑑みてなされたものであって、音声認識結果の間違いを判りやすくする音声処理装置、音声処理システムおよび音声処理方法を提供することを目的とする。

一つの案では、音声処理装置は、音声認識部と、選択部と、出力部とを有する。音声認識部は、入力された音声を単語に変換する音声認識を行い、音声に対応する複数の単語候補を抽出する。選択部は、音声認識部によって抽出された複数の単語候補を基にして、各単語候補間で相違する箇所を選択する。出力部は、複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、選択部によって選択された相違する箇所を強調して、前記単語候補の応答音声を出力する。

開示の態様では、音声認識結果の間違いを判りやすくすることができるという効果を奏する。

図１は、本実施例１に係る音声認識装置の構成を示す図である。図２は、本実施例１に係る選択部の構成を示す図である。図３は、本実施例１に係る有力候補抽出部の処理を説明するための図である。図４は、本実施例１に係る評価部の処理を説明するための図（１）である。図５は、本実施例１に係る評価部の処理を説明するための図（２）である。図６は、本実施例１に係る評価部の処理を説明するための図（３）である。図７は、本実施例１に係る強調制御部の構成を示す図である。図８は、本実施例１に係るモーラ位置照合部の処理を説明するための図である。図９は、本実施例１に係る音声認識装置の処理手順を示すフローチャートである。図１０は、本実施例１に係る選択部の処理手順を示すフローチャートである。図１１は、本実施例２に係る音声認識装置の構成を示す図である。図１２は、本実施例２に係る選択部の構成を示す図である。図１３は、本実施例２に係る有力候補抽出部の処理を説明するための図である。図１４は、本実施例３に係る音声認識装置の構成を示す図である。図１５は、本実施例３に係る選択部の構成を示す図である。図１６は、本実施例３に係る有力候補抽出部が抽出した単語候補と信頼度との一例を示す図である。図１７は、本実施例３に係る評価部の処理を説明するための図（１）である。図１８は、本実施例３に係る評価部の処理を説明するための図（２）である。図１９は、本実施例３に係る評価部の処理を説明するための図（３）である。図２０は、本実施例３に係る強調制御部の構成を示す図である。図２１は、本実施例３に係るモーラ位置照合部の処理を説明するための図である。図２２は、本実施例４に係る音声処理システムの一例を示す図である。図２３は、本実施例４に係るサーバの構成を示す図である。図２４は、音声処理プログラムを実行するコンピュータの一例を示す図である。

以下に、本願の開示する音声処理装置、音声処理システムおよび音声処理方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

本実施例１に係る音声処理装置について説明する。図１は、本実施例１に係る音声認識装置の構成を示す図である。図１に示すように、この音声処理装置１００は、音声認識部１１０、選択部１２０、応答音声生成部１３０を有する。応答音声生成部１３０は、応答文生成部１３０ａ、強調制御部１３０ｂ、テキスト合成部１３０ｃを有する。

音声認識部１１０は、マイク等から入力される音声を単語に変換する音声認識を行い、音声に対応する複数の単語候補を抽出する処理部である。また、音声認識部１１０は、各単語候補の信頼度をそれぞれ求める。音声認識部１１０は、単語候補と信頼度とを対応付けた情報を、選択部１２０および応答文生成部１３０ａに出力する。以下の説明において、マイク等から入力される音声を適宜、入力音声と表記する。

音声認識部１１０の処理の一例について具体的に説明する。音声認識部１１０は、複数の単語と、該単語に対応する音声の標準パターンとを対応付けた標準テーブルを保持する。音声認識部１１０は、入力音声の周波数特性を基にして入力音声の特徴ベクトルを算出し、算出した特徴ベクトルと標準テーブルの各標準パターンとを比較して、特徴ベクトルと各標準パターンとの類似度をそれぞれ算出する。この特徴ベクトルと各標準パターンとの類似度を、上記信頼度とする。

音声認識部１１０は、特徴ベクトルとの信頼度が限りなく０に近い標準パターン以外の標準パターンを、単語候補として抽出する。例えば、音声認識部１１０は、特徴ベクトルとの信頼度が０.１以上となる標準パターンを、単語候補として抽出する。音声認識部１１０は、抽出した単語候補と信頼度とを対応付けた情報を、選択部１２０および応答音声生成部１３０に出力する。

音声認識部１１０が、信頼度を算出する処理は、上記のものに限られず、如何なる周知技術を用いても良い。例えば、音声認識部１１０は、特開平４−２５５９００号公報の技術を用いて、単語候補の信頼度を算出しても良い。

選択部１２０は、複数の単語候補間で相違する箇所を選択する処理部である。図２は、本実施例１に係る選択部の構成を示す図である。図２に示すように、選択部１２０は、有力候補抽出部１２０ａと、評価部１２０ｂを有する。

有力候補抽出部１２０ａは、複数の単語候補の信頼度を基にして、信頼度が所定の閾値以上となる単語候補を抽出する。有力候補抽出部１２０ａは、抽出した単語候補と該単語候補の信頼度との組みを、評価部１２０ｂに出力する。

図３は、本実施例１に係る有力候補抽出部の処理を説明するための図である。例えば、音声認識部１１０から取得した単語候補と信頼度との関係が、図３に示す関係となっており、所定の閾値を「０．６」とする。この場合には、有力候補抽出部１２０ａは、候補１〜３の単語候補および信頼度の組みを抽出する。有力候補抽出部１２０ａは、候補１〜３の単語候補および信頼度の組みの情報を、評価部１２０ｂに出力する。

評価部１２０ｂは、各単語候補をそれぞれ比較して、単語候補間で相違する箇所を選択する処理部である。以下の説明において、各単語候補のうち、信頼度が最大となるものを、第１単語候補と表記し、その他の単語候補を第２単語候補と表記する。例えば、図３に示す例では、信頼度「０．８０」の単語候補「わかやま（和歌山）」が、第１単語候補となる。また、信頼度「０．７５」の単語候補「おかやま（岡山）」および信頼度「０．６５」の単語候補「とやま（富山）」が、それぞれ第２単語候補となる。

評価部１２０ｂは、第１単語候補と各第２単語候補との一致スコアをそれぞれ算出し、算出した各一致スコアを合計することで、最終的な第１単語候補の一致スコアを算出する。例えば、評価部１２０ｂは、第１単語候補「わかやま（和歌山）」と、第２単語候補「おかやま（岡山）」とを比較して、一致スコアを算出する。また、評価部１２０ｂは、第１単語候補「わかやま（和歌山）」と、第２単語候補「とやま（富山）」とを比較して、一致スコアを算出する。そして、評価部１２０ｂは、各一致スコアを合計することで、第１単語候補の一致スコアを算出する。

評価部１２０ｂは、例えば、ＤＰマッチング法を用いて、一致スコアを算出する。図４、図５、図６は、本実施例１に係る評価部の処理を説明するための図である。図４について説明する。図４は、第１単語候補「わかやま（和歌山）」と、第２単語候補「おかやま（岡山）」とを比較する処理を示す。評価部１２０ｂは、第１単語候補および第２単語候補の文字をそれぞれ比較し、一致していれば、該当文字にスコア「０」を与え、一致しなければ、該当文字にスコア「−１」を与えるテーブル１０ａを生成する。

評価部１２０ｂは、テーブル１０ａを基にして、第１単語候補の各文字に対応するスコアのうち、大きい方のスコアを通る経路を優先して選択することで、各文字のスコアを特定する。図４に示す例では、経路１１ａが選択され、第１単語候補の各文字のスコアは、スコアテーブル２０ａに示すものとなる。すなわち、「わ」に対するスコアが「−１」となる。「か」、「や」、「ま」に対するスコアがそれぞれ「０」となる。

図５について説明する。図５は、第１単語候補「わかやま」と第２単語候補「とやま」とを比較する処理を示す。評価部１２０ｂは、第１単語候補および第２単語候補の文字をそれぞれ比較し、一致していれば、該当文字にスコア「０」を与え、一致しなければ、該当文字にスコア「−１」を与えるテーブル１０ｂを生成する。

評価部１２０ｂは、テーブル１０ｂを基にして、第１単語候補の各文字に対応するスコアのうち、大きい方のスコアを通る経路を優先して選択することで、各文字のスコアを特定する。図５に示す例では、経路１１ｂが選択され、第１単語候補の各文字のスコアは、スコアテーブル２０ｂに示すものとなる。すなわち、「わ」および「か」に対するスコアがそれぞれ「−１」となる。また、「や」、「ま」に対するスコアがそれぞれ「０」となる。

図６について説明する。評価部１２０ｂは、スコアテーブル２０ａとスコアテーブル２０ｂとをそれぞれ第１単語候補の文字毎に合計することで、第１単語候補のスコアテーブル３０を算出する。

評価部１２０ｂは、スコアテーブル３０を基にして、第１単語候補の相違箇所を選択する。例えば、評価部１２０ｂは、スコアテーブル３０の各スコアのうち、スコアが「０」未満となるスコアを選択し、選択したスコアに対応する文字を、相違箇所として選択する。図６に示す例では、評価部１２０ｂは、第１単語候補「わかやま」のうち「わか」を相違箇所として選択する。選択部１２０ｂは、相違箇所の情報を、強調制御部１３０ｂに出力する。

図１の説明に戻る。応答文生成部１３０ａは、音声認識結果が正しいか否かをユーザに確認するための応答文を生成する処理部である。例えば、応答文生成部１３０ａは、複数種類の文字列のテンプレートを保持しており、音声認識部１１０から得られる単語候補と、テンプレートとを組み合わせることで、応答文を生成する。応答文生成部１３０ａは、生成した応答文の情報を、強調制御部１３０ｂ、テキスト合成部１３０ｃに出力する。

例えば、応答文生成部１３０ａは、複数の単語候補を取得した場合には、信頼度が最大となる単語候補を選択して、応答文を生成する。例えば、信頼度が最大となる単語候補が「わかやま」の場合には、応答文生成部１３０ａは、テンプレート「ですね」と組み合わせて、応答文「わかやまですね」を生成する。

強調制御部１３０ｂは、応答文中の強調箇所を選択し、選択した強調箇所と、該強調箇所を強調するためのパラメータを、テキスト合成部１３０ｃに通知する処理部である。図７は、本実施例１に係る強調制御部の構成を示す図である。図７に示すように、この強調制御部１３０ｂは、モーラ位置照合部１３１および強調パラメータ設定部１３２を有する。

モーラ位置照合部１３１は、評価部１２０ｂから取得した相違箇所の情報を基にして、応答文中の強調箇所を選択する処理部である。図８は、本実施例１に係るモーラ位置照合部の処理を説明するための図である。図８に示すように、モーラ位置照合部１３１は、応答文４０における開始モーラ位置４０ａと、単語候補５０の相違箇所５０ａとを照合することで、応答文４０中の強調箇所を算出する。図８に示す例では、相違箇所５０ａに対応する応答文４０の文字は、１文字目の「わ」と２文字目の「か」となる。このため、強調箇所は、１〜２モーラとなる。

強調パラメータ設定部１３２は、予め設定された増幅量のパラメータを、テキスト合成部１３０ｃに出力する。例えば、強調パラメータ設定部１３２は、「強調箇所を１０ｄＢ増幅する」旨の情報を、テキスト合成部１３０ｃに出力する。

テキスト合成部１３０ｃは、応答文の情報と、強調箇所の情報と、強調するためのパラメータとを基にして、応答文のうち強調箇所を強調した応答音声を生成し、生成した応答音声を出力する処理部である。例えば、テキスト合成部１３０ｃは、応答文を言語解析して、各単語に対応した韻律を特定し、特定した各韻律を組み合わせることで、応答音声を生成する。テキスト合成部１３０ｃは、応答音声のうち、強調箇所の文字に対応する音声の韻律を強調することで、強調箇所を強調した応答音声を生成する。

例えば、強調箇所が「１〜２モーラ」で、パラメータが「強調箇所を１０ｄＢ増幅する」であれば、テキスト合成部１３０ｃは、応答文「わかやまですね」の「わか」の音声のパワーを「１０ｄＢ」増幅することで、応答音声を生成する。テキスト合成部１３０ｃが生成した応答音声は、スピーカなどから出力される。例えば、応答文「わかやまですね」のうち、「わか」の箇所が、他の文言よりも強調されて出力される。

ところで、選択部１２０において、複数の単語候補が抽出されなかった場合には、応答音声生成部１３０は、応答文の情報をそのまま応答音声に変換し、出力する。

次に、本実施例１に係る音声処理装置１００の処理手順について説明する。図９は、本実施例１に係る音声認識装置の処理手順を示すフローチャートである。図９に示す処理は、例えば、音声入力を受け付けたことを契機として実行される。図９に示すように、音声処理装置１００は、音声入力を受け付け（ステップＳ１０１）、音声認識を実行して単語候補を抽出する（ステップＳ１０２）。

音声処理装置１００は、単語候補の信頼度を算出し（ステップＳ１０３）、信頼度が所定値以上の単語候補を選択する（ステップＳ１０４）。音声処理装置１００は、応答文を生成し（ステップＳ１０５）、相違箇所を選択する（ステップＳ１０６）。

音声処理装置１００は、パラメータの設定を行い（ステップＳ１０７）、言語解析を実行する（ステップＳ１０８）。音声処理装置１００は、韻律生成を行い（ステップＳ１０９）、強調箇所の韻律を変更する（ステップＳ１１０）。音声処理装置１００は、波形処理を行い（ステップＳ１１１）、応答音声を出力する（ステップＳ１１２）。

次に、図１に示した選択部１２０の処理手順の一例について説明する。図１０は、本実施例１に係る選択部の処理手順を示すフローチャートである。選択部１２０は、複数の単語候補から、所定値以上の信頼度の単語候補を抽出する（ステップＳ２０１）。

選択部１２０は、単語候補が２つ以上であるか否かを判定する（ステップＳ２０２）。選択部１２０は、単語候補が２つ以上でない場合には（ステップＳ２０２，Ｎｏ）、相違箇所無しと判定する（ステップＳ２０３）。

一方、選択部１２０は、単語候補が２つ以上である場合には（ステップＳ２０２，Ｙｅｓ）、第１単語候補に対する第２単語候補の一致度スコアを算出する（ステップＳ２０４）。選択部１２０は、各単語候補の合計のスコアを算出する（ステップＳ２０５）。選択部１２０は、合計のスコアが低い箇所を相違箇所として選択する（ステップＳ２０６）。

次に、本実施例１に係る音声処理装置１００の効果について説明する。音声処理装置１００は、音声認識部１１０によって認識された複数の単語候補を基にして、各単語候補間で相違する相違箇所を選択する。音声処理装置１００は、単語候補のうち、相違箇所の音の大きさを増加させた応答音声を出力する。このように、本実施例１に係る音声処理装置１００によれば、単語全体ではなく、相違箇所のみを強調して出力するので、音声認識結果の間違いが判りやすくすることができる。また、この技術を音声対話システムに適用することで、誤認識した箇所にユーザが気づいて訂正の発話を行いやすくなり、誤認識時の対話を効率化することもできる。

本実施例２に係る音声処理装置について説明する。図１１は、本実施例２に係る音声認識装置の構成を示す図である。図１１に示すように、この音声処理装置２００は、音声認識部２１０、選択部２２０、応答音声生成部２３０を有する。応答音声生成部２３０は、応答文生成部２３０ａ、強調制御部２３０ｂ、テキスト合成部２３０ｃを有する。

音声認識部２１０は、マイク等から入力される音声を単語に変換する音声認識を行い、音声に対応する複数の単語候補を抽出する処理部である。また、音声認識部２１０は、各単語候補の信頼度をそれぞれ求める。音声認識部２１０は、単語候補と信頼度とを対応付けた情報を、選択部２２０および応答音声生成部２３０に出力する。音声認識部２１０に関する具体的な説明は、実施例１で説明した音声認識部１１０と同様である。

選択部２２０は、複数の単語候補間で相違する箇所を選択する処理部である。図１２は、本実施例２に係る選択部の構成を示す図である。図１２に示すように、選択部２２０は、有力候補抽出部２２０ａと、評価部２２０ｂとを有する。

有力候補抽出部２２０ａは、複数の単語候補の信頼度を基にして、最も高い信頼度との差が所定の閾値以下となる単語候補を抽出する。有力候補抽出部２２０ａは、抽出した単語候補と該単語候補の信頼度との組みを、評価部２２０ｂに出力する。

図１３は、本実施例２に係る有力候補抽出部の処理を説明するための図である。図１３に示す例では、候補と、単語候補と、信頼度と、信頼度の差とを対応付けて示している。信頼度の差は、最も高い信頼度と該当する信頼度との差を示す。所定の閾値を「０．２」とすると、信頼度の差が閾値以下となる単語候補は、候補１〜３となる。このため、有力候補抽出部２２０ａは、候補１〜３の単語候補および信頼度の組みの情報を、評価部２２０ｂに出力する。

評価部２２０ｂは、各単語候補をそれぞれ比較して、単語候補間で相違する箇所を選択する処理部である。実施例１と同様にして、各単語候補のうち、信頼度が最大となるものを、第１単語候補と表記し、その他の単語候補を第２単語候補と表記する。評価部２２０ｂは、実施例１の評価部１２０ｂと同様の処理を実行して、相違箇所を選択し、選択した相違箇所の情報を、強調制御部２３０ｂに出力する。

応答文生成部２３０ａは、音声認識結果が正しいか否かをユーザに確認するための応答文を生成する処理部である。応答文生成部２３０ａが応答文を生成する処理は、実施例１の応答文生成部１３０ａと同様である。応答文生成部２３０ａは、生成した応答文の情報を、強調制御部２３０ｂ、テキスト合成部２３０ｃに出力する。

強調制御部２３０ｂは、応答文中の強調箇所を選択し、選択した強調箇所と、該強調箇所を強調するためのパラメータを、テキスト合成部２３０ｃに通知する処理部である。強調制御部２３０ｂは、実施例１の強調制御部１３０ｂと同様にして、強調箇所を特定する。なお、強調制御部２３０ｂは、パラメータとして「強調箇所の持続長を２倍にする」旨の情報を、テキスト合成部２３０ｃに出力する。

テキスト合成部２３０ｃは、応答文の情報と、強調箇所の情報と、強調するためのパラメータとを基にして、応答文のうち強調箇所を強調した応答音声を生成し、生成した応答音声を出力する処理部である。例えば、テキスト合成部２３０ｃは、応答文を言語解析して、各単語に対応した韻律を特定し、特定した各韻律を組み合わせることで、応答音声を生成する。テキスト合成部２３０ｃは、応答音声のうち、強調箇所の文字に対応する音声の韻律を強調することで、強調箇所を強調した応答音声を生成する。

例えば、強調箇所が「１〜２モーラ」で、パラメータが「強調箇所の持続長を２倍にする」であれば、テキスト合成部２３０ｃは、応答文「わかやまですね」の「わか」の韻律部分の持続長を２倍にすることで、応答音声を生成する。テキスト合成部２３０ｃが生成した応答音声は、スピーカなどから出力される。例えば、応答文「わかやまですね」のうち、「わか」の箇所が、他の文言よりも長めに強調されて出力される。

次に、本実施例２に係る音声処理装置２００の効果について説明する。音声処理装置２００は、音声認識部２１０によって認識された複数の単語候補を基にして、各単語候補間で相違する相違箇所を選択する。音声処理装置２００は、単語候補のうち、相違箇所の持続長を長めにした応答音声を出力する。このように、本実施例２に係る音声処理装置２００によれば、単語全体ではなく、相違箇所のみを長めにして出力するので、音声認識結果の間違いが判りやすくすることができる。また、この技術を音声対話システムに適用することで、誤認識した箇所にユーザが気づいて訂正の発話を行いやすくなり、誤認識時の対話を効率化することもできる。

ところで、本実施例２に示した音声処理装置２００は、パラメータとして「強調箇所のピッチを２倍する」旨の情報を用いて、相違箇所を強調しても良い。ピッチは例えば、基本周期に対応する。例えば、強調箇所が「１〜２モーラ」で、パラメータが「強調箇所のピッチを２倍にする」であれば、テキスト合成部２３０ｃは、応答文「わかやまですね」の「わか」の韻律部分のピッチ２倍にすることで、強調箇所の声を通常時よりも低くした応答音声を生成する。このように、本実施例２に係る音声処理装置２００によれば、相違箇所のみの声の高さを低くして出力するので、音声認識結果の間違いが判りやすくすることができる。なお、音声処理装置２００は、ピッチを１／２にして強調しても良い。

本実施例３に係る音声処理装置について説明する。図１４は、本実施例３に係る音声認識装置の構成を示す図である。図１４に示すように、この音声処理装置３００は、音声認識部３１０、選択部３２０、応答音声生成部３３０を有する。応答音声生成部３３０は、応答文生成部３３０ａ、強調制御部３３０ｂ、テキスト合成部３３０ｃを有する。

音声認識部３１０は、マイク等から入力される音声を単語に変換する音声認識を行い、音声に対応する複数の単語候補を抽出する処理部である。また、音声認識部３１０は、各単語候補の信頼度をそれぞれ求める。音声認識部３１０は、単語候補と信頼度とを対応付けた情報を、選択部３２０および応答文生成部３３０ａに出力する。以下の説明において、マイク等から入力される音声を適宜、入力音声と表記する。

音声認識部３１０の処理の一例について具体的に説明する。音声認識部３１０は、複数の単語と、該単語に対応する音声の標準パターンとを対応付けた標準テーブルを保持する。音声認識部３１０は、入力音声の周波数特性を基にして入力音声の特徴ベクトルを算出し、算出した特徴ベクトルと標準テーブルの各標準パターンとを比較して、特徴ベクトルと各標準パターンとの類似度をそれぞれ算出する。この特徴ベクトルと各標準パターンとの類似度を、上記信頼度とする。

音声認識部３１０は、特徴ベクトルとの信頼度が限りなく０に近い標準パターン以外の標準パターンを、単語候補として抽出する。例えば、音声認識部３１０は、特徴ベクトルとの信頼度が０.１以上となる標準パターンを、単語候補として抽出する。音声認識部３１０は、抽出した単語候補と信頼度とを対応付けた情報を、選択部３２０および応答音声生成部３３０に出力する。

選択部３２０は、複数の単語候補間で相違する箇所を選択する処理部である。図１５は、本実施例３に係る選択部の構成を示す図である。図１５に示すように、選択部３２０は、有力候補抽出部３２０ａと、評価部３２０ｂを有する。

有力候補抽出部３２０ａは、複数の単語候補の信頼度を基にして、信頼度が所定の閾値以上となる単語候補を抽出する。有力候補抽出部３２０ａは、抽出した単語候補と該単語候補の信頼度との組みを、評価部３２０ｂに出力する。各単語候補のうち、信頼度が最大となるものを、第１単語候補と表記し、その他の単語候補を第２単語候補と表記する。

図１６は、本実施例３に係る有力候補抽出部が抽出した単語候補と信頼度との一例を示す図である。なお、図１６に示すように、第１単語候補の「seven」の音節は「sev・en」となる。第２単語候補の「eleven」の音節は「e・lev・en」となる。第２単語候補の「seventeen」の音節は「sev・en・teen」となる。

評価部３２０ｂは、第１単語候補と各第２単語候補との一致スコアをそれぞれ算出し、算出した各一致スコアを合計することで、最終的な第１単語候補の一致スコアを算出する。例えば、評価部３２０ｂは、第１単語候補「seven」と、第２単語候補「eleven」とを比較して、一致スコアを算出する。また、評価部３２０ｂは、第１単語候補「seven」と、第２単語候補「seventeen」とを比較して、一致スコアを算出する。評価部３２０ｂは、各一致スコアを合計することで、第１単語候補の一致スコアを算出する。

評価部３２０ｂは、例えば、ＤＰマッチング法を用いて、一致スコアを算出する。図１７、図１８、図１９は、本実施例３に係る評価部の処理を説明するための図である。図１７について説明する。図１７は、第１単語候補「seven」と、第２単語候補「eleven」とを比較する処理を示す。評価部３２０ｂは、第１単語候補および第２単語候補の文字をそれぞれ比較し、一致していれば、該当文字にスコア「０」を与え、一致しなければ、該当文字にスコア「−１」を与えるテーブル１０ｃを生成する。

評価部３２０ｂは、テーブル１０ｃを基にして、第１単語候補の各文字に対応するスコアのうち、大きい方のスコアを通る経路を優先して選択することで、各文字のスコアを特定する。図１７に示す例では、経路１１ｃが選択され、第１単語候補の各文字のスコアは、スコアテーブル２０ｃに示すものとなる。すなわち、「s」に対するスコアが「−１」となる。「e」、「v」、「e」、「n」に対するスコアがそれぞれ「０」となる。

図１８について説明する。図１８は、第１単語候補「seven」と、第２単語候補「seventeen」とを比較する処理を示す。評価部３２０ｂは、第１単語候補および第２単語候補の文字をそれぞれ比較し、一致していれば、該当文字にスコア「０」を与え、一致しなければ、該当文字にスコア「−１」を与えるテーブル１０ｄを生成する。なお、第１単語候補の文字数が、第２単語候補の文字数未満の場合には、評価部３２０ｂは、第２単語候補のうち第１単語候補の文字数分だけ、比較対象とする。例えば、第１単語候補「seven」と、第２単語候補「seventeen」とを比較する場合には、第２単語候補の「seventeen」のうち、「seven」を比較対象とする。

評価部３２０ｂは、テーブル１０ｄを基にして、第１単語候補の各文字に対応するスコアのうち、大きい方のスコアを通る経路を優先して選択することで、各文字のスコアを特定する。図１８に示す例では、経路１１ｄが選択され、第１単語候補の各文字のスコアは、スコアテーブル２０ｄに示すものとなる。「s」、「e」、「v」、「e」、「n」に対するスコアがそれぞれ「０」となる。

図１９について説明する。評価部３２０ｂは、スコアテーブル２０ｃとスコアテーブル２０ｄとをそれぞれ第１単語候補の文字毎に合計することで、第１単語候補のスコアテーブル３５を算出する。

評価部３２０ｂは、スコアテーブル３５を基にして、第１単語候補の相違箇所を選択する。例えば、評価部３２０ｂは、スコアテーブル３５の各スコアのうち、スコアが「０」未満となるスコアを選択し、選択したスコアに対応する文字を、相違箇所として選択する。図１９に示す例では、評価部３２０ｂは、第１単語候補「seven」のうち「s」を相違箇所として選択する。選択部３２０ｂは、相違箇所の情報を、強調制御部３３０ｂに出力する。

図１４の説明に戻る。応答文生成部３３０ａは、音声認識結果が正しいか否かをユーザに確認するための応答文を生成する処理部である。例えば、応答文生成部３３０ａは、複数種類の文字列のテンプレートを保持しており、音声認識部３１０から得られる単語候補と、テンプレートとを組み合わせることで、応答文を生成する。応答文生成部３３０ａは、生成した応答文の情報を、強調制御部３３０ｂ、テキスト合成部３３０ｃに出力する。

例えば、応答文生成部３３０ａは、複数の単語候補を取得した場合には、信頼度が最大となる単語候補を選択して、応答文を生成する。例えば、信頼度が最大となる単語候補が「seven」の場合には、応答文生成部３３０ａは、テンプレート「o'clock?」と組み合わせて、応答文「Seven o'clock?」を生成する。

強調制御部３３０ｂは、応答文中の強調箇所を選択し、選択した強調箇所と、該強調箇所を強調するためのパラメータを、テキスト合成部３３０ｃに通知する処理部である。図２０は、本実施例３に係る強調制御部の構成を示す図である。図２０に示すように、この強調制御部３３０ｂは、モーラ位置照合部３３１および強調パラメータ設定部３３２を有する。

モーラ位置照合部３３１は、評価部３２０ｂから取得した相違箇所の情報を基にして、応答文中の強調箇所を選択する処理部である。図２１は、本実施例３に係るモーラ位置照合部の処理を説明するための図である。図２１に示すように、モーラ位置照合部３３１は、応答文４５における開始モーラ位置４５ａと、単語候補５５の相違箇所５５ａとを照合することで、応答文４５中の強調箇所を算出する。図２１に示す例では、相違箇所５０ａに対応する応答文４５の文字は、１文字目の「S」となる。このため、強調箇所は、１モーラとなる。なお、モーラ位置照合部３３１は、音節単位で、強調箇所を特定しても良い。例えば、１文字目の「s」は、音節「Sev」に含まれるので、モーラ位置照合部３３１は、「Sev」を強調箇所としても良い。この場合には、強調箇所は１〜３モーラとなる。

強調パラメータ設定部３３２は、予め設定された増幅量のパラメータを、テキスト合成部３３０ｃに出力する。例えば、強調パラメータ設定部３３２は、「強調箇所を１０ｄＢ増幅する」旨の情報を、テキスト合成部３３０ｃに出力する。

テキスト合成部３３０ｃは、応答文の情報と、強調箇所の情報と、強調するためのパラメータとを基にして、応答文のうち強調箇所を強調した応答音声を生成し、生成した応答音声を出力する処理部である。例えば、テキスト合成部３３０ｃは、応答文を言語解析して、各単語に対応した韻律を特定し、特定した各韻律を組み合わせることで、応答音声を生成する。テキスト合成部３３０ｃは、応答音声のうち、強調箇所の文字に対応する音声の韻律を強調することで、強調箇所を強調した応答音声を生成する。

例えば、強調箇所が「１〜３モーラ」で、パラメータが「強調箇所を１０ｄＢ増幅する」であれば、テキスト合成部３３０ｃは、応答文「Seven o'clock?」の「Sev」の音声のパワーを「１０ｄＢ」増幅することで、応答音声を生成する。テキスト合成部３３０ｃが生成した応答音声は、スピーカなどから出力される。例えば、応答文「Seven o'clock?」のうち、「Sev」の箇所が、他の文言よりも強調されて出力される。

強調するパラメータは上記のものに限られない。例えば、パラメータが「強調箇所の持続長を２倍にする」であれば、テキスト合成部３３０は、応答文「Seven o'clock?」の「Sev」の韻律部分の持続長を２倍にすることで、応答音声を生成する。例えば、パラメータが「強調箇所のピッチを２倍にする」であれば、テキスト合成部３３０は、応答文「Seven o'clock?」の「Sev」の韻律部分のピッチ２倍にすることで、強調箇所の声を通常時よりも低くした応答音声を生成する。

次に、本実施例３に係る音声処理装置３００の効果について説明する。音声処理装置３００は、音声認識部３１０によって認識された複数の単語候補を基にして、各単語候補間で相違する相違箇所を選択する。音声処理装置３００は、単語候補のうち、相違箇所の音の大きさを増加させた応答音声を出力する。このように、本実施例３に係る音声処理装置３００によれば、単語全体ではなく、相違箇所のみを強調して出力するので、音声認識結果の間違いが判りやすくすることができる。また、この技術を音声対話システムに適用することで、誤認識した箇所にユーザが気づいて訂正の発話を行いやすくなり、誤認識時の対話を効率化することもできる。

本実施例４に係る音声処理システムについて説明する。図２２は、本実施例４に係る音声処理システムの一例を示す図である。図２２に示すように、この音声処理システムは、端末装置４００とサーバ５００とを有する。端末装置４００およびサーバ５００はネットワーク８０を介して相互に接続される。

端末装置４００は、マイク等を用いてユーザから音声の入力を受け付け、受け付けた音声の情報をサーバ５００に送信する。また、端末装置４００は、サーバ５００から応答音声の情報を受信し、受信した応答音声をスピーカ等から出力する。

サーバ５００は、実施例１〜３に示した音声処理装置と同様の機能を有する。図２３は、本実施例４に係るサーバの構成を示す図である。図２３に示すように、このサーバ５００は、通信制御部５００ａおよび音声処理部５００ｂを有する。音声処理部５００ｂは、音声認識部５１０、選択部５２０、応答音声生成部５３０を有する。応答音声生成部５３０は、応答文生成部５３０ａ、強調制御部５３０ｂ、テキスト合成部５３０ｃを有する。

通信制御部５００ａは、端末装置４００とデータ通信を実行する処理部である。通信制御部５００ａは、端末装置から受信した音声の情報を、音声認識部５１０に出力する。また、通信制御部５００ａは、テキスト合成部５３０ｃから出力される応答音声の情報を、端末装置４００に送信する。

音声認識部５１０は、通信制御部５００ａから音声の情報を取得し、音声を単語に変換する音声認識を行い、音声に対応する複数の単語候補を抽出する処理部である。また、音声認識部５１０は、各単語候補の信頼度をそれぞれ求める。音声認識部５１０は、単語候補と信頼度とを対応付けた情報を、選択部５２０および応答文生成部５３０ａに出力する。

選択部５２０は、複数の単語候補間で相違する箇所を選択する処理部である。選択部５２０に関する具体的な説明は、実施例１〜４に示した選択部１２０，２２０，２３０と同様である。

応答文生成部５３０ａは、音声認識結果が正しいか否かをユーザに確認するための応答文を生成する処理部である。応答文生成部５３０ａが応答文を生成する処理は、実施例１の応答文生成部１３０ａと同様である。応答文生成部５３０ａは、生成した応答文の情報を、強調制御部５３０ｂ、テキスト合成部５３０ｃに出力する。

強調制御部５３０ｂは、応答文中の強調箇所を選択し、選択した強調箇所と、該強調箇所を強調するためのパラメータを、テキスト合成部５３０ｃに通知する処理部である。強調制御部５３０ｂは、実施例１の強調制御部１３０ｂと同様にして、強調箇所を特定する。なお、強調制御部５３０ｂは、パラメータとして「強調箇所の持続長を２倍にする」旨の情報を、テキスト合成部５３０ｃに出力する。なお、強調制御部５３０ｂは、パラメータとして「強調箇所を１０ｄＢ増幅する」旨の情報を、テキスト合成部５３０ｃに出力する。なお、パラメータは、実施例２と同様に、「強調箇所の持続長を２倍にする」または「強調箇所のピッチを２倍にする」旨の情報であってもよい。

テキスト合成部５３０ｃは、応答文の情報と、強調箇所の情報と、強調するためのパラメータとを基にして、応答文のうち強調箇所を強調した応答音声を生成し、生成した応答音声を出力する処理部である。例えば、テキスト合成部５３０ｃは、応答文を言語解析して、各単語に対応した韻律を特定し、特定した各韻律を組み合わせることで、応答音声を生成する。テキスト合成部５３０ｃは、応答音声のうち、強調箇所の文字に対応する音声の韻律を強調することで、強調箇所を強調した応答音声を生成する。テキスト合成部５３０ｃは、生成した応答音声の情報を、通信制御部５００ａに出力する。

次に、本実施例４に係るサーバ５００の効果について説明する。サーバ５００は、音声認識部５１０によって認識された複数の単語候補を基にして、各単語候補間で相違する相違箇所を選択する。サーバ５００は、単語候補のうち、相違箇所の音の大きさを増加させた応答音声を出力する。このように、本実施例４に係るサーバ５００によれば、単語全体ではなく、相違箇所のみを強調して出力するので、音声認識結果の間違いが判りやすくすることができる。また、この技術を音声対話システムに適用することで、誤認識した箇所にユーザが気づいて訂正の発話を行いやすくなり、誤認識時の対話を効率化することもできる。

次に、上記の実施例に示した音声処理装置と同様の機能を実現する音声処理プログラムを実行するコンピュータの一例を説明する。図２４は、音声処理プログラムを実行するコンピュータの一例を示す図である。

図２４に示すように、コンピュータ６００は、各種演算処理を実行するＣＰＵ６０１と、ユーザからのデータの入力を受け付ける入力装置６０２と、ディスプレイ６０３を有する。また、コンピュータ６００は、記憶媒体からプログラム等を読取る読み取り装置６０４と、ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置６０５とを有する。また、コンピュータ６００は、各種情報を一時記憶するＲＡＭ６０６と、ハードディスク装置６０７を有する。そして、各装置６０１〜６０７は、バス６０８に接続される。

ハードディスク装置６０７は、例えば、音声認識プログラム６０７ａ、選択プログラム６０７ｂ、出力プログラム６０７ｃを有する。ＣＰＵ６０１は、各プログラム６０７ａ〜６０７ｃを読み出してＲＡＭ６０６に展開する。

音声認識プログラム６０７ａは、音声認識プロセス６０６ａとして機能する。選択プログラム６０７ｂは、選択プロセス６０６ｂとして機能する。出力プログラム６０７ｃは、出力プロセス６０６ｃとして機能する。

例えば、音声認識プロセス６０６ａは、音声認識部１１０，２１０，３１０，５１０に対応する。選択プロセス６０６ｂは、選択部１２０，２２０，３２０，５２０に対応する。出力プロセス６０６ｃは、応答音声生成部１３０，２３０，３３０，５３０に対応する。

なお、各プログラム６０７ａ〜６０７ｃについては、必ずしも最初からハードディスク装置６０７に記憶させておかなくてもよい。例えば、コンピュータ６００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ６００がこれらから各プログラム６０７ａ〜６０７ｃを読み出して実行するようにしてもよい。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）入力された音声を単語に変換する音声認識を行い、前記音声に対応する複数の単語候補を抽出する音声認識部と、
前記音声認識部によって抽出された複数の単語候補を基にして、各単語候補間で相違する箇所を選択する選択部と、
前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所を強調して、前記単語候補の応答音声を出力する出力部と
を有することを特徴とする音声処理装置。

（付記２）前記音声認識部は、前記音声に対応する複数の単語候補毎に信頼度を算出し、前記選択部は、信頼度が閾値以上となる複数の単語候補を基にして、各単語候補のうち相違する箇所を選択することを特徴とする付記１に記載の音声処理装置。

（付記３）前記音声認識部は、前記音声に対する複数の単語候補毎に信頼度を算出し、前記選択部は、最大の信頼度となる単語候補と、最大の信頼度との差が閾値未満となる単語候補とを基にして、各単語候補間で相違する箇所を選択することを特徴とする付記１に記載の音声処理装置。

（付記４）前記出力部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所の強度を、選択されていない箇所の強度よりも大きくして、前記単語候補の応答音声を出力することを特徴とする付記１、２または３に記載の音声処理装置。

（付記５）前記出力部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所の発話速度を、選択されていない箇所の発話速度よりも遅くして、前記単語候補の応答音声を出力することを特徴とする付記１、２または３に記載の音声処理装置。

（付記６）前記出力部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所の音声の基本周期を長く、または短くして前記単語候補の応答音声を出力することを特徴とする付記１、２または３に記載の音声処理装置。

（付記７）端末装置とサーバとを備えた音声処理システムであって、
前記端末装置は、入力された音声の情報を前記サーバに送信し、
前記サーバは、
前記端末装置から音声の情報を受信し、該音声を単語に変換する音声認識を行い、前記音声に対応する複数の単語候補を抽出する音声認識部と、
前記音声認識部によって抽出された複数の単語候補を基にして、各単語候補間で相違する箇所を選択する選択部と、
前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所を強調する前記単語候補の応答音声の情報を前記端末装置に送信する送信部と
を有することを特徴とする音声処理システム。

（付記８）前記音声認識部は、前記音声に対応する複数の単語候補毎に信頼度を算出し、前記選択部は、信頼度が閾値以上となる複数の単語候補を基にして、各単語候補のうち相違する箇所を選択することを特徴とする付記７に記載の音声処理システム。

（付記９）前記音声認識部は、前記音声に対する複数の単語候補毎に信頼度を算出し、前記選択部は、最大の信頼度となる単語候補と、最大の信頼度との差が閾値未満となる単語候補とを基にして、各単語候補間で相違する箇所を選択することを特徴とする付記７に記載の音声処理システム。

（付記１０）前記送信部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所の強度を、選択されていない箇所の強度よりも大きくした前記単語候補の応答音声の情報を前記端末装置に送信することを特徴とする付記７、８または９に記載の音声処理システム。

（付記１１）前記送信部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所の発話速度を、選択されていない箇所の発話速度よりも遅くした前記単語候補の応答音声の情報を前記端末装置に送信することを特徴とする付記７、８または９に記載の音声処理システム。

（付記１２）前記送信部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所の音声の基本周期を長く、または短くした前記単語候補の応答音声の情報を前記端末装置に送信することを特徴とする付記１、２または３に記載の音声処理装置。

（付記１３）コンピュータが実行する音声処理方法であって、
入力された音声を単語に変換する音声認識を行い、前記音声に対応する複数の単語候補を抽出し、
抽出した複数の単語候補を基にして、各単語候補間で相違する箇所を選択し、
複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、相違する箇所を強調して、前記単語候補の応答音声を出力する
各処理を実行することを特徴とする音声処理方法。

（付記１４）前記複数の単語候補を抽出する処理は、前記音声に対応する複数の単語候補毎に信頼度を算出し、前記相違する箇所を選択する処理は、信頼度が閾値以上となる複数の単語候補を基にして、各単語候補のうち相違する箇所を選択することを特徴とする付記１３に記載の音声処理方法。

（付記１５）前記複数の単語候補を抽出する処理は、前記音声に対する複数の単語候補毎に信頼度を算出し、前記相違する箇所を選択する処理は、最大の信頼度となる単語候補と、最大の信頼度との差が閾値未満となる単語候補とを基にして、各単語候補間で相違する箇所を選択することを特徴とする付記１３に記載の音声処理方法。

（付記１６）前記応答音声を出力する処理は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、相違する箇所の強度を、選択されていない箇所の強度よりも大きくして、前記単語候補の応答音声を出力することを特徴とする付記１３、１４または１５に記載の音声処理方法。

（付記１７）前記応答音声を出力する処理は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、相違する箇所の発話速度を、選択されていない箇所の発話速度よりも遅くして、前記単語候補の応答音声を出力することを特徴とする付記１３、１４または１５に記載の音声処理方法。

（付記１８）前記応答音声を出力する処理は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、相違する箇所の音声の基本周期を長く、または短くして、前記単語候補の応答音声を出力することを特徴とする付記１３、１４または１５に記載の音声処理方法。

１００，２００，３００音声処理装置
１１０，２１０，３１０音声認識部
１２０，２２０，３２０選択部
１３０，２３０，３３０応答音声生成部

Claims

入力された音声を単語に変換する音声認識を行い、前記音声に対応する複数の単語候補を抽出する音声認識部と、
前記音声認識部によって抽出された複数の単語候補を基にして、前記複数の単語候補から前記音声に対応する複数の単語候補を選択し、選択した複数の単語候補に含まれる第１単語候補と第２単語候補との比較により前記第１単語候補と前記第２単語候補との相違する第１相違箇所、および、前記第１単語候補と第３単語候補との比較により前記第１単語候補と前記第３単語候補との相違する第２相違箇所とを選択する選択部と、
前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された前記第１相違箇所および前記第２相違箇所を強調して、前記単語候補の応答音声を出力する出力部と
を有することを特徴とする音声処理装置。
前記音声認識部は、前記音声に対応する複数の単語候補毎に信頼度を算出し、前記選択部は、信頼度が閾値以上となる複数の単語候補を基にして、各単語候補のうち前記第１相違箇所および前記第２相違箇所を選択することを特徴とする請求項１に記載の音声処理装置。
前記音声認識部は、前記音声に対する複数の単語候補毎に信頼度を算出し、前記選択部は、最大の信頼度となる単語候補を前記第１単語候補として利用し、最大の信頼度との差が閾値未満となる複数の単語候補をそれぞれ前記第２単語候補および前記第３単語候補として利用することを特徴とする請求項１に記載の音声処理装置。
前記出力部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された前記第１相違箇所および前記第２相違箇所の強度を、選択されていない箇所の強度よりも大きくして、前記単語候補の応答音声を出力することを特徴とする請求項１、２または３に記載の音声処理装置。
前記出力部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された前記第１相違箇所および前記第２相違箇所の発話速度を、選択されていない箇所の発話速度よりも遅くして、前記単語候補の応答音声を出力することを特徴とする請求項１、２または３に記載の音声処理装置。
前記出力部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された前記第１相違箇所および前記第２相違箇所の音声の基本周期を長く、または短くして、前記単語候補の応答音声を出力することを特徴とする請求項１、２または３に記載の音声処理装置。
端末装置とサーバとを備えた音声処理システムであって、
前記端末装置は、入力された音声の情報を前記サーバに送信し、
前記サーバは、
前記端末装置から音声の情報を受信し、該音声を単語に変換する音声認識を行い、前記音声に対応する複数の単語候補を抽出する音声認識部と、
前記音声認識部によって抽出された複数の単語候補を基にして、前記複数の単語候補から前記音声に対応する複数の単語候補を選択し、選択した複数の単語候補に含まれる第１単語候補と第２単語候補との比較により前記第１単語候補と前記第２単語候補との相違する第１相違箇所、および、前記第１単語候補と第３単語候補との比較により前記第１単語候補と前記第３単語候補との相違する第２相違箇所とを選択する選択部と、
前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された前記第１相違箇所および前記第２相違箇所を強調する前記単語候補の応答音声の情報を前記端末装置に送信する送信部と
を有することを特徴とする音声処理システム。
コンピュータが実行する音声処理方法であって、
入力された音声を単語に変換する音声認識を行い、前記音声に対応する複数の単語候補を抽出し、
抽出した複数の単語候補を基にして、前記複数の単語候補から前記音声に対応する複数の単語候補を選択し、
選択した複数の単語候補に含まれる第１単語候補と第２単語候補との比較により前記第１単語候補と前記第２単語候補との相違する第１相違箇所、および、前記第１単語候補と第３単語候補との比較により前記第１単語候補と前記第３単語候補との相違する第２相違箇所とを選択し、
複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記第１相違箇所および前記第２相違箇所を強調して、前記単語候補の応答音声を出力する
各処理を実行することを特徴とする音声処理方法。