JP2013140226A

JP2013140226A - 音声認識装置、音声認識方法及び音声認識プログラム

Info

Publication number: JP2013140226A
Application number: JP2011290023A
Authority: JP
Inventors: Nobuyuki Washio; 信之鷲尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-12-28
Filing date: 2011-12-28
Publication date: 2013-07-18
Anticipated expiration: 2031-12-28
Also published as: US20130173267A1; US9031841B2; JP5810912B2

Abstract

【課題】相手の発話に対する返事の検出精度を向上させること。
【解決手段】音声認識装置１０は、第１の話者の音声から第１の話者の発話区間を検出するとともに、第２の話者の音声から第２の話者の発話区間を検出する。音声認識装置１０は、第１の話者の発話区間における特徴量を算出する。音声認識装置１０は、第１の話者の発話区間における特徴量を用いて単語検出を実行する。音声認識装置１０は、検出した単語が返事である場合に、一の話者の発話区間を基準に定まる相対時間と、他の話者の発話に返事が出現する出現確率との関係を示す返事確率モデルを記憶する返事確率記憶部に記憶された返事確率モデルが示す確率のうち第２の話者の発話区間と当該返事との相対位置に対応する出現確率を参照して、返事の単語スコアまたは返事の検出閾値を調整する。音声認識装置１０は、調整された返事の単語スコアまたは返事の検出閾値を用いて、単語の再検出を実行する。
【選択図】図１

Description

本発明は、音声認識装置、音声認識方法及び音声認識プログラムに関する。

音声認識技術の一態様として、入力音声から辞書に登録された単語を検出するワードスポッティングが知られている。かかるワードスポッティングは、検索に用いられる単語を辞書に登録しておくことによって入力音声から当該単語が発声された箇所だけを抽出できるので、音声による情報検索にも利用できる。ところが、同一の単語を発声する音声であっても、発話や話者が変われば音声の波形は異なるので、テキストを対象として文字列を検索する場合とは違い、誤認識が生じる場合もある。

上記のワードスポッティングの他に、対話音声を対象とした音声認識技術も提案されている。一例としては、対話における話し言葉のように正確な特徴量を捉えがたい音声をより精度よく認識するために、発話区間の長さや発話区間の先頭または末尾からの時刻別に音響モデルおよび言語モデルを学習する音声認識方法が挙げられる。他の一例としては、データマイニングの精度を向上させるために、二者が会話する音声データを複数の対話状態に分割する対話状態分割装置が挙げられる。これを説明すると、対話状態分割装置は、対話音声データから各々の話者の発話区間を検出し、両者の発話区間の時間比を少なくとも２個の閾値と比較する。その上で、対話状態分割装置は、閾値比較によって一方の話者が用件を述べている状態や他方の話者が回答している状態などの状態別に対話を分割し、各状態について分析を行う。

国際公開第２００８／０６９３０８号特開２０１０−２６６５２２号公報

しかしながら、上記の従来技術では、以下に説明するように、相手の発話に対する返事を精度よく検出できないという問題がある。

すなわち、相手の発話に対する返事は、「はい」や「いいえ」などのように発生時間長が短く、返事以外の発話よりも入力となる情報量が少ない。このため、上記の音声認識方法や対話状態分割装置を用いたとしても、返事の検出精度にはおのずから限界がある。また、返事が検出されやすくなるように、入力音声から算出されるスコアと比較する検出閾値を下げることも考えられるが、その場合にはノイズや他の単語まで返事と認識してしまう結果、返事の検出精度が低下するという弊害が生じる。

さらに、上記の従来技術では、返事と同音の単語が返事とは異なる意味で使用された場合でも、当該単語を返事として検出してしまうおそれもある。すなわち、同じ「はい」という発声でも、相手の発話に対する返事として使用される場合と、「はい、そろそろですね」のように相手の発話内容とは関係なく、相手への注意喚起に使用される場合とがあるが、前者の返事を正確に検出することができない。

例えば、上記の音声認識方法は、話者が一人であることを前提とするものであり、音声認識の対象とする音声が対話音声であることは想定されておらず、前者および後者の判別を行うことはできない。また、上記の対話状態分割装置は、発話区間長から対話の状態を推定するものであるが、発話に含まれる単語が返事として使用されているか否かと発話区間長とは無関係であり、相手の発話に対する返事だけを検出することはできない。

開示の技術は、上記に鑑みてなされたものであって、相手の発話に対する返事の検出精度を向上させることができる音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。

本願の開示する音声認識装置は、一の話者の発話区間を基準に定まる相対時間と、前記話者とは異なる他の話者の発話に返事が出現する出現確率との関係を示す返事確率モデルを記憶する返事確率記憶部を有する。さらに、音声認識装置は、第１の話者の音声から当該第１の話者の発話区間を検出する第１の発話区間検出部を有する。さらに、音声認識装置は、前記第１の話者とは異なる第２の話者の音声から当該第２の話者の発話区間を検出する第２の発話区間検出部を有する。さらに、音声認識装置は、前記第１の発話区間検出部によって検出された第１の話者の発話区間における特徴量を算出する特徴量算出部を有する。さらに、音声認識装置は、前記特徴量算出部によって算出された第１の話者の発話区間における特徴量を用いて単語検出を実行する第１の検出部を有する。さらに、音声認識装置は、前記第１の検出部によって検出された単語が返事である場合に、前記返事確率記憶部に記憶された返事確率モデルが示す確率のうち前記第２の発話区間検出部によって検出された第２の話者の発話区間と当該返事との相対位置に対応する出現確率を参照して、当該返事の単語スコアまたは当該返事の検出閾値を調整する調整部を有する。さらに、音声認識装置は、前記調整部によって調整された返事の単語スコアまたは返事の検出閾値を用いて、前記第１の検出部によって検出された単語の再検出を実行する第２の検出部を有する。

本願の開示する音声認識装置の一つの態様によれば、対話音声に含まれる返事の検出精度を向上させることができるという効果を奏する。

図１は、実施例１に係る音声認識装置の機能的構成を示すブロック図である。図２は、発話区間の検出方法を説明するための図である。図３は、返事確率モデルの一例を示す図である。図４は、話者Ｂの発話と話者Ａの返事との相対位置の一例を示す図である。図５は、話者Ｂの発話と話者Ａの返事との相対位置の一例を示す図である。図６は、実施例１に係る発話区間検出処理の手順を示すフローチャートである。図７は、実施例１に係る音声認識処理の手順を示すフローチャートである。図８は、実施例１の効果を説明するための図である。図９は、実施例１の効果を説明するための図である。図１０は、実施例２に係るモデル生成装置の機能的構成を示すブロック図である。図１１は、ラベリング結果Ａ及びラベリング結果Ｂの一例を示す図である。図１２は、話者Ａの発話区間の相対位置を算出する方法の一例を示す図である。図１３は、集計結果の一例を示す図である。図１４は、実施例２に係るモデル生成処理の手順を示すフローチャートである。図１５は、実施例３に係る音声認識プログラムを実行するコンピュータの一例について説明するための図である。

以下に、本願の開示する音声認識装置、音声認識方法及び音声認識プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

［音声認識装置］
図１は、実施例１に係る音声認識装置の機能的構成を示すブロック図である。図１に示す音声認識装置１０は、話者Ａおよび話者Ｂが対話する音声のうち話者Ａが発話する音声から話者Ｂの発話に対する話者Ａの返事を検出するものである。なお、以下では、話者Ｂに対する話者Ａの返事を単に「返事」と記載する場合がある。

図１に示すように、音声認識装置１０は、音声入力部１１と、第１の発話区間検出部１２ａと、第２の発話区間検出部１２ｂと、特徴量算出部１３と、音響モデル記憶部１４と、単語辞書記憶部１５と、返事確率記憶部１６とを有する。さらに、音声認識装置１０は、第１の検出部１７と、調整部１８と、第２の検出部１９とを有する。なお、音声認識装置１０は、図１に示した機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入力デバイスや通信インタフェースなどの機能を有することとしてもよい。

音声入力部１１は、第１の発話区間検出部１２ａ及び第２の発話区間検出部１２ｂに音声データを入力する処理部である。一態様としては、音声入力部１１は、話者Ａおよび話者Ｂの音声データを所定のシフト幅、例えば２４ｍｓｅｃずつシフトさせつつ、音声データを所定の分割幅、例えば３２ｍｓｅｃずつ分割することによって音声データをフレーム化する。その上で、音声入力部１１は、話者Ａの音声フレームを第１の発話区間検出部１２ａへ入力するとともに、話者Ｂの音声フレームを第２の発話区間検出部１２ｂへ入力する。

ここで、上記の音声データには、任意の入手経路から取得されたものを使用することができる。例えば、音声認識装置１０が携帯電話機やＰＨＳ（Personal Handyphone System）などの通信装置に実装される場合には、一例として、次のような入手経路から話者Ａ及び話者Ｂの音声データを取得することができる。すなわち、音声入力部１１は、通信装置のマイクから採取された音声データを話者Ａの音声データとして用い、当該通信装置の受話音声を話者Ｂの音声データとして用いることができる。この場合には、話者Ｂの発話に対する話者Ａの返事を検出することによって、例えば話者Ｂが話者Ａに振り込め詐欺を行っているおそれがあるか否かを判別できる。

また、音声認識装置１０がパーソナルコンピュータなどの情報処理装置に実装される場合には、一例として、次のような入手経路から話者Ａ及び話者Ｂの音声データを取得することができる。すなわち、音声入力部１１は、情報処理装置が内蔵するマイクまたは情報処理装置に接続されたマイクから採取される音声データを話者Ａの音声データとして用いることができる。さらに、音声入力部１１は、情報処理装置にインストールされたＯＳ（Operating System）やアプリケーションによってガイド音声として出力される音声データを話者Ｂの音声データとして用いることができる。この場合には、話者Ｂの発話に対する話者Ａの返事を検出することによって、例えばシステムまたはアプリがガイダンスする処理に対応するコマンドの実行可否を検知することができる。

この他、上記の音声データは、予め録音した音声データをハードディスク、メモリカードやＵＳＢ（Universal Serial Bus）メモリなどの外部記憶装置等から読み出して取得したものであってもよいし、ネットワークを介して取得したものであってもよい。

第１の発話区間検出部１２ａは、音声入力部１１によって入力される話者Ａの音声フレームから話者Ａが発話している区間、いわゆる発話区間を検出する処理部である。一態様としては、第１の発話区間検出部１２ａは、各音声フレームにおける入力パワーＰを用いて、背景雑音パワーＰｎを遂次推定しながら、背景雑音パワーＰｎ及び所定の閾値αの加算値よりも大きい入力パワー区間を発話区間として検出する。

これを説明すると、第１の発話区間検出部１２ａは、音声入力部１１から入力された音声フレームが最初のフレームである場合には、入力パワーＰの値を背景雑音パワーＰｎに設定する初期化を実行する。また、第１の発話区間検出部１２ａは、音声入力部１１から入力された音声フレームが最初のフレームでない場合には、発話区間の開始を検出済みであるか否かを判定する。このとき、第１の発話区間検出部１２ａは、発話区間の開始を未検出である場合には、当該音声フレームの入力パワーＰが背景雑音パワーＰｎに閾値αを加えた加算値を超えたか否か、すなわちＰ＞Ｐｎ＋αであるか否かをさらに判定する。

ここで、音声フレームの入力パワーＰが背景雑音パワーＰｎ及び閾値αの加算値を超えた場合には、話者Ａが発話していると推定できる。よって、第１の発話区間検出部１２ａは、当該加算値を超えた時間を発話区間の開始位置として図示しない内部メモリに格納する。一方、第１の発話区間検出部１２ａは、音声フレームの入力パワーＰが背景雑音パワーＰｎ及び閾値αの加算値未満である場合には、図示しない内部メモリに記憶された背景雑音パワーＰｎを入力パワーＰに更新する。このように、話者Ａが発話していないと推定できる場合には、背景雑音パワーＰｎを更新することによって雑音の変化に追従させる。

また、第１の発話区間検出部１２ａは、発話区間の開始を検出済みである場合には、音声フレームの入力パワーＰが背景雑音パワーＰｎ及び閾値αの加算値よりも小さくなったか否か、すなわちＰ＜Ｐｎ＋αであるか否かを判定する。

このとき、音声フレームの入力パワーＰが背景雑音パワーＰｎ及び閾値αの加算値よりも小さくなった場合には、話者Ａの発話が終了したと推定できる。よって、第１の発話区間検出部１２ａは、当該加算値を下回った時間を発話区間の終了位置とし、内部メモリに記憶された開始位置から終了位置までの区間を話者Ａの発話区間として出力する。その後、第１の発話区間検出部１２ａは、図示しない内部メモリに記憶された背景雑音パワーＰｎを入力パワーＰに更新する。

一方、音声フレームの入力パワーＰが背景雑音パワーＰｎ及び閾値αの加算値以上である場合には、話者Ａの発話が継続していると推定できる。この場合には、第１の発話区間検出部１２ａは、発話区間の終了位置の確定を保留する。

図２は、発話区間の検出方法を説明するための図である。図２に示すグラフの横軸は、時間を指し、また、縦軸は音声のパワーを指す。また、図２の例では、符号Ｐが入力パワーを指し、符号Ｐｎが背景雑音パワーを指す。図２の例では、時間ｔ１になるまで入力パワーＰが背景雑音パワーＰｎ＋閾値αを超えないので、入力パワーＰを背景雑音パワーＰｎとする更新が繰り返される。そして、時間ｔ１に至った時点で入力パワーＰが背景雑音パワーＰｎ＋閾値αを超える。このため、第１の発話区間検出部１２ａによって時間ｔ１が発話区間の開始位置として内部メモリに格納される。その後、時間ｔ２になるまで入力パワーＰが背景雑音パワーＰｎ＋閾値α以上であるので、発話区間の終了位置の確定が保留される。そして、時間ｔ２に至った時点で入力パワーＰが背景雑音パワーＰｎ＋閾値αを下回る。このため、時間ｔ２が発話区間の終了位置として確定され、時間ｔ１から時間ｔ２までの区間が発話区間として後述の特徴量算出部１３へ出力される。

なお、上記の発話区間の検出手法は、あくまで一例であり、例えば、特開平７−９２９８９や国際公開第２００９／０７８０９３号に記載の技術のように、発生区間検出精度を向上するように改良した手法を利用することとしてもかまわない。

第２の発話区間検出部１２ｂは、音声入力部１１によって入力される話者Ｂの音声フレームから話者Ｂの発話区間を検出する処理部である。かかる第２の発話区間検出部１２ｂは、上述した第１の発話区間検出部１２ａと同様の処理を行った上で話者Ｂの発話区間を後述の調整部１８へ出力する。

特徴量算出部１３は、第１の発話区間検出部１２ａによって検出された話者Ａの音声データにおける特徴量を算出する処理部である。一態様としては、特徴量算出部１３は、話者Ａの音声データを音響分析することによって音声フレームごとのＭＦＣＣ、ＬＰＣケプストラム、パワー及びこれらの動的特徴量であるΔやΔΔ値を組み合わせたベクトルを特徴量として算出する。なお、上記のＭＦＣＣは「Mel Frequency Cepstrum Coefficient」の略称であり、また、上記のＬＰＣは「Linear Predictive Coding」の略称である。

音響モデル記憶部１４は、音響モデルを記憶する記憶部である。かかる音響モデルの一態様としては、音素に当該音素の特徴量が対応付けられたデータを採用できる。ここでは、音素単位で特徴量を記憶する場合を例示したが、音素を組み合わせた単語ごとに当該単語の特徴量を対応付けて記憶することもできる。なお、音響モデル記憶部１４は、特徴量算出部１３によって算出された話者Ａの発話区間における特徴量と照合するために、後述の第１の検出部１７によって参照される。

単語辞書記憶部１５は、単語辞書を記憶する記憶部である。かかる単語辞書の一態様としては、単語ごとに当該単語が「返事」であるか否かを示す返事フラグが対応付けられたデータを採用できる。なお、単語辞書記憶部１５は、話者Ａの発話区間における特徴量と音響モデルとの照合結果として得られた音素の組合せに対応する単語を検索するために、後述の第１の検出部１７によって算出される。

返事確率記憶部１６は、返事確率モデルを記憶する記憶部である。かかる返事確率モデルの一態様としては、話者ｂの発話区間を基準に定まる相対時間と、話者ａの発話に返事が出現する出現確率との関係を示す確率モデルが挙げられる。一例として、返事確率記憶部１６は、第２の検出部１９によって単語検出に用いられる検出閾値を調整するために、後述の調整部１８によって参照される。なお、上記の確率モデルは、多数のサンプルから算出される統計データであり、話者ａ及び話者ｂは必ずしも話者Ａ及び話者Ｂと同一人物である必要はない。

図３は、返事確率モデルの一例を示す図である。図３に示すグラフの縦軸は、返事「はい」の出現確率を指し、また、横軸は、話者ｂの発話区間の終了位置を原点とする相対時間（msec）を指す。図３の例では、相対時間が所定の単位、例えば５０ｍｓｅｃで分割された区間ごとに出現確率が格納されている場合を示す。図３に示す返事確率モデルは、話者ｂが発話を終える１００ｍｓｅｃ前の時点から５０ｍｓｅｃ前の時点までの期間が話者ａの発話に返事が出現する確率が２０％と最も高いことを表す。かかる期間をピークにして、話者ｂが発話を終える１００ｍｓｅｃ前の時点よりも遡る場合の方が、話者ｂが発話を終える５０ｍｓｅｃ前の時点から進む場合よりも話者ａの返事の出現確率が急激に低下することがわかる。

かかる話者ａの返事の出現確率は、相対時間の各区間Ｔに対応する実際の音声データが返事「はい」を発話しているか否かを集計した上で、その集計結果を下記の式（１）に代入することによって算出できる。なお、下記の式（１）における「Ｐ（Ｔ）」は、相対時間の区間Ｔにおける返事「はい」の出現確率を指す。また、「Ｙ（Ｔ）」は、相対時間の区間Ｔで返事「はい」と発話していたサンプル数を指す。また、「Ｎ（Ｔ）」は、相対時間の区間Ｔで返事「はい」と発話していなかったサンプル数を指す。

Ｐ（Ｔ）＝Ｙ（Ｔ）／（Ｙ（Ｔ）＋Ｎ（Ｔ））×１００［％］・・・（１）

第１の検出部１７は、話者Ａの発話区間における特徴量を用いて単語検出を行う処理部である。一態様としては、第１の検出部１７は、特徴量算出部１３によって算出された話者Ａの発話区間の特徴量と、音響モデル記憶部１４に記憶された音響モデルとを照合する。そして、第１の検出部１７は、単語辞書記憶部１５に記憶された単語辞書から、照合結果として得られた音素の組合せに対応する単語を検索する。その上で、第１の検出部１７は、単語辞書から検索した単語のスコアを算出した上でそのスコアが検出閾値以上であるか否かを判定する。このとき、第１の検出部１７は、単語辞書内に返事として登録されている単語のスコアについては、返事以外の一般単語のスコアとの比較に用いる一般単語用の検出閾値ＴＨ０よりも低い返事用の検出閾値ＴＨ１を用いて、単語の検出を実行する。そして、第１の検出部１７は、単語のスコアが検出閾値ＴＨ０または検出閾値ＴＨ１以上である場合に、当該単語が検出された検出区間及びそのスコアを検出結果として後述の第２の検出部１９へ出力する。このとき、第１の検出部１７は、返事である単語を検出した場合には、当該返事が検出された検出区間を後述の調整部１８にも出力する。

このように、一般単語用の検出閾値ＴＨ０よりも返事用の検出閾値ＴＨ１を低くすることによって話者Ａの音声データに含まれる発話のうち返事である可能性を残す単語を漏らさず検出できる。かかる第１の検出部１７による検出結果には、後述の第２の検出部１９によって再検出が実行されるので、誤検出の単語、例えば雑音や返事とは異なる意味で使用された同音の単語などが含まれていてもかまわない。

ここで、上記の単語のスコアは、例えば、０〜１００の範囲で算出され、１００に近いほど特徴量と音響モデルがよくマッチングしていることを示すものとする。例えば、「はい」の場合、音素「h」、音素「a」及び音素「i」の音響モデルと話者Ａの発話区間における特徴量との照合が行われ、マッチングの度合いが高い、すなわち音響モデルと入力特徴量が近い場合、スコアが１００に近づくように算出される。この場合、検出閾値以上であるスコアの単語しか検出されないので、検出閾値が１００に近づくほど単語が検出されにくくなる。逆に、検出閾値を低くするほど単語が検出され易くなる。

なお、単語のスコアとして、確率モデルである音響モデルの出力確率、例えば尤度や対数尤度をベースにしたり、テンプレートである音響モデルとの距離を用いたりする構成も可能である。ただし、距離の場合には、ゼロに近いほど特徴量と音響モデルがよくマッチングしていることを示し、値が大きくなるほど違いが大きいことを示すので、上記の例とは、閾値の大小関係と検出し易さの関係が逆転する。

調整部１８は、後述の第２の検出部１９によって用いられる再検出閾値ＴＨｗを調整する処理部である。一態様としては、調整部１８は、第１の検出部１７によって返事である単語が検出された場合に、当該返事の検出区間の開始位置よりも前に存在する話者Ｂの発話区間であって返事の検出区間に最も近い話者Ｂの発話区間を特定する。そして、調整部１８は、先に特定した話者Ｂの発話区間の終了位置を原点とした場合の話者Ａの返事の相対位置を算出する。その上で、調整部１８は、返事確率記憶部１６に記憶された返事確率モデル内の出現確率のうち話者Ａの返事の相対位置に該当する相対時間の区間に対応付けられた出現確率の平均値を話者Ａの返事の出現確率として算出する。その後、調整部１８は、話者Ａの返事の出現確率に応じて後述第２の検出部１９によって用いられる再検出閾値ＴＨｗを調整する。

図４及び図５は、話者Ｂの発話と話者Ａの返事との相対位置の一例を示す図である。図４の例では、話者Ａの返事「はい」の区間は、先行する話者Ｂの発話区間の終了位置から１１０ｍｓｅｃ後に始まって２１０ｍｓｅｃ後に終了する。このため、調整部１８は、１１０ｍｓｅｃ〜２１０ｍｓｅｃまでの区間を話者Ａの返事の相対位置として算出する。また、図５の例では、話者Ｂの発話区間の終了位置と、話者Ａの返事「はい」の区間とが重複する。この場合には、話者Ａの返事「はい」の相対位置は、話者Ｂの発話区間の終了位置から７０ｍｓｅｃ遡った時点に始まって話者Ｂの発話区間の終了位置から３０ｍｓｅｃ経過した時点に終了する。よって、調整部１８は、−７０ｍｓｅｃ〜３０ｍｓｅｃまでの区間を話者Ａの返事の相対位置として算出する。

図４に示すように、話者Ａの返事の相対位置が１１０ｍｓｅｃ〜２１０ｍｓｅｃである場合には、図３の例では出現確率が５０ｍｓｅｃ単位で記憶されているので、調整部１８は、１５０ｍｓｅｃ及び２００ｍｓｅｃにおける出現確率を読み出す。そして、調整部１８は、相対時間１５０ｍｓｅｃにおける出現確率１５％と、相対時間２００ｍｓｅｃにおける出現確率１３％とを平均することによって話者Ａの返事の出現確率Ｐａを１４％と算出する。なお、ここでは、話者Ａの返事の相対位置に該当する相対時間の区間に対応付けられた出現確率を平均する場合を例示したが、返事の出現確率の算出方法はこれに限定されない。例えば、話者Ａの返事の相対位置に該当する相対時間の区間に対応付けられた出現確率のうち最大値または最小値を返事の出現確率Ｐａとして採用することとしてもよい。

その後、調整部１８は、先のようにして算出した返事の出現確率Ｐａが高いほど再検出閾値ＴＨｗの値が小さくなるように調整し、また、返事の出現確率Ｐａが低いほど再検出閾値ＴＨｗの値を大きくなるように調整する。一例としては、調整部１８は、返事の出現確率Ｐａが最大値を採る場合には、第１の検出部１７によって用いられる検出閾値ＴＨ１と同じ値まで再検出閾値ＴＨｗを下げる。一方、調整部１８は、返事の出現確率Ｐａが所定の基準値Ａ以下である場合には、再検出閾値ＴＨｗを所定の値ＴＨ２まで上げる。このとき、調整部１８は、返事の出現確率Ｐａが最大値よりも小さい値か、あるいは基準値Ａよりも大きい値を採る場合には、返事の出現確率Ｐａと再検出閾値ＴＨｗとを線形にマッピングする。これによって、調整部１８は、再検出閾値ＴＨｗを調整範囲内、すなわちＴＨ１≦ＴＨｗ≦ＴＨ２に調整する。

例えば、図３に示したように、最大の出現確率Ｐｍａｘが２０％であるとし、ＴＨ１を７０、ＴＨ２を８０としたとき、調整部１８は、返事の出現確率Ｐａが１４％であるならば、各々の値を下記の式（２）に代入することによって再検出閾値ＴＨｗを７３と算出する。この場合には、話者Ａの返事のスコアが７３以上である場合に、後述の第２の検出部１９によって返事が再検出されることになる。

ＴＨｗ＝ＴＨ２−Ｐ／Ｐｍａｘ＊（ＴＨ１−ＴＨ２）・・・（２）

第２の検出部１９は、調整部１８によって調整された再検出閾値ＴＨｗを用いて、第１の検出部１７によって検出された返事を再検出する処理部である。一態様としては、第２の検出部１９は、第１の検出部１７から受け付けた返事のスコアが調整部１８によって調整された再検出閾値ＴＨｗ以上であるか否かを判定する。このとき、第２の検出部１９は、返事のスコアが再検出閾値ＴＨｗ以上である場合には、当該返事の検出区間およびそのスコアを再検出結果として出力する。一方、返事のスコアが再検出閾値ＴＨｗ未満である場合には、第１の検出部１７によって返事として検出されていた単語であって、当該単語が返事である可能性は低いと推定できる。よって、この場合には、再検出結果を出力しない。

なお、第１の発話区間検出部１２ａ、第２の発話区間検出部１２ｂ、特徴量算出部１３、第１の検出部１７、調整部１８及び第２の検出部１９には、各種の集積回路や電子回路を採用できる。例えば、集積回路としては、ＡＳＩＣ（Application Specific Integrated Circuit）が挙げられる。また、電子回路としては、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などが挙げられる。

また、音響記憶部１４、単語辞書記憶部１５及び返事確率記憶部１６には、半導体メモリ素子や記憶装置を採用できる。例えば、半導体メモリ素子としては、ＶＲＡＭ（Video Random Access Memory）、ＲＡＭ（Random Access Memory)やフラッシュメモリ（flash memory）などが挙げられる。また、記憶装置としては、ハードディスク、光ディスクなどの記憶装置が挙げられる。

［処理の流れ］
続いて、本実施例に係る音声認識装置の処理の流れについて説明する。なお、ここでは、音声認識装置１０によって実行される（１）発話区間検出処理を説明した後に、（２）音声認識処理を説明することとする。

（１）発話区間検出処理
図６は、実施例１に係る発話区間検出処理の手順を示すフローチャートである。この発話区間検出処理は、話者Ａの音声フレームが第１の発話区間検出部１２ａへ入力された場合または話者Ｂの音声フレームが第２の発話区間検出部１２ｂへ入力された場合に処理が起動される。なお、第１の発話区間検出部１２ａ及び第２の発話区間検出部１２ｂのいずれにおいても同様の処理が実行されるので、第１の発話区間検出部１２ａによって発話区間検出処理が実行される場合を例示する。

図６に示すように、音声入力部１１から入力された音声フレームが最初のフレームである場合（ステップＳ１０１肯定）には、第１の発話区間検出部１２ａは、入力パワーＰの値を背景雑音パワーＰｎに設定する初期化を行い（ステップＳ１０２）、処理を終了する。

また、音声入力部１１から入力された音声フレームが最初のフレームでない場合（ステップＳ１０１否定）には、第１の発話区間検出部１２ａは、発話区間の開始を検出済みであるか否かを判定する（ステップＳ１０３）。

このとき、発話区間の開始を未検出である場合（ステップＳ１０３否定）には、第１の発話区間検出部１２ａは、次のような判定をさらに実行する。すなわち、第１の発話区間検出部１２ａは、当該音声フレームの入力パワーＰが背景雑音パワーＰｎに閾値αを加えた加算値を超えたか否か、すなわちＰ＞Ｐｎ＋αであるか否かを判定する（ステップＳ１０４）。

ここで、音声フレームの入力パワーＰが背景雑音パワーＰｎ及び閾値αの加算値を超えた場合（ステップＳ１０４肯定）には、話者Ａが発話していると推定できる。よって、第１の発話区間検出部１２ａは、当該加算値を超えた時間を発話区間の開始位置として図示しない内部メモリに格納し（ステップＳ１０５）、処理を終了する。

一方、音声フレームの入力パワーＰが背景雑音パワーＰｎ及び閾値αの加算値未満である場合（ステップＳ１０４否定）には、第１の発話区間検出部１２ａは、次のような処理を実行する。すなわち、第１の発話区間検出部１２ａは、図示しない内部メモリに記憶された背景雑音パワーＰｎを入力パワーＰに更新し（ステップＳ１０８）、処理を終了する。

また、発話区間の開始を検出済みである場合（ステップＳ１０３肯定）には、第１の発話区間検出部１２ａは、次のような判定をさらに実行する。すなわち、第１の発話区間検出部１２ａは、音声フレームの入力パワーＰが背景雑音パワーＰｎ及び閾値αの加算値よりも小さくなったか否か、すなわちＰ＜Ｐｎ＋αであるか否かを判定する（ステップＳ１０６）。

このとき、音声フレームの入力パワーＰが背景雑音パワーＰｎ及び閾値αの加算値よりも小さくなった場合（ステップＳ１０６肯定）には、話者Ａの発話が終了したと推定できる。よって、第１の発話区間検出部１２ａは、当該加算値を下回った時間を発話区間の終了位置とし、内部メモリに記憶された開始位置から終了位置までの区間を話者Ａの発話区間として出力する（ステップＳ１０７）。その後、第１の発話区間検出部１２ａは、図示しない内部メモリに記憶された背景雑音パワーＰｎを入力パワーＰに更新し（ステップＳ１０８）、処理を終了する。

一方、音声フレームの入力パワーＰが背景雑音パワーＰｎ及び閾値αの加算値以上である場合（ステップＳ１０６否定）には、話者Ａの発話が継続していると推定できる。この場合には、第１の発話区間検出部１２ａは、発話区間の終了位置の確定を保留し、処理を終了する。

（２）音声認識処理
図７は、実施例１に係る音声認識処理の手順を示すフローチャートである。この処理は、第１の発話区間検出部１２ａによって話者Ａの発話区間が検出された場合に、処理が起動される。

図７に示すように、まず、特徴量算出部１３は、第１の発話区間検出部１２ａによって検出された話者Ａの音声データにおける特徴量を算出する（ステップＳ２０１）。続いて、第１の検出部１７は、一般単語用の検出閾値ＴＨ０及び返事単語用の検出閾値ＴＨ１を用いて、単語検出を実行する（ステップＳ２０２）。

このとき、第１の検出部１７によって検出された単語が返事でない場合（ステップＳ２０３否定）には、第２の検出部１９は、単語が検出された検出区間およびそのスコアを検出結果として出力し（ステップＳ２０８）、処理を終了する。

一方、第１の検出部１７によって検出された単語が返事である場合（ステップＳ２０３肯定）には、調整部１８は、次のような処理を実行する。すなわち、調整部１８は、当該返事の検出区間をもとに、直前に開始された話者Ｂの発話区間の終了位置を原点とした場合の話者Ａの返事の相対位置を算出する（ステップＳ２０４）。

続いて、調整部１８は、返事確率記憶部１６に記憶された返事確率モデル内の出現確率のうち話者Ａの返事の相対位置に該当する相対時間の区間に対応付けられた出現確率の平均値を話者Ａの返事の出現確率として算出する（ステップＳ２０５）。そして、調整部１８は、話者Ａの返事の出現確率に応じて第２の検出部１９によって用いられる再検出閾値ＴＨｗを調整する（ステップＳ２０６）。

その後、第２の検出部１９は、第１の検出部１７から受け付けた返事のスコアが調整部１８によって調整された再検出閾値ＴＨｗ以上であるか否かを判定する（ステップＳ２０７）。

このとき、返事のスコアが再検出閾値ＴＨｗ以上である場合（ステップＳ２０７肯定）には、第２の検出部１９は、当該返事の検出区間およびそのスコアを再検出結果として出力し（ステップＳ２０８）、処理を終了する。

一方、返事のスコアが再検出閾値ＴＨｗ未満である場合（ステップＳ２０７否定）には、第１の検出部１７によって返事として検出されていた単語であって、当該単語が返事である可能性は低いと推定できる。よって、この場合には、再検出結果を出力せずに、そのまま処理を終了する。

［実施例１の効果］
上述してきたように、本実施例に係る音声認識装置１０は、話者Ａの音声から話者Ａの発話区間を検出するとともに、話者Ｂの音声から話者Ｂの発話区間を検出する。さらに、本実施例に係る音声認識装置１０は、話者Ａの発話区間における特徴量を算出する。さらに、本実施例に係る音声認識装置１０は、話者Ａの発話区間における特徴量を用いて単語検出を行う。さらに、本実施例に係る音声認識装置１０は、検出された単語が返事である場合に、返事確率モデルが示す確率のうち話者Ｂの発話区間と当該返事との相対位置に対応する出現確率を参照して、当該返事の検出閾値を調整する。さらに、本実施例に係る音声認識装置１０は、調整後の返事の検出閾値を用いて、単語の再検出を実行する。

このため、本実施例に係る音声認識装置１０では、話者Ｂの発話区間に対する話者Ａの返事の相対位置が返事の出現確率の高い位置または低い位置にあるかによって話者Ａの返事を検出する場合の単語の検出閾値を調整できる。それゆえ、本実施例に係る音声認識装置１０では、返事が発声されやすい場合に限って返事が検出され易く検出閾値を調整できる。さらに、本実施例に係る音声認識装置１０では、話者Ｂの特徴量の算出および単語検出を行わずともよい。よって、本実施例に係る音声認識装置１０によれば、音声認識の処理負荷を軽減しつつ、相手の発話に対する返事の検出精度を向上させることができる。

また、本実施例に係る音声認識装置１０は、返事の出現確率Ｐａが高くなるにしたがって返事の再検出閾値ＴＨｗが低くなるように調整する。このため、本実施例に係る音声認識装置１０では、返事が発声される可能性が高い場合に返事の再検出閾値ＴＨｗを下げることができる。それゆえ、本実施例に係る音声認識装置１０では、返事が他の発話よりも入力となる情報量が少なくとも、少ない情報を効果的に利用できるので、返事の検出精度を効果的に向上させることができる。

さらに、本実施例に係る音声認識装置１０は、返事の出現確率Ｐａが最大値を採る場合に、単語検出に用いられた検出閾値ＴＨ１と同じ値に返事の再検出閾値ＴＨｗを調整する。このため、本実施例に係る音声認識装置１０では、返事が発声される可能性が高い場合に返事の再検出閾値ＴＨｗを最大限低くできる。それゆえ、本実施例に係る音声認識装置１０では、返事が他の発話よりも入力となる情報量が少なくとも、少ない情報を最大限利用できるので、返事の検出精度をより効果的に向上させることができる。

また、本実施例に係る音声認識装置１０は、返事の出現確率Ｐａが低くなるにしたがって返事の再検出閾値ＴＨｗが高くなるように調整する。このため、本実施例に係る音声認識装置１０では、返事が発声される可能性が低い場合に返事の再検出閾値ＴＨｗを上げることができる。それゆえ、本実施例に係る音声認識装置１０では、雑音や返事とは異なる意味で使用された同音の単語などが返事として誤検出される事態を防止できる。

図８及び図９は、実施例１の効果を説明するための図である。これら図８及び図９では、実際の音声データで従来方式の音声認識装置と比較した結果を示す。なお、図８及び図９では、単語辞書には検出単語として返事「はい」のみが登録されており、「はい」の確率は図３に示したものであるものとする。

図８に示す例は、従来方式で基準となる検出閾値８０から、「はい」を検出し易いように、７８、７７と下げた場合と、開示の装置によるＴＨ１＝７５、ＴＨ２＝８０（検出閾値７５〜８０）、開示の装置によるＴＨ１＝７５、ＴＨ２＝８０（検出閾値７５〜８０）の比較である。すなわち、開示の装置では、「はい」が出現し易い場合に検出し易くしている。従来方式では、正解数を５４０台にまで上げようとすると誤検出数が９となり適合率が悪化する。また、誤検出数６、８となる場合を従来方式と開示の装置とで比較すると、正解数は開示の装置の方が多い。

図９に示す例は、従来方式で基準となる検出閾値８０から、「はい」の誤検出を減らすように、８１に上げた場合と、開示の装置によるＴＨ１＝７５、ＴＨ２＝８１（検出閾値７５〜８１）の比較である。すなわち、開示の装置では、「はい」が出現し易い場合に検出し易くしているだけでなく、「はい」が出現しにくい位置では閾値を厳しく（検出しにくく）している。実験の結果から、開示の装置では従来方式と異なり、正解数を減らすことなく誤検出数５を達成しており、その効果が確認できる。

このように、返事「はい」が出現しにくい位置では閾値を厳しくすることにより、相手の発話に対する返事ではないもの、例えば「はい、そろそろ時間ですね」というような場合の「はい」は、相手の発話から離れて確率値が低くなりやすいので、検出されにくくなる効果が期待できる。以上の実験結果から、開示の装置の効果が確認できる。

［モデル生成装置の構成］
さて、本実施例では、上記の実施例１で用いた返事確率モデルを生成するモデル生成装置について説明する。図１０は、実施例２に係るモデル生成装置の機能的構成を示すブロック図である。図１０に示すモデル生成装置３０は、図１に示した音声認識装置１０に比べて、音声入力部３１と、検出部３２と、モデル生成部３３とを有する。なお、図１０では、図１に示した音声認識装置１０と同様の機能を発揮する機能部については同一の符号を付し、その説明を省略することとする。

音声入力部３１は、第１の発話区間検出部１２ａ及び第２の発話区間検出部１２ｂに音声データを入力する処理部である。かかる音声入力部３１は、図１に示した音声入力部１１とは異なり、クリーン環境で採取された音声データを第１の発話区間検出部１２ａ及び第２の発話区間検出部１２ｂへ入力する点が異なる。ここで言う「クリーン環境」の一態様としては、屋外よりも雑音が混入しにくい屋内が挙げられる。さらには、単に屋内であるだけでなく防音設備が整った部屋であればより好ましい。なお、誤検出の割合をより抑制する観点から、音声入力部３１によって第１の発話区間検出部１２ａ及び第２の発話区間検出部１２ｂへ入力される音声データのデータ量は多ければ多いほど好ましい。

検出部３２は、特徴量算出部１３によって算出された話者Ａの発話区間における特徴量を用いて単語検出を行う処理部である。一態様としては、検出部３２は、話者Ａの発話区間の特徴量に対して返事「はい」の音声認識処理を行う。かかる音声認識処理には、図１に示した第１の検出部１７と同様に、公知の音声認識技術を任意に適用できる。

なお、以下では、検出部３２による返事「はい」の検出結果をラベリング結果Ａと呼び、第２の発話区間検出部１２ｂによる発話区間の検出結果をラベリング結果Ｂと呼ぶ場合がある。図１１は、ラベリング結果Ａ及びラベリング結果Ｂの一例を示す図である。図１１に示すように、ラベリング結果Ａには、返事「はい」が検出された場合にその検出区間の情報が付加されている。一方、ラベリング結果Ｂには、発話区間情報のみが付与されている。

モデル生成部３３は、ラベリング結果Ａ及びラベリング結果Ｂを用いて、返事確率モデルを生成する処理部である。一態様としては、モデル生成部３３は、ラベリング結果Ａ及びラベリング結果Ｂから、話者Ａの発話区間ごとに、直前の話者Ｂの発話区間との相対位置に変換し、相対位置ごとに返事「有」または返事「無」の頻度情報を数え上げる。このとき、モデル生成部３３は、相対時間が所定の単位、例えば５０ｍｓｅｃで分割された区間ごとに返事および非返事の頻度情報を集計する。

図１２は、話者Ａの発話区間の相対位置を算出する方法の一例を示す図である。図１２に示すように、モデル生成部３３は、話者Ｂの発話区間Ｐ１の終了位置である３１７７０ｍｓｅｃを原点とした場合の話者Ａの発話区間Ｐ２の相対位置を算出する。この例では、モデル生成部３３は、話者Ａの発話区間Ｐ２の開始位置３１９９５ｍｓｅｃから話者Ｂの発話区間Ｐ１の終了位置である３１７７０ｍｓｅｃを減算するとともに、話者Ａの発話区間Ｐ２の終了位置３２７９０ｍｓｅｃから話者Ｂの発話区間Ｐ１の終了位置である３１７７０ｍｓｅｃを減算する。これによって、話者Ａの発話区間Ｐ２の相対位置が２２５ｍｓｅｃ〜１０２０ｍｓｅｃと算出される。このとき、相対時間が５０ｍｓｅｃの区間ごとに集計されるとした場合には、モデル生成部３３は、２５０ｍｓｅｃ〜３００ｍｓｅｃ、３００ｍｓｅｃ〜３５０ｍｓｅｃ、・・・、９５０ｍｓｅｃ〜１０００ｍｓｅｃの区間の返事の頻度をカウントアップする。なお、ラベリング結果Ａが返事ではない場合には、非返事の頻度がカウントアップされる。

図１３は、集計結果の一例を示す図である。全てのラベリング結果の集計が終了した場合には、図１３に示すように、相対位置の区間別の返事「はい」の頻度情報４１と、相対位置の区間別の返事「はい」ではない頻度情報４２とが個別に集計される。このため、相対位置の区間Ｔにおける「はい」の確率をＰ（Ｔ）、相対位置の区間Ｔにおいて「はい」と発声していたサンプル数をＹ（Ｔ）、相対位置の区間Ｔにおいて「はい」と発声していいなかったサンプル数をＮ（Ｔ）とするとき、下記の式（３）を用いて、区間Ｔにおける返事の出現確率を算出できる。

Ｐ（Ｔ）＝Ｙ（Ｔ）／（Ｙ（Ｔ）＋Ｎ（Ｔ））×１００［％］・・・（３）

［処理の流れ］
図１４は、実施例２に係るモデル生成処理の手順を示すフローチャートである。この処理は、図示しないユーザインタフェースや外部装置を介して返事確率モデルの生成要求を受け付けた場合に処理が起動する。

図１４に示すように、まず、モデル生成部３３は、ラベリング結果Ａ及びラベリング結果Ｂを取得する（ステップＳ３０１）。続いて、モデル生成部３３は、話者Ｂの発話区間の終了位置を原点とした場合の話者Ａの発話区間の相対位置を算出する（ステップＳ３０２）。

そして、ラベリング結果Ａが返事である場合（ステップＳ３０３肯定）には、モデル生成部３３は、話者Ａの発話区間の相対位置が該当する相対時間の区間ごとに返事の頻度をカウントアップする（ステップＳ３０４）。

一方、ラベリング結果Ａが返事でない場合（ステップＳ３０３否定）には、モデル生成部３３は、話者Ａの発話区間の相対位置が該当する相対時間の区間ごとに非返事の頻度をカウントアップする（ステップＳ３０５）。その後、全てのラベリング結果について集計するまで（ステップＳ３０６否定）、上記のステップＳ３０１〜ステップＳ３０５までの処理を繰り返し実行する。

そして、全てのラベリング結果について集計すると（ステップＳ３０６肯定）、モデル生成部３３は、次のような処理を実行する。すなわち、モデル生成部３３は、相対時間の区間ごとにカウントアップされた返事の頻度及び相対時間の区間ごとにカウントアップされた非返事の頻度を上記の式（３）に代入することによって返事確率モデルを算出し（ステップＳ３０７）、処理を終了する。

上述してきたように、本実施例に係るモデル生成装置３０は、上記のステップＳ３０１〜ステップＳ３０７の処理を実行することによって図３に示した返事確率モデルを自動的に生成することができる。

なお、上記の実施例１の実験結果として示したように、音声認識で自動ラベリングする場合でも、閾値の調整により、適合率を高く自動ラベリングすることは可能である。したがって、返事「はい」の検出結果にゴミ（誤検出）が混ざる確率を低く抑えることができるので、算出された返事「はい」の確率は信頼できるものとなる。

また、ラベリングのための音声認識処理において、上記の実施例１で説明した単語検出を適用することによって検出精度の改善が見込めるので、算出された確率値を用いて、再度ラベリング、確率値の再算出を行えば、より信頼度の高い確率値が得られることが期待できる。

また、上記の実施例１のような検出処理時において、ＳＮＲ（Signal-to-Noise Ratio）が良く、単語スコアも良い場合のラベリング結果を集め、モデル生成部３３への入力データを追加することにより、確率情報を更新するようにしてもよい。これによって、ユーザーの個人性に適応していくことも期待できる。

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

［単語スコアの調整］
例えば、上記の実施例１では、単語のスコアと比較する閾値である再検出閾値ＴＨｗを調整する場合を例示したが、開示の装置の適用範囲はこれに限定されない。例えば、開示の装置は、単語スコアＳを返事の出現確率Ｐａに応じて調整してもよい。

すなわち、開示の装置は、単語スコアの調整式「Ｓｎ＝Ｓ＋Ｐ／Ｐｍａｘ＊Ｇ」を用いて、第１の検出部１７によって算出された単語のスコアを補正することもできる。かかる調整式における「Ｇ」は、調整感度を指す。開示の装置は、Ｓｎ≦１００となるようにクリッピングして調整後の単語スコアＳｎを補正してから、一般単語用の検出閾値ＴＨ０と比較するようにしても、上記の実施例１と同等の効果を得ることができる。また、開示の装置は、ＴＨｗを単語ｗの出現確率が２０％以上ならばＴＨ０に対して−２、１０％以上ならば−１というように段階的に調整したり、単語ｗの出現確率の分布の相対位置（時間）方向の幅を３等分して、中央の区間では、ＴＨｗをＴＨ０に対して−２、中央以外では−１というように分布の幅に合わせて閾値を設定することも可能である。

［返事の種類］
さらに、上記の実施例１では、返事である単語「はい」のみを例としてあげたが、「いいえ」、「そう」など他の単語についても、それぞれ出現確率を用意して、同様の処理を行うことができる。また、出現確率は、単語単位に用意するだけでなく、返事という１カテゴリで確率を準備・処理することもできる。

［言語の適用範囲］
さらに、上記の実施例１では、日本語を対象とする場合を例示しが、開示の装置は、日本語以外の言語においても、対話相手の発話を受けて返事を行うという構図が変わらない限り、対話相手の発話区間との相対位置と返事の出現確率の関係に偏りが生じるので、他の言語に適用したとしても同様の効果を得ることができる。例えば、英語における、対話相手の発話を受けての返事としての”Ｙｅｓ”、”Ｎｏ”、”ＯＫ”などは、日本語における「はい」、「いいえ」、「オッケー」などと同様に、対話相手の発話区間との相対位置と出現確率の関係に偏りが生じており、日本語と同様の効果が期待できる。

［適用人数］
なお、上記の実施例１では、話者Ａおよび話者Ｂの２人が対話を行う場合について例示したが、３人以上が対話を行う場合にも、話者は相手の発話に対して返事を行う構図は変わらないので、同様に適用できる。

［分散および統合］
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、第１の発話区間検出部１２ａ、第２の発話区間検出部１２ｂ、特徴量算出部１３、第１の検出部１７、調整部１８または第２の検出部１９を音声認識装置の外部装置としてネットワーク経由で接続するようにしてもよい。また、第１の発話区間検出部１２ａ、第２の発話区間検出部１２ｂ、特徴量算出部１３、第１の検出部１７、調整部１８または第２の検出部１９を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の音声認識装置の機能を実現するようにしてもよい。

［音声認識プログラム］
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１５を用いて、上記の実施例と同様の機能を有する音声認識プログラムを実行するコンピュータの一例について説明する。

図１５は、実施例３に係る音声認識プログラムを実行するコンピュータの一例について説明するための図である。図１５に示すように、コンピュータ１００は、操作部１１０ａと、スピーカ１１０ｂと、カメラ１１０ｃと、ディスプレイ１２０と、通信部１３０とを有する。さらに、このコンピュータ１００は、ＣＰＵ１５０と、ＲＯＭ１６０と、ＨＤＤ１７０と、ＲＡＭ１８０と有する。これら１１０〜１８０の各部はバス１４０を介して接続される。

ＨＤＤ１７０には、図１５に示すように、上記の実施例１で示した第１の発話区間検出部１２ａ、第２の発話区間検出部１２ｂ、特徴量算出部１３、第１の検出部１７、調整部１８及び第２の検出部１９と同様の機能を発揮する音声認識プログラム１７０ａが予め記憶される。この音声認識プログラム１７０ａについては、図１に示した各々の第１の発話区間検出部１２ａ、第２の発話区間検出部１２ｂ、特徴量算出部１３、第１の検出部１７、調整部１８及び第２の検出部１９の各構成要素と同様、適宜統合又は分離しても良い。すなわち、ＨＤＤ１７０に格納される各データは、常に全てのデータがＨＤＤ１７０に格納される必要はなく、処理に必要なデータのみがＨＤＤ１７０に格納されれば良い。

そして、ＣＰＵ１５０が、音声認識プログラム１７０ａをＨＤＤ１７０から読み出してＲＡＭ１８０に展開する。これによって、図１５に示すように、音声認識プログラム１７０ａは、音声認識プロセス１８０ａとして機能する。この音声認識プロセス１８０ａは、ＨＤＤ１７０から読み出した各種データを適宜ＲＡＭ１８０上の自身に割り当てられた領域に展開し、この展開した各種データに基づいて各種処理を実行する。なお、音声認識プロセス１８０ａは、図１に示した第１の発話区間検出部１２ａ、第２の発話区間検出部１２ｂ、特徴量算出部１３、第１の検出部１７、調整部１８及び第２の検出部１９にて実行される処理、例えば図６及び図７に示す処理を含む。また、ＣＰＵ１５０上で仮想的に実現される各処理部は、常に全ての処理部がＣＰＵ１５０上で動作する必要はなく、処理に必要な処理部のみが仮想的に実現されれば良い。

なお、上記の音声認識プログラム１７０ａについては、必ずしも最初からＨＤＤ１７０やＲＯＭ１６０に記憶させておく必要はない。例えば、コンピュータ１００に挿入されるフレキシブルディスク、いわゆるＦＤ、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させる。そして、コンピュータ１００がこれらの可搬用の物理媒体から各プログラムを取得して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１００に接続される他のコンピュータまたはサーバ装置などに各プログラムを記憶させておき、コンピュータ１００がこれらから各プログラムを取得して実行するようにしてもよい。

１０音声認識装置
１１音声入力部
１２ａ第１の発話区間検出部
１２ｂ第２の発話区間検出部
１３特徴量算出部
１４音響モデル記憶部
１５単語辞書記憶部
１６返事確率記憶部
１７第１の検出部
１８調整部
１９第２の検出部

Claims

一の話者の発話区間を基準に定まる相対時間と、前記話者とは異なる他の話者の発話に返事が出現する出現確率との関係を示す返事確率モデルを記憶する返事確率記憶部と、
第１の話者の音声から当該第１の話者の発話区間を検出する第１の発話区間検出部と、
前記第１の話者とは異なる第２の話者の音声から当該第２の話者の発話区間を検出する第２の発話区間検出部と、
前記第１の発話区間検出部によって検出された第１の話者の発話区間における特徴量を算出する特徴量算出部と、
前記特徴量算出部によって算出された第１の話者の発話区間における特徴量を用いて単語検出を実行する第１の検出部と、
前記第１の検出部によって検出された単語が返事である場合に、前記返事確率記憶部に記憶された返事確率モデルが示す確率のうち前記第２の発話区間検出部によって検出された第２の話者の発話区間と当該返事との相対位置に対応する出現確率を参照して、当該返事の単語スコアまたは当該返事の検出閾値を調整する調整部と、
前記調整部によって調整された返事の単語スコアまたは返事の検出閾値を用いて、前記第１の検出部によって検出された単語の再検出を実行する第２の検出部と
を有することを特徴とする音声認識装置。
前記調整部は、前記出現確率が高くなるにしたがって前記返事の検出閾値が低くなるように調整することを特徴とする請求項１に記載の音声認識装置。
前記調整部は、前記出現確率が最大値を採る場合に、前記第１の検出部によって単語検出に用いられた検出閾値と同じ値に前記返事の検出閾値を調整することを特徴とする請求項１に記載の音声認識装置。
前記調整部は、前記出現確率が低くなるにしたがって前記返事の検出閾値が高くなるように調整することを特徴とする請求項１に記載の音声認識装置。
コンピュータが、
第１の話者の音声から当該第１の話者の発話区間を検出し、
前記第１の話者とは異なる第２の話者の音声から当該第２の話者の発話区間を検出し、
前記第１の話者の発話区間における特徴量を算出し、
算出された第１の話者の発話区間における特徴量を用いて単語検出を実行し、
検出された単語が返事である場合に、一の話者の発話区間を基準に定まる相対時間と、前記話者とは異なる他の話者の発話に返事が出現する出現確率との関係を示す返事確率モデルを記憶する返事確率記憶部に記憶された返事確率モデルが示す確率のうち前記第２の話者の発話区間と当該返事との相対位置に対応する出現確率を参照して、当該返事の単語スコアまたは当該返事の検出閾値を調整し、
調整された返事の単語スコアまたは返事の検出閾値を用いて、単語の再検出を実行する
各処理を実行することを特徴とする音声認識方法。
コンピュータに、
第１の話者の音声から当該第１の話者の発話区間を検出し、
前記第１の話者とは異なる第２の話者の音声から当該第２の話者の発話区間を検出し、
前記第１の話者の発話区間における特徴量を算出し、
算出された第１の話者の発話区間における特徴量を用いて単語検出を実行し、
検出された単語が返事である場合に、一の話者の発話区間を基準に定まる相対時間と、前記話者とは異なる他の話者の発話に返事が出現する出現確率との関係を示す返事確率モデルを記憶する返事確率記憶部に記憶された返事確率モデルが示す確率のうち前記第２の話者の発話区間と当該返事との相対位置に対応する出現確率を参照して、当該返事の単語スコアまたは当該返事の検出閾値を調整し、
調整された返事の単語スコアまたは返事の検出閾値を用いて、単語の再検出を実行する
各処理を実行させることを特徴とする音声認識プログラム。