JP2004029215A

JP2004029215A - 音声認識装置の音声認識精度評価方法

Info

Publication number: JP2004029215A
Application number: JP2002182842A
Authority: JP
Inventors: Katsumi Nishitani; 西谷　克巳
Original assignee: Sumitomo Wiring Systems Ltd; AutoNetworks Technologies Ltd; Sumitomo Electric Industries Ltd
Current assignee: Sumitomo Wiring Systems Ltd; AutoNetworks Technologies Ltd; Sumitomo Electric Industries Ltd
Priority date: 2002-06-24
Filing date: 2002-06-24
Publication date: 2004-01-29

Abstract

【課題】自動車の走行時の環境を模擬して混合音データを生成する。
【解決手段】肉声１として与えられる一連の語彙中、最初の単語要素の発音に要すると予想される予想時間（０．６秒間）より短いサンプリング時間（０．５秒間）に限定して、音声データ１ａの有音部分のみをサンプルデータとして摘出し、このサンプルデータから第１の音パワー値を求め、この第１の音パワー値と雑音データ２ａの第２の音パワー値に基づいて、例えば自動車の実際の走行環境等の所望の信号対雑音比に対応した両音データの混合比率ｋを求め、その混合比率ｋに従って混合音データを生成する。無音部分を含まない状態の音パワー値で混合比率ｋを決定でき、正確な混合比率ｋを得ることができる。
【選択図】　　　　図１

Description

【０００１】
【発明の属する技術分野】
この発明は、肉声とノイズとを混合して音声認識装置に入力し、当該音声認識装置の音声認識精度を評価する音声認識装置の音声認識精度評価方法に関する。
【０００２】
【従来の技術】
音声認識装置の音声認識精度を評価する方法として、実際に音声認識装置が搭載される環境に近い環境で音声認識の正解率を調査する方法がある。
【０００３】
例えば、自動車内に搭載する音声認識装置であれば、この音声認識装置を現実に使用する状況として、自動車自体のエンジン音や、道路工事の騒音等の外部の環境ノイズが混入することが極めて多い。したがって、このような音声認識装置の評価については、例えば防音室で録音したようなノイズの少ない音声（クリーン音声）ではなく、種々のノイズを混入させた状態の音声が必要となる。
【０００４】
具体的に、まず話者が原稿を読み上げるなどしてクリーン音声を所定の音声収録装置に収録するとともに、自動車のエンジン音や外部の環境ノイズ等の種々のノイズを他の音声収録装置に収録しておき、これらクリーン音声とノイズとを混入した状態で所定の音声収録装置から再生を行って、実車環境に対応した環境での音声認識装置への音声入力を行う。
【０００５】
そして、音声認識装置は、入力された音声について音声認識を実行し、その結果得られた文字情報（テキストデータ）と、検査者が読み上げた原稿とを見比べ、その正誤を判断することで、音声認識装置の実車搭載時（即ち、ノイズ混入時）における音声認識精度を調査及び評価することができる。
【０００６】
尚、音声認識装置の評価に際しては、言語音声としてのクリーン音声とノイズとの均衡（信号対雑音比、以下「Ｓ／Ｎ比」と称す）を、様々な実車環境に応じて様々に組み合わせて混入させることが行われる。このクリーン音声とノイズとの均衡（Ｓ／Ｎ比）は、それぞれの音声収録装置に収録された各音データの各音パワー値と呼ばれるパラメータに基づいて調整される。
【０００７】
この音パワー値は、それぞれ与えられた音声を時間軸に沿った電圧値の変化（時間波形）として認識した場合に、その時間波形の時間軸に沿った各時点での振幅値の二乗値をその時間幅で除算して平均化した値であり、クリーン音声の音パワー値とノイズの音パワー値とが適正な比率となるように係数を求め、この係数に従って両者の音量の均衡をとって、実車環境に近似したＳ／Ｎ比で音データの混合を行う。このように混合された音データを用いて音声認識装置の音声認識精度の評価を行うことで、実車環境に近似した状態での音声認識精度の評価を行うことができる。
【０００８】
尚、一般に音声認識装置の音声認識の手法としては、１つの文章において、主語、述語、助詞及び接続詞等の複数の単語が所定の文法（例えば日本語文法）に従って連なっていることを前提として、文章中の全ての単語や接続詞を分解して認識し且つ構文解析を行って文章全体を認識する連続音声認識手法と、１つの文章を１つの単語として一続きで認識する単語認識手法とがある。
【０００９】
【発明が解決しようとする課題】
ところで、例えば単語認識手法において、話者が肉声での言語音声をクリーン音声として音声収録装置に収録する場合、話者が途中で呼吸を行ったり、または読み上げる文章の途中で文章を目で追うことで言い淀んだりすることがあり、構文の途中で音声が途切れることがある。
【００１０】
このように、構文の途中で音声が途切れる場合に、上述のようにクリーン音声の音パワー値を演算すると、文章中に無音部分（即ち音パワー値が極めて小さい部分）が挿入されることから、有音部分のみで構成されたクリーン音声文章の音パワー値に比べて、文章全体としての音パワー値の平均値が大幅に低下する。
【００１１】
したがって、このような理由で小さな値として演算された音パワー値のクリーン音声と、連続的な有音部分のみで構成されたノイズとを混合させる場合、クリーン音声の有音部分とノイズとの均衡（Ｓ／Ｎ比）が実車環境でのＳ／Ｎ比に比べて大きく異なってしまう。そうすると、音声認識装置の評価が正しく行えないこととなってしまう。
【００１２】
そこで、この発明の課題は、クリーン音声とノイズを実車環境に近似したＳ／Ｎ比で混合して評価を行うことが可能な音声認識装置の音声認識精度評価方法を提供することにある。
【００１３】
【課題を解決するための手段】
上記課題を解決すべく、請求項１に記載の発明は、肉声とノイズとを混合して音声認識装置に入力し、当該音声認識装置の音声認識精度を評価する音声認識精度評価方法であって、前記肉声を音声データとして収録する第１の工程と、前記ノイズを雑音データとして収録する第２の工程と、前記音声データ中の一部の有音部分のみからなるサンプルデータについて第１の音声パワー値を演算する第３の工程と、前記雑音データの第２の音パワー値を演算する第４の工程と、前記第１の音パワー値及び第２の音パワー値に基づいて、予め設定された信号対雑音比に対応した前記音声データと前記雑音データの混合比率を決定する第５の工程と、前記混合比率で前記サンプルデータと前記雑音データとを混合した混合音データを前記音声認識装置に入力し、当該音声認識装置の音声認識精度を評価する第６の工程とを備え、前記サンプルデータは、前記肉声として与えられる一連の語彙中の最初の単語要素の発音に要すると予想される予想時間より短く設定された所定のサンプリング時間に限定して音声データの有音部分を摘出して生成されるものである。
【００１４】
請求項２に記載の発明は、請求項１に記載の音声認識装置の音声認識精度評価方法であって、前記サンプリング時間は０．５秒であるものである。
【００１５】
請求項３に記載の発明は、請求項１または請求項２に記載の音声認識装置の音声認識精度評価方法であって、前記第１の工程において複数の前記音声データが収録され、前記第６の工程において、複数の前記サンプルデータを間断なく連続して前記雑音データに混合して前記混合音データを生成するものである。
【００１６】
【発明の実施の形態】
＜構成＞
図１はこの発明の一の実施の形態に係る音声認識装置の音声認識精度評価方法を示す図である。この音声認識評価方法は、図１の如く、肉声１とノイズ２とをそれぞれ音声データ１ａ及び雑音データ２ａ（これらを総称する場合には以下「音データ」と称す）として音声収録装置３，４で収録した後、これら音声データ１ａと雑音データ２ａとを混合させて音声認識装置５に入力し、そのときの音声認識装置５の音声認識の正解率から音声認識精度の評価６を行うものであって、特に、音声データ１ａと雑音データ２ａとを混合させる際のＳ／Ｎ比を調整する際に、音声データ１ａの有音部分のみの音パワー値（第１の音パワー値）と雑音データ２ａの音パワー値（第２の音パワー値）とを参照し、これら両音パワー値が所望の比率となるように、音声データ１ａ及び雑音データ２ａを混合させるようにしたものである。
【００１７】
音声収録装置３，４としては、肉声１及びノイズ２をマイクロフォン装置７，８で採取し、このマイクロフォン装置７，８から出力されるアナログ式電気信号を、例えばＷＡＶＥ形式等の所定のデータ形式の音ファイルとしてハードディスクドライブ等の所定の内蔵記録装置内に記録格納し、後に当該音ファイルを任意のタイミングで再生可能になっているものであり、例えば、一般のパーソナルコンピュータが使用され、ハードディスク内に予め格納された所定の音声出力用のアプリケーションソフトウェアプログラムに規律されて動作する。ここで、音声収録装置３，４は、所定のディスプレイ装置に音データの時間軸に沿った波形を表示することが可能となっており、また、その時間軸における任意の瞬間の時点を各音ファイルの音データの開始時点からの経過時間（以下「発話開始時間」と称す）として記録し、後の各音ファイルの再生時に、発話開始時間経過後から、指定した時間分だけの音データを再生できるようになっている。さらに、この音声収録装置３，４は、複数の音ファイルを時系列的に連続して再生できるようになっている。
【００１８】
尚、マイクロフォン装置７で採取する肉声１は、防音室等のノイズ非混入の環境下でのものであってもよいし、あるいはエンジン稼動状態の自動車等のノイズ混入の環境下のものであってもよい。また、ノイズ２としては、自動車のエンジン音や外部の工事現場での騒音等が使用される。
【００１９】
音声収録装置３，４で収録された音声データ１ａと雑音データ２ａの混合は、所定の音声混合装置（ミキサー）９によって行われる。混合の比重は、雑音データ２ａの音パワー値と、音声混合装置９で混合された後の混合音データ９ａの音パワー値とに基づいて、Ｓ／Ｎ比が目的とする基準Ｓ／Ｎ比に一致するように決定される。かかる混合方法については後に詳述する。
【００２０】
音声認識装置５は、例えばカーナビゲーション装置や、あるいはインストゥルメントパネル内のオーディオ機器等の所定の操作を行う場合のインターフェースとして使用されるものであり、入力されたアナログ式の音データを例えば４８ｋＨｚのサンプリング周波数で１６ビットのデータ長の固定長データとして量子化して離散的なディジタル信号に変換した後、隠れマルコフモデル（ＨＭＭ）の手法を用いて単語認識を行うようになっている。具体的には、入力された音声データを短時間毎に分析し、特徴ベクトル（多次元ケプストラム係数）に変換して、ある短時間における状態を求めておき、予め保有しておいた隠れマルコフモデル（ある状態から別の状態に遷移する場合に、遷移後の状態の統計的性質が直前の状態により予測される確率的なモデル）を使用して、最大確率の経路を探索することで、単語認識を行う。尚、この音声認識装置５は、単語認識手法で音声認識を行うようになっており、上記の「単語」には、複数の単語が一続きに連なった文章をも含む概念である。音声認識装置５の音声認識結果は、文字データからなるテキスト情報として出力され、例えばテキストファイルとして出力できるようになっている。したがって、このテキストファイルを所定のディスプレイ装置に出力して当該ディスプレイ装置の画面上に表示させたり、所定の印刷装置（プリンター）に出力して印刷出力できるようになっている。
【００２１】
＜動作＞
上記構成の音声認識装置の音声認識精度評価方法の動作を説明する。まず、図２中のステップＳ０１の如く、話者が肉声１を第１のマイクロフォン装置７に向けて発し、第１の音声収録装置３に個々の音ファイルとして収録する。
【００２２】
この場合、例えば防音室やエンジン停止状態の自動車内等の静かな環境下で収録してもよいが、ただし、防音室やエンジン停止状態の自動車内等の静かな環境下で肉声１を収録したとしても、ある程度の環境ノイズは混入されることになる。このため、肉声１の収録の段階で完全なクリーン音声を収録することは困難であって、ある程度のノイズを許容して肉声１の収録を行うことになることから、この実施の形態では、後工程の補正処理により、クリーン音声の音パワー値を求めることになっている。したがって、肉声１の収録段階で、例えば走行状態の自動車内等の騒音環境下で収録しても差し支えない。
【００２３】
尚、話者の発する肉声１としては、例えば「大阪府大阪市都島区網島町」といった都道府県名称、市区町村名及び字名称といった一連の語彙となる地名や、「地名検索」といった所定の熟語等、カーナビゲーション操作等を考慮した予め定められている約１００種類の単語列を採用する。
【００２４】
次に、ステップＳ０２において、第１の音声収録装置３に収録された音ファイル毎の音声データ１ａの発話開始時間を取得する。ここでは、第１の音声収録装置３の所定のディスプレイ装置に音データの時間軸に沿った波形を表示し、この波形を目視して、各音ファイルの発話開始時間を決定し、各音ファイルに対応付けられたデータとして記録する。
【００２５】
あるいは、ステップＳ０２においては、各音ファイルについて時間軸に沿った音声データ１ａの波形をディスプレイ装置に表示し、その波形上でカーソルを合わせるなどして、音声データ１ａの瞬間瞬間のスペクトラム分布を表示し、そのスペクトラム分布が一定の分布値を示し始めたポイントを特定することで、発話開始時間を決定してもよい。
【００２６】
さらに、ソフトウェアプログラムとして、音声データ１ａの値が急激に大きくなる時点を微分演算等により自動的に検出する機能を有するものを使用している場合には、その検出する機能を用いて検出された時点をもって発話開始時間としてもよい。
【００２７】
続いて、ステップＳ０３で、ノイズ２を第２の音声収録装置４に雑音データ２ａとして収録する。そして、ステップＳ０４において、収録された雑音データ２ａの音パワー値を演算する。この音パワー値は、雑音データ２ａの時間波形の時間軸に沿った各時点での振幅値の二乗値をその時間幅で除算して平均化した値である。この音パワー値を以下「ノイズ音パワー値」と称することにする。
【００２８】
そして、ステップＳ０５において、発話開始前の短時間から発話開始後の短時間における音声データ１ａの音パワー値を計算する。ここでは、時間領域またはＦＦＴ（高速フーリエ変換）のアルゴリズムなどを使用して、音声データ１ａを周波数領域に変換した状態において音パワー値を演算する。
【００２９】
ここで、都道府県名称、市区町村名及び字名称といった一連の語彙となる地名として「大阪府大阪市都島区網島町」という語彙を発音する例を説明する。仮に、図３に示すように、話者が最初の単語の区切りである「おおさかふ」という語を発音するのに、平均的に０．６秒を要するとする。この場合、この「おおさかふ」と発音した後、間断なく次の「おおさかし」という語を発音することが多いと考えられるが、しかしながら、「おおさかふ」と発音した後に次の「おおさかし」という語を発音するまでに、話者の呼吸状態等の要因による言い淀みが生じて、例えば０．１秒程度の無音期間が生じる可能性もある。また、様々な人が話者として「おおさかふ」と発音するのに、平均的に０．６秒を要すると考えられるものの、個人差により早口の人も存在しており、「おおさかふ」と発音するのに０．６秒を要しない場合も起こり得る。したがって、音声データ１ａの有音部分のみの音パワー値を演算する際には、発話開始時間後の０．６秒より短いサンプリング時間、具体的には０．５秒のデータを、有音部分のサンプルデータとして音声データ１ａから摘出することにする。このようにすると、例えば図４のように、別の「地名検索」といった語を発音する場合においても、０．５秒もあれば、早口でこの語「ちめえけんさく」と発音したとしても、最初の「ちめえ」という有音部分をサンプルデータとして摘出することができ、この「ちめえ」の後に無音部分が例えば０．０５秒程度生じたとしても、有音部分のみからなるサンプルデータを摘出することができる。そして、このサンプルデータ内で刻々と変化する振幅値の二乗値をサンプリング時間（０．５秒）で除算して平均化し、これを有音部分のみの音パワー値（以下「有音音声パワー値」と称する）とする。
【００３０】
また、このとき、発話開始時間前の振幅値についても、これを二乗した後サンプリング時間で除算しておく。この除算結果は、音声データ１ａ内に含まれる暗騒音の音パワー値であり、以下「暗騒音音声パワー値」と称することにする。
【００３１】
そして、ステップＳ０６において、目的とするＳ／Ｎ比（ＳＮＲ）を取得する。このＳＮＲは、実際の自動車走行中において自動車のエンジン音や外部の他の自動車の走行音及び工事現場等の外部環境騒音の中で音声認識装置５に話者の肉声を入力する際の音声入力環境を想定したものであり、実測値に基づく経験則により予め定められるものである。
【００３２】
続いて、ステップＳ０７において、音声データ１ａと雑音データ２ａとの混合比率を決定する。ここでは、図５の如く、音声データ１ａの有音部分（上記のサンプルデータ）の刻々と変化する振幅値をＳｖとし、音声データ１ａの刻々と変化する暗騒音の振幅値をＮｖとし、雑音データ２ａの刻々と変化する振幅値をＣｖとし、ステップＳ０６で取得した目的とするＳ／Ｎ比をＳＮＲとすると、音声データ１ａと雑音データ２ａと混合比率（以下、単に「係数」と称す）ｋの値は、次の（１）式及び（２）式により求められる。
【００３３】
【数１】

【００３４】
ただし、
【００３５】
【数２】

【００３６】
尚、混合比率である係数ｋは、図６のように、音声データ１ａと雑音データ２ａとを、実際の自動車走行中を模した環境となるようにＳ／Ｎ比（ＳＮＲ）を調整して混合する場合に、雑音データ２ａの振幅値Ｃｖに積算される係数を意味しており、即ち、音声データ１ａの音量レベルと雑音データ２ａの音量レベルの比率を「１：ｋ」として音声認識装置５に入力すれば、実際の自動車の走行中の環境に模した混合音データ９ａを提供できることを意味している。また、上記（１）式、（２）式及び以下の数式中のバーは、バー下の変数の平均値である旨を意味している。
【００３７】
ここで、上記（１）式及び（２）式の考え方を説明する。一般に、Ｓ／Ｎ比（ＳＮＲ）は、クリーン音声の音パワー値から、ノイズ及び暗騒音を含む全ての雑音の音パワー値を減算し、この減算後の値を雑音の音パワー値で除算したものであるため、このＳＮＲは恒常的に次の（３）式で表される。
【００３８】
【数３】

【００３９】
ここで、（３）式中のバー（ＳｖＣｖ）は、音声データ１ａの有音部分（サンプルデータ）の振幅値と雑音データ２ａの振幅値とを積算した値の平均値であるが、音声データ１ａと雑音データ２ａとは互いに独立して生起するため相関関係にはなく、したがって、これらの積算値の平均をとった場合は「０」に近似することが経験により解っている。
【００４０】
また、（３）式中のバー（ＮｖＣｖ）は、音声データ１ａの暗騒音の振幅値と雑音データ２ａの振幅値とを積算した値の平均値であるが、上記と同様に、音声データ１ａと雑音データ２ａとは互いに相関関係にはなく、また暗騒音の振幅値Ｎｖは音声データ１ａの振幅値Ｓｖよりも極めて小さいため、ＮｖとＣｖの積算値の平均をとった場合には「０」に近似することが経験により解っている。
【００４１】
このことから、（３）式中のバー（ＳｖＣｖ）とバー（ＮｖＣｖ）を「０」とすれば、次の（４）式が導かれる。
【００４２】
【数４】

【００４３】
ここで、次の（５）式のようにβを定義すれば、上記の（２）式を得ることができ、さらに（５）式より係数ｋを求めて（１）式を得ることができる。
【００４４】
【数５】

【００４５】
しかる後、ステップＳ０８において、音声認識装置５に入力される雑音データ２ａの音量レベルが、第２の音声収録装置４内の元の雑音データ２ａの音量レベルに対して係数ｋ倍になるように音声混合装置（ミキサー）９で音量調整を行う。尚、音声混合装置９で調整される音声データ１ａの音量レベルは、第１の音声収録装置３内に収録された音声データ１ａの音量レベルを維持する。
【００４６】
このように、係数ｋを予め設定しておき、この係数ｋを共通として、かかる作業を、第１の音声収録装置３内に採取した１００種類の音声データ１ａの音ファイルについて実行し、ステップＳ０９において、図７のように複数の音ファイルに係る複数の音声データ（サンプルデータ）１ａと雑音データ２ａとを、サンプルデータ１ａの長さ分ずつずらしながら音声混合装置９で混合する。
【００４７】
次に、ステップＳ１０において、時系列的に連続した混合音データ９ａのビット長を検出し、１６ビットを越える場合（オーバーフロー）には、ステップＳ１１に進み、音声データ１ａの値に１／ｎ（ただし、ｎは２以上の自然数である）を積算して振幅のレンジ調整を行い、ステップＳ０１に戻って全ての処理を再度実行し直す。
【００４８】
一方、ステップＳ１０において、混合音データ９ａのビット長が１６ビット以内に収まる場合は、ステップＳ１２に進み、時系列的に連続した混合音データ９ａとして音声認識装置５に向けて音声出力する。尚、このステップＳ０９で連続させる１００種類のサンプルデータは、全く異なった１００種類の文章の先頭のサンプリング時間の部分を連続させるようにする。あるいは、１種類の文章内において、いくつかの無音部分が生じていた場合に、この無音部分から次の単語の有音部分に切り替わった時点で、その時点から更にサンプリング時間の部分を次のサンプルデータとして連続させるようにしても差し支えない。
【００４９】
しかる後、音声認識装置５で音声認識処理を実行し、その音声認識の結果に基づいて、当該音声認識装置５の音声認識精度を評価する。
【００５０】
以上のように、車載環境で使用する語彙について、発話開始から最初の単語の発音を開始するのに予想される予想時間（例えば０．６秒間）よりも短いサンプリング時間（例えば０．５秒間）についての音パワー値を計算をすることで、発話間の無音によりＳ／Ｎ比が小さく見積もられる確率が極めて少なくなり、音声データ１ａと雑音データ２ａの混合比を適正に設定して、自動車の走行環境を模擬しているので、適正な模擬的環境を実現して音声認識装置５の音声認識精度を評価できる。
【００５１】
尚、上記のステップＳ１０において、混合音データ９ａが１６ビットを越える場合（オーバーフロー）に、ステップＳ１１を経てステップＳ０１に戻っていたが、その他、例えばそのままエラー表示を行って処理を終了してもよい。
【００５２】
【発明の効果】
請求項１に記載の発明によれば、サンプルデータとして、肉声として与えられる一連の語彙中の最初の単語要素の発音に要すると予想される予想時間より短く設定された所定のサンプリング時間に限定して音声データの有音部分を摘出したものを使用し、この有音部分のみからなるサンプルデータから第１の音パワー値を求め、この第１の音パワー値と雑音データの第２の音パワー値に基づいて、例えば自動車の実際の走行環境等の所望の信号対雑音比に対応した両音データの混合比率を求め、その混合比率で混合音データを生成しているので、無音部分を含んで音パワー値を算出して混合比率を決定していた従来に比べて、自動車の実際の走行環境等の所望の信号対雑音比に正確に対応した混合音データを生成できる。したがって、音声認識装置の評価に際し、より使用環境に対応した評価を行うことができ、評価精度を向上できる。
【００５３】
請求項２に記載の発明によれば、サンプリング時間として０．５秒を設定しておけば、肉声中の一連の語彙のなかで無音時間が表れるとしても、最初の単語の有音部分のみをサンプルデータとして収録する可能性が極めて高くなり、無音部分を含まないサンプルデータを用いて混合比率を決定できる。
【００５４】
請求項３に記載の発明によれば、複数の前記サンプルデータを間断なく連続して雑音データに混合して混合音データを生成するので、短いサンプリング時間のサンプルデータで音声認識装置の評価を行っても、十分に長時間に渡って音声認識装置の評価を行うことができる。
【図面の簡単な説明】
【図１】この発明の一の実施の形態に係る音声認識装置の音声認識精度評価方法の概要を示すブロック図である。
【図２】この発明の一の実施の形態に係る音声認識装置の音声認識精度評価方法を示すフローチャートである。
【図３】一連の語彙例についての音データの波形を示す図である。
【図４】一連の語彙例についての音データの波形を示す図である。
【図５】音声データ及び雑音データの波形を示す図である。
【図６】混合音データの波形を示す図である。
【図７】サンプルデータと雑音データの混合概念を示す図である。
【符号の説明】
１　肉声
１ａ　音声データ
２　ノイズ
２ａ　雑音データ
３　音声収録装置
４　音声収録装置
５　音声認識装置
９　音声混合装置
９ａ　混合音データ

Claims

肉声とノイズとを混合して音声認識装置に入力し、当該音声認識装置の音声認識精度を評価する音声認識精度評価方法であって、
前記肉声を音声データとして収録する第１の工程と、
前記ノイズを雑音データとして収録する第２の工程と、
前記音声データ中の一部の有音部分のみからなるサンプルデータについて第１の音声パワー値を演算する第３の工程と、
前記雑音データの第２の音パワー値を演算する第４の工程と、
前記第１の音パワー値及び第２の音パワー値に基づいて、予め設定された信号対雑音比に対応した前記音声データと前記雑音データの混合比率を決定する第５の工程と、
前記混合比率で前記サンプルデータと前記雑音データとを混合した混合音データを前記音声認識装置に入力し、当該音声認識装置の音声認識精度を評価する第６の工程と
を備え、
前記サンプルデータは、前記肉声として与えられる一連の語彙中の最初の単語要素の発音に要すると予想される予想時間より短く設定された所定のサンプリング時間に限定して音声データの有音部分を摘出して生成されることを特徴とする音声認識装置の音声認識精度評価方法。
請求項１に記載の音声認識装置の音声認識精度評価方法であって、
前記サンプリング時間は０．５秒であることを特徴とする音声認識装置の音声認識精度評価方法。
請求項１または請求項２に記載の音声認識装置の音声認識精度評価方法であって、
前記第１の工程において複数の前記音声データが収録され、
前記第６の工程において、複数の前記サンプルデータを間断なく連続して前記雑音データに混合し、前記混合音データを生成することを特徴とする音声認識装置の音声認識精度評価方法。