JP2004029215A - 音声認識装置の音声認識精度評価方法 - Google Patents
音声認識装置の音声認識精度評価方法 Download PDFInfo
- Publication number
- JP2004029215A JP2004029215A JP2002182842A JP2002182842A JP2004029215A JP 2004029215 A JP2004029215 A JP 2004029215A JP 2002182842 A JP2002182842 A JP 2002182842A JP 2002182842 A JP2002182842 A JP 2002182842A JP 2004029215 A JP2004029215 A JP 2004029215A
- Authority
- JP
- Japan
- Prior art keywords
- data
- sound
- noise
- voice
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】自動車の走行時の環境を模擬して混合音データを生成する。
【解決手段】肉声1として与えられる一連の語彙中、最初の単語要素の発音に要すると予想される予想時間(0.6秒間)より短いサンプリング時間(0.5秒間)に限定して、音声データ1aの有音部分のみをサンプルデータとして摘出し、このサンプルデータから第1の音パワー値を求め、この第1の音パワー値と雑音データ2aの第2の音パワー値に基づいて、例えば自動車の実際の走行環境等の所望の信号対雑音比に対応した両音データの混合比率kを求め、その混合比率kに従って混合音データを生成する。無音部分を含まない状態の音パワー値で混合比率kを決定でき、正確な混合比率kを得ることができる。
【選択図】 図1
【解決手段】肉声1として与えられる一連の語彙中、最初の単語要素の発音に要すると予想される予想時間(0.6秒間)より短いサンプリング時間(0.5秒間)に限定して、音声データ1aの有音部分のみをサンプルデータとして摘出し、このサンプルデータから第1の音パワー値を求め、この第1の音パワー値と雑音データ2aの第2の音パワー値に基づいて、例えば自動車の実際の走行環境等の所望の信号対雑音比に対応した両音データの混合比率kを求め、その混合比率kに従って混合音データを生成する。無音部分を含まない状態の音パワー値で混合比率kを決定でき、正確な混合比率kを得ることができる。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
この発明は、肉声とノイズとを混合して音声認識装置に入力し、当該音声認識装置の音声認識精度を評価する音声認識装置の音声認識精度評価方法に関する。
【0002】
【従来の技術】
音声認識装置の音声認識精度を評価する方法として、実際に音声認識装置が搭載される環境に近い環境で音声認識の正解率を調査する方法がある。
【0003】
例えば、自動車内に搭載する音声認識装置であれば、この音声認識装置を現実に使用する状況として、自動車自体のエンジン音や、道路工事の騒音等の外部の環境ノイズが混入することが極めて多い。したがって、このような音声認識装置の評価については、例えば防音室で録音したようなノイズの少ない音声(クリーン音声)ではなく、種々のノイズを混入させた状態の音声が必要となる。
【0004】
具体的に、まず話者が原稿を読み上げるなどしてクリーン音声を所定の音声収録装置に収録するとともに、自動車のエンジン音や外部の環境ノイズ等の種々のノイズを他の音声収録装置に収録しておき、これらクリーン音声とノイズとを混入した状態で所定の音声収録装置から再生を行って、実車環境に対応した環境での音声認識装置への音声入力を行う。
【0005】
そして、音声認識装置は、入力された音声について音声認識を実行し、その結果得られた文字情報(テキストデータ)と、検査者が読み上げた原稿とを見比べ、その正誤を判断することで、音声認識装置の実車搭載時(即ち、ノイズ混入時)における音声認識精度を調査及び評価することができる。
【0006】
尚、音声認識装置の評価に際しては、言語音声としてのクリーン音声とノイズとの均衡(信号対雑音比、以下「S/N比」と称す)を、様々な実車環境に応じて様々に組み合わせて混入させることが行われる。このクリーン音声とノイズとの均衡(S/N比)は、それぞれの音声収録装置に収録された各音データの各音パワー値と呼ばれるパラメータに基づいて調整される。
【0007】
この音パワー値は、それぞれ与えられた音声を時間軸に沿った電圧値の変化(時間波形)として認識した場合に、その時間波形の時間軸に沿った各時点での振幅値の二乗値をその時間幅で除算して平均化した値であり、クリーン音声の音パワー値とノイズの音パワー値とが適正な比率となるように係数を求め、この係数に従って両者の音量の均衡をとって、実車環境に近似したS/N比で音データの混合を行う。このように混合された音データを用いて音声認識装置の音声認識精度の評価を行うことで、実車環境に近似した状態での音声認識精度の評価を行うことができる。
【0008】
尚、一般に音声認識装置の音声認識の手法としては、1つの文章において、主語、述語、助詞及び接続詞等の複数の単語が所定の文法(例えば日本語文法)に従って連なっていることを前提として、文章中の全ての単語や接続詞を分解して認識し且つ構文解析を行って文章全体を認識する連続音声認識手法と、1つの文章を1つの単語として一続きで認識する単語認識手法とがある。
【0009】
【発明が解決しようとする課題】
ところで、例えば単語認識手法において、話者が肉声での言語音声をクリーン音声として音声収録装置に収録する場合、話者が途中で呼吸を行ったり、または読み上げる文章の途中で文章を目で追うことで言い淀んだりすることがあり、構文の途中で音声が途切れることがある。
【0010】
このように、構文の途中で音声が途切れる場合に、上述のようにクリーン音声の音パワー値を演算すると、文章中に無音部分(即ち音パワー値が極めて小さい部分)が挿入されることから、有音部分のみで構成されたクリーン音声文章の音パワー値に比べて、文章全体としての音パワー値の平均値が大幅に低下する。
【0011】
したがって、このような理由で小さな値として演算された音パワー値のクリーン音声と、連続的な有音部分のみで構成されたノイズとを混合させる場合、クリーン音声の有音部分とノイズとの均衡(S/N比)が実車環境でのS/N比に比べて大きく異なってしまう。そうすると、音声認識装置の評価が正しく行えないこととなってしまう。
【0012】
そこで、この発明の課題は、クリーン音声とノイズを実車環境に近似したS/N比で混合して評価を行うことが可能な音声認識装置の音声認識精度評価方法を提供することにある。
【0013】
【課題を解決するための手段】
上記課題を解決すべく、請求項1に記載の発明は、肉声とノイズとを混合して音声認識装置に入力し、当該音声認識装置の音声認識精度を評価する音声認識精度評価方法であって、前記肉声を音声データとして収録する第1の工程と、前記ノイズを雑音データとして収録する第2の工程と、前記音声データ中の一部の有音部分のみからなるサンプルデータについて第1の音声パワー値を演算する第3の工程と、前記雑音データの第2の音パワー値を演算する第4の工程と、前記第1の音パワー値及び第2の音パワー値に基づいて、予め設定された信号対雑音比に対応した前記音声データと前記雑音データの混合比率を決定する第5の工程と、前記混合比率で前記サンプルデータと前記雑音データとを混合した混合音データを前記音声認識装置に入力し、当該音声認識装置の音声認識精度を評価する第6の工程とを備え、前記サンプルデータは、前記肉声として与えられる一連の語彙中の最初の単語要素の発音に要すると予想される予想時間より短く設定された所定のサンプリング時間に限定して音声データの有音部分を摘出して生成されるものである。
【0014】
請求項2に記載の発明は、請求項1に記載の音声認識装置の音声認識精度評価方法であって、前記サンプリング時間は0.5秒であるものである。
【0015】
請求項3に記載の発明は、請求項1または請求項2に記載の音声認識装置の音声認識精度評価方法であって、前記第1の工程において複数の前記音声データが収録され、前記第6の工程において、複数の前記サンプルデータを間断なく連続して前記雑音データに混合して前記混合音データを生成するものである。
【0016】
【発明の実施の形態】
<構成>
図1はこの発明の一の実施の形態に係る音声認識装置の音声認識精度評価方法を示す図である。この音声認識評価方法は、図1の如く、肉声1とノイズ2とをそれぞれ音声データ1a及び雑音データ2a(これらを総称する場合には以下「音データ」と称す)として音声収録装置3,4で収録した後、これら音声データ1aと雑音データ2aとを混合させて音声認識装置5に入力し、そのときの音声認識装置5の音声認識の正解率から音声認識精度の評価6を行うものであって、特に、音声データ1aと雑音データ2aとを混合させる際のS/N比を調整する際に、音声データ1aの有音部分のみの音パワー値(第1の音パワー値)と雑音データ2aの音パワー値(第2の音パワー値)とを参照し、これら両音パワー値が所望の比率となるように、音声データ1a及び雑音データ2aを混合させるようにしたものである。
【0017】
音声収録装置3,4としては、肉声1及びノイズ2をマイクロフォン装置7,8で採取し、このマイクロフォン装置7,8から出力されるアナログ式電気信号を、例えばWAVE形式等の所定のデータ形式の音ファイルとしてハードディスクドライブ等の所定の内蔵記録装置内に記録格納し、後に当該音ファイルを任意のタイミングで再生可能になっているものであり、例えば、一般のパーソナルコンピュータが使用され、ハードディスク内に予め格納された所定の音声出力用のアプリケーションソフトウェアプログラムに規律されて動作する。ここで、音声収録装置3,4は、所定のディスプレイ装置に音データの時間軸に沿った波形を表示することが可能となっており、また、その時間軸における任意の瞬間の時点を各音ファイルの音データの開始時点からの経過時間(以下「発話開始時間」と称す)として記録し、後の各音ファイルの再生時に、発話開始時間経過後から、指定した時間分だけの音データを再生できるようになっている。さらに、この音声収録装置3,4は、複数の音ファイルを時系列的に連続して再生できるようになっている。
【0018】
尚、マイクロフォン装置7で採取する肉声1は、防音室等のノイズ非混入の環境下でのものであってもよいし、あるいはエンジン稼動状態の自動車等のノイズ混入の環境下のものであってもよい。また、ノイズ2としては、自動車のエンジン音や外部の工事現場での騒音等が使用される。
【0019】
音声収録装置3,4で収録された音声データ1aと雑音データ2aの混合は、所定の音声混合装置(ミキサー)9によって行われる。混合の比重は、雑音データ2aの音パワー値と、音声混合装置9で混合された後の混合音データ9aの音パワー値とに基づいて、S/N比が目的とする基準S/N比に一致するように決定される。かかる混合方法については後に詳述する。
【0020】
音声認識装置5は、例えばカーナビゲーション装置や、あるいはインストゥルメントパネル内のオーディオ機器等の所定の操作を行う場合のインターフェースとして使用されるものであり、入力されたアナログ式の音データを例えば48kHzのサンプリング周波数で16ビットのデータ長の固定長データとして量子化して離散的なディジタル信号に変換した後、隠れマルコフモデル(HMM)の手法を用いて単語認識を行うようになっている。具体的には、入力された音声データを短時間毎に分析し、特徴ベクトル(多次元ケプストラム係数)に変換して、ある短時間における状態を求めておき、予め保有しておいた隠れマルコフモデル(ある状態から別の状態に遷移する場合に、遷移後の状態の統計的性質が直前の状態により予測される確率的なモデル)を使用して、最大確率の経路を探索することで、単語認識を行う。尚、この音声認識装置5は、単語認識手法で音声認識を行うようになっており、上記の「単語」には、複数の単語が一続きに連なった文章をも含む概念である。音声認識装置5の音声認識結果は、文字データからなるテキスト情報として出力され、例えばテキストファイルとして出力できるようになっている。したがって、このテキストファイルを所定のディスプレイ装置に出力して当該ディスプレイ装置の画面上に表示させたり、所定の印刷装置(プリンター)に出力して印刷出力できるようになっている。
【0021】
<動作>
上記構成の音声認識装置の音声認識精度評価方法の動作を説明する。まず、図2中のステップS01の如く、話者が肉声1を第1のマイクロフォン装置7に向けて発し、第1の音声収録装置3に個々の音ファイルとして収録する。
【0022】
この場合、例えば防音室やエンジン停止状態の自動車内等の静かな環境下で収録してもよいが、ただし、防音室やエンジン停止状態の自動車内等の静かな環境下で肉声1を収録したとしても、ある程度の環境ノイズは混入されることになる。このため、肉声1の収録の段階で完全なクリーン音声を収録することは困難であって、ある程度のノイズを許容して肉声1の収録を行うことになることから、この実施の形態では、後工程の補正処理により、クリーン音声の音パワー値を求めることになっている。したがって、肉声1の収録段階で、例えば走行状態の自動車内等の騒音環境下で収録しても差し支えない。
【0023】
尚、話者の発する肉声1としては、例えば「大阪府大阪市都島区網島町」といった都道府県名称、市区町村名及び字名称といった一連の語彙となる地名や、「地名検索」といった所定の熟語等、カーナビゲーション操作等を考慮した予め定められている約100種類の単語列を採用する。
【0024】
次に、ステップS02において、第1の音声収録装置3に収録された音ファイル毎の音声データ1aの発話開始時間を取得する。ここでは、第1の音声収録装置3の所定のディスプレイ装置に音データの時間軸に沿った波形を表示し、この波形を目視して、各音ファイルの発話開始時間を決定し、各音ファイルに対応付けられたデータとして記録する。
【0025】
あるいは、ステップS02においては、各音ファイルについて時間軸に沿った音声データ1aの波形をディスプレイ装置に表示し、その波形上でカーソルを合わせるなどして、音声データ1aの瞬間瞬間のスペクトラム分布を表示し、そのスペクトラム分布が一定の分布値を示し始めたポイントを特定することで、発話開始時間を決定してもよい。
【0026】
さらに、ソフトウェアプログラムとして、音声データ1aの値が急激に大きくなる時点を微分演算等により自動的に検出する機能を有するものを使用している場合には、その検出する機能を用いて検出された時点をもって発話開始時間としてもよい。
【0027】
続いて、ステップS03で、ノイズ2を第2の音声収録装置4に雑音データ2aとして収録する。そして、ステップS04において、収録された雑音データ2aの音パワー値を演算する。この音パワー値は、雑音データ2aの時間波形の時間軸に沿った各時点での振幅値の二乗値をその時間幅で除算して平均化した値である。この音パワー値を以下「ノイズ音パワー値」と称することにする。
【0028】
そして、ステップS05において、発話開始前の短時間から発話開始後の短時間における音声データ1aの音パワー値を計算する。ここでは、時間領域またはFFT(高速フーリエ変換)のアルゴリズムなどを使用して、音声データ1aを周波数領域に変換した状態において音パワー値を演算する。
【0029】
ここで、都道府県名称、市区町村名及び字名称といった一連の語彙となる地名として「大阪府大阪市都島区網島町」という語彙を発音する例を説明する。仮に、図3に示すように、話者が最初の単語の区切りである「おおさかふ」という語を発音するのに、平均的に0.6秒を要するとする。この場合、この「おおさかふ」と発音した後、間断なく次の「おおさかし」という語を発音することが多いと考えられるが、しかしながら、「おおさかふ」と発音した後に次の「おおさかし」という語を発音するまでに、話者の呼吸状態等の要因による言い淀みが生じて、例えば0.1秒程度の無音期間が生じる可能性もある。また、様々な人が話者として「おおさかふ」と発音するのに、平均的に0.6秒を要すると考えられるものの、個人差により早口の人も存在しており、「おおさかふ」と発音するのに0.6秒を要しない場合も起こり得る。したがって、音声データ1aの有音部分のみの音パワー値を演算する際には、発話開始時間後の0.6秒より短いサンプリング時間、具体的には0.5秒のデータを、有音部分のサンプルデータとして音声データ1aから摘出することにする。このようにすると、例えば図4のように、別の「地名検索」といった語を発音する場合においても、0.5秒もあれば、早口でこの語「ちめえけんさく」と発音したとしても、最初の「ちめえ」という有音部分をサンプルデータとして摘出することができ、この「ちめえ」の後に無音部分が例えば0.05秒程度生じたとしても、有音部分のみからなるサンプルデータを摘出することができる。そして、このサンプルデータ内で刻々と変化する振幅値の二乗値をサンプリング時間(0.5秒)で除算して平均化し、これを有音部分のみの音パワー値(以下「有音音声パワー値」と称する)とする。
【0030】
また、このとき、発話開始時間前の振幅値についても、これを二乗した後サンプリング時間で除算しておく。この除算結果は、音声データ1a内に含まれる暗騒音の音パワー値であり、以下「暗騒音音声パワー値」と称することにする。
【0031】
そして、ステップS06において、目的とするS/N比(SNR)を取得する。このSNRは、実際の自動車走行中において自動車のエンジン音や外部の他の自動車の走行音及び工事現場等の外部環境騒音の中で音声認識装置5に話者の肉声を入力する際の音声入力環境を想定したものであり、実測値に基づく経験則により予め定められるものである。
【0032】
続いて、ステップS07において、音声データ1aと雑音データ2aとの混合比率を決定する。ここでは、図5の如く、音声データ1aの有音部分(上記のサンプルデータ)の刻々と変化する振幅値をSvとし、音声データ1aの刻々と変化する暗騒音の振幅値をNvとし、雑音データ2aの刻々と変化する振幅値をCvとし、ステップS06で取得した目的とするS/N比をSNRとすると、音声データ1aと雑音データ2aと混合比率(以下、単に「係数」と称す)kの値は、次の(1)式及び(2)式により求められる。
【0033】
【数1】
【0034】
ただし、
【0035】
【数2】
【0036】
尚、混合比率である係数kは、図6のように、音声データ1aと雑音データ2aとを、実際の自動車走行中を模した環境となるようにS/N比(SNR)を調整して混合する場合に、雑音データ2aの振幅値Cvに積算される係数を意味しており、即ち、音声データ1aの音量レベルと雑音データ2aの音量レベルの比率を「1:k」として音声認識装置5に入力すれば、実際の自動車の走行中の環境に模した混合音データ9aを提供できることを意味している。また、上記(1)式、(2)式及び以下の数式中のバーは、バー下の変数の平均値である旨を意味している。
【0037】
ここで、上記(1)式及び(2)式の考え方を説明する。一般に、S/N比(SNR)は、クリーン音声の音パワー値から、ノイズ及び暗騒音を含む全ての雑音の音パワー値を減算し、この減算後の値を雑音の音パワー値で除算したものであるため、このSNRは恒常的に次の(3)式で表される。
【0038】
【数3】
【0039】
ここで、(3)式中のバー(SvCv)は、音声データ1aの有音部分(サンプルデータ)の振幅値と雑音データ2aの振幅値とを積算した値の平均値であるが、音声データ1aと雑音データ2aとは互いに独立して生起するため相関関係にはなく、したがって、これらの積算値の平均をとった場合は「0」に近似することが経験により解っている。
【0040】
また、(3)式中のバー(NvCv)は、音声データ1aの暗騒音の振幅値と雑音データ2aの振幅値とを積算した値の平均値であるが、上記と同様に、音声データ1aと雑音データ2aとは互いに相関関係にはなく、また暗騒音の振幅値Nvは音声データ1aの振幅値Svよりも極めて小さいため、NvとCvの積算値の平均をとった場合には「0」に近似することが経験により解っている。
【0041】
このことから、(3)式中のバー(SvCv)とバー(NvCv)を「0」とすれば、次の(4)式が導かれる。
【0042】
【数4】
【0043】
ここで、次の(5)式のようにβを定義すれば、上記の(2)式を得ることができ、さらに(5)式より係数kを求めて(1)式を得ることができる。
【0044】
【数5】
【0045】
しかる後、ステップS08において、音声認識装置5に入力される雑音データ2aの音量レベルが、第2の音声収録装置4内の元の雑音データ2aの音量レベルに対して係数k倍になるように音声混合装置(ミキサー)9で音量調整を行う。尚、音声混合装置9で調整される音声データ1aの音量レベルは、第1の音声収録装置3内に収録された音声データ1aの音量レベルを維持する。
【0046】
このように、係数kを予め設定しておき、この係数kを共通として、かかる作業を、第1の音声収録装置3内に採取した100種類の音声データ1aの音ファイルについて実行し、ステップS09において、図7のように複数の音ファイルに係る複数の音声データ(サンプルデータ)1aと雑音データ2aとを、サンプルデータ1aの長さ分ずつずらしながら音声混合装置9で混合する。
【0047】
次に、ステップS10において、時系列的に連続した混合音データ9aのビット長を検出し、16ビットを越える場合(オーバーフロー)には、ステップS11に進み、音声データ1aの値に1/n(ただし、nは2以上の自然数である)を積算して振幅のレンジ調整を行い、ステップS01に戻って全ての処理を再度実行し直す。
【0048】
一方、ステップS10において、混合音データ9aのビット長が16ビット以内に収まる場合は、ステップS12に進み、時系列的に連続した混合音データ9aとして音声認識装置5に向けて音声出力する。尚、このステップS09で連続させる100種類のサンプルデータは、全く異なった100種類の文章の先頭のサンプリング時間の部分を連続させるようにする。あるいは、1種類の文章内において、いくつかの無音部分が生じていた場合に、この無音部分から次の単語の有音部分に切り替わった時点で、その時点から更にサンプリング時間の部分を次のサンプルデータとして連続させるようにしても差し支えない。
【0049】
しかる後、音声認識装置5で音声認識処理を実行し、その音声認識の結果に基づいて、当該音声認識装置5の音声認識精度を評価する。
【0050】
以上のように、車載環境で使用する語彙について、発話開始から最初の単語の発音を開始するのに予想される予想時間(例えば0.6秒間)よりも短いサンプリング時間(例えば0.5秒間)についての音パワー値を計算をすることで、発話間の無音によりS/N比が小さく見積もられる確率が極めて少なくなり、音声データ1aと雑音データ2aの混合比を適正に設定して、自動車の走行環境を模擬しているので、適正な模擬的環境を実現して音声認識装置5の音声認識精度を評価できる。
【0051】
尚、上記のステップS10において、混合音データ9aが16ビットを越える場合(オーバーフロー)に、ステップS11を経てステップS01に戻っていたが、その他、例えばそのままエラー表示を行って処理を終了してもよい。
【0052】
【発明の効果】
請求項1に記載の発明によれば、サンプルデータとして、肉声として与えられる一連の語彙中の最初の単語要素の発音に要すると予想される予想時間より短く設定された所定のサンプリング時間に限定して音声データの有音部分を摘出したものを使用し、この有音部分のみからなるサンプルデータから第1の音パワー値を求め、この第1の音パワー値と雑音データの第2の音パワー値に基づいて、例えば自動車の実際の走行環境等の所望の信号対雑音比に対応した両音データの混合比率を求め、その混合比率で混合音データを生成しているので、無音部分を含んで音パワー値を算出して混合比率を決定していた従来に比べて、自動車の実際の走行環境等の所望の信号対雑音比に正確に対応した混合音データを生成できる。したがって、音声認識装置の評価に際し、より使用環境に対応した評価を行うことができ、評価精度を向上できる。
【0053】
請求項2に記載の発明によれば、サンプリング時間として0.5秒を設定しておけば、肉声中の一連の語彙のなかで無音時間が表れるとしても、最初の単語の有音部分のみをサンプルデータとして収録する可能性が極めて高くなり、無音部分を含まないサンプルデータを用いて混合比率を決定できる。
【0054】
請求項3に記載の発明によれば、複数の前記サンプルデータを間断なく連続して雑音データに混合して混合音データを生成するので、短いサンプリング時間のサンプルデータで音声認識装置の評価を行っても、十分に長時間に渡って音声認識装置の評価を行うことができる。
【図面の簡単な説明】
【図1】この発明の一の実施の形態に係る音声認識装置の音声認識精度評価方法の概要を示すブロック図である。
【図2】この発明の一の実施の形態に係る音声認識装置の音声認識精度評価方法を示すフローチャートである。
【図3】一連の語彙例についての音データの波形を示す図である。
【図4】一連の語彙例についての音データの波形を示す図である。
【図5】音声データ及び雑音データの波形を示す図である。
【図6】混合音データの波形を示す図である。
【図7】サンプルデータと雑音データの混合概念を示す図である。
【符号の説明】
1 肉声
1a 音声データ
2 ノイズ
2a 雑音データ
3 音声収録装置
4 音声収録装置
5 音声認識装置
9 音声混合装置
9a 混合音データ
【発明の属する技術分野】
この発明は、肉声とノイズとを混合して音声認識装置に入力し、当該音声認識装置の音声認識精度を評価する音声認識装置の音声認識精度評価方法に関する。
【0002】
【従来の技術】
音声認識装置の音声認識精度を評価する方法として、実際に音声認識装置が搭載される環境に近い環境で音声認識の正解率を調査する方法がある。
【0003】
例えば、自動車内に搭載する音声認識装置であれば、この音声認識装置を現実に使用する状況として、自動車自体のエンジン音や、道路工事の騒音等の外部の環境ノイズが混入することが極めて多い。したがって、このような音声認識装置の評価については、例えば防音室で録音したようなノイズの少ない音声(クリーン音声)ではなく、種々のノイズを混入させた状態の音声が必要となる。
【0004】
具体的に、まず話者が原稿を読み上げるなどしてクリーン音声を所定の音声収録装置に収録するとともに、自動車のエンジン音や外部の環境ノイズ等の種々のノイズを他の音声収録装置に収録しておき、これらクリーン音声とノイズとを混入した状態で所定の音声収録装置から再生を行って、実車環境に対応した環境での音声認識装置への音声入力を行う。
【0005】
そして、音声認識装置は、入力された音声について音声認識を実行し、その結果得られた文字情報(テキストデータ)と、検査者が読み上げた原稿とを見比べ、その正誤を判断することで、音声認識装置の実車搭載時(即ち、ノイズ混入時)における音声認識精度を調査及び評価することができる。
【0006】
尚、音声認識装置の評価に際しては、言語音声としてのクリーン音声とノイズとの均衡(信号対雑音比、以下「S/N比」と称す)を、様々な実車環境に応じて様々に組み合わせて混入させることが行われる。このクリーン音声とノイズとの均衡(S/N比)は、それぞれの音声収録装置に収録された各音データの各音パワー値と呼ばれるパラメータに基づいて調整される。
【0007】
この音パワー値は、それぞれ与えられた音声を時間軸に沿った電圧値の変化(時間波形)として認識した場合に、その時間波形の時間軸に沿った各時点での振幅値の二乗値をその時間幅で除算して平均化した値であり、クリーン音声の音パワー値とノイズの音パワー値とが適正な比率となるように係数を求め、この係数に従って両者の音量の均衡をとって、実車環境に近似したS/N比で音データの混合を行う。このように混合された音データを用いて音声認識装置の音声認識精度の評価を行うことで、実車環境に近似した状態での音声認識精度の評価を行うことができる。
【0008】
尚、一般に音声認識装置の音声認識の手法としては、1つの文章において、主語、述語、助詞及び接続詞等の複数の単語が所定の文法(例えば日本語文法)に従って連なっていることを前提として、文章中の全ての単語や接続詞を分解して認識し且つ構文解析を行って文章全体を認識する連続音声認識手法と、1つの文章を1つの単語として一続きで認識する単語認識手法とがある。
【0009】
【発明が解決しようとする課題】
ところで、例えば単語認識手法において、話者が肉声での言語音声をクリーン音声として音声収録装置に収録する場合、話者が途中で呼吸を行ったり、または読み上げる文章の途中で文章を目で追うことで言い淀んだりすることがあり、構文の途中で音声が途切れることがある。
【0010】
このように、構文の途中で音声が途切れる場合に、上述のようにクリーン音声の音パワー値を演算すると、文章中に無音部分(即ち音パワー値が極めて小さい部分)が挿入されることから、有音部分のみで構成されたクリーン音声文章の音パワー値に比べて、文章全体としての音パワー値の平均値が大幅に低下する。
【0011】
したがって、このような理由で小さな値として演算された音パワー値のクリーン音声と、連続的な有音部分のみで構成されたノイズとを混合させる場合、クリーン音声の有音部分とノイズとの均衡(S/N比)が実車環境でのS/N比に比べて大きく異なってしまう。そうすると、音声認識装置の評価が正しく行えないこととなってしまう。
【0012】
そこで、この発明の課題は、クリーン音声とノイズを実車環境に近似したS/N比で混合して評価を行うことが可能な音声認識装置の音声認識精度評価方法を提供することにある。
【0013】
【課題を解決するための手段】
上記課題を解決すべく、請求項1に記載の発明は、肉声とノイズとを混合して音声認識装置に入力し、当該音声認識装置の音声認識精度を評価する音声認識精度評価方法であって、前記肉声を音声データとして収録する第1の工程と、前記ノイズを雑音データとして収録する第2の工程と、前記音声データ中の一部の有音部分のみからなるサンプルデータについて第1の音声パワー値を演算する第3の工程と、前記雑音データの第2の音パワー値を演算する第4の工程と、前記第1の音パワー値及び第2の音パワー値に基づいて、予め設定された信号対雑音比に対応した前記音声データと前記雑音データの混合比率を決定する第5の工程と、前記混合比率で前記サンプルデータと前記雑音データとを混合した混合音データを前記音声認識装置に入力し、当該音声認識装置の音声認識精度を評価する第6の工程とを備え、前記サンプルデータは、前記肉声として与えられる一連の語彙中の最初の単語要素の発音に要すると予想される予想時間より短く設定された所定のサンプリング時間に限定して音声データの有音部分を摘出して生成されるものである。
【0014】
請求項2に記載の発明は、請求項1に記載の音声認識装置の音声認識精度評価方法であって、前記サンプリング時間は0.5秒であるものである。
【0015】
請求項3に記載の発明は、請求項1または請求項2に記載の音声認識装置の音声認識精度評価方法であって、前記第1の工程において複数の前記音声データが収録され、前記第6の工程において、複数の前記サンプルデータを間断なく連続して前記雑音データに混合して前記混合音データを生成するものである。
【0016】
【発明の実施の形態】
<構成>
図1はこの発明の一の実施の形態に係る音声認識装置の音声認識精度評価方法を示す図である。この音声認識評価方法は、図1の如く、肉声1とノイズ2とをそれぞれ音声データ1a及び雑音データ2a(これらを総称する場合には以下「音データ」と称す)として音声収録装置3,4で収録した後、これら音声データ1aと雑音データ2aとを混合させて音声認識装置5に入力し、そのときの音声認識装置5の音声認識の正解率から音声認識精度の評価6を行うものであって、特に、音声データ1aと雑音データ2aとを混合させる際のS/N比を調整する際に、音声データ1aの有音部分のみの音パワー値(第1の音パワー値)と雑音データ2aの音パワー値(第2の音パワー値)とを参照し、これら両音パワー値が所望の比率となるように、音声データ1a及び雑音データ2aを混合させるようにしたものである。
【0017】
音声収録装置3,4としては、肉声1及びノイズ2をマイクロフォン装置7,8で採取し、このマイクロフォン装置7,8から出力されるアナログ式電気信号を、例えばWAVE形式等の所定のデータ形式の音ファイルとしてハードディスクドライブ等の所定の内蔵記録装置内に記録格納し、後に当該音ファイルを任意のタイミングで再生可能になっているものであり、例えば、一般のパーソナルコンピュータが使用され、ハードディスク内に予め格納された所定の音声出力用のアプリケーションソフトウェアプログラムに規律されて動作する。ここで、音声収録装置3,4は、所定のディスプレイ装置に音データの時間軸に沿った波形を表示することが可能となっており、また、その時間軸における任意の瞬間の時点を各音ファイルの音データの開始時点からの経過時間(以下「発話開始時間」と称す)として記録し、後の各音ファイルの再生時に、発話開始時間経過後から、指定した時間分だけの音データを再生できるようになっている。さらに、この音声収録装置3,4は、複数の音ファイルを時系列的に連続して再生できるようになっている。
【0018】
尚、マイクロフォン装置7で採取する肉声1は、防音室等のノイズ非混入の環境下でのものであってもよいし、あるいはエンジン稼動状態の自動車等のノイズ混入の環境下のものであってもよい。また、ノイズ2としては、自動車のエンジン音や外部の工事現場での騒音等が使用される。
【0019】
音声収録装置3,4で収録された音声データ1aと雑音データ2aの混合は、所定の音声混合装置(ミキサー)9によって行われる。混合の比重は、雑音データ2aの音パワー値と、音声混合装置9で混合された後の混合音データ9aの音パワー値とに基づいて、S/N比が目的とする基準S/N比に一致するように決定される。かかる混合方法については後に詳述する。
【0020】
音声認識装置5は、例えばカーナビゲーション装置や、あるいはインストゥルメントパネル内のオーディオ機器等の所定の操作を行う場合のインターフェースとして使用されるものであり、入力されたアナログ式の音データを例えば48kHzのサンプリング周波数で16ビットのデータ長の固定長データとして量子化して離散的なディジタル信号に変換した後、隠れマルコフモデル(HMM)の手法を用いて単語認識を行うようになっている。具体的には、入力された音声データを短時間毎に分析し、特徴ベクトル(多次元ケプストラム係数)に変換して、ある短時間における状態を求めておき、予め保有しておいた隠れマルコフモデル(ある状態から別の状態に遷移する場合に、遷移後の状態の統計的性質が直前の状態により予測される確率的なモデル)を使用して、最大確率の経路を探索することで、単語認識を行う。尚、この音声認識装置5は、単語認識手法で音声認識を行うようになっており、上記の「単語」には、複数の単語が一続きに連なった文章をも含む概念である。音声認識装置5の音声認識結果は、文字データからなるテキスト情報として出力され、例えばテキストファイルとして出力できるようになっている。したがって、このテキストファイルを所定のディスプレイ装置に出力して当該ディスプレイ装置の画面上に表示させたり、所定の印刷装置(プリンター)に出力して印刷出力できるようになっている。
【0021】
<動作>
上記構成の音声認識装置の音声認識精度評価方法の動作を説明する。まず、図2中のステップS01の如く、話者が肉声1を第1のマイクロフォン装置7に向けて発し、第1の音声収録装置3に個々の音ファイルとして収録する。
【0022】
この場合、例えば防音室やエンジン停止状態の自動車内等の静かな環境下で収録してもよいが、ただし、防音室やエンジン停止状態の自動車内等の静かな環境下で肉声1を収録したとしても、ある程度の環境ノイズは混入されることになる。このため、肉声1の収録の段階で完全なクリーン音声を収録することは困難であって、ある程度のノイズを許容して肉声1の収録を行うことになることから、この実施の形態では、後工程の補正処理により、クリーン音声の音パワー値を求めることになっている。したがって、肉声1の収録段階で、例えば走行状態の自動車内等の騒音環境下で収録しても差し支えない。
【0023】
尚、話者の発する肉声1としては、例えば「大阪府大阪市都島区網島町」といった都道府県名称、市区町村名及び字名称といった一連の語彙となる地名や、「地名検索」といった所定の熟語等、カーナビゲーション操作等を考慮した予め定められている約100種類の単語列を採用する。
【0024】
次に、ステップS02において、第1の音声収録装置3に収録された音ファイル毎の音声データ1aの発話開始時間を取得する。ここでは、第1の音声収録装置3の所定のディスプレイ装置に音データの時間軸に沿った波形を表示し、この波形を目視して、各音ファイルの発話開始時間を決定し、各音ファイルに対応付けられたデータとして記録する。
【0025】
あるいは、ステップS02においては、各音ファイルについて時間軸に沿った音声データ1aの波形をディスプレイ装置に表示し、その波形上でカーソルを合わせるなどして、音声データ1aの瞬間瞬間のスペクトラム分布を表示し、そのスペクトラム分布が一定の分布値を示し始めたポイントを特定することで、発話開始時間を決定してもよい。
【0026】
さらに、ソフトウェアプログラムとして、音声データ1aの値が急激に大きくなる時点を微分演算等により自動的に検出する機能を有するものを使用している場合には、その検出する機能を用いて検出された時点をもって発話開始時間としてもよい。
【0027】
続いて、ステップS03で、ノイズ2を第2の音声収録装置4に雑音データ2aとして収録する。そして、ステップS04において、収録された雑音データ2aの音パワー値を演算する。この音パワー値は、雑音データ2aの時間波形の時間軸に沿った各時点での振幅値の二乗値をその時間幅で除算して平均化した値である。この音パワー値を以下「ノイズ音パワー値」と称することにする。
【0028】
そして、ステップS05において、発話開始前の短時間から発話開始後の短時間における音声データ1aの音パワー値を計算する。ここでは、時間領域またはFFT(高速フーリエ変換)のアルゴリズムなどを使用して、音声データ1aを周波数領域に変換した状態において音パワー値を演算する。
【0029】
ここで、都道府県名称、市区町村名及び字名称といった一連の語彙となる地名として「大阪府大阪市都島区網島町」という語彙を発音する例を説明する。仮に、図3に示すように、話者が最初の単語の区切りである「おおさかふ」という語を発音するのに、平均的に0.6秒を要するとする。この場合、この「おおさかふ」と発音した後、間断なく次の「おおさかし」という語を発音することが多いと考えられるが、しかしながら、「おおさかふ」と発音した後に次の「おおさかし」という語を発音するまでに、話者の呼吸状態等の要因による言い淀みが生じて、例えば0.1秒程度の無音期間が生じる可能性もある。また、様々な人が話者として「おおさかふ」と発音するのに、平均的に0.6秒を要すると考えられるものの、個人差により早口の人も存在しており、「おおさかふ」と発音するのに0.6秒を要しない場合も起こり得る。したがって、音声データ1aの有音部分のみの音パワー値を演算する際には、発話開始時間後の0.6秒より短いサンプリング時間、具体的には0.5秒のデータを、有音部分のサンプルデータとして音声データ1aから摘出することにする。このようにすると、例えば図4のように、別の「地名検索」といった語を発音する場合においても、0.5秒もあれば、早口でこの語「ちめえけんさく」と発音したとしても、最初の「ちめえ」という有音部分をサンプルデータとして摘出することができ、この「ちめえ」の後に無音部分が例えば0.05秒程度生じたとしても、有音部分のみからなるサンプルデータを摘出することができる。そして、このサンプルデータ内で刻々と変化する振幅値の二乗値をサンプリング時間(0.5秒)で除算して平均化し、これを有音部分のみの音パワー値(以下「有音音声パワー値」と称する)とする。
【0030】
また、このとき、発話開始時間前の振幅値についても、これを二乗した後サンプリング時間で除算しておく。この除算結果は、音声データ1a内に含まれる暗騒音の音パワー値であり、以下「暗騒音音声パワー値」と称することにする。
【0031】
そして、ステップS06において、目的とするS/N比(SNR)を取得する。このSNRは、実際の自動車走行中において自動車のエンジン音や外部の他の自動車の走行音及び工事現場等の外部環境騒音の中で音声認識装置5に話者の肉声を入力する際の音声入力環境を想定したものであり、実測値に基づく経験則により予め定められるものである。
【0032】
続いて、ステップS07において、音声データ1aと雑音データ2aとの混合比率を決定する。ここでは、図5の如く、音声データ1aの有音部分(上記のサンプルデータ)の刻々と変化する振幅値をSvとし、音声データ1aの刻々と変化する暗騒音の振幅値をNvとし、雑音データ2aの刻々と変化する振幅値をCvとし、ステップS06で取得した目的とするS/N比をSNRとすると、音声データ1aと雑音データ2aと混合比率(以下、単に「係数」と称す)kの値は、次の(1)式及び(2)式により求められる。
【0033】
【数1】
【0034】
ただし、
【0035】
【数2】
【0036】
尚、混合比率である係数kは、図6のように、音声データ1aと雑音データ2aとを、実際の自動車走行中を模した環境となるようにS/N比(SNR)を調整して混合する場合に、雑音データ2aの振幅値Cvに積算される係数を意味しており、即ち、音声データ1aの音量レベルと雑音データ2aの音量レベルの比率を「1:k」として音声認識装置5に入力すれば、実際の自動車の走行中の環境に模した混合音データ9aを提供できることを意味している。また、上記(1)式、(2)式及び以下の数式中のバーは、バー下の変数の平均値である旨を意味している。
【0037】
ここで、上記(1)式及び(2)式の考え方を説明する。一般に、S/N比(SNR)は、クリーン音声の音パワー値から、ノイズ及び暗騒音を含む全ての雑音の音パワー値を減算し、この減算後の値を雑音の音パワー値で除算したものであるため、このSNRは恒常的に次の(3)式で表される。
【0038】
【数3】
【0039】
ここで、(3)式中のバー(SvCv)は、音声データ1aの有音部分(サンプルデータ)の振幅値と雑音データ2aの振幅値とを積算した値の平均値であるが、音声データ1aと雑音データ2aとは互いに独立して生起するため相関関係にはなく、したがって、これらの積算値の平均をとった場合は「0」に近似することが経験により解っている。
【0040】
また、(3)式中のバー(NvCv)は、音声データ1aの暗騒音の振幅値と雑音データ2aの振幅値とを積算した値の平均値であるが、上記と同様に、音声データ1aと雑音データ2aとは互いに相関関係にはなく、また暗騒音の振幅値Nvは音声データ1aの振幅値Svよりも極めて小さいため、NvとCvの積算値の平均をとった場合には「0」に近似することが経験により解っている。
【0041】
このことから、(3)式中のバー(SvCv)とバー(NvCv)を「0」とすれば、次の(4)式が導かれる。
【0042】
【数4】
【0043】
ここで、次の(5)式のようにβを定義すれば、上記の(2)式を得ることができ、さらに(5)式より係数kを求めて(1)式を得ることができる。
【0044】
【数5】
【0045】
しかる後、ステップS08において、音声認識装置5に入力される雑音データ2aの音量レベルが、第2の音声収録装置4内の元の雑音データ2aの音量レベルに対して係数k倍になるように音声混合装置(ミキサー)9で音量調整を行う。尚、音声混合装置9で調整される音声データ1aの音量レベルは、第1の音声収録装置3内に収録された音声データ1aの音量レベルを維持する。
【0046】
このように、係数kを予め設定しておき、この係数kを共通として、かかる作業を、第1の音声収録装置3内に採取した100種類の音声データ1aの音ファイルについて実行し、ステップS09において、図7のように複数の音ファイルに係る複数の音声データ(サンプルデータ)1aと雑音データ2aとを、サンプルデータ1aの長さ分ずつずらしながら音声混合装置9で混合する。
【0047】
次に、ステップS10において、時系列的に連続した混合音データ9aのビット長を検出し、16ビットを越える場合(オーバーフロー)には、ステップS11に進み、音声データ1aの値に1/n(ただし、nは2以上の自然数である)を積算して振幅のレンジ調整を行い、ステップS01に戻って全ての処理を再度実行し直す。
【0048】
一方、ステップS10において、混合音データ9aのビット長が16ビット以内に収まる場合は、ステップS12に進み、時系列的に連続した混合音データ9aとして音声認識装置5に向けて音声出力する。尚、このステップS09で連続させる100種類のサンプルデータは、全く異なった100種類の文章の先頭のサンプリング時間の部分を連続させるようにする。あるいは、1種類の文章内において、いくつかの無音部分が生じていた場合に、この無音部分から次の単語の有音部分に切り替わった時点で、その時点から更にサンプリング時間の部分を次のサンプルデータとして連続させるようにしても差し支えない。
【0049】
しかる後、音声認識装置5で音声認識処理を実行し、その音声認識の結果に基づいて、当該音声認識装置5の音声認識精度を評価する。
【0050】
以上のように、車載環境で使用する語彙について、発話開始から最初の単語の発音を開始するのに予想される予想時間(例えば0.6秒間)よりも短いサンプリング時間(例えば0.5秒間)についての音パワー値を計算をすることで、発話間の無音によりS/N比が小さく見積もられる確率が極めて少なくなり、音声データ1aと雑音データ2aの混合比を適正に設定して、自動車の走行環境を模擬しているので、適正な模擬的環境を実現して音声認識装置5の音声認識精度を評価できる。
【0051】
尚、上記のステップS10において、混合音データ9aが16ビットを越える場合(オーバーフロー)に、ステップS11を経てステップS01に戻っていたが、その他、例えばそのままエラー表示を行って処理を終了してもよい。
【0052】
【発明の効果】
請求項1に記載の発明によれば、サンプルデータとして、肉声として与えられる一連の語彙中の最初の単語要素の発音に要すると予想される予想時間より短く設定された所定のサンプリング時間に限定して音声データの有音部分を摘出したものを使用し、この有音部分のみからなるサンプルデータから第1の音パワー値を求め、この第1の音パワー値と雑音データの第2の音パワー値に基づいて、例えば自動車の実際の走行環境等の所望の信号対雑音比に対応した両音データの混合比率を求め、その混合比率で混合音データを生成しているので、無音部分を含んで音パワー値を算出して混合比率を決定していた従来に比べて、自動車の実際の走行環境等の所望の信号対雑音比に正確に対応した混合音データを生成できる。したがって、音声認識装置の評価に際し、より使用環境に対応した評価を行うことができ、評価精度を向上できる。
【0053】
請求項2に記載の発明によれば、サンプリング時間として0.5秒を設定しておけば、肉声中の一連の語彙のなかで無音時間が表れるとしても、最初の単語の有音部分のみをサンプルデータとして収録する可能性が極めて高くなり、無音部分を含まないサンプルデータを用いて混合比率を決定できる。
【0054】
請求項3に記載の発明によれば、複数の前記サンプルデータを間断なく連続して雑音データに混合して混合音データを生成するので、短いサンプリング時間のサンプルデータで音声認識装置の評価を行っても、十分に長時間に渡って音声認識装置の評価を行うことができる。
【図面の簡単な説明】
【図1】この発明の一の実施の形態に係る音声認識装置の音声認識精度評価方法の概要を示すブロック図である。
【図2】この発明の一の実施の形態に係る音声認識装置の音声認識精度評価方法を示すフローチャートである。
【図3】一連の語彙例についての音データの波形を示す図である。
【図4】一連の語彙例についての音データの波形を示す図である。
【図5】音声データ及び雑音データの波形を示す図である。
【図6】混合音データの波形を示す図である。
【図7】サンプルデータと雑音データの混合概念を示す図である。
【符号の説明】
1 肉声
1a 音声データ
2 ノイズ
2a 雑音データ
3 音声収録装置
4 音声収録装置
5 音声認識装置
9 音声混合装置
9a 混合音データ
Claims (3)
- 肉声とノイズとを混合して音声認識装置に入力し、当該音声認識装置の音声認識精度を評価する音声認識精度評価方法であって、
前記肉声を音声データとして収録する第1の工程と、
前記ノイズを雑音データとして収録する第2の工程と、
前記音声データ中の一部の有音部分のみからなるサンプルデータについて第1の音声パワー値を演算する第3の工程と、
前記雑音データの第2の音パワー値を演算する第4の工程と、
前記第1の音パワー値及び第2の音パワー値に基づいて、予め設定された信号対雑音比に対応した前記音声データと前記雑音データの混合比率を決定する第5の工程と、
前記混合比率で前記サンプルデータと前記雑音データとを混合した混合音データを前記音声認識装置に入力し、当該音声認識装置の音声認識精度を評価する第6の工程と
を備え、
前記サンプルデータは、前記肉声として与えられる一連の語彙中の最初の単語要素の発音に要すると予想される予想時間より短く設定された所定のサンプリング時間に限定して音声データの有音部分を摘出して生成されることを特徴とする音声認識装置の音声認識精度評価方法。 - 請求項1に記載の音声認識装置の音声認識精度評価方法であって、
前記サンプリング時間は0.5秒であることを特徴とする音声認識装置の音声認識精度評価方法。 - 請求項1または請求項2に記載の音声認識装置の音声認識精度評価方法であって、
前記第1の工程において複数の前記音声データが収録され、
前記第6の工程において、複数の前記サンプルデータを間断なく連続して前記雑音データに混合し、前記混合音データを生成することを特徴とする音声認識装置の音声認識精度評価方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002182842A JP2004029215A (ja) | 2002-06-24 | 2002-06-24 | 音声認識装置の音声認識精度評価方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002182842A JP2004029215A (ja) | 2002-06-24 | 2002-06-24 | 音声認識装置の音声認識精度評価方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004029215A true JP2004029215A (ja) | 2004-01-29 |
Family
ID=31179232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002182842A Pending JP2004029215A (ja) | 2002-06-24 | 2002-06-24 | 音声認識装置の音声認識精度評価方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004029215A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100655489B1 (ko) | 2004-12-06 | 2006-12-08 | 한국전자통신연구원 | 잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법 |
JP2012141214A (ja) * | 2010-12-28 | 2012-07-26 | Mitsubishi Heavy Ind Ltd | 音量誤差測定装置及び音量誤差測定方法 |
KR101605848B1 (ko) * | 2014-11-24 | 2016-04-01 | 하동경 | 음성인식 성능 평가 방법 및 그 장치 |
CN107342074A (zh) * | 2016-04-29 | 2017-11-10 | 王荣 | 语音和声音的识别方法发明 |
JP2022116320A (ja) * | 2021-06-11 | 2022-08-09 | 阿波▲羅▼智▲聯▼(北京)科技有限公司 | 車載音声機器のテスト方法、装置、電子機器及び記憶媒体 |
JP7532552B2 (ja) | 2020-05-20 | 2024-08-13 | エーアイ スピーチ カンパニー リミテッド | 全二重音声インタラクションシステムのテスト方法及び装置 |
-
2002
- 2002-06-24 JP JP2002182842A patent/JP2004029215A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100655489B1 (ko) | 2004-12-06 | 2006-12-08 | 한국전자통신연구원 | 잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법 |
JP2012141214A (ja) * | 2010-12-28 | 2012-07-26 | Mitsubishi Heavy Ind Ltd | 音量誤差測定装置及び音量誤差測定方法 |
KR101605848B1 (ko) * | 2014-11-24 | 2016-04-01 | 하동경 | 음성인식 성능 평가 방법 및 그 장치 |
CN107342074A (zh) * | 2016-04-29 | 2017-11-10 | 王荣 | 语音和声音的识别方法发明 |
CN107342074B (zh) * | 2016-04-29 | 2024-03-15 | 王荣 | 语音和声音的识别方法 |
JP7532552B2 (ja) | 2020-05-20 | 2024-08-13 | エーアイ スピーチ カンパニー リミテッド | 全二重音声インタラクションシステムのテスト方法及び装置 |
JP2022116320A (ja) * | 2021-06-11 | 2022-08-09 | 阿波▲羅▼智▲聯▼(北京)科技有限公司 | 車載音声機器のテスト方法、装置、電子機器及び記憶媒体 |
JP7308335B2 (ja) | 2021-06-11 | 2023-07-13 | 阿波▲羅▼智▲聯▼(北京)科技有限公司 | 車載音声機器のテスト方法、装置、電子機器及び記憶媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7540080B2 (ja) | 声変換および音声認識モデルを使用した合成データ拡大 | |
KR101683310B1 (ko) | 화법분석을 통한 화자의 특성분석 방법 | |
Pirker et al. | A Pitch Tracking Corpus with Evaluation on Multipitch Tracking Scenario. | |
Zhang et al. | Analysis and classification of speech mode: whispered through shouted. | |
US5791904A (en) | Speech training aid | |
US7280968B2 (en) | Synthetically generated speech responses including prosodic characteristics of speech inputs | |
US7536303B2 (en) | Audio restoration apparatus and audio restoration method | |
CN100587806C (zh) | 语音识别方法和语音识别装置 | |
JP2007122004A (ja) | 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム | |
JPH02242298A (ja) | 声門波形に基づく話者識別装置 | |
WO2007046267A1 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
Ahsiah et al. | Tajweed checking system to support recitation | |
JP4061094B2 (ja) | 音声認識装置、その音声認識方法及びプログラム | |
Eringis et al. | Improving speech recognition rate through analysis parameters | |
JP2006227587A (ja) | 発音評定装置、およびプログラム | |
RU2510954C2 (ru) | Способ переозвучивания аудиоматериалов и устройство для его осуществления | |
JP2004029215A (ja) | 音声認識装置の音声認識精度評価方法 | |
TWI299855B (en) | Detection method for voice activity endpoint | |
JP2000194392A (ja) | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 | |
JP4753412B2 (ja) | 発音評定装置、およびプログラム | |
JP2010060846A (ja) | 合成音声評価システム及び合成音声評価方法 | |
JPH09146580A (ja) | 効果音検索装置 | |
US7092884B2 (en) | Method of nonvisual enrollment for speech recognition | |
JP4778402B2 (ja) | 休止時間長算出装置及びそのプログラム、並びに音声合成装置 | |
JP4962930B2 (ja) | 発音評定装置、およびプログラム |