JP4520619B2 - 音声認識入力音声の音程正規化装置 - Google Patents

音声認識入力音声の音程正規化装置 Download PDF

Info

Publication number
JP4520619B2
JP4520619B2 JP2000327419A JP2000327419A JP4520619B2 JP 4520619 B2 JP4520619 B2 JP 4520619B2 JP 2000327419 A JP2000327419 A JP 2000327419A JP 2000327419 A JP2000327419 A JP 2000327419A JP 4520619 B2 JP4520619 B2 JP 4520619B2
Authority
JP
Japan
Prior art keywords
pitch
speech
voice
input
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000327419A
Other languages
English (en)
Other versions
JP2001195086A (ja
JP2001195086A5 (ja
Inventor
幹夫 小田
友恵 川根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2000327419A priority Critical patent/JP4520619B2/ja
Publication of JP2001195086A publication Critical patent/JP2001195086A/ja
Publication of JP2001195086A5 publication Critical patent/JP2001195086A5/ja
Application granted granted Critical
Publication of JP4520619B2 publication Critical patent/JP4520619B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、不特定話者の音声を認識する音声認識装置において、低音の男性の声や、高音の女性および子供の声にも幅広く音声認識処理が可能な音声認識装置に関するものであり、さらに詳述すれば、認識対象音声の音程を音声認識装置の標準音声の音程に合わせて正規化する入力音声音程正規化装置に関する。
【0002】
【従来の技術】
音声認識技術は近年、デジタル信号処理技術の向上、および処理に用いられるLSIの高性能化且つ低価格化などにより、民生機器に数多く導入されて同機器の操作性向上に役立っている。音声認識装置の基本原理は、入力された音声をデジタル音声信号に変換し、そのデジタル音声信号を予め用意された音声辞書に登録された標準音声データと照合して、入力された音声を認識するものである。そのため、標準音声データと比較しやすいように音声認識対象である特定話者に対して、特別な発声方法を要求したり、それら特定話者の音声を予め音声認識装置に登録しておくなどの対策が採られている。
【0003】
しかしながら、民生機器として音声認識装置を用いる場合に、話者を特定すれば利便性が著しく殺がれ、その商品価値が損なわれる。そのために、不特定話者により発声された音声を音声入力として認識しなければならない。言うまでもなく、不特定話者による発声は様々である。このように不特定話者による変化に富んだ発声に関して、音声認識精度を損なわせる音声認識阻害要因は大きく分けて、発声速度と音声音程との二つである。
【0004】
第1の音声認識阻害要因である発声速度に関しては、例えば、早口の人など、話者によって話す速度に差があることである。つまり、音声認識は入力される音声を、予め用意された音声辞書に登録された標準速度の音声と比較することによって実現される。そのため、両者の発声速度の差が一定以上になると、正しく比較出来ずに、音声認識も不可能になる。
【0005】
第2の音声認識要因である音声音程に関しては、男性の低音の音声、女性や子供による高音の音声など、話者によってその音声の音程に差があることである。この場合にも、予め用意された音声辞書に登録された音声の音程と、不特定話者により発声された音声の音程との差が一定以上になると、両音声を正しく比較出来ずに、音声認識も不可能になる。
【0006】
図7に、上述の問題を解決するものとして特開平9−325798号公報に提案されている音声認識装置を示す。同図に示すように、音声認識装置VRAcは、音声入力部111、発声速度算出部112、発声速度変換率決定部113、発声速度変換部114、および音声認識部115を含む。
音声入力部111は、不特定話者によって発声された音声を取り込んだアナログ音声信号をデジタル信号に変換A/D変換して音声信号を生成する。発声速度算出部112は、音声信号に基づいて入力された不特定話者の音声の発声速度を算出する。発声速度変換率決定部113は、発声速度算出部112で算出された発声速度を基準速度と比較して、速度変換率の決定を行う。発声速度変換部114はその速度変換率に基づいて発声速度を変換する。音声認識部115は、声速度変換部114によって速度変換された入力音声信号の音声認識を行う。
【0007】
次に、音声認識装置VRAcの動作について説明する。不特定話者により発声された音声は、音声入力部111のマイクおよび増幅器を経由して取り込まれ、さらにA/Dコンバータにより、アナログ信号からデジタル信号に変換される。発声速度算出部112は、変換されたデジタルの音声信号から入力音声の一音を切り出す。そして、発声速度算出部112は切り出された一音の切り出し時間より、一音の発声速度を算出する。
【0008】
そこで、発声速度算出部112が一音の切り出しに要する所要時間(以降、「1音切出時間」と称す)をTsとし、不特定話者が一音の発声に要する基準時間(以降、「1音発声基準時間」と称す)をThとする。そして、発声速度変換率決定部113において、1音切出時間Tsおよび一音発声基準時間Thに基づいて、1音発声速度1/Tsと基準一音発声速度1/Thとを比較し、速度変換率αを決定する。速度変換率αは次式(1)によって算出出来る。
α=Ts/Th ・・・・ (1)
【0009】
上記1式から明らかなように、1音切出時間Tsが1音発声基準時間Thより短い、つまり入力音声の発声速度が音声認識装置VRAcによって正確に認識出来る発声速度に比べて早い場合には、速度変換率αは1より小さくなる。この場合、入力音声の発声速度を遅くしてやる必要がある。逆に1音切出時間Tsが1音発声基準時間Thより長い、つまり入力音声の発声速度が音声認識装置VRAcによって正確に認識出来る発声速度に比べて遅い場合には、速度変換率αは1より大きい。この場合、入力音声の発声速度を早くしてやる必要がある。
【0010】
音声認識装置VRAcにおいては、速度変換率αに基づいて発声速度変換部114が発声速度が一定になるように入力音声信号の速度変換して速度変換入力音声信号を生成する。音声認識部115は、速度変換入力音声信号に対して音声認識処理を施して得られた認識結果を出力する。
【0011】
上述の速度変換は最近のデジタル技術を使用することで容易に実現出来る。例えば、入力音声の発声速度を遅くする場合は、入力音声の一音と相関性を有する母音波形を音声信号に複数個追加して音声信号の発声時間を延ばせば良い。また、入力音声の発声速度を速くする場合は、入力音声の一音の母音波形を複数回に渡って音声信号から間引けば良い。
【0012】
この処理は、話速変換と呼ばれる入力音声の音程を変化させることなく話速を変換させる技術である。すなわち、音声認識において、発声速度に個人差がある不特定話者のうち、特に早口でしゃべる話者による発声された音声に対して話速変換技術を利用して、早口の話者により発声された音声の認識率向上を図るものである。
【0013】
【発明が解決しようとする課題】
上述の従来の音声認識装置VRAcにおいては、基準一音発声速度1/Thに比べて、発声速度の異なる不特定話者による音声に対する認識率を向上させること、つまり第1の音声認識阻害要因に対して効果的である。しかしながら、基準音声に対して高低差のある発声音声、つまり第2の音声認識阻害要因である高低差のある発声音声に対しては、認識率の向上は期待出来ない。
【0014】
詳述すれば、音声認識装置VRAcは、男性の低い声、女性、および子供の高い声などの幅広い周波数レンジに対応出来るが、高い音声認識率は実現出来ない。また、早口の場合は、ゆっくり話してもらうなど注意をうながせば済む問題であるが、話者に音色を変えて発声することを望むのは困難である。話者の基準発声周波数は、話者の喉の形状および大きさによって決定される。つまり、話者の喉の形状を変えることは出来ないので、その発声音色も変えることは出来ない。
【0015】
そのため、音声認識装置VRAcにおいては、不特定話者による発声それぞれの音色差に対しても音声認識率の向上を図るには、男性の声、女性、および子供の声など音声認識に必要な異なる音程の標準音声データを複数持ち、話者の音色に応じて、参照する標準音声データを切り替えなければならないという課題を有している。
【0016】
この課題に対する対策としては、入力音声を標準音声データを含めて音声認識装置による音声認識に関して最適な音程に変換することが考えられる。しかしながら、上述の如く不特定話者により発声された音声は様々な音程を有しているので、入力音声を音声認識装置の音声認識にとって最適と思われる所望の音程に合わせて一気に変換するのは困難である。さらに、一気に所望の音程に変換したとしても、話者による発声の癖や単語によっては、正しく認識されない場合ことがある。つまり、音声認識装置や標準音声データから音声認識に最適と思われる音程は、必ずしも最適ではない。
ゆえに、本発明は、音声認識装置おいて、正しく音声認識されたと確認出来る音程に入力音声の音程を正規化する音程正規化装置を提供することを目的とする。
【0017】
【課題を解決するための手段および発明の効果】
第1の発明は、複数の単語の音声認識標準データに基づいて、不特定話者が発声した入力音声を認識する音声認識装置に用いられ、入力音声を音声認識最適音程に正規化する入力音声音程正規化装置であって、
入力音声を所定音程単位で変化させて認識対象音声信号を生成する認識対象音声生成器と、
認識対象音声信号と音声認識標準データの複数の単語のそれぞれとの一致確率を算出する一致確率算出器とを備え、
一致確率の最大値が所定確率以上になるまで認識対象音声信号の音程を繰り返し変化させる音程変換器を備える。
【0018】
上述のように、第1の発明においては、入力音声に対する複数の単語の音声認識標準データと一致確率の最大値が所定値以上になるように、入力音声の音程を調整するので、高速且つ正確に入力音声の正規化が実現出来る。
【0019】
第2の発明は、第1の発明において、音程変換器は、一致確率の最大値が所定確率より小さい場合には、認識対象音声を所定の音程単位で昇音および降音の一方に変化させる調音器を備えることを特徴とする。
【0020】
上述のように、第2の発明においては、入力音声が音声認識標準データに対して低音あるいは高音の場合にも対応出来る。
【0021】
第3の発明は、第2の発明において、入力音声を一時記憶するメモリと、
入力音声の一繋がりをメモリから読み出して認識対象音声信号を生成する読出制御器とをさらに備え、
所定の音程単位で認識対象音声信号の周波数を変換させるように、メモリの読出タイミングクロックの周波数を決定して読出クロック信号を生成する読出クロック制御器とを備えることを特徴とする。
【0022】
第4の発明は、第2の発明において、認識対象音声信号は入力音声と同じ音程から所定音程単位で昇音されることを特徴とする。
【0023】
第5の発明は、第4の発明において、認識対象音声信号の最高音程は第1の所定音程に限定されると共に、最高音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、認識対象音声信号は入力音声と同じ音程から所定音程単位で降音されることを特徴とする。
【0024】
上述のように、第5の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【0025】
第6の発明は、第5の発明において、認識対象音声信号の最低音程は第2の所定音程に限定されると共に、最低音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、正規化を終了することを特徴とする。
【0026】
上述のように、第6の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【0027】
第7の発明は、第2の発明において、認識対象音声信号は入力音声と同じ音程から所定音程単位で降音されることを特徴とする。
【0028】
第8の発明は、第7の発明において、認識対象音声信号の最低音程は第3の所定音程に限定されると共に、最低音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、認識対象音声信号は入力音声と同じ音程から所定音程単位で昇音されることを特徴とする。
【0029】
上述のように、第8の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【0030】
第9の発明は、第8の発明において、認識対象音声信号の最高音程は第4の所定音程に限定されると共に、最高音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、正規化を終了することを特徴とする請求項8に記載の入力音程正規化装置。
【0031】
第10の発明は、複数の単語の音声認識標準データに基づいて、不特定話者が発声した入力音声を音声認識最適音程に正規化した状態で認識する音声認識装置であって、
入力音声を所定音程単位で変化させて認識対象音声信号を生成する認識対象音声生成器と、
認識対象音声信号と音声認識標準データの複数の単語のそれぞれとの一致確率を算出する一致確率算出器と、
一致確率の最大値が所定確率以上になるまで認識対象音声信号の音程を繰り返し変化させる音程変換器を備える音声認識装置。
【0032】
上述のように、第10の発明においては、入力音声に対する複数の単語の音声認識標準データと一致確率の最大値が所定値以上になるように、入力音声の音程を調整するので、高速且つ正確に入力音声の正規化が実現出来る。
【0033】
第11の発明は、第10の発明において、認識対象音声生成器は、一致確率の最大値が所定確率より小さい場合には、認識対象音声を所定の音程単位で昇音および降音の一方に変化させる調音器を備えることを特徴とする。
【0034】
上述のように、第11の発明においては、入力音声が音声認識標準データに対して低音あるいは高音の場合にも対応出来る。
【0035】
第12の発明は、第11の発明において、入力音声を一時記憶するメモリと、
入力音声の一繋がりをメモリから読み出して認識対象音声信号を生成する読出制御器とをさらに備え、
所定の音程単位で認識対象音声信号の周波数が変換されるように、メモリの読出タイミングクロックの周波数を決定して読出クロック信号を生成する読出クロック制御器とを備えることを特徴とする。
【0036】
第13の発明は、第11の発明において、認識対象音声信号は入力音声と同じ音程から所定音程単位で昇音されることを特徴とする。
【0037】
上述のように、第13の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【0038】
第14の発明は、第13の発明において、認識対象音声信号の最高音程は第1の所定音程に限定されると共に、最高音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、認識対象音声信号は入力音声と同じ音程から所定音程単位で降音されることを特徴とする。
【0039】
上述のように、第14の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【0040】
第15の発明は、第14の発明において、認識対象音声信号の最低音程は第2の所定音程に限定されると共に、最低音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、正規化を終了することを特徴とする。
【0041】
第16の発明は、第11の発明において、認識対象音声信号は入力音声と同じ音程から所定音程単位で降音されることを特徴とする。
【0042】
第17の発明は、第16の発明において、認識対象音声信号の最低音程は第3の所定音程に限定されると共に、最低音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、認識対象音声信号は入力音声と同じ音程から所定音程単位で昇音されることを特徴とする。
【0043】
上述のように、第17の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【0044】
第18の発明は、第17の発明において、認識対象音声信号の最高音程は第4の所定音程に限定されると共に、最高音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、正規化を終了することを特徴とする。
【0045】
第19の発明は、複数の単語の音声認識標準データに基づいて、不特定話者が発声した入力音声を認識する音声認識装置に用いられ、入力音声を音声認識最適音程に正規化する入力音声音程正規化方法であって、
入力音声を所定音程単位で変化させて認識対象音声信号を生成するステップと、
認識対象音声信号と音声認識標準データの複数の単語のそれぞれとの一致確率を算出するステップと、
一致確率の最大値が所定確率以上になるまで認識対象音声信号の音程を繰り返し変化させるステップとを備える。
【0046】
上述のように、第19の発明においては、入力音声に対する複数の単語の音声認識標準データと一致確率の最大値が所定値以上になるように、入力音声の音程を調整するので、高速且つ正確に入力音声の正規化が実現出来る。
【0047】
第20の発明は、第19の発明において、一致確率の最大値が所定確率より小さい場合には、認識対象音声を所定の音程単位で昇音および降音の一方に変化させるステップをさらに備えることを特徴とする。
【0048】
上述のように、第20の発明においては、入力音声が音声認識標準データに対して低音あるいは高音の場合にも対応出来る。
【0049】
第21の発明は、第20の発明において、入力音声を一時記憶するステップと、
一時記憶された入力音声の一繋がりから認識対象音声信号を生成するステップと、
所定の音程単位で認識対象音声信号の周波数を変換させるように、メモリの読出タイミングクロックの周波数を決定するステップとを備える。
【0050】
第22の発明は、認識対象音声信号を入力音声と同じ音程から所定音程単位で昇音させるステップをさらに備える請求項20に記載の入力音声音程正規化方法。
【0051】
第23の発明は、第22の発明において、認識対象音声信号の最高音程は第1の所定音程に限定されると共に、
最高音程に到達するまでに、一致確率の最大値が所定確率にならない時は、認識対象音声信号を入力音声と同じ音程から所定音程単位で降音させるステップをさらに備える。
【0052】
上述のように、第23の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【0053】
第24の発明は、第23の発明において、認識対象音声信号の最低音程は第2の所定音程に限定されると共に、
最低音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、正規化を終了させるステップをさらに備える。
【0054】
上述のように、第24の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【0055】
第25の発明は、第20の発明において、認識対象音声信号を入力音声と同じ音程から所定音程単位で降音させるステップをさらに備える。
【0056】
第26の発明は、第25の発明において、認識対象音声信号の最低音程は第3の所定音程に限定されると共に、
最低音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、認識対象音声信号を入力音声と同じ音程から所定音程単位で昇音させるステップをさらに備える。
【0057】
上述のように、第26の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【0058】
第27の発明は、第26の発明において、認識対象音声信号の最高音程は第4の所定音程に限定されると共に、最高音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、正規化を終了させるステップをさらに備える。
【0059】
【発明の実施の形態】
図1を参照して、本発明の実施形態にかかる入力音声音程正規化装置を組み込んだ音声認識装置について説明する。音声認識装置VRApは、A/Dコンバータ1、入力音声正規化装置Tr、標準音声データ格納器13、音声分析器15、および制御器17を含む。標準音声データ格納器13は、音声認識の基準となる複数の単語の周波数パターンPsfを格納し、所定のタイミングで格納している周波数パターンPsfを出力する。なお、不特定話者によって発声された音声はマイクおよび増幅器(図示せず)を経由してアナログ音声信号Svaとして音声認識装置VRApに入力される。
【0060】
制御器17は、音声認識装置VRApの構成要素であるA/Dコンバータ1、入力音声正規化装置Tr、標準音声データ格納器13、および音声分析器15から出力される、それらの動作状態を示す動作状態信号Ssに基づいてそれらの構成要素1、Tr、13、および15の動作を制御する制御信号Scを生成して、音声認識装置VRAp全体の動作を制御する。なお、動作状態信号Ss、制御信号Sc、および制御器17については公知の技術であるので、説明の簡便化のために特に必要のない限りは言及しない。
【0061】
A/Dコンバータ1は、入力されたアナログ音声信号SvaにA/D変換処理を施してデジタル音声信号Svdを生成して、入力音声正規化装置Trに入力する。入力音声正規化装置Trは、入力されたデジタル音声信号Svdに基づいて、音声認識装置VRApの音声認識最適音程を目指して所定量だけ音程変換された音程正規化デジタル音声信号Svcを生成して、音声分析器15に出力する。
【0062】
音声分析器15は、音程正規化デジタル音声信号SvcにFFT(ファーストフーリエ変換)処理を施して、音程正規化デジタル音声信号Svcの周波数パターンPsvc(図示せず)を求める。さらに、音声分析器15は、標準音声データ格納器13から個々の単語の周波数パターンPsfとその単語に対応するコードSrから成る標準音声データを読み出す。そして、音声分析器15は標準音声データの個々の単語の周波数パターンPsfと音程正規化デジタル音声信号Svcの周波数パターンPsvcとを比較して、それぞれの一致度を示す一致確率Pを求める。
【0063】
なお、一致確率Pは、後述するように隠れマルコフモデル(Hidden Markov Model)法に代表される従来の技術によって求められる。標準音声データに含まれる前単語の一致確率Pのうち最大のものを第1位一致確率Pmaxとし、その単語を示すコードSrを最大一致確率コードSrpとする。
【0064】
入力音声正規化装置Trは、第1位一致確率Pmaxに基づいて、標準音声データの複数の単語のうちで、その周波数パターンPsfが音程正規化デジタル音声信号Svcの周波数パターンPsvcに合致するものを認定する。第1位一致確率Pmaxが所定の閾値を有する合致認定基準Pthより大きい場合には、入力音声正規化装置Trはその標準音声データの単語を入力音声と合致するものとして認定して、合致認定信号Sjを音声分析器15に出力して、その認定した単語(音声認識標準データ)を示す最大一致確率コードSrpを音声分析器15から出力させる。この意味において、最大一致確率コードSrpを認識コードSrpと称する。
【0065】
一方、第1位一致確率Pmaxが合致認定基準Pthより小さい場合には、入力音声正規化装置Trはデジタル音声信号Svdの音程を所定量だけ調整して音程正規化デジタル音声信号Svcを再度生成する。そして、この音程調整された音程正規化デジタル音声信号Svcに基づいて、上述の認定処理が繰り返される。つまり、音程調整された音程正規化デジタル音声信号Svcに対応する標準音声データの複数の単語のうちで、毎回の周波数パターン比較において第1位一致確率Pmaxを有するものについて合致判定が行われる。
【0066】
なお、図1に示すように、入力音声正規化装置Trは、メモリ3、読出制御器5、音程最適化器9、および読出クロック制御器11を含む。音程最適化器9は、音声分析器15から入力される第1位一致確率Pmaxに基づいて、音程正規化デジタル音声信号Svcとの標準音声データの特定の単語との合致認定を行う。
【0067】
つまり、合致認定基準Pthが第1位一致確率Pmaxより大きい場合には、音程最適化器9は合致と認定しない。そして、入力音声正規化装置Tr(音声分析器15)への入力である音程正規化デジタル音声信号Svcの音程を音程調整量Niだけ修正するために、音程調整信号Siを読出クロック制御器11に送出する。
【0068】
音程調整量Niおよび音程調整信号Siに示すiは、調整する音程の量を規定する音程調整指数である。なお、本実施形態においては、音程調整指数iは正負の整数の例が開示されているが、任意の値を採ることできることは言うまでもない。さらに、音程調整指数iが整数の場合、その値は音程正規化デジタル音声信号Svcの音程調整サイクルと一致することにより、本明細書においては、必要に応じて音程調整指数iをもって音程調整サイクルを表して説明する。
【0069】
読出クロック制御器11は、音程調整信号Siに基づいて、音程正規化デジタル音声信号Svcの音程を所定量Niだけ変更(昇音あるいは降音)させる読出クロックSccをメモリ3に出力する。
【0070】
読出制御器5は、メモリ3によるデジタル音声信号Svdの保存を監視するとともに読出制御信号Srcを生成して、メモリ3に保存されているデジタル音声信号Svdのうちで独立した発声に対応するものを、読出クロックSccの規定するタイミングで音程正規化デジタル音声信号Svcとして読み出すようにメモリ3を制御する。
【0071】
メモリ3は、読出クロックSccに規定されるタイミングで、保存されているデジタル音声信号Svdを読み出すことによって、デジタル音声信号Svdの音程が音程調整信号Siによって指示された音程Niだけ調整された音程正規化デジタル音声信号Svcを出力する。つまり、音程正規化デジタル音声信号Svcは、音程調整信号Siによって指定された所定の音程調整量Niだけデジタル音声信号Svdの音程が調整された信号である。
【0072】
この所定の音程とは、必ずしも固定である必要はなく、毎回任意の値を採るようにしても良く、音声認識装置VRAp(特に音声分析器15および標準音声データの組み合わせ)の性能によって自ずと決まる許容範囲が認められることは言うまでもない。このように、音程調整量Niだけ音程調整された音程正規化デジタル音声信号Svcを音程正規化デジタル音声信号Svc(Ni)と表現する。なお、その他の信号等においても、必要に応じて同様に表現する。
【0073】
音声分析器15は、メモリ3から新たに入力される音程正規化デジタル音声信号Svcに対して、標準音声データ格納器13に格納されている標準音声データの全て(M個)の単語について一致確率Pを求める。なお、Mは1以上の任意の整数であり、標準音声データとしてその音声周波数成分パターンPsfが含まれる単語に対応するコードSrの総数である。この意味において、Mを標準音声データ単語総数と呼称する。
【0074】
図2に示すように、音声分析器15は最大一致確率決定器15aと合致認定コード出力器15bを含む。標準音声データ格納器13から最大一致確率決定器15aに周波数パターンPsf(m)が出力される毎に、その周波数パターンPsf(m)に対応するコードSr(m)が、標準音声データ格納器13から合致認定コード出力器15bに入力される。
【0075】
合致認定コード出力器15bは次のコードSr(m+1)が入力されるまでこの値を保持する。なお、mは1以上M以下の任意の整数であって、標準音声データ格納器13に格納されている標準音声データに含まれているM個の単語のそれぞれに対応するコードおよび音声周波数成分パターンPsf1〜PsfMの任意の1つを示すパラメータである。
【0076】
最大一致確率決定器15aは、メモリ3から入力される音程正規化デジタル音声信号Svc(Ni)と、標準音声データ格納器13から入力される標準音声の各単語の周波数パターンPsf(m)に基づいて、音程正規化デジタル音声信号Svc(Ni)に関する第1位一致確率Pmax(Ni)を求めて音程最適化器9に出力すると共に、コード保持信号Csrを合致認定コード出力器15bに出力する。
【0077】
コード保持信号Csrに応答して、合致認定コード出力器15bは、その時点で入力されているコードSr(m)を認定候補コードSrp’として保持する。これは後に述べるように、第1位一致確率Pmax(Ni)を有する単語に対応するコードSrは、その一致確率P(つまり第1位一致確率Pmax(Ni))が合致認定基準Pth以上であれば、入力音声(アナログ音声信号Sva)に相当するデジタル音声信号Svdに合致する認識コードSrpであると認定されることより、第1位一致確率Pmax(Ni)を有するコードSr(m)を認定候補コードSrp’として識別するものである。なお、このように認定された認識コードを合致認定コードSrpとして識別する。
【0078】
合致認定コード出力器15bは、最大一致確率決定器15aから入力されるコード保持信号Csrと、標準音声データ格納器13から入力されるコードSr(m)と、音程最適化器9から入力される合致認定信号Sjに基づいて、合致認定コードSrpを音声認識装置VRApの外部に出力する。さらに詳しく述べれば、最大一致確率決定器15aは音程正規化デジタル音声信号Svc(Ni)が入力された後、さらに音程調整された音程正規化デジタル音声信号Svc(N(i+1))が入力されるまで、音程正規化デジタル音声信号Svc(Ni)を保持する。
【0079】
標準音声データ格納器13からは、予め格納されている全ての単語の標準音声データの周波数パターンPsf(m)が次々と入力され、入力の毎にデジタル音声信号Svc(Ni)の周波数パターンPsvc(Ni)との一致確率P(m)が求められる。最大一致確率Pmax(Ni)は音程正規化デジタル音声信号Svc(Ni)と周波数パターンPsf(m)との比較の結果得られる一致確率P(m)がそれまでの一致確率P(m−β)の最大値より大きければ置き換えられるという方法で求められる。なお、βは1以上m以下の任意の整数である。
【0080】
最大一致確率決定器15aは、この置き換えが発生した時は現在の周波数パターンPsf(m)の一致確率P(m)がこれまでの最大値であることを示すコード保持信号Csrを合致認定コード出力器15bへ出力する。この処理は、標準音声データ格納器13に含まれる全M個の単語の周波数パターンPsf1〜PsfMに対して実行されて、第1位一致確率Pmax(Ni)を求める。そして、第1位一致確率Pmax(Ni)は音程最適化器9に出力されて上述の合致認定処理を受けると共に、その第1位一致確率Pmax(Ni)に対応する単語を示す認識信号Sr(m)が認定候補コードSrp’として合致認定コード出力器15bに保存される。
【0081】
最大一致確率決定器15aからコード保持信号Csrが入力された時は、これまでの最大の一致確率Pを有する現在のコードSr(m)を、次にコード保持信号Csrが入力されるまで認定候補コードSrp’として保持する。再度コード保持Csrが入力された場合は、その時の新たなコードSr(m+γ)を認定候補コードSrp’とする。このようにするよって、常に最大一致確率Pmax(Ni)を有する可能性のあるコードSrを認定候補コードSrp’として保持しておく。なお、γは1以上且つ(M−m)以下の任意の整数である。
【0082】
音程正規化デジタル音声信号Svc(Ni)と、それに対応する全ての標準音声データ(周波数パターンPsf(m))との比較が終了した時点で、最大一致確率決定器15aに保持されている最大の一致確率Pを第1位一致確率Pmax(Ni)として、音程最適化器9へ出力される。音程最適化器9では、この第1位一致確率Pmax(Ni)を合致認定基準Pthと比較する。
【0083】
そして、第1位一致確率Pmax(Ni)が合致認定基準Pth以上である場合には、合致認定コード出力器15bに保持されている認定候補コードSrp’が合致認定コードSrpであると認定する合致認定信号Sjが音程最適化器9から合致認定コード出力器15bへ入力される。合致認定コード出力器15bはこの合致認定信号Sjに応答して、入力音声を正しく音声認識した単語を表すものとして合致認定コードSrpを出力する。
【0084】
言い換えると合致認定コードSrpは、音程最適化器9から出力される合致認定信号Sjがなければ、合致認定コード出力器15bから出力されることはない。このときの合致認定コードSrpは音程正規化デジタル音声信号Svc(Ni)に対する一致確率Pが(第1位一致確率Pmax)は合致認定基準Pthより大きい値である。
【0085】
つまり、音程最適化器9は、第1位一致確率Pmaxに基づいて、現時点(i)での音程正規化デジタル音声信号Svc(Ni)に対するコードSrの第1位一致確率Pmaxを合致認定基準Pthと比較する。そして、現在(i)の第1位一致確率Pmaxを有する単語(認定候補コードSrp’)が正しく音声認識されているか否かの判定を行う。この場合、前回(i−1)に最も高い一致確率P、つまり第1位一致確率Pmax(i−1)であった認定候補コードSrp’(i−1)と、今回(i)に第1位一致確率Pmaxを有する単語Srp(i)標準音声データは、同じであるとは限らない。
【0086】
そして、第1位一致確率Pmaxが合致認定基準Pth以上の場合、音程最適化器9は認定候補コードSrp’が音程正規化デジタル音声信号Svcに合致していると認定して音声分析器15にその旨を知らせる合致認定信号Sjを出力する。音声分析器15は合致認定信号Sjを受けて、保持されている認定候補コードSrp’を合致認定コードSrpとして出力する。
【0087】
次に、図3および図4を参照して、音声認識装置VRApの動作の基本原理について説明する。
図3に、音声分析器15によって音程正規化デジタル音声信号Svcに高速フーリエ変換を施した結果得られる、周波数スペクトル(周波数パターンPsvc)の例を示す。同図において、横軸は周波数fを示し、縦軸は強度Aを示している。なお、一点鎖線L1はデジタル音声信号Svdが男性により発声された音声の代表的な周波数スペクトル例を示し、破線L2はデジタル音声信号Svdが女性あるいは子供により発声された音声の代表的な周波数スペクトル例を示している。
【0088】
そして実線Lsは音声認識用の標準音声データとして標準音声データ格納器13に格納されている、線L1およびL2で示される入力音声の周波数スペクトルに対応する単語(コードSr)の周波数スペクトル(周波数パターンPsf)の例を示している。一般的に、同じ音声(単語)でも、男性の場合は一点鎖線L1に示すように標準音声に比べて低周波数領域側に周波数スペクトルが現れ、女性あるいは子供の場合は破線L2に示すように、標準音声に比べて高周波数領域側に周波数スペクトルが現れる。
【0089】
音声分析器15では、このような周波数スペクトルに基づいて、一点鎖線L1や波線L2に代表的に示される不特定話者による音程正規化デジタル音声信号Svcの周波数パターンPsvcと、実線Lsに示される標準音声データの各単語(Sr(m))の周波数パターンPsf(m)とを照合し、それぞれの単語(Sr(m))との一致度P(m)を算出する。なお、この一致確率P(m)の算出には、上述のように隠れマルコフモデル法のような従来の技術によって実現される。
【0090】
標準音声データ格納器13に登録されている標準音声データ(Ls)は、不特定話者の音声認識処理を行う場合は、男声(L1)および女声(L2)の中間を狙って設定されることが多い。そのため、とりわけ低音の男声や高音の女声は周波数(L1、L2)が標準音声データ(Ls)より離れているために、正しい単語に関しても、その一致確率Pが合致認定基準Pthより低くなり正しく認識出来ない。
【0091】
そこで、本発明においては、標準音声データのM個の単語のうちで、その第1位一致確率Pmax(m)が合致認定基準Pthを満たさない場合には、音程正規化デジタル音声信号Svcの音程に原因があると見なして、その音程を調整(昇音あるいは降音)するものである。
【0092】
つまり、音声分析器15によって検出された第1位一致確率Pmax(m)が、音程最適化器9によって合致認定基準Pthを満たしていないと判断された場合は、音程正規化デジタル音声信号Svcを所定の調整音程Niだけ調整させるべく設定された音程調整信号Siを読出クロック制御器11に出力する。
【0093】
上述のように、メモリ3は音程調整量Niだけ調整された音程正規化デジタル音声信号Svc(Ni)を音声分析器15に出力する。音声分析器15は、この調整された音程正規化デジタル音声信号Svc(Ni)に関して、上述の音声分析処理を施して第1位一致確率Pmaxを求める。この場合、前回(i−1)の音声分析処理時に第1位一致確率Pmax(i−1)を有した単語が今回(i)も第1位一致確率Pmax(i)を有するとは限らない。
【0094】
これは、図3を参照して説明したように、線L1およびL2で例示される音程正規化デジタル音声信号Svc(Ni)の周波数パターンPsvc(Ni)と、線Lsで例示される標準音声の周波数パターンPsf(m)との近似度によって、一致確率P(m)は著しく変わるからである。つまり、音程の近似度が低い場合には、音程正規化デジタル音声信号Svcとは異なる単語の一致確率Pのほうが、正しい単語の一致確率Pより高く算出されてしまう一種の誤算定が生じる。
【0095】
この誤算定は、音程の近似度が高くなるほど抑制されると共に、正しい単語の一致確率P自体も大きくなる。本発明では、この点に注目して、音声認識装置VRApの音声認識能力に応じて、合致認定基準Pthを正しく設定することによって、第1位一致確率Pmaxが合致認定基準Pth以上である時には、その単語は正しく音声認識されたと認定するものである。
【0096】
つまり、本発明においては、第1位一致確率Pmaxが合致認定基準Pthを満たすことを条件として繰り返して音程調整して音程正規化デジタル音声信号Svcの音程の正規化を行う。結果、正しく認識された単語の絞り込みは全単語ではなく第1位一致確率Pmaxにのみに基づくことによってデータ処理の負荷を大幅に低減する一方、音声標準データに含まれる全単語を最後まで認識対象としているので高速且つ正確な音声認識を実現するものである。
【0097】
図4を参照して、入力音声正規化装置Tr(読出クロック制御器11)による音程変換処理について、さらに説明する。同図において横軸は時間tを示し、縦軸は音声の強度Aを示す。波形WSは標準音声データ格納器13に格納されている音声波形(周波数パターンPsf(m))の時間変化例を示す。
【0098】
波形WLは標準音声データに比べて音程の低い周波数パターンPsvc(例えば男性の音声)を示し、波形WHは標準音声データに比べて音程の高い周波数パターンPsvc(例えば女性や子供の音声)を示す。同図において、波形WS、波形WL、および波形WHの1周期を、それぞれPL、PS、およびPHと表している。周期PLおよびPHは上述の入力音声基本周波数fiの逆数に相当し、周期PSは標準音声基本周波数fsの逆数に相当する。
【0099】
波形WLを波形WSに合わせて音程変換するには、入力音声波形をA/D変換する時のサンプリングクロックより、速い読み出しクロックで読み出せば実現出来る。波形WLを波形WSに一気に音程変換するには、読出クロックSccの周波数をPL/PS倍にすれば良い。この場合、変換後の音程もPL/PS倍になるが、実際の音程正規化デジタル音声信号Svcの周期PLは毎回異なると共に不定であるので、音程は所定の音程調整量Ni単位で調整するのが好ましい。つまり、本発明においては、読出クロックSccは音程調整量Niに対応した周波数に設定される。なお、波形WHを波形WSに合わせて音程変換する場合についても、読出クロックSccは同様に設定される。
【0100】
このようにして、デジタル音声信号Svdの音程を標準音声の音程に合わせて変換した音程正規化デジタル音声信号Svcが得られる。しかしながら、音程を上げる場合は音声波形の時間軸が短くなり、音程を下がる場合は音声波形の時間軸が長くなるので、話速度が変化してしまう。これを解決するために、音程を上げる場合には母音波形を追加し、音程を下げる場合には母音波形を間引くことにより話速度を調整出来るが、この技術は公知であるとともに、本発明の目的とするところではないので、その説明および図示を省く。さらに、読み出しクロックの周波数変換も、従来から知られているマスタークロックの分周クロックを用いて容易に作成出来る。
【0101】
次に、図5および図6に示すフローチャートを参照して、音声認識装置VRApに組み込まれた入力音声正規化装置Trの個々の動作について説明する。音声認識装置VRApが駆動されて、図5に示す音声認識動作が開始される。
先ず、ステップS2において、入力音声正規化装置Trが初期化される。具体的には、音程正規化デジタル音声信号Svcの調整音程Niを指示する音程調整指数iを0に設定すると共に、音程正規化デジタル音声信号Svcの調整後の音程の許容最大値を示す許容最高音程Nmaxおよび許容最小値を示す許容最低音程Nminのそれぞれを所定の値に設定する。なお、i=0とは、音程正規化デジタル音声信号Svcの音程は、デジタル音声信号Svdの音程と同じことを意味する。そして、処理は次のステップS4に進む。
【0102】
ステップS4において、マイク等の装置を通して不特定話者により発声された音声がアナログ音声信号SvaとしてA/Dコンバータ1に入力される。そして、処理は次のステップS6に進む。
【0103】
ステップS6において、A/Dコンバータ1は入力されたアナログ音声信号Svaを順次A/D変換して、デジタル音声信号Svdを生成してメモリ3に出力する。そして、処理はステップS8に進む。
【0104】
ステップS8において、メモリ3はデジタル音声信号Svdを逐次記憶する。そして、処理は次のステップS10に進む。
【0105】
ステップS10において、読出制御器5はメモリ3の入力状態を監視して、話者による音声入力(アナログ音声信号Sva)が終了したか否かを判断する。この判断は、一例として、アナログ音声信号Svaの入力中断時間が所定の閾値に達しているか否かをもってなされる。その他、話者が入力終了の旨を適当な手段を用いて音声認識装置VRApまたは入力音声正規化装置Trに指示するように構成しても良い。
【0106】
話者の発声が継続している場合はNoと判断されて、処理は上述のステップS4に戻り、ステップS4、S6およびS8における話者による音声入力処理、デジタル音声信号Svdの生成、およびメモリ3への入力処理が継続される。そして、話者による一音または数音から成る独立した音声列のアナログ音声信号Svaの入力が終了した時点でYesと判断されて、話者により発声された音声のデジタル音声信号Svdのメモリ3による記憶は完了されている。ゆえに、処理は次のステップS12に進む。
【0107】
ステップS12において、読出制御器5は、メモリ3に記憶されているデジタル音声信号Svd、読出クロックSccに基づいて音程正規化デジタル音声信号Svc(Ni)として読み出す。なお、この音程正規化デジタル音声信号Svc(Ni)の音程は、デジタル音声信号Svdの音程に対して、読出クロックScc生成の基準である音程調整信号Siに相当する所定量である音程調整量Niだけ調整(昇音あるいは降音)されている。
【0108】
なお、初めてメモリ3から音程正規化デジタル音声信号Svc(Ni)が読み出される場合には、上述のステップS2において、音程調整指数iは0に初期化されているので、音程調整量Niはゼロである。つまり、デジタル音声信号Svdは音程調整されることなく音程正規化デジタル音声信号Svc(Ni)として読み出される。そして、処理はステップS14に進む。
【0109】
ステップS14において、音声分析器15は、音程調整指数iで規定される音程調整量Niだけ音程調整された音程正規化デジタル音声信号Svc(Ni)に対して、フーリエ変換を施して、周波数パターンPsvc(Ni)を生成して周波数スペクトル分析を行う。そして、処理はステップ#100の第1位一致確率Pmax(Ni)検出サブルーチンに進む。
【0110】
ステップ#100においては、音程正規化デジタル音声信号Svc(Ni)の周波数パターンPsvc(Ni)と、標準音声データ格納器13から読み出される個々の単語(Sr)の標準音声データである周波数パターンPsf(m)との一致確率P(m)を検出する。なお、このような入力音声のデジタル音声信号と標準音声データのパターンを比較して、両者の一致確率Pを求める技術は、隠れマルコフモデル(Hidden Markov Model)法に代表される公知の技術を用いることが出来る。
【0111】
図6を参照して、以下にステップ#100における詳細な動作について説明する。ステップ#100の第1位一致確率Pmax(Ni)検出サブルーチンが開始されると、
先ず、ステップS102において、メモリ3から出力された音程正規化デジタル音声信号Svc(Ni)の周波数パターンPsvc(Ni)が音声分析器15の最大一致確率決定器15aに入力される。そして、処理は次のステップS104に進む。
【0112】
ステップS104において、音声分析器15が初期化される。具体的には、最大一致確率決定器15aにおいて、mが1にセットされると共に、第1位一致確率Pmax(Ni)がゼロにセットされる。合致認定コード出力器15bにおいて、認定候補コードSrp’がゼロにセットされる。そして、処理は次のステップS106に進む。
【0113】
ステップS106において、標準音声データ格納器13から周波数パターンPsf(m)およびコードSr(m)が最大一致確率決定器15aおよび合致認定コード出力器15bにそれぞれ入力される。そして、処理は次のステップS108に進む。
【0114】
ステップS108において、最大一致確率決定器15aはステップS102で入力された周波数パターンPsvc(Ni)に対する、ステップS106で取得した周波数パターンPsf(m)の一致確率P(m)を算出する。そして、処理は次のステップS110に進む。
【0115】
ステップS110において、最大一致確率決定器15aによって一致確率P(m)が第1位一致確率Pmax以上であるいか否かが判断される。一致確率P(m)が第1位一致確率Pmax以上の場合は、Yesと判断されて、処理はステップS112に進む。
【0116】
ステップS112においては、最大一致確率決定器15aにおいて第1位一致確率Pmax(Ni)として現時点の一致確率P(m)がセットされる。そして、処理は次のステップS114に進む。
【0117】
ステップS114において、最大一致確率決定器15aはコード保持信号Csrを合致認定コード出力器15bに出力する。そして、処理は次のステップS116に進む。
【0118】
ステップS116において、合致認定コード出力器15bは、コード保持信号Csrに応答して、その時点で保持しているコードSr(m)を認定候補コードSrp’としてセットする。そして、処理は次のステップS118に進む。
【0119】
一方、ステップS110においてNo、つまり一致確率P(m)は第1位一致確率Pmaxより小さいと判断された場合、処理は上述のステップS112、S114、およびS116の処理をスキップして直接ステップS118に進む。
【0120】
ステップS118において、mがMであるか否かが判断される。mがMより小さい場合には、Noと判断されて、処理はステップS120に進む。
【0121】
ステップS120において、mは1だけインクリメントされて、処理は上述のステップS106に戻る。そして、ステップS122におけるインクリメントされてmがMになって、ステップS118でYesと判断されるまで、上述のステップS106〜S120の処理を繰り返す。
【0122】
ステップS118においてYes、つまり標準音声データ格納器13に格納されている標準音声データのM個の周波数パターンPsf(1)〜Psf(M)のそれぞれの一致確率P(m)を求めると共に、求めた一致確率P(m)が第1位一致確率Pmaxであるかの判断を終える。このように、標準音声データ格納器13に格納されている全ての認識信号Srを対象にして、第1位一致確率Pmaxと認定候補コードSrp’を求める。そして、処理はステップS122に進む。
【0123】
ステップS122において、最大一致確率決定器15aは、ステップS112において、内部に保持された第1位一致確率Pmax(Ni)を音程最適化器9に出力する。
【0124】
このようにして、音声分析器15は各標準音声データ(音声周波数成分パターンPsf)と入力音声(アナログ音声信号Sva)の入力音声信号(音程正規化デジタル音声信号Svc)との一致確率Pが一番高い標準音声データ(合致認定コードSrp)の第1位一致確率Pmax(Ni)のみを出力してステップ#100を終了する。そして、処理は図5に示すステップS18に進む。
【0125】
ステップS18において、音程最適化器9は、第1位一致確率Pmax(Ni)に基づいて、第1位一致確率Pmax(Ni)が合致認定基準Pth以上であるか否かを判断する。第1位一致確率Pmax(Ni)が合致認定基準Pthより小さい、つまりその時点(i)で一致確率Pが一番高い標準音声データであっても、正しく音声認識されていると見なすことが出来ない場合には、Noと判断されて処理は、ステップS20に進む。
【0126】
ステップS20において、音程正規化デジタル音声信号Svc(Ni)の音程調整量Niが許容最高音程Nmaxに達しているか否かを示す最高音程フラグFNmaxが1であるか否かが判断される。最高音程フラグFNmaxが1でないつまり、音程調整量Niが最高音程フラグFNmaxに達していない場合にはNoと判断されて、処理はステップS22に進む。
【0127】
ステップS22において、音程調整量Niが許容最高音程Nmax以上であるか否かが判断される。Noの場合、処理はステップS24に進む。
【0128】
ステップS24において、音程調整指数iが1だけインクリメントされる。これは、音程調整量Niが増加(昇音)されることを意味する。そして、処理はステップS26に進む。
【0129】
ステップS26において、音程最適化器9は音程調整信号Siを生成して、読出クロック制御器11に出力する。そして、処理は前述のステップS12に戻る。
【0130】
一方、ステップS22においてYes、つまり音程調整量Niは許容最高音程Nmaxに達していると判断される場合は、処理はステップS28に進む。
【0131】
ステップS28において、最高音程フラグFNmaxが1に設定される。そして、処理はステップS30に進む。
【0132】
ステップS30において、音程調整指数iが0にリセットされる。そして、処理はステップS32に進む。
【0133】
ステップS32において、音程調整量Niが許容最低音程Nmin以下であるか否かが判断される。Noの場合は、処理はステップS34に進む。
【0134】
ステップS34において、音程調整指数iが1だけデクリメントされる。これは、音程調整量Niが減少(降音)されることを意味する。つまり、音程正規化デジタル音声信号Svc(Ni)はデジタル音声信号Svdの音程より音程調整量Niだけ降音される。そして、処理は前述のステップS26に進む。
【0135】
一方、ステップS32においてYes、つまり音程調整量Niが許容最低音程Nmin以下に達していると判断される場合に、処理を終了する。これは、アナログ音声信号Svaは、音声認識出来ないことを意味する。
【0136】
一方、ステップS20おいてYes、つまり最高音程フラグFNmaxが1の(ステップS28で設定されている)場合は、処理はステップS32に進む。
【0137】
一方、ステップS18においてYes、つまり第1位一致確率Pmax(Ni)が合致認定基準Pth以上である場合は、対応する単語(Srp)は正しいと認定される。そして、処理は次のステップS36に進む。
【0138】
ステップS36において、最大一致確率決定器15aは合致認定信号Sjを合致認定コード出力器15bに出力する。そして、処理は次のステップS38に進む。
【0139】
合致認定コード出力器15bは合致認定信号Sjに応答して、ステップS116(#100)でセットされた認定候補コードSrp’を合致認定コードSrpとして音声認識装置VRApから出力させる。そして、音声認識装置VRApの処理を終了する。
【0140】
以上の如く説明したフローチャートに基づいて、音声認識装置VRApの音声認識動作について具体的に説明する。音声認識装置VRApが駆動されて、その音声認識動作が開始されると、先ずステップS2において入力音声正規化装置Trが初期化されて、音程調整指数iが0に、許容最高音程Nmaxおよび許容最低音程Nminのそれぞれ所定の値に設定される。
【0141】
そして、ステップS4、S6、S8およびS10において、不特定話者により発声された音声がデジタル音声信号Svdとしてメモリ3に記憶される。
【0142】
ステップS12において、デジタル音声信号Svdが、ステップS2で初期設定された音程調整指数i(i=0)に対応する読出クロックScc(i)でメモリ3から読み出すことによって、音程正規化デジタル音声信号Svc(Ni)が音声分析器15に出力される。なお、場合i=0であるので、音程調整量Ni=0であり、音程正規化デジタル音声信号Svc(Ni)の音程はデジタル音声信号Svdの音程と同じである。
【0143】
音声分析器15は音程正規化デジタル音声信号Svc(Ni)の周波数スペクトル分析を行う(S14)。さらに、音程調整指数i=0における音程正規化デジタル音声信号Svc(Ni)の周波数パターンPsvc(Ni)と、標準音声データ格納器13から読み出されたM個の標準音声データの周波数パターンPsf(1)〜Psf(M)のそれぞれとの一致確率P(1)〜P(M)を検出する。そして、そのうち一致確率Pの一番高い標準音声データ(認定候補コードSrp’)とその第1位一致確率Pmaxを求めて、そのときの音程調整量Niに関する第1位一致確率Pmax(Ni)を生成する(#100)。
【0144】
音程最適化器9は、第1位一致確率Pmaxが合致認定基準Pth以上であれば、第1位一致確率Pmaxの単語の音声データ(認定候補コードSrp’)がデジタル音声信号Svd、つまり話者の発声した音声に合致していると認定する(S18)。音程最適化器9はさらに、合致認定信号Sjを出力して(S36)、音声分析器15に認定候補コードSrp’を合致認定コードSrpとして出力させる(S38)。
【0145】
一方、ステップS18において、第1位一致確率Pmax(Ni)が合致認定基準Pthより小さい、つまりその時点で一致確率Pが一番高い標準音声データであっても、正しく音声認識されていないと見なす。そして、ステップS20において、最高音程フラグFNmaxに基づいて、デジタル音声信号Svdから音程正規化デジタル音声信号Svc(Ni)を読み出す際に、昇音による音程調整量Niが上限に達していない(つまり、昇音側の音程調整が終了していない)と判断される場合は、ステップS22において音程調整量Niが許容最高音程Nmaxに達していないことを確認したのち、ステップS24において音程調整指数iを1だけインクリメントする。そして、インクリメントされた音程調整指数iを表す音程調整信号Siに基づいて、読出クロックSccを生成してメモリ3に出力する。
【0146】
ステップS12において、メモリ3は読出クロックSccに基づいて、デジタル音声信号Svdに対して音程調整指数iにより指定される音程調整量Niだけ昇音された音程正規化デジタル音声信号Svc(Ni)を出力する。以降、ステップS18でYes、つまり第1位一致確率Pmaxが合致認定基準Pth以上であると判断されるまで、上述のステップS20〜S34の動作を繰り返す。
【0147】
つまり、ステップS22において、音程調整量Niが許容最高音程Nmaxに達していると判断されるまでは、ステップS18においてYesと判断されない限りステップS20〜S26およびS12〜S18のループを繰り返して、所定の音程調整量Niだけ昇音させた(S24、S26、S12)音程正規化デジタル音声信号Svc(Ni)毎に、第1位一致確率Pmax(S14、#100)を求める。
【0148】
この間、音程調整量Niだけ昇音された音程正規化デジタル音声信号Svc(Ni)に対する第1位一致確率Pmaxを有する標準音声データは昇音される毎に違う単語に変わり得る。つまり、前回(i−1)に第1位一致確率Pmax(i−1)を有する標準データである単語は、今回(i)は、例えば第2位以下の一致確率P(i)を有する場合がある。このように、所定の音程調整量Niだけ昇音させる毎に、その音程正規化デジタル音声信号Svc(Ni)の第1位一致確率Pmaxが合致認定基準Pth以上である時に、音声認識は最高の条件で認識されたものと考えて、その第1位一致確率Pmaxに対応する標準音声データを表すコードSrを合致認定コードSrpとして出力する。
【0149】
上述のように本発明においては、最適音声認識条件の対象を第1位一致確率Pmaxのみとすることによって、全ての標準音声データをその一致確率Pの値に関わらず、該最適音声認識条件が満たされるまでは音声認識対象から除外することなく音程正規化デジタル音声信号Svcの音程を調整するものである。なお、本実施形態においては、入力されたアナログ音声信号Sva(デジタル音声信号Svd)の音程を基準(i=0)として、先ず所定の音程調整量Niだけ昇音させる(S22、S22、S26)。そして、最適音程認識条件が満たされた(S12、S14、#100)と認定されない間(S18においてNo)は、許容最高音程Nmaxに向かって昇音し続ける(S22)。
【0150】
そして、許容最高音程Nmaxまで昇音(S22)しても、最適音程認識条件が満たされたと認定されない場合(S18においてNo)には、最高音程フラグFNmaxを1にセット(S28)と共に音程調整指数iを0にリセットして(S30)、音程を降音調整モードに切り替える。
【0151】
降音調整モードにおいては、最高音程フラグFNmaは1である(S20)ので、上述の昇音調整モードにおける昇音プロセス(S22、S24)をスキップする。音程調整量Niが許容最低音程Nminに到達するまでは(ステップS32において、No)、音程調整指数iを1ずつデクリメントして(S34)音程調整信号Siを生成する(S34)。
【0152】
結果、入力されたアナログ音声信号Sva(デジタル音声信号Svd)の音程を基準(i=0)として、先ず所定の音程調整量Niだけ降音して行き(S32、S34、S26、S12、S14、#100)、最適音程認識条件が満たされたと認定されない間(S18においてNo)は、許容最低音程Nminまで降音する。そして、昇音モードあるいは降音モード中に、第1位一致確率Pmaxが合致認定基準Pth以上である(ステップS18においてYes)と判断されない場合は、降音モードを経て(S32においてYes)、処理を終了する。
【0153】
なお、本実施形態においては、音程正規化デジタル音声信号Svcをデジタル音声信号Svdの音程から許容最高音程Nmaxまで昇音させた後に、デジタル音声信号Svdの音程まで戻してさらに許容最低音程Nminまで降音させるようにしている。しかしながら、音程正規化デジタル音声信号Svcをデジタル音声信号Svdの音程から許容最低音程Nminまで降音させた後に、デジタル音声信号Svdの音程まで戻してさらに許容最高音程Nmaxまで昇音させるように構成することは、上記開示より容易である。
【0154】
さらに、音程正規化デジタル音声信号Svcを許容最高音程Nmaxに一気に昇音させた後に、許容最低音程Nminまで順次降音させるように構成することも、上記開示より容易である。
また、許容最低音程Nminから許容最高音程Nmaxの範囲で、音程調整するかわりに、デジタル音声信号Svdから許容最低音程Nminとか、デジタル音声信号Svdから許容最高音程Nmaxの範囲で音程調整するように構成することは、上記開示より容易である。
【0155】
以上のように、本発明においては、第1位一致確率Pmaxが合致認定基準Pthを満たすことを条件として繰り返して音程調整して音程の正規化を行うことによって音声標準データに含まれる全単語を最後まで認識対象として保持しながら、正しく認識された単語の絞り込みは全単語ではなく第1位一致確率Pmaxにのみに基づくことによってデータ処理の負荷を大幅に低減して、高速且つ正確な音声認識を実現するものである。
【図面の簡単な説明】
【図1】本発明の実施の形態にかかる入力音声正規化装置を組み込んだ音声認識装置の構成を示すブロック図である。
【図2】図1の音声分析器の詳細を示すブロックである。
【図3】異なる音程を有する音声の周波数スペクトルを示す図である。
【図4】音声波形の時間変化例およびそれらの間で行われる音程変換方法の説明図である。
【図5】図1に示した入力音声正規化装置の動作を示すフローチャートである。
【図6】図5に示した第1位一致確率Pmax(Ni)サブルーチンにおける動作の詳細を示すフローチャートである。
【図7】従来の音声認識装置の構成を示すブロック図である。
【符号の説明】
VRAp 音声認識装置
1 A/Dコンバータ
13 標準音声データ格納器
15 音声分析器
15a 最大一致確率決定器
15b 合致認定コード出力器
17 制御器
Tr 入力音声正規化装置
3 メモリ
5 読出制御器
9 音程最適化器
11 読出クロック制御器
VRAc 音声認識装置
111 音声入力部
112 発声速度算出部
113 発声速度変換率決定部
114 発声速度変換部
115 音声認識部

Claims (27)

  1. 複数の単語の音声認識標準データに基づいて、不特定話者が発声した入力音声を認識する音声認識装置に用いられ、当該入力音声を音声認識最適音程に正規化する入力音声音程正規化装置であって、
    前記入力音声を所定音程単位で変化させて認識対象音声信号を生成する認識対象音声生成手段と、
    前記認識対象音声信号と前記音声認識標準データの複数の単語のそれぞれとの一致確率を算出する一致確率算出手段とを備え、
    前記一致確率の最大値が所定確率以上になるまで前記認識対象音声信号の音程を繰り返し変化させる音程変換手段を備える入力音声音程正規化装置。
  2. 前記音程変換手段は、前記一致確率の最大値が前記所定確率より小さい場合には、前記認識対象音声を所定の音程単位で昇音および降音の一方に変化させる調音手段を備えることを特徴とする請求項1に記載の入力音声音程正規化装置。
  3. 前記入力音声を一時記憶するメモリ手段と、
    前記入力音声の一繋がりを前記メモリ手段から読み出して認識対象音声信号を生成する読出制御手段とをさらに備え、
    前記所定の音程単位で前記認識対象音声信号の周波数を変換させるように、前記メモリ手段の読出タイミングクロックの周波数を決定して読出クロック信号を生成する読出クロック制御手段とを備えることを特徴とする請求項2に記載の入力音声音程正規化装置。
  4. 前記認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で昇音されることを特徴とする請求項2に記載の入力音声音程正規化装置。
  5. 前記認識対象音声信号の最高音程は第1の所定音程に限定されると共に、当該最高音程に到達するまでに、前記一致確率の前記最大値が前記所定確率以上にならない時は、前記認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で降音されることを特徴とする請求項4に記載の入力音声音程正規化装置。
  6. 前記認識対象音声信号の最低音程は第2の所定音程に限定されると共に、当該最低音程に到達するまでに、前記一致確率の最大値が所定確率以上にならない時は、前記正規化を終了することを特徴とする請求項5に記載の入力音声音程正規化装置。
  7. 前記認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で降音されることを特徴とする請求項2に記載の入力音声音程正規化装置。
  8. 前記認識対象音声信号の最低音程は第3の所定音程に限定されると共に、当該最低音程に到達するまでに、前記一致確率の前記最大値が前記所定確率以上にならない時は、当該認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で昇音されることを特徴とする請求項7に記載の入力音程正規化装置。
  9. 前記認識対象音声信号の最高音程は第4の所定音程に限定されると共に、当該最高音程に到達するまでに、前記一致確率の前記最大値が前記所定確率以上にならない時は、前記正規化を終了することを特徴とする請求項8に記載の入力音程正規化装置。
  10. 複数の単語の音声認識標準データに基づいて、不特定話者が発声した入力音声を音声認識最適音程に正規化した状態で認識する音声認識装置であって、
    前記入力音声を所定音程単位で変化させて認識対象音声信号を生成する認識対象音声生成手段と、
    前記認識対象音声信号と前記音声認識標準データの複数の単語のそれぞれとの一致確率を算出する一致確率算出手段と、
    前記一致確率の最大値が所定確率以上になるまで前記認識対象音声信号の音程を繰り返し変化させる音程変換手段を備える音声認識装置。
  11. 前記認識対象音声生成手段は、前記一致確率の最大値が前記所定確率より小さい場合には、前記認識対象音声を所定の音程単位で昇音および降音の一方に変化させる調音手段を備えることを特徴とする請求項10に記載の音声認識装置。
  12. 前記入力音声を一時記憶するメモリ手段と、
    前記入力音声の一繋がりを前記メモリ手段から読み出して認識対象音声信号を生成する読出制御手段とをさらに備え、
    前記所定の音程単位で前記認識対象音声信号の周波数が変換されるように、前記メモリ手段の読出タイミングクロックの周波数を決定して読出クロック信号を生成する読出クロック制御手段とを備えることを特徴とする請求項11に記載の音声認識装置。
  13. 前記認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で昇音されることを特徴とする請求項11に記載の音声認識装置。
  14. 前記認識対象音声信号の最高音程は第1の所定音程に限定されると共に、当該最高音程に到達するまでに、前記一致確率の最大値が所定確率以上にならない時は、前記認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で降音されることを特徴とする請求項13に記載の音声認識装置。
  15. 前記認識対象音声信号の最低音程は第2の所定音程に限定されると共に、当該最低音程に到達するまでに、前記一致確率の最大値が所定確率以上にならない時は、前記正規化を終了することを特徴とする請求項14に記載の音声認識装置。
  16. 前記認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で降音されることを特徴とする請求項11に記載の音声認識装置。
  17. 前記認識対象音声信号の最低音程は第3の所定音程に限定されると共に、当該最低音程に到達するまでに、前記一致確率の最大値が所定確率以上にならない時は、前記認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で昇音されることを特徴とする請求項16に記載の音声認識装置。
  18. 前記認識対象音声信号の最高音程は第4の所定音程に限定されると共に、当該最高音程に到達するまでに、前記一致確率の最大値が所定確率以上にならない時は、前記正規化を終了する請求項17に記載の音声認識装置。
  19. 複数の単語の音声認識標準データに基づいて、不特定話者が発声した入力音声を認識する音声認識装置に用いられ、当該入力音声を音声認識最適音程に正規化する入力音声音程正規化方法であって、
    前記入力音声を所定音程単位で変化させて認識対象音声信号を生成するステップと、
    前記認識対象音声信号と前記音声認識標準データの複数の単語のそれぞれとの一致確率を算出するステップと、
    前記一致確率の最大値が所定確率以上になるまで前記認識対象音声信号の音程を繰り返し変化させるステップとを備える入力音声音程正規化方法。
  20. 前記一致確率の最大値が前記所定確率より小さい場合には、前記認識対象音声を所定の音程単位で昇音および降音の一方に変化させるステップをさらに備えること請求項19に記載の入力音声音程正規化方法。
  21. 前記入力音声を一時記憶するステップと、
    前記一時記憶された入力音声の一繋がりから認識対象音声信号を生成するステップと、
    前記所定の音程単位で前記認識対象音声信号の周波数を変換させるように、前記メモリ手段の読出タイミングクロックの周波数を決定するステップとを備える請求項20に記載の入力音声音程正規化方法。
  22. 前記認識対象音声信号を前記入力音声と同じ音程から前記所定音程単位で昇音させるステップをさらに備える請求項20に記載の入力音声音程正規化方法。
  23. 前記認識対象音声信号の最高音程は第1の所定音程に限定されると共に、
    当該最高音程に到達するまでに、前記一致確率の前記最大値が前記所定確率にならない時は、前記認識対象音声信号を前記入力音声と同じ音程から前記所定音程単位で降音させるステップをさらに備える請求項22に記載の入力音声音程正規化方法。
  24. 前記認識対象音声信号の最低音程は第2の所定音程に限定されると共に、
    当該最低音程に到達するまでに、前記一致確率の最大値が所定確率以上にならない時は、前記正規化を終了させるステップをさらに備える請求項23に記載の入力音声音程正規化方法。
  25. 前記認識対象音声信号を前記入力音声と同じ音程から前記所定音程単位で降音させるステップをさらに備える請求項20に記載の入力音声音程正規化方法。
  26. 前記認識対象音声信号の最低音程は第3の所定音程に限定されると共に、
    当該最低音程に到達するまでに、前記一致確率の前記最大値が前記所定確率以上にならない時は、当該認識対象音声信号を前記入力音声と同じ音程から前記所定音程単位で昇音させるステップをさらに備える請求項25に記載の入力音声音程正規化方法。
  27. 前記認識対象音声信号の最高音程は第4の所定音程に限定されると共に、当該最高音程に到達するまでに、前記一致確率の前記最大値が前記所定確率以上にならない時は、前記正規化を終了させるステップをさらに備える請求項26に記載の入力音声音程正規化方法。
JP2000327419A 1999-10-29 2000-10-26 音声認識入力音声の音程正規化装置 Expired - Fee Related JP4520619B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000327419A JP4520619B2 (ja) 1999-10-29 2000-10-26 音声認識入力音声の音程正規化装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP11-309290 1999-10-29
JP30929099 1999-10-29
JP2000327419A JP4520619B2 (ja) 1999-10-29 2000-10-26 音声認識入力音声の音程正規化装置

Publications (3)

Publication Number Publication Date
JP2001195086A JP2001195086A (ja) 2001-07-19
JP2001195086A5 JP2001195086A5 (ja) 2007-11-15
JP4520619B2 true JP4520619B2 (ja) 2010-08-11

Family

ID=26565906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000327419A Expired - Fee Related JP4520619B2 (ja) 1999-10-29 2000-10-26 音声認識入力音声の音程正規化装置

Country Status (1)

Country Link
JP (1) JP4520619B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1904816A4 (en) * 2005-07-18 2014-12-24 Diego Giuseppe Tognola METHOD AND SYSTEM FOR PROCESSING SIGNALS

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6366600A (ja) * 1986-06-06 1988-03-25 スピ−チ・システムズ・インコ−ポレ−テツド 話者の音声を前処理して次の処理のための正規化された信号を得る方法および装置
JPH0543199U (ja) * 1991-11-06 1993-06-11 株式会社東芝 音響再生装置
US5839099A (en) * 1996-06-11 1998-11-17 Guvolt, Inc. Signal conditioning apparatus
US5960393A (en) * 1995-07-31 1999-09-28 Lucent Technologies Inc. User selectable multiple threshold criteria for voice recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6366600A (ja) * 1986-06-06 1988-03-25 スピ−チ・システムズ・インコ−ポレ−テツド 話者の音声を前処理して次の処理のための正規化された信号を得る方法および装置
JPH0543199U (ja) * 1991-11-06 1993-06-11 株式会社東芝 音響再生装置
US5960393A (en) * 1995-07-31 1999-09-28 Lucent Technologies Inc. User selectable multiple threshold criteria for voice recognition
US5839099A (en) * 1996-06-11 1998-11-17 Guvolt, Inc. Signal conditioning apparatus

Also Published As

Publication number Publication date
JP2001195086A (ja) 2001-07-19

Similar Documents

Publication Publication Date Title
KR100531549B1 (ko) 음성 인식 입력 음성의 음정 정규화 장치
US7593849B2 (en) Normalization of speech accent
US6535852B2 (en) Training of text-to-speech systems
EP0970466B1 (en) Voice conversion
US4661915A (en) Allophone vocoder
US6553342B1 (en) Tone based speech recognition
US7319959B1 (en) Multi-source phoneme classification for noise-robust automatic speech recognition
US4424415A (en) Formant tracker
WO1999021168A1 (en) Parameter sharing speech recognition system
EP0071716B1 (en) Allophone vocoder
JP2007316330A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP4520619B2 (ja) 音声認識入力音声の音程正規化装置
KR100423630B1 (ko) 음성인식 입력음성의 음정 정규화장치
JPH09325798A (ja) 音声認識装置
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
Ljolje Speech recognition using fundamental frequency and voicing in acoustic modeling
JP2001042889A (ja) 音声認識入力音声の音程正規化装置
RU80000U1 (ru) Устройство для фонетического анализа речи
JP4517457B2 (ja) 音声認識装置、及び音声認識方法
US20090063149A1 (en) Speech retrieval apparatus
KR0169592B1 (ko) 음성 특징의 적응에 의한 음성 인식기의 성능 개선 방법
JP3689616B2 (ja) 音声認識装置及び音声認識方法、音声認識システム、並びに、プログラム記録媒体
KR100350003B1 (ko) 음성신호로부터워드를결정하는시스템
RU2268504C9 (ru) Способ распознавания фонем речи и устройство для реализации способа
EP1422691B1 (en) Method for adapting a speech recognition system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070927

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070927

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100517

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100521

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees