JP4520619B2

JP4520619B2 - 音声認識入力音声の音程正規化装置

Info

Publication number: JP4520619B2
Application number: JP2000327419A
Authority: JP
Inventors: 幹夫小田; 友恵川根
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1999-10-29
Filing date: 2000-10-26
Publication date: 2010-08-11
Anticipated expiration: 2020-10-26
Also published as: JP2001195086A

Description

【０００１】
【発明の属する技術分野】
本発明は、不特定話者の音声を認識する音声認識装置において、低音の男性の声や、高音の女性および子供の声にも幅広く音声認識処理が可能な音声認識装置に関するものであり、さらに詳述すれば、認識対象音声の音程を音声認識装置の標準音声の音程に合わせて正規化する入力音声音程正規化装置に関する。
【０００２】
【従来の技術】
音声認識技術は近年、デジタル信号処理技術の向上、および処理に用いられるＬＳＩの高性能化且つ低価格化などにより、民生機器に数多く導入されて同機器の操作性向上に役立っている。音声認識装置の基本原理は、入力された音声をデジタル音声信号に変換し、そのデジタル音声信号を予め用意された音声辞書に登録された標準音声データと照合して、入力された音声を認識するものである。そのため、標準音声データと比較しやすいように音声認識対象である特定話者に対して、特別な発声方法を要求したり、それら特定話者の音声を予め音声認識装置に登録しておくなどの対策が採られている。
【０００３】
しかしながら、民生機器として音声認識装置を用いる場合に、話者を特定すれば利便性が著しく殺がれ、その商品価値が損なわれる。そのために、不特定話者により発声された音声を音声入力として認識しなければならない。言うまでもなく、不特定話者による発声は様々である。このように不特定話者による変化に富んだ発声に関して、音声認識精度を損なわせる音声認識阻害要因は大きく分けて、発声速度と音声音程との二つである。
【０００４】
第１の音声認識阻害要因である発声速度に関しては、例えば、早口の人など、話者によって話す速度に差があることである。つまり、音声認識は入力される音声を、予め用意された音声辞書に登録された標準速度の音声と比較することによって実現される。そのため、両者の発声速度の差が一定以上になると、正しく比較出来ずに、音声認識も不可能になる。
【０００５】
第２の音声認識要因である音声音程に関しては、男性の低音の音声、女性や子供による高音の音声など、話者によってその音声の音程に差があることである。この場合にも、予め用意された音声辞書に登録された音声の音程と、不特定話者により発声された音声の音程との差が一定以上になると、両音声を正しく比較出来ずに、音声認識も不可能になる。
【０００６】
図７に、上述の問題を解決するものとして特開平９−３２５７９８号公報に提案されている音声認識装置を示す。同図に示すように、音声認識装置ＶＲＡｃは、音声入力部１１１、発声速度算出部１１２、発声速度変換率決定部１１３、発声速度変換部１１４、および音声認識部１１５を含む。
音声入力部１１１は、不特定話者によって発声された音声を取り込んだアナログ音声信号をデジタル信号に変換Ａ／Ｄ変換して音声信号を生成する。発声速度算出部１１２は、音声信号に基づいて入力された不特定話者の音声の発声速度を算出する。発声速度変換率決定部１１３は、発声速度算出部１１２で算出された発声速度を基準速度と比較して、速度変換率の決定を行う。発声速度変換部１１４はその速度変換率に基づいて発声速度を変換する。音声認識部１１５は、発声速度変換部１１４によって速度変換された入力音声信号の音声認識を行う。
【０００７】
次に、音声認識装置ＶＲＡｃの動作について説明する。不特定話者により発声された音声は、音声入力部１１１のマイクおよび増幅器を経由して取り込まれ、さらにＡ／Ｄコンバータにより、アナログ信号からデジタル信号に変換される。発声速度算出部１１２は、変換されたデジタルの音声信号から入力音声の一音を切り出す。そして、発声速度算出部１１２は切り出された一音の切り出し時間より、一音の発声速度を算出する。
【０００８】
そこで、発声速度算出部１１２が一音の切り出しに要する所要時間（以降、「１音切出時間」と称す）をＴｓとし、不特定話者が一音の発声に要する基準時間（以降、「１音発声基準時間」と称す）をＴｈとする。そして、発声速度変換率決定部１１３において、１音切出時間Ｔｓおよび一音発声基準時間Ｔｈに基づいて、１音発声速度１／Ｔｓと基準一音発声速度１／Ｔｈとを比較し、速度変換率αを決定する。速度変換率αは次式（１）によって算出出来る。
α＝Ｔｓ／Ｔｈ・・・・（１）
【０００９】
上記１式から明らかなように、１音切出時間Ｔｓが１音発声基準時間Ｔｈより短い、つまり入力音声の発声速度が音声認識装置ＶＲＡｃによって正確に認識出来る発声速度に比べて早い場合には、速度変換率αは１より小さくなる。この場合、入力音声の発声速度を遅くしてやる必要がある。逆に１音切出時間Ｔｓが１音発声基準時間Ｔｈより長い、つまり入力音声の発声速度が音声認識装置ＶＲＡｃによって正確に認識出来る発声速度に比べて遅い場合には、速度変換率αは１より大きい。この場合、入力音声の発声速度を早くしてやる必要がある。
【００１０】
音声認識装置ＶＲＡｃにおいては、速度変換率αに基づいて発声速度変換部１１４が発声速度が一定になるように入力音声信号の速度変換して速度変換入力音声信号を生成する。音声認識部１１５は、速度変換入力音声信号に対して音声認識処理を施して得られた認識結果を出力する。
【００１１】
上述の速度変換は最近のデジタル技術を使用することで容易に実現出来る。例えば、入力音声の発声速度を遅くする場合は、入力音声の一音と相関性を有する母音波形を音声信号に複数個追加して音声信号の発声時間を延ばせば良い。また、入力音声の発声速度を速くする場合は、入力音声の一音の母音波形を複数回に渡って音声信号から間引けば良い。
【００１２】
この処理は、話速変換と呼ばれる入力音声の音程を変化させることなく話速を変換させる技術である。すなわち、音声認識において、発声速度に個人差がある不特定話者のうち、特に早口でしゃべる話者による発声された音声に対して話速変換技術を利用して、早口の話者により発声された音声の認識率向上を図るものである。
【００１３】
【発明が解決しようとする課題】
上述の従来の音声認識装置ＶＲＡｃにおいては、基準一音発声速度１／Ｔｈに比べて、発声速度の異なる不特定話者による音声に対する認識率を向上させること、つまり第１の音声認識阻害要因に対して効果的である。しかしながら、基準音声に対して高低差のある発声音声、つまり第２の音声認識阻害要因である高低差のある発声音声に対しては、認識率の向上は期待出来ない。
【００１４】
詳述すれば、音声認識装置ＶＲＡｃは、男性の低い声、女性、および子供の高い声などの幅広い周波数レンジに対応出来るが、高い音声認識率は実現出来ない。また、早口の場合は、ゆっくり話してもらうなど注意をうながせば済む問題であるが、話者に音色を変えて発声することを望むのは困難である。話者の基準発声周波数は、話者の喉の形状および大きさによって決定される。つまり、話者の喉の形状を変えることは出来ないので、その発声音色も変えることは出来ない。
【００１５】
そのため、音声認識装置ＶＲＡｃにおいては、不特定話者による発声それぞれの音色差に対しても音声認識率の向上を図るには、男性の声、女性、および子供の声など音声認識に必要な異なる音程の標準音声データを複数持ち、話者の音色に応じて、参照する標準音声データを切り替えなければならないという課題を有している。
【００１６】
この課題に対する対策としては、入力音声を標準音声データを含めて音声認識装置による音声認識に関して最適な音程に変換することが考えられる。しかしながら、上述の如く不特定話者により発声された音声は様々な音程を有しているので、入力音声を音声認識装置の音声認識にとって最適と思われる所望の音程に合わせて一気に変換するのは困難である。さらに、一気に所望の音程に変換したとしても、話者による発声の癖や単語によっては、正しく認識されない場合ことがある。つまり、音声認識装置や標準音声データから音声認識に最適と思われる音程は、必ずしも最適ではない。
ゆえに、本発明は、音声認識装置おいて、正しく音声認識されたと確認出来る音程に入力音声の音程を正規化する音程正規化装置を提供することを目的とする。
【００１７】
【課題を解決するための手段および発明の効果】
第１の発明は、複数の単語の音声認識標準データに基づいて、不特定話者が発声した入力音声を認識する音声認識装置に用いられ、入力音声を音声認識最適音程に正規化する入力音声音程正規化装置であって、
入力音声を所定音程単位で変化させて認識対象音声信号を生成する認識対象音声生成器と、
認識対象音声信号と音声認識標準データの複数の単語のそれぞれとの一致確率を算出する一致確率算出器とを備え、
一致確率の最大値が所定確率以上になるまで認識対象音声信号の音程を繰り返し変化させる音程変換器を備える。
【００１８】
上述のように、第１の発明においては、入力音声に対する複数の単語の音声認識標準データと一致確率の最大値が所定値以上になるように、入力音声の音程を調整するので、高速且つ正確に入力音声の正規化が実現出来る。
【００１９】
第２の発明は、第１の発明において、音程変換器は、一致確率の最大値が所定確率より小さい場合には、認識対象音声を所定の音程単位で昇音および降音の一方に変化させる調音器を備えることを特徴とする。
【００２０】
上述のように、第２の発明においては、入力音声が音声認識標準データに対して低音あるいは高音の場合にも対応出来る。
【００２１】
第３の発明は、第２の発明において、入力音声を一時記憶するメモリと、
入力音声の一繋がりをメモリから読み出して認識対象音声信号を生成する読出制御器とをさらに備え、
所定の音程単位で認識対象音声信号の周波数を変換させるように、メモリの読出タイミングクロックの周波数を決定して読出クロック信号を生成する読出クロック制御器とを備えることを特徴とする。
【００２２】
第４の発明は、第２の発明において、認識対象音声信号は入力音声と同じ音程から所定音程単位で昇音されることを特徴とする。
【００２３】
第５の発明は、第４の発明において、認識対象音声信号の最高音程は第１の所定音程に限定されると共に、最高音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、認識対象音声信号は入力音声と同じ音程から所定音程単位で降音されることを特徴とする。
【００２４】
上述のように、第５の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【００２５】
第６の発明は、第５の発明において、認識対象音声信号の最低音程は第２の所定音程に限定されると共に、最低音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、正規化を終了することを特徴とする。
【００２６】
上述のように、第６の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【００２７】
第７の発明は、第２の発明において、認識対象音声信号は入力音声と同じ音程から所定音程単位で降音されることを特徴とする。
【００２８】
第８の発明は、第７の発明において、認識対象音声信号の最低音程は第３の所定音程に限定されると共に、最低音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、認識対象音声信号は入力音声と同じ音程から所定音程単位で昇音されることを特徴とする。
【００２９】
上述のように、第８の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【００３０】
第９の発明は、第８の発明において、認識対象音声信号の最高音程は第４の所定音程に限定されると共に、最高音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、正規化を終了することを特徴とする請求項８に記載の入力音程正規化装置。
【００３１】
第１０の発明は、複数の単語の音声認識標準データに基づいて、不特定話者が発声した入力音声を音声認識最適音程に正規化した状態で認識する音声認識装置であって、
入力音声を所定音程単位で変化させて認識対象音声信号を生成する認識対象音声生成器と、
認識対象音声信号と音声認識標準データの複数の単語のそれぞれとの一致確率を算出する一致確率算出器と、
一致確率の最大値が所定確率以上になるまで認識対象音声信号の音程を繰り返し変化させる音程変換器を備える音声認識装置。
【００３２】
上述のように、第１０の発明においては、入力音声に対する複数の単語の音声認識標準データと一致確率の最大値が所定値以上になるように、入力音声の音程を調整するので、高速且つ正確に入力音声の正規化が実現出来る。
【００３３】
第１１の発明は、第１０の発明において、認識対象音声生成器は、一致確率の最大値が所定確率より小さい場合には、認識対象音声を所定の音程単位で昇音および降音の一方に変化させる調音器を備えることを特徴とする。
【００３４】
上述のように、第１１の発明においては、入力音声が音声認識標準データに対して低音あるいは高音の場合にも対応出来る。
【００３５】
第１２の発明は、第１１の発明において、入力音声を一時記憶するメモリと、
入力音声の一繋がりをメモリから読み出して認識対象音声信号を生成する読出制御器とをさらに備え、
所定の音程単位で認識対象音声信号の周波数が変換されるように、メモリの読出タイミングクロックの周波数を決定して読出クロック信号を生成する読出クロック制御器とを備えることを特徴とする。
【００３６】
第１３の発明は、第１１の発明において、認識対象音声信号は入力音声と同じ音程から所定音程単位で昇音されることを特徴とする。
【００３７】
上述のように、第１３の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【００３８】
第１４の発明は、第１３の発明において、認識対象音声信号の最高音程は第１の所定音程に限定されると共に、最高音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、認識対象音声信号は入力音声と同じ音程から所定音程単位で降音されることを特徴とする。
【００３９】
上述のように、第１４の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【００４０】
第１５の発明は、第１４の発明において、認識対象音声信号の最低音程は第２の所定音程に限定されると共に、最低音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、正規化を終了することを特徴とする。
【００４１】
第１６の発明は、第１１の発明において、認識対象音声信号は入力音声と同じ音程から所定音程単位で降音されることを特徴とする。
【００４２】
第１７の発明は、第１６の発明において、認識対象音声信号の最低音程は第３の所定音程に限定されると共に、最低音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、認識対象音声信号は入力音声と同じ音程から所定音程単位で昇音されることを特徴とする。
【００４３】
上述のように、第１７の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【００４４】
第１８の発明は、第１７の発明において、認識対象音声信号の最高音程は第４の所定音程に限定されると共に、最高音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、正規化を終了することを特徴とする。
【００４５】
第１９の発明は、複数の単語の音声認識標準データに基づいて、不特定話者が発声した入力音声を認識する音声認識装置に用いられ、入力音声を音声認識最適音程に正規化する入力音声音程正規化方法であって、
入力音声を所定音程単位で変化させて認識対象音声信号を生成するステップと、
認識対象音声信号と音声認識標準データの複数の単語のそれぞれとの一致確率を算出するステップと、
一致確率の最大値が所定確率以上になるまで認識対象音声信号の音程を繰り返し変化させるステップとを備える。
【００４６】
上述のように、第１９の発明においては、入力音声に対する複数の単語の音声認識標準データと一致確率の最大値が所定値以上になるように、入力音声の音程を調整するので、高速且つ正確に入力音声の正規化が実現出来る。
【００４７】
第２０の発明は、第１９の発明において、一致確率の最大値が所定確率より小さい場合には、認識対象音声を所定の音程単位で昇音および降音の一方に変化させるステップをさらに備えることを特徴とする。
【００４８】
上述のように、第２０の発明においては、入力音声が音声認識標準データに対して低音あるいは高音の場合にも対応出来る。
【００４９】
第２１の発明は、第２０の発明において、入力音声を一時記憶するステップと、
一時記憶された入力音声の一繋がりから認識対象音声信号を生成するステップと、
所定の音程単位で認識対象音声信号の周波数を変換させるように、メモリの読出タイミングクロックの周波数を決定するステップとを備える。
【００５０】
第２２の発明は、認識対象音声信号を入力音声と同じ音程から所定音程単位で昇音させるステップをさらに備える請求項２０に記載の入力音声音程正規化方法。
【００５１】
第２３の発明は、第２２の発明において、認識対象音声信号の最高音程は第１の所定音程に限定されると共に、
最高音程に到達するまでに、一致確率の最大値が所定確率にならない時は、認識対象音声信号を入力音声と同じ音程から所定音程単位で降音させるステップをさらに備える。
【００５２】
上述のように、第２３の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【００５３】
第２４の発明は、第２３の発明において、認識対象音声信号の最低音程は第２の所定音程に限定されると共に、
最低音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、正規化を終了させるステップをさらに備える。
【００５４】
上述のように、第２４の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【００５５】
第２５の発明は、第２０の発明において、認識対象音声信号を入力音声と同じ音程から所定音程単位で降音させるステップをさらに備える。
【００５６】
第２６の発明は、第２５の発明において、認識対象音声信号の最低音程は第３の所定音程に限定されると共に、
最低音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、認識対象音声信号を入力音声と同じ音程から所定音程単位で昇音させるステップをさらに備える。
【００５７】
上述のように、第２６の発明においては、音声認識装置の能力内で入力音声の正規化範囲を適正に設定出来る。
【００５８】
第２７の発明は、第２６の発明において、認識対象音声信号の最高音程は第４の所定音程に限定されると共に、最高音程に到達するまでに、一致確率の最大値が所定確率以上にならない時は、正規化を終了させるステップをさらに備える。
【００５９】
【発明の実施の形態】
図１を参照して、本発明の実施形態にかかる入力音声音程正規化装置を組み込んだ音声認識装置について説明する。音声認識装置ＶＲＡｐは、Ａ／Ｄコンバータ１、入力音声正規化装置Ｔｒ、標準音声データ格納器１３、音声分析器１５、および制御器１７を含む。標準音声データ格納器１３は、音声認識の基準となる複数の単語の周波数パターンＰｓｆを格納し、所定のタイミングで格納している周波数パターンＰｓｆを出力する。なお、不特定話者によって発声された音声はマイクおよび増幅器（図示せず）を経由してアナログ音声信号Ｓｖａとして音声認識装置ＶＲＡｐに入力される。
【００６０】
制御器１７は、音声認識装置ＶＲＡｐの構成要素であるＡ／Ｄコンバータ１、入力音声正規化装置Ｔｒ、標準音声データ格納器１３、および音声分析器１５から出力される、それらの動作状態を示す動作状態信号Ｓｓに基づいてそれらの構成要素１、Ｔｒ、１３、および１５の動作を制御する制御信号Ｓｃを生成して、音声認識装置ＶＲＡｐ全体の動作を制御する。なお、動作状態信号Ｓｓ、制御信号Ｓｃ、および制御器１７については公知の技術であるので、説明の簡便化のために特に必要のない限りは言及しない。
【００６１】
Ａ／Ｄコンバータ１は、入力されたアナログ音声信号ＳｖａにＡ／Ｄ変換処理を施してデジタル音声信号Ｓｖｄを生成して、入力音声正規化装置Ｔｒに入力する。入力音声正規化装置Ｔｒは、入力されたデジタル音声信号Ｓｖｄに基づいて、音声認識装置ＶＲＡｐの音声認識最適音程を目指して所定量だけ音程変換された音程正規化デジタル音声信号Ｓｖｃを生成して、音声分析器１５に出力する。
【００６２】
音声分析器１５は、音程正規化デジタル音声信号ＳｖｃにＦＦＴ（ファーストフーリエ変換）処理を施して、音程正規化デジタル音声信号Ｓｖｃの周波数パターンＰｓｖｃ（図示せず）を求める。さらに、音声分析器１５は、標準音声データ格納器１３から個々の単語の周波数パターンＰｓｆとその単語に対応するコードＳｒから成る標準音声データを読み出す。そして、音声分析器１５は標準音声データの個々の単語の周波数パターンＰｓｆと音程正規化デジタル音声信号Ｓｖｃの周波数パターンＰｓｖｃとを比較して、それぞれの一致度を示す一致確率Ｐを求める。
【００６３】
なお、一致確率Ｐは、後述するように隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）法に代表される従来の技術によって求められる。標準音声データに含まれる前単語の一致確率Ｐのうち最大のものを第１位一致確率Ｐｍａｘとし、その単語を示すコードＳｒを最大一致確率コードＳｒｐとする。
【００６４】
入力音声正規化装置Ｔｒは、第１位一致確率Ｐｍａｘに基づいて、標準音声データの複数の単語のうちで、その周波数パターンＰｓｆが音程正規化デジタル音声信号Ｓｖｃの周波数パターンＰｓｖｃに合致するものを認定する。第１位一致確率Ｐｍａｘが所定の閾値を有する合致認定基準Ｐｔｈより大きい場合には、入力音声正規化装置Ｔｒはその標準音声データの単語を入力音声と合致するものとして認定して、合致認定信号Ｓｊを音声分析器１５に出力して、その認定した単語（音声認識標準データ）を示す最大一致確率コードＳｒｐを音声分析器１５から出力させる。この意味において、最大一致確率コードＳｒｐを認識コードＳｒｐと称する。
【００６５】
一方、第１位一致確率Ｐｍａｘが合致認定基準Ｐｔｈより小さい場合には、入力音声正規化装置Ｔｒはデジタル音声信号Ｓｖｄの音程を所定量だけ調整して音程正規化デジタル音声信号Ｓｖｃを再度生成する。そして、この音程調整された音程正規化デジタル音声信号Ｓｖｃに基づいて、上述の認定処理が繰り返される。つまり、音程調整された音程正規化デジタル音声信号Ｓｖｃに対応する標準音声データの複数の単語のうちで、毎回の周波数パターン比較において第１位一致確率Ｐｍａｘを有するものについて合致判定が行われる。
【００６６】
なお、図１に示すように、入力音声正規化装置Ｔｒは、メモリ３、読出制御器５、音程最適化器９、および読出クロック制御器１１を含む。音程最適化器９は、音声分析器１５から入力される第１位一致確率Ｐｍａｘに基づいて、音程正規化デジタル音声信号Ｓｖｃとの標準音声データの特定の単語との合致認定を行う。
【００６７】
つまり、合致認定基準Ｐｔｈが第１位一致確率Ｐｍａｘより大きい場合には、音程最適化器９は合致と認定しない。そして、入力音声正規化装置Ｔｒ（音声分析器１５）への入力である音程正規化デジタル音声信号Ｓｖｃの音程を音程調整量Ｎｉだけ修正するために、音程調整信号Ｓｉを読出クロック制御器１１に送出する。
【００６８】
音程調整量Ｎｉおよび音程調整信号Ｓｉに示すｉは、調整する音程の量を規定する音程調整指数である。なお、本実施形態においては、音程調整指数ｉは正負の整数の例が開示されているが、任意の値を採ることできることは言うまでもない。さらに、音程調整指数ｉが整数の場合、その値は音程正規化デジタル音声信号Ｓｖｃの音程調整サイクルと一致することにより、本明細書においては、必要に応じて音程調整指数ｉをもって音程調整サイクルを表して説明する。
【００６９】
読出クロック制御器１１は、音程調整信号Ｓｉに基づいて、音程正規化デジタル音声信号Ｓｖｃの音程を所定量Ｎｉだけ変更（昇音あるいは降音）させる読出クロックＳｃｃをメモリ３に出力する。
【００７０】
読出制御器５は、メモリ３によるデジタル音声信号Ｓｖｄの保存を監視するとともに読出制御信号Ｓｒｃを生成して、メモリ３に保存されているデジタル音声信号Ｓｖｄのうちで独立した発声に対応するものを、読出クロックＳｃｃの規定するタイミングで音程正規化デジタル音声信号Ｓｖｃとして読み出すようにメモリ３を制御する。
【００７１】
メモリ３は、読出クロックＳｃｃに規定されるタイミングで、保存されているデジタル音声信号Ｓｖｄを読み出すことによって、デジタル音声信号Ｓｖｄの音程が音程調整信号Ｓｉによって指示された音程Ｎｉだけ調整された音程正規化デジタル音声信号Ｓｖｃを出力する。つまり、音程正規化デジタル音声信号Ｓｖｃは、音程調整信号Ｓｉによって指定された所定の音程調整量Ｎｉだけデジタル音声信号Ｓｖｄの音程が調整された信号である。
【００７２】
この所定の音程とは、必ずしも固定である必要はなく、毎回任意の値を採るようにしても良く、音声認識装置ＶＲＡｐ（特に音声分析器１５および標準音声データの組み合わせ）の性能によって自ずと決まる許容範囲が認められることは言うまでもない。このように、音程調整量Ｎｉだけ音程調整された音程正規化デジタル音声信号Ｓｖｃを音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）と表現する。なお、その他の信号等においても、必要に応じて同様に表現する。
【００７３】
音声分析器１５は、メモリ３から新たに入力される音程正規化デジタル音声信号Ｓｖｃに対して、標準音声データ格納器１３に格納されている標準音声データの全て（Ｍ個）の単語について一致確率Ｐを求める。なお、Ｍは１以上の任意の整数であり、標準音声データとしてその音声周波数成分パターンＰｓｆが含まれる単語に対応するコードＳｒの総数である。この意味において、Ｍを標準音声データ単語総数と呼称する。
【００７４】
図２に示すように、音声分析器１５は最大一致確率決定器１５ａと合致認定コード出力器１５ｂを含む。標準音声データ格納器１３から最大一致確率決定器１５ａに周波数パターンＰｓｆ（ｍ）が出力される毎に、その周波数パターンＰｓｆ（ｍ）に対応するコードＳｒ（ｍ）が、標準音声データ格納器１３から合致認定コード出力器１５ｂに入力される。
【００７５】
合致認定コード出力器１５ｂは次のコードＳｒ（ｍ＋１）が入力されるまでこの値を保持する。なお、ｍは１以上Ｍ以下の任意の整数であって、標準音声データ格納器１３に格納されている標準音声データに含まれているＭ個の単語のそれぞれに対応するコードおよび音声周波数成分パターンＰｓｆ１〜ＰｓｆＭの任意の１つを示すパラメータである。
【００７６】
最大一致確率決定器１５ａは、メモリ３から入力される音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）と、標準音声データ格納器１３から入力される標準音声の各単語の周波数パターンＰｓｆ（ｍ）に基づいて、音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）に関する第１位一致確率Ｐｍａｘ（Ｎｉ）を求めて音程最適化器９に出力すると共に、コード保持信号Ｃｓｒを合致認定コード出力器１５ｂに出力する。
【００７７】
コード保持信号Ｃｓｒに応答して、合致認定コード出力器１５ｂは、その時点で入力されているコードＳｒ（ｍ）を認定候補コードＳｒｐ’として保持する。これは後に述べるように、第１位一致確率Ｐｍａｘ（Ｎｉ）を有する単語に対応するコードＳｒは、その一致確率Ｐ（つまり第１位一致確率Ｐｍａｘ（Ｎｉ））が合致認定基準Ｐｔｈ以上であれば、入力音声（アナログ音声信号Ｓｖａ）に相当するデジタル音声信号Ｓｖｄに合致する認識コードＳｒｐであると認定されることより、第１位一致確率Ｐｍａｘ（Ｎｉ）を有するコードＳｒ（ｍ）を認定候補コードＳｒｐ’として識別するものである。なお、このように認定された認識コードを合致認定コードＳｒｐとして識別する。
【００７８】
合致認定コード出力器１５ｂは、最大一致確率決定器１５ａから入力されるコード保持信号Ｃｓｒと、標準音声データ格納器１３から入力されるコードＳｒ（ｍ）と、音程最適化器９から入力される合致認定信号Ｓｊに基づいて、合致認定コードＳｒｐを音声認識装置ＶＲＡｐの外部に出力する。さらに詳しく述べれば、最大一致確率決定器１５ａは音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）が入力された後、さらに音程調整された音程正規化デジタル音声信号Ｓｖｃ（Ｎ（ｉ＋１））が入力されるまで、音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）を保持する。
【００７９】
標準音声データ格納器１３からは、予め格納されている全ての単語の標準音声データの周波数パターンＰｓｆ（ｍ）が次々と入力され、入力の毎にデジタル音声信号Ｓｖｃ（Ｎｉ）の周波数パターンＰｓｖｃ（Ｎｉ）との一致確率Ｐ（ｍ）が求められる。最大一致確率Ｐｍａｘ（Ｎｉ）は音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）と周波数パターンＰｓｆ（ｍ）との比較の結果得られる一致確率Ｐ（ｍ）がそれまでの一致確率Ｐ（ｍ−β）の最大値より大きければ置き換えられるという方法で求められる。なお、βは１以上ｍ以下の任意の整数である。
【００８０】
最大一致確率決定器１５ａは、この置き換えが発生した時は現在の周波数パターンＰｓｆ（ｍ）の一致確率Ｐ（ｍ）がこれまでの最大値であることを示すコード保持信号Ｃｓｒを合致認定コード出力器１５ｂへ出力する。この処理は、標準音声データ格納器１３に含まれる全Ｍ個の単語の周波数パターンＰｓｆ１〜ＰｓｆＭに対して実行されて、第１位一致確率Ｐｍａｘ（Ｎｉ）を求める。そして、第１位一致確率Ｐｍａｘ（Ｎｉ）は音程最適化器９に出力されて上述の合致認定処理を受けると共に、その第１位一致確率Ｐｍａｘ（Ｎｉ）に対応する単語を示す認識信号Ｓｒ（ｍ）が認定候補コードＳｒｐ’として合致認定コード出力器１５ｂに保存される。
【００８１】
最大一致確率決定器１５ａからコード保持信号Ｃｓｒが入力された時は、これまでの最大の一致確率Ｐを有する現在のコードＳｒ（ｍ）を、次にコード保持信号Ｃｓｒが入力されるまで認定候補コードＳｒｐ’として保持する。再度コード保持Ｃｓｒが入力された場合は、その時の新たなコードＳｒ（ｍ＋γ）を認定候補コードＳｒｐ’とする。このようにするよって、常に最大一致確率Ｐｍａｘ（Ｎｉ）を有する可能性のあるコードＳｒを認定候補コードＳｒｐ’として保持しておく。なお、γは１以上且つ（Ｍ−ｍ）以下の任意の整数である。
【００８２】
音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）と、それに対応する全ての標準音声データ（周波数パターンＰｓｆ（ｍ））との比較が終了した時点で、最大一致確率決定器１５ａに保持されている最大の一致確率Ｐを第１位一致確率Ｐｍａｘ（Ｎｉ）として、音程最適化器９へ出力される。音程最適化器９では、この第１位一致確率Ｐｍａｘ（Ｎｉ）を合致認定基準Ｐｔｈと比較する。
【００８３】
そして、第１位一致確率Ｐｍａｘ（Ｎｉ）が合致認定基準Ｐｔｈ以上である場合には、合致認定コード出力器１５ｂに保持されている認定候補コードＳｒｐ’が合致認定コードＳｒｐであると認定する合致認定信号Ｓｊが音程最適化器９から合致認定コード出力器１５ｂへ入力される。合致認定コード出力器１５ｂはこの合致認定信号Ｓｊに応答して、入力音声を正しく音声認識した単語を表すものとして合致認定コードＳｒｐを出力する。
【００８４】
言い換えると合致認定コードＳｒｐは、音程最適化器９から出力される合致認定信号Ｓｊがなければ、合致認定コード出力器１５ｂから出力されることはない。このときの合致認定コードＳｒｐは音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）に対する一致確率Ｐが（第１位一致確率Ｐｍａｘ）は合致認定基準Ｐｔｈより大きい値である。
【００８５】
つまり、音程最適化器９は、第１位一致確率Ｐｍａｘに基づいて、現時点（ｉ）での音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）に対するコードＳｒの第１位一致確率Ｐｍａｘを合致認定基準Ｐｔｈと比較する。そして、現在（ｉ）の第１位一致確率Ｐｍａｘを有する単語（認定候補コードＳｒｐ’）が正しく音声認識されているか否かの判定を行う。この場合、前回（ｉ−１）に最も高い一致確率Ｐ、つまり第１位一致確率Ｐｍａｘ（ｉ−１）であった認定候補コードＳｒｐ’（ｉ−１）と、今回（ｉ）に第１位一致確率Ｐｍａｘを有する単語Ｓｒｐ（ｉ）標準音声データは、同じであるとは限らない。
【００８６】
そして、第１位一致確率Ｐｍａｘが合致認定基準Ｐｔｈ以上の場合、音程最適化器９は認定候補コードＳｒｐ’が音程正規化デジタル音声信号Ｓｖｃに合致していると認定して音声分析器１５にその旨を知らせる合致認定信号Ｓｊを出力する。音声分析器１５は合致認定信号Ｓｊを受けて、保持されている認定候補コードＳｒｐ’を合致認定コードＳｒｐとして出力する。
【００８７】
次に、図３および図４を参照して、音声認識装置ＶＲＡｐの動作の基本原理について説明する。
図３に、音声分析器１５によって音程正規化デジタル音声信号Ｓｖｃに高速フーリエ変換を施した結果得られる、周波数スペクトル（周波数パターンＰｓｖｃ）の例を示す。同図において、横軸は周波数ｆを示し、縦軸は強度Ａを示している。なお、一点鎖線Ｌ１はデジタル音声信号Ｓｖｄが男性により発声された音声の代表的な周波数スペクトル例を示し、破線Ｌ２はデジタル音声信号Ｓｖｄが女性あるいは子供により発声された音声の代表的な周波数スペクトル例を示している。
【００８８】
そして実線Ｌｓは音声認識用の標準音声データとして標準音声データ格納器１３に格納されている、線Ｌ１およびＬ２で示される入力音声の周波数スペクトルに対応する単語（コードＳｒ）の周波数スペクトル（周波数パターンＰｓｆ）の例を示している。一般的に、同じ音声（単語）でも、男性の場合は一点鎖線Ｌ１に示すように標準音声に比べて低周波数領域側に周波数スペクトルが現れ、女性あるいは子供の場合は破線Ｌ２に示すように、標準音声に比べて高周波数領域側に周波数スペクトルが現れる。
【００８９】
音声分析器１５では、このような周波数スペクトルに基づいて、一点鎖線Ｌ１や波線Ｌ２に代表的に示される不特定話者による音程正規化デジタル音声信号Ｓｖｃの周波数パターンＰｓｖｃと、実線Ｌｓに示される標準音声データの各単語（Ｓｒ（ｍ））の周波数パターンＰｓｆ（ｍ）とを照合し、それぞれの単語（Ｓｒ（ｍ））との一致度Ｐ（ｍ）を算出する。なお、この一致確率Ｐ（ｍ）の算出には、上述のように隠れマルコフモデル法のような従来の技術によって実現される。
【００９０】
標準音声データ格納器１３に登録されている標準音声データ（Ｌｓ）は、不特定話者の音声認識処理を行う場合は、男声（Ｌ１）および女声（Ｌ２）の中間を狙って設定されることが多い。そのため、とりわけ低音の男声や高音の女声は周波数（Ｌ１、Ｌ２）が標準音声データ（Ｌｓ）より離れているために、正しい単語に関しても、その一致確率Ｐが合致認定基準Ｐｔｈより低くなり正しく認識出来ない。
【００９１】
そこで、本発明においては、標準音声データのＭ個の単語のうちで、その第１位一致確率Ｐｍａｘ（ｍ）が合致認定基準Ｐｔｈを満たさない場合には、音程正規化デジタル音声信号Ｓｖｃの音程に原因があると見なして、その音程を調整（昇音あるいは降音）するものである。
【００９２】
つまり、音声分析器１５によって検出された第１位一致確率Ｐｍａｘ（ｍ）が、音程最適化器９によって合致認定基準Ｐｔｈを満たしていないと判断された場合は、音程正規化デジタル音声信号Ｓｖｃを所定の調整音程Ｎｉだけ調整させるべく設定された音程調整信号Ｓｉを読出クロック制御器１１に出力する。
【００９３】
上述のように、メモリ３は音程調整量Ｎｉだけ調整された音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）を音声分析器１５に出力する。音声分析器１５は、この調整された音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）に関して、上述の音声分析処理を施して第１位一致確率Ｐｍａｘを求める。この場合、前回（ｉ−１）の音声分析処理時に第１位一致確率Ｐｍａｘ（ｉ−１）を有した単語が今回（ｉ）も第１位一致確率Ｐｍａｘ（ｉ）を有するとは限らない。
【００９４】
これは、図３を参照して説明したように、線Ｌ１およびＬ２で例示される音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）の周波数パターンＰｓｖｃ（Ｎｉ）と、線Ｌｓで例示される標準音声の周波数パターンＰｓｆ（ｍ）との近似度によって、一致確率Ｐ（ｍ）は著しく変わるからである。つまり、音程の近似度が低い場合には、音程正規化デジタル音声信号Ｓｖｃとは異なる単語の一致確率Ｐのほうが、正しい単語の一致確率Ｐより高く算出されてしまう一種の誤算定が生じる。
【００９５】
この誤算定は、音程の近似度が高くなるほど抑制されると共に、正しい単語の一致確率Ｐ自体も大きくなる。本発明では、この点に注目して、音声認識装置ＶＲＡｐの音声認識能力に応じて、合致認定基準Ｐｔｈを正しく設定することによって、第１位一致確率Ｐｍａｘが合致認定基準Ｐｔｈ以上である時には、その単語は正しく音声認識されたと認定するものである。
【００９６】
つまり、本発明においては、第１位一致確率Ｐｍａｘが合致認定基準Ｐｔｈを満たすことを条件として繰り返して音程調整して音程正規化デジタル音声信号Ｓｖｃの音程の正規化を行う。結果、正しく認識された単語の絞り込みは全単語ではなく第１位一致確率Ｐｍａｘにのみに基づくことによってデータ処理の負荷を大幅に低減する一方、音声標準データに含まれる全単語を最後まで認識対象としているので高速且つ正確な音声認識を実現するものである。
【００９７】
図４を参照して、入力音声正規化装置Ｔｒ（読出クロック制御器１１）による音程変換処理について、さらに説明する。同図において横軸は時間ｔを示し、縦軸は音声の強度Ａを示す。波形ＷＳは標準音声データ格納器１３に格納されている音声波形（周波数パターンＰｓｆ（ｍ））の時間変化例を示す。
【００９８】
波形ＷＬは標準音声データに比べて音程の低い周波数パターンＰｓｖｃ（例えば男性の音声）を示し、波形ＷＨは標準音声データに比べて音程の高い周波数パターンＰｓｖｃ（例えば女性や子供の音声）を示す。同図において、波形ＷＳ、波形ＷＬ、および波形ＷＨの１周期を、それぞれＰＬ、ＰＳ、およびＰＨと表している。周期ＰＬおよびＰＨは上述の入力音声基本周波数ｆｉの逆数に相当し、周期ＰＳは標準音声基本周波数ｆｓの逆数に相当する。
【００９９】
波形ＷＬを波形ＷＳに合わせて音程変換するには、入力音声波形をＡ／Ｄ変換する時のサンプリングクロックより、速い読み出しクロックで読み出せば実現出来る。波形ＷＬを波形ＷＳに一気に音程変換するには、読出クロックＳｃｃの周波数をＰＬ／ＰＳ倍にすれば良い。この場合、変換後の音程もＰＬ／ＰＳ倍になるが、実際の音程正規化デジタル音声信号Ｓｖｃの周期ＰＬは毎回異なると共に不定であるので、音程は所定の音程調整量Ｎｉ単位で調整するのが好ましい。つまり、本発明においては、読出クロックＳｃｃは音程調整量Ｎｉに対応した周波数に設定される。なお、波形ＷＨを波形ＷＳに合わせて音程変換する場合についても、読出クロックＳｃｃは同様に設定される。
【０１００】
このようにして、デジタル音声信号Ｓｖｄの音程を標準音声の音程に合わせて変換した音程正規化デジタル音声信号Ｓｖｃが得られる。しかしながら、音程を上げる場合は音声波形の時間軸が短くなり、音程を下がる場合は音声波形の時間軸が長くなるので、話速度が変化してしまう。これを解決するために、音程を上げる場合には母音波形を追加し、音程を下げる場合には母音波形を間引くことにより話速度を調整出来るが、この技術は公知であるとともに、本発明の目的とするところではないので、その説明および図示を省く。さらに、読み出しクロックの周波数変換も、従来から知られているマスタークロックの分周クロックを用いて容易に作成出来る。
【０１０１】
次に、図５および図６に示すフローチャートを参照して、音声認識装置ＶＲＡｐに組み込まれた入力音声正規化装置Ｔｒの個々の動作について説明する。音声認識装置ＶＲＡｐが駆動されて、図５に示す音声認識動作が開始される。
先ず、ステップＳ２において、入力音声正規化装置Ｔｒが初期化される。具体的には、音程正規化デジタル音声信号Ｓｖｃの調整音程Ｎｉを指示する音程調整指数ｉを０に設定すると共に、音程正規化デジタル音声信号Ｓｖｃの調整後の音程の許容最大値を示す許容最高音程Ｎｍａｘおよび許容最小値を示す許容最低音程Ｎｍｉｎのそれぞれを所定の値に設定する。なお、ｉ＝０とは、音程正規化デジタル音声信号Ｓｖｃの音程は、デジタル音声信号Ｓｖｄの音程と同じことを意味する。そして、処理は次のステップＳ４に進む。
【０１０２】
ステップＳ４において、マイク等の装置を通して不特定話者により発声された音声がアナログ音声信号ＳｖａとしてＡ／Ｄコンバータ１に入力される。そして、処理は次のステップＳ６に進む。
【０１０３】
ステップＳ６において、Ａ／Ｄコンバータ１は入力されたアナログ音声信号Ｓｖａを順次Ａ／Ｄ変換して、デジタル音声信号Ｓｖｄを生成してメモリ３に出力する。そして、処理はステップＳ８に進む。
【０１０４】
ステップＳ８において、メモリ３はデジタル音声信号Ｓｖｄを逐次記憶する。そして、処理は次のステップＳ１０に進む。
【０１０５】
ステップＳ１０において、読出制御器５はメモリ３の入力状態を監視して、話者による音声入力（アナログ音声信号Ｓｖａ）が終了したか否かを判断する。この判断は、一例として、アナログ音声信号Ｓｖａの入力中断時間が所定の閾値に達しているか否かをもってなされる。その他、話者が入力終了の旨を適当な手段を用いて音声認識装置ＶＲＡｐまたは入力音声正規化装置Ｔｒに指示するように構成しても良い。
【０１０６】
話者の発声が継続している場合はＮｏと判断されて、処理は上述のステップＳ４に戻り、ステップＳ４、Ｓ６およびＳ８における話者による音声入力処理、デジタル音声信号Ｓｖｄの生成、およびメモリ３への入力処理が継続される。そして、話者による一音または数音から成る独立した音声列のアナログ音声信号Ｓｖａの入力が終了した時点でＹｅｓと判断されて、話者により発声された音声のデジタル音声信号Ｓｖｄのメモリ３による記憶は完了されている。ゆえに、処理は次のステップＳ１２に進む。
【０１０７】
ステップＳ１２において、読出制御器５は、メモリ３に記憶されているデジタル音声信号Ｓｖｄ、読出クロックＳｃｃに基づいて音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）として読み出す。なお、この音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）の音程は、デジタル音声信号Ｓｖｄの音程に対して、読出クロックＳｃｃ生成の基準である音程調整信号Ｓｉに相当する所定量である音程調整量Ｎｉだけ調整（昇音あるいは降音）されている。
【０１０８】
なお、初めてメモリ３から音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）が読み出される場合には、上述のステップＳ２において、音程調整指数ｉは０に初期化されているので、音程調整量Ｎｉはゼロである。つまり、デジタル音声信号Ｓｖｄは音程調整されることなく音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）として読み出される。そして、処理はステップＳ１４に進む。
【０１０９】
ステップＳ１４において、音声分析器１５は、音程調整指数ｉで規定される音程調整量Ｎｉだけ音程調整された音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）に対して、フーリエ変換を施して、周波数パターンＰｓｖｃ（Ｎｉ）を生成して周波数スペクトル分析を行う。そして、処理はステップ＃１００の第１位一致確率Ｐｍａｘ（Ｎｉ）検出サブルーチンに進む。
【０１１０】
ステップ＃１００においては、音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）の周波数パターンＰｓｖｃ（Ｎｉ）と、標準音声データ格納器１３から読み出される個々の単語（Ｓｒ）の標準音声データである周波数パターンＰｓｆ（ｍ）との一致確率Ｐ（ｍ）を検出する。なお、このような入力音声のデジタル音声信号と標準音声データのパターンを比較して、両者の一致確率Ｐを求める技術は、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）法に代表される公知の技術を用いることが出来る。
【０１１１】
図６を参照して、以下にステップ＃１００における詳細な動作について説明する。ステップ＃１００の第１位一致確率Ｐｍａｘ（Ｎｉ）検出サブルーチンが開始されると、
先ず、ステップＳ１０２において、メモリ３から出力された音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）の周波数パターンＰｓｖｃ（Ｎｉ）が音声分析器１５の最大一致確率決定器１５ａに入力される。そして、処理は次のステップＳ１０４に進む。
【０１１２】
ステップＳ１０４において、音声分析器１５が初期化される。具体的には、最大一致確率決定器１５ａにおいて、ｍが１にセットされると共に、第１位一致確率Ｐｍａｘ（Ｎｉ）がゼロにセットされる。合致認定コード出力器１５ｂにおいて、認定候補コードＳｒｐ’がゼロにセットされる。そして、処理は次のステップＳ１０６に進む。
【０１１３】
ステップＳ１０６において、標準音声データ格納器１３から周波数パターンＰｓｆ（ｍ）およびコードＳｒ（ｍ）が最大一致確率決定器１５ａおよび合致認定コード出力器１５ｂにそれぞれ入力される。そして、処理は次のステップＳ１０８に進む。
【０１１４】
ステップＳ１０８において、最大一致確率決定器１５ａはステップＳ１０２で入力された周波数パターンＰｓｖｃ（Ｎｉ）に対する、ステップＳ１０６で取得した周波数パターンＰｓｆ（ｍ）の一致確率Ｐ（ｍ）を算出する。そして、処理は次のステップＳ１１０に進む。
【０１１５】
ステップＳ１１０において、最大一致確率決定器１５ａによって一致確率Ｐ（ｍ）が第１位一致確率Ｐｍａｘ以上であるいか否かが判断される。一致確率Ｐ（ｍ）が第１位一致確率Ｐｍａｘ以上の場合は、Ｙｅｓと判断されて、処理はステップＳ１１２に進む。
【０１１６】
ステップＳ１１２においては、最大一致確率決定器１５ａにおいて第１位一致確率Ｐｍａｘ（Ｎｉ）として現時点の一致確率Ｐ（ｍ）がセットされる。そして、処理は次のステップＳ１１４に進む。
【０１１７】
ステップＳ１１４において、最大一致確率決定器１５ａはコード保持信号Ｃｓｒを合致認定コード出力器１５ｂに出力する。そして、処理は次のステップＳ１１６に進む。
【０１１８】
ステップＳ１１６において、合致認定コード出力器１５ｂは、コード保持信号Ｃｓｒに応答して、その時点で保持しているコードＳｒ（ｍ）を認定候補コードＳｒｐ’としてセットする。そして、処理は次のステップＳ１１８に進む。
【０１１９】
一方、ステップＳ１１０においてＮｏ、つまり一致確率Ｐ（ｍ）は第１位一致確率Ｐｍａｘより小さいと判断された場合、処理は上述のステップＳ１１２、Ｓ１１４、およびＳ１１６の処理をスキップして直接ステップＳ１１８に進む。
【０１２０】
ステップＳ１１８において、ｍがＭであるか否かが判断される。ｍがＭより小さい場合には、Ｎｏと判断されて、処理はステップＳ１２０に進む。
【０１２１】
ステップＳ１２０において、ｍは１だけインクリメントされて、処理は上述のステップＳ１０６に戻る。そして、ステップＳ１２２におけるインクリメントされてｍがＭになって、ステップＳ１１８でＹｅｓと判断されるまで、上述のステップＳ１０６〜Ｓ１２０の処理を繰り返す。
【０１２２】
ステップＳ１１８においてＹｅｓ、つまり標準音声データ格納器１３に格納されている標準音声データのＭ個の周波数パターンＰｓｆ（１）〜Ｐｓｆ（Ｍ）のそれぞれの一致確率Ｐ（ｍ）を求めると共に、求めた一致確率Ｐ（ｍ）が第１位一致確率Ｐｍａｘであるかの判断を終える。このように、標準音声データ格納器１３に格納されている全ての認識信号Ｓｒを対象にして、第１位一致確率Ｐｍａｘと認定候補コードＳｒｐ’を求める。そして、処理はステップＳ１２２に進む。
【０１２３】
ステップＳ１２２において、最大一致確率決定器１５ａは、ステップＳ１１２において、内部に保持された第１位一致確率Ｐｍａｘ（Ｎｉ）を音程最適化器９に出力する。
【０１２４】
このようにして、音声分析器１５は各標準音声データ（音声周波数成分パターンＰｓｆ）と入力音声（アナログ音声信号Ｓｖａ）の入力音声信号（音程正規化デジタル音声信号Ｓｖｃ）との一致確率Ｐが一番高い標準音声データ（合致認定コードＳｒｐ）の第１位一致確率Ｐｍａｘ（Ｎｉ）のみを出力してステップ＃１００を終了する。そして、処理は図５に示すステップＳ１８に進む。
【０１２５】
ステップＳ１８において、音程最適化器９は、第１位一致確率Ｐｍａｘ（Ｎｉ）に基づいて、第１位一致確率Ｐｍａｘ（Ｎｉ）が合致認定基準Ｐｔｈ以上であるか否かを判断する。第１位一致確率Ｐｍａｘ（Ｎｉ）が合致認定基準Ｐｔｈより小さい、つまりその時点（ｉ）で一致確率Ｐが一番高い標準音声データであっても、正しく音声認識されていると見なすことが出来ない場合には、Ｎｏと判断されて処理は、ステップＳ２０に進む。
【０１２６】
ステップＳ２０において、音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）の音程調整量Ｎｉが許容最高音程Ｎｍａｘに達しているか否かを示す最高音程フラグＦＮｍａｘが１であるか否かが判断される。最高音程フラグＦＮｍａｘが１でないつまり、音程調整量Ｎｉが最高音程フラグＦＮｍａｘに達していない場合にはＮｏと判断されて、処理はステップＳ２２に進む。
【０１２７】
ステップＳ２２において、音程調整量Ｎｉが許容最高音程Ｎｍａｘ以上であるか否かが判断される。Ｎｏの場合、処理はステップＳ２４に進む。
【０１２８】
ステップＳ２４において、音程調整指数ｉが１だけインクリメントされる。これは、音程調整量Ｎｉが増加（昇音）されることを意味する。そして、処理はステップＳ２６に進む。
【０１２９】
ステップＳ２６において、音程最適化器９は音程調整信号Ｓｉを生成して、読出クロック制御器１１に出力する。そして、処理は前述のステップＳ１２に戻る。
【０１３０】
一方、ステップＳ２２においてＹｅｓ、つまり音程調整量Ｎｉは許容最高音程Ｎｍａｘに達していると判断される場合は、処理はステップＳ２８に進む。
【０１３１】
ステップＳ２８において、最高音程フラグＦＮｍａｘが１に設定される。そして、処理はステップＳ３０に進む。
【０１３２】
ステップＳ３０において、音程調整指数ｉが０にリセットされる。そして、処理はステップＳ３２に進む。
【０１３３】
ステップＳ３２において、音程調整量Ｎｉが許容最低音程Ｎｍｉｎ以下であるか否かが判断される。Ｎｏの場合は、処理はステップＳ３４に進む。
【０１３４】
ステップＳ３４において、音程調整指数ｉが１だけデクリメントされる。これは、音程調整量Ｎｉが減少（降音）されることを意味する。つまり、音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）はデジタル音声信号Ｓｖｄの音程より音程調整量Ｎｉだけ降音される。そして、処理は前述のステップＳ２６に進む。
【０１３５】
一方、ステップＳ３２においてＹｅｓ、つまり音程調整量Ｎｉが許容最低音程Ｎｍｉｎ以下に達していると判断される場合に、処理を終了する。これは、アナログ音声信号Ｓｖａは、音声認識出来ないことを意味する。
【０１３６】
一方、ステップＳ２０おいてＹｅｓ、つまり最高音程フラグＦＮｍａｘが１の（ステップＳ２８で設定されている）場合は、処理はステップＳ３２に進む。
【０１３７】
一方、ステップＳ１８においてＹｅｓ、つまり第１位一致確率Ｐｍａｘ（Ｎｉ）が合致認定基準Ｐｔｈ以上である場合は、対応する単語（Ｓｒｐ）は正しいと認定される。そして、処理は次のステップＳ３６に進む。
【０１３８】
ステップＳ３６において、最大一致確率決定器１５ａは合致認定信号Ｓｊを合致認定コード出力器１５ｂに出力する。そして、処理は次のステップＳ３８に進む。
【０１３９】
合致認定コード出力器１５ｂは合致認定信号Ｓｊに応答して、ステップＳ１１６（＃１００）でセットされた認定候補コードＳｒｐ’を合致認定コードＳｒｐとして音声認識装置ＶＲＡｐから出力させる。そして、音声認識装置ＶＲＡｐの処理を終了する。
【０１４０】
以上の如く説明したフローチャートに基づいて、音声認識装置ＶＲＡｐの音声認識動作について具体的に説明する。音声認識装置ＶＲＡｐが駆動されて、その音声認識動作が開始されると、先ずステップＳ２において入力音声正規化装置Ｔｒが初期化されて、音程調整指数ｉが０に、許容最高音程Ｎｍａｘおよび許容最低音程Ｎｍｉｎのそれぞれ所定の値に設定される。
【０１４１】
そして、ステップＳ４、Ｓ６、Ｓ８およびＳ１０において、不特定話者により発声された音声がデジタル音声信号Ｓｖｄとしてメモリ３に記憶される。
【０１４２】
ステップＳ１２において、デジタル音声信号Ｓｖｄが、ステップＳ２で初期設定された音程調整指数ｉ（ｉ＝０）に対応する読出クロックＳｃｃ（ｉ）でメモリ３から読み出すことによって、音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）が音声分析器１５に出力される。なお、場合ｉ＝０であるので、音程調整量Ｎｉ＝０であり、音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）の音程はデジタル音声信号Ｓｖｄの音程と同じである。
【０１４３】
音声分析器１５は音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）の周波数スペクトル分析を行う（Ｓ１４）。さらに、音程調整指数ｉ＝０における音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）の周波数パターンＰｓｖｃ（Ｎｉ）と、標準音声データ格納器１３から読み出されたＭ個の標準音声データの周波数パターンＰｓｆ（１）〜Ｐｓｆ（Ｍ）のそれぞれとの一致確率Ｐ（１）〜Ｐ（Ｍ）を検出する。そして、そのうち一致確率Ｐの一番高い標準音声データ（認定候補コードＳｒｐ’）とその第１位一致確率Ｐｍａｘを求めて、そのときの音程調整量Ｎｉに関する第１位一致確率Ｐｍａｘ（Ｎｉ）を生成する（＃１００）。
【０１４４】
音程最適化器９は、第１位一致確率Ｐｍａｘが合致認定基準Ｐｔｈ以上であれば、第１位一致確率Ｐｍａｘの単語の音声データ（認定候補コードＳｒｐ’）がデジタル音声信号Ｓｖｄ、つまり話者の発声した音声に合致していると認定する（Ｓ１８）。音程最適化器９はさらに、合致認定信号Ｓｊを出力して（Ｓ３６）、音声分析器１５に認定候補コードＳｒｐ’を合致認定コードＳｒｐとして出力させる（Ｓ３８）。
【０１４５】
一方、ステップＳ１８において、第１位一致確率Ｐｍａｘ（Ｎｉ）が合致認定基準Ｐｔｈより小さい、つまりその時点で一致確率Ｐが一番高い標準音声データであっても、正しく音声認識されていないと見なす。そして、ステップＳ２０において、最高音程フラグＦＮｍａｘに基づいて、デジタル音声信号Ｓｖｄから音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）を読み出す際に、昇音による音程調整量Ｎｉが上限に達していない（つまり、昇音側の音程調整が終了していない）と判断される場合は、ステップＳ２２において音程調整量Ｎｉが許容最高音程Ｎｍａｘに達していないことを確認したのち、ステップＳ２４において音程調整指数ｉを１だけインクリメントする。そして、インクリメントされた音程調整指数ｉを表す音程調整信号Ｓｉに基づいて、読出クロックＳｃｃを生成してメモリ３に出力する。
【０１４６】
ステップＳ１２において、メモリ３は読出クロックＳｃｃに基づいて、デジタル音声信号Ｓｖｄに対して音程調整指数ｉにより指定される音程調整量Ｎｉだけ昇音された音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）を出力する。以降、ステップＳ１８でＹｅｓ、つまり第１位一致確率Ｐｍａｘが合致認定基準Ｐｔｈ以上であると判断されるまで、上述のステップＳ２０〜Ｓ３４の動作を繰り返す。
【０１４７】
つまり、ステップＳ２２において、音程調整量Ｎｉが許容最高音程Ｎｍａｘに達していると判断されるまでは、ステップＳ１８においてＹｅｓと判断されない限りステップＳ２０〜Ｓ２６およびＳ１２〜Ｓ１８のループを繰り返して、所定の音程調整量Ｎｉだけ昇音させた（Ｓ２４、Ｓ２６、Ｓ１２）音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）毎に、第１位一致確率Ｐｍａｘ（Ｓ１４、＃１００）を求める。
【０１４８】
この間、音程調整量Ｎｉだけ昇音された音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）に対する第１位一致確率Ｐｍａｘを有する標準音声データは昇音される毎に違う単語に変わり得る。つまり、前回（ｉ−１）に第１位一致確率Ｐｍａｘ（ｉ−１）を有する標準データである単語は、今回（ｉ）は、例えば第２位以下の一致確率Ｐ（ｉ）を有する場合がある。このように、所定の音程調整量Ｎｉだけ昇音させる毎に、その音程正規化デジタル音声信号Ｓｖｃ（Ｎｉ）の第１位一致確率Ｐｍａｘが合致認定基準Ｐｔｈ以上である時に、音声認識は最高の条件で認識されたものと考えて、その第１位一致確率Ｐｍａｘに対応する標準音声データを表すコードＳｒを合致認定コードＳｒｐとして出力する。
【０１４９】
上述のように本発明においては、最適音声認識条件の対象を第１位一致確率Ｐｍａｘのみとすることによって、全ての標準音声データをその一致確率Ｐの値に関わらず、該最適音声認識条件が満たされるまでは音声認識対象から除外することなく音程正規化デジタル音声信号Ｓｖｃの音程を調整するものである。なお、本実施形態においては、入力されたアナログ音声信号Ｓｖａ（デジタル音声信号Ｓｖｄ）の音程を基準（ｉ＝０）として、先ず所定の音程調整量Ｎｉだけ昇音させる（Ｓ２２、Ｓ２２、Ｓ２６）。そして、最適音程認識条件が満たされた（Ｓ１２、Ｓ１４、＃１００）と認定されない間（Ｓ１８においてＮｏ）は、許容最高音程Ｎｍａｘに向かって昇音し続ける（Ｓ２２）。
【０１５０】
そして、許容最高音程Ｎｍａｘまで昇音（Ｓ２２）しても、最適音程認識条件が満たされたと認定されない場合（Ｓ１８においてＮｏ）には、最高音程フラグＦＮｍａｘを１にセット（Ｓ２８）と共に音程調整指数ｉを０にリセットして（Ｓ３０）、音程を降音調整モードに切り替える。
【０１５１】
降音調整モードにおいては、最高音程フラグＦＮｍａは１である（Ｓ２０）ので、上述の昇音調整モードにおける昇音プロセス（Ｓ２２、Ｓ２４）をスキップする。音程調整量Ｎｉが許容最低音程Ｎｍｉｎに到達するまでは（ステップＳ３２において、Ｎｏ）、音程調整指数ｉを１ずつデクリメントして（Ｓ３４）音程調整信号Ｓｉを生成する（Ｓ３４）。
【０１５２】
結果、入力されたアナログ音声信号Ｓｖａ（デジタル音声信号Ｓｖｄ）の音程を基準（ｉ＝０）として、先ず所定の音程調整量Ｎｉだけ降音して行き（Ｓ３２、Ｓ３４、Ｓ２６、Ｓ１２、Ｓ１４、＃１００）、最適音程認識条件が満たされたと認定されない間（Ｓ１８においてＮｏ）は、許容最低音程Ｎｍｉｎまで降音する。そして、昇音モードあるいは降音モード中に、第１位一致確率Ｐｍａｘが合致認定基準Ｐｔｈ以上である（ステップＳ１８においてＹｅｓ）と判断されない場合は、降音モードを経て（Ｓ３２においてＹｅｓ）、処理を終了する。
【０１５３】
なお、本実施形態においては、音程正規化デジタル音声信号Ｓｖｃをデジタル音声信号Ｓｖｄの音程から許容最高音程Ｎｍａｘまで昇音させた後に、デジタル音声信号Ｓｖｄの音程まで戻してさらに許容最低音程Ｎｍｉｎまで降音させるようにしている。しかしながら、音程正規化デジタル音声信号Ｓｖｃをデジタル音声信号Ｓｖｄの音程から許容最低音程Ｎｍｉｎまで降音させた後に、デジタル音声信号Ｓｖｄの音程まで戻してさらに許容最高音程Ｎｍａｘまで昇音させるように構成することは、上記開示より容易である。
【０１５４】
さらに、音程正規化デジタル音声信号Ｓｖｃを許容最高音程Ｎｍａｘに一気に昇音させた後に、許容最低音程Ｎｍｉｎまで順次降音させるように構成することも、上記開示より容易である。
また、許容最低音程Ｎｍｉｎから許容最高音程Ｎｍａｘの範囲で、音程調整するかわりに、デジタル音声信号Ｓｖｄから許容最低音程Ｎｍｉｎとか、デジタル音声信号Ｓｖｄから許容最高音程Ｎｍａｘの範囲で音程調整するように構成することは、上記開示より容易である。
【０１５５】
以上のように、本発明においては、第１位一致確率Ｐｍａｘが合致認定基準Ｐｔｈを満たすことを条件として繰り返して音程調整して音程の正規化を行うことによって音声標準データに含まれる全単語を最後まで認識対象として保持しながら、正しく認識された単語の絞り込みは全単語ではなく第１位一致確率Ｐｍａｘにのみに基づくことによってデータ処理の負荷を大幅に低減して、高速且つ正確な音声認識を実現するものである。
【図面の簡単な説明】
【図１】本発明の実施の形態にかかる入力音声正規化装置を組み込んだ音声認識装置の構成を示すブロック図である。
【図２】図１の音声分析器の詳細を示すブロックである。
【図３】異なる音程を有する音声の周波数スペクトルを示す図である。
【図４】音声波形の時間変化例およびそれらの間で行われる音程変換方法の説明図である。
【図５】図１に示した入力音声正規化装置の動作を示すフローチャートである。
【図６】図５に示した第１位一致確率Ｐｍａｘ（Ｎｉ）サブルーチンにおける動作の詳細を示すフローチャートである。
【図７】従来の音声認識装置の構成を示すブロック図である。
【符号の説明】
ＶＲＡｐ音声認識装置
１Ａ／Ｄコンバータ
１３標準音声データ格納器
１５音声分析器
１５ａ最大一致確率決定器
１５ｂ合致認定コード出力器
１７制御器
Ｔｒ入力音声正規化装置
３メモリ
５読出制御器
９音程最適化器
１１読出クロック制御器
ＶＲＡｃ音声認識装置
１１１音声入力部
１１２発声速度算出部
１１３発声速度変換率決定部
１１４発声速度変換部
１１５音声認識部

Claims

複数の単語の音声認識標準データに基づいて、不特定話者が発声した入力音声を認識する音声認識装置に用いられ、当該入力音声を音声認識最適音程に正規化する入力音声音程正規化装置であって、
前記入力音声を所定音程単位で変化させて認識対象音声信号を生成する認識対象音声生成手段と、
前記認識対象音声信号と前記音声認識標準データの複数の単語のそれぞれとの一致確率を算出する一致確率算出手段とを備え、
前記一致確率の最大値が所定確率以上になるまで前記認識対象音声信号の音程を繰り返し変化させる音程変換手段を備える入力音声音程正規化装置。
前記音程変換手段は、前記一致確率の最大値が前記所定確率より小さい場合には、前記認識対象音声を所定の音程単位で昇音および降音の一方に変化させる調音手段を備えることを特徴とする請求項１に記載の入力音声音程正規化装置。
前記入力音声を一時記憶するメモリ手段と、
前記入力音声の一繋がりを前記メモリ手段から読み出して認識対象音声信号を生成する読出制御手段とをさらに備え、
前記所定の音程単位で前記認識対象音声信号の周波数を変換させるように、前記メモリ手段の読出タイミングクロックの周波数を決定して読出クロック信号を生成する読出クロック制御手段とを備えることを特徴とする請求項２に記載の入力音声音程正規化装置。
前記認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で昇音されることを特徴とする請求項２に記載の入力音声音程正規化装置。
前記認識対象音声信号の最高音程は第１の所定音程に限定されると共に、当該最高音程に到達するまでに、前記一致確率の前記最大値が前記所定確率以上にならない時は、前記認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で降音されることを特徴とする請求項４に記載の入力音声音程正規化装置。
前記認識対象音声信号の最低音程は第２の所定音程に限定されると共に、当該最低音程に到達するまでに、前記一致確率の最大値が所定確率以上にならない時は、前記正規化を終了することを特徴とする請求項５に記載の入力音声音程正規化装置。
前記認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で降音されることを特徴とする請求項２に記載の入力音声音程正規化装置。
前記認識対象音声信号の最低音程は第３の所定音程に限定されると共に、当該最低音程に到達するまでに、前記一致確率の前記最大値が前記所定確率以上にならない時は、当該認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で昇音されることを特徴とする請求項７に記載の入力音程正規化装置。
前記認識対象音声信号の最高音程は第４の所定音程に限定されると共に、当該最高音程に到達するまでに、前記一致確率の前記最大値が前記所定確率以上にならない時は、前記正規化を終了することを特徴とする請求項８に記載の入力音程正規化装置。
複数の単語の音声認識標準データに基づいて、不特定話者が発声した入力音声を音声認識最適音程に正規化した状態で認識する音声認識装置であって、
前記入力音声を所定音程単位で変化させて認識対象音声信号を生成する認識対象音声生成手段と、
前記認識対象音声信号と前記音声認識標準データの複数の単語のそれぞれとの一致確率を算出する一致確率算出手段と、
前記一致確率の最大値が所定確率以上になるまで前記認識対象音声信号の音程を繰り返し変化させる音程変換手段を備える音声認識装置。
前記認識対象音声生成手段は、前記一致確率の最大値が前記所定確率より小さい場合には、前記認識対象音声を所定の音程単位で昇音および降音の一方に変化させる調音手段を備えることを特徴とする請求項１０に記載の音声認識装置。
前記入力音声を一時記憶するメモリ手段と、
前記入力音声の一繋がりを前記メモリ手段から読み出して認識対象音声信号を生成する読出制御手段とをさらに備え、
前記所定の音程単位で前記認識対象音声信号の周波数が変換されるように、前記メモリ手段の読出タイミングクロックの周波数を決定して読出クロック信号を生成する読出クロック制御手段とを備えることを特徴とする請求項１１に記載の音声認識装置。
前記認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で昇音されることを特徴とする請求項１１に記載の音声認識装置。
前記認識対象音声信号の最高音程は第１の所定音程に限定されると共に、当該最高音程に到達するまでに、前記一致確率の最大値が所定確率以上にならない時は、前記認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で降音されることを特徴とする請求項１３に記載の音声認識装置。
前記認識対象音声信号の最低音程は第２の所定音程に限定されると共に、当該最低音程に到達するまでに、前記一致確率の最大値が所定確率以上にならない時は、前記正規化を終了することを特徴とする請求項１４に記載の音声認識装置。
前記認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で降音されることを特徴とする請求項１１に記載の音声認識装置。
前記認識対象音声信号の最低音程は第３の所定音程に限定されると共に、当該最低音程に到達するまでに、前記一致確率の最大値が所定確率以上にならない時は、前記認識対象音声信号は前記入力音声と同じ音程から前記所定音程単位で昇音されることを特徴とする請求項１６に記載の音声認識装置。
前記認識対象音声信号の最高音程は第４の所定音程に限定されると共に、当該最高音程に到達するまでに、前記一致確率の最大値が所定確率以上にならない時は、前記正規化を終了する請求項１７に記載の音声認識装置。
複数の単語の音声認識標準データに基づいて、不特定話者が発声した入力音声を認識する音声認識装置に用いられ、当該入力音声を音声認識最適音程に正規化する入力音声音程正規化方法であって、
前記入力音声を所定音程単位で変化させて認識対象音声信号を生成するステップと、
前記認識対象音声信号と前記音声認識標準データの複数の単語のそれぞれとの一致確率を算出するステップと、
前記一致確率の最大値が所定確率以上になるまで前記認識対象音声信号の音程を繰り返し変化させるステップとを備える入力音声音程正規化方法。
前記一致確率の最大値が前記所定確率より小さい場合には、前記認識対象音声を所定の音程単位で昇音および降音の一方に変化させるステップをさらに備えること請求項１９に記載の入力音声音程正規化方法。
前記入力音声を一時記憶するステップと、
前記一時記憶された入力音声の一繋がりから認識対象音声信号を生成するステップと、
前記所定の音程単位で前記認識対象音声信号の周波数を変換させるように、前記メモリ手段の読出タイミングクロックの周波数を決定するステップとを備える請求項２０に記載の入力音声音程正規化方法。
前記認識対象音声信号を前記入力音声と同じ音程から前記所定音程単位で昇音させるステップをさらに備える請求項２０に記載の入力音声音程正規化方法。
前記認識対象音声信号の最高音程は第１の所定音程に限定されると共に、
当該最高音程に到達するまでに、前記一致確率の前記最大値が前記所定確率にならない時は、前記認識対象音声信号を前記入力音声と同じ音程から前記所定音程単位で降音させるステップをさらに備える請求項２２に記載の入力音声音程正規化方法。
前記認識対象音声信号の最低音程は第２の所定音程に限定されると共に、
当該最低音程に到達するまでに、前記一致確率の最大値が所定確率以上にならない時は、前記正規化を終了させるステップをさらに備える請求項２３に記載の入力音声音程正規化方法。
前記認識対象音声信号を前記入力音声と同じ音程から前記所定音程単位で降音させるステップをさらに備える請求項２０に記載の入力音声音程正規化方法。
前記認識対象音声信号の最低音程は第３の所定音程に限定されると共に、
当該最低音程に到達するまでに、前記一致確率の前記最大値が前記所定確率以上にならない時は、当該認識対象音声信号を前記入力音声と同じ音程から前記所定音程単位で昇音させるステップをさらに備える請求項２５に記載の入力音声音程正規化方法。
前記認識対象音声信号の最高音程は第４の所定音程に限定されると共に、当該最高音程に到達するまでに、前記一致確率の前記最大値が前記所定確率以上にならない時は、前記正規化を終了させるステップをさらに備える請求項２６に記載の入力音声音程正規化方法。