JP4890792B2

JP4890792B2 - 音声認識方法

Info

Publication number: JP4890792B2
Application number: JP2005169217A
Authority: JP
Inventors: 隆中山
Original assignee: Individual
Current assignee: Individual
Priority date: 2005-06-09
Filing date: 2005-06-09
Publication date: 2012-03-07
Anticipated expiration: 2025-06-09
Also published as: JP2006343544A

Description

本発明は、話者の音声から、簡便な処理装置を用いて言語を認識することができる音声認識方法に関する。さらに詳しくは、音声信号の大小に拘わらず同じ基準で分析することができる音声認識方法に関する。

従来、音声認識方法としては、音声波形から母音領域と子音領域を分別し、分別された母音領域の波形と子音領域の波形から当該母音と子音を特定して認識できるようにする方法が提案されている（例えば、特許文献１参照）。

また、上記母音と子音の特定方法として、分別された母音領域について、音声波形の音声信号レベルが電圧ゼロボルトを通過してから正電圧領域を推移して再び電圧ゼロボルトを通過するまでの時間を検知して当該母音を特定し、分別された子音領域について、音声波形の音声信号レベルが電圧ゼロボルトを通過または電圧ゼロボルト近傍から上昇後、正電圧領域を推移して再び電圧ゼロボルトを通過または電圧ゼロボルト近傍に達するまでの時間を検知して当該子音を特定する方法も提案されている（例えば、特許文献２参照）。

特開平９−１０１７９７号公報特開２００１−２６５３７９号公報

上記従来の音声認識方法は、いずれも母音と子音を分けて識別しようとするものであるが、マイクロホンなどから採取した音声波形そのものを基準に識別するものとなっている。このため、特に声の大小（音声信号の大小）の影響を受けやすく、日常会話などの条件が不定な環境下では正確な識別が行いにくい問題がある。

本願発明は、上記従来の音声認識法の問題点に鑑みてなされたもので、音声信号の大小に拘わらず一定の基準で音声を識別できるようにすることを目的とする。

本発明は、上記目的のために、音声信号からサンプリングされＡ／Ｄ変換された音声データ群を、音声周波数が含まれる１次からｍ次（ｍは２以上の整数）までの周波数成分に分析し、これによって得られる振幅スペクトルまたはパワースペクトルから、音声周波数領域に含まれる基本波および各高調波成分の振幅またはパワーの合計に対する、基本波および各高調波成分のそれぞれの振幅またはパワーの比率を１次からｍ次までの寄与率として求め、周波数領域上の所定の区間における所定の大きさの寄与率の有無と、周波数領域上の所定の区間における所定の大きさの寄与率の数とから、子音と母音の音素を特定することを特徴とする音声認識方法を提供するものである。

また、上記本発明は、音声データ群を子音領域と母音領域に区分し、子音領域の音声データ群と母音領域の音声データ群をそれぞれ周波数分析して寄与率を求め、各音声データ群における寄与率の現れ方から、子音と母音の音素を特定すること、
寄与率として、音声周波数領域に含まれる基本波および各高調波成分の振幅の合計に対する基本波および各高調波成分のそれぞれの振幅の比率を用いること、
音声データ群に対し、Ｎ個の音声データの分析区間毎に順次周波数分析を施し、各分析区間毎に寄与率を求めること、
をその好ましい態様として含むものである。

本発明の音声認識方法は、寄与率を用いて子音と母音の特定を行うものとなっている。

ところで、本発明における寄与率は、音声周波数領域に含まれる基本波および各高調波成分の振幅の合計に対する基本波および各高調波成分のそれぞれの振幅の比率、または、音声周波数領域に含まれる基本波および各高調波成分のパワーの合計に対する基本波および各高調波成分のそれぞれのパワーの比率である。そして、寄与率は、上記のような比率であることから、音声信号の大小に影響を受けることのない値であり、本発明は、この寄与率を基準に音声認識を行うものであることから、音声信号の大小に拘わらず、確度の高い識別を行うことができるものである。

本発明に係る音声識別方法の基本的な手順を説明する。なお、ここでの説明は、説明の便宜上、被験者が日本語における五十音の一音を発してこれをサンプリングした場合を例にして説明する。

まず、本発明に係る音声認識方法の一例を図１に基づいて説明する。

音声信号は、例えばマイクロホンなどによりアナログ信号として採取し、必要に応じて増幅したりフィルター処理を加えた後、サンプリングし、Ａ／Ｄ変換して、一旦メモリーに音声データ群として記録する。

音声を認識する上で分析が必要な周波数は、言語によっても多少異なるが、例えば日本語においては、５〜５．５ｋＨｚ程度までは必要であろうと考えられる。また、連続信号に含まれる周波数成分を正しくサンプリングデータとして得るには、サンプリング周波数が連続信号の持つ周波数の上限の２倍以上でなければならないとされていることから、サンプリング周波数は１０ｋＨｚ以上であることが好ましい。後述する具体例では５０ｋＨｚでサンプリングを行っているが、現実的にはこれほどの高い周波数とする必要はない。また、予めサンプリング周波数の１／２を超える周波数成分をフィルター（ローパスフィルター）でカットしておくことが好ましい。

メモリーに格納された音声データは、通常、最初と最後に存在する無信号領域（無音領域）を除いて取り出されて周波数分析が施されるが、周波数分析誤差をできるだけ少なく抑えるため、その前処理として、窓関数処理を施すことが好ましい。

窓関数処理を行う場合の窓関数としては、ハニング窓、ハミング窓、ブラックマン窓、矩形窓などがあり、いずれを用いることも可能であるが、音声はランダム波形であることから、音声解析で最も一般的に用いられているハミング窓が好ましい。

ハミング窓を用いた場合、元の音声データ値をｄ、データ番号をｎ、周波数分析に用いるデータ数をＮとすると、変換後のデータＸは以下の通りとなる。

Ｘ＝ｄ×〔０．５４−０．４６×ｃｏｓ｛２×π×ｎ／（Ｎ−１）｝〕
ｎ＝０〜（Ｎ−１）

周波数分析に用いるデータ数Ｎは、これが少ない場合周波数分解能は低下するが、分析区間内での時間分解能が大きく現れる。逆に、データ数Ｎが多いと、分析区間内での時間分解能は小さくなるが、周波数分解能が向上する。周波数分解能が過剰に低下すると、後述する寄与率が音声波形に含まれる周波数成分を正しく反映しにくくなり、寄与率の現れ方の特徴を掴みにくくなることから、４０〜１００Ｈｚの分解能が得られるようにサンプリング周波数に応じてデータ数を調整することが好ましい。なお、高速フーリエ解析の場合、データ数は２の整数乗となる。

音声データ群について、必要に応じて上記窓関数処理を施してから周波数分析を行い、振幅スペクトルおよび／またはパワースペクトルを求める。この周波数分析にはフーリエ解析、特に処理時間が短い高速フーリエ解析が好ましい。

フーリエ解析（高速フーリエ解析）を用いた場合、１回の解析で、前記音声データ群中のＮ個（例えば５１２個、１０２４個などの２の整数乗の個数）の音声データについて、ｍ＝１（ｍは次数）の時の基本周波数と基本周波数の整数倍（基本周波数の次数倍）の周波数（高調波）とについて、それぞれ対応する正弦波成分の係数ａ_mと余弦波成分の係数ｂ_mが得られる。そして、これらの係数を用い、以下のようにして振幅スペクトルＸ_mとパワースペクトルＸ_m ²を求めることができる。なお、ｍ＝０は直流成分に対応する。

Ｘ_m＝√（ａ_m ²＋ｂ_m ²）
Ｘ_m ²＝ａ_m ²＋ｂ_m ²

本発明における寄与率は、ｍ＝１の基本周波数からｍ＝２以上の各高調波成分の振幅スペクトルＸ_mの合計に対する各振幅スペクトルＸ_mの比率Ｃ、または、ｍ＝１の基本周波数からｍ＝２以上の各高調波成分のパワースペクトルＸ_m ²の合計に対する各パワースペクトルＸ_m ²の比率Ｃ’として求めることができる。ＣまたはＣ’は、比として求めても百分率で求めても良い。比として求める場合、下記式となる。百分率で求める場合、それぞれ１００を乗じた値となる。

Ｃ＝（１／ΣＸ_m）×（Ｘ_m）
Ｃ’＝（１／ΣＸ_m ²）×（Ｘ_m ²）

なお、ｍの上限は、周波数分析を行う際の周波数分解能によって異なるが、音声認識を行うに必要な周波数まで分析できる次数までで足る。具体的には、サンプリング周波数が５０ｋＨｚ、データ数Ｎが１０２４個であるとすると、周波数分析で得られる次数は、（１０２４／２）―１＝５１１であるが、周波数分解能＝５００００÷１０２４≒４８Ｈｚであることと、前記のように日本語の音声認識では５．５ｋＨｚ程度までの分析が必要であると考えると、ｍ＝５５００÷４８≒１１４となる。

本発明で用いる寄与率は、上記ＣとＣ’のいずれでも良いが、Ｃ’の場合変動がほぼ二乗で現れることから、振幅スペクトルよりも周波数成分の大小が強調されやすくなるため、Ｃを用いることが好ましい。

周波数分析は、例えば、音声データ群の適宜の領域のＮ個の音声データについて１回行うだけとすることもできる。しかし、通常、音声データ群がＮ個を超える音声データの集まりとなるようにデータ数Ｎやサンプル数を定めることから、Ｎ個の音声データを１つの分析区間（１フレーム）とし、各分析区間を所定音声データ数ずつずらせながら、音声データ群全体を複数回に分けて周波数分析することが好ましい。このようにして音声データ群全体を分析することで精度を向上させることができる。この場合、各分析区間毎に寄与率を求めることになる。分析区間番号をｊとすると、前記寄与率Ｃ，Ｃ’は下記のように表すことができる。

Ｃ_j＝（１／ΣＸ_jm）×（Ｘ_jm）
Ｃ_j’＝（１／Σ（Ｘ_jm ²）×（Ｘ_jm ²）

上記周波数分析により、通常、ｍ次までの寄与率が各分析区間毎に求められる。そして、求められた寄与率の状態と、予め定められた判定基準とを対比することにより、音声データ群から識別できる母音の音素と子音の音素が特定される。例えば、子音の音素が「ｋ」で母音の音素が「ａ」と特定された場合、「カ」との識別結果となる。また、その音声データ群から「ａ」だけしか特定されない場合、「ア」との識別結果となる。

次に、本発明に係る音声識別方法の他の例を図２に基づいて説明する。

音声信号のサンプリングおよびＡ／Ｄ変換は図１の例と同様である。

本例においては、メモリーに格納された音声データ群を、窓関数処理に先立って、母音領域の音声データ群と子音領域の音声データ群に区分する。この母音領域と子音領域の区分けは、例えば次のようにして行うことができる。

１音声データ群の信号領域の先頭位置から所定個数の音声データを次々に比較し、音声データ中で最大のピーク（最大ピークＰ_max）の値とその位置（最大ピークＰ_maxは音声データ群の中間部に存在する）を求める。

２適宜の音声データ数の区間を設定し、最大ピークＰ_maxの位置から音声データ群の先頭に向かって、順次区間内で最も大きいピーク（区間ピークＰ_n）を求める。

３母音領域においては急激なピークの低下はないことから、最大ピークＰ_maxと、これに隣接する区間における区間ピークＰ₁、さらにＰ₁の区間に隣接する次の区間における区間ピークＰ₂のように次々に対比し、例えば区間ピークＰ₁が最大ピークＰ_maxの６０％以上である場合は母音領域であると判別することができ、また区間ピークＰ_nが一つ前の区間ピークＰ_n-1の６０％以上である場合には母音領域の続きであると判別することができる。

４上記対比を行って、区間ピークＰ_nが一つ前の区間ピークＰ_n-1に比して大きく低下する位置を求め、これが先頭位置であれば全体が母音領域と判別でき、これが音声データ群の中間位置であれば、子音領域と母音領域の境界であると判別できる。また、ピーク値が急激に低下した位置が先頭位置ではない場合でも、先頭位置から当該位置までのデータ数が極端に少ないときには、母音の立ち上がり領域であると判断することができる。

５また、最大ピークＰ_maxの位置から音声データ群の最後尾に向かって同様のピーク値の対比を行うと、母音領域の最後尾の位置を検知することができる。複数音を連続して発生した場合、この位置を検知することで、音間の境界を検知することができる。

上記の母音領域と子音領域の区分け方法はその一例で、本発明における母音領域と子音領域の区分け方法としては、従来公知のいずれの方法でも適用することができる。例えば背景技術で挙げた特許文献１の方法で行うこともできる。また、複数の区分け方法を併用することもできる。

音声データ群を母音領域の音声データ群と子音領域の音声データ群に区分した後、必要に応じてそれぞれに前述と同様の窓関数処理を施し、さらに前述と同様にして周波数分析を行い、振幅スペクトルおよび／またはパワースペクトルを求める。

上記周波数分析は、前記母音領域の音声データ群と、子音領域の音声データ群のそれぞれについて施され、それぞれｍ次までの寄与率が各分析区間毎に求められる。そして、求められた寄与率の状態と、予め定められた判定基準と対比されて、母音と子音が特定される。例えば、子音が「ｋ」で母音が「ａ」と特定された場合、「カ」との識別結果となる。また、母音領域のみであって、その音声データ群から「ａ」と特定された場合、「ア」との識別結果となる。特に本例の場合、子音領域の音声データ群から求められた寄与率は子音の音素を特定するための判定基準のみの対比とし、母音領域の音声データ群から求められた寄与率は母音の音素を特定するための判定基準のみの対比とすることができ、予め母音領域と子音領域を区分けしておくことで、対比を簡略化することができる。

子音と母音の音素を特定するための判定基準は、予めできるだけ多数の被験者から五十音の寄与率を求め、各被験者の五十音それぞれの音素についての寄与率の現れ方を整理しておくことで用意することができる。具体的には、どのような周波数領域にどのような大きさの寄与率が何個現れるか、最大の寄与率を生じる周波数領域、特定の周波数領域の寄与率と他の特定の周波数領域の寄与率との大小関係などを五十音の音素についてデータベース化しておくことで用意することができる。

判定基準との対比により、複数の音素が該当する結果が得られる場合などにおいては、例えば音素に優先順位を定めておいて、その順番で特定したり、原波形を参照することでいずれかを選択することが可能である。

判定基準を作成する場合や、未知の音声を識別する場合に、ニューラルネットワークなどを導入することにより、より認識精度を高めることが可能である。また、コンピューター以外にも、適当な電子回路を用いることにより、目的を達成することが可能である。

次に、実際に寄与率を求めた例について説明する。

―「ア」について―
図１に示す手順で音素の判定を行った。

まず、被験者に単音で「ア」を発声してもらい、その音声をマイクロホンで採取し、サンプリングし、Ａ／Ｄ変換して、１番から順次時系列でデータ番号を付してパーソナルコンピューターのメモリーに格納した。サンプリング周波数は５０ｋＨｚで、Ａ／Ｄで変換を行う際に、ローパスフィルターで２５ｋＨｚを超える周波数成分をカットした。

採取した音声波形を図３に示す。

メモリーに格納した音声データ群の音声信号領域（無信号領域を除いた領域）を取り出し、ハミング窓関数による窓関数処理を施し、高速フーリエ変換を施した。高速フーリエ変換のデータ数Ｎは１０２４、周波数分析次数ｍは１１４までとした。なお、今回の場合は、（１０２４／２）−１＝５１１次までのスペクトルが求められているが、１１５次から５１１次までのスペクトルは全て無視できる値であった（０に近かった）。

百分率で求めた寄与率を表１〜表１８に示す。

表１は、データ番号が３１４〜１３３８までの１０２４の音声データを１分析区間（１フレーム）として高速フーリエ変換して求めた寄与率を示し、表２は、データ番号が７１４〜１７３８までの１０２４の音声データ１分析区間としてを高速フーリエ変換して求めた寄与率を示す。表１のデータ番号が３１４からであるのに対し、表２のデータ番号が７１４であるのは、各分析区間の間を４００の音声データ分だけずらせながら分析を行ったことを示す。１０２４の音声データを１フレームとし、各フレーム間を４００の音声データ分だけずらせているのは以後の他の表においても同様である。

また、各表の末尾に示される「判定」の欄の記載は、特定された母音または子音の音素を示し、「判定基準」の欄の記載は、後述する表３１１〜３２２に示される「音素」の欄にカッコ書きで示される符号に対応する。「判定」と「判定基準」の欄が空欄である場合は、判定には使用されなかったデータ（後述する判定基準には該当しなかったデータ）であったことを示す。これらは以後の他の表においても同様である。

―「イ」について―
被験者に単音で「イ」を発生してもらい、以下「ア」の測定と同様にして寄与率を求めた。

採取した音声波形を図４に示すと共に、百分率で求めた寄与率を表１９〜表４３に示す。なお、表１のデータ番号が３１４から始まっているのに対し、表１９のデータ番号が２１からとなっているのは、表１においては３１３までが無信号状態（無音状態）であったために処理対象外とされ、表１９においてはそれが２０までであったことによる。以後の他の音の表におけるデータ番号のズレも同様である。

―「ウ」について―
被験者に単音で「ウ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。

採取した音声波形を図５に示すと共に、百分率で求めた寄与率を表４４〜表６８に示す。

―「エ」について―
被験者に単音で「エ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。

採取した音声波形を図６に示すと共に、百分率で求めた寄与率を表６９〜表９３に示す。

―「オ」について―
被験者に単音で「オ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。

採取した音声波形を図７に示すと共に、百分率で求めた寄与率を表９４〜表１２３に示す。

―「カ」行について―
被験者に単音で「カ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。

採取した音声波形を図８に示すと共に、百分率で求めた寄与率を表１２４〜表１４４に示す。

なお、「キ」、「ク」、「ケ」、「コ」については、子音の音素判別自体は「カ」と同様であることから省略する。

―「サ」行について―
被験者に単音で「サ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。

採取した音声波形を図９に示すと共に、百分率で求めた寄与率を表１４５〜表１７３に示す。

なお、「シ」、「ス」、「セ」、「ソ」については、子音の音素判別自体は「サ」と同様であることから省略する。

―「タ」行について―
被験者に単音で「タ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。

採取した音声波形を図１０に示すと共に、百分率で求めた寄与率を表１７４〜表１９４に示す。

なお、「チ」、「ツ」、「テ」、「ト」については、子音の音素判別自体は「タ」と同様であることから省略する。

―「ナ」行について―
被験者に単音で「ナ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。

採取した音声波形を図１１に示すと共に、百分率で求めた寄与率を表１９５〜表２２３に示す。

なお、「ニ」、「ヌ」、「ネ」、「ノ」については、子音の音素判別自体は「ナ」と同様であることから省略する。

―「ハ」行について―
被験者に単音で「ハ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。

採取した音声波形を図１２に示すと共に、百分率で求めた寄与率を表２２４〜表２５０に示す。

なお、「ヒ」、「フ」、「ヘ」、「ホ」については、子音の音素判別自体は「ハ」と同様であることから省略する。

―「マ」行について―
被験者に単音で「マ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。

採取した音声波形を図１３に示すと共に、百分率で求めた寄与率を表２５１〜表２８０に示す。

なお、「ミ」、「ム」、「メ」、「モ」については、子音の音素判別自体は「マ」と同様であることから省略する。

―「ヤ」行について―
「ヤ」、「ユ」、「ヨ」については、「ｉａ」、「ｉｕ」、「ｉｏ」に準ずると考えられることから省略する。

―「ラ」行について―
被験者に単音で「ラ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。

採取した音声波形を図１５に示すと共に、百分率で求めた寄与率を表２８１〜表３１０に示す。

なお、「リ」、「ル」、「レ」、「ロ」については、子音の音素判別自体は「ラ」と同様であることから省略する。

―「ワ」行について―
「ワ」、「ヲ」については、「ｕａ」、「ｕｏ」に準ずると考えられることから省略する。

―「ン」について―
「ン」については「ｕｎ」または「n」若しくは「m」に準ずると考えられることから省略する。

―判定基準について―
男女複数の被験者から五十音を測定した結果得られた判定基準の一例を表３１１〜３２２に示す。

この表３１１〜３２２においては、表示を簡略化するため、１次高調波（４９Ｈｚ）と２次高調波（９８Ｈｚ）の寄与率を足し合わせた値を９８Ｈｚの寄与率とし、３次高調波（１４７Ｈｚ）と４次高調波（１９６Ｈｚ）の寄与率を足し合わせた値を１９６Ｈｚの寄与率とし、以下同様にして、ｍ−１次高調波の寄与率とｍ次高調波の寄与率を足し合わせた値をｍ次の周波数における寄与率として表したものとなっている（ただし、ここでのｍは２以上の整数）。しかし、判定基準は、ｍ−１次高調波の寄与率とｍ次高調波の寄与率を足し合わせた値をｍ次の周波数における寄与率として表したものを基準としなければならないものではなく、各分析区間における１次からｍ次までの寄与率をそのまま表したものを基準とすることもできる。

なお、表３１１〜３２２において、「周波数」の項目における上段と下段の数字は、９８Ｈｚに乗ずべき数字を意味し、上段の数字は十の位を指し、下段の数字は一の位を指す。また、「区間」の欄に示されるＡ，Ｂ，Ｃ，…などの符号は、「周波数」の欄に矢印で示される領域を意味するが、以下の説明の便宜上付したもので、各表に付されている符号が同じ周波数領域を意味するものではない。

以下、表３１１〜３２２を補足説明する。

（１）「ａ」の判定基準について
表３１１に示されるように、Ａ−１とＡ−２の２つの判定基準のいずれか一方を満たすときに「ａ」と判定することができる。

Ａ−１は、以下の条件を総て満たすときに「ａ」と判定するものである。
・区間Ａ（１×９８〜４×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが１０以上のものが存在しないこと。
・区間Ｂ（５×９８〜９×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが１０以上のものが２個未満であること。
・区間Ｃ（８×９８〜１５×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが３以上のものが３個を超えて存在すること。
・区間Ｄ（１３×９８〜２５×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが３以上のものが０個でないこと。

Ａ−２は、以下の条件を総て満たすときに「ａ」と判定するものである。
・区間Ａ（１×９８〜４×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが１０以上のものが存在しないこと。
・区間Ｂ（２×９８〜７×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが３以上のものが１個を超えて存在すること。
・区間Ｃ（５×９８〜９×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが１０以上のものが２個未満であること。
・区間Ｄ（９×９８〜１５×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが１０以上のものが２個を超えて存在すること。
・区間Ｅ（１３×９８〜２５×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが３以上のものが０個でないこと。

（２）「ｉ」の判定基準について
表３１２に示されるように、Ｉ−１とＩ−２の２つの判定基準のいずれかを満たすときに「ｉ」と判定することができる。

Ｉ−１の表の見方は前記「ａ」の判定基準を示す表３１１に準ずる。

Ｉ−２は、以下の条件を総て満たすときに「ｉ」と判定するものである。
・区間Ａ（２×９８〜４×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが９以上のものが０個でないこと。
・区間Ｂ（１１×９８〜１５×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが２．５以上のものが０個であること。
・区間Ｃ（１７×９８〜２６×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが２．５以上のものが６個未満であること。
・区間Ｄ（１７×９８〜２０×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが１．５以上のものが０個であること。
・区間Ｅ１（２８×９８〜４１×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが
０．５以上のものが８個以上あること、または区間E２（２８×９８〜４１×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが１以上のものが３個以上あること、若しくは
区間Ｆ（２８×９８〜４１×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが０．５以上のものが３個以上あり、かつ区間Ｇ（２８×９８〜４１×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが１以上のものが０個でないこと。
・区間Ｈ（３５×９８〜４６×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが
２．５以上のものが０個であること。
・区間１×９８〜１０×９８Ｈｚにおいては、寄与率の大きさが３以上のものは７×９８
Ｈｚ以上には存在しないこと。

（３）「ｕ」、「ｅ」、「ｏ」、「ｓ」、「ｔ」の判定基準について
「ｕ」は表３１３、「ｅ」は表３１４、「ｏ」は表３１５、「ｓ」は表３１７、「ｔ」は表３１８に示される判定基準によって判定することができる。「ｕ」、「ｅ」、「ｏ」、「ｓ」および「ｔ」のＴ−１の表の見方は上記「ａ」の判定基準を示す表３１１に準ずる。「ｔ」のＴ−１の表の見方は次に述べるＫ−２の見方に準ずる。

（４）「ｋ」の判定基準について
表３１６に示されるように、Ｋ−１とＫ−２とＫ−３の３つの判定基準のいずれか一つを満たすときに「ｋ」と判定することができる。

Ｋ−１とＫ−３の表の見方は前記「ａ」の判定基準を示す表３１１に準ずる。

Ｋ−２は、以下の条件を総て満たすときに「ｋ」と判定するものである。
・区間Ａ（１×９８〜５×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが６以上のものが０個であること。
・区間Ｂ（１６×９８〜２０×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが２．５以上のものが０個であること。
・区間Ｃ１（３６×９８〜４０×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが２以上のものが１個以上あること、または、区間Ｃ２（４６×９８〜５５×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが２以上のものが１個以上あること。
・区間Ｄ（４１×９８〜４５×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが３以上のものが１個以上あること。

（５）「ｎ」の判定基準について
表３１９に示されるように、以下の条件を総て満たすときに「ｎ」と判定することができる。
・区間Ａ（１×９８〜６×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが３０以上のものが０個であること。
・区間Ｂ（１×９８〜６×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが１０以上のものが１個を超えること。
・区間Ｃ（１×９８〜６×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが５以上のものが２個を超えること。
・区間Ｄ（７×９８〜９×９８Ｈｚ）にあるスペクトルの最大寄与率をｐ０とし、区間Ｅ（１０×９８〜１５×９８Ｈｚ）にあるスペクトルの最大寄与率をｐ１とし、区間Ｆ（１６×９８〜２１×９８Ｈｚ）にあるスペクトルの最大寄与率をｐ２とし、区間Ｇ（２２×９８〜３０×９８Ｈｚ）にあるスペクトルの最大寄与率をｐ３としたときに、ｐ０、ｐ２、ｐ３のうちの最低１個がｐ１よりも大きく、かつ、ｐ０、ｐ２、ｐ３のうちの最低１個の寄与率が２以上であること。
・区間Ｈ（３１×９８〜５５×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが２以上のものが０個であること。

（６）「ｈ」の判定基準について
表３２０に示されるように、Ｈ−１〜Ｈ−４の４つの判定基準のいずれか一つを満たすときに「ｈ」と判定することができる。

Ｈ−２の表の見方は前記表３２０のＫ−２に準じ、Ｈ−３の表の見方は前記「ａ」の判定基準を示す表３１１に準ずる。

Ｈ−１は、以下の条件を総て満たすときに「ｈ」と判定するものである。
・区間Ａ１（１×９８〜５×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが７以上のものが０個でないこと、または、区間Ａ２（２１×９８〜２６×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが３以上のものが０個でないこと。
・区間Ｂ（６×９８〜１０×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが３以上のものが０個でないこと。
・区間Ｃ（１１×９８〜１５×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが３以上のものが０個でないこと。
・区間Ｄ（１６×９８〜２０×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが３以上のものが０個でないこと。
・区間Ｅ（６×９８〜３０×９８Ｈｚ）にスペクトルの最大寄与率ｐ０が存在し、かつ、このｐ０の大きさが８以上であること。

Ｈ−４は、以下の条件を総て満たすときに「ｈ」と判定するものである。
・区間Ａ（１×９８〜５×９８Ｈｚ）にあるスペクトには、寄与率の大きさが２０以上のものが０個であること。
・区間Ｃ（１×９８〜２６×９８Ｈｚ）にスペクトルの最大寄与率ｐ０が存在し、かつ、このｐ０の大きさが８以上であること。
・上記最大寄与率ｐ０が属する区間を除く区間Ｂ１〜Ｂ８のいずれか２区間以上で、寄与率の大きさが４以上のものが１個以上存在すること。

（７）「ｍ」の判定基準について
表３２１に示されるように、Ｍ−１とＭ−２の２つの判定基準のいずれか一方を満たすときに「ｍ」と判定することができる。

Ｍ−１は、以下の条件を総て満たすときに「ｍ」と判定するものである。
・区間Ａ（１×９８〜６×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが１０以上のものが１個を超えること。
・区間Ｂ（１×９８〜６×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが５以上のものが２個を超えること。
・区間Ｃ（７×９８〜１０×９８Ｈｚ）にあるスペクトルの最大寄与率をｐ０とし、区間Ｄ（１１×９８〜１５×９８Ｈｚ）にあるスペクトルの最大寄与率をｐ１とし、区間Ｅ（１６×９８〜２１×９８Ｈｚ）にあるスペクトルの最大寄与率をｐ２とし、区間Ｆ（２２×９８〜３０×９８Ｈｚ）にあるスペクトルの最大寄与率をｐ３としたときに、ｐ１は、ｐ０、ｐ２、ｐ３のいずれよりも大きく、かつ、ｐ１は２以上であること。
・区間Ｇ（３１×９８〜５５×９８Ｈｚ）にあるスペクトルには、寄与率の大きさが４以上のものが０個であること。

Ｍ−２の表の見方は前記「ａ」の判定基準を示す表３１１に準ずる。

（８）「ｒ」の判定基準について
「ｒ」は表３２２に示される判定基準によって判定することができる。この表の見方は上記表３２１のＭ−１に準ずる。

本発明に係る音声認識方法の一例を示すブロック線図である。本発明に係る音声認識方法の他の例を示すブロック線図である。「ア」の音声波形を示す図である。「イ」の音声波形を示す図である。「ウ」の音声波形を示す図である。「エ」の音声波形を示す図である。「オ」の音声波形を示す図である。「カ」の音声波形を示す図である。「サ」の音声波形を示す図である。「タ」の音声波形を示す図である。「ナ」の音声波形を示す図である。「ハ」の音声波形を示す図である。「マ」の音声波形を示す図である。「ラ」の音声波形を示す図である。

Claims

音声信号からサンプリングされＡ／Ｄ変換された音声データ群を、音声周波数が含まれる１次からｍ次（ｍは２以上の整数）までの周波数成分に分析し、これによって得られる振幅スペクトルまたはパワースペクトルから、音声周波数領域に含まれる基本波および各高調波成分の振幅またはパワーの合計に対する、基本波および各高調波成分のそれぞれの振幅またはパワーの比率を１次からｍ次までの寄与率として求め、周波数領域上の所定の区間における所定の大きさの寄与率の有無と、周波数領域上の所定の区間における所定の大きさの寄与率の数とから、子音と母音の音素を特定することを特徴とする音声認識方法。
音声データ群を子音領域と母音領域に区分し、子音領域の音声データ群と母音領域の音声データ群をそれぞれ周波数分析して寄与率を求め、各音声データ群における寄与率の現れ方から、子音と母音の音素を特定することを特徴とする請求項１に記載の音声認識方法。
寄与率として、音声周波数領域に含まれる基本波および各高調波成分の振幅の合計に対する基本波および各高調波成分のそれぞれの振幅の比率を用いることを特徴とする請求項１または２に記載の音声認識方法。
音声データ群に対し、Ｎ個の音声データの分析区間毎に順次周波数分析を施し、各分析区間毎に寄与率を求めることを特徴とする請求項１〜３のいずれか１項に記載の音声認識方法。