JP4890792B2 - 音声認識方法 - Google Patents

音声認識方法 Download PDF

Info

Publication number
JP4890792B2
JP4890792B2 JP2005169217A JP2005169217A JP4890792B2 JP 4890792 B2 JP4890792 B2 JP 4890792B2 JP 2005169217 A JP2005169217 A JP 2005169217A JP 2005169217 A JP2005169217 A JP 2005169217A JP 4890792 B2 JP4890792 B2 JP 4890792B2
Authority
JP
Japan
Prior art keywords
contribution
spectrum
frequency
section
data group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005169217A
Other languages
English (en)
Other versions
JP2006343544A5 (ja
JP2006343544A (ja
Inventor
隆 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2005169217A priority Critical patent/JP4890792B2/ja
Publication of JP2006343544A publication Critical patent/JP2006343544A/ja
Publication of JP2006343544A5 publication Critical patent/JP2006343544A5/ja
Application granted granted Critical
Publication of JP4890792B2 publication Critical patent/JP4890792B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

本発明は、話者の音声から、簡便な処理装置を用いて言語を認識することができる音声認識方法に関する。さらに詳しくは、音声信号の大小に拘わらず同じ基準で分析することができる音声認識方法に関する。
従来、音声認識方法としては、音声波形から母音領域と子音領域を分別し、分別された母音領域の波形と子音領域の波形から当該母音と子音を特定して認識できるようにする方法が提案されている(例えば、特許文献1参照)。
また、上記母音と子音の特定方法として、分別された母音領域について、音声波形の音声信号レベルが電圧ゼロボルトを通過してから正電圧領域を推移して再び電圧ゼロボルトを通過するまでの時間を検知して当該母音を特定し、分別された子音領域について、音声波形の音声信号レベルが電圧ゼロボルトを通過または電圧ゼロボルト近傍から上昇後、正電圧領域を推移して再び電圧ゼロボルトを通過または電圧ゼロボルト近傍に達するまでの時間を検知して当該子音を特定する方法も提案されている(例えば、特許文献2参照)。
特開平9−101797号公報 特開2001−265379号公報
上記従来の音声認識方法は、いずれも母音と子音を分けて識別しようとするものであるが、マイクロホンなどから採取した音声波形そのものを基準に識別するものとなっている。このため、特に声の大小(音声信号の大小)の影響を受けやすく、日常会話などの条件が不定な環境下では正確な識別が行いにくい問題がある。
本願発明は、上記従来の音声認識法の問題点に鑑みてなされたもので、音声信号の大小に拘わらず一定の基準で音声を識別できるようにすることを目的とする。
本発明は、上記目的のために、音声信号からサンプリングされA/D変換された音声データ群を、音声周波数が含まれる1次からm次(mは2以上の整数)までの周波数成分に分析し、これによって得られる振幅スペクトルまたはパワースペクトルから、音声周波数領域に含まれる基本波および各高調波成分の振幅またはパワーの合計に対する、基本波および各高調波成分のそれぞれの振幅またはパワーの比率を1次からm次までの寄与率として求め、周波数領域上の所定の区間における所定の大きさの寄与率の有無と、周波数領域上の所定の区間における所定の大きさの寄与率の数とから、子音と母音の音素を特定することを特徴とする音声認識方法を提供するものである。
また、上記本発明は、音声データ群を子音領域と母音領域に区分し、子音領域の音声データ群と母音領域の音声データ群をそれぞれ周波数分析して寄与率を求め、各音声データ群における寄与率の現れ方から、子音と母音の音素を特定すること、
寄与率として、音声周波数領域に含まれる基本波および各高調波成分の振幅の合計に対する基本波および各高調波成分のそれぞれの振幅の比率を用いること、
音声データ群に対し、N個の音声データの分析区間毎に順次周波数分析を施し、各分析区間毎に寄与率を求めること
をその好ましい態様として含むものである。
本発明の音声認識方法は、寄与率を用いて子音と母音の特定を行うものとなっている。
ところで、本発明における寄与率は、音声周波数領域に含まれる基本波および各高調波成分の振幅の合計に対する基本波および各高調波成分のそれぞれの振幅の比率、または、音声周波数領域に含まれる基本波および各高調波成分のパワーの合計に対する基本波および各高調波成分のそれぞれのパワーの比率である。そして、寄与率は、上記のような比率であることから、音声信号の大小に影響を受けることのない値であり、本発明は、この寄与率を基準に音声認識を行うものであることから、音声信号の大小に拘わらず、確度の高い識別を行うことができるものである。
本発明に係る音声識別方法の基本的な手順を説明する。なお、ここでの説明は、説明の便宜上、被験者が日本語における五十音の一音を発してこれをサンプリングした場合を例にして説明する。
まず、本発明に係る音声認識方法の一例を図1に基づいて説明する。
音声信号は、例えばマイクロホンなどによりアナログ信号として採取し、必要に応じて増幅したりフィルター処理を加えた後、サンプリングし、A/D変換して、一旦メモリーに音声データ群として記録する。
音声を認識する上で分析が必要な周波数は、言語によっても多少異なるが、例えば日本語においては、5〜5.5kHz程度までは必要であろうと考えられる。また、連続信号に含まれる周波数成分を正しくサンプリングデータとして得るには、サンプリング周波数が連続信号の持つ周波数の上限の2倍以上でなければならないとされていることから、サンプリング周波数は10kHz以上であることが好ましい。後述する具体例では50kHzでサンプリングを行っているが、現実的にはこれほどの高い周波数とする必要はない。また、予めサンプリング周波数の1/2を超える周波数成分をフィルター(ローパスフィルター)でカットしておくことが好ましい。
メモリーに格納された音声データは、通常、最初と最後に存在する無信号領域(無音領域)を除いて取り出されて周波数分析が施されるが、周波数分析誤差をできるだけ少なく抑えるため、その前処理として、窓関数処理を施すことが好ましい。
窓関数処理を行う場合の窓関数としては、ハニング窓、ハミング窓、ブラックマン窓、矩形窓などがあり、いずれを用いることも可能であるが、音声はランダム波形であることから、音声解析で最も一般的に用いられているハミング窓が好ましい。
ハミング窓を用いた場合、元の音声データ値をd、データ番号をn、周波数分析に用いるデータ数をNとすると、変換後のデータXは以下の通りとなる。
X=d×〔0.54−0.46×cos{2×π×n/(N−1)}〕
n=0〜(N−1)
周波数分析に用いるデータ数Nは、これが少ない場合周波数分解能は低下するが、分析区間内での時間分解能が大きく現れる。逆に、データ数Nが多いと、分析区間内での時間分解能は小さくなるが、周波数分解能が向上する。周波数分解能が過剰に低下すると、後述する寄与率が音声波形に含まれる周波数成分を正しく反映しにくくなり、寄与率の現れ方の特徴を掴みにくくなることから、40〜100Hzの分解能が得られるようにサンプリング周波数に応じてデータ数を調整することが好ましい。なお、高速フーリエ解析の場合、データ数は2の整数乗となる。
音声データ群について、必要に応じて上記窓関数処理を施してから周波数分析を行い、振幅スペクトルおよび/またはパワースペクトルを求める。この周波数分析にはフーリエ解析、特に処理時間が短い高速フーリエ解析が好ましい。
フーリエ解析(高速フーリエ解析)を用いた場合、1回の解析で、前記音声データ群中のN個(例えば512個、1024個などの2の整数乗の個数)の音声データについて、m=1(mは次数)の時の基本周波数と基本周波数の整数倍(基本周波数の次数倍)の周波数(高調波)とについて、それぞれ対応する正弦波成分の係数amと余弦波成分の係数bmが得られる。そして、これらの係数を用い、以下のようにして振幅スペクトルXmとパワースペクトルXm 2を求めることができる。なお、m=0は直流成分に対応する。
m=√(am 2+bm 2
m 2=am 2+bm 2
本発明における寄与率は、m=1の基本周波数からm=2以上の各高調波成分の振幅スペクトルXmの合計に対する各振幅スペクトルXmの比率C、または、m=1の基本周波数からm=2以上の各高調波成分のパワースペクトルXm 2の合計に対する各パワースペクトルXm 2の比率C’として求めることができる。CまたはC’は、比として求めても百分率で求めても良い。比として求める場合、下記式となる。百分率で求める場合、それぞれ100を乗じた値となる。
C=(1/ΣXm)×(Xm
C’=(1/ΣXm 2)×(Xm 2
なお、mの上限は、周波数分析を行う際の周波数分解能によって異なるが、音声認識を行うに必要な周波数まで分析できる次数までで足る。具体的には、サンプリング周波数が50kHz、データ数Nが1024個であるとすると、周波数分析で得られる次数は、(1024/2)―1=511であるが、周波数分解能=50000÷1024≒48Hzであることと、前記のように日本語の音声認識では5.5kHz程度までの分析が必要であると考えると、m=5500÷48≒114となる。
本発明で用いる寄与率は、上記CとC’のいずれでも良いが、C’の場合変動がほぼ二乗で現れることから、振幅スペクトルよりも周波数成分の大小が強調されやすくなるため、Cを用いることが好ましい。
周波数分析は、例えば、音声データ群の適宜の領域のN個の音声データについて1回行うだけとすることもできる。しかし、通常、音声データ群がN個を超える音声データの集まりとなるようにデータ数Nやサンプル数を定めることから、N個の音声データを1つの分析区間(1フレーム)とし、各分析区間を所定音声データ数ずつずらせながら、音声データ群全体を複数回に分けて周波数分析することが好ましい。このようにして音声データ群全体を分析することで精度を向上させることができる。この場合、各分析区間毎に寄与率を求めることになる。分析区間番号をjとすると、前記寄与率C,C’は下記のように表すことができる。
j=(1/ΣXjm)×(Xjm
j’=(1/Σ(Xjm 2)×(Xjm 2
上記周波数分析により、通常、m次までの寄与率が各分析区間毎に求められる。そして、求められた寄与率の状態と、予め定められた判定基準とを対比することにより、音声データ群から識別できる母音の音素と子音の音素が特定される。例えば、子音の音素が「k」で母音の音素が「a」と特定された場合、「カ」との識別結果となる。また、その音声データ群から「a」だけしか特定されない場合、「ア」との識別結果となる。
次に、本発明に係る音声識別方法の他の例を図2に基づいて説明する。
音声信号のサンプリングおよびA/D変換は図1の例と同様である。
本例においては、メモリーに格納された音声データ群を、窓関数処理に先立って、母音領域の音声データ群と子音領域の音声データ群に区分する。この母音領域と子音領域の区分けは、例えば次のようにして行うことができる。
1 音声データ群の信号領域の先頭位置から所定個数の音声データを次々に比較し、音声データ中で最大のピーク(最大ピークPmax)の値とその位置(最大ピークPmaxは音声データ群の中間部に存在する)を求める。
2 適宜の音声データ数の区間を設定し、最大ピークPmaxの位置から音声データ群の先頭に向かって、順次区間内で最も大きいピーク(区間ピークPn)を求める。
3 母音領域においては急激なピークの低下はないことから、最大ピークPmaxと、これに隣接する区間における区間ピークP1、さらにP1の区間に隣接する次の区間における区間ピークP2のように次々に対比し、例えば区間ピークP1が最大ピークPmaxの60%以上である場合は母音領域であると判別することができ、また区間ピークPnが一つ前の区間ピークPn-1の60%以上である場合には母音領域の続きであると判別することができる。
4 上記対比を行って、区間ピークPnが一つ前の区間ピークPn-1に比して大きく低下する位置を求め、これが先頭位置であれば全体が母音領域と判別でき、これが音声データ群の中間位置であれば、子音領域と母音領域の境界であると判別できる。また、ピーク値が急激に低下した位置が先頭位置ではない場合でも、先頭位置から当該位置までのデータ数が極端に少ないときには、母音の立ち上がり領域であると判断することができる。
5 また、最大ピークPmaxの位置から音声データ群の最後尾に向かって同様のピーク値の対比を行うと、母音領域の最後尾の位置を検知することができる。複数音を連続して発生した場合、この位置を検知することで、音間の境界を検知することができる。
上記の母音領域と子音領域の区分け方法はその一例で、本発明における母音領域と子音領域の区分け方法としては、従来公知のいずれの方法でも適用することができる。例えば背景技術で挙げた特許文献1の方法で行うこともできる。また、複数の区分け方法を併用することもできる。
音声データ群を母音領域の音声データ群と子音領域の音声データ群に区分した後、必要に応じてそれぞれに前述と同様の窓関数処理を施し、さらに前述と同様にして周波数分析を行い、振幅スペクトルおよび/またはパワースペクトルを求める。
上記周波数分析は、前記母音領域の音声データ群と、子音領域の音声データ群のそれぞれについて施され、それぞれm次までの寄与率が各分析区間毎に求められる。そして、求められた寄与率の状態と、予め定められた判定基準と対比されて、母音と子音が特定される。例えば、子音が「k」で母音が「a」と特定された場合、「カ」との識別結果となる。また、母音領域のみであって、その音声データ群から「a」と特定された場合、「ア」との識別結果となる。特に本例の場合、子音領域の音声データ群から求められた寄与率は子音の音素を特定するための判定基準のみの対比とし、母音領域の音声データ群から求められた寄与率は母音の音素を特定するための判定基準のみの対比とすることができ、予め母音領域と子音領域を区分けしておくことで、対比を簡略化することができる。
子音と母音の音素を特定するための判定基準は、予めできるだけ多数の被験者から五十音の寄与率を求め、各被験者の五十音それぞれの音素についての寄与率の現れ方を整理しておくことで用意することができる。具体的には、どのような周波数領域にどのような大きさの寄与率が何個現れるか、最大の寄与率を生じる周波数領域、特定の周波数領域の寄与率と他の特定の周波数領域の寄与率との大小関係などを五十音の音素についてデータベース化しておくことで用意することができる。
判定基準との対比により、複数の音素が該当する結果が得られる場合などにおいては、例えば音素に優先順位を定めておいて、その順番で特定したり、原波形を参照することでいずれかを選択することが可能である。
判定基準を作成する場合や、未知の音声を識別する場合に、ニューラルネットワークなどを導入することにより、より認識精度を高めることが可能である。また、コンピューター以外にも、適当な電子回路を用いることにより、目的を達成することが可能である。
次に、実際に寄与率を求めた例について説明する。
―「ア」について―
図1に示す手順で音素の判定を行った。
まず、被験者に単音で「ア」を発声してもらい、その音声をマイクロホンで採取し、サンプリングし、A/D変換して、1番から順次時系列でデータ番号を付してパーソナルコンピューターのメモリーに格納した。サンプリング周波数は50kHzで、A/Dで変換を行う際に、ローパスフィルターで25kHzを超える周波数成分をカットした。
採取した音声波形を図3に示す。
メモリーに格納した音声データ群の音声信号領域(無信号領域を除いた領域)を取り出し、ハミング窓関数による窓関数処理を施し、高速フーリエ変換を施した。高速フーリエ変換のデータ数Nは1024、周波数分析次数mは114までとした。なお、今回の場合は、(1024/2)−1=511次までのスペクトルが求められているが、115次から511次までのスペクトルは全て無視できる値であった(0に近かった)。
百分率で求めた寄与率を表1〜表18に示す。
表1は、データ番号が314〜1338までの1024の音声データを1分析区間(1フレーム)として高速フーリエ変換して求めた寄与率を示し、表2は、データ番号が714〜1738までの1024の音声データ1分析区間としてを高速フーリエ変換して求めた寄与率を示す。表1のデータ番号が314からであるのに対し、表2のデータ番号が714であるのは、各分析区間の間を400の音声データ分だけずらせながら分析を行ったことを示す。1024の音声データを1フレームとし、各フレーム間を400の音声データ分だけずらせているのは以後の他の表においても同様である。
また、各表の末尾に示される「判定」の欄の記載は、特定された母音または子音の音素を示し、「判定基準」の欄の記載は、後述する表311〜322に示される「音素」の欄にカッコ書きで示される符号に対応する。「判定」と「判定基準」の欄が空欄である場合は、判定には使用されなかったデータ(後述する判定基準には該当しなかったデータ)であったことを示す。これらは以後の他の表においても同様である。
―「イ」について―
被験者に単音で「イ」を発生してもらい、以下「ア」の測定と同様にして寄与率を求めた。
採取した音声波形を図4に示すと共に、百分率で求めた寄与率を表19〜表43に示す。なお、表1のデータ番号が314から始まっているのに対し、表19のデータ番号が21からとなっているのは、表1においては313までが無信号状態(無音状態)であったために処理対象外とされ、表19においてはそれが20までであったことによる。以後の他の音の表におけるデータ番号のズレも同様である。
―「ウ」について―
被験者に単音で「ウ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
採取した音声波形を図5に示すと共に、百分率で求めた寄与率を表44〜表68に示す。
―「エ」について―
被験者に単音で「エ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
採取した音声波形を図6に示すと共に、百分率で求めた寄与率を表69〜表93に示す。
―「オ」について―
被験者に単音で「オ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
採取した音声波形を図7に示すと共に、百分率で求めた寄与率を表94〜表123に示す。
―「カ」行について―
被験者に単音で「カ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
採取した音声波形を図8に示すと共に、百分率で求めた寄与率を表124〜表144に示す。
なお、「キ」、「ク」、「ケ」、「コ」については、子音の音素判別自体は「カ」と同様であることから省略する。
―「サ」行について―
被験者に単音で「サ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
採取した音声波形を図9に示すと共に、百分率で求めた寄与率を表145〜表173に示す。
なお、「シ」、「ス」、「セ」、「ソ」については、子音の音素判別自体は「サ」と同様であることから省略する。
―「タ」行について―
被験者に単音で「タ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
採取した音声波形を図10に示すと共に、百分率で求めた寄与率を表174〜表194に示す。
なお、「チ」、「ツ」、「テ」、「ト」については、子音の音素判別自体は「タ」と同様であることから省略する。
―「ナ」行について―
被験者に単音で「ナ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
採取した音声波形を図11に示すと共に、百分率で求めた寄与率を表195〜表223に示す。
なお、「ニ」、「ヌ」、「ネ」、「ノ」については、子音の音素判別自体は「ナ」と同様であることから省略する。
―「ハ」行について―
被験者に単音で「ハ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
採取した音声波形を図12に示すと共に、百分率で求めた寄与率を表224〜表250に示す。
なお、「ヒ」、「フ」、「ヘ」、「ホ」については、子音の音素判別自体は「ハ」と同様であることから省略する。
―「マ」行について―
被験者に単音で「マ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
採取した音声波形を図13に示すと共に、百分率で求めた寄与率を表251〜表280に示す。
なお、「ミ」、「ム」、「メ」、「モ」については、子音の音素判別自体は「マ」と同様であることから省略する。
―「ヤ」行について―
「ヤ」、「ユ」、「ヨ」については、「ia」、「iu」、「io」に準ずると考えられることから省略する。
―「ラ」行について―
被験者に単音で「ラ」を発音してもらい、以下「ア」の測定と同様にして寄与率を求めた。
採取した音声波形を図15に示すと共に、百分率で求めた寄与率を表281〜表310に示す。
なお、「リ」、「ル」、「レ」、「ロ」については、子音の音素判別自体は「ラ」と同様であることから省略する。
―「ワ」行について―
「ワ」、「ヲ」については、「ua」、「uo」に準ずると考えられることから省略する。
―「ン」について―
「ン」については「un」または「n」若しくは「m」に準ずると考えられることから省略する。
―判定基準について―
男女複数の被験者から五十音を測定した結果得られた判定基準の一例を表311〜322に示す。
この表311〜322においては、表示を簡略化するため、1次高調波(49Hz)と2次高調波(98Hz)の寄与率を足し合わせた値を98Hzの寄与率とし、3次高調波(147Hz)と4次高調波(196Hz)の寄与率を足し合わせた値を196Hzの寄与率とし、以下同様にして、m−1次高調波の寄与率とm次高調波の寄与率を足し合わせた値をm次の周波数における寄与率として表したものとなっている(ただし、ここでのmは2以上の整数)。しかし、判定基準は、m−1次高調波の寄与率とm次高調波の寄与率を足し合わせた値をm次の周波数における寄与率として表したものを基準としなければならないものではなく、各分析区間における1次からm次までの寄与率をそのまま表したものを基準とすることもできる。
なお、表311〜322において、「周波数」の項目における上段と下段の数字は、98Hzに乗ずべき数字を意味し、上段の数字は十の位を指し、下段の数字は一の位を指す。また、「区間」の欄に示されるA,B,C,…などの符号は、「周波数」の欄に矢印で示される領域を意味するが、以下の説明の便宜上付したもので、各表に付されている符号が同じ周波数領域を意味するものではない。
以下、表311〜322を補足説明する。
(1)「a」の判定基準について
表311に示されるように、A−1とA−2の2つの判定基準のいずれか一方を満たすときに「a」と判定することができる。
A−1は、以下の条件を総て満たすときに「a」と判定するものである。
・ 区間A(1×98〜4×98Hz)にあるスペクトルには、寄与率の大きさが10以上のものが存在しないこと。
・ 区間B(5×98〜9×98Hz)にあるスペクトルには、寄与率の大きさが10以上のものが2個未満であること。
・ 区間C(8×98〜15×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが3個を超えて存在すること。
・ 区間D(13×98〜25×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが0個でないこと。
A−2は、以下の条件を総て満たすときに「a」と判定するものである。
・ 区間A(1×98〜4×98Hz)にあるスペクトルには、寄与率の大きさが10以上のものが存在しないこと。
・ 区間B(2×98〜7×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが1個を超えて存在すること。
・ 区間C(5×98〜9×98Hz)にあるスペクトルには、寄与率の大きさが10以上のものが2個未満であること。
・ 区間D(9×98〜15×98Hz)にあるスペクトルには、寄与率の大きさが10以上のものが2個を超えて存在すること。
・ 区間E(13×98〜25×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが0個でないこと。
(2)「i」の判定基準について
表312に示されるように、I−1とI−2の2つの判定基準のいずれかを満たすときに「i」と判定することができる。
I−1の表の見方は前記「a」の判定基準を示す表311に準ずる。
I−2は、以下の条件を総て満たすときに「i」と判定するものである。
・ 区間A(2×98〜4×98Hz)にあるスペクトルには、寄与率の大きさが9以上のものが0個でないこと。
・ 区間B(11×98〜15×98Hz)にあるスペクトルには、寄与率の大きさが2.5以上のものが0個であること。
・ 区間C(17×98〜26×98Hz)にあるスペクトルには、寄与率の大きさが2.5以上のものが6個未満であること。
・ 区間D(17×98〜20×98Hz)にあるスペクトルには、寄与率の大きさが1.5以上のものが0個であること。
・ 区間E1(28×98〜41×98Hz)にあるスペクトルには、寄与率の大きさが
0.5以上のものが8個以上あること、または区間E2(28×98〜41×98Hz)にあるスペクトルには、寄与率の大きさが1以上のものが3個以上あること、若しくは
区間F(28×98〜41×98Hz)にあるスペクトルには、寄与率の大きさが0.5以上のものが3個以上あり、かつ区間G(28×98〜41×98Hz)にあるスペクトルには、寄与率の大きさが1以上のものが0個でないこと。
・ 区間H(35×98〜46×98Hz)にあるスペクトルには、寄与率の大きさが
2.5以上のものが0個であること。
・区間1×98〜10×98Hzにおいては、寄与率の大きさが3以上のものは7×98
Hz以上には存在しないこと。
(3)「u」、「e」、「o」、「s」、「t」の判定基準について
「u」は表313、「e」は表314、「o」は表315、「s」は表317、「t」は表318に示される判定基準によって判定することができる。「u」、「e」、「o」、「s」および「t」のT−1の表の見方は上記「a」の判定基準を示す表311に準ずる。「t」のT−1の表の見方は次に述べるK−2の見方に準ずる。
(4)「k」の判定基準について
表316に示されるように、K−1とK−2とK−3の3つの判定基準のいずれか一つを満たすときに「k」と判定することができる。
K−1とK−3の表の見方は前記「a」の判定基準を示す表311に準ずる。
K−2は、以下の条件を総て満たすときに「k」と判定するものである。
・ 区間A(1×98〜5×98Hz)にあるスペクトルには、寄与率の大きさが6以上のものが0個であること。
・ 区間B(16×98〜20×98Hz)にあるスペクトルには、寄与率の大きさが2.5以上のものが0個であること。
・ 区間C1(36×98〜40×98Hz)にあるスペクトルには、寄与率の大きさが2以上のものが1個以上あること、または、区間C2(46×98〜55×98Hz)にあるスペクトルには、寄与率の大きさが2以上のものが1個以上あること。
・ 区間D(41×98〜45×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが1個以上あること。
(5)「n」の判定基準について
表319に示されるように、以下の条件を総て満たすときに「n」と判定することができる。
・ 区間A(1×98〜6×98Hz)にあるスペクトルには、寄与率の大きさが30以上のものが0個であること。
・ 区間B(1×98〜6×98Hz)にあるスペクトルには、寄与率の大きさが10以上のものが1個を超えること。
・ 区間C(1×98〜6×98Hz)にあるスペクトルには、寄与率の大きさが5以上のものが2個を超えること。
・ 区間D(7×98〜9×98Hz)にあるスペクトルの最大寄与率をp0とし、区間E(10×98〜15×98Hz)にあるスペクトルの最大寄与率をp1とし、区間F(16×98〜21×98Hz)にあるスペクトルの最大寄与率をp2とし、区間G(22×98〜30×98Hz)にあるスペクトルの最大寄与率をp3としたときに、p0、p2、p3のうちの最低1個がp1よりも大きく、かつ、p0、p2、p3のうちの最低1個の寄与率が2以上であること。
・ 区間H(31×98〜55×98Hz)にあるスペクトルには、寄与率の大きさが2以上のものが0個であること。
(6)「h」の判定基準について
表320に示されるように、H−1〜H−4の4つの判定基準のいずれか一つを満たすときに「h」と判定することができる。
H−2の表の見方は前記表320のK−2に準じ、H−3の表の見方は前記「a」の判定基準を示す表311に準ずる。
H−1は、以下の条件を総て満たすときに「h」と判定するものである。
・ 区間A1(1×98〜5×98Hz)にあるスペクトルには、寄与率の大きさが7以上のものが0個でないこと、または、区間A2(21×98〜26×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが0個でないこと。
・ 区間B(6×98〜10×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが0個でないこと。
・ 区間C(11×98〜15×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが0個でないこと。
・ 区間D(16×98〜20×98Hz)にあるスペクトルには、寄与率の大きさが3以上のものが0個でないこと。
・ 区間E(6×98〜30×98Hz)にスペクトルの最大寄与率p0が存在し、かつ、このp0の大きさが8以上であること。
H−4は、以下の条件を総て満たすときに「h」と判定するものである。
・ 区間A(1×98〜5×98Hz)にあるスペクトには、寄与率の大きさが20以上のものが0個であること。
・ 区間C(1×98〜26×98Hz)にスペクトルの最大寄与率p0が存在し、かつ、このp0の大きさが8以上であること。
・ 上記最大寄与率p0が属する区間を除く区間B1〜B8のいずれか2区間以上で、寄与率の大きさが4以上のものが1個以上存在すること。
(7)「m」の判定基準について
表321に示されるように、M−1とM−2の2つの判定基準のいずれか一方を満たすときに「m」と判定することができる。
M−1は、以下の条件を総て満たすときに「m」と判定するものである。
・ 区間A(1×98〜6×98Hz)にあるスペクトルには、寄与率の大きさが10以上のものが1個を超えること。
・ 区間B(1×98〜6×98Hz)にあるスペクトルには、寄与率の大きさが5以上のものが2個を超えること。
・ 区間C(7×98〜10×98Hz)にあるスペクトルの最大寄与率をp0とし、区間D(11×98〜15×98Hz)にあるスペクトルの最大寄与率をp1とし、区間E(16×98〜21×98Hz)にあるスペクトルの最大寄与率をp2とし、区間F(22×98〜30×98Hz)にあるスペクトルの最大寄与率をp3としたときに、p1は、p0、p2、p3のいずれよりも大きく、かつ、p1は2以上であること。
・ 区間G(31×98〜55×98Hz)にあるスペクトルには、寄与率の大きさが4以上のものが0個であること。
M−2の表の見方は前記「a」の判定基準を示す表311に準ずる。
(8)「r」の判定基準について
「r」は表322に示される判定基準によって判定することができる。この表の見方は上記表321のM−1に準ずる。
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
Figure 0004890792
本発明に係る音声認識方法の一例を示すブロック線図である。 本発明に係る音声認識方法の他の例を示すブロック線図である。 「ア」の音声波形を示す図である。 「イ」の音声波形を示す図である。 「ウ」の音声波形を示す図である。 「エ」の音声波形を示す図である。 「オ」の音声波形を示す図である。 「カ」の音声波形を示す図である。 「サ」の音声波形を示す図である。 「タ」の音声波形を示す図である。 「ナ」の音声波形を示す図である。 「ハ」の音声波形を示す図である。 「マ」の音声波形を示す図である。 「ラ」の音声波形を示す図である。

Claims (4)

  1. 音声信号からサンプリングされA/D変換された音声データ群を、音声周波数が含まれる1次からm次(mは2以上の整数)までの周波数成分に分析し、これによって得られる振幅スペクトルまたはパワースペクトルから、音声周波数領域に含まれる基本波および各高調波成分の振幅またはパワーの合計に対する、基本波および各高調波成分のそれぞれの振幅またはパワーの比率を1次からm次までの寄与率として求め、周波数領域上の所定の区間における所定の大きさの寄与率の有無と、周波数領域上の所定の区間における所定の大きさの寄与率の数とから、子音と母音の音素を特定することを特徴とする音声認識方法。
  2. 音声データ群を子音領域と母音領域に区分し、子音領域の音声データ群と母音領域の音声データ群をそれぞれ周波数分析して寄与率を求め、各音声データ群における寄与率の現れ方から、子音と母音の音素を特定することを特徴とする請求項1に記載の音声認識方法。
  3. 寄与率として、音声周波数領域に含まれる基本波および各高調波成分の振幅の合計に対する基本波および各高調波成分のそれぞれの振幅の比率を用いることを特徴とする請求項1または2に記載の音声認識方法。
  4. 音声データ群に対し、N個の音声データの分析区間毎に順次周波数分析を施し、各分析区間毎に寄与率を求めることを特徴とする請求項1〜3のいずれか1項に記載の音声認識方法。
JP2005169217A 2005-06-09 2005-06-09 音声認識方法 Expired - Fee Related JP4890792B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005169217A JP4890792B2 (ja) 2005-06-09 2005-06-09 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005169217A JP4890792B2 (ja) 2005-06-09 2005-06-09 音声認識方法

Publications (3)

Publication Number Publication Date
JP2006343544A JP2006343544A (ja) 2006-12-21
JP2006343544A5 JP2006343544A5 (ja) 2008-08-21
JP4890792B2 true JP4890792B2 (ja) 2012-03-07

Family

ID=37640558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005169217A Expired - Fee Related JP4890792B2 (ja) 2005-06-09 2005-06-09 音声認識方法

Country Status (1)

Country Link
JP (1) JP4890792B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5993246B2 (ja) * 2012-08-23 2016-09-14 株式会社ダイヘン 溶接システムおよび溶接制御装置
CN120375856B (zh) * 2025-05-15 2025-12-09 苏州界川设计咨询有限公司 一种高频声信号检测方法、电子装置控制方法及电子装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56129000A (en) * 1980-03-14 1981-10-08 Hitachi Ltd Wind hanging calculator
JPS6180298A (ja) * 1984-09-28 1986-04-23 松下電器産業株式会社 音声認識装置
JPS62299899A (ja) * 1986-06-19 1987-12-26 富士通株式会社 よう音・直音言い分け評価方式
JPS6389900A (ja) * 1986-10-03 1988-04-20 沖電気工業株式会社 音声認識装置
JPS63234299A (ja) * 1987-03-20 1988-09-29 株式会社日立製作所 音声分析合成方式
JPH03230200A (ja) * 1990-02-05 1991-10-14 Sekisui Chem Co Ltd 音声認識方法
DE19912405A1 (de) * 1999-03-19 2000-09-21 Philips Corp Intellectual Pty Bestimmung einer Regressionsklassen-Baumstruktur für Spracherkenner

Also Published As

Publication number Publication date
JP2006343544A (ja) 2006-12-21

Similar Documents

Publication Publication Date Title
Zahorian et al. A spectral/temporal method for robust fundamental frequency tracking
EP3042377B1 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
Kane et al. Evaluation of glottal closure instant detection in a range of voice qualities
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
CN102222499B (zh) 声音判别系统、声音判别方法以及声音判别用程序
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
US7908142B2 (en) Apparatus and method for identifying prosody and apparatus and method for recognizing speech
Mary et al. Automatic syllabification of speech signal using short time energy and vowel onset points
Gupta et al. Implicit language identification system based on random forest and support vector machine for speech
Deb et al. Exploration of phase information for speech emotion classification
JP7159655B2 (ja) 感情推定システムおよびプログラム
Vydana et al. Detection of fricatives using S-transform
JP4890792B2 (ja) 音声認識方法
Kitayama et al. Robust fundamental frequency-detection algorithm unaffected by the presence of hoarseness in human voice
JPH0229232B2 (ja)
KR0136608B1 (ko) 음성신호 검색용 음성인식 장치
Płonkowski Using bands of frequencies for vowel recognition for Polish language
Aadit et al. Pitch and formant estimation of bangla speech signal using autocorrelation, cepstrum and LPC algorithm
Awais et al. Continuous Arabic speech segmentation using FFT spectrogram
Li SPEech Feature Toolbox (SPEFT) design and emotional speech feature extraction
Deiv et al. Automatic gender identification for hindi speech recognition
Zhang et al. Leveraging laryngograph data for robust voicing detection in speech
JP2001083978A (ja) 音声認識装置
Pyž et al. Modelling of Lithuanian speech diphthongs
JPH1097269A (ja) 音声検出装置及び方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080605

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080605

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20080605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080606

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080725

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101102

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111206

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111215

R150 Certificate of patent or registration of utility model

Ref document number: 4890792

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141222

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees