JPH0283595A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH0283595A
JPH0283595A JP63236913A JP23691388A JPH0283595A JP H0283595 A JPH0283595 A JP H0283595A JP 63236913 A JP63236913 A JP 63236913A JP 23691388 A JP23691388 A JP 23691388A JP H0283595 A JPH0283595 A JP H0283595A
Authority
JP
Japan
Prior art keywords
phoneme
speech
similarity
noise
consonant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63236913A
Other languages
English (en)
Inventor
Katsuyuki Futayada
二矢田 勝行
Masakatsu Hoshimi
昌克 星見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP63236913A priority Critical patent/JPH0283595A/ja
Publication of JPH0283595A publication Critical patent/JPH0283595A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、人間の声を機械に認識させることを目的とし
た音声認識方法に関するものである。
従来の技術 音声認識に関しては、いろいろな方法が提案されている
が、その中で音素認識を基本とする方法は、不特定話者
への対応、多数語の認識への対応、認識語いを容易に更
新できることによるシステムの柔軟性という点において
、優れた方法である。
音素認識を基本とする方法には、たとえば、二矢田他「
音素を単位とした小型・高速の不特定話者・多数語用音
声認識装置」 (日本音響学会誌43巻4号(1987
) )がある。以下、第5図によって、簡単にその構成
を説明する。
音響分析部1では、入力された音声信号を1フレーム(
10m s )ごとにLPG分析および3チヤンネルの
フィルタで分析する。そして、15次のLPCケプスト
ラム係数と3つの帯域パワー求める。
分析された音声信号は音声区間検出部2.子音認識部3
および母音・半母音認識部4へ供給される。
まず、音声区間検出部2では、主に帯域パワーの大きさ
およびその時間変化によって、音声の始端を検出する。
始端が検出された後、次の一連の認識動作が開始される
。母音・半母音認識部4では、1フレームごとに音素標
準パターンとの類似度を計算し、類似度が最大となる音
素を認識結果として求める。
子音認識部3では、先ず帯域パワーの大きさを用いて子
音区間を検出し、子音を音素群として分類する(子音セ
グメンテーションおよび大分類部5)。子音のセグメン
テーション法を第6図を用いて説明する。パワーの時間
的な変動に注目すると、母音や半母音部よりも、子音部
の方がパワー値が小さい。日本語では、母音と子音が交
互に出現するのが原則なので、パワーの動きを検出すれ
ば子音区間を求めることができる。第6図(a)は語頭
におけるパワーの動きの例を示している。語頭子音部で
は、無音部からパワーが立ち上がり、後続母音部で一段
とパワー値が大きくなる。語中子音では、第6図[有]
)のように、子音部においてパワーの凹み(パワーデイ
ツプ)ができる。語頭子音では音声の始まりから後続母
音への立上りまでを子音区間とし、語中子音ではパワー
デイツプの部分を子音区間とする。パワー変化やパワー
デイツプの大きさは音素群ごとに異なるという事実を利
用して、子音を音素群への大分類している。パワー情報
として、高域パワーと低域パワーを併用することによっ
て、音素群ごとの差異を協調している(たとえば、無声
破裂音は高域、低域両方のパワー変化が大きく、有声破
裂音は低域よりも高域のパワー変化の方が大きい)。
第5図において、基準点検出部6は、パターンマツチン
グの際の時間的な基準となる部分を検出する部分である
。第6図に示すように、基準点はパワーの立上り部に設
定されている。第6図(a)のように、語頭の無声子音
は、無音からの立上り部を、また語頭の有声子音は子音
から母音への立上り部を基準点とする。同図(b)のよ
うに、語中子音は全て子音から母音へのパワーの立上り
部を基準点とする。
第5図の子音パターンマツチング部7は、基準点検出部
6で検出された位置の付近において、音響分析部1で得
られたLPCケプストラム係数と子音標準パターンとの
類似度を、大分類された音素群ごとに行ない、類似度が
最大となる音素を子音認識結果とする。
音素系列作成部8は、個々に認識された母音、半母音、
子音を統合し、これに日本語の金形規則(たとえば、子
音が連続しないなど)を適用して音素系列を作成する。
単語認識部9は、音素系列作成部8で得られた音素系列
と、単語辞書10の各項目(音素記号で記述されている
)を1つずつ照合し、音素系列に最も近い辞書中の項目
を認識結果とする。
発明が解決しようとする課題 従来例の方法は、騒音が少ない環境においては良好な音
声認識率が得られるが、騒音やその他のノイズが多い場
合には、認識率が大幅に低下する。
その第1の理由は、ノイズの混入により、音声区間(特
に始端)が正確に求まらず、語頭部分が脱落したり不必
要に長くなって、語頭音素の認識率が悪(なることであ
る。従来の方法は、音声の始端を検出した後で、その他
の処理が始まるので、語頭が不正確ならば、その後に影
響が残る。第2は、ノイズの影響によって、基準点の位
置が太きくずれることである。特に語頭子音の基準点の
ずれが大きい。従来法では、基準点近傍においてのみ類
似度を計算しているので、基準点の大きなずれには対処
できない。また基準点から外れた部分で類似度計算を行
なうと、子音の識別率が低下してしまう。第2図の曲線
11は、例として、従来法における語頭子音/Z、 h
+ s、 c、 P、 C1h /の平均認識率と基準
点のずれ幅の関係を示したものである。正確な基準点で
は認識率が84.1%であるが、±3フレームずれると
61.6%に低下してしまう。
第3の理由は、ノイズの混入により、子音の大分類率が
低下することにある。子音部にノイズが混入すると、パ
ワーデイツプが埋もれてしまい、大分類率が悪くなる。
本発明は、以上に述べた従来法の課題を解決し、ノイズ
が混入した場合においても安定した認識率を確保するこ
とを目的とする。
課題を解決するための手段 本発明は、従来法の課題である、音声区間や基準点を一
意に決める方法、大分類を優先した子音識別法を廃止し
、ノイズを含む音声信号中から各々の音素を切り出す(
スポツティングする)方法によって、ノイズの影響を受
けにくい音声認識法を提供する。
各音素の標準パターンとして、各音素の特徴と共にあら
ゆる音声の情報、ノイズの情報を含んだものを作成して
おく。この標準パターンとノイズを含んだ入力音声信号
との間の類似度を、事後確率化された距離尺度を用いて
、単位時間(1フレーム)ずつシフトしながら求め、類
似度の連続性によって同一音素に属する部分を抽出する
。そして、抽出された音素をまとめて音素系列を作成し
、従来例と同様に単語認識結果を出力する。
作用 本発明は、上記構成により、ノイズが混入した音声に対
しても良好な認識率が得られる。
実施例 次に本発明の実施例を第1図を中心として説明する。従
来例との大きな違いは、従来例では音声区間検出、子音
検出、基準点検出を類似度計算(パターンマツチング)
よりも優先して行なっていたが、本実施例では音声区間
、子音区間、基準点の候補を求め、これらと類似度情報
を併用して音素系列を作成する。
音声信号(音声の前後のノイズ部分を含む)を音響分析
部15で分析し、1フレーム(10m s )ごとにL
PCケプストラム係数とパワー情報を得る。
音声区間候補検出部16では、主にパワーの大きさを用
いて音声の始端および終端候補を検出する。
始端、終端の位置を従来例のように一意に決めると、非
定常な騒音に対して弱くなるが、本実施例のように候補
を3つ程度検出するようにすれば、その中に正しい始端
や終端が含まれる確率が高い。
会場騒音を用いたS/N比20dBの音声の場合、−意
に決めると60〜70%の検出率であるが、3位までに
正解が入る確率は95%以上である。
子音区間候補検出部17は第6図(a)、 (b)で説
明した方法と同様の方法を用いて、語頭子音および語中
子音を検出する。ただし、従来法と異なり、パワー変化
が小さいものも候補として検出しておく。
そして、パワー変化の大きさに応じて信顛度を付記して
おく、基準点候補検出部18は、第6図と同様の方法で
、各子音候補に対して基準点を求める。
子音パターンマツチング部19、母音パターンマ・ンチ
ング部20、および半母音パターンマツチング部21は
、それぞれ音響分析部15と子音標準パターン、母音標
準パターンおよび半母音標準パターンとの類似度を計算
する部分である。従来例では類似度計算は音声区間内の
みで行ない、また子音は基準点付近のみで行なっていた
が、本実施例の方法では、ノイズ部分も含め全フレーム
に対して各音素標準パターンとの類似度計算を行なう。
そして各音素に対する類似度の時間的変化を調べ、ある
音素の類似度が大きくなる部分を抽出し、その音素が存
在する候補区間とする。すなわち、類似度情報を音素の
識別のみでなく、セグメンテーションにも利用すること
になる。このような方法を用いるためには、類似度計算
のための距離尺度を事後確率化する必要がある。さもな
いと、ノイズ区間などで類似度が大きくなり、音素区間
の抽出ができない。
次に距離尺度の説明と標準パターンの作成法を述べる。
本実施例では、調音結合や話者の違いによるパラメータ
のばらつきを吸収するために、統計的な距離尺度を用い
ている。
いま音素ω3の標準パターンとして平均値を/Uう。
共分散行列をWmとする。入力パラメータXに対する事
後確率P(ωml’x)はベイズの定理より、次のよう
になる。
P(ωklX)=P(ωい・P(Klωk)/P(X)
(]) 右辺第1項は、各音素の出現確率を同じと考えれば、定
数として取り扱うことができる。ここで事前確率P(χ
1ω、)は、 P(χ1ωい=(2π)””” l Wmし1″・ex
p(−1/2(W−/uk)’wk−i(x  ym)
)もし入力パラメータが同一ならば右辺分母項(X)も
定数と考えて良い。
この場合、 P(ω1=Ix) =p (″に1ωk)      
 (3)となり、事前確率と事後確率が等しくなる。し
かし、音素スポツティングを行なう場合は、入力を1フ
レームずつシフトしながら類似度を計算するので、異な
る人力パラメータに対して類似度を比較することになる
。この場合には、分母項P (X)を考慮しなければな
らない。p (x)は生起し得る全ての入力条件に対す
る確率の和であり、パラメータがLPGケプストラム係
数の場合は、正規分布に近い分布形状になると考えるこ
とができる。
P (X)が正規分布に従うと仮定し、平均値をμ、。
共分散行列をW9とすると、 P(K)=(2π) −d/l j Wx+ −1/2
・exp(−1/2(K−#x)tW+c−’(K  
#J)(3)、 (4)式を(1)式に代入し、対数を
とって、定数項を省略し、さらに−2倍すると、次式を
得る。
L hr = (X  Iu 、I)t(Wk−’ (
χ−/#l1)−(′に一μ*) ’W II−’ (
’に一μい+ log  I Vl’b I / l 
XwXI         (5)(5)式は事後確率
化された式であるが、2次判別式なので、パラメータの
次元数が大きい場合は計算量が多くなり、実用性に乏し
い。
次に計算量が少ない、より実用的な距離尺度を導出する
\W8を含め全ての音素の共分散行列が等しいと考える
。°すなわち、 W−(’w+十県!+−・−・・−MW、+J)/(K
+ 1)Kは音素の種類の数である。
県、、XWXのかわり県と置き、(5)式の第1項、第
2項を展開すると、次のようになる。
(″に/11 m) ’IV/ k−’ (K  p 
k) =X’w−’に−aktK+bm    (7)
(″に一/#+t)ttwX−’[−px)=X ”%
V−’ K  ffi、LK + b x    (8
)ここで、 M、、=2  W−’−zm      t)、=7.
cr、、’tW −璽 ・ II  kA、1=2W−
’−1ux   bx=tux’W−”tuwまた、第
3項はOになる。したがって、(5)式は次のようにな
る。
Lk=B、−AMt−K            (9
)A、=ai、l 9x=2CW−1zk−W−’、、
7g、)QωB、=bk−bX= /1lht・−W−”/1lr−pxLIW−I−#x
)(II)(9)式は線形判別式なので、計算量は(5
)式に比べると格段に少ない。Ak、Bkは音素ω、の
新しい標準パターンである。
音素ω、の平均値と共分散行列gk、Wkは、音素ωア
に属する多くのサンプルを用いて作成する。
これらのサンプルは多くの人が発生した多数の単語の中
から、目視によって正確に切り出したものである。子音
や半母音はLPCケプストラム係数の時系列情報をパラ
メータとしている。いま第iフレーム目に相当するLP
Cケプストラム係数の第2次の係数をCp′と表わすこ
とにすると、各サンプルのパラメータは C=   (Co’ +CI ’ +  ””+C9’
 +   ”・+ Cp’+  ”・ICOニー、Cp
’  )実施例では■=12フレーム、P=9次として
いる。平均値p、および共分散行列Wkは、各サンプル
の基準点の位置を揃えて計算している。
P(γ)は生起し得る全ての入力条件に対する確率の和
であるから、pX、w、は類似度計算を行なう全ての入
力条件に対して作成する必要がある。本方法では、ノイ
ズを含む全音声信号に対して類似度を計算するので、音
声の前後のノイズ区間を幅広く含んだデータを用いて、
II X 、 Wxを作成する。第3図はその1つの方
法を示したものである。音声の始端の前mフレームから
音声終端の後nフレームまでの区間を対象として、lフ
レーム(1=12)のパラメータの移動平均と移動共分
散を、多くの音声データを用いて計算し、/XIx+W
Xを作成する。このようにすれば、(5)式または(9
)式は音声区間だけでなく、ノイズ部分に対しても事後
確率化されることになる。
本方法による標準パターン作成法の効果の例を第2図の
曲線12に示す。距離尺度は(9)式である。
従来例(曲線11)では、基準点が少しずれると認識率
が大きく低下したが、本方法の標準パターンを用いると
、基準点が±5フレームの範囲でずれて検出された場合
でも、認識率はほとんど低下しない。つまり、周囲に影
響されず、正確な基準点の部分でのみ該当音素の類似度
が大きくなる。すなわち、音素の識別と同時にセグメン
テーションが行なわれていることになる。したがって、
この方法を用いれば、ノイズや単語音声中から必要な音
素をスポツティングすることができる。
第4図に音素スポツティングの例を示す。会場騒音環境
で[夜道J  (/jQm−iQci/)と発声した場
合の例であり、S/N比は大体20dBである。最上段
は目視で決めた音素ラベルであり、正しい音素列である
。上段には語頭部分の音素識別結果を、また下段には語
中子音の識別結果をそれぞれ第5候補まで、lフレーム
ごとに示しである。識別結果の下の数値は類似度であり
、値が小さいほど類似度が大きい。この図のように、多
少の位置ずれはあるが、正しい音素の並びが第1の候補
として検出されている。
第1図の22は音素系列作成部であり、音声区間候補、
子音区間候補、音素スポツティングの結果などを結合し
て音素系列を作成する部分である。
音声の始端は音声区間候補検出部16の出力に対し、子
音・半母音・母音パターンマツチング部19.20゜2
1で得られる音素スポツティング結果の類似度を参照し
、信頼性の高いものを選ぶ。音声の終端も同様である。
子音は、子音候補検出部17の出力のうち、基準点候補
検出部18で検出した基準点付近において、いずれかの
子音の類似度が十分大きい場合は子音が存在するものと
見なし、子音区間を決め、類似度最大となる音素を認識
結果とする。母音と半母音は、フレームごとの音素識別
結果において、同−音素基の連続性を検出し、音素認識
結果とする。
このようにして音素の切り出しを行ない、次に日本語の
金形規則を適用して修正し、最終的な音素系列を出力す
る。
単語認識部23は音素系列作成部22で作成された音素
系列と単語辞書24の項目を1つずつ比較し、類似度が
最大となる項目に対応する単語を認識結果として出力す
る。
発明の効果 以上のように本発明は、ノイズを含む音声信号中から各
12の音素を切り出すことにより、騒音環境における音
声認識率が向上した。従来は平均的なS/N比が高い場
合でも、非定常的な騒音が加わると、音声区間が誤まる
ために、認識できない場合が多かった。また従来は、S
/N比が低い場合には、子音の大分類誤まりやセグメン
テーション誤まりによって認識率が低下した。本発明は
、非定常騒音にも、またS/N比が小さい場合にも安定
した認識能力を提供する。そして、騒音のない環境にお
いても、従来例と同等の認識能力を確保できる。
【図面の簡単な説明】
第1図は本発明の一実施例における音声認識方法を具現
化する機能ブロック図、第2図は、従来例(破線11)
と本発明の実施例(実線12)における、語頭子音の認
識率と基準点のずれ幅の関係を示した比較図、第3図は
本発明の一実施例における、標準パターン作成法の説明
図、第4図は本発明の一実施例における、音素認識の例
を示した図、第5図は従来の音声認識方法を説明する機
能ブロック図、第6図は語頭子音および語中子音のセグ
メンテーション法と基準点検出法の説明図である。 15・・・・・・音響分析部、16・・・・・・音声区
間候補検出部、17・・・・・・子音区間候補検出部、
18・・・・・・基準点候補検出部、19・・・・・・
子音パターンマツチング部、20・・・・・・母音パタ
ーンマツチング部、21・・・・・・半母音パターンマ
ツチング部、22・・・・・・音素系列作成部、23・
・・・・・単語認識部、24・・・・・・単語辞書。 代理人の氏名 弁理士 粟野重孝 はか1泡群点かうの
ず冶qら 第 図 (α) 無 音 壬 θ 昔 <b) 四重 3音 q音

Claims (3)

    【特許請求の範囲】
  1. (1)予め多くの人の音声と音声の周囲のノイズを用い
    て各音素の標準パターンを作成しておき、音声の認識時
    には、これらの標準パターンと入力音声の前後のノイズ
    区間を含む入力信号から抽出したパラメータとの類似度
    を、入力信号の最初から単位時間ずつシフトしながら、
    事後確率化された統計的距離尺度を用いて計算し、単位
    時間ごとに音素識別を行ない、前記音素識別結果や類似
    度を用いて音素系列を作成し、前記音素系列と語彙辞書
    の内容の類似度を求めて音声を認識することを特徴とす
    る音声認識方法。
  2. (2)該当音素に属するデータのパラメータ分布および
    ノイズを含む全音声データのパラメータ分布が多次元正
    規分布に従うものと仮定して、事後確率化された統計的
    距離尺度を構成することを特徴とする請求項(1)記載
    の音声認識方法。
  3. (3)各音素のパラメータの共分散およびノイズを含む
    全音声のパラメータの共分散を共通化して統計的距離尺
    度を構成することを特徴とする請求項(1)記載の音声
    認識方法。(4)音声パワーの大きさ、時間変動を用い
    て音声の始端、終端および音素区間の候補を求め、一方
    、入力信号と各音素の類似度を事後確率化された統計的
    距離尺度によって単位時間ごとに求め、類似度の大きさ
    を用いて前記音声の始端、終端候補の中から音声の始端
    と終端を決定し、また類似度の大きさを用いて音素区間
    候補の中から音素区間を決定して音素の認識を行ない、
    音素系列を作成し、前記音素系列と語彙辞書の内容の類
    似度を求めて音声を認識することを特徴とする音声認識
    方法。
JP63236913A 1988-09-21 1988-09-21 音声認識方法 Pending JPH0283595A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63236913A JPH0283595A (ja) 1988-09-21 1988-09-21 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63236913A JPH0283595A (ja) 1988-09-21 1988-09-21 音声認識方法

Publications (1)

Publication Number Publication Date
JPH0283595A true JPH0283595A (ja) 1990-03-23

Family

ID=17007610

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63236913A Pending JPH0283595A (ja) 1988-09-21 1988-09-21 音声認識方法

Country Status (1)

Country Link
JP (1) JPH0283595A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04369696A (ja) * 1991-06-19 1992-12-22 Matsushita Electric Ind Co Ltd 音声認識方法
JPH06175681A (ja) * 1992-12-11 1994-06-24 Matsushita Electric Ind Co Ltd 音声認識方法
JP2007219188A (ja) * 2006-02-17 2007-08-30 Kyushu Univ 子音加工装置、音声情報伝達装置及び子音加工方法
JP2008070564A (ja) * 2006-09-13 2008-03-27 Fujitsu Ltd 音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法
JP2009151256A (ja) * 2007-12-20 2009-07-09 Toshio Ogushi 日本語の五十音図の各音等(濁音、半濁音、拗音、撥音等を含む)を識別及び摸擬をする手段としての規則。

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04369696A (ja) * 1991-06-19 1992-12-22 Matsushita Electric Ind Co Ltd 音声認識方法
JPH06175681A (ja) * 1992-12-11 1994-06-24 Matsushita Electric Ind Co Ltd 音声認識方法
JP2007219188A (ja) * 2006-02-17 2007-08-30 Kyushu Univ 子音加工装置、音声情報伝達装置及び子音加工方法
JP2008070564A (ja) * 2006-09-13 2008-03-27 Fujitsu Ltd 音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法
US8190432B2 (en) 2006-09-13 2012-05-29 Fujitsu Limited Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method
JP2009151256A (ja) * 2007-12-20 2009-07-09 Toshio Ogushi 日本語の五十音図の各音等(濁音、半濁音、拗音、撥音等を含む)を識別及び摸擬をする手段としての規則。

Similar Documents

Publication Publication Date Title
CN101136199B (zh) 语音数据处理方法和设备
US6553342B1 (en) Tone based speech recognition
Chang et al. Large vocabulary Mandarin speech recognition with different approaches in modeling tones
US8140330B2 (en) System and method for detecting repeated patterns in dialog systems
Hosom Automatic time alignment of phonemes using acoustic-phonetic information
Friedland et al. Prosodic and other long-term features for speaker diarization
JPS6336676B2 (ja)
Adami Modeling prosodic differences for speaker recognition
JPH0283595A (ja) 音声認識方法
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Hillenbrand The acoustics and perception of North American English vowels
Thirumuru et al. Application of non-negative frequency-weighted energy operator for vowel region detection
Prukkanon et al. F0 contour approximation model for a one-stream tonal word recognition system
Chang et al. Chinese dialect identification using segmental and prosodic features
Tripathi et al. VOP detection for read and conversation speech using CWT coefficients and phone boundaries
Bhardwaj et al. A Study of Methods Involved In Voice Emotion Recognition
Tripathi et al. Robust vowel region detection method for multimode speech
Mampi et al. Speech Recognition for Decision Making using Machine Learning Algorithms & Techniques: A Review.
Muthusamy et al. A review of research in automatic language identification
JPH1097269A (ja) 音声検出装置及び方法
Pawar et al. Analysis of FFSR, VFSR, MFSR techniques for feature extraction in speaker recognition: a review
Vyas et al. Study of Speech Recognition Technology and its Significance in Human-Machine Interface
Uslu et al. Turkish regional dialect recognition using acoustic features of voiced segments
Daimari et al. Forced Alignment Method for Detection of Bodo Word Boundary
RU2101782C1 (ru) Способ распознавания слов в слитной речи и система для его реализации