JPS60150098A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS60150098A
JPS60150098A JP59006565A JP656584A JPS60150098A JP S60150098 A JPS60150098 A JP S60150098A JP 59006565 A JP59006565 A JP 59006565A JP 656584 A JP656584 A JP 656584A JP S60150098 A JPS60150098 A JP S60150098A
Authority
JP
Japan
Prior art keywords
vowel
distance
word
stationary
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59006565A
Other languages
English (en)
Other versions
JPH0827640B2 (ja
Inventor
英一 坪香
樺澤 哲
三船 義照
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP59006565A priority Critical patent/JPH0827640B2/ja
Publication of JPS60150098A publication Critical patent/JPS60150098A/ja
Publication of JPH0827640B2 publication Critical patent/JPH0827640B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識装置に関する。
従来例の構成とその問題点 人間にとって最も自然な情報発生手段である音声が、人
間−機械系の入力手段として使用できれば、その効果は
非常に大きい。
従来、音声認識装置としては特定話者登録方式によるも
のが実用化されている。即ち、認識装置を使用しようと
する話者が、予め、認識すべきすべての単語を自分の声
で特徴ベクトルの系列に変換し+1を語辞書に標準パタ
ーンとして登録しておき、認識時に発声された音声を、
同様に特徴ベクトルの系列に変換し、前記単語辞書中の
どの単語に最も近いかを予め定められた規則によ−て計
算し、最も類似している単語を認識結果とするものであ
る。。
以下余白 ところが、この方法によると、認識単語数が少いときは
良いが、数百、数千単語といったように増加してくると
、主として次の三つの問題が無視し得なくなる。
(1)登録時における話者の負担が著しく増大する。
(2)認識時に発声された音声と標準パターンとの類似
度あるいは距離を計算するのに要する時間が著しく増大
し、認識装置の応答速度が遅くなる。
(3)前記単語辞書のために要するメモリが非常に大き
くなる。
以上の欠点を回避するだめの方法として認識の単位を子
音+母音および母音の単音節(以後それぞれCV、Vで
表す。Cは子音、■は母音を意味する。)とする方法が
ある1、即ち、標準パターンとして単音節を特徴ベクト
ルの系列として登録しておき、認識時に特徴ベクトルの
系列に変換された入力音声を、前記単音節の標準パター
ンとマツチングすることにより、単音節の系列に変換す
るものである。日本語の場合、q’i音節はたかだか1
01種類であり、単音節は仮名文字に対応しているから
、この方法によれば、日本語の任意の単語あるいは文章
を単音節列に変換する(認識する)ことができ、前記(
1)〜(3)の問題はすべて解決されることになる。し
かし、この場合の問題として調音結合とセグメンテーシ
ョンがある。調音結合は、音節を連続して発声すると各
音節は前後の音節の影響を受け、スペクトル構造が前後
に接続される音節によって変化する現象である。セグメ
ンテーションは、連続して発声された音声を単音節単位
に区切ることであるが、これを確実に行う決定的な方法
は未だ見出されていない。この2つの問題を解決するだ
めに、現在のところ各単音節を区切って、発声すること
が行われており、実用化されている装置もある。
第1図は単音節音声認識をパターンマツチングで行う装
置の一般的な構成である。1は音声信号の入力端子であ
る。2は特徴抽出部であって、入力音声信号を、フィル
タバンクやFFT 、LPGなどにより分析し、数ミリ
秒毎に特徴ベクトルの系列A−a 1. a 2・・・
・・a、・−aI に変換する。3は標準パターン記憶
部であへて予め認識すべき単音節音声を同様な手段によ
って特徴ベクトルの系列に変換したものを各音節に対す
る標準ノくターンRn−b?す、、・、、 b?、、、
・bYfl(ただしn−1゜2、・・・・、N、Nは標
準パターンの数)として記憶する部分である。4はパタ
ーン比較部であ1て、特徴抽出部2の出力である入カバ
ターンAと、標準パターン記憶部3に記憶されている夫
々の標準パターンRnを比較し、両者の距離D(A、R
”)を算出する。6は判定部であって、n=argmi
n〔D(A、Rn)jにより、入カバターンに最も近い
標準パ 、 RAを判定す、4、なお、Q=argmi
n〔f(Z)] はf(Z)を最小にする2を2とする
という意味である。6は判定結果を単音節認識結果とし
て出力する出力端子である。パターン比較部4における
パターン比較は、動的計画法を用いた所謂DPマツチン
グや線形シフトマンチング等がよく用いられる。1だ、
先ず母音を認識して候補母音段を決定してから、その母
音段に属する標準パターンを用いて子音部を認識するこ
とにより、認識率とマツチングの速度を向上させている
のが一般的である。
しかし、単音節音声は、持続時間が短かく、「シ」、「
チ」等子音部の微妙な差によ−て区別しなければならな
いものが多く、単語音声のように高い認識率を得るのが
困難である。
この問題を解決するために、+lj語辞書を用いる方法
が考えられている。第2図はその例である。
同図において、第1図と同一の番号を付したブロックは
、第1図と同一の動作を行う。7は単語辞書で、認識す
べき単語W’ ((J =1 、2 、・・・・・、L
:Lは登録単語数)が単音節に対応する記号列Wl−8
lSl・・・・・Sl・・・・・B(1(Blは単語W
lの12 k Kl k k番目の音節)として記憶されている。8は単語比較部
であって、入力単音節列T−A1A2・・・・・・Ar
n・・・・°・AM(Mは入力単語の音節数)であると
き、入力単語の音節数に等しい音節数の単語辞書7に記
憶されている単語wl’=s7sg・・・・・・Bcl
(Wl’は音節数Mの単語)に対し、パターン比較部4
で算出された距離D(A、、、84’) から各l′に
ついてを算出する。9は判定部であって、 なる令・ をめ、W合′を認識単語と判定する。、○は
認識された単語を出力する出力端子である。
以」二のように、単語辞書の知識を用いれば音節のみで
なくその組合せである単語全体としての妥当性を考慮す
ることになるので認識率は向上する。
またワードプロセッサへの入力を考えるとき、前記単語
辞書は仮名漢字変換を行うだめの辞書を共用することが
でき、単語辞書は音声認識用として特別に準備する必要
はない。
しかし、単語辞書の単語数は通常3万以上にもおよび、
単語比較部8における計算量が無視できなくなる。
前以て母音系列を認識して最終的に照合すべき単語を限
定することによってこの問題を解決する装置が特願昭5
8−143181号に述べられている。
即ち、入力音声信号を特徴ベクトルの系列に変換する手
段と、入力音声信号弓を音節毎に区切る手段と、前記特
徴ベクトルの系列から前記各音節の後続母音を認識する
手段と、前記後続母音列と同じ後続母音列を有する単語
あるいは文節の音節列を記号列として得る手段と、前記
記号列と前記入力音声信号から得られた音節列とをマ、
ノチングする手段と、このマツチングの結果、前記入力
音声信号に最も近い前記単語あるいUl:文節を前記入
力音声に対応する認識結果と判定する判定手段とを備え
た音声認識装置である。
このようにすると、例えば、4音節の単語の場合、母音
の出現確率が等しいとすれば、ある特定の母音列の生ず
る確率は(1/ls )−1/625となり4音節の単
語が1万語あるとすれば、ある特定の母音列に対応する
4音節語は16語となり、実際に比較計算をしなければ
ならない単語は激減する。余裕をみて、第2候補の母音
も勘定に入れるとしても(2/s)”、1/39となり
、同様に4音節の単語が1万語あるとすれば、比較計算
をすべき4音節語は256語となり、大幅に減少する。
さらに促音や撥音も上記母音同様に処理することにすれ
ば、さらに比較計算を減少させることができる1、これ
ら母音や促音、撥音等の認識はほぼ完全に行われるので
、計算量の減少のみでなく認識率自体も向上する。
以−にの方法は、各単音節を離散的に(区切って)発声
する場合にはそのまま適用できるが、単音節の離散発声
により日本語の文章を入力するのは、話者にとって緊張
を強いるものであり、連続発声により入力できることが
望ましい。
連続発声された場合でも、各単音節をその音声から分離
することができれば、前記の方法を適用することは可能
である。しかしながら、連続的に発声された音声から各
音節の区切りの検出を高精度に行うのは大変困難であり
、未だ決定的な方法は見出されていないと言える。
発明の目的 本発明は、認識すべき単語または文節に対し、それらの
数が多い場合でも小形低価格かつ標準パターンの登録操
作が簡単で、認識精度々らびに処理速度の向」二を図っ
た音声認識装置を実現することを目的とする。
発明の構成 本発明は、連続して発声された音節列に対しても、前記
従来例と同様に認識すべき単語を構成する各単音節の後
続母音列を先ず認識し、最終的にマツチングすべき単語
の候補を絞り、認識処理の速度を上げると共に認識率の
向」二も果さんとするものであって、入力音声信号を特
徴ベクトルの系列に変換する特徴抽出手段と、前記入力
音声信号の定常点を抽出する定常点袖山手段と、抽出さ
れたそれぞれの定常点を旬音標準パターンと比較して前
記定常点の特徴ベクトルの各標準パターンに対する距離
または類似度を算出する第1の距離算出手段と、この距
離を基に111語辞書のマツチングすべき単語または文
節を構成する単音節の後続母音列と、前記定常点の特徴
ベクトル列との比較を行い両者の系列としての距離また
は類似度を算出する第2の距離算出手段と、その結果最
も距離的に小さくなる(類似度の大きくなる)母音系列
を見出すと共に前記定常点のうち各母音に対応する定常
点を判定する母音定常部判定手段と、この母音列に対応
する各単語または文節に対応する■。
CV 、VV 、VCV(vは母音、cは子音)等の音
節標準パターンの結合と前記入カバターンとの距離を算
出する第3の距離算出手段と、この第3の距離算出手段
により算出される距離の最小値(類似度の最大値)を与
える単語または文節を認識結果として判定する判定手段
とを主要部として構成される。
実施例の説明 以後、「単語」という言葉は「文節」という言葉も代表
するものとする。また、「類似度」は「距離」で説明す
る。即ち、距離が最小とは類似度が最大ということであ
る。
本発明の基本的な原理は、発声された単語音声からその
単語を構成する各111音節の境界を精度よく検出する
のは大変困難であるが、一方、スペクトルの定常々点の
検出はほぼ確実に行うことができ、各母音の中心アレー
ン−ハ必ずスペクトルの定常点付近にあるという事実を
利用するところにある。
入力音声パターンにおいて定常となり得る点(フレーム
)は、母音、有声子音、摩擦子音その他であるが、各母
音の中心フレームは、はぼ確実にこの定常点に含着れて
いると見做して差支えはない。そこでどの定常点が、母
音として最も妥当であるかを決定するには、単語辞書の
各単語に対応する許される母音系列に対応して、母音標
準パターンから生成された特徴ベクトルの系列(母音系
列標準パターン)と、前記定常点に対応する特徴ベクト
ルの系列との距離を周知のDPマツチングによりめ、最
も距離的に小さい母音系列を入力単語音声の母音系列と
し、このとき得られるマツチング経路上で、前記母音系
列標準パターンのそれぞれの母音に対応する前記定常点
をその母音に対する定常点とすればよい。
このようにすることによって、前記母音以外の定常点は
排除され、入カバターンに対する正しい母音系列を決定
することができる。とのようにして入カバターンに対応
する母音系列が得られると、単語を構成する単音節の後
続母音の系列が前記入カバターンに対応する母音系列に
等しい単語が、最終的な認識候補単語として選ばれるの
であって、前記説明によりその数は大幅に減少する。
この選ばれた単語について次のようなマツチングを行う
いま、入カバターンに対応する母音の系列が■、v2・
・・・vMであるとする。このとき、マツチングすべき
単語はWl−Ci■1Cニv2・・・・・c4vMであ
る。ただしC4は、第1単語を構成する第1番の単音節
の子音であ−て、Cイ■・が単母音の場合ハc、 vi
=v、、マタ、viCテ+1v、+1力2重母音ノ場合
ハviCl、+、■、+、−■iVi+1テ表現スルモ
ノとする。このとき、入カバターンと単語Wlとのマツ
チングは次のようにして行うことができる。
即ち、前記の如くしてめられた1番目の母音中心フレー
ムからi −l−1番目の母音中心フレームの入カバタ
ーンの部分パターンをA(i、i+1)(ただし、A(
0,1)は語頭から1番目の定常点までの入カバターン
の部分バタモする)、前記1番目の単語WlO1番目の
川音を先行母音とL/% l+1番目の母音を後続川音
とし、i番目とi+1番目の母音で挾まれる子音Cq−
1−1を先行母音と後続母音で挾まれる子音とするvC
■Cv標準パターンをB’(i、i+1)(ただし、B
(0,1)は前記単語の1番目のCvまたは■音節標準
パターンとする)とし、前記部分パターンA(i、i+
1)と前記標準パターンB’(i、1l−1)との距離
をD(A(i 、1−1−1 )、Bl(i 、1−1
−1 ))とすれば、入カバターンTと単語Wlの距離
Dw(T、Wl)をDw(T、Wl)−1¥ D(A(
0,t+1)。
1=0 B’(i 、 1l−1)) で定義し、 をめ、単語Jを認識結果とするものである。
ここで、D(A(i、1−1−1)、B(i、i+1)
)は入カバターンの部分パターンと各音節を構成する特
徴ベクトルの系列同志の距離として周知のDPマツチン
グにより計算される。
以上の原理に基づく本発明の一実施例を図面と共に説明
する。
第3図は本発明の一実施例を示すブロック図である。1
1は音声信号の入力端子、12は前述せる如き特徴抽出
部であって、例えば20チヤネルのフィルタバンクを用
い、1フレームf 10m5ecとすれば、その出力に
は10m5ec毎に20個の数値(特徴ベクトル)が得
られる。13は振幅正規化部であって、入力音声信号の
レベル変動の影響を除去するために、前記特徴ベクトル
の絶対値を一定の値にする為のものである。例えば入力
の第iフレームが、”1−(ai、+ai2””” 、
”tn)であるとすれば、正規化後のベクトルa′は (iil 、”x2.・・・・・、」且)等とすること
ができKK K る。14は定常点抽出部であって、入力の特徴ベクトル
の系列から入力音声信号のスペクトルの定常なフレーム
を抽出するものである。これはフレーム毎に前後数フレ
ームのスペクトルの分散をめ、この分散が最小になるフ
レームとして検出できる。即ち、各フレームに対し前後
Nフレームについて分散σ、をめる場合は、第iフレー
ムの特徴ベクトルを前記倦、とすれば、 のように定義することができる。
15は母音標準パターン記憶部であって、各母音(撥音
も含む)に対応するtl、!l゛徴ベクトル(スペクト
ル)が記憶されている。これは予め話者が発声した母音
音声に前記12.13での処理を施した後その定常部の
特徴ベクトルを抽出したものである。16は距離マトリ
クス計算・記憶部であって、入力音声パターンのそれぞ
れの定常フレームの特徴ベクトルと前記それぞれの母音
標準パターンの特徴ベクトルとのベクトル間距離を割算
し、記憶する。ベクトル間距離としては周知のユークリ
ッド距離、市街地距離等が使用され得る。第4図はこの
距離マトリクスの様子を示している。1b1〜b6は川
音1al〜INIに対応する特徴ベクトル、1〜fは入
力音声の定常点に対し語頭側から順次付された番号、d
(i、i)は母音標準パターンlb、 と第1番の定常
フレームの特徴ベクトルとのベクトル間距離である。1
7は川音系列辞書であって、単語辞書を構成する各単語
の単音節の後続母音の系列が記憶されている。例えば、
「オオサカ」「トヨナカ」「ヨコハマ」等の単語に対す
る母音系列は+011011al lal である。1
8は前記川音系列に対応する特徴ベクトル系列と前記定
常フレームに対応する特徴ベクトル系列の距離をDPマ
ツチングによりめる母音系列間距離計算部である。第5
図はその様子を説明する図であって、(b)は「ヨコハ
マ」と発声した場合の電力波形と各音韻との対応を示し
、51〜56の「。」は定常点を示している。この例で
1〜音部は必ず定常となっており有声子音1m1 も定
常点となっている。
(a)はこの定常点ベクトル系列とLJ音系列1011
011al lalとのマツチングの様子を示す格子グ
ラフである。母音系列1011011−11al に対
応する特徴ベクトルの系列はここではTo5To6う、
1b1となる。(C)はDPマツチングを行う際のマツ
チング経路の拘束条件の例を示す。マツチング経路の荷
重和が入カバターンの定常点数のみに依存するようにす
れば、(イ)に対する漸化式は初期値 g (1,1)
 −d (1、1)(ロ)に対する漸化式は 初期値 g(1,1) −d(1,1)で表わされる。
(イ)は入力音声の定常点が最大2つ連続して飛ばして
マツチングされ得ることを意味し、(ロ)はさらに、標
準パターンの特徴ベクトルが一つ飛ばしてマツチングさ
れ得ることを意味している。即ち、(イ)は母音でない
定常点が最大2つ連続して挿入される場合を許し、(ロ
)は加うるに母音として検出されるべき定常点が1つ脱
落する場合を許すということである。また、前記漸化式
において、q (i、 j)は格子点(i、i) まで
の始点(1゜1)からの最適の(q (t、 j)の最
小値を与える)マツチング経路に沿う累積距離である。
(イ)、(ロ)は単に経路制限条件の一例に過ぎず、他
にも種々考えられ得るのであって、本例は本発明を限定
するものではない。結局、前記定常点系列と母音系列と
の距離は、定常点の数を11マツチングする母音系列の
母音数を工とするとq(1,1)で与えられる。
(a)は「ヨコハマ」と発声1−だ入力音声の定常点列
と母音系列1011011al lal をマツチング
する場合の一例であって、60は選ばれた経路で、音声
子音1mlの飛ばされている様子が示されている。この
経路がまれば、入力音声の各定常点が如何なる母音と見
做すべきか決定できる。19は以上のようにしてめられ
た各母音列に対するcr(1,J)のうち最小値を与え
る母音列を判定し記憶する母音系列判定・記憶部である
。2oは判定された母音系列に対応して入力音声の定常
フレームの位置を記憶する母音定常フレーム記憶部であ
る。21は単語辞書であって認識すべき単語が記憶され
ている。22は電力計算部であって、入力音声信号の電
力をめる。23は音声区間検出部であって、入力音声電
力の大きさから入力単語音声の始端、終端を検出する。
24はバッファメモリであって振幅正規化部13で振幅
正規化された入力音声パターンを前記音声区間検出部2
3の出力に従って前記始端から終端まで一時的に記憶す
る。26は音節標準パターン記憶部であって、V、CV
については語頭から後続母音の定常部まで、vv、vc
vについては先行母音の定常部から後続母音の定常部ま
で、それぞれ対応する特命ベクトルの系列を記憶してい
る。この特徴ベクトルハ、予メ話者ノ発声したV、CV
、VV、VCV音声に特徴抽出部12、振幅正規化部1
3で行うのと同様な処理を行って得られたものである。
26は単語辞書21で指定される前記音節標準パターン
のそれぞれと、バッファメモリ24の入力音声パターン
とのDPマツチングを、母音定常部記憶部2oに記憶さ
れている入力音声パターンのフレームを始端あるいは終
端としてマツチングする単語間距離計算部である。即ち
、前記1o11o11al lalの母音系列に対して
は「オオサカ」「ヨコハマ」「トヨナカ」等の単語とマ
ツチングすることになるが、例えば、「ヨコハマ」とマ
ツチングするときは、音節標準パターン記憶部25に対
しては、1yol 1oko11ohal lamal
 なる音節に対する標準パターンが選択され、ノ(・ソ
ファメモリ24の出力の始端から第1の定常点までは1
y01の標準パターンと、第1の定常点から第2の定常
点までは1okolの標準)(ターンと、第2の定常点
から第3の定常点まではl oha lの標準パターン
と、第3の定常点から第4の定常点着ではl−malの
標準パターンとマツチングすることになる。第6図はこ
の様子を例示するものである。(a)は入カバターンの
定常点から定常点までと、標準パターンとのマツチング
の様子を示しており、横軸は入カバターン、縦+lil
+は標準ノくターンである。
101は入カバターンの電力を示し、1oOは標準パタ
ーンの電力を示す。
101.103は入カバターンの定常点を示す。
前記「ヨコノ・マ」とマツチングする例では、1o2を
第2の定常点、103を第3の定常点とすれば、1oO
は1ohalに対する標準ノ(ターンということになる
。104はマツチング経路である。Φ)はマツチング経
路の拘束条件の例である。経路上に示した数字はその経
路に沿う重みであり本例では荷重和はマツチングすべき
入カバターンのフレーム数にのみ依存する。本例の場合
対応する漸化式%式% (11) ) ただし、A (t、 i+1) 、 B’(i、 i+
1)は前記記法に従い、pは入カバターンの部分パター
ンA(i。
i+1)の定常点lのフレームを1とするときのフレー
l、番号、qは標準パターンB’ (i 、 i +1
)のアレーン、番号、P[A(i、 i+1) ノ7レ
−ムfi、QnはBl(t、i+1)のフレーム数、n
はB’ (i 、 i +1)に対応する標準パターン
の番号、d”(p、q)はA(i。
i+1)の第pフレームの特徴ベクトルと、B’(i。
’1ft1)の第qフレームの特徴ベクトルとのペクト
啼41 ル間距離である。ここに示した漸化式も一例にすぎず、
他にも種々考えられるのであり、本発明を限定するもの
ではない。この上、うに入カバターンの隣り合う定常点
間でめられた距離D (A (i 。
i+1) 、 B’ (t、 i+1) ) からjl
′L語Wlニ対すル入カバターンTの距離 がめられる。27は判定部であって、以上の如をめ、W
分を認識結果とするものである。28は出力端子である
。次に語中に促音を含む場合について説明する。
音声区間検出部23は、音Iコ区間を検出すると共に促
音の検出も行う。即ち、無音が例えば250m5ec以
上続けば入力音声が終了したと見做し、無音区間が、1
00m5ec〜250m5ec のときは促音と見做す
ことができる。促音を掻出することによって、マツチン
グすべき単語辞書の単語をさらに限定することができ、
信頼性および処理速度の向上をはかることができる。即
ち、母音系列辞書は促音を含んだ形で構成されており、
促音が検出されると対応する位置に促音を有する母音列
が母音系列間距離計算部18でマツチングされるべき母
音列として選ばれる。母音系列判定記憶部19では促音
を含んだ形で最適にマツチングされる母音系列が記憶さ
れる。従って、単語辞書21における単語は、促音を含
んだ形での母音系列で限定される単語が最終的に単語間
距離計算部26でマツチングされる対象となる単語とし
て選ばれる。単語間距離割算部26では、促音が検出さ
れる毎に語頭あるいは一つ前の促音終了後のフレームか
らのDPマツチングを行う。第7図はその具体例であっ
て、発声した音声の電力波形を示す。200は語頭、2
01は第1の定常点、202は促音の開始、203は促
音の終了、204は第2の定常点、205は第3の定常
点、206は語尾のそれぞれフレームである。この場合
、母音系列判定記憶部19には前記説明に従−て、la
l IQI lol lulが記憶されているものとす
る(IQlは促音を示す記号)。このとき単語辞書21
で選ばれる単語は「サントウ」「サントウ」等である。
「サントウ」とマ・ンチングする場合は、200〜20
10入カバターンとl5a1に対応する標準パターンと
のマツチング距離と、203〜204の入カバターンと
1t01に対応する標準パターンとのマツチング距離と
、204〜205の入カバターンと10tO1に対応す
る標準パターンとのマツチング距離の和を以て、II’
!、 Wj 「サントウ」と入力音声パターンとのマツ
チング距離とする。
促音の検出を行うと共に無音を検出して、この無音に対
しても促音に対して行ったのと同様の処理を行うことも
できる。即ち、無音、有音の判定の為の閾値を適当に選
べば、無声破裂音lpl 1tllklの前には必ず無
音となるようにすることができる。このようにすれば、
さらに単語を限定することができる。例えば、前記の例
において、207〜208が無音であ−て、促音でない
(例えば無音区間が、100 m5ec以下)であると
すれば、その直後は無声破裂音として単語「サントウ」
はマ、ソチングの対象から排除される。マツチングは無
音から無音まで個々に行われ、マツチング距離はその総
和となる。例えば、本例の場合、単語「サントウ」はマ
ツチングの対象単語であるが、この単語とマツチングす
る場合は、入カバターンの200〜201と1nalK
対応する標準パターン、入カバターンの203〜204
と1101に対応する標準パターン、入カバターン20
8〜2o5と1kulに対応する標準パターンとのそれ
ぞれのマツチング距離の和を以て単語「サントウ」と入
力音声パターンとのマツチング距離とすれば良い。
さらに、例えば無声摩擦音の検出等、より多くの、各単
語についての属性を検出すれば、マツチングすべき候補
単語をさらに限定でき、処理速度の向上、認識率の改善
等が可能である。これをなすには第3図において単語特
徴抽出部29を付加すればよい。例えば無声摩擦音を抽
出することにすれば、前記の例のように母音列がlal
 IQllollulで語頭と101101の間に摩擦
音1%1があることを単語特徴抽出部29が検出したと
すれば、母音系列判定記憶部19には1%l l−1I
Q11%l +0+ 1ulなる系列が記憶され、単語
辞書からは「サンソウ」等の単語が選ばれることになり
、「サントウ」「ナツトクー1雪はマツチングの対象か
ら除かれる。
発明の効果 本発明によれば、単音節を連続して発声した場合でも、
母音定常部を適切に抽出することによって、比較照合す
べき単語と音節標準パターンを限定することができ、認
識率、照合速度において大幅な改善が得られたものであ
る。
丑だ、標準パターンは母音や子音の結合されたものに対
してのみ準備しておけば良く、単語辞j11に単語を追
加するだけで、如何に多くの種類の11i。
語でも能率よく認識することができる。また単語辞書の
単語は標準パターンを特徴ベクトルの系列ですべて記憶
する必要がなく各単語は記号列(せいぜい100ビツト
/屯語程度)のみ記憶しておけは良いから容量的にも非
常に少くて済み、登録もすべての単語を発声する必要も
ないからその手間も大幅に減少するものである。
【図面の簡単な説明】
第1図は従来の単音節音声認識装置を示すブロック図、
第2図は前記従来例を改良した例を示すブロック図、第
3図は本発明の一実施例における音声認識装置を示すブ
ロック図、第4図〜第7図は本発明装置の動作を説明す
るだめの図である。 11・・・・・音声信号入力端子、12 ・・・・特徴
抽出部、13・・・・・振幅正規化部、14 ・・定常
点抽出部、15・・・・母音標準パターン記憶部、16
・・・・距離マトリクス記憶部、17・・・ 母音系列
辞書、18・・・・・・母音系列間距離計算部、19 
・・・・母音系列判定記憶部、20・・・・・母音定常
部記憶部、21・・・・・単語辞書、22−・・・・電
力計算部、23 ・・・・・・・音声区間検出部、24
・・・・バッファメモリ、26・・・・・・音節標準パ
ターン記憶部、26・・・・単語間距離割算部、27・
・・・・判定部、28・・・・認識結果出力端子、29
・・・・単語特徴抽出部。 男4図 第 5 図 Cイ) 111ノ 第 6 図 tryノ 符 7 邸

Claims (1)

  1. 【特許請求の範囲】 入力音声信号を特徴ベクトルの系列に変換する特徴抽出
    手段と、前記入力音声信号の定常点を抽出する定常点抽
    出手段と、抽出されたそれぞれの定常点を母音標準パタ
    ーンと比較して前記定常点の特徴ベクトルの各標準パタ
    ーンに対する距離または類似度を算出する第1の距離算
    出手段と、この距離を基にm語辞書のマツチングすべき
    単語または文節を構成する単音節の後続母音列と、前記
    定常点の特徴ベクトル列との比較を行い両者の系列とし
    ての距離または類似度を算出する第2の距離算出手段と
    、その結果層も距離的に小さくなる(類似度の大きくな
    る)tυ音音列列見出すと共に前記定常点のうち各母音
    に対応する定常点を判定する母音定常部判定手段と、こ
    の母音系列に対応する各単語捷たは文節に対応するv、
    cv、vv。 vcv(vは母音、Cは子音)等の音節標準パターンの
    結合と前記入カバターンとの距離を算出する第3の距離
    算出手段と、この第3の距離算出手段により算出される
    距離の最小値(類似度の最大値)を与える単語まだは文
    節を認識結果として判定する判定手段とを有することを
    特徴とする音声認識装置。
JP59006565A 1984-01-18 1984-01-18 音声認識装置 Expired - Lifetime JPH0827640B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59006565A JPH0827640B2 (ja) 1984-01-18 1984-01-18 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59006565A JPH0827640B2 (ja) 1984-01-18 1984-01-18 音声認識装置

Publications (2)

Publication Number Publication Date
JPS60150098A true JPS60150098A (ja) 1985-08-07
JPH0827640B2 JPH0827640B2 (ja) 1996-03-21

Family

ID=11641854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59006565A Expired - Lifetime JPH0827640B2 (ja) 1984-01-18 1984-01-18 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0827640B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60182499A (ja) * 1984-02-29 1985-09-18 松下電器産業株式会社 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60182499A (ja) * 1984-02-29 1985-09-18 松下電器産業株式会社 音声認識装置

Also Published As

Publication number Publication date
JPH0827640B2 (ja) 1996-03-21

Similar Documents

Publication Publication Date Title
Ghai et al. Literature review on automatic speech recognition
US5170432A (en) Method of speaker adaptive speech recognition
US5949961A (en) Word syllabification in speech synthesis system
US6553342B1 (en) Tone based speech recognition
US20050055207A1 (en) Speech information processing method and apparatus and storage medium using a segment pitch pattern model
JP2955297B2 (ja) 音声認識システム
US5764851A (en) Fast speech recognition method for mandarin words
Akila et al. Isolated Tamil word speech recognition system using HTK
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
Valizada Subword speech recognition for agglutinative languages
JPS60150098A (ja) 音声認識装置
JP3039453B2 (ja) 音声認識装置
JP3110025B2 (ja) 発声変形検出装置
JP3231365B2 (ja) 音声認識装置
JPS60182499A (ja) 音声認識装置
JPS6180298A (ja) 音声認識装置
JP2862306B2 (ja) 音声認識装置
Mary Two‐stage spoken term detection system for under‐resourced languages.
JPS60164800A (ja) 音声認識装置
JPH0247757B2 (ja)
JPH05303391A (ja) 音声認識装置
JP5152016B2 (ja) 音声認識用辞書作成装置及び音声認識用辞書作成方法
JP2721341B2 (ja) 音声認識方法
JPS6312000A (ja) 音声認識装置
JPH0552516B2 (ja)

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term