JPS60164800A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS60164800A
JPS60164800A JP2105784A JP2105784A JPS60164800A JP S60164800 A JPS60164800 A JP S60164800A JP 2105784 A JP2105784 A JP 2105784A JP 2105784 A JP2105784 A JP 2105784A JP S60164800 A JPS60164800 A JP S60164800A
Authority
JP
Japan
Prior art keywords
word
syllable
distance
input
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2105784A
Other languages
English (en)
Inventor
英一 坪香
樺澤 哲
三船 義照
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2105784A priority Critical patent/JPS60164800A/ja
Publication of JPS60164800A publication Critical patent/JPS60164800A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、音節を予め登録しておき、連続発声して入力
された単語または文節を、単語辞書を用いて認識する音
声認識装置に関する。
従来例の構成とその問題点 人間にとって最も自然な情報発生手段である音声が、人
間−機械系の入力手段として使用できれば、その効果は
非常に大きい。
従来、音声認識装置としては特定話者登録方式によるも
のが実用化されている。即ち、認識装置を使用しようと
する話者が、予め、認識すべきすべての単語を自分の声
で特徴ベクトルの系列に変換し単語辞書に標準バ〉−ン
として登録しておき、認識時に発声された音声を、同様
に特徴ベクトルの系列に変換し、前□記単語辞書中のど
の単語に最も近いかを予め定められた規則によって計算
し、 ・最も類似している単語を認識結果とするもので
ある。
ところが、この方法によると、認識単語数が少いときは
良いが、数百、数千単語といったように増加してくると
、主として次の三つの問題が無視し得なくなる。
(1)登録時における話者の負担が著しく増大する。
(2)認識時に発声された音声と標準ノくターンとの類
似度あるいは距離を計算するのに要する時間が著しく増
大し、認識装置の応答速度が遅くなる。
(3)前記単語辞書のために要するメモリが非常に大き
くなる。
以上の欠点を回避するための方法として認識の単位を子
音+母音および母音の単音節(以後それぞれCV、Vで
表す。Cは子音、■は母音を意味する。)とする方法が
ある。即ち、標準パターンとして単音節を特徴ベクトル
の系列として登録しておき、認識時に特徴ベクトルの系
列に変換された入力音声を、前記単音節の標準パターン
とマツチングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか101種
類であり、単音節は仮名文字に対応しているから、この
方法によれば、日本語の任意の単語あるいは文章を単音
節列に変換する(認識する)ことができ、前記(1)〜
(3)の問題はすべて解決されることになる。しかし、
この場合の問題として調音結合とセグメンテーションが
ある。調音結合は、音節を連続して発声すると各音節は
前後の音節の影響を受け、スペクトル構造が前後に接続
される音節によって変化する現象である。セグメンテー
ションは、連続して発声された音声を単音節単位に区切
ることであるが、これを確実に行う決定的な方法は未だ
見出されていない。この2つの問題を解決するために、
現在のところ各単音節を区切って、発声することが行わ
れておシ、実用化されている装置もある。
しかし、単音節を離散的に発声するのは不自然であシ、
話者に緊張を強いるものである。
発明の目的 本発明は、認識されるべき単語または文節に対し、それ
らの数が多い場合でも小形低価格かつ標準パターンの登
録操作が簡単であって、認識精度および処理速度の向上
が可能な音声認識装置を実現することを目的とする。
発明の構成 本発明は、V、CV、、VV、、、VCV等の音節を予
め登嘩しておき、これらを連続発声して入力された単語
または文節を、単語辞書を用いて、これら音節列として
認識するものであって、その構成は、入力音声信号を特
徴ベクトル、の系列に変換する特徴抽出手段と、前記入
力音声信号の定常点を抽出する定常点伸出手段と、これ
ら定常点の種々の組合せに関して選ばれた入カバターン
の部分パターン表、v、cv、vv、vcv (vH母
音、66゜ 0は子音)等のそれぞれの音節に対応する標準パターン
とのマツチングを行って距離(または類似度)を計算す
るための音節マツチング手段と、認識されるべき各単語
または文節に対して、それらによって指定される音節名
の系列に対応するように前記入カバターンの部分パター
ンを重複区間がなく連続するように最適に定めることに
より、その各部分パターンとその部分パターンの前記音
節名に対し、前記音節マツチング手段により得られてい
る距離(または類似度)の総和を最小(または最大)と
なし、得られる最小値(または最大値)を各単語または
文節に対する入カバターンの距離(または類似度)とし
て出力する単語マツチング手段と、この単語マツチング
手段によって各単語または文節に対して計算される距離
(または類似度)が最小(または最大)となる単語また
は文節を判定して認識結果として出力する判定手段とか
ら構成される。
実施例の説明 以後、「単語」という言葉は「文節」という言7、 − 葉も代表するものとする。また、「類似度」は「距離」
で代表して説明する。即ち、距離が小さいとけ類似度が
大きいということである。
第1図は本発明の実施例である。1は音声信号入力端子
、2は特徴抽出部であって、例えば2゜チャネルのフィ
ルタバンクを用い、1フレームを10m5ecとすれば
、その出力には10m5eC毎に20個の数値(特徴ベ
クトル)が得られる。即ち入力音声信号は特徴ベクトル
の系列A=a、1 、 a2 。
・・・・・・aIに変換される。aiは第iフレームで
得られる特徴ベクトル、■は入力音声のフレーム数であ
る。3は電力計算部であって、第iフレームの電力をp
l とすれば、フレーム毎にpi=m5ワζ””” ”
 i v’1 が計算される。ここに、” i−(” 
il +ai2+・・・・・・+ ”ip)である。4
は音声区間検出部であって、とのp、の変化パターンか
ら入力音声信号の始終端を検出する。即ち、無音、有音
を判別する閾値を定め、この閾値以上の区間が予め定め
た一定期間以上続いたとき、との閾値を越えた時点を音
声の開始時点とし、この閾値以下の期間が予め定めたあ
る一定期間以上続いたとき、この閾値以下となった時点
を音声の終端とする等の方法が可能である。6はバッフ
ァメモリで、入力音声信号を音声区間検出部4によって
検出される始端から終端まで一時的に記憶するものであ
る。6は定常点検出部で、バッファメモリ5の内容を読
み出し、定常点を検出するものである。定常点の検出は
、例えば、各フレームに対シテ前後数フレームのスペク
トルの分散を計算し、これが最小となるフレームとして
検出できる。即ち、第iフレームにおけるこの分散をa
i とすると入カバターンA−a 1 + a 2・・
・・・・ai・・・・・・aI。
ai”(”ill”i2+・・・・・・r ”i y 
)に対し、として与えられる。7は促音判定結果記憶部
であって、音声区間検出部4で検出された無音区間から
促音と判定される部分を記憶するものである。
促音の検出は、前記定義に基づく無音期間の時間長によ
って判定される。例えば、この期間が100m5ec〜
250m5ecを促音とする等である。8は音節標準パ
ターン記憶部であって、v、cv、vv。
VCV等の音節に対する特徴ベクトルの系列をV。
C■については語頭から母音定常部まで、vv。
VCVについては先行母音の定常部から後続母音の定常
部まで標準パターンとして予め話者が発声し登録してお
く。9は音節パターン比較部であって、定常点検出部7
で検出された第m定常点と第p定常点(p>m )のm
、pに関する種々の組合せに対し、第m定常点から第p
定常点までの対応する入カバターンをバッファメモリ6
から読み出した入カバターンの部分パターンA(m、p
)、!:、前記音節標準パターン記憶部8に記憶されて
いる各音節標準パターンとのマツチングを行うものであ
る。マツチングは周知のDPマツチングで行うことが可
能である。即ち、前記部分パターンA (m 。
101<、 。
p ) ト標準バター :yB” ト(7D距離qnc
 R、Sn) ハ次の漸化式を解くことによってまる。
nは標準パターンの音節番号である。
初期値 gn(1,1)=dn(1,1)ここで、rは
部分パターンA(m、p)の開始フレームを1として数
えた部分パターンA(m、p)のフレーム番号、Sは標
準パターンBnの開始フレームから数えたフレーム番号
、Rは部分パターンA(m、p)のフレーム数、3nは
標準パターンBnのフレーム数、dn(r、s+)は部
分パターンA (m 。
p)のfgrフレームと標準パターンBnの第8フレー
ムとの距離であって、ユークリッド距離、市街地距離等
周知のものが用いられる。部分パターンA(m、p)と
標準パターンBnの距離は従って、qn(R,Sn) 
トナル。?ニーhヲDn(m : p ) トft (
’。
11゜ 即ち、D”(m:p)は、入カバターンの第m番の定常
点から第2番の定常点捷での部分パターンA(m、p)
と、VCV音節標準パターンとの距離である。10は距
離記憶部であって、音節パターン比較部9で、m、pの
種々の組合せに対して得られた距離D”(m:p)のそ
れぞれを記憶する。
11は単語辞書であって、認識すべき単語がそれぞれ音
節記号列の形で記憶されている。12は単語間距離計算
部であって、単語辞書11の各単語に対し、前記距離記
憶部10を参照して、その単語によって指定される音節
列に対応するように前記入カバターンの部分パターンを
重複区間がなく連続するように最適に定めることにより
、その各部分パターンとその部分パターンの前記音節名
に対し、前記距離記憶部1oに記憶されている距離の総
和を最小となし、得られる最小値を各単語に対する入カ
バターンの距離として算出する。この計算は動的計画法
により容易に実行することができる。以下にその詳細を
述べる。
第を番の単語をwfhし、単語W′!を構成する音節数
が町であるとする。また、促音も一つの音節とする例え
ば「オオサカ」という単語は10/10o// o s
 a // a k a /のように4つの音節から成
るからX□−4であシ、「サラポロ」という単語は/s
 a//・//p o/10 r o/のようになるか
らX□−4である(/・/は無音を意味する)。いま、
入カバターンを単語Wとマツチングする場合を考える。
単語Wによって指定される音節名の第1番までの系列に
対応するように部分パターンA (m 。
p)を入カバターンの第に定常点まで重複区間がなく連
続するように最適に定めることにより、各部分パターン
とその部分パターンの前記音節名に対し、前記距離記憶
部1oに記憶されている距離の総和を最小となしたとき
の最小値をD体)とすれば、動的計画法の原理により、
次式が成立する。
D’:、(kc)=mM〔Dニー1(m)+D”(m:
k)〕・−−−−−(1)ただし、1くzくk 、X=
1(7)ときm=o、x”51のときX −1<m<、
k −1、I%:(o)−〇である。nは単語W〜第1
音節を表す番号であって、単語w%第13. 1番の音節が促音であって、入力音声の第m、第に定常
点の間に促音がない、前記第1番の音節が促音でなく、
入力音声の第m、第に定常点の間に促音がある、の何れ
かが成立するときはDn(m : k )−■であると
する。また、前記第1番の音節が促音であって、入力音
声の第m、第に定常点の間にも促音が検出されるときは
、D”(m : k )はこの促、良の直後から第に定
常点までの入カバターンと、第n音節標準パターンとの
距離であシ、第n音節がvcvまたはvvのときはD”
(m : k )−(資)である。
第2図は単語間距離計算部12の詳細を示す図である。
破線内部が単語間距離計算部12であって、第1図と番
号を同じくするブロックは第1図のものと同じである。
120はtカウンタであって、t=1.2.・・・・・
・、Lを出力し、単語辞書11に対し、単語w’を指定
するもので、認識動作を始める前にリセットされる。1
22はIカウンタであって、x−1,2,・・・・・・
、 XJを出力し、単語W′を構成する音節系列の音節
を指定する。121はにカウンタであって、k=1.2
.・・・・・・、Kを出力し、14、・ヮ 入カバターンの第に定常点を指示するものである。
123i1Hmカウンタであって、m=!−1,・・・
・・・。
k−1を出力し、入カバターンの第m定常点を指示する
ものである。120〜123のカウンタは認識動作を始
める前にリセットされ、l=1.に=1 、x=1.m
=oから計数を開始する。mカウンタ123はに−1ま
で計数するとキャリー信号を出力し、Xカウンタ122
は1つカウントアツプする。x ) kのときはm=に
−1を保ったままキャリー信号を出力する。Xカウンタ
122は、Xt−ilで計数するとキャリー信号を出し
、kカウンタ121は1つカウントアツプする。Kは入
カバターンの定常点の総数であって、定常点検出部6か
ら読み出され、kカウンタ121はkまでカウントアツ
プするとキャリー信号を出し、tカウンタ120は1つ
カウントアツプする。
lカウンタ12中の出力tによって指定された単語−の
Xカウンタ122の出力!によって指定された音節nが
単語辞書11から出力される。促音判定結果記憶部7か
らは、kカウンタ121の16 出力にと、mカウンタ123の出力mによって指定され
る定常点が読み出される。距離記憶部1゜では、音節n
の標準パターンと入カバターンの部分パターンA(m、
k)との距離Dn(m:k)が既に計算され記憶されて
いるはずであるから、距離記憶部1oからこのDn(m
 : k )が読み出される。
124は累積距離記憶部であって、漸化式1において既
に計算流の累積距離D’t (m ’ )を記憶してい
る。126は漸化式計算部であって、累積距離記憶部1
24から読み出したり、’−1(m)と距離記憶部10
から読み出したDn(m:k)からD4−1(m )+
Dn(m:k)を計算し、m1c)い−cの最小値D>
)を算出するものである。各に、7について計算された
D’(k)は再び累積距離記憶部124に記憶される。
以上の動作がk = K 、 x = Xtまで行われ
ると、って指定される音節列に対応するように、入カバ
ターンの部分パターンを重複区間がなく連続するように
、その各部分パターンとその部分パターンの前記音節基
に対し前記距離記憶部1oに記憶されている距離の総和
を最小となすという意味で最適化した結果得られた前記
距離の総和の最小値である。13は単語判定部であって
、7=1.2゜・・・・・・、Lについて以上の処理を
行った結果得られ、る認識結果とするものである。
第3図は単語判定部13の詳細を説明する図である。t
カウンタ120がカウントアツプし、単語辞書11の全
ての単語との照合が完了すると、端子134を通じてt
カウンタ133はリセットされ、計数を始め、累積距離
記憶部124からD幻(K )を読み出す。130は比
較部であって、累積距離記憶部124から読み出された
入力音声モリ131に蓄えられている累積距離D〜、 
(K )と比較し、小さい方の値をバッファメモリ16
1に記憶する。もし、ρξ(K)<D澁;、(K)であ
れば、17゜ そのときのtカウンタ133の計数値が単語番号記憶部
132に記憶される。このようにして、単語番号記憶部
132には、tカウンタ133の計数値をtとするとき
、t=1〜tにおいて、D4.(K)を最小にするtの
値が記憶されることになる。t=Lとなると、tカウン
タ133はキャリーを出力し、単語番号記憶部132の
内容を読み出し、出力端子14には認識された単語に対
応する単語の番号が出力される。
発明の効果 本発明によれば、単音節を連続して発声した場合でも、
定常点を抽出し、入力部分パターンと■。
cv、vcv、vv等の音節標準パターンとマツチング
するようにしたので、比較照合すべき単語と音節標準パ
ターンを限定することができ、認識率、照合速度におい
て大幅な改善が得られる。
【図面の簡単な説明】
第1図は本発明の一実施例の構成を示すブロック図、第
2図、第3図は前記実施例の要部の構成の詳細を説明す
るブロック図である。 18・、−1 1・・・・・・音声信号入力端子、2・・・・・・特徴
抽出部、3・・・・・・電力計算部、4・・・・・・音
声区間検出部、6・・・・・・バッファメモリ、6・・
・・・・定常点検出部、7・・・・・・促音判定結果記
憶部、8・・・・・・音節標準パターン記憶部、9・・
・・・・音節パターン比較部、10・・・・・・距離記
憶部、11・・・・・・単語辞書、12・・・・・・単
語間距離計算部、13・・・・・・単語判定部、14・
・・・・・認識結果出力端子。

Claims (1)

  1. 【特許請求の範囲】 入力音声信号を特徴ベクトルの系列に変換する特徴抽出
    手段と、前記入力音声信号の定常点を抽出する定常点抽
    出手段と、これら定常点の種々の組合せに関して選ばれ
    た入カバターンの部分パターンと、V、CV、VV、V
    CV(Vは母音、Cは子音)等のそれぞれの音節に対応
    する標準ノくターントノマツチングを行って距離(また
    は類似度)を計算するための音節マツチング手段と、認
    識されるべき各単語または文節に対して、それらによっ
    て指定される音節名の系列に対応するように前記入カバ
    ターンの部分パターンを重複区間がなく連続するように
    最適に定めることにより、その各部分パターンとその部
    分パターンの前記音節名に対し、前記音節マツチング手
    段により得られている距離(または類似度)の総和を最
    小(または最大)となし、得られる最小値(または最大
    値)を2・・ン 各単語または文節に対する入カバターンの距離(または
    類似度)として出力する単語マツチング名 手段と、この単語マツチング手段によっ1語または文節
    に対して計算される距離(または類似度)が最小(また
    は最大)となる単語または文節を判定して認識結果とし
    て出力する判定手段とを備えたことを特徴とする音声認
    識装置。
JP2105784A 1984-02-07 1984-02-07 音声認識装置 Pending JPS60164800A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2105784A JPS60164800A (ja) 1984-02-07 1984-02-07 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2105784A JPS60164800A (ja) 1984-02-07 1984-02-07 音声認識装置

Publications (1)

Publication Number Publication Date
JPS60164800A true JPS60164800A (ja) 1985-08-27

Family

ID=12044273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2105784A Pending JPS60164800A (ja) 1984-02-07 1984-02-07 音声認識装置

Country Status (1)

Country Link
JP (1) JPS60164800A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60182499A (ja) * 1984-02-29 1985-09-18 松下電器産業株式会社 音声認識装置
JPH0588692A (ja) * 1991-01-25 1993-04-09 Matsushita Electric Ind Co Ltd 音声認識方法
JPH05188988A (ja) * 1992-01-14 1993-07-30 Matsushita Electric Ind Co Ltd 音声認識方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4918402A (ja) * 1972-06-09 1974-02-18

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4918402A (ja) * 1972-06-09 1974-02-18

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60182499A (ja) * 1984-02-29 1985-09-18 松下電器産業株式会社 音声認識装置
JPH0588692A (ja) * 1991-01-25 1993-04-09 Matsushita Electric Ind Co Ltd 音声認識方法
JPH05188988A (ja) * 1992-01-14 1993-07-30 Matsushita Electric Ind Co Ltd 音声認識方法

Similar Documents

Publication Publication Date Title
Rahman et al. Continuous bangla speech segmentation using short-term speech features extraction approaches
JPS60164800A (ja) 音声認識装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2813209B2 (ja) 大語彙音声認識装置
JPH045398B2 (ja)
JPS61137198A (ja) 音声認識装置
JPS6148897A (ja) 音声認識装置
JPH0552516B2 (ja)
JPS6312000A (ja) 音声認識装置
JPS60150098A (ja) 音声認識装置
JPS6069694A (ja) 語頭子音のセグメンテ−ション法
JPS6033599A (ja) 音声認識装置
JPS60147797A (ja) 音声認識装置
JPS6225797A (ja) 音声認識装置
JPS6225796A (ja) 音声認識装置
JPH0534680B2 (ja)
JPS6180298A (ja) 音声認識装置
JPS63236094A (ja) 音声認識方法
JPS6335996B2 (ja)
JPS60249197A (ja) 音声認識装置
JPS58223194A (ja) 日本語音声入力方式
JPS62218997A (ja) 単語音声認識装置
JPS61143796A (ja) 音声認識装置
JPS61143797A (ja) 音声認識装置
JPS62191894A (ja) 連続音声認識装置