JPH0585918B2

JPH0585918B2 -

Info

Publication number: JPH0585918B2
Application number: JP58143181A
Authority: JP
Inventors: Hidekazu Tsuboka
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-08-04
Filing date: 1983-08-04
Publication date: 1993-12-09
Also published as: JPS6033599A

Description

【発明の詳細な説明】

産業上の利用分野本発明は音声認識装置、特に単音節音声を認識
することにより、任意の文章の入力が可能な音声
認識装置に関する。従来例の構成とその問題点人間にとつて最も自然な情報発生手段である音
声が、人間−機械系の入力手段として使用できれ
ば、その効果は非常に大きい。従来、音声認識装置としては特定話者登録方式
によるものが実用化されている。即ち、認識装置
を使用しようとする話者が、予め、認識すべきす
べての単語を自分の声で特徴ベクトルの系列に変
換し単語辞書に標準パターンとして登録してお
き、認識時に発声された音声を、同様に特徴ベク
トルの系列に変換し、前記単語辞書中のどの単語
に最も近いかを予め定められた規則によつて計算
し、最も類似している単語を認識結果とするもの
である。ところが、この方法によると、認識単語数が少
いときは良いが、数百、数千単語といつたように
増加してくると、主として次の三つの問題が無視
し得なくなる。 (1) 登録時における話者の負担が著しく増大す
る。 (2) 認識時に発声された音声と標準パターンとの
類似度あるいは距離を計算するのに要する時間
が著しく増大し、認識装置の応答速度が遅くな
る。 (3) 前記単語辞書のために要するメモリが非常に
大きくなる。以上の欠点を回避するための方法として認識の
単位を子音＋母音および母音の単音節（以後それ
ぞれCV，Ｖで表す。Ｃは子音、Ｖは母音を意味
する。）とする方法がある。即ち、標準パターン
として単音節を特徴ベクトルの系列として登録し
ておき、認識時に特徴ベクトルの系列に変換され
た入力音声を、前記単音節の標準パターンとマツ
チングすることにより、単音節の系列に変換する
ものである。日本語の場合、単音節はたかだか
101種類であり、単音節は仮名文字に対応してい
るから、この方法によれば、日本語の任意の単語
あるいは文章を単音節列に変換する（認識する）
ことができ、前記(1)〜(3)の問題はすべて解決され
ることになる。しかし、この場合の問題として調
音結合とセグメンテーシヨンがある。調音結合
は、音節を連続して発声すると各音節は前後の音
節の影響を受け、スペクトル構造が前後に接続さ
れる音節によつて変化する現象である。セグメン
テーシヨンは、連続して発声された音声を単音節
単位に区切ることであるが、これを確実に行うの
は現在の技術では困難である。この２つの問題を
解決するために、現在のところ各単音節を区切つ
て、発声することが行われており、実用化されて
いる装置もある。第１図は単音節音声認識をパターンマツチング
で行う装置の一般的な構成である。１は音声信号
の入力端子である。２は特徴抽出部であつて、入
力音声信号を、フイルタバンクやFET，LPCな
どにより分析し、数ミリ秒毎に特徴ベクトルの系
列Ａ＝a₁，a₂……a_i……a_Iに変換する。３は標準
パターン記憶部であつて予め認識すべき単音節音
声を同様な手段によつて特徴ベクトルの系列に変
換したものを各音節に対する標準パターンRⁿ＝
bⁿ ₁bⁿ ₂……bⁿ _j……bⁿ _Jo（ただし、ｎ＝１，２，……，
Ｎ；Ｎは標準パターンの数）として記憶する部分
である。４はパターン比較部であつて、特徴抽出
部２の出力である入力パターンＡと、標準パター
ン記憶部３に記憶されている夫々の標準パターン
Rⁿを比較し、両者の距離Ｄ（Ａ，Rⁿ）を算出す
る。５は判定部であつて、 n^＝ min ｎ〔Ｄ（Ａ，Rⁿ）〕により、入力パターンに最も近い標準パターン
R_oを判定する。６は判定結果を単音節認識結果
として出力する出力端子である。パターン比較部
４におけるパターン比較は、動的計画法を用いた
所謂DPマツチングや線形シフトマツチング等が
よく用いられる。また、先ず母音を認識して候補
母音段を決定してから、その母音段に属する標準
パターンを用いて子音部を認識することにより、
認識率とマツチングの速度を向上させているので
一般的である。しかし、単音節音声は、持続時間が短かく、
「シ」、「チ」等子音部の微妙な差によつて区別し
なければならないものが多く、単語音声のように
高い認識率を得るのが困難である。この問題を解決するために、単語辞書を用いる
方法が考えられている。第２図はその例である。
同図において、第１図と同一の番号を付したブロ
ツクは、第１図と同一の動作を行う。７は単語辞
書で、認識すべき単語W^l（ｌ＝１，２，……，
Ｌ；Ｌは登録単語数）が単音節に対応する記号列
W^l＝C^l ₁C^l ₂……C^l _k……C^l _Kl（C^l _kは単語W^lのｋ番目の
音節）として記憶されている。８は単語比較部で
あつて、入力単音節列Ｔ＝A₁A₂……A_n……A_M
（Ｍは入力単語の音節数）であるとき、入力単語
の音節数に等しい音節数の単語辞書７に記憶され
ている単語W^l′＝C^l′＝C^l′₁C^l′₂……C^l′_M（W^l′は
音節数
Ｍの単語）に対し、パターン比較部４で算出され
た距離Ｄ（A_n，C^l′_n）から各l′について D_W（Ｔ，W^l′）＝_M 〓^m=1 Ｄ（A_n，C^l′_n）を算出する。９は判定部であつて、 l^′＝ min l′〔Ｔ（Ｓ，W^l′）〕なるl^′を求め、W^l′を認識単語と判定する。１０
は認識された単語を出力する出力端子である。以上のように、単語辞書の知識を用いれば認識
率は向上する。またワードプロセサへの入力を考
えるとき、前記単語辞書は仮名漢字変換を行うた
めの辞書を共用することができ、単語辞書は音声
認識用として特別に準備する必要はない。しかし、単語辞書の単語数は通常３万以上にも
および、単語比較部８における計算量が無視でき
なくなる。発明の目的本発明は、単語辞書を用いて、単音節の認識率
の向上を図つた単音節音声認識装置に関し、より
詳細には、単語辞書とのマツチングの速度を向上
せしめたことを特徴とする音声認識装置に関す
る。発明の構成本発明は、入力音声信号を特徴ベクトルの系列
に変換する手段と、入力音声信号を音節毎に区切
る手段と、前記特徴ベクトルの系列から前記各音
節の後続母音を認識する手段と、前記後続母音列
と同じ後続母音列を有する単語あるいは文節の音
節列を記号列として得る手段と、前記記号列と前
記入力音声信号から得られた音節列とをマツチン
グする手段と、このマツチングの結果、前記入力
音声信号に最も近い前記単語あるいは文節を前記
入力音声に対応する認識結果と判定する判定手段
とを備えた音声認識装置である。本発明の基本的な考え方について、以下、説明
する。単音節音声の認識において、母音の認識はほぼ
確実に行われる。従つて、入力単音節CVまたは
Ｖ（Ｃは子音、Ｖは母音）の後続母音の系列がV₁
V₂……V_Mであつたとき、照合すべき単語辞書の
単語として、その単語を構成する単音節の後続母
音の系列がV₁V₂……V_Mとなる単語のみを選べば
よいことになる。例えば、入力単音節列の後続母
音が｜ｏ｜｜ｏ｜｜ａ｜｜ａ｜であつたとすれ
ば、照合すべき単語としては「oosaka」
「toyonaka」……等が選ばれることになる。このようにすると、例えば、４音節の単語の場
合、母音の出現確率が等しいとすれば、ある特定
の母音列の生ずる確率は（1/5）⁴＝1/625となり４
音節の単語が１万語あるとすれば、ある特定の母
音列に対応する４音節語は16語となり、実際に比
較計算をしなければならない単語は激減する。余
裕をみて、第２候補の母音も勘定に入れるとして
も（2/5）⁴≒1/39となり、同様に４音節の単語が
１万語あるとすれば、比較計算をすべき４音節語
は256語となり、大幅に減少する。さらに促音や
撥音も上記母音同様に処理することにすれば、さ
らに比較計算を減少させることができる。これら
母音や促音、撥音等の認識はほぼ完全に行われる
ので、計算量の減少のみでなく認識率自体も向上
する。実施例の説明第３図は本発明の一実施例の音声認識装置の構
成を示すブロツク図である。１１は音声信号の入
力端子で、単音節の連鎖として単語が入力され
る。１２は従来例において説明したと同様の特徴
抽出部であつて、前記の如く入力音声を特徴ベク
トルの系列に変換する。１３はパワー計算部であ
つて、特徴抽出部１２の出力ベクトル系列をa₁a₂
……a_i……a_Iとするとき、第ｉフレームのパワー
P_iは、例えばa_i＝（a_i1，a_i2，……，a_i〓）とすれば、
P_i＝√_i1 ²＋_i2 ²＋……＋_i〓²として求められ得る
。
１４は音節区間検出部であつて、パワー計算部１
３の出力から、入力音声を音節毎に区切り各音節
の開始フレームと終了フレームとを検出する。第
４図はその例であつて、パワーが閾値29を越える
時点を音節の開始フレーム、閾値29以下になる時
点を音節の終了フレームとし、閾値29以上の区間
を音節の存在区間とする。また閾値29以下の区間
が一定値t_c以上あるときは、その区間を促音とみ
なす。同図は「sapporo」と発声したときの様子
を示すもので、Ｑは促音を意味する。１５は音節
数計数部であつて、促音も一音節とみなして音節
数（従つてモーラ数）を計数する。１６は母音標
準パターン記憶部であつて、母音｜ａ｜，｜ｉ｜，
｜ｖ｜，｜ｅ｜，｜ｏ｜および撥音｜Ｎ｜の標準パ
ターンが予め登録されている。１７は母音フレー
ム検出部であつて、音節区間検出部１４で検出さ
れた各音節の開始、終了フレームと特徴抽出部１
２で抽出された特徴ベクトルの系列から母音に相
当するフレーム位置を検出する。母音部は定常で
あるから、求めるべきフレームは、第ｉ−ｒフレ
ームから第ｉ＋ｒフレーム（ｒは定数）までの特
徴ベクトルの各成分の分散の総和が極小となるフ
レームｉとして検出することができる。即ち、第
ｉフレームの入力の特徴ベクトルをa_i＝（a_i1，a_i2，
……，a_ij，……，a_i〓）とするとき m_ij＝１／2r＋１_i+r 〓^k=i-r a_kj v_i＝〓〓^l=1 _i+r 〓^k=i-r （a_oj−m_ij）² において、各単音節の最終フレームから逆にv_iを
求めてゆき、v_iが極小になつたフレームを母音定
常部中心フレームとすることができる。１８はバ
ツフアメモリであつて、単音節毎に特徴抽出部１
２で抽出された特徴ベクトルの系列を音声区間検
出部１４で検出された単音節開始フレームから終
了フレームまでにわたつて記憶する。１９は母音
パターン比較部であつて、母音フレーム検出部１
７で検出されたフレームに対応する特徴ベクトル
をバツフアメモリ１８から読み出し、母音標準パ
ターン記憶部１６の各母音標準パターンと比較を
行いそれぞれに対する距離を算出する。例えば、
a_i＝（a_i1，a_i2，……，a_i〓）が入力単音節の母音フ
レームに対応する特徴ベクトルであるとき、ν番
目の母音標準パターン（撥音も含む）v〓＝（v〓₁，
v〓₂，……，v〓〓）（ただし、ν＝１，２，……，）
との距離は

【化】とすることができる。２０は母音判定部であつ
て、 ν^＝ min ν〔d_i〓〕を求めv〓に対する母音を母音認識結果とする。２
１は母音・促音判定結果記憶部であつて、母音判
定部２０で判定された母音と音節区間検出部１４
で検出された促音とを発生順序に従つて記憶す
る。２２は単音節標準パターン記憶部であつて、
特徴ベクトルの系列に変換された、それぞれの単
音節に対応する標準パターンが記憶されている。
２３は単音節パターン比較部であつて、バツフア
メモリ１８に蓄えられている入力パターンと単音
節標準パターン記憶部２２に蓄えられている単音
節標準パターンとを比較し、前記入力パターンの
それぞれの単音節標準パターンに対する距離を計
算するものである。このとき、照合すべき単音節
標準パターンは、母音判定部２０で判定された母
音を後続母音としてもつ単音節に限られる。ま
た、各単音節に対し比較する範囲はその単音節の
開始フレームから母音の定常部までとする。これ
は、丁度、子音の情報が含まれている部分であ
る。比較照合の方法は線形シフトマツチングや
DPマツチング等周知の方法が用いられ得る。DP
マツチングを用いることにすれば次のようにな
る。ｎ番目の単音節標準パターンをRⁿ＝bⁿ ₁bⁿ ₂…
…bⁿ _i……bⁿ _J ⁿ、単音節入力パターンをＡ＝a₁a₂…
…a_i……a_I（ただしＩ，Jⁿはそれぞれ入力パター
ン、標準パターンの母音定常部中心フレーム）、
dⁿ（ｉ，ｊ）をa_iとbⁿ _jのベクトル間距離とすると
きｇ（ｉ，ｊ）＝minｇ（ｉ−２，ｊ−１）＋dⁿ（ｉ−
１，ｊ）dⁿ（ｉ，ｊ）ｇ（ｉ−１，ｊ−１）＋dⁿ（ｉ，ｊ）ｇ（ｉ−１，ｊ−２）＋dⁿ（ｉ，ｊ）なる漸化式をｇ（１，１）＝2dⁿ（１，１）として解
けば、ＡとRⁿの距離Ｄ（Ａ，Rⁿ）はＤ（Ａ，Rⁿ）＝ｇ（Ｉ，Ｊ）となる。ここでdⁿ（ｉ，ｊ）はa_i＝（a_i1，a_i2，……
a_i〓）bⁿ _j＝（bⁿ _j1，bⁿ _i2，……，bⁿ _j〓）とするとき dⁿ（ｉ，ｊ）＝〓〓^k=1 ｜a_ik−bⁿ _jk｜とするのが、一般的である。また上記漸化式も
種々の形が提案されておりここではその一例を示
したにすぎない。２４は距離記憶部であつて、単
音節パターン比較部２３で計算された距離を記憶
するものである。単音節列A₁A₂……A_n……A_M
からなる単語が入力されたときは、距離記憶部２
４はＤ（A_n，Rⁿ）を１ｍＭ，Rⁿ∈S_Anのすべ
てについて記憶する。ただしA_nと同じ後続母音
をもつ単音節標準パターンの集合をS_Anとする。
２５は単語辞書であつて、認識すべき単語が音節
記号列で表現された形で記憶されている。２６は
単語間距離計算部であつて、単音節列として入力
された単語と単語辞書２５の単語との距離を距離
記憶部２４に記憶されている距離から計算する。
単語辞書２５に対し、比較照合されるべき単語は
音節数計数部１５における値、即ち、入力単語の
音節数と、母音・促音判定結果記憶部２１で示さ
れる後続母音（撥音・促音を含む）列と同じ後続
母音列をもつ単語に限定される。いま、この限定
された単語の集合をS_Wとし、W^l∈S_Wなる単語W^l
がC^l ₁C^l ₂……C^l _n……C^l _Mなる音節列からなつている
とすれば、前記説明によつて単音節A_nとC^l _nとの
単音節間距離Ｄ（A_n，C^l _n）は距離記憶部２４に記
憶されているので、入力単語Ｔ＝A₁A₂……A_n…
…A_Mと単語辞書の単語W^l＝C^l ₁C^l ₂……C^l _n……C^l _Mと
の距離D_W（Ｔ，W^l）は D_W（Ｔ，W^l）＝_M 〓^m=1 Ｄ（A_n，C^l _n）として求めることができる。２７は単語判定部で
あつて l^＝min〔D_W（Ｔ，W^l）〕 W^l∈S_W なるl^を求め、W_lを認識単語と判定する。２８は
認識結果の出力端子である。なお、本実施例においては、単語単位で認識す
るとして説明したが、これは勿論、文節単位で行
うこともできる。その場合は、名詞に付属語を付
加したものや動詞、形容詞、形容動詞等の活用形
までも含めて前記単語とみなして単語辞書に登録
しておく方法も考えられるが、この方法では、単
語辞書のメモリ量が大幅に増えるので、単語辞書
には語幹や、付属語のつかない形で名詞を登録し
ておき、単語間距離計算部２６で比較照合を行う
とき、種々の文節を規則で作り出すようにするこ
ともできる。特に、仮名漢字変換機能付のワード
プロセツサの入力として本発明装置を用いるとき
は、単語辞書は仮名漢字変換用のものが共用で
き、前記付属語を作る機能ももともと備わつてい
るのですこぶる好都合である。また、本実施例では促音を無音区間長から検出
するとしたが、「つ」と発声することにより、促
音を入力するようにもできる。このときは、単語
辞書において促音を「つ」に置き換えておけばよ
く、実際は「つ」であるのか促音であるのかの区
別は言語処理の問題として簡単に行い得る。さらに、本発明は発声を単音節毎に区切つて発
声する場合について述べたが、単音節の区切りが
行えれば良いのであつて、連続的に発声してもこ
の区切りが行える場合は、本発明の原理はそのま
ま適用可能である。発明の効果本発明によれば、単音節のみの認識でなく、単
語全体としての認識を行つており、また、比較照
合すべき単語を母音列で限定することにより、認
識率、照合速度において大幅な改善が得られたも
のである。

【図面の簡単な説明】

第１図は従来の単音節音声認識装置を示すブロ
ツク図、第２図は前記従来例を改良した例を示す
ブロツク図、第３図は本発明の一実施例における
音声認識装置を示すブロツク図、第４図は本発明
装置の一部の動作を説明する波形図である。１１……音声信号入力端子、１２……特徴抽出
部、１３……パワー計算部、１４……音声区間検
出部、１５……音節数計数部、１６……母音標準
パターン記憶部、１７……母音フレーム検出部、
１８……バツフアメモリ、１９……母音パターン
比較部、２０……母音判定部、２１……母音・促
音判定結果記憶部、２２……単音節標準パターン
記憶部、２３……単音節パターン比較部、２４…
…距離記憶部、２５……単語辞書、２６……単語
間距離計算部、２７……単語判定部、２８……認
識結果出力端子。

Claims

【特許請求の範囲】

１母音ラベル、音節ラベルで検索可能な形で記
憶された母音標準パターンおよび音節標準パター
ンと、認識すべき単語がラベル列で表された単語
辞書と、入力音声信号を特徴ベクトルの系列に変
換する手段と、前記特徴ベクトルの系列を音節毎
に区切る手段と、前記区切られた音節の後続母音
パターンと前記母音標準パターンとから前記区切
られた各音節の後続母音（含撥音、促音）を認識
する手段と、前記各音節の特徴ベクトル系列と、
該音節の後続母音を同じくする音節標準パターン
とを照合し、両者の間の距離あるいは類似度を算
出する音節パターン比較手段と、その結果を記憶
する距離記憶手段と、前記距離記憶手段が記憶す
るパターンの後続母音列と同じ後続母音列を有す
る単語あるいは文節の音節列を前記単語辞書から
記号列として得る手段と、前記記号列の示す各音
節と前記入力音声信号の対応する音節との距離ま
たは類似度を前記距離帰国手段から読み出して前
記記号列に従つて累積する手段と、この累積照合
の結果、前記入力音声信号に最も近い前記単語あ
るいは文節を前記入力音声に対応する認識結果と
判定する判定手段とを有することを特徴とする音
声認識装置。