JP2664136B2

JP2664136B2 - 音声認識装置

Info

Publication number: JP2664136B2
Application number: JP60189653A
Authority: JP
Inventors: 信夫畑岡; 吉章淺川; 明雄天野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1985-08-30
Filing date: 1985-08-30
Publication date: 1997-10-15
Anticipated expiration: 2012-10-15
Also published as: JPS6250800A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は音声分析あるいは認識装置に係り、特に音声
の定常部区間や母音区間を自動的に検出し、音声を音節
単位などの構成単位へセグメンテーションするのに好適
な音声のセグメンテーション方式に関する。〔発明の背景〕従来の音声を音素あるいは音節単位へセグメンテーシ
ョンする方式としては、特開昭60−69694号「語頭子音
のセグメンテーション法」や音響学会音声研究会資料S8
5−15（1983−６）「Top−Down処理による子音のセグメ
ンテーション」に記載のように音素特有の特徴を示すパ
ラメータ（例えば音声、無声、鼻音性）や音素特有の前
後環境を示すパラメータ（例えばパワーディプなど）を
利用して行うもの、電子通信学会論文誌55−DP186「数
字音声の機械認識系」や特開昭58−105296号「音韻区間
切り出し方法」に記載のように目視で前もって音素など
の単位へセグメンテーションした情報をもとにセグメン
ト間の距離の累積を最小にする最適セグメントを求めて
行うもの、IEEE ICASSP83予稿集pp320〜323「連続発声
の日本語におけるセグメンテーションフリーな音節認識
（Segmentation−Free Syllable Recognition In Conti
nuovsly Spoken Japanese）」に記載のように標準的な
音節の特徴パタンとの連続的あるいは２段的DP（Dynami
c Programing）マッチングの結果から音節単位へセグメ
ンテーションするものなどが知られている。目視で前もってセグメンテーションする方法は確実に
最適なセグメンテーションが行えるが、自動的（あるい
は機械的）なセグメンテーションではないこと、音素特
有のパラメータを使う方法は音素特有のパラメータを探
索することが必要であり、また判定が閾値処理となるこ
とから処理が複雑でかつ汎用的でないこと、DPマッチン
グを用いる方法は音素や音節の構造を細かにみることが
できないので本来の音節区間が得られなかったり（脱
落）、不要な音節区間が出現したり（湧き出しあるいは
付加）することや処理量が多いことなどの問題があっ
た。〔発明の目的〕本発明の目的は前記従来の問題を解決して、処理が単
純でかつ処理量も少なく、セグメンテーションの性能も
高い自動的な音声のセグメンテーション方式を提供する
ことにある。〔発明の概要〕上記目的達成のために本発明では、入力音声自身のフ
レーム間相関値の累積値により定常部区間、特定の音韻
あるいは音声の区間を検出することによりセグメンテー
ションを行うことに特徴がある。〔発明の実施例〕本発明の実施例を説明する前に本発明の原理を詳細に
説明する。第一図は本発明の処理のフローの一例を示し
たものである。まず入力音声の音声区間検出と音声分析
が行われる。音声区間検出は音声の短時間エネルギー
（パワー）などの情報を使って、前もって定められた閾
値以上となる区間を音声として検出する。音声分析は音
声の特徴パタンを抽出するもので、特徴パラメータは帯
域通過フィルタ（BPF）出力値や線形予測分析（LPC分
析）の結果得られるパラメータなどがある。次に音声区
間の中に存在する無音部の検出が前記パワーなどを用い
て行われ、無音部区間が抽出される。フレーム間相関計
算は音声分析で得られた特徴パタンのフレーム（短時
間）間の類似度を求めるもので、音声認識装置などで使
われる距離もその一つである。フレーム間相関計算は一
般に、２つの特徴パタンの類似度を求めるもので、１方
の特徴パタンをx_i（ｉフレーム、ｉ＝１〜Ｉ）、他方を
y_j（ｊフレーム、ｊ＝１〜Ｊ）とすると、相関（距離）
行列d_ijが得られる。本発明では、入力音声自身のフレ
ーム間距離と入力音声と特定の音韻（例えば日本語５母
音）のフレーム間距離を求める。次に、相関（距離）行
列をＮ段階に表現し直したＮグレードパタンn_ijが抽出
される。このＮグレードパタンは処理の簡略化を計るた
めのもので、以下の処理で直接相関（距離）行列を扱う
とすれば省略が可能である。Ｎグレードパタンを視覚的
に色の濃さ等で表わしたものを濃淡パタンと呼ぶことに
する。本発明はこの濃淡パタンを使って、音声の定常部
区間やある特定の音韻区間を抽出するところに特徴があ
る。定常部区間検出は入力音声自身の濃淡パタンを使っ
て行われる。原理は定常部は隣接するフレーム間の相関
が高く（距離が小さく）、濃淡パタン表示では色の薄い
所が四角形として表われてくる（第７図参照）。一方音
声の変化している遷移部は色の濃い所が斜め上がりの形
で表われてくる。従って、濃淡パタン上で四角形の薄い
個所を探索すれば、定常部区間が求まることになる。同
様の処理で特定の音韻（本発明では５母音）との濃淡パ
タンから、母音部区間が求まる。本発明では、この２つ
の結果を統合して、入力音声の母音区間を検出すること
を一例として挙げている。この結果、入力音声の定常部
区間の中の母音区間が確実に検出され、入力音声の音節
区間がセグメンテーションされることになる。本発明の
主点は入力音声自身の相関行列から少なくとも定常部区
間を検出することにあり、前記処理フローでの音声区間
検出や無音部区間検出の有無や処理フローの中での順序
はどんな場合でもさしつかえない。以下、本発明の主点である定常部区間検出、母音区間
検出、統合の具体的処理に関して詳細に説明する。第
２、３図は定常部区間検出の概略処理フローと詳細なフ
ローチャート、第４、５図は母音部区間検出の概略フロ
ーとフローチャート、第６図は統合処理のフローチャー
トを示すものである。第２図（ａ）に示す定常部区間検
出では、入力音声自身のＮグレードパタンn_ijから入力
フレームｉを固定した時にｉから始まる定常部区間の可
能性を探索する（定常部区間候補の探索）。具体的な処
理は第２図（ｂ）に示すようにＮグレードパタンの
（ｉ、ｉ）点を始点とした三角形（ｉ、ｉ）、（ｉ、ｉ
＋ｊ）、（ｉ＋ｊ、ｉ＋ｊ）の面積を計算する。ｊを増
加した時の三角形の面積の値と変化とから定常部区間候
補ｉ〜ｉ＋j_sを探索する（検出条件あるいは）。検
出条件はＮグレードパタンを相関の高い（距離の小さ
い）個所をグレードの小さい所とし、三角形の面積はグ
レードの累積とした場合である。次に、最終的な定常部
区間を定常部区間候補の中で長い順に選択して行く。収
束条件は定常部区間候補が存在しなくなった場合か入力
音声中の定常部個数の最大許容値Ｍ（入力音声の時間長
から定まる）を検出した場合である。第３図は以上の処
理を具体的に示したフローチャートの一例である。次に第４図（ａ）に示した母音区間検出では、入力音
声と母音とのＮグレードパタンn_ijから入力フレームｉ
を固定した時にｉから始まる母音区間の可能性を探索す
る（母音区間候補の探索）。本処理では第４図（ｂ）に
示すように入力フレームｉと母音パタンフレームJ_stを
始点とした四角形Ａ（ｉ、J_st）、Ｂ（ｉ、Ｊ−
J_end）、Ｃ（ｉ＋Δｉ、J_st）、Ｄ（ｉ＋Δｉ、Ｊ−J
_end）の面積の値と変化とから母音部区間候補を探索す
る（J_st、J_endは定数）。検出条件などは定常部区間検
出の条件などと同様である。本処理の具体的なフローチ
ャートの一例を第５図に示す。最後に、前記２つの処理で求まった定常部区間と母音
部区間候補の統合が行われ、最終的に母音区間が確実に
求められる。統合処理は２つの処理で求まった区間の共
通部分を探索する処理であり、具体的なフローチャート
の一例を第６図に示す。以上の処理から入力音声の定常部区間と確実な母音区
間とが求まることになる。次に前記処理の具体的実施例を説明する。第７図は入
力音声自身のＮグレードパタン（濃淡パタン）を示すも
のである（Ｎ＝２）。上から順に入力音声/akazukiN/の
音声波形、パワー、Ｎグレードパタンであり、横軸は時
間である。Ｎグレードパタンからわかるように、定常部
/a/、/a/、/u/、/i/、/N/が色の薄い四角形として表わ
れている。本発明の主点はこの色の薄い四角形を探索す
ることにより定常部区間を検出するところにある。第８
図はこの入力音声と５母音/a/、/i/、/u/、/e/、/o/と
のＮグレードパタンを示すものである（Ｎ＝３）。この
図から入力音声の母音区間候補が入力音声のどの時間位
置にあるのかがわかる。第９図は本発明の処理結果を示
す図であり、（ａ）は定常部区間検出結果（空白の四角
形で表示）、及び、音声パワーが閾値以下、即ち無音区
間の検出結果（斜線で示した四角形で表示）を示してい
る。この無音区間は、単語の前後、語中の促音、無声破
裂音の子音の直前部分に検出される。第９図の（ｂ）は
統合処理結果の母音区間検出結果（格子模様で示した四
角形）を示している。以下、本発明の一実施例について詳細に説明する。第
10図は本発明の一実施例を示したブロック図である。ア
ナログ入力音声１はLPF（低域通過フィルタ）、ADC（ア
ナログ−ディジタル変換器）２で、サンプリングでの折
り返し雑音を除去されながらディジタル値へ変換され
る。次に、音声区間検出部３でパワーなどの情報から入
力音声の音声区間が検出され、音声分析部４で音声の特
徴パラメータが計算され、入力音声の特徴パタンが抽出
される。音声の特徴パラメータとしては、BPF出力値やL
PC分析結果のパラメータなどがある。得られた特徴パタ
ンはフレームパタン格納メモリ９に格納される。次に、
無音区間検出部５で入力音声中に存在する無音部が検出
される。無音部の検出方法としてはパワーの値がある閾
値以下となったフレームとするなどがある。フレーム間
相関計算部６ではフレームパタン格納メモリ９から読み
込まれた入力音声の特徴パタン間の類似度や入力音声と
５母音パタンメモリ10から読み込まれた５母音の特徴パ
タンとの類似度が計算され、得られる相関（距離）行列
が本発明の主点であるセグメンテーション部７へ入力さ
れる。セグメンテーション部７では、入力音声自身の相
関（距離）行列をＮグレードパタンに変換した後、入力
音声の定常部区間が検出されると同時に、入力音声と５
母音との相関（距離）行列のＮグレードパタンから母音
区間候補が検出され、最終的に統合された結果として定
常部区間の中の母音区間が確実に抽出される。以上の処
理は制御部８で制御されながら実行される。第11図は音声区間検出部３と無音区間検出部５の一実
施例を詳細に示したものである。ディジタル値に変換さ
れた入力音声x_nはサンプル値レジスタ31を介しながら、
乗算器32と加算器33に入力され入力音声の短時間エネル
ギー（パワー）P_wが求められる。パワーP_wと前もって定
められた音声パワー閾値P_Hとの比較がなされ、始終端カ
ウンタ35でパワー閾値P_Hとの大小関係の継続時間長（フ
レーム長）が累積され、比較器36で始端の継続時間長閾
値NSや終端の継続時間閾値NEとの比較により、入力音声
の始端と終端が検出され、入力音声区間が検出されるこ
とになる。同様に比較器51にてパワーP_wと無音部パワー
閾値P_Lとの比較により、入力音声中の無音部区間が検出
され、入力フレームパタンコードレジスタ52に無音部コ
ードが設定される。第12図は音声分析部の一実施例を詳細に示したもので
ある。実施例では帯域通過フィルタ（BPF）分析をあげ
ている。入力音声x_nは中心周波数と帯域幅の違う複数個
のBPF群41と42に入力される。本実施例では周波数分解
能を上げるために２段のBPF構成としている。BPF41、42
は２次のバターワース型フィルタとなっており、加算器
２個、乗算器４個と遅延器２個から構成されている。BP
F結果の波形は絶対値変換器（ABS）43にて整流され、LP
F44、サンプリング器45、さらにLPF44にて高域周波数成
分をカットされながら出力値パタンx_iが求められる。LP
FはBPF同様に周波数分解能をあげるために２段構成とな
っており、LPF44、46はBPF同様の処理規模のバターワー
ス型となっている。尚、LPFの構成については特願昭55
−135981「ディジタル低域通過波回路」に詳細に説明
されている。本発明では音声分析部４の構成をBPF分析
としたが、LPC分析とすることも可能であり、この場合
の詳細な実施例は文献“「音声波形の線形予測分析によ
る音声分析と合成（Speech Analysis and Synthesis by
Linear Prediction of the Speech Wave）”」by B.S.
Atal et al,Joumal of Acoustic Society of America,V
ol.50,p.p.637〜655,1971に詳細に説明されている。第13図はフレーム間相関計算部の一実施例を詳細に示
すものである。本実施例では相関演算尺度として、絶対
値距離を用いた場合を示す。２つの音声の特徴パタンx_i
とy_jとの絶対値距離d_ijはとして求まる。ここでｉ、ｊはフレーム、ＫはBPFのチ
ャネル数である。従って、実施例では、２つの特徴パタ
ンx_i、y_jとが各々フレームパタンレジスタ61、62を介し
ながら入力され、減算器63でx_ki−y_kjの計算、絶対値変
換器64で|x_ki−y_kj|の計算がされ、加算器65でｋ＝１か
らＫまでの累積が計算されることになる。結果d_ijは相
関／距離レジスタ66に格納される。本発明の実施例では
絶対値距離としたが、LPC分析で得られる特徴パタンの
相関尺度なども考えられる。この場合の具体的実施例は
文献「音声認識に適用した最小予測誤差原理（Minimum
Prediction Residual Principle Applied to Speech Re
coguition）」by F.Itakura et al.IEEE Trans on Acou
stics,Speech and Signal Processing,vol.ASSP−23,p.
p.57〜72,Feb.'75に詳細に説明されている。第14図は本発明の主点であるセグメンテーション部７
の一実施例を詳細に示したものである。相関／距離レジ
スタ66から読み込まれた距離行列d_ijがＮグレードパタ
ン抽出部71に入力される。ここでは、比較器711で距離
閾値θとの大小関係が比較され、Ｎグレードパタンn_ij
がＮグレードパタンレジスタ712に一旦格納される。次
に、定常部区間検出部72ではＮグレードパタン（濃淡パ
タン）の三角形の面積が加算器721で累積され、比較器7
22にてその値と変化の度合が判定定数α、βと比較され
て、入力フレームｉを固定した場合の定常部区間候補が
求められ、レジスタ723に格納される。比較器724では最
終の定常部区間が区間長の長い順に決定され、定常部区
間検出結果が定常部区間レジスタに格納される。一方、
入力音声と５母音とのフレーム間距離行列のＮグレード
パタンが同様に抽出され、母音区間検出部73では加算器
731、比較器732において母音区間が抽出され、結果が母
音区間レジスタ733に格納される。次に、定常部区間検
出部72と母音区間検出部73で得られた定常部区間情報L_i
と母音区間候補情報LV_iとが区間統合処理部74に入力さ
れ、比較器741でL_iとLV_iとの共通部分として最終の母音
区間が抽出され、結果が入力フレームパタンコードレジ
スタ742に格納される。本実施例での加算器721、731、
比較器711、722、724、732、741などは各々一個に共通
化することが可能である。セグメンテーション部７の他
の実施例は第３図、第５図、第６図のフローチャートに
示されるように計算機上で実行することも可能である。本実施例ではＮグレードパタンの累積処理を一例とし
てあげたが、Ｎグレードパタンの隣接フレーム間の変化
値の累積処理とする場合も減算器を追加するだけで容易
に実現されうる。第15図は本発明を用いた音声認識装置の一実施例を示
すブロック図である。入力音声151、LPF、ADC152は前述
第10図の入力音声１、LPF、ADC2と同じであり、音声分
析部153は音声区間検出部３と音声特徴パタン抽出部４
とを一緒にしたものである。距離計算部154で入力音声1
51自身あるいは入力音声と標準パタンメモリ156から読
み込まれた標準音声の特徴パタン間の距離が算出され
る。距離計算部154は前述第13図で詳細に説明したフレ
ーム間相関計算部と同様に構成される。セグメンテーシ
ョン部155では、入力音声自身間の距離行列情報を入力
とし、本発明の定常部区間のセグメンテーションが実行
される。構成については第14図で詳細に示した。次に、
照合部157では入力音声と標準音声との照合がなされ
る。この際、セグメンテーション部で得られたセグメン
テーション情報をもとに時間構造も含めた全体での照合
値（総距離）が算出される。判定部158にて標準パタン
ごとの総距離値の大小関係をもとに、入力音声がどの標
準音声に最も以ているかの判定がなされ、認識結果を出
力する。照合部157は例えば連続NL（Non Linear）マッ
チング法（公知例、連続DP法、特開昭55−2205号公報の
改良）による回路で構成され、判定部158は単純な大小
比較器で構成される。〔発明の効果〕本発明によれば、入力音声の定常部区間と特定の音韻
（例えば母音）区間の検出が確実にできるので、少なく
とも入力音声の音節単位へのセグメンテーションが確実
にできる効果がある。さらに処理のアルゴリズムが容易
でかつ処理量も従来の方式よりも少ないという効果があ
る。

【図面の簡単な説明】第１図は本発明の処理フローを示す示、第２図から第６
図までは本発明の主点である定常部区間検出、母音部区
間検出、統合処理の概略処理フローと詳細なフローチャ
ートを示す図、第７図から第９図は本発明による処理の
実施例を示す図、第10図は本発明の一実施例を示すブロ
ック図、第11図から第14図は本発明の各ブロックの一実
施例を詳細に示す図、付録Ａから付録Ｄは本発明の具体
的プログラムを示す図、第15図は本発明を用いた音声認
識装置を示すブロック図である。７……セグメンテーション 73……定常部区間検出部 74……音韻区間検出部 75……区間統合処理部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭53−128905（ＪＰ，Ａ) 日本音響学会講演論文集（昭和60年９月）１−４−20，ｐ．39〜40

Claims

(57)【特許請求の範囲】１．音声を入力する手段と、所定時間ごとに入力音声の
特徴パターンを抽出する特徴パターン抽出手段と、上記入力音声のフレーム間相関（距離）値をＮ段階で表
現した濃淡パタンの（ｉ、ｉ）点を始点とした三角形の
面積に基づいて所定区間を検出する手段と、上記所定区
間に基づき上記入力音声の特徴パターンと標準パターン
とを照合する手段と、上記照合結果の判定を行う手段と
を備えた音声認識装置において、上記所定区間は定常部
区間であることを特徴とする音声認識装置。