JPS6029796A

JPS6029796A - 音声認識装置

Info

Publication number: JPS6029796A
Application number: JP58138614A
Authority: JP
Inventors: 潤一郎藤本
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1983-07-28
Filing date: 1983-07-28
Publication date: 1985-02-15

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技」し１厨−・本発明は、音声認識装置に関する。

丈米抜檻　・近年、音声認識装置のようにパターンの類似度又はそれ
に準するものを計算し、そｉシによってｄ、３識結果生
選、出する装置が種々前えらオしている。ところで音声
を取り扱う場合、このようなパターンの類似度を叶算末
る上で二つの問題点がある５、・つは発声速度の相違か
ら同じ単語音声パターンでも時間長が異なり、そのまま
パターンの比較をして類似厚の計算ができないこと、他
は話者が変わるとホルマント周波数が変化するため話者
間の差が太き（なってしまうことである。現在部名に対
して最も広鴫使われている方法として動的計画法（ＤＰ
）楊よるパターンマツチングがある。

第１図によりＤＰ、マツチングについて簡単に説明する
。パターンｊ（ｔ　）とｇ（ｔ）の始端、終端を一致さ
せ１、かつＩＰ、線形な時間軸方向の伸縮をゆるしてマ
ツチン、グを行ない類似度をめる場合である。ｆ（ｔＬ
ｇ（ｔ）は一定間隔でサンプリングされたディスクリー
トな量となっており、各々のサンプル点をｍｌ　、　ｍ
２　、　”’ｍ７ｙ　、　ｎｌ　、　ｎ２　、　”’ｎ
、ｙとすると、二つのパターンはｆ（ｍｌ）、ｆ（ｍ２
　）＋　−ｆ（ｍ、ｖＬ’　ｇ（ｎ＋　Ｌ　ｇ（ｎ２Ｌ
　−ｇ（ｎ７Ｖ）で表わされる。パターンの始端ｆ（ｍ
＋）とｇ（ｎｔ）、及び終端ｆ（ｍ、ｖ）とｇ（ｎ／／
）が対応づけられるものとし、他の点は両パターン間の
距離が最小になるように対応づける。そのためにはｆ　
（ｍ）の中の一点ｆ（ｍｉ）はｇ（ｎｉ）近傍の全ての
点に対応づけてみてその中から距離を最小にするような
点を選んで対応づける。その結果第１図に八にて示すよ
うな傾斜がまり、これに従ってｆ（１）をｇ（ｔ）に写
影して類似度が計算できる。ところがこの方法は、演算
量が非常に多く、またパターンの時間長の変動は吸収す
ることができるが周波数上の変動を吸収することができ
ないという欠点がある。

目　的本発明は斯かる事情に鑑みてなされたもので、少ない計
算量で音声の時間変動を吸収してノ（ターンの照合をす
る音声認識装置を提供しようとするものである。

構　成本発明の構成について、以下、実施例に基づいて説明す
る。

先ず、例を引きながら本発明の詳細な説明する。

ある話者が発声した単語”５ｉｚｅ”のパターンを第２
図に示す。この図は横軸に周波数、縦軸に時間をとって
’５ｉｚｅ”と発声した時のスペクトル分布を濃淡で表
わしたものであり黒く見える程レベルが大きい。周波数
は左側から右へ高くなり、２５０Ｈｚ−６，３に’Ｈｚ
を対数等間隔で１５等分しである。同じ話者が同じ単語
を別の機会に発声した例を第３図に示す。図から明らか
なように両者は時間軸方向への長さが異なっている。

我々が発する音声を特徴づけるものにホルマントがある
。或いはスペクトルのローカルピークという概念〔音響
学会誌第３２巻１号（１９７６）第１２〜２３頁〕を用
いても良いが、いずれにしても言語を発声するために我
々は声道の形態を変化させ、その影響が音声スペクトル
上にローカルピークとして現われる。従って、このよう
なローカルピークの時間変化には発せられた言語の特徴
が現われている。そこでローカルピークの時間変化を表
わす時間−周波数パターン（以下ｔｉｍｅ−ｓｐｅｃｔ
ｒｕｍ　ｐａｔ’ｔ’ｅｒｎ、略してＴ。

Ｓ、Ｐと称する）の比較によって発せられた言語を認識
することを考える。第２図、第３図に示したどちらのＴ
、Ｓ、Ｐも冒頭の１’　Ｏ−１５ｍ　ｓが／Ｓ／、次の
］、　ＯＯｍ　ｓ位が／　ａ　／、続＜　１０　ｍ　ｓ
弱が／１／でその後の数＋ｎ　ｓが／１．／、最後が短
く／ｕ／を表わすパターンである。ところで図に示され
たような時間長の変化の他に発声者の差がピークの周波
数変化として現わＪしるが、そのどちらも極端なもので
はない。そこで二つのパターンを照合する場合に、周波
数変動と時間変動の幅を考慮して、一方のパターンの幅
ば′広（とっておき、他方のパターンは、幅のある線図
形から線の特徴を一佑１１山士工に上爪−っ哄東ス★屈
伯ル凋−１−レっプ艷のほぼ中央近傍の点又は中心線を
取り出してかＪ′）照合を行なう。この際１時間軸方向
も幅を狭めておくことが望ましい。こうすることによっ
て、一方のパターンの時間、周波数の両軸が変動しても
細線化した細い線パターンは幅の広いパターンからはみ
出す・ことなくマツチングがとれる。

以上のような原理に基づく本発明の音声認識装置の一実
施例を第４図及び第５図に示す。

第４図において、１はマイクロフォン、２はスピーカ、
３は増幅器（アンプ）、４はフィルタＩＩＹ、５は音声
区間切り出し９部、６は辞書部、７は照合部、８は最大
類似度算出部、９は結果表示部、Ｓｌ、Ｓ２はスイッチ
で、最初に、１９　ＩＱパターンを辞■部に登録する方
法について説明する。まず、スイッチＳ１を閉じ、スイ
ッチＳ、７を辞書側にしてマイク１に向って発声する。

マイクｌによって収集された音声信号は２分され、一方
はフイルダ群４を通って周波数分析され、他方はスイッ
チ”′Ｓ１を通して増幅され、スピーカ２からマイクｌ
に向って再生される。その再生音は再びマイク１へ達し
て音声信号に加えられる。このため、フィルタ群４の入
力は発声された音声とスピーカ２を通して入力された時
間遅れ分の加わった再生音の和となる。つまり、第２図
の如き時間・周波数パターンが時間方向に幅をもつパタ
ーンとなる。ただし。

増幅器３の利得を大きくとると、発声された量がマイク
　−アンプースピーカのループを回り、発振状態になり
、いわゆるハウリングを引き起こすので、この様なこと
がないようにしなければならない。このようにして辞書
”登録音声の全てを時間幅を有するパターンとして辞書
に登録しておく。

次に、認識を行なう場合について説明する。この場合は
、スイッチＳ１を開き、スイッチＳ２を照・　１戸金側にしてマイクに向って発声する。すると、照合部７
へは第２図の如きパターンが伝達される。

ここで、このパターンと辞書に登録された各パターンの
重ね合わせを照合部７において行ない重なりの度合によ
って未知入カバターンと＃書中の各パターンとの類似度
をめる。そして、その類似度を持つものが認識結果とし
て表示部９に表示される。このようにすると、先に述へ
たように、一方のパターンが時間方向に幅が広いため発
声音声が時間内に変動してもこの幅の範囲内であればそ
れを吸収することができる。なお、以−にには時間的な
幅をもつパターンを辞店：登録した例を示したが、逆に
、幅を持たないパターンを登録し、未知人カバターンに
時間幅を持たせても良く、その場合はスイッチＳ１の開
閉は前記と逆になる。

第５図は、本発明の他の実施例を示す構成図で、図中、
１０は比較器、１１は加算器を示し、その他、第４図と
同様の作用をする部分には第４図ど同一の参照番号をイ
リしである。この第５図に示【７た実施例においては、
辞書部りに際して、スイッツＳ１を閉じ、スイッチＳ７
を辞書側にして発声する。発声さ、１もだ音声はフィル
タｉｌＹ’Ｉを通過して周波数に分析された後比較器１
０によっであるレベルより大きい部分だけをとり出し、
それ以下を０とする。この時、各フィルタ出方は加算器
１１によって加算されて再び時間信号に戻されて増幅さ
れスピーカ２から発せられる。これによって前記と同様
の時間幅を有するパターンとなる。第４′図との差異は
第４図の方法が発声された全ての音声をフィードバック
するのに対し、第５図の方法ではレベルの大きい必要な
成分だけをフィードバックすることになる。辞書レジス
ターを少なくするために２値化してデータを扱うような
場合は第５図の方法が適している。なお、第５図の方法
での認識の仕方は第４図と等しい。どちらの場合も動的
ｎ１区法の如き多量の演算をすることなく音声の時間変
動を吸収すること゛ができる。

−仇一一釆以」−の説明から明らかなように、本発明によると、少
ない演ＴＩ景で音声の時間変動を吸収したパターン照合
が可能となる。

【図面の簡単な説明】

第１図は、ＤＰマツチングの説明図、第２図及び第３図
は、時間−周波数パターンを示す図、第４図及び第５図
は、それぞれ本発明の実施例を示す図である。 ■・・マイクロフォン、２・スピーカ、３・・・増ｌ器
、４・・・フィルタ群、５音声区間切り出し部、に・・
・辞書部、７・・・照合部、８・・最大類似度算出部。９・・・結果表示部、ｌｏ・・比較器、Ｉ　Ｉ　力１０
γｉ！Ｋ　、。第１図第４図

Claims

【特許請求の範囲】

（１）、音声収集部と、収集された信号を周波数分析す
る手段と、音声の特徴パターンを格納する部分と、入力
された音声の特徴パターンと前記格納部に格納されたパ
ターンとを照合する部分とを有する音声認識装置におい
て、入力音声を収集し、増幅し、９！音体から前記音声
収集部に向けて発音する手段を有することを特徴とする
音声認識装置。
（２）、音声収集部と、収集された信号を周波数分析す
る手段と、音声の特徴パターンを格納する部分と、入力
された音声の特徴パターンと前記格納部に格納されたパ
ターンとを照合する部分とを有する音声認識装置におい
て、入力音声を収集し。周波数分析した後の各周波数成分のうち所定値よりも大
なる成分を増幅し１発音体から前記音声収集部に向けて
発音させることを特徴とする音声認識装置。