JPS58190999A

JPS58190999A - 音声認識装置

Info

Publication number: JPS58190999A
Application number: JP7362282A
Authority: JP
Inventors: 片山　泰男; 菅田　一博; 一宏津賀; 楠原　久代; 英一坪香
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1982-04-30
Filing date: 1982-04-30
Publication date: 1983-11-08

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は構成が簡単で安価な音声認識装置に関する。

音声認識装置には、多数の帯域フィルタその他によるス
ペクトル分析手段を用いた大規模なものが多く、構成が
複雑でありコストも高い。一方、認識する単語数は少く
ても、構成が簡単で安価な音声認識装置に対する需要も
多い。

音声認識の基本的な方法は、人力音声信号を一定時間毎
に例えばフィルタバンク等を用いて特徴パラメータを抽
出し、前記入力音声信号を特徴パラメータの時系列に変
換し、同様にして認識語案として予め特徴パラメータの
時系列として登録されている各標準パターンと比較し、
最も順似度の高い単語を認識結果とするものである。

簡単に抽出でき波形の周波数情報をとらえる特徴パラノ
ー２夕としては、例えば音声波形の零交差数がある。こ
の零交差数は音声の音量に全く依存しないという有利な
特徴を有している。

第１図に零交差数をパラメータとする音声認識装置の従
来例を示す。図において、１は音声信号入力端子、２は
高域を強調するだめのブリエンファ／ス回路、３はプリ
エンファシスされた音声信号の一定時間毎の零交差数を
計数し、入力音声信号を零交差数の系列に変換する零交
差検出部、４は得られた零交差数系列の長さを一定にし
、前記時間軸の伸縮による影響を取り除くための時間軸
正規化部、６は予め認識語常として各単語が零交差数の
時系列の形で登録されている標準パターン記憶部、６は
時間軸正規化部４の出力と標準パターン記憶部６に登録
されている標準パターンの各々とのパターンマツチング
を行うパターンマツチング部、７はパターンマツチング
部６の出力から入力音声が何であったかを判定する判定
部、９は認識結果の出力端子である。この装置における
音声認識方法は、入力信号の零交差数のみをパラメータ
とする認識方法である。

いまプリエンファシスされた入力音声信号が第３図ａに
示すような波形であるとすると、その零交差波は同図Ｃ
に示すような波形となる。この場合、入力音声信号の１
０で示す部分の情報が欠落してし１う。このような微妙
な波形上の特徴は入力信号そのものの零交差をとるのみ
では得られない。従って、このような波形上の相違によ
る音声は、このような方法では識別できないことになる
。

ところで入力音声信号を１回数分、２回数分した零交差
波は原波形の極点、変極点の位置及び個数を示している
。したがってこれらの微分零交差情報をつかえば、もと
の入力音声信号の波形をより精密に知ることができる。

本発明は以上の点に鑑み、入力音声信号そのものの零交
差を取るだけでは得られない微妙な波形上の特徴（高域
、小振幅の成分）を取り入れ、認識率の向上を図った音
声認識装置を提供することを目１勺とする。

（以　下　余　白）以下、本発明の実施例について第２図、第３図を用いて
説明する。

第２図は本発明の音声認識装置の一実施例を示すブロッ
ク図である。図において、１は音声信号入力端子、２は
高域を強調するだめのプリエンファシス回路、３１はプ
リエンファシスされた音声信号の一定時間毎の零交差数
を計数し、入力音声信号を零交差数の系列に変換する零
交差検出部、４１は得られた零交差数系列の長さを一定
にし、前記時間軸の伸縮による影響を取シ除くだめの時
間軸正規化部、６１は予め認識語集として各単語が零交
差数の時系列の形で登録されている標準パターン記憶部
、６１は時間軸正規化部４１の出力と標準パターン記憶
部６１に登録されている標準パターンの各々とのパター
ンマツチングを行うパターンマツチング部である。８は
プリエンファシス回路２の出力を微分する微分回路、３
２は微分回路８の微分出力を零交差数の系列に変換する
３１と同様な零交差検出部、４２は零交差検出部３２で
得られた零交差数系列の長さを一定にし、前記時間軸の
伸縮による影響を取り除くだめの４１と同様な時間軸正
規化部、６２は、予め認識語型として各単語が微分処理
された後の零交差数の時系列の形で登録されている標準
パターン記憶部、６２は時間軸正規化部４２の出力と標
準パターン記憶部６２に登録されている標準パターンの
各々とパターンマツチングを行うパターンマツチング部
である。７０はパターンマツチング部６１と６２の出力
から入力音声が何であったかを判定する判定部、９は認
識結果の出力端子である。

零交差検出部３１．３２は具体的には電圧比較回路で構
成され、一定時間内の入力信号の極性の変化数を計数し
、その数値系列を出力するものである。例えば１０　ｍ
　Ｓｅｃ毎にその時間内における零交差回数を求めれば
、音声の場合十分である。

時間軸正規化の最も簡単な方法は、線形の伸縮を行うこ
とである。本実施例においては、プリエンファシス回路
２の出力（以下第１の信号という）と微分回路８の出力
（以下第２の信号という）のそれぞれに対して前記の如
く求められた１　０　ｍ　ｓｅｃ毎の数値列を、等間隔
でピックアップして一単語当り３２の数値の列に変換す
る。例えば、５００ｍ　ｓｅｃの音声に対しては、零交
差検出部３１．３２にて６ｏの数値の列が得られるが、
これを１６の数値の列とする場合、時間軸正規化部４１
において３フレームおきに２つ、残り１４を２フレーム
おきに前記６ｏの数値列からピックアップすれば、前記
第１の信号に対して１６の数値の列が得られる。第２の
信号についても同様に時間軸正規化部４２の出力に１６
の数値が得られる。このようにして、一つの単語が３２
次元のベクトルに変換されることになる。なお６ｏの数
値の列から１６の数値の列を得る方法として、内挿法を
用いることもできる。

標準パターン記憶部６１．６２には認識すべき単語に対
して、上記音声信号についての処理と同様な処理をして
得られた各単語に対するベクトルが予め登録されている
。

パターンマツチング部６１．６２の動作は、時間軸正規
化部４１．４２のそれぞれの出力ベクトルと標準パター
ン５１　、Ｅ５２の各ベクトルとの距離をそれぞれ計算
するものである。ｉ番目の標準パターンに対し、前記第
１の信号に対するペクト１　　　１　　　　　　　　　
１ルをｂｉ＝（ｂ＋、ｂ２．・・・・・・１ｂｉ６）ｌ前
記第２の信号に対するベクトルをｂｉ　−（ｂ’ｓ　、
　ｂＸ　　。

′１・・・・、ｂｉ６）、時間軸正規化部４１．４２の出力
ベクトルをそれぞれａ＝（ａｌ、ａ２．・・印・、亀１
６）。

ａｌ、ａ２．・・・・・、ｉＬ＋６）とするとき、両者
の距離を寸だけ等と定義できる。ｄｉは前記３２次元ベクトルの間の市
街距離、ｄ１″は前記３２次元ベクトルの間のユークリ
ッド距離、ｄｌ　は前記３２次元ベクトルをそれぞれ前
記第１の信号と前記第２の信号の１６次元ベクトルに分
け、それぞれの信号に対するユークリッド距離の和とし
て求めるものである。

本実施例のような簡易な装置においては、ｄｌを距離と
するのが計算量から言っても実際的である。

判定部７０における判定は、ｋＮｌなるすべての１に対
し、ｄｋ＜ｄｌを与える標準パターンに対応する単語を認識結果とする
。

第３図（ａ）はプリエンファシスされた入力音声信号、
同図（ｂ）はその−階微分された信号を示している。第
３図（ｃ）　、　（ｄ）ｉｄそれぞれ前記両信号の零交
差波を示している。第３図６１１）より明らかなように
、微分することによって入力音声信号の１０で示す部分
の波形上の特徴（原信号波形の極大極小の形で存在する
成分）が零交差波に反映される。

本実施例においては、零交差検出部３１．３２により入
力音声信号そのものの零交差数の系列と、入力音声信号
の微分信号の零交差数の系列を求め、時間軸正規化後、
パターンマツチング部６１．６２により、それぞれの零
交差数の系列に対してパターンマツチングを行うので、
認識率を向上させることができる。

なお前記実施例においては時間軸正規化の方法として線
形の伸縮を行っているが、バタン比較法として周知の動
的計画法により時間軸を非線形に伸縮する方法を用いて
もよい。

まだ前記実施例においては、入力音声信号そのものの零
交差数の系列と、入力音声信号の１階微分信号の零交差
数の系列すなわち原信号の極大極小点情報を用いたが、
入力音声信号の２階微分信号の零交差数の系列すなわち
変極点情報を用いることもできる。またより高暗の微分
信号の零交差数を用い、入力音声信号のより微妙な波形
上の特徴を用いるようにしても良い。また１階微分信号
と２階微分信号というように複数の微分信号の零交差数
を用いるようにすれば、認識率をより向上させることが
できる。

また前記実施例においては、特徴パラメータとして、一
定時間内の零交差数を用いたが、隣り合う零交差点の間
隔を測定し、単語毎にその零交差間隔の頻度分布を標準
バタンとして登録しておき、認識すべき入力単語に対し
ても同様にして零交差間隔の頻度分布を求め、その分布
の形が前記標準パターンの何れの分布に最も類似してい
るかということによって、認識を行う方法がある。この
場合も、入力音声そのものに対する前言己分布のみでな
く、その１〜ｎ階微分した信号に対する零交差間隔の分
布も用いることにより、前記実施例で述べたのと同様の
理由により認識率を上げることができる。

さらに、前記実施例においては、予め登録しである標準
バタンと入力バタンを比較して認識する方法について述
べたが、識別函数を用いる方法もある。

すなわち、入力）奇声信号そのものの零交差数を前記実
施例と同様に、１つの単語を１６次元のベクトルで表切
、することにすれば、ある単語は１６次元ベクトル空間
の１つの点で表すことができる。

そこで、認識語蕾となるべき単語を多数の話者に発話し
てもらい、各単語に対応する点が分布している前記ベク
トル空間内の各単語に対する領域を分離する識別函数を
予め求め、それを記憶しておけば、認識すべき入力単語
に対応する前記ベクトル空間内の点が、前記領域の何れ
に属するかをこの入力ベクトルに対する前記識別函数の
値を求めることにより決定することができる。この領域
に対応する単語がすなわち認１識結果としてＪジえられ
る単語である。この識別函数による方法は周知の方法で
あるが、この方法にも、１〜ｎ階の微分信号に対する零
交差数を特徴パラメータとして用いることにより認識率
を向上させることが可能である。すなわち、前記実施例
のように、入力音声そのものの零交差数と、その１階微
分信号の零交差数を特徴パラメータとして用いる場合は
、各単語を入力音声そのものから得られた１６の零交差
数と、その微分信号から得られた１６の零交差数の合計
３２の零交差数を要素とする３２次元のベクトルに対応
させ、３２次元のベクトル空間において、前記識別函数
法を適用すればよいことになる。

以−ヒのように本発明の音声認識装置は入力音声信号と
その微分信号の零交差数を用いて音声認識を行うよう構
成したので、簡単な構成で認識率の向上を図ることがで
き、その実用的価値は高い。

【図面の簡単な説明】

第１図は従来の音声認識装置の構成を示すブロック図、
第２図は本発明の一実施例の音声認識装置の構成を示す
ブロック図、第３図（ａ）〜（ｄ）は同実施例の動作を
説明するための信号波形図である。８・・・・・・微分回路、３１．３２・・・・・・零交
差検出部、６１．５２・・・・・・標準パターン記憶部
、６１．６２・・・・・・パターンマツチング部、７ｏ
・・・・判定部。代理人の氏名　弁理士　中　尾　敏　男　ほか１名第１
図５第２図　　　　　　　、。、５２

Claims

【特許請求の範囲】

人力音声信号の１階、２階、・・・・・、ｎ階の微分信
号のうち少なくとも１つの微分信号を得る微分回路と、
入力音声信号および前記微分回路の出力である微分信号
の零交差数まだは零交差間隔を検出する零交差検出部と
、前記零交差数または零交差間隔を特徴パラメータとし
て用い入力名声信号の識別を行う識別手段とを備えた音
声認識装置。