JPS58190998A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS58190998A
JPS58190998A JP7361682A JP7361682A JPS58190998A JP S58190998 A JPS58190998 A JP S58190998A JP 7361682 A JP7361682 A JP 7361682A JP 7361682 A JP7361682 A JP 7361682A JP S58190998 A JPS58190998 A JP S58190998A
Authority
JP
Japan
Prior art keywords
zero
crossing
series
signal
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7361682A
Other languages
English (en)
Other versions
JPS6313560B2 (ja
Inventor
英一 坪香
楠原 久代
真弓 和昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP7361682A priority Critical patent/JPS58190998A/ja
Publication of JPS58190998A publication Critical patent/JPS58190998A/ja
Publication of JPS6313560B2 publication Critical patent/JPS6313560B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は構成が簡単で安価な音声認識装置に関するもの
である。
近年普及しつつある音声認識装置は多数の帯域フィルタ
その他によるスペクトル分析手段を用いた大規模なもの
が多く、構成が複雑でありコストも高い。一方、認識す
る単語数は少くても、構成が簡単で安価な音声認識装置
に対する需要も多い。
音声認識の基本的な方法は入力音声信号を一定時間毎に
例えばフィルタバンク等を用いて特徴パラメータを抽出
し、前記入力音声信号を特徴パラメータの時系列に変換
し、同様にして認識語☆rとして予め特徴パラメータの
時系列として登録されている各標準パターンと比較し、
最も類似度の高い弔語を認識結果とするものである。
このときの重要な問題の一つはパターンマツチングの方
法である。すなわち、同一の話者が同じ単語を発声して
もその音声の持続時間は一定でなく、時間軸の伸縮があ
る。したがって、予め登録しである各標準パターンと入
力単語と比較するとき、標準パターンと入カバターンと
の時間軸上の対応する点をいかに合わせるかが重要な問
題とな疋 る。これを伜確に行う方法としては動的計画法により時
間軸を非線形に伸縮する方法が広く知られている。確か
にこの方法によれば、非常に高い認識率が得られ、現在
のところ最良の方法の−っであると考えられる。しかし
、この方法は処理が複雑であって、4ビット程度のマイ
クロコンピュータで数語程度の認識のみを行うごく簡易
な音声認識装置に適用するには処理時間もかかり過ぎる
し、また、そのような用途には、それ程精密なパターン
マツチング方法は不必要である。
そこで第1図に示すような簡単な構成により、数語程度
の認識のみを行なう装置がある。以下第1図を参照して
、そのような装置の従来例を説明する。
第1図は零交差数をパラメータとする音声認識装置のブ
ロック図である。同図において、1は音声信号入力端子
、2は高域を強調するプリエンファシス回路、3はプリ
エンファシスされた音声信号の一定時間毎の零交差数を
計数して入力音声信号を零交差数の系列に変換する零交
差検出部、4は得られた零交差数系列の長さを一定にし
て前記時間軸の伸縮による影響を取り除く時間軸正規化
部、6は予め認識語常として同様な処理を施こされた各
単語が零交差数の時系列の形で登録されている標準パタ
ーン記憶部、6は時間軸正規化部4の出力と標準パター
ン記憶部6に登録されている標準パターンの各々とのパ
ターンマツチングを行つハターンマッチング部、7はパ
ターンマツチング部6の出力から大刀音声が何であった
かを判定する判定部、9は認識結果の出力端子である。
この方法は入力信号そのものの零交差数のみをパラメー
タとする認識方法であって、これだけでもがなりの認識
を行なうことができるものであるが、やはり類似した音
声には誤認識を注じる。第2図はこのような事情を説明
する波形図である。
第2図1alを入力音声信号波形であるとすると、その
零交差波は第2図LC)のようになる。明らかにこの場
合は入力音声波(a)の10で示す部分の情報は欠落し
ており、このような微妙な波形上の特徴は入力信号その
ものの零交差をとるのみでは得られない。したがって、
このような波形上の相違による音声はこのような方法で
は識別できないことになる。
一方、第2図(b)は同図(a)を微分した波形であシ
、第2図(d)はその零交差波である。この図から明ら
かなように、第2図4a)の波形を微分することによっ
て、前記の微妙な波形上の特徴を零交差波に反映させる
ことができるのがわかる。
本発明は上記欠点に鑑み、入力音声信号そのものの零交
差数の系列の他に、入力音声信号の微分信号の零交差数
の系列も用いることにより、認識率を上げるとともに、
例えば4ビット程度のマイクロコンピュータで実現でき
、入力音声信号とその微分信号の零交差数を特徴パラメ
ータとする数単語程度の音声認識を行°うご〈簡易な音
声認識装置に適用して、有効なパターンマツチングを行
なうことができるものである。
以下本発明の一実施例について、図面を参照しながら説
明する。
第3図は本発明の一実施例における音声認識装置のブロ
ック図である。同図において、1は音声信号入力端子、
2は高域を強調するプリエンファシス回路、31はプリ
エンファシスされた音声信号の一定時間毎の零交差数を
計数し、入力音声信号を零交差数の系列に変換する零交
差検出部、41は得られた零交差数系列の長さを一定に
して前記時間軸の伸縮による影響を取り除く時間軸正規
化部、61は予め認識語葉として同様な処理を施こされ
た各単語が時系列の形で登録されている標準パターン記
憶部、61は時間軸正規化部41の出力と標卑パターン
記憶部51に登録されている各々の標準パターンとパタ
ーンマツチングラ行つハターンマッチング部、8はプリ
エンフアシス回路2の出力を微分する微分回路、32は
微分回路8の微分出力を零交差数の系列に変換する31
と同様な零交差検出部、42は零交差検出部32で得ら
れた零交差数系列の長さを一定にして前記時間軸の伸縮
による影響を取り除く41と同様な時間軸正規化部、5
2は前記微分信号に対し以上のような処理と同様な処理
が施こされた各単語が時系列の形で登録されている61
と同様な標準パターン記憶部、62は時間軸正規化部4
2の出力と標準パターン記憶部62に登録されている各
々の標準パターンとパターンマツチングを行うパターン
マツチング部、70はパターンマツチング部61と62
の出力から入力音声が何であったあ1を判定する判定部
、9は認識結果の出力端子である。
なお零交差検出部31.32は具体的には電圧比較回路
で構成され、一定時間内の入力信号の極性の変化数を計
数し、その数値系列を出力するものである。例えば10
 m5ec毎にその時間内における零交差回数を求めれ
ば、音声の場合十分であ −る。
さて時間軸正規化の最も簡単な方法は線形の伸縮を行う
ことである。本実施例においてはプリエンファシス回路
2の出力(以下第1の信号という)と微分回路8の出力
(以下第2の信号という)のそれぞれに対し前記の如く
求められた1 0 rnsec毎の数値列を等間隔でピ
ックアップして一単語当シ32の数値の列に変換する。
例えば、500m5ecの音声に対しては、零交差検出
部31゜32にて60の数値の列が得られるが、時間軸
正規化部41において60−;16=3余り2より3フ
レームおきを2つ、残りを2フレームおきに前記60の
数値列からピックアップすれば、前記第1の信号に対し
て16の数値の列が得られ、第2の信号についても同様
に時間軸正規化部42の出力に16の数値が得られる。
このようにして、一つの単語が32次元のベクトルに変
換されることになる。
標準パターン記憶部51.52には認識すべき単語に対
して上記と同様な処理をして得られた各単語に対するベ
クトルが予め登録されている。
パターンマツチング部61.62の動作は、時間軸正規
化部41.42のそれぞれの出力ベクトルと標準パター
ン61.52の各ベクトルとの距離をそれぞれ計算する
ものであって、i番目の標準パターンに搦\し、前記第
1の信号に対するベクトルをbj −(”j + b2
 +・・・・・・r ”+6 )、前記第2の信号に対
するベクトルをb□−(bl、b2.・・・・・・。
”+6)、時間軸正規化部41.42の出力ベクトルを
それぞれ、”−(aI + a21・・・・・+”+6
)+” = (a′1+ ;2 +  ・・・・・Ia
’l)とするとき、等を両者の距離と定義できる。di
は前記32次元ベクトルの間の市街距離、diは前記3
゛2次元ベクトルの間のユークリッド距離、di′は前
記32次元ベクトルをそれぞれ前記第1の信号と前記第
2の信号の16次元ベクトルに分け、それぞれの信号に
対するユークリッド距離の和である。
本実施例のような簡易な装置においては、di  を距
離とするのが計算量から言っても実際的である。
判定はk)iなるすべてのiに対し、 dk<cii を与える標準パターンに対応する単語を認識結果とする
以上のようなパターンマツチングにおいて生ずる問題点
について以下述べる。
第4図は″トーキヨウ”という音声を入力した場合の各
フレームにおける零交差回数を図示するものであって、
第4図(a)は前記第1の信号に対するもの、第4図ω
は前記第2の信号に対するものである。横軸は前記16
次元ベクトル各番号を示し、各フレームの生起する順番
に並んでいる。縦軸は各成分の大きさを示し、各フレー
ムに対応する零交差回数セある。実線は1回目に発声し
たとき、破線は21目に発声したときの結果である。
両者を比較すれば、第4図(a)は比較的揃っているが
、第4図(b)は1成分ずれていると見られる。
一般には、第4図(a)の場合も1成分ずれることは度
々ある。これは長く発声した場合と短く発声した場合に
す両者とも16の成分として、それぞれに対して均等な
間隔で数値をピックアップするためにしばしば生ずる現
象である。しかも、本実施例におけるように、前記第1
の信号に対する場合と、前記第2の信号に対する場合と
傾向が必ずしも同じではない場合がある。このようなこ
とが生すると実際には同じ単語を発声しているにもかか
わらず、両者の距離が遠くなってしまい、誤認識の原因
となる。この欠点を補う最も有力な方法は動的計画法に
よシ、時間軸の非線形伸縮を行ってパターンマツチング
を行う方法があるが、前記の如き欠点がある。
そこで本実施例では入カバターンを1成分前後にシフト
してマツチングを行うもので、しかも、前記第1の信号
と前記第2の信号についてそれぞれ別々に距離を求め、
その和によって、この入カバターンと比較の対象となっ
ている標準パターンとの距離とするものである。すなわ
ち、i番目の標準パターンを、前記第1の信号に対する
ものをbl、b2.・・・・・・1bj6.前記第2の
信号に対するものをbl7 + bl8 +・・・・・
・、b32とし、入カバターンを前記第1の信号に対す
るものを”I + a2 r・・・・・。
a、6、前記第2の信号に対するものをa17 s ”
18 +・・・・・・、a52とするとき、 を前記i番目の標準パターンと前記入カバターンとの距
離とするものである。ただし、m1n()は〔〕内の最
小値のことであシ、右辺第一項にi おいてはbo−bl、ao=a1、右辺第2項において
は”l 6 = ”+7 +’ ”+6 = ”+ 7
である。すなわち、系列間のパラメータの対応において
、一方をシフトしたとき、系列の両端に存在するパラメ
ータは比較すべき相手がなくなるが、この実施例では、
そのようなとき、頭部のパラメータは2回生ずるものと
し、尾部のはみ出たパラメータは無視している。
第4図の例で実線を標準パターン、破線を入カバターン
としたとき、これを求めてみれば、di=min (2
5,7了、85) 十min (31,28,58)=
 25 + 28 = 63 となる。この場合は前記第1の信号に対してはシフトせ
ず、前記第2の信号に対しては入カバターンを1つ左ヘ
シフトした場合に相当する。
以上のようなマツチング方法によ#)4ビット程度のマ
イクロコンピュータでも十分な速度で動作するかなシ確
度の高い音声認識装置が実現できたものである。
なお、系列間のパラメータの対応における頭部尾部の前
記実施例のような処理の他に、前記実施例とは逆に、頭
部のはみ出たパラメータは無視し尾部の足らざるパラメ
ータは最後尾のパラメータが2回生ずるとしてもよいし
、はみ出た部分は両方無視し、シフトしない場合も頭部
あるいは尾部のパラメータを無視するようにしてもよい
。あるいは距離を求めるべき両系列間の対応するパラメ
ータのみについて、その対応のさせ方をしたときの各パ
ラメータ間の距離の平均を両系列間の距離とする等種々
前えられる。
さらに、本実施例では、一方のパラメータの系列を+1
ずらせる場合を述べたが、一般には±にずらせることも
勿論考えられる。しかし、実験の結果では、本実施例の
ような構成においては±1ずらせる場合が最も良い結果
が得られたものである。
以上のように本発明は認識率を上げるとともに、例えば
数単語程度の音声認識を行なう際には4ビット程度のマ
イクロコンピュータを用いて音声認識を行なうことがで
き、その工業的価値は大なるものがある。
【図面の簡単な説明】
第1図は零交差数を特徴パラメータとする従来の音声認
識装置のブロック図、第2図は音声波形図、第3図は本
発明の一実施例における音声認識装置のブロック図、第
4図はパターンマツチング方法を説明する図である。 8・・・・・微分回路、31.32・・・・・・零交差
検出部、41.42・・・・・時間軸正規化部、51.
52・・・・・・標準ハターン記憶部、61.62・・
・・・・パターンマツチング部、70・・・・・・判定
部。 代理人の氏名 弁理士 中 〆 敏 男 音孔1夕第1
図 第2図 第3図 1

Claims (1)

  1. 【特許請求の範囲】 入力音声信号から一定時間毎に第1の零交差数を計数す
    る第1の零交差計数手段と、前記入力音声信号の微分信
    号から一定時間毎に第2の零交差数を計数する第2の零
    交差計数手段と、前記第1の零交差数の系列から一定間
    隔で一定数n(但し、nは整数)の零交差数を順次抽出
    するとともに、n個の零交差数の系列a1.a2.・・
    ・・・・、 anを得る第1の零交差系列手段と、前記
    第2の零交差数の系列から一定間隔で一定数nの零交差
    数を順次抽出し、n個の零交差数の系列an++ l 
    ”n+2+・・・・・・。 a2nを得る第2の零交差系列手段と、認識語粟として
    予め登録されている2n個の零交差数からなる各単語に
    桿応する各標準パター7と、前記入力音声信号から得ら
    れた前記入カバターンal+a2+・・・+ ”n +
     an++ 1・・・・・・+a2nとの距離を求める
    際、比較すべきi番目の標準パターンを扇、b2i。 ”n r bn+1+ l)n+21 ”’ ”’ +
     b2nとし、零交差数αと零交差数βに対して両者の
    距離をd(α、β)と表すとき、d(bj 、aj)+
     d(bj−に、aj )  +d(bj + aj 
    −k )のj = 1〜nに対するそれぞれの平均値あ
    るいは和の第1の最小値と、d (弓、 aj )。 a(b)−に、a3)、 d(b3 +a3−ic)の
    j=n+1゜〜2nに対するそれぞれの平均値あるいは
    和の第2の最小値を求める手段とを備え、前記第1の最
    小値と前記第2の最小値との和を前記i番目の標準パタ
    ーンと前記入カバターンとの距離゛とし、この距離が最
    小となる前記標準パターンに対応する単語を前記入力音
    声の認識結果とするようにしたことを特徴とする音声認
    識装置。
JP7361682A 1982-04-30 1982-04-30 音声認識装置 Granted JPS58190998A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7361682A JPS58190998A (ja) 1982-04-30 1982-04-30 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7361682A JPS58190998A (ja) 1982-04-30 1982-04-30 音声認識装置

Publications (2)

Publication Number Publication Date
JPS58190998A true JPS58190998A (ja) 1983-11-08
JPS6313560B2 JPS6313560B2 (ja) 1988-03-25

Family

ID=13523437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7361682A Granted JPS58190998A (ja) 1982-04-30 1982-04-30 音声認識装置

Country Status (1)

Country Link
JP (1) JPS58190998A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058191A (ja) * 2001-08-10 2003-02-28 Dainippon Printing Co Ltd 周波数解析方法および音響信号の符号化方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058191A (ja) * 2001-08-10 2003-02-28 Dainippon Printing Co Ltd 周波数解析方法および音響信号の符号化方法

Also Published As

Publication number Publication date
JPS6313560B2 (ja) 1988-03-25

Similar Documents

Publication Publication Date Title
JPS5844500A (ja) 音声認識方式
JPS5972496A (ja) 単音識別装置
JPS6128998B2 (ja)
JPS58190998A (ja) 音声認識装置
JPH04324499A (ja) 音声認識装置
JP2557497B2 (ja) 男女声の識別方法
JPS58190999A (ja) 音声認識装置
JPS63213899A (ja) 話者照合方式
JPH0546558B2 (ja)
JPS5977500A (ja) 単語音声認識方式
JPS59105697A (ja) 音声認識装置
JPS58209800A (ja) 音素判別方法
JPS58190997A (ja) 音声認識装置
JPS59195294A (ja) 音声パタ−ン比較装置
JPS61176997A (ja) 音声認識装置
JPS61252595A (ja) 音声認識処理方式
JPS62164100A (ja) 声帯特徴抽出装置
JPS6193499A (ja) 音声パタ−ン照合方式
JPS6026399A (ja) 単語認識装置
JPS59124388A (ja) 単語音声認識処理方式
JPH0316038B2 (ja)
JPS62111295A (ja) 音声認識装置
JPS59114600A (ja) 話者識別方式
JPS6069694A (ja) 語頭子音のセグメンテ−ション法
JPS59195296A (ja) 音声認識装置