JPH03145167A

JPH03145167A - 音声認識方式

Info

Publication number: JPH03145167A
Application number: JP1281873A
Authority: JP
Inventors: Jun Kametani; 亀谷　潤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1989-10-31
Filing date: 1989-10-31
Publication date: 1991-06-20
Anticipated expiration: 2013-05-28
Also published as: JP2760096B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明はパタン照合型の音声認識方式に関する。

［従来の技術］従来この稲の音声認識方式は、第２図に示す様な構成と
なっている。第２図において、１はマイクロフォン等の
音声人力部、２は入力される音声信号を無音区間から分
離する始終端検出部、３は音声信号からパタン照合に適
した特徴量を抽出する特徴量計算部、６は標準パタンと
抽出した特徴量の間でＤＰマツチング等を実行するパタ
ン照合部、７は登録された標準パタンを蓄積しておく標
準パタンメモリ部、１１はパタン照合の結果より上位の
認識処理を行なう上位認識部である。

［発明が解決しようとする課題］上述した従来の音声認識方式では、パタン照合の際に用
いられる特徴量として、メルケプストラム、ＬＰＣケプ
ストラム等のケプストラム系の特徴量またはバンドパス
フィルタ群の出力などが主に使用されて来た。しかしな
がらこれらの特徴量はすべて音声のスペクトル構造に基
づく特徴量であり１時間的に定常な過程に対しては音韻
の違いによる差異が明確に出るが１時間的に非定常な過
程に対しては音韻間の差がぼやけてしまうという欠点が
あった。

すなわち、従来の時微量は、母音の様に時間的に定常過
程と見なせるものについては音韻間の識別が容易である
が、子音や子音から母音または母音から子音への過渡区
間等の１時間的に非定常過程と考えなければならない区
間では音韻間の識別が困難となる。この結果＋　／　ｋ
ｉｚｊｕｔｕ／　（奇術）と／ｇｉｚｊｕｔｕ／　　（
技術）等の母音系列が似ている単語は、子音の違いが明
確に表われず、誤認識しやすい。この様に、従来の時微
量のみを用いた音声認識方式では、音声の非定常部分が
パタン識別の際にあまり寄与しておらず、ひいては認識
率が向上しない一因となっていた。

本発明は音声の非定常部分がパタン認識に寄与するよう
な音声認識方式を得ようとするものである。

［課題を解決するための手段］本発明の音声認識方式は、音声の定常部分と過渡部分に
着目し、パタン照合に使用する時微量として通常の特徴
とその差分特徴量を選択してパタン照合を行なうように
したものである。

すなわち本発明によれば、差分特徴量を計算する手段と
、差分特徴量の大小に応じて通常の時微量または差分特
徴量の一方を選択する手段と、差分特徴量を使ってパタ
ン照合を行なう手段と、通常の時微量によるパタン照合
結果および差分特徴量によるパタン照合結果の結合を行
なう手段を有し、子音および音韻の過渡部に対して差分
特徴量を母音の定常部に対しては通常の時微量を用いて
てパタン照合を行なうことを特徴とする音声認識方式が
得られる。

［実施例］次に、本発明について図面を参照して説明する。

第１図は本発明の一実施例の構成図である。音声入力部
１はマイクロフォン等を通じて入力される音声信号をデ
ィジタル化するユニットである。始終端検出部２は入力
された音声信号の前後にある無音区間から音声区間だけ
を分離するユニットである。特徴量計算部３は分離後の
音声信号から通常の時微量を計算するユニットである。

差分特徴量計算部４は特徴量計算部３で求めた時微量の
差分を計算するユニットである。特徴量選択部５は差分
特徴量計算部４で求めた差分特徴量の大きさを判定基準
にして通常の時微量によるパタン照合か差分特徴量によ
るパタン照合かを選択するユニットである。パタン照合
部６は通常の時微量によるパタン照合を行なうユニット
である。標準パタンメモリ部７は通常の時微量の時系列
で現わされる標準パタンを格納するユニットである。差
分パタン照合部８は差分特徴量によるパタン照合を行な
うユニットである。差分標準パタンメモリ部９は差分特
徴量の時系列で表わされれる標準パタンを格納するユニ
ットである。照合結果結合部１０はパタン照合部６およ
び差分パタン照合部８の各ユニットから出力される照合
結果を特徴量選択部５からの選択信号に基づき結合して
、連続したひとつの照合結果の系列に変換するユニット
である。

上位認識部１１は照合結合部１０からの出力系列に基づ
き単語レベル、語句レベルの認識を行なうユニットであ
る。

以下にこの実施例の動作を簡単に説明する。まず、話者
の発声した音声信号を含む入力信号は、マイクロフォン
等を通じて音声入力部１に入力される。音声入力部１に
おいて、入力信号はアナログ信号からディジタル信号に
変換され、次のユニットに送られる。

始終端検出部２に送られた入力信号は、数十〜数百側サ
ンプル毎にフレーム単位にまとめられ、フレーム内の平
均パワー、零交差回数等の情報に基づき、無音区間か音
声区間かの判定がフレーム単位で行なわれる。ここで音
声区間と判定された区間が順次特徴量計算部３に送られ
る。

次の特徴量計算部３において、送られて来た音声フレー
ムデータはフレーム単位でメルケブストラム分析等の従
来の方法で分析され、得られた時微量は次のユニットで
ある差分特徴量計算部４と特徴量選択部５に送られる。

差分特徴量計算部４は、受は取ったフレーム単位の特徴
量系列をリングバッハアに格納しておき、現在フレーム
の時微量と数フレーム前の時微量を用いて、次式の計算
式より現在フレームにおける差分特徴量を計算する。

この式において、Ｃ（ｋ）はに番めのフレームにおける
特徴ベクトルＱ、　　Ｃ（ｋ−ｎ）はに−ｎ番めのフレ
ームにおける特徴ベクトル量、Ｄ（ｋ）はに番めのフレ
ームにおける差分特徴ベクトル量。

ｎは差分を求める区間長に相当する遅延フレーム数、α
は差分特徴量に対する重み係数である。なお、ｋ＜ｎ＋
１に対するＤ（ｋ）は０（ゼロベクトル）と定義する。

差分特徴量計算部４で計算された各フレーム毎の差分特
徴量は特徴量選択部５に送られ、各フレーム毎に選択し
きい値θ差分特徴量の大きさ（ベクトルの場合はベクト
ルの絶対値）が比較され差分特徴量の大きさがθよりも
越えた区間については、差分特徴量を用いたパタン照合
が選択される。

この場合は、差分特徴量計算部４で計算された差分特徴
量がθを越え続けるフレームの間だけ差分パタン照合部
８に送られ、該当フレームにおける特徴量計算部３で計
算された通常の特徴量は、パタン照合部６には送信され
ない。また差分特徴量計算部４で計算された差分特徴量
がθ以下の場合は、該当フレームにおける差分特徴量は
差分パタン照合８に送信されず、代りに特徴量計算部３
で計算された通常の特徴量がパタン照合部に送られる。

パタン照合部６においては、特徴量選択部５から送られ
て来る連続したフレームの特徴量系列に対して、標準パ
ンタメモリ部７に格納されている定常母音標準パタンと
非線形マツチングを行ない。

その部分系列に最適に照合の取れた標準パタンのカテゴ
リ番号を照合結果結合部１０に送る。

また、差分パタン照合部８においては、特徴量選択部５
から送られてくる連続したフレームの差分特徴量系列に
対して、差分標準パタンメモリ部９に格納されている非
定常区間の標準パタンと線形マツチングを行ない、その
部分系列に最適に照合の取れた標準パタンのカテゴリ番
号を照合結果結合部１０に送る。差分パタン照合部８に
おいて非線形マツチングではなく線形マツチングを行な
うのは、音声信号の時間軸方向の伸縮は主に母音定常部
で起り子音や過渡区間では起きにくいので。

非線形マツチングによる無理なマツチングを防止するた
めである。

パタン照合部６と差分パタン照合部８から送られる部分
系列に対する照合結果は、照合結果結合部１０において
ひとつの系列にまとめられる。この別々に照合された部
分系列をひとつに結合するためには、特徴量選択部５か
ら送信されるフレーム番号とどちらの特徴量で照合を取
ったのかに関する情報を用いる。この情報から連続した
フレームの部分系列毎に候補カテゴリ番号を割付けて行
き、最終的にフレーム単位の特徴量系列を候補カテゴリ
番号の系列に変換する。候補カテゴリ番号系列は上位認
識部１１に送られ、ここで認識システムのタスクに応じ
て、音節単位あるいは単語単位の認識が行われる。

この認識方式における標準パタンの登録方法は以下の様
にして行なう。まず認識システムのタスクに応じて、離
散単語認識ならば単語単位１文章認識ならば語句中位で
発声した標準音声パタンを音声入力部１に人力する。標
準音声パタンは始終端検出部２で音声区間のみ分離され
、この際必要ならば視察で始終端フレームを同定し、特
徴量計算部３にてフレーム単位に特徴量を算出する。こ
の特徴量系列から差分特徴量計算部４にて差分特徴量を
計算する。この差分特徴量系列を特徴量選択部５に入力
して、差分特徴量の大きさが規定のθを越える区間の部
分差分特徴量系列を子音・過渡区間に対する標準パタン
、またθ以下の区間の部分特徴量系列を定常母音区間に
対する標準パタンとする。特徴量選択部５から照合結果
結合部１０に出力されるフレーム番号とどちらの特徴量
を選択したかの情報を基に、始終端検出部２からの出力
を観察でセグメンテーションを行ない２選択された各部
分区間の標準パタンにカテゴリ番号をラベリングしてい
く。このラベリング後の標準パタンを特徴量系列のもの
と差分特徴量系列のものとに分け、それぞれ標準パタン
メモリ部７と差分標準パタンメモリ部９に、カテゴリ番
号情報と共に格納する。

［発明の効果］以上説明したように本発明は２通常の音声認識に使用さ
れる特徴量の差分をパタン照合の際の特徴量として併用
し、差分特徴量がある一定の大きさを越える区間におい
ては差分特徴量を、差分特徴量がある一定の大きさ以下
の区間においては通常の特徴量を照合の基準として用い
る事により。

従来の特徴量のみ使用した場合に発生する。母音系列の
似た単語間の誤認識を減少することができるという効果
がある。

また、差分特徴量は音韻の時間的構造を反映するため、
子音や過渡区間等の時間的変化が聴覚的に寄与する音韻
の識別率を高く望めること、音韻系列の中で定常母音、
子音・音韻過渡区間に相当する部分系列に対して各標準
パタンを作成することにより、音節よりも短かい擬似音
素的な単位で音声認識ができるため、音声による文章認
識や大語量認識のシステムの下位レベルの認識部として
利用できるという効果がある。

【図面の簡単な説明】

第１図は本発明の概略構成図、第２図は従来の装置の概
略構成図である。記号の説明＝１は音声入力部、２は始終端検出部、３は
特徴量計算部、４は差分特徴量計算部。５は特徴量選択部、６はパタン照合部、７は標準パタン
メモリ部、８は差分パタン照合部、９は差分標準パタン
メモリ部２１０は照合結果結合部１１は上位し龜ム認識
部。

Claims

【特許請求の範囲】

１、差分特徴量を計算する手段と、差分特徴量の大小に
応じて通常の特徴量または差分特徴量の一方を選択する
手段と、差分特徴量を使ってパタン照合を行なう手段と
、通常の特徴量によるパタン照合結果および差分特徴量
によるパタン照合結果の結合を行なう手段を有し、子音
および音韻の過渡部に対しては差分特徴量を、母音の定
常部に対しては通常の特徴量を用いてパタン照合を行な
うことを特徴とする音声認識方式。