JPS58130396A

JPS58130396A - 音声認識装置

Info

Publication number: JPS58130396A
Application number: JP57012808A
Authority: JP
Inventors: 洋一竹林
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1982-01-29
Filing date: 1982-01-29
Publication date: 1983-08-03
Also published as: EP0085543B1; EP0085543A2; EP0085543A3; DE3364573D1; US4624010A; JPH036517B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕不発明は入力された音声係号のせ素を尚梢寝にｇ暉して
効率良く且つ経断的に上ｔｉｒ”、　ｋ　）”　１８甥
を１障できる祈声昭誠装−二ｖＣドする〔発明の技術的
背景〕従来、特定話者を対尿としたり自相程度の半飴ｇ鍬で９
丁、入力音声・ゼターンと、予め盆継された標準ノセタ
ーンとの率詣率位でのノイターン照合により、尚い！ｇ
敵率が得らｒＬるよ′）＆Ｌ　’／ｘっ゛（＠た。しか
し、数十単語ｔ−酩繊灼家としたり・あるいに不特定話
者を肘板とした音声誌隊では、単語坐位での餡鍼処理、
宇宙が非常ＶＣ囚録である。この為、音声の猶成登系で
ある音節や音素単位での嶋織を行い、しかるのちこれに
よって得られたｂ′曲情報と単略辞誓とを照合して単語
を略−ぜんとする廿声略陳鞍１幌の開発が強く望まれて
いる。％にこのような音声脳誠において、１繊の基本年
位全１素と１れは、理−的には２０柚＠程度のｉｔ系的
峰粕米を基本として、あらゆる音肖を認識することが―
１症となる。これ故、音声の分析やｉ塞防繊を数例に精
度良く行うかが極めてＮ要な課題となっている。

さて、酔声＃ｉ周知のように母音と子音との２柚類の材
木により惧敗さｔ’している。母音は比較的女定で持続
時間が長く、その％徴は時間的変化よりもむしろ周数数
スペクトルにより決にδれる・−力子音の％似に、母音
に軟べて伯号震化が早く、均阪畝スペクトルの動的ノリ
−ンによく机われる。

〔背象蚊甫の向龜点〕

ところが従来では、音声のが析帖米をフレーム（以下同
じ）°に分割し、ｌフレーム分の周数数スペクトル等の
特徴ノ臂うメータたけｔ＋＋賊ベクトルとして甘木ｇ＃
を行っているので、４虹に対してはその酩藏率が良好で
あるが、千〇の認識雇が極めて悪いと云う問題がめった
。ｆｔ（−万では、音声４６号を分析して得ら７ｔ　６
ｗ　ｌＨｌ・周波数スヘクトル、ｆターン骨の２フレ一
ム以上に亘る％似）ぐラメータを音素ベクトルとしてム
索１７識する手段力【提唱されている。然し乍ら、特徴
ベクトルの次元数がφ大となり、ぞのＩｋｃ！陳処理に
幻する演其麺が非＊に多くなると五つ問題がある。特に
統計的手法によって上記紹繊処理を行う場合、計算Ｖが
美大となって夫用件ＶＣ欠けると云う問題が生じた〇〔発明の目的〕本兄四はこのような争悄奮考慝してなさノ［罠もので、
その目的とするところは、首戸が市する性質を有効に利
用して廿脚１ｄ号の首座でめる母音および子音ｔそれぞ
れ聞易に且つ相凝艮〈認識して効率の良い音声１繊を行
い得る実用性の高い音声ｉｉ４装置を提供することＫあ
る。

〔発明の１ｔｔ要〕本発明に係る音声認ｇ１１！装置は入力された音声信号
を分析して、その特徴ノ臂うメータの時系列Ｘ　＝Ｘ１
１　ｘ２　ｍ　”・＃　ｘＨｔ−求め、その１フレーム
の特徴ノ臂うメータｘｉを時間的変動を含まない第１の
音素特徴ベクトルとして求め前記音声信号の特徴／ｆラ
メータの時系列Ｙ　＝　７１　ｍ　’１２　ｍ・・・ｙ
ｏの複数のフレームに亘る特徴ノｆラメータ）’ｉ’Ｆ
ｉ−１’〜’Ｆｉ−ｋを時間的変動を含む第２の音素特
徴ベクトルとして求め、これらの材木特徴ベクトルと音
素辞書に登録された音素との類似度を計算する等してｆ
累畷識したのち・　この音累蛯繊された音素時系列ノ母
ターンと単語辞書との照合により音声ｍｍｔ−行うよう
にしたことを特徴とする本のである。

即ち、音声信号を帯域フィルタ処理、離散的フーリエ変
換処理、ケプストラム分析処理、線形子側分析処理等し
て、その特徴パラメータの時系列Ｘ”Ｘｌ　、Ｘ２　ｍ
　”’　ａ　ＸＨ−Ｙ＝＝ｙ、　ｌ　Ｆ２＃・・・ｍ７
Ｈを求める。但し、これらの特徴・母うメータの時系列
Ｘ、Ｙは同じものであってもよい。

しかして特徴／ｆラメータの時系列Ｘのうちの１セグメ
ントの特徴パラメータｘｉを第１のｆ木特徴ベクトルと
して抽出し、且つ％徴パラメータの時系列Ｙのうちの板
数セメ１フ１ｍ亘る特徴・母うメータｙｔａｙｉ−ｔ’
〜ｙｌ−２を第２の音素特徴ベクトルとして抽出してそ
の音素ｇ繊を行ったのち、音声認瞭を行うようにしたも
のである。特に上記第１の音素特徴ベクトルから母音又
は鼻音を認識し、且つ第２の音３に特徴ベクトルから子
音および半母音ｔ−Ｍ繊す゛ることによって、その―繊
率の向上を図るようにしたことを特徴としている。

〔発明の効果〕

従って本発明によれば・音声１ｇ号が南する性質を有効
に利用して、その母音および子音・半母音をそ八ぞれ精
度良く認識することが可能とな９、従って音声信号の餡
織率の同上を図ることが可能となる。しかも母音に対し
ては、その１フレーム毎に周波数分解能を高くして、ま
た子音・半母音に対しては周波数分解能を低くした数フ
レームに亘る音素の特徴ベクトルをそれぞれ用いて認識
を行うことにょシ、計算量の増大を招くことなく精度の
高い認識を行うことが可能となる。

〔発明の実施例〕

以下、図面を参照して本発明の一実施例につき説明する
。

第１図は実施例装置の概略構成図である。入力された音
声信号は、本装置の主要部である分析回路１に入力され
、帯域フィルタ処理や離散的フーリエ変換処理、冬プス
トラム分析処理、線形予測分析処理等の信号分析処理が
なされる。

この分析処理は、例えばｗＪ２図（、）に示すように分
割された各セグメントの周波数スペクトルを求めたり、
また同図（ｂ）に示すように複数のセグメントに亘る時
間・周波数スペクトルをその特徴ノ母うメータとして求
めるものである。この分析回路１は、具体的には後述す
るように・例えば第３図あるいは第４図に示す如く構成
される。

しかして、分析回路ＩＦｉ、入力音声１Ｍ号の特徴・臂
うメータの時系列Ｘ＝＝ｘ、エ　、〜ａｘＮ’に２得ており、第２図（＆）に示されるようなその１セグメ
ントの特徴ノ母うメータＸ１を第１の舊索％徴ベクトル
として音素特徴ベクトルメモリに一時記憶し、これを類
似度計算回路２に出力している。

また同時に分析回路１は、入力音声信号の持家パラメー
タの時系列Ｙ＝ｙ、、ｙ２〜ｙＮを得、その複数セグメ
ントに亘る第２図（ｂ）に示されるような％徴・ｆラメ
ータ）’１−Ｆ五−１．〜ｙｉ−ｋを纂２の音素特徴ベ
クトルとして特徴ベクトルメモリに一時記憶して、これ
を類似度計算回路３に出力している。っ筐り、入力音声
信号の二種類のｆ累特徴・やラメータを求めている。

しかして類似度計算回路２ｕ、を素辞書４　ＶＣ予め登
録された母音標準音素ノ母ターンと、ｆＪｒＪ記音声信
号の音素特徴・母うメータｘｉとの類似度を計算して、
母音音素及び鼻音の−ａを行っている・また類似度計算
回路３は、音素辞−１ｉ５に登録された子音および半母
音の標準ノ譬ターンと前記入力音声信号の音素特徴ノ臂
うメータＦ１　’Ｆｉ−１’〜＃Ｆｉ−にとの類似度を
計算して、子音および半母音音素のｙ＊ｔ−行っている
。そして、これらの類似度計算回路２．３で認識された
前記音声信号の音素１繊結果の時系列は、つまり母音お
よび子音からなる音素・臂ターン（例えば音素記号系列
又は類似度値をそのまま）は、音素パターンメモリ６に
格納されたのち照合回路１に供給され、単語辞書８に登
録された単語標準ノ４ターンとの類似度針算勢により単
語照合されて音声認識される。

即ち、本装置１ｌＶｃあっては、音声信号の分析された
％徴ノ４ラメータの、例えば１フレームの周波数スペク
トルからなる特徴ノ４ラメータＸｌにより、音素静置４
を用いて上記音声信号の音素である母音が認識される。

また分析されたＱＩ徴ノぐラメータの、例えば被数フレ
ームに亘る２次元的な時間・周波数スペクトルからなる
％値パラメータ７１　ｅ　ｙｉ−１〜”ｉ−ｋによシ、
音素辞書５を用いて上記音声信号の音素である子音およ
び半母音が認識される。そして、これらの部数され次母
音・子音および半母音からなる音素ノ９ターン４を用い
て、単語照合がなされ、音声Ｍ＆が行われることになる
。

さて、前記した分析回路１は、例えば−３図に示すよう
に構成される。この回路構成は、帯域フィルタを介した
筒波数分析処理を行うものである・例えば入力音声信号
はＡ／Ｄ亥侠器１１を介して例えば１０　ｍ　Ｓ＠ａ毎
にディノタルｆ侠して取込まれ、並列的に設けられた複
数の帯域通過フィルタ（ＢＰｉｉ’、〜ＢＰＦ’、６）
群１２に入力されている。これらのフィルタ群１２は、
音声入力信号の周波数帯域を１６分割してなる相互に異
なった狭帯域の周波数通過特性を有するものである。し
かしてこれらのフィルタ９１２の各フィルタを介した各
周波数帯域の信号取分は、絶対値二乗回路群１３を各別
に介して抽出され次のち、低域通過フィルタ（ＬＰＦ　
）群１４にてそ゛れぞれフィルタリングされて出力され
る。そして、これらの各周波数帯域のｆｉ！ｒ号成分Ｘ
１１．！Ｈ〜！、６１は、音素特徴ベクトルメモリ１５
に格納される。従って、このベクトルメモリ１５には成
る時点１の１フレームの周波数スペクトルを示す％徴・
ンラメータｘ１が格納されることになる。

またｌＩ前記各周波数帯域の信号成分は、隣接する４つ
の帯域毎にグルーピングされ、加算器１６−１，１６−
２　＃　１６−５　ａ　１６４によりそれぞれ加算され
ている。従って加算器１６はそれぞれ、前記１６分割さ
れた周波数帯域を統合してなる粗し分割周波数帯域の信
号成分を得ることになる・前記８２２群１２による分割
周波数帯域をｆ、。

ｆ２〜’１４とした場合、加算器１６はＦ、冨ｆ、＋　
ｆ２＋　ｆ３＋　ｆ４Ｆ’２＝ｆ５＋ｆ、＋ｆ、＋ｆ８Ｆ、＝ｆ、＋ｆ、。＋’１１　＋’１２、Ｆ４　”　’
１５＋’１４＋’１５＋’１６なる粗い４分割された周
波数帯域の信号成分を得ることになる。そして、これら
の加算器１６の出力信号は、４セグメントの音素特徴ベ
クトルメモリー１に順次格納される。従って、このベク
トルメモリー７には周波数分割ノやターンが粗いけれど
も、時間的要素が含＄れる時間・周波数スペクトルの特
徴情報が格納されることになる。

かくしてここにベクトルメモリー５には、母音認識に適
した周波数分割の細かい周波数スペクトルからなる１次
元の特徴ノＪ？ラメータｘｉが格納され、またベクトル
メモリー７には、鳩波数分割が粗いが時間経過要素を含
む時間・周波数スペクトルからなる子音および半母音の
部数に適した２次元の特徴ノ臂うメータ）’＋）Ｊ１〜
ｙｉ−□が格納されることになる。そして、特にこれら
の特徴ベクトルの１！系数を等しく足めておけ社、これ
らの特徴イ母うメータを用いた音素認識処理の計算量が
さ＃ｌど増えることがないので、実用上極めて有利であ
る。史には、音声信号の性質を有効に利用してｔ素紹繊
を、母音および子音・半母音についてそれぞれ行うので
、全体としてその計算量の削減を図り得る。またこのよ
うな母音と子音・半母音に対する各別の音素＃Ｉｔ緻処
理によシ、その略識率の格段の向上を図ることが可能と
なる。

さて、第４図はケグストラム分析を行う分析回路１の構
成例を示すものである。この場合ＫＦｉ％Ａ／Ｄｆ換器
２１ｔ−介して入力された音声信号を離散的フーリエ変
換回路（ＤＦ’Ｔ　）　２　ｊを介して変換し、その出
力を絶対値回路２３および対数変換回路２４を介して抽
出する。そして、この抽出出力を離散的フーリエ逆変換
回路（ＩＤＦＴ）２５を介してｆ換処理し、前記音声信
号の元４２）％徴ノ臂うメータとして音素特徴ベクトル
メモリ２６に格納し、筐た数フレームに亘るケプスをラ
ム係数Ｃ１ｉ−ｃｋｉ、ｃ２．−１〜ｃｋｉ−３等ヲ２
次元Ｏｆ粂４を像、つまり動的な特徴Ｉ９ラメータと、
して音素特徴ベクトルメモリ２７にに次格納するようＫ
すれ祉よい。

このケプストラム分析は、烏速フーリエ変換（ＦＦＴ　
）のアルプリズムに基づいてなされるもので、音声信号
の周波数スペクトルの上路特性を抽出するのに好適であ
る。しかして、ベクトルメモリ２６に格納された１６次
のケプストラム係数は、音声信号の細かく分析されたス
ペクトル飽絡特性を示す。従って母音ヲ蛤瞳するに好適
な特徴・母うメータであり、これ音用いて効率良く母音
認識することが可能となる。また上記ケグストラムは、
その係数が低次である程、スペクトルの大局的な情報を
示す。従って４次程度のケグストラム係数を数フレーム
に亘って抽出すれば、音声信号の動的な性質１［わす非
常に有用な特徴パラメータとなる。

従って、先の第３図に示す分析回路１で求められた音素
％微ベクトルと同様に、ケグストラム係数で示される音
素％徴・ｆラメータもｔ戸信号のｔ素装置に対して多大
な効果を奏することになる。

以上詳述したように本装置によれば・ＭＩＩ披数分解能
の高いｌフレームの％徴ノ４ラメータを音素特徴ベクト
ルとして用いて母音等の静的音素の認識が行われ、また
動的要素の強い子音等の認識が同波数分鱗能の粗い複数
フレームの動的な特徴・９ラメータを音素特徴ベクトル
として行われる。これ故、高精度、且つ高速で、しかも
軽済的な音素認識が可能となり、不特定話者や多数単結
を対象とした高性能、安価な音声認識ｆ−［ｔ−実現す
ることが可能となる。

尚、本発明は上記実施例に限定されるものではない０例
えば第５図に示すように認識された音素全ベクトルメモ
ＩＪ　３１　、３２にそれぞれ蓄えたのち、類似度計算
回路３３．３４にてその音素ベクトルに対して単語辞書
３５．３６を用いてそれぞれ類似度計算を行って各別に
単＃Ｉ認識し、これらの認識結果を総合判定回路３７に
て総合的に判定して正規の値繊結釆を得るようにしても
よい、また音素％９ベクトルの要素数は、仕様に応じて
定めればよいものである。また、３つ以上の音素特徴ベ
クトルを求めて音素認識することも可能である。壺する
に本発明はその要旨を逸脱しない範囲で種々変形して実
施することができる。

【図面の簡単な説明】

第１図は本発明の一実施例を示す音声認識装置の概略構
成図、第２図（ａ）　、　（ｂ）は音声信号の特徴ノ臂
うメータを示す図、第３図お工び篇４図はそれぞれ分析
回路の構成例を示す図、第５図は音声認識装置の他の構
成例を示す賢部構成図である。１・・・分析回路、２，３・・・類似度計算回路、４゜
５・・・音素辞書、６・・・音素／９ターンメモリ、７
・・・照合回路、８・・・単語辞書、１２・・・帯域フ
ィルタ群、１５．１７・・・音素％像ベクトルメモリ、
２２・・・ＤＦ’ｌ’、、？４・・・対数回路、２゛５
・・・ＩＤＦＴ。２６．２１・・・音ＴＡ％徴ベクトルメモリ。

Claims

【特許請求の範囲】

（１）　　入力された音声信号を分析して上記音声係号
の待似・臂うメータの時系列Ｘ　””　１１　ａ　Ｘ　
２　ｍ・・・。１ｗ中の１フレ一ム分の％徴ノ”ラメータＸｉヲ時ｉＪ
ｊ的ｔ　ＩｔＩＪｋ　ｔ　１ない第１の音素特徴ベクト
ルとして舶用する手段と、前記音用イ８号の特徴パラメ
ータの、時系夕ＩＪＹ＝ｙ１．ｙ２＋・・・、ｙＮ中の
複数フレームに亘る特徴・ぜラメータｙ１．ｙ−、・・
・、ｙｉ□Ｋ　？１　　　　ｒｌ時間的変動を含む第２の音−特徴ベクトルとして拍出す
る手段と、これら＠１及び絹２の音素特徴ベクトルを大
々対応する廿素辞薔と照合して各フレーム毎に標準ｆ素
との類似の程度を求める手段とこの手段により侍らｎた
出力を用いて前記音声１８号金鹸畝する手段とを備えた
ことを特徴とする音用ａｇ＃、鉄飯。
（２）　特徴−ｆラメータｘｉｊ＝’！ひ１１　＋）’
ｉ１　、”’　ｚｙｌ−Ｋｒｉ、音声信号の同一の曾声
分析鮎朱から求められるものである％＃ｆＩｖ１１１水
の範ｄ第１項ｒｒｅ献の音声認識装置。
（３）　　第１の音高特徴ベクトルと第２の首糸軸似ベ
クトルは、その景素数を同じくするものである’［’Ｆ
請求の範囲第１項ルビ賊の廿−餡自芸一゛。
（４）　　第１の祈索特徴ベクトルは母廿酩融又ｔよ鼻
音酩詭に、且つ８ｇ２の音索待偵ベクトルは子音・半母
音認陳にそれぞれ用いられるものである特許請求の範囲
第１項６ピ載の唱ｔＭ配暉鉄−０