JPS59121098A

JPS59121098A - 連続音声認識装置

Info

Publication number: JPS59121098A
Application number: JP57227707A
Authority: JP
Inventors: 浮田　輝彦; 恒雄新田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1982-12-28
Filing date: 1982-12-28
Publication date: 1984-07-12
Also published as: JPH0437996B2; EP0114500A1; DE3370389D1; US4677672A; EP0114500B1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は連続発声された入力音声を効率良く認識するこ
とのできる連続音声認識装置に関する。

〔発明の技術的背景とその問題点〕

音声を情報入力手段とする日本飴ワードプロセッサや音
声タイシライタにあっては、自然性良く連続的に発声さ
れる音声を如何に効率良く認識するかが重要な課題とな
る。しかして従来より知られている連続音声認識の１つ
に、認識単位を音素程度のものとし、入力音声の特徴ノ
母うメータの時系列を、一旦音素ラベルの列や、所謂セ
グメントラティスに変換してその単語や文を抽出するも
のがある。然し乍ら、連続発声される入力音声にあって
は、同じ音素であってもその前後の音素環境によって所
謂調音結合が生じ、この結果、音響的な表現が多様な変
形を受けると云う性質がある。この為、高精度に上記音
素ラベルへの変換を行うことが難しく、実用性に乏しか
った。

これに対して、認識単位を単語程度のものとし、特徴・
ぐラメータの時系列から単語を直接的に同定し、その後
単語列を文として認識する方式が提唱されている。この
方式は、単語として標準）４？ターンを持つことによっ
て前述した調音結合の問題を回避したものである。しか
して上記単語の同定法は、入力音声から単語境界位置を
検出し、その境界によって定まる人力音声の部分区間に
ついて単語を同定するものと、逆に境界を検出すること
なしに入力音声の全ての部分区間に単語が存在すると看
做して単語を同定するものとに大別される。上記境界の
検出は、例えば入力音声の音声・卆ワーやスペクトラム
変化等の特徴パラメータを抽出し、その時系列上の極値
を求める等して行われる。ところが、例えば数字の°２
”（／ｎ　ｉ／　）と数字の−１”　（／ｓ　ｔｆ１／
）が連続発声されて（／ｎ１：１／１／）となった場合
には、その単語境界を検出することができない等の不具
合があった。

この点、上述した後者の単語同定方式は一部において実
用化されている。即ち、この単語同定の基本的なアルｗ
＋　リズムは、語業中の各単語（言語的な意味ではなく
、音声認識における認識単位として定義される）に対し
て、標準パターンを一定時間毎に分析された特徴パラメ
ータの時系列として準備する。そして、入力音声の全て
の部分区間について上記標準・ゼターンとの距離を求め
て、最小距離を与える単語を判定するものである。この
際、所定の分析時間毎に得られる特徴・臂うメータ間の
距離（フレーム間距離）を計算し、動的計画法を時間正
規化に利用して時系列・９タ一ン間の距離を求める。そ
して、単語列としての入力音声との距離を全ての部分区
間の組合せについて評価し、最小の累積距離を持ち、且
つ入力音声の全体に対応する単語列を認識結果として得
るものである。

ところがこの方式は話者が特定される場合には良好に作
用するが、話者が不特定になると次のような問題を招来
した。即ち、不特定な話者を対象とすると、話者によっ
て単語の音声・９ターンが大きく異なる為、話者に対応
した非常に膨大な量の単語標準ノｆターンを準備するこ
とが必要となる。故に、不特定な話者に対しては、原理
的には無限数の標準ノＪ？ターンが必要となり、その実
現が著しく困難となる。

そこで近時、各単語について有限少数の標準パターンだ
けを準備し、クラスタリングの手法を応用することによ
って上記不特定話者に対する標準パターンの問題を解決
することが考えられている。然し乍ら、このようにする
と単語列（文）に対する認識率が著しく低下し、実用的
には堪え難いものとなっている。しかも、この−５＝手法を採用すると、全ての単語カテゴリについて、更に
はそれぞれ複数個の時系列標準・ぐターンについて逐一
その距離を計算する必要があシ、全体の計算処理量が非
常に膨大なものとなると云う致命的な欠点があった。こ
れらの理由によ）、連続発声された入力音声を効率良く
、効果的に認識することが非常に困難であった。

〔発明の目的〕

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、不特定話者が連続発声した入力
音声を高精度に、しかも実時間処理によって効率良く認
識することのできる実用性の高い連続音声認識装置を提
供することにある。

〔発明の概要〕

本発明は標準パターンを周波数・時間の構造を反映する
一定次元の特徴ベクトルとして持ち、入力音声を一定時
間毎に分析して求められる特徴パラメータのベクトルと
上記各標準ノ４ターンの各時間点における部分特徴ベク
トルとの部分６− 類似度をそれぞれ求め、これらの部分類似度から入力音
声の部分区間に対する標準ノ４ターンの類似度を求めて
その部分区間の候補標準ノＱターン（候補単語）とその
単位類似度を求めたのち、入力音声区間と等しい区間を
為す部分区間列の各単位類似度の和からその部分区間列
を構成する候補単語列を評価するようにしたものである
。

〔発明の効果〕

従って本発明によれば、標準パターンが周波数・時間構
造を反映する特徴／’？ラメータの一定次元のベクトル
として示されるので、不特定話者に起因する音声・母タ
ーンの多様な変動に十分対処して高精度に音声を認識す
ることが可能となる。しかも、部分特徴ベクトルとの類
似度の関数として部分区間に対する類似度を求め、これ
によ多部分区間の候補単語を求めることによって、その
類似度計算を分析時間毎に部分的に分解して行うことが
でき、従って実時間処理が可能となる。故に、リアルタ
イムで精度の高い認識処理が可能となシ、実用上絶大な
る効果が奏せられる。

〔発明の実施例〕

以下、図面を診照して本発明の一実施例につき説明する
。尚、ここでは入力音声の認識単位を単語として説明す
るが、この単語は言語学的な意味ではなく、音声認識処
理における音声の取扱い単位として定義されるものであ
る。またこの単語は、音節や文節成るいはこれに類する
ものでもよい。

さて、第１図は実施例装置の概略構成図であシ、第２図
は同装置の主たる処理手順を示す図である。不特定話者
が連続発声して入力される入力音声は、音響分析部１に
入力されて所定の分析時間毎に分析されて、その特徴パ
ラメータに変換される。この音響分析部１は、例えば音
声帯域を１６〜３０程度の帯域に分割してそのスペクト
ル分析を行う複数の帯域通過フィルターからなるフィル
ターパンクによって構成される。これにより、入力音声
の特徴パラメータからなる特徴ベクトルが一定時間毎に
求められる。

しかして、この入力音声の特徴ベクトルは、部分類似度
計算部２に入力され、標準ノやターン記憶部（メモリ）
３に予め登録された標準ノ９ターンの部分特徴ベクトル
との部分類似度が計算され、その類似度値が保持される
。この部分類似度値を入力して単位類似度計算判定部４
が入力音声中の単語存在可能な部分区間について、各単
語に対する類似度を計算している。

第２図は、これらの各部による処理手順を概略的に示し
ておシ、本装置では類似゛度計算を、例えばパターン認
識における複合類似度法を用いて行なわれる。しかして
ここでは、単語の音声ノ４ターンは、周波数軸方向にＭ
点、そして時間軸方向にＮ点についてそれぞれ求められ
た特徴パラメータからなる（ＭＸＮ）次元の特徴ベクト
ルとして表現される。上記時間軸方向のＮ点は、単語音
声の継続時間について線形にＮ個の内分点を求めて定め
られるものであり、また周波数軸方向のＭ点は、前記フ
ィルターバンクのＭ個の帯域通過フィルタの各出力に対
応させる９− 等して定められる。この複合類似度法に用いられる前記
記憶部３に予め登録された複数の単語（認識単位）の各
標準）Ｊ？ターンは、例えば不特定多数の発声単語から
予め統計的処理して求められるものである。即ち、各単
語のカテゴリ１（１＝１，２〜Ｉ）にツイテ、その（Ｍ
ＸＮ）次元空間上の分布に対応する相関行列を計算し、
それらの固有ベクトルをその固有値が大きいものから順
に並べてｉｌ　　１２　１！ｉ　　ｌｊ　　　ｉＪとして求めら
れる。これによって各単語の標準・リーンはそれぞれ相
互に直交する特徴ベクトルとして表現されることになる
。

このような標準ノリーンに対して、単語カテゴＩＪ　ｉ
に対する複合類似度Ｓｉは、入力音声を時間的に同じく
リサンプルして（ＭＸＮ）次元の特徴ベクトルを求め、
その特徴ベクトルがＸで示されるとき、例えば次のよう
にして計算される。

但しここで、（Ｘ、ＦＢ）は、ベクトル！とペクト１０
− ルｒ　Ｉ　Ｊとの内積を示している。

ところがこのようにして従来知られた複合類似度計算を
行う為には、入力音声の特徴ベクトルＩは、その特徴パ
ラメータの時系列を与えられた部分区間に応じてその部
分区間をリサンプルしたものでなければならない。従っ
て大容量のバッファメモリを用いて入力音声の特徴パラ
メータの時系列を記憶しておく等の処理が必要−となり
、その実時間処理が不可能となる。そこで、本装置では
、標準パターンのベクトルｒｓｊを時間軸方向に分解し
、部分特徴ベクトルとして取扱うようにしている、今、成る分析時刻における入力音声の特徴ベクトルが、
周波数軸方向に）’　””　（）”　ｐ　Ｙ２＋　”’　＋　ｙｒｒｌ
ｒ　・・・＋　ｙＭ）として与えられるものとする。ま
た単語カテゴリｌの標準ノ臂ターンのベクトルｒｌｊは
ｒ＝（ｒｌｌｌｒｌｉ・・・ｒｌ′ｉ・・・ｒｌ′ｆｆ
）ｊ・１＝（・￥１・・ｔｉ・・・ｒ胃・・・・冒）ｊとして表現されるものとなる。尚、上式中ｒ　、　２は
、ベクトルｒ１ｊのｎ番目の時間点での周波数軸方向の
部分特徴ベクトルである。しかして、上記酸る時刻にお
ける入力音声の特徴ベクトルｙが入力されると、計算部
２では上記入力特徴ベクトルｙに対し、記憶部３に登録
された全ての単語カテゴリＩ、固有ベクトルｊおよび時
間サンプル点ｎに関する標準パターンの各部分特徴ベク
トルとの部分類似度をＳ、ゴーｍ邑ｒｒ’ｒ　、　ｙｍとして求める。この計算量は、例えばフィルター・９ン
クのフィルタ数Ｍが１０、時間軸方向のサンプル点数Ｎ
が１６、標準・９ターンの固有ベクトル数Ｊが５、単語
カテゴリーの数Ｉが数字を例としてＩＯとして与えられ
るものとすれば、音響分析の一定時間内に（ＭＸＮＸＪ
ＸＩ）２８０００回の乗算および加算処理を行うものと
して与えられる。このとき、音声信号の分析時間間隔は
１６ｍ５＋ｅｃ程度あればよいので、上記８０００回の
乗加算処理の各々を２μｓｅｅ以内で行えば良く、十分
に実時間処理を行い得る。このようにして、入力音声の
特徴ベクトルと、標準・リーンの各時間点における部分
特徴ベクトルとの部分類似度がその全てについて求めら
れる。

単位類似度計算判定部４は、このようにして求められた
部分類似度Ｓｉｔから、入力音声中の現時点までに形成
される単語存在可能性のある全ての部分区間について上
記部分類似度Ｓ１３を時間軸上でリサンプルし、そのリ
サンプルされた部分類似度Ｓ門からその部分区間におけ
る認識単位（単語）に対する類似度Ｓｉをとして求めている。そして、各部分区間について最大の
類似度値をとる単語カテゴリー１名をその部分区間の認
識結果として求め、その類似度値および該部分区間の位
置と共に記憶する。尚、この計算は固有ベクトル数Ｊと
サンゾル点数Ｎによって示される区間について行うだけ
でよく、その量はさほど多くない。従って短時間に計算
処理を終えることが可能である。

１３− しかるのち、単位評価判定部５は、音声入力区間と同じ
開始端および終了端となる上記部分区間の列を、部分区
間の全ての組合せの中から選択する。そして、その部分
区間の列について、各部分区間毎に求められた前記単語
類似度Ｓ、の和を求め、各列についてそれぞれ求められ
た上記和の値を相互に比較して、その大小関係から部分
区間列を構成する単語列を評価している・例えば、部分
区間列の類似度の和が最大となるものを、連続発声され
た入力音声の全区間に亘ってマツチングがとられている
と評価し、その部分区間列を構成する各部分区間毎に求
められた単語カテゴリｉの列を認識結果として出力する
。

以上が本装置による連続音声の認識処理の作用である。

これを第３図乃至第６図を参照して、更に詳しく説明す
ると次のようになる。即ち、入力音声の一定時間毎に分
析された特徴ベクトルの時系列が第３図中人に示される
ものとすると、各サンゾル時点の入力音声特徴ベクトル
毎１４− に標準・ぐターンの各時間点での部分特徴ベクトルとの
部分類似度が８１，８２〜ＢＮの如く求められる。つま
り、成るサンプル時刻について、■、Ｊ、Ｈの全ての組
合せについて入力音声の特徴パラメータｙｍについて部
分類似度が求められ、例えばテーブルとして格納保持さ
れる。この部分類似度計算は音声入力の時間経過に伴い
、一定の分析時間間隔毎に順次行われる。

しかして、単位類似度計算判定部４は、音声入力開始時
点から現時点までに、入力音声中で単語が存在し得る候
補区間を部分区間として、第４図に示すように決定して
いる。つまシ、単語が存在し得る部分区間の長さは成る
範囲を以って殆んど決定され、例えば上記分析単位時間
に比較して、最も短いもので３単位時間、また最も長い
もので１１単位時間として定められるこのような音声入
力条件から、例えば現時刻を基準として、３単位時間の
部分区間、４単位時２間の部分区間・・・１１単位の部
分区間等をそれぞれ仮定する。そして、これらの各部分
区間につき、その部分区間に対応したサンプル時点でそ
れぞれ求められた前記部分類似度から、該部分区間の各
標準パターンに対する類似度を計算する。この類似度計
算全行うに際しては、上記の如く各部分区間の長さの異
なりによる入力音声単語の時間長の異なりを吸収する為
に、これをリサンプルして、処理対象とする単語の時間
長変動を吸収することが必要である。従って、部分類似
度のりサンプル点を、例えば第５図に示すように、現時
点を基準として、長さの異なる部分区間に対してそれぞ
れ同数となるように定めておけばよい。そして、とのり
サンプル点によって部分類似度Ｓ、Ｑの類似度計算に用
いる添字（ｎ）の位置を決定し、このようにして選択さ
れた部分類似度から第３図中Ｃに示すように、その部分
区間に対する類似度Ｓｉを求めるようにすればよい。こ
れによって、各部分区間毎に、それぞれ複数の標準パタ
ーンに対する類似度が求められるから、その中で最大の
類似度ｉｆｆを得、且つその類似度値が所定の閾値を越
え、更に第２位の類似度値との差が十分広いものの単語
カテゴリｌを、その部分区間の候補単語として認識する
。

このようにして、各部分区間毎にその候補単語と、この
候補単語を得た類似度とを、上記部分区間の位置毎に整
理すると第６図に示すようになる。そこで、単位列評価
判定部５において、音声区間と等しい区間を為す部分区
間の列を選択し、例えばこの例では（Ｌ　、　Ｊ　、　
Ｂ　）　、　（Ｌ、Ｇ、Ｃ）（Ｋ、ｆ（、Ｃ）、（Ｉ、
Ｂ）なる部分区間列を選択し、各部分区間列の類似度の
和を求める。この和の値によって、その部分区間列が入
力音声の全区間について良くマツチングしているか否か
が評価されることになる。尚、この部分区間列の評価に
ついては、ＶＣＶ音節を単位とした連続単語音声の認識
として知られるような動的計画法や、タスクドメインに
よる並列探索の手法を用いることも可能である。またこ
のとき、成る時点までに得られた単語類似度の中間結果
を順次利用していくようにしてもよい。このようにすれ
ば音声入力の終了と同時に、リアルタイムにその１７− 認識結果を得ることが可能となる。

以上説明したように本発明によれば、認識単位である単
語の音声・ぞターンを、周波数および時間的構造を反映
した一定次元の特徴ベクトルとして表現し、入力音声の
周波数軸に対応する特徴・！ラメータが一定時間毎に得
られる都度、その単語の類似度の一部を計算するので、
連続音声を実時間で処理することが可能となる。しかも
、単語の音声・ぞターンを一定次元の特徴ベクトルとし
て表現して認識処理に用いているので、不特定話者の発
声の異りに併う・母ターン変動の吸収処理の簡易にして
効果的な実施を可能とし、その実用的利点は絶大である
。

尚、本発明は上記実施例に限定されるものではない。例
えば単語の類似度計算を、マノ・マノビスの距離計算や
、統計的識別関数を用いて行うこともできる。この場合
、距離値や関数値を写像処理して、これを類似度とすれ
ばよい。また認識単位を音節や文節等としてもよく、こ
れらを組合せても良いことは云うまでもない。要１８− するに本発明はその要旨を逸脱しない範囲で種種変形し
て実施することができる。

【図面の簡単な説明】

図は本発明の一実施例を示すもので、第１図は実施例装
置の概略構成図、第２図は同装置の処理手順を示す図、
第３図乃至第６図はそれぞれ認識処理過程における処理
概念を示す図である。１・・・音響分析部、２・・・部分類似度計算部、３・
・・標準パターン記憶部、４・・・単位類似度計算判定
部、５・・・単位列評価判定部。出願人代理人　　弁理士　鈴　江　武　彦１９− Ｃ）派６９５− ぐ　　　　　　　　　　３派

Claims

【特許請求の範囲】

（１）複数の認識単位標準パターンをそれぞれ所定の時
間点の特徴パラメータからなる一定次元の特徴ベクトル
として記憶したメモリと、入力音声を一定時間毎に分析
してその特徴・やラメータからなる特徴ベクトルを求め
る手段と、この入力音声の特徴ベクトルと前記各標準パ
ターンの各時間点における部分特徴ベクトルとの部分類
似度をそれぞれ求める手段と、これらの部分類似度から
前記入力音声の部分区間に対する前記各標準・母ターン
の類似度を算出して最大値をとる標準パターン塩とその
単位類似度を求める手段と、入力音声区間と等しい区間
を為す前記部分区間の列の各部分区間毎に求められた単
位類似度の和を求めて該部分区間の列を構成する標準パ
ターン名列を評価する手段とを具備したことを特徴とす
る連続音声認識装置。
（２）認識単位は、音節や単語または文節として定めら
れるものである特許請求の範囲第１項記載の連続音声認
識装置。
（３）　　入力音声の部分区間は、分析処理過程におけ
る現時点までにとシ得る認識単位の区間として定められ
るものである特許請求の範囲第１項記載の連続音声認識
装置。