JPS59121100A

JPS59121100A - 連続音声認識装置

Info

Publication number: JPS59121100A
Application number: JP57227709A
Authority: JP
Inventors: 浮田　輝彦; 恒雄新田; 渡辺　貞一
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1982-12-28
Filing date: 1982-12-28
Publication date: 1984-07-12
Also published as: EP0112717B1; DE3372029D1; EP0112717A1; US4677673A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分骨〕本発明は連続発声された入力音声を効率良く認識するこ
とのできる連続音声認識装置に関する。

〔発明の技術的背景とその問題点〕

音声を情報入力手段とする日本語ワードプロセッサや音
声タイシライタにあっては、自然性良く連続的に発声さ
れる音声を如何に効率良く認識するかが重要な課題とな
る。しかして従来より知られている連続音声認識の１つ
に、認識単位を音素程度のものとし、入力音声の特徴パ
ラメータの時系列を、一旦音素ラベルの列や、所謂セグ
メント・ラティスに変換してその単語や文を抽出するも
のがある。然し乍ら、連続発声される入力音声にあって
は、同じ音素であってもその前後の音素環境によって所
謂調音結合が生じ、この結果、音響的な表現が多様な変
形を受けると云う性質がある。この為、高精度に上記音
素ラベルへの変換を行うことが難しく、実用性に乏しか
った。

これに対して、認識単位を単語程度のものとし、特徴・
ぐラメータの時系列から単語を直接的に同定し、その後
単語列を文として認識する方式が提唱されている。この
方式は、単語として標準パターンを持つことによって前
述した調音結合の問題全回避したものである。しかして
上記単語の同定法は、入力音声から単語境界位置を検出
し、その境界によって定まる入力音声の部分区間につい
て単＠全同定するものと、逆に境界を検出することなし
に入力音声の全ての部分区間に単語が存在すると看做し
て単＠を同定するものとに大別さ扛る。上記境界の検出
は、例えば入力音声の音声パワーやスペクトラム変化等
の特徴パラメータを抽出し、その時系列上の極値を求め
る等して行われる。ところが、例えば数字の“２”　（
／ｎｉ／）と数字の“１″（／ｉ　ｔ、／”ｉ／　）が
連続発声されて（／ｎ　ｉ　：　ｔ、／’ｉ／　）とな
った場合には、その単語境界を検出することができない
等の不具合があった。

この点、上述した後者の単語同定方式は一部において実
用化されている。即ち、との単語同定の基本的なアルゴ
リズムは、語索中の各単語（言語的な意味ではなく、音
声認識における認識単位として定義される）に対して、
標準パターンを一定時間毎に分析さｎた特徴パラメータ
の時系列として準備する。そして、入力音声の全ての部
分区間について上記標準ノ４ターンとの距＃Ｉを求めて
、最小距離を与える単＠全判定するものである。この際
、所定の分析時間毎に得られる特徴パラメータ間の距離
（フレーム間距離）を計算し、動的計画法を時間正規化
に利用して時系列ノ９ターン間の距ｓ’ｉ求める。そし
て、単語列としての入力音声との距離を全ての部分区間
の組合せについて評価し、最小の累積距離を持ち、且つ
入力音声の全体に対応する単語列ｔ″認識結果として得
るものである。

ところがこの方式は話者が特定される場合には良好に作
用するが、話者が不特定になると次のような問題を招来
した。即ち、不特定な話者を対象とすると、話者によっ
て単語の音声パターンが大きく異なる為、話者に対応し
た非常に膨大な量の単語標準パターンを準備することが
必要となる。故に、不特定な話者に対しては、原理的に
は無限数の標準パターンが必要となシ、その実現が著し
く困難となる。

そこで近時、各単語について有限少数の標準ノ母ターン
だけを準備し、クラスタリングの手法を応用することに
よって上記不特定話者に対する標準パターンの問題を解
決することが考えられている。然し乍ら、このようにす
ると単語列（文）に対する認識率が著しく低下し、実用
的には堪え難いものとなっている。しかも、この手法を
採用すると、全ての単語カテがすについて、５− 更にはそれぞれ複数個の時系列標準パターンについて逐
一その距離を計算する必要があり、全体の計算処理量が
非常に膨大なものとなると云う致命的な欠点があった。

これらの理由によシ、連続発声された入力音声を効率良
く、効果的に認識することが非常に困難であった。

〔発明の目的〕

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、不特定話者が連続発声した入力
音声を少ない計算処理量で高精度に効率良く認識するこ
とのできる実用性の高い連続音声認識装置を提供するこ
とにある。

〔発明の概要〕

本発明は入力音声の概略特徴パラメータと詳ａ特徴・臂
うメータとを求め、上記概略特徴パラメータの時系列と
標準ノ４ターンとの類似度から入力音声中の単語が存在
し得る部分区間を求め、この部分区間における前記詳細
特徴パラメータの時系列と前記標準パターンとの類似度
を求めたのち、入力音声区間と等しい区間を為す部分６
− 区間の列の各類似度の和を求めて、その部分区間の列を
構成する標準パターン列（単語列）を評価するものであ
る。

〔発明の効果〕

かくして本発明によれば入力音声のスペクトラム構造を
反映した概略特徴ノ母うメータに従って単語が存在し得
る部分区間を求めるので、その単語存在位置を高精度に
検出することが可能となる。しかもその上で、上記部分
区間について詳細特徴パラメータに従って候補単語を求
めるので、いたずらに多くの部分区間を設定して計算処
理を行う従来方式と異なり、その計算量を大幅に削減す
ることが可能となる。しかもこれによって不特定話者の
音声パターン変動に十分対処し得る単語照合が可能とな
る。そして、これらの処理を経て、入力音声区間と等し
い部分区間列の各類似度の和から、その部分区間列の単
語列を評価するので、その連続音声の認識精度が非常に
高くなり、ここに高精度で効率のよい音声認識が可能と
なる等の実用上絶大なる効果が奏せられる。

〔発明の実施例〕

以下、図面を参照して本発明の一実施例につき説明する
。尚、ここでは入力音声の認識単位を単語として説明す
るが、この単語は言語学的な意味ではなく、音声認識処
理における音声の取扱い単位として定義されるもので、
例えば音節や文節またはこれらに類するものでもよい。

さて、第１図は実施例装置の概略構成図であシ、第２図
は同装置の王たる処理手順を示す図である。不特定話者
が連続発声した入力音声は音響分析部１に入力されて一
定の分析時間毎に分析されて、その特徴ノやラメータが
求められる。

この音響分析部１は、帯域通過フィルターを用いたフィ
ルターバンクにより構成さ扛、例えば音声帯域を１６〜
３０程度の帯域に分割してスペクトラム分析してその詳
１１ｆ８特徴パラメータを求めると共に、上記音声帯域
を２〜４程度に分割してスペクトラム構造し、その概略
特徴パラメータを求めている。このようにして、上記人
力音声の詳細特徴・母うメータおよび概略特徴パラメー
タが前記一定時間毎に順次求められ、記憶保持される。

しかして上記一定時間毎に求めら扛た概略特徴パラメー
タの時系列は単語存在区間候補検出部２に導びかれ、単
語標準パターン記憶部３に予め登録された複数の単語の
標準的な特徴パラメータ時系列からなる標準ノリーンと
の間でそれぞれ類似度が計算され、その類似度値に従っ
て前記入力音声中の単語が存在し得る部分区間が単語存
在候補区間として求められる。即ち、この検出部２での
上記部分区間の検出処理は、第２図に示すように入力音
声中における各単語の開始点を見つけることにより行わ
ｎる。即ち、入力音声を分析して求めた概略特徴パラメ
ータの時系列を時間軸上においてＴ点にリサンプルする
。これにより、入力音声は、成る時刻ｔにおいて周波数
軸上のＦ点（Ｆ＝２〜４）と時間Ｔ点との（ＦＸＴ）次
元の特徴ベクトルとして表現されることになる。尚、上
記時間軸上のりサンプ９− ルは、連続したＴ点を抽出してもよく、或いは不連続な
Ｔ点としてもよい。これによって概略特徴パラメータの
時系列が（ＦＸＴ）次元の特徴ベクトルとして表現され
ることになる。

しかるのち、この特徴ベクトルとして示さ扛る入力音声
の一部と、前記記憶部３に予め登録された標準・母ター
ン、つまり語檗中の各単語の始端部に関する標準パター
ンとの類似度を計算し、各単語についてそれぞ扛の類似
度値金求める。この類似度計算は、例えば複合類似度法
を用いて行われる。そして、これらの各単語毎に求めら
れた類似度値を、例えば一定の閾値や、或いは単語毎に
定められた閾値と比較し、該閾値を越える類似度値を抽
出する。この閾値を越える類似度値を見出したとき、そ
の現時刻ｔ’１その単語の開始端として、単語名と共に
保持する。この処理が入力音声の全ての区間について順
次行わｎる。尚、この単語開始端の検出を単なる閾値処
理だけではなく、類似度値の極大値を与える時点をその
単語の開始点としてもよい１０− このようにして、入力音声の区間において複数の単語開
始点が求められ、部分区間は上記２つの単語開始点をそ
れぞれ端点として求められる。

第３図はこの様子を表わしたものであり、音声ｊ４ワー
の波形として示される音声区間の全域に亘って、例えば
単語Ｉ、ｊに対する類似度がそれぞれ求められる。そし
て、上記類似度が極大値をとる時点を開始点として、単
語量が存在するであろう部分区間の候補、および単語ｊ
が存在するであろう部分区間の候補が、他の開始点およ
び音声区間の終端点との組合せによって求められる。従
って一般的には複数の部分区間が求められることになる
。そして、各部分区間については、そこに存在するであ
ろう単語が同時に定まることになる。尚、上記部分区間
の選択を、各単語の時間的中央付近の音声特徴パターン
や、終端部の特徴／ＩＰターンを用いて同様に行うこと
も可能であり、またこれらの手段を組合せて部分区間を
決定してもよいことは勿論のことである。

しかして、このようにして決定された入力音声区間中の
部分区間の情報は、その候補単語の情報と共に単語類似
度計算部４に与えられる。

この計算部４　ｉｌｊ’＝上記部分区間の前記詳細特徴
・ｔラメータの時系列を入力し、該部分区間の候補単語
の標準パターンとの類似度を、例えば複合類似度法を用
いたり、或いはパターン認識における統計的識別関数を
用いて求められる関数値の写像を計算する等して求める
ものである。

これによって、各部分区間毎に、その候補単語と、その
候補単語に対する入力音声の類似度値が例えば第４図に
示すように求められる。尚、第４図において（）で示し
た数値がその単語について求められた類似度値を示して
いる。

単語列評価判定部５は、上記の如く求めらｎた部分区間
と、その候補単語および類似度値とからなる情報を入力
し、入力音声区間と開始時点および終端時点を同じくす
る部分区間の列を、上記部分区間の組合せとして抽出す
る。そして、このようにして選択された部分区間の列の
それぞれについて、その列を構成する部分区間について
求められた類似度値の和を求め、その値の大小を相互比
較して部分区間列を評価している。

第４図に示す例では、単語ｉについて（２２０）なる類
似度を得る１つの部分区間だけからなるもの、単＠量に
ついて（８５）の類似度を得る部分区間から、単＠ｊに
ついて（１４５）の類似度を得る部分区間に繋がる列、
更に単語ｌについて（８５）、（３５）、（１００）な
る類似度を得る部分区間が繋った列が求められる。これ
によって、その類似度の和が最大となる部分区間列が入
力音声区間く反映したものとして評価される。そして、
単語ｔ＋ｊとによる連続音声として、入力音声が認識さ
れ、その認識結果が出力される。

この単語列認識については、所謂動的計画法と称される
ＶＣＶ音節を単位とした連続単語の認識法や、並列探索
の手法等を用いることが可能である。

以上、本発明の一実施例につき説明したように、本発明
は入力音声の概略特徴パラメータ上１３− で単語の存在区間（部分区間）を・母ターンマツチング
により簡単に選択し、その区間についてのみ詳細特徴パ
ラメータを用いて類似度計算して、連続音声中の単語を
認識するので、その計算処理量を非常に少なくすること
ができる。しかも、概略特徴ノやラメータ上でパターン
マツチングによシ部分区間を選択するので、不特定話者
が連続発声した変動の多い入力音声ツヤターンについて
も、その変動の影響を殆んど受けることのない認識処理
が可能となる。そして、精度良く検出された部分区間に
おいて詳細特徴・譬うメータに従って類似度を計算する
ので、その認識精度が十分高いものとなる。その上で、
部分区間の列について認識の評価が全体的に行われるの
で、連続音声を極めて効果的に認識できるの向上を図９
得る等の実用上絶大なる利点がある。

尚、本発明は上記実施例に限定されるもので１４− はなく、例えば認識単位を音節や文節とすることも可能
であり、要するに本発明はその要旨を逸脱しない範囲で
種々変形して実施することができる。

【図面の簡単な説明】

図は本発明の一実施例を示すもので、第１図は装置の概
略構成図、第２図は部分区間判定の処理手順を示す図、
第３図は入力音声に対する概略特徴パラメータの類似度
およびとｎによって定まる部分区間の例を示す図、第４
図は部分区間の組合せと各部分区間の類似度との関係を
示す図である。１・・・音響分析部、２・・・単語存在区間候補検出部
、３・・・単語標準パターン記憶部、４・・・単語類似
度計算部、５・・・単語列評価判定部。出願人代理人　　弁理士　鈴　江　武　彦１５−

Claims

【特許請求の範囲】

（１）入力音声の概略特徴パラメータおよび詳細特徴Ａ
ラメータをそれぞれ求める手段と、予め登録された複数
の単語の標準パターンと上記概略特徴・ぐラメータの時
系列との類似度をそれぞれ求め、その類似度から前記入
力音声中の単語が存在し得る部分区間とその部分区間に
おける候補単語を求める手段と、この候補単語の標準パ
ターンと上記部分区間における前記詳細ノヤラメータの
時系列との類似度請求める手段と、入力音声区間と等し
い区間を為す前記部分区間の列の各部分区間毎に求めら
れた類似度の和を求めて該部分区間の列を構成する単語
列全評価する手段とを具備したことを特徴とする連続音
声認識装置。
（２）標準Ａ’ターンとして準備さｎる単語は、入力音
声に対する認識単位となる音節や単音語またはこれらに
類するものである特許請求の範囲第１項記載の連続音声
認識装置。
（３）部分区間は、概略特徴・臂うメータの時系列との
類似度が所定の閾値以上となる標準ノ４ターンの区間と
して定められるものである特許請求の範囲第１項記載の
連続音声認識装置。