JPH0574080B2

JPH0574080B2 -

Info

Publication number: JPH0574080B2
Application number: JP59055806A
Authority: JP
Inventors: Teruhiko Ukita
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1984-03-23
Filing date: 1984-03-23
Publication date: 1993-10-15
Also published as: JPS60200296A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は単語や文等を連続発声した入力音声を
高精度に認識することのできる音声認識装置に関
する。

〔発明の技術的背景とその問題点〕

音声を通じて情報を入力する装置にあつては、
連続的に発声入力される単語や文等を如何に高精
度に認識するかが重要な課題となる。しかし、連
続的に発声された音声を高精度に認識処理するこ
とは一般に甚だ困難である。例えば音声入力され
た連続数字を認識処理する場合には次のような問
題がある。即ち、単語単位でパターンマツチング
を行なう従来の音声認識処理にあつては、数字列
“23”（ニーサン）を発声した場合、その認識結果
が“213”となることがある。これは、“23”
（nisaN）なる発音に対して、 ni→２、 is→１、 saN→３なる対応付がなされる為である。これは、数字単
語“１”の音素記号が／it∫i／で示され、／t∫／
と／ｓ／とが同じ摩擦性の音である為であり、こ
れ故その音響的特徴だけから両者を区別すること
が困難である。しかも／t∫i／中の／ｉ／の部分
が無声化されることも多いことから、一般に／
it∫i／や／it∫／の両者に対処できるものが標準パ
ターンとして辞書に用意される。その結果、前述
したような単語の対応付けが行われることにな
る。しかもこの時、認識結果を判定する評価尺度
として、各単語のマツチング結果として得られる
類似度値の和を用いると、一般に単語数の多いも
のほど高い評価値が得られる。この為、“213”の
方が“23”より高い評価値を得るので、結局誤認
識を招いていた。

このような不具合は、例えば単語認識における
音節や音素、あるいは文認識における単語等のよ
うに、その音声認識における本来の認識対象より
小さな単位を認識処理単位として採用した場合に
共通に生じた。これ故、如何にしてその構成単位
数とは独立に認識対象全体を評価すればよいかが
問題となつていた。

このような不具合を解消するべく、例えば「単
語単位のパターンマツチングによる不特定話者向
き連続単語音声認識」（日本音響学会音声研究会
資料S83−19）に紹介されるような、事後確率を
用いる音声認識法が考えられている。この手法
は、単語をマツチング処理する際に得られる類似
度値の分布を考え、類似度値Ｓのときにそのマツ
チング区間Ｋが正しい単語区間である確率ｐ
（Ｋ／Ｓ）をｐ（Ｋ／Ｓ）＝ｐ（Ｓ／Ｋ）／ｐ(S)・ｐ(K)≒ａ・10^S
＋ｂ ……(1) なる指数の関係式（ａ、ｂは定数）で求め、その
確率の積により全音区間に対応する部分区間の組
合せを評価するものである。

このような手法によれば、認識単位の数に依存
することのない評価尺度が得られ、比較的高精度
の認識結果を得ることができる等の利点がある。
然し乍ら、上述したように音声認識の評価処理の
演算（第(1)式）に指数関数を用い、しかも確率の
積として全体を評価しているので、装置構成規模
が大きくなり、また多大な処理時間を必要とする
等の問題があつた。

〔発明の目的〕

本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、話者が連続発声
した入力音声を少ない計算量で高精度に、且つ効
率良く認識することのできる実用性の高い音声認
識装置を提供することにある。

〔発明の概要〕

本発明は入力音声の特徴パラメータの一部と、
音素・音節または単語等からなる認識単位とのマ
ツチング処理を行ない、これによつて得られる類
似度値に対応して、そのマツチング区間が正しい
認識単位の存在位置である確率の近似値としての
スコアを求め、このスコアの和によつて前記入力
音声の全体に対する評価を行つて、その認識結果
を得るようにしたものである。

即ち本発明は、入力音声の特徴パラエータの時
系列を音声の認識単位が存在可能な部分区間毎に
分割し、例えばある部分区間Ｋにマツチングした
結果として得られた類似度値Ｓから所定の値S₀を
減算してｑ＝Ｓ−S₀ なるスコア（評価値）ｑを得、このスコアｑの和
から入力音声全体を評価してその認識結果を得る
ようにしたものである。

〔発明の効果〕

かくして本発明によれば、スコアｑの和を求め
ると云う簡単な演算によつて入力音声の全体を高
精度に、且つ効果的に評価することが可能とな
る。従つて、連続発声された音声を高精度に認識
することができ、また装置の構成規模の簡素化、
処理時間の短縮化を図り得る等の絶大なる効果が
奏せられる。

〔発明の実施例〕

以下、図面を参照して本発明の一実施例につき
説明する。

先ず、第１図を参照して本発明の基本的な処理
概念を説明する。本発明では入力音声の特徴パラ
メータを音声認識単位の存在可能な部分区間毎に
分割し、各部分区間の特徴パラメータ時系列のマ
ツチング結果である類似度値Ｓから所定の値S₀を
減算してスコアｑを求め、このスコアｑの和を求
めて前記入力音声を評価するものである。今、あ
る部分区間Ｋに関して得られた類似度値がＳであ
る場合、その区間Ｋが正しい単語区間である確率
ｐ（Ｋ／Ｓ）がｐ（Ｋ／Ｓ）≒Ａ・B^S ……(2) （Ａ＞０、Ｂ＞１）なる式で近似されるものとする。これは第１図ａ
に示されるｐ＝ａ・10^S なる前述した第(1)式の関係と、同図ｂに示す上記
第(2)式の関係とが、第(2)式中の定数Ａ、Ｂを操作
することにより実質的に等しいものを表わしてい
ることに立脚している。

ところで確率の積の対数は、各確率の値の対数
の和として表わされる。そこで今、対数が単調関
数であることを考慮すると、上記確率の積の最大
値を求める為の処理は、各確率の値の対数の和の
最大値を求めることを意味する。この関係は、 log｛max ｉpi｝＝max｛〓ｉ（pi）｝で示される。ここで前記第(2)式の両辺の対数（底
Ｂ）を考えると log_Bｐ＝log_BＡ＋Ｓ ……(3) となる。しかし第１図ｂに示されるように、その
類似度値Ｓ（＝S₀）の場合、その確率が1.0に対応
するので、 1.0＝Ａ・B^S0 ……(4) であるから、 log_BＡ＝−S₀ ……(5) になる。従つて前記第(3)式はｑ＝log_Bｐ＝Ｓ−S₀ ……(6) と書改めることができる。

即ち、このことは前記第(1)式に示される近似式
により部分区間の類似度Ｓを確率ｐに変換し、そ
の積により全体を評価することと、前記第(2)式に
基く近似を行なつて、前記類似度Ｓを第(6)式によ
りスコアｑに変換し、その和をもつて全体を評価
することとが等しいことを意味している。従つ
て、上述したスコアｑを導入することにより、従
来の指数関数演算処理を減算処理により行うこと
が可能となり、また全体の評価の為の処理を従来
の積に代えて和の演算処理によつて行うことが可
能となる。この結果、その処理時間の短縮化、並
びに装置実現の規模縮小等を図ることが可能とな
る。

次に、本発明の実施例装置につき説明する。
尚、ここでは入力音声の認識単位の単語として説
明するが、この単語は言語学的な意味ではなく、
音声認識処理における認識の基本単位として定義
されるものである。従つて上記単語は、例えば音
節や母音−子音−母音の音韻連鎖またはこれらに
類するものであつてもよい。

第２図は実施例装置の概略構成図である。入力
音声は音響分析部１に入力されて一定の分析時間
毎に分析されて、その特徴パラメータが求められ
る。この分析時間はフレーム周期と称され、典型
的には数ｍsec〜10ｍsec、長くても20ｍsec程度
に設定される。この音響分析部１は、例えば帯域
通過フイルターを利用したフイルタ・バンクによ
り構成されるもので、例えば音声帯域を16〜30程
度の帯域に分割してスペクトル分析を行ない、そ
の特徴パラメータを求めるものであり、その特徴
パラメータはある所定の時間間隔（フレーム周
期）毎にサンプリングされて出力される。

しかして上記音響分析部１で求められた特徴パ
ラメータの時系列は部分区間設定部２に入力され
る。この部分区間設定部２は、上記特徴パラメー
タの時系列に対して単語マツチングを行なうべく
部分区間を決定するもので、前記音響分析の各分
析時間毎に形成可能なある条件を満たす部分区間
をそれぞれ抽出している。例えば第３図に示すよ
うに、入力音声（特徴パラメータ：音声パワーの
時系列）Ｐについて、ある範囲内で変化する認識
対象単語の継続時間に関し、その最大値
（dmax）とその最小値（dmin）との間に存在す
る部分区間を、ある分析時刻を基準としてそれぞ
れ求める。尚、第３図中τは分析時間を示してい
る。このようにして、認識単位が存在すると見込
まれる１つまたは複数の部分区間が、その分析時
間毎に順次求められる。

このようにして設定された各部分区間の位置
と、その部分区間における特徴パラメータ時系列
は、類似度計算部３に与えられて単語辞書記憶部
４に予め登録された辞書パターンとの間で照合さ
れる。この照合処理は、例えば入力音声の部分区
間の特徴パラメータ時系列で示される入力パター
ンと上記単語辞書記憶部４に登録された辞書パタ
ーンとの類似度を、複合類似度法により算出する
等して行なわれる。この複合類似度法を用いる場
合、辞書登録された単語を表現する特徴ベクトル
（辞書パターン）は、例えば周波数でＭ次元の分
析フイルタ数、時間軸でＮ次元からなる（Ｍ×
Ｎ）次元の固定ベクトルとして表現される。従つ
て、前記音響分析部１にて周波数軸上でＭ次元に
分析された特徴パラメータは、前記部分区間毎に
時間点数がＮ点からなる時系列として再サンプリ
ングされ、上記辞書パターンと同じ次元のベクト
ルとして表現するようにしておけばよい。尚、前
記時間軸方向Ｎ点の決定方法は、部分区間をＮ等
分する位置の最近傍フレームを取出せば十分であ
る。この各フレームの現フレームからの相対位置
は、区間長を変数とする関数の形で与えられ、テ
ーブル化して予め準備しておけばよい。

類似度計算部３では、このような（Ｍ×Ｎ）次
元の入力パターンベクトルと、予め準備された各
単語の（Ｍ×Ｎ）次元の辞書パターンとの間で、
その複合類似度値を計算している。複合類似度法
によるマツチング処理においては、各認識単位の
カテゴリ毎に互いに直交する数個のベルトルが用
意されており、上記入力パターンベクトルとの間
の内積の２乗和を基本として、各類似度値が計算
される。このような類似度計算の結果得られる類
似度の中から最大の類似度をとる単語名（標準パ
ターン名）と、その類似度値が、その部分区間に
おける局部的な認識結果として、その部分区間に
位置情報と共に単語評価部５に与えられる。

しかして単語評価部５では、上記類似度Ｓを次
の関係に従つてスコアｑに変換している。

ｑ＝0.0…（Ｓ≧S₀）Ｓ−S₀（Ｓ＜S₀） ……(7) ここで上記S₀は、例えば予め単語辞書構成時に
用いる学習用のパターン集合に対する類似度演算
を行ない、その際に求められる最大の類似度値と
して設定されるものである。尚、上記第(7)式にお
ける所定値S₀は全カテゴリーに共通に設定されて
いるが、各カテゴリ毎にそのカテゴリに応じた所
定値S₀をそれぞれ用意し、単語評価部５に入力さ
れる単語名に応じて上記S₀の値を変るようにして
もよい。また所定値S₀を、入力音声に対する種々
の類似度中の最大値として定めるようにしてもよ
い。この場合、入力音声に対して設定される部分
区間の位置、単語名、および類似度値を単語評価
部５に全て記憶しておき、それらの中から最大類
似度を選んで上記所定値S₀とすればよい。このよ
うにして得られたスコアｑは、その単語名、部分
区間位置の情報と共に文評価部６に送られる。

文評価部６では、上記と如く求められた単語名
と、そのスコアｑ、およびその部分区間の位置情
報を入力し、まず入力音声区間と等しい区間をな
す部分区間の列を見出す。そして、これらの部分
区間の列に対応する認識単語列の、これに付随す
るスコアｑの和を算出し、その和の最大値を検出
することにより前記部分区間列に対する評価を行
なう。例えば、第４図に示すように７分析区間か
らなる入力音声が与えられ、その部分区間が同図
中Ａ，Ｂ〜Ｌに示すように求められたとする。こ
のとき、入力音声区間と等しい区間をなす部分区
間の列は（Ｌ、Ｊ、Ｂ）（Ｋ、Ｈ、Ｃ）（Ｌ、Ｇ、
Ｃ）（Ｉ、Ｂ）として求められる。このような部
分区間列を構成する単語列のスコアｑ和がそれぞ
れ求められ、その最大値を得る単語列、例えば
（Ｌ、Ｊ、Ｂ）が前記入力音声の認識結果として
求められることになる。

以上詳述したように本発明は、認識単位である
単語のマツチングによつて求められる類似度値か
ら、そのマツチング区間に応じて上記単語の正し
い存在区間である確率に対応するスコアｑを所定
値S₀の減算処理により求め、そのスコアｑの和を
もつて入力音声の全体を評価している。その結
果、従来必要であつた指数関数の計算や確率の積
計算を加減算の演算だけによつて行うことがで
き、装置実現上の規模縮小、および処理時間の大
幅な短縮化を図り得る等の絶大なる効果が得らえ
る。

尚、本発明は上記実施例に限定されるものでは
ない。例えば前記第(7)式による変換に代えて q′＝S₀−Ｓ…（S₀＞Ｓ） 0.0（S₀≦Ｓ）としてスコアq′を求め、その和の最小値を選ぶこ
とにより文評価を行なつても上記実施例と実質的
に等価であり、従つて同様な効果が得られること
は明らかである。また、認識単位を音節や母音−
子音−母音の音韻連鎖とすることも可能であり、
要するに本発明はその要旨を逸脱しない範囲で
種々変形して実施することが出来る。

【図面の簡単な説明】

図は本発明の実施例を示すもので、第１図は本
発明の原理を示す為の図、第２図は一実施例装置
の概略構成図、第３図は部分区間の設定を示す
図、第４図は部分区間の列を説明する為の図であ
る。１……音響分析部、２……部分区間設定部、３
……単語類似度計算部、４……単語辞書記憶部、
５……単語評価部、６……文評価部。

Claims

【特許請求の範囲】１入力音声を一定時間毎に分析してその特徴パ
ラメータの時系列を得る手段と、この特徴パラメ
ータの時系列を音声の認識単位が存在可能な部分
区間に分割する手段と、これらの各部分区間の特
徴パラメータ時系列と予め辞書登録された複数の
認識単位の各標準パターンとの類似度をそれぞれ
計算して前記各部分区間毎に最大類似度値をとる
標準パターン名とその類似度値とを求める手段
と、これらの各部分区間毎に求められた最大類似
度値と所定の値との差を求めて上記各部分間毎に
求められた上記最大類似度値をそれぞれスコアに
変換する手段と、前記入力音声の全区間と等しい
区間をなす組合せの前記部分区間の列の各部分区
間毎に求められた上記スコアの和を求める手段
と、このスコアの和が最大または最小となる上記
部分区間の列が示す前記標準パターン名の列の認
識結果として求める手段とを具備したことを特徴
とする音声認識装置。２音声の認識単位は、入力音声中の音素、音節
あるいは単語として定められるものである特許請
求範囲第１項記載の音声認識装置。３最大類似度値のスコアへの変換に用いられる
所定の値は、認識単位の標準パターンとの間で求
められる類似度がとりうる最大値S₀として定めら
れるものである特許請求範囲第１項記載の音声認
識装置。４最大類似度値のスコアへ変換に用いられる所
定の値S₀は、各認識単位のカテゴリ毎に設定され
るものである特許請求範囲第３項記載の音声認識
装置。５最大類似度値のスコアへの変換に用いられる
所定の値S₀は、入力音声に対する認識処理中に求
められる全類似度値の中の最大値として決定され
るものである特許請求範囲第２項記載の音声認識
装置。