JP2543528B2

JP2543528B2 - 音声認識装置

Info

Publication number: JP2543528B2
Application number: JP16148687A
Authority: JP
Inventors: 陽一山田
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1987-06-29
Filing date: 1987-06-29
Publication date: 1996-10-16
Anticipated expiration: 2011-10-16
Also published as: JPS644800A

Description

【発明の詳細な説明】（産業上の利用分野）この発明は音声認識装置、特に話者適応型音声認識装
置に関するものである。

（従来の技術）音声認識の一般的な方法として、パタンマッチングに
よる方法がある。この方法は、入力音声に対して音響分
析を行った後、時系列特徴ベクトルを抽出し、全認識対
象カテゴリに対して予め用意された標準パタン（各認識
対象カテゴリの時系列特徴ベクトルを平均的に表現した
特徴量）との類似度を算出し、この類似度が最大となる
カテゴリを認識結果として出力するものである。

又、前述の時系列特徴は単一種類でなく、複数種類
（例えば、周波数スペクトル、スペクトル変動、入力音
声信号レベル等）の特徴を使用することが入力音声の特
徴をより良く表現でき有効である。入力音声に対して抽
出した時系列特徴ベクトル（以後、入力パタンと称す）
と予め用意された標準パタンとの類似度は次式により表
わされる。

k:標準パタン番号 i:特徴番号 M:特徴数 R_k ⁽ⁱ⁾:第ｉ番目の特徴における第ｋ番目の標準パタンと
の部分類似度 W_i:各特徴に対する加重値 R_k:第ｋ番目の標準パタンとの類似度不特定話者が発生した音声を認識する場合、この標準
パタンは各話者における平均的な特徴量とする必要があ
り、入力パタンと標準パタン間における前述の各部分類
似度が部分類似度総和値に占める割合も平均的に考慮さ
れたものであり、加重値W_iもそれに従い、各部分類似度
の認識への貢献が同等となるように各特徴に対して同等
の値に設定されていた。

（発明が解決しようとする問題点）しかしながら、ある１人の特定話者にとって該話者の
音声から抽出される各部分類似度が部分類似度総和値に
占める割合は、平均的なものとはならずにばらつきが生
じる。従って、ある特定の話者が不特定話者用に設計さ
れた音声認識装置を使用する際、同等に設定されている
加重値が該話者にとって最適とはならず該話者が該認識
装置を使用する場合の認識性能の低下を招くという問題
点があった。又、この問題に対処するために、特定話者
を対象とした認識装置で行われているような、装置使用
以前に該話者固有の特徴を全ての単語につき認識装置に
登録する方法は装置構成上また処理手順上不特定話者認
識システムでは事実上困難であった。

この発明の目的は、上述した問題点を除去し、使用話
者に適応し、認識性能が優れた音声認識装置を提供する
ことにある。

（問題点を解決するための手段）この目的の達成を図るため、この発明によれば、入力
音声に対して複数種類の特徴各々について特徴量を算出
し、該算出された各特徴量に対して時系列特徴ベクトル
を算出する入力パタン作成手段と、複数の特徴各々についての標準的な特徴量を標準パタ
ンとして記憶する標準パタン記憶手段と、複数の特徴各々について、入力パタン作成手段から出
力される時系列特徴ベクトルと標準パタン記憶手段に格
納されている標準パタンとの類似度を算出し、該算出さ
れた特徴別類似度と複数の特徴各々について設定された
特徴別加重量とに基づいて得られる値の総和値を求める
ことにより、時系列特徴ベクトルと標準パタンとの類似
度を計算し、標準パタン記憶手段に格納されている標準パタンのう
ち、最大の類似度を与える標準パタンが属するカテゴリ
名を認識結果として出力する類似度計算手段と、類似度計算手段で算出された特徴別類似度各々につい
て、特徴別類似度の総和値に対して占める割合を算出
し、該算出された割合と所定値とを比較してその大小に
基づいて特徴別加重値を再設定し、該再設定された特徴
別加重値を類似度計算手段に出力する特徴別加重値計算
手段とを具えることを特徴とする。

この発明の実施に当たり、所定値は、標準パタン各々
に対して、該標準パタンと類似性が高い時系列特徴ベク
トルが入力された場合の各特徴別類似度が総和値に占め
る割合であることを特徴とする。

また、特徴別加重値は、算出された特徴別割合が所定
値より大である特徴に対してはより大きく、特徴別割合
が所定値より小である特徴に対してはより小さく特徴別
加重値を再設定するのが好適である。

（作用）この発明は、ある特定の話者が不特定話者音声認識装
置を使用する際、入力パタンと標準パタンとの類似度計
算を行った結果、全標準パタンの中で最大の類似度を与
える標準パタンとの各特徴別部分類似度を算出し、これ
ら算出された各部分類似度が、それぞれの総和に占める
割合から、認識処理に対する貢献度を判定する。その判
定を、例えば、最大の類似度を与える該標準パタンに対
して予め与えられた各特徴毎の類似度比率（標準パタン
と類似性が高い入力パタンが入力された場合の各特徴別
類似度がこの特徴別類似度の総和に占める割合の標準的
な値）と上述した各特徴別類似度の両者を参照すること
により行う。この判定の結果に基づいて類似度計算に使
用する各特徴別加重値を変更して、次の入力音声に対す
る認識処理を行うが、例えば、その判定の結果前述の各
特徴別類似度が前記類似度に対して占める割合が該標準
パタンに予め与えられた前述の類似度比率より大である
場合には当該特徴に対しては各特徴別加重値をより大き
くし、又、その判定の結果、前述の類似度比率より小で
ある場合には当該特徴に対しては各特徴別加重値をより
小さく再設定することにより該入力音声以降における入
力音声に対する前述の類似度計算を行う。このように、
この発明では、該特定話者固有の算出特徴量に対して最
適な認識処理を行うので、認識性能の向上をもたらすこ
とが可能となる。

（実施例）以下、図面を参照してこの発明の実施例につき説明す
る。

第１図はこの発明の音声認識装置の実施例を示す主要
部ブロック図、第２図はこの発明における特徴別加重値
計算部における処理を説明するための流れ図である。第
１図によりこの発明の処理手順を説明する。

入力パタン作成部10は、入力音声信号Ｉを入力し音響
分析処理を行い、その結果より該入力音声の時系列特徴
ベクトルを算出して入力パタンＰとして類似度計算部12
へ出力する。

類似度計算部12は、入力パタンＰと標準パタン記憶部
14に格納されている標準パタンとの類似度計算を後述す
る判定手段としての特徴別加重値計算部16より出力され
る特徴別加重値Ｗを使用することにより行い、類似度Ｒ
（この類似度特徴別部分類似度と、これらの加重和であ
る本来の類似度を総称したもの）、後述する標準パタン
類似度比率Ｓ及び認識結果Ｏを後段の所望の装置へ出力
する。

特徴別加重値計算部16は、類似度Ｒと標準パタン類似
度比率Ｓを入力して特徴別加重値Ｗを計算し類似度計算
部12へ出力する構成となっている。

尚、上述した標準パタン類似度比率Ｓは、標準パタン
記憶部14に格納される標準パタン各々に対して、当該標
準パタンとの類似性が高い時系列特徴ベクトルが入力さ
れた場合に、各特徴別部分類似度が当該部分類似度の総
和値に対し占める割合として予め設定されており、この
実施例では、この設定された標準パタン類似度比率Ｓを
標準パタン記憶部14に予め読み出し自在に格納してお
く。

第１図（Ｂ）は、主として、上述した類似度計算部12
及び判定手段としての特徴別加重値計算部16の構成をさ
らに詳細に示した機能ブロック図である。又、第２図は
特徴別加重値計算部の処理を説明するための流れ図であ
る。これら第１図（Ａ）及び（Ｂ）と第２図を参照して
特徴別加重値計算の処理につき説明する。

今、標準パタンとの類似度計算結果で最大の類似度を
与える標準パタン番号をｋ、類似度算出に使用する特徴
数をＭ、特徴別加重値をW_i（ｉは特徴数番号でｉ＝１〜
Ｍ）、前述の最大類似度を与える標準パタンとの類似度
をR_k、各特徴別に算出される部分類似度をR_k ⁽ⁱ⁾（ｉ＝
１〜Ｍ）、該標準パタンに対して予め設定されている類
似度比率をS_k ⁽ⁱ⁾（ｉ＝１〜Ｍ）、前記特徴別加重値W_i
の最適化に必要となる認識処理回数をＮ、装置使用開始
後における認識回数をｎ、認識処理を１回行う毎に算出
される予め標準パタンに初期的に設定されている類似度
比率とのずれの大きさの累積値をT_i ⁽ⁿ⁾（ｉ＝１〜Ｍ、
ｎ＝１〜Ｎ）とする。

第１図（Ｂ）において、120は特徴別類似度R_j ⁽ⁱ⁾（ｊ
は標準パタン番号）を算出する手段、122は後述する特
徴別加重値計算部16において各特徴毎に設定された特別
加重値W_iと、算出された特徴別類似度R_j ⁽ⁱ⁾とを参照し
て特徴別類似度の加重和R_jを類似度として算出する特徴
別類似度加重和算出手段である。さらに、124は最大類
似度判定手段であり、この実施例では対応する標準パタ
ン番号を算出すると共に、対応する特徴別類似度
R_k ⁽ⁱ⁾、加重和R_k、後述する標準類似度比率S_k ⁽ⁱ⁾、認識
回数の加算処理等を行う。さらに、160は現在の認識処
理（すなわち類似度計算）の回数ｎが予め設定されてい
る最適化必要認識回数Ｎを越えているか否かを比較する
ための認識回数比較手段である。161は特徴別類似度R_j
⁽ⁱ⁾の総和を算出する特徴別類似度総和算出手段である。162は特
徴別類似度R_j ⁽ⁱ⁾のとその総和との比、すなわち、特徴別類似度R_j ⁽ⁱ⁾がその総和に占める割合を各特徴毎に、特に好ましくは、その最大類似度におい
て算出する特徴別類似度割合算出手段である。163はこ
の算出された特徴別類似度割合と類似度計算部12を介して標準パタン記憶部14から読み
出した標準パタン類似度比率S_j ⁽ⁱ⁾（通常はｊ＝ｋのと
きの類似度比率）との大きさの比較を行う比較手段であ
る。164は類似度比率S_j ⁽ⁱ⁾とのずれの大きさの累積値T_i
⁽ⁿ⁾（ｉ＝1,M;n＝1,N）を算出し、この時得られた特徴
別類似度割合が今回の認識処理に対して与える貢献度を判定するため
の累積値算出手段である。さらに、165は特徴別加重値W
_i（ｉ＝１〜Ｍ）を算出し、算出された加重値W_iを次の
入力音声信号Ｉの入力パタンＰに対する認識処理に供せ
しめるための加重値算出手段である。尚、この実施例で
は、累積値算出手段164及び加重値算出手段165を以って
加重値の再設定を行うための再設定手段166を構成す
る。

初期設定（ステップ）認識回数ｎ＝０、特徴別加重値W_i＝1/M、（ｉ＝１〜
Ｍ）、ずれの累積値T_i ^(o)＝０、（ｉ＝１〜Ｍ）、にそ
れぞれ初期設定を行う。

類似度計算（ステップ、）次に、入力パタンＰと各標準パタンとの特徴別類似度
R_j ⁽ⁱ⁾及び類似度R_jを特徴別類似度算出手段120及び加重
和手段122でそれぞれ算出する。

そして、この実施例では、最大類似度判定手段124に
おいて、全ての標準パタンの中で最大の類似度を与える
標準パタン番号ｋを算出し（ステップ）、認識回数ｎ
に１を加算する（ステップ）。

特徴別加重値変更（ステップ、）次に、この実施例では、判定手段としての特徴別加重
値計算部16における認識回数比較手段160において、認識回数ｎと最適化必要認識回数Ｎを比較し（ステッ
プ）、ｎ≦Ｎを満足する時は特徴別加重値変更処理を行い（ステップ
）、満足しない時はこの変更処理を行わず次の入力音
声に対する処理へ進む。

特徴別加重値変更処理は以下の手順により行う。

先ず、特徴別類似度が当該特徴別類似度の総和に占め
る割合を求める。そのため、特徴別類似度割合算出手段
161において、最大類似度を与える標準パタン番号ｋに
おける特徴別類似度総和を算出し、次に、特徴別類似度割合算出手段162におい
て対応する特徴別類似度R_k ⁽ⁱ⁾と、この特徴別類似度総
和を求める。このようにして求めた特徴別類似度割合を表
わす比の大きさに基づいて加重値W_iの再設定を行うため、次の
ような処理を行う。

類似度最大値を与える標準パタンに予め設定されてい
る類似度比率特徴別類似度R_k ⁽ⁱ⁾を用い、前述した累積値T_i ⁽ⁿ⁾を漸化
式で与えたとき、この累積値T_i ⁽ⁿ⁾により標準パタンに設
定されている類似度比率S_k ⁽ⁱ⁾に対する該入力パタンＰ
により算出された各特徴別類似度R_k ⁽ⁱ⁾の相対的大きさ
を比較手段163において算出する。

上記式の右項において、である時、特徴番号ｉで示される特徴による特徴別類似
度R_k ⁽ⁱ⁾が類似度R_k全体に占める割合は標準パタンに予
め設定された平均的な値より大きくなり（認識への貢献
が大）、である時、特徴番号ｉで示される特徴による特徴別類似
度が類似度全体に占める割合は標準パタンに予め設定さ
れた平均的な値より小さくなる（認識への貢献が小）。
即ち、上式によればT_i ⁽ⁿ⁾が大となる特徴は認識装置を
使用中の話者にとって認識への貢献度が大であり、一
方、T_i ⁽ⁿ⁾が小となる特徴は認識への貢献度が小である
ことが言える。

次に、この累積値T_i ⁽ⁿ⁾に基づいて特徴別加重値W_iの
再設定を行うため、再設定手段166の累積値算出手段T_i
⁽ⁿ⁾でこのT_i ⁽ⁿ⁾を求め、続いて加重値算出手段165にお
いて加重値の更新値を求める。

従って、認識への貢献度を利用して特徴別加重値W_iは
以下のように変更される。

これら一連の処理終了後、この変更された加重値W_iを
類似度計算部12の部分類似度加重和手段122へ送り、前
の入力音声Ｉに対する入力パタンＰの認識処理のための
加重値を更新させ、次の入力音声に対する処理を行う。

以上述べた処理により、装置を使用する特定の話者に
とって有効で標準パタンに平均的に設定された値と類似
性が高い特徴をより有効に活用した認識を行う。

この発明は上述した実施例にのみ限定されるものでは
なく、多くの変形又は変更を行い得ること明らかであ
る。例えば、類似度計算部12及び特徴別加重値計算部16
の内部構成である機能手段は、この発明の目的を達成出
来る機能手段の構成であれば、第１図（Ｂ）に一例とし
て示した構成以外の設計に応じた任意の構成とすること
が出来る。

また、上述した各機能手段は、通常の電子技術を用い
て容易に構成することが出来る。

（発明の効果）上述した説明から明らかなように、この発明によれ
ば、音声認識装置を使用する話者固有の抽出特徴量に適
応した認識処理へ逐次移行する操作を使用者が必要とす
る操作（一般的に特定話者音声認識装置において用いら
れるパタン登録）の増加や使用者に適応した標準パタン
の追加を招くことがなく行うことが出来、従って、安価
で使用手順が簡単で認識性能が優れた音声認識装置の実
現が可能となる。

【図面の簡単な説明】

第１図（Ａ）はこの発明に係る音声認識装置の要部ブロ
ック図、第１図（Ｂ）は第１図（Ａ）の主要部を示す機能ブロッ
ク図、第２図はこの発明に係る特徴別加重値設定方法を説明す
るための流れ図である。 10:入力パタン作成部、12:類似度計算部 14:標準パタン記憶部、16:特徴別加重値計算部 120:特徴別類似度算出手段 122:特徴別類似度加重和算出手段 124:最大類似度判定手段 160:認識回数比較手段 161:特徴別類似度総和算出手段 162:特徴別類似度割合算出手段 163:比較手段、164:累積値算出手段 165:加重値算出手段、166:再設定手段。

Claims

(57)【特許請求の範囲】

【請求項１】（ａ）．入力音声に対して複数種類の特徴
各々について特徴量を算出し、該算出された各特徴量に
対して時系列特徴ベクトルを算出する入力パタン作成手
段と、（ｂ）．前記複数の特徴各々についての標準的な特徴量
を標準パタンとして記憶する標準パタン記憶手段と、（ｃ）．前記複数の特徴各々について、前記入力パタン
作成手段から出力されされる時系列特徴ベクトルと前記
標準パタン記憶手段に格納されている標準パタンとの類
似度を算出し、該算出された特徴別類似度と前記複数の
特徴各々について設定された特徴別加重量とに基づいて
得られる値の総和値を求めることにより、前記時系列特
徴ベクトルと前記標準パタンとの類似度を計算し、前記標準パタン記憶手段に格納されている標準パタンの
うち、最大の類似度を与える標準パタンが属するカテゴ
リ名を認識結果として出力する類似度計算手段と、（ｄ）．前記類似度計算手段により算出された前記特徴
別類似度各々について、前記特徴別類似度の総和値に対
して占める割合を算出し、該算出された割合と所定値と
を比較してその大小に基づいて前記特徴別加重値を再設
定し、該再設定された特徴別加重値を前記類似度計算手
段に出力する特徴別加重値計算手段とを具えることを特徴とする音声認識装置。
【請求項２】前記所定値は、前記標準パタン各々に対し
て、該標準パタンと類似性が高い前記時系列特徴ベクト
ルが入力された場合の前記各特徴別類似度が前記総和値
に占める割合であることを特徴とする特許請求の範囲第
１項に記載の音声認識装置。
【請求項３】前記特徴別加重値は、算出された前記特徴
別割合が前記所定値より大である特徴に対してはより大
きく、前記特徴別割合が前記所定値より小である特徴に
対してはより小さく特徴別加重値を再設定することを特
徴とする特許請求の範囲第１項に記載の音声認識装置。