JP3505967B2

JP3505967B2 - 適応型音声認識装置

Info

Publication number: JP3505967B2
Application number: JP20577597A
Authority: JP
Inventors: 康成大淵; 明雄天野; 俊之小高; 信夫畑岡
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-07-31
Filing date: 1997-07-31
Publication date: 2004-03-15
Anticipated expiration: 2017-07-31
Also published as: JPH1152978A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、あらかじめ使用者
が発声した音声をもとに、システムが保持している音響
モデルを修正することによって、その使用者に対する性
能を向上させることが可能な、音声認識装置に関する。

【０００２】

【従来の技術】従来の適応型音声認識装置では、適応用
の入力音声をもとに、対応する音響モデルの修正を行な
った後、入力音声に対応しない音響モデルの修正を行な
う。その際、音響モデル相互の間の類似性をもとに、修
正された音響モデルの修正量から修正されていない音響
モデルの修正量を推定するという手法（大倉他、電子情
報通信学会論文誌、Vol.J76-D-II、 No.12、 pp.2469-2
476）が用いられていた。また、音響モデルをクラスタ
リングして木構造を作り、入力音声に対応しない音響モ
デルに対しては、同じ部分木に含まれる音響モデルのデ
ータを代用する方式（篠田、渡辺、電子情報通信学会論
文誌、Vol.J79-D-II、 No.12、 pp.2054-2061）が用い
られる場合もあった。

【０００３】

【発明が解決しようとする課題】従来の方式では、入力
音声に対応する音響モデルと、入力音声に対応しない音
響モデルとの間の関係が、単に両者の間の類似度だけで
扱われてきたため、入力音声に対応しない音響モデルの
推定精度が不十分であった。また、音響モデルの推定量
の間の相互関係に関する記述も不十分であり、入力音声
に対応する音響モデルの推定量についても、他の音響モ
デルとの関係に基づく補正が十分にできていなかった。
本発明では、これらの推定に用いる情報の新しい利用方
法を示すことによって、より精度の高い推定が可能な音
声認識装置を実現する。

【０００４】

【課題を解決するための手段】本発明においては、事前
に複数の使用環境における音声データを収集し、それぞ
れの状況で、音響モデルの修正量が相互にどのような関
係を持つかを学習し、その結果を事前知識として保持し
ておく。実際に使用する際には、まず少量の音声データ
を入力し、音響モデルの修正を行なった後、事前知識に
基づき、その他の音響モデルについても修正を行なう。
さらに、音響モデル相互間の修正量の関係に関する事前
知識に基づき、修正量を補正する。このような操作によ
って、精度の高い音響モデルを作成することができる。

【０００５】

【発明の実施の形態】以下、図を用いて本発明の実施例
を説明する。

【０００６】図１は、本発明を用いた適応型音声認識装
置の一実施例の構成を表わしている。装置は大きく分け
ると、事前学習部（１０２）、音響モデル適応部（１０
４）、音声認識部（１０６）の三つの部分から成る。

【０００７】事前学習部では、教師信号（１０８）と事
前学習用音声データ（１１０）の入力を適応後モデル作
成部（１１２）に送り、適応後モデル作成部では、それ
らの入力を、あらかじめ保持してあった適応前音響モデ
ル（１１４）と比較して、適応後音響モデルを作る。こ
の際、事前学習用音声データが十分に与えられる場合に
は、事前学習用音声データと教師信号のみから適応後音
響モデルを作っても良い。その後、適応後モデル作成部
は、適応後音響モデルと適応前音響モデルを比較し、音
響モデル修正量（１１５）を出力する。音響モデル修正
量は、事前知識抽出部（１１６）に送られ、事前知識の
抽出が行なわれる。抽出された事前知識は、事前知識保
持部（１１８）に送られて保持される。

【０００８】音響モデル適応部では、実際に認識装置が
使われる環境で採取された適応用音声データ（１２２）
が入力される。適応用音声データとは、具体的に言う
と、認識用音声を発声するのと同じ人物による発声や、
認識用音声が採取されるのと同じ雑音環境で採取された
音声や、認識用音声が採取されるときに使われるものと
同じ機器によって収録された音声などのことである。さ
らに、教師信号（１２０）が一緒に入力される場合もあ
るが、常に必要というわけではない。これらの入力は、
適応実行部（１２４）に送られる。適応実行部では、こ
れらの入力と適応前音響モデルに基づき適応を実行し、
音響モデルを修正するが、それに加えて、事前知識保持
部から取り出した事前知識を利用して、修正量を補正す
る。こうして得られた結果は、適応後音響モデル（１２
６）として保持される。

【０００９】音声認識部では、入力された認識用音声デ
ータ（１２９）が、認識用単語辞書（１２８）と共に認
識実行部（１３０）に送られる。認識実行部では、これ
らを適応後音響モデルと比較照合することによって、認
識結果（１３２）を出力する。

【００１０】図２は、適応後モデル作成部の動作の一例
を表わすブロック図である。入力された事前学習用音声
データ（２０２）は、音声分析部（２０４）で分析さ
れ、特徴ベクトルに変換された形で音声照合部（２０
６）に送られる。また、教師信号（２１０）と適応前音
響モデル（２１４）は、モデル連結部（２１２）で連結
され、同じく音声照合部に送られる。音声照合部では、
両者を照合し、対応付けを取ってモデル更新部（２０
８）に送る。モデル更新部では、対応するモデルの修正
を行ない、適応後音響モデル（２１６）を差分計算部
（２１８）に送る。差分計算部では、適応前音響モデル
と、適応後音響モデルを比較し、差分を取ることによっ
て、音響モデル修正量（２２０）を出力する。

【００１１】図３は、事前知識抽出部の動作の一例を表
わすブロック図である。まず、各音響モデルに対する修
正量（３０２）が入力される。それをもとに、各モデル
に対してあらかじめ定めた個数の近傍モデルを選択する
（３０４）。選択の基準としては、音響モデル自身の類
似度、音響モデル修正量の類似度などの他に、後述する
誤差関数の値を小さくするようなモデルを選択すること
もできる。こうして個々の音響モデルに対して近傍モデ
ルが選択されたら、次に、これらの近傍モデルにおける
修正量の線形結合によって、もとの音響モデルの修正量
を近似する（３０６）。これを式で表現すると以下のよ
うになる。

【００１２】

【数１】

【００１３】ただし、左辺のVは近似したい音響モデル
の修正量であり、その番号をpで表わし、その第i成分を
沿字iで表わしている。同様に、右辺のVは近傍モデルの
修正量、Cは線形結合係数であり、その番号をqで、その
第i成分を沿字iで表わしている。また、Nは近傍モデル
の集合を表わし、kは近傍に含まれるモデルの個数であ
る。線形結合係数Cは、以下の式で表わされる誤差関数
の値を最小にするように求められる。

【００１４】

【数２】

【００１５】ただし、沿字sは異なる環境における音響
モデル修正量を表わしている。ひとつひとつの音響モデ
ルに対して、この式で表わされる誤差関数の値を求める
ことができ、これを最小化するような線形結合係数Cの
組をそれぞれのモデルに対して求めることができる。こ
うして得られた線形結合係数の組を、事前知識として出
力する。なお、上記のように表わされた誤差関数の最小
化は、この関数をCで微分したものの値が０になるとす
れば、簡単な行列演算で解くことができる。

【００１６】図４は、適応実行部の動作の一例を表わす
ブロック図である。入力された適応用音声データ（４０
２）は、音声分析部（４０４）で分析され、特徴ベクト
ルに変換された形で音声照合部（４０６）に送られる。
また、教師信号（４１０）と適応前音響モデル（４１
４）は、モデル連結部（４１２）で連結され、同じく音
声照合部に送られる。音声照合部では、両者を照合し、
対応付けを取ってモデル更新部（４０８）に送る。モデ
ル更新部では、対応するモデルの修正を行ない、補正前
の適応後音響モデル（４１６）を出力する。この出力は
修正量補正部（４１８）に送られ、事前知識（４２０）
と組み合わせて補正される。補正には、例えば（数１）
などの式が用いられる。こうして補正された修正量に基
づき、補正後の適応後音響モデル（４２２）が作られ、
出力される。

【００１７】図５は、認識実行部の動作の一例を表わす
ブロック図である。入力された認識用音声データ（５０
２）は、音声分析部（５０４）で分析され、特徴ベクト
ルに変換された形で音声照合部（５０６）に送られる。
また、認識用単語辞書（５１０）と適応後音響モデル
（５１４）は、モデル連結部（５１２）で連結され、同
じく音声照合部に送られる。音声照合部では、両者を照
合した上で、個々の単語に対する照合結果の整合性を比
較し、最も適していると判断された単語を、認識結果
（５０８）として出力する。

【００１８】

【発明の効果】適応型の音声認識装置においては、入力
音声によって適応されたモデルの修正量をもとに、入力
音声によって適応されないモデルをどのように修正する
かが問題である。これまでの方法では、適応されたモデ
ルと適応されないモデルをその場で比較し、その類似度
だけに基づいて修正を行なっていたが、本発明による方
法では、この関係を事前に学習して事前知識として保持
しておくことにより、より精度の高い修正を行ない、高
い認識率を持つ適応モデルを作成することが可能とな
る。

【図面の簡単な説明】

【図１】本発明の装置の構成図。

【図２】適応後モデル作成部の動作を表わすブロック
図。

【図３】事前知識抽出部の動作を表わすブロック図。

【図４】適応実行部の動作を表わすブロック図。

【図５】認識実行部の動作を表わすブロック図。

───────────────────────────────────────────────────── フロントページの続き (72)発明者畑岡信夫東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内 (56)参考文献特開平７−306690（ＪＰ，Ａ) 大倉，大西，飯田，複数代表話者の話者空間移動ベクトルに基づく不特定話者ＨＭＭの話者適応化，電子情報通信学会論文誌Ｄ−ＩＩ，日本，1996年５月25日，Ｖｏｌ．Ｊ79−Ｄ−ＩＩ，Ｎｏ．５，Ｐａｇｅｓ 667−674 大淵，天野，小高，畑岡，移動ベクトルの相関に関する事前知識を利用した話者適応，日本音響学会平成９年度秋季研究発表会講演論文集，日本，1997 年９月17日，１−１−12，Ｐａｇｅｓ 23−24 大淵，天野，畑岡，事前知識を利用した話者適応方式の改良と教師なし適応への応用，日本音響学会平成10年度春季研究発表会講演論文集，日本，1998年３月17日，２−６−６，Ｐａｇｅｓ 65−66 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/06 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】あらかじめ保持してある音響モデルと、入
力音声との比較照合によって入力音声を認識する装置で
あって、一定の入力音声をもとに、音響モデルを修正
し、使用条件に適応した認識を行なう装置において、入力音声に対応する音響モデルの修正量をもとに、入力
音声に対応しない音響モデルの修正量を推定することを
可能にする手段と、入力音声に対応する音響モデルの修正量と、入力音声に
対応しない音響モデルの修正量との間の関係を、事前に
集められたデータから計算し、事前知識として保持して
おくことを可能にする手段と、を有することを特徴とする適応型音声認識装置。
【請求項２】個々の音響モデルの修正量の間の関係を、
事前に集められたデータから計算し、事前知識として保
持しておくことを可能にする手段と、上記入力音声に対応する音響モデルと上記入力音声に対
応しない音響モデル相互間の修正量の関係に関する事前
知識をもとに、上記修正量を補正することを可能にする
手段と、を有することを特徴とする、請求項１記載の適応型音声
認識装置。
【請求項３】個々の音響モデルの修正量の間の関係は、
重み付き和の形で表わされ、それらの重み係数が事前知
識として保持されることを特徴とする、請求項１もしく
は請求項２記載の適応型音声認識装置。