JPH06282292A

JPH06282292A - 音声認識方式

Info

Publication number: JPH06282292A
Application number: JP6833093A
Authority: JP
Inventors: Yasunaga Miyazawa; 康永宮沢; Shigeki Sagayama; 茂樹嵯峨山
Original assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK; ATR JIDO HONYAKU DENWA
Current assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK; ATR JIDO HONYAKU DENWA
Priority date: 1993-03-26
Filing date: 1993-03-26
Publication date: 1994-10-07
Anticipated expiration: 2010-10-09
Also published as: JPH0792676B2

Abstract

(57)【要約】【目的】入力音声に最も類似した「話者適応を行なっ
た後の標準話者モデル」を選択することによって、音声
認識の性能を向上させる。【構成】Ｎ人の標準話者の音素ＨＭＭを用意し、すべ
ての標準話者の音素ＨＭＭを、入力話者Ａの学習用単語
データをＫ個用いて、移動ベクトル場平滑化方式により
入力話者Ａに話者適応し、話者適応された各話者の音素
ＨＭＭを入力話者Ａの学習用単語の音素列に従って連結
された連結モデルを、話者毎にＫ個ずつ作成する。入力
話者Ａの学習用単語を入力したときの各話者の連結モデ
ルの出力尤度のＫ個の和を求め、出力尤度の和が最も大
きい話者を選択し、選択した話者の話者適応後の音素Ｈ
ＭＭを用いて入力話者Ａの認識用単語データを認識す
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は音声認識方式に関し、
特に、話者適応，発話様式適応，発話環境適応を用いた
ような音声認識方式に関する。

【０００２】

【従来の技術】従来より、話者適応を用いた音声認識に
おいて、複数の標準話者モデルの中から１つの標準話者
モデルを選択する方法として、Review of Electoric. C
ommu.Lab., Vol.34,No.3,第３５７頁〜第３６２頁（１
９８６）で知られているように、ベクトル量子化歪みな
どを用いて、話者適応を行なう前に、複数の標準話者モ
デルの中から最も入力音声の特徴に類似した１つの標準
話者モデルを選択し、選択された標準話者モデルを入力
音声で話者適応し、その適応されたモデルを音声認識に
用いる技術が知られている。

【０００３】

【発明が解決しようとする課題】しかしながら、上述の
従来の方法では、選択された標準話者モデルが話者適応
を行なって特質が変化した後にも、入力音声の特徴に最
も類似しているとは限らず、話者適応を行なう上で最適
な標準話者選択を行なっていないという問題点があっ
た。

【０００４】それゆえに、この発明の主たる目的は、入
力音声に最も類似した話者適応を行なった後の標準話者
モデルを選択することによって、音声認識の性能を向上
させることのできるような音声認識方式を提供すること
である。

【０００５】

【課題を解決するための手段】この発明は複数の音響モ
デルからなる音響モデル群を、入力音声データを用いて
入力音声の特徴空間にモデル適応し、モデル適応された
後の音響モデル群を用いて音声認識を行なう音声認識方
式であって、音響モデル群を複数組準備し、すべての音
響モデル群を、入力音声を用いて入力音声の特徴空間に
それぞれモデル適応し、モデル適応された後の各音響モ
デル群と入力音声との類似度をそれぞれ求め、求められ
た類似度の値が最も大きいモデル適応後の音響モデル群
を１つ選択し、選択されたモデル適応後の音響モデル群
を用いて音声認識を行なうように構成される。

【０００６】請求項２に係る発明は、請求項１の音響モ
デル群は、１人の発話者が発声した音声データから求め
た複数の音響モデルの集合によって構成される。

【０００７】請求項３に係る発明は、請求項１の音響モ
デルを音素の離散型あるいは連続分布型隠れマルコフモ
デルとし、類似度を入力音声を入力とする隠れマルコフ
モデルの出力尤度とされる。

【０００８】

【作用】この発明に係る音声認識方式は、音響モデル群
を複数組準備し、すべての音響モデル群を、入力音声を
用いた入力音声の特徴空間にそれぞれモデル適応し、モ
デル適応された後の各音響モデル群と入力音声との類似
度をそれぞれ求め、求められた類似度の値が最も大きい
モデル適応後の音響モデル群を１つ選択し、選択された
モデル適応後の音響モデル群を用いた音声認識を行なう
ことにより、入力話者の音声の特徴に適した標準話者を
選択することが可能となり、認識性能を高めることがで
きる。

【０００９】

【実施例】図１はこの発明の一実施例の電気的構成を説
明するための概略ブロック図である。この発明に係る音
声認識方式を実現するために、図１に示すように、アン
プ１と、ローパスフィルタ２と、Ａ／Ｄ変換器３と、処
理装置４とが設けられる。アンプ１は入力された音声信
号を増幅し、ローパスフィルタ２は増幅された音声信号
から繰返し雑音を除去する。Ａ／Ｄ変換器３は音声信号
を１２ｋＨｚのサンプリング信号により、１６ビットの
デジタル信号に変換する。処理装置４はコンピュータ５
と磁気ディスク６と端末類７とプリンタ８とを含む。コ
ンピュータ５はＡ／Ｄ変換器３から入力された音声のデ
ジタル信号に基づいて、後述の図２に示す手法を用いて
音声認識を行なう。

【００１０】図２はこの発明の音声認識方式のアルゴリ
ズムを説明するための図である。この図２に示すアルゴ
リズムは、図１のコンピュータ５によって実行される。
まず、Ｎ人の標準話者の音素隠れマルコフモデル（ＨＭ
Ｍ，Hidden Malkov Model ）が容易される。各話者の音
素ＨＭＭは、予め各話者が発話した単語データで学習し
た混合連続分布型ＨＭＭであり、音素数は、各話者２３
個用意される。次に、すべての標準話者の音素ＨＭＭが
入力話者Ａの学習用単語データＫ個を用いて、移動ベク
トル場平滑化方式により入力話者Ａに話者適応される。
ここで用いられる入力話者Ａの学習用単語データは発話
内容がわかっている単語データである。

【００１１】次に、話者適応された各話者の音素ＨＭＭ
を入力話者Ａの学習用単語の音素列に従って連結させた
連結モデルが話者毎にＫ個ずつ作成される。さらに、入
力話者Ａの学習用単語を入力としたときの各話者の連結
モデルの出力尤度のＫ個の和が求められ、出力尤度の和
が最も大きい話者が選択される。ここで用いた話者適応
後の音素ＨＭＭの連結モデルの出力尤度を「話者正規化
ＨＭＭ尤度」と名付ける。このようにして選択した話者
の話者適応後の音素ＨＭＭを用いて、入力話者Ａの認識
用単語データを認識する。

【００１２】以上のように説明した「話者正規化ＨＭＭ
尤度」に基づく標準話者選択方法のアルゴリズムを数式
を用いて以下に示す。記号の定義Ａ＝｛ａ₁，…，ａ_K｝：入力話者の適応用単語の集合ｉ：標準話者名（１＜ｉ＜Ｉ）ｊ：音素名（１＜ｊ＜Ｊ）Ｂ_i＝｛ｂ_i1，…，ｂ_iJ｝：標準話者ｉの音素ＨＭＭの
集合Ｂ′_i＝｛ｂ′_i1，…，ｂ′_iJ｝：Ｂ_iを話者適応した
後の音素ＨＭＭの集合 Λ′_ik：話者適応後の音素ＨＭＭＢ′_iを基に形成した
単語ａ_kの連結モデルＬ（ａ_k，Λ′_ik）：入力話者の単語ａ_kに対する連結
モデルΛ′_ikの出力尤度定式化

【００１３】

【数１】

【００１４】ここで、ｓ_iが選択された標準話者名であ
る。前述の移動ベクトル場平滑化方式について、以下に
簡単に説明する。最尤推定法により入力音声で音素ＨＭ
Ｍの出力確率の平均値を再学習する。再学習された音素
ＨＭＭの出力確率の平均値と、適応前の平均値との差分
ベクトルを、標準話者空間から入力話者空間への移動ベ
クトルと考え、その集合を移動ベクトル場とする。ここ
で、少量の学習データで再学習された音素ＨＭＭの出力
確率の平均値には推定誤差が含まれており、このように
得られた移動ベクトルの方向は、非連続的な動きをして
いると考えられる。

【００１５】さらに、少量サンプルでは再学習されない
出力確率の平均値も存在する。そこで、移動ベクトル場
に「連続性の拘束条件」を導入することにより、移動ベ
クトルを平滑化することで平均値を補正する。さらに、
未学習の平均値に対する移動ベクトルを他の移動ベクト
ルの内外挿で補間する。ここで、移動ベクトルの平滑化
の強さはfuzziness の値で制御し、この値が大きいほ
ど、強い平滑化が行なわれる。すなわち、fuzziness の
値が無限大では、すべての音素モデルは平行移動する。

【００１６】次に、標準話者を１２名，入力話者を１０
名を用いて、この発明の音声認識方式で音素認識実験を
行なった結果について説明する。まず、入力話者の学習
データを１００単語用いて１２名の標準話者を各入力話
者に話者適応した。入力話者毎に標準話者を１名選択
し、その話者適応後の音素ＨＭＭで入力話者音声の音素
認識を行なった。入力話者１０名の音素認識率は、従来
の方法である話者適応前のＨＭＭの出力尤度を用いて１
名の標準話者を選択し、その話者適応後の音素ＨＭＭで
入力話者音声の音素認識を行なった場合、音素認識率の
平均値は８５．５％であった。また、この発明である話
者適応後のＨＭＭの出力尤度「話者正規化ＨＭＭ尤度」
を用いて標準話者を選択し、その話者の話者適応後の音
素ＨＭＭで入力話者音声の音素認識を行なった場合、音
素認識率の平均値は８６．３％であった。この結果か
ら、この発明による音声認識方式が認識性能の向上に有
効であることがわかる。

【００１７】

【発明の効果】以上のように、この発明によれば、音響
モデル群を複数組準備し、すべての音響モデル群を入力
音声を用いて入力音声の特徴空間にそれぞれモデル適応
し、モデル適応された後の音響モデル群と入力音声との
類似度をそれぞれ求め、求められた類似度の値が最も大
きいモデル適応後の音響モデル群を１つ選択し、選択さ
れたモデル適応後の音響モデル群を用いて音声認識を行
なうことにより、話者適応を行なう上で、入力話者の音
声の特徴に適した標準話者を選択することが可能とな
り、認識性能を高めることができる。

【図面の簡単な説明】

【図１】この発明の一実施例が適用される音声認識装置
の概略ブロック図である。

【図２】この発明の一実施例における音声認識方式のア
ルゴリズムを示す図である。

【符号の説明】

１アンプ２ローパスフィルタ３Ａ／Ｄ変換器４処理装置５コンピュータ６磁気ディスク７端末類８プリンタ

Claims

【特許請求の範囲】

【請求項１】複数の音響モデルからなる音響モデル群
を、入力音声データを用いて前記入力音声の特徴空間に
モデル適応し、モデル適応された後の音響モデル群を用
いて音声認識を行なう音声認識方式において、前記音響モデル群を複数組準備するステップ、前記すべての音響モデル群を、入力音声を用いて前記入
力音声の特徴空間にそれぞれモデル適応するステップ、前記モデル適応された後の各前記音響モデル群と前記入
力音声との類似度をそれぞれ求めるステップ、前記求められた前記類似度の値が最も大きいモデル適応
後の前記音響モデル群を１つ選択するステップ、および
前記選択されたモデル適応後の前記音響モデル群を用い
て音声認識を行なうステップを含む、音声認識方式。
【請求項２】前記音響モデル群は、１人の発話者が発
声した音声データから求めた複数の音響モデルの集合で
あることを特徴とする、請求項１の音声認識方式。
【請求項３】前記音響モデルを音素の離散型あるいは
連続分布型隠れマルコフモデルとし、前記類似度を前記
入力音声を入力とする隠れマルコフモデルの出力尤度と
することを特徴とする、請求項１の音声認識方式。