JP3289670B2

JP3289670B2 - 音声認識方法および音声認識装置

Info

Publication number: JP3289670B2
Application number: JP06279098A
Authority: JP
Inventors: 剛男大野; 麻紀山田; 昌克星見
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1998-03-13
Filing date: 1998-03-13
Publication date: 2002-06-10
Anticipated expiration: 2018-03-13
Also published as: JPH11259086A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、話者適応機能を有
する音声認識方法および音声認識装置に関する。

【０００２】

【従来の技術】人の発声する音声は、異なる話者が発声
した場合、例え同じ語彙発声しても、喉頭、舌、唇など
で構成される調音器官の特性が個人ごとによって異なる
ため、音声信号を音響分析した結果得られる音響パラメ
ータは、人ごとの調音器官の特性に依存して、微妙な差
が生じる。これを音声信号の個人性と呼ぶ。多くの音声
認識装置では、識別のための特徴量パラメータとして、
調音器官の特性の影響を受けやすい、音響パラメータを
用いている。不特定話者用音声認識装置の標準パターン
は、不特定多数の話者が発声した音声信号から学習され
た音響パラメータの平均値から構成されるため、調音器
官の特性が著しく平均的な特性から異なる話者に対して
は、認識性能が低下してしまうという問題がある。そこ
で、従来、こうした話者の個人性に基づく問題を対処す
るためには、話者の発声した音声信号から、不特定話者
標準パターンをその話者に適した値に適応することで、
音声認識装置に話者適応機能をもたせて、認識性能を維
持する方法がとられてきた。こうした、話者の個人性に
基づく認識率低下を防ぐ話者適応方式としては、特開平
８−２２２９６号公報に記載されたものが知られてい
る。このような、話者の個人性にもとづく認識率の低下
に対して標準パターンを話者適応学習することで対処す
る従来法の一例の構成を、図３に示す。

【０００３】従来法においては、入力音声は、音響分析
部３０１において、音響パラメータ系列に変換される。
音響パラメータとしては、例えば中川著、「確率モデル
による音声認識」、電子情報通信学会（昭和６３年）に
あげられている、ＬＰＣケプストラム係数、ＬＰＣメル
ケプストラム係数などが用いられる。話者適応時、単語
辞書３０３は、話者学習用入力音声に対応した単語がい
かなる音声片から構成されるかを表す音声片情報を、不
特定話者用音声片標準パターン格納部３０４に送る。こ
こで、音声片の単位としては、後続の音素環境を考慮し
た音素バイグラム、あるいは、前後の音素環境を考慮し
た音素トライグラムなどが考えられる。不特定話者用音
声片標準パターン格納部３０４では、単語辞書３０３か
ら送られた音声片情報に基づき、音響パラメータから構
成される音声片標準パターンの接続により不特定話者用
単語標準パターンを作成し、パターンマッチング部３０
２と音声片標準パターン適応部３０５に送る。パターン
マッチング部３０２では、入力音声から得られた音響パ
ラメータ時系列と、不特定話者単語標準パターンが時間
照合され、時間対応結果が算出される。パターンマッチ
ング部３０２での時間照合の方法としては、例えばＤＰ
マッチング、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭ
ｏｄｅｌ）などが利用される。話者適応時には、パター
ンマッチング部３０２から、入力音声の音響パラメータ
時系列と不特定話者用単語標準パターンの時間対応結果
と、入力音声の音響パラメータ時系列が、音声片標準パ
ターン適応部３０５に送られる。音声片標準パターン適
応部３０５では、入力音声の音響パラメータ時系列と単
語標準パターンの線形結合などの方法により、単語標準
パターンを特定話者用に適応する。適応後の単語標準パ
ータンは、音声片標準パターン適応部において音声片単
位に分割され、特定話者用音声片標準パターン格納部３
０６に格納される。認識時には、特定話者用音声片標準
パターン格納部３０６に格納された特定話者用音声片標
準パターンを用いて特定話者用単語標準パターンを、単
語辞書３０３中全ての単語に対して構成し、パターンマ
ッチング部３０２にて、入力音声の音響パラメータ時系
列と時間照合計算を行い、最も照合スコアの高かった辞
書単語を最終的な認識結果として出力する。

【０００４】

【発明が解決しようとする課題】しかしながら、音響パ
ラメータで表される音声片標準パターンを、入力音声の
音響パラメータ時系列との時間照合により、特定話者用
に話者適応する従来の方法においては、認識対象となる
単語辞書の語彙が大きく、単語標準パターンを構成する
ために必要な音声片標準パターンの種類が大きい場合に
は、全ての語彙に対して話者適応学習済みの特定話者用
音声片標準パターンを用意するためには、話者適応学習
のために、大量の学習サンプル音声を話者が発声する必
要があり、全ての音声片標準パターンを学習するのに充
分な発声を行うことは話者に多大な負担をかけるという
課題があった。また、話者が膨大な話者適応学習用の発
声を行う場合にも、音声片標準パターンの格納に必要な
メモリー量が膨大な場合には、特定話者用の音声片標準
パターン用にさらに膨大なメモリー量を必要とすること
になり、音声認識装置自体に必要とされるメモリー量
が、大きくなってしまうという課題があった。さらに、
従来の方法において、限られた少量の話者適応学習音声
データから、発声外の音声片標準パターンを適応する場
合には、例えば電子通信情報学会ＳＰ９２−１６（１
９９２年）に記載されたＶＦＳ（ベクトル場平滑化）な
どの工夫が必要となり、音声認識装置の構成が複雑にな
ってしまうという課題があった。

【０００５】本発明は、上述の問題を解決するものであ
り、少ないメモリー量によって、少量の話者適応学習デ
ータでも効率的な話者適応を実現できる、高性能な音声
認識装置を提供することを目的とする。

【０００６】

【課題を解決するための手段】本発明による音声認識方
法は、入力音声に対して分析時間毎にｍ個の特徴パラメ
ータ系列を求め、分析時間毎にｎ種類の音素標準パター
ンとマッチングを行い、分析時間毎に求めたｎ個の類似
度と、予め作成しておいた音素類似度の時系列で構成さ
れる単語標準パターンとマッチングすることにより単語
を認識する音声認識方法において、前記単語標準パター
ンから音素類似度が高いフレームを抽出しておき、入力
音声と単語標準パターンのマッチングで得られる時間対
応の結果から、単語標準パターンの音素類似度が高いフ
レームに対応した入力音声フレームを求め、このフレー
ムの入力音声の特徴パラメータを音素標準パターン学習
データとして抽出し、前記音素標準パターンと前記音素
標準パターン学習データとを統合し、新たな音素標準パ
ターンを作成するものである。

【０００７】これにより、少ないメモリー量によって、
少数の話者適応学習データでも効率的な話者適応を実現
できる高性能な音声認識装置を提供することができる。

【０００８】

【発明の実施の形態】本発明の請求項１に記載の発明
は、入力音声に対して分析時間毎にｍ個の特徴パラメー
タ系列を求め、分析時間毎にｎ種類の音素標準パターン
とマッチングを行い、分析時間毎に求めたｎ個の類似度
と、予め作成しておいた音素類似度の時系列で構成され
る単語標準パターンとマッチングすることにより単語を
認識する音声認識方法において、前記単語標準パターン
から音素類似度が高いフレームを抽出しておき、入力音
声と単語標準パターンのマッチングで得られる時間対応
の結果から、単語標準パターンの音素類似度が高いフレ
ームに対応した入力音声フレームを求め、このフレーム
の入力音声の特徴パラメータを音素標準パターン学習デ
ータとして抽出し、前記音素標準パターンと前記音素標
準パターン学習データとを統合し、新たな音素標準パタ
ーンを作成するもので、話者適応学習用音声データが少
量の場合にも、あるいは、話者適応機能の実現のために
多くのメモリー量もつことができない場合にも、音素標
準パターンと音響パラメータ時系列との照合によって得
られる音素類似度を単語パターンマッチング時の特徴量
パラメータとし、音素標準パターンの話者適応学習を行
うことにより、少ないメモリー量によって、少量の話者
適応学習データでも効率的な話者適応が可能になるとい
う作用を有する。

【０００９】

【００１０】請求項２に記載の発明は、入力音声に対し
て分析時間毎にｍ個の特徴パラメータ系列を求め、分析
時間毎にｎ種類の音素標準パターンとマッチングを行
い、分析時間毎に求めたｎ個の類似度と、予め作成して
おいた音素類似度の時系列で構成される単語標準パター
ンとマッチングすることにより単語を認識する音声認識
装置において、前記単語標準パターンから音素類似度が
高いフレームを抽出する高音素類似度フレーム情報抽出
手段と、入力音声と単語標準パターンのマッチングで得
られる時間対応の結果から、単語標準パターンの音素類
似度が高いフレームに対応した入力音声フレームを求
め、このフレームの入力音声の特徴パラメータを音素標
準パターン学習データとして抽出する適応学習パターン
抽出手段と、前記音素標準パターンと前記音素標準パタ
ーン学習データとを統合し、新たな音素標準パターンを
作成する音素標準パターン適応手段とを具備するもの
で、話者適応学習用音声データが少量の場合にも、ある
いは、話者適応機能の実現のために多くのメモリー量も
つことができない場合にも、あるいは、話者適応機能の
実現のために音声認識装置の構成を複雑な構成にできな
い場合にも、音素標準パターンと音響パラメータ時系列
との照合によって得られる音素類似度を単語パターンマ
ッチング時の特徴量パラメータとし、音素標準パターン
の話者適応学習を行うことにより、少ないメモリー量に
よって、少量の話者適応学習データでも効率的な話者適
応が可能になるという作用を有する。

【００１１】以下図面を参照しながら本発明の実施の形
態について具体的に説明する。（実施の形態）図１は、本発明の実施の形態による音声
認識装置のブロック構成図を示す。図１において、１０
１は入力音声を分析時間毎に音響パラメータに変換する
音響分析部、１０２は音響分析部１０１で得られた音響
パラメータとあらかじめ用意された音素種ごとの不特定
話者用音素標準パターンと照合する音素類似度計算部、
１０３は得られた音響パラメータ時系列を格納する不特
定話者用音素標準パターン格納部、１０４は音素類似度
時系列を特徴量パラメータとして、単語標準パターンと
時間照合するパターンマッチング部、１０５は単語辞
書、１０６は単語辞書１０６から送られた音声片情報に
基づき、あらかじめ学習された音素類似度からなる音声
片標準パターンを接続する不特定話者用音声片標準パタ
ーン格納部、１０７は音素類似度時系列で構成される単
語標準パターンから、いずれかの音素に対する音素類似
度が高いフレームを抽出する高音素類似度フレーム情報
抽出部、１０８は単語標準パターン中の高音素類似度フ
レームに対応した入力音声フレーム近傍から話者適応学
習サンプルパターンを抽出する適応学習パターン抽出
部、１０９は音素標準パターンの話者学習を行う音素標
準パターン適応部、１１０は特定話者用音素標準パター
ンを格納した特定話者用音素標準パターン格納部であ
る。

【００１２】上記のように構成された音声認識装置の動
作を以下に説明する。まず、話者適応時について説明す
る。

【００１３】音響分析部１０１は、入力音声を分析時間
（フレームと呼ぶ、本実施例では１フレーム＝１０ｍｓ
ｅｃ）毎に、１０次元のＬＰＣケプストラム系列、パワ
ーの時間差分、正規化残差の、合計１２次元の音響パラ
メータに変換する。

【００１４】音素類似度計算部１０２は、音響分析部１
０１で得られた音響パラメータ時系列と、あらかじめ不
特定話者用音素標準パターン格納部１０３に格納され
た、音素種ごとに用意された不特定話者用音素標準パタ
ーンと照合する。ここで音素は、日本語の一般的な定義
に従い｛ａ、ｏ、ｕ、ｉ、e、ｚ、ｓ、ｈｖ、ｈｕ、
ｐ、ｔ、ｋ、ｃ、ｂ，ｄ、Ｎ、ｊ、ｗ、ｙｖ、ｙｕ、
ｍ、ｎ、ｎｇ、ｒ｝の２４音素分類を用いる。また、各
音素標準パターンは、音素毎に定義されたの特徴フレー
ム（その音素の特徴をよく表現する時間的位置）を目視
によって正確に検出し、この特徴フレームを中心とした
音響パラメータの時間パターンを使用して作成する。本
実施例では、時間パターンとして特徴フレームの近傍１
０フレーム分の音響パラメータによって計１２０次元
（音響パラメータ１２次元×時間パターン１０フレー
ム）のパターンを構成し、不特定多数の話者の発声デー
タから、あらかじめ音素標準パターンを学習しておく。
また、音素類似度は、共分散行列を共通化したマハラノ
ビス距離を用いて求める。

【００１５】入力音声の音響パラメータ時系列を不特定
話者用音素標準パターンと照合した結果得られた音素類
似度時系列は、音素種の次元（本実施例では２４次元）
をもち、単語パターンマッチング時の特徴量パラメータ
として、パターンマッチング部１０４に送られる。

【００１６】単語辞書１０５は、話者学習用入力音声に
対応した単語がいかなる音声片から構成されるかを表す
音声片情報を、音素類似度時系列で構成される不特定話
者用音声片標準パターンを格納する、不特定話者用音声
片標準パターン格納部１０６に送る。ここで、本実施例
においては、音声片の単位は、前後の音素環境を考慮し
たＣＶ／ＶＣ単位で、５３６種類が存在する。

【００１７】不特定話者用音声片標準パターン格納部１
０６では、単語辞書１０５から送られた音声片情報に基
づき、あらかじめ学習された音素類似度からなる音声片
標準パターンを接続し、単語標準パターンをパターンマ
ッチング部１０４と高音素類似度フレーム情報抽出部１
０７に送る。

【００１８】パターンマッチング部１０４では、入力音
声から得られた音素類似度時系列と、単語標準パターン
がＤＰマッチングにより時間照合され、時間対応結果が
算出される。

【００１９】高音素類似度フレーム情報抽出部１０７で
は、音素類似度時系列で構成される単語標準パターンか
ら、いずれかの音素に対する音素類似度が高いフレーム
を抽出し、どの音素がどのフレームで高い音素類似度を
もつかを表す、高音素類似度フレーム情報として、適応
学習パターン抽出部１０８に送る。本実施例において
は、高音素類似度フレーム情報抽出部１０７では、２４
音素に対するいずれかの音素類似度がしきい値Ｔｈより
高いフレームを全て高音素類似度フレームとした。ま
た、しきい値Ｔｈは実験により最適値を求めた。

【００２０】適応学習パターン抽出部１０８において、
単語標準パターン中の高音素類似度フレーム情報と、入
力音声と単語標準パターンの時間対応結果から、単語標
準パターン中の高音素類似度フレームに対応した入力音
声フレームが算出され、このフレーム近傍の入力音声の
音響パラメータパターンを話者適応学習サンプルパター
ンとして抽出し、音素標準パターン適応部１０９に送
る。

【００２１】音素標準パターン適応部１０９では、適応
学習パターン抽出部１０８からの話者適応学習サンプル
パターンと、不特定話者用音素標準パターン格納部１０
３からの不特定話者用音素標準パターンとから、特定話
者用音素標準パターンを算出し、特定話者用音素標準パ
ターン格納部１１０に格納する。本実施例においては、
特定話者用音素標準パターンの平均値（数１）が、

【００２２】

【数１】

【００２３】適応前の不特定話者用音素標準パターンの
平均（数２）と、

【００２４】

【数２】

【００２５】話者適応学習サンプルパターンの値（数
３）の線形結合として、

【００２６】

【数３】

【００２７】（数４）と計算される。

【００２８】

【数４】

【００２９】ここでαは線形結合の混合比で実験による
最適値を用いる。

【００３０】次に、認識時の処理について説明する。音
響分析部１０１は、入力音声を分析時間（フレームと呼
ぶ、本実施例では１フレーム＝１０ｍｓｅｃ）毎に、１
０次元のＬＰＣケプストラム系列、パワーの時間差分、
正規化残差の、合計１２次元の音響パラメータに変換す
る。音素類似度計算部１０２は、音響分析部１０１で得
られた音響パラメータ時系列と、特定話者用音素標準パ
ターン格納部１１０に格納された特定話者用音素標準パ
ターンを用いて音素類似度時系列を算出する。

【００３１】パターンマッチング部１０４は、不特定話
者用音声片標準パターン格納部１０６からの単語標準パ
ターンと照合計算を行い、最も照合スコアの高い辞書単
語を最終的な認識結果として出力する。

【００３２】図２は、本実施例における話者適応の効果
を示す、音素類似度時系列の概念図であり、発声『ＺＡ
ＭＡ（ざま）』における、音素／ａ／の音素類似度の時
間変化を示す。上段ａ）は、不特定話者用音声片標準パ
ターンを接続して作成した単語標準パターンの時間変
化、下段ｂ）の点線は、入力音声と不特定話者用音素標
準パターン／ａ／とを照合して得られた音素類似度時系
列、下段ｂ）の実線は、入力音声と適応後の特定話者音
素標準パターン／ａ／とを照合して得られた音素類似度
時系列である。単語標準パターン中の、高音素類似度フ
レームの一つであるフレーム（数５）は高い音素類似度
を持つ。

【００３３】

【数５】

【００３４】入力音声と不特定話者用音素標準パターン
／ａ／との照合で得られる音素類似度時系列で、ＤＰマ
ッチングにより（数５）に対応した入力フレーム（数
６）は、（数５）に比べて小さい類似度である。

【００３５】

【数６】

【００３６】一方、本実施例に基づき話者学習された特
定話者用音素標準パターン／ａ／との照合で得られた音
素類似度系列では、（数５）に対応した入力フレーム
（数７）では、（数５）同様、高い音素類似度を持ち、
本実施例による話者適応効果が確認できる。

【００３７】

【数７】

【００３８】以上、本実施例の構成を用いて、１００単
語を発声した１１名の音声データの認識実験を行った。
音素標準パターンの話者適応学習は、評価発声データと
は異なる２０単語を用いて行った。１１名の平均認識率
が、本実施例に基づく話者適応を行う前は９３．２％で
あったのに対し、本実施例に基づく話者適応後は、９
６．１％に認識率が改善され、誤り率が約４０％改善さ
れた。

【００３９】なお、本実施例においては、単語マッチン
グ時の特徴量パラメータである音素類似度の計算に、音
響パラメータの時間パタンを用い、距離尺度として共分
散行列を共通化したマハラノビス距離を用いたが、ＨＭ
Ｍから構成される音素モデルから音素類似度を計算する
こともできる。

【００４０】また、本実施例においては、認識対象を、
単語としたが、これを連続発声を認識する際に利用する
ことも可能である。

【００４１】

【発明の効果】本発明によれば、音素標準パターンと音
響パラメータ時系列との照合によって得られる音素類似
度を単語パターンマッチング時の特徴量パラメータと
し、音素標準パターンの話者適応学習を行うことによ
り、少ないメモリー量によって、少量の話者適応学習デ
ータでも効率的な話者適応を実現できる、高性能な音声
認識装置を提供できるという効果を得る。

【図面の簡単な説明】

【図１】本発明の実施の形態における音声認識装置のブ
ロック構成図

【図２】本発明の実施例における音素類似度時系列を示
す概念図

【図３】従来技術の音声認識装置を示すブロック図

【符号の説明】

１０１音響分析部１０２音素類似度計算部１０３不特定話者用音素標準パターン格納部１０４パターンマッチング部１０５単語辞書１０６不特定話者用音声片標準パターン格納部１０７高音素類似度フレーム情報抽出部１０８適応学習パターン抽出部１０９音素標準パターン適応部１１０特定話者用音素標準パターン格納部

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特公平７−19158（ＪＰ，Ｂ２) 特公平７−1435（ＪＰ，Ｂ２) 日本音響学会研究発表会講演論文集平成８年秋季▲Ｉ▼ 123−124ページ「音素環境の環境構造と特定話 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/06

Claims

(57)【特許請求の範囲】

【請求項１】入力音声に対して分析時間毎にｍ個の特
徴パラメータ系列を求め、分析時間毎にｎ種類の音素標
準パターンとマッチングを行い、分析時間毎に求めたｎ
個の類似度と、予め作成しておいた音素類似度の時系列
で構成される単語標準パターンとマッチングすることに
より単語を認識する音声認識方法において、前記単語標
準パターンから音素類似度が高いフレームを抽出してお
き、入力音声と単語標準パターンのマッチングで得られ
る時間対応の結果から、単語標準パターンの音素類似度
が高いフレームに対応した入力音声フレームを求め、こ
のフレームの入力音声の特徴パラメータを音素標準パタ
ーン学習データとして抽出し、前記音素標準パターンと
前記音素標準パターン学習データとを統合し、新たな音
素標準パターンを作成することを特徴とする音声認識方
法。
【請求項２】入力音声に対して分析時間毎にｍ個の特
徴パラメータ系列を求め、分析時間毎にｎ種類の音素標
準パターンとマッチングを行い、分析時間毎に求めたｎ
個の類似度と、予め作成しておいた音素類似度の時系列
で構成される単語標準パターンとマッチングすることに
より単語を認識する音声認識装置において、前記単語標
準パターンから音素類似度が高いフレームを抽出する高
音素類似度フレーム情報抽出手段と、入力音声と単語標
準パターンのマッチングで得られる時間対応の結果か
ら、単語標準パターンの音素類似度が高いフレームに対
応した入力音声フレームを求め、このフレームの入力音
声の特徴パラメータを音素標準パターン学習データとし
て抽出する適応学習パターン抽出手段と、前記音素標準
パターンと前記音素標準パターン学習データとを統合
し、新たな音素標準パターンを作成する音素標準パター
ン適応手段とを具備することを特徴とする音声認識装
置。