JP4449380B2

JP4449380B2 - 話者正規化方法及びそれを用いた音声認識装置

Info

Publication number: JP4449380B2
Application number: JP2003321374A
Authority: JP
Inventors: 景子森井; 良久中藤; 裕康桑野
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2002-09-24
Filing date: 2003-09-12
Publication date: 2010-04-14
Anticipated expiration: 2023-09-12
Also published as: JP2004139049A

Description

本発明は音響特徴量を用いた音声の個人差を補正する話者正規化方法及びそれを用いた音声認識装置に関する。

従来、話者正規化方法を用いた音声認識装置としては、特許文献１に記載されているものが知られている。図１４は、特許文献１に記載された従来の音声認識方法を示す流れ図である。

まず、Ａ／Ｄ変換を行ってディジタル化された音声を入力信号として、ＬＰＣケプストラム係数等の特徴量を抽出し（ステップＳ１０）、次に、無声音／有声音の判定を行って無声音／有声音区間を検出し（Ｓ２０）、次に、発声者の声道長の個人差に起因する影響を正規化するために、ＬＰＣケプストラム等の特徴量に周波数軸上の変換を施す（ステップＳ３０）。

次に、周波数軸上の変換を施された入力音声の特徴量と予め複数話者から学習した音響モデル特徴量とのマッチングを行い（ステップＳ５０）、少なくとも１つの認識結果候補を出力する。その後、ステップＳ５０において算出された認識結果をもとに入力発声を教師信号として最適な変換係数を求める（ステップＳ６０）。次に、話者や音韻によるばらつきを吸収するため変換係数平滑化を行い、新たな周波数変換係数として更新する（ステップＳ７０）。ステップＳ７０で更新された新たな周波数変換係数はステップＳ３０で新たな周波数変換係数として使用される。

一方、入力話者の音声スペクトルの周波数を伸縮する手法を用いた音声認識装置としては、音声単位毎に音素境界情報を推定し、この音素境界情報に基づいて選択した音素区間に関して周波数伸縮関数を推定するものがある（たとえば、特許文献２参照）。
特開２００１−２５５８８６号公報（第４−８頁、第２図）特開２００２−１８９４９２号公報（第４頁）

しかしながら、このような従来の方法では、無声音や有声音などの音素または音声区間の検出もしくは推定を行った後に、情報に同期して周波数変換を行う必要がある上に、認識対象語辞書が話者正規化を行う際にも必要であるという課題を有していた。

本発明は、このような従来の課題を解決するものであり、認識対象語辞書を使用せずに、情報や音声区間の検出もしくは推定をすることなく話者正規化を行い、入力音声の個人差を補正して音声認識性能を向上せしめることを目的とする。

上記課題を解決するために、本願の音声認識装置は、フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出部と、前記音響特徴量を記憶する特徴量記憶部と、複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換部と、前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出部と、前記算出された複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定部と、単語モデルを用いて音声認識する音声認識処理部と、を備え、前記周波数変換条件決定部は、前記算出された複数の類似度又は距離から、標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、当該選定された結果を用いて最尤となる標準音韻および当該標準音韻に対応する周波数変換係数の組み合わせを前記フレーム毎に選定し、前記周波数変換係数の出現頻度を複数フレームに渡って周波数変換係数毎に累積し、前記出現頻度の最も多い周波数変換係数を全フレームに渡る周波数変換係数とし、前記周波数変換部は、前記周波数変換条件決定部によって決定された周波数変換条件を用いて前記特徴量記憶部に記憶された前記音響特徴量を周波数変換し、前記音声認識処理部は、前記周波数変換条件を用いて周波数変換された前記音響特徴量と前記単語モデルを用いて音声認識をする。

好ましい実施形態として、本願の音声認識装置は、フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出部と、前記音響特徴量を記憶する特徴量記憶部と、複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換部と、前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出部と、前記算出された複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定部と、単語モデルを用いて音声認識する音声認識処理部と、を備え、前記周波数変換条件決定部は、前記算出された複数の類似度又は距離から、標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、前記周波数変換係数の出現頻度を複数フレームに渡って前記標準音韻毎に累積し、前記標準音韻別に前記出現頻度の最も多い周波数変換係数を選定し、当該選定した周波数変換係数を全フレームに渡る標準音韻に対応する周波数変換係数として決定し、前記算出された複数の類似度又は距離から、当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい音韻を、フレーム毎にフレームを代表する代表標準音韻として決定し、前記周波数変換部は、前記決定された代表標準音韻を用いて前記全フレームに渡る標準音韻に対応する周波数変換係数をフレーム毎に選択し、当該選択された周波数変換を用いて前記音響特徴量をフレーム毎に周波数変換する。

好ましい実施形態として、本願の音声認識装置は、フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出部と、前記音響特徴量を記憶する特徴量記憶部と、複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換部と、前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出し、かつ、前記特徴量抽出部が抽出した音響特徴量と標準音韻の標準音韻モデルとの前記音響特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出部と、前記算出された前記変換後特徴量と前記標準音韻モデルとの複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定部と、単語モデルを用いて音声認識する音声認識処理部と、を備え、前記周波数変換条件決定部は、前記算出された前記変換後特徴量と前記標準音韻モデルとの複数の類似度又は距離から、標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、前記周波数変換係数の出現頻度を複数フレームに渡って前記標準音韻毎に累積し、前記標準音韻別に前記出現頻度の最も多い周波数変換係数を選定し、当該選定した周波数変換係数を全フレームに渡る標準音韻に対応する周波数変換係数として決定し、前記標準音韻毎に、前記算出された前記音響特徴量と前記標準音韻モデルとの類似度又は距離に対応する標準音韻毎の重みをフレーム毎に算出し、前記周波数変換部は、前記全フレームに渡る標準音韻に対応する周波数変換係数と前記算出したフレーム毎の標準音韻毎の重みを用いて、前記音響特徴量をフレーム毎に周波数変換する。

好ましい実施形態として、前記標準音韻は母音である。これによって、周波数変換を行う対象として、少なくとも最も信頼性の高い母音の情報を、必ず利用して全区間の周波数変換条件を決定することになるため、決定された周波数変換条件の信頼度も、より高いものにすることができる。

好ましい実施形態として、前記標準音韻は母音のみである。これによって、周波数変換を行う対象として、最も信頼性の高い母音の情報を利用して全区間の周波数変換条件を決定することになるため、決定された周波数変換条件の信頼度を、より高いものにすることができ、かつ標準音韻モデルのデータ量を少なく抑えることができる。

好ましい実施形態として、音声リモコン装置は、前記入力音声を取り込むマイクロフォンと、前記入力音声が入力される上記に記載のいずれかに一つの音声認識装置と、前記音声認識装置からの認識結果である操作対象装置に対して操作信号を発信する信号発生装置とを有する。

本発明の音声認識方法は、特徴量抽出部が、フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出ステップと、前記音響特徴量を特徴量記憶部に記憶する特徴量記憶ステップと、周波数変換部が、複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換ステップと、類似度乃至距離算出部が、前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出ステップと、周波数変換条件決定部が、前記算出された複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定ステップと、音声認識処理部が、単語モデルを用いて音声認識する音声認識処理ステップと、を含み、前記周波数変換条件決定ステップは、前記算出された複数の類似度又は距離から標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、当該選定された結果を用いて最尤となる標準音韻および当該標準音韻に対応する周波数変換係数の組み合わせを前記フレーム毎に選定し、前記周波数変換係数の出現頻度を複数フレームに渡って周波数変換係数毎に累積し、前記出現頻度の最も多い周波数変換係数を全フレームに渡る周波数変換係数とし、前記周波数変換ステップは、前記周波数変換条件決定ステップによって決定された周波数変換条件を用いて前記特徴量記憶部に記憶された前記音響特徴量を周波数変換し、前記音声認識処理ステップは、前記周波数変換条件を用いて周波数変換された前記音響特徴量と前記単語モデルを用いて音声認識をする。

本発明により、入力音声を標準話者の少なくとも１つ以上の標準音韻モデルに合わせるように正規化条件を決定することによって認識対象語辞書を使用せずとも入力音声の話者による差を正規化することが可能になり、この話者正規化を行うことで、認識性能を向上させることができる。

以下、本発明の実施の形態について図面を用いて説明する。

（実施の形態１）
図１は本発明の第１の実施の形態である話者正規化を用いた音声認識システムのハードウェアを示すブロック図である。図１において、マイクロフォン１０１は音声を取り込み、Ａ／Ｄ変換器１０２が音声のアナログ信号をディジタル信号に変換する。シリアルコンバータ（以下「ＳＣＯ」という。）１０３は、Ａ／Ｄ変換器１０２からのシリアル信号をバスライン１１２に送る。記憶装置１０４には、あらかじめ複数の話者の音声から学習した音韻毎の特徴量を統計処理した数値群である標準話者群音韻モデル（以下「標準音韻モデル」という。）、及び、あらかじめ複数の話者の音声から学習した音声片毎の特徴量を統計処理して得られた数値群である音声片モデルを連結して得られる単語モデルが記憶さ
れている。

パラレルＩＯポート（以下ＰＩＯという。）１０５は、この記憶装置１０４から標準音韻モデルあるいは単語モデルをバスクロックに同期してバスライン１１２に出力し、ディスプレイなどの出力装置１１０に音声認識結果を出力する。ＲＡＭ１０７は、データ処理を実行するときに使用する一時記憶用のメモリであり、ＤＭＡコントローラ（以下「ＤＭＡ」という。）１０６が、記憶装置１０４、出力装置１１０及びＲＡＭ１０７の間の高速なデータ転送を制御する。

ＲＯＭ１０８は、処理プログラムや後述するあらかじめ設定した周波数変換のための変換係数などのデータが書き込まれている。そして、これらＳＣＯ１０３、ＰＩＯ１０５、ＤＭＡ１０６、ＲＡＭ１０７及びＲＯＭ１０８はバス接続され、ＣＰＵ１０９でコントロールされている。このＣＰＵ１０９は、ディジタルシグナルプロセッサ（ＤＳＰ）に置き換えることも可能である。

ＳＣＯ１０３乃至ＣＰＵ１０９により音声認識装置１００を構成している。

次に、図２を用いて、図１に示したハードウェア構成の音声認識装置１００の機能ブロックの構成について説明する。

特徴量抽出部２０１は、入力される音声データＳＩＧ１から音声を時分割して得られる音響特徴量を抽出する。入力される音声データＳＩＧ１はディジタルデータであり、サンプリング周波数としては様々な値が使われている。例えば、電話音声では８ｋＨｚが使われ、ＣＤオーディオでは４４．１ｋＨｚが使われている。ここでは、サンプリング周波数として１０ｋＨｚを使用した。

また、音響特徴量を抽出する時分割単位として、窓長及びシフト幅は５ｍｓ程度から５０ｍｓ程度の値が考えられるが、本実施の形態１においては窓長を３０ｍｓとし、シフト幅を１５ｍｓとした。

この時間幅の音声データより、スペクトルを表現する音響特徴量を抽出する。スペクトルを表現する特徴量としては、ＬＰＣケプストラム係数、ＬＰＣメルケプストラム係数、ケプストラム係数抽出前にメルスケールで変換を行うメル化ＬＰＣケプストラム係数、ＭＦＣＣ、これらケプストラム係数の差分を取ったデルタケプストラムなど、種々のパラメータが知られているが、ここでは、７次のＬＰＣメルケプストラム係数を抽出する。

周波数変換部２０２は、特徴量抽出部２０１で得られた特徴量に対して周波数変換を施す。周波数変換方法は、線形に伸縮する方法やシフトする方法、非線形関数で伸縮やシフトする方法などが知られているが、本実施の形態１では、（式１）で表現される１次オールパスフィルタ関数を用いた非線形伸縮を行った。

（式１）のαを周波数変換係数（以下「変換係数」という。）という。変換係数αは、
本来は可変の値であるが、本実施の形態１においては、処理の都合上、‘−０．１５’、‘−０．１’、‘−０．０５’、‘０’、‘＋０．０５’、‘＋０．１０’、‘＋０．１５’の７つの離散値α₁乃至α₇を用いた。これらを以下では変換係数群と呼ぶこととする。

周波数変換部２０２は、設定された変換係数を用いて（式１）により周波数変換処理を行う。変換係数設定部２０３は、周波数変換部２０２に対して複数の変換係数を設定する。類似度乃至距離算出部２０４は、標準音韻モデル２０５から標準音韻モデルデータを読み込み、周波数変換部２０２から得た複数の変換係数各々による複数の変換後の入力音響特徴量（以下「変換後特徴量」という。）との類似度又は距離を算出する。ここでの類似度又は距離については、後ほど詳しく説明する。また、この算出結果を結果蓄積部２０６に蓄積する。

標準音韻モデル２０５は、以下に示す２４音韻についての特徴量を統計処理した数値群からなっている。

／ａ／、／ｏ／、／ｕ／、／ｉ／、／ｅ／、／ｊ／、／ｗ／、／ｍ／、／ｎ／、／ｎｇ／、／ｂ／、／ｄ／、／ｒ／、／ｚ／、／ｈｖ／、／ｈｕ／、／ｓ／、／ｃ／、／ｐ／、／ｔ／、／ｋ／、／ｙｖ／、／ｙｕ／、／ｎ／
この音韻の選択については、電子情報通信学会論文誌Ｄ−ＩＩＮＯ．１２ｐｐ．２０９６−ｐｐ．２１０３において述べられている。

単語モデル２１０は、音声片モデルを連結して得られる認識対象語をあらわすものであり、認識対象標準音響モデルの１つの例に相当する。標準音韻モデル２０５と単語モデル２１０は、共に記憶装置１０４に記憶されており、どちらも同じ標準話者群の同じ発声群を入力として統計処理を用いて学習している。

変換条件決定部２０７は、結果蓄積部２０６に蓄積された結果から音声認識に使用する変換条件を決定する。

特徴量蓄積部２０８は、特徴量抽出部２０１で抽出された特徴量を、音声認識処理が完了するまで一時的に蓄積するメモリであり、ＲＡＭ１０７の一部が相当する。

音声認識処理部２０９は、周波数変換された特徴量と単語モデル２１０との類似度又は距離を演算し単語を決定する。また、この認識結果を出力装置１１０に出力する。

このような機能構成の音声認識装置１００の動作について、図３に示す流れ図を用いて説明する。

まず、特徴量抽出部２０１は、マイクロフォン１０１から入力され、Ａ／Ｄ変換器１０２によってディジタル信号化された音声について、１フレーム毎に音響特徴量として７次のＬＰＣメルケプストラム係数を抽出する（ステップＳ３０１）。そして、抽出した特徴量を、周波数変換部２０２へ出力すると同時に、特徴量蓄積部２０８に蓄積する。

次に、変換係数設定部２０３が所定の変換係数を周波数変換部２０２に設定する。周波数変換部２０２は、音響特徴量をこの変換係数で（式１）により周波数変換して変換後特徴量を求める。この変換を変換係数群すべての変換係数について行う。これにより、１フレーム毎に変換係数群に含まれる変換係数の数だけ変換後特徴量が算出される（ステップＳ３０２）。

類似度乃至距離算出部２０４は算出された変換後特徴量から一つを選び、標準音韻モデル２０５から読み出した全ての音韻の標準音韻モデルと比較する。この比較は、単一フレーム同士を照合する方法と前後の数フレームを加えて照合する方法とが考えられる。本実施の形態１では、入力フレームの前後の各３フレームを加えて幅７フレームの入力を、標準音韻モデル２０５に含まれる標準話者の標準音韻モデルとの類似度又は距離を算出する（ステップＳ３０３）。そして、この結果を結果蓄積部２０６に蓄積する。なお、類似度乃至距離算出部２０４は、算出した変換後特徴量全てに対して類似度又は距離の算出処理を行う。

この変換後特徴量と標準音韻モデルとの類似度又は距離の算出方法としては、標準話者群の発声モデルとして分布を持った統計処理を採用して音韻認識を行って求められる類似度を使用する方法と、標準話者群の発声モデルとして音韻別の代表値を採用して求められる物理的な距離を使用する方法が考えられるが、その他の類似度や距離尺度を用いても同様の効果が得られる。

ここで、話者正規化のために使用する音韻をモデル化した標準音韻モデル２０５について、２通りの例を説明する。

第１の例は、標準話者群の発声モデルとして分布を持った統計処理を採用して音韻認識を行って求められる類似度を使用する場合である。この場合においては、音韻認識のための類似度を求める尺度として、マハラノビス汎距離を使用しており、標準話者の発声から各音韻に相当する発声部分の連続７フレーム分の音響特徴量を集め、平均値及び共分散行列を求めた後で、マハラノビス汎距離を求めるための係数ベクトルに変換した数値群で構成されている。

第２の例は、標準話者群の発声モデルとして音韻別の代表値を採用して求められる物理的な距離を使用する場合であって、標準話者の発声から各音韻に相当する発声部分の連続７フレーム分の音響特徴量の平均ベクトル群から構成されている。

なお、マハラノビス汎距離については、例えば、特開昭６０−６７９９６号公報に説明されている。

これら音韻認識による類似度を使用する例と、音韻別代表値との距離を使用する例との２つの例についての結果については後述する。

結果蓄積部２０６に蓄積されるデータは、入力フレーム毎に２４音韻の数の音韻認識によって求められる類似度や音韻別代表値との距離となる。

上記のステップＳ３０１乃至ステップＳ３０３を、音声区間の全フレームについて行う。

次に、変換条件決定部２０７は、各入力フレームの各音韻に対する最も高い類似度を示す変換係数を（式２）に沿って決定する（ステップＳ３０４）。

（式２）において、Ｌは類似度をあらわし、Ｘαは（式１）に沿った周波数変換によるスペクトル、αは変換係数、θは標準音韻モデルをあらわす。そして、スペクトルＸαと標準音韻モデルθの類似度を最大とする変換係数αを探索し、決定する。本実施の形態１では、処理の関係上７つの離散値α₁乃至α₇を用いているので、７つの離散値すべてを当てはめた場合の類似度から、最も高い類似度が得られる変換係数αを選択し、決定することになる。つまり、７つの離散値を当てはめた複数の類似度を相互に比較し、最も高い類似度が得られる変換係数αが選択される。

音韻特徴量比較の結果が距離である場合には、最も近い距離を示す変換係数を（式３）に沿って決定する。

（式３）において、Ｄは距離をあらわし、Ｘαは（式１）に沿った周波数変換によるスペクトル、αは変換係数、θは標準音韻モデルをあらわす。そして、スペクトルＸαと標準音韻モデルθの距離を最小とする変換係数αを探索し、決定する。本実施の形態では、７つの離散値すべてを当てはめた場合の距離から、最も小さい距離、即ち一番近い距離が得られる変換係数αを選択し、決定することになる。つまり、７つの離散値を当てはめた複数の距離を相互に比較し、最も小さい距離が得られる変換係数αが選択される。

次に、フレーム毎に入力との類似度が最も高い、もしくは距離が最も小さい音韻を選択し、その音韻の標準音韻モデルに近づくように変換係数を求める（ステップＳ３０５）。図８（Ａ）はこの様子を示す全フレームについての音韻毎の変換係数を示した図である。図８（Ａ）において、フレーム内の音韻毎に最尤の変換係数８０１が選択され、類似度又は距離の算出により最尤の音韻８０２が決定される。そして、その音韻に対応する変換係数８０３が求められる。例えば、ステップＳ３０５により１フレーム目の最尤の条件が、音韻が／ａ／であり、変換係数がα₄であると選出された場合、その周波数変換に使用した変換係数α₄が１フレーム目の変換係数となる。

次に、変換条件決定部２０７は、ステップＳ３０５で求めたフレーム毎に、選択された音韻に対応する周波数変換条件の音声全区間に渡る出現頻度を累積する。そして、累積された出現頻度を比較し、最も出現頻度が高かった変換係数を全区間の周波数変換条件として決定し、変換係数設定部２０３に通知する（ステップＳ３０６）。図８（Ｂ）は、この変換係数と累積数との関係を示す図である。図８（Ｂ）では、α₄が最も回数が多いため、α₄が周波数変換条件となる。

以上のステップＳ３０１乃至ステップＳ３０６により、音声認識処理で使用する周波数変換係数が求まる。

次に、変換係数設定部２０３は、周波数変換部２０２に通知された変換係数を設定する。周波数変換部２０２は、これを受けて、特徴量蓄積部２０８から蓄積されている特徴量を読み出し、１フレーム目から全音声区間に渡って周波数変換を行う（ステップＳ３０７）。この結果である変換後特徴量を音声認識処理部２０９へ出力する。

以上のステップＳ３０１乃至ステップＳ３０７が話者正規化処理である。

次に、音声認識処理部２０９は得られた変換後特徴量を用いて音声認識処理を行う。この処理方法としては、隠れマルコフモデルを用いた方法、ダイナミックタイムワーピングによる方法、ニューラルネットワークによる方法などが知られているが、本実施の形態１では、特開平４−３６９６９６号公報、特開平５−１５０７９７号公報及び特開平６−２６６３９３号公報に開示されている音声認識方法を用いた。音声認識処理部２０９は、入力と単語モデルとを用いて音声認識処理を行い、認識された単語を音声認識結果として出力装置１１０に出力する（ステップＳ３０８）。

以上のように、本実施の形態１では、音韻認識では十分とされる２４音韻すべてについての類似度又は距離から周波数変換条件を決定しており、いかなる種類の発声であっても、この話者正規化を用いた音声認識装置の入力とすることができ、認識性能を向上せしめることができる。

また、本実施の形態１のステップＳ３０７において、選択された音韻全ての周波数変換条件の出現回数を累積したが、選択された音韻が母音であった場合のみ回数をカウントすることも可能である。これにより、周波数変換を行う対象として最も信頼性の高い母音のみの情報から全区間の周波数変換条件を決定することになるため、決定された周波数変換条件の信頼度もより高いものにすることができる。

図１１（Ａ）は、本実施の形態１により、話者正規化を行った場合と、行わない場合との音声認識の結果を示す。このテストは１００単語入力について、１００単語の登録辞書を用い、不特定話者３名で行った。話者正規化を行うことにより、認識率が７％乃至２１％向上した。これにより、無声音と有声音との区間検出なしの継続長固定の音素認識もしくは入力と標準音韻モデルとの距離計算において、認識対象語辞書を使用せずに話者正規化を行っても、上記効果が得られることが確認できる。

なお、本実施の形態１では、全音声区間に適応する変換係数は、全音声区間の周波数変換処理を行った後に決定しているが、変換係数のいずれかが所定の回数周波数変換条件をして選択された時点で、全音声区間に適応する変換係数とすることも可能である。これにより、音声認識時間の短縮を図ることができる。

（実施の形態２）
図４は、本発明の第２の実施の形態である音声認識装置の機能構成を示す。第１の実施の形態とは、類似度乃至距離算出部２０４が、周波数変換部２０２からの出力の他に特徴量抽出部２０１の出力である音響特徴量と標準音韻モデル２０５とを比較する点が異なる。更に、変換条件決定部２０７が、類似度乃至距離算出部２０４の結果から得られ結果蓄積部２０６に蓄積されていた結果のうち、後述する代表音韻の結果を用いて変換条件の判定を行う点が異なる。

以下に、図４と図５を用いて、本実施の形態２の音声認識の動作を説明する。図５における前半のステップＳ３０１乃至ステップＳ３０４の処理は、図３で説明した実施の形態１の各ステップと同じであり、変換条件決定部２０７が、各フレームにおける音韻毎の周波数変換条件を決定する。

次に、変換条件決定部２０７は、各音韻別にステップＳ３０４で決定された周波数変換条件の出現頻度を累積する（ステップＳ５０１）。図９（Ａ）は、この処理の結果作成される音韻と変換係数との出現回数の関係を示した図の一例である。また、変換条件決定部２０７は、各音韻別に最も頻度が高かった変換係数を選定し、当該音韻の全音声区間向け変換係数として決定する（ステップＳ５０２）。図９（Ａ）においては、音韻／ａ／の変換係数としてα₄が選択され、音韻／ｅ／の変換係数としては、α₃が選択されたことを示
す。

同時に、変換条件決定部２０７は、入力フレーム全区間に対し、フレーム毎に当該入力フレームを代表する音韻を決定する（ステップＳ５０３）。ここでは、類似度乃至距離算出部２０４が、特徴量抽出部２０１の出力と標準音韻モデル２０５の各音韻標準音韻モデルとを比較して算出して、結果蓄積部２０６に蓄積されていた類似度のうち、最も高いもの、あるいは音韻別代表値との距離が最も小さい音韻を代表音韻として選定する。

また、変換条件決定部２０７は、当該入力フレームの代表音韻に対応する変換係数をステップＳ５０２での決定に基づいて選択する。この処理を入力フレーム全区間について行い、変換係数設定部２０３へ通知する（ステップＳ５０４）。図９（Ｂ）は、全フレームの代表音韻とそれに対応する変換係数との関係を示す図の一例である。

次に、変換係数設定部２０３は、入力フレーム毎に、適応する通知された変換係数を周波数変換部２０２に設定する。周波数変換部２０２は、これを受けて、特徴量蓄積部２０８から蓄積されている特徴量を読み出し、音声認識処理部２０９へ渡すための周波数変換処理を行う（ステップＳ５０５）。そして、この処理を全音声区間について行う。

以上のステップＳ３０１乃至ステップＳ５０５が、本実施の形態２の話者正規化処理である。次に行う音声認識処理ステップＳ３０８は、実施の形態１で説明した図３における音声認識処理ステップＳ３０８と同一である。

以上のように、本実施の形態２では各入力フレームの周波数変換を行う変換係数は１つ選定されるが、入力フレーム毎に選定される変換係数は異なるため、１フレーム毎により細かく話者正規化を行うことが可能になり、いかなる音声であってもこの話者正規化を用いた音声認識装置の入力とすることができ、認識性能を向上させることができる。

図１１（Ｂ）は、本実施の形態２により、話者正規化を行った場合と、行わない場合との音声認識の結果を示す。このテストは、１００単語入力について、１００単語の登録辞書を用いて不特定話者９名で行った。話者正規化を行うことにより、成人に比べ低かった子供の認識率が、８．２％向上した。これにより、無声音と有声音との区間検出なしで、継続長固定の音素認識もしくは入力と音韻標準音韻モデルとの距離計算の結果を用い、認識対象語辞書を用いた認識処理を行わずに話者正規化条件を決めても、上記効果が得られることが確認できる。

（実施の形態３）
図６は、本発明の第３の実施の形態である音声認識装置の機能構成を示す。第２の実施の形態とは、特徴量から音韻毎の重みを算出する音韻重み算出部６０１を備えている点が異なる。

以下に、図６と図７を用いて実施の形態３の音声認識の動作を説明する。前半のステップＳ３０１乃至ステップＳ５０２の処理は、第２の実施の形態で説明した図５と同じであり、変換条件決定部２０７が、音韻毎の周波数変換条件を決定する。

変換条件決定部２０７は、入力音声全区間に対し、フレーム毎に音韻重みを決定する（ステップＳ７０１）。この重みの決定のために、まず類似度乃至距離算出部２０４が、特徴量抽出部２０１の出力と標準音韻モデル２０５の各音韻標準音韻モデルとの類似度、あるいは音韻別代表値との距離を算出する。算出された距離は、結果蓄積部２０６に蓄積されたのちに、変換条件決定部２０７が、（式４）を用いて正規化された重みを求める。

（式４）において、ｗ_ikは重み、Ｘは入力スペクトル、Ｖは音韻別代表値ベクトル、ｋは音韻の種類、ｐは内挿の平滑度を表すパラメータであり、ｄ（Ｘ、Ｖ）は（式５）により求まる入力スペクトルと音韻別代表値との距離を示す。

変換条件決定部２０７は、全音声区間について上記処理を行い、各フレームの音韻毎の重みを算出する。この算出結果として、図１０（Ａ）に示すような、各フレームの音韻と、音韻毎の重みの関係が得られる。そして、この結果は、結果蓄積部２０６に記録される。

次に、音韻重み算出部６０１が、ステップＳ５０２で求めた全音声区間に渡っての各音韻と、それに対応する周波数変換条件との関係（図９（Ａ）参照）と、ステップＳ７０１で求めた各フレームの音韻と、音韻毎の重みの関係（図１０（Ａ）参照）とから各フレームの変換係数毎の重みを算出する（ステップＳ７０２）。図１０（Ｂ）は、この関係を示している。そして、音韻重み算出部６０１はこの算出結果を結果蓄積部２０６に記憶する。

次に、変換条件決定部２０７は、この各フレームの変換係数毎の重みを結果蓄積部２０６から読み出し、重みが「０」以外の変換係数を変換係数設定部２０３にフレーム毎に通知する。変換係数設定部２０３は、通知を受けた変換係数を周波数変換部２０２に設定する。周波数変換部２０２は、当該変換係数で再度１フレーム目から周波数変換を行い、類似度乃至距離算出部２０４に変換後特徴量を出力する（ステップＳ７０３）。

次に、音声認識処理部２０９は、結果蓄積部２０６から各フレームの変換係数と重みの関係を読み出し、この変換係数に対応する重みを、ステップＳ７０３で得られた変換後特徴量に掛け算する。この処理を、順次、変換条件判定部２０７から通知される変換係数全てについて行い合算する（ステップＳ７０４）。この算出は、（式６）により行うことができる。

以上のステップＳ３０１乃至ステップＳ７０４が話者正規化処理である。次に行う音声認識処理ステップＳ３０８は、実施の形態１で説明した図３における音声認識処理ステップＳ３０８と同一である。

以上のステップＳ７０３乃至ステップＳ３０８の処理を、全音声区間について行う。

以上のように、本実施の形態３では、各入力フレームのスペクトルを周波数変換する変換係数は複数選定され、重み付き合算処理が行われ、かつ入力フレーム毎に重みの組値が異なる。このため、１フレーム毎により精度良く話者正規化を行うことが可能になり、いかなる音声であっても、この話者正規化を用いた音声認識装置の入力とすることができ、認識性能を向上せしめることができる。

また、重みは、周波数変換前の特徴量を使用して求めるため、周波数変換の影響が、２重に周波数変換時に及ぶことを防ぐことが出来、周波数変換が悪い方向で作用する話者音声に対しても、影響を低く抑えることができる。

図１１（Ｃ）は、本実施の形態３により、話者正規化を行った場合と、行わない場合との音声認識の結果を示す。このテストは１００単語入力について、１００単語の登録辞書を用い、不特定話者９名で行った。話者正規化を行うことにより認識率が成人に比べ低かった子供の認識率が９．２％向上した。

これにより、無声音と有声音との区間検出なしで継続長固定の音素認識、または、入力と標準音韻モデルとの距離計算の結果を用い、認識対象語辞書を用いた認識処理を行わずに話者正規化条件を決定しても、上記効果が得られることが確認できる。

また、本実施の形態においては、話者正規化による効果を単語認識の場合について説明したが、文章の認識や会話音声の認識についても、同様に実施可能である。

（実施の形態４）
図１２は、本発明の第４の実施の形態である家庭内機器用統合音声リモコン装置の機能を示すブロック図を示す。

起動スイッチ１２１は、ユーザが家庭内機器用統合音声リモコン装置を起動するためにマイクロフォン１０１に音声取り込み開始を指示する。スイッチ１２２は、ユーザが音声認識装置１００へ話者正規化を行うか否かの指示を入力する。表示装置１２３は、音声認識装置からユーザへ話者正規化を行っているか否かを表示する。リモコン信号発生装置１２４は、出力装置１１０より音声認識結果（ＳＩＧ４）を受け取って赤外線によるリモコン信号（ＳＩＧ５）を出力する。電子機器群１２５は、リモコン信号発生装置１２４より赤外線によるリモコン信号（ＳＩＧ５）を受け取るものである。

なお、起動スイッチ１２１を含まない構成も可能である。その場合には、マイクロフォン１０１は、常時音声を取り込んでいて、Ａ／Ｄ変換器１０２に常時音声データを送っている構成、あるいは、マイクロフォン１０１でパワーの変化を観察していて、一定時間における増分が閾値を超えた場合に、起動スイッチ１２１から指示があった場合と同様の扱いをするという構成とすればよい。マイクロフォン１０１、Ａ／Ｄ変換器１０２、記憶装置１０４及び出力装置１１０の動作は図１と同様の動作であるためここでの説明は省略する。

以下の説明では、本実施の形態４における音声認識装置１００は、実施の形態３で説明
した音声認識装置を使用する場合について説明するが、実施の形態１から実施の形態３で説明した全ての音声認識装置を使用することが可能である。

本実施の形態４における家庭内機器用統合音声リモコン装置においては、ユーザが話者正規化を実施するか否かをスイッチ１２２の入力によって選択することができる。スイッチ１２２はボタンを一つ有しており、押し込み操作を行うたびに、話者正規化を行うか行わないかが切換えられる。スイッチ１２２の押し込み操作による指示は音声認識装置１００に通知され、話者正規化を行わないときには、音声認識装置１００の中にある周波数変換部２０２にその旨が通知され、周波数変換処理を行わずに特徴量を出力するように処理が変更される。話者正規化を行っているのか、行っていないのかの状況については、表示装置１２３に表示される。よって、ユーザは常に状況を簡便に把握することが可能である。起動スイッチ１２１もボタンを一つ有しており、音声認識を開始するためにユーザが起動スイッチ１２１を押した後の一定の時間は、マイクロフォン１０１は常に音声を取り込んでいてＡ／Ｄ変換器１０２に渡し続け、Ａ／Ｄ変換機１０２もまた音声認識装置１００にディジタル化された音声データを常に渡し続けている。

ユーザが起動スイッチ１２１を押した後、入力音声のパワーがあらかじめ設定された閾値を１秒間以上越え続けた後に閾値より小さくなった場合には、ユーザが発声し終わったと見なして、マイクロフォン１０１は音声の取り込みを停止する。閾値を越えている時間の１秒間という値は一例であって、認識しようとしている語彙の長さに応じてマイクロフォン１０１の設定によって変更することが可能である。逆に、音声パワーの変動が少なくても３秒が過ぎた場合には、ユーザが音声入力を取り止めたものとみなして音声取り込みを停止する。音声取り込み停止までの時間は５秒であってもよいし、２秒であってもよく、機器を使用する状況に応じてマイクロフォン１０１の設定によって変更すればよい。マイクロフォン１０１が音声取り込み処理を停止すると、Ａ／Ｄ変換器１０２以降の処理は行われなくなる。こうして取り込まれた音声データは音声認識装置１００で音声認識処理の対象となり、得られる結果が出力装置１１０に出力される。

例えば、ユーザが、スイッチ１２２を押し込んだ状態の家庭内機器用統合音声リモコン装置によって照明を点けたい場合、起動スイッチ１２１を押した上で「しょうめい」と発声すると、マイクロフォン１０１より音声が取り込まれ、Ａ／Ｄ変換器１０２にてディジタル信号に変換された後に、音声認識装置１００に送られる。音声認識装置１００では音声認識処理を実施する。

本実施の形態４の例では、操作対象である電子機器群１２５に対応して、「びでお」、「しょうめい」、「でんき」、「てれび」といった語が認識対象語として記憶装置１０４にあらかじめ登録されている。音声認識装置１００の認識結果が「しょうめい」であれば、その結果がＳＩＧ３として出力装置１１０に送られる。出力装置１１０は、リモコン信号に対応する出力ＳＩＧ４を出力し、音声認識装置１００の認識結果と実際に制御する電子機器群１２５の関係の情報を保持している。例えば、ＳＩＧ３からの出力が「しょうめい」であっても、又は、「でんき」であっても、どちらも電子機器群１２５の照明１２６への信号であると変換して、照明１２６の情報をＳＩＧ４としてリモコン信号発生装置１２４に送る。

リモコン信号発生装置１２４は、ＳＩＧ４として受け取った制御すべき機器に、その内容情報を赤外線のリモコン信号に変換したうえで、ＳＩＧ５として電子機器群１２５に出力する。リモコン信号発生装置１２４は、広範囲に赤外線のリモコン信号を発するように構成されており、室内の赤外線のリモコン信号を受光できる装置すべてに対して同時に信号を発するようになっている。このＳＩＧ５によって、照明１２６に対して、オン／オフのトグル信号が送られるため、照明機器の点灯、消灯がユーザの発声に応じる形で実行
される。電源のオンオフを制御する電子機器群１２５がビデオ１２７の場合は使用者が発声した「びでお」という語、テレビ１２８である場合は「てれび」という語が認識され、同様に制御される。

本実施の形態４による家庭内機器用統合音声リモコン装置が家庭内に設置されており、１００単語程度の認識が可能な状況に設定されている場合において、成人男女のみの世帯であったならば、ユーザがスイッチ１２２によって話者正規化を行わないという設定にしておいたとしても、「しょうめい」という発声に応じて「照明」がオン／オフされる確率は、図１１（Ｃ）のように、話者が成人男性及び成人女性であれば話者正規化なしでも９８％以上となりうるが、話者が子供の場合には、話者正規化なしでは８４％程度しか認識しない。一般的に９０％以上の認識性能が確保できれば、ユーザから見たときに、「発声どおりに動く装置」と見なされるとされているが、８４％では「多少不具合があるが、発声どおりに動く装置」と見なされるであろう。一方、スイッチ１２２によって話者正規化を行うと、話者が子供であっても９３％の認識率が得られ、子供から見ても「発声どおりに動く装置」となる。

話者正規化の状況は表示装置１２３に表示されるので、ユーザから一目瞭然である。話者正規化処理を明確に確認するためには、表示装置１２３に図１３に示すように、話者正規化の実行を示す「声のてなおしやってるよやってないよ」の文字表示１３０１を表示し、話者正規化が実行されている場合は、「やってるよ」を強調表示し、話者正規化が実行されていない場合は、「やってないよ」を強調表示する。図１３では、話者正規化が実行されているため、「やっているよ」の部分の表示色を変化させて強調表示している。

また、音声認識装置１００内で決定された周波数変換の７つの離散値α₁乃至α₇の各パラメータの重みを重み表示グラフ１３０２に表示するより明示的に表示することができる。

本実施の形態４においては、話者正規化を家庭内機器用統合音声リモコン装置に使用する場合を示したが、ユーザ側の負担として、話者正規化を行うか行わないかの選択と音声認識開始の指示を行うだけで実施可能な本実施の形態４は、音声操作が可能な街角案内端末や音声操作が可能な公衆電話などの、特に、ユーザが予告無しに入れ替わるような機器にあっても、同様に実施可能である。

なお、話者正規化を常に行う場合は、スイッチ１２２を外した構成としてもよい。この場合には、ユーザは、音声認識開始の指示のみを行うため、簡便に使用することができる。

本発明にかかる話者正規化方法及びそれを用いた音声認識装置は、家庭内機器用統合音声リモコン装置や、音声操作が可能な街角案内端末、音声操作が可能な公衆電話などのユーザが予告無しに入れ替わるような機器などの音声制御装置などに有用である。

本発明の実施の形態１による音声認識システムのハードウェアを示すブロック図本発明の実施の形態１による音声認識装置の機能構成を示す機能ブロック図本発明の実施の形態１による音声認識装置の処理を示す流れ図本発明の実施の形態２による音声認識装置の機能構成を示す機能ブロック図本発明の実施の形態２による音声認識装置の処理を示す流れ図本発明の実施の形態３による音声認識装置の機能構成を示す機能ブロック図本発明の実施の形態３による音声認識装置の処理を示す流れ図（Ａ）本発明の実施の形態１による各フレームの音韻と変換係数の関係図（Ｂ）本発明の実施の形態１による変換係数と頻度の関係図（Ａ）本発明の実施の形態２による音韻と変換係数との関係図（Ｂ）本発明の実施の形態２による各フレームの代表音韻と変換係数の関係図（Ａ）本発明の実施の形態３による各フレームの音韻と重みの関係図（Ｂ）本発明の実施の形態３による各フレームの変換係数と重みの関係図（Ａ）本発明の実施の形態１による音声認識の結果を示す図（Ｂ）本発明の実施の形態２による音声認識の結果を示す図（Ｃ）本発明の実施の形態３による音声認識の結果を示す図本発明の実施の形態４による家庭内機器用統合音声リモコンの機能を示すブロック図本発明の実施の形態４による表示装置の表示画面を示す図従来の音声認識装置の処理を示す流れ図

符号の説明

１００音声認識装置
１０１マイクロフォン
１０２Ａ／Ｄ変換器
１０３ＳＣＯ
１０４記憶装置
１０５ＰＩＯ
１０６ＤＭＡ
１０７ＲＡＭ
１０８ＲＯＭ
１０９ＣＰＵ
１１０出力装置
１１２バスライン
１２１起動スイッチ
１２２スイッチ
１２３表示装置
１２４リモコン信号発生装置
１２５電子機器群
２０１特徴量抽出部
２０２周波数変換部
２０３変換係数設定部
２０４類似度乃至距離算出部
２０５標準音韻モデル
２０６結果蓄積部
２０７変換条件決定部
２０８特徴量蓄積部
２０９音声認識処理部
２１０単語モデル
６０１音韻重み算出部
１３０１文字表示
１３０２重み表示グラフ

Claims

フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を記憶する特徴量記憶部と、
複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換部と、
前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出部と、
前記算出された複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定部と、
単語モデルを用いて音声認識する音声認識処理部と、を備え、
前記周波数変換条件決定部は、前記算出された複数の類似度又は距離から、標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、当該選定された結果を用いて最尤となる標準音韻および当該標準音韻に対応する周波数変換係数の組み合わせを前記フレーム毎に選定し、前記周波数変換係数の出現頻度を複数フレームに渡って周波数変換係数毎に累積し、前記出現頻度の最も多い周波数変換係数を全フレームに渡る周波数変換係数とし、
前記周波数変換部は、前記周波数変換条件決定部によって決定された周波数変換条件を用いて前記特徴量記憶部に記憶された前記音響特徴量を周波数変換し、
前記音声認識処理部は、前記周波数変換条件を用いて周波数変換された前記音響特徴量と前記単語モデルを用いて音声認識をする、音声認識装置。
フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を記憶する特徴量記憶部と、
複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換部と、
前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出部と、
前記算出された複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定部と、
単語モデルを用いて音声認識する音声認識処理部と、を備え、
前記周波数変換条件決定部は、
前記算出された複数の類似度又は距離から、標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、
前記周波数変換係数の出現頻度を複数フレームに渡って前記標準音韻毎に累積し、
前記標準音韻別に前記出現頻度の最も多い周波数変換係数を選定し、当該選定した周波数変換係数を全フレームに渡る標準音韻に対応する周波数変換係数として決定し、
前記算出された複数の類似度又は距離から、当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい音韻を、フレーム毎にフレームを代表する代表標準音韻として決定し、
前記周波数変換部は、
前記決定された代表標準音韻を用いて前記全フレームに渡る標準音韻に対応する周波数変換係数をフレーム毎に選択し、当該選択された周波数変換を用いて前記音響特徴量をフレーム毎に周波数変換する、
音声認識装置。
フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を記憶する特徴量記憶部と、
複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換部と、
前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出し、かつ、前記特徴量抽出部が抽出した音響特徴量と標準音韻の標準音韻モデルとの前記音響特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出部と、
前記算出された前記変換後特徴量と前記標準音韻モデルとの複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定部と、
単語モデルを用いて音声認識する音声認識処理部と、を備え、
前記周波数変換条件決定部は、
前記算出された前記変換後特徴量と前記標準音韻モデルとの複数の類似度又は距離から、標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、
前記周波数変換係数の出現頻度を複数フレームに渡って前記標準音韻毎に累積し、前記標準音韻別に前記出現頻度の最も多い周波数変換係数を選定し、当該選定した周波数変換係数を全フレームに渡る標準音韻に対応する周波数変換係数として決定し、
前記標準音韻毎に、前記算出された前記音響特徴量と前記標準音韻モデルとの類似度又は距離に対応する標準音韻毎の重みをフレーム毎に算出し、
前記周波数変換部は、
前記全フレームに渡る標準音韻に対応する周波数変換係数と前記算出したフレーム毎の標準音韻毎の重みを用いて、前記音響特徴量をフレーム毎に周波数変換する、
音声認識装置。
前記標準音韻は母音である請求項１から３までのいずれか一つに記載の音声認識装置。
前記標準音韻は母音のみである請求項１から３までのいずれか一つに記載の音声認識装置。
前記入力音声を取り込むマイクロフォンと、前記入力音声が入力される請求項１から５までのいずれかに一つに記載の音声認識装置と、前記音声認識装置からの認識結果である操作対象装置に対して操作信号を発信する信号発生装置とを有する、音声リモコン装置。
特徴量抽出部が、フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出ステップと、
前記音響特徴量を特徴量記憶部に記憶する特徴量記憶ステップと、
周波数変換部が、複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換ステップと、
類似度乃至距離算出部が、前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出ステップと、
周波数変換条件決定部が、前記算出された複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定ステップと、
音声認識処理部が、単語モデルを用いて音声認識する音声認識処理ステップと、を含み、
前記周波数変換条件決定ステップは、前記算出された複数の類似度又は距離から標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、当該選定された結果を用いて最尤となる標準音韻および当該標準音韻に対応する周波数変換係数の組み合わせを前記フレーム毎に選定し、前記周波数変換係数の出現頻度を複数フレームに渡って周波数変換係数毎に累積し、前記出現頻度の最も多い周波数変換係数を全フレームに渡る周波数変換係数とし、
前記周波数変換ステップは、前記周波数変換条件決定ステップによって決定された周波数変換条件を用いて前記特徴量記憶部に記憶された前記音響特徴量を周波数変換し、
前記音声認識処理ステップは、前記周波数変換条件を用いて周波数変換された前記音響特徴量と前記単語モデルを用いて音声認識をする、音声認識方法。
特徴量抽出部が、フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出ステップと、
前記音響特徴量を特徴量記憶部に記憶する特徴量記憶ステップと、
周波数変換部が、複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換ステップと、
類似度乃至距離算出部が、前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出ステップと、
周波数変換条件決定部が、前記算出された複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定ステップと、
音声認識処理部が、単語モデルを用いて音声認識する音声認識処理ステップと、を含み、
前記周波数変換条件決定ステップは、前記算出された複数の類似度又は距離から、標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、
前記周波数変換係数の出現頻度を複数フレームに渡って前記標準音韻毎に累積し、前記標準音韻別に前記出現頻度の最も多い周波数変換係数を選定し、当該選定した周波数変換係数を全フレームに渡る標準音韻に対応する周波数変換係数として決定し、前記算出された複数の類似度又は距離から、当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい音韻を、フレーム毎にフレームを代表する代表標準音韻として決定し、
前記周波数変換ステップは、
前記決定された代表標準音韻を用いて前記全フレームに渡る標準音韻に対応する周波数変換係数をフレーム毎に選択し、当該選択された周波数変換を用いて前記音響特徴量をフレーム毎に周波数変換する、
音声認識方法。
特徴量抽出部が、フレーム毎に入力音声の音響特徴量を抽出する特徴量抽出ステップと、
前記音響特徴量を特徴量記憶部に記憶する特徴量記憶ステップと、
周波数変換部が、複数の周波数変換係数を用いて、それぞれの周波数変換係数毎に前記音響特徴量を周波数変換して複数の変換後特徴量を出力する周波数変換ステップと、
類似度乃至距離算出部が、前記フレーム毎に、前記複数の変換後特徴量と標準音韻の標準音韻モデルとの全ての組み合わせで前記変換後特徴量と前記標準音韻モデルとの類似度又は距離を算出し、かつ、前記特徴量抽出部が抽出した音響特徴量と標準音韻の標準音韻モデルとの前記音響特徴量と前記標準音韻モデルとの類似度又は距離を算出する類似度乃至距離算出ステップと、
周波数変換条件決定部が、前記算出された複数の類似度又は距離を用いて前記入力音声を正規化するための周波数変換条件を決定する周波数変換条件決定ステップと、
音声認識処理部が、単語モデルを用いて音声認識する音声認識処理ステップと、を含み、
前記周波数変換条件決定ステップは、前記算出された前記変換後特徴量と前記標準音韻モデルとの複数の類似度又は距離から、標準音韻と当該標準音韻の中で最も類似度の高い周波数変換係数又は当該標準音韻の中で最も距離が小さい周波数変換係数とをフレーム毎に選定し、
前記周波数変換係数の出現頻度を複数フレームに渡って前記標準音韻毎に累積し、前記標準音韻別に前記出現頻度の最も多い周波数変換係数を選定し、当該選定した周波数変換係数を全フレームに渡る標準音韻に対応する周波数変換係数として決定し、前記標準音韻毎に、前記算出された前記音響特徴量と前記標準音韻モデルとの類似度又は距離に対応する標準音韻毎の重みをフレーム毎に算出し、
前記周波数変換ステップは、前記全フレームに渡る標準音韻に対応する周波数変換係数と前記算出したフレーム毎の標準音韻毎の重みを用いて、前記音響特徴量をフレーム毎に周波数変換する、
音声認識方法。