JP4682198B2 - 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体 - Google Patents
音声認識装置、音声認識方法、音声認識プログラム、および記録媒体 Download PDFInfo
- Publication number
- JP4682198B2 JP4682198B2 JP2007521127A JP2007521127A JP4682198B2 JP 4682198 B2 JP4682198 B2 JP 4682198B2 JP 2007521127 A JP2007521127 A JP 2007521127A JP 2007521127 A JP2007521127 A JP 2007521127A JP 4682198 B2 JP4682198 B2 JP 4682198B2
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- subword
- element distribution
- distribution
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 17
- 238000009826 distribution Methods 0.000 claims description 116
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 11
- 230000003287 optical effect Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
[技術分野]
[0001]
この発明は、音声を認識する音声認識装置、音声認識方法、音声認識プログラム、および記録媒体に関する。ただし、この発明の利用は、上述した音声認識装置、音声認識方法、音声認識プログラム、および記録媒体に限られない。
[背景技術]
[0002]
音声認識で使用される音響モデルの1つに混合分布音響モデルがある。混合分布音響モデルはサブワード(音節・音韻などを表す単位)毎に複数の多次元正規分布(これら多次元正規分布の各々を要素分布という)と1つの分岐確率を有する。
[0003]
混合分布音響モデルを使用する音声認識装置は、発話に対する音声特徴量を各サブワードの混合分布に代入し、サブワード別の尤度(サブワード尤度という)を求め、これらを基に辞書に登録された単語の尤度(単語尤度という)を求める。
[発明の開示]
[発明が解決しようとする課題]
[0004]
しかしながら、属性(例えば話者の性別,発話環境など)によってサブワードの混合分布は異なるものであると考えられる。したがって、あらゆる属性の発話に対するサブワード尤度を1つの固定的な分岐確率により求めることは認識性能劣化につながると考えられる。
[課題を解決するための手段]
[0005]
請求項1の発明にかかる音声認識装置は、異なる属性を持つ音響モデルを統合して構成される混合分布音響モデルを用いる音声認識装置であって、未知音声のスペクトル情報量および属性情報量に関する音響特徴量を取得する取得手段と、前記取得手段によって取得された未知音声のスペクトル情報量に関する音響特徴量と、混合分布音響モデルの各サブワードの混合分布が属する要素分布に関する情報と、に基づいて、前記要素分布の尤度(以下、「要素分布尤度」という)を算出する要素分布尤度算出手段と、前記取得手段によって取得された未知音声の属性情報量に関する音響特徴量に基づいて各サブワードの分岐確率を変更する変更手段と、前記変更手段によって変更された分岐確率と、前記要素分布尤度算出手段によって算出された要素分布尤度と、に基づいて、サブワードの尤度(以下、「サブワード尤度」という)を算出するサブワード尤度算出手段と、前記サブワード尤度算出手段によって算出されたサブワード尤度に基づいて、前記未知音声を認識する認識手段と、を備えることを特徴とする。
[0006]
請求項3の発明にかかる音声認識方法は、異なる属性を持つ音響モデルを統合して構成される混合分布音響モデルを用いる音声認識方法であって、未知音声のスペクトル情報量および属性情報量に関する音響特徴量を取得する取得工程と、前記取得工程によって取得された未知音声のスペクトル情報量に関する音響特徴量と、前記混合分布音響モデルの各サブワードの混合分布が属する要素分布に関する情報と、に基づいて、前記要素分布の尤度(以下、「要素分布尤度」という)を算出する要素分布尤度算出工程と、前記取得工程によって取得された未知音声の属性情報量に関する音響特徴量に基づいて各サブワードの分岐確率を変更する変更工程と、前記変更工程によって変更された分岐確率と、前記要素分布尤度算出工程によって算出された要素分布尤度と、に基づいて、サブワードの尤度(以下、「サブワード尤度」という)を算出するサブワード尤度算出工程と、前記サブワード尤度算出工程によって算出されたサブワード尤度に基づいて、前記未知音声を認識する認識工程と、を含んだことを特徴とする。
[0007]
請求項4の発明にかかる音声認識プログラムは、請求項3に記載の音声認識方法をコンピュータに実行させることを特徴とする。
[0008]
請求項5の発明にかかる記録媒体は、請求項4に記載の音声認識プログラムを記録したコンピュータに読み取り可能な記録媒体であることを特徴とする。
【図面の簡単な説明】
[図面の簡単な説明]
[0009]
[図1]図1は、この発明の実施の形態にかかる音声認識装置のハードウェア構成を示すブロック図である。
[図2]図2は、この発明の実施の形態にかかる混合分布音響モデルを示す説明図である。
[図3]図3は、要素分布DBの記憶内容の一例を示す説明図である。
[図4]図4は、分岐確率DBの記憶内容の一例を示す説明図である。
【図5】図5は、この発明の実施の形態にかかる音声認識装置の機能的構成を示すブロック図である。
【図6】図6は、カテゴリー/ゾーンテーブルに関するグラフである。
【図7】図7は、ルックアップテーブルの記憶内容を示す説明図である。
【図8】図8は、実施例にかかる音声認識処理手順を示すフローチャートである。
【符号の説明】
【0010】
109 マイク
200 要素分布データベース
210 分岐確率データベース
500 音声認識装置
501 取得部
502 要素分布尤度算出部
503 分岐確率変更部
504 サブワード尤度算出部
505 認識部
506 特定部
507 重み付け処理部
510 カテゴリー/ゾーンテーブル
511 単語尤度算出部
512 辞書
700 ルックアップテーブル
A,B 音響特徴量
S 混合分布音響モデル
【発明を実施するための最良の形態】
【0011】
以下に添付図面を参照して、この発明にかかる音声認識装置、音声認識方法、音声認識プログラム、および記録媒体の好適な実施の形態を詳細に説明する。
【0012】
(音声認識装置のハードウェア構成)
図1は、この発明の実施の形態にかかる音声認識装置のハードウェア構成を示すブロック図である。図1において、音声認識装置は、CPU101と、ROM102と、RAM103と、磁気ディスクドライブ104と、磁気ディスク105と、光ディスクドライブ106と、光ディスク107と、音声I/F(インターフェース)108と、マイク109と、スピーカ110と、入力デバイス111と、映像I/F112と、ディスプレイ113と、通信I/F(インターフェース)114と、を備えている。また、各構成部101〜113はバス100によってそれぞれ接続されている。
【0013】
ここで、CPU101は、音声認識装置の全体の制御を司る。ROM102は、ブートプログラムなどのプログラムを記憶している。RAM103は、CPU101のワークエリアとして使用される。磁気ディスクドライブ104は、CPU101の制御にしたがって磁気ディスク105に対するデータのリード/ライトを制御する。磁気ディスク105は、磁気ディスクドライブ104の制御で書き込まれたデータを記憶する。磁気ディスク105としては、たとえば、HD(ハードディスク)やFD(フレキシブルディスク)を用いることができる。
【0014】
光ディスクドライブ106は、CPU101の制御にしたがって光ディスク107に対するデータのリード/ライトを制御する。光ディスク107は、光ディスクドライブ106の制御にしたがって光ディスク107からデータの読み出される着脱自在な記録媒体である。光ディスク107は、書き込み可能な記録媒体を利用することもできる。また、この着脱可能な記録媒体として、光ディスク107のほか、MO、メモリーカードなどであってもよい。
【0015】
また、音声I/F108は、音声入力用のマイク109および音声出力用のスピーカ110に接続される。マイク109に受音された音声は、音声I/F108内でA/D変換される。また、スピーカ110からは音声が出力される。また、入力デバイス111は、文字、数値、各種指示等の入力のための複数のキーを備えたリモコン、キーボード、マウス、タッチパネルなどが挙げられる。
【0016】
また、映像I/F112は、ディスプレイ113と接続される。映像I/F112は、具体的には、たとえば、ディスプレイ113全体の制御をおこなうグラフィックコントローラと、即時表示可能な画像情報を一時的に記憶するVRAM(Video RAM)などのバッファメモリと、グラフィックコントローラから出力される画像データに基づいて、ディスプレイ113を表示制御する制御ICなどによって構成される。
【0017】
ディスプレイ113には、アイコン、カーソル、メニュー、ウインドウ、あるいは文字や画像等の各種データが表示される。このディスプレイ113は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
【0018】
また、通信I/F114は、無線、あるいは通信ケーブルを介してネットワークに接続され、このネットワークとCPU101とのインターフェースとして機能する。ネットワークには、LAN、WAN、公衆回線網や携帯電話網等がある。
【0019】
(混合分布音響モデルの構成)
つぎに、この発明の実施の形態にかかる混合分布音響モデルについて説明する。混合分布音響モデルは、各サブワード(音素や音節を表す単位)の分布が混合正規分布で表現された音響モデルである。
【0020】
混合分布音響モデルは、サブワード毎に複数の多次元正規分布と1つの分岐確率を有する。具体的には、各サブワードに対応する複数の要素分布と1つの分岐確率が存在する。たとえば、サブワードがN種類,および混合数(1つの状態に対する要素分布の数を指す)Mである混合分布音響モデルは、全体として(N×M)個の要素分布と、N個の分岐確率を有する。
【0021】
図2は、この発明の実施の形態にかかる混合分布音響モデルを示す説明図である。図2において、混合分布音響モデルSは、属性数nの音響モデルS1〜Snから構成されている。各音響モデルS1〜Snは、m種類のサブワードsw1〜swmごとに、要素分布(p11〜pm1、・・・、p1n〜pmn)と分岐確率(w11〜wm1、・・・、w1n〜wmn)とを含む混合正規分布(G11〜Gm1、・・・、G1n〜Gmn)を有する。
【0022】
また、要素分布DB(データベース)200は、混合分布音響モデルS内の要素分布情報(p11〜pm1、・・・、p1n〜pmn)の集合である。すなわち、要素分布DB200は、サブワードsw1〜swmごとに要素分布データベース200−1〜200−mを有し、各要素分布データベース200−1〜200−mには、それぞれ要素分布情報(p11〜pm1、・・・、p1n〜pmn)が含まれている。
【0023】
同様に、分岐確率DB(データベース)210は、混合分布音響モデルS内の分岐確率(w11〜w1n、・・・、wm1〜wmn)の集合である。すなわち、分岐確率DB210は、サブワードsw1〜swmごとに分岐確率データベース210−1〜210−mを有し、各分岐確率データベース210−1〜210−mには、それぞれ要素分布情報(w11〜w1n、・・・、wm1〜wmn)が含まれている。
【0024】
ここで、要素分布DB200の記憶内容の一例について説明する。図3は、要素分布DB200の記憶内容の一例を示す説明図である。図3においては、音源の属性数nを2とし、n=1は男性、n=2は女性を示す。たとえば、サブワードswkの要素分布情報は、男性(n=1)の要素分布情報(μk1,σk1)と女性(n=2)の要素分布情報(μk2,σk2)とを有する。ここで、『μk1』は、サブワードswkの要素分布pk1の平均ベクトルであり、『σk1』はサブワードswkの要素分布pk1の共分散行列である。
【0025】
また、ここで、分岐確率DB210の記憶内容の一例について説明する。図4は、分岐確率DB210の記憶内容の一例を示す説明図である。図4においても、音源の属性数nを2とし、n=1は男性、n=2は女性を示す。たとえば、サブワードswkの分岐確率は、男性(n=1)の分岐確率wk1と女性(n=2)の分岐確率wk2とを有する。
【0026】
(音声認識装置の機能的構成)
つぎに、この発明の実施の形態にかかる音声認識装置500の機能的構成について説明する。図5は、この発明の実施の形態にかかる音声認識装置500の機能的構成を示すブロック図である。図5において、音声認識装置500は、取得部501と、要素分布尤度算出部502と、分岐確率変更部503と、サブワード尤度算出部504と、認識部505と、から構成されている。
【0027】
まず、取得部501は、未知音声のスペクトル情報量および属性情報量に関する音響特徴量を取得する。具体的には、未知音声をA/D変換することによって得られたディジタル音声信号から、スペクトル情報量に関する音響特徴量(以下、「音響特徴量A」と称す。)と、属性情報量に関する音響特徴量(以下、「音響特徴量B」と称す。)を算出する。
【0028】
たとえば、音響特徴量Aは一般的にメルLPCケプストラムやMFCC(Mel Frequency Cepstrum Coefficient)で表されるベクトルとして算出される。具体的には、ディジタル音声信号を単位時間でフレーム分割し、各フレームに対して音響特徴量Aを求める。これにより、未知音声のスペクトル情報量を音響特徴量として取得することができる。
【0029】
また、音響特徴量Bは、たとえば、基本周期の平均値を用いることにより算出することができる。基本周期の平均値は、次のようにして算出することができる。まず、ディジタル音声信号をフレーム分割した後、音声パワーの閾値判定による手段等から有声音/無声音または非音声の音声判別を行う。このうち、有声音と判別されたフレームから基本周期を抽出する。すべてのフレームに対する音声判別が終了した後、基本周期を平均する。具体的に基本周期の平均値PAVを数式で表現すると下記式(1)のようになる。
【0030】
【数1】
【0031】
ただし、式(1)において、Nは分割されたフレーム数であり、stat(i)は有声音であれば「1」、それ以外であれば「0」が代入されるフレームに対する音声判別結果であり、T(i)はフレームiにおける基本周期である。これにより、未知音声の属性情報量を音響特徴量として取得することができる。
【0032】
また、要素分布尤度算出部502は、取得部501によって取得されたスペクトル情報量に関する音響特徴量Aと、音源の属性ごとに設定されたサブワードの要素分布に関する情報と、に基づいて、要素分布の尤度(以下、「要素分布尤度P」という)を算出する。具体的には、各々の要素分布はそれぞれ異なる平均ベクトルと共分散行列を持つ多次元正規分布に各フレームの音響特徴量Aをそれぞれあてはめることによって要素分布尤度Pが求められる。
【0033】
すなわち、要素分布データベース200に記憶されている各サブワードsw1〜swmの要素分布情報と音響特徴量Aとを用いて、各サブワードsw1〜swmの要素分布に関する尤度(以下、「要素分布尤度」という)を属性ごとに計算する。たとえば、要素分布は多次元正規分布であるため、サブワードswkについての男性の要素分布尤度Pk1は、サブワードswkの要素分布pk1の平均ベクトルμk1と、サブワードswkの要素分布pk1の共分散行列σk1とを用い、音響特徴量Aの値を変数として確率密度関数に代入することで算出することができる。
[0034]
同様に、サブワードswkについてみ女性の要素分布尤度Pk2も、サブワードswkの要素分布pk2の平均ベクトルμk2と、サブワードswkの要素分布pk2の共分散行列σk2とを用い、音響特徴量Aの値を変数として確率密度関数に代入することで算出することができる。
[0035]
また、分岐確率変更部503は、取得部501によって取得された未知音声の属性情報量に関する音響特徴量Bに基づいて、属性ごとに設定されたサブワードの分岐確率の割合を変更する。具体的には、特定部506と重み付け処理部507により、属性ごとに設定されたサブワードの分岐確率の割合を変更する。
[0036]
この特定部506は、取得部501によって取得された属性情報量に関する音響特徴量Bに基づいて、未知音声のカテゴリーを特定する。具体的には、カテゴリー/ゾーンテーブル510を用いて未知音声のカテゴリーを特定する。ここで、カテゴリー/ゾーンテーブル510について説明する。
[0037]
図6は、カテゴリー/ゾーンテーブル510に関するグラフであり、属性とカテゴリーとの関係を示している。図6において、縦軸は確率、横軸は音響特徴量Bを示している。また、太線波形は男性の属性分布、太点線は女性の属性分布を示している。また、Rはしきい値であり、しきい値R以上の属性分布の確率値は該当する属性の可能性が高いものとして扱う。すなわち、b,dは男性の属性分布がしきい値Rとなる値であり、区間[b,d]は男性である可能性が高いゾーン(男性ゾーンという)Z1となる。同様に、a,cは女性の属性分布がしきい値Rとなる値であり、区間[a,c]は女性である可能性が高いゾーン(女性ゾーンという)Z2となる。
[0038]
図6において、カテゴリーC1は、男性ゾーンZ1のみが存在する区間[c,d]であり、カテゴリーC2は、女性ゾーンZ2のみが存在する区間[a,b]であり、カテゴリーC3は、男性ゾーンZ1と女性ゾーンZ2との重複区間[b,c]であり、カテゴリーC4は、男性ゾーンZ1および女性ゾーンZ2のいずれにも該当しない区間である。この図6に示したグラフを用いることにより、特定部506では、図6に示したグラフを音響特徴量Bにあてはめることによって未知音声が属するカテゴリーを特定することができる。
【0039】
重み付け処理部507は、特定部506によって特定されたカテゴリーに基づいて、音源の属性ごとに設定されたサブワードの分岐確率に重み付けする。具体的には、ルックアップテーブルを用いて、分岐確率データベース210に記憶されている分岐確率の重み付けをおこなう。
【0040】
ここで、ルックアップテーブルの記憶内容について説明する。図7は、ルックアップテーブルの記憶内容の例を示す説明図である。図7において、ルックアップテーブル700は、この図6に示したカテゴリーC1〜C4を元に作成されている。この属性係数は音響特徴量Bが属するカテゴリーによって属性(男性および女性)ごとに決定される値であり、その総和は1となる。図7において、音響特徴量Bの値が男性ゾーンZ1のみであるカテゴリーC1に該当する場合、男性の属性係数z1はz1=1、女性の属性係数z2はz2=0である。
【0041】
また、音響特徴量Bの値が女性ゾーンZ2のみであるカテゴリーC2に該当する場合、男性の属性係数z1はz1=0、女性の属性係数z2はz2=1である。また、音響特徴量Bの値が男性ゾーンZ1および女性ゾーンZ2が重複するカテゴリーC3に該当する場合、男性の属性係数z1はz1=0.5、女性の属性係数z2はz2=0.5である。同様に、音響特徴量Bの値が男性ゾーンZ1および女性ゾーンZ2のいずれでもないカテゴリーC4に該当する場合、男性の属性係数z1はz1=0.5、女性の属性係数z2はz2=0.5である。
【0042】
このように、ルックアップテーブル700で決定された属性係数z1,z2の値を用いて、各サブワードの分岐確率の重み付けをおこなう。たとえば、サブワードswkの分岐確率wk1,wk2の重み付け処理は下記式(2)に示す通りとなる。
【0043】
(Wk1,Wk2)=(z1・wk1,z2・wk2)・・・(2)
【0044】
なお、Wk1は、サブワードswkの重み付け処理後の男性の分岐確率であり、Wk2は、サブワードswkの重み付け処理後の女性の分岐確率である。たとえば、音響特徴量Bの値が男性ゾーンZ1のみであるカテゴリーC1に該当する場合、上記式(2)の値は、下記式(3)のようになる。
【0045】
(Wk1,Wk2)=(z1・wk1,z2・wk2)
=(1・wk1,0・wk2)
=(wk1,0)・・・・・・・・・・・(3)
[0046]
また、サブワード尤度算出部504は、取得部501によって取得されたスペクトル情報量に関する音響特徴量と、属性ごとに設定されたサブワードの要素分布に関する情報と、重み付け処理部507によって属性ごとに重み付けされたサブワードの分岐確率と、に基づいて、サブワード尤度を算出する。具体的には、要素分布尤度算出部502によって算出された要素分布尤度と、重み付け処理部507によって属性ごとに重み付けされたサブワードの分岐確率と、に基づいて、サブワード尤度を算出する。サブワードswkの属性数nにおけるサブワード尤度Qknは、たとえば、下記式(4)によって算出することができる。
[0047]
[数2]
[0048]
ここで、属性数n=2、すなわち、属性が男性および女性の場合、サブワードswkを例に挙げると、サブワードswkの男性の要素分布尤度Pk1および女性の要素分布尤度Pk2と、サブワードswkの重み付け処理後の男性の分岐確率Wk1および女性の分岐確率Wk2を用いることができ、上記式(4)は、下記式(5)のようになる。
[0049]
Qkn=Wk1・Pk1+Wk2・Pk2・・・(5)
[0050]
また、認識部505は、単語尤度算出部511と認識可能な単語それぞれがサブワードの列(サブワード列という)で記述されている辞書512とから構成されている。すなわち、認識部505では、単語尤度算出部511により、ビタビ(Viterbi)アルゴリズム等のマッチング処理を用いて、サブワード尤度算出部504によって算出されたサブワード尤度と辞書に記憶されている各単語のサブワード列とから単語尤度を算出し、算出された単語尤度が最大の単語を、未知音声に相当する単語(認識結果)として出力する。
[0051]
なお、上述した取得部501、要素分布尤度算出部502、分岐確率変更部503、サブワード尤度算出部504、および認識部505は、具体的には、たとえば、図1に示したROM102、RAM103、磁気ディスク105、光ディスク107などの記録媒体に記録されたプログラムを、CPU101が実行することによって、その機能を実現する。
【実施例】
【0052】
(音声認識処理手順)
つぎに、上述した実施の形態にかかる音声認識装置500の実施例について説明する。図8は、実施例にかかる音声認識処理手順を示すフローチャートである。図8において、まず、図1に示したマイク109から音声(未知音声)が受音され、音声I/F108でのA/D変換によりディジタル音声信号が入力された場合(ステップS801:Yes)、取得部501により、未知音声のスペクトル情報量および属性情報量に関する音響特徴量A,Bを取得する(ステップS802)。
【0053】
つぎに、要素分布尤度算出部502により、各サブワードの要素分布尤度を属性ごとに算出する(ステップS803)。そして、特定部506により、未知音声のカテゴリーを特定し(ステップS804)、重み付け処理部507により、特定されたカテゴリーをルックアップテーブル700で参照して、各サブワードの分岐確率を、属性ごとに重み付けする(ステップS805)。
【0054】
このあと、サブワード尤度算出部504により、各サブワードについての属性ごとの要素分布尤度と、各サブワードについての属性ごとの重み付け処理後の分岐確率とを用いて、サブワード尤度を算出する(ステップS806)。最後に、単語尤度算出部511により、サブワード尤度と単語データベース512に記憶されている各単語のサブワード列から、単語尤度を算出し(ステップS807)、算出された単語尤度が最大の単語を、未知音声に相当する単語(認識結果)として出力する(ステップS808)。
【0055】
このように、この実施の形態および実施例によれば、複数の異なる属性ごとに用意された分岐確率を、未知音声の発話環境や状況に応じて調整することができるため、未知音声の認識率の向上を図ることができる。
【0056】
なお、上述した実施の形態および実施例では、音源を人間としたためにその属性を男性と女性の2種類に設定したが、男性女性それぞれについても年齢、また周囲の環境などにより音声が異なるため、男性女性それぞれについてさらに複数の属性についての要素分布および分岐確率を設定することとしてもよい。
【0057】
なお、本実施の形態で説明した音声認識方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。
[0001]
この発明は、音声を認識する音声認識装置、音声認識方法、音声認識プログラム、および記録媒体に関する。ただし、この発明の利用は、上述した音声認識装置、音声認識方法、音声認識プログラム、および記録媒体に限られない。
[背景技術]
[0002]
音声認識で使用される音響モデルの1つに混合分布音響モデルがある。混合分布音響モデルはサブワード(音節・音韻などを表す単位)毎に複数の多次元正規分布(これら多次元正規分布の各々を要素分布という)と1つの分岐確率を有する。
[0003]
混合分布音響モデルを使用する音声認識装置は、発話に対する音声特徴量を各サブワードの混合分布に代入し、サブワード別の尤度(サブワード尤度という)を求め、これらを基に辞書に登録された単語の尤度(単語尤度という)を求める。
[発明の開示]
[発明が解決しようとする課題]
[0004]
しかしながら、属性(例えば話者の性別,発話環境など)によってサブワードの混合分布は異なるものであると考えられる。したがって、あらゆる属性の発話に対するサブワード尤度を1つの固定的な分岐確率により求めることは認識性能劣化につながると考えられる。
[課題を解決するための手段]
[0005]
請求項1の発明にかかる音声認識装置は、異なる属性を持つ音響モデルを統合して構成される混合分布音響モデルを用いる音声認識装置であって、未知音声のスペクトル情報量および属性情報量に関する音響特徴量を取得する取得手段と、前記取得手段によって取得された未知音声のスペクトル情報量に関する音響特徴量と、混合分布音響モデルの各サブワードの混合分布が属する要素分布に関する情報と、に基づいて、前記要素分布の尤度(以下、「要素分布尤度」という)を算出する要素分布尤度算出手段と、前記取得手段によって取得された未知音声の属性情報量に関する音響特徴量に基づいて各サブワードの分岐確率を変更する変更手段と、前記変更手段によって変更された分岐確率と、前記要素分布尤度算出手段によって算出された要素分布尤度と、に基づいて、サブワードの尤度(以下、「サブワード尤度」という)を算出するサブワード尤度算出手段と、前記サブワード尤度算出手段によって算出されたサブワード尤度に基づいて、前記未知音声を認識する認識手段と、を備えることを特徴とする。
[0006]
請求項3の発明にかかる音声認識方法は、異なる属性を持つ音響モデルを統合して構成される混合分布音響モデルを用いる音声認識方法であって、未知音声のスペクトル情報量および属性情報量に関する音響特徴量を取得する取得工程と、前記取得工程によって取得された未知音声のスペクトル情報量に関する音響特徴量と、前記混合分布音響モデルの各サブワードの混合分布が属する要素分布に関する情報と、に基づいて、前記要素分布の尤度(以下、「要素分布尤度」という)を算出する要素分布尤度算出工程と、前記取得工程によって取得された未知音声の属性情報量に関する音響特徴量に基づいて各サブワードの分岐確率を変更する変更工程と、前記変更工程によって変更された分岐確率と、前記要素分布尤度算出工程によって算出された要素分布尤度と、に基づいて、サブワードの尤度(以下、「サブワード尤度」という)を算出するサブワード尤度算出工程と、前記サブワード尤度算出工程によって算出されたサブワード尤度に基づいて、前記未知音声を認識する認識工程と、を含んだことを特徴とする。
[0007]
請求項4の発明にかかる音声認識プログラムは、請求項3に記載の音声認識方法をコンピュータに実行させることを特徴とする。
[0008]
請求項5の発明にかかる記録媒体は、請求項4に記載の音声認識プログラムを記録したコンピュータに読み取り可能な記録媒体であることを特徴とする。
【図面の簡単な説明】
[図面の簡単な説明]
[0009]
[図1]図1は、この発明の実施の形態にかかる音声認識装置のハードウェア構成を示すブロック図である。
[図2]図2は、この発明の実施の形態にかかる混合分布音響モデルを示す説明図である。
[図3]図3は、要素分布DBの記憶内容の一例を示す説明図である。
[図4]図4は、分岐確率DBの記憶内容の一例を示す説明図である。
【図5】図5は、この発明の実施の形態にかかる音声認識装置の機能的構成を示すブロック図である。
【図6】図6は、カテゴリー/ゾーンテーブルに関するグラフである。
【図7】図7は、ルックアップテーブルの記憶内容を示す説明図である。
【図8】図8は、実施例にかかる音声認識処理手順を示すフローチャートである。
【符号の説明】
【0010】
109 マイク
200 要素分布データベース
210 分岐確率データベース
500 音声認識装置
501 取得部
502 要素分布尤度算出部
503 分岐確率変更部
504 サブワード尤度算出部
505 認識部
506 特定部
507 重み付け処理部
510 カテゴリー/ゾーンテーブル
511 単語尤度算出部
512 辞書
700 ルックアップテーブル
A,B 音響特徴量
S 混合分布音響モデル
【発明を実施するための最良の形態】
【0011】
以下に添付図面を参照して、この発明にかかる音声認識装置、音声認識方法、音声認識プログラム、および記録媒体の好適な実施の形態を詳細に説明する。
【0012】
(音声認識装置のハードウェア構成)
図1は、この発明の実施の形態にかかる音声認識装置のハードウェア構成を示すブロック図である。図1において、音声認識装置は、CPU101と、ROM102と、RAM103と、磁気ディスクドライブ104と、磁気ディスク105と、光ディスクドライブ106と、光ディスク107と、音声I/F(インターフェース)108と、マイク109と、スピーカ110と、入力デバイス111と、映像I/F112と、ディスプレイ113と、通信I/F(インターフェース)114と、を備えている。また、各構成部101〜113はバス100によってそれぞれ接続されている。
【0013】
ここで、CPU101は、音声認識装置の全体の制御を司る。ROM102は、ブートプログラムなどのプログラムを記憶している。RAM103は、CPU101のワークエリアとして使用される。磁気ディスクドライブ104は、CPU101の制御にしたがって磁気ディスク105に対するデータのリード/ライトを制御する。磁気ディスク105は、磁気ディスクドライブ104の制御で書き込まれたデータを記憶する。磁気ディスク105としては、たとえば、HD(ハードディスク)やFD(フレキシブルディスク)を用いることができる。
【0014】
光ディスクドライブ106は、CPU101の制御にしたがって光ディスク107に対するデータのリード/ライトを制御する。光ディスク107は、光ディスクドライブ106の制御にしたがって光ディスク107からデータの読み出される着脱自在な記録媒体である。光ディスク107は、書き込み可能な記録媒体を利用することもできる。また、この着脱可能な記録媒体として、光ディスク107のほか、MO、メモリーカードなどであってもよい。
【0015】
また、音声I/F108は、音声入力用のマイク109および音声出力用のスピーカ110に接続される。マイク109に受音された音声は、音声I/F108内でA/D変換される。また、スピーカ110からは音声が出力される。また、入力デバイス111は、文字、数値、各種指示等の入力のための複数のキーを備えたリモコン、キーボード、マウス、タッチパネルなどが挙げられる。
【0016】
また、映像I/F112は、ディスプレイ113と接続される。映像I/F112は、具体的には、たとえば、ディスプレイ113全体の制御をおこなうグラフィックコントローラと、即時表示可能な画像情報を一時的に記憶するVRAM(Video RAM)などのバッファメモリと、グラフィックコントローラから出力される画像データに基づいて、ディスプレイ113を表示制御する制御ICなどによって構成される。
【0017】
ディスプレイ113には、アイコン、カーソル、メニュー、ウインドウ、あるいは文字や画像等の各種データが表示される。このディスプレイ113は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
【0018】
また、通信I/F114は、無線、あるいは通信ケーブルを介してネットワークに接続され、このネットワークとCPU101とのインターフェースとして機能する。ネットワークには、LAN、WAN、公衆回線網や携帯電話網等がある。
【0019】
(混合分布音響モデルの構成)
つぎに、この発明の実施の形態にかかる混合分布音響モデルについて説明する。混合分布音響モデルは、各サブワード(音素や音節を表す単位)の分布が混合正規分布で表現された音響モデルである。
【0020】
混合分布音響モデルは、サブワード毎に複数の多次元正規分布と1つの分岐確率を有する。具体的には、各サブワードに対応する複数の要素分布と1つの分岐確率が存在する。たとえば、サブワードがN種類,および混合数(1つの状態に対する要素分布の数を指す)Mである混合分布音響モデルは、全体として(N×M)個の要素分布と、N個の分岐確率を有する。
【0021】
図2は、この発明の実施の形態にかかる混合分布音響モデルを示す説明図である。図2において、混合分布音響モデルSは、属性数nの音響モデルS1〜Snから構成されている。各音響モデルS1〜Snは、m種類のサブワードsw1〜swmごとに、要素分布(p11〜pm1、・・・、p1n〜pmn)と分岐確率(w11〜wm1、・・・、w1n〜wmn)とを含む混合正規分布(G11〜Gm1、・・・、G1n〜Gmn)を有する。
【0022】
また、要素分布DB(データベース)200は、混合分布音響モデルS内の要素分布情報(p11〜pm1、・・・、p1n〜pmn)の集合である。すなわち、要素分布DB200は、サブワードsw1〜swmごとに要素分布データベース200−1〜200−mを有し、各要素分布データベース200−1〜200−mには、それぞれ要素分布情報(p11〜pm1、・・・、p1n〜pmn)が含まれている。
【0023】
同様に、分岐確率DB(データベース)210は、混合分布音響モデルS内の分岐確率(w11〜w1n、・・・、wm1〜wmn)の集合である。すなわち、分岐確率DB210は、サブワードsw1〜swmごとに分岐確率データベース210−1〜210−mを有し、各分岐確率データベース210−1〜210−mには、それぞれ要素分布情報(w11〜w1n、・・・、wm1〜wmn)が含まれている。
【0024】
ここで、要素分布DB200の記憶内容の一例について説明する。図3は、要素分布DB200の記憶内容の一例を示す説明図である。図3においては、音源の属性数nを2とし、n=1は男性、n=2は女性を示す。たとえば、サブワードswkの要素分布情報は、男性(n=1)の要素分布情報(μk1,σk1)と女性(n=2)の要素分布情報(μk2,σk2)とを有する。ここで、『μk1』は、サブワードswkの要素分布pk1の平均ベクトルであり、『σk1』はサブワードswkの要素分布pk1の共分散行列である。
【0025】
また、ここで、分岐確率DB210の記憶内容の一例について説明する。図4は、分岐確率DB210の記憶内容の一例を示す説明図である。図4においても、音源の属性数nを2とし、n=1は男性、n=2は女性を示す。たとえば、サブワードswkの分岐確率は、男性(n=1)の分岐確率wk1と女性(n=2)の分岐確率wk2とを有する。
【0026】
(音声認識装置の機能的構成)
つぎに、この発明の実施の形態にかかる音声認識装置500の機能的構成について説明する。図5は、この発明の実施の形態にかかる音声認識装置500の機能的構成を示すブロック図である。図5において、音声認識装置500は、取得部501と、要素分布尤度算出部502と、分岐確率変更部503と、サブワード尤度算出部504と、認識部505と、から構成されている。
【0027】
まず、取得部501は、未知音声のスペクトル情報量および属性情報量に関する音響特徴量を取得する。具体的には、未知音声をA/D変換することによって得られたディジタル音声信号から、スペクトル情報量に関する音響特徴量(以下、「音響特徴量A」と称す。)と、属性情報量に関する音響特徴量(以下、「音響特徴量B」と称す。)を算出する。
【0028】
たとえば、音響特徴量Aは一般的にメルLPCケプストラムやMFCC(Mel Frequency Cepstrum Coefficient)で表されるベクトルとして算出される。具体的には、ディジタル音声信号を単位時間でフレーム分割し、各フレームに対して音響特徴量Aを求める。これにより、未知音声のスペクトル情報量を音響特徴量として取得することができる。
【0029】
また、音響特徴量Bは、たとえば、基本周期の平均値を用いることにより算出することができる。基本周期の平均値は、次のようにして算出することができる。まず、ディジタル音声信号をフレーム分割した後、音声パワーの閾値判定による手段等から有声音/無声音または非音声の音声判別を行う。このうち、有声音と判別されたフレームから基本周期を抽出する。すべてのフレームに対する音声判別が終了した後、基本周期を平均する。具体的に基本周期の平均値PAVを数式で表現すると下記式(1)のようになる。
【0030】
【数1】
【0031】
ただし、式(1)において、Nは分割されたフレーム数であり、stat(i)は有声音であれば「1」、それ以外であれば「0」が代入されるフレームに対する音声判別結果であり、T(i)はフレームiにおける基本周期である。これにより、未知音声の属性情報量を音響特徴量として取得することができる。
【0032】
また、要素分布尤度算出部502は、取得部501によって取得されたスペクトル情報量に関する音響特徴量Aと、音源の属性ごとに設定されたサブワードの要素分布に関する情報と、に基づいて、要素分布の尤度(以下、「要素分布尤度P」という)を算出する。具体的には、各々の要素分布はそれぞれ異なる平均ベクトルと共分散行列を持つ多次元正規分布に各フレームの音響特徴量Aをそれぞれあてはめることによって要素分布尤度Pが求められる。
【0033】
すなわち、要素分布データベース200に記憶されている各サブワードsw1〜swmの要素分布情報と音響特徴量Aとを用いて、各サブワードsw1〜swmの要素分布に関する尤度(以下、「要素分布尤度」という)を属性ごとに計算する。たとえば、要素分布は多次元正規分布であるため、サブワードswkについての男性の要素分布尤度Pk1は、サブワードswkの要素分布pk1の平均ベクトルμk1と、サブワードswkの要素分布pk1の共分散行列σk1とを用い、音響特徴量Aの値を変数として確率密度関数に代入することで算出することができる。
[0034]
同様に、サブワードswkについてみ女性の要素分布尤度Pk2も、サブワードswkの要素分布pk2の平均ベクトルμk2と、サブワードswkの要素分布pk2の共分散行列σk2とを用い、音響特徴量Aの値を変数として確率密度関数に代入することで算出することができる。
[0035]
また、分岐確率変更部503は、取得部501によって取得された未知音声の属性情報量に関する音響特徴量Bに基づいて、属性ごとに設定されたサブワードの分岐確率の割合を変更する。具体的には、特定部506と重み付け処理部507により、属性ごとに設定されたサブワードの分岐確率の割合を変更する。
[0036]
この特定部506は、取得部501によって取得された属性情報量に関する音響特徴量Bに基づいて、未知音声のカテゴリーを特定する。具体的には、カテゴリー/ゾーンテーブル510を用いて未知音声のカテゴリーを特定する。ここで、カテゴリー/ゾーンテーブル510について説明する。
[0037]
図6は、カテゴリー/ゾーンテーブル510に関するグラフであり、属性とカテゴリーとの関係を示している。図6において、縦軸は確率、横軸は音響特徴量Bを示している。また、太線波形は男性の属性分布、太点線は女性の属性分布を示している。また、Rはしきい値であり、しきい値R以上の属性分布の確率値は該当する属性の可能性が高いものとして扱う。すなわち、b,dは男性の属性分布がしきい値Rとなる値であり、区間[b,d]は男性である可能性が高いゾーン(男性ゾーンという)Z1となる。同様に、a,cは女性の属性分布がしきい値Rとなる値であり、区間[a,c]は女性である可能性が高いゾーン(女性ゾーンという)Z2となる。
[0038]
図6において、カテゴリーC1は、男性ゾーンZ1のみが存在する区間[c,d]であり、カテゴリーC2は、女性ゾーンZ2のみが存在する区間[a,b]であり、カテゴリーC3は、男性ゾーンZ1と女性ゾーンZ2との重複区間[b,c]であり、カテゴリーC4は、男性ゾーンZ1および女性ゾーンZ2のいずれにも該当しない区間である。この図6に示したグラフを用いることにより、特定部506では、図6に示したグラフを音響特徴量Bにあてはめることによって未知音声が属するカテゴリーを特定することができる。
【0039】
重み付け処理部507は、特定部506によって特定されたカテゴリーに基づいて、音源の属性ごとに設定されたサブワードの分岐確率に重み付けする。具体的には、ルックアップテーブルを用いて、分岐確率データベース210に記憶されている分岐確率の重み付けをおこなう。
【0040】
ここで、ルックアップテーブルの記憶内容について説明する。図7は、ルックアップテーブルの記憶内容の例を示す説明図である。図7において、ルックアップテーブル700は、この図6に示したカテゴリーC1〜C4を元に作成されている。この属性係数は音響特徴量Bが属するカテゴリーによって属性(男性および女性)ごとに決定される値であり、その総和は1となる。図7において、音響特徴量Bの値が男性ゾーンZ1のみであるカテゴリーC1に該当する場合、男性の属性係数z1はz1=1、女性の属性係数z2はz2=0である。
【0041】
また、音響特徴量Bの値が女性ゾーンZ2のみであるカテゴリーC2に該当する場合、男性の属性係数z1はz1=0、女性の属性係数z2はz2=1である。また、音響特徴量Bの値が男性ゾーンZ1および女性ゾーンZ2が重複するカテゴリーC3に該当する場合、男性の属性係数z1はz1=0.5、女性の属性係数z2はz2=0.5である。同様に、音響特徴量Bの値が男性ゾーンZ1および女性ゾーンZ2のいずれでもないカテゴリーC4に該当する場合、男性の属性係数z1はz1=0.5、女性の属性係数z2はz2=0.5である。
【0042】
このように、ルックアップテーブル700で決定された属性係数z1,z2の値を用いて、各サブワードの分岐確率の重み付けをおこなう。たとえば、サブワードswkの分岐確率wk1,wk2の重み付け処理は下記式(2)に示す通りとなる。
【0043】
(Wk1,Wk2)=(z1・wk1,z2・wk2)・・・(2)
【0044】
なお、Wk1は、サブワードswkの重み付け処理後の男性の分岐確率であり、Wk2は、サブワードswkの重み付け処理後の女性の分岐確率である。たとえば、音響特徴量Bの値が男性ゾーンZ1のみであるカテゴリーC1に該当する場合、上記式(2)の値は、下記式(3)のようになる。
【0045】
(Wk1,Wk2)=(z1・wk1,z2・wk2)
=(1・wk1,0・wk2)
=(wk1,0)・・・・・・・・・・・(3)
[0046]
また、サブワード尤度算出部504は、取得部501によって取得されたスペクトル情報量に関する音響特徴量と、属性ごとに設定されたサブワードの要素分布に関する情報と、重み付け処理部507によって属性ごとに重み付けされたサブワードの分岐確率と、に基づいて、サブワード尤度を算出する。具体的には、要素分布尤度算出部502によって算出された要素分布尤度と、重み付け処理部507によって属性ごとに重み付けされたサブワードの分岐確率と、に基づいて、サブワード尤度を算出する。サブワードswkの属性数nにおけるサブワード尤度Qknは、たとえば、下記式(4)によって算出することができる。
[0047]
[数2]
[0048]
ここで、属性数n=2、すなわち、属性が男性および女性の場合、サブワードswkを例に挙げると、サブワードswkの男性の要素分布尤度Pk1および女性の要素分布尤度Pk2と、サブワードswkの重み付け処理後の男性の分岐確率Wk1および女性の分岐確率Wk2を用いることができ、上記式(4)は、下記式(5)のようになる。
[0049]
Qkn=Wk1・Pk1+Wk2・Pk2・・・(5)
[0050]
また、認識部505は、単語尤度算出部511と認識可能な単語それぞれがサブワードの列(サブワード列という)で記述されている辞書512とから構成されている。すなわち、認識部505では、単語尤度算出部511により、ビタビ(Viterbi)アルゴリズム等のマッチング処理を用いて、サブワード尤度算出部504によって算出されたサブワード尤度と辞書に記憶されている各単語のサブワード列とから単語尤度を算出し、算出された単語尤度が最大の単語を、未知音声に相当する単語(認識結果)として出力する。
[0051]
なお、上述した取得部501、要素分布尤度算出部502、分岐確率変更部503、サブワード尤度算出部504、および認識部505は、具体的には、たとえば、図1に示したROM102、RAM103、磁気ディスク105、光ディスク107などの記録媒体に記録されたプログラムを、CPU101が実行することによって、その機能を実現する。
【実施例】
【0052】
(音声認識処理手順)
つぎに、上述した実施の形態にかかる音声認識装置500の実施例について説明する。図8は、実施例にかかる音声認識処理手順を示すフローチャートである。図8において、まず、図1に示したマイク109から音声(未知音声)が受音され、音声I/F108でのA/D変換によりディジタル音声信号が入力された場合(ステップS801:Yes)、取得部501により、未知音声のスペクトル情報量および属性情報量に関する音響特徴量A,Bを取得する(ステップS802)。
【0053】
つぎに、要素分布尤度算出部502により、各サブワードの要素分布尤度を属性ごとに算出する(ステップS803)。そして、特定部506により、未知音声のカテゴリーを特定し(ステップS804)、重み付け処理部507により、特定されたカテゴリーをルックアップテーブル700で参照して、各サブワードの分岐確率を、属性ごとに重み付けする(ステップS805)。
【0054】
このあと、サブワード尤度算出部504により、各サブワードについての属性ごとの要素分布尤度と、各サブワードについての属性ごとの重み付け処理後の分岐確率とを用いて、サブワード尤度を算出する(ステップS806)。最後に、単語尤度算出部511により、サブワード尤度と単語データベース512に記憶されている各単語のサブワード列から、単語尤度を算出し(ステップS807)、算出された単語尤度が最大の単語を、未知音声に相当する単語(認識結果)として出力する(ステップS808)。
【0055】
このように、この実施の形態および実施例によれば、複数の異なる属性ごとに用意された分岐確率を、未知音声の発話環境や状況に応じて調整することができるため、未知音声の認識率の向上を図ることができる。
【0056】
なお、上述した実施の形態および実施例では、音源を人間としたためにその属性を男性と女性の2種類に設定したが、男性女性それぞれについても年齢、また周囲の環境などにより音声が異なるため、男性女性それぞれについてさらに複数の属性についての要素分布および分岐確率を設定することとしてもよい。
【0057】
なお、本実施の形態で説明した音声認識方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。
Claims (5)
- 異なる属性を持つ音響モデルを統合して構成される混合分布音響モデルを用いる音声認識装置であって、
未知音声のスペクトル情報量および属性情報量に関する音響特徴量を取得する取得手段と、
前記取得手段によって取得された未知音声のスペクトル情報量に関する音響特徴量と、前記混合分布音響モデルの各サブワードの混合分布が属する要素分布に関する情報と、に基づいて、前記要素分布の尤度(以下、「要素分布尤度」という)を算出する要素分布尤度算出手段と、
前記取得手段によって取得された未知音声の属性情報量に関する音響特徴量に基づいて各サブワードの分岐確率を変更する変更手段と、
前記変更手段によって変更された分岐確率と、前記要素分布尤度算出手段によって算出された要素分布尤度と、に基づいて、サブワードの尤度(以下、「サブワード尤度」という)を算出するサブワード尤度算出手段と、
前記サブワード尤度算出手段によって算出されたサブワード尤度に基づいて、前記未知音声を認識する認識手段と、
を備えることを特徴とする音声認識装置。 - 前記変更手段は、
前記取得手段によって取得された未知音声の属性情報量に関する音響特徴量に基づいて、前記未知音声のカテゴリーを特定する特定手段と、
前記特定手段によって特定されたカテゴリーに基づいて、前記属性ごとに設定されたサブワードの分岐確率に重み付けする重み付け手段と、を備え、
前記サブワード尤度算出手段は、
前記重み付け手段によって前記属性ごとに重み付けされたサブワードの分岐確率と、前記要素分布尤度算出手段によって算出された要素分布尤度と、に基づいて、前記サブワード尤度を算出することを特徴とする請求項1に記載の音声認識装置。 - 異なる属性を持つ音響モデルを統合して構成される混合分布音響モデルを用いる音声認識方法であって、
未知音声のスペクトル情報量および属性情報量に関する音響特徴量を取得する取得工程と、
前記取得工程によって取得された未知音声のスペクトル情報量に関する音響特徴量と、前記混合分布音響モデルの各サブワードの混合分布が属する要素分布に関する情報と、に基づいて、前記要素分布の尤度(以下、「要素分布尤度」という)を算出する要素分布尤度算出工程と、
前記取得工程によって取得された未知音声の属性情報量に関する音響特徴量に基づいて各サブワードの分岐確率を変更する変更工程と、
前記変更工程によって変更された分岐確率と、前記要素分布尤度算出工程によって算出された要素分布尤度と、に基づいて、サブワードの尤度(以下、「サブワード尤度」という)を算出するサブワード尤度算出工程と、
前記サブワード尤度算出工程によって算出されたサブワード尤度に基づいて、前記未知音声を認識する認識工程と、
を含んだことを特徴とする音声認識方法。 - 請求項3に記載の音声認識方法をコンピュータに実行させることを特徴とする音声認識プログラム。
- 請求項4に記載の音声認識プログラムを記録したコンピュータに読み取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005100167 | 2005-03-30 | ||
JP2005100167 | 2005-03-30 | ||
PCT/JP2006/304577 WO2006112198A1 (ja) | 2005-03-30 | 2006-03-09 | 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2006112198A1 JPWO2006112198A1 (ja) | 2008-12-04 |
JP4682198B2 true JP4682198B2 (ja) | 2011-05-11 |
Family
ID=37114932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007521127A Expired - Fee Related JP4682198B2 (ja) | 2005-03-30 | 2006-03-09 | 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP1865496A4 (ja) |
JP (1) | JP4682198B2 (ja) |
WO (1) | WO2006112198A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5722300A (en) * | 1980-07-15 | 1982-02-05 | Fujitsu Ltd | Word voice recognizing and processing system |
JPH05232989A (ja) * | 1992-02-20 | 1993-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデルの話者適応化法 |
JPH0728488A (ja) * | 1993-06-24 | 1995-01-31 | Canon Inc | 情報処理方法及び装置 |
JPH10282986A (ja) * | 1997-04-04 | 1998-10-23 | Hitachi Ltd | 音声認識方法およびそのモデル設計方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60129795A (ja) * | 1983-12-16 | 1985-07-11 | 沖電気工業株式会社 | 音声認識方式 |
US5129001A (en) * | 1990-04-25 | 1992-07-07 | International Business Machines Corporation | Method and apparatus for modeling words with multi-arc markov models |
JP3316355B2 (ja) * | 1995-10-23 | 2002-08-19 | 三洋電機株式会社 | Hmmの学習装置 |
AU2003283742A1 (en) * | 2002-12-16 | 2004-07-09 | Koninklijke Philips Electronics N.V. | Method of creating an acoustic model for a speech recognition system |
US8229744B2 (en) * | 2003-08-26 | 2012-07-24 | Nuance Communications, Inc. | Class detection scheme and time mediated averaging of class dependent models |
-
2006
- 2006-03-09 JP JP2007521127A patent/JP4682198B2/ja not_active Expired - Fee Related
- 2006-03-09 WO PCT/JP2006/304577 patent/WO2006112198A1/ja active Application Filing
- 2006-03-09 EP EP06715448A patent/EP1865496A4/en not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5722300A (en) * | 1980-07-15 | 1982-02-05 | Fujitsu Ltd | Word voice recognizing and processing system |
JPH05232989A (ja) * | 1992-02-20 | 1993-09-10 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデルの話者適応化法 |
JPH0728488A (ja) * | 1993-06-24 | 1995-01-31 | Canon Inc | 情報処理方法及び装置 |
JPH10282986A (ja) * | 1997-04-04 | 1998-10-23 | Hitachi Ltd | 音声認識方法およびそのモデル設計方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1865496A1 (en) | 2007-12-12 |
EP1865496A4 (en) | 2010-08-18 |
WO2006112198A1 (ja) | 2006-10-26 |
JPWO2006112198A1 (ja) | 2008-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
Ito et al. | Analysis and recognition of whispered speech | |
Tran et al. | Improvement to a NAM-captured whisper-to-speech system | |
JP2012037619A (ja) | 話者適応化装置、話者適応化方法および話者適応化用プログラム | |
JP5148026B1 (ja) | 音声合成装置および音声合成方法 | |
US20190392839A1 (en) | System for creating speaker model, recognition system, computer program product, and controller | |
JP6305955B2 (ja) | 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム | |
JP2004310098A (ja) | スイッチング状態空間型モデルによる変分推論を用いた音声認識の方法 | |
JP7192882B2 (ja) | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
WO2019107170A1 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
WO2003098597A1 (fr) | Dispositif d'extraction de noyau syllabique et progiciel associe | |
Korvel et al. | Examining feature vector for phoneme recognition | |
JP6373621B2 (ja) | 話し方評価装置、話し方評価方法、プログラム | |
JP2015041081A (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Ijima et al. | Objective Evaluation Using Association Between Dimensions Within Spectral Features for Statistical Parametric Speech Synthesis. | |
JP3081108B2 (ja) | 話者分類処理装置及び方法 | |
JP4682198B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体 | |
Valaki et al. | A hybrid HMM/ANN approach for automatic Gujarati speech recognition | |
JP2016186516A (ja) | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム | |
JP2011033879A (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
JP5200080B2 (ja) | 音声認識装置、音声認識方法、およびそのプログラム | |
JP6367773B2 (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
JP2021099454A (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
Ramírez | Hybrid autoregressive resonance estimation and density mixture formant tracking model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110201 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110207 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140210 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |