JP2017009842A

JP2017009842A - 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム

Info

Publication number: JP2017009842A
Application number: JP2015126246A
Authority: JP
Inventors: 浩司藤村; Koji Fujimura
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-06-24
Filing date: 2015-06-24
Publication date: 2017-01-12
Anticipated expiration: 2035-06-24
Also published as: JP6580882B2; US10535339B2; US20160379624A1

Abstract

【課題】簡単に発音列が与えられときの音声認識結果を得ることできる音声認識結果出力装置を提供する。【解決手段】発音列取得部が、発音列を取得し、特徴量変換部が、発音列を発音列特徴ベクトルに変換する。そして、表記列変換部が、記憶部に記憶された音声認識用の言語モデルを用いて、発音列特徴ベクトルを表記列に変換して出力する。【選択図】図２

Description

本発明の実施の形態は、音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラムに関する。

音声認識エンジンの音声認識結果を利用するアプリケーションにおいて、あらかじめユーザ又はアプリケーション開発者が、音声認識エンジンが、ある発音列に対してどのような表記列を出力するか知ることのできる機能は、音声認識エンジンを使ったアプリケーションの開発者又は利用者（ユーザ）にとって重要である。実際に幾つかの単語又は文章を発話して音声認識エンジンに音声入力を行い、期待する音声認識結果が出力されるか否かを確認する方法がある。この確認手法は、入力した発音列に対して期待する表記列が出力されるか否かの確認を行うための、最もシンプルな確認手法である。

しかし、実際に人が発声して音声入力を行い、音声認識結果を確認する確認手法は、確認すべき単語が多い場合、労力及びコストがかかる。また、正解となる音声認識結果が出力されない場合、原因が言語モデルにあるのか又は音響モデルにあるのか、という原因の特定が困難となる。

ここで、音声認識エンジンに使用する言語モデルと同様の統計量に基づいて作成された言語モデルを用いて、仮名を入力とし、仮名漢字変換処理を行い、音声認識エンジン結果と同様の結果を取得する手法が知られている。しかし、この手法の場合、仮名漢字変換用のデコーダを本来の音声認識エンジンのデコーダとは別に設ける必要がある。すなわち、「音声認識エンジンのデコーダ」及び「仮名漢字変換用のデコーダ」の、計２種類のデコーダが必要となる。このため、音声認識結果出力装置の構成が複雑化しコスト高となる問題がある。

特開２０１０−００９４４６号公報

本発明が解決しようとする課題は、より簡単な構成で入力発音列から音声認識結果として出力される表記を得ることできる音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラムを提供することである。

実施の形態によれば、発音列取得部が、発音列を取得し、特徴量変換部が、発音列を発音列特徴ベクトルに変換する。そして、表記列変換部が、記憶部に記憶された音声認識用の言語モデルを用いて、発音列特徴ベクトルを表記列に変換して出力する。

図１は、第１の実施の形態の音声認識結果出力装置のハードウェア構成図である。図２は、第１の実施の形態の音声認識結果出力装置の主となる機能の機能ブロック図である。図３は、第１の実施の形態の音声認識結果出力装置における、発音列を表記列に変換する動作の流れを示すフローチャートである。図４は、第１の実施の形態の音声認識結果出力装置における、発音列を発音列特徴ベクトルに変換する動作を説明するための模式図である。図５は、第２の実施の形態の音声認識結果出力装置のハードウェア構成図である。図６は、実施の形態の音声認識結果出力装置の全体の機能ブロック図である。図７は、実施の形態の音声認識結果出力装置における、発音列を表記列に変換する動作の流れ及び入力音声を表記列に変換する動作の流れ示すフローチャートである。

以下、実施の形態の音声認識結果出力装置を、図面を参照して詳細に説明する。

（第１の実施の形態）
まず、図１に、第１の実施の形態の音声認識結果出力装置のハードウェア構成図を示す。この図１に示すように、音声認識結果出力装置は、ＣＰＵ１、ＲＯＭ２、ＲＡＭ３、マイクロホン部４、表示部６、操作部７及びＨＤＤ８を有している。ＣＰＵは、「Central Processing Unit」の略記である。ＲＯＭは、「Read Only Memory」の略記である。ＲＡＭは、「Random Access Memory」の略記である。ＨＤＤは、「Hard Disc Drive」の略記である。ＣＰＵ１〜ＨＤＤ部８は、それぞれバスライン９を介して相互に接続されている。

ＣＰＵ１は、音声認識結果出力装置の動作を統括的に制御する。また、ＣＰＵ１は、ＲＡＭ３をワークエリア（作業領域）としてＲＯＭ２又はＨＤＤ８等の記憶部に記憶した音声認識結果出力プログラムを実行することで、後述する音声認識結果出力動作を実行する。ＨＤＤ８等の記憶部には、単語とその単語の音素マッピング情報、及び、単語の連鎖をモデル化した言語モデル（言語ＤＢ）１０が記憶されている。言語ＤＢ１０は、記憶部の一例である。

言語ＤＢ１０の言語モデルとしては、音声認識結果を確認したい音声認識エンジンと同じ統計情報から作成したモデルを使用する。また、言語モデルとしては、単語と発音記号とが関連付けられた辞書も同時に保持されている。一例として、言語モデルとしては、言語モデル学習データの１単語の出現確率で決定されるｎ−ｇｒａｍ言語モデルを使用できる（ｎは、１以上の自然数）。言語モデルとしては、１−ｇｒａｍ言語モデル以外であっても、２−ｇｒａｍ言語モデル、３−ｇｒａｍ言語モデル、４−ｇｒａｍ言語モデル、５−ｇｒａｍ言語モデル・・・等の他の言語モデルを使用してもよい。なお、リカレント・ニューラル・ネットワーク（Recurrent Neural Networks）を用いてモデル化した言語モデルを用いても良い。また、重み付き有限状態トランスデューサ（ＷＦＳＴ：Weighted Finite-State Transducer）音声認識技術を用いても良い。

図２に、ＣＰＵ１が、ＲＯＭ２に記憶されている音声認識結果出力プログラムを実行することで実現される機能の機能ブロック図を示す。なお、この図２は、主要となる機能の機能ブロック図である。この図２に示すように、ＣＰＵ１は、音声認識結果出力プログラムを実行することで、発音列取得部２１、特徴量変換部２２、及び、表記列変換部２３として機能する。

なお、発音列取得部２１〜表記列変換部２３は、ソフトウェアで実現されることとしたが、一部又は全部を、例えば集積回路（ＩＣ）等のハードウェアで実現してもよい。また、音声認識結果出力プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、音声認識結果出力プログラムは、ＣＤ−Ｒ、ＤＶＤ、ブルーレイディスク（登録商標）、半導体メモリ等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。ＤＶＤは、「Digital Versatile Disk」の略記である。また、音声認識結果出力プログラムは、インターネット等のネットワーク経由で提供してもよい。また、音声認識結果出力プログラムを、ネットワークを介してダウンロードし、音声認識結果出力装置又はパーソナルコンピュータ装置等にインストールして実行してもよい。また、音声認識結果出力プログラムを、機器内のＲＯＭ等に予め組み込んで提供してもよい。

発音列取得部２１は、発音列を取得して特徴量変換部２２に供給する。特徴量変換部２２は、後段の表記列変換部２３で発音列としては音声認識の結果、正解となる発音列特徴ベクトルを、発音列から生成する。表記列変換部２３は、ＨＤＤ８の言語ＤＢ１０に記憶されている言語モデルを用いて、発音列特徴ベクトルを表記列に変換して出力する。

図３のフローチャートに、このような音声認識結果出力処理の流れを示す。ステップＳ１では、発音列取得部２１が、入力された発音列を取得する。発音列は、開発者又は利用者（ユーザ）等がキーボード等を操作して直接入力しても良い。または、発音列は、事前に表記列音素変換処理（Grapheme-to-phoneme conversion）等を用いて、表記列（Graphemes）から発音又は音素列（Phonemes）の推定結果を入力としても良い。

次に、ステップＳ２では、特徴量変換部２２が、取得された発音列から発音列特徴ベクトルを生成する。発音列特徴ベクトルは、後段の表記列変換部２３で発音系列が正解となるような特徴ベクトルである。ディープ・ニューラル・ネットワーク（ＤＮＮ：Deep Neural Network）及び隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）を用いたＤＮＮ−ＨＭＭ音声認識エンジンでは、一定の時間毎に音声区間を１フレームとして切り出す。また、切り出したフレームに対して、ＤＮＮを用いて発音系列の音素状態出力確率ベクトル（音素状態音響スコアベクトル）を算出する。そして、算出した音素状態出力確率ベクトルを用いて音声認識結果出力処理を実行する。

ａ〜ｚの２６種類の発音記号が存在し、各発音が３状態ＨＭＭで表されるとき、各フレームで２６×３クラスについての音素状態出力確率ベクトルが算出される。この２６×３クラスについての音素状態出力確率ベクトルを出力する。

例えば図４に示すように、「ｂｒｅａｋ」、「ｂｒａｋｅ」の発音記号として予め定義されている「ｂ」、「ｒ」、「ｅ」、「ｉ」、「ｋ」が、ユーザにより入力されたとする。また、「ｂ」、「ｒ」、「ｅ」、「ｉ」、「ｋ」の状態列が、「ｂ１」、「ｂ２」、「ｂ３」、「ｒ１」、「ｒ２」、「ｒ３」、「ｅ１」、「ｅ２」、「ｅ３」、「ｉ１」、「ｉ２」、「ｉ３」、「ｋ１」、「ｋ２」、「ｋ３」で表されるとする。この場合、特徴量変換部２２は、１フレーム目の出力確率ベクトルとして、「ｂ１」の出力確率が１．０、他の出力確率が０．０等のように出力確率ベクトルを作成する。また、特徴量変換部２２は、２フレーム目の出力確率ベクトルとして、「ｂ２」の出力確率が１．０、他の出力確率が０．０、３フレーム目の出力確率ベクトルとして「ｂ３」の出力確率が１．０、他の出力確率が０．０等のように出力確率ベクトルを作成する。

すなわち、特徴量変換部２２は、図４に示すように「ｂ」、「ｒ」、「ｅ」、「ｉ」、「ｋ」を表す状態列に対して、該当状態の出力確率要素が１．０、他が０．０等のように、順次、出力確率ベクトルを作成する。この出力確率ベクトル列を、音響スコア計算部分を除く一般的なＤＮＮ−ＨＭＭデコーダに供給すると、「ｂ」、「ｒ」、「ｅ」、「ｉ」、「ｋ」という発音列に対して最も尤度が高くなり、入力と同じ発話列が単語辞書の中に存在すれば、ＤＮＮ−ＨＭＭデコーダの出力は、発音列に関しては入力と同じものが出力され、表記列に関しては言語モデルに依存して決定される。特徴量変換部２２は、このような特徴ベクトルを作成し、表記列変換部２３に供給する。この特徴ベクトルを、音響スコア計算部分を除くデコーダへの入力とすることによって、表記列変換実行時に、ＤＮＮ−ＨＭＭ音声認識エンジン用のデコーダと機能を共有することができる。

なお、正解ベクトルの作成方法はこれに限らず、出力確率ではなく該当状態の要素が１０．０、他が５．０等のように出力してもよい。また正解ベクトルに雑音を加え、より厳しい条件で所望の結果が出力されるか否かを判別する構成としても良い。また、ガウス混合モデル（ＧＭＭ：Gaussian Mixture Model）を使ったＨＭＭ音声認識において、各発音列状態を表すＧＭＭの複数の次元の平均値を要素とするベクトル等を発音列特徴ベクトルとしてもよい。ただし、この場合は表記列変換実行時に、ＧＭＭ−ＨＭＭ音声認識エンジン用の言語モデルと音響モデルを使用する。

次に、ステップＳ３では、表記列変換部２３が、言語ＤＢ１０の言語モデルを用いて、発音列特徴ベクトルを表記列に変換する。発音列から表記列への変換は、入力発音記号列に対して、１−ｇｒａｍの出現確率を用いたビタビアルゴリズム（Viterbi algorithm）を用いることができる。なお、探索アルゴリズムは、ビタビアルゴリズムに限定されず、ツリートレリス（tree trellis）探索アルゴリズム等の他のアルゴリズムを用いてもよい。

表記列変換部２３は、何らかの連鎖語で「ｂ」、「ｒ」、「ｅ」、「ｉ」、「ｋ」という発音列が表される場合、ステップＳ４において、それら連鎖語、又は、「ｂｒｅａｋ」か「ｂｒａｋｅ」のいずれかで、ビタビアルゴリズムで計算された最も尤度の高いパスの結果を出力する。表記列変換部２３から出力された表記列は、例えば表示部６に供給され表示される。認識結果の確認を行うユーザは、表示部６に表示される表記列を見て、第１の実施の形態の音声認識結果出力装置に入力された発音列に対して、正しい表記列が出力されたか否かを確認する。

以上の説明から明らかなように、第１の実施の形態の音声認識結果出力装置は、発音列取得部２１が、発音列を取得して特徴量変換部２２に供給する。特徴量変換部２２は、後段の表記列変換部２３で発音列として正解となる発音列特徴ベクトルを、発音列から生成する。表記列変換部２３は、ＨＤＤ８の言語ＤＢ１０に記憶されている言語モデルを用いて、発音列特徴ベクトルを表記列に変換して出力する。

（第２の実施の形態）
次に、第２の実施の形態の音声認識結果出力装置の説明をする。図５に、第２の実施の形態の音声認識結果出力装置のハードウェア構成図を示す。なお、この図５において、上述の第１の実施の形態と同じ動作を示す箇所には同じ符号を付し、重複した説明は省略する。図５に示すように、第２の実施の形態の音声認識結果出力装置は、ＣＰＵ１、ＲＯＭ２、ＲＡＭ３、マイクロホン部４、表示部６、操作部７及びＨＤＤ８を有している。ＣＰＵ１〜ＨＤＤ部８は、それぞれバスライン９を介して相互に接続されている。

ＣＰＵ１は、ＨＤＤ８等の記憶部に記憶した音声認識結果出力プログラムを実行することで、後述する音声認識結果出力動作を実行する。ＨＤＤ８等の記憶部には、上述の言語モデルの言語ＤＢ１０と共に、音素の音響特性をモデル化した音響モデルの音響ＤＢ１１が記憶されている。言語ＤＢ１０は、記憶部の一例である。音響ＤＢ１１は、他の記憶部の一例である。なお、言語ＤＢ１０及び音響ＤＢ１１は、ＨＤＤ８等の物理的に同じ記憶部に設けてもよいし、物理的に異なる記憶部に設けてもよい。

図６は、第２の実施の形態の音声認識結果出力装置の全体的な機能ブロック図である。この図６に示すように、実施の形態の音声認識結果出力装置は、上述の発音列取得部２１〜第１の表記列変換部２３を備え、取得した発音列に対応する表記列を出力する第１の表記列変換系と共に、ＨＤＤ８に記憶されている言語ＤＢ１０及び音響ＤＢ１１を用いて、取得した音声に対応する表記列を出力する第２の表記列変換系を有している。すなわち、実施の形態の音声認識結果出力装置は、第１の表記列変換系と共に、音声取得部３１、第２の特徴量変換部３２、及び、第２の表記列変換部３３を備えた第２の表記列変換系を有している。

ＣＰＵ１は、ＲＯＭ２に記憶されている音声認識結果出力プログラムを実行することで、このような第１の表記列変換系及び第２の表記列変換系として機能する。また、第１の表記列変換部２３及び第２の表記列変換部３３でデコーダ４０を形成している。

なお、第１の表記列変換系及び第２の表記列変換系の各部２１〜２３、３１〜３３は、ソフトウェアで実現されることとしたが、一部又は全部を、例えば集積回路（ＩＣ）等のハードウェアで実現してもよい。また、音声認識結果出力プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。また、音声認識結果出力プログラムは、ＣＤ−Ｒ、ＤＶＤ、ブルーレイディスク（登録商標）、半導体メモリ等のコンピュータ装置で読み取り可能な記録媒体に記録して提供してもよい。ＤＶＤは、「Digital Versatile Disk」の略記である。また、音声認識結果出力プログラムは、インターネット等のネットワーク経由で提供してもよい。また、音声認識結果出力プログラムを、ネットワークを介してダウンロードし、音声認識結果出力装置又はパーソナルコンピュータ装置等にインストールして実行してもよい。また、音声認識結果出力プログラムを、機器内のＲＯＭ等に予め組み込んで提供してもよい。

第１の表記列変換系は、上述のように発音列取得部２１で取得した発音列から、第１の特徴量変換部２２が、第１の表記列変換部２３（＝デコーダ４０）で発音列として正解となる発音列特徴ベクトルを生成する。第１の表記列変換部２３は、言語ＤＢ１０に記憶されている言語モデルを用いて、発音列特徴ベクトルを表記列に変換して出力する。

これに対して、第２の表記列変換系の音声取得部３１は、取得した音声を第２の特徴量変換部３２に供給する。他の特徴量変換部の一例である第２の特徴量変換部３２は、音声を音声特徴ベクトルに変換して第２の表記列変換部３３に供給する。他の表記列変換部の一例である第２の表記列変換部３３は、音響ＤＢ１１に記憶されている音響モデル、及び、言語ＤＢ１０に記憶されている言語モデルを用いて、音声特徴ベクトルを表記列に変換して出力する。

図７のフローチャートに、第１の表記列変換系及び第２の表記列変換系の音声認識結果出力処理の流れを示す。この図７のフローチャートは、ステップＳ０において、入力が発音列か音声であるかを判別する。入力が発音列の場合、第１の表記列変換系において、ステップＳ１〜ステップＳ４の各処理が実行される。図７のフローチャートのステップＳ１〜ステップＳ４は、図３のフローチャートのステップＳ１〜ステップＳ４の各処理と同じ処理である。このため、図７のフローチャートのステップＳ１〜ステップＳ４の各処理は、上述の図３のフローチャートの説明を参照されたい。

一方、入力が音声の場合、第２の表記列変換系において、ステップＳ１１〜ステップＳ１４の各処理が実行される。すなわち、ステップＳ１１において、音声取得部３１が、入力された音声を取得し、第２の特徴量変換部３２に供給する。一例として、図５に示すマイクロホン部４が、音声取得部３１となっている。マイクロホン部４は、集音したアナログ音声をアナログ／デジタル変換機能を用いてデジタル化し、第２の特徴量変換部３２に供給する。

次に、ステップＳ１２において、第２の特徴量変換部３２が、デジタル音声を音声特徴ベクトルに変換する。具体的には、第２の特徴量変換部３２は、デジタル音声の音声波形を、一定時間のフレーム毎に切り出す。そして、第２の特徴量変換部３２は、フレーム毎に音響特徴量を算出する。すなわち、一例であるが、第２の特徴量変換部３２は、１フレームを２５６サンプルとしたデジタル音声の音声波形を、１２８サンプルずつ、ずらしながら切り出す。

第２の特徴量変換部３２は、切り出した２５６サンプルとなる１フレームの音声波形から、１２次元のＭＦＣＣ特徴量を算出する。ＭＦＣＣは、「メル周波数ケプストラム係数（Mel Frequency Cepstrum Coefficient）」の略記である。第２の特徴量変換部３２は、３フレーム分のＭＦＣＣ特徴量をバッファリングする。そして、第２の特徴量変換部３２は、バッファリングした３フレーム分のＭＦＣＣ特徴量を連結した３６次元の特徴量を出力する。また、第２の特徴量変換部３２は、３６次元の特徴量は、バッファリングした３フレームのうち、中央のフレームの時刻に対応する特徴量として出力する。換言すると、第２の特徴量変換部３２は、中央のフレームの時刻に対応する特徴量として、中央のフレーム及び中央のフレームの前後のフレームの３６次元の特徴量を出力する。

抽出する特徴量は、ＭＦＣＣ特徴量以外でもよい。例えば、メルフィルタバンク特徴量、ＰＬＰ（Perceptual Linear Prediction）、ＲＡＳＴＡ−ＰＬＰ特徴量、ピッチ特徴量、及び、それらの△成分又は△△成分等を用いてもよい。ＲＡＳＴＡは、「RelAtive SpecTrAｌ processing」の略記である。また、これら特徴量の組み合わせを用いてもよい。また、連結フレーム数は３に限定されるものではなく、１フレーム以上であれば、何フレーム連結させてもよい。また、切り出しサンプルサイズ及びフレーム周期は上記の値に限定されるものではない。

次に、ステップＳ１３では、第２の表記列変換部３３が、音響ＤＢ１１に記憶されている音響モデルと、言語ＤＢ１０に記憶されている言語モデルを用いて、抽出された音声特徴ベクトルを表記列に変換する。音響ＤＢ１１には、ディープ・ニューラル・ネットワーク（ＤＮＮ）の音響モデルが記憶されている。また、言語ＤＢ１０には、１−ｇｒａｍ言語モデルが記憶されている。この言語モデルは、第１の特徴量変換部２２で生成される上述の発音列特徴ベクトルを表記列に変換する際に用いる言語モデルと同じ言語モデルである。第２の表記列変換部３３は、このような音響モデル及び言語モデルを用いて、一般的なＤＮＮ−ＨＭＭ音声認識処理を行う。この音声認識処理は、音響モデルを使って特徴ベクトルから音響スコアベクトルに変換する部分を除いては、第１の表記列変換部と等しい。よって、第１の表記列変換部と第２の表記列変換部は、デコーダの一部機能を共有することができる。そして、第２の表記列変換部３３は、ステップＳ１４において、音声認識結果である、入力音声に対する表記列の出力を行う。

以上の説明から明らかなように、第２の実施の形態の音声認識結果出力装置は、発音列取得部２１が、発音列を取得して第１の特徴量変換部２２に供給する。第１の特徴量変換部２２は、後段の第１の表記列変換部２３（図５：デコーダ４０）で発音列として正解となる発音列特徴ベクトルを、発音列から生成する。第１の表記列変換部２３は、ＨＤＤ８の言語ＤＢ１０に記憶されている言語モデルを用いて、発音列特徴ベクトルを表記列に変換して出力する。これにより、実施の形態の音声認識結果出力装置を、図５に示したように既存の音声認識エンジンのデコーダを用いて（デコーダの機能を共有し）、より簡単に音声認識結果出力装置を実現できる。

本発明の実施の形態を説明したが、これらの実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施の形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１ＣＰＵ
２ＲＯＭ
３ＲＡＭ
４マイクロホン部
５スピーカ部
６表示部
７操作部
８ＨＤＤ
９バスライン
１０言語データベース
１１音響データベース
２１発音列取得部
２２第１の特徴量変換部
２３第１の表記列変換部
３１音声取得部
３２第２の特徴量変換部
３３第２の表記列変換部
４０デコーダ

Claims

発音列を取得する発音列取得部と、
音声認識用の言語モデルを記憶した記憶部と、
前記発音列を発音列特徴ベクトルに変換する特徴量変換部と、
前記言語モデルを用いて、前記発音列特徴ベクトルを表記列に変換して出力する表記列変換部と
を有する音声認識結果出力装置。
前記発音列特徴ベクトルは、音響スコアベクトルであること
を特徴とする請求項１に記載の音声認識結果出力装置。
前記発音列特徴ベクトルは、音素状態音響スコアベクトルで、音素状態音響スコアベクトル列は発音列に該当する音素状態音響スコアの要素を他の音素状態音響スコアよりも高くしたベクトル列であること
を特徴とする請求項１に記載の音声認識結果出力装置。
音声認識用の音響モデルを記憶した他の記憶部と、
入力音声を取得する音声取得部と、
取得した音声の音声波形を、音声認識用の音声特徴ベクトルに変換する他の特徴量変換部と、
前記言語モデルと前記音響モデルを用いて、前記音声特徴ベクトルを表記列に変換する他の表記列変換部と、をさらに備えること
を特徴とする請求項１から請求項３のうち、いずれか一項に記載の音声認識結果出力装置。
前記音響モデルは、ガウス分布音響モデルであり、前記発音列特徴ベクトルは、発音列状態を表すガウス混合音響モデルの複数の次元の平均値を要素とすること
を特徴とする請求項４に記載の音声認識結果出力装置。
発音列取得部が、発音列を取得する発音列取得ステップと、
特徴量変換部が、取得した前記発音列を発音列特徴ベクトルに変換する特徴量変換ステップと、
表記列変換部が、音声認識用の言語統計情報を持つ言語モデルを用いて、前記発音列特徴ベクトルを表記列に変換して出力する表記列変換ステップと
を有する音声認識結果出力方法。
コンピュータを、
発音列を取得する発音列取得部と、
取得した前記発音列を発音列特徴ベクトルに変換する特徴量変換部と、
音声認識用の言語統計情報を持つ言語モデルを用いて、前記発音列特徴ベクトルを表記列に変換して出力する表記列変換部として機能させること
を特徴とする音声認識結果出力プログラム。