JP3894419B2

JP3894419B2 - 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP3894419B2
Application number: JP2001074023A
Authority: JP
Inventors: 純石井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2001-03-15
Filing date: 2001-03-15
Publication date: 2007-03-22
Anticipated expiration: 2021-03-15
Also published as: JP2002278584A

Description

【０００１】
【発明の属する技術分野】
本発明は、話者の音声の音声認識を行うための音声認識装置、音声認識方法、音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。
【０００２】
【従来の技術】
近年、使用話者が単語を連続して入力できる連続音声認識技術の実用化検討が盛んに行われている。連続音声認識は、単語の復号列が最大事後確率を持つように、音声の音響的な観測系列に基づいてＷハットを復号することである。これは式(１)で表される。
【０００３】
【数１】

【０００４】
ここで、Ｏは音声の音響的な観測系列 [o₁, o₂, o₃, ... o_T] であり、Wは単語系列 [ｗ₁, w₂, w₃, ... w_n] である。Ｐ(Ｏ|Ｗ)は単語列Ｗが与えられたときの観測系列Ｏに対する確率であり音響モデルによって計算するものであり、Ｐ(Ｗ)は単語列Ｗの生起確率であり言語モデルによって計算するものである。音声認識を実行する場合は一般に式(１)の対数をとった式(２)を用いる。式(２)においてαは音響モデルによる確率と言語モデルによる確率のバランスをとるための重み係数である。
【０００５】
【数２】

【０００６】
音声認識については、
・森北出版(株)から出版されている古井貞煕著の「音声情報処理」、1998年６月発行(以降文献１とする)、
・電子情報通信学会から出版されている中川聖一著の「確率モデルによる音声認識」、1992年４月発行(以降文献２とする)、
・ＮＴＴアドバンステクノロジ(株)から出版されている Lawrence Rabiner、Biing-Hwang Juang著、古井貞煕監訳の「音声認識の基礎(上、下)」1995年１１月発行(以降文献３とする)、
に詳しく説明されている。
【０００７】
音響モデルによって計算するＰ(Ｏ|Ｗ)は最近は統計的手法である隠れマルコフモデル(ＨＭＭ)を用いる検討が盛んである。隠れマルコフモデルを用いた音響モデルは例えば上記文献３の６章に詳しく述べられている。
【０００８】
また言語モデルによって計算するＰ(Ｗ)は統計的な手法を用いることが多く、代表的なものにN-garmモデルがある(Ｎは２以上)。これらについては東京大学出版会から出版されている北研二著の「確率的言語モデル」、1999年１１月発行(以下文献４とする)の３章において詳しく説明されている。N-gramモデルは直前の(Ｎ−１)個の単語から次の単語への遷移確率を統計的に与えるものである。N-gramによる単語列 w^L ₁= w₁ ... w_L の生起確率は式(３)によって与えられる。
【０００９】
【数３】

【００１０】
式(３)において確率Ｐ(w_t|w_t+1-N ^t-1)は(Ｎ−１)個の単語からなる単語列w_t+1-N ^t-1の後に単語w_tが生起する確率であり、Пは積を表している。例えば「私・は・駅・へ・行く」(・は単語の区切りを表す)といった単語列の生起確率を2-gram(バイグラム)で求める場合は式(４)のようになる。式(４)において＃は文頭、文末を表す記号である。
【００１１】
【数４】

【００１２】
確率Ｐ(w_t|w_t+1-N ^t-1)は学習用テキストデータの単語列の相対頻度によって求められる。単語列Ｗの学習用テキストデータにおける出現頻度をＣ(Ｗ)とすれば、例えば「私・は」の2-gram確率Ｐ(は|私)は式(５)によって計算される。式(５)においてＣ(私・は)は単語列「私・は」の出現頻度、Ｃ(私)は「私」の出現頻度である。
【００１３】
【数５】

【００１４】
しかしながらN-gramの確率値を単純に相対頻度によって推定すると、学習用テキストデータ中に出現しない単語組を０にしてしまうという大きな欠点がある(ゼロ頻度問題)。また、たとえ学習用テキストデータ中に出現したとしても出現頻度の小さな単語列に対しては、統計的に信頼性のある確率値を推定するのが難しい(スパースネスの問題)。これらの問題に対処するために、通常はスムージングあるいは平滑化と呼ばれる手法を用いる。スムージングについては上記文献４の３．３章にいくつかの手法が述べられているので、ここでは具体的説明は省略する。
【００１５】
この言語モデルを用いて、話し言葉のような自然な発話を音声認識の対象とした音声認識装置も構築可能である。自然発話の特徴として「えーと」、「あのー」等の意味の無い繋ぎの語が入ることがある。図１３に出現する頻度が高い冗長語の例を示す。冗長語は種類が多く、またどの単語間にも挿入される可能性があるので、冗長語を含めて学習した場合はスパースネスやゼロ頻度の問題が生じる。従ってこの言語モデルを用いた場合は、単語列の正確な生起確率を得ることはできず高い認識率が得られない。そこで自然な発話を音声認識するための言語モデルは、冗長語は含まずに生成する方法が検討されている。従来技術としては例えば、特開平７−１０４７８２号公報の「音声認識装置」(以降文献５とする)がある。
【００１６】
図１４は文献５に記述されている従来の音声認識装置のブロック図である。以下図１４を参照して従来技術の説明を行う。図において、１００１は認識対象音声、１００２は音声特徴量抽出手段、１００３は音響モデル、１００４は言語モデル、１００５は冗長語をスキップした言語スコアを用いた照合手段、１００６は音声認識結果である。
【００１７】
次に動作について説明する。認識対象音声１００１は認識対象とする音声であり、音声特徴量抽出手段１００２へ入力される。音声特徴量抽出手段１００２は認識対象音声１００１に含まれている音声特徴量を抽出する。音響モデル１００３は音声に対して音響的に照合を行うためのモデルである。音響モデル１００３は例えば、多数の話者が発声した文や単語の音声を用いて学習した、前後音素環境を考慮した音素を認識ユニットとしたＨＭＭを用いる。
【００１８】
言語モデル１００４は、単語列の生起確率を求めるためのモデルである。言語モデル１００４は、冗長語を含んでいない学習テキストを用いて学習した、冗長語以外の単語列の生起確率を与える言語モデルである。また言語モデル１００４には発声されやすい冗長語を選び、認識対象の語彙として登録している。冗長語を含む単語連鎖についての生起確率は学習テキストによって求めることはせず、冗長語は、どの単語間にも挿入できるものとしている。上記文献５では言語モデルとしてN-gramモデル(Nは３)を用いている。
【００１９】
冗長語をスキップした言語スコアを用いた照合手段１００５は、言語モデル１００４が設定している認識対象の単語 [V(1), V(2), ..., V(vn)] (vnは認識対象とする単語数)の発音表記を認識ユニットラベル表記に変換し、このラベルに従って音響モデル１００３に格納されている音素単位のＨＭＭを連結し、認識対象単語の標準パタン [λ_v(1), λ_v(2), ..., λ_v(vn)] を作成する。そして認識対象単語標準パタンと言語モデル１００４によって表される単語列の生起確率を用いて、音声特徴量抽出手段１００２の出力である音声特徴量に対して照合を行い、音声認識結果１００６を出力する。
【００２０】
このときの照合において、単語列の生起確率は冗長語をスキップして計算される。文献５の例では「東京都港区新橋えーと１丁目」という単語列の3-gramによる生起確率は、式(６)のように冗長語「えーと」をスキップした単語列を対象にして計算している。そして冗長語へ接続する確率は１．０と一定値を与えている。
【００２１】
【数６】

【００２２】
冗長語をスキップした言語スコアを用いた照合手段１００５は、認識対象音声に対して認識対象単語で最も照合スコアが高い単語列ＲＷ=[V(r(1)), V(r(2)), ..., V(r(m))] を音声認識結果１００６として出力する。ここでｒ(ｉ)は音声認識結果の単語系列のｉ番目の単語の単語番号を示す。また、ｍは認識単語系列の単語数を示す。
【００２３】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、冗長語に接続する確率が一定であり、そして冗長語から接続する確率は考慮されていない。冗長語はどの単語にも接続する可能性はあるが、発声の最初や文節間に挿入されやすいという傾向ある。また、発声されやすい冗長語の種類にも偏りがあるにもかかわらず、従来の音声認識装置は各冗長語は等しい生起確率となっている。従って言語モデルは複雑度が大きく、単語列の生起確率の推定精度は悪くなり、音声認識精度が良くならないといった課題があった。
【００２５】
この発明は、単語列の推定精度が高い言語モデルを用いて音声認識を行う音声認識精度の高い音声認識装置、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【００２６】
【課題を解決するための手段】
上記の目的に鑑みこの発明は、認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識装置であって、上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手段と、上記音声特徴量の系列の確率を求めるための音響モデルと、冗長語を含む学習用テキストを入力して、冗長語も含めて単語列の生起確率を求める言語モデルを生成する冗長語を含む言語モデル生成手段と、上記冗長語を含む学習用テキストから冗長語を取り除き、冗長語を除いた学習用テキストを生成する冗長語除去手段と、上記冗長語を除いた学習用テキストを入力し、冗長語を除いた単語列の生起確率を求める言語モデルを生成する冗長語を除いた言語モデル生成手段と、上記音響モデルと上記冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手段が抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第１の照合手段と、この第１の照合手段が出力した複数の音声認識結果候補に対して、上記冗長語を含む言語モデルと上記冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第２の照合手段と、を備えたことを特徴とする音声認識装置にある。
【００２７】
また、認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識装置であって、上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手段と、上記音声特徴量の系列の確率を求めるための音響モデルと、冗長語を含む学習用テキストを入力して冗長語をクラス化し、クラス化された冗長語も含めて単語列の生起確率を求める言語モデルを生成するクラス化された冗長語を含む言語モデル生成手段と、上記冗長語を含む学習用テキストから冗長語を取り除き、冗長語を除いた学習用テキストを生成する冗長語除去手段と、上記冗長語を除いた学習用テキストを入力し、冗長語を除いた単語列の生起確率を求める言語モデルを生成する冗長語を除いた言語モデル生成手段と、上記音響モデルと上記クラス化された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手段が抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第１の照合手段と、この第１の照合手段が出力した複数の音声認識結果候補に対して、上記クラス化された冗長語を含む言語モデルと上記冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第２の照合手段と、を備えたことを特徴とする音声認識装置にある。
【００２８】
また、認識対象音声の音声認識を行う音声認識方法であって、上記認識対象音声から音声特徴量を抽出する音声特徴量抽出工程と、上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力して生成された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出工程で抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を求める第１の照合工程と、
この第１の照合工程で求められた複数の音声認識結果候補に対して、上記冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識を行う第２の照合工程と、を備えたことを特徴とする音声認識方法にある。
【００２９】
また、認識対象音声の音声認識を行う音声認識方法であって、上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出工程と、上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力し冗長語をクラス化して生成されたクラス化された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出工程で抽出された音声特徴量に対して照合を行い複数の音声認識結果候補を求める第１の照合工程と、この第１の照合工程で求められた複数の音声認識結果候補に対して、上記クラス化された冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識を行う第２の照合工程と、を備えたことを特徴とする音声認識方法にある。
【００３０】
また、認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識プログラムを記録した記録媒体であって、上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手順と、上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力して生成された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手順で抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第１の照合手順と、この第１の照合手順が出力した複数の音声認識結果候補に対して、上記冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第２の照合手順と、を実現させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体にある。
【００３１】
また、認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識プログラムを記録した記録媒体であって、上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手順と、上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力し冗長語をクラス化して生成されたクラス化された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手順で抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第１の照合手順と、この第１の照合手順で出力した複数の音声認識結果候補に対して、上記クラス化された冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第２の照合手順と、を実現させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体にある。
【００４４】
【発明の実施の形態】
以下、この発明を各実施の形態に従って説明する。
実施の形態１．
図１はこの発明の実施の形態１による言語モデル生成装置の構成を示すブロック図である。図において１０１は学習用テキスト、１０２は冗長語除去手段、１０３は冗長語を除いた言語モデル生成手段、１０４は冗長語を除いた言語モデル、１０５は冗長語を含む言語モデル生成手段、１０６は冗長語を含む言語モデルである。これらは一般に、プログラムに従って動作するコンピュータおよびこれに接続されたデータベースによって構成される。
【００４５】
なお学習用テキスト１０１は、音声認識の認識対象とする分野の場面、状況において用いられる単語や文を文字化したものである。例えば、チケットの予約を行っている対話を認識対象とする場合は、チケットの予約を行っている対話音声を書き起こしたテキストである。
【００４６】
図２はこの発明の実施の形態１による言語モデル生成装置における言語モデル生成方法を示すフローチャートであり、以下これに従って動作を説明する。
【００４７】
冗長語除去手段１０２は、ステップＳＴ１０１において、学習用テキスト１０１を入力し、学習用テキスト１０１の中から冗長語を取り除く。ここで冗長語とは「えーと」、「あのー」等の意味をもたない繋ぎの語を指す。冗長語の除去は例えば以下のようになる。「[あのー]明日から[えーと]三泊したいのですが」([]内は冗長語)という学習用テキストがあった場合、冗長語除去手段１０２によって「明日から三泊したいのですが」という冗長語を除いた学習用テキストが生成される。
【００４８】
ステップＳＴ１０２において、冗長語を除いた言語モデル生成手段１０３では、ステップＳＴ１０１において生成される冗長語を除いた学習用テキストを入力して、冗長語を除いた言語モデル１０４の生成を行う。ここで、言語モデルは上記文献４の３章から５章に述べられている、N-gramモデル、隠れマルコフモデル、確率文脈自由文法等を用いる。
【００４９】
このようにして生成された冗長語を除いた言語モデル１０４は、冗長語の影響がないのでスパースネスの問題やゼロ頻度の問題が軽減する。従って冗長語を含まない単語列に対する生起確率の推定精度が高い。
【００５０】
冗長語を除いた言語モデル１０４による単語列の生起確率の計算は、例えば「[あのー]・明日・から・[えーと]・三泊・したいの・ですが」([]内は冗長語、・は単語区切りを表す)という単語列Ｗがあった場合は、冗長語を除いた「明日・から・三泊・したいの・ですが」という単語列Ｗ’に対して行う。言語モデルが2-gramである場合は式(７)のように生起確率を計算する。ここでＰ(w_k|w_k-1)は冗長語を除いた言語モデル１０４で与えられる、単語w_k-1から単語w_kへ接続する確率である。
【００５１】
【数７】

【００５２】
ステップＳＴ１０３において、冗長語を含む言語モデル生成手段１０５では学習用テキスト１０１を入力して冗長語を含む言語モデル１０６を生成する。言語モデルは上記文献４の３章から５章に述べられている、N-gramモデル、隠れマルコフモデル、確率文脈自由文法等を用いる。
【００５３】
このようにして生成された冗長語含む言語モデル１０６は、冗長語を含んだ単語列の生起確率を与える言語モデルとなり、冗長語の入る傾向を表している言語モデルとなる。
【００５４】
冗長語を含む言語モデル１０６による単語列の生起確率は、例えば「[あのー]・明日・から・[えーと]・三泊・したいの・ですが」([]内は冗長語、・は単語区切りを表す)という単語列Ｗに対する2-gramモデルによる計算は式(８)によって得る。式(８)においてＰ_f(w_k|w_k-1)は冗長語を含む言語モデル１０６で与えられる単語w_k-1から単語w_kへ連鎖する確率である。
【００５５】
【数８】

【００５６】
音声認識を行う場合は、冗長語を除いた言語モデル１０４と冗長語を含む言語モデル１０６の両方を用いて単語の生起確率を計算する。冗長語を含む単語列をＷ、単語列Ｗから冗長語を除いた単語列をＷ’とした場合、例えば式(９)によって求めた対数をとった生起確率を言語モデルのスコアとする。
【００５７】
【数９】

【００５８】
式(９)においてＰ_f(Ｗ)は冗長語を含む単語列の生起確率、Ｐ(Ｗ’)は冗長語を除いた単語列の生起確率である。またα₁、α₂は重み係数である。
【００５９】
また、実施の形態１における言語モデル生成方法を言語モデル生成プログラムとして記録媒体に記録することもできる。この場合には、冗長語除去手段１０２と同様の処理を行う冗長語除去手順と、冗長語を除いた言語モデル生成手段１０３と同様の処理を行う冗長語を除いた言語モデル生成手順と、冗長語を含む言語モデル生成手段１０５と同様の処理を行う冗長語を含む言語モデル生成手順とから構成される言語モデル生成プログラムを記録媒体に記録する。
【００６０】
以上のように、この実施の形態１における言語モデル生成装置、言語モデル生成方法によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力して冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語を含まない単語列に対する生起確率の推定精度が高く、また冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。従って音声認識に冗長語を除いた言語モデルと、冗長語を含む言語モデルの両方を用いることで高い認識率が得られる効果がある。
【００６１】
実施の形態２．
図３はこの発明の実施の形態２による言語モデル生成装置の構成を示すブロック図である。図において、図１に示す実施の形態１と同一もしくは相当部分は同一の符号で示し説明を省略する。２０１はクラス化された冗長語を含む言語モデル生成手段、２０２はクラス化された冗長語を含む言語モデルである。
【００６２】
図４はこの発明の実施の形態２による言語モデル生成装置における言語モデル生成方法を示すフローチャートであり、以下これに従って動作を説明する。
【００６３】
ステップＳＴ２０１とステップＳＴ２０２の処理は、実施の形態１の図２におけるステップＳＴ１０１とステップＳＴ１０２の処理と同一である。
【００６４】
ステップＳＴ２０３において、クラス化された冗長語を含む言語モデル生成手段２０１は、学習用テキスト１０１を入力してクラス化された冗長語を含む言語モデル２０２を生成する。ここでクラスとは複数の単語をグループとして扱うことである。冗長語のクラス化は冗長語を１つのクラスｃ^fとする。このときの冗長語とは例えば図１３に示した単語である。言語モデルがN-gramモデルである場合は、単語列w_t+1-N ^t-1から冗長語ｗ_tへ接続する確率は式(１０)で計算する。
【００６５】
【数１０】

【００６６】
式(１０)において、Ｐ(ｃ^f|w_t+1-N ^t-1)は単語列w_t+1-N ^t-1から冗長語のクラスｃ^fへ接続する確率、Ｐ(w_t|c^f)は冗長語クラスｃ^fから冗長語ｗ_tが生起する確率である。冗長語は、どの単語にも接続する可能性があり、種類も多いのでスパースネスやゼロ頻度問題を引き起こす原因となるが、冗長語をクラス化することで上記の問題を軽減でき、性能の高い言語モデルが生成できる。
【００６７】
このクラス化された冗長語を含む言語モデル２０２による単語列の生起確率計算の具体例について述べる。例えば「[あのー]・明日・から・[えーと]・三泊・したいの・ですが」という単語列Ｗがあった場合に、クラス化された冗長語を含む言語モデルが2-gramであるならば、式(１１)のように生起確率を計算する。
【００６８】
【数１１】

【００６９】
音声認識を行う場合は、冗長語を除いた言語モデル１０４とクラス化された冗長語を含む言語モデル２０２の両方を用いて単語の生起確率を計算する。冗長語を含む単語列をＷ、単語列Ｗから冗長語を除いた単語列をＷ’とした場合、例えば式(１２)によって求めた、対数をとった生起確率を言語モデルのスコアにする。
【００７０】
【数１２】

【００７１】
式(１２)においてＰ(Ｗ’)は冗長語を除いた言語モデル１０４による単語列Ｗ’の生起確率、Ｐ^f _c(Ｗ)はクラス化された冗長語を含む言語モデル２０２による単語列Ｗの生起確率である。また、α₁、α₂は重み係数である。
【００７２】
また、実施の形態２における言語モデル生成方法を言語モデル生成プログラムとして記録媒体に記録することもできる。この場合には、冗長語除去手段１０２と同様の処理を行う冗長語除去手順と、冗長語を除いた言語モデル生成手段１０３と同様の処理を行う冗長語を除いた言語モデル生成手順と、クラス化された冗長語を含む言語モデル生成手段２０１と同様の処理を行うクラス化された冗長語を含む言語モデル生成手順とから構成される言語モデル生成プログラムを記録媒体に記録する。
【００７３】
以上のように、この実施の形態２における言語モデル生成装置、言語モデル生成方法によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力してクラス化された冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語含まない単語列に対する生起確率の推定精度が高く、またクラス化された冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。従って音声認識に冗長語を除いた言語モデルと、クラス化された冗長語を含む言語モデルの両方を用いることで高い認識率が得られる効果がある。
【００７４】
実施の形態３．
図５はこの発明の実施の形態３による音声認識装置に構成を示すブロック図である。図において、上記実施の形態および従来の装置と同一もしくは相当部分は同一の符号で示し説明を省略する。３０１は照合手段である。
【００７５】
図６はこの発明の実施の形態３による音声認識装置における音声認識方法を示すフローチャートであり、以下これに従って動作を説明する。
【００７６】
音声特徴量抽出手段１００２はステップＳＴ３０１において認識対象音声１００１を入力し、ステップＳＴ３０２において音声特徴量を抽出する。ここで音声特徴量とは少ない情報量で音声の特徴を表すものであり、例えば文献１の５章で述べているようなケプストラム、ケプストラムの動的特徴で構成する特徴ベクトルである。
【００７７】
ステップＳＴ３０３において、照合手段３０１は、冗長語を含む言語モデル１０６と、冗長語を除いた言語モデル１０４と、音響モデル１００３を入力して認識対象音声１００１の音声特徴量に対して照合を行い、最も照合スコアが高い単語列を音声認識結果１００６として出力する。
【００７８】
この場合の照合処理を具体的に説明する。照合手段３０１は冗長語を含む言語モデル１０６、及び冗長語を除いた言語モデル１０４が設定している認識対象の単語 [V(1), V(2), ..., V(vn)] (vnは認識対象とする単語数)の発音表記を認識ユニットラベル表記に変換し、このラベルに従って音響モデル１００３に格納されている音素ユニットのＨＭＭを連結し、認識対象単語の標準パタン [λ_V(1), λ_V(2), ..., λ_V(vn)] を作成する。そして音声特徴量抽出手段１００２の出力である音声特徴量Ｏに対して認識対象単語の標準パタンを用いて計算する単語列Ｗの音響スコアＰ(Ｏ|Ｗ)と、冗長語を含む言語モデル１０６によって計算する単語列Ｗの生起確率Ｐ_f(Ｗ)と、冗長語を除いた言語モデル１０４によって計算する単語列Wから冗長語を除いた単語列W’の生起確率Ｐ(Ｗ’)によって照合スコアを求める。照合スコアは例えば式(１３)によって計算する。
【００７９】
【数１３】

【００８０】
式(１３)においてα₁、α₂は重み係数である。この照合スコアの値が最も大きい単語列 RW=[V(r(1)), V(r(2)), ..., V(r(m))] が音声認識結果１００６となる。ここでｒ(ｉ)は音声認識結果の単語系列のｉ番目の単語の単語番号を示す。また、ｍは認識単語系列の単語数を示す。
【００８１】
また、実施の形態３における音声認識方法を音声認識プログラムとして記録媒体に記録することもできる。この場合には実施の形態１の言語モデル生成プログラムに加えて、音声特徴量抽出手段１００２と同様の処理を実現する音声特徴量抽出手順と、照合手段３０１と同様の処理を実現する照合手順とを含む音声認識プログラムを記録媒体に記録する。
【００８２】
以上のように、この実施の形態３における音声認識装置、音声認識方法によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力して冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語を含まない単語列に対する生起確率の推定精度が高く、また冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。この冗長語を除いた言語モデルと、冗長語を含む言語モデルの両方を音声認識に用いるので高い認識率が得られる効果がある。
【００８３】
実施の形態４．
図７はこの発明の実施の形態４による音声認識装置の構成を示すブロック図である。図において、上記実施の形態および従来の装置と同一もしくは相当部分は同一の符号で示し説明を省略する。４０１は第１の照合手段１、４０２は第２の照合手段、４０３は音声認識結果候補である。
【００８４】
図８はこの発明の実施の形態４による音声認識装置における音声認識方法を示すフローチャートであり、以下これに従って動作を説明する。
【００８５】
ステップＳＴ４０１及びステップＳＴ４０２の処理は実施の形態３における図６のステップＳＴ３０１及びステップＳＴ３０２の処理と同一である。
【００８６】
ステップＳＴ４０３において、第１の照合手段４０１は、冗長語を含む言語モデル１０６と、音響モデル１００３とを入力して認識対象音声１００１の音声特徴量に対して照合を行い、照合スコアが高い順に複数の単語列を音声認識結果候補４０３として出力する。
【００８７】
この場合の照合処理を具体的に説明する。第１の照合手段４０１は冗長語を含む言語モデル１０６が設定している認識対象の単語 [V(1), V(2), ..., V(vn)] (vnは認識対象とする単語数)の発音表記を認識ユニットラベル表記に変換し、このラベルに従って音響モデル１００３に格納されている音素ユニットのＨＭＭを連結し、認識対象単語の標準パタン [λ_V(1), λ_V(2), ..., λ_V(vn)] を作成する。そして音声特徴量抽出手段１００２の出力である音声特徴量Ｏに対して認識対象単語の標準パタンを用いて計算する単語列Ｗの音響スコアＰ(Ｏ|Ｗ)と、冗長語を含む言語モデル１０６によって計算する単語列Ｗの生起確率Ｐ_f(Ｗ)とによって照合スコアを求める。照合スコアは例えば式(１４)によって計算する。
【００８８】
【数１４】

【００８９】
ここでαは重み係数である。第１の照合手段４０１では、この照合スコアＦ₁(Ｏ,Ｗ)の値が大きい複数の単語列 RW₁, RW₂,... , RW_N (RW_k=[V_k(r_k(1)), V_k(r_k(2)), ... , V_k(r_k(m_k))]) を音声認識結果候補４０３として出力する。
【００９０】
ステップＳＴ４０４において、第２の照合手段４０２は、冗長語を含む言語モデル１０６と、冗長語を除いた言語モデル１０４と、音響モデル１００３を入力して、第１の照合手段４０１の出力である複数の音声認識結果候補４０３の単語列に対し照合を行い、最も照合スコアが高い単語列を音声認識結果１００６として出力する。
【００９１】
この場合の照合処理を具体的に説明する。第２の照合手段４０２は冗長語を含む言語モデル１０６、及び冗長語を除いた言語モデル１０４が設定している認識対象の単語 [V(1), V(2), ..., V(vn)] (vnは認識対象とする単語数)の発音表記を認識ユニットラベル表記に変換し、このラベルに従って音響モデル１００３に格納されている音素ユニットのＨＭＭを連結し、認識対象単語の標準パタン [λ_V(1), λ_V(2), ..., λ_V(vn)] を作成する。そして音声特徴量抽出手段１００２の出力である音声特徴量Ｏに対して認識対象単語の標準パタンを用いて計算する音声認識結果候補４０３の単語列RW_k(k=1〜N、Nは候補数)の音響スコアＰ(Ｏ|RW_k)と、冗長語を含む言語モデル１０６によって計算する音声認識結果候補４０３の単語列RW_kの生起確率Ｐ_f(RW_k)と、冗長語を除いた言語モデル１０６によって計算する音声認識結果候補４０３の単語列RW_kから冗長語を除いた単語列RW’_kの生起確率Ｐ(RW’_k)によって照合スコアを求める。照合スコアは例えば式(１５)によって計算する。
【００９２】
【数１５】

【００９３】
式(１５)においてα₁、α₂は重み係数である。この照合スコアの値が最も大きい単語列 RW=[V(r(1)), V(r(2)), ..., V(r(m))] が音声認識結果１００６となる。ここでｒ(ｉ)は音声認識結果の単語系列のｉ番目の単語の単語番号を示す。また、ｍは認識単語系列の単語数を示す。
【００９４】
また、実施の形態４における音声認識方法を音声認識プログラムとして記録媒体に記録することもできる。この場合には実施の形態１の言語モデル生成プログラムに加えて、音声特徴量抽出手段１００２と同様の処理を実現する音声特徴量抽出手順と、第１の照合手段４０１と同様の処理を実現する第１の照合手順と、第２の照合手段と同様の処理を実現する第２の照合手順とを含む音声認識プログラムを記録媒体に記録する。
【００９５】
以上のように、この実施の形態４における音声認識装置、音声認識方法によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力して冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語を含まない単語列に対する生起確率の推定精度が高く、また冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。そして、音声認識では冗長語を含む言語モデルを用いて音声認識結果候補を出力し、冗長語を除いた言語モデルと冗長語を含む言語モデルの両方によって音声認識結果候補から音声認識結果を選び出すので、高い認識率が得られる効果がある。
【００９６】
実施の形態５．
図９はこの発明の実施の形態５による音声認識装置に構成を示すブロック図である。図において、上記実施の形態および従来の装置と同一もしくは相当部分は同一の符号で示し説明を省略する。また図１０はこの発明の実施の形態５による音声認識装置における音声認識方法を示すフローチャートであり、以下これに従って動作を説明する。
【００９７】
ステップＳＴ５０１及びステップＳＴ５０２は実施の形態３における図６のステップＳＴ３０１及びステップＳＴ３０２の処理と同一である。
【００９８】
ステップＳＴ５０３において、照合手段３０１は、クラス化された冗長語を含む言語モデル２０２と、冗長語を除いた言語モデル１０４と、音響モデル１００３を入力して認識対象音声１００１の音声特徴量に対して照合を行い、最も照合スコアが高い単語列を音声認識結果１００６として出力する。
【００９９】
この場合の照合処理を具体的に説明する。照合手段３０１はクラス化された冗長語を含む言語モデル２０２、及び冗長語を除いた言語モデル１０４が設定している認識対象の単語 [V(1), V(2), ..., V(vn)] (vnは認識対象とする単語数)の発音表記を認識ユニットラベル表記に変換し、このラベルに従って音響モデル１００３に格納されている音素ユニットのＨＭＭを連結し、認識対象単語の標準パタン [λ_V(1), λ_V(2), ..., λ_V(vn)] を作成する。そして音声特徴量抽出手段１００２の出力である音声特徴量Ｏに対して認識対象単語の標準パタンを用いて計算する単語列Ｗの音響スコアＰ(Ｏ|Ｗ)と、クラス化された冗長語を含む言語モデル２０２によって計算する単語列Ｗの生起確率Ｐ_f ^c(Ｗ)と、冗長語を除いた言語モデル１０４によって計算する単語列Ｗから冗長語を除いた単語列Ｗ’の生起確率Ｐ(Ｗ’)によって照合スコアを求める。照合スコアは例えば式(１６)によって計算する。
【０１００】
【数１６】

【０１０１】
式(１６)においてα₁、α₂は重み係数である。この照合スコアの値が最も大きい単語列 RW=[V(r(1)), V(r(2)), ..., V(r(m))] が音声認識結果１００６となる。ここでｒ(ｉ)は音声認識結果の単語系列のｉ番目の単語の単語番号を示す。また、ｍは認識単語系列の単語数を示す。
【０１０２】
また、実施の形態５における音声認識方法を音声認識プログラムとして記録媒体に記録することもできる。この場合には実施の形態２の言語モデル生成プログラムに加えて、音声特徴量抽出手段１００２と同様の処理を実現する音声特徴量抽出手順と、照合手段３０１と同様の処理を実現する照合手順とを含む音声認識プログラムを記録媒体に記録する。
【０１０３】
以上のように、この実施の形態５における音声認識装置、音声認識方法によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力してクラス化された冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語含まない単語列に対する生起確率の推定精度が高く、またクラス化された冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。この冗長語を除いた言語モデルと、クラス化された冗長語を含む言語モデルの両方を音声認識に用いるので高い認識率が得られる効果がある。
【０１０４】
実施の形態６．
図１１はこの発明の実施の形態６による音声認識装置の構成を示すブロック図である。図において、上記実施の形態および従来の装置と同一もしくは相当部分は同一の符号で示し説明を省略する。また図１２はこの発明の実施の形態６による音声認識装置における音声認識方法を示すフローチャートであり、以下これに従って動作を説明する。
【０１０５】
ステップＳＴ６０１及びステップＳＴ６０２の処理は実施の形態４における図８のステップＳＴ４０１及びステップＳＴ４０２の処理と同一である。
【０１０６】
ステップＳＴ６０３において、第１の照合手段４０１は、クラス化された冗長語を含む言語モデル２０２と音響モデル１００３とを入力して認識対象音声１００１の音声特徴量に対して照合を行い、照合スコアが高い順に複数の単語列を音声認識結果候補４０３として出力する。
【０１０７】
この場合の照合処理を具体的に説明する。第１の照合手段４０１はクラス化された冗長語を含む言語モデル２０２が設定している認識対象の単語 [V(1), V(2), ..., V(vn)] (vnは認識対象とする単語数)の発音表記を認識ユニットラベル表記に変換し、このラベルに従って音響モデル１００３に格納されている音素ユニットのＨＭＭを連結し、認識対象単語の標準パタン [λ_V(1), λ_V(2), ..., λ_V(vn)] を作成する。そして音声特徴量抽出手段１００２の出力である音声特徴量Ｏに対して認識対象単語の標準パタンを用いて計算する単語列Ｗの音響スコアＰ(Ｏ|Ｗ)と、クラス化された冗長語を含む言語モデル２０２によって計算する単語列Ｗの生起確率Ｐ_f ^c(Ｗ)によって照合スコアを求める。照合スコアは例えば式(１７)によって計算する。
【０１０８】
【数１７】

【０１０９】
ここでαは重み係数である。第１照合手段４０１では、この照合スコアＦ₁(Ｏ,Ｗ)の値が大きい複数の単語列 RW₁, RW₂,... , RW_N (RW_k=[V_k(r_k(1)), V_k(r_k(2)), ... , V_k(r_k(m_k))]) を音声認識結果候補４０３として出力する。
【０１１０】
ステップＳＴ６０４において、第２の照合手段４０２は、クラス化された冗長語を含む言語モデル２０２と、冗長語を除いた言語モデル１０４と、音響モデル１００３を入力して、第１の照合手段４０１の出力である複数の音声認識結果候補４０３の単語列に対し照合を行い、最も照合スコアが高い単語列を音声認識結果１００６として出力する。
【０１１１】
この場合の照合処理を具体的に説明する。第２の照合手段４０２はクラス化された冗長語を含む言語モデル２０２、及び冗長語を除いた言語モデル１０４が設定している認識対象の単語 [V(1), V(2), ..., V(vn)] (vnは認識対象とする単語数)の発音表記を認識ユニットラベル表記に変換し、このラベルに従って音響モデル１００３に格納されている音素ユニットのＨＭＭを連結し、認識対象単語の標準パタン [λ_V(1), λ_V(2), ..., λ_V(vn)] を作成する。そして音声特徴量抽出手段１００２の出力である音声特徴量Ｏに対して認識対象単語の標準パタンを用いて計算する音声認識結果候補４０３の単語列RW_k(k=1〜N、Nは候補数)の音響スコアＰ(Ｏ|RW_k)と、クラス化された冗長語を含む言語モデル２０２によって計算する音声認識結果候補４０３の単語列RW_kの生起確率Ｐ_f ^c(RW_k)と、冗長語を除いた言語モデル１０４によって計算する音声認識結果候補４０３の単語列RW_kから冗長語を除いた単語列RW’_kの生起確率Ｐ(RW’_k)によって照合スコアを求める。照合スコアは例えば式(１８)によって計算する。
【０１１２】
【数１８】

【０１１３】
式(１８)においてα₁、α₂は重み係数である。この照合スコアの値が最も大きい単語列 RW=[V(r(1)), V(r(2)), ..., V(r(m))] が音声認識結果１００６となる。ここでｒ(ｉ)は音声認識結果の単語系列のｉ番目の単語の単語番号を示す。また、ｍは認識単語系列の単語数を示す。
【０１１４】
また、実施の形態６における音声認識方法を音声認識プログラムとして記録媒体に記録することもできる。この場合には実施の形態２の言語モデル生成プログラムに加えて、音声特徴量抽出手段１００２と同様の処理を実現する音声特徴量抽出手順と、第１の照合手段４０１と同様の処理を実現する第１の照合手順と、第２の照合手段と同様の処理を実現する第２の照合手順とを含む音声認識プログラムを記録媒体に記録する。
【０１１５】
以上のように、この実施の形態６における音声認識装置、音声認識方法によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力してクラス化された冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語を含まない単語列に対する生起確率の推定精度が高く、またクラス化された冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。そして、音声認識ではクラス化された冗長語を含む言語モデルを用いて音声認識結果候補を出力し、冗長語を除いた言語モデルとクラス化された冗長語を含む言語モデルの両方によって音声認識結果候補から音声認識結果を選び出すので、高い認識率が得られる効果がある。
【０１１６】
【発明の効果】
以上のようにこの発明の実施の形態４による音声認識装置、方法、記憶媒体によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力して冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語を含まない単語列に対する生起確率の推定精度が高く、また冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。そして、音声認識では冗長語を含む言語モデルを用いて音声認識結果候補を出力し、冗長語を除いた言語モデルと冗長語を含む言語モデルの両方によって音声認識結果候補から音声認識結果を選び出すので、高い認識率が得られる効果がある。
【０１２１】
また、この発明の実施の形態６による音声認識装置、方法、記憶媒体によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力してクラス化された冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語を含まない単語列に対する生起確率の推定精度が高く、またクラス化された冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。そして、音声認識ではクラス化された冗長語を含む言語モデルを用いて音声認識結果候補を出力し、冗長語を除いた言語モデルとクラス化された冗長語を含む言語モデルの両方によって音声認識結果候補から音声認識結果を選び出すので、高い認識率が得られる効果がある。
【図面の簡単な説明】
【図１】この発明の実施の形態１による言語モデル生成装置の構成を示すブロック図である。
【図２】この発明の実施の形態１による言語モデル生成装置における言語モデル生成方法を示すフローチャートである。
【図３】この発明の実施の形態２による言語モデル生成装置の構成を示すブロック図である。
【図４】この発明の実施の形態２による言語モデル生成装置における言語モデル生成方法を示すフローチャートである。
【図５】この発明の実施の形態３による音声認識装置に構成を示すブロック図である。
【図６】この発明の実施の形態３による音声認識装置における音声認識方法を示すフローチャートである。
【図７】この発明の実施の形態４による音声認識装置に構成を示すブロック図である。
【図８】この発明の実施の形態４による音声認識装置における音声認識方法を示すフローチャートである。
【図９】この発明の実施の形態５による音声認識装置に構成を示すブロック図である。
【図１０】この発明の実施の形態５による音声認識装置における音声認識方法を示すフローチャートである。
【図１１】この発明の実施の形態６による音声認識装置に構成を示すブロック図である。
【図１２】この発明の実施の形態６による音声認識装置における音声認識方法を示すフローチャートである。
【図１３】出現する頻度が高い冗長語の例を示す図である。
【図１４】従来の音声認識装置の構成を示すブロック図である。
【符号の説明】
１０１学習用テキスト、１０２冗長語除去手段、１０３冗長語を除いた言語モデル生成手段、１０４冗長語を除いた言語モデル、１０５冗長語を含む言語モデル生成手段、１０６冗長語を含む言語モデル、２０１クラス化された冗長語を含む言語モデル生成手段、２０２クラス化された冗長語を含む言語モデル、３０１照合手段、４０１第１の照合手段、４０２第２の照合手段、４０３音声認識結果候補、１００１認識対象音声、１００２音声特徴量抽出手段、１００３音響モデル、１００６音声認識結果。

Claims

認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識装置であって、
上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手段と、
上記音声特徴量の系列の確率を求めるための音響モデルと、
冗長語を含む学習用テキストを入力して、冗長語も含めて単語列の生起確率を求める言語モデルを生成する冗長語を含む言語モデル生成手段と、
上記冗長語を含む学習用テキストから冗長語を取り除き、冗長語を除いた学習用テキストを生成する冗長語除去手段と、
上記冗長語を除いた学習用テキストを入力し、冗長語を除いた単語列の生起確率を求める言語モデルを生成する冗長語を除いた言語モデル生成手段と、
上記音響モデルと上記冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手段が抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第１の照合手段と、
この第１の照合手段が出力した複数の音声認識結果候補に対して、上記冗長語を含む言語モデルと上記冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第２の照合手段と、
を備えたことを特徴とする音声認識装置。
認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識装置であって、
上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手段と、
上記音声特徴量の系列の確率を求めるための音響モデルと、
冗長語を含む学習用テキストを入力して冗長語をクラス化し、クラス化された冗長語も含めて単語列の生起確率を求める言語モデルを生成するクラス化された冗長語を含む言語モデル生成手段と、
上記冗長語を含む学習用テキストから冗長語を取り除き、冗長語を除いた学習用テキストを生成する冗長語除去手段と、
上記冗長語を除いた学習用テキストを入力し、冗長語を除いた単語列の生起確率を求める言語モデルを生成する冗長語を除いた言語モデル生成手段と、
上記音響モデルと上記クラス化された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手段が抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第１の照合手段と、
この第１の照合手段が出力した複数の音声認識結果候補に対して、上記クラス化された冗長語を含む言語モデルと上記冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第２の照合手段と、
を備えたことを特徴とする音声認識装置。
認識対象音声の音声認識を行う音声認識方法であって、
上記認識対象音声から音声特徴量を抽出する音声特徴量抽出工程と、
上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力して生成された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出工程で抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を求める第１の照合工程と、
この第１の照合工程で求められた複数の音声認識結果候補に対して、上記冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識を行う第２の照合工程と、
を備えたことを特徴とする音声認識方法。
認識対象音声の音声認識を行う音声認識方法であって、
上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出工程と、
上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力し冗長語をクラス化して生成されたクラス化された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出工程で抽出された音声特徴量に対して照合を行い複数の音声認識結果候補を求める第１の照合工程と、
この第１の照合工程で求められた複数の音声認識結果候補に対して、上記クラス化された冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識を行う第２の照合工程と、
を備えたことを特徴とする音声認識方法。
認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識プログラムを記録した記録媒体であって、
上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手順と、
上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力して生成された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手順で抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第１の照合手順と、
この第１の照合手順が出力した複数の音声認識結果候補に対して、上記冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第２の照合手順と、
を実現させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識プログラムを記録した記録媒体であって、
上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手順と、
上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力し冗長語をクラス化して生成されたクラス化された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手順で抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第１の照合手順と、
この第１の照合手順で出力した複数の音声認識結果候補に対して、上記クラス化された冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第２の照合手順と、
を実現させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。