JP3894419B2 - 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP3894419B2
JP3894419B2 JP2001074023A JP2001074023A JP3894419B2 JP 3894419 B2 JP3894419 B2 JP 3894419B2 JP 2001074023 A JP2001074023 A JP 2001074023A JP 2001074023 A JP2001074023 A JP 2001074023A JP 3894419 B2 JP3894419 B2 JP 3894419B2
Authority
JP
Japan
Prior art keywords
language model
redundant
word
speech
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001074023A
Other languages
English (en)
Other versions
JP2002278584A (ja
Inventor
純 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001074023A priority Critical patent/JP3894419B2/ja
Publication of JP2002278584A publication Critical patent/JP2002278584A/ja
Application granted granted Critical
Publication of JP3894419B2 publication Critical patent/JP3894419B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、話者の音声の音声認識を行うための音声認識装置、音声認識方法、音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。
【0002】
【従来の技術】
近年、使用話者が単語を連続して入力できる連続音声認識技術の実用化検討が盛んに行われている。連続音声認識は、単語の復号列が最大事後確率を持つように、音声の音響的な観測系列に基づいてWハットを復号することである。これは式(1)で表される。
【0003】
【数1】
Figure 0003894419
【0004】
ここで、Oは音声の音響的な観測系列 [o1, o2, o3, ... oT] であり、Wは単語系列 [w1, w2, w3, ... wn] である。P(O|W)は単語列Wが与えられたときの観測系列Oに対する確率であり音響モデルによって計算するものであり、P(W)は単語列Wの生起確率であり言語モデルによって計算するものである。音声認識を実行する場合は一般に式(1)の対数をとった式(2)を用いる。式(2)においてαは音響モデルによる確率と言語モデルによる確率のバランスをとるための重み係数である。
【0005】
【数2】
Figure 0003894419
【0006】
音声認識については、
・森北出版(株)から出版されている古井貞煕著の「音声情報処理」、1998年6月発行(以降文献1とする)、
・電子情報通信学会から出版されている中川聖一著の「確率モデルによる音声認識」、1992年4月発行(以降文献2とする)、
・NTTアドバンステクノロジ(株)から出版されている Lawrence Rabiner、Biing-Hwang Juang著、古井貞煕監訳の「音声認識の基礎(上、下)」1995年11月発行(以降文献3とする)、
に詳しく説明されている。
【0007】
音響モデルによって計算するP(O|W)は最近は統計的手法である隠れマルコフモデル(HMM)を用いる検討が盛んである。隠れマルコフモデルを用いた音響モデルは例えば上記文献3の6章に詳しく述べられている。
【0008】
また言語モデルによって計算するP(W)は統計的な手法を用いることが多く、代表的なものにN-garmモデルがある(Nは2以上)。これらについては東京大学出版会から出版されている北研二著の「確率的言語モデル」、1999年11月発行(以下文献4とする)の3章において詳しく説明されている。N-gramモデルは直前の(N−1)個の単語から次の単語への遷移確率を統計的に与えるものである。N-gramによる単語列 wL 1= w1 ... wL の生起確率は式(3)によって与えられる。
【0009】
【数3】
Figure 0003894419
【0010】
式(3)において確率P(wt|wt+1-N t-1)は(N−1)個の単語からなる単語列wt+1-N t-1の後に単語wtが生起する確率であり、Пは積を表している。例えば「私・は・駅・へ・行く」(・は単語の区切りを表す)といった単語列の生起確率を2-gram(バイグラム)で求める場合は式(4)のようになる。式(4)において#は文頭、文末を表す記号である。
【0011】
【数4】
Figure 0003894419
【0012】
確率P(wt|wt+1-N t-1)は学習用テキストデータの単語列の相対頻度によって求められる。単語列Wの学習用テキストデータにおける出現頻度をC(W)とすれば、例えば「私・は」の2-gram確率P(は|私)は式(5)によって計算される。式(5)においてC(私・は)は単語列「私・は」の出現頻度、C(私)は「私」の出現頻度である。
【0013】
【数5】
Figure 0003894419
【0014】
しかしながらN-gramの確率値を単純に相対頻度によって推定すると、学習用テキストデータ中に出現しない単語組を0にしてしまうという大きな欠点がある(ゼロ頻度問題)。また、たとえ学習用テキストデータ中に出現したとしても出現頻度の小さな単語列に対しては、統計的に信頼性のある確率値を推定するのが難しい(スパースネスの問題)。これらの問題に対処するために、通常はスムージングあるいは平滑化と呼ばれる手法を用いる。スムージングについては上記文献4の3.3章にいくつかの手法が述べられているので、ここでは具体的説明は省略する。
【0015】
この言語モデルを用いて、話し言葉のような自然な発話を音声認識の対象とした音声認識装置も構築可能である。自然発話の特徴として「えーと」、「あのー」等の意味の無い繋ぎの語が入ることがある。図13に出現する頻度が高い冗長語の例を示す。冗長語は種類が多く、またどの単語間にも挿入される可能性があるので、冗長語を含めて学習した場合はスパースネスやゼロ頻度の問題が生じる。従ってこの言語モデルを用いた場合は、単語列の正確な生起確率を得ることはできず高い認識率が得られない。そこで自然な発話を音声認識するための言語モデルは、冗長語は含まずに生成する方法が検討されている。従来技術としては例えば、特開平7−104782号公報の「音声認識装置」(以降文献5とする)がある。
【0016】
図14は文献5に記述されている従来の音声認識装置のブロック図である。以下図14を参照して従来技術の説明を行う。図において、1001は認識対象音声、1002は音声特徴量抽出手段、1003は音響モデル、1004は言語モデル、1005は冗長語をスキップした言語スコアを用いた照合手段、1006は音声認識結果である。
【0017】
次に動作について説明する。認識対象音声1001は認識対象とする音声であり、音声特徴量抽出手段1002へ入力される。音声特徴量抽出手段1002は認識対象音声1001に含まれている音声特徴量を抽出する。音響モデル1003は音声に対して音響的に照合を行うためのモデルである。音響モデル1003は例えば、多数の話者が発声した文や単語の音声を用いて学習した、前後音素環境を考慮した音素を認識ユニットとしたHMMを用いる。
【0018】
言語モデル1004は、単語列の生起確率を求めるためのモデルである。言語モデル1004は、冗長語を含んでいない学習テキストを用いて学習した、冗長語以外の単語列の生起確率を与える言語モデルである。また言語モデル1004には発声されやすい冗長語を選び、認識対象の語彙として登録している。冗長語を含む単語連鎖についての生起確率は学習テキストによって求めることはせず、冗長語は、どの単語間にも挿入できるものとしている。上記文献5では言語モデルとしてN-gramモデル(Nは3)を用いている。
【0019】
冗長語をスキップした言語スコアを用いた照合手段1005は、言語モデル1004が設定している認識対象の単語 [V(1), V(2), ..., V(vn)] (vnは認識対象とする単語数)の発音表記を認識ユニットラベル表記に変換し、このラベルに従って音響モデル1003に格納されている音素単位のHMMを連結し、認識対象単語の標準パタン [λv(1), λv(2), ..., λv(vn)] を作成する。そして認識対象単語標準パタンと言語モデル1004によって表される単語列の生起確率を用いて、音声特徴量抽出手段1002の出力である音声特徴量に対して照合を行い、音声認識結果1006を出力する。
【0020】
このときの照合において、単語列の生起確率は冗長語をスキップして計算される。文献5の例では「東京都 港区 新橋 えーと 1丁目」という単語列の3-gramによる生起確率は、式(6)のように冗長語「えーと」をスキップした単語列を対象にして計算している。そして冗長語へ接続する確率は1.0と一定値を与えている。
【0021】
【数6】
Figure 0003894419
【0022】
冗長語をスキップした言語スコアを用いた照合手段1005は、認識対象音声に対して認識対象単語で最も照合スコアが高い単語列 RW=[V(r(1)), V(r(2)), ..., V(r(m))] を音声認識結果1006として出力する。ここでr(i)は音声認識結果の単語系列のi番目の単語の単語番号を示す。 また、mは認識単語系列の単語数を示す。
【0023】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、冗長語に接続する確率が一定であり、そして冗長語から接続する確率は考慮されていない。冗長語はどの単語にも接続する可能性はあるが、発声の最初や文節間に挿入されやすいという傾向ある。また、発声されやすい冗長語の種類にも偏りがあるにもかかわらず、従来の音声認識装置は各冗長語は等しい生起確率となっている。従って言語モデルは複雑度が大きく、単語列の生起確率の推定精度は悪くなり、音声認識精度が良くならないといった課題があった。
【0025】
この発明は、単語列の推定精度が高い言語モデルを用いて音声認識を行う音声認識精度の高い音声認識装置、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを目的とする。
【0026】
【課題を解決するための手段】
上記の目的に鑑みこの発明は、認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識装置であって、上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手段と、上記音声特徴量の系列の確率を求めるための音響モデルと、冗長語を含む学習用テキストを入力して、冗長語も含めて単語列の生起確率を求める言語モデルを生成する冗長語を含む言語モデル生成手段と、上記冗長語を含む学習用テキストから冗長語を取り除き、冗長語を除いた学習用テキストを生成する冗長語除去手段と、上記冗長語を除いた学習用テキストを入力し、冗長語を除いた単語列の生起確率を求める言語モデルを生成する冗長語を除いた言語モデル生成手段と、上記音響モデルと上記冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手段が抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第1の照合手段と、この第1の照合手段が出力した複数の音声認識結果候補に対して、上記冗長語を含む言語モデルと上記冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第2の照合手段と、を備えたことを特徴とする音声認識装置にある。
【0027】
また、認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識装置であって、上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手段と、上記音声特徴量の系列の確率を求めるための音響モデルと、冗長語を含む学習用テキストを入力して冗長語をクラス化し、クラス化された冗長語も含めて単語列の生起確率を求める言語モデルを生成するクラス化された冗長語を含む言語モデル生成手段と、上記冗長語を含む学習用テキストから冗長語を取り除き、冗長語を除いた学習用テキストを生成する冗長語除去手段と、上記冗長語を除いた学習用テキストを入力し、冗長語を除いた単語列の生起確率を求める言語モデルを生成する冗長語を除いた言語モデル生成手段と、上記音響モデルと上記クラス化された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手段が抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第1の照合手段と、この第1の照合手段が出力した複数の音声認識結果候補に対して、上記クラス化された冗長語を含む言語モデルと上記冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第2の照合手段と、を備えたことを特徴とする音声認識装置にある。
【0028】
また、認識対象音声の音声認識を行う音声認識方法であって、上記認識対象音声から音声特徴量を抽出する音声特徴量抽出工程と、上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力して生成された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出工程で抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を求める第1の照合工程と、
この第1の照合工程で求められた複数の音声認識結果候補に対して、上記冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識を行う第2の照合工程と、を備えたことを特徴とする音声認識方法にある。
【0029】
また、認識対象音声の音声認識を行う音声認識方法であって、上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出工程と、上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力し冗長語をクラス化して生成されたクラス化された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出工程で抽出された音声特徴量に対して照合を行い複数の音声認識結果候補を求める第1の照合工程と、この第1の照合工程で求められた複数の音声認識結果候補に対して、上記クラス化された冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識を行う第2の照合工程と、を備えたことを特徴とする音声認識方法にある。
【0030】
また、認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識プログラムを記録した記録媒体であって、上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手順と、上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力して生成された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手順で抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第1の照合手順と、この第1の照合手順が出力した複数の音声認識結果候補に対して、上記冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第2の照合手順と、を実現させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体にある。
【0031】
また、認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識プログラムを記録した記録媒体であって、上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手順と、上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力し冗長語をクラス化して生成されたクラス化された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手順で抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第1の照合手順と、この第1の照合手順で出力した複数の音声認識結果候補に対して、上記クラス化された冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第2の照合手順と、を実現させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体にある。
【0044】
【発明の実施の形態】
以下、この発明を各実施の形態に従って説明する。
実施の形態1.
図1はこの発明の実施の形態1による言語モデル生成装置の構成を示すブロック図である。図において101は学習用テキスト、102は冗長語除去手段、103は冗長語を除いた言語モデル生成手段、104は冗長語を除いた言語モデル、105は冗長語を含む言語モデル生成手段、106は冗長語を含む言語モデルである。これらは一般に、プログラムに従って動作するコンピュータおよびこれに接続されたデータベースによって構成される。
【0045】
なお学習用テキスト101は、音声認識の認識対象とする分野の場面、状況において用いられる単語や文を文字化したものである。例えば、チケットの予約を行っている対話を認識対象とする場合は、チケットの予約を行っている対話音声を書き起こしたテキストである。
【0046】
図2はこの発明の実施の形態1による言語モデル生成装置における言語モデル生成方法を示すフローチャートであり、以下これに従って動作を説明する。
【0047】
冗長語除去手段102は、ステップST101において、学習用テキスト101を入力し、学習用テキスト101の中から冗長語を取り除く。ここで冗長語とは「えーと」、「あのー」等の意味をもたない繋ぎの語を指す。冗長語の除去は例えば以下のようになる。「[あのー]明日から[えーと]三泊したいのですが」([]内は冗長語)という学習用テキストがあった場合、冗長語除去手段102によって「明日から三泊したいのですが」という冗長語を除いた学習用テキストが生成される。
【0048】
ステップST102において、冗長語を除いた言語モデル生成手段103では、ステップST101において生成される冗長語を除いた学習用テキストを入力して、冗長語を除いた言語モデル104の生成を行う。ここで、言語モデルは上記文献4の3章から5章に述べられている、N-gramモデル、隠れマルコフモデル、確率文脈自由文法等を用いる。
【0049】
このようにして生成された冗長語を除いた言語モデル104は、冗長語の影響がないのでスパースネスの問題やゼロ頻度の問題が軽減する。従って冗長語を含まない単語列に対する生起確率の推定精度が高い。
【0050】
冗長語を除いた言語モデル104による単語列の生起確率の計算は、例えば「[あのー]・明日・から・[えーと]・三泊・したいの・ですが」([]内は冗長語、・は単語区切りを表す)という単語列Wがあった場合は、冗長語を除いた「明日・から・三泊・したいの・ですが」という単語列W’に対して行う。言語モデルが2-gramである場合は式(7)のように生起確率を計算する。ここでP(wk|wk-1)は冗長語を除いた言語モデル104で与えられる、単語wk-1から単語wkへ接続する確率である。
【0051】
【数7】
Figure 0003894419
【0052】
ステップST103において、冗長語を含む言語モデル生成手段105では学習用テキスト101を入力して冗長語を含む言語モデル106を生成する。言語モデルは上記文献4の3章から5章に述べられている、N-gramモデル、隠れマルコフモデル、確率文脈自由文法等を用いる。
【0053】
このようにして生成された冗長語含む言語モデル106は、冗長語を含んだ単語列の生起確率を与える言語モデルとなり、冗長語の入る傾向を表している言語モデルとなる。
【0054】
冗長語を含む言語モデル106による単語列の生起確率は、例えば「[あのー]・明日・から・[えーと]・三泊・したいの・ですが」([]内は冗長語、・は単語区切りを表す)という単語列Wに対する2-gramモデルによる計算は式(8)によって得る。式(8)においてPf(wk|wk-1)は冗長語を含む言語モデル106で与えられる単語wk-1から単語wkへ連鎖する確率である。
【0055】
【数8】
Figure 0003894419
【0056】
音声認識を行う場合は、冗長語を除いた言語モデル104と冗長語を含む言語モデル106の両方を用いて単語の生起確率を計算する。冗長語を含む単語列をW、単語列Wから冗長語を除いた単語列をW’とした場合、例えば式(9)によって求めた対数をとった生起確率を言語モデルのスコアとする。
【0057】
【数9】
Figure 0003894419
【0058】
式(9)においてPf(W)は冗長語を含む単語列の生起確率、P(W’)は冗長語を除いた単語列の生起確率である。またα1、α2は重み係数である。
【0059】
また、実施の形態1における言語モデル生成方法を言語モデル生成プログラムとして記録媒体に記録することもできる。この場合には、冗長語除去手段102と同様の処理を行う冗長語除去手順と、冗長語を除いた言語モデル生成手段103と同様の処理を行う冗長語を除いた言語モデル生成手順と、冗長語を含む言語モデル生成手段105と同様の処理を行う冗長語を含む言語モデル生成手順とから構成される言語モデル生成プログラムを記録媒体に記録する。
【0060】
以上のように、この実施の形態1における言語モデル生成装置、言語モデル生成方法によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力して冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語を含まない単語列に対する生起確率の推定精度が高く、また冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。従って音声認識に冗長語を除いた言語モデルと、冗長語を含む言語モデルの両方を用いることで高い認識率が得られる効果がある。
【0061】
実施の形態2.
図3はこの発明の実施の形態2による言語モデル生成装置の構成を示すブロック図である。図において、図1に示す実施の形態1と同一もしくは相当部分は同一の符号で示し説明を省略する。201はクラス化された冗長語を含む言語モデル生成手段、202はクラス化された冗長語を含む言語モデルである。
【0062】
図4はこの発明の実施の形態2による言語モデル生成装置における言語モデル生成方法を示すフローチャートであり、以下これに従って動作を説明する。
【0063】
ステップST201とステップST202の処理は、実施の形態1の図2におけるステップST101とステップST102の処理と同一である。
【0064】
ステップST203において、クラス化された冗長語を含む言語モデル生成手段201は、学習用テキスト101を入力してクラス化された冗長語を含む言語モデル202を生成する。ここでクラスとは複数の単語をグループとして扱うことである。冗長語のクラス化は冗長語を1つのクラスcfとする。このときの冗長語とは例えば図13に示した単語である。言語モデルがN-gramモデルである場合は、単語列wt+1-N t-1から冗長語wtへ接続する確率は式(10)で計算する。
【0065】
【数10】
Figure 0003894419
【0066】
式(10)において、P(cf|wt+1-N t-1)は単語列wt+1-N t-1から冗長語のクラスcfへ接続する確率、P(wt|cf)は冗長語クラスcfから冗長語wtが生起する確率である。冗長語は、どの単語にも接続する可能性があり、種類も多いのでスパースネスやゼロ頻度問題を引き起こす原因となるが、冗長語をクラス化することで上記の問題を軽減でき、性能の高い言語モデルが生成できる。
【0067】
このクラス化された冗長語を含む言語モデル202による単語列の生起確率計算の具体例について述べる。例えば「[あのー]・明日・から・[えーと]・三泊・したいの・ですが」という単語列Wがあった場合に、クラス化された冗長語を含む言語モデルが2-gramであるならば、式(11)のように生起確率を計算する。
【0068】
【数11】
Figure 0003894419
【0069】
音声認識を行う場合は、冗長語を除いた言語モデル104とクラス化された冗長語を含む言語モデル202の両方を用いて単語の生起確率を計算する。冗長語を含む単語列をW、単語列Wから冗長語を除いた単語列をW’とした場合、例えば式(12)によって求めた、対数をとった生起確率を言語モデルのスコアにする。
【0070】
【数12】
Figure 0003894419
【0071】
式(12)においてP(W’)は冗長語を除いた言語モデル104による単語列W’の生起確率、Pf c(W)はクラス化された冗長語を含む言語モデル202による単語列Wの生起確率である。また、α1、α2は重み係数である。
【0072】
また、実施の形態2における言語モデル生成方法を言語モデル生成プログラムとして記録媒体に記録することもできる。この場合には、冗長語除去手段102と同様の処理を行う冗長語除去手順と、冗長語を除いた言語モデル生成手段103と同様の処理を行う冗長語を除いた言語モデル生成手順と、クラス化された冗長語を含む言語モデル生成手段201と同様の処理を行うクラス化された冗長語を含む言語モデル生成手順とから構成される言語モデル生成プログラムを記録媒体に記録する。
【0073】
以上のように、この実施の形態2における言語モデル生成装置、言語モデル生成方法によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力してクラス化された冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語含まない単語列に対する生起確率の推定精度が高く、またクラス化された冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。従って音声認識に冗長語を除いた言語モデルと、クラス化された冗長語を含む言語モデルの両方を用いることで高い認識率が得られる効果がある。
【0074】
実施の形態3.
図5はこの発明の実施の形態3による音声認識装置に構成を示すブロック図である。図において、上記実施の形態および従来の装置と同一もしくは相当部分は同一の符号で示し説明を省略する。301は照合手段である。
【0075】
図6はこの発明の実施の形態3による音声認識装置における音声認識方法を示すフローチャートであり、以下これに従って動作を説明する。
【0076】
音声特徴量抽出手段1002はステップST301において認識対象音声1001を入力し、ステップST302において音声特徴量を抽出する。ここで音声特徴量とは少ない情報量で音声の特徴を表すものであり、例えば文献1の5章で述べているようなケプストラム、ケプストラムの動的特徴で構成する特徴ベクトルである。
【0077】
ステップST303において、照合手段301は、冗長語を含む言語モデル106と、冗長語を除いた言語モデル104と、音響モデル1003を入力して認識対象音声1001の音声特徴量に対して照合を行い、最も照合スコアが高い単語列を音声認識結果1006として出力する。
【0078】
この場合の照合処理を具体的に説明する。照合手段301は冗長語を含む言語モデル106、及び冗長語を除いた言語モデル104が設定している認識対象の単語 [V(1), V(2), ..., V(vn)] (vnは認識対象とする単語数)の発音表記を認識ユニットラベル表記に変換し、このラベルに従って音響モデル1003に格納されている音素ユニットのHMMを連結し、認識対象単語の標準パタン [λV(1), λV(2), ..., λV(vn)] を作成する。そして音声特徴量抽出手段1002の出力である音声特徴量Oに対して認識対象単語の標準パタンを用いて計算する単語列Wの音響スコアP(O|W)と、冗長語を含む言語モデル106によって計算する単語列Wの生起確率Pf(W)と、冗長語を除いた言語モデル104によって計算する単語列Wから冗長語を除いた単語列W’の生起確率P(W’)によって照合スコアを求める。照合スコアは例えば式(13)によって計算する。
【0079】
【数13】
Figure 0003894419
【0080】
式(13)においてα1、α2は重み係数である。この照合スコアの値が最も大きい単語列 RW=[V(r(1)), V(r(2)), ..., V(r(m))] が音声認識結果1006となる。ここでr(i)は音声認識結果の単語系列のi番目の単語の単語番号を示す。また、mは認識単語系列の単語数を示す。
【0081】
また、実施の形態3における音声認識方法を音声認識プログラムとして記録媒体に記録することもできる。この場合には実施の形態1の言語モデル生成プログラムに加えて、音声特徴量抽出手段1002と同様の処理を実現する音声特徴量抽出手順と、照合手段301と同様の処理を実現する照合手順とを含む音声認識プログラムを記録媒体に記録する。
【0082】
以上のように、この実施の形態3における音声認識装置、音声認識方法によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力して冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語を含まない単語列に対する生起確率の推定精度が高く、また冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。この冗長語を除いた言語モデルと、冗長語を含む言語モデルの両方を音声認識に用いるので高い認識率が得られる効果がある。
【0083】
実施の形態4.
図7はこの発明の実施の形態4による音声認識装置の構成を示すブロック図である。図において、上記実施の形態および従来の装置と同一もしくは相当部分は同一の符号で示し説明を省略する。401は第1の照合手段1、402は第2の照合手段、403は音声認識結果候補である。
【0084】
図8はこの発明の実施の形態4による音声認識装置における音声認識方法を示すフローチャートであり、以下これに従って動作を説明する。
【0085】
ステップST401及びステップST402の処理は実施の形態3における図6のステップST301及びステップST302の処理と同一である。
【0086】
ステップST403において、第1の照合手段401は、冗長語を含む言語モデル106と、音響モデル1003とを入力して認識対象音声1001の音声特徴量に対して照合を行い、照合スコアが高い順に複数の単語列を音声認識結果候補403として出力する。
【0087】
この場合の照合処理を具体的に説明する。第1の照合手段401は冗長語を含む言語モデル106が設定している認識対象の単語 [V(1), V(2), ..., V(vn)] (vnは認識対象とする単語数)の発音表記を認識ユニットラベル表記に変換し、このラベルに従って音響モデル1003に格納されている音素ユニットのHMMを連結し、認識対象単語の標準パタン [λV(1), λV(2), ..., λV(vn)] を作成する。そして音声特徴量抽出手段1002の出力である音声特徴量Oに対して認識対象単語の標準パタンを用いて計算する単語列Wの音響スコアP(O|W)と、冗長語を含む言語モデル106によって計算する単語列Wの生起確率Pf(W)とによって照合スコアを求める。照合スコアは例えば式(14)によって計算する。
【0088】
【数14】
Figure 0003894419
【0089】
ここでαは重み係数である。第1の照合手段401では、この照合スコアF1(O,W)の値が大きい複数の単語列 RW1, RW2,... , RWN (RWk=[Vk(rk(1)), Vk(rk(2)), ... , Vk(rk(mk))]) を音声認識結果候補403として出力する。
【0090】
ステップST404において、第2の照合手段402は、冗長語を含む言語モデル106と、冗長語を除いた言語モデル104と、音響モデル1003を入力して、第1の照合手段401の出力である複数の音声認識結果候補403の単語列に対し照合を行い、最も照合スコアが高い単語列を音声認識結果1006として出力する。
【0091】
この場合の照合処理を具体的に説明する。第2の照合手段402は冗長語を含む言語モデル106、及び冗長語を除いた言語モデル104が設定している認識対象の単語 [V(1), V(2), ..., V(vn)] (vnは認識対象とする単語数)の発音表記を認識ユニットラベル表記に変換し、このラベルに従って音響モデル1003に格納されている音素ユニットのHMMを連結し、認識対象単語の標準パタン [λV(1), λV(2), ..., λV(vn)] を作成する。そして音声特徴量抽出手段1002の出力である音声特徴量Oに対して認識対象単語の標準パタンを用いて計算する音声認識結果候補403の単語列RWk(k=1〜N、Nは候補数)の音響スコアP(O|RWk)と、冗長語を含む言語モデル106によって計算する音声認識結果候補403の単語列RWkの生起確率Pf(RWk)と、冗長語を除いた言語モデル106によって計算する音声認識結果候補403の単語列RWkから冗長語を除いた単語列RW’kの生起確率P(RW’k)によって照合スコアを求める。照合スコアは例えば式(15)によって計算する。
【0092】
【数15】
Figure 0003894419
【0093】
式(15)においてα1、α2は重み係数である。この照合スコアの値が最も大きい単語列 RW=[V(r(1)), V(r(2)), ..., V(r(m))] が音声認識結果1006となる。ここでr(i)は音声認識結果の単語系列のi番目の単語の単語番号を示す。また、mは認識単語系列の単語数を示す。
【0094】
また、実施の形態4における音声認識方法を音声認識プログラムとして記録媒体に記録することもできる。この場合には実施の形態1の言語モデル生成プログラムに加えて、音声特徴量抽出手段1002と同様の処理を実現する音声特徴量抽出手順と、第1の照合手段401と同様の処理を実現する第1の照合手順と、第2の照合手段と同様の処理を実現する第2の照合手順とを含む音声認識プログラムを記録媒体に記録する。
【0095】
以上のように、この実施の形態4における音声認識装置、音声認識方法によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力して冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語を含まない単語列に対する生起確率の推定精度が高く、また冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。そして、音声認識では冗長語を含む言語モデルを用いて音声認識結果候補を出力し、冗長語を除いた言語モデルと冗長語を含む言語モデルの両方によって音声認識結果候補から音声認識結果を選び出すので、高い認識率が得られる効果がある。
【0096】
実施の形態5.
図9はこの発明の実施の形態5による音声認識装置に構成を示すブロック図である。図において、上記実施の形態および従来の装置と同一もしくは相当部分は同一の符号で示し説明を省略する。また図10はこの発明の実施の形態5による音声認識装置における音声認識方法を示すフローチャートであり、以下これに従って動作を説明する。
【0097】
ステップST501及びステップST502は実施の形態3における図6のステップST301及びステップST302の処理と同一である。
【0098】
ステップST503において、照合手段301は、クラス化された冗長語を含む言語モデル202と、冗長語を除いた言語モデル104と、音響モデル1003を入力して認識対象音声1001の音声特徴量に対して照合を行い、最も照合スコアが高い単語列を音声認識結果1006として出力する。
【0099】
この場合の照合処理を具体的に説明する。照合手段301はクラス化された冗長語を含む言語モデル202、及び冗長語を除いた言語モデル104が設定している認識対象の単語 [V(1), V(2), ..., V(vn)] (vnは認識対象とする単語数)の発音表記を認識ユニットラベル表記に変換し、このラベルに従って音響モデル1003に格納されている音素ユニットのHMMを連結し、認識対象単語の標準パタン [λV(1), λV(2), ..., λV(vn)] を作成する。そして音声特徴量抽出手段1002の出力である音声特徴量Oに対して認識対象単語の標準パタンを用いて計算する単語列Wの音響スコアP(O|W)と、クラス化された冗長語を含む言語モデル202によって計算する単語列Wの生起確率Pf c(W)と、冗長語を除いた言語モデル104によって計算する単語列Wから冗長語を除いた単語列W’の生起確率P(W’)によって照合スコアを求める。照合スコアは例えば式(16)によって計算する。
【0100】
【数16】
Figure 0003894419
【0101】
式(16)においてα1、α2は重み係数である。この照合スコアの値が最も大きい単語列 RW=[V(r(1)), V(r(2)), ..., V(r(m))] が音声認識結果1006となる。ここでr(i)は音声認識結果の単語系列のi番目の単語の単語番号を示す。また、mは認識単語系列の単語数を示す。
【0102】
また、実施の形態5における音声認識方法を音声認識プログラムとして記録媒体に記録することもできる。この場合には実施の形態2の言語モデル生成プログラムに加えて、音声特徴量抽出手段1002と同様の処理を実現する音声特徴量抽出手順と、照合手段301と同様の処理を実現する照合手順とを含む音声認識プログラムを記録媒体に記録する。
【0103】
以上のように、この実施の形態5における音声認識装置、音声認識方法によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力してクラス化された冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語含まない単語列に対する生起確率の推定精度が高く、またクラス化された冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。この冗長語を除いた言語モデルと、クラス化された冗長語を含む言語モデルの両方を音声認識に用いるので高い認識率が得られる効果がある。
【0104】
実施の形態6.
図11はこの発明の実施の形態6による音声認識装置の構成を示すブロック図である。図において、上記実施の形態および従来の装置と同一もしくは相当部分は同一の符号で示し説明を省略する。また図12はこの発明の実施の形態6による音声認識装置における音声認識方法を示すフローチャートであり、以下これに従って動作を説明する。
【0105】
ステップST601及びステップST602の処理は実施の形態4における図8のステップST401及びステップST402の処理と同一である。
【0106】
ステップST603において、第1の照合手段401は、クラス化された冗長語を含む言語モデル202と音響モデル1003とを入力して認識対象音声1001の音声特徴量に対して照合を行い、照合スコアが高い順に複数の単語列を音声認識結果候補403として出力する。
【0107】
この場合の照合処理を具体的に説明する。第1の照合手段401はクラス化された冗長語を含む言語モデル202が設定している認識対象の単語 [V(1), V(2), ..., V(vn)] (vnは認識対象とする単語数)の発音表記を認識ユニットラベル表記に変換し、このラベルに従って音響モデル1003に格納されている音素ユニットのHMMを連結し、認識対象単語の標準パタン [λV(1), λV(2), ..., λV(vn)] を作成する。そして音声特徴量抽出手段1002の出力である音声特徴量Oに対して認識対象単語の標準パタンを用いて計算する単語列Wの音響スコアP(O|W)と、クラス化された冗長語を含む言語モデル202によって計算する単語列Wの生起確率Pf c(W)によって照合スコアを求める。照合スコアは例えば式(17)によって計算する。
【0108】
【数17】
Figure 0003894419
【0109】
ここでαは重み係数である。第1照合手段401では、この照合スコアF1(O,W)の値が大きい複数の単語列 RW1, RW2,... , RWN (RWk=[Vk(rk(1)), Vk(rk(2)), ... , Vk(rk(mk))]) を音声認識結果候補403として出力する。
【0110】
ステップST604において、第2の照合手段402は、クラス化された冗長語を含む言語モデル202と、冗長語を除いた言語モデル104と、音響モデル1003を入力して、第1の照合手段401の出力である複数の音声認識結果候補403の単語列に対し照合を行い、最も照合スコアが高い単語列を音声認識結果1006として出力する。
【0111】
この場合の照合処理を具体的に説明する。第2の照合手段402はクラス化された冗長語を含む言語モデル202、及び冗長語を除いた言語モデル104が設定している認識対象の単語 [V(1), V(2), ..., V(vn)] (vnは認識対象とする単語数)の発音表記を認識ユニットラベル表記に変換し、このラベルに従って音響モデル1003に格納されている音素ユニットのHMMを連結し、認識対象単語の標準パタン [λV(1), λV(2), ..., λV(vn)] を作成する。そして音声特徴量抽出手段1002の出力である音声特徴量Oに対して認識対象単語の標準パタンを用いて計算する音声認識結果候補403の単語列RWk(k=1〜N、Nは候補数)の音響スコアP(O|RWk)と、クラス化された冗長語を含む言語モデル202によって計算する音声認識結果候補403の単語列RWkの生起確率Pf c(RWk)と、冗長語を除いた言語モデル104によって計算する音声認識結果候補403の単語列RWkから冗長語を除いた単語列RW’kの生起確率P(RW’k)によって照合スコアを求める。照合スコアは例えば式(18)によって計算する。
【0112】
【数18】
Figure 0003894419
【0113】
式(18)においてα1、α2は重み係数である。この照合スコアの値が最も大きい単語列 RW=[V(r(1)), V(r(2)), ..., V(r(m))] が音声認識結果1006となる。ここでr(i)は音声認識結果の単語系列のi番目の単語の単語番号を示す。また、mは認識単語系列の単語数を示す。
【0114】
また、実施の形態6における音声認識方法を音声認識プログラムとして記録媒体に記録することもできる。この場合には実施の形態2の言語モデル生成プログラムに加えて、音声特徴量抽出手段1002と同様の処理を実現する音声特徴量抽出手順と、第1の照合手段401と同様の処理を実現する第1の照合手順と、第2の照合手段と同様の処理を実現する第2の照合手順とを含む音声認識プログラムを記録媒体に記録する。
【0115】
以上のように、この実施の形態6における音声認識装置、音声認識方法によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力してクラス化された冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語を含まない単語列に対する生起確率の推定精度が高く、またクラス化された冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。そして、音声認識ではクラス化された冗長語を含む言語モデルを用いて音声認識結果候補を出力し、冗長語を除いた言語モデルとクラス化された冗長語を含む言語モデルの両方によって音声認識結果候補から音声認識結果を選び出すので、高い認識率が得られる効果がある。
【0116】
【発明の効果】
以上のようにこの発明の実施の形態4による音声認識装置、方法、記憶媒体によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力して冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語を含まない単語列に対する生起確率の推定精度が高く、また冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。そして、音声認識では冗長語を含む言語モデルを用いて音声認識結果候補を出力し、冗長語を除いた言語モデルと冗長語を含む言語モデルの両方によって音声認識結果候補から音声認識結果を選び出すので、高い認識率が得られる効果がある。
【0121】
また、この発明の実施の形態6による音声認識装置、方法、記憶媒体によれば、冗長語を除いた学習用テキストを入力して冗長語を除いた言語モデルを生成し、冗長語を含む学習用テキストを入力してクラス化された冗長語を含む言語モデルを生成するので、冗長語を除いた言語モデルは冗長語の影響によるスパースネスやゼロ頻度を軽減するので冗長語を含まない単語列に対する生起確率の推定精度が高く、またクラス化された冗長語を含む言語モデルは冗長語を含む単語連鎖の確率を与える。そして、音声認識ではクラス化された冗長語を含む言語モデルを用いて音声認識結果候補を出力し、冗長語を除いた言語モデルとクラス化された冗長語を含む言語モデルの両方によって音声認識結果候補から音声認識結果を選び出すので、高い認識率が得られる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による言語モデル生成装置の構成を示すブロック図である。
【図2】 この発明の実施の形態1による言語モデル生成装置における言語モデル生成方法を示すフローチャートである。
【図3】 この発明の実施の形態2による言語モデル生成装置の構成を示すブロック図である。
【図4】 この発明の実施の形態2による言語モデル生成装置における言語モデル生成方法を示すフローチャートである。
【図5】 この発明の実施の形態3による音声認識装置に構成を示すブロック図である。
【図6】 この発明の実施の形態3による音声認識装置における音声認識方法を示すフローチャートである。
【図7】 この発明の実施の形態4による音声認識装置に構成を示すブロック図である。
【図8】 この発明の実施の形態4による音声認識装置における音声認識方法を示すフローチャートである。
【図9】 この発明の実施の形態5による音声認識装置に構成を示すブロック図である。
【図10】 この発明の実施の形態5による音声認識装置における音声認識方法を示すフローチャートである。
【図11】 この発明の実施の形態6による音声認識装置に構成を示すブロック図である。
【図12】 この発明の実施の形態6による音声認識装置における音声認識方法を示すフローチャートである。
【図13】 出現する頻度が高い冗長語の例を示す図である。
【図14】 従来の音声認識装置の構成を示すブロック図である。
【符号の説明】
101 学習用テキスト、102 冗長語除去手段、103 冗長語を除いた言語モデル生成手段、104 冗長語を除いた言語モデル、105 冗長語を含む言語モデル生成手段、106 冗長語を含む言語モデル、201 クラス化された冗長語を含む言語モデル生成手段、202 クラス化された冗長語を含む言語モデル、301 照合手段、401 第1の照合手段、402 第2の照合手段、403 音声認識結果候補、1001 認識対象音声、1002 音声特徴量抽出手段、1003 音響モデル、1006 音声認識結果。

Claims (6)

  1. 認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識装置であって、
    上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手段と、
    上記音声特徴量の系列の確率を求めるための音響モデルと、
    冗長語を含む学習用テキストを入力して、冗長語も含めて単語列の生起確率を求める言語モデルを生成する冗長語を含む言語モデル生成手段と、
    上記冗長語を含む学習用テキストから冗長語を取り除き、冗長語を除いた学習用テキストを生成する冗長語除去手段と、
    上記冗長語を除いた学習用テキストを入力し、冗長語を除いた単語列の生起確率を求める言語モデルを生成する冗長語を除いた言語モデル生成手段と、
    上記音響モデルと上記冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手段が抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第1の照合手段と、
    この第1の照合手段が出力した複数の音声認識結果候補に対して、上記冗長語を含む言語モデルと上記冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第2の照合手段と、
    を備えたことを特徴とする音声認識装置。
  2. 認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識装置であって、
    上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手段と、
    上記音声特徴量の系列の確率を求めるための音響モデルと、
    冗長語を含む学習用テキストを入力して冗長語をクラス化し、クラス化された冗長語も含めて単語列の生起確率を求める言語モデルを生成するクラス化された冗長語を含む言語モデル生成手段と、
    上記冗長語を含む学習用テキストから冗長語を取り除き、冗長語を除いた学習用テキストを生成する冗長語除去手段と、
    上記冗長語を除いた学習用テキストを入力し、冗長語を除いた単語列の生起確率を求める言語モデルを生成する冗長語を除いた言語モデル生成手段と、
    上記音響モデルと上記クラス化された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手段が抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第1の照合手段と、
    この第1の照合手段が出力した複数の音声認識結果候補に対して、上記クラス化された冗長語を含む言語モデルと上記冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第2の照合手段と、
    を備えたことを特徴とする音声認識装置。
  3. 認識対象音声の音声認識を行う音声認識方法であって、
    上記認識対象音声から音声特徴量を抽出する音声特徴量抽出工程と、
    上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力して生成された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出工程で抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を求める第1の照合工程と、
    この第1の照合工程で求められた複数の音声認識結果候補に対して、上記冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識を行う第2の照合工程と、
    を備えたことを特徴とする音声認識方法。
  4. 認識対象音声の音声認識を行う音声認識方法であって、
    上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出工程と、
    上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力し冗長語をクラス化して生成されたクラス化された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出工程で抽出された音声特徴量に対して照合を行い複数の音声認識結果候補を求める第1の照合工程と、
    この第1の照合工程で求められた複数の音声認識結果候補に対して上記クラス化された冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識を行う第2の照合工程と、
    を備えたことを特徴とする音声認識方法。
  5. 認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識プログラムを記録した記録媒体であって、
    上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手順と、
    上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力して生成された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手順で抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第1の照合手順と、
    この第1の照合手順が出力した複数の音声認識結果候補に対して、上記冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第2の照合手順と、
    を実現させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
  6. 認識対象音声を入力して音声認識を行い音声認識結果を出力する音声認識プログラムを記録した記録媒体であって、
    上記認識対象音声を入力し音声特徴量を抽出する音声特徴量抽出手順と、
    上記音声特徴量の系列の確率を求めるための音響モデルと冗長語を含む学習用テキストを入力し冗長語をクラス化して生成されたクラス化された冗長語を含む言語モデルとを用いて、上記音声特徴量抽出手順で抽出した音声特徴量に対して照合を行い複数の音声認識結果候補を出力する第1の照合手順と、
    この第1の照合手順で出力した複数の音声認識結果候補に対して、上記クラス化された冗長語を含む言語モデルと冗長語を除いた学習用テキストを入力して生成された冗長語を除いた言語モデルとを用いて、照合を行い音声認識結果を出力する第2の照合手順と、
    を実現させる音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2001074023A 2001-03-15 2001-03-15 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP3894419B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001074023A JP3894419B2 (ja) 2001-03-15 2001-03-15 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001074023A JP3894419B2 (ja) 2001-03-15 2001-03-15 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2002278584A JP2002278584A (ja) 2002-09-27
JP3894419B2 true JP3894419B2 (ja) 2007-03-22

Family

ID=18931366

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001074023A Expired - Fee Related JP3894419B2 (ja) 2001-03-15 2001-03-15 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP3894419B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8639507B2 (en) 2007-12-25 2014-01-28 Nec Corporation Voice recognition system, voice recognition method, and program for voice recognition
JP6000153B2 (ja) * 2013-02-06 2016-09-28 日本電信電話株式会社 フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム

Also Published As

Publication number Publication date
JP2002278584A (ja) 2002-09-27

Similar Documents

Publication Publication Date Title
JP6188831B2 (ja) 音声検索装置および音声検索方法
JP4267385B2 (ja) 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
US6856956B2 (en) Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
Zissman et al. Automatic language identification
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
JP3126985B2 (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
JP5172021B2 (ja) 自動音声認識音響モデルの適合
US20050159949A1 (en) Automatic speech recognition learning using user corrections
JP5660441B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
JP2016062069A (ja) 音声認識方法、及び音声認識装置
US20220180864A1 (en) Dialogue system, dialogue processing method, translating apparatus, and method of translation
JP5274191B2 (ja) 音声認識装置
JP2019012095A (ja) 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム
Neubig et al. Learning a language model from continuous speech
JP3961780B2 (ja) 言語モデル学習装置およびそれを用いた音声認識装置
JP4270732B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP3894419B2 (ja) 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1097285A (ja) 音声認識装置
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
Nga et al. A Survey of Vietnamese Automatic Speech Recognition
Xiao et al. Information retrieval methods for automatic speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040917

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061207

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091222

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111222

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111222

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121222

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121222

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131222

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees