JP3628245B2 - 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 - Google Patents
言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 Download PDFInfo
- Publication number
- JP3628245B2 JP3628245B2 JP2000268900A JP2000268900A JP3628245B2 JP 3628245 B2 JP3628245 B2 JP 3628245B2 JP 2000268900 A JP2000268900 A JP 2000268900A JP 2000268900 A JP2000268900 A JP 2000268900A JP 3628245 B2 JP3628245 B2 JP 3628245B2
- Authority
- JP
- Japan
- Prior art keywords
- database
- text
- symbol
- recognition
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、人が発声した文章などの音声を入力信号とし、その音声を音響モデルおよび記号連鎖確率(言語モデル)を用いて認識し、その結果を記号列として出力する音声認識方法、この方法に用いられる言語モデルの生成方法及びこれらのプログラム記録媒体に関するものである。
【0002】
【従来の技術】
音声入力を音声認識により記号列(単語列)に変換する場合、大規模なテキストデータベースから記号(単語)の出現連鎖に関する記号連鎖確率(言語モデル)を生成し、それを利用することで音声認識性能を向上させる手法が従来から知られている。しかし、認識タスク(発声内容)が、記号連鎖確率の生成に用いた大規模なテキストデータベースのタスクと異なったりする場合には有効性が低かった。
【0003】
そこで、このような問題点を解決するため、特開平4−291399号公報に示すように、認識タスクに類似したテキストデータベースから作成した学習用記号連鎖確率を用いて、大規模なテキストデータベースから生成した記号連鎖確率を適応化し、この適応化された記号連鎖確率を利用して音声認識を行うようにした技術も従来から提案されている。
【0004】
【発明が解決しようとする課題】
上述した適応された記号連鎖確率を用いる従来の技術は、大規模なテキストデータベースから生成した記号連鎖確率のみを用いる技術に比較して、高い認識性能を実現できるが、大規模なテキストデータベースから生成した記号連鎖確率には、認識タスクとはかけ離れたデータの情報も含まれているため、記号連鎖によっては適応化した確率値の推定が不安定になるという問題があった。また、適応化した記号連鎖確率は、大規模なテキストデータベースと認識タスクに類似したテキストデータベースのすべての情報を保持するため記憶容量が大きいという問題があった。
【0005】
そこで、この発明の一つの目的は、大規模テキストデータベースの中で認識タスクにより類似しているテキストにより大きな重みを付けることにより、高精度な記号連鎖確率を生成し、それを認識に用いることにより認識性能を向上することができる言語モデルの生成方法を提供することにある。また、認識タスクと類似度の低いデータを排除する(重みを0とする)ことにより、保持する情報を削減して、記憶容量の小さな記号連鎖確率を提供することにある。
【0006】
【課題を解決するための手段】
この発明の言語モデル生成方法によれば、認識対象のタスク(発声内容)に関するテキストデータを格納した認識タスク用テキストデータベースと、認識対象タスクとは直接関係しない一般的な複数のテキストデータベースとを用い、認識タスク用テキストデータベースに対する各一般用テキストデータベースの関連(類似性)を示す重みを求め、これら認識タスク用、また一般用テキストデータベースを用い、注目する記号(単語)についてそれが属するデータベースの重みを与えて記号連鎖確率を生成する。
【0007】
各一般用テキストデータベースの重みを求めるには、認識タスク用テキストデータベースのテキストデータから得られる情報に基づいて、各一般用テキストデータベースのテキストデータのそれぞれ類似性を検証し、認識タスク用テキストデータベースとの類似度の大きい一般用テキストデータベースに大きな重みを与える。認識タスク用テキストデータベースと一般用テキストデータベースの類似度の検証には、認識タスク用テキストデータベース中のテキストデータより生成した記号連鎖確率を、各一般用テキストデータベースのテキストデータに対して与えた際のパープレキシティ(エントロピー)、または各一般用テキストデータベースについてその中にそれぞれ認識タスク用テキストデータベース中の単語が含まれない率(未知語率)をそれぞれ求め、あるいはこれらパープレキシティおよび未知語率の組み合わせを用いる。また認識タスク用テキストデータベースの重みWT を決定する場合は、認識タスク用テキストデータベースのデータ量と複数の一般用テキストデータベースのデータ量との比に基づく値を用いる。この重みWT は上記パープレキシティおよび未知語率に基づく値と組み合わせて用いてもよい。
【0008】
【発明の実施の形態】
この発明の実施の形態について図面を参照して詳細に説明する。図1にこの発明による音声認識方法の一実施例が適用される音声認識装置の構成例を示す。
音声認識部110と、記号連鎖確率(言語モデル)データベース120と、音声標準パタンデータベース130と、認識タスク用記号連鎖確率生成部140と、認識タスク用テキストデータベース150と、複数の一般用テキストデータベース160−1〜160−Nとを備えている。
【0009】
音声標準パタンデータベース130は、予め分析された音声の標準パタンを複数保持している。認識タスク用データベース150には認識対象タスク(発声内容)と関連したテキストデータが格納される。入力音声が例えばニュース番組の発語音声の場合、認識タスクのテキストデータとして、多数のニュースの書き起こしに用いた各単語が認識タスク用テキストデータベース150に格納される。一般用データベース160−1〜160−Nは認識対象タスクと直接関係のない新聞記事データベース、小説データベースなどが用いられ、例えば新聞記事、ホームページ、ネットニューズなどから多数の単語を収集し、その収集した際にその単語を含んで構成されていた一文ごとにそれぞれ1つの一般用テキストデータベース160−n(n=1,2,…,N)を構成してもよい。
【0010】
認識タスク用記号連鎖確率生成部140は、この発明による言語モデル生成方法を実行するものであって、認識処理に先立って、認識タスク用テキストデータベース150と、一般用テキストデータベース160−1〜160−Nとから、認識タスクに対する類似度の大きいテキストデータを含む一般用テキストデータベースにより大きな重みを付けて、これら認識タスク用テキストデータベースと複数の一般用テキストデータベースを用いて、認識タスクに対して高精度な絞り込みをすることが可能な記号連鎖確率(言語モデル)を生成してそれを記号連鎖確率データベース120に格納する。音声認識部110は、入力音声に対して、記号連鎖確率データベース120の記号連鎖確率および音声標準パタンデータベース130の音声標準パタンなどから得られる情報に基づいて記号列候補の絞り込みを行い、認識結果である記号列を出力する。
【0011】
図2に、認識タスク用記号連鎖確率生成部140の構成例を示しこの図2を参照してこの発明による言語モデル、つまり記号連鎖確率の生成方法の実施例を説明する。重み決定部210では、認識タスク用データベース150中の各認識タスクのテキストデータと各一般用テキストデータベース160−nの各テキストデータとを入力し、認識タスクのテキストデータと各一般用テキストデータベース160−nのテキストデータとの類似度からその一般用テキストデータベース160−nに対する重みWn を決定する。また、各一般用テキストデータベースの重みWi に基づいて認識タスク用テキストデータベース150の重みWT を決定する。これら重みWn ,WT を決定する具体的手法は後で説明する。認識タスク用テキストデータベース150に重みWT を複数の一般用テキストデータベース160−1〜160−Nに重みW1 〜WN をそれぞれ与える。
【0012】
記号連鎖確率生成部220では、重み決定部210が出力した重み付きの認識タスク用テキストデータベース150および重み付きの複数の一般用テキストデータベース160−1〜160−Nの各テキストデータを入力し、記号連鎖確率(言語モデル)を生成して記号連鎖確率データベース120に格納する。この記号連鎖確率、つまり、ユニグラム、バイグラム、トライグラム、一般的にはMグラム(Mは1以上の整数)の生成の基本的な手法は従来の方法と同様であるが、認識タスク用テキストデータベース150と複数の一般的テキストデータベース160−1〜160−Nを1つのテキストデータベースとして、このテキストデータベースから記号連鎖確率を生成するが、その際に、各記号(単語)について、それが属するテキストデータベースの重みを考慮する。例えば単語Aについて認識タスク用テキストデータベース150における出現回数をCT(A)、一般用テキストデータベース160−1〜160−Nにおける各出現回数をC1(A)〜CN(A)とすると、これらに対し、そのデータベースの重みを掛算して加算し、
C(A)=WT ・CT(A)+W1 ・C1(A)+W2 ・C2(A)+…+WN ・CN(A)
を単語Aの出現回数とし、同様にして他の単語の出現回数を求める。単語Aの単語単体の出現確率(ユニグラム)は、単語Aの出現回数C(A)をすべての単語の出現回数ΣC(k)で割った
P(A)=C(A)/ΣC(k)
となり、同様にして他の単語の出現確率を求めて記号連鎖確率データベース120に格納する。
【0013】
あるいは、例えば単語Aの次に単語Bが生じる確率であるバイグラムの場合、単語Aに続いて単語Bが出現する回数について認識タスク用テキストデータベース150における出現回数をCT (A,B)、一般用テキストデータベース160−1〜160−Nにおける各出現回数をC1 (A,B)〜CN(A,B)とすると、これらについてそれぞれのデータベースの重みを掛算したものの和
C(A,B)=WT ・CT (A,B)+W1 ・C1 (A,B)+W2 ・C2 (A,B)+…+WN ・CN (A,B)
を単語連鎖A,Bの出現回数とし、それを単語Aの出現回数C(A)で割った
P(B|A)=C(A,B)/C(A)
を単語Aの次に単語Bが生じるバイグラム確率として同様にして他の単語連鎖の確率を求めて記号確率データベース120に格納してもよい。
【0014】
次に、図2に示した認識タスク用記号連鎖確率生成部140中の重み決定部210における処理手順例を図3に示し、以下に動作を説明するn=1に初期化し(S1)、認識タスク用テキストデータベース150のテキストデータと一般用テキストデータベース160−nのテキストデータとから一般用テキストデータベース160−nに対する重みwn を決定する(S2)、n=Nかを調べ(S3)、n=Nでなければnを+1してステップS2に戻る(S4)。n=Nであれば、つまりすべての一般用テキストデータベース160−1〜160−Nについて重みW1 〜WN を決定したら、認識タスク用テキストデータベース150に対する重みWT を決定する(S5)。
【0015】
重みwn の決定の具体例を図4を参照して説明する。例えば、パープレキシティに基づいて重み付けをする場合には、認識タスク用テキストデータベース150のテキストデータを用いて記号連鎖確率PT を記号連鎖確率生成部410で生成しテキストデータベース重み計算部420でその記号連鎖確率PT の一般用テキストデータベース160−nに対するテストセットパープレキシティを計算し、そのパープレキシティの値に基づいて重みの値Wn を決める。テストセットパープレキシティPPは、言語Lの情報理論的な意味での単語の平均分岐数を表し、評価用テキスト集合(単語列、記号列)に対して適用され、次式で与えられる。
【0016】
PP=2H(L)
ここでH(L)=−Σw1(1/n)P(w1 n)logP(w1 n)
であり、H(L)は一単語あたりのエントロピーであり、P(w1 n)は単語列w1 n=w1 …wn の生成確率である。つまり、認識タスク用テキストデータベース150を用いて生成した記号連鎖確率PT を用いて、一般用テキストデータベース160−n内のテキストデータについてテストセットパープレキシティPPを求める。言語パープレキシティが大きいほど、つまり単語の平均分岐数が多いほど、単語を特定するのが難しく、ある記号連鎖確率と評価テキストからテストセットパープレキシティPPを求めた場合、そのPPの値が小さいほど、記号連鎖確率は評価テキストをよく表現できていることになる。従って、前記実施例で一般用テキストデータベース160−nについて求めたテストセットパープレキシティの値が小さければ、この一般用テキストデータベース160−nは認識タスク用テキストデータベース150と似ていることになる。よって一般用テキストデータベース160−nに対する重みWn を大きくする。
【0017】
また、未知語率に基づいて一般用テキストデータベースを重み付けをすることもできる。この場合は図4中に示すように認識タスク用テキストデータベース150に存在する(出現する)記号(単語)のリスト、即ち記号リストLT を記号リスト生成部430で生成し、テキストデータベース重み計算部420では、一般用テキストデータベース160−nに出現する単語(記号)ののべ数のうち、記号リストLT に含まれない記号(単語)が何個あるかという割合(未知語率)を計算し、その未知語率の値に基づいて一般用テキストデータベース160−nの重みの値Wn を決める。例えば一般用テキストデータベース160−nの全単語数が2000で、その中100単語が記号リストLT に含まれていない未知語であった場合は、その未知語率は(100/2000)×100=500になる。未知語率が小さいほど、記号リストLT と一般用テキストデータベース160−nには重複する単語が多く一般用テキストデータベース160−nは認識タスク用データベース150と類似していることになり、重みWn を大きくする。
【0018】
テキストデータベース計算部420では、記号リストLT および記号連鎖確率PT のいずれかを用いる場合に限らず、これら両者を組み合わせて用いることもできる。例えば一般用テキストデータベース160−nの記号連鎖確率PT を用いたテストセットパープレキシティがしきい値より小さく、かつ記号リストLT に対する未知語率がしきい値より小さい場合は一般用テキストデータベース160−nの重みWn を1とし、その他の場合は重みWnを0とする。なお記号リストLT の生成は、後述する実施例では3万文、のべ100万単語の認識タスク用テキストデータベース150の場合、異なる単語数は約10万単語であるが、この10万単語中には、認識タスク用データベース150中に1回しか出現しない単語も多く含まれており、それらの単語は統計的に信頼性が低いことから、出現しなかったこととして記号リストLT に含めない場合もあり、前記後述の実験では記号リストLT を出現頻度の多い単語から2万単語までとした。この頻度上位2万語の単語はこのデータベース150ののべ100万単語のうち約99%を占める。
【0019】
次に認識タスク用テキストデータベース150の重みwT を決定する処理例を図5を参照して説明する。
例えば、認識タスク用テキストデータベース150のデータ量LT をテキストデータ量算出部510で求め、一般用テキストデータベース160−1〜160−Nの全テキストデータ量CD をテキストデータ量算出部520で求め、これらの比CD /CT を重み計算部530で計算し、その計算結果に基づいて認識タスク用テキストデータベース150の重みWT を与える。一般用テキストデータベース160−1〜160−Nの全テキストデータ量CD としてその重みWn を考慮する場合はCD =Σn=1 N Wn Cn を計算して求める。Cn は一般用テキストデータベース160−nののべ単語数である。
【0020】
上述において、認識タスク用テキストデータベース150には重みWT を与えなくてもよい。つまり一般用テキストデータベース160−1〜160−Nの重みW1 〜WN を求めて、これを用いて図2中の記号連鎖確率生成部220で記号連鎖確率を前述したように求めてもよい。この場合はWT =1とし、W1 〜WN を1以下の正数としたとも云える。また逆に、一般用テキストデータベース160−1〜160−Nには重みを与えず、つまりW1 〜WN を全て1とし、認識タスク用テキストデータベース150に1以上の重みWT を与えて、記号連鎖確率生成部220で記号連鎖確率を求めてもよい。
【0021】
上述した言語モデルの生成及び音声認識はコンピュータによりプログラムを実行させて行うこともできる。例えば図6に示すように各部がバス670に接続され、メモリ640に言語モデル生成プログラムがCD−ROM、ハードディスクなどからあるいは通信回線を介してしてインストールされてあり、CPU660がこの言語モデル生成プログラムを実行することにより、認識タスク用テキストデータベース150、一般用テキストデータベース160−1〜160−Nを用いて、図7に示すように認識タスク用テキストデータベース150の単語から記号連鎖確率PT 又は記号リストLT を生成し(S1)、その後、各一般用テキストデータベース160−1〜160−Nのそれぞれについて、重みWn を順次計算し(S2)、次に認識タスク用テキストデータベース150の重みWT を計算し(S4)、その後、これらの重みW1 〜WN ,WT を用いてテキストデータベース150と160−1〜160−Nとの単語について記号連鎖確率(言語モデル)を生成して記号連鎖確率データベース120に格納する(S4)。
【0022】
その後、音声認識を行うが、メモリ650に音声認識プログラムを前述と同様にインストールしておき、入力部610に音声が入力されると、CPU660が音声認識プログラムを実行し、記号連鎖確率データベース120、音声標準パタンデータベース130を参照して音声認識を行い、その結果の記号列を出力部630から出力する。なお入力部610で入力される音声は例えば線形予測分析されたLPCケプストラム、LPCデルタケプストラム、対数パワーなどの特徴パラメータのベクトルデータ時系列とされたものである。記憶部620は言語モデル生成や、音声認識時に一時にデータを記憶するためなどに用いられる。
実施例
この発明の効果を確認するために評価実験を行った。評価用の入力音声データは、ニュース番組の男性アナウンサーの発話129文を用いた。認識タスク用テキストデータベース150としては、約100万単語のニュースの書き起こしテキストを用いた。一般用テキストデータベース160−1〜160−Nとしては、新聞記事、ホームページ、ネットニューズなどから収集した約1億5000万単語のデータベースを用意し、この評価実験では、このテキストデータベース中の一文をそれぞれ一つの一般用テキストデータベース160−1〜160−Nとした。一般用テキストデータベースの重みWn の決定にはパープレキシティPPn を用い、一般用テキストデータベース160−1〜160−N中でパープレキシティPPn がしきい値より低い文が全体の40%となるようにパープレキシティPPn のしきい値を設定し、パープレキシティPPn がしきい値より小さい文の一般用テキストデータベース160−nの重みWn を1、しきい値以上の文の一般用テキストデータベース160−nの重みWn を0とした。また、認識タスク用テキストデータベース150に対する重みWT は、認識タスク用テキストデータベース150のデータ量(単語数)CT と重み付けした一般用テキストデータベース160−1〜160−Nのデータ量(単語数)CD とに基づいて、CD /CT とした。
【0023】
評価用音声データの書き起こしテキストに対する記号連鎖確率のパープレキシティ(単語の平均分岐数、小さいほど評価テキストに対して高精度な連鎖確率であるといえる)で評価したところ、認識タスク用テキストデータベース150のみから生成した記号連鎖確率の場合はテキストデータ数が少ないため75と大きな値になり、認識タスク用テキストデータベース150と大規模テキストデータベース群、つまり一般用テキストデータベース160−1〜160−Nとから生成した記号連鎖確率の場合は42と小さくなったが、この発明の重み付けを用いて生成した記号連鎖確率の場合は、36と更に小さくなった。
【0024】
また、音声認識実験により評価したところ、単語誤り率は、認識タスク用テキストデータベース150のみから生成した記号連鎖確率の場合、14.7%、認識タスク用テキストデータと一般用テキストデータベース160−1〜160−Nとから生成した記号連鎖確率の場合、11.6%、この発明の重み付けを用いて生成した記号連鎖確率の場合は、9.9%となり、認識率の向上が明確に得られた。
【0025】
また、記号連鎖確率のパラメータ数は、認識タスク用テキストデータベース150と一般用テキストデータベース160−1〜160−Nとから生成した記号連鎖確率の場合、約1000万であり、この発明の重み付けを用いて生成した記号連鎖確率の場合は、約460万であり、可成り少なくなった。
【0026】
【発明の効果】
以上述べたようにこの発明によれば下記の第1および第2の効果を得ることができる。
第1の効果は、一般の大規模データベース群から、認識タスク用テキストデータに類似したデータに重み付けをすることにより、認識タスクに対して高精度な記号連鎖確率を生成することができる。
【0027】
第2の効果は、重み付けの際に、認識タスクに対して類似度の低いデータに対する重みを0にすることにより、高精度かつ記憶容量の小さい記号連鎖確率を生成することができる。
【図面の簡単な説明】
【図1】この発明の音声認識方法が適用される装置の構成を示すブロック図。
【図2】この発明の言語モデル(記号連鎖確率)生成方法が適用される生成部の構成を示すブロック図。
【図3】この発明の言語モデル生成方法の処理の流れを示すフローチャート。
【図4】一般用テキストデータベースの重み決定部の構成例を示すブロック図。
【図5】認識タスク用テキストデータベースの重み決定部の構成例を示すブロック図。
【図6】この発明による言語モデル生成方法及び音声認識方法をコンピュータにより実行される場合の構成例を示す図。
【図7】この発明による言語モデル生成方法の処理手順の例を示すフローチャート。
Claims (7)
- 認識対象のタスクに関するテキストデータを格納した認識タスク用テキストデータベースと、上記認識対象タスクと直接関係しない一般的なテキストデータを格納した複数の一般用テキストデータベースとを用い、
上記認識タスク用テキストデータベースに対する上記各一般用テキストデータベースの関連を示す重みを、そのデータベース中の記号(単語)のうち上記認識タスク用テキストデータ中に含まれないものの比率(未知語率)に基づいて求め、
上記認識タスク用テキストデータベースと上記複数の一般的なテキストデータベースを用いて、注目する記号(単語)についてそれが属するデータベースの重みを与えて、記号連鎖確率(言語モデル)を生成することを特徴とする言語モデル生成方法。 - 認識対象のタスクに関するテキストデータを格納した認識タスク用テキストデータベースと、上記認識対象タスクと直接関係しない一般的なテキストデータを格納した複数の一般用テキストデータベースとを用いて記号連鎖確率を求め、
その記号連鎖確率を用いて、各一般用テキストデータベースについてパープレキシティ(エントロピー)を求め、
上記各一般用テキストデータベースについて、そのデータベース中の記号(単語)のうち、上記認識タスク用テキストデータ中に含まれないものの比率(未知語率)を求め、
上記認識タスク用テキストデータベースに対する上記各一般用テキストデータベースの関連を示す重みを、上記パープレキシティと未知語率とから求め、
上記認識タスク用テキストデータベースと上記複数の一般的なテキストデータベースを用いて、注目する記号(単語)についてそれが属するデータベースの重みを与えて、記号連鎖確率(言語モデル)を生成することを特徴とする言語モデル生成方法。 - 上記認識タスク用テキストデータベースのテキストデータ量と、上記複数の一般用テキストデータベースのテキストデータ量の比に基づいて上記認識タスク用テキストデータベースの重みを求めることを特徴とする請求項1又は2に記載の言語モデル生成方法。
- 上記重みを与えての記号連鎖確率の生成は、注目記号について、各データベース中の出現回数にそのデータベースの重みを与え、その合計値を全体のデータベース中の出現回数として記号連鎖確率を生成することを特徴とする請求項1乃至3の何れかに記載の言語モデル生成方法。
- 上記重みを与えての記号連鎖確率の生成は、注目記号について、各データベース中の出現頻度又は記号連鎖確率にそのデータベースの重みを与え、その全積算値を全体のデータベース中の出現頻度又は記号連鎖確率として、記号連鎖確率を求めることを特徴とする請求項1乃至4の何れかに記載の言語モデル生成方法。
- 入力音声を音響モデルと記号連鎖確率(言語モデル)とを用いて認識し、記号(単語)列として出力する音声認識方法において、
上記記号連鎖確率として請求項1乃至5の何れかに記載の方法により生成した言語モデルを用いることを特徴とする音声認識方法。 - 請求項1乃至6の何れかに記載の方法をコンピュータに実行させるプログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000268900A JP3628245B2 (ja) | 2000-09-05 | 2000-09-05 | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000268900A JP3628245B2 (ja) | 2000-09-05 | 2000-09-05 | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002082690A JP2002082690A (ja) | 2002-03-22 |
JP3628245B2 true JP3628245B2 (ja) | 2005-03-09 |
Family
ID=18755601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000268900A Expired - Fee Related JP3628245B2 (ja) | 2000-09-05 | 2000-09-05 | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3628245B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9251135B2 (en) | 2013-08-13 | 2016-02-02 | International Business Machines Corporation | Correcting N-gram probabilities by page view information |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3923513B2 (ja) | 2004-06-08 | 2007-06-06 | 松下電器産業株式会社 | 音声認識装置および音声認識方法 |
JP5239161B2 (ja) * | 2007-01-04 | 2013-07-17 | 富士ゼロックス株式会社 | 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム |
JP5459214B2 (ja) * | 2008-08-20 | 2014-04-02 | 日本電気株式会社 | 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体 |
JP2010224194A (ja) * | 2009-03-23 | 2010-10-07 | Sony Corp | 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム |
JP6277659B2 (ja) * | 2013-10-15 | 2018-02-14 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
WO2017061027A1 (ja) | 2015-10-09 | 2017-04-13 | 三菱電機株式会社 | 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム |
-
2000
- 2000-09-05 JP JP2000268900A patent/JP3628245B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9251135B2 (en) | 2013-08-13 | 2016-02-02 | International Business Machines Corporation | Correcting N-gram probabilities by page view information |
US9311291B2 (en) | 2013-08-13 | 2016-04-12 | International Business Machines Corporation | Correcting N-gram probabilities by page view information |
Also Published As
Publication number | Publication date |
---|---|
JP2002082690A (ja) | 2002-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5937384A (en) | Method and system for speech recognition using continuous density hidden Markov models | |
US20050038650A1 (en) | Method and apparatus to use semantic inference with speech recognition systems | |
US20020188446A1 (en) | Method and apparatus for distribution-based language model adaptation | |
CN101777347B (zh) | 一种模型互补的汉语重音识别方法及系统 | |
WO2009081861A1 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
JPS62231996A (ja) | 音声認識方法 | |
JP2005165272A (ja) | 多数の音声特徴を利用する音声認識 | |
JPH0320800A (ja) | 音声認識方法および装置 | |
JP2011065120A (ja) | すべての言語の音声識別及び音声識別を利用した単字入力の方法 | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
CN111599339B (zh) | 具有高自然度的语音拼接合成方法、系统、设备及介质 | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
CN112669845A (zh) | 语音识别结果的校正方法及装置、电子设备、存储介质 | |
JP3628245B2 (ja) | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP2938866B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP3027544B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
US7634404B2 (en) | Speech recognition method and apparatus utilizing segment models | |
JP3913626B2 (ja) | 言語モデル生成方法、その装置及びそのプログラム | |
JP4362054B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2938865B1 (ja) | 音声認識装置 | |
Aşlyan | Syllable Based Speech Recognition | |
JP5104732B2 (ja) | 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム | |
JP5170449B2 (ja) | 検出装置、音声認識装置、検出方法、及びプログラム | |
JP2738508B2 (ja) | 統計的言語モデル作成装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040305 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040723 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041207 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071217 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081217 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091217 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101217 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101217 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111217 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111217 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121217 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121217 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131217 Year of fee payment: 9 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |