JP2004053745A - Method, apparatus, and program for language model generation - Google Patents

Method, apparatus, and program for language model generation Download PDF

Info

Publication number
JP2004053745A
JP2004053745A JP2002208433A JP2002208433A JP2004053745A JP 2004053745 A JP2004053745 A JP 2004053745A JP 2002208433 A JP2002208433 A JP 2002208433A JP 2002208433 A JP2002208433 A JP 2002208433A JP 2004053745 A JP2004053745 A JP 2004053745A
Authority
JP
Japan
Prior art keywords
weight
recognition
language model
keyword
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002208433A
Other languages
Japanese (ja)
Other versions
JP3913626B2 (en
Inventor
Katsutoshi Ofu
大附 克年
Takaaki Hori
堀 貴明
Shoichi Matsunaga
松永 昭一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002208433A priority Critical patent/JP3913626B2/en
Publication of JP2004053745A publication Critical patent/JP2004053745A/en
Application granted granted Critical
Publication of JP3913626B2 publication Critical patent/JP3913626B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To easily generate a language model (symbol chain probability) used to recognize an input speech in vocal retrieval and reception without generating a text database for its task for recognition. <P>SOLUTION: w<SB>1</SB>to w<SB>N</SB>maximizing equation 1 are found by maximum likelihood estimation and, for example, the appearance probability P(A)=C(A)/Σ<SB>k</SB>(Ck) is found from CA(A)=w<SB>1</SB>×C<SB>1</SB>(A)+, ..., +[w<SB>N</SB>×C<SB>N</SB>(A)] and ΣkC(k), where KW is a set of keywords included in a keyword list 150 for a task to be recognized, P<SB>t</SB>(A) the appearance probability of a keyword A in the list 150, P<SB>n</SB>(A) the appearance probability of the word A in a plurality of text databases 160-n (n-1 to N) which are not related directly to the task to be recognized, C<SB>n</SB>(A) an appearance number, and Σ<SB>k</SB>C<SB>n</SB>(k) the total number of words. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
この発明は、例えば人が発声した文章などの音声を入力信号とし、その音声を音響モデルおよび記号連鎖確率(言語モデル)を用いて認識し、その結果を記号列として出力する音声認識方法に用いられる、前記言語モデルの生成方法、その装置及びプログラムに関するものである。
【0002】
【従来の技術】
音声入力を音声認識により記号列(単語列)に変換する場合、大規模なテキストデータベースから記号(単語)の出現連鎖に関する記号連鎖確率(言語モデル)を生成し、それを利用することで音声認識性能を向上させる手法が従来から知られている。しかし、認識タスク(発声内容)が、記号連鎖確率の生成に用いた大規模なテキストデータベースのタスクと異なったりする場合には有効性が低かった。
そこで、このような問題点を解決するため、特開平04−291399号公報に示すように、認識タスクに類似したテキストデータベースから作成した学習用記号連鎖確率を用いて、大規模なテキストデータベースから生成した記号連鎖確率を適応化し、この適応化された記号連鎖確率を利用して音声認識を行うようにした技術も従来から提案されている。
【0003】
また、特開2002−82690号公報に示すように、認識タスクに関するテキストデータベースに基づいて、大規模なテキストデータベース中の各データに認識タスクとの関連の高さに応じた重みを与えて記号連鎖確率を作成し、この作成された記号連鎖確率を利用して音声認識を行うようにした技術も従来から提案されている。
【0004】
【発明が解決しようとする課題】
上述した認識タスクに関するテキストデータベースを用いる従来の技術は、大規模なテキストデータベースから生成した記号連鎖確率のみを用いる技術に比較して、高い認識性能を実現できるが、この発明の第1の目的は更に高い認識性能を実現可能とする言語モデル生成方法、その装置およびプログラムを提供することにある。
また従来の方法は認識タスクに関するテキストデータベースを用意できない(既存のものがない)場合には利用できないという問題があった。例えば天気予報の問合せに対する音声応答システムを構築する場合に、その天気予報の問合せ音声(認識タスク)に関する各種の問合せ文に関するテキストデータを作成または収集して認識タスクテキストデータベースを作ることになるが、その認識タスクが新しい場合にその認識タスクテキストデータベースを作るのが大変な作業となる。
【0005】
そこで、この発明の第2の目的は、認識タスクに関するテキストデータベースを用いることなく、複数の一般(既存)のテキストデータベースを用いて、記号連鎖確率を生成し、それを認識に用いることにより認識タスクに対して高精度な認識をすることができる言語モデルの生成方法、その装置及びプログラムを提供することにある。
【0006】
【課題を解決するための手段】
この発明の言語モデル生成方法によれば、認識対象のタスク(発声内容)に関するキーワードを格納した認識タスク用キーワードリストを用意し、互いに認識対象を異にする複数のテキストデータベース(以下一般用テキストデータベースという)と、前記キーワードリストを用い、認識タスク用キーワードリストに対する各一般用テキストデータベースの関連(類似性)を示す重みを求め、一般用テキストデータベースを用い、注目する記号(単語)についてそれが属するデータベースの重みを与えて記号連鎖確率を生成する。一般用テキストデータベースは認識対象タスクとは直接関係しなくても構わない。
【0007】
各一般用テキストデータベースの重みを求めるには、例えば認識タスク用キーワードリストから得られる情報に基づいて、各一般用テキストデータベースのテキストデータの関連性(類似度)を検証し、認識タスク用キーワードリストとの関連性の大きい一般用テキストデータベースに大きな重みを与える。認識タスク用キーワードリストと一般用テキストデータベータの関連性(類似度)の検証には、例えば各一般用テキストデータベースについて、認識タスク用キーワードリストのキーワードの出現確率、または認識タスク用キーワードリストのキーワードの属性と同じ属性の単語の出現確率を求めて用いる。
【0008】
この発明の言語モデル生成装置によれば、認識対象のタスクに関するキーワードが格納された認識タスク用キーワードリストと、上記認識対象タスクに限らず様々なタスクに関する一般的なテキストデータが格納された複数の一般用テキストデータベースと、上記認識対象タスクに対する上記各一般用テキストデータベースの関連を示す重みを求める重み決定部と、注目する記号(単語)が入力され、上記複数の一般的なテキストデータベースにおける記号および記号列の出現頻度を、各データベースに上記関連を示す重みを与えて計算して記号連鎖確率(言語モデル)を生成する記号連鎖確率生成部とを具備する。
【0009】
好ましくは上記重み決定部は、上記認識タスク用キーワードリストの各キーワードについて各一般用テキストデータベースにおけるそのキーワードの出現頻度を、すべてのテキストデータベースについて、重み付きで加算し、すべてのキーワードについてキーワードリストにおける出現確率を乗じて加算した値が最大となるように最尤推定を用いて、上記重みを計算するものである。あるいは上記重み決定部は、上記認識タスク用キーワードリストの各キーワードの属性(クラス)について各一般用テキストデータベースにおけるその属性(クラス)の出現頻度を、すべてのテキストデータベースについて重み付きで加算し、すべてのキーワードの属性(クラス)についてキーワードリストにおける出現確率を乗じて加算した値が最大となるように最尤推定を用いて上記重みを計算するものである。
【0010】
【発明の実施の形態】
この発明の実施の形態について図面を参照して詳細に説明する。図1にこの発明により生成された言語モデルを用いる音声認識装置の構成例を示す。
音声認識部110と、記号連鎖確率(言語モデル)データベース120と、音声標準パタンデータベース130と、認識タスク用記号連鎖確率生成部140と、認識タスク用キーワードリスト150と、複数の一般用テキストデータベース160−1〜160−Nとを備えている。
音声標準パタンデータベース130は、予め分析された音声の標準パタンを複数保持している。認識タスク用キーワードリスト150には認識対象タスク(発声内容)と関連したキーワードが含まれる。認識対象タスクが例えばレストラン検索の場合、音声認識技術を用いたレストラン検索システムに対して発声される発話文に含まれるキーワード「日本」「フランス」「中華」…,「新宿」「横浜」「浦和」…が認識タスク用キーワードリスト150にコンピュータにより読み取り可能に格納される。一般用テキストデータベース160−1〜160−Nは、例えば新聞記事データベース、小説データベース、天気予報問合せシステム向け発話テキストデータベース、株価問合せシステム向け発話テキストデータベースなど既存のものが用いられ、対象タスクごとに一つの一般用テキストデータベース160−n(n=1,2,…,N)を構成してもよいし、発話テキスト一文ごとにそれぞれ一つの一般用テキストデータベース160−n(n=1,2,…,N)を構成してもよい。これら一般用テキストデータベース160−1〜160−Nはそのテキストデータがそのまま又は単語の区切を付けてコンピュータにより読み取り可能に記憶部に格納されている。
【0011】
認識タスク用記号連鎖確率生成部140は、この発明による記号連鎖確率(言語モデル)生成方法を実行するものであって、認識処理に先立って、認識タスク用キーワードリスト150と、一般用テキストデータベース160−1〜160−Nとから、認識タスクに対する関連性の大きいテキストデータを含む一般用テキストデータベースにより大きな重みを付けて、これら認識タスク用キーワードリストと一般用テキストデータベースを用いて、認識タスクに対して高精度な絞り込みをすることが可能な記号連鎖確率(言語モデル)を生成してそれを記号連鎖確率データベース120にコンピュータにより読み取り可能に格納する。音声認識部110は、入力音声に対して、記号連鎖確率データベース120の記号連鎖確率および音声標準パタンデータベース130の音声標準パタンなどから得られる情報に基づいて記号列候補の絞り込みを行い、認識結果である記号列を出力する。通常、音声標準パタンを用いて、音素、単語などの認識候補をまず求め、これら候補について言語モデルを用いて、最も大きな確率が得られるものを認識記号列とする。
【0012】
図2に、認識タスク用記号連鎖確率生成部140の構成例を示し、この図2を参照してこの発明による言語モデル、つまり記号連鎖確率の生成方法及びその装置の実施例を説明する。重み決定部210では、認識タスク用キーワードリスト150中のキーワードと各一般用テキストデータベース160−nの各テキストデータとを入力し、認識タスクのキーワードと各一般用テキストデータベース160−nのテキストデータとの関連性の大きさからその一般用テキストデータベース160−nに対する重みwn を決定する。この重みwn は関連性の大きいもの程大きくするが、具体的決定手法は後で説明する。複数の一般用テキストデータベース160−1〜160−Nに重みw1 〜wN をそれぞれ格納し、又は重み記憶部211に格納する。
【0013】
記号連鎖確率生成部220では、重み決定部210が出力した重み付きの複数の一般用テキストデータベース160−1〜160−Nの各テキストデータを入力し、記号連鎖確率(言語モデル)を生成して記号連鎖確率データベース120に格納する。この記号連鎖確率、つまり、ユニグラム、バイグラム、トライグラム、一般的にはMグラム(Mは1以上の整数)の生成の基本的な手法は従来の手法と同様であるが、複数の一般的テキストデータベース160−1〜160−Nを1つのテキストデータベースとして、このテキストデータベースから記号連鎖確率を生成するが、その際に、各記号(単語)について、それが属するテキストデータベースの重みを考慮する。例えば単語Aについて、一般用テキストデータベース160−1〜160−Nにおける各出現回数をC(A)〜C(A)とすると、これらに対し、そのデータベースの重みを乗じて加算し、
C(A)=w1 ・C(A)+w2 ・C(A)+…+wN ・C(A) (1)
を単語Aの出現回数とし、同様にして他の単語の出現回数を求める。単語Aの出現確率(ユニグラム)P(A)は、単語Aの出現回数C(A)をすべての単語の出現回数ΣC(k)で割った。
【0014】
P(A)=C(A)/ΣC(k)               (2)
となり、同様にして他の単語の出現確率を求めて記号連鎖確率データベース120に格納する。
あるいは、例えば単語Aの次に単語Bが生じる確率であるバイグラムの場合、単語Aに続いて単語Bが出現する回数について、一般用テキストデータベース160−1〜160−Nにおける各出現回数をC(A,B)〜C(A,B)とすると、これらについてそれぞれのデータベースの重みを乗じて加算した
C(A,B)=w1 ・C(A,B)+w2 ・C(A,B)+…+wN ・C(A,B)      (3)
を単語連鎖A,Bの出現回数とし、それを単語Aの出現回数C(A)で割った
P(B|A)=C(A,B)/C(A)             (4)
を単語Aの次に単語Bが生じるバイグラム確率として、同様にして他の単語連鎖の確率を求めて記号連鎖確率データベース120に格納してもよい。
【0015】
つまり記号連鎖確率生成部220では例えば、出現回数計数部221で、各データベース160−1〜160−Nにおける各出現回数C(A)〜C(A)(あるいはC(A,B)〜C(A,B))をそれぞれ計数し、これら各出現回数C(A)(あるいはC(A,B))(n=1,…,N)に対応するデータベース160−nの重みwn をそれぞれ重み乗算部222で乗算し、その各乗算結果wn ・C(A)(あるいはwn ・C(A,B))を累積加算部223で累積加算して、C(A)(あるいはC(A,B))を求め、これら累積加算値はバッファ部224に一時格納され、加算部225ですべての単位についての累積加算値C(k)(k=A,B,…)を加算して、すべての単語の出現回数ΣC(k)を求める。
【0016】
出現確率計算部226で各単語についての式(2)や各単語連鎖についての式(4)をそれぞれ計算する。
次に、認識タスク用記号連鎖確率生成部140中の重み決定部210における処理手順を説明する。例えば、認識タスク用キーワードリスト150に含まれるキーワードの集合がKWで、認識タスク用キーワードリスト150中におけるキーワードAの出現確率がP(A)で、一般用テキストデータベース160−nにおける単語Aの出現確率(ユニグラム)がP(A)、そのデータベース160−nのすべての単語数がΣ(k)のとき、
【0017】
【数1】

Figure 2004053745
【0018】
を最大とするようなw=w1 ,w2 ,…,wN を最尤推定により求める。キーワードの集合KWのキーワードの数を|KW|とするとキーワードAの出現確率P(A)=1/|KW|となり、認識用タスク用キーワードリスト15中のすべてのキーワードのそれぞれの出現確率は1/|KW|となる。
以上の説明より、重み決定部210は出現回数計数部212で各データベース160−nにおける各単語k(k=A,B,…)の数が計数C(k)が計数され、これがバッファ部213に格納され、すべてのデータベース160−1〜160−Nにおけるすべての単語の出現回数C(k)の計数が終了すると、最尤推定部214で式(5)を最大にする重みw1 ,w2 ,…,wN が最尤推定法により推定される。最尤推定部214には1/|KW|も入力されている。なお出現回数計数部212では各単語kの各データベースごとの出現回数C(k)を計数しているためこの計数結果を、記号連鎖確率生成部220内の出現回数計数部221でのC(k)の計数に利用できる。
【0019】
以上述べたようにこの実施例では、認識タスク用キーワードリスト150と各一般用データベース160−1〜160−Nとの関連性を求めて、各データベース160−1〜160−Nの重みw1 〜wN を求めているため認識タスク用テキストデータベースと一般用データベースとの関連性を求める場合より、キーワードとの関連性が直接的になり、従来技術より関連性をより正確に求めることができ、それだけ認識率を高めることが可能となる。しかも認識タスク用キーワードリスト150の作成は、認識タスク用テキストデータベースを作成する場合と比較して頗る簡単であり、それだけ言語モデルを簡単に作成できることになる。
【0020】
なお、認識タスク用のテキストデータベースが利用可能の場合には、認識タスク用のテキストデータベースを一般用テキストデータベース160−1〜160−Nに含め、認識タスク用キーワードリスト150および認識タスク用のテキストデータベースに含まれる単語の集合をKWとすることで、上記L(w)を最大とするようなw=w1 ,w2 ,…,wN を最尤推定により求めてもよい。この場合は各キーワードkの出現確率P(k)がキーワードにより異なってくる場合が多い。この場合も認識タスク用キーワードリストと各テキストデータベースとの関連性を求めているため、従来よりも正確に重みを決定できる。
【0021】
上述の重みw=w1 ,w2 ,…,wN の推定において、キーワードの代わりにキーワードの属性(クラス)を用いてもよい。例えば、キーワードリスト内の「東京」「神奈川」「大阪」…という単語の属性を「都道府県名」と定義しておき、一般用テキストデータベース160−1〜160−Nに出現する「都道府県名」属性の単語の出現回数について、上述の方法で重みを推定してもよい。このようにすれば、例えばキーワードとして「横須賀」があるが、データベース160−1〜160−N中に単語「横須賀」がないものがあると、そのデータベースが有効に利用できなくなる可能性があるが、属性により重みを推定すればそのようなおそれはなくなる。
【0022】
また、認識タスクと関連性の低いデータを排除する(重みを0とする)ことにより、保持する情報を削減して、記号連鎖確率(言語モデル)を格納する記号連鎖確率データベース120の記憶容量を小さくすることができる。
上述した言語モデルの生成及び音声認識はコンピュータによりプログラムを実行させて行うこともできる。例えば図3に示すように各部がバス370に接続され、メモリ340に言語モデル生成プログラムがCD−ROM、ハードディスクなどからあるいは通信回線を介してインストールされてあり、CPU360がこの言語モデル生成プログラムを実行することにより、認識タスク用キーワードリスト150、一般用テキストデータベース160−1〜160−Nを用いて、重みw=w1 ,w2 ,…,wN を上述の方法で求め、その後、重みw=w1 ,w2 ,…,wN を用いて一般用テキストデータベース160−1〜160−Nの単語について記号連鎖確率(言語モデル)を生成して記号連鎖確率データベース120に格納する。
【0023】
その後、音声認識を行うが、メモリ350に音声認識プログラムを前述と同様にインストールしておき、入力部310に音声が入力されると、CPU360が音声認識プログラムを実行し、記号連鎖確率データベース120、音声標準パタンデータベース130を参照して音声認識を行い、その結果の記号列を出力部330から出力する。なお入力部310で入力される音声は例えば線形予測分析されたLPCケプストラム、LPCデルタケプストラム、対数パワーなどの特徴パラメータのベクトルデータ時系列とされたものである。記憶部320は言語モデル生成や、音声認識時に一時にデータを記憶するためなどに用いられる。
【0024】
なおこの発明の言語モデル生成方法は音声認識に利用する場合に限らず、手書文字データの認識にも利用できる。
【0025】
【発明の効果】
以上述べたようにこの発明によれば下記の効果を得ることができる。
一般の大規模データベース群から、認識タスク用キーワードリストに関連したデータに重み付けをすることにより、より正確に関連性と対応した重みを求めることができ、それだけ言語モデルも正しいものとなる。
特に認識タスクに関するテキストデータを用いずに、認識タスクに対して高精度な記号連鎖確率を生成することができ、認識タスクのテキストデータベースが存在しない場合にこれを作る必要がなく、それだけ簡単に言語モデルを作ることができる。
【0026】
重み付けの際に、認識タスク用キーワードリストに対して関連性(類似度)の低いデータに対する重みを0にすれば、高精度かつ記憶容量の小さい記号連鎖確率を生成することができる。
【図面の簡単な説明】
【図1】この発明の言語モデル生成方法を用いた音声認識方法が適用される装置の機能構成例を示すブロック図。
【図2】この発明の言語モデル(記号連鎖確率)生成方法が適用される言語モデル生成装置の機能構成例を示すブロック図。
【図3】この発明による言語モデル生成方法、これを用いる音声認識方法をコンピュータにより実行される場合の機能構成例を示す図。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention is used in a speech recognition method for recognizing a speech such as a sentence uttered by a human as an input signal, recognizing the speech using an acoustic model and a symbol chain probability (language model), and outputting the result as a symbol string. The present invention relates to a method, an apparatus and a program for generating the language model.
[0002]
[Prior art]
When converting a speech input into a symbol string (word string) by speech recognition, a symbol chain probability (language model) related to a symbol (word) occurrence chain is generated from a large-scale text database, and is used to perform speech recognition. Techniques for improving performance are conventionally known. However, the effectiveness was low when the recognition task (speech content) was different from the task of the large-scale text database used to generate the symbol chain probability.
Therefore, in order to solve such a problem, as shown in Japanese Patent Application Laid-Open No. H04-291399, a large-scale text database is generated by using a learning symbol chain probability created from a text database similar to a recognition task. Conventionally, there has been proposed a technique of adapting the symbol chain probability and performing speech recognition using the adapted symbol chain probability.
[0003]
Further, as disclosed in Japanese Patent Application Laid-Open No. 2002-82690, based on a text database relating to a recognition task, each data in a large-scale text database is given a weight in accordance with the degree of association with the recognition task to perform symbol chaining. A technique has been proposed in which a probability is created and speech recognition is performed using the created symbol chain probability.
[0004]
[Problems to be solved by the invention]
The conventional technique using the text database relating to the recognition task described above can realize higher recognition performance than the technique using only the symbol chain probability generated from a large-scale text database. It is another object of the present invention to provide a language model generation method capable of realizing higher recognition performance, an apparatus thereof, and a program.
Further, the conventional method has a problem that it cannot be used when a text database relating to the recognition task cannot be prepared (there is no existing one). For example, when constructing a voice response system for a weather forecast inquiry, text data relating to various query sentences related to the weather forecast inquiry voice (recognition task) is created or collected to create a recognition task text database. If the recognition task is new, creating the recognition task text database can be a daunting task.
[0005]
Accordingly, a second object of the present invention is to generate a symbol chain probability using a plurality of general (existing) text databases without using a text database relating to the recognition task, and to use the generated symbol chain probability for recognition. It is an object of the present invention to provide a language model generation method, apparatus and program capable of performing high-precision recognition on a language model.
[0006]
[Means for Solving the Problems]
According to the language model generation method of the present invention, a keyword list for a recognition task storing keywords relating to a task (speech content) to be recognized is prepared, and a plurality of text databases (hereinafter, a general text database) having different recognition targets are prepared. Using the keyword list and calculating the weight indicating the relevance (similarity) of each general text database to the keyword list for the recognition task, and using the general text database, to which the symbol (word) of interest belongs. The symbol chain probability is generated by giving the weight of the database. The general text database may not be directly related to the recognition target task.
[0007]
In order to obtain the weight of each general text database, for example, the relevance (similarity) of the text data of each general text database is verified based on information obtained from the recognition task keyword list, and the recognition task keyword list is obtained. A large weight is given to a general-purpose text database having a high relation with. In order to verify the association (similarity) between the recognition task keyword list and the general text data beta, for example, for each general text database, the appearance probability of the keyword in the recognition task keyword list or the keyword in the recognition task keyword list Is used to determine the occurrence probability of a word having the same attribute as that of the attribute.
[0008]
According to the language model generating apparatus of the present invention, a keyword list for a recognition task in which keywords relating to a task to be recognized are stored, and a plurality of general text data in which not only the task to be recognized but also various tasks are stored. A general-purpose text database, a weight determining unit that calculates a weight indicating the association of each of the general-purpose text databases with the recognition target task, and a symbol (word) of interest is input; A symbol chain probability generation unit that calculates the appearance frequency of the symbol string by giving the weight indicating the association to each database to generate a symbol chain probability (language model).
[0009]
Preferably, the weight determination unit adds the appearance frequency of the keyword in each general text database for each keyword in the keyword list for the recognition task, with respect to all text databases, with a weight. The weight is calculated using maximum likelihood estimation so that the value obtained by multiplying by the appearance probability becomes the maximum. Alternatively, the weight determination unit may add the appearance frequency of the attribute (class) in each general-purpose text database with respect to the attribute (class) of each keyword in the keyword list for the recognition task with weight for all text databases, and The weight is calculated using the maximum likelihood estimation so that the value obtained by multiplying the attribute (class) of the keyword by the appearance probability in the keyword list becomes the maximum.
[0010]
BEST MODE FOR CARRYING OUT THE INVENTION
Embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 shows a configuration example of a speech recognition apparatus using a language model generated according to the present invention.
A speech recognition unit 110, a symbol chain probability (language model) database 120, a speech standard pattern database 130, a symbol chain probability generation unit 140 for a recognition task, a keyword list 150 for a recognition task, and a plurality of general text databases 160 -1 to 160-N.
The voice standard pattern database 130 holds a plurality of voice standard patterns that have been analyzed in advance. The keyword list 150 for the recognition task includes keywords related to the recognition target task (speech content). If the recognition target task is a restaurant search, for example, keywords "Japan", "France", "Chinese", ..., "Shinjuku", "Yokohama", and "Urawa" included in an utterance sentence sent to a restaurant search system using voice recognition technology Are stored in the recognition task keyword list 150 in a computer-readable manner. As the general text databases 160-1 to 160-N, existing ones such as a newspaper article database, a novel database, an utterance text database for a weather forecast inquiry system, and an utterance text database for a stock price inquiry system are used. One general text database 160-n (n = 1, 2,..., N) may be configured, or one general text database 160-n (n = 1, 2,...) For each utterance text. , N). In these general text databases 160-1 to 160-N, the text data is stored in a storage unit as it is or with a word delimiter so as to be readable by a computer.
[0011]
The recognition task symbol chain probability generation section 140 executes the symbol chain probability (language model) generation method according to the present invention, and performs a recognition task keyword list 150 and a general text database 160 prior to recognition processing. -1 to 160-N, a greater weight is given to the general-purpose text database including text data highly relevant to the recognition task, and the recognition task keyword list and the general-purpose text database are used to assign a weight to the recognition task. A symbol chain probability (language model) that can be narrowed down with high accuracy is generated and stored in the symbol chain probability database 120 in a computer-readable manner. The speech recognition unit 110 narrows down symbol string candidates for input speech based on information obtained from the symbol chain probability of the symbol chain probability database 120 and the voice standard pattern of the voice standard pattern database 130, and based on the recognition result. Output a symbol string. Usually, recognition candidates for phonemes, words, and the like are first obtained by using a speech standard pattern, and those that can obtain the greatest probability for these candidates using a language model are used as a recognition symbol string.
[0012]
FIG. 2 shows a configuration example of the symbol chain probability generating unit 140 for a recognition task. With reference to FIG. 2, an embodiment of a method for generating a language model, that is, a symbol chain probability according to the present invention and an apparatus therefor will be described. The weight determining unit 210 inputs the keyword in the recognition task keyword list 150 and each text data of each general text database 160-n, and inputs the keyword of the recognition task and the text data of each general text database 160-n. The weight wn for the general-purpose text database 160- n is determined from the magnitude of the relevance of. This weight w n is greater as greater relevance, but specific determination method will be described later. The weights w 1 to w N are stored in the plurality of general text databases 160-1 to 160 -N , respectively, or stored in the weight storage unit 211.
[0013]
The symbol chain probability generation unit 220 inputs each of the weighted text data of the general text databases 160-1 to 160-N output by the weight determination unit 210, and generates a symbol chain probability (language model). It is stored in the symbol chain probability database 120. The basic method of generating this symbol chain probability, that is, a unigram, a bigram, a trigram, and generally an M-gram (M is an integer of 1 or more) is the same as the conventional method, but includes a plurality of general texts. Using the databases 160-1 to 160-N as one text database, the symbol chain probability is generated from this text database. At this time, for each symbol (word), the weight of the text database to which it belongs is considered. For example, assuming that the number of appearances of the word A in the general text databases 160-1 to 160-N is C 1 (A) to C N (A), these are multiplied by the weight of the database and added.
C (A) = w 1 · C 1 (A) + w 2 · C 2 (A) +... + W N · C N (A) (1)
Is the number of appearances of the word A, and the number of appearances of another word is obtained in the same manner. The appearance probability (unigram) P (A) of the word A was obtained by dividing the number of appearances C (A) of the word A by the number of occurrences of all words Σ k C (k).
[0014]
P (A) = C (A) / Σ k C (k) (2)
Similarly, the appearance probabilities of other words are obtained and stored in the symbol chain probability database 120.
Alternatively, for example, in the case of a bigram in which the probability that the word B occurs after the word A, the number of appearances of the word B following the word A is expressed as C 1 in the general text databases 160-1 to 160-N. Assuming that (A, B) to C N (A, B), C (A, B) = w 1 · C 1 (A, B) + w 2 · C 2 (A, B) + ... + w N · C N (A, B) (3)
Is the number of appearances of the word chains A and B, and P (B | A) = C (A, B) / C (A) obtained by dividing the number of occurrences of the word A by the number of appearances C (A) (4)
May be determined as the bigram probability that the word B follows the word A, and the probability of another word chain may be obtained in the same manner and stored in the symbol chain probability database 120.
[0015]
In other words symbolic chain probability generation unit 220 for example, the appearance number counting unit 221 in each occurrence count C 1 in each database 160-1~160-N (A) ~C N (A) ( or C 1 (A, B) C C N (A, B)), and counts the number of appearances C n (A) (or C n (A, B)) (n = 1,..., N) in the database 160-n. The weights w n are respectively multiplied by a weight multiplying unit 222, and the respective multiplication results w n · C n (A) (or w n · C n (A, B)) are cumulatively added by a cumulative adding unit 223 to obtain C (A) (or C (A, B)) is obtained, and these cumulative addition values are temporarily stored in the buffer unit 224, and the addition unit 225 stores the cumulative addition values C (k) (k = A, B) for all units. , ...), and the number of occurrences of all words ΣC (k) Mel.
[0016]
The appearance probability calculation unit 226 calculates Expression (2) for each word and Expression (4) for each word chain.
Next, the processing procedure in the weight determination unit 210 in the recognition task symbol chain probability generation unit 140 will be described. For example, the set of keywords included in the recognition task keyword list 150 is KW, the appearance probability of the keyword A in the recognition task keyword list 150 is P t (A), and the keyword A in the general text database 160-n is When the appearance probability (unigram) is P n (A) and the number of all words in the database 160-n is k k C n (k),
[0017]
(Equation 1)
Figure 2004053745
[0018]
The w = w 1 as the maximum, w 2, ..., obtained by the maximum likelihood estimate w N. If the number of keywords in the keyword set KW is | KW |, the appearance probability Pt (A) = 1 / | KW | of the keyword A is obtained, and the appearance probability of each keyword in the recognition task keyword list 15 is 1 / | KW |.
From the above description, the weight determining unit 210 each word k advent number counting unit 212 in the database 160-n (k = A, B, ...) the number of the counted count C n (k), which is a buffer unit When the counting of the number of appearances C n (k) of all the words in all the databases 160-1 to 160 -N is completed, the maximum likelihood estimating unit 214 weights w 1 to maximize the expression (5). , W 2 ,..., W N are estimated by the maximum likelihood estimation method. 1 / | KW | is also input to the maximum likelihood estimating unit 214. Since the occurrence count unit 212 counts the number of appearances C n (k) of each word k for each database, the result of this count is used as the value of C n in the occurrence count unit 221 in the symbol chain probability generation unit 220. It can be used for counting (k).
[0019]
Above mentioned In this embodiment, as to seek the relationship between recognition task keyword list 150 and the general database 160 - 1 to 160-N, weights w 1 ~ in each database 160 - 1 to 160-N than the case of obtaining the relationship between text database and the general database for recognition tasks for seeking w N, become directly relevant to the keyword, it is possible to obtain the relevant prior art more precisely, The recognition rate can be increased accordingly. Moreover, the creation of the recognition task keyword list 150 is extremely simple compared to the case of creating a recognition task text database, and the language model can be easily created accordingly.
[0020]
If the text database for the recognition task is available, the text database for the recognition task is included in the general text databases 160-1 to 160-N, and the keyword list 150 for the recognition task and the text database for the recognition task are included. the set of words contained in it to KW, the L w = w 1 such that the maximum (w), w 2, ... , may be determined by maximum likelihood estimate w N. In this case, the appearance probability P t (k) of each keyword k often differs depending on the keyword. Also in this case, since the relevance between the recognition task keyword list and each text database is required, the weight can be determined more accurately than in the past.
[0021]
In the above estimation of the weights w = w 1 , w 2 ,..., W N , a keyword attribute (class) may be used instead of the keyword. For example, the attribute of the words "Tokyo", "Kanagawa", "Osaka" ... in the keyword list is defined as "prefecture name", and the "prefecture name" appearing in the general text databases 160-1 to 160-N is defined. The weight may be estimated for the number of occurrences of the word having the attribute "" by the method described above. In this way, for example, there is a keyword “Yokosuka” as a keyword, but if there is no word “Yokosuka” in the databases 160-1 to 160-N, the database may not be able to be used effectively. Estimating the weight based on the attribute eliminates such a fear.
[0022]
Also, by eliminating data having low relevance to the recognition task (by setting the weight to 0), the information to be held is reduced, and the storage capacity of the symbol chain probability database 120 for storing the symbol chain probability (language model) is reduced. Can be smaller.
The above-described generation of the language model and speech recognition can be performed by executing a program by a computer. For example, as shown in FIG. 3, each unit is connected to a bus 370, a language model generation program is installed in a memory 340 from a CD-ROM, a hard disk, or the like, or via a communication line, and the CPU 360 executes the language model generation program. by recognition task keyword list 150 using general text database 160 - 1 to 160-N, weights w = w 1, w 2, ..., seek w N in the manner described above, then the weight w = W 1 , w 2 ,..., W N to generate symbol chain probabilities (language models) for words in the general text databases 160-1 to 160 -N, and store them in the symbol chain probability database 120.
[0023]
After that, the voice recognition is performed. The voice recognition program is installed in the memory 350 in the same manner as described above, and when a voice is input to the input unit 310, the CPU 360 executes the voice recognition program and the symbol chain probability database 120, Voice recognition is performed with reference to the voice standard pattern database 130, and the resulting symbol string is output from the output unit 330. The speech input by the input unit 310 is, for example, a vector data time series of feature parameters such as an LPC cepstrum, an LPC delta cepstrum, and a logarithmic power that have been subjected to linear prediction analysis. The storage unit 320 is used for generating a language model and temporarily storing data during speech recognition.
[0024]
The language model generation method of the present invention is not limited to the case where the method is used for speech recognition, but can also be used for recognition of handwritten character data.
[0025]
【The invention's effect】
As described above, according to the present invention, the following effects can be obtained.
By weighting the data related to the keyword list for the recognition task from a general large-scale database group, it is possible to more accurately obtain the weight corresponding to the relevance, and the language model becomes correct accordingly.
In particular, it is possible to generate a highly accurate symbol chain probability for a recognition task without using text data related to the recognition task, and there is no need to create this when a text database for the recognition task does not exist. You can make a model.
[0026]
At the time of weighting, if the weight for data having low relevance (similarity) with respect to the keyword list for the recognition task is set to 0, a highly accurate symbol chain probability with a small storage capacity can be generated.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a functional configuration example of an apparatus to which a speech recognition method using a language model generation method of the present invention is applied.
FIG. 2 is a block diagram showing a functional configuration example of a language model generation device to which a language model (symbol chain probability) generation method of the present invention is applied.
FIG. 3 is a diagram showing an example of a functional configuration when a computer executes a language model generation method according to the present invention and a speech recognition method using the same.

Claims (9)

認識対象のタスクに関するキーワードを格納した認識タスク用キーワードリストと、互いに異なる種類のテキストデータをそれぞれ格納した複数のテキストデータベース(以下、一般用テキストデータベースという)とを用い、
上記認識対象タスクに対する上記各一般用テキストデータベースの関連を示す重みを求め、
上記複数の一般的なテキストデータベースを用いて、注目する記号(単語)についてそれを含むテキストデータが格納されているデータベースの上記関連を示す重みを与えて、記号および記号列の出現頻度を計算して記号連鎖確率(言語モデル)を生成することを特徴とする言語モデル生成方法。
Using a recognition task keyword list that stores keywords related to the recognition target task, and a plurality of text databases (hereinafter, general text databases) each storing different types of text data,
Find a weight indicating the association of each of the general text database to the recognition target task,
Using the plurality of general text databases, a weight indicating the association of the database in which the text data including the symbol (word) of interest is stored is given, and the appearance frequency of the symbol and the symbol string is calculated. And generating a symbol chain probability (language model).
上記認識タスク用キーワードリストから得られる情報に基づいて、各一般用テキストデータベースのテキストデータの関連性を検証し、認識タスク用キーワードリストとの関連性の大きい一般用テキストデータベースに大きな重みを与えることを特徴とする請求項1記載の言語モデル生成方法。Verifying the relevance of the text data of each general text database based on the information obtained from the recognition task keyword list, and giving a large weight to the general text database having a high relevance to the recognition task keyword list The language model generation method according to claim 1, wherein: 上記関連性の検証には、各一般用テキストデータベースについて認識タスク用キーワードリストのキーワードの出現頻度を求め、この出現頻度をすべての一般用テキストデータベースについて、重み付きで加算し、すべてのキーワードについてキーワードリストにおける出現確率を乗じて加算した値が最大となるように最尤推定を用いて、上記重みを計算することを特徴とする請求項2記載の言語モデル生成方法。In order to verify the relevancy, the frequency of occurrence of the keyword in the keyword list for the recognition task is calculated for each general text database, and this frequency is added with weight for all general text databases, and the keyword is calculated for all keywords. 3. The language model generation method according to claim 2, wherein the weight is calculated using maximum likelihood estimation so that the value obtained by multiplying by the appearance probability in the list is maximized. 上記関連性の検証には、各一般用テキストデータベースについて認識タスク用キーワードリストのキーワードの属性(クラス)の出現頻度を求め、この出現頻度をすべての一般用テキストデータベースについて、重み付きで加算し、すべてのキーワードの属性(クラス)についてキーワードリストにおける出現確率を乗じて加算した値が最大となるように最尤推定を用いて、上記重みを計算することを特徴とする請求項2記載の言語モデル生成方法。In order to verify the relevance, the frequency of appearance of the attribute (class) of the keyword in the keyword list for the recognition task is obtained for each general text database, and this frequency is added with weight for all general text databases, 3. The language model according to claim 2, wherein the weight is calculated using maximum likelihood estimation so that a value obtained by multiplying the appearance probabilities in the keyword list for all the attributes (classes) of all keywords is maximized. Generation method. 上記複数の各一般用テキストデータベースは上記認識対象タスクと直接関係しないテキストデータが格納されていることを特徴とする請求項1〜4の何れかに記載の言語モデル生成方法。5. The language model generation method according to claim 1, wherein each of the plurality of general text databases stores text data that is not directly related to the recognition target task. 認識対象のタスクに関するキーワードが格納された認識タスク用キーワードリストと、
上記認識対象タスクと直接関係しない一般的なテキストデータが格納された複数の一般用テキストデータベースと、
上記認識対象タスクに対する上記各一般用テキストデータベースの関連を示す重みを求める重み決定部と、
注目する記号(単語)が入力され、上記複数の一般的なテキストデータベースにおける記号および記号列の出現頻度を、各データベースに上記関連を示す重みを与えて計算して記号連鎖確率(言語モデル)を生成する記号連鎖確率生成部とを具備する言語モデル生成装置。
A recognition task keyword list in which keywords related to the recognition target task are stored,
A plurality of general text databases storing general text data not directly related to the recognition target task;
A weight determining unit for determining a weight indicating the association of each of the general text databases with respect to the recognition target task,
The symbol (word) of interest is input, and the frequency of appearance of the symbols and symbol strings in the plurality of general text databases is calculated by giving each database a weight indicating the association, and the symbol chain probability (language model) is calculated. A language model generating apparatus, comprising: a symbol chain probability generating unit that generates the symbol chain probability.
上記重み決定部は、上記認識タスク用キーワードリストの各キーワードについて各一般用テキストデータベースにおけるそのキーワードの出現頻度を、すべてのテキストデータベースについて、重み付きで加算し、すべてのキーワードについてキーワードリストにおける出現確率を乗じて加算した値が最大となるように最尤推定を用いて、上記重みを計算する手段であることを特徴とする請求項6記載の言語モデル生成装置。The weight determination unit adds, for each of the keywords in the keyword list for the recognition task, the appearance frequency of the keyword in each of the general text databases with weights for all of the text databases, and for each of the keywords, the appearance probability in the keyword list. 7. The language model generation apparatus according to claim 6, wherein the weight is calculated by using maximum likelihood estimation so that a value obtained by multiplying by the maximum is maximum. 上記重み決定部は、上記認識タスク用キーワードリストの各キーワードの属性(クラス)について各一般用テキストデータベースにおけるその属性(クラス)の出現頻度を、すべてのテキストデータベースについて重み付きで加算し、すべてのキーワードの属性(クラス)についてキーワードリストにおける出現確率を乗じて加算した値が最大となるように最尤推定を用いて上記重みを計算する手段であることを特徴とする請求項6記載の言語モデル生成装置。The weight determination unit adds, with weights, the appearance frequencies of the attributes (classes) in the general-purpose text databases for the attributes (classes) of the respective keywords in the keyword list for the recognition task, with respect to all the text databases. 7. The language model according to claim 6, wherein said weight is calculated by using maximum likelihood estimation so that a value obtained by multiplying an attribute (class) of a keyword by an appearance probability in a keyword list is maximized. Generator. 請求項1乃至5の何れかに記載の言語モデル生成方法の各手順をコンピュータに実行させるためのプログラム。A program for causing a computer to execute each procedure of the language model generation method according to claim 1.
JP2002208433A 2002-07-17 2002-07-17 Language model generation method, apparatus thereof, and program thereof Expired - Lifetime JP3913626B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002208433A JP3913626B2 (en) 2002-07-17 2002-07-17 Language model generation method, apparatus thereof, and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002208433A JP3913626B2 (en) 2002-07-17 2002-07-17 Language model generation method, apparatus thereof, and program thereof

Publications (2)

Publication Number Publication Date
JP2004053745A true JP2004053745A (en) 2004-02-19
JP3913626B2 JP3913626B2 (en) 2007-05-09

Family

ID=31932579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002208433A Expired - Lifetime JP3913626B2 (en) 2002-07-17 2002-07-17 Language model generation method, apparatus thereof, and program thereof

Country Status (1)

Country Link
JP (1) JP3913626B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005122143A1 (en) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. Speech recognition device and speech recognition method
WO2007108500A1 (en) * 2006-03-23 2007-09-27 Nec Corporation Speech recognition system, speech recognition method, and speech recognition program
JP2011048405A (en) * 2010-12-10 2011-03-10 Nippon Hoso Kyokai <Nhk> Speech recognition device and speech recognition program
JP2013137458A (en) * 2011-12-28 2013-07-11 Toyota Motor Corp Speech recognition device, method and program
US11841673B2 (en) 2006-01-11 2023-12-12 Canon Kabushiki Kaisha Process cartridge and image forming apparatus

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005122143A1 (en) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. Speech recognition device and speech recognition method
US7310601B2 (en) 2004-06-08 2007-12-18 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus and speech recognition method
US11841673B2 (en) 2006-01-11 2023-12-12 Canon Kabushiki Kaisha Process cartridge and image forming apparatus
WO2007108500A1 (en) * 2006-03-23 2007-09-27 Nec Corporation Speech recognition system, speech recognition method, and speech recognition program
US8781837B2 (en) 2006-03-23 2014-07-15 Nec Corporation Speech recognition system and method for plural applications
JP2011048405A (en) * 2010-12-10 2011-03-10 Nippon Hoso Kyokai <Nhk> Speech recognition device and speech recognition program
JP2013137458A (en) * 2011-12-28 2013-07-11 Toyota Motor Corp Speech recognition device, method and program

Also Published As

Publication number Publication date
JP3913626B2 (en) 2007-05-09

Similar Documents

Publication Publication Date Title
JP5541035B2 (en) Voice search apparatus and voice search method
EP2727103B1 (en) Speech recognition using variable-length context
US9336771B2 (en) Speech recognition using non-parametric models
JP4664423B2 (en) How to find relevant information
CN108831445A (en) Sichuan dialect recognition methods, acoustic training model method, device and equipment
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
CN107180084B (en) Word bank updating method and device
JP2004005600A (en) Method and system for indexing and retrieving document stored in database
JP2004133880A (en) Method for constructing dynamic vocabulary for speech recognizer used in database for indexed document
CN111145733B (en) Speech recognition method, speech recognition device, computer equipment and computer readable storage medium
CN102246169A (en) Assigning an indexing weight to a search term
CN111462748B (en) Speech recognition processing method and device, electronic equipment and storage medium
US20080147399A1 (en) Voice based keyword search algorithm
US10573311B1 (en) Generating self-support metrics based on paralinguistic information
CN105551485A (en) Audio file retrieval method and system
WO2017184387A1 (en) Hierarchical speech recognition decoder
JP4289715B2 (en) Speech recognition apparatus, speech recognition method, and tree structure dictionary creation method used in the method
JP7400112B2 (en) Biasing alphanumeric strings for automatic speech recognition
Gandhe et al. Using web text to improve keyword spotting in speech
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
Liu et al. Low-resource open vocabulary keyword search using point process models
JP3913626B2 (en) Language model generation method, apparatus thereof, and program thereof
US11893344B2 (en) Morpheme analysis learning device, morpheme analysis device, method, and program
JP3628245B2 (en) Language model generation method, speech recognition method, and program recording medium thereof
JP2000259645A (en) Speech processor and speech data retrieval device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040227

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060419

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070131

R150 Certificate of patent or registration of utility model

Ref document number: 3913626

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110209

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110209

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120209

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130209

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term