JP2004117647A - クラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラム - Google Patents

クラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラム Download PDF

Info

Publication number
JP2004117647A
JP2004117647A JP2002278926A JP2002278926A JP2004117647A JP 2004117647 A JP2004117647 A JP 2004117647A JP 2002278926 A JP2002278926 A JP 2002278926A JP 2002278926 A JP2002278926 A JP 2002278926A JP 2004117647 A JP2004117647 A JP 2004117647A
Authority
JP
Japan
Prior art keywords
class
word
language model
entry
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002278926A
Other languages
English (en)
Inventor
Takeshi Kobayakawa
小早川 健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2002278926A priority Critical patent/JP2004117647A/ja
Publication of JP2004117647A publication Critical patent/JP2004117647A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】すでに存在する言語モデルを用いて、単語の出現頻度や接続頻度を再度学習することなしに、短時間でクラス言語モデルを生成することを可能にしたクラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラムを提供する。
【解決手段】クラス言語モデル生成装置1は、N−gram言語モデル2aと、単語集合3aとに基づいて、単語集合3a内の単語を、その単語を用いた単語列及びその接続確率値からなるクラスエントリに展開するN−gram展開手段10と、そのクラスエントリの中で重複した単語列を持つクラスエントリを1つのエントリにまとめることで、クラスN−gram言語モデル4aを生成するN−gram加算整列手段30とを備えたことを特徴とする。
【選択図】   図1

Description

【0001】
【発明の属する技術分野】
本発明は、単語の接続について確率値を使って表現する言語モデルから、新出単語の接続確率値を推定するためのクラス言語モデルを生成するクラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラムに関する。
【0002】
【従来の技術】
従来、音声認識装置等で用いられる、単語を配列した単語列に対して、その単語の接続確率値を与える言語モデルとして、N−gramを用いた言語モデル(N−gram言語モデル)が知られている。
このN−gram言語モデルは、入力される単語の列(単語列)w,w,…,wに対して、その単語の接続確率値P(w,w,…,w)を(1)式のように条件付き確率により算出し生成するモデルであり、単語列w,w,…,wと接続確率値P(w,w,…,w)とからなるエントリの集合である。
【0003】
【数1】
Figure 2004117647
【0004】
すなわち、N−gram言語モデルでは、i番目の単語wの生成確率が、(N−1)単語列wi−N+1,…,wi−2,wi−1に依存する。例えば、3−gram(N=3:トライグラム)を例にとると、単語列w,wに続いて単語wが出現する確率はP(w|w,w)と表される。
【0005】
このようなN−gram言語モデルに対しては、学習されていない新出単語の接続をどのように推定するかが問題となる。その問題に対する最も一般的な方法としては、予め単語を品詞や意味を用いて特定のクラスに分類しておき、新出単語の接続確率値を、その新出単語が属するクラスの他の単語の接続確率値から推定して生成した言語モデル(クラス言語モデル)を用いる方法が提案されている(例えば、非特許文献1参照)。
【0006】
ここで、図7を参照して、クラス言語モデルの概念について説明する。図7(a)は、単語を特定のクラスに分類(クラス分け)した状態を表している。図7(a)に示したように、クラス言語モデルでは、予め共通の特性を有する単語を同一のクラスとして分類しておく。ここでは、スポーツ番組の中継内容を音声認識するために用いる言語モデルを生成することとして、選手名(選手名クラスC)、解説者名(解説者クラスC)、国名(国名クラスC)等のクラスに単語をクラス分けしておく。
【0007】
また、図7(b)は、図7(a)でクラス分けされた単語に含まれていない新出単語の接続確率値をどのように推定するかを模式的に表した図である。図7(b)に示したように、すでに既知の単語である「稲本」及び「から」の接続確率値P(から|稲本)がpである場合、「カーン」という新出単語が出現したときの「カーン」に対する接続確率値P(から|カーン)は、推定前では0に近い(一般に言語モデルにおける接続確率値には0を設定しない)。
【0008】
ここで、「カーン」を選手名クラスCに属するものとすると、「カーン」は、「稲本」と同一のクラスに属することになる。そこで、接続確率値P(から|カーン)は、接続確率値P(から|稲本)と同じpであると推定する。
このように、クラス言語モデルでは、単語をクラス分けすることで、新出単語の接続確率値を推定することを可能にしている。
【0009】
ここで、図8を参照して、従来のクラス言語モデルの生成方法について説明する。図8は、従来のクラス言語モデルの生成方法の一例を示すフローチャートである。図8に示すように、従来のクラス言語モデルの生成方法は、まず、クラス言語モデルを生成する元となるテキストデータ(学習テキストT)を形態素解析することで、学習テキストTを単語に分割する(S21)。
【0010】
このS21で分割された各単語のうち、共通の特性を有する単語を同一のクラスとしてクラス分けし、そのクラスに属する単語をクラスに付したクラス識別子に置換する(S22)。なお、特にクラス分けを要しない単語は、そのまま保持される。
【0011】
そして、クラス化されていない単語及びクラス識別子の出現頻度及び接続頻度を求め(学習)(S23)、その単語及びクラス識別子の接続確率値を算出する(S24)。そして、クラス識別子をそのクラス識別子のクラスで分類されている単語に展開することで、クラス識別子を単語に置換し(S25)、クラス言語モデルMを生成する。
【0012】
このように、従来のクラス言語モデルの生成方法は、単語をクラス化して、そのクラスに基づいて言語モデルを生成するため、学習テキストに含まれていない(学習されていない)新出単語についても、その新出単語をクラスに対応させることで容易に接続確率値を推定した言語モデルを生成することができる。
【0013】
【非特許文献1】
P.F.Brown他,「Class−Based n−gram
Models of Natural Language」,
Computational Linguistics,
Vol.18,No.4,p.467−479,1992年
【0014】
【発明が解決しようとする課題】
前記従来の技術におけるクラス言語モデルの生成方法は、クラスに属する単語が変化した場合、例えば、新出単語があるクラスに追加された場合、学習されていない単語であっても、その新出単語の接続確率値を推定した(クラス)言語モデルを生成することができる点においては優れている。
【0015】
しかし、クラスに属する単語が変化して、再度クラス言語モデルを生成するには、従来のクラス言語モデルの生成方法における図8において、S22から再度処理を実行する必要がある。これらの処理(図8におけるS22以降)は多くの演算を行う必要があるため、クラス言語モデルを再構築するには多くの時間を要してしまうという問題があった。
【0016】
本発明は、以上のような問題点に鑑みてなされたものであり、すでに存在する言語モデルを用いて、単語の出現頻度や接続頻度を再度学習することなしに、短時間でクラス言語モデルを生成することを可能にしたクラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラムを提供することを目的とする。
【0017】
【課題を解決するための手段】
本発明は、前記目的を達成するために創案されたものであり、まず、請求項1に記載のクラス言語モデル生成方法は、単語を配列した単語列とその単語の接続確率値とからなるエントリの集合である言語モデルから、予め特定の単語を特定のクラス毎に分類した単語の集合に基づいて、前記クラスに属する単語の接続確率値を同一のクラスに属する単語の接続確率値で推定したクラス言語モデルを生成するクラス言語モデル生成方法であって、前記言語モデルの単語列から、その単語列に含まれる単語をその単語と同じクラスに属するクラス所属単語に置き換えた複数のクラス単語列を生成し、前記言語モデルの接続確率値を前記クラス単語列毎に分配してクラス接続確率値とすることで、前記クラス単語列と前記クラス接続確率値とからなるクラスエントリを生成する言語モデル展開ステップと、この言語モデル展開ステップで生成された前記クラスエントリにおいて、前記クラス単語列が同一となる複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成する言語モデル加算ステップと、を含むことを特徴とする。
【0018】
この方法によれば、クラス言語モデル生成方法は、言語モデル展開ステップにおいて、言語モデルのエントリである単語列に含まれる単語を、その単語を含んだクラスに属するクラス所属単語にそれぞれ置き換えた単語列であるクラス単語列を生成し、接続確率値をクラス単語列毎に分配してクラス接続確率値としたクラスエントリを生成する。ここで、クラスとは、単語の品詞や意味等を用いて、単語を分類するもので、そのクラス及びそのクラスに属する単語は予め定義しておくものとする。ただし、単語列に含まれる単語は、すべてクラスに分類されている必要はない。
【0019】
これにより、1つのエントリから、そのエントリの単語列に含まれる単語を同一のクラスに属する単語に置き換えた複数のエントリ(クラスエントリ)が生成される。また、この生成されたクラスエントリに対して、元のエントリの接続確率値が分配される。ここでは、各クラスエントリの接続確率値であるクラス接続確率値の総和が、元のエントリの接続確率値と等しくなるように分配する。
【0020】
なお、この言語モデル展開ステップでは、エントリの単語列に含まれる単語を、同一のクラスに属する単語に置き換えたクラス単語列を生成するため、他のエントリで生成されたクラスエントリと同一のクラス単語列を持つ複数のクラスエントリが生成されてしまうことになる。
【0021】
そこで、このクラス言語モデル生成方法は、言語モデル加算ステップにおいて、言語モデル展開ステップで生成されたクラスエントリの中で、クラス単語列が同一となる複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成し、クラス言語モデルのエントリとする。これにより、クラス言語モデルのエントリには、重複した単語列を持つエントリがなくなる。
なお、このエントリ及びクラスエントリは、単語列(クラス単語列)とその単語列に含まれる単語の接続確率値(クラス接続確率値)とからN−gramを用いて表現することができる。
【0022】
また、請求項2に記載のクラス言語モデル生成方法は、請求項1に記載のクラス言語モデル生成方法において、前記言語モデル展開ステップが、条件付き確率で表現される前記言語モデルのエントリにおいて、前記条件付き確率の非条件部の単語を前記クラス所属単語に置き換えて前記クラスエントリを生成するときに、その生成されたクラスエントリのクラス接続確率値の総和が、前記エントリの接続確率値と等しくなるように前記接続確率値を分配することを特徴とする。
【0023】
この方法によれば、クラス言語モデル生成方法は、言語モデル展開ステップで、言語モデルのエントリである単語列の中で、条件付き確率で表現された非条件部に含まれる単語を、その単語と同一のクラスに属するクラス所属単語に置き換えて複数のクラスエントリを生成する。そして、クラス言語モデル生成方法は、この1つのエントリから複数のクラスエントリを生成する際に、クラスエントリのクラス接続確率値の総和がエントリの接続確率値と等しくなるように接続確率値を分配する。この分配は、等分に分配してもよいし、単語そのものの出現確率に比例して分配することとしてもよい。
【0024】
これにより、クラス言語モデル生成方法は、言語モデルのエントリから、そのエントリの単語列に含まれる非条件部の単語と同一のクラスに属する単語の接続確率値を推定したクラスエントリを生成することができる。
なお、ここで非条件部とは、言語モデルのエントリを、1つ以上の単語を連結した単語列が出現したあとに、ある単語(特定部分)が出現する出現確率である条件付き確率で表したときの、特定部分の単語を指すこととする。
【0025】
さらに、請求項3に記載のクラス言語モデル生成方法は、請求項1又は請求項2に記載のクラス言語モデル生成方法において、前記言語モデル展開ステップは、条件付き確率で表現される前記言語モデルのエントリにおいて、前記条件付き確率の条件部の単語を前記クラス所属単語に置き換えて前記クラスエントリを生成し、その生成されたクラスエントリのクラス接続確率値には、前記エントリの接続確率値と同じ値を用いることを特徴とする。
【0026】
この方法によれば、クラス言語モデル生成方法は、言語モデル展開ステップで、言語モデルのエントリである単語列の中で、条件付き確率で表現された条件部に含まれる単語を、その単語と同一のクラスに属するクラス所属単語に置き換えてクラスエントリを生成する。そして、クラス言語モデル生成方法は、このクラスエントリのクラス接続確率値として、このクラスエントリを生成したエントリの接続確率値をそのまま用いる。
【0027】
これにより、クラス言語モデル生成方法は、言語モデルのエントリから、そのエントリの単語列に含まれる条件部の単語と同一のクラスに属する単語の接続確率値を推定したクラスエントリを生成することができる。
なお、ここで条件部とは、言語モデルのエントリを、1つ以上の単語を連結した単語列(前提部分)が出現したあとに、ある単語が出現する出現確率である条件付き確率で表したときの、前提部分に登場する単語列を指すこととする。
【0028】
また、請求項4に記載のクラス言語モデル生成方法は、請求項1乃至請求項3のいずれか1項に記載のクラス言語モデル生成方法において、前記単語の集合が、すでに学習されている既知単語の集合である既知単語集合と新出単語の集合である新出単語集合とからなり、前記言語モデル展開ステップにおいて、前記言語モデルの単語列に前記既知単語が含まれている場合に、その既知単語をその既知単語と同じクラスに属する前記新出単語に置き換えて前記クラス単語列を生成することを特徴とする。
【0029】
この方法によれば、クラス言語モデル生成方法は、言語モデル展開ステップにおいて、言語モデルのエントリである単語列に、すでに学習されている既知単語が含まれているときに、その既知単語をその既知単語と同じクラスに属する、まだ学習されていない新出単語に置き換えてクラス単語列を生成する。これにより、クラス言語モデル生成方法は、既知単語の接続確率値から、新出単語の接続確率値を推定することが可能になる。
【0030】
さらに、請求項5に記載のクラス言語モデル生成装置は、単語を配列した単語列とその単語の接続確率値とからなるエントリの集合である言語モデルから、予め特定の単語を特定のクラス毎に分類した単語の集合に基づいて、前記クラスに属する単語の接続確率値を同一のクラスに属する単語の接続確率値で推定したクラス言語モデルを生成するクラス言語モデル生成装置であって、前記言語モデルの単語列に含まれる単語が、前記単語の集合に属するかどうかを判定する単語所属判定手段と、この単語所属判定手段の判定結果に基づいて、前記言語モデルの単語列から、その単語列に含まれる単語をその単語と同じクラスに属するクラス所属単語に置き換えたクラス単語列を生成する単語列生成手段と、この単語列生成手段で生成された前記クラス単語列に、前記言語モデルの接続確率値をクラス接続確率値として特定の比率で分配する接続確率値分配手段と、前記クラス単語列と前記クラス接続確率値とからなるクラスエントリを記憶するクラスエントリ記憶手段と、前記クラスエントリ記憶手段に記憶された前記クラスエントリの中から、前記クラス単語列が同一のものを探索する同一単語列探索手段と、この同一単語列探索手段で探索された複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成するクラスエントリ加算手段と、を備える構成とした。
【0031】
かかる構成によれば、クラス言語モデル生成装置は、単語所属判定手段によって、言語モデルのエントリである単語列に含まれる単語が、予め単語をクラス毎に分類した集合に属するかどうかを判定する。これにより、言語モデルの単語列に含まれる単語がクラス分けされた集合の中のどのクラスに含まれるかが判定される。
【0032】
そして、クラス言語モデル生成装置は、単語列生成手段によって、エントリの単語列に含まれる単語を、その単語を含んだクラスに属するクラス所属単語にそれぞれ置き換えた単語列であるクラス単語列を生成し、接続確率値分配手段によって、エントリの接続確率値をクラス単語列毎にクラス接続確率値として分配したクラスエントリを生成し、クラスエントリ記憶手段に記憶する。
【0033】
これにより、1つのエントリから、そのエントリの単語列に含まれる単語を同一のクラスに属する単語に置き換えた複数のエントリ(クラスエントリ)が生成される。また、この生成されたクラスエントリに対しては、元のエントリの接続確率値が分配される。
【0034】
そして、クラス言語モデル生成装置は、同一単語列探索手段によって、クラスエントリ記憶手段に記憶されているクラスエントリの中から、クラス単語列が同一のものを探索し、クラスエントリ加算手段によって、同一単語列探索手段で探索された複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成し、クラス言語モデルのエントリとして出力する。これにより、クラス言語モデルのエントリには、重複した単語列を持つエントリがなくなる。
【0035】
また、請求項6に記載のクラス言語モデル生成プログラムは、単語を配列した単語列とその単語の接続確率値とからなるエントリの集合である言語モデルから、予め特定の単語を特定のクラス毎に分類した単語の集合に基づいて、前記クラスに属する単語の接続確率値を同一のクラスに属する単語の接続確率値で推定したクラス言語モデルを生成するために、コンピュータを、以下の手段によって機能させる構成とした。
【0036】
すなわち、前記言語モデルの単語列に含まれる単語が、前記単語の集合に属するかどうかを判定する単語所属判定手段、この単語所属判定手段の判定結果に基づいて、前記言語モデルの単語列から、その単語列に含まれる単語をその単語と同じクラスに属するクラス所属単語に置き換えたクラス単語列を生成する単語列生成手段、この単語列生成手段で生成された前記クラス単語列に、前記言語モデルの接続確率値をクラス接続確率値として特定の比率で分配する接続確率値分配手段、前記クラス単語列と前記クラス接続確率値とからなるクラスエントリを記憶手段に記憶させるクラスエントリ記憶手段、前記記憶手段に記憶されている前記クラスエントリの中から、前記クラス単語列が同一のものを探索する同一単語列探索手段、この同一単語列探索手段で探索された複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成するクラスエントリ加算手段、とした。
【0037】
かかる構成によれば、クラス言語モデル生成プログラムは、単語所属判定手段によって、言語モデルのエントリである単語列に含まれる単語が、予め単語をクラス毎に分類した集合に属するかどうかを判定する。これにより、言語モデルの単語列に含まれる単語がクラス分けされた集合の中のどのクラスに含まれるかが判定される。
【0038】
そして、クラス言語モデル生成プログラムは、単語列生成手段によって、エントリの単語列に含まれる単語を、その単語を含んだクラスに属するクラス所属単語にそれぞれ置き換えた単語列であるクラス単語列を生成し、接続確率値分配手段によって、エントリの接続確率値をクラス単語列毎にクラス接続確率値として分配したクラスエントリを生成し、記憶手段に記憶する。
【0039】
これにより、1つのエントリから、そのエントリの単語列に含まれる単語を同一のクラスに属する単語に置き換えた複数のエントリ(クラスエントリ)が生成される。また、この生成されたクラスエントリに対しては、元のエントリの接続確率値が分配される。
【0040】
そして、クラス言語モデル生成プログラムは、同一単語列探索手段によって、記憶手段に記憶されているクラスエントリの中から、クラス単語列が同一のものを探索し、クラスエントリ加算手段によって、同一単語列探索手段で探索された複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成し、クラス言語モデルのエントリとして出力する。これにより、クラス言語モデルのエントリには、重複した単語列を持つエントリがなくなる。
【0041】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。
(クラス言語モデル生成装置の構成)
図1は、本発明におけるクラス言語モデル生成装置1の構成を示したブロック図である。図1に示すようにクラス言語モデル生成装置1は、従来の手法によって生成されたN−gramを用いた言語モデル(N−gram言語モデル2a)と、予め単語を品詞や意味を用いて分類(クラス化)した単語の集合(単語集合)3aとに基づいて、学習されていない新出単語の接続を推定したクラス言語モデル(クラスN−gram言語モデル4a)を生成するものである。
【0042】
N−gram言語モデル2aは、クラス言語モデル生成装置1の外部に接続されたハードディスク等の記憶媒体である言語モデル記憶手段2に記憶しておく。また、このN−gram言語モデル2aは、n個の単語(単語列)w,w,…,wと、その単語の接続確率値P(w|w,w,…,wn−1)からなるエントリの集合である。この1つのエントリを(2)式により表すこととする。
【0043】
,w,…,w→P(w|w,w,…,wn−1)   …(2)式
【0044】
また、この(2)式において、前提条件となる(n−1)個の単語(単語列)w,w,…,wn−1を条件部といい、その条件の下に出力される単語wを非条件部ということとする。
単語集合3aは、クラス言語モデル生成装置1の外部に接続されたハードディスク等の記憶媒体である単語集合記憶手段3に記憶しておく。
【0045】
ここで、図2を参照(適宜図1参照)して単語集合3aの内容について説明する。図2は、単語集合3aの一例として、スポーツ番組の中継内容(サッカー中継)を音声認識するために用いる単語を分類した内容を示している。
【0046】
クラスCは、サッカー選手の選手名(「稲本」、「川口」等)を表す単語の属するクラス(選手名クラスC)、サッカー中継の解説を行う解説者名(「岡田」、「井原」等)を表す単語の属するクラス(解説者名クラスC)、サッカーチームの国名(「日本」、「韓国」等)を表す単語の属するクラス(国名クラスC)等のように、単語を品詞や意味等を用いて分類するための分類項目を示している。
【0047】
集合Sは、クラスCで分類されている単語が、N−gram言語モデル2aとして、すでに学習されている単語(既知単語集合K)に属するものか、学習されていない単語(新出単語集合N)に属するものかを示す単語集合を示している。例えば、選手名クラスCの既知単語集合Kである{稲本、川口、ベッカム、…}は、すでにN−gram言語モデル2aとして学習されており、「稲本」と連結する単語列とその接続確率値は、N−gram言語モデル2aに登録されている。また、選手名クラスCの新出単語集合Nである{中田、カーン、…}は、N−gram言語モデル2aとして学習されていない単語の集合を一例として示している。
【0048】
なお、クラス言語モデル生成装置1は、N−gram言語モデル2aのエントリから、既知単語集合Kに新出単語集合Nを加えた単語を用いた単語列(クラス単語列)及びその接続確率値(クラス接続確率値)からなるクラスエントリに展開することで、クラスN−gram言語モデル4aを生成するため、ここでは、既知単語集合Kと新出単語集合Nとを合わせた集合を展開後単語集合Lと呼ぶこととする。それに対し、新出単語集合Nを加えない既知単語集合Kのみの集合を、展開前単語集合Lと呼ぶこととする。
【0049】
この展開前単語集合Lと展開後単語集合Lとは、展開前単語集合Lに含まれる単語の接続確率値を、展開後単語集合Lに含まれる単語の接続確率値に分配することを示した集合であり、同じ集合であっても構わない。
図1に戻って、クラス言語モデル生成装置1の構成の説明を続ける。
【0050】
クラス言語モデル生成装置1は、N−gram展開手段10と、クラスエントリ記憶手段20と、N−gram加算整列手段30とを備える構成とした。
N−gram展開手段10は、言語モデル記憶手段2に記憶されているN−gram言語モデル2aと、単語集合記憶手段3に記憶されている単語集合3aとに基づいて、単語集合3a内の単語を、その単語を用いた単語列及びその接続確率値からなるクラスエントリに展開するものであり、単語所属判定部11と、単語列生成部12と、接続確率値分配部13とを備える構成とした。
【0051】
単語所属判定部(単語所属判定手段)11は、言語モデル記憶手段2から1エントリ(単語列及び接続確率値)毎にデータを読み込み、そのエントリに含まれている単語が、単語集合3a(図2)のどのクラス及び集合に属する単語であるかを判定するものである。この単語所属判定部11では、エントリの単語列を条件部と非条件部とに区別して、条件部又は非条件部の単語がそれぞれ単語集合3aのどのクラス及び集合に属する単語であるかどうかを判定する。この判定結果は単語列生成部12へ出力される。
【0052】
単語列生成部(単語列生成手段)12は、単語所属判定部11の判定結果に基づいて、N−gram言語モデル2aのエントリの単語列に含まれる単語を、その単語を含んだクラスC(図2の単語集合3a内)に属する単語(クラス所属単語)に置き換えることにより、複数の単語列(クラス単語列)を生成するものである。
【0053】
接続確率値分配部(接続確率値分配手段)13は、単語列生成部12で生成されクラス単語列に対して、クラス接続確率値を設定するものである。この接続確率値分配部13は、単語列生成部12で生成されたクラス単語列に対して、元のエントリの接続確率値を分配することで、新たなエントリ(クラスエントリ20a)を生成するものである。ここで生成されたクラスエントリ20aは逐次クラスエントリ記憶手段20に記憶される。
なお、N−gram展開手段10におけるクラスエントリ20aの生成手順については、後記する。
【0054】
クラスエントリ記憶手段20は、N−gram展開手段10で生成されたクラスエントリ20aを一時的に記憶しておくもので、ハードディスク等の記憶媒体で構成される。なお、このクラスエントリ記憶手段20に記憶されているクラスエントリ20aには、N−gram展開手段10で展開された結果として、単語列が同一となる複数の重複したエントリが含まれている。
【0055】
N−gram加算整列手段30は、クラスエントリ記憶手段20に記憶されているクラスエントリ20aから、重複した単語列を持つエントリ(クラスエントリ)を1つのエントリにまとめることで、クラス言語モデル(クラスN−gram言語モデル4a)を生成し出力するものであり、同一単語列探索部31とクラスエントリ加算部32とを備える構成とした。
【0056】
同一単語列探索部31は、クラスエントリ記憶手段20に記憶されているクラスエントリ20aの中で、重複した単語列(クラス単語列)を探索するものである。この同一単語列探索部31では、クラスエントリ20aの中で、単語1つで構成されたエントリ(N−gramにおけるN=1(ユニグラム)のエントリ)同士、単語2つで構成さたエントリ(N=2:バイグラム)同士、単語3つで構成されたエントリ(N=3:トライグラム)同士等、単語の数が同じであるエントリ毎に重複したクラス単語列を持つクラスエントリを探索する。
【0057】
ここで探索されたエントリ(クラスエントリ20a)の個数、及び、そのエントリのクラスエントリ記憶手段20上の記憶アドレス(あるいはクラスエントリ20aを識別するための識別子)は、クラスエントリ加算部32へ通知される。
【0058】
クラスエントリ加算部32は、同一単語列探索部31で探索された重複した単語列を持つクラスエントリ20aの個数と、そのクラスエントリ20aのクラスエントリ記憶手段20上の記憶アドレスとに基づいて、該当するクラスエントリ20aをクラスエントリ記憶手段20から読み出し、重複したクラス単語列を持つクラスエントリ20aの接続確率値をすべて加算することで、1つのクラスエントリ(統合クラスエントリ)とするものである。
【0059】
このクラスエントリ加算部32によって生成されたクラスエントリ(統合クラスエントリ)と、重複した単語列を持たないクラスエントリ20aとを、図示していない出力手段によって、単語列の順番にクラス言語モデル記憶手段4に出力する(書き込む)ことで、単語列の重複がないクラスN−gram言語モデル4aが生成される。
【0060】
以上、クラス言語モデル生成装置1の構成について説明したが、クラス言語モデル生成装置1は、コンピュータにおいて各手段を各機能プログラムとして実現することも可能であり、各機能プログラムを結合してクラス言語モデル生成プログラムとして動作させることも可能である。
【0061】
(クラスエントリ生成手順)
次に、図1及び図2を参照して、N−gram展開手段10で生成されるクラスエントリ20aの詳細な生成手順について説明する。
N−gram展開手段10は、単語集合3aの各クラス毎に以下の3つの生成規則(生成規則1〜3)に基づいて、N−gram言語モデル2aのエントリから、クラスエントリ20aを生成する。
【0062】
[生成規則1]
入力されたエントリの非条件部の単語が単語集合3aの展開前単語集合Lに含まれている場合、その非条件部の単語を展開後単語集合Lの各単語に置き換えた(展開した)クラス単語列を生成し、そのクラス単語列の接続確率値(クラス接続確率値)の総和が入力されたエントリの接続確率値と等しくなるように接続確率値を分配して、クラスエントリ20aを生成する。
【0063】
[生成規則2]
入力されたエントリの条件部の単語が単語集合3aの展開前単語集合Lに含まれている場合、その条件部の単語を展開後単語集合Lの各単語に置き換えた(展開した)クラス単語列を生成し、各クラス単語列の接続確率値(クラス接続確率値)を、入力されたエントリの接続確率値と等しくしたクラスエントリ20aを生成する。
【0064】
[生成規則3]
入力されたエントリの条件部及び非条件部の単語が、いずれも単語集合3aの展開前単語集合Lに含まれていない場合、入力されたエントリをそのまま(展開せずに)クラスエントリ20aとする。
【0065】
以上の生成規則1〜3に基づいて、N−gram展開手段10は、N−gram言語モデル2aのエントリにおいて、1−gram(N=1:単語数1)、2−gram(N=2:単語数2)、3−gram(N=3:単語数3)等の連結される単語数毎に、以下の手順でクラスエントリ20aを生成する。
【0066】
[連結単語数1(1−gram)の場合]
単語wからなる1−gramのエントリw→P(w)に対して、
(i)単語wが展開前単語集合Lに含まれる場合、単語wと同一のクラスで展開後単語集合Lに含まれるすべての単語w´に対して、エントリw´→P(w)/|L|をクラスエントリ20aとする(生成規則1に対応)。なお、|L|は展開後単語集合Lの単語数を示す。
(ii)単語wが展開前単語集合Lに含まれない場合、エントリw→P(w)をそのままクラスエントリ20aとする(生成規則3に対応)。
【0067】
[連結単語数2(2−gram)の場合]
単語w及びwからなる2−gramのエントリw,w→P(w|w)に対して、
(i)単語wが展開前単語集合Lに含まれる場合、単語wと同一のクラスで展開後単語集合Lに含まれるすべての単語w´に対して、エントリw´,w→P(w|w´)をクラスエントリ20aとする(生成規則2に対応)。
(ii)単語wが展開前単語集合Lに含まれる場合、単語wと同一のクラスで展開後単語集合Lに含まれるすべての単語w´に対して、エントリw,w´→P(w´|w)/|L|をクラスエントリ20aとする(生成規則1に対応)。なお、|L|は展開後単語集合Lの単語数を示す。
(iii)単語w及びwがいずれも展開前単語集合Lに含まれない場合、エントリw,w→P(w|w)をそのままクラスエントリ20aとする(生成規則3に対応)。
【0068】
また、連結単語数が3(3−gram)以上のエントリの場合も、前記同様、単語列w、w、w…の個々の単語が展開前単語集合Lに含まれるかどうかを判定し、展開前単語集合Lに含まれる場合は、その単語を同一のクラスで展開後単語集合Lに含まれるすべての単語に置き換える(展開する)。
そして、展開前単語集合Lに含まれている単語が、エントリの条件部であるときは、エントリの接続確率値をそのまま(1倍)使用し、エントリの非条件部であるときは、エントリの接続確率値を展開後単語集合Lの単語数で割った値を使用してクラスエントリ20aとする。
【0069】
なお、展開後のクラス接続確率値は、元のエントリの接続確率値を等分に分配する以外にも、展開される単語そのものの出現確率である1−gram確率に比例して分配することとしてもよい。
【0070】
ここで、図2及び図3を参照(適宜図1参照)して、クラスエントリ20aの生成例について説明する。図3は、N−gram言語モデル2aのエントリの中で2−gram(N=2:バイグラム)のエントリを生成(展開)する例を示している。
【0071】
図3(a)は、N−gram展開手段10にN−gram言語モデル2aのエントリとして「稲本,から→P(から|稲本)」(A)が入力され、クラスエントリ(A,A,…,A)に展開された例を示している。図3(a)に示すように、エントリ「稲本,から→P(から|稲本)」(A)は、条件部が「稲本」であるため、前記した生成規則1に基づいて、「稲本」を選手名クラスC1の展開後単語集合Lの各単語(「稲本」、「川口」、…、「中田」、…)に置き換えたクラスエントリ(A、A、…、A、…)に展開される。
【0072】
なお、クラスエントリ(A、A、…、A、…)の接続確率値(クラス接続確率値)は、元のエントリAの接続確率値を等分した値とする。また、このクラスエントリ(A、A、…、A、…)のクラス接続確率値は、各単語の出現確率(「稲本」、「川口」等の1−gram確率)に比例して分配することとしてもよい。
【0073】
図3(b)は、N−gram展開手段10にN−gram言語モデル2aのエントリとして「川口,から→P(から|川口)」(B)が入力され、クラスエントリ(B,B,…,B,…)に展開された例を示している。生成規則は図3(a)と同様、前記した生成規則1により生成される。
【0074】
ここでクラスエントリ(B,B,…,B,…)のクラス単語列は、クラスエントリ(A、A、…、A、…)のクラス単語列と重複している。このように、N−gram展開手段10は、単語集合3aで分類されているクラス毎に、N−gram言語モデル2aのエントリを展開することで、重複した単語列を含んだ新たなクラスエントリ20aを生成する。
【0075】
(クラス言語モデル生成装置の動作)
次に、図1、図4及び図5を参照して、クラス言語モデル生成装置1の全体の動作について説明する。図4及び図5は、クラス言語モデル生成装置1の動作を示すフローチャートである。なお、図4のフローチャートは、主にN−gram展開手段10で動作する言語モデル展開ステップ動作を示している。また、図5のフローチャートは、主にN−gram加算整列手段30で動作する言語モデル加算ステップ動作を示している。
【0076】
[言語モデル展開ステップ]
まず、クラス言語モデル生成装置1は、N−gram展開手段10の単語所属判定部11によって、言語モデル記憶手段2に記憶されているN−gram言語モデル2aのエントリ(単語列及び接続確率値)を読み込む(S1)。
【0077】
そして、単語所属判定部11によって、エントリの非条件部の単語が、単語集合3aの展開前単語集合Lに含まれているかどうかを判断する(S2)。ここで、エントリの非条件部の単語が展開前単語集合Lに含まれている場合(Yes)は、単語列生成部12及び接続確率値分配部13によって、非条件部の単語を同じクラスの展開後単語集合Lの単語に展開し、その展開された個々の単語列に対して元のエントリの接続確率値を分配することで、クラスエントリを生成してクラスエントリ記憶手段20に記憶する(S3)。そして、S7へ進む。
【0078】
一方、エントリの非条件部の単語が展開前単語集合Lに含まれていない場合(S2でNo)は、単語所属判定部11によって、エントリの条件部の単語が、単語集合3aの展開前単語集合Lに含まれているかどうかを判断する(S4)。ここで、エントリの条件部の単語が展開前単語集合Lに含まれている場合(Yes)は、単語列生成部12及び接続確率値分配部13によって、条件部の単語を同じクラスの展開後単語集合Lの単語に展開し、その展開された個々の単語列に対して、元のエントリの接続確率値を与えたクラスエントリを生成してクラスエントリ記憶手段20に記憶する(S5)。そして、S7へ進む。
【0079】
また、エントリの条件部の単語が展開前単語集合Lに含まれていない場合(S4でNo)は、元のエントリーをそのままクラスエントリとしてクラスエントリ記憶手段20に記憶する(S6)。
【0080】
そして、すべてのエントリについて、展開後単語集合Lへの展開が終了したかどうかを判定し(S7)、まだ、終了していない場合(No)は、S1に戻って動作を続ける。一方、すべてのエントリについて、展開後単語集合Lへの展開が終了した場合(Yes)は、図5の言語モデル加算ステップ動作におけるS8へ進む。
【0081】
[言語モデル加算ステップ]
次に、クラス言語モデル生成装置1は、N−gram加算整列手段30の同一単語列探索部31によって、クラスエントリ記憶手段20から重複した単語列を持つクラスエントリを探索する(S8)。そして、クラスエントリ加算部32によって、重複した単語列を持つクラスエントリ毎に、個々の接続確率値を加算して1つのクラスエントリとして生成する(S9)。
【0082】
そして、クラスエントリ記憶手段20に記憶されているクラスエントリにおいて、全ての単語列の重複探索を終了したかどうかを判定し(S10)、まだ終了していない場合(No)は、S8へ戻って動作を続ける。
【0083】
一方、全ての単語列の重複探索を終了した場合(S10でYes)は、クラスエントリ記憶手段20には、単語列の重複がないクラスエントリが生成されていることになるため、このクラスエントリを単語列単位で整列してクラス言語モデル記憶手段4に出力する(S11)。
【0084】
以上の各ステップよって、言語モデルとして学習されていない新出単語の接続確率値を、その新出単語と同一のクラスに属するすでに学習された既知の単語で推定したクラス言語モデルを生成することができる。
【0085】
(従来のクラス言語モデル生成手法との比較)
ここで、図6を参照して、従来のクラス言語モデル生成手法と、本発明におけるクラス言語モデル生成手法との違いについて説明する。図6は、従来のクラス言語モデル生成手法の流れと、本発明におけるクラス言語モデル生成手法の流れとを時系列に表したものである。
【0086】
従来のクラス言語モデル生成手法は、学習テキストTを形態素解析によって単語に分割し(S30)、その分割された単語を予め定めたクラスに分類し(S31)、そのクラス分けされた単語の出現頻度及び接続頻度に基づいて単語の接続確率値を学習する(S32)。そして単語の接続系列(単語列)とその接続確率値をエントリとしたクラス言語モデルM1を生成していた。
【0087】
一方、本発明におけるクラス言語モデル生成手法は、学習テキストTを形態素解析によって単語に分割し(S30)、その単語の出現頻度及び接続頻度に基づいて単語の接続確率値を学習して(S33[S32と同じ])生成された言語モデル(従来手法の言語モデルMO)を用いて、クラス言語モデルM2を生成する。すなわち、すでに生成されている従来手法の言語モデルMOから、本発明によるクラス言語モデル生成(S34:本発明におけるクラス言語モデル生成装置、クラス言語モデル生成方法及びクラス言語モデル生成プログラム)により、クラス言語モデルM2を生成する。
【0088】
このようなクラス言語モデル生成手法の流れにおいて、クラスに属する単語の追加あるいは変更があった場合、従来手法では、再学習開始点Aから再度クラス展開(S31)及び単語接続確率値の学習(S32)を行わなければならない。
【0089】
一方、本手法の流れにおいては、単語接続確率値の学習(S33)を行わずに、再学習開始点Bから再度実行すればよい。すなわち、本発明におけるクラス言語モデル生成装置、クラス言語モデル生成方法及びクラス言語モデル生成プログラムでは、単語の出現頻度及び接続頻度による接続確率値の学習を行わないため、高速にクラス言語モデルM2の再構築を行うことが可能になる。
【0090】
実験結果として、単語約30000個、文数(学習テキスト)約10000個、クラス1種類、展開前単語集合L(図2)の単語11個及び展開後単語集合L(図2)の単語24個でクラス言語モデルの再構築時間を測定したとき、本発明によるクラス言語モデル生成(S34)では、6分45秒でクラス言語モデルを再構築することができた。一方、同じ条件で単語接続確率値の学習(S32)時間を測定すると、10分8秒を要した。すなわち、本発明によるクラス言語モデル生成(S34)を用いることで、単語の出現頻度や接続頻度を再度学習する必要がないため、従来より短い時間でクラス言語モデルM2を再構築することができる。
【0091】
【発明の効果】
以上説明したとおり、本発明に係るクラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラムでは、以下に示す優れた効果を奏する。
【0092】
請求項1、請求項5又は請求項6に記載の発明によれば、単語を特定のクラスに分類して、単語の接続確率値をその単語と同一のクラスに属する他の単語で推定したクラス言語モデルを生成するときに、すでに単語の出現頻度及び接続頻度を学習した言語モデルを用いて、単語の接続確率値のみを再分配するため、高速にクラス言語モデルを生成することができる。言語モデルのエントリに変更があった場合でも、短時間でクラス言語モデルを再構築することが可能になる。
【0093】
請求項2又は請求項3に記載の発明によれば、条件付き確率で表現された言語モデルのエントリである単語列に含まれる単語から、その単語と同一のクラスに属する単語の接続確率値を推定することができる。これにより、すでに単語の出現頻度及び接続頻度を学習した言語モデルを用いて、クラス言語モデルを生成することができる。
【0094】
請求項4に記載の発明によれば、新出単語の接続確率値を、その新出単語のクラスに属するすでに学習されている単語の接続確率値から推定することができる。また、このとき、すでに単語の出現頻度及び接続頻度を学習した言語モデルを用いて、単語の接続確率値のみを再分配するため、高速にクラス言語モデルを生成することができる。これにより、例えば、放送番組で出演者の発生する音声を、音声認識により字幕スーパとして表示させる場合、学習されていない単語(例えば、スポーツ番組における解説者の追加等)をクラス言語モデルに組み込む際の時間が短いため、放送直前であってもクラス言語モデルを再構築することが可能になる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係るクラス言語モデル生成装置の全体構成を示すブロック図である。
【図2】クラス化された単語集合の内容を説明するための説明図である。
【図3】本発明の実施の形態に係るクラス言語モデル生成装置のN−gram展開手段におけるクラスエントリ生成例を説明するための説明図である。
【図4】本発明の実施の形態に係るクラス言語モデル生成装置の動作を示すフローチャート(1/2)である。
【図5】本発明の実施の形態に係るクラス言語モデル生成装置の動作を示すフローチャート(2/2)である。
【図6】従来のクラス言語モデル生成手法と、本発明を用いたクラス言語モデル生成手法との流れを示すフローチャートである。
【図7】クラス言語モデルの概念を説明するための説明図である。
【図8】従来のクラス言語モデル生成動作を示すフローチャートである。
【符号の説明】
1 ……クラス言語モデル生成装置
2 ……言語モデル記憶手段
3 ……単語集合記憶手段
4 ……クラス言語モデル記憶手段
10……N−gram展開手段
11……単語所属判定部(単語所属判定手段)
12……単語列生成部(単語列生成手段)
13……接続確率値分配部(接続確率値分配手段)
20……クラスエントリ記憶手段
30……N−gram加算整列手段
31……同一単語列探索部(同一単語列探索手段)
32……クラスエントリ加算部(クラスエントリ加算手段)

Claims (6)

  1. 単語を配列した単語列とその単語の接続確率値とからなるエントリの集合である言語モデルから、予め特定の単語を特定のクラス毎に分類した単語の集合に基づいて、前記クラスに属する単語の接続確率値を同一のクラスに属する単語の接続確率値で推定したクラス言語モデルを生成するクラス言語モデル生成方法であって、
    前記言語モデルの単語列から、その単語列に含まれる単語をその単語と同じクラスに属するクラス所属単語に置き換えた複数のクラス単語列を生成し、前記言語モデルの接続確率値を前記クラス単語列毎に分配してクラス接続確率値とすることで、前記クラス単語列と前記クラス接続確率値とからなるクラスエントリを生成する言語モデル展開ステップと、
    この言語モデル展開ステップで生成された前記クラスエントリにおいて、前記クラス単語列が同一となる複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成する言語モデル加算ステップと、
    を含んでいることを特徴とするクラス言語モデル生成方法。
  2. 前記言語モデル展開ステップは、条件付き確率で表現される前記言語モデルのエントリにおいて、前記条件付き確率の非条件部の単語を前記クラス所属単語に置き換えて前記クラスエントリを生成し、その生成されたクラスエントリのクラス接続確率値の総和が、前記エントリの接続確率値と等しくなるように前記接続確率値を分配することを特徴とする請求項1に記載のクラス言語モデル生成方法。
  3. 前記言語モデル展開ステップは、条件付き確率で表現される前記言語モデルのエントリにおいて、前記条件付き確率の条件部の単語を前記クラス所属単語に置き換えて前記クラスエントリを生成し、その生成されたクラスエントリのクラス接続確率値には、前記エントリの接続確率値と同じ値を用いることを特徴とする請求項1又は請求項2に記載のクラス言語モデル生成方法。
  4. 前記単語の集合が、すでに学習されている既知単語の集合である既知単語集合と新出単語の集合である新出単語集合とからなり、
    前記言語モデル展開ステップにおいて、前記言語モデルの単語列に前記既知単語が含まれている場合に、その既知単語をその既知単語と同じクラスに属する前記新出単語に置き換えて前記クラス単語列を生成することを特徴とする請求項1乃至請求項3のいずれか1項に記載のクラス言語モデル生成方法。
  5. 単語を配列した単語列とその単語の接続確率値とからなるエントリの集合である言語モデルから、予め特定の単語を特定のクラス毎に分類した単語の集合に基づいて、前記クラスに属する単語の接続確率値を同一のクラスに属する単語の接続確率値で推定したクラス言語モデルを生成するクラス言語モデル生成装置であって、
    前記言語モデルの単語列に含まれる単語が、前記単語の集合に属するかどうかを判定する単語所属判定手段と、
    この単語所属判定手段の判定結果に基づいて、前記言語モデルの単語列から、その単語列に含まれる単語をその単語と同じクラスに属するクラス所属単語に置き換えたクラス単語列を生成する単語列生成手段と、
    この単語列生成手段で生成された前記クラス単語列に、前記言語モデルの接続確率値をクラス接続確率値として特定の比率で分配する接続確率値分配手段と、前記クラス単語列と前記クラス接続確率値とからなるクラスエントリを記憶するクラスエントリ記憶手段と、
    前記クラスエントリ記憶手段に記憶された前記クラスエントリの中から、前記クラス単語列が同一のものを探索する同一単語列探索手段と、
    この同一単語列探索手段で探索された複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成するクラスエントリ加算手段と、
    を備えていることを特徴とするクラス言語モデル生成装置。
  6. 単語を配列した単語列とその単語の接続確率値とからなるエントリの集合である言語モデルから、予め特定の単語を特定のクラス毎に分類した単語の集合に基づいて、前記クラスに属する単語の接続確率値を同一のクラスに属する単語の接続確率値で推定したクラス言語モデルを生成するために、コンピュータを、
    前記言語モデルの単語列に含まれる単語が、前記単語の集合に属するかどうかを判定する単語所属判定手段、
    この単語所属判定手段の判定結果に基づいて、前記言語モデルの単語列から、その単語列に含まれる単語をその単語と同じクラスに属するクラス所属単語に置き換えたクラス単語列を生成する単語列生成手段、
    この単語列生成手段で生成された前記クラス単語列に、前記言語モデルの接続確率値をクラス接続確率値として特定の比率で分配する接続確率値分配手段、
    前記クラス単語列と前記クラス接続確率値とからなるクラスエントリを記憶手段に記憶させるクラスエントリ記憶手段、
    前記記憶手段に記憶されている前記クラスエントリの中から、前記クラス単語列が同一のものを探索する同一単語列探索手段、
    この同一単語列探索手段で探索された複数のクラスエントリのクラス接続確率値をすべて加算した統合クラスエントリを生成するクラスエントリ加算手段、
    として機能させることを特徴とするクラス言語モデル生成プログラム。
JP2002278926A 2002-09-25 2002-09-25 クラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラム Pending JP2004117647A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002278926A JP2004117647A (ja) 2002-09-25 2002-09-25 クラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002278926A JP2004117647A (ja) 2002-09-25 2002-09-25 クラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラム

Publications (1)

Publication Number Publication Date
JP2004117647A true JP2004117647A (ja) 2004-04-15

Family

ID=32274080

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002278926A Pending JP2004117647A (ja) 2002-09-25 2002-09-25 クラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラム

Country Status (1)

Country Link
JP (1) JP2004117647A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007017630A (ja) * 2005-07-06 2007-01-25 Asahi Kasei Corp 音声認識候補文字列選択装置
JP2009163109A (ja) * 2008-01-09 2009-07-23 Mitsubishi Electric Corp 言語モデル生成装置及び音声認識装置
JP2017167378A (ja) * 2016-03-17 2017-09-21 株式会社東芝 単語スコア計算装置、単語スコア計算方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007017630A (ja) * 2005-07-06 2007-01-25 Asahi Kasei Corp 音声認識候補文字列選択装置
JP4611823B2 (ja) * 2005-07-06 2011-01-12 旭化成株式会社 音声認識候補文字列選択装置
JP2009163109A (ja) * 2008-01-09 2009-07-23 Mitsubishi Electric Corp 言語モデル生成装置及び音声認識装置
JP2017167378A (ja) * 2016-03-17 2017-09-21 株式会社東芝 単語スコア計算装置、単語スコア計算方法及びプログラム
US10964313B2 (en) 2016-03-17 2021-03-30 Kabushiki Kaisha Toshiba Word score calculation device, word score calculation method, and computer program product

Similar Documents

Publication Publication Date Title
JP7211045B2 (ja) 要約文生成方法、要約文生成プログラム及び要約文生成装置
JP3930138B2 (ja) 情報解析方法および情報解析プログラムを記憶した媒体
JP5235210B2 (ja) 音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体
JP5921716B2 (ja) 意図推定装置および意図推定方法
Heck et al. Leveraging knowledge graphs for web-scale unsupervised semantic parsing
JP6450203B2 (ja) 個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置
JP2013120534A (ja) 関連語分類装置及びコンピュータプログラム及び関連語分類方法
JP2018084627A (ja) 言語モデル学習装置およびそのプログラム
CN107506345A (zh) 语言模型的构建方法和装置
JP2010257425A (ja) 話題境界検出装置及びコンピュータプログラム
CN113343692B (zh) 搜索意图的识别方法、模型训练方法、装置、介质及设备
JP5766152B2 (ja) 言語モデル生成装置、その方法及びプログラム
JP2020118929A (ja) 要約生成装置、方法、プログラム、及び記憶媒体
KR20060067096A (ko) N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법
JP5152918B2 (ja) 固有表現抽出装置、その方法およびプログラム
Khassanov et al. Enriching rare word representations in neural language models by embedding matrix augmentation
JP2004117647A (ja) クラス言語モデル生成方法、クラス言語モデル生成装置及びクラス言語モデル生成プログラム
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
JP6867319B2 (ja) 語彙間関係性推測装置および語彙間関係性推測方法
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP4015661B2 (ja) 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP6078435B2 (ja) 記号列変換方法、音声認識方法、それらの装置及びプログラム
JP3500698B2 (ja) キーワード抽出装置及びキーワード抽出方法
JP5182960B2 (ja) 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070522

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070620