JP2011154061A - 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法 - Google Patents
辞書作成装置、そのコンピュータプログラムおよびデータ処理方法 Download PDFInfo
- Publication number
- JP2011154061A JP2011154061A JP2010013860A JP2010013860A JP2011154061A JP 2011154061 A JP2011154061 A JP 2011154061A JP 2010013860 A JP2010013860 A JP 2010013860A JP 2010013860 A JP2010013860 A JP 2010013860A JP 2011154061 A JP2011154061 A JP 2011154061A
- Authority
- JP
- Japan
- Prior art keywords
- word
- word information
- appearance frequency
- data
- gram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】学習データに基づいた最適な単語区切りではなく、適応データに応じて逐次的に最適な単語区切りを設定することができる辞書作成装置を提供する。
【解決手段】学習データに内包されている単語情報を単語区切りとともに単語情報記憶部101が記憶する。学習データとは別個の入力データに関連して入力される適応データに内包されている単語情報とnグラムの出現頻度とを出現頻度計算部103が算出する。算出された単語情報と出現頻度とに対応して単語情報記憶部101に記憶されている単語情報の単語区切りを単語情報更新部104が更新する。
【選択図】図1
【解決手段】学習データに内包されている単語情報を単語区切りとともに単語情報記憶部101が記憶する。学習データとは別個の入力データに関連して入力される適応データに内包されている単語情報とnグラムの出現頻度とを出現頻度計算部103が算出する。算出された単語情報と出現頻度とに対応して単語情報記憶部101に記憶されている単語情報の単語区切りを単語情報更新部104が更新する。
【選択図】図1
Description
本発明は、音声認識などに利用される辞書作成装置に関し、特に、記憶されている単語情報に単語区切りを設定する辞書作成装置、そのコンピュータプログラムおよびデータ処理方法、に関する。
自然言語処理分野において、ある文、単語列、文字列に対して、それらが起こる確率を与える確率的言語モデルが広く用いられている。その代表的なモデルの一つに、nグラムモデルがある。
これは、直前の(n−1)単語から次の単語の出現確率を求めるものである。しかし、確率を求める際に与えられる情報が(n−1)単語であり、n単語より前の情報を用いることができないという問題がある。
その解決手段の一つとして、共起性の高い単語列を一語の単語(複合語)として処理することが考えられる。これにより、結合した単語分だけ前の単語の情報も活用することができる。
すなわち、ある単語列における、m−1番目の単語wm−1とm番目の単語wmを一単語とした場合には、wmの生起確率を求めるm−n+1番目の単語からm−1番目の単語までの情報を用いていたのが、m−n番目の単語からm−2番目の単語までの情報を参考にすることができ、さらにwm−1とwmを一単語にしたことによる制約を与えることも可能となる。
しかし、全ての語彙を結合することは現実的ではなく、何らかの基準を以って単語を結合すべきか否かを判定し、単語単位を変更する方法が提案されてきた。このような辞書作成装置を以下に説明する。
図10に示すように、例示する辞書作成装置は、学習テキストDB(Data Base)10と、辞書作成装置20と、語彙DB(辞書)30とを備え、辞書作成装置20は、出現頻度計算手段21と、エントロピー計算手段22と、語彙更新手段23と、判別手段24と、学習テキスト更新手段25と、を備える。
このような構成を有する辞書作成装置は、次のように動作する。すなわち、学習テキストDB10は、音声認識に用いられる言語モデルを作成するための語彙DB(辞書)30に属する単語を用いた文章に対し、形態素解析された結果である単語区切りと、係り受け解析された結果である文節区切りと、が予め付与された学習テキスト(テキストデータ)を記憶する。
辞書作成装置20は、学習テキストDB10に基づいて語彙DB(辞書)30を更新して作成する。具体的には、出現頻度計算手段21は、学習テキストDB10に記憶された学習テキストに内包されている連続した二単語(単語ペア)からなる単語列の学習テキストにおける出現頻度を計算し、頻度上位の複合語をエントロピー計算手段22に送る。
エントロピー計算手段22は、出現頻度計算手段21から入力された単語ペア全てについて、一単語とみなしたときと二単語とみなしたときのエントロピーを比較し、最良となった単語ペアを複合語として抽出し、語彙更新手段23に送る。
語彙更新手段23は、エントロピー計算手段22で抽出された単語ペアを一単語とみなした複合語について、語彙DB(辞書)30に追加登録して、当該語彙DB(辞書)30を更新する。加えて、辞書を更新した情報を判別手段24に送る。
判別手段24は、語彙更新手段23より得た辞書更新情報をもとに、追加登録された複合語が所定の数を満たしていないときに、学習テキストDB10に記憶された学習テキストの更新を学習テキスト更新手段25に指示する。
学習テキスト更新手段25は、判別手段24から更新を指示された場合に、語彙更新手段23で更新された語彙DB(辞書)30に基づいて、学習テキストDB10に記憶された学習テキストに付与された単語区切りを更新することにより学習テキストを更新し、学習テキストの出現頻度の計算を出現頻度計算手段21に指示する。
語彙DB(辞書)30は、音声認識に用いられる言語モデルを作成するための複数の単語を記憶する。このように、辞書作成装置は、エントロピー計算手段22にて学習テキストにおける出現頻度から複合語を形成した場合と二単語に分けた場合とでエントロピーを計算し、より適した単語の単位を選択して辞書を更新している(特許文献1)。
また、従来の音声対話システムでは不特定話者を対象としたときに、音声認識率の向上を行うためには、多くの認識パターンを記憶するなどシステムが大きくなってしまう恐れがある。そこで、この解決を目的とした音声対話システムの提案もある。
その技術では、利用者の発した希望の商品又は情報に関する音声および利用者の音声認識適応化情報が入力され、その内部に予め持っているシステム音声認識情報を前記音声適応化情報により前記利用者に適した適応化音声認識情報とし、この適応化音声認識情報と前記利用者の発した音声との音声照合を行い音声データ得て、この音声データと残高情報により前記希望の商品又は情報を利用者に供給する(特許文献2)。
さらに、低コストで入手可能なテキストデータを利用して、音声認識誤りを低減するように効率的に音声認識用辞書・言語モデルを作成・更新することのできる音声認識辞書作成支援システムも提案されている。
その技術では、音声認識辞書作成支援システムは、認識辞書記憶部と言語モデル記憶部と音響モデル記憶部を備える。仮想的音声認識処理部は、テキスト解析部が生成した解析済みテキストデータに対し、認識辞書、言語モデルおよび音響モデルを参照して、仮想的音声認識結果テキストデータを生成し、元の解析済みテキストデータと比較する。更新処理部は、両テキストデータの相違箇所が少なくなるように認識辞書・言語モデルを更新する(特許文献3)。
特許文献1に開示の辞書作成装置は、前述のようにエントロピー計算手段22にて学習テキストにおける出現頻度から複合語を形成した場合と二単語に分けた場合とでエントロピーを計算し、より適した単語の単位を選択して辞書を更新している。
しかしながら、この方式では、音声認識対象と関係なく事前に用意された学習テキスト(学習データ)に対して最適な単語区切りを求めているに過ぎず、例えば、音声認識対象とする音声(分野)に対して最適ではない。
また、特許文献1に開示の方法で、音声認識対象とする音声に対して適切な単語単位を得るため、入力データに適応データを設定することも考えられる。しかし、一般的に適応データは少量であるため、それ単独では頑健に認識可能な辞書を作成することはできない。
よって、学習するのに十分な量を備えた学習データと少量の適応データとの混合したデータを用いることが考えられるが、混合して作成したデータを入力としているため認識対象とする音声に対して適切な単語単位とはならない。
また、特許文献2には、システム音声認識情報をユーザに適応化させるとある。しかし、適応化情報として用いているのは音響的な情報(スペクトルパターンやHMM(Hidden Markov Model)パラメータ)だけである。
さらに、特許文献3には、データの内容に応じて認識辞書および言語モデルに対して変更を加えるとある。しかし、辞書に単語を追加するもしくは単語の優先度を変更するだけである。
本発明は上述のような課題に鑑みてなされたものであり、学習データに基づいた最適な単語区切りではなく、適応データに応じて逐次的に最適な単語区切りを設定することができる辞書作成装置、そのコンピュータプログラムおよびデータ処理方法、を提供するものである。
本発明の辞書作成装置は、学習データに内包されている単語情報を記憶する単語情報記憶手段と、学習データとは別個の入力データに関連して入力される適応データに内包されている単語情報とnグラムの出現頻度とを算出する出現頻度計算手段と、算出された単語情報と出現頻度とに対応して単語情報記憶手段に記憶されている単語情報を更新する単語情報更新手段と、を有する。
本発明のコンピュータプログラムは、辞書作成装置のコンピュータプログラムであって、学習データに内包されている単語情報を記憶する単語情報記憶処理と、学習データとは別個の入力データに関連して入力される適応データに内包されている単語情報とnグラムの出現頻度とを算出する出現頻度計算処理と、算出された単語情報と出現頻度とに対応して単語情報記憶処理で記憶された単語情報を更新する単語情報更新処理と、を辞書作成装置に実行させる。
本発明のデータ処理方法は、辞書作成装置のデータ処理方法であって、学習データに内包されている単語情報を記憶する単語情報記憶動作と、学習データとは別個の入力データに関連して入力される適応データに内包されている単語情報とnグラムの出現頻度とを算出する出現頻度計算動作と、算出された単語情報と出現頻度とに対応して単語情報記憶動作で記憶された単語情報を更新する単語情報更新動作と、を有する。
なお、本発明の各種の構成要素は、その機能を実現するように形成されていればよく、例えば、所定の機能を発揮する専用のハードウェア、所定の機能がコンピュータプログラムにより付与されたデータ処理装置、コンピュータプログラムによりデータ処理装置に実現された所定の機能、これらの任意の組み合わせ、等として実現することができる。
また、本発明の各種の構成要素は、必ずしも個々に独立した存在である必要はなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でもよい。
また、本発明のコンピュータプログラムおよびデータ処理方法は、複数の処理および動作を順番に記載してあるが、その記載の順番は複数の処理および複数の動作を実行する順番を限定するものではない。
このため、本発明のコンピュータプログラムおよびデータ処理方法を実施するときには、その複数の処理および複数の動作の順番は内容的に支障しない範囲で変更することができる。
さらに、本発明のコンピュータプログラムおよびデータ処理方法は、複数の処理および複数の動作が個々に相違するタイミングで実行されることに限定されない。このため、ある処理および動作の実行中に他の処理および動作が発生すること、ある処理および動作の実行タイミングと他の処理および動作の実行タイミングとの一部ないし全部が重複していること、等でもよい。
さらに、本発明で云う「データを記憶する」とは、本発明の装置が、少なくともデータを記憶する機能を有することを意味している。このため、本発明の装置がコンシューマにより新規に登録されるデータを記憶することの他、サプライヤにより製造時に登録されたデータを記憶して出荷後にはコンシューマにより新規のデータが登録されないことも許容する。
一方、本発明で云う「データを記憶している」とは、本発明の装置が、少なくともコンシューマにより使用されるときに、データを記憶している状態となる機能を有することを意味している。
このため、本発明の装置がサプライヤから出荷されるときにデータが登録されていることの他、出荷されるときには登録されていないデータがコンシューマにより使用されるまでに登録されることも許容する。
また、本発明で云う辞書作成装置は、コンピュータプログラムを読み取って対応する処理動作を実行できるように、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、I/F(Interface)ユニット、等の汎用デバイスで構築されたハードウェア、所定の処理動作を実行するように構築された専用の論理回路、これらの組み合わせ、等として実施することができる。
なお、本発明でコンピュータプログラムに対応した各種動作を辞書作成装置に実行させることは、各種デバイスを辞書作成装置に動作制御させることなども意味している。
例えば、辞書作成装置に各種データを記憶させることは、辞書作成装置に固定されているHDD(Hard Disc Drive)等の情報記憶媒体にCPUが各種データを格納すること、辞書作成装置に交換自在に装填されているCD−R(Compact Disc-Recordable)等の情報記憶媒体にCPUがCDドライブで各種データを格納すること、等を許容する。
本発明の辞書作成装置では、学習データに内包されている単語情報を単語区切りとともに単語情報記憶手段が記憶する。学習データとは別個の入力データに関連した適応データを入力する。入力された適応データに内包されている単語情報とnグラムの出現頻度とを出現頻度計算手段が算出する。算出された単語情報と出現頻度とに対応して単語情報記憶手段に記憶されている単語情報の単語区切りを単語情報更新手段が更新する。このため、学習データそのものを直接用いることなく、適応データに内包されている単語情報や単語(nグラム)の出現頻度を用いて最適な単語区切りを決定して、学習データより求められた単語情報を更新している。従って、従来のような学習データに基づいた最適な単語区切りではなく、適応データに応じて逐次的に最適な単語区切りを設定することができる。
本発明の実施の第一の形態を図1および図2を参照して以下に説明する。まず、図1を参照すると、本発明の実施の第一の形態の辞書作成装置100は、学習データに内包されている単語情報を記憶する単語情報記憶部101と、学習データとは別個の入力データに関連して入力される適応データに内包されている単語情報とnグラムの出現頻度とを算出する出現頻度計算部103と、算出された単語情報と出現頻度とに対応して単語情報記憶部101に記憶されている単語情報を更新する単語情報更新部104と、を有する。
より具体的には、本実施の形態の辞書作成装置100は、学習データとは別個の入力データに関連した適応データを入力する適応データ入力部102を、さらに有する。この適応データ入力部102は、実際には各種データの入力部として、上述の学習データや入力データも入力される。
本実施の形態の辞書作成装置100は、例えば、自然言語音声を入力データとする音声認識装置(図示せず)に利用される。このような音声認識装置および辞書作成装置100は、マイクロフォンなどの必要なデバイスが接続されて適正なコンピュータプログラムが実装されたコンピュータ装置などとして実現される。
このようなコンピュータプログラムは、例えば、辞書作成装置100のコンピュータプログラムであって、学習データに内包されている単語情報を記憶する単語情報記憶処理と、学習データとは別個の入力データに関連して入力される適応データに内包されている単語情報とnグラムの出現頻度とを算出する出現頻度計算処理と、算出された単語情報と出現頻度とに対応して単語情報記憶処理で記憶された単語情報を更新する単語情報更新処理と、を辞書作成装置100に実行させるように記述されている。
より具体的には、本実施の形態の辞書作成装置100の単語情報記憶部101は、学習データに内包されている単語情報を記憶する。単語情報は、学習データを形態素解析し、その結果から出現頻度の高い単語列(名詞列など)を複合語として単語単位を修正された情報である。
なお、複合語を生成する方法として、共起頻度(nグラム頻度)を用いる方法や、特許文献1に開示のエントロピーを用いる方法、特開2001−249921号公報などに開示の係り受け情報を用いる方法等の従来方法を用いる。
また、ここで単語情報とは、具体的には単語表記を指す。単語表記以外にも、単語の読みや品詞など音声認識における辞書で必要な情報が含まれていてもよい。加えて、単語の情報として複合語の情報なども付加しておくとよい。具体的には、複合語か否かという情報や、複合語だった場合に単語の構成情報(元の単語の区切り位置)などが考えられる。
適応データ入力部102は、認識対象の入力データである入力音声と同じ(もしくは類似した)分野(ドメイン)で、学習データとは別個の適応データを入力する。出現頻度計算部103は、適応データ入力部102にて入力された適応データを形態素解析して単語単位に分割した後、単語(nグラム)の出現頻度を求める。
ここで求めた適応データに内包されている単語情報と、単語(nグラム)の出現頻度情報を単語情報更新部104に送る。ここで、単語情報とは、単語の表記を指し、単語の読みや品詞などの形態素情報を含めてもよい。また、出現頻度情報として、単語の共起情報などを含めてもよい。
単語情報更新部104は、まず単語情報記憶部101に記憶された単語情報、出現頻度計算部103から送られた単語情報および単語(nグラム)の出現頻度、共起情報、に基づいて単語を分割すべきかを求める。
単語の分割決定方法については、適応データにおける出現頻度により判定する方法等の従来方式を用いることで実現する。一例として、適応データの単語情報および頻度情報を入力として、特開2001−249921号公報などに開示の方式で、適応データにおける最適な単語単位を求めることができる。
なお、ここで処理対象となる単語は、単語情報記憶部101に記憶された単語のうち、複合語の単語のみである(元の単語の区切り位置が分かるため、処理時に元の単語単位に分割可能)。
つぎに、単語情報記憶部101に記憶された単語情報に単語区切りに変更のあった(新たに分割された)単語情報を追加し、出力する。ここで更新された単語情報を音声認識用の辞書として用いることも可能である。
上述の単語情報記憶部101に記憶された単語情報は多くの複合語から構成されており、単語情報更新部104で分割する条件を満たした場合に複合語を元の単語単位に分割し戻しているが、単語の結合および分割の順序を逆にすることも可能である。
すなわち、単語情報記憶部101は学習データを単語単位の修正を行わず形態素解析した結果(単語単位)をそのまま用いた単語情報が記憶されており、単語情報更新部104において従来方式を用いて単語を結合する。その後、単語区切りに変更のあった単語情報を単語情報更新部104で追加、更新する。
つぎに、図2のフローチャートを参照して本実施の形態の辞書作成装置100のデータ処理方法について詳細に説明する。まず、学習データに内包されている単語情報を記憶する単語情報記憶部101を用意しておく。
このような状態で、図2に示すように、入力音声と関連する適応データを適応データ入力部102より入力し、出現頻度計算部103にて形態素解析を実行する(ステップS201)。
ステップS201で得た形態素解析結果から適応データに内包されている単語を抽出し、さらにnグラムを計算する(ステップS202)。その後、単語情報更新部104にて単語情報記憶部101に記憶された単語情報を読み込み、出現頻度計算部103にて求められた単語情報およびnグラムの出現頻度情報をもとにして、単語区切りを決定する(ステップS203)。ここで単語情報とは単語の表記等を指す。
また、単語区切りの決定には従来方式を用いる。最後に、単語情報記憶部101から読み込んだ単語情報を読み込み、単語区切りに変更のあった単語情報を追加して更新した単語情報を出力する(ステップS204)。ここで出力された単語情報を音声認識用の辞書として用いることも可能である。
つぎに、本実施の形態の辞書作成装置100の効果について説明する。本実施の形態の辞書作成装置100では、学習データそのものを直接用いることなく、適応データに内包されている単語情報や単語(nグラム)の出現頻度を用いて最適な単語区切りを決定して、学習データより求められた単語情報を更新しているため、従来のような学習データに基づいた最適な単語区切りではなく、適応データに応じて逐次的に最適な単語区切りを求めることができる。
例えば、講演音声を対象とした音声認識用の辞書を作る際には講演全般のデータを集めてきて学習データとする。より高い認識精度を得るためには、講演の中でもその分野の講演データ、例えば過去の同じテーマの講演の議事録や書き起こしなどを学習データとするのが望ましいが、その量は非常に限られており、認識に対して頑健な辞書を作成することが困難である。
そこで、大量の学習データから基礎となる単語情報を記憶した上で、少量の適応データを用いて単語区切りを修正する。これにより、学習データにより広範な語彙をカバーし、かつ適応データから認識対象となる音声に応じた単語区切りに修正することができる。
具体例を用いて説明すると、「音声認識」は広範な分野から集めてきたデータにはまれにしか出てこない単語列であるが、音声認識分野に特化すると非常に使用頻度の高い単語列である。
逆に「個人情報」という単語は近年よく使われる単語列であるが、音声認識分野においてはあまり使用されず、むしろ「〜情報」と他の単語列との組み合わせで「情報」が使われることが多い。
このような場合に、本実施の形態では学習データから事前に「音声」「認識」「個人情報」と単語情報を記憶しておき、その後適応データ(ここでは音声認識分野に関するデータ)の出現傾向に合わせて「音声認識」「個人」「情報」と単語区切りを修正、更新することができる。
なお、前述した特許文献1の技術において、音声認識対象とするテキスト(適応データ)が存在した場合に、その適応データを用いて辞書を適応することも考えられる。しかし、特許文献1には、本実施の形態の辞書作成装置100のように、適応データに応じて辞書を逐次的に更新させる方法は述べられていない。
つぎに、本発明の実施の第二の形態を図3を参照して詳細に説明する。図3を参照すると、本発明の実施の第二の形態の辞書作成装置110は、単語情報を記憶する単語情報記憶部101と、nグラムの出現頻度を記憶する言語モデル記憶部111と、適応データを記憶する適応データ入力部102と、適応データにおける単語の出現頻度を計算する出現頻度計算部103と、算出された単語情報と出現頻度とに対応して単語情報記憶部101に記憶されている単語情報の単語区切りを修正する単語情報更新部112と、を有する。
これらの手段は、それぞれ概略つぎのように動作する。言語モデル記憶部111は、学習データにおける単語(nグラム)の出現頻度を記憶する。単語(nグラム)の出現頻度以外に、単語の共起情報等を含んでいてもよい。
単語情報更新部112は、単語情報記憶部101より送られてきた学習データに内包されている単語情報、出現頻度計算部103から送られた単語情報および単語(nグラム)の出現頻度、共起情報等をもとに単語を分割すべきかを求める。
つぎに、単語情報記憶部101より送られてきた学習データに内包されている単語情報に、単語区切りに変更のあった単語情報を反映させる。さらに、言語モデル記憶部111より送られてきた単語(nグラム)の出現頻度を用いて、単語区切りに変更があったことで不要となった(他に使われることのない)単語情報を取り除く。
例えば、単語情報更新部112にて「単語」「連鎖」の二単語が「単語連鎖」と一語になったとすると、「単語連鎖」以外に「単語」に後続し、複合語となりうる単語列が言語モデル記憶部111に記憶された単語(nグラム)に存在しなかった場合、すなわち単語モデル記憶部に記憶された一語に結合する前の「単語」のユニグラム頻度が「単語連鎖」のユニグラム頻度と一致した場合には、その「単語」を取り除く。なお、単語情報更新部112にて出力された単語情報を音声認識用の辞書に用いてもよい。
本実施の形態の全体の動作は、実施の第一の形態における全体の動作(図2)と同じである。ただし、ステップS204において、言語モデル記憶部111よりnグラムの出現頻度情報を読み込むことで、単語区切りが変更になったことにより不要となった単語を取り除いて単語情報を更新する点が実施の第一の形態と異なる。
つぎに、本形態の辞書作成装置110の効果について説明する。本実施の形態の辞書作成装置110では、言語モデル記憶部111より学習データにおけるnグラムの出現頻度情報を読み込んで、単語情報更新部112にて単語情報を更新している。
このため、実施の第一の形態の効果に加えて、単語情報記憶部101に記憶された単語情報から、単語区切りの変更によって不要となった単語情報を取り除くことができる。
つぎに、本発明の実施の第三の形態について図4および図6を参照して詳細に説明する。図4を参照すると、本発明の実施の第三の形態の辞書作成装置120は、単語情報を記憶する単語情報記憶部101と、nグラムの出現頻度を記憶する言語モデル記憶部111と、適応データを記憶する適応データ入力部102と、適応データにおける単語の出現頻度を計算する出現頻度計算部103と、適応データをもとに単語区切りを修正して単語情報を更新する単語情報更新部121と、単語区切りに変更のあった単語を含む単語(nグラム)の頻度を再計算する出現頻度再計算部122と、言語モデルを作成する言語モデル作成部123と、を有する。
単語情報更新部121は、実施の第二の形態における単語情報更新部112と同じ動作をする。さらに、単語区切りに変更のあった単語情報を出現頻度再計算部122に送る。
出現頻度再計算部122は、言語モデル記憶部111に記憶された単語(nグラム)の出現頻度を読み込み、さらに単語情報更新部121の結果を受けて、単語区切りに変更のあった単語を含む(iグラム(i≦n)の)頻度のみ再計算し更新する。
具体的には、以下のようにして頻度を求める。すなわち、w_mがw_m1とw_m2に分割されたとき、分割前のi単語列「w_m−i+1,w_m−i+2,・・・,w_m−1,w_m」の頻度がk回だったとすると、分割後のiグラムの頻度を以下の数1および数2のようにして求める。
ここで再計算するnグラムは、分割された単語を含むnグラムのみである。また、言語モデル記憶部111に記憶されたnグラムに単語列「w_m−i+1,w_m−i+2,・・・,w_m−1,w_m1」もしくは「w_m−i+2,w_m−i+3,・・・,w_m−1,w_m1,w_m2」が含まれていた場合には、上記で求めた頻度と合計を求める必要がある。
n=3の場合について、具体例を用いて頻度再計算方法を詳しく説明する。(分割前の例を図5に、分割後の再計算した後の結果を図6に示す。)例えば、「単語連鎖」という複合語を「単語」と「連鎖」の二単語に分割する場合、再計算が必要な3グラムは、「単語連鎖」を含む「ため+の+単語連鎖」「内+の+単語連鎖」「従来+の+単語連鎖」の三つである。
これらの3グラムについて「単語連鎖」を「単語」と「連鎖」に分割すると、3グラムは、それぞれ「ため+の+単語」「の+単語+連鎖」、「内+の+単語」「の+単語+連鎖」、「従来+の+単語」「の+単語+連鎖」となる。
このうち、「の+単語+連鎖」は既存の3グラムに存在しなかったエントリであるため、それぞれの頻度を足し合わせて3+2+1=6回となる。一方、その他の「ため+の+単語」「内+の+単語」「従来+の+単語」は既存の3グラムに存在している可能性があり、実際この例では既存の3グラムに「ため+の+単語」のエントリが存在している。
既存の3グラムに分割後の3グラムが存在していた場合、すなわち「ため+の+単語」はその合計を求める。すなわち既存の3グラムの頻度4回と、分割によって新たに加えられる頻度3回を足し合わせて7回となる。
このようにして求まった単語(nグラム)の出現頻度を言語モデル作成部123に送る。言語モデル作成部123は、出現頻度再計算部122にて再計算された単語(nグラム)の出現頻度をもとに言語モデルを作成する。
言語モデルの作成方法については、例えば、
http://winnie.kuis.kyoto-u.ac.jp/dictation/doc/lang_m.pdf
のサイトに記載されている公知手法等を用いる。
http://winnie.kuis.kyoto-u.ac.jp/dictation/doc/lang_m.pdf
のサイトに記載されている公知手法等を用いる。
単語を結合する場合については、複合語が分割される場合とは異なり厳密に単語(nグラム)の出現頻度を求めることができない。これは、元の学習データ(テキスト)を記憶していないために、n単語より前の情報を保持していないためである。
よって、近似的に頻度を求め、その値を更新値とする。具体的には、w_m−1とw_mが結合してw_m'になった場合について、近似的に求める方法を数3に示す。なお、ここでは、学習データにおける出現頻度を用いて近似しているが、学習データにおける文書頻度や単語列「w_m−n+1,w_m−n+2,・・・,w_m−2」の後に来る単語の種類数や単語の共起情報なども用いて近似する方法も考えられる。
ここで、n=3の場合について、図7および図8を用いて具体的に説明する。まず、「単語」と「連鎖」という単語を一語の「単語連鎖」に変更するとき、「単語連鎖」を含む3グラム「の+単語+連鎖」の頻度を再計算する必要がある。
しかし、「の+単語連鎖」の単語列に連鎖する直前の単語が保持していないため、「の+単語」を含む3グラム「*+の+単語」("*"は任意の単語)の頻度を用いて「*+の+単語連鎖」の頻度を推定する。
例えば、「類似+の+単語連鎖」という3グラムの頻度を推定する場合には、「*+の+単語」の総和が10であるため、f(の,単語,連鎖)×f(類似,の,単語)÷10=2.4となる。
このようにして近似して単語(nグラム)の頻度の情報を言語モデル作成部123に送る。なお、言語モデル作成部123での動作は上記の方法と同様である。つぎに、本実施の形態の全体の動作について図9を用いて詳細に説明する。
まず、適応データ入力部102より入力音声と関連する適応データを入力して出現頻度計算部103にて形態素解析を実行する(ステップS221)。さらに、その結果から適応データにおいて出現している単語を抽出し、nグラムを計算する(ステップS222)。
その後、単語情報更新部121にて、単語情報記憶部101に記憶された単語情報(、必要に応じて言語モデル記憶部111に記憶されたnグラムの出現頻度情報)を読み込んだうえで、出現頻度計算部103にて求められた適応データにおける単語情報およびnグラムの出現頻度情報をもとにして、単語を結合するか分割するか(何もしないか)を決定する(ステップS223)。
そして、単語区切りに変更があった単語について、単語情報を更新する(ステップS224)。さらに、言語モデル記憶部111に記憶された単語(nグラム)の出現頻度を読み込んで、単語区切り変更に伴い不要となった単語情報を削除する。
つぎに、出現頻度再計算部122において、単語区切りに変更があった単語を含むnグラムの出現頻度を再計算する(ステップS225)。ここで再計算されたnグラムの出現頻度情報を用いて、言語モデル作成部123にて言語モデルを作成する(ステップS226)。
つぎに、上記形態の辞書作成装置120の効果について説明する。本形態の辞書作成装置120では、単語区切りに変更のあった単語を含むnグラム頻度のみ再計算をして言語モデルを作成するように構成されている。
このため、特許文献1に開示の方法のように学習データを保持しておく必要も、単語区切りの変更に伴って学習データを入力として形態素解析し直し単語(nグラム)の頻度を再計算する必要もない。
すなわち、本形態の辞書作成装置120では、出現頻度再計算部122において、単語情報更新部121で単語区切りに変更のあった単語を含むnグラムのみ頻度の再計算を行うため、従来と比べて処理量を大幅に削減することができる。
また、適応データによって最適化された単語単位を持つ辞書に合わせて言語モデルを作り直しているため、最適な単語単位に合わせた言語モデルを作り直すことができる。すなわち、入力音声に合わせて逐次的に言語モデルを作り直すことができる。
なお、本発明は本実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で各種の変形を許容する。例えば、上記形態では自然言語音声を入力データとすることを想定した。
上記形態の辞書作成装置100、110、120は、音声信号をテキスト化する音声認識装置、さらに話す話題に辞書・言語モデルを適応する音声認識装置、キーワードを入力して文書を検索するテキスト検索装置といった用途にも適用可能である。
さらに、本実施の形態では辞書作成装置の各部がコンピュータプログラムにより各種機能として論理的に実現されることを例示した。しかし、このような各部の各々を固有のハードウェアとして形成することもでき、ソフトウェアとハードウェアとの組み合わせとして実現することもできる。
なお、当然ながら、上述した実施の形態および複数の変形例は、その内容が相反しない範囲で組み合わせることができる。また、上述した実施の形態および変形例では、各部の構造などを具体的に説明したが、その構造などは本願発明を満足する範囲で各種に変更することができる。
10 学習テキストDB
20 辞書作成装置
21 出現頻度計算手段
22 エントロピー計算手段
23 語彙更新手段
24 判別手段
25 学習テキスト更新手段
30 語彙DB(辞書)
100 辞書作成装置
101 単語情報記憶部
102 適応データ入力部
103 出現頻度計算部
104 単語情報更新部
110 辞書作成装置
111 言語モデル記憶部
112 単語情報更新部
120 辞書作成装置
121 単語情報更新部
122 出現頻度再計算部
123 言語モデル作成部
S201 適応データを形態素解析
S202 出現単語を登録し、単語nグラムを計算
S203 単語の区切り位置を決定
S204 単語情報を更新
S221 適応データを形態素解析
S222 出現単語を登録し、単語nグラムを計算
S223 単語の区切り位置を決定
S224 単語情報を更新
S225 単語nグラムを再計算
S226 言語モデルを作成
20 辞書作成装置
21 出現頻度計算手段
22 エントロピー計算手段
23 語彙更新手段
24 判別手段
25 学習テキスト更新手段
30 語彙DB(辞書)
100 辞書作成装置
101 単語情報記憶部
102 適応データ入力部
103 出現頻度計算部
104 単語情報更新部
110 辞書作成装置
111 言語モデル記憶部
112 単語情報更新部
120 辞書作成装置
121 単語情報更新部
122 出現頻度再計算部
123 言語モデル作成部
S201 適応データを形態素解析
S202 出現単語を登録し、単語nグラムを計算
S203 単語の区切り位置を決定
S204 単語情報を更新
S221 適応データを形態素解析
S222 出現単語を登録し、単語nグラムを計算
S223 単語の区切り位置を決定
S224 単語情報を更新
S225 単語nグラムを再計算
S226 言語モデルを作成
Claims (10)
- 学習データに内包されている単語情報を記憶する単語情報記憶手段と、
前記学習データとは別個の入力データに関連して入力される適応データに内包されている単語情報とnグラムの出現頻度とを算出する出現頻度計算手段と、
算出された前記単語情報と前記出現頻度とに対応して前記単語情報記憶手段に記憶されている前記単語情報を更新する単語情報更新手段と、
を有する辞書作成装置。 - 前記単語情報記憶手段は、前記学習データにおける単語出現傾向に対応して複数の単語からなる複合語の前記単語情報を単語区切りとともに記憶し、
前記単語情報更新手段は、前記適応データにおける単語出現傾向に対応して前記複合語を複数の前記単語情報に分割して前記単語区切りを更新する請求項1記載の辞書作成装置。 - 前記単語情報更新手段は、複数の前記単語情報に分割された前記複合語を前記単語情報記憶手段から削除する請求項2記載の辞書作成装置。
- 前記単語情報更新手段は、前記適応データにおける単語出現傾向に対応して複数の単語からなる複合語の前記単語情報を生成する請求項1ないし3の何れか一項に記載の辞書作成装置。
- 前記単語情報更新手段は、前記複合語に結合された複数の前記単語のうち、前記複合語以外の前記nグラムが存在しない前記単語を前記言語モデル記憶手段から削除する請求項4に記載の辞書作成装置。
- 前記学習データにおける前記nグラムの頻度情報を記憶する言語モデル記憶手段と、
前記言語モデル記憶手段に記憶されている前記nグラムの頻度情報と前記単語情報更新手段の更新結果とから前記nグラムの出現頻度を再計算する出現頻度再計算手段と、
前記出現頻度再計算手段にて更新された前記nグラムの出現頻度をもとに言語モデルを作成する言語モデル作成手段とを、
さらに有する請求項5に記載の辞書作成装置。 - 前記出現頻度再計算手段は、前記単語情報更新手段で複数の前記単語に分割された前記複合語の前記nグラムを分割数−n+1組の前記nグラムに再構成し、そのnグラムの出現頻度に再構成前の前記nグラムの出現頻度を適用する請求項6記載の辞書作成装置。
- 前記出現頻度再計算手段は、前記単語情報更新手段で複数の前記単語を結合した前記複合語のnグラムの出現頻度に結合以前の複数の前記単語の各々のnグラムの出現頻度とn番目の単語を除いた(n−1)グラムの頻度から近似した値を適用する請求項6記載の辞書作成装置。
- 辞書作成装置のコンピュータプログラムであって、
学習データに内包されている単語情報を記憶する単語情報記憶処理と、
前記学習データとは別個の入力データに関連して入力される適応データに内包されている単語情報とnグラムの出現頻度とを算出する出現頻度計算処理と、
算出された前記単語情報と前記出現頻度とに対応して前記単語情報記憶処理で記憶された前記単語情報を更新する単語情報更新処理と、
を前記辞書作成装置に実行させるコンピュータプログラム。 - 辞書作成装置のデータ処理方法であって、
学習データに内包されている単語情報を記憶する単語情報記憶動作と、
前記学習データとは別個の入力データに関連して入力される適応データに内包されている単語情報とnグラムの出現頻度とを算出する出現頻度計算動作と、
算出された前記単語情報と前記出現頻度とに対応して前記単語情報記憶動作で記憶された前記単語情報を更新する単語情報更新動作と、
を有するデータ処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010013860A JP2011154061A (ja) | 2010-01-26 | 2010-01-26 | 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010013860A JP2011154061A (ja) | 2010-01-26 | 2010-01-26 | 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011154061A true JP2011154061A (ja) | 2011-08-11 |
Family
ID=44540109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010013860A Pending JP2011154061A (ja) | 2010-01-26 | 2010-01-26 | 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011154061A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014106707A (ja) * | 2012-11-27 | 2014-06-09 | Yahoo Japan Corp | 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム |
JP2014120007A (ja) * | 2012-12-18 | 2014-06-30 | Yahoo Japan Corp | 辞書登録装置、単語分割装置、辞書登録方法、単語分割方法、およびプログラム |
JP2014219569A (ja) * | 2013-05-08 | 2014-11-20 | 日本放送協会 | 辞書作成装置、及び辞書作成プログラム |
CN106557178A (zh) * | 2016-11-29 | 2017-04-05 | 百度国际科技(深圳)有限公司 | 用于更新输入法词条的方法及装置 |
-
2010
- 2010-01-26 JP JP2010013860A patent/JP2011154061A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014106707A (ja) * | 2012-11-27 | 2014-06-09 | Yahoo Japan Corp | 単語分割装置、単語分割用辞書のデータ構造、単語分割方法、およびプログラム |
JP2014120007A (ja) * | 2012-12-18 | 2014-06-30 | Yahoo Japan Corp | 辞書登録装置、単語分割装置、辞書登録方法、単語分割方法、およびプログラム |
JP2014219569A (ja) * | 2013-05-08 | 2014-11-20 | 日本放送協会 | 辞書作成装置、及び辞書作成プログラム |
CN106557178A (zh) * | 2016-11-29 | 2017-04-05 | 百度国际科技(深圳)有限公司 | 用于更新输入法词条的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019347734B2 (en) | Conversational agent pipeline trained on synthetic data | |
JP7092953B2 (ja) | エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
US10319373B2 (en) | Information processing device, information processing method, computer program product, and recognition system | |
JP6580882B2 (ja) | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム | |
JP2004258658A (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
JP2008262279A (ja) | 音声検索装置 | |
JPH06110493A (ja) | 音声モデルの構成方法及び音声認識装置 | |
KR20070045748A (ko) | 개체명 검출 장치 및 방법 | |
JP5799733B2 (ja) | 認識装置、認識プログラムおよび認識方法 | |
CN108074562B (zh) | 语音识别装置、语音识别方法以及存储介质 | |
JP7544989B2 (ja) | ルックアップテーブルリカレント言語モデル | |
JP2015014774A (ja) | 音声認識用wfst作成装置、音声認識装置、音声認識用wfst作成方法、音声認識方法及びプログラム | |
Thomas et al. | RNN transducer models for spoken language understanding | |
JP2011154061A (ja) | 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法 | |
JP4820240B2 (ja) | 単語分類装置及び音声認識装置及び単語分類プログラム | |
Kipyatkova et al. | Recurrent neural network-based language modeling for an automatic Russian speech recognition system | |
JP6674876B2 (ja) | 補正装置、補正方法及び補正プログラム | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
JP3950957B2 (ja) | 言語処理装置および方法 | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
JP2004271615A (ja) | 情報処理装置 | |
JP6078435B2 (ja) | 記号列変換方法、音声認識方法、それらの装置及びプログラム | |
JP2004272134A (ja) | 音声認識装置及びコンピュータプログラム | |
JP2003022091A (ja) | 音声認識方法および音声認識装置ならびに音声認識プログラム |