JP2017009691A - 言語モデル生成装置およびそのプログラム - Google Patents

言語モデル生成装置およびそのプログラム Download PDF

Info

Publication number
JP2017009691A
JP2017009691A JP2015122789A JP2015122789A JP2017009691A JP 2017009691 A JP2017009691 A JP 2017009691A JP 2015122789 A JP2015122789 A JP 2015122789A JP 2015122789 A JP2015122789 A JP 2015122789A JP 2017009691 A JP2017009691 A JP 2017009691A
Authority
JP
Japan
Prior art keywords
language model
evaluation
weight
sentence
mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015122789A
Other languages
English (en)
Other versions
JP6518142B2 (ja
Inventor
和穂 尾上
Kazuho Onoe
和穂 尾上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK filed Critical Nippon Hoso Kyokai NHK
Priority to JP2015122789A priority Critical patent/JP6518142B2/ja
Publication of JP2017009691A publication Critical patent/JP2017009691A/ja
Application granted granted Critical
Publication of JP6518142B2 publication Critical patent/JP6518142B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】過学習を抑え、音声認識対象の話題依存言語モデルとグローバル言語モデルとを混合して新たな言語モデルを生成する言語モデル生成装置を提供する。【解決手段】言語モデル生成装置1は、グローバル言語モデルに対して、評価用文章の全体で評価した全体評価値と評価用文章を区分した区分文章で評価した区分文章ごとの個別評価値とを算出し、区分文章ごとに評価重みを生成する評価重み生成手段10と、区分文章ごとに、評価重みの割合で混合対象の言語モデルを線形和補間したときの対数尤度が最大となるそれぞれの言語モデルの混合重みを生成する混合重み生成手段(第1混合重み生成手段11A、第2混合重み生成手段11B)と、生成した混合重みで混合対象の言語モデルを線形和補間する線形和補間手段(第1線形和補間手段12A、第2線形和補間手段12B)と、を備える。【選択図】図1

Description

本発明は、複数の言語モデルを混合して新たな言語モデルを生成する言語モデル生成装置およびそのプログラムに関する。
従来、独立した学習コーパスから生成された複数の言語モデル(統計的言語モデル)を、音声の認識精度を高めるために混合する手法が存在する(例えば、特許文献1参照)。
この手法は、音声認識対象(発話内容等)と類似した評価用文章を用いて、評価用文章の生成確率が最大となるように線形補間係数(混合重み)を求め、あるいは、線形補間係数をベイズ学習法により求めて、各言語モデルを線形和補間するものである。
ここで、図6を参照して、従来の一般的な言語モデルの混合手法について説明する。
図6に示すように、ここでは、2つの言語モデル(グローバル言語モデル20、話題依存言語モデル40)を混合することとする。なお、グローバル言語モデル20は、大規模学習データ(大規模コーパス200)から予め学習し生成したものである。また、話題依存言語モデル40は、音声認識対象の話題(トピック)に依存した小規模学習データ(話題依存小規模コーパス400)から予め学習し生成したものである。
例えば、特許文献1の背景技術として記載されている従来手法(第1従来手法)によれば、音声認識対象の話題と類似した評価用文章Hを用いて、評価用文章Hの生成確率が最大となる最尤学習により、グローバル言語モデル20と話題依存言語モデル40との混合重みλを計算する。そして、第1従来手法は、線形和補間手段Mによって、計算で求めた混合重みλを用いて、グローバル言語モデル20と話題依存言語モデル40とを重み付け加算(線形和補間)して混合言語モデル80を生成する。
また、特許文献1に記載の発明に係る他の手法(第2従来手法)によれば、前記した第1従来手法よりも少ない評価用文章Hを用いて、ベイズ学習により、線形補間係数を求め、線形和補間して混合言語モデル80を生成する。
このように生成された混合言語モデル80を用いて、音声認識装置100が音声認識を行うことで、グローバル言語モデル20のみを用いる場合に比べ、特定の話題に対する音声認識精度を高めることができる。
なお、第1従来手法では、評価用文章Hを極力コーパス(大規模コーパス200、話題依存小規模コーパス400)とは異なるように選定することで、過学習を抑えるようにしている。また、第2従来手法では、ベイズ学習を用いて、第1従来手法よりも評価用文章Hの数を減らすことで、さらに、過学習を抑えるようにしている。
ここで、過学習とは、コーパス内に評価用文章が存在していた場合に、その文章(学習データ)に強く言語モデルの出現確率が依存し、他の文章(未知データ)において期待される出現確率が得られない状態となることをいう。
特開2005−84179号公報
前記した第1,第2従来手法は、評価用文章を極力コーパスとは異なるように選定したり、ベイズ学習を用いることで少数の評価用文章を選定したりすることで、過学習を抑えるようにしている。
しかし、コーパスが大規模であればあるほど、コーパス内に存在している文章を除いて、評価用文章を選定することは現実的に困難である。すなわち、従来手法では、評価用文章としてコーパス内の文章を用いる場合があり、評価用文章により過学習が発生してしまうという問題がある。
本発明は、このような問題に鑑みてなされたものであり、評価用文章に用いる各文章が評価用文章として適切か否かを予め評価し、適切な評価用文章を用いることで、過学習を抑えて、言語モデルを混合することが可能な言語モデル生成装置およびそのプログラムを提供することを課題とする。
前記課題を解決するため、本発明に係る言語モデル生成装置は、音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデルと、前記学習コーパスよりもデータ量の多い学習コーパスで予め学習したグローバル言語モデルとを混合し、音声認識対象の混合言語モデルを生成する言語モデル生成装置であって、評価重み生成手段と、第1混合重み生成手段と、第1線形和補間手段と、第2混合重み生成手段と、第2線形和補間手段と、を備える構成とした。
かかる構成において、言語モデル生成装置は、評価重み生成手段によって、グローバル言語モデルに対して、音声認識対象の話題に関連する予め選定された評価用文章の全体を用いて、言語モデルを評価するための評価値(例えば、パープレキシティ)を全体評価値として算出する。
さらに、言語モデル生成装置は、評価重み生成手段によって、グローバル言語モデルに対して、評価用文章を予め定めた分類により区分した区分文章を用いて、区分文章ごとの評価値を個別評価値として算出する。
そして、言語モデル生成装置は、評価重み生成手段によって、区分文章ごとに評価用文章としての適否の度合いを評価重みとして生成する。すなわち、評価重み生成手段は、区分文章を用いた方が評価用文章全体を用いた場合よりもグローバル言語モデルの評価が低ければ、区分文章の評価重みを大きく、評価が高ければ、区分文章の評価重みを小さくして評価重みを生成する。これは、区分文章を用いた方がグローバル言語モデルの評価が高ければ、区分文章がすでにグローバル言語モデルを学習するために用いた学習コーパスに含まれている可能性が高く、過学習となることを防止するためである。
このように、区分単位で評価用文章を評価することで、言語モデル生成装置は、評価用文章の区分単位ごとに過学習の度合いを評価することが可能になる。
そして、言語モデル生成装置は、第1混合重み生成手段によって、グローバル言語モデルを学習するために用いた学習コーパスを構成する複数の個別学習コーパスから予め学習した複数の個別言語モデルを、区分文章ごとに評価重みの割合で線形和補間したときの対数尤度が最大となる混合重みを生成する。
このように、第1混合重み生成手段は、言語モデルを線形和補間する割合として評価重みを加味することで、過学習の発生を抑えるとともに、評価用文章における区分文章の生成確率を高める方向に作用する混合重みを生成することができる。
そして、言語モデル生成装置は、第1線形和補間手段によって、第1混合重み生成手段で生成された混合重みの割合で、複数の個別言語モデルを線形和補間して混合グローバル言語モデルを生成する。すなわち、この混合グローバル言語モデルは、グローバル言語モデルよりも、音声認識対象の話題に対する単語の接続確率を高めた言語モデルとなる。
また、言語モデル生成装置は、第2混合重み生成手段によって、区分文章ごとに評価重みの割合で混合グローバル言語モデルと話題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する。
このように、第2混合重み生成手段は、言語モデルを線形和補間する割合として評価重みを加味することで、過学習の発生を抑えるとともに、評価用文章における区分文章の生成確率を高める方向に作用する混合重みを生成することができる。
そして、言語モデル生成装置は、第2線形和補間手段によって、第2混合重み生成手段で生成された混合重みの割合で、混合グローバル言語モデルおよび話題依存言語モデルを線形和補間することで音声認識対象の混合言語モデルを生成する。
また、前記課題を解決するため、本発明に係る言語モデル生成装置は、音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデルと、前記学習コーパスよりもデータ量の多い学習コーパスで予め学習したグローバル言語モデルとを混合し、前記音声認識対象の混合言語モデルを生成する言語モデル生成装置であって、評価重み生成手段と、混合重み生成手段と、線形和補間手段と、を備える構成とした。
かかる構成において、言語モデル生成装置は、評価重み生成手段によって、グローバル言語モデルに対して、音声認識対象の話題に関連する予め選定された評価用文章の全体を用いて、言語モデルを評価するための評価値(例えば、パープレキシティ)を全体評価値として算出する。
さらに、言語モデル生成装置は、評価重み生成手段によって、グローバル言語モデルに対して、評価用文章を予め定めた分類により区分した区分文章を用いて、区分文章ごとの評価値を個別評価値として算出する。
そして、言語モデル生成装置は、評価重み生成手段によって、区分文章ごとに評価用文章としての適否の度合いを評価重みとして生成する。すなわち、評価重み生成手段は、区分文章を用いた方が評価用文章全体を用いた場合よりもグローバル言語モデルの評価が低ければ、区分文章の評価重みを大きく、評価が高ければ、区分文章の評価重みを小さくして評価重みを生成する。
このように、区分単位で評価用文章を評価することで、言語モデル生成装置は、評価用文章の区分単位ごとに過学習の度合いを評価することが可能になる。
そして、言語モデル生成装置は、混合重み生成手段によって、区分文章ごとに評価重みの割合でグローバル言語モデルと前題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する。
このように、混合重み生成手段は、言語モデルを線形和補間する割合として評価重みを加味することで、過学習の発生を抑えるとともに、評価用文章における区分文章の生成確率を高める方向に作用する混合重みを生成することができる。
そして、言語モデル生成装置は、線形和補間手段によって、混合重み生成手段で生成された混合重みの割合で、グローバル言語モデルおよび話題依存言語モデルを線形和補間し、音声認識対象の混合言語モデルを生成する。
これによって、言語モデル生成装置は、既存のグローバル言語モデルと、音声認識対象の小規模の話題依存言語モデルとを混合する際に、過学習を抑えて音声認識対象に適した言語モデルを生成することができる。
なお、言語モデル生成装置は、コンピュータを、前記した各手段として機能させるための言語モデル生成プログラムで動作させることができる。
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、混合する言語モデルにおいて、評価用文章の予め区分した文章ごとに、過学習となるか否かを評価して評価重みを生成し、その評価重みを用いて、言語モデルを混合するための混合重みを計算する。そのため、本発明は、過学習を抑えて言語モデルを生成することができる。また、本発明により生成された過学習が抑えられた言語モデルを音声認識に用いることで、従来よりも認識精度の高い音声認識を行うことが可能になる。
本発明の第1実施形態に係る言語モデル生成装置の構成を示すブロック構成図である。 本発明の第1実施形態に係る言語モデル生成装置で使用する言語モデルの概要を説明するための説明図であって、(a)は大規模コーパスから学習された言語モデル、(b)は話題依存小規模コーパスから学習された言語モデルを示す。 本発明の第1実施形態に係る言語モデル生成装置で生成された言語モデルを用いて、音声認識を行う音声認識システムの構成を示す構成図である。 本発明の第1実施形態に係る言語モデル生成装置の動作を示すフローチャートである。 本発明の第2実施形態に係る言語モデル生成装置の構成を示すブロック構成図である。 従来の言語モデルの混合手法を説明するための説明図である。
以下、本発明の実施形態(第1,第2実施形態)について図面を参照して説明する。
第1実施形態は、大規模コーパスを構成する元の素材ごとに学習した複数の言語モデルを音声認識対象の言語に適するように混合し、さらに、小規模コーパスから学習した音声認識対象の話題(トピック)に依存した言語モデルを混合する形態である。
第2実施形態は、第1実施形態を簡略化し、大規模コーパスから学習した1つの言語モデルと、小規模コーパスとなる音声認識対象の話題(トピック)に依存した言語モデルとを混合する形態である。
ここで、言語モデルとは、任意の文字列において、それが文である確率を付与する確率モデル(統計的言語モデル)である。この言語モデルは、例えば、Nグラム言語モデルであって、以下の式(1)に示すように、単語列w…wi−1の後に単語wが出現する条件付き確率(Nグラム確率)で与えるモデルである。
Figure 2017009691
なお、図1等では、式(1)を簡略化して、P(w|h)と表記している。すなわち、hは、単語wの直前に出現する単語列である。
≪第1実施形態≫
〔言語モデル生成装置の構成〕
まず、図1を参照して、本発明の第1実施形態に係る言語モデル生成装置1の構成について説明する。
言語モデル生成装置1は、音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデル40と、当該学習コーパスよりもデータ量の多い学習コーパス(大規模コーパス)を構成する独立した複数の学習コーパスからそれぞれ予め学習した複数の個別言語モデル(ここでは、一例として、原稿言語モデル30、字幕言語モデル31、書き起こし言語モデル32)とを混合し、音声認識対象の言語モデル(混合言語モデル50)を生成するものである。
なお、図1中、グローバル言語モデル20は、原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32を生成したそれぞれの学習コーパスを1つの学習コーパス(大規模コーパス)として学習した言語モデルである。
また、図1中、混合グローバル言語モデル21は、言語モデル生成装置1が、原稿言語モデル30と、字幕言語モデル31と、書き起こし言語モデル32とを混合して生成する途中段階の言語モデルである。
なお、言語モデルの学習とは、学習コーパスから前記式(1)の確率を、最尤推定法等の一般的な手法によって求めるものであり、ここでは、詳細な説明を省略する。
ここで、図2を参照して、言語モデル生成装置1が混合する言語モデルの関係について説明しておく。
図2(a)に示すように、グローバル言語モデル20は、大規模コーパス200に含まれる「原稿」、「字幕」、「書き起こし」のそれぞれの学習データ(個別学習コーパス)から予め学習された言語モデルである。「原稿」は、例えば、ニュース等の放送番組の原稿データである。また、「字幕」は、放送番組に付与した字幕データである。また、「書き起こし」は、放送番組が実際に放送された音声を人手で書き起こした書き起こしデータである。この大規模コーパス200は、これらのデータ(学習データ)を、例えば、数年分蓄積したデータである。
また、図2(a)に示すように、原稿言語モデル30は、大規模コーパス200に含まれる「原稿」から予め学習された言語モデルである。字幕言語モデル31は、大規模コーパス200に含まれる「字幕」から予め学習された言語モデルである。書き起こし言語モデル32は、大規模コーパス200に含まれる「書き起こし」から予め学習された言語モデルである。
また、図2(b)に示すように、話題依存言語モデル40は、話題依存小規模コーパス400から予め学習された言語モデルである。この話題依存小規模コーパス400は、音声認識対象のトピック(話題)に類似した学習データである。例えば、音声認識の対象をスポーツ番組の音声とした場合、話題依存小規模コーパス400は、過去に放送されたスポーツ番組から書き起こした学習データ等である。
図1に戻って、言語モデル生成装置1の構成について詳細に説明する。
図1に示すように、言語モデル生成装置1は、評価重み生成手段10と、混合重み生成手段(第1混合重み生成手段11A、第2混合重み生成手段11B)と、線形和補間手段(第1線形和補間手段12A、第2線形和補間手段12B)と、を備える。
評価重み生成手段10は、評価用文章Hを構成する各文章(単語列)を用いて、グローバル言語モデル20を評価し、評価用文章Hの各文章が評価用文章として適切か否かを評価重みとして生成するものである。
ここで、評価用文章Hは、音声認識対象のトピック(話題)に関連(類似)した内容の文章として選定された文章である。例えば、音声認識対象を、ある情報を提供する放送番組(情報番組)とした場合、評価用文章Hとして、過去の同じ情報番組の書き起こしを用いればよい。ここでは、評価重み生成手段10に入力される評価用文章をH={h,…,h,…}とし、各hは、1以上の文章で構成されるものとする。例えば、各hを、情報番組の番組内の各コーナーの書き起こしとすればよい。すなわち、評価用文章Hは、予め定めた単位、例えば、1文章ごと、あるいは、予め定めた分類で区分された1以上の文章(区分文章)ごとに分類されているものとする。
この評価重み生成手段10は、評価用文章Hを用いて、パープレキシティ(平均分岐数)により、グローバル言語モデル20を評価する。このパープレキシティは、ある単語に対して次につながる単語の平均個数を示し、その値が小さいほど、言語モデルの精度が高いという評価を与えることができる評価値である。
具体的には、評価重み生成手段10は、以下の式(2)により、評価用文章Hの文章全体{h,…,h,…}を用いてパープレキシティPP(全体評価値、全体パープレキシティPPall)と、評価用文章Hの個別の文章(区分文章){h}ごとにパープレキシティPP(個別評価値、個別パープレキシティPP)とを計算する。
Figure 2017009691
この式(2)において、Pglobal(w|wi−N+1…wi−1)は、グローバル言語モデル20の条件付き確率(Nグラム確率)を示す。また、nは、全体パープレキシティPPallを計算する場合、評価用文章Hの文章全体の単語数であり、個別パープレキシティPPを計算する場合、評価用文章Hの個別の区分文章{h}の単語数である。
そして、評価重み生成手段10は、全体パープレキシティPPallと、個別パープレキシティPPとを比較する。ここで、個別パープレキシティPPの方が大きければ、すなわち、区分文章を用いた方が評価用文章H全体を用いた場合よりもグローバル言語モデル20の評価が低ければ、評価重み生成手段10は、対応する個別の区分文章{h}の評価用文章としての重みを大きくする。一方、区分文章を用いた方が評価用文章H全体を用いた場合よりもグローバル言語モデル20の評価が高ければ、評価重み生成手段10は、個別の区分文章{h}の評価用文章としての重みを小さくする。
例えば、評価重み生成手段10は、以下の式(3)に示すように、PP>PPallであれば、文章{h}に対する評価重みαを“1”、PP≦PPallであれば、区分文章{h}に対する評価重みαを“0”とする。
Figure 2017009691
この評価重み生成手段10は、評価用文章Hの区分文章ごとに評価重みを対応付け、重み付き評価用文章として、第1混合重み生成手段11Aおよび第2混合重み生成手段11Bに出力する。
第1混合重み生成手段11Aは、評価重み生成手段10で生成された重み付き評価用文章(評価用文章、評価重み)を用いて、複数の言語モデル(原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32)を混合する重み係数(混合重み)を生成するものである。この第1混合重み生成手段11Aは、重み付き評価用文章の対数尤度が最大となるように各言語モデルの混合重みを算出する。
具体的には、第1混合重み生成手段11Aは、以下の式(4)の対数尤度Lを最大化する原稿言語モデル30の混合重みλgenko、字幕言語モデル31の混合重みλjimaku、書き起こし言語モデル32の混合重みλkakiokoshiを算出する。
Figure 2017009691
この式(4)において、cは、評価用文章H={h,…,h,…}の区分文章hを指し示す指標であり、Cはその文章総数を示す。また、Pgenko(w |wi−N+1 …wi−1 )は、文章hに対する原稿言語モデル30の条件付き確率(Nグラム確率)を示す。また、Pjimaku(w |wi−N+1 …wi−1 )は、区分文章hに対する字幕言語モデル31の条件付き確率(Nグラム確率)を示す。また、Pkakiokoshi(w |wi−N+1 …wi−1 )は、区分文章hに対する書き起こし言語モデル32の条件付き確率(Nグラム確率)を示す。また、nは区分文章hの単語数、wは区分文章hの単語を示す。
この第1混合重み生成手段11Aは、前記式(4)を最大化する混合重みλ(λgenko,λjimaku,λkakiokoshi)を、EMアルゴリズム等により生成(算出)することができる。
この第1混合重み生成手段11Aは、生成した混合重みλ(λgenko,λjimaku,λkakiokoshi)を、第1線形和補間手段12Aに出力する。
第1線形和補間手段12Aは、第1混合重み生成手段11Aで生成された混合重みλを用いて、複数の言語モデル(原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32)を混合するものである。
具体的には、第1線形和補間手段12Aは、以下の式(5)に示すように、混合する言語モデル間で、同じ単語wごとに、混合重みλ(λgenko,λjimaku,λkakiokoshi)を用いてNグラム確率を重み付き加算(線形和補間)することで、混合グローバル言語モデル21を生成する。ここで、Pmix(w|wi−N+1…wi−1)は、生成される混合グローバル言語モデル21のNグラム確率を示す。
Figure 2017009691
このように生成された混合グローバル言語モデル21は、グローバル言語モデル20よりも、音声認識対象の表現に対する条件付き確率を高めた言語モデルとなる。
この第1線形和補間手段12Aは、生成した混合グローバル言語モデル21を、図示を省略した記憶手段に書き込み記憶する。また、この混合グローバル言語モデル21は、後記する第2混合重み生成手段11Bおよび第2線形和補間手段12Bによって参照される。
第2混合重み生成手段11Bは、評価重み生成手段10で生成された重み付き評価用文章(評価用文章、評価重み)を用いて、複数の言語モデル(混合グローバル言語モデル21および話題依存言語モデル40)を混合する重み係数(混合重み)を生成するものである。この第2混合重み生成手段11Bは、重み付き評価用文章の対数尤度が最大となるように各言語モデルの混合重みを算出する。
この第2混合重み生成手段11Bにおける混合重みの生成手法は、混合する言語モデルが異なるだけで、第1混合重み生成手段11Aと同じである。
具体的には、第2混合重み生成手段11Bは、以下の式(6)の対数尤度Lを最大化する混合グローバル言語モデル21の混合重みλmix、話題依存言語モデル40の混合重みλwadaiを算出する。
Figure 2017009691
この式(6)において、Pmix(w |wi−N+1 …wi−1 )は、文章hに対する混合グローバル言語モデル21の条件付き確率(Nグラム確率)を示す。また、Pwadai(w |wi−N+1 …wi−1 )は、文章hに対する話題依存言語モデル40の条件付き確率(Nグラム確率)を示す。他の変数は、前記式(4)と同じである。
この第2混合重み生成手段11Bは、生成した混合重みλ(λmix,λwadai)を、第2線形和補間手段12Bに出力する。
第2線形和補間手段12Bは、第2混合重み生成手段11Bで生成された混合重みλを用いて、複数の言語モデル(混合グローバル言語モデル21および話題依存言語モデル40)を混合するものである。
この第2線形和補間手段12Bにおける混合手法は、混合する言語モデルが異なるだけで、第1線形和補間手段12Aと同じである。
具体的には、第2線形和補間手段12Bは、以下の式(7)に示すように、混合する言語モデル間で、同じ単語wごとに、混合重みλ(λmix,λwadai)を用いてNグラム確率を重み付き加算(線形和補間)することで、混合言語モデル50を生成する。ここで、Pmix2(w|wi−N+1…wi−1)は、生成される混合言語モデル50のNグラム確率を示す。
Figure 2017009691
これによって、混合言語モデル50は、音声認識対象の表現に対する条件付き確率を高めた混合グローバル言語モデル21に対して、さらに、音声認識対象のトピック(話題)についての条件付き確率を高めた言語モデルとなる。
なお、言語モデル生成装置1が生成する混合言語モデル50は、一般的な音声認識装置において使用することができる。その場合、例えば、図3に示すように、音声認識装置100は、言語モデル生成装置1が生成する混合言語モデル50と、既存の発音辞書60および音響モデル70とにより、音声を音声認識し認識結果を出力する。
以上説明したように言語モデル生成装置1を構成することで、言語モデル生成装置1は、複数の言語モデルを混合する際に、使用する評価用文章Hに対して評価重みを設け、混合重みを算出して混合するため、過学習を抑えることができる。
また、言語モデル生成装置1は、混合グローバル言語モデル21において、音声認識対象の表現に対する条件付き確率が高められているため、後記する第2実施形態(図5)のように、グローバル言語モデル20に話題依存言語モデル40を直接混合する場合に比べ、音声認識対象の表現に対する条件付き確率をさらに高めることができる。
なお、言語モデル生成装置1は、図示を省略したコンピュータを、評価重み生成手段10、第1混合重み生成手段11A、第1線形和補間手段12A、第2混合重み生成手段11B、第2線形和補間手段12Bとして機能させるプログラム(言語モデル生成プログラム)で動作させることができる。
〔言語モデル生成装置の動作〕
次に、図4を参照(構成については適宜図1参照)して、本発明の第1実施形態に係る言語モデル生成装置1の動作について説明する。
まず、言語モデル生成装置1は、評価重み生成手段10によって、大規模コーパスを用いて学習したグローバル言語モデル20から、評価用文章Hの評価重みを生成する(ステップS1)。
具体的には、評価重み生成手段10は、評価用文章Hの文章全体{h,…,h,…}を用いてパープレキシティPP(全体パープレキシティPPall)を計算し、評価用文章Hの個別の文章{h}ごとにパープレキシティPP(個別パープレキシティPP)を計算する(前記式(2)参照)。そして、評価重み生成手段10は、全体パープレキシティPPallよりも個別パープレキシティPPの方が大きければ、対応する個別の文章{h}の評価用文章としての重みを大きくし、それ以外であれば、個別の文章{h}の評価用文章としての重みを小さくするように、評価重みを生成する(前記式(3)参照)。
そして、言語モデル生成装置1は、第1混合重み生成手段11Aによって、ステップS1で生成された評価重みを用いて、大規模コーパスに含まれる原稿、字幕、書き起こしの各学習データから学習した原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32を混合する混合重みλ(λgenko,λjimaku,λkakiokoshi)を生成する(ステップS2)。
具体的には、第1混合重み生成手段11Aは、評価用文章の対数尤度が最大となるように原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32の混合重みを算出する(前記式(4)参照)。
そして、言語モデル生成装置1は、第1線形和補間手段12Aによって、ステップS2で算出された混合重みを用いて、原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32を混合し、混合グローバル言語モデル21を生成する(ステップS3)。
具体的には、第1線形和補間手段12Aは、ステップS2で算出された原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32の混合重みλ(λgenko,λjimaku,λkakiokoshi)を用いて、Nグラム確率を重み付き加算(線形和補間)することで、混合グローバル言語モデル21を生成する(前記式(5)参照)。
そして、言語モデル生成装置1は、第2混合重み生成手段11Bによって、ステップS1で生成された評価重みを用いて、ステップS3で生成された混合グローバル言語モデル21と、話題依存小規模コーパスから学習した話題依存言語モデル40とを混合する混合重みλ(λmix,λwadai)を生成する(ステップS4)。
具体的には、第2混合重み生成手段11Bは、評価用文章の対数尤度が最大となるように混合グローバル言語モデル21および話題依存言語モデル40の混合重みを算出する(前記式(6)参照)。
そして、言語モデル生成装置1は、第2線形和補間手段12Bによって、ステップS4で算出された混合重みを用いて、混合グローバル言語モデル21および話題依存言語モデル40を混合し、混合言語モデル50を生成する(ステップS5)。
具体的には、第2線形和補間手段12Bは、ステップS4で算出された混合グローバル言語モデル21および話題依存言語モデル40の混合重みλ(λmix,λwadai)を用いて、Nグラム確率を重み付き加算(線形和補間)することで、混合言語モデル50を生成する(前記式(7)参照)。
以上の動作によって、言語モデル生成装置1は、過学習を抑え、音声認識対象の認識精度を高めた言語モデルを生成することができる。
〔性能評価〕
次に、言語モデル生成装置1を評価した評価結果について説明する。
この評価に用いた大規模コーパス200(図2参照)を構成するコーパス(原稿、字幕、書き起こし)、および、話題依存小規模コーパス400は、過去の放送番組で用いられたデータであって、以下の〔表1〕で示したコーパスサイズである。
Figure 2017009691
言語モデル生成装置1において、〔表1〕で示したコーパスを用いて学習した原稿言語モデル30、字幕言語モデル31、書き起こし言語モデル32および話題依存言語モデル40を混合する。
まず、言語モデル生成装置1が、評価重み生成手段10で生成した評価重みを用いて、言語モデル(ここでは、原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32)を混合する効果について説明する。
以下の〔表2〕には、大規模コーパスを単純に学習して生成したグローバル言語モデル20(Pglobal(w|h))と、評価重みを用いず、前記式(4)で評価重みαを常に“1”にして生成した言語モデル(Pmixtest(w|h))と、本発明の評価重みを用いて生成した混合グローバル言語モデル21(Pmix(w|h))とのそれぞれのパープレキシティの値を示している。
Figure 2017009691
この〔表2〕に示すように、本発明に係る言語モデル生成装置1において、評価用文章Hの評価重みを生成して混合した混合グローバル言語モデル21(Pmix(w|h)は、他の言語モデル(Pglobal(w|h)、Pmixtest(w|h))に比べて、パープレキシティの値が小さくなり、精度の高い言語モデルが生成されたことを示している。
次に、言語モデル生成装置1が生成した言語モデル(混合言語モデル50)を用いた、音声認識の精度について説明する。
以下の〔表3〕には、本発明の評価重みを用いて生成した混合言語モデル50(Pmix2(w|h))を用いて音声認識したときの単語誤り率と、評価重みを用いず、前記式(4)で評価重みαを常に“1”にして生成した言語モデル(Pmix2test(w|h))を用いて音声認識したときの単語誤り率とを示している。
Figure 2017009691
この〔表3〕に示すように、本発明に係る言語モデル生成装置1において、評価用文章Hの評価重みを生成して混合した混合言語モデル50(Pmix2(w|h)は、評価重みを用いないで生成した言語モデル(Pmix2test(w|h))に比べて、単語誤り率が小さく、音声認識の精度を高めることができる。
≪第2実施形態≫
次に、図5を参照して、本発明の第2実施形態に係る言語モデル生成装置1Bの構成について説明する。
言語モデル生成装置1Bは、言語モデル生成装置1(図1参照)と同様に、大規模言語モデル(グローバル言語モデル20)に、音声認識対象の小規模の言語モデル(話題依存言語モデル40)とを重み付け加算して混合するものである。この言語モデル生成装置1Bは、言語モデル生成装置1(図1参照)に比べ、大規模コーパスで予め独立して学習した複数の言語モデル(原稿言語モデル30、字幕言語モデル31および書き起こし言語モデル32〔図1参照〕)を混合しない点が異なる。
図5に示すように、言語モデル生成装置1Bは、評価重み生成手段10と、混合重み生成手段11、線形和補間手段12と、を備える。評価重み生成手段10は、図1で説明した言語モデル生成装置1の構成と同じものであるため、説明を省略する。
混合重み生成手段11は、評価重み生成手段10で生成された重み付き評価用文章(評価用文章、評価重み)を用いて、複数の言語モデル(グローバル言語モデル20および話題依存言語モデル40)を混合する重み係数(混合重み)を生成するものである。この混合重み生成手段11は、重み付き評価用文章の対数尤度が最大となるように各言語モデルの混合重みを算出する。
なお、対数尤度により混合重みを算出する手法は、図1で説明した第1混合重み生成手段11Aや第2混合重み生成手段11Bの手法と同様であるため、ここでは説明を省略する。
この混合重み生成手段11は、生成した混合重みλ(λglobal,λwadai)を、線形和補間手段12に出力する。
線形和補間手段12は、混合重み生成手段11で生成された混合重みλを用いて、複数の言語モデル(グローバル言語モデル20および話題依存言語モデル40)を混合するものである。この線形和補間手段12は、生成した混合言語モデル50Bを外部に出力する。
なお、この混合重みを用いて言語モデルを混合する手法は、図1で説明した第1線形和補間手段12Aや第2線形和補間手段12Bの手法と同様であるため、ここでは説明を省略する。
このように、言語モデル生成装置1Bは、既存の大規模コーパスで生成されたグローバル言語モデル20に対して、音声認識対象のトピックをコーパスとして生成された話題依存言語モデル40を混合することで、対象音声の認識精度を高めることができる。また、このとき、言語モデル生成装置1Bは、評価用文章Hの各文章で、混合重みを計算する際に、評価に適している文章の重みを大きくすることで、すでにコーパス内に含まれ学習されている文章の過学習を抑えることができる。
なお、言語モデル生成装置1Bは、図示を省略したコンピュータを、評価重み生成手段10、混合重み生成手段11、線形和補間手段12として機能させるプログラム(言語モデル生成プログラム)で動作させることができる。
以上、本発明の実施形態(第1,第2実施形態)について説明したが、本発明は、これらの実施形態に限定されるものではなく、以下のように種々変形することができる。
≪その他の変形例≫
ここでは、評価重み生成手段10が生成する評価重みαを、前記式(3)に示すように、2値(“0”,“1”)とした。
しかし、評価重み生成手段10は、評価重みαを、評価用文章Hの文章全体の全体パープレキシティPPallと、各文章の個別パープレキシティPPとの差等を基に、“0”以上“1”以下の範囲の値としてもよい。例えば、文章全体の全体パープレキシティPPallから、各文章の個別パープレキシティPPを減算した差が最大となる文章に対する評価重みを“1”、最小となる文章に対する評価重みを“0”とし、他の文章に対する評価重みについては、その差の大きさの割合に応じて値を付与すればよい。
また、ここでは、評価重み生成手段10は、言語モデルを評価する指標としてパープレキシティを用いた。
しかし、評価重み生成手段10は、言語モデルを数値評価できる指標であれば、必ずしもパープレキシティを用いる必要はない。例えば、エントロピー(前記式(2)のE)、対数尤度(前記式(2)のΣ以降)を用いても構わない。
また、ここでは、複数の言語モデルを例示(例えば、原稿言語モデル30、字幕言語モデル31、書き起こし言語モデル32等)して説明したが、混合する言語モデルは、これらに限定されるものではない。例えば、原稿言語モデル30は、放送番組の原稿以外にも、数年分の新聞の原稿であっても構わない。
1,1B 言語モデル生成装置
10 評価重み生成手段
11 混合重み生成手段
11A 第1混合重み生成手段
11B 第2混合重み生成手段
12 線形和補間手段
12A 第1線形和補間手段
12B 第2線形和補間手段
20 グローバル言語モデル
21 混合グローバル言語モデル
30 原稿言語モデル(個別言語モデル)
31 字幕言語モデル(個別言語モデル)
32 書き起こし言語モデル(個別言語モデル)
40 話題依存言語モデル
50,50B 混合言語モデル

Claims (5)

  1. 音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデルと、前記学習コーパスよりもデータ量の多い学習コーパスで予め学習したグローバル言語モデルとを混合し、前記音声認識対象の混合言語モデルを生成する言語モデル生成装置であって、
    前記話題に関連する予め選定された評価用文章の全体を用いて前記グローバル言語モデルを評価した全体評価値と、前記評価用文章を予め定めた分類により区分した区分文章を用いて前記グローバル言語モデルを評価した前記区分文章ごとの個別評価値とを算出し、前記区分文章ごとに前記評価用文章としての適否の度合いを評価重みとして生成する評価重み生成手段と、
    前記グローバル言語モデルを学習するために用いた学習コーパスを構成する複数の個別学習コーパスから予め学習した複数の個別言語モデルを、前記区分文章ごとに前記評価重みの割合で線形和補間したときの対数尤度が最大となる混合重みを生成する第1混合重み生成手段と、
    この第1混合重み生成手段で生成された混合重みの割合で、前記複数の個別言語モデルを線形和補間して混合グローバル言語モデルを生成する第1線形和補間手段と、
    前記区分文章ごとに前記評価重みの割合で前記混合グローバル言語モデルと前記話題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する第2混合重み生成手段と、
    この第2混合重み生成手段で生成された混合重みの割合で、前記混合グローバル言語モデルおよび前記話題依存言語モデルを線形和補間し、前記音声認識対象の混合言語モデルを生成する第2線形和補間手段と、
    を備えることを特徴とする言語モデル生成装置。
  2. 音声認識対象の話題に関連する学習コーパスから予め学習した話題依存言語モデルと、前記学習コーパスよりもデータ量の多い学習コーパスで予め学習したグローバル言語モデルとを混合し、前記音声認識対象の混合言語モデルを生成する言語モデル生成装置であって、
    前記話題に関連する予め選定された評価用文章の全体を用いて前記グローバル言語モデルを評価した全体評価値と、前記評価用文章を予め定めた分類により区分した区分文章を用いて前記グローバル言語モデルを評価した前記区分文章ごとの個別評価値とを算出し、前記区分文章ごとに前記評価用文章としての適否の度合いを評価重みとして生成する評価重み生成手段と、
    前記区分文章ごとに前記評価重みの割合で前記グローバル言語モデルと前記話題依存言語モデルとを線形和補間したときの対数尤度が最大となる混合重みを生成する混合重み生成手段と、
    前記混合重みの割合で、前記グローバル言語モデルおよび前記話題依存言語モデルを線形和補間し、前記音声認識対象の混合言語モデルを生成する線形和補間手段と、
    を備えることを特徴とする言語モデル生成装置。
  3. 前記評価重み生成手段は、前記全体評価値および前記個別評価値として、前記グローバル言語モデルのパープレキシティを計算し、前記全体評価値よりも前記個別評価値の方が大きい前記区分文章に対して、前記評価重みを大きく設定することを特徴とする請求項1または請求項2に記載の言語モデル生成装置。
  4. 前記評価重み生成手段は、前記全体評価値および前記個別評価値として、前記グローバル言語モデルのパープレキシティを計算し、前記全体評価値よりも前記個別評価値の方が大きい前記区分文章に対して、前記評価重みを“1”、それ以外の区分文章に対して、前記評価重みを“0”に設定することを特徴とする請求項1または請求項2に記載の言語モデル生成装置。
  5. コンピュータを、請求項1から請求項4のいずれか一項に記載の言語モデル生成装置として機能させるための言語モデル生成プログラム。
JP2015122789A 2015-06-18 2015-06-18 言語モデル生成装置およびそのプログラム Active JP6518142B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015122789A JP6518142B2 (ja) 2015-06-18 2015-06-18 言語モデル生成装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015122789A JP6518142B2 (ja) 2015-06-18 2015-06-18 言語モデル生成装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2017009691A true JP2017009691A (ja) 2017-01-12
JP6518142B2 JP6518142B2 (ja) 2019-05-22

Family

ID=57761502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015122789A Active JP6518142B2 (ja) 2015-06-18 2015-06-18 言語モデル生成装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP6518142B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945792A (zh) * 2017-11-06 2018-04-20 百度在线网络技术(北京)有限公司 语音处理方法和装置
CN111292728A (zh) * 2018-11-21 2020-06-16 三星电子株式会社 语音识别方法和设备
CN111292728B (zh) * 2018-11-21 2024-05-28 三星电子株式会社 语音识别方法和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084179A (ja) * 2003-09-05 2005-03-31 Nippon Telegr & Teleph Corp <Ntt> 言語モデル作成方法およびその装置
US20140324434A1 (en) * 2013-04-25 2014-10-30 Nuance Communications, Inc. Systems and methods for providing metadata-dependent language models

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084179A (ja) * 2003-09-05 2005-03-31 Nippon Telegr & Teleph Corp <Ntt> 言語モデル作成方法およびその装置
US20140324434A1 (en) * 2013-04-25 2014-10-30 Nuance Communications, Inc. Systems and methods for providing metadata-dependent language models

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
緒方 淳、外1名: "PodCastle:動的トピック混合に基づく教師なし言語モデル適応", 日本音響学会 2011年 春季研究発表会講演論文集CD−ROM, JPN6019009757, 2 March 2011 (2011-03-02), JP, pages 69 - 72 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945792A (zh) * 2017-11-06 2018-04-20 百度在线网络技术(北京)有限公司 语音处理方法和装置
CN107945792B (zh) * 2017-11-06 2021-05-28 百度在线网络技术(北京)有限公司 语音处理方法和装置
CN111292728A (zh) * 2018-11-21 2020-06-16 三星电子株式会社 语音识别方法和设备
US11935516B2 (en) 2018-11-21 2024-03-19 Samsung Electronics Co., Ltd. Speech recognition method and appratus using weighted scores
CN111292728B (zh) * 2018-11-21 2024-05-28 三星电子株式会社 语音识别方法和设备

Also Published As

Publication number Publication date
JP6518142B2 (ja) 2019-05-22

Similar Documents

Publication Publication Date Title
JP7280382B2 (ja) 数字列のエンドツーエンド自動音声認識
US11210475B2 (en) Enhanced attention mechanisms
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US8019594B2 (en) Method and apparatus for progressively selecting features from a large feature space in statistical modeling
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
CN104021784A (zh) 基于大语料库的语音合成方法和装置
CN107146604B (zh) 一种语言模型优化方法及装置
US8019593B2 (en) Method and apparatus for generating features through logical and functional operations
Aksënova et al. How might we create better benchmarks for speech recognition?
JP2023547847A (ja) 簡略化されたストリーミングおよび非ストリーミングasr用のカスケードエンコーダ
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
JP2012018201A (ja) テキスト補正方法及び認識方法
JP2024511198A (ja) シーケンスにわたって対照損失を用いる教師ありトレーニングおよび教師なしトレーニング
CN117099157A (zh) 用于端到端自动语音识别置信度和删除估计的多任务学习
Granell et al. Multimodality, interactivity, and crowdsourcing for document transcription
JP6518142B2 (ja) 言語モデル生成装置およびそのプログラム
JP2024510817A (ja) 効率的なストリーミング非リカレントオンデバイスエンドツーエンドモデル
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
US20220122586A1 (en) Fast Emit Low-latency Streaming ASR with Sequence-level Emission Regularization
EP4367663A1 (en) Improving speech recognition with speech synthesis-based model adaption
US20230107695A1 (en) Fusion of Acoustic and Text Representations in RNN-T
Sethy et al. Joint training of interpolated exponential n-gram models
US20240013777A1 (en) Unsupervised Data Selection via Discrete Speech Representation for Automatic Speech Recognition
JP2005091518A (ja) 音声認識装置及び音声認識プログラム
US20220310081A1 (en) Multilingual Re-Scoring Models for Automatic Speech Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180502

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190419

R150 Certificate of patent or registration of utility model

Ref document number: 6518142

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250