JP6000153B2 - フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム - Google Patents

フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム Download PDF

Info

Publication number
JP6000153B2
JP6000153B2 JP2013021226A JP2013021226A JP6000153B2 JP 6000153 B2 JP6000153 B2 JP 6000153B2 JP 2013021226 A JP2013021226 A JP 2013021226A JP 2013021226 A JP2013021226 A JP 2013021226A JP 6000153 B2 JP6000153 B2 JP 6000153B2
Authority
JP
Japan
Prior art keywords
filler
model
language model
text
state transition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013021226A
Other languages
English (en)
Other versions
JP2014153458A (ja
Inventor
亮 増村
亮 増村
浩和 政瀧
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013021226A priority Critical patent/JP6000153B2/ja
Publication of JP2014153458A publication Critical patent/JP2014153458A/ja
Application granted granted Critical
Publication of JP6000153B2 publication Critical patent/JP6000153B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、フィラー遷移モデルを作成するフィラー遷移モデル学習装置と、そのフィラー遷移モデルを用いてフィラーを含む言語モデルを作成する言語モデル学習装置とそれらの方法とプログラムに関する。
フィラーとは、[あのー]や[えーと]といった言い淀みのことである。音声認識では、このフィラーを含む発話を対象とする必要がある。音声認識結果を決定するに当たって、音声認識では文脈ごとの単語の生起確率を定義した言語モデルを使って言語的な予測を行っている。ここで、言語モデルはフィラーも言語現象として積極的にモデル化した方が良いことが知られている。音声認識用言語モデルにおけるフィラーの有効性については、例えば非特許文献1に記載されている。
音声認識のための言語モデルを学習するためには、大量のテキストデータが必要である。フィラーを含む言語モデルを学習するためのテキストとして最も優れているのが、書き起こしテキストである。書き起こしテキストは、実際の音声を人手でテキスト化したものであり、実際のフィラーについても忠実に書き起こしておけば、そのテキストからフィラーの生起確率を適切に反映させた言語モデルを学習することが可能である。
しかし、例えばコールセンターにおける通話の音声認識をタスクとして想定する場合、フィラーを含む発話を人手で書き起こす作業は特に困難であり、少量しか得られないことが一般的である。その場合、フィラーを含まないがタスクに関連する外部資源テキストを利用することになるが、フィラーを含まないテキストから言語モデルを学習すると、フィラーを含む発話に対して精度の高い音声認識を行えなくなってしまう。外部資源テキストとは、例えばWebページのテキスト情報のことである。
そこで、従来では、書き起こしテキストからフィラーがどのような位置で起こり易いかという情報をモデル化して、フィラーを含まないテキストに対してフィラーを挿入したテキストを作成することが行われていた(非特許文献1)。フィラーを挿入したテキストの作成は、フィラー挿入モデルとフィラー選択モデルの2つの確率モデルを用いて行われる。両モデルについての詳しい説明は後述する。
この両モデルは、フィラーを含む書き起こしテキストを与えれば学習することができる。学習した両モデルに対して、任意の外部資源テキストを与えればフィラーを含むテキストを得ることができる。そして、このフィラーを含むテキストを使用することで、外部資源テキストからフィラーを含む言語モデルを作成することができる。
太田健吾、土屋雅稔、中川聖一、「フィラーの書き起こしのないコーパスからのフィラー付き言語モデルの構築」、情報処理学会、音声言語情報処理研究会、SLP-67-1,2007.
しかし、従来のフィラーを含む言語モデルは、フィラーが挿入される回数が1回と固定されていた。したがって、「今日は晴れです」というテキストに対して従来のフィラーあり言語モデルを用いてフィラー挿入を行ったとしても、「今日は[えーと][あのー]晴れです」といったテキストが生成される可能性はなかった。また、フィラーの間にポーズ<sp>が含まれることを、従来の言語モデルは許していなかったので、「今日は[えーと]<sp>[あのー]晴れです」といったテキストも生成されない課題があった。<sp>は、人間が発話する際の短時間(0.5〜1秒程度)の間を表わす言語現象のことであり、ポーズと称する。音声認識におけるポーズの重要性は、例えば参考文献(太田健吾、土屋雅稔、中川聖一、「音声認識用言語モデルにおけるポーズ情報の有効利用」、日本音響学会春季講演論文集、2-5-8,pp.59-62,2009.」)に記載されている通りである。従来の手法で作成された言語モデルでは、例えば「[で]<sp>[えー][まー]あると思います」といった音声を音声認識することができなかった。
本発明は、この課題に鑑みてなされたものであり、従来の2つのモデルに加えてフィラー遷移モデルを新たに利用した、フィラーのモデル化を行うためのフィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラムを提供することを目的とする。
本願発明のフィラー遷移モデル学習装置は、フィラー状態遷移確率算出部と、終了状態遷移確率算出部と、を具備する。フィラー状態遷移確率算出部は、フィラーを含むテキストを入力として当該テキストに含まれる複数のフィラーについて、フィラーからフィラーに状態遷移する全ての組み合わせのフィラー間状態遷移確率と、各フィラーからポーズへポーズからフィラーへの状態遷移確率とを計算してフィラー遷移モデルとして出力する。終了状態遷移確率算出部は、複数のフィラーの各フィラーから終了状態に状態遷移する状態遷移確率を計算してフィラー遷移モデルとして出力する。
また本願発明の言語モデル学習装置は、フィラー挿入モデルと、フィラー選択モデルと、フィラー遷移モデルと、フィラー入りテキスト作成部と、フィラーあり言語モデル作成部と、を具備する。フィラー挿入モデルは、形態素列中におけるフィラーを挿入すべき箇所を推定するモデルである。フィラー選択モデルは、フィラーの挿入箇所が指定された時に、挿入すべき適当なフィラーを選択するモデルである。フィラー遷移モデルは、上記したフィラー遷移モデル学習装置で学習したモデルである。フィラー入りテキスト作成部は、フィラーを含まないテキストを入力として、フィラー挿入モデルとフィラー選択モデルとフィラー遷移モデルと、を参照してフィラー入りテキストを作成する。フィラーあり言語モデル作成部は、フィラー入りテキストを入力として、当該フィラー入りテキスト中の全てのN個組みの単語の組み合わせの頻度を数えてN−gram言語モデルであるフィラーあり言語モデルを作成する。
本願発明のフィラー遷移モデル学習装置によれば、フィラーの連続挿入やポーズの挿入を可能にするフィラー遷移モデルを作成することができる。また、そのフィラー遷移モデルを利用するこの発明の言語モデル学習装置によれば、例えば「今日は晴れです」のテキストに対して、「今日は[えーと][あのー]晴れです」や「今日は[えーと][ポーズ]晴れです」等のテキスト生成を可能にする言語モデルを提供することができる。その言語モデルを音声認識に用いることで、従来技術よりも高精度な音声認識結果を得ることが期待できる。
この発明のフィラー遷移モデル学習装置100の機能構成例を示す図。 フィラー遷移モデル学習装置100の動作フローを示す図。 この発明の言語モデル学習装置200の機能構成例を示す図。 言語モデル学習装置200の動作フローを示す図。 フィラー入りテキスト作成部210の機能構成例を示す図。 フィラー入りテキスト作成部210の動作フローを示す図。 この発明の言語モデル学習装置300の機能構成例を示す図。 この発明のフィラー遷移モデル学習装置100′の機能構成例を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
〔フィラー遷移モデル学習装置〕
図1に、この発明のフィラー遷移モデル学習装置100の機能構成例を示す。その動作フローを図2に示す。フィラー遷移モデル学習装置100は、フィラー状態遷移確率算出部120と、終了状態遷移確率算出部130と、制御部140と、を具備する。フィラー遷移モデル学習装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
フィラー状態遷移確率算出部120は、フィラーを含むテキストを入力として当該テキストに含まれる複数のフィラーについて、フィラーからフィラーに状態遷移する全ての組み合わせのフィラー間状態遷移確率と、各フィラーからポーズへと、ポーズからフィラーへの状態遷移確率とを計算してフィラー遷移モデルとして出力する(ステップS120)。フィラーは、テキストと共にその種類がフィラー状態遷移確率算出部120に、直接入力されても良い。または、破線で示すようにフィラー検出部110を設け、入力されるテキストを形態素解析してフィラーを検出するようにしても良い。
フィラー間状態遷移確率を、例えばフィラーの種類を3種類f,f,fと仮定した例で説明する。フィラーを3種類とした場合、フィラー間状態遷移は次に示すように3×3の9状態が有り得る。
Figure 0006000153
フィラーfからfに状態遷移する確率は以下の式に従う。
Figure 0006000153
ここで、c(f)は入力されるテキスト内でfに該当する単語の頻度であり、例えば[あのー]の出現回数である。c(f,f)は同じテキスト内でfに該当するフィラーの後にfに該当するフィラーの出現する頻度であり、例えば[あのー][えーと]の出現回数である。
フィラーからポーズへの状態遷移確率、例えばフィラーfからポーズは次の式に従う。
Figure 0006000153
c(f,pause)は入力されるテキスト内でfに該当するフィラーの後にポーズに該当する単語<sp>が出現する頻度である。
ポーズからフィラーへの状態遷移確率は次の式に従う。
Figure 0006000153
式(3)は、ポーズからフィラーfへの状態遷移の場合の状態遷移確率の例である。c(pause,f)はポーズに該当する単語<sp>の後にフィラーfが出現する頻度である。
終了状態遷移確率算出部130は、複数のフィラーの各フィラーから終了状態に状態遷移する状態遷移確率を計算してフィラー遷移モデルとして出力する(ステップS130)。終了状態とは、次の単語がフィラー又はポーズで無い単語になる状態のことである。フィラーから終了状態に状態遷移する確率は、例えば次式で求めることができる。
Figure 0006000153
式(4)はフィラーfから終了状態(end)に状態遷移する状態遷移確率を示す。fは、テキストに含まれる全てのフィラーFの中の1個のフィラーを意味する。よって、この例では、fは(f,f,f)である。
終了状態遷移確率は、ポーズから終了状態(end)への確率は与えないこととする。ポーズはテキストの終了を意味するからである。また、ポーズからポーズに遷移する確率も与えない。
外部に出力されたフィラー遷移モデルは、モデルの集合としてまとまった形で記録されたフィラー遷移モデル150を構成する。
上記したステップS120〜ステップS130までの動作は、全てのフィラー遷移モデルが出力されるまで繰り返される(ステップS140)。この繰り返し動作の制御は制御部140が行う。
以上説明したようにフィラー遷移モデル学習装置100によれば、フィラーの連続挿入やポーズの挿入を可能にするモデルであるフィラー遷移モデルを作成することができる。
〔言語モデル学習装置〕
図3に、この発明の言語モデル学習装置200の機能構成例を示す。その動作フローを図4に示す。言語モデル学習装置200は、フィラー入りテキスト作成部210と、フィラー挿入モデル220と、フィラー選択モデル230と、フィラー遷移モデル150と、フィラー入りテキスト240と、フィラーあり言語モデル作成部250と、制御部260と、を具備する。フィラー挿入モデル220は、多数のフィラー挿入モデルがデータの集合としてまとまった形で記録されたものである。フィラー選択モデル230も同様である。言語モデル学習装置200は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
フィラー挿入モデルは、形態素列中におけるフィラーを挿入すべき箇所を推定するモデルである。フィラー挿入モデルは、非特許文献1又は参考文献(増村亮、咸聖俊、伊藤彰則「Web上の言語資源を利用した大規模話し言葉データからの言語モデル作成」日本音響学会春季講演論文集、3-5-3,2011.)に記載された方法で作成することができる。
非特許文献1では、N−gram言語モデルを用いてフィラー挿入モデルをモデル化している。ある単語列Wに対する情報をΦ(W)とすると、フィラー挿入モデルは、ある単語列Wの後にフィラーを挿入する確率P(○|Φ(W))とある単語列Wの後にフィラーを挿入しない確率P(×|Φ(W))とで構成される。ある単語列Wに対する情報をΦ(W)とは、最も単純にはΦ(W)=W(単語列自体)のことであり、(・)内は文節列であっても良い。
フィラー選択モデルは、フィラーの挿入箇所が指定された時に、挿入すべき適当なフィラーを選択するモデルである。フィラー選択モデルも非特許文献1又は上記した参考文献に記載された方法で作成することができる。
非特許文献1では、N−gram言語モデルを用いてフィラー挿入モデルをモデル化しており、ある単語列Wの後にフィラー[えーと]が選択される確率P([えーと]|Φ(W))、ある単語列Wの後にフィラー[あのー]が選択される確率P([あのー]|Φ(W))など、フィラーを含むテキスト中の全てのフィラーfについて、選択される確率を得ることができる。フィラー選択モデルは、次式に示すようにテキストに含まれる全てのフィラーfについて足し合わせると1になるようにリスケーリングされる。
Figure 0006000153
この例では、例えばP(f|Φ(W))=0.5、P(f|Φ(W))=0.3、P(f|Φ(W))=0.2と、全てのフィラーの状態遷移確率の和が1になるようにリスケーリングされる。
フィラー遷移モデルは、上記したフィラー遷移モデル学習装置100で学習したモデルである。各モデルは、それぞれのモデルの集合として参照できる形のフィラー挿入モデル220、フィラー選択モデル230、フィラー遷移モデル150、としてフィラー入りテキスト作成部210に入力される。
フィラー入りテキスト作成部210は、フィラーを含まないテキストを入力としてフィラー挿入モデル220とフィラー選択モデル230とフィラー遷移モデル150と、を参照してフィラー入りテキストを作成する(ステップS210)。
図5に、フィラー入りテキスト作成部210のより具体的な機能構成例を示して、更に詳しく説明する。その動作フローを図6に示す。
フィラー入りテキスト作成部210は、フィラー挿入箇所決定手段2101と、初期フィラー選択手段2102と、フィラー遷移決定手段2103と、を備える。フィラー挿入箇所決定手段2101は、フィラーを含まないテキストを入力として、当該テキストを構成する単語列Wの後に、フィラーが挿入される確率P(○|Φ(W))とフィラーが挿入されない確率P(×|Φ(W))と、から成るフィラー挿入モデルを計算し、当該フィラー挿入モデルをまとめたフィラー挿入箇所リスト2101aを作成して出力する(ステップS2101)。フィラー挿入モデルの作成は上記したように公知の技術である。
初期フィラー選択手段2102は、フィラーを含まないテキストと、フィラー挿入箇所決定手段2101が出力するフィラー挿入箇所リスト2101aを入力として、フィラー挿入箇所に挿入する初期フィラーを、フィラー選択モデルと一様乱数との関係で選択し、フィラー挿入箇所に対応する初期フィラーリストを作成して出力する(ステップS2102)。フィラー挿入箇所Φ(W)が決まれば、フィラー選択モデル230を参照することで、その挿入箇所に挿入するフィラー選択モデルP(f|Φ(W))の確率値を得ることができる。
例えばP([えーと]|Φ(W))=0.5、P([あのー]|Φ(W))=0.3、P([うーんと]|Φ(W))=0.2、といった確率値である。一方で、初期フィラー選択手段2102は一様乱数を発生させ、その一様乱数(rand)とフィラー選択モデルの確率値とを比較することで、挿入箇所Φ(W)に挿入する初期フィラーを選択する。
例えば、rand=0.3の場合は[えーと]、rand=0.7の場合は[あのー]、rand=0.9の場合は[うーんと]、を初期フィラーとして選択する。このように挿入箇所ごとに選択された初期フィラーからなる初期フィラーリスト2101bはフィラー遷移決定手段2103に出力される。
フィラー遷移決定手段2103は、フィラー入りテキストと初期フィラーリスト2101bを入力として、初期フィラーに対応する状態遷移確率をフィラー遷移モデル150を参照して入手し、当該状態遷移確率と一様乱数(rand)との関係から、フィラー挿入箇所に挿入するフィラー系列を決定し、上記フィラー入りテキストのフィラー挿入箇所に上記フィラー系列を挿入したフィラー入りテキスト240を作成して出力する(ステップS2103)。
初期フィラーをfとした時に、フィラー遷移モデル150を参照して得られる状態遷移確率は、例えばP(end|f)=0.5、P(pause|f)=0.3、P(f|f)=0.1、P(f|f)=0.05、P(f|f)=0.05、といったものである。この状態遷移確率と一様乱数との関係から、フィラー挿入箇所に挿入するフィラー系列を決定する。
例えば、rand=0.3の場合は[end]、rand=0.7の場合は[pause]、rand=0.85の場合は[f]、rand=0.87の場合は[f]、rand=0.96の場合は[f]、をフィラー系列として決定する。
フィラー入りテキスト240は、上記したように乱数を用いて作成されるので、フィラー入りテキスト作成部210に入力するフィラーなしテキストが同じものでも、バッチ処理したごとに作成されるフィラー入りテキストは異なるものになる特徴がある。
フィラーあり言語モデル作成部250は、フィラー入りテキスト240を入力として、当該フィラー入りテキスト240中の全てのN個組みの単語の組み合わせの頻度を数えてN−gram言語モデルであるフィラーあり言語モデルを作成する(ステップS250)。例えば、N=3とする場合が、音声認識用のモデルとして最も一般的である。N=3の場合、3−gram言語モデルとなる。N−gram言語モデルの作成方法は公知であり、例えば参考文献(北研二著「確率的言語モデル」東京大学出版会)に記載されている。制御部260は、フィラー入りテキスト240のN個組みの単語の全ての組み合わせが終了するまでフィラーあり言語モデル作成部250を動作させる(ステップS260のNo)。
フィラーあり言語モデル作成部250は、単語列Hが出た後のフィラーを含む単語wの出現する確率P(w|H)を作成する。このようにして作成されたフィラーあり言語モデルは、例えば「今日は晴れです」のテキストに対して、「今日は[えーと][あのー]晴れです」や「今日は[えーと][ポーズ]晴れです」のテキスト生成を可能にする言語モデルとなる。フィラーあり言語モデルは、その集合として参照できる形のフィラーあり言語モデル270として保存される。
フィラーを含むか否かは、その話し手の個人差によるところが大きい。したがって、言語モデル学習装置200で作成したフィラーあり言語モデルを、不特定多数の人の発話を音声認識する目的で使用するのは不適当である。そこで、フィラーを含む発話の多い人から少ない人までの発話に対応できる言語モデルが必要である。
図7に、不特定多数の人の発話に対応可能な言語モデルを作成する言語モデル学習装置300の機能構成例を示してその動作を説明する。言語モデル学習装置300は、フィラーあり言語モデルとフィラーなし言語モデルを、所定の割合で混合したフィラー混合言語モデルを作成する言語モデル学習装置である。
言語モデル学習装置300は、フィラーあり言語モデル作成部250と、フィラーあり言語モデル270と、フィラーなし言語モデル作成部310と、フィラーなし言語モデル320と、フィラー混合言語モデル作成部340と、制御部350と、を具備する。フィラー言語モデル作成部250とフィラーあり言語モデル270は、言語モデル学習装置200(図3)で説明したものと同じである。
フィラーなし言語モデル作成部310は、フィラーなしテキストを入力としてN−gram言語モデルであるフィラーなし言語モデル320を作成する。フィラーなし言語モデル作成部310の動作は、フィラーあり言語モデル作成部250と同じであり、同じ単語列Hが出た後のフィラーを含まない単語wの出現する確率P(w|H)を作成する。
フィラー混合言語モデル作成部340は、フィラーあり言語モデル270とフィラーなし言語モデル320を入力として、フィラーあり言語モデルの出現確率P(w|H)とフィラーなし言語モデルの出現確率P(w|H)を利用して次式に示すような確率分布P(w|H)を持つ言語モデルを作成する。
Figure 0006000153
ここでλは、フィラーあり言語モデルに対する重みである。λを大きく設定するとフィラーを含む音声を認識し易い確率分布P(w|H)を得ることができる。λの値は例えばλ=0.5として予め設定しておく。
言語モデル学習装置300によれば、フィラーに対応する性能を任意の水準に設定した言語モデルを作成することが可能である。
以上説明したように、フィラー遷移モデル学習装置100によれば、フィラーの連続挿入やポーズの挿入を可能にするフィラー遷移モデルを作成することができる。また、言語モデル学習装置200によれば、複数のフィラーやポーズを含む発話を音声認識する目的で使用できる言語モデルを作成することができる。また、言語モデル学習装置300によれば、フィラーを多く含む発話をする人からフィラーの少ない発話をする人まで、幅広い人に対応することが可能な言語モデルを作成することができる。
本願発明は、上記した各装置の機能構成例に限定されるものではない。例えば、フィラー遷移モデル学習装置100は、図8に示すように出力部160を備えるフィラー遷移モデル学習装置100′として構成にしても良い。
フィラー遷移モデル学習装置100′は、フィラー遷移モデル学習装置100の構成に加えて出力部160を備える点で異なる。出力部160は、フィラー状態遷移確率算出部120が出力する状態遷移確率と、終了状態遷移確率算出部130が出力する状態遷移確率と、を入力としてそれぞれの状態遷移確率をフィラーごとの組として出力する。
フィラー遷移モデル学習装置100′の出力するフィラー遷移モデルは、フィラーごとに状態遷移確率がまとまっているので、その参照を容易にする効果を奏する。また、フィラーからフィラー、フィラーからポーズ、ポーズからフィラーへの状態遷移確率を計算するフィラー状態遷移確率を計算するフィラー状態遷移確率算出部120と、各フィラーから終了状態に遷移する状態遷移確率を計算する終了状態遷移確率算出部130を、分けて説明したが、2つの部分で計算するフィラー遷移モデルは1つの機能構成部で計算するようにしても良い。
このように、本願発明は、実施例に示した構成に限定されることなく発明を実施するための形態に示した技術思想を含む装置や方法に、適用することが可能である。
なお、上記した例ではフィラーの種類を3個として説明したが、これは説明を簡単にする目的で少ない数としたものであり、実際にはフィラーの種類は20個程度を用いる。また、一様乱数を用いて初期フィラーやフィラー系列を決定する方法を説明したが、上記した方法は一例であって、一様乱数を用いた他の方法を用いても良い。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. フィラーを含むテキストを入力として当該テキストに含まれる複数のフィラーについて、フィラーからフィラーに状態遷移する全ての組み合わせのフィラー間状態遷移確率と、各フィラーからポーズへとポーズからフィラーへの状態遷移確率とを計算してフィラー遷移モデルとして出力するフィラー状態遷移確率算出部と、
    上記複数のフィラーの各フィラーから終了状態に状態遷移する状態遷移確率を計算してフィラー遷移モデルとして出力する終了状態遷移確率算出部と、
    を具備するフィラー遷移モデル学習装置。
  2. 形態素列中におけるフィラーを挿入すべき箇所を推定するモデルであるフィラー挿入モデルと、
    フィラーの挿入箇所が指定された時に、挿入すべき適当なフィラーを選択するモデルであるフィラー選択モデルと、
    請求項1に記載したフィラー遷移モデル学習装置で学習したモデルであるフィラー遷移モデルと、
    フィラーを含まないテキストを入力として、上記フィラー挿入モデルと上記フィラー選択モデルと上記フィラー遷移モデルと、を参照してフィラー入りテキストを作成するフィラー入りテキスト作成部と、
    上記フィラー入りテキストを入力として、当該フィラー入りテキスト中の全てのN個組みの単語の組み合わせの頻度を数えてN−gram言語モデルであるフィラーあり言語モデルを作成するフィラーあり言語モデル作成部と、
    を具備する言語モデル学習装置。
  3. 請求項2に記載した言語モデル学習装置において、
    さらに、
    フィラーなしテキストを入力として、当該フィラーなしテキスト中の全てのN個組みの単語の組み合わせの頻度を数えてN−gram言語モデルであるフィラーなし言語モデルを作成するフィラーなし言語モデル作成部と、
    上記フィラーあり言語モデルと上記フィラーなし言語モデルを入力として、2つの確率分布を重み付け和して求めたフィラー混合言語モデルを作成するフィラー混合言語モデル作成部と、
    を具備する言語モデル学習装置。
  4. 請求項2または3に記載した言語モデル学習装置において、
    上記フィラー入りテキスト作成部は、
    フィラーを含まないテキストを入力として、当該テキストを構成する単語の後に、フィラーが挿入される確率とフィラーが挿入されない確率と、から成るフィラー挿入モデルを計算し、当該フィラー挿入モデルをまとめたフィラー挿入箇所リストを作成して出力するフィラー挿入箇所決定手段と、
    上記フィラーを含まないテキストと、上記フィラー挿入箇所決定手段が出力する上記フィラー挿入箇所リストを入力として、フィラー挿入箇所に挿入する初期フィラーを、フィラー選択モデルと一様乱数との関係で選択し、フィラー挿入箇所に対応する初期フィラーリストを作成して出力する初期フィラー選択手段と、
    上記フィラー入りテキストと上記初期フィラーリストを入力として、初期フィラーに対応する状態遷移確率をフィラー遷移モデルを参照して入手し、当該状態遷移確率と一様乱数との関係から、フィラー挿入箇所に挿入するフィラー系列を決定し、上記フィラー入りテキストのフィラー挿入箇所に上記フィラー系列を挿入したフィラー入りテキストを作成して出力するフィラー遷移決定手段と、
    を備えることを特徴とする言語モデル学習装置。
  5. フィラーを含むテキストを入力として当該テキストに含まれる複数のフィラーについて、フィラーからフィラーに状態遷移する全ての組み合わせのフィラー間状態遷移確率と、各フィラーからポーズへとポーズからフィラーへの状態遷移確率とを計算してフィラー遷移モデルとして出力するフィラー状態遷移確率算出過程と、
    上記複数のフィラーの各フィラーから終了状態に状態遷移する状態遷移確率を計算してフィラー遷移モデルとして出力する終了状態遷移確率算出過程と、
    を備えるフィラー遷移モデル学習方法。
  6. フィラーを含まないテキストを入力として、形態素列中におけるフィラーを挿入すべき箇所を推定するモデルであるフィラー挿入モデルと、フィラーの挿入箇所が指定された時に、挿入すべき適当なフィラーを選択するモデルであるフィラー選択モデルと、請求項5に記載したフィラー遷移モデル学習方法で学習したフィラー遷移モデルと、を参照してフィラー入りテキストを作成するフィラー入りテキスト作成過程と、
    上記フィラー入りテキストを入力として、当該フィラー入りテキスト中の全てのN個組みの単語の組み合わせの頻度を数えてN−gram言語モデルであるフィラーあり言語モデルを作成するフィラーあり言語モデル作成過程と、
    を備える言語モデル学習方法。
  7. 請求項6に記載した言語モデル学習方法において、
    さらに、
    フィラーなしテキストを入力として、当該フィラーなしテキスト中の全てのN個組みの単語の組み合わせの頻度を数えてN−gram言語モデルであるフィラーなし言語モデルを作成するフィラーなし言語モデル作成過程と、
    上記フィラーあり言語モデルと上記フィラーなし言語モデルを入力として、2つの確率分布を重み付け和して求めたフィラー混合言語モデルを作成するフィラー混合言語モデル作成過程と、
    を備える言語モデル学習方法。
  8. 請求項1に記載したフィラー遷移モデル学習装置、又は請求項2乃至4の何れか1項に記載した言語モデル学習装置としてコンピュータを動作させるためのプログラム。
JP2013021226A 2013-02-06 2013-02-06 フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム Expired - Fee Related JP6000153B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013021226A JP6000153B2 (ja) 2013-02-06 2013-02-06 フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013021226A JP6000153B2 (ja) 2013-02-06 2013-02-06 フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム

Publications (2)

Publication Number Publication Date
JP2014153458A JP2014153458A (ja) 2014-08-25
JP6000153B2 true JP6000153B2 (ja) 2016-09-28

Family

ID=51575394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013021226A Expired - Fee Related JP6000153B2 (ja) 2013-02-06 2013-02-06 フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム

Country Status (1)

Country Link
JP (1) JP6000153B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102529241B1 (ko) * 2020-10-22 2023-05-08 이화여자대학교 산학협력단 순차통역 학습을 위한 평가 방법, 이를 수행하기 위한 기록 매체 및 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3894419B2 (ja) * 2001-03-15 2007-03-22 三菱電機株式会社 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2014153458A (ja) 2014-08-25

Similar Documents

Publication Publication Date Title
US10741170B2 (en) Speech recognition method and apparatus
US10706840B2 (en) Encoder-decoder models for sequence to sequence mapping
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
US11797772B2 (en) Word lattice augmentation for automatic speech recognition
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
KR102399535B1 (ko) 음성 인식을 위한 학습 방법 및 장치
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
KR20160069329A (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
EP3586276A1 (en) Sequence processing using online attention
WO2008001486A1 (fr) Dispositif et programme de traitement vocal, et procédé de traitement vocal
US11605377B2 (en) Dialog device, dialog method, and dialog computer program
CN112673421A (zh) 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言
JP6823809B2 (ja) 対話行為推定方法、対話行為推定装置およびプログラム
EP3857544B1 (en) Speaker awareness using speaker dependent speech model(s)
JP2020187211A5 (ja)
JP6810580B2 (ja) 言語モデル学習装置およびそのプログラム
US20210049324A1 (en) Apparatus, method, and program for utilizing language model
JP6000153B2 (ja) フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
Williams Evaluating user simulations with the Cramér–von Mises divergence
JP6235922B2 (ja) 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム
JP5860439B2 (ja) 言語モデル作成装置とその方法、そのプログラムと記録媒体
JP5755603B2 (ja) 言語モデル作成装置、言語モデル作成方法、プログラム
JP6712540B2 (ja) モデルパラメータ生成装置、モデルパラメータ生成方法、音声認識装置の作成方法、プログラム
JP5623345B2 (ja) 会話データ解析装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160830

R150 Certificate of patent or registration of utility model

Ref document number: 6000153

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees