JP6000153B2

JP6000153B2 - フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム

Info

Publication number: JP6000153B2
Application number: JP2013021226A
Authority: JP
Inventors: 亮増村; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-02-06
Filing date: 2013-02-06
Publication date: 2016-09-28
Anticipated expiration: 2033-02-06
Also published as: JP2014153458A

Description

本発明は、フィラー遷移モデルを作成するフィラー遷移モデル学習装置と、そのフィラー遷移モデルを用いてフィラーを含む言語モデルを作成する言語モデル学習装置とそれらの方法とプログラムに関する。

フィラーとは、[あのー]や[えーと]といった言い淀みのことである。音声認識では、このフィラーを含む発話を対象とする必要がある。音声認識結果を決定するに当たって、音声認識では文脈ごとの単語の生起確率を定義した言語モデルを使って言語的な予測を行っている。ここで、言語モデルはフィラーも言語現象として積極的にモデル化した方が良いことが知られている。音声認識用言語モデルにおけるフィラーの有効性については、例えば非特許文献１に記載されている。

音声認識のための言語モデルを学習するためには、大量のテキストデータが必要である。フィラーを含む言語モデルを学習するためのテキストとして最も優れているのが、書き起こしテキストである。書き起こしテキストは、実際の音声を人手でテキスト化したものであり、実際のフィラーについても忠実に書き起こしておけば、そのテキストからフィラーの生起確率を適切に反映させた言語モデルを学習することが可能である。

しかし、例えばコールセンターにおける通話の音声認識をタスクとして想定する場合、フィラーを含む発話を人手で書き起こす作業は特に困難であり、少量しか得られないことが一般的である。その場合、フィラーを含まないがタスクに関連する外部資源テキストを利用することになるが、フィラーを含まないテキストから言語モデルを学習すると、フィラーを含む発話に対して精度の高い音声認識を行えなくなってしまう。外部資源テキストとは、例えばＷｅｂページのテキスト情報のことである。

そこで、従来では、書き起こしテキストからフィラーがどのような位置で起こり易いかという情報をモデル化して、フィラーを含まないテキストに対してフィラーを挿入したテキストを作成することが行われていた（非特許文献１）。フィラーを挿入したテキストの作成は、フィラー挿入モデルとフィラー選択モデルの２つの確率モデルを用いて行われる。両モデルについての詳しい説明は後述する。

この両モデルは、フィラーを含む書き起こしテキストを与えれば学習することができる。学習した両モデルに対して、任意の外部資源テキストを与えればフィラーを含むテキストを得ることができる。そして、このフィラーを含むテキストを使用することで、外部資源テキストからフィラーを含む言語モデルを作成することができる。

太田健吾、土屋雅稔、中川聖一、「フィラーの書き起こしのないコーパスからのフィラー付き言語モデルの構築」、情報処理学会、音声言語情報処理研究会、SLP-67-1,2007.

しかし、従来のフィラーを含む言語モデルは、フィラーが挿入される回数が１回と固定されていた。したがって、「今日は晴れです」というテキストに対して従来のフィラーあり言語モデルを用いてフィラー挿入を行ったとしても、「今日は[えーと][あのー]晴れです」といったテキストが生成される可能性はなかった。また、フィラーの間にポーズ＜ｓｐ＞が含まれることを、従来の言語モデルは許していなかったので、「今日は[えーと]＜ｓｐ＞[あのー]晴れです」といったテキストも生成されない課題があった。＜ｓｐ＞は、人間が発話する際の短時間（０．５〜１秒程度）の間を表わす言語現象のことであり、ポーズと称する。音声認識におけるポーズの重要性は、例えば参考文献（太田健吾、土屋雅稔、中川聖一、「音声認識用言語モデルにおけるポーズ情報の有効利用」、日本音響学会春季講演論文集、2-5-8,pp.59-62,2009.」）に記載されている通りである。従来の手法で作成された言語モデルでは、例えば「[で]＜ｓｐ＞[えー][まー]あると思います」といった音声を音声認識することができなかった。

本発明は、この課題に鑑みてなされたものであり、従来の２つのモデルに加えてフィラー遷移モデルを新たに利用した、フィラーのモデル化を行うためのフィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラムを提供することを目的とする。

本願発明のフィラー遷移モデル学習装置は、フィラー状態遷移確率算出部と、終了状態遷移確率算出部と、を具備する。フィラー状態遷移確率算出部は、フィラーを含むテキストを入力として当該テキストに含まれる複数のフィラーについて、フィラーからフィラーに状態遷移する全ての組み合わせのフィラー間状態遷移確率と、各フィラーからポーズへポーズからフィラーへの状態遷移確率とを計算してフィラー遷移モデルとして出力する。終了状態遷移確率算出部は、複数のフィラーの各フィラーから終了状態に状態遷移する状態遷移確率を計算してフィラー遷移モデルとして出力する。

また本願発明の言語モデル学習装置は、フィラー挿入モデルと、フィラー選択モデルと、フィラー遷移モデルと、フィラー入りテキスト作成部と、フィラーあり言語モデル作成部と、を具備する。フィラー挿入モデルは、形態素列中におけるフィラーを挿入すべき箇所を推定するモデルである。フィラー選択モデルは、フィラーの挿入箇所が指定された時に、挿入すべき適当なフィラーを選択するモデルである。フィラー遷移モデルは、上記したフィラー遷移モデル学習装置で学習したモデルである。フィラー入りテキスト作成部は、フィラーを含まないテキストを入力として、フィラー挿入モデルとフィラー選択モデルとフィラー遷移モデルと、を参照してフィラー入りテキストを作成する。フィラーあり言語モデル作成部は、フィラー入りテキストを入力として、当該フィラー入りテキスト中の全てのＮ個組みの単語の組み合わせの頻度を数えてＮ−ｇｒａｍ言語モデルであるフィラーあり言語モデルを作成する。

本願発明のフィラー遷移モデル学習装置によれば、フィラーの連続挿入やポーズの挿入を可能にするフィラー遷移モデルを作成することができる。また、そのフィラー遷移モデルを利用するこの発明の言語モデル学習装置によれば、例えば「今日は晴れです」のテキストに対して、「今日は[えーと][あのー]晴れです」や「今日は[えーと][ポーズ]晴れです」等のテキスト生成を可能にする言語モデルを提供することができる。その言語モデルを音声認識に用いることで、従来技術よりも高精度な音声認識結果を得ることが期待できる。

この発明のフィラー遷移モデル学習装置１００の機能構成例を示す図。フィラー遷移モデル学習装置１００の動作フローを示す図。この発明の言語モデル学習装置２００の機能構成例を示す図。言語モデル学習装置２００の動作フローを示す図。フィラー入りテキスト作成部２１０の機能構成例を示す図。フィラー入りテキスト作成部２１０の動作フローを示す図。この発明の言語モデル学習装置３００の機能構成例を示す図。この発明のフィラー遷移モデル学習装置１００′の機能構成例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

〔フィラー遷移モデル学習装置〕
図１に、この発明のフィラー遷移モデル学習装置１００の機能構成例を示す。その動作フローを図２に示す。フィラー遷移モデル学習装置１００は、フィラー状態遷移確率算出部１２０と、終了状態遷移確率算出部１３０と、制御部１４０と、を具備する。フィラー遷移モデル学習装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

フィラー状態遷移確率算出部１２０は、フィラーを含むテキストを入力として当該テキストに含まれる複数のフィラーについて、フィラーからフィラーに状態遷移する全ての組み合わせのフィラー間状態遷移確率と、各フィラーからポーズへと、ポーズからフィラーへの状態遷移確率とを計算してフィラー遷移モデルとして出力する（ステップＳ１２０）。フィラーは、テキストと共にその種類がフィラー状態遷移確率算出部１２０に、直接入力されても良い。または、破線で示すようにフィラー検出部１１０を設け、入力されるテキストを形態素解析してフィラーを検出するようにしても良い。

フィラー間状態遷移確率を、例えばフィラーの種類を３種類ｆ_ａ，ｆ_ｂ，ｆ_ｃと仮定した例で説明する。フィラーを３種類とした場合、フィラー間状態遷移は次に示すように３×３の９状態が有り得る。

フィラーｆ_ａからｆ_ｂに状態遷移する確率は以下の式に従う。

ここで、ｃ（ｆ_ａ）は入力されるテキスト内でｆ_ａに該当する単語の頻度であり、例えば[あのー]の出現回数である。ｃ（ｆ_ａ，ｆ_ｃ）は同じテキスト内でｆ_ａに該当するフィラーの後にｆ_ｂに該当するフィラーの出現する頻度であり、例えば[あのー][えーと]の出現回数である。

フィラーからポーズへの状態遷移確率、例えばフィラーｆ_ａからポーズは次の式に従う。

ｃ（ｆ_ａ，pause）は入力されるテキスト内でｆ_ａに該当するフィラーの後にポーズに該当する単語＜sp＞が出現する頻度である。

ポーズからフィラーへの状態遷移確率は次の式に従う。

式（３）は、ポーズからフィラーｆ_ｂへの状態遷移の場合の状態遷移確率の例である。ｃ（pause，ｆ_ｂ）はポーズに該当する単語＜sp＞の後にフィラーｆ_ｂが出現する頻度である。

終了状態遷移確率算出部１３０は、複数のフィラーの各フィラーから終了状態に状態遷移する状態遷移確率を計算してフィラー遷移モデルとして出力する（ステップＳ１３０）。終了状態とは、次の単語がフィラー又はポーズで無い単語になる状態のことである。フィラーから終了状態に状態遷移する確率は、例えば次式で求めることができる。

式（４）はフィラーｆ_ａから終了状態（end）に状態遷移する状態遷移確率を示す。ｆ_ｋは、テキストに含まれる全てのフィラーＦの中の１個のフィラーを意味する。よって、この例では、ｆ_ｋは（ｆ_ａ，ｆ_ｂ，ｆ_ｃ）である。

終了状態遷移確率は、ポーズから終了状態（end）への確率は与えないこととする。ポーズはテキストの終了を意味するからである。また、ポーズからポーズに遷移する確率も与えない。

外部に出力されたフィラー遷移モデルは、モデルの集合としてまとまった形で記録されたフィラー遷移モデル１５０を構成する。

上記したステップＳ１２０〜ステップＳ１３０までの動作は、全てのフィラー遷移モデルが出力されるまで繰り返される（ステップＳ１４０）。この繰り返し動作の制御は制御部１４０が行う。

以上説明したようにフィラー遷移モデル学習装置１００によれば、フィラーの連続挿入やポーズの挿入を可能にするモデルであるフィラー遷移モデルを作成することができる。

〔言語モデル学習装置〕
図３に、この発明の言語モデル学習装置２００の機能構成例を示す。その動作フローを図４に示す。言語モデル学習装置２００は、フィラー入りテキスト作成部２１０と、フィラー挿入モデル２２０と、フィラー選択モデル２３０と、フィラー遷移モデル１５０と、フィラー入りテキスト２４０と、フィラーあり言語モデル作成部２５０と、制御部２６０と、を具備する。フィラー挿入モデル２２０は、多数のフィラー挿入モデルがデータの集合としてまとまった形で記録されたものである。フィラー選択モデル２３０も同様である。言語モデル学習装置２００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

フィラー挿入モデルは、形態素列中におけるフィラーを挿入すべき箇所を推定するモデルである。フィラー挿入モデルは、非特許文献１又は参考文献（増村亮、咸聖俊、伊藤彰則「Ｗｅｂ上の言語資源を利用した大規模話し言葉データからの言語モデル作成」日本音響学会春季講演論文集、3-5-3,2011.）に記載された方法で作成することができる。

非特許文献１では、Ｎ−ｇｒａｍ言語モデルを用いてフィラー挿入モデルをモデル化している。ある単語列Ｗに対する情報をΦ（Ｗ）とすると、フィラー挿入モデルは、ある単語列Ｗの後にフィラーを挿入する確率Ｐ（○｜Φ（Ｗ））とある単語列Ｗの後にフィラーを挿入しない確率Ｐ(×｜Φ(Ｗ))とで構成される。ある単語列Ｗに対する情報をΦ（Ｗ）とは、最も単純にはΦ（Ｗ）＝Ｗ（単語列自体）のことであり、（・）内は文節列であっても良い。

フィラー選択モデルは、フィラーの挿入箇所が指定された時に、挿入すべき適当なフィラーを選択するモデルである。フィラー選択モデルも非特許文献１又は上記した参考文献に記載された方法で作成することができる。

非特許文献１では、Ｎ−ｇｒａｍ言語モデルを用いてフィラー挿入モデルをモデル化しており、ある単語列Ｗの後にフィラー[えーと]が選択される確率Ｐ（[えーと]｜Φ（Ｗ））、ある単語列Ｗの後にフィラー[あのー]が選択される確率Ｐ（[あのー]｜Φ（Ｗ））など、フィラーを含むテキスト中の全てのフィラーｆについて、選択される確率を得ることができる。フィラー選択モデルは、次式に示すようにテキストに含まれる全てのフィラーｆについて足し合わせると１になるようにリスケーリングされる。

この例では、例えばＰ（ｆ_ａ｜Φ（Ｗ））＝０.５、Ｐ（ｆ_ｂ｜Φ（Ｗ））＝０.３、Ｐ（ｆ_ｃ｜Φ（Ｗ））＝０.２と、全てのフィラーの状態遷移確率の和が１になるようにリスケーリングされる。

フィラー遷移モデルは、上記したフィラー遷移モデル学習装置１００で学習したモデルである。各モデルは、それぞれのモデルの集合として参照できる形のフィラー挿入モデル２２０、フィラー選択モデル２３０、フィラー遷移モデル１５０、としてフィラー入りテキスト作成部２１０に入力される。

フィラー入りテキスト作成部２１０は、フィラーを含まないテキストを入力としてフィラー挿入モデル２２０とフィラー選択モデル２３０とフィラー遷移モデル１５０と、を参照してフィラー入りテキストを作成する（ステップＳ２１０）。

図５に、フィラー入りテキスト作成部２１０のより具体的な機能構成例を示して、更に詳しく説明する。その動作フローを図６に示す。

フィラー入りテキスト作成部２１０は、フィラー挿入箇所決定手段２１０１と、初期フィラー選択手段２１０２と、フィラー遷移決定手段２１０３と、を備える。フィラー挿入箇所決定手段２１０１は、フィラーを含まないテキストを入力として、当該テキストを構成する単語列Ｗの後に、フィラーが挿入される確率Ｐ（○｜Φ（Ｗ））とフィラーが挿入されない確率Ｐ(×｜Φ(Ｗ))と、から成るフィラー挿入モデルを計算し、当該フィラー挿入モデルをまとめたフィラー挿入箇所リスト２１０１ａを作成して出力する（ステップＳ２１０１）。フィラー挿入モデルの作成は上記したように公知の技術である。

初期フィラー選択手段２１０２は、フィラーを含まないテキストと、フィラー挿入箇所決定手段２１０１が出力するフィラー挿入箇所リスト２１０１ａを入力として、フィラー挿入箇所に挿入する初期フィラーを、フィラー選択モデルと一様乱数との関係で選択し、フィラー挿入箇所に対応する初期フィラーリストを作成して出力する（ステップＳ２１０２）。フィラー挿入箇所Φ（Ｗ）が決まれば、フィラー選択モデル２３０を参照することで、その挿入箇所に挿入するフィラー選択モデルＰ（ｆ｜Φ（Ｗ））の確率値を得ることができる。

例えばＰ（[えーと]｜Φ（Ｗ））＝０.５、Ｐ（[あのー]｜Φ（Ｗ））＝０.３、Ｐ（[うーんと]｜Φ（Ｗ））＝０.２、といった確率値である。一方で、初期フィラー選択手段２１０２は一様乱数を発生させ、その一様乱数（rand）とフィラー選択モデルの確率値とを比較することで、挿入箇所Φ（Ｗ）に挿入する初期フィラーを選択する。

例えば、rand＝０．３の場合は[えーと]、rand＝０．７の場合は[あのー]、rand＝０．９の場合は[うーんと]、を初期フィラーとして選択する。このように挿入箇所ごとに選択された初期フィラーからなる初期フィラーリスト２１０１ｂはフィラー遷移決定手段２１０３に出力される。

フィラー遷移決定手段２１０３は、フィラー入りテキストと初期フィラーリスト２１０１ｂを入力として、初期フィラーに対応する状態遷移確率をフィラー遷移モデル１５０を参照して入手し、当該状態遷移確率と一様乱数（rand）との関係から、フィラー挿入箇所に挿入するフィラー系列を決定し、上記フィラー入りテキストのフィラー挿入箇所に上記フィラー系列を挿入したフィラー入りテキスト２４０を作成して出力する（ステップＳ２１０３）。

初期フィラーをｆ_ａとした時に、フィラー遷移モデル１５０を参照して得られる状態遷移確率は、例えばＰ（end｜ｆ_ａ）＝０．５、Ｐ（pause｜ｆ_ａ）＝０.３、Ｐ（ｆ_ａ｜ｆ_ａ）＝０．１、Ｐ（ｆ_ｂ｜ｆ_ａ）＝０．０５、Ｐ（ｆ_ｃ｜ｆ_ａ）＝０.０５、といったものである。この状態遷移確率と一様乱数との関係から、フィラー挿入箇所に挿入するフィラー系列を決定する。

例えば、rand＝０．３の場合は[end]、rand＝０．７の場合は[pause]、rand＝０．８５の場合は[ｆ_ａ]、rand＝０．８７の場合は[ｆ_ｂ]、rand＝０．９６の場合は[ｆ_ｃ]、をフィラー系列として決定する。

フィラー入りテキスト２４０は、上記したように乱数を用いて作成されるので、フィラー入りテキスト作成部２１０に入力するフィラーなしテキストが同じものでも、バッチ処理したごとに作成されるフィラー入りテキストは異なるものになる特徴がある。

フィラーあり言語モデル作成部２５０は、フィラー入りテキスト２４０を入力として、当該フィラー入りテキスト２４０中の全てのＮ個組みの単語の組み合わせの頻度を数えてＮ−ｇｒａｍ言語モデルであるフィラーあり言語モデルを作成する（ステップＳ２５０）。例えば、Ｎ＝３とする場合が、音声認識用のモデルとして最も一般的である。Ｎ＝３の場合、３−ｇｒａｍ言語モデルとなる。Ｎ−ｇｒａｍ言語モデルの作成方法は公知であり、例えば参考文献（北研二著「確率的言語モデル」東京大学出版会）に記載されている。制御部２６０は、フィラー入りテキスト２４０のＮ個組みの単語の全ての組み合わせが終了するまでフィラーあり言語モデル作成部２５０を動作させる（ステップＳ２６０のＮｏ）。

フィラーあり言語モデル作成部２５０は、単語列Ｈが出た後のフィラーを含む単語ｗの出現する確率Ｐ_１（ｗ｜Ｈ）を作成する。このようにして作成されたフィラーあり言語モデルは、例えば「今日は晴れです」のテキストに対して、「今日は[えーと][あのー]晴れです」や「今日は[えーと][ポーズ]晴れです」のテキスト生成を可能にする言語モデルとなる。フィラーあり言語モデルは、その集合として参照できる形のフィラーあり言語モデル２７０として保存される。

フィラーを含むか否かは、その話し手の個人差によるところが大きい。したがって、言語モデル学習装置２００で作成したフィラーあり言語モデルを、不特定多数の人の発話を音声認識する目的で使用するのは不適当である。そこで、フィラーを含む発話の多い人から少ない人までの発話に対応できる言語モデルが必要である。

図７に、不特定多数の人の発話に対応可能な言語モデルを作成する言語モデル学習装置３００の機能構成例を示してその動作を説明する。言語モデル学習装置３００は、フィラーあり言語モデルとフィラーなし言語モデルを、所定の割合で混合したフィラー混合言語モデルを作成する言語モデル学習装置である。

言語モデル学習装置３００は、フィラーあり言語モデル作成部２５０と、フィラーあり言語モデル２７０と、フィラーなし言語モデル作成部３１０と、フィラーなし言語モデル３２０と、フィラー混合言語モデル作成部３４０と、制御部３５０と、を具備する。フィラー言語モデル作成部２５０とフィラーあり言語モデル２７０は、言語モデル学習装置２００（図３）で説明したものと同じである。

フィラーなし言語モデル作成部３１０は、フィラーなしテキストを入力としてＮ−ｇｒａｍ言語モデルであるフィラーなし言語モデル３２０を作成する。フィラーなし言語モデル作成部３１０の動作は、フィラーあり言語モデル作成部２５０と同じであり、同じ単語列Ｈが出た後のフィラーを含まない単語ｗの出現する確率Ｐ_２（ｗ｜Ｈ）を作成する。

フィラー混合言語モデル作成部３４０は、フィラーあり言語モデル２７０とフィラーなし言語モデル３２０を入力として、フィラーあり言語モデルの出現確率Ｐ_１（ｗ｜Ｈ）とフィラーなし言語モデルの出現確率Ｐ_２（ｗ｜Ｈ）を利用して次式に示すような確率分布Ｐ_０（ｗ｜Ｈ）を持つ言語モデルを作成する。

ここでλは、フィラーあり言語モデルに対する重みである。λを大きく設定するとフィラーを含む音声を認識し易い確率分布Ｐ_０（ｗ｜Ｈ）を得ることができる。λの値は例えばλ＝０．５として予め設定しておく。

言語モデル学習装置３００によれば、フィラーに対応する性能を任意の水準に設定した言語モデルを作成することが可能である。

以上説明したように、フィラー遷移モデル学習装置１００によれば、フィラーの連続挿入やポーズの挿入を可能にするフィラー遷移モデルを作成することができる。また、言語モデル学習装置２００によれば、複数のフィラーやポーズを含む発話を音声認識する目的で使用できる言語モデルを作成することができる。また、言語モデル学習装置３００によれば、フィラーを多く含む発話をする人からフィラーの少ない発話をする人まで、幅広い人に対応することが可能な言語モデルを作成することができる。

本願発明は、上記した各装置の機能構成例に限定されるものではない。例えば、フィラー遷移モデル学習装置１００は、図８に示すように出力部１６０を備えるフィラー遷移モデル学習装置１００′として構成にしても良い。

フィラー遷移モデル学習装置１００′は、フィラー遷移モデル学習装置１００の構成に加えて出力部１６０を備える点で異なる。出力部１６０は、フィラー状態遷移確率算出部１２０が出力する状態遷移確率と、終了状態遷移確率算出部１３０が出力する状態遷移確率と、を入力としてそれぞれの状態遷移確率をフィラーごとの組として出力する。

フィラー遷移モデル学習装置１００′の出力するフィラー遷移モデルは、フィラーごとに状態遷移確率がまとまっているので、その参照を容易にする効果を奏する。また、フィラーからフィラー、フィラーからポーズ、ポーズからフィラーへの状態遷移確率を計算するフィラー状態遷移確率を計算するフィラー状態遷移確率算出部１２０と、各フィラーから終了状態に遷移する状態遷移確率を計算する終了状態遷移確率算出部１３０を、分けて説明したが、２つの部分で計算するフィラー遷移モデルは１つの機能構成部で計算するようにしても良い。

このように、本願発明は、実施例に示した構成に限定されることなく発明を実施するための形態に示した技術思想を含む装置や方法に、適用することが可能である。

なお、上記した例ではフィラーの種類を３個として説明したが、これは説明を簡単にする目的で少ない数としたものであり、実際にはフィラーの種類は２０個程度を用いる。また、一様乱数を用いて初期フィラーやフィラー系列を決定する方法を説明したが、上記した方法は一例であって、一様乱数を用いた他の方法を用いても良い。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

フィラーを含むテキストを入力として当該テキストに含まれる複数のフィラーについて、フィラーからフィラーに状態遷移する全ての組み合わせのフィラー間状態遷移確率と、各フィラーからポーズへとポーズからフィラーへの状態遷移確率とを計算してフィラー遷移モデルとして出力するフィラー状態遷移確率算出部と、
上記複数のフィラーの各フィラーから終了状態に状態遷移する状態遷移確率を計算してフィラー遷移モデルとして出力する終了状態遷移確率算出部と、
を具備するフィラー遷移モデル学習装置。
形態素列中におけるフィラーを挿入すべき箇所を推定するモデルであるフィラー挿入モデルと、
フィラーの挿入箇所が指定された時に、挿入すべき適当なフィラーを選択するモデルであるフィラー選択モデルと、
請求項１に記載したフィラー遷移モデル学習装置で学習したモデルであるフィラー遷移モデルと、
フィラーを含まないテキストを入力として、上記フィラー挿入モデルと上記フィラー選択モデルと上記フィラー遷移モデルと、を参照してフィラー入りテキストを作成するフィラー入りテキスト作成部と、
上記フィラー入りテキストを入力として、当該フィラー入りテキスト中の全てのＮ個組みの単語の組み合わせの頻度を数えてＮ−ｇｒａｍ言語モデルであるフィラーあり言語モデルを作成するフィラーあり言語モデル作成部と、
を具備する言語モデル学習装置。
請求項２に記載した言語モデル学習装置において、
さらに、
フィラーなしテキストを入力として、当該フィラーなしテキスト中の全てのＮ個組みの単語の組み合わせの頻度を数えてＮ−ｇｒａｍ言語モデルであるフィラーなし言語モデルを作成するフィラーなし言語モデル作成部と、
上記フィラーあり言語モデルと上記フィラーなし言語モデルを入力として、２つの確率分布を重み付け和して求めたフィラー混合言語モデルを作成するフィラー混合言語モデル作成部と、
を具備する言語モデル学習装置。
請求項２または３に記載した言語モデル学習装置において、
上記フィラー入りテキスト作成部は、
フィラーを含まないテキストを入力として、当該テキストを構成する単語の後に、フィラーが挿入される確率とフィラーが挿入されない確率と、から成るフィラー挿入モデルを計算し、当該フィラー挿入モデルをまとめたフィラー挿入箇所リストを作成して出力するフィラー挿入箇所決定手段と、
上記フィラーを含まないテキストと、上記フィラー挿入箇所決定手段が出力する上記フィラー挿入箇所リストを入力として、フィラー挿入箇所に挿入する初期フィラーを、フィラー選択モデルと一様乱数との関係で選択し、フィラー挿入箇所に対応する初期フィラーリストを作成して出力する初期フィラー選択手段と、
上記フィラー入りテキストと上記初期フィラーリストを入力として、初期フィラーに対応する状態遷移確率をフィラー遷移モデルを参照して入手し、当該状態遷移確率と一様乱数との関係から、フィラー挿入箇所に挿入するフィラー系列を決定し、上記フィラー入りテキストのフィラー挿入箇所に上記フィラー系列を挿入したフィラー入りテキストを作成して出力するフィラー遷移決定手段と、
を備えることを特徴とする言語モデル学習装置。
フィラーを含むテキストを入力として当該テキストに含まれる複数のフィラーについて、フィラーからフィラーに状態遷移する全ての組み合わせのフィラー間状態遷移確率と、各フィラーからポーズへとポーズからフィラーへの状態遷移確率とを計算してフィラー遷移モデルとして出力するフィラー状態遷移確率算出過程と、
上記複数のフィラーの各フィラーから終了状態に状態遷移する状態遷移確率を計算してフィラー遷移モデルとして出力する終了状態遷移確率算出過程と、
を備えるフィラー遷移モデル学習方法。
フィラーを含まないテキストを入力として、形態素列中におけるフィラーを挿入すべき箇所を推定するモデルであるフィラー挿入モデルと、フィラーの挿入箇所が指定された時に、挿入すべき適当なフィラーを選択するモデルであるフィラー選択モデルと、請求項５に記載したフィラー遷移モデル学習方法で学習したフィラー遷移モデルと、を参照してフィラー入りテキストを作成するフィラー入りテキスト作成過程と、
上記フィラー入りテキストを入力として、当該フィラー入りテキスト中の全てのＮ個組みの単語の組み合わせの頻度を数えてＮ−ｇｒａｍ言語モデルであるフィラーあり言語モデルを作成するフィラーあり言語モデル作成過程と、
を備える言語モデル学習方法。
請求項６に記載した言語モデル学習方法において、
さらに、
フィラーなしテキストを入力として、当該フィラーなしテキスト中の全てのＮ個組みの単語の組み合わせの頻度を数えてＮ−ｇｒａｍ言語モデルであるフィラーなし言語モデルを作成するフィラーなし言語モデル作成過程と、
上記フィラーあり言語モデルと上記フィラーなし言語モデルを入力として、２つの確率分布を重み付け和して求めたフィラー混合言語モデルを作成するフィラー混合言語モデル作成過程と、
を備える言語モデル学習方法。
請求項１に記載したフィラー遷移モデル学習装置、又は請求項２乃至４の何れか１項に記載した言語モデル学習装置としてコンピュータを動作させるためのプログラム。