JP6493866B2

JP6493866B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP6493866B2
Application number: JP2013233890A
Authority: JP
Inventors: 隆輝立花; 伸泰伊東; 岳人倉田; 雅史西村
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-11-12
Filing date: 2013-11-12
Publication date: 2019-04-03
Anticipated expiration: 2033-11-12
Also published as: JP2015094848A

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

従来、音声認識等の音声処理を実行する場合、文字列、単語列等の生起確率を与える言語モデルを用いていた。そして、音声認識等の精度を高めるように、当該言語モデルを学習することが知られている（例えば、特許文献１、２、および３等参照）。
［特許文献１］特開２００９−２１７００６号公報
［特許文献２］特開２００７−４６３３号公報
［特許文献３］特開２００８−２１６７５６号公報

しかしながら、このような言語モデルは、文字列、単語列等の表記（スペリング）に対する確率を与えるモデルが多かったので、複数の読みを有する対象テキストに対して精度良く音声処理することは困難であった。それらのモデルでは、読み（発音）に対する確率を表記に対する確率で代替していたので、精度の向上には限度があった。また、読みに対する確率の情報を人手で加えて言語モデルを生成することもできるが、モデルを構築するのに手間と時間がかかり、現実的ではない。

本発明の第１の態様においては、対象テキストに読みを付与する情報処理装置であって、音声データを取得する音声データ取得部と、音声データを音声認識して音声データの読みの統計データとして音声のユニグラムデータおよび音声のｎ−グラムデータを含む第１統計モデルを生成する生成部と、対象テキストを解析して、第１統計モデルの少なくとも音声のユニグラムデータに基づいて対象テキストの読みの候補を予測し、音声のユニグラムデータおよび音声データの表記のユニグラムデータの少なくともいずれか一方に基づいて対象テキストの読みの候補の数を減じる予測部と、第１統計モデルの少なくとも音声のｎ−グラムデータおよび予測部において数が減じられた対象テキストの読みの候補に基づいて、対象テキストに付与する読みを決定する決定部と、を備える情報処理装置、情報処理方法、およびプログラムを提供する。

なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

本実施形態に係る情報処理装置１００の構成例を示す。本実施形態に係る情報処理装置１００の動作フローの構成例を示す。本実施形態に係る予測部１５０が生成する格子構造の一例を示す。本実施形態に係る情報処理装置１００の変形例を示す。本実施形態に係る情報処理装置１００として機能するコンピュータ１９００のハードウェア構成の一例を示す。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、本実施形態に係る情報処理装置１００の構成例を示す。情報処理装置１００は、対象テキストに読みを自動的に付与し、当該対象テキストを用いて言語モデルの学習を実行する。本実施形態において、対象テキストは、自然言語の文章の表記（スペリング）を示すデータである。情報処理装置１００は、音声データ取得部１１０と、記憶部１２０と、生成部１３０と、入力部１４０と、予測部１５０と、決定部１６０と、コーパス出力部１７０と、学習部１８０とを備える。

音声データ取得部１１０は、音声データを取得する。音声データ取得部１１０は、ユーザの音声を取得してもよく、これに代えて、ユーザとは異なる人物の音声を取得してよい。音声データ取得部１１０は、マイクロフォン等に接続され、音声を電気信号の音声データに変換して取得してよく、これに代えて、予め定められた形式で記憶された音声データを読み出して取得してもよい。音声データ取得部１１０は、ネットワーク等に接続され、当該ネットワークを介して音声データを取得してもよい。また、音声データ取得部１１０は、有線または無線で送信された放送を受信して、音声データを取得してもよい。音声データ取得部１１０は、取得した音声データを記憶部１２０に供給する。

記憶部１２０は、音声データ取得部１１０に接続され、音声データ取得部１１０から受け取った音声データを記憶する。記憶部１２０は、生成部１３０の要求に応じて当該生成部１３０に、記憶した音声データを供給する。また、記憶部１２０は、辞書データ等を記憶する。また、記憶部１２０は、情報処理装置１００が言語モデルを学習する過程における処理データを記憶してよい。

生成部１３０は、記憶部１２０に接続され、受け取った音声データを音声認識して音声データの読み（発音）の統計データを含む第１統計モデルを生成する。これに代えて、生成部１３０は、音声データ取得部１１０に接続され、音声データ取得部１１０から音声データを受け取ってもよい。生成部１３０は、音声認識によって、音声データを対応する表記および読みのデータに変換する。生成部１３０は、音声認識結果である表記および読みのデータを記憶部１２０に記憶する。また、生成部１３０は、生成した第１統計モデルを記憶部１２０に記憶してもよい。

入力部１４０は、対象テキストが入力される。入力部１４０は、予め定められた形式で記憶されたテキストデータを対象テキストとして入力してよい。入力部１４０は、ネットワーク等に接続され、当該ネットワークを介して対象テキストを入力データとして取得してもよい。入力部１４０は、一例として、ニュースサイト等の記事等、ｗｅｂに公開された情報から対象テキストを取得して入力する。入力部１４０は、対象テキストを予測部１５０に供給する。

予測部１５０は、記憶部１２０および入力部１４０に接続され、受け取った対象テキストを解析して対象テキストの読みの候補を予測する。予測部１５０は、対象テキストを単語または形態素といった基本的な要素に構造化し、当該基本的な要素のそれぞれに読みを割り当て、対象テキストの読みの複数の候補に対してスコアを付与する。予測部１５０は、スコア付きの複数の候補の情報を決定部１６０に供給する。

決定部１６０は、記憶部１２０および予測部１５０に接続され、記憶部１２０から読み出した第１統計モデルおよび予測部１５０から受け取った対象テキストの読みの候補に基づいて、対象テキストに付与する読みを決定する。決定部１６０は、一例として、音声データの読みの統計データに基づき、対象テキストの読みの候補に付与されたスコアを更新する。決定部１６０は、更新したスコア付きの複数の候補の情報をコーパス出力部１７０に供給する。

コーパス出力部１７０は、決定部１６０が決定した読みを対象テキストに割り当てたテキストコーパスを出力する。コーパス出力部１７０は、決定部１６０が更新したスコアに基づき、対象テキストに割り当てる読みを選択して対象テキストに割り当て、テキストコーパスとして出力する。コーパス出力部１７０は、１または複数の読みを選択してよい。コーパス出力部１７０は、テキストコーパスを学習部１８０に供給する。

学習部１８０は、コーパス出力部１７０に接続され、コーパス出力部１７０が出力したテキストコーパスを用いて、入力音声を認識してテキストを出力する音声認識用の言語モデルを学習する。即ち、学習部１８０は、音声データの読みの統計データを反映させたテキストコーパスを用いて言語モデルを学習する。

従来、対象テキストの表記に基づいて言語モデルを学習し、例えば、「人」という単語の表記に対応する１つの確率を生成していたが、この場合、「ヒト」、「ビト」、「ジン」、「ト」といった複数の読みの確率まで生成することはできない。そこで、読みの確率を表記の確率で代替して用いていたが、読みに応じて生起確率が異なる場合、学習結果は実際の生起確率とは大きく異なってしまうことになる。

また、読みの確率を手作業で付与して言語モデルを学習することもできるが、手間と時間がかかり、言語モデルを生成する現実的な手法ではない。そこで、本実施形態の情報処理装置１００は、対象テキストに読みを自動で割り当て、読みを割り当てたテキストコーパスを用いて言語モデルを学習するので、音声データの認識結果を反映させた学習結果を自動で得ることができる。情報処理装置１００が対象テキストに読みを自動で割り当てて学習する動作を次に説明する。

図２は、本実施形態に係る情報処理装置１００の動作フローの構成例を示す。まず、音声データ取得部１１０は、音声データを取得する（Ｓ２００）。音声データ取得部１１０は、対象テキストと略同一の内容の音声データを含んだ音声データを取得してよい。また、音声データ取得部１１０は、対象テキストとは少なくとも一部が異なる内容についての音声データを取得してもよい。これに代えて、音声データ取得部１１０は、対象テキストとは異なる内容の音声データを取得してもよい。

ここで、音声データを生成部１３０が音声認識した場合、正しく認識されないことも生じる。そこで、このような認識誤りの影響を低減すべく、音声データ取得部１１０は、より多くの音声データを取得することが望ましい。例えば、音声データ取得部１１０は、生成部１３０の音声認識の認識誤りが予め定められた頻度以下となるように、音声データを取得して蓄積してよい。これに代えて、音声データ取得部１１０は、音声認識の認識誤りが統計的に十分に無視できる程度に、予め定められたデータ量以上の音声データを取得して蓄積してもよい。

また、生成部１３０は、音声データを音声認識した結果、読みの確度が予め定められた基準確度未満の部分を除いて第１統計モデルを生成してもよい。例えば、音声データには、認識することが困難な程度に声量が低い（高い）データ、早口なデータ、および雑音を含むデータ等が含まれる場合があり、読みの確度が低減する場合がある。この場合、生成部１３０は、このような読みの確度を低減させる音声認識結果を省いて、第１統計モデルを生成してよい。

次に、生成部１３０は、音声データを音声認識して、第１統計モデルを生成する（Ｓ２１０）。生成部１３０は、音声認識結果から、例えば、音声データの読みの統計データとして、音声のユニグラム（ｕｎｉｇｒａｍ）データおよび音声のｎ−グラム（ｎ−ｇｒａｍ）データを生成する。

ここで、本実施形態において、音声データの読みの統計データは、表記の情報も含めた統計データである。例えば、音声のユニグラムデータは、単に「ヒト」、「ビト」、「ジン」、・・・といった読みの生起確率ではなく、「人」の表記に対して、「ヒト」、「ビト」、「ジン」、および「ト」と発音した確率を示す。一例として、音声のユニグラムデータを、次式のように表す。
（数１）
Ｐｒ_{ｓｐｅｅｃｈ，Ｐ}（ｈ．ｉ．ｔ．ｏ｜人）＝０．５３
Ｐｒ_{ｓｐｅｅｃｈ，Ｐ}（ｂ．ｉ．ｔ．ｏ｜人）＝０．２６
Ｐｒ_{ｓｐｅｅｃｈ，Ｐ}（ｊ．ｉ．Ｎ｜人）＝０．１８
Ｐｒ_{ｓｐｅｅｃｈ，Ｐ}（ｔ．ｏ｜人）＝０．０３

ここで、Ｐｒ_{ｓｐｅｅｃｈ，Ｐ}（）は、音声データの読みの統計データを示し、「ｈ．ｉ．ｔ．ｏ．」は「ヒト」の読みを示す。即ち、（数１）式は、表記「人」に対して、音声データが「ヒト」と発音した確率が０．５３であることを示し、音声データが「ビト」と発音した確率が０．２６であることを示す。また、「人」の表記に対応する読み「ヒト」、「ビト」、「ジン」、および「ト」のそれぞれの確率の総和が１になるように、規格化した例を示す。

また、音声のユニグラムデータは、前後の文脈は考慮しない場合の確率を示す。即ち、一の表記（例えば「人」）の前後に並ぶ他の表記に関係なく、当該一の表記「人」に対する音声が「ヒト」である確率を示す。一方、音声のｎ−グラムデータは、前後の文脈を考慮した場合の確率を示す。即ち、一の表記（例えば「人」）の前後に並ぶ他の表記（例えば「英国」）に対して、当該一の表記「人」が例えば「ヒト」と発音された確率を示す。

一例として、音声のｎ−グラムデータを、次式のように表す。
（数２）
Ｐｒ_{ｓｐｅｅｃｈ，Ｐ}（ｈ．ｉ．ｔ．ｏ｜英国，人）＝０．０２
Ｐｒ_{ｓｐｅｅｃｈ，Ｐ}（ｂ．ｉ．ｔ．ｏ｜英国，人）＝０．１２
Ｐｒ_{ｓｐｅｅｃｈ，Ｐ}（ｊ．ｉ．Ｎ｜英国，人）＝０．８５
Ｐｒ_{ｓｐｅｅｃｈ，Ｐ}（ｔ．ｏ｜英国，人）＝０．０１

即ち、（数２）式は、表記「人」に対して、表記「英国」の後に音声データが「ジン」と発音した確率が０．８５であることを示し、表記「英国」の後に音声データが「ト」と発音した確率が０．０１であることを示す。（数２）式の場合においても、「人」の表記に対応する読み「ヒト」、「ビト」、「ジン」、および「ト」のそれぞれの確率の総和が１になるように、規格化した例を示す。

また、生成部１３０は、音声認識結果から、音声データの表記の統計データとして、表記のユニグラムデータおよび表記のｎ−グラムデータを生成し、当該表記の統計データも第１統計モデルとしてもよい。一例として、表記のユニグラムデータを、次式のように表す。
（数３）
Ｐｒ_{ｓｐｅｅｃｈ，Ｗ}（人）＝０．００２２
Ｐｒ_{ｓｐｅｅｃｈ，Ｗ}（英国）＝０．００１３

ここで、Ｐｒ_{ｓｐｅｅｃｈ，Ｗ}（）は、音声データの表記の統計データを示す。即ち、（数３）式は、音声認識した結果の表記データのうち、表記「人」が発生する確率が０．００２であり、表記「英国」が発生する確率が０．００１３であることを示す。表記の統計データは、表記（例えば「人」）がどのように発音されているかは関係なしに、統計を取った結果である。ここで、生成部１３０は、表記データの全ての単語に対する発生確率の総和が１になるように、規格化してもよい。

また、一例として、表記のｎ−グラムデータを、次式のように表す。
（数４）
Ｐｒ_{ｓｐｅｅｃｈ，Ｗ}（人｜英国）＝０．５

即ち、（数４）式は、音声認識した結果として得られた表記データのうち、表記「英国」が発生した後に表記「人」が発生する確率が０．５であることを示す。このように、表記のｎ−グラムデータは、表記（例えば「人」）の前後の文脈を考慮した場合の確率を示す。本実施例において、生成部１３０が、音声データを音声認識して音声データの読みおよび表記の統計データを含む第１統計モデルを生成する例を説明する。生成部１３０は、このように生成した第１統計モデルを記憶部１２０に記憶する。

情報処理装置１００は、音声データを取得するステップＳ２００から、生成部１３０の第１統計モデルを生成するステップＳ２１０までを予め実行して、記憶部１２０に記憶してよい。これに代えて、情報処理装置１００は、ステップＳ２００からステップＳ２１０までを繰り返し実行して、音声データの読みおよび表記の統計データの蓄積を継続させ第１統計モデルの更新を繰り返してもよい。

次に、入力部１４０から入力された対象テキストを、予測部１５０が解析する（Ｓ２２０）。予測部１５０は、対象テキストを構成する単語の境界の候補を列挙した後に、読みを割り当て、格子構造を生成する。ここで、一例として、「京都の英国人」を対象テキストとした場合、予測部１５０は、「京都／の／英国／人」、「京都／の／英／国／人」、および「京／都／の／英／国／人」等の基本的な要素に分解して構造化する。

そして、予測部１５０は、それぞれの要素に読みを割り当てる。予測部１５０は、記憶部１２０に予め記憶された辞書データ等を用いて、読みを割り当ててよい。また、予測部１５０は、例えば対象テキストが言語モデル等から供給された場合等、既に対象テキストに読みのデータが割り当てられている場合は、そのまま割り当てられたデータを用いてもよい。

予測部１５０は、例えば、「京都」の表記には「キョウト」の読みを、「の」の表記には「ノ」を、「英国」の表記には「エイコク」および「イギリス」の読みを、「人」の表記には「ヒト」、「ビト」、「ジン」、および「ト」の読みをそれぞれ割り当てる。予測部１５０は、この段階において、それぞれの要素に対して複数の読みの全てをそれぞれ割り当ててよい。

そして、予測部１５０は、それぞれの要素を並べ、並べた要素間を格子状に接続し、対象テキストである「京都の英国人」の読み方の組み合わせを示す格子構造を生成する。予測部１５０は、全ての読み方の組み合わせに対応する格子構造を生成してよい。

図３は、本実施形態に係る予測部１５０が生成する格子構造の一例を示す。図３において、予測部１５０が、対象テキスト「京都の英国人」の文頭から文末までを、各要素に割り当てた読みに応じて分岐させた格子構造を生成した例を示す。即ち、文頭から文末まで、後戻りなしに各要素を通過する異なる行程の数が、対象テキストの読み方の数となり、行程を通過する順に読みを繋げると対象テキストの読み方の候補となる。

例えば、図中の行程Ａは、「京都（キョウト）／の（ノ）／英国（エイコク）／人（ジン）」といった候補を示し、行程Ｂは、「京都（キョウト）／の（ノ）／英国（イギリス）／人（ビト）」といった候補を示す。以上のように、予測部１５０は、対象テキストを解析して対象テキストの読みの複数の候補を生成する。

次に、予測部１５０は、対象テキストを構成する単語の境界およびその読みの候補を予測する（Ｓ２３０）。予測部１５０は、一例として、第１統計モデルの表記のユニグラムデータおよび読みのユニグラムデータを用いて、対象テキストの読みの複数の候補に対してスコアを付与する。

予測部１５０は、例えば、対象テキストの読み方の候補に対して、当該候補が有する各要素に割り当てた読みにそれぞれ対応する読みのユニグラムデータの確率を各要素のスコアとし、各要素のスコアの積を当該候補のスコアとして付与する。予測部１５０は、一例として、「京都（キョウト）／の（ノ）／英国（エイコク）／人（ジン）」といった候補に対して、各要素の読みに対応する確率を各要素のスコアとして「京都（キョウト：１）／の（ノ：１）／英国（エイコク：０．８５）／人（ジン：０．１８）」とし、各要素のスコアの積（１×１×０．８５×０．１８＝０．１５３）を当該候補のスコアとして付与する。

また、予測部１５０は、既に対象テキストに読みのデータおよびスコアが割り当てられている場合は、当該割り当てられたスコアを上記の候補のスコアに更に乗じてよく、これに代えて、そのまま割り当てられたデータを用いてもよい。予測部１５０は、対象テキストの読みの複数の候補に対してそれぞれスコアを付与する。

ここで、予測部１５０は、対象テキストの読みの候補を予め定められた数の候補に絞り込んでよい。予測部１５０は、一例として、第１統計モデルの表記のユニグラムデータを用いて、対象テキストの読みの候補の数を減じる。対象テキストの読みの候補には、例えば、「京（キョウ）／都（ト）／の（ノ）／英（ヒデ）／国（クニ）／人（ヒト）」といった、明らかに単語の境界が細分化され過ぎている候補も含まれているので、予測部１５０は、このような候補を排除してよい。

予測部１５０は、例えば、対象テキストの読み方の候補に対して、当該候補が有する各要素の表記にそれぞれ対応する表記のユニグラムデータの確率を割り当て、割り当てた確率の積に応じて当該候補を排除するか否かを決定する。予測部１５０は、一例として、「京（キョウ）／都（ト）／の（ノ）／英（ヒデ）／国（クニ）／人（ヒト）」といった候補に対して、各要素の表記に対応する確率を「京（ｘ_１）／都（ｘ_２）／の（ｘ_３）／英（ｘ_４）／国（ｘ_５）／人（ｘ_６）」と割り当て、各要素の確率の積Ｘ（＝ｘ_１×ｘ_２×ｘ_３×ｘ_４×ｘ_５×ｘ_６）を算出する。

ここで、予測部１５０は、例えば、ｘ_１＝Ｐｒ_{ｓｐｅｅｃｈ，Ｗ}（京）のように、（数３）式を用いてｘ_１〜ｘ_６を割り当てる。予測部１５０は、それぞれの候補に対応する各要素の確率の積Ｘを算出し、大きい方から順に予め定められた数の候補を残してよく、これに代えて、小さい方から順に予め定められた数の候補を排除してもよい。これによって、予測部１５０は、単語の境界が現実的ではない候補を予め定められた数に絞り込むことができる。

これに代えて、予測部１５０は、各要素の確率の積Ｘが予め定められた値よりも小さい場合に、対応する候補を排除してもよい。この場合、予測部１５０は、読みの候補が適切な数に絞り込まれるように、一度絞り込みを実行し、絞り込まれた数に応じて当該予め定められた値を再設定して、絞り込みを繰り返してもよい。

また、予測部１５０は、表記のユニグラムデータに加えて、または表記のユニグラムデータに代えて、表記のｎ−グラムデータを用いて現実的ではない候補を絞り込んでよい。この場合、予測部１５０は、一例として、ｘ_１＝Ｐｒ_{ｓｐｅｅｃｈ，Ｗ}（都｜京）のように、（数４）式を用いてｘ_１〜ｘ_５を割り当てる。

また、予測部１５０は、既に対象テキストに表記のスコアが割り当てられている場合は、そのまま割り当てられたスコアを用いて候補を排除してもよい。これに代えて、予測部１５０は、既に割り当てられたスコアと、表記のユニグラムデータから算出されるスコアとを乗じた値を絞り込み用のスコアとしてもよい。

このように、予測部１５０は、表記のユニグラムデータから単語の境界が現実的ではない候補を排除することができるので、対象テキストの格子構造の規模が膨大になることを防ぎ、それぞれの候補に対してスコアを付与する動作を高速化することができる。また、予測部１５０は、表記および音声のデータに基づき、対象テキストを構成する単語の境界およびその読みの候補を予測することができる。

予測部１５０は、候補のスコアを大きい順に並べ、スコアが大きい方から順に予め定められたｎ個の対象テキストの読み方の候補をｎ−ベストリストとして生成し、対象テキストの単語の境界および読みの候補の予測結果として当該ｎ−ベストリストを出力する。これに代えて、予測部１５０は、候補のスコアを大きい順に並べたリストをそのままｎ−ベストリストとして生成し、対象テキストの予測結果として当該ｎ−ベストリストを出力してもよい。

予測部１５０が出力するｎ−ベストリストの第１位から４位までの一例を、次式に示す。
（数５）
ｔ_１＝「京都（キョウト）／の（ノ）／英国（エイコク）／人（ジン）」
ｔ_２＝「京都（キョウト）／の（ノ）／英国（エイコク）／人（ビト）」
ｔ_３＝「京都（キョウト）／の（ノ）／英国（イギリス）／人（ジン）」
ｔ_４＝「京都（キョウト）／の（ノ）／英／（ヒデ）／国（クニ）／人（ヒト）」

決定部１６０は、対象テキストを構成する単語の境界とその読みの候補から対象テキストの単語境界および読みを決定する。即ち、決定部１６０は、予測部１５０からｎ−ベストリストを受け取り、対象テキストに付与する読みを決定する。ここで、決定部１６０は、第１統計モデルに基づいて、ｎ−ベストリストに含まれる複数の候補のそれぞれの予測確度を算出する。

まず、決定部１６０は、文脈を考慮して複数の候補の予測確度を算出し、各候補に対して再びスコアをつけて（リスコア）受け取ったｎ−ベストリストを更新する（Ｓ２４０）。決定部１６０は、例えば、音声のｎ−グラムデータを用い、各候補の境界で区切られた単語間の並びに応じて、予測確度を算出する。

決定部１６０は、一例として、（数５）式のｔ_１で示された候補に対して、Ｐｒ_{ｓｐｅｅｃｈ，Ｐ１}（ｎ．ｏ｜京都，の）、Ｐｒ_{ｓｐｅｅｃｈ，Ｐ２}（ｅ．ｉ．ｋ．ｏ. ｋ．ｕ｜の，英国）、Ｐｒ_{ｓｐｅｅｃｈ，Ｐ３}（ｊ．ｉ．Ｎ｜英国，人）の音声のｎ−グラムデータの確率を割り当て、割り当てた確率の積をリスコア値とする。決定部１６０は、ｔ_２、ｔ_３、・・・といった各候補に対してリスコア値を算出してｎ−ベストリストを更新する。

これに加えて、決定部１６０は、表記のｎ−グラムデータを用いて予測確度を算出してもよい。決定部１６０は、一例として、ｔ_１に対して、Ｐｒ_{ｓｐｅｅｃｈ，Ｗ１}（の｜京都）、Ｐｒ_{ｓｐｅｅｃｈ，Ｗ２}（英国｜の）、Ｐｒ_{ｓｐｅｅｃｈ，Ｗ３}（人｜英国）を割り当て、当該確率の積を、音声のｎ−グラムデータの確率の積に更に乗じてリスコア値とする。

また、決定部１６０は、表記のユニグラムデータおよび／または音声のユニグラムデータを更に用いてもよい。この場合、決定部１６０は、各候補の境界で区切られた単語に対応するユニグラムデータの確率の積を、ｎ−グラムデータの確率の積に乗じてリスコア値としてよい。

決定部１６０は、リスコア値の大きい方から順に、各候補を並べてｎ−ベストリストを更新する。ここで、決定部１６０は、ｎ−ベストリストにおける各候補のリスコア値の合計が１となるように、リスコア値を規格化してもよい。これによって、決定部１６０は、複数の候補のそれぞれを、予測確度に基づく確率の順に並べたリストを生成することができる。

次に、決定部１６０は、複数の候補のそれぞれの予測確度に基づいて、複数の候補の中から対象テキストに付与すべき読みを選択する（Ｓ２５０）。決定部１６０は、複数の候補のそれぞれの予測確度に基づく確率に基づいて、複数の候補から少なくとも１つの候補の読みを選択する。

決定部１６０は、例えば、ｎ−ベストリストの各候補のうち、予測確度に基づく確率に応じて、１つの候補の読みを選択する。決定部１６０は、一例として、候補ｔ_１の確率（リスコア値）が０．８、候補ｔ_２の確率が０．１５、候補ｔ_３の確率が０．０５の場合、当該確率と略同一の選択確率で、１の候補を選択する。この場合、例えば、同一の対象テキストを１００回入力すると、決定部１６０は、候補ｔ_１を略８０回選択し、候補ｔ_２を略１５回選択し、候補ｔ_３を略５回選択することになる。

これに代えて、決定部１６０は、ｎ−ベストリストの各候補のうち、予測確度に基づく確率に応じて、複数の候補を選択してもよい。決定部１６０は、各候補のそれぞれの確率（リスコア値）と略同一の選択確率で、複数の候補を選択する。この場合、例えば、同一の対象テキストから１００回選択させると、決定部１６０は、候補ｔ_１を略８０回選択し、候補ｔ_２を略１５回選択し、候補ｔ_３を略５回選択することになる。

以上のように、本実施形態の決定部１６０は、予測部１５０が生成したｎ−ベストリストを更新した後に、予め定められた数の読みの候補を選択して出力する。ここで、予測部１５０が、対象テキストの読みの候補を絞り込んだ場合、決定部１６０は、第１統計モデルに基づいて、予測部が絞り込んだ複数の候補の中から少なくとも１つの候補の読みを選択することになる。

これに代えて、決定部１６０は、対象テキストに対し、複数の候補のうち２以上の候補の読みを付与してもよい。決定部１６０は、例えば、更新したｎ−ベストリストの各候補の確率（リスコア値）を出力する。また、決定部１６０は、更新したｎ−ベストリストのうち、予め定められた順位までの候補の確率を出力してもよい。

このように、本実施形態の情報処理装置１００は、第１統計モデルが有するユニグラムデータを用いてｎ−ベストリストを生成した後に、第１統計モデルが有するｎ−グラムデータを用いて、ｎ−ベストリストをリスコアして更新する。即ち、情報処理装置１００は、文脈を考慮しない大雑把な対象テキストの解析に基づいてｎ−ベストリストを生成し、その後に、文脈を考慮した詳細な対象テキストの解析に基づいてｎ−ベストリストを更新する。

これによって、情報処理装置１００は、文脈を考慮した解析を実行して、文脈を考慮しない解析に比べてより正確な対象テキストの読みの候補の確率を出力することができる。また、情報処理装置１００は、対象テキストを最初から文脈を考慮して解析することなしに、より高速に読みの候補の確率を出力することができる。

また、情報処理装置１００は、音声および表記のユニグラムデータを用いてｎ−ベストリストを生成するので、対象テキストの単語の境界を、音声および表記の両方の観点からバランスよくフェアに解析することができる。また、情報処理装置１００は、音声のｎ−グラムデータを用いてｎ−ベストリストを更新するので、音声認識に適した境界区切りおよび読みの候補の選択を実行することができる。

また、情報処理装置１００は、対象テキストの入力および予め記憶された辞書データ等とは別個に、音声データの音声認識結果から第１統計モデルを生成するので、音声認識結果をより多く蓄積することで、より正確な対象テキストの読みの候補の確率を出力することができる。

次に、コーパス出力部１７０は、決定部１６０が決定した読みを対象テキストに割り当てたテキストコーパスを学習部１８０に出力する。ここで、コーパス出力部１７０は、決定部１６０が複数の読みを決定した場合、それぞれの読みに対して対象テキストを割り当てたテキストコーパスを学習部１８０に出力してよい。また、コーパス出力部１７０は、決定部１６０が複数の候補の読みを決定した場合、当該複数の候補の読みに対して対象テキストをそれぞれ割り当てたテキストコーパスを、当該候補の確率と共に学習部１８０に出力してよい。

次に、学習部１８０は、受け取ったテキストコーパスに基づき、音声認識用の言語モデルを学習する（Ｓ２６０）。即ち、学習部１８０は、対象テキストと、当該対象テキストのより確率の高い読みの候補とを用いて、学習することができる。また、学習部１８０は、対象テキストの読みの候補の確率に基づき、学習することができる。学習部１８０は、学習によって得られた言語モデルを情報処理装置１００の処理結果として出力する。

即ち、学習部１８０は、一例として、ユーザが「英国」の表記を「エイコク」と発音した場合に、次に「人（ジン）」と発声するか、「式（シキ）」と発声するかの確率をそれぞれ蓄積することができる。これによって、ユーザが「英国」の表記を「エイコク」と発音した場合、次にユーザが発声する言葉が雑音等で不鮮明となっても、次にくる言葉が「人（ジン）」であるか「式（シキ）」であるのかを、学習した言語モデルから推定することができる。

また、ユーザが「このビートは」と発声した場合、「ビート」が不鮮明になると、「ビト」と認識され、従来の言語モデルでは「人」の表記が割り当てられてしまう場合があった。また、「この」および「人」の表記の並びは、表記のｎ−グラムデータを用いると高い確率が対応するので、従来、「このビートは」の発声に対して「この人は」と誤認識される結果を排除することは困難であった。

これに対して、本実施形態の学習部１８０は、音声のｎ−グラムデータを用いて読みの候補を選択した結果を用いて学習するので、「ビート」の発音が不鮮明で「人」の表記が割り当てられても、「ビト」と発音した表記の直前にくる他の表記が「この」となる確率は低くなる。したがって、学習部１８０によって学習された言語モデルは、「このビートは」の発声に対して「この人（ビト）は」と誤認識することを防止することができる。

以上のように、本実施形態の情報処理装置１００は、少なくとも音声のｎ−グラムデータを用いて文脈を考慮した解析を実行するので、対象テキストのより正確な確率の読みの候補を用いて言語モデルを学習することができる。このような学習によって得られる言語モデルを用いることにより、音声認識等の音声処理を精度よく実行することができる。

図４は、本実施形態に係る情報処理装置１００の変形例を示す。本変形例の情報処理装置１００において、図２に示された本実施形態に係る情報処理装置１００の動作と略同一のものには同一の符号を付け、説明を省略する。本変形例の情報処理装置１００は、候補取得部４１０を更に備える。

候補取得部４１０は、テキストから音声を合成する音声合成装置のテキスト処理部に対して対象テキストを入力して、当該対象テキストの読みの候補を取得する。即ち、候補取得部４１０は、外部の音声合成装置等に接続され、音声合成装置のテキスト処理結果を対象テキストの読みの候補として取得する。

既存の音声合成装置等は、ニュース等のより文語に近い整った文章に対して、精度よくテキスト処理を実行することができる。そこで、候補取得部４１０は、音声合成装置等の処理結果を取得して、当該処理結果を決定部１６０に供給する。

決定部１６０は、予測部１５０が予測した読みの候補および音声合成装置のテキスト処理部が出力した読みの候補から、対象テキストに付与する読みを決定する。決定部１６０は、例えば、候補取得部４１０から受け取った対象テキストの読みの候補に基づき、リスコア値を補正する。この場合、決定部１６０は、予測部１５０が予想した読みの候補のうち、候補取得部４１０が取得した対象テキストの読みの候補と略同一の読みに対して、予め定められたスコア値をリスコア値に加算して補正してよい。

決定部１６０は、一例として、候補取得部４１０から受け取った対象テキストの読みにおいて、単語の境界を除いた読みの情報に変換し、当該変換結果と予測部１５０が予想した読みの候補とを比較する。ここで、決定部１６０は、音声合成装置が認識できなかった単語または辞書等になかった単語等が存在する場合、当該単語を任意の単語とマッチする意味のワイルドカード等に変換してよい。

決定部１６０は、一例として、候補取得部４１０から受け取った対象テキストの読みが「京都（キョウト）／の（ノ）／英国（エイコク）／人（ジン）」の場合、「キョウトノエイコクジン」と読みの情報に変換する。そして、決定部１６０は、ｎ−ベストリストの読み候補の読みとマッチングさせて、マッチした単語のリスコア値を補正する。例えば、決定部１６０は、「英国（エイコク）」、「英国（エイ）」、および「国（コク）」といった単語は、読みがマッチングするのでリスコア値を増加させ、「英国（イギリス）」、「英（ヒデ）」、および「国（クニ）」といった単語は、読みがマッチングしないのでリスコア値を変えない。

これにより、決定部１６０は、外部の音声合成装置等の処理結果を、ｎ−ベストリストの更新の補助に用いることができる。これにより、本変形例の情報処理装置１００は、より文語に近い整った文章が対象テキストに含まれる場合、読みの候補の確率をより高い精度で決定することができる。

また、本変形例の情報処理装置１００は、モデル取得部４２０を更に備える。モデル取得部４２０は、音声認識用の既存の言語モデルから読みの統計データを含む第２統計モデルを取得する。モデル取得部４２０は、過去に生成した言語モデル、外部の情報処理装置によって生成された言語モデル、および／または音声合成装置等が生成した言語モデル等から、第２統計モデルを取得してよい。

モデル取得部４２０が、音声データの読みの統計データとして、音声のユニグラムデータを取得した場合、生成部１３０は、音声認識から生成した音声のユニグラムデータと、取得した音声のユニグラムデータとを合体させて、新たな音声のユニグラムデータを生成してよい。また、モデル取得部４２０が、音声のｎ−グラムデータを取得した場合、生成部１３０は、音声認識から生成した音声のｎ−グラムデータと、取得した音声のｎ−グラムデータとを合体させて、新たな音声のユニグラムデータを生成してよい。

同様に、モデル取得部４２０が、表記のユニグラムデータを取得した場合、生成部１３０は、音声認識から生成した表記のユニグラムデータと、取得した表記のユニグラムデータとを合体させてよい。また、モデル取得部４２０が、表記のｎ−グラムデータを取得した場合、生成部１３０は、音声認識から生成した表記のｎ−グラムデータと、取得した表記のｎ−グラムデータとを合体させてよい。

以上のように、本変形例の決定部１６０は、第１統計モデルおよび第２統計モデルに基づいて、対象テキストに付与する読みを決定することができる。即ち、情報処理装置１００は、より多くの情報を蓄積した統計データを用いることができ、対象テキストに対する読みの候補の確率をより高い精度で決定することができる。また、モデル取得部４２０が、表記のユニグラムデータおよびｎ−グラムデータを取得した場合、情報処理装置１００は取得した表記のデータをそのまま用い、生成部１３０は音声のユニグラムデータおよびｎ−グラムデータを生成するだけの動作を実行してもよい。

図５は、本実施形態に係る情報処理装置１００として機能するコンピュータ１９００のハードウェア構成の一例を示す。本実施形態に係るコンピュータ１９００は、ホスト・コントローラ２０８２により相互に接続されるＣＰＵ２０００、ＲＡＭ２０２０、グラフィック・コントローラ２０７５、および表示装置２０８０を有するＣＰＵ周辺部と、入出力コントローラ２０８４によりホスト・コントローラ２０８２に接続される通信インターフェイス２０３０、ハードディスクドライブ２０４０、およびＤＶＤドライブ２０６０を有する入出力部と、入出力コントローラ２０８４に接続されるＲＯＭ２０１０、フレキシブルディスク・ドライブ２０５０、および入出力チップ２０７０を有するレガシー入出力部と、を備える。

ホスト・コントローラ２０８２は、ＲＡＭ２０２０と、高い転送レートでＲＡＭ２０２０をアクセスするＣＰＵ２０００およびグラフィック・コントローラ２０７５とを接続する。ＣＰＵ２０００は、ＲＯＭ２０１０およびＲＡＭ２０２０に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ２０７５は、ＣＰＵ２０００等がＲＡＭ２０２０内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置２０８０上に表示させる。これに代えて、グラフィック・コントローラ２０７５は、ＣＰＵ２０００等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。

入出力コントローラ２０８４は、ホスト・コントローラ２０８２と、比較的高速な入出力装置である通信インターフェイス２０３０、ハードディスクドライブ２０４０、ＤＶＤドライブ２０６０を接続する。通信インターフェイス２０３０は、ネットワークを介して他の装置と通信する。ハードディスクドライブ２０４０は、コンピュータ１９００内のＣＰＵ２０００が使用するプログラムおよびデータを格納する。ＤＶＤドライブ２０６０は、ＤＶＤ−ＲＯＭ２０９５からプログラムまたはデータを読み取り、ＲＡＭ２０２０を介してハードディスクドライブ２０４０に提供する。

また、入出力コントローラ２０８４には、ＲＯＭ２０１０と、フレキシブルディスク・ドライブ２０５０、および入出力チップ２０７０の比較的低速な入出力装置とが接続される。ＲＯＭ２０１０は、コンピュータ１９００が起動時に実行するブート・プログラム、および／または、コンピュータ１９００のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ２０５０は、フレキシブルディスク２０９０からプログラムまたはデータを読み取り、ＲＡＭ２０２０を介してハードディスクドライブ２０４０に提供する。入出力チップ２０７０は、フレキシブルディスク・ドライブ２０５０を入出力コントローラ２０８４へと接続すると共に、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を入出力コントローラ２０８４へと接続する。

ＲＡＭ２０２０を介してハードディスクドライブ２０４０に提供されるプログラムは、フレキシブルディスク２０９０、ＤＶＤ−ＲＯＭ２０９５、またはＩＣカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、ＲＡＭ２０２０を介してコンピュータ１９００内のハードディスクドライブ２０４０にインストールされ、ＣＰＵ２０００において実行される。

プログラムは、コンピュータ１９００にインストールされ、コンピュータ１９００を音声データ取得部１１０、記憶部１２０、生成部１３０、入力部１４０、予測部１５０、決定部１６０、コーパス出力部１７０、および学習部１８０として機能させる。

プログラムに記述された情報処理は、コンピュータ１９００に読込まれることにより、ソフトウェアと上述した各種のハードウェア資源とが協働した具体的手段である音声データ取得部１１０、記憶部１２０、生成部１３０、入力部１４０、予測部１５０、決定部１６０、コーパス出力部１７０、および学習部１８０として機能する。そして、この具体的手段によって、本実施形態におけるコンピュータ１９００の使用目的に応じた情報の演算または加工を実現することにより、使用目的に応じた特有の情報処理装置１００が構築される。

一例として、コンピュータ１９００と外部の装置等との間で通信を行う場合には、ＣＰＵ２０００は、ＲＡＭ２０２０上にロードされた通信プログラムを実行し、通信プログラムに記述された処理内容に基づいて、通信インターフェイス２０３０に対して通信処理を指示する。通信インターフェイス２０３０は、ＣＰＵ２０００の制御を受けて、ＲＡＭ２０２０、ハードディスクドライブ２０４０、フレキシブルディスク２０９０、またはＤＶＤ−ＲＯＭ２０９５等の記憶装置上に設けた送信バッファ領域等に記憶された送信データを読み出してネットワークへと送信し、もしくは、ネットワークから受信した受信データを記憶装置上に設けた受信バッファ領域等へと書き込む。このように、通信インターフェイス２０３０は、ＤＭＡ（ダイレクト・メモリ・アクセス）方式により記憶装置との間で送受信データを転送してもよく、これに代えて、ＣＰＵ２０００が転送元の記憶装置または通信インターフェイス２０３０からデータを読み出し、転送先の通信インターフェイス２０３０または記憶装置へとデータを書き込むことにより送受信データを転送してもよい。

また、ＣＰＵ２０００は、ハードディスクドライブ２０４０、ＤＶＤドライブ２０６０（ＤＶＤ−ＲＯＭ２０９５）、フレキシブルディスク・ドライブ２０５０（フレキシブルディスク２０９０）等の外部記憶装置に格納されたファイルまたはデータベース等の中から、全部または必要な部分をＤＭＡ転送等によりＲＡＭ２０２０へと読み込ませ、ＲＡＭ２０２０上のデータに対して各種の処理を行う。そして、ＣＰＵ２０００は、処理を終えたデータを、ＤＭＡ転送等により外部記憶装置へと書き戻す。このような処理において、ＲＡＭ２０２０は、外部記憶装置の内容を一時的に保持するものとみなせるから、本実施形態においてはＲＡＭ２０２０および外部記憶装置等をメモリ、記憶部、または記憶装置等と総称する。本実施形態における各種のプログラム、データ、テーブル、データベース等の各種の情報は、このような記憶装置上に格納されて、情報処理の対象となる。なお、ＣＰＵ２０００は、ＲＡＭ２０２０の一部をキャッシュメモリに保持し、キャッシュメモリ上で読み書きを行うこともできる。このような形態においても、キャッシュメモリはＲＡＭ２０２０の機能の一部を担うから、本実施形態においては、区別して示す場合を除き、キャッシュメモリもＲＡＭ２０２０、メモリ、および／または記憶装置に含まれるものとする。

また、ＣＰＵ２０００は、ＲＡＭ２０２０から読み出したデータに対して、プログラムの命令列により指定された、本実施形態中に記載した各種の演算、情報の加工、条件判断、情報の検索・置換等を含む各種の処理を行い、ＲＡＭ２０２０へと書き戻す。例えば、ＣＰＵ２０００は、条件判断を行う場合においては、本実施形態において示した各種の変数が、他の変数または定数と比較して、大きい、小さい、以上、以下、等しい等の条件を満たすかどうかを判断し、条件が成立した場合（または不成立であった場合）に、異なる命令列へと分岐し、またはサブルーチンを呼び出す。

また、ＣＰＵ２０００は、記憶装置内のファイルまたはデータベース等に格納された情報を検索することができる。例えば、第１属性の属性値に対し第２属性の属性値がそれぞれ対応付けられた複数のエントリが記憶装置に格納されている場合において、ＣＰＵ２０００は、記憶装置に格納されている複数のエントリの中から第１属性の属性値が指定された条件と一致するエントリを検索し、そのエントリに格納されている第２属性の属性値を読み出すことにより、所定の条件を満たす第１属性に対応付けられた第２属性の属性値を得ることができる。

以上に示したプログラムまたはモジュールは、外部の記録媒体に格納されてもよい。記録媒体としては、フレキシブルディスク２０９０、ＤＶＤ−ＲＯＭ２０９５の他に、ＤＶＤ、Ｂｌｕ−ｒａｙ（登録商標）、またはＣＤ等の光学記録媒体、ＭＯ等の光磁気記録媒体、テープ媒体、ＩＣカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークまたはインターネットに接続されたサーバシステムに設けたハードディスクまたはＲＡＭ等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ１９００に提供してもよい。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

１００情報処理装置、１１０音声データ取得部、１２０記憶部、１３０生成部、１４０入力部、１５０予測部、１６０決定部、１７０コーパス出力部、１８０学習部、４１０候補取得部、４２０モデル取得部、１９００コンピュータ、２０００ＣＰＵ、２０１０ＲＯＭ、２０２０ＲＡＭ、２０３０通信インターフェイス、２０４０ハードディスクドライブ、２０５０フレキシブルディスク・ドライブ、２０６０ＤＶＤドライブ、２０７０入出力チップ、２０７５グラフィック・コントローラ、２０８０表示装置、２０８２ホスト・コントローラ、２０８４入出力コントローラ、２０９０フレキシブルディスク、２０９５ＤＶＤ−ＲＯＭ

Claims

対象テキストに読みを付与する情報処理装置であって、
音声データを取得する音声データ取得部と、
前記音声データを音声認識して、前記音声データの読みの統計データとして音声のユニグラムデータおよび音声のｎ−グラムデータを含む第１統計モデルを生成する生成部と、
前記対象テキストを解析して、前記第１統計モデルの少なくとも前記音声のユニグラムデータに基づいて前記対象テキストの読みの候補を予測し、前記音声のユニグラムデータおよび前記音声データの表記のユニグラムデータの少なくともいずれか一方に基づいて前記対象テキストの読みの候補の数を減じる予測部と、
前記第１統計モデルの少なくとも前記音声のｎ−グラムデータおよび前記予測部において数が減じられた前記対象テキストの読みの候補に基づいて、前記対象テキストに付与する読みを決定する決定部と、
を備える情報処理装置。
前記音声データ取得部は、前記対象テキストとは少なくとも一部が異なる内容についての音声データを取得する請求項１に記載の情報処理装置。
前記予測部は、前記対象テキストを解析して前記対象テキストの読みの複数の候補を生成し、
前記決定部は、前記第１統計モデルに基づいて、前記複数の候補のそれぞれの予測確度を算出する
請求項１または２に記載の情報処理装置。
前記決定部は、前記複数の候補のそれぞれの予測確度に基づいて、前記複数の候補の中から前記対象テキストに付与すべき読みを選択する請求項３に記載の情報処理装置。
前記決定部は、前記複数の候補のそれぞれの予測確度に基づく確率に基づいて、前記複数の候補から少なくとも１つの候補の読みを選択する請求項３に記載の情報処理装置。
前記決定部は、前記対象テキストに対し、前記複数の候補のうち２以上の候補の読みを付与する請求項３に記載の情報処理装置。
前記予測部は、前記対象テキストの読みの候補を予め定められた数の候補に絞り込み、
前記決定部は、前記第１統計モデルに基づいて、前記予測部が絞り込んだ複数の候補の中から少なくとも１つの候補の読みを選択する
請求項１から６のいずれか一項に記載の情報処理装置。
前記生成部は、前記音声データを音声認識して前記音声データの読みおよび表記の統計データを含む前記第１統計モデルを生成し、
前記予測部は、前記表記の統計データに基づいて、前記対象テキストの読みの候補を絞り込む請求項１から７のいずれか一項に記載の情報処理装置。
前記生成部は、前記音声データを音声認識して前記音声データの読みおよび表記の統計データを含む前記第１統計モデルを生成し、
前記予測部は、前記対象テキストを構成する単語の境界およびその読みの候補を予測し、
前記決定部は、前記対象テキストを構成する単語の境界とその読みの候補から前記対象テキストの単語境界および読みを決定する
請求項１から８のいずれか一項に記載の情報処理装置。
テキストから音声を合成する音声合成装置のテキスト処理部に対して前記対象テキストを入力して、前記対象テキストの読みの候補を取得する候補取得部を更に備え、
前記決定部は、前記予測部が予測した読みの候補および前記音声合成装置のテキスト処理部が出力した読みの候補から前記対象テキストに付与する読みを決定する請求項１から９のいずれか一項に記載の情報処理装置。
音声認識用の既存の言語モデルから読みの統計データを含む第２統計モデルを取得するモデル取得部を更に備え、
前記決定部は、前記第１統計モデルおよび前記第２統計モデルに基づいて、前記対象テキストに付与する読みを決定する
請求項１から１０のいずれか一項に記載の情報処理装置。
前記生成部は、前記音声データを音声認識した結果、読みの確度が予め定められた基準確度未満の部分を除いて前記第１統計モデルを生成する請求項１から１１のいずれか一項に記載の情報処理装置。
前記決定部が決定した読みを前記対象テキストに割り当てたテキストコーパスを出力するコーパス出力部と、
前記コーパス出力部が出力した前記テキストコーパスを用いて、入力音声を認識してテキストを出力する音声認識用の言語モデルを学習する学習部と、
を更に備える請求項１から１２のいずれか一項に記載の情報処理装置。
対象テキストに読みを付与する情報処理方法であって、
音声データを取得する取得段階と、
前記音声データを音声認識して、前記音声データの読みの統計データとして音声のユニグラムデータおよび音声のｎ−グラムデータを含む第１統計モデルを生成する生成段階と、
前記対象テキストを解析して、前記第１統計モデルの少なくとも前記音声のユニグラムデータに基づいて前記対象テキストの読みの候補を予測し、前記音声のユニグラムデータおよび前記音声データの表記のユニグラムデータの少なくともいずれか一方に基づいて前記対象テキストの読みの候補を減じる、予測段階と、
前記第１統計モデルの少なくとも前記音声のｎ−グラムデータおよび前記予測段階において数が減じられた前記対象テキストの読みの候補に基づいて、前記対象テキストに付与する読みを決定する決定段階と、
を備える情報処理方法。
コンピュータに、請求項１から１３のいずれか一項に記載の情報処理装置として機能させるプログラム。