JP2013235117A

JP2013235117A - 単語分割装置、及び単語分割方法

Info

Publication number: JP2013235117A
Application number: JP2012107095A
Authority: JP
Inventors: Kenichi Iso; 健一磯
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2012-05-08
Filing date: 2012-05-08
Publication date: 2013-11-21
Anticipated expiration: 2032-05-08
Also published as: JP5611270B2

Abstract

【課題】書き起こしテキストから高精度に単語を分割可能な単語分割装置、単語分割方法、及び単語分割プログラムを提供する。
【解決手段】単語学習装置１は、音声の検聴により書き起こされたテキストを、音声認識用の言語モデルを用いて、単語単位に分割する装置であり、言語モデルは、複数の単語が登録され、各単語の読み方である単語読み情報と、当該単語の各表記文字である単語表記情報とを有する単語辞書を有し、テキストは、当該テキストの表示文字である表記情報と、当該テキストの読み方である読み情報と、を有し、当該単語学習装置１は、言語モデル及び前記テキストを記憶する記憶部２と、言語モデルを用いて、テキストの読み情報を単語単位に分割する第一単語分割手段と、第一単語分割手段により分割された単語と、テキストの表記情報とを照合して、テキストから単語を分割する第二単語分割手段と、を備える。
【選択図】図１

Description

本発明は、書き起こしテキストから単語を分割する単語分割装置、及び単語分割方法に関する。

入力された音声から適切な単語を抽出する音声認識処理では、音声認識用の言語モデルが必要となる。このような音声認識用の言語モデルは、例えば音声に基づいて書き起こされた書き起こしテキストから単語を分割し、その単語と音声とを関連付けることで生成される。
従来、このような書き起こしテキストから単語を分割する方法として、形態素解析器を用いる方法（例えば、特許文献１参照）や、カナ漢字変換器を用いる方法（例えば、特許文献２参照）が知られている。

特許文献１に記載の方法は、認識語彙（漢字と仮名とを用いた表記）を予め登録した認識辞書を用いた形態素解析による音声認識処理を行う。つまり、入力された音声の中に含まれている語彙で、認識辞書に記憶されている認識語彙に対して形態素解析を行い、部分認識語彙に分割する。また、入力された音声の無音区間を音声区間として切り出し、派生認識語彙を生成し、派生認識語彙と部分認識語彙とに基づいて、音声認識処理を行う。
特許文献２に記載の方法は、入力された音声信号を、音素フレーム単位で分析した音響特徴パラメータに変換し、音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する。そして、候補となる読み仮名列に対して言語モデルと音響スコアとを統合して、最も高いスコアの単語列を認識結果として出力する。

特開２０１１−２７９７１号公報特開２０１０−２３１１４９号公報

ところで、上記特許文献１は、表記文字に基づいて単語分割を行っているが、単語の読み情報（読み情報）による分析が行われていないため、単語分割の精度が低下するという課題がある。例えば、「新」「居」「浜」との表記文字に対して、読み情報が不明であるので、「新居浜（ニイハマ）」との単語に分割されず、「新居（シンキョ）」と「浜（ハマ／ヒン）」とに分割される場合がある。
特許文献２は、読み仮名に基づいて単語分割を行っているが、表記文字による分析が行われていないので、この場合も同様に、単語分割の精度が低下するという課題がある。例えば、同音異義語等を判別することが困難であり、適切な単語を分割できない場合がある。
これに加え、上記のような特許文献１及び特許文献２では、音声認識用言語モデルに基づいた単語分割が行われていない。つまり、音声認識用の言語モデルと、分割される単語とで、単語単位の定義が異なり、音声認識用言語に適合した単語分割結果が得られないという課題がある。例えば、特許文献１のような形態素解析器では、単語「一本」は、「一（イチ）」と「本（ホン）」とに分けられている場合がある。この場合、「イッポン」との音声が入力された場合に、「一本」との単語が特定できない場合がある。
以上のような理由から、特許文献１及び特許文献２のような従来の単語分割方法では、精度の高い単語分割を行うことができないという課題があった。

本発明は、テキストから高精度に単語を分割可能な単語分割装置、及び単語分割方法を提供することを目的とする。

本発明の単語分割装置は、テキストを、音声認識用の言語モデルに基づいた単語単位に分割する単語分割装置であって、前記テキストは、当該テキストの表記文字である表記情報と、当該テキストの読み方である読み情報と、を有し、前記言語モデルは、複数の単語が登録される単語辞書を有し、前記単語辞書は、各単語の読み方である単語読み情報と、当該単語の各表記文字である単語表記情報とを有し、前記単語分割装置は、前記言語モデル及び前記テキストを記憶する記憶部と、前記言語モデルを用いて、前記テキストの読み情報を単語単位に分割する第一単語分割手段と、前記第一単語分割手段により分割された単語と、前記テキストの前記表記情報とを照合して、前記テキストから単語を分割する第二単語分割手段と、を備えることを特徴とする。

本発明では、書き起こしテキストから高精度に単語を分割することができる。

本発明に係る一実施形態の単語学習装置の概略構成を示すブロック図。テキストの単語分割処理を示すフローチャート。読みモデルＷＦＳＴの一例を示す図。テキスト読みＷＦＳＴの一例を示す図。候補グラフＷＦＳＴの一例を示す図。射影Ｎ−ｂｅｓｔ文候補ＷＦＳＴの一例を示す図。単語表記ＷＦＳＴの一例を示す図。表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴの一例を示す図。テキスト表記ＷＦＳＴの一例を示す図。単語分割結果ＷＦＳＴの例を示す図。

以下、本発明に係る一実施形態について、図面に基づいて説明する。
図１は、本発明に係る一実施形態の単語学習装置の概略構成を示すブロック図である。
本実施形態の単語学習装置１は、作業者等により音声データに基づいて書き起こされた書き起こしテキスト（以降、テキストと称する場合がある）に基づいて、音声認識用の言語モデルに単語を学習させる。
ここで、言語モデルは、単語が記録される単語辞書と、当該単語の連鎖確率を示す言語スコア（例えば、Ｎ−ｇｒａｍ確率）とを含む。言語スコアは、収集された複数のデータに基づいて推算される。この時、例えばインターネット等で複数のユーザーが入力した検索キーワード等に基づいて単語を認識して言語スコアを推算する場合と、実際の話し言葉（音声データ）に基づいて単語を抽出し、言語スコアを推算する場合とでは、単語の使用場面が異なるため、言語スコアの値が異なってくる。
したがって、音声認識用言語モデルでは、インターネット等を介してテキストベースで収集されたデータにより作成された言語モデルを、音声ベースで修正する必要が生じ、この時、音声データから単語を分割する必要が生じる。ここで、本実施形態の単語学習装置１は、本発明の単語分割装置として機能し、音声データに基づいて書き起こされたテキストに対して、音声認識用の言語モデルに従って単語分割を行う。

［単語学習装置の構成］
単語学習装置１は、図１に示すように、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）等により構成される記憶部２、及びＣＰＵ（Central Processing Unit）１０を備えた、いわゆるコンピューターにより構成されている。なお、単語学習装置１は、その他、画像を表示させるディスプレイや、マウスやキーボード等の操作手段からの入力を受け付ける操作部、インターネット等のネットワークに接続可能な外部接続部等が設けられる。

記憶部２には、単語学習装置１を制御するためのＯＳ（Operating System）等の各種プログラム、各種データが記憶される。各種データとしては、例えば、音声認識用言語モデル（以降、言語モデルと称する）や、音声データ、当該音声データに基づいて書き起こされたテキスト等が挙げられる。

ここで、言語モデルについて、説明する。
言語モデルは、上述したように、複数の単語が登録された単語辞書と、単語辞書の各単語の連鎖確率を示す言語スコアとを備えている。
単語辞書は、表１に示すように、各単語に対して、単語を特定するための単語ＩＤと、単語の読み方（音素記号）を示す単語読み情報と、単語の表記文字（例えば日本語では、漢字及び仮名により表示された単語）を示す単語表記情報とが関連付けられて記憶されている。

また、記憶部２に記憶されるテキストは、例えば、インターネット等を介して取得された音声データをテキストベースに書き起こしたデータである。このテキストは、漢字や仮名等により表示される表記情報と、当該テキストの読み方である読み情報とが関連付けられて記憶されている。

ＣＰＵ１０は、記憶部２に記憶された各種プログラムを読み出して実行することにより、図１に示すように、読みモデルＷＦＳＴ（Weighted Finite State Transducer：重み付き有限状態トランスデューサー）生成手段１１、テキスト読みＷＦＳＴ生成手段１２、読みＷＦＳＴ合成手段１３、Ｎ−ｂｅｓｔ文候補ＷＦＳＴ生成手段１４、Ｎ−ｂｅｓｔ文候補射影手段１５（ＷＦＳＴ射影手段）、単語表記ＷＦＳＴ生成手段１６、表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴ生成手段１７（第二合成ＷＦＳＴ生成手段）、テキスト表記ＷＦＳＴ生成手段１８、単語特定手段１９、及び言語モデル適応化手段２０として機能する。

読みモデルＷＦＳＴ生成手段１１は、言語モデルに基づいて、読みモデルＷＦＳＴ（読みモデル重み付き有限状態トランスデューサー）を生成する。
テキスト読みＷＦＳＴ生成手段１２は、テキストの読み情報に基づいて、テキスト読みＷＦＳＴ（テキスト読み重み付き有限状態トランスデューサー）を生成する。
読みＷＦＳＴ合成手段１３は、読みモデルＷＦＳＴ及びテキスト読みＷＦＳＴを合成して、候補グラフＷＦＳＴ（第一合成重み付き有限状態トランスデューサー）を生成する。
Ｎ−ｂｅｓｔ文候補ＷＦＳＴ生成手段１４は、候補グラフＷＦＳＴから、重みコスト（言語スコア）が大きい所定数の候補を取得して、Ｎ−ｂｅｓｔ文候補ＷＦＳＴ（Ｎ−ｂｅｓｔ重み付き有限状態トランスデューサー）を生成する。
Ｎ−ｂｅｓｔ文候補ＷＦＳＴ射影手段１５は、前記Ｎ−ｂｅｓｔ文候補ＷＦＳＴを、単語ＩＤを入出力シンボルとするＷＦＳＴに射影して、射影Ｎ−ｂｅｓｔ文候補ＷＦＳＴ（射影第一合成重み付き有限状態トランスデューサー）を生成する。
単語表記ＷＦＳＴ生成手段１６は、単語辞書の単語ＩＤと単語表記情報とから、単語表記ＷＦＳＴを生成する。
表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴ生成手段１７は、射影Ｎ−ｂｅｓｔ文候補ＷＦＳＴと、単語表記ＷＦＳＴとを合成して、表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴ（第二合成重み付き有限状態トランスデューサー）を生成する。
テキスト表記ＷＦＳＴ生成手段１８は、テキストの表記情報に基づいて、テキスト表記ＷＦＳＴ（テキスト表記重み付き有限状態トランスデューサー）を生成する。
単語特定手段１９は、表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴ及びテキスト表記ＷＦＳＴを合成することで、単語分割結果ＷＦＳＴ（単語分割結果重み付き有限状態トランスデューサー）を生成する。そして、単語分割結果ＷＦＳＴに基づいて、テキストを単語分割した結果を出力する。
言語モデル適応化手段２０は、テキストの単語分割の結果に基づいて、分割された単語を言語モデルに適応させる。
ここで、読みモデルＷＦＳＴ生成手段１１、テキスト読みＷＦＳＴ生成手段１２、読みＷＦＳＴ合成手段１３、Ｎ−ｂｅｓｔ文候補ＷＦＳＴ生成手段１４、及びＮ−ｂｅｓｔ文候補ＷＦＳＴ射影手段１５により本発明の第一単語分割手段が構成され、単語表記ＷＦＳＴ生成手段１６、表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴ生成手段１７、テキスト表記ＷＦＳＴ生成手段１８、及び単語特定手段１９により本発明の第二単語分割手段が構成される。
なお、各構成による詳細な処理内容については、後述する。

［単語分割方法］
次に、上記のような単語学習装置１を用いたテキストの単語分割方法について、図面に基づいて説明する。
図２は、テキストの単語分割処理を示すフローチャートである。
単語学習装置１では、音声認識用の言語モデルの単語辞書に単語を登録するために、音声データに基づいて書き起こされたテキストを記憶部２から読み込む（Ｓ１）。
ここで、テキストは、例えばマイク等により録音された音声データやインターネット等を介して取得した音声データに基づいて、単語学習装置１を使用する作業者が書き起こしたデータである。このように取得されたテキストは、記憶部２に記憶され、Ｓ１において、読み出される。
なお、テキストとしては、上述のように、表記情報と読み情報を有する。この読み情報としては、例えば単語の読み方を読み仮名（ひらがなやカタカナ等）で示したものであってもよく、単語の読み方を音素記号列（音素列）で示したものであってもよい。読み情報が読み仮名である場合、例えばテキスト読みＷＦＳＴ生成手段１２によりテキスト読みＷＦＳＴを生成する際に、音素記号列に変換する。なお、テキスト読みＷＦＳＴ生成手段１２による読み仮名から音素記号への変換処理については、後述する。

次に、読みモデルＷＦＳＴ生成手段１１は、音声認識用の言語モデルをＷＦＳＴ形式で用意する（Ｓ２）。つまり、読みモデルＷＦＳＴ生成手段１１は、言語モデルに基づいて、読みモデルＷＦＳＴを生成する。
図３は、読みモデルＷＦＳＴの一例を示す図である。
図３に示すように、読みモデルＷＦＳＴ生成手段１１は、入力シンボルが音素記号（例えば、トライフォン列）、出力シンボルが単語ＩＤ（単語列）、遷移確率が言語スコアとなるＷＦＳＴを読みモデルＷＦＳＴとして生成する。なお、図３では、１−ｇｒａｍの例を示すが、２−ｇｒａｍや３−ｇｒａｍのＷＦＳＴが生成されてもよい。
図３において、［ε]は空記号を示し、入力記号に対して出力記号がないことを意味する。一方、図３において、［ε］以外の出力（Ｗ_ｎ）は、単語ＩＤを示している。例えば、入力された音素記号が［ａ］［ｋ］［ａ］と遷移した場合、単語表記情報が「赤」であり、単語読み情報が「あか（aka）」である単語ＩＤ「Ｗ_４」を出力する。
なお、本実施形態では、読みモデルＷＦＳＴ生成手段１１により、読みモデルＷＦＳＴが生成される例を示すが、言語モデルとして、読みモデルＷＦＳＴが記憶部２に記憶されていてもよい。

次に、テキスト読みＷＦＳＴ生成手段１２は、Ｓ１により取得され、記憶部２に記憶されたテキストの読み情報に基づいて、テキスト読みＷＦＳＴを生成する（Ｓ３）。
図４は、テキスト読みＷＦＳＴの一例を示す図である。この図４は、入力シンボルとして、音素記号［ｓ］［ｉ］［ｎ］［ｓ］［ｅ］［ｎ］が入力された場合に、出力シンボルとして音素記号［ｓ］［ｉ］［ｎ］［ｓ］［ｅ］［ｎ］を出力するテキスト読みＷＦＳＴの例である。
具体的には、テキスト読みＷＦＳＴ生成手段１２は、テキストの読み情報を、テキストの文頭を始状態、文末を終状態、遷移を音素記号とするＷＦＳＴ形式に変換したテキスト読みＷＦＳＴを生成する。
なお、読み情報として、読み仮名が記録されている場合、テキスト読みＷＦＳＴ生成手段１２は、読み仮名を音素記号列（音素列）に変換して、テキスト読みＷＦＳＴを生成する。
また、母音については、対応する長母音を並列アークとして追加し、長母音については、対応する母音を並列アークとして追加する。この後、テキスト読みＷＦＳＴ生成手段１２は、生成したテキスト読みＷＦＳＴにおいて、冗長な重複を纏めて決定化する。

次に、読みＷＦＳＴ合成手段１３は、Ｓ２で生成した読みモデルＷＦＳＴと、Ｓ３で生成したテキスト読みＷＦＳＴとを合成し、候補グラフＷＦＳＴ（第一合成ＷＦＳＴ）を生成する（Ｓ４）。
図５は、候補グラフＷＦＳＴの一例を示す図である。なお、図５では、出力シンボルの空記号［ε］、各アークにおける遷移確率（言語スコア）、入力シンボル及び出力シンボルが空記号［ε：ε］となるアークを省略している。なお、以降の説明においても、同様に、空記号や遷移確率を省略する場合がある。
このＳ４により、図５に示すように、入力シンボルが音素記号、出力シンボルが単語ＩＤ、遷移確率が言語スコアとなる候補グラフＷＦＳＴ（第一合成ＷＦＳＴ）が生成される。この候補グラフＷＦＳＴは、テキストの読み情報を言語モデルの制約で単語単位に分割したＷＦＳＴとなる。

この後、Ｎ−ｂｅｓｔ文候補ＷＦＳＴ生成手段１４は、候補グラフＷＦＳＴから、言語スコアの合計値が上位であるＮ個の候補を抽出して、Ｎ−ｂｅｓｔ文候補ＷＦＳＴを生成する（Ｓ５）。
本実施形態では、候補グラフＷＦＳＴ（入力シンボルが音素記号（トライフォン列）、出力シンボルが単語ＩＤ（単語列））から、単語ＩＤ（単語列）を入力シンボル及び出力シンボルとしたＮ−ｂｅｓｔ文候補ＷＦＳＴを生成し、生成したＮ−ｂｅｓｔ文候補ＷＦＳＴと単語表記ＷＦＳＴとを合成した後、更にテキスト表記ＷＦＳＴを合成して分割単語を取得する。
このために、Ｓ５の処理により、候補グラフＷＦＳＴから言語スコアが上位となるＷＦＳＴ（Ｎ−ｂｅｓｔ文候補ＷＦＳＴ）を抽出した後、Ｎ−ｂｅｓｔ文候補ＷＦＳＴ射影手段１５は、抽出されたＮ−ｂｅｓｔ文候補ＷＦＳＴを、単語ＩＤ（単語列）を入力シンボル及び出力シンボルとしたＷＦＳＴ（射影Ｎ−ｂｅｓｔ文候補ＷＦＳＴ）に射影する（Ｓ６）。
これにより、図６に示すような、射影Ｎ−ｂｅｓｔ文候補ＷＦＳＴが生成される。なお、図６では、出力シンボルは、入力シンボルと同じ単語ＩＤとなるため、図中の出力シンボルの表記を省略している。

そして、単語表記ＷＦＳＴ生成手段１６は、単語辞書に基づいて、単語表記ＷＦＳＴを生成する（Ｓ７）。図７は、単語表記ＷＦＳＴの一例を示す図である。
ここで、単語表記ＷＦＳＴ生成手段１６は、図７に示すように、入力シンボルが表記文字（例えば、漢字や仮名）、出力シンボルが単語ＩＤとなるＷＦＳＴを単語表記ＷＦＳＴとして生成する。

この後、表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴ生成手段１７は、Ｓ６で生成された射影Ｎ−ｂｅｓｔ文候補ＷＦＳＴと、Ｓ７で生成された単語表記ＷＦＳＴとを合成して、表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴ（第二合成ＷＦＳＴ）を生成する（Ｓ８）。図８は、表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴの一例を示す図である。
このＳ８により、図８に示すように、入力シンボルが表記文字、出力シンボルが単語ＩＤ、遷移確率が言語スコアとなる表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴが生成される。

また、テキスト表記ＷＦＳＴ生成手段１８は、Ｓ１により取得され、記憶部２に記憶されたテキストの表記情報に基づいて、テキスト表記ＷＦＳＴを生成する（Ｓ９）。
図９は、テキスト表記ＷＦＳＴの一例を示す図である。
具体的には、テキスト表記ＷＦＳＴ生成手段１８は、テキストの表記情報を、テキストの文頭を始状態、文末を終状態、遷移を表記文字（漢字や仮名等）とするＷＦＳＴ形式に変換したテキスト表記ＷＦＳＴを生成する。このテキスト表記ＷＦＳＴは、図９に示すように、例えば、入力シンボルとして、表記文字［新］［鮮］[な]［果］［物］が入力された場合、出力シンボルとして表記文字［新］［鮮］[な]［果］［物］を出力する。

次に、単語特定手段１９は、Ｓ８により合成された表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴと、Ｓ９により生成されたテキスト表記ＷＦＳＴとを合成して、単語分割結果ＷＦＳＴを生成する（Ｓ１０）。図１０は、単語分割結果ＷＦＳＴの例を示す図であり、図８に示す表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴに対して図９に示すテキスト表記ＷＦＳＴを合成することで得られる。
この単語分割結果ＷＦＳＴは、言語スコアが１位となる単語分割結果であり、表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴと、テキストの表記との照合により、得られた単語（図１０におけるＷ_１、Ｗ_６、Ｗ_２）が特定される。

この後、ＣＰＵ１０は、他の単語分割の対象となるテキストが存在するか否かを判定し（Ｓ１１）、テキストがないと判定された場合、言語モデル適応化手段２０は、Ｓ１０により得られた単語を言語モデルに適応化させ（Ｓ１２）、処理を終了する。すなわち、本実施形態では、与えられた全てのテキスト（例えば１万文）を全て単語分割した後、分割された単語に基づいて例えば単語Ｗ_１、Ｗ_６、Ｗ_２が連鎖する回数を計数するなどして、単語分割された全てのテキスト中での単語連鎖確立を算出し、言語モデル中の対応する単語連鎖確立を修正する（言語モデル適応化処理）。
一方、Ｓ１１において、他に単語分割を行っていないテキストが存在する場合、Ｓ１の処理に戻り、Ｓ１〜Ｓ１０の処理を繰り返す。

［本実施形態の作用効果］
本実施形態では、読みモデルＷＦＳＴ生成手段１１は、言語モデルに基づいて、音素記号を入力シンボルとし、単語ＩＤを出力シンボルとし、言語スコアを遷移確率とする読みモデルＷＦＳＴを生成し、テキスト読みＷＦＳＴ生成手段１２は、テキストの読み情報を、音素記号を入力シンボル及び出力シンボルとするＷＦＳＴ形式に変換したテキスト読みＷＦＳＴを生成する。そして、読みＷＦＳＴ合成手段１３は、これらの読みモデルＷＦＳＴ及びテキスト読みＷＦＳＴを生成した候補グラフ（第一合成ＷＦＳＴ）を生成する。また、Ｎ−ｂｅｓｔ文候補ＷＦＳＴ射影手段１５は、候補グラフから抽出されたＮ−ｂｅｓｔ文候補ＷＦＳＴを、単語ＩＤを入出力シンボルとした射影Ｎ−ｂｅｓｔ文候補ＷＦＳＴに射影する。
そして、単語表記ＷＦＳＴ生成手段１６は、単語辞書に基づいて、表記文字を入力シンボルとし、単語ＩＤを出力シンボルとした単語表記モデルＷＦＳＴを生成し、表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴ生成手段１７は、射影Ｎ−ｂｅｓｔ文候補ＷＦＳＴと、単語表記ＷＦＳＴとを合成した表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴ（第二合成ＷＦＳＴ）を生成する。
さらに、テキスト表記ＷＦＳＴ生成手段１８は、テキストの表記情報を、表記文字を入力シンボル及び出力シンボルとするテキスト表記ＷＦＳＴを生成し、単語特定手段１９は、表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴと、テキスト表記ＷＦＳＴとを合成した単語分割結果ＷＦＳＴを生成する。そして、単語特定手段１９は、この単語分割結果ＷＦＳＴに基づいて、出力された単語（単語ＩＤ）を分割された単語として特定する。
このような構成では、読みモデルＷＦＳＴ生成手段１１、テキスト読みＷＦＳＴ生成手段１２、及び読みＷＦＳＴ合成手段１３により、テキストの読み情報を言語モデルに基づいた単語単位に分割した候補グラフＷＦＳＴを生成することができる。そして、テキスト表記ＷＦＳＴ生成手段１８、及び単語特定手段１９は、このような候補グラフＷＦＳＴを、テキストの表記情報と照合することで、テキストの表記と合致した表記の単語を特定することができる。すなわち、本実施形態では、テキストの読み情報と言語モデルの単語読み情報とが適合し、かつ、テキストの表記情報と言語モデルの単語表記情報とが適合した単語を特定することができる。これにより、例えば、読み情報（音声）のみに基づいてテキスト中の単語を特定する処理や、表記文字のみに基づいてテキスト中の単語を特定する処理に比べて、高い精度で、テキストから適切な単語を分割することができる。
また、本実施形態では、音声認識用の言語モデルに基づいて、テキストを単語単位に分割するので、テキストの読み情報から適切な単語を分割することができ、単語分割精度を向上させることができる。

そして、本実施形態では、ＷＦＳＴの基本演算の組み合わせにより単語を分割する処理を実施するため、形態素解析器等のパーサーを必要とせず、高速な演算処理を実施することができる。また、形態素解析器等のパーサーは、文字列を左から右へ局所的に参照するが、ＷＦＳＴ演算は文字列全体を大域的に参照するため、解析処理の高速化を図れる。
さらに、ＷＦＳＴ演算では、遷移確率である言語スコアが考慮された演算となるため、別途言語スコアに基づいた修正等を行う必要がなく、処理の簡略化を図れる。

また、本実施形態では、Ｎ−ｂｅｓｔ文候補ＷＦＳＴ生成手段１４は、読みＷＦＳＴ合成手段１３により生成された候補グラフＷＦＳＴから、言語スコアの合計が高い上位を抽出したＮ−ｂｅｓｔ文候補ＷＦＳＴを生成する。このため、例えば候補グラフＷＦＳＴを用いる場合に比べて、Ｓ５の処理段階で、候補数を絞ることができ、処理に要する時間を短縮できる。

［他の実施形態］
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の目的を達成できる範囲で、以下に示される変形をも含むものである。
例えば、上記実施形態では、ＷＦＳＴ演算を用いた単語分割処理を例示したが、これに限定されず、以下の方法によりテキスト内の単語を分割してもよい。

すなわち、第一単語分割手段は、言語モデル中の単語辞書を用いて、入力されたテキストの読み情報を単語に分割する。この時、テキストの先頭の音素記号から順番に、単語辞書中の単語読み情報と照合して読み候補を生成する。
一例として、テキストの表記情報が［Ｂ］［Ｄ］［Ｅ］［Ｌ］であり、読み情報が［ａ］［ｂ］［ｃ］［ｄ］［ｅ］［ｆ］［ｇ］であり、単語辞書中の単語表記情報及び単語読み情報が、下記の表２に示す場合を説明する。

この場合、テキストの読み情報「ａｂｃｄｅｆｇ」の先頭を、単語辞書と照合すると、以下の２つの読み候補が得られる。
読み候補１＝（単語１）（残りは「ｂｃｄｅｆｇ」）
読み候補２＝（単語２）（残りは「ｃｄｅｆｇ」）
各読み候補について、残りの音素記号を、単語辞書と照合すると、以下の読み候補が得られる。
読み候補１-１＝（単語１）＋（単語５）（残りは「ｄｅｆｇ」）
読み候補２-１＝（単語２）＋（単語３）（残りは「ｄｅｆｇ」）
読み候補２-２＝（単語２）＋（単語４）（残りは「ｆｇ」）
さらに、これらの読み候補について、残りの音素記号を、単語辞書を照合すると、以下の読み候補が得られる。
読み候補１-１-１＝（単語１）＋（単語５）＋（単語６）（残りは「ｇ」）
読み候補１-１-２＝（単語１）＋（単語５）＋（単語７）（残り無）
読み候補２-１-１＝（単語２）＋（単語３）＋（単語６）（残りは「ｇ」）
読み候補２-１-２＝（単語２）＋（単語３）＋（単語７）（残り無）
読み候補２-２-１＝（単語２）＋（単語４）＋（単語８）（残り無）

ここで、第一単語分割手段は、読み候補１-１-１及び読み候補２-１-１は、これ以上進められない（音素記号「ｇ」のみに対する単語はない）ため破棄し、読み候補１-１-２、読み候補２-１-２、及び読み候補２-２-１を読み候補ラティスとして特定する。
次に、第二単語分割手段は、これらの候補ラティスを、単語辞書を用いて、以下に示すような表記表示（表記候補ラティス）に変換する。
表記候補ラティス１-１-２＝（Ａ：単語１）＋（Ｆ：単語５）＋（ＩＪＫ：単語７）
表記候補ラティス２-１-２＝（Ｂ：単語２）＋（Ｃ：単語３）＋（ＩＪＫ：単語７）
表記候補ラティス２-２-１＝（Ｂ：単語２）＋（ＤＥ：単語４）＋（Ｌ：単語８）

この後、第二単語分割手段は、テキストの表記情報「ＢＤＥＬ」と、上記の表記候補ラティスとを照合する。これにより、第二単語分割手段は、（Ｂ：単語２），（ＤＥ：単語４），（Ｌ：単語８）を分割された単語として取得する。
以上のようなテキストの単語分割方法を用いても、上記実施形態と同様に、テキストの読み情報及び表記情報の双方が、音声認識用の言語モデルと適合する単語を、当該テキストから分割することができる。

また、上記実施形態では、Ｎ−ｂｅｓｔ文候補ＷＦＳＴ生成手段１４は、読みＷＦＳＴ合成手段１３により合成された候補グラフＷＦＳＴ（第一合成ＷＦＳＴ）から、言語スコアが上位であるＮ個を抽出して、Ｎ−ｂｅｓｔ文候補ＷＦＳＴを生成したが、これに限定されない。
例えば、読みＷＦＳＴ合成手段１３により合成された候補グラフＷＦＳＴから、言語スコアに基づいた候補を抽出せずに、単語ＩＤを入力シンボル及び出力シンボルとしたＷＦＳＴに射影し、得られたＷＦＳＴと単語表記ＷＦＳＴと合成して、第二合成ＷＦＳＴを生成してもよい。
この場合、Ｎ−ｂｅｓｔ文候補ＷＦＳＴを生成する場合に比べて、候補数が多くなる分、演算に係る時間が長くなるものの、上記実施形態と同様に、テキストの読み情報及び表記情報の双方が、音声認識用の言語モデルと両立する単語を高精度に分割することができる。

更に、上記実施形態では、音声認識用の言語モデルに含まれる単語辞書に、登録された単語に対する音素記号を示す単語読み情報が記録される例を示したが、更に、発話時のアクセント等が記録されていてもよい。この場合、アクセントの位置に基づいて、テキストに含まれる単語をより高精度に分割することが可能となる。

その他、本発明の実施の際の具体的な構造および手順は、本発明の目的を達成できる範囲で他の構造などに適宜変更できる。

１…単語学習装置（単語分割装置）、２…記憶部、１０…ＣＰＵ、１１…読みモデルＷＦＳＴ生成手段、１２…テキスト読みＷＦＳＴ生成手段、１３…読みＷＦＳＴ合成手段、１４…Ｎ−ｂｅｓｔ文候補ＷＦＳＴ生成手段、１５…Ｎ−ｂｅｓｔ文候補ＷＦＳＴ射影手段（ＷＦＳＴ射影手段）、１６…単語表記ＷＦＳＴ生成手段、１７…表記Ｎ−ｂｅｓｔ文候補ＷＦＳＴ生成手段（第二合成ＷＦＳＴ生成手段）、１８…テキスト表記ＷＦＳＴ生成手段、１９…単語特定手段、２０…言語モデル適応化手段。

本発明の単語分割装置は、テキストを、音声認識用の言語モデルに基づいた単語単位に分割する単語分割装置であって、前記テキストは、当該テキストの表記文字である表記情報と、当該テキストの読み方である読み情報と、を有し、前記言語モデルは、複数の単語が登録される単語辞書を有し、前記単語辞書は、各単語の読み方である単語読み情報と、当該単語の各表記文字である単語表記情報とを有し、前記単語分割装置は、前記言語モデル及び前記テキストを記憶する記憶部と、前記言語モデルを用いて、前記テキストの読み情報を単語単位に分割した候補を生成する第一単語分割手段と、前記第一単語分割手段により生成された前記単語単位に分割した候補と、前記テキストの前記表記情報とを照合して、前記テキストから単語を分割する第二単語分割手段と、を備えることを特徴とする。

Claims

テキストを、音声認識用の言語モデルに基づいた単語単位に分割する単語分割装置であって、
前記テキストは、当該テキストの表記文字である表記情報と、当該テキストの読み方である読み情報と、を有し、
前記言語モデルは、複数の単語が登録される単語辞書を有し、
前記単語辞書は、各単語の読み方である単語読み情報と、当該単語の各表記文字である単語表記情報とを有し、
前記単語分割装置は、
前記言語モデル及び前記テキストを記憶する記憶部と、
前記言語モデルを用いて、前記テキストの読み情報を単語単位に分割する第一単語分割手段と、
前記第一単語分割手段により分割された単語と、前記テキストの前記表記情報とを照合して、前記テキストから単語を分割する第二単語分割手段と、
を備えることを特徴とする単語分割装置。
請求項１に記載の単語分割装置において、
前記第一単語分割手段は、
前記言語モデルに基づいて、音素記号を入力シンボルとし、単語を出力シンボルとし、言語スコアを遷移確率とする読みモデル重み付き有限状態トランスデューサーを生成する読みモデルＷＦＳＴ生成手段と、
前記テキストの読み情報に基づいて、音素記号を入力シンボル及び出力シンボルとするテキスト読み重み付き有限状態トランスデューサーを生成するテキスト読みＷＦＳＴ生成手段と、
前記読みモデル重み付き有限状態トランスデューサー、及び前記テキスト読み重み付き有限状態トランスデューサーを合成して、第一合成重み付き有限状態トランスデューサーを生成する読みＷＦＳＴ合成手段と、を有し、
前記第二単語分割手段は、
前記第一合成重み付き有限状態トランスデューサーを、単語を入出力シンボルとした射影第一合成重み付き有限状態トランスデューサーに射影するＷＦＳＴ射影手段と、
前記単語辞書に基づいて、表記文字を入力シンボルとして単語を出力シンボルとした単語表記重み付き有限状態トランスデューサーを生成する単語表記ＷＦＳＴ生成手段と、
前記射影第一合成重み付き有限状態トランスデューサーと前記単語表記重み付き有限状態トランスデューサーとを合成して、第二合成重み付き有限状態トランスデューサーを生成する第二合成ＷＦＳＴ生成手段と、
前記テキストの表記情報に基づいて、表記文字を入力シンボル及び出力シンボルとするテキスト表記重み付き有限状態トランスデューサーを生成するテキスト表記ＷＦＳＴ生成手段と、
前記第二合成重み付き有限状態トランスデューサーと前記テキスト表記重み付き有限状態トランスデューサーとを合成して単語分割結果重み付き有限状態トランスデューサーを生成し、当該単語分割結果重み付き有限状態トランスデューサーから出力された単語を、前記テキストから分割された単語として特定する単語特定手段と、を備える
ことを特徴とする単語分割装置。
請求項２に記載の単語分割装置において、
前記第一単語分割手段は、
前記第一合成重み付き有限状態トランスデューサーから、重みコストが大きい順となる所定数の候補を抽出したＮ−ｂｅｓｔ文候補重み付き有限状態トランスデューサーを生成するＮ−ｂｅｓｔ文候補ＷＦＳＴ生成手段を備え、
前記ＷＦＳＴ射影手段は、前記Ｎ−ｂｅｓｔ文候補重み付き有限状態トランスデューサーを、単語を入出力シンボルとした射影Ｎ−ｂｅｓｔ文候補重み付き有限状態トランスデューサーに射影し、
前記第二合成ＷＦＳＴ生成手段は、前記射影Ｎ−ｂｅｓｔ文候補重み付き有限状態トランスデューサーと、前記単語表記重み付き有限状態トランスデューサーとを合成して第二合成重み付き有限状態トランスデューサーを生成する
ことを特徴とする単語分割装置。
コンピューターにより、テキストを、音声認識用の言語モデルに基づいた単語単位に分割する単語分割方法であって、
前記コンピューターは、前記言語モデル及び前記テキストを記憶する記憶部を有し、
前記テキストは、当該テキストの表記文字である表記情報と、当該テキストの読み方である読み情報と、を有し、
前記言語モデルは、複数の単語が登録される単語辞書と、各単語の連鎖確率である言語スコアとを有し、
前記単語辞書は、各単語の読み方である単語読み情報と、当該単語の各表記文字である単語表記情報とを有し、
前記コンピューターは、
前記言語モデルを用いて、前記テキストの読み情報を単語単位に分割する第一単語分割ステップと、
前記第一単語分割手段により分割された単語と、前記テキストの前記表記情報とを照合して、前記テキストから単語を分割する第二単語分割ステップと、
を実施することを特徴とする単語分割方法。