JP2013235117A - 単語分割装置、及び単語分割方法 - Google Patents

単語分割装置、及び単語分割方法 Download PDF

Info

Publication number
JP2013235117A
JP2013235117A JP2012107095A JP2012107095A JP2013235117A JP 2013235117 A JP2013235117 A JP 2013235117A JP 2012107095 A JP2012107095 A JP 2012107095A JP 2012107095 A JP2012107095 A JP 2012107095A JP 2013235117 A JP2013235117 A JP 2013235117A
Authority
JP
Japan
Prior art keywords
word
text
wfst
notation
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012107095A
Other languages
English (en)
Other versions
JP5611270B2 (ja
Inventor
Kenichi Iso
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2012107095A priority Critical patent/JP5611270B2/ja
Publication of JP2013235117A publication Critical patent/JP2013235117A/ja
Application granted granted Critical
Publication of JP5611270B2 publication Critical patent/JP5611270B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】書き起こしテキストから高精度に単語を分割可能な単語分割装置、単語分割方法、及び単語分割プログラムを提供する。
【解決手段】単語学習装置1は、音声の検聴により書き起こされたテキストを、音声認識用の言語モデルを用いて、単語単位に分割する装置であり、言語モデルは、複数の単語が登録され、各単語の読み方である単語読み情報と、当該単語の各表記文字である単語表記情報とを有する単語辞書を有し、テキストは、当該テキストの表示文字である表記情報と、当該テキストの読み方である読み情報と、を有し、当該単語学習装置1は、言語モデル及び前記テキストを記憶する記憶部2と、言語モデルを用いて、テキストの読み情報を単語単位に分割する第一単語分割手段と、第一単語分割手段により分割された単語と、テキストの表記情報とを照合して、テキストから単語を分割する第二単語分割手段と、を備える。
【選択図】図1

Description

本発明は、書き起こしテキストから単語を分割する単語分割装置、及び単語分割方法に関する。
入力された音声から適切な単語を抽出する音声認識処理では、音声認識用の言語モデルが必要となる。このような音声認識用の言語モデルは、例えば音声に基づいて書き起こされた書き起こしテキストから単語を分割し、その単語と音声とを関連付けることで生成される。
従来、このような書き起こしテキストから単語を分割する方法として、形態素解析器を用いる方法(例えば、特許文献1参照)や、カナ漢字変換器を用いる方法(例えば、特許文献2参照)が知られている。
特許文献1に記載の方法は、認識語彙(漢字と仮名とを用いた表記)を予め登録した認識辞書を用いた形態素解析による音声認識処理を行う。つまり、入力された音声の中に含まれている語彙で、認識辞書に記憶されている認識語彙に対して形態素解析を行い、部分認識語彙に分割する。また、入力された音声の無音区間を音声区間として切り出し、派生認識語彙を生成し、派生認識語彙と部分認識語彙とに基づいて、音声認識処理を行う。
特許文献2に記載の方法は、入力された音声信号を、音素フレーム単位で分析した音響特徴パラメータに変換し、音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する。そして、候補となる読み仮名列に対して言語モデルと音響スコアとを統合して、最も高いスコアの単語列を認識結果として出力する。
特開2011−27971号公報 特開2010−231149号公報
ところで、上記特許文献1は、表記文字に基づいて単語分割を行っているが、単語の読み情報(読み情報)による分析が行われていないため、単語分割の精度が低下するという課題がある。例えば、「新」「居」「浜」との表記文字に対して、読み情報が不明であるので、「新居浜(ニイハマ)」との単語に分割されず、「新居(シンキョ)」と「浜(ハマ/ヒン)」とに分割される場合がある。
特許文献2は、読み仮名に基づいて単語分割を行っているが、表記文字による分析が行われていないので、この場合も同様に、単語分割の精度が低下するという課題がある。例えば、同音異義語等を判別することが困難であり、適切な単語を分割できない場合がある。
これに加え、上記のような特許文献1及び特許文献2では、音声認識用言語モデルに基づいた単語分割が行われていない。つまり、音声認識用の言語モデルと、分割される単語とで、単語単位の定義が異なり、音声認識用言語に適合した単語分割結果が得られないという課題がある。例えば、特許文献1のような形態素解析器では、単語「一本」は、「一(イチ)」と「本(ホン)」とに分けられている場合がある。この場合、「イッポン」との音声が入力された場合に、「一本」との単語が特定できない場合がある。
以上のような理由から、特許文献1及び特許文献2のような従来の単語分割方法では、精度の高い単語分割を行うことができないという課題があった。
本発明は、テキストから高精度に単語を分割可能な単語分割装置、及び単語分割方法を提供することを目的とする。
本発明の単語分割装置は、テキストを、音声認識用の言語モデルに基づいた単語単位に分割する単語分割装置であって、前記テキストは、当該テキストの表記文字である表記情報と、当該テキストの読み方である読み情報と、を有し、前記言語モデルは、複数の単語が登録される単語辞書を有し、前記単語辞書は、各単語の読み方である単語読み情報と、当該単語の各表記文字である単語表記情報とを有し、前記単語分割装置は、前記言語モデル及び前記テキストを記憶する記憶部と、前記言語モデルを用いて、前記テキストの読み情報を単語単位に分割する第一単語分割手段と、前記第一単語分割手段により分割された単語と、前記テキストの前記表記情報とを照合して、前記テキストから単語を分割する第二単語分割手段と、を備えることを特徴とする。
本発明では、書き起こしテキストから高精度に単語を分割することができる。
本発明に係る一実施形態の単語学習装置の概略構成を示すブロック図。 テキストの単語分割処理を示すフローチャート。 読みモデルWFSTの一例を示す図。 テキスト読みWFSTの一例を示す図。 候補グラフWFSTの一例を示す図。 射影N−best文候補WFSTの一例を示す図。 単語表記WFSTの一例を示す図。 表記N−best文候補WFSTの一例を示す図。 テキスト表記WFSTの一例を示す図。 単語分割結果WFSTの例を示す図。
以下、本発明に係る一実施形態について、図面に基づいて説明する。
図1は、本発明に係る一実施形態の単語学習装置の概略構成を示すブロック図である。
本実施形態の単語学習装置1は、作業者等により音声データに基づいて書き起こされた書き起こしテキスト(以降、テキストと称する場合がある)に基づいて、音声認識用の言語モデルに単語を学習させる。
ここで、言語モデルは、単語が記録される単語辞書と、当該単語の連鎖確率を示す言語スコア(例えば、N−gram確率)とを含む。言語スコアは、収集された複数のデータに基づいて推算される。この時、例えばインターネット等で複数のユーザーが入力した検索キーワード等に基づいて単語を認識して言語スコアを推算する場合と、実際の話し言葉(音声データ)に基づいて単語を抽出し、言語スコアを推算する場合とでは、単語の使用場面が異なるため、言語スコアの値が異なってくる。
したがって、音声認識用言語モデルでは、インターネット等を介してテキストベースで収集されたデータにより作成された言語モデルを、音声ベースで修正する必要が生じ、この時、音声データから単語を分割する必要が生じる。ここで、本実施形態の単語学習装置1は、本発明の単語分割装置として機能し、音声データに基づいて書き起こされたテキストに対して、音声認識用の言語モデルに従って単語分割を行う。
[単語学習装置の構成]
単語学習装置1は、図1に示すように、ROM(Read Only Memory)やRAM(Random Access Memory)等により構成される記憶部2、及びCPU(Central Processing Unit)10を備えた、いわゆるコンピューターにより構成されている。なお、単語学習装置1は、その他、画像を表示させるディスプレイや、マウスやキーボード等の操作手段からの入力を受け付ける操作部、インターネット等のネットワークに接続可能な外部接続部等が設けられる。
記憶部2には、単語学習装置1を制御するためのOS(Operating System)等の各種プログラム、各種データが記憶される。各種データとしては、例えば、音声認識用言語モデル(以降、言語モデルと称する)や、音声データ、当該音声データに基づいて書き起こされたテキスト等が挙げられる。
ここで、言語モデルについて、説明する。
言語モデルは、上述したように、複数の単語が登録された単語辞書と、単語辞書の各単語の連鎖確率を示す言語スコアとを備えている。
単語辞書は、表1に示すように、各単語に対して、単語を特定するための単語IDと、単語の読み方(音素記号)を示す単語読み情報と、単語の表記文字(例えば日本語では、漢字及び仮名により表示された単語)を示す単語表記情報とが関連付けられて記憶されている。
Figure 2013235117
また、記憶部2に記憶されるテキストは、例えば、インターネット等を介して取得された音声データをテキストベースに書き起こしたデータである。このテキストは、漢字や仮名等により表示される表記情報と、当該テキストの読み方である読み情報とが関連付けられて記憶されている。
CPU10は、記憶部2に記憶された各種プログラムを読み出して実行することにより、図1に示すように、読みモデルWFST(Weighted Finite State Transducer:重み付き有限状態トランスデューサー)生成手段11、テキスト読みWFST生成手段12、読みWFST合成手段13、N−best文候補WFST生成手段14、N−best文候補射影手段15(WFST射影手段)、単語表記WFST生成手段16、表記N−best文候補WFST生成手段17(第二合成WFST生成手段)、テキスト表記WFST生成手段18、単語特定手段19、及び言語モデル適応化手段20として機能する。
読みモデルWFST生成手段11は、言語モデルに基づいて、読みモデルWFST(読みモデル重み付き有限状態トランスデューサー)を生成する。
テキスト読みWFST生成手段12は、テキストの読み情報に基づいて、テキスト読みWFST(テキスト読み重み付き有限状態トランスデューサー)を生成する。
読みWFST合成手段13は、読みモデルWFST及びテキスト読みWFSTを合成して、候補グラフWFST(第一合成重み付き有限状態トランスデューサー)を生成する。
N−best文候補WFST生成手段14は、候補グラフWFSTから、重みコスト(言語スコア)が大きい所定数の候補を取得して、N−best文候補WFST(N−best重み付き有限状態トランスデューサー)を生成する。
N−best文候補WFST射影手段15は、前記N−best文候補WFSTを、単語IDを入出力シンボルとするWFSTに射影して、射影N−best文候補WFST(射影第一合成重み付き有限状態トランスデューサー)を生成する。
単語表記WFST生成手段16は、単語辞書の単語IDと単語表記情報とから、単語表記WFSTを生成する。
表記N−best文候補WFST生成手段17は、射影N−best文候補WFSTと、単語表記WFSTとを合成して、表記N−best文候補WFST(第二合成重み付き有限状態トランスデューサー)を生成する。
テキスト表記WFST生成手段18は、テキストの表記情報に基づいて、テキスト表記WFST(テキスト表記重み付き有限状態トランスデューサー)を生成する。
単語特定手段19は、表記N−best文候補WFST及びテキスト表記WFSTを合成することで、単語分割結果WFST(単語分割結果重み付き有限状態トランスデューサー)を生成する。そして、単語分割結果WFSTに基づいて、テキストを単語分割した結果を出力する。
言語モデル適応化手段20は、テキストの単語分割の結果に基づいて、分割された単語を言語モデルに適応させる。
ここで、読みモデルWFST生成手段11、テキスト読みWFST生成手段12、読みWFST合成手段13、N−best文候補WFST生成手段14、及びN−best文候補WFST射影手段15により本発明の第一単語分割手段が構成され、単語表記WFST生成手段16、表記N−best文候補WFST生成手段17、テキスト表記WFST生成手段18、及び単語特定手段19により本発明の第二単語分割手段が構成される。
なお、各構成による詳細な処理内容については、後述する。
[単語分割方法]
次に、上記のような単語学習装置1を用いたテキストの単語分割方法について、図面に基づいて説明する。
図2は、テキストの単語分割処理を示すフローチャートである。
単語学習装置1では、音声認識用の言語モデルの単語辞書に単語を登録するために、音声データに基づいて書き起こされたテキストを記憶部2から読み込む(S1)。
ここで、テキストは、例えばマイク等により録音された音声データやインターネット等を介して取得した音声データに基づいて、単語学習装置1を使用する作業者が書き起こしたデータである。このように取得されたテキストは、記憶部2に記憶され、S1において、読み出される。
なお、テキストとしては、上述のように、表記情報と読み情報を有する。この読み情報としては、例えば単語の読み方を読み仮名(ひらがなやカタカナ等)で示したものであってもよく、単語の読み方を音素記号列(音素列)で示したものであってもよい。読み情報が読み仮名である場合、例えばテキスト読みWFST生成手段12によりテキスト読みWFSTを生成する際に、音素記号列に変換する。なお、テキスト読みWFST生成手段12による読み仮名から音素記号への変換処理については、後述する。
次に、読みモデルWFST生成手段11は、音声認識用の言語モデルをWFST形式で用意する(S2)。つまり、読みモデルWFST生成手段11は、言語モデルに基づいて、読みモデルWFSTを生成する。
図3は、読みモデルWFSTの一例を示す図である。
図3に示すように、読みモデルWFST生成手段11は、入力シンボルが音素記号(例えば、トライフォン列)、出力シンボルが単語ID(単語列)、遷移確率が言語スコアとなるWFSTを読みモデルWFSTとして生成する。なお、図3では、1−gramの例を示すが、2−gramや3−gramのWFSTが生成されてもよい。
図3において、[ε]は空記号を示し、入力記号に対して出力記号がないことを意味する。一方、図3において、[ε]以外の出力(W)は、単語IDを示している。例えば、入力された音素記号が[a][k][a]と遷移した場合、単語表記情報が「赤」であり、単語読み情報が「あか(aka)」である単語ID「W」を出力する。
なお、本実施形態では、読みモデルWFST生成手段11により、読みモデルWFSTが生成される例を示すが、言語モデルとして、読みモデルWFSTが記憶部2に記憶されていてもよい。
次に、テキスト読みWFST生成手段12は、S1により取得され、記憶部2に記憶されたテキストの読み情報に基づいて、テキスト読みWFSTを生成する(S3)。
図4は、テキスト読みWFSTの一例を示す図である。この図4は、入力シンボルとして、音素記号[s][i][n][s][e][n]が入力された場合に、出力シンボルとして音素記号[s][i][n][s][e][n]を出力するテキスト読みWFSTの例である。
具体的には、テキスト読みWFST生成手段12は、テキストの読み情報を、テキストの文頭を始状態、文末を終状態、遷移を音素記号とするWFST形式に変換したテキスト読みWFSTを生成する。
なお、読み情報として、読み仮名が記録されている場合、テキスト読みWFST生成手段12は、読み仮名を音素記号列(音素列)に変換して、テキスト読みWFSTを生成する。
また、母音については、対応する長母音を並列アークとして追加し、長母音については、対応する母音を並列アークとして追加する。この後、テキスト読みWFST生成手段12は、生成したテキスト読みWFSTにおいて、冗長な重複を纏めて決定化する。
次に、読みWFST合成手段13は、S2で生成した読みモデルWFSTと、S3で生成したテキスト読みWFSTとを合成し、候補グラフWFST(第一合成WFST)を生成する(S4)。
図5は、候補グラフWFSTの一例を示す図である。なお、図5では、出力シンボルの空記号[ε]、各アークにおける遷移確率(言語スコア)、入力シンボル及び出力シンボルが空記号[ε:ε]となるアークを省略している。なお、以降の説明においても、同様に、空記号や遷移確率を省略する場合がある。
このS4により、図5に示すように、入力シンボルが音素記号、出力シンボルが単語ID、遷移確率が言語スコアとなる候補グラフWFST(第一合成WFST)が生成される。この候補グラフWFSTは、テキストの読み情報を言語モデルの制約で単語単位に分割したWFSTとなる。
この後、N−best文候補WFST生成手段14は、候補グラフWFSTから、言語スコアの合計値が上位であるN個の候補を抽出して、N−best文候補WFSTを生成する(S5)。
本実施形態では、候補グラフWFST(入力シンボルが音素記号(トライフォン列)、出力シンボルが単語ID(単語列))から、単語ID(単語列)を入力シンボル及び出力シンボルとしたN−best文候補WFSTを生成し、生成したN−best文候補WFSTと単語表記WFSTとを合成した後、更にテキスト表記WFSTを合成して分割単語を取得する。
このために、S5の処理により、候補グラフWFSTから言語スコアが上位となるWFST(N−best文候補WFST)を抽出した後、N−best文候補WFST射影手段15は、抽出されたN−best文候補WFSTを、単語ID(単語列)を入力シンボル及び出力シンボルとしたWFST(射影N−best文候補WFST)に射影する(S6)。
これにより、図6に示すような、射影N−best文候補WFSTが生成される。なお、図6では、出力シンボルは、入力シンボルと同じ単語IDとなるため、図中の出力シンボルの表記を省略している。
そして、単語表記WFST生成手段16は、単語辞書に基づいて、単語表記WFSTを生成する(S7)。図7は、単語表記WFSTの一例を示す図である。
ここで、単語表記WFST生成手段16は、図7に示すように、入力シンボルが表記文字(例えば、漢字や仮名)、出力シンボルが単語IDとなるWFSTを単語表記WFSTとして生成する。
この後、表記N−best文候補WFST生成手段17は、S6で生成された射影N−best文候補WFSTと、S7で生成された単語表記WFSTとを合成して、表記N−best文候補WFST(第二合成WFST)を生成する(S8)。図8は、表記N−best文候補WFSTの一例を示す図である。
このS8により、図8に示すように、入力シンボルが表記文字、出力シンボルが単語ID、遷移確率が言語スコアとなる表記N−best文候補WFSTが生成される。
また、テキスト表記WFST生成手段18は、S1により取得され、記憶部2に記憶されたテキストの表記情報に基づいて、テキスト表記WFSTを生成する(S9)。
図9は、テキスト表記WFSTの一例を示す図である。
具体的には、テキスト表記WFST生成手段18は、テキストの表記情報を、テキストの文頭を始状態、文末を終状態、遷移を表記文字(漢字や仮名等)とするWFST形式に変換したテキスト表記WFSTを生成する。このテキスト表記WFSTは、図9に示すように、例えば、入力シンボルとして、表記文字[新][鮮][な][果][物]が入力された場合、出力シンボルとして表記文字[新][鮮][な][果][物]を出力する。
次に、単語特定手段19は、S8により合成された表記N−best文候補WFSTと、S9により生成されたテキスト表記WFSTとを合成して、単語分割結果WFSTを生成する(S10)。図10は、単語分割結果WFSTの例を示す図であり、図8に示す表記N−best文候補WFSTに対して図9に示すテキスト表記WFSTを合成することで得られる。
この単語分割結果WFSTは、言語スコアが1位となる単語分割結果であり、表記N−best文候補WFSTと、テキストの表記との照合により、得られた単語(図10におけるW、W、W)が特定される。
この後、CPU10は、他の単語分割の対象となるテキストが存在するか否かを判定し(S11)、テキストがないと判定された場合、言語モデル適応化手段20は、S10により得られた単語を言語モデルに適応化させ(S12)、処理を終了する。すなわち、本実施形態では、与えられた全てのテキスト(例えば1万文)を全て単語分割した後、分割された単語に基づいて例えば単語W、W、Wが連鎖する回数を計数するなどして、単語分割された全てのテキスト中での単語連鎖確立を算出し、言語モデル中の対応する単語連鎖確立を修正する(言語モデル適応化処理)。
一方、S11において、他に単語分割を行っていないテキストが存在する場合、S1の処理に戻り、S1〜S10の処理を繰り返す。
[本実施形態の作用効果]
本実施形態では、読みモデルWFST生成手段11は、言語モデルに基づいて、音素記号を入力シンボルとし、単語IDを出力シンボルとし、言語スコアを遷移確率とする読みモデルWFSTを生成し、テキスト読みWFST生成手段12は、テキストの読み情報を、音素記号を入力シンボル及び出力シンボルとするWFST形式に変換したテキスト読みWFSTを生成する。そして、読みWFST合成手段13は、これらの読みモデルWFST及びテキスト読みWFSTを生成した候補グラフ(第一合成WFST)を生成する。また、N−best文候補WFST射影手段15は、候補グラフから抽出されたN−best文候補WFSTを、単語IDを入出力シンボルとした射影N−best文候補WFSTに射影する。
そして、単語表記WFST生成手段16は、単語辞書に基づいて、表記文字を入力シンボルとし、単語IDを出力シンボルとした単語表記モデルWFSTを生成し、表記N−best文候補WFST生成手段17は、射影N−best文候補WFSTと、単語表記WFSTとを合成した表記N−best文候補WFST(第二合成WFST)を生成する。
さらに、テキスト表記WFST生成手段18は、テキストの表記情報を、表記文字を入力シンボル及び出力シンボルとするテキスト表記WFSTを生成し、単語特定手段19は、表記N−best文候補WFSTと、テキスト表記WFSTとを合成した単語分割結果WFSTを生成する。そして、単語特定手段19は、この単語分割結果WFSTに基づいて、出力された単語(単語ID)を分割された単語として特定する。
このような構成では、読みモデルWFST生成手段11、テキスト読みWFST生成手段12、及び読みWFST合成手段13により、テキストの読み情報を言語モデルに基づいた単語単位に分割した候補グラフWFSTを生成することができる。そして、テキスト表記WFST生成手段18、及び単語特定手段19は、このような候補グラフWFSTを、テキストの表記情報と照合することで、テキストの表記と合致した表記の単語を特定することができる。すなわち、本実施形態では、テキストの読み情報と言語モデルの単語読み情報とが適合し、かつ、テキストの表記情報と言語モデルの単語表記情報とが適合した単語を特定することができる。これにより、例えば、読み情報(音声)のみに基づいてテキスト中の単語を特定する処理や、表記文字のみに基づいてテキスト中の単語を特定する処理に比べて、高い精度で、テキストから適切な単語を分割することができる。
また、本実施形態では、音声認識用の言語モデルに基づいて、テキストを単語単位に分割するので、テキストの読み情報から適切な単語を分割することができ、単語分割精度を向上させることができる。
そして、本実施形態では、WFSTの基本演算の組み合わせにより単語を分割する処理を実施するため、形態素解析器等のパーサーを必要とせず、高速な演算処理を実施することができる。また、形態素解析器等のパーサーは、文字列を左から右へ局所的に参照するが、WFST演算は文字列全体を大域的に参照するため、解析処理の高速化を図れる。
さらに、WFST演算では、遷移確率である言語スコアが考慮された演算となるため、別途言語スコアに基づいた修正等を行う必要がなく、処理の簡略化を図れる。
また、本実施形態では、N−best文候補WFST生成手段14は、読みWFST合成手段13により生成された候補グラフWFSTから、言語スコアの合計が高い上位を抽出したN−best文候補WFSTを生成する。このため、例えば候補グラフWFSTを用いる場合に比べて、S5の処理段階で、候補数を絞ることができ、処理に要する時間を短縮できる。
[他の実施形態]
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の目的を達成できる範囲で、以下に示される変形をも含むものである。
例えば、上記実施形態では、WFST演算を用いた単語分割処理を例示したが、これに限定されず、以下の方法によりテキスト内の単語を分割してもよい。
すなわち、第一単語分割手段は、言語モデル中の単語辞書を用いて、入力されたテキストの読み情報を単語に分割する。この時、テキストの先頭の音素記号から順番に、単語辞書中の単語読み情報と照合して読み候補を生成する。
一例として、テキストの表記情報が[B][D][E][L]であり、読み情報が[a][b][c][d][e][f][g]であり、単語辞書中の単語表記情報及び単語読み情報が、下記の表2に示す場合を説明する。
Figure 2013235117
この場合、テキストの読み情報「abcdefg」の先頭を、単語辞書と照合すると、以下の2つの読み候補が得られる。
読み候補1=(単語1) (残りは「bcdefg」)
読み候補2=(単語2) (残りは「cdefg」)
各読み候補について、残りの音素記号を、単語辞書と照合すると、以下の読み候補が得られる。
読み候補1-1=(単語1)+(単語5) (残りは「defg」)
読み候補2-1=(単語2)+(単語3) (残りは「defg」)
読み候補2-2=(単語2)+(単語4) (残りは「fg」)
さらに、これらの読み候補について、残りの音素記号を、単語辞書を照合すると、以下の読み候補が得られる。
読み候補1-1-1=(単語1)+(単語5)+(単語6)(残りは「g」)
読み候補1-1-2=(単語1)+(単語5)+(単語7)(残り無)
読み候補2-1-1=(単語2)+(単語3)+(単語6)(残りは「g」)
読み候補2-1-2=(単語2)+(単語3)+(単語7)(残り無)
読み候補2-2-1=(単語2)+(単語4)+(単語8)(残り無)
ここで、第一単語分割手段は、読み候補1-1-1及び読み候補2-1-1は、これ以上進められない(音素記号「g」のみに対する単語はない)ため破棄し、読み候補1-1-2、読み候補2-1-2、及び読み候補2-2-1を読み候補ラティスとして特定する。
次に、第二単語分割手段は、これらの候補ラティスを、単語辞書を用いて、以下に示すような表記表示(表記候補ラティス)に変換する。
表記候補ラティス1-1-2=(A:単語1)+(F:単語5)+(IJK:単語7)
表記候補ラティス2-1-2=(B:単語2)+(C:単語3)+(IJK:単語7)
表記候補ラティス2-2-1=(B:単語2)+(DE:単語4)+(L:単語8)
この後、第二単語分割手段は、テキストの表記情報「BDEL」と、上記の表記候補ラティスとを照合する。これにより、第二単語分割手段は、(B:単語2),(DE:単語4),(L:単語8)を分割された単語として取得する。
以上のようなテキストの単語分割方法を用いても、上記実施形態と同様に、テキストの読み情報及び表記情報の双方が、音声認識用の言語モデルと適合する単語を、当該テキストから分割することができる。
また、上記実施形態では、N−best文候補WFST生成手段14は、読みWFST合成手段13により合成された候補グラフWFST(第一合成WFST)から、言語スコアが上位であるN個を抽出して、N−best文候補WFSTを生成したが、これに限定されない。
例えば、読みWFST合成手段13により合成された候補グラフWFSTから、言語スコアに基づいた候補を抽出せずに、単語IDを入力シンボル及び出力シンボルとしたWFSTに射影し、得られたWFSTと単語表記WFSTと合成して、第二合成WFSTを生成してもよい。
この場合、N−best文候補WFSTを生成する場合に比べて、候補数が多くなる分、演算に係る時間が長くなるものの、上記実施形態と同様に、テキストの読み情報及び表記情報の双方が、音声認識用の言語モデルと両立する単語を高精度に分割することができる。
更に、上記実施形態では、音声認識用の言語モデルに含まれる単語辞書に、登録された単語に対する音素記号を示す単語読み情報が記録される例を示したが、更に、発話時のアクセント等が記録されていてもよい。この場合、アクセントの位置に基づいて、テキストに含まれる単語をより高精度に分割することが可能となる。
その他、本発明の実施の際の具体的な構造および手順は、本発明の目的を達成できる範囲で他の構造などに適宜変更できる。
1…単語学習装置(単語分割装置)、2…記憶部、10…CPU、11…読みモデルWFST生成手段、12…テキスト読みWFST生成手段、13…読みWFST合成手段、14…N−best文候補WFST生成手段、15…N−best文候補WFST射影手段(WFST射影手段)、16…単語表記WFST生成手段、17…表記N−best文候補WFST生成手段(第二合成WFST生成手段)、18…テキスト表記WFST生成手段、19…単語特定手段、20…言語モデル適応化手段。
本発明の単語分割装置は、テキストを、音声認識用の言語モデルに基づいた単語単位に分割する単語分割装置であって、前記テキストは、当該テキストの表記文字である表記情報と、当該テキストの読み方である読み情報と、を有し、前記言語モデルは、複数の単語が登録される単語辞書を有し、前記単語辞書は、各単語の読み方である単語読み情報と、当該単語の各表記文字である単語表記情報とを有し、前記単語分割装置は、前記言語モデル及び前記テキストを記憶する記憶部と、前記言語モデルを用いて、前記テキストの読み情報を単語単位に分割した候補を生成する第一単語分割手段と、前記第一単語分割手段により生成された前記単語単位に分割した候補と、前記テキストの前記表記情報とを照合して、前記テキストから単語を分割する第二単語分割手段と、を備えることを特徴とする。

Claims (4)

  1. テキストを、音声認識用の言語モデルに基づいた単語単位に分割する単語分割装置であって、
    前記テキストは、当該テキストの表記文字である表記情報と、当該テキストの読み方である読み情報と、を有し、
    前記言語モデルは、複数の単語が登録される単語辞書を有し、
    前記単語辞書は、各単語の読み方である単語読み情報と、当該単語の各表記文字である単語表記情報とを有し、
    前記単語分割装置は、
    前記言語モデル及び前記テキストを記憶する記憶部と、
    前記言語モデルを用いて、前記テキストの読み情報を単語単位に分割する第一単語分割手段と、
    前記第一単語分割手段により分割された単語と、前記テキストの前記表記情報とを照合して、前記テキストから単語を分割する第二単語分割手段と、
    を備えることを特徴とする単語分割装置。
  2. 請求項1に記載の単語分割装置において、
    前記第一単語分割手段は、
    前記言語モデルに基づいて、音素記号を入力シンボルとし、単語を出力シンボルとし、言語スコアを遷移確率とする読みモデル重み付き有限状態トランスデューサーを生成する読みモデルWFST生成手段と、
    前記テキストの読み情報に基づいて、音素記号を入力シンボル及び出力シンボルとするテキスト読み重み付き有限状態トランスデューサーを生成するテキスト読みWFST生成手段と、
    前記読みモデル重み付き有限状態トランスデューサー、及び前記テキスト読み重み付き有限状態トランスデューサーを合成して、第一合成重み付き有限状態トランスデューサーを生成する読みWFST合成手段と、を有し、
    前記第二単語分割手段は、
    前記第一合成重み付き有限状態トランスデューサーを、単語を入出力シンボルとした射影第一合成重み付き有限状態トランスデューサーに射影するWFST射影手段と、
    前記単語辞書に基づいて、表記文字を入力シンボルとして単語を出力シンボルとした単語表記重み付き有限状態トランスデューサーを生成する単語表記WFST生成手段と、
    前記射影第一合成重み付き有限状態トランスデューサーと前記単語表記重み付き有限状態トランスデューサーとを合成して、第二合成重み付き有限状態トランスデューサーを生成する第二合成WFST生成手段と、
    前記テキストの表記情報に基づいて、表記文字を入力シンボル及び出力シンボルとするテキスト表記重み付き有限状態トランスデューサーを生成するテキスト表記WFST生成手段と、
    前記第二合成重み付き有限状態トランスデューサーと前記テキスト表記重み付き有限状態トランスデューサーとを合成して単語分割結果重み付き有限状態トランスデューサーを生成し、当該単語分割結果重み付き有限状態トランスデューサーから出力された単語を、前記テキストから分割された単語として特定する単語特定手段と、を備える
    ことを特徴とする単語分割装置。
  3. 請求項2に記載の単語分割装置において、
    前記第一単語分割手段は、
    前記第一合成重み付き有限状態トランスデューサーから、重みコストが大きい順となる所定数の候補を抽出したN−best文候補重み付き有限状態トランスデューサーを生成するN−best文候補WFST生成手段を備え、
    前記WFST射影手段は、前記N−best文候補重み付き有限状態トランスデューサーを、単語を入出力シンボルとした射影N−best文候補重み付き有限状態トランスデューサーに射影し、
    前記第二合成WFST生成手段は、前記射影N−best文候補重み付き有限状態トランスデューサーと、前記単語表記重み付き有限状態トランスデューサーとを合成して第二合成重み付き有限状態トランスデューサーを生成する
    ことを特徴とする単語分割装置。
  4. コンピューターにより、テキストを、音声認識用の言語モデルに基づいた単語単位に分割する単語分割方法であって、
    前記コンピューターは、前記言語モデル及び前記テキストを記憶する記憶部を有し、
    前記テキストは、当該テキストの表記文字である表記情報と、当該テキストの読み方である読み情報と、を有し、
    前記言語モデルは、複数の単語が登録される単語辞書と、各単語の連鎖確率である言語スコアとを有し、
    前記単語辞書は、各単語の読み方である単語読み情報と、当該単語の各表記文字である単語表記情報とを有し、
    前記コンピューターは、
    前記言語モデルを用いて、前記テキストの読み情報を単語単位に分割する第一単語分割ステップと、
    前記第一単語分割手段により分割された単語と、前記テキストの前記表記情報とを照合して、前記テキストから単語を分割する第二単語分割ステップと、
    を実施することを特徴とする単語分割方法。
JP2012107095A 2012-05-08 2012-05-08 単語分割装置、及び単語分割方法 Expired - Fee Related JP5611270B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012107095A JP5611270B2 (ja) 2012-05-08 2012-05-08 単語分割装置、及び単語分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012107095A JP5611270B2 (ja) 2012-05-08 2012-05-08 単語分割装置、及び単語分割方法

Publications (2)

Publication Number Publication Date
JP2013235117A true JP2013235117A (ja) 2013-11-21
JP5611270B2 JP5611270B2 (ja) 2014-10-22

Family

ID=49761291

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012107095A Expired - Fee Related JP5611270B2 (ja) 2012-05-08 2012-05-08 単語分割装置、及び単語分割方法

Country Status (1)

Country Link
JP (1) JP5611270B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018527609A (ja) * 2015-07-23 2018-09-20 アリババ グループ ホウルディング リミテッド ユーザ声紋モデルを構築するための方法、装置、及びシステム
US10600407B2 (en) 2016-07-20 2020-03-24 Kabushiki Kaisha Toshiba Generation device, recognition system, and generation method for generating finite state transducer
CN111241810A (zh) * 2020-01-16 2020-06-05 百度在线网络技术(北京)有限公司 标点预测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005538428A (ja) * 2001-09-25 2005-12-15 アプル・コンピュータ・インコーポレーテッド 日本語仮想辞書
JP2009258293A (ja) * 2008-04-15 2009-11-05 Mitsubishi Electric Corp 音声認識語彙辞書作成装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005538428A (ja) * 2001-09-25 2005-12-15 アプル・コンピュータ・インコーポレーテッド 日本語仮想辞書
JP2009258293A (ja) * 2008-04-15 2009-11-05 Mitsubishi Electric Corp 音声認識語彙辞書作成装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200100214011; 森  信介: '確率的モデルによる仮名漢字変換' 情報処理学会論文誌 Vol.40, No.7, 19990715, pp2946-2953, 社団法人情報処理学会 *
CSNG200501034023; 森  信介  Shinsuke  Mori: '生コーパスからの単語N-gram確率の推定  Word N-gram Probability Estimation from a Raw Corpus' 情報処理学会研究報告  Vol.2004  No.73  IPSJ SIG Technical Reports 第2004巻, pp.183-190, 社団法人情報処理学会  Information Processing Socie *
JPN6014003246; 森  信介  Shinsuke  Mori: '生コーパスからの単語N-gram確率の推定  Word N-gram Probability Estimation from a Raw Corpus' 情報処理学会研究報告  Vol.2004  No.73  IPSJ SIG Technical Reports 第2004巻, pp.183-190, 社団法人情報処理学会  Information Processing Socie *
JPN6014016770; 森  信介: '確率的モデルによる仮名漢字変換' 情報処理学会論文誌 Vol.40, No.7, 19990715, pp2946-2953, 社団法人情報処理学会 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018527609A (ja) * 2015-07-23 2018-09-20 アリババ グループ ホウルディング リミテッド ユーザ声紋モデルを構築するための方法、装置、及びシステム
US11043223B2 (en) 2015-07-23 2021-06-22 Advanced New Technologies Co., Ltd. Voiceprint recognition model construction
US10600407B2 (en) 2016-07-20 2020-03-24 Kabushiki Kaisha Toshiba Generation device, recognition system, and generation method for generating finite state transducer
CN111241810A (zh) * 2020-01-16 2020-06-05 百度在线网络技术(北京)有限公司 标点预测方法及装置
CN111241810B (zh) * 2020-01-16 2023-08-01 百度在线网络技术(北京)有限公司 标点预测方法及装置

Also Published As

Publication number Publication date
JP5611270B2 (ja) 2014-10-22

Similar Documents

Publication Publication Date Title
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US7873508B2 (en) Apparatus, method, and computer program product for supporting communication through translation between languages
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
US8583417B2 (en) Translation device and computer program product
JP5073024B2 (ja) 音声対話装置
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP5611270B2 (ja) 単語分割装置、及び単語分割方法
JP5243325B2 (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
JP6998017B2 (ja) 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム
JP3378547B2 (ja) 音声認識方法及び装置
JP5474723B2 (ja) 音声認識装置およびその制御プログラム
JP2007086404A (ja) 音声合成装置
Rajendran et al. Text processing for developing unrestricted Tamil text to speech synthesis system
JP2006343405A (ja) 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体
JP2013250379A (ja) 音声認識装置、音声認識方法およびプログラム
US20220138420A1 (en) Difference extraction device, method and program
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
JP2005292346A (ja) 音声認識用棄却辞書生成システム、音声認識用棄却語彙生成方法及び音声認識用棄却語彙生成プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140430

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140606

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140902

R150 Certificate of patent or registration of utility model

Ref document number: 5611270

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371