JP2013235117A - 単語分割装置、及び単語分割方法 - Google Patents
単語分割装置、及び単語分割方法 Download PDFInfo
- Publication number
- JP2013235117A JP2013235117A JP2012107095A JP2012107095A JP2013235117A JP 2013235117 A JP2013235117 A JP 2013235117A JP 2012107095 A JP2012107095 A JP 2012107095A JP 2012107095 A JP2012107095 A JP 2012107095A JP 2013235117 A JP2013235117 A JP 2013235117A
- Authority
- JP
- Japan
- Prior art keywords
- word
- text
- wfst
- notation
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000011218 segmentation Effects 0.000 claims description 14
- 230000007704 transition Effects 0.000 claims description 11
- 239000002131 composite material Substances 0.000 claims description 5
- 238000000926 separation method Methods 0.000 abstract 3
- 235000016496 Panda oleosa Nutrition 0.000 description 10
- 240000000220 Panda oleosa Species 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000000877 morphologic effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】単語学習装置1は、音声の検聴により書き起こされたテキストを、音声認識用の言語モデルを用いて、単語単位に分割する装置であり、言語モデルは、複数の単語が登録され、各単語の読み方である単語読み情報と、当該単語の各表記文字である単語表記情報とを有する単語辞書を有し、テキストは、当該テキストの表示文字である表記情報と、当該テキストの読み方である読み情報と、を有し、当該単語学習装置1は、言語モデル及び前記テキストを記憶する記憶部2と、言語モデルを用いて、テキストの読み情報を単語単位に分割する第一単語分割手段と、第一単語分割手段により分割された単語と、テキストの表記情報とを照合して、テキストから単語を分割する第二単語分割手段と、を備える。
【選択図】図1
Description
従来、このような書き起こしテキストから単語を分割する方法として、形態素解析器を用いる方法(例えば、特許文献1参照)や、カナ漢字変換器を用いる方法(例えば、特許文献2参照)が知られている。
特許文献2に記載の方法は、入力された音声信号を、音素フレーム単位で分析した音響特徴パラメータに変換し、音素フレームに対する複数候補の読み仮名毎に、音響モデルが与える音響スコアを算出する。そして、候補となる読み仮名列に対して言語モデルと音響スコアとを統合して、最も高いスコアの単語列を認識結果として出力する。
特許文献2は、読み仮名に基づいて単語分割を行っているが、表記文字による分析が行われていないので、この場合も同様に、単語分割の精度が低下するという課題がある。例えば、同音異義語等を判別することが困難であり、適切な単語を分割できない場合がある。
これに加え、上記のような特許文献1及び特許文献2では、音声認識用言語モデルに基づいた単語分割が行われていない。つまり、音声認識用の言語モデルと、分割される単語とで、単語単位の定義が異なり、音声認識用言語に適合した単語分割結果が得られないという課題がある。例えば、特許文献1のような形態素解析器では、単語「一本」は、「一(イチ)」と「本(ホン)」とに分けられている場合がある。この場合、「イッポン」との音声が入力された場合に、「一本」との単語が特定できない場合がある。
以上のような理由から、特許文献1及び特許文献2のような従来の単語分割方法では、精度の高い単語分割を行うことができないという課題があった。
図1は、本発明に係る一実施形態の単語学習装置の概略構成を示すブロック図である。
本実施形態の単語学習装置1は、作業者等により音声データに基づいて書き起こされた書き起こしテキスト(以降、テキストと称する場合がある)に基づいて、音声認識用の言語モデルに単語を学習させる。
ここで、言語モデルは、単語が記録される単語辞書と、当該単語の連鎖確率を示す言語スコア(例えば、N−gram確率)とを含む。言語スコアは、収集された複数のデータに基づいて推算される。この時、例えばインターネット等で複数のユーザーが入力した検索キーワード等に基づいて単語を認識して言語スコアを推算する場合と、実際の話し言葉(音声データ)に基づいて単語を抽出し、言語スコアを推算する場合とでは、単語の使用場面が異なるため、言語スコアの値が異なってくる。
したがって、音声認識用言語モデルでは、インターネット等を介してテキストベースで収集されたデータにより作成された言語モデルを、音声ベースで修正する必要が生じ、この時、音声データから単語を分割する必要が生じる。ここで、本実施形態の単語学習装置1は、本発明の単語分割装置として機能し、音声データに基づいて書き起こされたテキストに対して、音声認識用の言語モデルに従って単語分割を行う。
単語学習装置1は、図1に示すように、ROM(Read Only Memory)やRAM(Random Access Memory)等により構成される記憶部2、及びCPU(Central Processing Unit)10を備えた、いわゆるコンピューターにより構成されている。なお、単語学習装置1は、その他、画像を表示させるディスプレイや、マウスやキーボード等の操作手段からの入力を受け付ける操作部、インターネット等のネットワークに接続可能な外部接続部等が設けられる。
言語モデルは、上述したように、複数の単語が登録された単語辞書と、単語辞書の各単語の連鎖確率を示す言語スコアとを備えている。
単語辞書は、表1に示すように、各単語に対して、単語を特定するための単語IDと、単語の読み方(音素記号)を示す単語読み情報と、単語の表記文字(例えば日本語では、漢字及び仮名により表示された単語)を示す単語表記情報とが関連付けられて記憶されている。
テキスト読みWFST生成手段12は、テキストの読み情報に基づいて、テキスト読みWFST(テキスト読み重み付き有限状態トランスデューサー)を生成する。
読みWFST合成手段13は、読みモデルWFST及びテキスト読みWFSTを合成して、候補グラフWFST(第一合成重み付き有限状態トランスデューサー)を生成する。
N−best文候補WFST生成手段14は、候補グラフWFSTから、重みコスト(言語スコア)が大きい所定数の候補を取得して、N−best文候補WFST(N−best重み付き有限状態トランスデューサー)を生成する。
N−best文候補WFST射影手段15は、前記N−best文候補WFSTを、単語IDを入出力シンボルとするWFSTに射影して、射影N−best文候補WFST(射影第一合成重み付き有限状態トランスデューサー)を生成する。
単語表記WFST生成手段16は、単語辞書の単語IDと単語表記情報とから、単語表記WFSTを生成する。
表記N−best文候補WFST生成手段17は、射影N−best文候補WFSTと、単語表記WFSTとを合成して、表記N−best文候補WFST(第二合成重み付き有限状態トランスデューサー)を生成する。
テキスト表記WFST生成手段18は、テキストの表記情報に基づいて、テキスト表記WFST(テキスト表記重み付き有限状態トランスデューサー)を生成する。
単語特定手段19は、表記N−best文候補WFST及びテキスト表記WFSTを合成することで、単語分割結果WFST(単語分割結果重み付き有限状態トランスデューサー)を生成する。そして、単語分割結果WFSTに基づいて、テキストを単語分割した結果を出力する。
言語モデル適応化手段20は、テキストの単語分割の結果に基づいて、分割された単語を言語モデルに適応させる。
ここで、読みモデルWFST生成手段11、テキスト読みWFST生成手段12、読みWFST合成手段13、N−best文候補WFST生成手段14、及びN−best文候補WFST射影手段15により本発明の第一単語分割手段が構成され、単語表記WFST生成手段16、表記N−best文候補WFST生成手段17、テキスト表記WFST生成手段18、及び単語特定手段19により本発明の第二単語分割手段が構成される。
なお、各構成による詳細な処理内容については、後述する。
次に、上記のような単語学習装置1を用いたテキストの単語分割方法について、図面に基づいて説明する。
図2は、テキストの単語分割処理を示すフローチャートである。
単語学習装置1では、音声認識用の言語モデルの単語辞書に単語を登録するために、音声データに基づいて書き起こされたテキストを記憶部2から読み込む(S1)。
ここで、テキストは、例えばマイク等により録音された音声データやインターネット等を介して取得した音声データに基づいて、単語学習装置1を使用する作業者が書き起こしたデータである。このように取得されたテキストは、記憶部2に記憶され、S1において、読み出される。
なお、テキストとしては、上述のように、表記情報と読み情報を有する。この読み情報としては、例えば単語の読み方を読み仮名(ひらがなやカタカナ等)で示したものであってもよく、単語の読み方を音素記号列(音素列)で示したものであってもよい。読み情報が読み仮名である場合、例えばテキスト読みWFST生成手段12によりテキスト読みWFSTを生成する際に、音素記号列に変換する。なお、テキスト読みWFST生成手段12による読み仮名から音素記号への変換処理については、後述する。
図3は、読みモデルWFSTの一例を示す図である。
図3に示すように、読みモデルWFST生成手段11は、入力シンボルが音素記号(例えば、トライフォン列)、出力シンボルが単語ID(単語列)、遷移確率が言語スコアとなるWFSTを読みモデルWFSTとして生成する。なお、図3では、1−gramの例を示すが、2−gramや3−gramのWFSTが生成されてもよい。
図3において、[ε]は空記号を示し、入力記号に対して出力記号がないことを意味する。一方、図3において、[ε]以外の出力(Wn)は、単語IDを示している。例えば、入力された音素記号が[a][k][a]と遷移した場合、単語表記情報が「赤」であり、単語読み情報が「あか(aka)」である単語ID「W4」を出力する。
なお、本実施形態では、読みモデルWFST生成手段11により、読みモデルWFSTが生成される例を示すが、言語モデルとして、読みモデルWFSTが記憶部2に記憶されていてもよい。
図4は、テキスト読みWFSTの一例を示す図である。この図4は、入力シンボルとして、音素記号[s][i][n][s][e][n]が入力された場合に、出力シンボルとして音素記号[s][i][n][s][e][n]を出力するテキスト読みWFSTの例である。
具体的には、テキスト読みWFST生成手段12は、テキストの読み情報を、テキストの文頭を始状態、文末を終状態、遷移を音素記号とするWFST形式に変換したテキスト読みWFSTを生成する。
なお、読み情報として、読み仮名が記録されている場合、テキスト読みWFST生成手段12は、読み仮名を音素記号列(音素列)に変換して、テキスト読みWFSTを生成する。
また、母音については、対応する長母音を並列アークとして追加し、長母音については、対応する母音を並列アークとして追加する。この後、テキスト読みWFST生成手段12は、生成したテキスト読みWFSTにおいて、冗長な重複を纏めて決定化する。
図5は、候補グラフWFSTの一例を示す図である。なお、図5では、出力シンボルの空記号[ε]、各アークにおける遷移確率(言語スコア)、入力シンボル及び出力シンボルが空記号[ε:ε]となるアークを省略している。なお、以降の説明においても、同様に、空記号や遷移確率を省略する場合がある。
このS4により、図5に示すように、入力シンボルが音素記号、出力シンボルが単語ID、遷移確率が言語スコアとなる候補グラフWFST(第一合成WFST)が生成される。この候補グラフWFSTは、テキストの読み情報を言語モデルの制約で単語単位に分割したWFSTとなる。
本実施形態では、候補グラフWFST(入力シンボルが音素記号(トライフォン列)、出力シンボルが単語ID(単語列))から、単語ID(単語列)を入力シンボル及び出力シンボルとしたN−best文候補WFSTを生成し、生成したN−best文候補WFSTと単語表記WFSTとを合成した後、更にテキスト表記WFSTを合成して分割単語を取得する。
このために、S5の処理により、候補グラフWFSTから言語スコアが上位となるWFST(N−best文候補WFST)を抽出した後、N−best文候補WFST射影手段15は、抽出されたN−best文候補WFSTを、単語ID(単語列)を入力シンボル及び出力シンボルとしたWFST(射影N−best文候補WFST)に射影する(S6)。
これにより、図6に示すような、射影N−best文候補WFSTが生成される。なお、図6では、出力シンボルは、入力シンボルと同じ単語IDとなるため、図中の出力シンボルの表記を省略している。
ここで、単語表記WFST生成手段16は、図7に示すように、入力シンボルが表記文字(例えば、漢字や仮名)、出力シンボルが単語IDとなるWFSTを単語表記WFSTとして生成する。
このS8により、図8に示すように、入力シンボルが表記文字、出力シンボルが単語ID、遷移確率が言語スコアとなる表記N−best文候補WFSTが生成される。
図9は、テキスト表記WFSTの一例を示す図である。
具体的には、テキスト表記WFST生成手段18は、テキストの表記情報を、テキストの文頭を始状態、文末を終状態、遷移を表記文字(漢字や仮名等)とするWFST形式に変換したテキスト表記WFSTを生成する。このテキスト表記WFSTは、図9に示すように、例えば、入力シンボルとして、表記文字[新][鮮][な][果][物]が入力された場合、出力シンボルとして表記文字[新][鮮][な][果][物]を出力する。
この単語分割結果WFSTは、言語スコアが1位となる単語分割結果であり、表記N−best文候補WFSTと、テキストの表記との照合により、得られた単語(図10におけるW1、W6、W2)が特定される。
一方、S11において、他に単語分割を行っていないテキストが存在する場合、S1の処理に戻り、S1〜S10の処理を繰り返す。
本実施形態では、読みモデルWFST生成手段11は、言語モデルに基づいて、音素記号を入力シンボルとし、単語IDを出力シンボルとし、言語スコアを遷移確率とする読みモデルWFSTを生成し、テキスト読みWFST生成手段12は、テキストの読み情報を、音素記号を入力シンボル及び出力シンボルとするWFST形式に変換したテキスト読みWFSTを生成する。そして、読みWFST合成手段13は、これらの読みモデルWFST及びテキスト読みWFSTを生成した候補グラフ(第一合成WFST)を生成する。また、N−best文候補WFST射影手段15は、候補グラフから抽出されたN−best文候補WFSTを、単語IDを入出力シンボルとした射影N−best文候補WFSTに射影する。
そして、単語表記WFST生成手段16は、単語辞書に基づいて、表記文字を入力シンボルとし、単語IDを出力シンボルとした単語表記モデルWFSTを生成し、表記N−best文候補WFST生成手段17は、射影N−best文候補WFSTと、単語表記WFSTとを合成した表記N−best文候補WFST(第二合成WFST)を生成する。
さらに、テキスト表記WFST生成手段18は、テキストの表記情報を、表記文字を入力シンボル及び出力シンボルとするテキスト表記WFSTを生成し、単語特定手段19は、表記N−best文候補WFSTと、テキスト表記WFSTとを合成した単語分割結果WFSTを生成する。そして、単語特定手段19は、この単語分割結果WFSTに基づいて、出力された単語(単語ID)を分割された単語として特定する。
このような構成では、読みモデルWFST生成手段11、テキスト読みWFST生成手段12、及び読みWFST合成手段13により、テキストの読み情報を言語モデルに基づいた単語単位に分割した候補グラフWFSTを生成することができる。そして、テキスト表記WFST生成手段18、及び単語特定手段19は、このような候補グラフWFSTを、テキストの表記情報と照合することで、テキストの表記と合致した表記の単語を特定することができる。すなわち、本実施形態では、テキストの読み情報と言語モデルの単語読み情報とが適合し、かつ、テキストの表記情報と言語モデルの単語表記情報とが適合した単語を特定することができる。これにより、例えば、読み情報(音声)のみに基づいてテキスト中の単語を特定する処理や、表記文字のみに基づいてテキスト中の単語を特定する処理に比べて、高い精度で、テキストから適切な単語を分割することができる。
また、本実施形態では、音声認識用の言語モデルに基づいて、テキストを単語単位に分割するので、テキストの読み情報から適切な単語を分割することができ、単語分割精度を向上させることができる。
さらに、WFST演算では、遷移確率である言語スコアが考慮された演算となるため、別途言語スコアに基づいた修正等を行う必要がなく、処理の簡略化を図れる。
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の目的を達成できる範囲で、以下に示される変形をも含むものである。
例えば、上記実施形態では、WFST演算を用いた単語分割処理を例示したが、これに限定されず、以下の方法によりテキスト内の単語を分割してもよい。
一例として、テキストの表記情報が[B][D][E][L]であり、読み情報が[a][b][c][d][e][f][g]であり、単語辞書中の単語表記情報及び単語読み情報が、下記の表2に示す場合を説明する。
読み候補1=(単語1) (残りは「bcdefg」)
読み候補2=(単語2) (残りは「cdefg」)
各読み候補について、残りの音素記号を、単語辞書と照合すると、以下の読み候補が得られる。
読み候補1-1=(単語1)+(単語5) (残りは「defg」)
読み候補2-1=(単語2)+(単語3) (残りは「defg」)
読み候補2-2=(単語2)+(単語4) (残りは「fg」)
さらに、これらの読み候補について、残りの音素記号を、単語辞書を照合すると、以下の読み候補が得られる。
読み候補1-1-1=(単語1)+(単語5)+(単語6)(残りは「g」)
読み候補1-1-2=(単語1)+(単語5)+(単語7)(残り無)
読み候補2-1-1=(単語2)+(単語3)+(単語6)(残りは「g」)
読み候補2-1-2=(単語2)+(単語3)+(単語7)(残り無)
読み候補2-2-1=(単語2)+(単語4)+(単語8)(残り無)
次に、第二単語分割手段は、これらの候補ラティスを、単語辞書を用いて、以下に示すような表記表示(表記候補ラティス)に変換する。
表記候補ラティス1-1-2=(A:単語1)+(F:単語5)+(IJK:単語7)
表記候補ラティス2-1-2=(B:単語2)+(C:単語3)+(IJK:単語7)
表記候補ラティス2-2-1=(B:単語2)+(DE:単語4)+(L:単語8)
以上のようなテキストの単語分割方法を用いても、上記実施形態と同様に、テキストの読み情報及び表記情報の双方が、音声認識用の言語モデルと適合する単語を、当該テキストから分割することができる。
例えば、読みWFST合成手段13により合成された候補グラフWFSTから、言語スコアに基づいた候補を抽出せずに、単語IDを入力シンボル及び出力シンボルとしたWFSTに射影し、得られたWFSTと単語表記WFSTと合成して、第二合成WFSTを生成してもよい。
この場合、N−best文候補WFSTを生成する場合に比べて、候補数が多くなる分、演算に係る時間が長くなるものの、上記実施形態と同様に、テキストの読み情報及び表記情報の双方が、音声認識用の言語モデルと両立する単語を高精度に分割することができる。
Claims (4)
- テキストを、音声認識用の言語モデルに基づいた単語単位に分割する単語分割装置であって、
前記テキストは、当該テキストの表記文字である表記情報と、当該テキストの読み方である読み情報と、を有し、
前記言語モデルは、複数の単語が登録される単語辞書を有し、
前記単語辞書は、各単語の読み方である単語読み情報と、当該単語の各表記文字である単語表記情報とを有し、
前記単語分割装置は、
前記言語モデル及び前記テキストを記憶する記憶部と、
前記言語モデルを用いて、前記テキストの読み情報を単語単位に分割する第一単語分割手段と、
前記第一単語分割手段により分割された単語と、前記テキストの前記表記情報とを照合して、前記テキストから単語を分割する第二単語分割手段と、
を備えることを特徴とする単語分割装置。 - 請求項1に記載の単語分割装置において、
前記第一単語分割手段は、
前記言語モデルに基づいて、音素記号を入力シンボルとし、単語を出力シンボルとし、言語スコアを遷移確率とする読みモデル重み付き有限状態トランスデューサーを生成する読みモデルWFST生成手段と、
前記テキストの読み情報に基づいて、音素記号を入力シンボル及び出力シンボルとするテキスト読み重み付き有限状態トランスデューサーを生成するテキスト読みWFST生成手段と、
前記読みモデル重み付き有限状態トランスデューサー、及び前記テキスト読み重み付き有限状態トランスデューサーを合成して、第一合成重み付き有限状態トランスデューサーを生成する読みWFST合成手段と、を有し、
前記第二単語分割手段は、
前記第一合成重み付き有限状態トランスデューサーを、単語を入出力シンボルとした射影第一合成重み付き有限状態トランスデューサーに射影するWFST射影手段と、
前記単語辞書に基づいて、表記文字を入力シンボルとして単語を出力シンボルとした単語表記重み付き有限状態トランスデューサーを生成する単語表記WFST生成手段と、
前記射影第一合成重み付き有限状態トランスデューサーと前記単語表記重み付き有限状態トランスデューサーとを合成して、第二合成重み付き有限状態トランスデューサーを生成する第二合成WFST生成手段と、
前記テキストの表記情報に基づいて、表記文字を入力シンボル及び出力シンボルとするテキスト表記重み付き有限状態トランスデューサーを生成するテキスト表記WFST生成手段と、
前記第二合成重み付き有限状態トランスデューサーと前記テキスト表記重み付き有限状態トランスデューサーとを合成して単語分割結果重み付き有限状態トランスデューサーを生成し、当該単語分割結果重み付き有限状態トランスデューサーから出力された単語を、前記テキストから分割された単語として特定する単語特定手段と、を備える
ことを特徴とする単語分割装置。 - 請求項2に記載の単語分割装置において、
前記第一単語分割手段は、
前記第一合成重み付き有限状態トランスデューサーから、重みコストが大きい順となる所定数の候補を抽出したN−best文候補重み付き有限状態トランスデューサーを生成するN−best文候補WFST生成手段を備え、
前記WFST射影手段は、前記N−best文候補重み付き有限状態トランスデューサーを、単語を入出力シンボルとした射影N−best文候補重み付き有限状態トランスデューサーに射影し、
前記第二合成WFST生成手段は、前記射影N−best文候補重み付き有限状態トランスデューサーと、前記単語表記重み付き有限状態トランスデューサーとを合成して第二合成重み付き有限状態トランスデューサーを生成する
ことを特徴とする単語分割装置。 - コンピューターにより、テキストを、音声認識用の言語モデルに基づいた単語単位に分割する単語分割方法であって、
前記コンピューターは、前記言語モデル及び前記テキストを記憶する記憶部を有し、
前記テキストは、当該テキストの表記文字である表記情報と、当該テキストの読み方である読み情報と、を有し、
前記言語モデルは、複数の単語が登録される単語辞書と、各単語の連鎖確率である言語スコアとを有し、
前記単語辞書は、各単語の読み方である単語読み情報と、当該単語の各表記文字である単語表記情報とを有し、
前記コンピューターは、
前記言語モデルを用いて、前記テキストの読み情報を単語単位に分割する第一単語分割ステップと、
前記第一単語分割手段により分割された単語と、前記テキストの前記表記情報とを照合して、前記テキストから単語を分割する第二単語分割ステップと、
を実施することを特徴とする単語分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012107095A JP5611270B2 (ja) | 2012-05-08 | 2012-05-08 | 単語分割装置、及び単語分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012107095A JP5611270B2 (ja) | 2012-05-08 | 2012-05-08 | 単語分割装置、及び単語分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013235117A true JP2013235117A (ja) | 2013-11-21 |
JP5611270B2 JP5611270B2 (ja) | 2014-10-22 |
Family
ID=49761291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012107095A Expired - Fee Related JP5611270B2 (ja) | 2012-05-08 | 2012-05-08 | 単語分割装置、及び単語分割方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5611270B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018527609A (ja) * | 2015-07-23 | 2018-09-20 | アリババ グループ ホウルディング リミテッド | ユーザ声紋モデルを構築するための方法、装置、及びシステム |
US10600407B2 (en) | 2016-07-20 | 2020-03-24 | Kabushiki Kaisha Toshiba | Generation device, recognition system, and generation method for generating finite state transducer |
CN111241810A (zh) * | 2020-01-16 | 2020-06-05 | 百度在线网络技术(北京)有限公司 | 标点预测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005538428A (ja) * | 2001-09-25 | 2005-12-15 | アプル・コンピュータ・インコーポレーテッド | 日本語仮想辞書 |
JP2009258293A (ja) * | 2008-04-15 | 2009-11-05 | Mitsubishi Electric Corp | 音声認識語彙辞書作成装置 |
-
2012
- 2012-05-08 JP JP2012107095A patent/JP5611270B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005538428A (ja) * | 2001-09-25 | 2005-12-15 | アプル・コンピュータ・インコーポレーテッド | 日本語仮想辞書 |
JP2009258293A (ja) * | 2008-04-15 | 2009-11-05 | Mitsubishi Electric Corp | 音声認識語彙辞書作成装置 |
Non-Patent Citations (4)
Title |
---|
CSNG200100214011; 森 信介: '確率的モデルによる仮名漢字変換' 情報処理学会論文誌 Vol.40, No.7, 19990715, pp2946-2953, 社団法人情報処理学会 * |
CSNG200501034023; 森 信介 Shinsuke Mori: '生コーパスからの単語N-gram確率の推定 Word N-gram Probability Estimation from a Raw Corpus' 情報処理学会研究報告 Vol.2004 No.73 IPSJ SIG Technical Reports 第2004巻, pp.183-190, 社団法人情報処理学会 Information Processing Socie * |
JPN6014003246; 森 信介 Shinsuke Mori: '生コーパスからの単語N-gram確率の推定 Word N-gram Probability Estimation from a Raw Corpus' 情報処理学会研究報告 Vol.2004 No.73 IPSJ SIG Technical Reports 第2004巻, pp.183-190, 社団法人情報処理学会 Information Processing Socie * |
JPN6014016770; 森 信介: '確率的モデルによる仮名漢字変換' 情報処理学会論文誌 Vol.40, No.7, 19990715, pp2946-2953, 社団法人情報処理学会 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018527609A (ja) * | 2015-07-23 | 2018-09-20 | アリババ グループ ホウルディング リミテッド | ユーザ声紋モデルを構築するための方法、装置、及びシステム |
US11043223B2 (en) | 2015-07-23 | 2021-06-22 | Advanced New Technologies Co., Ltd. | Voiceprint recognition model construction |
US10600407B2 (en) | 2016-07-20 | 2020-03-24 | Kabushiki Kaisha Toshiba | Generation device, recognition system, and generation method for generating finite state transducer |
CN111241810A (zh) * | 2020-01-16 | 2020-06-05 | 百度在线网络技术(北京)有限公司 | 标点预测方法及装置 |
CN111241810B (zh) * | 2020-01-16 | 2023-08-01 | 百度在线网络技术(北京)有限公司 | 标点预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5611270B2 (ja) | 2014-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8954333B2 (en) | Apparatus, method, and computer program product for processing input speech | |
JP5040909B2 (ja) | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US7873508B2 (en) | Apparatus, method, and computer program product for supporting communication through translation between languages | |
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
JP6245846B2 (ja) | 音声認識における読み精度を改善するシステム、方法、およびプログラム | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
US8583417B2 (en) | Translation device and computer program product | |
JP5073024B2 (ja) | 音声対話装置 | |
JP2008243080A (ja) | 音声を翻訳する装置、方法およびプログラム | |
JP5611270B2 (ja) | 単語分割装置、及び単語分割方法 | |
JP5243325B2 (ja) | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム | |
JP2004271895A (ja) | 複数言語音声認識システムおよび発音学習システム | |
JP6998017B2 (ja) | 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
JP5474723B2 (ja) | 音声認識装置およびその制御プログラム | |
JP2007086404A (ja) | 音声合成装置 | |
Rajendran et al. | Text processing for developing unrestricted Tamil text to speech synthesis system | |
JP2006343405A (ja) | 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体 | |
JP2013250379A (ja) | 音声認識装置、音声認識方法およびプログラム | |
US20220138420A1 (en) | Difference extraction device, method and program | |
JP2004206659A (ja) | 読み情報決定方法及び装置及びプログラム | |
JP2005292346A (ja) | 音声認識用棄却辞書生成システム、音声認識用棄却語彙生成方法及び音声認識用棄却語彙生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140128 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140430 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140606 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20140630 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140826 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140902 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5611270 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |