JP2014219569A - 辞書作成装置、及び辞書作成プログラム - Google Patents
辞書作成装置、及び辞書作成プログラム Download PDFInfo
- Publication number
- JP2014219569A JP2014219569A JP2013098856A JP2013098856A JP2014219569A JP 2014219569 A JP2014219569 A JP 2014219569A JP 2013098856 A JP2013098856 A JP 2013098856A JP 2013098856 A JP2013098856 A JP 2013098856A JP 2014219569 A JP2014219569 A JP 2014219569A
- Authority
- JP
- Japan
- Prior art keywords
- word
- compound word
- dictionary
- compound
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 150000001875 compounds Chemical class 0.000 claims abstract description 203
- 230000006870 function Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 abstract description 43
- 238000000034 method Methods 0.000 description 26
- 238000012545 processing Methods 0.000 description 23
- 238000013500 data storage Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Probability & Statistics with Applications (AREA)
Abstract
Description
[1]複合語を構成する単語組の頻度(出現頻度)による基準
[2]複合語を構成する前後でのエントロピーの差による基準
ここで、エントロピーとは、所与の言語モデルから計算される単語列の複雑さを示す指標、または、音声認識の難しさを示す指標である。エントロピーが高いほど、単語列の複雑さが増し、当該言語モデルによる音声認識が難しくなる。
〔2〕高頻度上位M個の単語2つ組を複合語候補として選択する。
〔3〕単語2つ組(複合語候補)を複合語とみなしたときのエントロピーと、複合語とみなさなかったときのエントロピーとを計算する。
手順〔3〕では、例えば、単語2つ組wa,wbとその前後の単語w1,w2とを考慮した、学習データ中に存在する単語4つ組(w1,wa,wb,w2)を考える。この単語4つ組に対するエントロピーH1は、以下の(式3)により求められる。
最初に本発明の概要を説明する。従来法では、テキストデータを用い、複合語を作成する前後におけるテキストコーパスの変化を求め、この変化に基づいて(この変化を基準として)辞書に登録する複合語を決定していた。
まず、以下で用いる用語の記載方針について説明する。一般的に行列や集合等は太字で示すことになっており、数式中では行列や集合等を太字で表している。しかしながら、明細書において太字で表わすことができない部分については太字ではない通常の文字を用いて代用する。また、明細書において表すことのできない特定の記号については、括弧書きで記号の名称を記載している。
ベイズの定理によれば、音声入力xが与えられたとき、音響的かつ言語的に尤もらしい単語列w(ハット)は、以下の(式9)により求めることができる。
ベイズの定理における仮説wの事後確率は、以下の(式12)により計算される。
以上で、本発明の概要についての説明を終了する。
以下、本発明の実施するための形態を、適宜図面を参照しながら詳細に説明する。
各図は、本発明を十分に理解できる程度に、概略的に示してあるに過ぎない。よって、本発明は、図示例のみに限定されるものではない。なお、各図において、共通する構成要素や同様な構成要素については、同一の符号を付し、それらの重複する説明を省略する。
図1は、本発明の実施形態に係る辞書作成装置100の構成を示す機能ブロック図である。辞書作成装置100は、言語モデル学習データ記憶部11と、語彙・言語モデル記憶部12と、音響モデル記憶部13と、音声言語資源記憶部14と、音声認識部21と、正解単語列整列部22と、整列部23と、複合語頻度計数部24と、エントロピー計算部25と、複合語選択部26と、言語モデル更新部27とを備える。
言語モデル学習データ記憶部11は、音声認識に用いられる言語モデルを作成するための学習データが記憶される。学習データは、ニュース原稿あるいはニュース書き起こしなどのテキストデータを事前に形態素解析により形態素(自立語や付属語などの単語)単位に分割し、また、係り受け解析により文節区切りを付与したものである。ここで、形態素とは、これ以上に細かくすると意味がなくなってしまう最小の文字列をいい、形態素解析とは、文章を形態素のレベルまで分解して解析することである。また、係り受け解析とは、文章を文節に区切ると共に、ある文節に含まれる着目している単語が、他の文節に含まれる単語にどのように係るかを、品詞毎に予め定められた可能性に基づいて解析することである。例えば、日本語の「今日の天気は晴れです」という文章に対して単語区切りと文節区切りとが付与されたテキストデータでは、「(今日/の/)(天気/は/)(晴れ/です)」等のように区切られている。なお、記号( )は文節区切りを示し、記号/は、単語区切りを示している。
語彙・言語モデル記憶部12は、言語モデル(統計的言語モデル)を作成するための辞書(語彙)、及び統計的言語モデルが記憶される。
辞書(語彙)は、単語(日本語ならば、自立語、付属語)を基礎としているが、音声認識における単語認識率を向上させるために2つ以上の連続した単語列(複合語)を含んで構成される。統計的言語モデルは、大量の音声データを利用して統計的計算手法によって求められた、音声中の単語間のつながり度合いを示す確率モデルの一種(接続確率)である。
なお、詳細は後記する選択された複合語の更新前の状態の語彙・言語モデル記憶部を符号12aで表し、複合語の更新後の語彙・言語モデル記憶部を符号12bで表す場合がある。
音響モデル記憶部13は、音響モデル(統計的音響モデル)が記憶される。
統計的音響モデルは、大量の音声の波形パターンに基づいて求められた、音声中の波形パターンと単語との関係を示す確率モデルの一種である。
音声言語資源記憶部14には、放送などの音声(音声信号や音声信号を符号化した音声データを含む)とこの音声に付随する正解単語列とが蓄積されている。音声は、所定期間を一つの単位(例えば、番組単位やコーナー単位)としており、複数(例えば、1万個)の発話で構成されている。正解単語列は、音声を文字化したものであり、例えば、音声を書き起こしたものや、事前に音声認識したものに単語の挿入、置換、脱落等の誤り修正を行ったものであってよい。その為、正解単語列は、音声に対して誤りを含まないものである。なお、音声言語資源記憶部14には、音声及びこの音声に付随する正解単語列が、例えばN個蓄積されている。また、人手による誤り修正機能を備えた音声認識に基づく字幕作成装置から得られる音声および正解単語列を逐次記憶部に蓄積することも可能である。
音声認識部21には、音声言語資源記憶部14に蓄積される音声が入力される。音声認識部21は、語彙・言語モデル記憶部12に記憶される語彙、言語モデル及び音響モデル記憶部13に記憶される音響モデルを用いて、音声言語資源記憶部14に蓄積される音声を音声認識し、音声認識結果である複数の正解候補単語列を生成する。
正解候補単語列とは、入力された音声に対して尤もらしい単語列であり、音声に対して音声認識の誤りを含む可能性のある単語列である。具体的には、音声認識部21は、一つの発話に対しておおむね100〜500個程度の正解候補の単語を生成する。これにより、例えば、音声が1万個の発話で構成されていた場合に、1万個×100〜500個=100万〜500万個程度の音声認識結果である正解候補単語列が生成される。
また、音声認識部21は、正解候補単語列を構成する単語の発話時刻に合わせて正解候補単語列を整列する。この際、音声認識部21は、この正解候補単語列に対して、言語モデルによる言語スコアと音響モデルによる音響スコアとを付加する。なお、生成された正解候補単語列の中に正解単語列が含まれていてもよい。音声認識部21は、生成した正解候補単語列を整列部23に出力する。
正解単語列整列部22には、音声言語資源記憶部14に蓄積される音声とこの音声の正解単語列とが入力される。正解単語列整列部22は、音声及び正解単語列と語彙・言語モデル記憶部12に記憶される言語モデル及び音響モデル記憶部13に記憶される音響モデルとを用いて、正解単語列を構成する単語の発話時刻に合わせて正解単語列を整列する。この際、正解単語列整列部22は、整列後の正解単語列に対して、言語モデルによる言語スコアと音響モデルによる音響スコアとを付加する。これにより、整列後の正解単語列には、何分何秒に何という単語が話されたかという情報と、音声認識部21が言語モデル及び音響モデルを用いて正解の単語列を音声認識した場合の言語スコア及び音響スコアとが付加される。正解単語列整列部22は、整列した正解単語列を整列部23に出力する。
整列部23には、音声認識部21で生成された正解候補単語列と正解単語列整列部22で発話時刻に合わせて整列された正解単語列とが統合されて単語列集合として入力される。以降では、単語列集合は、辞書(語彙)に登録する複合語を作成するための基準の計算(エントロピー計算)に用いられる。
整列部23は、語彙・言語モデル記憶部12bに記憶される複合語を含む新たな辞書(語彙)で学習された言語モデルと音響モデル記憶部13に記憶される音響モデルとで単語列集合の各単語列を単語の発話時刻に合わせて整列する。この際、整列部23は、整列された単語列の各単語に対して、音響モデルによる音響スコア、及び言語モデルによる言語スコアをそれぞれ付加する。なお、初期状態では、複合語が得られていないため、語彙・言語モデル記憶部12aに記憶される言語モデルと語彙・言語モデル記憶部12bに記憶される言語モデルとは同一である。したがって、初期状態では、前段の音声認識部21および正解単語列整列部22において、すでに整列済みであるため、整列部23では整列を行わない。整列部23は、整列を行った単語列集合を複合語頻度計数部24に出力する。
複合語頻度計数部24には、整列部23で整列された単語列集合が入力される。複合語頻度計数部24は、単語列集合に含まれる特定の単語2つ組の頻度を計数する。また、複合語頻度計数部24は、計数後、特定の単語2つ組を頻度の降順に並べ、上位となる高頻度M個の単語2つ組を複合語候補として算出する。複合語頻度計数部24は、単語列集合及び算出した上位となる高頻度M個の複合語候補をエントロピー計算部25に出力する。
エントロピー計算部25には、単語列集合及び複合語頻度計数部24で算出された高頻度M個の複合語候補が入力される。エントロピー計算部25は、単語列集合及び高頻度M個の複合語候補を用いて、複合語を作成する前後のエントロピーをそれぞれ計算し、エントロピーの変化を求める。ここで、エントロピーとは、前記した通り、所与の言語モデルから計算される単語列の複雑さを示す指標、または、音声認識の難しさを示す指標であり、エントロピーが高いほど、単語列の複雑さが増し、当該言語モデルによる音声認識が難しくなる。エントロピー計算部25の処理の詳細は後記する処理手順で説明する。エントロピー計算部25は、計算したエントロピーの変化を複合語選択部26に出力する。
複合語選択部26には、エントロピー計算部25が計算したエントロピーの変化が入力される。複合語選択部26は、前段のエントロピー計算部25の結果を受けて、M個の複合語候補の中から、エントロピーの変化が最も大きくなる候補(複合語を作成した後のエントロピーが複合語を作成する前のエントロピーに比べて最も減少する複合語候補)を複合語として選択する。複合語選択部26は、選択した複合語を言語モデル更新部27に出力する。
言語モデル更新部27(辞書登録部)には、複合語選択部26から選択した複合語が入力される。言語モデル更新部27は、前段で得られた複合語を新たに語彙・言語モデル記憶部12の辞書(語彙)に追加し、言語モデルの学習に用いた言語モデル学習データを用いて言語モデルを再学習し、語彙・言語モデル記憶部12の言語モデルを更新する。言語モデル更新部27の処理の詳細は後記する処理手順で説明する。言語モデル更新部27は、言語モデルを再学習したことを整列部23に出力する。
以上で、実施形態に係る辞書作成装置100の構成についての説明を終了する。
以下では、実施形態に係る辞書作成装置100の主要部(エントロピー計算部25、及び言語モデル更新部27)の処理手順について説明する。
図2を参照して、エントロピー計算部25の処理手順について説明する。
いま、N個の音声が与えられたとする。n番目の音声xn(n=1,・・・,N)に対して、単語列集合(正解単語列wn,0∈Wnおよび音声認識結果である複数の正解候補単語列wn,l∈Wn(l=1,・・・))が得られたとする。なお、正解単語列wn,0及び正解候補単語列wn,lについての(1)言語モデルによる言語スコアflm(wn,l)、ならびに(2)音響モデルによる音響スコアfam(wn,l|xn)は、すでに前段(音声認識部21や正解単語列整列部22)で計算済みであり、各々の単語列の各単語に付加されている。また、複合語頻度計数部24で算出された高頻度M個の複合語候補が得られたとする。
エントロピー計算部25は、第m番目(最初は高頻度1番目)の複合語候補に対して、複合語を作成する前後での言語スコアの変更分をあらかじめ計算しておく(ステップS20)。スコアの変更分は、複合語を構成する語wa,wbおよび複合語候補wcに関わる部分のみにおける計算である。ステップS20の言語スコア計算を詳細化したフローチャートを図3に示す。
エントロピー計算部25は、第m番目の複合語候補を複合語として構成することにより変更となる単語列の頻度を、言語モデル学習データ記憶部11に記憶された学習データから算出する(ステップS21)。具体的には、以下に示す(1)〜(6)の頻度を求める。
(1)複合語となる単語2つ組(wa,wb)の頻度C(wa,wb)
(2)waの左側(前方)に接続する単語w1∈{V}との2つ組(w1,wa)の頻度C(w1,wa)
(3)waの右側(後方)に接続する単語w2∈{V}との2つ組(wa,w2)の頻度C(wa,w2)
(4)(wa,wb)の左側(前方)に接続する単語w1との3つ組(w1,wa,wb)の頻度C(w1,wa,wb)
(5)wbの右側(後方)に接続する単語w2∈{V}との2つ組(wb,w2)の頻度C(wb,w2)
(6)(wa,wb)の右側(後方)に接続する単語w2との3つ組(wa,wb,w2)の頻度C(wa,wb,w2)
エントロピー計算部25は、第n番目(最初は第1番目)の音声に対して、単語2つ組を複合語にする前と複合語にした後との言語スコアの差分を計算する(ステップS40)。本実施形態では、言語モデルとしてバイグラムを使っており、単語2つ組(wa,wb),複合語候補wcとする。
複合語wcを作成する前後における言語モデルの言語スコアの差分は、以下の(式22)となる。
図4を参照して、言語モデル更新部27の処理手順について説明する。
最初に、言語モデル更新部27は、語彙・言語モデル記憶部12に記憶される元の語彙{V}に、複合語選択部26が選択した複合語wcを加え({V}←{V}∪{wc}))語彙を更新する(ステップS110)。
以上で、実施形態に係る辞書作成装置100の処理手順についての説明を終了する。
以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。
12 語彙・言語モデル記憶部(記憶部)
13 音響モデル記憶部(記憶部)
14 音声言語資源記憶部
15 言語スコアテーブル記憶部
21 音声認識部(音声認識手段)
22 正解単語列整列部(正解単語列整列手段)
23 整列部(整列手段)
24 複合語頻度計数部(複合語頻度計数手段)
25 エントロピー計算部(エントロピー計算手段)
26 複合語選択部(複合語選択手段)
27 言語モデル更新部(辞書登録部(辞書登録手段))
100 辞書作成装置
Claims (4)
- 音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置であって、
音声とその音声を誤りなく文字化した正解単語列とが蓄積された音声言語資源記憶部と、
前記辞書、前記音声中の単語間のつながり度合いを示す統計的言語モデル、および前記音声中の単語と波形パターンとの関係を示す統計的音響モデルが記憶された記憶部と、
前記統計的言語モデルおよび前記統計的音響モデルを用いて前記音声を音声認識し、前記音声の正解候補の単語列を示す正解候補単語列を生成する音声認識部と、
前記正解単語列および前記正解候補単語列を発話時刻に合わせて整列する整列部と、
前記正解単語列および前記正解候補単語列に含まれる単語2つ組それぞれの頻度を計数し、前記計数した頻度の高さに応じて前記単語2つ組を前記辞書に登録する複合語の複数の複合語候補として抽出する複合語頻度計数部と、
前記複合語頻度計数部が抽出した複数の前記複合語候補を用いて、各々の複合語候補を前記複合語とした場合における前記音声の音声認識の難しさを示す指標であり、値が高い程に音声認識が難しいことを示すエントロピーを計算するエントロピー計算部と、
各々の複合語候補を前記複合語とした場合の前記エントロピーを最も減少させる複合語候補を選択する複合語選択部と、
前記複合語選択部が選択した複合語候補を前記辞書の新たな語彙として登録する辞書登録部と、
を備えることを特徴とする辞書作成装置。 - 前記エントロピー計算部は、
前記統計的言語モデルにより得られる言語スコアと前記統計的音響モデルにより得られる音響スコアとを用いて前記エントロピーを計算する、
ことを特徴とする請求項1に記載の辞書作成装置。 - 前記音声言語資源記憶部は、放送音声およびその正解単語列を逐次的に蓄積し、
前記辞書登録部は、複合語を新たな語彙として漸次登録する、
ことを特徴とする請求項1または請求項2に記載の辞書作成装置。 - 音声認識に用いる複合語を新たな語彙として辞書に登録する辞書作成装置としてコンピュータを機能させる辞書作成プログラムであって、
前記コンピュータは、
音声とその音声を誤りなく文字化した正解単語列とが蓄積された音声言語資源記憶部と、前記辞書、前記音声中の単語間のつながり度合いを示す統計的言語モデル、および前記音声中の単語と波形パターンとの関係を示す統計的音響モデルが記憶された記憶部とを有し、
前記コンピュータを、
前記統計的言語モデルおよび前記統計的音響モデルを用いて前記音声を音声認識し、前記音声の正解候補の単語列を示す正解候補単語列を生成する音声認識手段と、
前記正解単語列および前記正解候補単語列を発話時刻に合わせて整列する整列手段と、
前記正解単語列および前記正解候補単語列に含まれる単語2つ組それぞれの頻度を計数し、前記計数した頻度の高さに応じて前記単語2つ組を前記辞書に登録する複合語の複数の複合語候補として抽出する複合語頻度計数手段と、
抽出した複数の前記複合語候補を用いて、各々の複合語候補を前記複合語とした場合における前記音声の音声認識の難しさを示す指標であり、値が高い程に音声認識が難しいことを示すエントロピーを計算するエントロピー計算手段と、
各々の複合語候補を前記複合語とした場合の前記エントロピーを最も減少させる複合語候補を選択する複合語選択手段と、
前記選択した複合語候補を前記辞書の新たな語彙として登録する辞書登録手段として機能させるための辞書作成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013098856A JP6276516B2 (ja) | 2013-05-08 | 2013-05-08 | 辞書作成装置、及び辞書作成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013098856A JP6276516B2 (ja) | 2013-05-08 | 2013-05-08 | 辞書作成装置、及び辞書作成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014219569A true JP2014219569A (ja) | 2014-11-20 |
JP6276516B2 JP6276516B2 (ja) | 2018-02-07 |
Family
ID=51938042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013098856A Active JP6276516B2 (ja) | 2013-05-08 | 2013-05-08 | 辞書作成装置、及び辞書作成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6276516B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134767A (zh) * | 2019-05-10 | 2019-08-16 | 云知声(上海)智能科技有限公司 | 一种词汇表的筛选方法 |
WO2021024613A1 (ja) * | 2019-08-06 | 2021-02-11 | 株式会社Nttドコモ | 単語重み計算システム |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6385579B1 (en) * | 1999-04-29 | 2002-05-07 | International Business Machines Corporation | Methods and apparatus for forming compound words for use in a continuous speech recognition system |
JP2007171724A (ja) * | 2005-12-26 | 2007-07-05 | Nippon Hoso Kyokai <Nhk> | 辞書作成装置および辞書作成プログラム |
JP2008064815A (ja) * | 2006-09-05 | 2008-03-21 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
JP2008176202A (ja) * | 2007-01-22 | 2008-07-31 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
JP2009271465A (ja) * | 2008-05-12 | 2009-11-19 | Nippon Telegr & Teleph Corp <Ntt> | 単語追加装置、単語追加方法、そのプログラム |
JP2011154061A (ja) * | 2010-01-26 | 2011-08-11 | Nec Corp | 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法 |
JP2011164175A (ja) * | 2010-02-05 | 2011-08-25 | Nippon Hoso Kyokai <Nhk> | 言語モデル生成装置、そのプログラムおよび音声認識システム |
-
2013
- 2013-05-08 JP JP2013098856A patent/JP6276516B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6385579B1 (en) * | 1999-04-29 | 2002-05-07 | International Business Machines Corporation | Methods and apparatus for forming compound words for use in a continuous speech recognition system |
JP2007171724A (ja) * | 2005-12-26 | 2007-07-05 | Nippon Hoso Kyokai <Nhk> | 辞書作成装置および辞書作成プログラム |
JP2008064815A (ja) * | 2006-09-05 | 2008-03-21 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
JP2008176202A (ja) * | 2007-01-22 | 2008-07-31 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
JP2009271465A (ja) * | 2008-05-12 | 2009-11-19 | Nippon Telegr & Teleph Corp <Ntt> | 単語追加装置、単語追加方法、そのプログラム |
JP2011154061A (ja) * | 2010-01-26 | 2011-08-11 | Nec Corp | 辞書作成装置、そのコンピュータプログラムおよびデータ処理方法 |
JP2011164175A (ja) * | 2010-02-05 | 2011-08-25 | Nippon Hoso Kyokai <Nhk> | 言語モデル生成装置、そのプログラムおよび音声認識システム |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134767A (zh) * | 2019-05-10 | 2019-08-16 | 云知声(上海)智能科技有限公司 | 一种词汇表的筛选方法 |
CN110134767B (zh) * | 2019-05-10 | 2021-07-23 | 云知声(上海)智能科技有限公司 | 一种词汇表的筛选方法 |
WO2021024613A1 (ja) * | 2019-08-06 | 2021-02-11 | 株式会社Nttドコモ | 単語重み計算システム |
JP7512288B2 (ja) | 2019-08-06 | 2024-07-08 | 株式会社Nttドコモ | 単語重み計算システム |
Also Published As
Publication number | Publication date |
---|---|
JP6276516B2 (ja) | 2018-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Collobert et al. | Wav2letter: an end-to-end convnet-based speech recognition system | |
Mangu et al. | Finding consensus in speech recognition: word error minimization and other applications of confusion networks | |
US9672817B2 (en) | Method and apparatus for optimizing a speech recognition result | |
Schuster et al. | Japanese and korean voice search | |
US8185376B2 (en) | Identifying language origin of words | |
KR102375115B1 (ko) | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 | |
US8126714B2 (en) | Voice search device | |
JP4968036B2 (ja) | 韻律語グルーピング方法及び装置 | |
US10360904B2 (en) | Methods and apparatus for speech recognition using a garbage model | |
Chen et al. | Lightly supervised and data-driven approaches to mandarin broadcast news transcription | |
JP2001092496A (ja) | 連続音声認識装置および記録媒体 | |
KR20230156125A (ko) | 룩업 테이블 순환 언어 모델 | |
Tejedor et al. | Novel methods for query selection and query combination in query-by-example spoken term detection | |
JP4758758B2 (ja) | 辞書作成装置および辞書作成プログラム | |
JP4764203B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP6276516B2 (ja) | 辞書作成装置、及び辞書作成プログラム | |
Kou et al. | Fix it where it fails: Pronunciation learning by mining error corrections from speech logs | |
Hwang et al. | Building a highly accurate Mandarin speech recognizer | |
AbuZeina et al. | Cross-word modeling for Arabic speech recognition | |
JP5124012B2 (ja) | 音声認識装置及び音声認識プログラム | |
US6772116B2 (en) | Method of decoding telegraphic speech | |
Fu et al. | Automatic speech recognition based on non-uniform error criteria | |
Zitouni et al. | Statistical language modeling based on variable-length sequences | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP2002082690A (ja) | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160330 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170523 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6276516 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |