JP5703491B2 - 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 - Google Patents
言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 Download PDFInfo
- Publication number
- JP5703491B2 JP5703491B2 JP2010014372A JP2010014372A JP5703491B2 JP 5703491 B2 JP5703491 B2 JP 5703491B2 JP 2010014372 A JP2010014372 A JP 2010014372A JP 2010014372 A JP2010014372 A JP 2010014372A JP 5703491 B2 JP5703491 B2 JP 5703491B2
- Authority
- JP
- Japan
- Prior art keywords
- language model
- word
- speech recognition
- information processing
- garbage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims description 38
- 230000000877 morphologic effect Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000000034 method Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 11
- 230000007257 malfunction Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Description
装置を動作させるために必要な発話か否かを判定する方法として,多くの手法が提案されている。例えば,音声認識精度自体を改善することで誤認識を少なくし(公開論文が多数存在している)、認識結果に基づく判別を行う方法,音声認識結果に信頼度(スコア)を導入し信頼性が低いときは結果を棄却する試み(非特許文献1)、ドメイン外発話検出(非特許文献2)等、多くの手法が公開されている。
音声認識自体の精度を改善する試みは,音声認識が良くなれば,装置を動作させる必要のない発話を正しく音声認識し文字化できるようになるため,その文字化された認識結果を処理することで,無関係発話か否かの判別が可能になる。
認識結果の信頼度を利用する方法では,各種装置で利用されている音声認識システムが,装置を操作するための発話と関係のない発話をうまく音声認識できないという特徴を利用する。うまく音声認識できないというのは,音声認識システムが保持しているモデルと音声から抽出した特徴量とのマッチングが上手くいかずに,マッチングのスコア(信頼度)が低下してしまうということである。音声認識結果の信頼度が低い場合に,無関係発話と判定できる。
ドメイン外発話検出は,本発明で提案する手法と最も類似した手法である。例えば,非特許文献2の方法では,入力された発話の音声認識結果を話題分類し,想定外発話のトピックに分類されたときに,無関係発話と判定することができる。
しかし,これらの手法の多くは,音声認識システムの出力結果を利用しているため,音声認識システムの音声認識性能に大きく依存する。すなわち,音声認識システム内のデコーダ処理アルゴリズムや音響モデル,言語モデル(と音声認識辞書)の精度に大きく依存する手法である。モデルの精度が高くないと,音声認識結果に付与される信頼度も信頼性が低い。結局は,高い精度で想定しない発話を判定するためには,音声認識システムが保持している音響モデルや言語モデルを精度良いものにしなくてはならない。
音響モデルは,a,i,u,e,o等の音韻情報をモデル化したもので,最近は統計的手法により隠れマルコフモデル(HMM)でモデル化されるのが一般的である。精度の高い音響モデルを学習する方法は多くの文献で提案されているため,音響モデルの学習方法は本発明の対象外とする。
言語モデルは,N-gramによって統計的な単語のN個つながりを学習するのが一般的となっている(例えば,「学校へ行く」という文章からできるモデルは,P(へ|学校),P(行く|へ)である)。しかしながら,N個の単語のつながりを学習するためには,大量のテキスト文章データが必要となり,このテキスト文章データを情報処理装置のタスクに併せて作成するのに膨大な時間と労力が必要である。これを解決するために,クラス言語モデル(単語を品詞などのカテゴリーに分類し,カテゴリーのN個つながりでモデルを持つこと)が提案されているが,それでも大量のテキスト文章データから学習した単語N-gramに比べると音声認識の性能が低下する。
また,音声対話システムなどでは,統計的N-gramモデルではなく,発話のパターンやルールを考慮した文法モデルによりモデル化された言語モデルが使われることが多い。文法モデルにおいても,モデル化された発話パターン以外の発話がなされたとき,学習されているパターンのいずれかに無理やり当てはめられるため,誤認識を起こしてしまう。
以上のことから,一般的な言語モデルを用いていては,情報処理装置が想定しない発話が入力されたとき,それを正しく棄却することが難しい。
(1)音声認識のための情報処理装置に入力された発話が情報処理装置の想定しない発話であると自動的に識別するための音声認識手段において言語モデル学習手段と
音声認識辞書作成手段と想定しない不必要な単語作成手段から構成されることを特徴とする言語モデル・音声認識辞書作成方法である。
(2)前記言語モデル学習手段が,統計的な単語N-gramまたはクラスN-gram言語モデル,もしくはパターン・ルールに基づく文法モデルを学習するために,言語モデル学習用文章データを加工し,想定しない発話パターンと想定する発話パターンの双方を同時に学習することを特徴とする。
(3)前記想定しない不必要な単語作成手段が,想定しない単語のリストを作成するために,想定しない不必要な単語作成データから想定しない単語のリストを作成し,かつ,自動的に想定しない単語リストを無から生成することで想定しない単語リストを作成することを特徴とする。
(4)前記音声認識辞書作成手段が,単語の読み方(発音)表記リスト(音声認識辞書)を,言語モデル学習用の文章データと前記想定しない不必要な単語作成手段の出力結果から作成することを特徴とする。
(5)前記言語モデル学習手段および前記音声認識辞書作成手段では、不要語に対し、不必要な単語である表示が付与され、出力結果には不要語が入力されたことを認識することができることを特徴とする。
(6)情報処理装置に対して不要語が入力されたとき,出力結果には単語列に不要語である旨が表示され,情報処理装置にとって想定しない発話であったと判定することを特徴とする。
(7)前記言語モデル学習手段が,情報処理方法が想定しない発話が入力されたときに想定しない発話として音声認識できるような統計的N-gramモデルあるいは文法モデルを学習するために,想定しない単語クラス集合を,言語モデル学習用文章に混合する想定しない不必要な単語クラス混合部を持つことを特徴とする。
(8)前記想定しない不必要な単語作成手段が,想定しない不必要な単語作成データ,もしくは無から自動的に作成した不要語候補リストの中から単語情報および言語モデル学習用文章データに基づいて想定しない不必要な単語リストを作成することを特徴とする。
(9)前記想定しない不必要な単語作成手段が,任意の平仮名N個組み合わせにより,無の状態から不要語候補リストを作成するための想定しない不必要な単語自動生成部を持つことを特徴とする請求項1に記載の言語モデル・音声認識辞書作成装置。
(10)音声認識のための情報処理装置において,前記言語モデル学習手段と
前記音声認識辞書作成手段と前記想定しない不必要な単語作成手段から構成された音声認識結果を出力することを特徴とする。
なお,ほとんどの音声認識システムを組み込んだ装置では,図1のような形態が取られている。音声認識結果を処理することになるため,音声認識が誤ったときには,ユーザへの誤ったアクションが行われることになる。
図3は,言語モデル学習装置の処理の流れである。まず,言語モデル学習用文章データ14(これは音声認識システムを利用した各種装置に応じて開発者等が用意しておく)を形態素解析部18で形態素解析し,文章を単語に分割する(日本語の場合。英語の場合は,単語の原型を得る)。単語−クラス辞書20(これも開発者等が用意)を利用して,得られた単語をクラス名変換部21でクラスに変換する。ここでいうクラスとは,単語の品詞名やある特定の意味を表すカテゴリーのことであり,各種装置の設計・開発者が任意に定義できる。
例えば,図4は,図3に対して具体的なデータの例を付与した図である。「中華料理」や「寿司」という単語は「<料理ジャンル>」というクラスに属し,「甲府市」は「<地名>」クラスに属する。単語とクラスの対応は,図3,図4中の単語−クラス辞書20に基づいて行われ,クラス名変換部21が,実際に単語列をクラス列に変換する。ここで,音声認識手段を利用した情報処理装置で必要とされるキーワード類を,ここでは有効単語と呼ぶことにする。
クラス列に変換された文章データに,ガベージクラス混合部22においてガベージクラス列24を混合させる。ガベージクラスとは,音声認識システムを持つ各種情報処理装置において,想定しない不必要な単語(これをガベージ単語と呼ぶ,この作成方法は後述)が属するクラスのことである。ユーザが不要な発話をしたときに限って,ガベージクラスとして認識結果を得ることができれば,音声認識結果に不要単語のラベルを付与することが容易にできる。これにより,後の処理で誤ったことを行わずに済む。文章データに,任意のガベージクラス列を追加することで,装置が想定しない発話が入力されたときでも,想定発話が入力されたときでも,両方を正しく認識でするための言語モデルを学習することが可能となる。
なお,スイッチ19を切り替えることで,単語をクラス化しない場合は,単語表記の文章データにたいして同様にガベージクラス列24を混合することで,ガベージクラスを含んだ言語モデル7を学習することが可能である。
ガベージクラス混合部22において,このガベージクラス列24と,言語モデル学習用文章データ14から作成した有効単語のクラス列とを混合する際,混合のやり方は様々な方法があるが,例えば,発明者が開発した音声対話ロボットにおいては,有効単語とガベージ単語をランダムに組み合わせ,有効単語に対するガベージ単語の出現割合を7:3にすると,実験的に最も良い結果が得られることが分かっている。この割合については,各情報処理装置によって異なるため,この割合が最適であるとは言えない。
混合したクラス列から,言語モデル学習部23において言語モデルを学習する。言語モデルの学習方法は,一般的なN-gram法であり,図4に示すように,クラス−クラス間,クラス−単語間の接続確率が学習される。
図5は,ガベージ単語を作成する方法であるガベージ単語作成手段13の処理の流れである。ガベージ単語作成データ15は,新聞データや講義・講演などの書き起こしデータなどの一般的なテキスト文章データの集合である。これを形態素解析部25で形態素解析し,その結果を単語情報取得部26が処理をおこない単語情報を得る。この単語情報と言語モデル学習用文章データ14に基づいて,ガベージ単語とすべき単語の選定を単語選択部27が行い,ガベージ単語リスト28を作成する。単語情報は,例えば単語の出現頻度やエントロピーなどの情報を用いても構わない。本発明では,この単語抽出方法を限定しないこととする。言語モデル学習用データ14を用いるのは,有効単語をガベージ単語リスト28に登録しないようにするためである。
図6は,図5に対して具体的な説明を行うための図である。一般的なテキストコーパス(新聞記事集合や,講演テキストデータの書き起こしで良い)を用いて,例えばコーパスに出現する高頻度単語を選択し,ガベージ単語リストに登録する方法を説明している。ただし,言語モデル学習用文章データ14に出現した単語に関しては,たとえ高頻度単語であっても,ガベージ単語に登録しない。なぜなら,言語モデル学習用文書中の単語は,情報処理装置を正しく動作させるために必要な単語を含んでいるからである。
もし,一般的なテキストコーパスを用意できなくても,ガベージ単語リスト28を作成することができる。図7はその場合のガベージ単語作成方法の枠組みである。ガベージ自動生成部29において,任意のN個の平仮名1文字をランダムに組み合わせた仮想単語を自動生成する。例えば,「あめみ」,「ためふか」などである。必ずしも意味のある単語である必要はない。このNの値を決定する方法は本発明では問わないが,各種実験の結果から例えば任意の3個の音節の組み合わせがガベージ単語としての機能を有効に果たせる。仮想単語の中から有効単語を取り除き,ガベージ単語リストとする。
図8は,認識辞書作成手段11について説明した図である。音声認識辞書8には,音声認識結果として出力されるべき単語のリストを登録する。言語モデル学習用文章データ14を形態素解析部30で形態素解析し,その結果を単語発音取得部31に入力することで,有効単語の読み方(発音)を得ることができる。また,ガベージ単語リスト28の発音情報も単語発音取得部31で取得する。得られた有効単語,ガベージ単語の発音情報を音響モデルと照らし合わせながら発音系列(主に音素もしくは音節列)に変換することで,音声認識辞書8を作成する。ここには,言語モデル7に出現する単語と,言語モデルに出現するクラスに対応する単語,ガベージ単語リストすべての発音表記が登録される。
図9は,図8に対して具体的なデータを付与した例である。言語モデル学習用文章データを形態素解析すると,単語とその発音表記(平仮名もしくはカタカナ系列)を得ることができる。同時に,ガベージ単語リストに登録してある単語の発音表記も取得する。発音辞書生成部では,音響モデルに登録してある音韻モデル表記に照らし合わせながら,発音表記を音韻モデル系列に書き直す。音響モデルでは,例えば,“あ”という音の波形を,“a”という音韻モデルとして学習している。最終的に,認識辞書では,単語とそれに対応する発音の音韻系列が登録されることになる。
本発明の有効性を用いるため,音声認識システムを持つ音声対話ロボットを構築した。人間の発話を,対話ロボットを正しく動作させるために必要な発話(これをドメイン内発話と呼ぶ)と,それ以外の対話ロボットが想定しない発話(これをドメイン外発話と呼ぶ)に分類する実験を行った。ドメイン内,外でそれぞれ200発話を用意した。
本発明により作成した言語モデルと音声認識辞書を用いて,(1)ドメイン外発話をどれだけドメイン外として検出できるか,(2)ドメイン内発話をどれだけドメイン内として検出できるかの2つの観点から有効性を検討した。
ガベージ単語生成データとガベージリストは,「日本語話し言葉コーパス」(一般人に,自分の夢や経験談等について数分程度講演してもらった数百時間の音声とその書きお越しのデータベースである)を利用した。日本語話し言葉コーパスに含まれる高頻度単語(50回以上出現)を約2500単語程度取り出した。この中から対話ロボットで必要な単語を除外し,これをガベージリストとする。
ガベージの学習割合が0のときは,ガベージクラスを一切学習しないということなので,従来のシステムの結果,つまりベースラインとなる。このとき,ドメイン外発話はすべて,ドメイン内と検出されてしまい,このとき対話ロボットが人間の意図しない動作を行う。
しかし,ガベージ割合を増やすことで,ドメイン外発話をきちんと棄却することができ,ドメイン外発話検出精度が改善していることがわかる。ドメイン外発話が検知できれば,対話ロボットは誤動作しない。
一方で,ガベージの学習割合を100%にしてしまうと,ガベージクラスのみしか学習されないため,ドメイン内発話が誤ってすべてドメイン外と認定されてしまい,ロボットが動作をしない。
ドメイン内発話検出精度とドメイン外発話検出精度の折り合いがつく点(つまり,2本のグラフが交差する点)を見ると,最適な学習割合は30%であることが分かる。このとき,ドメイン外発話の約90%を正しく棄却できていることになる。本発明により,無関係発話の検出が簡単にできることが実証された。
一般的なカーナビの場合,図11に示すようにユーザの問いかけに対して,その発話を音声認識し,発話内容を理解し適切な応答を返す。
しかし,図12に示すように,ユーザ同士の対話などで,カーナビと無関係のドメイン外発話が行われたとする。この場合,本発明を利用しなければ,カーナビは音声認識結果を無理やり解釈し,なんらかのアクションをユーザに返す。当然,このアクションはユーザの意図したものではない。
デコーディング部によって得られた候補の単語を用いて,患者データベース検索制御部がデータベース検索を行う。
2 マイクロフォンなどの音声入力手段
3 音声認識手段(音声認識システム)
4 処理手段(情報処理装置1がその機能を果たすための処理を行う部分)
5 出力手段(ディスプレイ表示,合成音声出力,ロボットアームの動作など)
6 音声認識手段により出力された音声認識結果
7 言語モデル(統計的N-gramモデル,文法モデル)
8 音声認識辞書
9 音響モデル(発明対象外)
10 言語モデル学習手段
11 音声認識辞書作成手段
12 音響モデル学習手段
13 ガベージ単語学習手段
14 言語モデル学習用文章データ
15 ガベージ単語作成データ
16 音響モデル学習データ
17 言語モデル・音声認識辞書作成装置
18 言語モデル学習手段における形態素解析部
19 スイッチ(言語モデル学習用の単語をクラス化する場合としない場合で処理が分岐するため)
20 単語とクラスを対応させるための単語−クラス辞書
21 単語にクラス名を付与し,単語列をクラス列に変換するためのクラス名変換部
22 情報処理装置1が想定しない発話を不要発話として正しく音声認識するための不要文モデル化のためのガベージクラス混合部
23 統計的言語モデルあるいは文法モデルを学習するための言語モデル学習部
24 ガベージクラス列
25 ガベージ単語作成部における形態素解析部
26 形態素解析した結果から単語情報を得るための単語情報取得部
27 単語情報からガベージ単語を得るための単語選択部
28 情報処理装置1が不要とする単語の集合であるガベージ単語リスト
29 無から不要語を自動作成するガベージ自動生成部
30 音声認識辞書作成手段11における形態素解析部
31 単語発音取得部
32 発音辞書生成部
Claims (10)
- 言語モデル学習手段と
音声認識辞書作成手段と
ガベージ単語作成手段を備え、
前記言語モデル学習手段は、言語モデル学習用文章データを形態素解析して情報処理装置で必要とされる有効単語を得、一般的なテキスト文章データから得られる単語又は仮想単語から前記有効単語を除いて得られる前記情報処理装置で不必要なガベージ単語が属するガベージクラス列を混合させ、言語モデルを学習することを特徴とする言語モデル・音声認識辞書作成装置。 - 前記言語モデル学習手段は、前記言語モデル学習用文章データの、得られた前記有効単語を、単語の品詞名やある特定の意味を表すカテゴリーであるクラスに置き換えて変換した学習文章を作成した後、前記ガベージ単語が属するガベージクラス列を前記学習文章に混合させることを特徴とする請求項1に記載の言語モデル・音声認識辞書作成装置。
- 前記ガベージ単語作成手段は、一般的なテキスト文章データの集合を形態素分割して得た単語から、前記有効単語を除くことにより、前記ガベージ単語を作成することを特徴とする請求項1又は2のいずれかに記載の言語モデル・音声認識辞書作成装置。
- 前記ガベージ単語作成手段は、任意のN個の平仮名をランダムに組み合わせた仮想単語から、前記有効単語を除くことにより、前記ガベージ単語を作成することを特徴とする請求項1又は2のいずれかに記載の言語モデル・音声認識辞書作成装置。
- 前記音声認識辞書作成手段が、前記有効単語と前記ガベージ単語の発音情報を、音響モデルと照らし合わせることで発音系列に変換し、音声認識辞書を作成することを特徴とする請求項1から4のいずれかに記載の言語モデル・音声認識辞書作成装置。
- 前記請求項1から5のいずれかに記載の言語モデル・音声認識辞書作成装置により作成された言語モデルと音声認識辞書を用いる音声認識手段を有する前記情報処理装置であって、前記ガベージ単語を音声認識したときには前記ガベージ単語であることを認識するラベルを付与することを特徴とする音声認識手段を有する情報処理装置。
- 前記情報処理装置がカーナビゲーションシステムであって、お店や地名の検索に用いられることを特徴とする請求項6に記載の音声認識手段を有する情報処理装置。
- 前記情報処理装置がデータベース検索装置であって、複数の言語モデルと、複数の認識辞書を備え、
データベース検索制御部により選択した言語モデルと認識辞書を用いて、データベース検索用単語候補を出力することを特徴とする請求項6に記載の音声認識手段を有する情報処理装置。 - 前記情報処理装置が、さらにデコーディング部を備え、
前記デコーディング部は、切り出した音声から抽出した特徴量と音響モデルの適合性を判断し、選択された言語モデルと認識辞書を用いてデータベース検索用単語候補を出力することを特徴とする請求項8に記載の音声認識手段を有する情報処理装置。 - 前記情報処理装置が、病院患者データベース検索装置であって、
前記言語モデルと認識辞書は、人名を検索する場合と日時を検索する場合で切り替えることを特徴とする請求項9に記載の音声認識手段を有する情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010014372A JP5703491B2 (ja) | 2010-01-26 | 2010-01-26 | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010014372A JP5703491B2 (ja) | 2010-01-26 | 2010-01-26 | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011154099A JP2011154099A (ja) | 2011-08-11 |
JP5703491B2 true JP5703491B2 (ja) | 2015-04-22 |
Family
ID=44540140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010014372A Expired - Fee Related JP5703491B2 (ja) | 2010-01-26 | 2010-01-26 | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5703491B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103903619B (zh) * | 2012-12-28 | 2016-12-28 | 科大讯飞股份有限公司 | 一种提高语音识别准确率的方法及系统 |
US9697821B2 (en) | 2013-01-29 | 2017-07-04 | Tencent Technology (Shenzhen) Company Limited | Method and system for building a topic specific language model for use in automatic speech recognition |
JP6052814B2 (ja) | 2014-09-24 | 2016-12-27 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体 |
FR3056323B1 (fr) | 2016-09-16 | 2023-01-06 | Toshiba Kk | Systeme de gestion d'informations |
JP6730226B2 (ja) * | 2016-09-16 | 2020-07-29 | 株式会社東芝 | 情報管理システム |
JP2019072787A (ja) | 2017-10-13 | 2019-05-16 | シャープ株式会社 | 制御装置、ロボット、制御方法、および制御プログラム |
JP6969491B2 (ja) * | 2018-05-11 | 2021-11-24 | トヨタ自動車株式会社 | 音声対話システム、音声対話方法及びプログラム |
WO2020039753A1 (ja) * | 2018-08-24 | 2020-02-27 | ソニー株式会社 | マクロのセキュリティリスクの度合いを判定する情報処理装置 |
CN110473524B (zh) * | 2019-08-30 | 2022-03-15 | 思必驰科技股份有限公司 | 语音识别系统的构建方法和装置 |
CN112037770B (zh) * | 2020-08-03 | 2023-12-29 | 北京捷通华声科技股份有限公司 | 发音词典的生成方法、单词语音识别的方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3477751B2 (ja) * | 1993-09-07 | 2003-12-10 | 株式会社デンソー | 連続単語音声認識装置 |
AU2002354201A1 (en) * | 2001-12-17 | 2003-06-30 | Asahi Kasei Kabushiki Kaisha | Speech recognition method, remote controller, information terminal, telephone communication terminal and speech recognizer |
JP2004117771A (ja) * | 2002-09-26 | 2004-04-15 | Toshiba Corp | 音声認識用辞書作成方法、音声認識方法、音声認識用辞書作成装置、音声認識装置、音声認識プログラム及び音声認識システム |
JP4236597B2 (ja) * | 2004-02-16 | 2009-03-11 | シャープ株式会社 | 音声認識装置、音声認識プログラムおよび記録媒体。 |
-
2010
- 2010-01-26 JP JP2010014372A patent/JP5703491B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011154099A (ja) | 2011-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5703491B2 (ja) | 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置 | |
US6681206B1 (en) | Method for generating morphemes | |
US5855000A (en) | Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input | |
US8010361B2 (en) | Method and system for automatically detecting morphemes in a task classification system using lattices | |
JP4791984B2 (ja) | 入力された音声を処理する装置、方法およびプログラム | |
US7421387B2 (en) | Dynamic N-best algorithm to reduce recognition errors | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US7937262B2 (en) | Method, apparatus, and computer program product for machine translation | |
JP5819924B2 (ja) | アジア文字を生成するための認識アーキテクチャ | |
KR101309042B1 (ko) | 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법 | |
JP4680714B2 (ja) | 音声認識装置および音声認識方法 | |
US20080133245A1 (en) | Methods for speech-to-speech translation | |
JP3476007B2 (ja) | 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体 | |
US20070016420A1 (en) | Dictionary lookup for mobile devices using spelling recognition | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
Ablimit et al. | A multilingual language processing tool for Uyghur, Kazak and Kirghiz | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP2010231149A (ja) | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム | |
Sazhok et al. | Punctuation Restoration for Ukrainian Broadcast Speech Recognition System based on Bidirectional Recurrent Neural Network and Word Embeddings. | |
CN1965349A (zh) | 多形式的非歧意性语音识别 | |
KR20050101695A (ko) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 | |
JP2003162524A (ja) | 言語処理装置 | |
Choi et al. | One-Step Error Detection and Correction Approach for Voice Word Processor | |
Alhonen et al. | Mandarin short message dictation on symbian series 60 mobile phones | |
Khalil | Using automatic speech recognition to evaluate Arabic to English transliteration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130125 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130924 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141002 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5703491 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |