JP2000056795A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2000056795A
JP2000056795A JP10219337A JP21933798A JP2000056795A JP 2000056795 A JP2000056795 A JP 2000056795A JP 10219337 A JP10219337 A JP 10219337A JP 21933798 A JP21933798 A JP 21933798A JP 2000056795 A JP2000056795 A JP 2000056795A
Authority
JP
Japan
Prior art keywords
recognition
correction
speech recognition
graph
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10219337A
Other languages
English (en)
Inventor
Takeshi Mizunashi
豪 水梨
Kazuhiko Sumiya
和彦 住谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP10219337A priority Critical patent/JP2000056795A/ja
Publication of JP2000056795A publication Critical patent/JP2000056795A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

(57)【要約】 【課題】 誤った認識結果を効率よく訂正できるように
する。 【解決手段】 ユーザは、表示された音声認識結果に対
して訂正を加えたい場合、認識結果訂正指示部18を用
いて、認識結果中の訂正したい部分を選択する。言語認
識部14は、認識結果とその経路情報をもとに、訂正部
分に対応する部分モーラグラフを特定し、大規模な認識
用辞書および大規模な言語モデルを用いて、その部分モ
ーラグラフを処理し、部分的に再認識を行なう。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字列を音声で入
力する音声認識装置に関し、とくに、誤り訂正も含め
て、正しい文字列を効率よく入力できるようにしたもの
である。
【0002】
【従来の技術】音声認識を用いて、音声によりテキスト
を入力する所謂ディクテーション・システムを実現する
とき、システム全体のパフォーマンスをあげるために
は、入力された音声をテキストに変換する精度、速度の
向上を図るとともに、認識結果が誤っていた場合にそれ
を効率よく訂正できるようにすることが必要である。
【0003】音声認識結果を訂正する方法としては、 特開平9−297595号公報のように、訂正指定部
分に対する第1候補(最初に提示されたもの)に準じて
好ましい認識結果の候補(第二候補以下)を訂正候補と
して提示し、そのうちからユーザに選択させる方法。 カーソルなどを用いて指定した訂正部分を、ユーザに
再度発声させ、その音声を、前認識のために使用した辞
書・言語モデルと同じものを使用して認識し、その結果
を提示する方法。(特開平4−181299号公報にお
いて従来技術として言及されている。) 特開平4−181299号公報のように、訂正したい
部分(誤認識されている部分)を、誤認識されたままの
状態で読み上げることによって、システムがその部分を
検知し、その部分に対する他候補を提示する方法。など
が提案されている。
【0004】
【発明が解決しようとする課題】上記従来法のうちの、
訂正部分の指示や再認識のために音声を用いる方法で
は、再度音声認識処理を行うために訂正処理に時間がか
かるとともに、音声認識の不確かさのために、処理の確
実性の点で問題があった。
【0005】また、誤認識に対して最初の認識の結果と
して得られている他の認識候補を表示して選択させる方
式においても、訂正するときの言語単位が小さいと、訂
正処理の効率が悪い。
【0006】また、認識処理効率を上げるために、辞書
の語彙項目を制限すると、その辞書に登録されていない
語(未知語)に起因する誤認識を訂正することができな
い。
【0007】逆に、未知語に起因する認識エラーをなく
すために、常に、出現頻度の低い語彙項目も含む大規模
な辞書を対象にした探索を行なおうとすると、探索空間
が膨大になり処理時間がかかるという問題がある。
【0008】本発明は、こうした課題に対してなされた
もので、誤り訂正も含めた音声によるテキスト入力効率
に優れた音声認識装置を提供するものである。
【0009】
【課題を解決するための手段】上記の問題を解決するた
めに、本発明は、音声認識結果の一部分あるいは全部に
対し、ユーザが訂正を指示することができ、訂正を指示
された部分に対して認識処理を再実行し、その結果に基
づいて訂正を実行する音声認識装置において、ユーザの
発話に対する音声認識結果を音韻列の候補集合として保
持し、ユーザが訂正区間を表示デバイス上で指示したと
きに、それに対応する音韻列中の区間を特定し、その特
定された音韻列候補に対して探索を行うことにより認識
処理を再実行する。
【0010】これにより、確実に訂正区間を指定できる
とともに、その区間の音韻列候補に対して、計算コスト
が高い音響的評価は実行せずに計算コストが低い言語的
な再評価のみを実行するために、高速に訂正のための認
識処理を実行することができる。
【0011】さらに、訂正のための再認識の際には、通
常用いる認識用辞書と言語モデルよりも大規模な認識用
辞書と言語モデルを用いて認識処理を行う。つまり、通
常の認識時には、出現頻度の高い比較的少数の語彙項目
を含む認識用辞書と言語モデルで高速に認識処理を実行
し、訂正の際には、出現頻度の低い語彙項目も含む大規
模辞書と言語モデルを用いて、指定された区間の音韻列
候補に対して探索を行う。これにより、通常の認識処理
を高速にするとともに、訂正の際に未知語に起因した訂
正不能を少なくすることができる。
【0012】
【発明の実施の態様】以下、図面を参照して実施例を詳
細に説明する。
【0013】図1は、本発明の実施例の音声認識装置の
構成図である。この図においては、音声認識装置を機能
ブロックの組み合わせとして構成しているが、これら機
能ブロックはハードウェアをディスクリートに組み合わ
せて構成してもよく、また少なくともその一部をソフト
ウェアとして実現することもできる。
【0014】図1において、音声認識装置は、音響分析
部11、音韻照合・グラフ作成部12、音響モデル記憶
部13、言語認識部14、第1認識用辞書・第1言語モ
デル記憶部15、第2認識用辞書・第2言語モデル記憶
部16、認識結果表示部17および認識結果訂正指示部
18を含んで構成されている。
【0015】音響分析部11は、マイクなどから入力さ
れた音声を、一定の周期でフレームとして切り出し、フ
レームごとに特徴パラメータを計算する。
【0016】音韻照合・グラフ作成部12は、フレーム
の特徴パラメータ系列を入力シンボルとして、HMMを
使った音韻の照合を行い、音韻列の候補を有向グラフ化
する(この有向グラフを以降モーラグラフと呼ぶ)。入
力音声「面白い」から作成されるモーラグラフの例を図
4に示す。グラフの各ノードはそれぞれある時間に対応
している。ふたつのノードをつなぐアークには、認識結
果であるモーラとその認識における音響的評価スコアが
ひとつずつ対応している。モーラグラフの生成には、音
響モデル記憶部13に記憶されている音響モデルを利用
する。モーラグラフの生成の詳細については特開平8−
202384号公報を参照されたい。
【0017】言語認識部14は、第1認識用辞書・第1
言語モデル記憶部15に記憶されている第1認識用辞書
および第1言語モデル、あるいは第2認識用辞書・第2
言語モデル記憶部16に記憶されている第2認識用辞書
および第2言語モデルを切り替えて利用して、モーラグ
ラフの所定のパスに沿ったスコアを計算する。言語認識
部14の詳細については図2を用いて説明する。
【0018】認識結果表示部17は、言語認識部14の
認識結果記憶部23(図2)に記憶された認識結果の中
で最も尤度が高い結果を、音声認識の結果として、図1
には図示していないウィンドウシステムを通してディス
プレイに表示する。
【0019】認識結果訂正指示部18は、認識結果表示
部17に対し、認識結果の訂正を指示するとともに、言
語認識部14に対してモーラグラフ上の訂正区間を指示
し、再探索を実行させる。本実施例では、ユーザが認識
結果に対して訂正を加えたい場合、図1では図示してい
ないウィンドウシステムを通してマウスなどのポインテ
ィングデバイスを用いて、認識結果中の訂正したい部分
が選択される。
【0020】つぎに、言語認識部14を詳細に説明す
る。図2は、言語認識部14の構成を示しており、この
図において、言語認識部14は、辞書検索部19、スコ
ア計算部20および探索制御部21を含んで構成されて
いる。
【0021】探索制御部21は、言語認識部14全体の
処理の流れを制御するものであり、認識候補スタック2
2および認識結果記憶部23を含んでいる。探索制御部
21は、まず、行われようとしている探索が、モーラグ
ラフ全体に対するものなのか、あるいは、訂正指示を受
けた後に行う部分モーラグラフに対するものなのかを、
部分探索フラグが立っているかどうかで判断する。部分
モーラグラフに対する探索の場合は、探索を開始する訂
正開始ノードと終了する訂正終了ノードの情報も得る。
そして、両者の場合とも、モーラグラフ上のモーラ列に
対して辞書検索部19を用いて認識用辞書の登録語彙項
目を検索し、次にそれらの語彙項目に対してスコア計算
部20を使ってスコア(語彙項目の連鎖の尤度)を計算
させるということを繰り返して処理を進める。そして、
モーラグラフ全体、あるいは部分モーラグラフに対して
処理を終了したとき、尤度順に語彙項目の連鎖を出力す
る。
【0022】辞書検索部19は、モーラグラフ上のモー
ラの並びと認識用辞書(辞書1、辞書2)を照合し、登
録語彙項目を検索する。認識用辞書内の各語彙項目は、
図3のように、読みのモーラ列と、かな漢字表記、品詞
の情報を持っている。検索対象の認識用辞書には2種類
あり、いずれも新聞などの大量のテキストに頻出する語
彙を頻度順に集めたものである。辞書1は、頻度順に
5,000項目集めたものであり、モーラグラフ全体に
対する初回の探索の際に使用される。辞書2は、頻度順
に50,000項目を集めたものであり、訂正指示を受
けて部分モーラグラフを探索する際に使用される。
【0023】スコア計算部20は、途中まで解析が進ん
でいるモーラグラフ上のパスと、辞書検索部19によっ
て検索された、それに接続する語彙項目の情報を渡さ
れ、語彙項目を延長したときのスコアを、システムで設
定している知識源を参照して計算して返す。知識源とし
ては、モーラレベル知識源、語彙項目レベル知識源など
が考えられるが、本実施例では、モーラレベル知識源と
して音響的評価スコアを、語彙項目レベル知識源として
単語トライグラムによるスコアを用いる。前者はモーラ
グラフ作成の際に、グラフの各アークに対して付与され
ている。後者は、あらかじめ新聞などの大量のテキスト
から単語の三つ組みの出現頻度の統計をとることによっ
て語の発生確率を計算しておき、認識処理時にその確率
をもとに算出されるスコアである。なお、単語トライグ
ラムに関しては、5,000語を対象とした小規模モデ
ルと、50,000語を対象にした大規模モデルの2種
類の単語トライグラムが用意されており、小規模モデル
(単語トライグラム1)は、モーラグラフ全体に対する
初回の探索の際に使用され、大規模モデル(単語トライ
グラム2)は、訂正指示を受けて部分モーラグラフを探
索する際に使用される。
【0024】なお、図2の辞書1および単語トライグラ
ム1は図1の第1認識用辞書・第1言語モデル記憶部1
5に記憶されるものであり、同様に、図2の辞書2およ
び単語トライグラム2は図1の第2認識用辞書・第2言
語モデル記憶部16に記憶されるものである。
【0025】次に、このように構成された音声認識装置
の動作について説明する。
【0026】まず、音響分析部11では、マイクなどか
ら入力された音声を、サンプリング周波数16kHzで
AD変換した後、16msecずつ8msec周期でフ
レームとして切り出し、高域強調・ハミング(Hamm
ing)窓掛けを施して線形予測分析を行う。フレーム
ごとに計算される特徴パラメータはLPCケプストラム
・デルタ−ケプストラム・デルタ−パワー(LPCce
pstrum・delta−cepstrum・del
ta−power)からなる33次元ベクトルである
が、これをサイズ512の符号帳を用いてベクトル量子
化して特徴パラメータとする。
【0027】音韻照合・グラフ作成部12では、フレー
ムの特徴パラメータ系列を入力シンボルとして、HMM
(隠れマルコフ・モデル)を使った音韻の照合を行い、
音韻列の候補をモーラグラフ化する。
【0028】モーラグラフを受け取った言語認識部14
における処理の流れを以下に示す。まず、行われようと
している探索が、モーラグラフ全体に対するものなの
か、あるいは、訂正指示を受けた後に行う部分モーラグ
ラフに対するものなのかを、部分探索フラグが立ってい
るかどうかで判定する。前者の場合は、モーラグラフ全
体を、後者の場合は、探索を開始する訂正開始ノードと
終了する訂正終了ノードの指定によって、その範囲の部
分モーラグラフを探索することになる。
【0029】両者の場合とも、基本的な処理内容は、単
語単位の最良優先探索である。すなわち、最も良いスコ
アの候補を取り出し、単語一つ分探索を継続して、探索
を継続する必要のある候補をスタックに戻す作業の繰り
返しとなる。探索を継続する候補を選ぶ時に利用するス
コアは、これまでに探索の済んだ部分の評価スコア(音
響的評価スコアと単語トライグラムによるスコアの線形
和)、評価が済んでいない部分のヒューリスティックス
コア(本実施例では、モーラグラフのアーク上に記録さ
れている音響的評価スコアとする)を合わせたトータル
スコアである。なお、ここで使用される辞書と単語トラ
イグラムには、前述のようにそれぞれ、小規模、大規模
の2種類ずつあり、モーラグラフ全体に対する初回の探
索の際には小規模の辞書と単語トライグラムとを使用
し、訂正指示を受けたあとの部分モーラグラフの探索の
際には、大規模のものを使用する。
【0030】探索処理全体の流れは、モーラグラフ全体
を探索する場合も、部分モーラグラフを探索する場合も
共通であり、図5のようなフローチャートで表すことが
できる。以下、探索処理の概略を説明する。なお、詳細
については特開平9−281989号公報を参照された
い。
【0031】まず探索開始時に、初期状態の候補を1個
用意する(ステップS10)。モーラグラフ全体を探索
する場合は、初期状態の候補としては文頭記号を用意す
る。訂正指示を受けた後の部分モーラグラフ探索の場合
は、訂正前の認識結果が認識結果記憶部23から取り出
され、その認識結果中の文頭から訂正開始ノードまでの
経路が、初期状態の候補として用意される。そして、探
索が終了するまで以降の処理を繰り返す。
【0032】[ステップS11〜S14]:評価スコア
とヒューリスティックスコアを合わせたトータルスコア
が最も良い探索中の候補を一つ取り出す(S12)。候
補が一つもない場合は探索を終了する(S11、S1
3、S14)。
【0033】[ステップS15〜S17]:取り出した
候補が解として認められる場合は、その候補と、その候
補がたどったモーラグラフ上の経路の情報を認識結果と
して認識結果記憶部23へ出力する(S15、S1
6)。なお、解として認められる場合とは、モーラグラ
フ全体の探索の際は、候補の探索がモーラグラフ上の終
了ノードまで達している場合を意味する。また、訂正指
示を受けた後の部分モーラグラフ探索の際には、指示さ
れた訂正範囲の終了ノードまで探索が達した場合、解と
して認めることとする。解として認められない場合は、
候補の末尾に対応するグラフのノードから辞書検索を行
い、単語の照合を行う(S17)。
【0034】照合に成功した単語がない場合は、その候
補は解になる可能性がないので消去する。照合に成功し
た場合は、照合に成功した単語の数だけ新たな別の候補
が生成される。
【0035】[ステップS18]:照合に成功した単語
の数だけ候補を複写して、それぞれに照合に成功した単
語を付け加える。
【0036】各候補の単語照合が終了したモーラグラフ
上のノードを次の照合開始ノードとして記録する。
【0037】新たに発生した候補の評価スコアを計算
し、ヒューリスティックスコアをモーラグラフのノード
から読み出して、トータルスコアを算出する。
【0038】[ステップS19]:次に最良の候補を取
り出しやすいように、別の探索中の候補と合わせて、候
補を並べ替えて保存する。この時に、決められた数(ス
タックサイズ)より候補の数が多くなれば、トータルス
コアの悪い候補を削除して、スタックサイズと同じ数の
候補だけ保存する。
【0039】以上の操作中、探索中の候補がなくなるか
(S11)、照合に成功した解が決められた数に達する
か(S20)、のいずれかが起こった時点で、言語認識
部14の処理は終了し、認識結果記憶部23の解が認識
結果表示部18に渡される(S13、S14)。
【0040】以上で、言語認識部14の動作説明を終え
る。
【0041】認識結果表示部18では、言語認識部14
から渡された解のうち最もスコアがよい解を、音声認識
の結果として図6(a)のようにディスプレイに表示す
る。この結果は、「何を有権者に問うか」という音声入
力に対する認識結果である。「有権者」という語が、初
回の探索の際に用いた小規模辞書に登録されていなかっ
たので、「言うケース」のように誤認識されている。
【0042】なお、言語認識部14の探索が、訂正指示
のあとの部分モーラグラフに対する探索であった場合
は、認識結果表示部17は、訂正指示を受けた部分のみ
を探索結果の最良解によって置き換える。
【0043】ユーザは、表示された音声認識結果に対し
て訂正を加えたい場合、マウスなどのポインティングデ
バイスを用いて、図6(b)のように認識結果中の訂正
したい部分を選択する。この例では、「言うケース」の
部分に対する訂正指示を行っている。このように訂正部
分が選択された場合、言語認識部14の認識結果記憶部
23に記憶された対応する認識結果とその経路情報をも
とに、訂正部分に対応するモーラグラフ上の訂正開始ノ
ードと訂正終了ノードが特定され、探索制御部21に渡
される。その際、訂正指示後の部分モーラグラフ探索を
行わせるための部分探索フラグも立てられる。そして、
ふたたび言語認識部14において、指定された訂正開始
ノードから訂正終了ノードまでの部分モーラグラフが、
大規模辞書と大規模単語トライグラムによって探索さ
れ、結果が図6(c)のように表示される。大規模辞書
には、「有権者」という語が登録されおり、トータルス
コアが最良であったので、正しい認識結果が得られてい
る。但し、訂正指示をされた区間を再探索した結果、必
ずしも正しい認識結果が最良の解とならない事もある。
しかし、その場合も、正解が上位で認識されていれば、
再探索の結果の上位候補を他候補としてリスト表示させ
る手段を提供することにより、容易に正解を選択でき
る。
【0044】また、本実施例では、出現頻度の高い順に
5,000語の語彙項目を集めた辞書1とその次に出現
頻度の高い順に50,000語の語彙項目を集めた辞書
2を個別に用意する例で示したが、構造的に、辞書1
は、辞書2に含めることができる。例えば、登録される
語彙項目の音韻をノードとするトライ構造で辞書を構成
するとき、全体を構成する辞書2の部分集合として辞書
1を持つことができる。そして、ノードを結ぶアーク
に、そのアークをたどった先に辞書1の語彙項目がある
かどうかの情報を関連付けておくことにより、部分集合
である辞書1の語彙項目の範囲で探索することができ
る。
【0045】また、本実施例では、単語トライグラムに
関しても、5000語を対象とした小規模モデルと、5
0000語を対象にした大規模モデルの2種類の単語ト
ライグラムを用いる例で示したが、これも構造的に、小
規模モデルを、大規模モデルに含めることができる。
【0046】尚、本実施例では、通常の認識の際に用い
る語彙項目の数を5,000、訂正処理の際に使用する
語彙項目の数を50,000としたが、この数は、実行
するシステム環境、対象とするタスクの特性に合わせて
任意に変えることができる。要は、通常の認識時には、
比較的小規模の語彙を対象にして、高速に認識処理を実
行し、訂正の際には、大規模の辞書を対象にして未知語
に起因したエラーをなくすことを特徴としており、効果
が得られる範囲で、語彙サイズの組み合わせを変えるこ
とができる。
【0047】
【発明の効果】本発明を応用したシステムでは、通常の
認識時には、出現頻度の高い語彙項目からなる比較的小
さな辞書を用いているために、探索空間が小さく認識処
理を高速で行うことができる。また、音声認識の結果誤
った個所に対して、容易にかつ確実に訂正する範囲の指
示を行うことができるとともに、その訂正処理は、すで
に最初の音声認識の結果として得られている音韻列の候
補集合を対象とした探索処理のみであるため、処理が軽
く、高速に訂正のための認識結果を得ることができる。
また、訂正処理の時に、通常の認識時よりも語彙範囲を
広げて探索するため、未知語に起因する訂正不能という
ことが起こり難く、効率的に訂正処理ができる。
【0048】音声認識をディクテーションシステムに応
用する場合、入力した音声を精度よく高速でテキストに
変換する機能とともに、誤った認識結果を効率的に訂正
できることが、全体のパフォーマンスをあげる上で重要
である。本発明は、上述したような特長があるため、こ
うしたディクテーションシステムへの応用で効果を発揮
し、音声によるテキスト入力の生産性を大きく向上させ
ることができる。
【図面の簡単な説明】
【図1】 本発明の実施例における音声認識装置の構成
を示すブロック図である。
【図2】 図1の言語認識部14の構成例を説明するブ
ロック図である。
【図3】 図1の言語認識部14で用いる認識用辞書の
記述形式の一例を示す図である。
【図4】 実施例における、音声入力「面白い」に対す
るモーラグラフの例を示す図である。
【図5】 実施例における探索処理を説明するフローチ
ャートである。
【図6】 実施例における、誤認識に対する指示、再認
識を説明する図である。
【符号の説明】
11 音響分析部 12 音韻照合・グラフ作成部 13 音響モデル記憶部 14 言語認識部 15 第1認識用辞書・第1言語モデル記憶部 16 第2認識用辞書・第2言語モデル記憶部 17 認識結果表示部 18 認識結果訂正指示部 19 辞書検索部 20 スコア計算部 21 探索制御部 22 認識候補スタック 23 認識結果記憶部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 ユーザの発話に対して音声認識した結果
    を表示し、その音声認識結果の一部分あるいは全部に対
    し、ユーザが訂正部分を指示したときに、訂正を指示さ
    れた部分に対する認識処理を再実行して、その部分を訂
    正して表示する音声認識装置において、訂正のための認
    識処理の実行の際には、通常用いる認識用辞書および言
    語モデルのそれぞれより大規模な認識用辞書および言語
    モデルを用いて認識処理を行うことを特徴とする音声認
    識装置。
  2. 【請求項2】 ユーザの発話に対して音声認識した結果
    を表示し、その音声認識結果の一部分あるいは全部に対
    し、ユーザが訂正部分を指示したときに、訂正を指示さ
    れた部分に対する認識処理を再実行して、その部分を訂
    正して表示する音声認識装置において、ユーザの発話に
    対する音声認識結果を音韻列の候補集合として保持し、
    表示された音声認識結果に対してユーザが訂正区間を指
    示したときにそれに対応する音韻列中の区間を特定し、
    その特定された音韻列候補に対して探索を行うことによ
    り訂正のための認識処理を実行することを特徴とする音
    声認識装置。
  3. 【請求項3】 音声認識の結果得られる音韻列の候補集
    合をグラフで保持し、表示された音声認識結果に対して
    ユーザが訂正区間を指示したときに、それに対応するグ
    ラフ上のノードを特定し、その特定されたノード間の経
    路を探索することにより訂正のための認識処理を実行す
    ることを特徴とする請求項2記載の音声認識装置。
JP10219337A 1998-08-03 1998-08-03 音声認識装置 Pending JP2000056795A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10219337A JP2000056795A (ja) 1998-08-03 1998-08-03 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10219337A JP2000056795A (ja) 1998-08-03 1998-08-03 音声認識装置

Publications (1)

Publication Number Publication Date
JP2000056795A true JP2000056795A (ja) 2000-02-25

Family

ID=16733886

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10219337A Pending JP2000056795A (ja) 1998-08-03 1998-08-03 音声認識装置

Country Status (1)

Country Link
JP (1) JP2000056795A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099091A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声認識装置及び音声認識方法
JP2006039954A (ja) * 2004-07-27 2006-02-09 Denso Corp データベース検索装置、プログラム及びナビゲーション装置
JP2010055044A (ja) * 2008-04-22 2010-03-11 Ntt Docomo Inc 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
JP2011242613A (ja) * 2010-05-19 2011-12-01 Yahoo Japan Corp 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
JP2012003090A (ja) * 2010-06-17 2012-01-05 Ntt Docomo Inc 音声認識装置および音声認識方法
WO2012073275A1 (ja) * 2010-11-30 2012-06-07 三菱電機株式会社 音声認識装置及びナビゲーション装置
JP2014048506A (ja) * 2012-08-31 2014-03-17 National Institute Of Information & Communication Technology 単語登録装置及びそのためのコンピュータプログラム
JP2015532447A (ja) * 2012-09-29 2015-11-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation テキストを修正するための方法、システム、およびコンピュータ・プログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099091A (ja) * 2001-09-21 2003-04-04 Nec Corp 音声認識装置及び音声認識方法
JP2006039954A (ja) * 2004-07-27 2006-02-09 Denso Corp データベース検索装置、プログラム及びナビゲーション装置
JP2010055044A (ja) * 2008-04-22 2010-03-11 Ntt Docomo Inc 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
JP4709887B2 (ja) * 2008-04-22 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
TWI427620B (zh) * 2008-04-22 2014-02-21 Ntt Docomo Inc A speech recognition result correction device and a speech recognition result correction method, and a speech recognition result correction system
JP2011242613A (ja) * 2010-05-19 2011-12-01 Yahoo Japan Corp 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
JP2012003090A (ja) * 2010-06-17 2012-01-05 Ntt Docomo Inc 音声認識装置および音声認識方法
WO2012073275A1 (ja) * 2010-11-30 2012-06-07 三菱電機株式会社 音声認識装置及びナビゲーション装置
CN103229232A (zh) * 2010-11-30 2013-07-31 三菱电机株式会社 声音识别装置及导航装置
JP2014048506A (ja) * 2012-08-31 2014-03-17 National Institute Of Information & Communication Technology 単語登録装置及びそのためのコンピュータプログラム
JP2015532447A (ja) * 2012-09-29 2015-11-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation テキストを修正するための方法、システム、およびコンピュータ・プログラム

Similar Documents

Publication Publication Date Title
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US7983912B2 (en) Apparatus, method, and computer program product for correcting a misrecognized utterance using a whole or a partial re-utterance
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US5712957A (en) Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US6067520A (en) System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US5855000A (en) Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US7974844B2 (en) Apparatus, method and computer program product for recognizing speech
JP5366169B2 (ja) 音声認識システム及び音声認識システム用プログラム
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
EP0376501B1 (en) Speech recognition system
JP3481497B2 (ja) 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置
US20080162137A1 (en) Speech recognition apparatus and method
JP2002258890A (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP2002014693A (ja) 音声認識システム用辞書提供方法、および音声認識インタフェース
JP2000056795A (ja) 音声認識装置
JP4966324B2 (ja) 音声翻訳装置、および方法
JP5004863B2 (ja) 音声検索装置および音声検索方法
JP2011007862A (ja) 音声認識装置、音声認識プログラム、および音声認識方法
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2002278579A (ja) 音声データ検索装置
JP2003162524A (ja) 言語処理装置