JP4604178B2 - 音声認識装置及び方法ならびにプログラム - Google Patents
音声認識装置及び方法ならびにプログラム Download PDFInfo
- Publication number
- JP4604178B2 JP4604178B2 JP2004338234A JP2004338234A JP4604178B2 JP 4604178 B2 JP4604178 B2 JP 4604178B2 JP 2004338234 A JP2004338234 A JP 2004338234A JP 2004338234 A JP2004338234 A JP 2004338234A JP 4604178 B2 JP4604178 B2 JP 4604178B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- probability
- words
- competing
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 114
- 238000012937 correction Methods 0.000 claims abstract description 159
- 230000002860 competitive effect Effects 0.000 claims abstract description 91
- 230000006870 function Effects 0.000 claims description 127
- 238000012545 processing Methods 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 43
- 230000006978 adaptation Effects 0.000 claims description 30
- 230000001965 increasing effect Effects 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 7
- 230000037430 deletion Effects 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000005728 strengthening Methods 0.000 claims 1
- 230000008859 change Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 241001074085 Scophthalmus aquosus Species 0.000 description 2
- 238000003287 bathing Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 206010049976 Impatience Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/085—Methods for reducing search complexity, pruning
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Document Processing Apparatus (AREA)
Description
遠藤、寺田:"音声入力における対話的候補選択手法"、インタラクション2003論文集、pp.195−196,2003. 安藤他:"音声認識を利用した放送用ニュース字幕制作システム",信学論,Vol.J84−D−II,No.6,pp.877−887,2001.
図1の認識結果表示手段7は、音声認識手段5により認識された認識結果を複数の単語の単語列として図示しない画面に表示する機能を有している(音声認識結果表示ステップ:音声認識結果表示機能の実行)。図2は、図示しない画面に表示する本実施の形態の音声認識結果の一例とその訂正の一例を示す図である。本実施の形態の認識結果表示手段7は、リアルタイムで音声認識手段5の認識結果を画面に表示する機能を有している。
1)ユーザが誤り箇所を発見するための時間、
2)誤り箇所を指摘する(カーソル移動する)ための時間、
が余計にかかる点が挙げられる。
このとき、訂正処理の際にユーザが選択した単語の情報をもとにした条件、wprev=wselect、また、wprevの区間時間がwselectの区間時間とオーバーラップがある(すなわちTs<ts<TeもしくはTs<te<Te)、を満たせば、言語スコアを以下のように変更する。
ここでC(0<C<1)はbigram値に対する重み係数であり、本願明細書では、これを「インタラクション係数」と呼ぶ。このように、音声訂正後の再デコーディングにおいて、ユーザによって訂正された単語のN−gram確率値を動的に強化することで、その単語に言語制約的に関連する単語を、後続する単語候補として探索ビーム内に残りやすい状態にすることができる。このように音声訂正後の再デコーディングにおいて、ユーザによって訂正された単語のN-gram確率値を動的に強化する(一定の係数を乗ずる)ことで、その単語に言語制約的に関連する単語を、後続する単語候補として探索ビーム内に残りやすくし、もとのデコーディングにて訂正不能だった単語を訂正可能にすることができる。
音声訂正が実用的に使えるかどうかを評価するには、認識誤りを訂正することがどの程度可能か、すなわち、表示される競合候補の中に本来の正解がどの程度含まれているか、を調査することが重要となる。そこで、男性25人が発話した計100発話を対象に、候補を上位N個まで提示したときの訂正後の認識率(最終的な音声入力成功率)を、誤り訂正能力として評価した。つまりここでの認識率は、例えばN=5の場合、上位5個以内に正解が含まれる割合で表される。通常の認識性能(N=1のときの認識率)は86.70%であった。
実際に、4人のユーザに新聞記事の文章を読み上げてもらい、試験装置(インタフェース)により訂正処理を行ってもらった。どのユーザも、提示される競合候補に混乱されることなく、適切に訂正処理が行えることを確認した。言い淀みによる発話中休止機能も適切に使用され、特に長い文章を入力する場合は、本機能を使用すれば入力の際の労力が軽減されたとの感想を得た。また、使用方法も選択のみの操作で単純であり、GUIも直感的でわかりやすいと評価された。実際に、他人が使用している様子を見たユーザが、訓練せずに即座に使用できることがわかった。
3 音声入力手段
5 音声認識手段
7 認識結果表示手段
9 単語訂正手段
11 音声認識実行手段
13 連続音判定手段
12 データ記憶手段
15 競合単語表示指令手段
17 競合単語選択手段
19 単語置き換え指令手段
Claims (44)
- 音声を入力するための音声入力手段と、
予め定めた判定手法に従って、前記音声入力手段から入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識手段と、
前記音声認識手段により認識された認識結果を複数の単語の単語列として画面に表示する認識結果表示手段と、
前記画面に表示された単語列を構成する前記一番競合確率の高い複数の単語を訂正する単語訂正手段とを備えた音声認識装置であって、
前記予め定めた判定手法は、コンフュージョン・ネットワークを用いて前記音声の入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、前記複数の単語の区間ごとに前記コンフュージョン・ネットワークによって得られる競合確率を求めて、前記一番競合確率の高い単語を決定する手法であり、
前記単語訂正手段は、
前記競合候補の中から前記一番競合確率の高い単語の競合確率に近い競合確率を持つ1以上の競合単語を選び、対応する前記一番競合確率の高い単語に隣接して前記画面上に表示させる競合単語表示指令手段と、
ユーザによるマニュアル操作に応じて、前記画面上に表示された前記1以上の競合単語から適切な訂正単語を選択する競合単語選択手段と、
前記競合単語選択手段により選択された前記訂正単語を、前記音声認識手段により認識された前記一番競合確率の高い単語と置き換えることを前記音声認識手段に指令する単語置き換え指令手段とを備え、
前記競合単語表示指令手段は、前記競合単語の前記競合確率の分布状況に応じて、前記画面上に表示する前記競合単語の数を変えることを特徴とする音声認識装置。 - 前記競合単語表示指令手段は、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が少ない場合には、前記画面上に表示する前記競合単語の数を少なくし、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が多い場合には、前記画面上に表示する前記競合単語の数を多くする請求項1に記載の音声認識装置。
- 前記競合単語表示指令手段は、前記単語列に含まれる前記複数の単語の上側または下側に、競合確率の高い順番に前記競合単語が並ぶように前記画面上に表示させる機能をさらに備えている請求項1に記載の音声認識装置。
- 前記競合単語表示指令手段は、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含む機能を備えており、
前記単語置き換え指令手段は、前記スキップ候補が選択されると、前記音声認識手段による前記認識結果から対応する前記一番競合確率の高い単語を削除することを前記音声認識手段に指令する機能を備えている請求項1に記載の音声認識装置。 - 前記競合単語表示指令手段は、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含む機能を備えており、
前記単語置き換え指令手段は、前記スキップ候補が選択されると、前記音声認識手段による前記認識結果から対応する前記一番競合確率の高い単語を削除することを前記音声認識手段に指令する機能を備えており、
前記スキップ候補にも競合確率が付与されることを特徴とする請求項1に記載の音声認識装置。 - 前記予め定めた判定手法は、一つの前記単語の一部を構成する音が二つの前記単語の区間のいずれにも入り得る場合には、前記一つの単語の一部を構成する音を前記二つの単語の区間の一方に含め、前記単語訂正手段により前記二つの単語の区間の一方に属する単語の訂正が行われると、前記二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるように前記スキップ候補を自動選択する手法である請求項5に記載の音声認識装置。
- 前記認識結果表示手段は、リアルタイムに前記認識結果を前記画面に表示する機能を有し、
前記単語訂正手段は、前記認識結果表示手段による前記認識結果の前記画面への表示と一緒に前記競合単語をリアルタイムに前記画面上に表示する機能を有している請求項1に記載の音声認識装置。 - 前記競合単語表示指令手段は、前記単語訂正手段により一部の前記単語が訂正されると、その訂正された単語を前記単語列においては、ユーザにより訂正された本来正解である単語として、再度競合単語の選び直しを行う機能を有している請求項1に記載の音声認識装置。
- 前記競合単語表示指令手段は、前記単語列中の前記訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の前記競合単語との言語的な接続確率を算出し、前記接続確率が大きいものを前記画面に表示する前記競合単語として選び、前に前記画面に表示している前記競合単語と入れ替えを行うまたは前に前記画面に表示している前記競合単語に追加する機能をさらに有している請求項8に記載の音声認識装置。
- 前記音声認識手段は、前記単語訂正手段により訂正の対象となった単語、訂正時間の情報及び前記訂正された単語に対する事後確率を蓄積データとして保存し、これらの蓄積データを利用して再度の音声認識を行う機能をさらに有している請求項1に記載の音声認識装置。
- 前記音声認識手段は、前記音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、前記単語訂正手段による訂正を許容する機能を有している請求項1に記載の音声認識装置。
- 前記音声認識手段は、
入力される前記音声が一定時間以上連続して続く連続音であることを判定する連続音判定手段を備えており、
前記連続音判定手段が前記連続音の入力を判定すると、前記音声認識処理を一時停止し、前記連続音判定手段が前記連続音を判定した後に前記連続音以外の音が入力されたことを判定すると、前記一時停止前の状態から前記音声認識処理を続行する機能を有している請求項1に記載の音声認識装置。 - 前記音声認識手段は、前記単語訂正手段により訂正の対象となった単語と、入力された音声における前記単語の位置情報または時間情報を保存し、前記再度の音声認識において、保存した位置情報または時間情報における前記単語の言語確率を動的に強化することにより、その単語に関連する単語を認識しやすくする機能を有している請求項10に記載の音声認識装置。
- 前記音声認識手段は、音声が入力されると、音声認識処理を行うと同時に、前記音声認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う音響的適応処理手段を備えている請求項1に記載の音声認識装置。
- 前記音響的適応処理手段は、前記単語訂正手段により、認識誤りのない正確な教師信号をリアルタイムに生成することで、高精度な音響的適応機能を有している請求項14に記載の音声認識装置。
- 予め定めた判定手法に従って、入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識ステップと、
前記音声認識ステップにより認識された認識結果を複数の単語の単語列として画面に表示する認識結果表示ステップと、
前記画面に表示された単語列を構成する前記一番競合確率の高い複数の単語を訂正する単語訂正ステップとを実行する音声認識方法であって、
前記予め定めた判定手法は、コンフュージョン・ネットワークを用いて前記音声の入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、前記複数の単語の区間ごとに前記コンフュージョン・ネットワークによって得られる競合確率を求めて、前記一番競合確率の高い単語を決定する手法であり、
前記単語訂正ステップでは、
前記競合候補の中から前記一番競合確率の高い単語の競合確率に近い競合確率を持つ1以上の競合単語を選び、対応する前記一番競合確率の高い単語に隣接して前記画面上に表示させる競合単語表示ステップと、
ユーザによるマニュアル操作に応じて、前記画面上に表示された前記1以上の競合単語から適切な訂正単語を選択する競合単語選択ステップと、
前記競合単語選択ステップで選択された前記訂正単語を、先に前記音声認識ステップにより認識された前記一番競合確率の高い単語と置き換えて前記画面に表示する単語置き換えステップとを実行し、
さらに前記競合単語表示ステップでは、前記競合単語の前記競合確率の分布状況に応じて、前記画面上に表示する前記競合単語の数を変えることを特徴とする音声認識方法。 - 前記競合単語表示ステップでは、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が少ない場合には、前記画面上に表示する前記競合単語の数を少なくし、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が多い場合には、前記画面上に表示する前記競合単語の数を多くする請求項16に記載の音声認識方法。
- 前記競合単語表示ステップでは、前記単語列に含まれる前記複数の単語の上側または下側に、競合確率の高い順番に前記競合単語が並ぶように前記画面上に表示する請求項16に記載の音声認識方法。
- 前記競合単語表示ステップでは、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含めてあり、
前記単語置き換えステップでは、前記スキップ候補が選択されると、前記音声認識ステップによる前記認識結果から対応する前記一番競合確率の高い単語を削除する請求項16に記載の音声認識方法。 - 前記競合単語表示ステップでは、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含めており、
前記単語置き換えステップでは、前記スキップ候補が選択されると、前記音声認識ステップによる前記認識結果から対応する前記一番競合確率の高い単語を削除し、
前記スキップ候補にも競合確率を付与することを特徴とする請求項16に記載の音声認識方法。 - 前記予め定めた判定手法は、一つの前記単語の一部を構成する音が二つの前記単語の区間のいずれにも入り得る場合には、前記一つの単語の一部を構成する音を前記二つの単語の区間の一方に含め、前記単語訂正手段により前記二つの単語の区間の一方に属する単語の訂正が行われると、前記二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるように前記スキップ候補を自動選択する手法である請求項20に記載の音声認識方法。
- 前記認識結果表示ステップは、リアルタイムに前記認識結果を前記画面に表示し、
前記単語訂正ステップでは、前記認識結果表示ステップによる前記認識結果の前記画面への表示と一緒に前記競合単語をリアルタイムに前記画面上に表示する請求項16に記載の音声認識方法。 - 前記競合単語表示ステップでは、前記単語訂正ステップにより一部の前記単語が訂正されると、その訂正された単語を前記単語列においては、ユーザにより訂正された本来正解である単語として、再度競合単語の選び直しを行う請求項16に記載の音声認識方法。
- 前記競合単語表示ステップでは、前記単語列中の前記訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の前記競合単語との言語的な接続確率を算出し、前記接続確率が大きいものを前記画面に表示する前記競合単語として選び、前に前記画面に表示している前記競合単語と入れ替えを行うまたは前に前記画面に表示している前記競合単語に追加する請求項23に記載の音声認識方法。
- 前記音声認識ステップでは、前記単語訂正ステップにより訂正の対象となった単語、訂正時間の情報及び前記訂正された単語に対する事後確率を蓄積データとして保存し、これらの蓄積データを利用して再度の音声認識を行う請求項16に記載の音声認識方法。
- 前記音声認識ステップでは、前記音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、前記単語訂正ステップによる訂正を許容する請求項16に記載の音声認識方法。
- 前記音声認識ステップでは、
入力される前記音声が一定時間以上連続して続く連続音であることを判定すると、前記音声認識処理を一時停止し、前記連続音を判定した後に前記連続音以外の音が入力されたことを判定すると、前記一時停止前の状態から前記音声認識処理を続行する請求項16に記載の音声認識方法。 - 前記音声認識ステップでは、前記単語訂正ステップにより訂正の対象となった単語と、入力された音声における前記単語の位置情報または時間情報を保存し、前記再度の音声認識において、保存した位置情報または時間情報における前記単語の言語確率を動的に強化することにより、その単語に関連する単語を認識しやすくする請求項25に記載の音声認識方法。
- 前記音声認識ステップでは、音声が入力されると、音声認識処理を行うと同時に、前記音声認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う請求項16に記載の音声認識方法。
- コンピュータを用いて、音声を認識し、画面上に認識結果を文字で表示する機能を前記コンピュータに実行させるためのプログラムであって、
入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識機能と、
前記音声認識機能により認識された認識結果を複数の単語の単語列として画面に表示する認識結果表示機能と、
前記画面に表示された単語列を構成する前記一番競合確率の高い複数の単語を訂正する単語訂正機能とを前記コンピュータに実行させ、
前記音声認識機能では、コンフュージョン・ネットワークを用いて前記音声の入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、前記複数の単語の区間ごとに前記コンフュージョン・ネットワークによって得られる競合確率を求めて、前記一番競合確率の高い単語を決定し、
前記単語訂正機能では、
前記競合候補の中から前記一番競合確率の高い単語の競合確率に近い競合確率を持つ1以上の競合単語を選び、対応する前記一番競合確率の高い単語に隣接して前記画面上に表示させる競合単語表示機能と、
ユーザによるマニュアル操作に応じて、前記画面上に表示された前記1以上の競合単語から適切な訂正単語を選択する競合単語選択機能と、
前記競合単語選択ステップで選択された前記訂正単語を、先に前記音声認識ステップにより認識された前記一番競合確率の高い単語と置き換えて前記画面に表示する単語置き換え機能とを前記コンピュータに実行させるように構成され、
前記競合単語表示機能では、前記競合単語の前記競合確率の分布状況に応じて、前記画面上に表示する前記競合単語の数を変えることを特徴とするプログラム。 - 前記競合単語表示機能では、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が少ない場合には、前記画面上に表示する前記競合単語の数を少なくし、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が多い場合には、前記画面上に表示する前記競合単語の数を多くする請求項30に記載のプログラム。
- 前記競合単語表示機能では、前記単語列に含まれる前記複数の単語の上側または下側に、競合確率の高い順番に前記競合単語が並ぶように前記画面上に表示する請求項30に記載のプログラム。
- 前記競合単語表示機能では、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含めてあり、
前記単語置き換え機能では、前記スキップ候補が選択されると、前記音声認識機能の実行による前記認識結果から対応する前記一番競合確率の高い単語を削除する請求項30に記載のプログラム。 - 前記競合単語表示機能では、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含めており、
前記単語置き換え機能では、前記スキップ候補が選択されると、前記音声認識機能の実行による前記認識結果から対応する前記一番競合確率の高い単語を削除し、
前記スキップ候補にも競合確率を付与することを特徴とする請求項30に記載のプログラム。 - 前記音声認識機能では、一つの前記単語の一部を構成する音が二つの前記単語の区間のいずれにも入り得る場合には、前記一つの単語の一部を構成する音を前記二つの単語の区間の一方に含め、前記単語訂正手段により前記二つの単語の区間の一方に属する単語の訂正が行われると、前記二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるように前記スキップ候補を自動選択する請求項34に記載のプログラム。
- 前記認識結果表示機能では、リアルタイムに前記認識結果を前記画面に表示し、
前記単語訂正機能では、前記認識結果表示機能の実行による前記認識結果の前記画面への表示と一緒に前記競合単語をリアルタイムに前記画面上に表示する請求項30に記載のプログラム。 - 前記競合単語表示機能では、前記単語訂正機能により一部の前記単語が訂正されると、その訂正された単語を前記単語列においては、ユーザにより訂正された本来正解である単語として、再度競合単語の選び直しを行う請求項30に記載のプログラム。
- 前記競合単語表示機能では、前記単語列中の前記訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の前記競合単語との言語的な接続確率を算出し、前記接続確率が大きいものを前記画面に表示する前記競合単語として選び、前に前記画面に表示している前記競合単語と入れ替えを行うまたは前に前記画面に表示している前記競合単語に追加する請求項37に記載のプログラム。
- 前記音声認識機能では、前記単語訂正機能の実行により訂正の対象となった単語、訂正時間の情報及び前記訂正された単語に対する事後確率を蓄積データとして保存し、これらの蓄積データを利用して再度の音声認識を行う請求項30に記載のプログラム。
- 前記音声認識機能では、前記音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、前記単語訂正機能の実行による訂正を許容する請求項30に記載のプログラム。
- 前記音声認識機能では、
入力される前記音声が一定時間以上連続して続く連続音であることを判定すると、前記音声認識処理を一時停止し、前記連続音を判定した後に前記連続音以外の音が入力されたことを判定すると、前記一時停止前の状態から前記音声認識処理を続行する請求項30に記載のプログラム。 - 前記音声認識機能では、前記単語訂正機能の実行により訂正の対象となった単語と、入力された音声における前記単語の位置情報または時間情報を保存し、前記再度の音声認識において、保存した位置情報または時間情報における前記単語の言語確率を動的に強化することにより、その単語に関連する単語を認識しやすくする請求項39に記載のプログラム。
- 前記音声認識機能では、音声が入力されると、音声認識処理を行うと同時に、認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う請求項30に記載のプログラム。
- 前記音響的適応処理は、前記単語訂正機能により、認識誤りのない正確な教師信号をリアルタイムに生成することで、高精度な音響的適応機能を有する請求項43に記載のプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004338234A JP4604178B2 (ja) | 2004-11-22 | 2004-11-22 | 音声認識装置及び方法ならびにプログラム |
GB0712277A GB2437436B (en) | 2004-11-22 | 2005-11-18 | Voice recognition device and method, and program |
US11/719,479 US7848926B2 (en) | 2004-11-22 | 2005-11-18 | System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words |
PCT/JP2005/021296 WO2006054724A1 (ja) | 2004-11-22 | 2005-11-18 | 音声認識装置及び方法ならびにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004338234A JP4604178B2 (ja) | 2004-11-22 | 2004-11-22 | 音声認識装置及び方法ならびにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006146008A JP2006146008A (ja) | 2006-06-08 |
JP4604178B2 true JP4604178B2 (ja) | 2010-12-22 |
Family
ID=36407260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004338234A Active JP4604178B2 (ja) | 2004-11-22 | 2004-11-22 | 音声認識装置及び方法ならびにプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US7848926B2 (ja) |
JP (1) | JP4604178B2 (ja) |
GB (1) | GB2437436B (ja) |
WO (1) | WO2006054724A1 (ja) |
Families Citing this family (234)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
WO2008043582A1 (en) * | 2006-10-13 | 2008-04-17 | International Business Machines Corporation | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in said dictionary |
US20080114597A1 (en) * | 2006-11-14 | 2008-05-15 | Evgeny Karpov | Method and apparatus |
GB2457855B (en) * | 2006-11-30 | 2011-01-12 | Nat Inst Of Advanced Ind Scien | Speech recognition system and speech recognition system program |
GB2458238B (en) * | 2006-11-30 | 2011-03-23 | Nat Inst Of Advanced Ind Scien | Web site system for voice data search |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9973450B2 (en) | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8352264B2 (en) * | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
JP5072415B2 (ja) * | 2007-04-10 | 2012-11-14 | 三菱電機株式会社 | 音声検索装置 |
JP2009075263A (ja) * | 2007-09-19 | 2009-04-09 | Kddi Corp | 音声認識装置およびコンピュータプログラム |
JP4839291B2 (ja) * | 2007-09-28 | 2011-12-21 | Kddi株式会社 | 音声認識装置およびコンピュータプログラム |
WO2009078256A1 (ja) * | 2007-12-18 | 2009-06-25 | Nec Corporation | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20090326938A1 (en) * | 2008-05-28 | 2009-12-31 | Nokia Corporation | Multiword text correction |
JP5519126B2 (ja) * | 2008-06-27 | 2014-06-11 | アルパイン株式会社 | 音声認識装置及び音声認識方法 |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
JP5054711B2 (ja) * | 2009-01-29 | 2012-10-24 | 日本放送協会 | 音声認識装置および音声認識プログラム |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
JP5535238B2 (ja) * | 2009-11-30 | 2014-07-02 | 株式会社東芝 | 情報処理装置 |
US8494852B2 (en) | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
JP5633042B2 (ja) * | 2010-01-28 | 2014-12-03 | 本田技研工業株式会社 | 音声認識装置、音声認識方法、及び音声認識ロボット |
WO2011093025A1 (ja) * | 2010-01-29 | 2011-08-04 | 日本電気株式会社 | 入力支援システム、方法、およびプログラム |
US8423351B2 (en) * | 2010-02-19 | 2013-04-16 | Google Inc. | Speech correction for typed input |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9842591B2 (en) * | 2010-05-19 | 2017-12-12 | Sanofi-Aventis Deutschland Gmbh | Methods and systems for modifying operational data of an interaction process or of a process for determining an instruction |
JP5160594B2 (ja) * | 2010-06-17 | 2013-03-13 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識装置および音声認識方法 |
JP5538099B2 (ja) * | 2010-07-02 | 2014-07-02 | 三菱電機株式会社 | 音声入力インタフェース装置及び音声入力方法 |
US9263034B1 (en) * | 2010-07-13 | 2016-02-16 | Google Inc. | Adapting enhanced acoustic models |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
KR101828273B1 (ko) * | 2011-01-04 | 2018-02-14 | 삼성전자주식회사 | 결합기반의 음성명령 인식 장치 및 그 방법 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8749618B2 (en) | 2011-06-10 | 2014-06-10 | Morgan Fiumi | Distributed three-dimensional video conversion system |
US9026446B2 (en) * | 2011-06-10 | 2015-05-05 | Morgan Fiumi | System for generating captions for live video broadcasts |
US8532469B2 (en) | 2011-06-10 | 2013-09-10 | Morgan Fiumi | Distributed digital video processing system |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US20130073286A1 (en) * | 2011-09-20 | 2013-03-21 | Apple Inc. | Consolidating Speech Recognition Results |
JP5679345B2 (ja) * | 2012-02-22 | 2015-03-04 | 日本電信電話株式会社 | 音声認識精度推定装置、音声認識精度推定方法、プログラム |
JP5679346B2 (ja) * | 2012-02-22 | 2015-03-04 | 日本電信電話株式会社 | 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
CN103714048B (zh) | 2012-09-29 | 2017-07-21 | 国际商业机器公司 | 用于校正文本的方法和系统 |
CN103871401B (zh) * | 2012-12-10 | 2016-12-28 | 联想(北京)有限公司 | 一种语音识别的方法及电子设备 |
JP2014134640A (ja) * | 2013-01-09 | 2014-07-24 | Nippon Hoso Kyokai <Nhk> | 文字起こし装置およびプログラム |
EP3809407A1 (en) | 2013-02-07 | 2021-04-21 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
JP5701327B2 (ja) * | 2013-03-15 | 2015-04-15 | ヤフー株式会社 | 音声認識装置、音声認識方法、およびプログラム |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
JP6155821B2 (ja) * | 2013-05-08 | 2017-07-05 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
CN104157285B (zh) * | 2013-05-14 | 2016-01-20 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置及电子设备 |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
JP2016521948A (ja) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | 音声コマンドによって開始される緊急電話のためのシステム及び方法 |
JP2015022590A (ja) * | 2013-07-19 | 2015-02-02 | 株式会社東芝 | 文字入力装置、文字入力方法、及び文字入力プログラム |
KR102229972B1 (ko) * | 2013-08-01 | 2021-03-19 | 엘지전자 주식회사 | 음성 인식 장치 및 그 방법 |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
JP6272496B2 (ja) * | 2014-07-22 | 2018-01-31 | 三菱電機株式会社 | 単語のシーケンスを含む音声を認識するための方法及びシステム |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
WO2016104193A1 (ja) * | 2014-12-26 | 2016-06-30 | シャープ株式会社 | 対応決定装置、音声対話システム、対応決定装置の制御方法、および音声対話装置 |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
EP3089159B1 (en) * | 2015-04-28 | 2019-08-28 | Google LLC | Correcting voice recognition using selective re-speak |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11423023B2 (en) | 2015-06-05 | 2022-08-23 | Apple Inc. | Systems and methods for providing improved search functionality on a client device |
US10769184B2 (en) | 2015-06-05 | 2020-09-08 | Apple Inc. | Systems and methods for providing improved search functionality on a client device |
US10360902B2 (en) * | 2015-06-05 | 2019-07-23 | Apple Inc. | Systems and methods for providing improved search functionality on a client device |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
CN106251869B (zh) | 2016-09-22 | 2020-07-24 | 浙江吉利控股集团有限公司 | 语音处理方法及装置 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US20180315415A1 (en) * | 2017-04-26 | 2018-11-01 | Soundhound, Inc. | Virtual assistant with error identification |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
CN112802459A (zh) * | 2017-05-23 | 2021-05-14 | 创新先进技术有限公司 | 一种基于语音识别的咨询业务处理方法及装置 |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
WO2019163242A1 (ja) | 2018-02-20 | 2019-08-29 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10269376B1 (en) * | 2018-06-28 | 2019-04-23 | Invoca, Inc. | Desired signal spotting in noisy, flawed environments |
JP7107059B2 (ja) * | 2018-07-24 | 2022-07-27 | 日本電信電話株式会社 | 文生成装置、モデル学習装置、文生成方法、モデル学習方法、及びプログラム |
JP6601826B1 (ja) * | 2018-08-22 | 2019-11-06 | Zホールディングス株式会社 | 分割プログラム、分割装置、及び分割方法 |
JP6601827B1 (ja) * | 2018-08-22 | 2019-11-06 | Zホールディングス株式会社 | 結合プログラム、結合装置、及び結合方法 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
JP7063843B2 (ja) * | 2019-04-26 | 2022-05-09 | ファナック株式会社 | ロボット教示装置 |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN110415679B (zh) * | 2019-07-25 | 2021-12-17 | 北京百度网讯科技有限公司 | 语音纠错方法、装置、设备和存储介质 |
US11263198B2 (en) | 2019-09-05 | 2022-03-01 | Soundhound, Inc. | System and method for detection and correction of a query |
JP7116088B2 (ja) * | 2019-09-09 | 2022-08-09 | 北京小米移動軟件有限公司 | 音声情報処理方法、装置、プログラム及び記録媒体 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN111261166B (zh) * | 2020-01-15 | 2022-09-27 | 云知声智能科技股份有限公司 | 一种语音识别方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099084A (ja) * | 1998-09-18 | 2000-04-07 | Matsushita Electric Ind Co Ltd | 音声認識方法及びその装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5876944A (ja) * | 1981-10-31 | 1983-05-10 | Toshiba Corp | 複数候補の表示方法 |
JPH01197797A (ja) * | 1988-02-02 | 1989-08-09 | Ricoh Co Ltd | 音節認識結果選択方式 |
US5329609A (en) * | 1990-07-31 | 1994-07-12 | Fujitsu Limited | Recognition apparatus with function of displaying plural recognition candidates |
JPH06301395A (ja) | 1993-04-13 | 1994-10-28 | Sony Corp | 音声認識装置 |
JPH09258786A (ja) * | 1996-03-21 | 1997-10-03 | Fuji Xerox Co Ltd | 調整機能を有する音声認識装置 |
US5829000A (en) * | 1996-10-31 | 1998-10-27 | Microsoft Corporation | Method and system for correcting misrecognized spoken words or phrases |
JPH10197797A (ja) * | 1997-01-06 | 1998-07-31 | Olympus Optical Co Ltd | 結像光学系 |
JP3795692B2 (ja) * | 1999-02-12 | 2006-07-12 | マイクロソフト コーポレーション | 文字処理装置および方法 |
TW473704B (en) * | 2000-08-30 | 2002-01-21 | Ind Tech Res Inst | Adaptive voice recognition method with noise compensation |
US6754625B2 (en) * | 2000-12-26 | 2004-06-22 | International Business Machines Corporation | Augmentation of alternate word lists by acoustic confusability criterion |
US6785650B2 (en) * | 2001-03-16 | 2004-08-31 | International Business Machines Corporation | Hierarchical transcription and display of input speech |
JP4604377B2 (ja) | 2001-03-27 | 2011-01-05 | 株式会社デンソー | 音声認識装置 |
JP2002297181A (ja) | 2001-03-30 | 2002-10-11 | Kddi Corp | 音声認識語彙登録判定方法及び音声認識装置 |
US6859774B2 (en) * | 2001-05-02 | 2005-02-22 | International Business Machines Corporation | Error corrective mechanisms for consensus decoding of speech |
JP3906327B2 (ja) * | 2002-03-29 | 2007-04-18 | 独立行政法人産業技術総合研究所 | 音声入力モード変換システム |
JP3682922B2 (ja) * | 2002-04-24 | 2005-08-17 | 日本放送協会 | リアルタイム文字修正装置およびリアルタイム文字修正プログラム |
JP2004309928A (ja) | 2003-04-09 | 2004-11-04 | Casio Comput Co Ltd | 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム |
EP1471502A1 (en) * | 2003-04-25 | 2004-10-27 | Sony International (Europe) GmbH | Method for correcting a text produced by speech recognition |
JP2005234236A (ja) * | 2004-02-19 | 2005-09-02 | Canon Inc | 音声認識装置、音声認識方法、記憶媒体およびプログラム |
-
2004
- 2004-11-22 JP JP2004338234A patent/JP4604178B2/ja active Active
-
2005
- 2005-11-18 US US11/719,479 patent/US7848926B2/en not_active Expired - Fee Related
- 2005-11-18 GB GB0712277A patent/GB2437436B/en not_active Expired - Fee Related
- 2005-11-18 WO PCT/JP2005/021296 patent/WO2006054724A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000099084A (ja) * | 1998-09-18 | 2000-04-07 | Matsushita Electric Ind Co Ltd | 音声認識方法及びその装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2006054724A1 (ja) | 2006-05-26 |
US20080052073A1 (en) | 2008-02-28 |
US7848926B2 (en) | 2010-12-07 |
GB2437436B (en) | 2009-07-08 |
GB2437436A (en) | 2007-10-24 |
GB0712277D0 (en) | 2007-08-01 |
JP2006146008A (ja) | 2006-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4604178B2 (ja) | 音声認識装置及び方法ならびにプログラム | |
JP4510953B2 (ja) | 音声認識におけるノンインタラクティブ方式のエンロールメント | |
JP4444396B2 (ja) | 音声認識におけるポジション操作 | |
JP6550068B2 (ja) | 音声認識における発音予測 | |
US9754586B2 (en) | Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
US9640175B2 (en) | Pronunciation learning from user correction | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
US9361883B2 (en) | Dictation with incremental recognition of speech | |
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
JP2007041319A (ja) | 音声認識装置および音声認識方法 | |
JP4634156B2 (ja) | 音声対話方法および音声対話装置 | |
JP2004170765A (ja) | 音声処理装置および方法、記録媒体並びにプログラム | |
JP2010197644A (ja) | 音声認識システム | |
JP4392581B2 (ja) | 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体 | |
JP2000056795A (ja) | 音声認識装置 | |
JP2004029354A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
KR20050101695A (ko) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 | |
JP3575904B2 (ja) | 連続音声認識方式及び標準パタン訓練方式 | |
JP2001188556A (ja) | 音声認識方法及び装置 | |
JP2001013992A (ja) | 音声理解装置 | |
Ringger | A robust loose coupling for speech recognition and natural language understanding | |
JP4790956B2 (ja) | 音声認識器における綴りモード |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061101 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100406 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100607 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100908 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4604178 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131015 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131015 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |