JP4604178B2 - 音声認識装置及び方法ならびにプログラム - Google Patents

音声認識装置及び方法ならびにプログラム Download PDF

Info

Publication number
JP4604178B2
JP4604178B2 JP2004338234A JP2004338234A JP4604178B2 JP 4604178 B2 JP4604178 B2 JP 4604178B2 JP 2004338234 A JP2004338234 A JP 2004338234A JP 2004338234 A JP2004338234 A JP 2004338234A JP 4604178 B2 JP4604178 B2 JP 4604178B2
Authority
JP
Japan
Prior art keywords
word
probability
words
competing
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004338234A
Other languages
English (en)
Other versions
JP2006146008A (ja
Inventor
真孝 後藤
淳 緒方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2004338234A priority Critical patent/JP4604178B2/ja
Priority to GB0712277A priority patent/GB2437436B/en
Priority to US11/719,479 priority patent/US7848926B2/en
Priority to PCT/JP2005/021296 priority patent/WO2006054724A1/ja
Publication of JP2006146008A publication Critical patent/JP2006146008A/ja
Application granted granted Critical
Publication of JP4604178B2 publication Critical patent/JP4604178B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、画面に表示した音声認識結果を訂正することを可能にする音声認識装置及び方法並びにプログラムに関するものである。
従来より、計算機による音声認識は、必ず認識誤りを起こすことが知られている。他の人の話を聞き間違うことからもわかるように、人間ですら音声を100%正しく認識できていない。これは、人間の音声には、他の単語と紛らわしい発声や同音異義語を含む発声、不明瞭な発声が含まれてしまうからである。人間同士の場合には、音声対話によって容易にこうした誤認識(聞き間違い)の問題を解決している。しかしながら、計算機と人間同士のような柔軟な音声対話をすることは難しい。音声認識技術を改良してどんなに認識率を上げていったとしても、人間にとって、常に明瞭で曖昧性のない発声をし続けることが極めて困難である以上、認識率は決して100%にはならない。したがって、音声認識を日常的に使える音声認識装置を作るためには、必ずどこかで生じる誤認識を容易に訂正できるようにすることが不可欠である。
そこで、従来から認識結果を訂正する技術は種々提案されてきた。例えば、市販のディクテーションソフトでは、ユーザが認識結果のテキスト表示を見て、誤認識を発見したら、その区間をマウス操作や音声入力で指定することができる。すると、その部分の他候補が表示されるので、ユーザは正しい候補を選択して訂正できる。非特許文献1に示された技術では、これを発展させて、発話の終了後にその認識結果を単語境界の線で区切った表示をし、かな漢字変換で単語の区切りを修正するように、その境界をマウスで移動できるようにしている。この場合、正しい候補にたどり着ける可能性は高くなったものの、誤認識箇所の指定、単語境界の変更、候補の選択と、ユーザが訂正するための手間は増えている。一方、非特許文献2に示された技術では、音声認識を利用したニュース字幕放送のために、実用的な認識誤り修正システムを実現している。しかし、この技術では、二人の分業を前提とし、一人が誤認識箇所を発見してマーキングし、もう一人がその箇所の正解をタイピングする必要があったため、個人が自分の音声入力を訂正する目的では使えなかった。このようにいずれの従来技術も、まず最初に、ユーザが誤認識箇所を発見して指摘し、次に、その部分の他候補を判断して選択したり、タイピングして修正するといった手間を要していた。
なお特許文献1(特開2002−287792号公報)には、音声認識の訂正を音声入力で行う技術が開示されている。また特許文献2(特開2004−309928号公報)には、音声認識した結果、出力候補単語が複数ある場合に、出力候補単語を表示部に表示し、出力候補単語から所望の単語を選ぶことを話者に選択することを指示する機能を備えた電子辞書装置が示されている。さらに特許文献3(特開2002−297181号公報)及び特許文献4(特開平6−301395号公報)には、音声認識の認識率の向上のために、コンフュージョンマトリックスを利用する技術が示されている。
遠藤、寺田:"音声入力における対話的候補選択手法"、インタラクション2003論文集、pp.195−196,2003. 安藤他:"音声認識を利用した放送用ニュース字幕制作システム",信学論,Vol.J84−D−II,No.6,pp.877−887,2001. 特開2002−287792号公報 特開2004−309928号公報 特開2002−297181号公報 特開平6−301395号公報
従来の音声認識技術では、音声認識による認識誤りを、ユーザがより効率的に且つ容易に訂正できるものはなかった。
本発明の目的は、音声認識による認識誤りを、ユーザがより効率的に且つ容易に訂正できる音声認識装置及び方法並びにプログラムを提供することにある。
本発明の他の目的は、発話中あるいは発話終了後に正しい候補を選択するだけで訂正ができる音声認識装置及び方法並びにプログラムを提供することにある。
本発明の他の目的は、ユーザが誤認識箇所を発見して指摘しなくても、常に単語の競合候補をリアルタイムに画面に表示して訂正の機会を確保することができる音声認識装置及び方法並びにプログラムを提供することにある。
本発明の更に他の目的は、画面に表示する単語の競合候補の個数によって、その単語の認識結果の曖昧さを視覚により直ちに認識することを可能にする音声認識装置及び方法並びにプログラムを提供することにある。
本発明の他の目的は、誤認識箇所の発見、指摘、提示された候補の判断、選択といった手間をかけずに、音声認識結果と単語の競合候補を同時に見て選択するだけで、効率良く訂正できることを可能にする音声認識装置及び方法並びにプログラムを提供することにある。
本発明の別の目的は、発話中に特定の音声を発話することにより、いつでも好きなときに音声認識を一時停止することを可能にする音声認識装置及び方法並びにプログラムを提供することにある。
本発明の音声認識装置は、音声を入力するための音声入力手段と、音声認識手段と、認識結果表示手段と、単語訂正手段とを備えている。音声入力手段は、例えば、マイクロフォンやマイクロフォンからのアナログ信号を信号処理可能なデジタル信号に変換する信号変換器等を含んで構成される。音声入力手段の具体的な構成は任意である。
音声認識手段は、予め定めた判定手法に従って、音声入力手段から入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識機能を有している。ここで「予め定めた判定手法」としては、公知の各種の判定手法を用いることができる。例えば、コンフュージョン・ネットワークを用いて音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに後述する競合確率を求めて、一番競合確率の高い単語を決定する判定手法を用いるのが好ましい。コンフュージョン・ネットワークを用いると、大語彙、小語彙を問わず多様な入力音声に対して効果的な候補の提示、訂正が可能になる。
また認識結果表示手段は、音声認識手段により認識された認識結果を複数の単語の単語列として画面に表示する機能を有している。認識結果表示手段は、リアルタイムに音声認識手段の認識結果を画面に表示する機能を有しているのが好ましい。
そして単語訂正手段は、画面に表示された単語列を構成する一番競合確率の高い複数の単語を訂正する単語訂正機能を有している。この単語訂正手段は、競合単語表示指令手段と、競合単語選択手段と、単語置き換え指令手段とから構成される。競合単語表示指令手段は、競合候補の中から一番競合確率の高い単語の競合確率に近い競合確率を持つ1以上の競合単語を選び、対応する一番競合確率の高い単語に隣接して画面上に表示させる競合単語表示機能を有している。また競合単語選択手段は、ユーザによるマニュアル操作に応じて、画面上に表示された1以上の競合単語から適切な訂正単語を選択する競合単語選択機能を有している。そして単語置き換え指令手段は、競合単語選択手段により選択された訂正単語を、音声認識手段により認識された一番競合確率の高い単語と置き換えることを音声認識手段に指令する単語置き換え指令機能を有している。
上記構成の音声認識装置では、画面に表示された単語列を構成する一番競合確率の高い複数の単語を訂正する競合候補として、一番競合確率の高い単語の競合確率に近い競合確率を持つ1以上の競合単語を選び、対応する一番競合確率の高い単語に隣接して画面上に表示する。そしてユーザによるマニュアル操作に応じて、画面上に表示された1以上の競合単語から適切な訂正単語を選択すると、この訂正単語が音声認識手段により認識された一番競合確率の高い単語と置き換えられる。したがって本発明によれば、画面に表示された音声認識の結果として表示される単語列を見ながら、訂正の可否を決定する単語の近くに表示された1以上の競合単語から訂正単語を選んで、訂正を行うことができるので、短い時間で、訂正を行うことができる。したがって音声認識処理と並行して、認識結果の訂正を行うことが可能である。
画面上に表示する1以上の競合単語の数の決定方法は特に限定されず、任意である。しかし音声認識の曖昧さが低いほど競合単語の数は少なくなり、音声認識の曖昧さが高くなるほど競合単語の数は多くなる。そこで競合単語表示指令手段は、競合単語の競合確率の分布状況に応じて、画面上に表示する競合単語の数を変えるように構成するのが好ましい。例えば、競合確率の高い単語が1つしか無い場合にはその1つの単語を競合単語として表示すればよく、逆に競合確率の高い単語が多数ある場合には、その分布状況を考慮して可能な範囲で表示する競合単語の数を多くすればよい。このようにすると、表示される競合単語の数で訂正をすべき可能性が一目で分かるため、ユーザは単語列に含まれる全ての単語に同じ注意力を払って訂正作業を行う必要がなくなる。そのため単語訂正の必要性判断及び訂正作業時間を短くすることができる。このようにするためには、競合単語表示指令手段を、一番競合確率の高い単語の競合確率に近い競合確率を持つ単語の数が少ない場合には、画面上に表示する競合単語の数を少なくし、一番競合確率の高い単語の競合確率に近い競合確率を持つ競合単語の数が多い場合には、画面上に表示する競合単語の数を多くするように構成すればよい。
さらに競合単語表示指令手段は、単語列に含まれる複数の単語の上側または下側に、競合確率の高い順番に競合単語が並ぶように画面上に表示する機能を備えているのが好ましい。競合単語表示指令手段がこのような機能を備えていれば、訂正の対象となる単語に近い競合単語から訂正に必要な単語を短い時間で簡単に見つけることができるので、訂正作業時間を更に短くすることが可能になる。
また競合単語表示指令手段は、競合単語の中に、一番競合確率の高い単語が不要であるために認識結果から削除することを選択可能にするスキップ候補を含む機能を備えているのが好ましい。この場合には、単語置き換え指令手段に、スキップ候補が選択されると、音声認識手段による認識結果から対応する一番競合確率の高い単語を削除することを音声認識手段に指令する機能を持たせればよい。このようにすると音声認識でしばしば生じる湧き出し単語(発音されていないのに、発音されたかのように認識されて表示される単語)を、競合単語の選択作業と同じ作業で削除することができる。したがって訂正作業が更に短くなる。なおスキップ候補にも競合確率を付与すれば、スキップ候補の表示位置が一定になることがない。そのため競合単語の選択と単語列からの単語の削除の選択を同じレベルで実行すればよいため、ユーザの訂正作業に要する時間を更に短縮することができる。
スキップ候補を用いる場合において、特に判定手法として、コンフュージョン・ネットワークを用いて前記音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに競合確率を求めて、一番競合確率の高い単語を決定する手法を採用する場合には、次のようにするのが好ましい。すなわち一つの単語の一部を構成する音が二つの単語の区間のいずれにも入り得る場合には、一つの単語の一部を構成する音を二つの単語の区間の一方に含める。そして単語訂正手段により二つの単語の区間の一方に属する単語の訂正が行われると、二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるようにスキップ候補を自動選択する。このようにすると訂正した区間の隣接区間の湧き出し単語を自動的に削除でき、ユーザの訂正操作の回数を最小限に抑えることができる。
認識結果表示手段は、リアルタイムで認識結果を画面に表示する機能を有しているのが好ましい。この場合には、単語訂正手段も、認識結果表示手段による認識結果の画面への表示と一緒に競合単語をリアルタイムで画面上に表示する機能を有しているのが好ましい。このようにするとユーザの発声と並行して音声認識の訂正を実施することができる。
一つ単語の訂正が行われると、訂正された単語との関係で見ると、先に決定した競合単語が不適切なものになることもある。そこで競合単語表示指令手段に、単語訂正手段により一部の単語が訂正されると、その訂正された単語を単語列においては、ユーザに訂正された本来正解である単語として、再度競合単語の選び直しを行う機能を設けるのが好ましい。この機能を設けると、まだ訂正をしていない区間に対する競合単語を、ユーザにより訂正された単語に適合したものに変更することができるので、後の訂正作業を更に容易にすることができる。この場合、競合単語表示指令手段に更に次のような機能を設けるのが好ましい。すなわち単語列中の訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の競合単語との言語的な接続確率を算出し、接続確率が大きいものを画面に表示する競合単語として選び、前に画面に表示している競合単語と入れ替えを行うか、前に画面に表示している競合単語に新たに追加する機能を、競合単語表示指令手段に設けるのが好ましい。このようにすると単語列中の一つの単語の訂正と連動して隣接する二つの単語の競合単語としてより適切な単語を表示することができるようになり、訂正作業が更に容易になる。
音声認識手段が、単語訂正手段により訂正の対象となった単語、訂正時間の情報及び訂正された単語に対する事後確率を蓄積データとして保存し、これらの蓄積データを利用して再度の音声認識を行う機能をさらに有しているのが好ましい。このような機能を付加すると、もし一度目の認識で、ある区間に対して本来の正解が競合候補として得られなかった場合でも、ユーザの訂正処理から得られる新たな情報を利用した音声認識により、認識結果あるいは競合候補としてユーザ側に提示できる利点がある。
また音声認識手段に、音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、単語訂正手段による訂正を許容する機能を付加してもよい。このような機能を設けると、訂正作業に時間が必要になった場合には、特定の音声を発声することにより、音声認識処理を一時的に停止できるので、単語の訂正作業をユーザのペースに合わせて焦らずに実行することができる。この場合、音声認識手段には、例えば、入力される音声が一定時間以上連続して続く連続音であることを判定する連続音判定手段を設ける。そして連続音判定手段が連続音の入力を判定すると、音声認識処理を一時停止し、連続音判定手段が連続音を判定した後に連続音以外の音が入力されたことを判定すると、一時停止前の状態から音声認識処理を続行する機能を音声認識手段に付加すればよい。このようにすると通常の会話において、言葉に詰まったときによく発音される言い淀み(言葉が詰まった時点で発音していた音を延ばして発音すること)を利用して、スムーズに音声認識を一時停止することが可能になる。
音声認識手段は、単語訂正手段により訂正の対象となった単語と、入力された音声における単語の位置情報または時間情報を保存し、再度の音声認識において、 保存した位置情報または時間情報における単語の言語確率を動的に強化することにより,その単語に関連する単語を認識しやすくする機能を有しているのが好ましい。
また音声認識手段には,音声が入力されると,認識処理を行うと同時に,認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う音響的適応処理手段を設けるのが好ましい。このような音響的適応処理手段を設けると、現在使用中のユーザの音声や録音環境等に即座に適応し、音声認識自体の基本的な性能を向上させることができる。
そしてこの音響的適応処理手段としては,単語訂正手段により,認識誤りのほとんどない、より正確な教師信号をリアルタイムに生成することで,高精度な音響的適応機能を有しているものを用いるのが好ましい。このような音響的適応処理手段を用いると、従来のオンライン適応で問題となっていた、教師信号中の認識誤りによる適応性能の劣化を最小限に抑えることができる。
本発明の音声認識装置で実行される本発明の音声認識方法では、音声認識ステップと、認識結果表示ステップと、単語訂正ステップとを実行する。音声認識ステップでは、予め定めた判定手法に従って、入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする。認識結果表示ステップでは、音声認識手段により認識された認識結果を複数の単語の単語列として画面に表示する。そして単語訂正ステップでは、画面に表示された単語列を構成する一番競合確率の高い複数の単語を訂正する。そして単語訂正ステップでは、競合候補の中から一番競合確率の高い単語の競合確率に近い競合確率を持つ競合単語を選び、対応する一番競合確率の高い単語に隣接して画面上に表示させる競合単語表示ステップと、ユーザによるマニュアル操作に応じて、画面上に表示された競合単語から適切な訂正単語を選択する競合単語選択ステップと、競合単語選択ステップで選択された訂正単語を、先に音声認識ステップにより認識された一番競合確率の高い単語と置き換えて画面に表示する単語置き換えステップとを実行する。
コンピュータを用いて、音声を認識し、画面上に認識結果を文字で表示する機能を前記コンピュータに実行させるための本発明のプログラムは、入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識機能と、前記音声認識機能により認識された認識結果を複数の単語の単語列として画面に表示する認識結果表示機能と、前記画面に表示された単語列を構成する前記一番競合確率の高い複数の単語を訂正する単語訂正機能とを前記コンピュータに実行させ、前記単語訂正機能では、前記競合候補の中から前記一番競合確率の高い単語の競合確率に近い競合確率を持つ1以上の競合単語を選び、対応する前記一番競合確率の高い単語に隣接して前記画面上に表示させる競合単語表示機能と、ユーザによるマニュアル操作に応じて、前記画面上に表示された前記1以上の競合単語から適切な訂正単語を選択する競合単語選択機能と、前記競合単語選択ステップで選択された前記訂正単語を、先に前記音声認識ステップにより認識された前記一番競合確率の高い単語と置き換えて前記画面に表示する単語置き換え機能とを前記コンピュータに実行させるように構成されている。
本発明によれば、画面に表示された音声認識の結果として表示される単語列を見ながら、訂正の可否を決定する単語の近くに表示された1以上の競合単語から訂正単語を選ぶことにより、訂正を行うことができるので、短い時間で、訂正を行うことができる。したがって本発明によれば、音声認識処理と並行して、認識結果の訂正を行うことができる。
図面を参照して、本発明の音声認識装置及び方法並びにプログラムの実施の形態の一例を詳細に説明する。図1は、本発明の音声認識方法及びプログラムを実行する本発明の音声認識装置の実施の形態の一例をコンピュータを用いて実現する場合にコンピュータ内に実現される機能実現手段を概略的に示したブロック図である。
本実施の形態の音声認識装置1は、音声を入力するための音声入力手段3と、音声認識手段5と、認識結果表示手段7と、単語訂正手段9とを備えている。音声入力手段3は、例えば、マイクロフォンやマイクロフォンからのアナログ信号を信号処理可能なデジタル信号に変換する信号変換器等を含んで構成される。
音声認識手段5は、音声認識実行手段11と連続音判定手段13とから構成されている。特に音声認識手段5の音声認識実行手段11は、予め定めた判定手法に従って、音声入力手段3から入力された音声に含まれる複数の単語を、データ記憶手段12内に設けた辞書手段(図示せず)に予め記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識機能を有している(本発明の方法の音声認識ステップ:本発明のプログラムの音声認識機能の実行)。ここで「予め定めた判定手法」としては、公知の各種の判定手法を用いることができる。本実施の形態では、コンフュージョン・ネットワークを用いて音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに後述する競合確率を求めて、一番競合確率の高い単語を決定する判定手法をこの予め定めた判定手法に採用している。
音声訂正を実現するためには、図2に示すような効果的な競合候補の画面上への提示が不可欠である。単純には、この競合候補は、音声認識実行手段11の内部状態から、最も尤もらしい(可能性の高い)単語列だけでなく、それ以外の複数の候補を取り出して生成すればよい。しかし、通常そうした内部状態を表す中間的な表現形式(「中間結果」と呼ぶ)は、特に大語彙を対象とした連続音声認識の場合、非常に大規模となっている。いかに大規模かを示すために、音声認識で一般的に用いられる中間結果である「単語グラフ」の一例を図3に示す。単語グラフとは、音声認識で可能性を検討した複数の候補を、リンクを単語とするグラフ構造で表現したものである。図3は比較的短い音声に対して生成された実際の単語グラフであるが、構造が複雑で且つ候補数も膨大であることがわかる。また、単語グラフのような従来の中間結果では、候補間の競合関係が明示的に表現できていないため、音声訂正のような効果的な候補提示は不可能である。そこで本実施の形態では、このような問題を解決する新しい中間結果として、音声認識実行手段11の内部状態をシンプルかつ高精度なネットワーク構造へ変換したコンフュージョン・ネットワーク(confusion network)[L.Mangu,E.Brill及びA.Stolcke著“Finding Consensus in Speech Recognition:Word Error Minimization and Other Applications of Confusion Network”Computer Speech and Language,Vol.14,No.4,pp.373−400,2000.)]を導入する。このコンフュージョン・ネットワークは、元々、音声認識率の向上のためにデコーディングアルゴリズムにおいて使用された途中結果である。そのため、当業者には、このコンフュージョン・ネットワークを本実施の形態のような誤り訂正目的に応用しようという発想は従来なかった。
コンフュージョン・ネットワークは、図4(A)に示す単語グラフを音響的なクラスタリングにより図4(B)に示すようなリニアな形式に圧縮することで求めることができる。図4(A)において、“sil”(silence)は発話開始、終了時の無音を表し、アルファベット1文字はグラフのリンク上の単語名を表している。また、図4(B)のネットワーク上の“−”は後に説明するスキップ候補である。音響的クラスタリングは以下の2つのステップにより行われる。なおこのステップは、L.Mangu,E.Brill及びA.Stolcke著の“Finding Consensus in Speech Recognition:Word Error Minimization and Other Applications of Confusion Network”Computer Speech and Language,Vol.14,No.4,pp.373−400,2000.)に紹介されている。
単語内クラスタリング・ステップ:単語名が同一で、時間的に重なりのあるリンクをクラスタリングする。時間的類似度をコスト関数として用いる。
単語間クラスタリング・ステップ:単語名の違うリンクのクラスタリングを行う。コスト関数として単語間の音響的類似度を用いる。
コンフュージョン・ネットワークの各リンクについては、クラスタリングした各クラス(単語の区間)ごとに事後確率が算出される。そして算出されたそれらの値は、各クラスでの存在確率、あるいはそのクラス内の他候補との競合確率を表わす。各クラスのリンクは、存在確率の大きさでソートされ、認識結果として可能性の高いリンクほど上位に配置される。最終的に、各クラスから事後確率が最大となるリンクを選択すると、図2の最上段のような最終的な認識結果(最尤の候補)となる。また、各クラスで事後確率が高いリンクを取り出すと、図2の競合候補が得られる。
ただしコンフュージョン・ネットワークでは、クラス中の各候補は必ずしも時間的に同一区間の認識結果とは限らない。例えば、時間的に2つのクラスをまたがった候補は、どちらか一方のクラスへ割り当てられる。本実施の形態にける音声訂正では、後に説明するように、そのような候補をユーザが選択すると、発声区間との時間的な整合性が取れるように、近隣でユーザが未選択なクラスの候補も自動的に選択し、訂正操作の回数を最小限にする
図1の認識結果表示手段7は、音声認識手段5により認識された認識結果を複数の単語の単語列として図示しない画面に表示する機能を有している(音声認識結果表示ステップ:音声認識結果表示機能の実行)。図2は、図示しない画面に表示する本実施の形態の音声認識結果の一例とその訂正の一例を示す図である。本実施の形態の認識結果表示手段7は、リアルタイムで音声認識手段5の認識結果を画面に表示する機能を有している。
この場合には、単語訂正手段9も、認識結果表示手段7による認識結果の画面への表示と一緒に競合単語をリアルタイムで画面上に表示する機能を有しているのが好ましい。このようにするとユーザの発声と並行して音声認識の訂正を実施することができる。
単語訂正手段9は、画面に表示された単語列を構成する一番競合確率の高い複数の単語を訂正する単語訂正機能を有している(単語訂正ステップ:単語訂正機能の実行)。本実施の形態で用いる単語訂正手段9は、競合単語表示指令手段15と、競合単語選択手段17と、単語置き換え指令手段19とから構成される。競合単語表示指令手段15は、競合候補の中から一番競合確率の高い単語の競合確率に近い競合確率を持つ1以上の競合単語を選び、対応する一番競合確率の高い単語に隣接して画面上に表示させる競合単語表示機能を有している(競合単語表示ステップの実行)。すなわち本実施の形態では、図2に示すように、音声認識手段5により認識された一番競合確率の高い単語から構成される単語列である「通常の認識結果」の下に、多数の競合候補の中から単語列の単語(一番競合確率の高い単語)の競合確率に近い競合確率を持つ1以上の競合単語を選び、これを表示する。競合単語選択手段17は、ユーザによるマニュアル操作に応じて、画面上に表示された1以上の競合単語から適切な訂正単語を選択する競合単語選択機能を有している(競合単語選択ステップの実行)。そして単語置き換え指令手段19は、競合単語選択手段17により選択された訂正単語を、音声認識手段5により認識された一番競合確率の高い単語(通常の認識結果として単語列を構成する単語)と置き換えることを音声認識手段5に指令する単語置き換え指令機能を有している(単語置き換え指令ステップの実行)。これによって認識結果表示手段7が画面に表示する単語が、訂正された単語によって置き換えられる。例えば図2に示す例では、最初の単語「温泉」に音声認識の誤りがある。最初の単語について表示された競合候補中、最初に表示された「音声」が競合候補の中でもっとも競合確率が高いもので、それよりも下にいくほど競合確率が低い単語となる。なお単語列の下の競合候補のうち、空白は後に詳しく説明するスキップ候補であり、このスキップ候補を選択すると、単語列の単語は削除される。スキップ候補を採用する場合には、単語置き換え指令手段19に、スキップ候補が選択されると、音声認識手段5による認識結果から対応する一番競合確率の高い単語を削除することを音声認識手段5に指令する機能を持たせればよい。このようにすると音声認識でしばしば生じる湧き出し単語(発音されていないのに、発音されたかのように認識されて表示される単語)を、競合単語の選択作業と同じ作業で削除することができる。したがって訂正作業が更に短くなる。なおスキップ候補にも競合確率を付与すれば、スキップ候補の表示位置が一定になることがない。そのため競合単語の選択と単語列からの単語の削除の選択を同じレベルで実行することができ、ユーザの訂正作業に要する時間を更に短縮することができる。
一つ単語の訂正が行われると、訂正された単語との関係で見ると、先に決定して画面に表示した競合単語が不適切なものになることもある。そこで競合単語表示指令手段15に、単語訂正手段9により一部の単語が訂正されると、その訂正された単語を単語列においては、以後ユーザによって訂正された本来正解である単語として、再度競合単語の選び直しを行う機能を設けるのが好ましい。この機能を設けると、まだ訂正をしていない単語に対する競合単語を訂正された語に適合した単語に変更することができるので、後の訂正作業を更に容易にすることができる。この場合、競合単語表示指令手段15に更に次のような機能を設けるのが好ましい。すなわち単語列中の訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の競合単語との言語的な接続確率を算出し、接続確率が大きいものを画面に表示する競合単語として再び選び、前に画面に表示している競合単語と入れ替えを行うか、前に画面に表示している競合単語に新たに追加する機能を、競合単語表示指令手段15に設けるのが好ましい。このようにすると単語列中の一つの単語の訂正と連動して隣接する二つの単語の競合単語としてより適切な単語を表示することができるようになり、訂正作業が更に容易になる。
上記の競合候補の訂正機能は、未選択候補の自動訂正機能と呼ぶことができる。すなわちユーザがある候補を訂正すると、その周辺の候補も最適なものに自動的に訂正されるという機能を意味する。音声認識では、ある単語を誤ると、その単語に引きずられる形で後続する候補として誤った単語が認識されることが頻繁に発生する(例えば後述する、図19中、「音声 入力」→「温泉 入浴」)。本機能を採用すると、ユーザが選択した候補の前後のそれぞれの候補に対し、現在選択している候補との言語的な接続確率を算出し、その値が最も大きい候補に自動修正することになる。例えば、図19において、ユーザが「温泉」を「音声」に訂正すると、「音声」との言語的接続確率が最も高い「入力」が自動的に選択され、「入浴」が「入力」へと訂正される。これにより、ユーザの訂正操作の回数を最小限に抑えることができる。
図5は、本発明の音声認識方法をコンピュータで実現する場合にコンピュータにインストールするプログラムの一例の基本アルゴリズムを示すフローチャートである。この基本アルゴリズムでは、まず最初に音声を認識する(ステップST1)。次に音声認識結果に基づいて競合候補を生成する(ステップST2)。そして画面に競合確率の最も高い単語で構成された一つの単語列を認識結果として表示する(ステップST3)。次に、音声認識した単語列を構成する一番競合確率の高い複数の単語を訂正する競合候補として、一番競合確率の高い単語の競合確率に近い競合確率を持つ1以上の競合単語を選び、競合候補を画面に表示するか否かを判定する(ステップST4)。このプログラムでは、訂正を行わない無修正モードも用意してあるため、この無修正モードではステップST4からステップST1へと戻り、通常の音声認識結果だけが画面に表示される。画面表示を選択した場合には、1以上の競合単語を対応する一番競合確率の高い単語に隣接して画面上に表示する(ステップST5)。認識結果に誤りが存在するかの判定をユーザが行い(ステップST6)、訂正の必要性をユーザが判断した場合には、ステップST7へと進んで、ユーザによるマニュアル操作に応じて、画面上に表示された1以上の競合単語から適切な訂正単語を選択する(ステップST7)。その結果、この訂正単語が音声認識手段により認識された一番競合確率の高い単語と置き換えられる(ステップST8)。ステップST6で訂正の必要性が無いと判断された場合(競合候補を画面に出力した後所定の時間経過したときに訂正操作が入らないとき)は、ステップST1へと戻る。一つの単語の訂正が終了した後、更に訂正があればステップST9からステップST6へと戻る。なお音声入力があれば、ステップST1からステップST5までは、訂正が行われている間も実行されており、新たな単語列が画面に表示され続ける。
図6は、本実施の形態におけるステップST2の詳細をステップST1と一緒に示したものである。ステップST2では、まず単語グラフを生成する(ステップST21)。次に単語グラフに対して音響的なクラスタリングを実行し、コンフュージョン・ネットワークを生成する(ステップST22)。次にコンフュージョン・ネットワークの各単語の区間の中から競合確率が最も大きい単語をピックアップして、単語列としたものを認識結果とする(ステップST23)。そして更に音声入力がなければ終了する(ステップST24)。
前述のスキップ候補を用いる場合において、特に判定手法として、コンフュージョン・ネットワークを用いるのが好ましい。この場合には、音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに競合確率を求めて、一番競合確率の高い単語を決定する。すなわち一つの単語の一部を構成する音が二つの単語の区間のいずれにも入り得る場合には、一つの単語の一部を構成する音を二つの単語の区間の一方に含める。そして単語訂正手段9により二つの単語の区間の一方に属する単語の訂正が行われると、二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるようにスキップ候補を自動選択する。図7は、スキップ候補を導入した場合のステップST2の一部の詳細を示している。この場合には、単語グラフを作成した後(ステップST21)、ステップST221で「単語グラフに対して音響的クラスタリングを実行」し、「各区間に対する競合単語、各競合単語に対する競合確率を算出する。そして同時に各区間に対して『単語が存在しない確率』を1−(区間における競合確率の合計)」として算出する。その後、ステップST222でコンフュージョン・ネットワークを生成し、ステップST223で「単語が存在しない確率」をスキップ候補の確率として設定する。
図8は、上記のステップST5の詳細の一例を示すフローチャートである。図2に示すように、本実施の形態では、画面上に表示する1以上の競合単語の数(競合候補)は、全ての単語において同じではない。本実施の形態では、音声認識の曖昧さが低いほど競合単語の数を少なくし、音声認識の曖昧さが高くなるほど競合単語の数を多くしている。そこで競合単語表示指令手段15は、競合単語の競合確率の分布状況に応じて、画面上に表示する競合単語の数を変えるように構成するのが好ましい。例えば、競合確率の高い単語が1つしか無い場合にはその1つの単語を競合単語として表示すればよく、逆に競合確率の高い単語が多数ある場合には、その分布状況を考慮して可能な範囲で表示する競合単語の数を多くすればよい。そこで図8に示すように、ステップST5では、まずステップST51で、競合候補を各単語の区間における複数の競合単語で構成し、各競合単語には所属する区間における競合確率を付与する。そしてステップST52では、各単語の区間における競合単語の数が多いか判定する。競合単語の数が多ければ、ステップST53で、画面に多くの競合単語を表示し、誤りである可能性が高い区間であることを、表示する競合単語の数を多くしてユーザに提示する。競合単語の数が少なければ、ステップST54で画面には競合単語は殆ど表示せず、正解である可能性が高い区間であることを、表示する競合単語の数を少なくすることによりユーザに提示する。このようにすると、表示される競合単語の数で訂正をすべき可能性が一目で分かるため、ユーザは単語列に含まれる全ての単語に同じ注意力を払って訂正作業を行う必要がなくなる。そのため単語訂正の必要性判断及び訂正作業時間を短くすることができる。
また競合単語表示指令手段15を構成するステップST5では、単語列に含まれる複数の単語の上側または下側に、競合確率の高い順番に競合単語が並ぶように画面上に表示する機能を備えているのが好ましい。競合単語表示指令手段15がこのような機能を備えていれば、訂正の対象となる単語に近い競合単語から訂正に必要な単語を短い時間で簡単に見つけることができるので、訂正作業時間を更に短くすることが可能になる。
図9は、ステップST5を構成する場合の別の手法のアルゴリズムを示している。図9の例では、競合単語に競合確率を付与したのち、ステップST52´で競合確率がある一定の確率よりも大きいか否かの判定を行う。そして競合単語の競合確率が一定の確率よりも大きいものは、ステップST53´によりその区間における競合候補として画面に表示する。また競合単語の競合確率が一定の確率より小さい場合には、ステップST54´で画面には表示しない。なおこの場合でもスキップ候補は表示するようにしてもよい。
そして図10は、スキップ候補を入れる場合のステップST7とステップST8の詳細の一例を示している。ステップST7は、ステップST71乃至ST73によって構成され、ステップST8はステップST81及びST82によって構成される。ステップST71では、訂正の対象になっている単語が本来は何も存在しない区間に誤って挿入された単語であるか判定される。もし誤って挿入されたのであれば、ステップST72へと進み、「スキップ候補」を選択する。その結果ステップST81で、その単語が単語列から削除される。もし誤って挿入された単語でなければ、ステップST73で適切な競合単語をクリックすると、単語列の単語は選択された訂正単語によって置き換わる(ステップST82)。また図11は、前述の一つの単語の一部を構成する音が二つの単語の区間のいずれにも入り得る場合を考慮したときの、ステップST8の詳細を示している。ステップST7で単語をクリックすると、ステップST801で、選択された単語の隣接する区間に対する時間的オーバーラップが形成される。次にステップST802で、時間的にオーバーラップが隣接する単語の区間の半分以上の時間であるか否かが判定される。時間的オーバーラップが半分以下であれば、ステップST803で選択した単語は、隣接する区間に時間的に跨っているとして、隣接する区間に対してはスキップ候補を自動的に選択する。そしてステップST804で、現区間の選択された単語が認識結果として画面に表示され、隣接する区間にはもとの認識結果が削除された状態で画面に表示される。時間的オーバーラップが半分より少なければ、ステップST804で、現区間の選択された単語が認識結果として画面に表示される。
図12は、スキップ候補を自動的に選択する場合の他の例のプログラムのアルゴリズムを示すフローチャートである。このアルゴリズムでは、ステップST811で、隣接する単語の区間の認識結果の競合確率がある一定の値以上であるか否かが判定される。そして競合確率が一定以上で無ければ、ステップST812へと進んで、選択した単語の、隣接する単語の区間の各競合単語に対する言語的接続確率(N−gram)を計算する。次にステップST813で、最も言語的接続確率が大きい単語を、隣接する区間の認識結果として自動的に選択する。
上記実施の形態では、図2に示した音声認識結果の表示と競合候補の表示を同時に行っているので、ユーザの発声が入力され、図2上側に示すような結果が即座に提示される(音声入力開始と共に左から右へ順次表示されていく)ので、訂正作業は、リアルタイムで実施できる。訂正作業では、従来の音声認識と異なり、最上段の通常の認識結果(単語列)に加えて、その下へ「競合候補」のリストを常に表示しているので、競合候補からの選択作業で訂正を行える。図2に示すように、通常の認識結果が各単語の区間ごとに区切られて、その単語に対する競合候補がその下に整列して表示される。前述のように、競合候補の個数はその区間の曖昧さを反映しており、音声認識手段5にとって曖昧で自信がない箇所ほど、多数の候補が表示される。そのため、ユーザは候補が多いところに誤認識がありそうだと思って、注意深く見ることができる。逆に、音声認識手段5が正しいと自信のある区間は候補が少ないため、ユーザに余計な混乱を与えることがない。このように認識結果を提示することで、ユーザは競合候補の中から正解を「選択」する操作だけで、容易に認識誤りを訂正できる。
また本実施の形態のように、前述のスキップ候補を使用すると、最上段の認識結果に湧き出し単語(本来あるべきでない区間に余分な単語が挿入される誤り)が存在しても、ユーザはスキップ候補を選択するだけで容易に削除できる。つまり単語の置き換えと削除が、「選択」という一つの操作でシームレスに実行できる。また、各区間の競合候補は、上から可能性(存在確率)の高い順に並んでいる。つまり、上の方ほど音声認識手段があり得そうな候補だと判断しているので、通常はユーザが上から下へ候補を見ていくと、早く正解にたどり着けるようになっている。さらに、本実施の形態では、発話中の認識結果として可能性のある単語候補が網羅的に列挙され、各区間にスキップ候補も持っているため、遠藤、寺田著“音声入力における対話的候補選択手法”(インタラクション2003論文集、pp.195−196,2003.)で提案されているような認識結果の単語境界の変更も不要になる利点がある。
従来の一部の音声認識装置では、発話が終了するまで認識結果が表示されないことがあった。仮に結果が表示されたとしても、競合候補のような他の可能性が示されることはなく、発話が終了してから結果を吟味するまで、誤りの訂正に移ることはできなかった。そのため、音声入力はキーボード入力と比べて、誤り訂正作業に多くの時間がかかる欠点があることが指摘されていた。その要因として、訂正自体の時間以外に、
1)ユーザが誤り箇所を発見するための時間、
2)誤り箇所を指摘する(カーソル移動する)ための時間、
が余計にかかる点が挙げられる。
これに対して本実施の形態の音声認識装置を用いると、発話中に認識の中間結果を競合候補付きでリアルタイムにフィードバックし続け、さらにユーザの選択も可能になるため、発声の最中に誤りを即時に訂正できる。これにより、上述の2点の作業時間が大幅に短縮される。また実際の訂正にかかる時間も、既に表示されている候補を「選択」するだけであるため、非常に短くなるという利点がある。
図1に示すように、上記の実施の形態では、音声認識手段5は、音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、単語訂正手段9による訂正を許容する機能を備えている。そこで音声認識手段5には、入力された音声が一定時間以上連続して続く連続音であることを判定する連続音判定手段13を設けている。この連続音判定手段13が連続音の入力を判定すると、音声認識実行手段11は、音声認識処理を一時停止し、連続音判定手段13が連続音を判定した後に連続音以外の音が入力されたことを判定すると、一時停止前の状態から音声認識処理を続行する機能を備えている。このような機能を付加すると、通常の会話において、言葉に詰まったときによく発音される言い淀み(言葉が詰まった時点で発音していた音を延ばして発音すること)を利用して、スムーズに音声認識を一時停止することが可能になる。またこのような機能を設けると、訂正作業に時間が必要になった場合には、特定の音声を発音することにより、音声認識処理を一時的に停止できるので、単語の訂正作業をユーザのペースに合わせて焦らずに実行することができる。
図13は、この機能を実現するためのプログラムのアルゴリズムを示す。まずステップST11で音声認識を開始する。そしてステップST12で、ユーザから一時休止を表す特殊なサイン(有声休止のような特定の音声の入力:例えば「えー・・・」と連続する連続音の入力)があったか判定される。この判定がYesであれば、ステップST13へと進み、音声認識処理を一時停止する。そして現段階の処理内容を保存する。そしてステップST2´で現段階までの競合候補を生成し、ステップST5´で現段階までの競合候補を画面に表示する。なおこの例では図5のステップST4に相当するステップは省略している。またステップST12の判定で、特殊なサインがないことが判定されると、ステップST13´で通常通りの音声認識が行われる。なお直前時間までの処理内容が保存されていれば、その続きから認識を再開する。その後ステップST2及びST5へと進んで競合候補を画面に表示する。競合候補の画面への表示が行われたら、図5のステップST6へと進む。なおこの場合ステップST6では、認識結果に誤りが存在しないことの判定を、特殊なサイン(特定の音声の入力:例えば「えー・・・」と連続する連続音の入力)の停止により判断する。
発話中休止機能の具体的実現方法について説明する。発話中に有声休止(言い淀み)が検出され、その直後に一定の無音区間が検出されたら、音声認識手段5の動作を一時停止し、現時点の認識処理過程(それまでの仮説情報、探索空間での現在の位置情報等)を退避する。このとき、有声休止が発声され続けている区間は音声認識の対象とならず、スキップされる。再び発話の開始が検出されると(音声のパワーに基づいて検出)、退避した認識処理過程から音声認識処理を再開し、発話終端が検出されるまで認識処理を続行する。有声休止の検出には、後藤,伊藤及び速水著の“自然発話中の有声休止箇所のリアルタイム検出システム”(信学論,Vol.J83−D−II,No.11,pp.2330−2340,2000.)のリアルタイム有声休止検出手法を採用することができる。この手法は、有声休止(母音の引き延ばし)が持つ2つの音響的特徴(基本周波数の変動が小さい、スペクトル包絡の変形が小さい)をボトムアップな信号処理によってリアルタイムに検出する。そのため、任意の母音の引き延ばしを言語非依存に検出できるという特長を持っている。
上記の発話中休止機能を設けると、発話中にユーザが意図した時点で、認識処理を一時停止させることができる。そして次の発話が始まると、あたかも一時停止前の発話が続いていたかのように動作させることができる。本実施の形態では、ユーザの一時停止の意図を伝えるために、音声中の非言語情報の1つである有声休止[言い淀み(語中の任意の母音の引き延ばし)]を、発話中休止機能のトリガーとして採用した。この有声休止は、人間同士の対話においても、相手に少し待って欲しいときや、喋っている最中に考え事をするときなどに、しばしば行われる。そのため、ユーザは自然に一時停止をかけて、正しい候補を選択したり、続きの発話を考えたりすることができる。
また本実施の形態の音声認識装置及び方法では、認識誤りのほとんどを訂正することが可能になる。しかしながらコンフュージョン・ネットワーク中に含まれなかった候補については選択による訂正処理ができない問題が発生する。この問題を改善するためには、コンフュージョン・ネットワーク生成のための音声認識手段自体をより高精度化する必要がある。そこで本実施の形態では、ユーザとのインタラクション(ここでは訂正処理)を利用したデコーディングによる新しい音声認識手法を採用することが好ましい。図14は、この手法を実施するためのプログラムのアルゴリズムを示すフローチャートである。この手法では、音声認識結果の訂正において、ユーザによって訂正処理が実行されると、訂正後の単語と時間情報、その単語に対するスコア(事後確率)などを保存し(ステップST106)、それらの情報を利用して再度デコーディング(同じ音声データに対して音声認識処理)を行う(ステップST107)。これにより、ユーザが誤り訂正というインタラクションを介して、音声認識器の内部処理を能動的に操作するという、これまでにない機構が実現される。
そのための一つの手法として、訂正単語のN−gram確率の動的強化を用いたデコーディングを行うことが考えられる。図15は、この手法を実施するためのプログラムのアルゴリズムを示すフローチャートである。このプログラムでは、訂正処理の際にユーザが選択した単語(本来の正解)をwselect、入力音声に対するwselectの開始、終了時間をそれぞれTs、Teとする。一方、訂正処理後の再デコーディング(再度の音声認識処理)において、ある時刻での単語候補をw、その直前単語をwprev、wprevの開始時間をts、終了時間をteとする。通常、bigramを用いたビーム探索の場合、現在の候補に対する言語スコア(対数尤度)Slm(w|wprev)は以下のように与えられる。
lm(w|wprev)=log P(w|wprev
このとき、訂正処理の際にユーザが選択した単語の情報をもとにした条件、wprev=wselect、また、wprevの区間時間がwselectの区間時間とオーバーラップがある(すなわちTs<ts<TeもしくはTs<te<Te)、を満たせば、言語スコアを以下のように変更する。
lm(w|wprev)=C log P(w|wprev
ここでC(0<C<1)はbigram値に対する重み係数であり、本願明細書では、これを「インタラクション係数」と呼ぶ。このように、音声訂正後の再デコーディングにおいて、ユーザによって訂正された単語のN−gram確率値を動的に強化することで、その単語に言語制約的に関連する単語を、後続する単語候補として探索ビーム内に残りやすい状態にすることができる。このように音声訂正後の再デコーディングにおいて、ユーザによって訂正された単語のN-gram確率値を動的に強化する(一定の係数を乗ずる)ことで、その単語に言語制約的に関連する単語を、後続する単語候補として探索ビーム内に残りやすくし、もとのデコーディングにて訂正不能だった単語を訂正可能にすることができる。
次に、本発明の音声認識装置及び方法による訂正を用いた高精度なオンライン適応化機能について説明する。現状の一般的な音声認識装置においては、不特定話者・タスクに対して頑健かつ高精度に認識することは困難であり、話者や環境に対して、その認識装置で用いているモデルを適応する技術が必要不可欠となっている。特に、実環境においては、話者や利用環境が頻繁に変化することがあるため、オンラインでの逐次的に適応可能な音声認識装置が望まれる。そこで一般的なオンライン適応の処理過程を以下に示す。
1 入力音声(発話)に対し、既存のモデルを用いて認識を行う。
2 認識結果をもとに適応に用いる教師信号(発話内容テキスト)を生成する。
3 生成した教師信号をもとに、MLLRやMAPなどを用いて適応を行い、音響モデルを更新する。
4 更新した音響モデルを用いて次の発話を認識する。
このようなオンライン適応では、教師信号は既存のモデルを用いた認識により自動的に生成されるため、認識誤りによる「不完全」な発話内容テキストとなり、その結果、適応の性能を大きく劣化させてしまう。これに対し、本実施の形態の音声認識装置では、音声認識の訂正の枠組みにオンライン適応を組み込むことにより、話者、環境に頑健な認識を実現することができる。本実施の形態の音声認識結果の訂正では、効率的かつリアルタイムに認識誤りを訂正することが可能であり、ユーザが訂正した認識結果を教師信号として用いることにより、「完全」な発話内容テキストで高精度な適応処理が可能となる。本実施の形態の音声認識装置では、従来では各々の処理がオフラインで動作することが多かった、「認識」、「訂正」、「オンライン適応」の一連の処理をリアルタイムで実行することが可能である。
図16は、上記の考えに従って、音声認識手段5に音響的適応処理手段を設ける場合のアルゴリズムを示すフローチャートである。また図17は、この音響的適応処理手段を図1の実施の形態に適用する場合のアルゴリズムを示すフローチャートである。音声が入力されると,音響的適応処理手段は、認識処理を行うと同時に,認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う(ステップST01〜ST03)。図17に示すように、この音響的適応処理手段は,単語訂正手段9により訂正処理が実行されたとき(ステップST2、ST5〜ST8)、認識誤りのない正確な教師信号をリアルタイムに生成することで,高精度な音響的適応機能を発揮する。
次に本実施の形態を具体的に実現したインターフェースの試験装置と試験の結果について説明する。図18に、インターフェースのシステム構成要素(プロセス)と、全体の処理の流れを示す。図18においては、プロセスは図のブロックの中の字で示されており、ネットワーク(LAN)上の複数の計算機で分散して実行することが可能である。プロセス間の通信には、音声言語情報をネットワーク上で効率よく共有することを可能にするネットワークプロトコルRVCP(Remote Voice Control Protocol)[後藤,伊藤,秋葉及び速水著の“音声補完:音声入力インターフェースへの新しいモダリティの導入”(コンピュータソフトウェア,Vol.19,No.4,pp.10−21,2002.)]を用いた。
処理の流れについて説明する。まず、マイクロフォン等から音声入力部に入力された音響信号は、ネットワーク上にパケットとして送信される。特徴量抽出部(図1の音声認識手段5に含まれる)、有声休止検出部(図1の音声認識手段5の連続音判定手段13に相当する)、発話区間検出部(図1の音声認識手段5に含まれる)がそのパケットを同時に受信し、音響特徴量(MFCC)や有声休止、発話の始終端をそれぞれ求める。これらの情報は、パケットとして音声認識部(図1の音声認識実行手段11に相当する)に送信され、認識処理が実行される。このとき、有声休止は、発話中休止機能を呼び出すトリガーとして利用される。音声認識部では、中間結果としてコンフュージョン・ネットワークが生成され、その情報はパケットとしてインターフェース管理部(図1の単語訂正手段9に含まれる)に送信される。インターフェース管理部では候補を表示し、マウスによるクリックや、パネル上をペンや指で触れる操作によってその選択を可能にする。
試験装置では、音響モデルとして、新聞記事読み上げコーパスJNASから学習した音節モデル[緒方,有木著の“日本語話し言葉音声認識のための音節に基づく音響モデリング”(信学論,Vol.J86−D−II,No.11,pp.1523−1530,2003.)](モデル数244、1状態あたりの混合数16)を用い、言語モデルには、CSRCソフトウエア2000年度版[河原他著の“連続音声認識コンソーシアム2000年度版ソフトウエアの概要と評価”(情処研報,2001−SLP−38−6,2001.)]の中から、新聞記事テキストより学習された20000語のbigramをそれぞれ用いた。また、試験装置で用いた音声認識実行手段としては、back−off制約N−best探索アルゴリズム[緒方,有木著の“大語彙連続音声認識における最ゆう単語back−off接続を用いた効率的なN−best探索法”(信学論,Vol.84−D−II,No.12,pp.2489−2500,2001.)]により、リアルタイムにコンフュージョン・ネットワークを生成できるように拡張されているものを用いた。
図19(A)及び(B)に発話中休止機能を利用しない場合の表示画面を示しており、図20(A)乃至(D)に発話中休止機能を利用した場合の表示画面をそれぞれ示す。この試験装置では、図2の表示に相当する表示部分(「候補表示部」と呼ぶ)の上に、さらに一行追加されている。これは、候補を選択して訂正した後の最終的な音声入力結果を表示している。候補表示部では、現在選択されている単語の背景が着色される。何も選択していない状態では、候補表示部の最上段の最尤単語列が選択されている。ユーザが他の候補をクリックして選択すると、その候補の背景が着色されるだけでなく、画面最上部の最終的な音声入力結果も書き換えられる(図19及び図20では、選択操作で訂正した箇所だけ、文字の色を変えてわかりやすく表示している)。
次に、音声認識結果の訂正の基本性能を評価した結果と、実装したインターフェースの運用結果について説明する。
[音声訂正の基本性能]
音声訂正が実用的に使えるかどうかを評価するには、認識誤りを訂正することがどの程度可能か、すなわち、表示される競合候補の中に本来の正解がどの程度含まれているか、を調査することが重要となる。そこで、男性25人が発話した計100発話を対象に、候補を上位N個まで提示したときの訂正後の認識率(最終的な音声入力成功率)を、誤り訂正能力として評価した。つまりここでの認識率は、例えばN=5の場合、上位5個以内に正解が含まれる割合で表される。通常の認識性能(N=1のときの認識率)は86.70%であった。
図21に、Nの値ごとの認識率を示す。実験結果より、提示する候補数を増やすと認識率が向上し、11以上で飽和することがわかった。このときの認識率は99.36%であり、これは、通常の認識結果の全ての誤り(209個)のうち、約95%の誤り(199個)を訂正可能であることを示している。訂正できなかった10個を調査したところ、4個は用いた音声認識の単語辞書中に登録されていない、いわゆる未知語であった。また、N=5程度でもほとんどの誤りを訂正できることもわかった。
従来の音声訂正では、提示する候補数が多すぎるとユーザ側の混乱を招き、逆に少なすぎると誤りを訂正できなくなるが、コンフュージョン・ネットワークを用いることにより、提示する競合候補数を抑えつつ、ほとんどの誤りを訂正することが可能であることがわかった。ただし、実験でも示されたように、音声認識器の知らない未知語に関しては、現時点では、音声訂正を用いても訂正できない。この解決は今後の課題であり、ユーザとのさらなるインタラクションを介して未知語を解消する枠組みが必要になると考えている。
[運用結果]
実際に、4人のユーザに新聞記事の文章を読み上げてもらい、試験装置(インタフェース)により訂正処理を行ってもらった。どのユーザも、提示される競合候補に混乱されることなく、適切に訂正処理が行えることを確認した。言い淀みによる発話中休止機能も適切に使用され、特に長い文章を入力する場合は、本機能を使用すれば入力の際の労力が軽減されたとの感想を得た。また、使用方法も選択のみの操作で単純であり、GUIも直感的でわかりやすいと評価された。実際に、他人が使用している様子を見たユーザが、訓練せずに即座に使用できることがわかった。
上記実施の形態では、競合単語の選択をマウスを用いて行っている。しかし図22に示すようにPDA等の携帯端末装置MBで本発明を実施する場合には、タッチペンTPを入力手段として競合単語の選択を行えばよい。
本発明の音声認識方法及びプログラムを実行する本発明の音声認識装置の実施の形態の一例をコンピュータを用いて実現する場合にコンピュータ内に実現される機能実現手段を概略的に示したブロック図である。 実施の形態における競合候補の表示状態を示す図である。 音声認識で一般的に用いられる中間結果である単語グラフの一例を示す図である。 (A)は、単語グラフを音響的なクラスタリングをする場合の説明に用いる図であり、(B)はクラスタリングによりリニアな形式に圧縮した状態を概念的に示す図である。 本発明の音声認識方法をコンピュータで実現する場合にコンピュータにインストールするプログラムの一例の基本アルゴリズムを示すフローチャートである。 図5のステップST2の詳細をステップST1と一緒に示したフローチャートである。 スキップ候補を導入した場合のステップST2の一部の詳細を示すフローチャートである。 ステップST5の詳細の一例を示すフローチャートである。 ステップST5を構成する場合の別の手法のアルゴリズムを示すフローチャートである スキップ候補を入れる場合のステップST7とステップST8の詳細の一例を示すフローチャートである。 一つの単語の一部を構成する音が二つの単語の区間のいずれにも入り得る場合を考慮したときの、ステップST8の動作を示すフローチャートである。 スキップ候補を自動的に選択する場合の他の例のプログラムのアルゴリズムを示すフローチャートである。 発音中休止機能を実現するためのプログラムのアルゴリズムを示すフローチャートである。 新しい音声認識手法を実施するためのプログラムのアルゴリズムを示すフローチャートである。 訂正単語のN−gram確率の動的強化を用いたデコーディングを行う場合のプログラムのアルゴリズムを示すフローチャートである。 音声認識手段に音響的適応処理手段を設ける場合のアルゴリズムを示すフローチャートである。 音響的適応処理手段を図1の実施の形態に適用する場合のアルゴリズムを示すフローチャートである。 インターフェースのシステム構成要素(プロセス)と、全体の処理の流れを示す図である。 (A)及び(B)は発話中休止機能を利用しない場合の表示画面の例を示す図である。 (A)乃至(D)は発話中休止機能を利用した場合の表示画面をそれぞれ示す図である。 Nの値ごとの認識率を示す図である。 本発明の実施に利用可能な携帯端末装置を示す図である。
符号の説明
1 音声認識装置
3 音声入力手段
5 音声認識手段
7 認識結果表示手段
9 単語訂正手段
11 音声認識実行手段
13 連続音判定手段
12 データ記憶手段
15 競合単語表示指令手段
17 競合単語選択手段
19 単語置き換え指令手段

Claims (44)

  1. 音声を入力するための音声入力手段と、
    予め定めた判定手法に従って、前記音声入力手段から入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識手段と、
    前記音声認識手段により認識された認識結果を複数の単語の単語列として画面に表示する認識結果表示手段と、
    前記画面に表示された単語列を構成する前記一番競合確率の高い複数の単語を訂正する単語訂正手段とを備えた音声認識装置であって、
    前記予め定めた判定手法は、コンフュージョン・ネットワークを用いて前記音声の入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、前記複数の単語の区間ごとに前記コンフュージョン・ネットワークによって得られる競合確率を求めて、前記一番競合確率の高い単語を決定する手法であり、
    前記単語訂正手段は、
    前記競合候補の中から前記一番競合確率の高い単語の競合確率に近い競合確率を持つ1以上の競合単語を選び、対応する前記一番競合確率の高い単語に隣接して前記画面上に表示させる競合単語表示指令手段と、
    ユーザによるマニュアル操作に応じて、前記画面上に表示された前記1以上の競合単語から適切な訂正単語を選択する競合単語選択手段と、
    前記競合単語選択手段により選択された前記訂正単語を、前記音声認識手段により認識された前記一番競合確率の高い単語と置き換えることを前記音声認識手段に指令する単語置き換え指令手段とを備え、
    前記競合単語表示指令手段は、前記競合単語の前記競合確率の分布状況に応じて、前記画面上に表示する前記競合単語の数を変えることを特徴とする音声認識装置。
  2. 前記競合単語表示指令手段は、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が少ない場合には、前記画面上に表示する前記競合単語の数を少なくし、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が多い場合には、前記画面上に表示する前記競合単語の数を多くする請求項に記載の音声認識装置。
  3. 前記競合単語表示指令手段は、前記単語列に含まれる前記複数の単語の上側または下側に、競合確率の高い順番に前記競合単語が並ぶように前記画面上に表示させる機能をさらに備えている請求項1に記載の音声認識装置。
  4. 前記競合単語表示指令手段は、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含む機能を備えており、
    前記単語置き換え指令手段は、前記スキップ候補が選択されると、前記音声認識手段による前記認識結果から対応する前記一番競合確率の高い単語を削除することを前記音声認識手段に指令する機能を備えている請求項1に記載の音声認識装置。
  5. 前記競合単語表示指令手段は、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含む機能を備えており、
    前記単語置き換え指令手段は、前記スキップ候補が選択されると、前記音声認識手段による前記認識結果から対応する前記一番競合確率の高い単語を削除することを前記音声認識手段に指令する機能を備えており、
    前記スキップ候補にも競合確率が付与されることを特徴とする請求項に記載の音声認識装置。
  6. 前記予め定めた判定手法は、一つの前記単語の一部を構成する音が二つの前記単語の区間のいずれにも入り得る場合には、前記一つの単語の一部を構成する音を前記二つの単語の区間の一方に含め、前記単語訂正手段により前記二つの単語の区間の一方に属する単語の訂正が行われると、前記二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるように前記スキップ候補を自動選択する手法である請求項に記載の音声認識装置。
  7. 前記認識結果表示手段は、リアルタイムに前記認識結果を前記画面に表示する機能を有し、
    前記単語訂正手段は、前記認識結果表示手段による前記認識結果の前記画面への表示と一緒に前記競合単語をリアルタイムに前記画面上に表示する機能を有している請求項1に記載の音声認識装置。
  8. 前記競合単語表示指令手段は、前記単語訂正手段により一部の前記単語が訂正されると、その訂正された単語を前記単語列においては、ユーザにより訂正された本来正解である単語として、再度競合単語の選び直しを行う機能を有している請求項1に記載の音声認識装置。
  9. 前記競合単語表示指令手段は、前記単語列中の前記訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の前記競合単語との言語的な接続確率を算出し、前記接続確率が大きいものを前記画面に表示する前記競合単語として選び、前に前記画面に表示している前記競合単語と入れ替えを行うまたは前に前記画面に表示している前記競合単語に追加する機能をさらに有している請求項に記載の音声認識装置。
  10. 前記音声認識手段は、前記単語訂正手段により訂正の対象となった単語、訂正時間の情報及び前記訂正された単語に対する事後確率を蓄積データとして保存し、これらの蓄積データを利用して再度の音声認識を行う機能をさらに有している請求項1に記載の音声認識装置。
  11. 前記音声認識手段は、前記音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、前記単語訂正手段による訂正を許容する機能を有している請求項1に記載の音声認識装置。
  12. 前記音声認識手段は、
    入力される前記音声が一定時間以上連続して続く連続音であることを判定する連続音判定手段を備えており、
    前記連続音判定手段が前記連続音の入力を判定すると、前記音声認識処理を一時停止し、前記連続音判定手段が前記連続音を判定した後に前記連続音以外の音が入力されたことを判定すると、前記一時停止前の状態から前記音声認識処理を続行する機能を有している請求項1に記載の音声認識装置。
  13. 前記音声認識手段は、前記単語訂正手段により訂正の対象となった単語と、入力された音声における前記単語の位置情報または時間情報を保存し、前記再度の音声認識において、保存した位置情報または時間情報における前記単語の言語確率を動的に強化することにより、その単語に関連する単語を認識しやすくする機能を有している請求項10に記載の音声認識装置。
  14. 前記音声認識手段は、音声が入力されると、音声認識処理を行うと同時に、前記音声認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う音響的適応処理手段を備えている請求項1に記載の音声認識装置。
  15. 前記音響的適応処理手段は、前記単語訂正手段により、認識誤りのない正確な教師信号をリアルタイムに生成することで、高精度な音響的適応機能を有している請求項14に記載の音声認識装置。
  16. 予め定めた判定手法に従って、入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識ステップと、
    前記音声認識ステップにより認識された認識結果を複数の単語の単語列として画面に表示する認識結果表示ステップと、
    前記画面に表示された単語列を構成する前記一番競合確率の高い複数の単語を訂正する単語訂正ステップとを実行する音声認識方法であって、
    前記予め定めた判定手法は、コンフュージョン・ネットワークを用いて前記音声の入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、前記複数の単語の区間ごとに前記コンフュージョン・ネットワークによって得られる競合確率を求めて、前記一番競合確率の高い単語を決定する手法であり、
    前記単語訂正ステップでは、
    前記競合候補の中から前記一番競合確率の高い単語の競合確率に近い競合確率を持つ1以上の競合単語を選び、対応する前記一番競合確率の高い単語に隣接して前記画面上に表示させる競合単語表示ステップと、
    ユーザによるマニュアル操作に応じて、前記画面上に表示された前記1以上の競合単語から適切な訂正単語を選択する競合単語選択ステップと、
    前記競合単語選択ステップで選択された前記訂正単語を、先に前記音声認識ステップにより認識された前記一番競合確率の高い単語と置き換えて前記画面に表示する単語置き換えステップとを実行し、
    さらに前記競合単語表示ステップでは、前記競合単語の前記競合確率の分布状況に応じて、前記画面上に表示する前記競合単語の数を変えることを特徴とする音声認識方法。
  17. 前記競合単語表示ステップでは、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が少ない場合には、前記画面上に表示する前記競合単語の数を少なくし、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が多い場合には、前記画面上に表示する前記競合単語の数を多くする請求項16に記載の音声認識方法。
  18. 前記競合単語表示ステップでは、前記単語列に含まれる前記複数の単語の上側または下側に、競合確率の高い順番に前記競合単語が並ぶように前記画面上に表示する請求項16に記載の音声認識方法。
  19. 前記競合単語表示ステップでは、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含めてあり、
    前記単語置き換えステップでは、前記スキップ候補が選択されると、前記音声認識ステップによる前記認識結果から対応する前記一番競合確率の高い単語を削除する請求項16に記載の音声認識方法。
  20. 前記競合単語表示ステップでは、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含めており、
    前記単語置き換えステップでは、前記スキップ候補が選択されると、前記音声認識ステップによる前記認識結果から対応する前記一番競合確率の高い単語を削除し、
    前記スキップ候補にも競合確率を付与することを特徴とする請求項16に記載の音声認識方法。
  21. 前記予め定めた判定手法は、一つの前記単語の一部を構成する音が二つの前記単語の区間のいずれにも入り得る場合には、前記一つの単語の一部を構成する音を前記二つの単語の区間の一方に含め、前記単語訂正手段により前記二つの単語の区間の一方に属する単語の訂正が行われると、前記二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるように前記スキップ候補を自動選択する手法である請求項20に記載の音声認識方法。
  22. 前記認識結果表示ステップは、リアルタイムに前記認識結果を前記画面に表示し、
    前記単語訂正ステップでは、前記認識結果表示ステップによる前記認識結果の前記画面への表示と一緒に前記競合単語をリアルタイムに前記画面上に表示する請求項16に記載の音声認識方法。
  23. 前記競合単語表示ステップでは、前記単語訂正ステップにより一部の前記単語が訂正されると、その訂正された単語を前記単語列においては、ユーザにより訂正された本来正解である単語として、再度競合単語の選び直しを行う請求項16に記載の音声認識方法。
  24. 前記競合単語表示ステップでは、前記単語列中の前記訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の前記競合単語との言語的な接続確率を算出し、前記接続確率が大きいものを前記画面に表示する前記競合単語として選び、前に前記画面に表示している前記競合単語と入れ替えを行うまたは前に前記画面に表示している前記競合単語に追加する請求項23に記載の音声認識方法。
  25. 前記音声認識ステップでは、前記単語訂正ステップにより訂正の対象となった単語、訂正時間の情報及び前記訂正された単語に対する事後確率を蓄積データとして保存し、これらの蓄積データを利用して再度の音声認識を行う請求項16に記載の音声認識方法。
  26. 前記音声認識ステップでは、前記音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、前記単語訂正ステップによる訂正を許容する請求項16に記載の音声認識方法。
  27. 前記音声認識ステップでは、
    入力される前記音声が一定時間以上連続して続く連続音であることを判定すると、前記音声認識処理を一時停止し、前記連続音を判定した後に前記連続音以外の音が入力されたことを判定すると、前記一時停止前の状態から前記音声認識処理を続行する請求項16に記載の音声認識方法。
  28. 前記音声認識ステップでは、前記単語訂正ステップにより訂正の対象となった単語と、入力された音声における前記単語の位置情報または時間情報を保存し、前記再度の音声認識において、保存した位置情報または時間情報における前記単語の言語確率を動的に強化することにより、その単語に関連する単語を認識しやすくする請求項25に記載の音声認識方法。
  29. 前記音声認識ステップでは、音声が入力されると、音声認識処理を行うと同時に、前記音声認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う請求項16に記載の音声認識方法。
  30. コンピュータを用いて、音声を認識し、画面上に認識結果を文字で表示する機能を前記コンピュータに実行させるためのプログラムであって、
    入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識機能と、
    前記音声認識機能により認識された認識結果を複数の単語の単語列として画面に表示する認識結果表示機能と、
    前記画面に表示された単語列を構成する前記一番競合確率の高い複数の単語を訂正する単語訂正機能とを前記コンピュータに実行させ、
    前記音声認識機能では、コンフュージョン・ネットワークを用いて前記音声の入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、前記複数の単語の区間ごとに前記コンフュージョン・ネットワークによって得られる競合確率を求めて、前記一番競合確率の高い単語を決定し、
    前記単語訂正機能では、
    前記競合候補の中から前記一番競合確率の高い単語の競合確率に近い競合確率を持つ1以上の競合単語を選び、対応する前記一番競合確率の高い単語に隣接して前記画面上に表示させる競合単語表示機能と、
    ユーザによるマニュアル操作に応じて、前記画面上に表示された前記1以上の競合単語から適切な訂正単語を選択する競合単語選択機能と、
    前記競合単語選択ステップで選択された前記訂正単語を、先に前記音声認識ステップにより認識された前記一番競合確率の高い単語と置き換えて前記画面に表示する単語置き換え機能とを前記コンピュータに実行させるように構成され、
    前記競合単語表示機能では、前記競合単語の前記競合確率の分布状況に応じて、前記画面上に表示する前記競合単語の数を変えることを特徴とするプログラム。
  31. 前記競合単語表示機能では、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が少ない場合には、前記画面上に表示する前記競合単語の数を少なくし、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が多い場合には、前記画面上に表示する前記競合単語の数を多くする請求項30に記載のプログラム。
  32. 前記競合単語表示機能では、前記単語列に含まれる前記複数の単語の上側または下側に、競合確率の高い順番に前記競合単語が並ぶように前記画面上に表示する請求項30に記載のプログラム。
  33. 前記競合単語表示機能では、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含めてあり、
    前記単語置き換え機能では、前記スキップ候補が選択されると、前記音声認識機能の実行による前記認識結果から対応する前記一番競合確率の高い単語を削除する請求項30に記載のプログラム。
  34. 前記競合単語表示機能では、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含めており、
    前記単語置き換え機能では、前記スキップ候補が選択されると、前記音声認識機能の実行による前記認識結果から対応する前記一番競合確率の高い単語を削除し、
    前記スキップ候補にも競合確率を付与することを特徴とする請求項30に記載のプログラム。
  35. 前記音声認識機能では、一つの前記単語の一部を構成する音が二つの前記単語の区間のいずれにも入り得る場合には、前記一つの単語の一部を構成する音を前記二つの単語の区間の一方に含め、前記単語訂正手段により前記二つの単語の区間の一方に属する単語の訂正が行われると、前記二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるように前記スキップ候補を自動選択する請求項34に記載のプログラム。
  36. 前記認識結果表示機能では、リアルタイムに前記認識結果を前記画面に表示し、
    前記単語訂正機能では、前記認識結果表示機能の実行による前記認識結果の前記画面への表示と一緒に前記競合単語をリアルタイムに前記画面上に表示する請求項30に記載のプログラム。
  37. 前記競合単語表示機能では、前記単語訂正機能により一部の前記単語が訂正されると、その訂正された単語を前記単語列においては、ユーザにより訂正された本来正解である単語として、再度競合単語の選び直しを行う請求項30に記載のプログラム。
  38. 前記競合単語表示機能では、前記単語列中の前記訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の前記競合単語との言語的な接続確率を算出し、前記接続確率が大きいものを前記画面に表示する前記競合単語として選び、前に前記画面に表示している前記競合単語と入れ替えを行うまたは前に前記画面に表示している前記競合単語に追加する請求項37に記載のプログラム。
  39. 前記音声認識機能では、前記単語訂正機能の実行により訂正の対象となった単語、訂正時間の情報及び前記訂正された単語に対する事後確率を蓄積データとして保存し、これらの蓄積データを利用して再度の音声認識を行う請求項30に記載のプログラム。
  40. 前記音声認識機能では、前記音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、前記単語訂正機能の実行による訂正を許容する請求項30に記載のプログラム。
  41. 前記音声認識機能では、
    入力される前記音声が一定時間以上連続して続く連続音であることを判定すると、前記音声認識処理を一時停止し、前記連続音を判定した後に前記連続音以外の音が入力されたことを判定すると、前記一時停止前の状態から前記音声認識処理を続行する請求項30に記載のプログラム。
  42. 前記音声認識機能では、前記単語訂正機能の実行により訂正の対象となった単語と、入力された音声における前記単語の位置情報または時間情報を保存し、前記再度の音声認識において、保存した位置情報または時間情報における前記単語の言語確率を動的に強化することにより、その単語に関連する単語を認識しやすくする請求項39に記載のプログラム。
  43. 前記音声認識機能では、音声が入力されると、音声認識処理を行うと同時に、認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う請求項30に記載のプログラム。
  44. 前記音響的適応処理は、前記単語訂正機能により、認識誤りのない正確な教師信号をリアルタイムに生成することで、高精度な音響的適応機能を有する請求項43に記載のプログラム。
JP2004338234A 2004-11-22 2004-11-22 音声認識装置及び方法ならびにプログラム Active JP4604178B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2004338234A JP4604178B2 (ja) 2004-11-22 2004-11-22 音声認識装置及び方法ならびにプログラム
GB0712277A GB2437436B (en) 2004-11-22 2005-11-18 Voice recognition device and method, and program
US11/719,479 US7848926B2 (en) 2004-11-22 2005-11-18 System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
PCT/JP2005/021296 WO2006054724A1 (ja) 2004-11-22 2005-11-18 音声認識装置及び方法ならびにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004338234A JP4604178B2 (ja) 2004-11-22 2004-11-22 音声認識装置及び方法ならびにプログラム

Publications (2)

Publication Number Publication Date
JP2006146008A JP2006146008A (ja) 2006-06-08
JP4604178B2 true JP4604178B2 (ja) 2010-12-22

Family

ID=36407260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004338234A Active JP4604178B2 (ja) 2004-11-22 2004-11-22 音声認識装置及び方法ならびにプログラム

Country Status (4)

Country Link
US (1) US7848926B2 (ja)
JP (1) JP4604178B2 (ja)
GB (1) GB2437436B (ja)
WO (1) WO2006054724A1 (ja)

Families Citing this family (234)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
WO2008043582A1 (en) * 2006-10-13 2008-04-17 International Business Machines Corporation Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in said dictionary
US20080114597A1 (en) * 2006-11-14 2008-05-15 Evgeny Karpov Method and apparatus
GB2457855B (en) * 2006-11-30 2011-01-12 Nat Inst Of Advanced Ind Scien Speech recognition system and speech recognition system program
GB2458238B (en) * 2006-11-30 2011-03-23 Nat Inst Of Advanced Ind Scien Web site system for voice data search
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8352264B2 (en) * 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
JP5072415B2 (ja) * 2007-04-10 2012-11-14 三菱電機株式会社 音声検索装置
JP2009075263A (ja) * 2007-09-19 2009-04-09 Kddi Corp 音声認識装置およびコンピュータプログラム
JP4839291B2 (ja) * 2007-09-28 2011-12-21 Kddi株式会社 音声認識装置およびコンピュータプログラム
WO2009078256A1 (ja) * 2007-12-18 2009-06-25 Nec Corporation 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20090326938A1 (en) * 2008-05-28 2009-12-31 Nokia Corporation Multiword text correction
JP5519126B2 (ja) * 2008-06-27 2014-06-11 アルパイン株式会社 音声認識装置及び音声認識方法
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
JP5054711B2 (ja) * 2009-01-29 2012-10-24 日本放送協会 音声認識装置および音声認識プログラム
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5535238B2 (ja) * 2009-11-30 2014-07-02 株式会社東芝 情報処理装置
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
JP5633042B2 (ja) * 2010-01-28 2014-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識ロボット
WO2011093025A1 (ja) * 2010-01-29 2011-08-04 日本電気株式会社 入力支援システム、方法、およびプログラム
US8423351B2 (en) * 2010-02-19 2013-04-16 Google Inc. Speech correction for typed input
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9842591B2 (en) * 2010-05-19 2017-12-12 Sanofi-Aventis Deutschland Gmbh Methods and systems for modifying operational data of an interaction process or of a process for determining an instruction
JP5160594B2 (ja) * 2010-06-17 2013-03-13 株式会社エヌ・ティ・ティ・ドコモ 音声認識装置および音声認識方法
JP5538099B2 (ja) * 2010-07-02 2014-07-02 三菱電機株式会社 音声入力インタフェース装置及び音声入力方法
US9263034B1 (en) * 2010-07-13 2016-02-16 Google Inc. Adapting enhanced acoustic models
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
KR101828273B1 (ko) * 2011-01-04 2018-02-14 삼성전자주식회사 결합기반의 음성명령 인식 장치 및 그 방법
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8749618B2 (en) 2011-06-10 2014-06-10 Morgan Fiumi Distributed three-dimensional video conversion system
US9026446B2 (en) * 2011-06-10 2015-05-05 Morgan Fiumi System for generating captions for live video broadcasts
US8532469B2 (en) 2011-06-10 2013-09-10 Morgan Fiumi Distributed digital video processing system
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US20130073286A1 (en) * 2011-09-20 2013-03-21 Apple Inc. Consolidating Speech Recognition Results
JP5679345B2 (ja) * 2012-02-22 2015-03-04 日本電信電話株式会社 音声認識精度推定装置、音声認識精度推定方法、プログラム
JP5679346B2 (ja) * 2012-02-22 2015-03-04 日本電信電話株式会社 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN103714048B (zh) 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
CN103871401B (zh) * 2012-12-10 2016-12-28 联想(北京)有限公司 一种语音识别的方法及电子设备
JP2014134640A (ja) * 2013-01-09 2014-07-24 Nippon Hoso Kyokai <Nhk> 文字起こし装置およびプログラム
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
JP5701327B2 (ja) * 2013-03-15 2015-04-15 ヤフー株式会社 音声認識装置、音声認識方法、およびプログラム
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
JP6155821B2 (ja) * 2013-05-08 2017-07-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
CN104157285B (zh) * 2013-05-14 2016-01-20 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
JP2015022590A (ja) * 2013-07-19 2015-02-02 株式会社東芝 文字入力装置、文字入力方法、及び文字入力プログラム
KR102229972B1 (ko) * 2013-08-01 2021-03-19 엘지전자 주식회사 음성 인식 장치 및 그 방법
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6272496B2 (ja) * 2014-07-22 2018-01-31 三菱電機株式会社 単語のシーケンスを含む音声を認識するための方法及びシステム
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
WO2016104193A1 (ja) * 2014-12-26 2016-06-30 シャープ株式会社 対応決定装置、音声対話システム、対応決定装置の制御方法、および音声対話装置
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
EP3089159B1 (en) * 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11423023B2 (en) 2015-06-05 2022-08-23 Apple Inc. Systems and methods for providing improved search functionality on a client device
US10769184B2 (en) 2015-06-05 2020-09-08 Apple Inc. Systems and methods for providing improved search functionality on a client device
US10360902B2 (en) * 2015-06-05 2019-07-23 Apple Inc. Systems and methods for providing improved search functionality on a client device
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
CN106251869B (zh) 2016-09-22 2020-07-24 浙江吉利控股集团有限公司 语音处理方法及装置
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US20180315415A1 (en) * 2017-04-26 2018-11-01 Soundhound, Inc. Virtual assistant with error identification
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
CN112802459A (zh) * 2017-05-23 2021-05-14 创新先进技术有限公司 一种基于语音识别的咨询业务处理方法及装置
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
WO2019163242A1 (ja) 2018-02-20 2019-08-29 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10269376B1 (en) * 2018-06-28 2019-04-23 Invoca, Inc. Desired signal spotting in noisy, flawed environments
JP7107059B2 (ja) * 2018-07-24 2022-07-27 日本電信電話株式会社 文生成装置、モデル学習装置、文生成方法、モデル学習方法、及びプログラム
JP6601826B1 (ja) * 2018-08-22 2019-11-06 Zホールディングス株式会社 分割プログラム、分割装置、及び分割方法
JP6601827B1 (ja) * 2018-08-22 2019-11-06 Zホールディングス株式会社 結合プログラム、結合装置、及び結合方法
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
JP7063843B2 (ja) * 2019-04-26 2022-05-09 ファナック株式会社 ロボット教示装置
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110415679B (zh) * 2019-07-25 2021-12-17 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
US11263198B2 (en) 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query
JP7116088B2 (ja) * 2019-09-09 2022-08-09 北京小米移動軟件有限公司 音声情報処理方法、装置、プログラム及び記録媒体
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN111261166B (zh) * 2020-01-15 2022-09-27 云知声智能科技股份有限公司 一种语音识别方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099084A (ja) * 1998-09-18 2000-04-07 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5876944A (ja) * 1981-10-31 1983-05-10 Toshiba Corp 複数候補の表示方法
JPH01197797A (ja) * 1988-02-02 1989-08-09 Ricoh Co Ltd 音節認識結果選択方式
US5329609A (en) * 1990-07-31 1994-07-12 Fujitsu Limited Recognition apparatus with function of displaying plural recognition candidates
JPH06301395A (ja) 1993-04-13 1994-10-28 Sony Corp 音声認識装置
JPH09258786A (ja) * 1996-03-21 1997-10-03 Fuji Xerox Co Ltd 調整機能を有する音声認識装置
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
JPH10197797A (ja) * 1997-01-06 1998-07-31 Olympus Optical Co Ltd 結像光学系
JP3795692B2 (ja) * 1999-02-12 2006-07-12 マイクロソフト コーポレーション 文字処理装置および方法
TW473704B (en) * 2000-08-30 2002-01-21 Ind Tech Res Inst Adaptive voice recognition method with noise compensation
US6754625B2 (en) * 2000-12-26 2004-06-22 International Business Machines Corporation Augmentation of alternate word lists by acoustic confusability criterion
US6785650B2 (en) * 2001-03-16 2004-08-31 International Business Machines Corporation Hierarchical transcription and display of input speech
JP4604377B2 (ja) 2001-03-27 2011-01-05 株式会社デンソー 音声認識装置
JP2002297181A (ja) 2001-03-30 2002-10-11 Kddi Corp 音声認識語彙登録判定方法及び音声認識装置
US6859774B2 (en) * 2001-05-02 2005-02-22 International Business Machines Corporation Error corrective mechanisms for consensus decoding of speech
JP3906327B2 (ja) * 2002-03-29 2007-04-18 独立行政法人産業技術総合研究所 音声入力モード変換システム
JP3682922B2 (ja) * 2002-04-24 2005-08-17 日本放送協会 リアルタイム文字修正装置およびリアルタイム文字修正プログラム
JP2004309928A (ja) 2003-04-09 2004-11-04 Casio Comput Co Ltd 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
EP1471502A1 (en) * 2003-04-25 2004-10-27 Sony International (Europe) GmbH Method for correcting a text produced by speech recognition
JP2005234236A (ja) * 2004-02-19 2005-09-02 Canon Inc 音声認識装置、音声認識方法、記憶媒体およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099084A (ja) * 1998-09-18 2000-04-07 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置

Also Published As

Publication number Publication date
WO2006054724A1 (ja) 2006-05-26
US20080052073A1 (en) 2008-02-28
US7848926B2 (en) 2010-12-07
GB2437436B (en) 2009-07-08
GB2437436A (en) 2007-10-24
GB0712277D0 (en) 2007-08-01
JP2006146008A (ja) 2006-06-08

Similar Documents

Publication Publication Date Title
JP4604178B2 (ja) 音声認識装置及び方法ならびにプログラム
JP4510953B2 (ja) 音声認識におけるノンインタラクティブ方式のエンロールメント
JP4444396B2 (ja) 音声認識におけるポジション操作
JP6550068B2 (ja) 音声認識における発音予測
US9754586B2 (en) Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US8019602B2 (en) Automatic speech recognition learning using user corrections
US9640175B2 (en) Pronunciation learning from user correction
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US9361883B2 (en) Dictation with incremental recognition of speech
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP2007041319A (ja) 音声認識装置および音声認識方法
JP4634156B2 (ja) 音声対話方法および音声対話装置
JP2004170765A (ja) 音声処理装置および方法、記録媒体並びにプログラム
JP2010197644A (ja) 音声認識システム
JP4392581B2 (ja) 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
JP2000056795A (ja) 音声認識装置
JP2004029354A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
KR20050101695A (ko) 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법
JP3575904B2 (ja) 連続音声認識方式及び標準パタン訓練方式
JP2001188556A (ja) 音声認識方法及び装置
JP2001013992A (ja) 音声理解装置
Ringger A robust loose coupling for speech recognition and natural language understanding
JP4790956B2 (ja) 音声認識器における綴りモード

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100907

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100908

R150 Certificate of patent or registration of utility model

Ref document number: 4604178

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250