JP2007256836A - 音声認識装置、音声認識方法および音声認識プログラム - Google Patents

音声認識装置、音声認識方法および音声認識プログラム Download PDF

Info

Publication number
JP2007256836A
JP2007256836A JP2006083762A JP2006083762A JP2007256836A JP 2007256836 A JP2007256836 A JP 2007256836A JP 2006083762 A JP2006083762 A JP 2006083762A JP 2006083762 A JP2006083762 A JP 2006083762A JP 2007256836 A JP2007256836 A JP 2007256836A
Authority
JP
Japan
Prior art keywords
word
recognition
candidate
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006083762A
Other languages
English (en)
Other versions
JP4734155B2 (ja
Inventor
Kazuo Sumita
一男 住田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006083762A priority Critical patent/JP4734155B2/ja
Priority to CNA2007100843680A priority patent/CN101042867A/zh
Priority to US11/712,412 priority patent/US7974844B2/en
Publication of JP2007256836A publication Critical patent/JP2007256836A/ja
Application granted granted Critical
Publication of JP4734155B2 publication Critical patent/JP4734155B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

【課題】音声認識の誤りの修正負担を軽減する音声認識装置を提供する。
【解決手段】単語間の意味関係と関連度とを対応づけて記憶する意味関係記憶部124と、音声入力を受付けるボタン入力受付部111と、認識候補と尤度とを生成する候補生成部114と、第1の音声に対する第1の認識候補から認識結果を選択する第1候補選択部115aと、第1の音声の修正すべき単語と修正の手がかり語とを含む第2の音声に対する第2の認識候補から、修正すべき単語に対する単語の認識候補と手がかり語に対する単語の認識候補とを抽出し、抽出した認識候補間の意味関係に対応する関連度を取得し、関連度に基づいて認識結果を選択する第2候補選択部115bと、第1および第2の音声の認識結果を照合し、第1の音声の修正箇所を特定する修正箇所特定部116と、修正箇所を修正する修正部117と、を備えた。
【選択図】 図2

Description

この発明は、音声信号を入力として文字列に変換する音声認識装置、音声認識方法および音声認識プログラムに関するものである。
近年、音声入力を用いたヒューマンインタフェースの実用化が進んでいる。例えば、ユーザが予め設定されている特定のコマンドを音声入力し、これをシステムが認識して対応する操作を実行することによって、ユーザが音声でシステムを操作することができるようにした音声操作システムが実現されている。また、ユーザが発生した任意の文章をシステムが分析し、文字列に変換することによって、音声入力による文書作成を可能とするシステムが実現されている。
さらに、ロボットとユーザとのインタラクションを音声入力によって可能するための研究開発も盛んに行われており、ロボットに対する動作指示やロボットを介しての様々な情報へのアクセスを音声入力によって行うことが試みられている。
このようなシステムでは、ユーザから発声された音声信号をデジタルデータに変換し、予め定められたパターンと比較することによって発話内容を認識する音声認識技術を利用している。
音声認識では、周囲の環境の雑音の影響や、ユーザの声質、音量、発声速度等の相違に起因して誤認識が発生しうる。また、方言が発声された場合、その方言に対応する単語が単語辞書に登録されていなければ未知語となり、方言を正しく認識することができない。さらに、標準パターンや単語ネットワーク、言語モデルなどにおける特徴量や確率値は、予め音声データやテキストコーパスを用いて構築することになるが、これらデータの不完全さに起因する誤認識も発生しうる。また、計算負荷軽減のために設けた候補数の制約により正しい認識結果が候補から外され、最終的に誤認識が発生する場合や、ユーザの言い間違え・言い直し等に起因して誤認識が発生する場合もある。
このように、音声認識では様々な原因によって誤認識が生じうるため、ユーザは何らかの手段で誤り箇所を正しい文字列に修正する必要がある。誤りの修正方法として最も確実で単純な方法として、キーボードやペンデバイスなどによって修正を行う方法が考えられるが、音声入力のハンズフリー性という特徴が失われる。また、キーボードやペンデバイスが簡単に利用できる状況であれば、当初から音声入力ではなくキーボードやペンデバイスを用いて入力を行えば十分であるため、ユーザインタフェースの観点から好ましくない。
誤認識を修正する他の方法として、ユーザが再度同じ内容の音声を発声して修正する方法が考えられるが、単に同じ内容を言い直すだけでは誤認識の再発を回避するのが困難である。また、長い文章をすべて再入力する場合等にはユーザの負担が増大する。
これに対し、特許文献1および特許文献2では、誤認識部分に対応する音声の一部のみを再度発声することにより誤りを修正する技術が提案されている。この技術では、先に入力された第1の音声の特徴量時系列データと、修正のための音声である第2の音声の特徴量時系列データを比較することにより、第1の音声内における第2の音声と類似する箇所を誤認識部分として検出する。そして、第1の音声における誤認識部分に対応する文字列を第2の音声の認識候補から削除して最も確からしい文字列を選択することにより、より精度の高い認識を実現している。
特開平11−338493号公報 特開2003−316386号公報
しかしながら、特許文献1および特許文献2の方法では、多数の同音異義語または発音が類似する単語が存在する場合等に、再度誤認識が発生する可能性が高いという問題があった。
例えば、日本語の場合、「こうえん」という読みに対して、「講演」、「公園」、「後援」のように多くの同音異義語が存在する。また、「いちじ」という読みに対して、「1時」、「吉事」、「一字」、「7時」、「七次」というように同音異義語と共に読み方が類似する単語が多数存在する。
このように多数の同音異義語や読み方が類似する単語が存在する場合、従来の音声認識技術では、多数の同音異義語等の中から適切な単語を特定することができず、高精度に単語認識を行うことは困難であった。
このため、特許文献1および特許文献2の方法では、正しい結果が出力されるまで何度も同じ音声を発声しなければならず、修正処理の負担が増大する場合があるという問題があった。
本発明は、上記に鑑みてなされたものであって、入力音声に対する音声認識の誤りの修正負担を軽減することができる音声認識装置、音声認識方法および音声認識プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、単語間の意味関係と、意味関係の度合いを表す関連度とを対応づけて記憶する意味関係記憶手段と、音声の入力を受付ける入力受付手段と、前記入力受付手段が受付けた前記音声を音声認識し、認識候補と、当該認識候補の確からしさを示す尤度とを生成する候補生成手段と、第1の音声に対して前記候補生成手段が生成した第1の認識候補から、前記第1の認識候補の尤度に基づいて前記第1の音声の認識結果を選択する第1候補選択手段と、前記第1の音声に含まれる修正すべき単語と、修正の手がかりとなる単語である手がかり語とを含む第2の音声に対して前記候補生成手段が生成した第2の認識候補から、前記修正すべき単語に対する単語の認識候補と前記手がかり語に対する単語の認識候補とを抽出し、抽出した前記修正すべき単語に対する単語の認識候補と、抽出した前記手がかり語に対する単語の認識候補との間の意味関係に対応づけられた前記関連度を前記意味関係記憶手段から取得し、取得した前記関連度に基づいて前記第2の音声の認識結果を選択する第2候補選択手段と、前記第1の音声の認識結果と、前記第2の音声の認識結果とを照合し、前記第1の音声のうち前記修正すべき単語に対応する部分を特定する修正箇所特定手段と、特定した前記修正すべき単語に対応する部分を修正する修正手段と、を備えたことを特徴とする。
また、本発明は、上記装置を実行することができる音声認識方法および音声認識プログラムである。
本発明によれば、音声認識結果の誤りを修正する際に、修正する文字列に付加された意味的な制約情報を参照して修正発話の音声認識を行うことができる。このため、音声認識の精度が向上し、誤認識時の誤りの修正負担を軽減することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる音声認識装置、音声認識方法および音声認識プログラムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
第1の実施の形態にかかる音声認識装置は、音声認識の誤認識に対しユーザが修正して発話した音声を、ユーザが修正する文字列に付加した意味的な制約情報を参照して高精度に音声認識するものである。
図1は、第1の実施の形態にかかる音声認識装置100の外観構成を示す説明図である。同図に示すように、音声認識装置100は、主なハードウェア構成として、音声を入力する際にユーザが押下する音声入力ボタン101aと、ユーザが音声認識結果の文字列に誤りを発見した場合に、修正のための音声を入力するためにユーザが押下する修正音声入力ボタン101bと、ユーザが発声した音声を電気信号として取り込むマイクロフォン102と、ユーザが入力した音声についての認識結果の単語列に対応する文字列を表示する表示部103とを備えている。
図2は、第1の実施の形態にかかる音声認識装置100の構成を示すブロック図である。同図に示すように、音声認識装置100は、主なハードウェア構成として上述の音声入力ボタン101aと、修正音声入力ボタン101bと、マイクロフォン102と、表示部103とに加え、音素辞書記憶部121と、単語辞書記憶部122と、履歴記憶部123と、意味関係記憶部124と、言語モデル記憶部125とを備えている。
また、音声認識装置100は、主なソフトウェア構成として、ボタン入力受付部111と、音声入力受付部112と、特徴量抽出部113と、候補生成部114と、第1候補選択部115aと、第2候補選択部115bと、修正箇所特定部116と、修正部117と、出力制御部118とを備えている。
音素辞書記憶部121は、予め保持している各音素の特徴データの標準パターンを格納した音素辞書を記憶するものである。音素辞書は、従来から一般的に利用されているHMM(Hidden Markov Model)方式の音声認識処理で用いられる辞書と同様であり、後述する特徴量抽出部113が出力する特徴量時系列データと同等の形式で照合可能な特徴量時系列データが標準パターンとして各音素ラベルと対応づけて登録される。
図3は、音素辞書記憶部121に記憶された音素辞書のデータ構造の一例を示す説明図である。同図に示すように、音素辞書は、ノードと有向リンクからなる有限オートマトンで特徴量時系列データを表現する。
ノードは、照合の状態を表現しており、例えば、音素iに対応する各ノードの値i1、i2、i3は、それぞれ異なる状態であることを表している。また、有効リンクには音素の部分要素となる特徴量(図示せず)が対応づけて記憶されている。
単語辞書記憶部122は、入力された音声と照合するための単語の情報を格納した単語辞書を記憶するものである。単語辞書は、HMM方式の音声認識処理で用いられる辞書と同様であり、各単語に対応する音素列が予め登録され、音素辞書に基づく照合で得られる音素列から対応する単語を求めるために用いられる。
図4は、単語辞書記憶部122に記憶された単語辞書のデータ構造の一例を示す説明図である。同図に示すように、単語辞書は、単語と、単語を構成する音素列と、単語の出現確率とを対応づけて格納している。
単語の出現確率は、後述する第2候補選択部115bが修正入力された発話に対する認識結果を特定する際に利用するものであり、大量の音声データやテキストコーパスを用いて予め算出した値を格納する。
履歴記憶部123は、音声認識処理で出力される各種中間データを記憶するものである。中間データとしては、音素辞書との照合で得られる音素列の候補を表す音素列候補群、および単語辞書との照合で得られる単語列の候補を表す単語列候補群が存在する。
図5は、履歴記憶部123に記憶された音素列候補群のデータ形式の一例を示す説明図である。同図は、音素列候補群をラティス構造で表現した図である。なお、同図でHはラティス構造の先頭ノード、Eは最終ノードを表しており、対応する音素や単語は存在しないノードである。
同図では、例えば、発話の最初の部分に対して、日本語で1時を意味する「ichiji」と発音される音素列と、日本語で7時を意味する「shichiji」と発音される音素列とが候補として出力されたことが示されている。
図6は、履歴記憶部123に記憶された単語列候補群のデータ形式の一例を示す説明図である。音素列候補群と同様に、単語列候補群はラティス構造で表現され、Hはラティス構造の先頭ノード、Eは最終ノードを表す。
同図では、例えば、発話の最初の部分に対して、日本語で1時を意味し「ichiji」と発音される単語と、日本語で一字を意味し同様に「ichiji」と発音される単語と、日本語で7時を意味する「shichiji」と発音される単語とが候補として出力されたことが示されている。
なお、図5および図6で図示した音素列候補群や単語列候補群には表示していないが、各音素に対応するノードや各単語に対応するノードには、入力音声の対応部分と間の類似度が対応づけて記憶される。すなわち、各ノードには、入力音声に対する各ノードの確からしさの度合いを示す尤度である類似度が対応づけられている。
意味関係記憶部124は、単語間の意味関係と、当該意味関係の関連の度合いを表す関連度とを対応づけて記憶するものであり、単語間の概念関係を階層構造で表したシソーラスなどにより表現することができる。
図7は、単語間の意味関係の一例を階層構造で表した説明図である。同図では、単語「館長」に対して、関連語として「図書館」、「美術館」等が対応づけられた例が示されている。また、同図では、「役職」と、「館長」および「艦長」とが上位下位概念の意味関係にある例が示されている。
同図に示すように、各意味関係には、関連度(rel)が対応づけられている。本実施の形態では、relは0以上1以下の値を取り、関連の度合いが大きい場合には大きい値を付与する。
なお、単語間の意味関係はこれに限られるものではなく、同義語、類義語などの従来からシソーラスとして表現される単語間の意味関係であればあらゆる関係を用いることができる。また、実際には意味関係の階層構造を表形式等で表したデータとして意味関係記憶部124に記憶される。
図8は、単語間の意味関係の別の一例を階層構造で表した説明図である。同図では、「時間」と、「昼」、「夕方」、および「夜」とが上位下位概念の意味関係にある例が示されている。また、同図では、「夕方」と、「4時」、「5時」、「6時」、および「7時」等の時間が上位下位概念の意味関係にある例が示されている。
言語モデル記憶部125は、単語間の接続関係と、接続関係の度合いを表す接続関連度とを対応づけた言語モデルを記憶するものである。言語モデルは、HMM方式の音声認識処理で用いられるモデルと同様であり、中間データとして得られた単語列から最も確からしい単語列を求めるために参照される。
図9は、言語モデル記憶部125に記憶された言語モデルのデータ構造の一例を示す説明図である。同図は、2単語の連接を対象にしたbi−gramで言語モデルを表し、2単語が連続して出現する確率を接続関連度とした例が示されている。
同図に示すように、言語モデルは、2つの単語(単語1、単語2)と、出現確率とを対応づけた形式となっている。出現確率は、予め大量のテキストコーパスを解析することによって作成しておく。言語モデルは2単語の連接を対象にしたbi−gramに限られず、3つの単語の連接を対象にしたtri−gramなどを言語モデルとしてもよい。
なお、音素辞書記憶部121、単語辞書記憶部122、履歴記憶部123、意味関係記憶部124、および言語モデル記憶部125は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
ボタン入力受付部111は、音声入力ボタン101aまたは修正音声入力ボタン101bの2つのボタンの操作イベント(押下、開放などのイベント)を受付けることにより、音声入力受付部112が受付けた音声のうち、音声認識の対象とする音声の開始位置や終了位置の指定を受付けるものである。具体的には、ボタン入力受付部111は、音声入力ボタン101aおよび修正音声入力ボタン101bが予め定められた時間以上押下されている期間を、音声認識の対象区間として受付ける。これにより、いわゆるプッシュトーク方式の音声認識処理を実行することができる。
音声入力受付部112は、マイクロフォン102により利用者が入力した音声を受信し、受信した音声を電気信号に変換して特徴量抽出部113に出力するものである。具体的には、音声を取りこみ、電気信号に変換した後、A/D(アナログデジタル)変換を行い、PCM(パルスコードモジュレーション)形式などにより変換したデジタルデータを出力する。これらの処理は、従来から用いられている音声信号のデジタル化処理と同様の方法によって実現することができる。
なお、以下では音声入力ボタン101aを押下中に音声入力受付部112が受付けた音声を第1の音声と呼ぶ。また、第1の音声に対して修正するために入力した音声であって、修正音声入力ボタン101bを押下中に音声入力受付部112が受付けた音声を第2の音声と呼ぶ。
特徴量抽出部113は、音声入力受付部112から出力されたデジタルデータを入力として、FFT(高速フーリエ変換)に基づく周波数スペクトル分析などの手法により、音声を構成する音素を判別するための音響的な特徴を表す特徴量を抽出するものである。
この分析手法では、連続する音声波形の短い時間区間を切り出し処理することにより、分析対象とした時間区間における特徴量を抽出し、分析の時間区間を順じシフトさせていくことにより、特徴量の時系列データを取得することができる。なお、特徴量抽出部113は、上述のFFTに基づく周波数スペクトル分析の他、線形予測分析、ケプストラム分析などの従来から音声認識技術で用いられているあらゆる手法により実現することができる。
候補生成部114は、音素辞書や単語辞書を用いて、第1の音声または第2の音声に対して確からしい音素列候補群ならびに単語列候補群を生成するものである。候補生成部114による候補生成処理は、従来から利用されているHMM方式の音声認識処理と同様の方式で実現できる。
具体的には、候補生成部114は、特徴量抽出部113により抽出された特徴量時系列データと音素辞書に格納された標準パターンと照合し、対応する有向リンクに従ってノードで表現される状態を遷移させることにより、類似度の高い音素候補を求める。
音素辞書に登録されている標準パターンとユーザが入力する音声とは一般に異なるものであるので、唯一の音素を求めることは困難であり、一般に後の処理で候補を絞り込むことを前提に、予め定められた個数の範囲で類似度の上位の音素が候補として生成される。
また、候補生成部114は、特許文献2で示されているように、第1の音声で特定された箇所の単語や文字列を第2の音声の認識結果から削除して候補を生成するように構成してもよい。
第1候補選択部115aは、第1の音声に対して候補生成部114が出力した単語列候補群から、第1の音声に対して最も確からしい単語列を選択するものである。この処理も、従来から用いられているHMM方式の音声認識技術の処理を適用できる。HMM方式では、最も確からしい単語列を求めるために、言語モデル記憶部125に記憶された言語モデルを利用する。
上述のように、言語モデルには2つの単語(単語1、単語2)と、当該2つの単語が連接して出現する確率である出現確率とを対応づけられている。従って、第1候補選択部115aは、第1の音声に対して候補生成部114が出力した単語列候補群から2つの単語を取り出し、当該2つの単語に対応づけられた出現確率が最大の単語の組を最も確からしい単語として選択することができる。
第2候補選択部115bは、第2の音声に対して候補生成部114が出力した単語列候補群から、入力された第2の音声に対して最も確からしい単語列を選択するものである。第2候補選択部115bにおける単語列の選択処理では、シソーラスを用いて隣接文節のみの関係について検査する簡便な処理にすることができる。修正のための音声では、簡単な文が入力され、複雑な係り受けの文は想定する必要がないためである。この処理は、ダイナミックプログラミングの一種であるViterbiアルゴリズムを採用することにより実現できる。
具体的には、第2候補選択部115bは、修正発話に含まれる単語間の意味関係を、意味関係記憶部124を参照して取得し、意味関係の関連度が大きい単語の組を、最も確からしい単語列として選択する。この際、第2候補選択部115bは、言語モデル記憶部125に記憶された言語モデルの確率値、第2の音声に対する類似度、および単語辞書記憶部122に記憶された単語の出現確率も考慮して最も確からしい単語列を選択する。
修正箇所特定部116は、第2候補選択部115bが選択した単語列、および履歴記憶部123に記憶されている第1の音声と第2の音声とを参照し、第1の音声のうち修正すべき箇所を特定するものである。具体的には、修正箇所特定部116は、まず第2の音声に対する単語列候補のうち注視領域に存在する単語を取得する。注視領域とは、被修飾語が存在する部分をいい、例えば日本語では、最終単語や複数の名詞から構成される複合語が被修飾語となる場合が多いため、この部分を注視領域とする。また、例えば英語では、「of」や「at」など前置詞を伴って修飾語が被修飾語に対して後続する場合が多いため、先頭に位置する単語や複合語が存在する部分を注視領域とする。
そして、修正箇所特定部116は、注視領域に対応する第2の音声の音素列候補群を履歴記憶部123から取得し、第1の音声の音素列候補群と照合することにより、第1の音声の修正すべき箇所を特定する。
修正部117は、修正箇所特定部116が特定した修正箇所の部分単語列を修正するものである。具体的には、修正部117は、第1の音声の修正箇所に対応する部分を、第2の音声の注視領域に対応する文字列で置換することにより第1の音声を修正する。
なお、修正部117は、第1の音声の修正箇所に対応する部分を、第2の音声全体に対応する文字列で置換するように構成してもよい。
出力制御部118は、第1候補選択部115aが出力した第1の音声の認識結果である文字列を表示部103に表示する処理を制御するものである。また、出力制御部118は、修正部117が修正した結果の文字列を表示部103に表示する。なお、出力制御部118の出力方式は、表示部103に対する文字列表示に限られるものではなく、文字列を音声合成した音声をスピーカ(図示せず)に対して出力するなど、従来から用いられているあらゆる方法を適用することができる。
次に、このように構成された第1の実施の形態にかかる音声認識装置100による音声認識処理について説明する。図10は、第1の実施の形態における音声認識処理の全体の流れを示すフローチャートである。
まず、ボタン入力受付部111が、音声入力ボタン101aまたは修正音声入力ボタン101b押下のイベントを受付ける(ステップS1001)。
次に、音声入力受付部112が、第1の音声の入力を受付ける(ステップS1002)。続いて、特徴量抽出部113が、音声入力受付部112が受付けた第1の音声の特徴量を抽出する(ステップS1003)。この際、特徴量抽出部113は、上述したように周波数スペクトル分析などの手法で音声の特徴量を抽出する。
次に、候補生成部114が、音素辞書記憶部121に記憶された音素辞書、単語辞書記憶部122に記憶された単語辞書を参照し、特徴量抽出部113が抽出した特徴量と辞書の標準パターンとを照合することにより、第1の音声に対する単語列の候補を生成する(ステップS1004)。
次に、音声入力受付部112が、音声入力ボタン101a押下中に入力された音声か否かを判断する(ステップS1005)。すなわち、音声入力受付部112は、入力された音声が第1の音声か、第1の音声を修正した第2の音声かを判断する。
音声入力ボタン101a押下中に入力された音声である場合は(ステップS1005:YES)、第1候補選択部115aが、言語モデルを参照して最も確からしい単語列を、第1の音声の認識結果として選択する(ステップS1006)。具体的には、第1候補選択部115aは、単語列候補群から2つの単語を取り出し、当該2つの単語に対応づけられた出現確率が最大の単語の組を言語モデル記憶部125に記憶された言語モデルを参照して取得し、取得した単語の組を、最も確からしい単語として選択する。
次に、出力制御部118が、選択された単語列を表示部103に表示する(ステップS1007)。ユーザは、表示部103に表示された文字列を確認し、修正が必要な場合は第1の音声を修正するために、修正音声入力ボタン101bを押下しながら第2の音声を入力する。入力された第2の音声は、音声入力受付部112により受付けられ、単語列の候補が生成される(ステップS1001〜ステップS1004)。
この場合は、ステップS1005で、音声入力ボタン101a押下中に入力された音声でないと判断されるため(ステップS1005:NO)、第2候補選択部115bが、候補生成部114により生成された単語列の候補から最も確からしい単語列を選択する修正候補選択処理を実行する(ステップS1008)。修正候補選択処理の詳細については後述する。
次に、修正箇所特定部116が、第1の音声のうち、第2の音声で修正する部分を特定する修正箇所特定処理を実行する(ステップS1009)。修正箇所特定処理の詳細については後述する。
次に、修正部117が、修正箇所特定処理で特定された修正箇所の修正を実行する(ステップS1010)。続いて、出力制御部118が、修正された単語列を表示部103に表示して(ステップS1011)、音声認識処理を終了する。
次に、ステップS1008の修正候補選択処理の詳細について説明する。図11は、修正候補選択処理の全体の流れを示すフローチャートである。同図は、上述したようにViterbiアルゴリズムを用いて単語列の候補を選択する処理の流れを示した図である。
まず、第2候補選択部115bが、単語位置のポインタ、および積算優先度(以下、IPとする。)を初期化する(ステップS1101)。
単語位置のポインタとは、図6に示したようなラティス構造のノード位置を表す情報であり、ここでは先頭のノードにポインタ位置が初期化される。また、積算優先度とは、最も確からしい単語列を選択するために算出される優先度の積算値であり、ここでは積算優先度が1に初期化される。
次に、第2候補選択部115bは、ポインタ位置の直前の単語を取得する(ステップS1102)。ポインタ位置での単語の候補数をjとすると、取得した単語はWe1、We2、・・・Wej(jは整数)と表される。
次に、第2候補選択部115bは、ポインタ位置の単語を取得する(ステップS1103)。ポインタ位置での単語の候補数をiとすると、取得した単語はWs1、Ws2・・・、Wsi(iは整数)と表される。
次に、第2候補選択部115bは、WejとWsiとの組を1つ選択し(ステップS1104)、ステップS1105からステップS1108までの処理を繰り返す。
まず、第2候補選択部115bは、WejとWsiとの意味関係連接尤度(以下、Sim(Wsi、Wej)という。)を算出する(ステップS1105)。ここで、意味関係連接尤度とは、Wej以前の最近傍の自立語(以下、prek(Wej)という。)とWsiとの間の関連度を表す値をいい、以下の(1)式により算出される。
Sim(Wsi、Wej)=argmaxk(rel(Wsi、prek(Wej)))・・・(1)
なお、argmax()は、括弧内の数値の最大値を求める関数を意味し、rel(X,Y)は、単語Xと単語Yとの間の意味関係の関連度を表す。また、単語が自立語か否かは、従来から用いられている形態素解析技術などを適用し、解析用の辞書(図示せず)を参照することにより判断する。
次に、第2候補選択部115bは、WejとWsiとの連接優先度(以下、CPという。)を算出する(ステップS1106)。ここで、連接優先度とは、WejとWsiとの言語モデルの確率値(以下、P(Wsi|Wej)という。)と、意味関係連接尤度Simとの重みつき相乗平均を指し、以下の(2)式により算出される。
CP=P(Wsi|Wej)λ×Sim(Wsi,Wej)λ-1 (λは0以上1以下)・・・(2)
次に、第2候補選択部115bは、Wsiの単語優先度(以下、WPという。)を算出する(ステップS1107)。ここで、単語優先度とは、音声に対する類似度(以下、SS(Wsi)という。)と、Wsiの出現確率(以下、AP(Wsi)という。)との重みつき相乗平均を指し、以下の(3)式により算出される。
WP=SS(Wsi)μ×AP(Wsi)μ-1(μは0以上1以下)・・・(3)
次に、第2候補選択部115bは、以下の(4)式のように、上記各優先度(IP、AP、WP)の積(以下、TPjiという。)を算出する(ステップS1108)。
TPji=IP×AP×WP・・・(4)
次に、第2候補選択部115bは、すべての組を処理したか否かを判断し(ステップS1109)、すべての組を処理していない場合は(ステップS1109:NO)、別の組を選択して処理を繰り返す(ステップS1104)。
すべての組を処理した場合(ステップS1109:YES)、第2候補選択部115bは、算出した積TPjiのうち最大値を積算優先度IPに代入し、対応するWej、Wsi間のリンクを選択する(ステップS1110)。
なお、Wejより前に最近傍の自立語が存在した場合は、Wsiとの関連度rel(Wsi、prek(Wej)が最大であった自立語とのリンクを選択する。
次に、第2候補選択部115bは、ポインタ位置を次の単語に進め(ステップS1111)、ポインタ位置が文末に達したか否かを判断する(ステップS1112)。
文末に達していない場合(ステップS1112:NO)、第2候補選択部115bは、当該ポインタ位置で処理を繰り返す(ステップS1102)。
文末に達した場合(ステップS1112:YES)、第2候補選択部115bは、選択したリンクをたどったパス上の単語列を最も確からしい修正単語列として選択し(ステップS1113)、修正候補選択処理を終了する。
次に、ステップS1009の修正箇所特定処理の詳細について説明する。図12は、第1の実施の形態における修正箇所特定処理の全体の流れを示すフローチャートである。
まず、修正箇所特定部116は、注視領域に対応する第2の音声の音素列を音素列候補から取得する(ステップS1201)。取得した音素列の集合を{Si}とする。
次に、修正箇所特定部116は、履歴記憶部123から第1の音声の音素列を取得する(ステップS1202)。続いて、修正箇所特定部116は、取得した第1の音声の音素列のうち、音素列の集合{Si}に属する音素列と最も類似する箇所を検出し、修正箇所として特定する(ステップS1203)。
次に、本実施の形態における音声認識処理の具体例について説明する。図13は、第1の音声の認識結果の例を示す説明図である。また、図14は、第2の音声に対する音素列候補群の一例を示した説明図であり、図15は、第2の音声に対する単語列候補群の一例を示した説明図である。
図13は、ユーザが「7時で予約をお願いします」を意味する日本語による第1の音声を発話し、誤って「1時で予約をお願いします」を意味する認識結果が選択された例を示している。
これに対し、ユーザが修正のための第2の音声として「夕方の7時」を意味する日本語の音声を発声したと仮定する。この場合、図14および図15に示すような音素列候補や単語列候補群が得られる。
ここで、言語モデルとしてtri−gramを採用できる場合は、「夕方の7時」を意味する日本語であり、単語1501(夕方)、単語1504(の)、単語1507(7時)の3つの単語が連接した日本語に対して高い出現確率が対応づけられていることが期待できる。「浴衣」を意味する単語1502または地名の「ユカタン」を意味する単語1503が、「1時」を意味する単語1505、「一字」を意味する単語1506、または「7時」を意味する単語1507と共に用いられる確率は低いと考えられるからである。
従って、言語モデルとしてtri−gramを採用できる場合は、従来のように言語モデルの確率値を利用して、適切な単語列候補を選択することができる。
しかし、tri−gramは組合せが膨大であり、言語モデルの構築に利用するテキストデータが膨大に必要になる問題や、言語モデルのデータサイズが大きくなるという問題がある。このため、言語モデルとして2単語の連接であるbi−gramを採用せざるを得ない場合もある。この場合、図15に示す単語列候補群から適切な単語列を絞り込むことはできない。
一方、本実施の形態の方法では、上述したように、任意の単語の前に出現した自立語と、当該任意の単語との間の上位下位関係、部分全体関係、同義語関係、関連語関係といった複数の単語間に存在する意味関係を表現したシソーラスを用いて、適切な単語列を選択することができる。
図16は、このような処理により、第2候補選択部115bが選択した第2の音声の認識結果の例を示す説明図である。
同図に示すように第2の音声の認識結果を選択した後、修正箇所特定部116による修正箇所特定処理が実行される(ステップS1009)。
図17は、修正箇所特定処理の概要を模式的に示した説明図である。同図の上部は、第1の音声に対応する単語列と音素列を表し、同図の下部は、第2の音声に対応する修正単語列と音素列候補を表している。なお、同図では、理解を容易にするため、単語列におけるリンク情報を省略して表示しているが、単語列や修正単語列は図13や図16に示した内容と同等の構造であり、音素列や音素列候補群は図5に示した内容と同等の構造である。
図17では、注視領域に対応する第2の音声の音素列候補として、「shichiji」と「ichiji」とが取得される(ステップS1201)。取得された音素列候補を、第1の音声に対応する音素列「ichiji−de−yoyaku−wo−onegai−shi−masu」と照合することによって、「ichiji」の箇所に一致することが検出できる。これにより、対応する単語1701(1時)が修正すべき箇所であると特定できる(ステップS1203)。
この後、修正部117による修正処理が実行される(ステップS1010)。第1の音声に対しては、誤って「1時で予約をお願いします」を意味する日本語が認識結果として選択された(図13)。これに対し、図17に示すように、修正箇所特定部116で特定された修正箇所の「1時」を意味する単語を、「夕方の7時」を意味する修正単語列の注視領域に存在する「7時」を意味する単語と置き換えることにより、「7時で予約をお願いします」を意味する正しい単語列を得ることができる。
なお、この例では、注視領域のみを置き換えることとしたが、修正箇所特定部116によって特定した修正箇所を、修正単語列全体で置き換えるように構成してもよい。すなわち、この場合、修正箇所の「1時」を意味する単語を、「夕方の7時」を意味する修正単語列で置き換え、「夕方の7時で予約をお願いします」を意味する単語列を得ることができる。
次に、本実施の形態における音声認識処理の別の具体例について説明する。図18、図19は、音声認識処理で扱われる入力データ、中間データ、出力データの一例を示した説明図である。
図18では、ユーザが「館長にお会いしたい」を意味する日本語1801を入力し、認識結果1802が出力された例が示されている。この例では、「館長」を意味する単語1811が、誤って「艦長」を意味する単語1812に認識されたことが示されている。
これに対し、ユーザが「この美術館の館長」を意味する日本語1803を入力すると、誤認識部分の単語が正しく修正されて、修正結果1804が出力される。
図19では、ユーザが「The brake was broken」を意味する英語1901を入力し、認識結果1902が出力された例が示されている。この例では、「brake」を意味する単語1911が、誤って「break」を意味する単語1912に認識されたことが示されている。
これに対し、ユーザが「This car's brake」を意味する英語1903を入力すると、誤認識部分の単語が正しく修正されて、修正結果1904が出力される。
次に、本実施の形態の変形例について説明する。上記説明では、意味関係として上位下位関係、部分全体関係、同義関係、または関連語関係を用いた例について説明した。この他、単語間の共起関係の情報(共起情報)を利用するように構成してもよい。共起情報とは、共に用いられる可能性が高い単語の組について、その可能性の高さ(以下、共起確率という)を数値化した情報である。
例えば、「おいしい」を意味する単語と「コーヒー」を意味する単語や、「熱い」を意味する単語と「コーヒー」を意味する単語は、共に用いられることが多いと考えられるため、共起確率が高い。一方、「暑い」を意味する単語と「コーヒー」を意味する単語は、共に用いられることは少ないと考えられるため、共起確率が低い。
図20は、共起情報を用いた単語間の意味関係の一例を示した説明図である。同図では、「おいしい」を意味する単語1と「コーヒー」を意味する単語2との共起確率が0.7で他の単語間の共起確率より大きい例が示されている。
なお、同図に示すような共起情報は、大量のテキストデータを予め解析することにより取得し、意味関係記憶部124に記憶しておく。このようにして得られた共起情報を、第2候補選択部115bが第2の音声に対する候補を選択する際の関連度relの代わりに用いることができる。
このように、第1の実施の形態にかかる音声認識装置では、音声認識の誤認識に対しユーザが修正して発話した音声を、ユーザが修正する文字列に付加した意味的な制約情報を参照して音声認識することができる。このため、多数の同音異義語や読み方の似た単語を有する単語を修正入力する場合であっても、意味情報を参照して正しく単語を特定することができるため、音声認識の精度が向上する。これにより、誤認識時の誤りの修正負担を軽減することができる。
(第2の実施の形態)
第2の実施の形態にかかる音声認識装置は、ペンなどのポインティングデバイスを用いて修正すべき箇所を特定し、誤認識発生時の修正処理を行うものである。
図21は、第2の実施の形態にかかる音声認識装置2100の外観構成を示す説明図である。同図に示すように、音声認識装置2100は、主なハードウェア構成として、ポインティングデバイス2204と、ユーザが入力した音声についての認識結果の単語列に対応する文字列を表示する表示部2203とを備えている。
ポインティングデバイス2204は、表示部2203に表示された文字列等を指し示すためのデバイスであり、ユーザが発声した音声を電気信号として取り込むマイクロフォン102と、音声を入力する際にユーザが押下する音声入力ボタン101aとを備えている。
表示部2203は、タッチパネル方式によりポインティングデバイス2204の操作入力を受付ける機能をさらに備えている。なお、誤り箇所として指示された部分には、同図に示すように下線2110などのマーキングが表示される。
第2の実施の形態では、修正音声入力ボタン101bが備えられていない点が第1の実施の形態と異なっている。第2の実施の形態では、誤り箇所がポインティングデバイス2204で指示された直後の音声を第2の音声と判断することができるので、音声入力を指示するためのボタンを1つだけ備えれば十分だからである。
なお、ポインティングデバイス2204に備えられたマイクロフォン102から入力された音声データは、図示しない無線通信機能等を用いて音声認識装置2100に対して送信される。
図22は、第2の実施の形態にかかる音声認識装置2100の構成を示すブロック図である。同図に示すように、音声認識装置2100は、主なハードウェア構成として上述の音声入力ボタン101aと、マイクロフォン102と、表示部2203と、ポインティングデバイス2204と、音素辞書記憶部121と、単語辞書記憶部122と、履歴記憶部123と、意味関係記憶部124と、言語モデル記憶部125とを備えている。
また、音声認識装置2100は、主なソフトウェア構成として、ボタン入力受付部111と、音声入力受付部112と、特徴量抽出部113と、候補生成部114と、第1候補選択部115aと、第2候補選択部115bと、修正箇所特定部2216と、修正部117と、出力制御部118と、パネル入力受付部2219とを備えている。
第2の実施の形態のソフトウェア構成では、パネル入力受付部2219を追加したこと、および修正箇所特定部2216の機能が第1の実施の形態と異なっている。その他の構成および機能は、第1の実施の形態にかかる音声認識装置100の構成を表すブロック図である図2と同様であるので、同一符号を付し、ここでの説明は省略する。
パネル入力受付部2219は、表示部2203上でポインティングデバイス2204により指定された誤り箇所の指定を受付けるものである。
修正箇所特定部2216は、ポインティングデバイス2204でユーザにより指定された修正を行う部分(修正指示箇所)の近傍の文字列から、第1の音声のうち修正すべき箇所を特定するものである。ここで、修正指示箇所の近傍とは、修正指示箇所の前または後ろの少なくとも一方の予め定められた範囲をいう。
第1の実施の形態における修正箇所特定部116が、第1の音声のすべての部分に対して第2の音声との照合を行い、修正箇所を特定するのに対し、第2の実施の形態では、ポインティングデバイス2204による指定を参照して必要最小限の範囲内で修正箇所を特定する。このため、処理速度や探索の精度を向上させることができる。
次に、このように構成された第2の実施の形態にかかる音声認識装置2100による音声認識処理について説明する。図23は、第2の実施の形態における音声認識処理の全体の流れを示すフローチャートである。
まず、パネル入力受付部2219が、ポインティングデバイス2204による修正箇所指定の入力を受付ける(ステップS2301)。なお、修正のための第2の音声を入力する場合のみ、パネル入力受付部2219が、修正箇所指定の入力を受付ける。
次に、ボタン入力受付部111が、音声入力ボタン101a押下のイベントを受付ける(ステップS2302)。
ステップS2303からステップS2305までの、第1音声受付・認識処理、認識結果出力処理は、第1の実施の形態にかかる音声認識装置100におけるステップS1002からステップS1004までと同様の処理なので、その説明を省略する。
ステップS2305で、候補生成部114が単語列の候補を生成した後、音声入力受付部112が、修正箇所指定後の入力か否かを判断する(ステップS2306)。これにより、音声入力受付部112は、音声が第1の音声か、第2の音声かを判断する。すなわち、音声入力受付部112は、ポインティングデバイス2204により修正箇所指定後に音声入力ボタン101aを押下して入力された音声の場合は第2の音声であると判断し、それ以外は第1の音声であると判断する。
ステップS2307からステップS2309までの、第1候補選択処理、出力制御処理、第2候補選択処理は、第1の実施の形態にかかる音声認識装置100におけるステップS1006からステップS1008までと同様の処理なので、その説明を省略する。
ステップS2309で、第2の音声の認識結果を選択した後、修正箇所特定部2216が、修正箇所特定処理を実行する(ステップS2310)。修正箇所特定処理の詳細については後述する。
ステップS2311からステップS2312までの、修正処理、認識結果出力処理は、第1の実施の形態にかかる音声認識装置100におけるステップS1010からステップS1011までと同様の処理なので、その説明を省略する。
次に、ステップS2310の修正箇所特定処理の詳細について説明する。図24は、第2の実施の形態における修正箇所特定処理の全体の流れを示すフローチャートである。
ステップS2401の音素列取得処理は、第1の実施の形態にかかる音声認識装置100におけるステップS1201と同様の処理なので、その説明を省略する。
ステップS2401で注視領域に対応する第2の音声の音素列を音素列候補から取得した後、修正箇所特定部2216は、履歴記憶部123から、第1の音声の音素列のうち修正指示箇所およびその近傍に対応する音素列を取得する(ステップS2402)。
図21に示す例では、下線2110で示した修正指示箇所に存在する単語であり、「1時」を意味する単語2111に対応する音素列を取得する。また、修正指示箇所の近傍に存在する単語2112に対応する音素列を取得する。
ステップS2403の類似箇所検出処理は、第1の実施の形態にかかる音声認識装置100におけるステップS1203と同様の処理なので、その説明を省略する。
このように、第2の実施の形態にかかる音声認識装置では、ペンなどのポインティングデバイスを用いて修正すべき部分を指示可能とし、当該部分の近傍の範囲内から修正箇所を特定して、特定した箇所に対して誤認識発生時の修正処理を行うことができる。このため、ユーザの負担を増大させずに音声誤認識の修正を確実に行うことができる。
図25は、第1および第2の実施の形態にかかる音声認識装置のハードウェア構成を示す説明図である。
第1および第2の実施の形態にかかる音声認識装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1および第2の実施の形態にかかる音声認識装置で実行される音声認識プログラムは、ROM52等に予め組み込まれて提供される。
第1および第2の実施の形態にかかる音声認識装置で実行される音声認識プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
さらに、第1および第2の実施の形態にかかる音声認識装置で実行される音声認識プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1および第2の実施の形態にかかる音声認識装置で実行される音声認識プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1および第2の実施の形態にかかる音声認識装置で実行される音声認識プログラムは、上述した各部(パネル入力受付部、ボタン入力受付部、音声入力受付部、特徴量抽出部、候補生成部、第1候補選択部、第2候補選択部、修正箇所特定部、修正部、出力制御部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52から音声認識プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる音声認識装置、音声認識方法および音声認識プログラムは、入力された音声を音声認識した結果に応じて動作する音声翻訳システム、カーナビゲーションシステム、家電制御システムなどに適している。
第1の実施の形態にかかる音声認識装置の外観構成を示す説明図である。 第1の実施の形態にかかる音声認識装置の構成を示すブロック図である。 音素辞書記憶部に記憶された音素辞書のデータ構造の一例を示す説明図である。 単語辞書記憶部に記憶された単語辞書のデータ構造の一例を示す説明図である。 履歴記憶部に記憶された音素列候補群のデータ形式の一例を示す説明図である。 履歴記憶部に記憶された単語列候補群のデータ形式の一例を示す説明図である。 単語間の意味関係の一例を階層構造で表した説明図である。 単語間の意味関係の別の一例を階層構造で表した説明図である。 言語モデル記憶部に記憶された言語モデルのデータ構造の一例を示す説明図である。 第1の実施の形態における音声認識処理の全体の流れを示すフローチャートである。 修正候補選択処理の全体の流れを示すフローチャートである。 第1の実施の形態における修正箇所特定処理の全体の流れを示すフローチャートである。 第1の音声の認識結果の例を示す説明図である。 第2の音声に対する音素列候補群の一例を示した説明図である。 第2の音声に対する単語列候補群の一例を示した説明図である。 第2の音声の認識結果の例を示す説明図である。 修正箇所特定処理の概要を模式的に示した説明図である。 音声認識処理で扱われる入力データ、中間データ、出力データの一例を示した説明図である。 音声認識処理で扱われる入力データ、中間データ、出力データの一例を示した説明図である。 共起情報を用いた単語間の意味関係の一例を示した説明図である。 第2の実施の形態にかかる音声認識装置の外観構成を示す説明図である。 第2の実施の形態にかかる音声認識装置の構成を示すブロック図である。 第2の実施の形態における音声認識処理の全体の流れを示すフローチャートである。 第2の実施の形態における修正箇所特定処理の全体の流れを示すフローチャートである。 第1および第2の実施の形態にかかる音声認識装置のハードウェア構成を示す説明図である。
符号の説明
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 音声認識装置
101a 音声入力ボタン
101b 修正音声入力ボタン
102 マイクロフォン
103 表示部
111 ボタン入力受付部
112 音声入力受付部
113 特徴量抽出部
114 候補生成部
115a 第1候補選択部
115b 第2候補選択部
116 修正箇所特定部
117 修正部
118 出力制御部
121 音素辞書記憶部
122 単語辞書記憶部
123 履歴記憶部
124 意味関係記憶部
125 言語モデル記憶部
1501、1502、1503、1504、1505、1506、1507 単語
1701 単語
1801 日本語
1802 認識結果
1803 日本語
1804 修正結果
1811、1812 単語
1901 英語
1902 認識結果
1903 英語
1904 修正結果
1911、1912 単語
2100 音声認識装置
2110 下線
2111、2112 単語
2203 表示部
2204 ポインティングデバイス
2216 修正箇所特定部
2219 パネル入力受付部

Claims (14)

  1. 単語間の意味関係と、意味関係の度合いを表す関連度とを対応づけて記憶する意味関係記憶手段と、
    音声の入力を受付ける入力受付手段と、
    前記入力受付手段が受付けた前記音声を音声認識し、認識候補と、当該認識候補の確からしさを示す尤度とを生成する候補生成手段と、
    第1の音声に対して前記候補生成手段が生成した第1の認識候補から、前記第1の認識候補の尤度に基づいて前記第1の音声の認識結果を選択する第1候補選択手段と、
    前記第1の音声に含まれる修正すべき単語と、修正の手がかりとなる単語である手がかり語とを含む第2の音声に対して前記候補生成手段が生成した第2の認識候補から、前記修正すべき単語に対する単語の認識候補と前記手がかり語に対する単語の認識候補とを抽出し、抽出した前記修正すべき単語に対する単語の認識候補と、抽出した前記手がかり語に対する単語の認識候補との間の意味関係に対応づけられた前記関連度を前記意味関係記憶手段から取得し、取得した前記関連度に基づいて前記第2の音声の認識結果を選択する第2候補選択手段と、
    前記第1の音声の認識結果と、前記第2の音声の認識結果とを照合し、前記第1の音声のうち前記修正すべき単語に対応する部分を特定する修正箇所特定手段と、
    特定した前記修正すべき単語に対応する部分を修正する修正手段と、
    を備えたことを特徴とする音声認識装置。
  2. 前記第2候補選択手段は、取得した前記関連度が最大となる前記修正すべき単語に対する単語の認識候補と前記手がかり語に対する単語の認識候補とを含む前記第2の音声の認識結果を選択することを特徴とする請求項1に記載の音声認識装置。
  3. 単語間の接続関係と、接続関係の度合いを表す接続関連度とを対応づけた言語モデルを記憶する言語モデル記憶手段をさらに備え、
    前記第2候補選択手段は、さらに抽出した前記修正すべき単語に対する単語の認識候補と前記手がかり語に対する単語の認識候補との間の接続関係に対応づけられた前記接続関連度を前記言語モデル記憶手段から取得し、取得した前記接続関連度と前記関連度とに基づいて前記第2の音声の認識結果を選択することを特徴とする請求項1に記載の音声認識装置。
  4. 前記第2候補選択手段は、前記第2の音声に対して前記候補生成手段が生成した前記第2の認識候補の尤度と、前記関連度とに基づいて前記第2の音声の認識結果を選択することを特徴とする請求項1に記載の音声認識装置。
  5. 単語と、単語の出現確率とを対応づけた単語辞書記憶手段をさらに備え、
    前記第2候補選択手段は、さらに抽出した前記修正すべき単語に対する単語の認識候補に対応づけられた前記出現確率を前記単語辞書記憶手段から取得し、取得した前記出現確率と前記関連度とに基づいて前記第2の音声の認識結果を選択することを特徴とする請求項1に記載の音声認識装置。
  6. 前記意味関係記憶手段は、単語間の意味内容の階層関係と、前記関連度とを対応づけて記憶し、
    前記第2候補選択手段は、抽出した前記修正すべき単語に対する単語の認識候補と、抽出した前記手がかり語に対する単語の認識候補との間の意味内容の階層関係に対応づけられた前記関連度を前記意味関係記憶手段から取得し、取得した前記関連度に基づいて前記第2の音声の認識結果を選択することを特徴とする請求項1に記載の音声認識装置。
  7. 前記意味関係記憶手段は、単語間の同義語関係、および類義語関係の少なくとも1つを前記意味関係として前記関連度と対応づけて記憶することを特徴とする請求項1に記載の音声認識装置。
  8. 前記意味関係記憶手段は、複数の単語が共に出現する関係を表す共起関係と、前記共起関係が出現する確率を表す共起確率とを対応づけて記憶し、
    前記第2候補選択手段は、抽出した前記修正すべき単語に対する単語の認識候補と前記手がかり語に対する単語の認識候補との間の前記共起関係に対応づけられた前記共起確率を前記意味関係記憶手段から取得し、取得した前記共起確率に基づいて前記第2の音声の認識結果を選択することを特徴とする請求項1に記載の音声認識装置。
  9. 前記修正手段は、特定した前記修正すべき単語に対応する部分を、前記修正すべき単語の認識候補に対して前記第2候補選択手段が選択した単語で修正することを特徴とする請求項1に記載の音声認識装置。
  10. 前記修正手段は、特定した前記修正すべき単語に対応する部分を、前記第2候補選択手段が選択した前記第2の音声の認識結果で修正することを特徴とする請求項1に記載の音声認識装置。
  11. 前記第1の音声の認識結果を表示する表示手段と、
    前記表示手段に表示された前記第1の音声の認識結果のうち修正する部分を指定する修正箇所指定手段と、をさらに備え、
    前記修正箇所特定手段は、前記修正箇所指定手段が指定した前記修正する部分の前方または後方の少なくとも一方の予め定められた範囲から、前記第1の音声のうち前記修正すべき単語に対応する部分を特定することを特徴とする請求項1に記載の音声認識装置。
  12. 前記入力受付手段は、前記修正箇所指定手段により前記修正する部分が指定された後に入力された音声を、前記第2の音声として入力を受付けることを特徴とする請求項11に記載の音声認識装置。
  13. 音声の入力を受付ける入力受付ステップと、
    前記入力受付ステップが受付けた前記音声を音声認識し、認識候補と当該認識候補の確からしさを示す尤度とを生成する候補生成ステップと、
    第1の音声に対して前記候補生成ステップが生成した第1の認識候補から、前記第1の認識候補の尤度に基づいて前記第1の音声の認識結果を選択する第1候補選択ステップと、
    前記第1の音声に含まれる修正すべき単語と、修正の手がかりとなる単語である手がかり語とを含む第2の音声に対して前記候補生成ステップが生成した第2の認識候補から、前記修正すべき単語に対する単語の認識候補と前記手がかり語に対する単語の認識候補とを抽出し、抽出した前記修正すべき単語に対する単語の認識候補と、抽出した前記手がかり語に対する単語の認識候補との間の意味関係に対応づけられた前記関連度を、単語間の意味関係と意味関係の度合いを表す関連度とを対応づけて記憶する意味関係記憶手段から取得し、取得した前記関連度に基づいて前記第2の音声の認識結果を選択する第2候補選択ステップと、
    前記第1の音声の認識結果と、前記第2の音声の認識結果とを照合し、前記第1の音声のうち前記修正すべき単語に対応する部分を特定する修正箇所特定ステップと、
    特定した前記修正すべき単語に対応する部分を修正する修正ステップと、
    を備えたことを特徴とする音声認識方法。
  14. 音声の入力を受付ける入力受付手順と、
    前記入力受付手順が受付けた前記音声を音声認識し、認識候補と当該認識候補の確からしさを示す尤度とを生成する候補生成手順と、
    第1の音声に対して前記候補生成手順が生成した第1の認識候補から、前記第1の認識候補の尤度に基づいて前記第1の音声の認識結果を選択する第1候補選択手順と、
    前記第1の音声に含まれる修正すべき単語と、修正の手がかりとなる単語である手がかり語とを含む第2の音声に対して前記候補生成手順が生成した第2の認識候補から、前記修正すべき単語に対する単語の認識候補と前記手がかり語に対する単語の認識候補とを抽出し、抽出した前記修正すべき単語に対する単語の認識候補と、抽出した前記手がかり語に対する単語の認識候補との間の意味関係に対応づけられた前記関連度を、単語間の意味関係と意味関係の度合いを表す関連度とを対応づけて記憶する意味関係記憶手段から取得し、取得した前記関連度に基づいて前記第2の音声の認識結果を選択する第2候補選択手順と、
    前記第1の音声の認識結果と、前記第2の音声の認識結果とを照合し、前記第1の音声のうち前記修正すべき単語に対応する部分を特定する修正箇所特定手順と、
    特定した前記修正すべき単語に対応する部分を修正する修正手順と、
    をコンピュータに実行させる音声認識プログラム。
JP2006083762A 2006-03-24 2006-03-24 音声認識装置、音声認識方法および音声認識プログラム Active JP4734155B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006083762A JP4734155B2 (ja) 2006-03-24 2006-03-24 音声認識装置、音声認識方法および音声認識プログラム
CNA2007100843680A CN101042867A (zh) 2006-03-24 2007-02-28 语音识别设备和方法
US11/712,412 US7974844B2 (en) 2006-03-24 2007-03-01 Apparatus, method and computer program product for recognizing speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006083762A JP4734155B2 (ja) 2006-03-24 2006-03-24 音声認識装置、音声認識方法および音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2007256836A true JP2007256836A (ja) 2007-10-04
JP4734155B2 JP4734155B2 (ja) 2011-07-27

Family

ID=38534641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006083762A Active JP4734155B2 (ja) 2006-03-24 2006-03-24 音声認識装置、音声認識方法および音声認識プログラム

Country Status (3)

Country Link
US (1) US7974844B2 (ja)
JP (1) JP4734155B2 (ja)
CN (1) CN101042867A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011158902A (ja) * 2010-01-28 2011-08-18 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識ロボット
JP2012027065A (ja) * 2010-07-20 2012-02-09 Nippon Telegr & Teleph Corp <Ntt> 2チャネル音声の音声認識方法とその装置とプログラム
JP2013137458A (ja) * 2011-12-28 2013-07-11 Toyota Motor Corp 音声認識装置、方法、及びプログラム
JP2013156349A (ja) * 2012-01-27 2013-08-15 Nec Corp 音声認識結果修正支援システム、音声認識結果修正支援方法および音声認識結果修正支援プログラム
JP2015076774A (ja) * 2013-10-10 2015-04-20 みずほ情報総研株式会社 コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム
JP2015532447A (ja) * 2012-09-29 2015-11-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation テキストを修正するための方法、システム、およびコンピュータ・プログラム
KR20160062254A (ko) * 2014-11-24 2016-06-02 에스케이텔레콤 주식회사 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치
JP2016161935A (ja) * 2015-02-26 2016-09-05 キューキー インコーポレイテッドKeukey Inc. 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
US9471568B2 (en) 2013-09-19 2016-10-18 Kabushiki Kaisha Toshiba Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
JP2017525993A (ja) * 2014-07-31 2017-09-07 ロヴィ ガイズ, インコーポレイテッド 同音異字の存在下でasrを行うためのシステムおよび方法

Families Citing this family (283)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US7650628B2 (en) * 2004-10-21 2010-01-19 Escription, Inc. Transcription data security
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8275600B2 (en) * 2008-10-10 2012-09-25 Google Inc. Machine learning for transliteration
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8560300B2 (en) * 2009-09-09 2013-10-15 International Business Machines Corporation Error correction using fact repositories
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
JP5535238B2 (ja) * 2009-11-30 2014-07-02 株式会社東芝 情報処理装置
US8589163B2 (en) * 2009-12-04 2013-11-19 At&T Intellectual Property I, L.P. Adapting language models with a bit mask for a subset of related words
US8494852B2 (en) * 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
JP5688279B2 (ja) * 2010-12-08 2015-03-25 ニュアンス コミュニケーションズ,インコーポレイテッド 秘匿情報をフィルタリングする情報処理装置、方法およびプログラム
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US8688453B1 (en) * 2011-02-28 2014-04-01 Nuance Communications, Inc. Intent mining via analysis of utterances
CN102682763B (zh) * 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8781810B2 (en) * 2011-07-25 2014-07-15 Xerox Corporation System and method for productive generation of compound words in statistical machine translation
US9009041B2 (en) * 2011-07-26 2015-04-14 Nuance Communications, Inc. Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data
US8706472B2 (en) * 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
CN103187052B (zh) * 2011-12-29 2015-09-02 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US20140129221A1 (en) * 2012-03-23 2014-05-08 Dwango Co., Ltd. Sound recognition device, non-transitory computer readable storage medium stored threreof sound recognition program, and sound recognition method
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US8577671B1 (en) 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US9135912B1 (en) * 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
KR101364774B1 (ko) * 2012-12-07 2014-02-20 포항공과대학교 산학협력단 음성 인식의 오류 수정 방법 및 장치
KR101892734B1 (ko) * 2013-01-04 2018-08-28 한국전자통신연구원 음성 인식 시스템에서의 오류 수정 방법 및 그 장치
KR102072826B1 (ko) * 2013-01-31 2020-02-03 삼성전자주식회사 음성 인식 장치 및 응답 정보 제공 방법
CN113470641B (zh) 2013-02-07 2023-12-15 苹果公司 数字助理的语音触发器
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN112230878B (zh) 2013-03-15 2024-09-27 苹果公司 对中断进行上下文相关处理
US11151899B2 (en) 2013-03-15 2021-10-19 Apple Inc. User training by intelligent digital assistant
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
DK2994908T3 (da) * 2013-05-07 2019-09-23 Veveo Inc Grænseflade til inkrementel taleinput med realtidsfeedback
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
US10586556B2 (en) 2013-06-28 2020-03-10 International Business Machines Corporation Real-time speech analysis and method using speech recognition and comparison with standard pronunciation
US20160004502A1 (en) * 2013-07-16 2016-01-07 Cloudcar, Inc. System and method for correcting speech input
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
CN103578464B (zh) * 2013-10-18 2017-01-11 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP2015125499A (ja) * 2013-12-25 2015-07-06 株式会社東芝 音声通訳装置、音声通訳方法及び音声通訳プログラム
US10395645B2 (en) * 2014-04-22 2019-08-27 Naver Corporation Method, apparatus, and computer-readable recording medium for improving at least one semantic unit set
US9666204B2 (en) 2014-04-30 2017-05-30 Qualcomm Incorporated Voice profile management and speech signal generation
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
KR102348084B1 (ko) * 2014-09-16 2022-01-10 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
KR102267405B1 (ko) * 2014-11-21 2021-06-22 삼성전자주식회사 음성 인식 장치 및 음성 인식 장치의 제어 방법
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN104464735A (zh) * 2014-12-12 2015-03-25 宇龙计算机通信科技(深圳)有限公司 语音信息识别方法、语音信息识别装置与终端
US9852136B2 (en) 2014-12-23 2017-12-26 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
DE102015213720B4 (de) * 2015-07-21 2020-01-23 Volkswagen Aktiengesellschaft Verfahren zum Erfassen einer Eingabe durch ein Spracherkennungssystem und Spracherkennungssystem
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US20170076626A1 (en) * 2015-09-14 2017-03-16 Seashells Education Software, Inc. System and Method for Dynamic Response to User Interaction
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
CN106782546A (zh) * 2015-11-17 2017-05-31 深圳市北科瑞声科技有限公司 语音识别方法与装置
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
CN105513589B (zh) * 2015-12-18 2020-04-28 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN106128462A (zh) * 2016-06-21 2016-11-16 东莞酷派软件技术有限公司 语音识别方法及系统
CN107799116B (zh) * 2016-08-31 2024-08-02 科大讯飞股份有限公司 多轮交互并行语义理解方法和装置
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CA3038797A1 (en) * 2016-09-30 2018-04-05 Rovi Guides, Inc. Systems and methods for correcting errors in caption text
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
EP3573051A4 (en) * 2017-01-18 2020-01-22 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
US10332520B2 (en) 2017-02-13 2019-06-25 Qualcomm Incorporated Enhanced speech generation
US10354642B2 (en) * 2017-03-03 2019-07-16 Microsoft Technology Licensing, Llc Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及系统
WO2019018480A1 (en) 2017-07-20 2019-01-24 Nuance Communications, Inc. AUTOMATED MASKING SYSTEM AND METHOD
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
JP7124358B2 (ja) * 2018-03-13 2022-08-24 富士通株式会社 出力プログラム、情報処理装置及び出力制御方法
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
KR20210038537A (ko) * 2018-07-24 2021-04-07 소니 주식회사 정보 처리 장치 및 방법, 그리고 프로그램
US11094317B2 (en) * 2018-07-31 2021-08-17 Samsung Electronics Co., Ltd. System and method for personalized natural language understanding
US11151986B1 (en) * 2018-09-21 2021-10-19 Amazon Technologies, Inc. Learning how to rewrite user-specific input for natural language understanding
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN109273000B (zh) * 2018-10-11 2023-05-12 河南工学院 一种语音识别方法
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110956959B (zh) * 2019-11-25 2023-07-25 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
CN112562652B (zh) * 2020-12-02 2024-01-19 湖南翰坤实业有限公司 一种基于Untiy引擎的语音处理方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728489A (ja) * 1993-07-07 1995-01-31 Sharp Corp 認識候補選択装置
JPH11338493A (ja) * 1998-05-26 1999-12-10 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2001034287A (ja) * 1999-07-15 2001-02-09 Matsushita Electric Ind Co Ltd 言語モデルにおけるクラス決定方法、音声認識装置及びプログラム記録媒体
JP2001517815A (ja) * 1997-09-24 2001-10-09 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 言語認識上の類似発声識別方法及び装置
JP2002318596A (ja) * 2001-04-20 2002-10-31 Mitsubishi Electric Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2003316384A (ja) * 2002-04-24 2003-11-07 Nippon Hoso Kyokai <Nhk> リアルタイム文字修正装置、およびその方法、ならびにそのプログラム、その記憶媒体
JP2005221752A (ja) * 2004-02-05 2005-08-18 Toyota Central Res & Dev Lab Inc 音声認識装置、音声認識方法及びプログラム

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4873634A (en) * 1987-03-27 1989-10-10 International Business Machines Corporation Spelling assistance method for compound words
US5170349A (en) * 1989-03-14 1992-12-08 Canon Kabushiki Kaisha Text processing apparatus using modification relation analysis
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
JP2640793B2 (ja) * 1992-01-17 1997-08-13 松下電器産業株式会社 共起辞書構築装置及びこの共起辞書を用いた文解析装置
US5983179A (en) * 1992-11-13 1999-11-09 Dragon Systems, Inc. Speech recognition system which turns its voice response on for confirmation when it has been turned off without confirmation
US6311157B1 (en) * 1992-12-31 2001-10-30 Apple Computer, Inc. Assigning meanings to utterances in a speech recognition system
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6615178B1 (en) * 1999-02-19 2003-09-02 Sony Corporation Speech translator, speech translating method, and recorded medium on which speech translation control program is recorded
US6611802B2 (en) * 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
US6418410B1 (en) * 1999-09-27 2002-07-09 International Business Machines Corporation Smart correction of dictated speech
US6581033B1 (en) * 1999-10-19 2003-06-17 Microsoft Corporation System and method for correction of speech recognition mode errors
US7047493B1 (en) * 2000-03-31 2006-05-16 Brill Eric D Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction
US6912498B2 (en) * 2000-05-02 2005-06-28 Scansoft, Inc. Error correction in speech recognition by correcting text around selected area
US7200555B1 (en) * 2000-07-05 2007-04-03 International Business Machines Corporation Speech recognition correction for devices having limited or no display
US7243069B2 (en) * 2000-07-28 2007-07-10 International Business Machines Corporation Speech recognition by automated context creation
US7103533B2 (en) * 2001-02-21 2006-09-05 International Business Machines Corporation Method for preserving contextual accuracy in an extendible speech recognition language model
WO2004023455A2 (en) * 2002-09-06 2004-03-18 Voice Signal Technologies, Inc. Methods, systems, and programming for performing speech recognition
US7124081B1 (en) * 2001-09-28 2006-10-17 Apple Computer, Inc. Method and apparatus for speech recognition using latent semantic adaptation
JP3762327B2 (ja) 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
FR2844911B1 (fr) * 2002-09-24 2006-07-21 Thales Sa Procede de reconnaissance vocale avec correction automatique
US20040186714A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Speech recognition improvement through post-processsing
US20040249637A1 (en) * 2003-06-04 2004-12-09 Aurilab, Llc Detecting repeated phrases and inference of dialogue models
KR100577387B1 (ko) * 2003-08-06 2006-05-10 삼성전자주식회사 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치
US7383172B1 (en) * 2003-08-15 2008-06-03 Patrick William Jamieson Process and system for semantically recognizing, correcting, and suggesting domain specific speech
US20050187767A1 (en) * 2004-02-24 2005-08-25 Godden Kurt S. Dynamic N-best algorithm to reduce speech recognition errors
US7421387B2 (en) * 2004-02-24 2008-09-02 General Motors Corporation Dynamic N-best algorithm to reduce recognition errors
US7254774B2 (en) * 2004-03-16 2007-08-07 Microsoft Corporation Systems and methods for improved spell checking
US20060111917A1 (en) * 2004-11-19 2006-05-25 International Business Machines Corporation Method and system for transcribing speech on demand using a trascription portlet
US7634406B2 (en) * 2004-12-10 2009-12-15 Microsoft Corporation System and method for identifying semantic intent from acoustic information
US7412387B2 (en) * 2005-01-18 2008-08-12 International Business Machines Corporation Automatic improvement of spoken language
JP4574390B2 (ja) * 2005-02-22 2010-11-04 キヤノン株式会社 音声認識方法
US20060293889A1 (en) * 2005-06-27 2006-12-28 Nokia Corporation Error correction for speech recognition systems
US7742921B1 (en) * 2005-09-27 2010-06-22 At&T Intellectual Property Ii, L.P. System and method for correcting errors when generating a TTS voice
US7672865B2 (en) * 2005-10-21 2010-03-02 Fair Isaac Corporation Method and apparatus for retail data mining using pair-wise co-occurrence consistency
US20070208567A1 (en) * 2006-03-01 2007-09-06 At&T Corp. Error Correction In Automatic Speech Recognition Transcripts
US8359190B2 (en) * 2006-10-27 2013-01-22 Hewlett-Packard Development Company, L.P. Identifying semantic positions of portions of a text

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0728489A (ja) * 1993-07-07 1995-01-31 Sharp Corp 認識候補選択装置
JP2001517815A (ja) * 1997-09-24 2001-10-09 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 言語認識上の類似発声識別方法及び装置
JPH11338493A (ja) * 1998-05-26 1999-12-10 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2001034287A (ja) * 1999-07-15 2001-02-09 Matsushita Electric Ind Co Ltd 言語モデルにおけるクラス決定方法、音声認識装置及びプログラム記録媒体
JP2002318596A (ja) * 2001-04-20 2002-10-31 Mitsubishi Electric Corp 音声認識装置、音声認識方法及び音声認識プログラム
JP2003316384A (ja) * 2002-04-24 2003-11-07 Nippon Hoso Kyokai <Nhk> リアルタイム文字修正装置、およびその方法、ならびにそのプログラム、その記憶媒体
JP2005221752A (ja) * 2004-02-05 2005-08-18 Toyota Central Res & Dev Lab Inc 音声認識装置、音声認識方法及びプログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011158902A (ja) * 2010-01-28 2011-08-18 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識ロボット
US8886534B2 (en) 2010-01-28 2014-11-11 Honda Motor Co., Ltd. Speech recognition apparatus, speech recognition method, and speech recognition robot
JP2012027065A (ja) * 2010-07-20 2012-02-09 Nippon Telegr & Teleph Corp <Ntt> 2チャネル音声の音声認識方法とその装置とプログラム
JP2013137458A (ja) * 2011-12-28 2013-07-11 Toyota Motor Corp 音声認識装置、方法、及びプログラム
JP2013156349A (ja) * 2012-01-27 2013-08-15 Nec Corp 音声認識結果修正支援システム、音声認識結果修正支援方法および音声認識結果修正支援プログラム
JP2015532447A (ja) * 2012-09-29 2015-11-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation テキストを修正するための方法、システム、およびコンピュータ・プログラム
US9471568B2 (en) 2013-09-19 2016-10-18 Kabushiki Kaisha Toshiba Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
JP2015076774A (ja) * 2013-10-10 2015-04-20 みずほ情報総研株式会社 コミュニケーション支援システム、コミュニケーション支援方法及びコミュニケーション支援プログラム
JP2017525993A (ja) * 2014-07-31 2017-09-07 ロヴィ ガイズ, インコーポレイテッド 同音異字の存在下でasrを行うためのシステムおよび方法
KR20160062254A (ko) * 2014-11-24 2016-06-02 에스케이텔레콤 주식회사 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치
KR102199444B1 (ko) 2014-11-24 2021-01-07 에스케이텔레콤 주식회사 음성 인식 오류에 강인한 의미 추론 방법 및 이를 위한 장치
JP2016161935A (ja) * 2015-02-26 2016-09-05 キューキー インコーポレイテッドKeukey Inc. 少なくとも一つの意味論的単位の集合を音声を用いて改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
KR20160104243A (ko) * 2015-02-26 2016-09-05 주식회사 큐키 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR102217292B1 (ko) * 2015-02-26 2021-02-18 네이버 주식회사 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Also Published As

Publication number Publication date
CN101042867A (zh) 2007-09-26
US7974844B2 (en) 2011-07-05
JP4734155B2 (ja) 2011-07-27
US20070225980A1 (en) 2007-09-27

Similar Documents

Publication Publication Date Title
JP4734155B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
JP4393494B2 (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4987623B2 (ja) ユーザと音声により対話する装置および方法
CN106663424B (zh) 意图理解装置以及方法
EP1346343B1 (en) Speech recognition using word-in-phrase command
KR100577387B1 (ko) 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치
US8380505B2 (en) System for recognizing speech for searching a database
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2005010691A (ja) 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
JPH0916602A (ja) 翻訳装置および翻訳方法
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP5073024B2 (ja) 音声対話装置
JP6001944B2 (ja) 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム
JP3472101B2 (ja) 音声入力解釈装置及び音声入力解釈方法
JP2011007862A (ja) 音声認識装置、音声認識プログラム、および音声認識方法
JP2012255867A (ja) 音声認識装置
JP2011039468A (ja) 電子辞書で音声認識を用いた単語探索装置及びその方法
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2008243076A (ja) 翻訳装置、方法及びプログラム
JP4790956B2 (ja) 音声認識器における綴りモード

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100811

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110425

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4734155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350