JP2016026326A - 再認識および統計的分類を使用する認識 - Google Patents

再認識および統計的分類を使用する認識 Download PDF

Info

Publication number
JP2016026326A
JP2016026326A JP2015202120A JP2015202120A JP2016026326A JP 2016026326 A JP2016026326 A JP 2016026326A JP 2015202120 A JP2015202120 A JP 2015202120A JP 2015202120 A JP2015202120 A JP 2015202120A JP 2016026326 A JP2016026326 A JP 2016026326A
Authority
JP
Japan
Prior art keywords
recognition
recognition result
computer
grammar
results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015202120A
Other languages
English (en)
Inventor
チャン シュワンユ
Shuangyu Chang
チャン シュワンユ
レビット マイケル
Levit Michael
レビット マイケル
バンチュー ブルース
Buntschuh Bruce
バンチュー ブルース
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=43298454&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2016026326(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of JP2016026326A publication Critical patent/JP2016026326A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Operations Research (AREA)
  • Bioethics (AREA)
  • Fuzzy Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Algebra (AREA)
  • Chemical & Material Sciences (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)

Abstract

【課題】再認識および統計的分類を使用する会話認識のためのシステムを提供する。
【解決手段】入力の認識のためにコンテキスト特定文典の1セットとして全般の文典を利用するアーキテクチャにおいて、コンテキスト特定文典のそれぞれがサブタスクカテゴリおよび地理的地域のような特定のコンテキストに対応する。文典は、共同で全体の領域をカバーする。また、同じ入力に対して、複数の認識を並行的に実行することができ、各認識パスは1つ以上のコンテキスト特定文典を用いる。異なる認識器−文典からの複数の中間認識結果は、複数の認識結果に基づいてダイナミックに構成された文典、もしくは他の領域知識を用いて再認識を実行することにより、または複数の認識結果および他の領域知識から抽出された分類特徴に基づいて作動する統計的分類器を用いて当選者を選択することにより、調整することができる。
【選択図】図1

Description

再認識および統計的分類を使用する会話認識のためのシステムおよび方法に関する。
数多くの企業名、ウェブ探索クエリおよび音声ダイヤル要求などをカバーする音声探索タスクのように、大きい文典(grammar、文法)探索空間が必要とされる場合に、会話認識性能は次善最適になることが多い。よく示されている3つの次善最適は、長い認識遅延、低い認識精度、不十分な文典カバー範囲を含む。
1つの既存の移動音声探索アプリケーションは、第1の段階において全国の企業リスチング文典と局所的文典を用い、第2の段階において局所性特定企業リスチング文典を用いて同じ発話を再認識する(局所性は、第1の段階において決定する)。この方法は、遅延問題を対処しないが、非常に特定の状況においてカバー範囲および精度を改善することができる。もう1つの方法は、サブ発話レベルにおける別個の認識器の出力の間に投票することにより、単語エラー率を低減しようとする。一般的に、該方法およびその拡張は、各認識器が全体のタスクのための全部そろった文典を用いる認識を試みると仮定する。
以下は、本明細書に記載されている一部の新規な実施形態の基本的な理解が得られるように簡略化した要約説明である。この要約説明は幅広く概要したものではなく、またキーとなる要素または重要な要素を特定し、またはその範囲を限定するものでもない。その唯一の目的は、以後に提示されるより詳細な説明の序文としていくつかの概念(コンセプト)を簡略化して提示することである。
開示されたアーキテクチャは、認識されるべき入力を受け取り、認識処理のための入力に、異なるコンテキスト特定制約のインスタンスを適用する。まとめられた別々の制約インスタンスは、すべてを含めたコンテキスト領域を所与の入力に提供する。例えば、これらの制約インスタンスに対して、認識を並行的に実行することにより、認識遅延、認識精度、および認識領域カバー範囲は改善される。また、別々の認識パスの認識処理は、結果が生成されるまでシステムの待つ時間に時間制限を課すことにより、管理することができる。
会話認識のコンテキストにおいて、アーキテクチャは、それぞれがサブタスクカテゴリおよび地理的地域のような特定のコンテキストに対応する別々の小さいコンテキスト特定文典の論理和の形の、すべてを含めた文典を発話入力の認識のために利用する。文典は、共同で全体の領域をカバーする。また、同じ入力に対して、複数の認識を並行的に実行することができ、各認識パスは1つ以上のコンテキスト特定文典を用いる。
異なる認識器−文典パスからの複数の中間認識結果は、複数の認識結果に基づいてダイナミックに構成された文典、もしかすると他の領域知識を用いて再認識を実行することにより、または複数の認識結果および他の領域知識から抽出された分類特徴に基づいて作動する統計的分類器を用いて当選者を選択することにより、調整することができる。
上述した目的および関連目的を達成するために、本明細書には、以下の説明と添付図面と関連付けていくつかの例示した側面が説明されている。これらの側面は、本明細書に開示した原理が実施されるのを可能にする種々の方法を示しており、これらの側面およびその同等側面のすべては、請求項に記載の主題の範囲に属するものである。その他の利点および新規な特徴は、以下の詳細説明を添付図面と関連付けて考慮することにより明らかにされる。
開示したアーキテクチャによる、コンピュータ実装認識システムを示す図である。 単一の認識結果の決定のためにルールを利用するシステムの代替実施形態を示す図である。 再認識を利用し、および制約が音声認識のための文典である、コンテキスト特定制約認識システムを示す図である。 統計的分類を利用し、および制約が並行音声認識のための文典である、コンテキスト特定制約認識システムを示す図である。 コンピュータ実装認識方法を示す図である。 図5の方法のさらなる態様を示す図である。 図5の方法の追加の態様を示す図である。 隔離されたプラグイン実行を開示したアーキテクチャに従って実行するように操作可能であるコンピューティングシステムを示すブロック図である。 プラグイン隔離のプログラム管理のためのコンピューティング環境を示す概略ブロック図である。
開示されたアーキテクチャは、最初にコンテキスト特定制約を用いて同じ入力(例えば、発話)の独立的な認識を行う認識システムである。これらの独立的な認識は、シリアルにまたは並行的に行うことができる。それぞれのコンテキスト特定制約は、すべての領域知識を統合しようとする制約より小さい。複数の認識結果の調整は、次の認識(再認識)を用いて、および/または統計的分類を介して完成することができる。
アーキテクチャは、従来の単一文典、単一認識の型の方法に関連する認識遅延、認識精度および不十分な文典カバー範囲の問題を対処する。認識遅延に関しては、並行認識における各認識インスタンスは、同じタスクをカバーすることができる単一の大きい文典より小さい文典に対するものである。さらに、再認識ステップは、小さいダイナミック文典に対するものである。並行認識の最大遅延の組み合わせた2つの認識段階は、例えば再認識の遅延と組み合わせ、特に非ストリーミングの場合に、単一の大きい文典を用いる認識より小さい遅延を有することができる。
単一の認識の場合に、認識精度は、仮説(hypothesis)探索の期間中の刈込みのために損失することが多い。複数の認識を有することによっては、ずっと大きい仮説セットを維持することができるので、この制限が緩和される。また、例えば、ターゲットコンテキストからの文典などコンテキスト特定制約は、多数のコンテキストをカバーする単一の全般の文典に比べて、発話に関して高い精度をもたらしやすい。したがって、複数の認識からの結果は正しい結果を包含する可能性が高く、再認識または分類器を用いて複数の認識結果を調整するのは、単一文典、単一認識の方法に比べて、正しい結果を生成する可能性が高い。
不十分な文典カバー範囲に関しては、例えば、単一の文典の可能な大きさおよび/または単一の認識における文典の可能な大きさに関する実際的な(例えば、ハードウェア、ソフトウェア)制限があることが多い。複数の認識を並行的に実行することは、例えば、各認識が別個のソフトウェアおよび/またはハードウェアリソース上で実行することが可能でるので、全体の文典カバー範囲を大幅に増やすことができる。
開示されたアーキテクチャの大規模会話認識タスクへの適用を考える。以下の例は、ウェブ、地元企業および個人的な連絡先などの自由な探索を含む音声探索タスクを例にする。解決法の様々な部分に対する変更および改善は可能である。
認識文典は、それぞれがオリジナルのタスク空間の特定のサブセットをカバーする、重ねる可能性があるいくつかの小さいコンテキスト特定文典として提供される。分割のために、コンテキストは、サブタスクカテゴリ(例えば、企業名対映画のタイトル)、地理的位置(例えば、カリフォルニア州内の企業対ニューヨーク州内の企業)、人口統計プロフィール(例えば、若者向けコンテンツ対大人向けコンテンツ)などに基にすることができる。各コンテンツ特定文典は別々に作ることができ、よって、各コンテキストに関係のある知識、構造およびほかの利用可能情報を活用して、各コンテキストからの期待されたユーザ入力の成功率を最大化する。
次に、図面を参照して説明すると、類似の要素は、図全体を通して類似の参照符号を使用して示されている。以下の記載では、説明の便宜上、完全な理解が得られるように多数の具体例が説明されている。なお、明らかであるように、新規の実施形態はこれらの具体例がなくても実施することが可能である。その他の例では、その理解を容易にするために周知の構造およびデバイスがブロック図で示されている。その目的は、請求項に記載した主題の精神および範囲に属するすべての変更、等価および代替をカバーすることである。
図1は、開示されたアーキテクチャによる、コンピュータ実装認識システム100を示す。システム100は、入力106を認識結果108に認識処理するための認識コンテキスト特定制約104の制約コンポーネント102と、認識結果108を単一の認識結果112に調整するための調整コンポーネント110とを含む。
システム100は、対応するコンテキスト特定制約104を並行パスにおいておよび/またはシリアルに別々に認識処理するための認識コンポーネント114をさらに備えることができる。例えば、コンテキスト特定制約104は、入力106に対して文典を並行パスおよび/またはシリアルパスにおいて認識処理するための文典を含むことができる。コンテキスト特定制約104の個々のセットは、重なっていない、および重なっているコンテキストカバー範囲を含むことができる。言い換えれば、制約の1つのセットは、他の制約セットの制約と重ねることができる。それとともに、いくつかの制約セットは他の制約セットの制約と重なっていない。
調整コンポーネント110は、認識結果108に基づいてダイナミックに構成された文典を利用することにより、再認識を用いて認識結果108を調整し、単一の認識結果112を生成することができる。
あるいは、調整コンポーネント110は、認識結果108から抽出された分類特徴に基づいて作動する統計的分類器を用いて認識結果108を調整し、単一の調整結果102を生成する。
調整処理は、関連のあるタスクデータを処理して、単一の認識結果112に達することもできる。関連のあるタスクデータは、認識された文字列、発話レベルおよびサブ発話レベル信頼スコア、会話カバー範囲、並行認識における相対遅延、コンテキストの事前確率、各認識の相対難易度または認識結果におけるコンセンサスのうち、少なくとも1つを含むことができる。加えて、手作業でおよび/または自動的に生成された、タスクの特定の用件を反映させるいくつかのルールは、複数の認識仮説の調整処理を左右することができる。
図2は、単一の認識結果112の決定のためのルールを利用するシステム200の代替的な実施形態を示す。システム200は、入力106を認識結果108に認識処理するためのコンテキスト特定制約104の制約コンポーネント102と、認識結果108を単一の認識結果112に調整するための再認識コンポーネント110と、対応するコンテキスト特定制約を平行パスにおいておよび/またはシリアルに別々に認識処理するための認識コンポーネント114を含む。
ルールコンポーネント202は、認識結果108および/または単一の認識結果112(最後の結果)のうち1つ以上を宣言するためのルール(例えば、優先ルール)を適用するために提供される。たとえば、特定の認識器が十分に高い信頼スコアを有する特定の結果を返し、そしてその結果が、対応する認識器プロセスの最後の結果としてみなされ、単一の認識結果112最後の結果としてもみなされるかどうかを決定するルールは、作成されて適用される。
図3は、再認識を利用する、制約が音声認識のための文典であるコンテキスト特定制約認識システム300を示す。システム300は、並行的に作動するN対の認識−文典対を含み(表示された認識N)、各対は1つ以上の認識コンテキスト特定文典および認識器を含む。示されるように、文典は異なり、しかし、必ずしもそうではないが、1つの文典が他の文典と重ねる可能性がある。既存の認識システムにあるように1つの大きい文典を作成して利用するのではなく、システム300は(1つの大きい文典に統合する代わりに)別々の文典を保持し、文典のそれぞれ上で会話発話入力302の認識を実行する。
言い換えれば、発話入力302は、第1の認識器304および関連する第1のコンテキスト特定文典306を通じて処理され、よって、第1の結果308が生成され、同様に、第2の認識器310および関連する第2のコンテキスト特定文典314を通じて処理され、よって、第2の結果314が生成され、第Nの結果が生成される所望の第Nの認識器および文典まで同じように続く。結果は、ダイナミック文典316を生成するために利用され、ダイナミック文典316は次に再認識318が最後の認識結果320を出力するために用いられる。
言い換えれば、ユーザ発話入力302に関して、別々の認識がコンテキスト特定文典のそれぞれに対して実行される。これは、同時にまたはほぼ同時に並行的に行うように示される。並行認識のそれぞれは、同じ種または異なる種の認識器(例えば、組込型認識器対ネットワーク認識器、異なる音響モテルを有するネットワーク認識器など)を利用し、同じまたは異なる認識パラメータを用いることができる。最大待ち期間までは、システム300は、すべての利用可能な認識結果(例えば、結果308、結果304など)を収集し、再認識によって最後の認識結果320を決定する。
ダイナミック文典316は、すべての認識結果から導出された競合エントリを含むように構築され、認識結果のベストNおよび/または認識ラティス(recognition lattice)の認識文字列、解釈および信頼スコアを含むことができる。オリジナルの発話入力302の再認識は、このダイナミック文典316に対して行われる。信頼スコアを含む再認識318の結果は、最後の認識結果320として見なされる。
任意に、ルールコンポーネント202には、すべての認識が完成される前に最後の認識結果320を宣言する、ある優先ルールを含むことができ、例えば、ある認識器は十分高い信頼スコアを有する特定の結果を返す場合に、結果を最後の結果として受けることができる。任意に、タスクに関係のある他の領域知識322をダイナミック文典への入力として提供して、より集中的な認識プロセスを提供することができる。この知識322は、ユーザの好みの設定、発話において言われていることに係るコンテンツ、ハードウェア/ソフトウェア上の考慮および局所性などを含むことができる。
図4は、統計的分類を利用する、制約が並行の音声認識のための文典であるコンテキスト特定制約認識システム400を示す。複数の数字上および/または分類の特徴402は、すべての結果(例えば、結果308、結果314など)、もしかすると認識タスクに関係のある他の領域知識322から導出することができる。統計的分類器は、各結果と実際のユーザ入力との類似度を決定するために用いられる。もっとも高い分類スコアを有する結果は、最後の認識結果320として選択することができ、分類スコアは、最後の認識信頼度に正規化することができる。
システム400は、並行的に作動するN対の認識−文典対を含み、各対はコンテキスト特定文典(表示されたコンテキスト特定文典N)および認識器(表示された認識N)を含む。前述したように、文典は異なり、しかし、必ずしもそうではないが、1つの文典が他の文典と重ねる可能性がある。既存の認識システムにあるように1つの大きい文典を作成して利用するのではなく、システム400は(1つの大きい文典に統合する代わりに)別々の文典を保持し、文典のそれぞれ上で会話発話入力302の認識を実行する。
言い換えれば、発話入力302は、第1の認識器304および関連する第1のコンテキスト特定文典306を通じて処理され、よって、第1の結果308が生成され、同様に、第2の認識器310および関連する第2のコンテキスト特定文典314を通じて処理され、よって、第2の結果314が生成され、第Nの結果が生成される所望の第Nの認識器および文典まで同じように続く。結果(結果308、結果314、…、結果N)は、特徴402を生成するために利用され、特徴402は、次に最後の認識結果320を得るために統計的分類404に渡される。
図3において前述したように、任意に、ルールコンポーネント202には、すべての認識が完成される前に最後の認識結果320を宣言する、ある優先ルールを含むことができ、例えば、ある認識器は十分高い信頼スコアを有する特定の結果を返す場合に、結果を最後の結果として受けることができる。任意に、タスクに関係のある他の領域知識322をダイナミック文典への入力として提供して、より集中的な認識プロセスを提供することができる。この知識322は、ユーザの好みの設定、発話において言われていることに係るコンテンツ、ハードウェア/ソフトウェア上の考慮および局所性などを含むことができる。
ここでの説明は、オンラインでユーザ入力発話を受信する際のアーキテクチャの動作をカバーすることに留意されたい。解決法のもう1つの態様は、特に、複数の認識結果の調整の期間中に、システムが使用する適切な設定、特徴などを選択することである。再認識の方法と統計的分類器の方法の両方のために、訓練データを利用することができ、オフライン訓練プロセスを利用して最適な構成およびパラメタリゼーションを選択することができる。
再認識方法に関して、任意に、回帰などの統計的分析を行って相対的重さを再認識ダイナミック文典におけるパスに割り当てることも可能である。他の領域知識322の出力を制御して各再認識プロセスのためのダイナミック文典316を左右することができる。
いずれかの方法において、並行認識結果から直接に取得されたある特徴および関連するタスク知識から導出される他の特徴である特徴402のうち1つ以上を利用することができる。特徴402は、これらに限定されないが、認識文字列、発話レベルおよびサブ発話レベル信頼スコア、会話カバー範囲(例えば、会話として仮定された発話の一部)、認識における相対遅延(例えば、並行の場合)、コンテキストの事前確率(例えば、ユーザが企業名を求める頻度対ユーザがスポーツスコアを求める頻度)、各コンテキスト特定認識の相対難易度(例えば、コンテキスト認識精度内におけるコンテキスト特定文典のパープレキシティ)、各文典の(例えば、ウェブ探索文典が多種類のクエリを受けることができる)許容性、および認識結果におけるコンセンサスを含むことができる。
個々の認識プロセスは、サーバ、クライアントまたはサーバとクライントの組み合わせなど異なる機器にわたって分散されることが可能であることに留意されたい。これは、分類と再認識の両方の場合に並行認識やシリアル認識に適用する。
言い換えれば、開示されたアーキテクチャは、発話入力を認識結果に認識処理するためのコンテキスト特定文典の制約コンポーネントと、対応するコンテキスト特定文典を用いて発話入力を並行パスにおいて別々に認識処理するための認識コンポーネントと、認識結果を最後の認識結果に調整するための調整コンポーネントとを備えるコンピュータ実装認識システムである。
調整コンポーネントは、認識結果のダイナミックに構成された文典を利用し、再認識を用いて認識結果を調整し、最後の認識結果を生成する。任意に、調整コンポーネントは、再認識の前に回帰などの統計的分析を利用することにより、認識結果を調整して最後の認識結果を決定する。あるいは、調整コンポーネントは、認識結果から抽出された特徴に基づいて作動する統計的分類を用いて認識結果を調整し、最後の認識結果を生成する。加えて、ルールコンポーネントは、最後の認識結果の決定を定義する1つ以上のルールを課し、他の領域知識は、統計的分類の調整用の特徴および再認識の調整用のダイナミック文典を左右することができる。
本明細書には、開示したアーキテクチャの新規側面を実行する例示方法を表すフローチャートのセットが含まれている。説明の便宜上、例えば、フローチャートまたはフロー図の形で本明細書に示した1以上の方法は一連のアクトとして示され、記載されているが、当然に理解されるように、これら方法によれば、一部のアクトが本明細書に示され、記載されているのとは異なる順序で現れることもあれば、他のアクトと同時に現れることもあるので、これらの方法はアクトの順序によって制限されない。例えば、通常の知識者ならば理解されるように、方法は、ステート図におけるように一連の相互に関係するステートまたはイベントのとして表現されることもある。さらに、方法に例示したアクトは新規の実現ではすべてが必要であるとは限らない。
図5は、コンピュータ実装認識方法を示す。ステップ500において、発話入力を処理するために、別々のコンテキスト特定文典を受信する。ステップ502において、各パスの対応するコンテキスト特定文典を用いて、発話入力を並行パスにおいて認識する。ステップ504において、中間認識結果を各パスから生成する。ステップ506において、中間認識結果を最後の認識結果に調整する。
図6は、図5の方法の追加的な態様を示す。ステップ600において、認識結果から生成したダイナミック文典の再認識を用いて中間認識結果を調整する。ステップ602において、再認識による中間認識結果の調整の期間中に、他の領域知識を入力する。ステップ604において、1つ以上のルールを課して最後の認識結果を生成する。ステップ606において、統計的分類による中間認識結果の調整の期間中に、他の領域知識を入力する。ステップ608において、1つ以上のルールを課して最後の認識結果を生成する。
図7は、図5の方法の付加の態様を示す。ステップ700において、回帰などの統計的分析を行う。分析をすべてのパス上で同時に実施する。ステップ702において、相対的重さを再認識ダイナミック文典における各パスに割り当てる。ステップ704において、パスの中間認識結果の生成を所定の時間待つ。ステップ706において、時間内生成した中間認識結果に基づいて最後の認識結果を生成する。
本出願において用いられている「コンポーネント」と「システム」の用語は、ハードウェアであるか、ハードウェアとソフトウェアの組み合わせであるか、ソフトウェアであるか、実行中のソフトウェアであるかに関係なく、コンピュータに関係するエンティティを指すことを目的としている。例えば、コンポーネントは、プロセッサ上で実行されるプロセス、プロセッサ、ハードディスクドライブ、多重ストレージドライブ(光および/または磁気記憶媒体の)、オブジェクト、実行可能コード(executable)、実行スレッド、プログラム、および/またはコンピュータにすることができるが、これらに限定されない。例として、サーバ上で実行されるアプリケーションとサーバは共にコンポーネントにすることができる。1以上のコンポーネントはプロセスおよび/または実行スレッド内に置いておくことができ、コンポーネントは1つのコンピュータ上に置いておくことも、2またはそれ以上のコンピュータ間に分散させることもできる。「例示」の用語は、例(example)、インスタンス(instance)、または図例(illustration)を意味するために本明細書で用いられることがある。「例示」として記載されているどの側面または設計も、必ずしも、他の側面または設計よりも好ましいまたは優位であると解釈されない。
次に図8を参照して説明すると、図8は隔離されたプラグイン実行を開示したアーキテクチャに従って実行するように動作可能であるコンピューティングシステム800を示すブロック図である。種々の側面に関する追加のコンテキストが得られるようにするために、図8および以下の解説は、種々の側面が実現可能である適当なコンピューティングシステム800の概要を簡単に記載したものである。上記記載は、1以上のコンピュータ上で実行可能であるコンピュータ実行可能命令の一般的コンテキストの中で説明されているが、この分野の精通者ならば認識されるように、新規の実施形態が他のプログラムモジュールと関連付けて実現されることも、ハードウェアとソフトウェアの組み合わせとして実現されることも可能である。
種々の側面を実現するコンピューティングシステム800は、1以上の処理ユニット804、システムメモリ806およびシステムバス808を装備したコンピュータ802に含んでいる。処理ユニット804は、シングルコンピュータ、マルチコンピュータ、シングルコアユニットおよびマルチコアユニットのように商用化された種々のプロセッサのいずれかにすることができる。さらに、この分野の精通者ならば理解されるように、新規の本方法が他のコンピュータシステム構成と共に実施することが可能であり、コンピュータシステム構成としてはミニコンピュータ、マインフレームコンピュータのほかに、パーソナルコンピュータ(例:デスクトップ、ラップトップなど)、ハンドヘルドコンピューティングデバイス、マイクロプロセッサベースまたはプログラマブルコンシューマエレクトロニクスなどがあり、これらの各々は1以上の関連デバイスに動作可能に結合することが可能である。
システムメモリ806は、揮発性(VOL)メモリ810(例:ランダムアクセスメモリ(RAM))および不揮発性(NON−VOL)メモリ812(例:ROM、EPROM、EEPROMなど)を含むことができる。基本入出力システム(BIOS)は不揮発性メモリ812にストアしておくことができ、そこには、スタートアップ時のようにコンピュータ802内のコンピュータ間でデータおよび信号をやりとりするのを容易にする基本的ルーチンが含まれている。揮発性メモリ810は、キャッシングデータ用のスタティックRAMのような高速RAMを含むことも可能である。
システムバス808は、システムコンポーネントのインタフェースとなるものであり、この中には1以上の処理ユニット804とのメモリサブシステム806が含まれるが、これに限定されない。システムバス808は、メモリバス(メモリコントローラ付きまたは無し)にさらに相互接続可能である数種タイプのバス構造のいずれか、および種々の商用化バスアーキテクチャのいずれかを使用した周辺バス(例:PCI、PCIe、AGP、LPCなど)にすることができる。
コンピュータ802は1以上のストレージサブシステム814およびこれらのストレージサブシステム814とシステムバス808および他の望みのコンピュータコンポーネントとの間のインタフェースとなるストレージインタフェース816をさらに含んでいる。ストレージサブシステム814は、例えば、ハードディスクドライブ(HDD)、磁気フロッピディスクドライブ(FDD)および/または光ディスクストレージドライブ(例:CD−ROMドライブ、DVDドライブなど)の1以上を含むことができる。ストレージインタフェース816は、例えば、EIDE、ATA、SATA、およびIEEE1394などのインタフェーステクノロジを含むことができる。
1以上のプログラムおよびデータは、メモリサブシステム806、取り外し可能メモリサブシステム818(例:フラッシュドライブ形体のファクタテクノロジ)、および/またはストレージサブシステム814にストアしておくことができるが、その中にはオペレーティングシステム820、1以上のアプリケーションプログラム822、その他のプログラムモジュール824およびプログラムデータ826が含まれている。
1以上のアプリケーションプログラム822、その他のプログラムモジュール824およびプログラムデータ826は、例えば、図1のシステム100のコンポーネント、エンティティおよび結果、図2のシステム200のコンポーネント、エンティティおよび結果、図3のシステム300のコンポーネント、エンティティおよび結果、図4のシステム400のコンポーネント、エンティティおよび結果、ならびに図5乃至図7において提供される方法および追加の態様を含むことができる。
オペレーティングシステム820、アプリケーション822、モジュール824および/またはデータ826のすべてまたは一部は、例えば、揮発性メモリ810のようなメモリにキャッシュしておくこともできる。当然に理解されるように、開示したアーキテクチャは種々の商用化オペレーティングシステムまたはオペレーティングシステムの組み合わせと共に実現することができる(例:バーチャルマシンとして)。
ストレージサブシステム814およびメモリサブシステム(806と818)は、データ、データ構造、コンピュータ実行可能命令などを揮発的または不揮発的に収めているコンピュータ可読媒体の働きをする。コンピュータ可読媒体は、利用できる媒体ならば、コンピュータ802によってアクセスできるどの媒体にすることも可能であり、その中には揮発性媒体と不揮発性媒体、取り外し可能媒体と取り外し不能媒体が含まれる。コンピュータ802にとっては、媒体はデータを任意の適当なデジタルフォーマットでストアするのに適している。この分野の精通者ならば当然に理解されるように、zipドライブ、磁気テープ、フラッシュメモリカード、カートリッジなどのように、開示したアーキテクチャの新規方法を実行するためのコンピュータ実行可能命令をストアするために、他のタイプのコンピュータ可読媒体を採用することができる。
ユーザは、キーボードとマウスのような外部ユーザ入力デバイス828を使用してコンピュータ802、プログラムおよびデータとやりとりすることができる。その他の外部入力デバイスとして可能なものに、マイクロホン、IR(赤外線)リモートコントロール、ジョイスティック、ゲームパッド、カメラ認識システム、スタイラスペン、タッチスクリーン、ジェスチャシステム(例:目の動き、手の動きなど)などがある。ユーザは、タッチパッド、マイクロホン、キーボードなどのオンボードユーザ入力デバイス830を使用してコンピュータ802、プログラムおよびデータとやりとりすることができるが、そこではコンピュータ802は、例えば、ポータブルコンピュータになっている。これらおよびその他の入力デバイスはシステムバス808を経由した入出力(I/O)を通して処理ユニット804に接続されているが、パラレルポート、IEEE1394シリアルポート、ゲームポート、USBポート、IRインタフェースなどの他のインタフェースによって接続することができる。I/Oデバイスインタフェース832は、サウンドカードおよび/またはオンボードオーディオ処理機能のように、プリンタ、オーディオデバイス、カメラデバイスなどの出力周辺デバイス834の使用も容易にしている。
1以上のグラフィックスインタフェース836(一般にグラフィックス処理ユニット(GPU)とも呼ばれる)はコンピュータ802と外部ディスプレイ838(例:LCDプラズマ)および/またはオンボードディスプレイ840〈例:ポータブルコンピュータの場合〉との間にグラフィックスとビデオ信号を提供する。グラフィックスインタフェース836はコンピュータシステムボードの一部として製造することもできる。
コンピュータ802は、ワイヤ/ワイヤレス通信サブシステム842を介した1以上のネットワークおよび/または他のコンピュータとの論理コネクションを使用してネットワーク化環境(例:IP)で動作することができる。その他のコンピュータとして可能なものとしては、ワークステーション、サーバ、ルータ、パーソナルコンピュータ、マイクロプロセッサベースのエンターテインメントアプライアンス、ピアデバイスまたは他の共通ネットワークノードがあり、これらは、コンピュータ802に関して説明した要素の多くまたはすべてを含んでいるのが代表的である。論理コネクションとして可能なものとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ホットスポットなどのワイヤ/ワイヤレス接続性がある。LANとWANネットワーキング環境はオフィスや会社で普及しており、イントラネットのような企業内コンピュータネットワークを容易化しており、そのすべてはインターネットのようなグローバル通信ネットワークに接続していることがある。
ネットワーキング環境で使用されるときは、コンピュータ802はワイヤ/ワイヤレス通信サブシステム842(例:ネットワークインタフェースアダプタ、オンボードトランシーバサブシステムなお)に接続して、ワイヤ/ワイヤレスネットワーク、ワイヤ/ワイヤレスプリンタ、ワイヤ/ワイヤレス入力デバイス844などと通信している。コンピュータ802はモデムを含むことが可能であるが、またはネットワーク上の通信を確立するための他の手段を含んでいることもある。ネットワーク化環境では、コンピュータ802に関係するプログラムとデータは、分散システムと関連するようなリモートメモリ/ストレージデバイスにストアしておくことができる。以上から理解されるように、図示のネットワークコネクションは例示であり、コンピュータ間の通信リンクを確立する他の手段を使用することが可能である。
コンピュータ802は、IEEExxファミリの標準などの無線(radio)テクノロジを使用してワイヤ/ワイヤレスデバイスまたはエンティティと通信するように動作可能であり、そのようなものとしては、例えば、プリンタ、スキャナ、デスクトップおよび/またはポータブルプリンタ、パーソナルデジタルアシスタント(PDA)、通信衛星、ワイヤレスに検出可能タグ(例:キオスク、ニューススタンド、レストルーム)と関連付けられた機器またはロケーションのいずれかの部分とのワイヤレス通信(例:IEEE802.11無線(over-the-air)で動作可能に配置されたワイヤレスデバイスなどがある。この中には、少なくとも、ホットスポット用のWi−Fi(つまりワイヤレス(Wireless Fidelity)、WiMax、およびBluetooth(登録商標)ワイヤレステクノロジが含まれている。従って、通信は、従来のネットワークまたは単純に少なくとも2つのデバイス間のアドホック(ad hoc)ネットワークとの通信のように事前定義の構造にすることができる。Wi−FiはIEEE802.11x(a、b、gなど)を使用して、セキュアで確信性のある高速ワイヤレス接続性を提供している。Wi−Fiネットワークは、コンピュータを相互に、インターネットに、およびワイヤネットワーク(IEEE802.3に関係するメディアと機能を使用する)に接続するために使用することができる。
次に図9を参照して説明すると、図9は、プラグイン隔離のプログラム管理のためのコンピューティング環境900を示す概略ブロック図である。この環境は1以上のクライアント902を含んでいる。クライアント902はハードウェアおよび/またはソフトウェア〈例:スレッド、プロセス、コンピューティングデバイス〉にすることができる。クライアント902は、例えば、クッキー(cookie)および/または関連コンテキスト情報を収容することができる。
この環境900は1以上のサーバ904も含んでいる。サーバ904もハードウェアおよび/またはソフトウェア(例:スレッド、プロセス、コンピューティングデバイス)にすることができる。サーバ904は、例えば、アーキテクチャを採用することにより変形(transformation)を実行するためのスレッドを収容することができる。クライアント902とサーバ904間の1つの可能な通信は、2またはそれ以上のコンピュータプロセス間で送信されるのに適したデータパケットの形体にすることができる。データパケットは、例えば、クッキーおよび/または関連コンテキスト情報を収めていることがある。この環境900は、クライアント902とサーバ904間の通信を容易にするため採用できる通信フレームワーク906(例:インターネットのようなグローバル通信ネットワーク)を含んでいる。
通信はワイヤ(光ファイバを含む)および/またはワイヤレステクノロジを通して容易にすることができる。クライアント902は、クライアント902にローカルである情報(例:クッキーおよび/または関連コンテキスト情報)をストアするために採用できる1以上のデータストアに動作可能に接続されている。同様に、サーバ904は、サーバ904にローカルである情報(例:クッキーおよび/または関連コンテキスト情報)をストアするために採用できる1以上のデータストアに動作可能に接続されている。
クライアント902は、音声信号が認識処理のためにサーバ904または他のクライアントによって受信される経由クライアントを含むことができる。文典は、クライアントデータストア908および/またはサーバデータストア910にストアすることができる。
上述してきた説明の中には、開示したアーキテクチャのいくつかの例が含まれている。当然のことであるが、想到し得るすべてのコンポーネントおよび/または方法の組み合わせを記載することは不可能であるが、この分野の通常の知識者ならば認識されるように、さらに多くの組み合わせおよび置換(permutation)が可能である。従って、新規なアーキテクチャは請求項の精神および範囲に属するすべての変更、改良および変形を包含することを目的としている。さらに、「含む(includes)」の用語が詳細説明または請求項のどちらかで使用されている限りにおいて、この用語は「備える(comprising)」が請求項で移行語として使用されたときに解釈されるように「備える(comprising)」の用語と同じように包含的であることを目的としている。

Claims (20)

  1. コンピュータ実装認識システムであって、
    複数の認識結果の各々への複数の認識経路に沿って、同一の入力に対し独立した認識処理を行うよう構成された複数のコンテキスト特定制約の制約コンポーネントであって、異なる制約のインスタンスは統合されると前記入力にコンテキストドメイン全体を提供する、制約コンポーネントと、
    前記複数の認識結果を用いてダイナミック文法を生成するよう構成され、ダイナミック文法における前記認識経路の各々に関連する重み付けを割り当てし、最終認識結果を求めるために回帰分析を行うよう構成された調整コンポーネントと、
    前記制約コンポーネントおよび調整コンポーネントに関連づけられたメモリにおけるコンピュータ実行可能命令を実行するよう構成されたマイクロプロセッサと、
    を備えるよう構成されたコンピュータ実装認識システム。
  2. 前記制約は平行パスにおいて前記入力の認識処理のための文法を含む、請求項1記載のシステム。
  3. 前記調整コンポーネントは再認識を用いて前記複数の認識結果を調整し、前記単一の認識結果を生成する、請求項1に記載のシステム。
  4. 前記再認識は、前記複数の認識結果に基づいて前記ダイナミックに構成された文法を利用する、請求項3に記載のシステム。
  5. 前記調整コンポーネントは、前記複数の認識結果から抽出された分類特徴を操作する統計的分類器を用いて前記複数の認識結果を調整し、前記単一の認識結果を生成するようにさらに構成される、請求項1に記載のシステム。
  6. 前記認識処理は、関連タスクデータを処理して前記単一の認識結果に達し、前記関連タスクデータは、認識された文字列、発話レベルおよびサブ発話レベル信頼スコア、会話カバー範囲、並行認識における相対遅延、コンテキストの事前確率、各認識の相対難易度または前記認識結果におけるコンセンサスのうち、少なくとも1つを含む、請求項1に記載のシステム。
  7. 並行パスのそれぞれにおいて対応するコンテキスト特定制約を用いて前記入力を別々に認識処理するための認識コンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
  8. 前記単一の認識結果の決定を定義する1つ以上のルールを課すためのルールコンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
  9. コンピュータ実装認識方法であって、前記方法はコンピュータ可読命令を実行するコンピュータシステムにより実行され、前記方法は、
    発話入力を処理するために、オリジナルタスク空間の特定のサブセットをそれぞれカバーする別々のコンテキスト特定文法から構成される認識文法を受信するステップと、
    各経路に対して対応する前記コンテキスト特定文法を用いて平行経路における前記発話入力を認識するステップと、
    各経路から生じる1つの中間認識結果を生成するステップと、
    各経路から生じる中間認識結果を利用してダイナミック文法を生成するステップと、
    前記ダイナミック文法における前記認識経路の各々に対する関連の重みを割り当て、かつ最終認識結果を求めるよう回帰分析を実行するステップと、
    前記受信するステップ、認識するステップ、前記中間認識結果を生成するステップ、ダイナミック文法を生成するステップ、および実行するステップの動作に関連するメモリ内の命令を実行するマイクロプロセッサを構成するステップと、
    を備えることを特徴とする方法。
  10. 前記複数の中間認識結果からダイナミックに生成された文法を利用した再認識を用いて、前記複数の中間認識結果を調整するステップをさらに備える、請求項9に記載の方法。
  11. 前記再認識を用いた前記複数の中間認識結果の調整の間に、他の領域知識を入力するステップと、
    1つまたは複数のルールを課して前記最終認識結果を生成するステップと
    をさらに備える、請求項9に記載の方法。
  12. 前記分類器を用いた前記複数の中間認識結果の調整の間に、他の領域知識を入力するステップと、
    1つまたは複数のルールを課して前記最終認識結果を生成するステップと
    をさらに備える、請求項9に記載の方法。
  13. ある経路の中間認識結果の生成のために所定期間待つステップと、
    前記所定時間内に生成される中間認識結果に基づいて前記最終認識結果を生成するステップと、
    をさらに備えることを特徴とする請求項9に記載の方法。
  14. プロセッサにより実行されると認識システムを可能にする、コンピュータ実行可能な命令を備えるコンピュータ読取可能記憶デバイスであって、
    複数の認識結果の各々への複数の認識経路に沿って、同一の入力に対し独立した認識処理を行うよう構成された複数のコンテキスト特定制約の制約コンポーネントであって、異なる制約のインスタンスは統合されると前記入力にコンテキストドメイン全体を提供する、制約コンポーネントと、
    前記複数の認識結果を用いてダイナミック文法を生成するよう構成され、ダイナミック文法における前記認識経路の各々に関連する重み付けを割り当てし、最終認識結果を求めるために回帰分析を行うよう構成された調整コンポーネントと、
    を備えるよう構成されたコンピュータ読取可能記憶デバイス。
  15. 前記調整コンポーネントは前記複数の認識結果の動的に構成された文法を用い、そして再認識を用いて前記複数の認識結果を調整して前記最終認識結果を生成する、請求項14に記載のコンピュータ読取可能記憶デバイス。
  16. 前記調整コンポーネントは前記認識結果から抽出された特徴を操作する分類を用いて前記認識結果を調整して前記最終認識結果を生成する、請求項14に記載のコンピュータ読取可能記憶デバイス。
  17. 前記最終認識結果の決定を定義する1以上のルールを課すためのルールコンポーネント、および分類調整のための特徴および再認識調整のためのダイナミック文法に影響を与える他の領域知識をさらに備える、請求項14に記載のコンピュータ読取可能記憶デバイス。
  18. 前記調整コンポーネントは、再認識の前に回帰分析を利用して前記複数の認識結果を調整し前記最終認識結果を求める、請求項14に記載のコンピュータ読取可能記憶デバイス。
  19. コンピュータ実装認識方法であって、前記方法はコンピュータ可読命令を実行するコンピュータシステムにより実行され、前記方法は、
    各パスに対して異なる又は重なっているコンテキスト特有の文法を備える、認識文法を用いて複数の並行パスにおいて発話入力を認識するステップと、
    1以上の前記パスから生じる中間認識結果を用いてダイナミック文法を生成するステップと、
    前記ダイナミック文法において前記認識パスの各々に対する関連する重みを割り当てるために統計的分析を実行するステップと、
    前記最終認識結果を生成するために前記ダイナミック文法を用いて前記発話入力の再認識処理を実行するステップと、
    認識するステップ、生成するステップ、統計的分析を実行するステップ、再認識処理を実行するステップの動作に関連するメモリ内の命令を実行するマイクルプロセッサを構成するステップと、
    を備えることを特徴とする方法。
  20. コンピュータ実装認識システムであって、
    複数の認識器であって、前記複数の認識器はそれぞれ、対応するコンテキスト特定文法を用いて、一つの発話入力に対し独立した認識処理を行い、中間認識結果を生成するよう構成されている、複数の認識器と、
    前記複数の認識器が生成した複数の前記中間認識結果に基づいて、最終認識結果を求めるよう構成された調整コンポーネントであって、前記認識器によりそれぞれ生成された前記中間認識結果と、前記発話入力との類似度を決定し、最も高い類似度を有する前記中間認識結果を最終認識結果として選択するよう構成された分類器を備える調整コンポーネントと、
    を備えるシステム。
JP2015202120A 2009-06-04 2015-10-13 再認識および統計的分類を使用する認識 Pending JP2016026326A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/477,918 US8930179B2 (en) 2009-06-04 2009-06-04 Recognition using re-recognition and statistical classification
US12/477,918 2009-06-04

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2012514054A Division JP2012529080A (ja) 2009-06-04 2010-06-01 再認識および統計的分類を使用する認識

Publications (1)

Publication Number Publication Date
JP2016026326A true JP2016026326A (ja) 2016-02-12

Family

ID=43298454

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2012514054A Pending JP2012529080A (ja) 2009-06-04 2010-06-01 再認識および統計的分類を使用する認識
JP2015202120A Pending JP2016026326A (ja) 2009-06-04 2015-10-13 再認識および統計的分類を使用する認識

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2012514054A Pending JP2012529080A (ja) 2009-06-04 2010-06-01 再認識および統計的分類を使用する認識

Country Status (10)

Country Link
US (1) US8930179B2 (ja)
EP (1) EP2438533B1 (ja)
JP (2) JP2012529080A (ja)
KR (1) KR101700466B1 (ja)
CN (1) CN102460423B (ja)
AU (1) AU2010256788B2 (ja)
BR (1) BRPI1014550B1 (ja)
CA (1) CA2760992C (ja)
RU (1) RU2571519C2 (ja)
WO (1) WO2010141513A2 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US9711167B2 (en) * 2012-03-13 2017-07-18 Nice Ltd. System and method for real-time speaker segmentation of audio interactions
US9093076B2 (en) * 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US9431012B2 (en) 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
KR20140082157A (ko) * 2012-12-24 2014-07-02 한국전자통신연구원 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
CN103077718B (zh) * 2013-01-09 2015-11-25 华为终端有限公司 语音处理方法、系统和终端
US9414004B2 (en) 2013-02-22 2016-08-09 The Directv Group, Inc. Method for combining voice signals to form a continuous conversation in performing a voice search
US20140365218A1 (en) * 2013-06-07 2014-12-11 Microsoft Corporation Language model adaptation using result selection
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US9384334B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content discovery in managed wireless distribution networks
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9786276B2 (en) * 2014-08-25 2017-10-10 Honeywell International Inc. Speech enabled management system
KR102365757B1 (ko) * 2015-09-09 2022-02-18 삼성전자주식회사 인식 장치, 인식 방법 및 협업 처리 장치
US20180366123A1 (en) * 2015-12-01 2018-12-20 Nuance Communications, Inc. Representing Results From Various Speech Services as a Unified Conceptual Knowledge Base
KR102019757B1 (ko) * 2015-12-15 2019-09-10 한국전자통신연구원 언어 분석 오류 보정 장치 및 방법
DE102016005629B4 (de) * 2016-05-06 2020-06-25 Audi Ag Kraftfahrzeug-Bedienvorrichtung und Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal
JP2018191145A (ja) * 2017-05-08 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム及びディクテーション方法
CN107437414A (zh) * 2017-07-17 2017-12-05 镇江市高等专科学校 基于嵌入式gpu系统的并行化游客识别方法
CN107943452B (zh) * 2017-11-20 2020-07-14 中国运载火箭技术研究院 一种多用户协同开发的体系结构设计平台
US11360872B2 (en) 2018-10-18 2022-06-14 Hewlett-Packard Development Company, L.P. Creating statistical analyses of data for transmission to servers
WO2021019775A1 (ja) * 2019-08-01 2021-02-04 三菱電機株式会社 多言語音声認識装置および多言語音声認識方法
US11238884B2 (en) * 2019-10-04 2022-02-01 Red Box Recorders Limited Systems and methods for recording quality driven communication management
US11961511B2 (en) 2019-11-08 2024-04-16 Vail Systems, Inc. System and method for disambiguation and error resolution in call transcripts
JP6786005B1 (ja) * 2020-04-09 2020-11-18 日鉄エンジニアリング株式会社 情報出力装置、情報出力システム、情報出力方法、プログラム、サーバ装置及びデータ出力方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6346496A (ja) * 1986-04-04 1988-02-27 株式会社リコー 音声認識装置
JP2002540478A (ja) * 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 並列する認識エンジン

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6265089A (ja) 1985-09-18 1987-03-24 株式会社リコー 音声認識装置
US5390279A (en) * 1992-12-31 1995-02-14 Apple Computer, Inc. Partitioning speech rules by context for speech recognition
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US7082391B1 (en) * 1998-07-14 2006-07-25 Intel Corporation Automatic speech recognition
US6434524B1 (en) * 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
JP2000181487A (ja) 1998-12-14 2000-06-30 Toshiba Tec Corp 音声認識装置
DE19910234A1 (de) 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren mit mehreren Spracherkennern
JP2001249684A (ja) * 2000-03-02 2001-09-14 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
US7213027B1 (en) 2000-03-21 2007-05-01 Aol Llc System and method for the transformation and canonicalization of semantically structured data
US6973429B2 (en) * 2000-12-04 2005-12-06 A9.Com, Inc. Grammar generation for voice-based searches
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
JP2003029783A (ja) 2001-07-17 2003-01-31 Oki Electric Ind Co Ltd 音声認識制御方式
US20030149566A1 (en) 2002-01-02 2003-08-07 Esther Levin System and method for a spoken language interface to a large database of changing records
US7184957B2 (en) * 2002-09-25 2007-02-27 Toyota Infotechnology Center Co., Ltd. Multiple pass speech recognition method and system
EP1774516B1 (en) 2004-01-12 2011-03-16 Voice Signal Technologies Inc. Normalization of cepstral features for speech recognition
JP2006039382A (ja) 2004-07-29 2006-02-09 Nissan Motor Co Ltd 音声認識装置
US7747437B2 (en) 2004-12-16 2010-06-29 Nuance Communications, Inc. N-best list rescoring in speech recognition
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6346496A (ja) * 1986-04-04 1988-02-27 株式会社リコー 音声認識装置
JP2002540478A (ja) * 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 並列する認識エンジン

Also Published As

Publication number Publication date
AU2010256788A1 (en) 2011-11-17
AU2010256788B2 (en) 2014-09-11
EP2438533A2 (en) 2012-04-11
RU2011149321A (ru) 2013-06-10
CN102460423B (zh) 2015-09-09
EP2438533A4 (en) 2016-05-11
EP2438533B1 (en) 2019-01-23
JP2012529080A (ja) 2012-11-15
CN102460423A (zh) 2012-05-16
WO2010141513A2 (en) 2010-12-09
KR20120029413A (ko) 2012-03-26
BRPI1014550B1 (pt) 2020-05-05
KR101700466B1 (ko) 2017-01-26
US8930179B2 (en) 2015-01-06
CA2760992A1 (en) 2010-12-09
CA2760992C (en) 2017-04-25
US20100312546A1 (en) 2010-12-09
WO2010141513A3 (en) 2011-03-03
BRPI1014550A2 (pt) 2016-04-05
RU2571519C2 (ru) 2015-12-20

Similar Documents

Publication Publication Date Title
JP2016026326A (ja) 再認識および統計的分類を使用する認識
KR102517387B1 (ko) 로컬 텍스트-응답 맵을 활용하여 사용자의 음성 발화에 대한 응답 렌더링
US9202461B2 (en) Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
JP4902617B2 (ja) 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
US20080059195A1 (en) Automatic pruning of grammars in a multi-application speech recognition interface
CN112270925A (zh) 用于创建可定制对话系统引擎的平台
JP2017516153A (ja) 以前の対話行為を使用する自然言語処理における文脈解釈
JP2004272251A (ja) ブロック同期復号
CN106030698B (zh) 用于智能个人助理应用的方法、系统和计算机可读介质
US11532301B1 (en) Natural language processing
US10861453B1 (en) Resource scheduling with voice controlled devices
US20220161131A1 (en) Systems and devices for controlling network applications
JP2023162265A (ja) テキストエコー消去
US11626107B1 (en) Natural language processing
KR20230156427A (ko) 연결 및 축소된 rnn-t
EP3635572B1 (en) Subquery generation from a query
US12087279B2 (en) Regularizing word segmentation
US10140981B1 (en) Dynamic arc weights in speech recognition models
US11410659B1 (en) Dynamic skill endpoint
US11600260B1 (en) Utterance generation and evaluation
US11720964B2 (en) System and method for natural language order fill

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161202

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170818

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180118

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180227