JP2004511823A - 動的再構成可能音声認識システムとその方法 - Google Patents

動的再構成可能音声認識システムとその方法 Download PDF

Info

Publication number
JP2004511823A
JP2004511823A JP2002535116A JP2002535116A JP2004511823A JP 2004511823 A JP2004511823 A JP 2004511823A JP 2002535116 A JP2002535116 A JP 2002535116A JP 2002535116 A JP2002535116 A JP 2002535116A JP 2004511823 A JP2004511823 A JP 2004511823A
Authority
JP
Japan
Prior art keywords
model
speech recognition
determining
converter
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002535116A
Other languages
English (en)
Inventor
ローズ リチャード シー
ガジック ボハナ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JP2004511823A publication Critical patent/JP2004511823A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

音声認識モデルは、ユーザ情報、背景ノイズ等の背景情報および変換器の応答特性等の変換器情報に基づいて動的に再構成可能であり、ユーザに、キーボードテキスト入力に代わる入力モードが提供される(図5)。携帯電話および携帯情報端末等の小型装置において、またオフィス、家庭または自動車等の環境で音声認識を実現し、音声認識の精度を保つ、動的再構成可能音声認識技術が提供される。

Description

【0001】
本願は、2000年10月13日出願の米国仮出願60/240,324号、「携帯機器による自動音声認識のための隠れマルコフモデル環境補償」(代理人整理番号2000−0499,109039)の出願日の効果を主張する。仮出願の出願人は、Richard C. RoseとBojana GAJICである。上記仮出願は、その中で引用されている参考文献のすべてを含め、この引用をもって本願に援用する。
【0002】
(技術分野)
本発明は、自動音声認識方法と装置に関する。
【0003】
(背景技術)
携帯機器による情報記憶容量の増大と、ネットワーク上でアクセス可能な情報の増加に伴い、形態機器の利用が高まってきている。しかしながら、ウェブベースの電話、携通信信システム、携帯情報端末その他の携帯機器のための従来の入力方法には限界がある。たとえば、形態機器のキーボードのサイズは、携帯機器をできるだけ小型化する必要があることから、限定されている。
【0004】
従来のようなサイズの限られたキーボードは通常、小型化、省スペース化のために、多機能キーを採用している。多機能キーは、前のキー列の選択に依存するキーであり、多くの異なる機能を実行するのに使用することができる。しかしながら、追加される機能数が増えると、多機能キーボードが使いにくくなり、エラーが発生しやすい入力方法となる。また、多機能キーを備えるキーボードのサイズを小さくすると、キー自体が小さくなるため、打ち間違いの可能性が一層高まる。このように、小型化された多機能キーもエラーが多く、使いにくい。一部のメーカーは推定テキストエントリ入力方法を使って、これらの問題への対応を試みている。たとえば、多くのウェブベースの電話で採用されているT−9(登録商標)推定テキストエントリシステムは、各単語に関する打鍵が入力されると、完全な単語を推定するものである。しかし、T−9(登録商標)推定テキストエントリシステムは間違った単語を特定してしまい、異なる言語の単語に容易に適応させることができず、キーボードの使用が必要で、使いにくい。
【0005】
携帯機器の一部メーカーは、携帯機器のキーボードを大きくして、キーボードの入力の問題に対応しようとしている。たとえば、エリクソンモデルR380およびR380sのウェブベースの電話は、入力のための、より大きなタッチスクリーンが現れるフリップアップキーパッドを備えている。しかしながら、これらのタッチスクリーンは高価で、機器が損傷を受ける可能性が高く、消費電力が増加するために、電池サイズが大型化し、ユーザに使いやすい入力方法を提供できない。
【0006】
パームやハンドスプリング等の携帯情報端末機器メーカーの中には、携帯情報端末等の自社の携帯機器に、手書き認識ソフトウェアを追加することによって、上記のような従来の入力方法の限界に対処しようとしている。しかしながら、この手書き認識ソフトウェアもエラーが多く、ユーザは手書き認識ソフトウェアが認識しやすい方法で書く訓練をしなければならず、使いやすい入力方法とはいえない。
【0007】
自動音声認識は、携帯機器用の使いやすい入力方法である。しかしながら、携帯機器向けの従来の音声認識システムは、特定の機器の上でしか音声認識機能が実現されず、使い方の訓練等、ユーザによる介入が必要である。機器を紛失した、またはこれが壊れてしまい、これを新しいものと交換しなければならない場合、新しい機器について再度、訓練しなおさなければ、機器の精度が低下する。また、ユーザの使用環境が訓練環境と異なると、音声認識の精度にも影響が出る。
【0008】
その他の従来の音声認識システムは、機器またはネットワークのいずれかにおいて不特定話者モデルを使用している。しかしながら、これらの従来の不特定話者音声認識機器は、環境の変化および/または変換器の応答特性の違いを自動的に補償できない。
【0009】
たとえば、電話やウェブベースの電話はそれぞれ、応答特性の異なる変換器を用いている可能性が高い。インターネット電話で使用されるヘッドに装着された変換器やマイクロフォンの応答特性は、ハンズフリー携帯電話のユーザによって使用されるジャブラハンズフリーEarSet(登録商標)とは異なるであろう。従来の音声認識システムは、携帯機器の応答特性が同じであることを前提としているため、音声認識の精度が低下する。
【0010】
同様に、背景ノイズについては、インターネット電話のユーザの背景ノイズ環境は静かで推定可能であるが、携帯電話のユーザの背景ノイズ環境は常に変化する。従来の音声認識システムは、移動機器がすべて同じ背景ノイズであることを前提としているため、音声認識システムの精度が低下する。
【0011】
(発明の開示)
したがって、携帯機器のための使いやすく、ユーザの訓練がほとんど不要な別の入力モードが有益である。本発明の各種の実施形態において、個々の変換器の特性と特定の背景環境ノイズ特性を判断し、これを使って音声認識モデルを調整する。本発明のその他の実施形態では、変換器の特性と特定の背景環境ノイズ特性を不特定話者対応の隠れマルコフモデル等の音声認識モデルに適用する手段と方法を提供する。
【0012】
(発明を実施するための最良の形態)
図1は、本発明による動的再構成可能音声認識システムの第一の実施形態の概略図である。携帯電話30、音声認識携帯情報端末50、音声認識コンピュータ60、ウェブサーバ80、ダイアログサーバ100、自動音声認識サーバ110、動的再構成可能音声認識システム120がそれぞれ通信リンク110に接続されている。
【0013】
本発明の第一の実施形態では、携帯電話30のユーザは、情報レポジトリ、デジタルライブラリまたはウェブサーバ80に情報を求める音声要求を開始する。音声要求は動的再構成可能音声認識システム120に送られる。動的再構成可能音声認識システム120は、情報レポジトリ、デジタルライブラリまたはウェブサーバ80に含まれる情報へのアクセスを仲介するゲートウェイまたはプロキシとして機能する。たとえば、情報レポジトリ、デジタルライブラリまたはウェブサーバ80は情報をHTML,PDF,XMLおよび/またはVXMLページその他、既知の、または今後開発される情報暗号化またはフォーマッティングで符号化することができる。
【0014】
携帯電話30から音声による情報要求を受け取ると、動的再構成可能音声認識システム120はユーザの識別を行う。多くの携帯機器は永久的に一人のユーザに割り当てられる個人的な通信機器であるため、携帯機器識別子を使ってユーザを識別できる。しかしながら、複数の人によって使用される共有電話等の共有携帯機器の場合、使用時に毎回、まず固有のユーザコードが入力され、ユーザ識別のために、各音声要求とともに動的再構成可能音声認識システム120に送信される。あるいは、動的再構成可能音声認識システム120は、音声対応電話30のユーザが新たに追加されると、携帯電話30を各ユーザに動的に適応させる。本発明の精神または範囲から逸脱することなく、ユーザ識別子を、時刻、曜日またはその他の情報等、電話に関連する規則またはユーザ識別方法に基づくものとすることができる。
【0015】
動的再構成可能音声認識システム120は、ユーザ識別子に基づく不特定話者音声認識モデルを利用する。たとえば、動的再構成可能音声認識システム120は、音声の隠れマルコフモデル、ニューラルネットワークパラメータ、参照テンプレートまたはその他パラメータ化された音声認識モデルを利用することができる。ユーザの電話番号または端末識別子等のユーザ識別子に基づき、各ユーザに関する変形、背景モデルおよび/または変換器モデルを適用して、各ユーザの音声認識モデルを生成することができる。隠れマルコフモデルの使用は一例にすぎず、本発明の精神と範囲から逸脱することなく、その他の既知の、または今後開発される音声認識モデルも利用できることは明らかである。
【0016】
動的再構成可能音声認識システム120は、背景ノイズパラメータの推定値を確定する。背景モデルのパラメータは、携帯電話30のユーザのために、記憶装置に保存される。携帯電話30の電流変換器によって発生するノイズも推定され、携帯電話30のユーザのために保存される。携帯電話30のユーザに関する背景モデルおよび変換器モデルの背景推定と変換器推定のパラメータを使い、不特定話者音声認識モデルを、携帯電話30のユーザの現在の背景環境と変換器の特性に適応させる。
【0017】
携帯電話30のユーザに関する背景と変換器について適応された不特定話者音声認識モデルと音声要求が、自動音声認識サーバ110に送られる。
【0018】
自動音声認識サーバ110は、携帯電話30のユーザに関する背景と変換器について適応された不特定話者音声認識モデルに基づいて、音声要求を分析する。ダイアログサーバ100は、ユーザとの必要な相互作用を調整し、使用すべきクエリを作る。たとえば、ダイアログサーバ100はユーザに対し、電話ディレクトリの中のミドルネームのイニシャルや街路名を明確にし、クエリの結果の中で、「ジョン・G・スミス」が「ジョン・C・スミス」と正しく区別されるようにするよう求めることができる。
【0019】
音声要求は、HTTPプロトコル要求等の情報要求に翻訳される。情報要求は、情報レポジトリ、デジタルライブラリおよび/またはウェブサーバ80に送られる。ウェブサーバ80は、要求された情報を検索する。ウェブページやクエリの結果等、要求された情報はダイアログサーバ100に送られる。ダイアログサーバ100は、要求された情報を音声による応答に翻訳する。音声は暗号化されて、通信リンク110上に送られ、携帯電話30に送信される。自動音声認識サーバ110、ダイアログサーバ100、動的再構成可能音声認識システム120と情報レポジトリ、デジタルライブラリおよび/またはウェブサーバ80は、説明のために個別の装置として図示されている。しかしながら、本発明によるその他の各種装置例において、自動音声認識サーバ110、ダイアログサーバ100、動的再構成可能音声認識システム120および情報レポジトリ、デジタルライブラリおよび/またはウェブサーバ80のひとつまたは複数を単独の機器の中に格納できることは明白である。さらに、自動音声認識サーバ110は、音声認識モデルまたはパラメータを受信できる音声認識システムや方法を使用できる。
【0020】
音声対応携帯情報端末50のユーザからの音声による情報要求も同様に、動的再構成可能音声認識システム120に送られる。音声対応携帯情報端末50のユーザは識別され、ユーザ識別情報および音声要求中の情報に基づいて、背景モデルと変換器モデルのパラメータが推定される。各ユーザの背景モデルと変換器モデルは、所定の間隔で不特定話者音声認識モデルを動的に調整するのに使用される。音声認識モデルは自動的かつ動的に、背景ノイズと変換器によるノイズに関して補償される。
【0021】
図2は、本発明によって携帯機器を使用する環境の一例を示す概略図である。本発明のその他の各種実施形態において、ユーザからの音声要求が音声対応オフィス環境10、音声対応家庭環境20および/または音声対応自動車環境70から受信さる。たとえば、音声対応オフィス環境10において開催される会議またはセミナーでは、オフィスユーザは音声対応オフィス環境内にあるマイクロフォンと関連付けられる。動的再構成可能音声認識システム120(図示せず)を使い、背景ノイズ環境の変化に伴い、各マイクロフォンに適当な調整が自動的に加えられる。本発明によるその他の各種実施形態において、音声対応オフィス環境10内の動的再構成可能音声認識システム120(図示せず)のユーザとして識別された人物は、通信リンク110上でアクセスできる情報源からの情報の表示を求める音声要求を開始する。あるいは、自動的に認識された音声は、後の印刷、検討および/または協議に備え、自動的に転記される。
【0022】
同様に、本発明の精神と範囲から逸脱することなく、音声対応自動車環境70では、音声対応自動車環境70のユーザとして識別された人物は、ヘッドアップディスプレイのためのマップディレクション等の情報を要求し、エンターテイメントシステム、温度制御またはその他、入力を必要とするシステムおよび/または装置を調整することができる。
【0023】
図3は、本発明による動的再構成機能音声認識システムの第二の実施形態の概略図である。音声対応携帯情報端末51は、ダイアログサーバ100’(図示せず)、自動音声認識サーバ110’(図示せず)および動的再構成可能音声認識システム120’(図示せず)を直接組み込み、通信リンク110上の情報を求める音声要求をウェブサーバ80に対して開始する。これに対し、音声対応コンピュータ60と、通信リンク110に接続されたウェブサーバ80は、ダイアログサーバ100、自動音声認識サーバ110および動的再構成可能音声認識システム120を通じて、音声要求を開始する。
【0024】
たとえば、音声対応携帯情報端末51は、ハンドスプリングのVisor(登録商標)携帯情報端末51に装着されたVisorPhone(登録商標)周辺機器を備えてもよい。VisorPhone(登録商標)周辺機器のマイクロフォンのマイクロフォン特性は、ジャブラEarSet(登録商標)に設置されたマイクロフォンやエリクソンR380またはR380sスマートフォンとは異なる。別のマイクロフォンが選択されている可能性があるため、同じユーザでも、体験する自動音声認識システムの精度への背景ノイズの影響は異なることがある。しかしながら、本発明による各種の実施形態において、携帯情報端末51に備えられた動的再構成可能音声認識システム120’(図示せず)は、ユーザの現在の変換器と背景ノイズの環境に基づいて、音声認識モデルを動的に調整する。
【0025】
図4は、動的再構成可能音声認識システム120の実施形態例を示す。動的再構成可能音声認識システム120は、コントローラ121、変換器モデル推定回路122、メモリ123、変換器モデル推定記憶装置124、変換器モデル適応回路125、背景モデル推定回路126、背景モデル推定記憶装置127、背景モデル適応回路128、オプションの音声認識モデル記憶装置134、サンプルディレイ記憶装置135を備え、これらはそれぞれ入力/出力回路136を通じて通信リンク110に接続されている。
【0026】
本発明による第一の実施形態におい、情報を求める音声要求は通信リンク110上で受信される。コントローラ121は、サンプルディレイ記憶装置135の内容を読み取り、指定されたディレイに基づき、背景モデル推定回路126を起動して音声要求の背景ノイズ環境を確定する。
【0027】
背景モデル推定回路126は常に背景モデルを確定する。たとえば、背景モデル推定回路126は、無音声期間をサンプリングし、ユーザの現在の所在地における背景ノイズ環境のパラメータを確定する。その他、各種の実施形態において、サンプルディレイを高いサンプリング周期に設定し、ユーザが環境内を移動する、あるいはユーザ変換器を変えた時の変化を捉えるようにすることができる。他の各種実施形態において、サンプリング周期はサンプル数を減らすように設定することもできる。
【0028】
不特定話者隠れマルコフモデル等の音声認識モデルが記憶装置から検索される。音声認識モデルを別のサーバ、あるいは、動的調整可能音声認識システム120のオプションの音声認識モデル記憶装置134または通信リンク110を通じてアクセス可能ないずれの場所にも保存できることは明白である。
【0029】
背景モデル適応回路128が起動され、ユーザに関する背景モデル推定回路126の結果に基づいて、検索された音声認識モデルが適応される。このようにして、ユーザの背景ノイズ環境の補償が行われる。背景モデルは背景モデル記憶装置127に記憶される。別の各種実施形態において、背景モデルは構成サーバ(図示せず)に記憶することができ、これについては「自動音声認識システムおよび方法」と題する同時係属中の出願、代理人整理番号109041および109040において述べられており、同出願は引用をもってその全体を本願に援用する。構成サーバは、通信リンク110を通じてアクセス可能であれば、別の場所に設置することもできる。
【0030】
コントローラ121は変換器モデル推定回路122を起動し、変換器特性のモデルを確定し、ユーザの現在の変換器の特性が音声認識モデル開発に使用された変換器の応答特性にどのように関連しているかを判断する。たとえば、ユーザの実際の変換器と訓練用変換器またはマイクロフォンとの関係は、受信した音声要求の中の、容易に認識可能なあいまい度の低い単語を判断することによって確定される。容易に認識できるあいまい度の低い単語に関して推定された信号が、その容易に認識できるあいまい度の低い単語に関する背景調整信号と比較される。推定された信号と背景調整された信号との関係は、ユーザの実際の変換器と初期入力中に使用された変換器との関係を反映している。他の各種の実施形態において、応答特性は、変換器情報用に携帯機器をポーリングし、携帯機器に対し、変換器情報が変化した時に新規情報を送信させることによって、あるいは他の既知の、あるいは今後開発される、監視下の、または監視下に置かれない校正プロセスを使用することによって確定することができる。
【0031】
コントローラ121は変換器具モデル適応回路125を起動し、変換器モデルのパラメータを使って、検索された背景適応音声認識モデルを適応させる。変換器と背景適応音声認識モデルは、各機器で使用される変換器のノイズを補償する。変換器モデルの推定パラメータは、変換器モデル記憶装置124に保存される。
【0032】
本発明による各種実施形態において、背景推定と変換器推定の周期は、指定されたサンプルディレイ記憶装置135に基づく。しかしながら、本発明による他の各種実施形態において、本発明の精神と範囲から逸脱することなく、サンプルディレイを特定の数値に設定し、継続的にサンプリングされる情報における所定の変化の周波数または大きさに基づいて動的に決定してもよく、また、他の既知の、あるいは今後開発される背景および変換器ノイズ情報のサンプリング方法を使用することもできる。
【0033】
記憶されたサンプルディレイが、サンプル値によって示された期間内にサンプルが発生したことを示す場合、コントローラ121は背景モデル記憶装置127から背景推定を検索し、変換器モデル記憶装置124から変換器推定を検索する。
【0034】
本発明によるひとつの実施形態において、音声認識モデルは、オプションの音声認識モデル記憶用メモリ134から検索され、メモリ123に保存される。検索された音声認識モデルは、背景モデル推定回路126により、ユーザの現在の環境における背景ノイズを補償するよう適応される。変換器適応回路125は、変換器またはマイクロフォンのノイズについて背景適応音声認識モデルを調整する。通信リンク110上の入力/出力回路136によって、背景および変換器適応音声認識モデルと音声要求が自動音声認識サーバ110に出力される。自動音声認識サーバ110は、背景および変換器適応音声認識モデルに基づいて、受信した音声要求の中のユーザの音声情報を動的に確定する。
【0035】
図5は、本発明による動的音声認識方法の一例のフローチャートである。プロセスはステップ200から始まり、すぐにステップ210に移る。
【0036】
ステップ210において、サンプルディレイ期間が決定される。サンプルディレイ期間は、背景情報と変換器情報の各サンプルの間に発生する時間またはディレイの長さを示す。本発明の各種実施形態において、具体的なサンプルディレイをメモリの位置に設定し、連続するサンプル同士の間で測定される変化の程度に基づいて、動的に確定することができる。
【0037】
たとえば、背景推定と変換器推定を連続して比較した結果がしきい値を超えない場合、サンプルディレイ期間を延ばすことができる。背景推定と変換器推定を連続して比較した結果、その結果において変化が検出された場合、サンプルディレイ期間を短くし、今後の変化に対し、より迅速に応答できるようにすることもできる。あるいは、本発明の実施において、サンプルディレイを測定するための、既知のまたは今後開発される方法を使用してもよい。サンプルディレイ期間が確定したら、ステップ220に進む。
【0038】
ステップ220において、ユーザの環境における背景ノイズのパラメータが確定される。背景モデルのパラメータは、サンプリングされた無音声期間を予め決定された無音声期間と比較することによって測定される。その差を使って現在の背景ノイズを推定する。しかしながら、本発明の実施において、背景ノイズを確定するための、既知の、あるいは今後開発される方法も使用できることは明らかである。次に、ステップ230に進む。
【0039】
ステップ230において、背景モデルの推定されたパラメータが保存される。推定されたパラメータは、ランダムアクセスメモリ、フラッシュメモリ、磁気記憶装置、磁気光学記憶装置またはその他、既知の、あるいは今後開発される他の記憶媒体に保存してもよい。次にステップ240に進む。
【0040】
変換器モデルのパラメータがステップ240で決定される。変換器モデルの推定されたパラメータは、ユーザが使用するマイクロフォンのタイプ、そのマイクロフォンの応答特性、ヘッドマウントの特性、耳内(インイヤー: in‐ear)特性、別のマイクロフォンとの等価性あるいはその他、マイクロフォンまたは変換器の応答に関する情報を示す。本発明の他の各種実施形態において、変換器のパラメータは動的に確定される。たとえば、背景環境との補償を行った後に、あいまいでない単語の音声認識モデルが前にサンプリングされたあいまいでない単語と動的に比較され、変換器モデルのパラメータが動的に推定される。
【0041】
変換器モデルを使い、各種の装置に見られる変換器の異なる応答特性に合わせた調整が行われる。たとえば、ジャブラEarSet(登録商標)マイクロフォンとイヤフォンの組み合わせに関する変換器応答特性は、ゼンハイザーHMD410ヘッドセットとエリクソンR380sスマートフォンにおける変換器の応答特性とは異なる。変換器モデルは、各ユーザの実際の変換器またはマイクロフォンと、当初の不特定話者音声認識モデルの開発中に使用された変換器またはマイクロフォンとの間の関係に基づいている。変換器モデルのパラメータが推定されると、ステップ250に進む。
【0042】
ステップ250では、決定された変換器モデルが保存される。たとえば、変換器モデルはランダムアクセスメモリ、フラッシュメモリ、磁気メモリ、磁気光学記憶装置またはその他、既知の、あるいは今後開発される記憶媒体に保存することができる。次にステップ260に進む。
【0043】
ステップ260では、音声認識モデルが検索される。検索された音声認識モデルは、隠れマルコフモデル、ニューラルネットワークあるいはその他、既知の、または今後開発される音声認識モデルとすることができる。各種実施形態において、音声認識モデルはランダムアクセスメモリ、フラッシュメモリ、磁気記憶装置、磁気光学記憶装置またはその他、既知の、あるいは今後開発される記憶媒体から検索することができる。次にステップ270に進む。
【0044】
ステップ270において、音声認識モデルは、ユーザに基づいて記憶装置から検索された、確定背景モデルを使って適応される。本発明の別の実施形態において、ユーザに関する背景適応された音声認識モデルがメモリに保存される。次にステップ280に進む。
【0045】
ステップ280では、背景適応された音声認識モデルが、ユーザに基づいて記憶装置から検索された、確定変換器モデルを使って適応される。次にステップ290に進む。
【0046】
ステップ290において、ユーザの音声要求セッションが終了したかが判断される。携帯機器のユーザがTELLME社等の音声応答情報プロバイダでセッションを開始した場合、ユーザのコールの終了は、ユーザのセッションの終了と一致する。しかしながら、他の各種の実施形態においては、ユーザのセッションはユーザが情報プロバイダにコールする前に開始してもよい。たとえば、ネットワーク事業者はコールの開始を音声でイネーブルし、ユーザがネットワーク内のダイヤル番号を音声で言うことができる。この場合、ユーザセッションの開始はネットワークコール起動の開始と一致する。本発明の別の実施形態において、動的音声認識システムは、第二および第三世代のモバイルネットワーク内でも使用できる。たとえば、GPRSオールウェイズオン(always‐on)パケットに基づくネットワークを使って音声要求情報を伝達することができる。この場合、ユーザセッションの判断は、GPRSネットワーク上でコールを開始させる、または接続を確立させるユーザの音声命令によって行うことができる。しかしながら、本発明の精神と範囲から逸脱することなく、ユーザセッションの判断には、既知の、あるいは今後開発される方法を使用することもできる。
【0047】
セッションの終了がステップ290で判断されないと、ステップ300に進み、プロセスはサンプルディレイ期間だけ遅延される。ディレイ期間は予め設定された数値に設定しても、動的に調整してもよい。たとえば、ディレイ期間は、背景環境および/または変換器環境において検出された変化に基づくとすることができる。次に、ステップ220に進み、プロセスは、ステップ290においてユーザセッションが終了したと判断されるまで継続される。
【0048】
ユーザセッションは、ユーザが音声対応電話の「END」キーを押す、または機器のスイッチを切ることによって、あるいは、音声オフ等の音声命令あるいはその他既知の、または今後開発されるユーザセッション終了表示方法によって終了できる。ステップ290で、ユーザセッションが終了したと判断されると、ステップ310に進み、プロセスは終了する。
【0049】
上記の各種実施形態において、動的再構成可能音声認識システム120は、プログラムされた汎用コンピュータを使って実現できる。しかし、音声再構成可能音声認識システム120は、専用目的コンピュータ、プログラムされたマイクロプロセッサまたはマイクロコントローラおよび周辺集積回路素子、ASICまたはその他集積回路、デジタル信号プロセッサ、離散型素子回路等のハードワイヤード電子または論理回路、PLD,PLA,FPGA,PAL等のプログラマブル論理機器その他を使っても実現できる。一般に、図5に示すフローチャートを実現できる有限状態マシンを実現できるのであれば、いかなる装置も、動的再構成可能音声認識システム120の実現に使用できる。
【0050】
前述の動的再構成可能音声認識システム120の回路121−136の各々は、適当にプログラムされた汎用コンピュータの一部としても実現できる。あるいは、前述の動的再構成可能音声認識システム120の回路121−136は、ASIC内の、またはFPGA,PDL,PLAまたはPALを使った、または離散型論理素子または離散型回路素子を使って、物理的に異なるハードウェア回路としても実現できる。上述の動的再構成可能音声認識システム120の回路121−136の各々の具体的な形態は、設計上の選択であり、当業者にとって自明で推定可能である。
【0051】
さらに、動的再構成可能音声認識システム120および/または上記各種回路の各々は、ソフトウェアルーチン、プログラムされた汎用コンピュータ上で実行するマネージャまたはオブジェクト、特定用途コンピュータ、マイクロプロセッサその他として実現できる。この場合、動的再構成可能音声認識システム120および/または上記各種回路の各々は、通信ネットワークに埋め込まれたひとつまたは複数のルーチンとして、サーバ上のリソースとして、あるいはその他としても実現できる。動的再構成可能音声認識システム120と上記の各種回路は、動的再構成可能音声認識システム120を、音声対応装置のハードウェアおよびソフトウェアシステム等、ソフトウェアおよび/またはハードウェアシステムの中に物理的に取り入れることによって実現することもできる。
【0052】
図4に示すように、メモリ123、変換器モデル記憶メモリ124、背景モデル記憶メモリ127、および/またはサンプルディレイ記憶メモリ135はそれぞれ、可変容量、揮発性または不揮発性メモリまたは不変容量または固定メモリを適当に組み合わせたものを使っても実現できる。可変容量メモリは、揮発性か不揮発性かを問わず、スタティックまたはダイナミックRAM、フレキシブルディスクおよびディスクドライブ、ライタブルまたはリライタブル光学ディスクおよびディスクドライブ、ハードドライブ、フラッシュメモリその他のひとつまたは複数を使って実現できる。同様に、不変容量または一定メモリは、ROM,PROM,EPROM,EEPROM,CD−ROMまたはDVD−ROM等の光学ROMディスク、ディスクドライブその他のひとつまたは複数を使って実現できる。
【0053】
図1−4に示す通信リンク110はそれぞれ、直接ケーブル接続、広域ネットワークまたはローカルエリアネットワーク上の接続、イントラネット上の接続、インターネット上の接続、その他分散された処理ネットワークまたはシステムでの接続をはじめとする、通信機器を動的再構成可能音声認識システム120に接続するための、既知の、あるいは今後開発される装置またはシステムとすることができる。一般に、通信リンク110はそれぞれ、装置を接続し、通信を促進することのできる、既知の、あるいは今後開発される接続システムまたは構造とすることができる。
【0054】
さらに、通信リンク110はネットワークと有線リンクでも無線リンクでも可能である点を評価すべきである。ネットワークは、ローカルエリアネットワーク、ワイドエリアネットワーク、イントラネット、インターネットあるいは分散された処理および記憶ネットワークとすることができる。
【0055】
本発明は上記の実施形態例に関連して説明したが、当業者にとっては、さまざまな変更、改造、修正が自明である。したがって、上述の本発明の実施形態は例として示したものであり、限定するものではない。本発明の精神と範囲から逸脱することなく、さまざまな変更を加えることができる。
【図面の簡単な説明】
【図1】図1は、本発明による動的再構成可能音声認識システムの第一の実施形態の概略図である。
【図2】本発明によって移動機器を使用できる環境の一例の概略図である。
【図3】本発明による動的再構成可能音声認識システムの第二の実施形態の概略図である。
【図4】本発明による動的再構成可能音声認識システムの一例を示す図である。
【図5】本発明による動的再構成可能音声認識方法の一例のフローチャートである。

Claims (14)

  1. 動的再構成可能音声認識方法であって、
    受信した音声要求の背景モデルのパラメータを確定するステップと、
    変換器モデルのパラメータを確定するステップと、
    前記背景モデルと前記変換器モデルの少なくとも一方に基づいて、音声認識モデルのための適応音声認識モデルを確定するステップと、
    前記適応音声認識モデルに基づいて、音声要求内の情報を確定するステップと、
    を含むことを特徴とする方法。
  2. 請求項1に記載の方法であって、
    少なくともひとつのサンプル期間を確定するステップと、
    前記少なくともひとつのサンプル期間に基づいて、新しい背景モデルと新しい変換器モデルの少なくとも一方を確定するステップと、
    を含むことを特徴とする方法。
  3. 請求項2に記載の方法であって、
    前記背景モデルのパラメータは、第一のサンプル期間に基づいて確定され、
    前記変換器モデルのパラメータは第二のサンプル期間に基づいて確定されることを特徴とする方法。
  4. 請求項2に記載の方法であって、
    前記背景モデルのパラメータと前記変換器モデルのパラメータの少なくともひとつを保存するステップと、
    前記少なくともひとつのサンプル期間と、前記背景モデルと前記変換器モデルの少なくとも一方に基づいて、前記適応音声認識モデルを確定するステップと、
    を含むことを特徴とする方法。
  5. 動的再構成可能音声認識システムであって、
    コントローラと、
    推定される背景パラメータとユーザ情報に基づいて、音声要求の背景モデルを確定する背景モデル推定回路と、
    推定される変換器パラメータとユーザ情報に基づいて、音声要求の変換器モデルを確定する変換器モデル推定回路と、
    前記音声認識モデルと、前記背景モデルと前記変換器モデルの少なくとも一方に基づいて適応音声認識モデルを確定する背景モデル適応回路および変換器モデル適応回路と、
    を備えることを特徴とするシステム。
  6. 請求項5に記載のシステムであって、
    前記コントローラは、少なくともひとつのサンプル期間を確定し、この少なくともひとつのサンプル期間に基づいて、前記背景モデル推定回路と前記変換器モデル推定回路の少なくとも一方を起動させる
    ことを特徴とするシステム。
  7. 請求項6に記載のシステムであって、
    前記背景モデルは第一のサンプル期間に基づいて確定され、
    前記変換器モデルは第二のサンプル期間に基づいて確定される
    ことを特徴とするシステム。
  8. 請求項6に記載のシステムであって、
    前記コントローラは、前記背景モデルと前記変換器モデルの少なくとも一方を記憶装置に保存し、
    前記適応音声認識モデルは、少なくともひとつのサンプル期間と、前記背景モデルと前記変換器モデルの少なくとも一方に基づくことを特徴とするシステム。
  9. 動的再構成可能音声認識に利用できる制御プログラムを制御プログラム実行のための装置に送信するよう符号化された搬送波であって、前記制御プログラムは、
    受信した音声要求の背景モデルのパラメータを確定するための命令と、
    変換器モデルのパラメータを確定する命令と、
    前記背景モデルと前記変換器モデルの少なくとも一方に基づいて、音声認識モデルのための適応音声認識モデルを確定する命令と、
    前記適応音声認識モデルに基づいて、音声要求内の情報を確定する命令と、
    を含むことを特徴とする搬送波。
  10. 請求項9に記載の搬送波であって、
    少なくともひとつのサンプル期間を確定する命令と、
    前記少なくともひとつのサンプル期間に基づいて、新しい背景モデルと新しい変換器モデルの少なくとも一方を確定する命令と、
    を含むことを特徴とする搬送波。
  11. 請求項10に記載の搬送波であって、
    前記背景モデルは第一のサンプル期間に基づいて確定され、
    前記変換器モデルは第二のサンプル期間に基づいて確定されることを特徴とする搬送波。
  12. 請求項10に記載の搬送波であって、
    前記背景モデルと前記変換器モデルの少なくとも一方を保存する命令と、
    前記少なくともひとつのサンプル期間と、前記背景モデルと前記変換器モデルのうち少なくとも一方に基づいて、前記適応音声認識モデルを確定する命令と、
    を含むことを特徴とする搬送波。
  13. コンピュータ判読可能記憶媒体であって、
    コンピュータ判読可能記憶媒体上に具体化されたコンピュータ判読可能プログラムコードを含み、動的再構成可能音声認識方法を実行するようコンピュータをプログラムするのに使用される前記コンピュータ判読可能プログラムコードは、
    受信した音声要求のための背景モデルのパラメータを確定するステップと、
    変換器モデルのパラメータを確定するステップと、
    前記背景モデルと前記変換器モデルのうち少なくとも一方に基づいて、音声認識モデルのための適応音声認識モデルを確定するステップと、
    前記適応音声認識モデルに基づいて音声要求内の情報を確定するステップと、
    を含むことを特徴とするコンピュータ判読可能記憶媒体。
  14. 動的再構成可能音声認識方法であって、
    受信した音声要求のための背景モデルのユーザ別のパラメータを確定するステップと、
    変換器モデルのユーザ別のパラメータを確定するステップと、
    前記背景モデルと前記変換器モデルの少なくとも一方に基づいて、音声認識モデルのための適応音声認識モデルを確定するステップと、
    前記適応音声認識モデルに基づいて、音声要求内の情報を確定するステップと、
    少なくともひとつのサンプル期間を確定するステップと、
    前記少なくともひとつのサンプル期間に基づいて、新しい背景モデルと新しい変換器モデルの少なくとも一方を確定するステップと、
    を含み、
    前記背景モデルは、第一のサンプル期間に基づいて確定され、変換器モデルは第二のサンプル期間に基づいて確定されることを特徴とする動的再構成可能音声認識方法。
JP2002535116A 2000-10-13 2001-10-12 動的再構成可能音声認識システムとその方法 Pending JP2004511823A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US24032400P 2000-10-13 2000-10-13
US09/972,929 US7457750B2 (en) 2000-10-13 2001-10-10 Systems and methods for dynamic re-configurable speech recognition
PCT/US2001/032072 WO2002031816A1 (en) 2000-10-13 2001-10-12 Systems and methods for dynamic re-configurable speech recognition

Publications (1)

Publication Number Publication Date
JP2004511823A true JP2004511823A (ja) 2004-04-15

Family

ID=26933331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002535116A Pending JP2004511823A (ja) 2000-10-13 2001-10-12 動的再構成可能音声認識システムとその方法

Country Status (5)

Country Link
US (3) US7457750B2 (ja)
EP (1) EP1342233B1 (ja)
JP (1) JP2004511823A (ja)
CA (1) CA2422768A1 (ja)
WO (1) WO2002031816A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013128278A (ja) * 2011-12-16 2013-06-27 Src Computers Inc 再構成可能な処理技術を利用して、低電力消費で高速アプリケーションを可能とする移動電子機器
JP2017097092A (ja) * 2015-11-20 2017-06-01 株式会社Jvcケンウッド 端末装置、通信方法
JP2017097093A (ja) * 2015-11-20 2017-06-01 株式会社Jvcケンウッド 端末装置、通信方法
JP2020013169A (ja) * 2019-10-29 2020-01-23 株式会社Jvcケンウッド 端末装置、通信方法及び通信プログラム

Families Citing this family (148)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20030195751A1 (en) * 2002-04-10 2003-10-16 Mitsubishi Electric Research Laboratories, Inc. Distributed automatic speech recognition with persistent user parameters
US20050064822A1 (en) * 2003-09-23 2005-03-24 Higgins Robert J. Audio accessory optimization system
GB2409560B (en) * 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
DE10360656A1 (de) * 2003-12-23 2005-07-21 Daimlerchrysler Ag Bediensystem für ein Fahrzeug
US20060235684A1 (en) * 2005-04-14 2006-10-19 Sbc Knowledge Ventures, Lp Wireless device to access network-based voice-activated services using distributed speech recognition
US7440894B2 (en) * 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7872574B2 (en) 2006-02-01 2011-01-18 Innovation Specialists, Llc Sensory enhancement systems and methods in personal electronic devices
ATE536611T1 (de) * 2006-02-14 2011-12-15 Intellectual Ventures Fund 21 Llc Kommunikationsgerät mit lautsprecherunabhängiger spracherkennung
US7551784B2 (en) * 2006-06-01 2009-06-23 Microsoft Corporation Continuous inference for sequence data
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8639510B1 (en) 2007-12-24 2014-01-28 Kai Yu Acoustic scoring unit implemented on a single FPGA or ASIC
US8352265B1 (en) 2007-12-24 2013-01-08 Edward Lin Hardware implemented backend search engine for a high-rate speech recognition system
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8463610B1 (en) 2008-01-18 2013-06-11 Patrick J. Bourke Hardware-implemented scalable modular engine for low-power speech recognition
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8121837B2 (en) 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8600741B2 (en) * 2008-08-20 2013-12-03 General Motors Llc Method of using microphone characteristics to optimize speech recognition performance
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
EP2182512A1 (en) * 2008-10-29 2010-05-05 BRITISH TELECOMMUNICATIONS public limited company Speaker verification
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
EP4318463A3 (en) 2009-12-23 2024-02-28 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8265928B2 (en) 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US8725506B2 (en) * 2010-06-30 2014-05-13 Intel Corporation Speech audio processing
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
US9984678B2 (en) * 2012-03-23 2018-05-29 Microsoft Technology Licensing, Llc Factored transforms for separable adaptation of acoustic models
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US20140270249A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression
US9237225B2 (en) 2013-03-12 2016-01-12 Google Technology Holdings LLC Apparatus with dynamic audio signal pre-conditioning and methods therefor
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US10424292B1 (en) * 2013-03-14 2019-09-24 Amazon Technologies, Inc. System for recognizing and responding to environmental noises
WO2014144579A1 (en) * 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9208781B2 (en) * 2013-04-05 2015-12-08 International Business Machines Corporation Adapting speech recognition acoustic models with environmental and social cues
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP6259911B2 (ja) 2013-06-09 2018-01-10 アップル インコーポレイテッド デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース
US20150031416A1 (en) 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device For Command Phrase Validation
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9466310B2 (en) * 2013-12-20 2016-10-11 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Compensating for identifiable background content in a speech recognition device
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9779752B2 (en) 2014-10-31 2017-10-03 At&T Intellectual Property I, L.P. Acoustic enhancement by leveraging metadata to mitigate the impact of noisy environments
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
KR102450853B1 (ko) * 2015-11-30 2022-10-04 삼성전자주식회사 음성 인식 장치 및 방법
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US9838737B2 (en) * 2016-05-05 2017-12-05 Google Inc. Filtering wind noises in video content
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
JP6897677B2 (ja) * 2016-06-15 2021-07-07 ソニーグループ株式会社 情報処理装置及び情報処理方法
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10217453B2 (en) * 2016-10-14 2019-02-26 Soundhound, Inc. Virtual assistant configured by selection of wake-up phrase
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10916243B2 (en) * 2016-12-27 2021-02-09 Amazon Technologies, Inc. Messaging from a shared device
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR20180087942A (ko) * 2017-01-26 2018-08-03 삼성전자주식회사 음성 인식 방법 및 장치
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5852695A (ja) * 1981-09-25 1983-03-28 日産自動車株式会社 車両用音声検出装置
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US4679228A (en) 1985-03-29 1987-07-07 Tie/Communications, Inc. Speakerphone sensing circuit
IT1211194B (it) 1987-07-10 1989-10-12 Olivetti & Co Spa Sistema di misura e compensazione automatica delle distorsioni di un collegamento tra un apparecchio telefonico e un unita centrale di trattamento voce
IT1211995B (it) * 1987-12-23 1989-11-08 Consiglio Nazionale Ricerche Metodo e strumento a microprocessore per la misura diretta di un particolare indice per la valutazione del rumore ambientale
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
US5008941A (en) * 1989-03-31 1991-04-16 Kurzweil Applied Intelligence, Inc. Method and apparatus for automatically updating estimates of undesirable components of the speech signal in a speech recognition system
US5148489A (en) 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
US5199077A (en) 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
DE4139610C2 (de) 1991-11-30 1996-07-11 Siemens Nixdorf Inf Syst Verfahren zum Einstellen von Signalübertragungsparamtern von Teilnehmeranschlußschaltungen
US5734789A (en) 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5428707A (en) 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5485515A (en) 1993-12-29 1996-01-16 At&T Corp. Background noise compensation in a telephone network
US5666400A (en) * 1994-07-07 1997-09-09 Bell Atlantic Network Services, Inc. Intelligent recognition
US6327345B1 (en) * 1994-09-16 2001-12-04 Mci Communications Corporation Method and system therefor of establishing an acceptance threshold for controlling fraudulent telephone calls
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5845246A (en) * 1995-02-28 1998-12-01 Voice Control Systems, Inc. Method for reducing database requirements for speech recognition systems
US5915235A (en) * 1995-04-28 1999-06-22 Dejaco; Andrew P. Adaptive equalizer preprocessor for mobile telephone speech coder to modify nonideal frequency response of acoustic transducer
US5804729A (en) * 1995-11-28 1998-09-08 Sawtek Inc. Apparatus and associated method for measuring differences in delay measurements
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JP3001037B2 (ja) * 1995-12-13 2000-01-17 日本電気株式会社 音声認識装置
US5719921A (en) 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
DE19629132A1 (de) * 1996-07-19 1998-01-22 Daimler Benz Ag Verfahren zur Verringerung von Störungen eines Sprachsignals
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US6026359A (en) * 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
US5778336A (en) 1996-10-01 1998-07-07 Lucent Technologies Inc. Speech coding and joint data/channel bias estimation using finite state vector quantizer derived from sequential constraints
US6003002A (en) 1997-01-02 1999-12-14 Texas Instruments Incorporated Method and system of adapting speech recognition models to speaker environment
US6029124A (en) * 1997-02-21 2000-02-22 Dragon Systems, Inc. Sequential, nonparametric speech recognition and speaker identification
GB9706174D0 (en) * 1997-03-25 1997-11-19 Secr Defence Recognition system
US6212498B1 (en) * 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
US6035048A (en) * 1997-06-18 2000-03-07 Lucent Technologies Inc. Method and apparatus for reducing noise in speech and audio signals
US6032116A (en) * 1997-06-27 2000-02-29 Advanced Micro Devices, Inc. Distance measure in a speech recognition system for speech recognition using frequency shifting factors to compensate for input signal frequency shifts
US6151573A (en) 1997-09-17 2000-11-21 Texas Instruments Incorporated Source normalization training for HMM modeling of speech
EP0920173A3 (en) 1997-11-25 2002-05-08 AT&T Corp. Enhanced telecommunications network
US5970446A (en) 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
JPH11205451A (ja) 1998-01-19 1999-07-30 Canon Inc 音声認識装置及びその方法、コンピュータ可読メモリ
US6389393B1 (en) * 1998-04-28 2002-05-14 Texas Instruments Incorporated Method of adapting speech recognition models for speaker, microphone, and noisy environment
US6163768A (en) * 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6839410B2 (en) * 1998-09-01 2005-01-04 At&T Corp. Method and apparatus for setting user communication parameters based on voice identification of users
US6377927B1 (en) * 1998-10-07 2002-04-23 Masoud Loghmani Voice-optimized database system and method of using same
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
US6418411B1 (en) * 1999-03-12 2002-07-09 Texas Instruments Incorporated Method and system for adaptive speech recognition in a noisy environment
US6487530B1 (en) * 1999-03-30 2002-11-26 Nortel Networks Limited Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models
US6766295B1 (en) * 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
JP2001016057A (ja) * 1999-07-01 2001-01-19 Matsushita Electric Ind Co Ltd 音響装置
JP2003529960A (ja) * 1999-08-10 2003-10-07 テロジー ネットワークス インコーポレイテッド 背景エネルギ予測
JP3969908B2 (ja) * 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
US6421641B1 (en) * 1999-11-12 2002-07-16 International Business Machines Corporation Methods and apparatus for fast adaptation of a band-quantized speech decoding system
US7206420B2 (en) * 1999-11-29 2007-04-17 Syfx Tekworks Softclip method and apparatus
US6920421B2 (en) * 1999-12-28 2005-07-19 Sony Corporation Model adaptive apparatus for performing adaptation of a model used in pattern recognition considering recentness of a received pattern data
US6529872B1 (en) * 2000-04-18 2003-03-04 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices
US7089182B2 (en) * 2000-04-18 2006-08-08 Matsushita Electric Industrial Co., Ltd. Method and apparatus for feature domain joint channel and additive noise compensation
US6502070B1 (en) * 2000-04-28 2002-12-31 Nortel Networks Limited Method and apparatus for normalizing channel specific speech feature elements
FR2808917B1 (fr) * 2000-05-09 2003-12-12 Thomson Csf Procede et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
US6925307B1 (en) * 2000-07-13 2005-08-02 Gtech Global Services Corporation Mixed-mode interaction
US6529586B1 (en) * 2000-08-31 2003-03-04 Oracle Cable, Inc. System and method for gathering, personalized rendering, and secure telephonic transmission of audio data
JP2002073072A (ja) * 2000-08-31 2002-03-12 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
JP4297602B2 (ja) * 2000-09-18 2009-07-15 パイオニア株式会社 音声認識システム
US20030033143A1 (en) * 2001-08-13 2003-02-13 Hagai Aronowitz Decreasing noise sensitivity in speech processing under adverse conditions

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013128278A (ja) * 2011-12-16 2013-06-27 Src Computers Inc 再構成可能な処理技術を利用して、低電力消費で高速アプリケーションを可能とする移動電子機器
JP2017097092A (ja) * 2015-11-20 2017-06-01 株式会社Jvcケンウッド 端末装置、通信方法
JP2017097093A (ja) * 2015-11-20 2017-06-01 株式会社Jvcケンウッド 端末装置、通信方法
JP2020013169A (ja) * 2019-10-29 2020-01-23 株式会社Jvcケンウッド 端末装置、通信方法及び通信プログラム

Also Published As

Publication number Publication date
US20080221887A1 (en) 2008-09-11
US8719017B2 (en) 2014-05-06
EP1342233A4 (en) 2005-10-26
US20140244251A1 (en) 2014-08-28
CA2422768A1 (en) 2002-04-18
US7457750B2 (en) 2008-11-25
US9536524B2 (en) 2017-01-03
EP1342233A1 (en) 2003-09-10
WO2002031816A1 (en) 2002-04-18
US20020046022A1 (en) 2002-04-18
EP1342233B1 (en) 2012-01-18

Similar Documents

Publication Publication Date Title
JP2004511823A (ja) 動的再構成可能音声認識システムとその方法
US7209880B1 (en) Systems and methods for dynamic re-configurable speech recognition
US10721661B2 (en) Wireless device connection handover
US6744860B1 (en) Methods and apparatus for initiating a voice-dialing operation
JP2019032479A (ja) 音声アシストシステム、サーバ装置、デバイス、その音声アシスト方法、及びコンピュータが実行するためのプログラム
US20200120727A1 (en) Bidirectional sending and receiving of wireless data
JP2011022600A (ja) 音声認識システムの動作方法
KR20020071851A (ko) 로컬 인터럽트 검출을 기반으로한 음성인식 기술
KR950015199A (ko) 음성 인식 방법 및 장치
US11363544B1 (en) Wireless connection management
US20140365212A1 (en) Receiver Intelligibility Enhancement System
US20070118380A1 (en) Method and device for controlling a speech dialog system
JP2017138536A (ja) 音声処理装置
US20050038652A1 (en) Method and device for voice recognition
KR20070019439A (ko) 음향 입출력 확장 방법 및 장치
US20030135371A1 (en) Voice recognition system method and apparatus
US11064281B1 (en) Sending and receiving wireless data
JP2003241788A (ja) 音声認識装置及び音声認識システム
US20190304457A1 (en) Interaction device and program
JP6508251B2 (ja) 音声対話システムおよび情報処理装置
JP2002049390A (ja) 音声認識方法およびサーバならびに音声認識システム
US20060223512A1 (en) Method and system for providing a hands-free functionality on mobile telecommunication terminals by the temporary downloading of a speech-processing algorithm
WO2020159664A1 (en) Bidirectional sending and receiving of wireless data
JP2007194833A (ja) ハンズフリー機能を備えた携帯電話
KR102268245B1 (ko) 음성 인식 서비스를 제공하는 단말, 방법 및 서버

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070227

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070524

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070531

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070626

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070703

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070726

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070802

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070827

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080930

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090204

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090210

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20090403

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100423

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100428