JP2004530149A - 音声認識のための処理、モジュール、装置及びサーバ - Google Patents

音声認識のための処理、モジュール、装置及びサーバ Download PDF

Info

Publication number
JP2004530149A
JP2004530149A JP2002565299A JP2002565299A JP2004530149A JP 2004530149 A JP2004530149 A JP 2004530149A JP 2002565299 A JP2002565299 A JP 2002565299A JP 2002565299 A JP2002565299 A JP 2002565299A JP 2004530149 A JP2004530149 A JP 2004530149A
Authority
JP
Japan
Prior art keywords
unrecognized
terminal
language model
representation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002565299A
Other languages
English (en)
Other versions
JP4751569B2 (ja
Inventor
スフレ,フレデリック
タジーヌ,ヌール−エディーヌ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2004530149A publication Critical patent/JP2004530149A/ja
Application granted granted Critical
Publication of JP4751569B2 publication Critical patent/JP4751569B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本発明は、言語モデル(311)を利用した少なくとも1つの端末(114)において実現される音声認識プロセスに関し、前記端末の1つにおいて少なくとも1つの認識されない表現を検出するステップ(502);前記認識されない表現(309)を表すデータを前記端末に記録するステップ(503);前記端末により第1送信チャンネル(121)を介して前記記録されたデータをリモートサーバ(116)に送信するステップ(603);前記リモートサーバのレベルにおいて前記データを解析し(803)、前記認識されない表現を少なくとも部分的に考慮した前記言語モデルの補正情報を生成するステップ(805);及び前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、第2送信チャンネル(115, 119, 120)を介して前記リモートサーバから少なくとも1つの端末(114, 117, 118)に前記補正情報を送信するステップ(806);からなることを特徴とする。
本発明はさらに対応するモジュール、装置(102)及びリモートサーバ(116)に関する。

Description

【0001】
本発明は、音声インターフェイスに関する。
【0002】
より詳細には、本発明は音声認識を利用した端末における言語モデル及び/または音声ユニットの最適化に関する。
【0003】
情報システムあるいは制御システムは、より速くそして/またはより直感的にユーザとのやりとりが可能となるよう音声インターフェイスの利用を拡大している。システムがより複雑になってきているので、音声認識に関する必要性が、認識の幅(広い語彙レベル)と認識の速度(時間)の両方に関して増大している。
【0004】
言語モデル(アプリケーションの語彙の中のある与えられた語が文章が書かれている順序において他の語や語のグループに続く確率)及び音声ユニットの利用に基づく様々な音声認識処理が知られている。これらの従来技術に関しては、「音声認識のための統計的方法(Statistical methods for speech recognition)Frederik Jelinek, MIT Press, 1997」において説明されている。
【0005】
これらの技術は、代表的音声サンプル(例えば、コマンドを指示する端末のユーザからの発声)から生成された言語モデルと音声ユニットによるものである。
【0006】
実際、言語モデルでは、システムのユーザの通常の発話スタイル、特に、口ごもったり、出だしのつまづき、気持ちの変化などのユーザの欠点が考慮されねばならない。
【0007】
使用される言語モデルの質は、音声認識の信頼性に大きな影響を与える。この質はしばしば言語モデルのパープレキシティ(perplexity)と呼ばれるインデックスにより評価される。このパープレキシティは、大まかにはシステムが符号化された各語に対して行わねばならない選択数を表したものである。パープレキシティが低いほど、言語モデルの質は高くなる。
【0008】
言語モデルでは、しばしば対話的システムによりしばしば行われるように、音声信号を文字列に変換する必要がある。質問に答えるためには、その質問を理解できる理解論理(comprehension logic)を構築する必要がある。
【0009】
豊富な語彙を有する言語モデルを構成に関しては、2つの標準的方法がある。
【0010】
第1の方法はいわゆるNグラム(N−gram)統計方法であり、2−グラム、3−グラムがよく使われる。Nグラム統計方法は、センテンス中のある語の出現確率はその語に先行するN個の語にのみ依存し、センテンス中の他の部分には依存しないという仮定の下に成り立っている。
【0011】
例えば、1000個の語からなる語彙に対して3−グラムの場合、この言語モデルを定義するためには1000の場合を規定する必要があり、これは不可能である。従って、通常これらの語はモデル設計者により明示的に定義されるか、あるいは自己組織化手法により演繹されるいくつかの集合に分類される。
【0012】
このため、この言語モデルはテキストコーパス(text corpus)から自動的に構築される。
【0013】
このタイプの言語モデルは、フレーズの理解が不要な音声信号をテキストに変換するだけの音声ディクテーションシステムに主に利用される。
【0014】
第2の方法は確率文法により構文の記述に関するものである。典型的には、いわゆるバッカス・ナウアー記法(BNF)に従い記述された規則の集合により定義された文脈自由文法、あるいはこの形式の文脈的文法(contextual grammar)への発展型である。文法を記述する規則は大抵がハンドメイドである。このタイプの言語モデルはコマンドアプリケーション及び制御アプリケーションに適しており、認識フレーズの後には、電化製品を制御するためのフレーズやデータベースの中の情報を検索するためのフレーズが続く。
【0015】
アプリケーションの中の言語モデルには、このアプリケーションが認識のために必要とする表現群(例えば、センテンス)が記述されている。従来技術の欠点は、この言語モデルの質が低ければ、認識システムは、たとえそれが音響音声的符号化レベルにおいて高い性能を持っていたとしても、特定の表現に対してあまり良い性能を発揮しない。
【0016】
統計タイプの言語モデルは、適切な発話、言語モデルにおける明確な表現定義を備えていない。表現の中には、単により高い先験的出現確率を持っているものもある。
【0017】
確率文法タイプの言語モデルでは、その言語モデルに属する表現と属さない表現との区別が明らかである。従って、このタイプの言語モデルでは、使われている音声モデルの質とは無関係に認識不可能な表現が存在する。一般に、このような表現は、それ自体の意味を持たないものであるか、あるいは構築されたシステムのアプリケーションの分野以外の意味を持ったものである。
【0018】
確率タイプ及びそれから派生した言語モデルは、コマンドアプリケーションや制御アプリケーションに特に効果的である。このタイプの文法はしばしばハンドメイドで書かれたものであり、対話型システムの構築に関する主要な問題の1つは高品質の言語モデルを提供するということにある。
【0019】
特に、文法形式のモデルに関する限り、特に言語が多くの人々により使用される場合(例えば、市場性の高い電化製品の遠隔制御などの場合)、当該言語を完全に定義することは不可能である。表現、フレーズの変換(フォーマルな言語からスラングへの変換)、及び/あるいは文法エラーなどの考えられるすべての要素を考慮するということは不可能である。
【0020】
本発明は、認識されなかった表現の記録に基づき、言語モデルを遠隔的に修正及び改善することを可能にする音声認識処理及びシステムに関する。
【0021】
より詳細には、本発明は、言語モデルを利用した少なくとも1つの端末において実現される音声認識プロセスであって:
・前記端末の1つにおいて少なくとも1つの認識されない表現を検出するステップ;
・前記認識されない表現を表すデータを前記端末に記録するステップ;
・前記端末により第1送信チャンネルを介して前記記録されたデータをリモートサーバに送信するステップ;
・前記リモートサーバのレベルにおいて前記データを解析し、前記認識されない表現の少なくとも部分的に考慮した前記言語モデルの補正情報を生成するステップ;及び
・前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、第2送信チャンネルを介して前記リモートサーバから少なくとも1つの端末に前記補正情報を送信するステップ;からなることを特徴とするプロセスである。
【0022】
従って、本発明は、局所的に認識されなかった表現に対する音声認識を可能にする様々な要素の更新を行う新規なアプローチに関する。ここで、リモートサーバは補正情報を生成するためのリソース(例えば、人間及び/あるいは計算能力)が備えられている。
【0023】
ここで、言語モデルは:
厳密な意味での言語モデル(例えば、認識対象のデータがテキスト形式である場合);
1つ以上の厳密な意味での言語モデルと1つ以上の音声ユニット群から構成されるモデル(音声サンプルに適用される音声認識の場合に対応する);
から構成される。
【0024】
本発明は、単なる語彙の更新以上のことが行われる。具体的には、ある表現のすべての語が端末の言語モデルにおいて用いられている語彙に含まれているにもかかわらず、この表現は認識されない可能性がある。言語モデルの単なる更新だけで、この表現はこの後認識されるようになる。言語モデルが導出される情報アイテムの中の1つである語彙の更新では、必ずしも十分でない。
【0025】
ここでは、表現は広い意味で解釈され、端末とユーザ間のやりとりを可能にする任意の口頭による表現に関する。表現(あるいは発話)は、センテンス、フレーズ、分離した語、分離していない語、端末のためのコード、指示、コマンドなどからなる。
【0026】
補正情報は、各端末の言語モデル及び/あるいは音声ユニット群の部分的あるいは全体的修正を、その中の要素を消去、置換あるいは追加することにより可能にする情報からなる。
【0027】
サーバは、各端末からデータを受信し、すべての端末から得た情報を共有することにより、データの送信先端末だけでなくその他の端末すべての言語モデル及び/あるいは音声ユニット群を改善する。
【0028】
本発明は、特定のユーザに特有な言語スタイルやフレーズ変換(例えば、「午後8時」や「夜8時」の代わりに(事前には想定するのが困難な冗長)「夜午後8時」)を考慮に入れることができる。このための準備は言語モデルの構築の過程では実行されない。
【0029】
さらに、本発明は言語の進化(新たなフレーズ変換や表現)を考慮している。
【0030】
本発明は、確率タイプの言語モデルにも確率文法タイプの言語モデルにも同じように良好に適用することができる。本発明が確率タイプの言語モデルに適用されるとき、一般に認識に影響を与える多くの補正データが存在する一方、確率文法タイプの言語モデルの補正データはわずかしかないが、それらは認識効果及び信頼性に大きな影響を与える。
【0031】
本発明による音声認識プロセスでは、前記認識されない表現を表す前記データは、音声信号を記述するパラメータを表す圧縮された音声記録からなる。
【0032】
これにより、リモートサーバに送信されるデータ量を制限しながら、サーバレベルの詳細な解析のためソースに送る音声データを好適に考慮することができる。
【0033】
本発明による音声認識プロセスでは、前記端末により送信するステップにおいて、前記端末は前記リモートサーバに、表現が認識されなかったとき、前記音声認識プロセスの使用状況に関する情報と認識されない表現を発した発話者に関する情報からなるグループを形成する少なくとも1つの情報アイテムを送信する。
【0034】
これにより、遠隔操作により端末により認識されなかった表現の音声認識が容易になる。
【0035】
さらに、認識されなかった表現内容の妥当性の確認が、文脈の機能として実行される。(例えば、アドレス先の端末がビデオレコーダーのとき、「送信を記録する」というコマンドは意味を持ち、携帯電話のときは意味を持たない。)
本発明による音声認識プロセスは、さらに、前記記録されたデータ及び/または前記補正情報の暗号化及び/またはスクランブル化を実行するステップを備える。
【0036】
これにより、データは効果的に安全化され、秘匿性を維持することができる。
【0037】
本発明は、言語モデルを利用した音声認識モジュールに関し、
・認識されない表現を検出する分析器;
・少なくとも1つの認識されない表現を表すデータの記録装置;
・前記記録されたデータをリモートサーバに送信する送信機;及び
・前記音声認識モジュールにより前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、前記音声認識モジュールに送られる前記言語モデルの補正するための補正情報を受信する受信機;
からなり、前記補正情報は、前記データの前記リモートサーバのレベルでの解析及び前記認識されない表現を少なくとも部分的に考慮した前記言語モデルの補正情報の生成後、前記リモートサーバにより送信されることを特徴とする。
【0038】
本発明は、言語モデルを利用した音声認識装置に関し、
・認識されない表現を検出する分析器;
・少なくとも1つの認識されない表現を表すデータの記録装置;
・前記記録されたデータをリモートサーバに送信する送信機;及び
・前記音声認識装置により前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、前記音声認識装置に送られる前記言語モデルの補正するための補正情報を受信する受信機;
からなり、前記補正情報は、前記データの前記リモートサーバのレベルでの解析及び前記認識されない表現を少なくとも部分的に考慮した前記言語モデルの補正情報の生成後、前記リモートサーバにより送信されることを特徴とする。
【0039】
本発明は、言語モデルを利用した少なくとも1つのリモート端末からなる端末群において認識処理が実現される音声認識サーバに関し、
・音声認識処理中、前記端末群の少なくとも1つのリモート端末により検出された少なくとも1つの認識されない表現を表すデータを受信する受信機;及び
・前記受信されたデータの前記音声認識サーバのレベルでの解析に基づき得られた補正情報を前記端末群に送信する送信機;
からなり、前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、前記補正情報により前記端末群の各端末による前記言語モデルの補正が可能になることを特徴とする。
【0040】
これら音声認識モジュール、装置及びサーバの特徴及び効果は、前述の音声認識プロセスと同様であり、その説明は省略される。
【0041】
本発明のその他の特徴及び効果は、本発明を限定しない以下で与えられる好適な実施例と添付された図面を参照することにより、より明らかになるであろう。
【0042】
本発明の基本原理は端末上で実現される音声認識に関するものであり、本発明による音声認識処理では、リモートサーバが必要と判断したとき、当該リモートサーバにより更新可能な言語モデル及び/あるいは音声ユニット群が使用される。
【0043】
基本的には、各端末は発話者により発せられた表現(例えば、センテンスやコマンド)を認識し、対応するアクションを実行することができる。
【0044】
しかしながら、人間には理解可能であるにもかかわらず音声認識を実行する装置やモジュールには認識されない表現がある。
【0045】
このような認識の失敗にはいくつかの理由がある。
発話者により使用されている語彙が言語モデルに含まれていない
発音(例えば、なまり)
音声認識装置やモジュールには用意されていないフレーズの変換
などである。
【0046】
具体的には、言語モデル及び音声ユニット群は、これまで考慮されてこなかった(考慮できなかった)典型的な人々により習慣的に使用されている表現、語、発音及び/あるいはフレーズをサンプルとした統計データに基づき構築される。
【0047】
本発明は、音声認識装置やモジュールにより認識されない表現を検出することに関する。
【0048】
ある表現が認識されなかったとき、端末はこの認識されなかった表現に対応する信号を表すデータをリモートサーバへの送信のため記録する(例えば、この表現の音声デジタル記録)。
【0049】
端末群からの認識されなかった表現が集まる遠隔サーバでは、オペレータがこれら認識されなかった表現を解析する。
【0050】
認識されなかった表現の中のあるものは、理解不可能及び/あるいは利用不可能と判断され、破棄される。
【0051】
他方、それ以外のものはマン/マシーンリンク(man/machine link)を介してオペレータにより理解可能であり、(オペレータが必要と判断すれば)端末により認識されなかった表現はサーバにより認識可能なコードに変換される。
【0052】
そして、サーバは、言語モデル及び/あるいは音声ユニット群の補正のための情報を生成するため、これらの認識されなかった表現をその変換結果とともに取り入れる。
【0053】
ここでの補正とは、
モデルの修正;及び/あるいは
モデルの補強
を意味する。
【0054】
サーバが各端末にこの補正情報を送ることにより、端末は言語モデル及び/あるいは音声ユニット群を更新し、当該端末自身や他の端末により認識されなかった表現を取り込むことが可能となる。
【0055】
これにより、認識されなかった表現に関する情報がすべての端末により共有されることにより、各端末の音声認識性能が改善される。
【0056】
本発明では、認識されなかった表現に関する解析はオペレータでなく大きなリソースを有するサーバにより実行されてもよい。
【0057】
本発明では、端末は、認識されなかった表現に対応する信号データとともに、文脈データ(例えば、時刻、日付、音声コマンドの失敗後手動あるいは音声を通じ実行されたコントロール、場所、端末のタイプなど)をサーバに送ってもよい。
【0058】
これにより、オペレータ及び/またはサーバによる解析作業が容易になる。
【0059】
本発明による技術が実現される音声制御ボックス(voice−controlled box)を備えるシステムの概要が図1に示される。
【0060】
本システムは、
オペレータ122により制御されるリモートサーバ116;及び
複数のユーザシステム114、117、118
から構成される。
【0061】
リモートサーバ116は、通信ダウンリンク115、119、120を介しそれぞれユーザシステム114、117、118にリンクされる。これらのリンクは恒久的なものでもよいし、あるいは一時的なものでもよい。これらのリンクは当業者には既知の任意のタイプのものであってよい。またこれらのリンクはテレビで使用されるRF、衛星や有線チャンネルに基づく放送用のものでもよいし、インターネットリンクのような他のタイプのものでもよい。
【0062】
図1は、通信アップリンク121を介しサーバ116にリンクされたユーザシステム114を示す。このリンクは同様に当業者に既知の任意のタイプのもの(特に、電話、インターネットなど)であってよい。
【0063】
ユーザシステム114は、
発話者により生成される音声信号を収集するためのマイクからなる音源100;
音声認識ボックス102;
電化製品107を駆動するための制御ボックス105;
例えば、テレビ、ビデオレコーダー、携帯通信端末のような制御対象の電化製品107;
認識に失敗したと検出された表現を記憶するための記憶ユニット109;
サーバ116との相互通信を可能にするインターフェイス112;
から構成される。
【0064】
音源100は、リンク101を介し音声認識ボックス102に接続され、音声信号を表すアナログ波を音声認識ボックス102に送信する。
【0065】
音声認識ボックス102は、リンク104を介し文脈情報104(例えば、制御ボックス105により制御される電化製品107のタイプや制御コードのリスト)を抽出し、リンク103を介し制御ボックス105にコマンドを送る。
【0066】
制御ボックス105は、それの言語モデル及び辞書により認識された情報に基づき、例えば赤外線によりリンク106を介し電化製品107にコマンドを送信する。
【0067】
制御ボックス105は、認識されてない表現を単に拒絶するのでなく検出し、この認識されなかった信号をリンク108を介し記憶ユニット109に送信し、この認識されなかった表現を記憶する。
【0068】
記憶ユニット109は、リンク111を介して認識されなかった表現に関するデータをインターフェイス112に送信する。送信されたデータはその後リンク121を介してサーバ116に転送される。送信完了後、インターフェイス110は信号110を記憶ユニット109に送り、送信されたデータは消去される。
【0069】
制御ボックス105は、さらに、リンク115を介しリモートサーバからインターフェイス112が受信した補正データをリンク113を介して受信する。この補正データは言語モデル及び/または音声ユニット群の更新のため制御ボックス105に利用される。
【0070】
上述の実施例によると、音源100、音声認識ボックス102、制御ボックス105、記憶ユニット109及びインターフェイス112が1つの装置を構成し、リンク101、103、104、108、111、110、113はこの装置の内部リンクとして機能する。リンク106は典型的には無線リンクである。
【0071】
図1に示された上述の実施例の第1の変形例として、構成要素100、102、105、109、112は部分的あるいは完全に分離し、1つの装置を構成していなくてもよい。この場合、リンク101、103、104、108、111、110、113は有線あるいはそれ以外の内部リンクとして機能する。
【0072】
第2の変形例として、音源100、音声認識ボックス102、制御ボックス105、記憶ユニット109、インターフェイス112及び電化製品107が1つの装置を構成し、内部バス(リンク101、103、104、108、111、110、113、106)により相互接続される。この装置が、例えば、携帯電話や携帯通信端末であるとき、この変形例は特に有用である。
【0073】
図2は、音声認識ボックス102のような音声制御ボックスの概略図である。
【0074】
音声認識ボックス102は、外部から音響音声デコーダ(APD)200(または「フロントエンド」)により処理された音源アナログ波101を受信する。APD200は、典型的にはリンク201を介して認識エンジン203に送られる口内共鳴(oral resonance)を表すコードブックに属する実数ベクトルあるいはベクトルを生成するために、一定の間隔(典型的には10ms毎)で音源波101をサンプリングする。例えば、APD200は、「音声の認知的線形予測分析(Perceptual Linear Prediction Analysis of Speech)Hynek Hermansky, Journal of the Acoustical Society of America, pp1738−1752, Vol. 97, No. 4, 1990」による認知的線形予測(PLP)に基づいている。
【0075】
辞書202を利用して、認識エンジン203は受信した実数ベクトルを(ある語が他の語の後に続く確率を表す)隠れマルコフモデル(HMM)と言語モデルを使って解析する。認識エンジンに関しては、「音声認識のための統計的方法(Statistical Methods for Speech Recognition)Frederick Jelinek, MIT Press, 1997」において詳細な解説が与えられている。
【0076】
本実施例による言語モデルでは、(特に隠れマルコフネットワークを利用した)認識エンジン203が、アプリケーションにおいて発話者により利用可能な表現の所与の語の後にどの語が続くかを決定し、その確率を与える。これらの語はアプリケーションの語彙に属する。この語彙は小規模(10〜300語)あるいは大規模(300,000語以上)の言語モデルと無関係であってもよい。
【0077】
特許出願 PCT/FR00/03329(Thomson Multimediaによる1999年11月29日出願)において、複数の構文ブロックを備えた言語モデルが開示されている。本発明は、そこで開示されたモジュラー式の言語モデルに好適に利用される。これは、モジュールは個別に更新できるので、過度に大量のファイルをダウンロードすることを回避できるからである。
【0078】
言語モデルは、言語モデル搭載モジュール207により送信される。モジュール207は、リンク113を介してサーバから送られた言語モデル、言語モデル及び/または音声ユニット群の更新・補正情報を受信する。
【0079】
ここで、辞書202は、そこから語を参照している言語モデルに属している。従って、辞書202自身はモジュール207により読み込まれた言語モデルを介して更新及び/あるいは補正される。
【0080】
ビテビアルゴリズム(Viterbi algorithm)に基づく認識処理の実行後、認識エンジン203は、拒絶モジュール211に言語モデルに従い発せられた表現に対しベストなスコアを示す文字列の順序付けられたリストを与える。
【0081】
拒絶モジュール211は、認識エンジン203の下流の作業を行い、以下の原則の1つ以上に従い動作する。
ビテビアルゴリズムに特有の理由から、スコアがあまりに低く認識エンジン203の計算精度に関する許容限界を超えてしまうため、認識エンジン203は適切なリストを生成しないかもしれない。このとき完全な矛盾のない提案はない。従って、拒絶モジュール211が所定の許容限度以下のスコアを検出すると、表現は拒絶される。
ビテビアルゴリズムにより計算されたリストの各要素は、言語モデルによりその要素のスコアがすべての可能な表現の中で相対的に高いレベルにあるため維持された。さらに、これら各表現に関するマルコフネットワークにより、観察されているスコアと関連した表現を生成するネットワークの本来的な確率の評価が可能となる。拒絶モジュール211はこの確率を解析し、もしその値が確率に関する所定の閾値未満であれば、表現は拒絶される。
ビテビアルゴリズムにより与えられたベストの提案に対して、拒絶モジュール211はビテビアルゴリズムの展開中には考慮されてこなかった基準を使って、表現の補足的処理を実行する。例えば、母音と関係しているため発声されねばならない信号部分が、実際そうであるかどうかチェックされる。もし提示された表現がこれらの条件を満たさなければ、表現は拒絶される。
【0082】
拒絶モジュール211が表現を拒絶すると、先に示されたように、この表現は認識されなかったと判断され、拒絶された表現を示す信号が認識エンジン203に送られる。これと同時に、拒絶モジュール211は、リンク108を介して認識されなかった表現の記録要求を記憶ユニット109に送る。
【0083】
認識エンジン203は、音声サンプルの形式でAPD200から発せられた表現を認識する。認識エンジン203は、音声ユニット群を使って、マルコフモデルの形式での語の音声表示を構築する。ここで、辞書202の各語はおそらくいくつかの「フォネティゼーション(phonetization)」を有する。また同時に、認識エンジン203は、厳密な意味でより大きな複雑性あるいはより小さな複雑性をもつ表現を認識するための言語モデルを利用する。
【0084】
認識エンジン203は、認識され(すなわち、モジュール211により拒絶されていない)、かつ受信したベクトルに基づき特定された表現を、これらの表現を電化製品107により理解可能なコマンドに変換するための手段205に供給する。この手段205は、人口知能変換処理を行って、制御ボックス105に1つ以上のコマンド103を送る前に、制御ボックス105により供給された文脈104を考慮する。
【0085】
図3は、図1に示されるような図2の構成を実現する音声認識モジュールあるいは装置102を示す。
【0086】
音声認識ボックス102は、アドレスとデータバスにより相互接続された
音声インターフェイス301;
アナログデジタル変換器302;
プロセッサ304;
不揮発性メモリ305;
RAM(Random Access Memory)306;
受信モジュール312;
送信モジュール313;及び
入出力インターフェイス307;
から構成される。
【0087】
図3に示された各構成要素は当業者に既知のものであり、ここでは説明は省略される。
【0088】
また、本明細書を通じて使用される「レジスタ」という用語は、各メモリにおいて容量の小さな(数ビットのデータビットの)メモリ領域と容量の大きな(プログラム全体やトランザクションデータ系列すべての保持が可能な)メモリ領域両方を示す。
【0089】
不揮発性メモリ305(ROM)は、「prog」レジスタ308にプロセッサ304を動作させるためのプログラムを保持している。
【0090】
RAM306は、データ、変数及び処理の中間結果をレジスタの中に保持する。ここでは、簡単化のために、レジスタにはそこに保持されているデータと同じ名前が付けられる。RAM306は、
認識されなかった表現の記録「Exp_Not_Rec」が保持されているレジスタ309;
認識されなかったセンテンス「Nb_Exp_Not_Rec」のカウンタ310;及び
レジスタ311の中の言語モデル「Model_Language」;
から構成される。
【0091】
さらに、受信モジュール312と送信モジュール313は、リモートサーバ116とのデータの送受信が可能である。送受信に関する有線あるいは無線技術は、電気通信の分野の当業者には既知のものであり、さらなる詳細な説明は省略される。
【0092】
図4は、図1のシステムにおけるサーバ116を示す。
【0093】
ここで、サーバ116は任意のマン/マシーンインターフェイス(例えば、キーボードやスクリーン)404を介しオペレータ122により制御されている。
【0094】
サーバ116は、
受信機400;
分析器401;
言語モジュール及び/あるいは音声ユニット群の補正を構成するモジュール402;及び
送信機403;
から構成される。
【0095】
受信機400は、端末の送信機313と適合し、各端末からリンク121を介して認識されなかった表現と補完的データ(例えば、文脈データ)を表すデータ(例えば、記録)を受信することができる。
【0096】
分析器401は、リンク121を介して受信機400からデータを受信し、インターフェイス404を介して受信したデータを端末を操作するオペレータ122に送る。この端末には、サーバ116との対話やそれの制御のためのスクリーンとキーボード、認識されなかった表現の記録を聴くためのスピーカーやヘッドフォンが取り付けられている。
【0097】
インターフェイス404を介して、分析器401はオペレータ122からの情報の受信が可能である。この情報は以下を示すものである。
言語モデルによりカバーされない認識されなかった表現が理解されないままになっている。この表現が端末に対するアプリケーション内での意味を持っていない。この表現が端末と関連付けられていない。(従って、この表現は言語モデルに含まれるべきでない。)この表現はこの後言語モデルの補正のため無視され、分析器401により廃棄される。
認識されなかった表現は厳密な意味で言語モデルに属する。(これは純粋な認識問題に関するものである。)この場合、厳密な意味で、この表現は言語モデルでなく、音声ユニット群の修正に関係している。
オペレーターによる表現内容の特定の後、言語モデルに属さず、端末に対して意図した意味を有する認識されなかった表現を、例えば、制御コードの形式に変換する。このことは厳密な意味で言語モデルの補正に関係している。
【0098】
上記第2及び第3の解決法を組み合わせることが可能である。この場合、これは、厳密な意味で音声ユニット群と言語モデル両方の修正に関係するものである。
【0099】
本実施例は、認識されなかった表現の手動での処理に対応している。本実施例によると、オペレーター122は認識されなかった表現を聞き、それが拒絶された理由を解析する。オペレーター122は、この表現が言語モデルに属しているかどうか判断する。その表現が言語モデルに属している場合、オペレーター122は表現を分析し、本来的な認識問題(言語モデルに属し、認識されるべきであったにもかかわらず、ノイズや発話者のなまりのような他の理由のため認識されなかった表現)を特定する。
【0100】
本実施例の第1の変形例では、処理は自動化され、オペレーターの介入は必要とされない。この場合、サーバ116と分析器401は、端末と比較して大きな計算パワーを持つ必要がなる。この変形例では、分析器401は端末よりもより適切な方法で、例えば、より高性能の言語モデル及び/またはより複雑な音声ユニット群を利用することによって、認識されなかった各表現を解析する。ここでは、分析器401は、(しばしば発話者のコマンドへの迅速な応答を要する)端末のようなリアルタイムの計算要求に従うことなく、よりも長い処理時間を必要とする認識を許容する。
【0101】
本実施例の第2の変形例では、処理は半自動化され、オペレータの介入は分析器401では解決できない場合に限られる。
【0102】
上述された好適実施例では、サーバ116の基本構造は、図3に示された端末と同様の構成とされる。サーバ116は、アドレスとデータバスにより相互接続された;
プロセッサ;
RAM;
不揮発性メモリ;
適当な送信モジュール;
受信モジュール;及び
マン/マシーンリンクアップインターフェイス;
から構成される。
【0103】
図5は、図2に示された認識エンジン203により実行される表現の判定処理及び認識されなかった表現データの記録処理に関するフローチャートを示す。図5によると、最初のステップである初期化500において、マイクロプロセッサ304はプログラム308の実行を開始し、RAM306の変数を初期化する。
【0104】
ステップ501において、マイクロプロセッサ304は、表現が入力されるのを待ち、発話者からの表現を受信する。
【0105】
ステップ502において、受信した表現の音声認識処理を実行した後、マイクロプロセッサ304は図2の拒絶モジュール211に関して与えられた1つ以上の基準に従い、その表現が認識されたかどうか判定する。
【0106】
もし認識されていれば、ステップ504において、端末102は受信された表現に適用された音声認識の結果を考慮し、コマンドのような適切なアクションを実行する。
【0107】
もし認識されていなければ、ステップ503において、認識されなかった表現は圧縮され、図6に示されたリモートサーバ116への送信のため、記憶ユニット109に記録される。
【0108】
ステップ503あるいは504の完了後、次の表現の入力を待つステップ501が繰り返される。
【0109】
図6は、図2の拒絶モジュールにより実行される認識されなかった表現データの送信処理に関するフローチャートである。最初のステップである初期化600において、マイクロプロセッサ304はプログラム308の実行を開始し、RAM306の変数を初期化する。
【0110】
ステップ601において、マイクロプロセッサ304は音声認識モジュール102により認識されなかった表現の入力を待ち、認識されなかった表現の記録を受信する。
【0111】
ステップ602において、端末114は電気通信の分野の当業者には既知の方法に従い、リモートサーバ116に接続する。
【0112】
ステップ603において、認識されなかった表現の記録が整形され、リモートサーバ116に送信される。
【0113】
ステップ604において、端末114はリモートサーバ116との接続を切断し、リモートサーバ116と記憶ユニット109とのインターフェイス112の間で、表現の記録の送信を示す認識されなかった表現に対応するデータを記憶するための信号が送信される。これらの表現に対応するデータは、その後記憶ユニット109から消去される。
【0114】
続いて、ステップ601が繰り返される。
【0115】
図7は、図2の言語モデルを読み取るためのモジュール207により実現される補正データの受信処理に関するフローチャートを示す。
【0116】
最初のステップである初期化700の後、ステップ701において、端末はサーバ116により複数の端末に配信される補正データの入力を待つ。
【0117】
ステップ702において、端末は、音声認識モジュールにより利用される言語モデル及び/または音声ユニット群を更新するため、補正データを考慮する。この補正データに関しては、
言語モデル及び/または音声ユニット群の既存データの取り替え;
既存データの修正;
既存データの補強;及び/または
既存データの消去;
が可能である。
【0118】
ステップ702の実行後、ステップ703が繰り返される。
【0119】
図8は、図4に示されるリモートサーバにおいて実行される受信処理及び補正データ処理に関するフローチャートである。
【0120】
最初のステップ800において、パラメータが初期化され、サーバ管理のためのプログラムが始動される。そして、サーバ116は端末からの接続要求(図6のステップ602の実行)を待ち、電機通信の分野の当業者には既知の方法により端末との接続が確立される。
【0121】
ステップ802において、サーバ116は、前述のステップ603を実行する接続された端末からのデータを受信する。このデータには、端末により拒絶された1つ以上の表現の記録が、これらの表現は端末において実行された音声認識モジュールにより認識されなかったため、含まれている。すべてのデータが受信されると、端末とサーバ116との接続は切断される。
【0122】
ステップ803において、サーバ116は受信した各表現記録を、オペレータ122により手動で、あるいは図4に関して示された様々な変形例に従い自動的にあるいは半自動的に処理する。
【0123】
ステップ804において、サーバ116は、受信した1つ以上の表現が理解可能であるか、そしてこの表現を送信した端末と関連性があるかどうか判定する。その後、言語モデル及び/または音声ユニットが更新される。
【0124】
もし判定結果が否定されれば、ステップ801が繰り返される。
【0125】
もし判定結果が肯定されれば、サーバ116は、いくつかの形式を取りうる言語モデルの補正を構成し、補正データの受信後、端末において(前述の)ステップ607を可能にする。この補正データは、
補正を特定する標識(特に、置換、修正、補強あるいは消去);及び
標識の機能としての補正データ;
から構成される。
【0126】
ここで、もし言語モデルが複数の構文ブロックから構成される場合(特に、上述の特許 PCT/FR00/03329 のような言語モデルの場合)、各モジュールは別々に補正可能である。この場合、補正データはモジュールの標識と補正されるモジュールから構成される。
【0127】
ステップ806において、サーバ116は、ステップ607により言語モデル及び/あるいは音声ユニット群を更新できる1つあるいは好適には複数の端末群に補正データを配信する。
【0128】
その後、ステップ801が繰り返される。
【0129】
この手順は複数回繰り返されてもよい。またアプリケーションは新たな質問を加えることによりアップグレードすることも可能である。
【0130】
もちろん本発明はここまで述べられた実施例に限定されるものではない。
【0131】
特に、当業者は本発明を実現する端末の定義を変更することができるであろう。本発明は、音声認識処理を実行する任意の装置及び/あるいはモジュール(例えば、マルチメディア端末、テレビ、ビデオレコーダ、マルチメディアデジタルでコーダ(あるいはセットトップボックス)、オーディオ装置、ビデオ装置、固定端末、携帯端末)に関するものである。
【0132】
同様に、本発明は、任意のタイプのリモートサーバ(例えば、インターネットサーバ、テレビ番組放送装置に接続された装置、移動通信ネットワークに接続された装置、サービスプロバイダー装置など)に関する。
【0133】
さらに、本発明によると、認識されなかったセンテンスに対応するデータの送信チャンネルと、言語モデル及び/または音声ユニット群を補正するためのデータの送信チャンネルは任意のものであってよく、特に、
RF送信パス;
衛星送信パス;
テレビ配信ネットワークチャンネル;
インターネットタイプネットワークチャンネル;
電話ネットワークチャンネル;
携帯電話ネットワークチャンネル;
携帯型メディア;
を含む。
【0134】
さらに、本発明は認識されないセンテンスだけでなく、任意のタイプの音声表現、例えば、1つ以上のセンテンス、分離した語、分離していない語、フレーズ、マシーンとユーザ間の対話を可能にする音声コードなどに関する。このような口頭による表現は、コマンドだけでなく、マシーンとユーザ間の対話を形成する任意のタイプのデータ、例えば、ユーザによりマシーンに送信される情報データ、コンフィギュレーションデータ、プログラミングデータなどと関連していてもよい。
【0135】
本発明による言語モデルの更新方法は、厳密な意味での音声認識処理に適用されるだけでなく、スペルミスやタイプミスを支援するテキスト入力認識処理にも上述のマルコフモデルや厳密な意味での言語モデルに基づく適用が可能である。
【0136】
本発明は、ハードウェア的構成に限定されるものでなく、コンピュータプログラムの指示により実現されてもよいし、ハードウェアとソフトウェアの組み合わせにより実現されてもよい。本発明が部分的あるいは完全にソフトウェア的に実現される場合、対応する指示系列は取り出し可能な記憶手段(例えば、ディスケット、CD−ROM、DVD−ROMなど)に保持されてもよい。このような記憶手段はコンピュータやマイクロプロセッサにより部分的あるいは完全に読み出し可能なものである。
【図面の簡単な説明】
【図1】
図1は、本発明による技術が実現される音声制御ボックスを備えたシステムの概略図である。
【図2】
図2は、図1のシステムの音声認識ボックスの概略図である。
【図3】
図3は、図2の構成を実現する音声認識ボックスの電子図である。
【図4】
図4は、図1のシステムのサーバの概略図である。
【図5】
図5は、図2の認識エンジンにより実行される表現のチェック処理と認識されなかった表現に関するデータの記録処理のためのフローチャートである。
【図6】
図6は、図2の拒絶モジュールにより実行される認識されなかった表現に関するデータの送信処理のためのフローチャートである。
【図7】
図7は、図2の言語モデルを搭載したモジュールにより実行される補正情報の受信処理のためのフローチャートである。
【図8】
図8は、図4のリモートサーバにおいて実行される補正情報の受信処理と補正情報の処理のためのフローチャートである。

Claims (7)

  1. 言語モデル(311)を利用した少なくとも1つの端末(114)において実現される音声認識プロセスであって:
    前記端末の1つにおいて少なくとも1つの認識されない表現を検出するステップ(502);
    前記認識されない表現(309)を表すデータを前記端末に記録するステップ(503);
    前記端末により第1送信チャンネル(121)を介して前記記録されたデータをリモートサーバ(116)に送信するステップ(603);
    前記リモートサーバのレベルにおいて前記データを解析し(803)、前記認識されない表現を少なくとも部分的に考慮した前記言語モデルの補正情報を生成するステップ(805);及び
    前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、第2送信チャンネル(115, 119, 120)を介して前記リモートサーバから少なくとも1つの端末(114, 117, 118)に前記補正情報を送信するステップ(806);
    からなることを特徴とするプロセス。
  2. 請求項1記載のプロセスであって、前記認識されない表現(309)を表す前記データは、音声信号を記述するパラメータを表す圧縮された音声記録からなることを特徴とするプロセス。
  3. 請求項1または2記載のプロセスであって、前記端末により送信するステップにおいて、前記端末は前記リモートサーバに、表現が認識されなかったとき、前記音声認識プロセスの使用状況に関する情報と認識されない表現を発した発話者に関する情報からなるグループからなる少なくとも1つの情報アイテムを送信することを特徴とするプロセス。
  4. 請求項1乃至3何れか1項記載のプロセスであって、さらに、前記記録されたデータ及び/または前記補正情報の暗号化及び/またはスクランブル化を実行するステップを備えることを特徴とするプロセス。
  5. 言語モデルを利用した音声認識モジュール(102)であって:
    認識されない表現を検出する分析器;
    少なくとも1つの認識されない表現を表すデータの記録装置;
    前記記録されたデータをリモートサーバに送信する送信機;及び
    前記音声認識モジュールにおいて前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、前記音声認識モジュールに送られる前記言語モデルを補正するための補正情報を受信する受信機;
    からなり、前記データの前記リモートサーバのレベルでの解析、及び前記認識されない表現を少なくとも部分的に考慮した前記言語モデルの補正情報の生成後、前記補正情報は前記リモートサーバにより送信されることを特徴とするモジュール。
  6. 言語モデルを利用した音声認識装置(102)であって:
    認識されない表現を検出する分析器;
    少なくとも1つの認識されない表現を表すデータの記録装置;
    前記記録されたデータをリモートサーバに送信する送信機;及び
    前記音声認識装置において前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、前記音声認識装置に送られる前記言語モデルを補正するための補正情報を受信する受信機;
    からなり、前記データの前記リモートサーバのレベルでの解析、及び前記認識されない表現を少なくとも部分的に考慮した前記言語モデルの補正情報の生成後、前記補正情報は前記リモートサーバにより送信されることを特徴とする装置。
  7. 言語モデルを利用した少なくとも1つのリモート端末からなる端末群において認識処理が実現される音声認識サーバ(116)であって:
    音声認識処理中、前記端末群の少なくとも1つのリモート端末により検出された少なくとも1つの認識されない表現を表すデータを受信する受信機;及び
    前記受信されたデータの前記音声認識サーバのレベルでの解析に基づき得られる補正情報を前記端末群に送信する送信機;
    からなり、前記認識されない表現が少なくとも部分的にこの後認識可能になるよう、前記補正情報により前記端末群の各端末による前記言語モデルの補正が可能になることを特徴とするサーバ。
JP2002565299A 2001-02-13 2002-02-12 音声認識のための処理、モジュール、装置及びサーバ Expired - Fee Related JP4751569B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR01/01910 2001-02-13
FR0101910A FR2820872B1 (fr) 2001-02-13 2001-02-13 Procede, module, dispositif et serveur de reconnaissance vocale
PCT/FR2002/000518 WO2002065454A1 (fr) 2001-02-13 2002-02-12 Procede, module, dispositif et serveur de reconnaissance vocale

Publications (2)

Publication Number Publication Date
JP2004530149A true JP2004530149A (ja) 2004-09-30
JP4751569B2 JP4751569B2 (ja) 2011-08-17

Family

ID=8859932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002565299A Expired - Fee Related JP4751569B2 (ja) 2001-02-13 2002-02-12 音声認識のための処理、モジュール、装置及びサーバ

Country Status (10)

Country Link
US (1) US7983911B2 (ja)
EP (1) EP1362343B1 (ja)
JP (1) JP4751569B2 (ja)
KR (1) KR100908358B1 (ja)
CN (1) CN1228762C (ja)
DE (1) DE60222093T2 (ja)
ES (1) ES2291440T3 (ja)
FR (1) FR2820872B1 (ja)
MX (1) MXPA03007178A (ja)
WO (1) WO2002065454A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265219A (ja) * 2008-04-23 2009-11-12 Nec Infrontia Corp 音声入力分散処理方法及び音声入力分散処理システム
WO2011052412A1 (ja) * 2009-10-28 2011-05-05 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体
JP2013127536A (ja) * 2011-12-19 2013-06-27 Sharp Corp 音声出力装置、当該音声出力装置を備える通信端末、当該音声出力装置を備える補聴器、音声出力装置を制御するためのプログラム、音声出力装置の使用者に応じた音声を提供するための方法、および、音声出力装置の変換データを更新するためのシステム
JP2015018238A (ja) * 2013-07-08 2015-01-29 インタラクションズ コーポレイション 自然言語理解のための自動音声認識プロキシシステム
US9245525B2 (en) 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
JP2016128924A (ja) * 2010-05-19 2016-07-14 サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング 対話、及び/又は、命令決定プロセスの操作データの変更
US9472185B1 (en) 2011-01-05 2016-10-18 Interactions Llc Automated recognition system for natural language understanding

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030182113A1 (en) * 1999-11-22 2003-09-25 Xuedong Huang Distributed speech recognition for mobile communication devices
JP4267385B2 (ja) 2003-06-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
US8954325B1 (en) * 2004-03-22 2015-02-10 Rockstar Consortium Us Lp Speech recognition in automated information services systems
US7542904B2 (en) * 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
EP1760566A1 (en) * 2005-08-29 2007-03-07 Top Digital Co., Ltd. Voiceprint-lock system for electronic data
US20070136069A1 (en) * 2005-12-13 2007-06-14 General Motors Corporation Method and system for customizing speech recognition in a mobile vehicle communication system
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
CA2648617C (en) 2006-04-05 2017-12-12 Yap, Inc. Hosted voice recognition system for wireless devices
US8214213B1 (en) * 2006-04-27 2012-07-03 At&T Intellectual Property Ii, L.P. Speech recognition based on pronunciation modeling
US8917876B2 (en) 2006-06-14 2014-12-23 Personics Holdings, LLC. Earguard monitoring system
TWI321313B (en) * 2007-03-03 2010-03-01 Ind Tech Res Inst Apparatus and method to reduce recognization errors through context relations among dialogue turns
US8352264B2 (en) 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US11856375B2 (en) 2007-05-04 2023-12-26 Staton Techiya Llc Method and device for in-ear echo suppression
US11683643B2 (en) 2007-05-04 2023-06-20 Staton Techiya Llc Method and device for in ear canal echo suppression
US8335830B2 (en) 2007-08-22 2012-12-18 Canyon IP Holdings, LLC. Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof
US9053489B2 (en) 2007-08-22 2015-06-09 Canyon Ip Holdings Llc Facilitating presentation of ads relating to words of a message
US9129599B2 (en) * 2007-10-18 2015-09-08 Nuance Communications, Inc. Automated tuning of speech recognition parameters
US8326631B1 (en) * 2008-04-02 2012-12-04 Verint Americas, Inc. Systems and methods for speech indexing
US8600067B2 (en) 2008-09-19 2013-12-03 Personics Holdings Inc. Acoustic sealing analysis system
US8374872B2 (en) * 2008-11-04 2013-02-12 Verizon Patent And Licensing Inc. Dynamic update of grammar for interactive voice response
US20110307250A1 (en) * 2010-06-10 2011-12-15 Gm Global Technology Operations, Inc. Modular Speech Recognition Architecture
US9484018B2 (en) * 2010-11-23 2016-11-01 At&T Intellectual Property I, L.P. System and method for building and evaluating automatic speech recognition via an application programmer interface
JP5837341B2 (ja) * 2011-06-24 2015-12-24 株式会社ブリヂストン 路面状態判定方法とその装置
GB2493413B (en) 2011-07-25 2013-12-25 Ibm Maintaining and supplying speech models
AU2018202888B2 (en) * 2013-01-17 2020-07-02 Samsung Electronics Co., Ltd. Image processing apparatus, control method thereof, and image processing system
DE102013216427B4 (de) * 2013-08-20 2023-02-02 Bayerische Motoren Werke Aktiengesellschaft Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung
EP3040985B1 (en) * 2013-08-26 2023-08-23 Samsung Electronics Co., Ltd. Electronic device and method for voice recognition
EP2851896A1 (en) 2013-09-19 2015-03-25 Maluuba Inc. Speech recognition using phoneme matching
DE102013219649A1 (de) * 2013-09-27 2015-04-02 Continental Automotive Gmbh Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
DE102014200570A1 (de) * 2014-01-15 2015-07-16 Bayerische Motoren Werke Aktiengesellschaft Verfahren und System zur Erzeugung eines Steuerungsbefehls
US9601108B2 (en) * 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
CN103956168A (zh) * 2014-03-29 2014-07-30 深圳创维数字技术股份有限公司 一种语音识别方法、装置及终端
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
KR102225404B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치
US20150371628A1 (en) * 2014-06-23 2015-12-24 Harman International Industries, Inc. User-adapted speech recognition
US10163453B2 (en) 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
JPWO2016067418A1 (ja) * 2014-10-30 2017-04-27 三菱電機株式会社 対話制御装置および対話制御方法
US9711141B2 (en) * 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
KR102325724B1 (ko) * 2015-02-28 2021-11-15 삼성전자주식회사 다수의 기기에서 텍스트 데이터 동기화
US20160274864A1 (en) * 2015-03-20 2016-09-22 Google Inc. Systems and methods for enabling user voice interaction with a host computing device
CN104758075B (zh) * 2015-04-20 2016-05-25 郑洪� 基于语音识别控制的家用口腔护理工具
US10325590B2 (en) * 2015-06-26 2019-06-18 Intel Corporation Language model modification for local speech recognition systems using remote sources
US10616693B2 (en) 2016-01-22 2020-04-07 Staton Techiya Llc System and method for efficiency among devices
US9858918B2 (en) * 2016-03-15 2018-01-02 GM Global Technology Operations LLC Root cause analysis and recovery systems and methods
US9761227B1 (en) * 2016-05-26 2017-09-12 Nuance Communications, Inc. Method and system for hybrid decoding for enhanced end-user privacy and low latency
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
US10229682B2 (en) 2017-02-01 2019-03-12 International Business Machines Corporation Cognitive intervention for voice recognition failure
US10636423B2 (en) 2018-02-21 2020-04-28 Motorola Solutions, Inc. System and method for managing speech recognition
CN108683937B (zh) * 2018-03-09 2020-01-21 百度在线网络技术(北京)有限公司 智能电视的语音交互反馈方法、系统及计算机可读介质
US10951994B2 (en) 2018-04-04 2021-03-16 Staton Techiya, Llc Method to acquire preferred dynamic range function for speech enhancement
KR102544250B1 (ko) 2018-07-03 2023-06-16 삼성전자주식회사 소리를 출력하는 디바이스 및 그 방법
US11087739B1 (en) * 2018-11-13 2021-08-10 Amazon Technologies, Inc. On-device learning in a hybrid speech processing system
CN110473530B (zh) * 2019-08-21 2021-12-07 北京百度网讯科技有限公司 指令分类方法、装置、电子设备及计算机可读存储介质
KR102332565B1 (ko) * 2019-12-13 2021-11-29 주식회사 소리자바 음성 인식 힌트 적용 장치 및 방법
CN113052191A (zh) * 2019-12-26 2021-06-29 航天信息股份有限公司 一种神经语言网络模型的训练方法、装置、设备及介质
US11552966B2 (en) 2020-09-25 2023-01-10 International Business Machines Corporation Generating and mutually maturing a knowledge corpus

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
JPH07222248A (ja) 1994-02-08 1995-08-18 Hitachi Ltd 携帯型情報端末における音声情報の利用方式
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US6058363A (en) * 1997-01-02 2000-05-02 Texas Instruments Incorporated Method and system for speaker-independent recognition of user-defined phrases
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
JP2001507482A (ja) * 1997-10-08 2001-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 語彙及び/又は言語モデルのトレーニング
US5937385A (en) * 1997-10-20 1999-08-10 International Business Machines Corporation Method and apparatus for creating speech recognition grammars constrained by counter examples
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
US6157910A (en) * 1998-08-31 2000-12-05 International Business Machines Corporation Deferred correction file transfer for updating a speech file by creating a file log of corrections
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US6275803B1 (en) * 1999-02-12 2001-08-14 International Business Machines Corp. Updating a language model based on a function-word to total-word ratio
US6195636B1 (en) * 1999-02-19 2001-02-27 Texas Instruments Incorporated Speech recognition over packet networks
EP1088299A2 (en) * 1999-03-26 2001-04-04 Scansoft, Inc. Client-server speech recognition
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6463413B1 (en) * 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
US6360201B1 (en) * 1999-06-08 2002-03-19 International Business Machines Corp. Method and apparatus for activating and deactivating auxiliary topic libraries in a speech dictation system
JP2001013985A (ja) 1999-07-01 2001-01-19 Meidensha Corp 音声認識システムの辞書管理方式
US6484136B1 (en) * 1999-10-21 2002-11-19 International Business Machines Corporation Language model adaptation via network of similar users
US20030182113A1 (en) * 1999-11-22 2003-09-25 Xuedong Huang Distributed speech recognition for mobile communication devices
JP3728177B2 (ja) * 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
JP2003036088A (ja) * 2001-07-23 2003-02-07 Canon Inc 音声変換の辞書管理装置
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265219A (ja) * 2008-04-23 2009-11-12 Nec Infrontia Corp 音声入力分散処理方法及び音声入力分散処理システム
WO2011052412A1 (ja) * 2009-10-28 2011-05-05 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体
US9905227B2 (en) 2009-10-28 2018-02-27 Nec Corporation Speech recognition system, request device, method, program, and recording medium, using a mapping on phonemes to disable perception of selected content
JP5621993B2 (ja) * 2009-10-28 2014-11-12 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム
US9520129B2 (en) 2009-10-28 2016-12-13 Nec Corporation Speech recognition system, request device, method, program, and recording medium, using a mapping on phonemes to disable perception of selected content
JP2016128924A (ja) * 2010-05-19 2016-07-14 サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング 対話、及び/又は、命令決定プロセスの操作データの変更
US9245525B2 (en) 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
US9472185B1 (en) 2011-01-05 2016-10-18 Interactions Llc Automated recognition system for natural language understanding
US9741347B2 (en) 2011-01-05 2017-08-22 Interactions Llc Automated speech recognition proxy system for natural language understanding
US10049676B2 (en) 2011-01-05 2018-08-14 Interactions Llc Automated speech recognition proxy system for natural language understanding
US10147419B2 (en) 2011-01-05 2018-12-04 Interactions Llc Automated recognition system for natural language understanding
US10810997B2 (en) 2011-01-05 2020-10-20 Interactions Llc Automated recognition system for natural language understanding
JP2013127536A (ja) * 2011-12-19 2013-06-27 Sharp Corp 音声出力装置、当該音声出力装置を備える通信端末、当該音声出力装置を備える補聴器、音声出力装置を制御するためのプログラム、音声出力装置の使用者に応じた音声を提供するための方法、および、音声出力装置の変換データを更新するためのシステム
JP2015018238A (ja) * 2013-07-08 2015-01-29 インタラクションズ コーポレイション 自然言語理解のための自動音声認識プロキシシステム

Also Published As

Publication number Publication date
MXPA03007178A (es) 2003-12-04
US7983911B2 (en) 2011-07-19
WO2002065454A1 (fr) 2002-08-22
US20050102142A1 (en) 2005-05-12
CN1491412A (zh) 2004-04-21
FR2820872B1 (fr) 2003-05-16
JP4751569B2 (ja) 2011-08-17
ES2291440T3 (es) 2008-03-01
CN1228762C (zh) 2005-11-23
DE60222093D1 (de) 2007-10-11
FR2820872A1 (fr) 2002-08-16
EP1362343B1 (fr) 2007-08-29
DE60222093T2 (de) 2008-06-05
KR100908358B1 (ko) 2009-07-20
EP1362343A1 (fr) 2003-11-19
KR20030076661A (ko) 2003-09-26

Similar Documents

Publication Publication Date Title
JP4751569B2 (ja) 音声認識のための処理、モジュール、装置及びサーバ
CN110473531B (zh) 语音识别方法、装置、电子设备、系统及存储介质
CN1667700B (zh) 把字的语音或声学描述、发音添加到语音识别词典的方法
US9117450B2 (en) Combining re-speaking, partial agent transcription and ASR for improved accuracy / human guided ASR
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
EP2008189B1 (en) Automatic language model update
US5732187A (en) Speaker-dependent speech recognition using speaker independent models
US20020152071A1 (en) Human-augmented, automatic speech recognition engine
JP5149107B2 (ja) 音響処理装置およびプログラム
JP4869268B2 (ja) 音響モデル学習装置およびプログラム
US20070118373A1 (en) System and method for generating closed captions
WO2000049599A1 (fr) Traducteur de sons vocaux, procede de traduction de sons vocaux et support d'enregistrement sur lequel est enregistre un programme de commande de traduction de sons vocaux
JP2002091477A (ja) 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
CN111489743B (zh) 一种基于智能语音技术的运营管理分析系统
US7624010B1 (en) Method of and system for improving accuracy in a speech recognition system
JP5271299B2 (ja) 音声認識装置、音声認識システム、及び音声認識プログラム
US20020087317A1 (en) Computer-implemented dynamic pronunciation method and system
JP2000099087A (ja) 言語音声モデルを適応させる方法及び音声認識システム
Rodríguez et al. Computer assisted transcription of speech
US20030105632A1 (en) Syntactic and semantic analysis of voice commands
US7206738B2 (en) Hybrid baseform generation
US20240161739A1 (en) System and method for hybrid generation of text from audio
JP2001013992A (ja) 音声理解装置
CN113035247B (zh) 一种音频文本对齐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071023

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080123

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090507

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090616

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20090717

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101029

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110523

R150 Certificate of patent or registration of utility model

Ref document number: 4751569

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140527

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees