JP5214461B2 - インプットデータに対するワードクラスタリング - Google Patents

インプットデータに対するワードクラスタリング Download PDF

Info

Publication number
JP5214461B2
JP5214461B2 JP2008541262A JP2008541262A JP5214461B2 JP 5214461 B2 JP5214461 B2 JP 5214461B2 JP 2008541262 A JP2008541262 A JP 2008541262A JP 2008541262 A JP2008541262 A JP 2008541262A JP 5214461 B2 JP5214461 B2 JP 5214461B2
Authority
JP
Japan
Prior art keywords
word
occurrence
component
cluster
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008541262A
Other languages
English (en)
Other versions
JP2009516233A (ja
Inventor
マケルジー クナル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2009516233A publication Critical patent/JP2009516233A/ja
Application granted granted Critical
Publication of JP5214461B2 publication Critical patent/JP5214461B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Description

本発明は、インプットデータの中のワードまたはワード組み合わせに対してワードクラスタを生成するクラスタリングツールに関する。
電話ルーティングシステムなどの音声認識アプリケーションでは、閉じた文法またはレキシコン(closed grammar or lexicon)が採用されることがよくある。例えば、会社の電話ディレクトリシステム(company telephone directory system)用の音声認識アプリケーションで使用されている文法には、会社の従業員の固有名のリストが含まれていることがある。このような文法には、音声認識アプリケーションから与えられたプロンプトまたは指示に対する起り得るレスポンスが含まれていることもある。従って、例えば、音声認識アプリケーションは“Who would you to speak to?(どなたに御用ですか)”と尋ねることがある。これを受けてユーザが“John Doe”と応答したとすると、その時点でこのアプリケーションはそのコールをJohn Doeの内線に転送する。しかし、このようなシステムでは、プロンプトに対するユーザのインプットまたはレスポンスが閉じた文法の中にないと、そのアプリケーションはユーザのレスポンスを認識できないので問題が起ることになる。例えば、“Who would you to speak to?(どなたに御用ですか)”というプロンプトに対するレスポンスとして、ユーザは「会社のストア」と応答することがある。音声認識アプリケーションによって使用される閉じた文法またはレキシコンの中にそのレスポンスが含まれていないと、そのレスポンスは未認識とされることになる。認識不能を受け入れるようにシステムをチューニングすることは非常に時間を消費し、コストのかかることである。
以上は単に一般的背景を説明したものであり、請求項に記載の主題の範囲を判断する際の一助として使用されるものではない。
未認識の音声データまたは他のインプットデータの中に見つかったワードに対するワードクラスタを生成するクラスタリングツール(clustering tool)を提供することを課題にしている。本明細書に開示されている実施形態では、これらのクラスタは認識パフォーマンスを向上するように閉じた文法を改良するために使用されている。
以下の簡単な説明は、下述する「詳細な説明」に詳しく説明されている概念のいくつかを選んで簡単に紹介するものである。この簡単な説明は請求項に記載の主題の主要特徴または基本的特徴を特定するものではなく、また請求項に記載の主題の範囲を判断する際の一助として使用されるものでもない。
以下では、ワードクラスタを特定するシステムについて説明する。なお、本システムを詳細に説明する前に、本システムを配置できる環境の一実施形態について説明する。
図1は、本発明の実施形態を実現ができる適当なコンピューティングシステム環境100の例を示す図である。このコンピューティングシステム環境100は、適当なコンピューティング環境の単なる一例であり、本発明の使用または機能の範囲についてなんらの制限があることを示唆するものではない。また、このコンピューティング環境100は、例示の動作環境100に図示されているコンポーネントのいずれに関しても、あるいはその組み合わせに関しても、なんらの依存関係または要求条件があるものと解釈されるものでもない。
本発明の実施形態は、他の多数の汎用または特殊目的のコンピューティングシステム環境または構成と共に動作するものである。本発明の種々実施形態で使用するのに適している周知コンピューティングシステム、環境、および/または構成の例としては、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブルコンシューマエレクトロニクス、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、テレホニシステム、上記に挙げたシステムまたはデバイスのいずれかを含んでいる分散コンピューティング環境などがあるが、これらに限定されない。
以下では、プログラムモジュールのように、コンピュータによって実行されるコンピュータ実行可能命令の一般的コンテキストの中で本発明の実施形態が説明されていることがある。一般的に、プログラムモジュールの中には、特定のタスクを実行し、あるいは特定の抽象データ型を実現するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれている。一部の実施形態は、通信ネットワークを通してリンクされたリモート処理デバイスによってタスクが実行されるような、分散コンピューティング環境で実施されることを目的としている。分散コンピューティング環境では、プログラムモジュールは、ローカルとリモートの両方のコンピュータ記憶媒体に置かれており、その中にはメモリストレージデバイスが含まれている。
図1を参照して説明すると、一部の実施形態を実現する例示システムは、コンピュータ110の形体をした汎用コンピューティングデバイスを装備している。コンピュータ110のコンポーネントとしては、処理ユニット120、システムメモリ130、およびシステムメモリを含む種々のシステムコンポーネントを処理ユニット120に結合するシステムバス121があるが、これらに限定されない。システムバス121は、数種タイプのバス構造のいずれにすることも可能であり、その中には、種々のバス構造のいずれかを使用したメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスが含まれている。例を挙げると、そのようなアーキテクチャとしては、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびMezzanineバスとも呼ばれるPCI(Peripheral Component Interconnect)バスがあるが、これらに限定されない。
コンピュータ110は、種々のコンピュータ可読媒体を装備しているのが一般である。コンピュータ可読媒体としては、コンピュータ110によってアクセス可能であれば、どのような媒体でも利用可能であり、その中には揮発性および不揮発性媒体で、取り外し可能および取り外し不能媒体の両方が含まれている。例を挙げると、コンピュータ可読媒体としては、コンピュータ記憶媒体と通信媒体があるが、これらに限定されない。コンピュータ記憶媒体としては、コンピュータ可読情報、データ構造、プログラムモジュールまたはプログラムデータなどの情報をストアしておくためのいずれかの方法またはテクノロジで実現された揮発性および不揮発性で、取り外し可能および取り外し不能の媒体があるが、これらに限定されない。コンピュータ記憶媒体の中には、RAM、ROM、EEPROM、フラッシュメモリや他のメモリテクノロジ、CD−ROM、デジタルバーサタイルディスク(DVD)や他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージや他の磁気ストレージデバイス、または必要とする情報をストアするために使用可能で、コンピュータ110によってアクセス可能である他のどのような媒体も含まれるが、これらに限定されない。通信媒体はコンピュータ可読命令、データ構造、プログラムモジュールまたはその他のデータを、搬送波などの変調データ信号や他のトランスポートメカニズムで具現化しているのが一般であり、その中にはいずれかの情報配信媒体が含まれている。ここで「変調データ信号(modulated data signal)」という用語は、その特性の1つまたは2以上が信号の中の情報を符号化するような形でセットまたは変更されている信号を意味している。例を挙げると、通信媒体には、ワイヤド(有線)ネットワークや直接ワイヤドコネクションなどのワイヤド媒体、および音響、RF、赤外線および他のワイヤレス(無線)媒体などのワイヤレス媒体が含まれているが、これらに限定されない。上記に挙げたものを任意に組み合わせたものも、当然にコンピュータ可読媒体の範囲に含まれる。
システムメモリ130には、リードオンリメモリ(ROM)131やランダムアクセスメモリ(RAM)132などの揮発性および/または不揮発性メモリの形体をしたコンピュータ記憶媒体も含まれる。スタートアップ期間のようにコンピュータ110内のエレメント間で情報を転送するのを支援する基本ルーチンで構成された基本入出力システム(BIOS)133は、ROM131に格納されているのが代表的である。RAM132は、処理ユニット120によって即時にアクセス可能であり、および/または現在処理中であるデータおよび/またはプログラムモジュールを収めているのが一般である。例を挙げると、図1には、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137が示されているが、これらに限定されない。
コンピュータ110は、その他の取り外し可能/取り外し不能の揮発性/不揮発性コンピュータ記憶媒体を装備していることもある。図1には、取り外し不能の不揮発性磁気媒体との間で読み書きするハードディスクドライブ141、取り外し可能の不揮発性磁気ディスク152との間で読み書きする磁気ディスクドライブ151、およびCD−ROMや他の光媒体などの取り外し可能の不揮発性光ディスク156との間で読み書きする光ディスクドライブ155が示されているが、これらは単なる一例である。例示の動作環境で使用できる、その他の取り外し可能/取り外し不能の揮発性/不揮発性コンピュータ記憶媒体しては、磁気テープカセット、フラッシュメモリカード、デジタルバーサタイルディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどがあるが、これらに限定されない。ハードディスクドライブ141は、インタフェース140のような取り外し不能メモリインタフェースを通してシステムバス121に接続されているのが代表的であり、磁気ディスクドライブ151と光ディスクドライバ155は、インタフェース150のような取り外し可能メモリインタフェースによってシステムバス121に接続されているのが代表的である。
上述し、図1に図示のドライブおよびそれぞれの関連コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールおよび他のデータをコンピュータ110のためにストアしている。例えば、図1には、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147をストアするものとして示されている。なお、これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じであることもあれば、異なっていることもある。ここで、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147に異なる番号が付けられているのは、最低限でも、これらが異なるコピーであることを示すためである。
ユーザは、キーボード162などのインプットデバイス、マイクロホン163、およびマウスやトラックボール、タッチパッドなどのポインティングデバイス161を通してコマンドおよび情報をコンピュータ110に入力することができる。その他のインプットデバイス(図示せず)としては、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナなどがある。これらおよびその他のインプットデバイスは、システムバスに結合されたユーザインプットインタフェース160を通して処理ユニット120に接続されていることが多いが、パラレルポートやゲームポート、ユニバーサルシリアルバス(USB)などの他のインタフェースおよびバス構造によって接続されていることもある。モニタ191や他のタイプのディスプレイデバイスも、ビデオインタフェース190のようなインタフェースを介してシステムバス121に接続されている。モニタのほかに、コンピュータは、スピーカ197やプリンタ196などの他の周辺アウトプットデバイスを装備していることもあり、これらはアウトプット周辺インタフェース195を通して接続されていることがある。
コンピュータ110は、リモートコンピュータ180のような1または2以上のリモートコンピュータとの論理的コネクションを使用してネットワーキング環境で操作される。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイスまたは他の共通ノードであることがあり、コンピュータ110に関連して上述したエレメントの多くまたはすべてを備えているのが一般である。図1に図示の論理的コネクションとしては、ローカルエリアネットワーク(LAN)171とワイドエリアネットワーク(WAN)173があるが、その中には、その他のネットワークが含まれていることもある。このようなネットワーキング環境は、オフィス、企業内コンピュータネットワーク、イントラネット、およびインターネットでは普通になっている。
LANネットワーキング環境で使用されるときは、コンピュータ110は、ネットワークインタフェースまたはアダプタ170を通してLAN171に接続されている。WANネットワーキング環境で使用されるときは、コンピュータ110は、インターネットのようなWAN173上の通信を確立するモデム172または他の手段を備えているのが代表的である。モデム172は内蔵型と外付け型があり、ユーザインプットインタフェース160または他の適切なメカニズムを介してシステムバス121に接続されていることがある。ネットワーキング環境では、コンピュータ110に関連して図示されているプログラムモジュールまたはその一部はリモートメモリストレージデバイスにストアされていることがある。例を挙げると、図1には、リモートアプリケーションプログラム185がリモートコンピュータ180上に置かれているものとして示されているが、これに限定されない。以上から理解されるように、図示のネットワークコネクションは例示であり、コンピュータ間の通信リンクを確立する他の手段を使用することも可能である。
本明細書に説明されているワードクラスタリングの応用分野としては、音声認識システムまたは音声アプリケーションがある。図2に示すように、そのような音声認識アプリケーション200の1つとして、閉じたボキャブラリ音声認識コンポーネント(closed vocabulary speech recognition component)202を含んでいるものがあり、そのコンポーネント202には、図示のように、フィーチャエクストラクタ(feature extractor:特徴抽出機能)204、デコーダ206、モデル208および閉じた文法またはレキシコン(closed grammar or lexicon)212が含まれている。ここで閉じたボキャブラリ音声認識コンポーネントとは、コンポーネント202が文法またはレキシコン(lexicon)212の中に見つかったワードまたは音声単位だけを認識することを意味している。これは、音声インプットがいずれかの文法またはレキシコンの中に見つかったどうかに関係なく、最良の推測認識(best guess recognition)をその音声インプットに基づいて出力するディクテーションタイプ(dictation type)の音声認識システムとは対照的である。モデル208の例としては、音響モデル(acoustic model)と言語モデル(language model)があり、フィーチャエクストラクタ204とデコーダ206の例としては、公知の音声認識コンポーネントがあり、これらの詳細なオペレーションは、本システムの範囲を逸脱しない限り大幅に変化することがある。基本的に、音声認識コンポーネント202は、フィーチャエクストラクタ204、閉じた文法212およびモデル208を公知のように使用して、インプット音声信号214を受信し、それをデコーダ206で復号化する。そのあと、コンポーネント202は認識結果216を出力する。
図2に図示のアプリケーションは、閉じたボキャブラリ音声認識コンポーネント202によって認識されなかった音声をログに記録するログ記録(logging)コンポーネント220を含んでいる。ログに記録された未認識音声222は、フリーフォーム(free-form)/ディクテーション音声認識コンポーネント224に与えられる。認識コンポーネント224は、文法またはレキシコン212に見つかったワードに限定されることなく、音声インプットに基づいて音声認識結果226を出力する。従って、コンポーネント224が認識結果226を出力するのは、閉じたボキャブラリ音声認識コンポーネント202から与えられた未認識音声に対してである。音声認識結果226を生成するステップは、図3のフローチャートに具体的に示されている。図示のように、インプット音声信号214は、ステップ230において音声認識コンポーネント202に与えられる。このインプット音声信号214は、ステップ232において閉じた文法またはボキャブラリ212を使用して認識され、閉じたボキャブラリ音声認識コンポーネント202からの未認識音声はステップ234においてログに記録される。ログに記録された未認識音声222は、ステップ236に示すように、フリーフォーム/ディクテーション音声認識コンポーネント224に与えられ、そこで認識される。
ステップ230−236で生成された認識結果226は、図4に示すように、クラスタリングツール(clustering tool)242のためのインプットデータ240(例えば、テキストインプット)となるものである。図4に図示の実施形態では、クラスタリングツール242は、フリーフォーム音声認識結果226を処理してワードクラスタ(word cluster)246を生成するクラスタリングコンポーネント(clustering component)244を含んでいる。ワードクラスタ246とは、インプットデータの中の複数の発言に同時に出現するワードの集合のことである。クラスタリングツール242は、図示の例に示すように、ワードクラスタ246を生成し、出力するためのプルーニングコンポーネント(pruning component)248、マージコンポーネント(merge component)250および報告(reporting component)252も含んでいる。
プルーニングコンポーネント248とマージコンポーネント250はクラスタを生成するためにクラスタリングツール242によって使用される。プルーニングコンポーネント248は、クラスタリングコンポーネント244から出力されたクラスタを、1または2以上のプルーニング基準(pruning criteria)に基づいてプルーニング(枝取り)する構成になっている。マージコンポーネント250は、クラスタリングコンポーネント244によって生成されたクラスタを、類似性メトリック(similarity metric)256に基づいてマージする。図示の実施形態では、プルーニング基準254の中に、出現頻度しきい値(frequency threshold)260、コンパクトネス設定値(compactness setting)262、およびトリビアルワードリスト(trivial word list)264を含めることができる。この基準254は、比較的関係のないデータを統計的に除去するために使用される。プルーニングされ、マージされたデータは、ワードクラスタ246を報告するために報告コンポーネント252に与えられる。
以上から理解されるように、図4には3つのプルーニング基準260、262、264が示されているが、アプリケーションは3つのプルーニング基準に限定されるものでも、開示された3つのプルーニング基準を必要とするものでもない。プルーニングとマージングは以下に詳しく説明されている。
図示の実施形態では、クラスタリングツール242によって報告されたクラスタ246は、文法生成コンポーネント(grammar generator component)266に与えられる。この文法生成コンポーネント266は、望みのクラスタ246を組み入れるように、閉じたボキャブラリ音声認識コンポーネント202の閉じた文法またはレキシコン212を更新するために使用することができる。図示のように、文法生成コンポーネント266は、更新前の文法212を受け取り、文法またはレキシコン212およびどのクラスタ246を文法212に組み入れるかを選択したユーザセレクションインプット272に基づいて、更新した文法またはレキシコン270を生成する。
図5は、クラスタリングコンポーネント244の一実施形態の詳細を示すブロック図である。図5に図示の実施形態では、クラスタリングコンポーネント244は、インプットデータ240からクラスタを同時出現ワード組み合わせとして生成するために、ワード出現ベクトルジェネレータ(word occurrence vector generator)290、ワード同時出現ベクトルジェネレータ(work co-occurrence vector generator)292およびベクトルドット積コンポーネント(vector dot product component)294を含んでいる。
図6は、クラスタリングコンポーネント244のオペレーションの一実施形態を示すフロー図である。図6のステップ300に示すように、インプットデータ240はクラスタリングコンポーネント244に与えられる。例示のように、インプットデータ240には、1または2以上のワードを含む複数の発言(utterance)または音声エントリが含まれている。複数のワード発言または音声エントリを含む例示インプットデータ240は、下表Iに示されている。
Figure 0005214461
ステップ302に示すように、ワード出現ベクトル(word occurrence vector WOC)は、インプット音声データ240の中に見つかったワードごとにワード出現ベクトルジェネレータ290によって生成される。このワード出現ベクトル(WOV)は、v=(v1, v2,..,vi,…,vn)として表わすことができる。ただし、nはインプットデータ240の中の発言またはエントリの数であり、vはその出現ベクトルに対応するワードが対応する発言の中に出現しているかどうかに応じて“1”か“0”のどちらかである。
以上のように、表Iのインプットデータの場合、ワード“company”、“store”、“property”および“the”の各々に対するワード出現ベクトルは下表IIに示されている。
Figure 0005214461
従って、ワード“company”の場合、ワード出現ベクトルは、表I中のエントリまたは発言(番号1−5)の各々にワード“company”が現れているので、v= (1,1,1,1,1)になっている。ワード“store”に対するワード出現ベクトルは、ワード“store”が一番目、二番目および四番目の発言に現れ、三番目と五番目の発言に現れていないので、v=(1,1,0,1,0)になっている。以下、同様である。
ステップ304において、ベクトルドット積はペアのワード出現ベクトルの間で計算され、インプットデータ240の中のワードペアのすべてについてクラスタまたはワード同時出現マトリクスMが生成される。ワード出現マトリクスMのワード同時出現マトリクス要素Mi,jは、インプットデータの中のワードiとjの同時出現を表わしている。ただし、iとjは各々インプットデータの中のワードペアのワードを表わしている。
例えば、ワード出現ベクトルvとvをもつワードiとjの場合、ドット積
Figure 0005214461
は、n個の発言またはエントリの各々の中のワードiとjのすべての共同出現(joint occurrence)の総和である。従って、ベクトルドット積からは、ワードiとjがインプットデータの中に共同して現れる回数が得られる。これらのワードがどの発言にも共同で現れない場合は、そのドット積はゼロであり、このことは、これらの2ワードがクラスタまたはワード組み合わせを形成していないことを意味している。
ワード同時出現マトリクスMが左右対称であるのは、ベクトルドット積が交換可能(commutative)であるため、処理がマトリクスの上位または下位三角形部分に限定されているからである。この処理の複雑さを単純化するために、マトリクスMの対角線上の位置を計算しないで済んでいるのは、通常、反復ワードクラスタ、例えば、下表III中のワードクラスタ“the”と“the”が認識エラーに起因しているからである。Mの対角線から外れた上位三角部分、つまり、Mi,j(ただし、j>i)だけが2ワードクラスタのすべてを見つけるために計算され、同じワードを複数回繰り返すことによって形成されるクラスタは除外されている。同時出現マトリクスのマトリクス要素Mi,jの値は、ワードiとjの同時出現の頻度、つまり、インプットデータの中のワードクラスタ(i,j)の出現頻度である。
従って、表Iのインプットデータ240の場合、その同時出現マトリクスは、下表IIIに示すとおりである。
Figure 0005214461
図6のステップ305に示すように、ステップ304で見つかったワードクラスタ(i,j)は、計算負荷を低減し、計算スピードを向上するために、出現頻度しきい値260(図4に図示)に基づいてプルーニングされる。具体的には、クラスタデータは、発言の集合に一度だけ現れるものでも、すべてのワードクラスタを含んでいるので、プルーニングコンポーネント248は、クラスタが最小限の回数だけ表れるようにするために、図示のように最小しきい値を使用する。例えば、上表IIIにおいて、クラスタ“the”と“property”がプルーニングされるのは、そのクラスタが最小出現頻度しきい値260を満たしていないからである。しきい値を高く設定すると、直接に計算負荷が低減され、実行時間が高速化されることになる。しきい値264は、望み通りに、ユーザがインプットすることも、事前にプログラムすることもできる。
ワード同時出現ベクトル(WCV)は、ブロック306に示すような出現頻度しきい値を持つ2ワードクラスタごとに生成される。次に、ワード同時出現ベクトル(WCV)またはクラスタは、ブロック308に示すようにリストに付加される。ワード同時出現ベクトル(WCV)、つまり、vj..kは、最小クラスタサイズしきい値260より大でもある、非ゼロのマトリクス要素Mi,jについて、ワード同時出現ベクトルv−vに対してAND(または同等のスカラ乗算)演算子を適用することによってステップ306で生成され、パイ積方程式1に示すようにワードペアの同時出現ベクトルが生成される。
Figure 0005214461
WCVvj..kのすべての要素を総和すると、番号がjからkまでのすべてのワードからなるワードクラスタの出現頻度が得られる。
表Iと表IIIのインプットデータとマトリクス要素のワード同時出現ベクトルは、下表IVに示されている。
Figure 0005214461
ステップ304−308のプロセスは、ブロック310に示すようにリストに追加される追加のワード同時出現ベクトルまたはクラスタがなくなるまで繰り返されて、追加のワード組み合わせ(3ワード、4ワードなど)が生成される。具体的には、ベクトルドット積は各々ワード同時出現ベクトルについて計算される。ベクトルドット積
Figure 0005214461
からは、n個の発言の集合に対して取られたワードクラスタ(j...k-1)およびワードkの結合出現(joint occurrence)のすべての総和が得られる。これにより、より大きなワードクラスタ(j...k)が得られ、ドット積の結果はその大きなクラスタの出現頻度に等しくなっている。
言い換えれば、ステップ306の各WCVj..k-1について、WOVを倍にすると、追加のクラスタを見つけるために最小クラスタサイズしきい値より大きな非ゼロのドット積が得られるかどうかを確かめるチェックが行なわれる。以上から理解されるように、WCVj..kがゼロのベクトルであること(つまり、クラスタでないこと)を推量するには、WCMマトリクス要素Mj,k…r-1,kの中からシングルゼロを見つけるだけで十分である。このようなケースでは、ベクトルのANDをとる必要がない。さらに、より大きなユニーククラスタすべてを列挙するために拡張する必要があるのは、上位ハイパ三角形(upper hyper-triangle)だけである。
また、以上から理解されるように、クラスタリングツール242は、nxn個の同時出現マトリクスではなく、より大きなクラスタをストアするリストデータ構造を実現することができる。これは、より大きなクラスタがまばらになる可能性があり、そのためリストデータ構造の方が効率的であるためである。
上述したクラスタリングコンポーネント244からは、2、3およびそれ以上のワード組み合わせを含むクラスタまたはワード組み合わせの存在と出現頻度が得られる。上述したクラスタリングコンポーネント244では、すべての演算はビット単位(bit-wise)のANDと加算を用いて実行することができる。このことは、アルゴリズムが非常に高速になり、本質的に並列演算で実現され、スケーラブルにできることを意味している。例えば、64ワードベクトルは、64ビット幅の実装で並列に処理することができる。
上述したようにクラスタが形成されるとき、またはクラスタが形成されたあと、クラスタはプルーニング基準254(図4に図示)に基づいてプルーニングされる。追加のプルーニング機能は、図7に図示のフロー図を参照して詳しく説明されている。
ステップ324において、プルーニングコンポーネント248は、図示のようにコンパクトネス設定値または制約条件(constraint)262を使用して、同時出現ワードが相互に近接していないクラスタを除去またはプルーニングする。一般的に、インプット発言の中で相互に近接していない同時出現ワードは、より信頼できるクラスタを形成すると考えられている。従って、プルーニングコンポーネント248はワード位置データを利用して、同時出現ワードがコンパクトネス設定値内にない(すなわち、コンパクトネス設定値で示された相互の所定数のワード内にない)クラスタをプルーニングする。
ステップ326において、プルーニングコンポーネント248は、図示のようにトリビアルワードまたはクラスタ(例えば、“a [X][X]and”)のデータストアを使用して、アウトプットクラスタを散乱させるクラスタデータを低減する。これとは対照的に、プルーニングコンポーネント248は、“I am”、“yes, thanks”などように、有効なクラスタの可能性があるクラスタを除去しない。
クラスタリングコンポーネント244によって生成され、プルーニングコンポーネント248によってプルーニングされた類似クラスタは、図7のステップ328に示すようにマージされる。クラスタは、二次的クラスタが単に一次的クラスタの誤表現または誤スペリングであるとの可能性に基づいてプルーニングされる。このことがよく起るのは、あるスペリングまたはフレーズ形式が、例えば、“wheel”と“reel”のように、別のスペリングまたはフレーズ形式と音響的に非常に似ている音声認識においてである。別の例として、“company still”は“company store”の誤表現となることがある。
マージの対象となるクラスタを特定する方法には、種々のものがある。類似クラスタをマージする一実施形態では、(認識ラティス(recognition lattice)におけるように)音声認識システムによって出力された交互認識(alternate recognitions)のリスト(またはn最良リスト)がレビューされている。別の実施形態では、類似性または距離メトリックは、音響的類似性または混同性に基づいてクラスタ間の類似性または距離を特定するように実現されている。クラスタは、類似性または距離しきい値に基づいてマージされる。
例えば、n個の発言に対する主要認識結果の集合はR = {r1,r2,...,rn}で表わされ、クラスタリングコンポーネント244によって形成されたクラスタはC = {c1,c2,...,cp}で表わされたとする。任意の所与の認識結果rの交互認識結果の集合はAlt(r1)で表わされる。新しいpxp正方形マトリクスが作成され、初期にはすべてがゼロであるマージ可能性マトリクス(merge likelihood matrix)と名付けられている。この交互認識結果は、∀p,q:q∈Alt(p)∧p∈C∧q∈Cによって得られるマージ可能性マトリクスのマージマトリクス要素MLMijを生成するために処理される。マージマトリクスの対応するマージ要素がセットしたしきい値を超えているクラスタ(i, j)、すなわち、∀i,j:MLMi,j>Threshold→Merge(i,j)がマージされる。
マージされたクラスタは、マージされた2クラスタのうち大きい方、例えば、出現頻度が最も大きいクラスタのラベルを用いてラベルが付けられ(すなわち、認識ストリング)、出現数/出現頻度はマージされるクラスタの出現頻度の和である。なお、左右対称であるために、マージ可能性マトリクスMLMの対角線から外れた上位(または下位)三角形要素だけが処理される。
別の実施形態では、クラスタは、クラスタが音響的にどれだけ混同しているかの類似性メトリックを使用して音響的類似性に基づいてマージされる。すべてのクラスタのペアは、音響的類似性メトリックに基づいて評価され、非常に類似しているクラスタがマージされる。これは、マージすべきクラスタがなくなるまで繰り返し行なわれる。音響的類似性または距離および音響的混同性を計算する種々のシステムは公知であるので、詳細に説明することは省略する。
報告コンポーネント252は、クラスタリングコンポーネント244によって生成されたクラスタを報告する。一実施形態では、報告コンポーネント252は2または複数のワードクラスタのすべての存在および出現頻度を報告する(すなわち、非ゼロのマトリクス要素を記録することにより)。各クラスタには、図7のステップ330に示すように、クラスタ内のワードに基づいて報告コンポーネント252によってラベルが付けられる。
一実施形態では、報告コンポーネント252はワード位置情報(word position information)を利用してクラスタにラベルを付ける。例えば、インプットデータが“elevator not working”の10の発言を含むコールログからの場合には、クラスタリングコンポーネントは、ワードの順序に関係なく“working”、“not”および“elevator”の組み合わせが現れる10個のインスタンスを見つける。報告コンポーネント252はワード位置情報を利用して、クラスタ10: “elevator not working”を出力するか、あるいはラベルを付けてクラスタのワード順序が得られるようにする。
ワード順序は、クラスタデータの中でワードクラスタ間で異なることがある。例えば、インプットデータに“elevator not working”が10回出現し、“not working elevator”が1回出現している場合は、クラスタリングコンポーネント244は、“elevator not working”と“not working elevator”の両方の発言に対して“not”、“elevator”および“working”のワーク組み合わせのクラスタを見つける。
報告コンポーネント252は、最も頻繁なまたは最も安定したワード順序を使用して、クラスタを報告し、またはクラスタにラベルを付けるように構成することができる。従って、図示の実施形態では、報告コンポーネント252は、9:“elevator not working”および1:“not working elevator”のように、2つのフラグメント化クラスタを報告するのではなく、10:“elevator not working”のラベルを付けたシングルクラスタを報告する。
ワードクラスタには、クラスタワードとクラスタワードの間に現れる中間クラスタワードを含めることができる。例えば、次のように発言集合からのワード“building”および“reception”を含むクラスタの場合、
1) “building one reception”
2) “building two reception”
3) “building four reception”
報告コンポーネント252はワード位置情報を使用して、“building”と“reception”の間に“ワイルドカードワード”があることを判断する。従って、クラスタは“cluster 3:Building [X]reception”として報告される。
ワード順序とワイルドカードは、クラスタの中の発言について異なることがある。一実施形態では、報告コンポーネント252は統計的プロセスを利用して、クラスタについて統計的により関係のあるワード順序またはワイルドカード位置と番号にラベルを付ける。例えば、データ集合の中に20回現れるワード“travel”および“Florida”の2ワードクラスタの場合、ワード“travel”がワード“Florida”の2ワード前に20回のうち18回現れ、すなわち、18:(“travel”[x][x]“Florida”)であり、およびワード“Florida”がワード“travel”の1ワード前に1回現れ、すなわち、1:(“Florida”[x]“travel”)であり、ワード“travel”の3ワード前に1回現れ、すなわち、1:(“Florida”[x][x][x] “travel”)の場合には、「平均」位置が次のクラスタラベル、すなわち、20:(“travel”[X][X]“Florida”で報告される。
このコンポーネントは、バブルソート(bubble sort)または他の適当なソートを利用して、次の相対位置を処理することができる。これにより、ラベル付けが最も頻繁な相対順序で行なわれることが保証される。
例えば、上記クラスタのワード“travel”および“Florida”の場合、関連のワード順序は次のように判断される。
ワード“Florida”の平均/予想相対位置(出現頻度x位置の総和)を次のように判断する。すなわち、18 x 4 + 2 x 1 = 72 + 2 = 74
ワード“travel”の平均/予想相対位置(出現頻度x位置の総和)を次のように判断する。すなわち、18 x 1 + 1 x 2 + 1 x 5 = 25
“travel”の平均相対位置は“Florida”よりも低いので、相対順序付け(バブルソートによって判断された)は“travel”、“Florida”となる。
次に、ワード“travel”と“Florida”の間のワイルドカードの平均/予想数が次のように(ワイドルカードの数の総和x出現頻度)/(クラスタの数)に基づいて判断される。すなわち、2 x 18 1 x 1 3 x 1)/20 = 1.6。これは2に丸められる。
従って、クラスタの最終的クラスタラベルは(“travel”[X][X]“Florida”となる。
以上、n個のセンテンスまたは発言の集合の中に現れるサイズ2またはそれ以上のすべての既存ワードクラスタを見つける方法を説明してきた。この方法の実施形態の応用例として音声認識システム用に文法外の発言クラスタを判断する場合があるが、本発明はこの特定応用例に限定されない。
本発明の主題を構造上の特徴および/または方法上のアクトに特有の用語で説明してきたが、当然に理解されるように、請求項に記載された主題は上述した特定の特徴またはアクトに必ずしも限定されない。むしろ、上述した特定の特徴とアクトは請求項に記載の主題を実現する形態例として開示されたものである。
本発明の実施形態を使用または実現することができるコンピューティング環境の実施形態の一例を示すブロック図である。 音声認識アプリケーションの実施形態を示すブロック図である。 図4のクラスタリングツールのためにデータを生成するステップを示すフローチャートである。 インプットデータの中のワードクラスタを特定するためのクラスタリングツールの実施形態を示すブロック図である。 図4のクラスタリングツールのクラスタリングコンポーネントの実施形態を示すブロック図である。 インプットデータからワードクラスタを生成するステップを示すフローチャートである。 ワードクラスタを報告する事後処理ステップを示すフローチャートである。

Claims (9)

  1. コンピュータ実装可能のクラスタリングツールであって、該クラスタリングツールは、
    複数の入力発言を示すインプットデータを受信し、前記インプットデータの中の発言に同時に出現する、少なくとも2以上のワードを示すワードクラスタを生成するように構成されたクラスタリングコンポーネントであって、前記クラスタリングコンポーネントは、
    前記インプットデータを処理して、前記インプットデータの中の1または複数のワードの組それぞれについて、少なくとも1つのワード出現ベクトルまたはワード同時出現ベクトルv=(v1,v2)を生成するワード出現ベクトル・ワード同時出現ベクトルジェネレータであって、前記v1は前記インプットデータの第1の入力発言に対応し、前記v2は前記インプットデータの第2の入力発言に対応し、前記vが、前記1または複数のワードの組のうち、所定のワードまたは所定のワードの組についてのものであるとき、前記v1当該所定のワードまたは所定のワードの組が前記第1の入力発言に出現しているかどうかに応じて1か0のいずれかであり、前記v2当該所定のワードまたは所定のワードの組が前記第2の入力発言に出現しているかどうかに応じて1か0のいずれかである、ワード出現ベクトル・ワード同時出現ベクトルジェネレータと、
    少なくとも2つのワード出現ベクトルまたはワード同時出現ベクトルを受信し、前記少なくとも2つのワード出現ベクトルまたはワード同時出現ベクトル間のベクトルドット積を計算し、上位三角部分、下位三角部分、および複数の対角線上の位置を有する左右対称のワード同時出現マトリクスを生成し、前記少なくとも2つのワード出現ベクトルまたはワード同時出現ベクトルのワードの同時出現の頻度を提供するベクトルドット積コンポーネントであって、前記ワード同時出現マトリクスの処理は、前記マトリクスの前記上位三角部分または前記下位三角部分に限定され、認識エラーに起因する反復ワードクラスタを除外するために前記複数の対角線上の位置は計算されない、ベクトルドット積コンポーネントと
    を含み、
    前記ベクトルドット積コンポーネントの出力を処理し、前記複数の入力発言中で出現頻度しきい値を超える、前記少なくとも2以上のワードの同時出現について前記ワードクラスタを出力するクラスタリングコンポーネントと、
    前記クラスタリングコンポーネントから前記出力されたワードクラスタを受信し、前記出現頻度しきい値を超える前記出力されたワードクラスタについて文法要素を生成し、音声認識コンポーネントによって使用される閉じた文法要素の集合に、前記ワードクラスタの前記文法要素を追加するよう構成された文法生成コンポーネントと
    を備えたことを特徴とするクラスタリングツール。
  2. 請求項1に記載のクラスタリングツールにおいて、類似性メトリックに基づいてワードクラスタをマージするマージコンポーネントをさらに備えたことを特徴とするクラスタリングツール。
  3. 請求項1に記載のクラスタリングツールにおいて、プルーニング基準に基づいてワードクラスタをプルーニングするプルーニングコンポーネントをさらに備えたことを特徴とするクラスタリングツール。
  4. 請求項1に記載のクラスタリングツールにおいて、ワードクラスタに含まれる各ワードの位置情報を利用して、ワードクラスタに最も頻繁なワード順序を示すラベルを付ける報告コンポーネントをさらに含むことを特徴とするクラスタリングツール。
  5. インプットデータの中の発言に同時に出現する、少なくとも2以上のワードを示すワードクラスタを生成するコンピュータによって実施する方法であって、
    複数の入力発言を示すインプットデータを受信するステップと、
    前記インプットデータの中の1または複数のワードの組それぞれについて、少なくとも1つのワード出現ベクトルまたはワード同時出現ベクトルv=(v1,v2)を生成するステップであって、前記v1は前記インプットデータの第1の入力発言に対応し、前記v2は前記インプットデータの第2の入力発言に対応し、前記vが、前記1または複数のワードの組のうち、所定のワードまたは所定のワードの組についてのものであるとき、前記v1当該所定のワードまたは所定のワードの組が前記第1の入力発言に出現しているかどうかに応じて1か0のいずれかであり、前記v2当該所定のワードまたは所定のワードの組が前記第2の入力発言に出現しているかどうかに応じて1か0のいずれかである、ステップと、
    少なくとも2つのワード出現ベクトルまたはワード同時出現ベクトル間のベクトルドット積を計算して、上位三角部分、下位三角部分、および複数の対角線上の位置を有する左右対称のワード同時出現マトリクスを生成し、前記少なくとも2つのワード出現ベクトルまたはワード同時出現ベクトルのワードの同時出現の頻度を提供するステップであって、前記ワード同時出現マトリクスの処理は、前記マトリクスの前記上位三角部分または前記下位三角部分に限定され、認識エラーに起因する反復ワードクラスタを除外するために前記複数の対角線上の位置は計算されない、ステップと、
    前記複数の入力発言中で出現頻度しきい値を超える、前記少なくとも2以上のワードの同時出現についてワードクラスタを生成するステップと、
    前記生成されたワードクラスタについて文法要素を生成し、音声認識コンポーネントによって使用される閉じた文法要素の集合に、前記ワードクラスタの前記文法要素を追加するステップと
    を含むことを特徴とする方法。
  6. 請求項5に記載の方法において、さらに
    閉じたボキャブラリ音声認識コンポーネントからの未認識音声データをログに記録するステップと、
    フリーフォーム音声認識システムを使用して前記ログに記録された音声データを認識してインプットデータを出力するステップと、
    を含むことを特徴とする方法。
  7. 請求項5に記載の方法において、さらに
    ワードクラスタに含まれる各ワードの位置情報を利用して、最も頻繁なワード順序を示すラベルと出現頻度を含むワードクラスタを出力するステップを含むことを特徴とする方法。
  8. 請求項7に記載の方法において、さらに
    ワードクラスタを出力する前にクラスタデータをプルーニングするステップを含むことを特徴とする方法。
  9. 請求項5に記載の方法において、さらに
    類似ワードクラスタをマージするステップを含むことを特徴とする方法。
JP2008541262A 2005-11-18 2006-11-14 インプットデータに対するワードクラスタリング Expired - Fee Related JP5214461B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/283,149 US8249871B2 (en) 2005-11-18 2005-11-18 Word clustering for input data
US11/283,149 2005-11-18
PCT/US2006/044080 WO2007061674A1 (en) 2005-11-18 2006-11-14 Word clustering for input data

Publications (2)

Publication Number Publication Date
JP2009516233A JP2009516233A (ja) 2009-04-16
JP5214461B2 true JP5214461B2 (ja) 2013-06-19

Family

ID=38054607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008541262A Expired - Fee Related JP5214461B2 (ja) 2005-11-18 2006-11-14 インプットデータに対するワードクラスタリング

Country Status (6)

Country Link
US (1) US8249871B2 (ja)
EP (1) EP1922653B1 (ja)
JP (1) JP5214461B2 (ja)
KR (1) KR101411113B1 (ja)
CN (1) CN101310273A (ja)
WO (1) WO2007061674A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US9245526B2 (en) * 2006-04-25 2016-01-26 General Motors Llc Dynamic clustering of nametags in an automated speech recognition system
US8050929B2 (en) * 2007-08-24 2011-11-01 Robert Bosch Gmbh Method and system of optimal selection strategy for statistical classifications in dialog systems
JP5284685B2 (ja) 2008-05-16 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション ファイルの再配置装置、再配置方法、及び再配置プログラム
WO2009146719A1 (en) 2008-06-03 2009-12-10 Eth Zurich Method and system for generating a pictorial reference database using geographical information
US8965896B2 (en) * 2009-12-22 2015-02-24 Nec Corporation Document clustering system, document clustering method, and recording medium
WO2011090790A1 (en) 2010-01-22 2011-07-28 Thomson Licensing Methods and apparatus for sampling -based super resolution vido encoding and decoding
CN102726044B (zh) * 2010-01-22 2016-08-10 汤姆逊许可证公司 使用基于示例的超分辨率的用于视频压缩的数据剪切
US8447604B1 (en) * 2010-04-12 2013-05-21 Adobe Systems Incorporated Method and apparatus for processing scripts and related data
US8645136B2 (en) * 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
US9544598B2 (en) 2010-09-10 2017-01-10 Thomson Licensing Methods and apparatus for pruning decision optimization in example-based data pruning compression
WO2012033970A1 (en) 2010-09-10 2012-03-15 Thomson Licensing Encoding of a picture in a video sequence by example - based data pruning using intra- frame patch similarity
US8650031B1 (en) * 2011-07-31 2014-02-11 Nuance Communications, Inc. Accuracy improvement of spoken queries transcription using co-occurrence information
EP2829049B1 (en) 2012-03-23 2021-05-26 Dolby Laboratories Licensing Corporation Clustering of audio streams in a 2d/3d conference scene
US9373031B2 (en) 2013-03-14 2016-06-21 Digitech Systems Private Reserve, LLC System and method for document alignment, correction, and classification
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9462456B2 (en) 2014-11-19 2016-10-04 Qualcomm Incorporated Method and apparatus for creating a time-sensitive grammar
US9928232B2 (en) 2015-02-27 2018-03-27 Microsoft Technology Licensing, Llc Topically aware word suggestions
US9990268B2 (en) * 2015-03-30 2018-06-05 Infosys Limited System and method for detection of duplicate bug reports
US10140285B2 (en) * 2016-06-15 2018-11-27 Nice Ltd. System and method for generating phrase based categories of interactions
CN110516902B (zh) * 2019-07-11 2023-08-22 平安科技(深圳)有限公司 一种智能调度方法、装置、计算机系统及可读存储介质
US11176924B2 (en) * 2020-01-09 2021-11-16 International Business Machines Corporation Reduced miss rate in sound to text conversion using banach spaces

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0444165A (ja) * 1990-06-12 1992-02-13 Nec Corp 対称連立一次方程式の求解方式
EP0645757B1 (en) * 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
JP2836521B2 (ja) 1995-03-24 1998-12-14 日本電気株式会社 文章自動分類システム
US6173261B1 (en) * 1998-09-30 2001-01-09 At&T Corp Grammar fragment acquisition using syntactic and semantic clustering
US5828999A (en) * 1996-05-06 1998-10-27 Apple Computer, Inc. Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems
US5842161A (en) * 1996-06-25 1998-11-24 Lucent Technologies Inc. Telecommunications instrument employing variable criteria speech recognition
US5991712A (en) * 1996-12-05 1999-11-23 Sun Microsystems, Inc. Method, apparatus, and product for automatic generation of lexical features for speech recognition systems
US6356864B1 (en) * 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
US6021384A (en) * 1997-10-29 2000-02-01 At&T Corp. Automatic generation of superwords
US6243680B1 (en) * 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6826556B1 (en) * 1998-10-02 2004-11-30 Ncr Corporation Techniques for deploying analytic models in a parallel
US6411930B1 (en) * 1998-11-18 2002-06-25 Lucent Technologies Inc. Discriminative gaussian mixture models for speaker verification
US6317707B1 (en) * 1998-12-07 2001-11-13 At&T Corp. Automatic clustering of tokens from a corpus for grammar acquisition
US6415248B1 (en) * 1998-12-09 2002-07-02 At&T Corp. Method for building linguistic models from a corpus
US6385579B1 (en) * 1999-04-29 2002-05-07 International Business Machines Corporation Methods and apparatus for forming compound words for use in a continuous speech recognition system
JP2001101194A (ja) 1999-09-27 2001-04-13 Mitsubishi Electric Corp テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムが記録された記録媒体
US6751621B1 (en) * 2000-01-27 2004-06-15 Manning & Napier Information Services, Llc. Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
JP3428554B2 (ja) 2000-02-29 2003-07-22 日本電気株式会社 意味ネットワーク自動作成装置及びコンピュータ可読記録媒体
CN1174332C (zh) * 2000-03-10 2004-11-03 松下电器产业株式会社 转换表达方式的方法和装置
US6782357B1 (en) 2000-05-04 2004-08-24 Microsoft Corporation Cluster and pruning-based language model compression
US6578032B1 (en) * 2000-06-28 2003-06-10 Microsoft Corporation Method and system for performing phrase/word clustering and cluster merging
US7389234B2 (en) * 2000-07-20 2008-06-17 Microsoft Corporation Method and apparatus utilizing speech grammar rules written in a markup language
JP2002041544A (ja) * 2000-07-25 2002-02-08 Toshiba Corp テキスト情報分析装置
US6925432B2 (en) * 2000-10-11 2005-08-02 Lucent Technologies Inc. Method and apparatus using discriminative training in natural language call routing and document retrieval
US6763331B2 (en) * 2001-02-01 2004-07-13 Matsushita Electric Industrial Co., Ltd. Sentence recognition apparatus, sentence recognition method, program, and medium
US6856957B1 (en) * 2001-02-07 2005-02-15 Nuance Communications Query expansion and weighting based on results of automatic speech recognition
US7124081B1 (en) * 2001-09-28 2006-10-17 Apple Computer, Inc. Method and apparatus for speech recognition using latent semantic adaptation
JP2003288362A (ja) 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
JP2004164036A (ja) * 2002-11-08 2004-06-10 Hewlett Packard Co <Hp> 文書の共通性評価方法
JP2004252775A (ja) 2003-02-20 2004-09-09 Nippon Telegr & Teleph Corp <Ntt> 単語抽出装置、単語抽出方法およびプログラム
US7289956B2 (en) 2003-05-27 2007-10-30 Microsoft Corporation System and method for user modeling to enhance named entity recognition
WO2005081443A1 (en) * 2004-02-25 2005-09-01 Ntt Docomo, Inc. Apparatus and method for sequence estimation using multiple-input multiple -output filtering
US7254774B2 (en) * 2004-03-16 2007-08-07 Microsoft Corporation Systems and methods for improved spell checking
US7620539B2 (en) * 2004-07-12 2009-11-17 Xerox Corporation Methods and apparatuses for identifying bilingual lexicons in comparable corpora using geometric processing
US7379870B1 (en) * 2005-02-03 2008-05-27 Hrl Laboratories, Llc Contextual filtering
US7805300B2 (en) * 2005-03-21 2010-09-28 At&T Intellectual Property Ii, L.P. Apparatus and method for analysis of language model changes
JP4524640B2 (ja) * 2005-03-31 2010-08-18 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7672833B2 (en) * 2005-09-22 2010-03-02 Fair Isaac Corporation Method and apparatus for automatic entity disambiguation
US7590626B2 (en) * 2006-10-30 2009-09-15 Microsoft Corporation Distributional similarity-based models for query correction

Also Published As

Publication number Publication date
KR101411113B1 (ko) 2014-06-25
CN101310273A (zh) 2008-11-19
JP2009516233A (ja) 2009-04-16
EP1922653B1 (en) 2012-12-26
EP1922653A1 (en) 2008-05-21
EP1922653A4 (en) 2011-09-28
WO2007061674A1 (en) 2007-05-31
KR20080073298A (ko) 2008-08-08
US8249871B2 (en) 2012-08-21
US20070118376A1 (en) 2007-05-24

Similar Documents

Publication Publication Date Title
JP5214461B2 (ja) インプットデータに対するワードクラスタリング
US7813926B2 (en) Training system for a speech recognition application
US7634406B2 (en) System and method for identifying semantic intent from acoustic information
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US9292487B1 (en) Discriminative language model pruning
US7844456B2 (en) Grammar confusability metric for speech recognition
JP4724377B2 (ja) 自然言語理解(NLU)システムにおける規則ベース文法に関するスロットおよび前終端記号(preterminal)に関する統計モデル
US7636657B2 (en) Method and apparatus for automatic grammar generation from data entries
TWI377561B (en) Natural language business system and method based on unisolated performance metric
JP4528535B2 (ja) テキストから単語誤り率を予測するための方法および装置
US20060277033A1 (en) Discriminative training for language modeling
WO2010021368A1 (ja) 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US20050203739A1 (en) Generating large units of graphonemes with mutual information criterion for letter to sound conversion
US20060009965A1 (en) Method and apparatus for distribution-based language model adaptation
US7392186B2 (en) System and method for effectively implementing an optimized language model for speech recognition
US7401019B2 (en) Phonetic fragment search in speech data
JP2004341520A (ja) 音声認識方法
KR20230006625A (ko) Wfst의 최적화를 이용하는 음성 인식 장치 및 음성 인식 방법
JP2004198597A (ja) 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
Ogawa et al. Error type classification and word accuracy estimation using alignment features from word confusion network
JP4826719B2 (ja) 音声認識システム、音声認識方法、および音声認識プログラム
JP2886121B2 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP2004101963A (ja) 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム
Ma et al. Recognize foreign low-frequency words with similar pairs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130227

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees