JP4499389B2 - 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 - Google Patents

音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 Download PDF

Info

Publication number
JP4499389B2
JP4499389B2 JP2003310666A JP2003310666A JP4499389B2 JP 4499389 B2 JP4499389 B2 JP 4499389B2 JP 2003310666 A JP2003310666 A JP 2003310666A JP 2003310666 A JP2003310666 A JP 2003310666A JP 4499389 B2 JP4499389 B2 JP 4499389B2
Authority
JP
Japan
Prior art keywords
cluster
tokens
decision tree
token
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003310666A
Other languages
English (en)
Other versions
JP2004094257A (ja
Inventor
アイ.チェルバ チプリアン
アイ.モートン レイチェル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004094257A publication Critical patent/JP2004094257A/ja
Application granted granted Critical
Publication of JP4499389B2 publication Critical patent/JP4499389B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明はデシジョン・ツリーに関する。より詳細には、本発明は、音声処理(speech processing)で使用されるデシジョン・ツリーにおいて見いだされる質問を自動的に生成することに関する。
デシジョン・ツリーは、ルート・ノードで開始し、1つまたは複数のリーフ・ノードで終了する、接続されたノードのセットである。リーフ・ノードを除いて、ツリーの各ノードは関連付けられた質問、および、そのノードの下に広がる子ノードのセットを有する。デシジョン・ツリーは、ノードの質問に応答することおよびその応答に基づいて子ノードの1つを選択することによって、トラバース(通過)される。この質問応答は、ツリーがルート・ノードからリーフ・ノードの1つにトラバースされるまで継続する。
音声認識(speech recognition)では、音声(speech)を復号化するために必要とされる音響モデルの数を減らすために、このようなデシジョン・ツリーが使用されてきた。詳細には、デシジョン・ツリーは、ツリーのリーフ・ノードにおいてトライフォン状態をまとめてグループ化するために使用されてきた。その結果、各トライフォン状態について別々のモデルを設けるのではなく、リーフ・ノードにおけるすべてのトライフォン(triphones)について単一の音声モデル(phonetic model)を設けることができる。
デシジョン・ツリーはまた、言葉の発音(pronunciations)を識別するためにも使用されてきた。このようなデシジョン・ツリーでは、リーフ・ノードは所与の文脈における文字の代替発音を含み、ツリーにおける質問は、入力文字の所与の組み合わせについてどのリーフ・ノードがアクセスされるべきであるかを決定する。
従来、音声処理のデシジョン・ツリーで使用される質問の開発には、詳細な言語的知識(linguistic knowledge)が必要とされた。いくつかの言語では、この知識は言語の研究から得られた音声特性(phonetic characteristics)に基づいて質問を精密に作る言語の専門家から入手可能である。
Malcolm A. Gleser and Morris F. Collen, "Towards Automated Medical Decisions," Computers and Biomedical Research, 5(2):180-189(April 1972). Ishwar Krishnan Sethi and G.P.R. Sarvarayudu, "Heirarchical Classifier Design Using Mutual Information, "IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-4(4):441-445(July 1982) Jan L. Talmon, "A Multiclass Nonparametric Partitioning Algorithm, "Pattern Recognition Letters, 4:31-38(1986).
しかし、このような専門的知識はすべての言語について入手可能ではなく、開発には高い費用を要するであろう。その結果として、デシジョン・ツリーの質問を生成することは、多数の言語用のデシジョン・ツリーを開発する上での障害になっていた。
本発明は、デシジョン・ツリーのための質問セットを自動的に構築する。本発明では、相互情報量が、音または文字を表すトークンをクラスタ化するために使用される。各クラスタは、クラスタを形成することによって引き起こされるトレーニング・データのセットにおける相互情報量の損失を制限するように形成される。結果として生じるクラスタのセットは、デシジョン・ツリーのノードで使用することができる質問を表している。
以下の図1の考察は、他の環境でも適切に使用することができるけれども、本発明を使用することができる1つの例示的環境を、単に設定するためのものである。
図1は、本発明を実装することができる適切なコンピューティング・システム環境100の一実施例を例示する。コンピューティング・システム環境100は、適切なコンピューティング環境の一実施例でしかなく、本発明の用途または機能性の範囲についてのいかなる限定も示唆するように意図されてはいない。コンピューティング環境100はまた、例示的オペレーティング環境100に例示したコンポーネントのいずれか1つまたはその組み合わせに関係するいかなる依存性または要件も有するように解釈されるべきではない。
本発明は、多数の他の汎用または専用コンピューティング・システム環境または構成により動作可能である。本発明に使用するために適切である可能性のある周知のコンピューティング・システム、環境および/または構成の例には、それだけに限定されないが、パーソナル・コンピュータ、サーバ・コンピュータ、ハンドヘルドまたはラップトップ・デバイス、マルチ・プロセッサ・システム、マイクロ・プロセッサ・ベースのシステム、セットトップボックス、プログラマブル・コンシューマ・エレクトロニクス、ネットワークPC、ミニ・コンピュータ、メインフレーム・コンピュータ、上のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。
本発明を一般に、プログラム・モジュールなど、コンピュータによって実行されるコンピュータ実行可能命令に関連して説明することができる。一般に、プログラム・モジュールには、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれ、これらは特定のタスクを実行するか、あるいは特定の抽象データ型を実装する。本発明はまた分散コンピューティング環境において実行することもでき、この環境ではタスクが、通信ネットワークを通じてリンクされるリモート処理デバイスによって実行される。分散コンピューティング環境では、プログラム・モジュールが、記憶デバイスを含むローカルおよびリモートのコンピュータ記憶媒体に置かれることができる。
図1を参照すると、本発明を実施するための例示的システムは、コンピュータ110の形式における汎用コンピューティング・デバイスを含む。コンピュータ110のコンポーネントには、それだけに限定されないが、処理装置120、システム・メモリ130、および、システム・メモリを含む様々なシステム・コンポーネントを処理装置120に結合するシステム・バス121を含むことができる。システム・バス121は、いくつかのタイプのバス構造のいずれかにすることができ、これには、様々なバス・アーキテクチャのいずれかを使用するメモリ・バスまたはメモリ・コントローラ、周辺バスおよびローカル・バスが含まれる。例として、限定ではなく、このようなアーキテクチャには、業界標準アーキテクチャ(ISA)バス、マイクロチャネル・アーキテクチャ(MCA)バス、拡張ISA(EISA)バス、Video Electronics Standards Association(VESA)ローカル・バス、およびメザニン・バスとしても知られる周辺装置相互接続(PCI)バスが含まれる。
コンピュータ110は通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセスすることができるいかなる使用可能な媒体にすることもでき、これには、揮発性および不揮発性媒体、リムーバブルおよび非リムーバブル媒体が含まれる。例として、限定ではなく、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、揮発性および不揮発性、リムーバブルおよび非リムーバブルの媒体を含み、これらはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータなど、情報の格納のためのいずれかの方法または技術において実施される。コンピュータ記憶媒体には、それだけに限定されないが、RAM、ROM、EEPROM、フラッシュ・メモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイス、または、所望の情報を格納するために使用することができ、コンピュータ110によってアクセスすることができる他のいずれかの媒体が含まれる。
通信媒体は通常、コンピュータ可読命令、データ構造、プログラム・モジュール、または、搬送波または他の移送メカニズムなどの変調データ信号における他のデータを具現化し、いずれかの情報配信媒体を含む。「変調データ信号」という用語は、信号における情報を符号化するような方法でその特性の1つまたは複数が設定または変更されている信号を意味する。例として、限定ではなく、通信媒体には、ワイヤード・ネットワークまたはダイレクト・ワイヤード接続などのワイヤード(有線)媒体、および、音響、RF、赤外線および他のワイヤレス媒体などのワイヤレス媒体が含まれる。上記のいずれの組み合わせも、コンピュータ可読媒体の範囲内に含まれるべきである。
システム・メモリ130は、揮発性および/または不揮発性メモリの形式におけるコンピュータ可読媒体を含み、これは読取り専用メモリ(ROM)131およびランダム・アクセス・メモリ(RAM)132などである。基本入出力システム133(BIOS)は、起動中など、コンピュータ110内の複数の要素の間で情報を転送する助けとなる基本ルーチンを含み、通常はROM131に格納される。RAM132は通常、処理装置120によって即時アクセス可能および/または現在動作中であるデータおよび/またはプログラム・モジュールを含む。例として、限定ではなく、図1は、オペレーティング・システム134、アプリケーション・プログラム135、他のプログラム・モジュール136およびプログラム・データ137を例示する。
コンピュータ110はまた、他のリムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータ記憶媒体も含むことができる。例としてのみ、図1は、非リムーバブル、不揮発性の磁気媒体に対する読み書きを行うハードディスク・ドライブ141、リムーバブル、不揮発性磁気ディスク152に対する読み書きを行う磁気ディスク・ドライブ151、および、CD−ROMまたは他の光媒体など、リムーバブル、不揮発性の光ディスク156に対する読み書きを行う光ディスク・ドライブ155を例示する。例示的オペレーティング環境で使用することができる他のリムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータ記憶媒体には、それだけに限定されないが、磁気テープカセット、フラッシュ・メモリカード、デジタル多用途ディスク、デジタル・ビデオ・テープ、ソリッドステートRAM、ソリッドステートROMなどが含まれる。ハードディスク・ドライブ141は通常システム・バス121に、インターフェース140などの非リムーバブル・メモリ・インターフェースを通じて接続され、磁気ディスク・ドライブ151および光ディスク・ドライブ155は通常システム・バス121に、インターフェース150などのリムーバブル・メモリ・インターフェースによって接続される。
上述し、図1に例示したドライブおよびそれらの関連付けられたコンピュータ記憶媒体は、コンピュータ110用のコンピュータ可読命令、データ構造、プログラム・モジュールおよび他のデータの記憶装置を提供する。図1では、たとえば、ハードディスク・ドライブ141が、オペレーティング・システム144、アプリケーション・プログラム145、他のプログラム・モジュール146およびプログラム・データ147を格納するものとして例示される。これらのコンポーネントを、オペレーティング・システム134、アプリケーション・プログラム135、他のプログラム・モジュール136およびプログラム・データ137と同じものにも異なるものにもすることができることに留意されたい。オペレーティング・システム144、アプリケーション・プログラム145、他のプログラム・モジュール146およびプログラム・データ147は、ここで異なる番号が与えられており、最少限のものであって、それらは異なるコピーである。
ユーザはコマンドおよび情報をコンピュータ110へ、キーボード162、マイクロフォン163、および、マウス、トラックボールまたはタッチパッドなどのポインティング・デバイス161などの入力デバイスを通じて入力することができる。他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどが含まれる可能性がある。これらおよび他の入力デバイスがしばしば処理装置120へ、システム・バスに結合されるユーザ入力インターフェース160を通じて接続されるが、これを、パラレル・ポート、ゲーム・ポートまたはユニバーサル・シリアル・バス(USB)など、他のインターフェースおよびバス構造によって接続することができる。モニタ191または他のタイプの表示デバイスも、システム・バス121へ、ビデオ・インターフェース190などのインターフェースを介して接続される。モニタに加えて、コンピュータはまた、スピーカ197およびプリンタ196など、出力周辺インターフェース195を通じて接続することができる他の周辺出力デバイスも含むこともできる。
コンピュータ110はネットワーク環境において、リモート・コンピュータ180など、1つまたは複数のリモート・コンピュータへの論理接続を使用して動作することができる。リモート・コンピュータ180は、パーソナル・コンピュータ、ハンドヘルド・デバイス、サーバ、ルータ、ネットワークPC、ピア・デバイスまたは他の共通ネットワーク・ノードにすることができ、通常は、コンピュータ110に関連して上述した要素の多数またはすべてを含む。図1に示す論理接続は、ローカルエリア・ネットワーク(LAN)171および広域ネットワーク(WAN)173を含むが、他のネットワークも含むことができる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータ・ネットワーク、イントラネットおよびインターネットにおいて一般的である。
LANネットワーキング環境において使用するとき、コンピュータ110がLAN171へ、ネットワーク・インターフェースまたはアダプタ170を通じて接続される。WANネットワーキング環境において使用するとき、コンピュータ110は通常、モデム172、またはインターネットなどのWAN173を介して通信を確立するための他の手段を含む。モデム172を内部または外部にすることができ、システム・バス121へ、ユーザ入力インターフェース160または他の適切なメカニズムを介して接続することができる。ネットワーク環境では、コンピュータ110に関連して示したプログラム・モジュールまたはその一部を、リモート記憶デバイスに格納することができる。例として、限定ではなく、図1はリモート・アプリケーション・プログラム185を、リモート・コンピュータ180上に存在するものとして例示する。図示のネットワーク接続は例示的であり、通信リンクを複数のコンピュータの間で確立する他の手段を使用できることは理解されよう。
本発明は、音声処理をするデシジョン・ツリーで使用される質問を形成するための方法を提供する。図2は、本発明で作成されたデシジョン・ツリーを使用して形成されたクラスタ・ベースの音響モデルを含む、音声認識システムのブロック図を提供する。
図2では、トレーナまたはユーザである話者200はマイクロフォン204に向かって話す。マイクロフォン204はまた、付加ノイズを1つまたは複数のノイズ源202から受信する。マイクロフォン204によって検出されたオーディオ信号が電気信号に変換され、これがアナログ−デジタル・コンバータ206に提供される。
A−Dコンバータ206はマイクロフォン204からのアナログ信号を、一連のデジタル値に変換する。いくつかの実施形態では、A−Dコンバータ206はアナログ信号を、16kHzおよび1つのサンプル当たり16ビットで、サンプリングし、それにより1秒につき32キロバイトの音声データ(speech data)を作成する。これらのデジタル値はフレーム・コンストラクタ207に提供され、これは一実施形態では、これらの値を、それぞれのスタート点が10ミリ秒離れている複数の25ミリ秒のフレームにグループ化する。
フレーム・コンストラクタ207によって作成されたデータのフレームは、特徴抽出器208に提供され、これは各フレームから特徴(feature)を抽出する。特徴抽出器の例は当技術分野で周知である。
特徴抽出(feature extraction)モジュールは、それぞれ音声信号(speech signal)のフレームに関連付けられる特徴ベクトルのストリームを生成する。この特徴ベクトルのストリームがノイズ低減モジュール210に提供され、これは入力音声信号のノイズを低減する。
ノイズ低減モジュール210の出力は、一連の「クリーン」な特徴ベクトルである。入力信号がトレーニング信号であった場合、この一連の「クリーン」な特徴ベクトルがトレーナ224に提供され、これは「クリーン」な特徴ベクトルおよびトレーニング・テキスト226を使用して音響モデル218をトレーニングする。音響モデル218は、クラスタ化された文脈依存音(context-dependent phones)を含み、これらはデシジョン・ツリーを使用してグループ化されている。詳細には、声音(phones)をクラスタ化するために使用されるデシジョン・ツリーは、本発明を通じて形成された質問を含む。したがって、いくつかの異なる文脈依存音についての特徴ベクトルが使用されて、その中でその声音が見いだされるクラスタについての単一のモデルがトレーニングされる。
入力信号がテスト信号であった場合、「クリーン」な特徴ベクトルは、デコーダ(復号器)212に提供され、これは最も尤もらしい言葉のシーケンスを、特徴ベクトルのストリーム、レキシコン(語彙辞書)214、言語モデル216および音響モデル218に基づいて識別する。
仮説語(hyposesis words)の最も確からしいシーケンスが、信頼性測定モジュール220に提供される。信頼性測定モジュール220は、どの言葉が音声認識器によって不適当に識別されている可能性が最も高いかを、部分的には2次音響モデル(図示せず)に基づいて識別する。次いで、信頼性測定モジュール220は、どの言葉が不適当に識別されている可能性があるかを指示する識別子と共に、仮説語のシーケンスを出力モジュール222に、提供する。
図3は、文字−サウンド・システムのブロック図を提供し、ここでは本発明で形成された質問を有するデシジョン・ツリーが使用され、文字の組み合わせに対する音声単位(phonetic units)を識別する。図3では、テキスト300がデシジョン・ツリー302に適用される。デシジョン・ツリー302で見いだされる質問に応答することによって、ツリーにおいて、テキスト300によって表される声音304を含むリーフ・ノードが識別される。
図4は、本発明の方法を使用して形成された質問を含むデシジョン・ツリー400の一実施例を示す。デシジョン・ツリー400はルート・ノード402およびリーフ・ノード404、406、408、410、412および414を含む。デシジョン・ツリー400は、また、中間ノード416、418、420および422も含む。ルート・ノード402および中間ノード416、418、420および422は、それぞれ関連付けられた質問を有し、この質問は、ツリー中で辿られるであろう経路を決定する。たとえば、このツリーがトライフォン状態をクラスタ化する目的で構築された場合、ルート・ノード402に関連付けられた質問を、入力トライフォンにおいて中心の声音の左側に母音があるかどうか、にすることができる。左側に母音がある場合、ノード418への経路が取られる。しかし、左側に母音がない場合、ノード420への経路が取られる。
図5は、音声処理をするデシジョン・ツリーで使用される質問セットを生成する方法のフローチャートを提供する。この方法を使用して、文脈依存音構造をクラスタ化するための質問を形成することができ、あるいは別法として、この方法を使用して、文字の組み合わせに対する発音を識別するための質問を形成することができる。この方法では、質問はトークンのクラスタとして定義される。文脈依存音の質問では、トークンは声音である。発音の質問では、トークンは文字である。
図5のステップ500で、最初のクラスタのセットが形成され、これは各トークンをそれ自体のクラスタに入れることによって行われる。文脈依存音の質問では、言語内で見いだされた各モノフォン(monophone)(文脈非依存音)はそれ自体のクラスタに置かれる。発音の質問では、アルファベットの各文字はそれ自体のクラスタに入れられる。このステップは図6に示され、この図は本発明によってクラスタ化されるトークンの一実施例を示す。したがって、図6では、600、602、604および606などのトークンが、クラスタ608、610、612および614などの最初のクラスタに入れられる。
次いで、本発明の方法は、クラスタを組み合わせて新しいクラスタを形成しようと試みる。この方法では、クラスタが、この組み合わせによって引き起こされる複数の近接したクラスタの間の相互情報量の損失を最小限にするように組み合わされ、そこで相互情報量が、隣接するクラスタを使用してトレーニング・データから測定される。声音のクラスタでは、トレーニング・データはテキストの音声翻訳からなる。文字のクラスタでは、トレーニング・データは、個々の文字に区分化されたトレーニング・テキストからなる。
相互情報量クラスタ化(mutual information clustering)は周知であり、以前に他の状況において使用されていた。しかし、これは、デシジョン・ツリーのための質問セットを形成するためには使用されていなかった。一実施形態では、相互情報量スコアは以下のように決定される。
Figure 0004499389
ただし、MIは相互情報量スコアであり、SおよびSは、n個の異なるクラスタを有するトレーニング・データ内で隣接するクラスタであり、f(S,S)は、クラスタSおよびSがトレーニング・データ内で互いの次に現れる(共起(co-occurrence)としても知られる)回数を表し、f(S)およびf(S)は、クラスタSおよびSがトレーニング・データ内で個別に現れる回数を表す。したがって、式1の合計は、すべての可能なクラスタのペア(all possible pairs of clusters)に渡って取られる。
ステップ502で、最初にトレーニング・データにおいて発見されたトークンは、ステップ500でトークンが置かれたクラスタを表すクラスタ・トークンに置き換えられる。次いで、この方法は、単一の新しいクラスタへの既存の2つのクラスタの各可能なマージング(each possible merging)について生じるであろう相互情報量における変化を決定する一連のステップを通じて、ループする。
したがって、ステップ504で、可能な新しいクラスタ(possible new cluster)が、2つの既存のクラスタを組み合わせることによって識別される。次いで、トレーニング・データにおける2つの既存のクラスタについてのトークンの各発生(occurrence)が、提案された新しいクラスタ(proposed new cluster)についてのクラスタ・トークンで置き換えられる。次いでステップ506で、クラスタ共起頻度数およびクラスタ頻度数が決定される。クラスタ共起頻度数は、2つのクラスタ・トークンがトレーニング・データ内で互いの次に現れる回数を示す。これらの頻度数および上の式1を使用して、ステップ508で、相互情報量スコアが決定される。
次いでステップ510でトレーニング・データがリセットされ、これは、提案された新しいクラスタについてのクラスタ・トークンが2つの既存のクラスタについてのトークンの代わりに使用される前に、それがあった状態にトレーニング・データを戻すことによって行われる。
ステップ512で、可能な新しいクラスタを形成するために組み合わせることが可能な他のクラスタのペアがあるかどうかについての決定が行われる。あった場合、プロセスはステップ504に戻り、別の提案されたクラスタを識別し、ステップ506、508および510がこの新しい提案されたクラスタについて繰り返される。
ステップ504、506、508、510および512は、クラスタのペアのすべての可能な組み合わせが相互情報量スコアを形成するために使用されるまで、繰り返される。ステップ514で、これらのスコアが互いに比較されて、どのクラスタの組み合わせが最高の相互情報量スコアを提供するか、およびしたがって相互情報量において最低の少量を提供するかが決定される。次いで、最高の相互情報量スコアを提供する、提案された新しいクラスタが質問セットとして格納され、新しいクラスタを形成する2つのクラスタのトークンの各発生を、新しいクラスタを表すトークンで置き換えるように、トレーニング・データが永続的に変更される。したがって、図6で、クラスタ610および612を組み合わせることによって形成される新しいクラスタ616が最高の相互情報量スコアを提供する場合、トレーニング・データにおけるクラスタ610についてのクラスタ・トークンの各発生が、クラスタ616を表すトークンによって置き換えられ、トレーニング・データにおけるクラスタ612についてのクラスタ・トークンの各発生が、クラスタ616を表すトークンによって置き換えられる。
この方法が複数のクラスタを組み合わせるにつれて、ますます少なくなる数の異なるクラスタ・トークンがトレーニング・データにおいて見いだされるようになる。最終的に、単一のタイプのクラスタ・トークンがトレーニング・データにおいて見いだされるようになり、このクラスタ・トークンがデータ内の各トークン位置を満たすようになる。この単一クラスタを、図6でトップ・クラスタ620として示す。
ステップ516で、この方法は、修正されたトレーニング・データ内に2つ以上のタイプのクラスタ・トークンが残っているかどうかを決定する。残っていた場合、プロセスがステップ504に戻り、新しい可能なクラスタの組み合わせをテストする。
ステップ516で、すべてのクラスタが単一のクラスタに組み合わされた後、ステップ518で、請求項5の方法の間に識別されたクラスタが使用されて、デシジョン・ツリーが構築される。詳細には、各クラスタを使用してデシジョン・ツリーにおける質問を構築することができ、これは、入力におけるトークン(声音または文字)が特定のクラスタ内で発見されるかどうかを尋ねることによって行われる。したがって、図5の方法の期間に識別されたクラスタのセット(たとえば、図6のクラスタ608、610、612、614、616、618および620)は、デシジョン・ツリーを構築するために使用可能な質問のセットを表す。
デシジョン・ツリーを、使用可能な質問のセットから構築するための技術は、当技術分野で周知であり、これには、ツリーにおけるノードについての使用可能な質問のセットから、尤度関数など、ある関数を最大にするように、質問を選択することが含まれる。
一実施形態では、異なるツリーが、言語における各声音の各隠れマルコフ・モデル(HMM)状態について形成される。このような実施形態では、デシジョン・ツリーが使用されて、トライフォン状態がツリーのリーフ・ノードにグループ化またはクラスタ化される。次いで、リーフ・ノードにおけるトライフォン状態が使用されて、リーフ・ノードにおけるトライフォン状態のいずれかについて使用することができるHMM状態についてのモデルが形成される。次いで、モデルと入力特徴ベクトルの間の合致が、トライフォン状態の1つが入力特徴ベクトルによって表されることを示すようになる。したがって、リーフ・ノードはクラスタ・ベースの音響モデルを表している。
もう1つの実施形態では、別々のツリーがアルファベットの各文字について形成され、それを囲む文字の組み合わせ(文脈)がリーフ・ノードにグループ化される。次いで、異なる文脈における文字の発音が各リーフ・ノードに関連付けられる。新しい文字の組み合わせ(文脈)における文字が受信されると、その組み合わせを対応するデシジョン・ツリーに適用してリーフ・ノードを位置付け、次いでそのリーフ・ノードに関連付けられたその文字の発音を検索することによって、その発音が見つけられる。
相互情報量を使用することによって、本発明は、音声処理のためのデシジョン・ツリーを構築するために使用することができる質問のセットを、言語学者が質問セットを開発する必要なしに、識別することができる。これは、従来技術を克服する上で大幅なコストおよび時間が節約されることを意味する。
本発明を、特定の実施形態を参照して説明してきたが、本発明の精神および範囲から逸脱することなく、形式および詳細において変更を行うことができることは当業者には理解されよう。
本発明を実施することができる汎用コンピューティング環境のブロック図である。 部分的に本発明に基づいて形成されたクラスタ・ベースの音響モデルを利用する音声認識システムのブロック図である。 本発明を使用して形成されたデシジョン・ツリーを利用する発音識別システムのブロック図である。 デシジョン・ツリーの一実施例を示す図である。 本発明でデシジョン・ツリーを形成するための流れを示す図である。 本発明でのトークンのクラスタ化の一実施例を示す図である。
符号の説明
200 話者
202 付加的ノイズ
204 マイクロフォン
206 アナログ−デジタル・コンバータ
207 フレーム・コンストラクタ
208 特徴抽出器
210 ノイズ低減モジュール
212 復号器
214 レキシコン
216 言語モデル
218 音響モデル
220 信頼性測定モジュール
222 出力モジュール
224 トレーナ
226 トレーニング・テキスト
300 テキスト
302、400 デシジョン・ツリー
304 音
402 ルート・ノード
404、406、408、410、412、414 リーフ・ノード
416、418、420、422 中間ノード
608、610、612、614、616、618 クラスタ
600、602、604、606 トークン
620 トップ・クラスタ

Claims (14)

  1. 音声処理で使用されるデシジョン・ツリーを形成する方法であって、
    トレーニング・データの第1のセットに含まれる少なくとも2つのトークンをグループ化して、第1の可能なクラスタを形成すること、
    トレーニング・データの前記第1のセット内の前記少なくとも2つのトークンの各々の各発生(occurrence)を、第1の可能なクラスタのためのトークンに置き換えて、トレーニング・データの第1の修正されたセットを形成すること、
    トレーニング・データの前記第1の修正されたセットの相互情報量スコアを決定すること、
    トレーニング・データの前記第1のセットに含まれる少なくとも2つの追加トークンをグループ化して、第2の可能なクラスタを形成すること、
    トレーニング・データの前記第1のセット内の少なくとも2つの追加トークンの各々の各発生(occurrence)を、第2の可能なクラスタのトークンに置き換えて、トレーニング・データの第2の修正されたセットを形成すること、
    トレーニング・データの前記第2の修正されたセットの相互情報量スコアを決定すること、
    前記第1の可能なクラスタおよび前記第2の可能なクラスタのうちの1つを、トレーニング・データの前記第1および第2の修正されたセットに関連付けられた前記相互情報量スコアに基づいて選択すること、および
    前記選択されたクラスタを使用して、前記デシジョン・ツリーにおける質問を形成すること
    を備えることを特徴とする方法。
  2. 前記各トークンは言語音(linguistic phone)であることを特徴とする請求項1に記載の方法。
  3. 前記デシジョン・ツリーは文脈依存音(context-dependent phones)のクラスタを定義することを特徴とする請求項2に記載の方法。
  4. 前記文脈依存音はトライフォン(triphones)であることを特徴とする請求項3に記載の方法。
  5. 前記各トークンはアルファベットの文字であることを特徴とする請求項1に記載の方法。
  6. 前記第1のクラスタおよび前記第2のクラスタのうちの1つを選択することは、より高い相互情報量スコアを提供する前記クラスタを選択することを備えることを特徴とする請求項1に記載の方法。
  7. コンピュータに、音声処理で使用されるデシジョン・ツリーを形成する方法を実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、前記方法は、
    相互情報量を使用して、トレーニング・データにおいて発見されたトークンのクラスタを選択することであって、
    第1の可能なクラスタのトークンと第2の可能なクラスタのトークンとを識別し、
    トレーニング・データの第1のセット内のトークンを、前記第1の可能なクラスタのトークンに置き換えて、トレーニング・データの第1の修正されたセットを形成し、
    トレーニング・データの前記第1の修正されたセットの相互情報量スコアを決定し、
    トレーニング・データの前記第1のセット内のトークンを、前記第2の可能なクラスタのトークンに置き換えて、トレーニング・データの第2の修正されたセットを形成し、
    トレーニング・データの前記第2の修正されたセットの相互情報量スコアを決定し、
    前記第1の修正されたトレーニング・データのセットに関する相互情報量スコア、および前記第2の修正されたセットの相互情報量スコアに基づいて、前記第1の可能なクラスタおよび前記第2の可能なクラスタの1つの選択する、ことによってクラスタを選択すること、
    前記トークンのクラスタの少なくとも1つを利用して前記デシジョン・ツリーにおけるノードについての質問を形成することによって、デシジョン・ツリーを構築すること、および
    前記デシジョン・ツリーを使用して、入力に基づいて前記ツリーのリーフ・ノードを識別すること
    を備えることを特徴とするコンピュータ読み取り可能な記憶媒体。
  8. 相互情報量を使用してトークンのクラスタを形成することは、声音(phones)のクラスタを形成することを備えることを特徴とする請求項に記載の読み取り可能な記憶媒体。
  9. 前記デシジョン・ツリーを使用して、入力に基づいてリーフ・ノードを識別することは、文脈依存音についてのリーフ・ノードを識別することを備えることを特徴とする請求項に記載の読み取り可能な記憶媒体。
  10. 前記文脈依存音はトライフォンを備えることを特徴とする請求項に記載の読み取り可能な記憶媒体。
  11. 相互情報量を使用してトークンのクラスタを形成することは、文字のクラスタを形成することを備えることを特徴とする請求項に記載の読み取り可能な記憶媒体。
  12. 前記デシジョン・ツリーを使用してリーフ・ノードを識別することは、前記デシジョン・ツリーを使用して、文字の組み合わせを備える入力についての発音(pronunciation)を識別することを備えることを特徴とする請求項11に記載の読み取り可能な記憶媒体。
  13. 音声処理で使用されるデシジョン・ツリーを形成する方法であって、
    少なくとも2つのトークンをグループ化して、第1の可能なクラスタを形成すること、
    前記第1の可能なクラスタからのトークンが第2のクラスタからのトークンに隣接して現れる回数、前記第1の可能なクラスタからのトークンが個別に現れる回数、および前記第2のクラスタからのトークンが個別に現れる回数、を決定することを含むステップを通じて、相互情報量スコアを前記第1の可能なクラスタに基づいて決定すること、
    少なくとも2つのトークンをグループ化して、第3の可能なクラスタを形成すること、
    前記第3の可能なクラスタからのトークンが第4のクラスタからのトークンに隣接して現れる回数、前記第3の可能なクラスタからのトークンが個別に現れる回数、および前記第4のクラスタからのトークンが個別に現れる回数、を決定することを含むステップを通じて、相互情報量スコアを前記第3の可能なクラスタに基づいて決定すること、
    前記第1のクラスタおよび前記第3のクラスタのうちの1つを、前記第1および第3のクラスタに関連付けられた前記相互情報量スコアに基づいて選択すること、
    前記選択されたクラスタを使用して、音声処理で使用される前記デシジョン・ツリーにおける質問を形成すること、および
    前記デシジョン・ツリーをコンピュータ読み取り可能な記憶媒体に格納すること
    を備えることを特徴とする方法。
  14. コンピュータに、音声処理で使用されるデシジョン・ツリーを形成する方法を実行させるためのプログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、前記方法は、
    トレーニング・データに現れる各々の可能なトークンとは別のトークンのクラスタを形成すること、
    第1のトークンのクラスタと第2のトークンのクラスタとを組み合わせるかどうかを決定し、新しいトークンのクラスタが前記トレーニング・データ内の他のトークンのクラスタからのトークンに隣接して現れる回数に基づく相互情報量を使用して前記新しいトークンのクラスタを形成すること、
    前記トークンのクラスタの少なくとも1つを利用してデシジョン・ツリーを構築し、前記デシジョン・ツリー内のノードのための質問であって、入力におけるトークンが少なくとも1つのクラスタ内で発見されるかどうかを尋ねる質問、を形成すること、
    前記デシジョン・ツリーを使用して、入力に基づいて前記ツリーのリーフ・ノードを識別すること
    を備えることを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2003310666A 2002-09-03 2003-09-02 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 Expired - Fee Related JP4499389B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/233,733 US7788096B2 (en) 2002-09-03 2002-09-03 Method and apparatus for generating decision tree questions for speech processing

Publications (2)

Publication Number Publication Date
JP2004094257A JP2004094257A (ja) 2004-03-25
JP4499389B2 true JP4499389B2 (ja) 2010-07-07

Family

ID=31887684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003310666A Expired - Fee Related JP4499389B2 (ja) 2002-09-03 2003-09-02 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置

Country Status (5)

Country Link
US (1) US7788096B2 (ja)
EP (1) EP1398758B1 (ja)
JP (1) JP4499389B2 (ja)
AT (1) ATE430358T1 (ja)
DE (1) DE60327400D1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7643916B2 (en) 2006-06-14 2010-01-05 Spx Corporation Vehicle state tracking method and apparatus for diagnostic testing
US8762165B2 (en) 2006-06-14 2014-06-24 Bosch Automotive Service Solutions Llc Optimizing test procedures for a subject under test
US8423226B2 (en) 2006-06-14 2013-04-16 Service Solutions U.S. Llc Dynamic decision sequencing method and apparatus for optimizing a diagnostic test plan
US9081883B2 (en) 2006-06-14 2015-07-14 Bosch Automotive Service Solutions Inc. Dynamic decision sequencing method and apparatus for optimizing a diagnostic test plan
US8428813B2 (en) 2006-06-14 2013-04-23 Service Solutions Us Llc Dynamic decision sequencing method and apparatus for optimizing a diagnostic test plan
US7958407B2 (en) * 2006-06-30 2011-06-07 Spx Corporation Conversion of static diagnostic procedure to dynamic test plan method and apparatus
US8744891B1 (en) * 2007-07-26 2014-06-03 United Services Automobile Association (Usaa) Systems and methods for dynamic business decision making
JP4405542B2 (ja) * 2007-10-24 2010-01-27 株式会社東芝 音素モデルをクラスタリングする装置、方法およびプログラム
US8239094B2 (en) 2008-04-23 2012-08-07 Spx Corporation Test requirement list for diagnostic tests
US8489537B2 (en) * 2009-01-26 2013-07-16 Microsoft Corporation Segmenting sequential data with a finite state machine
US8335757B2 (en) * 2009-01-26 2012-12-18 Microsoft Corporation Extracting patterns from sequential data
US8648700B2 (en) 2009-06-23 2014-02-11 Bosch Automotive Service Solutions Llc Alerts issued upon component detection failure
WO2014029099A1 (en) * 2012-08-24 2014-02-27 Microsoft Corporation I-vector based clustering training data in speech recognition
CN106649263A (zh) * 2016-11-10 2017-05-10 中科院合肥技术创新工程院 一种多词表达抽取方法及其装置
US11301630B1 (en) 2019-09-19 2022-04-12 Express Scripts Strategic Development, Inc. Computer-implemented automated authorization system using natural language processing

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934486A (ja) * 1995-07-19 1997-02-07 Sony Corp 音声認識方法、情報形成方法、音声認識装置および記録媒体
JPH10508392A (ja) * 1995-08-28 1998-08-18 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ トリー構成確率密度に基づくパターン認識の方法及びシステム
JPH11259089A (ja) * 1998-03-16 1999-09-24 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 自然言語理解装置及び自然言語理解システム
JP2000509836A (ja) * 1996-05-03 2000-08-02 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 自動言語認識
JP2001100779A (ja) * 1999-09-28 2001-04-13 Ddi Corp 音響モデル学習方法
JP2001195084A (ja) * 1999-11-29 2001-07-19 Matsushita Electric Ind Co Ltd 音声認識のための文脈依存モデルの作成方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852173A (en) 1987-10-29 1989-07-25 International Business Machines Corporation Design and construction of a binary-tree system for language modelling
US5794197A (en) * 1994-01-21 1998-08-11 Micrsoft Corporation Senone tree representation and evaluation
US5745649A (en) * 1994-07-07 1998-04-28 Nynex Science & Technology Corporation Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6058205A (en) 1997-01-09 2000-05-02 International Business Machines Corporation System and method for partitioning the feature space of a classifier in a pattern classification system
US6317712B1 (en) * 1998-02-03 2001-11-13 Texas Instruments Incorporated Method of phonetic modeling using acoustic decision tree
US6253169B1 (en) 1998-05-28 2001-06-26 International Business Machines Corporation Method for improvement accuracy of decision tree based text categorization
US6567797B1 (en) * 1999-01-26 2003-05-20 Xerox Corporation System and method for providing recommendations based on multi-modal user clusters
US6351561B1 (en) 1999-03-26 2002-02-26 International Business Machines Corporation Generating decision-tree classifiers with oblique hyperplanes
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934486A (ja) * 1995-07-19 1997-02-07 Sony Corp 音声認識方法、情報形成方法、音声認識装置および記録媒体
JPH10508392A (ja) * 1995-08-28 1998-08-18 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ トリー構成確率密度に基づくパターン認識の方法及びシステム
JP2000509836A (ja) * 1996-05-03 2000-08-02 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 自動言語認識
JPH11259089A (ja) * 1998-03-16 1999-09-24 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 自然言語理解装置及び自然言語理解システム
JP2001100779A (ja) * 1999-09-28 2001-04-13 Ddi Corp 音響モデル学習方法
JP2001195084A (ja) * 1999-11-29 2001-07-19 Matsushita Electric Ind Co Ltd 音声認識のための文脈依存モデルの作成方法

Also Published As

Publication number Publication date
US20040044528A1 (en) 2004-03-04
EP1398758B1 (en) 2009-04-29
ATE430358T1 (de) 2009-05-15
EP1398758A2 (en) 2004-03-17
US7788096B2 (en) 2010-08-31
JP2004094257A (ja) 2004-03-25
DE60327400D1 (de) 2009-06-10
EP1398758A3 (en) 2007-05-23

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US7275034B2 (en) Word-specific acoustic models in a speech recognition system
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6912499B1 (en) Method and apparatus for training a multilingual speech model set
US6539353B1 (en) Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition
JP2559998B2 (ja) 音声認識装置及びラベル生成方法
EP1447792B1 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
US20060009965A1 (en) Method and apparatus for distribution-based language model adaptation
US20130204621A1 (en) Speaker adaptation of vocabulary for speech recognition
US6629073B1 (en) Speech recognition method and apparatus utilizing multi-unit models
JP4499389B2 (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
US9880996B2 (en) System and method for increasing recognition rates of in-vocabulary words by improving pronunciation modeling
JP2002287787A (ja) 明確化言語モデル
KR102094935B1 (ko) 음성 인식 시스템 및 방법
JP2006113570A (ja) 音声分類および音声認識のための隠れ条件付確率場モデル
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
US7617104B2 (en) Method of speech recognition using hidden trajectory Hidden Markov Models
CN112151015A (zh) 关键词检测方法、装置、电子设备以及存储介质
CN111243599A (zh) 语音识别模型构建方法、装置、介质及电子设备
US6502072B2 (en) Two-tier noise rejection in speech recognition
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP3950957B2 (ja) 言語処理装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100409

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100415

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4499389

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130423

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140423

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees