JP4636695B2

JP4636695B2 - 音声認識

Info

Publication number: JP4636695B2
Application number: JP2000609991A
Authority: JP
Inventors: ランド，マイケル; ライト，カール; ファン，ウェンション
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-04-01
Filing date: 1999-04-01
Publication date: 2011-02-23
Anticipated expiration: 2019-04-01
Also published as: AU3381299A; EP1082719A1; WO2000060577A1; EP1082719B1; JP2002541521A

Description

【０００１】
［背景技術］
本発明は、話中発声音内に含まれる単語を決定するために複数の処理ステージを利用する自動音声認識に関する。
【０００２】
リアルタイム音声認識は、多種のコンピュータにて実現することができる。音声認識の実現は、通常、ディジタル信号処理、汎用処理、又は、両方を使用している。典型的なディジタル信号処理（テキサスインストラメントＴＭＳ３２０Ｃ３１のようなＤＳＰ）は、信号処理のような計算集中型処理、及び、低い待ち時間処理に適している。しかしながら、ＤＳＰ用の記憶領域は通常、ＤＳＰにフルスピードで（つまり、記憶待ち状態なしで）実行させるメモリ装置の費用のため、ある程度、限られている。（Intel Pentiumのような）汎用処理は、通常、ＤＳＰメモリよりも低価格であるメモリをサポートしているが、信号処理用の仕組みとなっていない。
【０００３】
コンピュータに基づくＤＳＰにおいて実現される音声認識アルゴリズムは、通常、用語サイズ及びＤＳＰに関連するメモリ資源によって制限される言語学的複雑さを有する。１つの最良の仮説より複数の選択仮説を生成するＮ−ｂｅｓｔアルゴリズムが実現されるように、例えばもっと広範囲の用語をサポートする、更に複雑な音声認識アルゴリズムは、汎用処理に基づくコンピュータを利用することによって実現されている。
【０００４】
ＤＳＰ及び汎用処理の両方を利用することによって実現される音声認識アルゴリズムは、例えば、通常時間間隔での計算スペクトル特性を有するような信号処理を実行する際にＤＳＰに依存する。線形先読み係数、ケプストラ、又は、ベクトル量子化特性のような、これらスペクトル特性は、ＤＳＰから汎用処理へと、音声認識の次のステージへと通過する。
【０００５】
音声認識は、電話入力に適用されてきた。ＰｕｒｅＳｐｅｅｃｈ社は、電話通話者によって話される発声音を認識するソフトウェア製品Ｒｅｃｉｔｅ１．２を以前に発売している。この製品が実行されるコンピュータアーキテクチャーは、図１に示される。コンピュータ１００は、通話者の声によって多重電話線１１０を相互通信するために使用される。コンピュータ１００は、自動的に通話者が話すことを認識し、即座に通話者とを相互に通信する。コンピュータ１００は、データバス１２０を介して、シングルボードコンピュータのような汎用コンピュータ１２０に接続される１つ以上の電話インターフェース１３０を有する。汎用コンピュータ１２０は、汎用プロセッサ１２２と、ダイナミックＲＡＭのような作業用メモリ１２４と、磁気ディスクのような不揮発性プログラムメモリ１２６とを有する。或いは、プログラムメモリは、他のコンピュータに常駐し、データネットワークを介してアクセスされる。電話インターフェース１３０は、コンピュータと相互通信する通話者を介する電話線１１０へのインターフェースを有する。また、１以上のＤＳＰプラットフォーム１４０が、時間分割多重送信（ＴＤＭ）バス１５０の第二のバスを介して電話インターフェース１３０へ接続される。ＴＤＭバス１５０は、ディジタル音声をＤＳＰプラットフォーム１４０と電話インターフェース１３０との間で伝送することができる。各ＤＳＰプラットフォーム１４０は、複数のＤＳＰプロセッサ１４２と、作業用メモリ１４４、データバス１２５へのデータバスインタフェース１４６と、音声インターヴェース１４８へのＴＤＭバス１５０とを有する。Ｒｅｃｉｔｅ１．２製品のあるバージョンにおいて、汎用プロセッサ１２２はＩｎｔｅｌＰｅｎｔｉｕｍであり、データバス１２５はＩＳＡバスであり。ＤＳＰプラットフォーム１４０はＤｉａｌｏｇｉｃ社によって製造されたＡｎｔａｒｅｓＤＳＰプラットフォーム（モデル2000/30、2000/50、又は、6000）であり、ＴＤＭバス１５０は、８ｋＨｚのサンプリング率でサンプルされた８ビット音声サンプルとしてコード化した電話信号を伝送する。各ＡｎｔａｒｅｓＤＳＰプラットフォームは、４つのＤＳＰプロセッサ１４２と、ＴｅｘａｓＩｎｓｔｒｕｍｅｎｔｓ社によって製造されたＴＭＳ３２０Ｃ３１プロセッサを有する。作業用メモリ１４４は、ＤＳＰ毎に静的ＲＡＭの５１２ＫＢと、４つのＤＳＰプロセッサ１４２によって共有される動的ＲＡＭの４ＭＢとを有する。電話インターフェース１３０は、Ｄｉａｌｏｇｉｃ社によって製造されたモデルＤ４１ＥＳＣ、Ｄ１６０ＳＣ及びＤ１１２ＳＣを含む複数のインターフェースである。例えば、各Ｄ１１２ＳＣインターフェースは、１２本のアナログ電話回線１１０をサポートしている。
【０００６】
ＰｕｒｅＳｐｅｅｃｈ社製品Ｒｅｃｉｔｅ１．２は、参照することにより組み込まれる米国特許５，６３８，４８７号（以下、米国特許４８７号とする）に記載される「自動音声認識」に関する音声認識アプローチを組み込んでいる。その実現において、ＤＳＰプラットフォーム上の各ＤＳＰプロセッサは、正確に１つの電話チャンネルと連携している。特定の電話チャンネルと連携するＤＳＰは、米国特許４８７号の図３に示される音声アプローチの初期ステージを制御する。また、エコー消去ステージは、入力発声音に対する出力指示の影響を少なくするため、スペクトル解析の前のＤＳＰに含まれる。ＤＳＰは、本来、ＴＤＭバスから受信した入力を受け取り、それを処理し、汎用コンピュータへ渡すためのシングルタスク（プロセス）に使用される。音声分類の出力は、文章レベル照合が実現れる汎用コンピュータに送信される。文章レベル照合は、話者の話す発声音に対応するだろう複数の仮説文章を生成する。
【０００７】
電話に基づいた多くの音声応用において、通話者は比較的小さな分割電話時間で話をする。時間の残りは、プロンプト又は通話者への他の情報を行なうために費やされるか、又は、例えば、情報が通話者のために検索されている間等の静かな時間間隔として費やされる。Ｒｅｃｉｔｅ１．２ソフトウェア製品において、通話者が話し中であるか、プロンプト又は情報が
処理中であるかに関わらず、１つのＤＳＰが各電話の相互作用に割り当てられる。例えば、通話者は、プロンプトが完了する前に話し出した場合、これが必要となる。しかしながら、同時の電話会話をサポートするために、４つのＤＳＰを有する３つのＡｎｔａｒｅｓＤＳＰプラットフォームは、認識アプローチの初期ステージを制御するために必要となる。
【０００８】
音声認識アプローチは、１０００から１００００名の範囲の氏名のリストのような広い用語範囲に適応される。そのような広い用語範囲において相当な正確さを達成するために使用される認識アプローチの１つの形態は、大量のサブワードモデルのパラメータ数、又は、大量のサブワードモデル自身の数が典型的に使用される形態である。発声音分類は、Ｒｅｃｉｔｅ１．２ソフトウェアのＤＳＰにおいて制御される。サブワードモデルに関連する記憶装置として使用される静的ＲＡＭとして、各ＤＳＰに利用可能な静的ＲＡＭの量は限られているため、サブワードモデル及びそれらのパラメータの数は制限される。このメモリ制限は、大量の用語のタスク処理における正確さに影響を及ぼす。
【０００９】
[発明の要約]
一形態において、本発明は、請求項１に記載されるように、複数の通信チャンネルにて受信される発生音を認識する音声認識装置において、各ディジタル信号処理手段が、複数の信号プロセッサと、該複数の信号プロセッサとによって共有され、該信号プロセッサによって処理された発音声の時間間隔に対応した各文節で成る一連の文節を提供する予備認識部とを有する複数のディジタル信号処理手段と、各最終認識部は上記複数の信号プロセッサの１つに対応することによって、上記複数の通信チャンネルに対応し、上記予備認識部から文節を受信し、語彙グラフを使用して単語仮説を決定する複数の最終認識部を有する最終単語認識手段と、を有するように構成される。請求項２に記載されるように、上記予備認識部は、複数のスコアが第一の複数のサブワード単位で上記時間間隔内の発声音の一致の度合いを特徴付けるように、上記発声音に連携される一連の文節を計算して、上記一連の文節を上記最終単語認識手段に送信するように構成してもよい。また、請求項３に記載されるように、上記各最終認識部は、上記ディジタル信号処理手段から上記一連の文節を受信して、上記発声音と連携される複数の単語列仮説を決定して、単語列仮説に単語を表現するために第二の複数のサブワード単位を用いる上記複数の単語列仮説に対して、スコアを計算するように構成してもよい。
【００１０】
更に、請求項４に記載されるように、上記第一の複数のサブワード単位は音素のセットであって、上記第二の複数のサブワード単位は文脈依存音素のセットであるように構成してもよい。また、請求項５に記載されるように、上記複数の単語列仮説に対するスコア計算は、上記単語列仮説からグラフ表現を形成して、該グラフ表現が第二の複数のサブワード単位を用いる単語の表現を有するようにし、グラフ表現を介する複数の経路に対して、スコアを計算するように構成してもよい。更に、請求項６に記載されるように、上記複数の単語列仮説の決定は、該各単語列仮説がグラフ表現を介する経路に連携されるように該グラフ表現を決定するように構成してもよい。
【００１１】
他形態において、本発明は、請求項７に記載されるように、複数の通信チャンネルにて受信される発生音を認識する音声認識装置における、話中発声音における単語を認識する音声認識方法において、上記音声認識装置は、各モジュールが複数の信号プロセッサと、該複数の信号プロセッサとによって共有され、該信号プロセッサによって処理された発音声の時間間隔に対応した各文節で成る一連の文節を提供する予備認識部とを有する複数のディジタル信号処理手段と、各最終認識部は上記複数の信号プロセッサの１つに対応することによって、上記複数の通信チャンネルに対応し、上記予備認識部から文節を受信し、語彙グラフを使用して単語仮説を決定する複数の最終認識部を有する最終単語認識手段と、を有し、上記ディジタル信号処理手段が、上記話中発声音のためのデータを受け付けて、複数のスコアが、第一の複数のサブワード単位で、その時間間隔内の発声音の一致の度合いを特徴付けるように、上記発声音に連携される一連の文節を形成して、上記最終単語認識手段が、上記一連の文節に基づいて、上記発声音に連携される複数の単語列を決定し、単語列仮説に単語を表現するために第二の複数のサブワード単位を用いる上記複数の単語列仮説に対して、スコアを計算するように構成される。
【００１２】
また、請求項８に記載されるように、上記複数の単語列仮説に対するスコア計算は、該グラフ表現が第二の複数のサブワード単位を用いる単語の表現を有するように、上記単語列仮説からグラフ表現を形成し、グラフ表現を介する複数の経路に対してスコアを計算するように構成される。更に、請求項９に記載されるように、上記グラフ表現を介する複数の経路に対するスコア計算は、アルゴリズムに基づいたHidden Markovモデルを用いて経路にスコア付けするように構成される。
【００１３】
また、請求項１０に記載されるように、上記複数の単語列仮説の決定は、単語列のリストを決定するように構成される。更に、請求項１１に記載されるように、上記複数の単語列仮説の決定は、各単語列仮説が上記グラフ表現を介する経路に連携されるように単語グラフ表現を決定するように構成される。
【００１４】
本発明の効果は、多重ステージ音声認識がＤＳＰプロセッサの一部及び汎用プロセッサの一部に実現でき、多重チャンネルが、通話者が通話時間の小部分で話しができるという点で、１つのＤＳＰによって処理されることが可能となることである。
【００１５】
１つのＤＳＰによって処理される全チャンネルに対して、予備認識ステージを共有することによって、チャンネルごとに個別の予備認識部を備える場合に比べて、そのＤＳＰに必要とされるメモリ容量を削減することができる。更に、発声音による発声音を原則とする予備認識部を共有することによって、文脈交換によって導かれる非能率を削減することができる。
【００１６】
本発明のその他の効果は、ＤＳＰ上の通信は、認識される用語のサイズに依存しない制限されたメモリ容量を使用することができる。ＤＳＰプロセッサと汎用プロセッサとの間での分割情報の通信において、単語列仮説が汎用コンピュータにて効果的に計算される。許容可能な単語列の可能な発声音を決定する場合に、音声表現に基づく規則のセットを用いることによって、正しい単語列は、計算された単語列仮説のセットに、高い確率で含められる。そして、例えば、認識アプローチに基づくHidden Markovモデル（ＨＭＭ）を用いることによって、単語列の上位選択に対する高い正確性が、汎用プロセッサにおいて、これら単語列仮説を再度スコア付けすることによって取得することができる。この多重ステージ認識部において、多数の同時認識チャンネルは、汎用プロセッサに備えられる１つ以上のＤＳＰプロセッサを同時に使用することによって、高い認識精度を達成しつつ処理される。
【００１７】
本発明の他特徴及び効果は、以下説明及び請求項より明らかとなる。
【００１８】
[発明の実施の形態]
新しい音声認識アプローチは、図１に示されるように、前認識アプローチを実現するために使用されたように、同じコンピュータプラットフォームに実現される。この新しい認識アプローチにおいて、各ＤＳＰは、複数の電話チャンネルを同時にサポートする。更に、汎用コンピュータに実現される認識ステージは、各ＤＳＰと連携されたメモリに格納される制限されたサブワードモデルのパラメータ数を用いて達成可能な正確さを上げるために使用されるステージを有する。
【００１９】
図１を参照して、新しい音声認識アプローチは、ＤＳＰプロセッサ１４２又は汎用プロセッサ１２２のいずれかにおいて、実行する複数の処理ステージを有する。これら処理ステージは、通話者による発声音を認識し、電話線１１０を通してコンピュータ１００に入力するために使用される。図２を参照して、ＤＳＰプラットフォーム１４０上の各ＤＳＰプロセッサ１４２は、ＤＳＰモジュール２１０のセットを起動する。そのようなＤＳＰプロセッサ１４２の１つのＤＳＰモジュール２１０は、３つの信号プロセッサ２１２と、予備認識部２１４とを有する。各信号プロセッサ１４２は、ＴＤＭバス１５０から１回の電話呼び出しに連携してデータを受信する。予備認識部２１４は、同一ＤＳＰモジュール２１０内の各信号プロセッサ２１２から入力を受信し、各信号プロセッサ２１２からの発声音が予備認識部２１４によって順番に処理されるような共有される方法において、それら入力を処理する。ＤＳＰプラットフォーム上の各予備認識部２１４は、通信インターフェース２１５を経由して、汎用コンピュータ１２０で実行する最終モジュール２２０と通信する。各信号プロセッサ２１２及びそれら連携される予備認識部２１４は、ＤＳＰ上で実行する別の処理スレッドとして実現される。通信インターフェース２１５は、ＤＳＰプラットフォーム１４０の一部及び汎用コンピュータ１２０の一部で実行する連携ソフトウェアを有する。最終モジュール２２０は、各電話チャンネルに１つの最終認識部２２２を有する。従って、各最終認識部２２２は、ＤＳＰプラットフォーム１４０において、信号プロセッサ２１２に対応する。制御アプリケーション２３０は、また、汎用コンピュータ１２０上で実行され、最終モジュール２２０の最終認識部２２２及びＤＳＰモジュール２１０を制御する。この実施例において、制御アプリケーション２３０及び各最終認識部２２２は、１つのオペレーティングシステム処理内において、別々の処理スレッドとして実行される。又は、各スレッドは、別のオペレーティングシステム処理として実現することができる。
【００２０】
図３を参照して、各信号プロセッサ２１２は、連続したステージを通るパイプライン・データ・フローを実現する。信号プロセッサ２１２は、入力キュー３０５から（例えば、反復してサンプルした）２倍に同期させた信号を受信する。入力キュー３０５は、ＴＤＭバス１５０からデータを通過させる割り込みサービスルーチンによって蓄積される。第一の信号であるプロンプト３１０は、対応する電話線を通るオーディオ波形、例えば、「電話中の相手の名前を教えてください。」のようなプロンプトの波形のサンプルに対応する。第二の信号である入力３１２は、電話線から受信した波形のサンプル、例えば、「John Smith」と言っている通話者に対応する。信号プロセッサ２１２の出力は、周期的に計算されたスペクトル特性３６２の連続である。信号プロセッサ２１２は、呼び出し者が話中であることを決定する時間の間のみ出力を提供する。スペクトル特性３６２は、信号プロセッサ２１２に連携する発声音が処理される時、予備認識部２１４がデータをキューから取り出したところから、特性キュー３７０に格納される。予備認識部２１４は、また、予備認識部２１４と連携される信号プロセッサ２１２の３つのうち他２つに連携される特性キュー３７２及び３７４からデータを受信する。
【００２１】
また、信号プロセッサ２１２によって受け取られ生成された制御及び状態信号は、図３に示す。「聞き取り開始」信号３１４は、呼び出し者との特定な交換用の認識処理を起動するために、汎用コンピュータ上で実行するアプリケーション２３０を制御することによって提供される。制御アプリケーションは、通常、プロンプトの提供を制御する際、プロンプトが開始した時間頃に、聞き取り開始信号３１４を提供する。信号プロセッサ２１２は、また、アプリケーション２３０を制御するために状態信号を提供する。切り抜き状態３３６は、入力信号が大きすぎる音量であって、発呼側通話者から信号プロセッサ２１２への信号経路でのアナログ・ディジタル変換部がその動的範囲を超えてしまった場合に起こる切断状態に対応する。また、音声開始／終了信号３５６は、通話者が話し始めた又は終わった時間を知らせるため、制御アプリケーションに提供される。制御アプリケーション２３０は、例えば、音声指示の開始を受信した時プロンプトの実行を停止することができ、また、音声指示の終了を受信した時トーンのようなプロンプト停止を提供できる。
【００２２】
信号プロセッサ２１２の第一の処理ステージのエコー消去部３２０は、入力３１２を強める。アナログ電話線の特徴は、出力信号の一部が入力信号においてエコーを起こさせるということである。このエコーの源は、インピーダンスの不一致部分によって、２線又は４線変換ポイントの「ハイブリッド」変換部で電話インターフェース１３０における入力及び出力信号パスの接続を有する。従って、入力３１２は、通常、プロンプト３１０のフィルター（つまり、減衰、フィルター及び遅延）版を有する。エコー消去部３２０は、強化しされた入力３２４を生成するため、入力３１２からプロンプト３１０の効果を取り除こうとする。エコー消去３１０は、また、プロンプト３１０に対応する入力３１２の部分の予測となるフィルタープロンプト３２２を出力する。
【００２３】
エコー消去部３２０は、図４の信号フローを実現する。エコー消去部３２０は、聞き取り開始信号３１４を用いることによってトリガーとなる以前にどんな出力も行なわない。エコー消去部３２０は、聞き取り開始信号を受信時、エネルギー検出部４１０が、プロンプト３１０がパワー閾値をおえるまで、プロンプト３１０を監視する。そして、フィルター応答計算部４２０は、通常０．５秒のオーダーの固定インターバルの間、プロンプト３１０と入力３１２とをバッファに格納する。これらバッファ内の信号に基づいて、フィルター応答計算部４２０は、バッファ内入力に最も合致するように、バッファ内プロンプトの減衰、フィルター及び遅延を特徴とする線形フィルターの応答を計算する。フィルター応答計算部４２０は、フィルタープロンプト３２２を生成するため、計算された線形フィルターをプロンプト３１０に適応する、フィルター応答のパラメターをプロンプトフィルター４３０へ通過させる。加算部４４０は、強化入力３２４を生成するため、入力３１２からフィルタープロンプト３２２を差し引く。
【００２４】
信号プロセッサ２１２の第二のステージは、信号調節部３３０である。信号調節部は、次の処理ステージに渡される各信号３３２及び３３４の入力の前強調版を生成するため、強調化フィルター（高域フィルター）をフィルタープロンプト３２２及び強化入力３２４に適用する。また、信号調整部３３０は、強調入力３２４の強調度と固定閾値とを比較することによって、抜き取り状態を検出する。
【００２５】
第三のステージは、信号フレーマー３４０である。信号フレーマー３４０は、その入力信号を、サンプル値の連続したストリームとして受信する。音声の１０ｍｓ．に対応する各一連のサンプルのために、信号フレーマー３４０は、例えば、ハミングウィンドウを用いてウィンドウ化した、サンプルの前の２０ｍｓ．のウィンドウ版を計算する。そのようなウィンドウ化した各一連のサンプルは、「フレーム」と呼ばれる。信号フレーマーは、連続してウィンドウ化されたフィルタープロンプト及びウィンドウ化された強化信号におけるパワーを含むエネルギーレベル３４２を提供する。信号フレーマー３４０は、また、ウィンドウ化された強化入力３４４を次のステージへ提供する。
【００２６】
第四のステージは、音声検出部３５０である。一連のエネルギーレベル３４２に基づいて、音声検出部３５０は、通話者が話し始め又は話し終わりそうな時を決定する。通話者が話し中である時を決定するのは、特にプロンプトのエコーが在る場合に難しいため、図５に示されるように、制限状態装置５００が音声検出部３５０によって実現される。状態遷移は、前ステージで計算されたウィンドウ化フィルタープロンプトでのパワー（デシベル）、及び、同様に前ステージで計算された強化入力パワー（デシベル）であるプロンプトアワーに基づく。音声検出部３５０は、また、発声音が処理される時に適応する２つの量を維持する。最初は、入力信号のノイズパワーの予測である。このノイズパワー予測は、入力の低電力（静かな）インターバルを見つけ出し、通話者が話し中の間、ゆっくりと増強する。特に、ディジタルワイアレス電話通信を含む電話通信環境において、信号は落とされ（ドロップアウト）、短期間でゼロ又はほとんどゼロのエネルギーになる。ノイズフロア追跡は、これらドロップアウトを検出し、ノイズパワー予測をそのようなゼロ又は低いエネルギー値に調整しない。音声検出部３５０が適応する第二の量は、入力信号からうまく差し引かれなかったプロンプトの部分のレベル、つまり、フィルタープロンプトの減衰レベルとして示されるレベルの予測である。特に、減衰は、フィルタープロンプトでのパワーに対する強化入力でのパワーとして初期に計算される。この減衰レベルは、例えば、減衰期間のエコー変化の特徴によって、減衰期間にゆっくりと減ぜられる。音声検出部３５０は、１０ｍｓ．フレーム毎に１つのパワー量を計算する。もし、強化入力でのパワーがノイズパワーの現在四属より少なければ、パワーは、ゼロ（デシベル）に設定される。そうでなければ、もし、ノイズパワーが減衰されたプロンプトパワー、つまり、フィルタープロンプトパワーからプロンプト減衰を差し引いたパワーより大きければ、パワーは、強化入力からノイズパワーを差し引いたパワーとして計算される。そうでなければ、パワーは、強化入力から減衰したプロンプトパワーを差し引いたパワーに設定される。
【００２７】
制限状態マシン５００を示す図５を参照して、音声検出部３５０によって実現される制限状態マシン５００の初期状態は、初期静寂５１０である。音声検出部３５０は、計算されたパワー（前述）が低開始又は高開始閾値を経過する場合、状態遷移を初期静寂５１０から低開始５１２又は高開始５１４へと遷移する。低開始５１２から、もし、パワーが高パワー閾値を経過する場合、次の状態は高開始５１４であり、もし、パワーが低開始閾値以下に落ちる場合、次の状態は、低開始ドロップ５１６である。低開始ドロップ５１６での閾値期間後、次の状態は、再び、初期静寂５１０である。低開始ドロップ５１６において、もし、パワーが一旦、低開始閾値以上に再び上昇すると、次の状態は、高開始５１４において、もし、パワーが高開始閾値以下に降下したら、次の状態は、再び低開始５１２である。高開始５１４での閾値期間後、音声の開始が検出され、次の状態は話中５１８となる。音声検出部３５０が話中５１８の状態に入ると、音声信号３５６の開始を、音声信号の開始に応じてプロンプトの実行を停止することができる制御アプリケーション２３０へ送信する。話中５１８において、もし、パワーが話中閾値以下に降下したら、次の状態は、終了５２０となる。終了５２０での終了閾値時間前に、もし、パワーが話中閾値パワー以上になったら、次の状態は、再び話中５１８となる。終了閾値時間後、もし、パワーが話中閾値以上になったら、次の状態は、終了スパイク５２２となる。もし、パワーがスパイク閾値時間より長い間、話中閾値以上でとどまっている場合、次の状態は、話中５１８となる。さもなければ、次の状態は、再び終了５２０となる。音声閾値時間の終了後、次の状態は完了５２４となる。一連の状態に基づいて、話中インターバルは、低開始５１２又は高開始５１４へ入る時間から終了５２０から抜け出す時間までの間隔として予測される。音声検出３５０は、この話中インターバルに対応する全フレーム用のウィンドウ化された強化入力３４４を、その出力３５４へ通過させる（つまり、入力信号をゲートで制御する）。
【００２８】
音声検出部３５０が完了５２４状態に入ったら、パイプラインの初期ステージからもはやデータを要求せず、信号プロセッサ２１２は、聞き取り開始信号３１４によって、再び開始されるまで、アイドルとなる。
【００２９】
信号プロセッサ２１２でのパイプラインの第五ステージは、特性抽出部３６０である。特性抽出部３５０は、ウィンドウ化された強化入力３５４のフレームを受信し、受信した各フレーム用の９つのケプストラ係数を計算する。フレームのケプストラ係数は、そのフレームのログ大きさスペクトルのフーリエ変換の係数である。特性抽出部３６０は、また、「正規化」された主要係数を計算する。各ケプストラ係数において、特性抽出部３５０は、処理中の発声音でのその係数の過去の値の降下平均を保持する。対応する正規化されたケプストラ係数は、計算されたケプストラ係数と降下平均との差である。特性抽出部３５０は、特性３６２、ケプストラ及び正規化されたケプストラ係数を特性キュー３７０に提供する。特性キュー３７０は、通常、予備認識部２１４が他特性キュー（３７２又は３７４）から現在データを受信していたとしても、キューがいっぱいにならないように十分な容量である。もし、出力キュー３７０が一杯であれば、信号プロセッサ２１２は、最後にブロックされ、入力キュー３０５は、処理される波形データでいっぱいになる。予備認識部２１４は、信号プロセッサ２１２によって処理された発声音を処理する際に、特性データを特性キュー３７０から取り外す。
【００３０】
予備認識部２１４は、米国特許４８７号に記載される境界検出及び分割スコアアルゴリズムを実現する。図６を参照して、予備認識部２１４は、特性キュー３７０ａ―ｃに蓄積され、信号プロセッサ２１２ａ−ｃによって計算された特性データを受信し処理する。多重部６０５は、特性キューの一つがデータを提供できるまで、例えば、円形ロビン形式で、特性キューの間を繰り返す。そして、予備認識部２１４は、対応するチャンネルでの通話者が話しを止め、特性キューが空になるまで、対応する信号プロセッサをサービスする。信号プロセッサ２１２ａ−ｃの出力は、通話者が話中の期間中のみ提供されるため、通常、１つ又は２つの信号プロセッサが、予備認識部２１４のためのその特性キューにて入力が有効となる。信号プロセッサ２１２は、他チャンネル用の発声音が予備認識部２１４によって処理されている間、ブロックされる。予備認識部２１４がブロックされたチャンネルをサービスできるまで、ブロックされたチャンネルの出力信号プロセッサ２１２は、対応する特性キュー３７０に蓄積される。予備認識部２１４は、多重部６０５によって選択された入力に対応する出力へ、その計算された結果を送信するその出力で非多重部６３５を有する。
【００３１】
予備認識部２１４は、米国特許４８７号を組み込んで説明されるデザインの境界分類６１０と、分圧生成部６２０と、音声表現分類６３０とを有する。特に、境界分類６１０は、入力特性３６２ａ−ｃの選択された一つに対応する特性６６２を受信し、フレームが音声表現文節間の可能な境界に対応するかを決定するために、人口ニューロネットワーク（ＡＮＮ）を使用する。境界分類６１０は、各入力フレームに対して、境界スコア６１２（フレームが境界となるログ確率）を提供するため、可能な境界フレームの近傍にて入力フレームを使用する。
【００３２】
各入力フレームに対して、文節生成部６２０は、フレームが境界候補であり、前の境界候補フレームでの開始と現在の境界候補フレームでの終了の時間間隔に対応する複数の文節を形成する。各形成された文節に対して、文節生成部６２０は、文節の３つのサブインターバルでの正規化されたケプストラ特性を平均化することによってその文節の固定長表現に、その文節の時間間隔での入力特性を変形させる。その文節の境界のスコアと同様にその計算された固定長表現を含んでいる各形成された文節６２２は、文節生成部６２０から音声表現分類６３０へ送られる。
【００３３】
音声表現分類６３０は、文節６２２が音声表現ラベルの固定セット毎に対応する（ログ）確率を決定するため、音声表現パラメータ６３２を使用する。音声表現パラメータ６３０は、各可能な音声表現ラベルに対する１つの出力と文節毎の固定長特性表現の各要素に対する１つの入力を有するＡＮＮの係数（重み）を含んでいる。ＡＮＮの出力は１つに加算され、ログは各出力から取り除かれるように測定される。音声表現パラメータ６３２及び音声表現分類６３０は、ＡＮＮ重み付けと共にＤＳＰ命令とを含む効果的に事前にコンパイルされたコードモジュールに組み込まれる。
【００３４】
よって、予備認識部２１４は、出力６３３として、処理中の発声音の時間間隔に対応した各文節で成る一連の文節を提供する。図７を参照して、各文節に対して、予備認識は、開始及び終了時間ｔ_１７１０及びｔ_２７１２、それら時間Ｂ（ｔ_１）７２０及びＢ（ｔ_２）７２２での境界ログ確率、Ｎ個の音声表現単位の所定セットのログ確率Ｓ（ｔ_１，ｔ_２，１）７３０からＳ（ｔ_１，ｔ_２，１）７４０を経過する。予備認識部２１２は、また、変更されない特性３６２ａ−ｃを介して、提供中の文節に同期させた対応する出力６４０ａ−ｃ．これら特性は、認識に続くステージにおいて、最終認識部２２２によって使用される。この実施例において、Ｎ＝４０の英語音素に対するスコアは、各文節時間間隔で提供される。他実施例において、音素のサブセットのみに対するスコア、例えば、最良スコアサブセットが提供されるであろう。また、必ずしも音声学に基づいていないサブワード単位が、代わりに使用されうる。
【００３５】
図２を参照して、各予備認識部２１３の出力は、通信インターフェース２１５を介して、対応する最終認識２２２へと通過する。図８を参照して、最終認識２２２は、複数の処理ステージを含んでいる。第一パス８１０は、予備認識部２１４から送信された文節を受信し、後述される方法において、単語仮説８１４を決定するために、語彙グラフ８１２を使用する。そして、Hidden Markovモデル（ＨＭＭ）認識部８２０は、単語仮説８１４を取得し、発声表現辞書８２４及び発声表現パラメータ８２２とを用いて、ソートしたＮベストリスト８２６を決定する。ソートしたＮベストリスト８２６は、対応する電話線での通話者との相互作用を担う制御アプリケーション２３０に構成される。
【００３６】
図９ａ−ｂを参照して、第一パス８１０は、連鎖したときに、境界と音素ログ確率との最大総和となる一連の発声表現ラベルを決定するため、動的プログラミングアルゴリズムを実現する。アルゴリズムは、種々の文節が使用されるところを除いて、しばしば音声認識アルゴリズムに使用されるビタビ（Viterbi）アルゴリズムと同様である。
【００３７】
語彙グラフ８１２は、認識可能であって、許容される単語列の仕様から導かれるグラフ表現である。グラフの弧は、音素ラベルと連携する。グラフ内の少なくとも一つのノードは、開始ノードを示し、グラフ内の少なくとも１つの他のノードは、終了ノードを示す。開始ノードから終了ノードへの経路は、許容される単語の列の発声音に対応する音素ラベルの列と連携する。単語間の他の発声音及び共調音効果の説明のため、語彙グラフ８１２は、オフライン手順でのステージに構成される。第一ステージにおいて、許容単語列に対応する単語グラフが作られる。各単語は、通常、１つの「標準」音声表現発音（音声綴り）に置き換えられる。そして、音声表現ルールは、音素のサブ列を（いくつかのサブ列を除いた）他のサブ列と置き換えるために、また、最初に出現したグラフの他に追加のサブ列を加えるために、結果グラフに適用される。そして、最適化ステージは、終了ノードの手前の結合経路と同様に開始ノードから経路の結合を含む相互最適化アプローチを用いて同等のグラフを作成する。
【００３８】
図９ａは、動的プログラミングアルゴリズムにて実現され、その一部として第一パス８１０によって計算されるスコアの動的プログラミング格子９００を示す。水平軸は境界時間に対応し、垂直軸は、グラフノードに対応する。格子９００での値は、時間の経過（図９ａの左から右）で計算される。各文節は、第一パス８１０によって受信されるため、その文節の終了境界時間に対する格子９００のスコアは、更新される。境界時間で終了する全ての文節が受信された後、終了境界時間に対する格子９００内の点は、グラフ内の各ノードに対して、その終了時間でのそのノードで終了する、及び、いくぶん前の境界時間で設計された開始ノードの一つで開始する音素及び境界ログ確率との最大総和、を含んでいる。図９ｂは、語彙グラフ８１２を表現したグラフの一部を示す。ノードインデックスｉ９２０、ｊ９２２及びｋ９２４の３つのノードが示される。弧９３０は、ノードｉ９２０及びｋ９２４を結び、音素ａとする。
【００３９】
一方の弧９３２は、ノードｊ９２２及びノードｋ９２４を結び、音素ｂとする。この例において、弧９３０及び９３２は、ノードｋ９２４で終了する語彙グラフの弧のみである。図９ａを参照して、語彙エントリーＬ（ｋ、ｔ_３）９０２の計算において、境界時間ｔ_３でのノードｋに対するスコアは、時間ｔ_３で終了する全ての文節を考慮する。この例において、文節期間（ｔ_１，ｔ_３）及び（ｔ_２，ｔ_３）及びｔ_３のみである。Ｌ（ｋ、ｔ_３）９０２の計算は、ｔ_１又はｔ_２のいずれかで開始する最後の音素文節を伴う音素ａ又は音素ｂのいずれかにおける終了経路の最良スコアを検出する。動的プログラミングアルゴリズムを用いて、第一パス８１０は、格子点９０４、９０５、９０６及び９０７から延長することによって、この最良経路を選択し、これら延長された経路に連携した最大スコアを伴う格子エントリー９０２を変更する。
【００４０】
発声音に対する全ての文節が第一パス８１０によって受信され、格子９００内の全ての値が前述した方法にて計算された後、第一パス８１０は、先ず、狩猟ノードに連携される格子９００でのノードの最大値を検出することによって、始ノードから終了ノードの経路の最大スコアを決定する。そして、第一パス８１０は、最良スコアの閾値スコア内の経路スコアを有し、また、開始ノードから終了ノードの語彙グラフ８１２を介して正当な経路に対応する音素列のセットを決定する。Ａ＊検索（最良第一検索）は、終了ノードで開始する及び時間と逆に動作する最良音素列を検出していた。各音素列は、特定の開始時間と終了時間に連携される。そして、Ａ＊検索で検出される各音素列に対して、第一パス８１０は、音素経路が発声音であることに対する単語列を決定する。これら単語列仮説のリストは、それら開始及び終了時間に従って、ＨＭＭへの第一パス８１０によって単語仮説８１４での認識部８２０へ提供される。
【００４１】
この実施例において、ＨＭＭ認識部８２０は、音素パラメータ８２２及び音素辞書８２４を用いることによって、単語仮説８１４での単語列を再度順位付けしていた。認識されたＨＭＭは、全ての仮説の時間間隔を有する同一時間間隔を使用して、各仮説毎にスコアを決定する。
【００４２】
図１０を参照して、ＨＭＭ認識部は、複数のステージを有する。ＨＭＭグラフ構築１０１０は、単語仮説８１４から単語列を受け取り、ＨＭＭグラフ１０２０を作成する。ＨＭＭグラフ１０２０は、辞書８２４で検出された際に、単語の音声表現に対応するノードの列への単語仮説８１４内の各単語の拡張を有する。この実施例において、弧の１つの線形列は、その列内の各単語に対する辞書８２４で検出された音素発音（音声表現綴り）を連結させることによって、単語仮説８１４内の各単語列仮説に対して形成される。また、最初又は最後の静寂、又は、通話者が話す前又は後の音声でない事象に対応する充填「音素」の選択セットは、列の最初及び最後で挿入される。充填音素は、また、アプリケーションを配置する単語又は文節での用語外音声を作るために使用される。また、選択的静寂又は停止音素が、各単語の間に挿入される。辞書８２４にて使用される発声表現単位及び発声表現発音は、語彙グラフ８１２（図８）にて使用され、第一パス８１０によって処理される音声表現単位及び発音に、必ずしも正確に対応しない。文脈依存音素モデルがＨＭＭグラフ８１４で使用される。すなわち、音素に対応するパラメータは、その音素の直前及び直後の音素に依存する。内単語共調音効果は、隣接単語への依存を有するため、単語の開始又は終了で音素の文脈依存を含めることによって、解説される。
【００４３】
ＨＭＭ認識部８２０は、処理中の発声音のフレームに対する（非正規化）ケプストラ特性を受け付ける。特性正規化１０４０は、ケプストラ特性の全列を取り、発声音内の全フレームにおけるケプストラ係数から各ケプストラ係数の発声音から中間値を差し引くことによって、正規化済特性１５０を計算する。
【００４４】
音声認識に通常使用される技術を用いて、ＨＭＭスコア１０３０は、各音声表現列の見込みが正規化済特性１０５０及び音声表現パラメータ８２２に基づく通話者によって発せられていたかを判断する。音声表現パラメータ８２２は、ケプストラ特性、及び、ＨＭＭモデルの各状態で発せられるデルタケプストラ特性（１つのフレームと直前のフレームでのケプストラ特性の差）を作るために対角共分散ガウシアン超関数の混合を使用する文脈依存ＨＭＭ音素モデルに対するパラメータを有する。ＨＭＭスコア部１０３０は、単語列仮説毎に、ＨＭＭスコア１０６０を計算する。
【００４５】
そして、単語仮説ソート部１０７０は、ＨＭＭスコアに従って、仮説を再度発生させるために、ＨＭＭスコアを取り、ソート済Ｎ最良リスト８２６を生成する。単語仮説ソート部１０７０は、また、第一パス８１０によって仮説毎に提供されたスコアを取り、ソート済Ｎ最良リスト８２６を決定するため、ＨＭＭスコアとそれらを組み合わせる。他実施例において、単語列の最良スコア付けのみが全Ｎ最良リストの提供よりも保たれる。
【００４６】
単語仮説をスコア付けすることに加えて、信頼スコア１０７２は、通話者が単語を実際に発したと言う確実性に関係付けられる単語列毎にスコアを決定する。スコアは、ＨＭＭスコア部からの結果同様、予備認識部によって決定された音声表現分類スコアにも依存する。単語仮説ソート部１７０によって選択された最良単語列に基づいて、平均音素スコアは、音声表現スコア部６３０によって計算される際に、その単語列に連携した音声表現列に対して、計算される。そして、ＨＭＭスコア部１０３０によって考えられる単語列毎に、全ＨＭＭ見込みの総和による単語列に対するＨＭＭ見込みの比（ログ見込みスコアの指数関数）が計算される。この比は、その単語列に対する信頼を生じるために、平均音素スコアが掛け算される。
【００４７】
最終モジュール２２０（図２）は、複数の最終認識部２２２を有する。図８に示される音声表現パラメータ８１１は、最終認識部間で共有される。それによって、汎用コンピュータで要求されるメモリの全体量が削減される。
【００４８】
他実施例において、可能な単語列のリストを計算するよりも、挿入された第一パス８１０可能な単語列のグラフを提供する。このグラフは、前述した実施例において、最良仮説のリストを計算するために使用された同様の方法で、動的プログラミング格子９００を用いることによって計算される。しかしながら、Ａ＊検査中の音素列の最良スコア付けを決定するよりも、それら最良の音素列に対応する単語の各開始及び終了時間が記録される。これら単語は、他の単語の終了時間と等しい開始時間の単語が、許容される単語列であれば、その他の単語に続くことができるように、グラフに配列される。したがって、最良音素列に対応する全単語列は、単語グラフを介して経路と連携される。また、グラフを介した経路は、個々に取られる最良の音素列のどれにも対応しない単語列に対応するであろう。この他実施例において、ＨＭＭグラフ構築１０１０は、第一パス８１０によって作成される単語グラフを取り、前実施例のように、単語列仮説毎の個別のＨＭＭグラフよりも、１つのＨＭＭグラフ１０２０を作成する。ＨＭＭスコア部１０３０は、ＨＭＭを介する経路にスコア付けし、ソート済Ｎ最良リスト８２６へ直接提供する単語列の最良スコア付けを決定する。
【００４９】
上記で説明したように、ＨＭＭ認識部８２０は、予備認識部８１０より異なるサブワード単位を使用することができる。上記実施例において、英語音素は、サブワード単位として使用される。その他実施例において、サブワード単位は、単語の部分のような、音素、音素対（２重音）、文脈依存音素（３重音）、音節、及び、単位に基づいた非言語形式を有することができる。
【００５０】
他実施例は、上述される認識システムの多種構成要素を実現するために、選択的アプローチを使用する。特に、予備認識部２１４の選択的実現は、文節間隔及びそれら間隔を測る音素のスコアを計算するために使用することができる。動的プログラミングアルゴリズムは、音素列での制約又は重み付けを導入するために予備認識部２１４で使用される。また、音素分類に従った２つのステップによる境界分類のアプローチを用いるよりも、ＨＭＭ又はアルゴリズムに基づいた同様の動的プログラミングを用いることができる。そのアプローチにおいて、予備認識部２１４によって受信されたフレーム毎に、動的プログラミングアルゴリズムが、スコアの格子を変更するために使用される。動的プログラミングアルゴリズムは、統計学的モデル又はＡＮＮを用いることによって決定されるＨＭＭ状態スコアによるビタビ音声認識アルゴリズムである。所定時間までに計算された格子スコアに基づいて、その時間又はその前に終了し、音声スコアに連携される文節間隔は、決定され、対応する最終認識部２２２へ渡される。
【００５１】
上記実施例において、３つのチャンネルは、各ＤＳＰによってサポートされる。チャンネル数は、ブート時間で決定される。また、入力及び特性キューのサイズは、サポートされるであろうアプリケーションに合うように設定される。例えば、短いプロンプトのみが提供されるアプリケーションにおいて、少ないチャンネル数が、長いプロンプトが提供されるアプリケーションよりも各ＤＳＰによって提供される。後者の場合、予備認識部は、通常、特性キュー内に未処理データを保有しておくよりも、通話者が話すのを待っている。
【００５２】
本発明は、詳細な説明と関連して記述されると共に、前述の説明は図示され、添付の請求項の範囲によって定義される本発明の範囲を逸脱するものではない。その他形態、効果及び改良は、続く請求項の範囲にある。
【００５３】
【図面の簡単な説明】
【図１】多重電話回線から入力された音声を認識するマルチプロセッサコンピュータを示す図である。
【図２】多重電話回線から入力された音声を認識するソフトウェア構成を示す図である。
【図３】ＤＳＰプロセッサ上で実行する１つのプロセッサのソフトウェア構成を示す図である。
【図４】エコー消去モジュールのデータフロー図である。
【図５】音声検出状態装置を示す図である。
【図６】ＤＳＰプロセッサ上で起動する予備認識部のソフトウェア構成を示す図である。
【図７】ＤＳＰ及び汎用プロセッサ間を通過する文節データを示す図である。
【図８】汎用プロセッサ上で起動する最終認識部のソフトウェア構成を示す図である。
【図９ａ】単語列仮説の形成において使用される動的プログラミング格子を示す図である。
【図９ｂ】単語列仮説の形成において使用される語彙グラフの一部を示す図である。
【図１０】汎用プロセッサ上で起動するＨＭＭ認識部のためのソフトウェア構成を示す図である。
【符号の説明】
２１２信号プロセッサ
２１４予備認識部
２２０最終モジュール
２２２最終認識部
２３０制御アプリケーション
３２０エコー消去部
３３０信号調整部
３４０信号フレーマー
３５０音声検出部
３６０特性抽出部
６０５多重部
６１０境界分類
６２０文節生成部
６３０音声表現分類
６３５非多重部
１０１０ＨＭＭグラフ構築
１０３０ＨＭＭスコア
１０４０特性正規化
１０７０単語仮説ソート部
１０７２信頼スコア

Claims

複数の通信チャンネルにて受信される発生音を認識する音声認識装置において、
各ディジタル信号処理手段が、１つの信号プロセッサが前記複数の通信チャネルのうちの１つに対応する複数の信号プロセッサと、該複数の信号プロセッサとによって共有され、該信号プロセッサによって処理された発音声の時間間隔に対応した各文節で成る一連の文節を計算する予備認識部とを有する複数のディジタル信号処理手段と、
１つの最終認識部が上記複数の信号プロセッサのうちの前記１つのプロセッサに対応する複数の最終認識部であって、上記予備認識部から文節を受信し、語彙グラフを使用して単語仮説を決定する複数の最終認識部を有する最終単語認識手段とを有し、
上記予備認識部は、複数のスコアが第一の複数のサブワード単位で上記時間間隔内の発声音の一致の度合いを特徴付けるように、上記発声音に連携される一連の文節を計算して、上記一連の文節を上記最終認識部に送信し、
上記最終認識部は、上記最終認識部と対応するデジタル信号処理手段からの上記一連の文節を受信して、上記発声音と連携される複数の単語列仮説を決定して、単語列仮説に単語を表現するために第二の複数のサブワード単位を用いる上記複数の単語列仮説に対して、スコアを計算する、
ことを特徴とする音声認識装置。
上記第一の複数のサブワード単位は音素のセットであって、上記第二の複数のサブワード単位は文脈依存音素のセットである、
ことを特徴とする請求項１記載の音声認識装置。
上記複数の単語列仮説に対するスコア計算は、
上記単語列仮説からグラフ表現を形成して、該グラフ表現が第二の複数のサブワード単位を用いる単語の表現を有するようにし、グラフ表現を介する複数の経路に対して、スコアを計算する、
ことを特徴とする請求項１載の音声認識装置。
上記複数の単語列仮説の決定は、
該各単語列仮説がグラフ表現を介する経路に連携されるように該グラフ表現を決定する、
ことを特徴とする請求項１記載の音声認識装置。
複数の通信チャンネルにて受信される発生音を認識する音声認識装置における、話中発声音における単語を認識する音声認識方法において、
上記音声認識装置は、
各ディジタル信号処理手段が、１つの信号プロセッサが前記複数の通信チャネルのうちの１つに対応する複数の信号プロセッサと、該複数の信号プロセッサとによって共有され、該信号プロセッサによって処理された発音声の時間間隔に対応した各文節で成る一連の文節を計算する予備認識部とを有する複数のディジタル信号処理手段と、
１つの最終認識部が上記複数の信号プロセッサのうちの前記１つのプロセッサに対応する複数の最終認識部であって、上記予備認識部から文節を受信し、語彙グラフを使用して単語仮説を決定する複数の最終認識部を有する最終単語認識手段とを有し、
上記予備認識部が、上記話中発声音のためのデータを受け付けて、複数のスコアが第一の複数のサブワード単位で上記時間間隔内の発声音の一致の度合いを特徴付けるように、上記発声音に連携される一連の文節を計算し、
上記最終認識部が、上記最終認識部と対応するデジタル信号処理手段からの上記一連の文節に基づいて、上記発声音に連携される複数の単語列仮説を決定し、単語列仮説に単語を表現するために第二の複数のサブワード単位を用いる上記複数の単語列仮説に対して、スコアを計算する、
ことを特徴とする音声認識方法。
上記複数の単語列仮説に対するスコア計算は、
該グラフ表現が第二の複数のサブワード単位を用いる単語の表現を有するように、上記単語列仮説からグラフ表現を形成し、
グラフ表現を介する複数の経路に対してスコアを計算する、
ことを特徴とする請求項５記載の方法。
上記グラフ表現を介する複数の経路に対するスコア計算は、
アルゴリズムに基づいたHidden Markovモデルを用いて経路にスコア付けする、
ことを特徴とする請求項６記載の方法。
上記複数の単語列仮説の決定は、
単語列のリストを決定する、
ことを特徴とする請求項５記載の方法。
上記複数の単語列仮説の決定は、
各単語列仮説が上記グラフ表現を介する経路に連携されるように単語グラフ表現を決定する、
ことを特徴とする請求項５記載の方法。