JP4132590B2

JP4132590B2 - 同時的な音声認識、スピーカ・セグメンテーション及びスピーカ分類のための方法及び装置

Info

Publication number: JP4132590B2
Application number: JP2000188625A
Authority: JP
Inventors: ハメイオン・サダル・モハマド・ベイギ; アラン・シャルル・ルイ・トレザー; マハシュ・ヴィズワナザン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1999-06-30
Filing date: 2000-06-23
Publication date: 2008-08-13
Anticipated expiration: 2020-06-23
Also published as: CN1174374C; JP2001060098A; CN1279462A

Description

【０００１】
【発明の属する技術分野】
本発明は、概して云えば、オーディオ情報分類システムに関し、詳しく云えば、オーディオ情報を転写（ｔｒａｎｓｃｒｉｂｅ）し、オーディオ・ファイルにおけるスピーカ（発声者）を識別するための方法及び装置に関するものである。
【０００２】
【従来の技術】
放送ニュース機構及び情報検索サービスのような多くの機構は、記憶及び検索のために大量のオーディオ情報を処理しなければならない。オーディオ情報は、主題又はスピーカの名前、或いはそれらの両方によって分類されなければならないことが多い。主題によってオーディオ情報を分類するためには、先ず、音声認識システムが、自動分類又はインデキシングのために、オーディオ情報をテキストの形に転写する。しかる後、照会／ドキュメント・マッチングを行って関連ドキュメントをユーザに戻すためにインデックスが使用可能である。
【０００３】
従って、主題によってオーディオ情報を分類するというプロセスは本質的には完全に自動化されたものになっている。しかし、スピーカによってオーディオ情報を分類するというプロセスは、特に、放送ニュースのようなリアルタイムの応用に対しては、大きな労力を要する仕事を残すことが多い。スピーカ登録情報を使用してオーディオ・ソースからスピーカを自動的に識別するための数多くの計算主体のオフライン・テクニックが提案されているけれども、スピーカ分類プロセスはヒューマン・オペレータによって最も頻繁に行われ、ヒューマン・オペレータは各スピーカの変更を識別し、対応するスピーカの識別を行う。
【０００４】
本発明の親出願（１９９９年４月９日出願の米国特許出願番号０９/２８８,７２４号）は、オーディオ・コンテント（主題）及びスピーカのアイデンティティに基づいてオーディオ情報を検索するための方法及び装置を開示している。タイム・スタンプされたコンテント・インデックス・ファイル及びスピーカ・インデックス・ファイルを作成するために、インデキシング・システムがオーディオ情報を転写し、そしてインデックスする。しかる後、その生成されたコンテント及びスピーカ・インデックスは、オーディオ・コンテント及びスピーカ・アイデンティティに基づいて照会／ドキュメント・マッチングを行うために利用可能である。オーディオ・ソースからオーディオ情報を自動的に転写し、同時にスピーカをリアルタイムで識別する方法及び装置に対する要求が存在する。ベイズ情報基準（Baysian Information Criterion−ＢＩＣ）に基づいてスピーカ・セグメンテーション及びクラスタリングの改良を提供する方法及び装置に対する更なる要求も存在する。
【０００５】
【発明が解決しようとする課題】
従って、本発明の目的は、オーディオ／ビデオ・ソースからのオーディオ情報を自動的に転写し、同時にスピーカを識別するための方法及び装置を開示することにある。
【０００６】
【課題を解決するための手段】
開示されたオーディオ転写及びスピーカ分類システムは、音声認識システム、スピーカ・セグメンテーション・システム、及びスピーカ識別システムを含む。本発明の１つの局面によれば、オーディオ情報は、マルチスレッド環境における並列ブランチに沿って音声認識システム、スピーカ・セグメンテーション・システム、及びスピーカ識別システムによって処理される。
【０００７】
音声認識システムは、転写物を、その転写物内の各ワードに対するタイム・アライメントを伴って作成する。スピーカ・セグメンテーション・システムはスピーカを個別化し、非同種の音声部分相互間にセグメント境界が存在するすべての可能なフレームを識別する。しかる後、スピーカ識別システムは、登録されたスピーカ・データベースを使用して、各識別されたセグメントにスピーカを割り当てる。
【０００８】
本発明は、マルチスレッド環境における並列ブランチに沿って音声認識システム、スピーカ・セグメンテーション・システム、及びスピーカ識別システムによって処理されるフィーチャ・ベクトルを計算するために共通のフロント・エンド処理を利用する。一般に、フィーチャ・ベクトルは、例えば、計算されたフィーチャ・ベクトルを各チャネル（各処理スレッドに対応する）に分配するするためにサーバのような態様で作用する共用メモリ・アーキテクチャを使用して、３つの多重処理スレッドに分配可能である。
【０００９】
本発明のもう１つの局面によれば、オーディオ／ビデオ・ソースからのオーディオ情報が同時に転写され及びセグメント境界を識別するためにセグメント化される。一旦音声セグメントがセグメンテーション・システムによって識別されると、スピーカ識別システムがその転写されたテキストの各部分にスピーカ・ラベルを割り当てる。
【００１０】
本願で開示されるセグメンテーション・プロセスは、オーディオ・データを通るパス上に、しかも、転写エンジンと同じパス上にあるセグメント境界であってスピーカ変更に対応するセグメント境界が存在するすべての可能なフレームを識別する。フレームは所定の期間にわたって音声特性を表す。セグメンテーション・プロセスは、２つのモデルを比較するモデル選択基準を使用して、所定のフレームにセグメント境界が存在するかどうかを決定する。第１モデルは、単一の全共分散ガウス分布（ｆｕｌｌ−ｃｏｖａｒｉａｎｃｅＧａｕｓｓｉａｎ）を使用するサンプル（ｘ_1,....,ｘ_n）のウインドウ内にセグメント境界が存在しないものと仮定する。第２モデルは、第１ガウス分布から得られた（ｘ₁,....,ｘ_i）及び第２ガウス分布から得られた（ｘ_i+1,....,ｘ_n）を持った２つの全共分散ガウス分布を使用するサンプル（ｘ₁,....,ｘ_n）のウインドウ内にセグメント境界が存在するものと仮定する。
【００１１】
本願で開示されるスピーカ識別システムは、登録されたスピーカ・データベースを使用して各識別されたセグメントにスピーカ・ラベルを割り当てる。スピーカ識別プロセスはセグメンテーション・プロセスによって識別されたターンを、共用のフロント・エンドによって生成されたフィーチャ・ベクトルと共に受け取る。一般に、スピーカ識別システムは登録されたスピーカ・データベースにセグメント発声音（ｕｔｔｅｒａｎｃｅ）を比較し、「最も近似した」スピーカを見つける。そのスピーカ識別システムのためのモデル・ベース方式及びフレーム・ベース方式が開示される。
【００１２】
本発明の結果は、例えば、転写されたテキストを、割り当てられたスピーカ・ラベルと共に各セグメントに供給するユーザに直接に出力可能である。更に、本発明の結果は１つ又は複数のデータベースに記録可能であり、オーディオ・コンテント及びスピーカのアイデンティティに基づいてオーディ情報に（及び間接的にはビデオに）参照を行うためにコンテント及びスピーカ・サーチ方法の結果を結合するという前記親出願において開示されたオーディオ検索システムのようなオーディオ検索システムによって利用可能である。
【００１３】
以下の詳細な説明及び図面を参照することによって、本発明の更に完全な理解及び本発明の更なる特徴及び利点の理解が得られるであろう。
【００１４】
【発明の実施の形態】
図１は、オーディオ／ビデオ・ソースからのオーディオ情報を自動的に転写し、同時にスピーカを識別するという本発明によるオーディオ転写及びスピーカ分類システム１００を示す。オーディオ／ビデオ・ソース・ファイルは、例えば、オーディオ・レコーディングであってもよく、或いは、例えば、放送のニュース・プログラムからの生番組であってもよい。オーディオ／ビデオ・ソースは、先ず、転写され、同時に、スピーカの変更を表すセグメント境界が存在するすべての可能なフレームを識別するように処理される。
【００１５】
オーディオ転写及びスピーカ分類システム１００は、音声認識システム、スピーカ・セグメンテーション・システム及びスピーカ識別システムを含む。音声認識システムは、転写物を、その転写物における各ワードに対するタイム・アライメントを伴って作成する。スピーカ・セグメンテーション・システムはスピーカを個別化し、セグメント境界が存在するすべての可能なフレームを識別する。セグメントは、所定のスピーカと関連したオーディオ・ソースの連続部分である。しかる後、スピーカ識別システムが各セグメントにスピーカ・ラベルを割り当てる。
【００１６】
図１は、本発明による例示的なオーディオ転写及びスピーカ分類システム１００のアーキテクチャを示すブロック図である。オーディオ転写及びスピーカ分類システム１００は、図１に示された汎用コンピュータ・システムのような汎用コンピュータ・システムとして具体化可能である。そのオーディオ転写及びスピーカ分類システム１００はプロセッサ１１０及びデータ記憶装置１２０のような関連メモリを含む。なお、データ記憶装置１２０は分散型又はローカル型のものでよい。プロセッサ１１０は単一のプロセッサとして、又は並行して動作する複数のローカル・プロセッサ又は分散プロセッサとして実施可能である。データ記憶装置１２０及び／又は読取り専用メモリ（ＲＯＭ）は１つ又は複数の命令を記憶するように動作可能であり、プロセッサ１１０はそれらの命令を検索、解釈、及び実行するように動作可能である。
【００１７】
望ましくは、データ記憶装置１２０は、本発明に従ってリアルタイムで処理可能な１つ又は複数の事前記録された又は生のオーディオ・ファイル又はビデオ・ファイル（或いは、それらの両方）を記憶するためのオーディオ・コーパス（ｃｏｒｐｕｓ）データベース１５０を含む。又、データ記憶装置１２０は、図２に関連して後述するタイム・スタンプ・ワード・データベース２００も含む。そのデータベース２００は音声認識システムによって生成されたものであり、一組のタイム・スタンプされたワードを含む。図３に関連して後述するスピーカ・ターン・データベース３００はスピーカ・セグメンテーション・システムと関連してスピーカ識別システムによって作成され、各セグメントの開始時間を、１つ又は複数の対応する提案されたスピーカ・ラベルと共に表示する。図４と関連して後述するスピーカ・データベース４２０はスピーカ登録プロセス４１０によって作成され、各登録されたスピーカに対するエントリを含む。図１の例示的な実施例に示されたそれらの生成されたデータベース２００及び３００は、本発明の結果がリアルタイムでユーザに表示されるオンライン・インプリメンテーションに対しては必要とされず、その後のアクセスのためにも必要とされないことに注意してほしい。
【００１８】
更に、図５及び図６に関連して後述するように、データ記憶装置１２０は、同時転写、セグメンテーション及びスピーカ識別プロセス５００、転写エンジン５１５，セグメンテーション・プロセス６００，及びスピーカ識別プロセス７００を含む。同時転写、セグメンテーション及びスピーカ識別プロセス５００は転写エンジン５１５，セグメンテーション・プロセス６００、及びスピーカ識別プロセス７００の実行を調整する。同時転写、セグメンテーション及びスピーカ識別プロセス５００はオーディオ・コーパス・データベース１５０における１つ又は複数のオーディオ・ファイルを分析し、各セグメントと関連するスピーカを表すオーディオ情報の転写をリアルタイムで作成する。セグメンテーション・プロセス６００はスピーカを個別化し、セグメント境界が存在するすべての可能なフレームを識別する。スピーカ識別プロセス７００は、登録されたスピーカ・データベースを使用する各セグメントにスピーカ・ラベルを割り当てる。
【００１９】
図２は、音声認識システムによって生成され、一組のタイム・スタンプされたワードを含む例示的なタイム・スタンプ・ワード・データベース２００を示す。そのタイム・スタンプ・ワード・データベース２００は、各々がその実施例における異なるワードと関連するレコード２１１乃至２１４のような複数のレコードを維持する。ワード・ストリング・フィールド２２０において識別された各ワードに対して、タイム・スタンプ・ワード・データベース２００は開始時間フィールド２３０においてそのワードの開始時間を表示する。
【００２０】
図３は例示的なスピーカ・ターン・データベース３００を示す。そのデータベース３００は、スピーカ・セグメンテーション・システムと関連してスピーカ識別システムによって作成され、１つ又は複数の対応する提案されたスピーカ・ラベルと共に各セグメントの開始時間を表す。スピーカ・ターン・データベース３００は、各々が実施例における種々のセグメントによって識別されるレコード３０５乃至３０８のような複数のレコードを維持する。フィールド３２０におけるセグメント番号によって識別された各セグメントに対して、スピーカ・ターン・データベース３００は、オーディオ・ソース・ファイルの開始時間に関するそのセグメントの開始時間をフィールド３３０において表示する。更に、スピーカ・ターン・データベース３００は、フィールド３４０において各セグメントと関連するスピーカを、フィールド３５０における対応するスピーカ・スコアと共に識別する。１つのインプリメンテーションでは、スピーカ・ターン・データベース３００はフィールド３６０において各セグメントと関連する１つ又は複数の代替えスピーカ（次の最適な予測）を、フィールド３７０における対応する代替えスピーカ・スコアと共に識別する。
【００２１】
Ａ．スピーカ登録プロセス
図４はスピーカを登録又はエンロールするために使用される既知のプロセスを示す。図４に示されるように、各登録されたスピーカに対して、スピーカの名前が、パルス・コード変調（ＰＣＭ）ファイルのようなスピーカ・トレーニング・ファイルと共にスピーカ登録プロセス４１０に供給される。スピーカ登録プロセス４１０はスピーカ・トレーニング・ファイルを分析し、スピーカ・データベース４２０において各スピーカに対するエントリを作成する。スピーカの音声サンプルをスピーカ・データベース４２０に加えるプロセスは登録と呼ばれる。その登録プロセスはオフラインであり、スピーカ識別システムは、関連するすべてのスピーカに対してそのようなデータベースが存在するものと仮定する。わずかな価値のオーディオに関して、一般には、各スピーカが複数のチャネル及びマイクロフォンから複数の音響的条件を包含することを要求される。登録されたスピーカのトレーニング・データ又はデータベースは、それらのモデルへのアクセスが効率的な認識及び検索のために最適化されるように階層構造を使用して記憶される。
【００２２】
Ｂ．プロセス
前述のように、図５に示された同時転写、セグメンテーション及びスピーカ識別プロセス５００は、転写エンジン５１５，セグメンテーション・プロセス６００（図６）及びスピーカ識別プロセス７００（図７）の実行を調整する。同時転写、セグメンテーション及びスピーカ識別プロセス５００は、オーディオ・コーパス・データベース１５０における１つ又は複数のオーディオ・ファイルを分析し、各セグメントと関連するスピーカを表すオーディオ情報の転写をリアルタイムで作成する。図５に示されるように、同時転写、セグメンテーション及びスピーカ識別プロセス５００は、先ず、ステップ５１０においてオーディオ・ファイルからセプストラル（ｃｅｐｓｔｒａｌ）フィーチャを既知の方法で抽出する。一般に、ステップ５１０はオーディオ信号のドメインを時間的ドメインから周波数ドメインに変更し、種々の周波数帯における信号エネルギを分析し、その信号のドメインをセプストラル・ドメインに変更するためにもう１つの変換を使用する。
【００２３】
図５に示されるように、ステップ５１０は、転写エンジン５１５，セグメンテーション・プロセス６００（図６）及びスピーカ識別プロセス７００（図７）に共通のフロント・エンド処理を提供する。一般に、ステップ５１０において計算されたフィーチャ・ベクトルは、転写エンジン５１５，セグメンテーション・プロセス（図６）及びスピーカ識別プロセス７００（図７）に対応する３つの多重処理スレッドに分配可能である。それらのフィーチャ・ベクトルは、例えば、計算されたフィーチャ・ベクトルを各チャネル（各処理スレッドに対応する）に分配するためにサーバのような態様で作用する共用メモリ・アーキテクチャを使用して３つの多重処理スレッドに分配可能である。
【００２４】
ステップ５１０において生成されたフィーチャ・ベクトルは、多重スレッド環境において並列ブランチに沿って処理される。図５に示され且つ後述されるように、生成されたフィーチャ・ベクトルは多重スレッドを使用して
（ｉ）ステップ５１５において転写エンジン、
（ii）ステップ５３０において、図６に関連して後述されるスピーカ・セグメンテーション・プロセス６００、及び
（iii）ステップ５６０において、図７に関連して後述されるスピーカ識別プロセス７００
に適用される。
【００２５】
ステップ５１５において、それらの生成されたフィーチャ・ベクトルは、タイム・スタンプされたワードの転写ファイルを生成するために、ＩＢＭ社から商業的に入手可能なＶｉａＶｏｉｃｅ（商標）音声認識システムのような転写エンジンに供給される。しかる後、それらのタイム・スタンプされたワードは、ステップ５２０においてタイム・スタンプ・ワード・データベース２００の中に任意選択的に収集可能である。更に、それらのタイム・スタンプされたワードは後述のステップ５４０においてインタリーバに供給される。
【００２６】
生成されたフィーチャ・ベクトルは、ステップ５３０において、図６に関連して後述されるセグメンテーション・プロセス６００に適用される。一般に、セグメンテーション・プロセス６００はスピーカを個別化し、非同種の音声部分相互間にセグメント境界が存在するすべての可能なフレームを識別する。セグメント境界が存在する各フレームはターンと呼ばれ、同種の各セグメントは単一のスピーカの音声に対応しなければならない。一旦セグメンテーション・プロセス６００によって描出されると、各セグメントは（そのセグメントがスピーカ認識システムに対して要求される最小セグメント長の要件に合致すると仮定して）特定のスピーカによって発声されたものとして分類可能である。
【００２７】
セグメンテーション・プロセス６００によって識別されたターンは、登録されたスピーカ・データベース４２０を使用して各セグメントにスピーカ・ラベルを割り当てるために、ステップ５１０において生成されたフィーチャ・ベクトルと共に、ステップ５６０において、図７と関連して後述されるスピーカ識別プロセス７００に適用される。一般に、スピーカ識別システムはセグメント発声音をスピーカ・データベース４２０に比較し（図４）、「最も近似した」スピーカを見つける。スピーカ識別プロセス７００によって作成されたその割り当てられたスピーカ・ラベルは後述のステップ５５０に供給される。
【００２８】
ステップ５１５において転写エンジンによって作成されたタイム・スタンプ済みワードは、ステップ５３０においてセグメンテーション・プロセス６００によって識別されたスピーカ・ターンと共に、ステップ５４０においてインタリーバに適用され、それらのターンをタイム・スタンプ済みワードとインタリーブさせ、切り離された音声セグメントを作成させる。しかる後、切り離された音声セグメント及びステップ５６０においてスピーカ識別システムにより生成されたスピーカ識別子がステップ５５０においてユーザに表示される。
【００２９】
１つのインプリメンテーションでは、切り離された音声セグメントは、それらがステップ５４０においてインタリーバによって作成された時にリアルタイムで表示される。更に、例示的な実施例では、そのスピーカ認識システムに対して要求される最小セグメント長は８秒である。従って、一般には、分離された音声セグメントの始まりが最初に与えられた後約８秒で、スピーカ識別ラベルがその転写されたテキストに付加される。切り離された音声セグメントがそのスピーカ認識システムに対して要求される最小セグメント長よりも短い場合、「未定（ｉｎｃｏｎｃｌｕｓｉｖｅ）」のようなスピーカ・ラベルがそのセグメントに割り当て可能であることに注意すべきである。
【００３０】
Ｃ．ベイズ情報基準（ＢＩＣ）の背景
前述のように、図６に示されたセグメンテーション・プロセス６００はスピーカを個別化し、非同種の音声部分相互間にセグメント境界が存在するすべての可能なフレームを識別する。セグメント境界が存在する各フレームはターンと呼ばれ、同種の各セグメントは単一のスピーカの音声に対応しなければならない。一旦セグメンテーション・プロセス６００によって描出されると、各セグメントは（そのセグメントがスピーカ認識システムに対して要求された最小セグメント長の要件に合致していると仮定して）特定のスピーカによって発声されたものとして分類可能である。セグメンテーション・プロセス６００はベイズ情報基準（ＢＩＣ）のモデル選択基準に基づくものである。ＢＩＣは、ｐ個のパラメータ・モデルのうちのどれがｎ個のデータ・サンプルｘ₁,....,ｘ_n,ｘ_i∈Ｒ^dを最もよく表すかを決定するするために使用される漸近的に最適なベイズのモデル選択基準である。各モデルＭ_iは複数のパラメータｋ_jを有する。サンプルｘ_iは独立したものである仮定する。
【００３１】
ＢＩＣの原理に関する詳細な検討のためには、例えば、The Annals of Statistics 誌の第６巻４６１−４６４ページ（１９７８）における G.Schwarz 氏による「モデルの寸法の見積り（Estimating the Dimension of a Model）」と題した論文を参照してほしい。そのＢＩＣの原理によれば、十分に大きいｎに対して、データの最良のモデルは次式を最大化するものである。
ＢＩＣ_j＝ｌｏｇＬ_j（ｘ₁,...,ｘ_n）−（λｋ_jｌｏｇｎ）／２
但し、λ＝１であり、Ｌ_jはモデルＭ_iにおけるデータの最大見込み値（換言すれば、Ｍ_iのｋ_jパラメータに対する最大の見込み値をもったデータの見込み値）である。２つのモデルしか存在しない時、モデル選択のために簡単なテストが使用される。特に、ΔＢＩＣ=ＢＩＣ₁−ＢＩＣ₂が正である場合、モデルＭ_iがモデルＭ₂に優先して選択される。同様に、ΔＢＩＣ＝ＢＩＣ₁−ＢＩＣ₂が負である場合、モデルＭ₂がモデルＭ₁に優先して選択される。
【００３２】
Ｄ．スピーカ・セグメンテーション
図６に示されたセグメンテーション・プロセス６００は、セグメント境界が存在するすべての可能なフレームを識別する。汎用性を損なうことなく、精々１つのセグメント境界しか存在しない連続したデータ・サンプル（ｘ₁,....,ｘ_n）のウインドウを考察する。
【００３３】
フレームｉにおいてセグメント境界が存在するかどうかに関する基本的な疑問が次のような２つのモデル、即ち、モデルＭ₁及びモデルＭ₂の間のモデル選択問題として生じ得る。なお、モデルＭ₁は（ｘ₁,...,ｘ_n）が単一の全共分散ガウス分布から得られる場合であり、モデルＭ₂は（ｘ₁,....ｘ_i）が第１ガウス分布から得られ、（ｘ_i+1,....ｘ_n）が第２ガウス分布から得られることによって（ｘ₁,...,ｘ_n）が２つの全共分散ガウス分布から得られる。
【００３４】
ｘ_i∈Ｒ^dであるので、モデルＭ₁はｋ₁＝ｄ＋ｄ（ｄ＋１）／２のパラメータを有し、一方、モデルＭ₂は２倍のパラメータ（ｋ₂＝２ｋ₁）を有する。次式が負である場合、ｉ番目のフレームがセグメント境界に対する良好な候補であることがわかる。
【数１】

【００３５】
但し、|Σ_w|はウインドウ全体（即ち、ｎ個のフレームすべて）の共分散の行列式である。|Σ_f|はそのウインドウの第１サブディビジョンの共分散の行列式であり、|Σ_s|はそのウインドウの第２サブディビジョンの共分散の行列式であり、λはペナルティ・ウェート・パラメータであり、ｄはフィーチャ・ベクトルの次元である。
【００３６】
従って、ステップ６１０において、２つのサブサンプル（ｘ₁,...,ｘ_i）及び（ｘ_i+1,...,ｘ_n）が連続的なデータ・サンプル（ｘ₁,...,ｘ_n）のウインドウから設定される。セグメンテーション・プロセス６００はステップ６１５乃至６２８において数多くのテストを行い、境界の検出があまりありそうもないロケーションにそのウインドウにおけるいくつかのＢＩＣテストが対応する時、それらのテストを排除する。特に、ステップ６１５において、可変数αの値が（ｎ／ｒ）−１の値に初期設定される。但し、ｒは（フレームにおける）検出解像度である。しかる後、ステップ６２０において、その値αが最大値α_maxを越えるかどうかを決定するためのテストが行われる。ステップ６２０において値αが最大値α_maxを越えることが決定される場合、ステップ６２４において、カウンタｉが(α−α_max＋１）ｒの値に設定される。しかし、ステップ６２０において、値αが最大値α_maxを越えないことが決定される場合、ステップ６２８において、カウンタｉがｒの値に設定される。しかる後、ステップ６３０において、上記の式を使用してＢＩＣ値における差が計算される。
【００３７】
ステップ６４０において、カウンタｉの値がｎ−ｒに等しいかどうか、換言すれば、ウインドウにおけるすべての可能なサンプルが評価されてしまったかどうかを決定するためのテストが行われる。ステップ６４０においてカウンタｉの値がｎ−ｒに等しくないことが決定される場合、ステップ６５０においてそのｉの値がｒだけインクレメントされ、ステップ６３０においてウインドウにおける次のサンプルに対する処理を継続する。しかし、ステップ６４０においてカウンタｉの値がｎ−ｒに等しいことが決定される場合、ステップ６６０において、ＢＩＣ値における最小の差（ΔＢＩＣ_i0）が負であるかどうかを決定するための更なるテストが行われる。ステップ６６０において、ＢＩＣ値における最小の差（ΔＢＩＣ_i0）が負でないことが決定される場合、新しいウインドウを上記方法で考察するためにステップ６１０へ戻る前に、ステップ６６５においてウインドウ・サイズが増加させられる。従って、１つのウインドウにおけるすべてのカウンタｉに対するΔＢＩＣ値が計算され、それらのうちのいずれも負のΔＢＩＣ値をもたらすものでない時、ウインドウ・サイズｎが増加させられるだけである。
【００３８】
しかし、ステップ６６０において、ＢＩＣ値における最小の差が負であることが決定される場合、ステップ６７０において、ｉ₀がセグメント境界として選択される。しかる後、ステップ６７５において、新しいウインドウの始まりがｉ₀＋１に移り、ウインドウ・サイズがＮ₀に設定され、その後、新しいウインドウを上記の方法で考察するためにプログラム制御はステップ６１０に戻る。
【００３９】
従って、i のすべての可能な値に対してＢＩＣ差のテストが行われ、最大の負のΔＢＩＣ_iによってｉ₀が選択される。そのウインドウではフレームｉにおいてセグメント境界が検出可能である。ΔＢＩＣ_i0＜０である場合、ｘ_i0がセグメント境界に対応する。そのテスト結果が否定的である場合、後述のように、ステップ６６０において更なるデータ・サンプルが（パラメータｎを増加させることによって）現ウインドウに加えられ、フィーチャ・ベクトルがすべてセグメント化されてしまうまで、プロセスはデータ・サンプルのこの新しいウインドウに関して反復される。一般に、ウインドウ・サイズは、自身が１つのウインドウ拡張から別のウインドウ拡張に増加する複数のフィーチャ・ベクトルによって拡張される。しかし、ウインドウは、或る最大値よりも大きい多数のフィーチャ・ベクトルによっては拡張されることはない。ステップ６７０においてセグメント境界が検出された時、ウインドウ拡張値はそれの最小値（Ｎ₀）を検索する。
【００４０】
Ｅ．可変ウインドウ方式
本発明のもう１つの特徴によれば、特に小さいセグメントにおける全体の精度を改良する新しいウインドウ選択方式が提供される。セグメンテーション・プロセス６００が遂行されるウインドウ・サイズの選択は非常に重要である。その選択されたウインドウがあまりにも多くのベクトルを含む場合、いくつかの境界が脱落することがある。一方、選択されたウインドウが小さ過ぎる場合、情報の不足の結果、ガウス分布によるデータの表示が不十分になるであろう。
【００４１】
セグメント境界が検出されなかった場合、一定量のデータを現ウインドウに加えることが提案された。そのような方式は、精度を改良するために「前後関係（ｃｏｎｔｅｘｔｕａｌｉｎｆｏｒｍａｔｉｏｎ）」を利用するものではない。セグメント境界が検出されても又はされなくても、或いは境界が長い間検出されなくても、同じ量のデータが加えられる。
【００４２】
本発明の改良されたセグメンテーション・プロセスは、新しい境界が生じそうなエリアにおける比較的少量のデータを考察し、新しい境界が生じそうもない時にはウインドウ・サイズをもっと大きく増加させる。先ず、小さいサイズのベクトルのウインドウ（一般には、１００フレームの音声）を考察する。現ウインドウにおいてセグメント境界が検出されない場合、ウインドウのサイズはΔＮ_iフレームだけ増加する。この新しいウインドウにおいて境界が検出されない場合、フレームの数はΔＮ_i+1だけ増加する。なお、セグメント境界が検出されるまで、又はウインドウ拡張が最大サイズに達してしまうまで（境界が生じる場合に精度の問題を回避するために）、ΔＮ_i=ΔＮ_i+1＋δ_iである。但し、δ＝２δ_i+1である。これは、ウインドウが依然として小さい時にはかなり遅いウインドウ・サイズの増加及びウインドウが大きくなる時には速いウインドウ・サイズの増加を保証する。ウインドウ内でセグメント境界が検出される時、最小のウインドウ・サイズを使用して次のウインドウがその検出された境界の後に始まる。
【００４３】
Ｆ．ＢＩＣテストの効率の改良
本発明のもう１つの特徴によれば、ＢＩＣテストが行われるロケーションの良好な選択によって処理時間全体の改良が得られる。ウインドウにおけるＢＩＣテストのうちの或るものは、境界の検出がありそうもないロケーションにそれらが対応する時、任意に排除可能である。先ず、ＢＩＣテストは各ウインドウの境界においては行われない。それは、それが非常にわずかなデータでもって１つのガウス分布を必ず表示するためである（この明らかに小さいゲインがセグメント検出を通して繰り返され、実際には、それは無視し得るパフォーマンス・インパクトを持たない）。
【００４４】
更に、現ウインドウが大きい時にＢＩＣテストがすべて行われる場合、何らかの新しい情報が加えられる度に、そのウインドウの開始時においてＢＩＣ計算が何回も行われたであろう。例えば、１０秒のウインドウ・サイズにおいて最初の５秒内にセグメント境界が検出されなかった場合、１０秒の現ウインドウの拡張によって、最初の５秒内に境界が認められるということは全くありそうもない。従って、（ウインドウ拡張に続く）現ウインドウの始まりにおけるＢＩＣ計算を無視することによってＢＩＣ計算の数を減少させることができる。実際には、ＢＩＣ計算の最大数は、今や、必要とされる速度／精度レベルに従って調整された調節可能なパラメータ（図３におけるα_max）である。
【００４５】
従って、セグメンテーション・プロセス６００は、セグメンテーション情報に関する何らかのフィードバックを持つ前にそれが必要とする最大時間を知ることを可能にする。それは、たとえセグメント境界が検出されなくても、ウインドウが十分に大きい場合、第１フレームにセグメントが存在しないということがわかるためである。この情報は速度信号のうちのこの部分に関して別の処理を行うために使用可能である。
【００４６】
Ｇ．ＢＩＣペナルティ・ウェート
ＢＩＣの式は、理論と基準に関する実用的な応用との間の差を補うために、ペナルティ・ウェート・パラメータλを利用する。ミス率と誤警報率との間の良好なトレード・オフを与えるλの最良値は１.３であることがわかっている。放送ニュースの転写に対するセグメンテーション精度に関するλの影響をより総合的に研究するためには、M.S.Thesis, Institut Eurecom 誌（フランス、１９９８）における A. Tritschler 氏による「ＢＩＣを使用したセグメンテーション・イネーブルド音声認識アプリケーション（A Segmentation-Enabled Speech Recognition Application）」と題した論文を参照してほしい。
【００４７】
原則として、係数λはタスク依存のものであり、新しいタスク毎に戻されなければならないけれども、実際には、そのアルゴリズムは種々のタイプのデータに適用されており、同じ値のλを使用することによるパフォーマンスにおける認め得る程度の変化は存在しない。
【００４８】
Ｈ．スピーカ識別プロセス
前述のように、同時転写、セグメンテーション及びスピーカ識別プロセス５００は、ステップ５６０において、図７に示されたスピーカ識別プロセス７００を実行し、登録されたスピーカ・データベース４２０を使用して各セグメントにスピーカ・ラベルを割り当てる。図７に示されるように、スピーカ識別プロセス７００は、ステップ５１０において共通のフロント・エンド・プロセッサによって生成されたフィーチャ・ベクトルと共に、セグメンテーション・プロセス６００によって識別されたターンを受け取る。一般に、スピーカ識別システムはスピーカ・データベース４２０（図４）にセグメント発声音を比較し、「最も近似した」スピーカを検出する。
【００４９】
ターン及びフィーチャ・ベクトルは、ステップ７１０において、単一のスピーカによる音声のチャンクより成るセグメント発声音を形成するように処理される。ステップ７２０において、セグメント発声音がスピーカ識別システムに供給される。スピーカ識別システムを検討するためには、例えば、Proc. of Speaker Recognition and Its Commercial and Forensic Application, Avignon, France（1998）誌における H.S.M.Beigi 氏他による「ＩＢＭモデル・ベース及びフレーム毎のスピーカ認識（IBM Model-Based and Frame-By-Frame Speaker-Recognition）」と題した論文を参照してほしい。一般に、スピーカ識別システムはセグメント発声をスピーカ・データベース４２０（図４）に比較し、「最も近似した」スピーカを検出する。
【００５０】
スピーカ識別システムは２つの異なるインプリメンテーション、即ち、モデル・ベース方式及びフレーム・ベース方式を有し、それらは付随した利点及び欠点を有する。エンジンは、放送ニュースのような番組の生のオーディオ・インデキシングを容易にするために独立したテキスト及び言語の両方である。
【００５１】
Ｉ．スピーカ識別（モデル・ベース方式）
スピーカの母集団に対して一組のトレーニング・モデルを作成するために、下記のようなｄ次元のフィーチャ・ベクトルを持ったＭ個の音声フレームのシーケンスに基づいたｉ番目のスピーカに対するモデルＭ_iが計算される。
【数２】

【００５２】
これらのモデルは、ガウス分布が選択される場合に対して、平均ベクトル、共分散マトリックス、及びカウントより成る下記のようなそれらの統計的パラメータによって記憶される。なお、各スピーカｉはｎ_i個の分布よりなるモデルでもって終わり得るものである。
【数３】

【００５３】
２つのそのようなモデルを比較するために、Proc. ICASSP98 誌（Seattle, WA, 1998）における H.S.M. Beigi 氏他による「分布の集合体相互間の距離測定法及びスピーカ認識に対するそれの応用（A Distance Measure Between Collections of Distributions and Its Application to Speaker Recognition）」と題した論文において提案された距離測定法を使用して、スピーカ識別（クレームを実証する）、スピーカ分類（スピーカを割り当てる）、スピーカ検証（ラベルされたスピーカの特性に匹敵する特性を持ったスピーカの「コーホート（ｃｏｈｏｒｔ）」セットとラベルを比較することによって分類を確認するための第２パス）、及びスピーカ・クラスタリングを含む多くの種々な機能を持ったスピーカ認識システムを考案するために階層構造が作成される。
【００５４】
スピーカ認識のために考案されたその距離測定法は、異なる数の分布ｎ_iを持った受容可能な距離の計算を可能にする。２つのスピーカをそれらのパラメータ的な表示に基づいて比較するだけで、２つのスピーカを比較するというそのタスクを計算主体でないものにするという特徴を常に持つ必要がなくなる。しかし、認識段階に対するこの距離測定法の欠点は、比較の計算が始まる前に個々のテストのモデル（要求者：Ｃｌａｉｍａｎｔ）を形成するために音声セグメント全体が使用されなければならないということである。フレーム・ベース方式はこの欠点を緩和する。
【００５５】
Ｊ．スピーカ識別（フレーム・ベース方式）
Ｍ_iをｉ番目の登録されたスピーカに対応するモデルであると仮定する。Ｍ_iは、スピーカｉのガウス混合モデル（ＧＭＭ）のｎ_i個のコンポーネントの各々に対する平均ベクトル、共分散マトリクス、及び混合ウェートより成る次のようなパラメータ・セットによって全体的に定義される。
【数４】

【００５６】
これらのモデルは、前のセクションにおいて説明したように、下記のようなｄ次元のフィーチャ・ベクトルを持ったＭ個の音声フレームのシーケンスより成るトレーニング・データを使用して作成される。
【数５】

【００５７】
スピーカ母集団のサイズがＮ_pである場合、モデル・ユニバースのセットは次のようになる。
【数６】

【００５８】
基本的な目的は、次式のようなＮ個のフレームのシーケンスとして表されたテスト・データをＭ_iが最もよく示しているというようなｉを見つけること、及びそれらのモデルのうちデータを十分に記述するものがないという決定を行うことである。
【数７】

【００５９】
次のようなフレーム・ベースのウェート付けされた距離測定法ｄ_i,nはその決定を行う場合に使用される。
【数８】

【００６０】
但し、正規の表示を使用すると、次のようになる。
【数９】

【００６１】
テスト・データからのモデルＭ_iの合計距離Ｄ_iはテスト・フレームの合計数を超えたすべての距離の和であると見なされる。
【００６２】
分類のために、音声セグメントのモデルまでの最小距離を持ったモデルが選択される。その最小距離を背景モデルの距離に比較することによって、オリジナル・モードのうちのいずれも十分に合致しないことを表示するための方法を提供することが可能である。別の方法として、合計距離を計算するために投票集計技法が使用可能である。
【００６３】
検証のために、ラベルされたスピーカのコーホートを形成する所定セットのメンバが種々のバックグラウンド・モデルでによって増大する。このセットをモデル・ユニバースとして使用すると、テスト・データは、要求者（Ｃｌａｉｍａｎｔのモデルが最小距離を有するかどうかをテストすることによって検証される。そうでない場合、それは拒絶される。
【００６４】
この距離測定法は、スピーカ相互間の距離を計算するために音声のフレームが保持されなければならないので、トレーニングでは使用されない。従って、トレーニングは、前述のモデル・ベースのテクニックのための方法を使用して行われる。
【００６５】
ステップ７２０において生成されたその割り当てられたスピーカ・ラベルは、下記のように、ユーザへ出力するために任意選択的にブロック５５０（図５）への暫定的提供が可能である。ステップ７３０において、その割り当てられたスピーカ・ラベルは、スピーカ分類の結果に関して第２パスを行うことによって検証される。ステップ７３０においてスピーカ識別が検証される場合、そのスピーカ・ラベルはユーザへの出力のためにブロック５５０（図５）に供給される。更に、ステップ７４０において、オリジナルの登録されたスピーカ・モデルからオーディオ・テスト・セグメントまでの距離を表す割り当てられたスコアと共に、最善の選択を表すエントリ、又は、望ましい場合には、代替えの選択を表すエントリを、スピーカ・ターン・データベース３００において任意選択的に作成することが可能である。
【００６６】
本願において開示され及び図示された実施例並びにその変形は単に本発明の原理を説明するものであること、及び本発明の技術的範囲及び精神から逸脱することなく種々の修正を当業者が実施することが可能であることは理解されるべきである。
【００６７】
まとめとして、本発明の構成に関して以下の事項を開示する。
【００６８】
（１）１つ又は複数のオーディオ・ソースからオーディオ情報を転写するための方法にして、
前記オーディオ情報のテキスト・バージョンを作成するために前記オーディオ・ソースを転写するステップと、
前記転写するステップと実質的に同時に前記オーディオ・ソースにおける潜在的なセグメント境界を識別するステップと、
識別された各セグメントにスピーカ・ラベルを割り当てるステップと、
を含む方法。
（２）前記転写するステップは前記オーディオ・ソースにおける各ワードに対してタイム・アライメントを持った転写を作成することを特徴とする請求項１に記載の方法。
（３）前記識別するステップは非同種の音声部分相互間にセグメント境界が存在するすべての可能なフレームを識別することを特徴とする請求項１に記載の方法。
（４）前記割り当てるステップは登録されたスピーカ・データベースを利用してスピーカ・ラベルを各識別されたセグメントに割り当てることを特徴とする請求項１に記載の方法。
（５）前記割り当てるステップは前記割り当てられたスピーカ・ラベルの信頼性を表すスコアを割り当てるステップを更に含むことを特徴とする請求項１に記載の方法。
（６）前記割り当てるステップは前記割り当てられたスピーカ・ラベルに対して少なくとも１つの別の選択を割り当てるステップを更に含むことを特徴とする請求項１に記載の方法。
（７）前記転写するステップ、識別するステップ、及び割り当てるステップはマルチ・スレッド環境では並列処理ブランチにおいて行われることを特徴とする請求項１に記載の方法。
（８）前記識別するステップはＢＩＣモデル選択基準を使用してセグメント境界を識別することを特徴とする請求項１に記載の方法。
（９）１つ又は複数のオーディオ・ソースからオーディオ情報を転写するための方法にして、
前記オーディオ情報からフィーチャ・ベクトルを計算するステップと、
（ａ）前記オーディオ・ソースを転写して前記オーディオ情報のテキスト・バージョンを作成するために、
（ｂ）前記オーディオ・ソースにおける潜在的なセグメント境界を識別するために、及び
（ｃ）各識別されたセグメントにスピーカ・ラベルを割り当てるために、
前記フィーチャ・ベクトルを３つの並列処理ブランチに適用するステップと、
を含む方法。
（１０）前記フィーチャ・ベクトルは共用メモリ・アーキテクチャを使用して前記並列処理ブランチに適用されることを特徴とする請求項９に記載の方法。
（１１）前記共用メモリ・アーキテクチャは前記計算されたフィーチャ・ベクトルを前記並列処理ブランチの各々に対応するチャネルに分配することを特徴とする請求項１０に記載の方法。
（１２）前記転写するステップは前記オーディオ・ソースにおける各ワードに対してタイム・アライメントを持った転写物を作成することを特徴とする請求項９に記載の方法。
（１３）前記識別するステップは非同種の音声部分相互間にセグメント境界が存在するすべての可能なフレームを識別することを特徴とする請求項９に記載の方法。
（１４）前記割り当てるステップは登録されたスピーカ・データベースを利用してスピーカ・ラベルを各識別されたセグメントに割り当てることを特徴とする請求項９に記載の方法。
（１５）前記割り当てるステップは前記割り当てられたスピーカ・ラベルの信頼性を表すスコアを割り当てるステップを更に含むことを特徴とする請求項９に記載の方法。
（１６）前記割り当てるステップは前記割り当てられたスピーカ・ラベルに対して少なくとも１つの別の選択を割り当てるステップを更に含むことを特徴とする請求項９に記載の方法。
（１７）前記識別するステップはＢＩＣモデル選択基準を使用してセグメント境界を識別することを特徴とする請求項９に記載の方法。
（１８）１つ又は複数のオーディオ・ソースからオーディオ情報を転写するためのシステムにして、
コンピュータ読み取り可能なコードを記憶するメモリと、
前記メモリに動作関係に結合され、前記コンピュータ読み取り可能なコードをインプリメントするように構成されたプロセッサと、
を含み、
前記コンピュータ読み取り可能なコードは、
前記オーディオ・ソースを転写して前記オーディオ情報のテキスト・バージョンを作成するように、
前記転写と実質的に同時に前記オーディオ・ソースにおける潜在的なセグメント境界を識別するように、及び
各識別されたセグメントにスピーカ・ラベルを割り当てるように、
構成されることを特徴とするシステム。
（１９）コンピュータ読み取り可能なプログラム・コード手段を組み込まれたコンピュータ読み取り可能な媒体を含み、
前記コンピュータ読み取り可能なプログラム・コード手段は、
オーディオ情報のテキスト・バージョンを作成するためにオーディオ・ソースを転写するステップと、
前記転写するステップと実質的に同時に前記オーディオ・ソースにおける潜在的なセグメント境界を識別するステップと、
識別された各セグメントにスピーカ・ラベルを割り当てるステップと、
を含むことを特徴とする製造物。
（２０）１つ又は複数のオーディオ・ソースからオーディオ情報を転写するためのシステムにして、
コンピュータ読み取り可能なコードを記憶するメモリと、
前記メモリに動作関係に結合され、前記コンピュータ読み取り可能なコードをインプリメントするように構成されたプロセッサと、
を含み、
前記コンピュータ読み取り可能なコードは、
前記オーディオ情報からフィーチャ・ベクトルを計算し、
（ｉ）前記オーディオ・ソースを転写して前記オーディオ情報のテキスト・バージョンを作成するために、
（ii）前記オーディオ・ソースにおける潜在的なセグメント境界を識別するために、及び
（iii）各識別されたセグメントにスピーカ・ラベルを割り当てるために、
前記フィーチャ・ベクトルを３つの並列処理ブランチに適用する
ように構成されることを特徴とするシステム。
（２１）コンピュータ読み取り可能なプログラム・コード手段を組み込まれたコンピュータ読み取り可能な媒体を含み、
前記コンピュータ読み取り可能なプログラム・コード手段は、
前記オーディオ情報からフィーチャ・ベクトルを計算するステップと、
（ｉ）前記オーディオ・ソースを転写して前記オーディオ情報のテキスト・バージョンを作成するために、
（ii）前記オーディオ・ソースにおける潜在的なセグメント境界を識別するために、及び
（iii）各識別されたセグメントにスピーカ・ラベルを割り当てるために、
前記フィーチャ・ベクトルを３つの並列処理ブランチに適用するステップと、
を含むことを特徴とする製造物。
（２２）１つ又は複数のオーディオ・ソースからオーディオ情報を転写するための方法にして、
前記オーディオ情報のテキスト・バージョンを作成するために前記オーディオ・ソースを転写するステップと、
前記オーディオ・ソースにおける潜在的なセグメント境界を識別するステップと、
識別された各セグメントにスピーカ・ラベルを割り当てるステップと、
前記転写するステップ、識別するステップ、及び割り当てるステップと実質的に同時に前記テキスト・バージョンを前記割り当てられたスピーカ・ラベルと共に供給するステップと、
を含む方法。
（２３）１つ又は複数のオーディオ・ソースからオーディオ情報を転写するための方法にして、
前記オーディオ情報からフィーチャ・ベクトルを計算するステップと、
（ｉ）前記オーディオ・ソースを転写して前記オーディオ情報のテキスト・バージョンを作成するために、
（ii）前記オーディオ・ソースにおける潜在的なセグメント境界を識別するために、及び
（iii）各識別されたセグメントにスピーカ・ラベルを割り当てるために、
前記フィーチャ・ベクトルを３つの並列処理ブランチに適用するステップと、
前記転写するステップ、識別するステップ、及び割り当てるステップと実質的に同時に前記テキスト・バージョンを前記割り当てられたスピーカ・ラベルと共に供給するステップと、
を含む方法。
【図面の簡単な説明】
【図１】本発明によるオーディオ転写及びスピーカ分類システムのブロック図である。
【図２】図１のタイム・スタンプされたワード・データベースからのテーブルである。
【図３】図１のスピーカ・ターン・データベースからのテーブルである。
【図４】本発明による代表的なスピーカ登録プロセスを示す。
【図５】図１のオーディオ転写及びスピーカ分類システムによって遂行される例示的な同時転写、セグメンテーション及びスピーカ識別プロセスを説明するフローチャートである。
【図６】図１のオーディオ転写及びスピーカ分類システムによって遂行される例示的なセグメンテーション・プロセスを説明するフローチャートである。
【図７】図１のオーディオ転写及びスピーカ分類システムによって遂行される例示的なスピーカ識別プロセスを説明するフローチャートである。

Claims

１つ又は複数のオーディオ・ソースからオーディオ情報を転写するための方法にして、
前記オーディオ情報からフィーチャ・ベクトルを計算するステップと、
前記フィーチャ・ベクトルを、共用メモリ・アーキテクチャを使用して、
（ａ）前記オーディオ・ソースを転写して前記オーディオ情報のテキスト・バージョンを作成するための転写エンジン、
（ｂ）前記オーディオ・ソースにおける潜在的なセグメント境界を識別するためのスピーカ・セグメンテーション・プロセス、
および、
（ｃ）各識別されたセグメントにスピーカ・ラベルを割り当てるためのスピーカ識別プロセス
からなる３つの並列処理ブランチに分配するステップを含み、
前記転写エンジンが、前記オーディオ・ソースにおける各ワードに対してタイム・アライメントを持ったテキスト・バージョンを作成するステップと、
前記スピーカ・セグメンテーション・プロセスが、音声部分相互間にセグメント境界が存在するすべての可能なフレームを識別するステップと、
前記スピーカ識別プロセスが、前記フィーチャ・ベクトルと前記セグメンテーションプロセスから適用されたセグメント境界が存在する前記フレームを受け取って、単一のスピーカによる音声のチャンクより成るセグメント発生音を形成し、該セグメント発生音と登録されたスピーカ・データベースとを比較してスピーカ・ラベルを生成するステップと、
前記スピーカ・セグメンテーション・プロセスが識別したセグメント境界が存在する前記フレームを前記転写エンジンによって作成された前記テキスト・バージョンとインタリーブさせて切り離された前記テキスト・バージョンを作成するステップと、
切り離された前記テキスト・バージョンの各部分に前記スピーカ・ラベルを割り当てるステップと、
を含む、方法。
前記共用メモリ・アーキテクチャは前記計算されたフィーチャ・ベクトルを前記並列処
理ブランチの各々に対応するチャネルに分配することを特徴とする請求項１に記載の方法。
前記スピーカ・ラベルを割り当てるステップは前記割り当てられたスピーカ・ラベルの信頼性を表すスコアを割り当てるステップを更に含むことを特徴とする請求項１に記載の方法。
前記スピーカ・ラベルを割り当てるステップは前記割り当てられたスピーカ・ラベルに対して少なくとも１つの次に最適と予測される代替えスピーカ・ラベルを割り当てるステップを更に含むことを特徴とする請求項１に記載の方法。
前記セグメント境界が存在するすべての可能なフレームを識別するステップはＢＩＣモデル選択基準を使用して前記フレームを識別することを特徴とする請求項１に記載の方法。
１つ又は複数のオーディオ・ソースからオーディオ情報を転写するためのシステムにし
て、
コンピュータ読み取り可能なコードを記憶するメモリと、
前記メモリに動作関係に結合され、前記コンピュータ読み取り可能なコードをインプリメントするように構成されたプロセッサとを含むコンピュータを備え、
前記コンピュータ読み取り可能なコードが前記コンピュータに読み込まれることにより、
前記オーディオ情報からフィーチャ・ベクトルを計算する機能手段と、
（ａ）前記オーディオ・ソースを転写して前記オーディオ情報のテキスト・バージョンを作成するための転写エンジンと、
（ｂ）前記オーディオ・ソースにおける潜在的なセグメント境界を識別するためのスピーカ・セグメンテーション・プロセスと、
（ｃ）各識別されたセグメントにスピーカ・ラベルを割り当てるためのスピーカ識別プロセスと
からなる３つの並列処理ブランチを実現する機能手段とを実現し、
前記フィーチャ・ベクトルを、共用メモリ・アーキテクチャを使用して、前記３つの並列処理ブランチに分配するための機能手段と、
前記転写エンジンが、前記オーディオ・ソースにおける各ワードに対してタイム・アライメントを持った前記テキスト・バージョンを作成するための機能手段と、
前記スピーカ・セグメンテーション・プロセスが、音声部分相互間にセグメント境界が存在するすべての可能なフレームを識別するための機能手段と、
前記スピーカ識別プロセスが、分配された前記フィーチャ・ベクトルと前記セグメンテーションプロセスから適用されたセグメント境界が存在する前記フレームと受け取って、単一のスピーカによる音声のチャンクより成るセグメント発生音を形成し、該セグメント発生音と登録されたスピーカ・データベースとを比較してスピーカ・ラベルを生成するための機能手段と、
前記スピーカ・セグメンテーション・プロセスが識別したセグメント境界が存在する前記フレームを前記転写エンジンによって作成された前記テキスト・バージョンとインタリーブさせて切り離された前記テキスト・バージョンを作成するための機能手段と、
切り離された前記テキスト・バージョンの各部分に前記スピーカ・ラベルを割り当てるための機能手段と、
を実現することを特徴とするシステム。