JP2001060098A

JP2001060098A - 同時的な音声認識、スピーカ・セグメンテーション及びスピーカ分類のための方法及び装置

Info

Publication number: JP2001060098A
Application number: JP2000188625A
Authority: JP
Inventors: Sadaru Mohammad Beigi Hameion; ハメイオン・サダル・モハマド・ベイギ; Alain Charles Louis Tritschler; アラン・シャルル・ルイ・トレザー; Mahesh Viswanathan; マハシュ・ヴィズワナザン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1999-06-30
Filing date: 2000-06-23
Publication date: 2001-03-06
Anticipated expiration: 2020-06-23
Also published as: CN1279462A; JP4132590B2; CN1174374C

Abstract

(57)【要約】（修正有）【課題】オーディオ／ビデオ・ソースからオーディオ情
報を自動的に転写し、同時にスピーカを識別する方法及
び装置。【解決手段】オーディオ転写及びスピーカ分類システム
は音声認識システム、スピーカ・セグメンテーション・
システム及びスピーカ識別システムを含む。音声認識シ
ステムは、各ワードに対してタイム・アライメントを伴
う転写物を作成する。スピーカ・セグメンテーション・
システムはスピーカを個別化し、非同種の音声部分相互
間にセグメント境界が存在する可能性のあるすべてのフ
レームを識別する。スピーカ識別システムは、各識別さ
れたセグメントにスピーカを割当てるため、登録済みの
スピーカ・データベースを使用する。オーディオ／ビデ
オ・ソースからのオーディオ情報は、セグメント境界を
識別するため同時に転写及びセグメント化された後、ス
ピーカ識別システムは識別されたテキストの各部分にス
ピーカ・ラベルを割当てる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、概して云えば、オ
ーディオ情報分類システムに関し、詳しく云えば、オー
ディオ情報を転写（ｔｒａｎｓｃｒｉｂｅ）し、オーデ
ィオ・ファイルにおけるスピーカ（発声者）を識別する
ための方法及び装置に関するものである。

【０００２】

【従来の技術】放送ニュース機構及び情報検索サービス
のような多くの機構は、記憶及び検索のために大量のオ
ーディオ情報を処理しなければならない。オーディオ情
報は、主題又はスピーカの名前、或いはそれらの両方に
よって分類されなければならないことが多い。主題によ
ってオーディオ情報を分類するためには、先ず、音声認
識システムが、自動分類又はインデキシングのために、
オーディオ情報をテキストの形に転写する。しかる後、
照会／ドキュメント・マッチングを行って関連ドキュメ
ントをユーザに戻すためにインデックスが使用可能であ
る。

【０００３】従って、主題によってオーディオ情報を分
類するというプロセスは本質的には完全に自動化された
ものになっている。しかし、スピーカによってオーディ
オ情報を分類するというプロセスは、特に、放送ニュー
スのようなリアルタイムの応用に対しては、大きな労力
を要する仕事を残すことが多い。スピーカ登録情報を使
用してオーディオ・ソースからスピーカを自動的に識別
するための数多くの計算主体のオフライン・テクニック
が提案されているけれども、スピーカ分類プロセスはヒ
ューマン・オペレータによって最も頻繁に行われ、ヒュ
ーマン・オペレータは各スピーカの変更を識別し、対応
するスピーカの識別を行う。

【０００４】本発明の親出願（１９９９年４月９日出願
の米国特許出願番号０９/２８８,７２４号）は、オーデ
ィオ・コンテント（主題）及びスピーカのアイデンティ
ティに基づいてオーディオ情報を検索するための方法及
び装置を開示している。タイム・スタンプされたコンテ
ント・インデックス・ファイル及びスピーカ・インデッ
クス・ファイルを作成するために、インデキシング・シ
ステムがオーディオ情報を転写し、そしてインデックス
する。しかる後、その生成されたコンテント及びスピー
カ・インデックスは、オーディオ・コンテント及びスピ
ーカ・アイデンティティに基づいて照会／ドキュメント
・マッチングを行うために利用可能である。オーディオ
・ソースからオーディオ情報を自動的に転写し、同時に
スピーカをリアルタイムで識別する方法及び装置に対す
る要求が存在する。ベイズ情報基準（Baysian Informat
ion Criterion−ＢＩＣ）に基づいてスピーカ・セグメ
ンテーション及びクラスタリングの改良を提供する方法
及び装置に対する更なる要求も存在する。

【０００５】

【発明が解決しようとする課題】従って、本発明の目的
は、オーディオ／ビデオ・ソースからのオーディオ情報
を自動的に転写し、同時にスピーカを識別するための方
法及び装置を開示することにある。

【０００６】

【課題を解決するための手段】開示されたオーディオ転
写及びスピーカ分類システムは、音声認識システム、ス
ピーカ・セグメンテーション・システム、及びスピーカ
識別システムを含む。本発明の１つの局面によれば、オ
ーディオ情報は、マルチスレッド環境における並列ブラ
ンチに沿って音声認識システム、スピーカ・セグメンテ
ーション・システム、及びスピーカ識別システムによっ
て処理される。

【０００７】音声認識システムは、転写物を、その転写
物内の各ワードに対するタイム・アライメントを伴って
作成する。スピーカ・セグメンテーション・システムは
スピーカを個別化し、非同種の音声部分相互間にセグメ
ント境界が存在するすべての可能なフレームを識別す
る。しかる後、スピーカ識別システムは、登録されたス
ピーカ・データベースを使用して、各識別されたセグメ
ントにスピーカを割り当てる。

【０００８】本発明は、マルチスレッド環境における並
列ブランチに沿って音声認識システム、スピーカ・セグ
メンテーション・システム、及びスピーカ識別システム
によって処理されるフィーチャ・ベクトルを計算するた
めに共通のフロント・エンド処理を利用する。一般に、
フィーチャ・ベクトルは、例えば、計算されたフィーチ
ャ・ベクトルを各チャネル（各処理スレッドに対応す
る）に分配するするためにサーバのような態様で作用す
る共用メモリ・アーキテクチャを使用して、３つの多重
処理スレッドに分配可能である。

【０００９】本発明のもう１つの局面によれば、オーデ
ィオ／ビデオ・ソースからのオーディオ情報が同時に転
写され及びセグメント境界を識別するためにセグメント
化される。一旦音声セグメントがセグメンテーション・
システムによって識別されると、スピーカ識別システム
がその転写されたテキストの各部分にスピーカ・ラベル
を割り当てる。

【００１０】本願で開示されるセグメンテーション・プ
ロセスは、オーディオ・データを通るパス上に、しか
も、転写エンジンと同じパス上にあるセグメント境界で
あってスピーカ変更に対応するセグメント境界が存在す
るすべての可能なフレームを識別する。フレームは所定
の期間にわたって音声特性を表す。セグメンテーション
・プロセスは、２つのモデルを比較するモデル選択基準
を使用して、所定のフレームにセグメント境界が存在す
るかどうかを決定する。第１モデルは、単一の全共分散
ガウス分布（ｆｕｌｌ−ｃｏｖａｒｉａｎｃｅＧａｕ
ｓｓｉａｎ）を使用するサンプル（ｘ_1,....,ｘ_n）のウ
インドウ内にセグメント境界が存在しないものと仮定す
る。第２モデルは、第１ガウス分布から得られた
（ｘ₁,....,ｘ_i）及び第２ガウス分布から得られた（ｘ
_i+1,....,ｘ_n）を持った２つの全共分散ガウス分布を使
用するサンプル（ｘ₁,....,ｘ_n）のウインドウ内にセグ
メント境界が存在するものと仮定する。

【００１１】本願で開示されるスピーカ識別システム
は、登録されたスピーカ・データベースを使用して各識
別されたセグメントにスピーカ・ラベルを割り当てる。
スピーカ識別プロセスはセグメンテーション・プロセス
によって識別されたターンを、共用のフロント・エンド
によって生成されたフィーチャ・ベクトルと共に受け取
る。一般に、スピーカ識別システムは登録されたスピー
カ・データベースにセグメント発声音（ｕｔｔｅｒａｎ
ｃｅ）を比較し、「最も近似した」スピーカを見つけ
る。そのスピーカ識別システムのためのモデル・ベース
方式及びフレーム・ベース方式が開示される。

【００１２】本発明の結果は、例えば、転写されたテキ
ストを、割り当てられたスピーカ・ラベルと共に各セグ
メントに供給するユーザに直接に出力可能である。更
に、本発明の結果は１つ又は複数のデータベースに記録
可能であり、オーディオ・コンテント及びスピーカのア
イデンティティに基づいてオーディ情報に（及び間接的
にはビデオに）参照を行うためにコンテント及びスピー
カ・サーチ方法の結果を結合するという前記親出願にお
いて開示されたオーディオ検索システムのようなオーデ
ィオ検索システムによって利用可能である。

【００１３】以下の詳細な説明及び図面を参照すること
によって、本発明の更に完全な理解及び本発明の更なる
特徴及び利点の理解が得られるであろう。

【００１４】

【発明の実施の形態】図１は、オーディオ／ビデオ・ソ
ースからのオーディオ情報を自動的に転写し、同時にス
ピーカを識別するという本発明によるオーディオ転写及
びスピーカ分類システム１００を示す。オーディオ／ビ
デオ・ソース・ファイルは、例えば、オーディオ・レコ
ーディングであってもよく、或いは、例えば、放送のニ
ュース・プログラムからの生番組であってもよい。オー
ディオ／ビデオ・ソースは、先ず、転写され、同時に、
スピーカの変更を表すセグメント境界が存在するすべて
の可能なフレームを識別するように処理される。

【００１５】オーディオ転写及びスピーカ分類システム
１００は、音声認識システム、スピーカ・セグメンテー
ション・システム及びスピーカ識別システムを含む。音
声認識システムは、転写物を、その転写物における各ワ
ードに対するタイム・アライメントを伴って作成する。
スピーカ・セグメンテーション・システムはスピーカを
個別化し、セグメント境界が存在するすべての可能なフ
レームを識別する。セグメントは、所定のスピーカと関
連したオーディオ・ソースの連続部分である。しかる
後、スピーカ識別システムが各セグメントにスピーカ・
ラベルを割り当てる。

【００１６】図１は、本発明による例示的なオーディオ
転写及びスピーカ分類システム１００のアーキテクチャ
を示すブロック図である。オーディオ転写及びスピーカ
分類システム１００は、図１に示された汎用コンピュー
タ・システムのような汎用コンピュータ・システムとし
て具体化可能である。そのオーディオ転写及びスピーカ
分類システム１００はプロセッサ１１０及びデータ記憶
装置１２０のような関連メモリを含む。なお、データ記
憶装置１２０は分散型又はローカル型のものでよい。プ
ロセッサ１１０は単一のプロセッサとして、又は並行し
て動作する複数のローカル・プロセッサ又は分散プロセ
ッサとして実施可能である。データ記憶装置１２０及び
／又は読取り専用メモリ（ＲＯＭ）は１つ又は複数の命
令を記憶するように動作可能であり、プロセッサ１１０
はそれらの命令を検索、解釈、及び実行するように動作
可能である。

【００１７】望ましくは、データ記憶装置１２０は、本
発明に従ってリアルタイムで処理可能な１つ又は複数の
事前記録された又は生のオーディオ・ファイル又はビデ
オ・ファイル（或いは、それらの両方）を記憶するため
のオーディオ・コーパス（ｃｏｒｐｕｓ）データベース
１５０を含む。又、データ記憶装置１２０は、図２に関
連して後述するタイム・スタンプ・ワード・データベー
ス２００も含む。そのデータベース２００は音声認識シ
ステムによって生成されたものであり、一組のタイム・
スタンプされたワードを含む。図３に関連して後述する
スピーカ・ターン・データベース３００はスピーカ・セ
グメンテーション・システムと関連してスピーカ識別シ
ステムによって作成され、各セグメントの開始時間を、
１つ又は複数の対応する提案されたスピーカ・ラベルと
共に表示する。図４と関連して後述するスピーカ・デー
タベース４２０はスピーカ登録プロセス４１０によって
作成され、各登録されたスピーカに対するエントリを含
む。図１の例示的な実施例に示されたそれらの生成され
たデータベース２００及び３００は、本発明の結果がリ
アルタイムでユーザに表示されるオンライン・インプリ
メンテーションに対しては必要とされず、その後のアク
セスのためにも必要とされないことに注意してほしい。

【００１８】更に、図５及び図６に関連して後述するよ
うに、データ記憶装置１２０は、同時転写、セグメンテ
ーション及びスピーカ識別プロセス５００、転写エンジ
ン５１５，セグメンテーション・プロセス６００，及び
スピーカ識別プロセス７００を含む。同時転写、セグメ
ンテーション及びスピーカ識別プロセス５００は転写エ
ンジン５１５，セグメンテーション・プロセス６００、
及びスピーカ識別プロセス７００の実行を調整する。同
時転写、セグメンテーション及びスピーカ識別プロセス
５００はオーディオ・コーパス・データベース１５０に
おける１つ又は複数のオーディオ・ファイルを分析し、
各セグメントと関連するスピーカを表すオーディオ情報
の転写をリアルタイムで作成する。セグメンテーション
・プロセス６００はスピーカを個別化し、セグメント境
界が存在するすべての可能なフレームを識別する。スピ
ーカ識別プロセス７００は、登録されたスピーカ・デー
タベースを使用する各セグメントにスピーカ・ラベルを
割り当てる。

【００１９】図２は、音声認識システムによって生成さ
れ、一組のタイム・スタンプされたワードを含む例示的
なタイム・スタンプ・ワード・データベース２００を示
す。そのタイム・スタンプ・ワード・データベース２０
０は、各々がその実施例における異なるワードと関連す
るレコード２１１乃至２１４のような複数のレコードを
維持する。ワード・ストリング・フィールド２２０にお
いて識別された各ワードに対して、タイム・スタンプ・
ワード・データベース２００は開始時間フィールド２３
０においてそのワードの開始時間を表示する。

【００２０】図３は例示的なスピーカ・ターン・データ
ベース３００を示す。そのデータベース３００は、スピ
ーカ・セグメンテーション・システムと関連してスピー
カ識別システムによって作成され、１つ又は複数の対応
する提案されたスピーカ・ラベルと共に各セグメントの
開始時間を表す。スピーカ・ターン・データベース３０
０は、各々が実施例における種々のセグメントによって
識別されるレコード３０５乃至３０８のような複数のレ
コードを維持する。フィールド３２０におけるセグメン
ト番号によって識別された各セグメントに対して、スピ
ーカ・ターン・データベース３００は、オーディオ・ソ
ース・ファイルの開始時間に関するそのセグメントの開
始時間をフィールド３３０において表示する。更に、ス
ピーカ・ターン・データベース３００は、フィールド３
４０において各セグメントと関連するスピーカを、フィ
ールド３５０における対応するスピーカ・スコアと共に
識別する。１つのインプリメンテーションでは、スピー
カ・ターン・データベース３００はフィールド３６０に
おいて各セグメントと関連する１つ又は複数の代替えス
ピーカ（次の最適な予測）を、フィールド３７０におけ
る対応する代替えスピーカ・スコアと共に識別する。

【００２１】Ａ．スピーカ登録プロセス図４はスピーカを登録又はエンロールするために使用さ
れる既知のプロセスを示す。図４に示されるように、各
登録されたスピーカに対して、スピーカの名前が、パル
ス・コード変調（ＰＣＭ）ファイルのようなスピーカ・
トレーニング・ファイルと共にスピーカ登録プロセス４
１０に供給される。スピーカ登録プロセス４１０はスピ
ーカ・トレーニング・ファイルを分析し、スピーカ・デ
ータベース４２０において各スピーカに対するエントリ
を作成する。スピーカの音声サンプルをスピーカ・デー
タベース４２０に加えるプロセスは登録と呼ばれる。そ
の登録プロセスはオフラインであり、スピーカ識別シス
テムは、関連するすべてのスピーカに対してそのような
データベースが存在するものと仮定する。わずかな価値
のオーディオに関して、一般には、各スピーカが複数の
チャネル及びマイクロフォンから複数の音響的条件を包
含することを要求される。登録されたスピーカのトレー
ニング・データ又はデータベースは、それらのモデルへ
のアクセスが効率的な認識及び検索のために最適化され
るように階層構造を使用して記憶される。

【００２２】Ｂ．プロセス前述のように、図５に示された同時転写、セグメンテー
ション及びスピーカ識別プロセス５００は、転写エンジ
ン５１５，セグメンテーション・プロセス６００（図
６）及びスピーカ識別プロセス７００（図７）の実行を
調整する。同時転写、セグメンテーション及びスピーカ
識別プロセス５００は、オーディオ・コーパス・データ
ベース１５０における１つ又は複数のオーディオ・ファ
イルを分析し、各セグメントと関連するスピーカを表す
オーディオ情報の転写をリアルタイムで作成する。図５
に示されるように、同時転写、セグメンテーション及び
スピーカ識別プロセス５００は、先ず、ステップ５１０
においてオーディオ・ファイルからセプストラル（ｃｅ
ｐｓｔｒａｌ）フィーチャを既知の方法で抽出する。一
般に、ステップ５１０はオーディオ信号のドメインを時
間的ドメインから周波数ドメインに変更し、種々の周波
数帯における信号エネルギを分析し、その信号のドメイ
ンをセプストラル・ドメインに変更するためにもう１つ
の変換を使用する。

【００２３】図５に示されるように、ステップ５１０
は、転写エンジン５１５，セグメンテーション・プロセ
ス６００（図６）及びスピーカ識別プロセス７００（図
７）に共通のフロント・エンド処理を提供する。一般
に、ステップ５１０において計算されたフィーチャ・ベ
クトルは、転写エンジン５１５，セグメンテーション・
プロセス（図６）及びスピーカ識別プロセス７００（図
７）に対応する３つの多重処理スレッドに分配可能であ
る。それらのフィーチャ・ベクトルは、例えば、計算さ
れたフィーチャ・ベクトルを各チャネル（各処理スレッ
ドに対応する）に分配するためにサーバのような態様で
作用する共用メモリ・アーキテクチャを使用して３つの
多重処理スレッドに分配可能である。

【００２４】ステップ５１０において生成されたフィー
チャ・ベクトルは、多重スレッド環境において並列ブラ
ンチに沿って処理される。図５に示され且つ後述される
ように、生成されたフィーチャ・ベクトルは多重スレッ
ドを使用して（ｉ）ステップ５１５において転写エンジン、（ii）ス
テップ５３０において、図６に関連して後述されるスピ
ーカ・セグメンテーション・プロセス６００、及び（ii
i）ステップ５６０において、図７に関連して後述され
るスピーカ識別プロセス７００に適用される。

【００２５】ステップ５１５において、それらの生成さ
れたフィーチャ・ベクトルは、タイム・スタンプされた
ワードの転写ファイルを生成するために、ＩＢＭ社から
商業的に入手可能なＶｉａＶｏｉｃｅ（商標）音声認識
システムのような転写エンジンに供給される。しかる
後、それらのタイム・スタンプされたワードは、ステッ
プ５２０においてタイム・スタンプ・ワード・データベ
ース２００の中に任意選択的に収集可能である。更に、
それらのタイム・スタンプされたワードは後述のステッ
プ５４０においてインタリーバに供給される。

【００２６】生成されたフィーチャ・ベクトルは、ステ
ップ５３０において、図６に関連して後述されるセグメ
ンテーション・プロセス６００に適用される。一般に、
セグメンテーション・プロセス６００はスピーカを個別
化し、非同種の音声部分相互間にセグメント境界が存在
するすべての可能なフレームを識別する。セグメント境
界が存在する各フレームはターンと呼ばれ、同種の各セ
グメントは単一のスピーカの音声に対応しなければなら
ない。一旦セグメンテーション・プロセス６００によっ
て描出されると、各セグメントは（そのセグメントがス
ピーカ認識システムに対して要求される最小セグメント
長の要件に合致すると仮定して）特定のスピーカによっ
て発声されたものとして分類可能である。

【００２７】セグメンテーション・プロセス６００によ
って識別されたターンは、登録されたスピーカ・データ
ベース４２０を使用して各セグメントにスピーカ・ラベ
ルを割り当てるために、ステップ５１０において生成さ
れたフィーチャ・ベクトルと共に、ステップ５６０にお
いて、図７と関連して後述されるスピーカ識別プロセス
７００に適用される。一般に、スピーカ識別システムは
セグメント発声音をスピーカ・データベース４２０に比
較し（図４）、「最も近似した」スピーカを見つける。
スピーカ識別プロセス７００によって作成されたその割
り当てられたスピーカ・ラベルは後述のステップ５５０
に供給される。

【００２８】ステップ５１５において転写エンジンによ
って作成されたタイム・スタンプ済みワードは、ステッ
プ５３０においてセグメンテーション・プロセス６００
によって識別されたスピーカ・ターンと共に、ステップ
５４０においてインタリーバに適用され、それらのター
ンをタイム・スタンプ済みワードとインタリーブさせ、
切り離された音声セグメントを作成させる。しかる後、
切り離された音声セグメント及びステップ５６０におい
てスピーカ識別システムにより生成されたスピーカ識別
子がステップ５５０においてユーザに表示される。

【００２９】１つのインプリメンテーションでは、切り
離された音声セグメントは、それらがステップ５４０に
おいてインタリーバによって作成された時にリアルタイ
ムで表示される。更に、例示的な実施例では、そのスピ
ーカ認識システムに対して要求される最小セグメント長
は８秒である。従って、一般には、分離された音声セグ
メントの始まりが最初に与えられた後約８秒で、スピー
カ識別ラベルがその転写されたテキストに付加される。
切り離された音声セグメントがそのスピーカ認識システ
ムに対して要求される最小セグメント長よりも短い場
合、「未定（ｉｎｃｏｎｃｌｕｓｉｖｅ）」のようなス
ピーカ・ラベルがそのセグメントに割り当て可能である
ことに注意すべきである。

【００３０】Ｃ．ベイズ情報基準（ＢＩＣ）の背景前述のように、図６に示されたセグメンテーション・プ
ロセス６００はスピーカを個別化し、非同種の音声部分
相互間にセグメント境界が存在するすべての可能なフレ
ームを識別する。セグメント境界が存在する各フレーム
はターンと呼ばれ、同種の各セグメントは単一のスピー
カの音声に対応しなければならない。一旦セグメンテー
ション・プロセス６００によって描出されると、各セグ
メントは（そのセグメントがスピーカ認識システムに対
して要求された最小セグメント長の要件に合致している
と仮定して）特定のスピーカによって発声されたものと
して分類可能である。セグメンテーション・プロセス６
００はベイズ情報基準（ＢＩＣ）のモデル選択基準に基
づくものである。ＢＩＣは、ｐ個のパラメータ・モデル
のうちのどれがｎ個のデータ・サンプルｘ₁,....,ｘ_n,
ｘ_i∈Ｒ^dを最もよく表すかを決定するするために使用さ
れる漸近的に最適なベイズのモデル選択基準である。各
モデルＭ_iは複数のパラメータｋ_jを有する。サンプルｘ
_iは独立したものである仮定する。

【００３１】ＢＩＣの原理に関する詳細な検討のために
は、例えば、The Annals of Statistics 誌の第６巻４
６１−４６４ページ（１９７８）における G.Schwarz
氏による「モデルの寸法の見積り（Estimating the Dim
ension of a Model）」と題した論文を参照してほし
い。そのＢＩＣの原理によれば、十分に大きいｎに対し
て、データの最良のモデルは次式を最大化するものであ
る。ＢＩＣ_j＝ｌｏｇＬ_j（ｘ₁,...,ｘ_n）−（λｋ_jｌｏｇ
ｎ）／２但し、λ＝１であり、Ｌ_jはモデルＭ_iにおけるデータの
最大見込み値（換言すれば、Ｍ_iのｋ_jパラメータに対す
る最大の見込み値をもったデータの見込み値）である。
２つのモデルしか存在しない時、モデル選択のために簡
単なテストが使用される。特に、ΔＢＩＣ=ＢＩＣ₁−Ｂ
ＩＣ₂が正である場合、モデルＭ_iがモデルＭ₂に優先し
て選択される。同様に、ΔＢＩＣ＝ＢＩＣ₁−ＢＩＣ₂が
負である場合、モデルＭ₂がモデルＭ₁に優先して選択さ
れる。

【００３２】Ｄ．スピーカ・セグメンテーション図６に示されたセグメンテーション・プロセス６００
は、セグメント境界が存在するすべての可能なフレーム
を識別する。汎用性を損なうことなく、精々１つのセグ
メント境界しか存在しない連続したデータ・サンプル
（ｘ₁,....,ｘ_n）のウインドウを考察する。

【００３３】フレームｉにおいてセグメント境界が存在
するかどうかに関する基本的な疑問が次のような２つの
モデル、即ち、モデルＭ₁及びモデルＭ₂の間のモデル選
択問題として生じ得る。なお、モデルＭ₁は（ｘ₁,...,
ｘ_n）が単一の全共分散ガウス分布から得られる場合で
あり、モデルＭ₂は（ｘ₁,....ｘ_i）が第１ガウス分布か
ら得られ、（ｘ_i+1,....ｘ_n）が第２ガウス分布から得
られることによって（ｘ₁,...,ｘ_n）が２つの全共分散
ガウス分布から得られる。

【００３４】ｘ_i∈Ｒ^dであるので、モデルＭ₁はｋ₁＝ｄ
＋ｄ（ｄ＋１）／２のパラメータを有し、一方、モデル
Ｍ₂は２倍のパラメータ（ｋ₂＝２ｋ₁）を有する。次式
が負である場合、ｉ番目のフレームがセグメント境界に
対する良好な候補であることがわかる。

【数１】

【００３５】但し、|Σ_w|はウインドウ全体（即ち、ｎ
個のフレームすべて）の共分散の行列式である。|Σ_f|
はそのウインドウの第１サブディビジョンの共分散の行
列式であり、|Σ_s|はそのウインドウの第２サブディビ
ジョンの共分散の行列式である。

【００３６】従って、ステップ６１０において、２つの
サブサンプル（ｘ₁,...,ｘ_i）及び（ｘ_i+1,...,ｘ_n）が
連続的なデータ・サンプル（ｘ₁,...,ｘ_n）のウインド
ウから設定される。セグメンテーション・プロセス６０
０はステップ６１５乃至６２８において数多くのテスト
を行い、境界の検出があまりありそうもないロケーショ
ンにそのウインドウにおけるいくつかのＢＩＣテストが
対応する時、それらのテストを排除する。特に、ステッ
プ６１５において、可変数αの値が（ｎ／ｒ）−１の値
に初期設定される。但し、ｒは（フレームにおける）検
出解像度である。しかる後、ステップ６２０において、
その値αが最大値α_maxを越えるかどうかを決定するた
めのテストが行われる。ステップ６２０において値αが
最大値α _maxを越えることが決定される場合、ステップ
６２４において、カウンタｉが(α−α_max＋１）ｒの値
に設定される。しかし、ステップ６２０において、値α
が最大値α_maxを越えないことが決定される場合、ステ
ップ６２８において、カウンタｉがｒの値に設定され
る。しかる後、ステップ６３０において、上記の式を使
用してＢＩＣ値における差が計算される。

【００３７】ステップ６４０において、カウンタｉの値
がｎ−ｒに等しいかどうか、換言すれば、ウインドウに
おけるすべての可能なサンプルが評価されてしまったか
どうかを決定するためのテストが行われる。ステップ６
４０においてカウンタｉの値がｎ−ｒに等しくないこと
が決定される場合、ステップ６５０においてそのｉの値
がｒだけインクレメントされ、ステップ６３０において
ウインドウにおける次のサンプルに対する処理を継続す
る。しかし、ステップ６４０においてカウンタｉの値が
ｎ−ｒに等しいことが決定される場合、ステップ６６０
において、ＢＩＣ値における最小の差（ΔＢＩＣ_i0）が
負であるかどうかを決定するための更なるテストが行わ
れる。ステップ６６０において、ＢＩＣ値における最小
の差（ΔＢＩＣ_i0）が負でないことが決定される場合、
新しいウインドウを上記方法で考察するためにステップ
６１０へ戻る前に、ステップ６６５においてウインドウ
・サイズが増加させられる。従って、１つのウインドウ
におけるすべてのカウンタｉに対するΔＢＩＣ値が計
算され、それらのうちのいずれも負のΔＢＩＣ値をも
たらすものでない時、ウインドウ・サイズｎが増加させ
られるだけである。

【００３８】しかし、ステップ６６０において、ＢＩＣ
値における最小の差が負であることが決定される場合、
ステップ６７０において、ｉ₀がセグメント境界として
選択される。しかる後、ステップ６７５において、新し
いウインドウの始まりがｉ₀＋１に移り、ウインドウ・
サイズがＮ₀に設定され、その後、新しいウインドウを
上記の方法で考察するためにプログラム制御はステップ
６１０に戻る。

【００３９】従って、i のすべての可能な値に対してＢ
ＩＣ差のテストが行われ、最大の負のΔＢＩＣ_iによっ
てｉ₀が選択される。そのウインドウではフレームｉに
おいてセグメント境界が検出可能である。ΔＢＩＣ_i0＜
０である場合、ｘ_i0がセグメント境界に対応する。その
テスト結果が否定的である場合、後述のように、ステッ
プ６６０において更なるデータ・サンプルが（パラメー
タｎを増加させることによって）現ウインドウに加えら
れ、フィーチャ・ベクトルがすべてセグメント化されて
しまうまで、プロセスはデータ・サンプルのこの新しい
ウインドウに関して反復される。一般に、ウインドウ・
サイズは、自身が１つのウインドウ拡張から別のウイン
ドウ拡張に増加する複数のフィーチャ・ベクトルによっ
て拡張される。しかし、ウインドウは、或る最大値より
も大きい多数のフィーチャ・ベクトルによっては拡張さ
れることはない。ステップ６７０においてセグメント境
界が検出された時、ウインドウ拡張値はそれの最小値
（Ｎ₀）を検索する。

【００４０】Ｅ．可変ウインドウ方式本発明のもう１つの特徴によれば、特に小さいセグメン
トにおける全体の精度を改良する新しいウインドウ選択
方式が提供される。セグメンテーション・プロセス６０
０が遂行されるウインドウ・サイズの選択は非常に重要
である。その選択されたウインドウがあまりにも多くの
ベクトルを含む場合、いくつかの境界が脱落することが
ある。一方、選択されたウインドウが小さ過ぎる場合、
情報の不足の結果、ガウス分布によるデータの表示が不
十分になるであろう。

【００４１】セグメント境界が検出されなかった場合、
一定量のデータを現ウインドウに加えることが提案され
た。そのような方式は、精度を改良するために「前後関
係（ｃｏｎｔｅｘｔｕａｌｉｎｆｏｒｍａｔｉｏ
ｎ）」を利用するものではない。セグメント境界が検出
されても又はされなくても、或いは境界が長い間検出さ
れなくても、同じ量のデータが加えられる。

【００４２】本発明の改良されたセグメンテーション・
プロセスは、新しい境界が生じそうなエリアにおける比
較的少量のデータを考察し、新しい境界が生じそうもな
い時にはウインドウ・サイズをもっと大きく増加させ
る。先ず、小さいサイズのベクトルのウインドウ（一般
には、１００フレームの音声）を考察する。現ウインド
ウにおいてセグメント境界が検出されない場合、ウイン
ドウのサイズはΔＮ_iフレームだけ増加する。この新し
いウインドウにおいて境界が検出されない場合、フレー
ムの数はΔＮ_i+1だけ増加する。なお、セグメント境界
が検出されるまで、又はウインドウ拡張が最大サイズに
達してしまうまで（境界が生じる場合に精度の問題を回
避するために）、ΔＮ_i=ΔＮ_i+1＋δ_iである。但し、δ
＝２δ_i+1である。これは、ウインドウが依然として小
さい時にはかなり遅いウインドウ・サイズの増加及びウ
インドウが大きくなる時には速いウインドウ・サイズの
増加を保証する。ウインドウ内でセグメント境界が検出
される時、最小のウインドウ・サイズを使用して次のウ
インドウがその検出された境界の後に始まる。

【００４３】Ｆ．ＢＩＣテストの効率の改良本発明のもう１つの特徴によれば、ＢＩＣテストが行わ
れるロケーションの良好な選択によって処理時間全体の
改良が得られる。ウインドウにおけるＢＩＣテストのう
ちの或るものは、境界の検出がありそうもないロケーシ
ョンにそれらが対応する時、任意に排除可能である。先
ず、ＢＩＣテストは各ウインドウの境界においては行わ
れない。それは、それが非常にわずかなデータでもって
１つのガウス分布を必ず表示するためである（この明ら
かに小さいゲインがセグメント検出を通して繰り返さ
れ、実際には、それは無視し得るパフォーマンス・イン
パクトを持たない）。

【００４４】更に、現ウインドウが大きい時にＢＩＣテ
ストがすべて行われる場合、何らかの新しい情報が加え
られる度に、そのウインドウの開始時においてＢＩＣ計
算が何回も行われたであろう。例えば、１０秒のウイン
ドウ・サイズにおいて最初の５秒内にセグメント境界が
検出されなかった場合、１０秒の現ウインドウの拡張に
よって、最初の５秒内に境界が認められるということは
全くありそうもない。従って、（ウインドウ拡張に続
く）現ウインドウの始まりにおけるＢＩＣ計算を無視す
ることによってＢＩＣ計算の数を減少させることができ
る。実際には、ＢＩＣ計算の最大数は、今や、必要とさ
れる速度／精度レベルに従って調整された調節可能なパ
ラメータ（図３におけるα_max）である。

【００４５】従って、セグメンテーション・プロセス６
００は、セグメンテーション情報に関する何らかのフィ
ードバックを持つ前にそれが必要とする最大時間を知る
ことを可能にする。それは、たとえセグメント境界が検
出されなくても、ウインドウが十分に大きい場合、第１
フレームにセグメントが存在しないということがわかる
ためである。この情報は速度信号のうちのこの部分に関
して別の処理を行うために使用可能である。

【００４６】Ｇ．ＢＩＣペナルティ・ウェートＢＩＣの式は、理論と基準に関する実用的な応用との間
の差を補うために、ペナルティ・ウェート・パラメータ
λを利用する。ミス率と誤警報率との間の良好なトレー
ド・オフを与えるλの最良値は１.３であることがわか
っている。放送ニュースの転写に対するセグメンテーシ
ョン精度に関するλの影響をより総合的に研究するため
には、M.S.Thesis, Institut Eurecom 誌（フランス、
１９９８）における A. Tritschler 氏による「ＢＩＣ
を使用したセグメンテーション・イネーブルド音声認識
アプリケーション（A Segmentation-Enabled Speech Re
cognition Application）」と題した論文を参照してほ
しい。

【００４７】原則として、係数λはタスク依存のもので
あり、新しいタスク毎に戻されなければならないけれど
も、実際には、そのアルゴリズムは種々のタイプのデー
タに適用されており、同じ値のλを使用することによる
パフォーマンスにおける認め得る程度の変化は存在しな
い。

【００４８】Ｈ．スピーカ識別プロセス前述のように、同時転写、セグメンテーション及びスピ
ーカ識別プロセス５００は、ステップ５６０において、
図７に示されたスピーカ識別プロセス７００を実行し、
登録されたスピーカ・データベース４２０を使用して各
セグメントにスピーカ・ラベルを割り当てる。図７に示
されるように、スピーカ識別プロセス７００は、ステッ
プ５１０において共通のフロント・エンド・プロセッサ
によって生成されたフィーチャ・ベクトルと共に、セグ
メンテーション・プロセス６００によって識別されたタ
ーンを受け取る。一般に、スピーカ識別システムはスピ
ーカ・データベース４２０（図４）にセグメント発声音
を比較し、「最も近似した」スピーカを検出する。

【００４９】ターン及びフィーチャ・ベクトルは、ステ
ップ７１０において、単一のスピーカによる音声のチャ
ンクより成るセグメント発声音を形成するように処理さ
れる。ステップ７２０において、セグメント発声音がス
ピーカ識別システムに供給される。スピーカ識別システ
ムを検討するためには、例えば、Proc. of Speaker Rec
ognition and Its Commercial and Forensic Applicati
on, Avignon, France（1998）誌における H.S.M.Beigi
氏他による「ＩＢＭモデル・ベース及びフレーム毎のス
ピーカ認識（IBM Model-Based and Frame-By-Frame Spe
aker-Recognition）」と題した論文を参照してほしい。
一般に、スピーカ識別システムはセグメント発声をスピ
ーカ・データベース４２０（図４）に比較し、「最も近
似した」スピーカを検出する。

【００５０】スピーカ識別システムは２つの異なるイン
プリメンテーション、即ち、モデル・ベース方式及びフ
レーム・ベース方式を有し、それらは付随した利点及び
欠点を有する。エンジンは、放送ニュースのような番組
の生のオーディオ・インデキシングを容易にするために
独立したテキスト及び言語の両方である。

【００５１】Ｉ．スピーカ識別（モデル・ベース方式）スピーカの母集団に対して一組のトレーニング・モデル
を作成するために、下記のようなｄ次元のフィーチャ・
ベクトルを持ったＭ個の音声フレームのシーケンスに基
づいたｉ番目のスピーカに対するモデルＭ_iが計算され
る。

【数２】

【００５２】これらのモデルは、ガウス分布が選択され
る場合に対して、平均ベクトル、共分散マトリックス、
及びカウントより成る下記のようなそれらの統計的パラ
メータによって記憶される。なお、各スピーカｉはｎ_i
個の分布よりなるモデルでもって終わり得るものであ
る。

【数３】

【００５３】２つのそのようなモデルを比較するため
に、Proc. ICASSP98 誌（Seattle, WA, 1998）における
H.S.M. Beigi 氏他による「分布の集合体相互間の距離
測定法及びスピーカ認識に対するそれの応用（A Distan
ce Measure Between Collections of Distributions an
d Its Application to Speaker Recognition）」と題し
た論文において提案された距離測定法を使用して、スピ
ーカ識別（クレームを実証する）、スピーカ分類（スピ
ーカを割り当てる）、スピーカ検証（ラベルされたスピ
ーカの特性に匹敵する特性を持ったスピーカの「コーホ
ート（ｃｏｈｏｒｔ）」セットとラベルを比較すること
によって分類を確認するための第２パス）、及びスピー
カ・クラスタリングを含む多くの種々な機能を持ったス
ピーカ認識システムを考案するために階層構造が作成さ
れる。

【００５４】スピーカ認識のために考案されたその距離
測定法は、異なる数の分布ｎ_iを持った受容可能な距離
の計算を可能にする。２つのスピーカをそれらのパラメ
ータ的な表示に基づいて比較するだけで、２つのスピー
カを比較するというそのタスクを計算主体でないものに
するという特徴を常に持つ必要がなくなる。しかし、認
識段階に対するこの距離測定法の欠点は、比較の計算が
始まる前に個々のテストのモデル（要求者：Ｃｌａｉｍ
ａｎｔ）を形成するために音声セグメント全体が使用さ
れなければならないということである。フレーム・ベー
ス方式はこの欠点を緩和する。

【００５５】Ｊ．スピーカ識別（フレーム・ベース方
式）Ｍ_iをｉ番目の登録されたスピーカに対応するモデルで
あると仮定する。Ｍ_iは、スピーカｉのガウス混合モデ
ル（ＧＭＭ）のｎ_i個のコンポーネントの各々に対する
平均ベクトル、共分散マトリクス、及び混合ウェートよ
り成る次のようなパラメータ・セットによって全体的に
定義される。

【数４】

【００５６】これらのモデルは、前のセクションにおい
て説明したように、下記のようなｄ次元のフィーチャ・
ベクトルを持ったＭ個の音声フレームのシーケンスより
成るトレーニング・データを使用して作成される。

【数５】

【００５７】スピーカ母集団のサイズがＮ_pである場
合、モデル・ユニバースのセットは次のようになる。

【数６】

【００５８】基本的な目的は、次式のようなＮ個のフレ
ームのシーケンスとして表されたテスト・データをＭ_i
が最もよく示しているというようなｉを見つけること、
及びそれらのモデルのうちデータを十分に記述するもの
がないという決定を行うことである。

【数７】

【００５９】次のようなフレーム・ベースのウェート付
けされた距離測定法ｄ_i,nはその決定を行う場合に使用
される。

【数８】

【００６０】但し、正規の表示を使用すると、次のよう
になる。

【数９】

【００６１】テスト・データからのモデルＭ_iの合計距
離Ｄ_iはテスト・フレームの合計数を超えたすべての距
離の和であると見なされる。

【００６２】分類のために、音声セグメントのモデルま
での最小距離を持ったモデルが選択される。その最小距
離を背景モデルの距離に比較することによって、オリジ
ナル・モードのうちのいずれも十分に合致しないことを
表示するための方法を提供することが可能である。別の
方法として、合計距離を計算するために投票集計技法が
使用可能である。

【００６３】検証のために、ラベルされたスピーカのコ
ーホートを形成する所定セットのメンバが種々のバック
グラウンド・モデルでによって増大する。このセットを
モデル・ユニバースとして使用すると、テスト・データ
は、要求者（Ｃｌａｉｍａｎｔのモデルが最小距離を有
するかどうかをテストすることによって検証される。そ
うでない場合、それは拒絶される。

【００６４】この距離測定法は、スピーカ相互間の距離
を計算するために音声のフレームが保持されなければな
らないので、トレーニングでは使用されない。従って、
トレーニングは、前述のモデル・ベースのテクニックの
ための方法を使用して行われる。

【００６５】ステップ７２０において生成されたその割
り当てられたスピーカ・ラベルは、下記のように、ユー
ザへ出力するために任意選択的にブロック５５０（図
５）への暫定的提供が可能である。ステップ７３０にお
いて、その割り当てられたスピーカ・ラベルは、スピー
カ分類の結果に関して第２パスを行うことによって検証
される。ステップ７３０においてスピーカ識別が検証さ
れる場合、そのスピーカ・ラベルはユーザへの出力のた
めにブロック５５０（図５）に供給される。更に、ステ
ップ７４０において、オリジナルの登録されたスピーカ
・モデルからオーディオ・テスト・セグメントまでの距
離を表す割り当てられたスコアと共に、最善の選択を表
すエントリ、又は、望ましい場合には、代替えの選択を
表すエントリを、スピーカ・ターン・データベース３０
０において任意選択的に作成することが可能である。

【００６６】本願において開示され及び図示された実施
例並びにその変形は単に本発明の原理を説明するもので
あること、及び本発明の技術的範囲及び精神から逸脱す
ることなく種々の修正を当業者が実施することが可能で
あることは理解されるべきである。

【００６７】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００６８】（１）１つ又は複数のオーディオ・ソース
からオーディオ情報を転写するための方法にして、前記
オーディオ情報のテキスト・バージョンを作成するため
に前記オーディオ・ソースを転写するステップと、前記
転写するステップと実質的に同時に前記オーディオ・ソ
ースにおける潜在的なセグメント境界を識別するステッ
プと、識別された各セグメントにスピーカ・ラベルを割
り当てるステップと、を含む方法。（２）前記転写するステップは前記オーディオ・ソース
における各ワードに対してタイム・アライメントを持っ
た転写を作成することを特徴とする請求項１に記載の方
法。（３）前記識別するステップは非同種の音声部分相互間
にセグメント境界が存在するすべての可能なフレームを
識別することを特徴とする請求項１に記載の方法。（４）前記割り当てるステップは登録されたスピーカ・
データベースを利用してスピーカ・ラベルを各識別され
たセグメントに割り当てることを特徴とする請求項１に
記載の方法。（５）前記割り当てるステップは前記割り当てられたス
ピーカ・ラベルの信頼性を表すスコアを割り当てるステ
ップを更に含むことを特徴とする請求項１に記載の方
法。（６）前記割り当てるステップは前記割り当てられたス
ピーカ・ラベルに対して少なくとも１つの別の選択を割
り当てるステップを更に含むことを特徴とする請求項１
に記載の方法。（７）前記転写するステップ、識別するステップ、及び
割り当てるステップはマルチ・スレッド環境では並列処
理ブランチにおいて行われることを特徴とする請求項１
に記載の方法。（８）前記識別するステップはＢＩＣモデル選択基準を
使用してセグメント境界を識別することを特徴とする請
求項１に記載の方法。（９）１つ又は複数のオーディオ・ソースからオーディ
オ情報を転写するための方法にして、前記オーディオ情
報からフィーチャ・ベクトルを計算するステップと、
（ａ）前記オーディオ・ソースを転写して前記オーディ
オ情報のテキスト・バージョンを作成するために、
（ｂ）前記オーディオ・ソースにおける潜在的なセグメ
ント境界を識別するために、及び（ｃ）各識別されたセ
グメントにスピーカ・ラベルを割り当てるために、前記
フィーチャ・ベクトルを３つの並列処理ブランチに適用
するステップと、を含む方法。（１０）前記フィーチャ・ベクトルは共用メモリ・アー
キテクチャを使用して前記並列処理ブランチに適用され
ることを特徴とする請求項９に記載の方法。（１１）前記共用メモリ・アーキテクチャは前記計算さ
れたフィーチャ・ベクトルを前記並列処理ブランチの各
々に対応するチャネルに分配することを特徴とする請求
項１０に記載の方法。（１２）前記転写するステップは前記オーディオ・ソー
スにおける各ワードに対してタイム・アライメントを持
った転写物を作成することを特徴とする請求項９に記載
の方法。（１３）前記識別するステップは非同種の音声部分相互
間にセグメント境界が存在するすべての可能なフレーム
を識別することを特徴とする請求項９に記載の方法。（１４）前記割り当てるステップは登録されたスピーカ
・データベースを利用してスピーカ・ラベルを各識別さ
れたセグメントに割り当てることを特徴とする請求項９
に記載の方法。（１５）前記割り当てるステップは前記割り当てられた
スピーカ・ラベルの信頼性を表すスコアを割り当てるス
テップを更に含むことを特徴とする請求項９に記載の方
法。（１６）前記割り当てるステップは前記割り当てられた
スピーカ・ラベルに対して少なくとも１つの別の選択を
割り当てるステップを更に含むことを特徴とする請求項
９に記載の方法。（１７）前記識別するステップはＢＩＣモデル選択基準
を使用してセグメント境界を識別することを特徴とする
請求項９に記載の方法。（１８）１つ又は複数のオーディオ・ソースからオーデ
ィオ情報を転写するためのシステムにして、コンピュー
タ読み取り可能なコードを記憶するメモリと、前記メモ
リに動作関係に結合され、前記コンピュータ読み取り可
能なコードをインプリメントするように構成されたプロ
セッサと、を含み、前記コンピュータ読み取り可能なコ
ードは、前記オーディオ・ソースを転写して前記オーデ
ィオ情報のテキスト・バージョンを作成するように、前
記転写と実質的に同時に前記オーディオ・ソースにおけ
る潜在的なセグメント境界を識別するように、及び各識
別されたセグメントにスピーカ・ラベルを割り当てるよ
うに、構成されることを特徴とするシステム。（１９）コンピュータ読み取り可能なプログラム・コー
ド手段を組み込まれたコンピュータ読み取り可能な媒体
を含み、前記コンピュータ読み取り可能なプログラム・
コード手段は、オーディオ情報のテキスト・バージョン
を作成するためにオーディオ・ソースを転写するステッ
プと、前記転写するステップと実質的に同時に前記オー
ディオ・ソースにおける潜在的なセグメント境界を識別
するステップと、識別された各セグメントにスピーカ・
ラベルを割り当てるステップと、を含むことを特徴とす
る製造物。（２０）１つ又は複数のオーディオ・ソースからオーデ
ィオ情報を転写するためのシステムにして、コンピュー
タ読み取り可能なコードを記憶するメモリと、前記メモ
リに動作関係に結合され、前記コンピュータ読み取り可
能なコードをインプリメントするように構成されたプロ
セッサと、を含み、前記コンピュータ読み取り可能なコ
ードは、前記オーディオ情報からフィーチャ・ベクトル
を計算し、（ｉ）前記オーディオ・ソースを転写して前
記オーディオ情報のテキスト・バージョンを作成するた
めに、（ii）前記オーディオ・ソースにおける潜在的な
セグメント境界を識別するために、及び（iii）各識別
されたセグメントにスピーカ・ラベルを割り当てるため
に、前記フィーチャ・ベクトルを３つの並列処理ブラン
チに適用するように構成されることを特徴とするシステ
ム。（２１）コンピュータ読み取り可能なプログラム・コー
ド手段を組み込まれたコンピュータ読み取り可能な媒体
を含み、前記コンピュータ読み取り可能なプログラム・
コード手段は、前記オーディオ情報からフィーチャ・ベ
クトルを計算するステップと、（ｉ）前記オーディオ・
ソースを転写して前記オーディオ情報のテキスト・バー
ジョンを作成するために、（ii）前記オーディオ・ソー
スにおける潜在的なセグメント境界を識別するために、
及び（iii）各識別されたセグメントにスピーカ・ラベ
ルを割り当てるために、前記フィーチャ・ベクトルを３
つの並列処理ブランチに適用するステップと、を含むこ
とを特徴とする製造物。（２２）１つ又は複数のオーディオ・ソースからオーデ
ィオ情報を転写するための方法にして、前記オーディオ
情報のテキスト・バージョンを作成するために前記オー
ディオ・ソースを転写するステップと、前記オーディオ
・ソースにおける潜在的なセグメント境界を識別するス
テップと、識別された各セグメントにスピーカ・ラベル
を割り当てるステップと、前記転写するステップ、識別
するステップ、及び割り当てるステップと実質的に同時
に前記テキスト・バージョンを前記割り当てられたスピ
ーカ・ラベルと共に供給するステップと、を含む方法。（２３）１つ又は複数のオーディオ・ソースからオーデ
ィオ情報を転写するための方法にして、前記オーディオ
情報からフィーチャ・ベクトルを計算するステップと、
（ｉ）前記オーディオ・ソースを転写して前記オーディ
オ情報のテキスト・バージョンを作成するために、（i
i）前記オーディオ・ソースにおける潜在的なセグメン
ト境界を識別するために、及び（iii）各識別されたセ
グメントにスピーカ・ラベルを割り当てるために、前記
フィーチャ・ベクトルを３つの並列処理ブランチに適用
するステップと、前記転写するステップ、識別するステ
ップ、及び割り当てるステップと実質的に同時に前記テ
キスト・バージョンを前記割り当てられたスピーカ・ラ
ベルと共に供給するステップと、を含む方法。

【図面の簡単な説明】

【図１】本発明によるオーディオ転写及びスピーカ分類
システムのブロック図である。

【図２】図１のタイム・スタンプされたワード・データ
ベースからのテーブルである。

【図３】図１のスピーカ・ターン・データベースからの
テーブルである。

【図４】本発明による代表的なスピーカ登録プロセスを
示す。

【図５】図１のオーディオ転写及びスピーカ分類システ
ムによって遂行される例示的な同時転写、セグメンテー
ション及びスピーカ識別プロセスを説明するフローチャ
ートである。

【図６】図１のオーディオ転写及びスピーカ分類システ
ムによって遂行される例示的なセグメンテーション・プ
ロセスを説明するフローチャートである。

【図７】図１のオーディオ転写及びスピーカ分類システ
ムによって遂行される例示的なスピーカ識別プロセスを
説明するフローチャートである。

フロントページの続き (72)発明者アラン・シャルル・ルイ・トレザーアメリカ合衆国ニューヨーク州、ニューヨーク、ウエスト・シックスティサード・ストリート、243 ナンバー・５・エイ (72)発明者マハシュ・ヴィズワナザンアメリカ合衆国ニューヨーク州、ヨークタウン・ハイツ、ダグラス・ドライブ 3024

Claims

【特許請求の範囲】

【請求項１】１つ又は複数のオーディオ・ソースからオ
ーディオ情報を転写するための方法にして、前記オーディオ情報のテキスト・バージョンを作成する
ために前記オーディオ・ソースを転写するステップと、前記転写するステップと実質的に同時に前記オーディオ
・ソースにおける潜在的なセグメント境界を識別するス
テップと、識別された各セグメントにスピーカ・ラベルを割り当て
るステップと、を含む方法。
【請求項２】前記転写するステップは前記オーディオ・
ソースにおける各ワードに対してタイム・アライメント
を持った転写を作成することを特徴とする請求項１に記
載の方法。
【請求項３】前記識別するステップは非同種の音声部分
相互間にセグメント境界が存在するすべての可能なフレ
ームを識別することを特徴とする請求項１に記載の方
法。
【請求項４】前記割り当てるステップは登録されたスピ
ーカ・データベースを利用してスピーカ・ラベルを各識
別されたセグメントに割り当てることを特徴とする請求
項１に記載の方法。
【請求項５】前記割り当てるステップは前記割り当てら
れたスピーカ・ラベルの信頼性を表すスコアを割り当て
るステップを更に含むことを特徴とする請求項１に記載
の方法。
【請求項６】前記割り当てるステップは前記割り当てら
れたスピーカ・ラベルに対して少なくとも１つの別の選
択を割り当てるステップを更に含むことを特徴とする請
求項１に記載の方法。
【請求項７】前記転写するステップ、識別するステッ
プ、及び割り当てるステップはマルチ・スレッド環境で
は並列処理ブランチにおいて行われることを特徴とする
請求項１に記載の方法。
【請求項８】前記識別するステップはＢＩＣモデル選択
基準を使用してセグメント境界を識別することを特徴と
する請求項１に記載の方法。
【請求項９】１つ又は複数のオーディオ・ソースからオ
ーディオ情報を転写するための方法にして、前記オーディオ情報からフィーチャ・ベクトルを計算す
るステップと、（ａ）前記オーディオ・ソースを転写して前記オーディ
オ情報のテキスト・バージョンを作成するために、（ｂ）前記オーディオ・ソースにおける潜在的なセグメ
ント境界を識別するために、及び（ｃ）各識別されたセグメントにスピーカ・ラベルを割
り当てるために、前記フィーチャ・ベクトルを３つの並
列処理ブランチに適用するステップと、を含む方法。
【請求項１０】前記フィーチャ・ベクトルは共用メモリ
・アーキテクチャを使用して前記並列処理ブランチに適
用されることを特徴とする請求項９に記載の方法。
【請求項１１】前記共用メモリ・アーキテクチャは前記
計算されたフィーチャ・ベクトルを前記並列処理ブラン
チの各々に対応するチャネルに分配することを特徴とす
る請求項１０に記載の方法。
【請求項１２】前記転写するステップは前記オーディオ
・ソースにおける各ワードに対してタイム・アライメン
トを持った転写物を作成することを特徴とする請求項９
に記載の方法。
【請求項１３】前記識別するステップは非同種の音声部
分相互間にセグメント境界が存在するすべての可能なフ
レームを識別することを特徴とする請求項９に記載の方
法。
【請求項１４】前記割り当てるステップは登録されたス
ピーカ・データベースを利用してスピーカ・ラベルを各
識別されたセグメントに割り当てることを特徴とする請
求項９に記載の方法。
【請求項１５】前記割り当てるステップは前記割り当て
られたスピーカ・ラベルの信頼性を表すスコアを割り当
てるステップを更に含むことを特徴とする請求項９に記
載の方法。
【請求項１６】前記割り当てるステップは前記割り当て
られたスピーカ・ラベルに対して少なくとも１つの別の
選択を割り当てるステップを更に含むことを特徴とする
請求項９に記載の方法。
【請求項１７】前記識別するステップはＢＩＣモデル選
択基準を使用してセグメント境界を識別することを特徴
とする請求項９に記載の方法。
【請求項１８】１つ又は複数のオーディオ・ソースから
オーディオ情報を転写するためのシステムにして、コンピュータ読み取り可能なコードを記憶するメモリ
と、前記メモリに動作関係に結合され、前記コンピュータ読
み取り可能なコードをインプリメントするように構成さ
れたプロセッサと、を含み、前記コンピュータ読み取り可能なコードは、前記オーディオ・ソースを転写して前記オーディオ情報
のテキスト・バージョンを作成するように、前記転写と実質的に同時に前記オーディオ・ソースにお
ける潜在的なセグメント境界を識別するように、及び各
識別されたセグメントにスピーカ・ラベルを割り当てる
ように、構成されることを特徴とするシステム。
【請求項１９】コンピュータ読み取り可能なプログラム
・コード手段を組み込まれたコンピュータ読み取り可能
な媒体を含み、前記コンピュータ読み取り可能なプログラム・コード手
段は、オーディオ情報のテキスト・バージョンを作成するため
にオーディオ・ソースを転写するステップと、前記転写するステップと実質的に同時に前記オーディオ
・ソースにおける潜在的なセグメント境界を識別するス
テップと、識別された各セグメントにスピーカ・ラベルを割り当て
るステップと、を含むことを特徴とする製造物。
【請求項２０】１つ又は複数のオーディオ・ソースから
オーディオ情報を転写するためのシステムにして、コンピュータ読み取り可能なコードを記憶するメモリ
と、前記メモリに動作関係に結合され、前記コンピュータ読
み取り可能なコードをインプリメントするように構成さ
れたプロセッサと、を含み、前記コンピュータ読み取り可能なコードは、前記オーディオ情報からフィーチャ・ベクトルを計算
し、（ｉ）前記オーディオ・ソースを転写して前記オーディ
オ情報のテキスト・バージョンを作成するために、（ii）前記オーディオ・ソースにおける潜在的なセグメ
ント境界を識別するために、及び（iii）各識別されたセグメントにスピーカ・ラベルを
割り当てるために、前記フィーチャ・ベクトルを３つの
並列処理ブランチに適用するように構成されることを特
徴とするシステム。
【請求項２１】コンピュータ読み取り可能なプログラム
・コード手段を組み込まれたコンピュータ読み取り可能
な媒体を含み、前記コンピュータ読み取り可能なプログラム・コード手
段は、前記オーディオ情報からフィーチャ・ベクトルを計算す
るステップと、（ｉ）前記オーディオ・ソースを転写して前記オーディ
オ情報のテキスト・バージョンを作成するために、（ii）前記オーディオ・ソースにおける潜在的なセグメ
ント境界を識別するために、及び（iii）各識別されたセグメントにスピーカ・ラベルを
割り当てるために、前記フィーチャ・ベクトルを３つの
並列処理ブランチに適用するステップと、を含むことを
特徴とする製造物。
【請求項２２】１つ又は複数のオーディオ・ソースから
オーディオ情報を転写するための方法にして、前記オーディオ情報のテキスト・バージョンを作成する
ために前記オーディオ・ソースを転写するステップと、前記オーディオ・ソースにおける潜在的なセグメント境
界を識別するステップと、識別された各セグメントにスピーカ・ラベルを割り当て
るステップと、前記転写するステップ、識別するステップ、及び割り当
てるステップと実質的に同時に前記テキスト・バージョ
ンを前記割り当てられたスピーカ・ラベルと共に供給す
るステップと、を含む方法。
【請求項２３】１つ又は複数のオーディオ・ソースから
オーディオ情報を転写するための方法にして、前記オーディオ情報からフィーチャ・ベクトルを計算す
るステップと、（ｉ）前記オーディオ・ソースを転写して前記オーディ
オ情報のテキスト・バージョンを作成するために、（ii）前記オーディオ・ソースにおける潜在的なセグメ
ント境界を識別するために、及び（iii）各識別されたセグメントにスピーカ・ラベルを
割り当てるために、前記フィーチャ・ベクトルを３つの
並列処理ブランチに適用するステップと、前記転写するステップ、識別するステップ、及び割り当
てるステップと実質的に同時に前記テキスト・バージョ
ンを前記割り当てられたスピーカ・ラベルと共に供給す
るステップと、を含む方法。