JP4132590B2 - 同時的な音声認識、スピーカ・セグメンテーション及びスピーカ分類のための方法及び装置 - Google Patents

同時的な音声認識、スピーカ・セグメンテーション及びスピーカ分類のための方法及び装置 Download PDF

Info

Publication number
JP4132590B2
JP4132590B2 JP2000188625A JP2000188625A JP4132590B2 JP 4132590 B2 JP4132590 B2 JP 4132590B2 JP 2000188625 A JP2000188625 A JP 2000188625A JP 2000188625 A JP2000188625 A JP 2000188625A JP 4132590 B2 JP4132590 B2 JP 4132590B2
Authority
JP
Japan
Prior art keywords
speaker
audio
segment
assigning
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000188625A
Other languages
English (en)
Other versions
JP2001060098A (ja
Inventor
ハメイオン・サダル・モハマド・ベイギ
アラン・シャルル・ルイ・トレザー
マハシュ・ヴィズワナザン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/345,237 external-priority patent/US6421645B1/en
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2001060098A publication Critical patent/JP2001060098A/ja
Application granted granted Critical
Publication of JP4132590B2 publication Critical patent/JP4132590B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、概して云えば、オーディオ情報分類システムに関し、詳しく云えば、オーディオ情報を転写(transcribe)し、オーディオ・ファイルにおけるスピーカ(発声者)を識別するための方法及び装置に関するものである。
【0002】
【従来の技術】
放送ニュース機構及び情報検索サービスのような多くの機構は、記憶及び検索のために大量のオーディオ情報を処理しなければならない。オーディオ情報は、主題又はスピーカの名前、或いはそれらの両方によって分類されなければならないことが多い。主題によってオーディオ情報を分類するためには、先ず、音声認識システムが、自動分類又はインデキシングのために、オーディオ情報をテキストの形に転写する。しかる後、照会/ドキュメント・マッチングを行って関連ドキュメントをユーザに戻すためにインデックスが使用可能である。
【0003】
従って、主題によってオーディオ情報を分類するというプロセスは本質的には完全に自動化されたものになっている。しかし、スピーカによってオーディオ情報を分類するというプロセスは、特に、放送ニュースのようなリアルタイムの応用に対しては、大きな労力を要する仕事を残すことが多い。スピーカ登録情報を使用してオーディオ・ソースからスピーカを自動的に識別するための数多くの計算主体のオフライン・テクニックが提案されているけれども、スピーカ分類プロセスはヒューマン・オペレータによって最も頻繁に行われ、ヒューマン・オペレータは各スピーカの変更を識別し、対応するスピーカの識別を行う。
【0004】
本発明の親出願(1999年4月9日出願の米国特許出願番号09/288,724号)は、オーディオ・コンテント(主題)及びスピーカのアイデンティティに基づいてオーディオ情報を検索するための方法及び装置を開示している。タイム・スタンプされたコンテント・インデックス・ファイル及びスピーカ・インデックス・ファイルを作成するために、インデキシング・システムがオーディオ情報を転写し、そしてインデックスする。しかる後、その生成されたコンテント及びスピーカ・インデックスは、オーディオ・コンテント及びスピーカ・アイデンティティに基づいて照会/ドキュメント・マッチングを行うために利用可能である。オーディオ・ソースからオーディオ情報を自動的に転写し、同時にスピーカをリアルタイムで識別する方法及び装置に対する要求が存在する。ベイズ情報基準(Baysian Information Criterion−BIC)に基づいてスピーカ・セグメンテーション及びクラスタリングの改良を提供する方法及び装置に対する更なる要求も存在する。
【0005】
【発明が解決しようとする課題】
従って、本発明の目的は、オーディオ/ビデオ・ソースからのオーディオ情報を自動的に転写し、同時にスピーカを識別するための方法及び装置を開示することにある。
【0006】
【課題を解決するための手段】
開示されたオーディオ転写及びスピーカ分類システムは、音声認識システム、スピーカ・セグメンテーション・システム、及びスピーカ識別システムを含む。本発明の1つの局面によれば、オーディオ情報は、マルチスレッド環境における並列ブランチに沿って音声認識システム、スピーカ・セグメンテーション・システム、及びスピーカ識別システムによって処理される。
【0007】
音声認識システムは、転写物を、その転写物内の各ワードに対するタイム・アライメントを伴って作成する。スピーカ・セグメンテーション・システムはスピーカを個別化し、非同種の音声部分相互間にセグメント境界が存在するすべての可能なフレームを識別する。しかる後、スピーカ識別システムは、登録されたスピーカ・データベースを使用して、各識別されたセグメントにスピーカを割り当てる。
【0008】
本発明は、マルチスレッド環境における並列ブランチに沿って音声認識システム、スピーカ・セグメンテーション・システム、及びスピーカ識別システムによって処理されるフィーチャ・ベクトルを計算するために共通のフロント・エンド処理を利用する。一般に、フィーチャ・ベクトルは、例えば、計算されたフィーチャ・ベクトルを各チャネル(各処理スレッドに対応する)に分配するするためにサーバのような態様で作用する共用メモリ・アーキテクチャを使用して、3つの多重処理スレッドに分配可能である。
【0009】
本発明のもう1つの局面によれば、オーディオ/ビデオ・ソースからのオーディオ情報が同時に転写され及びセグメント境界を識別するためにセグメント化される。一旦音声セグメントがセグメンテーション・システムによって識別されると、スピーカ識別システムがその転写されたテキストの各部分にスピーカ・ラベルを割り当てる。
【0010】
本願で開示されるセグメンテーション・プロセスは、オーディオ・データを通るパス上に、しかも、転写エンジンと同じパス上にあるセグメント境界であってスピーカ変更に対応するセグメント境界が存在するすべての可能なフレームを識別する。フレームは所定の期間にわたって音声特性を表す。セグメンテーション・プロセスは、2つのモデルを比較するモデル選択基準を使用して、所定のフレームにセグメント境界が存在するかどうかを決定する。第1モデルは、単一の全共分散ガウス分布(full−covariance Gaussian)を使用するサンプル(x1,....,xn)のウインドウ内にセグメント境界が存在しないものと仮定する。第2モデルは、第1ガウス分布から得られた(x1,....,xi)及び第2ガウス分布から得られた(xi+1,....,xn)を持った2つの全共分散ガウス分布を使用するサンプル(x1,....,xn)のウインドウ内にセグメント境界が存在するものと仮定する。
【0011】
本願で開示されるスピーカ識別システムは、登録されたスピーカ・データベースを使用して各識別されたセグメントにスピーカ・ラベルを割り当てる。スピーカ識別プロセスはセグメンテーション・プロセスによって識別されたターンを、共用のフロント・エンドによって生成されたフィーチャ・ベクトルと共に受け取る。一般に、スピーカ識別システムは登録されたスピーカ・データベースにセグメント発声音(utterance)を比較し、「最も近似した」スピーカを見つける。そのスピーカ識別システムのためのモデル・ベース方式及びフレーム・ベース方式が開示される。
【0012】
本発明の結果は、例えば、転写されたテキストを、割り当てられたスピーカ・ラベルと共に各セグメントに供給するユーザに直接に出力可能である。更に、本発明の結果は1つ又は複数のデータベースに記録可能であり、オーディオ・コンテント及びスピーカのアイデンティティに基づいてオーディ情報に(及び間接的にはビデオに)参照を行うためにコンテント及びスピーカ・サーチ方法の結果を結合するという前記親出願において開示されたオーディオ検索システムのようなオーディオ検索システムによって利用可能である。
【0013】
以下の詳細な説明及び図面を参照することによって、本発明の更に完全な理解及び本発明の更なる特徴及び利点の理解が得られるであろう。
【0014】
【発明の実施の形態】
図1は、オーディオ/ビデオ・ソースからのオーディオ情報を自動的に転写し、同時にスピーカを識別するという本発明によるオーディオ転写及びスピーカ分類システム100を示す。オーディオ/ビデオ・ソース・ファイルは、例えば、オーディオ・レコーディングであってもよく、或いは、例えば、放送のニュース・プログラムからの生番組であってもよい。オーディオ/ビデオ・ソースは、先ず、転写され、同時に、スピーカの変更を表すセグメント境界が存在するすべての可能なフレームを識別するように処理される。
【0015】
オーディオ転写及びスピーカ分類システム100は、音声認識システム、スピーカ・セグメンテーション・システム及びスピーカ識別システムを含む。音声認識システムは、転写物を、その転写物における各ワードに対するタイム・アライメントを伴って作成する。スピーカ・セグメンテーション・システムはスピーカを個別化し、セグメント境界が存在するすべての可能なフレームを識別する。セグメントは、所定のスピーカと関連したオーディオ・ソースの連続部分である。しかる後、スピーカ識別システムが各セグメントにスピーカ・ラベルを割り当てる。
【0016】
図1は、本発明による例示的なオーディオ転写及びスピーカ分類システム100のアーキテクチャを示すブロック図である。オーディオ転写及びスピーカ分類システム100は、図1に示された汎用コンピュータ・システムのような汎用コンピュータ・システムとして具体化可能である。そのオーディオ転写及びスピーカ分類システム100はプロセッサ110及びデータ記憶装置120のような関連メモリを含む。なお、データ記憶装置120は分散型又はローカル型のものでよい。プロセッサ110は単一のプロセッサとして、又は並行して動作する複数のローカル・プロセッサ又は分散プロセッサとして実施可能である。データ記憶装置120及び/又は読取り専用メモリ(ROM)は1つ又は複数の命令を記憶するように動作可能であり、プロセッサ110はそれらの命令を検索、解釈、及び実行するように動作可能である。
【0017】
望ましくは、データ記憶装置120は、本発明に従ってリアルタイムで処理可能な1つ又は複数の事前記録された又は生のオーディオ・ファイル又はビデオ・ファイル(或いは、それらの両方)を記憶するためのオーディオ・コーパス(corpus)データベース150を含む。又、データ記憶装置120は、図2に関連して後述するタイム・スタンプ・ワード・データベース200も含む。そのデータベース200は音声認識システムによって生成されたものであり、一組のタイム・スタンプされたワードを含む。図3に関連して後述するスピーカ・ターン・データベース300はスピーカ・セグメンテーション・システムと関連してスピーカ識別システムによって作成され、各セグメントの開始時間を、1つ又は複数の対応する提案されたスピーカ・ラベルと共に表示する。図4と関連して後述するスピーカ・データベース420はスピーカ登録プロセス410によって作成され、各登録されたスピーカに対するエントリを含む。図1の例示的な実施例に示されたそれらの生成されたデータベース200及び300は、本発明の結果がリアルタイムでユーザに表示されるオンライン・インプリメンテーションに対しては必要とされず、その後のアクセスのためにも必要とされないことに注意してほしい。
【0018】
更に、図5及び図6に関連して後述するように、データ記憶装置120は、同時転写、セグメンテーション及びスピーカ識別プロセス500、転写エンジン515,セグメンテーション・プロセス600,及びスピーカ識別プロセス700を含む。同時転写、セグメンテーション及びスピーカ識別プロセス500は転写エンジン515,セグメンテーション・プロセス600、及びスピーカ識別プロセス700の実行を調整する。同時転写、セグメンテーション及びスピーカ識別プロセス500はオーディオ・コーパス・データベース150における1つ又は複数のオーディオ・ファイルを分析し、各セグメントと関連するスピーカを表すオーディオ情報の転写をリアルタイムで作成する。セグメンテーション・プロセス600はスピーカを個別化し、セグメント境界が存在するすべての可能なフレームを識別する。スピーカ識別プロセス700は、登録されたスピーカ・データベースを使用する各セグメントにスピーカ・ラベルを割り当てる。
【0019】
図2は、音声認識システムによって生成され、一組のタイム・スタンプされたワードを含む例示的なタイム・スタンプ・ワード・データベース200を示す。そのタイム・スタンプ・ワード・データベース200は、各々がその実施例における異なるワードと関連するレコード211乃至214のような複数のレコードを維持する。ワード・ストリング・フィールド220において識別された各ワードに対して、タイム・スタンプ・ワード・データベース200は開始時間フィールド230においてそのワードの開始時間を表示する。
【0020】
図3は例示的なスピーカ・ターン・データベース300を示す。そのデータベース300は、スピーカ・セグメンテーション・システムと関連してスピーカ識別システムによって作成され、1つ又は複数の対応する提案されたスピーカ・ラベルと共に各セグメントの開始時間を表す。スピーカ・ターン・データベース300は、各々が実施例における種々のセグメントによって識別されるレコード305乃至308のような複数のレコードを維持する。フィールド320におけるセグメント番号によって識別された各セグメントに対して、スピーカ・ターン・データベース300は、オーディオ・ソース・ファイルの開始時間に関するそのセグメントの開始時間をフィールド330において表示する。更に、スピーカ・ターン・データベース300は、フィールド340において各セグメントと関連するスピーカを、フィールド350における対応するスピーカ・スコアと共に識別する。1つのインプリメンテーションでは、スピーカ・ターン・データベース300はフィールド360において各セグメントと関連する1つ又は複数の代替えスピーカ(次の最適な予測)を、フィールド370における対応する代替えスピーカ・スコアと共に識別する。
【0021】
A.スピーカ登録プロセス
図4はスピーカを登録又はエンロールするために使用される既知のプロセスを示す。図4に示されるように、各登録されたスピーカに対して、スピーカの名前が、パルス・コード変調(PCM)ファイルのようなスピーカ・トレーニング・ファイルと共にスピーカ登録プロセス410に供給される。スピーカ登録プロセス410はスピーカ・トレーニング・ファイルを分析し、スピーカ・データベース420において各スピーカに対するエントリを作成する。スピーカの音声サンプルをスピーカ・データベース420に加えるプロセスは登録と呼ばれる。その登録プロセスはオフラインであり、スピーカ識別システムは、関連するすべてのスピーカに対してそのようなデータベースが存在するものと仮定する。わずかな価値のオーディオに関して、一般には、各スピーカが複数のチャネル及びマイクロフォンから複数の音響的条件を包含することを要求される。登録されたスピーカのトレーニング・データ又はデータベースは、それらのモデルへのアクセスが効率的な認識及び検索のために最適化されるように階層構造を使用して記憶される。
【0022】
B.プロセス
前述のように、図5に示された同時転写、セグメンテーション及びスピーカ識別プロセス500は、転写エンジン515,セグメンテーション・プロセス600(図6)及びスピーカ識別プロセス700(図7)の実行を調整する。同時転写、セグメンテーション及びスピーカ識別プロセス500は、オーディオ・コーパス・データベース150における1つ又は複数のオーディオ・ファイルを分析し、各セグメントと関連するスピーカを表すオーディオ情報の転写をリアルタイムで作成する。図5に示されるように、同時転写、セグメンテーション及びスピーカ識別プロセス500は、先ず、ステップ510においてオーディオ・ファイルからセプストラル(cepstral)フィーチャを既知の方法で抽出する。一般に、ステップ510はオーディオ信号のドメインを時間的ドメインから周波数ドメインに変更し、種々の周波数帯における信号エネルギを分析し、その信号のドメインをセプストラル・ドメインに変更するためにもう1つの変換を使用する。
【0023】
図5に示されるように、ステップ510は、転写エンジン515,セグメンテーション・プロセス600(図6)及びスピーカ識別プロセス700(図7)に共通のフロント・エンド処理を提供する。一般に、ステップ510において計算されたフィーチャ・ベクトルは、転写エンジン515,セグメンテーション・プロセス(図6)及びスピーカ識別プロセス700(図7)に対応する3つの多重処理スレッドに分配可能である。それらのフィーチャ・ベクトルは、例えば、計算されたフィーチャ・ベクトルを各チャネル(各処理スレッドに対応する)に分配するためにサーバのような態様で作用する共用メモリ・アーキテクチャを使用して3つの多重処理スレッドに分配可能である。
【0024】
ステップ510において生成されたフィーチャ・ベクトルは、多重スレッド環境において並列ブランチに沿って処理される。図5に示され且つ後述されるように、生成されたフィーチャ・ベクトルは多重スレッドを使用して
(i)ステップ515において転写エンジン、
(ii)ステップ530において、図6に関連して後述されるスピーカ・セグメンテーション・プロセス600、及び
(iii)ステップ560において、図7に関連して後述されるスピーカ識別プロセス700
に適用される。
【0025】
ステップ515において、それらの生成されたフィーチャ・ベクトルは、タイム・スタンプされたワードの転写ファイルを生成するために、IBM社から商業的に入手可能なViaVoice(商標)音声認識システムのような転写エンジンに供給される。しかる後、それらのタイム・スタンプされたワードは、ステップ520においてタイム・スタンプ・ワード・データベース200の中に任意選択的に収集可能である。更に、それらのタイム・スタンプされたワードは後述のステップ540においてインタリーバに供給される。
【0026】
生成されたフィーチャ・ベクトルは、ステップ530において、図6に関連して後述されるセグメンテーション・プロセス600に適用される。一般に、セグメンテーション・プロセス600はスピーカを個別化し、非同種の音声部分相互間にセグメント境界が存在するすべての可能なフレームを識別する。セグメント境界が存在する各フレームはターンと呼ばれ、同種の各セグメントは単一のスピーカの音声に対応しなければならない。一旦セグメンテーション・プロセス600によって描出されると、各セグメントは(そのセグメントがスピーカ認識システムに対して要求される最小セグメント長の要件に合致すると仮定して)特定のスピーカによって発声されたものとして分類可能である。
【0027】
セグメンテーション・プロセス600によって識別されたターンは、登録されたスピーカ・データベース420を使用して各セグメントにスピーカ・ラベルを割り当てるために、ステップ510において生成されたフィーチャ・ベクトルと共に、ステップ560において、図7と関連して後述されるスピーカ識別プロセス700に適用される。一般に、スピーカ識別システムはセグメント発声音をスピーカ・データベース420に比較し(図4)、「最も近似した」スピーカを見つける。スピーカ識別プロセス700によって作成されたその割り当てられたスピーカ・ラベルは後述のステップ550に供給される。
【0028】
ステップ515において転写エンジンによって作成されたタイム・スタンプ済みワードは、ステップ530においてセグメンテーション・プロセス600によって識別されたスピーカ・ターンと共に、ステップ540においてインタリーバに適用され、それらのターンをタイム・スタンプ済みワードとインタリーブさせ、切り離された音声セグメントを作成させる。しかる後、切り離された音声セグメント及びステップ560においてスピーカ識別システムにより生成されたスピーカ識別子がステップ550においてユーザに表示される。
【0029】
1つのインプリメンテーションでは、切り離された音声セグメントは、それらがステップ540においてインタリーバによって作成された時にリアルタイムで表示される。更に、例示的な実施例では、そのスピーカ認識システムに対して要求される最小セグメント長は8秒である。従って、一般には、分離された音声セグメントの始まりが最初に与えられた後約8秒で、スピーカ識別ラベルがその転写されたテキストに付加される。切り離された音声セグメントがそのスピーカ認識システムに対して要求される最小セグメント長よりも短い場合、「未定(inconclusive)」のようなスピーカ・ラベルがそのセグメントに割り当て可能であることに注意すべきである。
【0030】
C.ベイズ情報基準(BIC)の背景
前述のように、図6に示されたセグメンテーション・プロセス600はスピーカを個別化し、非同種の音声部分相互間にセグメント境界が存在するすべての可能なフレームを識別する。セグメント境界が存在する各フレームはターンと呼ばれ、同種の各セグメントは単一のスピーカの音声に対応しなければならない。一旦セグメンテーション・プロセス600によって描出されると、各セグメントは(そのセグメントがスピーカ認識システムに対して要求された最小セグメント長の要件に合致していると仮定して)特定のスピーカによって発声されたものとして分類可能である。セグメンテーション・プロセス600はベイズ情報基準(BIC)のモデル選択基準に基づくものである。BICは、p個のパラメータ・モデルのうちのどれがn個のデータ・サンプル x1,....,xn,xi∈Rdを最もよく表すかを決定するするために使用される漸近的に最適なベイズのモデル選択基準である。各モデルMiは複数のパラメータkjを有する。サンプルxiは独立したものである仮定する。
【0031】
BICの原理に関する詳細な検討のためには、例えば、The Annals of Statistics 誌の第6巻461−464ページ(1978)における G.Schwarz 氏による「モデルの寸法の見積り(Estimating the Dimension of a Model)」と題した論文を参照してほしい。そのBICの原理によれば、十分に大きいnに対して、データの最良のモデルは次式を最大化するものである。
BICj=logLj(x1,...,xn)−(λkjlogn)/2
但し、λ=1であり、LjはモデルMiにおけるデータの最大見込み値(換言すれば、Miのkjパラメータに対する最大の見込み値をもったデータの見込み値)である。2つのモデルしか存在しない時、モデル選択のために簡単なテストが使用される。特に、ΔBIC=BIC1−BIC2が正である場合、モデルMiがモデルM2に優先して選択される。同様に、ΔBIC=BIC1−BIC2が負である場合、モデルM2がモデルM1に優先して選択される。
【0032】
D.スピーカ・セグメンテーション
図6に示されたセグメンテーション・プロセス600は、セグメント境界が存在するすべての可能なフレームを識別する。汎用性を損なうことなく、精々1つのセグメント境界しか存在しない連続したデータ・サンプル(x1,....,xn)のウインドウを考察する。
【0033】
フレームiにおいてセグメント境界が存在するかどうかに関する基本的な疑問が次のような2つのモデル、即ち、モデルM1及びモデルM2の間のモデル選択問題として生じ得る。なお、モデルM1は(x1,...,xn)が単一の全共分散ガウス分布から得られる場合であり、モデルM2は(x1,....xi)が第1ガウス分布から得られ、(xi+1,....xn)が第2ガウス分布から得られることによって(x1,...,xn)が2つの全共分散ガウス分布から得られる。
【0034】
i∈Rdであるので、モデルM1はk1=d+d(d+1)/2のパラメータを有し、一方、モデルM2は2倍のパラメータ(k2=2k1)を有する。次式が負である場合、i番目のフレームがセグメント境界に対する良好な候補であることがわかる。
【数1】
Figure 0004132590
【0035】
但し、|Σw|はウインドウ全体(即ち、n個のフレームすべて)の共分散の行列式である。|Σf|はそのウインドウの第1サブディビジョンの共分散の行列式であり、|Σs|はそのウインドウの第2サブディビジョンの共分散の行列式であり、λはペナルティ・ウェート・パラメータであり、dはフィーチャ・ベクトルの次元である。
【0036】
従って、ステップ610において、2つのサブサンプル(x1,...,xi)及び(xi+1,...,xn)が連続的なデータ・サンプル(x1,...,xn)のウインドウから設定される。セグメンテーション・プロセス600はステップ615乃至628において数多くのテストを行い、境界の検出があまりありそうもないロケーションにそのウインドウにおけるいくつかのBICテストが対応する時、それらのテストを排除する。特に、ステップ615において、可変数αの値が(n/r)−1の値に初期設定される。但し、rは(フレームにおける)検出解像度である。しかる後、ステップ620において、その値αが最大値αmaxを越えるかどうかを決定するためのテストが行われる。ステップ620において値αが最大値αmaxを越えることが決定される場合、ステップ624において、カウンタiが(α−αmax+1)rの値に設定される。しかし、ステップ620において、値αが最大値αmaxを越えないことが決定される場合、ステップ628において、カウンタiがrの値に設定される。しかる後、ステップ630において、上記の式を使用してBIC値における差が計算される。
【0037】
ステップ640において、カウンタiの値がn−rに等しいかどうか、換言すれば、ウインドウにおけるすべての可能なサンプルが評価されてしまったかどうかを決定するためのテストが行われる。ステップ640においてカウンタiの値がn−rに等しくないことが決定される場合、ステップ650においてそのiの値がrだけインクレメントされ、ステップ630においてウインドウにおける次のサンプルに対する処理を継続する。しかし、ステップ640においてカウンタiの値がn−rに等しいことが決定される場合、ステップ660において、BIC値における最小の差(ΔBICi0)が負であるかどうかを決定するための更なるテストが行われる。ステップ660において、BIC値における最小の差(ΔBICi0)が負でないことが決定される場合、新しいウインドウを上記方法で考察するためにステップ610へ戻る前に、ステップ665においてウインドウ・サイズが増加させられる。従って、1つのウインドウにおけるすべてのカウンタiに対するΔBIC 値が計算され、それらのうちのいずれも負のΔBIC 値をもたらすものでない時、ウインドウ・サイズnが増加させられるだけである。
【0038】
しかし、ステップ660において、BIC値における最小の差が負であることが決定される場合、ステップ670において、i0がセグメント境界として選択される。しかる後、ステップ675において、新しいウインドウの始まりがi0+1に移り、ウインドウ・サイズがN0に設定され、その後、新しいウインドウを上記の方法で考察するためにプログラム制御はステップ610に戻る。
【0039】
従って、i のすべての可能な値に対してBIC差のテストが行われ、最大の負のΔBICiによってi0が選択される。そのウインドウではフレームiにおいてセグメント境界が検出可能である。ΔBICi0<0である場合、xi0がセグメント境界に対応する。そのテスト結果が否定的である場合、後述のように、ステップ660において更なるデータ・サンプルが(パラメータnを増加させることによって)現ウインドウに加えられ、フィーチャ・ベクトルがすべてセグメント化されてしまうまで、プロセスはデータ・サンプルのこの新しいウインドウに関して反復される。一般に、ウインドウ・サイズは、自身が1つのウインドウ拡張から別のウインドウ拡張に増加する複数のフィーチャ・ベクトルによって拡張される。しかし、ウインドウは、或る最大値よりも大きい多数のフィーチャ・ベクトルによっては拡張されることはない。ステップ670においてセグメント境界が検出された時、ウインドウ拡張値はそれの最小値(N0)を検索する。
【0040】
E.可変ウインドウ方式
本発明のもう1つの特徴によれば、特に小さいセグメントにおける全体の精度を改良する新しいウインドウ選択方式が提供される。セグメンテーション・プロセス600が遂行されるウインドウ・サイズの選択は非常に重要である。その選択されたウインドウがあまりにも多くのベクトルを含む場合、いくつかの境界が脱落することがある。一方、選択されたウインドウが小さ過ぎる場合、情報の不足の結果、ガウス分布によるデータの表示が不十分になるであろう。
【0041】
セグメント境界が検出されなかった場合、一定量のデータを現ウインドウに加えることが提案された。そのような方式は、精度を改良するために「前後関係(contextual information)」を利用するものではない。セグメント境界が検出されても又はされなくても、或いは境界が長い間検出されなくても、同じ量のデータが加えられる。
【0042】
本発明の改良されたセグメンテーション・プロセスは、新しい境界が生じそうなエリアにおける比較的少量のデータを考察し、新しい境界が生じそうもない時にはウインドウ・サイズをもっと大きく増加させる。先ず、小さいサイズのベクトルのウインドウ(一般には、100フレームの音声)を考察する。現ウインドウにおいてセグメント境界が検出されない場合、ウインドウのサイズはΔNiフレームだけ増加する。この新しいウインドウにおいて境界が検出されない場合、フレームの数はΔNi+1だけ増加する。なお、セグメント境界が検出されるまで、又はウインドウ拡張が最大サイズに達してしまうまで(境界が生じる場合に精度の問題を回避するために)、ΔNi=ΔNi+1+δiである。但し、δ=2δi+1である。これは、ウインドウが依然として小さい時にはかなり遅いウインドウ・サイズの増加及びウインドウが大きくなる時には速いウインドウ・サイズの増加を保証する。ウインドウ内でセグメント境界が検出される時、最小のウインドウ・サイズを使用して次のウインドウがその検出された境界の後に始まる。
【0043】
F.BICテストの効率の改良
本発明のもう1つの特徴によれば、BICテストが行われるロケーションの良好な選択によって処理時間全体の改良が得られる。ウインドウにおけるBICテストのうちの或るものは、境界の検出がありそうもないロケーションにそれらが対応する時、任意に排除可能である。先ず、BICテストは各ウインドウの境界においては行われない。それは、それが非常にわずかなデータでもって1つのガウス分布を必ず表示するためである(この明らかに小さいゲインがセグメント検出を通して繰り返され、実際には、それは無視し得るパフォーマンス・インパクトを持たない)。
【0044】
更に、現ウインドウが大きい時にBICテストがすべて行われる場合、何らかの新しい情報が加えられる度に、そのウインドウの開始時においてBIC計算が何回も行われたであろう。例えば、10秒のウインドウ・サイズにおいて最初の5秒内にセグメント境界が検出されなかった場合、10秒の現ウインドウの拡張によって、最初の5秒内に境界が認められるということは全くありそうもない。従って、(ウインドウ拡張に続く)現ウインドウの始まりにおけるBIC計算を無視することによってBIC計算の数を減少させることができる。実際には、BIC計算の最大数は、今や、必要とされる速度/精度レベルに従って調整された調節可能なパラメータ(図3におけるαmax)である。
【0045】
従って、セグメンテーション・プロセス600は、セグメンテーション情報に関する何らかのフィードバックを持つ前にそれが必要とする最大時間を知ることを可能にする。それは、たとえセグメント境界が検出されなくても、ウインドウが十分に大きい場合、第1フレームにセグメントが存在しないということがわかるためである。この情報は速度信号のうちのこの部分に関して別の処理を行うために使用可能である。
【0046】
G.BICペナルティ・ウェート
BICの式は、理論と基準に関する実用的な応用との間の差を補うために、ペナルティ・ウェート・パラメータλを利用する。ミス率と誤警報率との間の良好なトレード・オフを与えるλの最良値は1.3であることがわかっている。放送ニュースの転写に対するセグメンテーション精度に関するλの影響をより総合的に研究するためには、M.S.Thesis, Institut Eurecom 誌(フランス、1998)における A. Tritschler 氏による「BICを使用したセグメンテーション・イネーブルド音声認識アプリケーション(A Segmentation-Enabled Speech Recognition Application)」と題した論文を参照してほしい。
【0047】
原則として、係数λはタスク依存のものであり、新しいタスク毎に戻されなければならないけれども、実際には、そのアルゴリズムは種々のタイプのデータに適用されており、同じ値のλを使用することによるパフォーマンスにおける認め得る程度の変化は存在しない。
【0048】
H.スピーカ識別プロセス
前述のように、同時転写、セグメンテーション及びスピーカ識別プロセス500は、ステップ560において、図7に示されたスピーカ識別プロセス700を実行し、登録されたスピーカ・データベース420を使用して各セグメントにスピーカ・ラベルを割り当てる。図7に示されるように、スピーカ識別プロセス700は、ステップ510において共通のフロント・エンド・プロセッサによって生成されたフィーチャ・ベクトルと共に、セグメンテーション・プロセス600によって識別されたターンを受け取る。一般に、スピーカ識別システムはスピーカ・データベース420(図4)にセグメント発声音を比較し、「最も近似した」スピーカを検出する。
【0049】
ターン及びフィーチャ・ベクトルは、ステップ710において、単一のスピーカによる音声のチャンクより成るセグメント発声音を形成するように処理される。ステップ720において、セグメント発声音がスピーカ識別システムに供給される。スピーカ識別システムを検討するためには、例えば、Proc. of Speaker Recognition and Its Commercial and Forensic Application, Avignon, France(1998)誌における H.S.M.Beigi 氏他による「IBMモデル・ベース及びフレーム毎のスピーカ認識(IBM Model-Based and Frame-By-Frame Speaker-Recognition)」と題した論文を参照してほしい。一般に、スピーカ識別システムはセグメント発声をスピーカ・データベース420(図4)に比較し、「最も近似した」スピーカを検出する。
【0050】
スピーカ識別システムは2つの異なるインプリメンテーション、即ち、モデル・ベース方式及びフレーム・ベース方式を有し、それらは付随した利点及び欠点を有する。エンジンは、放送ニュースのような番組の生のオーディオ・インデキシングを容易にするために独立したテキスト及び言語の両方である。
【0051】
I.スピーカ識別(モデル・ベース方式)
スピーカの母集団に対して一組のトレーニング・モデルを作成するために、下記のようなd次元のフィーチャ・ベクトルを持ったM個の音声フレームのシーケンスに基づいたi番目のスピーカに対するモデルMiが計算される。
【数2】
Figure 0004132590
【0052】
これらのモデルは、ガウス分布が選択される場合に対して、平均ベクトル、共分散マトリックス、及びカウントより成る下記のようなそれらの統計的パラメータによって記憶される。なお、各スピーカiはni個の分布よりなるモデルでもって終わり得るものである。
【数3】
Figure 0004132590
【0053】
2つのそのようなモデルを比較するために、Proc. ICASSP98 誌(Seattle, WA, 1998)における H.S.M. Beigi 氏他による「分布の集合体相互間の距離測定法及びスピーカ認識に対するそれの応用(A Distance Measure Between Collections of Distributions and Its Application to Speaker Recognition)」と題した論文において提案された距離測定法を使用して、スピーカ識別(クレームを実証する)、スピーカ分類(スピーカを割り当てる)、スピーカ検証(ラベルされたスピーカの特性に匹敵する特性を持ったスピーカの「コーホート(cohort)」セットとラベルを比較することによって分類を確認するための第2パス)、及びスピーカ・クラスタリングを含む多くの種々な機能を持ったスピーカ認識システムを考案するために階層構造が作成される。
【0054】
スピーカ認識のために考案されたその距離測定法は、異なる数の分布niを持った受容可能な距離の計算を可能にする。2つのスピーカをそれらのパラメータ的な表示に基づいて比較するだけで、2つのスピーカを比較するというそのタスクを計算主体でないものにするという特徴を常に持つ必要がなくなる。しかし、認識段階に対するこの距離測定法の欠点は、比較の計算が始まる前に個々のテストのモデル(要求者:Claimant)を形成するために音声セグメント全体が使用されなければならないということである。フレーム・ベース方式はこの欠点を緩和する。
【0055】
J.スピーカ識別(フレーム・ベース方式)
iをi番目の登録されたスピーカに対応するモデルであると仮定する。Miは、スピーカiのガウス混合モデル(GMM)のni個のコンポーネントの各々に対する平均ベクトル、共分散マトリクス、及び混合ウェートより成る次のようなパラメータ・セットによって全体的に定義される。
【数4】
Figure 0004132590
【0056】
これらのモデルは、前のセクションにおいて説明したように、下記のようなd次元のフィーチャ・ベクトルを持ったM個の音声フレームのシーケンスより成るトレーニング・データを使用して作成される。
【数5】
Figure 0004132590
【0057】
スピーカ母集団のサイズがNpである場合、モデル・ユニバースのセットは次のようになる。
【数6】
Figure 0004132590
【0058】
基本的な目的は、次式のようなN個のフレームのシーケンスとして表されたテスト・データをMiが最もよく示しているというようなiを見つけること、及びそれらのモデルのうちデータを十分に記述するものがないという決定を行うことである。
【数7】
Figure 0004132590
【0059】
次のようなフレーム・ベースのウェート付けされた距離測定法di,nはその決定を行う場合に使用される。
【数8】
Figure 0004132590
【0060】
但し、正規の表示を使用すると、次のようになる。
【数9】
Figure 0004132590
【0061】
テスト・データからのモデルMiの合計距離Diはテスト・フレームの合計数を超えたすべての距離の和であると見なされる。
【0062】
分類のために、音声セグメントのモデルまでの最小距離を持ったモデルが選択される。その最小距離を背景モデルの距離に比較することによって、オリジナル・モードのうちのいずれも十分に合致しないことを表示するための方法を提供することが可能である。別の方法として、合計距離を計算するために投票集計技法が使用可能である。
【0063】
検証のために、ラベルされたスピーカのコーホートを形成する所定セットのメンバが種々のバックグラウンド・モデルでによって増大する。このセットをモデル・ユニバースとして使用すると、テスト・データは、要求者(Claimantのモデルが最小距離を有するかどうかをテストすることによって検証される。そうでない場合、それは拒絶される。
【0064】
この距離測定法は、スピーカ相互間の距離を計算するために音声のフレームが保持されなければならないので、トレーニングでは使用されない。従って、トレーニングは、前述のモデル・ベースのテクニックのための方法を使用して行われる。
【0065】
ステップ720において生成されたその割り当てられたスピーカ・ラベルは、下記のように、ユーザへ出力するために任意選択的にブロック550(図5)への暫定的提供が可能である。ステップ730において、その割り当てられたスピーカ・ラベルは、スピーカ分類の結果に関して第2パスを行うことによって検証される。ステップ730においてスピーカ識別が検証される場合、そのスピーカ・ラベルはユーザへの出力のためにブロック550(図5)に供給される。更に、ステップ740において、オリジナルの登録されたスピーカ・モデルからオーディオ・テスト・セグメントまでの距離を表す割り当てられたスコアと共に、最善の選択を表すエントリ、又は、望ましい場合には、代替えの選択を表すエントリを、スピーカ・ターン・データベース300において任意選択的に作成することが可能である。
【0066】
本願において開示され及び図示された実施例並びにその変形は単に本発明の原理を説明するものであること、及び本発明の技術的範囲及び精神から逸脱することなく種々の修正を当業者が実施することが可能であることは理解されるべきである。
【0067】
まとめとして、本発明の構成に関して以下の事項を開示する。
【0068】
(1)1つ又は複数のオーディオ・ソースからオーディオ情報を転写するための方法にして、
前記オーディオ情報のテキスト・バージョンを作成するために前記オーディオ・ソースを転写するステップと、
前記転写するステップと実質的に同時に前記オーディオ・ソースにおける潜在的なセグメント境界を識別するステップと、
識別された各セグメントにスピーカ・ラベルを割り当てるステップと、
を含む方法。
(2)前記転写するステップは前記オーディオ・ソースにおける各ワードに対してタイム・アライメントを持った転写を作成することを特徴とする請求項1に記載の方法。
(3)前記識別するステップは非同種の音声部分相互間にセグメント境界が存在するすべての可能なフレームを識別することを特徴とする請求項1に記載の方法。
(4)前記割り当てるステップは登録されたスピーカ・データベースを利用してスピーカ・ラベルを各識別されたセグメントに割り当てることを特徴とする請求項1に記載の方法。
(5)前記割り当てるステップは前記割り当てられたスピーカ・ラベルの信頼性を表すスコアを割り当てるステップを更に含むことを特徴とする請求項1に記載の方法。
(6)前記割り当てるステップは前記割り当てられたスピーカ・ラベルに対して少なくとも1つの別の選択を割り当てるステップを更に含むことを特徴とする請求項1に記載の方法。
(7)前記転写するステップ、識別するステップ、及び割り当てるステップはマルチ・スレッド環境では並列処理ブランチにおいて行われることを特徴とする請求項1に記載の方法。
(8)前記識別するステップはBICモデル選択基準を使用してセグメント境界を識別することを特徴とする請求項1に記載の方法。
(9)1つ又は複数のオーディオ・ソースからオーディオ情報を転写するための方法にして、
前記オーディオ情報からフィーチャ・ベクトルを計算するステップと、
(a)前記オーディオ・ソースを転写して前記オーディオ情報のテキスト・バージョンを作成するために、
(b)前記オーディオ・ソースにおける潜在的なセグメント境界を識別するために、及び
(c)各識別されたセグメントにスピーカ・ラベルを割り当てるために、
前記フィーチャ・ベクトルを3つの並列処理ブランチに適用するステップと、
を含む方法。
(10)前記フィーチャ・ベクトルは共用メモリ・アーキテクチャを使用して前記並列処理ブランチに適用されることを特徴とする請求項9に記載の方法。
(11)前記共用メモリ・アーキテクチャは前記計算されたフィーチャ・ベクトルを前記並列処理ブランチの各々に対応するチャネルに分配することを特徴とする請求項10に記載の方法。
(12)前記転写するステップは前記オーディオ・ソースにおける各ワードに対してタイム・アライメントを持った転写物を作成することを特徴とする請求項9に記載の方法。
(13)前記識別するステップは非同種の音声部分相互間にセグメント境界が存在するすべての可能なフレームを識別することを特徴とする請求項9に記載の方法。
(14)前記割り当てるステップは登録されたスピーカ・データベースを利用してスピーカ・ラベルを各識別されたセグメントに割り当てることを特徴とする請求項9に記載の方法。
(15)前記割り当てるステップは前記割り当てられたスピーカ・ラベルの信頼性を表すスコアを割り当てるステップを更に含むことを特徴とする請求項9に記載の方法。
(16)前記割り当てるステップは前記割り当てられたスピーカ・ラベルに対して少なくとも1つの別の選択を割り当てるステップを更に含むことを特徴とする請求項9に記載の方法。
(17)前記識別するステップはBICモデル選択基準を使用してセグメント境界を識別することを特徴とする請求項9に記載の方法。
(18)1つ又は複数のオーディオ・ソースからオーディオ情報を転写するためのシステムにして、
コンピュータ読み取り可能なコードを記憶するメモリと、
前記メモリに動作関係に結合され、前記コンピュータ読み取り可能なコードをインプリメントするように構成されたプロセッサと、
を含み、
前記コンピュータ読み取り可能なコードは、
前記オーディオ・ソースを転写して前記オーディオ情報のテキスト・バージョンを作成するように、
前記転写と実質的に同時に前記オーディオ・ソースにおける潜在的なセグメント境界を識別するように、及び
各識別されたセグメントにスピーカ・ラベルを割り当てるように、
構成されることを特徴とするシステム。
(19)コンピュータ読み取り可能なプログラム・コード手段を組み込まれたコンピュータ読み取り可能な媒体を含み、
前記コンピュータ読み取り可能なプログラム・コード手段は、
オーディオ情報のテキスト・バージョンを作成するためにオーディオ・ソースを転写するステップと、
前記転写するステップと実質的に同時に前記オーディオ・ソースにおける潜在的なセグメント境界を識別するステップと、
識別された各セグメントにスピーカ・ラベルを割り当てるステップと、
を含むことを特徴とする製造物。
(20)1つ又は複数のオーディオ・ソースからオーディオ情報を転写するためのシステムにして、
コンピュータ読み取り可能なコードを記憶するメモリと、
前記メモリに動作関係に結合され、前記コンピュータ読み取り可能なコードをインプリメントするように構成されたプロセッサと、
を含み、
前記コンピュータ読み取り可能なコードは、
前記オーディオ情報からフィーチャ・ベクトルを計算し、
(i)前記オーディオ・ソースを転写して前記オーディオ情報のテキスト・バージョンを作成するために、
(ii)前記オーディオ・ソースにおける潜在的なセグメント境界を識別するために、及び
(iii)各識別されたセグメントにスピーカ・ラベルを割り当てるために、
前記フィーチャ・ベクトルを3つの並列処理ブランチに適用する
ように構成されることを特徴とするシステム。
(21)コンピュータ読み取り可能なプログラム・コード手段を組み込まれたコンピュータ読み取り可能な媒体を含み、
前記コンピュータ読み取り可能なプログラム・コード手段は、
前記オーディオ情報からフィーチャ・ベクトルを計算するステップと、
(i)前記オーディオ・ソースを転写して前記オーディオ情報のテキスト・バージョンを作成するために、
(ii)前記オーディオ・ソースにおける潜在的なセグメント境界を識別するために、及び
(iii)各識別されたセグメントにスピーカ・ラベルを割り当てるために、
前記フィーチャ・ベクトルを3つの並列処理ブランチに適用するステップと、
を含むことを特徴とする製造物。
(22)1つ又は複数のオーディオ・ソースからオーディオ情報を転写するための方法にして、
前記オーディオ情報のテキスト・バージョンを作成するために前記オーディオ・ソースを転写するステップと、
前記オーディオ・ソースにおける潜在的なセグメント境界を識別するステップと、
識別された各セグメントにスピーカ・ラベルを割り当てるステップと、
前記転写するステップ、識別するステップ、及び割り当てるステップと実質的に同時に前記テキスト・バージョンを前記割り当てられたスピーカ・ラベルと共に供給するステップと、
を含む方法。
(23)1つ又は複数のオーディオ・ソースからオーディオ情報を転写するための方法にして、
前記オーディオ情報からフィーチャ・ベクトルを計算するステップと、
(i)前記オーディオ・ソースを転写して前記オーディオ情報のテキスト・バージョンを作成するために、
(ii)前記オーディオ・ソースにおける潜在的なセグメント境界を識別するために、及び
(iii)各識別されたセグメントにスピーカ・ラベルを割り当てるために、
前記フィーチャ・ベクトルを3つの並列処理ブランチに適用するステップと、
前記転写するステップ、識別するステップ、及び割り当てるステップと実質的に同時に前記テキスト・バージョンを前記割り当てられたスピーカ・ラベルと共に供給するステップと、
を含む方法。
【図面の簡単な説明】
【図1】本発明によるオーディオ転写及びスピーカ分類システムのブロック図である。
【図2】図1のタイム・スタンプされたワード・データベースからのテーブルである。
【図3】図1のスピーカ・ターン・データベースからのテーブルである。
【図4】本発明による代表的なスピーカ登録プロセスを示す。
【図5】図1のオーディオ転写及びスピーカ分類システムによって遂行される例示的な同時転写、セグメンテーション及びスピーカ識別プロセスを説明するフローチャートである。
【図6】図1のオーディオ転写及びスピーカ分類システムによって遂行される例示的なセグメンテーション・プロセスを説明するフローチャートである。
【図7】図1のオーディオ転写及びスピーカ分類システムによって遂行される例示的なスピーカ識別プロセスを説明するフローチャートである。

Claims (6)

  1. 1つ又は複数のオーディオ・ソースからオーディオ情報を転写するための方法にして、
    前記オーディオ情報からフィーチャ・ベクトルを計算するステップと、
    前記フィーチャ・ベクトルを、共用メモリ・アーキテクチャを使用して、
    (a)前記オーディオ・ソースを転写して前記オーディオ情報のテキスト・バージョンを作成するための転写エンジン、
    (b)前記オーディオ・ソースにおける潜在的なセグメント境界を識別するためのスピーカ・セグメンテーション・プロセス、
    および、
    (c)各識別されたセグメントにスピーカ・ラベルを割り当てるためのスピーカ識別プロセス
    からなる3つの並列処理ブランチに分配するステップを含み、
    前記転写エンジンが、前記オーディオ・ソースにおける各ワードに対してタイム・アライメントを持ったテキスト・バージョンを作成するステップと、
    前記スピーカ・セグメンテーション・プロセスが、音声部分相互間にセグメント境界が存在するすべての可能なフレームを識別するステップと、
    前記スピーカ識別プロセスが、前記フィーチャ・ベクトルと前記セグメンテーションプロセスから適用されたセグメント境界が存在する前記フレームを受け取って、単一のスピーカによる音声のチャンクより成るセグメント発生音を形成し、該セグメント発生音と登録されたスピーカ・データベースとを比較してスピーカ・ラベルを生成するステップと、
    前記スピーカ・セグメンテーション・プロセスが識別したセグメント境界が存在する前記フレームを前記転写エンジンによって作成された前記テキスト・バージョンとインタリーブさせて切り離された前記テキスト・バージョンを作成するステップと、
    切り離された前記テキスト・バージョンの各部分に前記スピーカ・ラベルを割り当てるステップと、
    を含む、方法。
  2. 前記共用メモリ・アーキテクチャは前記計算されたフィーチャ・ベクトルを前記並列処
    理ブランチの各々に対応するチャネルに分配することを特徴とする請求項に記載の方法。
  3. 前記スピーカ・ラベルを割り当てるステップは前記割り当てられたスピーカ・ラベルの信頼性を表すスコアを割り当てるステップを更に含むことを特徴とする請求項に記載の方法。
  4. 前記スピーカ・ラベルを割り当てるステップは前記割り当てられたスピーカ・ラベルに対して少なくとも1つの次に最適と予測される代替えスピーカ・ラベルを割り当てるステップを更に含むことを特徴とする請求項に記載の方法。
  5. 前記セグメント境界が存在するすべての可能なフレームを識別するステップはBICモデル選択基準を使用して前記フレームを識別することを特徴とする請求項に記載の方法。
  6. 1つ又は複数のオーディオ・ソースからオーディオ情報を転写するためのシステムにし
    て、
    コンピュータ読み取り可能なコードを記憶するメモリと、
    前記メモリに動作関係に結合され、前記コンピュータ読み取り可能なコードをインプリメントするように構成されたプロセッサとを含むコンピュータを備え、
    前記コンピュータ読み取り可能なコードが前記コンピュータに読み込まれることにより、
    前記オーディオ情報からフィーチャ・ベクトルを計算する機能手段と、
    (a)前記オーディオ・ソースを転写して前記オーディオ情報のテキスト・バージョンを 作成するための転写エンジンと、
    (b)前記オーディオ・ソースにおける潜在的なセグメント境界を識別するためのスピーカ・セグメンテーション・プロセスと、
    (c)各識別されたセグメントにスピーカ・ラベルを割り当てるためのスピーカ識別プロセスと
    からなる3つの並列処理ブランチを実現する機能手段とを実現し、
    前記フィーチャ・ベクトルを、共用メモリ・アーキテクチャを使用して、前記3つの並列処理ブランチに分配するための機能手段と、
    前記転写エンジンが、前記オーディオ・ソースにおける各ワードに対してタイム・アライメントを持った前記テキスト・バージョンを作成するための機能手段と、
    前記スピーカ・セグメンテーション・プロセスが、音声部分相互間にセグメント境界が存在するすべての可能なフレームを識別するための機能手段と、
    前記スピーカ識別プロセスが、分配された前記フィーチャ・ベクトルと前記セグメンテーションプロセスから適用されたセグメント境界が存在する前記フレームと受け取って、単一のスピーカによる音声のチャンクより成るセグメント発生音を形成し、該セグメント発生音と登録されたスピーカ・データベースとを比較してスピーカ・ラベルを生成するための機能手段と、
    前記スピーカ・セグメンテーション・プロセスが識別したセグメント境界が存在する前記フレームを前記転写エンジンによって作成された前記テキスト・バージョンとインタリーブさせて切り離された前記テキスト・バージョンを作成するための機能手段と、
    切り離された前記テキスト・バージョンの各部分に前記スピーカ・ラベルを割り当てるための機能手段と、
    を実現することを特徴とするシステム。
JP2000188625A 1999-06-30 2000-06-23 同時的な音声認識、スピーカ・セグメンテーション及びスピーカ分類のための方法及び装置 Expired - Fee Related JP4132590B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/345237 1999-06-30
US09/345,237 US6421645B1 (en) 1999-04-09 1999-06-30 Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification

Publications (2)

Publication Number Publication Date
JP2001060098A JP2001060098A (ja) 2001-03-06
JP4132590B2 true JP4132590B2 (ja) 2008-08-13

Family

ID=23354161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000188625A Expired - Fee Related JP4132590B2 (ja) 1999-06-30 2000-06-23 同時的な音声認識、スピーカ・セグメンテーション及びスピーカ分類のための方法及び装置

Country Status (2)

Country Link
JP (1) JP4132590B2 (ja)
CN (1) CN1174374C (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030154084A1 (en) * 2002-02-14 2003-08-14 Koninklijke Philips Electronics N.V. Method and system for person identification using video-speech matching
US6667700B1 (en) * 2002-10-30 2003-12-23 Nbt Technology, Inc. Content-based segmentation scheme for data compression in storage and transmission including hierarchical segment representation
US6954522B2 (en) 2003-12-15 2005-10-11 International Business Machines Corporation Caller identifying information encoded within embedded digital information
US8041666B2 (en) * 2005-07-06 2011-10-18 Koninklijke Philips Electronics N.V. Method and apparatus for generation of a sequence of elements
CN102655002B (zh) * 2011-03-01 2013-11-27 株式会社理光 音频处理方法和音频处理设备
CN102522084B (zh) * 2011-12-22 2013-09-18 广东威创视讯科技股份有限公司 一种将语音数据转换为文本文件的方法和系统
CN105161094A (zh) * 2015-06-26 2015-12-16 徐信 一种语音音频切分手动调整切分点的系统及方法
CN108074574A (zh) * 2017-11-29 2018-05-25 维沃移动通信有限公司 音频处理方法、装置及移动终端
CN111145752B (zh) * 2020-01-03 2022-08-02 百度在线网络技术(北京)有限公司 智能音频装置、方法、电子设备及计算机可读介质
CN111931482B (zh) * 2020-09-22 2021-09-24 思必驰科技股份有限公司 文本分段方法和装置
DE102022115111A1 (de) 2022-04-07 2023-10-12 Grundig Business Systems Gmbh Verfahren und Vorrichtung zur Verarbeitung von Audio- und/oder Videoinformationen

Also Published As

Publication number Publication date
CN1174374C (zh) 2004-11-03
JP2001060098A (ja) 2001-03-06
CN1279462A (zh) 2001-01-10

Similar Documents

Publication Publication Date Title
US11900947B2 (en) Method and system for automatically diarising a sound recording
US6421645B1 (en) Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification
US6424946B1 (en) Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering
US6434520B1 (en) System and method for indexing and querying audio archives
US6748356B1 (en) Methods and apparatus for identifying unknown speakers using a hierarchical tree structure
US6345252B1 (en) Methods and apparatus for retrieving audio information using content and speaker information
Makhoul et al. Speech and language technologies for audio indexing and retrieval
US6567775B1 (en) Fusion of audio and video based speaker identification for multimedia information access
US20160283185A1 (en) Semi-supervised speaker diarization
JP4132589B2 (ja) オーディオ・ストリームにおけるスピーカを追跡するための方法及び装置
JP4132590B2 (ja) 同時的な音声認識、スピーカ・セグメンテーション及びスピーカ分類のための方法及び装置
Huijbregts et al. Robust speech/non-speech classification in heterogeneous multimedia content
Castán et al. Audio segmentation-by-classification approach based on factor analysis in broadcast news domain
Padi et al. Attention Based Hybrid i-Vector BLSTM Model for Language Recognition.
Jeyalakshmi et al. HMM and K-NN based automatic musical instrument recognition
Wang Mandarin spoken document retrieval based on syllable lattice matching
Patil et al. Content-based audio classification and retrieval: A novel approach
Huang et al. Sports audio segmentation and classification
Feki et al. Automatic environmental sound concepts discovery for video retrieval
Nouza et al. A system for information retrieval from large records of Czech spoken data
Quénot et al. Content-based search in multilingual audiovisual documents using the International Phonetic Alphabet
Al-Maathidi Optimal feature selection and machine learning for high-level audio classification-a random forests approach
Pikrakis et al. An overview of speech/music discrimination techniques in the context of audio recordings
Viswanathan et al. Multimedia document retrieval using speech and speaker recognition
Zhou Audio parsing and rapid speaker adaptation in speech recognition for spoken document retrieval

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041014

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20041019

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20041210

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061207

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061212

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20070308

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20080214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080422

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20080527

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080602

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 3

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120606

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120606

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130606

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees