JP2005530214A

JP2005530214A - メガ話者識別（ｉｄ）システム及びその目的に相当する方法

Info

Publication number: JP2005530214A
Application number: JP2004515125A
Authority: JP
Inventors: ディミトロワ，ネヴェンカ; リ，ドンジ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-06-19
Filing date: 2003-06-04
Publication date: 2005-10-06
Also published as: AU2003241098A1; CN1662956A; EP1518222A1; WO2004001720A1; KR20050014866A; US20030236663A1

Abstract

メガ話者識別（ID）システムに関連したプロセッサに、一般オーディオ・データ（GAD）を受信し、セグメントを生成する、オーディオのセグメンテーションと分類のファンクション（F10）、該セグメントを受信し、メル周波数ケプストラム係数（MFCC）に基づいた特徴をそこから抽出する、特徴抽出ファンクション（F12）、該抽出特徴を受信し、セグメントを、必要な場合、該抽出特徴に基づいて、再分類する、学習とクラスタ化のファンクション（１４）、該GAD中の音声信号に話者IDを割り当てる、照合とラベル化のファンクション（１６）、及び該割り当て話者IDを該GAD中のそれぞれの音声信号に関係付けるデータベース・ファンクションを有する、ファンクション、をインスタンス化させるコンピュータ判読可能な命令を記憶するメモリ。該オーディオのセグメンテーションと分類のファンクションは各セグメントを、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音を有する、N個のオーディオ信号クラス、の１つに割り当て得る。

Description

本発明は、一般的に、話者識別(ID)システムに関する。特に、本発明は、オーディオ信号から抽出されたメル周波数ケプストラム係数(MFCC)に基づいた自動オーディオ信号セグメンテーションを利用する話者IDシステムに関する。複数オーディオ信号ソースからの信号を処理するのに好適な、相当する方法も開示する。

現在、話者IDシステムが存在する。特に、低位オーディオ特徴に基づいた話者IDシステムが存在し、それらのシステムは一般的に話者群が前もって知られていることを要する。そのような話者IDシステムでは、新たなオーディオ・マテリアルが解析される場合、それは既知の話者分類の１つに常に分類される。

なお、コンテンツ・ベースの索引化とその後の取り出しとを行う、画像とビデオの自動注釈方法に関する研究開発に携わっているいくつかのグループが存在する。そのような方法に対する必要性は、デスクトップ型PC及びユビキタスTVがテラバイト単位のビデオ・データに対してインターネットを介して過去に例をみないアクセスを行うことをもたらすことができる単一の情報娯楽機器に収斂するにつれ、より一層重要になってきている。この分野での既存の研究の大部分は画像ベースのものであるが、ビデオのコンテンツ・ベースの索引化及び検索を行う画像ベースの方法をオーディオ・ベースの解析によって増強する、すなわち補う、ことを要するという認識が高まってきている。これによってビデオ番組におけるオーディオ・トラックの解析に関するいくつかの取り組みにつながっており、それは特に、オーディオ・セグメントを別々のクラスに分類してビデオ・コンテンツを表すものである。これらの取り組みのいくつかを記載する論文がある（非特許文献１及び非特許文献２参照。）。別の取り組みを記載する論文もある（非特許文献３及び非特許文献４参照。）。

自動音声認識（ASR）における進展は更に、一般オーディオ・データ(GAD)、すなわち、ニュース並びにラジオ放送、及びアーカイブされたオーディオ視覚資料のようなソースからのオーディオ・データ、の分類における関心をもたらしている。GADをASR処理する誘因は、オーディオ分類を前処理工程として行うことによって、ASRシステムが、単一のクラスを表すオーディオ・データの同質のセグメント毎に適切な音響モデルを策定し、後に利用することが可能であるという認識である。なお、GADがこの種の前処理を経ることによって認識特性が改善される。更に詳細を備えた記事がある（非特許文献５及び非特許文献６参照。）。

更に、多くのオーディオ分類手法が近年研究されている。これらの手法は、お互いに２つの点、すなわち、(a)分類子の選択；及び(b)その分類子によって用いられる音響特徴群；において、主に異なっている。現行システムにおいて用いられている分類子は：
1)非特許文献５の記事記載の、ガウス・モデル・ベースの分類子；
2)非特許文献４及び非特許文献７記載の、ニューラル・ネットワーク・ベースの分類子；
3)非特許文献８記載の判断トリー分類子；及び
4)非特許文献８及び非特許文献９記載の、隠れマルコフ・モデル・ベース(HMMベース)の分類子；
を有する。

なお、更にオーディオ分類子における時間領域特徴と周波数領域特徴との両方の利用が研究されている。この利用されている特徴の例は：
1)非特許文献８の記事と、非特許文献１０並びに非特許文献１１の記事、との両方に詳細に記載した、短時間エネルギ；
2)非特許文献１２及び非特許文献１３の記事に詳細に記載した、パルス・メトリック；
3)非特許文献１の記事記載の、ポーズ比率；
4)非特許文献３の記事及び非特許文献１４の論文に詳細に記載した、ゼロ交差率；
5)（短時間エネルギに関する上記の）非特許文献１１の記事にそのメトリックを詳細に記載した、正規化調波性；
6)非特許文献４、８、１１及び１２の論文を有する種々の論文にそのメトリックを記載した、基本周波数；
7)非特許文献１３の記事記載の周波数スペクトル；
8)非特許文献４及び１１記載の論文にそのメトリックを記載した帯域幅；
9)非特許文献４、１１、及び１４の上記記事にそのメトリックを記載したスペクトル中心点；
10)非特許文献１０及び１４の記事に詳細を記載した、スペクトル・ロールオフ周波数(SRF)；及び
11)（オーディオ処理に関する）非特許文献１、非特許文献４、及び非特許文献１１の論文にそのメトリックを記載した、バンド・エネルギ比率；
を有する。

なお、上記論文及び記事は全て、本明細書及び特許請求の範囲に援用するものとする。更に、上記特徴各々の別の、主に数学的な解説を添付別紙Aに備えるものとする。

なお、非特許文献１４の記事はいくつかの分類ストラテジを用いた１３の時間特徴及び周波数特徴の種々の組み合わせの評価を記載している。この論文では、２方向の音声/音楽識別子に対しては９０％超の分類精度が報告されているが、同じ特徴群を用いて音声、音楽、及び同時の音声と音楽を識別する3方向識別子に対しては分類精度が約６５％しかないことが報告されている。非特許文献７及び非特許文献５の記事はケプストラム・ベースの特徴に基づいた研究及び分類について報告しており、これらの特徴は音声認識の分野では広く用いられている。実際に、非特許文献５の記事は、メル・ケプストラム（AC-Mel）パラメータの自己相関を音声における強勢条件として好適な特徴として提案している。対照的に、特許文献５は１４のメル周波数ケプストラム係数（MFCC）を用いてオーディオ・データを7つの分類、すなわち、スタジオ音声、フィールド音声、背景音楽付音声、雑音のある音声、音楽、無音、及び（残りのオーディオ・パターンを包含する）ガービッジに分類している。非特許文献５においてSpinaなどは自らのアルゴリズムを1時間分のNPRのラジオ・ニュースでテストし、８０．９％の分類精度を実現している。
N.V.Patel及びI.K.Sethi, "Audio characterization for video indexing" (Proc. IS&T/SPIE Conf. Storage and Retrieval for Image and Video Databases IV, pp. 373-384, San Jose, CA (February 1996) N.V.Patel及びI.K.Sethi, "Video Classification using Speaker Identification", (Proc. IS&T/SPIE Conf. Storage and Retrieval for Image and Video Databases V, pp. 218-225, San Jose, CA (February 1997) C.Saraceno及びR.Leonardi, "Identification of successive correlated camera shots using audio and video information" (Proc. ICIP97, Vol. 3, pp. 166-169 (997)) Z.Liu,Y.Wang,及びT.Chen, "Audio Feature Extraction and Analysis for Scene Classification" (Journal of VLSI Signal Processing, Special issue on multimedia signal processing, pp. 61-79 (Oct. 1998)) M.Spina及びV.W.Zue, "Automatic Transcription of General Audio Data: Preliminary Analysis" (Proc. International Conference on Spoken Language Processing, pp. 594-597, Philadelphia, Pa. (October 1996) P.S.Gopalakrishen, et al., "Transcription Of Radio Broadcast News With The IBM Large Vocabulary Speech Recognition System" (Proc. DARPA Speech Recognition Workshop (Feb.,1996) J.H.L.Hansen及びBrianD.Womack, "Feature analysis and neural network-based classification of speech under stress" (IEEE Trans. on Speech and Audio Processing, Vol. 4, No. 4, pp. 307-313 (July 1996) T.Zhang及びC.-C.J.Kuo, "Audio-guided audiovisual data segmentation, indexing and retrieval" (IS&E/SPIE’s Symposium on Electronic Imaging Science & Technology - Conference on Storage and Retrieval for Image and Video Databases VII,SPIE Vol.3656, pp.316-327, San Jose, CA (Jan. 1999)) D.Kimber及びL.Wilcox, "Acoustic segmentation for audio browsers" (Proc. Interface Conference, Sydney, Australia (July 1996)) D.Li及びN.Dimitorova, "Tools for audio analysis and classification" (Philips Technical Report (August 1997)) E.Wold,T.Blumなど, "Content-based classification, search, and retrieval of audio" (IEEE Multimedia, pp.27-36 (Fall 1996)) S.Pfeiffer,S.Fischer,及びW.Effelberg, "Automatic audio content analysis" (Proceedings of ACM Multimedia 96, pp.21-30, Boston, MA (1996) S.Fischer,R.Lienhart及びW.Effelberg, "Automatic recognition of film genres", (Proceedings of ACM Multimedia ’95, pp. 295-304, San Francisco, CA(1995)) E.Scheirer及びM.Slaney, "Construction and evaluation of a robust multifeature speech/music discriminator," (Proc. ICASSP 97, pp.1331-1334, Munich, Germany, (April 1997)

この分野における多くの研究者は種々の分類ストラテジの策定にかなり重点を置いているが、非特許文献１４では、特徴空間のトポロジはかなり単純なものであると結論付けている。したがって、別々の分類子の特性の間の差異は非常に少ないものである。多くの場合、特徴の選定は実際には、分類特性に対して決定的なものとなる。したがって、非特許文献１４では、分類子の策定は他者によって提案された複数分類子ではなく、限定数の分類メトリックに重点をおくべきではないかということを正しく推定しているが、分類オーディオ・フレームに対する、最適分類手法と最適話者識別手法との何れかを策定し損なっている。

種々の装置、例えば、コンピュータ、セットトップ・ボックス、電話システム、等に組み入れ得るメガ話者識別システム（ID）システムが必要である。更に、少なくとも、マイクロプロセッサ及びディジタル信号プロセッサ（DSP）、を有する種々のシステムにインスタンス化し得るソフトウェア・ファンクションとして実施されるメガ話者識別（ID）方法が必要である。好ましくは、メガ話者識別（ID）システム及び相当する方法で、容易に拡張させて複数オーディオ・ソースから導き出される一般オーディオ・データ（CAD）を処理し得るもの、は大変望ましいものである。

上記に基づけば、現在、当該技術分野において、メガ話者識別（ID）システム及び相当する方法で、上記欠点を克服するもの、に対する必要性が存在することが分かるものである。本発明は、現在利用可能な技術の欠陥及び欠点を克服し、それによって当該技術分野におけるこの必要性を充足しようとすることを誘因としている。

一特徴によれば、本発明は、一般オーディオ・データ（GAD）からの話者に帰属するオーディオ信号を識別するメガ話者識別（ID）システムを備え、該システムは、該GADをセグメントにセグメント化する回路、該セグメント各々をN個のオーディオ信号クラスの１つとして分類する回路、該セグメントから特徴を抽出する回路、該セグメントを該N個のオーディオ信号クラスの１つのものから別のものに、必要な場合、該抽出特徴に応じて、再分類する回路、該セグメントのうちの最も近いものをクラスタ化し、それによってクラスタ化セグメントを生成する回路、及び各クラスタ化セグメントを話者IDによってラベル化する回路を有する。望ましい場合、このラベル化回路は、話者IDによって複数クラスタ化セグメントを、ユーザ入力と別のソース・データとのうちの一方に応じて、ラベル化する。メガ話者IDシステムは効果的には、コンピュータ、セットトップ・ボックス、又は電話システムが有し得る。例示的場合には、メガ話者IDシステムは更に、話者IDをGADの部分に関係付けるデータベースを記憶するメモリ回路、及びラベル化回路の出力を受信してデータベースを更新する回路を有する。後者の場合、メガ話者IDシステムは更に、データベースを照会する回路、及び照会結果を備える回路を有する。好ましくは、N個のオーディオ信号クラスは、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音を有する；最も好ましくは、抽出された特徴の少なくとも１つはメル周波数ケプストラム係数(MFCC)に基づくものである。

別の特徴によれば、本発明は、一般オーディオ・データ（GAD）が有する話者を識別することを可能にするメガ話者識別（ID）方法を備え、該方法は、該GADをセグメントにパーティション化する工程、該セグメント各々にN個のオーディオ信号クラスの１つに相当するラベルを割り当てる工程、該セグメントから特徴を抽出する工程、該N個のオーディオ信号クラスの１つのものから別のものに該セグメントを、必要とする場合、該抽出特徴に基づいて再割り当てし、それによって分類セグメントを生成する工程、該分類セグメントの隣接するものをクラスタ化し、それによってクラスタ化セグメントを生成する工程、及び各クラスタ化セグメントを話者IDによってラベル化する工程を有する。望ましい場合、レベル化工程は複数クラスタ化セグメントを話者IDによって、ユーザ入力と別のソース・データとのうちの一方に応じて、ラベル化する。例示的場合には、この方法は、話者IDをGADの部分に関係付けるデータベースを記憶する工程、及び、新たなクラスタ化セグメントが話者IDによってラベル化される都度、データベースを更新する工程を有する。この方法は更に、データベースを照会し、照会結果をユーザに備える工程を有し得ることが分かる。好ましくは、N個のオーディオ信号クラスは、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音を有する。最も好ましくは、抽出特徴の少なくとも１つがメル周波数ケプストラム係数（MFCC）に基づくものである。

別の特徴によれば、本発明は、M個のチューナ、解析器、記憶装置、入力装置、及び出力装置を有するメガ話者IDシステム用動作方法を備え、該方法は：該M個のチューナを動作させてR個のオーディオ信号をR個のオーディオ・ソースから取得する工程、該解析器を動作させて該N個のオーディオ信号をセグメントにパーティション化する工程、N個のオーディオ信号クラスの１つに相当するラベルを該セグメントの各々に割り当てる工程、特徴を該セグメントから抽出する工程、該N個のオーディオ信号クラスの１つのものから別のものに該セグメントを、必要な場合、該抽出特徴に基づいて再割り当てし、それによってクラスタ化セグメントを生成する工程、該分類セグメントの隣接するものをクラスタ化し、それによってクラスタ化セグメントを生成する工程、及び各クラスタ化セグメントを話者IDによってラベル化する工程；を有し、該R個のオーディオ信号が有するクラスタ化セグメントと、該記憶装置における相当するラベル、との両方を記憶し；更に出力装置を動作させることができる照会結果を、入力装置を介した照会入力に応じて、生成する工程を有し；M,N,並びにRは正の整数である。例示的でかつ非限定的な場合では、N個のオーディオ信号クラスは無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音を有する。更に、複数の抽出特徴がメル周波数ケプストラム係数（MFCC）に基づくものである。

更に別の特徴では、本発明は、メガ話者識別（ID）システムに関連したプロセッサに、一般オーディオ・データ(GAD)を受信し、セグメントを生成する、オーディオのセグメンテーション並びに分類のファンクション、該セグメントを受信し、そこから特徴を抽出する特徴抽出ファンクション、該抽出特徴を受信し、セグメントを、必要な場合、該抽出特徴に基づいて再分類する、学習並びにクラスタ化のファンクション、話者IDをGAD中の音声信号に割り当てる照合並びにラベル化のファンクション、及び割り当て話者IDをGAD中のそれぞれの音声信号に関連付けるデータベース・ファンクションを有するファンクションをインスタンス化させる、コンピュータ判読可能な命令を記憶するメモリを備える。望ましい場合、オーディオ・セグメンテーション及び分類のファンクションは各セグメントをN個のオーディオ信号クラスの１つに割り当て、該クラスは、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音を有する。例示的場合では、抽出特徴の少なくとも１つがメル周波数ケプストラム係数（MFCC）に基づくものである。

本発明は、部分的には、分類子によって利用される特徴の選定が、分類子種類自体よりも分類特性に対して実際に決定的であるという非特許文献１４記載の所見に基づいている。本発明の発明者は連続する一般オーディオ・データ（GAD）を7つの分類に分類するうえでの課題に対処するのに潜在的に有用な合計１４３の分類特徴を調査している。本発明によるメガ話者識別（ID）システムにおいて利用される７つのオーディオ分類は、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音を有する。なお、環境雑音分類はフォアグラウンド音なしの雑音を表す一方、同時の音声と音楽の分類は、歌唱と音声との両方を、バックグラウンド音楽を伴って、有するものである。７つの分類のうちの６つの例示的波形を図１に表す；無音分類の波形は自明の理由で、割愛する。

本発明による分類子及び分類方法はオーディオ・データの連続するビットストリームを別々の非重複セグメントに、各セグメントがそのクラスの点で同質になるように、解析する。オーディオ信号を1つのカテゴリから別のものに移行することによって分類エラーをもたらし得るので、本発明の例示的実施例はそのようなエラーを削減する効果的な方法としてセグメンテーション・プーリング手法を利用する。

この継続中の研究分野において、開発作業を容易に、再利用かつ拡張する、ことが可能なものにし、種々の特徴抽出案を実験することを促進するために、聴覚ツールボックスが開発されている。この現行の実現方法においては、ツールボックスは24を上回るツールを有する。これらのツール各々はオーディオの解析にしばしば必要な単一の基本演算を行う役目を担う。ツールボックスを用いることによって、バッファの管理並びに最適化、別々の処理手順間の同期化、及び例外処理のような、ストリーム・オーディオ・データの処理に関する面倒な作業の多くはユーザが意識しなくてよいものとなる。オーディオ・ツールボックスにおいて現在実現されている演算は、周波数領域演算、時間領域演算、及び短時間平均化、対数演算、ウィンドウ化、クリッピングなどの基本的な数学的演算を有する。ツールボックスにおけるツール全ての間での共通のコミュニケーション規約が規定されているので、１つのツールからの結果を如何なる制限なく別の種類のツールと共有し得る。ツールボックス中のツールはこのようにして、非常に柔軟な方法で編成して種々のアプリケーション及び要件に対応し得る。

上記オーディオ・ツールボックスの１つの考えられる構成として図２に示すオーディオ・ボックス１０があり、これは、ＭＦＣＣ、ＬＰＣ、デルタＭＦＣＣ、デルタＬＰＣ、自己相関ＭＦＣＣを有する、６つの音響特徴群、及びいくつかの時間特徴並びに周波数特徴の抽出に利用されるツールの配置を表す。ツール１０は効果的には、以下に図9a及び図9bに関して記載する、プロセッサによってインスタンス化される複数ソフトウェア・モジュールを有し得る。これらのモジュールは、平均エネルギ解析器（ソフトウェア）モジュール１２、高速フーリエ変換（FFT）解析器モジュール１４、ゼロ交差解析器モジュール１６、ピッチ解析器モジュール１８、MFCC解析器モジュール２０、および線形予測係数（LPC）解析器モジュール２２を有する。FFT解析器モジュールの出力は効果的には中心点解析器モジュール２４、帯域解析器モジュール２６、ロールオフ解析器モジュール２８、バンド比率解析器モジュール３０、及び差動（デルタ）振幅解析器モジュール３２に印加して別の特徴を抽出し得ることが分かる。同様に、MFCC解析器モジュール２０の出力は自己相関解析器モジュール34及びデルタMFCC解析器モジュール３６に供給して別の特徴をMFCCデータに基づいてオーディオ・フレーム毎に抽出し得る。LPC解析器モジュール２２の出力は更に、デルタLPC解析器モジュール３８によって処理し得ることが分かる。更に、専用ハードウェア構成部分、例えば、１つ又は複数のディジタル信号プロセッサ、を、処理されるGADの振幅がそれに値するか、費用便益分析によってそれが効果的であることが示される場合に、利用し得ることも分かる。上記のように、これらのソフトウェア・モジュールによって実現される、すなわち、これらの特徴用に採用される、定義すなわちアルゴリズム、を付表Aに備える。

GADからオーディオ・ツールボックス１０によって抽出された音響特徴に基づいて、多くの別のオーディオ特徴で、効果的には、オーディオ・セグメントの分類に用い得るもの、が、隣接するフレームから抽出された音響特徴を解析することによって更に抽出し得る。本発明の発明者によって実施された広範囲にわたるテスト及びモデル化に基づいて、これらの別の特徴で、長期にわたるオーディオ・データの特性に相当するもの、例えば、10乃至２０ｍｓのフレーム時間でなく、６００ｍｓ時間、がオーディオ・セグメントの分類に好適である。オーディオ・セグメント分類に用いられる特徴は：
１）対象フレームに中心がある、特定数の連続するフレームに及ぶ音響特徴の平均と分散；
２）ポーズ比率：閾値よりも低いエネルギを有するフレームの数と、対象フレームの総数との比率；
３）調波性：有効ピッチ値を有するフレームの数と対象フレーム総数との間の比率；
４）MFCC、デルタMFCC、自動MFCC、LPC、及びデルタLPCによって抽出された特徴のエネルギの総和；
を有する。

図３に表す、オーディオ分類方法は、4つの処理工程：特徴抽出工程S10、ポーズ検出工程S12、自動オーディオ・セグメント化工程S14、及びオーディオ・セグメント分類工程S16；を有する。図３から大まかに分類する工程がS１２で行われて、無音を有するオーディオ・フレームを分類、例えば、識別、し、よって、これらのオーディオ・フレームを更に処理することをなくすことが分かる。

図３では、特徴抽出を効果的に工程S10で、図２に示すツールボックス10が有するツールのうちの特定のものを用いて実現し得る。すなわち、工程S10に関連したラン・タイム中に、後続する３つの手続工程において利用される対象の音響特徴は、フレーム毎に時間軸に沿って入力オーディオ生データ（例示的な場合には、44.1kHzでサンプリングされたPCM WAVフォーマットのデータ）、すなわち、GAD、から抽出される。ポーズ検出は更に、工程S12で行われる。

工程S12で行うポーズ検出は入力オーディオ・クリップを無音セグメントと信号セグメントとに分離する役目を担うことが分かる。本明細書及び特許請求の範囲の原文における「pause」の語は、閉鎖子音又はわずかな躊躇によって発生するもの以外の、音がない時間、としてリスナによって判定される時間を表すのに用いられる。これについては、P.T.Bradyによる、「A Technique For Investigating On-Off Patterns Of Speech」 (The Bell System Technical Journal, Vol. 44, No. 1, pp. 1-22 (January 1965)) と題する、記事を参照するものとし、その開示内容は本明細書及び特許請求の範囲に援用するものとする。なお、ポーズ検出器が、人間の知覚との整合性がある結果を生成することが非常に重要である。

上記のように、オーディオ分類に関する以前の研究の多くは、単一のオーディオ分類からのみのデータを有するオーディオ・クリップによって行われている。しかしながら、「真の」連続するGADは多くのオーディオ・クラスからのセグメントを有する。したがって、分類特性は、基となるオーディオ・ストリームが１つのオーディオ・クラスから別のものに移行するところの場所では不利益を被り得る。この精度の低下をボーダー効果と呼ぶ。なお、ボーダー効果による精度の低下は更に、上記非特許文献５及び１４に報告されている。

ボーダー効果による特性低下を最小にするために、本発明による話者IDシステムは工程S14で実現されるセグメンテーション・プーリング手法を利用する。セグメンテーション・プーリング手法のセグメンテーション部分は信号セグメントにおける境界を位置指定するのに用いられ、該境界においては1つの種類のオーディオ分類から別の種類のオーディオ分類への移行が行われているものと判定される。この部分は、いわゆる、オンセット尺度及びオフセット尺度で、信号の変化速度を示すもの、を用いて入力の信号セグメントにおける境界を位置指定する。セグメンテーション処理の結果として、同質の信号セグメントが小さくなってしまうこととなる。セグメンテーション・プーリング手法のプーリング構成部分は後に分類時に用いられる。それはフレーム毎の分類結果をプーリングしてセグメント化信号セグメントを分類することを伴う。

下記に、ポーズ検出、オーディオ・セグメンテーション、及びオーディオ・セグメント分類において採用されるアルゴリズムを詳細に記載する。

なお、3工程の手順がGADからのポーズ時間を検出するのに実現される。すなわち、工程S１２は効果的には、部分工程S121、S122、及びS123を有し得る。これについては、図5eを参照するものとする。オーディオ・ツールボックス１０において選定ツールによって抽出された特徴に基づいて、部分工程S121では、入力オーディオ・データは最初に、フレーム毎に信号又はポーズ・フレームとして印が付けられて未処理状態の境界を取得する。このフレーム毎分類は判断トリー・アルゴリズムを用いて行われる。この判断トリーは階層的特徴空間パーティション化方法と同様な方法で取得され、該階層的特徴空間パーティション方法はSethi及びSarvarayuduによって考案されたものであり、「Hierarchical Classifier Design Using Mutual Information」 (IEEE Trans. On Pattern Recognition and Machine Intelligence, Vol. 4, No. 4, pp. 441-445 (July 1982))、と題する論文に記載されている。図4aは2次元の特徴空間に対するパーティション化結果を示す一方、図4bは本発明によるポーズ検出に利用する、相当する判断トリーを示す。

なお、更に、第１部分工程において取得された結果は、無発声音声及びわずかな躊躇に通常、高感度なものであるので、フィルイン処理（部分工程S122）及び廃棄処理（部分工程S123）が更に、後続する2つの工程において行われて、ポーズの、人間の知覚と整合性のある結果を生成する。

なお、部分工程S１２２のフィルイン処理中には、ポーズ・セグメント、すなわち、ポーズ・フレームの連続するシーケンス、でフィルイン閾値未満の長さを有するもの、は信号セグメントとして再ラベル化され、隣接する信号セグメントとマージされる。部分工程S123の廃棄処理中には、所定の閾値よりも小さな信号強度値を有するセグメント・ラベル化信号が無音セグメントとして再ラベル化される。信号セグメントの強度は：

として定義され、Lは信号セグメントの長さであり、T_lは図4aに表す最低信号レベルに相当する。なお、セグメントの長さを直接用いるのでなく、セグメント強度を定義することの背後にある基本的な考え方は、信号エネルギを、廃棄処理中に、トランジェント・サウンド・バーストのセグメントが無音として印が付けられないように、考慮に入れるというものである。これについては、P.T.Bradyによる、「A Technique For Investigating On-Off Patterns Of Speech」（The Bell System Technical Journal, Vol.44, No.1, pp.1-22 (January 1965)）と題する記事を参照するものとする。図5a乃至5dは例示的ポーズ検出アルゴリズムの3工程を示す。特に、本発明の例示的実施例の少なくとも１つにおいて利用されるポーズ検出アルゴリズムは、入力信号の短時間エネルギを判定する工程S１２０（図5a）、部分工程S121における候補信号セグメントの判定（図5b）、上記フィルイン部分工程S122の実行（図5c）、及び上記廃棄部分工程S123(図5d)を有する。

本発明によるメガ話者IDシステムにおいて利用されるポーズ検出モジュールは2種類のセグメント：無音セグメント；及び信号セグメント；をもたらす。なお、無音セグメントは如何なる追加処理をも要するものでないが、それはこれらのセグメントが既に全面的に分類されているからである。信号セグメントは、しかしながら、移行点、すなわち、基となる信号の分類が変化するところのその位置、に、分類前に、印を付けるよう追加処理を要する。移行点を位置指定するのに、例示的セグメンテーション手法は２部分工程処理、すなわち、ブレーク検出部分工程S141及びブレーク・マージ部分工程S142を、工程S１４を行うのに利用する。ブレーク検出部分工程S１４１中には、信号セグメント全体に及んで配置された大型の検出ウィンドウが移動され、各スライディング位置におけるウィンドウのそれぞれの半分の平均エネルギが比較される。これによって２つの別個の種類のブレーク：

がTh₁よりも大きい場合の、オンセット・ブレーク；及び

がTh_２よりも大きい場合の、オフセット・ブレーク；の検出を可能にし、

及び

は各々、検出ウィンドウの第１半分と第２半分との平均エネルギである。オンセット・ブレークは信号エネルギの増加によるオーディオ分類の潜在的変化を示す。同様に、オフセット・ブレークは信号エネルギの低下による、基となる信号の分類の変化、を示唆する。なお、ブレーク検出ウィンドウが信号に沿ってスライドされるので、基となる信号のオーディオ分類における単一の移行によっていくつかの連続したブレークを生成し得る。この一連のブレークのマージは工程S14と表す新規のセグメンテーション処理の第２部分工程中に実現される。

この部分工程、すなわち、S142、では同じ種類の隣接するブレークが単一のブレークにマージされる。オフセット・ブレークもその直後のオンセット・ブレークと、もしその２つが時間的にお互いに近いならば、マージされる。これは1つの信号の終了部と別の信号の開始部との間の如何なる小さなギャップをも埋めるよう行われる。図6a、6b、及び6cは信号ブレークの検出とマージを通じたセグメンテーション処理を示す。

オーディオ・セグメントを分類するために、本発明によるメガ話者IDシステム及び相当する方法は最初に、セグメントの各フレームを分類する。次に、フレーム分類結果が、セグメント全体に対する分類ラベルに帰結するよう集約される。好ましくは、この集約はプーリング処理によって行われ、この処理は各オーディオ分類に割り当てられたフレームの数を集計する；この集計で最も多い分類が当該セグメントのオーディオ分類ラベルとして採用される。

フレームを分類するのに用いられる特徴は、上記のように、そのフレームからのもののみならず、別のフレームからのものもある。例示的場合には、この分類は、各分類が多次元ガウス分布を有するという前提の下で処理されるベイズ分類子を用いて行われる。フレーム分類の分類規則は：

として表し得るものであり、Cは候補分類の総数であり、（この場合は、Cは６であり、）

は分類結果であり、

は解析されているフレームの特徴ベクトルである。

及びp_cは、各々、平均ベクトル、共分散マトリックス、及びクラスcの確率を表し、

は

と

との間のマハラノビスの距離を表す。

及びpcは通常、未知なものであるので、これらの値は効果的には、R.O.Duda及びP.E.Hartによる、「Pattern Classification and Scene Analysis」(John Wiley ＆ Sons (New York,1973))と題する著書記載のものなどの、最大事後確率推定（MAP推定）を用いて判定し得るものである。

なお、メガ話者IDシステム及び相当する方法において実現されるオーディオ特徴群を精緻化するのに用いられるGADは、トーク番組、ニュース番組、フットボールの試合、天気予報、広告、連続メロドラマ、映画、深夜番組などのような、各種のTV番組からの多数のオーディオ・クリップを最初に収集することによって作成されている。これらのオーディオ・クリップは４つの異なる局、すなわち、ABC、NBC、PBS、及びCBS、から記録され、8ビットの、44.1kHzのWAVフォーマットのファイルとして記憶されている。各分類において広範囲にわたるものを得るよう留意されている。例えば、各種の音楽を有する音楽セグメントが記録されている。GAD全体から、30分間分が訓練データとして指定され、別の1時間分がテスト・データとして指定されている。訓練データとテスト・データとの両方が更に、１０ｍｓ毎に1度、７つの分類の１つによって手作業でラベル化されている。なお、P.T.Bradyによる記事及びJ.G.Agnelloによる、「A Study of Intra- and Inter-Phrasal Pauses and Their Relationship to the Rate of Speech」と題するオハイオ州立大学(Ohio State University)博士論文において公開された提案に従って、200msの最小持続時間が無音セグメントに科され、それによって、リスナが通常、知覚できないフェーズ内ポーズを排除している。更に、訓練データを用いて分類子のパラメータを予測している。

本発明によるメガ話者IDシステム及び相当する方法に用いる種々の特徴群の合目的性を調査するよう、６８の音響特徴で、８つの時間特徴並びに周波数特徴、MFCC、LPC、デルタMFCC、デルタLPC、並びに自己相関MFCC特徴の各１２のものが、20ms毎に、すなわち、２０ｍｓフレーム毎に、入力データから図２のオーディオ・ツールボックス１０全体を用いて抽出されている。これら６８の特徴各々について、平均及び分散が対象フレーム付近を中心とした隣接フレームにわたって計算されている。このようにして、計143の分類特徴、６８の平均値、６８の分散、ポーズ率、調波性、及び５つの総和の特徴が、２０ｍｓ毎に計算されている。

図７は訓練データ上の異なる特徴群の相対的な特性を示す。これらの結果は何百万もの見込みのある特徴部分集合に対する広範囲にわたる訓練及びテストに基づいて得られている。図７の精度はフレーム・レベルでの分類精度である。更に、セグメント境界付近のフレームは精度計算が有するものでない。図７のフレーム分類精度はしたがって、このシステムが各オーディオ種類のセグメントを別個に与えられた場合に得られる、分類特性を表す。なお、図７から、別々の特徴群の特性は一様でないものである。更に、時間特徴及び周波数特徴の特性はあまり良好でないものである。これらの実験では、MFCCとLPCとの両方とも時間特徴と周波数特徴よりもずっと良好な全般分類精度を実現する。MFCC特性が8つのみの場合、８５．１％の分類精度を単純なMAPガウス分類子を用いて得ることが可能である；これは、MFCC特徴の数が２０に増加した場合に、95.3%に上昇する。この分類精度の高さは特徴空間のトポロジが非常に単純であることを示し、更に、７つのオーディオ分類の場合に対するSchreirer及びSlaneyによる結論を確認するものである。異なる分類を用いる効果はこのように、非常に限定的なものであることが見込まれる。

表１は最良の１６の特徴を用いた場合に３つの最も重要な特徴群について得られた結果の概要を備える。これらの結果によって、MFCCは異なる分類にまたがって、全般的に最良の特性を有するのみならず、最も一様な特性を有する。これは更に、オーディオ分類の一部分集合のみが認識対象であるアプリケーションでのMFCCの利用を示唆するものである。言い換えれば、メガ話者IDシステムが家庭用電話システムのような装置に組み入れられている場合か、当該方法を実現するソフトウェアがパーソナル・コンピュータ上のボイス・オーバ・インターネット（VOI）のソフトウェアに接続されている場合には、７つのオーディオ分類のうちわずかなものしか実現しなくてよい。

なお、一連の別の実験が、パラメータ設定の効果を調べるよう行われていることをこの時点で述べることとする。特性における変化は、異なるパラメータ設定、例えば、異なるウィンドウ関数、を用いても、ウィンドウ長やウィンドウ重複部分を変化させても、わずかなものしか検出されていない。MFCC特徴の数を増加させた場合でも、異なる特徴群からの特徴の混合を用いても、分類精度における明白な改善はみられていない。

テスト・データに対する分類子の特性の良好度を判定するよう、データの残りの1時間分がテスト・データとして利用されている。２０のMFCC特徴の群を用いることによって、８５．３％のフレーム分類精度が実現されている。この精度はオーディオ・セグメントの境界付近のフレームを有するフレーム全てに基づくものである。訓練データに対する精度と比較すれば、分類子が複数クラスのセグメントを処理する場合、精度が約１０％低下することが分かる。

なお、上記実験は、266MHzのCPUと６４Mのメモリを有する、ペンティウム(Pentium(登録商標))II PC上で実施されている。44.1kHzでサンプリングされたオーディオ・データの1時間分について、処理時間は168秒を要しており、これは再生速度よりもおおよそ21倍も速くなっている。ユーザのテレビジョン受信機又は一体型娯楽システムがリアル・タイムの話者IDシステムを有する可能性の肯定的な予測因子であることが分かる。

処理の次のフェーズでは、各セグメント全体としての分類レベルを判定するようプーリング処理が行われている。プーリング処理の結果、フレームの一部分で、大部分が境界付近のもの、は分類ラベルが変更されている。既知のフレーム・レベルと比較すれば、プーリング処理後の精度は９０．１％であることが分かり、これはプーリングなしのシステム精度を約５％上回る増加を表すものである。

セグメンテーション・プーリング手法の適用の有無による分類の差異の例を図８に表すが、この図では横軸は時間を表している。種々のオーディオ分類は縦軸の種々のレベルに相当する。レベル変化は1分類から別のものへの移行を表す。図８は、セグメンテーション・プーリング手法が、散在した分類エラーを補正し、取るに足らないセグメントを除外するのに効果的である。このようにして、セグメンテーション・プーリング手法は、人間の知覚との整合性を有する結果を、ボーダー効果による劣化を低減することによって、実際に生成し得る。

連続するGADの分類の課題は上記で扱っており、オーディオ分類システムの要件である、オーディオ・セグメントを7つの分類に分類することができること、は概括的に表している。例えば、聴覚ツールボックス１０を利用して、テスト及び比較が、利用された特徴群を最適化するよう、計１４３の分類の特徴に対して行われている。これらの結果によって、特徴の選定はオーディオ分類において最も重要なものであるという、Scheirer及びSlaneyによる所見が確認されている。これらの実験結果によって、更に、MFCC、LPCなどのケプストラム・ベースの特徴は、ずっと良好な精度をもたらし、所望のオーディオ分類数にかかわらず、オーディオ分類に用いるものとすることが確認されている。

セグメンテーション・プーリング手法は更に、評価され、ボーダー効果を削減し、人間の知覚との整合性を有する分類結果を生成するのに効果的な方法であることが実証されている。実験結果は、本発明の例示的実施例において実現される分類システムが約９０％の精度特性を再生速度よりも数十倍も処理速度によって備えることを表している。このように分類精度及び処理速度が高いことによって上記オーディオ分類手法を広範囲にわたる別の自律アプリケーションに拡張することが可能になり、この自律アプリケーションは、次に詳細に説明するように、ビデオ索引化並びに解析、自動音声認識、オーディオ視覚化、ビデオ/オーディオ情報検索、及び大規模オーディオ解析システム用前処理などである。

本発明によるメガID話者システムの例示的実施例は図9aに示すが、これはオーディオ・レコーダ・プレイヤ１００の高位のブロック図であり、それは効果的にはメガ話者IDシステムを有する。オーディオ・レコーダ・プレイヤ１００において利用される構成部分のいくつかは、以下に詳細を記載するように、ソフトウェア装置であることが分かる。更に、オーディオ・レコーダ・プレイヤ１００は効果的には、種々のストリーミング・オーディオ・ソースに接続し得ることが分かる；一時期には、米国だけでも２５００ものそのようなオーディオ・ソースが稼動していたものである。好ましくは、プロセッサ１３０はこれらのストリーミング・オーディオ・ソースをI/Oポート１３２を経由してインターネットから受信する。この時点で、プロセッサ１３０は効果的にはマイクロプロセッサとディジタル信号プロセッサ（DSP）とのうちの一方であり得ることを述べることとする；例示的な場合には、プロセッサ１３０は両方の種類のプロセッサを有し得る。別の例示的場合には、プロセッサは種々の解析並びに分類のファンクションをインスタンス化するDSPであり、これらのファンクションは本明細書の上記及び下記に詳細を記載している。プロセッサ１３０はプロセッサ資源が許す限り、できるだけ多くの仮想チューナ、例えば、TCP/IPチューナ120a乃至120n、をインスタンス化することが図9aから分かる。

なお、インターネットに接続するのに要する実際のハードウェアは、モデム、例えば、アナログ・モデム、ケーブル・モデム、もしくはDSLモデムなど、更には、場合によっては、ネットワーク・インタフェース・カード（NIC）、を有する。そのような通常の装置は、本発明の部分を何ら構成するものでなく、これ以上は説明するものでない。

なお図9aを参照すれば、プロセッサ１３０は好ましくは、併せてメモリ140を構成するRAM１４２、NVRAM１４４、及びROM１４６に接続される。RAM１４２はプロセッサ１３０によってインスタンス化されるプログラム並びにルーチンによって生成されるデータを一時的に記憶できるようにする一方、NVRAM１４４はメガ話者IDシステムによって得られた結果、すなわち、オーディオ・セグメント分類及び話者情報を示すデータ、を記憶する。ROM１４６はプログラム及びこれらのプログラムによって用いられる恒久データを記憶する。なお、NVRAM１４４は効果的には、静的RAM（SRAM）若しくは強磁性RAM（FERAM）などであり得るものである一方、ROM１４６はSRAM若しくは電気的にプログラム可能なROM（EPROM又はEEPROM）であり得るものであり、それによって、プログラム及び「恒久」データを新たなプログラム・バージョンが利用可能になるにつれ、更新させることが可能になる。代替として、RAM１４２、NVRAM１４４、及びROM１４６の機能は効果的には、本発明において、単一のハード・ドライブ、すなわち、単一のメモリ装置１４０、として実施し得る。プロセッサ１３０が複数プロセッサを有し、各プロセッサは効果的には、メモリ装置140を共有するか、めいめいのメモリ装置を有するかの何れかであり得ることが分かる。別の装備、例えば、全てのDSPがメモリ装置140を利用し、全てのマイクロプロセッサがメモリ装置１４０A（図示せず）を利用するもの、も考えられる。

プロセッサ１３０によって利用される対象のデータの別のソース、又はユーザからの指示は効果的には、入力装置１５０を介して備え得ることが分かる。図10に関して以下に詳細に記載するように、本発明の例示的実施例によるメガ話者ＩＤシステム及び相当する方法は、既知の話者ＩＤモデル、例えば、CNNによってそのニュースのアンカーマン、レポータ、頻繁に出演するコメンテータ、及び著名ゲスト用に作成されたモデル、のような別のデータを受信し得る。代替としてか追加として、プロセッサ１３０は別の情報を受信して話者ID処理を支援し得るものであり、この情報は、名札データ、顔特徴データベースからのデータ、トランスクリプトなどのものである。上記のように、プロセッサは効果的には更に、ユーザから入力を直接受信し得る。この最後の入力は、オーディオ・ソースが図９ｂに示すシステムから導き出される場合に、特に有用である。

図９ｂは本発明の別の例示的実施例によるメガ話者IDシステムを有するオーディオ・レコーダ１００’の高位のブロック図である。オーディオ・レコーダ100’は好ましくは、単一のオーディオ・ソース、例えば、電話システム150’、に結合され、そのキーパッドは効果的には、会話の両端での話者、に関する識別データを備えるよう利用し得ることが分かる。I/O装置132’、プロセッサ130’、及びメモリ140’は図9aに関して説明したものとかなり同様なものであるが、種々の構成部分のサイズ及び能力は効果的には、当該アプリケーションに合わせて増減させ得る。例えば、通常の電話システムのオーディオ特性を考慮に入れると、プロセッサ130’は図9aに示すオーディオ・レコーダ１００において利用されるプロセッサ130よりもずっと遅くかつ安価であるものであり得る。更に、この電話において図１に示すオーディオ・ソースの範囲全域が生起することが見込まれないので、利用される特徴群は効果的には、見込まれるオーディオ・ソース・データを対象とし得る。

なお、オーディオ・レコーダ100及び100’は、効果的には本発明による話者IDシステムを有するが、電話による利用に限定されないものとする。入力装置150、150’は更に、ビデオ・カメラ、ソニー(SONY)社メモリ・スティック・リーダ、ディジタル・ビデオ・レコーダ（ＤＶＲ）などであり得る。ＧＡＤを備えることができる、ほとんどどの装置も効果的には、本発明によるメガ話者ＩＤシステムにインタフェースし得るか、本発明によるメガ話者ＩＤ方法を実施するソフトウェアを有し得る。

本発明によるメガ話者ＩＤシステム及び相当する方法は、プロセッサ130、130’によってインスタンス化されるファンクション・ブロックによってシステムを規定することによってよく分かるものであり得る。図１０に表すように、プロセッサはオーディオのセグメンテーション並びに分類のファンクションＦ１０、特徴抽出ファンクションＦ１２、学習並びにクラスタ化のファンクションＦ１４、照合並びにラベル化のファンクションＦ１６、統計的干渉ファンクションＦ１８、及びデータベース・ファンクションＦ２０をインスタンス化する。これらの「ファンクション」各々が、メガ話者ＩＤシステムと関連したプロセッサによって実行し得る、1つ又は複数のソフトウェア・モジュールを表すことが分かる。

更に、図１０から、種々のファンクションが1つ又は複数の所定の入力を受信することが分かる。例えば、新たな入力Ｉ１０、例えば、ＧＡＤ、はオーディオ・セグメンテーション並びに分類のファンクションＦ１０に入力される一方、既知の話者ＩＤモデル情報Ｉ１２は効果的には、特徴抽出ファンクションＦ１２に第２入力として入力し得る（ファンクションＦ１０の出力が第１のものとなる。）。更に、照合並びにラベル化のファンクションＦ１６が効果的には、ユーザ入力Ｉ１４と別のソース情報Ｉ１６との何れか又は両方を受信し得る。最後に、データベース・ファンクションＦ２０は好ましくは、ユーザ照会Ｉ１８を受信する。

オーディオ・レコーダ・プレイヤ１００並びに１００‘の動作全体を次に、図１１を参照しながら説明し、図１１は本発明によるメガ話者ＩＤシステムを有するオーディオ・レコーダ・プレイヤを動作させる方法の高位の流れ図である。工程Ｓ１０００中には、オーディオ・レコーダ・プレイヤ及びメガ話者ＩＤシステムは通電され、初期化される。図9a及び9bに示すオーディオ・レコーダ・プレイヤの何れについても、初期化ルーチンは効果的には、RAM１４２（１４２’)を初期化してGADを受け付ける工程を有し得る；更に、プロセッサ１３０（１３０’）は両方のソフトウェアをROM１４６（１４６‘）から取り出し、既知の話者IDモデル情報１１２と別のソース情報１１６とを、何れかの情報の種類が先行してNVRAM１４４（１４４’）に記憶されている場合に、読み出すことが可能である。

次に、新たなオーディオ・ソース情報１１０、例えば、GAD、ラジオ若しくはテレビジョンのチャンネル、電話の会話など、が工程S1002中に得られ、更に、工程S1004中にオーディオのセグメンテーション並びに分類のファンクションF10によって、分類：音声；音楽；無音など；にセグメント化される。ファンクションF10の出力は効果的には、話者ID特徴抽出ファンクションF12に入力される。工程S1006では、ファンクション・ブロックF10によって出力される音声セグメント毎に、特徴抽出ファンクションF12はMFCC係数を抽出し、それを別個のクラスとして（必要な場合、別のラベルを伴って）分類する。なお、特徴抽出ファンクションF12は効果的には、既知の話者IDモデル情報I12、すなわち、MFCC係数パターンを既知の話者又は既知の分類にマッピングする情報、をそのような情報がある場合に利用し得る。モデル情報I12がある場合には、本発明によるメガ話者ID方法の全般的な精度を向上させることが分かる。

工程S1008では、教師なし学習及びクラスタ化のファンクションF14は効果的には、同様なクラスを１つに合体するよう利用し得る。図4a乃至６ｃに関する上記記載から、ファンクションF14は閾値を利用するものであることが分かり、その閾値は自由に選定可能か、既知の話者IDモデルI１２によって選定されるものである。

工程S1010では、照合とラベル化のファンクションのブロックF18が、クラスを視覚化するよう、実行される。照合とラベル化のファンクションF18は別の情報の入力なしで実行し得る一方、照合とラベル化のファンクションの処理は効果的には、ファンクション・ブロック１８がテキスト情報I１６の別のソース、すなわち、（名札が存在している場合）テキスト検出からのラベルの取得、若しくはトランスクリプトのようなもう１つのソースからの入力、及び/又はユーザ入力情報I14を受信する場合に拡張し得ることが分かり、メガ話者ID方法はユーザに照会して話者IDが正しいことを確認する。

工程S１０１４では、工程S１０１０で得られた結果がユーザ評価において正しいか否かを判定するよう検査が行われる。この回答が否定的な場合、工程S１０１６で、ユーザは効果的には、介入して話者クラスを修正し得るか、閾値を変更し得る。プログラムは更に、工程S１０００の最初に飛び越す。工程S１０１４及びS１０１６は特定の話者からの特徴に関連したラベルを取得するよう照合調整工程を備えるものであることが分かる。回答が肯定的な場合、図9a並びに９ｂ各々に示すメガ話者IDシステム１００及び１００‘の好適実施例に関連したデータベース・ファンクションF20が工程S1018で更新され、更に、当該方法はもう一度、工程S1002の最初まで飛び越え、別のGADを取得し、すなわち、当該システムは数日分ものTV番組からの入力を取得し、工程S1002乃至S１０１８が繰り返される。

なお、データベース・ファンクションF20が初期化されると、ユーザは、工程S1020で、データベースを照会し、工程S1022でその照会の結果を得ることが可能になる。図9aに示す例示的実施例では、照会は入出力装置１５０を介して入力し得る。図9bに示す例示的場合では、ユーザは照会を構築し得るものであり、ユーザが、電話の受話器を介してその結果、すなわち発声照会、を取得することと、電話のキーパッドとLCDディスプレイ、例えば、いわゆる発信者ID表示装置で、その一部若しくは全てが電話150’に関連するもの、との組み合わせを介して、その結果を取得することとの何れかが行われるものである。

オーディオ分類及び話者IDのシステムから抽出された情報を表すには複数の方法が存在することが分かる。1つの方法はこの情報を単純なリレーショナル・データベース・モデルを用いてモデル化するものである。例示的場合には、複数テーブルを利用するデータベースは効果的には、以下のように利用し得る。

最も重要なテーブルは分類及び日付に関する情報を有する。これについては表２を参照するものとする。表２の属性は、オーディオ（ビデオ）セグメントID、例えばTVエニータイム(TVAnytime)のCRIDの考え方、分類及び日付を有する。各オーディオ・セグメント、例えば、1つの電話の会話若しくは記録された会議、又はビデオ・セグメント、例えば、各TV番組、は表２の行によって表し得る。なお、列は分類を表す、すなわち、N個の分類に対してN行が存在する。各列は特定の分類についての持続時間を表す情報を有する。項目（行）における各構成要素はオーディオ・セグメント毎の特定分類毎の総持続時間を示す。最後の列はそのセグメントの記録の日付、例えば、20020124、を表す。

このリレーショナル・テーブルのキーはCRIDである。別の列を追加し得るものであり、セグメント毎に表２の列を追加し得るものであり、電話の会話の「種類」、例えば、ビジネス若しくは私用、又はTV番組のジャンル、例えば、ニュース、スポーツ、映画、連続ホームコメディなど、のような情報を保持し得るものであることが分かる。更に、別のテーブルは効果的には、CRIDの、特定の部分セグメント、例えば、開始、終了時間、分類、の分類毎の詳細情報を記憶するよう利用し得る。これについては表３を参照するものとする。なお、「部分セグメント」はオーディオ・セグメントにおける同じ分類の一様な、データの小さな塊として定義される。例えば、電話の会話は４つの部分セグメント：最初に話者A、次に無音、そして話者B、更には、話者A；を有する。

上記のように、表２はDuration_Of_Silence、Duration_Of_Music、及びDuration_Of_Speechのような分類に対する列を有する一方、多くの異なる分類を表し得る。例えば、Duration_Of_FathersVoice、Duration_Of_PresidentsVoice、Duration_ Of_Rock、Duration Of_Jazzなどに対する列は効果的には、表２が有し得る。

この種のデータベースを利用することによって、ユーザは分類毎の平均、分類毎の最小値、最大値並びにそれらの位置；番組毎の標準偏差及び各分類；のような情報を取り出し得る。最大値については、ユーザは日付を位置指定し：
どの日に従業員「A」が電話会議の通話を牛耳っていたか；又は
従業員「B」は同じ電話会議で発話したか；
といった照会に回答することが可能である。この情報を用いて、ユーザは別のデータ・マイニング手法を利用し、別々の分類、日付などの間の相関関係を見出すことが可能である。例えば、ユーザは、個人Aが個人Bを最も多く呼び出す日時、などのパターンを見出し得る。更に、個人Bに対する通話に後続する、個人Aに対する通話間の相関関係も見出し得る。

なお、上記記載から、本発明によるメガ話者IDシステム及び相当する方法は、最少では、１つのオーディオ・ソース、例えば、電話、から、最多では、数百ものTV又はオーディオのチャンネル、の入力を取得し、自動的にセグメント化し、取得されたオーディオ、すなわち、GAD、を音声、音楽、無音及びこれらの分類の組み合わせに分類することができることが分かる。メガ話者IDシステム及び相当する方法は更に、セグメント化音声セグメントから自動的に学習し得る。音声セグメントは、未知の話者をラベル化する特徴抽出システムに入力し、ある時点で、ユーザ入力又は、TV局、番組名、顔特徴、トランスクリプト、テキスト・ラベルなどの別の情報ソースに基づいて個人の同一性に対する意味論的曖昧性の解消を行う。

メガ話者IDシステム及び相当する方法は効果的には、西暦2002年にジョージ・W・ブシュ（GeorgeW.Bush）大統領がNBCで発話した時間数は？、大統領の出演の全般的な分布は？、などの統計を備えるのに用い得る。なお、これらの照会に対する回答はユーザに向けて大統領の発話時間のタイムラインとして表し得る。代替として、当該システムがユーザの家庭用電話装置に内蔵されている場合、ユーザは：自分の父親と最近話したのはいつであったか、若しくは西暦2000年に最も長い間話した相手は誰であったか、又はピーターとはこの1ヶ月間に何回話したか；を尋ね得る。

図９ｂは単一の電話150’を示すが、メガ話者IDシステムを有し、相当する方法によって動作するこの電話システムは単一の電話すなわち加入者回線に限定されなくてよいことが分かる。電話システム、例えば、事業体によって運営される私設構内交換機（PBX）システムはメガ話者IDシステム及び相当する方法を有し得る。例えば、メガ話者IDソフトウェアは、専門家の事務所、例えば、診療所又は会計士事務所、にある電話システムにリンクし得るものであり、専門家の請求システムに、クライアント又は患者に対する通話を自動的に、追跡し得るように、（更には、適宜請求し得るように、）インタフェースし得る。更に、当該システムは、PBXシステムの不適切な利用、例えば、法外に多数の私用通話を行っている従業員など、を監視するよう構成し得る。上記記載から、本発明による、メガ話者識別（ID）システム及び相当する方法、各々、を有するか実現する電話システムは、リアルタイムで、すなわち電話の会話が行われている間に、動作し得ることが分かる。この後者の特徴は効果的には、会話の参加者の一方がユーザ入力を当該システムに備えるか、例えば、ユーザの発信者IDシステム上の相手方の名前が実際の発信者に相当する旨を確認する、ことを可能にすることが分かる。

本発明の本好適実施例を本明細書及び特許請求の範囲に詳細に記載したが、本明細書及び特許請求の範囲に開示された基本的な発明概念の多くの変形及び/又は修正で、当該技術分野における当業者に明らかであり得るもの、はなお、本特許請求の範囲記載の、本発明の趣旨及び範囲内に収まることが明白に分かるものである。

本発明による、話者識別（ID）システム及び相当する方法において利用される７つの分類のうちの６つ（で7番目が無音であるもの）を占める６つの短セグメントの特徴的なセグメント・パターンを表す図である。本発明による、話者IDシステム及び相当する方法において、全体的又は部分的に、効果的に利用し得る特徴抽出ツールボックスの高位のブロック図である。本発明による、話者識別(ID)システム及び相当する方法において利用されるオーディオ分類手法の高位のブロック図である。本発明の特定の特徴を理解するのに有用な、2次元（２D）パーティション化空間を示す図である。本発明の特定の特徴を理解するのに有用な、相当する判断トリーを示す図である。本発明の例示的実施例の１つにおいて利用されるポーズ検出方法の動作を示すグラフである。本発明の例示的実施例の１つにおいて利用されるポーズ検出方法の動作を示すグラフである。本発明の例示的実施例の１つにおいて利用されるポーズ検出方法の動作を示すグラフである。本発明の例示的実施例の１つにおいて利用されるポーズ検出方法の動作を示すグラフである。図5a乃至5dに示す方法の流れ図である。本発明による例示的実施例の少なくとも１つにおいて利用されるセグメント化方法論を示す図である。本発明による例示的実施例の少なくとも１つにおいて利用されるセグメント化方法論を示す図である。本発明による例示的実施例の少なくとも１つにおいて利用されるセグメント化方法論を示す図である。異なるフレーム分類子の、利用される特徴メトリックに対する、特性を示すグラフである。上部ウィンドウがオーディオ・データをフレーム毎に簡単化して得られた結果を示す一方、下部ウィンドウが本発明による少なくとも１つの例示的実施例において利用されるセグメンテーション・プーリング手法によって得られた結果を示す、分類結果の画面キャプチャを示す図である。本発明の２つの例示的実施例によるメガ話者IDシステムの高位のブロック図である。本発明の２つの例示的実施例によるメガ話者IDシステムの高位のブロック図である。図9a及び図9bに示したメガ話者IDシステムにおいて利用されるプロセッサによってインスタンス化される種々のファンクション・ブロックを表す高位のブロック図である。本発明の別の例示的実施例によるメガ話者ID方法の高位の流れ図である。

Claims

一般オーディオ・データ（GAD）からの話者に帰属するオーディオ信号を識別するメガ話者識別（ID）システムであって：
該GADをセグメントにセグメント化する手段；
該セグメント各々をN個のオーディオ信号クラスの１つとして分類する手段；
該セグメントから特徴を抽出する手段；
該N個のオーディオ信号クラスの１つのものから別のものに該セグメントを、必要な場合、該抽出特徴に応じて、再分類する手段；
該セグメントの近くのものをクラスタ化し、該クラスタ化によってクラスタ化セグメントを生成する手段；及び
各クラスタ化セグメントを話者IDによってラベル化する手段；
を有することを特徴とするメガ話者識別（ID）システム。
請求項１記載のメガ話者識別（ID）システムであって、該ラベル化する手段が複数の該クラスタ化セグメンを該話者IDによって、ユーザ入力と別のソース・データとのうちの一方に応じて、ラベル化することを特徴とするメガ話者識別（ID）システム。
請求項１記載のメガ話者識別（ID）システムであって、コンピュータが該コンピュータの中に有することを特徴とするメガ話者識別（ID）システム。
請求項１記載のメガ話者識別（ID）システムであって、セットトップ・ボックスが該セットトップ・ボックスの中に有することを特徴とするメガ話者識別（ID）システム。
請求項１記載のメガ話者識別（ID）システムであって、更に：
該話者IDを該GADの部分に関係付けるデータベースを記憶するメモリ手段；及び
該ラベル化する手段の出力を受信して該データベースを更新する手段；
を有することを特徴とするメガ話者識別（ID）システム。
請求項５記載のメガ話者識別（ID）システムであって、更に：
該データベースを照会する手段；及び
照会結果を備える手段；
を有することを特徴とするメガ話者識別（ID）システム。
請求項１記載のメガ話者識別（ID）システムであって、該N個のオーディオ信号クラスが、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音、を有することを特徴とするメガ話者識別（ID）システム。
請求項１記載のメガ話者識別（ID）システムであって、複数の該抽出特徴がメル周波数ケプストラム係数（MFCC）に基づくものであることを特徴とするメガ話者識別（ID）システム。
請求項１記載のメガ話者識別（ID）システムであって、電話システムが該電話システム中に有することを特徴とするメガ話者識別（ID）システム。
請求項９記載のメガ話者識別（ID）システムであって、リアル・タイムで動作することを特徴とするメガ話者識別（ID）システム。
一般オーディオ・データ（GAD）からの話者を識別するメガ話者識別（ID）方法であって：
該GADをセグメントにパーティション化する工程；
該セグメントの各々に対してN個のオーディオ信号クラスの１つに相当するラベルを割り当てる工程；
前記セグメントから特徴を抽出する工程；
該N個のオーディオ信号クラスの１つのものから別のものに該セグメントを、必要である場合に、該抽出特徴に応じて、再び割り当て、該再び割り当てることによって分類セグメントを生成する工程；
該分類セグメントの隣接するものをクラスタ化し、該クラスタ化によってクラスタ化セグメントを生成する工程；及び
各クラスタ化セグメントを話者IDによってラベル化する工程；
を有することを特徴とするメガ話者識別（ID）方法。
請求項１１記載のメガ話者識別（ID）方法であって、該ラベル化する工程が複数の該クラスタ化セグメントを該話者IDによって、ユーザ入力と別のソース・データとのうちの一方に応じて、ラベル化することを特徴とするメガ話者識別（ID）方法。
請求項１記載のメガ話者識別（ID）方法であって、更に：
該話者IDを該GADの部分に関係付けるデータベースを記憶する工程；及び
新たなクラスタ化セグメントが話者IDによってラベル化される都度、該データベースを更新する工程；
を有することを特徴とするメガ話者識別（ID）方法。
請求項１３記載のメガ話者識別（ID）方法であって、更に：
該データベースを照会する工程；及び
照会結果をユーザに対して備える工程；
を有することを特徴とするメガ話者識別（ID）方法。
請求項１１記載のメガ話者識別（ID）方法であって、該N個のオーディオ信号クラスが、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音、を有することを特徴とするメガ話者識別（ID）方法。
請求項１１記載のメガ話者識別（ID）方法であって、複数の該抽出特徴がメル周波数ケプストラム係数（MFCC）に基づくものであることを特徴とするメガ話者識別（ID）方法。
M個のチューナ、解析器、記憶装置、入力装置、及び出力装置を有するメガ話者IDシステム用動作方法であって：
該M個のチューナを動作させてR個のオーディオ信号をR個のオーディオ・ソースから取得する工程；
該解析器を動作させて：
該N個のオーディオ信号をセグメントにパーティション化し；
該セグメント各々に対してN個のオーディオ信号クラスの１つに相当するラベルを割り当て；
前記セグメントから特徴を抽出し；
該N個のオーディオ信号クラスの１つのものから別のものに該セグメントを、必要である場合に、該抽出特徴に応じて、再び割り当て、該再び割り当てることによって分類セグメントを生成し；
該分類セグメントの隣接するものをクラスタ化し、該クラスタ化によってクラスタ化セグメントを生成し；かつ
各クラスタ化セグメントを話者IDによってラベル化する、工程；
該Rオーディオ信号が該信号中に有する該クラスタ化セグメントと、該セグメントに相当する、該記憶装置中の、ラベル、との両方を記憶する工程；及び
該出力装置を動作させることができる照会結果を、該入力装置を介した照会入力に応じて、生成する工程；
を有し、M、N、及びRは正の整数であることを特徴とする動作方法。
請求項１７記載の動作方法であって、該N個のオーディオ信号クラスが、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音、を有することを特徴とする動作方法。
請求項１７記載の動作方法であって、複数の該抽出特徴がメル周波数ケプストラム係数（MFCC）に基づくものであることを特徴とする動作方法。
メガ話者識別(ID)システムに関連したプロセッサにファンクションをインスタンス化させるコンピュータ判読可能命令を記憶するメモリであって、該ファンクションが：
一般オーディオ・データ(GAD)を受信し、セグメントを生成する、オーディオのセグメンテーション並びに分類化のファンクション；
該セグメントを受信し、該受信セグメントから特徴を抽出する、特徴抽出ファンクション；
該抽出特徴を受信し、セグメントを、必要な場合、該抽出特徴に基づいて再分類する、学習並びにクラスタ化のファンクション；
該GAD中の複数音声信号に話者IDを割り当てる、照合並びにラベル化のファンクション；及び
該割り当て話者IDを該GAD中の該音声信号各々に関連付けるデータベース・ファンクション；
を有することを特徴とするメモリ。
請求項２０記載のメモリであって、該オーディオのセグメンテーション並びに分類化のファンクションが各セグメントをN個のオーディオ信号クラスのうちの１つに割り当て、該N個のオーディオ信号クラスが、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音、を有することを特徴とするメモリ。
請求項２０記載のメモリであって、複数の該抽出特徴がメル周波数ケプストラム係数（MFCC）に基づくものであることを特徴とするメモリ。
M個のオーディオ信号を受信し、入力装置及び出力装置に、動作するよう結合された、メガ話者IDシステム用の動作方法であって、解析器及び記憶装置を有する該メガ話者IDシステムが：
該解析器を動作させて：
M番目のオーディオ信号をセグメントにパーティション化し；
該セグメント各々に対してN個のオーディオ信号クラスの１つに相当するラベルを割り当て；
前記セグメントから特徴を抽出し；
該N個のオーディオ信号クラスの１つのものから別のものに該セグメントを、必要である場合に、該抽出特徴に応じて、再び割り当て、該再び割り当てることによって分類セグメントを生成し；
該分類セグメントの隣接するものをクラスタ化し、該クラスタ化によってクラスタ化セグメントを生成し；かつ
各クラスタ化セグメントを話者IDによってラベル化する、工程；
該オーディオ信号が該信号中に有する該クラスタ化セグメントと、該セグメントに相当する、該記憶装置中の、ラベル、との両方を記憶する工程；
該M番目のオーディオ信号を、該抽出特徴のうちの少なくとも１つから導き出された統計情報並びに、解析された該M個のオーディオ信号に対する該話者IDと、関係付けるデータベースを生成する工程；及び
該出力装置を、該入力装置を介した該データベースに対する照会入力に応じて、動作させることができる照会結果を生成する工程；
を有し、M、N、及びRは正の整数であることを特徴とする動作方法。
請求項２３記載の動作方法であって、該N個のオーディオ信号クラスが、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音、を有することを特徴とする動作方法。
請求項２３記載の動作方法であって、該照会結果を生成する工程が更に：
該データベース中に記憶された特定データに対して実行される計算に相当する照会結果で、該出力装置を動作させることができるもの、を、該入力装置を介した該データベースに対する照会入力に応じて、生成する工程；
を有することを特徴とする動作方法。
請求項２３記載の動作方法であって、該照会結果を生成する工程が更に：
M個のオーディオ信号の種類に関する統計、各クラスの持続時間に関する統計、各クラス内の平均持続時間に関する統計、各話者IDに関連した持続時間に関する統計、該データベース中に反映された話者ID全てに対する特定話者IDの持続時間に関する統計、のうちの１つに相当する照会結果を生成する工程；
を有し；
該照会結果が該出力装置を、該入力装置を介した該データベースに対する照会入力に応じて、動作させることができるものであることを特徴とする動作方法。