JP2005530214A - メガ話者識別(id)システム及びその目的に相当する方法 - Google Patents

メガ話者識別(id)システム及びその目的に相当する方法 Download PDF

Info

Publication number
JP2005530214A
JP2005530214A JP2004515125A JP2004515125A JP2005530214A JP 2005530214 A JP2005530214 A JP 2005530214A JP 2004515125 A JP2004515125 A JP 2004515125A JP 2004515125 A JP2004515125 A JP 2004515125A JP 2005530214 A JP2005530214 A JP 2005530214A
Authority
JP
Japan
Prior art keywords
speaker
mega
segments
audio
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004515125A
Other languages
English (en)
Inventor
ディミトロワ,ネヴェンカ
リ,ドンジ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2005530214A publication Critical patent/JP2005530214A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

メガ話者識別(ID)システムに関連したプロセッサに、一般オーディオ・データ(GAD)を受信し、セグメントを生成する、オーディオのセグメンテーションと分類のファンクション(F10)、該セグメントを受信し、メル周波数ケプストラム係数(MFCC)に基づいた特徴をそこから抽出する、特徴抽出ファンクション(F12)、該抽出特徴を受信し、セグメントを、必要な場合、該抽出特徴に基づいて、再分類する、学習とクラスタ化のファンクション(14)、該GAD中の音声信号に話者IDを割り当てる、照合とラベル化のファンクション(16)、及び該割り当て話者IDを該GAD中のそれぞれの音声信号に関係付けるデータベース・ファンクションを有する、ファンクション、をインスタンス化させるコンピュータ判読可能な命令を記憶するメモリ。該オーディオのセグメンテーションと分類のファンクションは各セグメントを、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音を有する、N個のオーディオ信号クラス、の1つに割り当て得る。

Description

本発明は、一般的に、話者識別(ID)システムに関する。特に、本発明は、オーディオ信号から抽出されたメル周波数ケプストラム係数(MFCC)に基づいた自動オーディオ信号セグメンテーションを利用する話者IDシステムに関する。複数オーディオ信号ソースからの信号を処理するのに好適な、相当する方法も開示する。
現在、話者IDシステムが存在する。特に、低位オーディオ特徴に基づいた話者IDシステムが存在し、それらのシステムは一般的に話者群が前もって知られていることを要する。そのような話者IDシステムでは、新たなオーディオ・マテリアルが解析される場合、それは既知の話者分類の1つに常に分類される。
なお、コンテンツ・ベースの索引化とその後の取り出しとを行う、画像とビデオの自動注釈方法に関する研究開発に携わっているいくつかのグループが存在する。そのような方法に対する必要性は、デスクトップ型PC及びユビキタスTVがテラバイト単位のビデオ・データに対してインターネットを介して過去に例をみないアクセスを行うことをもたらすことができる単一の情報娯楽機器に収斂するにつれ、より一層重要になってきている。この分野での既存の研究の大部分は画像ベースのものであるが、ビデオのコンテンツ・ベースの索引化及び検索を行う画像ベースの方法をオーディオ・ベースの解析によって増強する、すなわち補う、ことを要するという認識が高まってきている。これによってビデオ番組におけるオーディオ・トラックの解析に関するいくつかの取り組みにつながっており、それは特に、オーディオ・セグメントを別々のクラスに分類してビデオ・コンテンツを表すものである。これらの取り組みのいくつかを記載する論文がある(非特許文献1及び非特許文献2参照。)。別の取り組みを記載する論文もある(非特許文献3及び非特許文献4参照。)。
自動音声認識(ASR)における進展は更に、一般オーディオ・データ(GAD)、すなわち、ニュース並びにラジオ放送、及びアーカイブされたオーディオ視覚資料のようなソースからのオーディオ・データ、の分類における関心をもたらしている。GADをASR処理する誘因は、オーディオ分類を前処理工程として行うことによって、ASRシステムが、単一のクラスを表すオーディオ・データの同質のセグメント毎に適切な音響モデルを策定し、後に利用することが可能であるという認識である。なお、GADがこの種の前処理を経ることによって認識特性が改善される。更に詳細を備えた記事がある(非特許文献5及び非特許文献6参照。)。
更に、多くのオーディオ分類手法が近年研究されている。これらの手法は、お互いに2つの点、すなわち、(a)分類子の選択;及び(b)その分類子によって用いられる音響特徴群;において、主に異なっている。現行システムにおいて用いられている分類子は:
1)非特許文献5の記事記載の、ガウス・モデル・ベースの分類子;
2)非特許文献4及び非特許文献7記載の、ニューラル・ネットワーク・ベースの分類子;
3)非特許文献8記載の判断トリー分類子;及び
4)非特許文献8及び非特許文献9記載の、隠れマルコフ・モデル・ベース(HMMベース)の分類子;
を有する。
なお、更にオーディオ分類子における時間領域特徴と周波数領域特徴との両方の利用が研究されている。この利用されている特徴の例は:
1)非特許文献8の記事と、非特許文献10並びに非特許文献11の記事、との両方に詳細に記載した、短時間エネルギ;
2)非特許文献12及び非特許文献13の記事に詳細に記載した、パルス・メトリック;
3)非特許文献1の記事記載の、ポーズ比率;
4)非特許文献3の記事及び非特許文献14の論文に詳細に記載した、ゼロ交差率;
5)(短時間エネルギに関する上記の)非特許文献11の記事にそのメトリックを詳細に記載した、正規化調波性;
6)非特許文献4、8、11及び12の論文を有する種々の論文にそのメトリックを記載した、基本周波数;
7)非特許文献13の記事記載の周波数スペクトル;
8)非特許文献4及び11記載の論文にそのメトリックを記載した帯域幅;
9)非特許文献4、11、及び14の上記記事にそのメトリックを記載したスペクトル中心点;
10)非特許文献10及び14の記事に詳細を記載した、スペクトル・ロールオフ周波数(SRF);及び
11)(オーディオ処理に関する)非特許文献1、非特許文献4、及び非特許文献11の論文にそのメトリックを記載した、バンド・エネルギ比率;
を有する。
なお、上記論文及び記事は全て、本明細書及び特許請求の範囲に援用するものとする。更に、上記特徴各々の別の、主に数学的な解説を添付別紙Aに備えるものとする。
なお、非特許文献14の記事はいくつかの分類ストラテジを用いた13の時間特徴及び周波数特徴の種々の組み合わせの評価を記載している。この論文では、2方向の音声/音楽識別子に対しては90%超の分類精度が報告されているが、同じ特徴群を用いて音声、音楽、及び同時の音声と音楽を識別する3方向識別子に対しては分類精度が約65%しかないことが報告されている。非特許文献7及び非特許文献5の記事はケプストラム・ベースの特徴に基づいた研究及び分類について報告しており、これらの特徴は音声認識の分野では広く用いられている。実際に、非特許文献5の記事は、メル・ケプストラム(AC-Mel)パラメータの自己相関を音声における強勢条件として好適な特徴として提案している。対照的に、特許文献5は14のメル周波数ケプストラム係数(MFCC)を用いてオーディオ・データを7つの分類、すなわち、スタジオ音声、フィールド音声、背景音楽付音声、雑音のある音声、音楽、無音、及び(残りのオーディオ・パターンを包含する)ガービッジに分類している。非特許文献5においてSpinaなどは自らのアルゴリズムを1時間分のNPRのラジオ・ニュースでテストし、80.9%の分類精度を実現している。
N.V.Patel及びI.K.Sethi, "Audio characterization for video indexing" (Proc. IS&T/SPIE Conf. Storage and Retrieval for Image and Video Databases IV, pp. 373-384, San Jose, CA (February 1996) N.V.Patel及びI.K.Sethi, "Video Classification using Speaker Identification", (Proc. IS&T/SPIE Conf. Storage and Retrieval for Image and Video Databases V, pp. 218-225, San Jose, CA (February 1997) C.Saraceno及びR.Leonardi, "Identification of successive correlated camera shots using audio and video information" (Proc. ICIP97, Vol. 3, pp. 166-169 (997)) Z.Liu,Y.Wang,及びT.Chen, "Audio Feature Extraction and Analysis for Scene Classification" (Journal of VLSI Signal Processing, Special issue on multimedia signal processing, pp. 61-79 (Oct. 1998)) M.Spina及びV.W.Zue, "Automatic Transcription of General Audio Data: Preliminary Analysis" (Proc. International Conference on Spoken Language Processing, pp. 594-597, Philadelphia, Pa. (October 1996) P.S.Gopalakrishen, et al., "Transcription Of Radio Broadcast News With The IBM Large Vocabulary Speech Recognition System" (Proc. DARPA Speech Recognition Workshop (Feb.,1996) J.H.L.Hansen及びBrianD.Womack, "Feature analysis and neural network-based classification of speech under stress" (IEEE Trans. on Speech and Audio Processing, Vol. 4, No. 4, pp. 307-313 (July 1996) T.Zhang及びC.-C.J.Kuo, "Audio-guided audiovisual data segmentation, indexing and retrieval" (IS&E/SPIE’s Symposium on Electronic Imaging Science & Technology - Conference on Storage and Retrieval for Image and Video Databases VII,SPIE Vol.3656, pp.316-327, San Jose, CA (Jan. 1999)) D.Kimber及びL.Wilcox, "Acoustic segmentation for audio browsers" (Proc. Interface Conference, Sydney, Australia (July 1996)) D.Li及びN.Dimitorova, "Tools for audio analysis and classification" (Philips Technical Report (August 1997)) E.Wold,T.Blumなど, "Content-based classification, search, and retrieval of audio" (IEEE Multimedia, pp.27-36 (Fall 1996)) S.Pfeiffer,S.Fischer,及びW.Effelberg, "Automatic audio content analysis" (Proceedings of ACM Multimedia 96, pp.21-30, Boston, MA (1996) S.Fischer,R.Lienhart及びW.Effelberg, "Automatic recognition of film genres", (Proceedings of ACM Multimedia ’95, pp. 295-304, San Francisco, CA(1995)) E.Scheirer及びM.Slaney, "Construction and evaluation of a robust multifeature speech/music discriminator," (Proc. ICASSP 97, pp.1331-1334, Munich, Germany, (April 1997)
この分野における多くの研究者は種々の分類ストラテジの策定にかなり重点を置いているが、非特許文献14では、特徴空間のトポロジはかなり単純なものであると結論付けている。したがって、別々の分類子の特性の間の差異は非常に少ないものである。多くの場合、特徴の選定は実際には、分類特性に対して決定的なものとなる。したがって、非特許文献14では、分類子の策定は他者によって提案された複数分類子ではなく、限定数の分類メトリックに重点をおくべきではないかということを正しく推定しているが、分類オーディオ・フレームに対する、最適分類手法と最適話者識別手法との何れかを策定し損なっている。
種々の装置、例えば、コンピュータ、セットトップ・ボックス、電話システム、等に組み入れ得るメガ話者識別システム(ID)システムが必要である。更に、少なくとも、マイクロプロセッサ及びディジタル信号プロセッサ(DSP)、を有する種々のシステムにインスタンス化し得るソフトウェア・ファンクションとして実施されるメガ話者識別(ID)方法が必要である。好ましくは、メガ話者識別(ID)システム及び相当する方法で、容易に拡張させて複数オーディオ・ソースから導き出される一般オーディオ・データ(CAD)を処理し得るもの、は大変望ましいものである。
上記に基づけば、現在、当該技術分野において、メガ話者識別(ID)システム及び相当する方法で、上記欠点を克服するもの、に対する必要性が存在することが分かるものである。本発明は、現在利用可能な技術の欠陥及び欠点を克服し、それによって当該技術分野におけるこの必要性を充足しようとすることを誘因としている。
一特徴によれば、本発明は、一般オーディオ・データ(GAD)からの話者に帰属するオーディオ信号を識別するメガ話者識別(ID)システムを備え、該システムは、該GADをセグメントにセグメント化する回路、該セグメント各々をN個のオーディオ信号クラスの1つとして分類する回路、該セグメントから特徴を抽出する回路、該セグメントを該N個のオーディオ信号クラスの1つのものから別のものに、必要な場合、該抽出特徴に応じて、再分類する回路、該セグメントのうちの最も近いものをクラスタ化し、それによってクラスタ化セグメントを生成する回路、及び各クラスタ化セグメントを話者IDによってラベル化する回路を有する。望ましい場合、このラベル化回路は、話者IDによって複数クラスタ化セグメントを、ユーザ入力と別のソース・データとのうちの一方に応じて、ラベル化する。メガ話者IDシステムは効果的には、コンピュータ、セットトップ・ボックス、又は電話システムが有し得る。例示的場合には、メガ話者IDシステムは更に、話者IDをGADの部分に関係付けるデータベースを記憶するメモリ回路、及びラベル化回路の出力を受信してデータベースを更新する回路を有する。後者の場合、メガ話者IDシステムは更に、データベースを照会する回路、及び照会結果を備える回路を有する。好ましくは、N個のオーディオ信号クラスは、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音を有する;最も好ましくは、抽出された特徴の少なくとも1つはメル周波数ケプストラム係数(MFCC)に基づくものである。
別の特徴によれば、本発明は、一般オーディオ・データ(GAD)が有する話者を識別することを可能にするメガ話者識別(ID)方法を備え、該方法は、該GADをセグメントにパーティション化する工程、該セグメント各々にN個のオーディオ信号クラスの1つに相当するラベルを割り当てる工程、該セグメントから特徴を抽出する工程、該N個のオーディオ信号クラスの1つのものから別のものに該セグメントを、必要とする場合、該抽出特徴に基づいて再割り当てし、それによって分類セグメントを生成する工程、該分類セグメントの隣接するものをクラスタ化し、それによってクラスタ化セグメントを生成する工程、及び各クラスタ化セグメントを話者IDによってラベル化する工程を有する。望ましい場合、レベル化工程は複数クラスタ化セグメントを話者IDによって、ユーザ入力と別のソース・データとのうちの一方に応じて、ラベル化する。例示的場合には、この方法は、話者IDをGADの部分に関係付けるデータベースを記憶する工程、及び、新たなクラスタ化セグメントが話者IDによってラベル化される都度、データベースを更新する工程を有する。この方法は更に、データベースを照会し、照会結果をユーザに備える工程を有し得ることが分かる。好ましくは、N個のオーディオ信号クラスは、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音を有する。最も好ましくは、抽出特徴の少なくとも1つがメル周波数ケプストラム係数(MFCC)に基づくものである。
別の特徴によれば、本発明は、M個のチューナ、解析器、記憶装置、入力装置、及び出力装置を有するメガ話者IDシステム用動作方法を備え、該方法は:該M個のチューナを動作させてR個のオーディオ信号をR個のオーディオ・ソースから取得する工程、該解析器を動作させて該N個のオーディオ信号をセグメントにパーティション化する工程、N個のオーディオ信号クラスの1つに相当するラベルを該セグメントの各々に割り当てる工程、特徴を該セグメントから抽出する工程、該N個のオーディオ信号クラスの1つのものから別のものに該セグメントを、必要な場合、該抽出特徴に基づいて再割り当てし、それによってクラスタ化セグメントを生成する工程、該分類セグメントの隣接するものをクラスタ化し、それによってクラスタ化セグメントを生成する工程、及び各クラスタ化セグメントを話者IDによってラベル化する工程;を有し、該R個のオーディオ信号が有するクラスタ化セグメントと、該記憶装置における相当するラベル、との両方を記憶し;更に出力装置を動作させることができる照会結果を、入力装置を介した照会入力に応じて、生成する工程を有し;M,N,並びにRは正の整数である。例示的でかつ非限定的な場合では、N個のオーディオ信号クラスは無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音を有する。更に、複数の抽出特徴がメル周波数ケプストラム係数(MFCC)に基づくものである。
更に別の特徴では、本発明は、メガ話者識別(ID)システムに関連したプロセッサに、一般オーディオ・データ(GAD)を受信し、セグメントを生成する、オーディオのセグメンテーション並びに分類のファンクション、該セグメントを受信し、そこから特徴を抽出する特徴抽出ファンクション、該抽出特徴を受信し、セグメントを、必要な場合、該抽出特徴に基づいて再分類する、学習並びにクラスタ化のファンクション、話者IDをGAD中の音声信号に割り当てる照合並びにラベル化のファンクション、及び割り当て話者IDをGAD中のそれぞれの音声信号に関連付けるデータベース・ファンクションを有するファンクションをインスタンス化させる、コンピュータ判読可能な命令を記憶するメモリを備える。望ましい場合、オーディオ・セグメンテーション及び分類のファンクションは各セグメントをN個のオーディオ信号クラスの1つに割り当て、該クラスは、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音を有する。例示的場合では、抽出特徴の少なくとも1つがメル周波数ケプストラム係数(MFCC)に基づくものである。
本発明は、部分的には、分類子によって利用される特徴の選定が、分類子種類自体よりも分類特性に対して実際に決定的であるという非特許文献14記載の所見に基づいている。本発明の発明者は連続する一般オーディオ・データ(GAD)を7つの分類に分類するうえでの課題に対処するのに潜在的に有用な合計143の分類特徴を調査している。本発明によるメガ話者識別(ID)システムにおいて利用される7つのオーディオ分類は、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音を有する。なお、環境雑音分類はフォアグラウンド音なしの雑音を表す一方、同時の音声と音楽の分類は、歌唱と音声との両方を、バックグラウンド音楽を伴って、有するものである。7つの分類のうちの6つの例示的波形を図1に表す;無音分類の波形は自明の理由で、割愛する。
本発明による分類子及び分類方法はオーディオ・データの連続するビットストリームを別々の非重複セグメントに、各セグメントがそのクラスの点で同質になるように、解析する。オーディオ信号を1つのカテゴリから別のものに移行することによって分類エラーをもたらし得るので、本発明の例示的実施例はそのようなエラーを削減する効果的な方法としてセグメンテーション・プーリング手法を利用する。
この継続中の研究分野において、開発作業を容易に、再利用かつ拡張する、ことが可能なものにし、種々の特徴抽出案を実験することを促進するために、聴覚ツールボックスが開発されている。この現行の実現方法においては、ツールボックスは24を上回るツールを有する。これらのツール各々はオーディオの解析にしばしば必要な単一の基本演算を行う役目を担う。ツールボックスを用いることによって、バッファの管理並びに最適化、別々の処理手順間の同期化、及び例外処理のような、ストリーム・オーディオ・データの処理に関する面倒な作業の多くはユーザが意識しなくてよいものとなる。オーディオ・ツールボックスにおいて現在実現されている演算は、周波数領域演算、時間領域演算、及び短時間平均化、対数演算、ウィンドウ化、クリッピングなどの基本的な数学的演算を有する。ツールボックスにおけるツール全ての間での共通のコミュニケーション規約が規定されているので、1つのツールからの結果を如何なる制限なく別の種類のツールと共有し得る。ツールボックス中のツールはこのようにして、非常に柔軟な方法で編成して種々のアプリケーション及び要件に対応し得る。
上記オーディオ・ツールボックスの1つの考えられる構成として図2に示すオーディオ・ボックス10があり、これは、MFCC、LPC、デルタMFCC、デルタLPC、自己相関MFCCを有する、6つの音響特徴群、及びいくつかの時間特徴並びに周波数特徴の抽出に利用されるツールの配置を表す。ツール10は効果的には、以下に図9a及び図9bに関して記載する、プロセッサによってインスタンス化される複数ソフトウェア・モジュールを有し得る。これらのモジュールは、平均エネルギ解析器(ソフトウェア)モジュール12、高速フーリエ変換(FFT)解析器モジュール14、ゼロ交差解析器モジュール16、ピッチ解析器モジュール18、MFCC解析器モジュール20、および線形予測係数(LPC)解析器モジュール22を有する。FFT解析器モジュールの出力は効果的には中心点解析器モジュール24、帯域解析器モジュール26、ロールオフ解析器モジュール28、バンド比率解析器モジュール30、及び差動(デルタ)振幅解析器モジュール32に印加して別の特徴を抽出し得ることが分かる。同様に、MFCC解析器モジュール20の出力は自己相関解析器モジュール34及びデルタMFCC解析器モジュール36に供給して別の特徴をMFCCデータに基づいてオーディオ・フレーム毎に抽出し得る。LPC解析器モジュール22の出力は更に、デルタLPC解析器モジュール38によって処理し得ることが分かる。更に、専用ハードウェア構成部分、例えば、1つ又は複数のディジタル信号プロセッサ、を、処理されるGADの振幅がそれに値するか、費用便益分析によってそれが効果的であることが示される場合に、利用し得ることも分かる。上記のように、これらのソフトウェア・モジュールによって実現される、すなわち、これらの特徴用に採用される、定義すなわちアルゴリズム、を付表Aに備える。
GADからオーディオ・ツールボックス10によって抽出された音響特徴に基づいて、多くの別のオーディオ特徴で、効果的には、オーディオ・セグメントの分類に用い得るもの、が、隣接するフレームから抽出された音響特徴を解析することによって更に抽出し得る。本発明の発明者によって実施された広範囲にわたるテスト及びモデル化に基づいて、これらの別の特徴で、長期にわたるオーディオ・データの特性に相当するもの、例えば、10乃至20msのフレーム時間でなく、600ms時間、がオーディオ・セグメントの分類に好適である。オーディオ・セグメント分類に用いられる特徴は:
1)対象フレームに中心がある、特定数の連続するフレームに及ぶ音響特徴の平均と分散;
2)ポーズ比率:閾値よりも低いエネルギを有するフレームの数と、対象フレームの総数との比率;
3)調波性:有効ピッチ値を有するフレームの数と対象フレーム総数との間の比率;
4)MFCC、デルタMFCC、自動MFCC、LPC、及びデルタLPCによって抽出された特徴のエネルギの総和;
を有する。
図3に表す、オーディオ分類方法は、4つの処理工程:特徴抽出工程S10、ポーズ検出工程S12、自動オーディオ・セグメント化工程S14、及びオーディオ・セグメント分類工程S16;を有する。図3から大まかに分類する工程がS12で行われて、無音を有するオーディオ・フレームを分類、例えば、識別、し、よって、これらのオーディオ・フレームを更に処理することをなくすことが分かる。
図3では、特徴抽出を効果的に工程S10で、図2に示すツールボックス10が有するツールのうちの特定のものを用いて実現し得る。すなわち、工程S10に関連したラン・タイム中に、後続する3つの手続工程において利用される対象の音響特徴は、フレーム毎に時間軸に沿って入力オーディオ生データ(例示的な場合には、44.1kHzでサンプリングされたPCM WAVフォーマットのデータ)、すなわち、GAD、から抽出される。ポーズ検出は更に、工程S12で行われる。
工程S12で行うポーズ検出は入力オーディオ・クリップを無音セグメントと信号セグメントとに分離する役目を担うことが分かる。本明細書及び特許請求の範囲の原文における「pause」の語は、閉鎖子音又はわずかな躊躇によって発生するもの以外の、音がない時間、としてリスナによって判定される時間を表すのに用いられる。これについては、P.T.Bradyによる、「A Technique For Investigating On-Off Patterns Of Speech」 (The Bell System Technical Journal, Vol. 44, No. 1, pp. 1-22 (January 1965)) と題する、記事を参照するものとし、その開示内容は本明細書及び特許請求の範囲に援用するものとする。なお、ポーズ検出器が、人間の知覚との整合性がある結果を生成することが非常に重要である。
上記のように、オーディオ分類に関する以前の研究の多くは、単一のオーディオ分類からのみのデータを有するオーディオ・クリップによって行われている。しかしながら、「真の」連続するGADは多くのオーディオ・クラスからのセグメントを有する。したがって、分類特性は、基となるオーディオ・ストリームが1つのオーディオ・クラスから別のものに移行するところの場所では不利益を被り得る。この精度の低下をボーダー効果と呼ぶ。なお、ボーダー効果による精度の低下は更に、上記非特許文献5及び14に報告されている。
ボーダー効果による特性低下を最小にするために、本発明による話者IDシステムは工程S14で実現されるセグメンテーション・プーリング手法を利用する。セグメンテーション・プーリング手法のセグメンテーション部分は信号セグメントにおける境界を位置指定するのに用いられ、該境界においては1つの種類のオーディオ分類から別の種類のオーディオ分類への移行が行われているものと判定される。この部分は、いわゆる、オンセット尺度及びオフセット尺度で、信号の変化速度を示すもの、を用いて入力の信号セグメントにおける境界を位置指定する。セグメンテーション処理の結果として、同質の信号セグメントが小さくなってしまうこととなる。セグメンテーション・プーリング手法のプーリング構成部分は後に分類時に用いられる。それはフレーム毎の分類結果をプーリングしてセグメント化信号セグメントを分類することを伴う。
下記に、ポーズ検出、オーディオ・セグメンテーション、及びオーディオ・セグメント分類において採用されるアルゴリズムを詳細に記載する。
なお、3工程の手順がGADからのポーズ時間を検出するのに実現される。すなわち、工程S12は効果的には、部分工程S121、S122、及びS123を有し得る。これについては、図5eを参照するものとする。オーディオ・ツールボックス10において選定ツールによって抽出された特徴に基づいて、部分工程S121では、入力オーディオ・データは最初に、フレーム毎に信号又はポーズ・フレームとして印が付けられて未処理状態の境界を取得する。このフレーム毎分類は判断トリー・アルゴリズムを用いて行われる。この判断トリーは階層的特徴空間パーティション化方法と同様な方法で取得され、該階層的特徴空間パーティション方法はSethi及びSarvarayuduによって考案されたものであり、「Hierarchical Classifier Design Using Mutual Information」 (IEEE Trans. On Pattern Recognition and Machine Intelligence, Vol. 4, No. 4, pp. 441-445 (July 1982))、と題する論文に記載されている。図4aは2次元の特徴空間に対するパーティション化結果を示す一方、図4bは本発明によるポーズ検出に利用する、相当する判断トリーを示す。
なお、更に、第1部分工程において取得された結果は、無発声音声及びわずかな躊躇に通常、高感度なものであるので、フィルイン処理(部分工程S122)及び廃棄処理(部分工程S123)が更に、後続する2つの工程において行われて、ポーズの、人間の知覚と整合性のある結果を生成する。
なお、部分工程S122のフィルイン処理中には、ポーズ・セグメント、すなわち、ポーズ・フレームの連続するシーケンス、でフィルイン閾値未満の長さを有するもの、は信号セグメントとして再ラベル化され、隣接する信号セグメントとマージされる。部分工程S123の廃棄処理中には、所定の閾値よりも小さな信号強度値を有するセグメント・ラベル化信号が無音セグメントとして再ラベル化される。信号セグメントの強度は:
Figure 2005530214
として定義され、Lは信号セグメントの長さであり、Tlは図4aに表す最低信号レベルに相当する。なお、セグメントの長さを直接用いるのでなく、セグメント強度を定義することの背後にある基本的な考え方は、信号エネルギを、廃棄処理中に、トランジェント・サウンド・バーストのセグメントが無音として印が付けられないように、考慮に入れるというものである。これについては、P.T.Bradyによる、「A Technique For Investigating On-Off Patterns Of Speech」(The Bell System Technical Journal, Vol.44, No.1, pp.1-22 (January 1965))と題する記事を参照するものとする。図5a乃至5dは例示的ポーズ検出アルゴリズムの3工程を示す。特に、本発明の例示的実施例の少なくとも1つにおいて利用されるポーズ検出アルゴリズムは、入力信号の短時間エネルギを判定する工程S120(図5a)、部分工程S121における候補信号セグメントの判定(図5b)、上記フィルイン部分工程S122の実行(図5c)、及び上記廃棄部分工程S123(図5d)を有する。
本発明によるメガ話者IDシステムにおいて利用されるポーズ検出モジュールは2種類のセグメント:無音セグメント;及び信号セグメント;をもたらす。なお、無音セグメントは如何なる追加処理をも要するものでないが、それはこれらのセグメントが既に全面的に分類されているからである。信号セグメントは、しかしながら、移行点、すなわち、基となる信号の分類が変化するところのその位置、に、分類前に、印を付けるよう追加処理を要する。移行点を位置指定するのに、例示的セグメンテーション手法は2部分工程処理、すなわち、ブレーク検出部分工程S141及びブレーク・マージ部分工程S142を、工程S14を行うのに利用する。ブレーク検出部分工程S141中には、信号セグメント全体に及んで配置された大型の検出ウィンドウが移動され、各スライディング位置におけるウィンドウのそれぞれの半分の平均エネルギが比較される。これによって2つの別個の種類のブレーク:
Figure 2005530214
がTh1よりも大きい場合の、オンセット・ブレーク;及び
Figure 2005530214
がThよりも大きい場合の、オフセット・ブレーク;の検出を可能にし、
Figure 2005530214
及び
Figure 2005530214
は各々、検出ウィンドウの第1半分と第2半分との平均エネルギである。オンセット・ブレークは信号エネルギの増加によるオーディオ分類の潜在的変化を示す。同様に、オフセット・ブレークは信号エネルギの低下による、基となる信号の分類の変化、を示唆する。なお、ブレーク検出ウィンドウが信号に沿ってスライドされるので、基となる信号のオーディオ分類における単一の移行によっていくつかの連続したブレークを生成し得る。この一連のブレークのマージは工程S14と表す新規のセグメンテーション処理の第2部分工程中に実現される。
この部分工程、すなわち、S142、では同じ種類の隣接するブレークが単一のブレークにマージされる。オフセット・ブレークもその直後のオンセット・ブレークと、もしその2つが時間的にお互いに近いならば、マージされる。これは1つの信号の終了部と別の信号の開始部との間の如何なる小さなギャップをも埋めるよう行われる。図6a、6b、及び6cは信号ブレークの検出とマージを通じたセグメンテーション処理を示す。
オーディオ・セグメントを分類するために、本発明によるメガ話者IDシステム及び相当する方法は最初に、セグメントの各フレームを分類する。次に、フレーム分類結果が、セグメント全体に対する分類ラベルに帰結するよう集約される。好ましくは、この集約はプーリング処理によって行われ、この処理は各オーディオ分類に割り当てられたフレームの数を集計する;この集計で最も多い分類が当該セグメントのオーディオ分類ラベルとして採用される。
フレームを分類するのに用いられる特徴は、上記のように、そのフレームからのもののみならず、別のフレームからのものもある。例示的場合には、この分類は、各分類が多次元ガウス分布を有するという前提の下で処理されるベイズ分類子を用いて行われる。フレーム分類の分類規則は:
Figure 2005530214
として表し得るものであり、Cは候補分類の総数であり、(この場合は、Cは6であり、)
Figure 2005530214
は分類結果であり、
Figure 2005530214
は解析されているフレームの特徴ベクトルである。
Figure 2005530214
Figure 2005530214
及びpcは、各々、平均ベクトル、共分散マトリックス、及びクラスcの確率を表し、
Figure 2005530214
Figure 2005530214
Figure 2005530214
との間のマハラノビスの距離を表す。
Figure 2005530214
Figure 2005530214
及びpcは通常、未知なものであるので、これらの値は効果的には、R.O.Duda及びP.E.Hartによる、「Pattern Classification and Scene Analysis」(John Wiley & Sons (New York,1973))と題する著書記載のものなどの、最大事後確率推定(MAP推定)を用いて判定し得るものである。
なお、メガ話者IDシステム及び相当する方法において実現されるオーディオ特徴群を精緻化するのに用いられるGADは、トーク番組、ニュース番組、フットボールの試合、天気予報、広告、連続メロドラマ、映画、深夜番組などのような、各種のTV番組からの多数のオーディオ・クリップを最初に収集することによって作成されている。これらのオーディオ・クリップは4つの異なる局、すなわち、ABC、NBC、PBS、及びCBS、から記録され、8ビットの、44.1kHzのWAVフォーマットのファイルとして記憶されている。各分類において広範囲にわたるものを得るよう留意されている。例えば、各種の音楽を有する音楽セグメントが記録されている。GAD全体から、30分間分が訓練データとして指定され、別の1時間分がテスト・データとして指定されている。訓練データとテスト・データとの両方が更に、10ms毎に1度、7つの分類の1つによって手作業でラベル化されている。なお、P.T.Bradyによる記事及びJ.G.Agnelloによる、「A Study of Intra- and Inter-Phrasal Pauses and Their Relationship to the Rate of Speech」と題するオハイオ州立大学(Ohio State University)博士論文において公開された提案に従って、200msの最小持続時間が無音セグメントに科され、それによって、リスナが通常、知覚できないフェーズ内ポーズを排除している。更に、訓練データを用いて分類子のパラメータを予測している。
本発明によるメガ話者IDシステム及び相当する方法に用いる種々の特徴群の合目的性を調査するよう、68の音響特徴で、8つの時間特徴並びに周波数特徴、MFCC、LPC、デルタMFCC、デルタLPC、並びに自己相関MFCC特徴の各12のものが、20ms毎に、すなわち、20msフレーム毎に、入力データから図2のオーディオ・ツールボックス10全体を用いて抽出されている。これら68の特徴各々について、平均及び分散が対象フレーム付近を中心とした隣接フレームにわたって計算されている。このようにして、計143の分類特徴、68の平均値、68の分散、ポーズ率、調波性、及び5つの総和の特徴が、20ms毎に計算されている。
図7は訓練データ上の異なる特徴群の相対的な特性を示す。これらの結果は何百万もの見込みのある特徴部分集合に対する広範囲にわたる訓練及びテストに基づいて得られている。図7の精度はフレーム・レベルでの分類精度である。更に、セグメント境界付近のフレームは精度計算が有するものでない。図7のフレーム分類精度はしたがって、このシステムが各オーディオ種類のセグメントを別個に与えられた場合に得られる、分類特性を表す。なお、図7から、別々の特徴群の特性は一様でないものである。更に、時間特徴及び周波数特徴の特性はあまり良好でないものである。これらの実験では、MFCCとLPCとの両方とも時間特徴と周波数特徴よりもずっと良好な全般分類精度を実現する。MFCC特性が8つのみの場合、85.1%の分類精度を単純なMAPガウス分類子を用いて得ることが可能である;これは、MFCC特徴の数が20に増加した場合に、95.3%に上昇する。この分類精度の高さは特徴空間のトポロジが非常に単純であることを示し、更に、7つのオーディオ分類の場合に対するSchreirer及びSlaneyによる結論を確認するものである。異なる分類を用いる効果はこのように、非常に限定的なものであることが見込まれる。
表1は最良の16の特徴を用いた場合に3つの最も重要な特徴群について得られた結果の概要を備える。これらの結果によって、MFCCは異なる分類にまたがって、全般的に最良の特性を有するのみならず、最も一様な特性を有する。これは更に、オーディオ分類の一部分集合のみが認識対象であるアプリケーションでのMFCCの利用を示唆するものである。言い換えれば、メガ話者IDシステムが家庭用電話システムのような装置に組み入れられている場合か、当該方法を実現するソフトウェアがパーソナル・コンピュータ上のボイス・オーバ・インターネット(VOI)のソフトウェアに接続されている場合には、7つのオーディオ分類のうちわずかなものしか実現しなくてよい。
Figure 2005530214
なお、一連の別の実験が、パラメータ設定の効果を調べるよう行われていることをこの時点で述べることとする。特性における変化は、異なるパラメータ設定、例えば、異なるウィンドウ関数、を用いても、ウィンドウ長やウィンドウ重複部分を変化させても、わずかなものしか検出されていない。MFCC特徴の数を増加させた場合でも、異なる特徴群からの特徴の混合を用いても、分類精度における明白な改善はみられていない。
テスト・データに対する分類子の特性の良好度を判定するよう、データの残りの1時間分がテスト・データとして利用されている。20のMFCC特徴の群を用いることによって、85.3%のフレーム分類精度が実現されている。この精度はオーディオ・セグメントの境界付近のフレームを有するフレーム全てに基づくものである。訓練データに対する精度と比較すれば、分類子が複数クラスのセグメントを処理する場合、精度が約10%低下することが分かる。
なお、上記実験は、266MHzのCPUと64Mのメモリを有する、ペンティウム(Pentium(登録商標))II PC上で実施されている。44.1kHzでサンプリングされたオーディオ・データの1時間分について、処理時間は168秒を要しており、これは再生速度よりもおおよそ21倍も速くなっている。ユーザのテレビジョン受信機又は一体型娯楽システムがリアル・タイムの話者IDシステムを有する可能性の肯定的な予測因子であることが分かる。
処理の次のフェーズでは、各セグメント全体としての分類レベルを判定するようプーリング処理が行われている。プーリング処理の結果、フレームの一部分で、大部分が境界付近のもの、は分類ラベルが変更されている。既知のフレーム・レベルと比較すれば、プーリング処理後の精度は90.1%であることが分かり、これはプーリングなしのシステム精度を約5%上回る増加を表すものである。
セグメンテーション・プーリング手法の適用の有無による分類の差異の例を図8に表すが、この図では横軸は時間を表している。種々のオーディオ分類は縦軸の種々のレベルに相当する。レベル変化は1分類から別のものへの移行を表す。図8は、セグメンテーション・プーリング手法が、散在した分類エラーを補正し、取るに足らないセグメントを除外するのに効果的である。このようにして、セグメンテーション・プーリング手法は、人間の知覚との整合性を有する結果を、ボーダー効果による劣化を低減することによって、実際に生成し得る。
連続するGADの分類の課題は上記で扱っており、オーディオ分類システムの要件である、オーディオ・セグメントを7つの分類に分類することができること、は概括的に表している。例えば、聴覚ツールボックス10を利用して、テスト及び比較が、利用された特徴群を最適化するよう、計143の分類の特徴に対して行われている。これらの結果によって、特徴の選定はオーディオ分類において最も重要なものであるという、Scheirer及びSlaneyによる所見が確認されている。これらの実験結果によって、更に、MFCC、LPCなどのケプストラム・ベースの特徴は、ずっと良好な精度をもたらし、所望のオーディオ分類数にかかわらず、オーディオ分類に用いるものとすることが確認されている。
セグメンテーション・プーリング手法は更に、評価され、ボーダー効果を削減し、人間の知覚との整合性を有する分類結果を生成するのに効果的な方法であることが実証されている。実験結果は、本発明の例示的実施例において実現される分類システムが約90%の精度特性を再生速度よりも数十倍も処理速度によって備えることを表している。このように分類精度及び処理速度が高いことによって上記オーディオ分類手法を広範囲にわたる別の自律アプリケーションに拡張することが可能になり、この自律アプリケーションは、次に詳細に説明するように、ビデオ索引化並びに解析、自動音声認識、オーディオ視覚化、ビデオ/オーディオ情報検索、及び大規模オーディオ解析システム用前処理などである。
本発明によるメガID話者システムの例示的実施例は図9aに示すが、これはオーディオ・レコーダ・プレイヤ100の高位のブロック図であり、それは効果的にはメガ話者IDシステムを有する。オーディオ・レコーダ・プレイヤ100において利用される構成部分のいくつかは、以下に詳細を記載するように、ソフトウェア装置であることが分かる。更に、オーディオ・レコーダ・プレイヤ100は効果的には、種々のストリーミング・オーディオ・ソースに接続し得ることが分かる;一時期には、米国だけでも2500ものそのようなオーディオ・ソースが稼動していたものである。好ましくは、プロセッサ130はこれらのストリーミング・オーディオ・ソースをI/Oポート132を経由してインターネットから受信する。この時点で、プロセッサ130は効果的にはマイクロプロセッサとディジタル信号プロセッサ(DSP)とのうちの一方であり得ることを述べることとする;例示的な場合には、プロセッサ130は両方の種類のプロセッサを有し得る。別の例示的場合には、プロセッサは種々の解析並びに分類のファンクションをインスタンス化するDSPであり、これらのファンクションは本明細書の上記及び下記に詳細を記載している。プロセッサ130はプロセッサ資源が許す限り、できるだけ多くの仮想チューナ、例えば、TCP/IPチューナ120a乃至120n、をインスタンス化することが図9aから分かる。
なお、インターネットに接続するのに要する実際のハードウェアは、モデム、例えば、アナログ・モデム、ケーブル・モデム、もしくはDSLモデムなど、更には、場合によっては、ネットワーク・インタフェース・カード(NIC)、を有する。そのような通常の装置は、本発明の部分を何ら構成するものでなく、これ以上は説明するものでない。
なお図9aを参照すれば、プロセッサ130は好ましくは、併せてメモリ140を構成するRAM142、NVRAM144、及びROM146に接続される。RAM142はプロセッサ130によってインスタンス化されるプログラム並びにルーチンによって生成されるデータを一時的に記憶できるようにする一方、NVRAM144はメガ話者IDシステムによって得られた結果、すなわち、オーディオ・セグメント分類及び話者情報を示すデータ、を記憶する。ROM146はプログラム及びこれらのプログラムによって用いられる恒久データを記憶する。なお、NVRAM144は効果的には、静的RAM(SRAM)若しくは強磁性RAM(FERAM)などであり得るものである一方、ROM146はSRAM若しくは電気的にプログラム可能なROM(EPROM又はEEPROM)であり得るものであり、それによって、プログラム及び「恒久」データを新たなプログラム・バージョンが利用可能になるにつれ、更新させることが可能になる。代替として、RAM142、NVRAM144、及びROM146の機能は効果的には、本発明において、単一のハード・ドライブ、すなわち、単一のメモリ装置140、として実施し得る。プロセッサ130が複数プロセッサを有し、各プロセッサは効果的には、メモリ装置140を共有するか、めいめいのメモリ装置を有するかの何れかであり得ることが分かる。別の装備、例えば、全てのDSPがメモリ装置140を利用し、全てのマイクロプロセッサがメモリ装置140A(図示せず)を利用するもの、も考えられる。
プロセッサ130によって利用される対象のデータの別のソース、又はユーザからの指示は効果的には、入力装置150を介して備え得ることが分かる。図10に関して以下に詳細に記載するように、本発明の例示的実施例によるメガ話者IDシステム及び相当する方法は、既知の話者IDモデル、例えば、CNNによってそのニュースのアンカーマン、レポータ、頻繁に出演するコメンテータ、及び著名ゲスト用に作成されたモデル、のような別のデータを受信し得る。代替としてか追加として、プロセッサ130は別の情報を受信して話者ID処理を支援し得るものであり、この情報は、名札データ、顔特徴データベースからのデータ、トランスクリプトなどのものである。上記のように、プロセッサは効果的には更に、ユーザから入力を直接受信し得る。この最後の入力は、オーディオ・ソースが図9bに示すシステムから導き出される場合に、特に有用である。
図9bは本発明の別の例示的実施例によるメガ話者IDシステムを有するオーディオ・レコーダ100’の高位のブロック図である。オーディオ・レコーダ100’は好ましくは、単一のオーディオ・ソース、例えば、電話システム150’、に結合され、そのキーパッドは効果的には、会話の両端での話者、に関する識別データを備えるよう利用し得ることが分かる。I/O装置132’、プロセッサ130’、及びメモリ140’は図9aに関して説明したものとかなり同様なものであるが、種々の構成部分のサイズ及び能力は効果的には、当該アプリケーションに合わせて増減させ得る。例えば、通常の電話システムのオーディオ特性を考慮に入れると、プロセッサ130’は図9aに示すオーディオ・レコーダ100において利用されるプロセッサ130よりもずっと遅くかつ安価であるものであり得る。更に、この電話において図1に示すオーディオ・ソースの範囲全域が生起することが見込まれないので、利用される特徴群は効果的には、見込まれるオーディオ・ソース・データを対象とし得る。
なお、オーディオ・レコーダ100及び100’は、効果的には本発明による話者IDシステムを有するが、電話による利用に限定されないものとする。入力装置150、150’は更に、ビデオ・カメラ、ソニー(SONY)社メモリ・スティック・リーダ、ディジタル・ビデオ・レコーダ(DVR)などであり得る。GADを備えることができる、ほとんどどの装置も効果的には、本発明によるメガ話者IDシステムにインタフェースし得るか、本発明によるメガ話者ID方法を実施するソフトウェアを有し得る。
本発明によるメガ話者IDシステム及び相当する方法は、プロセッサ130、130’によってインスタンス化されるファンクション・ブロックによってシステムを規定することによってよく分かるものであり得る。図10に表すように、プロセッサはオーディオのセグメンテーション並びに分類のファンクションF10、特徴抽出ファンクションF12、学習並びにクラスタ化のファンクションF14、照合並びにラベル化のファンクションF16、統計的干渉ファンクションF18、及びデータベース・ファンクションF20をインスタンス化する。これらの「ファンクション」各々が、メガ話者IDシステムと関連したプロセッサによって実行し得る、1つ又は複数のソフトウェア・モジュールを表すことが分かる。
更に、図10から、種々のファンクションが1つ又は複数の所定の入力を受信することが分かる。例えば、新たな入力I10、例えば、GAD、はオーディオ・セグメンテーション並びに分類のファンクションF10に入力される一方、既知の話者IDモデル情報I12は効果的には、特徴抽出ファンクションF12に第2入力として入力し得る(ファンクションF10の出力が第1のものとなる。)。更に、照合並びにラベル化のファンクションF16が効果的には、ユーザ入力I14と別のソース情報I16との何れか又は両方を受信し得る。最後に、データベース・ファンクションF20は好ましくは、ユーザ照会I18を受信する。
オーディオ・レコーダ・プレイヤ100並びに100‘の動作全体を次に、図11を参照しながら説明し、図11は本発明によるメガ話者IDシステムを有するオーディオ・レコーダ・プレイヤを動作させる方法の高位の流れ図である。工程S1000中には、オーディオ・レコーダ・プレイヤ及びメガ話者IDシステムは通電され、初期化される。図9a及び9bに示すオーディオ・レコーダ・プレイヤの何れについても、初期化ルーチンは効果的には、RAM142(142’)を初期化してGADを受け付ける工程を有し得る;更に、プロセッサ130(130’)は両方のソフトウェアをROM146(146‘)から取り出し、既知の話者IDモデル情報112と別のソース情報116とを、何れかの情報の種類が先行してNVRAM144(144’)に記憶されている場合に、読み出すことが可能である。
次に、新たなオーディオ・ソース情報110、例えば、GAD、ラジオ若しくはテレビジョンのチャンネル、電話の会話など、が工程S1002中に得られ、更に、工程S1004中にオーディオのセグメンテーション並びに分類のファンクションF10によって、分類:音声;音楽;無音など;にセグメント化される。ファンクションF10の出力は効果的には、話者ID特徴抽出ファンクションF12に入力される。工程S1006では、ファンクション・ブロックF10によって出力される音声セグメント毎に、特徴抽出ファンクションF12はMFCC係数を抽出し、それを別個のクラスとして(必要な場合、別のラベルを伴って)分類する。なお、特徴抽出ファンクションF12は効果的には、既知の話者IDモデル情報I12、すなわち、MFCC係数パターンを既知の話者又は既知の分類にマッピングする情報、をそのような情報がある場合に利用し得る。モデル情報I12がある場合には、本発明によるメガ話者ID方法の全般的な精度を向上させることが分かる。
工程S1008では、教師なし学習及びクラスタ化のファンクションF14は効果的には、同様なクラスを1つに合体するよう利用し得る。図4a乃至6cに関する上記記載から、ファンクションF14は閾値を利用するものであることが分かり、その閾値は自由に選定可能か、既知の話者IDモデルI12によって選定されるものである。
工程S1010では、照合とラベル化のファンクションのブロックF18が、クラスを視覚化するよう、実行される。照合とラベル化のファンクションF18は別の情報の入力なしで実行し得る一方、照合とラベル化のファンクションの処理は効果的には、ファンクション・ブロック18がテキスト情報I16の別のソース、すなわち、(名札が存在している場合)テキスト検出からのラベルの取得、若しくはトランスクリプトのようなもう1つのソースからの入力、及び/又はユーザ入力情報I14を受信する場合に拡張し得ることが分かり、メガ話者ID方法はユーザに照会して話者IDが正しいことを確認する。
工程S1014では、工程S1010で得られた結果がユーザ評価において正しいか否かを判定するよう検査が行われる。この回答が否定的な場合、工程S1016で、ユーザは効果的には、介入して話者クラスを修正し得るか、閾値を変更し得る。プログラムは更に、工程S1000の最初に飛び越す。工程S1014及びS1016は特定の話者からの特徴に関連したラベルを取得するよう照合調整工程を備えるものであることが分かる。回答が肯定的な場合、図9a並びに9b各々に示すメガ話者IDシステム100及び100‘の好適実施例に関連したデータベース・ファンクションF20が工程S1018で更新され、更に、当該方法はもう一度、工程S1002の最初まで飛び越え、別のGADを取得し、すなわち、当該システムは数日分ものTV番組からの入力を取得し、工程S1002乃至S1018が繰り返される。
なお、データベース・ファンクションF20が初期化されると、ユーザは、工程S1020で、データベースを照会し、工程S1022でその照会の結果を得ることが可能になる。図9aに示す例示的実施例では、照会は入出力装置150を介して入力し得る。図9bに示す例示的場合では、ユーザは照会を構築し得るものであり、ユーザが、電話の受話器を介してその結果、すなわち発声照会、を取得することと、電話のキーパッドとLCDディスプレイ、例えば、いわゆる発信者ID表示装置で、その一部若しくは全てが電話150’に関連するもの、との組み合わせを介して、その結果を取得することとの何れかが行われるものである。
オーディオ分類及び話者IDのシステムから抽出された情報を表すには複数の方法が存在することが分かる。1つの方法はこの情報を単純なリレーショナル・データベース・モデルを用いてモデル化するものである。例示的場合には、複数テーブルを利用するデータベースは効果的には、以下のように利用し得る。
最も重要なテーブルは分類及び日付に関する情報を有する。これについては表2を参照するものとする。表2の属性は、オーディオ(ビデオ)セグメントID、例えばTVエニータイム(TVAnytime)のCRIDの考え方、分類及び日付を有する。各オーディオ・セグメント、例えば、1つの電話の会話若しくは記録された会議、又はビデオ・セグメント、例えば、各TV番組、は表2の行によって表し得る。なお、列は分類を表す、すなわち、N個の分類に対してN行が存在する。各列は特定の分類についての持続時間を表す情報を有する。項目(行)における各構成要素はオーディオ・セグメント毎の特定分類毎の総持続時間を示す。最後の列はそのセグメントの記録の日付、例えば、20020124、を表す。
Figure 2005530214
このリレーショナル・テーブルのキーはCRIDである。別の列を追加し得るものであり、セグメント毎に表2の列を追加し得るものであり、電話の会話の「種類」、例えば、ビジネス若しくは私用、又はTV番組のジャンル、例えば、ニュース、スポーツ、映画、連続ホームコメディなど、のような情報を保持し得るものであることが分かる。更に、別のテーブルは効果的には、CRIDの、特定の部分セグメント、例えば、開始、終了時間、分類、の分類毎の詳細情報を記憶するよう利用し得る。これについては表3を参照するものとする。なお、「部分セグメント」はオーディオ・セグメントにおける同じ分類の一様な、データの小さな塊として定義される。例えば、電話の会話は4つの部分セグメント:最初に話者A、次に無音、そして話者B、更には、話者A;を有する。
Figure 2005530214
上記のように、表2はDuration_Of_Silence、Duration_Of_Music、及びDuration_Of_Speechのような分類に対する列を有する一方、多くの異なる分類を表し得る。例えば、Duration_Of_FathersVoice、Duration_Of_PresidentsVoice、Duration_ Of_Rock、Duration Of_Jazzなどに対する列は効果的には、表2が有し得る。
この種のデータベースを利用することによって、ユーザは分類毎の平均、分類毎の最小値、最大値並びにそれらの位置;番組毎の標準偏差及び各分類;のような情報を取り出し得る。最大値については、ユーザは日付を位置指定し:
どの日に従業員「A」が電話会議の通話を牛耳っていたか;又は
従業員「B」は同じ電話会議で発話したか;
といった照会に回答することが可能である。この情報を用いて、ユーザは別のデータ・マイニング手法を利用し、別々の分類、日付などの間の相関関係を見出すことが可能である。例えば、ユーザは、個人Aが個人Bを最も多く呼び出す日時、などのパターンを見出し得る。更に、個人Bに対する通話に後続する、個人Aに対する通話間の相関関係も見出し得る。
なお、上記記載から、本発明によるメガ話者IDシステム及び相当する方法は、最少では、1つのオーディオ・ソース、例えば、電話、から、最多では、数百ものTV又はオーディオのチャンネル、の入力を取得し、自動的にセグメント化し、取得されたオーディオ、すなわち、GAD、を音声、音楽、無音及びこれらの分類の組み合わせに分類することができることが分かる。メガ話者IDシステム及び相当する方法は更に、セグメント化音声セグメントから自動的に学習し得る。音声セグメントは、未知の話者をラベル化する特徴抽出システムに入力し、ある時点で、ユーザ入力又は、TV局、番組名、顔特徴、トランスクリプト、テキスト・ラベルなどの別の情報ソースに基づいて個人の同一性に対する意味論的曖昧性の解消を行う。
メガ話者IDシステム及び相当する方法は効果的には、西暦2002年にジョージ・W・ブシュ(GeorgeW.Bush)大統領がNBCで発話した時間数は?、大統領の出演の全般的な分布は?、などの統計を備えるのに用い得る。なお、これらの照会に対する回答はユーザに向けて大統領の発話時間のタイムラインとして表し得る。代替として、当該システムがユーザの家庭用電話装置に内蔵されている場合、ユーザは:自分の父親と最近話したのはいつであったか、若しくは西暦2000年に最も長い間話した相手は誰であったか、又はピーターとはこの1ヶ月間に何回話したか;を尋ね得る。
図9bは単一の電話150’を示すが、メガ話者IDシステムを有し、相当する方法によって動作するこの電話システムは単一の電話すなわち加入者回線に限定されなくてよいことが分かる。電話システム、例えば、事業体によって運営される私設構内交換機(PBX)システムはメガ話者IDシステム及び相当する方法を有し得る。例えば、メガ話者IDソフトウェアは、専門家の事務所、例えば、診療所又は会計士事務所、にある電話システムにリンクし得るものであり、専門家の請求システムに、クライアント又は患者に対する通話を自動的に、追跡し得るように、(更には、適宜請求し得るように、)インタフェースし得る。更に、当該システムは、PBXシステムの不適切な利用、例えば、法外に多数の私用通話を行っている従業員など、を監視するよう構成し得る。上記記載から、本発明による、メガ話者識別(ID)システム及び相当する方法、各々、を有するか実現する電話システムは、リアルタイムで、すなわち電話の会話が行われている間に、動作し得ることが分かる。この後者の特徴は効果的には、会話の参加者の一方がユーザ入力を当該システムに備えるか、例えば、ユーザの発信者IDシステム上の相手方の名前が実際の発信者に相当する旨を確認する、ことを可能にすることが分かる。
本発明の本好適実施例を本明細書及び特許請求の範囲に詳細に記載したが、本明細書及び特許請求の範囲に開示された基本的な発明概念の多くの変形及び/又は修正で、当該技術分野における当業者に明らかであり得るもの、はなお、本特許請求の範囲記載の、本発明の趣旨及び範囲内に収まることが明白に分かるものである。
Figure 2005530214
Figure 2005530214
Figure 2005530214
本発明による、話者識別(ID)システム及び相当する方法において利用される7つの分類のうちの6つ(で7番目が無音であるもの)を占める6つの短セグメントの特徴的なセグメント・パターンを表す図である。 本発明による、話者IDシステム及び相当する方法において、全体的又は部分的に、効果的に利用し得る特徴抽出ツールボックスの高位のブロック図である。 本発明による、話者識別(ID)システム及び相当する方法において利用されるオーディオ分類手法の高位のブロック図である。 本発明の特定の特徴を理解するのに有用な、2次元(2D)パーティション化空間を示す図である。 本発明の特定の特徴を理解するのに有用な、相当する判断トリーを示す図である。 本発明の例示的実施例の1つにおいて利用されるポーズ検出方法の動作を示すグラフである。 本発明の例示的実施例の1つにおいて利用されるポーズ検出方法の動作を示すグラフである。 本発明の例示的実施例の1つにおいて利用されるポーズ検出方法の動作を示すグラフである。 本発明の例示的実施例の1つにおいて利用されるポーズ検出方法の動作を示すグラフである。 図5a乃至5dに示す方法の流れ図である。 本発明による例示的実施例の少なくとも1つにおいて利用されるセグメント化方法論を示す図である。 本発明による例示的実施例の少なくとも1つにおいて利用されるセグメント化方法論を示す図である。 本発明による例示的実施例の少なくとも1つにおいて利用されるセグメント化方法論を示す図である。 異なるフレーム分類子の、利用される特徴メトリックに対する、特性を示すグラフである。 上部ウィンドウがオーディオ・データをフレーム毎に簡単化して得られた結果を示す一方、下部ウィンドウが本発明による少なくとも1つの例示的実施例において利用されるセグメンテーション・プーリング手法によって得られた結果を示す、分類結果の画面キャプチャを示す図である。 本発明の2つの例示的実施例によるメガ話者IDシステムの高位のブロック図である。 本発明の2つの例示的実施例によるメガ話者IDシステムの高位のブロック図である。 図9a及び図9bに示したメガ話者IDシステムにおいて利用されるプロセッサによってインスタンス化される種々のファンクション・ブロックを表す高位のブロック図である。 本発明の別の例示的実施例によるメガ話者ID方法の高位の流れ図である。

Claims (26)

  1. 一般オーディオ・データ(GAD)からの話者に帰属するオーディオ信号を識別するメガ話者識別(ID)システムであって:
    該GADをセグメントにセグメント化する手段;
    該セグメント各々をN個のオーディオ信号クラスの1つとして分類する手段;
    該セグメントから特徴を抽出する手段;
    該N個のオーディオ信号クラスの1つのものから別のものに該セグメントを、必要な場合、該抽出特徴に応じて、再分類する手段;
    該セグメントの近くのものをクラスタ化し、該クラスタ化によってクラスタ化セグメントを生成する手段;及び
    各クラスタ化セグメントを話者IDによってラベル化する手段;
    を有することを特徴とするメガ話者識別(ID)システム。
  2. 請求項1記載のメガ話者識別(ID)システムであって、該ラベル化する手段が複数の該クラスタ化セグメンを該話者IDによって、ユーザ入力と別のソース・データとのうちの一方に応じて、ラベル化することを特徴とするメガ話者識別(ID)システム。
  3. 請求項1記載のメガ話者識別(ID)システムであって、コンピュータが該コンピュータの中に有することを特徴とするメガ話者識別(ID)システム。
  4. 請求項1記載のメガ話者識別(ID)システムであって、セットトップ・ボックスが該セットトップ・ボックスの中に有することを特徴とするメガ話者識別(ID)システム。
  5. 請求項1記載のメガ話者識別(ID)システムであって、更に:
    該話者IDを該GADの部分に関係付けるデータベースを記憶するメモリ手段;及び
    該ラベル化する手段の出力を受信して該データベースを更新する手段;
    を有することを特徴とするメガ話者識別(ID)システム。
  6. 請求項5記載のメガ話者識別(ID)システムであって、更に:
    該データベースを照会する手段;及び
    照会結果を備える手段;
    を有することを特徴とするメガ話者識別(ID)システム。
  7. 請求項1記載のメガ話者識別(ID)システムであって、該N個のオーディオ信号クラスが、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音、を有することを特徴とするメガ話者識別(ID)システム。
  8. 請求項1記載のメガ話者識別(ID)システムであって、複数の該抽出特徴がメル周波数ケプストラム係数(MFCC)に基づくものであることを特徴とするメガ話者識別(ID)システム。
  9. 請求項1記載のメガ話者識別(ID)システムであって、電話システムが該電話システム中に有することを特徴とするメガ話者識別(ID)システム。
  10. 請求項9記載のメガ話者識別(ID)システムであって、リアル・タイムで動作することを特徴とするメガ話者識別(ID)システム。
  11. 一般オーディオ・データ(GAD)からの話者を識別するメガ話者識別(ID)方法であって:
    該GADをセグメントにパーティション化する工程;
    該セグメントの各々に対してN個のオーディオ信号クラスの1つに相当するラベルを割り当てる工程;
    前記セグメントから特徴を抽出する工程;
    該N個のオーディオ信号クラスの1つのものから別のものに該セグメントを、必要である場合に、該抽出特徴に応じて、再び割り当て、該再び割り当てることによって分類セグメントを生成する工程;
    該分類セグメントの隣接するものをクラスタ化し、該クラスタ化によってクラスタ化セグメントを生成する工程;及び
    各クラスタ化セグメントを話者IDによってラベル化する工程;
    を有することを特徴とするメガ話者識別(ID)方法。
  12. 請求項11記載のメガ話者識別(ID)方法であって、該ラベル化する工程が複数の該クラスタ化セグメントを該話者IDによって、ユーザ入力と別のソース・データとのうちの一方に応じて、ラベル化することを特徴とするメガ話者識別(ID)方法。
  13. 請求項1記載のメガ話者識別(ID)方法であって、更に:
    該話者IDを該GADの部分に関係付けるデータベースを記憶する工程;及び
    新たなクラスタ化セグメントが話者IDによってラベル化される都度、該データベースを更新する工程;
    を有することを特徴とするメガ話者識別(ID)方法。
  14. 請求項13記載のメガ話者識別(ID)方法であって、更に:
    該データベースを照会する工程;及び
    照会結果をユーザに対して備える工程;
    を有することを特徴とするメガ話者識別(ID)方法。
  15. 請求項11記載のメガ話者識別(ID)方法であって、該N個のオーディオ信号クラスが、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音、を有することを特徴とするメガ話者識別(ID)方法。
  16. 請求項11記載のメガ話者識別(ID)方法であって、複数の該抽出特徴がメル周波数ケプストラム係数(MFCC)に基づくものであることを特徴とするメガ話者識別(ID)方法。
  17. M個のチューナ、解析器、記憶装置、入力装置、及び出力装置を有するメガ話者IDシステム用動作方法であって:
    該M個のチューナを動作させてR個のオーディオ信号をR個のオーディオ・ソースから取得する工程;
    該解析器を動作させて:
    該N個のオーディオ信号をセグメントにパーティション化し;
    該セグメント各々に対してN個のオーディオ信号クラスの1つに相当するラベルを割り当て;
    前記セグメントから特徴を抽出し;
    該N個のオーディオ信号クラスの1つのものから別のものに該セグメントを、必要である場合に、該抽出特徴に応じて、再び割り当て、該再び割り当てることによって分類セグメントを生成し;
    該分類セグメントの隣接するものをクラスタ化し、該クラスタ化によってクラスタ化セグメントを生成し;かつ
    各クラスタ化セグメントを話者IDによってラベル化する、工程;
    該Rオーディオ信号が該信号中に有する該クラスタ化セグメントと、該セグメントに相当する、該記憶装置中の、ラベル、との両方を記憶する工程;及び
    該出力装置を動作させることができる照会結果を、該入力装置を介した照会入力に応じて、生成する工程;
    を有し、M、N、及びRは正の整数であることを特徴とする動作方法。
  18. 請求項17記載の動作方法であって、該N個のオーディオ信号クラスが、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音、を有することを特徴とする動作方法。
  19. 請求項17記載の動作方法であって、複数の該抽出特徴がメル周波数ケプストラム係数(MFCC)に基づくものであることを特徴とする動作方法。
  20. メガ話者識別(ID)システムに関連したプロセッサにファンクションをインスタンス化させるコンピュータ判読可能命令を記憶するメモリであって、該ファンクションが:
    一般オーディオ・データ(GAD)を受信し、セグメントを生成する、オーディオのセグメンテーション並びに分類化のファンクション;
    該セグメントを受信し、該受信セグメントから特徴を抽出する、特徴抽出ファンクション;
    該抽出特徴を受信し、セグメントを、必要な場合、該抽出特徴に基づいて再分類する、学習並びにクラスタ化のファンクション;
    該GAD中の複数音声信号に話者IDを割り当てる、照合並びにラベル化のファンクション;及び
    該割り当て話者IDを該GAD中の該音声信号各々に関連付けるデータベース・ファンクション;
    を有することを特徴とするメモリ。
  21. 請求項20記載のメモリであって、該オーディオのセグメンテーション並びに分類化のファンクションが各セグメントをN個のオーディオ信号クラスのうちの1つに割り当て、該N個のオーディオ信号クラスが、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音、を有することを特徴とするメモリ。
  22. 請求項20記載のメモリであって、複数の該抽出特徴がメル周波数ケプストラム係数(MFCC)に基づくものであることを特徴とするメモリ。
  23. M個のオーディオ信号を受信し、入力装置及び出力装置に、動作するよう結合された、メガ話者IDシステム用の動作方法であって、解析器及び記憶装置を有する該メガ話者IDシステムが:
    該解析器を動作させて:
    M番目のオーディオ信号をセグメントにパーティション化し;
    該セグメント各々に対してN個のオーディオ信号クラスの1つに相当するラベルを割り当て;
    前記セグメントから特徴を抽出し;
    該N個のオーディオ信号クラスの1つのものから別のものに該セグメントを、必要である場合に、該抽出特徴に応じて、再び割り当て、該再び割り当てることによって分類セグメントを生成し;
    該分類セグメントの隣接するものをクラスタ化し、該クラスタ化によってクラスタ化セグメントを生成し;かつ
    各クラスタ化セグメントを話者IDによってラベル化する、工程;
    該オーディオ信号が該信号中に有する該クラスタ化セグメントと、該セグメントに相当する、該記憶装置中の、ラベル、との両方を記憶する工程;
    該M番目のオーディオ信号を、該抽出特徴のうちの少なくとも1つから導き出された統計情報並びに、解析された該M個のオーディオ信号に対する該話者IDと、関係付けるデータベースを生成する工程;及び
    該出力装置を、該入力装置を介した該データベースに対する照会入力に応じて、動作させることができる照会結果を生成する工程;
    を有し、M、N、及びRは正の整数であることを特徴とする動作方法。
  24. 請求項23記載の動作方法であって、該N個のオーディオ信号クラスが、無音、単一話者音声、音楽、環境雑音、複数話者の音声、同時の音声と音楽、及び音声と雑音、を有することを特徴とする動作方法。
  25. 請求項23記載の動作方法であって、該照会結果を生成する工程が更に:
    該データベース中に記憶された特定データに対して実行される計算に相当する照会結果で、該出力装置を動作させることができるもの、を、該入力装置を介した該データベースに対する照会入力に応じて、生成する工程;
    を有することを特徴とする動作方法。
  26. 請求項23記載の動作方法であって、該照会結果を生成する工程が更に:
    M個のオーディオ信号の種類に関する統計、各クラスの持続時間に関する統計、各クラス内の平均持続時間に関する統計、各話者IDに関連した持続時間に関する統計、該データベース中に反映された話者ID全てに対する特定話者IDの持続時間に関する統計、のうちの1つに相当する照会結果を生成する工程;
    を有し;
    該照会結果が該出力装置を、該入力装置を介した該データベースに対する照会入力に応じて、動作させることができるものであることを特徴とする動作方法。
JP2004515125A 2002-06-19 2003-06-04 メガ話者識別(id)システム及びその目的に相当する方法 Pending JP2005530214A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/175,391 US20030236663A1 (en) 2002-06-19 2002-06-19 Mega speaker identification (ID) system and corresponding methods therefor
PCT/IB2003/002429 WO2004001720A1 (en) 2002-06-19 2003-06-04 A mega speaker identification (id) system and corresponding methods therefor

Publications (1)

Publication Number Publication Date
JP2005530214A true JP2005530214A (ja) 2005-10-06

Family

ID=29733855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004515125A Pending JP2005530214A (ja) 2002-06-19 2003-06-04 メガ話者識別(id)システム及びその目的に相当する方法

Country Status (7)

Country Link
US (1) US20030236663A1 (ja)
EP (1) EP1518222A1 (ja)
JP (1) JP2005530214A (ja)
KR (1) KR20050014866A (ja)
CN (1) CN1662956A (ja)
AU (1) AU2003241098A1 (ja)
WO (1) WO2004001720A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020458A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
WO2011145249A1 (ja) * 2010-05-17 2011-11-24 パナソニック株式会社 音声分類装置、方法、プログラム及び集積回路
JP2016090774A (ja) * 2014-11-04 2016-05-23 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
CN106297805A (zh) * 2016-08-02 2017-01-04 电子科技大学 一种基于呼吸特征的说话人识别方法
JP6250852B1 (ja) * 2017-03-16 2017-12-20 ヤフー株式会社 判定プログラム、判定装置及び判定方法
JP2018156627A (ja) * 2017-11-15 2018-10-04 ヤフー株式会社 判定プログラム、判定装置及び判定方法
JP2019020743A (ja) * 2018-10-04 2019-02-07 ソニー株式会社 情報処理装置
JP2021078012A (ja) * 2019-11-08 2021-05-20 株式会社ハロー 留守番電話判定装置、方法及びプログラム
JP2022031932A (ja) * 2018-06-27 2022-02-22 日本電気株式会社 情報処理装置、制御方法、及びプログラム

Families Citing this family (184)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore
US20050091066A1 (en) * 2003-10-28 2005-04-28 Manoj Singhal Classification of speech and music using zero crossing
EP1569200A1 (en) * 2004-02-26 2005-08-31 Sony International (Europe) GmbH Identification of the presence of speech in digital audio data
US20070299671A1 (en) * 2004-03-31 2007-12-27 Ruchika Kapur Method and apparatus for analysing sound- converting sound into information
US8326126B2 (en) * 2004-04-14 2012-12-04 Eric J. Godtland et al. Automatic selection, recording and meaningful labeling of clipped tracks from media without an advance schedule
CA2612903C (en) * 2005-06-20 2015-04-21 Telecom Italia S.P.A. Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
US7937269B2 (en) * 2005-08-22 2011-05-03 International Business Machines Corporation Systems and methods for providing real-time classification of continuous data streams
GB2430073A (en) * 2005-09-08 2007-03-14 Univ East Anglia Analysis and transcription of music
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
KR101082121B1 (ko) 2005-11-10 2011-11-10 멜로디스 코포레이션 비문자기반 정보를 저장하고 검색하는 시스템과 방법
US7813823B2 (en) * 2006-01-17 2010-10-12 Sigmatel, Inc. Computer audio system and method
JP4745094B2 (ja) * 2006-03-20 2011-08-10 富士通株式会社 クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム
JP2007318438A (ja) * 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP5151102B2 (ja) * 2006-09-14 2013-02-27 ヤマハ株式会社 音声認証装置、音声認証方法およびプログラム
US20080140421A1 (en) * 2006-12-07 2008-06-12 Motorola, Inc. Speaker Tracking-Based Automated Action Method and Apparatus
US7613579B2 (en) * 2006-12-15 2009-11-03 The United States Of America As Represented By The Secretary Of The Air Force Generalized harmonicity indicator
US8478587B2 (en) * 2007-03-16 2013-07-02 Panasonic Corporation Voice analysis device, voice analysis method, voice analysis program, and system integration circuit
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101452704B (zh) * 2007-11-29 2011-05-11 中国科学院声学研究所 一种基于信息传递的说话人聚类方法
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8700194B2 (en) 2008-08-26 2014-04-15 Dolby Laboratories Licensing Corporation Robust media fingerprints
US8805686B2 (en) * 2008-10-31 2014-08-12 Soundbound, Inc. Melodis crystal decoder method and device for searching an utterance by accessing a dictionary divided among multiple parallel processors
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
TWI396184B (zh) * 2009-09-17 2013-05-11 Tze Fen Li 一種語音辨認所有語言及用語音輸入單字的方法
ES2334429B2 (es) * 2009-09-24 2011-07-15 Universidad Politécnica de Madrid Sistema y procedimiento de deteccion e identificacion de sonidos en tiempo real producidos por fuentes sonoras especificas.
CN102714034B (zh) * 2009-10-15 2014-06-04 华为技术有限公司 信号处理的方法、装置和系统
US8645134B1 (en) * 2009-11-18 2014-02-04 Google Inc. Generation of timed text using speech-to-text technology and applications thereof
US8560309B2 (en) * 2009-12-29 2013-10-15 Apple Inc. Remote conferencing center
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统
US9311395B2 (en) * 2010-06-10 2016-04-12 Aol Inc. Systems and methods for manipulating electronic content based on speech recognition
CN102347060A (zh) * 2010-08-04 2012-02-08 鸿富锦精密工业(深圳)有限公司 电子记录装置及方法
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
US20130243207A1 (en) * 2010-11-25 2013-09-19 Telefonaktiebolaget L M Ericsson (Publ) Analysis system and method for audio data
CN102479507B (zh) * 2010-11-29 2014-07-02 黎自奋 可辨认任何语言句子的方法
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8719019B2 (en) * 2011-04-25 2014-05-06 Microsoft Corporation Speaker identification
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9160837B2 (en) 2011-06-29 2015-10-13 Gracenote, Inc. Interactive streaming content apparatus, systems and methods
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8768707B2 (en) 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US8879761B2 (en) 2011-11-22 2014-11-04 Apple Inc. Orientation-based audio
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
CN102760434A (zh) 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
US9263060B2 (en) 2012-08-21 2016-02-16 Marian Mason Publishing Company, Llc Artificial neural network based system for classification of the emotional content of digital music
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9123340B2 (en) 2013-03-01 2015-09-01 Google Inc. Detecting the end of a user question
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9123330B1 (en) * 2013-05-01 2015-09-01 Google Inc. Large-scale speaker identification
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
CN104282303B (zh) * 2013-07-09 2019-03-29 威盛电子股份有限公司 利用声纹识别进行语音辨识的方法及其电子装置
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
CN103559882B (zh) * 2013-10-14 2016-08-10 华南理工大学 一种基于说话人分割的会议主持人语音提取方法
CN103594086B (zh) * 2013-10-25 2016-08-17 海菲曼(天津)科技有限公司 语音处理系统、装置及方法
CN104851423B (zh) * 2014-02-19 2021-04-13 联想(北京)有限公司 一种声音信息处理方法及装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
CN106548793A (zh) * 2015-09-16 2017-03-29 中兴通讯股份有限公司 存储和播放音频文件的方法和装置
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105679324B (zh) * 2015-12-29 2019-03-22 福建星网视易信息系统有限公司 一种声纹识别相似度评分的方法和装置
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10141009B2 (en) * 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
CA3179080A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
JP6677796B2 (ja) * 2017-06-13 2020-04-08 ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド 話者照合の方法、装置、及びシステム
CN107452403B (zh) * 2017-09-12 2020-07-07 清华大学 一种说话人标记方法
JP7000757B2 (ja) * 2017-09-13 2022-01-19 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
CN108154588B (zh) * 2017-12-29 2020-11-27 深圳市艾特智能科技有限公司 解锁方法、系统、可读存储介质及智能设备
CN108877783B (zh) * 2018-07-05 2021-08-31 腾讯音乐娱乐科技(深圳)有限公司 确定音频数据的音频类型的方法和装置
KR102179220B1 (ko) * 2018-07-17 2020-11-16 김홍성 음성인식을 이용한 전자성경 시스템
CN110867191B (zh) * 2018-08-28 2024-06-25 洞见未来科技股份有限公司 语音处理方法、信息装置与计算机程序产品
CN110930981A (zh) * 2018-09-20 2020-03-27 深圳市声希科技有限公司 多对一语音转换系统
CN111383659B (zh) * 2018-12-28 2021-03-23 广州市百果园网络科技有限公司 分布式语音监控方法、装置、系统、存储介质和设备
KR102199825B1 (ko) * 2018-12-28 2021-01-08 강원대학교산학협력단 음성 인식 장치 및 방법
CN109960743A (zh) * 2019-01-16 2019-07-02 平安科技(深圳)有限公司 会议内容区分方法、装置、计算机设备及存储介质
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
CN109697982A (zh) * 2019-02-01 2019-04-30 北京清帆科技有限公司 一种讲授场景中的说话人语音识别系统
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) * 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
CN110473552A (zh) * 2019-09-04 2019-11-19 平安科技(深圳)有限公司 语音识别认证方法及系统
CN110910891B (zh) * 2019-11-15 2022-02-22 复旦大学 基于长短时记忆深度神经网络的说话人分段标注方法
CN113129901A (zh) * 2020-01-10 2021-07-16 华为技术有限公司 一种语音处理方法、介质及系统
US11837228B2 (en) 2020-05-08 2023-12-05 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
CN111986655B (zh) 2020-08-18 2022-04-01 北京字节跳动网络技术有限公司 音频内容识别方法、装置、设备和计算机可读介质
US20230419961A1 (en) * 2022-06-27 2023-12-28 The University Of Chicago Analysis of conversational attributes with real time feedback

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3745403B2 (ja) * 1994-04-12 2006-02-15 ゼロックス コーポレイション オーディオデータセグメントのクラスタリング方法
US5606643A (en) * 1994-04-12 1997-02-25 Xerox Corporation Real-time audio recording system for automatic speaker indexing
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US6748356B1 (en) * 2000-06-07 2004-06-08 International Business Machines Corporation Methods and apparatus for identifying unknown speakers using a hierarchical tree structure

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020458A (ja) * 2007-07-13 2009-01-29 Univ Waseda 音声処理装置およびプログラム
WO2011145249A1 (ja) * 2010-05-17 2011-11-24 パナソニック株式会社 音声分類装置、方法、プログラム及び集積回路
JP5578453B2 (ja) * 2010-05-17 2014-08-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声分類装置、方法、プログラム及び集積回路
US8892497B2 (en) 2010-05-17 2014-11-18 Panasonic Intellectual Property Corporation Of America Audio classification by comparison of feature sections and integrated features to known references
JP2016090774A (ja) * 2014-11-04 2016-05-23 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
CN106297805B (zh) * 2016-08-02 2019-07-05 电子科技大学 一种基于呼吸特征的说话人识别方法
CN106297805A (zh) * 2016-08-02 2017-01-04 电子科技大学 一种基于呼吸特征的说话人识别方法
JP6250852B1 (ja) * 2017-03-16 2017-12-20 ヤフー株式会社 判定プログラム、判定装置及び判定方法
JP2018155882A (ja) * 2017-03-16 2018-10-04 ヤフー株式会社 判定プログラム、判定装置及び判定方法
JP2018156627A (ja) * 2017-11-15 2018-10-04 ヤフー株式会社 判定プログラム、判定装置及び判定方法
JP2022031932A (ja) * 2018-06-27 2022-02-22 日本電気株式会社 情報処理装置、制御方法、及びプログラム
JP7287442B2 (ja) 2018-06-27 2023-06-06 日本電気株式会社 情報処理装置、制御方法、及びプログラム
JP2019020743A (ja) * 2018-10-04 2019-02-07 ソニー株式会社 情報処理装置
JP2021078012A (ja) * 2019-11-08 2021-05-20 株式会社ハロー 留守番電話判定装置、方法及びプログラム
JP7304627B2 (ja) 2019-11-08 2023-07-07 株式会社ハロー 留守番電話判定装置、方法及びプログラム

Also Published As

Publication number Publication date
AU2003241098A1 (en) 2004-01-06
CN1662956A (zh) 2005-08-31
EP1518222A1 (en) 2005-03-30
WO2004001720A1 (en) 2003-12-31
KR20050014866A (ko) 2005-02-07
US20030236663A1 (en) 2003-12-25

Similar Documents

Publication Publication Date Title
JP2005530214A (ja) メガ話者識別(id)システム及びその目的に相当する方法
Li et al. Classification of general audio data for content-based retrieval
US11900947B2 (en) Method and system for automatically diarising a sound recording
Nagrani et al. Voxceleb: a large-scale speaker identification dataset
Kim et al. Audio classification based on MPEG-7 spectral basis representations
Harb et al. Gender identification using a general audio classifier
Li et al. Content-based movie analysis and indexing based on audiovisual cues
US11386916B2 (en) Segmentation-based feature extraction for acoustic scene classification
US7263485B2 (en) Robust detection and classification of objects in audio using limited training data
Dhanalakshmi et al. Classification of audio signals using AANN and GMM
JP2005532582A (ja) 音響信号に音響クラスを割り当てる方法及び装置
CN108615532B (zh) 一种应用于声场景的分类方法及装置
Kim et al. Comparison of MPEG-7 audio spectrum projection features and MFCC applied to speaker recognition, sound classification and audio segmentation
US11776532B2 (en) Audio processing apparatus and method for audio scene classification
JPH10187182A (ja) 映像分類方法および装置
Giannakopoulos et al. A novel efficient approach for audio segmentation
US7454337B1 (en) Method of modeling single data class from multi-class data
Benatan et al. Cross-covariance-based features for speech classification in film audio
Harb et al. A general audio classifier based on human perception motivated model
Kim et al. Audio spectrum projection based on several basis decomposition algorithms applied to general sound recognition and audio segmentation
Zubari et al. Speech detection on broadcast audio
Abu et al. Voice-based malay commands recognition by using audio fingerprint method for smart house applications
US11984127B2 (en) Training and using a transcript generation model on a multi-speaker audio stream
US20240257815A1 (en) Training and using a transcript generation model on a multi-speaker audio stream
Maka Change point determination in audio data using auditory features