JP2001092974A - 話者認識方法及びその実行装置並びに音声発生確認方法及び装置 - Google Patents

話者認識方法及びその実行装置並びに音声発生確認方法及び装置

Info

Publication number
JP2001092974A
JP2001092974A JP2000223574A JP2000223574A JP2001092974A JP 2001092974 A JP2001092974 A JP 2001092974A JP 2000223574 A JP2000223574 A JP 2000223574A JP 2000223574 A JP2000223574 A JP 2000223574A JP 2001092974 A JP2001092974 A JP 2001092974A
Authority
JP
Japan
Prior art keywords
video signal
video
audio
processing
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000223574A
Other languages
English (en)
Inventor
Bass Sanker
サンカー・バス
S M Beiji Hamayuun
ハマユーン・エス・エム・ベイジ
Herman Maass Stephen
ステファン・ハーマン・マース
Emmanuel Gisurein Mezon Benoo
ベノー・エマニュエル・ギスレイン・メゾン
Benkaata Netei Charapashii
チャラパシー・ベンカータ・ネティ
William Senna Andrew
アンドリュー・ウィリアム・セナー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2001092974A publication Critical patent/JP2001092974A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/30Individual registration on entry or exit not involving the use of a pass
    • G07C9/32Individual registration on entry or exit not involving the use of a pass in combination with an identity check
    • G07C9/37Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 認識課程の間に、視覚情報を対応する音声情
報と一緒に使用し、音響的な悪化条件下でも話者認識情
度を改善する方法及び装置を提供する。 【解決手段】 ビデオ圧縮ソース2からの信号は、デマ
ルチプレクサ8により、映像・音声データは夫々10及
び12の伸張器を経て、映像は話者顔細分化モジュール
20から視覚的発話フィーチャ抽出器22へ、音声は音
声フィーチャ抽出器14に行く。カメラ4やマイクロフ
ォン6から直接に各抽出器へのデータ授受も可能であ
る。映像(音声)データは顔認識モジュール24(音声
話者認識モジュール16)から信頼度推定ブロック26
(18)を経て識別/確認結合モジュール30でスコア
結合技術を用い話者決定をする。又、抽出器22と14
の入力に基く発声確認モジュール28の出力とからモジ
ュール32で最終決定を下す。なお、決定方法にはフィ
ーチャ結合、再スコア等の他の技法を用いてもよい。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は一般に話者認識に関
し、特に、ビデオ及び音声情報を用いて、任意の内容ビ
デオに関連して、改善された話者認識及び発声確認を提
供する方法及び装置に関する。
【0002】本願は、本願と同時に出願された米国特許
出願(出願人整理番号YO999317)"Methods And
Apparatus for Audio-Visual Speech Detection and R
ecognition"に関連する。
【0003】
【従来の技術】人間は人の様々な属性にもとづいて話者
を識別する。そうした属性には、聴覚的な手がかり、外
観の手がかり、及び振舞い特性(例えば特徴的なそぶ
り、唇の動き)が含まれる。従来、人の識別のためのマ
シン導入は、音声上の手がかりだけ(例えば音声ベース
の話者認識)、視覚的手がかりだけ(例えば顔の識別、
虹彩識別)、または他の生物測定学に関する1つの技術
を重点的に扱ってきた。最近では、研究者は人の識別の
ために、複数のモダリティ(すなわち様相)を結合しつ
つある。例えば、J.Bigun、B.Duc、F.Smeraldi、S.
Fischer及びA.Makarovによる"Multi-modal person aut
hentication"、H.Wechsler、J.Phillips、V.Bruce、
F.Fogelman Soulie、T.Huang(eds.)Face Recognit
ion:From theory to applications、Berlin Springer-
Verlag、1999を参照されたい。
【0004】話者認識は、セキュリティを含む様々なア
プリケーションにとって、また最近ではデジタル化され
たマルチメディア内容(例えばMPEG−2規格に準
拠)の探索及び検索のための指標として、重要な技術で
ある。音響的に悪化した状況(例えば暗騒音など)や、
チャネル不一致(例えば電話)の下では、音声ベースの
話者認識精度は、一層の改善を必要とする。こうした悪
化した状況において改善を図ることは、困難な問題であ
る。
【0005】
【発明が解決しようとする課題】結果的に、音響的な悪
化やチャネル不一致の状況の下で、或いは既存の話者認
識技術を妨げる他の状況において、成功裡に実行される
改善された話者認識を提供する方法及び装置を提供する
ことが大いに望まれる。
【0006】本発明の目的は、任意のビデオ内容に関連
付けられる視覚情報及び音声情報を用いて、改善された
話者認識精度を提供する様々な方法及び装置を提供する
ことにある。話者認識はユーザ登録、ユーザ識別(すな
わちその人が登録済みユーザの誰であるかを見い出
す)、及びユーザ確認(すなわちユーザにより提供され
る身分申し立ての受諾または拒絶)を含み得ることが理
解されよう。更に、本発明の目的は、こうした視覚情報
及び音声情報を用いて、発声確認を実行する方法及び装
置を提供することにある。
【0007】
【課題を解決するための手段】本発明の第1の態様で
は、話者認識を実行する方法が、任意の内容ビデオ・ソ
ースに関連付けられるビデオ信号の処理と、ビデオ信号
に関連付けられる音声信号の処理とを含む。この時、識
別または確認決定が、処理された音声信号及び処理され
たビデオ信号にもとづき下される。決定を下す様々な技
法が使用され、それらにはスコア結合アプローチや、フ
ィーチャ結合アプローチ、或いは再スコアリング・アプ
ローチなどが含まれる。
【0008】以下で詳述するように、話者認識のための
音声ベースの処理と視覚処理との結合は、例えば放送ニ
ュース領域などの音響的に悪化した状況において、精度
を多大に改善する。2つの独立の情報ソースの使用は、
話者認識においてロバスト性の大幅な向上をもたらす。
なぜなら、2つのチャネルにおける信号悪化が相関付け
られないからである。更に、視覚情報の使用は、音響情
報だけにより可能であったよりも、遥かに高速な話者識
別を可能にする。本発明に従い、本発明者はLDC(Li
nguistic Data Consortium)により提供されるTV放送
ニュースのビデオ・データ(例えばCNN及びCSPA
N)に関して、視覚情報にもとづく人認識と、音声情報
にもとづく識別とを融合する様々な方法の結果を示す。
すなわち、本発明者はビデオ・ベースの話者認識と、音
声ベースの話者認識とを融合して、不一致状況における
性能を改善する様々な技術を提供する。好適な実施例で
は、本発明者は音声及びビデオにもとづいて独立の決定
の相対重みを最適に決定し、最善の結合を達成する技術
を提供する。ビデオ放送ニュース・データの実験は、こ
うした結合により音響的に悪化した状況において、著し
い改善が達成されることを示す。
【0009】本発明の第2の態様では、音声発声を確認
する方法が、ビデオ・ソースに関連付けられるビデオ信
号の処理と、ビデオ信号に関連付けられる音声信号の処
理とを含む。この時、処理された音声信号が、処理され
たビデオ信号と比較され、信号間の相関のレベルを決定
する。これは非監視発声確認(unsupervised utterance
verification)と呼ばれる。監視発声確認(supervise
d utterance verification)の実施例では、処理された
ビデオ信号が、ビデオ信号に関連付けられる音声信号を
表すスクリプトと比較されて、信号間の相関のレベルを
決定する。
【0010】もちろん、前述の実施例またはプロセスの
任意の1つが、他の1つ以上の実施例またはプロセスと
結合されて、更に追加の音声認識及び音声検出の改善を
提供し得ることが理解されよう。
【0011】また、ビデオ及び音声信号は、例えばMP
EG−2規格などの圧縮形式であっても良い。信号はラ
イブ・カメラ/マイクロフォン・フィードや、記憶済み
(アーカイバルすなわち記録保管用)フィードからも到
来し得る。更に、ビデオ信号は、可視または非可視(例
えば赤外線または無線周波)波長のイメージを含み得
る。従って、本発明の方法は、不十分な照明若しくは変
化する照明により、或いは光条件無しに実行され得る。
本発明の教示に従い、当業者であれば、本発明の様々な
アプリケーションが考慮できよう。
【0012】
【発明の実施の形態】
【数1】 は、以降ハットXと記載する。
【0013】本発明は話者認識の実施例の状況におい
て、説明される。実施例は、識別及び確認方法の両方を
含む。しかしながら、本発明は特定のアプリケーション
または構造的実施例に限られるものではない。むしろ、
本発明はより一般的には、認識プロセスの間に、視覚情
報を対応する音声情報と一緒に使用することにより、話
者認識精度を改善し、発声確認を提供することが所望さ
れる任意の状況に適用可能である。
【0014】最初に図1を参照すると、本発明の実施例
に従う視聴覚話者認識及び発声確認システムのブロック
が示される。この特定の実施例は、後述のように、決定
融合(decision fusion)アプローチを用いる視聴覚話
者認識を示す。
【0015】本発明のシステムは、様々なソースから入
力信号を受信し得る。すなわち、本発明に従う処理のた
めの入力信号は、リアルタイム(例えばライブ・フィー
ド)・ソースまたはアーカイバル(例えば記憶済み)・
ソースから提供される。任意の内容ビデオ2は、ライブ
・ソースまたはアーカイバル・ソースから受信される入
力信号である。好適には、システムは任意の内容ビデオ
2として、MPEG−2(Moving Picture Expert Grou
p-2)規格などのビデオ規格に従い圧縮されたビデオを
受諾し得る。こうしたケースに適応するために、システ
ムは、圧縮ビデオ信号から圧縮音声信号を分離するビデ
オ・デマルチプレクサ8を含む。ビデオ信号が次にビデ
オ伸長器10において伸長され、音声信号は音声伸長器
12において伸長される。伸長アルゴリズムは標準のM
PEG−2技術であるので、ここではこれ以上触れない
ことにする。いずれの場合にも、他の形式の圧縮ビデオ
も本発明に従い処理され得る。
【0016】本発明が提供する利点の1つは、任意の内
容ビデオを処理する能力である。すなわち、音声認識の
状況において、ビデオ・ソースからの視覚的な手がかり
を利用しようとした従来のシステムは、管理された条件
を有するビデオ、すなわち任意でない内容ビデオを利用
した。すなわち、ビデオ内容は顔だけを含み、そこから
視覚的な手がかりを取り出すことにより、もっぱら無騒
音環境において、短い命令または単語を認識しようとし
た。しかしながら、以下で詳述するように、本発明のシ
ステムは、顔だけでなく騒音環境において任意の背景オ
ブジェクトも含む任意の内容ビデオを処理できる。任意
の内容ビデオの1例は、放送ニュースの状況において見
られる。こうしたビデオはことによると、背景に任意の
活動や騒音が存在する所で話している報道記者を含みう
る。こうしたケースにおいて、後述のように、本発明は
顔を、より詳細には口元及び他の顔のフィーチャを突き
止め追跡することにより、話者をより正確に識別及び確
認するために使用される関連視覚情報を決定することが
できる。
【0017】或いは、本発明のシステムは、ビデオ・カ
メラ4及びマイクロフォン6から、リアルタイムの任意
の内容を直接受信できる。カメラ4から受信されるビデ
オ信号、及びマイクロフォン6から受信される音声信号
は、図1では圧縮されずに示されるが、これらは圧縮さ
れてもよく、その場合、適用される圧縮方式に従い伸長
される必要がある。
【0018】カメラ4により捕獲されるビデオ信号は、
必ずしも特定のタイプである必要はない。すなわち、本
発明の顔の検出及び認識技術は、例えば可視または非可
視電磁スペクトル・イメージなどの任意の波長のイメー
ジを処理し得る。例えば、これは赤外線(IR)イメー
ジ(例えば近距離場、中距離場、及び遠距離場IRビデ
オ)及び無線周波(RF)イメージを含み得る。従っ
て、システムは不十分な照明条件、変化する照明条件、
または光の無い環境において、視聴覚話者認識及び発声
確認技術を実行し得る。例えば、システムは自動車また
は他の型式の車両に導入されて、IRイメージを捕獲す
ることができ、それにより改善された話者認識が実行さ
れ得る。音声情報だけを使用する従来の話者認識システ
ムは、騒音状態により妨害されたが、本発明に従う話者
認識プロセスでは、ビデオ情報(すなわち可視及び非可
視電磁スペクトル・イメージを含む)が使用されるの
で、システムは騒音状態による認識誤りを受けにくい。
更に、Francine J.Prokoski及びRobert R.Riedelによ
る"Infrared Identification of Faces and Body Part
s"、BIOMETRICS、Personal Identification in Network
ed Society、Kluwer Academic Publishers、1999で開示
されるように、赤外線カメラは、個人を比類無く非常に
特徴付ける追加の非常にロバストな生物測定学的フィー
チャを導入する。
【0019】ローマ数字Iにより示される破線は、音声
情報信号がシステム内で伝わる処理経路を表し、ローマ
数字IIにより示される破線は、ビデオ情報信号がシス
テム内で伝わる処理経路を表す。最初に、音声信号経路
Iについて、次にビデオ信号経路IIについて述べ、最
後に、2つのタイプの情報が結合されて、改善された話
者認識精度を提供する様子について述べることにする。
【0020】システムは音声フィーチャ抽出器14を含
む。音声フィーチャ抽出器14は音声信号を受信し、既
知のように、信号から一定間隔でスペクトル・フィーチ
ャを抽出する。スペクトル・フィーチャは音響フィーチ
ャ・ベクトル(信号)の形式であり、これは次に音声話
者認識モジュール16に渡される。前述のように、音声
信号はビデオ信号のソースに応じて、音声伸長器12か
ら受信されるか、或いは直接マイクロフォン6から受信
される。音響ベクトルが抽出される前に、音声信号は1
6kHzのサンプリング・レートでサンプリングされ得
る。フレームは、25ミリ秒の期間を有する音声のセグ
メントを含み得る。こうした構成では、抽出プロセスは
好適には、後述のプロセスを介して、24次元音響ケプ
ストラム・ベクトルを生成する。フレームは10ミリ秒
ごとに進行されて、続く音響ベクトルを獲得する。
【0021】最初に、好適な音響フィーチャ抽出プロセ
スに従い、フレーム内の音声データのサンプルの離散フ
ーリエ変換の振幅が、対数的に歪曲した周波数目盛りに
おいて考慮される。次に、これらの振幅値自体が対数目
盛りに変換される。後者の2ステップは、周波数及び振
幅に対する人の聴覚の対数感度により、動機付けされ
る。続いて、離散コサイン変換形式の回転が適用され
る。動力学を捕獲する1方法は、デルタ(1次差分)及
びデルタ−デルタ(2次差分)情報を使用する。動力学
情報を捕獲する別の方法は、考慮対象のベクトルに前後
のベクトルのセット(例えば4つ)を追加し、次にベク
トルを最も大きな差異を有するとして選択された低次元
空間に投影する。後者のプロシージャは、線形判別分析
(Linear Discriminant Analysis(LDA))として知
られ、公知である。例えばLPCケプストラムやPLP
などのフィーチャの他の変形も使用され得て、本発明は
任意の特定のタイプに制限されるものでないことが理解
されよう。
【0022】図1に文字Aにより示される音響フィーチ
ャ・ベクトルが抽出された後、それらは音声話者認識モ
ジュール16に提供される。このモジュール16は、抽
出された音響フィーチャ・ベクトルを用いて、話者認識
及び話者確認を実行することが理解されよう。話者識別
及び確認のプロセスは、従来の音響情報話者認識システ
ムを介して達成され得る。例えば、話者認識モジュール
16は、1997年1月28日付けの米国特許出願第7
88471号"Text Independent Speaker Recognition
for Transparent Command Ambiguity Resolution and C
ontinuous Access Control"で述べられる認識技術を実
現し得る。
【0023】モジュール16において使用される典型的
な話者認識プロセスについて、次に述べる。典型的なシ
ステムが、H.Beigi、S.H.Maes、U.V.Chaudari及び
J.S.Sorensonにより、"IBM model-based and frame-b
y-frame speaker recognition"、Speaker Recognition
and its Commercial and Forensic Applications、Avig
non、France 1998で開示されている。典型的な話者識別
システムは、2つの技術、すなわちモデル・ベースのア
プローチ及びフレーム・ベースのアプローチを使用す
る。ここで述べる実験では、音声にもとづく話者識別に
おいて、フレーム・ベースのアプローチを使用する。フ
レーム・ベースのアプローチは、次のように述べられ
る。
【0024】Miをi番目の登録済み話者に対応するモ
デルとする。Miは、パラメータ・セット{μi,j、Σ
i,j、pi,jj=1、..、niにより定義される混合ガウス・
モデルにより表され、話者iのモデルの各ni要素の平
均ベクトル、分散行列、及び混合重みを含む。これらの
モデルは、d次元ケプストラム・フィーチャ・ベクトル
を有する音声のK個のフレームのシーケンス{fm
m=1、..、Kから成る、トレーニング・データを用いて作成
される。話者識別の目標は、N個のフレームのシーケン
ス{fnn=1、..、Nにより表されるテスト・データを最
も良く説明するモデルMを見い出すことである。ここで
は、次のフレーム・ベースの重み付けされた尤度距離指
標di、nを使用して、決定を下す。
【数2】
【0025】テスト・データからのモデルMiの総距離
iは、全てのテスト・フレームに渡る距離の合計とし
て算出される。
【数3】
【0026】従って、前記のアプローチは、最も近い適
合モデルを見い出し、そのモデルが表す人は、発声が処
理されている人と決定される。
【0027】話者確認は同様に実行され得るが、データ
が記憶済みモデルと十分に一致するか否かを判断するた
めに、入力音響データが比較される。比較の結果、十分
な一致が見い出される場合、音声を発声している人が確
認される。一致は、一致を競合モデルと比較することに
より、受諾または拒絶される。これらのモデルは主張者
の話者と同様に、または話者独立に選択される(すなわ
ち単一の話者独立モデルまたはそれらのセット)。主張
者が勝利し、十分な余裕を持って勝利する場合、主張者
を受諾する(ここで余裕はモデルに対する尤度レベルま
たは距離にて計算される)。それ以外では、主張者は拒
絶される。登録において、話者の入力音声が収集され、
各話者を特徴付ける混合ガウス・モデルMiを作成す
る。
【0028】図1のビデオ経路IIを参照しながら、本
発明に従い視覚情報を処理する方法について説明する。
本発明の視聴覚話者認識及び発声確認システムは、活動
話者の顔の細分化モジュール20、及び顔認識モジュー
ル24を含む。活動話者の顔の細分化モジュール20
は、例えば前述のビデオ伸長器10やカメラ4などの、
1つ以上のソースからビデオ入力を受信する。ここで話
者の顔検出は、圧縮データ領域において直接実行された
り、単にビデオ情報からではなく、音声及びビデオ情報
から実行され得る。いずれの場合にも、細分化モジュー
ル20は一般に、任意のビデオ背景内において、話者の
顔や顔のフィーチャを突き止め、追跡する。これについ
ては以下で詳述する。細分化モジュール20から提供さ
れるデータから、識別及び確認操作が認識モジュール2
4により実行され、ビデオ内の話者と思われる人の顔を
識別及び確認する。確認はまた、スコアしきい値または
競合モデルを追加することにより、実行され得る。従っ
て、話者識別の視覚モードは、顔認識システムとして実
現され、そこではビデオ・シーケンス内で顔が見い出さ
れて追跡され、候補の顔のテンプレートのデータベース
との比較により認識される。以下で述べるように、発声
確認は、ある人がその人を認識するために使用される音
声を実際に発声したことを確認する技術を提供する。
【0029】顔検出及び認識は、様々な方法で実行され
得る。例えば、赤外線カメラ4を使用する実施例では、
顔検出及び識別は、Francine J. Prokoski及びRobert
R.Riedelによる"Infrared Identification of Faces a
nd Body Parts"、BIOMETRICS、Personal Identificatio
n in Networked Society、Kluwer Academic Publisher
s、1999で開示されるように実行される。好適な実施例
では、Andrew Seniorによる"Face and feature finding
for face recognition system"、2nd Int.Conf.on A
udio-Video based Biometric Person Authentication、
Washington DC、March 1999で述べられる技術が使用さ
れる。以下では、細分化モジュール20及び認識モジュ
ール24によりそれぞれ実行される、顔検出及び認識に
ついて述べることにする。
【0030】顔検出:顔はビデオ・フレーム内におい
て、様々な尺度、位置及び方向で発生する。このシステ
ムでは、顔が垂直位に近く、66画素の高さよりも小さ
な顔が存在しないと仮定する。しかしながら、顔を残り
の全ての位置及び尺度においてテストするために、シス
テムはイメージ・ピラミッド内で固定サイズのテンプレ
ートを探索する。イメージ・ピラミッドは、オリジナル
・イメージを繰り返しダウン・サンプリングすることに
より、オリジナル・フレームの次第に低下する解像度表
現を提供することにより構成される。これらのサブ・イ
メージの各々内において、同一サイズの全ての正方領域
は、候補の顔位置としての顔テンプレート(通常11×
11画素)と見なすことにする。領域が顔を含むか否か
をテストするために一連のテストが使用される。
【0031】最初に、領域は皮膚の色調の画素を高い割
合で含まねばならず、次に候補領域の輝度が、トレーニ
ング済みの顔モデルと比較される。色相−色度−輝度空
間の予め定義された直方体(cuboid)が皮膚の色調と見
なされ、候補領域が更に検討されるためには、皮膚の色
調の画素の割合がしきい値を超えなければならない。
【0032】顔モデルは、クロップ(crop)され、正規
化されたグレースケールの顔イメージのトレーニング・
セットにもとづく。これらの顔の統計が収集され、様々
な分類器(classifier)がこれらの統計にもとづきトレ
ーニングされる。線形プログラムによりトレーニングさ
れたフィッシャ線形判別(Fisher linear discriminant
(FLD))が、顔と背景イメージとを区別するために
見い出され、第1の方法により高スコアが得られると、
M.Turk及びA.Pentlandにより"Eigenfaces for Recogn
ition"、Journal of Cognitive Neuro Science、vol.
3、no.1、pp.71-86、1991で述べられるように、"顔ス
ペースからの距離(Distance from facespace(DFF
S))"が、顔の画質にスコアを付けるために使用され
る。これらの両方の顔検出器からの高い結合スコアは、
候補領域が実際に顔であることを示す。高スコアの顔候
補に対して、尺度、位置及び回転の小さな摂動(pertur
bation)を有する候補顔領域もまたテストされ、摂動の
間の最大スコアリング候補が選択されて、これらの3つ
のパラメータの洗練された推定値を提供する。
【0033】続くフレームにおいて、新たな顔の位置を
予測するために、速度推定値を用いて顔が追跡され、類
似の尺度及び回転を有する予測位置の近傍の候補領域に
おいて、モデルを用いて顔が探索される。低いスコアは
追跡の失敗と解釈され、アルゴリズムは網羅的な探索に
より再度開始する。
【0034】顔認識:顔を見い出すと、K個の顔のフィ
ーチャが、顔検出のために使用されたのと同一の技術
(FLD及びDFFS)を用いて突き止められる。フィ
ーチャは階層アプローチを用いて見い出され、そこでは
目、鼻及び口などの大縮尺のフィーチャが最初に見い出
され、次にこれらのフィーチャに比較して、サブフィー
チャが見い出される。29もの数のサブフィーチャが使
用され、それらには生えぎわ、顎、耳、口角、鼻、目及
び眉毛が含まれる。従来の統計が、顔及びフィーチャ位
置に対して、それぞれ各フィーチャ及びサブフィーチャ
の探索領域を制限するために使用される。推定されたサ
ブフィーチャ位置の各々において、L.Wiskott及びC.v
on der Malsburgによる"Recognizing Faces by Dynamic
Link Matching"、Proceedings of the International
Conference on Artificial Neural Networks、pp.347-
352、1995で述べられるガボール・ジェット(Gabor Je
t)表現が生成される。ガボール・ジェットは2次元ガ
ボール・フィルタのセットであり、各々はガウスにより
変調される正弦波である。各フィルタは、尺度(正弦波
長及び固定比率のガウス標準偏差)及び(正弦波の)方
向を有する。ここでは5つの尺度及び8つの方向を使用
する。従って、各フィーチャ位置において、40の複素
係数(a(j)、j=1、..、40)が与えられる。
【0035】トレーニング済みの顔のフィーチャ・ベク
トルと、テスト候補との間の距離を計算するために、単
純な距離測定基準(distance metric)が使用される。
フィーチャkについて、i番目のトレーニング済み候補
とテスト候補との間の距離は、次のように定義される。
【数4】
【0036】これらの類似式の単純平均、すなわち
【数5】
【0037】は、テスト顔とデータベース内の顔テンプ
レートとの類似度の全体指標を与える。従って、類似度
指標にもとづき、検討中のビデオ・シーケンス内の人の
識別及び確認が実行される。
【0038】次に、顔認識モジュール24及び音声話者
認識モジュール16の結果が、それぞれ信頼度推定ブロ
ック26及び18に提供され、そこで信頼度推定が実行
される。信頼度推定は、認識された入力に関して決定さ
れる尤度または他の信頼度指標を指し示す。1実施例で
は、信頼度推定プロシージャは、音声信号及びビデオ信
号にそれぞれ関連付けられる雑音レベルの測定を含む。
これらのレベルはシステムの内部において、または外部
において測定される。信号に関連付けられる高レベルの
雑音は、一般に、その信号に関連付けられる認識結果に
帰属する信頼度が低いことを意味する。従って、これら
の信頼度指標は、後述の視覚及び音響結果の重み付けの
間に考慮される。
【0039】それぞれのモジュール16及び24により
提供される、音声ベースの話者認識スコア及び顔認識ス
コアが与えられると、視聴覚話者識別/確認は、識別/
確認結合モジュール30により、次のように実行され
る。上位のNスコアは、音声及びビデオ・ベースの両方
の識別技術にもとづき生成される。2つのリストが重み
付け合計により結合され、最大スコアリング候補が選択
される。重みはスケーリング・ファクタまで定義されれ
ばよいので、ここでは結合スコアSi avを、単一パラメ
ータαの関数として、次のように定義する。
【数6】
【0040】混合角(mixture angle)αは、音声識別
及び顔識別の相対信頼度に従い選択されなければならな
い。これを達成する1方法は、特定のトレーニング・デ
ータの視聴覚精度を最大化するように、αを最適化する
ことである。ここでDi(n)及びSi(n)により、i
番目の登録話者(i=1...P)に対して、n番目の
トレーニング・クリップにおいて計算された音声ID
(識別)及びビデオIDスコアを表すものとする。n番
目のクリップがi番目の話者に属するとき、変数T
i(n)を0と定義し、それ以外では1と定義する。最
小化される費用関数は、N.V.Vapnikによる"The Natur
e of Statistical Learning Theory"、Springer、1995
で述べられるように、経験誤差(empirical error)で
あり、これは次のように表される。
【数7】
【0041】ここでSi av(n)は次のようである。
【数8】
【0042】ここでオーバ・フィッティングを防止する
ために、H.Neyによる"On the Probabilistic Interpre
tation of Neural Network Classification and Discri
minative Training Criteria"、IEEE Transactions on
Pattern Analysis and Machine Intelligence、Vol.1
7、no.2、pp.107-119、1995で述べられるように、次
式で定義される平滑化された誤り率に頼ることができ
る。
【数9】
【0043】ここでηが大きいとき、i=ハットi(以
下、^記号はハットと記す)を除き、内側の総和の全て
の項は0に近づき、C'(α)は生の誤り件数C(α)
に近づく。そうでない場合、全ての不正な仮説(T
i(n)=1に対する仮説)が、それらのスコアと最大
スコアとの間の距離の減少関数として寄与する。最善の
仮説が不正の場合、それが最も大きな寄与を有する。従
って、後者の費用関数を最小化することにより、トレー
ニング・データの認識精度だけでなく、最善のスコアが
勝利する余裕も最大化する傾向がある。この関数はま
た、微分可能な利点を提供し、2つ以上のパラメータが
存在するとき、最適化プロセスを容易にする。
【0044】本発明は、従来技術により導出される別の
決定またはスコア融合技術を提供するが、トレーニング
を必要としない。この技術は、テスト時に各クリップに
対して、αの値を最高のスコアと2番目に高いスコアと
の差を最大化する所与の範囲内で選択する。対応する最
善の仮説I(n)が次に選択され、次式が得られる。
【数10】
【0045】及び
【数11】
【0046】α1及びα2の値は、インタバル[0...
Π/2]に制限されるべきである。この技術の理論的根
拠は次のようである。{Di、Si}平面において、正し
い決定に対応するポイントは、他のポイントから離れて
存在すると期待される。固定の線形重みは、このポイン
トが他のポイントに対して見い出される"方向"が、常に
同一であると仮定するが、これは必ずしも正しくない。
前記のハットα(n)及びI(n)に関する式は、α1
とα2との間の任意の方向において、他のポイントから
最も遠く離れたポイントを見い出す。
【0047】別の解釈は、最善の結合スコアと次善のス
コアとの間の距離が、決定の信頼度の標識であるとす
る。提案される方法は、信頼度指標を最大化する重みを
適応的に選択する。
【0048】従って、識別/確認結合モジュール30
は、話者に関する決定を下す。確認過程では、前述の技
術の1つにもとづき、音響経路及び視覚経路の両方を介
して、話者が確認される場合、話者を受諾する決定が下
される。しかしながら、話者が一方の経路においてのみ
確認される場合、話者は拒絶される。識別過程において
は、例えば、顔識別プロセスからの上位の3つのスコア
が、音響話者識別プロセスからの上位の3つのスコアと
結合される。次に、最も高い結合スコアが話者として識
別される。
【0049】好適な実施例では、システムが話者に関す
る最終処置を下す前に、システムは発声確認操作を実行
する。発声確認は、音響フィーチャ抽出器14及び視覚
的発話フィーチャ抽出器22からの入力にもとづき、発
声確認モジュール28(図1)により実行される。発声
確認について述べる前に、視覚的発話フィーチャ・ベク
トルを抽出する技術について述べることにする。特に、
視覚的発話フィーチャ抽出器22は、活動話者の顔の細
分化モジュール20によりビデオ・フレーム内で検出さ
れる顔から、図1において文字Vとして示される視覚的
発話フィーチャ・ベクトル(例えば口または唇に関連す
るパラメータ)を抽出する。
【0050】抽出され得る視覚的発話フィーチャの例に
は、口元領域のグレースケール・パラメータや、口元領
域の面積、高さ、幅などの幾何学/モデル・ベースのパ
ラメータや、内側/外側の輪郭のスプライン・パラメー
タを曲線近似することにより到達する唇の輪郭や、3次
元追跡により獲得される動きパラメータなどが含まれ
る。モジュール22を介して抽出される更に別のフィー
チャ・セットも、前記ファクタを考慮に入れる。こうし
た技術は、アクティブ・シェイプ・モデリングとして知
られ、Iain Matthewsによる"Features for audio visua
l speech recognition"、Ph.D dissertation、School
of Infomation Systems、University of East Angali
a、January 1998で述べられている。
【0051】視覚的発話フィーチャ抽出器22は、1つ
以上の既知の視覚フィーチャ抽出技術を実現し得るが、
1実施例では、抽出器はイメージの口元領域に関連付け
られるグレースケール・パラメータを抽出する。尺度及
び回転の正規化の後、唇の角部の位置が与えられると、
矩形の中心部に唇領域を含む矩形領域が、オリジナルの
伸長されたビデオ・フレームから抽出される。既知のよ
うに、主成分分析(Principal Component Analysis)
が、グレースケール値のこのベクトルから、小さな次元
のベクトルを抽出するために使用され得る。
【0052】モジュール22内で実現され得る視覚フィ
ーチャ・ベクトルを抽出する別の方法は、幾何学的フィ
ーチャを抽出する。これは唇の輪郭の幾何形状及びその
時間動力学から、音素またはバイセム情報(visemic in
fomation)を抽出する。典型的なパラメータは、口の角
部、開きの高さまたは面積、内側及び外側の唇の曲率で
ある。例えば歯や舌などの調音器官の位置も、カメラに
より認識できる点で、フィーチャ・パラメータとなり得
る。
【0053】グレースケール値からのこれらのパラメー
タの抽出方法は、パラメータ値に関連付けられる唇の輪
郭と、グレースケール・イメージとの間の不一致を示す
関数(例えば費用関数)の最小化を含み得る。また、こ
れらのパラメータの抽出において、色情報も使用され得
る。
【0054】捕獲(または逆多重化及び伸長)されたビ
デオ・ストリームから、境界検出を実行し、その究極の
結果がパラメータ化された輪郭、例えば円、放物線、楕
円、またはより一般的にはスプライン曲線である。これ
らの各々は、パラメータの有限セットにより記述され
る。
【0055】抽出され得る更に他のフィーチャには、動
画のためにコンピュータ・グラフィックスにおいて使用
されるタイプの、2次元または3次元ワイヤ・フレーム
・モデル・ベースの技術が含まれる。ワイヤ・フレーム
は非常に多数の三角形パッチから構成され得る。これら
のパッチは一緒に、口/唇/顎領域の構造表現を提供
し、各々は読話における有用なフィーチャを含む。これ
らのパラメータはまた、イメージのグレースケール値と
一緒に使用されて、両方の技法の相対的な利点を得るよ
うにする。
【0056】抽出器22から抽出された視覚的発話フィ
ーチャ・ベクトル(V)、及び抽出器14からの音響フ
ィーチャ・ベクトル(A)が与えられると、AV発声検
証器28が確認を実行する。確認は、例えば音声をバイ
セム(viseme)のランダム・シーケンスに整列する結果
の尤度の比較を含み得る。既知のように、バイセムまた
は視覚音素(visual phonemes)は、音響音素と類似に
分類され、事前に記憶される音声発声を伴う、一般に規
範的な口形状である。発声確認に関連付けられる目標
は、音声経路Iにおいて話者を確認するために使用され
る音声と、ビデオ経路IIにおいて話者を確認するため
に使用される視覚的手がかりとが、相関または整合する
と決定することである。これはシステムが、話者を認識
するために使用される音声データが、実際に話者が発声
したものであることを確かめることを可能にする。こう
した決定は、多くの利点を有する。例えば、発声確認か
ら、ユーザが記録済みのテープ再生に口合わせして、シ
ステムを騙そうとしているか否かを決定できる。また、
発声確認から、音声復号経路内の誤りが検出され得る。
誤りの数に応じて、信頼度指標が生成され、システムに
より使用され得る。
【0057】図2を参照すると、本発明の実施例に従う
発声確認方法のフロー図が示される。発声確認は、i)
監視モード、すなわちテキスト(スクリプト)が知れて
おり、システムにとって使用可能なときのモードと、i
i)非監視モード、すなわちテキスト(スクリプト)が
知れておらず、システムにとって使用可能でないときの
モードにおいて実行される。
【0058】ステップ202A(非監視モード)で、確
認されるべき発声音声が、古典的音声認識技術により復
号化され、復号化スクリプト及び関連する時間合わせが
使用可能になる。これは音響フィーチャ抽出器14から
のフィーチャ・データを用いて達成される。同時に、ス
テップ204で、視覚フィーチャ抽出器22からの視覚
的発話フィーチャ・ベクトルが、視覚音素またはバイセ
ム・シーケンスを生成するために使用される。
【0059】次にステップ206で、復号化スクリプト
がバイセムと整合される。2つの情報ストリームを同期
するために、迅速な(または他の)整合が、従来通り実
行される。例えば、1実施例では、米国特許出願第01
5150号(出願人整理番号YO997386)"Appar
atus and Method for Generating Phonetic Transcript
ion from Enrollment Utterances"で開示される迅速な
整合が採用される。一方、監視モードでは、ステップ2
02Bがステップ202Aを置換し、ステップ206
で、復号化バージョンのスクリプトではなく、期待され
るまたは既知のスクリプトがバイセムと整合される。次
にステップ208で、整合の尤度が計算されて、スクリ
プトが視覚データにどの程度良く整合するかを決定す
る。次に、尤度の結果が決定ブロック32(図1)に提
供されて、これがスコア・モジュール30の結果と共
に、話者の最終処置、すなわち話者を受諾するか拒絶す
るかを決定する。これは様々な装置、アプリケーショ
ン、施設などへのアクセスを許可または拒絶するために
使用され得る。
【0060】従って、非監視発声確認モードでは、シス
テムは、ユーザが再生装置を使用して、自分の唇を動か
しているのではなく、実際に話していることをチェック
できる。また、先験的に誤りが音声復号化において検出
され得る。監視モードでは、認識されたテキストが抽出
された唇パラメータに十分に整合または相関付けられる
場合、システムはユーザがテキストを発声したことを証
明できる。
【0061】非監視モードにおける発声確認は、本願と
同時に出願された米国特許出願(出願人整理番号YO9
99317)"Method and Apparatus for Audio-Visual
Speech Detection and Recognition"で開示されるよう
に、音声検出を実行するために使用され得る。実際、音
響及び視覚活動が検出される場合、それらが互いに確認
される。結果の音響発声が受諾されるとき、システムは
音声が検出されたものと見なす。それ以外では、無関係
な活動が存在すると見なされる。
【0062】図3を参照すると、視聴覚話者認識及び発
声確認システムの別の実施例が示される。図1の実施例
は、決定またはスコア融合アプローチを示したが、図3
の実施例は、フィーチャ融合アプローチを示す。図3の
システムの動作は、図1に関連して前述した動作と実質
的に同一であるが、図3の実施例は、結合されたAVフ
ィーチャ・ベクトルに対して、識別/確認決定を下す追
加の利点を有する。フィーチャ融合アプローチによれ
ば、音響フィーチャ抽出器14からの音響フィーチャ
(例えばメル・ケプストラム及び導関数)と、顔細分化
モジュール20から検出された視覚的な顔のフィーチャ
(例えば主方向に関する顔の分解または顔の形態学パラ
メータ)とを結合する、1つのフィーチャ・ベクトルが
生成される。
【0063】これらのフィーチャは次に結合されて、1
つの視聴覚フィーチャ・ベクトルを形成する。この結合
を実行する多くの方法が存在する。1方法は、音声フィ
ーチャ・データと視覚フィーチャ・データとを連結す
る。しかしながら、MPEG−2伸長ビデオは毎秒30
フレームを生成するのに対して、音声フレームは約10
ミリ秒の間隔をあけられるので、フィーチャ間の同期が
必要となる。音声領域における、より大きなフレーム・
レートに対する要求は、隣接ビデオ・フレームからの補
間により、人口フレームを生成することにより満足され
る。従来の異なる補間技術がこの目的のために使用され
得る。それらには例えば、その時刻の直前及び直後のフ
レームからの線形補間や、他の多項式補間技術などがあ
り、後者は例えば、音声フレームが発生する時刻の過去
及び将来において、2つ以上のフレームを考慮する。
【0064】図1のモジュール32に関連して前述した
ような決定操作は、視聴覚結合フィーチャ・ベクトルに
対して実行される。図示のように、発声確認は最終決定
ブロック32においても適用され得る。
【0065】図4及び図5を参照すると、視聴覚話者認
識システムの別の実施例が示される。これらの実施例は
再スコアリング・アプローチを示す。図4及び図5のシ
ステムの動作は、図1に関連して前述した動作と実質的
に同一であるが、図4及び図5の実施例は、ビデオ情報
及び音声情報を直列に用いて、他方を再スコアリングす
る追加の利点を有する。図4では、音声話者認識器16
の結果が顔認識器24に提供されて、顔認識操作におい
て使用される。図5では、顔認識器24の結果が音声話
者認識器16に提供されて、音声話者認識操作において
使用される。いずれの実施例でも、1モダリティで実行
される確認/識別プロセスは、他のモダリティで実行さ
れる確認/識別プロセスを変更するために使用される。
この時、1つの信頼度推定及び決定が下される。例えば
音声ストリームに由来する認識プロセスの1つの結果
は、例えば、ビデオ・ストリーム内で考慮される候補を
狭めるために使用され得る。更に別の例では、ビデオ・
ストリームが、話者のように見える人たちの競合モデル
を生成し、これらの人たちだけにもとづいて、話者が音
響的に識別または確認される。本発明の教示を参考にし
て、当業者は他の実施例を考案できよう。
【0066】図1及び図3乃至図5に示される本発明の
システムは、ユーザ登録を実行し得る。システムは既知
の登録技術を使用し得る。音響情報の登録のために、話
者の入力音声が収集されて、各話者を特徴付ける混合ガ
ウス・モデルMiが作成される。顔情報の登録のため
に、Andrew Seniorによる"Face and feature finding f
or face recognition system"、2nd Int.Conf.on Aud
io-Video based Biometric Person Authentication、Wa
shington DC、March 1999で開示される技術が採用され
得る。また、赤外線イメージの登録のために、Francine
J.Prokoski及びRobert R.Riedelによる"Infrared Id
entification of Faces and Body Parts"、BIOMETRIC
S、Personal Identification in Networked Society、K
luwer Academic Publishers、1999で開示される技術が
採用され得る。結果の生物測定は、各モダリティにおけ
る異なる生物測定の結合である(ことによると、フィー
チャ融合アプローチとして結合され、余分な回転及び線
形判別分析(LDA)が結合フィーチャに適用され
る)。
【0067】図6を参照すると、本発明に従う視聴覚話
者認識及び発声確認システムのハードウェア実施例のブ
ロック図が示される。この特定の実施例では、プロセッ
サ602がメモリ604及びユーザ・インタフェース6
06に接続されて、図1及び図3乃至図5に示される本
発明のシステムに関連付けられる様々な操作を制御及び
実行する。ここで用語"プロセッサ"は、例えばCPU
(中央処理ユニット)を含む装置など、任意の処理装置
を含むように意図される。例えば、プロセッサは既知の
デジタル信号プロセッサである。用語"プロセッサ"はま
た、2つ以上の個々のプロセッサを指し示し得る。用
語"メモリ"は、ここではプロセッサまたはCPUに関連
付けられるメモリを含むように意図され、それらにはR
AM、ROM、固定記憶装置(例えばハード・ディス
ク)、取り外し可能記憶装置(例えばディスケット)、
フラッシュ・メモリなどが含まれる。更に、用語"ユー
ザ・インタフェース"は、ここでは例えば、データを処
理ユニットに入力するための1つ以上の入力装置(例え
ばキーボード)、及び処理ユニットに関連付けられる結
果を提供するための1つ以上の出力装置(例えばCRT
表示装置及びプリンタ)を含むように意図される。ユー
ザ・インタフェース606はまた、ユーザ音声を受信す
るマイクロフォンを含み得る。
【0068】従って、ここで述べられる本発明の方法を
実行する命令またはコードを含むコンピュータ・ソフト
ウェアは、1つ以上の関連記憶装置(例えばROM、固
定または取り外し可能記憶装置)に記憶され、使用準備
が整うと、(例えばRAMに)部分的にまたは全体的に
ロードされてCPUにより実行される。いずれの場合に
も、図1及び図3乃至図5に示される要素は、様々な形
態のハードウェア、ソフトウェア、またはそれらの組み
合わせにより実現され得て、それらには、例えば関連メ
モリを有する1つ以上のデジタル信号プロセッサ、アプ
リケーション特定集積回路、機能回路、関連メモリを有
する1つ以上の適切にプログラムされた汎用デジタル・
コンピュータなどが含まれる。ここで述べた本発明の教
示により、当業者であれば、本発明の要素の他の実施例
も考案できよう。
【0069】実験結果:全ての実験は、LDC(Lingui
stic Data Consortium)によりARPA HUB4放送
ニュース録画タスクの一部として収集された、CNN及
びCSPANビデオ・データに対して実行された。本発
明者は、ビデオ・テープから、アンカ及びレポータの2
0秒乃至40秒クリップ(彼らの顔の正面ショットを有
する)を、MPEG−2形式にデジタル化した。トレー
ニング・データは76人の話者の76クリップを含み、
テスト・データは同じ76人の話者からの154の追加
のクリップを含んだ。
【0070】視聴覚話者認識における主要課題は、暗騒
音やチャネル不一致により、テスト状態とトレーニング
状態との間に大きな不一致が存在するとき、性能を改善
することである。これらの状態の下で、ビデオ情報を組
み合わせる利点を証明するために、本発明者はトレーニ
ング状態とテスト状態との間の不一致を、人口的に生成
した。雑音の不一致は、約10dBの信号対雑音比で、
音声雑音を音声信号に追加することにより生成した。電
話チャネル不一致は、電話チャネル・フィルタを通じて
広帯域音声信号を通過させ、それを8kHzにダウン・
サンプリングすることにより生成した。電話チャネル・
フィルタは、300Hz乃至3300Hzの間のバンド
パス・フィルタである。
【0071】また、本発明者が電話チャネル・データに
テストした音声ベースの識別アルゴリズムは、電話チャ
ネル・データにもとづきトレーニングされた。雑音のあ
るデータに対しては、クリーン・データにもとづきトレ
ーニングされた音声ベースの識別アルゴリズムが使用さ
れた。一致及び不一致状態の両方において、線形融合技
術がテストされた。
【0072】図7の表1は、異なるテスト状態及び融合
技術の認識精度を示す。最初の2行は、音声専用ID及
びビデオ専用IDの精度を提供する。次の4行は、幾つ
かの線形融合実験の結果を示す。融合重みの最適化のた
めに、トレーニング・データが必要とされるので、15
4クリップが77の2つのセットに分割され、同一の話
者の発生が均等に分割された。融合重みはセット1にも
とづいてトレーニングされ、次にセット2にテストされ
た。またその逆も実行された。合計テスト回数は、最初
の2行同様、154である。ハード最適化は、前記C
(α)の式の生誤りカウントを指し示し、ソフト最適化
は、C'(α)の式の平滑化された費用関数を指し示
す。雑音のあるデータ及び電話チャネル・データでは、
行3及び行4は、(セット2をテストするときには、セ
ット1の、またはその逆の)クリーン・データに対して
最適化された融合重み、すなわち融合不一致状態を指し
示し、行5及び行6は、雑音のあるデータまたは電話チ
ャネル・データに対して最適化された融合重み(一致融
合)を指し示す。最後に、行7及び行8は、"ファーゼ
スト・アウトライア(farthest outlier)"方法の結果
を示す。選択α2=Π/4(行8)は、ビデオ及び音声
IDスコアの信頼度に関する以前の知識により動機付け
される。すなわち、分類器は高い音声スコアだけの理由
から、仮説を選択することを許可されるが、高いビデオ
・スコアだけでは十分でない。
【0073】線形結合視聴覚識別は、雑音のある音声デ
ータに対する精度を著しく向上する一方、クリーン・デ
ータにおいては僅かに悪化する。結果の詳細分析から、
後者の場合、トレーニング・データの量が、融合重みを
適切にトレーニングするのに不十分であることが示され
る。しかしながら、トレーニングを必要としない"ファ
ーゼスト・アウトライア"技術は、この問題を克服でき
る。また、平滑化された費用関数は、あるテスト・セッ
トから他のセットに、及び一致状態から不一致状態に一
般化するのを支援する。
【0074】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0075】(1)話者認識を実行する方法であって、
任意の内容ビデオ・ソースに関連付けられるビデオ信号
を処理するステップと、ビデオ信号に関連付けられる音
声信号を処理するステップと、処理された音声信号及び
処理されたビデオ信号にもとづき、識別決定及び確認決
定の少なくとも一方を下すステップとを含む方法。 (2)ビデオ信号処理操作が、任意の内容ビデオ・ソー
スに関連付けられるビデオ信号が、1つ以上の顔を含む
か否かを検出するステップを含む、前記(1)記載の方
法。 (3)ビデオ信号処理操作が、検出された1つ以上の顔
の1つ以上の顔のフィーチャを検出するステップを含
む、前記(2)記載の方法。 (4)顔及び顔のフィーチャの検出の少なくとも一方
が、フィッシャ線形判別(FLD)分析を使用する、前
記(3)記載の方法。 (5)顔及び顔のフィーチャの検出の少なくとも一方
が、顔空間からの距離(DFFS)指標を使用する、前
記(3)記載の方法。 (6)ビデオ信号処理操作が、検出された顔のフィーチ
ャを用いて、検出された顔から1つ以上の顔を認識する
ステップを含む、前記(3)記載の方法。 (7)ビデオ信号処理操作が、顔認識操作の結果に対し
て信頼度推定プロシージャを実行するステップを含む、
前記(6)記載の方法。 (8)音声信号処理操作が、音声信号に関連付けられる
話者を認識するステップを含む、前記(6)記載の方
法。 (9)音声信号処理操作が、音声話者認識操作の結果に
対して信頼度推定プロシージャを実行するステップを含
む、前記(8)記載の方法。 (10)顔認識操作及び音声話者認識操作のそれぞれの
結果が、識別決定及び確認決定の少なくとも一方を下す
ために使用される、前記(8)記載の方法。 (11)結果が、顔認識操作及び音声話者認識操作の間
に生成される上位N個のそれぞれのスコアを含む、前記
(10)記載の方法。 (12)上位N個のそれぞれのスコアが混合パラメータ
を用いて結合される、前記(11)記載の方法。 (13)混合パラメータが、顔認識操作及び音声話者認
識操作に関連付けられる信頼度指標に従い選択される、
前記(12)記載の方法。 (14)混合パラメータが、誤り率を表す費用関数に従
い最適化される、前記(13)記載の方法。 (15)混合パラメータが、平滑化された誤り率を表す
費用関数に従い最適化される、前記(13)記載の方
法。 (16)混合パラメータが、最高のスコア及び2番目に
高いスコアを最大化する範囲内で選択される、前記(1
2)記載の方法。 (17)結果が結合されて、上位N個のそれぞれのスコ
アの1つのセットが、顔認識操作及び音声話者認識操作
のために生成され、決定を下すために使用される、前記
(10)記載の方法。 (18)一方の認識操作の結果が、他方の認識操作の結
果を変更するために使用される、前記(10)記載の方
法。 (19)決定が変更された結果にもとづく、前記(1
8)記載の方法。 (20)ビデオ信号及び音声信号の少なくとも1つが圧
縮信号である、前記(1)記載の方法。 (21)圧縮信号が処理操作の前に伸長される、前記
(1)記載の方法。 (22)任意の内容ビデオ・ソースがMPEG−2規格
信号を提供する、前記(1)記載の方法。 (23)ビデオ信号が可視電磁スペクトル・イメージ、
非可視電磁スペクトル・イメージ、及び他の検出技術か
らのイメージの少なくとも1つを含む、前記(1)記載
の方法。 (24)音響情報及び視覚情報の少なくとも1つに従
い、ユーザを登録するステップを含む、前記(1)記載
の方法。 (25)登録操作の結果が複数のモダリティを表す結合
生物測定である、前記(24)記載の方法。 (26)音声発声を確認する方法であって、ビデオ・ソ
ースに関連付けられるビデオ信号を処理するステップ
と、ビデオ信号に関連付けられる音声信号を処理するス
テップと、処理された音声信号を処理されたビデオ信号
と比較し、信号間の相関のレベルを決定するステップと
を含む方法。 (27)ビデオ信号処理操作が、ビデオ信号から視覚フ
ィーチャ・ベクトルを抽出するステップを含む、前記
(26)記載の方法。 (28)ビデオ信号処理操作が、バイセムを抽出された
フィーチャ・ベクトルに関連付けるステップを含む、前
記(27)記載の方法。 (29)音声信号処理操作が、音響フィーチャ・ベクト
ルを抽出し、抽出されたフィーチャを用いて、音声信号
を表す復号化スクリプトを生成するステップを含む、前
記(28)記載の方法。 (30)復号化スクリプトがバイセムと整合される、前
記(29)記載の方法。 (31)整合の尤度が計算され、確認決定を下すために
使用される、前記(30)記載の方法。 (32)音声発声を確認する方法であって、ビデオ・ソ
ースに関連付けられるビデオ信号を処理するステップ
と、処理されたビデオ信号を、ビデオ信号に関連付けら
れる音声信号を表すスクリプトと比較し、信号間の相関
のレベルを決定するステップとを含む方法。 (33)話者認識を実行する装置であって、i)任意の
内容ビデオ・ソースに関連付けられるビデオ信号を処理
し、ii)ビデオ信号に関連付けられる音声信号を処理
し、iii)処理された音声信号及び処理されたビデオ
信号にもとづき、識別決定及び確認決定の少なくとも一
方を下す少なくとも1つのプロセッサを含む、装置。 (34)ビデオ信号処理操作が、任意の内容ビデオ・ソ
ースに関連付けられるビデオ信号が、1つ以上の顔を含
むか否かを検出するステップを含む、前記(33)記載
の装置。 (35)ビデオ信号処理操作が、検出された1つ以上の
顔の1つ以上の顔のフィーチャを検出するステップを含
む、前記(34)記載の装置。 (36)顔及び顔のフィーチャの検出の少なくとも一方
が、フィッシャ線形判別(FLD)分析を使用する、前
記(35)記載の装置。 (37)顔及び顔のフィーチャの検出の少なくとも一方
が、顔空間からの距離(DFFS)指標を使用する、前
記(35)記載の装置。 (38)ビデオ信号処理操作が、検出された顔のフィー
チャを用いて、検出された顔から1つ以上の顔を認識す
るステップを含む、前記(35)記載の装置。 (39)ビデオ信号処理操作が、顔認識操作の結果に対
して信頼度推定プロシージャを実行するステップを含
む、前記(36)記載の装置。 (40)音声信号処理操作が、音声信号に関連付けられ
る話者を認識するステップを含む、前記(36)記載の
装置。 (41)音声信号処理操作が、音声話者認識操作の結果
に対して信頼度推定プロシージャを実行するステップを
含む、前記(40)記載の装置。 (42)顔認識操作及び音声話者認識操作のそれぞれの
結果が、識別決定及び確認決定の少なくとも一方を下す
ために使用される、前記(40)記載の装置。 (43)結果が、顔認識操作及び音声話者認識操作の間
に生成される上位N個のそれぞれのスコアを含む、前記
(42)記載の装置。 (44)上位N個のそれぞれのスコアが混合パラメータ
を用いて結合される、前記(43)記載の装置。 (45)混合パラメータが、顔認識操作及び音声話者認
識操作に関連付けられる信頼度指標に従い選択される、
前記(44)記載の装置。 (46)混合パラメータが、誤り率を表す費用関数に従
い最適化される、前記(45)記載の装置。 (47)混合パラメータが、平滑化された誤り率を表す
費用関数に従い最適化される、前記(45)記載の装
置。 (48)混合パラメータが、最高のスコア及び2番目に
高いスコアを最大化する範囲内で選択される、前記(4
4)記載の装置。 (49)結果が結合されて、上位N個のそれぞれのスコ
アの1つのセットが、顔認識操作及び音声話者認識操作
のために生成され、決定を下すために使用される、前記
(42)記載の装置。 (50)一方の認識操作の結果が、他方の認識操作の結
果を変更するために使用される、前記(42)記載の装
置。 (51)決定が変更された結果にもとづく、前記(5
0)記載の装置。 (52)ビデオ信号及び音声信号の少なくとも1つが圧
縮信号である、前記(33)記載の装置。 (53)圧縮信号が処理操作の前に伸長される、前記
(33)記載の装置。 (54)任意の内容ビデオ・ソースがMPEG−2規格
信号を提供する、前記(33)記載の装置。 (55)ビデオ信号が可視電磁スペクトル・イメージ、
非可視電磁スペクトル・イメージ、及び他の検出技術か
らのイメージの少なくとも1つを含む、前記(33)記
載の装置。 (56)プロセッサが音響情報及び視覚情報の少なくと
も1つに従い、ユーザを登録する、前記(33)記載の
装置。 (57)登録操作の結果が複数のモダリティを表す結合
生物測定である、前記(56)記載の装置。 (58)音声発声を確認する装置であって、 i)ビデオ・ソースに関連付けられるビデオ信号を処理
し、 ii)ビデオ信号に関連付けられる音声信号を処理し、 iii)処理された音声信号を処理されたビデオ信号と
比較し、信号間の相関のレベルを決定する少なくとも1
つのプロセッサを含む、装置。 (59)音声発声を確認する装置であって、 i)ビデオ・ソースに関連付けられるビデオ信号を処理
し、 ii)処理されたビデオ信号を、ビデオ信号に関連付け
られる音声信号を表すスクリプトと比較し、信号間の相
関のレベルを決定する少なくとも1つのプロセッサを含
む、装置。 (60)話者認識を実行する方法であって、イメージ・
ソースに関連付けられるイメージ信号を処理するステッ
プと、イメージ信号に関連付けられる音声信号を処理す
るステップと、処理された音声信号及び処理されたイメ
ージ信号にもとづき、識別決定及び確認決定の少なくと
も一方を下すステップとを含む、方法。 (61)話者認識を実行する装置であって、 i)イメージ・ソースに関連付けられるイメージ信号を
処理し、 ii)イメージ信号に関連付けられる音声信号を処理
し、 iii)処理された音声信号及び処理されたイメージ信
号にもとづき、識別決定及び確認決定の少なくとも一方
を下す少なくとも1つのプロセッサを含む、装置。
【図面の簡単な説明】
【図1】本発明のスコアまたは決定融合実施例に従う、
視聴覚話者認識及び発声確認システムのブロック図であ
る。
【図2】本発明の実施例に従う発声確認方法のフロー図
である。
【図3】本発明のフィーチャ融合実施例に従う、視聴覚
話者認識及び発声確認システムのブロック図である。
【図4】本発明の再スコアリング実施例に従う、視聴覚
話者認識及び発声確認システムのブロック図である。
【図5】本発明の別の再スコアリング実施例に従う、視
聴覚話者認識及び発声確認システムのブロック図であ
る。
【図6】本発明に従う視聴覚話者認識及び発声確認シス
テムのハードウェア例のブロック図である。
【図7】幾つかの実験結果を示す表である。
【符号の説明】
2 内容ビデオ 4 ビデオ・カメラ 6 マイクロフォン 8 ビデオ・デマルチプレクサ 10 ビデオ伸長器 12 音声伸長器 14 音声フィーチャ抽出器 16 音声話者認識モジュール 18、26 信頼度推定ブロック 20 活動話者の顔の細分化モジュール 22 視覚的発話フィーチャ抽出器 24 顔認識モジュール 28 発声確認モジュール 30 識別/確認結合モジュール 602 プロセッサ 604 メモリ 606 ユーザ・インタフェース
───────────────────────────────────────────────────── フロントページの続き (72)発明者 サンカー・バス アメリカ合衆国07670、ニュージャージー 州テナフライ、ノース・サミット・ストリ ート 17 (72)発明者 ハマユーン・エス・エム・ベイジ アメリカ合衆国10598、ニューヨーク州ヨ ーク・タウン・ハイツ、エッジヒル・ロー ド 3616 (72)発明者 ステファン・ハーマン・マース アメリカ合衆国06811、コネチカット州ダ ンバリー、ウィンターグリーン・ヒル・ロ ード 1 (72)発明者 ベノー・エマニュエル・ギスレイン・メゾ ン アメリカ合衆国10603、ニューヨーク州ホ ワイト・プレインズ、アパートメント 5 ユー、レイク・ストリート 11 (72)発明者 チャラパシー・ベンカータ・ネティ アメリカ合衆国10598、ニューヨーク州ヨ ークタウン・ハイツ、ハイ・リッジ・コー ト 235 (72)発明者 アンドリュー・ウィリアム・セナー アメリカ合衆国10025−4960、ニューヨー ク州ニューヨーク、アパートメント 4ビ ィ、ウエスト・エンド・アベニュー 864

Claims (61)

    【特許請求の範囲】
  1. 【請求項1】話者認識を実行する方法であって、 任意の内容ビデオ・ソースに関連付けられるビデオ信号
    を処理するステップと、 ビデオ信号に関連付けられる音声信号を処理するステッ
    プと、 処理された音声信号及び処理されたビデオ信号にもとづ
    き、識別決定及び確認決定の少なくとも一方を下すステ
    ップとを含む方法。
  2. 【請求項2】ビデオ信号処理操作が、任意の内容ビデオ
    ・ソースに関連付けられるビデオ信号が、1つ以上の顔
    を含むか否かを検出するステップを含む、請求項1記載
    の方法。
  3. 【請求項3】ビデオ信号処理操作が、検出された1つ以
    上の顔の1つ以上の顔のフィーチャを検出するステップ
    を含む、請求項2記載の方法。
  4. 【請求項4】顔及び顔のフィーチャの検出の少なくとも
    一方が、フィッシャ線形判別(FLD)分析を使用す
    る、請求項3記載の方法。
  5. 【請求項5】顔及び顔のフィーチャの検出の少なくとも
    一方が、顔空間からの距離(DFFS)指標を使用す
    る、請求項3記載の方法。
  6. 【請求項6】ビデオ信号処理操作が、検出された顔のフ
    ィーチャを用いて、検出された顔から1つ以上の顔を認
    識するステップを含む、請求項3記載の方法。
  7. 【請求項7】ビデオ信号処理操作が、顔認識操作の結果
    に対して信頼度推定プロシージャを実行するステップを
    含む、請求項6記載の方法。
  8. 【請求項8】音声信号処理操作が、音声信号に関連付け
    られる話者を認識するステップを含む、請求項6記載の
    方法。
  9. 【請求項9】音声信号処理操作が、音声話者認識操作の
    結果に対して信頼度推定プロシージャを実行するステッ
    プを含む、請求項8記載の方法。
  10. 【請求項10】顔認識操作及び音声話者認識操作のそれ
    ぞれの結果が、識別決定及び確認決定の少なくとも一方
    を下すために使用される、請求項8記載の方法。
  11. 【請求項11】結果が、顔認識操作及び音声話者認識操
    作の間に生成される上位N個のそれぞれのスコアを含
    む、請求項10記載の方法。
  12. 【請求項12】上位N個のそれぞれのスコアが混合パラ
    メータを用いて結合される、請求項11記載の方法。
  13. 【請求項13】混合パラメータが、顔認識操作及び音声
    話者認識操作に関連付けられる信頼度指標に従い選択さ
    れる、請求項12記載の方法。
  14. 【請求項14】混合パラメータが、誤り率を表す費用関
    数に従い最適化される、請求項13記載の方法。
  15. 【請求項15】混合パラメータが、平滑化された誤り率
    を表す費用関数に従い最適化される、請求項13記載の
    方法。
  16. 【請求項16】混合パラメータが、最高のスコア及び2
    番目に高いスコアを最大化する範囲内で選択される、請
    求項12記載の方法。
  17. 【請求項17】結果が結合されて、上位N個のそれぞれ
    のスコアの1つのセットが、顔認識操作及び音声話者認
    識操作のために生成され、決定を下すために使用され
    る、請求項10記載の方法。
  18. 【請求項18】一方の認識操作の結果が、他方の認識操
    作の結果を変更するために使用される、請求項10記載
    の方法。
  19. 【請求項19】決定が変更された結果にもとづく、請求
    項18記載の方法。
  20. 【請求項20】ビデオ信号及び音声信号の少なくとも1
    つが圧縮信号である、請求項1記載の方法。
  21. 【請求項21】圧縮信号が処理操作の前に伸長される、
    請求項1記載の方法。
  22. 【請求項22】任意の内容ビデオ・ソースがMPEG−
    2規格信号を提供する、請求項1記載の方法。
  23. 【請求項23】ビデオ信号が可視電磁スペクトル・イメ
    ージ、非可視電磁スペクトル・イメージ、及び他の検出
    技術からのイメージの少なくとも1つを含む、請求項1
    記載の方法。
  24. 【請求項24】音響情報及び視覚情報の少なくとも1つ
    に従い、ユーザを登録するステップを含む、請求項1記
    載の方法。
  25. 【請求項25】登録操作の結果が複数のモダリティを表
    す結合生物測定である、請求項24記載の方法。
  26. 【請求項26】音声発声を確認する方法であって、 ビデオ・ソースに関連付けられるビデオ信号を処理する
    ステップと、 ビデオ信号に関連付けられる音声信号を処理するステッ
    プと、 処理された音声信号を処理されたビデオ信号と比較し、
    信号間の相関のレベルを決定するステップとを含む方
    法。
  27. 【請求項27】ビデオ信号処理操作が、ビデオ信号から
    視覚フィーチャ・ベクトルを抽出するステップを含む、
    請求項26記載の方法。
  28. 【請求項28】ビデオ信号処理操作が、バイセムを抽出
    されたフィーチャ・ベクトルに関連付けるステップを含
    む、請求項27記載の方法。
  29. 【請求項29】音声信号処理操作が、音響フィーチャ・
    ベクトルを抽出し、抽出されたフィーチャを用いて、音
    声信号を表す復号化スクリプトを生成するステップを含
    む、請求項28記載の方法。
  30. 【請求項30】復号化スクリプトがバイセムと整合され
    る、請求項29記載の方法。
  31. 【請求項31】整合の尤度が計算され、確認決定を下す
    ために使用される、請求項30記載の方法。
  32. 【請求項32】音声発声を確認する方法であって、 ビデオ・ソースに関連付けられるビデオ信号を処理する
    ステップと、 処理されたビデオ信号を、ビデオ信号に関連付けられる
    音声信号を表すスクリプトと比較し、信号間の相関のレ
    ベルを決定するステップとを含む方法。
  33. 【請求項33】話者認識を実行する装置であって、 i)任意の内容ビデオ・ソースに関連付けられるビデオ
    信号を処理し、 ii)ビデオ信号に関連付けられる音声信号を処理し、 iii)処理された音声信号及び処理されたビデオ信号
    にもとづき、識別決定及び確認決定の少なくとも一方を
    下す少なくとも1つのプロセッサを含む、装置。
  34. 【請求項34】ビデオ信号処理操作が、任意の内容ビデ
    オ・ソースに関連付けられるビデオ信号が、1つ以上の
    顔を含むか否かを検出するステップを含む、請求項33
    記載の装置。
  35. 【請求項35】ビデオ信号処理操作が、検出された1つ
    以上の顔の1つ以上の顔のフィーチャを検出するステッ
    プを含む、請求項34記載の装置。
  36. 【請求項36】顔及び顔のフィーチャの検出の少なくと
    も一方が、フィッシャ線形判別(FLD)分析を使用す
    る、請求項35記載の装置。
  37. 【請求項37】顔及び顔のフィーチャの検出の少なくと
    も一方が、顔空間からの距離(DFFS)指標を使用す
    る、請求項35記載の装置。
  38. 【請求項38】ビデオ信号処理操作が、検出された顔の
    フィーチャを用いて、検出された顔から1つ以上の顔を
    認識するステップを含む、請求項35記載の装置。
  39. 【請求項39】ビデオ信号処理操作が、顔認識操作の結
    果に対して信頼度推定プロシージャを実行するステップ
    を含む、請求項36記載の装置。
  40. 【請求項40】音声信号処理操作が、音声信号に関連付
    けられる話者を認識するステップを含む、請求項36記
    載の装置。
  41. 【請求項41】音声信号処理操作が、音声話者認識操作
    の結果に対して信頼度推定プロシージャを実行するステ
    ップを含む、請求項40記載の装置。
  42. 【請求項42】顔認識操作及び音声話者認識操作のそれ
    ぞれの結果が、識別決定及び確認決定の少なくとも一方
    を下すために使用される、請求項40記載の装置。
  43. 【請求項43】結果が、顔認識操作及び音声話者認識操
    作の間に生成される上位N個のそれぞれのスコアを含
    む、請求項42記載の装置。
  44. 【請求項44】上位N個のそれぞれのスコアが混合パラ
    メータを用いて結合される、請求項43記載の装置。
  45. 【請求項45】混合パラメータが、顔認識操作及び音声
    話者認識操作に関連付けられる信頼度指標に従い選択さ
    れる、請求項44記載の装置。
  46. 【請求項46】混合パラメータが、誤り率を表す費用関
    数に従い最適化される、請求項45記載の装置。
  47. 【請求項47】混合パラメータが、平滑化された誤り率
    を表す費用関数に従い最適化される、請求項45記載の
    装置。
  48. 【請求項48】混合パラメータが、最高のスコア及び2
    番目に高いスコアを最大化する範囲内で選択される、請
    求項44記載の装置。
  49. 【請求項49】結果が結合されて、上位N個のそれぞれ
    のスコアの1つのセットが、顔認識操作及び音声話者認
    識操作のために生成され、決定を下すために使用され
    る、請求項42記載の装置。
  50. 【請求項50】一方の認識操作の結果が、他方の認識操
    作の結果を変更するために使用される、請求項42記載
    の装置。
  51. 【請求項51】決定が変更された結果にもとづく、請求
    項50記載の装置。
  52. 【請求項52】ビデオ信号及び音声信号の少なくとも1
    つが圧縮信号である、請求項33記載の装置。
  53. 【請求項53】圧縮信号が処理操作の前に伸長される、
    請求項33記載の装置。
  54. 【請求項54】任意の内容ビデオ・ソースがMPEG−
    2規格信号を提供する、請求項33記載の装置。
  55. 【請求項55】ビデオ信号が可視電磁スペクトル・イメ
    ージ、非可視電磁スペクトル・イメージ、及び他の検出
    技術からのイメージの少なくとも1つを含む、請求項3
    3記載の装置。
  56. 【請求項56】プロセッサが音響情報及び視覚情報の少
    なくとも1つに従い、ユーザを登録する、請求項33記
    載の装置。
  57. 【請求項57】登録操作の結果が複数のモダリティを表
    す結合生物測定である、請求項56記載の装置。
  58. 【請求項58】音声発声を確認する装置であって、 i)ビデオ・ソースに関連付けられるビデオ信号を処理
    し、 ii)ビデオ信号に関連付けられる音声信号を処理し、 iii)処理された音声信号を処理されたビデオ信号と
    比較し、信号間の相関のレベルを決定する少なくとも1
    つのプロセッサを含む、装置。
  59. 【請求項59】音声発声を確認する装置であって、 i)ビデオ・ソースに関連付けられるビデオ信号を処理
    し、 ii)処理されたビデオ信号を、ビデオ信号に関連付け
    られる音声信号を表すスクリプトと比較し、信号間の相
    関のレベルを決定する少なくとも1つのプロセッサを含
    む、装置。
  60. 【請求項60】話者認識を実行する方法であって、 イメージ・ソースに関連付けられるイメージ信号を処理
    するステップと、 イメージ信号に関連付けられる音声信号を処理するステ
    ップと、 処理された音声信号及び処理されたイメージ信号にもと
    づき、識別決定及び確認決定の少なくとも一方を下すス
    テップとを含む、方法。
  61. 【請求項61】話者認識を実行する装置であって、 i)イメージ・ソースに関連付けられるイメージ信号を
    処理し、 ii)イメージ信号に関連付けられる音声信号を処理
    し、 iii)処理された音声信号及び処理されたイメージ信
    号にもとづき、識別決定及び確認決定の少なくとも一方
    を下す少なくとも1つのプロセッサを含む、装置。
JP2000223574A 1999-08-06 2000-07-25 話者認識方法及びその実行装置並びに音声発生確認方法及び装置 Pending JP2001092974A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/369706 1999-08-06
US09/369,706 US6219640B1 (en) 1999-08-06 1999-08-06 Methods and apparatus for audio-visual speaker recognition and utterance verification

Publications (1)

Publication Number Publication Date
JP2001092974A true JP2001092974A (ja) 2001-04-06

Family

ID=23456570

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000223574A Pending JP2001092974A (ja) 1999-08-06 2000-07-25 話者認識方法及びその実行装置並びに音声発生確認方法及び装置

Country Status (3)

Country Link
US (1) US6219640B1 (ja)
JP (1) JP2001092974A (ja)
KR (1) KR20010039771A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005513682A (ja) * 2001-12-22 2005-05-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ユーザ識別方法及び装置
JP2006267664A (ja) * 2005-03-24 2006-10-05 Ntt Docomo Inc 音声認識方法および音声認識装置
US7428315B2 (en) 2001-12-03 2008-09-23 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
CN109326294A (zh) * 2018-09-28 2019-02-12 杭州电子科技大学 一种文本相关的声纹密钥生成方法
JP2022546640A (ja) * 2019-11-18 2022-11-04 グーグル エルエルシー 音声映像マッチングを使用した自動音声認識仮説の再スコアリング

Families Citing this family (105)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6477493B1 (en) * 1999-07-15 2002-11-05 International Business Machines Corporation Off site voice enrollment on a transcription device for speech recognition
US6704709B1 (en) * 1999-07-28 2004-03-09 Custom Speech Usa, Inc. System and method for improving the accuracy of a speech recognition program
US6411933B1 (en) * 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
US6633844B1 (en) * 1999-12-02 2003-10-14 International Business Machines Corporation Late integration in audio-visual continuous speech recognition
IL133797A (en) * 1999-12-29 2004-07-25 Speechview Ltd Apparatus and method for visible indication of speech
US7149686B1 (en) * 2000-06-23 2006-12-12 International Business Machines Corporation System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations
US20060271365A1 (en) * 2000-09-18 2006-11-30 International Business Machines Corporation Methods and apparatus for processing information signals based on content
US7092496B1 (en) 2000-09-18 2006-08-15 International Business Machines Corporation Method and apparatus for processing information signals based on content
AU2001296459A1 (en) * 2000-10-02 2002-04-15 Clarity, L.L.C. Audio visual speech processing
WO2002050813A2 (en) * 2000-12-19 2002-06-27 Speechview Ltd. Generating visual representation of speech by any individuals of a population
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US7392287B2 (en) * 2001-03-27 2008-06-24 Hemisphere Ii Investment Lp Method and apparatus for sharing information using a handheld device
US6498970B2 (en) * 2001-04-17 2002-12-24 Koninklijke Phillips Electronics N.V. Automatic access to an automobile via biometrics
US6826300B2 (en) * 2001-05-31 2004-11-30 George Mason University Feature based classification
DE10129662A1 (de) * 2001-06-20 2003-01-09 Philips Corp Intellectual Pty Kommunikationssystem mit Systemkomponenten zur Feststellung der Urheberschaft eines Kommunikationsbeitrages
US20030083872A1 (en) * 2001-10-25 2003-05-01 Dan Kikinis Method and apparatus for enhancing voice recognition capabilities of voice recognition software and systems
US7487084B2 (en) * 2001-10-30 2009-02-03 International Business Machines Corporation Apparatus, program storage device and method for testing speech recognition in the mobile environment of a vehicle
US7240007B2 (en) * 2001-12-13 2007-07-03 Matsushita Electric Industrial Co., Ltd. Speaker authentication by fusion of voiceprint match attempt results with additional information
US20030113002A1 (en) * 2001-12-18 2003-06-19 Koninklijke Philips Electronics N.V. Identification of people using video and audio eigen features
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US20030154084A1 (en) * 2002-02-14 2003-08-14 Koninklijke Philips Electronics N.V. Method and system for person identification using video-speech matching
JP3873793B2 (ja) * 2002-03-29 2007-01-24 日本電気株式会社 顔メタデータ生成方法および顔メタデータ生成装置
AU2003214539A1 (en) * 2002-04-02 2003-10-13 Koninklijke Philips Electronics N.V. Method and system for providing complementary information for a video program
US6957226B2 (en) * 2002-06-27 2005-10-18 Microsoft Corporation Searching multi-media databases using multi-media queries
US20040006628A1 (en) * 2002-07-03 2004-01-08 Scott Shepard Systems and methods for providing real-time alerting
US20040024585A1 (en) 2002-07-03 2004-02-05 Amit Srivastava Linguistic segmentation of speech
US8509736B2 (en) 2002-08-08 2013-08-13 Global Tel*Link Corp. Telecommunication call management and monitoring system with voiceprint verification
US7333798B2 (en) 2002-08-08 2008-02-19 Value Added Communications, Inc. Telecommunication call management and monitoring system
US7587318B2 (en) * 2002-09-12 2009-09-08 Broadcom Corporation Correlating video images of lip movements with audio signals to improve speech recognition
US7389229B2 (en) * 2002-10-17 2008-06-17 Bbn Technologies Corp. Unified clustering tree
US8972266B2 (en) * 2002-11-12 2015-03-03 David Bezar User intent analysis extent of speaker intent analysis system
US7046300B2 (en) * 2002-11-29 2006-05-16 International Business Machines Corporation Assessing consistency between facial motion and speech signals in video
KR100580619B1 (ko) * 2002-12-11 2006-05-16 삼성전자주식회사 사용자와 에이전트 간의 대화 관리방법 및 장치
US20040143434A1 (en) * 2003-01-17 2004-07-22 Ajay Divakaran Audio-Assisted segmentation and browsing of news videos
US7251603B2 (en) * 2003-06-23 2007-07-31 International Business Machines Corporation Audio-only backoff in audio-visual speech recognition system
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
US20050047664A1 (en) * 2003-08-27 2005-03-03 Nefian Ara Victor Identifying a speaker using markov models
JP3931879B2 (ja) * 2003-11-28 2007-06-20 株式会社デンソー センサフュージョンシステム及びそれを用いた車両制御装置
KR100655491B1 (ko) * 2004-12-21 2006-12-11 한국전자통신연구원 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
JP4847022B2 (ja) * 2005-01-28 2011-12-28 京セラ株式会社 発声内容認識装置
US7783021B2 (en) 2005-01-28 2010-08-24 Value-Added Communications, Inc. Digital telecommunications call management and monitoring system
KR100735549B1 (ko) * 2005-08-08 2007-07-04 삼성전자주식회사 영상의 피부색을 변환하는 영상 처리 방법 및 장치
JP4708913B2 (ja) * 2005-08-12 2011-06-22 キヤノン株式会社 情報処理方法及び情報処理装置
JP4626493B2 (ja) * 2005-11-14 2011-02-09 ソニー株式会社 画像処理装置、画像処理方法、画像処理方法のプログラム及び画像処理方法のプログラムを記録した記録媒体
US20070124147A1 (en) * 2005-11-30 2007-05-31 International Business Machines Corporation Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US20070201443A1 (en) * 2006-02-09 2007-08-30 Debanjan Saha VoIP caller authentication by voice signature continuity
EP1962280A1 (en) * 2006-03-08 2008-08-27 BIOMETRY.com AG Method and network-based biometric system for biometric authentication of an end user
US8024189B2 (en) * 2006-06-22 2011-09-20 Microsoft Corporation Identification of people using multiple types of input
US8542802B2 (en) 2007-02-15 2013-09-24 Global Tel*Link Corporation System and method for three-way call detection
US20080201158A1 (en) 2007-02-15 2008-08-21 Johnson Mark D System and method for visitation management in a controlled-access environment
US8295457B2 (en) 2007-09-26 2012-10-23 Dsi-Iti, Llc System and method for controlling free phone calls through an institutional phone system
EP2065823A1 (en) * 2007-11-26 2009-06-03 BIOMETRY.com AG System and method for performing secure online transactions
US20090259678A1 (en) * 2008-04-11 2009-10-15 Valencia John Alcario Bluetooth volume tracker
US9225838B2 (en) 2009-02-12 2015-12-29 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
KR101625668B1 (ko) 2009-04-20 2016-05-30 삼성전자 주식회사 전자기기 및 전자기기의 음성인식방법
RU2431190C2 (ru) 2009-06-22 2011-10-10 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и устройство распознавания рельефности лица
US8873798B2 (en) * 2010-02-05 2014-10-28 Rochester Institue Of Technology Methods for tracking objects using random projections, distance learning and a hybrid template library and apparatuses thereof
JP2011186351A (ja) * 2010-03-11 2011-09-22 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
KR101750338B1 (ko) * 2010-09-13 2017-06-23 삼성전자주식회사 마이크의 빔포밍 수행 방법 및 장치
US9123339B1 (en) 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
US8897500B2 (en) 2011-05-05 2014-11-25 At&T Intellectual Property I, L.P. System and method for dynamic facial features for speaker recognition
KR101971697B1 (ko) * 2012-02-24 2019-04-23 삼성전자주식회사 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치
US20130300939A1 (en) * 2012-05-11 2013-11-14 Cisco Technology, Inc. System and method for joint speaker and scene recognition in a video/audio processing environment
CN103631802B (zh) * 2012-08-24 2015-05-20 腾讯科技(深圳)有限公司 歌曲信息检索方法、装置及相应的服务器
BR112015009480A2 (pt) * 2012-11-02 2017-07-04 Koninklijke Philips Nv sistema, método, equipamento de usuário, receptor de mídia, servidor e produto de programa de computador
KR101442211B1 (ko) * 2013-02-07 2014-10-16 서강대학교산학협력단 3차원 기하정보를 이용한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
US9299350B1 (en) * 2013-03-15 2016-03-29 Amazon Technologies, Inc. Systems and methods for identifying users of devices and customizing devices to users
US9165182B2 (en) * 2013-08-19 2015-10-20 Cisco Technology, Inc. Method and apparatus for using face detection information to improve speaker segmentation
US9736374B2 (en) * 2013-09-19 2017-08-15 Conduent Business Services, Llc Video/vision based access control method and system for parking occupancy determination, which is robust against camera shake
US9406295B2 (en) 2013-11-22 2016-08-02 Intel Corporation Apparatus and method for voice based user enrollment with video assistance
US10296784B2 (en) 2014-01-10 2019-05-21 Securus Technologies, Inc. Verifying presence of a person during an electronic visitation
US9652915B2 (en) * 2014-02-28 2017-05-16 Honeywell International Inc. System and method having biometric identification intrusion and access control
US10304458B1 (en) * 2014-03-06 2019-05-28 Board of Trustees of the University of Alabama and the University of Alabama in Huntsville Systems and methods for transcribing videos using speaker identification
US20150319612A1 (en) 2014-05-01 2015-11-05 Global Tel*Link Corp. System and Method for Authenticating Called Parties of Individuals Within a Controlled Environment
CN105991851A (zh) 2015-02-17 2016-10-05 杜比实验室特许公司 处理电话会议系统中的烦扰
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US9769310B2 (en) 2015-11-19 2017-09-19 Global Tel*Link Corporation Authentication and control of incoming communication
CN105677711A (zh) * 2015-12-28 2016-06-15 小米科技有限责任公司 信息显示方法和装置
GR1008860B (el) * 2015-12-29 2016-09-27 Κωνσταντινος Δημητριου Σπυροπουλος Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα
US9681097B1 (en) 2016-01-20 2017-06-13 Global Tel*Link Corporation Secure video visitation system
US10296994B2 (en) 2016-02-11 2019-05-21 Global Tel*Link Corporation System and method for visitation management in a controlled environment
US10572961B2 (en) 2016-03-15 2020-02-25 Global Tel*Link Corporation Detection and prevention of inmate to inmate message relay
US9558523B1 (en) 2016-03-23 2017-01-31 Global Tel* Link Corp. Secure nonscheduled video visitation system
US9609121B1 (en) 2016-04-07 2017-03-28 Global Tel*Link Corporation System and method for third party monitoring of voice and video calls
CN108241836A (zh) * 2016-12-23 2018-07-03 同方威视技术股份有限公司 用于安检的方法及装置
US9794399B1 (en) 2016-12-23 2017-10-17 Global Tel*Link Corporation System and method for multilingual authentication access to communication system in controlled environment
US10027797B1 (en) 2017-05-10 2018-07-17 Global Tel*Link Corporation Alarm control for inmate call monitoring
US10225396B2 (en) 2017-05-18 2019-03-05 Global Tel*Link Corporation Third party monitoring of a activity within a monitoring platform
US10860786B2 (en) 2017-06-01 2020-12-08 Global Tel*Link Corporation System and method for analyzing and investigating communication data from a controlled environment
US9930088B1 (en) 2017-06-22 2018-03-27 Global Tel*Link Corporation Utilizing VoIP codec negotiation during a controlled environment call
CN108228696B (zh) * 2017-08-31 2021-03-23 深圳市商汤科技有限公司 人脸图像检索方法和系统、拍摄装置、计算机存储介质
US10714144B2 (en) * 2017-11-06 2020-07-14 International Business Machines Corporation Corroborating video data with audio data from video content to create section tagging
US10592784B2 (en) * 2018-02-20 2020-03-17 GM Global Technology Operations LLC Detection based on fusion of multiple sensors
US11687770B2 (en) 2018-05-18 2023-06-27 Synaptics Incorporated Recurrent multimodal attention system based on expert gated networks
KR102064077B1 (ko) * 2018-05-29 2020-01-08 연세대학교 산학협력단 구문 독립 화자 인식 장치 및 방법
US10951859B2 (en) 2018-05-30 2021-03-16 Microsoft Technology Licensing, Llc Videoconferencing device and method
CN109714521B (zh) * 2018-08-20 2020-11-03 浙江禾记电子科技有限公司 会议场所现场登记平台
CN108921143A (zh) * 2018-08-22 2018-11-30 北京慕华信息科技有限公司 一种面部仪态的评估方法及装置
US10943099B2 (en) * 2019-03-19 2021-03-09 Booz Allen Hamilton Inc. Method and system for classifying an input data set using multiple data representation source modes
US10936868B2 (en) * 2019-03-19 2021-03-02 Booz Allen Hamilton Inc. Method and system for classifying an input data set within a data category using multiple data recognition tools
CN110674483B (zh) * 2019-08-14 2022-05-13 广东工业大学 一种基于多模态信息的身份识别方法
KR102331517B1 (ko) * 2020-07-13 2021-12-01 주식회사 딥브레인에이아이 발화 동영상 생성 방법 및 장치
US11991371B2 (en) * 2021-06-23 2024-05-21 Synaptics Incorporated Image processing system for region-of-interest-based video compression
WO2024018400A2 (en) * 2022-07-20 2024-01-25 Q (Cue) Ltd. Detecting and utilizing facial micromovements
US20240070251A1 (en) 2021-08-04 2024-02-29 Q (Cue) Ltd. Using facial skin micromovements to identify a user

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4449189A (en) * 1981-11-20 1984-05-15 Siemens Corporation Personal access control system using speech and face recognition
JPH062486B2 (ja) 1985-05-31 1994-01-12 株式会社寺岡精工 包装値付装置
US4845636A (en) * 1986-10-17 1989-07-04 Walker Mark E Remote transaction system
IT1257073B (it) * 1992-08-11 1996-01-05 Ist Trentino Di Cultura Sistema di riconoscimento, particolarmente per il riconoscimento di persone.
US5625704A (en) * 1994-11-10 1997-04-29 Ricoh Corporation Speaker recognition using spatiotemporal cues
US5602933A (en) * 1995-03-15 1997-02-11 Scientific-Atlanta, Inc. Method and apparatus for verification of remotely accessed data
US5761329A (en) * 1995-12-15 1998-06-02 Chen; Tsuhan Method and apparatus employing audio and video data from an individual for authentication purposes
KR19980058362A (ko) * 1996-12-30 1998-09-25 구자홍 얼굴인식 및 화자인식을 통합한 사용자 인식방법 및 장치
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
JP3865924B2 (ja) * 1998-03-26 2007-01-10 松下電器産業株式会社 音声認識装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7428315B2 (en) 2001-12-03 2008-09-23 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US7433495B2 (en) 2001-12-03 2008-10-07 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
KR100905793B1 (ko) * 2001-12-03 2009-07-02 마이크로소프트 코포레이션 다수의 큐를 사용하여 다수의 개인들의 자동 검출 및 트래킹을 하기 위한 방법, 시스템, 컴퓨터 판독가능 매체 및 컴퓨팅 장치
JP2005513682A (ja) * 2001-12-22 2005-05-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ユーザ識別方法及び装置
JP2006267664A (ja) * 2005-03-24 2006-10-05 Ntt Docomo Inc 音声認識方法および音声認識装置
JP4632831B2 (ja) * 2005-03-24 2011-02-16 株式会社エヌ・ティ・ティ・ドコモ 音声認識方法および音声認識装置
CN109326294A (zh) * 2018-09-28 2019-02-12 杭州电子科技大学 一种文本相关的声纹密钥生成方法
CN109326294B (zh) * 2018-09-28 2022-09-20 杭州电子科技大学 一种文本相关的声纹密钥生成方法
JP2022546640A (ja) * 2019-11-18 2022-11-04 グーグル エルエルシー 音声映像マッチングを使用した自動音声認識仮説の再スコアリング

Also Published As

Publication number Publication date
KR20010039771A (ko) 2001-05-15
US6219640B1 (en) 2001-04-17

Similar Documents

Publication Publication Date Title
JP2001092974A (ja) 話者認識方法及びその実行装置並びに音声発生確認方法及び装置
US6219639B1 (en) Method and apparatus for recognizing identity of individuals employing synchronized biometrics
US9159321B2 (en) Lip-password based speaker verification system
Aleksic et al. Audio-visual biometrics
Hassanat Visual speech recognition
Jiang et al. Improved face and feature finding for audio-visual speech recognition in visually challenging environments
Potamianos et al. A cascade visual front end for speaker independent automatic speechreading
Bredin et al. Audiovisual speech synchrony measure: application to biometrics
Faraj et al. Synergy of lip-motion and acoustic features in biometric speech and speaker recognition
Brutti et al. Online cross-modal adaptation for audio–visual person identification with wearable cameras
Argones Rua et al. Audio-visual speech asynchrony detection using co-inertia analysis and coupled hidden markov models
Ben-Yacoub et al. Audio-visual person verification
Neti et al. Perceptual interfaces for information interaction: joint processing of audio and visual information for human-computer interaction.
Chiţu et al. Comparison between different feature extraction techniques for audio-visual speech recognition
Paleček et al. Audio-visual speech recognition in noisy audio environments
Geng et al. Audio-visual speaker recognition via multi-modal correlated neural networks
Radha et al. A person identification system combining recognition of face and lip-read passwords
Aides et al. Text-Dependent Audiovisual Synchrony Detection for Spoofing Detection in Mobile Person Recognition.
CN116883900A (zh) 一种基于多维生物特征的视频真伪鉴别方法和系统
Luque et al. Audio, video and multimodal person identification in a smart room
Neti et al. Audio-visual speaker recognition for video broadcast news
Bredin et al. Making talking-face authentication robust to deliberate imposture
Hassanat et al. Visual words for lip-reading
Bredin et al. The biosecure talking-face reference system
Chetty et al. Biometric person authentication with liveness detection based on audio-visual fusion