JP2001092974A

JP2001092974A - 話者認識方法及びその実行装置並びに音声発生確認方法及び装置

Info

Publication number: JP2001092974A
Application number: JP2000223574A
Authority: JP
Inventors: Bass Sanker; サンカー・バス; S M Beiji Hamayuun; ハマユーン・エス・エム・ベイジ; Herman Maass Stephen; ステファン・ハーマン・マース; Emmanuel Gisurein Mezon Benoo; ベノー・エマニュエル・ギスレイン・メゾン; Benkaata Netei Charapashii; チャラパシー・ベンカータ・ネティ; William Senna Andrew; アンドリュー・ウィリアム・セナー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1999-08-06
Filing date: 2000-07-25
Publication date: 2001-04-06
Also published as: KR20010039771A; US6219640B1

Abstract

(57)【要約】（修正有）【課題】認識課程の間に、視覚情報を対応する音声情
報と一緒に使用し、音響的な悪化条件下でも話者認識情
度を改善する方法及び装置を提供する。【解決手段】ビデオ圧縮ソース２からの信号は、デマ
ルチプレクサ８により、映像・音声データは夫々１０及
び１２の伸張器を経て、映像は話者顔細分化モジュール
２０から視覚的発話フィーチャ抽出器２２へ、音声は音
声フィーチャ抽出器１４に行く。カメラ４やマイクロフ
ォン６から直接に各抽出器へのデータ授受も可能であ
る。映像（音声）データは顔認識モジュール２４（音声
話者認識モジュール１６）から信頼度推定ブロック２６
（１８）を経て識別／確認結合モジュール３０でスコア
結合技術を用い話者決定をする。又、抽出器２２と１４
の入力に基く発声確認モジュール２８の出力とからモジ
ュール３２で最終決定を下す。なお、決定方法にはフィ
ーチャ結合、再スコア等の他の技法を用いてもよい。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は一般に話者認識に関
し、特に、ビデオ及び音声情報を用いて、任意の内容ビ
デオに関連して、改善された話者認識及び発声確認を提
供する方法及び装置に関する。

【０００２】本願は、本願と同時に出願された米国特許
出願（出願人整理番号ＹＯ９９９３１７）"Methods And
Apparatus for Audio-Visual Speech Detection and R
ecognition"に関連する。

【０００３】

【従来の技術】人間は人の様々な属性にもとづいて話者
を識別する。そうした属性には、聴覚的な手がかり、外
観の手がかり、及び振舞い特性（例えば特徴的なそぶ
り、唇の動き）が含まれる。従来、人の識別のためのマ
シン導入は、音声上の手がかりだけ（例えば音声ベース
の話者認識）、視覚的手がかりだけ（例えば顔の識別、
虹彩識別）、または他の生物測定学に関する１つの技術
を重点的に扱ってきた。最近では、研究者は人の識別の
ために、複数のモダリティ（すなわち様相）を結合しつ
つある。例えば、J．Bigun、B．Duc、F．Smeraldi、S．
Fischer及びA．Makarovによる"Multi-modal person aut
hentication"、H．Wechsler、J．Phillips、V．Bruce、
F．Fogelman Soulie、T．Huang（eds．）Face Recognit
ion：From theory to applications、Berlin Springer-
Verlag、1999を参照されたい。

【０００４】話者認識は、セキュリティを含む様々なア
プリケーションにとって、また最近ではデジタル化され
たマルチメディア内容（例えばＭＰＥＧ−２規格に準
拠）の探索及び検索のための指標として、重要な技術で
ある。音響的に悪化した状況（例えば暗騒音など）や、
チャネル不一致（例えば電話）の下では、音声ベースの
話者認識精度は、一層の改善を必要とする。こうした悪
化した状況において改善を図ることは、困難な問題であ
る。

【０００５】

【発明が解決しようとする課題】結果的に、音響的な悪
化やチャネル不一致の状況の下で、或いは既存の話者認
識技術を妨げる他の状況において、成功裡に実行される
改善された話者認識を提供する方法及び装置を提供する
ことが大いに望まれる。

【０００６】本発明の目的は、任意のビデオ内容に関連
付けられる視覚情報及び音声情報を用いて、改善された
話者認識精度を提供する様々な方法及び装置を提供する
ことにある。話者認識はユーザ登録、ユーザ識別（すな
わちその人が登録済みユーザの誰であるかを見い出
す）、及びユーザ確認（すなわちユーザにより提供され
る身分申し立ての受諾または拒絶）を含み得ることが理
解されよう。更に、本発明の目的は、こうした視覚情報
及び音声情報を用いて、発声確認を実行する方法及び装
置を提供することにある。

【０００７】

【課題を解決するための手段】本発明の第１の態様で
は、話者認識を実行する方法が、任意の内容ビデオ・ソ
ースに関連付けられるビデオ信号の処理と、ビデオ信号
に関連付けられる音声信号の処理とを含む。この時、識
別または確認決定が、処理された音声信号及び処理され
たビデオ信号にもとづき下される。決定を下す様々な技
法が使用され、それらにはスコア結合アプローチや、フ
ィーチャ結合アプローチ、或いは再スコアリング・アプ
ローチなどが含まれる。

【０００８】以下で詳述するように、話者認識のための
音声ベースの処理と視覚処理との結合は、例えば放送ニ
ュース領域などの音響的に悪化した状況において、精度
を多大に改善する。２つの独立の情報ソースの使用は、
話者認識においてロバスト性の大幅な向上をもたらす。
なぜなら、２つのチャネルにおける信号悪化が相関付け
られないからである。更に、視覚情報の使用は、音響情
報だけにより可能であったよりも、遥かに高速な話者識
別を可能にする。本発明に従い、本発明者はＬＤＣ（Li
nguistic Data Consortium）により提供されるＴＶ放送
ニュースのビデオ・データ（例えばＣＮＮ及びＣＳＰＡ
Ｎ）に関して、視覚情報にもとづく人認識と、音声情報
にもとづく識別とを融合する様々な方法の結果を示す。
すなわち、本発明者はビデオ・ベースの話者認識と、音
声ベースの話者認識とを融合して、不一致状況における
性能を改善する様々な技術を提供する。好適な実施例で
は、本発明者は音声及びビデオにもとづいて独立の決定
の相対重みを最適に決定し、最善の結合を達成する技術
を提供する。ビデオ放送ニュース・データの実験は、こ
うした結合により音響的に悪化した状況において、著し
い改善が達成されることを示す。

【０００９】本発明の第２の態様では、音声発声を確認
する方法が、ビデオ・ソースに関連付けられるビデオ信
号の処理と、ビデオ信号に関連付けられる音声信号の処
理とを含む。この時、処理された音声信号が、処理され
たビデオ信号と比較され、信号間の相関のレベルを決定
する。これは非監視発声確認（unsupervised utterance
verification）と呼ばれる。監視発声確認（supervise
d utterance verification）の実施例では、処理された
ビデオ信号が、ビデオ信号に関連付けられる音声信号を
表すスクリプトと比較されて、信号間の相関のレベルを
決定する。

【００１０】もちろん、前述の実施例またはプロセスの
任意の１つが、他の１つ以上の実施例またはプロセスと
結合されて、更に追加の音声認識及び音声検出の改善を
提供し得ることが理解されよう。

【００１１】また、ビデオ及び音声信号は、例えばＭＰ
ＥＧ−２規格などの圧縮形式であっても良い。信号はラ
イブ・カメラ／マイクロフォン・フィードや、記憶済み
（アーカイバルすなわち記録保管用）フィードからも到
来し得る。更に、ビデオ信号は、可視または非可視（例
えば赤外線または無線周波）波長のイメージを含み得
る。従って、本発明の方法は、不十分な照明若しくは変
化する照明により、或いは光条件無しに実行され得る。
本発明の教示に従い、当業者であれば、本発明の様々な
アプリケーションが考慮できよう。

【００１２】

【発明の実施の形態】

【数１】は、以降ハットＸと記載する。

【００１３】本発明は話者認識の実施例の状況におい
て、説明される。実施例は、識別及び確認方法の両方を
含む。しかしながら、本発明は特定のアプリケーション
または構造的実施例に限られるものではない。むしろ、
本発明はより一般的には、認識プロセスの間に、視覚情
報を対応する音声情報と一緒に使用することにより、話
者認識精度を改善し、発声確認を提供することが所望さ
れる任意の状況に適用可能である。

【００１４】最初に図１を参照すると、本発明の実施例
に従う視聴覚話者認識及び発声確認システムのブロック
が示される。この特定の実施例は、後述のように、決定
融合（decision fusion）アプローチを用いる視聴覚話
者認識を示す。

【００１５】本発明のシステムは、様々なソースから入
力信号を受信し得る。すなわち、本発明に従う処理のた
めの入力信号は、リアルタイム（例えばライブ・フィー
ド）・ソースまたはアーカイバル（例えば記憶済み）・
ソースから提供される。任意の内容ビデオ２は、ライブ
・ソースまたはアーカイバル・ソースから受信される入
力信号である。好適には、システムは任意の内容ビデオ
２として、ＭＰＥＧ−２（Moving Picture Expert Grou
p-2）規格などのビデオ規格に従い圧縮されたビデオを
受諾し得る。こうしたケースに適応するために、システ
ムは、圧縮ビデオ信号から圧縮音声信号を分離するビデ
オ・デマルチプレクサ８を含む。ビデオ信号が次にビデ
オ伸長器１０において伸長され、音声信号は音声伸長器
１２において伸長される。伸長アルゴリズムは標準のＭ
ＰＥＧ−２技術であるので、ここではこれ以上触れない
ことにする。いずれの場合にも、他の形式の圧縮ビデオ
も本発明に従い処理され得る。

【００１６】本発明が提供する利点の１つは、任意の内
容ビデオを処理する能力である。すなわち、音声認識の
状況において、ビデオ・ソースからの視覚的な手がかり
を利用しようとした従来のシステムは、管理された条件
を有するビデオ、すなわち任意でない内容ビデオを利用
した。すなわち、ビデオ内容は顔だけを含み、そこから
視覚的な手がかりを取り出すことにより、もっぱら無騒
音環境において、短い命令または単語を認識しようとし
た。しかしながら、以下で詳述するように、本発明のシ
ステムは、顔だけでなく騒音環境において任意の背景オ
ブジェクトも含む任意の内容ビデオを処理できる。任意
の内容ビデオの１例は、放送ニュースの状況において見
られる。こうしたビデオはことによると、背景に任意の
活動や騒音が存在する所で話している報道記者を含みう
る。こうしたケースにおいて、後述のように、本発明は
顔を、より詳細には口元及び他の顔のフィーチャを突き
止め追跡することにより、話者をより正確に識別及び確
認するために使用される関連視覚情報を決定することが
できる。

【００１７】或いは、本発明のシステムは、ビデオ・カ
メラ４及びマイクロフォン６から、リアルタイムの任意
の内容を直接受信できる。カメラ４から受信されるビデ
オ信号、及びマイクロフォン６から受信される音声信号
は、図１では圧縮されずに示されるが、これらは圧縮さ
れてもよく、その場合、適用される圧縮方式に従い伸長
される必要がある。

【００１８】カメラ４により捕獲されるビデオ信号は、
必ずしも特定のタイプである必要はない。すなわち、本
発明の顔の検出及び認識技術は、例えば可視または非可
視電磁スペクトル・イメージなどの任意の波長のイメー
ジを処理し得る。例えば、これは赤外線（ＩＲ）イメー
ジ（例えば近距離場、中距離場、及び遠距離場ＩＲビデ
オ）及び無線周波（ＲＦ）イメージを含み得る。従っ
て、システムは不十分な照明条件、変化する照明条件、
または光の無い環境において、視聴覚話者認識及び発声
確認技術を実行し得る。例えば、システムは自動車また
は他の型式の車両に導入されて、ＩＲイメージを捕獲す
ることができ、それにより改善された話者認識が実行さ
れ得る。音声情報だけを使用する従来の話者認識システ
ムは、騒音状態により妨害されたが、本発明に従う話者
認識プロセスでは、ビデオ情報（すなわち可視及び非可
視電磁スペクトル・イメージを含む）が使用されるの
で、システムは騒音状態による認識誤りを受けにくい。
更に、Francine J．Prokoski及びRobert R．Riedelによ
る"Infrared Identification of Faces and Body Part
s"、BIOMETRICS、Personal Identification in Network
ed Society、Kluwer Academic Publishers、1999で開示
されるように、赤外線カメラは、個人を比類無く非常に
特徴付ける追加の非常にロバストな生物測定学的フィー
チャを導入する。

【００１９】ローマ数字Ｉにより示される破線は、音声
情報信号がシステム内で伝わる処理経路を表し、ローマ
数字ＩＩにより示される破線は、ビデオ情報信号がシス
テム内で伝わる処理経路を表す。最初に、音声信号経路
Ｉについて、次にビデオ信号経路ＩＩについて述べ、最
後に、２つのタイプの情報が結合されて、改善された話
者認識精度を提供する様子について述べることにする。

【００２０】システムは音声フィーチャ抽出器１４を含
む。音声フィーチャ抽出器１４は音声信号を受信し、既
知のように、信号から一定間隔でスペクトル・フィーチ
ャを抽出する。スペクトル・フィーチャは音響フィーチ
ャ・ベクトル（信号）の形式であり、これは次に音声話
者認識モジュール１６に渡される。前述のように、音声
信号はビデオ信号のソースに応じて、音声伸長器１２か
ら受信されるか、或いは直接マイクロフォン６から受信
される。音響ベクトルが抽出される前に、音声信号は１
６ｋＨｚのサンプリング・レートでサンプリングされ得
る。フレームは、２５ミリ秒の期間を有する音声のセグ
メントを含み得る。こうした構成では、抽出プロセスは
好適には、後述のプロセスを介して、２４次元音響ケプ
ストラム・ベクトルを生成する。フレームは１０ミリ秒
ごとに進行されて、続く音響ベクトルを獲得する。

【００２１】最初に、好適な音響フィーチャ抽出プロセ
スに従い、フレーム内の音声データのサンプルの離散フ
ーリエ変換の振幅が、対数的に歪曲した周波数目盛りに
おいて考慮される。次に、これらの振幅値自体が対数目
盛りに変換される。後者の２ステップは、周波数及び振
幅に対する人の聴覚の対数感度により、動機付けされ
る。続いて、離散コサイン変換形式の回転が適用され
る。動力学を捕獲する１方法は、デルタ（１次差分）及
びデルタ−デルタ（２次差分）情報を使用する。動力学
情報を捕獲する別の方法は、考慮対象のベクトルに前後
のベクトルのセット（例えば４つ）を追加し、次にベク
トルを最も大きな差異を有するとして選択された低次元
空間に投影する。後者のプロシージャは、線形判別分析
（Linear Discriminant Analysis（ＬＤＡ））として知
られ、公知である。例えばＬＰＣケプストラムやＰＬＰ
などのフィーチャの他の変形も使用され得て、本発明は
任意の特定のタイプに制限されるものでないことが理解
されよう。

【００２２】図１に文字Ａにより示される音響フィーチ
ャ・ベクトルが抽出された後、それらは音声話者認識モ
ジュール１６に提供される。このモジュール１６は、抽
出された音響フィーチャ・ベクトルを用いて、話者認識
及び話者確認を実行することが理解されよう。話者識別
及び確認のプロセスは、従来の音響情報話者認識システ
ムを介して達成され得る。例えば、話者認識モジュール
１６は、１９９７年１月２８日付けの米国特許出願第７
８８４７１号"Text Independent Speaker Recognition
for Transparent Command Ambiguity Resolution and C
ontinuous Access Control"で述べられる認識技術を実
現し得る。

【００２３】モジュール１６において使用される典型的
な話者認識プロセスについて、次に述べる。典型的なシ
ステムが、H．Beigi、S．H．Maes、U．V．Chaudari及び
J．S．Sorensonにより、"IBM model-based and frame-b
y-frame speaker recognition"、Speaker Recognition
and its Commercial and Forensic Applications、Avig
non、France 1998で開示されている。典型的な話者識別
システムは、２つの技術、すなわちモデル・ベースのア
プローチ及びフレーム・ベースのアプローチを使用す
る。ここで述べる実験では、音声にもとづく話者識別に
おいて、フレーム・ベースのアプローチを使用する。フ
レーム・ベースのアプローチは、次のように述べられ
る。

【００２４】Ｍ_iをｉ番目の登録済み話者に対応するモ
デルとする。Ｍ_iは、パラメータ・セット｛μ_i,j、Σ
_i,j、ｐ_i,j｝_{j=1、..、ni}により定義される混合ガウス・
モデルにより表され、話者ｉのモデルの各ｎ_i要素の平
均ベクトル、分散行列、及び混合重みを含む。これらの
モデルは、ｄ次元ケプストラム・フィーチャ・ベクトル
を有する音声のＫ個のフレームのシーケンス｛ｆ_m｝
_m=1、..、Kから成る、トレーニング・データを用いて作成
される。話者識別の目標は、Ｎ個のフレームのシーケン
ス｛ｆ_n｝_n=1、..、Nにより表されるテスト・データを最
も良く説明するモデルＭを見い出すことである。ここで
は、次のフレーム・ベースの重み付けされた尤度距離指
標ｄ_i、nを使用して、決定を下す。

【数２】

【００２５】テスト・データからのモデルＭ_iの総距離
Ｄ_iは、全てのテスト・フレームに渡る距離の合計とし
て算出される。

【数３】

【００２６】従って、前記のアプローチは、最も近い適
合モデルを見い出し、そのモデルが表す人は、発声が処
理されている人と決定される。

【００２７】話者確認は同様に実行され得るが、データ
が記憶済みモデルと十分に一致するか否かを判断するた
めに、入力音響データが比較される。比較の結果、十分
な一致が見い出される場合、音声を発声している人が確
認される。一致は、一致を競合モデルと比較することに
より、受諾または拒絶される。これらのモデルは主張者
の話者と同様に、または話者独立に選択される（すなわ
ち単一の話者独立モデルまたはそれらのセット）。主張
者が勝利し、十分な余裕を持って勝利する場合、主張者
を受諾する（ここで余裕はモデルに対する尤度レベルま
たは距離にて計算される）。それ以外では、主張者は拒
絶される。登録において、話者の入力音声が収集され、
各話者を特徴付ける混合ガウス・モデルＭ_iを作成す
る。

【００２８】図１のビデオ経路ＩＩを参照しながら、本
発明に従い視覚情報を処理する方法について説明する。
本発明の視聴覚話者認識及び発声確認システムは、活動
話者の顔の細分化モジュール２０、及び顔認識モジュー
ル２４を含む。活動話者の顔の細分化モジュール２０
は、例えば前述のビデオ伸長器１０やカメラ４などの、
１つ以上のソースからビデオ入力を受信する。ここで話
者の顔検出は、圧縮データ領域において直接実行された
り、単にビデオ情報からではなく、音声及びビデオ情報
から実行され得る。いずれの場合にも、細分化モジュー
ル２０は一般に、任意のビデオ背景内において、話者の
顔や顔のフィーチャを突き止め、追跡する。これについ
ては以下で詳述する。細分化モジュール２０から提供さ
れるデータから、識別及び確認操作が認識モジュール２
４により実行され、ビデオ内の話者と思われる人の顔を
識別及び確認する。確認はまた、スコアしきい値または
競合モデルを追加することにより、実行され得る。従っ
て、話者識別の視覚モードは、顔認識システムとして実
現され、そこではビデオ・シーケンス内で顔が見い出さ
れて追跡され、候補の顔のテンプレートのデータベース
との比較により認識される。以下で述べるように、発声
確認は、ある人がその人を認識するために使用される音
声を実際に発声したことを確認する技術を提供する。

【００２９】顔検出及び認識は、様々な方法で実行され
得る。例えば、赤外線カメラ４を使用する実施例では、
顔検出及び識別は、Francine J． Prokoski及びRobert
R．Riedelによる"Infrared Identification of Faces a
nd Body Parts"、BIOMETRICS、Personal Identificatio
n in Networked Society、Kluwer Academic Publisher
s、1999で開示されるように実行される。好適な実施例
では、Andrew Seniorによる"Face and feature finding
for face recognition system"、2nd Int．Conf．on A
udio-Video based Biometric Person Authentication、
Washington DC、March 1999で述べられる技術が使用さ
れる。以下では、細分化モジュール２０及び認識モジュ
ール２４によりそれぞれ実行される、顔検出及び認識に
ついて述べることにする。

【００３０】顔検出：顔はビデオ・フレーム内におい
て、様々な尺度、位置及び方向で発生する。このシステ
ムでは、顔が垂直位に近く、６６画素の高さよりも小さ
な顔が存在しないと仮定する。しかしながら、顔を残り
の全ての位置及び尺度においてテストするために、シス
テムはイメージ・ピラミッド内で固定サイズのテンプレ
ートを探索する。イメージ・ピラミッドは、オリジナル
・イメージを繰り返しダウン・サンプリングすることに
より、オリジナル・フレームの次第に低下する解像度表
現を提供することにより構成される。これらのサブ・イ
メージの各々内において、同一サイズの全ての正方領域
は、候補の顔位置としての顔テンプレート（通常１１×
１１画素）と見なすことにする。領域が顔を含むか否か
をテストするために一連のテストが使用される。

【００３１】最初に、領域は皮膚の色調の画素を高い割
合で含まねばならず、次に候補領域の輝度が、トレーニ
ング済みの顔モデルと比較される。色相−色度−輝度空
間の予め定義された直方体（cuboid）が皮膚の色調と見
なされ、候補領域が更に検討されるためには、皮膚の色
調の画素の割合がしきい値を超えなければならない。

【００３２】顔モデルは、クロップ（crop）され、正規
化されたグレースケールの顔イメージのトレーニング・
セットにもとづく。これらの顔の統計が収集され、様々
な分類器（classifier）がこれらの統計にもとづきトレ
ーニングされる。線形プログラムによりトレーニングさ
れたフィッシャ線形判別（Fisher linear discriminant
（ＦＬＤ））が、顔と背景イメージとを区別するために
見い出され、第１の方法により高スコアが得られると、
M．Turk及びA．Pentlandにより"Eigenfaces for Recogn
ition"、Journal of Cognitive Neuro Science、vol．
3、no．1、pp．71-86、1991で述べられるように、"顔ス
ペースからの距離（Distance from facespace（ＤＦＦ
Ｓ））"が、顔の画質にスコアを付けるために使用され
る。これらの両方の顔検出器からの高い結合スコアは、
候補領域が実際に顔であることを示す。高スコアの顔候
補に対して、尺度、位置及び回転の小さな摂動（pertur
bation）を有する候補顔領域もまたテストされ、摂動の
間の最大スコアリング候補が選択されて、これらの３つ
のパラメータの洗練された推定値を提供する。

【００３３】続くフレームにおいて、新たな顔の位置を
予測するために、速度推定値を用いて顔が追跡され、類
似の尺度及び回転を有する予測位置の近傍の候補領域に
おいて、モデルを用いて顔が探索される。低いスコアは
追跡の失敗と解釈され、アルゴリズムは網羅的な探索に
より再度開始する。

【００３４】顔認識：顔を見い出すと、Ｋ個の顔のフィ
ーチャが、顔検出のために使用されたのと同一の技術
（ＦＬＤ及びＤＦＦＳ）を用いて突き止められる。フィ
ーチャは階層アプローチを用いて見い出され、そこでは
目、鼻及び口などの大縮尺のフィーチャが最初に見い出
され、次にこれらのフィーチャに比較して、サブフィー
チャが見い出される。２９もの数のサブフィーチャが使
用され、それらには生えぎわ、顎、耳、口角、鼻、目及
び眉毛が含まれる。従来の統計が、顔及びフィーチャ位
置に対して、それぞれ各フィーチャ及びサブフィーチャ
の探索領域を制限するために使用される。推定されたサ
ブフィーチャ位置の各々において、L．Wiskott及びC．v
on der Malsburgによる"Recognizing Faces by Dynamic
Link Matching"、Proceedings of the International
Conference on Artificial Neural Networks、pp．347-
352、1995で述べられるガボール・ジェット（Gabor Je
t）表現が生成される。ガボール・ジェットは２次元ガ
ボール・フィルタのセットであり、各々はガウスにより
変調される正弦波である。各フィルタは、尺度（正弦波
長及び固定比率のガウス標準偏差）及び（正弦波の）方
向を有する。ここでは５つの尺度及び８つの方向を使用
する。従って、各フィーチャ位置において、４０の複素
係数（ａ（ｊ）、ｊ＝１、．．、４０）が与えられる。

【００３５】トレーニング済みの顔のフィーチャ・ベク
トルと、テスト候補との間の距離を計算するために、単
純な距離測定基準（distance metric）が使用される。
フィーチャｋについて、ｉ番目のトレーニング済み候補
とテスト候補との間の距離は、次のように定義される。

【数４】

【００３６】これらの類似式の単純平均、すなわち

【数５】

【００３７】は、テスト顔とデータベース内の顔テンプ
レートとの類似度の全体指標を与える。従って、類似度
指標にもとづき、検討中のビデオ・シーケンス内の人の
識別及び確認が実行される。

【００３８】次に、顔認識モジュール２４及び音声話者
認識モジュール１６の結果が、それぞれ信頼度推定ブロ
ック２６及び１８に提供され、そこで信頼度推定が実行
される。信頼度推定は、認識された入力に関して決定さ
れる尤度または他の信頼度指標を指し示す。１実施例で
は、信頼度推定プロシージャは、音声信号及びビデオ信
号にそれぞれ関連付けられる雑音レベルの測定を含む。
これらのレベルはシステムの内部において、または外部
において測定される。信号に関連付けられる高レベルの
雑音は、一般に、その信号に関連付けられる認識結果に
帰属する信頼度が低いことを意味する。従って、これら
の信頼度指標は、後述の視覚及び音響結果の重み付けの
間に考慮される。

【００３９】それぞれのモジュール１６及び２４により
提供される、音声ベースの話者認識スコア及び顔認識ス
コアが与えられると、視聴覚話者識別／確認は、識別／
確認結合モジュール３０により、次のように実行され
る。上位のＮスコアは、音声及びビデオ・ベースの両方
の識別技術にもとづき生成される。２つのリストが重み
付け合計により結合され、最大スコアリング候補が選択
される。重みはスケーリング・ファクタまで定義されれ
ばよいので、ここでは結合スコアＳ_i ^avを、単一パラメ
ータαの関数として、次のように定義する。

【数６】

【００４０】混合角（mixture angle）αは、音声識別
及び顔識別の相対信頼度に従い選択されなければならな
い。これを達成する１方法は、特定のトレーニング・デ
ータの視聴覚精度を最大化するように、αを最適化する
ことである。ここでＤ_i（ｎ）及びＳ_i（ｎ）により、ｉ
番目の登録話者（ｉ＝１．．．Ｐ）に対して、ｎ番目の
トレーニング・クリップにおいて計算された音声ＩＤ
（識別）及びビデオＩＤスコアを表すものとする。ｎ番
目のクリップがｉ番目の話者に属するとき、変数Ｔ
_i（ｎ）を０と定義し、それ以外では１と定義する。最
小化される費用関数は、N．V．Vapnikによる"The Natur
e of Statistical Learning Theory"、Springer、1995
で述べられるように、経験誤差（empirical error）で
あり、これは次のように表される。

【数７】

【００４１】ここでＳ_i ^av（ｎ）は次のようである。

【数８】

【００４２】ここでオーバ・フィッティングを防止する
ために、H．Neyによる"On the Probabilistic Interpre
tation of Neural Network Classification and Discri
minative Training Criteria"、IEEE Transactions on
Pattern Analysis and Machine Intelligence、Vol．1
7、no．2、pp．107-119、1995で述べられるように、次
式で定義される平滑化された誤り率に頼ることができ
る。

【数９】

【００４３】ここでηが大きいとき、ｉ＝ハットｉ（以
下、＾記号はハットと記す）を除き、内側の総和の全て
の項は０に近づき、Ｃ'（α）は生の誤り件数Ｃ（α）
に近づく。そうでない場合、全ての不正な仮説（Ｔ
_i（ｎ）＝１に対する仮説）が、それらのスコアと最大
スコアとの間の距離の減少関数として寄与する。最善の
仮説が不正の場合、それが最も大きな寄与を有する。従
って、後者の費用関数を最小化することにより、トレー
ニング・データの認識精度だけでなく、最善のスコアが
勝利する余裕も最大化する傾向がある。この関数はま
た、微分可能な利点を提供し、２つ以上のパラメータが
存在するとき、最適化プロセスを容易にする。

【００４４】本発明は、従来技術により導出される別の
決定またはスコア融合技術を提供するが、トレーニング
を必要としない。この技術は、テスト時に各クリップに
対して、αの値を最高のスコアと２番目に高いスコアと
の差を最大化する所与の範囲内で選択する。対応する最
善の仮説Ｉ（ｎ）が次に選択され、次式が得られる。

【数１０】

【００４５】及び

【数１１】

【００４６】α₁及びα₂の値は、インタバル［０．．．
Π／２］に制限されるべきである。この技術の理論的根
拠は次のようである。｛Ｄ_i、Ｓ_i｝平面において、正し
い決定に対応するポイントは、他のポイントから離れて
存在すると期待される。固定の線形重みは、このポイン
トが他のポイントに対して見い出される"方向"が、常に
同一であると仮定するが、これは必ずしも正しくない。
前記のハットα（ｎ）及びＩ（ｎ）に関する式は、α₁
とα₂との間の任意の方向において、他のポイントから
最も遠く離れたポイントを見い出す。

【００４７】別の解釈は、最善の結合スコアと次善のス
コアとの間の距離が、決定の信頼度の標識であるとす
る。提案される方法は、信頼度指標を最大化する重みを
適応的に選択する。

【００４８】従って、識別／確認結合モジュール３０
は、話者に関する決定を下す。確認過程では、前述の技
術の１つにもとづき、音響経路及び視覚経路の両方を介
して、話者が確認される場合、話者を受諾する決定が下
される。しかしながら、話者が一方の経路においてのみ
確認される場合、話者は拒絶される。識別過程において
は、例えば、顔識別プロセスからの上位の３つのスコア
が、音響話者識別プロセスからの上位の３つのスコアと
結合される。次に、最も高い結合スコアが話者として識
別される。

【００４９】好適な実施例では、システムが話者に関す
る最終処置を下す前に、システムは発声確認操作を実行
する。発声確認は、音響フィーチャ抽出器１４及び視覚
的発話フィーチャ抽出器２２からの入力にもとづき、発
声確認モジュール２８（図１）により実行される。発声
確認について述べる前に、視覚的発話フィーチャ・ベク
トルを抽出する技術について述べることにする。特に、
視覚的発話フィーチャ抽出器２２は、活動話者の顔の細
分化モジュール２０によりビデオ・フレーム内で検出さ
れる顔から、図１において文字Ｖとして示される視覚的
発話フィーチャ・ベクトル（例えば口または唇に関連す
るパラメータ）を抽出する。

【００５０】抽出され得る視覚的発話フィーチャの例に
は、口元領域のグレースケール・パラメータや、口元領
域の面積、高さ、幅などの幾何学／モデル・ベースのパ
ラメータや、内側／外側の輪郭のスプライン・パラメー
タを曲線近似することにより到達する唇の輪郭や、３次
元追跡により獲得される動きパラメータなどが含まれ
る。モジュール２２を介して抽出される更に別のフィー
チャ・セットも、前記ファクタを考慮に入れる。こうし
た技術は、アクティブ・シェイプ・モデリングとして知
られ、Iain Matthewsによる"Features for audio visua
l speech recognition"、Ph．D dissertation、School
of Infomation Systems、University of East Angali
a、January 1998で述べられている。

【００５１】視覚的発話フィーチャ抽出器２２は、１つ
以上の既知の視覚フィーチャ抽出技術を実現し得るが、
１実施例では、抽出器はイメージの口元領域に関連付け
られるグレースケール・パラメータを抽出する。尺度及
び回転の正規化の後、唇の角部の位置が与えられると、
矩形の中心部に唇領域を含む矩形領域が、オリジナルの
伸長されたビデオ・フレームから抽出される。既知のよ
うに、主成分分析（Principal Component Analysis）
が、グレースケール値のこのベクトルから、小さな次元
のベクトルを抽出するために使用され得る。

【００５２】モジュール２２内で実現され得る視覚フィ
ーチャ・ベクトルを抽出する別の方法は、幾何学的フィ
ーチャを抽出する。これは唇の輪郭の幾何形状及びその
時間動力学から、音素またはバイセム情報（visemic in
fomation）を抽出する。典型的なパラメータは、口の角
部、開きの高さまたは面積、内側及び外側の唇の曲率で
ある。例えば歯や舌などの調音器官の位置も、カメラに
より認識できる点で、フィーチャ・パラメータとなり得
る。

【００５３】グレースケール値からのこれらのパラメー
タの抽出方法は、パラメータ値に関連付けられる唇の輪
郭と、グレースケール・イメージとの間の不一致を示す
関数（例えば費用関数）の最小化を含み得る。また、こ
れらのパラメータの抽出において、色情報も使用され得
る。

【００５４】捕獲（または逆多重化及び伸長）されたビ
デオ・ストリームから、境界検出を実行し、その究極の
結果がパラメータ化された輪郭、例えば円、放物線、楕
円、またはより一般的にはスプライン曲線である。これ
らの各々は、パラメータの有限セットにより記述され
る。

【００５５】抽出され得る更に他のフィーチャには、動
画のためにコンピュータ・グラフィックスにおいて使用
されるタイプの、２次元または３次元ワイヤ・フレーム
・モデル・ベースの技術が含まれる。ワイヤ・フレーム
は非常に多数の三角形パッチから構成され得る。これら
のパッチは一緒に、口／唇／顎領域の構造表現を提供
し、各々は読話における有用なフィーチャを含む。これ
らのパラメータはまた、イメージのグレースケール値と
一緒に使用されて、両方の技法の相対的な利点を得るよ
うにする。

【００５６】抽出器２２から抽出された視覚的発話フィ
ーチャ・ベクトル（Ｖ）、及び抽出器１４からの音響フ
ィーチャ・ベクトル（Ａ）が与えられると、ＡＶ発声検
証器２８が確認を実行する。確認は、例えば音声をバイ
セム（viseme）のランダム・シーケンスに整列する結果
の尤度の比較を含み得る。既知のように、バイセムまた
は視覚音素（visual phonemes）は、音響音素と類似に
分類され、事前に記憶される音声発声を伴う、一般に規
範的な口形状である。発声確認に関連付けられる目標
は、音声経路Ｉにおいて話者を確認するために使用され
る音声と、ビデオ経路ＩＩにおいて話者を確認するため
に使用される視覚的手がかりとが、相関または整合する
と決定することである。これはシステムが、話者を認識
するために使用される音声データが、実際に話者が発声
したものであることを確かめることを可能にする。こう
した決定は、多くの利点を有する。例えば、発声確認か
ら、ユーザが記録済みのテープ再生に口合わせして、シ
ステムを騙そうとしているか否かを決定できる。また、
発声確認から、音声復号経路内の誤りが検出され得る。
誤りの数に応じて、信頼度指標が生成され、システムに
より使用され得る。

【００５７】図２を参照すると、本発明の実施例に従う
発声確認方法のフロー図が示される。発声確認は、ｉ）
監視モード、すなわちテキスト（スクリプト）が知れて
おり、システムにとって使用可能なときのモードと、i
i）非監視モード、すなわちテキスト（スクリプト）が
知れておらず、システムにとって使用可能でないときの
モードにおいて実行される。

【００５８】ステップ２０２Ａ（非監視モード）で、確
認されるべき発声音声が、古典的音声認識技術により復
号化され、復号化スクリプト及び関連する時間合わせが
使用可能になる。これは音響フィーチャ抽出器１４から
のフィーチャ・データを用いて達成される。同時に、ス
テップ２０４で、視覚フィーチャ抽出器２２からの視覚
的発話フィーチャ・ベクトルが、視覚音素またはバイセ
ム・シーケンスを生成するために使用される。

【００５９】次にステップ２０６で、復号化スクリプト
がバイセムと整合される。２つの情報ストリームを同期
するために、迅速な（または他の）整合が、従来通り実
行される。例えば、１実施例では、米国特許出願第０１
５１５０号（出願人整理番号ＹＯ９９７３８６）"Appar
atus and Method for Generating Phonetic Transcript
ion from Enrollment Utterances"で開示される迅速な
整合が採用される。一方、監視モードでは、ステップ２
０２Ｂがステップ２０２Ａを置換し、ステップ２０６
で、復号化バージョンのスクリプトではなく、期待され
るまたは既知のスクリプトがバイセムと整合される。次
にステップ２０８で、整合の尤度が計算されて、スクリ
プトが視覚データにどの程度良く整合するかを決定す
る。次に、尤度の結果が決定ブロック３２（図１）に提
供されて、これがスコア・モジュール３０の結果と共
に、話者の最終処置、すなわち話者を受諾するか拒絶す
るかを決定する。これは様々な装置、アプリケーショ
ン、施設などへのアクセスを許可または拒絶するために
使用され得る。

【００６０】従って、非監視発声確認モードでは、シス
テムは、ユーザが再生装置を使用して、自分の唇を動か
しているのではなく、実際に話していることをチェック
できる。また、先験的に誤りが音声復号化において検出
され得る。監視モードでは、認識されたテキストが抽出
された唇パラメータに十分に整合または相関付けられる
場合、システムはユーザがテキストを発声したことを証
明できる。

【００６１】非監視モードにおける発声確認は、本願と
同時に出願された米国特許出願（出願人整理番号ＹＯ９
９９３１７）"Method and Apparatus for Audio-Visual
Speech Detection and Recognition"で開示されるよう
に、音声検出を実行するために使用され得る。実際、音
響及び視覚活動が検出される場合、それらが互いに確認
される。結果の音響発声が受諾されるとき、システムは
音声が検出されたものと見なす。それ以外では、無関係
な活動が存在すると見なされる。

【００６２】図３を参照すると、視聴覚話者認識及び発
声確認システムの別の実施例が示される。図１の実施例
は、決定またはスコア融合アプローチを示したが、図３
の実施例は、フィーチャ融合アプローチを示す。図３の
システムの動作は、図１に関連して前述した動作と実質
的に同一であるが、図３の実施例は、結合されたＡＶフ
ィーチャ・ベクトルに対して、識別／確認決定を下す追
加の利点を有する。フィーチャ融合アプローチによれ
ば、音響フィーチャ抽出器１４からの音響フィーチャ
（例えばメル・ケプストラム及び導関数）と、顔細分化
モジュール２０から検出された視覚的な顔のフィーチャ
（例えば主方向に関する顔の分解または顔の形態学パラ
メータ）とを結合する、１つのフィーチャ・ベクトルが
生成される。

【００６３】これらのフィーチャは次に結合されて、１
つの視聴覚フィーチャ・ベクトルを形成する。この結合
を実行する多くの方法が存在する。１方法は、音声フィ
ーチャ・データと視覚フィーチャ・データとを連結す
る。しかしながら、ＭＰＥＧ−２伸長ビデオは毎秒３０
フレームを生成するのに対して、音声フレームは約１０
ミリ秒の間隔をあけられるので、フィーチャ間の同期が
必要となる。音声領域における、より大きなフレーム・
レートに対する要求は、隣接ビデオ・フレームからの補
間により、人口フレームを生成することにより満足され
る。従来の異なる補間技術がこの目的のために使用され
得る。それらには例えば、その時刻の直前及び直後のフ
レームからの線形補間や、他の多項式補間技術などがあ
り、後者は例えば、音声フレームが発生する時刻の過去
及び将来において、２つ以上のフレームを考慮する。

【００６４】図１のモジュール３２に関連して前述した
ような決定操作は、視聴覚結合フィーチャ・ベクトルに
対して実行される。図示のように、発声確認は最終決定
ブロック３２においても適用され得る。

【００６５】図４及び図５を参照すると、視聴覚話者認
識システムの別の実施例が示される。これらの実施例は
再スコアリング・アプローチを示す。図４及び図５のシ
ステムの動作は、図１に関連して前述した動作と実質的
に同一であるが、図４及び図５の実施例は、ビデオ情報
及び音声情報を直列に用いて、他方を再スコアリングす
る追加の利点を有する。図４では、音声話者認識器１６
の結果が顔認識器２４に提供されて、顔認識操作におい
て使用される。図５では、顔認識器２４の結果が音声話
者認識器１６に提供されて、音声話者認識操作において
使用される。いずれの実施例でも、１モダリティで実行
される確認／識別プロセスは、他のモダリティで実行さ
れる確認／識別プロセスを変更するために使用される。
この時、１つの信頼度推定及び決定が下される。例えば
音声ストリームに由来する認識プロセスの１つの結果
は、例えば、ビデオ・ストリーム内で考慮される候補を
狭めるために使用され得る。更に別の例では、ビデオ・
ストリームが、話者のように見える人たちの競合モデル
を生成し、これらの人たちだけにもとづいて、話者が音
響的に識別または確認される。本発明の教示を参考にし
て、当業者は他の実施例を考案できよう。

【００６６】図１及び図３乃至図５に示される本発明の
システムは、ユーザ登録を実行し得る。システムは既知
の登録技術を使用し得る。音響情報の登録のために、話
者の入力音声が収集されて、各話者を特徴付ける混合ガ
ウス・モデルＭ_iが作成される。顔情報の登録のため
に、Andrew Seniorによる"Face and feature finding f
or face recognition system"、2nd Int．Conf．on Aud
io-Video based Biometric Person Authentication、Wa
shington DC、March 1999で開示される技術が採用され
得る。また、赤外線イメージの登録のために、Francine
J．Prokoski及びRobert R．Riedelによる"Infrared Id
entification of Faces and Body Parts"、BIOMETRIC
S、Personal Identification in Networked Society、K
luwer Academic Publishers、1999で開示される技術が
採用され得る。結果の生物測定は、各モダリティにおけ
る異なる生物測定の結合である（ことによると、フィー
チャ融合アプローチとして結合され、余分な回転及び線
形判別分析（ＬＤＡ）が結合フィーチャに適用され
る）。

【００６７】図６を参照すると、本発明に従う視聴覚話
者認識及び発声確認システムのハードウェア実施例のブ
ロック図が示される。この特定の実施例では、プロセッ
サ６０２がメモリ６０４及びユーザ・インタフェース６
０６に接続されて、図１及び図３乃至図５に示される本
発明のシステムに関連付けられる様々な操作を制御及び
実行する。ここで用語"プロセッサ"は、例えばＣＰＵ
（中央処理ユニット）を含む装置など、任意の処理装置
を含むように意図される。例えば、プロセッサは既知の
デジタル信号プロセッサである。用語"プロセッサ"はま
た、２つ以上の個々のプロセッサを指し示し得る。用
語"メモリ"は、ここではプロセッサまたはＣＰＵに関連
付けられるメモリを含むように意図され、それらにはＲ
ＡＭ、ＲＯＭ、固定記憶装置（例えばハード・ディス
ク）、取り外し可能記憶装置（例えばディスケット）、
フラッシュ・メモリなどが含まれる。更に、用語"ユー
ザ・インタフェース"は、ここでは例えば、データを処
理ユニットに入力するための１つ以上の入力装置（例え
ばキーボード）、及び処理ユニットに関連付けられる結
果を提供するための１つ以上の出力装置（例えばＣＲＴ
表示装置及びプリンタ）を含むように意図される。ユー
ザ・インタフェース６０６はまた、ユーザ音声を受信す
るマイクロフォンを含み得る。

【００６８】従って、ここで述べられる本発明の方法を
実行する命令またはコードを含むコンピュータ・ソフト
ウェアは、１つ以上の関連記憶装置（例えばＲＯＭ、固
定または取り外し可能記憶装置）に記憶され、使用準備
が整うと、（例えばＲＡＭに）部分的にまたは全体的に
ロードされてＣＰＵにより実行される。いずれの場合に
も、図１及び図３乃至図５に示される要素は、様々な形
態のハードウェア、ソフトウェア、またはそれらの組み
合わせにより実現され得て、それらには、例えば関連メ
モリを有する１つ以上のデジタル信号プロセッサ、アプ
リケーション特定集積回路、機能回路、関連メモリを有
する１つ以上の適切にプログラムされた汎用デジタル・
コンピュータなどが含まれる。ここで述べた本発明の教
示により、当業者であれば、本発明の要素の他の実施例
も考案できよう。

【００６９】実験結果：全ての実験は、ＬＤＣ（Lingui
stic Data Consortium）によりＡＲＰＡＨＵＢ４放送
ニュース録画タスクの一部として収集された、ＣＮＮ及
びＣＳＰＡＮビデオ・データに対して実行された。本発
明者は、ビデオ・テープから、アンカ及びレポータの２
０秒乃至４０秒クリップ（彼らの顔の正面ショットを有
する）を、ＭＰＥＧ−２形式にデジタル化した。トレー
ニング・データは７６人の話者の７６クリップを含み、
テスト・データは同じ７６人の話者からの１５４の追加
のクリップを含んだ。

【００７０】視聴覚話者認識における主要課題は、暗騒
音やチャネル不一致により、テスト状態とトレーニング
状態との間に大きな不一致が存在するとき、性能を改善
することである。これらの状態の下で、ビデオ情報を組
み合わせる利点を証明するために、本発明者はトレーニ
ング状態とテスト状態との間の不一致を、人口的に生成
した。雑音の不一致は、約１０ｄＢの信号対雑音比で、
音声雑音を音声信号に追加することにより生成した。電
話チャネル不一致は、電話チャネル・フィルタを通じて
広帯域音声信号を通過させ、それを８ｋＨｚにダウン・
サンプリングすることにより生成した。電話チャネル・
フィルタは、３００Ｈｚ乃至３３００Ｈｚの間のバンド
パス・フィルタである。

【００７１】また、本発明者が電話チャネル・データに
テストした音声ベースの識別アルゴリズムは、電話チャ
ネル・データにもとづきトレーニングされた。雑音のあ
るデータに対しては、クリーン・データにもとづきトレ
ーニングされた音声ベースの識別アルゴリズムが使用さ
れた。一致及び不一致状態の両方において、線形融合技
術がテストされた。

【００７２】図７の表１は、異なるテスト状態及び融合
技術の認識精度を示す。最初の２行は、音声専用ＩＤ及
びビデオ専用ＩＤの精度を提供する。次の４行は、幾つ
かの線形融合実験の結果を示す。融合重みの最適化のた
めに、トレーニング・データが必要とされるので、１５
４クリップが７７の２つのセットに分割され、同一の話
者の発生が均等に分割された。融合重みはセット１にも
とづいてトレーニングされ、次にセット２にテストされ
た。またその逆も実行された。合計テスト回数は、最初
の２行同様、１５４である。ハード最適化は、前記Ｃ
（α）の式の生誤りカウントを指し示し、ソフト最適化
は、Ｃ'（α）の式の平滑化された費用関数を指し示
す。雑音のあるデータ及び電話チャネル・データでは、
行３及び行４は、（セット２をテストするときには、セ
ット１の、またはその逆の）クリーン・データに対して
最適化された融合重み、すなわち融合不一致状態を指し
示し、行５及び行６は、雑音のあるデータまたは電話チ
ャネル・データに対して最適化された融合重み（一致融
合）を指し示す。最後に、行７及び行８は、"ファーゼ
スト・アウトライア（farthest outlier）"方法の結果
を示す。選択α₂＝Π／４（行８）は、ビデオ及び音声
ＩＤスコアの信頼度に関する以前の知識により動機付け
される。すなわち、分類器は高い音声スコアだけの理由
から、仮説を選択することを許可されるが、高いビデオ
・スコアだけでは十分でない。

【００７３】線形結合視聴覚識別は、雑音のある音声デ
ータに対する精度を著しく向上する一方、クリーン・デ
ータにおいては僅かに悪化する。結果の詳細分析から、
後者の場合、トレーニング・データの量が、融合重みを
適切にトレーニングするのに不十分であることが示され
る。しかしながら、トレーニングを必要としない"ファ
ーゼスト・アウトライア"技術は、この問題を克服でき
る。また、平滑化された費用関数は、あるテスト・セッ
トから他のセットに、及び一致状態から不一致状態に一
般化するのを支援する。

【００７４】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００７５】（１）話者認識を実行する方法であって、
任意の内容ビデオ・ソースに関連付けられるビデオ信号
を処理するステップと、ビデオ信号に関連付けられる音
声信号を処理するステップと、処理された音声信号及び
処理されたビデオ信号にもとづき、識別決定及び確認決
定の少なくとも一方を下すステップとを含む方法。（２）ビデオ信号処理操作が、任意の内容ビデオ・ソー
スに関連付けられるビデオ信号が、１つ以上の顔を含む
か否かを検出するステップを含む、前記（１）記載の方
法。（３）ビデオ信号処理操作が、検出された１つ以上の顔
の１つ以上の顔のフィーチャを検出するステップを含
む、前記（２）記載の方法。（４）顔及び顔のフィーチャの検出の少なくとも一方
が、フィッシャ線形判別（ＦＬＤ）分析を使用する、前
記（３）記載の方法。（５）顔及び顔のフィーチャの検出の少なくとも一方
が、顔空間からの距離（ＤＦＦＳ）指標を使用する、前
記（３）記載の方法。（６）ビデオ信号処理操作が、検出された顔のフィーチ
ャを用いて、検出された顔から１つ以上の顔を認識する
ステップを含む、前記（３）記載の方法。（７）ビデオ信号処理操作が、顔認識操作の結果に対し
て信頼度推定プロシージャを実行するステップを含む、
前記（６）記載の方法。（８）音声信号処理操作が、音声信号に関連付けられる
話者を認識するステップを含む、前記（６）記載の方
法。（９）音声信号処理操作が、音声話者認識操作の結果に
対して信頼度推定プロシージャを実行するステップを含
む、前記（８）記載の方法。（１０）顔認識操作及び音声話者認識操作のそれぞれの
結果が、識別決定及び確認決定の少なくとも一方を下す
ために使用される、前記（８）記載の方法。（１１）結果が、顔認識操作及び音声話者認識操作の間
に生成される上位Ｎ個のそれぞれのスコアを含む、前記
（１０）記載の方法。（１２）上位Ｎ個のそれぞれのスコアが混合パラメータ
を用いて結合される、前記（１１）記載の方法。（１３）混合パラメータが、顔認識操作及び音声話者認
識操作に関連付けられる信頼度指標に従い選択される、
前記（１２）記載の方法。（１４）混合パラメータが、誤り率を表す費用関数に従
い最適化される、前記（１３）記載の方法。（１５）混合パラメータが、平滑化された誤り率を表す
費用関数に従い最適化される、前記（１３）記載の方
法。（１６）混合パラメータが、最高のスコア及び２番目に
高いスコアを最大化する範囲内で選択される、前記（１
２）記載の方法。（１７）結果が結合されて、上位Ｎ個のそれぞれのスコ
アの１つのセットが、顔認識操作及び音声話者認識操作
のために生成され、決定を下すために使用される、前記
（１０）記載の方法。（１８）一方の認識操作の結果が、他方の認識操作の結
果を変更するために使用される、前記（１０）記載の方
法。（１９）決定が変更された結果にもとづく、前記（１
８）記載の方法。（２０）ビデオ信号及び音声信号の少なくとも１つが圧
縮信号である、前記（１）記載の方法。（２１）圧縮信号が処理操作の前に伸長される、前記
（１）記載の方法。（２２）任意の内容ビデオ・ソースがＭＰＥＧ−２規格
信号を提供する、前記（１）記載の方法。（２３）ビデオ信号が可視電磁スペクトル・イメージ、
非可視電磁スペクトル・イメージ、及び他の検出技術か
らのイメージの少なくとも１つを含む、前記（１）記載
の方法。（２４）音響情報及び視覚情報の少なくとも１つに従
い、ユーザを登録するステップを含む、前記（１）記載
の方法。（２５）登録操作の結果が複数のモダリティを表す結合
生物測定である、前記（２４）記載の方法。（２６）音声発声を確認する方法であって、ビデオ・ソ
ースに関連付けられるビデオ信号を処理するステップ
と、ビデオ信号に関連付けられる音声信号を処理するス
テップと、処理された音声信号を処理されたビデオ信号
と比較し、信号間の相関のレベルを決定するステップと
を含む方法。（２７）ビデオ信号処理操作が、ビデオ信号から視覚フ
ィーチャ・ベクトルを抽出するステップを含む、前記
（２６）記載の方法。（２８）ビデオ信号処理操作が、バイセムを抽出された
フィーチャ・ベクトルに関連付けるステップを含む、前
記（２７）記載の方法。（２９）音声信号処理操作が、音響フィーチャ・ベクト
ルを抽出し、抽出されたフィーチャを用いて、音声信号
を表す復号化スクリプトを生成するステップを含む、前
記（２８）記載の方法。（３０）復号化スクリプトがバイセムと整合される、前
記（２９）記載の方法。（３１）整合の尤度が計算され、確認決定を下すために
使用される、前記（３０）記載の方法。（３２）音声発声を確認する方法であって、ビデオ・ソ
ースに関連付けられるビデオ信号を処理するステップ
と、処理されたビデオ信号を、ビデオ信号に関連付けら
れる音声信号を表すスクリプトと比較し、信号間の相関
のレベルを決定するステップとを含む方法。（３３）話者認識を実行する装置であって、ｉ）任意の
内容ビデオ・ソースに関連付けられるビデオ信号を処理
し、ｉｉ）ビデオ信号に関連付けられる音声信号を処理
し、ｉｉｉ）処理された音声信号及び処理されたビデオ
信号にもとづき、識別決定及び確認決定の少なくとも一
方を下す少なくとも１つのプロセッサを含む、装置。（３４）ビデオ信号処理操作が、任意の内容ビデオ・ソ
ースに関連付けられるビデオ信号が、１つ以上の顔を含
むか否かを検出するステップを含む、前記（３３）記載
の装置。（３５）ビデオ信号処理操作が、検出された１つ以上の
顔の１つ以上の顔のフィーチャを検出するステップを含
む、前記（３４）記載の装置。（３６）顔及び顔のフィーチャの検出の少なくとも一方
が、フィッシャ線形判別（ＦＬＤ）分析を使用する、前
記（３５）記載の装置。（３７）顔及び顔のフィーチャの検出の少なくとも一方
が、顔空間からの距離（ＤＦＦＳ）指標を使用する、前
記（３５）記載の装置。（３８）ビデオ信号処理操作が、検出された顔のフィー
チャを用いて、検出された顔から１つ以上の顔を認識す
るステップを含む、前記（３５）記載の装置。（３９）ビデオ信号処理操作が、顔認識操作の結果に対
して信頼度推定プロシージャを実行するステップを含
む、前記（３６）記載の装置。（４０）音声信号処理操作が、音声信号に関連付けられ
る話者を認識するステップを含む、前記（３６）記載の
装置。（４１）音声信号処理操作が、音声話者認識操作の結果
に対して信頼度推定プロシージャを実行するステップを
含む、前記（４０）記載の装置。（４２）顔認識操作及び音声話者認識操作のそれぞれの
結果が、識別決定及び確認決定の少なくとも一方を下す
ために使用される、前記（４０）記載の装置。（４３）結果が、顔認識操作及び音声話者認識操作の間
に生成される上位Ｎ個のそれぞれのスコアを含む、前記
（４２）記載の装置。（４４）上位Ｎ個のそれぞれのスコアが混合パラメータ
を用いて結合される、前記（４３）記載の装置。（４５）混合パラメータが、顔認識操作及び音声話者認
識操作に関連付けられる信頼度指標に従い選択される、
前記（４４）記載の装置。（４６）混合パラメータが、誤り率を表す費用関数に従
い最適化される、前記（４５）記載の装置。（４７）混合パラメータが、平滑化された誤り率を表す
費用関数に従い最適化される、前記（４５）記載の装
置。（４８）混合パラメータが、最高のスコア及び２番目に
高いスコアを最大化する範囲内で選択される、前記（４
４）記載の装置。（４９）結果が結合されて、上位Ｎ個のそれぞれのスコ
アの１つのセットが、顔認識操作及び音声話者認識操作
のために生成され、決定を下すために使用される、前記
（４２）記載の装置。（５０）一方の認識操作の結果が、他方の認識操作の結
果を変更するために使用される、前記（４２）記載の装
置。（５１）決定が変更された結果にもとづく、前記（５
０）記載の装置。（５２）ビデオ信号及び音声信号の少なくとも１つが圧
縮信号である、前記（３３）記載の装置。（５３）圧縮信号が処理操作の前に伸長される、前記
（３３）記載の装置。（５４）任意の内容ビデオ・ソースがＭＰＥＧ−２規格
信号を提供する、前記（３３）記載の装置。（５５）ビデオ信号が可視電磁スペクトル・イメージ、
非可視電磁スペクトル・イメージ、及び他の検出技術か
らのイメージの少なくとも１つを含む、前記（３３）記
載の装置。（５６）プロセッサが音響情報及び視覚情報の少なくと
も１つに従い、ユーザを登録する、前記（３３）記載の
装置。（５７）登録操作の結果が複数のモダリティを表す結合
生物測定である、前記（５６）記載の装置。（５８）音声発声を確認する装置であって、ｉ）ビデオ・ソースに関連付けられるビデオ信号を処理
し、ｉｉ）ビデオ信号に関連付けられる音声信号を処理し、ｉｉｉ）処理された音声信号を処理されたビデオ信号と
比較し、信号間の相関のレベルを決定する少なくとも１
つのプロセッサを含む、装置。（５９）音声発声を確認する装置であって、ｉ）ビデオ・ソースに関連付けられるビデオ信号を処理
し、ｉｉ）処理されたビデオ信号を、ビデオ信号に関連付け
られる音声信号を表すスクリプトと比較し、信号間の相
関のレベルを決定する少なくとも１つのプロセッサを含
む、装置。（６０）話者認識を実行する方法であって、イメージ・
ソースに関連付けられるイメージ信号を処理するステッ
プと、イメージ信号に関連付けられる音声信号を処理す
るステップと、処理された音声信号及び処理されたイメ
ージ信号にもとづき、識別決定及び確認決定の少なくと
も一方を下すステップとを含む、方法。（６１）話者認識を実行する装置であって、ｉ）イメージ・ソースに関連付けられるイメージ信号を
処理し、ｉｉ）イメージ信号に関連付けられる音声信号を処理
し、ｉｉｉ）処理された音声信号及び処理されたイメージ信
号にもとづき、識別決定及び確認決定の少なくとも一方
を下す少なくとも１つのプロセッサを含む、装置。

【図面の簡単な説明】

【図１】本発明のスコアまたは決定融合実施例に従う、
視聴覚話者認識及び発声確認システムのブロック図であ
る。

【図２】本発明の実施例に従う発声確認方法のフロー図
である。

【図３】本発明のフィーチャ融合実施例に従う、視聴覚
話者認識及び発声確認システムのブロック図である。

【図４】本発明の再スコアリング実施例に従う、視聴覚
話者認識及び発声確認システムのブロック図である。

【図５】本発明の別の再スコアリング実施例に従う、視
聴覚話者認識及び発声確認システムのブロック図であ
る。

【図６】本発明に従う視聴覚話者認識及び発声確認シス
テムのハードウェア例のブロック図である。

【図７】幾つかの実験結果を示す表である。

【符号の説明】

２内容ビデオ４ビデオ・カメラ６マイクロフォン８ビデオ・デマルチプレクサ１０ビデオ伸長器１２音声伸長器１４音声フィーチャ抽出器１６音声話者認識モジュール１８、２６信頼度推定ブロック２０活動話者の顔の細分化モジュール２２視覚的発話フィーチャ抽出器２４顔認識モジュール２８発声確認モジュール３０識別／確認結合モジュール６０２プロセッサ６０４メモリ６０６ユーザ・インタフェース

───────────────────────────────────────────────────── フロントページの続き (72)発明者サンカー・バスアメリカ合衆国07670、ニュージャージー州テナフライ、ノース・サミット・ストリート 17 (72)発明者ハマユーン・エス・エム・ベイジアメリカ合衆国10598、ニューヨーク州ヨーク・タウン・ハイツ、エッジヒル・ロード 3616 (72)発明者ステファン・ハーマン・マースアメリカ合衆国06811、コネチカット州ダンバリー、ウィンターグリーン・ヒル・ロード１ (72)発明者ベノー・エマニュエル・ギスレイン・メゾンアメリカ合衆国10603、ニューヨーク州ホワイト・プレインズ、アパートメント５ユー、レイク・ストリート 11 (72)発明者チャラパシー・ベンカータ・ネティアメリカ合衆国10598、ニューヨーク州ヨークタウン・ハイツ、ハイ・リッジ・コート 235 (72)発明者アンドリュー・ウィリアム・セナーアメリカ合衆国10025−4960、ニューヨーク州ニューヨーク、アパートメント４ビィ、ウエスト・エンド・アベニュー 864

Claims

【特許請求の範囲】

【請求項１】話者認識を実行する方法であって、任意の内容ビデオ・ソースに関連付けられるビデオ信号
を処理するステップと、ビデオ信号に関連付けられる音声信号を処理するステッ
プと、処理された音声信号及び処理されたビデオ信号にもとづ
き、識別決定及び確認決定の少なくとも一方を下すステ
ップとを含む方法。
【請求項２】ビデオ信号処理操作が、任意の内容ビデオ
・ソースに関連付けられるビデオ信号が、１つ以上の顔
を含むか否かを検出するステップを含む、請求項１記載
の方法。
【請求項３】ビデオ信号処理操作が、検出された１つ以
上の顔の１つ以上の顔のフィーチャを検出するステップ
を含む、請求項２記載の方法。
【請求項４】顔及び顔のフィーチャの検出の少なくとも
一方が、フィッシャ線形判別（ＦＬＤ）分析を使用す
る、請求項３記載の方法。
【請求項５】顔及び顔のフィーチャの検出の少なくとも
一方が、顔空間からの距離（ＤＦＦＳ）指標を使用す
る、請求項３記載の方法。
【請求項６】ビデオ信号処理操作が、検出された顔のフ
ィーチャを用いて、検出された顔から１つ以上の顔を認
識するステップを含む、請求項３記載の方法。
【請求項７】ビデオ信号処理操作が、顔認識操作の結果
に対して信頼度推定プロシージャを実行するステップを
含む、請求項６記載の方法。
【請求項８】音声信号処理操作が、音声信号に関連付け
られる話者を認識するステップを含む、請求項６記載の
方法。
【請求項９】音声信号処理操作が、音声話者認識操作の
結果に対して信頼度推定プロシージャを実行するステッ
プを含む、請求項８記載の方法。
【請求項１０】顔認識操作及び音声話者認識操作のそれ
ぞれの結果が、識別決定及び確認決定の少なくとも一方
を下すために使用される、請求項８記載の方法。
【請求項１１】結果が、顔認識操作及び音声話者認識操
作の間に生成される上位Ｎ個のそれぞれのスコアを含
む、請求項１０記載の方法。
【請求項１２】上位Ｎ個のそれぞれのスコアが混合パラ
メータを用いて結合される、請求項１１記載の方法。
【請求項１３】混合パラメータが、顔認識操作及び音声
話者認識操作に関連付けられる信頼度指標に従い選択さ
れる、請求項１２記載の方法。
【請求項１４】混合パラメータが、誤り率を表す費用関
数に従い最適化される、請求項１３記載の方法。
【請求項１５】混合パラメータが、平滑化された誤り率
を表す費用関数に従い最適化される、請求項１３記載の
方法。
【請求項１６】混合パラメータが、最高のスコア及び２
番目に高いスコアを最大化する範囲内で選択される、請
求項１２記載の方法。
【請求項１７】結果が結合されて、上位Ｎ個のそれぞれ
のスコアの１つのセットが、顔認識操作及び音声話者認
識操作のために生成され、決定を下すために使用され
る、請求項１０記載の方法。
【請求項１８】一方の認識操作の結果が、他方の認識操
作の結果を変更するために使用される、請求項１０記載
の方法。
【請求項１９】決定が変更された結果にもとづく、請求
項１８記載の方法。
【請求項２０】ビデオ信号及び音声信号の少なくとも１
つが圧縮信号である、請求項１記載の方法。
【請求項２１】圧縮信号が処理操作の前に伸長される、
請求項１記載の方法。
【請求項２２】任意の内容ビデオ・ソースがＭＰＥＧ−
２規格信号を提供する、請求項１記載の方法。
【請求項２３】ビデオ信号が可視電磁スペクトル・イメ
ージ、非可視電磁スペクトル・イメージ、及び他の検出
技術からのイメージの少なくとも１つを含む、請求項１
記載の方法。
【請求項２４】音響情報及び視覚情報の少なくとも１つ
に従い、ユーザを登録するステップを含む、請求項１記
載の方法。
【請求項２５】登録操作の結果が複数のモダリティを表
す結合生物測定である、請求項２４記載の方法。
【請求項２６】音声発声を確認する方法であって、ビデオ・ソースに関連付けられるビデオ信号を処理する
ステップと、ビデオ信号に関連付けられる音声信号を処理するステッ
プと、処理された音声信号を処理されたビデオ信号と比較し、
信号間の相関のレベルを決定するステップとを含む方
法。
【請求項２７】ビデオ信号処理操作が、ビデオ信号から
視覚フィーチャ・ベクトルを抽出するステップを含む、
請求項２６記載の方法。
【請求項２８】ビデオ信号処理操作が、バイセムを抽出
されたフィーチャ・ベクトルに関連付けるステップを含
む、請求項２７記載の方法。
【請求項２９】音声信号処理操作が、音響フィーチャ・
ベクトルを抽出し、抽出されたフィーチャを用いて、音
声信号を表す復号化スクリプトを生成するステップを含
む、請求項２８記載の方法。
【請求項３０】復号化スクリプトがバイセムと整合され
る、請求項２９記載の方法。
【請求項３１】整合の尤度が計算され、確認決定を下す
ために使用される、請求項３０記載の方法。
【請求項３２】音声発声を確認する方法であって、ビデオ・ソースに関連付けられるビデオ信号を処理する
ステップと、処理されたビデオ信号を、ビデオ信号に関連付けられる
音声信号を表すスクリプトと比較し、信号間の相関のレ
ベルを決定するステップとを含む方法。
【請求項３３】話者認識を実行する装置であって、ｉ）任意の内容ビデオ・ソースに関連付けられるビデオ
信号を処理し、ｉｉ）ビデオ信号に関連付けられる音声信号を処理し、ｉｉｉ）処理された音声信号及び処理されたビデオ信号
にもとづき、識別決定及び確認決定の少なくとも一方を
下す少なくとも１つのプロセッサを含む、装置。
【請求項３４】ビデオ信号処理操作が、任意の内容ビデ
オ・ソースに関連付けられるビデオ信号が、１つ以上の
顔を含むか否かを検出するステップを含む、請求項３３
記載の装置。
【請求項３５】ビデオ信号処理操作が、検出された１つ
以上の顔の１つ以上の顔のフィーチャを検出するステッ
プを含む、請求項３４記載の装置。
【請求項３６】顔及び顔のフィーチャの検出の少なくと
も一方が、フィッシャ線形判別（ＦＬＤ）分析を使用す
る、請求項３５記載の装置。
【請求項３７】顔及び顔のフィーチャの検出の少なくと
も一方が、顔空間からの距離（ＤＦＦＳ）指標を使用す
る、請求項３５記載の装置。
【請求項３８】ビデオ信号処理操作が、検出された顔の
フィーチャを用いて、検出された顔から１つ以上の顔を
認識するステップを含む、請求項３５記載の装置。
【請求項３９】ビデオ信号処理操作が、顔認識操作の結
果に対して信頼度推定プロシージャを実行するステップ
を含む、請求項３６記載の装置。
【請求項４０】音声信号処理操作が、音声信号に関連付
けられる話者を認識するステップを含む、請求項３６記
載の装置。
【請求項４１】音声信号処理操作が、音声話者認識操作
の結果に対して信頼度推定プロシージャを実行するステ
ップを含む、請求項４０記載の装置。
【請求項４２】顔認識操作及び音声話者認識操作のそれ
ぞれの結果が、識別決定及び確認決定の少なくとも一方
を下すために使用される、請求項４０記載の装置。
【請求項４３】結果が、顔認識操作及び音声話者認識操
作の間に生成される上位Ｎ個のそれぞれのスコアを含
む、請求項４２記載の装置。
【請求項４４】上位Ｎ個のそれぞれのスコアが混合パラ
メータを用いて結合される、請求項４３記載の装置。
【請求項４５】混合パラメータが、顔認識操作及び音声
話者認識操作に関連付けられる信頼度指標に従い選択さ
れる、請求項４４記載の装置。
【請求項４６】混合パラメータが、誤り率を表す費用関
数に従い最適化される、請求項４５記載の装置。
【請求項４７】混合パラメータが、平滑化された誤り率
を表す費用関数に従い最適化される、請求項４５記載の
装置。
【請求項４８】混合パラメータが、最高のスコア及び２
番目に高いスコアを最大化する範囲内で選択される、請
求項４４記載の装置。
【請求項４９】結果が結合されて、上位Ｎ個のそれぞれ
のスコアの１つのセットが、顔認識操作及び音声話者認
識操作のために生成され、決定を下すために使用され
る、請求項４２記載の装置。
【請求項５０】一方の認識操作の結果が、他方の認識操
作の結果を変更するために使用される、請求項４２記載
の装置。
【請求項５１】決定が変更された結果にもとづく、請求
項５０記載の装置。
【請求項５２】ビデオ信号及び音声信号の少なくとも１
つが圧縮信号である、請求項３３記載の装置。
【請求項５３】圧縮信号が処理操作の前に伸長される、
請求項３３記載の装置。
【請求項５４】任意の内容ビデオ・ソースがＭＰＥＧ−
２規格信号を提供する、請求項３３記載の装置。
【請求項５５】ビデオ信号が可視電磁スペクトル・イメ
ージ、非可視電磁スペクトル・イメージ、及び他の検出
技術からのイメージの少なくとも１つを含む、請求項３
３記載の装置。
【請求項５６】プロセッサが音響情報及び視覚情報の少
なくとも１つに従い、ユーザを登録する、請求項３３記
載の装置。
【請求項５７】登録操作の結果が複数のモダリティを表
す結合生物測定である、請求項５６記載の装置。
【請求項５８】音声発声を確認する装置であって、ｉ）ビデオ・ソースに関連付けられるビデオ信号を処理
し、ｉｉ）ビデオ信号に関連付けられる音声信号を処理し、ｉｉｉ）処理された音声信号を処理されたビデオ信号と
比較し、信号間の相関のレベルを決定する少なくとも１
つのプロセッサを含む、装置。
【請求項５９】音声発声を確認する装置であって、ｉ）ビデオ・ソースに関連付けられるビデオ信号を処理
し、ｉｉ）処理されたビデオ信号を、ビデオ信号に関連付け
られる音声信号を表すスクリプトと比較し、信号間の相
関のレベルを決定する少なくとも１つのプロセッサを含
む、装置。
【請求項６０】話者認識を実行する方法であって、イメージ・ソースに関連付けられるイメージ信号を処理
するステップと、イメージ信号に関連付けられる音声信号を処理するステ
ップと、処理された音声信号及び処理されたイメージ信号にもと
づき、識別決定及び確認決定の少なくとも一方を下すス
テップとを含む、方法。
【請求項６１】話者認識を実行する装置であって、ｉ）イメージ・ソースに関連付けられるイメージ信号を
処理し、ｉｉ）イメージ信号に関連付けられる音声信号を処理
し、ｉｉｉ）処理された音声信号及び処理されたイメージ信
号にもとづき、識別決定及び確認決定の少なくとも一方
を下す少なくとも１つのプロセッサを含む、装置。