JP3552179B2

JP3552179B2 - 話者認識のための特徴ベクトル生成方法

Info

Publication number: JP3552179B2
Application number: JP29252195A
Authority: JP
Inventors: ベンカテツシュプラサドケー
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1994-11-10
Filing date: 1995-11-10
Publication date: 2004-08-11
Anticipated expiration: 2015-11-10
Also published as: JPH08235358A; US5625704A

Description

【０００１】
【発明の属する技術分野】
本発明は、視覚的観察によって個人を識別する方法及び装置と、視覚的識別方法を用いた保安装置とに関連し、特に話者の顔面、特に口唇の動きと正面から見た口腔との動的な視覚的観察から、認識のための他の増補的な観察と併せて利用することもできる話者認識のための特徴ベクトル生成方法に関する。
【０００２】
【従来の技術】
従来、視覚的情報に基づく顔面認識方法は、一次元的な形状又は二次元的な画像から得られる目や耳、鼻、口等の顔面の特徴の静的な空間的関係から導出されたキューを利用する方法に依存していた。アショック・サマル（ＡｓｈｏｋＳａｍａｌ）らの「顔面及び表情の自動認識と分析：標本調査（ＡｕｔｏｍａｔｉｃＲｅｃｏｇｎｉｔｉｏｎａｎｄＡｎａｌｙｓｉｓｏｆＦａｃｅｓａｎｄＦａｃｉａｌＥｘｐｒｅｓｓｉｏｎｓ：ＡＳｕｒｖｅｙ）」、パターン認識（ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ）、第２５巻、第１号、ｐｐ．６５〜７７（１９９２）に、顔面認識のための空間的特徴の膨大なリストが示されている。入力データは一般に、単一の「スナップショット」から得られる。
【０００３】
顔面認識の別な例として、ピーター・タル（ＰｅｔｅｒＴａｌ）の「特定の肉体的特徴による個人の識別特定方法及び装置と、これを利用した保安装置」と題する米国特許第４，９７５，９６５号明細書に、人間の顔面上における識別可能な点間の静的距離を利用して個人を認識する方法が示されている。
【０００４】
図１に、眼の網膜の中心間距離（ＬＥＲ）と左眼の網膜の中心から口の中心までの距離（ＬＥＭ）と、両網膜の中心から鼻先までの距離（ＬＥＮ及びＲＥＮ）と口の中心から鼻先までの距離（ＤＭＮ）とを含む、タルが用いた重要な顔面パラメータを示す。また、尺度の正規化のために、こうした静的な距離的特徴の様々な比がとられている。
【０００５】
多数の静止画像を用いる方法に対して、単一の静止画像を用いる方法には少なくとも次の２つの利点がある。
（１）単一の静止画像の場合には、記憶装置にさほど厳しい要件が求められない。
（２）単一のスナップショットを提示された時に、人間の観察者が顔面認識を行なうことができ、話者のビデオ録画を用いることによって認識度が向上するという証拠は殆どない。
【０００６】
【発明が解決しようとする課題】
完全に静的な顔面的特徴を用いる従来技術では、「目視」によって顔面認識が行なわれる。
【０００７】
本発明は、会話に関わる動的な顔面的特徴を表す空間的かつ時間的（時空間的）な表象を用いて話者を識別するものである。本発明の方法では、視覚的観察だけが用いられる（音声データは用いられない）。目視と発声を視覚的に捕えることによって顔面認識が行なわれるのである。
【０００８】
即ち、本発明は、話者の特徴空間成分を観察することによって話者を認識する話者認識方法のための特徴ベクトル生成方法を提供することを目的とする。
【０００９】
【課題を解決するための手段】
本発明の話者認識のための特徴ベクトル生成方法では、個人認識装置に用いられる話者認識のための特徴ベクトルを生成する方法であって、発声の視覚的観察に基づく特徴ベクトル生成方法において、
(ａ) 認識対象の人物による発声を観察するステップと、
(ｂ) 前記発声に関連ある口唇分離距離と時間との関数を含むキューによって前記人物の口の動きを表すステップと、
(ｃ) 前記キューから、
(ｉ) 前記口唇分離の開口ステップ開始時点を始点、前記口唇分離の閉口ステップ終了時点を終点とする視覚的発声の持続時間と、
(ii) 最大口唇分離距離及び最大口唇分離状態発生時間と、
(iii) 上唇と下唇との間の開口セントロイドの位置と、
を含む１組の特徴ベクトル成分を抽出するステップと、
を備え、前記キューから１組の特徴ベクトル成分を抽出する前記ステップが、
( ｉ ) 口唇分離の開口ステップ開始時点から最大口唇分離状態に達する時点までの口唇分離開口速度と、
(ii) 最大口唇分離状態発生時間から最小口唇分離状態に達する時点までの口唇分離閉口速度と、
(iii) 前記口唇分離距離と時間との関数によって表される部分の面積測定値と、
を含む別な１組の特徴ベクトル成分を含む。
【００１０】
即ち、発声に関連ある口の動きを利用して、発声に伴う音声信号を全く用いずに、特徴ベクトル空間において音声毎に判明なクラスタリングを形成する時間的で可視的な特徴ベクトルが生成される。特徴空間には、開口速度と、閉口速度と、発声毎の開口（口唇分離又は口腔前面面積）及び開口持続時間を表す時空間面積パラメータとが含まれる。
【００１１】
【発明の実施の形態】
本発明の実施の一形態を図２ないし図２２に基づいて説明する。
【００１２】
図２は、システムバス２０と中央処理装置（ＣＰＵ１３）と記憶装置１２との周りに構成された、時空間的キューを利用した話者認識装置を示すブロック図である。事務所環境において一般に見られるような通常の環境照明により、認識対象の人物３０に照明を当てることができる。ＮＴＳＣ方式のいかなる標準カメラであってもよいビデオカメラ１０により、画像が取り込まれて、ラスター走査された出力画像がＡＤ変換器（ＡＤＣ）１１へと送られ、このＡＤＣ１１により標本化及び量子化されたラスター画像（フレーム）が生成されて記憶装置１２に記憶される。ラスター走査される一連の画像フレームは、ビデオカメラ１０とＡＤＣ１１とによって処理されて、対象３０による１種類以上の発声を表すものとなる。ビデオカメラ１０は、毎秒３０フレームを生成する。各フレームは、ＡＤＣ１１によって変換されると、ＡＤＣ１１の各サンプリング点における画像の濃淡（輝度又は濃度）を表す８ビット値の各画素が６４０×４８０個配列された画素列となる。ビデオカメラ１０から得られる各フレームの２種類の飛び越しフィールドにおける冗長度が高いため、代替フィールドは不要となる。
【００１３】
記憶装置１２に記憶される画素フレームは、空間フィルタ１４と時間フィルタ１５とによって予め処理される。空間フィルタ１４は、フレーム毎に空間雑音を低減させるスムージング処理又は低域フィルタ処理と画像のエッジを強調するエッジ強調処理との２種類の２次元フィルタ処理を行なう。どちらのフィルタ処理を最初に行なってもよく、又は、スムージング処理とエッジ強調処理とを併せた複合処理を単一のフィルタ処理として行ってもよい。特定の実施の形態では、スムージング処理用及びエッジ強調処理用のフィルタに３×３及び５×５の画素の畳込みカーネルが用いられている。図３（ａ）及び図３（ｂ）に示すように、３×３の画素の畳込みカーネルｇ_３（ｘ，ｙ）及び５×５の画素の畳込みカーネルｇ_５（ｘ，ｙ）の重みは、標準偏差が各々σ_３＝０．３９１、σ_５＝０．６２５の２次元標本化ガウス関数とされる。
【００１４】
実施の一形態においては、カーネルｇ_３（ｘ，ｙ）を用いて各画素フレームを畳み込むことによって空間的なスムージング処理が行なわれる一方、エッジ強調処理は、５×５のカーネルを用いて各フレームを畳み込むことによって行なわれて、カーネルの差｛ｇ_３（ｘ，ｙ）−ｇ_５（ｘ，ｙ）｝を表すものとなる。
【００１５】
また、空間フィルタ処理済みの画像は、３連続フレームにわたってスムージング処理され、即ち、相対重み［ｗ_１，ｗ_２，ｗ_３］＝［０．７，１．０，０．７］の低域フィルタ処理用カーネルを用いて時間的なスムージング処理が行なわれる。
【００１６】
こうしたフィルタ処理は線形処理であるので入れ換え可能であり、よって、いかなる順序で行なわれても構わない。従って、話者ｓの特定の発声によってＮ個の一連の画像｛ｕ_ｓ｝が生成される場合には、
｛ｕ_ｓ｝＝｛ｕ_ｓ（ｘ，ｙ，１），ｕ_ｓ（ｘ，ｙ，２），…，ｕ_ｓ（ｘ，ｙ，Ｎ）｝……………（１）
とし、（ｘ，ｙ）を画素座標とすると、時空間フィルタ処理によって、フィルタ処
【外１】

【数１】

である。
これらは、記憶装置１２に記憶されるフィルタ処理済み画像である。
【００１７】
【外２】

画像の大きさを縮小して、話者の発声情報が含まれている対象領域（ＲＯＩ）のみを残すことが望ましい。ＲＯＩは、口の開口部を中心とする領域である。
【００１８】
顔面は、口の領域を除けば、フレームが変わっても口の動きに対して不動（固定的）な傾向にあるため、連続フレーム間の差は、口の領域（ＲＯＩ）において
【外３】

【数２】

によって与えられることになる。ここで、
【数３】

【外４】

【００１９】
【外５】

表しており、従って、口に関連ある画素であることはほぼ間違いない。
【００２０】
濃度閾値Ｇを用いてＲＯＩを定義して、マスク関数ｍ_ｓ（ｘ，ｙ）を確定させる。マスク関数ｍ_ｓ（ｘ，ｙ）は、
【数４】

というように、１又は０の値をとる。
【００２１】
【外６】

Ｇの設定値が低いと、多数の離隔的なＲＯＩが発生してしまう。Ｇの設定値が高すぎると、フレーム間の変化を用いて識別される画素数が少なくなってしまう。Ｇ値をヒストグラムの一番中央に位置する最低値の濃淡値と等しい値に設定するという方法がＧ値設定の有効な発見的手法であることが判った（経験からヒストグラムは多モードであることが判る）。
【００２２】
【外７】

（“０”が暗側に、“２５５”が明側に対応する）。Ｇと表示されている矢印が、発見的手法による閾値を示す。
【００２３】
図５は、閾値処理によって得られたマスク（ｍ_ｓ（ｐ，ｑ））（斜線部分）を示す図であり、このマスクが、閾値領域のセントロイドを中心とする３２×６４個の画素で構成された矩形の領域であるＲＯＩの定義に用いられる。一般にセントロイドは３つの時空間座標（ｘ，ｙ，ｔ）によって定義されるが、各フレームに対しては２つの空間座標（ｘ，ｙ）しか必要としない。ＲＯＩによって定義される領域内に含まれる画素のみが記憶されるように、対応する記憶画像の前記３２×６４の領域が切り取られる。切り取られた各画像（ＲＯＩ）は順番に記憶されて、図６（ａ）に示すように、２つの空間的な次元（ｘ，ｙ）と１つの時間指数（１≦ｎ≦Ｎ）とによって構成される時空間的体積（ＳＴＶ）を形成する。
【００２４】
その後、所定の発声に関連あるＲＯＩを収集してなる集合が、各Ｎ個のＲＯＩに対してｘ＝ｘ_０（ｎ）においてスライスされて、時間指数ｎの関数としてのｙ次元に沿った濃淡画像を形成する。（図６（ｂ）に、ｘの様々な固定値に対するＳＴＶの一連のスライスを示す。）
【００２５】
図７に、ｘ＝ｘ_０（ｎ）におけるスライスと顔面画像との関係を示す。図７（ａ）は、ｎ＝５の時の画像であり、口の領域を通る点線が、ｘ_０（５）を含む縦方向１組６４個の画素に対応する。図７（ｂ）には、ｔ軸（ｎ指数）に沿った１組の連続フレームに対して同様の１組の画素値をとることによって得られる濃度順序キュー関数が示されている。縦方向のセントロイドｙ_０（ｎ）は、図７（ｂ）の濃淡画像のｙ次元中央に位置している。
【００２６】
ｙ＝ｙ_０（ｎ）に近い暗部分は、ｘ_０（ｎ）における口の縦方向の開口を表す。この情報を用いて、話者識別に利用され得る１組のキューが形成されるのである。
【００２７】
特に、図７（ｂ）の濃度順序キュー関数から抽出されるべき必須情報は、三角形の暗部分によって表される識別キューである。図７（ｂ）の拡大図である図８に、頂点Ａ、Ｂ及びＤの形成する三角形によって強調されたキューの１つを示す。点Ｃは、ＲＯＩマスク部１６の行なうＲＯＩ検出によって明らかにされた時空間セントロイド（ｔ_０，ｙ_０）である。線ＢＡは、前記キューの持続時間に対する口輪郭最上部の軌跡を表し、他方、線ＢＤ及びＤＡは共同で、口輪郭最下部の軌跡を表す。一般に、これらの輪郭は直線を描かないけれども、こうした近似直線により十分に目的が達成されることが判っている。
【００２８】
濃度順序キュー関数から識別キューを抽出する作業は、特徴抽出部１７によって行なわれる。第１段階において、次の式に従って、各ＲＯＩに濃淡変換を行なうことによりＳＴキューを矩形のキューブロックに切り分けて、各キューブロックにキューが１個しか含まれていない状態にする。
ｐ（ｉ，ｊ）≧Ｇ_ＳＴならば、ｑ（ｉ，ｊ）＝２５５
そうでなければ、ｑ（ｉ，ｊ）＝ｐ（ｉ，ｊ） ………………（６）
ここで、Ｇ_ＳＴは適応的に選択された閾値であり、ｐ（ｉ，ｊ）及びｑ（ｉ，ｊ）は、各々ｎ＝ｉかつｙ＝ｊの時の元来のＲＯＩ及び変換後のＲＯＩの画素値である。“２５５”という値は最大輝度に対応するので、ｐ（ｉ，ｊ）≧Ｇ_ＳＴの全ての値は「白」となり、他方、Ｇ_ＳＴ未満の値は元来の濃度値のままとなる。図９に、前記手順を用いて得られた１つのキューブロックを例示する。ここで、横軸は時間を表し、縦軸はｙ次元を表す。横軸の画素間隔は各々１／３０秒である。
【００２９】
各キューブロックには、画素が少なくとも３つ分の幅で８隣接の態様に連続した画素集合からなるキューが含まれていなければならない。少なくとも画素３つ分の幅という条件があるため、キューは必然的に、連続する少なくとも３つのフレーム（時間指数）から形成されることになる。画素ｐ（ｊ，ｋ）の８隣接の近傍状態は、−１≦ｉ≦＋１かつ−１≦ｊ＜＋１の条件を満たす画素組｛ｐ（ｘ＋ｉ，ｙ＋ｊ）｝と定義される。
【００３０】
図１０に第１段階においてヒストグラムのピーク指数ｉをｉ＝０としたＧ_ＳＴ設定手順１００のフローチャートを示す。ステップ１０１において、所定の時空間濃度順序キュー関数から濃度振幅ヒストグラム（ゼロが黒に対応）を作成する。ステップ１０２において、振幅を表すヒストグラムの横軸に沿って一連のピーク位置を判断するとともに、ｉ＝０，１，２，…とした時のｉ番目のピークＰ_ｉの
【外８】

閾値を所定の濃度順序キュー関数に適用する。ステップ１０５において、こうして確定されたキューの数を数えて、計数値をｍ_ｉとする。検査ステップ１０６において、値ｍ_ｉが前の値ｍ_ｉ−１よりも小か否かが確認され、小でなければ、指数ｉを漸増させるステップ１０７へと進み、再びステップ１０３から処理が行なわれる。小であれば閾値Ｇ_ＳＴをＰ_ｉ−１とするステップ１０８へと進み、処理が終了する。
【００３１】
図１１〜図１７に、前記のように、適応的手順を用いてＧ_ＳＴを判断する方法を示す。図１１及び図１３〜図１６において、時空間濃度順序キュー関数を左側に、対応する濃度ヒストグラムを右側に示す。図１１〜図１７は、話者（ｇｗ）と発声（ｆａ）とに関するものである。
【００３２】
図１１に、閾値処理が行なわれていない濃度順序キュー関数を示す。
【００３３】
図１２において、第１列はピーク指数ｉに対応し、第２列は各指数のピークが発生するヒストグラムの濃淡に対応し、第３列は、Ｇ_ＳＴの設定値を対応する各濃淡にした時に得られるキューの数を表す。
【００３４】
図１３に、濃度順序キュー関数をヒストグラムの第１のピークであるＧ_ＳＴ＝１９で閾値処理した時に残存する特徴を示す。その横に示すヒストグラムは、横軸の目盛の１５〜６１の範囲を拡大したものである。ヒストグラムの計数の薄灰色部分はＧ_ＳＴ＝１９によって指示されるレベルを示す。残存する特徴はキューの基準を満たさない。
【００３５】
図１４に、ｉ＝２に対応するＧ_ＳＴ＝２３の時の結果を示す。閾値処理された濃度順序キュー関数のレムナントは、分離した５つの特徴を示し、その内の第２及び第５の特徴がキューの基準を満たす。
【００３６】
図１５に、ｉ＝１０に対応するＧ_ＳＴ＝５３の時の結果を示す。閾値処理後の６つのレムナントがキューの基準を満たす。
【００３７】
図１６に、ｉ＝１１に対応するＧ_ＳＴ＝５８の時の結果を示す。前記レベルで閾値処理を行なった場合には、図１５に示す６つのキューがつながって、１つのキューとして計数される。
【００３８】
図１２から、ｉ＝７〜１０では、キュー数は６に保たれるが、ｉ＝１１ではキューの分離が見られなくなってしまうことが判る。従って、好適な閾値は、キューの分離が維持される最大値の閾値Ｇ_ＳＴ＝５３となる。
【００３９】
図１７に、二重表記（Ｇ_ＳＴ，ｍ）に示す様々な閾値及びキュー数に対する閾値処理後のレムナントを左から右及び上から下に示す。
【００４０】
単一の発声に対して閾値を確定させる場合、例えば発声をライブラリに記憶されている特徴ベクトルと比較する時は、同じ方法を用いて閾値Ｇ_ＳＴを確定させることができる。ただし、Ｇ_ＳＴについては、図８及び９に示すような特徴的な三角形のキューを維持しながら画素数が最大になる仮のキューが得られるヒストグラムのピーク値に対応する値を選択する。こうした好適な閾値レベルを超えると、図８の三角形モデルが不適切になって、誤認が起こり得る。これに代わる方法として、１組の妥当な閾値に基づく１組のキューを用いて、認識モードに使用可能な１組の特徴ベクトル成分を判断することもできる。
【００４１】
適当な閾値Ｇ_ＳＴが判ったら、キュー毎に別々のキューブロックに分ける。
【００４２】
キューブロックが得られたら、キュー幅とキュー高さと開口持続時間とを推定する。図１８に、２つの異なった尺度での口の前記パラメータを示す。点Ｂは発声開始前の点、点Ａは発声終了後の点、点Ｄは発声時において口の内側面積が最大に拡張した点、点Ｅは頂点Ｄからの垂線と線ＢＡとの交点、そして、点ＣはＤが発生した時の時間指数ｎの値に対するセントロイドのｙ位置（ｙ_０（ｎ））である。従って、Ｄは常に線ＣＥ上に位置する。距離ＣＥを用いて空間的測定値を正規化して、画像の透視尺度を補完する。図１８（ｂ）が、図１８（ａ）の場合と同じ話者が同じ発声をより遠い位置で行なった状態を表す図であるとした場合、持続時間（ＢＡ）は同じ、即ち撮影距離に対して不変であるため、ｙ次元（ＤＥ）だけが縮尺されるという点に注目されたい。
【００４３】
キュー幅（ＢＡ）、キュー高さ（ＤＥ）及び開口持続時間（ＢＥ）の各数値は、行数がＲ、列数がＣ、そして左上の最小行列指数が（１，１）のキューブロックにおいて次のように推定される。
【００４４】
（１）ＢＡ；
キューブロックの各行ｒについて、白（値が“２５５”）ではない画素が最大数連続する画素組の画素単位の幅ｗ_ｒ
｛ｗ｝＝｛ｗ_１，ｗ_２，…，ｗ_ｒ，…，ｗ_Ｒ｝ ……………………（７）
を求め、ＢＡを最大値ｗ_ｍａｘ＝ｗ_ｒと等しい値とする。幅の等しい行が複数行ある場合は、ＢＡの設定値を最上位置（又は、指数が最小）の行の幅と等しい値とする。ｗ_ｍａｘの最左側の要素を点Ｂ、最右側の要素を点Ａとする。
【００４５】
（２）ＤＥ；
列数Ｃのキューブロックについて、画素が最大数連続する画素組の画素単位の高さｈ
｛ｈ｝＝｛ｈ_１，ｈ_２，…，ｈ_ｃ，…，ｈ_Ｃ｝ ……………………（８）
を求め、｛ｈ’_１≦ｈ’_２≦ … ≦ｈ’ｃ｝という具合に、小さい要素から順に前記画素組を並び替える。ＤＥの設定値を、行幅（ｗ_ｒ）が少なくとも画素単位２つ分になる並び替え後の画素組の最大要素と等しい値とする。（予めこのような注意をしておくと、単一の雑音スパイクがキュー高さとして選択される確率が最小限に抑えられる。）前記高さ値において行幅が偶数Ｍになる場合は、前記行の画素番号Ｍ／２を点Ｄに対応する画素として選択する。
行幅が奇数になる場合は、中央の画素を選択し、これを点Ｄ_１とする。
【００４６】
（３）ＢＥ；
開口段階の持続時間は、段階（１）及び（２）によって求められた点Ｂ及びＤの座標上における時間単位数の差に等しい。
【００４７】
点Ａ、Ｂ、Ｃ、Ｄ及びＥから、以下の特徴が導出される。
【００４８】
（１）ＭＯ（開口速度）；
発声時に正規化最大口唇間隔（ＤＥ）に達するまでの時間に対する前記最大間隔の比。ＣＥに対するＤＥの比は常に一定であり、かつ、カメラ１０から対象３０までの距離とは無関係であるから、正規化口唇間隔はＤＥ／ＣＥに等しい。ＢからＤに達するまでの時間は、フレーム時間単位（１／３０秒
）で測定されたＢＥに等しい。従って、
ＭＯ＝ＤＥ／（ＣＥ・ＢＥ） ………………………………（９）
で表される。
【００４９】
（２）ＭＣ（閉口速度）；
下唇が休止位置に達するまでの時間（ＥＡ）に対する正規化最大口唇間隔ＤＥ／ＣＥの比。即ち、
ＭＣ＝ＤＥ／（ＣＥ・ＥＡ） ………………………………（１０）
で表される。ここで、ＥＡは、フレーム時間単位での測定値である。
【００５０】
（３）ＳＴＡ（正面から見た口腔の時空間的面積）；
頂点Ｂ、Ｄ及びＡによって形成される三角形の面積。即ち、
ＳＴＡ＝１／２（ＢＡ・（ＤＥ／ＣＥ）） …………………（１１）
で表される。ここで、ＢＡは、フレーム時間単位での測定値とする。
【００５１】
以下に、図９のキューブロックを用いて、ＭＯ、ＭＣ及びＳＴＡの３つの特徴を導出する例を示す。
【００５２】
キューブロックは、図の濃度の白以外の全ての画素を含む矩形の境界枠によって形成される。左上の画素は、第１行、第１列の第１画素である。各画素の大きさは、約１ｍｍ×（１／３０）秒である。式（７）より、
｛Ｗ｝＝｛１，１，２，２，２，６，６，６，５，５，５，３，３，１｝ ……（１２）
となる。
【００５３】
列５には、離隔的な連続する２組の画素があり、一方は画素２つ分の幅、他方は画素１つ分の幅である点に注目されたい。従って、ｗ_５＝２、即ち離隔的な連続する最大幅の画素組の幅となる。
【００５４】
ｗ_６＝ｗ_７＝ｗ_８＝６なので、指数が最小の行（６）が最大幅（フレーム時間単位で６単位）と定義されることから、ＢＡ＝６、即ち、６×１／３０秒となる。
【００５５】
式（８）より、
｛ｈ｝＝｛４，６，７，８，９，８，７｝ ………………………（１３）
が導かれる。
【００５６】
ｈ_５＝９となるが、第５列は最小１行分の幅しかない（ｗ_１４＝１）。従って、最大下唇偏位（点Ｄ）を確定させる際には、行１３及びｗ_１３＝３での列４、５及び６を考慮しなければならないことになる。列４、５及び６の中央に位置する列５が選択され、ｈ_５＝８（９ではない）となるため、ＤＥ＝８となる。行６と列２との座標によって点Ｂが定義され、行１３と列５との座標によって点Ｄが定義されるので、時間間隔ＢＥ＝５−２＝３フレーム単位となる。
【００５７】
ＣＥ＝１とすると、式（９）、（１）及び（１１）より、
ＭＯ＝ＤＥ／（ＣＥ・ＢＥ）＝８／（１・４）＝２
ＭＣ＝ＤＥ／（ＣＥ・ＥＡ）＝８／（１・（６−４））＝４
ＳＴＡ＝１／２（ＢＡ・（ＤＥ／ＣＥ））＝１／２（６・（８／１））＝２４
となる。ここで、ＭＯ及びＭＣの単位は３０ｍｍ／秒であり、ＳＴＡの単位は（１／３０）ｍｍ／秒である。
【００５８】
話者４人に各々５種類の異なった発声をさせて実験したところ、図１９の時空間的（ＳＴ）スライスに示す結果が得られた。異なる話者（上からｄｓ、ｅｓ、ｇｗ及びｖｐ）を行毎に、異なる発声（左から｜ｂａ｜、｜ｄａ｜、｜ｆａ｜、｜ｌａ｜、｜ｍａ｜）を列毎に示してある。
【００５９】
話者ｄｓについて、式（６）の濃淡変換を用いて検出されたキューを図２０に示す。第１行は、図１９の第１行と同じものであり、第２行は、閾値Ｇ_ＳＴ＝４０を求める元になった対応する一連のヒストグラムであり、第３行は、濃淡変換によって分離されたキューを示す。
【００６０】
図２１に、話者ｅｓ、ｇｗ及びｖｐについて、閾値Ｇ_ＳＴを各々４０、５０及び３０にして同様の態様で求めた対応する一連のキューを示す。
【００６１】
これらのデータから、話者毎、発声毎に識別パラメータＭＯ、ＭＣ及びＳＴＡを計算した。図２２は、これらのパラメータをグラフ化した３次元分布図であって、ＭＯ‐ＭＣの平面座標上に表示されている四角形の大きさがＳＴＡの値を示している。特徴の話者毎のクラスタリングは、２人の話者（ｖｐ及びｇｗ）に関する分布図においてＭＯ‐ＭＣ平面座標上に重複する点があっても、四角形の大きさによって表されるＳＴＡ値が明かに異なっているために、２人の話者を区別することができるという点に注目すべきである。
【００６２】
従って、図２に示すように実行される前記手順により、発声の視覚的観察に基づいて、単独で、又は他の識別観察と組み合わせて話者認識に利用され得る一連の特徴が得られるという結論に達する。このように、図２において、特徴抽出部１７の出力は、任意で比較器１８に送って成分ＭＯ、ＭＣ及びＳＴＡを有するベクトルと予め記憶されている１組の標本ベクトルとを比較することにより識別を行なっても、又は他の装置に送って他の観察データと結合させてもよい１組のＭＯとＭＣとＳＴＡとに対応する。
【００６３】
また、図１８（ａ）及び（ｂ）の距離ＤＥの正規化を
ＤＥ／ＣＥ＝（ＤＣ＋ＣＤ）／ＣＥ＝１＋ＣＤ／ＣＥ ………（１４）
と表して、必須情報が比ＤＣ／ＣＥに含まれるようにすることができるという点にも注目すべきである。これより、必須情報が比ＣＥ／ＤＣに含まれるとともに情報的にはその逆数のＤＣ／ＣＥと同等である別な正規化
ＤＥ／ＤＣ＝（ＤＣ＝ＤＥ）／ＤＣ＝１＋ＣＤ／ＤＥ ………（１５）
が示唆される。さらに、こうしたことから、ＤＣ／ＣＥ又はその逆数の何れかが特徴ベクトルの適切な候補要素であることが示唆される。
【００６４】
【発明の効果】
本発明によれば、発声に関連ある口の動きを利用して、発声に伴う音声信号を全く用いずに、特徴ベクトル空間において音声毎に判明なクラスタリングを形成する時間的かつ可視的な特徴ベクトルが生成され、特徴空間には、開口速度と、閉口速度と、発声毎の開口（口唇分離又は口腔前面面積）及び開口持続時間を表す時空間面積パラメータとが含まれるので、話者の特徴空間成分を観察することによって話者を認識することができ、かつ、こうした特徴空間成分を含めることによって既存の顔面認識装置の認識度を高めることもでき、さらには、僅かな記憶容量しか必要としない小型の認識装置や、一般的な事務所用環境照明条件に適した認識装置を提供することもできる。
【図面の簡単な説明】
【図１】従来技術において用いられる一連の静的な顔面的特徴を示す説明図である。
【図２】本発明の実施の一形態を示す時空間認識装置のブロック図である。
【図３】（ａ）はサンプリングされたガウス畳込みカーネルＧ_３の値を示す説明図、（ｂ）はサンプリングされたガウス畳込みカーネルＧ_５の値を示す説明図である。
【図４】
【外９】

【図５】対象領域（ＲＯＩ）を示す説明図である。
【図６】特徴抽出に用いられる視覚的な時空間的（ＳＴ）体積を示す模式的斜視図である。
【図７】話者の口とＳＴ体積のスライスとの関係を示す説明図である。
【図８】視覚的な時空間的（ＳＴ）体積の所定のスライスを示す説明図である。
【図９】視覚的な時空間的（ＳＴ）体積のスライスにおけるキューの定義を示す特性図である。
【図１０】閾値Ｇ_ＳＴを求める手順を示すフローチャートである。
【図１１】（ａ）は時空間的濃度順序キュー関数の例を示す特性図、（ｂ）は（ａ）の順序キュー関数を示すヒストグラムである。
【図１２】図１１（ｂ）のヒストグラムに見られるピークをまとめた説明図である。
【図１３】（ａ）は図１１（ａ）の順序キュー関数において、閾値Ｇ_ＳＴ＝１９とした時のレムナントを示す特性図、（ｂ）は閾値Ｇ_ＳＴ＝１９とした時の図１１（ｂ）のヒストグラムのピークＰ１〜Ｐ１１を示す特性図である。
【図１４】（ａ）は閾値Ｇ_ＳＴ＝２３とした時の図１１（ａ）の順序キュー関数のレムナントを示す特性図、（ｂ）は図１１（ｂ）のヒストグラムと閾値レベルＧ_ＳＴ＝２３とを示す特性図である。
【図１５】（ａ）は閾値Ｇ_ＳＴ＝５３とした時の図１１（ａ）の順序キュー関数のレムナントを示す特性図、（ｂ）は図１１（ｂ）のヒストグラムと閾値レベルＧ_ＳＴ＝５３とを示す特性図である。
【図１６】（ａ）は閾値Ｇ_ＳＴ＝５８とした時の図１１（ａ）の順序キュー関数のレムナントを示す特性図、（ｂ）は図１１（ｂ）のヒストグラムと閾値レベルＧ_ＳＴ＝５８とを示す特性図である。
【図１７】６種類の異なる閾値レベルによる順序キュー関数の一連のレムナントを示す特性図である。
【図１８】カメラによる透視変換像がキューに及ぼす影響を示す説明図である。
【図１９】４人の異なる話者が５種類の異なる発声を行なった場合の視覚的時空間（ＳＴ）スライスを示す特性図である。
【図２０】視覚的ＳＴスライスと濃度振幅のヒストグラムとキューブロックとの関係を示す特性図である。
【図２１】３人の異なる話者から得られた一連のキューブロックを示す特性図である。
【図２２】異なる話者の特徴空間におけるクラスタリングを示す分布図である。

Claims

個人認識装置に用いられる話者認識のための特徴ベクトルを生成する方法であって、発声の視覚的観察に基づく特徴ベクトル生成方法において、
(ａ) 認識対象の人物による発声を観察するステップと、
(ｂ) 前記発声に関連ある口唇分離距離と時間との関数を含むキューによって前記人物の口の動きを表すステップと、
(ｃ) 前記キューから、
(ｉ) 前記口唇分離の開口ステップ開始時点を始点、前記口唇分離の閉口ステップ終了時点を終点とする視覚的発声の持続時間と、
(ii) 最大口唇分離距離及び最大口唇分離状態発生時間と、
(iii) 上唇と下唇との間の開口セントロイドの位置と、
を含む１組の特徴ベクトル成分を抽出するステップと、
を備え、前記キューから１組の特徴ベクトル成分を抽出する前記ステップが、
( ｉ ) 口唇分離の開口ステップ開始時点から最大口唇分離状態に達する時点までの口唇分離開口速度と、
(ii) 最大口唇分離状態発生時間から最小口唇分離状態に達する時点までの口唇分離閉口速度と、
(iii) 前記口唇分離距離と時間との関数によって表される部分の面積測定値と、
を含む別な１組の特徴ベクトル成分を含むことを特徴とする話者認識のための特徴ベクトル生成方法。
前記別な１組の特徴ベクトル成分を抽出する前記ステップが、前記最大口唇分離状態発生時間における前記セントロイドから前記上唇までの距離で割ることによって正規化された正規化距離を用いるステップを含むことを特徴とする請求項１記載の話者認識のための特徴ベクトル生成方法。
前記別な１組の特徴ベクトル成分を計算する前記ステップが、前記最大口唇分離状態発生時間における前記セントロイドから前記下唇までの距離で割ることによって正規化された正規化距離を用いるステップを含むことを特徴とする請求項１記載の話者認識のための特徴ベクトル生成方法。
個人認識装置に用いられる話者認識のための特徴ベクトルを生成する方法であって、発声の視覚的観察に基づく特徴ベクトル生成方法において、
( ａ ) 認識対象の人物による発声を観察するステップと、
( ｂ ) 前記発声に関連ある口唇分離距離と時間との関数を含むキューによって前記人物の口の動きを表すステップと、
( ｃ ) 前記キューから、
( ｉ ) 前記口唇分離の開口ステップ開始時点を始点、前記口唇分離の閉口ステップ終了時点を終点とする視覚的発声の持続時間と、
(ii) 最大口唇分離距離及び最大口唇分離状態発生時間と、
(iii) 上唇と下唇との間の開口セントロイドの位置と、
を含む１組の特徴ベクトル成分を抽出するステップと、
を備え、前記最大口唇分離距離が、前記最大口唇分離状態発生時間における前記セントロイドから前記上唇までの距離で割ることによって正規化されることを特徴とする特徴ベクトル生成方法。
個人認識装置に用いられる話者認識のための特徴ベクトルを生成する方法であって、発声の視覚的観察に基づく特徴ベクトル生成方法において、
( ａ ) 認識対象の人物による発声を観察するステップと、
( ｂ ) 前記発声に関連ある口唇分離距離と時間との関数を含むキューによって前記人物の口の動きを表すステップと、
( ｃ ) 前記キューから、
( ｉ ) 前記口唇分離の開口ステップ開始時点を始点、前記口唇分離の閉口ステップ終了時点を終点とする視覚的発声の持続時間と、
(ii) 最大口唇分離距離及び最大口唇分離状態発生時間と、
(iii) 上唇と下唇との間の開口セントロイドの位置と、
を含む１組の特徴ベクトル成分を抽出するステップと、
を備え、前記最大口唇分離距離が、前記最大口唇分離状態発生時間における前記セントロイドから前記下唇までの距離で割ることによって正規化されることを特徴とする話者認識のための特徴ベクトル生成方法。
個人認識装置に用いられる話者認識のための特徴ベクトルを生成する方法であって、発声の視覚的観察に基づく特徴ベクトル生成方法において、
( ａ ) 認識対象の人物による発声を観察するステップと、
( ｂ ) 前記発声に関連ある口唇分離距離と時間との関数を含むキューによって前記人物の口の動きを表すステップと、
( ｃ ) 前記キューから、
( ｉ ) 前記口唇分離の開口ステップ開始時点を始点、前記口唇分離の閉口ステップ終了時点を終点とする視覚的発声の持続時間と、
(ii) 最大口唇分離距離及び最大口唇分離状態発生時間と、
(iii) 上唇と下唇との間の開口セントロイドの位置と、
を含む１組の特徴ベクトル成分を抽出するステップと、
を備え、話者による発声の観察が、前記人物の顔を写した一連のビデオ画像を用いて行なわれるとともに、前記ビデオ画像の相対的に動きのない部分を減じながら前記人物の口の領域の識別及び選択を行なうために、一連の画像を微分することによって生成された微分ビデオ画像を用いて、前記一連のビデオ画像から前記人物の口の動きを抽出するステップをさらに含むことを特徴とする話者認識のための特徴ベクトル生成方法。
前記人物の口の領域の選択が、前記微分ビデオ画像を閾値処理するとともに、濃度値が一連の画像間における大きな変化を表している連続した口の領域を選択することによって行なわれ、前記連続した口の領域をマスクとして、前記一連のビデオ画像からの前記人物の口の領域の抽出と前記人物の口の領域の前記セントロイドの計算とが行なわれることを特徴とする請求項６記載の話者認識のための特徴ベクトル生成方法。
前記口唇分離距離が、前記人物を正面から見た時の顔の対称線に平行な、前記セントロイドを通る線上において測定されることを特徴とする請求項７記載の話者認識のための特徴ベクトル生成方法。