JP3552179B2 - 話者認識のための特徴ベクトル生成方法 - Google Patents
話者認識のための特徴ベクトル生成方法 Download PDFInfo
- Publication number
- JP3552179B2 JP3552179B2 JP29252195A JP29252195A JP3552179B2 JP 3552179 B2 JP3552179 B2 JP 3552179B2 JP 29252195 A JP29252195 A JP 29252195A JP 29252195 A JP29252195 A JP 29252195A JP 3552179 B2 JP3552179 B2 JP 3552179B2
- Authority
- JP
- Japan
- Prior art keywords
- lip
- feature vector
- person
- maximum
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/30—Individual registration on entry or exit not involving the use of a pass
- G07C9/32—Individual registration on entry or exit not involving the use of a pass in combination with an identity check
- G07C9/37—Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
Description
【発明の属する技術分野】
本発明は、視覚的観察によって個人を識別する方法及び装置と、視覚的識別方法を用いた保安装置とに関連し、特に話者の顔面、特に口唇の動きと正面から見た口腔との動的な視覚的観察から、認識のための他の増補的な観察と併せて利用することもできる話者認識のための特徴ベクトル生成方法に関する。
【0002】
【従来の技術】
従来、視覚的情報に基づく顔面認識方法は、一次元的な形状又は二次元的な画像から得られる目や耳、鼻、口等の顔面の特徴の静的な空間的関係から導出されたキューを利用する方法に依存していた。アショック・サマル(Ashok Samal)らの「顔面及び表情の自動認識と分析:標本調査(Automatic Recognition and Analysis of Faces and Facial Expressions: A Survey)」、 パターン認識(Pattern Recognition)、第25巻、第1号、pp.65〜77(1992)に、顔面認識のための空間的特徴の膨大なリストが示されている。入力データは一般に、単一の「スナップショット」から得られる。
【0003】
顔面認識の別な例として、ピーター・タル(Peter Tal) の「特定の肉体的特徴による個人の識別特定方法及び装置と、これを利用した保安装置」と題する米国特許第4,975,965号明細書に、人間の顔面上における識別可能な点間の静的距離を利用して個人を認識する方法が示されている。
【0004】
図1に、眼の網膜の中心間距離(LER)と左眼の網膜の中心から口の中心までの距離(LEM)と、両網膜の中心から鼻先までの距離(LEN及びREN)と口の中心から鼻先までの距離(DMN)とを含む、タルが用いた重要な顔面パラメータを示す。また、尺度の正規化のために、こうした静的な距離的特徴の様々な比がとられている。
【0005】
多数の静止画像を用いる方法に対して、単一の静止画像を用いる方法には少なくとも次の2つの利点がある。
(1) 単一の静止画像の場合には、記憶装置にさほど厳しい要件が求められない。
(2) 単一のスナップショットを提示された時に、人間の観察者が顔面認識を行なうことができ、話者のビデオ録画を用いることによって認識度が向上するという証拠は殆どない。
【0006】
【発明が解決しようとする課題】
完全に静的な顔面的特徴を用いる従来技術では、「目視」によって顔面認識が行なわれる。
【0007】
本発明は、会話に関わる動的な顔面的特徴を表す空間的かつ時間的(時空間的)な表象を用いて話者を識別するものである。本発明の方法では、視覚的観察だけが用いられる(音声データは用いられない)。目視と発声を視覚的に捕えることによって顔面認識が行なわれるのである。
【0008】
即ち、本発明は、話者の特徴空間成分を観察することによって話者を認識する話者認識方法のための特徴ベクトル生成方法を提供することを目的とする。
【0009】
【課題を解決するための手段】
本発明の話者認識のための特徴ベクトル生成方法では、個人認識装置に用いられる話者認識のための特徴ベクトルを生成する方法であって、発声の視覚的観察に基づく特徴ベクトル生成方法において、
(a) 認識対象の人物による発声を観察するステップと、
(b) 前記発声に関連ある口唇分離距離と時間との関数を含むキューによって前記人物の口の動きを表すステップと、
(c) 前記キューから、
(i) 前記口唇分離の開口ステップ開始時点を始点、前記口唇分離の閉口ステップ終了時点を終点とする視覚的発声の持続時間と、
(ii) 最大口唇分離距離及び最大口唇分離状態発生時間と、
(iii) 上唇と下唇との間の開口セントロイドの位置と、
を含む1組の特徴ベクトル成分を抽出するステップと、
を備え、前記キューから1組の特徴ベクトル成分を抽出する前記ステップが、
( i ) 口唇分離の開口ステップ開始時点から最大口唇分離状態に達する時点までの口唇分離開口速度と、
(ii) 最大口唇分離状態発生時間から最小口唇分離状態に達する時点までの口唇分離閉口速度と、
(iii) 前記口唇分離距離と時間との関数によって表される部分の面積測定値と、
を含む別な1組の特徴ベクトル成分を含む。
【0010】
即ち、発声に関連ある口の動きを利用して、発声に伴う音声信号を全く用いずに、特徴ベクトル空間において音声毎に判明なクラスタリングを形成する時間的で可視的な特徴ベクトルが生成される。特徴空間には、開口速度と、閉口速度と、発声毎の開口(口唇分離又は口腔前面面積)及び開口持続時間を表す時空間面積パラメータとが含まれる。
【0011】
【発明の実施の形態】
本発明の実施の一形態を図2ないし図22に基づいて説明する。
【0012】
図2は、システムバス20と中央処理装置(CPU13)と記憶装置12との周りに構成された、時空間的キューを利用した話者認識装置を示すブロック図である。事務所環境において一般に見られるような通常の環境照明により、認識対象の人物30に照明を当てることができる。NTSC方式のいかなる標準カメラであってもよいビデオカメラ10により、画像が取り込まれて、ラスター走査された出力画像がAD変換器(ADC)11へと送られ、このADC11により標本化及び量子化されたラスター画像(フレーム)が生成されて記憶装置12に記憶される。ラスター走査される一連の画像フレームは、ビデオカメラ10とADC11とによって処理されて、対象30による1種類以上の発声を表すものとなる。ビデオカメラ10は、毎秒30フレームを生成する。各フレームは、ADC11によって変換されると、ADC11の各サンプリング点における画像の濃淡(輝度又は濃度)を表す8ビット値の各画素が640×480個配列された画素列となる。ビデオカメラ10から得られる各フレームの2種類の飛び越しフィールドにおける冗長度が高いため、代替フィールドは不要となる。
【0013】
記憶装置12に記憶される画素フレームは、空間フィルタ14と時間フィルタ15とによって予め処理される。空間フィルタ14は、フレーム毎に空間雑音を低減させるスムージング処理又は低域フィルタ処理と画像のエッジを強調するエッジ強調処理との2種類の2次元フィルタ処理を行なう。どちらのフィルタ処理を最初に行なってもよく、又は、スムージング処理とエッジ強調処理とを併せた複合処理を単一のフィルタ処理として行ってもよい。特定の実施の形態では、スムージング処理用及びエッジ強調処理用のフィルタに3×3及び5×5の画素の畳込みカーネルが用いられている。図3(a)及び図3(b)に示すように、3×3の画素の畳込みカーネルg3(x,y)及び5×5の画素の畳込みカーネルg5(x,y)の重みは、標準偏差が各々σ3=0.391、σ5=0.625の2次元標本化ガウス関数とされる。
【0014】
実施の一形態においては、カーネルg3(x,y) を用いて各画素フレームを畳み込むことによって空間的なスムージング処理が行なわれる一方、エッジ強調処理は、5×5のカーネルを用いて各フレームを畳み込むことによって行なわれて、カーネルの差{g3(x,y)−g5(x,y)}を表すものとなる。
【0015】
また、空間フィルタ処理済みの画像は、3連続フレームにわたってスムージング処理され、即ち、相対重み[w1,w2,w3]=[0.7,1.0,0.7] の低域フィルタ処理用カーネルを用いて時間的なスムージング処理が行なわれる。
【0016】
こうしたフィルタ処理は線形処理であるので入れ換え可能であり、よって、いかなる順序で行なわれても構わない。従って、話者sの特定の発声によってN個の一連の画像{us}が生成される場合には、
{us}={us(x,y,1),us(x,y,2),…,us(x,y,N)}……………(1)
とし、(x,y)を画素座標とすると、時空間フィルタ処理によって、フィルタ処
【外1】
【数1】
である。
これらは、記憶装置12に記憶されるフィルタ処理済み画像である。
【0017】
【外2】
画像の大きさを縮小して、話者の発声情報が含まれている対象領域(ROI)のみを残すことが望ましい。ROIは、口の開口部を中心とする領域である。
【0018】
顔面は、口の領域を除けば、フレームが変わっても口の動きに対して不動(固定的)な傾向にあるため、連続フレーム間の差は、口の領域(ROI)において
【外3】
【数2】
によって与えられることになる。ここで、
【数3】
【外4】
【0019】
【外5】
表しており、従って、口に関連ある画素であることはほぼ間違いない。
【0020】
濃度閾値Gを用いてROIを定義して、マスク関数ms(x,y)を確定させる。マスク関数ms(x,y)は、
【数4】
というように、1又は0の値をとる。
【0021】
【外6】
Gの設定値が低いと、多数の離隔的なROIが発生してしまう。Gの設定値が高すぎると、フレーム間の変化を用いて識別される画素数が少なくなってしまう。G値をヒストグラムの一番中央に位置する最低値の濃淡値と等しい値に設定するという方法がG値設定の有効な発見的手法であることが判った(経験からヒストグラムは多モードであることが判る)。
【0022】
【外7】
(“0”が暗側に、“255”が明側に対応する)。Gと表示されている矢印が、発見的手法による閾値を示す。
【0023】
図5は、閾値処理によって得られたマスク(ms(p,q))(斜線部分)を示す図であり、このマスクが、閾値領域のセントロイドを中心とする32×64個の画素で構成された矩形の領域であるROIの定義に用いられる。一般にセントロイドは3つの時空間座標(x,y,t)によって定義されるが、各フレームに対しては2つの空間座標(x,y)しか必要としない。ROIによって定義される領域内に含まれる画素のみが記憶されるように、対応する記憶画像の前記32×64の領域が切り取られる。切り取られた各画像(ROI)は順番に記憶されて、図6(a)に示すように、2つの空間的な次元(x,y)と1つの時間指数(1≦n≦N)とによって構成される時空間的体積(STV)を形成する。
【0024】
その後、所定の発声に関連あるROIを収集してなる集合が、各N個のROIに対してx=x0(n) においてスライスされて、時間指数nの関数としてのy次元に沿った濃淡画像を形成する。(図6(b)に、xの様々な固定値に対するSTVの一連のスライスを示す。)
【0025】
図7に、x=x0(n) におけるスライスと顔面画像との関係を示す。図7(a)は、n=5の時の画像であり、口の領域を通る点線が、x0(5) を含む縦方向1組64個の画素に対応する。図7(b)には、t軸(n指数)に沿った1組の連続フレームに対して同様の1組の画素値をとることによって得られる濃度順序キュー関数が示されている。縦方向のセントロイドy0(n) は、図7(b)の濃淡画像のy次元中央に位置している。
【0026】
y=y0(n) に近い暗部分は、x0(n) における口の縦方向の開口を表す。この情報を用いて、話者識別に利用され得る1組のキューが形成されるのである。
【0027】
特に、図7(b)の濃度順序キュー関数から抽出されるべき必須情報は、三角形の暗部分によって表される識別キューである。図7(b)の拡大図である図8に、頂点A、B及びDの形成する三角形によって強調されたキューの1つを示す。点Cは、ROIマスク部16の行なうROI検出によって明らかにされた時空間セントロイド(t0,y0)である。線BAは、前記キューの持続時間に対する口輪郭最上部の軌跡を表し、他方、線BD及びDAは共同で、口輪郭最下部の軌跡を表す。一般に、これらの輪郭は直線を描かないけれども、こうした近似直線により十分に目的が達成されることが判っている。
【0028】
濃度順序キュー関数から識別キューを抽出する作業は、特徴抽出部17によって行なわれる。第1段階において、次の式に従って、各ROIに濃淡変換を行なうことによりSTキューを矩形のキューブロックに切り分けて、各キューブロックにキューが1個しか含まれていない状態にする。
p(i,j)≧GSTならば、q(i,j)=255
そうでなければ、 q(i,j)=p(i,j) ………………(6)
ここで、GSTは適応的に選択された閾値であり、p(i,j)及びq(i,j)は、各々n=iかつy=jの時の元来のROI及び変換後のROIの画素値である。“255”という値は最大輝度に対応するので、p(i,j)≧GSTの全ての値は「白」となり、他方、GST未満の値は元来の濃度値のままとなる。図9に、前記手順を用いて得られた1つのキューブロックを例示する。ここで、横軸は時間を表し、縦軸はy次元を表す。横軸の画素間隔は各々1/30秒である。
【0029】
各キューブロックには、画素が少なくとも3つ分の幅で8隣接の態様に連続した画素集合からなるキューが含まれていなければならない。少なくとも画素3つ分の幅という条件があるため、キューは必然的に、連続する少なくとも3つのフレーム(時間指数)から形成されることになる。画素p(j,k)の8隣接の近傍状態は、−1≦i≦+1かつ−1≦j<+1の条件を満たす画素組{p(x+i,y+j)}と定義される。
【0030】
図10に第1段階においてヒストグラムのピーク指数iをi=0としたGST設定手順100のフローチャートを示す。ステップ101において、所定の時空間濃度順序キュー関数から濃度振幅ヒストグラム(ゼロが黒に対応)を作成する。ステップ102において、振幅を表すヒストグラムの横軸に沿って一連のピーク位置を判断するとともに、i=0,1,2,…とした時のi番目のピークPi の
【外8】
閾値を所定の濃度順序キュー関数に適用する。ステップ105において、こうして確定されたキューの数を数えて、計数値をmi とする。検査ステップ106において、値mi が前の値mi−1 よりも小か否かが確認され、小でなければ、指数iを漸増させるステップ107へと進み、再びステップ103から処理が行なわれる。小であれば閾値GSTをPi−1 とするステップ108へと進み、処理が終了する。
【0031】
図11〜図17に、前記のように、適応的手順を用いてGSTを判断する方法を示す。図11及び図13〜図16において、時空間濃度順序キュー関数を左側に、対応する濃度ヒストグラムを右側に示す。図11〜図17は、話者(gw)と発声(fa)とに関するものである。
【0032】
図11に、閾値処理が行なわれていない濃度順序キュー関数を示す。
【0033】
図12において、第1列はピーク指数iに対応し、第2列は各指数のピークが発生するヒストグラムの濃淡に対応し、第3列は、GSTの設定値を対応する各濃淡にした時に得られるキューの数を表す。
【0034】
図13に、濃度順序キュー関数をヒストグラムの第1のピークであるGST=19で閾値処理した時に残存する特徴を示す。その横に示すヒストグラムは、横軸の目盛の15〜61の範囲を拡大したものである。ヒストグラムの計数の薄灰色部分はGST=19によって指示されるレベルを示す。残存する特徴はキューの基準を満たさない。
【0035】
図14に、i=2に対応するGST=23の時の結果を示す。閾値処理された濃度順序キュー関数のレムナントは、分離した5つの特徴を示し、その内の第2及び第5の特徴がキューの基準を満たす。
【0036】
図15に、i=10に対応するGST=53の時の結果を示す。閾値処理後の6つのレムナントがキューの基準を満たす。
【0037】
図16に、i=11に対応するGST=58の時の結果を示す。前記レベルで閾値処理を行なった場合には、図15に示す6つのキューがつながって、1つのキューとして計数される。
【0038】
図12から、i=7〜10では、キュー数は6に保たれるが、i=11ではキューの分離が見られなくなってしまうことが判る。従って、好適な閾値は、キューの分離が維持される最大値の閾値GST=53となる。
【0039】
図17に、二重表記(GST,m)に示す様々な閾値及びキュー数に対する閾値処理後のレムナントを左から右及び上から下に示す。
【0040】
単一の発声に対して閾値を確定させる場合、例えば発声をライブラリに記憶されている特徴ベクトルと比較する時は、同じ方法を用いて閾値GSTを確定させることができる。ただし、GSTについては、図8及び9に示すような特徴的な三角形のキューを維持しながら画素数が最大になる仮のキューが得られるヒストグラムのピーク値に対応する値を選択する。こうした好適な閾値レベルを超えると、図8の三角形モデルが不適切になって、誤認が起こり得る。これに代わる方法として、1組の妥当な閾値に基づく1組のキューを用いて、認識モードに使用可能な1組の特徴ベクトル成分を判断することもできる。
【0041】
適当な閾値GSTが判ったら、キュー毎に別々のキューブロックに分ける。
【0042】
キューブロックが得られたら、キュー幅とキュー高さと開口持続時間とを推定する。図18に、2つの異なった尺度での口の前記パラメータを示す。点Bは発声開始前の点、点Aは発声終了後の点、点Dは発声時において口の内側面積が最大に拡張した点、点Eは頂点Dからの垂線と線BAとの交点、そして、点CはDが発生した時の時間指数nの値に対するセントロイドのy位置(y0(n))である。従って、Dは常に線CE上に位置する。距離CEを用いて空間的測定値を正規化して、画像の透視尺度を補完する。図18(b)が、図18(a)の場合と同じ話者が同じ発声をより遠い位置で行なった状態を表す図であるとした場合、持続時間(BA)は同じ、即ち撮影距離に対して不変であるため、y次元(DE)だけが縮尺されるという点に注目されたい。
【0043】
キュー幅(BA)、キュー高さ(DE)及び開口持続時間(BE)の各数値は、行数がR、列数がC、そして左上の最小行列指数が(1,1)のキューブロックにおいて次のように推定される。
【0044】
(1) BA;
キューブロックの各行rについて、白(値が“255”)ではない画素が最大数連続する画素組の画素単位の幅wr
{w}={w1,w2,…,wr,…,wR} ……………………(7)
を求め、BAを最大値wmax=wrと等しい値とする。幅の等しい行が複数行ある場合は、BAの設定値を最上位置(又は、指数が最小)の行の幅と等しい値とする。wmax の最左側の要素を点B、最右側の要素を点Aとする。
【0045】
(2) DE;
列数Cのキューブロックについて、画素が最大数連続する画素組の画素単位の高さh
{h}={h1,h2,…,hc,…,hC} ……………………(8)
を求め、{h’1≦h’2≦ … ≦h’c} という具合に、小さい要素から順に前記画素組を並び替える。DEの設定値を、行幅(wr) が少なくとも画素単位2つ分になる並び替え後の画素組の最大要素と等しい値とする。(予めこのような注意をしておくと、単一の雑音スパイクがキュー高さとして選択される確率が最小限に抑えられる。)前記高さ値において行幅が偶数Mになる場合は、前記行の画素番号M/2を点Dに対応する画素として選択する。
行幅が奇数になる場合は、中央の画素を選択し、これを点D1 とする。
【0046】
(3) BE;
開口段階の持続時間は、段階(1)及び(2)によって求められた点B及びDの座標上における時間単位数の差に等しい。
【0047】
点A、B、C、D及びEから、以下の特徴が導出される。
【0048】
(1) MO(開口速度);
発声時に正規化最大口唇間隔(DE)に達するまでの時間に対する前記最大間隔の比。CEに対するDEの比は常に一定であり、かつ、カメラ10から対象30までの距離とは無関係であるから、正規化口唇間隔はDE/CEに等しい。BからDに達するまでの時間は、フレーム時間単位(1/30秒
)で測定されたBEに等しい。従って、
MO=DE/(CE・BE) ………………………………(9)
で表される。
【0049】
(2) MC(閉口速度);
下唇が休止位置に達するまでの時間(EA)に対する正規化最大口唇間隔DE/CEの比。即ち、
MC=DE/(CE・EA) ………………………………(10)
で表される。ここで、EAは、フレーム時間単位での測定値である。
【0050】
(3) STA(正面から見た口腔の時空間的面積);
頂点B、D及びAによって形成される三角形の面積。即ち、
STA=1/2(BA・(DE/CE)) …………………(11)
で表される。ここで、BAは、フレーム時間単位での測定値とする。
【0051】
以下に、図9のキューブロックを用いて、MO、MC及びSTAの3つの特徴を導出する例を示す。
【0052】
キューブロックは、図の濃度の白以外の全ての画素を含む矩形の境界枠によって形成される。左上の画素は、第1行、第1列の第1画素である。各画素の大きさは、約1mm×(1/30)秒である。式(7)より、
{W}={1,1,2,2,2,6,6,6,5,5,5,3,3,1} ……(12)
となる。
【0053】
列5には、離隔的な連続する2組の画素があり、一方は画素2つ分の幅、他方は画素1つ分の幅である点に注目されたい。従って、w5 =2、即ち離隔的な連続する最大幅の画素組の幅となる。
【0054】
w6 =w7 =w8 =6なので、指数が最小の行(6)が最大幅(フレーム時間単位で6単位)と定義されることから、BA=6、即ち、6×1/30秒となる。
【0055】
式(8)より、
{h}={4,6,7,8,9,8,7} ………………………(13)
が導かれる。
【0056】
h5 =9となるが、第5列は最小1行分の幅しかない(w14=1)。従って、最大下唇偏位(点D)を確定させる際には、行13及びw13=3での列4、5及び6を考慮しなければならないことになる。列4、5及び6の中央に位置する列5が選択され、h5 =8(9ではない)となるため、DE=8となる。行6と列2との座標によって点Bが定義され、行13と列5との座標によって点Dが定義されるので、時間間隔BE=5−2=3フレーム単位となる。
【0057】
CE=1とすると、式(9)、(1)及び(11)より、
MO=DE/(CE・BE)=8/(1・4)=2
MC=DE/(CE・EA)=8/(1・(6−4))=4
STA=1/2(BA・(DE/CE))=1/2(6・(8/1))=24
となる。ここで、MO及びMCの単位は30mm/秒であり、STAの単位は(1/30)mm/秒である。
【0058】
話者4人に各々5種類の異なった発声をさせて実験したところ、図19の時空間的(ST)スライスに示す結果が得られた。異なる話者(上からds、es、gw及びvp)を行毎に、異なる発声(左から|ba|、|da|、|fa|、|la|、|ma|)を列毎に示してある。
【0059】
話者dsについて、式(6)の濃淡変換を用いて検出されたキューを図20に示す。第1行は、図19の第1行と同じものであり、第2行は、閾値GST=40を求める元になった対応する一連のヒストグラムであり、第3行は、濃淡変換によって分離されたキューを示す。
【0060】
図21に、話者es、gw及びvpについて、閾値GSTを各々40、50及び30にして同様の態様で求めた対応する一連のキューを示す。
【0061】
これらのデータから、話者毎、発声毎に識別パラメータMO、MC及びSTAを計算した。図22は、これらのパラメータをグラフ化した3次元分布図であって、MO‐MCの平面座標上に表示されている四角形の大きさがSTAの値を示している。特徴の話者毎のクラスタリングは、2人の話者(vp及びgw)に関する分布図においてMO‐MC平面座標上に重複する点があっても、四角形の大きさによって表されるSTA値が明かに異なっているために、2人の話者を区別することができるという点に注目すべきである。
【0062】
従って、図2に示すように実行される前記手順により、発声の視覚的観察に基づいて、単独で、又は他の識別観察と組み合わせて話者認識に利用され得る一連の特徴が得られるという結論に達する。このように、図2において、特徴抽出部17の出力は、任意で比較器18に送って成分MO、MC及びSTAを有するベクトルと予め記憶されている1組の標本ベクトルとを比較することにより識別を行なっても、又は他の装置に送って他の観察データと結合させてもよい1組のMOとMCとSTAとに対応する。
【0063】
また、図18(a)及び(b)の距離DEの正規化を
DE/CE=(DC+CD)/CE=1+CD/CE ………(14)
と表して、必須情報が比DC/CEに含まれるようにすることができるという点にも注目すべきである。これより、必須情報が比CE/DCに含まれるとともに情報的にはその逆数のDC/CEと同等である別な正規化
DE/DC=(DC=DE)/DC=1+CD/DE ………(15)
が示唆される。さらに、こうしたことから、DC/CE又はその逆数の何れかが特徴ベクトルの適切な候補要素であることが示唆される。
【0064】
【発明の効果】
本発明によれば、発声に関連ある口の動きを利用して、発声に伴う音声信号を全く用いずに、特徴ベクトル空間において音声毎に判明なクラスタリングを形成する時間的かつ可視的な特徴ベクトルが生成され、特徴空間には、開口速度と、閉口速度と、発声毎の開口(口唇分離又は口腔前面面積)及び開口持続時間を表す時空間面積パラメータとが含まれるので、話者の特徴空間成分を観察することによって話者を認識することができ、かつ、こうした特徴空間成分を含めることによって既存の顔面認識装置の認識度を高めることもでき、さらには、僅かな記憶容量しか必要としない小型の認識装置や、一般的な事務所用環境照明条件に適した認識装置を提供することもできる。
【図面の簡単な説明】
【図1】従来技術において用いられる一連の静的な顔面的特徴を示す説明図である。
【図2】本発明の実施の一形態を示す時空間認識装置のブロック図である。
【図3】(a)はサンプリングされたガウス畳込みカーネルG3 の値を示す説明図、(b)はサンプリングされたガウス畳込みカーネルG5 の値を示す説明図である。
【図4】
【外9】
【図5】対象領域(ROI)を示す説明図である。
【図6】特徴抽出に用いられる視覚的な時空間的(ST)体積を示す模式的斜視図である。
【図7】話者の口とST体積のスライスとの関係を示す説明図である。
【図8】視覚的な時空間的(ST)体積の所定のスライスを示す説明図である。
【図9】視覚的な時空間的(ST)体積のスライスにおけるキューの定義を示す特性図である。
【図10】閾値GSTを求める手順を示すフローチャートである。
【図11】(a)は時空間的濃度順序キュー関数の例を示す特性図、(b)は(a)の順序キュー関数を示すヒストグラムである。
【図12】図11(b)のヒストグラムに見られるピークをまとめた説明図である。
【図13】(a)は図11(a)の順序キュー関数において、閾値GST=19とした時のレムナントを示す特性図、(b)は閾値GST=19とした時の図11(b)のヒストグラムのピークP1〜P11を示す特性図である。
【図14】(a)は閾値GST=23とした時の図11(a)の順序キュー関数のレムナントを示す特性図、(b)は図11(b)のヒストグラムと閾値レベルGST=23とを示す特性図である。
【図15】(a)は閾値GST=53とした時の図11(a)の順序キュー関数のレムナントを示す特性図、(b)は図11(b)のヒストグラムと閾値レベルGST=53とを示す特性図である。
【図16】(a)は閾値GST=58とした時の図11(a)の順序キュー関数のレムナントを示す特性図、(b)は図11(b)のヒストグラムと閾値レベルGST=58とを示す特性図である。
【図17】6種類の異なる閾値レベルによる順序キュー関数の一連のレムナントを示す特性図である。
【図18】カメラによる透視変換像がキューに及ぼす影響を示す説明図である。
【図19】4人の異なる話者が5種類の異なる発声を行なった場合の視覚的時空間(ST)スライスを示す特性図である。
【図20】視覚的STスライスと濃度振幅のヒストグラムとキューブロックとの関係を示す特性図である。
【図21】3人の異なる話者から得られた一連のキューブロックを示す特性図である。
【図22】異なる話者の特徴空間におけるクラスタリングを示す分布図である。
Claims (8)
- 個人認識装置に用いられる話者認識のための特徴ベクトルを生成する方法であって、発声の視覚的観察に基づく特徴ベクトル生成方法において、
(a) 認識対象の人物による発声を観察するステップと、
(b) 前記発声に関連ある口唇分離距離と時間との関数を含むキューによって前記人物の口の動きを表すステップと、
(c) 前記キューから、
(i) 前記口唇分離の開口ステップ開始時点を始点、前記口唇分離の閉口ステップ終了時点を終点とする視覚的発声の持続時間と、
(ii) 最大口唇分離距離及び最大口唇分離状態発生時間と、
(iii) 上唇と下唇との間の開口セントロイドの位置と、
を含む1組の特徴ベクトル成分を抽出するステップと、
を備え、前記キューから1組の特徴ベクトル成分を抽出する前記ステップが、
( i ) 口唇分離の開口ステップ開始時点から最大口唇分離状態に達する時点までの口唇分離開口速度と、
(ii) 最大口唇分離状態発生時間から最小口唇分離状態に達する時点までの口唇分離閉口速度と、
(iii) 前記口唇分離距離と時間との関数によって表される部分の面積測定値と、
を含む別な1組の特徴ベクトル成分を含むことを特徴とする話者認識のための特徴ベクトル生成方法。 - 前記別な1組の特徴ベクトル成分を抽出する前記ステップが、前記最大口唇分離状態発生時間における前記セントロイドから前記上唇までの距離で割ることによって正規化された正規化距離を用いるステップを含むことを特徴とする請求項1記載の話者認識のための特徴ベクトル生成方法。
- 前記別な1組の特徴ベクトル成分を計算する前記ステップが、前記最大口唇分離状態発生時間における前記セントロイドから前記下唇までの距離で割ることによって正規化された正規化距離を用いるステップを含むことを特徴とする請求項1記載の話者認識のための特徴ベクトル生成方法。
- 個人認識装置に用いられる話者認識のための特徴ベクトルを生成する方法であって、発声の視覚的観察に基づく特徴ベクトル生成方法において、
( a ) 認識対象の人物による発声を観察するステップと、
( b ) 前記発声に関連ある口唇分離距離と時間との関数を含むキューによって前記人物の口の動きを表すステップと、
( c ) 前記キューから、
( i ) 前記口唇分離の開口ステップ開始時点を始点、前記口唇分離の閉口ステップ終了時点を終点とする視覚的発声の持続時間と、
(ii) 最大口唇分離距離及び最大口唇分離状態発生時間と、
(iii) 上唇と下唇との間の開口セントロイドの位置と、
を含む1組の特徴ベクトル成分を抽出するステップと、
を備え、前記最大口唇分離距離が、前記最大口唇分離状態発生時間における前記セントロイドから前記上唇までの距離で割ることによって正規化されることを特徴とする特徴ベクトル生成方法。 - 個人認識装置に用いられる話者認識のための特徴ベクトルを生成する方法であって、発声の視覚的観察に基づく特徴ベクトル生成方法において、
( a ) 認識対象の人物による発声を観察するステップと、
( b ) 前記発声に関連ある口唇分離距離と時間との関数を含むキューによって前記人物の口の動きを表すステップと、
( c ) 前記キューから、
( i ) 前記口唇分離の開口ステップ開始時点を始点、前記口唇分離の閉口ステップ終了時点を終点とする視覚的発声の持続時間と、
(ii) 最大口唇分離距離及び最大口唇分離状態発生時間と、
(iii) 上唇と下唇との間の開口セントロイドの位置と、
を含む1組の特徴ベクトル成分を抽出するステップと、
を備え、前記最大口唇分離距離が、前記最大口唇分離状態発生時間における前記セントロイドから前記下唇までの距離で割ることによって正規化されることを特徴とする話者認識のための特徴ベクトル生成方法。 - 個人認識装置に用いられる話者認識のための特徴ベクトルを生成する方法であって、発声の視覚的観察に基づく特徴ベクトル生成方法において、
( a ) 認識対象の人物による発声を観察するステップと、
( b ) 前記発声に関連ある口唇分離距離と時間との関数を含むキューによって前記人物の口の動きを表すステップと、
( c ) 前記キューから、
( i ) 前記口唇分離の開口ステップ開始時点を始点、前記口唇分離の閉口ステップ終了時点を終点とする視覚的発声の持続時間と、
(ii) 最大口唇分離距離及び最大口唇分離状態発生時間と、
(iii) 上唇と下唇との間の開口セントロイドの位置と、
を含む1組の特徴ベクトル成分を抽出するステップと、
を備え、話者による発声の観察が、前記人物の顔を写した一連のビデオ画像を用いて行なわれるとともに、前記ビデオ画像の相対的に動きのない部分を減じながら前記人物の口の領域の識別及び選択を行なうために、一連の画像を微分することによって生成された微分ビデオ画像を用いて、前記一連のビデオ画像から前記人物の口の動きを抽出するステップをさらに含むことを特徴とする話者認識のための特徴ベクトル生成方法。 - 前記人物の口の領域の選択が、前記微分ビデオ画像を閾値処理するとともに、濃度値が一連の画像間における大きな変化を表している連続した口の領域を選択することによって行なわれ、前記連続した口の領域をマスクとして、前記一連のビデオ画像からの前記人物の口の領域の抽出と前記人物の口の領域の前記セントロイドの計算とが行なわれることを特徴とする請求項6記載の話者認識のための特徴ベクトル生成方法。
- 前記口唇分離距離が、前記人物を正面から見た時の顔の対称線に平行な、前記セントロイドを通る線上において測定されることを特徴とする請求項7記載の話者認識のための特徴ベクトル生成方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/336,974 US5625704A (en) | 1994-11-10 | 1994-11-10 | Speaker recognition using spatiotemporal cues |
US08/336,974 | 1994-11-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08235358A JPH08235358A (ja) | 1996-09-13 |
JP3552179B2 true JP3552179B2 (ja) | 2004-08-11 |
Family
ID=23318540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29252195A Expired - Fee Related JP3552179B2 (ja) | 1994-11-10 | 1995-11-10 | 話者認識のための特徴ベクトル生成方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5625704A (ja) |
JP (1) | JP3552179B2 (ja) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774591A (en) * | 1995-12-15 | 1998-06-30 | Xerox Corporation | Apparatus and method for recognizing facial expressions and facial gestures in a sequence of images |
US5960099A (en) * | 1997-02-25 | 1999-09-28 | Hayes, Jr.; Carl Douglas | System and method for creating a digitized likeness of persons |
US6108437A (en) * | 1997-11-14 | 2000-08-22 | Seiko Epson Corporation | Face recognition apparatus, method, system and computer readable medium thereof |
JP3688879B2 (ja) * | 1998-01-30 | 2005-08-31 | 株式会社東芝 | 画像認識装置、画像認識方法及びその記録媒体 |
DE19810792A1 (de) | 1998-03-12 | 1999-09-16 | Zentrum Fuer Neuroinformatik G | Verfahren zum Verifizieren der Authentizität eines im Rahmen einer Personenerkennung aufgenommenen Bildes |
US6610917B2 (en) | 1998-05-15 | 2003-08-26 | Lester F. Ludwig | Activity indication, external source, and processing loop provisions for driven vibrating-element environments |
JP2000132693A (ja) * | 1998-10-27 | 2000-05-12 | Sony Corp | 画像処理装置および方法、並びに提供媒体 |
US6594629B1 (en) * | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US6219640B1 (en) * | 1999-08-06 | 2001-04-17 | International Business Machines Corporation | Methods and apparatus for audio-visual speaker recognition and utterance verification |
US6633844B1 (en) * | 1999-12-02 | 2003-10-14 | International Business Machines Corporation | Late integration in audio-visual continuous speech recognition |
US6754373B1 (en) * | 2000-07-14 | 2004-06-22 | International Business Machines Corporation | System and method for microphone activation using visual speech cues |
US7392287B2 (en) * | 2001-03-27 | 2008-06-24 | Hemisphere Ii Investment Lp | Method and apparatus for sharing information using a handheld device |
US20030083872A1 (en) * | 2001-10-25 | 2003-05-01 | Dan Kikinis | Method and apparatus for enhancing voice recognition capabilities of voice recognition software and systems |
US20030161507A1 (en) * | 2002-02-28 | 2003-08-28 | Spectra Systems Corporation | Method and apparatus for performing facial recognition with a hand-held imaging device |
US7369685B2 (en) * | 2002-04-05 | 2008-05-06 | Identix Corporation | Vision-based operating method and system |
US20040052418A1 (en) * | 2002-04-05 | 2004-03-18 | Bruno Delean | Method and apparatus for probabilistic image analysis |
FR2842013B1 (fr) * | 2002-07-04 | 2004-12-03 | Bernard Jean Francois C Roquet | Dispositif de reception des paroles d'un locuteur a l'aide de la lecture sur les levres |
EP1413972B1 (de) * | 2002-10-24 | 2008-10-22 | L-1 Identity Solutions AG | Prüfung von Bildaufnahmen von Personen |
JP4407243B2 (ja) * | 2003-11-10 | 2010-02-03 | ソニー株式会社 | 照合処理装置とその方法 |
US20060293891A1 (en) * | 2005-06-22 | 2006-12-28 | Jan Pathuel | Biometric control systems and associated methods of use |
US20080043144A1 (en) * | 2006-08-21 | 2008-02-21 | International Business Machines Corporation | Multimodal identification and tracking of speakers in video |
EP2291795A1 (en) * | 2008-07-02 | 2011-03-09 | C-True Ltd. | Face recognition system and method |
US8345014B2 (en) | 2008-07-12 | 2013-01-01 | Lester F. Ludwig | Control of the operating system on a computing device via finger angle using a high dimensional touchpad (HDTP) touch user interface |
US8732623B2 (en) * | 2009-02-17 | 2014-05-20 | Microsoft Corporation | Web cam based user interaction |
US8992446B2 (en) * | 2009-06-21 | 2015-03-31 | Holland Bloorview Kids Rehabilitation Hospital | Procedure for denoising dual-axis swallowing accelerometry signals |
US9263044B1 (en) * | 2012-06-27 | 2016-02-16 | Amazon Technologies, Inc. | Noise reduction based on mouth area movement recognition |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
US9076028B2 (en) | 2012-10-08 | 2015-07-07 | Citrix Systems, Inc. | Facial recognition and transmission of facial images in a videoconference |
RU2014111792A (ru) * | 2014-03-27 | 2015-10-10 | ЭлЭсАй Корпорейшн | Процессор изображений, содержащий систему распознавания лиц на основании преобразования двухмерной решетки |
EP3188019B1 (en) * | 2015-12-30 | 2019-09-18 | InterDigital CE Patent Holdings | Method for selecting a content comprising audiovisual data and corresponding electronic device, system, computer readable program product and computer readable storage medium |
KR102591413B1 (ko) * | 2016-11-16 | 2023-10-19 | 엘지전자 주식회사 | 이동단말기 및 그 제어방법 |
CN108108651B (zh) * | 2016-11-25 | 2022-02-11 | 广东亿迅科技有限公司 | 基于视频人脸分析的驾驶员非专心驾驶检测方法及系统 |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US10796135B2 (en) * | 2017-09-28 | 2020-10-06 | Nec Corporation | Long-tail large scale face recognition by non-linear feature level domain adaptation |
CN112966654B (zh) * | 2021-03-29 | 2023-12-19 | 深圳市优必选科技股份有限公司 | 唇动检测方法、装置、终端设备及计算机可读存储介质 |
CN113177531B (zh) * | 2021-05-27 | 2023-07-07 | 广州广电运通智能科技有限公司 | 一种基于视频分析的说话识别方法、系统、设备及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4975960A (en) * | 1985-06-03 | 1990-12-04 | Petajan Eric D | Electronic facial tracking and detection system and method and apparatus for automated speech recognition |
GB8528143D0 (en) * | 1985-11-14 | 1985-12-18 | British Telecomm | Image encoding & synthesis |
US5136659A (en) * | 1987-06-30 | 1992-08-04 | Kokusai Denshin Denwa Kabushiki Kaisha | Intelligent coding system for picture signal |
US4975969A (en) * | 1987-10-22 | 1990-12-04 | Peter Tal | Method and apparatus for uniquely identifying individuals by particular physical characteristics and security system utilizing the same |
JP2983545B2 (ja) * | 1988-03-16 | 1999-11-29 | アイシン精機株式会社 | 映像信号の増幅処理装置 |
-
1994
- 1994-11-10 US US08/336,974 patent/US5625704A/en not_active Expired - Lifetime
-
1995
- 1995-11-10 JP JP29252195A patent/JP3552179B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH08235358A (ja) | 1996-09-13 |
US5625704A (en) | 1997-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3552179B2 (ja) | 話者認識のための特徴ベクトル生成方法 | |
CN108491784B (zh) | 面向大型直播场景的单人特写实时识别与自动截图方法 | |
JP4307496B2 (ja) | 顔部位検出装置及びプログラム | |
US7190829B2 (en) | Speedup of face detection in digital images | |
US8340420B2 (en) | Method for recognizing objects in images | |
JP4743823B2 (ja) | 画像処理装置、撮像装置、画像処理方法 | |
JPH09102043A (ja) | 画像内の要素の位置検出 | |
EP1229493A2 (en) | Multi-mode digital image processing method for detecting eyes | |
JP2003030667A (ja) | イメージ内で目を自動的に位置決めする方法 | |
US8548247B2 (en) | Image processing apparatus and method, and program | |
JP2003526841A (ja) | 生物測定学に基づく顔の抽出システム及び方法 | |
CN107194317B (zh) | 一种基于网格聚类分析的暴力行为检测方法 | |
JP2004348674A (ja) | 領域検出方法及びその装置 | |
JP2004054960A (ja) | 映像視覚情報を結合してリアルタイムで複数の顔を検出して追跡する顔検出・追跡システム及びその方法 | |
US20050139782A1 (en) | Face image detecting method, face image detecting system and face image detecting program | |
JP2010057105A (ja) | オブジェクトの3次元追跡方法およびシステム | |
CN114240925A (zh) | 一种文档图像清晰度的检测方法及其系统 | |
JP4821355B2 (ja) | 人物追跡装置、人物追跡方法および人物追跡プログラム | |
CN111709305A (zh) | 一种基于局部图像块的人脸年龄识别方法 | |
KR101600617B1 (ko) | 영상내 사람 검출 방법 | |
CN116977931A (zh) | 一种基于深度学习的高空抛物识别方法 | |
JP2010146395A (ja) | 画像処理装置、画像処理方法、画像処理プログラム、及び、電子機器 | |
JP3636936B2 (ja) | 濃淡画像の2値化方法および濃淡画像の2値化プログラムを記録した記録媒体 | |
JP2013011950A (ja) | 画像処理装置、画像処理方法及びプログラム | |
CN115393695A (zh) | 人脸图像质量评估方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20031224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040423 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080514 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090514 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100514 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110514 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120514 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |