JP4730812B2 - Personal authentication device, personal authentication processing method, program therefor, and recording medium - Google Patents
Personal authentication device, personal authentication processing method, program therefor, and recording medium Download PDFInfo
- Publication number
- JP4730812B2 JP4730812B2 JP2005086974A JP2005086974A JP4730812B2 JP 4730812 B2 JP4730812 B2 JP 4730812B2 JP 2005086974 A JP2005086974 A JP 2005086974A JP 2005086974 A JP2005086974 A JP 2005086974A JP 4730812 B2 JP4730812 B2 JP 4730812B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- phoneme
- personal authentication
- utterance
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Collating Specific Patterns (AREA)
- Image Analysis (AREA)
Description
本発明は、顔画像による個人認証装置及び処理方法、そのプログラム並びに記録媒体に関する。 The present invention relates to a personal authentication apparatus and processing method using a face image, a program thereof, and a recording medium.
従来から、様々な分野で個人認証システムが利用されているが、認証に対する精神的な抵抗感の少なさから、近年、顔画像を用いた認証システムがいろいろ提案されている。例えば、特許文献1では、顔認証システムによって顧客を認識し、認識結果にもとづいて顧客情報を提示することを提案している。
Conventionally, personal authentication systems have been used in various fields. However, in recent years, various authentication systems using facial images have been proposed due to the lack of mental resistance to authentication. For example,
ところで、1枚の静止した顔画像を使った個人認証では、双子の場合等、誤認証が問題となることがある。そのため、例えば、特許文献2では顔画像認証、音声認証、ID番号認証、指紋認証等の何れかを2つ以上組み合わせて用いることを提案している。
By the way, in the personal authentication using one still face image, erroneous authentication may be a problem in the case of twins. Therefore, for example,
異なる種類の組合せによる認証は有効ではあるが、まったく異なる複数種類の動作を伴うため、装置構成や処理が煩雑になる。よって、顔画像だけで認証精度が向上できればその方が望ましく、その方法としては、1枚の静止画ではなく、動画像を用いる方法が考えられる。それは、時系列の顔画像を用いた認証は、1枚の顔画像による認証よりも高い信頼性が期待できるからである。 Although authentication by a combination of different types is effective, since a plurality of different types of operations are involved, the apparatus configuration and processing become complicated. Therefore, it is desirable that the authentication accuracy can be improved by using only the face image, and a method using a moving image instead of a single still image is conceivable as the method. This is because authentication using time-series face images can be expected to be more reliable than authentication using a single face image.
動画像による認証では、例えば、登録された笑顔の動画像を利用して認証を行うといったことが考えられるが、動画像の場合、時系列データである性格上、観測される表情自体の再現性が十分でない場合がある。その場合には、動画像を用いたにも関わらず、認識精度の向上が見られないことがあるという問題がある。 In the authentication using moving images, for example, it is conceivable that authentication is performed using a registered smiley moving image. However, in the case of moving images, the reproducibility of the observed facial expression itself due to the nature of time-series data. May not be enough. In this case, there is a problem that recognition accuracy may not be improved despite the use of moving images.
本発明の目的は、時系列の動画像を用いて、高精度な個人認証を実現する装置及び処理方法、そのためのプログラム並びに記録媒体を提案することにある。 An object of the present invention is to propose an apparatus and processing method for realizing highly accurate personal authentication using time-series moving images, a program therefor, and a recording medium.
本発明は、表情の動画像の再現性を上げるために、ユーザにあるキーワード等を発語させ、そのときの顔の動画像を用いて認証を行うようにする。すなわち、表情の再現性を上げるために、表情の表出に対して、発語という拘束条件を与えてやるのである。これは、特許文献2のような、音声認証との組合せとは異なるものである。
According to the present invention, in order to improve the reproducibility of a moving image of a facial expression, a user speaks a keyword or the like, and authentication is performed using the moving image of the face at that time. In other words, in order to improve the reproducibility of facial expressions, a constraint condition of speech is given to the expression of facial expressions. This is different from the combination with voice authentication as in
詳しくは、請求項1に係る発明は、発語時の時系列の顔画像に基づいて人物認証を行う個人認証装置において、動画像を取得する手段と、音声を取得する手段と、音声を音素に分割し、各音素が発音されている区間の中央の時刻を取得する手段と、動画像から、発語直前の顔画像を構成するフレーム画像(以下、基準フレーム)と、発語時の各音素が発音されている区間の中央の時刻の顔画像を構成する複数のフレーム画像(以下、音素フレーム)を抽出する手段と、基準フレームと各音素フレームの顔画像の特徴点を抽出して、各音素フレームについて、基準フレームに対する特徴点の変位量(以下、特徴点変位量)を算出する手段と、全ての音素フレームの特徴点変位量をまとめて1のベクトルを生成し、該ベクトルとあらかじめ登録されているテンプレートベクトルとの類似度を算出して人物認証を行う手段とを有することを特徴とする。
Specifically, the invention according to
ここで上記発語は、そのタイミングや回数を認証システムが促したり、あるいは発語対象の言葉自体を、その都度認証システムが指定するものであってもよい。あるいは発語する言葉自体は1つ、あるいは複数既定されており、そのうちのどれかを促したり、発語したりしても良い。また、前記既定しておく言葉は、氏名、住所、生年月日、パスワード等の忘却しにくい特定のキーワードであることが望ましい。 Here, the utterance may be prompted by the authentication system for the timing and the number of times, or the utterance target word itself may be designated by the authentication system each time. Alternatively, one or a plurality of words to be spoken are predetermined, and any one of them may be prompted or spoken. The predetermined words are preferably specific keywords that are difficult to forget such as name, address, date of birth, and password.
よって、請求項2に係る発明は、請求項1に記載の個人認証装置において、動画像中に顔画像が含まれていると発語を促す手段を設けることを特徴とする。この請求項2に係る発明は、発語時の利便性を高めることを目的とする。
Therefore, the invention according to
また、請求項3に係る発明は、請求項1に記載の個人認証装置において、前記発語の対象が不特定であることを特徴とする。この請求項3に係る発明は、発語対象の記憶を不要にすることを目的とする。
The invention according to
また、請求項4に係る発明は、請求項1に記載の個人認証装置において、前記発語の対象が特定のキーワードであることを特徴とする。この請求項4に係る発明は、発語対象の記憶性を高めることを目的とする。
According to a fourth aspect of the present invention, in the personal authentication device according to the first aspect, the utterance target is a specific keyword. The invention according to
また、請求項5〜8に係る発明は、上記請求項1〜4に記載の個人認証装置に対応する個人認証処理方法を提供する。この請求項5〜8に係る発明は、上記1〜4の各請求項に対応した効果を得ることを目的とする。
The inventions according to claims 5 to 8 provide a personal authentication processing method corresponding to the personal authentication device according to
また、請求項9、10に係る発明は、請求項5〜8に記載の個人認証処理方法をコンピュータに実行させるためのプログラム、さらには該プログラムを記録した記録媒体を提供する。この請求項9、10に係る発明は、プログラムをコンピュータにインストールすることにより、上記1〜4の各請求項に対応した構成のシステムをコンピュータで実現することを目的とする。
The inventions according to
本発明の個人認証装置、個人認証処理方法、プログラム又は記録媒体によれば、次のような作用効果が得られる。
(1) 発語時の各音素に対応した時系列の顔画像を取得し、発語直前の顔画像に対する前記時系列の顔画像の特徴点の変位にもとづいて、人物認証を行うので、ユーザの表情表出精度が向上し、人物認証精度を向上させることが可能となる。
According to the personal authentication device, personal authentication processing method, program, or recording medium of the present invention, the following operational effects can be obtained.
(1) Since a time-series face image corresponding to each phoneme at the time of speech is acquired and person authentication is performed based on the displacement of the feature points of the time-series face image with respect to the face image immediately before the speech, The expression accuracy of the facial expression is improved, and the human authentication accuracy can be improved.
(2) 発語を促す手段を設けることで、発語時の利便性を高めることが可能となる。 (2) By providing a means for prompting speech, it is possible to improve convenience when speaking.
(3) 発語の対象を不特定とすることで、発語対象の記憶を不要にすることができる。 (3) By making the speech target unspecified, it is possible to make it unnecessary to store the speech target.
(4) 発語の対象を特定のキーワードとすることで、発語対象の記憶性を高めることができる。 (4) By setting the speech target as a specific keyword, the memory property of the speech target can be improved.
以下、本発明の実施の形態について図面により説明する。 Embodiments of the present invention will be described below with reference to the drawings.
図1は、本発明の第1の実施例にかかる装置構成例を示したものである。図1において、データバスを介して、動画撮像手段10、顔検出手段11、フレーム検出手段12、顔特徴点変位算出手段13、類似度評価手段14が接続されており、同じく顔検出手段11、音声取得手段15、音声分割手段16が接続され、さらに音声取得手段15と発語促進手段17が接続されている。ここで、動画撮像手段10以外の各手段11〜17は一般にはコンピュータの内部構成である。 FIG. 1 shows an apparatus configuration example according to the first embodiment of the present invention. In FIG. 1, a moving image pickup means 10, a face detection means 11, a frame detection means 12, a face feature point displacement calculation means 13, and a similarity evaluation means 14 are connected via a data bus. The voice acquisition means 15 and the voice division means 16 are connected, and the voice acquisition means 15 and the speech promotion means 17 are further connected. Here, each means 11-17 other than the moving image imaging means 10 is generally an internal configuration of a computer.
図2は本第1の実施例の全体の処理の流れを示したものである。以下、図2に従って本第1の実施例について詳述する。 FIG. 2 shows the overall processing flow of the first embodiment. The first embodiment will be described in detail below with reference to FIG.
動画撮像手段10は、認証システムのユーザを撮影可能な、例えば入り口の映像を常時撮影しており(ステップ101)、その映像は時々刻々顔検出手段10に入力される。 The moving image capturing means 10 is capable of capturing the user of the authentication system, for example, always capturing images of the entrance (step 101), and the images are input to the face detecting means 10 every moment.
顔検出手段11は、1フレームの画像中に、顔があるか否かを判断するものであり、顔が含まれている場合には、その領域(主に、あごから額にかけての領域)を切り出す(ステップ102)。図3は顔検出手段11での顔検出例で、白枠で囲った領域が顔領域として検出されることを示している。 The face detection means 11 determines whether or not there is a face in the image of one frame. If the face is included, the area (mainly the area from the chin to the forehead) is determined. Cut out (step 102). FIG. 3 shows an example of face detection by the face detection means 11 and shows that an area surrounded by a white frame is detected as a face area.
該顔検出手段11としては、例えば、「佐部 浩太郎、日台 健一“ピクセル差分特徴を用いた実時間任意姿勢顔検出器の学習”、画像センシングシンポジウム2005論文集」に記載の方法で構成できる。これは、教師画像(=多くの顔画像)内の任意の2点の画素差分値をブースティング学習器に入力して閾値を学習させ、学習後の所定閾値と、検出対象の入力画像の任意の2点の画素差分値を比較して、顔画像が含まれるか否かを判別するものである。 The face detection means 11 can be configured by a method described in, for example, “Kotaro Sabe, Kenichi Hidai“ Learning a real-time arbitrary posture face detector using pixel difference features ”, Image Sensing Symposium 2005 Proceedings”. . This is because an arbitrary two pixel difference values in a teacher image (= many face images) are input to a boosting learning device to learn a threshold value, and a predetermined threshold value after learning and an arbitrary input image to be detected are detected. These two pixel difference values are compared to determine whether or not a face image is included.
顔検出手段11は、フレーム中に顔を検出した場合には、その領域情報(例えば、図3の枠情報)を付したフレーム画像をフレーム抽出手段12に送り、検出しなかった場合には、顔領域情報を付さないフレーム画像をフレーム抽出手段12に送る。フレーム抽出手段12は、入力された画像を所定フレーム数だけバッファリングしている。
When the
また、該顔検出手段11は、顔を検出すると、それを音声取得手段15に通知する。これにより、音声取得手段15が動作を開始する(ステップ103)。本第1の実施例は、特定のキーワードの発語を利用する例であり、音声取得手段15の動作開始後、所定時間内にユーザが発語しない場合、音声取得手段15はそれを発語促進手段17に通知し、これを受けて発語促進手段17はユーザに対して「フルネームをお話し下さい」等のアナウンスを行ってキーワードの発語を促す。音声取得手段15は、ユーザの発語を取得すると、その音声情報を音声分割手段16に送る。
Further, when detecting the face, the
音声分割手段16は、入力された音声情報を公知のDPマッチング(動的計画法マッチング)等を用いて音素に分解する(ステップ104)。ここで音素とは、母音(a,i,u,e,o)と濁音等を含む子音(k,s,t,u,h,m,y,r,w,g,z,d,b,p,…)等からなる24種類程の日本語音声の表現単位である。DPマッチング法とは、あらかじめ登録された全ての音素の特徴量(例えば、20ms程度の音素のスペクトル)をテンプレートとして、入力された音声情報の時間軸を伸縮させながら、伸縮後の音声情報のスペクトルを算出して各テンプレートとの一致度を評価し、最も高い一致度をみたテンプレートの音素として、入力音声を認識する方法である。スペクトルは、周波数帯域毎の振幅を要素とするベクトルであるから、スペクトルの一致度は、ベクトル同士の内積が所定値以上であることによって評価することができる。本第1の実施例では、規定のキーワードを発語することを前提としているため、テンプレートとして使用するスペクトルは最初から決まっており、最もマッチングが高くなる時間軸伸縮を求めることになる。
The
音声分割手段16は、音声入力を音素に分割した後、発語直前の時刻、および各音素が発音されている区間の中央の時刻をフレーム抽出手段12に送る(ステップ105)。フレーム検出手段12は、バッファリングしている画像中から、顔領域情報が付された当該時刻のフレームを抽出して(ステップ106)、顔特徴点変位算出手段13に送る。すなわち、顔特徴点変位算出手段13には、発語直前のフレーム(以下、これを基準フレームと呼ぶ)と、音素数分だけのフレーム(以下、これを音素フレームと呼ぶ)が送られる。
The
顔特徴点変位算出手段13は、図4に示すように、フレームの顔領域(図4の実線の矩形)中に、眉、目、口を検出するためのウィンドウを設定し(図4の点線部)(ステップ107)、該ウィンドウ内の画素値に対して、ラプラシアン等のエッジ検出オペレータを施し、図5に示すように、所定閾値で二値化してエッジの線画像を得る(ステップ108)。本実施例におけるウィンドウは、顔領域として検出された矩形を基準として、相対的な位置および大きさを有するものとして定義されており、顔領域の縦横比と各ウィンドウの縦横比は比例関係にある。従って、検出された顔領域のサイズ自体が大きければ、それに比例してウィンドウも大きく設定される。 As shown in FIG. 4, the face feature point displacement calculating means 13 sets a window for detecting eyebrows, eyes, and mouth in the face area of the frame (solid rectangle in FIG. 4) (dotted line in FIG. 4). (Step 107), an edge detection operator such as Laplacian is applied to the pixel values in the window, and binarization is performed with a predetermined threshold as shown in FIG. 5 to obtain an edge line image (Step 108). . The window in this embodiment is defined as having a relative position and size with reference to a rectangle detected as a face area, and the aspect ratio of the face area and the aspect ratio of each window are in a proportional relationship. . Accordingly, if the size of the detected face area itself is large, the window is set to be proportionally larger.
上記各ウィンドウ内の線画は、必要に応じて孤立点除去処理を施された後、x軸およびY軸に対して正射影され(図5の矢印が射影を、太線が射影結果を示す)(ステップ109)、各射影の両端の点(太線の両端の点)として、左右の眉、左右の目および口の各上下左右端点(図5の丸印)の、計20点が検出される。 The line drawing in each window is subjected to isolated point removal processing as necessary, and then orthogonally projected to the x-axis and the Y-axis (the arrows in FIG. 5 indicate the projection, and the bold lines indicate the projection results) ( Step 109) A total of 20 points are detected as left and right eyebrows, left and right eye eyes, and upper and lower left and right end points (circles in FIG. 5) as points at both ends of each projection.
このようにして、顔特徴点変位算出手段13では、発語直前のフレーム(基準フレーム)および各音素に対応したフレーム(音素フレーム)に対して、まず、上記20の特徴点の座標を検出する。ここで、x軸に対して射影された端点はx座標のみを持ち、y軸に対して射影された端点はy座標のみを持つ。 In this way, the face feature point displacement calculating means 13 first detects the coordinates of the 20 feature points with respect to the frame immediately before the utterance (reference frame) and the frame corresponding to each phoneme (phoneme frame). . Here, the end point projected with respect to the x axis has only the x coordinate, and the end point projected with respect to the y axis has only the y coordinate.
次に、顔特徴点変位算出手段13では、各端点につき、基準フレームと音素フレームにおける座標の差、すなわちx軸またはy軸方向の移動距離を算出し、それを顔画像領域の大きさ(x軸方向の移動距離はx軸方向の顔領域の大きさ、y軸方向の移動距離はy軸方向の顔領域の大きさ)で正規化して、特徴点変位量を算出し(ステップ110)、これを類似度評価手段14に送る。1つの音素フレームに対しては、20の特徴点移動量が算出される。よって、1つの発語は、20次元ベクトルの音素数分の配列として表現され、これが類似度評価手段14に送られる。 Next, the face feature point displacement calculation means 13 calculates the difference in coordinates between the reference frame and the phoneme frame, that is, the movement distance in the x-axis or y-axis direction for each end point, and calculates the difference in the size of the face image area (x The movement distance in the axial direction is normalized by the size of the face area in the x-axis direction, and the movement distance in the y-axis direction is normalized by the size of the face area in the y-axis direction) to calculate the feature point displacement (step 110). This is sent to the similarity evaluation means 14. Twenty feature point movement amounts are calculated for one phoneme frame. Therefore, one utterance is expressed as an array for the number of phonemes of a 20-dimensional vector, and this is sent to the similarity evaluation means 14.
本第1の実施例では、各個人について、あらかじめ特定のキーワード(例えばn音素からなる)を発語した際の、音素毎の上記20次元ベクトルが認識システムの所定記憶手段にテンプレートとして登録されている。類似度評価手段14は、ユーザの発語された各音素について、顔特徴点変位算出手段13によって算出されたベクトルと、テンプレートのベクトル同士の類似度を内積として算出し(ステップ111)、該内積のn音素数分の二乗和を算出する(ステップ112)。この「内積の二乗和」が、発語時の表情とテンプレートの類似度指標として評価され、その値が最大となるテンプレートが選択される。そして、その値(類似度)が所定値以上であるか否かが判定され(ステップ113)、所定値以上である場合に、ユーザはテンプレートの登録者として認証され(ステップ114)、所定値以下の場合には否認される(ステップ115)。
In the first embodiment, for each individual, the 20-dimensional vector for each phoneme when a specific keyword (for example, consisting of n phonemes) is uttered in advance is registered as a template in the predetermined storage means of the recognition system. Yes. The
本第1の実施例では、テンプレートと同一の音素を発している状態の顔画像を抽出するため、認証に用いられる顔画像の再現性が向上し、認証精度を向上させることが出来る。
なお、上記所定値とは、認証装置が、本人以外の人間を本人として認証してしまう誤認証率の許容値によって決定すべき定数であり、誤認証率と閾値は負の相関関係にある。
In the first embodiment, since the face image in the state of emitting the same phoneme as the template is extracted, the reproducibility of the face image used for authentication can be improved, and the authentication accuracy can be improved.
The predetermined value is a constant that should be determined by the allowable value of the false authentication rate that causes the authentication device to authenticate a person other than the person as the principal, and the false authentication rate and the threshold value have a negative correlation.
図6は、本発明の第2の実施例にかかる装置構成例を示したものである。本第2の実施例は、特定のキーワードの発語を利用しない、すなわち、発語の対象が不特定である実施例で、図1の発語促進手段17として発語指定手段18を用いたものである。それ以外の構成は図1と同様である。 FIG. 6 shows an apparatus configuration example according to the second embodiment of the present invention. The second embodiment is an embodiment in which the utterance of a specific keyword is not used, that is, the utterance target is unspecified, and the utterance designation means 18 is used as the utterance promotion means 17 in FIG. Is. The other configuration is the same as that of FIG.
図7は本第2の実施例の全体の処理の流れを示したものである。以下では、主に第1の実施例との相違点について説明する。 FIG. 7 shows the overall processing flow of the second embodiment. In the following, differences from the first embodiment will be mainly described.
本第2の実施例では、顔検出手段11による顔検出後、発語促進手段の一種である発語指定手段18が、ユーザに対して「こんにちは、とおっしゃってください」というように、発語すべき言葉を指定する(ステップ204)。
In the second embodiment, after the face detection by the
音声取得手段15はユーザの発語を取得し、その音声情報を音声分割手段16に送るが、本第2の実施例では、ユーザの発語すべき言葉は、発語指定手段18から該音声分割手段16に対して入力されるため、該入力をもとにテンプレートとして参照するスペクトルが決定され、やはり最もマッチングが高くなる時間軸伸縮が求められる。 The voice acquisition means 15 acquires the user's utterance and sends the voice information to the voice division means 16. In the second embodiment, the word to be spoken by the user is sent from the utterance designation means 18 to the voice. Since it is input to the dividing means 16, a spectrum to be referred to as a template is determined based on the input, and the time axis expansion / contraction with the highest matching is also required.
第1の実施例と同様に、フレーム抽出手段12において、音声分割手段16によって分割された音素毎にフレームが抽出され(ステップ207)、顔特徴点変位算出手段13で基準フレームに対する特徴点変位量(特徴点変位ベクトル)が算出されて(ステップ211)、類似度評価手段14に送られる。本第2の実施例では、テンプレートとして、ユーザ毎にあらかじめ全ての音素に関する20次元ベクトルが認証システムの所定記憶手段に登録されている。類似度評価手段14では、指定された言葉の音素に対応したテンプレートベクトルと、顔特徴点変位算出手段13で算出されたベクトルとの内積を算出し、類似度計算・評価を行うが、これは第1の実施例と同様である(ステップ212〜216)。
As in the first embodiment, the
第1及び第2の実施例では、各フレーム毎の類似度の二乗和を用いて認証を行ったが、本第3の実施例では、全音素フレームの特徴量変位ベクトルの要素からなる20×音素数次元の1つのベクトルを想定し、装置内にあらかじめ登録してある同じ次元のテンプレートベクトル(発語対象が特定キーワードなら、テンプレートは登録済みであり、発語対象が不特定なら、登録してある各音素の特徴量ベクトルから1つのベクトルを生成すればよい)との内積を算出して、類似度の算出・評価を行うものである。図8に本第3の実施例の全体の処理流れを示す。ステップ310,311,312以外、全体の処理の流れは第一の実施例と同様である。
In the first and second embodiments, authentication is performed using the sum of squares of the degrees of similarity for each frame. However, in the third embodiment, 20 × consisting of elements of feature amount displacement vectors of all phoneme frames. Assuming one vector of phoneme dimension, template vector of the same dimension registered in the device in advance (if the speech target is a specific keyword, the template is already registered; if the speech target is unspecified, register it The inner product with the feature quantity vector of each phoneme is calculated), and the similarity is calculated and evaluated. FIG. 8 shows the overall processing flow of the third embodiment. Except for
本第4の実施例は、所謂隠れマルコフモデル(HMM;Hidden Markov Model)によって、時系列のベクトルデータを認識する公知の枠組みを利用したものである。本例では、ユーザが特定のキーワードを発語するものとする。 The fourth embodiment uses a known framework for recognizing time-series vector data by a so-called Hidden Markov Model (HMM). In this example, it is assumed that the user speaks a specific keyword.
図9はHMMの概念図を示したものである。本例でのHMMはキーワードを構成する音素数nと同じn個の状態Sを有する。各状態Sは、他の状態へ遷移する確率aを有し、時刻が進むにつれて状態の遷移が確率的に発生する。HMMは、各状態のときに、観測可能なシンボルOを出力する。本例では、シンボルOは特徴量変位ベクトルであり、O1,O2,…,Onのように音素数だけ存在する。図9中、aijは、状態iから状態jへ遷移する確率を示し、bi(t)は、状態iにおいて出力Otを出力する確率である。なお、HMMは、その初期状態がS1〜Snのどれかであるかの確率分布を有する。
FIG. 9 shows a conceptual diagram of the HMM. The HMM in this example has n states S that are the same as the number of phonemes n constituting the keyword. Each state S has a probability a of transition to another state, and a state transition occurs probabilistically as time advances. The HMM outputs an observable symbol O in each state. In this example, the symbol O is the feature value displacement vectors,
HMMを認識や認証に用いるには、まずHMMを本認証システムの各ユーザごとに学習させておく必要がある。本例では、ユーザの数mだけのHMMを用意し、各HMMを各ユーザに1対1に対応づけて学習させる。HMMの学習の処理の流れを図10に示す。 In order to use the HMM for recognition and authentication, it is necessary to first learn the HMM for each user of the authentication system. In this example, HMMs corresponding to the number m of users are prepared, and each HMM is learned by associating each user with one to one. The flow of HMM learning processing is shown in FIG.
ユーザの数だけのHMMを用意して(ステップ400)、まず、各ユーザにキーワードを発語をさせ(ステップ401)、学習に用いる特徴量変位ベクトルO1,O2,…,Onを得る(ステップ402)。そして、学習用のO1,O2,…,Onを発生しやすいようなHMMの3つのパラメータaij,bi(t)、初期状態の確率分布を推定する(ステップ403)。ここでは、公知のBaum−Welchのパラメータ推定法によるアルゴリズム(Forward−Backwardアルゴリズム)により、パラメータの尤度の変化が小さくなり、収束と見なせる時点まで繰返してパラメータを推定する。これにより、学習用の変位量O1,O2,…,Onを発生しやすいHMMパラメータが得られる。これを全てのユーザについて繰返し、学習が終了する(ステップ404)。
Are prepared HMM of the number of users (step 400), first, keywords to the speech to each user (step 401), the feature displacement vectors O 1, O 2 used for learning, ... to obtain the O n (Step 402). Then, O 1,
図11はHMMによる認証処理の一例を示したものである。認証時には、ユーザの発語後(ステップ501)、顔特徴点変位算出手段13にて各音素フレームから特徴量変位ベクトルの列を算出し(ステップ502)、類似度評価手段14において上記m個の各HMMが当該変位ベクトル列を出力する確率を計算する(ステップ503)。該確率は、公知のForwardアルゴリズムによって再帰的に計算されるが、こうして得られたm個の確率のうち、最も高いものを算出したHMMに使われた学習データの持ち主が、認証すべき人物である。
FIG. 11 shows an example of authentication processing by the HMM. At the time of authentication, after the user speaks (step 501), the facial feature point
したがって、類似度評価手段14では、上記m個の確率のうちの最大のものが所定閾値以上であるか否か判定して(ステップ504)、所定閾値以上のとき、ユーザたる被験者を、当該最大確率を算出したHMMに対応づけられた人物として認証する(ステップ505)。また、所定閾値以下だったならば認証不可とする(ステップ506)。ここで所定値とは、認証システムが、本人以外の人間を本人として認証してしまう誤認証率の許容値によって決定すべき定数であり、誤認証率と閾値は負の相関関係にある。HMMを用いた認証は、実データによる学習によって、認証精度を向上させることができる。 Accordingly, the similarity evaluation means 14 determines whether or not the maximum of the m probabilities is equal to or greater than a predetermined threshold (step 504). Authentication is performed as a person associated with the HMM for which the probability is calculated (step 505). If it is equal to or less than the predetermined threshold value, authentication is impossible (step 506). Here, the predetermined value is a constant that should be determined by the allowable value of the false authentication rate that causes the authentication system to authenticate a person other than the person as the principal, and the false authentication rate and the threshold value have a negative correlation. Authentication using the HMM can improve the authentication accuracy by learning with actual data.
なお、上記例では、基準フレームに対する音素フレームの特徴点の変位量の系列をHMMの生成対象としたが、基準フレームからの変位ではなく、直近の音素フレームに対する特徴点変化量の系列をHMMの生成対象としてもよい。図12は、この場合の認証処理の流れを示したものである。ここで、ステップ602が図11と異なるのみで、それ以外は図11と同様である。
In the above example, the sequence of displacements of the feature points of the phoneme frame with respect to the reference frame is set as the HMM generation target. It may be a generation target. FIG. 12 shows the flow of authentication processing in this case. Here,
なお、図1や図6で示した装置における各手段の一部もしくは全部の処理機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、あるいは、図2、図7、図8、図10〜図12で示した処理手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもない。また、コンピュータでその処理機能を実現するためのプログラム、あるいは、コンピュータにその処理手順を実行させるためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えば、FD、MO、ROM、メモリカード、CD、DVD、リムーバブルディスクなどに記録して、保存したり、提供したりすることができるとともに、インターネット等のネットワークを通してそのプログラムを配布したりすることが可能である。 The processing functions of some or all of the means in the apparatus shown in FIGS. 1 and 6 can be configured by a computer program, and the program can be executed using the computer to realize the present invention. Needless to say, the processing procedures shown in FIG. 2, FIG. 7, FIG. 8, and FIG. 10 to FIG. 12 can be configured by a computer program and the program can be executed by the computer. In addition, a computer-readable recording medium such as an FD, MO, ROM, memory card, CD, or the like is stored in the computer. In addition, the program can be recorded and stored on a DVD, a removable disk, etc., and the program can be distributed through a network such as the Internet.
10 動画撮像手段
11 顔検出手段
12 フレーム抽出手段
13 顔特徴点変位算出手段
14 類似度評価手段
15 音声取得手段
16 音声分割手段
17 発語促進手段
18 発後指定手段
DESCRIPTION OF
Claims (10)
動画像を取得する手段と、
音声を取得する手段と、
音声を音素に分割し、各音素が発音されている区間の中央の時刻を取得する手段と、
動画像から、発語直前の顔画像を構成するフレーム画像(以下、基準フレーム)と、発語時の各音素が発音されている区間の中央の時刻の顔画像を構成する複数のフレーム画像(以下、音素フレーム)を抽出する手段と、
基準フレームと各音素フレームの顔画像の特徴点を抽出して、各音素フレームについて、基準フレームに対する特徴点の変位量(以下、特徴点変位量)を算出する手段と、
全ての音素フレームの特徴点変位量をまとめて1のベクトルを生成し、該ベクトルとあらかじめ登録されているテンプレートベクトルとの類似度を算出して人物認証を行う手段と、
を有することを特徴とする個人認証装置。 In a personal authentication device that performs person authentication based on time-series face images at the time of speech,
Means for acquiring a moving image;
A means of acquiring audio;
Means for dividing the speech into phonemes and obtaining the central time of the section in which each phoneme is pronounced;
From a moving image, a frame image (hereinafter referred to as a reference frame) that constitutes a face image immediately before the utterance, and a plurality of frame images that constitute a face image at the center of the section where each phoneme at the time of utterance is pronounced ( Means for extracting the phoneme frame),
Means for extracting feature points of the face image of the reference frame and each phoneme frame, and calculating a displacement amount of the feature point with respect to the reference frame (hereinafter referred to as feature point displacement amount) for each phoneme frame;
Means for generating a single vector by combining the feature point displacements of all phoneme frames, calculating the similarity between the vector and a pre-registered template vector, and performing person authentication;
A personal authentication device characterized by comprising:
動画像を取得するステップと、
音声を取得するステップと、
音声を音素に分割し、各音素が発音されている区間の中央の時刻を取得するステップと、
動画像から、発語直前の顔画像を構成するフレーム画像(以下、基準フレーム)と、発語時の各音素が発音されている区間の中央の時刻の顔画像を構成する複数のフレーム画像(以下、音素フレーム)を抽出するステップと、
基準フレームと各音素フレームの顔画像の特徴点を抽出して、各音素フレームについて、基準フレームに対する特徴点の変位量(以下、特徴点変位量)を算出するステップと、
全ての音素フレームの特徴点変位量をまとめて1のベクトルを生成し、該ベクトルとあらかじめ登録されているテンプレートベクトルとの類似度を算出して人物認証を行うステップと、
を有することを特徴とする個人認証方法。 In a personal authentication method for performing person authentication based on time-series face images at the time of speech,
Acquiring a moving image;
Obtaining audio, and
Dividing the speech into phonemes and obtaining the center time of the section in which each phoneme is pronounced;
From a moving image, a frame image (hereinafter referred to as a reference frame) that constitutes a face image immediately before the utterance, and a plurality of frame images that constitute a face image at the center of the section where each phoneme at the time of utterance is pronounced ( A step of extracting a phoneme frame),
Extracting a feature point of the face image of the reference frame and each phoneme frame, and calculating a displacement amount of the feature point with respect to the reference frame (hereinafter referred to as a feature point displacement amount) for each phoneme frame;
Collecting the feature point displacements of all phoneme frames to generate one vector, calculating the similarity between the vector and a pre-registered template vector, and performing person authentication;
A personal authentication method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005086974A JP4730812B2 (en) | 2005-03-24 | 2005-03-24 | Personal authentication device, personal authentication processing method, program therefor, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005086974A JP4730812B2 (en) | 2005-03-24 | 2005-03-24 | Personal authentication device, personal authentication processing method, program therefor, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006268563A JP2006268563A (en) | 2006-10-05 |
JP4730812B2 true JP4730812B2 (en) | 2011-07-20 |
Family
ID=37204444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005086974A Expired - Fee Related JP4730812B2 (en) | 2005-03-24 | 2005-03-24 | Personal authentication device, personal authentication processing method, program therefor, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4730812B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014098136A1 (en) | 2012-12-19 | 2014-06-26 | 株式会社デンソーウェーブ | Information code, method for generating information code, device for reading information code, and system for using information code |
CN109065023A (en) * | 2018-08-23 | 2018-12-21 | 广州势必可赢网络科技有限公司 | A kind of voice identification method, device, equipment and computer readable storage medium |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11429700B2 (en) | 2014-06-19 | 2022-08-30 | Nec Corporation | Authentication device, authentication system, and authentication method |
JP6239471B2 (en) | 2014-09-19 | 2017-11-29 | 株式会社東芝 | Authentication system, authentication device, and authentication method |
US10635893B2 (en) * | 2017-10-31 | 2020-04-28 | Baidu Usa Llc | Identity authentication method, terminal device, and computer-readable storage medium |
JP6583460B2 (en) * | 2018-03-23 | 2019-10-02 | 株式会社セガゲームス | Authentication system |
KR102655791B1 (en) | 2018-08-27 | 2024-04-09 | 삼성전자주식회사 | Speaker authentication method, learning method for speaker authentication and devices thereof |
CN112364833B (en) * | 2020-12-04 | 2024-08-02 | 田源 | Detection equipment and method for detecting gait of pedestrians in side detection wharf scene |
WO2024075550A1 (en) * | 2022-10-05 | 2024-04-11 | Necソリューションイノベータ株式会社 | Processing apparatus |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09134194A (en) * | 1995-08-17 | 1997-05-20 | Ricoh Co Ltd | Image recognition system for reading speaking |
JP2000306090A (en) * | 1999-04-20 | 2000-11-02 | Ntt Data Corp | Device and method for authenticating individual and recording medium |
JP2004259255A (en) * | 2003-02-05 | 2004-09-16 | Fuji Photo Film Co Ltd | Authentication apparatus |
-
2005
- 2005-03-24 JP JP2005086974A patent/JP4730812B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09134194A (en) * | 1995-08-17 | 1997-05-20 | Ricoh Co Ltd | Image recognition system for reading speaking |
JP2000306090A (en) * | 1999-04-20 | 2000-11-02 | Ntt Data Corp | Device and method for authenticating individual and recording medium |
JP2004259255A (en) * | 2003-02-05 | 2004-09-16 | Fuji Photo Film Co Ltd | Authentication apparatus |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014098136A1 (en) | 2012-12-19 | 2014-06-26 | 株式会社デンソーウェーブ | Information code, method for generating information code, device for reading information code, and system for using information code |
CN109065023A (en) * | 2018-08-23 | 2018-12-21 | 广州势必可赢网络科技有限公司 | A kind of voice identification method, device, equipment and computer readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2006268563A (en) | 2006-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4730812B2 (en) | Personal authentication device, personal authentication processing method, program therefor, and recording medium | |
US20210327431A1 (en) | 'liveness' detection system | |
US9159321B2 (en) | Lip-password based speaker verification system | |
US20110224978A1 (en) | Information processing device, information processing method and program | |
US6219640B1 (en) | Methods and apparatus for audio-visual speaker recognition and utterance verification | |
US8837786B2 (en) | Face recognition apparatus and method | |
KR102429822B1 (en) | Apparatus and Method for recognizing a driver’s emotional state | |
EP3156978A1 (en) | A system and a method for secure speaker verification | |
CN112088315A (en) | Multi-mode speech positioning | |
JP2009031951A (en) | Information processor, information processing method, and computer program | |
WO2004075168A1 (en) | Speech recognition device and speech recognition method | |
WO2018051945A1 (en) | Speech processing device, speech processing method, and recording medium | |
CN111951828B (en) | Pronunciation assessment method, device, system, medium and computing equipment | |
CN110648671A (en) | Voiceprint model reconstruction method, terminal, device and readable storage medium | |
Faraj et al. | Synergy of lip-motion and acoustic features in biometric speech and speaker recognition | |
JP6280068B2 (en) | Parameter learning device, speaker recognition device, parameter learning method, speaker recognition method, and program | |
JP2008004050A (en) | Personal information authentication system, personal information authentication method, program, and recording medium | |
JP6481939B2 (en) | Speech recognition apparatus and speech recognition program | |
CN109065026B (en) | Recording control method and device | |
US20230073265A1 (en) | Information processing device and action mode setting method | |
JP2009042910A (en) | Information processor, information processing method, and computer program | |
JP2013257418A (en) | Information processing device, information processing method, and program | |
Lucey et al. | Continuous pose-invariant lipreading | |
JP6916130B2 (en) | Speaker estimation method and speaker estimation device | |
JP7347511B2 (en) | Audio processing device, audio processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110223 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110413 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110414 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140428 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4730812 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140428 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |