JP2001350494A - 照合装置及び照合方法 - Google Patents

照合装置及び照合方法

Info

Publication number
JP2001350494A
JP2001350494A JP2000168059A JP2000168059A JP2001350494A JP 2001350494 A JP2001350494 A JP 2001350494A JP 2000168059 A JP2000168059 A JP 2000168059A JP 2000168059 A JP2000168059 A JP 2000168059A JP 2001350494 A JP2001350494 A JP 2001350494A
Authority
JP
Japan
Prior art keywords
data
reference data
segment
input
input data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000168059A
Other languages
English (en)
Inventor
Fumihiko Takai
史比古 高井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secom Co Ltd
Original Assignee
Secom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secom Co Ltd filed Critical Secom Co Ltd
Priority to JP2000168059A priority Critical patent/JP2001350494A/ja
Publication of JP2001350494A publication Critical patent/JP2001350494A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 個人認証を行う照合装置において、登録され
た本人に認証が与えられない確率を低減する。 【解決手段】 同一話者の発声から得られる複数の参照
データを装置に登録する。入力データTと参照データS
1,S2とを番号iで識別されるフレームに区分し、両
データ間でフレームをマッチングさせる。対応付けられ
たフレーム単位のデータの相違がフレーム間距離dとし
て定義される。第1の参照データと入力データとの距離
d(図中、白丸)と、第2の参照データと入力データと
の距離d(図中、黒丸)とを比較し、小さい値を与える
参照データが各フレーム毎に選択され、図中実線で結ば
れるフレーム間距離に基づいて比較対象データが定義さ
れる。この比較対象データと入力データとの距離(例え
ば実線で結ばれたフレーム間距離の積算値)を閾値と比
較して、入力データが登録された本人によるものかを判
定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、予め登録されたデ
ータと入力されたデータとを対比することによって、そ
れぞれのデータが抽出された対象相互の同一性を判定す
る照合装置及び照合方法に関する。
【0002】
【従来の技術】予め登録されているパターンと、入力さ
れたパターンとの照合を行う技術は、例えば、音声や顔
画像による個人認証装置などに用いられている。例え
ば、音声個人認証装置とは、判定対象となる者がマイク
から入力した音声を、装置に予め登録された者の音声と
照合し、その同一性を判定することにより、判定対象者
が装置に予め登録された者と同一であるか否かを識別
し、認証を行う装置である。具体的には、当該装置は登
録音声データと入力音声データとの間でマッチング処理
を行う。マッチング処理においては、両音声データの相
違に応じて、両データ間の距離が定義される。そして、
マッチング処理の結果、両音声データの距離が閾値以下
であれば、入力音声と登録音声とは同一であり、判定対
象者は装置に登録されている者であると判断し、例え
ば、扉に設けた電気錠の解錠等の処理を起動する。反対
に距離が閾値より大きい場合には、入力音声は他人が発
声したものであるとして棄却する。
【0003】ところが、音声波形や、目、鼻の位置とい
った顔の構造を表す顔画像などに含まれる個人特徴情報
を用いて個人認証を行う場合、入力データとして装置に
取り込まれる個人特徴情報の経時変化や個人内変動とい
ったものが問題となる。経時変化に関しては、登録して
からある程度の期間が経過すると、個人特徴情報自体が
変化したり、装置の環境等、入力データの取り込み条件
が変化して、入力データと登録データとの相違が大きく
なりうる。また個人内変動とは、同一個人でも発声や撮
影の度に個人特徴情報が微妙に変動することである。こ
れらの要因によって、本人は登録時と同じように発声し
たり、表情を作っているつもりであっても、登録した本
人であると判定されないという事態が生じる。このよう
な状態を「本人棄却」と称する。
【0004】この問題に対処する従来技術として、「マ
ルチテンプレート手法」が知られている。この手法で
は、同一人について登録時に複数パターンの登録データ
が取得され記録される。そして、判定時には、複数の登
録データ毎に入力データとの距離が算出される。入力デ
ータが登録者によるものであることは、複数の登録デー
タに対応して複数得られる入力データと登録データとの
距離のうち、最小値が所定の閾値以下であることや、そ
れら距離の平均値が所定の閾値以下であることに基づい
て判定される。また、登録時に取得された複数パターン
から平均パターンを作成し、これを登録データとし、当
該登録データと入力データとの距離を所定の閾値と比較
することも行われている。
【0005】
【発明が解決しようとする課題】しかしながら、同一人
から得られる個人特徴情報の経時変化、個人内変動は多
岐にわたり得るにも拘わらず、予め用意できる登録デー
タの数には限界がある。このため、上記従来の技術で
は、本人棄却が起こる可能性を低減することが難しいと
いう問題があった。
【0006】本発明は上記問題点を解消するためになさ
れたもので、比較的少ない数の登録データにも拘わらず
高精度であって、特に本人棄却が発生する割合が低減さ
れる照合装置及び照合方法とを提供することを目的とす
る。
【0007】
【課題を解決するための手段】本発明に係る照合装置
は、判定対象から抽出される入力データを登録対象から
抽出される参照データと照合して、前記判定対象と前記
登録対象との同一性を判定する照合装置であって、同一
の前記登録対象から抽出された複数の前記参照データを
記憶する記憶手段と、所定の入力データセグメント毎に
前記入力データを前記各参照データと照合し、前記入力
データセグメントに対応する参照データセグメントを前
記各参照データ毎に定めるセグメント照合手段と、前記
セグメント照合手段によって前記各参照データ毎に得ら
れる前記参照データセグメントと前記入力データセグメ
ントとの各照合結果に基づいて、複数の前記参照データ
に対応して複数得られる前記参照データセグメントのう
ちの少なくとも一つを、前記各入力データセグメントそ
れぞれに対して選択する選択手段と、選択された前記参
照データセグメントに基づき前記同一性を判定する同一
性判定手段とを有するものである。
【0008】本発明によれば、例えば、登録対象である
者の音声や顔画像などから、その個人特徴を表す参照デ
ータが抽出され、一方、判定対象である者の音声等が入
力されると、当該音声等からその個人特徴を表す入力デ
ータが抽出される。そして、入力データを登録データと
照合して、判定対象が登録対象と同一であるかが判定さ
れる。本発明では、同一の登録対象から複数の参照デー
タが抽出され記憶手段に記憶される。例えば、同一人が
同一フレーズを複数回、発声して得られる各音声データ
が複数の登録データとして記録される。これら複数の登
録データは完全には同一のものとなるとは限らず、経時
変化し得る範囲、また個人内変動を生じ得る範囲内に分
布すると考えられる。
【0009】セグメント照合手段は、入力データを所定
の単位である入力データセグメントに区分し、これを単
位として参照データとの照合を行う。入力データセグメ
ントは、例えば音声データに関しては、一定時間幅に区
切られたデータ、音韻単位に区切られたデータなどであ
り、また顔画像データに関しては、目、鼻といった顔の
構成要素単位のデータなどである。照合により入力デー
タセグメントに対応する部分(参照データセグメント)
が参照データ内にて探される。セグメント照合手段は、
各入力データセグメントに対して、参照データセグメン
トを各参照データ毎に定める。すなわち、参照データは
複数あるので、基本的に1つの入力データセグメントに
対して複数の参照データセグメントが定まる。また、入
力データは複数の入力データセグメントに区分され、各
入力データセグメント毎に参照データセグメントが定め
られるので、基本的に1つの参照データに対して複数の
参照データセグメントが定められることになる。
【0010】上述したように、照合処理によって各入力
データセグメントには各参照データに対応して複数の参
照データセグメントが定められる。選択手段は、照合結
果に基づいてそれら参照データセグメントのうちの一つ
又は一部を選択する。例えば、照合結果が最も良好であ
る参照データセグメントが選択される。この選択は、入
力データセグメント毎に行われる。よって、参照データ
セグメントは入力データセグメントそれぞれに対して同
一の参照データから選択されるとは限らず、入力データ
セグメント毎に異なる参照データから参照データセグメ
ントが選択され得る。例えば、ある入力データセグメン
トに対しては参照データAの参照データセグメントが選
択され、他の入力データセグメントに対しては他の参照
データBの参照データセグメントが選択されるといった
ことが一般的に起こる。例えば、照合結果が最も良好で
ある参照データセグメントを選択することとした場合に
は、ある入力データに対して、それぞれ最も良好な照合
結果を与える参照データセグメントの組が選択される。
【0011】そして同一性判定手段は、選択手段によっ
て各入力データセグメント毎に選択された参照データセ
グメントの組に基づいて判定対象と登録対象との同一性
を判定する。
【0012】本発明の好適は態様は、前記入力データ及
び前記参照データは時系列データであり、前記入力デー
タセグメント及び前記参照データセグメントは、前記入
力データ及び前記参照データにおける一定時間幅のデー
タであることを特徴とする照合装置である。
【0013】本発明に係る照合装置においては、前記セ
グメント照合手段が、前記照合結果として、前記入力デ
ータセグメントと前記参照データセグメントとの類似度
を求めることを特徴とする。
【0014】本発明によれば、照合結果は、類似度とい
う1つの指標に集約され表現される。本発明の好適な態
様は、前記選択手段が、前記類似度が最大となる前記参
照データセグメントを選択することを特徴とする照合装
置である。
【0015】本発明の他の好適な態様は、前記参照デー
タが、同一人から得られる音声データであることを特徴
とする照合装置である。
【0016】本発明に係る照合方法は、判定対象から抽
出される入力データを登録対象から抽出される参照デー
タと照合して、前記判定対象と前記登録対象との同一性
を判定する照合方法であって、同一の前記登録対象から
抽出された複数の前記参照データと前記入力データとを
所定の入力データセグメント毎に照合し、前記各参照デ
ータにおける前記入力データセグメントに対応する参照
データセグメントと当該入力データセグメントとの類似
度を前記各参照データ毎に求める類似度決定ステップ
と、前記入力データセグメントとの前記類似度が高いこ
とに基づいて、前記各参照データ毎に得られる前記参照
データセグメントのうちの少なくとも一つを選択する選
択ステップと、前記各入力データセグメントそれぞれに
対して選択された前記参照データセグメントに基づき前
記同一性を判定する同一性判定ステップとを含むもので
ある。
【0017】
【発明の実施の形態】次に、本発明の実施形態である音
声認証装置について図面を参照して説明する。
【0018】〈原理〉図1は、音声に関する個人内変動
の具体例を示すグラフである。このグラフには同一話者
が同一の発声内容(「ひらけごま」)を3回発声し、そ
のうちの1つの音声データ(入力音声データに相当)に
対する他の2つの音声データspeech1、speech2(登録
音声データに相当)それぞれの所定時間幅毎の距離dが
プロットされている。音声データはサンプリング周波数
12kHzでA/D(analog-to-digital)変換したも
のであり、この音声データに対して、フレーム幅32ミ
リ秒、フレーム周期8ミリ秒で線形予測(Linear Predi
ction Coding:LPC)分析を行う。そして、15次の
LPCケプストラム係数を用いて、音声データ相互の対
応するフレーム間の距離dを算出し、これをグラフの縦
軸に表している。一方、グラフの横軸は時間の経過をフ
レーム番号iを用いて表している。なお、入力音声デー
タと登録音声データとの間のフレームの対応付けは、D
Pマッチングにより行われている。図において実線1が
speech1と入力音声データとの距離dの時間的変化を表
し、点線2がspeech2と入力音声データとの距離dの時
間的変化を表している。
【0019】この実測に基づく例には、speech1は20
フレームから30フレームの間にて大きな距離dを有
し、speech2は10フレーム過ぎあるいは30フレーム
過ぎにて大きな距離dを有している。つまり、この例か
ら、距離dは音声データの一部の区間において大きくな
り、その位置は発声の度に異なりうることを読み取るこ
とができる。
【0020】従来は、入力音声データと登録音声データ
との全体的な比較に基づいて、それらの同一性が判定さ
れていた。つまり、図1に示すような、音声データ内で
の距離dの変動は考慮されていなかった。これに対し
て、本装置は、図1に示すように入力音声データと登録
音声データとが同一話者によるものであっても、距離d
が音声データの位置や登録音声データ相互間で大きく変
動するという現象に着目したものである。具体的には、
複数の登録音声データを用い、入力音声データと登録音
声データとの照合距離をフレーム毎に、かつ各登録音声
データ毎に算出する。そして、各フレームにおいて最小
の距離を与える登録音声データを選択し、選択された登
録音声データをフレーム毎に順次連結して得られる音声
データと入力音声データとの間にて同一性を判定する。
【0021】〈装置構成〉図2は、本実施形態に係る音
声認証装置の概略の構成を示すブロック図である。
【0022】入力部10は、音声を装置に入力するため
の手段であり、マイク、A/D変換器、増幅器などで構
成される。
【0023】特徴量抽出部12は、入力部10から入力
されるデジタル化された音声信号に対して、例えば高速
フーリエ変換(Fast Fourier Transformation:FF
T)やLPC分析を行い、周波数領域の特徴量を抽出す
る。特徴量抽出部12は音声信号を所定時間幅のセグメ
ントに区切って、各セグメント毎に特徴量を抽出する。
このセグメントを分析フレーム又は単にフレームと称す
る。
【0024】特徴量記憶部14は、登録対象者から採取
される登録音声を記憶する記憶手段であり、この登録音
声は照合処理において参照データとして用いられる。具
体的には、登録対象者は登録するフレーズを複数回発声
して、入力部10から装置に入力する。これに対応して
特徴量抽出部12が各登録音声からそれぞれ参照データ
を抽出し、複数の登録音声に対応して複数(ここではそ
の数をNとする)の参照データが特徴量記憶部14に格
納される。つまり、特徴量記憶部14は登録音声を特徴
量の形で記憶する。特徴量記憶部14は例えば、メモリ
を用いて構成することができる。ここでは説明を簡単と
するために、登録対象者は一人であるとするが、複数人
を登録することもできる。
【0025】照合部16は、判定対象者から得られる入
力音声と特徴量記憶部14に記憶されている登録音声と
をDPマッチング等の手法を用いて比較する手段であ
る。具体的には、判定対象者からの入力音声からフレー
ム毎の特徴量の形で抽出された入力データと、特徴量記
憶部14にフレーム毎の特徴量の形で格納されている個
々の参照データとを、両データ間でのフレームの対応を
取りながら比較する。つまり、照合部16は、入力デー
タの各フレームに対応する参照データのフレームを見い
だして、これら対応するフレーム同士で特徴量の比較を
行う。この比較は同一人物について複数登録されている
参照データそれぞれに対して行われる。このように、照
合部16はセグメント照合手段として機能する。
【0026】この比較の結果、入力音声(又は登録音
声)の各分析フレーム毎に距離情報が算出され、これが
距離情報記憶部18に格納される。距離情報記憶部18
は例えばメモりを用いて構成することができる。
【0027】総合判定部20は入力音声を発声した判定
対象者と登録音声を発声した登録対象者とが同一人物で
あるか否かを判定する。具体的には、総合判定部20は
まず、距離情報記憶部18に格納された分析フレーム単
位での入力音声と、同一人物から複数個採取され登録さ
れた分析フレーム単位での各登録音声との距離情報を、
それら複数の登録音声相互にて比較し、各分析フレーム
において入力音声(入力データ)との距離が最小となる
登録音声(参照データ)を選択する選択手段としての機
能を有する。この機能により、分析フレーム毎の特徴量
として、複数の参照データのうち最小距離を与えるもの
が選択される。このようにして、各分析フレーム毎に最
小距離を与える特徴量を並べた音声データ(比較対象デ
ータと称する)が得られる。次に総合判定部20は、登
録対象者から得られる音声データとして、この比較対象
データを用い、これと入力データとを比較して、判定対
象者と登録対象者との同一性を判定する同一性判定手段
としての機能を有する。例えば判定は、比較対象データ
と入力データとの分析フレーム毎の距離を、全分析フレ
ームにわたって累積した値や、平均した値に基づいて行
われる。
【0028】出力部22は、総合判定部20において判
定対象者が登録対象者と同一話者であると判断された場
合に、例えば電気錠に対して解錠信号を出力する回路で
ある。一方、同一話者でないと判断された場合には、出
力部22は必要に応じて、ブザー音やモニタ画面上での
表示によって、利用者に対し棄却された旨を通知する。
【0029】なお、本装置はコンピュータを用いて構成
することができ、例えば特徴量抽出部12、照合部1
6、総合判定部20における処理は当該コンピュータ上
で実行されるソフトウェアとして構成することが可能で
ある。
【0030】〈装置の処理・動作〉この音声認証装置の
動作には登録動作と照合動作とがある。登録動作では、
装置に対して認証を与える利用者(登録対象者)を登録
する処理が行われる。具体的には、予め定められた発声
内容の音声(登録音声)が登録対象者毎に登録される。
照合動作では、認証を受けようとする者(判定対象者)
が発声した音声(入力音声)と登録音声とを照合し、両
音声が同一であるか否かを判断する処理が行われる。同
一であると判断された場合には、判定対象者が登録対象
者と一致するとして認証が与えられる。
【0031】次に、この音声認証装置の登録時及び照合
時の処理について詳細に説明する。
【0032】図3は登録時の処理を説明するフロー図で
ある。登録音声は入力部10によって装置に取り込まれ
る(S30)。特徴量抽出部12は入力部10によりデ
ジタル化された信号系列から、この波形の振幅の大きさ
や基本周波数の有無等の情報を用いて、音声信号が含ま
れている区間(音声区間)を切り出す(S35)。
【0033】特徴量抽出部12はさらに、入力された音
声信号を所定のフレーム幅(例えば32ミリ秒)及びフ
レーム周期(例えば8ミリ秒)でフレーム分析し、スペ
クトル包絡情報を抽出する(S40)。
【0034】ここで、スペクトラム包絡情報とは、ある
瞬間において音声信号に含まれている各周波数成分の分
布の概形のことであり、分析フレーム毎にFFTやLP
Cケプストラムを算出することにより求めることができ
る。
【0035】抽出された特徴量は、特徴量記憶部14に
格納され(S45)、照合動作において参照データとし
て利用される。
【0036】図4は照合時の処理を説明するフロー図で
ある。また図5は、照合時の処理を説明する模式図であ
る。判定対象者からの入力音声は入力部10によって装
置に取り込まれ(S100)、特徴量抽出部12が入力
音声から音声区間を切り出す(S105)。入力音声5
0は例えばフレーム幅32ミリ秒、フレーム周期8ミリ
秒にてLPC分析され、15次のLPCケプストラム係
数が特徴量(ベクトル量)として算出される(S11
0)。
【0037】図5には、第3フレームまで分析した様子
が示されている。同図において、T(i)は入力音声の第
iフレームにおける15次の特徴ベクトルであり、この
ベクトルの第j成分t(i,j)は、第iフレームにおける
j次の特徴量である。
【0038】特徴量抽出部12にて算出された入力音声
の特徴量は照合部16へ渡される。照合部16では、こ
の特徴量で表された入力音声と、やはり特徴量で表され
特徴量記憶部14に格納されている複数の各登録音声と
の間でDPマッチングが行われる(S115〜13
0)。
【0039】DPマッチング処理S120は、入力音声
の各フレームに対応付けられるフレームを処理対象とさ
れる登録音声内にて探索する。この探索は、特徴量抽出
部12から入力された入力音声の特徴ベクトルと特徴量
記憶部14に格納されている登録音声の特徴ベクトルと
を照合することにより行われる。
【0040】処理対象とされる登録音声は、単一の登録
対象者に関する全て(N個)の登録音声に対してDPマ
ッチング処理S120が完了するまで、ループ処理によ
って順次変更される(S120〜130)。
【0041】図5では、便宜上、N=2の場合を示して
いる。S1(i)は第1の登録音声の特徴ベクトルであっ
て、DPマッチングによって入力音声の第iフレームに
対応付けられたものである。S2(i)は第2の登録音声
の特徴ベクトルであって、DPマッチングによって入力
音声の第iフレームに対応付けられたものである。ま
た、s1(i,j)、s2(i,j)は、それぞれS1(i)、S2
(i)の第j成分であり、LPC分析で得られるj次の特
徴量である。
【0042】DPマッチング処理S120では、入力音
声と登録音声とのフレームの対応付けの処理において、
それらの間の距離dが算出される。ここでは、入力音声
の第iフレームの特徴ベクトルT(i)と第j登録音声の
第kフレームの特徴ベクトルSj(k)との距離(フレー
ム間距離)をd(T(i),Sj(k))と表記する。なお、入力音
声フレームのうち登録音声フレームとの対応が取れない
ものは、音声区間の切り出しが不安定性、あるいは発声
自体が不安定であることに起因する可能性があり、よっ
て認証結果の信頼性を確保するために照合時の距離算出
対象から除外するのが望ましい。例えば、発声の始点、
終点の前後数フレームがこのような理由から除外されう
る。
【0043】N個の参照データに対するDPマッチング
処理S120が完了すると、各分析フレーム毎に単一の
登録対象者についての登録音声数Nだけの距離情報が得
られ、この距離情報は距離情報記憶部18に格納され
る。また、DPマッチング処理S120の完了は照合部
16から総合判定部20へ通知される。
【0044】総合判定部20はこの通知を受けて、総合
距離算出処理S135を開始する。この処理では、各分
析フレーム毎にN個得られた登録音声フレームのうち入
力音声フレームとのフレーム間距離が最小のもの(図5
において太枠にて表示されるものである)が選択され、
これらをフレーム順に連ねた比較対象データと入力デー
タとの総合距離が算出される。例えば、N個の登録音声
フレームSj(i)に対応して得られたN個の距離d(T(i),
Sj(i))(ここでj=1〜N)のうちの最小のものをフレ
ーム番号iに関して積算した値や、それを分析フレーム
数で平均した値を総合距離として定義することができ
る。
【0045】図6は、上記処理の概念を説明する模式図
である。この図において、縦軸は登録音声と入力音声と
のフレーム毎の照合距離dを、また横軸はフレーム番号
iをそれぞれ表している。また同図において白丸は入力
音声と第1の登録音声との各フレームにおける距離を表
し、黒丸は入力音声と第2の登録音声との各フレームに
おける距離を表す。上述したようにこれらのフレーム毎
の距離は、照合部16によって処理S115〜130で
のDPマッチング処理にて算出される。
【0046】総合判定部20における総合距離を用いて
判定を行う処理、すなわち各分析フレーム毎に最小距離
を選択し総合距離を算出する処理は、第1の登録音声に
対する距離(白丸)と第2の登録音声に対する距離(黒
丸)とから、図中において実線で結んだような距離をフ
レーム毎に有する音声データを新たに作成することに相
当し、これが上述した比較対象データである。
【0047】図4に示すように、総合距離が算出される
と(S135)、総合判定部20はこの総合距離を予め
設定した閾値と比較する(S140)。総合距離が閾値
より大きい場合には、入力音声は登録対象者と異なる者
が発声したものとして棄却し(S145)、一方、閾値
以内である場合には、入力音声は登録対象者が発声した
ものとして受理する(S150)。この判定結果は総合
判定部20から出力部22に通知され、出力部22は受
理判定の場合には例えば、電気錠の解錠信号を出力す
る。なお、特徴量記憶部14に登録対象者が複数登録さ
れている場合には、各登録対象者に対して照合処理、判
定処理が行われ、判定対象者がいずれかの登録対象者と
同一であると判定された時点で、受理が出力部22へ通
知される。また、総合判定部20から出力部22への棄
却の通知は、いずれの登録対象者とも同一性が認められ
なかった場合に行われる。
【0048】ちなみに、判定処理S140の手法として
は各種のものが可能である。例えば、フレーム毎の最小
距離が所定の閾値以下となる回数が所定数以上となった
場合に受理判定をするような構成が可能である。また、
最小距離を正規化した値を用いてフレーム番号に関する
積算値を求めたり、平均値を求めたりし、これら積算
値、平均値に対して所定の閾値を設定して判定を行って
もよい。
【0049】〈具体例〉図7は、本装置及び従来装置を
用いて測定した距離の出現確率を示すグラフである。こ
のグラフは、50人の成人男女が8回発声した音声を装
置に登録し、一ヶ月間実際にオフィスへの入室の際に同
一内容を発声した場合の距離の測定例である。図7
(a)は、本装置による測定結果であり、横軸の距離は
上述した総合距離を、また縦軸は当該総合距離を有する
データの出現確率の確率密度を示しており、各曲線が囲
む面積は各々1となっている。一方、図7(b)は従来
のマルチテンプレート手法による測定結果であり、横軸
の距離は8個のテンプレートそれぞれと入力音声との距
離を平均したもの、また縦軸はその出現確率の確率密度
を示す。同図(a),(b)それぞれにおいて、実線は
本人間の照合で得られる距離の確率分布、すなわち同一
人物が同一の内容を一ヶ月間にわたり発声した場合にど
の程度の距離を有するかを示すものであり、また点線は
他人間の照合で得られる距離の確率分布、すなわち判定
対象者の入力音声と他人が一ヶ月前に装置に登録した同
一内容の登録音声とがどの程度の距離を有するかを示す
ものである。なお、図7に示す各測定の分布曲線は、各
分布の分散に基づいて正規化しており、分散が小さい
程、縦方向に圧縮されて示されている。また各分布曲線
には平滑化処理が施されている。
【0050】本人であるであるにもかかわらず棄却され
てしまった割合(本人棄却率)と他人であるにもかかわ
らず受理されてしまった割合(詐称者受理率)が等しく
なる確率は一般に「イコールエラーレート」と呼ばれて
おり、個人照合装置の性能評価に広く用いられている。
図7に基づいて説明すると、受理/棄却を判定する距離
のある閾値dthに対し、本人間の確率分布を距離の大
きい方からdthまで積分した値と、他人間の確率分布
を距離の小さい方からdthまで積分した値とが等しく
なるとき、それら互いに等しい積分値がイコールエラー
レートである。このイコールエラーレートの値が低いほ
ど、本人棄却率及び詐称者受理率が共に低い、すなわち
本人のみを認証する性能が高いことを意味する。イコー
ルエラーレートは図7(b)に示す従来のマルチテンプ
レート手法では、2.92%であったものが、図7
(a)に示す本装置では1.45%に減少した。
【0051】また、図7(a)と図7(b)とを対比す
ると、本手法では従来手法に比べて、本人間、他人間い
ずれも距離分布が原点方向に移動し、分布幅が狭くなる
ことがわかる。ここで、他人間の距離分布の幅はそれほ
ど小さくならないのに対し、本人間の距離分布の幅は顕
著に小さくなる。このことは、本手法が本人間で起こる
経時変化の影響を良好に除去できることを示している。
そして、このことが本人間の分布と他人間の分布との重
なりを縮小し、イコールエラーレートを低下させること
につながっていると解釈できる。
【0052】なお、より高い安全性を確保するために、
本人棄却率が高くなっても、詐称者受理率を低く抑える
ように閾値を設定し運用することも可能である。
【0053】また、同一人物の特徴量の経時変化をさら
に吸収するために、本人として受理されたデータを基
に、登録データを更新することも可能である。具体的な
手法としては、入力データとのフレーム間距離をフレー
ム番号に対して積算した値が最も大きい登録データに代
えて、入力データを新たに登録するという方法や、登録
時期が古い登録データを入力データで置換するといった
方法、また、これまでに距離最小フレームとして選択さ
れた回数が最も少ない登録データを置換するといった方
法等、様々な手法が可能である。
【0054】本実施形態では、照合手法としてDPマッ
チングを用いたが、これ以外にもHMM(Hidden Marko
v Model)等を用いて、例えば音声の母音に相当する部
分を抽出し、母音らしさの高い上位数フレームを用いて
照合処理を行うことが可能である。また、特徴量に関し
ても、スペクトル包絡情報を用いる以外に、例えば基本
周波数の変化パターンや顔画像等、一般に個人認証装置
に用いられている特徴量を用いることが可能である。
【0055】
【発明の効果】本発明の照合装置及び照合方法によれ
ば、比較的少数の登録データに基づいて、個人から抽出
される特徴量の経時変化、個人内変動が良好に吸収、除
去される。これにより、本人棄却率が低減され、精度の
高い個人認証が可能となる。
【図面の簡単な説明】
【図1】 音声に関する個人内変動の具体例を示すグラ
フである。
【図2】 本実施形態に係る音声認証装置の概略の構成
を示すブロック図である。
【図3】 登録時の処理を説明するフロー図である。
【図4】 照合時の処理を説明するフロー図である。
【図5】 照合時の処理を説明する模式図である。
【図6】 本装置における照合及び同一性判定の処理を
概念的に説明する模式図である。
【図7】 本人間及び他人間の距離の出現確率を本装置
と従来装置とで比較するグラフである。
【符号の説明】
10 入力部、12 特徴量抽出部、14 特徴量記憶
部、16 照合部、18 距離情報記憶部、20 総合
判定部、22 出力部。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 判定対象から抽出される入力データを登
    録対象から抽出される参照データと照合して、前記判定
    対象と前記登録対象との同一性を判定する照合装置であ
    って、 同一の前記登録対象から抽出された複数の前記参照デー
    タを記憶する記憶手段と、 所定の入力データセグメント毎に前記入力データを前記
    各参照データと照合し、前記入力データセグメントに対
    応する参照データセグメントを前記各参照データ毎に定
    めるセグメント照合手段と、 前記セグメント照合手段によって前記各参照データ毎に
    得られる前記参照データセグメントと前記入力データセ
    グメントとの各照合結果に基づいて、複数の前記参照デ
    ータに対応して複数得られる前記参照データセグメント
    のうちの少なくとも一つを、前記各入力データセグメン
    トそれぞれに対して選択する選択手段と、 選択された前記参照データセグメントに基づき前記同一
    性を判定する同一性判定手段と、 を有することを特徴とする照合装置。
  2. 【請求項2】 前記入力データ及び前記参照データは時
    系列データであり、 前記入力データセグメント及び前記参照データセグメン
    トは、前記入力データ及び前記参照データにおける一定
    時間幅のデータであること、 を特徴とする請求項1記載の照合装置。
  3. 【請求項3】 前記セグメント照合手段は、前記照合結
    果として、前記入力データセグメントと前記参照データ
    セグメントとの類似度を求めることを特徴とする請求項
    1又は請求項2に記載の照合装置。
  4. 【請求項4】 前記選択手段は、前記類似度が最大とな
    る前記参照データセグメントを選択することを特徴とす
    る請求項3記載の照合装置。
  5. 【請求項5】 前記参照データは、同一人から得られる
    音声データであることを特徴とする請求項4記載の照合
    装置。
  6. 【請求項6】 判定対象から抽出される入力データを登
    録対象から抽出される参照データと照合して、前記判定
    対象と前記登録対象との同一性を判定する照合方法であ
    って、 同一の前記登録対象から抽出された複数の前記参照デー
    タと前記入力データとを所定の入力データセグメント毎
    に照合し、前記各参照データにおける前記入力データセ
    グメントに対応する参照データセグメントと当該入力デ
    ータセグメントとの類似度を前記各参照データ毎に求め
    る類似度決定ステップと、 前記入力データセグメントとの前記類似度が高いことに
    基づいて、前記各参照データ毎に得られる前記参照デー
    タセグメントのうちの少なくとも一つを選択する選択ス
    テップと、 前記各入力データセグメントそれぞれに対して選択され
    た前記参照データセグメントに基づき前記同一性を判定
    する同一性判定ステップと、 を含むことを特徴とする照合方法。
JP2000168059A 2000-06-05 2000-06-05 照合装置及び照合方法 Pending JP2001350494A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000168059A JP2001350494A (ja) 2000-06-05 2000-06-05 照合装置及び照合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000168059A JP2001350494A (ja) 2000-06-05 2000-06-05 照合装置及び照合方法

Publications (1)

Publication Number Publication Date
JP2001350494A true JP2001350494A (ja) 2001-12-21

Family

ID=18671123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000168059A Pending JP2001350494A (ja) 2000-06-05 2000-06-05 照合装置及び照合方法

Country Status (1)

Country Link
JP (1) JP2001350494A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008078736A1 (ja) * 2006-12-27 2008-07-03 Nec Corporation 同一性判定装置、同一性判定方法および同一性判定用プログラム
JP2013236195A (ja) * 2012-05-08 2013-11-21 Nec Engineering Ltd 放送素材確認システム及び放送素材確認方法
KR20140143285A (ko) * 2013-06-05 2014-12-16 재단법인 포항산업과학연구원 시계열 신호 식별 장치 및 시계열 신호 식별 방법
JP2015175915A (ja) * 2014-03-13 2015-10-05 綜合警備保障株式会社 話者認識装置、話者認識方法及び話者認識プログラム
JP2015191076A (ja) * 2014-03-28 2015-11-02 セコム株式会社 音声識別装置
KR102466736B1 (ko) * 2021-06-18 2022-11-14 주식회사 한글과컴퓨터 사용자에 의해 입력된 음성을 기초로 본인 인증을 수행하는 음성 기반의 사용자 인증 서버 및 그 동작 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008078736A1 (ja) * 2006-12-27 2008-07-03 Nec Corporation 同一性判定装置、同一性判定方法および同一性判定用プログラム
US9105306B2 (en) 2006-12-27 2015-08-11 Nec Corporation Identifying objects in images using object identity probabilities based on interframe distances
JP2013236195A (ja) * 2012-05-08 2013-11-21 Nec Engineering Ltd 放送素材確認システム及び放送素材確認方法
KR20140143285A (ko) * 2013-06-05 2014-12-16 재단법인 포항산업과학연구원 시계열 신호 식별 장치 및 시계열 신호 식별 방법
KR102048402B1 (ko) * 2013-06-05 2019-11-25 재단법인 포항산업과학연구원 시계열 신호 식별 장치 및 시계열 신호 식별 방법
JP2015175915A (ja) * 2014-03-13 2015-10-05 綜合警備保障株式会社 話者認識装置、話者認識方法及び話者認識プログラム
JP2015191076A (ja) * 2014-03-28 2015-11-02 セコム株式会社 音声識別装置
KR102466736B1 (ko) * 2021-06-18 2022-11-14 주식회사 한글과컴퓨터 사용자에 의해 입력된 음성을 기초로 본인 인증을 수행하는 음성 기반의 사용자 인증 서버 및 그 동작 방법

Similar Documents

Publication Publication Date Title
US10593336B2 (en) Machine learning for authenticating voice
US7447632B2 (en) Voice authentication system
US11735191B2 (en) Speaker recognition with assessment of audio frame contribution
EP1704668B1 (en) System and method for providing claimant authentication
US5293452A (en) Voice log-in using spoken name input
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
US20110320202A1 (en) Location verification system using sound templates
JP2002514318A (ja) 録音された音声を検出するシステムおよび方法
US6922668B1 (en) Speaker recognition
Shah et al. Biometric voice recognition in security system
JPH06175680A (ja) 最も近い隣接距離を使用した発声者確認装置
JPH0354600A (ja) 不明人物の同一性検証方法
US20100063817A1 (en) Acoustic model registration apparatus, talker recognition apparatus, acoustic model registration method and acoustic model registration processing program
JP2015191076A (ja) 音声識別装置
JP4318475B2 (ja) 話者認証装置及び話者認証プログラム
Campbell Speaker recognition
JP6239826B2 (ja) 話者認識装置、話者認識方法及び話者認識プログラム
Sorokin et al. Speaker verification using the spectral and time parameters of voice signal
Beritelli et al. An improved biometric identification system based on heart sounds and gaussian mixture models
JP6616182B2 (ja) 話者認識装置、判別値生成方法及びプログラム
JP2001350494A (ja) 照合装置及び照合方法
Jayanna et al. Fuzzy vector quantization for speaker recognition under limited data conditions
Abushariah et al. Voice based automatic person identification system using vector quantization
JP4440414B2 (ja) 話者照合装置及び方法
Montalvao Filho et al. Multimodal biometric fusion—joint typist (keystroke) and speaker verification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060801

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090428

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090908