JP2001265387A - 話者照合装置及び方法 - Google Patents

話者照合装置及び方法

Info

Publication number
JP2001265387A
JP2001265387A JP2000081328A JP2000081328A JP2001265387A JP 2001265387 A JP2001265387 A JP 2001265387A JP 2000081328 A JP2000081328 A JP 2000081328A JP 2000081328 A JP2000081328 A JP 2000081328A JP 2001265387 A JP2001265387 A JP 2001265387A
Authority
JP
Japan
Prior art keywords
voice
speaker
input
similarity
voices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000081328A
Other languages
English (en)
Other versions
JP4440414B2 (ja
Inventor
Masaharu Harada
将治 原田
Shoji Hayakawa
昭二 早川
Akira Suzuki
晃 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Animo Ltd
Original Assignee
Fujitsu Ltd
Animo Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, Animo Ltd filed Critical Fujitsu Ltd
Priority to JP2000081328A priority Critical patent/JP4440414B2/ja
Publication of JP2001265387A publication Critical patent/JP2001265387A/ja
Application granted granted Critical
Publication of JP4440414B2 publication Critical patent/JP4440414B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 話者の個人性をも表現している合成音声を用
いた場合であっても、話者照合を的確におこなうことが
できる話者照合装置及び方法を提供する。 【解決手段】 音声入力する話者の音声が、予め登録さ
れた登録話者の音声と一致するか否かを判定する話者照
合方法であって、入力する発声内容について話者に指示
を与え、話者の音声を一又は二以上入力し、入力された
音声を分析して、入力された同一の発声内容である二以
上の音声について、相互間の類似度を算出するととも
に、算出された類似度が完全一致に近い所定レベル以上
の類似度である場合、類似度が一致するという情報も用
いて話者を照合する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、事前に登録してあ
る音声データの特徴量に基づいて、利用者本人か否かを
音声によって判定する話者照合装置又は方法に関する。
【0002】
【従来の技術】近年、コンピュータ技術の発展ととも
に、急速に通信環境についても整備されつつある。この
ような通信環境の整備に伴い、電話によるコンピュータ
アクセス(Computer Telephony Integration)が一般の
家庭においても普通に行うことが可能になってきた。
【0003】かかる電話によるコンピュータアクセス分
野においては、プライバシーに関する情報や秘密保持義
務を有する情報等に代表される、本人や特定の個人以外
に知らせてはならない情報に対するアクセスを行う場合
に問題がある。すなわち、例えばプッシュホンを用いる
場合においては、パスワードを電話のボタン操作によっ
て入力することで当該情報へのアクセス権限を取得する
ことが可能であるが、パスワードを他人に知られてしま
うと、本人でないにもかかわらず、当該情報に容易にア
クセスできてしまうという問題である。そのため、本人
に固有である音声を用いて、本人あるいは特定の個人で
あるか否かについて照合を行うことの必要性が高まって
きている。
【0004】
【発明が解決しようとする課題】しかし、音声合成技術
についても近年急速な進歩を遂げており、かかる技術を
駆使することによって、話者の個人性をも表現すること
も不可能ではなくなっている。
【0005】すなわち、従来の技術においては、話者照
合のための入力として人間の肉声を想定しており、特定
の人間の声を正確に音声合成するためには、当該人間の
音声波形データ等を大量に収録して編集しなければなら
ないことから、実現性に乏しかった。
【0006】しかしながら、昨今では本人の音声を少し
だけ収録することで個人性を反映させた音声合成を実現
することができるようになっており、容易に他人の声を
真似ることが可能となってきている。
【0007】このような話者の個人性をも表現できる合
成音声装置を用いることで、第三者が特定の個人になり
すますことができ、話者照合システム自体が悪用される
おそれがあるという大きな問題点が生じている。
【0008】本発明は、上記問題点を解決すべく、話者
の個人性をも表現している合成音声を用いた場合であっ
ても、話者照合を的確におこなうことができる話者照合
装置及び方法を提供することを目的とする。
【0009】
【課題を解決するための手段】上記目的を達成するため
に本発明にかかる話者照合装置は、音声入力する話者の
音声が、予め登録された登録話者の音声と一致するか否
かを判定する話者照合装置であって、入力する発声内容
について話者に指示を与える話者入力指示部と、話者の
音声を一又は二以上入力する音声入力部と、音声入力部
で入力された音声を分析する音声分析部と、入力された
同一の発声内容である二以上の音声について、相互間の
類似度を算出する入力音声類似度算出部とを含み、算出
された類似度が完全一致に近い所定レベル以上の類似度
である場合、類似度が一致するという情報も用いて話者
を照合することを特徴とする。
【0010】かかる構成により、本人であるか否かの判
断と共に、人工的に生成された合成音声については人間
の音声が本来有するべき揺らぎが全くないものとして識
別することができるようになることから、本人と全く関
係のない第三者が音声合成装置等を用いて本人になりす
ます行為を未然に防止することが可能となる。
【0011】また、本発明にかかる話者照合装置は、類
似度の判断を、登録話者モデルに対する照合過程が同一
か否かに基づいて行うことが好ましい。人間の音声にお
いては、発声の長さやスペクトルが発声の都度相違する
ために照合過程が一致することがあり得ないことから、
照合過程を比較することで、本人と全く関係のない第三
者が音声合成装置等を用いて本人になりすます行為を未
然に防止することが可能となる。
【0012】また、本発明にかかる話者照合装置は、音
声入力部で少なくとも二以上の音声が入力された場合で
あって、少なくとも1つの音声について変換処理が行わ
れている場合には、音声入力部で入力された少なくとも
二以上の音声のうち、変換処理が行われていない音声に
ついて信号処理を施し、あるいは入力された少なくとも
二以上の音声について正規化処理を施すことが好まし
い。複数回音声を入力する場合に、二回目以降の入力音
声に何らかのフィルタ等を掛けて変換処理を行うこと
で、音声入力における自然な揺らぎを人工的に生成し、
合成音声でないと認識させる行為についても未然に防止
するためである。
【0013】また、本発明にかかる話者照合装置は、類
似度が一致すると判断された場合には、本人の音声入力
ではないものと判断して入力を棄却することが好まし
い。繰り返し発声された音声データがほぼ完全に一致し
た場合には録音物等の疑いがあるものとして、本人であ
るとは判断しないようにするためである。
【0014】また、本発明は、上記のような話者照合装
置の機能をコンピュータの処理ステップとして実行する
ソフトウェアを特徴とするものであり、具体的には、音
声入力する話者の音声が、予め登録された登録話者の音
声と一致するか否かを判定する話者照合方法であって、
入力する発声内容について話者に指示を与える工程と、
話者の音声を一又は二以上入力する工程と、入力された
音声を分析する工程と、入力された同一の発声内容であ
る二以上の音声について、相互間の類似度を算出する工
程とを含み、算出された類似度が完全一致に近い所定レ
ベル以上の類似度である場合、類似度が一致するという
情報も用いて話者を照合する話者照合方法並びにそのよ
うな工程をプログラムとして記録したコンピュータ読み
取り可能な記録媒体であることを特徴とする。
【0015】かかる構成により、コンピュータ上へ当該
プログラムをロードさせ実行することで、本人であるか
否かを判断できると共に、人工的に生成された合成音声
については人間の音声が本来有するべき揺らぎが全くな
いものとして識別することができるようになることか
ら、本人と全く関係のない第三者が音声合成装置等を用
いて本人になりすます行為を未然に防止することができ
る話者照合装置を実現することが可能となる。
【0016】
【発明の実施の形態】(実施の形態1)以下、本発明の
実施の形態1にかかる話者照合装置について、図面を参
照しながら説明する。図1は本発明の実施の形態1にか
かる話者照合装置の構成図である。
【0017】図1において、1は個人ID入力部を示
し、話者照合時に個人IDを入力するものである。2は
個人別音声情報登録部を示し、個人IDごとに音声情報
を事前にデータベース化しておくものである。ここで
は、音声波形データのみならず、音声データを解析した
特徴量についても事前に登録しておく。
【0018】次に、3は音声入力指示部を示し、話者照
合時に利用者が入力すべき音声について指示を出すもの
である。4は音声入力部を示し、マイク等の入力媒体を
通じて、利用者が実際に発声して音声データを入力する
ものである。
【0019】音声入力部4では、音声入力指示部3の指
示に従って、音声を入力することになる。この場合、同
じ発声内容を含む比較的長い音声を一回だけ入力するも
のであっても良いし、同じ発声内容を二回以上繰り返す
ものであっても良い。また、同じ発声内容を含んでいる
異なる発声内容を入力するものであっても良い。例え
ば、「前川さん」と「早川さん」と発声させることで、
「かわさん」の部分が同一発声内容となることで、比較
を行うことが可能となる。かかる入力方法では、利用者
が同一音声の照合を行っていると気づきにくく、比較的
精度良く照合を行うことが期待できる。
【0020】したがって、例えば図2に示すように入力
音声格納部21を設けることで、前回に入力していた音
声データに基づいて発声内容の照合を行うことも考えら
れる。人間で有れば、時と場所を変えて入力した場合に
音声の揺らぎが生じることが自然であることから、揺ら
ぎのほとんど見られない入力について合成音声あるいは
録音音声等であるものと判断できるからである。
【0021】また、5は音声分析部を示し、入力された
音声データを分析して、その音声波形データの物理的な
特徴量を求めるものである。求まった特徴量に基づい
て、登録音声類似度算出部6では個人別音声情報登録部
2に登録されている音声データの特徴量と入力音声の音
声データの特徴量との第1の類似度を算出し、入力音声
類似度算出部7では同一内容の入力音声について音声デ
ータの特徴量の第2の類似度を算出する。
【0022】一般に、従来の話者照合においては、音声
の特徴量等に基づいて入力音声と登録音声との第1の類
似度を算出することのみで類否判断を行っている。しか
し、人間が発声する場合には、その時々の状態や環境に
応じて音声に揺らぎが生じ、全く同一の音声として発声
することは不可能であることから、一定の許容範囲を定
めて、第1の類似度が当該範囲内であれば同一人である
ものと判断する等の方法を採用している。
【0023】したがって、音声合成装置等を用いて、第
1の類似度がかかる許容範囲内となるように調整した合
成音声を生成することで、第三者が容易に本人になりす
ますことが可能となる。
【0024】一方、音声合成装置等で人工的に生成され
た合成音声については、揺らぎが生じることが無く、何
度入力しても同一の音声を入力することができる。した
がって、従来の話者照合に加えて、複数回同一の音声を
入力しても入力音声間の類似度である第2の類似度が毎
回同じ値として算出されるものについても、人間の音声
ではなく合成音声のような不自然な音声であると判断す
ることができる。
【0025】具体的に、類似度の判断基準を音声データ
間の照合距離とした場合について、図3を用いて説明す
る。図3は、音声データ間の照合距離の頻度分布を示す
ものであり、照合距離が短いほど類似度が高いと判断す
るものである。
【0026】図3において、領域Aは個人別音声情報登
録部2に登録されている音声データの特徴量と入力され
た本人の音声データの特徴量との距離の分布を示す領域
である。領域Bは同一内容の音声部分における音声デー
タの特徴量に関する照合距離の分布、例えば一回目と二
回目の入力音声間における照合距離の分布を示してい
る。領域Cは個人別音声情報登録部2に登録されている
音声データの特徴量と詐称者の入力音声の音声データの
特徴量との間の照合距離の分布を示している。
【0027】すなわち、領域A及び領域Cは、個人別音
声情報登録部2に登録されている音声データとの照合距
離の分布であるのに対し、領域Bは入力された音声デー
タ間の照合距離の分布である点で大きく相違する。
【0028】まず従来の方法においては、領域A及び領
域Cの間で入力された音声が本人の音声であるか否かに
ついて判断していた。すなわち、入力された音声データ
の照合距離が所定のしきい値であるしきい値Iよりも小
さい場合には、入力された音声の類似度が高いものと判
断して入力音声が本人の音声であるものと判断する。
【0029】一方、領域A及び領域Bの間では、入力さ
れた音声が自然音声であるか合成音声で有るかを判断す
ることになる。すなわち、入力された音声データ間の照
合距離が所定のしきい値であるしきい値IIよりも小さい
場合には、入力された音声に人間本来の自然な揺らぎが
ないものと判断して、入力音声が合成音声や録音音声等
の不自然な音声であるものと判断する。
【0030】次に、登録音声類似度算出部6及び入力音
声類似度算出部7における類似度の算出方法について説
明する。まず、特定の個人IDに対応する音声データの
特徴量と入力された音声データの特徴量が類似している
ものと判断するためのしきい値としては、従来から固定
した一定の値が用いられることが多い。例えば、図4に
示すように、入力された音声と事前に登録されている音
声との間で照合距離を計算し、あらかじめ設定したしき
い値と比較して、当該しきい値よりも照合距離が同じ若
しくは短い場合(図4の“−”)には本人であると、長
い場合(図4の“+”)には他人であると判断するもの
である。
【0031】かかるしきい値の設定には、以下に示すよ
うな方法を用いることが多い。図5は、類似度判断の指
標として照合距離を用いた場合において、照合距離を横
軸として、本人ではないと棄却する判断が誤りであった
場合の確率である本人拒否率FRR(False Rejection
error Rate)を縦軸にとったものである。一方、同じく
照合距離を横軸として、詐称者であるとする判断が誤り
であった場合の確率である他人受入率FAR(False Ac
ceptance error Rate)も縦軸にとる。
【0032】しきい値を小さな値にすると、詐称者を誤
って受理してしまう率FARは減るが、本人を誤って棄
却してしまう率FRRが高くなる。逆にしきい値を大き
な値とすると、本人を誤って棄却してしまう率FRRは
小さくなるが、詐称者を誤って受理してしまう率FAR
は大きくなる。よって、かかる2つの誤り率の重要度に
応じて、しきい値を適切な値に設定するのが望ましい。
【0033】実験的には事後的にかかる2つの誤り率が
等しくなる値をしきい値として評価するのが一般的であ
る。本実施の形態1においては、図3におけるしきい値
Iとしては、人間の音声による実験値から、しきい値II
としては音声合成装置により生成された合成音声による
実験値から、それぞれFRRとFARが一致する値をし
きい値としている。すなわち、所定のしきい値を定めた
場合において、本人同士の音声間距離と本人・他人間の
音声間距離の頻度分布曲線(図3)のうち、定めたしき
い値からはみ出た部分の面積がFAR、FARを示すこ
とになる。
【0034】また、入力音声が合成音声等であるか否か
を判定するための照合距離の算出方法についても、同様
に様々な方法が考えられる。本実施の形態1において
は、音声データの特徴量をn次元の特徴パラメータと
し、n次空間内における空間内距離として当該照合距離
を求めている。ただし、特にこの方法に限定されるもの
ではなく、当該照合距離の算出方法として、DPマッチ
ングを用いることも考えられる。ここで、DPとは動的
計画法(Dynamic Programming)を意味している。
【0035】例えば図6は、同時期に同一に発声された
内容に含まれる単語発声に対する同一話者内の距離の頻
度分布をDPマッチングを用いて算出したものである。
かかる方法によっても判断の対象となる距離分布を求め
ることが可能である。
【0036】図7は、DPマッチングを用いた場合にお
けるDPパスの例示図である。ここで、DPパスとは時
間対応付けを行った場合における最小値を選択すること
を意味する。なお、図7の横軸は同一音声に関する1回
目の音声入力に基づいた音声データの特徴パラメータ系
列を、縦軸には同一音声に関する2回目の音声入力に基
づいた音声データの特徴パラメータ系列を、それぞれ示
し、i、jはそれぞれフレーム数を示している。
【0037】同一の発声部分に関する一回目と二回目の
発声について、DPマッチング等を用いて時間対応付け
(時間正規化)を行い、時間正規化後の距離を用いて判
断する。その距離が極端に小さい場合や極端に大きい場
合については、不自然な発声であるものとして棄却す
る。かかる判断には、DPパスの結果を用いるとより容
易に判断することができる。
【0038】すなわち図7において、人間の自然な発声
の場合には、71に示すように一回目と二回目の発声に
おいて局所的なDPパスの揺れが生じ、特徴パラメータ
が完全に一致するということはあり得ない。しかし、音
声合成装置等によって人工的に生成された合成音声等の
場合には何度入力してもその特徴パラメータは一致して
いることから、72に示すように一回目と二回目の特徴
パラメータは完全に一致する。かかる不自然な発声を検
出することで本人になりすますことを防止することが可
能となる。
【0039】そこで、合成音声等であるか否かの照合方
法として、登録話者モデルに対する照合過程が同一か否
かを調べることも考えられる。図8は照合過程の同一性
判断を適用した本発明の一実施例にかかる話者照合装置
の構成図である。図8では、類似度算出過程比較部81
を入力音声類似度算出部7の代わりに設けている点に特
徴を有する。
【0040】類似度算出過程比較部81では、例えばD
Pマッチングを用いたので有ればDPパスを、ビタービ
アルゴリズム(Viterbi algorithm)を用いたHMM(H
idden Markov Model)である場合には、状態遷移をバッ
クトレースした結果を、それぞれの入力音声について調
査し比較する。一般に人間の発声の場合においては、発
声の長さやスペクトルが異なるために、照合過程が一致
することは起こり得ないのに対して、合成音声や録音音
声の場合には、登録話者の音声情報に対する照合過程が
何回入力しても一致してしまうため、かかる不正入力を
検出することが可能となる。
【0041】そして、総合判断部8においては、登録音
声類似度算出部6で算出された個人別音声情報登録部2
に登録されている音声データの特徴量と入力音声の音声
データの特徴量との類似度と、入力音声類似度算出部7
で算出された同一内容の入力音声に関する音声データの
特徴量の類似度とに基づいて、総合的に入力された音声
が本人のものであるか否かについて判断する。
【0042】まず、登録音声類似度算出部6で算出され
た個人別音声情報登録部2に登録されている音声データ
の特徴量と入力音声の音声データの特徴量との類似度が
所定のしきい値よりも小さい、すなわち上述したような
方法により求めた照合距離のしきい値Iよりも大きい場
合には、人間が本来有する音声発声時の揺らぎの範囲を
超えているものとして、入力された音声が本人のもので
はないと判断される。類似度が所定のしきい値以上、す
なわち上述したような方法により求めた照合距離のしき
い値I以下である場合には、人間が本来有する音声発声
時の揺らぎの範囲内であると判断され、以下の判断に移
る。
【0043】次に、入力音声類似度算出部7で算出され
た同一内容の入力音声に関する音声データの特徴量の類
似度が所定のしきい値以上、すなわち上述したような方
法により求めた照合距離のしきい値II以下である場合に
は、人間が本来有する音声発声時の揺らぎすら生じてい
ない不自然な音声で有るものとして、入力された音声が
本人のものではないと判断される。類似度が所定のしき
い値より小さい、すなわち上述したような方法により求
めた照合距離のしきい値IIより大きい場合には、人間が
本来有する音声発声時の揺らぎが生じていると判断さ
れ、入力された音声が本人のものであると判断される。
【0044】最後に、入力された音声が本人のものであ
るか否かについての判断結果を判断結果出力部9におい
て出力する。出力方法としては、表示装置等へ表示する
ものであっても良いし、判断結果に応じて稼働するアプ
リケーション等へファイルとして渡すものであったも良
い。
【0045】次に、人工的な合成音声に対して、一回目
と二回目で異なる信号処理を施すことで、人工的に合成
音声に揺らぎを付加することで、上述したような合成音
声の棄却条件を回避することも考えられる。かかる回避
を防止するために、図9に示すように信号処理部を音声
入力部4の後処理として設けることで対処する。
【0046】図9は、かかる方法を実現する本発明の一
実施例にかかる話者照合装置の構成図である。図1に比
して、音声入力部4の前処理として信号処理部91が付
加されている点に特徴を有している。
【0047】信号処理部91は、音声入力部4から入力
された音声すべてについて処理するものではない。対比
する音声入力の少なくとも一つについて、想定される信
号処理を施し、入力音声と信号処理後の音声について上
述したような方法で類似度を判別することで、特徴パラ
メータが実際には一致している合成音声を擬似的に異な
る音声であるものと見せかけた入力音声についても、合
成音声であることを検出することができ、さらなるセキ
ュリティ性能の向上に寄与できる。
【0048】また、音声入力環境は、時間や場所といっ
た周囲の状況によって変動し、同一の音声を同一人が入
力した場合であっても周囲の環境が同一であることは考
えられないことから、周囲の環境変動による話者の誤認
を最小限に止めるべく、入力されてきた音声に適当な信
号処理を行うのにも利用可能である。
【0049】また、信号処理部91において、信号に対
する変換処理ではなく、正規化処理を行うことも考えら
れる。正規化処理としては、音声区間全域に渡って平均
化したケプストラム(Cepstrum)の値を、各フレームに
おけるケプストラムの値から差し引くことで行うCMN
法(Cepstral Mean Normalization)等を用いることが
考えられる。正規化処理を行うことで、類似度算出対象
となる入力音声を同一環境における音声であるものとし
て扱うことができ、判断の精度向上が期待できる。な
お、正規化処理の手法は特にCMN法に限定されるもの
ではない。
【0050】以上のように本実施の形態によれば、人工
的に生成された合成音声については人間の音声が本来有
するべき揺らぎが全くないものとして識別することがで
きるようになることから、本人と全く関係のない第三者
が音声合成装置等を用いて本人になりすます行為を未然
に防止することが可能となる。
【0051】次に、本発明の実施の形態にかかる話者照
合装置を実現するプログラムの処理の流れについて説明
する。図10に本発明の実施の形態にかかる話者照合装
置を実現するプログラムの処理の流れ図を示す。
【0052】図10において、まず事前に登録されてい
る音声情報を引き出すために、照合対象となる利用者の
個人IDを入力し、登録されている音声情報を抽出する
(ステップS101)。
【0053】次に、音声の類似度を算出するために、ど
のような音声を入力するのか指示を出し(ステップS1
02)、同一の内容について少なくとも二回以上含まれ
ている一又は二以上の音声を入力する(ステップS10
3)。
【0054】そして、まず抽出された登録音声と入力さ
れた音声との間の第1の類似度を算出する(ステップS
104)。算出された第1の類似度が所定のしきい値よ
り小さい場合には(ステップS105:No)、人間の
有する自然な揺らぎ以上の相違を有するものと判断し
て、詐称者による音声であると判断する(ステップS1
09)。
【0055】次に、算出された第1の類似度が所定のし
きい値以上である場合には(ステップS105:Ye
s)、二以上入力されている入力音声同士の間における
第2の類似度を算出する(ステップS106)。算出さ
れた第2の類似度が所定のしきい値以上である場合には
(ステップS107:Yes)、人間の有する自然な揺
らぎすら有しない不自然な音声であるものと判断して、
詐称者による音声であると判断する(ステップS10
9)。
【0056】算出された第2の類似度が所定のしきい値
よりも小さい場合には(ステップS107:No)、自
然な音声による入力であるものと判断して、本人による
音声入力であると判断する(ステップS108)。
【0057】なお、本発明の実施の形態にかかる話者照
合装置を実現するプログラムを記憶した記録媒体は、図
11に示す記録媒体の例に示すように、CD−ROM1
12−1やフロッピーディスク112−2等の可搬型記
録媒体112だけでなく、通信回線の先に備えられた他
の記憶装置111や、コンピュータ113のハードディ
スクやRAM等の記録媒体114のいずれでも良く、プ
ログラム実行時には、プログラムはローディングされ、
主メモリ上で実行される。
【0058】また、本発明の実施の形態にかかる話者照
合装置により生成された個人別音声情報等を記録した記
録媒体も、図11に示す記録媒体の例に示すように、C
D−ROM112−1やフロッピー(登録商標)ディス
ク112−2等の可搬型記録媒体112だけでなく、通
信回線の先に備えられた他の記憶装置111や、コンピ
ュータ113のハードディスクやRAM等の記録媒体1
14のいずれでも良く、例えば本発明にかかる話者照合
装置を利用する際にコンピュータ113により読み取ら
れる。
【0059】
【発明の効果】以上のように本発明にかかる話者照合装
置によれば、人工的に生成された合成音声については人
間の音声が本来有するべき揺らぎが全くないものとして
識別することができるようになることから、本人と全く
関係のない第三者が音声合成装置等を用いて本人になり
すます行為を未然に防止することが可能となる。
【図面の簡単な説明】
【図1】 本発明の実施の形態にかかる話者照合装置の
構成図
【図2】 本発明の一実施例にかかる話者照合装置の構
成図
【図3】 本発明の実施の形態にかかる話者照合装置の
原理説明図
【図4】 本発明の実施の形態にかかる話者照合装置に
おけるしきい値概念説明図
【図5】 本発明の実施の形態にかかる話者照合装置に
おけるしきい値概念説明図
【図6】 本発明の実施の形態にかかる話者照合装置に
おけるDPマッチング結果の例示図
【図7】 本発明の実施の形態にかかる話者照合装置に
おけるDPマッチングの概念説明図
【図8】 本発明の一実施例にかかる話者照合装置の構
成図
【図9】 本発明の一実施例にかかる話者照合装置の構
成図
【図10】 本発明の実施の形態にかかる話者照合装置
における処理の流れ図
【図11】 記録媒体の例示図
【符号の説明】
1 個人ID入力部 2 個人別音声情報登録部 3 音声入力指示部 4 音声入力部 5 音声分析部 6 入力音声類似度算出部 7 登録音声類似度算出部 8 総合判定部 9 判定結果出力部 21 入力音声格納部 81 類似度算出過程比較部 91 信号処理部 111 回線先の記憶装置 112 CD−ROMやフロッピーディスク等の可搬型
記録媒体 112−1 CD−ROM 112−2 フロッピーディスク 113 コンピュータ 114 コンピュータ上のRAM/ハードディスク等の
記録媒体
───────────────────────────────────────────────────── フロントページの続き (72)発明者 早川 昭二 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 鈴木 晃 神奈川県横浜市中区尾上町2丁目27番 株 式会社アニモ内 Fターム(参考) 5D015 AA03 HH04 HH08 LL03 9A001 HH16 LL03

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 音声入力する話者の音声が、予め登録さ
    れた登録話者の音声と一致するか否かを判定する話者照
    合装置であって、 入力する発声内容について話者に指示を与える話者入力
    指示部と、 前記話者の音声を一又は二以上入力する音声入力部と、 前記音声入力部で入力された音声を分析する音声分析部
    と、 入力された同一の発声内容である二以上の音声につい
    て、相互間の類似度を算出する入力音声類似度算出部と
    を含み、 算出された前記類似度が完全一致に近い所定レベル以上
    の類似度である場合、前記類似度が一致するという情報
    も用いて話者を照合することを特徴とする話者照合装
    置。
  2. 【請求項2】 前記類似度の判断を、登録話者モデルに
    対する照合過程が同一か否かに基づいて行う請求項1記
    載の話者照合装置。
  3. 【請求項3】 前記音声入力部で少なくとも二以上の音
    声が入力された場合であって、少なくとも1つの音声に
    ついて変換処理が行われている場合には、 前記音声入力部で入力された少なくとも二以上の音声の
    うち、前記変換処理が行われていない音声について信号
    処理を施し、あるいは前記入力された少なくとも二以上
    の音声について正規化処理を施す請求項1記載の話者照
    合装置。
  4. 【請求項4】 前記類似度が一致すると判断された場合
    には、本人の音声入力ではないものと判断して入力を棄
    却する請求項1記載の話者照合装置。
  5. 【請求項5】 音声入力する話者の音声が、予め登録さ
    れた登録話者の音声と一致するか否かを判定する話者照
    合方法であって、 入力する発声内容について前記話者に指示を与える工程
    と、 前記話者の音声を一又は二以上入力する工程と、 入力された前記音声を分析する工程と、 入力された同一の発声内容である二以上の音声につい
    て、相互間の類似度を算出する工程とを含み、 算出された前記類似度が完全一致に近い所定レベル以上
    の類似度である場合、前記類似度が一致するという情報
    も用いて話者を照合することを特徴とする話者照合方
    法。
  6. 【請求項6】 音声入力する話者の音声が、予め登録さ
    れた登録話者の音声と一致するか否かを判定する話者照
    合方法を実現するプログラムを記録したコンピュータ読
    み取り可能な記録媒体であって、 入力する発声内容について前記話者に指示を与えるステ
    ップと、 前記話者の音声を一又は二以上入力するステップと、 入力された前記音声を分析するステップと、 入力された同一の発声内容である二以上の音声につい
    て、相互間の類似度を算出するステップとを含み、 算出された前記類似度が完全一致に近い所定レベル以上
    の類似度である場合、前記類似度が一致するという情報
    も用いて話者を照合することを特徴とするプログラムを
    記録したコンピュータ読み取り可能な記録媒体。
JP2000081328A 2000-03-23 2000-03-23 話者照合装置及び方法 Expired - Fee Related JP4440414B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000081328A JP4440414B2 (ja) 2000-03-23 2000-03-23 話者照合装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000081328A JP4440414B2 (ja) 2000-03-23 2000-03-23 話者照合装置及び方法

Publications (2)

Publication Number Publication Date
JP2001265387A true JP2001265387A (ja) 2001-09-28
JP4440414B2 JP4440414B2 (ja) 2010-03-24

Family

ID=18598282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000081328A Expired - Fee Related JP4440414B2 (ja) 2000-03-23 2000-03-23 話者照合装置及び方法

Country Status (1)

Country Link
JP (1) JP4440414B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005013263A1 (ja) * 2003-07-31 2005-02-10 Fujitsu Limited 音声認証システム
KR100826875B1 (ko) 2006-09-08 2008-05-06 한국전자통신연구원 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
JP2011076638A (ja) * 2011-01-17 2011-04-14 Hitachi Ltd 異常行動検知装置
JP2014145932A (ja) * 2013-01-29 2014-08-14 Sogo Keibi Hosho Co Ltd 話者認識装置、話者認識方法及び話者認識プログラム
JP2015528969A (ja) * 2012-08-02 2015-10-01 マイクロソフト コーポレーション 人間対話証明として読み上げる能力を使用すること
WO2020027372A1 (en) * 2018-08-03 2020-02-06 Lg Electronics Inc. Voice interpretation device

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005013263A1 (ja) * 2003-07-31 2005-02-10 Fujitsu Limited 音声認証システム
US7447632B2 (en) 2003-07-31 2008-11-04 Fujitsu Limited Voice authentication system
KR100826875B1 (ko) 2006-09-08 2008-05-06 한국전자통신연구원 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
JP2011076638A (ja) * 2011-01-17 2011-04-14 Hitachi Ltd 異常行動検知装置
JP2015528969A (ja) * 2012-08-02 2015-10-01 マイクロソフト コーポレーション 人間対話証明として読み上げる能力を使用すること
JP2014145932A (ja) * 2013-01-29 2014-08-14 Sogo Keibi Hosho Co Ltd 話者認識装置、話者認識方法及び話者認識プログラム
WO2020027372A1 (en) * 2018-08-03 2020-02-06 Lg Electronics Inc. Voice interpretation device
US10692517B2 (en) 2018-08-03 2020-06-23 Lg Electronics Inc. Voice interpretation device
US11114114B2 (en) 2018-08-03 2021-09-07 Lg Electronics Inc. Voice interpretation device

Also Published As

Publication number Publication date
JP4440414B2 (ja) 2010-03-24

Similar Documents

Publication Publication Date Title
US7447632B2 (en) Voice authentication system
US6205424B1 (en) Two-staged cohort selection for speaker verification system
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
JP3532346B2 (ja) ミックスチャ分解識別による話者検証方法と装置
Nayana et al. Comparison of text independent speaker identification systems using GMM and i-vector methods
US20060287856A1 (en) Speech models generated using competitive training, asymmetric training, and data boosting
WO2017162053A1 (zh) 一种身份认证的方法和装置
JP2004538526A (ja) 音声登録方法及びそのシステム,音声登録方法及びそのシステムに基づく音声認識方法及びそのシステム
Li et al. Verbal information verification
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
EP2879130A1 (en) Methods and systems for splitting a digital signal
JPH1173195A (ja) 話者の申し出識別を認証する方法
US7050973B2 (en) Speaker recognition using dynamic time warp template spotting
US20140188468A1 (en) Apparatus, system and method for calculating passphrase variability
Ozaydin Design of a text independent speaker recognition system
JP4440414B2 (ja) 話者照合装置及び方法
Georgescu et al. GMM-UBM modeling for speaker recognition on a Romanian large speech corpora
Jayanna et al. Fuzzy vector quantization for speaker recognition under limited data conditions
JPH1173196A (ja) 話者の申し出識別を認証する方法
US7162641B1 (en) Weight based background discriminant functions in authentication systems
JP2001350494A (ja) 照合装置及び照合方法
Gupta et al. Text dependent voice based biometric authentication system using spectrum analysis and image acquisition
Phyu et al. Building Speaker Identification Dataset for Noisy Conditions
JP3818063B2 (ja) 個人認証装置
JP3919314B2 (ja) 話者認識装置及びその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090508

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100107

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130115

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4440414

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130115

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140115

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees