JP2001265387A

JP2001265387A - 話者照合装置及び方法

Info

Publication number: JP2001265387A
Application number: JP2000081328A
Authority: JP
Inventors: Masaharu Harada; 将治原田; Shoji Hayakawa; 昭二早川; Akira Suzuki; 晃鈴木
Original assignee: Fujitsu Ltd; Animo Ltd
Current assignee: Fujitsu Ltd; Animo Ltd
Priority date: 2000-03-23
Filing date: 2000-03-23
Publication date: 2001-09-28
Anticipated expiration: 2020-03-23
Also published as: JP4440414B2

Abstract

(57)【要約】【課題】話者の個人性をも表現している合成音声を用
いた場合であっても、話者照合を的確におこなうことが
できる話者照合装置及び方法を提供する。【解決手段】音声入力する話者の音声が、予め登録さ
れた登録話者の音声と一致するか否かを判定する話者照
合方法であって、入力する発声内容について話者に指示
を与え、話者の音声を一又は二以上入力し、入力された
音声を分析して、入力された同一の発声内容である二以
上の音声について、相互間の類似度を算出するととも
に、算出された類似度が完全一致に近い所定レベル以上
の類似度である場合、類似度が一致するという情報も用
いて話者を照合する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、事前に登録してあ
る音声データの特徴量に基づいて、利用者本人か否かを
音声によって判定する話者照合装置又は方法に関する。

【０００２】

【従来の技術】近年、コンピュータ技術の発展ととも
に、急速に通信環境についても整備されつつある。この
ような通信環境の整備に伴い、電話によるコンピュータ
アクセス（Computer Telephony Integration）が一般の
家庭においても普通に行うことが可能になってきた。

【０００３】かかる電話によるコンピュータアクセス分
野においては、プライバシーに関する情報や秘密保持義
務を有する情報等に代表される、本人や特定の個人以外
に知らせてはならない情報に対するアクセスを行う場合
に問題がある。すなわち、例えばプッシュホンを用いる
場合においては、パスワードを電話のボタン操作によっ
て入力することで当該情報へのアクセス権限を取得する
ことが可能であるが、パスワードを他人に知られてしま
うと、本人でないにもかかわらず、当該情報に容易にア
クセスできてしまうという問題である。そのため、本人
に固有である音声を用いて、本人あるいは特定の個人で
あるか否かについて照合を行うことの必要性が高まって
きている。

【０００４】

【発明が解決しようとする課題】しかし、音声合成技術
についても近年急速な進歩を遂げており、かかる技術を
駆使することによって、話者の個人性をも表現すること
も不可能ではなくなっている。

【０００５】すなわち、従来の技術においては、話者照
合のための入力として人間の肉声を想定しており、特定
の人間の声を正確に音声合成するためには、当該人間の
音声波形データ等を大量に収録して編集しなければなら
ないことから、実現性に乏しかった。

【０００６】しかしながら、昨今では本人の音声を少し
だけ収録することで個人性を反映させた音声合成を実現
することができるようになっており、容易に他人の声を
真似ることが可能となってきている。

【０００７】このような話者の個人性をも表現できる合
成音声装置を用いることで、第三者が特定の個人になり
すますことができ、話者照合システム自体が悪用される
おそれがあるという大きな問題点が生じている。

【０００８】本発明は、上記問題点を解決すべく、話者
の個人性をも表現している合成音声を用いた場合であっ
ても、話者照合を的確におこなうことができる話者照合
装置及び方法を提供することを目的とする。

【０００９】

【課題を解決するための手段】上記目的を達成するため
に本発明にかかる話者照合装置は、音声入力する話者の
音声が、予め登録された登録話者の音声と一致するか否
かを判定する話者照合装置であって、入力する発声内容
について話者に指示を与える話者入力指示部と、話者の
音声を一又は二以上入力する音声入力部と、音声入力部
で入力された音声を分析する音声分析部と、入力された
同一の発声内容である二以上の音声について、相互間の
類似度を算出する入力音声類似度算出部とを含み、算出
された類似度が完全一致に近い所定レベル以上の類似度
である場合、類似度が一致するという情報も用いて話者
を照合することを特徴とする。

【００１０】かかる構成により、本人であるか否かの判
断と共に、人工的に生成された合成音声については人間
の音声が本来有するべき揺らぎが全くないものとして識
別することができるようになることから、本人と全く関
係のない第三者が音声合成装置等を用いて本人になりす
ます行為を未然に防止することが可能となる。

【００１１】また、本発明にかかる話者照合装置は、類
似度の判断を、登録話者モデルに対する照合過程が同一
か否かに基づいて行うことが好ましい。人間の音声にお
いては、発声の長さやスペクトルが発声の都度相違する
ために照合過程が一致することがあり得ないことから、
照合過程を比較することで、本人と全く関係のない第三
者が音声合成装置等を用いて本人になりすます行為を未
然に防止することが可能となる。

【００１２】また、本発明にかかる話者照合装置は、音
声入力部で少なくとも二以上の音声が入力された場合で
あって、少なくとも１つの音声について変換処理が行わ
れている場合には、音声入力部で入力された少なくとも
二以上の音声のうち、変換処理が行われていない音声に
ついて信号処理を施し、あるいは入力された少なくとも
二以上の音声について正規化処理を施すことが好まし
い。複数回音声を入力する場合に、二回目以降の入力音
声に何らかのフィルタ等を掛けて変換処理を行うこと
で、音声入力における自然な揺らぎを人工的に生成し、
合成音声でないと認識させる行為についても未然に防止
するためである。

【００１３】また、本発明にかかる話者照合装置は、類
似度が一致すると判断された場合には、本人の音声入力
ではないものと判断して入力を棄却することが好まし
い。繰り返し発声された音声データがほぼ完全に一致し
た場合には録音物等の疑いがあるものとして、本人であ
るとは判断しないようにするためである。

【００１４】また、本発明は、上記のような話者照合装
置の機能をコンピュータの処理ステップとして実行する
ソフトウェアを特徴とするものであり、具体的には、音
声入力する話者の音声が、予め登録された登録話者の音
声と一致するか否かを判定する話者照合方法であって、
入力する発声内容について話者に指示を与える工程と、
話者の音声を一又は二以上入力する工程と、入力された
音声を分析する工程と、入力された同一の発声内容であ
る二以上の音声について、相互間の類似度を算出する工
程とを含み、算出された類似度が完全一致に近い所定レ
ベル以上の類似度である場合、類似度が一致するという
情報も用いて話者を照合する話者照合方法並びにそのよ
うな工程をプログラムとして記録したコンピュータ読み
取り可能な記録媒体であることを特徴とする。

【００１５】かかる構成により、コンピュータ上へ当該
プログラムをロードさせ実行することで、本人であるか
否かを判断できると共に、人工的に生成された合成音声
については人間の音声が本来有するべき揺らぎが全くな
いものとして識別することができるようになることか
ら、本人と全く関係のない第三者が音声合成装置等を用
いて本人になりすます行為を未然に防止することができ
る話者照合装置を実現することが可能となる。

【００１６】

【発明の実施の形態】（実施の形態１）以下、本発明の
実施の形態１にかかる話者照合装置について、図面を参
照しながら説明する。図１は本発明の実施の形態１にか
かる話者照合装置の構成図である。

【００１７】図１において、１は個人ＩＤ入力部を示
し、話者照合時に個人ＩＤを入力するものである。２は
個人別音声情報登録部を示し、個人ＩＤごとに音声情報
を事前にデータベース化しておくものである。ここで
は、音声波形データのみならず、音声データを解析した
特徴量についても事前に登録しておく。

【００１８】次に、３は音声入力指示部を示し、話者照
合時に利用者が入力すべき音声について指示を出すもの
である。４は音声入力部を示し、マイク等の入力媒体を
通じて、利用者が実際に発声して音声データを入力する
ものである。

【００１９】音声入力部４では、音声入力指示部３の指
示に従って、音声を入力することになる。この場合、同
じ発声内容を含む比較的長い音声を一回だけ入力するも
のであっても良いし、同じ発声内容を二回以上繰り返す
ものであっても良い。また、同じ発声内容を含んでいる
異なる発声内容を入力するものであっても良い。例え
ば、「前川さん」と「早川さん」と発声させることで、
「かわさん」の部分が同一発声内容となることで、比較
を行うことが可能となる。かかる入力方法では、利用者
が同一音声の照合を行っていると気づきにくく、比較的
精度良く照合を行うことが期待できる。

【００２０】したがって、例えば図２に示すように入力
音声格納部２１を設けることで、前回に入力していた音
声データに基づいて発声内容の照合を行うことも考えら
れる。人間で有れば、時と場所を変えて入力した場合に
音声の揺らぎが生じることが自然であることから、揺ら
ぎのほとんど見られない入力について合成音声あるいは
録音音声等であるものと判断できるからである。

【００２１】また、５は音声分析部を示し、入力された
音声データを分析して、その音声波形データの物理的な
特徴量を求めるものである。求まった特徴量に基づい
て、登録音声類似度算出部６では個人別音声情報登録部
２に登録されている音声データの特徴量と入力音声の音
声データの特徴量との第１の類似度を算出し、入力音声
類似度算出部７では同一内容の入力音声について音声デ
ータの特徴量の第２の類似度を算出する。

【００２２】一般に、従来の話者照合においては、音声
の特徴量等に基づいて入力音声と登録音声との第１の類
似度を算出することのみで類否判断を行っている。しか
し、人間が発声する場合には、その時々の状態や環境に
応じて音声に揺らぎが生じ、全く同一の音声として発声
することは不可能であることから、一定の許容範囲を定
めて、第１の類似度が当該範囲内であれば同一人である
ものと判断する等の方法を採用している。

【００２３】したがって、音声合成装置等を用いて、第
１の類似度がかかる許容範囲内となるように調整した合
成音声を生成することで、第三者が容易に本人になりす
ますことが可能となる。

【００２４】一方、音声合成装置等で人工的に生成され
た合成音声については、揺らぎが生じることが無く、何
度入力しても同一の音声を入力することができる。した
がって、従来の話者照合に加えて、複数回同一の音声を
入力しても入力音声間の類似度である第２の類似度が毎
回同じ値として算出されるものについても、人間の音声
ではなく合成音声のような不自然な音声であると判断す
ることができる。

【００２５】具体的に、類似度の判断基準を音声データ
間の照合距離とした場合について、図３を用いて説明す
る。図３は、音声データ間の照合距離の頻度分布を示す
ものであり、照合距離が短いほど類似度が高いと判断す
るものである。

【００２６】図３において、領域Ａは個人別音声情報登
録部２に登録されている音声データの特徴量と入力され
た本人の音声データの特徴量との距離の分布を示す領域
である。領域Ｂは同一内容の音声部分における音声デー
タの特徴量に関する照合距離の分布、例えば一回目と二
回目の入力音声間における照合距離の分布を示してい
る。領域Ｃは個人別音声情報登録部２に登録されている
音声データの特徴量と詐称者の入力音声の音声データの
特徴量との間の照合距離の分布を示している。

【００２７】すなわち、領域Ａ及び領域Ｃは、個人別音
声情報登録部２に登録されている音声データとの照合距
離の分布であるのに対し、領域Ｂは入力された音声デー
タ間の照合距離の分布である点で大きく相違する。

【００２８】まず従来の方法においては、領域Ａ及び領
域Ｃの間で入力された音声が本人の音声であるか否かに
ついて判断していた。すなわち、入力された音声データ
の照合距離が所定のしきい値であるしきい値Ｉよりも小
さい場合には、入力された音声の類似度が高いものと判
断して入力音声が本人の音声であるものと判断する。

【００２９】一方、領域Ａ及び領域Ｂの間では、入力さ
れた音声が自然音声であるか合成音声で有るかを判断す
ることになる。すなわち、入力された音声データ間の照
合距離が所定のしきい値であるしきい値IIよりも小さい
場合には、入力された音声に人間本来の自然な揺らぎが
ないものと判断して、入力音声が合成音声や録音音声等
の不自然な音声であるものと判断する。

【００３０】次に、登録音声類似度算出部６及び入力音
声類似度算出部７における類似度の算出方法について説
明する。まず、特定の個人ＩＤに対応する音声データの
特徴量と入力された音声データの特徴量が類似している
ものと判断するためのしきい値としては、従来から固定
した一定の値が用いられることが多い。例えば、図４に
示すように、入力された音声と事前に登録されている音
声との間で照合距離を計算し、あらかじめ設定したしき
い値と比較して、当該しきい値よりも照合距離が同じ若
しくは短い場合（図４の“−”）には本人であると、長
い場合（図４の“＋”）には他人であると判断するもの
である。

【００３１】かかるしきい値の設定には、以下に示すよ
うな方法を用いることが多い。図５は、類似度判断の指
標として照合距離を用いた場合において、照合距離を横
軸として、本人ではないと棄却する判断が誤りであった
場合の確率である本人拒否率ＦＲＲ（False Rejection
error Rate）を縦軸にとったものである。一方、同じく
照合距離を横軸として、詐称者であるとする判断が誤り
であった場合の確率である他人受入率ＦＡＲ（False Ac
ceptance error Rate）も縦軸にとる。

【００３２】しきい値を小さな値にすると、詐称者を誤
って受理してしまう率ＦＡＲは減るが、本人を誤って棄
却してしまう率ＦＲＲが高くなる。逆にしきい値を大き
な値とすると、本人を誤って棄却してしまう率ＦＲＲは
小さくなるが、詐称者を誤って受理してしまう率ＦＡＲ
は大きくなる。よって、かかる２つの誤り率の重要度に
応じて、しきい値を適切な値に設定するのが望ましい。

【００３３】実験的には事後的にかかる２つの誤り率が
等しくなる値をしきい値として評価するのが一般的であ
る。本実施の形態１においては、図３におけるしきい値
Ｉとしては、人間の音声による実験値から、しきい値II
としては音声合成装置により生成された合成音声による
実験値から、それぞれＦＲＲとＦＡＲが一致する値をし
きい値としている。すなわち、所定のしきい値を定めた
場合において、本人同士の音声間距離と本人・他人間の
音声間距離の頻度分布曲線（図３）のうち、定めたしき
い値からはみ出た部分の面積がＦＡＲ、ＦＡＲを示すこ
とになる。

【００３４】また、入力音声が合成音声等であるか否か
を判定するための照合距離の算出方法についても、同様
に様々な方法が考えられる。本実施の形態１において
は、音声データの特徴量をｎ次元の特徴パラメータと
し、ｎ次空間内における空間内距離として当該照合距離
を求めている。ただし、特にこの方法に限定されるもの
ではなく、当該照合距離の算出方法として、ＤＰマッチ
ングを用いることも考えられる。ここで、ＤＰとは動的
計画法（Dynamic Programming）を意味している。

【００３５】例えば図６は、同時期に同一に発声された
内容に含まれる単語発声に対する同一話者内の距離の頻
度分布をＤＰマッチングを用いて算出したものである。
かかる方法によっても判断の対象となる距離分布を求め
ることが可能である。

【００３６】図７は、ＤＰマッチングを用いた場合にお
けるＤＰパスの例示図である。ここで、ＤＰパスとは時
間対応付けを行った場合における最小値を選択すること
を意味する。なお、図７の横軸は同一音声に関する１回
目の音声入力に基づいた音声データの特徴パラメータ系
列を、縦軸には同一音声に関する２回目の音声入力に基
づいた音声データの特徴パラメータ系列を、それぞれ示
し、ｉ、ｊはそれぞれフレーム数を示している。

【００３７】同一の発声部分に関する一回目と二回目の
発声について、ＤＰマッチング等を用いて時間対応付け
（時間正規化）を行い、時間正規化後の距離を用いて判
断する。その距離が極端に小さい場合や極端に大きい場
合については、不自然な発声であるものとして棄却す
る。かかる判断には、ＤＰパスの結果を用いるとより容
易に判断することができる。

【００３８】すなわち図７において、人間の自然な発声
の場合には、７１に示すように一回目と二回目の発声に
おいて局所的なＤＰパスの揺れが生じ、特徴パラメータ
が完全に一致するということはあり得ない。しかし、音
声合成装置等によって人工的に生成された合成音声等の
場合には何度入力してもその特徴パラメータは一致して
いることから、７２に示すように一回目と二回目の特徴
パラメータは完全に一致する。かかる不自然な発声を検
出することで本人になりすますことを防止することが可
能となる。

【００３９】そこで、合成音声等であるか否かの照合方
法として、登録話者モデルに対する照合過程が同一か否
かを調べることも考えられる。図８は照合過程の同一性
判断を適用した本発明の一実施例にかかる話者照合装置
の構成図である。図８では、類似度算出過程比較部８１
を入力音声類似度算出部７の代わりに設けている点に特
徴を有する。

【００４０】類似度算出過程比較部８１では、例えばＤ
Ｐマッチングを用いたので有ればＤＰパスを、ビタービ
アルゴリズム（Viterbi algorithm）を用いたＨＭＭ（H
idden Markov Model）である場合には、状態遷移をバッ
クトレースした結果を、それぞれの入力音声について調
査し比較する。一般に人間の発声の場合においては、発
声の長さやスペクトルが異なるために、照合過程が一致
することは起こり得ないのに対して、合成音声や録音音
声の場合には、登録話者の音声情報に対する照合過程が
何回入力しても一致してしまうため、かかる不正入力を
検出することが可能となる。

【００４１】そして、総合判断部８においては、登録音
声類似度算出部６で算出された個人別音声情報登録部２
に登録されている音声データの特徴量と入力音声の音声
データの特徴量との類似度と、入力音声類似度算出部７
で算出された同一内容の入力音声に関する音声データの
特徴量の類似度とに基づいて、総合的に入力された音声
が本人のものであるか否かについて判断する。

【００４２】まず、登録音声類似度算出部６で算出され
た個人別音声情報登録部２に登録されている音声データ
の特徴量と入力音声の音声データの特徴量との類似度が
所定のしきい値よりも小さい、すなわち上述したような
方法により求めた照合距離のしきい値Ｉよりも大きい場
合には、人間が本来有する音声発声時の揺らぎの範囲を
超えているものとして、入力された音声が本人のもので
はないと判断される。類似度が所定のしきい値以上、す
なわち上述したような方法により求めた照合距離のしき
い値Ｉ以下である場合には、人間が本来有する音声発声
時の揺らぎの範囲内であると判断され、以下の判断に移
る。

【００４３】次に、入力音声類似度算出部７で算出され
た同一内容の入力音声に関する音声データの特徴量の類
似度が所定のしきい値以上、すなわち上述したような方
法により求めた照合距離のしきい値II以下である場合に
は、人間が本来有する音声発声時の揺らぎすら生じてい
ない不自然な音声で有るものとして、入力された音声が
本人のものではないと判断される。類似度が所定のしき
い値より小さい、すなわち上述したような方法により求
めた照合距離のしきい値IIより大きい場合には、人間が
本来有する音声発声時の揺らぎが生じていると判断さ
れ、入力された音声が本人のものであると判断される。

【００４４】最後に、入力された音声が本人のものであ
るか否かについての判断結果を判断結果出力部９におい
て出力する。出力方法としては、表示装置等へ表示する
ものであっても良いし、判断結果に応じて稼働するアプ
リケーション等へファイルとして渡すものであったも良
い。

【００４５】次に、人工的な合成音声に対して、一回目
と二回目で異なる信号処理を施すことで、人工的に合成
音声に揺らぎを付加することで、上述したような合成音
声の棄却条件を回避することも考えられる。かかる回避
を防止するために、図９に示すように信号処理部を音声
入力部４の後処理として設けることで対処する。

【００４６】図９は、かかる方法を実現する本発明の一
実施例にかかる話者照合装置の構成図である。図１に比
して、音声入力部４の前処理として信号処理部９１が付
加されている点に特徴を有している。

【００４７】信号処理部９１は、音声入力部４から入力
された音声すべてについて処理するものではない。対比
する音声入力の少なくとも一つについて、想定される信
号処理を施し、入力音声と信号処理後の音声について上
述したような方法で類似度を判別することで、特徴パラ
メータが実際には一致している合成音声を擬似的に異な
る音声であるものと見せかけた入力音声についても、合
成音声であることを検出することができ、さらなるセキ
ュリティ性能の向上に寄与できる。

【００４８】また、音声入力環境は、時間や場所といっ
た周囲の状況によって変動し、同一の音声を同一人が入
力した場合であっても周囲の環境が同一であることは考
えられないことから、周囲の環境変動による話者の誤認
を最小限に止めるべく、入力されてきた音声に適当な信
号処理を行うのにも利用可能である。

【００４９】また、信号処理部９１において、信号に対
する変換処理ではなく、正規化処理を行うことも考えら
れる。正規化処理としては、音声区間全域に渡って平均
化したケプストラム（Cepstrum）の値を、各フレームに
おけるケプストラムの値から差し引くことで行うＣＭＮ
法（Cepstral Mean Normalization）等を用いることが
考えられる。正規化処理を行うことで、類似度算出対象
となる入力音声を同一環境における音声であるものとし
て扱うことができ、判断の精度向上が期待できる。な
お、正規化処理の手法は特にＣＭＮ法に限定されるもの
ではない。

【００５０】以上のように本実施の形態によれば、人工
的に生成された合成音声については人間の音声が本来有
するべき揺らぎが全くないものとして識別することがで
きるようになることから、本人と全く関係のない第三者
が音声合成装置等を用いて本人になりすます行為を未然
に防止することが可能となる。

【００５１】次に、本発明の実施の形態にかかる話者照
合装置を実現するプログラムの処理の流れについて説明
する。図１０に本発明の実施の形態にかかる話者照合装
置を実現するプログラムの処理の流れ図を示す。

【００５２】図１０において、まず事前に登録されてい
る音声情報を引き出すために、照合対象となる利用者の
個人ＩＤを入力し、登録されている音声情報を抽出する
（ステップＳ１０１）。

【００５３】次に、音声の類似度を算出するために、ど
のような音声を入力するのか指示を出し（ステップＳ１
０２）、同一の内容について少なくとも二回以上含まれ
ている一又は二以上の音声を入力する（ステップＳ１０
３）。

【００５４】そして、まず抽出された登録音声と入力さ
れた音声との間の第１の類似度を算出する（ステップＳ
１０４）。算出された第１の類似度が所定のしきい値よ
り小さい場合には（ステップＳ１０５：Ｎｏ）、人間の
有する自然な揺らぎ以上の相違を有するものと判断し
て、詐称者による音声であると判断する（ステップＳ１
０９）。

【００５５】次に、算出された第１の類似度が所定のし
きい値以上である場合には（ステップＳ１０５：Ｙｅ
ｓ）、二以上入力されている入力音声同士の間における
第２の類似度を算出する（ステップＳ１０６）。算出さ
れた第２の類似度が所定のしきい値以上である場合には
（ステップＳ１０７：Ｙｅｓ）、人間の有する自然な揺
らぎすら有しない不自然な音声であるものと判断して、
詐称者による音声であると判断する（ステップＳ１０
９）。

【００５６】算出された第２の類似度が所定のしきい値
よりも小さい場合には（ステップＳ１０７：Ｎｏ）、自
然な音声による入力であるものと判断して、本人による
音声入力であると判断する（ステップＳ１０８）。

【００５７】なお、本発明の実施の形態にかかる話者照
合装置を実現するプログラムを記憶した記録媒体は、図
１１に示す記録媒体の例に示すように、ＣＤ−ＲＯＭ１
１２−１やフロッピーディスク１１２−２等の可搬型記
録媒体１１２だけでなく、通信回線の先に備えられた他
の記憶装置１１１や、コンピュータ１１３のハードディ
スクやＲＡＭ等の記録媒体１１４のいずれでも良く、プ
ログラム実行時には、プログラムはローディングされ、
主メモリ上で実行される。

【００５８】また、本発明の実施の形態にかかる話者照
合装置により生成された個人別音声情報等を記録した記
録媒体も、図１１に示す記録媒体の例に示すように、Ｃ
Ｄ−ＲＯＭ１１２−１やフロッピー（登録商標）ディス
ク１１２−２等の可搬型記録媒体１１２だけでなく、通
信回線の先に備えられた他の記憶装置１１１や、コンピ
ュータ１１３のハードディスクやＲＡＭ等の記録媒体１
１４のいずれでも良く、例えば本発明にかかる話者照合
装置を利用する際にコンピュータ１１３により読み取ら
れる。

【００５９】

【発明の効果】以上のように本発明にかかる話者照合装
置によれば、人工的に生成された合成音声については人
間の音声が本来有するべき揺らぎが全くないものとして
識別することができるようになることから、本人と全く
関係のない第三者が音声合成装置等を用いて本人になり
すます行為を未然に防止することが可能となる。

【図面の簡単な説明】

【図１】本発明の実施の形態にかかる話者照合装置の
構成図

【図２】本発明の一実施例にかかる話者照合装置の構
成図

【図３】本発明の実施の形態にかかる話者照合装置の
原理説明図

【図４】本発明の実施の形態にかかる話者照合装置に
おけるしきい値概念説明図

【図５】本発明の実施の形態にかかる話者照合装置に
おけるしきい値概念説明図

【図６】本発明の実施の形態にかかる話者照合装置に
おけるＤＰマッチング結果の例示図

【図７】本発明の実施の形態にかかる話者照合装置に
おけるＤＰマッチングの概念説明図

【図８】本発明の一実施例にかかる話者照合装置の構
成図

【図９】本発明の一実施例にかかる話者照合装置の構
成図

【図１０】本発明の実施の形態にかかる話者照合装置
における処理の流れ図

【図１１】記録媒体の例示図

【符号の説明】

１個人ＩＤ入力部２個人別音声情報登録部３音声入力指示部４音声入力部５音声分析部６入力音声類似度算出部７登録音声類似度算出部８総合判定部９判定結果出力部２１入力音声格納部８１類似度算出過程比較部９１信号処理部１１１回線先の記憶装置１１２ＣＤ−ＲＯＭやフロッピーディスク等の可搬型
記録媒体１１２−１ＣＤ−ＲＯＭ１１２−２フロッピーディスク１１３コンピュータ１１４コンピュータ上のＲＡＭ／ハードディスク等の
記録媒体

───────────────────────────────────────────────────── フロントページの続き (72)発明者早川昭二神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (72)発明者鈴木晃神奈川県横浜市中区尾上町２丁目27番株式会社アニモ内Ｆターム(参考） 5D015 AA03 HH04 HH08 LL03 9A001 HH16 LL03

Claims

【特許請求の範囲】

【請求項１】音声入力する話者の音声が、予め登録さ
れた登録話者の音声と一致するか否かを判定する話者照
合装置であって、入力する発声内容について話者に指示を与える話者入力
指示部と、前記話者の音声を一又は二以上入力する音声入力部と、前記音声入力部で入力された音声を分析する音声分析部
と、入力された同一の発声内容である二以上の音声につい
て、相互間の類似度を算出する入力音声類似度算出部と
を含み、算出された前記類似度が完全一致に近い所定レベル以上
の類似度である場合、前記類似度が一致するという情報
も用いて話者を照合することを特徴とする話者照合装
置。
【請求項２】前記類似度の判断を、登録話者モデルに
対する照合過程が同一か否かに基づいて行う請求項１記
載の話者照合装置。
【請求項３】前記音声入力部で少なくとも二以上の音
声が入力された場合であって、少なくとも１つの音声に
ついて変換処理が行われている場合には、前記音声入力部で入力された少なくとも二以上の音声の
うち、前記変換処理が行われていない音声について信号
処理を施し、あるいは前記入力された少なくとも二以上
の音声について正規化処理を施す請求項１記載の話者照
合装置。
【請求項４】前記類似度が一致すると判断された場合
には、本人の音声入力ではないものと判断して入力を棄
却する請求項１記載の話者照合装置。
【請求項５】音声入力する話者の音声が、予め登録さ
れた登録話者の音声と一致するか否かを判定する話者照
合方法であって、入力する発声内容について前記話者に指示を与える工程
と、前記話者の音声を一又は二以上入力する工程と、入力された前記音声を分析する工程と、入力された同一の発声内容である二以上の音声につい
て、相互間の類似度を算出する工程とを含み、算出された前記類似度が完全一致に近い所定レベル以上
の類似度である場合、前記類似度が一致するという情報
も用いて話者を照合することを特徴とする話者照合方
法。
【請求項６】音声入力する話者の音声が、予め登録さ
れた登録話者の音声と一致するか否かを判定する話者照
合方法を実現するプログラムを記録したコンピュータ読
み取り可能な記録媒体であって、入力する発声内容について前記話者に指示を与えるステ
ップと、前記話者の音声を一又は二以上入力するステップと、入力された前記音声を分析するステップと、入力された同一の発声内容である二以上の音声につい
て、相互間の類似度を算出するステップとを含み、算出された前記類似度が完全一致に近い所定レベル以上
の類似度である場合、前記類似度が一致するという情報
も用いて話者を照合することを特徴とするプログラムを
記録したコンピュータ読み取り可能な記録媒体。