JP3422702B2 - 話者照合方法及び装置 - Google Patents

話者照合方法及び装置

Info

Publication number
JP3422702B2
JP3422702B2 JP33921398A JP33921398A JP3422702B2 JP 3422702 B2 JP3422702 B2 JP 3422702B2 JP 33921398 A JP33921398 A JP 33921398A JP 33921398 A JP33921398 A JP 33921398A JP 3422702 B2 JP3422702 B2 JP 3422702B2
Authority
JP
Japan
Prior art keywords
speaker
phoneme
acoustic model
likelihood
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP33921398A
Other languages
English (en)
Other versions
JP2000163092A (ja
Inventor
俊洋 磯部
淳一 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP33921398A priority Critical patent/JP3422702B2/ja
Publication of JP2000163092A publication Critical patent/JP2000163092A/ja
Application granted granted Critical
Publication of JP3422702B2 publication Critical patent/JP3422702B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、本人話者に対して
背景話者を設定し、入力音声に対する本人話者の照合ス
コアを、その入力音声に対する背景話者の照合スコアで
正規化する話者照合方法及び装置の改良に関するもので
ある。
【0002】
【従来の技術】話者照合装置においては、入力音声に対
する本人の辞書(音響モデル)の照合スコアと、事前に
設定される閾値との大小関係により、受理/棄却の判定
が行われる。音響モデルがHMM(隠れマルコフモデ
ル)の場合、照合スコアは入力音声に対するHMMの尤
度である。そのため、発話内容の違いや音声入力系の影
響による照合スコア(尤度)の変動は、装置の照合性能
を大きく劣化させる。そこで、尤度の変動低減のため、
各本人話者に対して背景話者を設定し、入力音声に対す
る本人話者の尤度を、同じ入力音声に対する背景話者の
尤度で除算することにより正規化する幾つかの手法が研
究されている。
【0003】上記手法の例として、最も尤度の高い話者
を背景話者にするヒギンス等の手法、背景話者としてコ
ホート話者セットを用いるローゼンバーグ等の手法、リ
ュウ等による多数話者の尤度の平均値と分散値に基づく
正規化法、及び松井等による事後確率に基づく多数話者
モデルの尤度による正規化法が挙げられる。上記各手法
は、いずれも背景話者の正確且つ効率的な表現を主題と
している。
【0004】
【発明が解決しようとする課題】ところで、上述した各
手法(つまり、本人話者と背景話者との尤度比による本
人話者の正規化手法)では、背景話者の音響モデルが、
本人話者以外の全ての話者に対する音響空間を表現する
ことが望ましい。しかし、理想的な全ての話者に対して
音響モデルを求めることは困難である。また、実サービ
スにおいても、数多くの登録話者からその音響モデルを
求めることは、多大な計算コストを要するため効率的で
はない。以下、背景話者としてローゼンバーグ等の手法
(つまり、コホート話者セットを用いる手法)について
詳細に説明する。
【0005】背景話者としてのコホート話者セットの設
計では、全話者空間を少ない計算量で正確且つ効率的に
近似することが重要である。尤度は対数値で表されるた
め、背景話者を可能な限り本人話者に近いものとして選
択することで、照合の判定基準(即ち、尤度比)の分解
能を向上させることができるものと思料される。
【0006】従来、上述した手法では、背景話者とし
て、図1に示すように本人以外の登録話者のうち、音響
空間上で本人話者の音素辞書(音響モデル)に近い上位
N人を選定し(図1では、N=2)、そのN人の入力音
声に対する尤度の平均値を、背景話者の尤度として用い
ていた。或いは、上記手法において、本人話者の尤度値
に最も近い他の話者を1人だけ選択する場合もあった。
それらの理由は、或る話者の音響モデルが、音響空間上
でその音響モデルの近くの入力音声に対する尤度につい
ては正確であるが、上記音響モデルから遠い入力音声に
対する尤度については誤差が大きいことによる。換言す
れば、正規化された尤度は、本人話者及び音響空間上で
本人話者の近くに侵入してくる詐称者に対しては正確で
なければならないが、本人話者とは距離が遠い空間に侵
入してくる詐称者に対してはそれほど正確である必要が
ないことによる。
【0007】しかし、上記のような話者単位での近傍話
者の選定方法では、正確には音素毎に近傍話者が異なる
(つまり、話者間距離は音素によって異なる)ため、話
者単位に選出する近傍話者は全ての音素において本人に
近い訳ではなく誤差を含んでおり、よって本人に音響空
間上で近いという背景話者の条件を満たしていない。そ
のため、尤度の正規化精度が悪くなり照合性能を劣化さ
せる要因であるとされていた。つまり、背景話者の尤度
が、話者単位でしか制御できないために、話者照合にお
ける判定基準の分解能が必ずしも高くないと考えられて
いたのである。
【0008】従って本発明の目的は、話者照合の性能を
向上させることができるようにすることにある。
【0009】
【課題を解決するための手段】本発明の第1の観点に従
う話者照合装置は、本人話者に対して仮想的な話者であ
る背景話者を設定し、入力音声に対する本人話者の照合
スコアを、その入力音声に対する仮想的な話者である背
景話者の照合スコアで正規化するもので、入力された音
声情報に基づいて作成された新たな話者の音響モデルを
保持する第1の保持手段と、上記第1の保持手段によっ
て保持されている各話者の音響モデルの中から、局所的
な特徴に関して登録話者の音響モデルとの音響空間上に
おける距離が比較的近い話者を選択する選択手段と、上
記選択された話者を、上記登録話者の近傍話者として保
持する第2の保持手段と、上記第2の保持手段によって
保持されている上記近傍話者の音響モデルの局所的な特
徴を、本人話者の音響モデルの各々の局所的な特徴に対
応させて組合わせることにより仮想的な話者である背景
話者の音響モデルを合成する合成手段と、を備え、上記
合成手段が、入力された音声情報に対する上記合成され
た仮想的な話者である背景話者の音響モデルの尤度の平
均値を計算すると共に、その計算した尤度の平均値から
算出した正規化尤度を基に、上記入力された音声情報に
対する受理/棄却の判定を行うようにした。
【0010】上記構成によれば、話者照合の性能を向上
させることができる。
【0011】本発明の第1の観点に係る好適な実施形態
では、上記音響モデルの各音素が、隠れマルコフモデル
(HMM)であり、上記照合スコアが、入力音声に対す
るHMMの尤度である。
【0012】上記とは別の実施形態では、上記局所的な
特徴が、各話者の音響モデルの音素であり、また、上記
とは別の実施形態では、上記局所的な特徴が、上記各音
素HMMの各々の状態である。
【0013】更に、上記とは別の実施形態では、上記局
所的な特徴が、上記各音素HMMの各々の状態の各々の
分布である。
【0014】本発明の第2の観点に従う話者照合方法
は、本人話者に対して仮想的な話者である背景話者を設
定し、入力音声に対する本人話者の尤度を、その入力音
声に対する仮想的な話者である背景話者の尤度で正規化
するもので、入力された音声情報に基づいて作成された
新たな話者の音響モデルを保持する第1の過程と、上記
第1の過程において保持された各話者の音響モデルの中
から、局所的な特徴に関して登録話者の音響モデルとの
音響空間上における距離が比較的近い話者を選択する第
2の過程と、上記第2の過程において選択された話者
を、上記登録話者の近傍話者として保持する第3の過程
と、上記第3の過程において保持された上記近傍話者の
音響モデルの局所的な特徴を、本人話者の音響モデルの
各々の局所的な特徴に対応させて組合わせることにより
仮想的な話者である背景話者の音響モデルを合成する第
4の過程と、入力された音声情報に対する上記第4の過
程において合成された仮想的な話者である背景話者の音
響モデルの尤度の平均値を計算すると共に、その計算し
た尤度の平均値から算出した正規化尤度を基に、上記入
力された音声情報に対する受理/棄却の判定を行う第5
の過程と、を備える。
【0015】本発明の第3の観点に従うプログラム媒体
は、本人話者に対して仮想的な話者である背景話者を設
定し、入力音声に対する本人話者の照合スコアを、その
入力音声に対する仮想的な話者である背景話者の照合ス
コアで正規化する話者照合装置において、入力された音
声情報に基づいて作成された新たな話者の音響モデルを
保持する第1の保持手段と、上記第1の保持手段によっ
て保持されている各話者の音響モデルの中から、局所的
な特徴に関して登録話者の音響モデルとの音響空間上に
おける距離が比較的近い話者を選択する選択手段と、上
記選択された話者を、上記登録話者の近傍話者として保
持する第2の保持手段と、上記第2の保持手段によって
保持されている上記近傍話者の音響モデルの局所的な特
徴を、本人話者の音響モデルの各々の局所的な特徴に対
応させて組合わせることにより仮想的な話者である背景
話者の音響モデルを合成する合成手段と、を備え、上記
合成手段が、入力された音声情報に対する上記合成され
た仮想的な話者である背景話者の音響モデルの尤度の平
均値を計算すると共に、その計算した尤度の平均値から
算出した正規化尤度を基に、上記入力された音声情報に
対する受理/棄却の判定を行うようにした話者照合装置
における上記各手段としてコンピュータを動作させるた
めのコンピュータプログラムをコンピュータ読み取り可
能に担持する。
【0016】
【発明の実施の形態】以下、本発明の実施の形態を、図
面により詳細に説明する。
【0017】図2は、本発明の一実施形態に係る話者照
合装置の機能ブロック図である。
【0018】上記装置は、音素別近傍話者テーブルを有
し、音声登録モードと音声認証モードの一方を選択的に
設定できるよう構成され、図示のように、音声入力部
(入力部)11と、個人用辞書作成部(作成部)13
と、個人認証部(認証部)15と、音素別近傍話者選択
部(選択部)17とを備える。上記装置は、上記各部に
加えて更に、背景話者用辞書合成部(合成部)19と、
音素別近傍話者テーブル格納部(格納部)21と、個人
辞書格納部(格納部)23をも備える。
【0019】作成部13は、装置の音声登録モード時
に、入力部11を通じて読込んだ音声情報に基づき、新
規ユーザ(話者)の音素辞書(音響モデル)を作成し、
格納部23に格納する。例えば、図示のように、新規ユ
ーザが話者1であるときは、音素1〜音素Pから成る話者1
の音素辞書が、また、話者2であるときは、上記と同様
に音素1〜音素Pから成る話者2の音素辞書が、更に、話
者Sであるときも、上記と同様に音素1〜音素Pから成る
話者Sの音素辞書が、夫々作成部13で作成される。そ
して、それら各話者1〜Sの音素辞書は、作成部13によ
り夫々格納部23に格納される。
【0020】作成部13における上記処理動作は、話者
を単位としたコホート話者セットの設定として一般化さ
れる。即ち、話者を単位としてコホート話者セットを設
定する場合は、話者iに対する尤度比L(i)は、下記の
(1)式で表わされる。
【0021】
【数1】 (1)式において、οは観測ベクトルを、λ(i)は話
者iの音素HMMセットを、Kはコホートサイズを、ck
(i)は話者iのK番目のコホート話者を、Pは音素数を、
夫々表わす。ck(i)(k=1、2、…、K)は、話者間距
離により、登録話者から話者iに近い上位K人が選択され
る。
【0022】選択部17は、装置の音声登録モード時に
作成部13による音素辞書作成の処理動作(話者を単位
としたコホート話者セットの設定)と並行して、新規に
作成された音素辞書の各音素別に各音素と音響空間上に
おける距離が近い話者情報を、格納部23に格納済みの
複数の登録話者の音素辞書中から音素別に選出する。そ
して、それらの話者情報を、距離の近いものから順に整
理した状態で、音素別近傍話者テーブルとして格納部2
1に格納する。例えば、新規ユーザが話者1であるとき
は、話者1の音素1に近い話者が、最も距離の近い話者か
ら順に話者9、話者7、……、話者11であったとすれば、
選択部17により、図示のように、話者1の音素1に係る
音素別近傍話者テーブルに話者9、話者7、……、話者11
が格納される。話者1の音素Pに近い話者が、最も距離の
近い話者から順に話者8、話者21、……、話者14であっ
たとすれば、選択部17により、図示のように、話者1
の音素Pに係る音素別近傍話者テーブルに話者8、話者2
1、……、話者14が格納される。また、新規ユーザが話
者Sであるときは、話者Sの音素1に近い話者が、最も距
離の近い話者から順に話者2、話者30、……、話者19で
あったとすれば、選択部17により、図示のように、話
者Sの音素1に係る音素別近傍話者テーブルに話者2、話
者30、……、話者19が格納される。話者Sの音素Pに近い
話者が、最も距離の近い話者から順に話者24、話者13、
……、話者18であったとすれば、選択部17により、図
示のように、話者Sの音素Pに係る音素別近傍話者テーブ
ルに話者24、話者13、……、話者18が格納される。
【0023】選択部17における上記処理動作は、音素
を単位としたコホート話者セットの設定のための処理動
作として一般化される。即ち、音素を単位としてコホー
ト話者セットを設定する場合は、上記(1)式の右辺の
第2項は、下記の(2)式で表わされる。
【0024】
【数2】 (2)式において、#ck(i)は話者iのK番目の仮想コ
ホート話者を、λ(#ck(i))は仮想コホート話者#
ck(i)の音素HMMセットを、夫々表わす。
【0025】次に、話者iの音素セットは下記の(3)
式で表わされる。
【0026】
【数3】 次に、(3)式から、仮想コホート話者の音素HMMセッ
トは、下記の(4)式で表わされるようになる。
【0027】
【数4】 (4)式において、ck(i,p)は話者iの音素pに対する
k番目のコホート話者を表わす。ここで、ck(i,p)
は、音素を単位としたコホート話者であり、話者iの音
素pと他の登録話者の音素pとの音素モデル間距離によ
り、話者iに近い上位K人が選択される訳である。
【0028】認証部15は、装置の認証モード時に、入
力部11を通じて読込んだ音声情報に対する本人話者の
音素辞書(音響モデル)の尤度LSを計算する。
【0029】合成部19は、認証部15が、上記のよう
に音声情報に対する本人話者の音素辞書(音響モデル)
の尤度LSを計算するのと並行して、格納部21内の情
報を基に本人話者(1〜S)の音素辞書の夫々の音素(1
〜P)に対し、各音素(1〜P)の近傍話者の音素を組合
わせることによって背景話者の音素辞書を合成する。そ
して、入力音声情報に対する背景話者の尤度Lbの平均
値を計算する。その後、正規化尤度Ln=Ls/Lbを算
出し、事前に設定された閾値とLnとの大小関係を比較
し、受理/棄却の判定を行う。
【0030】以上説明したように、本発明の一実施形態
によれば、選択部17が、装置の音声登録モード時に、
新規に作成された音素辞書の各音素別に各音素と音響空
間上における距離が近い話者情報を、格納部23に格納
済みの複数の登録話者の音素辞書中から音素別に選出す
る。そして、それらの話者情報を、距離の近いものから
順に整理した状態で、音素別近傍話者テーブルとして格
納部21に格納する。そのため、音響空間上において、
本人話者の音素辞書(音響モデル)により近い背景話者
の音素辞書を合成することが可能になり、合成された背
景話者の尤度を本人話者の尤度の正規化に使用すること
で、尤度の正規化を高精度に行うことができる。その結
果、認証精度の高い話者照合装置を実現することが可能
になる。
【0031】図3は、本発明の一実施形態の第1変形例
に係る話者照合装置の機能ブロック図である。
【0032】上記装置は、状態別近傍話者テーブルを有
し、音声登録モードと音声認証モードの一方を選択的に
設定できるよう構成される。上記装置は、図2に示した
音素別近傍話者選択部17に代えて、状態別近傍話者選
択部(選択部)25を設けた点、及び音素別近傍話者テ
ーブル格納部21に代えて、状態別近傍話者テーブル格
納部(格納部)27を設けた点で図2に示した話者照合
装置と相違する。上記以外の各部については、図2に示
したものと同一符号を付す。なお、図示の作成部13及
び合成部19の処理動作も、図2で示した作成部13及
び合成部19のそれと多少相違する。
【0033】例えば、図示のように、新規ユーザが話者
1であるときは、音素1状態1、……、音素1状態J、…
…、音素P状態1、……、音素P状態Jから成る話者1の音
素辞書が、作成部13で作成される。また、話者Sであ
るときも、上記と同様に音素1状態1、……、音素1状態
J、……、音素P状態1、……、音素P状態Jから成る話者S
の音素辞書が作成部13で作成される。そして、それら
各話者1〜Sの音素辞書は、作成部13により夫々格納部
23に格納される。
【0034】選択部25は、装置の音声登録モード時
に、作成部13による音素辞書作成の処理動作と並行し
て、新規に作成された音素辞書の各音素における夫々の
状態別にそれら各状態と音響空間上における距離が近い
話者情報を、格納部23に格納済みの複数の登録話者の
音素辞書中から夫々の状態別に選出する。そして、それ
らの話者情報を、距離の近いものから順に整理した状態
で、状態別近傍話者テーブルとして格納部27に格納す
る。例えば、新規ユーザが話者1であるときは、話者1の
音素1の状態1に近い話者が、最も距離の近い話者から順
に話者9、話者7、……、話者11であったとすれば、選択
部25により、図示のように、話者1の音素1の状態1に
係る音素別近傍話者テーブルに話者9、話者7、……、話
者11が格納される。話者1の音素1の状態Jに近い話者
が、最も距離の近い話者から順に話者20、話者4、…
…、話者15であったとすれば、選択部25により、図示
のように、話者1の音素1の状態Jに係る音素別近傍話者
テーブルに話者20、話者4、……、話者15が格納され
る。話者1の音素Pの状態1に近い話者が、最も距離の近
い話者から順に話者14、話者41、……、話者12であった
とすれば、選択部25により、図示のように、話者1の
音素Pの状態1に係る音素別近傍話者テーブルに話者14、
話者41、……、話者12が格納される。話者1の音素Pの状
態Jに近い話者が、最も距離の近い話者から順に話者1
7、話者21、……、話者32であったとすれば、選択部2
5により、図示のように、話者1の音素Pの状態Jに係る
音素別近傍話者テーブルに話者17、話者21、……、話者
32が格納される。また、新規ユーザが話者Sであるとき
は、話者Sの音素Pの状態1に近い話者が、最も距離の近
い話者から順に話者8、話者11、……、話者36であった
とすれば、選択部25により、図示のように、話者Sの
音素Pの状態1に係る音素別近傍話者テーブルに話者8、
話者11、……、話者36が格納される。話者Sの音素Pの状
態Jに近い話者が、最も距離の近い話者から順に話者1
8、話者3、……、話者16であったとすれば、選択部25
により、図示のように、話者1の音素Pの状態Jに係る音
素別近傍話者テーブルに話者18、話者3、……、話者16
が格納される。
【0035】選択部25における上記処理動作は、状態
を単位としたコホート話者セットの設定のための処理動
作として一般化される。音素HMMを状態数S、混合数
Mのleft―to―right型の混合連続型HMMとすると、
音素pのHMMλpはある状態sにおいて自己ループする
遷移確率ap,s,s、次の状態への遷移確率ap,s,s+1、
分布重みwp,s,m{m=1、2、…、M}をパラメータ
として保有する。状態を単位としたコホート話者セット
では、上記のような状態sにおいて保有されるパラメー
タ毎に話者iの近傍話者が選択されるため、仮想コホー
ト話者のHMMセットは、下記の(5)式のように表わ
される。ck(i,p,s)は状態を単位としたコホート話者
であり、話者iの音素p、状態sと登録話者の同状態との
状態間距離により、近傍話者上位K人が選択される。
【0036】
【数5】 装置の認証モード時に、入力部11を通じて読込んだ音
声情報に対する本人話者の音素辞書(音響モデル)の尤
度LSが、認証部15により計算される。
【0037】合成部19は、認証部15が、上記尤度L
Sを計算するのと並行して、格納部27内の情報を基に
本人話者(1〜S)の音素辞書の各音素(1〜P)における
夫々の状態(1〜J)に対し、夫々近傍話者の各状態(1
〜J)毎のパラメータを組合わせることにより背景話者
の音素辞書を合成する。そして、入力音声情報に対する
背景話者の尤度Lbの平均値を計算し、その後、図2に
示した装置におけると同様、正規化尤度Ln=Ls/Lb
を算出して事前に設定された閾値とLnとの大小関係を
比較し、受理/棄却の判定を行う。
【0038】図4は、本発明の一実施形態の第1変形例
に係る状態数J、混合数MのHMMの構成を示す説明図
である。
【0039】図4において、HMMのパラメータは、遷
移確率A、分布重みW、分布Nで構成され、状態jに含
まれるパラメータは、このうち、Aj,j、Aj,j+1、W
j,1…Wj,M、Nj,1…Nj,Mである。
【0040】図5は、本発明の一実施形態の第2変形例
に係る話者照合装置の機能ブロック図である。
【0041】上記装置は、分布別近傍話者テーブルを有
し、音声登録モードと音声認証モードの一方を選択的に
設定できるよう構成される。上記装置は、図2に示した
音素別近傍話者選択部17に代えて、分布別近傍話者選
択部(選択部)29を設けた点、及び音素別近傍話者テ
ーブル格納部21に代えて、分布別近傍話者テーブル格
納部(格納部)31を設けた点で図2に示した話者照合
装置と相違する。上記以外の各部については、図2に示
したものと同一符号を付す。なお、図示の作成部13及
び合成部19の処理動作も、図2で示した作成部13及
び合成部19のそれと多少相違する。
【0042】例えば、図示のように、新規ユーザが話者
1であるときは、音素1状態1分布1、……、音素1状態1分
布M、……、音素P状態J分布1、……、音素P状態J分布M
から成る話者1の音素辞書が、作成部13で作成され
る。また、話者Sであるときも、上記と同様に音素1状態
1分布1、……、音素1状態1分布M、……、音素P状態J分
布1、……、音素P状態J分布Mから成る話者Sの音素辞書
が作成部13で作成される。そして、それら各話者1〜S
の音素辞書は、作成部13により夫々格納部23に格納
される。
【0043】選択部29は、装置の音声登録モード時
に、作成部13による音素辞書作成の処理動作と並行し
て、新規に作成された音素辞書の各音素の夫々の状態の
各々の分布別にそれら各分布と音響空間上における距離
が近い話者情報を、格納部23に格納済みの複数の登録
話者の音素辞書中から各々の分布別に選出する。そし
て、それらの話者情報を、距離の近いものから順に整理
した状態で、分布別近傍話者テーブルとして格納部31
に格納する。例えば、新規ユーザが話者1であるとき
は、話者1の音素1の状態1の分布1に近い話者が、最も距
離の近い話者から順に話者9、話者7、……、話者11であ
ったとすれば、選択部29により、図示のように、話者
1の音素1の状態1の分布1に係る分布別近傍話者テーブル
に話者9、話者7、……、話者11が格納される。話者1の
音素1の状態1の分布Mに近い話者が、最も距離の近い話
者から順に話者20、話者4、……、話者15であったとす
れば、選択部29により、図示のように、話者1の音素1
の状態1の分布Mに係る分布別近傍話者テーブルに話者2
0、話者4、……、話者15が格納される。話者1の音素Pの
状態Jの分布1に近い話者が、最も距離の近い話者から順
に話者14、話者41、……、話者12であったとすれば、選
択部29により、図示のように、話者1の音素Pの状態J
の分布1に係る分布別近傍話者テーブルに話者14、話者4
1、……、話者12が格納される。話者1の音素Pの状態Jの
分布Mに近い話者が、最も距離の近い話者から順に話者1
7、話者21、……、話者32であったとすれば、選択部2
9により、図示のように、話者1の音素Pの状態Jの分布M
に係る分布別近傍話者テーブルに話者17、話者21、…
…、話者32が格納される。また、新規ユーザが話者Sで
あるときは、話者Sの音素Pの状態Jの分布1に近い話者
が、最も距離の近い話者から順に話者8、話者11、…
…、話者36であったとすれば、選択部29により、図示
のように、話者Sの音素Pの状態Jの分布1に係る分布別近
傍話者テーブルに話者8、話者11、……、話者36が格納
される。話者Sの音素Pの状態Jの分布Mに近い話者が、最
も距離の近い話者から順に話者18、話者3、……、話者1
6であったとすれば、選択部29により、図示のよう
に、話者1の音素Pの状態Jの分布Mに係る分布別近傍話者
テーブルに話者18、話者3、……、話者16が格納され
る。
【0044】選択部29における上記処理動作は、分布
を単位としたコホート話者セットの設定のための処理動
作として一般化される。分布を単位としたコホート話者
セットでは、仮想コホート話者のHMMセットは下記の
(6)式で表わされる。
【0045】
【数6】 同じ状態に分布数M個のコホート話者セットがあるた
め、遷移確率aは、各コホート話者セットからの遷移確
率の合計を、自己ループと次の状態への遷移確率との和
が1になるように再正規化することによって算出され
る。遷移確率aは下記の(7)式で表わされる。
【0046】
【数7】 分布重みwも同様に各コホート話者セットからの分布重
みを、総和が1になるように再正規化することによって
算出される。分布重みwは下記の(8)式で表わされ
る。
【0047】
【数8】 (6)式、(7)式及び(8)式において、ck(i,p,s,
m)は分布を単位としたコホート話者、より具体的に
は、話者iの音素pの状態sの分布mに対するk番目のコホ
ート話者であり、分布毎に選択された近傍話者である。
【0048】装置の認証モード時に、入力部11を通じ
て読込んだ音声情報に対する本人話者の音素辞書(音響
モデル)の尤度LSが、認証部15により計算される。
【0049】合成部19は、認証部15が、上記尤度L
Sを計算するのと並行して、格納部31内の情報を基に
本人話者(1〜S)の音素辞書の各音素(1〜P)の夫々の
状態(1〜J)の各々の分布(1〜M)に対し、夫々近傍話
者の各分布(1〜M)を組合わせることにより背景話者の
音素辞書を合成する。そして、入力音声情報に対する背
景話者の尤度Lbの平均値を計算する。この場合、背景
話者の遷移確率Aは、本人話者の音声辞書の遷移確率A
をそのまま流用する。その後、図2に示した装置におけ
ると同様、正規化尤度Ln=Ls/Lbを算出して事前に
設定された閾値とLnとの大小関係を比較し、受理/棄
却の判定を行う。なお、上述した状態Jの分布mに含まれ
るパラメータは、図4中のWj,M、Nj,Mである。
【0050】次に、図2、図3及び図5において夫々示
した装置、及び従来装置の評価実験について説明する。
【0051】まず、実験条件として、上記各装置に関す
る評価実験に用いた音声データの諸元を図6に示す。
【0052】照合方式はテキスト指定型とし、セットA
を用いてクローズド実験(つまり、本人以外の登録話者
を詐称者として使用する実験)を行い、セットBをオー
プン実験(つまり、登録話者以外の話者を詐称者として
使用する実験)の詐称者として使用した。HMMは状態
数3混合数3のコンテキスト独立音素HMMとし、話者
登録では、ML推定によりHMMの全パラメータを推定
した。
【0053】次に、実験結果及びそれに関する考察につ
いて説明する。
【0054】上述した実験では、事後的に与える閾値に
よるEER(等誤差率)により、各手法の性能を比較し
た。図7にクローズド実験を行った結果得られたデータ
(クローズドデータ)を、図8にオープン実験を行った
結果得られたデータ(オープンデータ)を、夫々示す。
なお、図7において、曲線33は話者別コホート(つま
り、従来装置に係る)EER(単位%)を、曲線35は
音素別コホート(つまり、図2に示した装置に係る)E
ER(単位%)を、曲線37は状態別コホート(つま
り、図3に示した装置に係る)EER(単位%)を、夫
々示している。更に、曲線39は分布別コホート(つま
り、図5に示した装置に係る)EER(単位%)を示し
ている。
【0055】一方、図8においても、図7に示した曲線
33と同種の曲線である曲線41は話者別コホートEE
R(単位%)を、曲線35と同種の曲線である曲線43
は音素別コホートEER(単位%)を、曲線37と同種
の曲線である曲線45は状態別コホートEER(単位
%)を、夫々示している。更に、曲線39と同種の曲線
である曲線47は分布別コホートEER(単位%)を示
している。
【0056】図7及び図8を参照して明らかなように、
クローズド実験、オープン実験共に、コホート話者セッ
トのサイズが大きくなるにつれてEERは減少し、サイ
ズが4.5付近で飽和する傾向にある。両実験におい
て、コホート話者セットをより詳細な単位で選択して設
計する方がEERを低減でき、サイズ5の場合には、分
布を単位とした方法では、話者を単位とした方法に比べ
てクローズド実験で67%、オープン実験で35%とい
う高い誤り削減率を得た。
【0057】また、分布を単位とする方法のサイズ2に
おける照合性能は、話者を単位とする方法のサイズ5に
おける照合性能にほぼ匹敵し、本発明の各実施形態に係
る装置によって、より少ないコホート話者セットのサイ
ズで分解能の高い尤度正規化が実現できた。
【0058】上述した内容は、あくまで本発明の一実施
形態及びそれの変形例に関するものであって、本発明が
上記内容のみに限定されることを意味するものでないの
は勿論である。
【0059】
【発明の効果】以上説明したように、本発明によれば、
話者照合の性能を向上させることができるようにするこ
とができる。
【図面の簡単な説明】
【図1】背景話者の設定の態様を示す説明図。
【図2】本発明の一実施形態に係る話者照合装置の機能
ブロック図。
【図3】本発明の一実施形態の第1変形例に係る話者照
合装置の機能ブロック図。
【図4】本発明の一実施形態の第1変形例に係る状態数
J、混合数MのHMMの構成を示す説明図。
【図5】本発明の一実施形態の第2変形例に係る話者照
合装置の機能ブロック図。
【図6】実験条件として、従来の話者照合装置と、本発
明に係る各話者照合装置に関する評価実験に用いた音声
データの諸元を示す説明図。
【図7】従来の話者照合装置と、本発明に係る各話者照
合装置をクローズド実験を行った結果得られたデータを
示す図。
【図8】従来の話者照合装置と、本発明に係る各話者照
合装置をオープン実験を行った結果得られたデータを示
す図。
【符号の説明】
11 音声入力部(入力部) 13 個人用辞書作成部(作成部) 15 個人認証部(認証部) 17 音素別近傍話者選択部(選択部) 19 背景話者用辞書合成部(合成部) 21 音素別近傍話者テーブル格納部(格納部) 23 個人辞書格納部(格納部) 25 状態別近傍話者選択部(選択部) 27 状態別近傍話者テーブル格納部(格納部) 29 分布別近傍話者選択部(選択部) 31 分布別近傍話者テーブル格納部(格納部)
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平3−175499(JP,A) 特開 平10−173644(JP,A) 特開 平7−271392(JP,A) 特開 平10−222189(JP,A) 特開 平11−344992(JP,A) 易傑,他,HMMの状態または分布の 多元共有に関する検討,日本音響学会平 成8年度春季研究発表会講演論文集, 1996年 3月26日,3−5−16,p. 139−140 中村篤,擬似的学習データを用いた単 語スポッティング用ガーベジモデルの学 習法,電子情報通信学会技術研究報告 [音声],1995年12月22日,SP95− 107,p.99−104 磯部俊洋,高橋淳一,話者照合におけ るHMMの局所的音響情報に基づく尤度 正規化,電子情報通信学会技術研究報告 [音声],日本,1998年12月10日,SP 98−105,p.69−74 磯部俊洋,高橋淳一,中村太一,局所 的音響情報を用いて合成した背景話者モ デルに基づく話者照合,電子情報通信学 会論文誌D−11,日本,2000年11月25 日,D−11 Vol.J79−D−11 N o8,p.2370−2378 (58)調査した分野(Int.Cl.7,DB名) G10L 15/06 G10L 17/00 JICSTファイル(JOIS)

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】 本人話者に対して仮想的な話者である
    景話者を設定し、入力音声に対する本人話者の照合スコ
    アを、その入力音声に対する仮想的な話者である背景話
    者の照合スコアで正規化する話者照合装置において、入力された音声情報に基づいて作成された新たな話者の
    音響モデルを保持する第1の保持手段と、 前記第1の保持手段によって保持されている 各話者の音
    響モデルの中から、局所的な特徴に関して登録話者の音
    響モデルとの音響空間上における距離が比較的近い話者
    を選択する選択手段と、 前記選択された話者を、前記登録話者の近傍話者として
    保持する第2の保持手段と、前記第2の保持手段によって保持されている 前記近傍話
    者の音響モデルの局所的な特徴を、本人話者の音響モデ
    ルの各々の局所的な特徴に対応させて組合わせることに
    より仮想的な話者である背景話者の音響モデルを合成す
    る合成手段と、 を備え、前記合成手段が、入力された音声情報に対する前記合成
    された仮想的な話者である背景話者の音響モデルの尤度
    の平均値を計算すると共に、該計算した尤度の平均値か
    ら算出した正規化尤度を基に、前記入力された音声情報
    に対する受理/棄却の判定を行うようにした 話者照合装
    置。
  2. 【請求項2】 請求項1記載の話者照合装置において、 前記音響モデルの各音素が、隠れマルコフモデル(HM
    M)であり、前記照合スコアが、入力音声に対するHM
    Mの尤度である話者照合装置。
  3. 【請求項3】 請求項1記載の話者照合装置において、 前記局所的な特徴が、各話者の音響モデルの音素である
    話者照合装置。
  4. 【請求項4】 請求項2記載の話者照合装置において、 前記局所的な特徴が、前記各音素HMMの各々の状態で
    ある話者照合装置。
  5. 【請求項5】 請求項2記載の話者照合装置において、 前記局所的な特徴が、前記各音素HMMの各々の状態の
    各々の分布である話者照合装置。
  6. 【請求項6】 本人話者に対して仮想的な話者である
    景話者を設定し、入力音声に対する本人話者の尤度を、
    その入力音声に対する仮想的な話者である背景話者の尤
    度で正規化する話者照合方法において、入力された音声情報に基づいて作成された新たな話者の
    音響モデルを保持する第1の過程と、 前記第1の過程において保持された 各話者の音響モデル
    の中から、局所的な特徴に関して登録話者の音響モデル
    との音響空間上における距離が比較的近い話者を選択す
    る第2の過程と、 前記第2の過程において選択された話者を、前記登録話
    者の近傍話者として保持する第3の過程と、前記第3の過程において保持された 前記近傍話者の音響
    モデルの局所的な特徴を、本人話者の音響モデルの各々
    の局所的な特徴に対応させて組合わせることにより仮想
    的な話者である背景話者の音響モデルを合成する第4の
    過程と、入力された音声情報に対する前記第4の過程において合
    成された仮想的な話者である背景話者の音響モデルの尤
    度の平均値を計算すると共に、該計算した尤度の平均値
    から算出した正規化尤度を基に、前記入力された音声情
    報に対する受理/棄却の判定を行う第5の過程と、 を備える話者照合方法。
  7. 【請求項7】 本人話者に対して仮想的な話者である
    景話者を設定し、入力音声に対する本人話者の照合スコ
    アを、その入力音声に対する仮想的な話者である背景話
    者の照合スコアで正規化する話者照合装置において、入力された音声情報に基づいて作成された新たな話者の
    音響モデルを保持する第1の保持手段と、 前記第1の保持手段によって保持されている 各話者の音
    響モデルの中から、局所的な特徴に関して登録話者の音
    響モデルとの音響空間上における距離が比較的近い話者
    を選択する選択手段と、 前記選択された話者を、前記登録話者の近傍話者として
    保持する第2の保持手段と、前記第2の保持手段によって保持されている 前記近傍話
    者の音響モデルの局所的な特徴を、本人話者の音響モデ
    ルの各々の局所的な特徴に対応させて組合わせることに
    より仮想的な話者である背景話者の音響モデルを合成す
    る合成手段と、 を備え、前記合成手段が、入力された音声情報に対する前記合成
    された仮想的な話者である背景話者の音響モデルの尤度
    の平均値を計算すると共に、該計算した尤度の平均値か
    ら算出した正規化尤度を基に、前記入力された音声情報
    に対する受理/棄却の判定を行うようにした 話者照合装
    置における前記各手段としてコンピュータを動作させる
    ためのコンピュータプログラムを担持したコンピュータ
    読み取り可能なプログラム媒体。
JP33921398A 1998-11-30 1998-11-30 話者照合方法及び装置 Expired - Fee Related JP3422702B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP33921398A JP3422702B2 (ja) 1998-11-30 1998-11-30 話者照合方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP33921398A JP3422702B2 (ja) 1998-11-30 1998-11-30 話者照合方法及び装置

Publications (2)

Publication Number Publication Date
JP2000163092A JP2000163092A (ja) 2000-06-16
JP3422702B2 true JP3422702B2 (ja) 2003-06-30

Family

ID=18325326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP33921398A Expired - Fee Related JP3422702B2 (ja) 1998-11-30 1998-11-30 話者照合方法及び装置

Country Status (1)

Country Link
JP (1) JP3422702B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
JP2009163555A (ja) 2008-01-08 2009-07-23 Omron Corp 顔照合装置
JP6377921B2 (ja) * 2014-03-13 2018-08-22 綜合警備保障株式会社 話者認識装置、話者認識方法及び話者認識プログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
中村篤,擬似的学習データを用いた単語スポッティング用ガーベジモデルの学習法,電子情報通信学会技術研究報告[音声],1995年12月22日,SP95−107,p.99−104
易傑,他,HMMの状態または分布の多元共有に関する検討,日本音響学会平成8年度春季研究発表会講演論文集,1996年 3月26日,3−5−16,p.139−140
磯部俊洋,高橋淳一,中村太一,局所的音響情報を用いて合成した背景話者モデルに基づく話者照合,電子情報通信学会論文誌D−11,日本,2000年11月25日,D−11 Vol.J79−D−11 No8,p.2370−2378
磯部俊洋,高橋淳一,話者照合におけるHMMの局所的音響情報に基づく尤度正規化,電子情報通信学会技術研究報告[音声],日本,1998年12月10日,SP98−105,p.69−74

Also Published As

Publication number Publication date
JP2000163092A (ja) 2000-06-16

Similar Documents

Publication Publication Date Title
Auckenthaler et al. Score normalization for text-independent speaker verification systems
JP3630216B2 (ja) 話者認証用確率的マッチング方法
Woo et al. The MIT mobile device speaker verification corpus: data collection and preliminary experiments
US20090171660A1 (en) Method and apparatus for verification of speaker authentification and system for speaker authentication
Reynolds Automatic speaker recognition: Current approaches and future trends
Chakroun et al. Robust text-independent speaker recognition with short utterances using Gaussian mixture models
Yoshizawa et al. Unsupervised speaker adaptation based on sufficient HMM statistics of selected speakers
JP2004199077A (ja) 音声処理のための、ガウスモデルを基にした動的時間伸縮のシステムと方法
Hébert et al. Phonetic class-based speaker verification.
Isobe et al. A new cohort normalization using local acoustic information for speaker verification
JP3422702B2 (ja) 話者照合方法及び装置
JP2007078943A (ja) 音響スコア計算プログラム
Gu et al. A hybrid score measurement for HMM-based speaker verification
Chaudhari et al. Transformation enhanced multi-grained modeling for text-independent speaker recognition.
JP2003330484A (ja) 音声認識装置及び音声認識方法
JP3090119B2 (ja) 話者照合装置、方法及び記憶媒体
JP4440414B2 (ja) 話者照合装置及び方法
JP4391179B2 (ja) 話者認識システム及び方法
CN112233659A (zh) 一种基于双层声学模型的快速语音识别方法
Sakti et al. Deep bottleneck features and sound-dependent i-vectors for simultaneous recognition of speech and environmental sounds
de Lima et al. On the use of PCA in GMM and AR-vector models for text independent speaker verification
JP3036509B2 (ja) 話者照合における閾値決定方法及び装置
BabaAli et al. Likelihood-maximizing-based multiband spectral subtraction for robust speech recognition
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
Isobe et al. Text-independent speaker verification using virtual speaker based cohort normalization

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100425

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120425

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130425

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees