JPH10214095A

JPH10214095A - 話者認識装置

Info

Publication number: JPH10214095A
Application number: JP9015595A
Authority: JP
Inventors: Hiroaki Hattori; 浩明服部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1997-01-29
Filing date: 1997-01-29
Publication date: 1998-08-11
Anticipated expiration: 2017-01-29
Also published as: DE69814195D1; US6094632A; CA2227925A1; EP0856836B1; EP0856836A2; JP2991144B2; DE69814195T2; CA2227925C; EP0856836A3

Abstract

(57)【要約】【課題】本人の登録語標準パターンとの照合による話
者照合と、不特定話者の音声による発話内容照合を組み
合わせることにより、登録が簡単かつ記憶容量の少なく
て済む録音による詐称に頑健な話者照合装置を実現する
ものである。【解決手段】提示部１０２は、登録語と一緒に発声す
べき発声内容をあらわす指定テキストを音声、映像等を
用いて話者に提示する。指定テキストおよび話者の登録
語の音声が入力されると、発話テキスト確認部１０７は
指定テキストを受理する標準パターンに対応付けられた
音声パターンの発話内容が指定テキストと同一であるこ
とを確認し、類似度計算部１１１は、入力されたＩＤに
対応する話者標準パターンと登録語と対応付けられた音
声パターンとの類似度をめ、判定部１１２は、発話テキ
スト確認部１０７で指定テキストが発声されたことが確
認され、かつ、類似度計算部１１１で求められた類似度
があらかじめ定められた閾値よりも大きい場合、発話者
を話者ＩＤが示す話者であると判断する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声を用いて本人の
認識、認証を行なう話者認識装置、とくに未知話者があ
る登録話者と同一人物であるかを認証する話者照合に関
する。

【０００２】

【従来の技術】始めに図７を用いて話者照合を説明す
る。端子７０１には未知話者の音声が入力される。音声
分析部７０２は入力された音声を音響分析し、特徴パラ
メータの時系列である入力パターンを作成する。個人情
報入力端子７０５には話者名あるいは話者ＩＤ等の話者
を特定するための情報が入力される。話者標準パターン
記憶部７０３は各登録話者の登録語の音響的特徴を表す
標準パターンが登録されている。類似度計算部７０４は
端子７０５に入力された情報により特定される話者の標
準パターンを標準パターン記憶部７０３から読みだし、
入力パターンとの類似度を計算する。判定部７０６は求
められた類似度をあらかじめ定められた閾値と比較し、
類似度が閾値よりも高ければ本人として受理、そうでな
ければ詐称者として棄却と判定を行ない、端子７０７へ
結果を出力する。

【０００３】この場合、登録時あるいは照合時の登録語
発声を録音することにより容易に詐称が可能となる。そ
こで、話者のすべての音素／音節等の標準パターンを登
録しておき、照合時にはシステムあるいはユーザが指定
した発声内容を受理するよう標準パターンを適宜連結
し、入力音声との類似度を求める方式が知られている
（特開平５−３２３９９０号公報「話者認識方式」、以
下、文献１）。

【０００４】以下では、図８を用いて文献１の方法につ
いて説明する。テキスト生成部８０１では発声内容を表
す指定テキストが生成される。提示部８０２にはテキス
ト生成部で作成された指定テキストが提示される。端子
８０３には音声が入力される。分析部８０４は入力され
た音声を音響分析し、特徴パラメータの時系列である入
力パターンを作成する。個人情報入力端子８０５には話
者名あるいは話者ＩＤ等の話者を特定するための情報が
入力される。話者標準パターン記憶部８０６には登録話
者の音素／音節の音響的特徴を表す標準パターンが蓄え
られている。類似度計算部８０７はテキスト生成部で生
成された指定テキストにしたがって、入力されたＩＤに
対応する話者の音素／音節の標準パターンを連結し、指
定テキストを受理する標準パターンを作成し、入力パタ
ーンとの類似度を計算する。判定部８０８は求められた
類似度があらかじめ定められた閾値よりも大きければ本
人と判定、そうでなければ詐称者として棄却と判定を行
ない端子８０９へ出力する。

【０００５】この方法によれば照合に用いる発話内容を
照合の度に変更することが可能となり前述の録音により
詐称することは困難となる。

【０００６】

【発明が解決しようとする課題】文献１の方法では登録
話者ごとに任意の発声内容を生成し得る音素／音節の音
響パターンを生成、保持しなければならないため、登録
時の話者への負担が大きいことと話者の標準パターンを
記憶する容量が膨大であるという問題がある。

【０００７】

【課題を解決するための手段】本発明の音声認識装置
は、未知話者が登録話者本人であるか否かを判断する話
者認識装置であって、発話内容を表す指定テキストと、
話者毎の登録語とを発声することを話者に指示し、前記
発話内容と、前記登録語と、話者を示すＩＤとを入力
し、前記発話内容が指定テキストと同一で、前記ＩＤに
対応する話者の音響的特徴と前記入力された登録語の音
響的特徴との類似度があらかじめ定められた閾値よりも
大きい場合に本人であると判定する。

【０００８】本発明は本人の登録語標準パターンとの照
合による話者照合と、不特定話者の音声による発話内容
照合を組み合わせることにより、登録が簡単かつ記憶容
量の少なくて済む録音による詐称に頑健な話者照合装置
を実現するものである。

【０００９】不特定話者の音声による発話内容の照合方
法としては渡辺他「音節認識を用いたゆう度補正による
未知発話のリジェクション」、電子情報通信学会論文
誌、Ｖｏｌ．Ｊ７５−Ｄ−ＩＩ，ＮＯ．１２，（１９９
２，１２）（以下文献２）が知られている。文献２では
入力音声と認識対象単語の標準パターンとの類似度を、
入力音声と任意の音声が受理可能な標準パターンとの類
似度で正規化し、閾値と比較することで、精度良く認識
対象外音声のリジェクトが行なえると述べられている。

【００１０】そこで、照合時に登録語の発声とシステム
により指定されたテキストの発声を行なわせ、登録語の
発声を用いて話者の照合を、指定テキストを用いて発声
内容の確認を行なうことで録音による詐称を防ぐことが
できる。たとえば、始めに「月日と登録語を続けて発声
してください」と話者に対して発声すべきテキストを提
示する。つぎに、不特定話者の音素／音節の音響的特徴
を表す標準パターンを連結し、その日の年月日を受理す
る標準パターンと、登録語を受理する標準パターンを作
成し、入力パターンとの時間軸対応付けを動的計画法
（例えば、迫江他、「動的計画法を利用した音声の時間
正規かに基づく連続単語認識」、音響学会誌、２７、
９、ｐｐ．４８３−５００、以下文献３）を用いて行な
い、年月日と対応付けられた音声パターンと登録語と対
応付けられた音声パターンに分割する。

【００１１】登録語を受理する標準パターンとしては、
その話者の登録語の発話内容が登録されて場合には、そ
の発話内容に従って音素／音節標準パターンを連結し、
その登録語を受理する標準パターンを作成する。例えば
月日が「１２月２５日（じゅうにがつにじゅうごに
ち）」、ある話者の登録語が「開け胡麻（ひらけご
ま）」である場合には、図５に示すような単語連鎖を受
理する標準パターンを作成する。発声内容の登録は平仮
名等で読み情報を与える他に、その話者の登録語と不特
定話者の任意語を受理する標準パターンの時間軸対応づ
けを行ない、音素／音節等の標準パターンの連鎖情報と
してあたえることが可能である。

【００１２】登録語の内容が登録されていない場合には
登録語の標準パターンとして任意の語を受理可能な図６
に示すような標準パターンを用いる。つぎに月日と対応
付けられた音声パターンを文献２に述べられている方法
により発声内容の確認を行なうために、年月日を受理す
る標準パターンとの類似度を任意の音声が受理可能な標
準パターンとの類似度を用いて正規化しあらかじめ定め
られた閾値よりも大きければ指定テキストが発声された
ものとして判断する。つぎに話者の登録語と対応付けら
れた音声パターンとその話者の標準パターンとの類似度
を求め、あらかじめ定められた閾値よりも大きく、か
つ、指定テキストが発声されたと判断された場合に本人
として受理、そうでなければ詐称者として棄却を行な
う。

【００１３】このようにすることで、話者の標準パター
ンとして登録しておくのは登録語の音響的特徴のみであ
るので、文献１のすべての音素／音節の音響的特徴を蓄
える方法にくらべ記憶容量が少ない話者照合装置が実現
できる。例えば音節を認識単位とした場合、日本語の音
節は拗音、外来語を含めると１００種類以上存在する
が、先の「開け胡麻」を登録語とする場合には／ひらけ
ごま／の５音節分の音響的特徴でよいため、記憶容量は
概算で５／１００以下となる。また、登録する音響的特
徴が少ないため、登録時に必要となる発声が少なくて済
み、話者への負担が小さいという利点がある。

【００１４】上記により単純な録音、再生による詐称に
対処することが可能であるが、より悪質な詐称者では指
定テキスト部についてはその場で発声し、録音編集によ
り切り出した登録語を再生することで詐称を企てること
が予想される。これに対処するためには、指定テキスト
と登録語が同一話者による発声であるかの検証が必要と
なる。例えば、指定テキストと登録語に対応付けられた
音声により話者照合を行なう方法が考えられる。一般に
指定テキストと登録語の発声内容はことなると考えられ
るので、この場合発話内容非依存の話者照合を行なうこ
ととなる。発話内容非依存の話者照合方式としては既に
提案されている種々の方法が利用可能であり、たとえ
ば、Ａ．Ｅ．ＲｏｓｅｎｂｅｒｇａｎｄＦ．Ｋ．
Ｓｏｏｎｇ，「ＥｖａｌｕａｔｉｏｎｏｆａＶｅｃ
ｔｏｒＱｕａｎｔｉｚａｔｉｏｎＴａｌｋｅｒＲ
ｅｃｏｇｎｉｔｉｏｎＳｙｓｔｅｍｉｎＴｅｘｔ
ＩｎｄｅｐｅｎｄｅｎｔａｎｄＴｅｘｔＤｅｐ
ｅｎｄｅｎｔＭｏｄｅｓ」，Ｐｒｏｃ．ｏｆＩＣ
ＡＳＳＰ８６，ｐｐ．８７３−８７６，（１９８６
−４）．（以下文献４）で用いられたベクトル量子化に
基づく方法や、ＤｏｕｇｌａｓＲｅｙｎｏｌｄｓ，
「Ｔｈｅｅｆｆｅｃｔｓｏｆｈａｎｄｓｅｔｖａ
ｒｉａｔｉｏｎｏｎｓｐｅａｋｅｒｒｅｃｏｇｎ
ｉｔｉｎｏｐｅｒｆｏｒｍａｎｃｅ：ｅｘｐｅｒｉｍｅ
ｎｔｓｏｎｔｈｅｓｗｉｔｃｈｂｏａｒｄｃｏ
ｒｐｕｓ，」Ｐｒｏｃ．ｏｆＩＣＡＳＳＰ９６，ｐ
ｐ．１１３−１１６，（１９９６）（以下文献５）で用
いられている隠れマルコフモデルに基づく方法等を用い
ることができる。

【００１５】一般には発話内容非依存の話者照合は発話
内容に関する情報を用いないので発話内容依存の話者照
合に比べ困難であるが、ここでは同一時期、同一環境で
発声された音声を用いた照合であるので、発話内容非依
存の話者照合でも十分な照合精度が得られる。

【００１６】また、話者の同一性を確認する別の方法と
しては、指定テキストと登録語に対応付けられた音声パ
ターンをそれぞれ定められた複数話者で発話内容非依存
の話者同定を行なうことにより確認する方法が考えられ
る。指定テキストと登録語の音声パターンが同一話者に
より発声されている場合、あらかじめ定められた複数の
話者との類似度を求めた場合、二つの音声パターンに対
する類似話者の傾向は同様となるはずである。したがっ
て、二つの音声パターンそれぞれに対し各話者の任意の
音声を受理する標準パターンとの類似度を求めることで
同一性を確認することができる。例えば、指定テキスト
と登録語に対応付けられた音声パターンのそれぞれにも
っとも類似した話者が一致する、あるいは、類似した話
者の上位５名の内、３名が一致する等の基準でしらべる
ことができる。さらに、各類似話者との類似度で順位に
重み付けする等、類似度の値を反映させることも可能で
ある。

【００１７】また、話者の同一性を確認する別の方法と
しては、指定テキストと対応付けられた音声パターンを
用いて不特定話者の音素／音節標準パターンを話者適応
化し、登録語に対応付けられた音声パターンの適応化前
の不特定話者の標準パターンとの類似度と、適応化後の
標準パターンと類似度を比較し、適応後の類似度の方が
おおきければ同一話者と判定することも可能である。こ
れは指定テキストと登録語に対応付けられた音声パター
ンが同一話者のものであれば、片方をもちいて話者適応
を行なった場合、他方の類似度も向上することを利用す
るものである。もちろん、逆に登録語に対応付けられた
音声パターンを用いて話者適応化を行なうことも可能で
ある。用いる話者適応方式としては指定テキストを用い
る場合や、登録語の発声内容が既知の場合には発声内容
依存の話者適応方式を用いることができる。また、発声
内容が未知である登録語を適応化に用いる場合には、一
旦、任意の音声を受理可能な標準パターンを用いて認識
を行ない発声内容を決定すれば良い。ここで用いる話者
適応方式としては種々のものが利用可能であり、例え
ば、篠田、「木構造化された確率分布を用いた話者適応
化」、日本音響学会講演論文誌、ｐｐ．２３−２４、
（１９９１．９）（以下、文献６）等を用いる。

【００１８】また、直接話者の同一性を確認するのでは
なく、指定テキストに対応付けられた音声パターンを用
いて、その話者の登録語の標準パターンを話者適応化
し、適応化後の標準パターンを用いて登録語に対応付け
られた音声パターンの照合に用いることにより、間接的
に指定テキストと登録語に対応付けられた音声パターン
の同一性を確認することも可能である。この場合、話者
適応により登録語に含まれる個人性情報が指定テキスト
を発声した話者のものとなるため、指定テキストと登録
テキストを発声した話者が同一であれば類似度が高くな
る。この場合、話者適応化後の登録語の標準パターンに
は登録話者の個人性情報が含まれなくなるため、話者適
応前の標準パターンと話者適応後の標準パターンの両者
との類似度を求め、それぞれ閾値との比較を行なう。話
者適応化方式としてはたとえば文献６の方式を用いる。
もちろん、直接話者の同一性を確認する手法と、話者適
応を用いて間接的に話者の同一性を確認する方法を併用
することも可能である。

【００１９】

【発明の実施の形態】本発明の第１の実施の形態を示す
ブロック図を図１に示す。

【００２０】テキスト生成部１０１は登録語と一緒に発
声すべき発声内容をあらわす指定テキストを生成する。
提示部１０２は前記指定テキストを音声、映像等を用い
て話者に提示する。端子１０３には指定テキストおよび
話者の登録語の音声が入力される。分析部１０４は入力
音声データを例えば１５ｍｓ毎に音響分析を行ない、音
響的特徴を表す音声パワーを含む特徴ベクトル系列に変
換する。特徴ベクトルとしては、例えば古井著、「ディ
ジタル音声処理」、東海大学出版会（以下文献７）にあ
げられているＦＦＴ分析、線形予測分析等により得られ
るケプストラム、ＬＰＣ係数、これらの時間変化量等が
利用可能である。不特定話者音声標準パターン記憶部１
０５は不特定話者の音素／音節等の音響的特徴を表す標
準パターンが蓄えられている。時間軸対応づけ部１０６
は前記音素／音節等の標準パターンを連結し、前記指定
テキストおよび登録語を受理する標準パターン作成し、
前記入力パターンと時間軸の対応付けを行ない、入力パ
ターンを指定テキストと対応付けられた音声パターン
と、登録語と対応づけられた音声パターンに分割する。
発話テキスト確認部１０７は前記指定テキストと対応付
けられた音声パターンの指定テキストを受理する標準パ
ターンとの類似度を、任意の音声を受理する標準パター
ンとの類似度により正規化し、あらかじめ定められた閾
値よりも正規化後の類似度が大きければ指定テキストが
発声されたものと判定する。

【００２１】話者標準パターン記憶部１１０には各話者
の登録後の音響的特徴を表す標準パターンが蓄えられて
いる。話者情報入力部１０９には話者を特定する名前、
話者番号等により特定された話者のＩＤが入力される。
類似度計算部１１１は、前記入力されたＩＤに対応する
話者標準パターンと前記登録語と対応付けられた音声パ
ターンとの類似度を例えば文献３に述べられている方法
により求める。判定部１１２は、発話テキスト確認部１
０７で指定テキストが発声されたことが確認され、か
つ、類似度計算部１１１で求められた類似度があらかじ
め定められた閾値よりも大きい場合、発話者を話者ＩＤ
が示す話者であると受理し、そうでない場合には詐称者
として棄却し、結果を端子１１３へ出力する。

【００２２】本発明の第２の実施の形態を示すブロック
図を図２に示す。

【００２３】第２の実施の形態は、第１の実施の形態に
更に、話者同一性確認部２０８を付加したものである。
話者同一性確認部２０８は前記指定テキストと対応付け
られた音声パターンと、前記登録語と対応づけられた音
声パターンを用いて、例えば、文献３および４に述べら
れているような発話内容に依存しない話者照合を行な
い、二つの音声パターンが同一話者により発話されたか
の判定を行なう。判定部２１２は、発話テキスト確認部
２０７で指定テキストが発声されたことが確認され、か
つ、話者同一性確認部で、入力が同一話者により発話さ
れたことが確認され、かつ、類似度計算部２１１で求め
られた類似度があらかじめ定められた閾値よりも大きい
場合、発話者を話者ＩＤが示す話者であると受理し、そ
うでない場合には詐称者として棄却し、結果を端子２１
３へ出力する。

【００２４】話者同一性確認部２０８の別の実現方法し
ては、前記指定テキストと対応付けられた音声パターン
と前記登録語と対応づけられた音声パターンのそれぞれ
を例えば文献４および５に述べられている発声内容非依
存の話者同定をあらかじめ定められた複数の話者セット
について行ない、それぞれの音声パターンの同定結果が
類似している場合に前記指定テキストと対応付けられた
音声パターンと前記登録語と対応づけられた音声パター
ンが同一話者により発話されたと判定を行なう。

【００２５】話者同一性確認部２０８のまた別の実現方
法しては、前記指定テキストと対応付けられた音声パタ
ーンを用いて、例えば文献６で述べられている話者適応
方式を用いて不特定話者の音素／音節標準パターンを用
いて指定テキストを発話した話者に適応化し、前記登録
語と対応づけられた音声パターンと話者適応化前と話者
適応後の標準パターンとの類似度を求め、類似度があら
かじめ定められた閾値よりも大きく改善された場合に、
前記指定テキストと対応付けられた音声パターンと前記
登録語と対応づけられた音声パターンとが同一話者によ
り発話されたと判定を行なう。

【００２６】本発明の第３の実施の形態を示すブロック
図を図３に示す。

【００２７】テキスト生成部３０１は登録語と一緒に発
声すべき発声内容をあらわす指定テキストを生成する。
提示部３０２は前記指定テキストを音声、映像等を用い
て話者に提示する。端子３０３には指定テキストおよび
話者の登録語の音声が入力される。分析部３０４は入力
音声データを例えば１５ｍｓ毎に音響分析を行ない、音
響的特徴を表す音声パワーを含む特徴ベクトル系列に変
換する。特徴ベクトルとしては、例えば古井著、「ディ
ジタル音声処理」、東海大学出版会（以下文献７）にあ
げられているＦＦＴ分析、線形予測分析等により得られ
るケプストラム、ＬＰＣ係数、これらの時間変化量等が
利用可能である。

【００２８】不特定話者音声標準パターン記憶部３０５
は不特定話者の音素／音節等の音響的特徴を表す標準パ
ターンが蓄えられている。時間軸対応付け部３０６は前
記音／素音節等の標準パターンを連結し、前記指定テキ
ストおよび登録語を受理する標準パターン作成し、前記
入力パターンと時間軸の対応付けを行ない、入力パター
ンを指定テキストと対応付けられた音声パターンと、登
録語と対応づけられた音声パターンに分割する。発話テ
キスト確認部３０７は前記指定テキストと対応付けられ
た音声パターンの指定テキストを受理する標準パターン
との類似度を、任意の音声を受理する標準パターンとの
類似度により正規化し、あらかじめ定められた閾値より
も正規化後の類似度が大きければ指定テキストが発声さ
れたものと判定する。話者標準パターン記憶部３１０は
各話者の登録後の音響的特徴を表す標準パターンが蓄え
られている。話者情報入力部３０９には話者を特定する
名前、話者番号等により特定された話者のＩＤが入力さ
れる。話者適応部３１４は、前記入力されたＩＤに対応
する話者標準パターンを前記指定テキストと対応付けら
れた音声パターンを用いて、例えば文献６に述べられて
いる話者適応方法を用いて適応化する。類似度計算部３
１１は話者適応部により話者適応化された標準パターン
と前記登録語と対応付けられた音声パターンとの類似度
である適応化後類似度と、話者適応前の標準パターンと
前記登録語と対応付けられた音声パターンとの類似度で
ある適応化前類似度を求める。判定部３１２は、発話テ
キスト確認部３０７で指定テキストが発声されたことが
確認され、かつ、前記話者適応化前類似度があらかじめ
定められた閾値よりも大きく、かつ、前記話者適応化後
類似度と前記話者適応化前類似度の差が別にあらかじめ
定められた閾値よりも大きい場合、発話者を話者ＩＤが
示す話者であると受理し、そうでない場合には詐称者と
して棄却し、結果を端子３１３へ出力する。

【００２９】本発明の第４の実施の形態を示すブロック
図を図４に示す。

【００３０】テキスト生成部４０１は登録語と一緒に発
声すべき発声内容をあらわす指定テキストを生成する。
提示部４０２は前記指定テキストを音声、映像等を用い
て話者に提示する。端子４０３には指定テキストおよび
話者の登録語の音声が入力される。分析部４０４は入力
音声データを例えば１５ｍｓ毎に音響分析を行ない、音
響的特徴を表す音声パワーを含む特徴ベクトル系列に変
換する。特徴ベクトルとしては、例えば古井著、「ディ
ジタル音声処理」、東海大学出版会（以下文献７）にあ
げられているＦＦＴ分析、線形予測分析等により得られ
るケプストラム、ＬＰＣ係数、これらの時間変化量等が
利用可能である。

【００３１】不特定話者音声標準パターン記憶部４０５
は不特定話者の音素／音節等の音響的特徴を表す標準パ
ターンが蓄えられている。時間軸対応付け部４０６は前
記音素／音節等の標準パターンを連結し、前記指定テキ
ストおよび登録語を受理する標準パターン作成し、前記
入力パターンと時間軸の対応付けを行ない、入力パター
ンを指定テキストと対応付けられた音声パターンと、登
録語と対応づけられた音声パターンに分割する。発話テ
キスト確認部４０７は前記指定テキストと対応付けられ
た音声パターンの指定テキストを受理する標準パターン
との類似度を、任意の音声を受理する標準パターンとの
類似度により正規化し、あらかじめ定められた閾値より
も正規化後の類似度が大きければ指定テキストが発声さ
れたものと判定する。話者同一性確認部４０８は前記指
定テキストと対応付けられた音声パターン前記登録語と
対応づけられた音声パターンを用いて、例えば、文献３
および４に述べられているような発話内容に依存しない
話者照合を行ない、二つの音声パターンが同一話者によ
り発話されたかの判定を行なう。

【００３２】話者同一性確認部４０８の別の実現方法し
ては、前記指定テキストと対応付けられた音声パターン
と前記登録語と対応づけられた音声パターンのそれぞれ
を例えば文献４および５に述べられている発声内容非依
存の話者同定をあらかじめ定められた複数の話者セット
について行ない、それぞれの音声パターンの同定結果が
類似している場合に前記指定テキストと対応付けられた
音声パターンと前記登録語と対応づけられた音声パター
ンが同一話者により発話されたと判定を行なう。

【００３３】話者同一性確認部４０８のまた別の実現方
法しては、前記指定テキストと対応付けられた音声パタ
ーンを用いて、例えば文献６で述べられている話者適応
方式を用いて不特定話者の音素／音節標準パターンを用
いて指定テキストを発話した話者に適応化し、前記登録
語と対応づけられた音声パターンと話者適応化前と話者
適応後の標準パターンとの類似度を求め、類似度があら
かじめ定められた閾値よりも大きく改善された場合に前
記指定テキストと対応付けられた音声パターンと、前記
登録語と対応づけられた音声パターンとが同一話者によ
り発話されたと判定を行なう。

【００３４】話者標準パターン記憶部４１０は各話者の
登録後の音響的特徴を表す標準パターンが蓄えられてい
る。話者情報入力部４０９には話者を特定する名前、話
者番号等により特定された話者のＩＤが入力される。話
者適応部４１４は、前記入力されたＩＤに対応する話者
標準パターンを前記指定テキストと対応付けられた音声
パターンを用いて、例えば文献６に述べられている話者
適応方法を用いて適応化する。類似度計算部４１１は話
者適応部により話者適応化された標準パターンと前記登
録語と対応付けられた音声パターンとの類似度である適
応化後類似度と、話者適応前の標準パターンと前記登録
語と対応付けられた音声パターンとの類似度である適応
化前類似度を求める。判定部４１２は、発話テキスト確
認部４０７で指定テキストが発声されたことが確認さ
れ、かつ、話者同一性確認部４０８で、同一話者により
発話がなされたことが確認され、かつ、前記話者適応化
前類似度があらかじめ定められた閾値よりも大きく、か
つ、前記話者適応化後類似度と前記話者適応化前類似度
の差が別にあらかじめ定められた閾値よりも大きい場
合、発話者を話者ＩＤが示す話者であると受理し、そう
でない場合には詐称者として棄却し、結果を端子４１３
へ出力する。

【００３５】

【発明の効果】本発明によれば、各登録話者の標準パタ
ーンとして登録語のみの音響的特徴を蓄えるだけで良い
ため、登録時の話者への負担が少なく、話者の標準パタ
ーンの記憶容量が少ない、録音による詐称に頑健な話者
認識装置が実現できる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態を示すブロック図で
ある。

【図２】本発明の第２の実施の形態を示すブロック図で
ある。

【図３】本発明の第３の実施の形態を示すブロック図で
ある。

【図４】本発明の第４の実施の形態を示すブロック図で
ある。

【図５】本発明の説明図である。

【図６】本発明の説明図である。

【図７】従来例のブロック図である。

【図８】従来例のブロック図である。

【符号の説明】１０１テキスト生成部１０２提示部１０３入力端子１０４分析部１０５不特定話者音声標準パターン記憶部１０６時間軸対応付け部１０７発話テキスト確認部１０９話者情報入力端子１１０話者標準パターン記憶部１１１類似度計算部１１２判定部１１３出力端子２０１テキスト生成部２０２提示部２０３入力端子２０４分析部２０５不特定話者音声標準パターン記憶部２０６時間軸対応付け部２０７発話テキスト確認部２０８話者同一性確認部２０９話者情報入力端子２１０話者標準パターン記憶部２１１類似度計算部２１２判定部２１３出力端子３０１テキスト生成部３０２提示部３０３入力端子３０４分析部３０５不特定話者音声標準パターン記憶部３０６時間軸対応付け部３０７発話テキスト確認部３０９話者情報入力端子３１０話者標準パターン記憶部３１１類似度計算部３１２判定部３１３出力端子３１４話者適応部４０１テキスト生成部４０２提示部４０３入力端子４０４分析部４０５不特定話者音声標準パターン記憶部４０６時間軸対応付け部４０７発話テキスト確認部４０８話者同一性確認部４０９話者情報入力端子４１０話者標準パターン記憶部４１１類似度計算部４１２判定部４１３出力端子４１４話者適応部７０１入力端子７０２音声分析部７０３話者標準パターン記憶部７０４類似度計算部７０５個人情報入力端子７０６判定部７０７出力端子８０１テキスト生成部８０２提示部８０３入力端子８０４分析部８０５個人情報入力端子８０６話者標準パターン記憶部８０７類似度計算部８０８判定部８０９出力端子

Claims

【特許請求の範囲】

【請求項１】未知話者が登録話者本人であるか否かを判
断する話者認識装置であって、発話内容を表す指定テキ
ストと、話者毎の登録語とを発声することを話者に指示
し、前記発話内容と、前記登録語と、話者を示すＩＤと
を入力し、前記発話内容が指定テキストと同一で、前記
ＩＤに対応する話者の音響的特徴と前記入力された登録
語の音響的特徴との類似度があらかじめ定められた閾値
よりも大きい場合に本人であると判定することを特徴と
する話者認識装置。
【請求項２】未知話者が登録話者本人であるか否かを判
断する話者認識装置であって、発話内容を表す指定テキ
ストと、話者毎の登録語とを発声することを話者に指示
し、前記発話内容と、前記登録語と、話者を示すＩＤと
を入力し、前記発話内容と前記登録語とが同一話者によ
る発声であり、前記発話内容が指定テキストと同一であ
り、前記ＩＤに対応する話者の音響的特徴と前記入力さ
れた登録語の音響的特徴との類似度があらかじめ定めら
れた閾値よりも大きい場合に本人であると判定すること
を特徴とする話者認識装置。
【請求項３】未知話者が登録話者本人であるかを認証す
る話者認識装置であって、発話内容を表す指定テキスト
を生成するテキスト生成部と、前記指定テキストを話者
毎の登録語と一緒に発声するよう話者に伝えるテキスト
提示部と、音声を入力する入力部と、話者を表すＩＤを
受けとる話者情報入力部と、不特定話者の任意の発話内
容を表現できる音素／音節等の音響的特徴の標準パター
ンが蓄えられている不特定話者音声標準パターン記憶部
と、複数の話者の登録語の音響的特徴が蓄えられている
話者標準パターン記憶部と、入力音声波形を分析し特徴
量を抽出して入力パターンへ変換する音声分析部と、前
記不特定話者音声標準パターン記憶部に蓄えられた音素
／音節等の標準パターンを連結し、前記指定テキストお
よび登録語を受理可能な標準パターンを作成し、前記入
力パターンとの時間軸対応づけを行なう時間軸対応付け
部と、前記時間軸対応付け部で前記指定テキストを受理
する標準パターンに対応づけられた音声パターンの発話
内容が指定テキストと同一であることを確認する発話テ
キスト確認部と、複数の話者の音響的特徴が蓄えられて
いる話者標準パターン記憶部と、前記話者標準パターン
記憶部に蓄えられている前記話者を表すＩＤに対応する
話者の標準パターンと、前記時間軸対応付け部で登録語
を受理可能なように連結された標準パターンと対応付け
られた音声パターンとの類似度を求める類似度計算部
と、前記発話テキスト確認部で指定テキストが発話され
たことが確認され、前記類似度計算部により計算された
類似度があらかじめ定められた閾値よりも大きい場合
に、本人であると判定する判定部とから構成されること
を特徴とする話者認識装置。
【請求項４】前記時間軸対応付け部で前記指定テキスト
を受理する標準パターンに対応付けられた音声パターン
と登録語を受理する標準パターンに対応づけられた音声
パターンが同一話者による発声であることを確認する話
者同一性確認部を更に備え、前記判定部は、前記発話テ
キスト確認部において指定テキストが発話されたこと及
び前記話者同一性確認部で指定テキストおよび登録語が
同一話者により発声されたことが確認され、前記類似度
計算部により計算された類似度があらかじめ定められた
閾値よりも大きい場合に、本人であると判定することを
特徴とする請求項３記載の話者認識装置。
【請求項５】未知話者が登録話者本人であるかを認証す
る話者認識装置であって、発話内容を表す指定テキスト
を生成するテキスト生成部と、前記指定テキストを話者
毎の登録語と一緒に発声するよう話者に伝えるテキスト
提示部と、音声を入力する入力部と、音声あるいはキー
ボード等により入力された話者を表すＩＤを受けとる話
者情報入力部と、複数の話者の登録語の音響的特徴が蓄
えられている話者標準パターン記憶部と、不特定話者の
任意の発話内容を表現できる音素／音節等の音響的特徴
の標準パターンが蓄えられている不特定話者音声標準パ
ターン記憶部と、入力音声波形を分析し特徴量を抽出し
て入力パターンへ変換する音声分析部と、前記不特定話
者音声標準パターン記憶部に蓄えらた音素／音節等の標
準パターンを連結し、前記指定テキストおよび登録語を
受理可能な標準パターンを作成し、入力パターンとの時
間軸対応づけを行なう時間軸対応付け部と、前記時間軸
対応付け部で前記指定テキストを受理する標準パターン
に対応づけられた音声パターンの発話内容が指定テキス
トと同一であることを確認する発話テキスト確認部と、
前記時間軸対応付け部で前記指定テキストを受理する標
準パターンに対応付けられた音声パターンを用いて前記
ＩＤに対応する話者の標準パターンを入力音声に適応化
させる話者適応部と、前記適応化後の話者標準パターン
と前記時間軸対応付け部で登録語を受理可能なように連
結された標準パターンと対応付けられた音声パターンと
の類似度である適応化後類似度と、前記適応化前の話者
標準パターンと前記時間軸対応付け部で登録語を受理可
能なように連結された標準パターンと対応付けられた音
声パターンとの類似度である適応化前類似度とを求める
類似度計算部と、前記発話テキスト確認部で指定テキス
トが発話されたことが確認され、前記適応化前類似度が
あらかじめ定められた閾値よりも大きく、前記適応化後
類似度が前記適応化前類似度よりもあらかじめ定められ
た別の閾値以上に大きい場合に、本人であると判定を行
なう判定部とから構成されることを特徴とする話者認識
装置。
【請求項６】前記時間軸対応付け部で前記指定テキスト
を受理する標準パターンに対応付けられた音声パターン
と登録語を受理する標準パターンに対応づけられた音声
パターンが同一話者による発声であることを確認する話
者同一性確認部を更に備え、前記判定部は、前記発話テ
キスト確認部において指定テキストが発話されたこと及
び前記話者同一性確認部で同一話者により指定テキスト
および登録語が発声されたことが確認され、前記適応化
前類似度があらかじめ定められた閾値よりも大きく、前
記適応化後類似度が前記適応化前類似度よりもあらかじ
め定められた別の閾値以上に大きい場合に、本人である
と判定することを特徴とする請求項５記載の話者認識装
置。
【請求項７】前記発話テキスト確認部は、前記前記指定
テキストを受理する標準パターンに対応づけられた音声
パターンの指定テキストのみを受理する標準パターンと
の類似度を、任意の音素／音節系列を受理可能な標準パ
ターンとの類似度により正規化し、正規化後の類似度が
あらかじめ定められた閾値よりも大きい場合に、発話内
容が指定テキストと同一であることを確認することを特
徴とする請求項３、４、５又は６記載の話者認識装置。
【請求項８】前記話者同一性確認部は、前記時間軸対応
付け部で前記指定テキストを受理する標準パターンに対
応付けられた音声パターンと登録語を受理する標準パタ
ーンに対応づけられた音声パターンの類似度を計算し、
あらかじめ定められた閾値と比較することにより同一話
者であることを確認することを特徴とする請求項４又は
６記載の話者認識装置。
【請求項９】前記話者同一性確認部は、前記時間軸対応
付け部で前記指定テキストを受理する標準パターンに対
応付けられた音声パターンと、登録語を受理する標準パ
ターンに対応づけられた音声パターンのそれぞれについ
て、あらかじめ定められた複数話者の各話者の任意の音
素／音節系列を受理可能な標準パターンとの類似度を求
め、前記二つの音声パターンの類似度の大きい話者の順
位を比較することで同一話者が発声しているかの確認を
行なうことを特徴とする請求項４又は６記載の話者認識
装置。
【請求項１０】前記話者同一性確認部は、前記時間軸対
応付け部で前記指定テキストを受理する標準パターンに
対応付けられた音声パターンと、登録語を受理する標準
パターンに対応づけられた音声パターンのどちらか一方
を用いて不特定話者の任意の音素／音節等の系列を受理
可能な標準パターンを話者適応化し、他方の音声パター
ンの話者適応化前の標準パターンとの類似度と話者適応
化後の標準パターンとの類似度の比較することで同一話
者が発声しているかの確認を行なうことを特徴とする請
求項４又は６記載の話者認識装置。
【請求項１１】前記時間軸対応付け部は前記登録語を受
理可能な標準パターンとして任意の音素／音素系列を受
理可能な標準パターンを用いることを特徴とする請求項
３、４、５、６、７、８、９又は１０記載の話者認識装
置。
【請求項１２】前記話者標準パターン記憶部は複数の話
者の登録語の音響的特徴および発声内容を蓄え、前記時
間軸対応づけ部は前記登録語を受理可能な標準パターン
として前記入力された話者ＩＤに対応した前記発声内容
を受理する標準パターンを用いることを特徴とする請求
項３、４、５、６、７、８、９又は１０記載の話者認識
装置。