JP2000099090A

JP2000099090A - 記号列を用いた話者認識方法

Info

Publication number: JP2000099090A
Application number: JP10268029A
Authority: JP
Inventors: Toshiaki Uchibe; 利明内部; Shingo Kuroiwa; 眞吾黒岩; Norio Higuchi; 宜男樋口
Original assignee: KDD Corp
Current assignee: KDDI Corp
Priority date: 1998-09-22
Filing date: 1998-09-22
Publication date: 2000-04-07

Abstract

(57)【要約】【課題】利用者本人を認識する精度が高く、また、あ
らゆる詐称者を棄却する効果が大きい話者認識方法を提
供すること。【解決手段】ＩＤやパスワード（例えば、暗証番号）
で用いられている数字、アルファベット等の記号のモデ
ル（話者モデル）を登録することにより、登録した記号
の組み合わせの発声により、登録して話者モデルを用い
て話者認識を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は話者認識方法に関
し、特に、音声により、利用者を特定しあるいは利用者
本人であるか否かを判定する記号列を用いた話者認識方
法に関する。

【０００２】

【従来の技術】話者認識方法の従来の技術を、図１３、
図１４を参照して説明する。従来は、特定の利用者のみ
が各個人の情報を扱うサービスを利用する場合の自動受
付手段として、図１３に示すように、ＩＤ（識別情報）
入力と本人確認との２ステップの操作を要していた。

【０００３】ＩＤの入力方法は、ボタンによるＩＤ番号
の入力や，ＩＤカードを用いるＩＤ識別による場合が一
般的である。

【０００４】本人確認手段は、ボタンによる暗証番号の
入力や、単語パスワード発声型あるいは装置が指定する
単語発声（任意単語指定発声型）による話者照合があ
る。

【０００５】単語パスワード発声型のモデルの登録方法
は、図１４に示す通りであり、発声内容を音素単位で推
定し、推定した音素列にしたがって、不特定話者音素モ
デルを連結して１つのモデルとして学習する。

【０００６】また、任意単語指定発声型のモデルの登録
方法は、音素単位あるいはそれに準ずる単位で構成され
るモデルを用いて行う。

【０００７】

【発明が解決しようとする課題】上述した従来の技術に
は、下記の問題点がある。 (1) ＩＤ入力と本人確認という２ステップの操作が必要
である。 (2) ボタンによるＩＤ番号や暗証番号の入力は、電話機
からプッシュボタン（以下、ＰＢと称す）で入力する場
合が考えられるが、プッシュ回線以外の電話機では使う
ことができない。 (3) ＩＤカードを用いるＩＤ識別は、カードを常に用意
する必要がある上、カードの紛失の危険性があり、また
遠隔操作ではカード読み取り機が必要となる。 (4) 従来の技術で本人確認を行う場合、暗証番号やパス
ワードの内容を傍受される危険性がある。また、パスワ
ードの発声は録音される危険性もあり、その変更は再度
発声してそれを登録する必要がある。 (5) 従来の話者認識方法のように、音素単位で話者認識
モデルの学習および照合を行おうとする場合、音素モデ
ルの精度が不十分であるため、音素列の推定と音素単位
のセグメンテーションが正しく行われないので、高い話
者認識性能が得られない。

【０００８】従って、本発明は上記問題点の解決を目的
とする。

【０００９】

【課題を解決するための手段】上記課題を解決するため
請求項１に係る発明は、記号を元とする集合の各記号の
特定話者による発声により、特定話者の記号毎のモデル
（以下、話者モデルと呼ぶ）を予め登録すること、話者
認識に際し、前記記号を組み合わせた記号列の対象話者
による発声により、前記話者モデルを用いて話者認識を
行うことを特徴とする。

【００１０】上記課題を解決するため請求項２に係る発
明は、前記集合が０と１から９までの１０個の数字の集
合、アルファベットの集合及び前記１０個の数字とアル
ファベットとの集合のうち、いずれかであることを特徴
とする。

【００１１】上記課題を解決するため請求項３に係る発
明は、話者モデルの登録に際し、装置で指定された記号
列が特定話者により発声されること、前記指定された記
号列の発声により、不特定話者の発声により学習した各
記号のモデル（以下、不特定話者モデルと呼ぶ）を用い
て、記号毎のモデルの学習と、学習したモデルの連結
と、連結したモデルの学習を行うことにより、各記号の
話者モデルを作成することを特徴とする。

【００１２】上記課題を解決するため請求項４に係る発
明は、話者モデルの登録に際し、任意の記号列が特定話
者により発声されること、前記任意の記号列の発声によ
り、不特定話者の発声により学習した各記号のモデル
（以下、不特定話者モデルと呼ぶ）を用いて、発声され
た記号列の推定と、推定した記号毎のモデルの学習と、
学習したモデルの連結と、連結したモデルの学習を行う
ことにより、各記号の話者モデルを作成することを特徴
とする。

【００１３】上記課題を解決するため請求項５に係る発
明は、発声された記号列の推定に、専用の音声認識用不
特定話者モデルを用いることを特徴とする。

【００１４】上記課題を解決するため請求項６に係る発
明は、話者認識に際し、対象話者により発声される記号
列が、特定話者固有の発声内容固定型記号列と、特定話
者が任意に決定し変更できる発声内容可変型記号列と、
話者認識時に装置が指定する発声内容指定型記号列との
うちいずれか１つであることを特徴とする。

【００１５】上記課題を解決するため請求項７に係る発
明は、話者認識に際し、対象話者により発声される記号
列が、特定話者固有の発声内容固定型記号列と、特定話
者が任意に決定し変更できる発声内容可変型記号列と、
話者認識時に装置が指定する発声内容指定型記号列との
うち、少なくとも２つの組み合わせであることを特徴と
する。

【００１６】上記課題を解決するため請求項８に係る発
明は、前記発声内容固定型記号列は、銀行口座番号、ク
レジットカード番号等のＩＤを表す記号列であり、この
記号列の発声により、話者の特定および照合を同時に行
うことを特徴とする。

【００１７】上記課題を解決するため請求項９に係る発
明は、前記発声内容可変型記号列は、暗証番号等のパス
ワードとして他人に知られない記号列であり、この記号
列の発声により、照合を行うことを特徴とする。

【００１８】上記課題を解決するため請求項１０に係る
発明は、前記発声内容指定型記号列は、照合時に毎回内
容が変えられる記号列であり、この記号列の発声によ
り、発声内容を傍受あるいは録音された場合にも有効な
照合を行うことを特徴とする。

【００１９】上記課題を解決するため請求項１１に係る
発明は、発声される記号列の推定および各記号の区間の
推定を行い、各区間毎に対応する記号の話者モデルおよ
び不特定話者モデルに対して計算されるスコアを全発声
区間で累積することにより話者スコアおよび不特定話者
スコアを求め、話者スコアを不特定話者スコアにより正
規化したスコアの閾値判定を行うことにより、話者が本
人であるか否かを判定することを特徴とする。

【００２０】上記課題を解決するため請求項１２に係る
発明は、発声された記号列の推定および各記号の区間の
推定に専用の音声認識用不特定話者モデルを用いること
を特徴とする。

【００２１】以上により、下記事項が達成される。 (1) ＩＤ入力はＩＤカードや特殊な装置を必要とするこ
となく、また、プッシュ回線以外の電話機からの利用を
可能にするために、ＩＤの発声により話者認識を行うこ
とができる。 (2) ＩＤ発声により利用者を特定する他に、予め利用者
が登録した発声と照合することで、本人確認を行うこと
で、暗証番号等による本人確認手段を省略することがで
きる。 (3) 音声により数字やアルファベット等の記号を登録す
ることで、ＩＤの他にも記号を組み合わせたパスワード
（数字の場合は暗証番号）を発声することで話者照合す
ることが可能であり、パスワードの変更も再度発声する
ことなく、組み合わせの変更を通知するのみで行うこと
が可能である。 (4) 装置が任意に指定した記号列を発声する照合方法に
より、従来の任意単語仕手発声型と同様に、利用者本人
の発声の録音を利用した詐称を防止することができる。 (5) 記号単位で話者認識モデルの学習および照合を行う
ことにより、発声内容およびセグメンテーションの推定
精度が高くなり、より高い話者認識性能が得られる。 (6) 話者モデルの登録に際し、発声された記号列の推定
に専用の音声認識用不特定話者モデルを用いることによ
り、記号列の推定がより高い精度で可能となる。 (7) 話者認識に際し、発声された記号列の推定および各
記号の区間の推定に専用の音声認識用不特定話者モデル
を用いることにより、精度の高い発生内容の推定が可能
となる。

【００２２】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。

【００２３】図１に本発明の実施形態例に係る話者認識
方法の一例を示し、図９に本発明の実施形態例に係る話
者認識装置のブロック構成例を示す。図９において、１
は音声の特徴抽出器、２は登録モード６と認識モードの
切換用スイッチ、３は認識モードの音声認識器、４は不
特定話者スコアの計算器、５は話者スコアの計算器、６
はスコア正規化器、７は話者判定器、８は不特定話者モ
デルの蓄積器、９は話者モデル選択用スイッチ、１０は
話者モデルとその閾値をセットにして蓄積した音声特徴
情報蓄積器、１１は登録モードの音声認識器、１２は話
者モデル作成器である。

【００２４】利用者はある種のサービスを受けるため
に、サービスを提供する装置あるいはシステムに対し、
予め発声により数字、アルファベット等の記号を登録す
る。登録方法の一例を図７に示す。装置が指定した登録
する記号を含む記号列の発声や、ＩＤの発声を複数回行
って各記号のモデルを学習することにより行う。図７に
おけるモデルは記号単位で構成されている。

【００２５】図７に示す登録方法では装置は、利用者が
発声して得られる記号列の音声信号は、特徴抽出器１に
おいてパラメータ変換され、スイッチ２を通して音声認
識器１１に与えられる。かくして発声された記号列を発
声データとして受けると、音声認識器１１により、発声
内容が未知か既知かを判定し（ステップＳ１１）、未知
の場合は、不特定話者モデル蓄積器８に蓄積されている
不特定話者モデル（予め不特定話者の発声により学習し
て得た各記号のモデル）を用いて、発声内容を推定する
（ステップＳ１２）。発声内容が既知の場合あるいは推
定したら、話者モデル作成器１２により、不特定話者モ
デルを用いて、発声された各記号毎のモデルの学習を行
い（ステップＳ１３）、更に、学習したモデルの連結
と、連結したモデルの学習を行う（ステップＳ１４）こ
とにより、各記号の話者モデルを作成する。各記号の話
者モデルはそれの閾値をセットにして音声特徴情報蓄積
器１０に蓄積される。

【００２６】照合方法の一例を図８に示す。音声認識に
際して、利用者が発声して得られる記号列の音声信号
は、特徴抽出器１においてパラメータ変換され、スイッ
チ２を通して音声認識器３に与えられる。かくして発声
された記号列を発声データとして受けると、音声認識器
３により、発声内容が未知か既知かを判定し（ステップ
Ｓ２１）、未知の場合は、不特定話者モデルを用いて発
声内容を推定する（ステップＳ２２）。発声内容が既知
の場合あるいは推定したら、音声認識器３により、不特
定話者モデルと発声データを用いて、発声された各記号
の区間を推定する（ステップＳ２３）。そして、不特定
話者スコア計算器４で、各区間毎に対応する各記号の不
特定話者モデルに対してスコアを計算し、各区間毎に求
めたスコアを全発声区間で累積することにより、不特定
話者スコアを計算する（ステップＳ２４）。また、話者
スコア計算器５で、各区間毎に対応する各記号の話者モ
デルに対してスコアを計算し、各区間毎に求めたスコア
を全発声区間で累積することにより、話者スコアを計算
する（ステップＳ２５）。次に、スコア正規化器６で、
割り算や引き算等の正規化処理を行って、話者スコアを
不特定話者スコアにより正規化する（ステップＳ２
６）。更に、話者判定器７において、正規化したスコア
に閾値判定を行うことにより、本人であるか否かを判定
する（ステップＳ２７）。話者スコアの計算および話者
判定に使用される話者モデルおよび閾値は、発声内容に
基づいて音声特徴情報蓄積器１０よりスイッチ９で選択
され、話者スコア計算器５および話者判定器７に与えら
れる。なお、通常は、発声内容の推定に際して、同時
に、発声された各記号の区間が推定される。

【００２７】話者認識を行うに当たり、例えば図１に示
すように行う。 (1) 図１において、装置の発声受付に対し、まず、利用
者は発声内容固定型の１つであるＩＤを発声する（ステ
ップＳ１）。例えば、銀行口座番号、クレジットカード
番号等のＩＤを発声する。 (2) ＩＤは利用者固有で通常不変あるため、ＩＤ発声を
音声認識器３において音声認識することにより、利用者
を特定することができる（ステップＳ２）。 (3) 更に、そのＩＤに対する利用者が登録した記号を、
ＩＤの記号列にしたがって組み合わせたモデルを装置が
用意し、そのモデルに対して本人らしさの度合を計算す
る（ステップＳ３）。 (4) 本人らしさの度合は、図８における正規化スコアを
用いる。 (5) 話者判定器７において本人らしさの度合が十分大き
い（他人である度合が十分小さい）と判定された場合、
話者照合が成功であり、パスワード等による本人確認は
行わずに、本人と判定し、サービスを開始する（ステッ
プＳ４）。 (6) 逆に、話者判定器７において本人らしさの度合が十
分小さい（他人である度合が十分大きい）と判定された
場合は、話者照合が失敗であり、この場合も、パスワー
ド等による本人確認は行わずに、詐称者と判定して棄却
し、終了する（ステップＳ５）。

【００２８】図１の話者認識において本人とも他人とも
判定しがたい場合がある。そのようま場合は、更に、図
４あるいは図５に示すように、利用者本人が予め記号を
組み合わせて設定したパスワードの発声（図４、発声内
容可変型）、あるいは、装置側が指定する記号列の発声
（図５、発声内容指定型）による方法を併用し、照合を
行うことができる。なお、照合が失敗したら再度発声さ
せて再照合し、ｎ回失敗したら終了するものとしてい
る。

【００２９】図４に示す例では、ＩＤ発声に対して本人
らしさが中ぐらいの場合、利用者本人が予め記号を組み
合わせて設定した暗証番号等のパスワードの発声を行わ
せ（ステップＳ６）、このパスワード発声に対して話者
照合を行う（ステップＳ７）。この話者照合において本
人らしさの度合が十分大きいと判定された場合は、話者
照合が成功でありサービスを開始する（ステップＳ
４）。しかし、本人らしさの度合が十分小さい場合は話
者照合が失敗であり、再度パスワードを発声させて話者
照合を行い、ｎ回以内に成功すればサービスを開始する
が、失敗がｎ回を越えたら詐称者と判定して棄却し、終
了する（ステップＳ８、Ｓ５）。

【００３０】図５に示す例では、ＩＤ発声に対して本人
らしさが中ぐらいの場合、装置側が指定する記号列の発
声を行わせ（ステップＳ６）、この記号列発声に対して
話者照合を行う（ステップＳ７）。この話者照合におい
て本人らしさの度合が十分大きいと判定された場合は、
話者照合が成功でありサービスを開始する（ステップＳ
４）。しかし、本人らしさの度合が十分小さい場合は話
者照合が失敗であり、再度同じか異なる記号列を指定し
て発声させ、話者照合を行う。ｎ回以内に成功すればサ
ービスを開始するが、失敗がｎ回を越えたら詐称者と判
定して棄却し、終了する（ステップＳ８、Ｓ５）。

【００３１】これらの発声内容固定型、発声内容可変型
及び発声内容指定型の組み合わせによる照合は、図４お
よび図５以外にも可能であり、アプリケーションの種類
（例えば、セキュリティや利便性）に応じて自由に組み
合わせできる。図６にその一例を示す。

【００３２】また、図２に示すように、利用者本人が予
め記号を組み合わせて設定したパスワードの発声（発声
内容可変型）単独により話者認識を行ったり、あるい
は、図３に示すように、装置側が指定する記号列の発声
（発声内容指定型）単独により話者認識を行うこともで
きる。

【００３３】図２に示す例では、話者認識は以下に示す
ように行われる。 (1) 装置の発声受付に対し、まず、利用者は発声内容可
変型の１つであるパスワードを発声する（ステップＳ
１）。例えば、暗証番号等を発声する。 (2) パスワードは利用者が自由に変更することができ、
変更に際しては、登録のために再度パスワードを発声す
る必要はなく、テキスト等でその記号列を予め装置側に
通知しておけば良い。このパスワード発声を音声認識器
３において音声認識することにより、利用者を特定する
ことができる（ステップＳ２）。 (3) 更に、そのパスワードに対する利用者が通知した記
号を、パスワードの記号列にしたがって組み合わせたモ
デルを装置が用意し、そのモデルに対して本人らしさの
度合を計算する（ステップＳ３）。 (4) 本人らしさの度合は、図８における正規化スコアを
用いる。 (5) 話者判定器７において本人らしさの度合が十分大き
いと判定された場合、話者照合が成功であり、本人と判
定し、サービスを開始する（ステップＳ４）。 (6) 逆に、話者判定器７において本人らしさの度合が十
分小さいと判定された場合は、話者照合が失敗であり、
詐称者と判定して棄却し、終了する（ステップＳ５）。

【００３４】図３に示す例では、話者認識は以下に示す
ように行われる。 (1) 装置の発声受付に対し、まず、利用者は装置が指定
する記号列を発声する（ステップＳ１）。 (2) この記号列の発声を音声認識器３において音声認識
することにより、利用者を特定することができる（ステ
ップＳ２）。 (3) 更に、利用者に指定した記号列にしたがって組み合
わせたモデルを装置が用意し、そのモデルに対して本人
らしさの度合を計算する（ステップＳ３）。 (4) 本人らしさの度合は、図８における正規化スコアを
用いる。 (5) 話者判定器７において本人らしさの度合が十分大き
いと判定された場合、話者照合が成功であり、本人と判
定し、サービスを開始する（ステップＳ４）。 (6) 逆に、話者判定器７において本人らしさの度合が十
分小さいと判定された場合は、話者照合が失敗であり、
詐称者と判定して棄却し、終了する（ステップＳ５）。

【００３５】ここで、記号列発声の例を示す。１２３４
５６７８９０という数字列であれば、イチ、ニイ、サ
ン、シー、ゴー、ロク、シチ、ハチ、キュー、ゼロ（あ
るいはワン、ツー、ツリー、フォー、ファイブ、シック
ス、セブン、エイト、ナイン、ゼロ）と発声する。ａｂ
ｃｄｅｆｇｈというアルファベットの文字列であれば、
エイ、ビー、シー、ディー、イー、エフ、ジー、エイチ
と発声する。１２３４ｅｆｇｈという記号列であれば、
イチ、ニイ、サン、シー（あるいはワン、ツー、ツリ
ー、フォー）、イー、エフ、ジー、エイチと発声する。

【００３６】以上の説明においては、話者モデルの登録
に際し、図７に示す例では発声内容の推定（ステップＳ
１２）、モデルの学習（ステップＳ１３）およびモデル
内連結学習（ステップＳ１４）に共通の不特定話者モデ
ルを用いたが、図１０に示すように、発声内容の推定
（ステップＳ１２）には音声認識用の不特定話者モデル
を用い、モデルの学習（ステップＳ１３）およびモデル
内連結学習（ステップＳ１４）には話者照合用の不特定
話者モデルを用いることができる。また、話者照合に際
し、図８に示す例では発声内容の推定（ステップＳ２
２）、各記号の区間推定（ステップＳ２３）および不特
定話者スコア計算（ステップＳ２４）に共通の不特定話
者モデルを用いたが、図１１に示すように、発声内容の
推定（ステップＳ２２）および各記号の区間推定（ステ
ップＳ２３）は音声認識用の不特定話者モデルを用い、
不特定話者スコア計算（ステップＳ２４）には話者照合
用の不特定話者モデルを用いることができる。

【００３７】ここで、音声認識用の不特定話者モデルと
は、音声の特徴抽出に際して話者性を排除したパラメー
タ変換を行い、学習等で得た不特定話者モデルである。
話者性の排除には、ＭＳＣＣ等のパラメータ変換が用い
られる。一方、話者照合用の不特定話者モデルとは、音
声の特徴抽出に際して話者性を反映したパラメータ変換
を行い、学習等で得た不特定話者モデルである。話者性
の反映には、ＬＰＣケプストラム等のパラメータ変換が
用いられる。

【００３８】従って、図１０に示すように、登録時の発
声内容の推定（ステップＳ１２）において発声内容推定
専用の音声認識用不特定話者モデルを用いる場合は、話
者性を反映しない特徴量を用いることになるので、より
精度の高い発声内容の推定が可能となる。また、図１１
に示すように、話者照合時の発声内容の推定（ステップ
Ｓ２２）および各記号の区間推定（ステップＳ２３）は
おいて発声内容推定専用の音声認識用不特定話者モデル
を用いる場合は、登録時と同様に話者性を反映しない特
徴量を用いることになるので、より精度の高い発声内容
の推定が可能となる。

【００３９】図１２は、図１０に示した登録方法および
図１１に示した照合方法を実現する話者認識装置の構成
例を示し、図９に示した話者認識装置と比較すると、下
記点が異なる。 (1) 図９における不特定話者モデル蓄積部８を、話者性
を排除した音声認識用不特定話者モデルを蓄積する蓄積
部８と、話者性を反映した話者照合用不特定話者モデル
を蓄積する蓄積部１４の２つに分離してある。 (2) これに伴い、図９における特徴抽出部１を、ＭＳＣ
Ｃ等により話者性を排除したパラメータ変換を行う音声
認識用特徴抽出部１と、ＬＰＣケプストラム等により話
者性を反映したパラメータ変換を行う話者照合用特徴抽
出部１３の２つに分離してある。 (3) 登録時には、音声認識器１１は音声認識用特徴抽出
部１の出力と蓄積部８の音声認識用不特定話者モデルを
用いて、発声内容の推定を行う。話者モデル作成部１２
は話者照合用特徴抽出部１３の出力と、蓄積部１４の話
者照合用不特定話者モデルと発声内容を用いて、個々の
モデルの学習、モデルの連結および連結したモデルの学
習を行うことにより、記号毎に話者モデルを作成する。 (4) 照合時には、音声認識器３は音声認識用特徴抽出部
１の出力と蓄積部８の音声認識用不特定話者モデルを用
いて、発声内容の推定及び各記号の区間推定を行う。不
特定話者スコア計算部４は話者照合用特徴抽出部１３の
出力と、蓄積部１４の話者照合用不特定話者モデルと発
声内容を用いて、不特定話者スコアを計算する。話者ス
コア計算部５は話者照合用特徴抽出部１３の出力と、ス
イッチ９を通して得られる音声特徴情報蓄積部１０の話
者モデルおよび閾値を用いて、話者スコアを計算する。 (5) このように、未知の発声に対する発声内容の推定を
行う際に、発声内容専用の音声認識用不特定話者モデル
を用いることにより、発声内容の推定、言い換えれば記
号列の推定がより高い精度で可能となる。 (6) また、未知の発声に対する発声内容の推定を行う際
に、音声認識用特徴抽出部１の出力を用いることによ
り、発声内容の推定がより高い精度で可能となる。

【００４０】

【発明の効果】以上により、本発明によれば、次のよう
な効果がある。 (1) ＩＤやパスワード（例えば、暗証番号）で用いられ
ている数字、アルファベット等の記号を登録することに
より、登録した記号の組み合わせによりＩＤやパスワー
ドの発声により話者照合することができる。 (2) ＩＤの発声のみで、利用者の特定および照合をする
ことが可能であるので、利便性が高い。 (3) 記号の組み合わせによる発声内容可変型のパスワー
ド発声等の場合、記号の組み合わせにより無数のパスワ
ードが構成できるため、従来の単語パスワード発声の場
合と同様に、パスワードの内容を他人に知られない限
り、他人を受理する危険性が極めて小さい。 (4) 従来の単語パスワードの発声と比較すると、パスワ
ードを変更する際には書面等でその記号列を通知するだ
け、再発声する必要がなく、テキストによるパスワード
の変更と同様に利便性が高い。 (5) 発声する記号列を装置が指定する発声内容指定型の
発声の場合、録音音声を棄却する有効な手法として従来
の任意単語の発声を指定する場合と同様であるが、任意
単語の発声と比べて認識精度が向上する。 (6) 以上により、利用者本人を認識する精度が高くな
り、また、あらゆる詐称者を棄却する効果が大きい。 (7) 特に数字（０と１から９）を用いる場合が、記号数
（モデル数）が１０個と少ないので照合計算が容易であ
るのに対し、数字列の桁数を多くすれば多数の記号列が
得られるから、利用者本人を認識する精度が高くなり、
また、あらゆる詐称者を棄却する効果が大きい。 (8) 話者モデルの登録に際し、発声された記号列の推定
に専用の音声認識用不特定話者モデルを用いることによ
り、記号列の推定がより高い精度で可能となる。 (9) 話者認識に際し、発声された記号列の推定および各
記号の区間の推定に専用の音声認識用不特定話者モデル
を用いることにより、精度の高い発生内容の推定が可能
となる。

【図面の簡単な説明】

【図１】本発明の一実施形態例に係る話者認識方法を示
す図。

【図２】本発明の一実施形態例に係る話者認識方法を示
す図。

【図３】本発明の一実施形態例に係る話者認識方法を示
す図。

【図４】本発明の一実施形態例に係る話者認識方法を示
す図。

【図５】本発明の一実施形態例に係る話者認識方法を示
す図。

【図６】本発明の一実施形態例に係る話者認識方法を示
す図。

【図７】本発明の一実施形態例に係る登録方法を示す
図。

【図８】本発明の一実施形態例に係る照合方法を示す
図。

【図９】本発明の一実施形態例に係る話者認識装置を示
す図。

【図１０】本発明の一実施形態例に係る登録方法を示す
図。

【図１１】本発明の一実施形態例に係る照合方法を示す
図。

【図１２】本発明の一実施形態例に係る話者認識装置を
示す図。

【図１３】従来の話者認識方法を示す図。

【図１４】従来の登録方法を示す図。

【符号の説明】

１、１３特徴抽出器２スイッチ３、１１音声認識器４不特定話者スコア計算器５話者スコア計算器６スコア正規化器７話者判定器８、１４不特定話者モデル蓄積器９スイッチ１０音声特徴情報蓄積器１２話者モデル作成器

───────────────────────────────────────────────────── フロントページの続き (72)発明者樋口宜男東京都新宿区西新宿二丁目３番２号国際電信電話株式会社内Ｆターム(参考） 5B085 AE01 AE06 AE23 AE27 5D015 AA03 HH04

Claims

【特許請求の範囲】

【請求項１】記号を元とする集合の各記号の特定話者
による発声により、特定話者の記号毎のモデル（以下、
話者モデルと呼ぶ）を予め登録すること、話者認識に際
し、前記記号を組み合わせた記号列の対象話者による発
声により、前記話者モデルを用いて話者認識を行うこと
を特徴とする記号列を用いた話者認識方法。
【請求項２】前記集合が０と１から９までの１０個の
数字の集合、アルファベットの集合及び前記１０個の数
字とアルファベットとの集合のうち、いずれかであるこ
とを特徴とする請求項１に記載の記号列を用いた話者認
識方法。
【請求項３】話者モデルの登録に際し、装置で指定さ
れた記号列が特定話者により発声されること、前記指定
された記号列の発声により、不特定話者の発声により学
習した各記号のモデル（以下、不特定話者モデルと呼
ぶ）を用いて、記号毎のモデルの学習と、学習したモデ
ルの連結と、連結したモデルの学習を行うことにより、
各記号の話者モデルを作成することを特徴とする請求項
１または２に記載の記号列を用いた話者認識方法。
【請求項４】話者モデルの登録に際し、任意の記号列
が特定話者により発声されること、前記任意の記号列の
発声により、不特定話者の発声により学習した各記号の
モデル（以下、不特定話者モデルと呼ぶ）を用いて、発
声された記号列の推定と、推定した記号毎のモデルの学
習と、学習したモデルの連結と、連結したモデルの学習
を行うことにより、各記号の話者モデルを作成すること
を特徴とする請求項１または２に記載の記号列を用いた
話者認識方法。
【請求項５】発声された記号列の推定に専用の音声認
識用不特定話者モデルを用いることを特徴とする請求項
４に記載の記号列を用いた話者認識方法。
【請求項６】話者認識に際し、対象話者により発声さ
れる記号列が、特定話者固有の発声内容固定型記号列
と、特定話者が任意に決定し変更できる発声内容可変型
記号列と、話者認識時に装置が指定する発声内容指定型
記号列とのうちいずれか１つであることを特徴とする請
求項１から５いずれかに記載の記号列を用いた話者認識
方法。
【請求項７】話者認識に際し、対象話者により発声さ
れる記号列が、特定話者固有の発声内容固定型記号列
と、特定話者が任意に決定し変更できる発声内容可変型
記号列と、話者認識時に装置が指定する発声内容指定型
記号列とのうち、少なくとも２つの組み合わせであるこ
とを特徴とする請求項１から５いずれかに記載の記号列
を用いた話者認識方法。
【請求項８】前記発声内容固定型記号列は、銀行口座
番号、クレジットカード番号等のＩＤを表す記号列であ
り、この記号列の発声により、話者の特定および照合を
同時に行うことを特徴とする請求項６または７に記載の
記号列を用いた話者認識方法。
【請求項９】前記発声内容可変型記号列は、暗証番号
等のパスワードとして他人に知られない記号列であり、
この記号列の発声により、照合を行うことを特徴とする
請求項６または７に記載の記号列を用いた話者認識方
法。
【請求項１０】前記発声内容指定型記号列は、照合時
に毎回内容が変えられる記号列であり、この記号列の発
声により、発声内容を傍受あるいは録音された場合にも
有効な照合を行うことを特徴とする請求項６または７に
記載の記号列を用いた話者認識方法。
【請求項１１】発声される記号列の推定および各記号
の区間の推定を行い、各区間毎に対応する記号の話者モ
デルおよび不特定話者モデルに対して計算されるスコア
を全発声区間で累積することにより話者スコアおよび不
特定話者スコアを求め、話者スコアを不特定話者スコア
により正規化したスコアの閾値判定を行うことにより、
話者が本人であるか否かを判定することを特徴とする請
求項１から１０いずれかに記載の記号列を用いた話者認
識方法。
【請求項１２】発声された記号列の推定および各記号
の区間の推定に、専用の音声認識用不特定話者モデルを
用いることを特徴とする請求項１１に記載の記号列を用
いた話者認識方法。