JP2000099090A - 記号列を用いた話者認識方法 - Google Patents

記号列を用いた話者認識方法

Info

Publication number
JP2000099090A
JP2000099090A JP10268029A JP26802998A JP2000099090A JP 2000099090 A JP2000099090 A JP 2000099090A JP 10268029 A JP10268029 A JP 10268029A JP 26802998 A JP26802998 A JP 26802998A JP 2000099090 A JP2000099090 A JP 2000099090A
Authority
JP
Japan
Prior art keywords
speaker
symbol string
model
symbol
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10268029A
Other languages
English (en)
Inventor
Toshiaki Uchibe
利明 内部
Shingo Kuroiwa
眞吾 黒岩
Norio Higuchi
宜男 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDD Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDD Corp filed Critical KDD Corp
Priority to JP10268029A priority Critical patent/JP2000099090A/ja
Publication of JP2000099090A publication Critical patent/JP2000099090A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 利用者本人を認識する精度が高く、また、あ
らゆる詐称者を棄却する効果が大きい話者認識方法を提
供すること。 【解決手段】 IDやパスワード(例えば、暗証番号)
で用いられている数字、アルファベット等の記号のモデ
ル(話者モデル)を登録することにより、登録した記号
の組み合わせの発声により、登録して話者モデルを用い
て話者認識を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は話者認識方法に関
し、特に、音声により、利用者を特定しあるいは利用者
本人であるか否かを判定する記号列を用いた話者認識方
法に関する。
【0002】
【従来の技術】話者認識方法の従来の技術を、図13、
図14を参照して説明する。従来は、特定の利用者のみ
が各個人の情報を扱うサービスを利用する場合の自動受
付手段として、図13に示すように、ID(識別情報)
入力と本人確認との2ステップの操作を要していた。
【0003】IDの入力方法は、ボタンによるID番号
の入力や,IDカードを用いるID識別による場合が一
般的である。
【0004】本人確認手段は、ボタンによる暗証番号の
入力や、単語パスワード発声型あるいは装置が指定する
単語発声(任意単語指定発声型)による話者照合があ
る。
【0005】単語パスワード発声型のモデルの登録方法
は、図14に示す通りであり、発声内容を音素単位で推
定し、推定した音素列にしたがって、不特定話者音素モ
デルを連結して1つのモデルとして学習する。
【0006】また、任意単語指定発声型のモデルの登録
方法は、音素単位あるいはそれに準ずる単位で構成され
るモデルを用いて行う。
【0007】
【発明が解決しようとする課題】上述した従来の技術に
は、下記の問題点がある。 (1) ID入力と本人確認という2ステップの操作が必要
である。 (2) ボタンによるID番号や暗証番号の入力は、電話機
からプッシュボタン(以下、PBと称す)で入力する場
合が考えられるが、プッシュ回線以外の電話機では使う
ことができない。 (3) IDカードを用いるID識別は、カードを常に用意
する必要がある上、カードの紛失の危険性があり、また
遠隔操作ではカード読み取り機が必要となる。 (4) 従来の技術で本人確認を行う場合、暗証番号やパス
ワードの内容を傍受される危険性がある。また、パスワ
ードの発声は録音される危険性もあり、その変更は再度
発声してそれを登録する必要がある。 (5) 従来の話者認識方法のように、音素単位で話者認識
モデルの学習および照合を行おうとする場合、音素モデ
ルの精度が不十分であるため、音素列の推定と音素単位
のセグメンテーションが正しく行われないので、高い話
者認識性能が得られない。
【0008】従って、本発明は上記問題点の解決を目的
とする。
【0009】
【課題を解決するための手段】上記課題を解決するため
請求項1に係る発明は、記号を元とする集合の各記号の
特定話者による発声により、特定話者の記号毎のモデル
(以下、話者モデルと呼ぶ)を予め登録すること、話者
認識に際し、前記記号を組み合わせた記号列の対象話者
による発声により、前記話者モデルを用いて話者認識を
行うことを特徴とする。
【0010】上記課題を解決するため請求項2に係る発
明は、前記集合が0と1から9までの10個の数字の集
合、アルファベットの集合及び前記10個の数字とアル
ファベットとの集合のうち、いずれかであることを特徴
とする。
【0011】上記課題を解決するため請求項3に係る発
明は、話者モデルの登録に際し、装置で指定された記号
列が特定話者により発声されること、前記指定された記
号列の発声により、不特定話者の発声により学習した各
記号のモデル(以下、不特定話者モデルと呼ぶ)を用い
て、記号毎のモデルの学習と、学習したモデルの連結
と、連結したモデルの学習を行うことにより、各記号の
話者モデルを作成することを特徴とする。
【0012】上記課題を解決するため請求項4に係る発
明は、話者モデルの登録に際し、任意の記号列が特定話
者により発声されること、前記任意の記号列の発声によ
り、不特定話者の発声により学習した各記号のモデル
(以下、不特定話者モデルと呼ぶ)を用いて、発声され
た記号列の推定と、推定した記号毎のモデルの学習と、
学習したモデルの連結と、連結したモデルの学習を行う
ことにより、各記号の話者モデルを作成することを特徴
とする。
【0013】上記課題を解決するため請求項5に係る発
明は、発声された記号列の推定に、専用の音声認識用不
特定話者モデルを用いることを特徴とする。
【0014】上記課題を解決するため請求項6に係る発
明は、話者認識に際し、対象話者により発声される記号
列が、特定話者固有の発声内容固定型記号列と、特定話
者が任意に決定し変更できる発声内容可変型記号列と、
話者認識時に装置が指定する発声内容指定型記号列との
うちいずれか1つであることを特徴とする。
【0015】上記課題を解決するため請求項7に係る発
明は、話者認識に際し、対象話者により発声される記号
列が、特定話者固有の発声内容固定型記号列と、特定話
者が任意に決定し変更できる発声内容可変型記号列と、
話者認識時に装置が指定する発声内容指定型記号列との
うち、少なくとも2つの組み合わせであることを特徴と
する。
【0016】上記課題を解決するため請求項8に係る発
明は、前記発声内容固定型記号列は、銀行口座番号、ク
レジットカード番号等のIDを表す記号列であり、この
記号列の発声により、話者の特定および照合を同時に行
うことを特徴とする。
【0017】上記課題を解決するため請求項9に係る発
明は、前記発声内容可変型記号列は、暗証番号等のパス
ワードとして他人に知られない記号列であり、この記号
列の発声により、照合を行うことを特徴とする。
【0018】上記課題を解決するため請求項10に係る
発明は、前記発声内容指定型記号列は、照合時に毎回内
容が変えられる記号列であり、この記号列の発声によ
り、発声内容を傍受あるいは録音された場合にも有効な
照合を行うことを特徴とする。
【0019】上記課題を解決するため請求項11に係る
発明は、発声される記号列の推定および各記号の区間の
推定を行い、各区間毎に対応する記号の話者モデルおよ
び不特定話者モデルに対して計算されるスコアを全発声
区間で累積することにより話者スコアおよび不特定話者
スコアを求め、話者スコアを不特定話者スコアにより正
規化したスコアの閾値判定を行うことにより、話者が本
人であるか否かを判定することを特徴とする。
【0020】上記課題を解決するため請求項12に係る
発明は、発声された記号列の推定および各記号の区間の
推定に専用の音声認識用不特定話者モデルを用いること
を特徴とする。
【0021】以上により、下記事項が達成される。 (1) ID入力はIDカードや特殊な装置を必要とするこ
となく、また、プッシュ回線以外の電話機からの利用を
可能にするために、IDの発声により話者認識を行うこ
とができる。 (2) ID発声により利用者を特定する他に、予め利用者
が登録した発声と照合することで、本人確認を行うこと
で、暗証番号等による本人確認手段を省略することがで
きる。 (3) 音声により数字やアルファベット等の記号を登録す
ることで、IDの他にも記号を組み合わせたパスワード
(数字の場合は暗証番号)を発声することで話者照合す
ることが可能であり、パスワードの変更も再度発声する
ことなく、組み合わせの変更を通知するのみで行うこと
が可能である。 (4) 装置が任意に指定した記号列を発声する照合方法に
より、従来の任意単語仕手発声型と同様に、利用者本人
の発声の録音を利用した詐称を防止することができる。 (5) 記号単位で話者認識モデルの学習および照合を行う
ことにより、発声内容およびセグメンテーションの推定
精度が高くなり、より高い話者認識性能が得られる。 (6) 話者モデルの登録に際し、発声された記号列の推定
に専用の音声認識用不特定話者モデルを用いることによ
り、記号列の推定がより高い精度で可能となる。 (7) 話者認識に際し、発声された記号列の推定および各
記号の区間の推定に専用の音声認識用不特定話者モデル
を用いることにより、精度の高い発生内容の推定が可能
となる。
【0022】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。
【0023】図1に本発明の実施形態例に係る話者認識
方法の一例を示し、図9に本発明の実施形態例に係る話
者認識装置のブロック構成例を示す。図9において、1
は音声の特徴抽出器、2は登録モード6と認識モードの
切換用スイッチ、3は認識モードの音声認識器、4は不
特定話者スコアの計算器、5は話者スコアの計算器、6
はスコア正規化器、7は話者判定器、8は不特定話者モ
デルの蓄積器、9は話者モデル選択用スイッチ、10は
話者モデルとその閾値をセットにして蓄積した音声特徴
情報蓄積器、11は登録モードの音声認識器、12は話
者モデル作成器である。
【0024】利用者はある種のサービスを受けるため
に、サービスを提供する装置あるいはシステムに対し、
予め発声により数字、アルファベット等の記号を登録す
る。登録方法の一例を図7に示す。装置が指定した登録
する記号を含む記号列の発声や、IDの発声を複数回行
って各記号のモデルを学習することにより行う。図7に
おけるモデルは記号単位で構成されている。
【0025】図7に示す登録方法では装置は、利用者が
発声して得られる記号列の音声信号は、特徴抽出器1に
おいてパラメータ変換され、スイッチ2を通して音声認
識器11に与えられる。かくして発声された記号列を発
声データとして受けると、音声認識器11により、発声
内容が未知か既知かを判定し(ステップS11)、未知
の場合は、不特定話者モデル蓄積器8に蓄積されている
不特定話者モデル(予め不特定話者の発声により学習し
て得た各記号のモデル)を用いて、発声内容を推定する
(ステップS12)。発声内容が既知の場合あるいは推
定したら、話者モデル作成器12により、不特定話者モ
デルを用いて、発声された各記号毎のモデルの学習を行
い(ステップS13)、更に、学習したモデルの連結
と、連結したモデルの学習を行う(ステップS14)こ
とにより、各記号の話者モデルを作成する。各記号の話
者モデルはそれの閾値をセットにして音声特徴情報蓄積
器10に蓄積される。
【0026】照合方法の一例を図8に示す。音声認識に
際して、利用者が発声して得られる記号列の音声信号
は、特徴抽出器1においてパラメータ変換され、スイッ
チ2を通して音声認識器3に与えられる。かくして発声
された記号列を発声データとして受けると、音声認識器
3により、発声内容が未知か既知かを判定し(ステップ
S21)、未知の場合は、不特定話者モデルを用いて発
声内容を推定する(ステップS22)。発声内容が既知
の場合あるいは推定したら、音声認識器3により、不特
定話者モデルと発声データを用いて、発声された各記号
の区間を推定する(ステップS23)。そして、不特定
話者スコア計算器4で、各区間毎に対応する各記号の不
特定話者モデルに対してスコアを計算し、各区間毎に求
めたスコアを全発声区間で累積することにより、不特定
話者スコアを計算する(ステップS24)。また、話者
スコア計算器5で、各区間毎に対応する各記号の話者モ
デルに対してスコアを計算し、各区間毎に求めたスコア
を全発声区間で累積することにより、話者スコアを計算
する(ステップS25)。次に、スコア正規化器6で、
割り算や引き算等の正規化処理を行って、話者スコアを
不特定話者スコアにより正規化する(ステップS2
6)。更に、話者判定器7において、正規化したスコア
に閾値判定を行うことにより、本人であるか否かを判定
する(ステップS27)。話者スコアの計算および話者
判定に使用される話者モデルおよび閾値は、発声内容に
基づいて音声特徴情報蓄積器10よりスイッチ9で選択
され、話者スコア計算器5および話者判定器7に与えら
れる。なお、通常は、発声内容の推定に際して、同時
に、発声された各記号の区間が推定される。
【0027】話者認識を行うに当たり、例えば図1に示
すように行う。 (1) 図1において、装置の発声受付に対し、まず、利用
者は発声内容固定型の1つであるIDを発声する(ステ
ップS1)。例えば、銀行口座番号、クレジットカード
番号等のIDを発声する。 (2) IDは利用者固有で通常不変あるため、ID発声を
音声認識器3において音声認識することにより、利用者
を特定することができる(ステップS2)。 (3) 更に、そのIDに対する利用者が登録した記号を、
IDの記号列にしたがって組み合わせたモデルを装置が
用意し、そのモデルに対して本人らしさの度合を計算す
る(ステップS3)。 (4) 本人らしさの度合は、図8における正規化スコアを
用いる。 (5) 話者判定器7において本人らしさの度合が十分大き
い(他人である度合が十分小さい)と判定された場合、
話者照合が成功であり、パスワード等による本人確認は
行わずに、本人と判定し、サービスを開始する(ステッ
プS4)。 (6) 逆に、話者判定器7において本人らしさの度合が十
分小さい(他人である度合が十分大きい)と判定された
場合は、話者照合が失敗であり、この場合も、パスワー
ド等による本人確認は行わずに、詐称者と判定して棄却
し、終了する(ステップS5)。
【0028】図1の話者認識において本人とも他人とも
判定しがたい場合がある。そのようま場合は、更に、図
4あるいは図5に示すように、利用者本人が予め記号を
組み合わせて設定したパスワードの発声(図4、発声内
容可変型)、あるいは、装置側が指定する記号列の発声
(図5、発声内容指定型)による方法を併用し、照合を
行うことができる。なお、照合が失敗したら再度発声さ
せて再照合し、n回失敗したら終了するものとしてい
る。
【0029】図4に示す例では、ID発声に対して本人
らしさが中ぐらいの場合、利用者本人が予め記号を組み
合わせて設定した暗証番号等のパスワードの発声を行わ
せ(ステップS6)、このパスワード発声に対して話者
照合を行う(ステップS7)。この話者照合において本
人らしさの度合が十分大きいと判定された場合は、話者
照合が成功でありサービスを開始する(ステップS
4)。しかし、本人らしさの度合が十分小さい場合は話
者照合が失敗であり、再度パスワードを発声させて話者
照合を行い、n回以内に成功すればサービスを開始する
が、失敗がn回を越えたら詐称者と判定して棄却し、終
了する(ステップS8、S5)。
【0030】図5に示す例では、ID発声に対して本人
らしさが中ぐらいの場合、装置側が指定する記号列の発
声を行わせ(ステップS6)、この記号列発声に対して
話者照合を行う(ステップS7)。この話者照合におい
て本人らしさの度合が十分大きいと判定された場合は、
話者照合が成功でありサービスを開始する(ステップS
4)。しかし、本人らしさの度合が十分小さい場合は話
者照合が失敗であり、再度同じか異なる記号列を指定し
て発声させ、話者照合を行う。n回以内に成功すればサ
ービスを開始するが、失敗がn回を越えたら詐称者と判
定して棄却し、終了する(ステップS8、S5)。
【0031】これらの発声内容固定型、発声内容可変型
及び発声内容指定型の組み合わせによる照合は、図4お
よび図5以外にも可能であり、アプリケーションの種類
(例えば、セキュリティや利便性)に応じて自由に組み
合わせできる。図6にその一例を示す。
【0032】また、図2に示すように、利用者本人が予
め記号を組み合わせて設定したパスワードの発声(発声
内容可変型)単独により話者認識を行ったり、あるい
は、図3に示すように、装置側が指定する記号列の発声
(発声内容指定型)単独により話者認識を行うこともで
きる。
【0033】図2に示す例では、話者認識は以下に示す
ように行われる。 (1) 装置の発声受付に対し、まず、利用者は発声内容可
変型の1つであるパスワードを発声する(ステップS
1)。例えば、暗証番号等を発声する。 (2) パスワードは利用者が自由に変更することができ、
変更に際しては、登録のために再度パスワードを発声す
る必要はなく、テキスト等でその記号列を予め装置側に
通知しておけば良い。このパスワード発声を音声認識器
3において音声認識することにより、利用者を特定する
ことができる(ステップS2)。 (3) 更に、そのパスワードに対する利用者が通知した記
号を、パスワードの記号列にしたがって組み合わせたモ
デルを装置が用意し、そのモデルに対して本人らしさの
度合を計算する(ステップS3)。 (4) 本人らしさの度合は、図8における正規化スコアを
用いる。 (5) 話者判定器7において本人らしさの度合が十分大き
いと判定された場合、話者照合が成功であり、本人と判
定し、サービスを開始する(ステップS4)。 (6) 逆に、話者判定器7において本人らしさの度合が十
分小さいと判定された場合は、話者照合が失敗であり、
詐称者と判定して棄却し、終了する(ステップS5)。
【0034】図3に示す例では、話者認識は以下に示す
ように行われる。 (1) 装置の発声受付に対し、まず、利用者は装置が指定
する記号列を発声する(ステップS1)。 (2) この記号列の発声を音声認識器3において音声認識
することにより、利用者を特定することができる(ステ
ップS2)。 (3) 更に、利用者に指定した記号列にしたがって組み合
わせたモデルを装置が用意し、そのモデルに対して本人
らしさの度合を計算する(ステップS3)。 (4) 本人らしさの度合は、図8における正規化スコアを
用いる。 (5) 話者判定器7において本人らしさの度合が十分大き
いと判定された場合、話者照合が成功であり、本人と判
定し、サービスを開始する(ステップS4)。 (6) 逆に、話者判定器7において本人らしさの度合が十
分小さいと判定された場合は、話者照合が失敗であり、
詐称者と判定して棄却し、終了する(ステップS5)。
【0035】ここで、記号列発声の例を示す。1234
567890という数字列であれば、イチ、ニイ、サ
ン、シー、ゴー、ロク、シチ、ハチ、キュー、ゼロ(あ
るいはワン、ツー、ツリー、フォー、ファイブ、シック
ス、セブン、エイト、ナイン、ゼロ)と発声する。ab
cdefghというアルファベットの文字列であれば、
エイ、ビー、シー、ディー、イー、エフ、ジー、エイチ
と発声する。1234efghという記号列であれば、
イチ、ニイ、サン、シー(あるいはワン、ツー、ツリ
ー、フォー)、イー、エフ、ジー、エイチと発声する。
【0036】以上の説明においては、話者モデルの登録
に際し、図7に示す例では発声内容の推定(ステップS
12)、モデルの学習(ステップS13)およびモデル
内連結学習(ステップS14)に共通の不特定話者モデ
ルを用いたが、図10に示すように、発声内容の推定
(ステップS12)には音声認識用の不特定話者モデル
を用い、モデルの学習(ステップS13)およびモデル
内連結学習(ステップS14)には話者照合用の不特定
話者モデルを用いることができる。また、話者照合に際
し、図8に示す例では発声内容の推定(ステップS2
2)、各記号の区間推定(ステップS23)および不特
定話者スコア計算(ステップS24)に共通の不特定話
者モデルを用いたが、図11に示すように、発声内容の
推定(ステップS22)および各記号の区間推定(ステ
ップS23)は音声認識用の不特定話者モデルを用い、
不特定話者スコア計算(ステップS24)には話者照合
用の不特定話者モデルを用いることができる。
【0037】ここで、音声認識用の不特定話者モデルと
は、音声の特徴抽出に際して話者性を排除したパラメー
タ変換を行い、学習等で得た不特定話者モデルである。
話者性の排除には、MSCC等のパラメータ変換が用い
られる。一方、話者照合用の不特定話者モデルとは、音
声の特徴抽出に際して話者性を反映したパラメータ変換
を行い、学習等で得た不特定話者モデルである。話者性
の反映には、LPCケプストラム等のパラメータ変換が
用いられる。
【0038】従って、図10に示すように、登録時の発
声内容の推定(ステップS12)において発声内容推定
専用の音声認識用不特定話者モデルを用いる場合は、話
者性を反映しない特徴量を用いることになるので、より
精度の高い発声内容の推定が可能となる。また、図11
に示すように、話者照合時の発声内容の推定(ステップ
S22)および各記号の区間推定(ステップS23)は
おいて発声内容推定専用の音声認識用不特定話者モデル
を用いる場合は、登録時と同様に話者性を反映しない特
徴量を用いることになるので、より精度の高い発声内容
の推定が可能となる。
【0039】図12は、図10に示した登録方法および
図11に示した照合方法を実現する話者認識装置の構成
例を示し、図9に示した話者認識装置と比較すると、下
記点が異なる。 (1) 図9における不特定話者モデル蓄積部8を、話者性
を排除した音声認識用不特定話者モデルを蓄積する蓄積
部8と、話者性を反映した話者照合用不特定話者モデル
を蓄積する蓄積部14の2つに分離してある。 (2) これに伴い、図9における特徴抽出部1を、MSC
C等により話者性を排除したパラメータ変換を行う音声
認識用特徴抽出部1と、LPCケプストラム等により話
者性を反映したパラメータ変換を行う話者照合用特徴抽
出部13の2つに分離してある。 (3) 登録時には、音声認識器11は音声認識用特徴抽出
部1の出力と蓄積部8の音声認識用不特定話者モデルを
用いて、発声内容の推定を行う。話者モデル作成部12
は話者照合用特徴抽出部13の出力と、蓄積部14の話
者照合用不特定話者モデルと発声内容を用いて、個々の
モデルの学習、モデルの連結および連結したモデルの学
習を行うことにより、記号毎に話者モデルを作成する。 (4) 照合時には、音声認識器3は音声認識用特徴抽出部
1の出力と蓄積部8の音声認識用不特定話者モデルを用
いて、発声内容の推定及び各記号の区間推定を行う。不
特定話者スコア計算部4は話者照合用特徴抽出部13の
出力と、蓄積部14の話者照合用不特定話者モデルと発
声内容を用いて、不特定話者スコアを計算する。話者ス
コア計算部5は話者照合用特徴抽出部13の出力と、ス
イッチ9を通して得られる音声特徴情報蓄積部10の話
者モデルおよび閾値を用いて、話者スコアを計算する。 (5) このように、未知の発声に対する発声内容の推定を
行う際に、発声内容専用の音声認識用不特定話者モデル
を用いることにより、発声内容の推定、言い換えれば記
号列の推定がより高い精度で可能となる。 (6) また、未知の発声に対する発声内容の推定を行う際
に、音声認識用特徴抽出部1の出力を用いることによ
り、発声内容の推定がより高い精度で可能となる。
【0040】
【発明の効果】以上により、本発明によれば、次のよう
な効果がある。 (1) IDやパスワード(例えば、暗証番号)で用いられ
ている数字、アルファベット等の記号を登録することに
より、登録した記号の組み合わせによりIDやパスワー
ドの発声により話者照合することができる。 (2) IDの発声のみで、利用者の特定および照合をする
ことが可能であるので、利便性が高い。 (3) 記号の組み合わせによる発声内容可変型のパスワー
ド発声等の場合、記号の組み合わせにより無数のパスワ
ードが構成できるため、従来の単語パスワード発声の場
合と同様に、パスワードの内容を他人に知られない限
り、他人を受理する危険性が極めて小さい。 (4) 従来の単語パスワードの発声と比較すると、パスワ
ードを変更する際には書面等でその記号列を通知するだ
け、再発声する必要がなく、テキストによるパスワード
の変更と同様に利便性が高い。 (5) 発声する記号列を装置が指定する発声内容指定型の
発声の場合、録音音声を棄却する有効な手法として従来
の任意単語の発声を指定する場合と同様であるが、任意
単語の発声と比べて認識精度が向上する。 (6) 以上により、利用者本人を認識する精度が高くな
り、また、あらゆる詐称者を棄却する効果が大きい。 (7) 特に数字(0と1から9)を用いる場合が、記号数
(モデル数)が10個と少ないので照合計算が容易であ
るのに対し、数字列の桁数を多くすれば多数の記号列が
得られるから、利用者本人を認識する精度が高くなり、
また、あらゆる詐称者を棄却する効果が大きい。 (8) 話者モデルの登録に際し、発声された記号列の推定
に専用の音声認識用不特定話者モデルを用いることによ
り、記号列の推定がより高い精度で可能となる。 (9) 話者認識に際し、発声された記号列の推定および各
記号の区間の推定に専用の音声認識用不特定話者モデル
を用いることにより、精度の高い発生内容の推定が可能
となる。
【図面の簡単な説明】
【図1】本発明の一実施形態例に係る話者認識方法を示
す図。
【図2】本発明の一実施形態例に係る話者認識方法を示
す図。
【図3】本発明の一実施形態例に係る話者認識方法を示
す図。
【図4】本発明の一実施形態例に係る話者認識方法を示
す図。
【図5】本発明の一実施形態例に係る話者認識方法を示
す図。
【図6】本発明の一実施形態例に係る話者認識方法を示
す図。
【図7】本発明の一実施形態例に係る登録方法を示す
図。
【図8】本発明の一実施形態例に係る照合方法を示す
図。
【図9】本発明の一実施形態例に係る話者認識装置を示
す図。
【図10】本発明の一実施形態例に係る登録方法を示す
図。
【図11】本発明の一実施形態例に係る照合方法を示す
図。
【図12】本発明の一実施形態例に係る話者認識装置を
示す図。
【図13】従来の話者認識方法を示す図。
【図14】従来の登録方法を示す図。
【符号の説明】
1、13 特徴抽出器 2 スイッチ 3、11 音声認識器 4 不特定話者スコア計算器 5 話者スコア計算器 6 スコア正規化器 7 話者判定器 8、14 不特定話者モデル蓄積器 9 スイッチ 10 音声特徴情報蓄積器 12 話者モデル作成器
───────────────────────────────────────────────────── フロントページの続き (72)発明者 樋口 宜男 東京都新宿区西新宿二丁目3番2号 国際 電信電話株式会社内 Fターム(参考) 5B085 AE01 AE06 AE23 AE27 5D015 AA03 HH04

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 記号を元とする集合の各記号の特定話者
    による発声により、特定話者の記号毎のモデル(以下、
    話者モデルと呼ぶ)を予め登録すること、話者認識に際
    し、前記記号を組み合わせた記号列の対象話者による発
    声により、前記話者モデルを用いて話者認識を行うこと
    を特徴とする記号列を用いた話者認識方法。
  2. 【請求項2】 前記集合が0と1から9までの10個の
    数字の集合、アルファベットの集合及び前記10個の数
    字とアルファベットとの集合のうち、いずれかであるこ
    とを特徴とする請求項1に記載の記号列を用いた話者認
    識方法。
  3. 【請求項3】 話者モデルの登録に際し、装置で指定さ
    れた記号列が特定話者により発声されること、前記指定
    された記号列の発声により、不特定話者の発声により学
    習した各記号のモデル(以下、不特定話者モデルと呼
    ぶ)を用いて、記号毎のモデルの学習と、学習したモデ
    ルの連結と、連結したモデルの学習を行うことにより、
    各記号の話者モデルを作成することを特徴とする請求項
    1または2に記載の記号列を用いた話者認識方法。
  4. 【請求項4】 話者モデルの登録に際し、任意の記号列
    が特定話者により発声されること、前記任意の記号列の
    発声により、不特定話者の発声により学習した各記号の
    モデル(以下、不特定話者モデルと呼ぶ)を用いて、発
    声された記号列の推定と、推定した記号毎のモデルの学
    習と、学習したモデルの連結と、連結したモデルの学習
    を行うことにより、各記号の話者モデルを作成すること
    を特徴とする請求項1または2に記載の記号列を用いた
    話者認識方法。
  5. 【請求項5】 発声された記号列の推定に専用の音声認
    識用不特定話者モデルを用いることを特徴とする請求項
    4に記載の記号列を用いた話者認識方法。
  6. 【請求項6】 話者認識に際し、対象話者により発声さ
    れる記号列が、特定話者固有の発声内容固定型記号列
    と、特定話者が任意に決定し変更できる発声内容可変型
    記号列と、話者認識時に装置が指定する発声内容指定型
    記号列とのうちいずれか1つであることを特徴とする請
    求項1から5いずれかに記載の記号列を用いた話者認識
    方法。
  7. 【請求項7】 話者認識に際し、対象話者により発声さ
    れる記号列が、特定話者固有の発声内容固定型記号列
    と、特定話者が任意に決定し変更できる発声内容可変型
    記号列と、話者認識時に装置が指定する発声内容指定型
    記号列とのうち、少なくとも2つの組み合わせであるこ
    とを特徴とする請求項1から5いずれかに記載の記号列
    を用いた話者認識方法。
  8. 【請求項8】 前記発声内容固定型記号列は、銀行口座
    番号、クレジットカード番号等のIDを表す記号列であ
    り、この記号列の発声により、話者の特定および照合を
    同時に行うことを特徴とする請求項6または7に記載の
    記号列を用いた話者認識方法。
  9. 【請求項9】 前記発声内容可変型記号列は、暗証番号
    等のパスワードとして他人に知られない記号列であり、
    この記号列の発声により、照合を行うことを特徴とする
    請求項6または7に記載の記号列を用いた話者認識方
    法。
  10. 【請求項10】 前記発声内容指定型記号列は、照合時
    に毎回内容が変えられる記号列であり、この記号列の発
    声により、発声内容を傍受あるいは録音された場合にも
    有効な照合を行うことを特徴とする請求項6または7に
    記載の記号列を用いた話者認識方法。
  11. 【請求項11】 発声される記号列の推定および各記号
    の区間の推定を行い、各区間毎に対応する記号の話者モ
    デルおよび不特定話者モデルに対して計算されるスコア
    を全発声区間で累積することにより話者スコアおよび不
    特定話者スコアを求め、話者スコアを不特定話者スコア
    により正規化したスコアの閾値判定を行うことにより、
    話者が本人であるか否かを判定することを特徴とする請
    求項1から10いずれかに記載の記号列を用いた話者認
    識方法。
  12. 【請求項12】 発声された記号列の推定および各記号
    の区間の推定に、専用の音声認識用不特定話者モデルを
    用いることを特徴とする請求項11に記載の記号列を用
    いた話者認識方法。
JP10268029A 1998-09-22 1998-09-22 記号列を用いた話者認識方法 Pending JP2000099090A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10268029A JP2000099090A (ja) 1998-09-22 1998-09-22 記号列を用いた話者認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10268029A JP2000099090A (ja) 1998-09-22 1998-09-22 記号列を用いた話者認識方法

Publications (1)

Publication Number Publication Date
JP2000099090A true JP2000099090A (ja) 2000-04-07

Family

ID=17452905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10268029A Pending JP2000099090A (ja) 1998-09-22 1998-09-22 記号列を用いた話者認識方法

Country Status (1)

Country Link
JP (1) JP2000099090A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010069650A (ko) * 2001-04-25 2001-07-25 백종관 숫자로 구성된 어휘를 인식하고 동시에 발성화자를인증하는 방법 및 그 시스템
JP2001306094A (ja) * 2000-04-25 2001-11-02 Animo:Kk 音声認証システム及び方法
JPWO2006087799A1 (ja) * 2005-02-18 2008-07-03 富士通株式会社 音声認証システム
JP2014182270A (ja) * 2013-03-19 2014-09-29 Yahoo Japan Corp 情報処理装置及び方法
JP2016017980A (ja) * 2014-07-04 2016-02-01 日本電信電話株式会社 声まね音声評価装置、声まね音声評価方法及びプログラム
WO2020171040A1 (ja) * 2019-02-18 2020-08-27 日本電気株式会社 声認証装置、声認証方法、及び、記録媒体
JP2021033315A (ja) * 2019-08-13 2021-03-01 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306094A (ja) * 2000-04-25 2001-11-02 Animo:Kk 音声認証システム及び方法
KR20010069650A (ko) * 2001-04-25 2001-07-25 백종관 숫자로 구성된 어휘를 인식하고 동시에 발성화자를인증하는 방법 및 그 시스템
JPWO2006087799A1 (ja) * 2005-02-18 2008-07-03 富士通株式会社 音声認証システム
JP4672003B2 (ja) * 2005-02-18 2011-04-20 富士通株式会社 音声認証システム
JP2014182270A (ja) * 2013-03-19 2014-09-29 Yahoo Japan Corp 情報処理装置及び方法
JP2016017980A (ja) * 2014-07-04 2016-02-01 日本電信電話株式会社 声まね音声評価装置、声まね音声評価方法及びプログラム
WO2020171040A1 (ja) * 2019-02-18 2020-08-27 日本電気株式会社 声認証装置、声認証方法、及び、記録媒体
JPWO2020171040A1 (ja) * 2019-02-18 2021-12-16 日本電気株式会社 声認証装置、声認証方法、及び、記録媒体
JP7215563B2 (ja) 2019-02-18 2023-01-31 日本電気株式会社 声認証装置、声認証方法、及び、記録媒体
JP2021033315A (ja) * 2019-08-13 2021-03-01 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP7326983B2 (ja) 2019-08-13 2023-08-16 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Similar Documents

Publication Publication Date Title
JP6394709B2 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
US10013985B2 (en) Systems and methods for audio command recognition with speaker authentication
US6401063B1 (en) Method and apparatus for use in speaker verification
JP4672003B2 (ja) 音声認証システム
US6691089B1 (en) User configurable levels of security for a speaker verification system
Larcher et al. The RSR2015: Database for text-dependent speaker verification using multiple pass-phrases
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
US5913192A (en) Speaker identification with user-selected password phrases
EP0647344B1 (en) Method for recognizing alphanumeric strings spoken over a telephone network
US6272463B1 (en) Multi-resolution system and method for speaker verification
WO2017162053A1 (zh) 一种身份认证的方法和装置
JP2018527609A (ja) ユーザ声紋モデルを構築するための方法、装置、及びシステム
US20070219792A1 (en) Method and system for user authentication based on speech recognition and knowledge questions
Beigi Challenges of LargeScale Speaker Recognition
US6499012B1 (en) Method and apparatus for hierarchical training of speech models for use in speaker verification
JP2000099090A (ja) 記号列を用いた話者認識方法
Maes et al. Conversational speech biometrics
Melin et al. CTT-bank: A speech controlled telephone banking system-an initial evaluation
CN1963918A (zh) 说话人模板的压缩、合并装置和方法,以及说话人认证
JP4245948B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
JP3818063B2 (ja) 個人認証装置
Nallagatla et al. Sequential decision fusion for controlled detection errors
KR100673834B1 (ko) 문맥 요구형 화자 독립 인증 시스템 및 방법
Mishra A vector quantization approach to speaker recognition
Phan et al. Multi-task Learning based Voice Verification with Triplet Loss

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031021