JP3849841B2 - 話者認識装置 - Google Patents

話者認識装置 Download PDF

Info

Publication number
JP3849841B2
JP3849841B2 JP2000072911A JP2000072911A JP3849841B2 JP 3849841 B2 JP3849841 B2 JP 3849841B2 JP 2000072911 A JP2000072911 A JP 2000072911A JP 2000072911 A JP2000072911 A JP 2000072911A JP 3849841 B2 JP3849841 B2 JP 3849841B2
Authority
JP
Japan
Prior art keywords
voice
update
collation
speaker
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000072911A
Other languages
English (en)
Other versions
JP2001265385A (ja
Inventor
裕司 平山
牛田  博英
宏 中嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP2000072911A priority Critical patent/JP3849841B2/ja
Publication of JP2001265385A publication Critical patent/JP2001265385A/ja
Application granted granted Critical
Publication of JP3849841B2 publication Critical patent/JP3849841B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、話者認識装置に関するものである。
【0002】
【発明の背景】
コンピュータが行う本人確認の1つとして、従来から暗証番号やキーワードなどの予め登録した特定の指定情報を入力し、係る指定情報が登録しているものと一致する場合には本人であると判断するようにしたものが一般に行われている。しかし、係るシステムでは、指定情報が他人に知られたり、見破られたりした場合には、その指定情報を盗用され、悪用されてしまうおそれがある。
【0003】
そこで、身体的特徴(指紋,声紋,音声,瞳等)を利用して本人確認をする技術があり、その中の一つとして話者照合や話者識別等の話者認識がある。しかし、話者認識の場合には、「声の経年変化による照合精度の低下」を防ぐことが課題の一つとしてあり、係る課題を解決するためには、適切な時期に登録音声の更新(再登録)を行なう必要がある。係る更新をすることを目的とした従来技術としては、以下に示すものがある。
【0004】
すなわち、入力音声が本人と判定された場合に、自動的に登録音声を更新(再登録)するものがある(特開昭57−013493号公報)。この公報に開示された発明によれば、時々刻々とわずかに変化していく本人の音声に追従して登録音声を更新することができるので経年変化に強くなるという効果を奏する。
【0005】
しかし、話者認識の場合には、その精度を100%完全なものにすることは実際には困難であるので、他人を誤って本人と認識してしまうおそれがある。係る場合に、その他人の音声に基づいて登録音声が更新されてしまうことになり、以後、正規の利用者が本人として認証されなくなるばかりか、音声更新時の話者(他人)に正規の利用者の立場を乗っ取られてしまうという問題がある。
【0006】
また、本人が利用した場合であっても、やむを得ず風邪声など通常と異なる音声で更新してしまうと、風邪が治って通常の声に戻った後では正しく本人と認証されなくなるおそれがある。
【0007】
また、係る問題を解決するため、例えば、登録音声更新時に正規の利用者に直接確認をとった(例えば,正規利用者の連結先に電話して確認するなど)後で実際に更新処理をする発明がある(特開平9−127975号公報)。しかし、この公報に開示された発明では、その都度、確認手段で正規の利用者に連絡をとるため、処理が煩雑である。
【0008】
さらに、登録音声の更新を行うタイミングであるが、従来は定期的に更新するものがおおい。一方、更新回数が増えると、それだけ他人等による不正登録の可能性が高くなり、また、音声の経年変化をする時期(期間)も人によりばらつきがあり、定期的に設定した更新期間と、経年変化してしまう経過時間との設定がうまく行かず、更新期間のほうが長いと、正規の利用者本人の声が変化し認識できなくなるおそれがあり、逆に更新期間が短すぎると、更新回数の増加から、他人による登録音声の不正登録の機会を増やすことになり、いずれの場合も好ましくない。
【0009】
この発明による登録音声の更新に関して、適切なタイミングで登録音声の更新を行なうことができ、更新時における安全性を確保することのできる話者認識装置を提供することを目的とする。
【0010】
【課題を解決するための手段】
この発明による話者認識装置は、音声入力手段と、音声認識の基準となる登録音声情報を保持する音声情報格納手段と、その音声情報格納手段に格納された前記登録音声情報に含まれる特徴量と、前記入力音声手段から入力された音声情報の特徴量を比較し類似度を算出した照合スコア値が、第一の閾値より大きいか否かを判断することにより前記音声情報が正規の話者から発せられたものか否かを判断する音声照合手段とを備えた話者認識装置であって、前記音声照合手段により正規の話者から発せられたものと判断され、かつ前記音声照合手段における照合処理の際に求められる前記正規の話者らしさを示す照合スコア情報について、前回の前記照合スコア値から今回の前記照合スコア値を減算した値が第二の閾値より大きかった場合、前記音声情報格納手段に保持された登録音声情報の更新が必要であると判定する判定手段と、前記判定手段の判定結果により更新の必要ありと判定された場合、前記登録音声情報の更新をする更新手段とを備えるものである。
また、前記更新手段は、前記判定手段の判定結果により更新の必要ありと判定された場合、追加発話を促し、前記今回の照合スコア値と前記追加発話による追加照合スコア値との差分が大きいほど更新重みが小さくなるように設定して前記登録音声情報の更新をするように構成できる。
前記今回の照合スコア値が、あらかじめ設定された追加照合回数決定閾値より小さい場合は追加照合用発話回数を2回以上とし、前記追加照合回数決定閾値以上の場合は追加照合用発話回数を1回として、前記回数分の追加照合用の発話をさせ、前記追加照合用発話回数が2回以上であった場合、前記追加照合スコア値は発話回数の平均値をとるようにしてもよい。
前記差分が、あらかじめ設定された更新用発話回数決定閾値より小さい場合は更新用発話回数を2回以上とし、前記更新用発話回数決定閾値以上の場合は更新用発話回数を1回として、前記回数分の更新用の発話をさせ、前記更新用発話回数が2回以上であった場合、前記追加照合スコア値は発話回数の平均値を採り、前記登録音声情報の更新を行うようにしてもよい。
【0012】
登録された登録音声情報と、入力された今回発話された音声情報が非常に近いものの場合には、経年変化もなく、更新する必要が低いといえる。一方、本人が発話して得られた音声情報と、登録音声情報があまり似ていなくなると、経年変化が生じ、そのままでは本人であっても認識されなくなるおそれがあるので、登録音声情報の更新をする必要がある。そこで、照合スコア情報に基づいて更新の必要があるか否かを判定することにより、適切なタイミングで登録音声情報の更新を行なうことができ、経年変化に強くなる。さらに、無意味に定期的に更新をすることにより、他人の発話に基づいて更新処理がされてしまうことも防止できる。
【0013】
また、各構成要件と実施の形態との対応を採ると、音声入力手段は入力部1に、音声情報格納手段は音声データ格納部2に、判定手段は更新必要性判定部7に、更新手段は音声登録・管理部5にそれぞれ対応する。
【0014】
この発明の好ましい一実施態様においては、前記更新手段は、前記判定手段における前記照合スコア情報に基づいた判定結果が更新必要性有りで、かつ、話者からの更新処理の同意情報があることを条件に前記登録音声情報の更新をするようにすることである。このようにすると、例えば風邪声の場合など、利用者の声が更新には不適切な場合には更新を避けることができる。
【0015】
もっとも係る機能は必ずしも設けなくても良く、判定手段で更新の必要があると判断した場合にはそのまま更新処理を実行するようにしても良い。つまり、風邪声などで登録された場合、次回の通常の声に戻ったときに本人と認識されることにより、通常の声に基づいて再度登録音声情報の更新がされるならば、それ以降の認識は問題が無くなる。さらに、更新の判定条件は、上記の条件以外に付加することはかまわない。一例を示すと、通常よりも厳しく照合を行なうことによって登録音声更新に伴う危険を回避することなどもできる。
厳しく照合を行なうには、
(a)暗証情報照合との併用
音声の一致に加えて、パスワードや暗証番号など本人以外の者にはわからない知識を確認する;
(b)照合スコアの閾値変更
通常のときよりも閾値を厳しく設定する;
(c)照合回数を増やす
2回,3回と繰り返し照合を行ない、すべての照合で本人と判定された場合にのみ登録音声の更新を許す;
などの方法がある。
【0016】
また、更新時の発話の特徴量のばらつきにより登録音声の更新重みを設定し、更新前の登録音声情報も加味して新たな登録音声情報を生成しても良い。すると、たとえ他人の声で更新されてしまっても、更新前の本人の音声情報(特徴量)を残しておくことで正規の利用者が照合される可能性が残る。
【0017】
この発明で言う話者認識は、実施の形態で示した話者照合のみならず話者識別も含む。つまり、話者照合は、予め特定された一人の話者の登録音声情報と、入力音声情報を比較し、各々の音声の話者が同一であるか否かを判定する(1対1の認識)ので、一人の話者を特定するために、話者特定情報を入力する。一方、話者識別は、予め登録されている全ての話者の登録音声情報と入力された音声情報とを比較し、入力音声の話者がどの登録音声の話者と同一であるかを識別する(1対多の認識)ものである。
【0018】
この発明による話者認識装置を構成する各手段を専用のハードウエア回路によって実現することができるし、プログラムされたコンピュータによって実現することもできる。
【0019】
【発明の実施の形態】
図1は、本発明の好適な一実施の形態を示している。本システムでは、話者が発生する音声等の情報を入力部1を介して装置内に取り込み、音声データ格納部2に格納された話者特定情報の示す登録音声データ等の辞書情報に基づいて、利用中の話者が本人であるか否かの話者照合を行い、本人確認ができたならば所定のサービスを実行するものに適用される。そして、入力された音声データに基づいて、認識・照合処理する際の基準・辞書データとなる音声データ格納部2に登録された登録音声データの更新の必要の有無を判断し、必要な場合には更新処理をするようになっている。これにより、利用者の音声がたとえ経年変化したとしても、それに対応し、高い認識率を維持できる。具体的な構成は以下の通りである。
【0020】
まず、音声データ格納部2は、話者特定情報と登録音声データを対応付けて記憶保持するデータベースである。なお、登録音声データ(特徴量)のほかに、後述する入力理解部3による照合キーワード音声の認識結果をも対応づけて保持しておくことにより、登録音声更新時に照合キーワードとは異なるキーワード音声による更新を防止することもできる。例えば、登録した本人しかキーワードの内容を知らないようにしておけば、異なるキーワードで登録音声を更新しようとした利用者は本人ではない可能性があるため、その場合は登録音声の更新を中止することができる。
【0021】
そして、図1に示すように、入力部1により、話者が発声する音声を装置内に取り込むようになっている。この入力部1としては、例えばマイクや電話などを用いて取得された音声を取り込むものである。この入力部1によって装置内に取り込まれる音声としては、照合キーワード,話者特定情報(口座番号など),システムの質問に対する回答がある。すなわち、本形態では、話者特定情報の入力も音声を利用することで、入力部1が話者照合装置における音声入力手段と話者特定情報入力手段を兼用している。
【0022】
なお、照合キーワード以外の発話である話者特定情報とシステムからの質問に対する回答は、必ずしも音声で入力される必要はなく、例えば、電話のプッシュボタンで入力されてもよい。また、入力部1としては、少なくとも音声入力に対応する機能を有する必要があるが、音以外の入力に対応する機能をさらに有するようにしてもよい。一例としては、情報提供端末等の場合に、話者特定情報をテンキーなどのコンソールから入力する場合に、それに対応する入力機能を有することなどがある。
【0023】
この入力部1から入力された情報は、入力理解部3と、音声照合部4と音声登録・管理部5に与えられる。まず、入力理解部3は、入力部1から受け取った音声波形データの表す音声の文字情報を認識し、その文字列を所定の処理部に向けて出力するものである。具体的には、音声波形を周波数分析して得られた特徴量系列と予め用意された認識対象語句の特徴量系列とのパターンマッチングにより行なう。ここでは、暗証番号その他の各種番号を入力する際に必要となる「0〜9」の各数字と、ユーザ(話者)の回答として想定される「はい」や「いいえ」などの各語句を認識対象語句としてそれぞれ特徴量系列を用意する。
【0024】
もちろん、係る音声以外の入力として、例えばテキストを用いる場合には、入力内容であるテキストを正規化したものを認識結果とすることにより音声認識の場合と同様の結果が得られる。また、入力理解の結果(音声認識結果)によって、入力された照合キーワードが予め定められたものか、或いは、現在登録されているキーワードと一致するかを判定することも可能になる。なお、具体的な特徴量を用いたマッチング処理は、従来から行われているものをそのまま適用することができるので、具体例をあげた詳細な説明は省略する。
【0025】
また、音声照合部4は、音声データ格納部2に登録された話者特定情報の示す登録音声データと、入力部1や入力理解部3から入力された話者の音声データを比較して入力音声と登録音声の話者が同一であるか否かを判定する。
【0026】
一例としては、その判定を行なうための照合スコアを算出する。照合スコアは、−1.0から十1.0までの値をとる。そして、正の符号は、入力音声の話者が登録音声の(どちらかというと)話者本人であることを示し、負の符号は、どちらかというと他人であることを示している。また、絶対値は各符号で示された内容(本人または他人)の確からしさを示す。従って、正の値が大きいほど(1.0に近いほど)本人らしさが高いと言える。そして、求めた照合スコアと予め定めた閾値とを比較し、閾値よりも大きければ本人(閾値以下の場合は他人)と判断するようにしている。そして、その照合結果は、応答生成部6並びに更新必要性判定部7に与える。
【0027】
応答生成部6は、入力理解部3で行った入力理解結果や音声照合部4で行った音声照合結果や、後述する更新必要性判定部7で行った登録音声更新の要否判定結果に基づいてシステムの発話すべき内容を決定する。具体的には,システムの発する音声ガイダンスの内容や照合結果に応じて発話する内容を予めすべて記億しておき、そのときの入力理解結果・照合結果・更新要否判定結果に応じて適切な発話内容を選択する。そして、選択した発話内容(発話文)を出力部8に与えるようになっている。
【0028】
出力部8は、生成された発話文を音声に変換してスピーカやヘッドフォン,電話の受話器スピーカを利用して出力するものである。発話文を音声に変換するには、以下に示す各種の方式が採れる。
*録音編集方式
生成される可能性のある発話内容の全体、または、部分ごとに発話内容を読み上げた音声を録音しておき、出力時には、発話内容に対応する録音ファイルを再生して音声を出力するものである。
【0029】
*テキスト音声合成方式
既存技術として存在する音声合成エンジンを利用する。すなわち、発話内容を表す文字列を入力として与えると、その文字列の読み上げ音声を出力することができるものである。
【0030】
*録音編集とテキスト音声合成の組合せ方式
発話内容のうち、録音部品が用意されている部分は録音編集方式で発声出力をし、対応する録音部品が存在しない部分はテキスト音声合成により発声出力するものである。
【0031】
なお、出力部8としては、上記のように音声出力に限ることは無い。音声以外の出力としては、例えばテキストを用いることができる。この場合に、出力部8は発話内容をPC用ディスプレイ画面上に表示することができる。
【0032】
上記した入力部1からの入力に従って本人確認をし、出力部8から所定のメッセージを出力するための各部の構成は、基本的に従来のものによって実現できるので、その詳細な説明を省略する。
【0033】
ここで本発明では、更新必要性判定部7を設け、音声照合部4における照合結果に基づいて、認識する際の基準となる音声データを構成するか否かを判断するようにした。つまり、この更新必要性判定部7は、利用者の声の経年変化を検出し、その結果に基づき登録音声を更新する必要性を判定する。声の経年変化の検出は、照合スコアと入力音声・登録音声の各特徴量を参照して行なう(詳細は後述する)。
【0034】
そして、更新必要性判定部7が更新の必要ありと判断した場合には、その判断結果を音声登録・管理部5と応答生成部6に対して与える。応答生成部6は、更新をしても良いかの確認を利用者に促すメッセージを出力するので、それを受けた利用者が更新の同意をすると、その同意情報が音声登録・管理部5に与えられる(入力部1を介して直接或いは入力理解部3を経由して与えられる)。
【0035】
音声登録・管理部5は、利用者(話者)が更新登録に同意した場合に、話者が照合キーワードを発声した音声データを話者特定情報と対応づけて音声データ格納部2に登録する。これにより、音声データ格納部2に格納されたデータ内容の更新が成され、経時変化に追従して対応することになる。
【0036】
次に、このシステムの全体の動作を図2,図3に示すフローチャートを用いながら説明しつつ、必要に応じて各処理部の詳細な機能を説明する。また、各機能の理解を容易にするため、具体例を適宜引用しながら説明する。引用する具体例としては、次のような話者照合装置を考える。つまり、電話による音声入出力をするもので、話者特定番号として9桁の口座番号を使用し、照合キーワードとして4桁の暗証番号を使用するものとする。そして、音声入力された照合キーワードに基づいて話者照合を行う(本人確認後は、所定のサービスその他の各処理を実施することになる)。さらに、この話者照合の結果に基づいて照合する際の基準となる登録音声データの更新の有無を判断し、必要に応じて更新処理をするようになっている。
【0037】
まず、話者特定情報入力処理を実行する(ST1)。すなわち、利用者(話者)に対して、話者特定情報の入力を促す。具体的には、応答生成部6が、予め記憶された発話内容の中から「お電話ありがとうございます。まず、お客さまの口座番号をおっしゃってください」という発話を取り出し、出力部8によりその発話を出力する。これを受けた利用者は、口座番号(例えば、「596384107」)を音声で発話したり、電話機のプッシュボタンによって入力する。
【0038】
音声入力の場合には、入力部1が、音声波形として利用者の発話を装置に取り込むとともに、入力理解部3に渡し、そこにおいて音声波形データを予め用意された数字の音素特徴量系列と比較することにより、発話された数字列を認識する。また、プッシュボタン入力の場合、入力部1は、数字列に対応するトーン信号を装置に取り込むとともに、入力理解部3に渡し、そこにおいて入力されたトーン信号を予め用意された数字の信号波形と比較することにより入力された数字列を認識する。
【0039】
次に、照合キーワード入力処理を実行する(ST2)。つまり、応答生成部6が、予め用意された発話内容の中から「お客様の照合キーワードをおっしゃってください」という発話を取り出し、出力部8がその内容を音声として出力する。これを受けた利用者は、照合キーワード(暗証番号)を発話するので、この発話された照合キーワードの音声データ(例えば「4107」)が、入力部1によって装置に取り込まれ、音声照合部4に渡される。
【0040】
次いで、話者照合処理に移行する。まず、照合スコアを計算する(ST3)。すなわち、音声照合部4が、入力理解部3から与えられた口座番号(話者特定惰報)の認識結果をキーとして音声データ格納部2をアクセスし、該当する登録音声データを取得する。つまり、音声データ格納部2は、図4に示すようなデータ構造となっているので、「596384107」に対応する「よんいちぜろなな」(本人が、4107を発生した時の音声データ)を取得する。この登録音声データは、音声データそのものであっても良いし、そこから抽出された特徴量であっても良い。そして、その取得した登録音声データの特徴量と、入力された音声データの特徴量とを比較し、似ている程度を示す照合スコア(−1.0〜+1.0の値)を算出する。なお、この照合スコアを算出する認識・照合アルゴリズムは、従来からある各種のものを適用できる。
【0041】
さらに、音声照合部4は、算出した照合スコア値に基づいて登録音声の話者と入力音声の話者が同一であるか否か、すなわち利用者が登録者本人であるか否かを判定する。具体的には、求めた照合スコアが閾値よりも大きいか否かを判断する(ST4)。なお、ここでは閾値は0とし、単純に照合スコア値の正負によって判定を行なうようにした。つまり、照合スコアが正の値であれば本人,負の値なら他人と判定する。つまり、ステップ3,4が音声照合部4の機能となる。
【0042】
そして、その判定結果が応答生成部6に渡されるので、ステップ4の分岐判断でNo、つまり他人と判定された場合には、応答生成部6は、予め記億された発話から「照合の結果、ご本人とは確認できませんでした。誠に申し訳ありませんが、お客さまは本サービスをご利用になれません」といった発話を取り出し、出力部8はその内容を音声として出力する。その後,処理を終了するために電話回線を切断する(ST5)。
【0043】
一方、ステップ4の分岐判断がYes、つまり、判定結果が本人の場合には、登録音声を更新する必要性の判定を行なう前に本人と認証されたことを利用者に通知する(ST6)。すなわち、応答生成部6が、予め記憶された発話から「照合の結果、ご本人と確認いたしました」といった発話を取り出し、出力部8がその内容を音声として出力する。その後,ステップ7に進み、音声更新の必要性判定の処理に移る。
【0044】
次に、登録音声更新の必要性判定処理を実行する(ST7)。すなわち、更新必要性判定部7は、算出された照合スコアの値に基づいて、登録音声更新の必要性があるかどうかを判定する。ここでは、単純に照合スコア値がある閾値未満の場合に登録音声の更新が必要と判定することができる。つまり、照合スコアが正の値で本人と判断したものの、その数値が小さい場合には、経時変化により本人の音声が登録音声データと異なってきたと推定し、照合スコア値がある閾値未満の場合に更新の必要性有りと判定する。
【0045】
また、より複雑な判定法としては、過去に照合した時の照合スコア値の履歴や過去の照合キーワードの音声データそのものを記憶しておき、それぞれの場合の履歴情報を参照して登録音声更新の必要性を判定するという方法も採れる。一例を示すと、図5に示すフローチャートのように、前回と今回の照合スコア値を取得し(ST21)、前回のスコアから今回のスコアを減算し、求めた値をDとする(ST22)。そして、その求めた差分Dが一定の閾値よりも大きい場合に経年変化が起こったと判断して更新必要と判定し、差分Dが小さい場合には、更新不要と判定する(ST23〜ST25)。
【0046】
これにより、図6に示すように、1,2,3回目の利用時に求めた照合スコアの値がS1,S2,S3とすると、2回目の利用時にはS1−S2の値が小さいので更新不要と判定され、3回目の利用時にはS3−S2の値が大きくなっているので更新必要と判定される。
【0047】
そして、前回の照合スコアは、例えば図7に示すデータ構造のように音声データ格納部2において、話者特定情報と登録音声データとともに関連付けて格納することができる。そして、その登録は、例えば更新必要性判定部7が今回の更新必要性の有無を判断した際に、次回の判定のために該当する記憶エリアに登録することにより対応できる。
【0048】
さらにまた、上記のように単純に前回との差分を利用するのではなく、照合スコアの平均値を求めておき、下記の条件を具備した時に更新の必要ありと判定することもできる。
(今回の照合スコア値−照合スコア値平均値)の絶対値>閾値
上記のようにして求めた更新必要性判定結果が更新必要か否かを判断する(ST8)。更新の必要性無しと判定された場合には、今回の話者照合の処理を終了する。なお、その後は、通常のアプリケーションやタスクに依存する処理に進むことになる。
【0049】
一方、登録音声更新の必要性ありと判定された場合はステップ9に進み、更新の推奨と利用者確認を行う(ST9)。すなわち、今回の照合スコアが低かったり、大きく変化し、更新必要性有りと判断された理由が、たまたま利用者が風邪をひいているなどの理由から登録音声データに対する類似度が低くなることがある。係る場合に、自動的に登録音声データを更新してしまうと、次回、風邪が直って通常の声に戻った時に本人と認識されないおそれがある。そして、発生した音声が本人にとって通常の声であったか、そうでないかは本人が一番良く知っている。そこで、本人に更新の同意をとることにより、誤った情報に基づいて更新されるのを抑制する。
具体的には、応答生成部6が、予め記憶している発話から次のような発話を取り出し,出力手段は,その内容を音声として出力する。
【0050】
「登録音声の更新をお勧めします。更新をなさらないと、今後、正しく照合できなくなる可能性があります。ただし、風邪を引いているなど,現在お声の調子が悪い場合は、更新を行なわないでください。……登録音声の更新をなさいますか?」
これを受けた利用者は、「はい」,「いいえ」のような肯定あるいは否定を示す発話を行なうので、その発話を入力部1が受け取るとともに、その発話を音声波形データとして装置に取り込み、入力理解部3に渡す。入力理解部3は、音声波形データから、「肯定」/「否定」のいずれの入力であったかを判断し、その結果を音声登録・管理部5に渡す。なお、利用者の回答の入力方式は、音声に限らずプッシュボタン入力などであってもよい。
【0051】
この場合に、例えば、システムの発話として「音声の更新を行なう場合は1番,行なわない場合は2番のプッシュボタンを押してください」のようなものを加えて出力することでユーザにプッシュボタン入力で回答するように促すことができる。そして、入力されたトーン信号は、ステップ1で示した口座番号のプッシュボタン入力の場合と同様にして入力理解部3にて認識される。
【0052】
そして、音声登録・管理部5は、利用者が登録音声の更新を行なうことに同意したか否かを判断し(ST10)、同意した場合(利用者回答の認識結果=「はい」の場合)は、ステップ11に進んで音声データの更新を行なう。すなわち、音声登録・管理部5は、ステップ2で入力された音声データを新たな登録音声データとして音声データ格納部2の該当する記憶領域に登録する。なお、この登録は、現在登録されている音声データに対して上書きするようにしても良いし、予め登録された音声データと入力された音声データの各特徴量の平均値で更新するようにすることもできる。なお、ユーザが音声更新に同意しなかった場合は、そこで話者照合の処理を終了する。
【0053】
図8は本発明の第2の実施の形態を示している。ブロック構成は、図1と同じであるので、フローチャートに基づいてその動作を説明しながら対応する処理部の機能を説明する。
【0054】
この第2の実施の形態は、第1の実施の形態の図3,図4と基本的に同様であり、更新時の安全性を高めたものである。具体的には、図3に示すフローチャートの処理機能は本実施の形態においても同様(各処理部の機能もその点では同じ)である。そして、図4に示すフローチャートにおけるステップ10の分岐判断で利用者が更新に同意した場合に、第1の実施の形態ではすぐに更新処理をしたが、本実施の形態では、追加照合をすることにより、確実に本人であることを確認するようにした。さらに、更新する場合にも重み付けを設定することにより、より正しい登録音声データを作成し、以後に行う話者照合における認識率を高くするようにした。換言すると、係る処理を実行する機能を、登録更新・管理部5に付加させる。
【0055】
そして、具体的には、図8に示すように、利用者が更新を承諾した場合(ステップ10でYes)に、ステップ31以降の処理を実施するようにしている。すなわち、まず、追加照合用の発話回数・閾値の決定処理を行う(ST31)。この処理も音声登録・更新処理部が実施する。そして、このステップの具体的な処理は、図9に示すようになる。同図に示すように、今回の照合スコアを参照し、それが追加照合回数決定閾値よりも小さいか否かを判断する(ST41〜ST43)。
【0056】
そして、閾値よりも小さい、つまり、本人と判定されたものの登録音声データとの類似度は低い場合には、ステップ44に進み、追加照合回数が2にセットされ、照合閾値が厳しい値に設定される。一方、今回の照合スコアが追加照合回数決定閾値以上の場合には、ステップ45に進み、追加照合回数が1にセットされ、照合閾値が通常の値に設定される。
【0057】
すなわち、本形態によれば、本人と判定したときの照合スコア(今回のスコア)に応じて追加照合時の発話回数並びに照合閾値を設定する。このとき、照合スコアが低い場合は、より厳しくチェックするために発話回数と閾値を高めに設定する。これにより、本人と判断したものの本人で無い可能性がある(本人らしさが低い)場合には厳しく判断し、それでも本人と照合されたときに更新処理を行うことにより、安全性の向上を図る。
【0058】
上記の設定にしたがって本人の追加照合を行う(ST32)。つまり、再度利用者に発話させ、話者照合を行う。そして追加照合した結果、本人確認ができたか否かを判断する(ST33)。条件を満たさない場合には、今回は更新処理をしないようにする。これにより、確実に本人の発話に基づいて音声データの更新登録ができ、安全性が高まる。
【0059】
一方、追加照合した結果、本人と確認できた場合には、ステップ34に進み更新重みの設定処理を行う。ここでは、更新後の登録音声における既存の登録音声の特徴量と新規に入力する発話音声の特徴量との混合比を決定するための重みを設定する。そして、具体的には図10に示すフローチャートを実施する。
【0060】
まず、本人と判定したときの今回の照合スコアと、追加照合時のスコアを取得し、その差分D2を求める(ST51,ST52)。そして、求めた差分D2が、更新用発話回数決定閾値よりも小さいか否かを判断する(ST53)。差分D2が小さい場合(ステップ53の分岐判断でYes)には、ステップ54に進み更新用発話回数に2をセットする。逆に、差分D2が大きい場合(ステップ53の分岐判断でNo)には、ステップ55に進み更新用発話回数に1をセットする。
【0061】
このように、更新用発話回数が決まったならば、次は、重み付けを行う(ST56)。図から明らかなように、差分D2が多くなればなるほど重みが小さくなる。つまり、差分D2が大きい場合は、その話者の「声のばらつきが大きい」と判断して、新規入力の重みを低く設定する。すなわち、ばらつきが大きいので、なるべく過去の音声特徴量が残るように重みづけをする。
【0062】
また、音声特徴量がベクトル表現されている場合には、図11に示す式に各特徴量データ(各要素の特徴量ベクトル)を代入し、更新後の特徴ベクトルを求めることもできる。
【0063】
上記のようにして登録用発話回数と、更新重みが決定されたならば、ステップ35に進み、与えられた登録用音声を取得し、それに基づいてスコアを算出する(ST35,ST36)。そして、得られた照合スコアが、閾値を超えた場合に(ST37)に、登録音声の更新を行う(ST11)。なお、スコアが閾値未満の場合には、ステップ35に戻り、再度登録用音声入力をする。
【0064】
【発明の効果】
以上のように、この発明では、照合スコア情報を用いることにより、登録音声情報の更新の要否の判断を行うようにしたため、適切なタイミングで更新処理が行える。
【図面の簡単な説明】
【図1】本発明の好適な一実施の形態を示すブロック図である。
【図2】作用を説明するフローチャートの一部である。
【図3】作用を説明するフローチャートの一部である。
【図4】音声データ格納部のデータ構造を示す図である。
【図5】更新必要性判定部の機能を説明するフローチャートである。
【図6】更新必要性の要否の判定例を示す図である。
【図7】音声データ格納部の別のデータ構造を示す図である。
【図8】本発明の第2の実施の形態の要部である音声登録・管理部の機能を説明するフローチャートである。
【図9】図8のステップ31の詳細な処理手順を示すフローチャートである。
【図10】図8のステップ34の詳細な処理手順を示すフローチャートである。
【図11】新たな更新登録音声データ(特徴量)の算出例を説明する図である。
【符号の説明】
1 入力部
2 音声データ格納部
3 入力理解部
4 音声照合部
5 音声登録・管理部
6 応答生成部
7 更新必要性判定部
8 出力部

Claims (5)

  1. 音声入力手段と、
    音声認識の基準となる登録音声情報を保持する音声情報格納手段と、
    その音声情報格納手段に格納された前記登録音声情報に含まれる特徴量と、前記入力音声手段から入力された音声情報の特徴量を比較し類似度を算出した照合スコア値が、第一の閾値より大きいか否かを判断することにより前記音声情報が正規の話者から発せられたものか否かを判断する音声照合手段とを備えた話者認識装置であって、
    前記音声照合手段により正規の話者から発せられたものと判断され、かつ前記音声照合手段における照合処理の際に求められる前記正規の話者らしさを示す照合スコア情報について、前回の前記照合スコア値から今回の前記照合スコア値を減算した値が第二の閾値より大きかった場合、前記音声情報格納手段に保持された登録音声情報の更新が必要であると判定する判定手段と、
    前記判定手段の判定結果により更新の必要ありと判定された場合、前記登録音声情報の更新をする更新手段とを備えたことを特徴とする話者認識装置。
  2. 前記更新手段は、前記判定手段の判定結果により更新の必要ありと判定された場合、追加発話を促し、前記今回の照合スコア値と前記追加発話による追加照合スコア値との差分が大きいほど更新重みが小さくなるように設定して前記登録音声情報の更新をすることを特徴とする、請求項1に記載の話者認識装置。
  3. 前記今回の照合スコア値が、あらかじめ設定された追加照合回数決定閾値より小さい場合は追加照合用発話回数を2回以上とし、前記追加照合回数決定閾値以上の場合は追加照合用発話回数を1回として、前記回数分の追加照合用の発話をさせ、前記追加照合用発話回数が2回以上であった場合、前記追加照合スコア値は発話回数の平均値を採ることを特徴とする請求項2に記載の話者認識装置。
  4. 前記差分が、あらかじめ設定された更新用発話回数決定閾値より小さい場合は更新用発話回数を2回以上とし、前記更新用発話回数決定閾値以上の場合は更新用発話回数を1回として、前記回数分の更新用の発話をさせ、前記更新用発話回数が2回以上であった場合、前記追加照合スコア値は発話回数の平均値を採り、前記登録音声情報の更新を行うことを特徴とする請求項2に記載の話者認識装置。
  5. 前記更新手段は、前記判定手段における前記照合スコア情報に基づいた判定結果が更新必要性有りで、かつ、話者からの更新処理の同意情報があることを条件に前記登録音声情報の更新をするようにしたことを特徴とする請求項1に記載の話者認識装置。
JP2000072911A 2000-03-15 2000-03-15 話者認識装置 Expired - Fee Related JP3849841B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000072911A JP3849841B2 (ja) 2000-03-15 2000-03-15 話者認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000072911A JP3849841B2 (ja) 2000-03-15 2000-03-15 話者認識装置

Publications (2)

Publication Number Publication Date
JP2001265385A JP2001265385A (ja) 2001-09-28
JP3849841B2 true JP3849841B2 (ja) 2006-11-22

Family

ID=18591247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000072911A Expired - Fee Related JP3849841B2 (ja) 2000-03-15 2000-03-15 話者認識装置

Country Status (1)

Country Link
JP (1) JP3849841B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094158A (ja) * 2002-09-04 2004-03-25 Ntt Comware Corp 母音検索を利用した声紋認証装置
KR100704302B1 (ko) 2003-12-19 2007-04-05 한국전자통신연구원 적응 훈련 기법에 의한 기준 데이터 구축 방법
KR100819848B1 (ko) 2005-12-08 2008-04-08 한국전자통신연구원 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법
JP2008058452A (ja) * 2006-08-30 2008-03-13 Pioneer Electronic Corp 音声情報認証装置及び音声情報認証方法
JP5017246B2 (ja) * 2008-12-18 2012-09-05 株式会社東芝 辞書学習装置及びその方法
CN102959618B (zh) * 2010-06-28 2015-08-05 三菱电机株式会社 声音识别装置
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification

Also Published As

Publication number Publication date
JP2001265385A (ja) 2001-09-28

Similar Documents

Publication Publication Date Title
US7447632B2 (en) Voice authentication system
US7240007B2 (en) Speaker authentication by fusion of voiceprint match attempt results with additional information
US6477500B2 (en) Text independent speaker recognition with simultaneous speech recognition for transparent command ambiguity resolution and continuous access control
JP6394709B2 (ja) 話者識別装置および話者識別用の登録音声の特徴量登録方法
EP1704668B1 (en) System and method for providing claimant authentication
EP0647344B1 (en) Method for recognizing alphanumeric strings spoken over a telephone network
US5517558A (en) Voice-controlled account access over a telephone network
US6107935A (en) Systems and methods for access filtering employing relaxed recognition constraints
US6691089B1 (en) User configurable levels of security for a speaker verification system
US5897616A (en) Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6978238B2 (en) Method and system for identifying a user by voice
EP0892388B1 (en) Method and apparatus for providing speaker authentication by verbal information verification using forced decoding
EP0953972A2 (en) Simultaneous speaker-independent voice recognition and verification over a telephone network
US20020152078A1 (en) Voiceprint identification system
US20070219792A1 (en) Method and system for user authentication based on speech recognition and knowledge questions
JPS5944639B2 (ja) 音声による異同認識方式における標準パタ−ン更新方法
US20100063817A1 (en) Acoustic model registration apparatus, talker recognition apparatus, acoustic model registration method and acoustic model registration processing program
JP3849841B2 (ja) 話者認識装置
CN112309406A (zh) 声纹注册方法、装置和计算机可读存储介质
JPH10173644A (ja) 本人認証方法
EP0892387A1 (en) Method and apparatus for providing speaker authentication by verbal information verification
JP3919314B2 (ja) 話者認識装置及びその方法
JPH11344992A (ja) 音声辞書作成方法、個人認証装置および記録媒体
JP2000250594A (ja) 話者認識装置
CA2540417A1 (en) Method and system for user authentication based on speech recognition and knowledge questions

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060718

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060810

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060823

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees