JP3849841B2

JP3849841B2 - 話者認識装置

Info

Publication number: JP3849841B2
Application number: JP2000072911A
Authority: JP
Inventors: 裕司平山; 牛田　　博英; 宏中嶋
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2000-03-15
Filing date: 2000-03-15
Publication date: 2006-11-22
Anticipated expiration: 2020-03-15
Also published as: JP2001265385A

Description

【０００１】
【発明の属する技術分野】
この発明は、話者認識装置に関するものである。
【０００２】
【発明の背景】
コンピュータが行う本人確認の１つとして、従来から暗証番号やキーワードなどの予め登録した特定の指定情報を入力し、係る指定情報が登録しているものと一致する場合には本人であると判断するようにしたものが一般に行われている。しかし、係るシステムでは、指定情報が他人に知られたり、見破られたりした場合には、その指定情報を盗用され、悪用されてしまうおそれがある。
【０００３】
そこで、身体的特徴（指紋，声紋，音声，瞳等）を利用して本人確認をする技術があり、その中の一つとして話者照合や話者識別等の話者認識がある。しかし、話者認識の場合には、「声の経年変化による照合精度の低下」を防ぐことが課題の一つとしてあり、係る課題を解決するためには、適切な時期に登録音声の更新（再登録）を行なう必要がある。係る更新をすることを目的とした従来技術としては、以下に示すものがある。
【０００４】
すなわち、入力音声が本人と判定された場合に、自動的に登録音声を更新（再登録）するものがある（特開昭５７−０１３４９３号公報）。この公報に開示された発明によれば、時々刻々とわずかに変化していく本人の音声に追従して登録音声を更新することができるので経年変化に強くなるという効果を奏する。
【０００５】
しかし、話者認識の場合には、その精度を１００％完全なものにすることは実際には困難であるので、他人を誤って本人と認識してしまうおそれがある。係る場合に、その他人の音声に基づいて登録音声が更新されてしまうことになり、以後、正規の利用者が本人として認証されなくなるばかりか、音声更新時の話者（他人）に正規の利用者の立場を乗っ取られてしまうという問題がある。
【０００６】
また、本人が利用した場合であっても、やむを得ず風邪声など通常と異なる音声で更新してしまうと、風邪が治って通常の声に戻った後では正しく本人と認証されなくなるおそれがある。
【０００７】
また、係る問題を解決するため、例えば、登録音声更新時に正規の利用者に直接確認をとった（例えば，正規利用者の連結先に電話して確認するなど）後で実際に更新処理をする発明がある（特開平９−１２７９７５号公報）。しかし、この公報に開示された発明では、その都度、確認手段で正規の利用者に連絡をとるため、処理が煩雑である。
【０００８】
さらに、登録音声の更新を行うタイミングであるが、従来は定期的に更新するものがおおい。一方、更新回数が増えると、それだけ他人等による不正登録の可能性が高くなり、また、音声の経年変化をする時期（期間）も人によりばらつきがあり、定期的に設定した更新期間と、経年変化してしまう経過時間との設定がうまく行かず、更新期間のほうが長いと、正規の利用者本人の声が変化し認識できなくなるおそれがあり、逆に更新期間が短すぎると、更新回数の増加から、他人による登録音声の不正登録の機会を増やすことになり、いずれの場合も好ましくない。
【０００９】
この発明による登録音声の更新に関して、適切なタイミングで登録音声の更新を行なうことができ、更新時における安全性を確保することのできる話者認識装置を提供することを目的とする。
【００１０】
【課題を解決するための手段】
この発明による話者認識装置は、音声入力手段と、音声認識の基準となる登録音声情報を保持する音声情報格納手段と、その音声情報格納手段に格納された前記登録音声情報に含まれる特徴量と、前記入力音声手段から入力された音声情報の特徴量を比較し類似度を算出した照合スコア値が、第一の閾値より大きいか否かを判断することにより前記音声情報が正規の話者から発せられたものか否かを判断する音声照合手段とを備えた話者認識装置であって、前記音声照合手段により正規の話者から発せられたものと判断され、かつ前記音声照合手段における照合処理の際に求められる前記正規の話者らしさを示す照合スコア情報について、前回の前記照合スコア値から今回の前記照合スコア値を減算した値が第二の閾値より大きかった場合、前記音声情報格納手段に保持された登録音声情報の更新が必要であると判定する判定手段と、前記判定手段の判定結果により更新の必要ありと判定された場合、前記登録音声情報の更新をする更新手段とを備えるものである。
また、前記更新手段は、前記判定手段の判定結果により更新の必要ありと判定された場合、追加発話を促し、前記今回の照合スコア値と前記追加発話による追加照合スコア値との差分が大きいほど更新重みが小さくなるように設定して前記登録音声情報の更新をするように構成できる。
前記今回の照合スコア値が、あらかじめ設定された追加照合回数決定閾値より小さい場合は追加照合用発話回数を２回以上とし、前記追加照合回数決定閾値以上の場合は追加照合用発話回数を１回として、前記回数分の追加照合用の発話をさせ、前記追加照合用発話回数が２回以上であった場合、前記追加照合スコア値は発話回数の平均値をとるようにしてもよい。
前記差分が、あらかじめ設定された更新用発話回数決定閾値より小さい場合は更新用発話回数を２回以上とし、前記更新用発話回数決定閾値以上の場合は更新用発話回数を１回として、前記回数分の更新用の発話をさせ、前記更新用発話回数が２回以上であった場合、前記追加照合スコア値は発話回数の平均値を採り、前記登録音声情報の更新を行うようにしてもよい。
【００１２】
登録された登録音声情報と、入力された今回発話された音声情報が非常に近いものの場合には、経年変化もなく、更新する必要が低いといえる。一方、本人が発話して得られた音声情報と、登録音声情報があまり似ていなくなると、経年変化が生じ、そのままでは本人であっても認識されなくなるおそれがあるので、登録音声情報の更新をする必要がある。そこで、照合スコア情報に基づいて更新の必要があるか否かを判定することにより、適切なタイミングで登録音声情報の更新を行なうことができ、経年変化に強くなる。さらに、無意味に定期的に更新をすることにより、他人の発話に基づいて更新処理がされてしまうことも防止できる。
【００１３】
また、各構成要件と実施の形態との対応を採ると、音声入力手段は入力部１に、音声情報格納手段は音声データ格納部２に、判定手段は更新必要性判定部７に、更新手段は音声登録・管理部５にそれぞれ対応する。
【００１４】
この発明の好ましい一実施態様においては、前記更新手段は、前記判定手段における前記照合スコア情報に基づいた判定結果が更新必要性有りで、かつ、話者からの更新処理の同意情報があることを条件に前記登録音声情報の更新をするようにすることである。このようにすると、例えば風邪声の場合など、利用者の声が更新には不適切な場合には更新を避けることができる。
【００１５】
もっとも係る機能は必ずしも設けなくても良く、判定手段で更新の必要があると判断した場合にはそのまま更新処理を実行するようにしても良い。つまり、風邪声などで登録された場合、次回の通常の声に戻ったときに本人と認識されることにより、通常の声に基づいて再度登録音声情報の更新がされるならば、それ以降の認識は問題が無くなる。さらに、更新の判定条件は、上記の条件以外に付加することはかまわない。一例を示すと、通常よりも厳しく照合を行なうことによって登録音声更新に伴う危険を回避することなどもできる。
厳しく照合を行なうには、
（ａ）暗証情報照合との併用
音声の一致に加えて、パスワードや暗証番号など本人以外の者にはわからない知識を確認する；
（ｂ）照合スコアの閾値変更
通常のときよりも閾値を厳しく設定する；
（ｃ）照合回数を増やす
２回，３回と繰り返し照合を行ない、すべての照合で本人と判定された場合にのみ登録音声の更新を許す；
などの方法がある。
【００１６】
また、更新時の発話の特徴量のばらつきにより登録音声の更新重みを設定し、更新前の登録音声情報も加味して新たな登録音声情報を生成しても良い。すると、たとえ他人の声で更新されてしまっても、更新前の本人の音声情報（特徴量）を残しておくことで正規の利用者が照合される可能性が残る。
【００１７】
この発明で言う話者認識は、実施の形態で示した話者照合のみならず話者識別も含む。つまり、話者照合は、予め特定された一人の話者の登録音声情報と、入力音声情報を比較し、各々の音声の話者が同一であるか否かを判定する（１対１の認識）ので、一人の話者を特定するために、話者特定情報を入力する。一方、話者識別は、予め登録されている全ての話者の登録音声情報と入力された音声情報とを比較し、入力音声の話者がどの登録音声の話者と同一であるかを識別する（１対多の認識）ものである。
【００１８】
この発明による話者認識装置を構成する各手段を専用のハードウエア回路によって実現することができるし、プログラムされたコンピュータによって実現することもできる。
【００１９】
【発明の実施の形態】
図１は、本発明の好適な一実施の形態を示している。本システムでは、話者が発生する音声等の情報を入力部１を介して装置内に取り込み、音声データ格納部２に格納された話者特定情報の示す登録音声データ等の辞書情報に基づいて、利用中の話者が本人であるか否かの話者照合を行い、本人確認ができたならば所定のサービスを実行するものに適用される。そして、入力された音声データに基づいて、認識・照合処理する際の基準・辞書データとなる音声データ格納部２に登録された登録音声データの更新の必要の有無を判断し、必要な場合には更新処理をするようになっている。これにより、利用者の音声がたとえ経年変化したとしても、それに対応し、高い認識率を維持できる。具体的な構成は以下の通りである。
【００２０】
まず、音声データ格納部２は、話者特定情報と登録音声データを対応付けて記憶保持するデータベースである。なお、登録音声データ（特徴量）のほかに、後述する入力理解部３による照合キーワード音声の認識結果をも対応づけて保持しておくことにより、登録音声更新時に照合キーワードとは異なるキーワード音声による更新を防止することもできる。例えば、登録した本人しかキーワードの内容を知らないようにしておけば、異なるキーワードで登録音声を更新しようとした利用者は本人ではない可能性があるため、その場合は登録音声の更新を中止することができる。
【００２１】
そして、図１に示すように、入力部１により、話者が発声する音声を装置内に取り込むようになっている。この入力部１としては、例えばマイクや電話などを用いて取得された音声を取り込むものである。この入力部１によって装置内に取り込まれる音声としては、照合キーワード，話者特定情報（口座番号など），システムの質問に対する回答がある。すなわち、本形態では、話者特定情報の入力も音声を利用することで、入力部１が話者照合装置における音声入力手段と話者特定情報入力手段を兼用している。
【００２２】
なお、照合キーワード以外の発話である話者特定情報とシステムからの質問に対する回答は、必ずしも音声で入力される必要はなく、例えば、電話のプッシュボタンで入力されてもよい。また、入力部１としては、少なくとも音声入力に対応する機能を有する必要があるが、音以外の入力に対応する機能をさらに有するようにしてもよい。一例としては、情報提供端末等の場合に、話者特定情報をテンキーなどのコンソールから入力する場合に、それに対応する入力機能を有することなどがある。
【００２３】
この入力部１から入力された情報は、入力理解部３と、音声照合部４と音声登録・管理部５に与えられる。まず、入力理解部３は、入力部１から受け取った音声波形データの表す音声の文字情報を認識し、その文字列を所定の処理部に向けて出力するものである。具体的には、音声波形を周波数分析して得られた特徴量系列と予め用意された認識対象語句の特徴量系列とのパターンマッチングにより行なう。ここでは、暗証番号その他の各種番号を入力する際に必要となる「０〜９」の各数字と、ユーザ（話者）の回答として想定される「はい」や「いいえ」などの各語句を認識対象語句としてそれぞれ特徴量系列を用意する。
【００２４】
もちろん、係る音声以外の入力として、例えばテキストを用いる場合には、入力内容であるテキストを正規化したものを認識結果とすることにより音声認識の場合と同様の結果が得られる。また、入力理解の結果（音声認識結果）によって、入力された照合キーワードが予め定められたものか、或いは、現在登録されているキーワードと一致するかを判定することも可能になる。なお、具体的な特徴量を用いたマッチング処理は、従来から行われているものをそのまま適用することができるので、具体例をあげた詳細な説明は省略する。
【００２５】
また、音声照合部４は、音声データ格納部２に登録された話者特定情報の示す登録音声データと、入力部１や入力理解部３から入力された話者の音声データを比較して入力音声と登録音声の話者が同一であるか否かを判定する。
【００２６】
一例としては、その判定を行なうための照合スコアを算出する。照合スコアは、−１．０から十１．０までの値をとる。そして、正の符号は、入力音声の話者が登録音声の（どちらかというと）話者本人であることを示し、負の符号は、どちらかというと他人であることを示している。また、絶対値は各符号で示された内容（本人または他人）の確からしさを示す。従って、正の値が大きいほど（１．０に近いほど）本人らしさが高いと言える。そして、求めた照合スコアと予め定めた閾値とを比較し、閾値よりも大きければ本人（閾値以下の場合は他人）と判断するようにしている。そして、その照合結果は、応答生成部６並びに更新必要性判定部７に与える。
【００２７】
応答生成部６は、入力理解部３で行った入力理解結果や音声照合部４で行った音声照合結果や、後述する更新必要性判定部７で行った登録音声更新の要否判定結果に基づいてシステムの発話すべき内容を決定する。具体的には，システムの発する音声ガイダンスの内容や照合結果に応じて発話する内容を予めすべて記億しておき、そのときの入力理解結果・照合結果・更新要否判定結果に応じて適切な発話内容を選択する。そして、選択した発話内容（発話文）を出力部８に与えるようになっている。
【００２８】
出力部８は、生成された発話文を音声に変換してスピーカやヘッドフォン，電話の受話器スピーカを利用して出力するものである。発話文を音声に変換するには、以下に示す各種の方式が採れる。
＊録音編集方式
生成される可能性のある発話内容の全体、または、部分ごとに発話内容を読み上げた音声を録音しておき、出力時には、発話内容に対応する録音ファイルを再生して音声を出力するものである。
【００２９】
＊テキスト音声合成方式
既存技術として存在する音声合成エンジンを利用する。すなわち、発話内容を表す文字列を入力として与えると、その文字列の読み上げ音声を出力することができるものである。
【００３０】
＊録音編集とテキスト音声合成の組合せ方式
発話内容のうち、録音部品が用意されている部分は録音編集方式で発声出力をし、対応する録音部品が存在しない部分はテキスト音声合成により発声出力するものである。
【００３１】
なお、出力部８としては、上記のように音声出力に限ることは無い。音声以外の出力としては、例えばテキストを用いることができる。この場合に、出力部８は発話内容をＰＣ用ディスプレイ画面上に表示することができる。
【００３２】
上記した入力部１からの入力に従って本人確認をし、出力部８から所定のメッセージを出力するための各部の構成は、基本的に従来のものによって実現できるので、その詳細な説明を省略する。
【００３３】
ここで本発明では、更新必要性判定部７を設け、音声照合部４における照合結果に基づいて、認識する際の基準となる音声データを構成するか否かを判断するようにした。つまり、この更新必要性判定部７は、利用者の声の経年変化を検出し、その結果に基づき登録音声を更新する必要性を判定する。声の経年変化の検出は、照合スコアと入力音声・登録音声の各特徴量を参照して行なう（詳細は後述する）。
【００３４】
そして、更新必要性判定部７が更新の必要ありと判断した場合には、その判断結果を音声登録・管理部５と応答生成部６に対して与える。応答生成部６は、更新をしても良いかの確認を利用者に促すメッセージを出力するので、それを受けた利用者が更新の同意をすると、その同意情報が音声登録・管理部５に与えられる（入力部１を介して直接或いは入力理解部３を経由して与えられる）。
【００３５】
音声登録・管理部５は、利用者（話者）が更新登録に同意した場合に、話者が照合キーワードを発声した音声データを話者特定情報と対応づけて音声データ格納部２に登録する。これにより、音声データ格納部２に格納されたデータ内容の更新が成され、経時変化に追従して対応することになる。
【００３６】
次に、このシステムの全体の動作を図２，図３に示すフローチャートを用いながら説明しつつ、必要に応じて各処理部の詳細な機能を説明する。また、各機能の理解を容易にするため、具体例を適宜引用しながら説明する。引用する具体例としては、次のような話者照合装置を考える。つまり、電話による音声入出力をするもので、話者特定番号として９桁の口座番号を使用し、照合キーワードとして４桁の暗証番号を使用するものとする。そして、音声入力された照合キーワードに基づいて話者照合を行う（本人確認後は、所定のサービスその他の各処理を実施することになる）。さらに、この話者照合の結果に基づいて照合する際の基準となる登録音声データの更新の有無を判断し、必要に応じて更新処理をするようになっている。
【００３７】
まず、話者特定情報入力処理を実行する（ＳＴ１）。すなわち、利用者（話者）に対して、話者特定情報の入力を促す。具体的には、応答生成部６が、予め記憶された発話内容の中から「お電話ありがとうございます。まず、お客さまの口座番号をおっしゃってください」という発話を取り出し、出力部８によりその発話を出力する。これを受けた利用者は、口座番号（例えば、「５９６３８４１０７」）を音声で発話したり、電話機のプッシュボタンによって入力する。
【００３８】
音声入力の場合には、入力部１が、音声波形として利用者の発話を装置に取り込むとともに、入力理解部３に渡し、そこにおいて音声波形データを予め用意された数字の音素特徴量系列と比較することにより、発話された数字列を認識する。また、プッシュボタン入力の場合、入力部１は、数字列に対応するトーン信号を装置に取り込むとともに、入力理解部３に渡し、そこにおいて入力されたトーン信号を予め用意された数字の信号波形と比較することにより入力された数字列を認識する。
【００３９】
次に、照合キーワード入力処理を実行する（ＳＴ２）。つまり、応答生成部６が、予め用意された発話内容の中から「お客様の照合キーワードをおっしゃってください」という発話を取り出し、出力部８がその内容を音声として出力する。これを受けた利用者は、照合キーワード（暗証番号）を発話するので、この発話された照合キーワードの音声データ（例えば「４１０７」）が、入力部１によって装置に取り込まれ、音声照合部４に渡される。
【００４０】
次いで、話者照合処理に移行する。まず、照合スコアを計算する（ＳＴ３）。すなわち、音声照合部４が、入力理解部３から与えられた口座番号（話者特定惰報）の認識結果をキーとして音声データ格納部２をアクセスし、該当する登録音声データを取得する。つまり、音声データ格納部２は、図４に示すようなデータ構造となっているので、「５９６３８４１０７」に対応する「よんいちぜろなな」（本人が、４１０７を発生した時の音声データ）を取得する。この登録音声データは、音声データそのものであっても良いし、そこから抽出された特徴量であっても良い。そして、その取得した登録音声データの特徴量と、入力された音声データの特徴量とを比較し、似ている程度を示す照合スコア（−１．０〜＋１．０の値）を算出する。なお、この照合スコアを算出する認識・照合アルゴリズムは、従来からある各種のものを適用できる。
【００４１】
さらに、音声照合部４は、算出した照合スコア値に基づいて登録音声の話者と入力音声の話者が同一であるか否か、すなわち利用者が登録者本人であるか否かを判定する。具体的には、求めた照合スコアが閾値よりも大きいか否かを判断する（ＳＴ４）。なお、ここでは閾値は０とし、単純に照合スコア値の正負によって判定を行なうようにした。つまり、照合スコアが正の値であれば本人，負の値なら他人と判定する。つまり、ステップ３，４が音声照合部４の機能となる。
【００４２】
そして、その判定結果が応答生成部６に渡されるので、ステップ４の分岐判断でＮｏ、つまり他人と判定された場合には、応答生成部６は、予め記億された発話から「照合の結果、ご本人とは確認できませんでした。誠に申し訳ありませんが、お客さまは本サービスをご利用になれません」といった発話を取り出し、出力部８はその内容を音声として出力する。その後，処理を終了するために電話回線を切断する（ＳＴ５）。
【００４３】
一方、ステップ４の分岐判断がＹｅｓ、つまり、判定結果が本人の場合には、登録音声を更新する必要性の判定を行なう前に本人と認証されたことを利用者に通知する（ＳＴ６）。すなわち、応答生成部６が、予め記憶された発話から「照合の結果、ご本人と確認いたしました」といった発話を取り出し、出力部８がその内容を音声として出力する。その後，ステップ７に進み、音声更新の必要性判定の処理に移る。
【００４４】
次に、登録音声更新の必要性判定処理を実行する（ＳＴ７）。すなわち、更新必要性判定部７は、算出された照合スコアの値に基づいて、登録音声更新の必要性があるかどうかを判定する。ここでは、単純に照合スコア値がある閾値未満の場合に登録音声の更新が必要と判定することができる。つまり、照合スコアが正の値で本人と判断したものの、その数値が小さい場合には、経時変化により本人の音声が登録音声データと異なってきたと推定し、照合スコア値がある閾値未満の場合に更新の必要性有りと判定する。
【００４５】
また、より複雑な判定法としては、過去に照合した時の照合スコア値の履歴や過去の照合キーワードの音声データそのものを記憶しておき、それぞれの場合の履歴情報を参照して登録音声更新の必要性を判定するという方法も採れる。一例を示すと、図５に示すフローチャートのように、前回と今回の照合スコア値を取得し（ＳＴ２１）、前回のスコアから今回のスコアを減算し、求めた値をＤとする（ＳＴ２２）。そして、その求めた差分Ｄが一定の閾値よりも大きい場合に経年変化が起こったと判断して更新必要と判定し、差分Ｄが小さい場合には、更新不要と判定する（ＳＴ２３〜ＳＴ２５）。
【００４６】
これにより、図６に示すように、１，２，３回目の利用時に求めた照合スコアの値がＳ１，Ｓ２，Ｓ３とすると、２回目の利用時にはＳ１−Ｓ２の値が小さいので更新不要と判定され、３回目の利用時にはＳ３−Ｓ２の値が大きくなっているので更新必要と判定される。
【００４７】
そして、前回の照合スコアは、例えば図７に示すデータ構造のように音声データ格納部２において、話者特定情報と登録音声データとともに関連付けて格納することができる。そして、その登録は、例えば更新必要性判定部７が今回の更新必要性の有無を判断した際に、次回の判定のために該当する記憶エリアに登録することにより対応できる。
【００４８】
さらにまた、上記のように単純に前回との差分を利用するのではなく、照合スコアの平均値を求めておき、下記の条件を具備した時に更新の必要ありと判定することもできる。
（今回の照合スコア値−照合スコア値平均値）の絶対値＞閾値
上記のようにして求めた更新必要性判定結果が更新必要か否かを判断する（ＳＴ８）。更新の必要性無しと判定された場合には、今回の話者照合の処理を終了する。なお、その後は、通常のアプリケーションやタスクに依存する処理に進むことになる。
【００４９】
一方、登録音声更新の必要性ありと判定された場合はステップ９に進み、更新の推奨と利用者確認を行う（ＳＴ９）。すなわち、今回の照合スコアが低かったり、大きく変化し、更新必要性有りと判断された理由が、たまたま利用者が風邪をひいているなどの理由から登録音声データに対する類似度が低くなることがある。係る場合に、自動的に登録音声データを更新してしまうと、次回、風邪が直って通常の声に戻った時に本人と認識されないおそれがある。そして、発生した音声が本人にとって通常の声であったか、そうでないかは本人が一番良く知っている。そこで、本人に更新の同意をとることにより、誤った情報に基づいて更新されるのを抑制する。
具体的には、応答生成部６が、予め記憶している発話から次のような発話を取り出し，出力手段は，その内容を音声として出力する。
【００５０】
「登録音声の更新をお勧めします。更新をなさらないと、今後、正しく照合できなくなる可能性があります。ただし、風邪を引いているなど，現在お声の調子が悪い場合は、更新を行なわないでください。……登録音声の更新をなさいますか？」
これを受けた利用者は、「はい」，「いいえ」のような肯定あるいは否定を示す発話を行なうので、その発話を入力部１が受け取るとともに、その発話を音声波形データとして装置に取り込み、入力理解部３に渡す。入力理解部３は、音声波形データから、「肯定」／「否定」のいずれの入力であったかを判断し、その結果を音声登録・管理部５に渡す。なお、利用者の回答の入力方式は、音声に限らずプッシュボタン入力などであってもよい。
【００５１】
この場合に、例えば、システムの発話として「音声の更新を行なう場合は１番，行なわない場合は２番のプッシュボタンを押してください」のようなものを加えて出力することでユーザにプッシュボタン入力で回答するように促すことができる。そして、入力されたトーン信号は、ステップ１で示した口座番号のプッシュボタン入力の場合と同様にして入力理解部３にて認識される。
【００５２】
そして、音声登録・管理部５は、利用者が登録音声の更新を行なうことに同意したか否かを判断し（ＳＴ１０）、同意した場合（利用者回答の認識結果＝「はい」の場合）は、ステップ１１に進んで音声データの更新を行なう。すなわち、音声登録・管理部５は、ステップ２で入力された音声データを新たな登録音声データとして音声データ格納部２の該当する記憶領域に登録する。なお、この登録は、現在登録されている音声データに対して上書きするようにしても良いし、予め登録された音声データと入力された音声データの各特徴量の平均値で更新するようにすることもできる。なお、ユーザが音声更新に同意しなかった場合は、そこで話者照合の処理を終了する。
【００５３】
図８は本発明の第２の実施の形態を示している。ブロック構成は、図１と同じであるので、フローチャートに基づいてその動作を説明しながら対応する処理部の機能を説明する。
【００５４】
この第２の実施の形態は、第１の実施の形態の図３，図４と基本的に同様であり、更新時の安全性を高めたものである。具体的には、図３に示すフローチャートの処理機能は本実施の形態においても同様（各処理部の機能もその点では同じ）である。そして、図４に示すフローチャートにおけるステップ１０の分岐判断で利用者が更新に同意した場合に、第１の実施の形態ではすぐに更新処理をしたが、本実施の形態では、追加照合をすることにより、確実に本人であることを確認するようにした。さらに、更新する場合にも重み付けを設定することにより、より正しい登録音声データを作成し、以後に行う話者照合における認識率を高くするようにした。換言すると、係る処理を実行する機能を、登録更新・管理部５に付加させる。
【００５５】
そして、具体的には、図８に示すように、利用者が更新を承諾した場合（ステップ１０でＹｅｓ）に、ステップ３１以降の処理を実施するようにしている。すなわち、まず、追加照合用の発話回数・閾値の決定処理を行う（ＳＴ３１）。この処理も音声登録・更新処理部が実施する。そして、このステップの具体的な処理は、図９に示すようになる。同図に示すように、今回の照合スコアを参照し、それが追加照合回数決定閾値よりも小さいか否かを判断する（ＳＴ４１〜ＳＴ４３）。
【００５６】
そして、閾値よりも小さい、つまり、本人と判定されたものの登録音声データとの類似度は低い場合には、ステップ４４に進み、追加照合回数が２にセットされ、照合閾値が厳しい値に設定される。一方、今回の照合スコアが追加照合回数決定閾値以上の場合には、ステップ４５に進み、追加照合回数が１にセットされ、照合閾値が通常の値に設定される。
【００５７】
すなわち、本形態によれば、本人と判定したときの照合スコア（今回のスコア）に応じて追加照合時の発話回数並びに照合閾値を設定する。このとき、照合スコアが低い場合は、より厳しくチェックするために発話回数と閾値を高めに設定する。これにより、本人と判断したものの本人で無い可能性がある（本人らしさが低い）場合には厳しく判断し、それでも本人と照合されたときに更新処理を行うことにより、安全性の向上を図る。
【００５８】
上記の設定にしたがって本人の追加照合を行う（ＳＴ３２）。つまり、再度利用者に発話させ、話者照合を行う。そして追加照合した結果、本人確認ができたか否かを判断する（ＳＴ３３）。条件を満たさない場合には、今回は更新処理をしないようにする。これにより、確実に本人の発話に基づいて音声データの更新登録ができ、安全性が高まる。
【００５９】
一方、追加照合した結果、本人と確認できた場合には、ステップ３４に進み更新重みの設定処理を行う。ここでは、更新後の登録音声における既存の登録音声の特徴量と新規に入力する発話音声の特徴量との混合比を決定するための重みを設定する。そして、具体的には図１０に示すフローチャートを実施する。
【００６０】
まず、本人と判定したときの今回の照合スコアと、追加照合時のスコアを取得し、その差分Ｄ２を求める（ＳＴ５１，ＳＴ５２）。そして、求めた差分Ｄ２が、更新用発話回数決定閾値よりも小さいか否かを判断する（ＳＴ５３）。差分Ｄ２が小さい場合（ステップ５３の分岐判断でＹｅｓ）には、ステップ５４に進み更新用発話回数に２をセットする。逆に、差分Ｄ２が大きい場合（ステップ５３の分岐判断でＮｏ）には、ステップ５５に進み更新用発話回数に１をセットする。
【００６１】
このように、更新用発話回数が決まったならば、次は、重み付けを行う（ＳＴ５６）。図から明らかなように、差分Ｄ２が多くなればなるほど重みが小さくなる。つまり、差分Ｄ２が大きい場合は、その話者の「声のばらつきが大きい」と判断して、新規入力の重みを低く設定する。すなわち、ばらつきが大きいので、なるべく過去の音声特徴量が残るように重みづけをする。
【００６２】
また、音声特徴量がベクトル表現されている場合には、図１１に示す式に各特徴量データ（各要素の特徴量ベクトル）を代入し、更新後の特徴ベクトルを求めることもできる。
【００６３】
上記のようにして登録用発話回数と、更新重みが決定されたならば、ステップ３５に進み、与えられた登録用音声を取得し、それに基づいてスコアを算出する（ＳＴ３５，ＳＴ３６）。そして、得られた照合スコアが、閾値を超えた場合に（ＳＴ３７）に、登録音声の更新を行う（ＳＴ１１）。なお、スコアが閾値未満の場合には、ステップ３５に戻り、再度登録用音声入力をする。
【００６４】
【発明の効果】
以上のように、この発明では、照合スコア情報を用いることにより、登録音声情報の更新の要否の判断を行うようにしたため、適切なタイミングで更新処理が行える。
【図面の簡単な説明】
【図１】本発明の好適な一実施の形態を示すブロック図である。
【図２】作用を説明するフローチャートの一部である。
【図３】作用を説明するフローチャートの一部である。
【図４】音声データ格納部のデータ構造を示す図である。
【図５】更新必要性判定部の機能を説明するフローチャートである。
【図６】更新必要性の要否の判定例を示す図である。
【図７】音声データ格納部の別のデータ構造を示す図である。
【図８】本発明の第２の実施の形態の要部である音声登録・管理部の機能を説明するフローチャートである。
【図９】図８のステップ３１の詳細な処理手順を示すフローチャートである。
【図１０】図８のステップ３４の詳細な処理手順を示すフローチャートである。
【図１１】新たな更新登録音声データ（特徴量）の算出例を説明する図である。
【符号の説明】
１入力部
２音声データ格納部
３入力理解部
４音声照合部
５音声登録・管理部
６応答生成部
７更新必要性判定部
８出力部

Claims

音声入力手段と、
音声認識の基準となる登録音声情報を保持する音声情報格納手段と、
その音声情報格納手段に格納された前記登録音声情報に含まれる特徴量と、前記入力音声手段から入力された音声情報の特徴量を比較し類似度を算出した照合スコア値が、第一の閾値より大きいか否かを判断することにより前記音声情報が正規の話者から発せられたものか否かを判断する音声照合手段とを備えた話者認識装置であって、
前記音声照合手段により正規の話者から発せられたものと判断され、かつ前記音声照合手段における照合処理の際に求められる前記正規の話者らしさを示す照合スコア情報について、前回の前記照合スコア値から今回の前記照合スコア値を減算した値が第二の閾値より大きかった場合、前記音声情報格納手段に保持された登録音声情報の更新が必要であると判定する判定手段と、
前記判定手段の判定結果により更新の必要ありと判定された場合、前記登録音声情報の更新をする更新手段とを備えたことを特徴とする話者認識装置。
前記更新手段は、前記判定手段の判定結果により更新の必要ありと判定された場合、追加発話を促し、前記今回の照合スコア値と前記追加発話による追加照合スコア値との差分が大きいほど更新重みが小さくなるように設定して前記登録音声情報の更新をすることを特徴とする、請求項１に記載の話者認識装置。
前記今回の照合スコア値が、あらかじめ設定された追加照合回数決定閾値より小さい場合は追加照合用発話回数を2回以上とし、前記追加照合回数決定閾値以上の場合は追加照合用発話回数を１回として、前記回数分の追加照合用の発話をさせ、前記追加照合用発話回数が２回以上であった場合、前記追加照合スコア値は発話回数の平均値を採ることを特徴とする請求項２に記載の話者認識装置。
前記差分が、あらかじめ設定された更新用発話回数決定閾値より小さい場合は更新用発話回数を２回以上とし、前記更新用発話回数決定閾値以上の場合は更新用発話回数を１回として、前記回数分の更新用の発話をさせ、前記更新用発話回数が２回以上であった場合、前記追加照合スコア値は発話回数の平均値を採り、前記登録音声情報の更新を行うことを特徴とする請求項２に記載の話者認識装置。
前記更新手段は、前記判定手段における前記照合スコア情報に基づいた判定結果が更新必要性有りで、かつ、話者からの更新処理の同意情報があることを条件に前記登録音声情報の更新をするようにしたことを特徴とする請求項１に記載の話者認識装置。