JP2023174185A

JP2023174185A - 認証システムおよび認証方法

Info

Publication number: JP2023174185A
Application number: JP2022086892A
Authority: JP
Inventors: 鉄平福田; Teppei Fukuda; 亮太藤井; Ryota Fujii; 慎太郎岡田; Shintaro Okada
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2023-12-07
Also published as: WO2023228542A1

Abstract

【課題】登録時に取得したユーザの発話音声の合計時間の長さに応じて認証時の発話時間を決定し、ユーザの利便性を向上する。
【解決手段】認証システムは、話者の発話音声の音声信号を取得する取得部と、取得された音声信号から話者が発話している第１の発話区間と、複数の話者のそれぞれの音声信号が登録されたデータベースの音声信号から話者が発話している第２の発話区間と、を検出する検出部と、第１の発話区間の第１音声信号と、第２の発話区間の第２音声信号とを照合し、第２の発話区間の第２音声信号の長さもしくは第２の発話区間に含まれる音数に基づき第１音声信号を用いる認証の認証条件を決定する決定部と、決定された認証条件に基づいて、話者の認証を行う認証部と、を備える。
【選択図】図４

Description

本開示は、認証システムおよび認証方法に関する。

特許文献１には、声紋認証のための声紋データを通話中の受話音声から登録する通話装置が開示されている。通話装置は、受話音声を取得し、発話側の電話番号を取得し、取得した受話音声から声紋データを抽出する。次に、通話装置は、受話音声の取得時間を計測する。通話装置は、電話帳にあり、取得した電話番号と同一の電話番号に対応する少なくとも１つ以上の声紋データの合算取得時間長が、声紋照合のために必要な時間よりも長いか判定する。通話装置は、声紋データの合算取得時間が声紋照合のために必要な時間よりも長いと判定した場合には、取得した電話番号と声紋データとを対応付けて格納部に格納する。

特開２０１６－５３５９８号公報

特許文献１では、話者の声紋データの合計取得時間長が所定値以上となった場合に、声紋データが話者の電話番号と紐づけられてデータベースに登録される。つまり、特許文献１に開示されている通話装置は、声紋認証の際に使用する登録用の声紋データを、所定値以上の合計取得時間長分ほど常に必要とする。このため、ユーザは、声紋データの登録に所定値以上の時間、発話する必要があり、それにより声紋認証の際にも同様な時間分ほど発話する必要があるためユーザの利便性をより良くするための改善が見込まれる。

本開示は、上述した従来の状況に鑑みて案出され、登録時に取得したユーザの発話音声の合計時間の長さに応じて認証時の発話時間を決定し、ユーザの利便性を向上することを目的とする。

本開示は、話者の発話音声の音声信号を取得する取得部と、取得された前記音声信号から前記話者が発話している第１の発話区間と、複数の話者のそれぞれの音声信号が登録されたデータベースの前記音声信号から前記話者が発話している第２の発話区間と、を検出する検出部と、前記第１の発話区間の第１音声信号と、前記第２の発話区間の第２音声信号とを照合し、前記第２の発話区間の前記第２音声信号の長さもしくは前記第２の発話区間に含まれる音数に基づき前記第１音声信号を用いる認証の認証条件を決定する決定部と、決定された前記認証条件に基づいて、前記話者の認証を行う認証部と、を備える、認証システムを提供する。

また、本開示は、１以上のコンピュータが行う認証方法であって、話者の発話音声の音声信号を取得し、取得された前記音声信号から前記話者が発話している第１の発話区間と、複数の話者のそれぞれの音声信号が登録されたデータベースの前記音声信号から前記話者が発話している第２の発話区間と、を検出し、前記第１の発話区間の第１音声信号と、前記第２の発話区間の第２音声信号とを照合し、前記第２の発話区間の前記第２音声信号の長さもしくは前記第２の発話区間に含まれる音数に基づき前記第１音声信号を用いる認証の認証条件を決定し、決定された前記認証条件に基づいて、前記話者の認証を行う、認証方法を提供する。

なお、これらの包括的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本開示によれば、登録時に取得したユーザの発話音声の合計時間の長さに応じて認証時の発話時間を決定し、ユーザの利便性を向上することができる。

本実施の形態に係る認証システムのユースケースの一例を示す図本実施の形態に係る認証解析装置の内部構成例を示すブロック図登録用の発話音声信号の登録処理に係るフローチャート発話長に基づく認証条件の設定の一例を示す図発話長および音数に基づく認証条件の設定の一例を示す図録音声信号の品質に応じて認証条件として発話内容を設定する一例を示す図オペレータが画面に表示された認証用文章に基づき本人確認の認証を実施する例を示す図ユーザ側通話端末に表示された本人確認用文章に基づき本人確認の認証を実施する例を示す図認証条件を設定後に認証時の集音条件の測定結果から認証条件の要求時間を再設定する例を示す図認証条件を設定後に認証時の集音条件の測定結果から認証条件の閾値を再設定する例を示す図話者の認証に係る処理のフローチャート登録音声信号の品質によって認証が成功した後の動作に制限を設ける例を示す図登録音声信号の品質に基づき動作制限を設ける処理のフローチャート

以下、図面を適宜参照して、本開示に係る認証システムおよび認証方法を具体的に開示した実施の形態について、詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、すでによく知られた事項の詳細説明及び実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の記載の主題を限定することは意図されていない。

まず、図１を参照して、本実施の形態に係る認証システムのユースケースについて説明する。図１は、本実施の形態に係る認証システムのユースケースの一例を示す図である。認証システム１００は、音声を用いた認証の対象となる人物（図１に示す例では、ユーザＵＳ）の音声信号または音声データを取得し、取得された音声信号または音声データと、事前にストレージ（図１に示す例では、登録話者データベースＤＢ）に登録（格納）された話者の音声信号または音声データとを照合する。認証システム１００は、照合結果に基づいて、認証対象であるユーザＵＳから集音された音声信号または音声データとストレージに登録された音声信号または音声データとの類似度を評価し、評価された類似度に基づいて、ユーザＵＳを認証する。

実施の形態１に係る認証システム１００は、集音装置の一例としてオペレータ側通話端末ＯＰ１と、認証解析装置Ｐ１と、登録話者データベースＤＢと、出力装置の一例としてのディスプレイＤＰと、を含んで構成される。なお、認証解析装置Ｐ１およびディスプレイＤＰは、一体的に構成されてよい。なお、オペレータ側通話端末ＯＰ１は、自動音声装置に置き換えられてもよいし、この場合自動音声装置は認証解析装置Ｐ１と一体的に構成されてもよい。

なお、図１に示す認証システム１００は、一例としてコールセンタにおいて話者（ユーザＵＳ）の認証に用いられる例を示し、オペレータＯＰと通話するユーザＵＳの発話音声を集音した音声データを用いてユーザＵＳの認証を行う。図１に示す認証システム１００は、さらにユーザ側通話端末ＵＰ１と、ネットワークＮＷとを含んで構成される。なお、認証システム１００の全体構成は、図１に示す例に限定されないことは言うまでもない。

ユーザ側通話端末ＵＰ１は、オペレータ側通話端末ＯＰ１との間で、ネットワークＮＷを介して無線通信可能に接続される。なお、ここでいう無線通信は、例えばＷｉ－Ｆｉ（登録商標）などの無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）を介したネットワーク通信である。

ユーザ側通話端末ＵＰ１は、例えば、ノートＰＣ、タブレット端末、スマートフォンまたは電話機等により構成される。ユーザ側通話端末ＵＰ１は、マイク（不図示）を備える集音装置であり、ユーザＵＳの発話音声を集音して音声信号に変換し、この変換された音声信号を、ネットワークＮＷを介してオペレータ側通話端末ＯＰ１に送信する。また、ユーザ側通話端末ＵＰ１は、オペレータ側通話端末ＯＰ１から送信されたオペレータＯＰの発話音声の音声信号を取得して、スピーカ（不図示）から出力する。

ネットワークＮＷは、例えばＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）網または電話網であって、ユーザ側通話端末ＵＰ１とオペレータ側通話端末ＯＰ１との間で、音声信号の送受信を可能に接続する。なお、データの送受信は、有線通信または無線通信により実行される。

オペレータ側通話端末ＯＰ１は、ユーザ側通話端末ＵＰ１および認証解析装置Ｐ１との間でそれぞれ有線通信または無線通信でデータ送受信可能に接続され、音声信号の送受信を行う。

オペレータ側通話端末ＯＰ１は、例えば、ノートＰＣ、タブレット端末、スマートフォンまたは電話機等により構成される。オペレータ側通話端末ＯＰ１は、ネットワークＮＷを介してユーザ側通話端末ＵＰ１から送信されたユーザＵＳの発話音声に基づく音声信号を取得し、認証解析装置Ｐ１に送信する。なお、オペレータ側通話端末ＯＰ１は、取得されたユーザＵＳの発話音声とオペレータＯＰの発話音声とを含む音声信号を取得した場合には、オペレータ側通話端末ＯＰ１の音声信号の音圧レベル、周波数帯域等の音声パラメータに基づいて、ユーザＵＳの発話音声に基づく音声信号と、オペレータＯＰの発話音声に基づく音声信号とを分離してよい。オペレータ側通話端末ＯＰ１は、分離後にユーザＵＳの発話音声に基づく音声信号のみを抽出して認証解析装置Ｐ１に送信する。

また、オペレータ側通話端末ＯＰ１は、複数のユーザ側通話端末のそれぞれとの間で通信可能に接続され、同時に複数のユーザ側通話端末のそれぞれから音声信号を取得してもよい。オペレータ側通話端末ＯＰ１は、取得された音声信号を認証解析装置Ｐ１に送信する。これにより、認証システム１００は、同時に複数のユーザのそれぞれの音声認証処理、音声解析処理を実行できる。

また、オペレータ側通話端末ＯＰ１は、同時に複数のユーザのそれぞれの発話音声を含む音声信号を取得してもよい。オペレータ側通話端末ＯＰ１は、ネットワークＮＷを介して取得された複数のユーザの音声信号のそれぞれからユーザごとの音声信号を抽出し、ユーザごとの音声信号をそれぞれ認証解析装置Ｐ１に送信する。このような場合、オペレータ側通話端末ＯＰ１は、複数のユーザの音声信号を解析し、音圧レベル、周波数帯域等の音声パラメータに基づいて、音声信号をユーザごとに分離して抽出してもよい。音声信号がアレイマイク等により集音された場合には、オペレータ側通話端末ＯＰ１は、発話音声の到来方向に基づいて、音声信号をユーザごとに分離して抽出してもよい。これにより、認証システム１００は、例えば、Ｗｅｂ会議等の同時に複数のユーザが発話する環境で集音された音声信号であっても、複数のユーザのそれぞれの音声認証処理、音声解析処理を実行できる。

認証装置およびコンピュータの一例としての認証解析装置Ｐ１は、オペレータ側通話端末ＯＰ１、登録話者データベースＤＢおよびディスプレイＤＰの間でそれぞれデータ送受信可能に接続される。なお、認証解析装置Ｐ１は、オペレータ側通話端末ＯＰ１、登録話者データベースＤＢおよびディスプレイＤＰの間でネットワーク（不図示）を介して、有線通信または無線通信が可能に接続されていてもよい。

認証解析装置Ｐ１は、オペレータ側通話端末ＯＰ１から送信されたユーザＵＳの音声信号を取得し、取得された音声信号を、例えば周波数ごとに音声解析して、ユーザＵＳ個人の発話特徴量を抽出する。認証解析装置Ｐ１は、登録話者データベースＤＢを参照して、登録話者データベースＤＢに事前に登録された複数のユーザのそれぞれの発話特徴量と、抽出された発話特徴量とを照合して、ユーザＵＳの音声認証を実行する。認証解析装置Ｐ１は、ユーザＵＳの認証結果を含む認証結果画面ＳＣを生成して、ディスプレイＤＰに送信して出力させる。なお、図１に示す認証結果画面ＳＣは、一例であってこれに限定されないことは言うまでもない。図１に示す認証結果画面ＳＣは、例えばユーザＵＳの認証結果であるメッセージ「山田太郎さんの声と一致しました。」を含む。

データベースの一例としての登録話者データベースＤＢは、所謂ストレージであって、例えばフラッシュメモリ、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）あるいはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶媒体を用いて構成される。登録話者データベースＤＢは、複数のユーザのそれぞれのユーザ情報と、発話特徴量とを対応付けて格納（登録）する。ここでいうユーザ情報は、ユーザに関する情報であって、例えば、ユーザ名、ユーザＩＤ（Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）またはユーザごとに割り当てられた識別情報等である。なお、登録話者データベースＤＢは、認証解析装置Ｐ１と一体的に構成されてもよい。

ディスプレイＤＰは、例えばＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）あるいは有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイを用いて構成され、認証解析装置Ｐ１から送信された認証結果画面ＳＣを表示する。なお、ディスプレイＤＰは、認証解析装置Ｐ１と一体的に構成されてもよい。

図１に示す例において、ユーザ側通話端末ＵＰ１は、ユーザＵＳの発話音声ＣＯＭ１２「山田太郎です」と、発話音声ＣＯＭ１４「１２３２４５６７８です」とを集音し、音声信号に変換して、オペレータ側通話端末ＯＰ１に送信する。オペレータ側通話端末ＯＰ１は、ユーザ側通話端末ＵＰ１から送信されたユーザＵＳの発話音声ＣＯＭ１２，ＣＯＭ１４のそれぞれに基づく音声信号を認証解析装置Ｐ１に送信する。

なお、オペレータ側通話端末ＯＰ１は、オペレータＯＰの発話音声ＣＯＭ１１「お名前を教えてください」と、発話音声ＣＯＭ１３「会員番号を教えてください」と、ユーザＵＳの発話音声ＣＯＭ１２および発話音声ＣＯＭ１４とを集音した音声信号を取得した場合には、オペレータＯＰの発話音声ＣＯＭ１１および発話音声ＣＯＭ１３のそれぞれに基づく音声信号を分離および除去し、ユーザＵＳの発話音声ＣＯＭ１２および発話音声ＣＯＭ１４のそれぞれに基づく音声信号のみを抽出して、認証解析装置Ｐ１に送信する。これにより、認証解析装置Ｐ１は、認証対象者の音声信号のみを用いることで、ユーザ認証精度を向上できる。

次に、図２を参照して、本実施の形態に係る認証解析装置の内部構成例について説明する。図２は、本実施の形態に係る認証解析装置の内部構成例を示すブロック図である。認証解析装置Ｐ１は、通信部２０と、プロセッサ２１と、メモリ２２と、を少なくとも含んで構成される。

通信部２０は、オペレータ側通話端末ＯＰ１および登録話者データベースＤＢのそれぞれとの間でデータ通信可能に接続する。通信部２０は、オペレータ側通話端末ＯＰ１から送信された音声信号をプロセッサ２１に出力する。

プロセッサ２１は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＧＰＵ（ＧｒａｐｈｉｃａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の電子デバイスのうち少なくとも１つが実装された半導体チップを用いて構成される。プロセッサ２１は、認証解析装置Ｐ１の全体的な動作を司るコントローラとして機能し、認証解析装置Ｐ１の各部の動作を統括するための制御処理、認証解析装置Ｐ１の各部との間のデータの入出力処理、データの演算処理およびデータの記憶処理を行う。

プロセッサ２１は、メモリ２２のＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２２Ａに記憶されたプログラムおよびデータを用いることで、発話区間検出部２１Ａ、登録品質判定部２１Ｂ、特徴量抽出部２１Ｃ、比較対象設定部２１Ｄ、類似度計算部２１Ｅ、認証条件設定部２１Ｆ、認証時集音条件測定部２１Ｇおよび動作制限設定部２１Ｈのそれぞれの機能を実現する。プロセッサ２１は、動作中にメモリ２２のＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２２Ｂを使用し、プロセッサ２１および各部が生成あるいは取得したデータもしくは情報をメモリ２２のＲＡＭ２２Ｂに一時的に保存する。

検出部の一例としての発話区間検出部２１Ａは、認証時の発話音声の音声信号（以下、「発話音声信号」と表記）を取得し、取得された発話音声信号を解析し、ユーザＵＳが発話している発話区間（以下、第１の発話区間と称する）を検出する。発話区間検出部２１Ａは、発話音声信号から検出された少なくとも１つの第１の発話区間に対応する発話音声信号（以下、第１音声信号と称する）を特徴量抽出部２１Ｃに出力する。また、発話区間検出部２１Ａは、少なくとも１つの第１の発話区間の第１音声信号をメモリ２２のＲＡＭ２２Ｂに一時的に保存してもよい。なお、発話区間検出部２１Ａは、第１の発話区間を複数検出した場合、検出されたそれぞれの第１の発話区間の第１音声信号を連結して特徴量抽出部２１Ｃに出力してもよい。また発話区間検出部２１Ａは、ユーザＵＳの認証に用いる発話音声信号を予め登録する際に、ユーザＵＳから取得した音声データの発話区間（以下、第２の発話区間と称する）を検出する。発話区間検出部２１Ａは、第２の発話区間に対応する発話音声信号（以下、第２音声信号と称する）を登録品質判定部２１Ｂに出力する。なお、発話区間検出部２１Ａは、第２の発話区間が複数存在している場合、検出されたそれぞれの第２の発話区間の第２音声信号を連結して登録品質判定部２１Ｂに出力してもよい。

処理部の一例としての登録品質判定部２１Ｂは、発話区間検出部２１Ａから第２の発話区間もしくは複数の第２の発話区間のそれぞれが連結された第２音声信号を取得する。登録品質判定部２１Ｂは、取得した第２音声信号の品質を判定する。品質とは、実際の認証に先だってユーザごとに第２音声信号を登録話者データベースＤＢに登録する際（登録時）、登録時のユーザの周囲環境の良し悪しあるいはユーザの発話精度、またはその両方を示す指標である。本実施の形態では、この登録時の品質に基づいて、実際の認証時にユーザに課す認証条件（後述参照）が決定される。登録品質判定部２１Ｂは、例えば、第２音声信号の発話の長さ（以下、発話長と称する）または第２音声信号に含まれる音数に基づき品質を判定する。なお、登録品質判定部２１Ｂが品質を判定するのに用いる要素は、発話長と音数に限られず、音素数または単語数でもよい。登録品質判定部２１Ｂは、判定した品質の情報を特徴量抽出部２１Ｃまたは認証条件設定部２１Ｆに出力する。

処理部の一例としての特徴量抽出部２１Ｃは、発話区間検出部２１Ａにより抽出された１以上の発話音声信号を用いて個人の音声の特徴を、例えば周波数ごとに解析して、発話特徴量を抽出する。特徴量抽出部２１Ｃは、発話区間検出部２１Ａから出力された第１の発話区間の第１音声信号の発話特徴量を抽出する。また、特徴量抽出部２１Ｃは、発話区間検出部２１Ａから出力された第２の発話区間の第２音声信号の発話特徴量を抽出する。なお、第２の発話区間の第２音声信号の発話特徴量は予め登録話者データベースＤＢに登録されていてもよい。特徴量抽出部２１Ｃは、抽出された第１の発話区間の発話特徴量と、この発話特徴量が抽出された第１音声信号とを対応付けて類似度計算部２１Ｅに出力したり、比較対象設定部２１Ｄに出力したりメモリ２２のＲＡＭ２２Ｂに一時的に保存したりする。特徴量抽出部２１Ｃは、第２の発話区間の発話特徴量と、この発話特徴量が抽出された第２音声信号とを対応付けて類似度計算部２１Ｅに出力したり、第２の発話区間の発話特徴量と、登録品質判定部２１Ｂから取得した品質に係る情報を紐づけてメモリ２２のＲＡＭ２２Ｂに一時的に保存したりする。

特徴量抽出部２１Ｃは、発話音声信号の発話内容を音声認識する。発話内容の音声認識の方法は、公知技術により実現可能であり、例えば発話音声信号の音素解析を行い言語情報として算出してもよいし、他の解析方法により実現されてもよい。

設定部の一例としての比較対象設定部２１Ｄは、登録話者データベースＤＢから話者であるユーザＵＳのデータを取得する。ここでユーザＵＳのデータとは、例えば、ユーザＵＳの生年月日、名前または性別などの個人情報またはユーザＵＳが過去に登録した発話に係る音声データもしくは音声データの特徴量の少なくとも１つである。比較対象設定部２１Ｄは、話者をユーザＵＳと設定するのに、例えば、特徴量抽出部２１Ｃから出力された話者の抽出特徴量を用いて話者をユーザＵＳと特定してもよいし、話者がユーザ側通話端末ＵＰ１に入力した内容（例えば、名前またはＩＤなど）から話者をユーザＵＳと特定してもよい。比較対象設定部２１Ｄは、取得したユーザＵＳのデータを発話区間検出部２１Ａまたは類似度計算部２１Ｅに出力する。

認証部の一例としての類似度計算部２１Ｅは、特徴量抽出部２１Ｃから出力された発話音声信号の発話特徴量を取得する。類似度計算部２１Ｅは、特徴量抽出部２１Ｃから取得した第１の発話区間の発話特徴量と第２の発話区間の発話特徴量との類似度を算出する。類似度計算部２１Ｅは、算出された類似度に基づいて、発話音声信号（つまり、ユーザ側通話端末ＵＰ１から送信された音声信号）に対応するユーザを特定してユーザの本人確認の認証を実行する。

決定部の一例としての認証条件設定部２１Ｆは、登録品質判定部２１Ｂから取得した品質に係る情報に基づき認証条件を設定する。認証条件とは、例えば、ユーザＵＳが発話する長さ、発話する内容または判定に係る閾値などである。なお、認証条件は、これらに限られない。

測定部の一例としての認証時集音条件測定部２１Ｇは、認証時の集音条件を測定する。集音条件とは、例えば、認証時に集音された発話音声信号のノイズ、音量、残響の度合いまたは発話音声信号に含まれる音素数などである。なお、集音条件は、これらに限られない。認証時集音条件測定部２１Ｇは、測定した集音条件を認証条件設定部２１Ｆに出力する。

設定部の一例としての動作制限設定部２１Ｈは、第２の発話区間の発話音声信号の品質に基づき、ユーザＵＳのできる動作に制限を設定する。例えば、認証システム１００がＡＴＭ（ＡｕｔｏｍａｔｉｃＴｅｌｌｅｒＭａｃｈｉｎｅ）に搭載されている場合、動作制限設定部２１Ｈは、発話音声信号の品質が悪い場合送金または振替などの動作を制限する。なお、認証システム１００が搭載される機械の例はＡＴＭに限られない。

これらによって、プロセッサ２１は、登録品質判定部２１Ｂが判定した第２音声信号の品質に基づきユーザの本人確認の認証時の認証条件を設定する。プロセッサ２１は、設定した認証条件に基づきユーザの発話音声信号を取得する。プロセッサ２１は、発話区間検出部２１Ａにより検出された第１の発話区間の第１音声信号と、第２の発話区間の第２音声信号との照合に基づいて、話者が本人であるか否かを認証する。

メモリ２２は、例えばプロセッサ２１が行う各種の処理を規定したプログラムとそのプログラムの実行中に使用するデータとを格納するＲＯＭ２２Ａと、プロセッサ２１が行う各種の処理を実行する際に用いるワークメモリとしてのＲＡＭ２２Ｂと、を少なくとも有する。ＲＯＭ２２Ａには、プロセッサ２１が行う各種の処理を規定したプログラムとそのプログラムの実行中に使用するデータとが書き込まれている。ＲＡＭ２２Ｂには、プロセッサ２１により生成あるいは取得されたデータもしくは情報（例えば、発話音声信号または各発話音声信号に対応する発話特徴量等）が一時的に保存される。

表示Ｉ／Ｆ２３は、プロセッサ２１とディスプレイＤＰとの間をデータ通信可能に接続し、プロセッサ２１の類似度計算部２１Ｅにより生成された認証結果画面ＳＣをディスプレイＤＰに出力する。表示Ｉ／Ｆ２３は、プロセッサ２１の認証結果に基づき話者が本人であるか否かを示す認証状況をディスプレイＤＰに表示させる。

次に、図３を参照して、登録用の発話音声信号の登録処理を説明する。図３は、登録用の発話音声信号の登録処理に係るフローチャートである。なお、図３のフローチャートに係る各処理はプロセッサ２１によって実行される。

図３のフローチャートは、登録時、つまり予め登録話者データベースＤＢに保存しておく発話音声信号の登録に係る処理を表す。

プロセッサ２１は、話者からの登録用の発話音声信号（以下、登録音声信号と称する）の受信を開始する（Ｓｔ１０）。つまり、ステップＳｔ１０の処理で、話者はユーザ側通話端末ＵＰ１に対して発話を開始する。

プロセッサ２１は、話者からの登録音声信号の受信を終了する（Ｓｔ１１）。つまり、ステップＳｔ１１の処理で、話者はユーザ側通話端末ＵＰ１に対して発話を終了する。

発話区間検出部２１Ａは、ステップＳｔ１０からステップＳｔ１１までの処理で取得した登録音声信号の第２の発話区間を検出する（Ｓｔ１２）。

登録品質判定部２１Ｂは、ステップＳｔ１２の処理で検出された第２の発話区間の第２音声信号の品質を判定する（Ｓｔ１３）。

登録品質判定部２１Ｂは、ステップＳｔ１３の処理で判定した品質に基づき登録音声信号を再取得するか否かを判定する（Ｓｔ１４）。登録品質判定部２１Ｂは、例えば品質が予め定められた必要最低限の値以上である場合に再取得しないと判定し、品質が予め定められた必要最低限の値未満である場合に再取得すると判定する。例えば、話者が一言も発話していない、発話長が１秒であるまたは音数が１音である場合、登録品質判定部２１Ｂは、登録音声信号を再取得すると判定する。なお、登録品質判定部２１Ｂが再取得すると判定する例は、一例でありこれらに限定されない。また、ステップＳｔ１４の処理は図３に係るフローチャートの処理から省略されてもよい。

登録品質判定部２１Ｂは、登録音声信号を再取得すると判定した場合（Ｓｔ１４，ＹＥＳ）、プロセッサ２１の処理はステップＳｔ１０の処理に戻る。

登録品質判定部２１Ｂは、登録音声信号を再取得しないと判定した場合（Ｓｔ１４，ＮＯ）、特徴量抽出部２１Ｃは、第２の発話区間の発話音声信号の発話特徴量を抽出する（Ｓｔ１５）。

特徴量抽出部２１Ｃは、ステップＳｔ１３の処理で判定された品質とステップＳｔ１５の処理で抽出された発話特徴量とを紐づけて登録話者データベースＤＢに保存する（Ｓｔ１６）。

次に、図４を参照して、発話長に基づく認証条件の設定の一例を説明する。図４は、発話長に基づく認証条件の設定の一例を示す図である。

登録音声信号ＵＳ１０、登録音声信号ＵＳ１１および登録音声信号ＵＳ１２は、図３に係る処理で登録話者データベースＤＢに登録されたユーザＵＳの登録音声信号である。

図４に係る例では、発話長が１０秒未満の場合、品質は「低」に、発話長が１０秒以上の場合、品質は「高」となる。なお、品質が「低」または「高」となる閾値の秒数は一例であり限定されない。また、品質は、「低」および「高」の２段階に限られず、例えば「低」、「中」および「高」の３段階、あるいは４段階以上に設定されてもよい。

認証条件設定部２１Ｆは、品質の結果に基づき要求時間を変更する。図４に係る例では品質が「低」の場合、要求時間は１５秒であり、品質が「高」の場合、要求時間は７秒となる。要求時間とは、認証システム１００が認証を行う際に話者に要求する発話の合計時間である。なお、要求時間の長さは一例でありこれらに限定されない。図４に係る例では、判定閾値は品質の結果に関わらず全て７０とする。判定閾値とは、類似度計算部２１Ｅが第１の発話区間の発話特徴量と第２の発話区間の発話特徴量との類似度の判定に用いる閾値のことである。判定閾値が高いほど、より高い類似度が必要となる。なお、判定閾値の値は一例であり７０に限定されない。

登録音声信号ＵＳ１０の発話内容は、「あかさたなです（ａｋａｓａｔａｎａｄｅｓｕ）」であり、発話長は５秒となる。登録音声信号ＵＳ１０は、発話長が５秒で１０秒未満であるため品質は「低」となる。この結果、登録音声信号ＵＳ１０に係る認証条件として要求時間は１５秒、判定閾値は７０となる。

登録音声信号ＵＳ１１の発話内容は、「あかさたなですはまやらわです（ａｋａｓａｔａｎａｄｅｓｕｈａｍａｙａｒａｗａｄｅｓｕ）」であり、発話長は８秒となる。登録音声信号ＵＳ１１は、発話長が８秒で１０秒未満であるため品質は「低」となる。この結果、登録音声信号ＵＳ１１に係る認証条件として要求時間は１５秒、判定閾値は７０となる。

登録音声信号ＵＳ１２の発話内容は、「あかさたなですいちにさんしごろくななです（ａｋａｓａｔａｎａｄｅｓｕｉｃｈｉｎｉｓａｎｓｈｉｇｏｒｏｋｕｎａｎａｄｅｓｕ）」であり、発話長は１３秒となる。登録音声信号ＵＳ１２は、発話長が１３秒で１０秒以上であるため品質は「高」となる。この結果、登録音声信号ＵＳ１２に係る認証条件として要求時間は７秒、判定閾値は７０となる。

次に、図５を参照して、発話長および音数に基づく認証条件の設定の一例を説明する。図５は、発話長および音数に基づく認証条件の設定の一例を示す図である。

図５に係る例では、発話長が１０秒未満の場合、品質は「低」に、発話長が１０秒以上の場合、品質は「高」となる。音数が１３音未満の場合、品質は「低」に、音数が１３音以上の場合、品質は「高」となる。なお、品質が「低」または「高」となる閾値の秒数および音数は一例であり限定されない。また、品質は、「低」および「高」に限られず「低」、「中」および「高」の３段階、あるいは４段階以上に設定されてもよい。

発話長および音数の品質の結果に基づき、認証条件設定部２１Ｆは、要求時間を変更する。発話長および音数の品質のうち品質が低い方を登録音声信号の品質とする。図５に係る例では品質が「低」の場合、要求時間は１５秒であり、品質が「高」の場合、要求時間は７秒となる。なお、要求時間の長さは一例でありこれらに限定されない。図５に係る例では、判定閾値は品質の結果に関わらず全て７０とする。

登録音声信号ＵＳ１０の発話内容は「あかさたなです（ａｋａｓａｔａｎａｄｅｓｕ）」であり、音数は７音となる。登録音声信号ＵＳ１０の発話長は５秒であり１０秒未満であるため発話長に係る品質は「低」となる。音数は７音であり１３音未満であるため音数に係る品質は「低」となる。発話長および音数の品質がどちらも「低」であり、登録音声信号ＵＳ１０の品質は「低」となる。この結果、登録音声信号ＵＳ１０に係る認証条件としての要求時間は１５秒、判定閾値は７０となる。

登録音声信号ＵＳ１１の発話内容は「あかさたなですはまやらわです（ａｋａｓａｔａｎａｄｅｓｕｈａｍａｙａｒａｗａｄｅｓｕ）」であり、音数は１４音となる。登録音声信号ＵＳ１１の発話長は８秒であり１０秒未満であるため発話長に係る品質は「低」となる。音数は１４音であり１３音以上であるため音数に係る品質は「高」となる。音数の品質は「高」であるが発話長の品質が「低」のため、登録音声信号ＵＳ１１の品質は「低」となる。この結果、登録音声信号ＵＳ１１に係る認証条件としての要求時間は１５秒、判定閾値は７０となる。

登録音声信号ＵＳ１２の発話内容は「あかさたなですいちにさんしごろくななです（ａｋａｓａｔａｎａｄｅｓｕｉｃｈｉｎｉｓａｎｓｈｉｇｏｒｏｋｕｎａｎａｄｅｓｕ）」であり、音数は２０音となる。登録音声信号ＵＳ１２の発話長は１３秒であり１０秒以上であるため発話長に係る品質は「高」となる。音数は２０音であり１３音以上であるため音数に係る品質は「高」となる。発話長および音数の品質がどちらも「高」であり、登録音声信号ＵＳ１２の品質は「高」となる。この結果、登録音声信号ＵＳ１２に係る認証条件としての要求時間は７秒、判定閾値は７０となる。

次に、図６を参照して、登録音声信号の品質に応じて認証条件として発話内容を設定する一例を説明する。図６は、登録音声信号の品質に応じて認証条件として発話内容を設定する一例を示す図である。図６に係る品質の判定方法は、図４の判定方法と同様とする。

認証条件設定部２１Ｆは、品質の結果に基づきユーザＵＳに発話を促す文言を指定する。図６に係る例では品質が「低」の場合、特徴量抽出部２１Ｃは登録音声信号の音声認識を実行し発話内容を解析し認証条件設定部２１Ｆに出力する。認証条件設定部２１Ｆは、特徴量抽出部２１Ｃから取得した音声認識の結果に基づきユーザＵＳに指定する文言を決定する。品質が「低」となり、認証条件設定部２１Ｆが発話内容を指定する場合、要求時間は指定なしとなる。品質が「高」の場合、ユーザＵＳに文言の指定はしない。なお、品質が「高」であってもユーザＵＳに文言の指定をしてもよく、品質が「低」のときよりも短い文章を指定しユーザの利便性を向上させてもよい。図６に係る例では、品質が「高」の場合、認証条件として要求時間を７秒と設定する。なお、品質が「高」の場合の要求時間は一例であり７秒に限られない。判定閾値は、図６の例では品質に関わらず７０の一定値とする。なお、判定閾値は一定値とせず品質によって変更してもよい。

登録音声信号ＵＳ１０の発話内容は、「あかさたなです」である。登録音声信号ＵＳ１０の品質は「低」となるため、特徴量抽出部２１Ｃは、登録音声信号ＵＳ１０の音声認識を実行し、認識結果が「あかさたなです」となる。認証条件設定部２１Ｆは、特徴量抽出部２１Ｃから取得した認識結果に基づき、文言を「あかさたなです」に指定する。認証条件設定部２１Ｆは、要求時間は指定なし、判定閾値は７０とする。

登録音声信号ＵＳ１２の発話内容は、「あかさたなですいちにさんしごろくななです」である。登録音声信号ＵＳ１２の品質は「高」となるため、特徴量抽出部２１Ｃは音声認識を実行しない。認証条件設定部２１Ｆは、認証条件として要求時間は７秒と設定し、判定閾値は７０と設定する。認証条件設定部２１Ｆは、登録音声信号ＵＳ１２の品質が「高」のため文言は指定しない。

これにより、認証システム１００は、登録音声信号の品質に応じて登録音声信号の発話内容に基づく文言をユーザＵＳに指定し発話させることで高い認証の精度を保ちつつ短時間で認証することができる。また、認証システム１００は、登録音声信号の品質が高い場合は、発話内容を指定されずユーザＵＳの手間を省くことができる。

次に、図７を参照して、オペレータが画面に表示された本人確認用文章に基づき本人確認の認証を実施する例を説明する。図７は、オペレータが画面に表示された認証用文章に基づき本人確認の認証を実施する例を示す図である。

図６で示した品質が「低」の場合、認証システム１００は、音声認識を用いてユーザＵＳに発話させる文言を指定する。図７では、図６に係る方法で指定されたユーザＵＳに発話させる文言をオペレータがユーザＵＳの本人確認の認証の際にみる画面（以下、オペレータ画面と称する）に表示し、オペレータＯＰがユーザＵＳに指定された文言を発話させる例を説明する。

まず、ケースＣＣに示す例について説明する。画面ＳＣ１は、ディスプレイＤＰに表示されるオペレータ画面の一例である。

枠ＦＲ１には、話者の登録情報が表示される。枠ＦＲ１には、話者の登録情報として「発信元番号」、「登録名」、「登録住所」、「年齢」および「話者登録有無」が表示される。「発信元番号」は、例えば電話番号である。「話者登録有無」は、登録話者データベースＤＢに登録音声信号が保存されているか否かを表す。また、登録話者データベースＤＢに登録音声信号が保存されている場合、登録音声信号に紐づけられた品質も併せて表示する。例えば、枠ＦＲ１には、「発信元番号」は××－××××－××××、「登録名」はＡ田Ａ男、「登録住所」はＡＢＣＤＥＦＧ、「年齢」は３３および「話者登録有無」は有（品質：低）と表示される。

枠ＦＲ２には、話者の認証結果として、話者と考えられる候補者が表示される。また、候補者の横には、話者が候補者である確率が表示される。枠ＦＲ２の例では、確率は百分率で示されるがこれに限られず「低、中、高」のような表示でもよい。枠ＦＲ２には、認証結果として「Ａ田Ａ男：７０％」、「Ｂ山Ｂ郎：２５％」および「Ｃ川Ｃ夫：５％」と表示される。

枠ＦＲ３には、話者に発話させる文言（以下、本人認証用文章と称する）を表示する。枠ＦＲ３には、本人認証用文章として「はまやらわですはちきゅうじゅうぜろです」と表示する。

ボタンＢＴ１は、認証を開始または停止させるボタンである。

オペレータＯＰは、画面ＳＣ１の枠ＦＲ３に表示された本人認証用文章に基づき発話音声ＯＰ１０「「はまやらわですはちきゅうじゅうぜろです」とお話しください」と発話する。ユーザＵＳは、オペレータＯＰの発話に基づき発話音声ＵＳ１３「はまやらわですはちきゅうじゅうぜろです」と発話する。

次に、ケースＣＤに示す例について説明する。画面ＳＣ２は、ディスプレイＤＰに表示されるオペレータ画面の一例である。

枠ＦＲ５には、話者の登録情報が表示される。枠ＦＲ５には、話者の登録情報として「発信元番号」、「登録名」、「登録住所」、「年齢」および「話者登録有無」が表示される。例えば、枠ＦＲ２には、「発信元番号」は××－××××－××××、「登録名」はＢ山Ｂ郎、「登録住所」はＧＦＥＤＣＢＡ、「年齢」は４４および「話者登録有無」は有（品質：高）と表示される。

枠ＦＲ６には、話者の認証結果として、話者と考えられる候補者が表示される。また、候補者の横には、話者が候補者である確率が表示される。枠ＦＲ２には、認証結果として「Ａ田Ａ男：１５％」、「Ｂ山Ｂ郎：６０％」および「Ｃ川Ｃ夫：２５％」と表示される。

枠ＦＲ７には、本人認証用文章として「はまやらわです」と表示する。ケースＣＤは、品質が「高」であるため、品質が「低」のケースＣＣよりも短い文言を本人確認用文章として指定される。

ボタンＢＴ２は、認証を開始または停止させるボタンである。

オペレータＯＰは、画面ＳＣ２の枠ＦＲ７に表示された本人認証用文章に基づき発話音声ＯＰ１１「「はまやらわです」とお話しください」と発話する。ユーザＵＳは、オペレータＯＰの発話に基づき発話音声ＵＳ１４「はまやらわです」と発話する。

図７ではオペレータＯＰがオペレータ画面に表示される本人認証用文章を読み上げてユーザＵＳに発話させたが、自動音声により本人認証用文章を流しユーザＵＳに発話させてもよい。

これにより、認証システム１００は、ユーザＵＳおよびオペレータＯＰが発話長を気にせずに認証を行うことができるようにする。また、認証システム１００は、登録音声信号の品質が高い場合は、短い文言をユーザＵＳに指定して認証を行えるので認証にかかる時間を短縮することができる。また、認証システム１００は、登録音声信号の品質が低い場合は、品質が高い場合よりも長い文言をユーザＵＳに指定することで高い認証の精度を保つことができ、認証の失敗またはやり直しを防ぐことができる。

次に、図８を参照して、ユーザ側通話端末に表示された本人確認用文章に基づき本人確認の認証を実施する例を説明する。図８は、ユーザ側通話端末に表示された本人確認用文章に基づき本人確認の認証を実施する例を示す図である。

まず、ケースＣＥに示す例について説明する。ケースＣＥは、登録音声信号の品質が低い場合の例である。画面ＳＣ３は、ユーザ側通話端末ＵＰ１に表示された画面の一例である。

画面ＳＣ３には、「本人確認文章はまやらわですはちきゅうじゅうぜろですを発話ください」と表示される。枠ＦＲ９には、本人確認文章として「はまやらわですはちきゅうじゅうぜろです」が表示されユーザＵＳによって表示される文章が異なる。

ユーザＵＳは、画面ＳＣ３に表示された内容をみて発話音声ＵＳ１３「はまやらわですはちきゅうじゅうぜろです」と発話する。

次に、ケースＣＦに示す例について説明する。ケースＣＦは、登録音声信号の品質が高い場合の例である。画面ＳＣ４は、ユーザ側通話端末ＵＰ１に表示された画面の一例である。

画面ＳＣ４には、「本人確認文章はまやらわですを発話ください」と表示される。枠ＦＲ９には、本人確認文章として「はまやらわです」が表示される。

ユーザＵＳは、画面ＳＣ４に表示された内容をみて発話音声ＵＳ１３「はまやらわです」と発話する。

これにより、認証システム１００は、ユーザＵＳに発話長を気にさせずに認証を行うことができる。また、これにより、認証システム１００は、オペレータＯＰ等の人物を介さず無人でユーザＵＳの認証を行うことができる。

次に、図９および図１０を参照して、認証条件を設定後に認証時の集音条件の測定結果から認証条件を再設定する例を説明する。図９は、認証条件を設定後に認証時の集音条件の測定結果から認証条件の要求時間を再設定する例を示す図である。図１０は、認証条件を設定後に認証時の集音条件の測定結果から認証条件の閾値を再設定する例を示す図である。

認証時集音条件測定部２１Ｇは、認証時の集音条件（以下、認証時集音条件と称する）として認証時に集音された発話音声信号のノイズ、音量、残響の度合いまたは発話音声信号に含まれる音素数などを測定する。図９および図１０は、一度認証条件が設定されたあと（以下、初期認証条件と称する）測定された認証時集音条件によって認証条件が再設定される例を示す。

発話音声信号のノイズがノイズに関する所定値以上の場合、つまりノイズが多い場合、認証条件設定部２１Ｆは認証条件として要求時間を３秒長くする。

発話音声信号の音量が音量に関する所定値未満の場合、つまり音量が小さい場合、認証条件設定部２１Ｆは認証条件として要求時間を３秒長くする。

発話音声信号の音素数が音素数に関する所定値未満の場合、つまり音素数が少ない場合、認証条件設定部２１Ｆは認証条件として要求時間を３秒長くする。

発話音声信号の残響が残響に関する所定値以上の場合、つまり残響が大きい場合、認証条件設定部２１Ｆは認証条件として要求時間を５秒長くする。

なお、ノイズ、音量、音素数および残響に関して長くする要求時間の長さは一例でありこれらに限定されない。

発話音声信号の品質が「低」の場合、初期認証条件は要求時間が１５秒および判定閾値が７０となる。なお、初期認証条件は一例でありこれに限定されない。認証時集音条件としてノイズが多い場合、認証条件設定部２１Ｆは要求時間を３秒長くする。この結果、再設定後の認証条件は要求時間が１８秒および判定閾値が７０となる。認証時集音条件として音量が小さい場合、認証条件設定部２１Ｆは要求時間を３秒長くする。この結果、再設定後の認証条件は要求時間が１８秒および判定閾値が７０となる。

発話音声信号の品質が「高」の場合、初期認証条件は要求時間が７秒および判定閾値が７０となる。なお、初期認証条件は一例でありこれに限定されない。認証時集音条件として音量が小さくかつノイズが多い場合、認証条件設定部２１Ｆは要求時間を合計で６秒長くする。この結果、再設定後の認証条件は要求時間が１３秒および判定閾値が７０となる。認証時集音条件として音素数が少ない場合、認証条件設定部２１Ｆは要求時間を３秒長くする。この結果、再設定後の認証条件は要求時間が１０秒および判定閾値が７０となる。認証時集音条件として残響が大きい場合、認証条件設定部２１Ｆは要求時間を５秒長くする。この結果、再設定後の認証条件は要求時間が１２秒および判定閾値が７０となる。認証時集音条件が良好の場合、認証条件は初期認証条件と同様となる。

次に、図１０を参照して、認証条件を設定後に認証時の集音条件の測定結果から認証条件の閾値を再設定する例を説明する。

発話音声信号のノイズがノイズに関する所定値以上の場合、つまりノイズが多い場合、認証条件設定部２１Ｆは認証条件として判定閾値を１０低くする。

発話音声信号の音量が音量に関する所定値未満の場合、つまり音量が小さい場合、認証条件設定部２１Ｆは認証条件として判定閾値を１５低くする。

発話音声信号の音素数が音素数に関する所定値未満の場合、つまり音素数が少ない場合、認証条件設定部２１Ｆは認証条件として判定閾値を１０低くする。

発話音声信号の残響が残響に関する所定値以上の場合、つまり残響が大きい場合、認証条件設定部２１Ｆは認証条件として判定閾値を２０低くする。

なお、ノイズ、音量、音素数および残響に関して低くする判定閾値の値は一例でありこれらに限定されない。

発話音声信号の品質が「低」の場合、初期認証条件は要求時間が１５秒および判定閾値が７０となる。なお、初期認証条件は一例でありこれに限定されない。認証時集音条件としてノイズが多い場合、認証条件設定部２１Ｆは判定閾値を１０低くする。この結果、再設定後の認証条件は要求時間が１５秒および判定閾値が６０となる。認証時集音条件として音量が小さい場合、認証条件設定部２１Ｆは判定閾値を１５低くする。この結果、再設定後の認証条件は要求時間が１５秒および判定閾値が５５となる。

発話音声信号の品質が「高」の場合、初期認証条件は要求時間が７秒および判定閾値が７０となる。なお、初期認証条件は一例でありこれに限定されない。認証時集音条件として音量が小さくかつノイズが多い場合、認証条件設定部２１Ｆは判定閾値を合計で２５低くする。この結果、再設定後の認証条件は要求時間が７秒および判定閾値が４５となる。認証時集音条件として音素数が少ない場合、認証条件設定部２１Ｆは判定閾値を１０低くする。この結果、再設定後の認証条件は要求時間が７秒および判定閾値が６０となる。認証時集音条件として残響が大きい場合、認証条件設定部２１Ｆは判定閾値を２０低くする。この結果、再設定後の認証条件は要求時間が７秒および判定閾値が５０となる。認証時集音条件が良好の場合、認証条件は初期認証条件と同様となる。

これにより、認証システム１００は、登録音声信号の品質に関わらず、認証時の集音条件が悪い場合は要求時間を長くする、判定閾値を低くするもしくはその両方をすることで精度高く認証できる。

次に、図１１を参照して、話者の認証に係る処理を説明する。図１１は、話者の認証に係る処理のフローチャートである。図１１に係る各処理は、プロセッサ２１によって実行される。

比較対象設定部２１Ｄは、認証対象人物である話者を本人確認する認証を実行する際に登録話者データベースＤＢに登録されている複数の人物の中から認証に用いる人物を設定する（Ｓｔ２０）。

比較対象設定部２１Ｄは、登録話者データベースＤＢからステップＳｔ２０の処理で設定された比較対象である人物の登録音声信号の品質に関する情報を取得する（Ｓｔ２１）。比較対象設定部２１Ｄは、取得した情報を認証条件設定部２１Ｆに出力する。また、比較対象設定部２１Ｄは、登録話者データベースＤＢから比較対象である人物の登録音声信号の登録特徴量を取得し、類似度計算部２１Ｅに出力する。

認証時集音条件測定部２１Ｇは、認証時集音条件を測定する（Ｓｔ２２）。なお、ステップＳｔ２２の処理は図１１に係るフローチャートの処理から省略されてもよい。

認証条件設定部２１Ｆは、ステップＳｔ２１の処理で比較対象設定部２１Ｄから取得した品質に関する情報に基づき認証条件を設定する（Ｓｔ２３）。

プロセッサ２１は、認証処理を開始する信号を通信部２０に送信する（Ｓｔ２４）。通信部２０は、オペレータ側通話端末ＯＰ１に認証を開始させる指示を送信する。

認証条件設定部２１Ｆは、比較対象設定部２１Ｄから話者の登録音声信号の登録特徴量を取得する。認証条件設定部２１Ｆは、取得した登録特徴量に基づき認証に用いる発話内容の文言を指定する（Ｓｔ２５）。なお、ステップＳｔ２５の処理は図１１に係るフローチャートの処理から省略されてもよい。

プロセッサ２１は、認証に用いる発話音声信号の受信を開始する（Ｓｔ２６）。プロセッサ２１は、取得した発話音声信号を特徴量抽出部２１Ｃに出力する。

認証時集音条件測定部２１Ｇは、認証時集音条件を測定する（Ｓｔ２７）。認証時集音条件測定部２１Ｇは、測定した認証時集音条件の情報を認証条件設定部２１Ｆに出力する。なお、ステップＳｔ２７の処理は図１１に係るフローチャートの処理から省略されてもよい。

認証条件設定部２１Ｆは、ステップＳｔ２７の処理で取得した認証時集音条件に基づき認証条件を再設定する（Ｓｔ２８）。プロセッサ２１は、認証条件設定部２１ＦがステップＳｔ２８の処理で再設定した認証条件に基づき発話音声信号を取得する。プロセッサ２１は、取得した発話音声信号を特徴量抽出部２１Ｃに出力する。なお、ステップＳｔ２８の処理は図１１に係るフローチャートの処理から省略されてもよい。

プロセッサ２１は、認証処理を終了するつまり認証に用いる発話音声信号の受信を終了する信号を通信部２０に送信する（Ｓｔ２９）。通信部２０は、オペレータ側通話端末ＯＰ１に認証を終了させる指示を送信する。

特徴量抽出部２１Ｃは、ステップＳｔ２６の処理もしくはステップＳｔ２８の処理で取得した発話音声信号の発話特徴量を抽出する（Ｓｔ３０）。特徴量抽出部２１Ｃは、抽出した発話特徴量を類似度計算部２１Ｅに出力する。

類似度計算部２１Ｅは、ステップＳｔ２１で取得した登録特徴量とステップＳｔ３０の処理で取得した発話特徴量とに基づき類似度を計算する（Ｓｔ３１）。

類似度計算部２１Ｅは、ステップＳｔ３１の処理で計算した類似度が予め定められた閾値以上であるか否かを判定する（Ｓｔ３２）。類似度計算部２１Ｅは、類似度が予め定められた閾値以上であると判定すると（Ｓｔ３２、ＹＥＳ）、話者の本人確認の認証が成功した旨の信号を通信部２０、表示Ｉ／Ｆ２３もしくはその両方に出力する。

類似度計算部２１Ｅは、類似度が予め定められた閾値未満であると判定した場合（Ｓｔ３２、ＮＯ）、認証処理を継続するか否かを判定する（Ｓｔ３４）。

類似度計算部２１Ｅは、認証処理を継続すると判定した場合（Ｓｔ３４、ＹＥＳ）、プロセッサ２１の処理はステップＳｔ２２の処理に戻る。ステップＳｔ２２の処理が省略される場合は、プロセッサ２１の処理はステップＳｔ２３の処理に戻る。

類似度計算部２１Ｅは、認証処理を継続しないと判定した場合（Ｓｔ３５、ＮＯ）、話者の本人確認の認証が失敗した旨の信号を通信部２０、表示Ｉ／Ｆ２３もしくはその両方に出力する。

次に、図１２を参照して、登録音声信号の品質によって認証が成功した後の動作に制限を設ける例を説明する。図１２は、登録音声信号の品質によって認証が成功した後の動作に制限を設ける例を示す図である。

図１２に係る登録音声信号ＵＳ１０および登録音声信号ＵＳ１２は、図４に係る登録音声信号ＵＳ１０および登録音声信号ＵＳ１２と同様である。そのため図１２では、認証条件が設定されるまでの説明は省略する。

認証システム１００が例えば銀行のＡＴＭに搭載された場合などで、動作制限設定部２１Ｈは登録音声信号の品質に基づき、話者の本人確認の認証が成功した後の動作（例えば、入金など）に制限をかけてもよい。なお、認証システム１００が搭載される例は銀行のＡＴＭに限られないがここでは、説明の便宜上認証システム１００は銀行のＡＴＭに搭載されているものとする。

ケースＣＧは、登録音声信号の品質が低い場合の認証の一例である。ケースＣＧでは、登録音声信号の品質が低いため、動作制限設定部２１Ｈは動作モードに制限をかけ制限モードとして動作させる。制限モードでは、例えば、口座の残金の紹介および入金のみができる。なお、制限モードで可能とされる動作は一例でありこれらに限られない。

ケースＣＨは、登録音声信号の品質が高い場合の認証の一例である。ケースＣＨでは、登録音声信号の品質が高いため、動作制限設定部２１Ｈは動作モードに制限をかけない通常モードとして動作させる。通常モードでは、例えば、口座の残金の紹介、入金、送金または振替などの全ての動作が可能とされる。なお、通常モードで可能とされる動作は一例でありこれらに限られない。

これにより、認証システム１００は、登録音声信号の品質が低い場合、認証システム１００の搭載されている機械に動作制限を設けることで、誤判定時のリスクを下げることができる。

次に、図１３を参照して、登録音声信号の品質に基づき動作制限を設ける処理を説明する。図１３は、登録音声信号の品質に基づき動作制限を設ける処理のフローチャートである。図１３に係るフローチャートの各処理はプロセッサ２１によって実行される。なお、図１３のフローチャートの処理で図１１のフローチャートの処理と同様の処理は同一符合を付記し説明を省略する。

ステップＳｔ３４の処理で、話者の本人確認に係る認証が成功すると、動作制限設定部２１Ｈは登録音声信号の品質が高いか否かを判定する（Ｓｔ３６）。

動作制限設定部２１Ｈは、登録音声信号の品質が高いと判定した場合（Ｓｔ３６、ＹＥＳ）、動作モードを通常モードに設定する（Ｓｔ３７）。

動作制限設定部２１Ｈは、登録音声信号の品質が低いと判定した場合（Ｓｔ３６、ＮＯ）、動作モードを制限モードに設定する（Ｓｔ３８）。

以上により、本実施の形態に係る認証システム（例えば、認証システム１００）は、話者の発話音声の音声信号を取得する取得部（例えば、ユーザ側通話端末ＵＰ１）を備える。認証システムは、取得された音声信号から話者が発話している第１の発話区間と、複数の話者のそれぞれの音声信号が登録されたデータベースの音声信号から話者が発話している第２の発話区間と、を検出する検出部（例えば、発話区間検出部２１Ａ）を備える。認証システムは、第１の発話区間の第１音声信号と、第２の発話区間の第２音声信号とを照合し、第２の発話区間の第２音声信号の長さもしくは第２の発話区間に含まれる音数に基づき第１音声信号を用いる認証の認証条件を決定する決定部（例えば、認証条件設定部２１Ｆ）を備える。認証システムは、決定された前記認証条件に基づいて、前記話者の認証を行う認証部（例えば、類似度計算部２１Ｅ）と、を備える。

これにより、本実施の形態に係る認証システムは、登録音声信号の発話長もしくは音数に基づいて認証時にユーザに求める認証条件を決定することができるので、ユーザ毎に認証条件を変えることができる。これにより、認証システムは、登録時に取得したユーザの発話音声の合計時間の長さに応じて認証時の発話時間を決定し、ユーザの利便性を向上することができる。

また、本実施の形態に係る認証システムの認証部は、第２の発話区間の長さが第１の所定値以上であって、第１の発話区間の長さが第２の所定値以上となる場合に認証を開始する。認証部は、第２の発話区間の長さが第１の所定値未満であって、第１の発話区間の長さが第２の所定値より大きい第３の所定値以上となる場合に認証を開始する。これにより、認証システムは、登録音声信号の発話長に基づく品質により、認証時に判定するために十分と推測される秒数を設定してユーザに発話を要求するため、ユーザが必要以上に長く発話したり、発話が短すぎて認証が失敗したりすることを防ぐことができる。これにより、認証システム１００は、登録時に取得したユーザの発話音声の合計時間の長さに応じて認証時の発話時間を決定し、ユーザの利便性を向上することができる。

また、本実施の形態に係る認証システムの認証部は、第２の発話区間に含まれる音数が第４の所定値以上であって、第１の発話区間の長さが第２の所定値以上となる場合に認証を開始する。認証部は、第２の発話区間に含まれる音数が第４の所定値未満であって、第１の発話区間の長さが第２の所定値より大きい第３の所定値以上となる場合に認証を開始する。これにより、認証システムは、登録音声信号の音数に基づく品質により、認証時に安定するために十分と推測される秒数を設定してユーザに発話を要求するため、ユーザが必要以上に長く発話したり、発話が短すぎて認証が失敗したりすることを防ぐことができる。これにより、認証システムは、認証時のユーザの利便性を向上することができる。

また、本実施の形態に係る認証システムの認証部は、第２の発話区間の長さが第１の所定値以上かつ第２の発話区間に含まれる音数が第４の所定値以上であって、第１の発話区間の長さが第２の所定値以上となる場合に前記認証を開始する。認証部は、第２の発話区間の長さが第１の所定値未満または第２の発話区間に含まれる音数が第４の所定値未満であって、第１の発話区間の長さが第２の所定値より大きい第３の所定値以上となる場合に認証を開始する。これにより、認証システムは、登録音声信号の発話長および音数に応じて、認証時にユーザに求める発話長を決定することができる。認証システムは、発話長と音数とから認証条件を決定できるため、ユーザの利便性を向上するとともにより高精度な認証を行うことができる。

また、本実施の形態に係る認証システムの決定部は、第２の発話区間の長さが第１の所定値未満の場合、第２の発話区間の音声信号に含まれる発話内容から話者に発話を促すテキストを決定する。これにより、認証システムは、登録音声信号の発話長に応じて登録音声信号の発話内容に基づく文言をユーザに指定し発話させることで高い認証の精度を保ちつつ短時間で認証することができる。また、認証システムは、登録音声信号の発話長が十分に長い場合は、発話内容を指定されずユーザＵＳの手間を省くことができる。

また、本実施の形態に係る認証システムは、オペレータが認証時に参照する画面を表示する第１表示部（例えば、ディスプレイＤＰ）をさらに備え、決定部は、テキストを第１表示部に表示させる。これにより、認証システムは、ユーザおよびオペレータが発話長を気にせずに認証を行うことができるようにする。また、認証システムは、登録音声信号の品質が高い場合は、短い文言をユーザに指定して認証を行えるので認証にかかる時間を短縮することができる。また、認証システムは、登録音声信号の品質が低い場合は、品質が高い場合よりも長い文言をユーザに指定することで高い認証の精度を保つことができ、認証の失敗またはやり直しを防ぐことができる。

また、本実施の形態に係る認証システムは、話者が認証時に参照する画面を表示する第２表示部（例えばユーザ側通話端末ＵＰ１）をさらに備え、決定部は、テキストを第２表示部に表示させる。認証システムは、ユーザに発話長を気にさせずに認証を行うことができる。また、これにより、認証システムは、オペレータ等の人物を介さず無人でユーザの認証を行うことができる。

また、本実施の形態に係る認証システムは、第１の発話区間の音声信号のノイズ、音量、音素数または残響の大きさの少なくとも１つを測定する測定部をさらに備え、決定部は、測定部から取得した測定結果に基づき認証条件を設定する。これにより、認証システムは、登録音声信号の品質に関わらず、認証時の集音条件が悪い場合は要求時間を長くする、判定閾値を低くするもしくはその両方をすることで精度高く認証できる。

また、本実施の形態に係る認証システムの認証条件は、音声信号の長さまたは話者の本人確認の認証に係る判定の閾値である。これにより、認証システムは、各ユーザの登録音声信号の品質に応じて、ユーザに指定する発話長を指定することができユーザの利便性を向上することができる。また、認証システムは、ユーザの登録音声信号の品質によって判定に係る閾値を変更することができ、各ユーザに応じて柔軟な認証を実行することができる。

また、本実施の形態に係る認証システムは、第２の発話区間の長さが第１の所定値未満の場合、話者が認証後に実施できる動作に制限を設ける制限設定部（例えば、動作制限設定部２１Ｈ）をさらに備える。これにより、認証システムは、登録音声信号の品質が低い場合、認証システムの搭載されている機械に動作制限を設けることで、誤判定時のリスクを下げることができる。

以上、添付図面を参照しながら実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても本開示の技術的範囲に属すると了解される。また、発明の趣旨を逸脱しない範囲において、上述した実施の形態における各構成要素を任意に組み合わせてもよい。

本開示の技術は、登録時に取得したユーザの発話音声の合計時間の長さに応じて認証時の発話時間を決定し、ユーザの利便性を向上する認証システムおよび認証方法として有用である。

ＮＷネットワーク
ＵＰ１ユーザ側通話端末
ＯＰ１オペレータ側通話端末
ＵＳユーザ
ＯＰオペレータ
ＣＯＭ１１，ＣＯＭ１２，ＣＯＭ１３，ＣＯＭ１４発話音声
Ｐ１認証解析装置
ＤＢ登録話者データベース
ＤＰディスプレイ
ＳＣ認証結果画面
２０通信部
２１プロセッサ
２１Ａ発話区間検出部
２１Ｂ登録品質判定部
２１Ｃ特徴量抽出部
２１Ｄ比較対象設定部
２１Ｅ類似度計算部
２１Ｆ認証条件設定部
２１Ｇ認証時集音条件測定部
２２Ｈ動作制限設定部
２２メモリ
２２ＡＲＯＭ
２２ＢＲＡＭ
２３表示Ｉ／Ｆ
ＵＳ１０，ＵＳ１１，ＵＳ１２登録音声信号
ＣＡ，ＣＢ，ＣＣ，ＣＤ，ＣＥ，ＣＦ，ＣＧ，ＣＨケース
ＳＣ１，ＳＣ２，ＳＣ３，ＳＣ４画面
ＦＲ１，ＦＲ２，ＦＲ３，ＦＲ４，ＦＲ５，ＦＲ６，ＦＲ７枠
ＢＴ１，ＢＴ２ボタン
ＯＰ１０，ＯＰ１１，ＵＳ１３，ＵＳ１４発話音声

Claims

話者の発話音声の音声信号を取得する取得部と、
取得された前記音声信号から前記話者が発話している第１の発話区間と、複数の話者のそれぞれの音声信号が登録されたデータベースの前記音声信号から前記話者が発話している第２の発話区間と、を検出する検出部と、
前記第１の発話区間の第１音声信号と、前記第２の発話区間の第２音声信号とを照合し、前記第２の発話区間の前記第２音声信号の長さもしくは前記第２の発話区間に含まれる音数に基づき前記第１音声信号を用いる認証の認証条件を決定する決定部と、
決定された前記認証条件に基づいて、前記話者の認証を行う認証部と、を備える、
認証システム。
前記認証部は、
前記第２の発話区間の長さが第１の所定値以上であって、前記第１の発話区間の長さが第２の所定値以上となる場合に前記認証を開始し、
前記第２の発話区間の長さが前記第１の所定値未満であって、前記第１の発話区間の長さが前記第２の所定値より大きい第３の所定値以上となる場合に前記認証を開始する、
請求項１に記載の認証システム。
前記認証部は、
前記第２の発話区間に含まれる音数が第４の所定値以上であって、前記第１の発話区間の長さが第２の所定値以上となる場合に前記認証を開始し、
前記第２の発話区間に含まれる前記音数が前記第４の所定値未満であって、前記第１の発話区間の長さが前記第２の所定値より大きい第３の所定値以上となる場合に前記認証を開始する、
請求項１に記載の認証システム。
前記認証部は、
前記第２の発話区間の長さが第１の所定値以上かつ前記第２の発話区間に含まれる前記音数が第４の所定値以上であって、前記第１の発話区間の長さが第２の所定値以上となる場合に前記認証を開始し、
前記第２の発話区間の長さが前記第１の所定値未満または前記第２の発話区間に含まれる前記音数が前記第４の所定値未満であって、前記第１の発話区間の長さが前記第２の所定値より大きい第３の所定値以上となる場合に前記認証を開始する、
請求項１に記載の認証システム。
前記決定部は、
前記第２の発話区間の長さが第１の所定値未満の場合、前記第２の発話区間の前記音声信号に含まれる発話内容から前記話者に発話を促すテキストを決定する、
請求項１に記載の認証システム。
オペレータが前記認証時に参照する画面を表示する第１表示部をさらに備え、
前記決定部は、前記テキストを前記第１表示部に表示させる、
請求項５に記載の認証システム。
前記話者が前記認証時に参照する画面を表示する第２表示部をさらに備え、
前記決定部は、前記テキストを前記第２表示部に表示させる、
請求項５に記載の認証システム。
前記第１の発話区間の前記音声信号のノイズ、音量、音素数または残響の大きさの少なくとも１つを測定する測定部をさらに備え、
前記決定部は、前記測定部から取得した測定結果に基づき前記認証条件を設定する、
請求項５に記載の認証システム。
前記認証条件は、前記音声信号の長さまたは前記話者の本人確認の認証に係る判定の閾値である、
請求項８に記載の認証システム。
前記第２の発話区間の長さが第１の所定値未満の場合、前記話者が認証後に実施できる動作に制限を設ける制限設定部をさらに備える、
請求項１に記載の認証システム。
１以上のコンピュータが行う認証方法であって、
話者の発話音声の音声信号を取得し、
取得された前記音声信号から前記話者が発話している第１の発話区間と、複数の話者のそれぞれの音声信号が登録されたデータベースの前記音声信号から前記話者が発話している第２の発話区間と、を検出し、
前記第１の発話区間の第１音声信号と、前記第２の発話区間の第２音声信号とを照合し、
前記第２の発話区間の前記第２音声信号の長さもしくは前記第２の発話区間に含まれる音数に基づき前記第１音声信号を用いる認証の認証条件を決定し、
決定された前記認証条件に基づいて、前記話者の認証を行う、
認証方法。