JP6179337B2 - 音声認証装置、音声認証方法及び音声認証プログラム - Google Patents

音声認証装置、音声認証方法及び音声認証プログラム Download PDF

Info

Publication number
JP6179337B2
JP6179337B2 JP2013216640A JP2013216640A JP6179337B2 JP 6179337 B2 JP6179337 B2 JP 6179337B2 JP 2013216640 A JP2013216640 A JP 2013216640A JP 2013216640 A JP2013216640 A JP 2013216640A JP 6179337 B2 JP6179337 B2 JP 6179337B2
Authority
JP
Japan
Prior art keywords
signal
sound
acoustic
unit
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013216640A
Other languages
English (en)
Other versions
JP2015079152A (ja
Inventor
克守 萩原
克守 萩原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013216640A priority Critical patent/JP6179337B2/ja
Publication of JP2015079152A publication Critical patent/JP2015079152A/ja
Application granted granted Critical
Publication of JP6179337B2 publication Critical patent/JP6179337B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Description

開示の技術は、音声認証装置、音声認証方法及び音声認証プログラムに関する。
ユーザの音声によって、当該ユーザが承認されているユーザであるか否かを認証するシステムが存在する。しかしながら、当該システムでは、承認されているユーザ以外の第三者であっても、承認されているユーザの音声を録音・再生することにより、承認されているユーザとして認証され得る。
上記のように、ユーザ以外の第三者が承認され得ることを避けるために、ユーザが承認を受けるためにシステムにパスワードに相当する音声を登録する際に、当該ユーザの音声と共にスピーカによって出力される音響を検出するシステムも提案されている。システムは、当該スピーカによる音響を示す音響信号を除去して、ユーザの音声を示す音声信号のみを登録する。スピーカによって出力される音響のパターン(例えば、周波数など)は、毎回変更される。
ユーザがシステムのために、スピーカから出力される音響と共にパスワードに相当する音声を再入力すると、システムは当該スピーカによる音響を示す音響信号を除去して、ユーザの音声を示す音声信号のみを認証に使用する。入力された音声と登録されている音声とが一致した場合、当該ユーザは承認されているユーザとして認証される。
一方、第三者がシステムに認証を得るために録音したユーザの音声をスピーカに入力すると、録音したユーザの音声と共に第1の音響及び第2の音響がスピーカに入力される。第1の音響は、ユーザの音声が録音された際にシステムが出力していた音響であり、ユーザの音声と共に録音されている。第2の音響は、現在システムが出力している音響である。システムは、入力された音から第2の音響を示す音響信号を除去する。しかし、第1の音響を示す音響信号は除去されない。したがって、システムは、ユーザの音声を示す音声信号及び第1の音響を示す音響信号を用いて認証処理を行うことになり、第三者は承認されたユーザとして認証されない。
特開平9−127974号
しかしながら、上記方法では、ユーザの音声を示す音声信号に重畳されているスピーカの音響を示す音響信号を除去する際に、ユーザの音声信号を部分的に損ない、ユーザの認証を適切に行うことが困難になる虞がある。
開示の技術は、1つの側面として、ユーザの認証の精度を向上することを目的とする。
開示の技術において、音響信号生成部は、特定の周波数を有する参照音響を出力するための参照音響信号を生成する。音響出力部は、音響信号生成部によって生成された参照音響信号に基づく参照音響を出力する。音検出部は、音響出力部によって出力された参照音響と入力音とが重畳された重畳音を検出する。音声音響信号分離部は、音検出部によって検出された重畳音を示す信号を、音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離する。音響信号判定部は、音声音響信号分離部によって分離された音響候補信号部分が、音響信号生成部によって生成された参照音響信号と合致しない信号を含むか否かを判定する。音声信号判定部は、音声音響信号分離部によって分離された音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定する。ユーザ認証部は、音響信号判定部による判定が否定され、かつ、前記音声信号判定部による判定が肯定された場合に、対象ユーザを認証する。
開示の技術は、1つの側面として、ユーザの認証の精度を向上する、という効果を有する。
実施形態に係るスマートデバイスの要部機能の一例を示すブロック図である。 実施形態に係るスマートデバイスの電気系の構成の一例を示すブロック図である。 実施形態に係る音声登録処理の流れの一例を示すフローチャートである。 実施形態に係る検出処理の流れの一例を示すフローチャートである。 実施形態に係る登録処理の流れの一例を示すフローチャートである。 実施形態に係る音声登録処理におけるディスプレイ表示の一例を示す態様図である。 実施形態に係る音声登録処理におけるディスプレイ表示の一例を示す態様図である。 実施形態に係る音声登録処理におけるディスプレイ表示の一例を示す態様図である。 実施形態に係る音声認証処理の流れの一例を示すフローチャートである。 実施形態に係る認証処理の流れの一例を示すフローチャートである。 実施形態に係る音響信号判定処理の流れの一例を示すフローチャートである。 実施形態に係る音声信号判定処理の流れの一例を示すフローチャートである。 実施形態に係るユーザ認証処理の流れの一例を示すフローチャートである。 実施形態に係る音響信号判定処理の一例を説明するためのグラフである。 実施形態に係る音響信号判定処理の一例を説明するためのグラフである。 実施形態に係る音響信号判定処理の一例を説明するためのグラフである。 実施形態に係る音声認証処理におけるディスプレイ表示の一例を示す態様図である。 実施形態に係る音声認証処理におけるディスプレイ表示の一例を示す態様図である。 実施形態に係る音声認証処理におけるディスプレイ表示の一例を示す態様図である。 実施形態に係る音声認証処理におけるディスプレイ表示の一例を示す態様図である。 実施形態に係る認証処理の流れの一例を示すフローチャートである。
以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。なお、以下の説明では、開示の技術に係る音声認証装置の一例としてスマートデバイスを例に挙げて説明するが、開示の技術は、これに限定されるものではない。開示の技術は、例えば、パーソナル・コンピュータ、ゲーム機又は携帯電話機などの様々な装置に適用可能である。
一例として図1に示すスマートデバイス100は、制御部130、インターフェイス部120、音声音響検出処理部140、音響信号判定部144、登録処理部142、音声信号判定部146、話者モデルデータベース150、及びユーザ認証部148を含む。スマートデバイス100は、インターフェイス部120を介して、音検出部110、音響出力部112、文字図形検出部114、及び文字図形出力部116に接続されている。
音声音響検出処理部140、音響信号判定部144、登録処理部142、音声信号判定部146、及びユーザ認証部148は、制御部130に接続されている。制御部130は、音声音響入力処理部140、音響信号判定部144、登録処理部142、音声信号判定部146、及びユーザ認証部148を制御する。登録処理部142及び音声信号判定部146は、話者モデルデータベース150に接続されている。登録処理部142は、話者モデルデータベース150に話者モデルを登録し、音声信号判定部146は、話者モデル150から話者モデルを読み出して、音声信号判定処理に使用する。
制御部130は、インターフェイス部120を介して、音検出部110で検出される音声及び音響を示す信号を取得し、文字図形検出部114で検出される文字及び図形を示すデータを取得する。制御部130は、インターフェイス部120を介して、音響出力部112で音響を出力し、文字図形出力部116で文字及び図形を表示するように制御する。
スマートデバイス100は、図2に示すように、CPU910、一次記憶部930及び二次記憶部920を備え、CPU910、一次記憶部930及び二次記憶部920はバス990を介して相互に接続されている。なお、一次記憶部930は、例えば、RAMなどの揮発性のメモリである。二次記憶部920は、例えば、HDDなどの不揮発性のメモリである。
二次記憶部920は、音声認証プログラム928及び話者モデルデータベース150を記憶している。CPU910は、二次記憶部920から音声認証プログラム928を読み出して、一次記憶部930に展開し、音声認証プログラム928が有するプロセスを実行する。音声認証プログラム928は、音声音響検出処理プロセス921、登録処理プロセス922、音響信号判定プロセス923、音声信号判定プロセス924及びユーザ認証プロセス925を有する。
CPU910は、音声音響検出処理プロセス921を実行することで、図1に示す音声音響検出処理部140として動作する。CPU910は、登録処理プロセス922を実行することで、図1に示す登録処理部142として動作する。CPU910は、音響信号判定プロセス923を実行することで、図1に示す音響信号判定部144として動作する。CPU910は、音声信号判定プロセス924を実行することで、図1に示す音声信号判定部146として動作する。CPU910は、ユーザ認証プロセス925を実行することで、図1に示すユーザ認証部148として動作する。
次に、開示の技術の実施形態の作用として、CPU910が音声認証プログラム928を実行することでスマートデバイス100によって行われる音声登録処理について、図3を参照して説明する。
一例として図3に示す音声登録処理では、ユーザの音声を話者モデルデータベース150に登録する。図6Aに例示するスマートデバイス100のディスプレイ915に表示されている登録ボタンをユーザがタップしたことをタッチパネル916が検出することにより、図3に例示する登録処理が開始される。
一例として図3に示す音声登録処理では、ステップ310で音声及び音響を検出する検出処理を行う。
ステップ310の検出処理の詳細を一例として図4に示す。ステップ312で、音声音響検出処理部140は、音響信号生成部として、参照音響信号を生成する。参照音響信号は、人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する音響を出力するための信号である。ここで、人の音声の周波数帯域とは、スマートデバイス100において、人の音声を処理するための周波数として使用される周波数帯域であり、例えば、8kHz以下の周波数帯域である。したがって、参照音響の周波数帯域は8kHzより高い周波数帯域である。
しかしながら、本開示の技術はこれに限定されず、音響周波数帯域は非可聴周波数帯域、すなわち、20Hz未満の周波数帯域及び20kHzを越える周波数帯域であってもよい。
参照音響信号は、単一の中心周波数を有する単一の信号であり、音声音響検出処理部140は、参照音響信号を生成する毎に異なる中心周波数を有する参照音響信号を生成する。
音声音響検出処理部140は、生成した参照音響信号を制御部130に送信し、制御部130はインターフェイス部120を介して、参照音響信号を音響出力部112に送信する。ステップ314で、音響出力部112は、参照音響信号に基づいて参照音響を出力する。音響出力部112は、例えば、図14Aに一例を示すスマートデバイス100のスピーカ914であってよい。
ユーザが発話すると、ステップ316で、音検出部110は、音響出力部112によって出力された参照音響と入力音であるユーザが発話した音声とが重畳された重畳音を検出する。音検出部110は、図14Aに一例を示すスマートデバイス100のマイク912であってよい。
音検出部110が検出した重畳音を示す信号は、インターフェイス部120及び制御部130を介して、音声音響検出処理部140に送信される。ステップ318で、音声音響信号分離部としての音声音響検出処理部140は、重畳音を示す信号を音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分とに分離する。
詳細には、重畳音を示す信号に、例えば、8kHzより高い周波数を有する信号を通過させるハイパスフィルタを適用することにより、重畳音を示す信号から音響候補信号部分を分離する。一方、重畳音を示す信号に、例えば、8kHz以下の周波数を有する信号を通過させるローパスフィルタを適用することにより、重畳音を示す信号から音声候補信号部分を分離する。
参照音響信号として、例えば、20kHzを越える非可聴周波数の音響を示す信号を使用する場合、ハイパスフィルタは20kHzを越える周波数を有する信号のみを通過させるフィルタであってよい。また、ローパスフィルタは20kHz以下の周波数を有する信号のみを通過させるフィルタであってよい。
ステップ332で、図6Bに一例を示すスマートデバイス100のディスプレイ915に表示されている「OK」ボタンをユーザがタップしたか否かが判定され、判定が肯定された場合には、ステップ320の登録処理に移行する。
ステップ332の判定が否定された場合、ステップ334で、スマートデバイス100のディスプレイ915に表示されている「キャンセル」ボタンをユーザがタップしたか否かが判定され、判定が肯定された場合には、ステップ310に戻る。
ステップ334の判定が否定された場合、ステップ336で、スマートデバイス100のディスプレイ915に表示されている「中止」ボタンをユーザがタップしたか否かが判定され、判定が肯定された場合には、処理を終了する。
ステップ336の判定が否定された場合、ステップ332に戻り、ユーザのタップが検出されるまで、ステップ332〜336を繰り返す。
図5に、ステップ320の登録処理の詳細を示す。ステップ322で登録処理部142は、図4のステップ318で分離された音声候補信号部分から音声特徴を抽出する。詳細には、音声候補信号部分に周波数分析を適用し、サウンドスペクトログラム(声紋)に変換する。周波数分析としては、例えば、高速フーリエ変換、または、ケプストラム分析などを使用することができる。
ステップ324で話者モデルを生成し、話者モデルデータベース150に登録する。生成される話者モデルは照合の手法によって異なる。例えば、照合に動的計画法を使用する場合にはテンプレートであり、照合にベクトル量子化法を用いる場合はコードブックであり、隠れマルコフモデル法及び混合ガウス分布モデル法等の統計手法を用いる場合は複数の多次元正規分布のパラメータである。
ステップ326で、後述する図10のステップ356の判定で使用する閾値を算出する。詳細には、第三者を承認されているユーザとして認証する確率が0.1%であるときの尤度を閾値として算出し、話者モデルデータベース150に登録する。尤度とは、話者モデルデータベース150に登録されている承認されているユーザの音声の音声特徴と、認証しようとする音声から抽出される音声特徴と、の類似度を意味する。
しかしながら、本開示の技術はこれに限定されず、例えば、承認されているユーザの認証を拒絶する確率と第三者を承認されているユーザとして認証する確率とが等しくなる尤度を閾値として算出してもよい。あるいは、閾値は実験的に決定されてもよい。
登録処理の終了後、図6Cに一例を示すように、スマートデバイス100のディスプレイ915に音声の登録が完了したことを示すメッセージを表示してもよい。
次に、CPU910が音声認証プログラム928を実行することでスマートデバイス100によって行われる音声認証処理について、図7を参照して説明する。一例として図7に示す音声認証処理では、スマートデバイス100がロック状態にあるときに、ステップ310で音声及び音響を検出する検出処理を行い、ステップ330でユーザを認証する認証処理を行う。
ロック状態とは、第三者による操作を回避するためにロック機能が作動し、スマートデバイス100がユーザの操作の少なくとも一部を受け付けない状態である。スマートデバイス100は、特定の入力を検出することによって、ロック状態を解除し、ロック状態の際には受け付けなかった操作を受け付ける。
ステップ310で検出される音声及び音響の入力は、ロック状態で受け付けられる上記特定の入力である。
ステップ310の検出処理については、上記したため、詳細な説明は省略するが、ステップ316について補足する。図3に示す音声登録処理では、ユーザが発話すると、ステップ316で、音検出部110は、音響出力部112によって出力された参照音響と入力音であるユーザが発話した音声とが重畳された重畳音を検出する。
一方、ユーザがシステムに音声を登録するために、あるいは、システムに認証を得るために、発話した音声を第三者が録音すると、当該録音された音には、システムが出力する参照音響が含まれる。音声認証処理では、ユーザが発話するのではなく、第三者が当該録音された音を再生する、すなわち、「なりすまし」が行われる場合がある。この場合、ステップ316で、音検出部110は、音響出力部112によって今回出力された参照音響と、入力音であるユーザの音声とユーザの音声が録音された際に出力された参照音響と、が重畳された重畳音を検出する。参照音響の中心周波数は生成される毎に異なるので、今回出力された参照音響の中心周波数と、入力音に含まれている参照音響の中心周波数と、は異なる。
ステップ330の認証処理の詳細を一例として図8に示す。図8に示す認証処理では、ステップ340で音響候補信号部分が参照音響信号と合致しない信号を含むか否かを判定する音響信号判定処理を行う。ステップ350で音声候補信号部分が予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定する音声信号判定処理を行う。ステップ360で、ステップ340及びステップ350の判定結果に基づいてユーザを認証するユーザ認証処理を行う。
ステップ340の音響信号判定処理の詳細を一例として図9に示す。ステップ342で、音響候補信号部分が参照音響信号と合致しない信号を含むか否かを判定する。詳細には、一例として図12に示すように、音響候補信号部分を周波数に分解して、所定の間隔でサンプリングする周波数分析を行う。図12において、縦軸は音圧P、横軸は周波数Fを示す。音響候補信号部分から所定の閾値THを越える音圧Pを有する周波数fn(ただし、nは自然数)を抽出する。
以下の2つの条件を満たす場合に、抽出された周波数fnの信号を音響候補信号の中心周波数とする。第1の条件は、P[fn]>P[fn−1]>P[fn−2]かつP[fn]>P[fn+1]>P[fn+2]であることである。閾値THは実験的に求められる値であってよい。すなわち、第1の条件では、周波数fnに隣接する周波数fn−1及びfn+1の音圧Pは周波数fnの音圧Pより低い。さらに、第1の条件では、周波数fn−1に隣接する周波数fn−2の音圧Pは周波数fn−1の音圧Pより低く、周波数fn+1に隣接する周波数fn+2の音圧Pは周波数fn+1の音圧Pより低い。
第2の条件は、RGを所定の定数とするとき、P[fn−2]<P[fn]−RGかつP[fn+2]<P[fn]−RGであることである。定数RGは実験的に求められる値であってよい。すなわち、周波数fnの音圧Pと周波数fn−2及びfn+2の音圧Pとの差が定数RGより大きい、ことが第2の条件である。
上記条件によって、音響候補信号部分が含む全ての音響候補信号の中心周波数を抽出し、当該音響候補信号が参照音響信号と合致しない信号を含むか否かを判定する。ステップ344で、音響候補信号が参照音響信号と合致しない信号を含まない場合、すなわち合致する場合、ステップ346で音響信号一致フラグに「1」を設定する。
一例として、図13Aに示すように、参照音響信号の中心周波数が18kHzであり、ユーザの発話が入力音として検出された場合、音響候補信号部分は参照音響信号の中心周波数以外の中心周波数を有する音響候補信号は含まない。したがって、音響信号一致フラグには「1」が設定される。
一方、ステップ344で音響候補信号が参照音響信号と合致しない信号を含む場合、ステップ348で音響信号一致フラグに「0」を設定する。
一例として、図13Bに示すように、参照音響信号の中心周波数が18kHzであり、第三者がユーザの音声を録音した音が入力音として検出された場合、音響候補信号部分は参照音響信号と合致しない音響候補信号を含む。すなわち、音響候補信号部分はユーザの音声が録音された際に出力されていた参照音響の中心周波数を有する音響候補信号も含む。図13Bでは、20kHzがユーザの音声が録音された際に出力されていた参照音響の中心周波数である。したがって、音響信号一致フラグには「0」が設定される。
音響候補信号の中心周波数の抽出は上記に限定されず、例えば、図12に示す音圧Pに周波数の一次微分及び二次微分を適用し、一次微分で値が0となり、二次微分で値が負となる周波数成分の周波数を音響候補信号の中心周波数として抽出してもよい。
ステップ350の音声信号判定処理の詳細を図10に示す。音声信号判定部146は、ステップ352で、図4のステップ318で分離された音声候補信号部分から音声特徴を抽出する。音声特徴の抽出については上記したため、説明を省略する。
ステップ354で、話者モデルデータベース150に登録されている承認されているユーザの音声の音声特徴と、ステップ352で抽出された音声特徴と、の尤度を求める。
ステップ356で、尤度が、例えば、図5のステップ326で算出して話者モデルデータベース150に登録した所定の閾値より大きいか否かを判定する。尤度が所定の閾値より大きいと判定された場合には、ステップ358で、音声信号一致フラグに「1」を設定する。一方、ステップ356で、尤度が所定の閾値以下であると判定された場合には、ステップ359で音声信号一致フラグに「0」を設定する。
話者モデルデータベース150に承認されているユーザの音声が複数登録されている場合には、ステップ354〜ステップ359を必要に応じて繰り返す。
ステップ360のユーザ認証処理の詳細を図11に示す。ユーザ認証部148は、ステップ362で、音響信号一致フラグが「1」であり、かつ、音声信号一致フラグが「1」であるか否かを判定する。判定が肯定された場合、ステップ366で、ユーザを認証し、判定が否定された場合、ステップ368で、ユーザの認証を拒否する。
判定が肯定された場合、図14Bに一例を示すように、スマートデバイス100のロック状態を解除して通常状態に移行する。一方、判定が否定された場合、図15Aに一例を示すように、スマートデバイス100のディスプレイ916に認証が拒絶されたことを示すメッセージを表示し、ロック状態を維持する。あるいは、判定が否定された場合、図15Bに一例を示すように、スマートデバイス100のディスプレイ916に、ユーザの発話を促すメッセージを表示して、音声認証処理を繰り返してもよい。
上記では、ユーザが認証された場合、スマートデバイス100をロック状態から通常状態に移行し、ユーザの認証が拒絶された場合、ロック状態を維持する例について記載したが、本開示の技術はこれに限定されない。例えば、任意の対象ハードウェア及び対象ソフトウェアの少なくとも一方の動作がロック状態にある場合に、音声認証処理を行い、ユーザが認証された場合、ロック状態にあった当該対象ハードウェア及び対象ソフトウェアの動作を可能とするようにしてもよい。
上記では、図8に示す認証処理において、ステップ340の音響信号処理及びステップ350の音声信号処理の双方を行うようにしているが、本開示の技術はこれに限定されない。図16に示すように、ステップ340の音響信号判定処理において、音響信号一致フラグに「1」が設定され、ステップ363で音響信号一致フラグが「1」であると判定された場合のみ、ステップ350の音声信号判定処理を行うようにしてもよい。図16では、ステップ340の音響信号判定処理において、音響信号一致フラグに「0」が設定された場合、ステップ363で判定が否定される。したがって、ステップ350の音声信号判定処理は行わずに、ステップ368でユーザの認証を拒否する。
図16に例示される処理では、音響候補信号部分が参照音響信号以外の音響候補信号を含む場合、音声候補信号部分の音声の特徴が登録されている承認されているユーザの音声の特徴と合致するか否かの判定を行わない。したがって、処理の負荷を低減し、処理速度を向上することが可能となる。
なお、上記では、参照音響信号は、単一の中心周波数を有する単一の信号であるとした。しかしながら、本開示の技術はこれに限定されず、参照音響信号は、単一の中心周波数を有する複数の信号を含む信号であってもよい。この場合、図4のステップ312で、音声音響検出処理部140は、参照音響信号を生成する毎に異なる組み合わせの周波数の各々を各々が中心周波数とする複数の信号を含む参照音響信号を生成する。
参照音響信号が複数の信号を含む信号である場合、図9のステップ344では、当該複数の信号のいずれとも合致しない音響候補信号を含むか否かを判定する。判定が否定された場合には、音響信号一致フラグに「1」を設定し、判定が肯定された場合には、音響信号一致フラグに「0」を設定する。
本開示の技術では、音声認証処理及び音声登録処理を、CPU910が音声認証プログラム928を実行することでスマートデバイス100によって行われるものとした。しかしながら、本開示の技術はこれに限定されない。例えば、通信回線を介してスマートデバイス100に接続される他のコンピュータまたはサーバ装置などに音声認証プログラム928の少なくとも一部及び話者モデルデータベース150を記憶させてもよい。
この場合、音声認証処理及び音声登録処理の少なくとも一部を他のコンピュータまたはサーバ装置などによって行わせることが可能となる。例えば、スマートデバイス100は、参照音響を示す信号の生成及び参照音響の出力、重畳音の検出のみを行い、他のコンピュータまたはサーバ装置などによって対象ユーザが認証された場合に、スマートデバイス100のロック状態を解除するようにしてもよい。
本開示の技術では、参照音響として、人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する音響を生成する。したがって、検出される重畳音を示す信号に含まれる音声候補信号部分と参照音響候補信号部分との分離を周波数に基づいて行うことが可能となる。このように、検出される重畳音を示す信号から参照音響信号を除去する必要がないため、重畳音を示す信号に含まれる音声候補信号を損なうことがない。ユーザ認証に使用する音声候補信号を損なうことがないため、ユーザ認証の精度を向上することが可能となる。
本開示の技術では、検出される重畳音を示す信号に含まれる音響候補信号部分が参照音響信号と合致しない信号を含むか否かをさらに判定している。本開示の技術では、参照音響として、人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する音響を生成している。したがって、参照音響がユーザの発話による音声に干渉しない。
このため、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定するのみでは、重畳音に含まれる入力音がユーザの発話による音声であるのか、第三者によって録音された音であるのか判定することが困難となる場合がある。しかし、本開示の技術では、検出される重畳音を示す信号に含まれる音響候補信号部分が参照音響信号と合致しない信号を含むか否かも判定する。入力音が第三者によって録音された音である場合には、当該入力音は録音時に生成され出力された周波数の異なる参照音響を含むため、当該入力音が第三者によって録音された音であることが検出される。したがって、ユーザ認証の精度をさらに向上することが可能となる。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する参照音響を出力するための参照音響信号を生成する音響信号生成部と、
前記音響信号生成部によって生成された前記参照音響信号に基づく前記参照音響を出力する音響出力部と、
前記音響出力部によって出力された前記参照音響と入力音とが重畳された重畳音を検出する音検出部と、
前記音検出部によって検出された前記重畳音を示す信号を、前記音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、前記人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離する音声音響信号分離部と、
前記音声音響信号分離部によって分離された前記音響候補信号部分が、前記音響信号生成部によって生成された前記参照音響信号と合致しない信号を含むか否かを判定する音響信号判定部と、
前記音声音響信号分離部によって分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定する音声信号判定部と、
前記音響信号判定部による判定が否定され、かつ、前記音声信号判定部による判定が肯定された場合に、対象ユーザを認証するユーザ認証部と、
を備える音声認証装置。
(付記2)
人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する参照音響を出力するための参照音響信号を生成する音響信号生成部と、
前記音響信号生成部によって生成された前記参照音響信号に基づく前記参照音響を出力する音響出力部と、
前記音響出力部によって出力された前記参照音響と入力音とが重畳された重畳音を検出する音検出部と、
前記音検出部によって検出された前記重畳音を示す信号を、前記音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、前記人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離する音声音響信号分離部と、
前記音声音響信号分離部によって分離された前記音響候補信号部分が、前記音響信号生成部によって生成された前記参照音響信号と合致しない信号を含むか否かを判定する音響信号判定部と、
前記音響信号判定部による判定が否定された場合に、前記音声音響信号分離部によって分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定する音声信号判定部と、
前記音声信号判定部による判定が肯定された場合に、対象ユーザを認証するユーザ認証部と、
を備える音声認証装置。
(付記3)
前記ユーザ認証部によって前記対象ユーザが認証された場合に、対象ハードウェア及び対象ソフトウェアの少なくとも一方の動作を可能とする、
付記1または2に記載の音声認証装置。
(付記4)
前記音響信号生成部によって生成される前記参照音響信号は、単一の中心周波数を有する単一の信号である、付記1〜3のいずれか1項に記載の音声認証装置。
(付記5)
前記音響信号生成部によって生成される前記参照音響信号は、各々が単一の中心周波数を有する複数の信号を含む信号である、付記1〜3のいずれか1項に記載の音声認証装置。
(付記6)
前記音響信号周波数帯域に含まれる周波数は8kHzより高い周波数である、付記1〜5のいずれか1項に記載の音声認証装置。
(付記7)
前記音響信号周波数帯域に含まれる周波数は、非可聴域周波数である、付記1〜5のいずれか1項に記載の音声認証装置。
(付記8)
コンピュータが、
(a)人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する参照音響を出力するための参照音響信号を生成し、
(b)生成された前記参照音響信号に基づく前記参照音響を出力し、
(c)出力された前記参照音響と入力音とが重畳された重畳音を検出し、
(d)検出された前記重畳音を示す信号を、前記音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、前記人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離し、
(e)分離された前記音響候補信号部分が、(a)において生成された前記参照音響信号と合致しない信号を含むか否かを判定し、
(f)分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定し、
(g)(e)における判定が否定され、かつ、(f)における判定が肯定された場合に、対象ユーザを認証する、
音声認証方法。
(付記9)
(h)人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する参照音響を出力するための参照音響信号を生成し、
(i)生成された前記参照音響信号に基づく前記参照音響を出力し、
(j)出力された前記参照音響と入力音とが重畳された重畳音を検出し、
(k)検出された前記重畳音を示す信号を、前記音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、前記人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離し、
(l)分離された前記音響候補信号部分が、(h)において生成された前記参照音響信号と合致しない信号を含むか否かを判定し、
(m)(l)における判定が否定された場合に、(k)において分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定し、
(n)(m)における判定が肯定された場合に、対象ユーザを認証する、
音声認証方法。
(付記10)
前記対象ユーザが認証された場合に、対象ハードウェア及び対象ソフトウェアの少なくとも一方の動作を可能とする、
付記8または9に記載の音声認証方法。
(付記11)
前記参照音響信号は、単一の中心周波数を有する単一の信号である、付記8〜10のいずれか1項に記載の音声認証方法。
(付記12)
前記参照音響信号は、各々が単一の中心周波数を有する複数の信号を含む信号である、付記8〜10のいずれか1項に記載の音声認証方法。
(付記13)
前記音響信号周波数帯域に含まれる周波数は8kHzより高い周波数である、付記8〜12のいずれか1項に記載の音声認証方法。
(付記14)
前記音響信号周波数帯域に含まれる周波数は、非可聴域周波数である、付記8〜12のいずれか1項に記載の音声認証方法。
(付記15)
コンピュータに、
(a)人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する参照音響を出力するための参照音響信号を生成し、
(b)生成された前記参照音響信号に基づく前記参照音響を出力し、
(c)出力された前記参照音響と入力音とが重畳された重畳音を検出し、
(d)検出された前記重畳音を示す信号を、前記音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、前記人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離し、
(e)分離された前記音響候補信号部分が、(a)において生成された前記参照音響信号と合致しない信号を含むか否かを判定し、
(f)分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定し、
(g)(e)における判定が否定され、かつ、(f)における判定が肯定された場合に、対象ユーザを認証する、
ことを含む処理を実行させるための音声認証プログラム。
(付記16)
コンピュータに、
(h)人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する参照音響を出力するための参照音響信号を生成し、
(i)生成された前記参照音響信号に基づく前記参照音響を出力し、
(j)出力された前記参照音響と入力音とが重畳された重畳音を検出し、
(k)検出された前記重畳音を示す信号を、前記音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、前記人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離し、
(l)分離された前記音響候補信号部分が、(h)において生成された前記参照音響信号と合致しない信号を含むか否かを判定し、
(m)(l)における判定が否定された場合に、(k)において分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定し、
(n)(m)における判定が肯定された場合に、対象ユーザを認証する、
ことを含む処理を実行させるための音声認証プログラム。
(付記17)
前記対象ユーザが認証された場合に、対象ハードウェア及び対象ソフトウェアの少なくとも一方の動作を可能とする、
付記15または16に記載の音声認証プログラム。
(付記18)
前記参照音響信号は、単一の中心周波数を有する単一の信号である、付記15〜17のいずれか1項に記載の音声認証プログラム。
(付記19)
前記参照音響信号は、各々が単一の中心周波数を有する複数の信号を含む信号である、付記15〜17のいずれか1項に記載の音声認証プログラム。
(付記20)
前記音響信号周波数帯域に含まれる周波数は8kHzより高い周波数である、付記15〜19のいずれか1項に記載の音声認証プログラム。
(付記21)
前記音響信号周波数帯域に含まれる周波数は、非可聴域周波数である、付記15〜19のいずれか1項に記載の音声認証プログラム。
(付記22)
人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する参照音響を出力するための参照音響信号を生成する音響信号生成部と、
前記音響信号生成部によって生成された前記参照音響信号に基づく前記参照音響を出力する音響出力部と、
前記音響出力部によって出力された前記参照音響と入力音とが重畳された重畳音を検出する音検出部と、
前記音検出部によって検出された前記重畳音を示す信号を、前記音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、前記人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離し、分離された前記音響候補信号部分が、前記音響信号生成部によって生成された前記参照音響信号と合致しない信号を含むか否かを判定する第1の判定を行い、分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定する第2の判定を行い、前記第1の判定が否定され、かつ、前記第2の判定が肯定された場合に、対象ユーザを認証するユーザ認証部によって前記対象ユーザが認証された場合に、対象ハードウェア及び対象ソフトウェアの少なくとも一方の動作を可能とする、
音声認証装置。
100 スマートデバイス
110 音検出部
112 音響出力部
140 音声音響検出処理部
144 音響信号判定部
146 音声信号判定部
148 ユーザ認証部

Claims (4)

  1. 特定の周波数を有する参照音響を出力するための参照音響信号を生成する音響信号生成部と、
    前記音響信号生成部によって生成された前記参照音響信号に基づく前記参照音響を出力する音響出力部と、
    前記音響出力部によって出力された前記参照音響と入力音とが重畳された重畳音を検出する音検出部と、
    前記音検出部によって検出された前記重畳音を示す信号を、前記特定の周波数を有する音響候補信号部分と、人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離する音声音響信号分離部と、
    前記音声音響信号分離部によって分離された前記音響候補信号部分が、前記音響信号生成部によって生成された前記参照音響信号と合致しない信号を含むか否かを判定する音響信号判定部と、
    前記音声音響信号分離部によって分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定する音声信号判定部と、
    前記音響信号判定部による判定が否定され、かつ、前記音声信号判定部による判定が肯定された場合に、対象ユーザを認証するユーザ認証部と、
    を備える音声認証装置。
  2. 特定の周波数を有する参照音響を出力するための参照音響信号を生成する音響信号生成部と、
    前記音響信号生成部によって生成された前記参照音響信号に基づく前記参照音響を出力する音響出力部と、
    前記音響出力部によって出力された前記参照音響と入力音とが重畳された重畳音を検出する音検出部と、
    前記音検出部によって検出された前記重畳音を示す信号を、前記特定の周波数を有する音響候補信号部分と、人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離する音声音響信号分離部と、
    前記音声音響信号分離部によって分離された前記音響候補信号部分が、前記音響信号生成部によって生成された前記参照音響信号と合致しない信号を含むか否かを判定する音響信号判定部と、
    前記音響信号判定部による判定が否定された場合に、前記音声音響信号分離部によって分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定する音声信号判定部と、
    前記音声信号判定部による判定が肯定された場合に、対象ユーザを認証するユーザ認証部と、
    を備える音声認証装置。
  3. (a)特定の周波数を有する参照音響を出力するための参照音響信号を生成し、
    (b)前記参照音響信号に基づく前記参照音響を出力し、
    (c)出力された前記参照音響と入力音とが重畳された重畳音を検出し、
    (d)検出された前記重畳音を示す信号を、前記特定の周波数を有する音響候補信号部分と、人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離し、
    (e)分離された前記音響候補信号部分が、(a)において生成された前記参照音響信号と合致しない信号を含むか否かを判定し、
    (f)分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定し、
    (g)(e)における判定が否定され、かつ、(f)における判定が肯定された場合に、対象ユーザを認証する、
    音声認証方法。
  4. コンピュータに、
    (a)特定の周波数を有する参照音響を出力するための参照音響信号を生成し、
    (b)生成された前記参照音響信号に基づく前記参照音響を出力し、
    (c)出力された前記参照音響と入力音とが重畳された重畳音を検出し、
    (d)検出された前記重畳音を示す信号を、前記特定の周波数を有する音響候補信号部分と、人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離し、
    (e)分離された前記音響候補信号部分が、(a)において生成された前記参照音響信号と合致しない信号を含むか否かを判定し、
    (f)分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定し、
    (g)(e)における判定が否定され、かつ、(f)における判定が肯定された場合に、対象ユーザを認証する、
    ことを含む処理を実行させるための音声認証プログラム。
JP2013216640A 2013-10-17 2013-10-17 音声認証装置、音声認証方法及び音声認証プログラム Expired - Fee Related JP6179337B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013216640A JP6179337B2 (ja) 2013-10-17 2013-10-17 音声認証装置、音声認証方法及び音声認証プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013216640A JP6179337B2 (ja) 2013-10-17 2013-10-17 音声認証装置、音声認証方法及び音声認証プログラム

Publications (2)

Publication Number Publication Date
JP2015079152A JP2015079152A (ja) 2015-04-23
JP6179337B2 true JP6179337B2 (ja) 2017-08-16

Family

ID=53010607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013216640A Expired - Fee Related JP6179337B2 (ja) 2013-10-17 2013-10-17 音声認証装置、音声認証方法及び音声認証プログラム

Country Status (1)

Country Link
JP (1) JP6179337B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9747926B2 (en) 2015-10-16 2017-08-29 Google Inc. Hotword recognition
US9928840B2 (en) 2015-10-16 2018-03-27 Google Llc Hotword recognition
JP6463710B2 (ja) 2015-10-16 2019-02-06 グーグル エルエルシー ホットワード認識
JP6454807B1 (ja) * 2018-04-20 2019-01-16 株式会社野村総合研究所 音声認証決済システム
JP7073910B2 (ja) * 2018-05-24 2022-05-24 日本電気株式会社 音声型認証装置、音声型認証方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265191A (en) * 1991-09-17 1993-11-23 At&T Bell Laboratories Technique for voice-based security systems
JP3442553B2 (ja) * 1995-10-31 2003-09-02 株式会社リコー 話者認識システムおよび話者認識方法
JP2004065363A (ja) * 2002-08-02 2004-03-04 Sony Corp 個人認証装置と個人認証方法、及び信号伝送装置
JP2006099626A (ja) * 2004-09-30 2006-04-13 Victor Co Of Japan Ltd 個人認証装置

Also Published As

Publication number Publication date
JP2015079152A (ja) 2015-04-23

Similar Documents

Publication Publication Date Title
CN111566729B (zh) 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
Kinnunen et al. Vulnerability of speaker verification systems against voice conversion spoofing attacks: The case of telephone speech
JP6179337B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
US7447632B2 (en) Voice authentication system
Shah et al. Biometric voice recognition in security system
JP2018536889A (ja) 音声データを使用して操作を開始するための方法および装置
CN108319829B (zh) 一种声纹验证方法和装置
CN110767239A (zh) 一种基于深度学习的声纹识别方法、装置及设备
JP6220304B2 (ja) 音声識別装置
JP2007264507A (ja) ユーザ認証システム、不正ユーザ判別方法、およびコンピュータプログラム
US20140188468A1 (en) Apparatus, system and method for calculating passphrase variability
CN111684521A (zh) 用于说话者识别的处理语音信号方法及实现其的电子装置
US20120239406A1 (en) Obfuscated speech synthesis
Shang et al. Srvoice: A robust sparse representation-based liveness detection system
JP6184494B2 (ja) 音声合成辞書作成装置及び音声合成辞書作成方法
JP6480124B2 (ja) 生体検知装置、生体検知方法及びプログラム
KR20110079161A (ko) 이동 단말기에서 화자 인증 방법 및 장치
JP6430318B2 (ja) 不正音声入力判定装置、方法及びプログラム
JP2002297199A (ja) 合成音声判別方法と装置及び音声合成装置
JPWO2022034630A5 (ja) 音声処理装置、音声処理方法、プログラム、および音声認証システム
Chen et al. Personal threshold in a small scale text-dependent speaker recognition
Hajipour et al. Listening to sounds of silence for audio replay attack detection
Gandhi et al. Feature extraction from temporal phase for speaker recognition
Li et al. An Application-Oriented Taxonomy on Spoofing, Disguise and Countermeasures in Speaker Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160705

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170703

R150 Certificate of patent or registration of utility model

Ref document number: 6179337

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees