JP6179337B2

JP6179337B2 - 音声認証装置、音声認証方法及び音声認証プログラム

Info

Publication number: JP6179337B2
Application number: JP2013216640A
Authority: JP
Inventors: 克守萩原
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-10-17
Filing date: 2013-10-17
Publication date: 2017-08-16
Anticipated expiration: 2033-10-17
Also published as: JP2015079152A

Description

開示の技術は、音声認証装置、音声認証方法及び音声認証プログラムに関する。

ユーザの音声によって、当該ユーザが承認されているユーザであるか否かを認証するシステムが存在する。しかしながら、当該システムでは、承認されているユーザ以外の第三者であっても、承認されているユーザの音声を録音・再生することにより、承認されているユーザとして認証され得る。

上記のように、ユーザ以外の第三者が承認され得ることを避けるために、ユーザが承認を受けるためにシステムにパスワードに相当する音声を登録する際に、当該ユーザの音声と共にスピーカによって出力される音響を検出するシステムも提案されている。システムは、当該スピーカによる音響を示す音響信号を除去して、ユーザの音声を示す音声信号のみを登録する。スピーカによって出力される音響のパターン（例えば、周波数など）は、毎回変更される。

ユーザがシステムのために、スピーカから出力される音響と共にパスワードに相当する音声を再入力すると、システムは当該スピーカによる音響を示す音響信号を除去して、ユーザの音声を示す音声信号のみを認証に使用する。入力された音声と登録されている音声とが一致した場合、当該ユーザは承認されているユーザとして認証される。

一方、第三者がシステムに認証を得るために録音したユーザの音声をスピーカに入力すると、録音したユーザの音声と共に第１の音響及び第２の音響がスピーカに入力される。第１の音響は、ユーザの音声が録音された際にシステムが出力していた音響であり、ユーザの音声と共に録音されている。第２の音響は、現在システムが出力している音響である。システムは、入力された音から第２の音響を示す音響信号を除去する。しかし、第１の音響を示す音響信号は除去されない。したがって、システムは、ユーザの音声を示す音声信号及び第１の音響を示す音響信号を用いて認証処理を行うことになり、第三者は承認されたユーザとして認証されない。

特開平９−１２７９７４号

しかしながら、上記方法では、ユーザの音声を示す音声信号に重畳されているスピーカの音響を示す音響信号を除去する際に、ユーザの音声信号を部分的に損ない、ユーザの認証を適切に行うことが困難になる虞がある。

開示の技術は、１つの側面として、ユーザの認証の精度を向上することを目的とする。

開示の技術において、音響信号生成部は、特定の周波数を有する参照音響を出力するための参照音響信号を生成する。音響出力部は、音響信号生成部によって生成された参照音響信号に基づく参照音響を出力する。音検出部は、音響出力部によって出力された参照音響と入力音とが重畳された重畳音を検出する。音声音響信号分離部は、音検出部によって検出された重畳音を示す信号を、音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離する。音響信号判定部は、音声音響信号分離部によって分離された音響候補信号部分が、音響信号生成部によって生成された参照音響信号と合致しない信号を含むか否かを判定する。音声信号判定部は、音声音響信号分離部によって分離された音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定する。ユーザ認証部は、音響信号判定部による判定が否定され、かつ、前記音声信号判定部による判定が肯定された場合に、対象ユーザを認証する。

開示の技術は、１つの側面として、ユーザの認証の精度を向上する、という効果を有する。

実施形態に係るスマートデバイスの要部機能の一例を示すブロック図である。実施形態に係るスマートデバイスの電気系の構成の一例を示すブロック図である。実施形態に係る音声登録処理の流れの一例を示すフローチャートである。実施形態に係る検出処理の流れの一例を示すフローチャートである。実施形態に係る登録処理の流れの一例を示すフローチャートである。実施形態に係る音声登録処理におけるディスプレイ表示の一例を示す態様図である。実施形態に係る音声登録処理におけるディスプレイ表示の一例を示す態様図である。実施形態に係る音声登録処理におけるディスプレイ表示の一例を示す態様図である。実施形態に係る音声認証処理の流れの一例を示すフローチャートである。実施形態に係る認証処理の流れの一例を示すフローチャートである。実施形態に係る音響信号判定処理の流れの一例を示すフローチャートである。実施形態に係る音声信号判定処理の流れの一例を示すフローチャートである。実施形態に係るユーザ認証処理の流れの一例を示すフローチャートである。実施形態に係る音響信号判定処理の一例を説明するためのグラフである。実施形態に係る音響信号判定処理の一例を説明するためのグラフである。実施形態に係る音響信号判定処理の一例を説明するためのグラフである。実施形態に係る音声認証処理におけるディスプレイ表示の一例を示す態様図である。実施形態に係る音声認証処理におけるディスプレイ表示の一例を示す態様図である。実施形態に係る音声認証処理におけるディスプレイ表示の一例を示す態様図である。実施形態に係る音声認証処理におけるディスプレイ表示の一例を示す態様図である。実施形態に係る認証処理の流れの一例を示すフローチャートである。

以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。なお、以下の説明では、開示の技術に係る音声認証装置の一例としてスマートデバイスを例に挙げて説明するが、開示の技術は、これに限定されるものではない。開示の技術は、例えば、パーソナル・コンピュータ、ゲーム機又は携帯電話機などの様々な装置に適用可能である。

一例として図１に示すスマートデバイス１００は、制御部１３０、インターフェイス部１２０、音声音響検出処理部１４０、音響信号判定部１４４、登録処理部１４２、音声信号判定部１４６、話者モデルデータベース１５０、及びユーザ認証部１４８を含む。スマートデバイス１００は、インターフェイス部１２０を介して、音検出部１１０、音響出力部１１２、文字図形検出部１１４、及び文字図形出力部１１６に接続されている。

音声音響検出処理部１４０、音響信号判定部１４４、登録処理部１４２、音声信号判定部１４６、及びユーザ認証部１４８は、制御部１３０に接続されている。制御部１３０は、音声音響入力処理部１４０、音響信号判定部１４４、登録処理部１４２、音声信号判定部１４６、及びユーザ認証部１４８を制御する。登録処理部１４２及び音声信号判定部１４６は、話者モデルデータベース１５０に接続されている。登録処理部１４２は、話者モデルデータベース１５０に話者モデルを登録し、音声信号判定部１４６は、話者モデル１５０から話者モデルを読み出して、音声信号判定処理に使用する。

制御部１３０は、インターフェイス部１２０を介して、音検出部１１０で検出される音声及び音響を示す信号を取得し、文字図形検出部１１４で検出される文字及び図形を示すデータを取得する。制御部１３０は、インターフェイス部１２０を介して、音響出力部１１２で音響を出力し、文字図形出力部１１６で文字及び図形を表示するように制御する。

スマートデバイス１００は、図２に示すように、ＣＰＵ９１０、一次記憶部９３０及び二次記憶部９２０を備え、ＣＰＵ９１０、一次記憶部９３０及び二次記憶部９２０はバス９９０を介して相互に接続されている。なお、一次記憶部９３０は、例えば、ＲＡＭなどの揮発性のメモリである。二次記憶部９２０は、例えば、ＨＤＤなどの不揮発性のメモリである。

二次記憶部９２０は、音声認証プログラム９２８及び話者モデルデータベース１５０を記憶している。ＣＰＵ９１０は、二次記憶部９２０から音声認証プログラム９２８を読み出して、一次記憶部９３０に展開し、音声認証プログラム９２８が有するプロセスを実行する。音声認証プログラム９２８は、音声音響検出処理プロセス９２１、登録処理プロセス９２２、音響信号判定プロセス９２３、音声信号判定プロセス９２４及びユーザ認証プロセス９２５を有する。

ＣＰＵ９１０は、音声音響検出処理プロセス９２１を実行することで、図１に示す音声音響検出処理部１４０として動作する。ＣＰＵ９１０は、登録処理プロセス９２２を実行することで、図１に示す登録処理部１４２として動作する。ＣＰＵ９１０は、音響信号判定プロセス９２３を実行することで、図１に示す音響信号判定部１４４として動作する。ＣＰＵ９１０は、音声信号判定プロセス９２４を実行することで、図１に示す音声信号判定部１４６として動作する。ＣＰＵ９１０は、ユーザ認証プロセス９２５を実行することで、図１に示すユーザ認証部１４８として動作する。

次に、開示の技術の実施形態の作用として、ＣＰＵ９１０が音声認証プログラム９２８を実行することでスマートデバイス１００によって行われる音声登録処理について、図３を参照して説明する。

一例として図３に示す音声登録処理では、ユーザの音声を話者モデルデータベース１５０に登録する。図６Ａに例示するスマートデバイス１００のディスプレイ９１５に表示されている登録ボタンをユーザがタップしたことをタッチパネル９１６が検出することにより、図３に例示する登録処理が開始される。

一例として図３に示す音声登録処理では、ステップ３１０で音声及び音響を検出する検出処理を行う。

ステップ３１０の検出処理の詳細を一例として図４に示す。ステップ３１２で、音声音響検出処理部１４０は、音響信号生成部として、参照音響信号を生成する。参照音響信号は、人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する音響を出力するための信号である。ここで、人の音声の周波数帯域とは、スマートデバイス１００において、人の音声を処理するための周波数として使用される周波数帯域であり、例えば、８ｋＨｚ以下の周波数帯域である。したがって、参照音響の周波数帯域は８ｋＨｚより高い周波数帯域である。

しかしながら、本開示の技術はこれに限定されず、音響周波数帯域は非可聴周波数帯域、すなわち、２０Ｈｚ未満の周波数帯域及び２０ｋＨｚを越える周波数帯域であってもよい。

参照音響信号は、単一の中心周波数を有する単一の信号であり、音声音響検出処理部１４０は、参照音響信号を生成する毎に異なる中心周波数を有する参照音響信号を生成する。

音声音響検出処理部１４０は、生成した参照音響信号を制御部１３０に送信し、制御部１３０はインターフェイス部１２０を介して、参照音響信号を音響出力部１１２に送信する。ステップ３１４で、音響出力部１１２は、参照音響信号に基づいて参照音響を出力する。音響出力部１１２は、例えば、図１４Ａに一例を示すスマートデバイス１００のスピーカ９１４であってよい。

ユーザが発話すると、ステップ３１６で、音検出部１１０は、音響出力部１１２によって出力された参照音響と入力音であるユーザが発話した音声とが重畳された重畳音を検出する。音検出部１１０は、図１４Ａに一例を示すスマートデバイス１００のマイク９１２であってよい。

音検出部１１０が検出した重畳音を示す信号は、インターフェイス部１２０及び制御部１３０を介して、音声音響検出処理部１４０に送信される。ステップ３１８で、音声音響信号分離部としての音声音響検出処理部１４０は、重畳音を示す信号を音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分とに分離する。

詳細には、重畳音を示す信号に、例えば、８ｋＨｚより高い周波数を有する信号を通過させるハイパスフィルタを適用することにより、重畳音を示す信号から音響候補信号部分を分離する。一方、重畳音を示す信号に、例えば、８ｋＨｚ以下の周波数を有する信号を通過させるローパスフィルタを適用することにより、重畳音を示す信号から音声候補信号部分を分離する。

参照音響信号として、例えば、２０ｋＨｚを越える非可聴周波数の音響を示す信号を使用する場合、ハイパスフィルタは２０ｋＨｚを越える周波数を有する信号のみを通過させるフィルタであってよい。また、ローパスフィルタは２０ｋＨｚ以下の周波数を有する信号のみを通過させるフィルタであってよい。

ステップ３３２で、図６Ｂに一例を示すスマートデバイス１００のディスプレイ９１５に表示されている「ＯＫ」ボタンをユーザがタップしたか否かが判定され、判定が肯定された場合には、ステップ３２０の登録処理に移行する。

ステップ３３２の判定が否定された場合、ステップ３３４で、スマートデバイス１００のディスプレイ９１５に表示されている「キャンセル」ボタンをユーザがタップしたか否かが判定され、判定が肯定された場合には、ステップ３１０に戻る。

ステップ３３４の判定が否定された場合、ステップ３３６で、スマートデバイス１００のディスプレイ９１５に表示されている「中止」ボタンをユーザがタップしたか否かが判定され、判定が肯定された場合には、処理を終了する。

ステップ３３６の判定が否定された場合、ステップ３３２に戻り、ユーザのタップが検出されるまで、ステップ３３２〜３３６を繰り返す。

図５に、ステップ３２０の登録処理の詳細を示す。ステップ３２２で登録処理部１４２は、図４のステップ３１８で分離された音声候補信号部分から音声特徴を抽出する。詳細には、音声候補信号部分に周波数分析を適用し、サウンドスペクトログラム（声紋）に変換する。周波数分析としては、例えば、高速フーリエ変換、または、ケプストラム分析などを使用することができる。

ステップ３２４で話者モデルを生成し、話者モデルデータベース１５０に登録する。生成される話者モデルは照合の手法によって異なる。例えば、照合に動的計画法を使用する場合にはテンプレートであり、照合にベクトル量子化法を用いる場合はコードブックであり、隠れマルコフモデル法及び混合ガウス分布モデル法等の統計手法を用いる場合は複数の多次元正規分布のパラメータである。

ステップ３２６で、後述する図１０のステップ３５６の判定で使用する閾値を算出する。詳細には、第三者を承認されているユーザとして認証する確率が０．１％であるときの尤度を閾値として算出し、話者モデルデータベース１５０に登録する。尤度とは、話者モデルデータベース１５０に登録されている承認されているユーザの音声の音声特徴と、認証しようとする音声から抽出される音声特徴と、の類似度を意味する。

しかしながら、本開示の技術はこれに限定されず、例えば、承認されているユーザの認証を拒絶する確率と第三者を承認されているユーザとして認証する確率とが等しくなる尤度を閾値として算出してもよい。あるいは、閾値は実験的に決定されてもよい。

登録処理の終了後、図６Ｃに一例を示すように、スマートデバイス１００のディスプレイ９１５に音声の登録が完了したことを示すメッセージを表示してもよい。

次に、ＣＰＵ９１０が音声認証プログラム９２８を実行することでスマートデバイス１００によって行われる音声認証処理について、図７を参照して説明する。一例として図７に示す音声認証処理では、スマートデバイス１００がロック状態にあるときに、ステップ３１０で音声及び音響を検出する検出処理を行い、ステップ３３０でユーザを認証する認証処理を行う。

ロック状態とは、第三者による操作を回避するためにロック機能が作動し、スマートデバイス１００がユーザの操作の少なくとも一部を受け付けない状態である。スマートデバイス１００は、特定の入力を検出することによって、ロック状態を解除し、ロック状態の際には受け付けなかった操作を受け付ける。

ステップ３１０で検出される音声及び音響の入力は、ロック状態で受け付けられる上記特定の入力である。

ステップ３１０の検出処理については、上記したため、詳細な説明は省略するが、ステップ３１６について補足する。図３に示す音声登録処理では、ユーザが発話すると、ステップ３１６で、音検出部１１０は、音響出力部１１２によって出力された参照音響と入力音であるユーザが発話した音声とが重畳された重畳音を検出する。

一方、ユーザがシステムに音声を登録するために、あるいは、システムに認証を得るために、発話した音声を第三者が録音すると、当該録音された音には、システムが出力する参照音響が含まれる。音声認証処理では、ユーザが発話するのではなく、第三者が当該録音された音を再生する、すなわち、「なりすまし」が行われる場合がある。この場合、ステップ３１６で、音検出部１１０は、音響出力部１１２によって今回出力された参照音響と、入力音であるユーザの音声とユーザの音声が録音された際に出力された参照音響と、が重畳された重畳音を検出する。参照音響の中心周波数は生成される毎に異なるので、今回出力された参照音響の中心周波数と、入力音に含まれている参照音響の中心周波数と、は異なる。

ステップ３３０の認証処理の詳細を一例として図８に示す。図８に示す認証処理では、ステップ３４０で音響候補信号部分が参照音響信号と合致しない信号を含むか否かを判定する音響信号判定処理を行う。ステップ３５０で音声候補信号部分が予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定する音声信号判定処理を行う。ステップ３６０で、ステップ３４０及びステップ３５０の判定結果に基づいてユーザを認証するユーザ認証処理を行う。

ステップ３４０の音響信号判定処理の詳細を一例として図９に示す。ステップ３４２で、音響候補信号部分が参照音響信号と合致しない信号を含むか否かを判定する。詳細には、一例として図１２に示すように、音響候補信号部分を周波数に分解して、所定の間隔でサンプリングする周波数分析を行う。図１２において、縦軸は音圧Ｐ、横軸は周波数Ｆを示す。音響候補信号部分から所定の閾値ＴＨを越える音圧Ｐを有する周波数ｆｎ（ただし、ｎは自然数）を抽出する。

以下の２つの条件を満たす場合に、抽出された周波数ｆｎの信号を音響候補信号の中心周波数とする。第１の条件は、Ｐ［ｆｎ］＞Ｐ［ｆｎ−１］＞Ｐ［ｆｎ−２］かつＰ［ｆｎ］＞Ｐ［ｆｎ＋１］＞Ｐ［ｆｎ＋２］であることである。閾値ＴＨは実験的に求められる値であってよい。すなわち、第１の条件では、周波数ｆｎに隣接する周波数ｆｎ−１及びｆｎ＋１の音圧Ｐは周波数ｆｎの音圧Ｐより低い。さらに、第１の条件では、周波数ｆｎ−１に隣接する周波数ｆｎ−２の音圧Ｐは周波数ｆｎ−１の音圧Ｐより低く、周波数ｆｎ＋１に隣接する周波数ｆｎ＋２の音圧Ｐは周波数ｆｎ＋１の音圧Ｐより低い。

第２の条件は、ＲＧを所定の定数とするとき、Ｐ［ｆｎ−２］＜Ｐ［ｆｎ］−ＲＧかつＰ［ｆｎ＋２］＜Ｐ［ｆｎ］−ＲＧであることである。定数ＲＧは実験的に求められる値であってよい。すなわち、周波数ｆｎの音圧Ｐと周波数ｆｎ−２及びｆｎ＋２の音圧Ｐとの差が定数ＲＧより大きい、ことが第２の条件である。

上記条件によって、音響候補信号部分が含む全ての音響候補信号の中心周波数を抽出し、当該音響候補信号が参照音響信号と合致しない信号を含むか否かを判定する。ステップ３４４で、音響候補信号が参照音響信号と合致しない信号を含まない場合、すなわち合致する場合、ステップ３４６で音響信号一致フラグに「１」を設定する。

一例として、図１３Ａに示すように、参照音響信号の中心周波数が１８ｋＨｚであり、ユーザの発話が入力音として検出された場合、音響候補信号部分は参照音響信号の中心周波数以外の中心周波数を有する音響候補信号は含まない。したがって、音響信号一致フラグには「１」が設定される。

一方、ステップ３４４で音響候補信号が参照音響信号と合致しない信号を含む場合、ステップ３４８で音響信号一致フラグに「０」を設定する。

一例として、図１３Ｂに示すように、参照音響信号の中心周波数が１８ｋＨｚであり、第三者がユーザの音声を録音した音が入力音として検出された場合、音響候補信号部分は参照音響信号と合致しない音響候補信号を含む。すなわち、音響候補信号部分はユーザの音声が録音された際に出力されていた参照音響の中心周波数を有する音響候補信号も含む。図１３Ｂでは、２０ｋＨｚがユーザの音声が録音された際に出力されていた参照音響の中心周波数である。したがって、音響信号一致フラグには「０」が設定される。

音響候補信号の中心周波数の抽出は上記に限定されず、例えば、図１２に示す音圧Ｐに周波数の一次微分及び二次微分を適用し、一次微分で値が０となり、二次微分で値が負となる周波数成分の周波数を音響候補信号の中心周波数として抽出してもよい。

ステップ３５０の音声信号判定処理の詳細を図１０に示す。音声信号判定部１４６は、ステップ３５２で、図４のステップ３１８で分離された音声候補信号部分から音声特徴を抽出する。音声特徴の抽出については上記したため、説明を省略する。

ステップ３５４で、話者モデルデータベース１５０に登録されている承認されているユーザの音声の音声特徴と、ステップ３５２で抽出された音声特徴と、の尤度を求める。

ステップ３５６で、尤度が、例えば、図５のステップ３２６で算出して話者モデルデータベース１５０に登録した所定の閾値より大きいか否かを判定する。尤度が所定の閾値より大きいと判定された場合には、ステップ３５８で、音声信号一致フラグに「１」を設定する。一方、ステップ３５６で、尤度が所定の閾値以下であると判定された場合には、ステップ３５９で音声信号一致フラグに「０」を設定する。

話者モデルデータベース１５０に承認されているユーザの音声が複数登録されている場合には、ステップ３５４〜ステップ３５９を必要に応じて繰り返す。

ステップ３６０のユーザ認証処理の詳細を図１１に示す。ユーザ認証部１４８は、ステップ３６２で、音響信号一致フラグが「１」であり、かつ、音声信号一致フラグが「１」であるか否かを判定する。判定が肯定された場合、ステップ３６６で、ユーザを認証し、判定が否定された場合、ステップ３６８で、ユーザの認証を拒否する。

判定が肯定された場合、図１４Ｂに一例を示すように、スマートデバイス１００のロック状態を解除して通常状態に移行する。一方、判定が否定された場合、図１５Ａに一例を示すように、スマートデバイス１００のディスプレイ９１６に認証が拒絶されたことを示すメッセージを表示し、ロック状態を維持する。あるいは、判定が否定された場合、図１５Ｂに一例を示すように、スマートデバイス１００のディスプレイ９１６に、ユーザの発話を促すメッセージを表示して、音声認証処理を繰り返してもよい。

上記では、ユーザが認証された場合、スマートデバイス１００をロック状態から通常状態に移行し、ユーザの認証が拒絶された場合、ロック状態を維持する例について記載したが、本開示の技術はこれに限定されない。例えば、任意の対象ハードウェア及び対象ソフトウェアの少なくとも一方の動作がロック状態にある場合に、音声認証処理を行い、ユーザが認証された場合、ロック状態にあった当該対象ハードウェア及び対象ソフトウェアの動作を可能とするようにしてもよい。

上記では、図８に示す認証処理において、ステップ３４０の音響信号処理及びステップ３５０の音声信号処理の双方を行うようにしているが、本開示の技術はこれに限定されない。図１６に示すように、ステップ３４０の音響信号判定処理において、音響信号一致フラグに「１」が設定され、ステップ３６３で音響信号一致フラグが「１」であると判定された場合のみ、ステップ３５０の音声信号判定処理を行うようにしてもよい。図１６では、ステップ３４０の音響信号判定処理において、音響信号一致フラグに「０」が設定された場合、ステップ３６３で判定が否定される。したがって、ステップ３５０の音声信号判定処理は行わずに、ステップ３６８でユーザの認証を拒否する。

図１６に例示される処理では、音響候補信号部分が参照音響信号以外の音響候補信号を含む場合、音声候補信号部分の音声の特徴が登録されている承認されているユーザの音声の特徴と合致するか否かの判定を行わない。したがって、処理の負荷を低減し、処理速度を向上することが可能となる。

なお、上記では、参照音響信号は、単一の中心周波数を有する単一の信号であるとした。しかしながら、本開示の技術はこれに限定されず、参照音響信号は、単一の中心周波数を有する複数の信号を含む信号であってもよい。この場合、図４のステップ３１２で、音声音響検出処理部１４０は、参照音響信号を生成する毎に異なる組み合わせの周波数の各々を各々が中心周波数とする複数の信号を含む参照音響信号を生成する。

参照音響信号が複数の信号を含む信号である場合、図９のステップ３４４では、当該複数の信号のいずれとも合致しない音響候補信号を含むか否かを判定する。判定が否定された場合には、音響信号一致フラグに「１」を設定し、判定が肯定された場合には、音響信号一致フラグに「０」を設定する。

本開示の技術では、音声認証処理及び音声登録処理を、ＣＰＵ９１０が音声認証プログラム９２８を実行することでスマートデバイス１００によって行われるものとした。しかしながら、本開示の技術はこれに限定されない。例えば、通信回線を介してスマートデバイス１００に接続される他のコンピュータまたはサーバ装置などに音声認証プログラム９２８の少なくとも一部及び話者モデルデータベース１５０を記憶させてもよい。

この場合、音声認証処理及び音声登録処理の少なくとも一部を他のコンピュータまたはサーバ装置などによって行わせることが可能となる。例えば、スマートデバイス１００は、参照音響を示す信号の生成及び参照音響の出力、重畳音の検出のみを行い、他のコンピュータまたはサーバ装置などによって対象ユーザが認証された場合に、スマートデバイス１００のロック状態を解除するようにしてもよい。

本開示の技術では、参照音響として、人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する音響を生成する。したがって、検出される重畳音を示す信号に含まれる音声候補信号部分と参照音響候補信号部分との分離を周波数に基づいて行うことが可能となる。このように、検出される重畳音を示す信号から参照音響信号を除去する必要がないため、重畳音を示す信号に含まれる音声候補信号を損なうことがない。ユーザ認証に使用する音声候補信号を損なうことがないため、ユーザ認証の精度を向上することが可能となる。

本開示の技術では、検出される重畳音を示す信号に含まれる音響候補信号部分が参照音響信号と合致しない信号を含むか否かをさらに判定している。本開示の技術では、参照音響として、人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する音響を生成している。したがって、参照音響がユーザの発話による音声に干渉しない。

このため、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定するのみでは、重畳音に含まれる入力音がユーザの発話による音声であるのか、第三者によって録音された音であるのか判定することが困難となる場合がある。しかし、本開示の技術では、検出される重畳音を示す信号に含まれる音響候補信号部分が参照音響信号と合致しない信号を含むか否かも判定する。入力音が第三者によって録音された音である場合には、当該入力音は録音時に生成され出力された周波数の異なる参照音響を含むため、当該入力音が第三者によって録音された音であることが検出される。したがって、ユーザ認証の精度をさらに向上することが可能となる。

以上の実施形態に関し、さらに以下の付記を開示する。
（付記１）
人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する参照音響を出力するための参照音響信号を生成する音響信号生成部と、
前記音響信号生成部によって生成された前記参照音響信号に基づく前記参照音響を出力する音響出力部と、
前記音響出力部によって出力された前記参照音響と入力音とが重畳された重畳音を検出する音検出部と、
前記音検出部によって検出された前記重畳音を示す信号を、前記音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、前記人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離する音声音響信号分離部と、
前記音声音響信号分離部によって分離された前記音響候補信号部分が、前記音響信号生成部によって生成された前記参照音響信号と合致しない信号を含むか否かを判定する音響信号判定部と、
前記音声音響信号分離部によって分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定する音声信号判定部と、
前記音響信号判定部による判定が否定され、かつ、前記音声信号判定部による判定が肯定された場合に、対象ユーザを認証するユーザ認証部と、
を備える音声認証装置。

（付記２）
人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する参照音響を出力するための参照音響信号を生成する音響信号生成部と、
前記音響信号生成部によって生成された前記参照音響信号に基づく前記参照音響を出力する音響出力部と、
前記音響出力部によって出力された前記参照音響と入力音とが重畳された重畳音を検出する音検出部と、
前記音検出部によって検出された前記重畳音を示す信号を、前記音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、前記人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離する音声音響信号分離部と、
前記音声音響信号分離部によって分離された前記音響候補信号部分が、前記音響信号生成部によって生成された前記参照音響信号と合致しない信号を含むか否かを判定する音響信号判定部と、
前記音響信号判定部による判定が否定された場合に、前記音声音響信号分離部によって分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定する音声信号判定部と、
前記音声信号判定部による判定が肯定された場合に、対象ユーザを認証するユーザ認証部と、
を備える音声認証装置。

（付記３）
前記ユーザ認証部によって前記対象ユーザが認証された場合に、対象ハードウェア及び対象ソフトウェアの少なくとも一方の動作を可能とする、
付記１または２に記載の音声認証装置。

（付記４）
前記音響信号生成部によって生成される前記参照音響信号は、単一の中心周波数を有する単一の信号である、付記１〜３のいずれか１項に記載の音声認証装置。

（付記５）
前記音響信号生成部によって生成される前記参照音響信号は、各々が単一の中心周波数を有する複数の信号を含む信号である、付記１〜３のいずれか１項に記載の音声認証装置。

（付記６）
前記音響信号周波数帯域に含まれる周波数は８ｋＨｚより高い周波数である、付記１〜５のいずれか１項に記載の音声認証装置。

（付記７）
前記音響信号周波数帯域に含まれる周波数は、非可聴域周波数である、付記１〜５のいずれか１項に記載の音声認証装置。

（付記８）
コンピュータが、
（ａ）人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する参照音響を出力するための参照音響信号を生成し、
（ｂ）生成された前記参照音響信号に基づく前記参照音響を出力し、
（ｃ）出力された前記参照音響と入力音とが重畳された重畳音を検出し、
（ｄ）検出された前記重畳音を示す信号を、前記音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、前記人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離し、
（ｅ）分離された前記音響候補信号部分が、（ａ）において生成された前記参照音響信号と合致しない信号を含むか否かを判定し、
（ｆ）分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定し、
（ｇ）（ｅ）における判定が否定され、かつ、（ｆ）における判定が肯定された場合に、対象ユーザを認証する、
音声認証方法。

（付記９）
（ｈ）人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する参照音響を出力するための参照音響信号を生成し、
（ｉ）生成された前記参照音響信号に基づく前記参照音響を出力し、
（ｊ）出力された前記参照音響と入力音とが重畳された重畳音を検出し、
（ｋ）検出された前記重畳音を示す信号を、前記音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、前記人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離し、
（ｌ）分離された前記音響候補信号部分が、（ｈ）において生成された前記参照音響信号と合致しない信号を含むか否かを判定し、
（ｍ）（ｌ）における判定が否定された場合に、（ｋ）において分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定し、
（ｎ）（ｍ）における判定が肯定された場合に、対象ユーザを認証する、
音声認証方法。

（付記１０）
前記対象ユーザが認証された場合に、対象ハードウェア及び対象ソフトウェアの少なくとも一方の動作を可能とする、
付記８または９に記載の音声認証方法。

（付記１１）
前記参照音響信号は、単一の中心周波数を有する単一の信号である、付記８〜１０のいずれか１項に記載の音声認証方法。

（付記１２）
前記参照音響信号は、各々が単一の中心周波数を有する複数の信号を含む信号である、付記８〜１０のいずれか１項に記載の音声認証方法。

（付記１３）
前記音響信号周波数帯域に含まれる周波数は８ｋＨｚより高い周波数である、付記８〜１２のいずれか１項に記載の音声認証方法。

（付記１４）
前記音響信号周波数帯域に含まれる周波数は、非可聴域周波数である、付記８〜１２のいずれか１項に記載の音声認証方法。

（付記１５）
コンピュータに、
（ａ）人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する参照音響を出力するための参照音響信号を生成し、
（ｂ）生成された前記参照音響信号に基づく前記参照音響を出力し、
（ｃ）出力された前記参照音響と入力音とが重畳された重畳音を検出し、
（ｄ）検出された前記重畳音を示す信号を、前記音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、前記人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離し、
（ｅ）分離された前記音響候補信号部分が、（ａ）において生成された前記参照音響信号と合致しない信号を含むか否かを判定し、
（ｆ）分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定し、
（ｇ）（ｅ）における判定が否定され、かつ、（ｆ）における判定が肯定された場合に、対象ユーザを認証する、
ことを含む処理を実行させるための音声認証プログラム。

（付記１６）
コンピュータに、
（ｈ）人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する参照音響を出力するための参照音響信号を生成し、
（ｉ）生成された前記参照音響信号に基づく前記参照音響を出力し、
（ｊ）出力された前記参照音響と入力音とが重畳された重畳音を検出し、
（ｋ）検出された前記重畳音を示す信号を、前記音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、前記人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離し、
（ｌ）分離された前記音響候補信号部分が、（ｈ）において生成された前記参照音響信号と合致しない信号を含むか否かを判定し、
（ｍ）（ｌ）における判定が否定された場合に、（ｋ）において分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定し、
（ｎ）（ｍ）における判定が肯定された場合に、対象ユーザを認証する、
ことを含む処理を実行させるための音声認証プログラム。

（付記１７）
前記対象ユーザが認証された場合に、対象ハードウェア及び対象ソフトウェアの少なくとも一方の動作を可能とする、
付記１５または１６に記載の音声認証プログラム。

（付記１８）
前記参照音響信号は、単一の中心周波数を有する単一の信号である、付記１５〜１７のいずれか１項に記載の音声認証プログラム。

（付記１９）
前記参照音響信号は、各々が単一の中心周波数を有する複数の信号を含む信号である、付記１５〜１７のいずれか１項に記載の音声認証プログラム。

（付記２０）
前記音響信号周波数帯域に含まれる周波数は８ｋＨｚより高い周波数である、付記１５〜１９のいずれか１項に記載の音声認証プログラム。

（付記２１）
前記音響信号周波数帯域に含まれる周波数は、非可聴域周波数である、付記１５〜１９のいずれか１項に記載の音声認証プログラム。

（付記２２）
人の音声の周波数帯域とは重複しない音響周波数帯域に含まれる周波数を有する参照音響を出力するための参照音響信号を生成する音響信号生成部と、
前記音響信号生成部によって生成された前記参照音響信号に基づく前記参照音響を出力する音響出力部と、
前記音響出力部によって出力された前記参照音響と入力音とが重畳された重畳音を検出する音検出部と、
前記音検出部によって検出された前記重畳音を示す信号を、前記音響信号周波数帯域に含まれる周波数を有する音響候補信号部分と、前記人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離し、分離された前記音響候補信号部分が、前記音響信号生成部によって生成された前記参照音響信号と合致しない信号を含むか否かを判定する第１の判定を行い、分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定する第２の判定を行い、前記第１の判定が否定され、かつ、前記第２の判定が肯定された場合に、対象ユーザを認証するユーザ認証部によって前記対象ユーザが認証された場合に、対象ハードウェア及び対象ソフトウェアの少なくとも一方の動作を可能とする、
音声認証装置。

１００スマートデバイス
１１０音検出部
１１２音響出力部
１４０音声音響検出処理部
１４４音響信号判定部
１４６音声信号判定部
１４８ユーザ認証部

Claims

特定の周波数を有する参照音響を出力するための参照音響信号を生成する音響信号生成部と、
前記音響信号生成部によって生成された前記参照音響信号に基づく前記参照音響を出力する音響出力部と、
前記音響出力部によって出力された前記参照音響と入力音とが重畳された重畳音を検出する音検出部と、
前記音検出部によって検出された前記重畳音を示す信号を、前記特定の周波数を有する音響候補信号部分と、人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離する音声音響信号分離部と、
前記音声音響信号分離部によって分離された前記音響候補信号部分が、前記音響信号生成部によって生成された前記参照音響信号と合致しない信号を含むか否かを判定する音響信号判定部と、
前記音声音響信号分離部によって分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定する音声信号判定部と、
前記音響信号判定部による判定が否定され、かつ、前記音声信号判定部による判定が肯定された場合に、対象ユーザを認証するユーザ認証部と、
を備える音声認証装置。
特定の周波数を有する参照音響を出力するための参照音響信号を生成する音響信号生成部と、
前記音響信号生成部によって生成された前記参照音響信号に基づく前記参照音響を出力する音響出力部と、
前記音響出力部によって出力された前記参照音響と入力音とが重畳された重畳音を検出する音検出部と、
前記音検出部によって検出された前記重畳音を示す信号を、前記特定の周波数を有する音響候補信号部分と、人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離する音声音響信号分離部と、
前記音声音響信号分離部によって分離された前記音響候補信号部分が、前記音響信号生成部によって生成された前記参照音響信号と合致しない信号を含むか否かを判定する音響信号判定部と、
前記音響信号判定部による判定が否定された場合に、前記音声音響信号分離部によって分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定する音声信号判定部と、
前記音声信号判定部による判定が肯定された場合に、対象ユーザを認証するユーザ認証部と、
を備える音声認証装置。
（ａ）特定の周波数を有する参照音響を出力するための参照音響信号を生成し、
（ｂ）前記参照音響信号に基づく前記参照音響を出力し、
（ｃ）出力された前記参照音響と入力音とが重畳された重畳音を検出し、
（ｄ）検出された前記重畳音を示す信号を、前記特定の周波数を有する音響候補信号部分と、人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離し、
（ｅ）分離された前記音響候補信号部分が、（ａ）において生成された前記参照音響信号と合致しない信号を含むか否かを判定し、
（ｆ）分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定し、
（ｇ）（ｅ）における判定が否定され、かつ、（ｆ）における判定が肯定された場合に、対象ユーザを認証する、
音声認証方法。
コンピュータに、
（ａ）特定の周波数を有する参照音響を出力するための参照音響信号を生成し、
（ｂ）生成された前記参照音響信号に基づく前記参照音響を出力し、
（ｃ）出力された前記参照音響と入力音とが重畳された重畳音を検出し、
（ｄ）検出された前記重畳音を示す信号を、前記特定の周波数を有する音響候補信号部分と、人の音声の周波数帯域に含まれる周波数を有する音声候補信号部分と、に分離し、
（ｅ）分離された前記音響候補信号部分が、（ａ）において生成された前記参照音響信号と合致しない信号を含むか否かを判定し、
（ｆ）分離された前記音声候補信号部分が、予め登録されている登録音声信号の特徴と特徴が合致する信号を含むか否かを判定し、
（ｇ）（ｅ）における判定が否定され、かつ、（ｆ）における判定が肯定された場合に、対象ユーザを認証する、
ことを含む処理を実行させるための音声認証プログラム。