JP6344696B2

JP6344696B2 - 声紋認証方法および装置

Info

Publication number: JP6344696B2
Application number: JP2015218244A
Authority: JP
Inventors: リ、チャオ; グアン、ヨン
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2015-06-17
Filing date: 2015-11-06
Publication date: 2018-06-20
Anticipated expiration: 2035-11-06
Also published as: US20160372121A1; KR20160149132A; CN105185379A; EP3107091B1; KR101735212B1; JP2017009980A; EP3107091A1; US10325603B2; CN105185379B

Description

この発明は、身分認証の技術領域に関し、特に声紋認証方法および装置に関する。

従来の声紋認証技術は、主にテキスト依存およびテキスト独立の二種類に分かれる。テキスト独立の声紋認証技術は、ユーザの話した内容を区別しないが、テキスト依存の声紋認証技術は、ユーザの話した内容と登録時のと一致する必要がある。両方の技術がそれぞれ長所と短所がある。テキスト独立の声紋認証技術は、ユーザの話した内容を制限しないので、柔軟的に応用できるが、できるだけ大きなサンプル空間を覆うために、ユーザの長時間通話が必要である。テキスト依存の声紋認証技術は、ユーザ音声が通常短いが、テキストが登録時のと一致する必要があるので、録音詐欺を防ぐことができない。

本発明の目的は、関連技術における少なくともある程度一つの問題を解決することにある。

そのため、本発明の第一目的は、声紋認証方法を提出することにある。当方法は、ユーザが認証時に長い時間話しをする必要がないことと、音声内容の変化性とを確保する。これによって、録音詐欺を防ぐことができる。

本発明のほかの一つの目的は、声紋認証装置を提出することにある。

上記目的を達成するために、本発明の第一側面の実施例は、ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示するステップと、前記ユーザが朗読した前記提示テキストの音声を取得するステップと、前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決めるステップとを含める声紋認証方法を提供する。

本発明の第一側面の実施例が提出した声紋認証方法によれば、朗読した音声と登録モデルをマッチングすることによって、限定されたテキストに基づく声紋認証を実現できる。登録モデルを利用したので、テキスト独立方式に相当し、ユーザが認証時に長い時間話しをする必要がないことを確保することができる。また、提示テキストは予め登録したフレーズの組み合わせであるので、テキスト依存方式に固定の登録フレーズの方式を採用することに相当する。したがって、音声内容の変化性を確保し、録音詐欺を防ぐことができる。

上記目的を達成するために、本発明の第二側面の実施例は、ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示する第一表示モジュールと、前記ユーザが朗読した前記提示テキストの音声を取得する第一取得モジュールと、前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決める認証モジュールとを含める声紋認証装置を提供する。

本発明の第二側面の実施例が提出した声紋認証装置によれば、朗読した音声と登録モデルをマッチングすることによって、限定されたテキストに基づく声紋認証を実現できる。登録モデルを利用したので、テキスト独立方式に相当し、ユーザが認証時に長い時間話しをする必要がないことを確保することができる。また、提示テキストは予め登録したフレーズの組み合わせであるので、テキスト依存方式に固定の登録フレーズの方式を採用することに相当する。したがって、音声内容の変化性を確保し、録音詐欺を防ぐことができる。

本発明の付加的特徴と利点は、その一部が下記の記述からあげられ、ほかの部分が下記の記述により顕著となり、または、本発明の使用を通して理解できる。

下記の図面を利用して、本発明の上述および／または付加の側面と利点をよく理解できる。その中で、
本発明の一つの実施例が提出した声紋認証方法のフローチャートである；本発明のほかの一つの実施例が提出した声紋認証方法のフローチャートである；本発明実施例の一つの登録過程のフローチャートである；本発明実施例のほかの一つの登録過程のフローチャートである；本発明実施例の登録過程において選択可能なフレーズを示す図である；本発明のほかの一つの実施例が提出した声紋認装置の構造を示す図である；本発明のほかの一つの実施例が提出した声紋認装置の構造を示す図である。

以下に、本発明の実施例について詳しく説明する。前記実施例の実例が図面において示されるが、一貫して同一または類似する符号は、相同又は類似の部品、或いは、相同又は類似の機能を有する部品を表す。図面を参照しがら説明する下記の実施例は、本発明の解釈のみの例示であり、本発明を制限するものと理解できない。逆に、本発明の実施例は、特許請求の範囲に含まれる要旨及び内包範囲におけるあらゆる変化・変更及び同等物を含む。

図１は本発明の一つの実施例が提出した声紋認証方法のフローチャートである。当声紋認証方法はステップＳ１１、ステップＳ１２およびステップＳ１３を含む。

ステップＳ１１において、ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示する。

その中に、ユーザが声紋認証を必要とするとき、まず、当ユーザのユーザ標識（ユーザＩＤ）、たとえば、携帯電話番号、ログインアカウントなどを取得する。その後、予め作成した登録情報から、当ユーザ標識に対応する登録したフレーズを探す。

たとえば、ユーザが第一ユーザであり、登録情報の中において第一ユーザが登録したフレーズは、Ａ、Ｂ、Ｃなどを含む。そして、Ａ、Ｂ、Ｃからフレーズ組み合わせを選び、提示テキストになる。

その中に、登録したフレーズを組み合わせて、提示テキストを生成するとき、選択アルゴリズムおよび選択個数は配置されることができる。

任意選択では、前記予め登録したフレーズは複数である。前記ユーザに提示テキストを表示する前に、前記方法はさらに、予め登録した複数のフレーズからランダムに一つまたは複数のフレーズを選び、選んだフレーズを組み合わせて、前記提示テキストを生成するステップを含む。

たとえば、選択アルゴリズムがランダム選択であり、選択個数が２個であり、予め登録したフレーズが「私たち」、「本当に」、「レイジング」、「ブル」、「食事している」及び「手を洗わない」を含む。この六つのフレーズから二つの組み合わせをランダムに選択して提示テキストを生成する。提示テキストは、たとえば、「レイジングブル」、「本当に手を洗わない」などである。

理解できるのは、選択された提示テキストを組み合わせて生成するフレーズの個数が限らなく、一つでもいいし、または、複数でもよい。また、提示テキストの個数も限らなく、一つでもいいし、または、複数でもよい。後述の実施例が一つの提示テキストの認証過程を例とする。理解できるのは、提示テキストは複数である場合、一つの提示テキストの認証過程に従い、すべての提示テキストの認証過程を完成でき、しかも、すべての提示テキストの認証が成功した後、声紋認証の成功を決める。そうでなければ、認証が失敗する。

ステップＳ１２において、前記ユーザが朗読した前記提示テキストの音声を取得する。

ユーザに提示テキストを表示した後、ユーザは提示テキストに従い朗読する。

当方法を実行する認証装置は、その中にユーザにより朗読された音声を取得するための音声取得モジュールを設置することができる。たとえば、当認証装置は、フォアグラウンドモジュールおよびバックグラウンドモジュールを含むことができる。フォアグラウンドモジュールがユーザ設備の中に設置されることができる。ユーザ設備の中には、さらに、ユーザにより朗読された音声を取得するための音声取得モジュールが含まれることもできる。

ステップＳ１３において、前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決める。

例えば、図２を参照して、音声を取得した後、当方法は、さらに、ステップＳ２１とステップＳ２２を含む。

ステップＳ２１において、当音声と提示テキストが一致するかを判断する。

その中に、提示テキストが当認証装置によりユーザに表示されるものなので、認証装置内には当提示テキストを保存することができる。

また、当認証装置が音声を取得した後、たとえば、音声識別などの技術によって音声に対応するテキストを決めてから、当テキストを保存している提示テキストとマッチングして、両者の一致性を判断する。

ステップＳ２２において、一致しない場合、テキストが不一致するというエラーメッセージを返す。

たとえば、マッチングにより両者が一致しない場合、ユーザにテキストが不一致することを提示することができる。ユーザが朗読などの操作をやり直すことができる。

両者が一致する場合、当音声と予め作成した登録モデルに基づいて、声紋認証結果を決める。

任意選択では、前記予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決めるステップは、前記音声を区切って、前記フレーズに対応するフレーズ音声を取得するステップと、予め作成した、前記フレーズに対応する登録モデルを取得するステップと、前記フレーズ音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含むか、または、予め作成した、前記フレーズに対応する登録モデルを取得ステップと、前記登録モデルを組み合わせてから、組み合わせた後の登録モデルを得るステップと、前記音声を認証対象の音声とし、前記組み合わせた後の登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含むか、または、予め作成した、前記提示テキストに対応する登録モデルを取得するステップと、前記音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含む。

たとえば、取得した音声が「レイジングブル」である場合、この音声を区切って、得られたメッセージ音声が、「レイジング」に対する音声、および、「ブル」に対する音声を含む。その後、登録時に保存した「レイジング」に対する音声、および、「ブル」に対する音声をそれぞれマッチングして、声紋認証結果を得られる。この中に、予め作成した区切りモデルによって、音声区切りを行う。当区切りモデルは、登録時のフレーズに対応するフレーズ音声に基づいて作成されることができる。たとえば、区切りモデルにおいて、登録時の各フレーズ音声の終始標識を記録し、これによって、この終始標識により音声を区切ってフレーズ音声を得られる。

また、たとえば、現在の提示テキストが「レイジングブル」であると決める場合、登録情報から「レイジング」に対応する音声、および、「ブル」に対する音声を探して、この二つの音声を組み合わせて、組み合わせた後の音声を得てから、当組み合わせた後の音声を取得したユーザにより朗読された「レイジングブル」にマッチングを行い、声紋認証結果を得られる。

また、たとえば、登録時に、上述のようにフレーズの登録モデルを作成することではなく、可能な提示テキストの登録モデルを作成する。たとえば、「レイジングブル」の音声に対応する登録モデルを作成する。したがって、認証時に、「レイジングブル」に対応する登録モデルを取得してから、取得したユーザにより朗読された「レイジングブル」の音声にマッチングを行い、声紋認証結果を得られる。

図２を参照して、音声区切りを例とて、ステップＳ２１において一致すると判断された場合、当方法は、さらに、ステップＳ２３、ステップＳ２４、ステップＳ２５、ステップＳ２６、ステップＳ２７を含む。

ステップＳ２３において、当音声をフレーズ音声に区切る。

この中に、予め作成した区切りモデルによって、音声区切りを行う。当区切りモデルは、登録時のフレーズに対応するフレーズ音声に基づいて作成されることができる。たとえば、区切りモデルにおいて、登録時の各フレーズ音声の終始標識を記録し、これによって、この終始標識により音声を区切ってフレーズ音声を得られる。

ステップＳ２４において、各フレーズ音声とそれに対応する登録モデルのマッチング値を計算する。

マッチング値の計算方法は、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭ）に使われるｉｖｅｃｔｏｒ点数付け、および、ｉｖｅｃｔｏｒモデルに使われる確率線形判別分析（ＰｒｏｂａｂｉｌｉｓｔｉｃＬｉｎｅａｒＤｉｓｃｒｉｍｉｎａｎｔＡｎａｌｙｓｉｓ，ＰＬＤＡ）点数付けを含むが、それらに限らない。

ステップＳ２５において、各マッチング値が予め設定した閾値より大きいか否かを判断する。そうであれば、ステップＳ２６を実行する。そうでなければ、ステップＳ２７を実行する。

ステップＳ２６において、認証成功とする。

ステップＳ２７において、認証失敗とする。

任意選択では、前記フレーズに対応する登録モデルを決めるステップは、前記ユーザのユーザ標識を取得するステップと、前記ユーザのユーザ標識、前記フレーズ、登録時生成したユーザ標識及びフレーズと登録モデルとの対応関係に基づいて、前記フレーズに対応する登録モデルを決めるステップとを含む。

たとえば、音声区切りによって得られたメッセージ音声が、「レイジング」の音声、および、「ブル」の音声を含む。

登録により、ユーザ標識、フレーズと登録モジュールの対応関係を作成する。たとえば、第一ユーザの第一フレーズが第一登録モデルに対応する場合、ユーザが認証する時、ユーザのユーザ標識を取得でき、区切った後、フレーズを得られて、当対応関係によって、それに応じる登録モデルを決めることができる。

登録モデルを決めた後、当登録モデルとそれに対応するフレーズ音声とのマッチング値を計算する。マッチング値の計算方法は、ＨＭＭに使われるｉｖｅｃｔｏｒ点数付け、および、ｉｖｅｃｔｏｒモデルに使われるＰＬＤＡ点数付けを含むが、それらに限らない。

以上、認証過程を説明した。理解できるのは、認証過程の前に、登録過程を行うこともできる。登録過程においてフレーズの登録モデルを作成する。

図３を参照して、登録過程は、ステップＳ３１、ステップＳ３２、ステップＳ３３を含むことができる。

ステップＳ３１において、ユーザに登録対象のフレーズを表示する。

その中に、登録対象のフレーズは、登録の前に予め生成されたのもである。登録対象のフレーズは、一つでもいいし、複数でもよい。

任意選択では、前記登録対象のフレーズが複数である場合、異なる登録対象のフレーズは、異なる登録対象のフレーズの長さがいずれも予め設定した長さの閾値より短い条件、異なる登録対象のフレーズの長さの差が予め設定した差より短い条件、及び異なる登録対象のフレーズの中に、同じ発音の文字を含まない条件、の少なくとも一つを満足する。

たとえば、登録対象のフレーズの長さ全体を二文字または三文字に設置する。このように、フレーズを短いテキストにして、且つその長さも基本的に一致する。

また、たとえば、異なるフレーズの中に、できるだけ同じ発音の文字を含まない。たとえば、「公牛」と「供手」の文字には、発音「ｇｏｎｇ」を有するので、できるだけ同時に出現させない。

任意選択では、登録対象のフレーズが固定的に設置されると黙認してもよいし、または、ユーザにより複数の選択可能なフレーズから選ばれる。たとえば、図４を参照して、登録過程は、さらに、ステップＳ４１とステップＳ４２を含む。

ステップＳ４１において、前記ユーザに選択可能なフレーズを表示する。

たとえば、図５を参照して、選択可能なフレーズを含む選択画面５１を表示する。選択可能なフレーズは、たとえば、「私たち」、「本当に」、「レイジング」などを含む。

ステップＳ４２において、前記ユーザにより前記選択可能なフレーズから選ばれた前記登録対象のフレーズを取得する。

ユーザに図５に示すようなフレーズを表示した後、ユーザがこれらのフレーズから登録対象のフレーズを選ばれる。たとえば、選んだ登録対象のフレーズは、「本当に」、「レイジング」、「手を洗わない」及び「ピーコック」を含む。これらの登録対象のフレーズを登録した後、認証過程において提示テキストを生成される。たとえば、提示テキストは、「ピーコックが手を洗わない」、「レイジングピーコックが手を洗わない」及び「レイジングピーコックが本当に手を洗わない」ということを含む。理解できるのは、本実施例には、ロジック的フレーズ組み合わせを例として、読みやすさを考慮すると、フレーズを組み合わせた後、文法などをチェックする。文法などの要求に満たしたら、当提示テキストをユーザに表示する。

その後、ユーザに当登録対象のフレーズを表示することができる。ユーザが当登録対象のフレーズを朗読することができる。

ステップＳ３２において、前記ユーザが朗読した前記登録対象の音声を取得する。

例えば、ユーザが順序に各登録対象のフレーズを朗読し、ユーザ設備内の音声取得モジュールにより対応する音声を取得される。

ステップＳ３３において、前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成する。

任意選択では、前記ユーザの朗読した音声が複数回であり、前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成するステップは、毎回、前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、複数回の朗読の音声に基づいて、前記登録対象のフレーズの登録モデルを作成するステップを含む。

たとえば、ユーザが「本当に」を朗読する時、複数回朗読が必要であると設置してもよい。毎回朗読した後、音声識別などの技術により対応のテキストを識別し、もし「本当に」と一致すれば、複数回の音声に基づいて、「本当に」に対応の登録モデルを作成する。

音声に基づいて登録モデルを作成する方法は、複数の種類を有する。たとえば、作成した登録モデルは、ＨＭＭに基づく声紋モデル、および、ｉｖｅｃｔｏｒに基づく声紋モデルを含むが、それらに限らない。

本実施例において、朗読した音声と登録モデルとをマッチングすることによって、限定されたテキストに基づく声紋認証を実現できる。登録モデルを利用したので、テキスト独立方式に相当し、ユーザが認証時に長い時間話しをする必要がないことを確保することができる。また、提示テキストは予め登録したフレーズの組み合わせであるので、テキスト依存方式に固定の登録フレーズの方式を採用することに相当する。したがって、音声内容の変化性を確保し、録音詐欺を防ぐことができる。本実施例は、声紋認証を利用したので、真似にくく、安全度を上げられ、便利さを増加した。支払いに利用する時、ユーザからのパスワード入力が不要し、パスワード検証も要らない。したがって、利用過程の便利さと支払い効率をアップする。

図６は本発明のほかの一つの実施例が提出した声紋認装置の構造を示す図である。当装置６０は、第一表示モジュール６１、生成モジュール６４、第一取得モジュール６２、および、認証モジュール６３を含む。

第一表示モジュール６１は、ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示する。

任意選択では、前記予め登録したフレーズは複数である。図７に参照するように、前記装置６０は、さらに、生成モジュール６４を含む。

生成モジュール６４は、予め登録した複数のフレーズからランダムに一つまたは複数のフレーズを選び、選んだフレーズを組み合わせて、前記提示テキストを生成する。

理解できるのは、選択された提示テキストを組み合わせて生成するフレーズの個数が限らなく、一つでもいいし、または、複数でもよい。また、提示テキストの個数も限らなく、一つでもいいし、または、複数でもよい。後述の実施例が一つの提示テキストの認証過程を例とする。理解できるのは、提示テキストは複数である場合、一つの提示テキストの認証過程に従い、すべての提示テキストの認証過程を完成でき、しかも、すべての認証が成功した後、声紋認証の成功を決める。そうでなければ、認証が失敗する。

第一取得モジュール６２は、前記ユーザが朗読した前記提示テキストの音声を取得する。

第一取得モジュールは、ユーザの朗読した音声を取得する音声取得モジュールであってもよい。

認証モジュール６３は、前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決める。

その中に、提示テキストが認証装置によりユーザに表示されるものなので、認証装置内には当提示テキストを保存する。

また、認証装置が音声を取得した後、たとえば、音声識別などの技術によって音声に対応するテキストを決めてから、当テキストを保存している提示テキストとマッチングして、両者の一致性を判断する。

一方、一致しない場合、テキストが不一致するというエラーメッセージを返す。たとえば、マッチングにより二つのテキストが一致しない場合、ユーザにテキストが不一致することを提示することができる。ユーザが朗読などの操作をやり直すことができる。

任意選択では、前記認証モジュール６３は、具体的には、前記音声を区切って、前記フレーズに対応するフレーズ音声を取得し、予め作成した、前記フレーズに対応する登録モデルを取得して、前記フレーズ音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるか、または、予め作成した、前記フレーズに対応する登録モデルを取得し、前記登録モデルを組み合わせてから、組み合わせた後の登録モデルを得て、前記音声を認証対象の音声とし、前記組み合わせた後の登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるか、または、予め作成した、前記提示テキストに対応する登録モデルを取得し、前記音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決める。

たとえば、取得した音声が「レイジングブル」である場合、この音声を区切って、得られたメッセージ音声が、「レイジング」に対する音声、および、「ブル」に対する音声を含む。その後、登録時に保存した「レイジング」に対する音声、および、「ブル」に対する音声をそれぞれマッチングして、声紋認証結果を得られる。この中に、予め作成した区切りモデルによって、音声区切りを行う。当区切りモデルは、登録時のフレーズに対応するフレーズ音声に基づいて作成される。たとえば、区切りモデルにおいて、登録時の各フレーズ音声の終始標識を記録し、これによって、この終始標識により音声を区切ってフレーズ音声を得られる。

任意選択では、前記認証モジュール６３は、前記認証対象の音声と前記認証モデルとの間のマッチング値を計算し、前記マッチング値が予め設定した閾値より大きい場合、声紋認証結果が認証成功であると決めることによって、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決める。

任意選択では、前記認証モジュール６３は、前記ユーザのユーザ標識を取得し、前記ユーザのユーザ標識、前記フレーズ、登録時生成したユーザ標識及びフレーズと登録モデルとの対応関係に基づいて、前記フレーズに対応する登録モデルを取得することによって、前記予め作成した、前記フレーズに対応する登録モデルを取得する。

登録モデルを決めた後、当登録モデルとそれに対応するフレーズ音声のマッチング値を計算する。マッチング値の計算方法は、ＨＭＭに使われるｉｖｅｃｔｏｒ点数付け、および、ｉｖｅｃｔｏｒモデルに使われるＰＬＤＡ点数付けを含むが、それらに限らない。

ほかの実施例において、図７を参照して、当装置６０は、第二表示モジュール６５を更に含む。

第二表示モジュール６５は、前記ユーザに登録対象のフレーズを表示する。

その中に、登録対象のフレーズは、登録の前に予め生成されたものである。登録対象のフレーズは、一つでもいいし、複数でもよい。

任意選択では、前記登録対象のフレーズが複数である場合、異なる登録対象のフレーズは、異なる登録対象のフレーズの長さがすべて予め設定した長さの閾値より短い条件、異なる登録対象のフレーズの長さの差が予め設定した差より短い条件、及び異なる登録対象のフレーズの中に、同じ発音の文字を含まない条件、の少なくとも一つを満足する。

また、たとえば、異なるのフレーズの中に、できるだけ同じ発音の文字を含まない。たとえば、「公牛」と「供手」の文字には、発音「ｇｏｎｇ」を有するので、できるだけ同時に出現させない。

任意選択では、登録対象のフレーズが固定的に設置されると黙認してもよいし、または、ユーザにより複数の選択可能なフレーズから選ばれる。

ほかの実施例の中において、図７を参照すして、当装置６０は、第三表示モジュール６６、第三取得モジュール６７、第二表示モジュール６８およびモデリングモジュール６９を更に含む。

第三表示モジュール６６は、前記ユーザに選択可能なフレーズを表示する。

たとえば、図５を参照して、選択画面５１を表示する。当選択画面が選択対象のフレーズを含む。選択可能なフレーズは、たとえば、「私たち」や「本当に」、「レイジング」などを含む。

第三取得モジュール６７は、前記ユーザにより前記選択可能なフレーズから選ばれた前記登録対象のフレーズを取得する。

ユーザに図５に示すようなフレーズを表示した後、ユーザがこれらのフレーズから登録対象のフレーズを選ばれる。たとえば、選んだ登録対象のフレーズは、「本当に」、「レイジング」、「手を洗わない」及び「ピーコック」を含む。これらの登録対象のフレーズを登録した後、認証過程において提示テキストを生成される。たとえば、提示テキストは、「ピーコックが手を洗わない」、「レイジングピーコックが手を洗わない」、「レイジングピーコックが本当に手を洗わない」ということを含むことができる。理解できるのは、本実施例には、ロジック的フレーズ組み合わせを例として、読みやすさを考慮すると、フレーズを組み合わせた後、文法などをチェックする。文法などの要求に満たしたら、当提示テキストをユーザに対し表示する。

その後、ユーザに当登録対象のフレーズを表示することができる。ユーザが当登録対象のフレーズを朗読する。

第二表示モジュール６８は、前記ユーザが朗読した前記登録対象の音声を取得する。

例えば、ユーザが順序に各登録対象のフレーズを朗読し、ユーザ設備内の音声取得モジュールによりそれらの音声を取得される。

モデリングモジュール６９は、前記ユーザの朗読した音声と前記登録対象のフレーズが一致すると判断する時、前記登録対象のフレーズの登録モデルを作成する。

任意選択では、前記ユーザの朗読した音声が複数回である。前記モデリングモジュール６９は、具体的には、毎回、前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、複数回の朗読の音声に基づいて、前記登録対象のフレーズの登録モデルを作成する。

本実施例において、朗読した音声と登録モデルをマッチングすることによって、限定されたテキストに基づく声紋認証を実現できる。登録モデルを利用したので、テキスト独立方式に相当し、ユーザが認証時に長い時間話しをする必要がないことを確保することができる。また、提示テキストは予め登録したフレーズの組み合わせであるので、テキスト依存方式に固定の登録フレーズの方式を採用することに相当することができる。したがって、音声内容の変化性を確保し、録音詐欺を防げる。本実施例は、声紋認証を利用したので、真似にくく、安全度を上げられ、便利さを増加した。支払いに利用する時、ユーザからのパスワード入力が不要し、パスワード検証も要らない。したがって、利用過程の便利さと支払い効率をアップする。

説明すべきのは、本発明の表現には、用語「第一」、「第二」などが単なる表現目的に使われ、相対重要性を示したり暗示することはない。また、本発明の表現には、別に説明がなければ、「複数」の意味が二つまたは二つ以上である。

フローチャートまたは他の方式で説明した過程や方法は、一つまたは複数の、特定ロジック性能または過程のステップの実行できるコマンドのコードのモジュール、セクターあるいは部分を含む。本発明の望ましい実施方式の範囲は、他の実現を含み、表示または討論の順序に従わなくてもよい。述べられた機能に基づいて基本的に同様な方式または逆の順序で、その機能を実行することができる。これは、本発明実施例の所属技術領域の技術者に理解される。

また、理解すべきのは、本発明の各部分は、ハードウェア、ソフトウェア、部品またはそれらの組み合わせで実現できる。前記実施例には、複数のステップまたは方法がメモリに保存され、適当なコマンド実行システムのソフトウェアまたは部品で実現される。たとえば、ハードウェアで実現する場合、他の実施方式と同じように、本領域周知の下記の任意一つまたはそれらの組み合わせで実現できる。すなわち、デジタル信号に対してロジック機能を実現するロジックゲート回路を有する個別のロジック回路、ロジックゲート回路を組み合わせた適当な専用ＩＣ、プログラマブルゲートアレイ（ＰＧＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などである。

前記実施例の方法にある全部または一部のステップがプログラムにより関連のハードウェアを実行することで完成されることは、当業者に理解される。前記プログラムは一つの計算機の読み出し書き込み可能な記憶メディアに記憶される。当プログラムを実行するとき、実施例方法のステップの一つまたはそれらの組み合わせを含む。

なお、本発明の各実施例の各機能モジュールを一つの処理モジュールに集中し、または、単独に存在し、または、二つまたは二つ以上モジュールを一つの処理モジュールに集中することができる。前記集成したモジュールは、ハードウェアの形式、または、ソフトウェアの形式で実現される。前記集成したモジュールは、ソフトウェアの形式で実現し、また、独立の製品として販売や使用するとき、計算機の読み出し書き込み可能な記憶メディアに記憶されることができる。

前記記憶メディアは、ディスク、または、ＣＤなどである。

本説明書には、用語「一つの実施例」、「いくつかの実施例」、「例示」、「具体的例示」などは、当実施例や例示の具体的特徴、構造、材料が本発明の少なくとも一つの実施例や例示に含まれることを意味する。本説明書には、前記用語の説明が必ずしも同じ実施例や例示を意味しない。また、説明の中の具体的特徴、構造、材料は、任意の一つやいくつかの実施例や例示に適当な方式で結合されることができる。

本発明の実施形態を示して説明したが、当業者にとって理解できるのは、本発明の原理及び主旨から逸脱しない限りこれらの実施形態に対して複種の変化、補正、切り替え及び変形を行うことができる。本発明の範囲は、特許請求の範囲及びその等価物により限定される。
なお、本願明細書に記載の実施形態によれば、以下の構成もまた開示される。
［項目１］
ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示するステップと、
前記ユーザが朗読した前記提示テキストの音声を取得するステップと、
前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決めるステップとを含む声紋認証方法。
［項目２］
前記予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決めるステップは、
前記音声を区切って、前記フレーズに対応するフレーズ音声を取得するステップと、予め作成した、前記フレーズに対応する登録モデルを取得するステップと、前記フレーズ音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含むか、または、
予め作成した、前記フレーズに対応する登録モデルを取得するステップと、前記登録モデルを組み合わせて、組み合わせた登録モデルを得るステップと、前記音声を認証対象の音声とし、前記組み合わせた登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含むか、または、
予め作成した、前記提示テキストに対応する登録モデルを取得するステップと、前記音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含む項目１に記載の声紋認証方法。
［項目３］
前記予め登録したフレーズは複数であり、
前記ユーザに提示テキストを表示する前に、さらに、
予め登録した複数のフレーズからランダムに一つまたは複数のフレーズを選び、選んだフレーズを組み合わせて、前記提示テキストを生成するステップを含む項目１に記載の声紋認証方法。
［項目４］
前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップは、
前記認証対象の音声と前記認証モデルとの間のマッチング値を計算するステップと、
前記マッチング値が予め設定した閾値より大きい場合、声紋認証結果が認証成功であると決める項目２に記載の声紋認証方法。
［項目５］
前記予め作成した、前記フレーズに対応する登録モデルを取得するステップは、
前記ユーザのユーザ標識を取得するステップと、
前記ユーザのユーザ標識、前記フレーズ、登録時生成したユーザ標識及びフレーズと登録モデルとの対応関係に基づいて、前記フレーズに対応する登録モデルを取得するステップとを含む項目２に記載の声紋認証方法。
［項目６］
さらに、
前記ユーザに登録対象のフレーズを表示するステップと、
前記ユーザが朗読した前記登録対象のフレーズの音声を取得するステップと、
前記ユーザが朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成するステップとを含む項目１から５のいずれか一項に記載の声紋認証方法。
［項目７］
前記ユーザの朗読した音声が複数回であり、
前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成するステップは、
毎回、前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、複数回の朗読の音声に基づいて、前記登録対象のフレーズの登録モデルを作成するステップを含む項目６に記載の声紋認証方法。
［項目８］
さらに、
前記ユーザに選択可能なフレーズを表示するステップと、
前記ユーザにより前記選択可能なフレーズから選ばれた選ばれた前記登録対象のフレーズを取得するステップとを含む項目６に記載の声紋認証方法。
［項目９］
前記登録対象のフレーズが複数である場合、異なる登録対象のフレーズは、
異なる登録対象のフレーズの長さが何れも予め設定した長さの閾値より短い条件、
異なる登録対象のフレーズの長さの差が予め設定した差より短い条件及び
異なる登録対象のフレーズの中に、同じ発音の文字を含まない条件、
の少なくとも一つを満足する項目６に記載の声紋認証方法。
［項目１０］
ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示する第一表示モジュールと、
前記ユーザが朗読した前記提示テキストの音声を取得する第一取得モジュールと、
前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決める認証モジュールとを含める声紋認証装置。
［項目１１］
前記認証モジュールは、
前記音声を区切って、前記フレーズに対応するフレーズ音声を取得し、予めに作成した、前記フレーズに対応する登録モデルを取得して、前記フレーズ音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるか、または、
予め作成した、前記フレーズに対応する登録モデルを取得し、前記登録モデルを組み合わせてから、組み合わせた後の登録モデルを得て、前記音声を認証対象の音声とし、前記組み合わせた後の登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるか、または、
予め作成した、前記提示テキストに対応する登録モデルを取得し、前記音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決める項目１０に記載の声紋認証装置。
［項目１２］
前記予め登録したフレーズは複数であり、前記装置は、さらに、
予め登録した複数のフレーズからランダムに一つまたは複数のフレーズを選び、選んだフレーズを組み合わせて、前記提示テキストを生成する生成モジュールを含む項目１０に記載の声紋認証装置。
［項目１３］
前記認証モジュールは、前記認証対象の音声と前記認証モデルとの間のマッチング値を計算し、前記マッチング値が予め設定した閾値より大きい場合、声紋認証結果が認証成功であると決めることによって、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決める項目１１に記載の声紋認証装置。
［項目１４］
前記認証モジュールは、前記ユーザのユーザ標識を取得し、前記ユーザのユーザ標識、前記フレーズ、登録時生成したユーザ標識及びフレーズと登録モデルとの対応関係に基づいて、前記フレーズに対応する登録モデルを取得することによって、予めに作成した、前記フレーズに対応する登録モデルを取得する項目１１に記載の声紋認証装置。
［項目１５］
さらに、
前記ユーザに登録対象のフレーズを表示する第二表示モジュールと、
前記ユーザが朗読した前記登録対象のフレーズの音声を取得する第二取得モジュールと、
前記ユーザが朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成するモデリングモジュールとを含む項目１０から１４のいずれか一項に記載の声紋認証装置。
［項目１６］
前記ユーザの朗読した音声が複数回であり、前記モデリングモジュールは、
毎回、前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、複数回の朗読の音声に基づいて、前記登録対象のフレーズの登録モデルを作成する項目１５に記載の声紋認証装置。
［項目１７］
さらに、
前記ユーザに選択可能なフレーズを表示する第三表示モジュールと、
前記ユーザにより前記選択可能なフレーズから選ばれた選ばれた前記登録対象のフレーズを取得する第三取得モジュールとを含む項目１５に記載の声紋認証装置。

Claims

ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示するステップと、
前記ユーザが朗読した前記提示テキストの音声を取得するステップと、
前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決めるステップとを含み、
さらに、
前記ユーザに登録対象のフレーズを表示するステップと、
前記ユーザが朗読した前記登録対象のフレーズの音声を取得するステップと、
前記ユーザが朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成するステップとを含み、
前記登録対象のフレーズが複数である場合、異なる登録対象のフレーズは、
異なる登録対象のフレーズの長さが何れも予め設定した長さの閾値より短い条件、
異なる登録対象のフレーズの長さの差が予め設定した差より短い条件及び
異なる登録対象のフレーズの中に、同じ発音の文字を含まない条件、
の少なくとも一つを満足し、
前記登録対象のフレーズの長さは、二文字以上である
声紋認証方法。
前記予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決めるステップは、
前記音声を区切って、前記フレーズに対応するフレーズ音声を取得するステップと、予め作成した、前記フレーズに対応する登録モデルを取得するステップと、前記フレーズ音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含むか、または、
予め作成した、前記フレーズに対応する登録モデルを取得するステップと、前記登録モデルを組み合わせて、組み合わせた登録モデルを得るステップと、前記音声を認証対象の音声とし、前記組み合わせた登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含むか、または、
予め作成した、前記提示テキストに対応する登録モデルを取得するステップと、前記音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含む請求項１に記載の声紋認証方法。
前記予め登録したフレーズは複数であり、
前記ユーザに提示テキストを表示する前に、さらに、
予め登録した複数のフレーズからランダムに一つまたは複数のフレーズを選び、選んだフレーズを組み合わせて、前記提示テキストを生成するステップを含む請求項１に記載の声紋認証方法。
前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップは、
前記認証対象の音声と前記認証モデルとの間のマッチング値を計算するステップと、
前記マッチング値が予め設定した閾値より大きい場合、声紋認証結果が認証成功であると決める請求項２に記載の声紋認証方法。
前記予め作成した、前記フレーズに対応する登録モデルを取得するステップは、
前記ユーザのユーザ標識を取得するステップと、
前記ユーザのユーザ標識、前記フレーズ、ならびに、前記ユーザのユーザ標識及び前記フレーズに対応する登録モデルの対応関係に基づいて、前記登録モデルの作成の前に予め登録された前記フレーズに対応する登録モデルを取得するステップとを含み、
前記対応関係は、前記登録モデルの登録時に生成される
請求項２に記載の声紋認証方法。
前記ユーザの朗読した音声が複数回であり、
前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成するステップは、
前記ユーザの朗読した音声と前記登録対象のフレーズとが毎回一致する場合、複数回の朗読の音声に基づいて、前記登録対象のフレーズの登録モデルを作成するステップを含む請求項１から５のいずれか一項に記載の声紋認証方法。
さらに、
前記ユーザに選択可能なフレーズを表示するステップと、
前記ユーザにより前記選択可能なフレーズから選ばれた前記登録対象のフレーズを取得するステップとを含む請求項１から５のいずれか一項に記載の声紋認証方法。
ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示する第一表示モジュールと、
前記ユーザが朗読した前記提示テキストの音声を取得する第一取得モジュールと、
前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決める認証モジュールとを含み、
さらに、
前記ユーザに登録対象のフレーズを表示する第二表示モジュールと、
前記ユーザが朗読した前記登録対象のフレーズの音声を取得する第二取得モジュールと、
前記ユーザが朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成するモデリングモジュールとを含み、
前記登録対象のフレーズが複数である場合、異なる登録対象のフレーズは、
異なる登録対象のフレーズの長さが何れも予め設定した長さの閾値より短い条件、
異なる登録対象のフレーズの長さの差が予め設定した差より短い条件及び
異なる登録対象のフレーズの中に、同じ発音の文字を含まない条件、
の少なくとも一つを満足し、
前記登録対象のフレーズの長さは、二文字以上である
声紋認証装置。
前記認証モジュールは、
前記音声を区切って、前記フレーズに対応するフレーズ音声を取得し、予めに作成した、前記フレーズに対応する登録モデルを取得して、前記フレーズ音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるか、または、
予め作成した、前記フレーズに対応する登録モデルを取得し、前記登録モデルを組み合わせてから、組み合わせた後の登録モデルを得て、前記音声を認証対象の音声とし、前記組み合わせた後の登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるか、または、
予め作成した、前記提示テキストに対応する登録モデルを取得し、前記音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決める請求項８に記載の声紋認証装置。
前記予め登録したフレーズは複数であり、前記装置は、さらに、
予め登録した複数のフレーズからランダムに一つまたは複数のフレーズを選び、選んだフレーズを組み合わせて、前記提示テキストを生成する生成モジュールを含む請求項８に記載の声紋認証装置。
前記認証モジュールは、前記認証対象の音声と前記認証モデルとの間のマッチング値を計算し、前記マッチング値が予め設定した閾値より大きい場合、声紋認証結果が認証成功であると決めることによって、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決める請求項９に記載の声紋認証装置。
前記認証モジュールは、前記ユーザのユーザ標識を取得し、前記ユーザのユーザ標識、前記フレーズ、ならびに、前記ユーザのユーザ標識及び前記フレーズに対応する登録モデルの対応関係に基づいて、前記登録モデルの作成の前に予め登録された前記フレーズに対応する登録モデルを取得することによって、予めに作成した、前記フレーズに対応する登録モデルを取得し、
前記対応関係は、前記登録モデルの登録時に生成される
請求項９に記載の声紋認証装置。
前記ユーザの朗読した音声が複数回であり、前記モデリングモジュールは、
前記ユーザの朗読した音声と前記登録対象のフレーズとが毎回一致する場合、複数回の朗読の音声に基づいて、前記登録対象のフレーズの登録モデルを作成する請求項９から１２のいずれか一項に記載の声紋認証装置。
さらに、
前記ユーザに選択可能なフレーズを表示する第三表示モジュールと、
前記ユーザにより前記選択可能なフレーズから選ばれた前記登録対象のフレーズを取得する第三取得モジュールとを含む請求項９から１２のいずれか一項に記載の声紋認証装置。