JP6344696B2 - 声紋認証方法および装置 - Google Patents

声紋認証方法および装置 Download PDF

Info

Publication number
JP6344696B2
JP6344696B2 JP2015218244A JP2015218244A JP6344696B2 JP 6344696 B2 JP6344696 B2 JP 6344696B2 JP 2015218244 A JP2015218244 A JP 2015218244A JP 2015218244 A JP2015218244 A JP 2015218244A JP 6344696 B2 JP6344696 B2 JP 6344696B2
Authority
JP
Japan
Prior art keywords
registration
authentication
user
phrase
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015218244A
Other languages
English (en)
Other versions
JP2017009980A (ja
Inventor
リ、チャオ
グアン、ヨン
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2017009980A publication Critical patent/JP2017009980A/ja
Application granted granted Critical
Publication of JP6344696B2 publication Critical patent/JP6344696B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/32Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
    • H04L9/3226Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
    • H04L9/3231Biological data, e.g. fingerprint, voice or retina

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)

Description

この発明は、身分認証の技術領域に関し、特に声紋認証方法および装置に関する。
従来の声紋認証技術は、主にテキスト依存およびテキスト独立の二種類に分かれる。テキスト独立の声紋認証技術は、ユーザの話した内容を区別しないが、テキスト依存の声紋認証技術は、ユーザの話した内容と登録時のと一致する必要がある。両方の技術がそれぞれ長所と短所がある。テキスト独立の声紋認証技術は、ユーザの話した内容を制限しないので、柔軟的に応用できるが、できるだけ大きなサンプル空間を覆うために、ユーザの長時間通話が必要である。テキスト依存の声紋認証技術は、ユーザ音声が通常短いが、テキストが登録時のと一致する必要があるので、録音詐欺を防ぐことができない。
本発明の目的は、関連技術における少なくともある程度一つの問題を解決することにある。
そのため、本発明の第一目的は、声紋認証方法を提出することにある。当方法は、ユーザが認証時に長い時間話しをする必要がないことと、音声内容の変化性とを確保する。これによって、録音詐欺を防ぐことができる。
本発明のほかの一つの目的は、声紋認証装置を提出することにある。
上記目的を達成するために、本発明の第一側面の実施例は、ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示するステップと、前記ユーザが朗読した前記提示テキストの音声を取得するステップと、前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決めるステップとを含める声紋認証方法を提供する。
本発明の第一側面の実施例が提出した声紋認証方法によれば、朗読した音声と登録モデルをマッチングすることによって、限定されたテキストに基づく声紋認証を実現できる。登録モデルを利用したので、テキスト独立方式に相当し、ユーザが認証時に長い時間話しをする必要がないことを確保することができる。また、提示テキストは予め登録したフレーズの組み合わせであるので、テキスト依存方式に固定の登録フレーズの方式を採用することに相当する。したがって、音声内容の変化性を確保し、録音詐欺を防ぐことができる。
上記目的を達成するために、本発明の第二側面の実施例は、ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示する第一表示モジュールと、前記ユーザが朗読した前記提示テキストの音声を取得する第一取得モジュールと、前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決める認証モジュールとを含める声紋認証装置を提供する。
本発明の第二側面の実施例が提出した声紋認証装置によれば、朗読した音声と登録モデルをマッチングすることによって、限定されたテキストに基づく声紋認証を実現できる。登録モデルを利用したので、テキスト独立方式に相当し、ユーザが認証時に長い時間話しをする必要がないことを確保することができる。また、提示テキストは予め登録したフレーズの組み合わせであるので、テキスト依存方式に固定の登録フレーズの方式を採用することに相当する。したがって、音声内容の変化性を確保し、録音詐欺を防ぐことができる。
本発明の付加的特徴と利点は、その一部が下記の記述からあげられ、ほかの部分が下記の記述により顕著となり、または、本発明の使用を通して理解できる。
下記の図面を利用して、本発明の上述および/または付加の側面と利点をよく理解できる。その中で、
本発明の一つの実施例が提出した声紋認証方法のフローチャートである; 本発明のほかの一つの実施例が提出した声紋認証方法のフローチャートである; 本発明実施例の一つの登録過程のフローチャートである; 本発明実施例のほかの一つの登録過程のフローチャートである; 本発明実施例の登録過程において選択可能なフレーズを示す図である; 本発明のほかの一つの実施例が提出した声紋認装置の構造を示す図である; 本発明のほかの一つの実施例が提出した声紋認装置の構造を示す図である。
以下に、本発明の実施例について詳しく説明する。前記実施例の実例が図面において示されるが、一貫して同一または類似する符号は、相同又は類似の部品、或いは、相同又は類似の機能を有する部品を表す。図面を参照しがら説明する下記の実施例は、本発明の解釈のみの例示であり、本発明を制限するものと理解できない。逆に、本発明の実施例は、特許請求の範囲に含まれる要旨及び内包範囲におけるあらゆる変化・変更及び同等物を含む。
図1は本発明の一つの実施例が提出した声紋認証方法のフローチャートである。当声紋認証方法はステップS11、ステップS12およびステップS13を含む。
ステップS11において、ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示する。
その中に、ユーザが声紋認証を必要とするとき、まず、当ユーザのユーザ標識(ユーザID)、たとえば、携帯電話番号、ログインアカウントなどを取得する。その後、予め作成した登録情報から、当ユーザ標識に対応する登録したフレーズを探す。
たとえば、ユーザが第一ユーザであり、登録情報の中において第一ユーザが登録したフレーズは、A、B、Cなどを含む。そして、A、B、Cからフレーズ組み合わせを選び、提示テキストになる。
その中に、登録したフレーズを組み合わせて、提示テキストを生成するとき、選択アルゴリズムおよび選択個数は配置されることができる。
任意選択では、前記予め登録したフレーズは複数である。前記ユーザに提示テキストを表示する前に、前記方法はさらに、予め登録した複数のフレーズからランダムに一つまたは複数のフレーズを選び、選んだフレーズを組み合わせて、前記提示テキストを生成するステップを含む。
たとえば、選択アルゴリズムがランダム選択であり、選択個数が2個であり、予め登録したフレーズが「私たち」、「本当に」、「レイジング」、「ブル」、「食事している」及び「手を洗わない」を含む。この六つのフレーズから二つの組み合わせをランダムに選択して提示テキストを生成する。提示テキストは、たとえば、「レイジングブル」、「本当に手を洗わない」などである。
理解できるのは、選択された提示テキストを組み合わせて生成するフレーズの個数が限らなく、一つでもいいし、または、複数でもよい。また、提示テキストの個数も限らなく、一つでもいいし、または、複数でもよい。後述の実施例が一つの提示テキストの認証過程を例とする。理解できるのは、提示テキストは複数である場合、一つの提示テキストの認証過程に従い、すべての提示テキストの認証過程を完成でき、しかも、すべての提示テキストの認証が成功した後、声紋認証の成功を決める。そうでなければ、認証が失敗する。
ステップS12において、前記ユーザが朗読した前記提示テキストの音声を取得する。
ユーザに提示テキストを表示した後、ユーザは提示テキストに従い朗読する。
当方法を実行する認証装置は、その中にユーザにより朗読された音声を取得するための音声取得モジュールを設置することができる。たとえば、当認証装置は、フォアグラウンドモジュールおよびバックグラウンドモジュールを含むことができる。フォアグラウンドモジュールがユーザ設備の中に設置されることができる。ユーザ設備の中には、さらに、ユーザにより朗読された音声を取得するための音声取得モジュールが含まれることもできる。
ステップS13において、前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決める。
例えば、図2を参照して、音声を取得した後、当方法は、さらに、ステップS21とステップS22を含む。
ステップS21において、当音声と提示テキストが一致するかを判断する。
その中に、提示テキストが当認証装置によりユーザに表示されるものなので、認証装置内には当提示テキストを保存することができる。
また、当認証装置が音声を取得した後、たとえば、音声識別などの技術によって音声に対応するテキストを決めてから、当テキストを保存している提示テキストとマッチングして、両者の一致性を判断する。
ステップS22において、一致しない場合、テキストが不一致するというエラーメッセージを返す。
たとえば、マッチングにより両者が一致しない場合、ユーザにテキストが不一致することを提示することができる。ユーザが朗読などの操作をやり直すことができる。
両者が一致する場合、当音声と予め作成した登録モデルに基づいて、声紋認証結果を決める。
任意選択では、前記予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決めるステップは、前記音声を区切って、前記フレーズに対応するフレーズ音声を取得するステップと、予め作成した、前記フレーズに対応する登録モデルを取得するステップと、前記フレーズ音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含むか、または、予め作成した、前記フレーズに対応する登録モデルを取得ステップと、前記登録モデルを組み合わせてから、組み合わせた後の登録モデルを得るステップと、前記音声を認証対象の音声とし、前記組み合わせた後の登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含むか、または、予め作成した、前記提示テキストに対応する登録モデルを取得するステップと、前記音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含む。
たとえば、取得した音声が「レイジングブル」である場合、この音声を区切って、得られたメッセージ音声が、「レイジング」に対する音声、および、「ブル」に対する音声を含む。その後、登録時に保存した「レイジング」に対する音声、および、「ブル」に対する音声をそれぞれマッチングして、声紋認証結果を得られる。この中に、予め作成した区切りモデルによって、音声区切りを行う。当区切りモデルは、登録時のフレーズに対応するフレーズ音声に基づいて作成されることができる。たとえば、区切りモデルにおいて、登録時の各フレーズ音声の終始標識を記録し、これによって、この終始標識により音声を区切ってフレーズ音声を得られる。
また、たとえば、現在の提示テキストが「レイジングブル」であると決める場合、登録情報から「レイジング」に対応する音声、および、「ブル」に対する音声を探して、この二つの音声を組み合わせて、組み合わせた後の音声を得てから、当組み合わせた後の音声を取得したユーザにより朗読された「レイジングブル」にマッチングを行い、声紋認証結果を得られる。
また、たとえば、登録時に、上述のようにフレーズの登録モデルを作成することではなく、可能な提示テキストの登録モデルを作成する。たとえば、「レイジングブル」の音声に対応する登録モデルを作成する。したがって、認証時に、「レイジングブル」に対応する登録モデルを取得してから、取得したユーザにより朗読された「レイジングブル」の音声にマッチングを行い、声紋認証結果を得られる。
図2を参照して、音声区切りを例とて、ステップS21において一致すると判断された場合、当方法は、さらに、ステップS23、ステップS24、ステップS25、ステップS26、ステップS27を含む。
ステップS23において、当音声をフレーズ音声に区切る。
この中に、予め作成した区切りモデルによって、音声区切りを行う。当区切りモデルは、登録時のフレーズに対応するフレーズ音声に基づいて作成されることができる。たとえば、区切りモデルにおいて、登録時の各フレーズ音声の終始標識を記録し、これによって、この終始標識により音声を区切ってフレーズ音声を得られる。
ステップS24において、各フレーズ音声とそれに対応する登録モデルのマッチング値を計算する。
マッチング値の計算方法は、隠れマルコフモデル(Hidden Markov Model、HMM)に使われるivector点数付け、および、ivectorモデルに使われる確率線形判別分析(Probabilistic Linear Discriminant Analysis, PLDA)点数付けを含むが、それらに限らない。
ステップS25において、各マッチング値が予め設定した閾値より大きいか否かを判断する。そうであれば、ステップS26を実行する。そうでなければ、ステップS27を実行する。
ステップS26において、認証成功とする。
ステップS27において、認証失敗とする。
任意選択では、前記フレーズに対応する登録モデルを決めるステップは、前記ユーザのユーザ標識を取得するステップと、前記ユーザのユーザ標識、前記フレーズ、登録時生成したユーザ標識及びフレーズと登録モデルとの対応関係に基づいて、前記フレーズに対応する登録モデルを決めるステップとを含む。
たとえば、音声区切りによって得られたメッセージ音声が、「レイジング」の音声、および、「ブル」の音声を含む。
登録により、ユーザ標識、フレーズと登録モジュールの対応関係を作成する。たとえば、第一ユーザの第一フレーズが第一登録モデルに対応する場合、ユーザが認証する時、ユーザのユーザ標識を取得でき、区切った後、フレーズを得られて、当対応関係によって、それに応じる登録モデルを決めることができる。
登録モデルを決めた後、当登録モデルとそれに対応するフレーズ音声とのマッチング値を計算する。マッチング値の計算方法は、HMMに使われるivector点数付け、および、ivectorモデルに使われるPLDA点数付けを含むが、それらに限らない。
以上、認証過程を説明した。理解できるのは、認証過程の前に、登録過程を行うこともできる。登録過程においてフレーズの登録モデルを作成する。
図3を参照して、登録過程は、ステップS31、ステップS32、ステップS33を含むことができる。
ステップS31において、ユーザに登録対象のフレーズを表示する。
その中に、登録対象のフレーズは、登録の前に予め生成されたのもである。登録対象のフレーズは、一つでもいいし、複数でもよい。
任意選択では、前記登録対象のフレーズが複数である場合、異なる登録対象のフレーズは、異なる登録対象のフレーズの長さがいずれも予め設定した長さの閾値より短い条件、異なる登録対象のフレーズの長さの差が予め設定した差より短い条件、及び異なる登録対象のフレーズの中に、同じ発音の文字を含まない条件、の少なくとも一つを満足する。
たとえば、登録対象のフレーズの長さ全体を二文字または三文字に設置する。このように、フレーズを短いテキストにして、且つその長さも基本的に一致する。
また、たとえば、異なるフレーズの中に、できるだけ同じ発音の文字を含まない。たとえば、「公牛」と「供手」の文字には、発音「gong」を有するので、できるだけ同時に出現させない。
任意選択では、登録対象のフレーズが固定的に設置されると黙認してもよいし、または、ユーザにより複数の選択可能なフレーズから選ばれる。たとえば、図4を参照して、登録過程は、さらに、ステップS41とステップS42を含む。
ステップS41において、前記ユーザに選択可能なフレーズを表示する。
たとえば、図5を参照して、選択可能なフレーズを含む選択画面51を表示する。選択可能なフレーズは、たとえば、「私たち」、「本当に」、「レイジング」などを含む。
ステップS42において、前記ユーザにより前記選択可能なフレーズから選ばれた前記登録対象のフレーズを取得する。
ユーザに図5に示すようなフレーズを表示した後、ユーザがこれらのフレーズから登録対象のフレーズを選ばれる。たとえば、選んだ登録対象のフレーズは、「本当に」、「レイジング」、「手を洗わない」及び「ピーコック」を含む。これらの登録対象のフレーズを登録した後、認証過程において提示テキストを生成される。たとえば、提示テキストは、「ピーコックが手を洗わない」、「レイジングピーコックが手を洗わない」及び「レイジングピーコックが本当に手を洗わない」ということを含む。理解できるのは、本実施例には、ロジック的フレーズ組み合わせを例として、読みやすさを考慮すると、フレーズを組み合わせた後、文法などをチェックする。文法などの要求に満たしたら、当提示テキストをユーザに表示する。
その後、ユーザに当登録対象のフレーズを表示することができる。ユーザが当登録対象のフレーズを朗読することができる。
ステップS32において、前記ユーザが朗読した前記登録対象の音声を取得する。
例えば、ユーザが順序に各登録対象のフレーズを朗読し、ユーザ設備内の音声取得モジュールにより対応する音声を取得される。
ステップS33において、前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成する。
任意選択では、前記ユーザの朗読した音声が複数回であり、前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成するステップは、毎回、前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、複数回の朗読の音声に基づいて、前記登録対象のフレーズの登録モデルを作成するステップを含む。
たとえば、ユーザが「本当に」を朗読する時、複数回朗読が必要であると設置してもよい。毎回朗読した後、音声識別などの技術により対応のテキストを識別し、もし「本当に」と一致すれば、複数回の音声に基づいて、「本当に」に対応の登録モデルを作成する。
音声に基づいて登録モデルを作成する方法は、複数の種類を有する。たとえば、作成した登録モデルは、HMMに基づく声紋モデル、および、ivectorに基づく声紋モデルを含むが、それらに限らない。
本実施例において、朗読した音声と登録モデルとをマッチングすることによって、限定されたテキストに基づく声紋認証を実現できる。登録モデルを利用したので、テキスト独立方式に相当し、ユーザが認証時に長い時間話しをする必要がないことを確保することができる。また、提示テキストは予め登録したフレーズの組み合わせであるので、テキスト依存方式に固定の登録フレーズの方式を採用することに相当する。したがって、音声内容の変化性を確保し、録音詐欺を防ぐことができる。本実施例は、声紋認証を利用したので、真似にくく、安全度を上げられ、便利さを増加した。支払いに利用する時、ユーザからのパスワード入力が不要し、パスワード検証も要らない。したがって、利用過程の便利さと支払い効率をアップする。
図6は本発明のほかの一つの実施例が提出した声紋認装置の構造を示す図である。当装置60は、第一表示モジュール61、生成モジュール64、第一取得モジュール62、および、認証モジュール63を含む。
第一表示モジュール61は、ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示する。
その中に、ユーザが声紋認証を必要とするとき、まず、当ユーザのユーザ標識(ユーザID)、たとえば、携帯電話番号、ログインアカウントなどを取得する。その後、予め作成した登録情報から、当ユーザ標識に対応する登録したフレーズを探す。
たとえば、ユーザが第一ユーザであり、登録情報の中において第一ユーザが登録したフレーズは、A、B、Cなどを含む。そして、A、B、Cからフレーズ組み合わせを選び、提示テキストになる。
その中に、登録したフレーズを組み合わせて、提示テキストを生成するとき、選択アルゴリズムおよび選択個数は配置されることができる。
任意選択では、前記予め登録したフレーズは複数である。図7に参照するように、前記装置60は、さらに、生成モジュール64を含む。
生成モジュール64は、予め登録した複数のフレーズからランダムに一つまたは複数のフレーズを選び、選んだフレーズを組み合わせて、前記提示テキストを生成する。
たとえば、選択アルゴリズムがランダム選択であり、選択個数が2個であり、予め登録したフレーズが「私たち」、「本当に」、「レイジング」、「ブル」、「食事している」 及び「手を洗わない」を含む。この六つのフレーズから二つの組み合わせをランダムに選択して提示テキストを生成する。提示テキストは、たとえば、「レイジングブル」、「本当に手を洗わない」などである。
理解できるのは、選択された提示テキストを組み合わせて生成するフレーズの個数が限らなく、一つでもいいし、または、複数でもよい。また、提示テキストの個数も限らなく、一つでもいいし、または、複数でもよい。後述の実施例が一つの提示テキストの認証過程を例とする。理解できるのは、提示テキストは複数である場合、一つの提示テキストの認証過程に従い、すべての提示テキストの認証過程を完成でき、しかも、すべての認証が成功した後、声紋認証の成功を決める。そうでなければ、認証が失敗する。
第一取得モジュール62は、前記ユーザが朗読した前記提示テキストの音声を取得する。
ユーザに提示テキストを表示した後、ユーザは提示テキストに従い朗読する。
第一取得モジュールは、ユーザの朗読した音声を取得する音声取得モジュールであってもよい。
認証モジュール63は、前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決める。
その中に、提示テキストが認証装置によりユーザに表示されるものなので、認証装置内には当提示テキストを保存する。
また、認証装置が音声を取得した後、たとえば、音声識別などの技術によって音声に対応するテキストを決めてから、当テキストを保存している提示テキストとマッチングして、両者の一致性を判断する。
一方、一致しない場合、テキストが不一致するというエラーメッセージを返す。たとえば、マッチングにより二つのテキストが一致しない場合、ユーザにテキストが不一致することを提示することができる。ユーザが朗読などの操作をやり直すことができる。
任意選択では、前記認証モジュール63は、具体的には、前記音声を区切って、前記フレーズに対応するフレーズ音声を取得し、予め作成した、前記フレーズに対応する登録モデルを取得して、前記フレーズ音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるか、または、予め作成した、前記フレーズに対応する登録モデルを取得し、前記登録モデルを組み合わせてから、組み合わせた後の登録モデルを得て、前記音声を認証対象の音声とし、前記組み合わせた後の登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるか、または、予め作成した、前記提示テキストに対応する登録モデルを取得し、前記音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決める。
たとえば、取得した音声が「レイジングブル」である場合、この音声を区切って、得られたメッセージ音声が、「レイジング」に対する音声、および、「ブル」に対する音声を含む。その後、登録時に保存した「レイジング」に対する音声、および、「ブル」に対する音声をそれぞれマッチングして、声紋認証結果を得られる。この中に、予め作成した区切りモデルによって、音声区切りを行う。当区切りモデルは、登録時のフレーズに対応するフレーズ音声に基づいて作成される。たとえば、区切りモデルにおいて、登録時の各フレーズ音声の終始標識を記録し、これによって、この終始標識により音声を区切ってフレーズ音声を得られる。
また、たとえば、現在の提示テキストが「レイジングブル」であると決める場合、登録情報から「レイジング」に対応する音声、および、「ブル」に対する音声を探して、この二つの音声を組み合わせて、組み合わせた後の音声を得てから、当組み合わせた後の音声を取得したユーザにより朗読された「レイジングブル」にマッチングを行い、声紋認証結果を得られる。
また、たとえば、登録時に、上述のようにフレーズの登録モデルを作成することではなく、可能な提示テキストの登録モデルを作成する。たとえば、「レイジングブル」の音声に対応する登録モデルを作成する。したがって、認証時に、「レイジングブル」に対応する登録モデルを取得してから、取得したユーザにより朗読された「レイジングブル」の音声にマッチングを行い、声紋認証結果を得られる。
任意選択では、前記認証モジュール63は、前記認証対象の音声と前記認証モデルとの間のマッチング値を計算し、前記マッチング値が予め設定した閾値より大きい場合、声紋認証結果が認証成功であると決めることによって、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決める。
任意選択では、前記認証モジュール63は、前記ユーザのユーザ標識を取得し、前記ユーザのユーザ標識、前記フレーズ、登録時生成したユーザ標識及びフレーズと登録モデルとの対応関係に基づいて、前記フレーズに対応する登録モデルを取得することによって、前記予め作成した、前記フレーズに対応する登録モデルを取得する。
たとえば、音声区切りによって得られたメッセージ音声が、「レイジング」の音声、および、「ブル」の音声を含む。
登録により、ユーザ標識、フレーズと登録モジュールの対応関係を作成する。たとえば、第一ユーザの第一フレーズが第一登録モデルに対応する場合、ユーザが認証する時、ユーザのユーザ標識を取得でき、区切った後、フレーズを得られて、当対応関係によって、それに応じる登録モデルを決めることができる。
登録モデルを決めた後、当登録モデルとそれに対応するフレーズ音声のマッチング値を計算する。マッチング値の計算方法は、HMMに使われるivector点数付け、および、ivectorモデルに使われるPLDA点数付けを含むが、それらに限らない。
ほかの実施例において、図7を参照して、当装置60は、第二表示モジュール65を更に含む。
第二表示モジュール65は、前記ユーザに登録対象のフレーズを表示する。
その中に、登録対象のフレーズは、登録の前に予め生成されたものである。登録対象のフレーズは、一つでもいいし、複数でもよい。
任意選択では、前記登録対象のフレーズが複数である場合、異なる登録対象のフレーズは、異なる登録対象のフレーズの長さがすべて予め設定した長さの閾値より短い条件、異なる登録対象のフレーズの長さの差が予め設定した差より短い条件、及び異なる登録対象のフレーズの中に、同じ発音の文字を含まない条件、の少なくとも一つを満足する。
たとえば、登録対象のフレーズの長さ全体を二文字または三文字に設置する。このように、フレーズを短いテキストにして、且つその長さも基本的に一致する。
また、たとえば、異なるのフレーズの中に、できるだけ同じ発音の文字を含まない。たとえば、「公牛」と「供手」の文字には、発音「gong」を有するので、できるだけ同時に出現させない。
任意選択では、登録対象のフレーズが固定的に設置されると黙認してもよいし、または、ユーザにより複数の選択可能なフレーズから選ばれる。
ほかの実施例の中において、図7を参照すして、当装置60は、第三表示モジュール66、第三取得モジュール67、第二表示モジュール68およびモデリングモジュール69を更に含む。
第三表示モジュール66は、前記ユーザに選択可能なフレーズを表示する。
たとえば、図5を参照して、選択画面51を表示する。当選択画面が選択対象のフレーズを含む。選択可能なフレーズは、たとえば、「私たち」や「本当に」、「レイジング」などを含む。
第三取得モジュール67は、前記ユーザにより前記選択可能なフレーズから選ばれた前記登録対象のフレーズを取得する。
ユーザに図5に示すようなフレーズを表示した後、ユーザがこれらのフレーズから登録対象のフレーズを選ばれる。たとえば、選んだ登録対象のフレーズは、「本当に」、「レイジング」、「手を洗わない」及び「ピーコック」を含む。これらの登録対象のフレーズを登録した後、認証過程において提示テキストを生成される。たとえば、提示テキストは、「ピーコックが手を洗わない」、「レイジングピーコックが手を洗わない」、「レイジングピーコックが本当に手を洗わない」ということを含むことができる。理解できるのは、本実施例には、ロジック的フレーズ組み合わせを例として、読みやすさを考慮すると、フレーズを組み合わせた後、文法などをチェックする。文法などの要求に満たしたら、当提示テキストをユーザに対し表示する。
その後、ユーザに当登録対象のフレーズを表示することができる。ユーザが当登録対象のフレーズを朗読する。
第二表示モジュール68は、前記ユーザが朗読した前記登録対象の音声を取得する。
例えば、ユーザが順序に各登録対象のフレーズを朗読し、ユーザ設備内の音声取得モジュールによりそれらの音声を取得される。
モデリングモジュール69は、前記ユーザの朗読した音声と前記登録対象のフレーズが一致すると判断する時、前記登録対象のフレーズの登録モデルを作成する。
任意選択では、前記ユーザの朗読した音声が複数回である。前記モデリングモジュール69は、具体的には、毎回、前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、複数回の朗読の音声に基づいて、前記登録対象のフレーズの登録モデルを作成する。
たとえば、ユーザが「本当に」を朗読する時、複数回朗読が必要であると設置してもよい。毎回朗読した後、音声識別などの技術により対応のテキストを識別し、もし「本当に」と一致すれば、複数回の音声に基づいて、「本当に」に対応の登録モデルを作成する。
音声に基づいて登録モデルを作成する方法は、複数の種類を有する。たとえば、作成した登録モデルは、HMMに基づく声紋モデル、および、ivectorに基づく声紋モデルを含むが、それらに限らない。
本実施例において、朗読した音声と登録モデルをマッチングすることによって、限定されたテキストに基づく声紋認証を実現できる。登録モデルを利用したので、テキスト独立方式に相当し、ユーザが認証時に長い時間話しをする必要がないことを確保することができる。また、提示テキストは予め登録したフレーズの組み合わせであるので、テキスト依存方式に固定の登録フレーズの方式を採用することに相当することができる。したがって、音声内容の変化性を確保し、録音詐欺を防げる。本実施例は、声紋認証を利用したので、真似にくく、安全度を上げられ、便利さを増加した。支払いに利用する時、ユーザからのパスワード入力が不要し、パスワード検証も要らない。したがって、利用過程の便利さと支払い効率をアップする。
説明すべきのは、本発明の表現には、用語「第一」、「第二」などが単なる表現目的に使われ、相対重要性を示したり暗示することはない。また、本発明の表現には、別に説明がなければ、「複数」の意味が二つまたは二つ以上である。
フローチャートまたは他の方式で説明した過程や方法は、一つまたは複数の、特定ロジック性能または過程のステップの実行できるコマンドのコードのモジュール、セクターあるいは部分を含む。本発明の望ましい実施方式の範囲は、他の実現を含み、表示または討論の順序に従わなくてもよい。述べられた機能に基づいて基本的に同様な方式または逆の順序で、その機能を実行することができる。これは、本発明実施例の所属技術領域の技術者に理解される。
また、理解すべきのは、本発明の各部分は、ハードウェア、ソフトウェア、部品またはそれらの組み合わせで実現できる。前記実施例には、複数のステップまたは方法がメモリに保存され、適当なコマンド実行システムのソフトウェアまたは部品で実現される。たとえば、ハードウェアで実現する場合、他の実施方式と同じように、本領域周知の下記の任意一つまたはそれらの組み合わせで実現できる。すなわち、デジタル信号に対してロジック機能を実現するロジックゲート回路を有する個別のロジック回路、ロジックゲート回路を組み合わせた適当な専用IC、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)などである。
前記実施例の方法にある全部または一部のステップがプログラムにより関連のハードウェアを実行することで完成されることは、当業者に理解される。前記プログラムは一つの計算機の読み出し書き込み可能な記憶メディアに記憶される。当プログラムを実行するとき、実施例方法のステップの一つまたはそれらの組み合わせを含む。
なお、本発明の各実施例の各機能モジュールを一つの処理モジュールに集中し、または、単独に存在し、または、二つまたは二つ以上モジュールを一つの処理モジュールに集中することができる。前記集成したモジュールは、ハードウェアの形式、または、ソフトウェアの形式で実現される。前記集成したモジュールは、ソフトウェアの形式で実現し、また、独立の製品として販売や使用するとき、計算機の読み出し書き込み可能な記憶メディアに記憶されることができる。
前記記憶メディアは、ディスク、または、CDなどである。
本説明書には、用語「一つの実施例」、「いくつかの実施例」、「例示」、「具体的例示」などは、当実施例や例示の具体的特徴、構造、材料が本発明の少なくとも一つの実施例や例示に含まれることを意味する。本説明書には、前記用語の説明が必ずしも同じ実施例や例示を意味しない。また、説明の中の具体的特徴、構造、材料は、任意の一つやいくつかの実施例や例示に適当な方式で結合されることができる。
本発明の実施形態を示して説明したが、当業者にとって理解できるのは、本発明の原理及び主旨から逸脱しない限りこれらの実施形態に対して複種の変化、補正、切り替え及び変形を行うことができる。本発明の範囲は、特許請求の範囲及びその等価物により限定される。
なお、本願明細書に記載の実施形態によれば、以下の構成もまた開示される。
[項目1]
ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示するステップと、
前記ユーザが朗読した前記提示テキストの音声を取得するステップと、
前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決めるステップとを含む声紋認証方法。
[項目2]
前記予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決めるステップは、
前記音声を区切って、前記フレーズに対応するフレーズ音声を取得するステップと、予め作成した、前記フレーズに対応する登録モデルを取得するステップと、前記フレーズ音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含むか、または、
予め作成した、前記フレーズに対応する登録モデルを取得するステップと、前記登録モデルを組み合わせて、組み合わせた登録モデルを得るステップと、前記音声を認証対象の音声とし、前記組み合わせた登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含むか、または、
予め作成した、前記提示テキストに対応する登録モデルを取得するステップと、前記音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含む項目1に記載の声紋認証方法。
[項目3]
前記予め登録したフレーズは複数であり、
前記ユーザに提示テキストを表示する前に、さらに、
予め登録した複数のフレーズからランダムに一つまたは複数のフレーズを選び、選んだフレーズを組み合わせて、前記提示テキストを生成するステップを含む項目1に記載の声紋認証方法。
[項目4]
前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップは、
前記認証対象の音声と前記認証モデルとの間のマッチング値を計算するステップと、
前記マッチング値が予め設定した閾値より大きい場合、声紋認証結果が認証成功であると決める項目2に記載の声紋認証方法。
[項目5]
前記予め作成した、前記フレーズに対応する登録モデルを取得するステップは、
前記ユーザのユーザ標識を取得するステップと、
前記ユーザのユーザ標識、前記フレーズ、登録時生成したユーザ標識及びフレーズと登録モデルとの対応関係に基づいて、前記フレーズに対応する登録モデルを取得するステップとを含む項目2に記載の声紋認証方法。
[項目6]
さらに、
前記ユーザに登録対象のフレーズを表示するステップと、
前記ユーザが朗読した前記登録対象のフレーズの音声を取得するステップと、
前記ユーザが朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成するステップとを含む項目1から5のいずれか一項に記載の声紋認証方法。
[項目7]
前記ユーザの朗読した音声が複数回であり、
前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成するステップは、
毎回、前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、複数回の朗読の音声に基づいて、前記登録対象のフレーズの登録モデルを作成するステップを含む項目6に記載の声紋認証方法。
[項目8]
さらに、
前記ユーザに選択可能なフレーズを表示するステップと、
前記ユーザにより前記選択可能なフレーズから選ばれた選ばれた前記登録対象のフレーズを取得するステップとを含む項目6に記載の声紋認証方法。
[項目9]
前記登録対象のフレーズが複数である場合、異なる登録対象のフレーズは、
異なる登録対象のフレーズの長さが何れも予め設定した長さの閾値より短い条件、
異なる登録対象のフレーズの長さの差が予め設定した差より短い条件及び
異なる登録対象のフレーズの中に、同じ発音の文字を含まない条件、
の少なくとも一つを満足する項目6に記載の声紋認証方法。
[項目10]
ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示する第一表示モジュールと、
前記ユーザが朗読した前記提示テキストの音声を取得する第一取得モジュールと、
前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決める認証モジュールとを含める声紋認証装置。
[項目11]
前記認証モジュールは、
前記音声を区切って、前記フレーズに対応するフレーズ音声を取得し、予めに作成した、前記フレーズに対応する登録モデルを取得して、前記フレーズ音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるか、または、
予め作成した、前記フレーズに対応する登録モデルを取得し、前記登録モデルを組み合わせてから、組み合わせた後の登録モデルを得て、前記音声を認証対象の音声とし、前記組み合わせた後の登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるか、または、
予め作成した、前記提示テキストに対応する登録モデルを取得し、前記音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決める項目10に記載の声紋認証装置。
[項目12]
前記予め登録したフレーズは複数であり、前記装置は、さらに、
予め登録した複数のフレーズからランダムに一つまたは複数のフレーズを選び、選んだフレーズを組み合わせて、前記提示テキストを生成する生成モジュールを含む項目10に記載の声紋認証装置。
[項目13]
前記認証モジュールは、前記認証対象の音声と前記認証モデルとの間のマッチング値を計算し、前記マッチング値が予め設定した閾値より大きい場合、声紋認証結果が認証成功であると決めることによって、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決める項目11に記載の声紋認証装置。
[項目14]
前記認証モジュールは、前記ユーザのユーザ標識を取得し、前記ユーザのユーザ標識、前記フレーズ、登録時生成したユーザ標識及びフレーズと登録モデルとの対応関係に基づいて、前記フレーズに対応する登録モデルを取得することによって、予めに作成した、前記フレーズに対応する登録モデルを取得する項目11に記載の声紋認証装置。
[項目15]
さらに、
前記ユーザに登録対象のフレーズを表示する第二表示モジュールと、
前記ユーザが朗読した前記登録対象のフレーズの音声を取得する第二取得モジュールと、
前記ユーザが朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成するモデリングモジュールとを含む項目10から14のいずれか一項に記載の声紋認証装置。
[項目16]
前記ユーザの朗読した音声が複数回であり、前記モデリングモジュールは、
毎回、前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、複数回の朗読の音声に基づいて、前記登録対象のフレーズの登録モデルを作成する項目15に記載の声紋認証装置。
[項目17]
さらに、
前記ユーザに選択可能なフレーズを表示する第三表示モジュールと、
前記ユーザにより前記選択可能なフレーズから選ばれた選ばれた前記登録対象のフレーズを取得する第三取得モジュールとを含む項目15に記載の声紋認証装置。

Claims (14)

  1. ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示するステップと、
    前記ユーザが朗読した前記提示テキストの音声を取得するステップと、
    前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決めるステップとを含み、
    さらに、
    前記ユーザに登録対象のフレーズを表示するステップと、
    前記ユーザが朗読した前記登録対象のフレーズの音声を取得するステップと、
    前記ユーザが朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成するステップとを含み、
    前記登録対象のフレーズが複数である場合、異なる登録対象のフレーズは、
    異なる登録対象のフレーズの長さが何れも予め設定した長さの閾値より短い条件、
    異なる登録対象のフレーズの長さの差が予め設定した差より短い条件及び
    異なる登録対象のフレーズの中に、同じ発音の文字を含まない条件、
    の少なくとも一つを満足し、
    前記登録対象のフレーズの長さは、二文字以上である
    声紋認証方法。
  2. 前記予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決めるステップは、
    前記音声を区切って、前記フレーズに対応するフレーズ音声を取得するステップと、予め作成した、前記フレーズに対応する登録モデルを取得するステップと、前記フレーズ音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含むか、または、
    予め作成した、前記フレーズに対応する登録モデルを取得するステップと、前記登録モデルを組み合わせて、組み合わせた登録モデルを得るステップと、前記音声を認証対象の音声とし、前記組み合わせた登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含むか、または、
    予め作成した、前記提示テキストに対応する登録モデルを取得するステップと、前記音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップとを含む請求項1に記載の声紋認証方法。
  3. 前記予め登録したフレーズは複数であり、
    前記ユーザに提示テキストを表示する前に、さらに、
    予め登録した複数のフレーズからランダムに一つまたは複数のフレーズを選び、選んだフレーズを組み合わせて、前記提示テキストを生成するステップを含む請求項1に記載の声紋認証方法。
  4. 前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるステップは、
    前記認証対象の音声と前記認証モデルとの間のマッチング値を計算するステップと、
    前記マッチング値が予め設定した閾値より大きい場合、声紋認証結果が認証成功であると決める請求項2に記載の声紋認証方法。
  5. 前記予め作成した、前記フレーズに対応する登録モデルを取得するステップは、
    前記ユーザのユーザ標識を取得するステップと、
    前記ユーザのユーザ標識、前記フレーズ、ならびに、前記ユーザのユーザ標識及び前記フレーズに対応する登録モデルの対応関係に基づいて、前記登録モデルの作成の前に予め登録された前記フレーズに対応する登録モデルを取得するステップとを含み、
    前記対応関係は、前記登録モデルの登録時に生成される
    請求項2に記載の声紋認証方法。
  6. 前記ユーザの朗読した音声が複数回であり、
    前記ユーザの朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成するステップは、
    前記ユーザの朗読した音声と前記登録対象のフレーズとが毎回一致する場合、複数回の朗読の音声に基づいて、前記登録対象のフレーズの登録モデルを作成するステップを含む請求項1から5のいずれか一項に記載の声紋認証方法。
  7. さらに、
    前記ユーザに選択可能なフレーズを表示するステップと、
    前記ユーザにより前記選択可能なフレーズから選ばれた前記登録対象のフレーズを取得するステップとを含む請求項1から5のいずれか一項に記載の声紋認証方法。
  8. ユーザが予め登録したフレーズの組み合わせである提示テキストを前記ユーザに表示する第一表示モジュールと、
    前記ユーザが朗読した前記提示テキストの音声を取得する第一取得モジュールと、
    前記音声と前記提示テキストが一致する場合、予め作成した登録モデルを取得するとともに、前記音声と前記登録モデルとに基づいて声紋認証結果を決める認証モジュールとを含み、
    さらに、
    前記ユーザに登録対象のフレーズを表示する第二表示モジュールと、
    前記ユーザが朗読した前記登録対象のフレーズの音声を取得する第二取得モジュールと、
    前記ユーザが朗読した音声と前記登録対象のフレーズが一致する場合、前記登録対象のフレーズの登録モデルを作成するモデリングモジュールとを含み、
    前記登録対象のフレーズが複数である場合、異なる登録対象のフレーズは、
    異なる登録対象のフレーズの長さが何れも予め設定した長さの閾値より短い条件、
    異なる登録対象のフレーズの長さの差が予め設定した差より短い条件及び
    異なる登録対象のフレーズの中に、同じ発音の文字を含まない条件、
    の少なくとも一つを満足し、
    前記登録対象のフレーズの長さは、二文字以上である
    声紋認証装置。
  9. 前記認証モジュールは、
    前記音声を区切って、前記フレーズに対応するフレーズ音声を取得し、予めに作成した、前記フレーズに対応する登録モデルを取得して、前記フレーズ音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるか、または、
    予め作成した、前記フレーズに対応する登録モデルを取得し、前記登録モデルを組み合わせてから、組み合わせた後の登録モデルを得て、前記音声を認証対象の音声とし、前記組み合わせた後の登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決めるか、または、
    予め作成した、前記提示テキストに対応する登録モデルを取得し、前記音声を認証対象の音声とし、前記登録モデルを認証モデルとし、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決める請求項に記載の声紋認証装置。
  10. 前記予め登録したフレーズは複数であり、前記装置は、さらに、
    予め登録した複数のフレーズからランダムに一つまたは複数のフレーズを選び、選んだフレーズを組み合わせて、前記提示テキストを生成する生成モジュールを含む請求項に記載の声紋認証装置。
  11. 前記認証モジュールは、前記認証対象の音声と前記認証モデルとの間のマッチング値を計算し、前記マッチング値が予め設定した閾値より大きい場合、声紋認証結果が認証成功であると決めることによって、前記認証対象の音声と前記認証モデルとに基づいて声紋認証結果を決める請求項に記載の声紋認証装置。
  12. 前記認証モジュールは、前記ユーザのユーザ標識を取得し、前記ユーザのユーザ標識、前記フレーズ、ならびに、前記ユーザのユーザ標識及び前記フレーズに対応する登録モデルの対応関係に基づいて、前記登録モデルの作成の前に予め登録された前記フレーズに対応する登録モデルを取得することによって、予めに作成した、前記フレーズに対応する登録モデルを取得し、
    前記対応関係は、前記登録モデルの登録時に生成される
    請求項に記載の声紋認証装置。
  13. 前記ユーザの朗読した音声が複数回であり、前記モデリングモジュールは、
    前記ユーザの朗読した音声と前記登録対象のフレーズとが毎回一致する場合、複数回の朗読の音声に基づいて、前記登録対象のフレーズの登録モデルを作成する請求項9から12のいずれか一項に記載の声紋認証装置。
  14. さらに、
    前記ユーザに選択可能なフレーズを表示する第三表示モジュールと、
    前記ユーザにより前記選択可能なフレーズから選ばれた前記登録対象のフレーズを取得する第三取得モジュールとを含む請求項9から12のいずれか一項に記載の声紋認証装置。
JP2015218244A 2015-06-17 2015-11-06 声紋認証方法および装置 Active JP6344696B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510337291.8A CN105185379B (zh) 2015-06-17 2015-06-17 声纹认证方法和装置
CN201510337291.8 2015-06-17

Publications (2)

Publication Number Publication Date
JP2017009980A JP2017009980A (ja) 2017-01-12
JP6344696B2 true JP6344696B2 (ja) 2018-06-20

Family

ID=54850386

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015218244A Active JP6344696B2 (ja) 2015-06-17 2015-11-06 声紋認証方法および装置

Country Status (5)

Country Link
US (1) US10325603B2 (ja)
EP (1) EP3107091B1 (ja)
JP (1) JP6344696B2 (ja)
KR (1) KR101735212B1 (ja)
CN (1) CN105185379B (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106469040B (zh) * 2015-08-19 2019-06-21 华为终端有限公司 通信方法、服务器及设备
CN105933272A (zh) * 2015-12-30 2016-09-07 中国银联股份有限公司 能够防止录音攻击的声纹认证方法、服务器、终端及系统
CN105656887A (zh) * 2015-12-30 2016-06-08 百度在线网络技术(北京)有限公司 基于人工智能的声纹认证方法以及装置
CN105933323B (zh) * 2016-06-01 2019-05-31 百度在线网络技术(北京)有限公司 声纹注册、认证方法及装置
KR20180086032A (ko) 2017-01-20 2018-07-30 삼성전자주식회사 전자장치, 전자장치의 제어방법 및 기록매체
CN107010009A (zh) * 2017-03-03 2017-08-04 福建省汽车工业集团云度新能源汽车股份有限公司 一种智能汽车语音安全登入方法及装置
CN106921668A (zh) * 2017-03-09 2017-07-04 福建省汽车工业集团云度新能源汽车股份有限公司 基于声纹识别的汽车用户快速验证方法及装置
CN107492379B (zh) * 2017-06-30 2021-09-21 百度在线网络技术(北京)有限公司 一种声纹创建与注册方法及装置
US10592649B2 (en) 2017-08-09 2020-03-17 Nice Ltd. Authentication via a dynamic passphrase
CN108512664A (zh) * 2017-09-11 2018-09-07 平安科技(深圳)有限公司 基于声纹识别的坐席登录方法、电子装置及存储介质
KR101812022B1 (ko) * 2017-10-20 2017-12-26 주식회사 공훈 음성 인증 시스템
CN107863108B (zh) * 2017-11-16 2021-03-23 百度在线网络技术(北京)有限公司 信息输出方法和装置
CN109872721A (zh) * 2017-12-05 2019-06-11 富士通株式会社 语音认证方法、信息处理设备以及存储介质
CN108154588B (zh) * 2017-12-29 2020-11-27 深圳市艾特智能科技有限公司 解锁方法、系统、可读存储介质及智能设备
CN109147797B (zh) * 2018-10-18 2024-05-07 平安科技(深圳)有限公司 基于声纹识别的客服方法、装置、计算机设备及存储介质
CN109473108A (zh) * 2018-12-15 2019-03-15 深圳壹账通智能科技有限公司 基于声纹识别的身份验证方法、装置、设备及存储介质
KR102113879B1 (ko) 2018-12-19 2020-05-26 주식회사 공훈 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
CN110010133A (zh) * 2019-03-06 2019-07-12 平安科技(深圳)有限公司 基于短文本的声纹检测方法、装置、设备及存储介质
CN111833882A (zh) * 2019-03-28 2020-10-27 阿里巴巴集团控股有限公司 声纹信息管理方法、装置、系统及计算设备、存储介质
US11398239B1 (en) 2019-03-31 2022-07-26 Medallia, Inc. ASR-enhanced speech compression
US11227606B1 (en) * 2019-03-31 2022-01-18 Medallia, Inc. Compact, verifiable record of an audio communication and method for making same
KR20200129346A (ko) * 2019-05-08 2020-11-18 삼성전자주식회사 디스플레이 장치 및 이의 제어 방법
CN110570869B (zh) * 2019-08-09 2022-01-14 科大讯飞股份有限公司 一种声纹识别方法、装置、设备及存储介质
CN111710340A (zh) * 2020-06-05 2020-09-25 深圳市卡牛科技有限公司 基于语音识别用户身份的方法、装置、服务器及存储介质
CN111785280B (zh) * 2020-06-10 2024-09-10 北京三快在线科技有限公司 身份认证方法和装置、存储介质和电子设备
CN111564152B (zh) * 2020-07-16 2020-11-24 北京声智科技有限公司 语音转换方法、装置、电子设备及存储介质
US12008091B2 (en) * 2020-09-11 2024-06-11 Cisco Technology, Inc. Single input voice authentication
GB2612032A (en) * 2021-10-19 2023-04-26 Validsoft Ltd An authentication system and method
EP4170527A1 (en) * 2021-10-19 2023-04-26 ValidSoft Limited An authentication method and system

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0884190A (ja) * 1994-09-09 1996-03-26 Kokusai Denshin Denwa Co Ltd <Kdd> 認証信号不正使用防止装置
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US6356868B1 (en) * 1999-10-25 2002-03-12 Comverse Network Systems, Inc. Voiceprint identification system
CA2413657A1 (en) * 2000-06-16 2001-12-20 Healthetech, Inc. Speech recognition capability for a personal digital assistant
JP2002123283A (ja) * 2000-10-12 2002-04-26 Nissan Motor Co Ltd 音声認識操作装置
US20020094512A1 (en) * 2000-11-29 2002-07-18 International Business Machines Corporation Computer controlled speech word recognition display dictionary providing user selection to clarify indefinite detection of speech words
US8812319B2 (en) * 2001-01-31 2014-08-19 Ibiometrics, Inc. Dynamic pass phrase security system (DPSS)
JP2002304379A (ja) * 2001-04-05 2002-10-18 Sharp Corp 個人認証方法および個人認証システム
JP2002312318A (ja) * 2001-04-13 2002-10-25 Nec Corp 電子装置、本人認証方法およびプログラム
JP4574889B2 (ja) * 2001-04-13 2010-11-04 富士通株式会社 話者認証装置
US7240007B2 (en) * 2001-12-13 2007-07-03 Matsushita Electric Industrial Co., Ltd. Speaker authentication by fusion of voiceprint match attempt results with additional information
JP4263439B2 (ja) * 2002-07-31 2009-05-13 Kddi株式会社 本人認証装置および本人認証方法、コンピュータプログラム
US7222072B2 (en) * 2003-02-13 2007-05-22 Sbc Properties, L.P. Bio-phonetic multi-phrase speaker identity verification
JP2004287674A (ja) * 2003-03-20 2004-10-14 Nec Corp 情報処理装置、不正使用防止方法、およびプログラム
US20040243412A1 (en) * 2003-05-29 2004-12-02 Gupta Sunil K. Adaptation of speech models in speech recognition
US20050039057A1 (en) * 2003-07-24 2005-02-17 Amit Bagga Method and apparatus for authenticating a user using query directed passwords
JP4463526B2 (ja) * 2003-10-24 2010-05-19 株式会社ユニバーサルエンターテインメント 声紋認証システム
US7404087B2 (en) * 2003-12-15 2008-07-22 Rsa Security Inc. System and method for providing improved claimant authentication
US7636855B2 (en) * 2004-01-30 2009-12-22 Panasonic Corporation Multiple choice challenge-response user authorization system and method
JP2007052496A (ja) * 2005-08-15 2007-03-01 Advanced Media Inc ユーザ認証システム及びユーザ認証方法
US20070055517A1 (en) * 2005-08-30 2007-03-08 Brian Spector Multi-factor biometric authentication
US20070162761A1 (en) * 2005-12-23 2007-07-12 Davis Bruce L Methods and Systems to Help Detect Identity Fraud
CN1808567A (zh) * 2006-01-26 2006-07-26 覃文华 验证真人在场状态的声纹认证设备和其认证方法
US20090313020A1 (en) * 2008-06-12 2009-12-17 Nokia Corporation Text-to-speech user interface control
US8190437B2 (en) * 2008-10-24 2012-05-29 Nuance Communications, Inc. Speaker verification methods and apparatus
US8442824B2 (en) * 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
US8977547B2 (en) * 2009-01-30 2015-03-10 Mitsubishi Electric Corporation Voice recognition system for registration of stable utterances
US8645140B2 (en) * 2009-02-25 2014-02-04 Blackberry Limited Electronic device and method of associating a voice font with a contact for text-to-speech conversion at the electronic device
US8527773B1 (en) * 2009-03-09 2013-09-03 Transunion Interactive, Inc. Identity verification systems and methods
CN102456345A (zh) * 2010-10-19 2012-05-16 盛乐信息技术(上海)有限公司 拼接语音检测系统及方法
US8744856B1 (en) * 2011-02-22 2014-06-03 Carnegie Speech Company Computer implemented system and method and computer program product for evaluating pronunciation of phonemes in a language
CN102142254A (zh) * 2011-03-25 2011-08-03 北京得意音通技术有限责任公司 基于声纹识别和语音识别的防录音假冒的身份确认方法
GB2489527B (en) * 2011-04-01 2014-01-01 Voicevault Ltd Voice verification system
US10319363B2 (en) * 2012-02-17 2019-06-11 Microsoft Technology Licensing, Llc Audio human interactive proof based on text-to-speech and semantics
KR101971697B1 (ko) * 2012-02-24 2019-04-23 삼성전자주식회사 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치
US8798996B2 (en) * 2012-03-05 2014-08-05 Coupons.Com Incorporated Splitting term lists recognized from speech
US8775165B1 (en) * 2012-03-06 2014-07-08 Google Inc. Personalized transliteration interface
KR20140060040A (ko) * 2012-11-09 2014-05-19 삼성전자주식회사 디스플레이장치, 음성취득장치 및 그 음성인식방법
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
GB2513196A (en) * 2013-04-19 2014-10-22 What3Words Ltd A method and apparatus for identifying and communicating locations
US20140359736A1 (en) * 2013-05-31 2014-12-04 Deviceauthority, Inc. Dynamic voiceprint authentication
US9202076B1 (en) * 2013-07-26 2015-12-01 Symantec Corporation Systems and methods for sharing data stored on secure third-party storage platforms
US9548047B2 (en) * 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9053310B2 (en) * 2013-08-08 2015-06-09 Duo Security, Inc. System and method for verifying status of an authentication device through a biometric profile
KR102246900B1 (ko) * 2014-07-29 2021-04-30 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
KR101614756B1 (ko) * 2014-08-22 2016-04-27 현대자동차주식회사 음성 인식 장치, 그를 포함하는 차량, 및 그 차량의 제어 방법
US20160078864A1 (en) * 2014-09-15 2016-03-17 Honeywell International Inc. Identifying un-stored voice commands
US10121466B2 (en) * 2015-02-11 2018-11-06 Hand Held Products, Inc. Methods for training a speech recognition system
US10176219B2 (en) * 2015-03-13 2019-01-08 Microsoft Technology Licensing, Llc Interactive reformulation of speech queries
CN105096121B (zh) * 2015-06-25 2017-07-25 百度在线网络技术(北京)有限公司 声纹认证方法和装置

Also Published As

Publication number Publication date
US20160372121A1 (en) 2016-12-22
KR20160149132A (ko) 2016-12-27
CN105185379A (zh) 2015-12-23
EP3107091B1 (en) 2020-02-19
KR101735212B1 (ko) 2017-05-12
JP2017009980A (ja) 2017-01-12
EP3107091A1 (en) 2016-12-21
US10325603B2 (en) 2019-06-18
CN105185379B (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
JP6344696B2 (ja) 声紋認証方法および装置
KR101757990B1 (ko) 성문 인증 방법 및 장치
US10339290B2 (en) Spoken pass-phrase suitability determination
JP6561219B1 (ja) 話者照合
EP3174262B1 (en) Voiceprint login method and apparatus based on artificial intelligence
CN103456304B (zh) 用于与文本相关的说话者验证的双重评分方法及系统
US8332223B2 (en) Speaker verification methods and apparatus
WO2018149209A1 (zh) 语音识别方法、电子设备以及计算机存储介质
JP4213716B2 (ja) 音声認証システム
CN108780645B (zh) 对通用背景模型和登记说话者模型进行文本转录适配的说话者验证计算机系统
KR20190008137A (ko) 다중 화자 데이터를 이용한 딥러닝 기반 음성 합성 장치 및 방법
WO2010047817A1 (en) Speaker verification methods and systems
CN104462912B (zh) 改进的生物密码安全
US9767787B2 (en) Artificial utterances for speaker verification
JP2024510798A (ja) ハイブリッド多言語テキスト依存およびテキスト非依存の話者検証
JP2016166927A (ja) パラメータ学習装置、話者認識装置、パラメータ学習方法、話者認識方法、およびプログラム
US10628567B2 (en) User authentication using prompted text
CN105225664B (zh) 信息验证方法和装置及声音样本的生成方法和装置
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP4245948B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
KR20240132372A (ko) 멀티태스크 음성 모델을 이용한 화자 검증
JP5088314B2 (ja) 音声応答装置、及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170321

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180105

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20180221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180424

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180511

R150 Certificate of patent or registration of utility model

Ref document number: 6344696

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250