JP2018509649A - 動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法 - Google Patents

動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法 Download PDF

Info

Publication number
JP2018509649A
JP2018509649A JP2017539339A JP2017539339A JP2018509649A JP 2018509649 A JP2018509649 A JP 2018509649A JP 2017539339 A JP2017539339 A JP 2017539339A JP 2017539339 A JP2017539339 A JP 2017539339A JP 2018509649 A JP2018509649 A JP 2018509649A
Authority
JP
Japan
Prior art keywords
parameterized
data
time
user
time window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017539339A
Other languages
English (en)
Other versions
JP6502512B2 (ja
Inventor
▲鄭▼方
▲ウー▼▲シャオ▼▲鈞▼
李▲藍▼天
王▲剛▼
王小▲鋼▼
▲劉▼▲楽▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing D Ear Technologies Co Ltd
Original Assignee
Beijing D Ear Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing D Ear Technologies Co Ltd filed Critical Beijing D Ear Technologies Co Ltd
Publication of JP2018509649A publication Critical patent/JP2018509649A/ja
Application granted granted Critical
Publication of JP6502512B2 publication Critical patent/JP6502512B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/06Authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/45Structures or tools for the administration of authentication
    • G06F21/46Structures or tools for the administration of authentication by designing passwords or checking the strength of passwords
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/083Network architectures or network communication protocols for network security for authentication of entities using passwords
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Security & Cryptography (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Collating Specific Patterns (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法は、時間をラベルとして各ユーザの音声データを蓄積する時変データ蓄積手段と、最新の音声データを時変データ蓄積手段に蓄積する時変データ更新モジュール(23)と、時間ラベル順に従って時変データ蓄積手段から音声データを抽出し、複数のグループの音声データを含む時間窓パイプを構築し更新する時間窓パイプ構築モジュール(24)と、更新された時間窓パイプに含まれている複数のグループの音声データを使用して、ユーザ声紋モデルを再構築する声紋モデル再構築モジュール(25)とを備える。【選択図】図1

Description

本発明は、動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法に関し、コンピュータ及び情報サービス分野に属する。
話者認識技術は声紋認識技術とも呼ばれる。話者認識技術は、主に音声に含まれた話者の個人性特徴を表現できる情報に基づいて、コンピュータや様々な情報認識の技術を用いて、話者の身分認証を自動的に実現するものである。
近年、インターネットの急速な発展と携帯端末装置の幅広い普及に伴い、高速で便利なモバイルネットワークサービスが人々の生活様式に深く影響を与え、人々の生活様式を変えている。モバイルネットワークサービスを安全かつ確実に推進するために、最初に解決すべき課題は如何にユーザの身分認証を行うことである。
ユーザの身分認証に話者認識システムを使う研究は、数年を経ており、声紋モデルは、一連の音声に含まれた話者の身分を一意的に特定できる特徴パラメータにより構成されたものである。図15には、代表的な話者認識システムのフレームワークを示す。
音声は非接触型情報媒体の一種であり、人々は様々な携帯端末装置(例えば携帯電話のマイクやIP電話など)で音声を随時随所に採集している。音声における声紋情報に基づいて、ネットワークによる伝送やバックグラウンドサーバの応答により、マンマシンインタラクションと身分認証は実現されている。よって、近年、話者認識技術は急速に発展し、実環境において幅広く適用されている。
既存の生体認証技術では、パターン識別分野におけるテンプレートマッチング方法を採用して識別・認証を行うのが一般的である。つまり、ユーザが予め登録したモデルと実際の認証待ちのモデルとを比較し、両者の相似度が予め設定された閾値に達した場合には、認証成功とし、それ以外の場合には、認証失敗とする。
上記したような単一モデルマッチング方式には、以下の2つの課題がある。
(1)話者認識技術では、ユーザが提供したトレーニング音声とテスト音声のテキストが一意に固定であれば、識別効率が高くなるが、この場合、ユーザの音声が窃取、盗用されると、システムの安全性が低くなってしまう。逆に、ユーザが提供したテスト音声のテキストが固定でなければ、システムの安全性が高くなるが、この場合、トレーニング音声とテキスト多変音声とはテキスト音素空間で差異が存在するため、システムの認識性能が大幅に低下し、システムの応用と推進には不利である。
(2)時間の経過に伴い、人の声道モデルと発音特徴、録音装置の精度と忠実度は変化する。生理学の観点から、人の生理的特徴と発音特徴は時間の経過に伴って変化していく。例えば、声道長、基音周波数などは時間の経過に伴って絶えず変化していく。なお、録音用の通信装置、携帯端末は使用時間の経過に伴い、装置の劣化、信号の不安定などの事象が発生し、ある程度で録音の精度と忠実度にも影響を与える。上記した状況を纏めると、時間の経過に起因する不確実性により、安定かつロバストな声紋モデルを得ることができない。システムの認識正確率も、時間の経過に伴い、明らかに低下していくことになる。
本発明は、上記した課題に鑑みてなされたものであって、動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法を提供することにより、上記した課題を効果的に解決することを目的とする。
本発明は、要求者がクライアントを介してサーバに送信した身分認証要求を受け付ける要求受付モジュールと、動的パスワードを生成し、当該動的パスワードを前記クライアントへ送信する動的パスワード生成モジュールと、前記クライアントから送信されてきた当該要求者が前記動的パスワードを読み上げた時のパスワード音声信号に基づいて、グローバルキャラクター音響モデルとユーザ声紋モデルで当該要求者の身分総合信頼度を算出し、算出した前記身分総合信頼度に基づいて当該要求者の身分を判定し、身分認証結果を前記クライアントに返却する身分認証モジュールとを備え、声紋モデル自動再構築サブシステムを有し、前記身分認証結果は当該要求者が前記サーバのユーザである場合に、当該声紋モデル自動再構築サブシステムにより、前記ユーザ声紋モデルを再構築するようにしており、前記声紋モデル自動再構築サブシステムは、時間をラベルとして各ユーザの音声データを蓄積するための時変データ蓄積手段と、前記パスワード音声信号を最新の音声データとして前記時変データ蓄積手段に蓄積するための時変データ更新モジュールと、時間ラベル順に従って前記時変データ蓄積手段から前記ユーザの音声データを抽出し、複数のグループの音声データを含む時間窓パイプを構築し、前記最新の音声データを使用して当該時間窓パイプに含まれている音声データを更新する時間窓パイプ構築モジュールと、更新された前記時間窓パイプに含まれている前記複数のグループの音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する声紋モデル再構築モジュールと、を備えることを特徴とする、動的パスワード音声に基づいた自己学習機能を有する身分認証システムを提供する。
また、本発明は、要求者がクライアントを介してサーバに送信した身分認証要求を受け付ける要求受付ステップと、動的パスワードを生成し、当該動的パスワードを前記クライアントへ送信する動的パスワード生成ステップと、前記クライアントから送信されてきた、当該要求者が前記動的パスワードを読み上げた時のパスワード音声信号に基づいて、グローバルキャラクター音響モデルとユーザ声紋モデルで当該要求者の身分総合信頼度を算出し、算出した前記身分総合信頼度に基づいて当該要求者の身分を判定し、身分認証結果を前記クライアントに返却する身分認証ステップとを備え、前記身分認証結果は当該要求者が前記サーバのユーザである場合に、時間をラベルとして各ユーザの音声データを蓄積する時変データ蓄積手段に、前記パスワード音声信号を最新の音声データとして蓄積する時変データ蓄積ステップと、時間ラベル順に従って前記時変データ蓄積手段から前記ユーザの音声データを抽出し、複数のグループの音声データを含む時間窓パイプを構築し、前記最新の音声データを使用して当該時間窓パイプに含まれている音声データを更新する時間窓パイプ構築ステップと、更新された前記時間窓パイプに含まれている前記複数のグループの音声データを使用して、当該ユーザのユーザ声紋モデルを再構築するモデル再構築ステップと、をさらに実行することを特徴とする、動的パスワード音声に基づいた自己学習機能を有する身分認証方法をも提供する。
本発明によれば、安全で確実な二重身分認証システム及び方法を提供することができ、身分認証の精度を効果的に向上させることができ、そして自己学習機能を持たせることができる。
第1の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証システムの模式図である。 動的パスワードの生成処理を説明するための図である。 動的パスワード音声に基づた身分認証処理を実行するときの処理フローを示すフローチャートである。 時間窓管理モデルの模式図である。 時間窓管理の一応用例を示す図である。 第1の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証の方法のフローチャートである。 第2の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証システムの模式図である。 第2の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証の方法のフローチャートである。 第3の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証システムの模式図である。 数字モデルの空間分布の模式図である。 第3の実施形態に係る時変データ蓄積手段の蓄積フレームワークの模式図である。 第3の実施形態における時間窓パイプを更新するときの処理フローを示すフローチャートである。 第3の実施形態における時間窓パイプを更新するときの処理を模式化に示す模式図である。 音声データに対するパラメータ化処理の一例の模式図である。 代表的な話者認識システムの模式図である。
以下に、本発明の具体的な実施形態について図面を参照しながら説明する。
(第1の実施形態)
図1は、第1の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証システム1(以下、単に「身分認証システム1」という)の模式図である。身分認証システム1は、要求受付モジュール11と、ユーザ声紋モデル生成モジュール12と、動的パスワード生成モジュール13と、身分認証モジュール14と、声紋モデル蓄積手段15を備えるとともに、声紋モデル自動再構築サブシステム20を有する。
要求受付モジュール11は、要求者がクライアント2を介してサーバに送信した身分認証要求を受け付ける。要求受付モジュール11により要求者と身分認証システム1との対話を確立することで、身分認証システム1は要求者からの身分認証要求に応答することができ、後続処理のための準備を行うことができる。要求者と身分認証システム1との対話はローカル又はリモートサービスに使用可能である。クライアント2は、身分認証システム1と有線又は無線で接続可能である。実際の運用において、例えば、ユーザは予めクライアント2でユーザ名、ログインパスワードなどの情報を入力して、ログイン又は登録を行う。ユーザは、ログイン成功した後に、身分認証システム1との対話を行うことにより、声紋登録又は声紋身分認証を行うことができる。
身分認証システム1は、ユーザの初回ログイン時に、ユーザに対して、ユーザ声紋モデルの構築に用いられるモデル構築音声の登録を要求する。身分認証システム1が、ユーザに対してモデル構築音声の登録を要求する際に、所定の文字列をクライアント2に送信し、ユーザが前記所定の文字列に含まれている全ての文字を読み上げる場合、クライアント2はユーザの音声を取得し、取得した音声、すなわちユーザが登録しようとするモデル構築音声を身分認証システム1へ送信することが好ましい。ユーザ声紋モデル生成モジュール12は、受信したユーザの登録したモデル構築音声に基づき、当該ユーザのユーザ声紋モデルを構築し、当該ユーザのユーザ声紋モデルを声紋モデル蓄積手段15に蓄積する。ユーザ声紋モデル生成モジュール12は、ユーザが登録したモデル構築音声に基づいて、自己適応の手法を採用してグローバルキャラクター音響モデルでトレーニングして前記ユーザ声紋モデルを得てもよい。
前記グローバルキャラクター音響モデルは、多数人からの前記所定の文字列の各文字の文字発音に基づいて、例えばガウス混合モデル(GMM、Gaussian Mixture Model)や、サポートベクターマシン(SVM、Support Vector Machine)や、人工ニューラルネットワーク(ANN、Artificial Neural Network)などの方法を採用して、自己適応によるトレーニングを行うことで得られたものである。前記自己適応は、例えば最尤線形回帰(MLLR)アルゴリズム又は最大事後確率(MAP)アルゴリズムにより実現される。
前記所定の文字列に含まれている文字音素を、文字に基づいた音素空間において均等分布させることが好ましい。これにより、ユーザ声紋モデルの精度を効果的に向上させることができる。
声紋モデル蓄積手段15は、各ユーザのユーザ声紋モデルを蓄積するためのものである。声紋モデル蓄積手段15には、各ユーザのユーザ声紋モデルがユーザ(ユーザID)と関連付けられて蓄積されている。声紋モデル蓄積手段15は、例えばデータベースであるが、データベースに限らず、各ユーザのユーザ声紋モデルをユーザと関連付けて蓄積可能であれば、その他のデータ蓄積形態であってもよい。
要求受付モジュール11が、クライアント2を介して要求者から送信した身分認証要求を受け付けた後、動的パスワード生成モジュール13は、動的パスワードを生成し、当該動的パスワードを当該クライアント2へ送信する。動的パスワードの生成は既知のパスワード生成技術で実現可能である。
例えば、身分認証システム1には、例えば英字アルファベット、アラビア数字などを含むグローバルキャラクターコード集が予め設定されている。図2に示したように、グローバルキャラクターコード集には、文字と文字発音が関連付けられて文字1〜Nの動的パスワード音響モデルが格納されている。動的パスワード生成モジュール13は、動的パスワードを生成するときに、当該グローバルキャラクターコード集からパスワード文字1〜M(MはN以下である)をランダムに抽出して、当該パスワード文字1〜Mで動的パスワードを構成する。この場合、ランダムに抽出されたパスワード文字1〜Mは、異なる文字に限らない。ランダムに抽出されたパスワード文字のため、ランダムに抽出されたパスワード文字1〜Mには、同一パスワード文字が一つ又は複数存在する可能性がある。例えば「1313」のような同一パスワード文字が複数存在する動的パスワードが生成される可能性があるし、「1234」のような同一パスワード文字が一つしか存在しない動的パスワードが生成される可能性がある。本発明では、特に限定せず、動的パスワードを生成するためのパスワード文字はランダムに抽出されたものであればよい。
動的パスワード生成モジュール13は、動的パスワードを生成した後、当該動的パスワードをクライアント2へ送信する。動的パスワード生成モジュール13は、テキスト、画像、動画、オーディオ、又は暗号化されたバイナリデータなどの形式で当該動的パスワードをクライアント2に送信してもよい。クライアント2は、動的パスワードを受信すると、クライアント2のディスプレイ又はスピーカーなどの出力手段で当該動的パスワードを表示又は再生させる。要求者は、表示又は再生された当該動的パスワードを読み上げる。このとき、当該クライアント2は、要求者が当該動的パスワードを読み上げた時のパスワード音声信号を取得し、当該パスワード音声信号を身分認証システム1に送信する。グローバルキャラクターコード集には、文字に加えて、各文字と対応付けられた文字発音も格納されているため、本発明では、テキストや画像や動画などの可視化の方式で動的パスワードを表示できるだけでなく、グローバルキャラクターコード集に格納されている文字発音に基づいて、動的パスワード生成モジュール13により動的パスワードと対応付けられるオーディオを生成し、オーディオの方式で動的パスワードをクライアント2に送信することもできる。この場合、クライアント2は、当該オーディオを再生することにより、要求者に対して受信した動的パスワードを出力することができる。
身分認証モジュール14は、クライアント2から送信されてきたパスワード音声信号に基づいて、グローバルキャラクター音響モデルとユーザ声紋モデルで身分総合信頼度CLを算出し、算出した身分総合信頼度CLに基づいて当該要求者の身分を判定し、身分認証結果をクライアント2に返却する。
身分認証モジュール14は、声紋モデル蓄積手段15から当該ユーザのユーザ声紋モデルを抽出し、受信した当該パスワード音声信号をnフレームの音声データXに分割する。ここで、i=1、2、・・・、nであり、nは1よりも大きい正の整数である。
式(2)において、μp、δpはそれぞれ当該ユーザのユーザ声紋モデルに対する平均値、分散パラメータであり、μoa、δoaはそれぞれグローバルキャラクター音響モデルに対する平均値、分散パラメータであり、log p(・)は尤度関数である。
次に、身分認証モジュール14は以下の式(4)で身分総合信頼度CLを算出する。
次に、身分認証モジュール14は、算出した身分総合信頼度CLが予め設定された信頼度閾値以上であるか否かを判定する。身分総合信頼度CLが予め設定された信頼度閾値以上である場合には、当該要求者がサーバのユーザであることを身分認証結果とし、当該身分認証結果をクライアント2に返却することにより、当該要求者のサーバへのアクセスを許可する。それ以外の場合には、当該要求者がサーバのユーザでないことを身分認証結果とし、当該身分認証結果をクライアント2に返却することにより、当該要求者のサーバへのアクセスを拒否する。
身分認証システム1が上記した身分認証処理を実行するときの処理フローについては、図3を参照しながら、例を挙げて説明する。図3に示した例では、0〜9の十の数字をグローバルキャラクターコード集とする。
ステップS101: 要求者A’が正しいユーザIDとログインパスワードを入力することによりログインしたとする。要求受付モジュール11は要求者A’がクライアント2を介して身分認証システム1に送信した身分認証要求を受け付けて、要求者A’と身分認証システム1との対話を確立する。この場合、要求者A’がユーザAの身分で身分認証を要求しているとする。
ステップS102: 動的パスワード生成モジュール13は、予め設定されたグローバルキャラクターコード集からいくつかの文字をランダムに抽出して動的パスワードを構成し、当該動的パスワードを要求者A’のクライアント2に送信する。例えば、ここで、動的パスワード生成モジュール13は、「1」「3」「5」「8」の4つの数字をランダムに抽出して動的パスワード「1358」を構成し、要求者A’のクライアント2に当該動的パスワードを送信したとする。
ステップS103: クライアント2は当該動的パスワード「1358」を表示させ、要求者A’は当該動的パスワードを読み上げる。このとき、クライアント2は要求者A’が当該動的パスワードを読み上げた時の音声を取得し、取得した音声をパスワード音声信号の形式で身分認証システム1に送信する。
ステップS104: 身分認証モジュール14は、声紋モデル蓄積手段15からユーザAのユーザ声紋モデルを抽出し、受信した要求者A’のパスワード音声信号をいくつかのフレームの音声データに分ける。例えば、10個のフレームの音声データX、X、・・・、X10に分けたとする。
ステップS107: 身分認証モジュール14は、上記した式(4)で要求者A’の身分総合信頼度CLを算出する。
ステップS108: 身分認証モジュール14は、算出した身分総合信頼度CLが予め設定された信頼度閾値以上であるか否かを判定し、身分総合信頼度CLが予め設定された信頼度閾値以上である場合には、ステップS109に移行し、それ以外の場合には、ステップS110に移行する。
ステップS109: 身分総合信頼度CLが予め設定された信頼度閾値以上であるため、身分認証結果は要求者A’がサーバのユーザAであることとなる。身分認証システム1は当該身分認証結果をクライアント2に返却することにより、要求者A’がユーザAの身分でサーバへアクセスすることを許可する。
ステップS110: 身分総合信頼度CLが予め設定された信頼度閾値より小さいため、身分認証結果は要求者A’がサーバのユーザAでないこととなる。身分認証システム1は当該身分認証結果をクライアント2に返却することにより、要求者A’がユーザAの身分でサーバへアクセスすることを拒否する。
さらに、時間の経過による身分認証結果の正確性への影響を解消するために、本発明の身分認証システム1は、さらにユーザ声紋モデルを再構築するための声紋モデル自動再構築サブシステム20も有する。以下、当該声紋モデル自動再構築サブシステム20を詳しく説明する。
図1に示したように、身分認証結果は要求者がサーバのユーザである場合(すなわち認証成功の場合)には、声紋モデル自動再構築サブシステム20は、クライアント2から身分認証システム1に送信されてきたパスワード音声信号を取得する。かつ、身分認証結果は要求者がサーバのユーザである場合(すなわち認証成功の場合)のみ、当該声紋モデル自動再構築サブシステム20は動作する。
第1の実施形態において、声紋モデル自動再構築サブシステム20は、時変データ蓄積手段21と、時変データ更新モジュール23と、時間窓パイプ構築モジュール24と、声紋モデル再構築モジュール25とを備える。
時変な音声データを適切に蓄積し表示することは本発明を実現するための鍵であるため、時変データ蓄積手段の設計と蓄積の方法は極めて重要なことである。本発明は、時間をラベルとして時変データ蓄積手段21を構築するとともに、時変データ蓄積手段21に時間をラベルとして各ユーザの各時点の音声データを蓄積するように構成されている。時変データ蓄積手段21は例えばデータベースであるが、データベースに限らず、時間をラベルとして各ユーザの各時点の音声データを蓄積可能であればよく、その他のデータ蓄積形態でもよい。
声紋モデル自動再構築サブシステム20がパスワード音声信号を受信した後、時変データ更新モジュール23は、時間をラベルとしてユーザの音声データを蓄積する時変データ蓄積手段21に、当該受信したパスワード音声信号を最新の音声データとして蓄積する。
さらに、時間窓パイプ構築モジュール24は、時間ラベル順に従って時変データ蓄積手段21から当該ユーザの音声データを抽出して、複数のグループの音声データを含む時間窓パイプを構築し、前記最新の音声データを使用して当該時間窓パイプに含まれている音声データを更新する。図4には、前記時間窓パイプのモデルが示されており、当該時間窓パイプのモデルは、1つの時間窓パイプを基本構造とし、時間軸を変位の手がかりとして、時間の経過に伴い、時間窓パイプを時間軸の方向に沿って順次に推移して、リアルタイムで得られた最新の音声データを当該時間窓パイプにプッシュするとともに、過去の時間帯の音声データを当該時間窓パイプから取り除くように構成されており、当該時間窓パイプには複数のグループの音声データが含まれている。
図5には、時間窓パイプの応用例が示されている。図5に示したように、例えば、現在の時間窓パイプには、2014年1月5日、2014年1月26日、2014年2月3日および2014年2月27日をラベルとした4グループの音声データが含まれている。2014年3月9日に最新のユーザ音声データを取得できたため、時間窓パイプ構築モジュール24は、2014年3月9日をラベルとする最新の音声データを時間窓パイプにプッシュするとともに、過去の時間帯である2014年1月5日をラベルとした音声データを時間窓パイプから取り除くように、時間窓パイプに含まれている音声データを更新する。図5に示した時間窓パイプに含まれている音声データのグループの数は、一例であり、実際の運用において、時間窓パイプに含まれる音声データのグループの数は具体的な状況に応じて設定可能である。
続いて、声紋モデル再構築モジュール25は、更新された時間窓パイプに含まれている複数のグループの音声データを使用して、当該ユーザのユーザ声紋モデルを再構築し、再構築した当該ユーザのユーザ声紋モデルを声紋モデル蓄積手段15に更新する。
このように、その後に身分認証を行うときに、身分認証システム1は、声紋モデル蓄積手段15から最新のユーザ声紋モデルを取得するとともに、最新のユーザ声紋モデルで身分総合信頼度CLを算出することができる。時間の経過に伴い、ユーザ自身の生理的特徴と発音特徴が変化し、ハードウェアが劣化し、録音装置の忠実度が低下していくが、本発明によれば、時間窓パイプモデルを構築することによりユーザ声紋モデルを動的に再構築することで、ユーザの発音特徴をリアルタイムに追跡することができ、ユーザ声紋モデルの精度を効果的に向上させることができ、身分認証の精度を向上させることができる。
図6には、第1の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証の方法のフローが示されている。
ステップS201: 要求者がクライアントを介してサーバに送信した身分認証要求を受け付ける。
ステップS202: 動的パスワードを生成し、当該動的パスワードをクライアントに送信する。
ステップS203: クライアントから送信されてきた、当該要求者が前記動的パスワード読み上げた時のパスワード音声信号に基づいて、グローバルキャラクター音響モデルとユーザ声紋モデルで当該要求者の身分総合信頼度CLを算出する。
ステップS204: 算出した身分総合信頼度CLに基づいて、当該要求者の身分を判定し、身分認証結果をクライアントに返却する。
ステップS205: 身分認証結果は当該要求者がサーバのユーザである場合には、ステップS206に移行し、それ以外の場合には、処理を終了する。
ステップS206: 時間をラベルとして各ユーザの音声データを蓄積する時変データ蓄積手段に、前記パスワード音声信号を最新の音声データとして蓄積する。
ステップS207: 時間ラベル順に従って時変データ蓄積手段から当該ユーザの音声データを抽出し、複数のグループの音声データを含む時間窓パイプを構築し、前記最新の音声データを使用して当該時間窓パイプに含まれている音声データを更新する(最新の音声データをプッシュし、過去の時間帯の音声データを取り除く)。
ステップS208: 更新された時間窓パイプに含まれている複数のグループの音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する。
本発明の第1の実施形態によれば、パスワード内容信頼度平均値と要求者身分音声信頼度平均値とを組み合わせて身分総合信頼度を求め、当該身分総合信頼度を利用して動的パスワード音声に基づく身分認証を行うことにより、動的パスワード内容を確認できるとともに、話者の声紋を確認できる二重身分認証システムと方法を提供することができ、身分認証の安全性と信頼性を向上させることができる。なお、本発明の第1の実施形態によれば、時間変化に基づく時変データ蓄積手段を構築するとともに、時間によって変化する複数のグループのユーザの音声データを含む時間窓パイプモデルを構築して、当該時間窓パイプモデルでユーザ声紋モデルを動的に再構築することにより、身分認証の精度を効果的に向上させることができ、自己学習機能を持たせることができる。
(第2の実施形態)
図7には、第2の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証システム10(以下、単に「身分認証システム10」という)の模式図である。第1の実施形態と同一の構成要素には同一の符号を付して詳細な説明を省略する。
第2の実施形態は以下の点で第1の実施形態と異なる。すなわち、声紋モデル自動再構築サブシステム200は、前記パスワード音声信号である音声データに対してパラメータ化処理を実行することにより、最新のパラメータ化音声データである話者の個人性情報を表現できる特徴パラメータを得るための音声データパラメータ化モジュール22をさらに備え、時変データ更新モジュール23は、最新のパラメータ化音声データを使用して時変データ蓄積手段21を更新し、時変データ蓄積手段21には、時間をラベルとしてパラメータ化音声データが蓄積され、時間窓パイプ構築モジュール24は、パラメータ化音声データを使用して複数のグループのパラメータ化音声データを含む時間窓パイプを構築し、最新のパラメータ化音声データを使用して当該時間窓パイプに含まれているパラメータ化音声データを更新し、声紋モデル再構築モジュール25は、更新された時間窓パイプに含まれている複数のグループのパラメータ化音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する。
すなわち、第2の実施形態では、ユーザの音声データ(パスワード音声信号)を取得した後に、音声データパラメータ化モジュール22により当該音声データに対してパラメータ化処理を実行し、後続処理において当該パラメータ化処理で得られたパラメータ化音声データを使用する。
ユーザの音声データをそのまま時変データ蓄積手段21に蓄積する場合、蓄積しにくいだけでなく、大量の記憶領域が必要となり、蓄積手段のメンテナンスと持続的な蓄積に不利となる。よって、音声データパラメータ化モジュール22によりフレーム毎に音声データに対してパラメータ化処理を実行することで、話者の個人性情報を表現できる特徴パラメータであるパラメータ化音声データ(すなわちパラメータ化された音声データ)を得ることが好ましい。
音声データパラメータ化モジュール22は、パラメータ化処理を実行する前に、音声データに対して音声区間検出(VAD、Voice Activity Detection)を行うことが好ましい。これにより、音声データのうちの無音部分を削除するとともに、ノイズによる影響を低減させ、音声データのサイズを減少させることができる。音声データパラメータ化モジュール22は、上記した音声区間検出を行った後に、残された音声データに対してパラメータ化処理を実行することにより、パラメータ化音声データを得る。これにより、音声データを蓄積するための記憶領域をさらに節約することができる。
音声データパラメータ化モジュール22は、音声データに対してパラメータ化処理を実行するときに、特徴パラメータとしてメル周波数ケプストラム係数MFCCを採用し、かつゼロ次のMFCC特徴のみ蓄積することが好ましい。これにより、音声信号の次元削減を図り、音声データを蓄積するための記憶領域を節約することができる。後続処理を実行するときには、以下の式(5)でゼロ次のMFCC特徴から対応する1次差分と2次差分特徴へ変換することができる。
式(5)において、pFrame[i]はパラメータ化音声データフレームであり、f1[i]、f2[i]はそれぞれ第i番目フレームの音声データの1つ前のフレームと2つ前のフレームの特徴値であり、b1[i]、b2[i]はそれぞれ第i番目フレームの音声の1つ後ろのフレームと2つ後ろの特徴値である。
図14に示したように、サイズが1Mbであるwav形式の原音声データを例として挙げると、まず、1Mbの原音声データに対して音声区間検出を行うことにより、原音声データのうちの無音部分を削除するとともにノイズによる影響を低減させることで、600Kbの有効音声データを得る。次に、特徴パラメータとしてメル周波数ケプストラム係数MFCCを採用して、フレーム毎に600Kbの音声データに対してパラメータ化処理を実行することにより、140Kbのパラメータ化音声データを得る。原音声データに比べて、約90%の記憶領域を節約することができる。
時変データ更新モジュール23は、時間をラベルとしてユーザのパラメータ化音声データを蓄積する時変データ蓄積手段21に、最新のパラメータ化音声データを蓄積する。
時間窓パイプ構築モジュール24は、時間ラベル順に従って時変データ蓄積手段21から当該ユーザのパラメータ化音声データを抽出し、複数のグループのパラメータ化音声データを含む時間窓パイプを構築し、前記最新のパラメータ化音声データを使用して当該時間窓パイプに含まれているパラメータ化音声データを更新する。時間窓パイプ構築モジュール24が時間窓パイプを構築し更新する処理は、ユーザの音声データをそのまま使用せずにパラメータ化音声データを使用する点以外、第1の実施形態と同じである。
なお、声紋モデル再構築モジュール25は、更新された時間窓パイプに含まれている複数のグループのパラメータ化音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する。
図8には、第2の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証の方法のフローが示されており、そのうち、ステップS201’〜S205’は第1の実施形態の図6のステップS201〜S205と同じものであるため、ステップS201’〜S205’についての説明を省略する。
ステップS206’: クライアントで取得したパスワード音声信号である音声データに対してパラメータ化処理を実行し、最新のパラメータ化音声データを取得する。
ステップS207’: 時間をラベルとして各ユーザのパラメータ化音声データを蓄積する時変データ蓄積手段に、前記最新のパラメータ化音声データを蓄積する。
ステップS208’: 時間ラベル順に従って時変データ蓄積手段から当該ユーザのパラメータ化音声データを抽出し、複数のグループのパラメータ化音声データを含む時間窓パイプを構築し、前記最新のパラメータ化音声データを使用して当該時間窓パイプに含まれているパラメータ化音声データを更新する(最新のパラメータ化音声データをプッシュし、過去の時間帯のパラメータ化音声データを取り除く)。
ステップS209’: 更新された時間窓パイプに含まれている複数のグループのパラメータ化音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する。
本発明の第2の実施形態では、第1の実施形態に記載した技術を改善し、原音声データに対してパラメータ化処理を実行することにより、音声データを蓄積するための記憶領域を大幅に節約することができるとともに、後続処理においてもパラメータ化音声データを使用することにより、音声データを一時記憶するための記憶空間のサイズを削減することができる。
(第3の実施形態)
図9は、第3の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証システム100(以下、単に「身分認証システム100」という)の模式図である。第1の実施形態及び第2の実施形態と同一の構成要素には同一の符号を付して詳細な説明を省略する。
第3の実施形態に係る身分認証システム100は以下の点で第2の実施形態に係る身分認証システム10と異なる。すなわち、身分認証システム100の声紋モデル自動再構築サブシステム400は、音声識別モジュール260をさらに備え、時変データ蓄積手段210には、最新のパラメータ化音声データに対応付けられている音素、および当該音素が対応付けられているフレーム区間がさらに蓄積され、時間窓パイプ構築モジュール240は、最新のパラメータ化音声データに対応付けられている音素に基づいて、時間窓パイプに含まれる複数のグループのパラメータ化音声データに対応付けられる音素が均等分布となるように、時間窓パイプに含まれているパラメータ化音声データを更新する。
例えば、0〜9の十の数字をグローバルキャラクターコード集とした場合、過去の時間帯で生成した動的パスワードに用いられていた数字の分布を考慮せず、ユーザ声紋モデルを再構築すると、再構築したユーザ声紋モデルには音素分布の不均等が発生する可能性があり、ひいては個別の数字に対する識別精度が低くなってしまい、身分認証の安定性に不利である。
図10に示したように、数字の分布を考慮せず、単に動的パスワード「1358」によるパスワート音声信号に基づいてユーザ声紋モデルを再構築した場合には、今後、ユーザが「0」と「2」と「4」と「6」と「7」と「9」からなる動的パスワードを読み上げたときに、当該再構築したユーザ声紋モデルに基づいて身分総合信頼度CLを算出する場合、精度が低くなる可能性がある。よって、本発明の第3の実施形態では、音素の分布状況をさらに判定する。
第3の実施形態の声紋モデル自動再構築サブシステム400は、音声データにおける各フレームに対応付けられる音素を識別するための音声識別モジュール260をさらに備えており、これにより、音素とフレームとの対応関係を得られる。
具体的には、音声識別モジュール260は、パスワード音声信号である音声データにおける各フレームに対応付けられている音素を識別する。音声データパラメータ化モジュール22により音声データに対してパラメータ化処理を行った後、時変データ更新モジュール23は、パラメータ化音声データ(すなわち最新のパラメータ化音声データ)と、当該音声データの各フレームに対応付けられている音素(すなわち最新のパラメータ化音声データに対応付けられている音素)と、当該音素が対応付けられているフレーム区間(すなわち開始フレームフラグと終了フレームフラグ)とを時変データ蓄積手段210に蓄積する。
図11には、時変データ蓄積手段210の蓄積方式が示されている。図11に示したように、時変データ蓄積手段210には、木構造のデータ蓄積構造で、音素とフレーム区間とパラメータ化音声データとの三者が関連付けられて、音声識別モジュール260により識別された各音素と、各音素が対応付けられているフレーム区間と、各前記フレーム区間に対応付けられているパラメータ化音声データとが蓄積されている。このような木構造のデータ蓄積構造により、時変データ蓄積手段210の管理を行いやすく、検索とエラー検出を行いやすくなる。
第3の実施形態の時変データ蓄積手段210によれば、時間窓パイプを推移(更新)する度に、時間の経過を考慮するだけでなく、音素の分布状況も考慮している。すなわち、第3の実施形態において、時間窓パイプ構築モジュール240は、例えば以下の2種類の方式で時間窓パイプを更新してもよい。
第1の方式:
図12(a)には、第1の方式による処理フローが示されている。ステップS301では、最新のパラメータ化音声データに対応付けられている音素を、時間窓パイプ内の最も古い(時間ラベルが最も古い)パラメータ化音声データに対応付けられている音素と比較して、最新のパラメータ化音声データに対応付けられている音素と、時間窓パイプ内の最も古いパラメータ化音声データに対応付けられている音素とのマッチング度を算出する。ステップS302では、前記マッチング度を判定し、前記マッチング度が所定のマッチング度以上である(例えば音素の90%が一致する)場合には、ステップS303に移行し、それ以外の場合には、時間窓パイプに含まれているパラメータ化音声データを更新せず、処理を終了させる。ステップS303では、最新のパラメータ化音声データを時間窓パイプにプッシュするとともに、時間窓パイプから最も古いパラメータ化音声データを取り除く。
第1の方式は、時間窓パイプに含まれる複数のグループのパラメータ化音声データに対応付けられる音素が均等分布となるように、最新のパラメータ化音声データに対応付けられている音素と最も古いパラメータ化音声データに対応付けられている音素とのマッチング度が所定のマッチング度以上である場合のみ、時間窓パイプを更新するようにしている。
第2の方式:
図12(b)には、第2の方式による処理フローが示されている。ステップS401では、時間ラベルの古い順に従って、順次に時間窓パイプから一グループのパラメータ化音声データを仮に取り除く。ステップS402では、時間窓パイプに残された全てのパラメータ化音声データおよび最新のパラメータ化音声データに対応付けられている音素に基づいて、文字の音素分布によるバランス度を算出する。ステップS403では、前記バランス度を判定し、前記バランス度が所定のバランス度閾値以上である場合には、ステップS404に移行し、それ以外の場合には、ステップS405に移行する。ステップS404では、最新のパラメータ化音声データを時間窓パイプ(過去の時間帯のパラメータ化音声データがすでにステップS401で取り除かれた。)にプッシュし、処理を終了させる。ステップS405では、時間窓パイプを当初の状態に復元する、すなわちステップS401で仮に取り除かれた一グループのパラメータ化音声データを時間窓パイプに復元する。ステップS406では、時間窓パイプに含まれているパラメータ化音声データの全てについて仮取り除きを行われたかを判定し、仮取り除きが行われていないパラメータ化音声データが存在する場合には、ステップS401に戻し、時間ラベルの古い順に従って引き続き時間窓パイプから次の一グループのパラメータ化音声データを仮に取り除き、それ以外の場合には、時間窓パイプに含まれているパラメータ化音声データを更新せず、処理を終了させる。
第2の方式は、時間窓パイプに含まれる複数のグループのパラメータ化音声データに対応付けられる音素が均等分布となることを確保できる場合のみ、時間窓パイプを更新するようにしている。
上記した第1の方式と第2の方式のいずれを採用しても、最新のパラメータ化音声データに対応付けられている音素に基づいて、時間窓パイプに含まれる複数のグループのパラメータ化音声データに対応付けられる音素が均等分布となるように、時間窓パイプに含まれているパラメータ化音声データを更新するようになっている。図13には、第3の実施形態における時間窓パイプを更新するときの処理を模式化に示されている。
なお、実際の運用状況に応じて、第1の方式又は第2の方式のいずれかを採用してもよく、まず第1の方式又は第2の方式で時間窓パイプの更新を試し、更新条件を満たさない(マッチング度又はバランス度が低い)ため、時間窓パイプを更新できなかった場合に、引き続き第2の方式又は第1の方式で時間窓パイプの更新を試すように、最新の音声データを最大限に活用してユーザ声紋モデルを再構築してもよい。
時間窓パイプから過去の時間帯のパラメータ化音声データを取り除くとき、時変データベース210から当該過去の時間帯のパラメータ化音声データを削除することが好ましい。これにより、時変データ蓄積手段210のサイズが相対的に安定した状態で維持され、時変データ蓄積手段210のメンテナンスと管理に有利である。
次に、第2の実施形態と同様に、声紋モデル再構築モジュール25は、更新された時間窓パイプに含まれている複数のグループのパラメータ化音声データを使用して、ユーザ声紋モデルを再構築し、再構築したユーザ声紋モデルを声紋モデル蓄積手段15に更新する。
本発明の第3の実施形態では、第2の実施形態に記載した技術を改進し、音素の分布状況に基づいて時間窓パイプに含まれているパラメータ化音声データを更新することにより、ユーザ声紋モデルに音素分布の不均等が発生することを効果的に抑制することができ、ユーザ声紋モデルの精度を効果的に向上させることができ、身分認証の精度を向上させることができる。
(第4の実施形態)
第4の実施形態は以下の点で上記した第1、第2、第3の実施形態と異なる。すなわち、声紋モデル再構築モジュールは、さらに、時変データ蓄積手段に蓄積された音声データ(第1の実施形態)又はパラメータ化音声データ(第2の実施形態と第3の実施形態)の更新頻度によって、異なる手法を採用してユーザ声紋モデルを再構築する。
より正確なユーザ声紋モデルをトレーニングするために、ユーザの発音特徴をリアルタイムで追跡する必要がある。しかしながら、各ユーザのシステムの利用頻度が異なるため、時変データ蓄積手段に蓄積された音声データ又はパラメータ化音声データを更新する頻度が異なる。更新頻度(すなわちユーザがシステムを利用する頻度)を考慮せず、同一手法を採用してユーザ声紋モデルを再構築すると、再構築したユーザ声紋モデルの精度が相対的に低くなってしまう恐れがある。
このため、第4の実施形態では、ユーザのユーザ声紋モデルを再構築する際に、時変データ蓄積手段に蓄積された音声データ又はパラメータ化音声データの更新頻度を判定し、判定結果に基づいて異なる手法を採用して当該ユーザのユーザ声紋モデルを再構築する。
時変データ蓄積手段に蓄積された当該ユーザの音声データ又はパラメータ化音声データの更新頻度が所定の頻度未満の場合には、モデルの自己適応の手法を採用して当該ユーザのユーザ声紋モデルを再構築する。このように、少量の最新の音声データ又はパラメータ化音声データでユーザ声紋モデルを再構築することにより、トレーニング音声データが少ないといった課題を解決することができ、時変データ蓄積手段に蓄積されている音声データ又はパラメータ化音声データを最大限に活用することができる。なお、モデルの自己適応の手法を採用することにより、ユーザ声紋モデルを再構築するときの速度を向上させることができるため、より効率的な手法である。ここで、前記モデルの自己適応の手法とは、既存のユーザ声紋モデルで自己適応を行うことにより新しいユーザ声紋モデルを得るものである。
時変データ蓄積手段に蓄積された当該ユーザの音声データ又はパラメータ化音声データの更新頻度が所定の頻度以上の場合には、直接再トレーニングの手法を採用して当該ユーザのユーザ声紋モデルを再構築する。モデルの自己適応の手法に比べて、直接再トレーニングの手法を採用する場合には、モデルの自己適応を繰り返して実行することによりユーザ声紋モデルが不安定になる課題を回避することができ、また、直接再トレーニングの手法を採用することにより、より正確なユーザ声紋モデルを得ることができ、ユーザの現在の発音特徴をより正確に表現することができる。ここで、前記直接再トレーニングの手法とは、グローバルキャラクター音響モデルで自己適応を行うことにより新しいユーザ声紋モデルを得るものである。
前記自己適応は、例えば最尤線形回帰(MLLR)アルゴリズム又は最大事後確率(MAP)アルゴリズムにより実現できる。
第4の実施形態では、実際の状況に応じて前記所定の頻度を設定してもよい。例えば、1週間を1周期とし、声紋モデル再構築モジュールは、あるユーザのユーザ声紋モデルを再構築するときに、まず1週間内に時変データ蓄積手段に更新された当該ユーザの音声データ又はパラメータ化音声データのグループ数を判定し、当該グループ数が1時間窓パイプの長さ(例えば10グループ)以上である場合には、直接再トレーニングの手法を採用して当該ユーザのユーザ声紋モデルを再構築し、それ以外の場合には、モジュールの自己適応の手法を採用して当該ユーザのユーザ声紋モデルを再構築してもよい。
本発明の第4の実施形態によれば、ユーザの実際の利用頻度に応じて、適切な手法を採用してユーザの声紋モデルを再構築することができ、より正確なユーザ声紋モデルを再構築することができる。
本発明における各モジュールは、ハードウェア及び/又はソフトウェアにより実現してもよく、複数のモジュールを1つのモジュールとして結合てもよく、1つのモジュールを複数のモジュールに分割してもよい。結合又は分割で得られたモジュールは対応する機能を実現可能であればよい。本発明の第1から第4の実施形態に記載した技術を組み合わせて実施してもよく、これによりシステムの最適化を図ることができる。
なお、本発明における「クライアント」と「サーバ」は物理的に異なる装置であってもよく、同一の物理装置の異なるロジック処理ユニットであってもよい。前者の場合、例えば「クライアント」と「サーバ」はそれぞれユーザの携帯電話とモバイルサービス事業者のサーバであり、後者の場合、例えば「クライアント」はユーザの携帯電話で、「サーバ」はユーザの携帯電話に実装されている身分認証機能を実現するためのハードウェア及び/又はソフトフェアである。例えば、携帯電話の画面ロック解除機能を実現するために本発明を携帯電話に適用した場合には、「クライアント」と「サーバ」は同一の物理装置(携帯電話)の異なるロジック処理ユニットとなる。
以上、本発明のいくつかの実施形態を説明したが、これらの実施形態はあくまでも単に例であり、発明の範囲を限定することは意図していない。当業者にとっては、その他の様々な形態で実施することが可能であり、本発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができ、簡単な省略、同等な置き換え、明らかな変更によって得られた技術案も、本発明の特許請求に記載された発明の範囲に含まれるものである。
1、10、100 動的パスワード音声に基づいた自己学習機能を有する身分認証システム
11 要求受付モジュール
12 ユーザ声紋モデル生成モジュール
13 動的パスワード生成モジュール
14 身分認証モジュール
15 声紋モデル蓄積手段
20、200、400 声紋モデル自動再構築サブシステム
21、210 時変データ蓄積手段
22 音声データパラメータ化モジュール
23 時変データ更新モジュール
24、240 時間窓パイプ構築モジュール
25 声紋モデル再構築モジュール
260 音声識別モジュール

Claims (22)

  1. 要求者がクライアントを介してサーバに送信した身分認証要求を受け付ける要求受付モジュールと、
    動的パスワードを生成し、当該動的パスワードを前記クライアントへ送信する動的パスワード生成モジュールと、
    前記クライアントから送信されてきた、前記要求者が前記動的パスワードを読み上げたときのパスワード音声信号に基づいて、グローバルキャラクター音響モデルとユーザ声紋モデルで前記要求者の身分総合信頼度を算出し、算出した前記身分総合信頼度に基づいて、当該要求者の身分を判定し、身分認証結果を前記クライアントに返却する身分認証モジュールとを備え、
    声紋モデル自動再構築サブシステムを有し、前記要求者が前記サーバのユーザであるとの前記身分認証結果である場合、当該声紋モデル自動再構築サブシステムにより、前記ユーザ声紋モデルを再構築するようにしており、
    前記声紋モデル自動再構築サブシステムは、
    時間をラベルとして各ユーザの音声データを蓄積するための時変データ蓄積手段と、
    前記パスワード音声信号を最新の音声データとして前記時変データ蓄積手段に蓄積するための時変データ更新モジュールと、
    時間ラベル順に従って前記時変データ蓄積手段から前記ユーザの音声データを抽出し、複数のグループの音声データを含む時間窓パイプを構築し、前記最新の音声データを使用して当該時間窓パイプに含まれている音声データを更新する時間窓パイプ構築モジュールと、
    更新された前記時間窓パイプに含まれている前記複数のグループの音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する声紋モデル再構築モジュールと、を備える、
    ことを特徴とする動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
  2. 前記声紋モデル自動再構築サブシステムは、前記パスワード音声信号である音声データに対してパラメータ化処理を実行することにより、最新のパラメータ化音声データを得るための音声データパラメータ化モジュールをさらに備え、
    前記時変データ蓄積手段には、時間をラベルとして各ユーザのパラメータ化音声データが蓄積され、
    前記時変データ更新モジュールは、前記最新のパラメータ化音声データを前記時変データ蓄積手段に蓄積し、
    前記時間窓パイプ構築モジュールは、時間ラベル順に従って前記時変データ蓄積手段から前記ユーザのパラメータ化音声データを抽出し、複数のグループのパラメータ化音声データを含む時間窓パイプを構築し、前記最新のパラメータ化音声データを使用して当該時間窓パイプに含まれているパラメータ化音声データを更新し、
    前記声紋モデル再構築モジュールは、更新された前記時間窓パイプに含まれている前記複数のグループのパラメータ化音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する、
    ことを特徴とする請求項1に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
  3. 前記声紋モデル自動再構築サブシステムは、前記音声データにおける各フレームに対応付けられている音素を識別するための音声識別モジュールをさらに備え、
    前記時変データ蓄積手段には、前記最新のパラメータ化音声データに対応付けられている音素、および当該音素が対応付けられているフレーム区間がさらに蓄積され、
    前記時間窓パイプ構築モジュールは、前記最新のパラメータ化音声データに対応付けられている音素に基づいて、前記時間窓パイプに含まれる前記複数のグループのパラメータ化音声データに対応付けられる音素が均等分布となるように、前記時間窓パイプに含まれているパラメータ化音声データを更新する、
    ことを特徴とする請求項2に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
  4. 前記時間窓パイプ構築モジュールは、前記最新のパラメータ化音声データに対応付けられている音素を、前記時間窓パイプ内の最も古いパラメータ化音声データに対応付けられている音素と比較し、両者のマッチング度が所定のマッチング度以上である場合には、前記最新のパラメータ化音声データを前記時間窓パイプにプッシュするとともに、前記時間窓パイプから前記最も古いパラメータ化音声データを取り除く、
    ことを特徴とする請求項3に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
  5. 前記時間窓パイプ構築モジュールは、時間ラベルの古い順に従って、順次に前記時間窓パイプから一グループのパラメータ化音声データを仮に取り除き、前記時間窓パイプに残された全てのパラメータ化音声データおよび前記最新のパラメータ化音声データに基づき、文字の音素分布によるバランス度を算出し、
    前記バランス度が所定のバランス度閾値以上である場合には、前記最新のパラメータ化音声データを前記時間窓パイプにプッシュし、それ以外の場合には、仮に取り除かれた前記一グループのパラメータ化音声データを前記時間窓パイプに復元するとともに、前記時間窓パイプに含まれているパラメータ化音声データの全てについて仮取り除きが行われるまで、あるいは前記最新のパラメータ化音声データが前記時間窓パイプにプッシュされるまで、引き続き前記時間窓パイプから次の一グループのパラメータ化音声データを仮に取り除き、前記時間窓パイプに残された全てのパラメータ化音声データおよび前記最新のパラメータ化音声データに基づき前記バランス度を再び算出する、
    ことを特徴とする請求項3に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
  6. 前記時間窓パイプから過去の時間帯のパラメータ化音声データを取り除くとき、前記時変データベースから当該過去の時間帯のパラメータ化音声データを削除する、
    ことを特徴とする請求項4又は5に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
  7. 前記声紋モデル再構築モジュールは、前記時変データ蓄積手段に蓄積された当該ユーザの音声データの更新頻度を判定し、前記更新頻度が所定の頻度未満の場合には、モデルの自己適応の手法を採用して当該ユーザのユーザ声紋モデルを再構築し、それ以外の場合には、直接再トレーニングの手法を採用して当該ユーザのユーザ声紋モデルを再構築する、
    ことを特徴とする請求項1に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
  8. 前記声紋モデル再構築モジュールは、前記時変データ蓄積手段に蓄積された当該ユーザのパラメータ化音声データの更新頻度を判定し、前記更新頻度が所定の頻度未満の場合には、モデルの自己適応の手法を採用して当該ユーザのユーザ声紋モデルを再構築し、それ以外の場合には、直接再トレーニングの手法を採用して当該ユーザのユーザ声紋モデルを再構築する、
    ことを特徴とする請求項2又は3に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
  9. 前記音声データパラメータ化モジュールは、前記音声データに対して前記パラメータ化処理を実行する前に、前記音声データに対して音声端点検出を行う、
    ことを特徴とする請求項2に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
  10. 前記音声データパラメータ化モジュールは、前記音声データに対して前記パラメータ化処理を実行するときに、特徴パラメータとしてメル周波数ケプストラム係数MFCCを採用し、かつゼロ次のMFCC特徴のみを蓄積する、
    ことを特徴とする請求項9に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
  11. 前記身分認証モジュールは、以下の式で前記身分総合信頼度を算出することを特徴とする請求項1に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
  12. 要求者がクライアントを介してサーバに送信した身分認証要求を受け付ける要求受付ステップと、
    動的パスワードを生成し、当該動的パスワードを前記クライアントへ送信する動的パスワード生成ステップと、
    前記クライアントから送信されてきた、当該要求者が前記動的パスワードを読み上げた時のパスワード音声信号に基づいて、グローバルキャラクター音響モデルとユーザ声紋モデルで当該要求者の身分総合信頼度を算出し、算出した前記身分総合信頼度に基づいて、当該要求者の身分を判定し、身分認証結果を前記クライアントに返却する身分認証ステップとを備え、
    当該要求者が前記サーバのユーザであるとの前記身分認証結果である場合、
    時間をラベルとして各ユーザの音声データを蓄積する時変データ蓄積手段に、前記パスワード音声信号を最新の音声データとして蓄積する時変データ蓄積ステップと、
    時間ラベル順に従って前記時変データ蓄積手段から前記ユーザの音声データを抽出し、複数のグループの音声データを含む時間窓パイプを構築し、前記最新の音声データを使用して当該時間窓パイプに含まれている音声データを更新する時間窓パイプ構築ステップと、
    更新された前記時間窓パイプに含まれている前記複数のグループの音声データを使用して、当該ユーザのユーザ声紋モデルを再構築するモデル再構築ステップと、をさらに実行する、
    ことを特徴とする動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
  13. 前記パスワード音声信号である音声データに対してパラメータ化処理を実行することにより、最新のパラメータ化音声データを得るパラメータ化ステップをさらに備え、
    前記時変データ蓄積ステップでは、時間をラベルとして各ユーザのパラメータ化音声データを蓄積する前記時変データ蓄積手段に、前記最新のパラメータ化音声データを蓄積し、
    前記時間窓パイプ構築ステップでは、時間ラベル順に従って前記時変データ蓄積手段から前記ユーザのパラメータ化音声データを抽出し、複数のグループのパラメータ化音声データを含む時間窓パイプを構築し、前記最新のパラメータ化音声データを使用して当該時間窓パイプに含まれているパラメータ化音声データを更新し、
    前記モデル再構築ステップでは、更新された前記時間窓パイプに含まれている前記複数のグループのパラメータ化音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する、
    ことを特徴とする請求項12に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
  14. 前記音声データにおける各フレームに対応付けられている音素を識別する音声識別ステップをさらに備え、
    前記時変データ蓄積ステップでは、さらに前記最新のパラメータ化音声データに対応付けられている音素、および当該音素が対応付けられているフレーム区間を前記時変データ蓄積手段に蓄積し、
    前記時間窓パイプ構築ステップでは、前記最新のパラメータ化音声データに対応付けられている音素に基づいて、前記時間窓パイプに含まれる前記複数のグループのパラメータ化音声データに対応付けられる音素が均等分布となるように、前記時間窓パイプに含まれているパラメータ化音声データを更新する、
    ことを特徴とする請求項13に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
  15. 前記時間窓パイプ構築ステップでは、前記最新のパラメータ化音声データに対応付けられている音素を、前記時間窓パイプ内の最も古いパラメータ化音声データに対応付けられている音素と比較し、両者のマッチング度が所定のマッチング度以上である場合には、前記最新のパラメータ化音声データを前記時間窓パイプにプッシュするとともに、前記時間窓パイプから前記最も古いパラメータ化音声データを取り除く、
    ことを特徴とする請求項14に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
  16. 前記時間窓パイプ構築ステップでは、時間ラベルの古い順に従って、順次に前記時間窓パイプから一グループのパラメータ化音声データを仮に取り除き、前記時間窓パイプに残された全てのパラメータ化音声データおよび前記最新のパラメータ化音声データに基づき、文字の音素散布によるバランス度を算出し、
    前記バランス度が所定のバランス度閾値以上である場合には、前記最新のパラメータ化音声データを前記時間窓パイプにプッシュし、それ以外の場合には、仮に取り除かれた前記一グループのパラメータ化音声データを前記時間窓パイプに復元するとともに、前記時間窓パイプに含まれているパラメータ化音声データの全てについて仮取り除きを行われるまで、あるいは前記最新のパラメータ化音声データが前記時間窓パイプにプッシュされるまで、引き続き前記時間窓パイプから次の一グループのパラメータ化音声データを仮に取り除き、前記時間窓パイプに残された全てのパラメータ化音声データおよび前記最新のパラメータ化音声データに基づき前記バランス度を再び算出する、
    ことを特徴とする請求項14に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
  17. 前記時間窓パイプから過去の時間帯のパラメータ化音声データを取り除くとき、前記時変データベースから当該過去の時間帯のパラメータ化音声データを削除する、
    ことを特徴とする請求項15又は16に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
  18. 前記モデル再構築ステップでは、前記時変データ蓄積手段に蓄積された当該ユーザの音声データの更新頻度を判定し、前記更新頻度が所定の頻度未満の場合には、モデルの自己適応の手法を採用して当該ユーザのユーザ声紋モデルを再構築し、それ以外の場合には、直接再トレーニングの手法を採用して当該ユーザのユーザ声紋モデルを再構築する、
    ことを特徴とする請求項12に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
  19. 前記モデル再構築ステップでは、前記時変データ蓄積手段に蓄積された当該ユーザのパラメータ化音声データの更新頻度を判定し、前記更新頻度が所定の頻度未満の場合には、モデルの自己適応の手法を採用して当該ユーザのユーザ声紋モデルを再構築し、それ以外の場合には、直接再トレーニングの手法を採用して当該ユーザのユーザ声紋モデルを再構築する、
    ことを特徴とする請求項13又は14に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
  20. 前記パラメータ化ステップでは、前記音声データに対して前記パラメータ化処理を実行する前に、前記音声データに対して音声端点検出を行う、
    ことを特徴とする請求項13に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
  21. 前記パラメータ化ステップでは、前記音声データに対して前記パラメータ化処理を実行するときに、特徴パラメータとしてメル周波数ケプストラム係数MFCCを採用し、かつゼロ次のMFCC特徴のみを蓄積する、
    ことを特徴とする請求項20に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
  22. 前記身分認証ステップでは、以下の式で前記身分総合信頼度を算出することを特徴とする請求項12に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
JP2017539339A 2015-02-05 2015-07-08 動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法 Active JP6502512B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510061721.8 2015-02-05
CN201510061721.8A CN104616655B (zh) 2015-02-05 2015-02-05 声纹模型自动重建的方法和装置
PCT/CN2015/083540 WO2016123900A1 (zh) 2015-02-05 2015-07-08 基于动态密码语音的具有自学习功能的身份认证系统及方法

Publications (2)

Publication Number Publication Date
JP2018509649A true JP2018509649A (ja) 2018-04-05
JP6502512B2 JP6502512B2 (ja) 2019-04-17

Family

ID=53151076

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017539339A Active JP6502512B2 (ja) 2015-02-05 2015-07-08 動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法

Country Status (6)

Country Link
US (1) US10540980B2 (ja)
EP (1) EP3255631B1 (ja)
JP (1) JP6502512B2 (ja)
KR (1) KR101963993B1 (ja)
CN (1) CN104616655B (ja)
WO (1) WO2016123900A1 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616655B (zh) * 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
CN106782564B (zh) * 2016-11-18 2018-09-11 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
CN107492379B (zh) * 2017-06-30 2021-09-21 百度在线网络技术(北京)有限公司 一种声纹创建与注册方法及装置
CN107274883B (zh) * 2017-07-04 2020-06-02 清华大学 语音信号重构方法及装置
CN107274890B (zh) * 2017-07-04 2020-06-02 清华大学 声纹谱提取方法及装置
CN108257604B (zh) * 2017-12-08 2021-01-08 平安普惠企业管理有限公司 语音识别方法、终端设备及计算机可读存储介质
CN108269575B (zh) * 2018-01-12 2021-11-02 平安科技(深圳)有限公司 更新声纹数据的语音识别方法、终端装置及存储介质
CN108428455A (zh) * 2018-02-13 2018-08-21 上海爱优威软件开发有限公司 声纹特征的采集方法及系统
US10789959B2 (en) * 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
KR102079303B1 (ko) * 2018-06-15 2020-02-19 서울대학교산학협력단 기계학습을 이용한 음성 인식 OTP(One Time Password)인증 방법 및 시스템
US11935348B2 (en) * 2018-07-24 2024-03-19 Validvoice, Llc System and method for biometric access control
KR102621881B1 (ko) 2018-09-05 2024-01-05 주식회사 케이티 상담사와 상담하는 화자를 인증하는 서버 및 방법
CN110880325B (zh) * 2018-09-05 2022-06-28 华为技术有限公司 身份识别方法及设备
US11004454B1 (en) * 2018-11-06 2021-05-11 Amazon Technologies, Inc. Voice profile updating
CN109473108A (zh) * 2018-12-15 2019-03-15 深圳壹账通智能科技有限公司 基于声纹识别的身份验证方法、装置、设备及存储介质
CN109683938B (zh) * 2018-12-26 2022-08-02 思必驰科技股份有限公司 用于移动终端的声纹模型升级方法和装置
US12014740B2 (en) 2019-01-08 2024-06-18 Fidelity Information Services, Llc Systems and methods for contactless authentication using voice recognition
CN118115158A (zh) * 2019-01-08 2024-05-31 富达信息服务有限责任公司 认证系统和计算机实现的方法
CN113396422A (zh) * 2019-02-06 2021-09-14 谷歌有限责任公司 使用生物统计数据训练感知任务的机器学习模型
KR20210054800A (ko) * 2019-11-06 2021-05-14 엘지전자 주식회사 사용자의 음성샘플 수집
CN110992932B (zh) * 2019-12-18 2022-07-26 广东睿住智能科技有限公司 一种自学习的语音控制方法、系统及存储介质
CN111091837A (zh) * 2019-12-27 2020-05-01 中国人民解放军陆军工程大学 一种基于在线学习的时变声纹认证方法及系统
CN111341325A (zh) * 2020-02-13 2020-06-26 平安科技(深圳)有限公司 声纹识别方法、装置、存储介质、电子装置
CN111341326B (zh) * 2020-02-18 2023-04-18 RealMe重庆移动通信有限公司 语音处理方法及相关产品
CN111613228A (zh) * 2020-04-15 2020-09-01 上海雷尘智能科技有限公司 一种基于声纹码的身份与内容识别系统
US11664033B2 (en) * 2020-06-15 2023-05-30 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN111785284B (zh) * 2020-08-19 2024-04-30 科大讯飞股份有限公司 基于音素辅助的文本无关声纹识别方法、装置以及设备
CN112201256B (zh) * 2020-10-09 2023-09-19 深圳前海微众银行股份有限公司 声纹分割方法、装置、设备及可读存储介质
CN112951245B (zh) * 2021-03-09 2023-06-16 江苏开放大学(江苏城市职业学院) 一种融入静态分量的动态声纹特征提取方法
CN113192512B (zh) * 2021-03-25 2022-01-07 深圳市声扬科技有限公司 声纹认证方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172296A (ja) * 1998-12-08 2000-06-23 Matsushita Electric Ind Co Ltd 話者照合装置および電子メールシステム
JP2002244697A (ja) * 2001-02-16 2002-08-30 Casio Comput Co Ltd 音声認証装置、音声認証方法、及びプログラム
JP2003076390A (ja) * 2001-08-31 2003-03-14 Fujitsu Ltd 話者認証システム及び方法
JP2005091758A (ja) * 2003-09-17 2005-04-07 Seiichi Nakagawa 話者認識システム及び方法
JP2005512246A (ja) * 2001-12-12 2005-04-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム
JP2005128307A (ja) * 2003-10-24 2005-05-19 Aruze Corp 声紋認証システム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5687287A (en) * 1995-05-22 1997-11-11 Lucent Technologies Inc. Speaker verification method and apparatus using mixture decomposition discrimination
JPH1020883A (ja) * 1996-07-02 1998-01-23 Fujitsu Ltd ユーザ認証装置
CN1302427A (zh) 1997-11-03 2001-07-04 T-内提克斯公司 用于说话者认证的模型自适应系统和方法
US6941274B1 (en) * 1997-11-28 2005-09-06 Diebold, Incorporated Automated transaction machine
KR100297833B1 (ko) * 1999-07-07 2001-11-01 윤종용 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법
US20030037004A1 (en) * 2001-08-14 2003-02-20 Chuck Buffum Dialog-based voiceprint security for business transactions
US7064652B2 (en) * 2002-09-09 2006-06-20 Matsushita Electric Industrial Co., Ltd. Multimodal concierge for secure and convenient access to a home or building
US7222072B2 (en) * 2003-02-13 2007-05-22 Sbc Properties, L.P. Bio-phonetic multi-phrase speaker identity verification
CN101197131B (zh) * 2006-12-07 2011-03-30 积体数位股份有限公司 随机式声纹密码验证系统、随机式声纹密码锁及其产生方法
CN102024455B (zh) * 2009-09-10 2014-09-17 索尼株式会社 说话人识别系统及其方法
CN102404287A (zh) * 2010-09-14 2012-04-04 盛乐信息技术(上海)有限公司 用数据复用法确定声纹认证阈值的声纹认证系统及方法
US9318114B2 (en) * 2010-11-24 2016-04-19 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
KR101284481B1 (ko) * 2011-07-15 2013-07-16 아이리텍 잉크 생체이미지 정보를 포함하는 일회용 비밀번호를 이용한 인증방법 및 장치
CN102238189B (zh) * 2011-08-01 2013-12-11 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
US10074089B1 (en) * 2012-03-01 2018-09-11 Citigroup Technology, Inc. Smart authentication and identification via voiceprints
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
JP6089610B2 (ja) * 2012-11-13 2017-03-08 富士通株式会社 生体認証装置、生体認証方法及び生体認証用コンピュータプログラム
SG11201504186UA (en) * 2012-12-19 2015-07-30 Visa Int Service Ass System and method for voice authentication
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
CN104036780B (zh) * 2013-03-05 2017-05-24 阿里巴巴集团控股有限公司 一种人机识别方法及系统
IN2013MU01148A (ja) * 2013-03-26 2015-04-24 Tata Consultancy Services Ltd
CN104219195B (zh) * 2013-05-29 2018-05-22 腾讯科技(深圳)有限公司 身份校验方法、装置及系统
US9978065B2 (en) * 2013-06-25 2018-05-22 Visa International Service Association Voice filter system
CN103632667B (zh) * 2013-11-25 2017-08-04 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端
US10157272B2 (en) * 2014-02-04 2018-12-18 Qualcomm Incorporated Systems and methods for evaluating strength of an audio password
US10540979B2 (en) * 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
CN104616655B (zh) 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
CN106373575B (zh) * 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172296A (ja) * 1998-12-08 2000-06-23 Matsushita Electric Ind Co Ltd 話者照合装置および電子メールシステム
JP2002244697A (ja) * 2001-02-16 2002-08-30 Casio Comput Co Ltd 音声認証装置、音声認証方法、及びプログラム
JP2003076390A (ja) * 2001-08-31 2003-03-14 Fujitsu Ltd 話者認証システム及び方法
JP2005512246A (ja) * 2001-12-12 2005-04-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム
JP2005091758A (ja) * 2003-09-17 2005-04-07 Seiichi Nakagawa 話者認識システム及び方法
JP2005128307A (ja) * 2003-10-24 2005-05-19 Aruze Corp 声紋認証システム

Also Published As

Publication number Publication date
JP6502512B2 (ja) 2019-04-17
EP3255631A4 (en) 2018-09-19
WO2016123900A1 (zh) 2016-08-11
US20170365259A1 (en) 2017-12-21
EP3255631A1 (en) 2017-12-13
US10540980B2 (en) 2020-01-21
EP3255631B1 (en) 2021-09-01
CN104616655A (zh) 2015-05-13
KR101963993B1 (ko) 2019-03-29
KR20170105034A (ko) 2017-09-18
CN104616655B (zh) 2018-01-16

Similar Documents

Publication Publication Date Title
JP6502512B2 (ja) 動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法
JP6429945B2 (ja) 音声データを処理するための方法及び装置
US10978047B2 (en) Method and apparatus for recognizing speech
CN111739521B (zh) 电子设备唤醒方法、装置、电子设备及存储介质
US11189262B2 (en) Method and apparatus for generating model
US9047868B1 (en) Language model data collection
CN111883140B (zh) 基于知识图谱和声纹识别的认证方法、装置、设备及介质
CN111355781B (zh) 一种语音信息交流的管理方法、装置和存储介质
WO2022178969A1 (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
JP7485858B2 (ja) 実世界ノイズを使用した音声個性化および連合訓練
US11048702B1 (en) Query answering
CN110634472A (zh) 一种语音识别方法、服务器及计算机可读存储介质
US20180308501A1 (en) Multi speaker attribution using personal grammar detection
KR20230116886A (ko) 페이크 오디오 검출을 위한 자기 지도형 음성 표현
CN113851136A (zh) 基于聚类的说话人识别方法、装置、设备及存储介质
US10522135B2 (en) System and method for segmenting audio files for transcription
US20180342240A1 (en) System and method for assessing audio files for transcription services
US10418024B1 (en) Systems and methods of speech generation for target user given limited data
CN112306560B (zh) 用于唤醒电子设备的方法和装置
US11514920B2 (en) Method and system for determining speaker-user of voice-controllable device
CN117334201A (zh) 一种声音识别方法、装置、设备以及介质
CN115116426A (zh) 语音生成方法、装置、电子设备及存储介质
CN116822531A (zh) 一种话术库构建方法、装置、存储介质及电子设备
CN114201580A (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
Yang A Real-Time Speech Processing System for Medical Conversations

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190320

R150 Certificate of patent or registration of utility model

Ref document number: 6502512

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250