JP6502512B2

JP6502512B2 - 動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法

Info

Publication number: JP6502512B2
Application number: JP2017539339A
Authority: JP
Inventors: ▲鄭▼方; ▲ウー▼▲シャオ▼▲鈞▼; 李▲藍▼天; 王▲剛▼; 王小▲鋼▼; ▲劉▼▲楽▼
Original assignee: Beijing D Ear Technologies Co Ltd
Current assignee: Beijing D Ear Technologies Co Ltd
Priority date: 2015-02-05
Filing date: 2015-07-08
Publication date: 2019-04-17
Anticipated expiration: 2035-07-08
Also published as: KR101963993B1; US10540980B2; WO2016123900A1; JP2018509649A; US20170365259A1; EP3255631A4; CN104616655A; CN104616655B; KR20170105034A; EP3255631A1; EP3255631B1

Description

本発明は、動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法に関し、コンピュータ及び情報サービス分野に属する。

話者認識技術は声紋認識技術とも呼ばれる。話者認識技術は、主に音声に含まれた話者の個人性特徴を表現できる情報に基づいて、コンピュータや様々な情報認識の技術を用いて、話者の身分認証を自動的に実現するものである。

近年、インターネットの急速な発展と携帯端末装置の幅広い普及に伴い、高速で便利なモバイルネットワークサービスが人々の生活様式に深く影響を与え、人々の生活様式を変えている。モバイルネットワークサービスを安全かつ確実に推進するために、最初に解決すべき課題は如何にユーザの身分認証を行うことである。

ユーザの身分認証に話者認識システムを使う研究は、数年を経ており、声紋モデルは、一連の音声に含まれた話者の身分を一意的に特定できる特徴パラメータにより構成されたものである。図１５には、代表的な話者認識システムのフレームワークを示す。

音声は非接触型情報媒体の一種であり、人々は様々な携帯端末装置（例えば携帯電話のマイクやＩＰ電話など）で音声を随時随所に採集している。音声における声紋情報に基づいて、ネットワークによる伝送やバックグラウンドサーバの応答により、マンマシンインタラクションと身分認証は実現されている。よって、近年、話者認識技術は急速に発展し、実環境において幅広く適用されている。

既存の生体認証技術では、パターン識別分野におけるテンプレートマッチング方法を採用して識別・認証を行うのが一般的である。つまり、ユーザが予め登録したモデルと実際の認証待ちのモデルとを比較し、両者の相似度が予め設定された閾値に達した場合には、認証成功とし、それ以外の場合には、認証失敗とする。

上記したような単一モデルマッチング方式には、以下の２つの課題がある。

（１）話者認識技術では、ユーザが提供したトレーニング音声とテスト音声のテキストが一意に固定であれば、識別効率が高くなるが、この場合、ユーザの音声が窃取、盗用されると、システムの安全性が低くなってしまう。逆に、ユーザが提供したテスト音声のテキストが固定でなければ、システムの安全性が高くなるが、この場合、トレーニング音声とテキスト多変音声とはテキスト音素空間で差異が存在するため、システムの認識性能が大幅に低下し、システムの応用と推進には不利である。

（２）時間の経過に伴い、人の声道モデルと発音特徴、録音装置の精度と忠実度は変化する。生理学の観点から、人の生理的特徴と発音特徴は時間の経過に伴って変化していく。例えば、声道長、基音周波数などは時間の経過に伴って絶えず変化していく。なお、録音用の通信装置、携帯端末は使用時間の経過に伴い、装置の劣化、信号の不安定などの事象が発生し、ある程度で録音の精度と忠実度にも影響を与える。上記した状況を纏めると、時間の経過に起因する不確実性により、安定かつロバストな声紋モデルを得ることができない。システムの認識正確率も、時間の経過に伴い、明らかに低下していくことになる。

本発明は、上記した課題に鑑みてなされたものであって、動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法を提供することにより、上記した課題を効果的に解決することを目的とする。

本発明は、要求者がクライアントを介してサーバに送信した身分認証要求を受け付ける要求受付モジュールと、動的パスワードを生成し、当該動的パスワードを前記クライアントへ送信する動的パスワード生成モジュールと、前記クライアントから送信されてきた当該要求者が前記動的パスワードを読み上げた時のパスワード音声信号に基づいて、グローバルキャラクター音響モデルとユーザ声紋モデルで当該要求者の身分総合信頼度を算出し、算出した前記身分総合信頼度に基づいて当該要求者の身分を判定し、身分認証結果を前記クライアントに返却する身分認証モジュールとを備え、声紋モデル自動再構築サブシステムを有し、前記身分認証結果は当該要求者が前記サーバのユーザである場合に、当該声紋モデル自動再構築サブシステムにより、前記ユーザ声紋モデルを再構築するようにしており、前記声紋モデル自動再構築サブシステムは、時間をラベルとして各ユーザの音声データを蓄積するための時変データ蓄積手段と、前記パスワード音声信号を最新の音声データとして前記時変データ蓄積手段に蓄積するための時変データ更新モジュールと、時間ラベル順に従って前記時変データ蓄積手段から前記ユーザの音声データを抽出し、複数のグループの音声データを含む時間窓パイプを構築し、前記最新の音声データを使用して当該時間窓パイプに含まれている音声データを更新する時間窓パイプ構築モジュールと、更新された前記時間窓パイプに含まれている前記複数のグループの音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する声紋モデル再構築モジュールと、を備えることを特徴とする、動的パスワード音声に基づいた自己学習機能を有する身分認証システムを提供する。

また、本発明は、要求者がクライアントを介してサーバに送信した身分認証要求を受け付ける要求受付ステップと、動的パスワードを生成し、当該動的パスワードを前記クライアントへ送信する動的パスワード生成ステップと、前記クライアントから送信されてきた、当該要求者が前記動的パスワードを読み上げた時のパスワード音声信号に基づいて、グローバルキャラクター音響モデルとユーザ声紋モデルで当該要求者の身分総合信頼度を算出し、算出した前記身分総合信頼度に基づいて当該要求者の身分を判定し、身分認証結果を前記クライアントに返却する身分認証ステップとを備え、前記身分認証結果は当該要求者が前記サーバのユーザである場合に、時間をラベルとして各ユーザの音声データを蓄積する時変データ蓄積手段に、前記パスワード音声信号を最新の音声データとして蓄積する時変データ蓄積ステップと、時間ラベル順に従って前記時変データ蓄積手段から前記ユーザの音声データを抽出し、複数のグループの音声データを含む時間窓パイプを構築し、前記最新の音声データを使用して当該時間窓パイプに含まれている音声データを更新する時間窓パイプ構築ステップと、更新された前記時間窓パイプに含まれている前記複数のグループの音声データを使用して、当該ユーザのユーザ声紋モデルを再構築するモデル再構築ステップと、をさらに実行することを特徴とする、動的パスワード音声に基づいた自己学習機能を有する身分認証方法をも提供する。

本発明によれば、安全で確実な二重身分認証システム及び方法を提供することができ、身分認証の精度を効果的に向上させることができ、そして自己学習機能を持たせることができる。

第１の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証システムの模式図である。動的パスワードの生成処理を説明するための図である。動的パスワード音声に基づた身分認証処理を実行するときの処理フローを示すフローチャートである。時間窓管理モデルの模式図である。時間窓管理の一応用例を示す図である。第１の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証の方法のフローチャートである。第２の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証システムの模式図である。第２の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証の方法のフローチャートである。第３の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証システムの模式図である。数字モデルの空間分布の模式図である。第３の実施形態に係る時変データ蓄積手段の蓄積フレームワークの模式図である。第３の実施形態における時間窓パイプを更新するときの処理フローを示すフローチャートである。第３の実施形態における時間窓パイプを更新するときの処理を模式化に示す模式図である。音声データに対するパラメータ化処理の一例の模式図である。代表的な話者認識システムの模式図である。

以下に、本発明の具体的な実施形態について図面を参照しながら説明する。

（第１の実施形態）
図１は、第１の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証システム１（以下、単に「身分認証システム１」という）の模式図である。身分認証システム１は、要求受付モジュール１１と、ユーザ声紋モデル生成モジュール１２と、動的パスワード生成モジュール１３と、身分認証モジュール１４と、声紋モデル蓄積手段１５を備えるとともに、声紋モデル自動再構築サブシステム２０を有する。

要求受付モジュール１１は、要求者がクライアント２を介してサーバに送信した身分認証要求を受け付ける。要求受付モジュール１１により要求者と身分認証システム１との対話を確立することで、身分認証システム１は要求者からの身分認証要求に応答することができ、後続処理のための準備を行うことができる。要求者と身分認証システム１との対話はローカル又はリモートサービスに使用可能である。クライアント２は、身分認証システム１と有線又は無線で接続可能である。実際の運用において、例えば、ユーザは予めクライアント２でユーザ名、ログインパスワードなどの情報を入力して、ログイン又は登録を行う。ユーザは、ログイン成功した後に、身分認証システム１との対話を行うことにより、声紋登録又は声紋身分認証を行うことができる。

身分認証システム１は、ユーザの初回ログイン時に、ユーザに対して、ユーザ声紋モデルの構築に用いられるモデル構築音声の登録を要求する。身分認証システム１が、ユーザに対してモデル構築音声の登録を要求する際に、所定の文字列をクライアント２に送信し、ユーザが前記所定の文字列に含まれている全ての文字を読み上げる場合、クライアント２はユーザの音声を取得し、取得した音声、すなわちユーザが登録しようとするモデル構築音声を身分認証システム１へ送信することが好ましい。ユーザ声紋モデル生成モジュール１２は、受信したユーザの登録したモデル構築音声に基づき、当該ユーザのユーザ声紋モデルを構築し、当該ユーザのユーザ声紋モデルを声紋モデル蓄積手段１５に蓄積する。ユーザ声紋モデル生成モジュール１２は、ユーザが登録したモデル構築音声に基づいて、自己適応の手法を採用してグローバルキャラクター音響モデルでトレーニングして前記ユーザ声紋モデルを得てもよい。

前記グローバルキャラクター音響モデルは、多数人からの前記所定の文字列の各文字の文字発音に基づいて、例えばガウス混合モデル（ＧＭＭ、ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）や、サポートベクターマシン（ＳＶＭ、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）や、人工ニューラルネットワーク（ＡＮＮ、ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）などの方法を採用して、自己適応によるトレーニングを行うことで得られたものである。前記自己適応は、例えば最尤線形回帰（ＭＬＬＲ）アルゴリズム又は最大事後確率（ＭＡＰ）アルゴリズムにより実現される。

前記所定の文字列に含まれている文字音素を、文字に基づいた音素空間において均等分布させることが好ましい。これにより、ユーザ声紋モデルの精度を効果的に向上させることができる。

声紋モデル蓄積手段１５は、各ユーザのユーザ声紋モデルを蓄積するためのものである。声紋モデル蓄積手段１５には、各ユーザのユーザ声紋モデルがユーザ（ユーザＩＤ）と関連付けられて蓄積されている。声紋モデル蓄積手段１５は、例えばデータベースであるが、データベースに限らず、各ユーザのユーザ声紋モデルをユーザと関連付けて蓄積可能であれば、その他のデータ蓄積形態であってもよい。

要求受付モジュール１１が、クライアント２を介して要求者から送信した身分認証要求を受け付けた後、動的パスワード生成モジュール１３は、動的パスワードを生成し、当該動的パスワードを当該クライアント２へ送信する。動的パスワードの生成は既知のパスワード生成技術で実現可能である。

例えば、身分認証システム１には、例えば英字アルファベット、アラビア数字などを含むグローバルキャラクターコード集が予め設定されている。図２に示したように、グローバルキャラクターコード集には、文字と文字発音が関連付けられて文字１〜Ｎの動的パスワード音響モデルが格納されている。動的パスワード生成モジュール１３は、動的パスワードを生成するときに、当該グローバルキャラクターコード集からパスワード文字１〜Ｍ（ＭはＮ以下である）をランダムに抽出して、当該パスワード文字１〜Ｍで動的パスワードを構成する。この場合、ランダムに抽出されたパスワード文字１〜Ｍは、異なる文字に限らない。ランダムに抽出されたパスワード文字のため、ランダムに抽出されたパスワード文字１〜Ｍには、同一パスワード文字が一つ又は複数存在する可能性がある。例えば「１３１３」のような同一パスワード文字が複数存在する動的パスワードが生成される可能性があるし、「１２３４」のような同一パスワード文字が一つしか存在しない動的パスワードが生成される可能性がある。本発明では、特に限定せず、動的パスワードを生成するためのパスワード文字はランダムに抽出されたものであればよい。

動的パスワード生成モジュール１３は、動的パスワードを生成した後、当該動的パスワードをクライアント２へ送信する。動的パスワード生成モジュール１３は、テキスト、画像、動画、オーディオ、又は暗号化されたバイナリデータなどの形式で当該動的パスワードをクライアント２に送信してもよい。クライアント２は、動的パスワードを受信すると、クライアント２のディスプレイ又はスピーカーなどの出力手段で当該動的パスワードを表示又は再生させる。要求者は、表示又は再生された当該動的パスワードを読み上げる。このとき、当該クライアント２は、要求者が当該動的パスワードを読み上げた時のパスワード音声信号を取得し、当該パスワード音声信号を身分認証システム１に送信する。グローバルキャラクターコード集には、文字に加えて、各文字と対応付けられた文字発音も格納されているため、本発明では、テキストや画像や動画などの可視化の方式で動的パスワードを表示できるだけでなく、グローバルキャラクターコード集に格納されている文字発音に基づいて、動的パスワード生成モジュール１３により動的パスワードと対応付けられるオーディオを生成し、オーディオの方式で動的パスワードをクライアント２に送信することもできる。この場合、クライアント２は、当該オーディオを再生することにより、要求者に対して受信した動的パスワードを出力することができる。

身分認証モジュール１４は、クライアント２から送信されてきたパスワード音声信号に基づいて、グローバルキャラクター音響モデルとユーザ声紋モデルで身分総合信頼度ＣＬを算出し、算出した身分総合信頼度ＣＬに基づいて当該要求者の身分を判定し、身分認証結果をクライアント２に返却する。

身分認証モジュール１４は、声紋モデル蓄積手段１５から当該ユーザのユーザ声紋モデルを抽出し、受信した当該パスワード音声信号をｎフレームの音声データＸ_ｉに分割する。ここで、ｉ＝１、２、・・・、ｎであり、ｎは１よりも大きい正の整数である。

式（２）において、μ_p、δ_pはそれぞれ当該ユーザのユーザ声紋モデルに対する平均値、分散パラメータであり、μ_oa、δ_oaはそれぞれグローバルキャラクター音響モデルに対する平均値、分散パラメータであり、log p(・)は尤度関数である。

次に、身分認証モジュール１４は以下の式（４）で身分総合信頼度ＣＬを算出する。

次に、身分認証モジュール１４は、算出した身分総合信頼度ＣＬが予め設定された信頼度閾値以上であるか否かを判定する。身分総合信頼度ＣＬが予め設定された信頼度閾値以上である場合には、当該要求者がサーバのユーザであることを身分認証結果とし、当該身分認証結果をクライアント２に返却することにより、当該要求者のサーバへのアクセスを許可する。それ以外の場合には、当該要求者がサーバのユーザでないことを身分認証結果とし、当該身分認証結果をクライアント２に返却することにより、当該要求者のサーバへのアクセスを拒否する。

身分認証システム１が上記した身分認証処理を実行するときの処理フローについては、図３を参照しながら、例を挙げて説明する。図３に示した例では、０〜９の十の数字をグローバルキャラクターコード集とする。

ステップＳ１０１：要求者Ａ’が正しいユーザＩＤとログインパスワードを入力することによりログインしたとする。要求受付モジュール１１は要求者Ａ’がクライアント２を介して身分認証システム１に送信した身分認証要求を受け付けて、要求者Ａ’と身分認証システム１との対話を確立する。この場合、要求者Ａ’がユーザＡの身分で身分認証を要求しているとする。

ステップＳ１０２：動的パスワード生成モジュール１３は、予め設定されたグローバルキャラクターコード集からいくつかの文字をランダムに抽出して動的パスワードを構成し、当該動的パスワードを要求者Ａ’のクライアント２に送信する。例えば、ここで、動的パスワード生成モジュール１３は、「１」「３」「５」「８」の４つの数字をランダムに抽出して動的パスワード「１３５８」を構成し、要求者Ａ’のクライアント２に当該動的パスワードを送信したとする。

ステップＳ１０３：クライアント２は当該動的パスワード「１３５８」を表示させ、要求者Ａ’は当該動的パスワードを読み上げる。このとき、クライアント２は要求者Ａ’が当該動的パスワードを読み上げた時の音声を取得し、取得した音声をパスワード音声信号の形式で身分認証システム１に送信する。

ステップＳ１０４：身分認証モジュール１４は、声紋モデル蓄積手段１５からユーザＡのユーザ声紋モデルを抽出し、受信した要求者Ａ’のパスワード音声信号をいくつかのフレームの音声データに分ける。例えば、１０個のフレームの音声データＸ_１、Ｘ_２、・・・、Ｘ_１０に分けたとする。

ステップＳ１０７：身分認証モジュール１４は、上記した式（４）で要求者Ａ’の身分総合信頼度ＣＬを算出する。

ステップＳ１０８：身分認証モジュール１４は、算出した身分総合信頼度ＣＬが予め設定された信頼度閾値以上であるか否かを判定し、身分総合信頼度ＣＬが予め設定された信頼度閾値以上である場合には、ステップＳ１０９に移行し、それ以外の場合には、ステップＳ１１０に移行する。

ステップＳ１０９：身分総合信頼度ＣＬが予め設定された信頼度閾値以上であるため、身分認証結果は要求者Ａ’がサーバのユーザＡであることとなる。身分認証システム１は当該身分認証結果をクライアント２に返却することにより、要求者Ａ’がユーザＡの身分でサーバへアクセスすることを許可する。

ステップＳ１１０：身分総合信頼度ＣＬが予め設定された信頼度閾値より小さいため、身分認証結果は要求者Ａ’がサーバのユーザＡでないこととなる。身分認証システム１は当該身分認証結果をクライアント２に返却することにより、要求者Ａ’がユーザＡの身分でサーバへアクセスすることを拒否する。

さらに、時間の経過による身分認証結果の正確性への影響を解消するために、本発明の身分認証システム１は、さらにユーザ声紋モデルを再構築するための声紋モデル自動再構築サブシステム２０も有する。以下、当該声紋モデル自動再構築サブシステム２０を詳しく説明する。

図１に示したように、身分認証結果は要求者がサーバのユーザである場合（すなわち認証成功の場合）には、声紋モデル自動再構築サブシステム２０は、クライアント２から身分認証システム１に送信されてきたパスワード音声信号を取得する。かつ、身分認証結果は要求者がサーバのユーザである場合（すなわち認証成功の場合）のみ、当該声紋モデル自動再構築サブシステム２０は動作する。

第１の実施形態において、声紋モデル自動再構築サブシステム２０は、時変データ蓄積手段２１と、時変データ更新モジュール２３と、時間窓パイプ構築モジュール２４と、声紋モデル再構築モジュール２５とを備える。

時変な音声データを適切に蓄積し表示することは本発明を実現するための鍵であるため、時変データ蓄積手段の設計と蓄積の方法は極めて重要なことである。本発明は、時間をラベルとして時変データ蓄積手段２１を構築するとともに、時変データ蓄積手段２１に時間をラベルとして各ユーザの各時点の音声データを蓄積するように構成されている。時変データ蓄積手段２１は例えばデータベースであるが、データベースに限らず、時間をラベルとして各ユーザの各時点の音声データを蓄積可能であればよく、その他のデータ蓄積形態でもよい。

声紋モデル自動再構築サブシステム２０がパスワード音声信号を受信した後、時変データ更新モジュール２３は、時間をラベルとしてユーザの音声データを蓄積する時変データ蓄積手段２１に、当該受信したパスワード音声信号を最新の音声データとして蓄積する。

さらに、時間窓パイプ構築モジュール２４は、時間ラベル順に従って時変データ蓄積手段２１から当該ユーザの音声データを抽出して、複数のグループの音声データを含む時間窓パイプを構築し、前記最新の音声データを使用して当該時間窓パイプに含まれている音声データを更新する。図４には、前記時間窓パイプのモデルが示されており、当該時間窓パイプのモデルは、１つの時間窓パイプを基本構造とし、時間軸を変位の手がかりとして、時間の経過に伴い、時間窓パイプを時間軸の方向に沿って順次に推移して、リアルタイムで得られた最新の音声データを当該時間窓パイプにプッシュするとともに、過去の時間帯の音声データを当該時間窓パイプから取り除くように構成されており、当該時間窓パイプには複数のグループの音声データが含まれている。

図５には、時間窓パイプの応用例が示されている。図５に示したように、例えば、現在の時間窓パイプには、２０１４年１月５日、２０１４年１月２６日、２０１４年２月３日および２０１４年２月２７日をラベルとした４グループの音声データが含まれている。２０１４年３月９日に最新のユーザ音声データを取得できたため、時間窓パイプ構築モジュール２４は、２０１４年３月９日をラベルとする最新の音声データを時間窓パイプにプッシュするとともに、過去の時間帯である２０１４年１月５日をラベルとした音声データを時間窓パイプから取り除くように、時間窓パイプに含まれている音声データを更新する。図５に示した時間窓パイプに含まれている音声データのグループの数は、一例であり、実際の運用において、時間窓パイプに含まれる音声データのグループの数は具体的な状況に応じて設定可能である。

続いて、声紋モデル再構築モジュール２５は、更新された時間窓パイプに含まれている複数のグループの音声データを使用して、当該ユーザのユーザ声紋モデルを再構築し、再構築した当該ユーザのユーザ声紋モデルを声紋モデル蓄積手段１５に更新する。

このように、その後に身分認証を行うときに、身分認証システム１は、声紋モデル蓄積手段１５から最新のユーザ声紋モデルを取得するとともに、最新のユーザ声紋モデルで身分総合信頼度ＣＬを算出することができる。時間の経過に伴い、ユーザ自身の生理的特徴と発音特徴が変化し、ハードウェアが劣化し、録音装置の忠実度が低下していくが、本発明によれば、時間窓パイプモデルを構築することによりユーザ声紋モデルを動的に再構築することで、ユーザの発音特徴をリアルタイムに追跡することができ、ユーザ声紋モデルの精度を効果的に向上させることができ、身分認証の精度を向上させることができる。

図６には、第１の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証の方法のフローが示されている。

ステップＳ２０１：要求者がクライアントを介してサーバに送信した身分認証要求を受け付ける。

ステップＳ２０２：動的パスワードを生成し、当該動的パスワードをクライアントに送信する。

ステップＳ２０３：クライアントから送信されてきた、当該要求者が前記動的パスワード読み上げた時のパスワード音声信号に基づいて、グローバルキャラクター音響モデルとユーザ声紋モデルで当該要求者の身分総合信頼度ＣＬを算出する。

ステップＳ２０４：算出した身分総合信頼度ＣＬに基づいて、当該要求者の身分を判定し、身分認証結果をクライアントに返却する。

ステップＳ２０５：身分認証結果は当該要求者がサーバのユーザである場合には、ステップＳ２０６に移行し、それ以外の場合には、処理を終了する。

ステップＳ２０６：時間をラベルとして各ユーザの音声データを蓄積する時変データ蓄積手段に、前記パスワード音声信号を最新の音声データとして蓄積する。

ステップＳ２０７：時間ラベル順に従って時変データ蓄積手段から当該ユーザの音声データを抽出し、複数のグループの音声データを含む時間窓パイプを構築し、前記最新の音声データを使用して当該時間窓パイプに含まれている音声データを更新する（最新の音声データをプッシュし、過去の時間帯の音声データを取り除く）。

ステップＳ２０８：更新された時間窓パイプに含まれている複数のグループの音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する。

本発明の第１の実施形態によれば、パスワード内容信頼度平均値と要求者身分音声信頼度平均値とを組み合わせて身分総合信頼度を求め、当該身分総合信頼度を利用して動的パスワード音声に基づく身分認証を行うことにより、動的パスワード内容を確認できるとともに、話者の声紋を確認できる二重身分認証システムと方法を提供することができ、身分認証の安全性と信頼性を向上させることができる。なお、本発明の第１の実施形態によれば、時間変化に基づく時変データ蓄積手段を構築するとともに、時間によって変化する複数のグループのユーザの音声データを含む時間窓パイプモデルを構築して、当該時間窓パイプモデルでユーザ声紋モデルを動的に再構築することにより、身分認証の精度を効果的に向上させることができ、自己学習機能を持たせることができる。

（第２の実施形態）
図７には、第２の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証システム１０（以下、単に「身分認証システム１０」という）の模式図である。第１の実施形態と同一の構成要素には同一の符号を付して詳細な説明を省略する。

第２の実施形態は以下の点で第１の実施形態と異なる。すなわち、声紋モデル自動再構築サブシステム２００は、前記パスワード音声信号である音声データに対してパラメータ化処理を実行することにより、最新のパラメータ化音声データである話者の個人性情報を表現できる特徴パラメータを得るための音声データパラメータ化モジュール２２をさらに備え、時変データ更新モジュール２３は、最新のパラメータ化音声データを使用して時変データ蓄積手段２１を更新し、時変データ蓄積手段２１には、時間をラベルとしてパラメータ化音声データが蓄積され、時間窓パイプ構築モジュール２４は、パラメータ化音声データを使用して複数のグループのパラメータ化音声データを含む時間窓パイプを構築し、最新のパラメータ化音声データを使用して当該時間窓パイプに含まれているパラメータ化音声データを更新し、声紋モデル再構築モジュール２５は、更新された時間窓パイプに含まれている複数のグループのパラメータ化音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する。

すなわち、第２の実施形態では、ユーザの音声データ（パスワード音声信号）を取得した後に、音声データパラメータ化モジュール２２により当該音声データに対してパラメータ化処理を実行し、後続処理において当該パラメータ化処理で得られたパラメータ化音声データを使用する。

ユーザの音声データをそのまま時変データ蓄積手段２１に蓄積する場合、蓄積しにくいだけでなく、大量の記憶領域が必要となり、蓄積手段のメンテナンスと持続的な蓄積に不利となる。よって、音声データパラメータ化モジュール２２によりフレーム毎に音声データに対してパラメータ化処理を実行することで、話者の個人性情報を表現できる特徴パラメータであるパラメータ化音声データ（すなわちパラメータ化された音声データ）を得ることが好ましい。

音声データパラメータ化モジュール２２は、パラメータ化処理を実行する前に、音声データに対して音声区間検出（ＶＡＤ、ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）を行うことが好ましい。これにより、音声データのうちの無音部分を削除するとともに、ノイズによる影響を低減させ、音声データのサイズを減少させることができる。音声データパラメータ化モジュール２２は、上記した音声区間検出を行った後に、残された音声データに対してパラメータ化処理を実行することにより、パラメータ化音声データを得る。これにより、音声データを蓄積するための記憶領域をさらに節約することができる。

音声データパラメータ化モジュール２２は、音声データに対してパラメータ化処理を実行するときに、特徴パラメータとしてメル周波数ケプストラム係数ＭＦＣＣを採用し、かつゼロ次のＭＦＣＣ特徴のみ蓄積することが好ましい。これにより、音声信号の次元削減を図り、音声データを蓄積するための記憶領域を節約することができる。後続処理を実行するときには、以下の式（５）でゼロ次のＭＦＣＣ特徴から対応する１次差分と２次差分特徴へ変換することができる。

式（５）において、pFrame[i]はパラメータ化音声データフレームであり、f₁[i]、f₂[i]はそれぞれ第ｉ番目フレームの音声データの１つ前のフレームと２つ前のフレームの特徴値であり、b₁[i]、b₂[i]はそれぞれ第ｉ番目フレームの音声の１つ後ろのフレームと２つ後ろの特徴値である。

図１４に示したように、サイズが１Ｍｂであるｗａｖ形式の原音声データを例として挙げると、まず、１Ｍｂの原音声データに対して音声区間検出を行うことにより、原音声データのうちの無音部分を削除するとともにノイズによる影響を低減させることで、６００Ｋｂの有効音声データを得る。次に、特徴パラメータとしてメル周波数ケプストラム係数ＭＦＣＣを採用して、フレーム毎に６００Ｋｂの音声データに対してパラメータ化処理を実行することにより、１４０Ｋｂのパラメータ化音声データを得る。原音声データに比べて、約９０％の記憶領域を節約することができる。

時変データ更新モジュール２３は、時間をラベルとしてユーザのパラメータ化音声データを蓄積する時変データ蓄積手段２１に、最新のパラメータ化音声データを蓄積する。

時間窓パイプ構築モジュール２４は、時間ラベル順に従って時変データ蓄積手段２１から当該ユーザのパラメータ化音声データを抽出し、複数のグループのパラメータ化音声データを含む時間窓パイプを構築し、前記最新のパラメータ化音声データを使用して当該時間窓パイプに含まれているパラメータ化音声データを更新する。時間窓パイプ構築モジュール２４が時間窓パイプを構築し更新する処理は、ユーザの音声データをそのまま使用せずにパラメータ化音声データを使用する点以外、第１の実施形態と同じである。

なお、声紋モデル再構築モジュール２５は、更新された時間窓パイプに含まれている複数のグループのパラメータ化音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する。

図８には、第２の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証の方法のフローが示されており、そのうち、ステップＳ２０１’〜Ｓ２０５’は第１の実施形態の図６のステップＳ２０１〜Ｓ２０５と同じものであるため、ステップＳ２０１’〜Ｓ２０５’についての説明を省略する。

ステップＳ２０６’：クライアントで取得したパスワード音声信号である音声データに対してパラメータ化処理を実行し、最新のパラメータ化音声データを取得する。

ステップＳ２０７’：時間をラベルとして各ユーザのパラメータ化音声データを蓄積する時変データ蓄積手段に、前記最新のパラメータ化音声データを蓄積する。

ステップＳ２０８’：時間ラベル順に従って時変データ蓄積手段から当該ユーザのパラメータ化音声データを抽出し、複数のグループのパラメータ化音声データを含む時間窓パイプを構築し、前記最新のパラメータ化音声データを使用して当該時間窓パイプに含まれているパラメータ化音声データを更新する（最新のパラメータ化音声データをプッシュし、過去の時間帯のパラメータ化音声データを取り除く）。

ステップＳ２０９’：更新された時間窓パイプに含まれている複数のグループのパラメータ化音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する。

本発明の第２の実施形態では、第１の実施形態に記載した技術を改善し、原音声データに対してパラメータ化処理を実行することにより、音声データを蓄積するための記憶領域を大幅に節約することができるとともに、後続処理においてもパラメータ化音声データを使用することにより、音声データを一時記憶するための記憶空間のサイズを削減することができる。

（第３の実施形態）
図９は、第３の実施形態に係る動的パスワード音声に基づいた自己学習機能を有する身分認証システム１００（以下、単に「身分認証システム１００」という）の模式図である。第１の実施形態及び第２の実施形態と同一の構成要素には同一の符号を付して詳細な説明を省略する。

第３の実施形態に係る身分認証システム１００は以下の点で第２の実施形態に係る身分認証システム１０と異なる。すなわち、身分認証システム１００の声紋モデル自動再構築サブシステム４００は、音声識別モジュール２６０をさらに備え、時変データ蓄積手段２１０には、最新のパラメータ化音声データに対応付けられている音素、および当該音素が対応付けられているフレーム区間がさらに蓄積され、時間窓パイプ構築モジュール２４０は、最新のパラメータ化音声データに対応付けられている音素に基づいて、時間窓パイプに含まれる複数のグループのパラメータ化音声データに対応付けられる音素が均等分布となるように、時間窓パイプに含まれているパラメータ化音声データを更新する。

例えば、０〜９の十の数字をグローバルキャラクターコード集とした場合、過去の時間帯で生成した動的パスワードに用いられていた数字の分布を考慮せず、ユーザ声紋モデルを再構築すると、再構築したユーザ声紋モデルには音素分布の不均等が発生する可能性があり、ひいては個別の数字に対する識別精度が低くなってしまい、身分認証の安定性に不利である。

図１０に示したように、数字の分布を考慮せず、単に動的パスワード「１３５８」によるパスワート音声信号に基づいてユーザ声紋モデルを再構築した場合には、今後、ユーザが「０」と「２」と「４」と「６」と「７」と「９」からなる動的パスワードを読み上げたときに、当該再構築したユーザ声紋モデルに基づいて身分総合信頼度ＣＬを算出する場合、精度が低くなる可能性がある。よって、本発明の第３の実施形態では、音素の分布状況をさらに判定する。

第３の実施形態の声紋モデル自動再構築サブシステム４００は、音声データにおける各フレームに対応付けられる音素を識別するための音声識別モジュール２６０をさらに備えており、これにより、音素とフレームとの対応関係を得られる。

具体的には、音声識別モジュール２６０は、パスワード音声信号である音声データにおける各フレームに対応付けられている音素を識別する。音声データパラメータ化モジュール２２により音声データに対してパラメータ化処理を行った後、時変データ更新モジュール２３は、パラメータ化音声データ（すなわち最新のパラメータ化音声データ）と、当該音声データの各フレームに対応付けられている音素（すなわち最新のパラメータ化音声データに対応付けられている音素）と、当該音素が対応付けられているフレーム区間（すなわち開始フレームフラグと終了フレームフラグ）とを時変データ蓄積手段２１０に蓄積する。

図１１には、時変データ蓄積手段２１０の蓄積方式が示されている。図１１に示したように、時変データ蓄積手段２１０には、木構造のデータ蓄積構造で、音素とフレーム区間とパラメータ化音声データとの三者が関連付けられて、音声識別モジュール２６０により識別された各音素と、各音素が対応付けられているフレーム区間と、各前記フレーム区間に対応付けられているパラメータ化音声データとが蓄積されている。このような木構造のデータ蓄積構造により、時変データ蓄積手段２１０の管理を行いやすく、検索とエラー検出を行いやすくなる。

第３の実施形態の時変データ蓄積手段２１０によれば、時間窓パイプを推移（更新）する度に、時間の経過を考慮するだけでなく、音素の分布状況も考慮している。すなわち、第３の実施形態において、時間窓パイプ構築モジュール２４０は、例えば以下の２種類の方式で時間窓パイプを更新してもよい。

第１の方式：
図１２（ａ）には、第１の方式による処理フローが示されている。ステップＳ３０１では、最新のパラメータ化音声データに対応付けられている音素を、時間窓パイプ内の最も古い（時間ラベルが最も古い）パラメータ化音声データに対応付けられている音素と比較して、最新のパラメータ化音声データに対応付けられている音素と、時間窓パイプ内の最も古いパラメータ化音声データに対応付けられている音素とのマッチング度を算出する。ステップＳ３０２では、前記マッチング度を判定し、前記マッチング度が所定のマッチング度以上である（例えば音素の９０％が一致する）場合には、ステップＳ３０３に移行し、それ以外の場合には、時間窓パイプに含まれているパラメータ化音声データを更新せず、処理を終了させる。ステップＳ３０３では、最新のパラメータ化音声データを時間窓パイプにプッシュするとともに、時間窓パイプから最も古いパラメータ化音声データを取り除く。

第１の方式は、時間窓パイプに含まれる複数のグループのパラメータ化音声データに対応付けられる音素が均等分布となるように、最新のパラメータ化音声データに対応付けられている音素と最も古いパラメータ化音声データに対応付けられている音素とのマッチング度が所定のマッチング度以上である場合のみ、時間窓パイプを更新するようにしている。

第２の方式：
図１２（ｂ）には、第２の方式による処理フローが示されている。ステップＳ４０１では、時間ラベルの古い順に従って、順次に時間窓パイプから一グループのパラメータ化音声データを仮に取り除く。ステップＳ４０２では、時間窓パイプに残された全てのパラメータ化音声データおよび最新のパラメータ化音声データに対応付けられている音素に基づいて、文字の音素分布によるバランス度を算出する。ステップＳ４０３では、前記バランス度を判定し、前記バランス度が所定のバランス度閾値以上である場合には、ステップＳ４０４に移行し、それ以外の場合には、ステップＳ４０５に移行する。ステップＳ４０４では、最新のパラメータ化音声データを時間窓パイプ（過去の時間帯のパラメータ化音声データがすでにステップＳ４０１で取り除かれた。）にプッシュし、処理を終了させる。ステップＳ４０５では、時間窓パイプを当初の状態に復元する、すなわちステップＳ４０１で仮に取り除かれた一グループのパラメータ化音声データを時間窓パイプに復元する。ステップＳ４０６では、時間窓パイプに含まれているパラメータ化音声データの全てについて仮取り除きを行われたかを判定し、仮取り除きが行われていないパラメータ化音声データが存在する場合には、ステップＳ４０１に戻し、時間ラベルの古い順に従って引き続き時間窓パイプから次の一グループのパラメータ化音声データを仮に取り除き、それ以外の場合には、時間窓パイプに含まれているパラメータ化音声データを更新せず、処理を終了させる。

第２の方式は、時間窓パイプに含まれる複数のグループのパラメータ化音声データに対応付けられる音素が均等分布となることを確保できる場合のみ、時間窓パイプを更新するようにしている。

上記した第１の方式と第２の方式のいずれを採用しても、最新のパラメータ化音声データに対応付けられている音素に基づいて、時間窓パイプに含まれる複数のグループのパラメータ化音声データに対応付けられる音素が均等分布となるように、時間窓パイプに含まれているパラメータ化音声データを更新するようになっている。図１３には、第３の実施形態における時間窓パイプを更新するときの処理を模式化に示されている。

なお、実際の運用状況に応じて、第１の方式又は第２の方式のいずれかを採用してもよく、まず第１の方式又は第２の方式で時間窓パイプの更新を試し、更新条件を満たさない（マッチング度又はバランス度が低い）ため、時間窓パイプを更新できなかった場合に、引き続き第２の方式又は第１の方式で時間窓パイプの更新を試すように、最新の音声データを最大限に活用してユーザ声紋モデルを再構築してもよい。

時間窓パイプから過去の時間帯のパラメータ化音声データを取り除くとき、時変データ蓄積手段２１０から当該過去の時間帯のパラメータ化音声データを削除することが好ましい。これにより、時変データ蓄積手段２１０のサイズが相対的に安定した状態で維持され、時変データ蓄積手段２１０のメンテナンスと管理に有利である。

次に、第２の実施形態と同様に、声紋モデル再構築モジュール２５は、更新された時間窓パイプに含まれている複数のグループのパラメータ化音声データを使用して、ユーザ声紋モデルを再構築し、再構築したユーザ声紋モデルを声紋モデル蓄積手段１５に更新する。

本発明の第３の実施形態では、第２の実施形態に記載した技術を改進し、音素の分布状況に基づいて時間窓パイプに含まれているパラメータ化音声データを更新することにより、ユーザ声紋モデルに音素分布の不均等が発生することを効果的に抑制することができ、ユーザ声紋モデルの精度を効果的に向上させることができ、身分認証の精度を向上させることができる。

（第４の実施形態）
第４の実施形態は以下の点で上記した第１、第２、第３の実施形態と異なる。すなわち、声紋モデル再構築モジュールは、さらに、時変データ蓄積手段に蓄積された音声データ（第１の実施形態）又はパラメータ化音声データ（第２の実施形態と第３の実施形態）の更新頻度によって、異なる手法を採用してユーザ声紋モデルを再構築する。

より正確なユーザ声紋モデルをトレーニングするために、ユーザの発音特徴をリアルタイムで追跡する必要がある。しかしながら、各ユーザのシステムの利用頻度が異なるため、時変データ蓄積手段に蓄積された音声データ又はパラメータ化音声データを更新する頻度が異なる。更新頻度（すなわちユーザがシステムを利用する頻度）を考慮せず、同一手法を採用してユーザ声紋モデルを再構築すると、再構築したユーザ声紋モデルの精度が相対的に低くなってしまう恐れがある。

このため、第４の実施形態では、ユーザのユーザ声紋モデルを再構築する際に、時変データ蓄積手段に蓄積された音声データ又はパラメータ化音声データの更新頻度を判定し、判定結果に基づいて異なる手法を採用して当該ユーザのユーザ声紋モデルを再構築する。

時変データ蓄積手段に蓄積された当該ユーザの音声データ又はパラメータ化音声データの更新頻度が所定の頻度未満の場合には、モデルの自己適応の手法を採用して当該ユーザのユーザ声紋モデルを再構築する。このように、少量の最新の音声データ又はパラメータ化音声データでユーザ声紋モデルを再構築することにより、トレーニング音声データが少ないといった課題を解決することができ、時変データ蓄積手段に蓄積されている音声データ又はパラメータ化音声データを最大限に活用することができる。なお、モデルの自己適応の手法を採用することにより、ユーザ声紋モデルを再構築するときの速度を向上させることができるため、より効率的な手法である。ここで、前記モデルの自己適応の手法とは、既存のユーザ声紋モデルで自己適応を行うことにより新しいユーザ声紋モデルを得るものである。

時変データ蓄積手段に蓄積された当該ユーザの音声データ又はパラメータ化音声データの更新頻度が所定の頻度以上の場合には、直接再トレーニングの手法を採用して当該ユーザのユーザ声紋モデルを再構築する。モデルの自己適応の手法に比べて、直接再トレーニングの手法を採用する場合には、モデルの自己適応を繰り返して実行することによりユーザ声紋モデルが不安定になる課題を回避することができ、また、直接再トレーニングの手法を採用することにより、より正確なユーザ声紋モデルを得ることができ、ユーザの現在の発音特徴をより正確に表現することができる。ここで、前記直接再トレーニングの手法とは、グローバルキャラクター音響モデルで自己適応を行うことにより新しいユーザ声紋モデルを得るものである。

前記自己適応は、例えば最尤線形回帰（ＭＬＬＲ）アルゴリズム又は最大事後確率（ＭＡＰ）アルゴリズムにより実現できる。

第４の実施形態では、実際の状況に応じて前記所定の頻度を設定してもよい。例えば、１週間を１周期とし、声紋モデル再構築モジュールは、あるユーザのユーザ声紋モデルを再構築するときに、まず１週間内に時変データ蓄積手段に更新された当該ユーザの音声データ又はパラメータ化音声データのグループ数を判定し、当該グループ数が１時間窓パイプの長さ（例えば１０グループ）以上である場合には、直接再トレーニングの手法を採用して当該ユーザのユーザ声紋モデルを再構築し、それ以外の場合には、モジュールの自己適応の手法を採用して当該ユーザのユーザ声紋モデルを再構築してもよい。

本発明の第４の実施形態によれば、ユーザの実際の利用頻度に応じて、適切な手法を採用してユーザの声紋モデルを再構築することができ、より正確なユーザ声紋モデルを再構築することができる。

本発明における各モジュールは、ハードウェア及び／又はソフトウェアにより実現してもよく、複数のモジュールを１つのモジュールとして結合てもよく、１つのモジュールを複数のモジュールに分割してもよい。結合又は分割で得られたモジュールは対応する機能を実現可能であればよい。本発明の第１から第４の実施形態に記載した技術を組み合わせて実施してもよく、これによりシステムの最適化を図ることができる。

なお、本発明における「クライアント」と「サーバ」は物理的に異なる装置であってもよく、同一の物理装置の異なるロジック処理ユニットであってもよい。前者の場合、例えば「クライアント」と「サーバ」はそれぞれユーザの携帯電話とモバイルサービス事業者のサーバであり、後者の場合、例えば「クライアント」はユーザの携帯電話で、「サーバ」はユーザの携帯電話に実装されている身分認証機能を実現するためのハードウェア及び／又はソフトフェアである。例えば、携帯電話の画面ロック解除機能を実現するために本発明を携帯電話に適用した場合には、「クライアント」と「サーバ」は同一の物理装置（携帯電話）の異なるロジック処理ユニットとなる。

以上、本発明のいくつかの実施形態を説明したが、これらの実施形態はあくまでも単に例であり、発明の範囲を限定することは意図していない。当業者にとっては、その他の様々な形態で実施することが可能であり、本発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができ、簡単な省略、同等な置き換え、明らかな変更によって得られた技術案も、本発明の特許請求に記載された発明の範囲に含まれるものである。

１、１０、１００動的パスワード音声に基づいた自己学習機能を有する身分認証システム
１１要求受付モジュール
１２ユーザ声紋モデル生成モジュール
１３動的パスワード生成モジュール
１４身分認証モジュール
１５声紋モデル蓄積手段
２０、２００、４００声紋モデル自動再構築サブシステム
２１、２１０時変データ蓄積手段
２２音声データパラメータ化モジュール
２３時変データ更新モジュール
２４、２４０時間窓パイプ構築モジュール
２５声紋モデル再構築モジュール
２６０音声識別モジュール

Claims

要求者がクライアントを介してサーバに送信した身分認証要求を受け付ける要求受付モジュールと、
動的パスワードを生成し、当該動的パスワードを前記クライアントへ送信する動的パスワード生成モジュールと、
前記クライアントから送信されてきた、前記要求者が前記動的パスワードを読み上げたときのパスワード音声信号に基づいて、グローバルキャラクター音響モデルとユーザ声紋モデルで前記要求者の身分総合信頼度を算出し、算出した前記身分総合信頼度に基づいて、当該要求者の身分を判定し、身分認証結果を前記クライアントに返却する身分認証モジュールと、
前記要求者が前記サーバのユーザであるとの前記身分認証結果である場合、前記ユーザ声紋モデルを再構築する声紋モデル自動再構築サブシステムと、を備え、
前記声紋モデル自動再構築サブシステムは、
時間をラベルとして各ユーザの音声データを蓄積する時変データ蓄積手段と、
前記パスワード音声信号を最新の音声データとして前記時変データ蓄積手段に蓄積する時変データ更新モジュールと、
時間ラベル順に従って前記時変データ蓄積手段から前記ユーザの音声データを抽出し、複数のグループの音声データを含む時間窓パイプを構築し、前記最新の音声データを使用して当該時間窓パイプに含まれている音声データを更新する時間窓パイプ構築モジュールと、
更新された前記時間窓パイプに含まれている前記複数のグループの音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する声紋モデル再構築モジュールと、を備える、
ことを特徴とする動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
前記声紋モデル自動再構築サブシステムは、前記パスワード音声信号である音声データに対してパラメータ化処理を実行することにより、最新のパラメータ化音声データを得るための音声データパラメータ化モジュールをさらに備え、
前記時変データ蓄積手段には、時間をラベルとして各ユーザのパラメータ化音声データが蓄積され、
前記時変データ更新モジュールは、前記最新のパラメータ化音声データを前記時変データ蓄積手段に蓄積し、
前記時間窓パイプ構築モジュールは、時間ラベル順に従って前記時変データ蓄積手段から前記ユーザのパラメータ化音声データを抽出し、複数のグループのパラメータ化音声データを含む時間窓パイプを構築し、前記最新のパラメータ化音声データを使用して当該時間窓パイプに含まれているパラメータ化音声データを更新し、
前記声紋モデル再構築モジュールは、更新された前記時間窓パイプに含まれている前記複数のグループのパラメータ化音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する、
ことを特徴とする請求項１に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
前記声紋モデル自動再構築サブシステムは、前記音声データにおける各フレームに対応付けられている音素を識別するための音声識別モジュールをさらに備え、
前記時変データ蓄積手段には、前記最新のパラメータ化音声データに対応付けられている音素、および当該音素が対応付けられているフレーム区間がさらに蓄積され、
前記時間窓パイプ構築モジュールは、前記最新のパラメータ化音声データに対応付けられている音素に基づいて、前記時間窓パイプに含まれる前記複数のグループのパラメータ化音声データに対応付けられる音素が均等分布となるように、前記時間窓パイプに含まれているパラメータ化音声データを更新する、
ことを特徴とする請求項２に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
前記時間窓パイプ構築モジュールは、前記最新のパラメータ化音声データに対応付けられている音素を、前記時間窓パイプ内の最も古いパラメータ化音声データに対応付けられている音素と比較し、両者のマッチング度が所定のマッチング度以上である場合には、前記最新のパラメータ化音声データを前記時間窓パイプにプッシュするとともに、前記時間窓パイプから前記最も古いパラメータ化音声データを取り除く、
ことを特徴とする請求項３に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
前記時間窓パイプ構築モジュールは、時間ラベルの古い順に従って、順次に前記時間窓パイプから一グループのパラメータ化音声データを仮に取り除き、前記時間窓パイプに残された全てのパラメータ化音声データおよび前記最新のパラメータ化音声データに基づき、文字の音素分布によるバランス度を算出し、
前記バランス度が所定のバランス度閾値以上である場合には、前記最新のパラメータ化音声データを前記時間窓パイプにプッシュし、それ以外の場合には、仮に取り除かれた前記一グループのパラメータ化音声データを前記時間窓パイプに復元するとともに、前記時間窓パイプに含まれているパラメータ化音声データの全てについて仮取り除きが行われるまで、あるいは前記最新のパラメータ化音声データが前記時間窓パイプにプッシュされるまで、引き続き前記時間窓パイプから次の一グループのパラメータ化音声データを仮に取り除き、前記時間窓パイプに残された全てのパラメータ化音声データおよび前記最新のパラメータ化音声データに基づき前記バランス度を再び算出する、
ことを特徴とする請求項３に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
前記時間窓パイプから過去の時間帯のパラメータ化音声データを取り除くとき、前記時変データ蓄積手段から当該過去の時間帯のパラメータ化音声データを削除する、
ことを特徴とする請求項４又は５に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
前記声紋モデル再構築モジュールは、前記時変データ蓄積手段に蓄積された当該ユーザの音声データの更新頻度を判定し、前記更新頻度が所定の頻度未満の場合には、モデルの自己適応の手法を採用して当該ユーザのユーザ声紋モデルを再構築し、それ以外の場合には、直接再トレーニングの手法を採用して当該ユーザのユーザ声紋モデルを再構築する、
ことを特徴とする請求項１に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
前記声紋モデル再構築モジュールは、前記時変データ蓄積手段に蓄積された当該ユーザのパラメータ化音声データの更新頻度を判定し、前記更新頻度が所定の頻度未満の場合には、モデルの自己適応の手法を採用して当該ユーザのユーザ声紋モデルを再構築し、それ以外の場合には、直接再トレーニングの手法を採用して当該ユーザのユーザ声紋モデルを再構築する、
ことを特徴とする請求項２又は３に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
前記音声データパラメータ化モジュールは、前記音声データに対して前記パラメータ化処理を実行する前に、前記音声データに対して音声端点検出を行う、
ことを特徴とする請求項２に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
前記音声データパラメータ化モジュールは、前記音声データに対して前記パラメータ化処理を実行するときに、特徴パラメータとしてメル周波数ケプストラム係数ＭＦＣＣを採用し、かつゼロ次のＭＦＣＣ特徴のみを蓄積する、
ことを特徴とする請求項２に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
前記身分認証モジュールは、以下の式で前記身分総合信頼度を算出することを特徴とする請求項１に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証システム。
要求者がクライアントを介してサーバに送信した身分認証要求を受け付ける要求受付ステップと、
動的パスワードを生成し、当該動的パスワードを前記クライアントへ送信する動的パスワード生成ステップと、
前記クライアントから送信されてきた、当該要求者が前記動的パスワードを読み上げた時のパスワード音声信号に基づいて、グローバルキャラクター音響モデルとユーザ声紋モデルで当該要求者の身分総合信頼度を算出し、算出した前記身分総合信頼度に基づいて、当該要求者の身分を判定し、身分認証結果を前記クライアントに返却する身分認証ステップと、を実行し、
当該要求者が前記サーバのユーザであるとの前記身分認証結果である場合、
時間をラベルとして各ユーザの音声データを蓄積する時変データ蓄積手段に、前記パスワード音声信号を最新の音声データとして蓄積する時変データ蓄積ステップと、
時間ラベル順に従って前記時変データ蓄積手段から前記ユーザの音声データを抽出し、複数のグループの音声データを含む時間窓パイプを構築し、前記最新の音声データを使用して当該時間窓パイプに含まれている音声データを更新する時間窓パイプ構築ステップと、
更新された前記時間窓パイプに含まれている前記複数のグループの音声データを使用して、当該ユーザのユーザ声紋モデルを再構築するモデル再構築ステップと、をさらに実行する、
ことを特徴とする動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
前記パスワード音声信号である音声データに対してパラメータ化処理を実行することにより、最新のパラメータ化音声データを得るパラメータ化ステップをさらに実行し、
前記時変データ蓄積ステップでは、時間をラベルとして各ユーザのパラメータ化音声データを蓄積する前記時変データ蓄積手段に、前記最新のパラメータ化音声データを蓄積し、
前記時間窓パイプ構築ステップでは、時間ラベル順に従って前記時変データ蓄積手段から前記ユーザのパラメータ化音声データを抽出し、複数のグループのパラメータ化音声データを含む時間窓パイプを構築し、前記最新のパラメータ化音声データを使用して当該時間窓パイプに含まれているパラメータ化音声データを更新し、
前記モデル再構築ステップでは、更新された前記時間窓パイプに含まれている前記複数のグループのパラメータ化音声データを使用して、当該ユーザのユーザ声紋モデルを再構築する、
ことを特徴とする請求項１２に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
前記音声データにおける各フレームに対応付けられている音素を識別する音声識別ステップをさらに実行し、
前記時変データ蓄積ステップでは、さらに前記最新のパラメータ化音声データに対応付けられている音素、および当該音素が対応付けられているフレーム区間を前記時変データ蓄積手段に蓄積し、
前記時間窓パイプ構築ステップでは、前記最新のパラメータ化音声データに対応付けられている音素に基づいて、前記時間窓パイプに含まれる前記複数のグループのパラメータ化音声データに対応付けられる音素が均等分布となるように、前記時間窓パイプに含まれているパラメータ化音声データを更新する、
ことを特徴とする請求項１３に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
前記時間窓パイプ構築ステップでは、前記最新のパラメータ化音声データに対応付けられている音素を、前記時間窓パイプ内の最も古いパラメータ化音声データに対応付けられている音素と比較し、両者のマッチング度が所定のマッチング度以上である場合には、前記最新のパラメータ化音声データを前記時間窓パイプにプッシュするとともに、前記時間窓パイプから前記最も古いパラメータ化音声データを取り除く、
ことを特徴とする請求項１４に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
前記時間窓パイプ構築ステップでは、時間ラベルの古い順に従って、順次に前記時間窓パイプから一グループのパラメータ化音声データを仮に取り除き、前記時間窓パイプに残された全てのパラメータ化音声データおよび前記最新のパラメータ化音声データに基づき、文字の音素散布によるバランス度を算出し、
前記バランス度が所定のバランス度閾値以上である場合には、前記最新のパラメータ化音声データを前記時間窓パイプにプッシュし、それ以外の場合には、仮に取り除かれた前記一グループのパラメータ化音声データを前記時間窓パイプに復元するとともに、前記時間窓パイプに含まれているパラメータ化音声データの全てについて仮取り除きを行われるまで、あるいは前記最新のパラメータ化音声データが前記時間窓パイプにプッシュされるまで、引き続き前記時間窓パイプから次の一グループのパラメータ化音声データを仮に取り除き、前記時間窓パイプに残された全てのパラメータ化音声データおよび前記最新のパラメータ化音声データに基づき前記バランス度を再び算出する、
ことを特徴とする請求項１４に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
前記時間窓パイプから過去の時間帯のパラメータ化音声データを取り除くとき、前記時変データ蓄積手段から当該過去の時間帯のパラメータ化音声データを削除する、
ことを特徴とする請求項１５又は１６に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
前記モデル再構築ステップでは、前記時変データ蓄積手段に蓄積された当該ユーザの音声データの更新頻度を判定し、前記更新頻度が所定の頻度未満の場合には、モデルの自己適応の手法を採用して当該ユーザのユーザ声紋モデルを再構築し、それ以外の場合には、直接再トレーニングの手法を採用して当該ユーザのユーザ声紋モデルを再構築する、
ことを特徴とする請求項１２に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
前記モデル再構築ステップでは、前記時変データ蓄積手段に蓄積された当該ユーザのパラメータ化音声データの更新頻度を判定し、前記更新頻度が所定の頻度未満の場合には、モデルの自己適応の手法を採用して当該ユーザのユーザ声紋モデルを再構築し、それ以外の場合には、直接再トレーニングの手法を採用して当該ユーザのユーザ声紋モデルを再構築する、
ことを特徴とする請求項１３又は１４に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
前記パラメータ化ステップでは、前記音声データに対して前記パラメータ化処理を実行する前に、前記音声データに対して音声端点検出を行う、
ことを特徴とする請求項１３に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
前記パラメータ化ステップでは、前記音声データに対して前記パラメータ化処理を実行するときに、特徴パラメータとしてメル周波数ケプストラム係数ＭＦＣＣを採用し、かつゼロ次のＭＦＣＣ特徴のみを蓄積する、
ことを特徴とする請求項１３に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。
前記身分認証ステップでは、以下の式で前記身分総合信頼度を算出することを特徴とする請求項１２に記載の動的パスワード音声に基づいた自己学習機能を有する身分認証方法。