JP6429945B2 - 音声データを処理するための方法及び装置 - Google Patents

音声データを処理するための方法及び装置 Download PDF

Info

Publication number
JP6429945B2
JP6429945B2 JP2017109505A JP2017109505A JP6429945B2 JP 6429945 B2 JP6429945 B2 JP 6429945B2 JP 2017109505 A JP2017109505 A JP 2017109505A JP 2017109505 A JP2017109505 A JP 2017109505A JP 6429945 B2 JP6429945 B2 JP 6429945B2
Authority
JP
Japan
Prior art keywords
vector
registered
voiceprint
user
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017109505A
Other languages
English (en)
Other versions
JP2018081297A (ja
Inventor
ツァン イェ
ツァン イェ
イーユィ ポン
イーユィ ポン
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2018081297A publication Critical patent/JP2018081297A/ja
Application granted granted Critical
Publication of JP6429945B2 publication Critical patent/JP6429945B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Description

本出願はコンピュータ技術分野に関し、具体的にデータ処理の技術分野に関し、特に、音声データを処理するための方法及び装置に関する。
近年では、声紋識別という新しいバイオメトリクス手段は、その安全性や利便性のため大きく注目されている。声紋識別とは、異なる人の発声器官、例えば肺、気管、声帯、口腔、鼻腔、咽頭等の寸法と形態上の生理的差異に基づいて、各人の音声に含まれる独特な情報を用いて、個人身元の識別と認証を行うことである。しかし、実際には、各人の音声の音響的特徴は一定で不変なものでなく、環境、使用装置等の外部要素と個人の身の状態、気分の変動、言語スタイルの変化等の内部要因等の共同影響によって変化するものである。また、研究によれば、人の音声学的特徴が、さらに加齢とともに変化する。従って、ユーザの声紋特徴の動的変化に対して追跡することで、ユーザの声紋モデルが、追加する声サンプルに基づいて適応更新を行うことができ、これは声紋識別システムの特性向上に対して極めて重要である。
現在、ユーザに対して身元認証を行う時に、ユーザが登録する時に入力した音声データに基づいて生成された声紋モデルをよく使用するが、このモデルは適応的に更新することができず、このようなユーザ身元の認証方法によれば、認証結果の精度が経時的に低下する。
本願は、上記背景技術に記載の技術的問題を解決するために、改良した音声データを処理するための方法及び装置を提供することを目的とする。
第1態様では、本願は、音声データを処理するための方法を提供し、この方法は、ユーザ端末から送信された音声データを受信するステップと、音声データにおける声紋特徴ベクトルを抽出するステップと、声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、声紋特徴ベクトルと登録声紋ベクトルとのマッチング度を生成するステップと、マッチング度が予め設定した更新閾値以上であるかどうかを決定するステップと、マッチング度が予め設定した更新閾値以上であると決定したことに応答して、声紋特徴ベクトルと音声データとによって登録声紋ベクトルを更新するステップと、を含む。
いくつかの実施例では、音声データにおける声紋特徴ベクトルを抽出するステップにおいては、音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って中間ベクトルを取得するステップと、中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するステップと、を含む。
いくつかの実施例では、声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングするステップの前に、登録声紋ベクトルを生成するステップをさらに含んでおり、登録声紋ベクトルを生成するステップにおいては、ユーザが入力した所定数の登録音声データを取得するステップと、所定数の登録音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って所定数の長さが同じ中間ベクトルを取得するステップと、所定数の長さが同じ中間ベクトルに対して特徴変換を行って所定数の登録声紋特徴ベクトルを取得するステップと、所定数の登録声紋特徴ベクトルを融合し、ユーザの登録声紋ベクトルを生成するステップと、を含む。
いくつかの実施例では、声紋特徴ベクトルと音声データとによって登録声紋ベクトルを更新するステップにおいては、ユーザが入力した登録音声データの数と、ユーザが記憶した各声紋特徴ベクトルとを取得するステップと、ユーザが記憶した各声紋特徴ベクトル、ユーザが記憶した音声データの数、登録音声データの数及び登録声紋ベクトルに基づいて、登録声紋ベクトルを更新するステップと、を含む。
いくつかの実施例では、ユーザが記憶した各声紋特徴ベクトル、ユーザが記憶した音声データの数、登録音声データの数及び登録声紋ベクトルに基づいて、登録声紋ベクトルを更新するステップにおいては、ユーザが記憶した各声紋特徴ベクトルに対してデータ正規化演算を行い、データ正規化演算後のベクトルを加算し、ユーザが記憶した声紋特徴ベクトルの和を求めるステップと、登録音声データの数に登録声紋ベクトルを乗じて、登録声紋ベクトルの積を取得するステップと、声紋特徴ベクトルの和と登録声紋ベクトルの積とのベクトル和を計算するとともに、ユーザが記憶した音声データの数と登録音声データの数との数の和を計算し、数の和でベクトル和を割って更新した登録声紋ベクトルを取得するステップと、を含む。
いくつかの実施例では、登録声紋ベクトルを更新するステップの後に、ユーザが記憶した音声データを削除するステップを含む。
いくつかの実施例では、ユーザが入力した所定数の登録音声データを取得するステップにおいては、ユーザが記憶した音声データと、音声データの入力時点を含む音声データの関連情報とを取得するステップと、入力時点が予め設定した時間分割点より早い音声データを削除し、残った音声データを登録音声データとするステップと、を含む。
いくつかの実施例では、ユーザが入力した所定数の登録音声データを取得するステップにおいては、クラスタリングアルゴリズムによってユーザが記憶した音声データをクラスタリングし、少なくとも1つの記憶した音声データのクラスタを生成するステップと、各クラスタの中心点を取得するステップと、距離アルゴリズムによって各記憶した音声データと各記憶した音声データが所在するクラスタの中心点との距離を計算するステップと、距離が予め設定した距離閾値より大きい音声データを削除し、残った音声データを登録音声データとするステップと、をさらに含む。
いくつかの実施例では、関連情報は、音声データの収集装置タイプ、音声データの入力場所のうちの少なくとも1つをさらに含み、少なくとも1つの記憶した音声データのクラスタを生成するステップの後に、各クラスタにおける音声データと、各クラスタにおける音声データの関連情報とを取得するステップと、各クラスタの音声データによってユーザの各登録声紋ベクトルを再生成し、各クラスタの音声データの関連情報に基づいて各登録声紋ベクトルの関連情報を生成するステップと、をさらに含む。
いくつかの実施例では、ユーザ端末から送信された音声データを受信するステップの後に、音声データの関連情報を取得するステップをさらに含んでおり、声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルをマッチングするステップにおいては、音声データの関連情報と各登録声紋ベクトルの関連情報とのマッチング度に基づいて、登録声紋ベクトルを選択するステップと、声紋特徴ベクトルと選択した登録声紋ベクトルとをマッチングするステップと、を含む。
いくつかの実施例では、声紋特徴ベクトルと登録声紋ベクトルとのマッチング度を生成するステップの後に、マッチング度が予め設定した成功閾値以上であるかどうかを決定するステップと、マッチング度が予め設定した成功閾値以上であると決定したことに応答して、ユーザ身元認証が成功したと決定して認証成功に対応する操作を実行するステップと、をさらに含む。
第2態様では、本願は、声データを処理するための装置を提供し、この装置は、ユーザ端末から送信された音声データを受信するように配置される受信ユニットと、音声データにおける声紋特徴ベクトルを抽出するように配置される抽出ユニットと、声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、声紋特徴ベクトルと登録声紋ベクトルとのマッチング度を生成するように配置されるマッチングユニットと、マッチング度が予め設定した更新閾値以上であるかどうかを決定するように配置される第1決定ユニットと、マッチング度が予め設定した更新閾値以上であると決定したことに応答して、声紋特徴ベクトルと音声データとによって登録声紋ベクトルを更新するように配置される更新ユニットと、を備える。
いくつかの実施例では、抽出ユニットは、音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って中間ベクトルを取得するように配置されるマッピングモジュールと、中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するように配置される変換モジュールと、を備える。
いくつかの実施例では、生成ユニットをさらに備えており、生成ユニットは、ユーザが入力した所定数の登録音声データを取得するように配置される取得モジュールと、所定数の登録音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って所定数の長さが同じ中間ベクトルを取得するように配置されるマッピングモジュールと、所定数の長さが同じ中間ベクトルに対して特徴変換を行って所定数の登録声紋特徴ベクトルを取得するように配置される変換モジュールと、所定数の登録声紋特徴ベクトルを融合し、ユーザの登録声紋ベクトルを生成するように配置される融合モジュールと、を備える。
いくつかの実施例では、更新ユニットは、ユーザが入力した登録音声データの数と、ユーザが記憶した各声紋特徴ベクトルとを取得するように配置される取得モジュールと、ユーザが記憶した各声紋特徴ベクトル、ユーザが記憶した音声データの数、登録音声データの数及び登録声紋ベクトルに基づいて、登録声紋ベクトルを更新するように配置される更新モジュールと、を備える。
いくつかの実施例では、更新モジュールは、ユーザが記憶した各声紋特徴ベクトルに対してデータ正規化演算を行い、データ正規化演算後のベクトルを加算し、ユーザが記憶した声紋特徴ベクトルの和を求めるように配置される第1計算サブモジュールと、登録音声データの数に登録声紋ベクトルを乗じて、登録声紋ベクトルの積を取得するように配置される第2計算サブモジュールと、声紋特徴ベクトルの和と登録声紋ベクトルの積とのベクトル和を計算し、ユーザが記憶した音声データの数と登録音声データの数との数の和を計算し、数の和でベクトル和を割って更新した登録声紋ベクトルを取得するように配置される更新サブモジュールと、を備える。
いくつかの実施例では、更新ユニットは、さらに、ユーザが記憶した音声データを削除するように配置される。
いくつかの実施例では、取得モジュールは、ユーザが記憶した音声データと、音声データの入力時点を含む音声データの関連情報とを取得するように配置される第1取得サブモジュールと、入力時点が予め設定した時間分割点より早い音声データを削除し、残った音声データを登録音声データとするように配置される第1削除サブモジュールと、を備える。
いくつかの実施例では、取得モジュールは、クラスタリングアルゴリズムによってユーザが記憶した音声データをクラスタリングし、少なくとも1つの記憶した音声データのクラスタを生成するように配置される生成サブモジュールと、各クラスタの中心点を取得するように配置される第2取得サブモジュールと、距離アルゴリズムによって各記憶した音声データと各記憶した音声データが所在するクラスタの中心点との距離を計算するように配置される計算サブモジュールと、距離が予め設定した距離閾値より大きい音声データを削除し、残った音声データを登録音声データとするように配置される第2削除サブモジュールと、を備える。
いくつかの実施例では、関連情報は、音声データの収集装置タイプ、音声データの入力場所のうちの少なくとも1つをさらに含み、装置は、各クラスタにおける音声データと、各クラスタにおける音声データの関連情報とを取得するように配置される第1取得ユニットと、各クラスタの音声データによってユーザの各登録声紋ベクトルを再生成し、各クラスタの音声データの関連情報に基づいて各登録声紋ベクトルの関連情報を生成するように配置される再生成ユニットと、をさらに備える。
いくつかの実施例では、音声データの関連情報を取得するように配置される第2取得ユニットをさらに備えており、マッチングユニットは、音声データの関連情報と各登録声紋ベクトルの関連情報とのマッチング度に基づいて、登録声紋ベクトルを選択するように配置される選択モジュールと、声紋特徴ベクトルと選択した登録声紋ベクトルとをマッチングするように配置されるマッチングモジュールと、を備える。
いくつかの実施例では、マッチング度が予め設定した成功閾値以上であるかどうかを決定するように配置される第2決定ユニットと、マッチング度が予め設定した成功閾値以上であると決定したことに応答して、ユーザ身元認証が成功と決定して認証成功に対応する操作を実行するように配置される実行ユニットと、を備える。
本願に係る音声データを処理するための方法及び装置は、ユーザ端末から送信された音声データにおける声紋特徴ベクトルを抽出し、声紋特徴ベクトルと予め生成した当該ユーザの登録声紋ベクトルとマッチングし、マッチング度が予め設定した更新閾値以上である場合、当該声紋特徴ベクトルと当該音声データとによって登録声紋ベクトルを更新することによって、ユーザの音声データを効果的に高め、ユーザの登録声紋ベクトルの正確性を向上させる。
以下の図面を参照しながら行った非限定的な実施例についての詳細な説明に基づいて、本願の他の特徴、目的や利点はより明瞭になる。
本願を適用できる例示的なシステムアーキテクチャ図である。 本願に係る音声データを処理するための方法の一実施例のフローチャートである。 本願の図2のステップ203においてユーザの登録声紋ベクトルの生成方法の実現方式のフローチャートである。 本願に係る音声データを処理するための方法の別実施例のフローチャートである。 本願に係る音声データを処理するための装置の一実施例の構造模式図である。 本願の実施例を実現するためのサーバに適用されるコンピュータシステムの構造模式図である。
以下、図面及び実施例を参照しながら本願をより詳細に説明する。ここで説明する具体的な実施例は、かかる発明を説明するものに過ぎず、当該発明を限定するものではないと理解すべきである。ただし、説明の便宜上、図面に発明に関連する部分のみが示されている。
なお、矛盾しない場合、本願の実施例及び実施例の特徴を相互に組み合せてもよい。以下、図面及び実施例を参照しながら本願を詳細に説明する。
図1は本願のユーザ認証の方法又はユーザ認証の装置の実施例を適用できる例示的なシステムアーキテクチャ100である。
図1に示されるように、システムアーキテクチャ100は端末装置101、102、103、ネットワーク104及びサーバ105、106を備えてもよい。ネットワーク104は端末装置101、102、103とサーバ105、106との間に通信リンクを提供する媒体に用いられている。ネットワーク104は各種の接続タイプ、例えば有線、無線通信リンク又は光ファイバーケーブル等を含んでもよい。
ユーザ110は端末装置101、102、103でネットワーク104を介してサーバ105、106と対話して、メッセージを送受信することができる。端末装置101、102、103に各種の通信クライアントアプリケーション、例えばショッピングアプリケーション、検索アプリケーション、ウェブブラウザアプリケーション、インスタントメッセージングツール、メールボックスクライアント、ソーシャルソフトウェアプラットフォームソフトウェア、支払ソフトウェア等がインストールされてもよい。
端末装置101、102、103はディスプレイスクリーンを有してデータの送受信をサポートするとともに、マイクロホンを備える各種の電子機器であってもよく、スマートフォン、タブレットPC、スマートウォッチ、ラップトップ型コンピュータ及びデスクトップコンピュータなどを含むが、それらに限定されるものではない。
サーバ105は各種のサービスを提供するサーバ、例えば端末装置101、102、103において送信される音声データをサポートするバックグラウンドサーバであってもよい。バックグラウンドサーバは受信された音声データ等のデータに分析などの処理を行い、且つ処理結果(例えば、ログイン成功ページ又はログイン失敗ページ)を端末装置にフィードバックすることができる。
本願の実施例に係る音声データを処理するための方法は通常にサーバ105、106で実行される。それに対応して、音声データを処理するための装置は通常にサーバ105、106に設置されることを理解すべきである。
なお、図1における端末装置、ネットワーク及びサーバの数は例示的なものに過ぎない。必要に応じて、端末装置、ネットワーク及びサーバの数が任意であってもよい。
次に、本願に係る音声データを処理するための方法の一実施例のプロセス200である図2を参照する。前記音声データを処理するための方法は、ステップ201〜205を含む。
ステップ201:ユーザ端末から送信された音声データを受信する。
本実施例では、音声データを処理するための方法が実行されている電子機器(例えば図1に示されるサーバ)は有線接続又は無線接続でユーザによってユーザ身元認証のために使われる端末から音声データを受信することができ、上記音声データは、ユーザが上記電子機器により生成された文字列に基づいて朗読して生成した朗読情報であってもよく、前記文字列は、上記電子機器がランダムに生成した文字列であってもよく、上記ユーザが身元認証用のシステムアカウントを登録する時に選択した文字列集合における文字列であってもよい。なお、上記無線接続方式は3G/4G接続、WiFi接続、ブルートゥース(登録商標)接続、WiMAX接続、Zigbee(登録商標)接続、UWB(ultra wideband)接続、現在で知られている又は将来開発されるほかの無線接続方式を含むが、それらに制限されない。
ステップ202:音声データにおける声紋特徴ベクトルを抽出する。
本実施例では、上記電子機器はステップ201において受信した音声データにおける声紋特徴ベクトルを抽出することができる。声紋は電気音響機器によって表示されて言葉情報を有する音波スペクトルである。現代の科学研究によれば、声紋が特定性を有するだけではなく、相対的安定性を有することを示す。声紋特徴ベクトルはユーザの声紋スペクトル特徴をマークするベクトルであってもよい。
本実施例のいくつかの任意選択の実施形態では、上記電子機器は上記音声データを予めトレーニングしたユニバーサルバックグラウンドモデル(Universal Background Model、UBM)に導入しマッピングを行って中間ベクトルを取得し、次に、上記中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するようにしてもよい。ユーザ身元認証が成功又は成功しない場合、ほかの個体の特定性に偏るモデルに比べて、上記ユニバーサルバックグラウンドモデルはバイオメトリック認証システムにおいて一般性と個体汎用性に偏るモデルであり、例えば、ユーザ音声認証システムにおいて、上記ユニバーサルバックグラウンドモデルは、男女平均の異なる発話者の大量の音声サンプルからトレーニングされた、発話者と独立したガウス混合モデル(Gaussian Mixture Model、GMM)であり、上記ユニバーサルバックグラウンドモデルは音声データと中間ベクトルの対応関係を特徴付けすることに用いられてもよい。接合因子分析方法(Joint Factor Analysis、JFA)によって、上記中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するようにしてもよく、上記接合因子分析方法は、声紋認証アルゴリズムにおける、チャネル補償に対する効率的なアルゴリズムであり、発話者空間とチャネル空間が独立したものであり、且つそれぞれ2つの低次元因子空間で説明されることができると仮定することによって、チャネル因子を推定する。また、チャネル補償アルゴリズムであり、確率形式の線形判別分析アルゴリズム(Linear Discriminant Analysis、 LDA)である確率的線形判別分析アルゴリズム(Probabilistic Linear Discriminant Analysis、PLDA)によって、上記中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するようにしてもよい。さらに、認識ベクトル(Identifying Vector、I−Vector)によって、上記中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するようにしてもよい。
ステップ203:声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、声紋特徴ベクトルと登録声紋ベクトルとのマッチング度を生成する。
本実施例では、上記電子機器は上記ステップ202において抽出した声紋特徴ベクトルと予め記憶した上記ユーザの登録声紋ベクトルとをマッチングし、上記声紋特徴ベクトルと上記登録声紋ベクトルとのマッチング度を生成するようにしてもよい。上記予め記憶した登録声紋ベクトルは予め生成した登録声紋ベクトルであってもよく、更新した登録声紋ベクトルであってもよい。上記登録声紋ベクトルは上記電子機器自体で生成したものであってもよく、上記電子機器が既に上記ユーザの登録声紋ベクトルを生成したほかの装置から取得したものであってもよい。上記ユーザ音声データにおける声紋特徴ベクトルを抽出した後に、上記電子機器は、先ず装置自体に上記ユーザの登録声紋ベクトルが記憶されたかどうかを検出することができ、装置自体に上記ユーザの登録声紋ベクトルが記憶されたと検出した場合、上記声紋特徴ベクトルと当該登録声紋ベクトルとをマッチングし、装置自体に上記ユーザの登録声紋ベクトルが記憶されていないと検出した場合、上記ユーザの登録声紋ベクトルを取得するリクエストをほかの装置へ送信し、ほかの装置から送信された上記ユーザの登録声紋ベクトルを受信した場合、上記声紋特徴ベクトルと当該登録声紋ベクトルとをマッチングし、ほかの装置から送信された上記ユーザの登録声紋ベクトルを受信していない場合、上記電子機器はユーザが登録した時に入力した複数の音声データに基づいて当該ユーザの登録声紋ベクトルを生成する。上記声紋特徴ベクトルと上記登録声紋ベクトルとのマッチング度を計算する時に、マンハッタン距離(Manhattan Distance)で計算してもよく、ミンコフスキー距離(Minkowski Distance)で計算してもよく、さらにコサイン類似度(Cosine Similarity)で計算してもよい。
本実施例のいくつかの任意選択の実施形態では、上記関連情報は音声データの収集装置タイプ(例えば、携帯電話、コンピュータやスマートウォッチ等)を含んでもよく、上記関連情報はさらに音声データの入力場所を含んでもよく、外部環境ノイズの大きさに応じて入力場所をノイズが大きい場所(例えば、地下鉄、マーケット、娯楽場等)と、ノイズが小さい場所(例えば図書館、教室等)とに分けることができる。上記電子機器はクラスタリングアルゴリズムによって上記ユーザが記憶した音声データをクラスタリングし、少なくとも1つの記憶した音声データのクラスタを生成し、次に、各クラスタにおける音声データ及び当該音声データの関連情報を取得し、次に、各クラスタの音声データによって上記ユーザの各登録声紋ベクトルを再生成して、上記各クラスタの音声データの関連情報に基づいて各登録声紋ベクトルの関連情報を生成することができる。上記クラスタはクラスタクラスと呼ばれてもよく、類似するオブジェクトで構成される複数のクラスを指し、クラスタリングによって生成されたクラスタは一組のデータオブジェクトの集合であり、これらのオブジェクトが同じクラスタにおけるオブジェクトとは類似するが、ほかのクラスタにおけるオブジェクトと異なる。例として、1つのクラスタにおいて入力場所がノイズの大きい場所での音声データの数は、当該クラスタにおけるすべての音声データの数の80%である場合、当該クラスタの音声データで生成した登録声紋ベクトルの関連情報における入力場所情報をノイズが大きい場所として設定することができる。
本実施例のいくつかの任意選択の実施形態では、上記電子機器は音声データを処理する時に、さらに音声データの関連情報を取得することができ、次に、上記音声データの関連情報と上記ユーザの各登録声紋ベクトルの関連情報とのマッチング度に基づいて、登録声紋ベクトルを選択することができ、例えば、音声データの入力場所がバーであることを取得した場合、関連情報にノイズが大きい場所を含む登録声紋ベクトルを選択することができ、音声データの収集装置がスマートウォッチであることを取得した場合、関連情報にスマートウォッチを含む登録声紋ベクトルを選択することができ、最後に、当該声紋特徴ベクトルと選択した登録声紋ベクトルとをマッチングし、マッチングする結果を取得する。
ステップ204:マッチング度が予め設定した更新閾値以上であるかどうかを決定する。
本実施例では、上記電子機器はステップ203において生成したマッチング度と、予め設定した更新閾値とを比較し、上記マッチング度が上記更新閾値以上であるかどうかを決定することができ、上記更新閾値は、動的で且つ個性化されるものであり、ユーザによって異なる。また、上記更新閾値は、記憶した音声データと声紋特徴ベクトルとに基づいて上記電子機器がユーザの登録声紋ベクトルを更新するように、予め設定した割合の音声データと声紋特徴ベクトルとを記憶するために設定されるものであり、例えば、予め設定した割合が80%である場合、上記更新閾値によれば、ユーザが入力したすべての音声データの80%の音声データを記憶することができる。
ステップ205:マッチング度が予め設定した更新閾値以上であると決定したことに応答して、声紋特徴ベクトルと音声データで登録声紋ベクトルを更新する。
本実施例では、上記マッチング度が予め設定した更新閾値以上であると決定した場合、上記電子機器はステップ201において受信した音声データとステップ202において抽出した声紋特徴ベクトルとによって上記ユーザの登録声紋ベクトルを更新することができる。
本実施例のいくつかの任意選択の実施形態では、上記マッチング度が予め設定した成功閾値以上であると決定した場合、上記電子機器は上記ユーザ身元認証が成功したと決定し、認証成功に対応する操作を実行することができ、例えば、ユーザがウエブサイトログイン時の身元認証を行う時に、上記ユーザに対してログイン成功ページを戻すことができ、ユーザがパスワードロックのアンロック操作を行う時に、パスワードロックを解除することができ。
本願の上記実施例に係る方法は、ユーザ音声データにおける声紋特徴ベクトルと当該ユーザの登録声紋ベクトルとをマッチングし、マッチング度が更新閾値以上の音声データと声紋特徴ベクトルとによってユーザの登録声紋ベクトルを更新することによって、ユーザの登録声紋ベクトルの正確性を向上させる。
次に、図2のステップ203においてユーザの登録声紋ベクトルの生成方法の実施形態のプロセス300である図3を参照する。当該ユーザの登録声紋ベクトルを生成するプロセス300は、ステップ301〜ステップ304を含む。
ステップ301:ユーザが入力した所定数の登録音声データを取得する。
本実施例では、音声データを処理するための方法が実行されている電子機器(例えば図1に示されるサーバ)はユーザが身元認証用のシステムアカウントを登録した時に入力した所定数の登録音声データを取得することができ、ここで、上記登録音声データはユーザが上記電子機器により生成された文字列に基づいて朗読して生成した朗読情報であってもよく、上記文字列は上記電子機器がランダムに生成した文字列であってもよい、上記ユーザが文字列集合から選択した文字列であってもよい。
本実施例のいくつかの任意選択の実施形態では、上記電子機器は上記ユーザが記憶した音声データと、音声データの入力時点を含む当該音声データの関連情報とを取得し、次に、上記入力時点が予め設定した時間分割点より早い音声データを削除し、残った音声データを登録音声データとし、当該登録音声データによって登録声紋ベクトルを生成することができる。例として、予め設定した時間分割点が2016年6月1日である場合、入力時点が2016年6月1日より早いデータを削除する。
本実施例のいくつかの任意選択の実施形態では、上記電子機器は、先ず分割型クラスタリングアルゴリズム(例えばk−meansアルゴリズム)、階層的クラスタリングアルゴリズム(例えば階層手法を用いたバランスのとれた反復削減とクラスタリング(Balanced Iterative Reducing and Clustering Using Hierarchies、BIRCH))及び密度ベースのクラスタリングアルゴリズム(例えばDBSCANアルゴリズム)等を含むクラスタリングアルゴリズムによって、上記ユーザが記憶した音声データをクラスタリングし、少なくとも1つの記憶した音声データのクラスタを生成し、次に、各クラスタの中心点を取得することができ、k−meansアルゴリズムを例として、K値とK個のクラスタの初期中心点が与えられた場合、各点を最も近い中心点の代表したクラスタに割り当て、すべての点が割り当てられた後に、1つのクラスタにおけるすべての点を改めて計算(例えば平均値計算)して当該クラスタの中心点を取得し、次に、クラスタの中心点の変化が非常に小さくなったり指定された反復回数に達したりするまで、点の割り当てとクラスタの中心点の更新のステップを反復して行い、さらに、各クラスタにおける中心点を取得し、次に、ユークリッド距離アルゴリズムを含んでもよい距離アルゴリズムによって各記憶した音声データと各記憶した音声データが所在するクラスタの中心点との距離を計算し、最終的に、上記距離が予め設定した距離閾値より大きい音声データを削除し、残った音声データを登録音声データとし、当該登録音声データによって登録声紋ベクトルを生成することができる。
本実施例のいくつかの任意選択の実施形態では、上記電子機器は音声データ入力時点が予め設定した時間分割点より早い音声データ及び上記距離が予め設定した距離閾値より大きい音声データをすべて削除し、残った音声データを登録音声データとし、当該登録音声データで登録声紋ベクトルを生成するようにしてもよい。
ステップ302:所定数の登録音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って所定数の長さが同じ中間ベクトルを取得する。
本実施例では、上記電子機器は上記所定数の登録音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って所定数の長さが同じ中間ベクトルを取得することができる。上記ユニバーサルバックグラウンドモデルは、男女平均の異なる発話者の大量の音声サンプルからトレーニングされた、発話者と独立したガウス混合モデルであり、上記ユニバーサルバックグラウンドモデルは音声データと中間ベクトルの対応関係を特徴付けすることに用いられてもよい。
ステップ303:所定数の長さが同じ中間ベクトルに対して特徴変換を行って所定数の登録声紋特徴ベクトルを取得する。
本実施例では、上記電子機器は接合因子分析方法、確率的線形判別分析アルゴリズム及び認識ベクトル等のアルゴリズムによって上記所定数の長さが同じ中間ベクトルに対して特徴変換を行って所定数の登録声紋特徴ベクトルを取得することができる。
ステップ304:所定数の登録声紋特徴ベクトルを融合し、ユーザの登録声紋ベクトルを生成する。
本実施例では、上記電子機器は上記所定数の登録声紋特徴ベクトルを融合し、上記ユーザの登録声紋ベクトルを生成することができる。例えば、ユーザAが登録過程でK個の登録音声データを入力すれば、K個の登録声紋特徴ベクトルを抽出でき、下記式1によって上記K個の登録声紋特徴ベクトルを融合して上記ユーザの登録声紋ベクトルを取得することができる。
ここで、Vはユーザの登録声紋ベクトルであり、Kは登録音声データの数であり、vはユーザが入力したi番目の登録声紋特徴ベクトルであり、norm(v)はvに対するデータ正規化(長さ正規化)操作であり、

に対するデータ正規化(長さ正規化)操作である。
本願の上記ユーザの登録声紋ベクトルを生成する方法は、ユーザの登録音声データに対してマッピング、特徴変換及び融合等の処理を行うことで、当該ユーザの登録声紋ベクトルを生成することによって、当該登録声紋ベクトルを基準とし、当該ユーザの身元認証結果を決定し、正確なユーザ身元識別を実現する。
さらに、音声データを処理するための方法の別の実施例のプロセス400である図4を参照する。当該音声データを処理するための方法のプロセス400は、ステップ401〜ステップ408を含む、
ステップ401:ユーザ端末から送信された音声データを受信する。
本実施例では、音声データを処理するための方法を実行する電子機器(例えば図1に示されるサーバ)はユーザがユーザ身元認証を行うために使われる端末から有線接続又は無線接続で音声データを受信することができ、上記音声データはユーザが上記電子機器により生成された文字列に基づいて朗読して生成した朗読情報であってもよく、上記文字列は上記電子機器がランダムに生成した文字列であってもよく、上記ユーザが身元認証用のシステムアカウントを登録した時に選択した文字列集合における文字列であってもよい。
ステップ402:音声データにおける声紋特徴ベクトルを抽出する。
本実施例では、上記電子機器はステップ401において受信した音声データにおける声紋特徴ベクトルを抽出することができる。声紋は、電気音響機器により表示され言葉情報を有する音波スペクトルである。現代の科学研究によれば、声紋が特定性を有し、且つ相対的安定性を有することを示す。声紋特徴ベクトルはユーザの声紋スペクトル特徴をマークするベクトルであってもよい。
ステップ403:声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、声紋特徴ベクトルと登録声紋ベクトルとのマッチング度を生成する。
本実施例では、上記電子機器は上記ステップ402において抽出した声紋特徴ベクトルと予め記憶した上記ユーザの登録声紋ベクトルとをマッチングし、上記声紋特徴ベクトルと上記登録声紋ベクトルとのマッチング度を生成することができる。上記予め記憶した登録声紋ベクトルは予め生成した登録声紋ベクトルであってもよく、更新した登録声紋ベクトルであってもよい。上記登録声紋ベクトルは上記電子機器自体で生成したものであってもよく、上記電子機器が上記ユーザの登録声紋ベクトルを生成したほかの装置から取得したものであってもよい。マンハッタン距離、ミンコフスキー距離及びコサイン類似度等によって上記声紋特徴ベクトルと上記登録声紋ベクトルとのマッチング度を計算することができる。
ステップ404:マッチング度が予め設定した更新閾値以上であるかどうかを決定する。
本実施例では、上記電子機器はステップ403において生成したマッチング度と、予め設定した更新閾値とを比較し、上記マッチング度が上記更新閾値以上であるかどうかを決定することができ、上記更新閾値は、動的で且つ個性化されるものであり、ユーザによって異なる。また、上記更新閾値は、記憶した音声データと声紋特徴ベクトルとに基づいて上記電子機器がユーザの登録声紋ベクトルを更新するように、予め設定した割合の音声データと声紋特徴ベクトルとを記憶するために設定されるものであり、例えば、予め設定した割合が90%である場合、上記更新閾値によれば、ユーザが入力したすべての音声データの90%の音声データを記憶することができる。
本実施例では、上記電子機器はユーザの各登録声紋ベクトルに対して、登録声紋ベクトルごとに異なる更新閾値を設定することができる。声紋特徴ベクトルと、選択した登録声紋ベクトルとをマッチングする時に、取得されたマッチング度と選択した登録声紋ベクトルに対応する更新閾値を比較することができ、ここで、前記登録声紋ベクトルと前記更新閾値とが1対1対応する。
ステップ405:マッチング度が予め設定した更新閾値以上であると決定したことに応答して、ユーザが入力した登録音声データの数とユーザが記憶した各声紋特徴ベクトルとを取得する。
本実施例では、上記マッチング度が予め設定した更新閾値以上であると決定した場合、上記電子機器はユーザが入力した登録音声データの数とユーザが記憶した各声紋特徴ベクトルとを取得することができる。上記マッチング度が予め設定した更新閾値以上であると決定した後に、上記電子機器は、先ずユーザが記憶した音声データの数を取得してもよく、状態を未使用とマークした音声データの数を取得してもよく、次に、取得した数が予め設定した数の閾値以上であるかどうかを決定し、予め設定した数の閾値より大きい場合、又は予め設定した時点に達した場合、上記電子機器は上記登録音声データの数と上記ユーザが記憶した各声紋特徴ベクトルとを取得することができ、ここで、上記数の閾値は予め設定され、記憶した音声データの数が数の閾値より大きい時に上記登録声紋ベクトルの更新に供するものである。
ステップ406:ユーザが記憶した各声紋特徴ベクトルに対してデータ正規化演算を行い、データ正規化演算後のベクトルを加算し、ユーザが記憶した声紋特徴ベクトルの和を求める。
本実施例では、上記電子機器は上記ユーザが記憶した各声紋特徴ベクトルに対して、主にデータ走化性同一処理(data synchronously chemotactic processing)と無次元化処理(nondimensionalized processing)の2つを含むデータ正規化演算(又は長さ正規化計算)を行い、データ正規化演算後のベクトルを加算し、上記ユーザが記憶した声紋特徴ベクトルの和を求めることができる。データ走化性同一処理は、主に異なる性質のデータの問題を解決し、異なる性質の指標を直接合計することは異なる作用による統合的な結果を正確に反映できないので、まず逆指標のデータ性質を変えてすべての指標による評価手段への作用の走化性を同一にし、さらに合計して正確な結果を取得するという考慮に入れなければならない。データ無次元化処理は、主にデータの比較可能性を解決する。データ正規化方法は複数種あり、通常、「Min−Max標準化(minimum-maximum standardization)」、 「Z−score標準化(Z-score standardization)」及び「10進位取り標準化(standardization by decimal scaling)」等を用いる。
ステップ407:登録音声データの数に登録声紋ベクトルを乗じて、登録声紋ベクトルの積を取得する。
本実施例では、上記電子機器は上記登録音声データの数に上記登録声紋ベクトルを乗じて、登録声紋ベクトルの積を取得することができる。
ステップ408:声紋特徴ベクトルの和と登録声紋ベクトルの積とのベクトル和を計算するとともに、ユーザが記憶した音声データの数と登録音声データの数との数の和を計算し、ベクトル和を数の和で割って更新した登録声紋ベクトルを取得する。
本実施例では、上記電子機器は上記ステップ406において取得された上記声紋特徴ベクトルの和と上記ステップ407において取得された登録声紋ベクトルの積とのベクトル和を計算し、上記ユーザが記憶した音声データの数と上記登録音声データの数との数の和を計算し、上記ベクトル和を上記数の和で割って更新した登録声紋ベクトルを取得することができる。具体的には、下記式2によって更新した登録声紋ベクトルを取得することができる。
ここで、Vnewは更新した登録声紋ベクトルであり、nは登録音声データの数であり、Vは登録声紋ベクトルであり、Kは記憶した音声データの数であり、vはi番目の記憶した声紋特徴ベクトルであり、norm(v)はvに対するデータ正規化(長さ正規化)操作である。
本実施例のいくつかの任意選択の実施形態では、式2のKが1である場合、上記登録声紋ベクトルはオンラインでリアルタイムに更新されることができる。
本実施例のいくつかの任意選択の実施形態では、登録声紋ベクトルを更新した後に、使用した音声データが繰り返して更新に用いられることを避けるために、上記電子機器は上記ユーザが記憶した音声データを削除したり、又はその状態を使用済みとしてマークしたりすることができる。
図4から分かるように、図2に対応する実施例に比べて、本実施例における音声データを処理するための方法のプロセス400は、登録声紋ベクトルを更新する具体的なステップを強調する。そのため、本実施例で説明した手段はユーザが登録した時に入力した音声データとマッチング度が予め設定した更新閾値以上の音声データとによってユーザの登録声紋ベクトルを更新することによって、より正確な登録声紋ベクトルを取得することができる。
さらに図5に示されるとおり、上記各図に示される方法の実現手段として、本願は音声データを処理するための装置の一実施例を提供し、当該装置の実施例は図2に示される方法の実施例に対応し、当該装置は具体的には各種の電子機器に適用することができる。
図5に示すように、本実施例の音声データを処理するための装置500は、受信ユニット501、抽出ユニット502、マッチングユニット503、第1決定ユニット504及び更新ユニット505を備える。受信ユニット501はユーザ端末から送信された音声データを受信するように配置され、抽出ユニット502は音声データにおける声紋特徴ベクトルを抽出するように配置され、マッチングユニット503は声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、声紋特徴ベクトルと登録声紋ベクトルとのマッチング度を生成するように配置され、第1決定ユニット504は前記マッチング度が予め設定した更新閾値以上であるかどうかを決定するように配置され、更新ユニット505は前記マッチング度が予め設定した更新閾値以上であると決定したことに応答して、前記声紋特徴ベクトルと前記音声データとによって前記登録声紋ベクトルを更新するように配置される。
本実施例では、音声データを処理するための装置500の受信ユニット501は、ユーザがユーザ身元認証を行うために使われる端末から有線接続又は無線接続で音声データを受信することができ、上記音声データはユーザが上記電子機器により生成された文字列に基づいて朗読して生成した朗読情報であってもよく、上記文字列は上記電子機器がランダムに生成した文字列であってもよく、上記ユーザが身元認証用のシステムアカウントを登録した時に選択した文字列集合における文字列であってもよい。
本実施例では、受信ユニット501が受信した音声データに基づいて、上記抽出ユニット502は上記音声データにおける声紋特徴ベクトルを抽出することができる。声紋は電気音響機器によって表示され言葉情報を有する音波スペクトルである。現代の科学研究によれば、声紋が特定性を有し、且つ相対的安定性を有することを示す。声紋特徴ベクトルはユーザの声紋スペクトル特徴を識別するベクトルであってもよい。
本実施例では、抽出ユニット502が抽出した声紋特徴ベクトルに基づいて、上記マッチングユニット503は上記声紋特徴ベクトルと予め記憶した上記ユーザの登録声紋ベクトルとをマッチングし、上記声紋特徴ベクトルと上記登録声紋ベクトルとのマッチング度を生成することができる。上記予め記憶した登録声紋ベクトルは予め生成した登録声紋ベクトルであってもよく、更新した登録声紋ベクトルであってもよい。上記登録声紋ベクトルは上記電子機器自体で生成したものであってもよく、上記電子機器が上記ユーザの登録声紋ベクトルを生成したほかの装置から取得したものであってもよい。上記マッチングユニット503はマンハッタン距離、ミンコフスキー距離及びコサイン類似度で上記声紋特徴ベクトルと上記登録声紋ベクトルのマッチング度を計算することができる。
本実施例では、マッチングユニット503が生成したマッチング度に基づいて、上記第1決定ユニット504は上記マッチング度と予め設定した更新閾値とを比較し、上記マッチング度が上記更新閾値以上であるかどうかと決定することができ、上記更新閾値は動的で且つ個性化されるものであり、ユーザによって異なる。また、上記更新閾値は、記憶した音声データと声紋特徴ベクトルとに基づいて上記電子機器がユーザの登録声紋ベクトルを更新するように、予め設定した割合の音声データと声紋特徴ベクトルとを記憶するために設定される。
本実施例では、上記マッチング度が予め設定した更新閾値以上であると決定した場合、上記更新ユニット505は上記受信ユニット501が受信した音声データと上記抽出ユニット502が抽出した声紋特徴ベクトルとによって上記ユーザの登録声紋ベクトルを更新することができる。
本実施例のいくつかの任意選択の実施形態では、上記抽出ユニット502はマッピングモジュール(図示せず)と変換モジュール(図示せず)とを備えてもよい。上記マッピングモジュールは上記音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って中間ベクトルを取得し、次に、上記変換モジュールは上記中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得することができる。ユーザ音声認証システムにおいて、上記ユニバーサルバックグラウンドモデルは男女平均の異なる発話者の大量の音声サンプルからトレーニングされた、発話者と独立したガウス混合モデルであり、上記ユニバーサルバックグラウンドモデルは音声データと中間ベクトルの対応関係を特徴付けすることに用いられてもよい。
本実施例のいくつかの任意選択の実施形態では、音声データを処理するための装置500はさらに、生成ユニット(図示せず)を備えてもよい。上記生成ユニットは取得モジュール(図示せず)、マッピングモジュール(図示せず)、変換モジュール(図示せず)及び融合モジュール(図示せず)を備えてもよい。上記取得モジュールはユーザが身元認証用のシステムアカウントを登録した時に入力した所定数の登録音声データを取得することができ、上記登録音声データはユーザが上記電子機器により生成された文字列に基づいて朗読して生成した朗読情報であってもよく、上記マッピングモジュールは上記所定数の登録音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って所定数の長さが同じ中間ベクトルを取得することができ、上記ユニバーサルバックグラウンドモデルは男女平均の異なる発話者の大量の音声サンプルからトレーニングされた、発話者と独立したガウス混合モデルであり、上記ユニバーサルバックグラウンドモデルは音声データと中間ベクトルの対応関係を特徴付けすることに用いられてもよく、上記変換モジュールは接合因子分析方法、確率的線形判別分析アルゴリズムや認識ベクトル等のアルゴリズムによって上記所定数の長さが同じ中間ベクトルに対して特徴変換を行って所定数の登録声紋特徴ベクトルを取得し、上記融合モジュールは上記所定数の登録声紋特徴ベクトルを融合し、上記ユーザの登録声紋ベクトルを生成することができる。
本実施例のいくつかの任意選択の実施形態では、上記更新ユニット505はさらに取得モジュール(図示せず)と更新モジュール(図示せず)とを備えてもよい。上記取得モジュールは上記登録音声データの数と上記ユーザが記憶した各声紋特徴ベクトルとを取得することができ、上記更新モジュールは上記ユーザが記憶した各声紋特徴ベクトル、上記ユーザが記憶した音声データの数、上記登録音声データの数及び上記登録声紋ベクトルに基づいて、登録声紋ベクトルを更新することができる。
本実施例のいくつかの任意選択の実施形態では、上記更新モジュールは第1計算サブモジュール(図示せず)、第2計算サブモジュール(図示せず)及び更新サブモジュール(図示せず)を備えてもよい。上記第1計算サブモジュールは上記ユーザが記憶した各声紋特徴ベクトルに対してデータ正規化演算を行い、データ正規化演算後のベクトルを加算し、上記ユーザが記憶した声紋特徴ベクトルの和を求めることができ、上記第2計算サブモジュールは上記登録音声データの数に上記登録声紋ベクトルを乗じて、登録声紋ベクトルの積を取得することができ、上記更新サブモジュールは上記第1計算サブモジュールで取得された上記声紋特徴ベクトルの和と上記第2計算サブモジュールで取得された登録声紋ベクトルの積とのベクトル和を計算し、上記ユーザが記憶した音声データの数と上記登録音声データの数との数の和を計算し、上記ベクトル和を上記数の和で割って更新した登録声紋ベクトルを取得することができる。
本実施例のいくつかの任意選択の実施形態では、登録声紋ベクトルを更新した後に、使用した音声データが繰り返して更新に用いられることを避けるように、上記更新ユニットは上記ユーザが記憶した音声データを削除したり、又はその状態を使用済みとしてマークしたりすることができる。
本実施例のいくつかの任意選択の実施形態では、上記取得モジュールは第1取得サブモジュール(図示せず)と第1削除サブモジュール(図示せず)とを備えてもよい。上記第1取得サブモジュールは上記ユーザが記憶した音声データと、音声データの入力時点を含む当該音声データの関連情報とを取得し、次に、上記第1削除サブモジュールは上記入力時点が予め設定した時間分割点より早い音声データを削除し、残った音声データを登録音声データとし、当該登録音声データで登録声紋ベクトルを生成することができる。
本実施例のいくつかの任意選択の実施形態では、上記取得モジュールはさらに生成サブモジュール(図示せず)、第2取得サブモジュール(図示せず)、計算サブモジュール(図示せず)及び第2削除サブモジュール(図示せず)を備えてもよい。上記生成サブモジュールは分割型クラスタリングアルゴリズム、階層的クラスタリングアルゴリズム及び密度ベースのクラスタリングアルゴリズム等を含むクラスタリングアルゴリズムによって上記ユーザが記憶した音声データをクラスタリングし、少なくとも1つの記憶した音声データのクラスタを生成し、次に、上記第2取得サブモジュールは各クラスタの中心点を取得することができ、k−meansアルゴリズムを例として、K値とK個のクラスタの初期中心点が与えられた場合、各点を最も近い中心点の代表したクラスタに割り当て、すべての点の割り当てが終わった後に、1つのクラスタにおけるすべての点を改めて計算(例えば平均値計算)して当該クラスタの中心点を取得し、次に、クラスタの中心点の変化が非常に小さくなり又は指定された反復回数に達したまで、点の割り当てとクラスタの中心点の更新のステップを反復して行い、各クラスタにおける中心点を取得し、次に、上記計算サブモジュールはユークリッド距離アルゴリズムを含んでもよい距離アルゴリズムによって各記憶した音声データと各記憶した音声データが所在するクラスタの中心点との距離を計算し、最終的に、上記第2削除サブモジュールは上記距離が予め設定した距離閾値より大きい音声データを削除し、残った音声データを登録音声データとし、当該登録音声データで登録声紋ベクトルを生成することができる。
本実施例のいくつかの任意選択の実施形態では、上記関連情報は音声データの収集装置タイプ(例えば、携帯電話、コンピュータやスマートウォッチ等)を含んでもよく、上記関連情報はさらに音声データの入力場所を含んでもよく、外部環境ノイズの大きさに応じて入力場所をノイズが大きい場所(例えば、地下鉄、マーケット、娯楽場等)と、ノイズが小さい場所(例えば図書館、教室等)とに分けることができる。音声データを処理するための装置500はさらに第1取得ユニット(図示せず)と再生成ユニット(図示せず)とを備えてもよい。上記第1取得ユニットは各クラスタにおける音声データ及び当該音声データの関連情報を取得し、次に、上記再生成ユニットは各クラスタの音声データによって上記ユーザの各登録声紋ベクトルを再生成し、上記各クラスタの音声データの関連情報に基づいて各登録声紋ベクトルの関連情報を生成することができる。
本実施例のいくつかの任意選択の実施形態では、音声データを処理するための装置500はさらに第2取得ユニット(図示せず)を備えてもよく、上記第2取得ユニットは音声データを処理する時に、さらに音声データの関連情報を取得することができ、上記マッチングユニット503は選択モジュール(図示せず)とマッチングモジュール(図示せず)とを備えてもよく、上記音声データの関連情報と上記ユーザの各登録声紋ベクトルの関連情報とのマッチング度に基づいて、上記選択モジュールは登録声紋ベクトルを選択することができ、例えば、音声データの入力場所がバーであることを取得した場合、関連情報にノイズが大きい場所を含む登録声紋ベクトルを選択することができ、音声データの収集装置がスマートウォッチであることを取得した場合、関連情報にスマートウォッチを含む登録声紋ベクトルを選択することができ、最後に、上記マッチングモジュールは当該声紋特徴ベクトルと選択した登録声紋ベクトルとをマッチングし、マッチング結果を取得することができる。
本実施例のいくつかの任意選択の実施形態では、音声データを処理するための装置500はさらに第2決定ユニット(図示せず)と実行ユニット(図示せず)とを備えてもよい。上記第2決定ユニットは上記マッチング度が予め設定した成功閾値以上であると決定した場合、上記実行ユニットは上記ユーザ身元認証が成功したと決定し、認証成功に対応する操作を実行することができ、例えば、ユーザがウエブサイトログイン時の身元認証を行う時に、上記ユーザに対してログイン成功ページを戻すことができ、ユーザがパスワードロックのアンロック操作を行う時に、パスワードロックを解除することができる。
以下、本願の実施例を実現するためのサーバに適用されるコンピュータシステム600を示す構造模式図である図6を参照する。
図6に示すように、コンピュータシステム600は、読み出し専用メモリ(ROM)602に記憶されているプログラム又は記憶部608からランダムアクセスメモリ(RAM)603にロードされたプログラムに基づいて様々な適当な動作及び処理を実行することができる中央処理装置(CPU)601を備える。RAM603には、システム600の操作に必要な様々なプログラム及びデータが更に記憶されている。CPU601、ROM602及びRAM603は、バス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
キーボード、マウスなどを含む入力部606、陰極線管(CRT)、液晶ディスプレイ(LCD)など、及びスピーカなどを含む出力部607、ハードディスクなどを含む記憶部608、及びLANカード、モデムなどを含むネットワークインターフェースカードの通信部609は、I/Oインターフェース605に接続されている。通信部609は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ610は、必要に応じてI/Oインターフェース605に接続される。リムーバブルメディア611は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ610に取り付けられ、したがって、ドライバ610から読み出されたコンピュータプログラムが必要に応じて記憶部608にインストールされる。
特に、本願の実施例によれば、フローチャートを参照しながら記載された上記のプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本願の実施例は、コンピュータプログラム製品を含み、当該コンピュータプログラム製品は、機械可読媒体に有形に具現化されるコンピュータプログラムを含み、前記コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例では、当該コンピュータプログラムは、通信部609を介してネットワークからダウンロードされてインストールされてもよく、及び/又はリムーバブルメディア611からインストールされてもよい。
図面におけるフローチャート及びブロック図は、本願の各実施例に係るシステム、方法及びコンピュータプログラム製品により実現可能なアーキテクチャ、機能及び操作を示す。ここで、フローチャート又はブロック図における各枠は、1つのモジュール、プログラムセグメント、又はコードの一部を代表してもよく、前記モジュール、プログラムセグメント、又はコードの一部は、規定された論理機能を達成するための1つ以上の実行可能な命令を含む。また、いくつかの代替実施態様として、枠に示された機能は、図面に示された順番と異なる順番で実行されてもよい。例えば、連続して示された2つの枠は、関連する機能に応じて、実際にほぼ並行に実行されてもよく、逆の順番で実行されてもよい。また、ブロック図及び/又はフローチャートにおける各枠と、ブロック図及び/又はフローチャートにおける枠の組合せは、規定された機能又は操作を実行する、ハードウェアに基づく専用システムで実現されてもよく、あるいは、専用ハードウェアとコンピュータの命令との組合せで実行されてもよい。
本願の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設定されてもよく、例えば、「受信ユニット、抽出ユニット、マッチングユニット、第1決定ユニット及び更新ユニットを備えるプロセッサ」として記載されてもよい。その中でも、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、受信ユニットは、「ユーザ端末から送信された音声データを受信するユニット」として記載されてもよい。
一方、本願は、不揮発性コンピュータ記憶媒体を更に提供し、当該不揮発性コンピュータ記憶媒体は、上記実施例の装置に含まれる不揮発性コンピュータ記憶媒体であってもよく、独立に存在して端末に組み立てられていない不揮発性コンピュータ記憶媒体であってもよい。不揮発性コンピュータ記憶媒体は、1つ以上のプログラムが記憶され、1つ以上のプログラムが1つの機器により実行された場合、機器に、ユーザ端末から送信された音声データを受信し、音声データにおける声紋特徴ベクトルを抽出し、声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、声紋特徴ベクトルと登録声紋ベクトルとのマッチング度を生成し、マッチング度が予め設定した更新閾値以上であるかどうかを決定し、マッチング度が予め設定した更新閾値以上であると決定したことに応答して、声紋特徴ベクトルと音声データとによって登録声紋ベクトルを更新するようにさせる。
以上の記載は、本願の好ましい実施例、及び使用された技術的原理の説明に過ぎない。本願に係る特許請求の範囲が、上記した技術的特徴の特定な組合せからなる技術案に限定されることではなく、本願の趣旨を逸脱しない範囲で、上記の技術的特徴又は同などの特徴の任意の組合せからなる他の技術案も含むべきであることを、当業者は理解すべきである。例えば、上記の特徴と、本願に開示された類似の機能を持っている技術的特徴(これらに限定されていない)とを互いに置き換えてなる技術案が挙げられる。

Claims (20)

  1. ユーザ端末から送信された音声データを受信するステップと、
    前記音声データにおける声紋特徴ベクトルを抽出するステップと、
    前記声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、前記声紋特徴ベクトルと前記登録声紋ベクトルとのマッチング度を生成するステップと、
    前記マッチング度が予め設定した更新閾値以上であるかどうかを決定するステップと、
    前記マッチング度が予め設定した更新閾値以上であると決定したことに応答して、前記声紋特徴ベクトルと前記音声データとによって前記登録声紋ベクトルを更新するステップと、を含み、
    前記声紋特徴ベクトルと前記音声データとによって前記登録声紋ベクトルを更新するステップは、
    ユーザが入力した登録音声データの数と、前記ユーザが記憶した各声紋特徴ベクトルとを取得するステップと、
    前記ユーザが記憶した各声紋特徴ベクトル、前記ユーザが記憶した音声データの数、前記登録音声データの数及び前記登録声紋ベクトルに基づいて、登録声紋ベクトルを更新するステップと、を含む
    ことを特徴とする音声データを処理するための方法。
  2. 記音声データにおける声紋特徴ベクトルを抽出するステップにおいては、
    前記音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って中間ベクトルを取得するステップと、
    前記中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するステップと、を含む
    ことを特徴とする請求項1に記載の方法。
  3. 記声紋特徴ベクトルと予め記憶した前記ユーザの登録声紋ベクトルとをマッチングするステップの前に、
    登録声紋ベクトルを生成するステップをさらに含んでおり、
    前記の登録声紋ベクトルを生成するステップにおいては、
    前記ユーザが入力した所定数の登録音声データを取得するステップと、
    前記所定数の登録音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って所定数の長さが同じ中間ベクトルを取得するステップと、
    前記所定数の長さが同じ中間ベクトルに対して特徴変換を行って所定数の登録声紋特徴ベクトルを取得するステップと、
    前記所定数の登録声紋特徴ベクトルを融合し、前記ユーザの登録声紋ベクトルを生成するステップと、を含む
    ことを特徴とする請求項1に記載の方法。
  4. 記ユーザが記憶した各声紋特徴ベクトル、前記ユーザが記憶した音声データの数、前記登録音声データの数及び前記登録声紋ベクトルに基づいて、登録声紋ベクトルを更新するステップにおいては、
    前記ユーザが記憶した各声紋特徴ベクトルに対してデータ正規化演算を行い、データ正規化演算後のベクトルを加算し、前記ユーザが記憶した声紋特徴ベクトルの和を求めるステップと、
    前記登録音声データの数に前記登録声紋ベクトルを乗じて、登録声紋ベクトルの積を取得するステップと、
    前記声紋特徴ベクトルの和と前記登録声紋ベクトルの積とのベクトル和を計算するとともに、前記ユーザが記憶した音声データの数と前記登録音声データの数との数の和を計算し、前記数の和で前記ベクトル和を割って更新した登録声紋ベクトルを取得するステップと、を含む
    ことを特徴とする請求項に記載の方法。
  5. 前記の登録声紋ベクトルを更新するステップの後に、
    前記ユーザが記憶した音声データを削除するステップを含む
    ことを特徴とする請求項に記載の方法。
  6. 記ユーザが入力した所定数の登録音声データを取得するステップにおいては、
    前記ユーザが記憶した音声データと、音声データの入力時点を含む前記音声データの関連情報とを取得するステップと、
    前記入力時点が予め設定した時間分割点より早い音声データを削除し、残った音声データを登録音声データとするステップと、を含む
    ことを特徴とする請求項3に記載の方法。
  7. 記ユーザが入力した所定数の登録音声データを取得するステップにおいては、
    クラスタリングアルゴリズムによって前記ユーザが記憶した音声データをクラスタリングし、少なくとも1つの記憶した音声データのクラスタを生成するステップと、
    各クラスタの中心点を取得するステップと、
    距離アルゴリズムによって各記憶した音声データと各記憶した音声データが所在するクラスタの中心点との距離を計算するステップと、
    前記距離が予め設定した距離閾値より大きい音声データを削除し、残った音声データを登録音声データとするステップと、をさらに含む
    ことを特徴とする請求項3に記載の方法。
  8. 前記関連情報は、音声データの収集装置タイプ、音声データの入力場所のうちの少なくとも1つをさらに含み、
    前記の少なくとも1つの記憶した音声データのクラスタを生成するステップの後に、
    各クラスタにおける音声データと、前記各クラスタにおける音声データの関連情報とを取得するステップと、
    各クラスタの音声データによって前記ユーザの各登録声紋ベクトルを再生成し、前記各クラスタの音声データの関連情報に基づいて各登録声紋ベクトルの関連情報を生成するステップと、をさらに含む
    ことを特徴とする請求項に記載の方法。
  9. 前記のユーザ端末から送信された音声データを受信するステップの後に、
    前記音声データの関連情報を取得するステップをさらに含んでおり、
    記声紋特徴ベクトルと予め記憶した前記ユーザの登録声紋ベクトルをマッチングするステップにおいては、
    前記音声データの関連情報と各登録声紋ベクトルの関連情報とのマッチング度に基づいて、登録声紋ベクトルを選択するステップと、
    前記声紋特徴ベクトルと選択した登録声紋ベクトルとをマッチングするステップと、を含む
    ことを特徴とする請求項に記載の方法。
  10. 記声紋特徴ベクトルと前記登録声紋ベクトルとのマッチング度を生成するステップの後に、
    前記マッチング度が予め設定した成功閾値以上であるかどうかを決定するステップと、
    前記マッチング度が予め設定した成功閾値以上であると決定したことに応答して、ユーザ身元認証が成功したと決定して認証成功に対応する操作を実行するステップと、をさらに含む
    ことを特徴とする請求項1に記載の方法。
  11. ユーザ端末から送信された音声データを受信するように配置される受信ユニットと、
    前記音声データにおける声紋特徴ベクトルを抽出するように配置される抽出ユニットと、
    前記声紋特徴ベクトルと予め記憶したユーザの登録声紋ベクトルとをマッチングし、前記声紋特徴ベクトルと前記登録声紋ベクトルとのマッチング度を生成するように配置されるマッチングユニットと、
    前記マッチング度が予め設定した更新閾値以上であるかどうかを決定するように配置される第1決定ユニットと、
    前記マッチング度が予め設定した更新閾値以上であると決定したことに応答して、前記声紋特徴ベクトルと前記音声データとによって前記登録声紋ベクトルを更新するように配置される更新ユニットと、を備え
    前記更新ユニットは、
    ユーザが入力した登録音声データの数と、前記ユーザが記憶した各声紋特徴ベクトルとを取得するように配置される取得モジュールと、
    前記ユーザが記憶した各声紋特徴ベクトル、前記ユーザが記憶した音声データの数、前記登録音声データの数及び前記登録声紋ベクトルに基づいて、登録声紋ベクトルを更新するように配置される更新モジュールと、を備え
    ことを特徴とする音声データを処理するための装置。
  12. 前記抽出ユニットは、
    前記音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って中間ベクトルを取得するように配置されるマッピングモジュールと、
    前記中間ベクトルに対して特徴変換を行って声紋特徴ベクトルを取得するように配置される変換モジュールと、を備える
    ことを特徴とする請求項11に記載の装置。
  13. 生成ユニットをさらに備えており、
    前記生成ユニットは、
    前記ユーザが入力した所定数の登録音声データを取得するように配置される取得モジュールと、
    前記所定数の登録音声データを予めトレーニングしたユニバーサルバックグラウンドモデルに導入しマッピングを行って所定数の長さが同じ中間ベクトルを取得するように配置されるマッピングモジュールと、
    前記所定数の長さが同じ中間ベクトルに対して特徴変換を行って所定数の登録声紋特徴ベクトルを取得するように配置される変換モジュールと、
    前記所定数の登録声紋特徴ベクトルを融合し、前記ユーザの登録声紋ベクトルを生成するように配置される融合モジュールと、を備える
    ことを特徴とする請求項11に記載の装置。
  14. 前記更新モジュールは、
    前記ユーザが記憶した各声紋特徴ベクトルに対してデータ正規化演算を行い、データ正規化演算後のベクトルを加算し、前記ユーザが記憶した声紋特徴ベクトルの和を求めるように配置される第1計算サブモジュールと、
    前記登録音声データの数に前記登録声紋ベクトルを乗じて、登録声紋ベクトルの積を取得するように配置される第2計算サブモジュールと、
    前記声紋特徴ベクトルの和と前記登録声紋ベクトルの積とのベクトル和を計算し、前記ユーザが記憶した音声データの数と前記登録音声データの数との数の和を計算し、前記数の和で前記ベクトル和を割って更新した登録声紋ベクトルを取得するように配置される更新サブモジュールと、を備える
    ことを特徴とする請求項11に記載の装置。
  15. 前記更新ユニットは、さらに、
    前記ユーザが記憶した音声データを削除するように配置される
    ことを特徴とする請求項11に記載の装置。
  16. 前記取得モジュールは、
    前記ユーザが記憶した音声データと、音声データの入力時点を含む前記音声データの関連情報とを取得するように配置される第1取得サブモジュールと、
    前記入力時点が予め設定した時間分割点より早い音声データを削除し、残った音声データを登録音声データとするように配置される第1削除サブモジュールと、を備える
    ことを特徴とする請求項13に記載の装置。
  17. 前記取得モジュールは、
    クラスタリングアルゴリズムによって前記ユーザが記憶した音声データをクラスタリングし、少なくとも1つの記憶した音声データのクラスタを生成するように配置される生成サブモジュールと、
    各クラスタの中心点を取得するように配置される第2取得サブモジュールと、
    距離アルゴリズムによって各記憶した音声データと各記憶した音声データが所在するクラスタの中心点との距離を計算するように配置される計算サブモジュールと、
    前記距離が予め設定した距離閾値より大きい音声データを削除し、残った音声データを登録音声データとするように配置される第2削除サブモジュールと、を備える
    ことを特徴とする請求項13に記載の装置。
  18. 前記関連情報は、音声データの収集装置タイプ、音声データの入力場所のうちの少なくとも1つをさらに含み、
    前記装置は、
    各クラスタにおける音声データと、前記各クラスタにおける音声データの関連情報とを取得するように配置される第1取得ユニットと、
    各クラスタの音声データによって前記ユーザの各登録声紋ベクトルを再生成し、前記各クラスタの音声データの関連情報に基づいて各登録声紋ベクトルの関連情報を生成するように配置される再生成ユニットと、をさらに備える
    ことを特徴とする請求項16に記載の装置。
  19. 前記音声データの関連情報を取得するように配置される第2取得ユニットをさらに備えており、
    前記マッチングユニットは、
    前記音声データの関連情報と各登録声紋ベクトルの関連情報とのマッチング度に基づいて、登録声紋ベクトルを選択するように配置される選択モジュールと、
    前記声紋特徴ベクトルと選択した登録声紋ベクトルとをマッチングするように配置されるマッチングモジュールと、を備える
    ことを特徴とする請求項18に記載の装置。
  20. 前記マッチング度が予め設定した成功閾値以上であるかどうかを決定するように配置される第2決定ユニットと、
    前記マッチング度が予め設定した成功閾値以上であると決定したことに応答して、ユーザ身元認証が成功と決定して認証成功に対応する操作を実行するように配置される実行ユニットと、を備える
    ことを特徴とする請求項11に記載の装置。
JP2017109505A 2016-11-18 2017-06-01 音声データを処理するための方法及び装置 Active JP6429945B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201611031726.7 2016-11-18
CN201611031726.7A CN106782564B (zh) 2016-11-18 2016-11-18 用于处理语音数据的方法和装置

Publications (2)

Publication Number Publication Date
JP2018081297A JP2018081297A (ja) 2018-05-24
JP6429945B2 true JP6429945B2 (ja) 2018-11-28

Family

ID=58970925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017109505A Active JP6429945B2 (ja) 2016-11-18 2017-06-01 音声データを処理するための方法及び装置

Country Status (3)

Country Link
US (2) US10140984B2 (ja)
JP (1) JP6429945B2 (ja)
CN (1) CN106782564B (ja)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105656887A (zh) * 2015-12-30 2016-06-08 百度在线网络技术(北京)有限公司 基于人工智能的声纹认证方法以及装置
CN105869645B (zh) * 2016-03-25 2019-04-12 腾讯科技(深圳)有限公司 语音数据处理方法和装置
CN109147770B (zh) * 2017-06-16 2023-07-28 阿里巴巴集团控股有限公司 声音识别特征的优化、动态注册方法、客户端和服务器
CN109145145A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 一种数据更新方法、客户端及电子设备
CN108335695B (zh) * 2017-06-27 2020-10-30 腾讯科技(深圳)有限公司 语音控制方法、装置、计算机设备和存储介质
CN109215643B (zh) * 2017-07-05 2023-10-24 阿里巴巴集团控股有限公司 一种交互方法、电子设备及服务器
CN107623614B (zh) 2017-09-19 2020-12-08 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
WO2019077013A1 (en) 2017-10-18 2019-04-25 Soapbox Labs Ltd. METHODS AND SYSTEMS FOR PROCESSING AUDIO SIGNALS CONTAINING VOICE DATA
CN107895578B (zh) * 2017-11-15 2021-07-20 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN107863108B (zh) * 2017-11-16 2021-03-23 百度在线网络技术(北京)有限公司 信息输出方法和装置
CN107978311B (zh) * 2017-11-24 2020-08-25 腾讯科技(深圳)有限公司 一种语音数据处理方法、装置以及语音交互设备
CN108257604B (zh) * 2017-12-08 2021-01-08 平安普惠企业管理有限公司 语音识别方法、终端设备及计算机可读存储介质
CN108231082A (zh) * 2017-12-29 2018-06-29 广州势必可赢网络科技有限公司 一种自学习声纹识别的更新方法和装置
CN108172230A (zh) * 2018-01-03 2018-06-15 平安科技(深圳)有限公司 基于声纹识别模型的声纹注册方法、终端装置及存储介质
CN108417226A (zh) * 2018-01-09 2018-08-17 平安科技(深圳)有限公司 语音对比方法、终端及计算机可读存储介质
CN108154371A (zh) * 2018-01-12 2018-06-12 平安科技(深圳)有限公司 电子装置、身份验证的方法及存储介质
CN108460081B (zh) * 2018-01-12 2019-07-12 平安科技(深圳)有限公司 语音数据库创建方法、声纹注册方法、装置、设备及介质
CN108269575B (zh) * 2018-01-12 2021-11-02 平安科技(深圳)有限公司 更新声纹数据的语音识别方法、终端装置及存储介质
CN108564955B (zh) * 2018-03-19 2019-09-03 平安科技(深圳)有限公司 电子装置、身份验证方法和计算机可读存储介质
CN108737872A (zh) * 2018-06-08 2018-11-02 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110853674A (zh) * 2018-07-24 2020-02-28 中兴通讯股份有限公司 文本核对方法、设备以及计算机可读存储介质
KR102483833B1 (ko) * 2018-08-07 2023-01-04 삼성전자주식회사 등록된 사용자에 의한 인증을 통해 새로운 사용자를 등록하기 위한 전자 장치 및 방법
US11004454B1 (en) * 2018-11-06 2021-05-11 Amazon Technologies, Inc. Voice profile updating
CN111179940A (zh) * 2018-11-12 2020-05-19 阿里巴巴集团控股有限公司 一种语音识别方法、装置及计算设备
CN111292733A (zh) * 2018-12-06 2020-06-16 阿里巴巴集团控股有限公司 一种语音交互方法和装置
CN109801634B (zh) * 2019-01-31 2021-05-18 北京声智科技有限公司 一种声纹特征的融合方法及装置
US11200886B2 (en) * 2019-04-02 2021-12-14 Accenture Global Solutions Limited System and method for training a virtual agent to identify a user's intent from a conversation
CN110085209B (zh) * 2019-04-11 2021-07-23 广州多益网络股份有限公司 一种音色筛选方法及装置
CN110400567B (zh) * 2019-07-30 2021-10-19 深圳秋田微电子股份有限公司 注册声纹动态更新方法及计算机存储介质
CN110689894B (zh) * 2019-08-15 2022-03-29 深圳市声扬科技有限公司 自动注册方法及装置、智能设备
CN110648671A (zh) * 2019-08-21 2020-01-03 广州国音智能科技有限公司 声纹模型重建方法、终端、装置及可读存储介质
CN110473552A (zh) * 2019-09-04 2019-11-19 平安科技(深圳)有限公司 语音识别认证方法及系统
CN110534117B (zh) * 2019-09-10 2022-11-25 阿波罗智联(北京)科技有限公司 用于优化语音生成模型的方法、装置、设备和计算机介质
CN110660398B (zh) * 2019-09-19 2020-11-20 北京三快在线科技有限公司 声纹特征更新方法、装置、计算机设备及存储介质
CN110600040B (zh) * 2019-09-19 2021-05-25 北京三快在线科技有限公司 声纹特征注册方法、装置、计算机设备及存储介质
CN110956966B (zh) * 2019-11-01 2023-09-19 平安科技(深圳)有限公司 声纹认证方法、装置、介质及电子设备
US11488581B1 (en) * 2019-12-06 2022-11-01 Amazon Technologies, Inc. System and method of providing recovery for automatic speech recognition errors for named entities
CN111091837A (zh) * 2019-12-27 2020-05-01 中国人民解放军陆军工程大学 一种基于在线学习的时变声纹认证方法及系统
CN111341325A (zh) * 2020-02-13 2020-06-26 平安科技(深圳)有限公司 声纹识别方法、装置、存储介质、电子装置
US20210287681A1 (en) * 2020-03-16 2021-09-16 Fidelity Information Services, Llc Systems and methods for contactless authentication using voice recognition
CN117476038A (zh) * 2020-05-21 2024-01-30 北京百度网讯科技有限公司 模型评测方法、装置及电子设备
CN111681681A (zh) * 2020-05-22 2020-09-18 深圳壹账通智能科技有限公司 语音情绪识别方法、装置、电子设备及存储介质
US11664033B2 (en) * 2020-06-15 2023-05-30 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
TWI807203B (zh) * 2020-07-28 2023-07-01 華碩電腦股份有限公司 聲音辨識方法及使用其之電子裝置
CN111968645B (zh) * 2020-09-09 2022-11-11 重庆电子工程职业学院 一种个性化的语音控制系统
CN112289322B (zh) * 2020-11-10 2022-11-15 思必驰科技股份有限公司 声纹识别方法和装置
CN112489678B (zh) * 2020-11-13 2023-12-05 深圳市云网万店科技有限公司 一种基于信道特征的场景识别方法及装置
CN112750440B (zh) * 2020-12-30 2023-12-29 北京捷通华声科技股份有限公司 一种信息处理方法及装置
CN112992181A (zh) * 2021-02-08 2021-06-18 上海哔哩哔哩科技有限公司 音频分类方法及装置
CN112802482B (zh) * 2021-04-15 2021-07-23 北京远鉴信息技术有限公司 一种声纹串并的识别方法、单兵系统及存储介质
CN112966252B (zh) * 2021-04-26 2023-11-24 平安国际智慧城市科技股份有限公司 一种基于密码技术的客户端验证方法、装置、电子设备及介质
CN115310066A (zh) * 2021-05-07 2022-11-08 华为技术有限公司 一种升级方法、装置及电子设备
CN113448975B (zh) * 2021-05-26 2023-01-17 科大讯飞股份有限公司 一种人物画像库的更新方法、装置、系统和存储介质
WO2024049311A1 (en) * 2022-08-30 2024-03-07 Biometriq Sp. Z O.O. Method of selecting the optimal voiceprint
CN117457006B (zh) * 2023-12-25 2024-03-12 北京语艺星光文化传媒有限公司 用于3d打印手办的配音决策方法及配音决策系统

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229955A (ja) * 2001-02-02 2002-08-16 Matsushita Electric Ind Co Ltd 情報端末装置及び認証システム
US7240007B2 (en) * 2001-12-13 2007-07-03 Matsushita Electric Industrial Co., Ltd. Speaker authentication by fusion of voiceprint match attempt results with additional information
FR2842643B1 (fr) * 2002-07-22 2004-09-03 France Telecom Normalisation de score de verification dans un dispositif de reconnaissance vocale de locuteur
GB2391373A (en) * 2002-07-31 2004-02-04 David Toms A system for the automatic detection of a fraudulent transaction
US8116436B2 (en) * 2005-02-24 2012-02-14 Grape Technology Group, Inc. Technique for verifying identities of users of a communications service by voiceprints
CN1941080A (zh) * 2005-09-26 2007-04-04 吴田平 一种楼宇对讲门口机声纹识别开锁模块及识别开锁方法
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
US20070219801A1 (en) * 2006-03-14 2007-09-20 Prabha Sundaram System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
US7995713B2 (en) * 2006-04-03 2011-08-09 Agere Systems Inc. Voice-identification-based signal processing for multiple-talker applications
JP4743053B2 (ja) * 2006-09-06 2011-08-10 ヤマハ株式会社 生体認証装置、生体認証方法およびプログラム
US8537978B2 (en) * 2008-10-06 2013-09-17 International Business Machines Corporation Method and system for using conversational biometrics and speaker identification/verification to filter voice streams
JP5042194B2 (ja) * 2008-10-27 2012-10-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者テンプレートを更新する装置及び方法
CN102543084A (zh) * 2010-12-29 2012-07-04 盛乐信息技术(上海)有限公司 在线声纹认证系统及其实现方法
CN102238189B (zh) * 2011-08-01 2013-12-11 安徽科大讯飞信息科技股份有限公司 声纹密码认证方法及系统
US9237232B1 (en) * 2013-03-14 2016-01-12 Verint Americas Inc. Recording infrastructure having biometrics engine and analytics service
GB2517952B (en) * 2013-09-05 2017-05-31 Barclays Bank Plc Biometric verification using predicted signatures
CN103632667B (zh) * 2013-11-25 2017-08-04 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端
CN104219050B (zh) * 2014-08-08 2015-11-11 腾讯科技(深圳)有限公司 声纹验证方法、服务器、客户端及系统
WO2016015687A1 (zh) 2014-07-31 2016-02-04 腾讯科技(深圳)有限公司 声纹验证方法及装置
CN105575391B (zh) * 2014-10-10 2020-04-03 阿里巴巴集团控股有限公司 声纹信息管理方法、装置以及身份认证方法、系统
CN104616655B (zh) * 2015-02-05 2018-01-16 北京得意音通技术有限责任公司 声纹模型自动重建的方法和装置
CN105869645B (zh) * 2016-03-25 2019-04-12 腾讯科技(深圳)有限公司 语音数据处理方法和装置

Also Published As

Publication number Publication date
JP2018081297A (ja) 2018-05-24
US20190066665A1 (en) 2019-02-28
CN106782564A (zh) 2017-05-31
US10140984B2 (en) 2018-11-27
CN106782564B (zh) 2018-09-11
US10825452B2 (en) 2020-11-03
US20180144742A1 (en) 2018-05-24

Similar Documents

Publication Publication Date Title
JP6429945B2 (ja) 音声データを処理するための方法及び装置
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN107610709B (zh) 一种训练声纹识别模型的方法及系统
JP6502512B2 (ja) 動的パスワード音声に基づいた自己学習機能を有する身分認証システム及び方法
WO2018166187A1 (zh) 服务器、身份验证方法、系统及计算机可读存储介质
CN107492379B (zh) 一种声纹创建与注册方法及装置
JP6621536B2 (ja) 電子装置、身元認証方法、システム及びコンピュータ読み取り可能な記憶媒体
CN108564954B (zh) 深度神经网络模型、电子装置、身份验证方法和存储介质
US10275671B1 (en) Validating identity and/or location from video and/or audio
CN107481720B (zh) 一种显式声纹识别方法及装置
CN104509065B (zh) 使用说话能力作为人类交互证明
CN109993150B (zh) 用于识别年龄的方法和装置
WO2021232594A1 (zh) 语音情绪识别方法、装置、电子设备及存储介质
WO2019179029A1 (zh) 电子装置、身份验证方法和计算机可读存储介质
WO2019196303A1 (zh) 用户身份验证方法、服务器及存储介质
US20100045787A1 (en) Authenticating apparatus, authenticating system, and authenticating method
US9947323B2 (en) Synthetic oversampling to enhance speaker identification or verification
CN112466314A (zh) 情感语音数据转换方法、装置、计算机设备及存储介质
Tiwari et al. Virtual home assistant for voice based controlling and scheduling with short speech speaker identification
WO2021159669A1 (zh) 系统安全登录方法、装置、计算机设备和存储介质
CN111613230A (zh) 声纹验证方法、装置、设备及存储介质
CN109614780B (zh) 生物信息认证方法及装置、存储介质、电子设备
US10446138B2 (en) System and method for assessing audio files for transcription services
CN115312040A (zh) 语音唤醒方法、装置、电子设备和计算机可读存储介质
CN113035230A (zh) 认证模型的训练方法、装置及电子设备

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181009

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181030

R150 Certificate of patent or registration of utility model

Ref document number: 6429945

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250