JP2022536189A

JP2022536189A - オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体

Info

Publication number: JP2022536189A
Application number: JP2021574347A
Authority: JP
Inventors: ▲ユエ▼超郭; 軼軒 ▲チァオ▼; 義君唐; 俊王; 鵬高; 国▲トン▼ 謝
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-04-28
Filing date: 2020-08-26
Publication date: 2022-08-12
Anticipated expiration: 2040-08-26
Also published as: CN111524525B; JP7242912B2; US20220254350A1; WO2021217978A1; CN111524525A; US11798563B2

Abstract

本出願は、人工知能の分野に関し、話者オリジナル音声データ認識モデルの情報損失とシステムの複雑性を低減するための、オリジナル音声の声紋認識方法を開示する。オリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得ることと、予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、声紋特徴データを得ることと、予め設定されたディープニューラルネットワークによって、声紋特徴データをプーリング処理し、ターゲット声紋特徴を得ることと、ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得ることと、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、声紋特徴ベクトルを計算し、ターゲット声紋データを得ることと、を含む。本出願はさらに、ブロックチェーンの技術に関し、前記声紋特徴データがブロックチェーンに記憶されている。【選択図】図１

Description

本出願は、２０２０年４月２８日に中国特許局に提出された、「オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体」と題する中国特許出願第２０２０１０３５１２０８．３の優先権を主張し、その全ての内容は、参考により本出願に組み込まれている。

本出願は、音声信号処理の分野に関し、特に、オリジナル音声の声紋を認識する方法、装置、設備および記憶媒体に関する。

現在、話者オリジナル音声データ認識モデルは、話者オリジナル音声データを人工特徴工学により特徴抽出して特徴情報を得て、特徴情報のベクトルデータを生成し、かつベクトルデータに対してチャネルノイズフィッティング処理を行い、フィッティング処理データを得て、フィッティング処理データに対して話者認識を行い、対応する話者情報を得る。

本発明者は、得られたベクトルデータが同一話者または異なる話者間のチャネル情報の違いの識別に直接使用できず、得られたベクトルデータに対してさらにチャネルノイズフィッティング処理を行ってフィッティング処理データを得て、フィッティング処理データおよび他のデータに対して話者認識のための計算および分析のバックエンド再処理を行う必要があり、これによって、データ処理システムの複雑性を増やし、かつ話者オリジナル音声データを人工特徴工学により特徴抽出する場合、一部の情報が失われるため、既存の話者オリジナル音声データ認識モデルでは情報損失が大きく、システムが非常に複雑になるという問題があることに気付いた。

本出願の主な目的は、既存の話者オリジナル音声データ認識モデルにおける情報損失度が大きく、システムが非常に複雑であるという問題を解決することである。

上記の目的を実現するために、本出願の第１の態様は、オリジナル音声の声紋認識方法を提供し、オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得ることと、予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得ることと、予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得ることと、前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得ることと、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得ることと、を含む。

本出願の第２の態様は、オリジナル音声の声紋認識設備を提供し、メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサ上で実行可能なコンピュータ可読命令とを備え、前記プロセッサが前記コンピュータ可読命令を実行すると、以下のようなステップ、すなわち、オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るステップと、予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るステップと、前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るステップと、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るステップと、を実現する。

本出願の第３の態様は、コンピュータ命令が記憶されたコンピュータ可読記憶媒体を提供し、前記コンピュータ命令がコンピュータ上で実行されると、コンピュータに、以下のようなステップ、すなわち、オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るステップと、予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るステップと、前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るステップと、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るステップと、を実行させる。

本出願の第４の態様は、オリジナル音声の声紋認識装置を提供し、オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るための分割モジュールと、予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るための第１の処理モジュールと、予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るための第２の処理モジュールと、前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るための第３の処理モジュールと、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るための計算モジュールと、を含む。

本出願が提供する技術的解決手段は、オリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得て、予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、声紋特徴データを得、かつ、予め設定されたディープニューラルネットワークによって、声紋特徴データをプーリング処理し、ターゲット声紋特徴を得てから、ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、声紋特徴ベクトルを得、そして、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、声紋特徴ベクトルを計算し、ターゲット声紋データを得る。本出願では、新たな損失関数により、オリジナル音声データにおける声紋特徴情報を認識するチャネルのノイズ情報を除去することで、情報損失が低減され、予め設定された畳み込みフィルタバンクを、オリジナル音声データに対するフロントエンド前処理の構造として用いて声紋特徴データを取得し、また、予め設定されたディープニューラルネットワークを用いて声紋特徴データをプーリング処理し、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数によって、声紋特徴ベクトルを処理して類似度行列または埋め込みベクトルの形のターゲット声紋データを得て、入力側を話者のオリジナル音声データとし、出力側を類似度行列または埋め込みベクトルの形のターゲット声紋データとする構成により、システムの構造が簡略化され、変数の計算が低減され、話者オリジナル音声データ認識モデルの精度が向上し、システムの複雑性が低減され、それによって、本出願では、話者オリジナル音声データ認識モデルの情報損失およびシステムの複雑性が低減される。

本出願の実施例におけるオリジナル音声の声紋認識方法の一実施例の模式図である。本出願の実施例におけるオリジナル音声の声紋認識方法の別の実施例の模式図である。本出願の実施例におけるオリジナル音声の声紋認識装置の一実施例の模式図である。本出願の実施例におけるオリジナル音声の声紋認識装置の別の実施例の模式図である。本出願の実施例におけるオリジナル音声の声紋認識設備の一実施例の模式図である。

本出願の実施例は、オリジナル音声の声紋を認識する方法、装置、設備、および記憶媒体を提供し、新たな損失関数により、オリジナル音声データにおける声紋特徴情報を認識するチャネルのノイズ情報を除去することで、情報損失が低減され、予め設定された畳み込みフィルタバンクを、オリジナル音声データに対するフロントエンド前処理の構造として用いて声紋特徴データを取得し、また、予め設定されたディープニューラルネットワークを用いて声紋特徴データをプーリング処理し、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数によって、声紋特徴ベクトルを処理して類似度行列または埋め込みベクトルの形のターゲット声紋データを得て、入力側を話者のオリジナル音声データとし、出力側を類似度行列または埋め込みベクトルの形のターゲット声紋データとする構成により、システムの構造が簡略化され、変数の計算が低減され、話者オリジナル音声データ認識モデルの精度が向上し、システムの複雑性が低減され、それによって、本出願の実施例では、話者オリジナル音声データ認識モデルの情報損失およびシステムの複雑性が低減される。

本出願の明細書、特許請求の範囲、および上記の図面における「第１」、「第２」、「第３」、「第４」（存在する場合）などの用語は、特定の順序又は優先順位を説明するためのものではなく、類似した対象物を区別するために使用されている。このように使用されるデータは、適切な場合には交換可能であり、これによって、本明細書に記載されている実施例は、本明細書に図示または記載されているものと異なる順序で実行することができることを理解すべきである。さらに、「含む」または「有する」という用語およびその変型は、非排他的な包含をカバーすることを意図しており、例えば、一連のステップまたはユニットを含む過程、方法、システム、製品または設備は、明確に記載されたそれらのステップまたはユニットに限定される必要はなく、明確に記載されていない他のステップまたはユニットを含むか、それらの過程、方法、製品または設備に固有のステップまたはユニットを含んでもよい。

理解を容易にするために、本出願の実施例の具体的な流れを以下に説明し、図１を参照すると、本出願の実施例におけるオリジナル音声の声紋認識方法の一実施例は、以下の１０１、１０２、１０３、１０４および１０５を含む。

１０１では、オリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得る。

理解されるように、本出願の実行主体は、オリジナル音声の声紋認識装置であってよく、端末やサーバであってもよく、ここでは具体的に限定されない。本出願の実施例は、サーバを実行主体として説明する。

クライアント側でオリジナル音声データが入力されると、サーバは、予め設定されたサンプラーを呼び出し、予め設定されたサンプラーにより当該オリジナル音声データをサンプリングしてオリジナルオーディオデータを得て、かつ予め設定されたサンプラーのサンプリング周波数を取得し、当該サンプリング周波数の逆数を計算してサンプリング時間を取得し、サンプリング時間を所定の時間長とし、サンプラーは取得されたオリジナルオーディオデータと所定の時間長をサーバのデータベースに送信し、サーバは、データベースから当該オリジナルオーディオデータを抽出して、所定の時間長に応じて当該オリジナルオーディオデータを分割して分割音声データを得て、各分割音声データは同じデータ長を持つ。オリジナル音声データを分割することで、その後のオリジナル音声データの処理を容易にし、オリジナル音声データが前処理された後に情報損失があるか否かを判断するための根拠を提供する。

１０２では、予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得る。

サーバが分割音声データを取得した後、ここで、分割音声データは合計でＴ個あり、各分割音声データのデータ長はＨであり、Ｔ個の分割音声データを予め設定されたＫグループの畳み込みフィルタ（すなわち、予め設定された畳み込みフィルタバンク）に入力し、Ｋグループの畳み込みフィルタを用いて、予め設定されたテールバイティング畳み込み符号により各分割音声データに対して多層構造のテールバイティング畳み込み符号化処理を行う、分割音声データに対して最初の特徴抽出処理を行い、浅い表現を持つ候補声紋特徴データを得て、ここで、各候補声紋特徴データのデータ形式は全て（Ｔ，Ｋ，Ｈ）である。予め設定された離散フーリエ変換式によって候補声紋特徴データを計算して声紋特徴データを得て、ここで、各声紋特徴データのデータ長はＨであり、各声紋特徴データのデータ形式は依然として（Ｔ，Ｋ，Ｈ）であり、全ての声紋特徴データを組み合わせたデータ形式は依然として（Ｎ，Ｍ，Ｔ，Ｋ，Ｈ）であり、Ｎは、オリジナル音声データにおける話者の数を表し、Ｍは、各話者に対応する声紋特徴データの数を表す。

ここで、予め設定された離散フーリエ変換式のＤＦＴ変換区間の長さはＨ（すなわち、各分割音声データのデータ長Ｈ）である。Ｋグループの畳み込みフィルタにより分割音声データのテールバイティング畳み込み符号化処理と離散フーリエ変換処理を行った後、得られた候補声紋データのデータ長は変化しないため、符号化率低下の問題を克服し、畳み込み符号のエラーチェック特性に影響を与えず、分割音声データを特徴抽出する際の情報損失を防止し、その特徴の品質を確保する一方で、候補声紋特徴データを時間領域データから簡潔な周波数領域データに変換することで、演算量が減り、その後の声紋特徴データの処理が容易になる。上記の声紋特徴データのプライバシーとセキュリティをさらに確保するために、上記の声紋特徴データをブロックチェーンのノードに記憶してもよいことを強調する必要がある。

１０３では、予め設定されたディープニューラルネットワークによって、分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得る。

サーバは、予め設定されたディープニューラルネットワークにおけるプーリング層によって、予め設定されたスライドウィンドウを用いて分割音声データに対応する声紋特徴データの配列で生成された配列テーブルの左上から、分割音声データに対応する声紋特徴データの配列テーブルを、左から右へ、上から下への順にスライドすることで、当該スライドウィンドウに対応するウィンドウデータを取得し、ここで、配列テーブルでのスライドウィンドウの１つの位置は１つのウィンドウデータに対応し、各ウィンドウデータのうちの最大値を判断して各ウィンドウデータのうちの最大値を得ることで、最大値プーリング処理を実現し、各ウィンドウデータの平均値を計算し、各ウィンドウデータに対応する平均値を算出し、これにより、平均値プーリング処理を実現し、さらに、最大値プーリング処理と平均値プーリング処理後のターゲット声紋特徴を得る。プーリング処理により、予め設定されたディープニューラルネットワークの空間のサイズ、および学習が必要なネットワークパラメータを減少し、オーバーフィッティングを防止する。

１０４では、ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得る。

サーバは、予め設定されたスキップグラムモデルＳｋｉｐ－ｇｒａｍの隠れ層の重み行列によってターゲット声紋特徴を計算し、勾配降下処理した候補声紋特徴ベクトルを得て、Ｓｋｉｐ－ｇｒａｍモデルの出力層の回帰分類器によって候補声紋特徴ベクトルに対して回帰分類処理を行い、対応する声紋特徴ベクトルを得て、または、予め設定された深層文脈に基づく単語表現（ｅｍｂｅｄｄｉｎｇｆｒｏｍｌａｎｇｕａｇｅｍｏｄｅｌ、ＥＬＭＯ）モデルのうち多層双方向言語モデルである前方と後方最大言語モデルの共同尤度関数によって、ターゲット声紋特徴を計算し、候補声紋特徴ベクトルを得て、かつ候補声紋ベクトルを重みに統合して、対応する声紋特徴ベクトルを得て、ここで、当該声紋特徴ベクトルは、単語埋め込みベクトル、または文埋め込みベクトルのいずれかであり得る。Ｓｋｉｐ－ｇｒａｍモデルとＥＬＭＯモデルで得られた声紋特徴ベクトルは単語埋め込みベクトルであり、予め設定されたニューラルバッグオブワーズモデルで、単語埋め込みベクトルの声紋特徴ベクトルを平均化または合計することにより、または、予め設定された再帰型ニューラルネットワークで予め設定された外部トポロジー構造（例えば、コンポーネント構文ツリー）に応じて単語埋め込みベクトルの声紋特徴ベクトルを再帰的に処理することにより、文埋め込みベクトルの声紋特徴ベクトルを得ることで、ターゲット声紋特徴に対する埋め込みベクトル変換の表現ｒｅｐｒｅｓｅｎｔａｔｉｏｎ処理を実行する。

１０５では、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、声紋特徴ベクトルを計算し、ターゲット声紋データを得る。

サーバは、声紋特徴ベクトルを得た後、予め設定された損失関数におけるコサイン類似度行列損失関数と最小平均二乗誤差行列損失関数によって、声紋特徴ベクトルデータを計算して第１の初期ベクトルデータと第２の初期ベクトルデータを得て、予め設定されたネットワーク訓練関数によって、第２の初期ベクトルデータを計算して第２のベクトルデータを得て、そして、第１の初期ベクトルデータと第２のベクトルデータの加重平均値を計算してターゲット声紋データを得る。

ここで、予め設定されたネットワーク訓練関数は、最小平均二乗誤差行列ＭＭＳＥ損失関数部分全体の大きさを調整する調整ルールであり、予め設定されたネットワーク訓練関数は、勾配降下アルゴリズムまたは共役勾配アルゴリズムであってもよく、勾配降下アルゴリズムまたは共役勾配アルゴリズムによって第２の初期ベクトルデータの誤差最小化処理を実行する。サーバは、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数によって声紋特徴ベクトルデータをそれぞれ計算し、第１の初期ベクトルデータと第２の初期ベクトルデータを得て、最小平均二乗誤差行列損失関数は全体平均で計算され、また、全体平均のランダム性が高く、チャネルノイズの情報を正確に捉えることができないため、予め設定されたネットワーク関数ネットワークによって、第２の初期ベクトルデータを計算して第２のベクトルデータを得て、第１の初期ベクトルデータと第２のベクトルデータの加重平均値を計算して、重み値計算を含む類似度行列または埋め込みベクトルを得る必要があり、それによって、チャネルのノイズ情報の除去とシステムの複雑性の低減を実現した上で、相対的に正確な類似度行列を得ることができることで、取得された埋め込みベクトルデータの精度が向上する。

コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、音声チャネル情報をモデル化するための損失項を追加することで、予め設定された畳み込みフィルタバンクとディープニューラルネットワークで構成される構造ネットワークが、話者情報の長時間特徴表現（声紋情報）だけでなく、チャネルからノイズ情報を除去する方法も学習することができ、認識の精度を向上させ、話者情報を含む類似度行列または埋め込みベクトルを直接出力し、オリジナル音声データを処理するための操作ステップを減らし、システムの複雑性を低減する。

本出願の実施例では、新たな損失関数により、オリジナル音声データにおける声紋特徴情報を認識するチャネルのノイズ情報を除去することで、情報損失が低減され、予め設定された畳み込みフィルタバンクを、オリジナル音声データに対するフロントエンド前処理の構造として用いて声紋特徴データを取得し、また、予め設定されたディープニューラルネットワークを用いて声紋特徴データをプーリング処理し、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数によって、声紋特徴ベクトルを処理して類似度行列または埋め込みベクトルの形のターゲット声紋データを得て、入力側を話者のオリジナル音声データとし、出力側を類似度行列または埋め込みベクトルの形のターゲット声紋データとする構成により、システムの構造が簡略化され、変数の計算が低減され、話者オリジナル音声データ認識モデルの精度が向上し、システムの複雑性が低減され、それによって、本出願の実施例では、話者オリジナル音声データ認識モデルの情報損失およびシステムの複雑性が低減される。

図２を参照すると、本出願の実施例におけるオリジナル音声の声紋認識方法の別の実施例は、以下の２０１、２０２、２０３、２０４、２０５および２０６を含む。

２０１では、オリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得る。

具体的には、サーバはオリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得ることは、オリジナル音声データを取得し、オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得ることと、候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得ることと、所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得ることと、を含み得る。

サーバは、オリジナル音声データを分割する前に、オリジナル音声データに信号処理を実行してエネルギーマップを得て、オリジナル音声データにおける音声フレームごとに短時間フレームエネルギーと短時間フレームゼロ交差率を計算し、短時間フレームエネルギーに応じて第１の閾値を設定し、バックグラウンドノイズの平均エネルギーを計算し、バックグラウンドノイズの平均エネルギーに応じて第２の閾値を設定し、第２の閾値を第１の閾値よりも小さくし、第１の閾値、第２の閾値、および短時間フレームゼロ交差率に応じてエネルギーマップを分析とスクリーニングし、それによって、オリジナル音声データに対して有効な音声検出を実行し、静音がスクリーニングされ、かつノイズがグレイディングした話者に対する有効な音声データ（すなわち、候補音声データ）を得て、また、候補音声データに対してクロスチャネル相関検出を実行することで、オリジナル音声データにおけるクロストーク音声を検出と分類し、異なるチャネル分類の音声データを得る。オリジナル音声データに対して、音声信号エネルギーとゼロ交差率に基づくブレイクアウト検出、チャネル検出、および話者係数の抽出とラベリングを行うことで、オリジナル音声データの品質を確保する一方で、その後のオリジナル音声データを処理する時の利便性を向上させる。

２０２では、予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得る。

具体的には、サーバが予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得ることは、分割音声データのセグメント総数を取得し、かつ予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を取得することと、分割音声データのセグメント総数、所定の時間長、および畳み込みフィルタの数に応じて、テールバイティング畳み込み符号を設定し、テールバイティング畳み込み符号を畳み込みフィルタバンクの畳み込みエンコーダグループに記憶することと、畳み込みエンコーダグループによって、分割音声データを符号化し、分割音声データに対応する候補声紋特徴データを得ることと、候補声紋特徴データに対して離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得ることと、を含み得る。

ここで、所定の時間長をテールバイティング畳み込み符号の制約長とし、分割音声データのセグメント数を毎回畳み込みエンコーダに入力されたビット数とし、予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を出力されるグループ符号語の次元数とし、分割音声データの数を出力されるグループ符号語の次元数で割った値を符号化率とすると、得られたテールバイティング畳み込み符号は（Ｔ，Ｋ，Ｈ）となる。セグメント数、所定の時間長と数に応じてテールバイティング畳み込み符号を設定することで、声紋特徴抽出を行う際の分割音声データの情報損失を防止する。分割音声データに対してテールバイティング畳み込み処理を行った後、双方向ビタビアルゴリズムを用いて、ダイナミックプランニングにより候補声紋特徴データを復号する最短経路を実現し、復号された声紋特徴データを得て、さらに復号された声紋特徴データに対して離散フーリエ変換処理を行うことで、分割音声データに対応する声紋特徴データを得ることができる。

２０３では、予め設定されたディープニューラルネットワークによって、分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得る。

具体的には、サーバが予め設定されたディープニューラルネットワークによって、分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得ることは、予め設定されたディープニューラルネットワークにおけるスライドウィンドウによって、分割音声データに対応する声紋特徴データを切り取り、複数グループのウィンドウデータを得ることと、複数グループのウィンドウデータにおける各グループのウィンドウデータの最大値と平均値をそれぞれ計算し、各グループのウィンドウデータの最大値を第１の話者特徴とし、各グループのウィンドウデータの平均値を第２の話者特徴とすることと、第１の話者特徴と第２の話者特徴を融合して、ターゲット声紋特徴を得ることと、を含み得る。

サーバは、分割音声データに対応する声紋特徴データに対応する各グループのウィンドウデータの最大値と平均値を取得した後、全てのウィンドウデータの最大値と平均値をそれぞれ融合ｃｏｎｃａｔｅｎａｔｅして最大値融合データと平均値融合データを得て、かつ最大値融合データと平均値融合データを、予め設定されたディープニューラルネットワークによって分割音声データに対応する声紋特徴データをプーリング処理して得られたターゲット声紋特徴として使用する。平均値融合データを例に挙げて説明する場合、オリジナル音声データの分割音声データに対応する声紋特徴データのデータ形式は（Ｔ，Ｋ，Ｈ）であり、分割音声データに対応する声紋特徴データのＴ次元に対して平均プーリング処理を行い、各グッループのウィンドウデータの平均値のデータ形式（Ｋ，Ｈ）を得て、Ｋ次元の分割音声データに対応する声紋特徴データを融合し、データ形式が（１，ＫＨ）の平均値融合データを得て、もし特定のバッチｂａｔｃｈのオリジナル音声データにＳ人の話者が存在し、各話者がＤ個のオリジナル音声データを有する場合、平均プーリング処理によってデータ形式が（ＳＤ，ＫＨ）のターゲット声紋特徴を得る。

２０４では、ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得る。

２０５では、予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、声紋特徴ベクトルを計算し、ターゲット声紋データを得る。

具体的には、予め設定された損失関数は、

であり、
コサイン類似度行列損失関数は、

であり、
最小平均二乗誤差行列損失関数は、

であり、
ここで、ａ_ｊｉは、ｊ番目の話者のｉ番目の声紋特徴ベクトルを表し、γは、最小平均二乗誤差行列ＭＭＳＥ損失関数部分全体の大きさを調整するための調整係数を表し、Ｎは、各話者に対応する声紋特徴ベクトルの数を表し、ｋは、ｋ番目のｅｘｐ（ＭＭＳＥ_ｊ）値を表し、ｃ_ｊ ^（－ｉ）とｃ_ｋはいずれも、ｉ番目の声紋特徴ベクトルを除くｊ番目の話者の他の声紋特徴ベクトルの平均値を表し、ｗ、ｂ、μ、θおよびβは、予め設定されたランダム変数を表し、ＬＣ_ｊ,ｔは、ｔ時点の声紋特徴ベクトルのうちｊ番目の話者に対応する声紋特徴ベクトルの平均値を表し、Ｍは、声紋特徴ベクトルに対応する話者の数を表す。

２０６では、予め設定されたデータベースから、ターゲット声紋データに対応する履歴処理データを取得し、履歴処理データをクラスタリングし、クラスタリングされた結果に応じて、ターゲット声紋データの後続の推奨処理手段を取得する。

ここで、履歴処理データは、過去で記憶された、取得した声紋データをその後の他の種類のデータ分析に用いて生成された処理データであり、例えば、会議でのオリジナル音声データを処理して声紋データを得て、得られた声紋データに話者の役割をタグ付けし、話者の役割に応じて、話者の役割をタグ付けされた話者データを分類して分類データを得て、音声のトーンの変化に応じて分析して、分類データの重要な内容を区画し、会議音声分類メモ情報を得る。サーバは、ターゲット声紋データを得た後、ターゲット声紋データのキー値を作成し、当該キー値を用いて予め設定されたデータベースを検索し、キー値と同一または類似の、その後のデータ分析に使用される履歴処理データを得て、履歴処理データの重み値を取得し、かつ重み値の大きさに応じて履歴処理データをソートしてスクリーニングし、予め設定された範囲内にソートされた履歴処理データを取得し、処理データを得て、そして、Ｋ－ＭＥＡＮＳクラスタリングアルゴリズムにより、処理データに対して初期クラスタリング処理を行い、初期クラスタリング手段を得る。ガウス混合モデル（ＧＭＭ）に基づく期待値最大化（ＥＭ）クラスタリングアルゴリズムにより、初期クラスタリング手段へのディープクラスタリングを行い、処理タイプを得る。処理タイプに応じて、過去で記憶された処理手段情報から、処理タイプと同一または類似の処理手段情報を取得し、処理手段情報の重み値を得て、かつ処理手段情報の重み値を大きい順にソートし、予め設定されたソート範囲内にある処理手段情報を、ターゲット声紋データの後続の推奨処理手段として使用する。

任意選択的に、サーバは、ターゲット声紋データの後続の推奨処理手段情報を取得した後、ターゲット声紋データを予め設定されたディザスタリカバリセンターに記憶し、かつ外ターゲット声紋データの後続の推奨処理手段情報を実行する要求をクライアント側に送信し、所定時間内にクライアント側からの受信要求を受信する場合、ターゲット声紋データの後続の推奨処理手段に応じて、ターゲット声紋データへの後続のデータ分析処理を実行する。インテリジェントな推奨処理手段情報を使用することで、オリジナル音声の声紋認識モデルの情報損失およびシステムの複雑性を低減するとともに、オリジナル音声の声紋認識モデルによるオリジナル音声データの処理際のインテリジェンス、自律性、および利便性も向上させる。

本出願の実施例では、インテリジェントな推奨処理手段情報を使用することで、話者オリジナル音声データ認識モデルの情報損失およびシステムの複雑性を低減するとともに、話者オリジナル音声データ認識モデルによるオリジナル音声データの処理際のインテリジェンス、自律性、および利便性を向上させる。

以上は、本出願の実施例におけるオリジナル音声の声紋認識方法を説明したが、以下は、本出願の実施例におけるオリジナル音声の声紋認識装置を説明し、図３を参照すると、本出願の実施例におけるオリジナル音声の声紋認識装置の一実施例は、
オリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得るための分割モジュール３０１と、
予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得るための第１の処理モジュール３０２と、
予め設定されたディープニューラルネットワークによって、分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るための第２の処理モジュール３０３と、
ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るための第３の処理モジュール３０４と、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、声紋特徴ベクトルを計算し、ターゲット声紋データを得るための計算モジュール３０５と、を含む。

図４を参照すると、本出願の実施例におけるオリジナル音声の声紋認識装置の別の実施例は、
オリジナル音声データを取得し、所定の時間長に応じてオリジナル音声データを分割し、分割音声データを得るための分割モジュール３０１と、
予め設定された畳み込みフィルタバンクによって、分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得るための第１の処理モジュール３０２と、
予め設定されたディープニューラルネットワークによって、分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るための第２の処理モジュール３０３と、
ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るための第３の処理モジュール３０４と、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、声紋特徴ベクトルを計算し、ターゲット声紋データを得るための計算モジュール３０５と、
予め設定されたデータベースから、ターゲット声紋データに対応する履歴処理データを取得し、履歴処理データをクラスタリングし、クラスタリングされた結果に応じて、ターゲット声紋データの後続の推奨処理手段を取得するための第４の処理モジュール３０６と、を含む。

任意選択的に、第１の処理モジュール３０２はさらに、具体的に、
オリジナル音声データを取得し、オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得ることと、
候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得ることと、
所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得ることと、に使用され得る。

任意選択的に、第１の処理モジュール３０２はさらに、具体的に、
分割音声データのセグメント総数を取得し、かつ予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を取得することと、
分割音声データのセグメント総数、所定の時間長、および畳み込みフィルタの数に応じて、テールバイティング畳み込み符号を設定し、テールバイティング畳み込み符号を畳み込みフィルタバンクにおける畳み込みエンコーダグループに記憶することと、
畳み込みエンコーダグループによって、分割音声データを符号化し、分割音声データに対応する候補声紋特徴データを得ることと、
候補声紋特徴データに対して離散フーリエ変換処理を行い、分割音声データに対応する声紋特徴データを得ることと、に使用され得る。上記の声紋特徴データのプライバシーとセキュリティをさらに確保するために、上記の声紋特徴データをブロックチェーンのノードに記憶してもよいことを強調する必要がある。

任意選択的に、第２の処理モジュール３０３はさらに、具体的に、
予め設定されたディープニューラルネットワークにおけるスライドウィンドウによって、分割音声データに対応する声紋特徴データを切り取り、複数グループのウィンドウデータを得ることと、
複数グループのウィンドウデータにおける各グループのウィンドウデータの最大値と平均値をそれぞれ計算し、各グループのウィンドウデータの最大値を第１の話者特徴とし、各グループのウィンドウデータの平均値を第２の話者特徴とすることと、
第１の話者特徴と第２の話者特徴を融合して、ターゲット声紋特徴を得ることと、に使用され得る。

任意選択的に、オリジナル音声の声紋認識装置における、予め設定された損失関数は、

であり、
コサイン類似度行列損失関数は、

であり、
最小平均二乗誤差行列損失関数は、

であり、
ここで、ａ_ｊｉは、ｊ番目の話者のｉ番目の声紋特徴ベクトルを表し、γは調整係数を表し、Ｎは、各話者に対応する声紋特徴ベクトルの数を表し、ｋは、ｋ番目のｅｘｐ（ＭＭＳＥ_ｊ）値を表し、ｃ_ｊ ^（－ｉ）とｃ_ｋはいずれも、ｉ番目の声紋特徴ベクトルを除くｊ番目の話者の他の声紋特徴ベクトルの平均値を表し、ｗ、ｂ、μ、θおよびβは、予め設定されたランダム変数を表し、ＬＣ_ｊ,ｔは、ｔ時点の声紋特徴ベクトルのうちｊ番目の話者に対応する声紋特徴ベクトルの平均値を表し、Ｍは、声紋特徴ベクトルに対応する話者の数を表す。

上記の図３および図４では、モジュール機能体の観点から本出願の実施例におけるオリジナル音声の声紋認識装置を詳細に説明し、以下は、ハードウェア処理の観点から本出願の実施例におけるオリジナル音声の声紋認識設備を詳細に説明する。

図５は、本出願の実施例で提供されるオリジナル音声の声紋認識設備の構造模式図であり、当該オリジナル音声の声紋認識設備５００は、構成や性能によって差異が比較的大きい可能性があり、１つ以上のプロセッサ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ、ＣＰＵ）５１０（例えば、１つ以上のプロセッサ）と、メモリ５２０と、アプリケーション５３３やデータ５３２を記憶する１つ以上の記憶媒体５３０（例えば、１つ以上の大容量記憶設備）を含み得る。ここで、メモリ５２０および記憶媒体５３０は、短期記憶または永続記憶のものであり得る。記憶媒体５３０に記憶されたプログラムは、１つ以上のモジュール（図示せず）を含み得、各モジュールは、オリジナル音声の声紋認識設備５００に対する一連の命令操作を含み得る。さらに、プロセッサ５１０は、記憶媒体５３０と通信し、記憶媒体５３０における一連の命令操作をオリジナル音声の声紋認識設備５００上で実行するように構成してもよい。

オリジナル音声の声紋認識設備５００はさらに、１つ以上の電源５４０と、１つ以上の有線または無線ネットワークインターフェース５５０と、１つ以上の入出力インターフェース５６０、および／または、ＷｉｎｄｏｗｓＳｅｒｖｅ、ＭａｃＯＳＸ、Ｕｎｉｘ、Ｌｉｎｕｘ、ＦｒｅｅＢＳＤなどの１つ以上のオペレーティングシステム５３１を含み得る。当業者であれば、図５に示すオリジナル音声の声紋認識設備構造は、オリジナル音声の声紋認識設備を限定するものではなく、図示したものよりも多くのまたは少ない部品を含んでもよいし、特定の部品を組み合わせてもよいし、部品の異なる配置であってもよいことを理解できるであろう。

本出願はさらに、オリジナル音声の声紋認識設備を提供し、命令が記憶されたメモリと、少なくとも１つのプロセッサとを含み、前記メモリと前記少なくとも１つのプロセッサは、回線によって相互に接続されており、前記少なくとも１つのプロセッサが前記メモリ内の前記命令を呼び出して、前記オリジナル音声の声紋認識設備に、上記のオリジナル音声の声紋認識方法のステップを実行させる。

本出願はさらに、コンピュータ可読記憶媒体を提供し、当該コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体であってもよいし、揮発性コンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体にはコンピュータ命令が記憶されており、前記コンピュータ命令がコンピュータ上で実行されると、
オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るステップと、
予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、
予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るステップと、
前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るステップと、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るステップと、をコンピュータに実行させる。

本出願でいうブロックチェーンは、分散型データストレージ、ピアツーピア伝送、コンセンサスメカニズム、暗号アルゴリズムなどのコンピュータ技術の新しい応用モデルである。ブロックチェーン（Ｂｌｏｃｋｃｈａｉｎ）は、実質的には分散型データベースであり、暗号化方法で相関して生成されたデータブロックであり、各データブロックには、１回のネットワークトランザクションに関する情報が含まれており、その情報の有効性（偽造防止）を検証し、次のブロックを生成するために使用される。ブロックチェーンは、基礎となるブロックチェーンプラットフォーム、プラットフォーム製品サービス層、およびアプリケーションサービス層などを含み得る。当業者であれば分かるように、説明の便宜上、上述したシステム、装置、およびユニットの具体的な動作プロセスは、上述した方法実施例における対応するプロセスを参照することができ、ここでは繰り返して説明しない。

前記統合ユニットは、ソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用される場合には、コンピュータ可読取記憶媒体に記憶されてもよい。この理解に基づいて、本出願の技術的解決手段は、実質的に又は従来技術に寄与するその一部、または当該技術的解決手段の全部または一部は、ソフトウェア製品の形で具現化されてもよく、当該コンピュータソフトウェア製品は、記憶媒体に記憶され、コンピュータ設備（パーソナルコンピュータ、サーバやネットワーク設備など）に、本出願の各実施例に記載の方法のステップの全部または一部を実行させるためのいくつかの命令を含む。前述の記憶媒体には、ＵＳＢメモリー、ポータブルハードディスク、読み取り専用メモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）、ディスクまたは光ディスクなど、プログラムコードを記憶できる媒介が含まれている。

前述のように、上記の実施例は、本出願の技術的解決手段を説明するためのものに過ぎず、それらを限定するものではなく、上記の実施例を参照して本出願を詳細に説明したが、当業者であれば分かるように、上記の各実施例に記載された技術的解決手段を修正したり、その技術的特徴の一部を同等のものに置き換えたりすることは可能であり、そのような修正または置き換えは、対応する技術的解決手段の本質を本出願の各実施例の技術的解決手段の精神と範囲から逸脱させるものではない。

Claims

オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得ることと、
予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得ることと、
予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得ることと、
前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得ることと、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得ることと、を含む、オリジナル音声の声紋認識方法。
上述したオリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得ることは、
オリジナル音声データを取得し、前記オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得ることと、
前記候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得ることと、
所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得ることと、を含む、請求項１に記載のオリジナル音声の声紋認識方法。
上述した声紋特徴データはブロックチェーンに記憶され、上述した予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得ることは、
前記分割音声データのセグメント総数を取得し、かつ予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を取得することと、
前記分割音声データのセグメント総数、前記所定の時間長、および前記畳み込みフィルタの数に応じて、テールバイティング畳み込み符号を設定し、前記テールバイティング畳み込み符号を前記畳み込みフィルタバンクの畳み込みエンコーダグループに記憶することと、
前記畳み込みエンコーダグループによって、前記分割音声データを符号化し、前記分割音声データに対応する候補声紋特徴データを得ることと、
前記候補声紋特徴データに対して離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得ることと、を含む、請求項２に記載のオリジナル音声の声紋認識方法。
上述した予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得ることは、
予め設定されたディープニューラルネットワークにおけるスライドウィンドウによって、前記分割音声データに対応する声紋特徴データを切り取り、複数グループのウィンドウデータを得ることと、
前記複数グループのウィンドウデータにおける各グループのウィンドウデータの最大値と平均値をそれぞれ計算し、前記各グループのウィンドウデータの最大値を第１の話者特徴とし、前記各グループのウィンドウデータの平均値を第２の話者特徴とすることと、
前記第１の話者特徴と前記第２の話者特徴を融合して、ターゲット声紋特徴を得ることと、を含む、請求項３に記載のオリジナル音声の声紋認識方法。
前記予め設定された損失関数は、

であり、
前記コサイン類似度行列損失関数は、

であり、
前記最小平均二乗誤差行列損失関数は、

であり、
ここで、ａ_ｊｉは、ｊ番目の話者のｉ番目の前記声紋特徴ベクトルを表し、γは調整係数を表し、Ｎは、各話者に対応する前記声紋特徴ベクトルの数を表し、ｋは、ｋ番目のｅｘｐ（ＭＭＳＥ_ｊ）値を表し、ｃ_ｊ ^（－ｉ）とｃ_ｋはいずれも、ｉ番目の前記声紋特徴ベクトルを除くｊ番目の話者の他の声紋特徴ベクトルの平均値を表し、ｗ、ｂ、μ、θおよびβは、予め設定されたランダム変数を表し、ＬＣ_ｊ,ｔは、ｔ時点の前記声紋特徴ベクトルのうち、ｊ番目の話者に対応する声紋特徴ベクトルの平均値を表し、Ｍは、前記声紋特徴ベクトルに対応する話者の数を表す、請求項１に記載のオリジナル音声の声紋認識方法。
上述した予め設定された損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得た後、さらに、
予め設定されたデータベースから、前記ターゲット声紋データに対応する履歴処理手段データを取得し、前記履歴処理手段データをクラスタリングし、クラスタリングされた結果に応じて、前記声紋音声データの後続の推奨処理手段を取得することを含む、請求項１から５のいずれか１項に記載のオリジナル音声の声紋認識方法。
メモリと、プロセッサと、前記メモリに記憶され、前記プロセッサ上で実行可能なコンピュータ可読命令とを備え、前記プロセッサが前記コンピュータ可読命令を実行すると、
オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るステップと、
予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、
予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るステップと、
前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るステップと、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るステップと、を実現する、オリジナル音声の声紋認識設備。
前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
オリジナル音声データを取得し、前記オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得るステップと、
前記候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得るステップと、
所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得るステップと、を実現する、請求項７に記載のオリジナル音声の声紋認識設備。
前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
前記分割音声データのセグメント総数を取得し、かつ予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を取得するステップと、
前記分割音声データのセグメント総数、前記所定の時間長、および前記畳み込みフィルタの数に応じて、テールバイティング畳み込み符号を設定し、前記テールバイティング畳み込み符号を前記畳み込みフィルタバンクの畳み込みエンコーダグループに記憶するステップと、
前記畳み込みエンコーダグループによって、前記分割音声データを符号化し、前記分割音声データに対応する候補声紋特徴データを得るステップと、
前記候補声紋特徴データに対して離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、を実現する、請求項８に記載のオリジナル音声の声紋認識設備。
前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
予め設定されたディープニューラルネットワークにおけるスライドウィンドウによって、前記分割音声データに対応する声紋特徴データを切り取り、複数グループのウィンドウデータを得るステップと、
前記複数グループのウィンドウデータにおける各グループのウィンドウデータの最大値と平均値をそれぞれ計算し、前記各グループのウィンドウデータの最大値を第１の話者特徴とし、前記各グループのウィンドウデータの平均値を第２の話者特徴とするステップと、
前記第１の話者特徴と前記第２の話者特徴を融合して、ターゲット声紋特徴を得るステップと、を実現する、請求項９に記載のオリジナル音声の声紋認識設備。
前記プロセッサが前記コンピュータプログラムを実行すると、以下のステップを実現し、かつ関連する関数に関して、
前記予め設定された損失関数は、

であり、
前記コサイン類似度行列損失関数は、

であり、
前記最小平均二乗誤差行列損失関数は、

であり、
ここで、ａ_ｊｉは、ｊ番目の話者のｉ番目の前記声紋特徴ベクトルを表し、γは調整係数を表し、Ｎは、各話者に対応する前記声紋特徴ベクトルの数を表し、ｋは、ｋ番目のｅｘｐ（ＭＭＳＥ_ｊ）値を表し、ｃ_ｊ ^（－ｉ）とｃ_ｋはいずれも、ｉ番目の前記声紋特徴ベクトルを除くｊ番目の話者の他の声紋特徴ベクトルの平均値を表し、ｗ、ｂ、μ、θおよびβは、予め設定されたランダム変数を表し、ＬＣ_ｊ,ｔは、ｔ時点の前記声紋特徴ベクトルのうちｊ番目の話者に対応する声紋特徴ベクトルの平均値を表し、Ｍは、前記声紋特徴ベクトルに対応する話者の数を表す、請求項７に記載のオリジナル音声の声紋認識設備。
前記プロセッサが前記コンピュータプログラムを実行すると、さらに、
予め設定されたデータベースから、前記ターゲット声紋データに対応する履歴処理手段データを取得し、前記履歴処理手段データをクラスタリングし、クラスタリングされた結果に応じて、前記声紋音声データの後続の推奨処理手段を取得するステップを実現する、請求項７から１１のいずれか１項に記載のオリジナル音声の声紋認識設備。
コンピュータ命令が記憶されており、前記コンピュータ命令がコンピュータ上で実行されると、
オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るステップと、
予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、
予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るステップと、
前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るステップと、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るステップと、をコンピュータに実行させる、コンピュータ可読記憶媒体。
前記コンピュータ命令がコンピュータ上で実行されると、さらに、
オリジナル音声データを取得し、前記オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得るステップと、
前記候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得るステップと、
所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得るステップと、をコンピュータに実行させる、請求項１３に記載のコンピュータ可読記憶媒体。
前記コンピュータ命令がコンピュータ上で実行されると、さらに、
前記分割音声データのセグメント総数を取得し、かつ予め設定された畳み込みフィルタバンクにおける畳み込みフィルタの数を取得するステップと、
前記分割音声データのセグメント総数、前記所定の時間長、および前記畳み込みフィルタの数に応じて、テールバイティング畳み込み符号を設定し、前記テールバイティング畳み込み符号を前記畳み込みフィルタバンクの畳み込みエンコーダグループに記憶するステップと、
前記畳み込みエンコーダグループによって、前記分割音声データを符号化し、前記分割音声データに対応する候補声紋特徴データを得るステップと、
前記候補声紋特徴データに対して離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るステップと、をコンピュータに実行させる、請求項１４に記載のコンピュータ可読記憶媒体。
前記コンピュータ命令がコンピュータ上で実行されると、さらに、
予め設定されたディープニューラルネットワークにおけるスライドウィンドウによって、前記分割音声データに対応する声紋特徴データを切り取り、複数グループのウィンドウデータを得るステップと、
前記複数グループのウィンドウデータにおける各グループのウィンドウデータの最大値と平均値をそれぞれ計算し、前記各グループのウィンドウデータの最大値を第１の話者特徴とし、前記各グループのウィンドウデータの平均値を第２の話者特徴とするステップと、
前記第１の話者特徴と前記第２の話者特徴を融合して、ターゲット声紋特徴を得るステップと、をコンピュータに実行させる、請求項１５に記載のコンピュータ可読記憶媒体。
前記コンピュータ命令がコンピュータ上で実行されると、以下のステップを実行する時に、関連する関数に関して、
前記予め設定された損失関数は、

であり、
前記コサイン類似度行列損失関数は、

であり、
前記最小平均二乗誤差行列損失関数は、

であり、
ここで、ａ_ｊｉは、ｊ番目の話者のｉ番目の前記声紋特徴ベクトルを表し、γは調整係数を表し、Ｎは、各話者に対応する前記声紋特徴ベクトルの数を表し、ｋは、ｋ番目のｅｘｐ（ＭＭＳＥ_ｊ）値を表し、ｃ_ｊ ^（－ｉ）とｃ_ｋはいずれも、ｉ番目の前記声紋特徴ベクトルを除くｊ番目の話者の他の声紋特徴ベクトルの平均値を表し、ｗ、ｂ、μ、θおよびβは、予め設定されたランダム変数を表し、ＬＣ_ｊ,ｔは、ｔ時点の前記声紋特徴ベクトルのうちｊ番目の話者に対応する声紋特徴ベクトルの平均値を表し、Ｍは、前記声紋特徴ベクトルに対応する話者の数を表す、請求項１３に記載のコンピュータ可読記憶媒体。
前記コンピュータ命令がコンピュータ上で実行されると、さらに、
予め設定されたデータベースから、前記ターゲット声紋データに対応する履歴処理手段データを取得し、前記履歴処理手段データをクラスタリングし、クラスタリングされた結果に応じて、前記声紋音声データの後続の推奨処理手段を取得するステップをコンピュータに実行させる、請求項１３から１７のいずれか一項に記載のコンピュータ可読記憶媒体。
オリジナル音声データを取得し、所定の時間長に応じて前記オリジナル音声データを分割し、分割音声データを得るための分割モジュールと、
予め設定された畳み込みフィルタバンクによって、前記分割音声データに対してテールバイティング畳み込み処理と離散フーリエ変換処理を行い、前記分割音声データに対応する声紋特徴データを得るための第１の処理モジュールと、
予め設定されたディープニューラルネットワークによって、前記分割音声データに対応する声紋特徴データをプーリング処理し、ターゲット声紋特徴を得るための第２の処理モジュールと、
前記ターゲット声紋特徴に対して埋め込みベクトル変換処理を行い、対応する声紋特徴ベクトルを得るための第３の処理モジュールと、
予め設定された、コサイン類似度行列損失関数と最小平均二乗誤差行列損失関数を含む損失関数によって、前記声紋特徴ベクトルを計算し、ターゲット声紋データを得るための計算モジュールと、を含む、オリジナル音声の声紋認識装置。
前記分割モジュールは、具体的には、
オリジナル音声データを取得し、前記オリジナル音声データに対して音声信号エネルギーとゼロ交差率に基づいてブレイクアウト検出を行い、候補音声データを得ることと、
前記候補音声データに対してチャネル検出とチャネル分類を行い、分類後の各チャネルに対応する音声データを得ることと、
所定の時間長に応じて、分類後の各チャネルに対応する音声データを分割し、分割音声データを得ることと、に使用されることを特徴とする、請求項１９に記載のオリジナル音声の声紋認識装置。