JP6668501B2

JP6668501B2 - 音声データ処理方法、装置及び記憶媒体

Info

Publication number: JP6668501B2
Application number: JP2018552112A
Authority: JP
Inventors: ジン，シアンミン; リ，ウェイ; ジェン，ファンマイ; ウ，フジャン; ジュ，ビレイ; クイアン，ビンフア; リ，ケ; ウ，ヨンジャン; フアン，フェイユエ
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2016-03-25
Filing date: 2017-03-03
Publication date: 2020-03-18
Anticipated expiration: 2037-03-03
Also published as: CN105869645A; US20180286410A1; JP2019509523A; CN105869645B; EP3435374A1; US10692503B2; EP3435374B1; WO2017162017A1; EP3435374A4

Description

関連出願
本発明は、２０１６年３月２５日に中国特許庁に出願された、「音声データ処理の方法及び装置」と題された中国特許出願第２０１６１０１７８３００．８号に対する優先権を主張し、その全体が参照により本明細書に組み込まれる。

本願は、データ処理の分野に関し、具体的には、音声データ処理の方法及び装置に関する。

人工知能の様々な分野では、データが重要であり、多くの場合、データの品質が決定的な役割を果たす。しかしながら、実際の状況では、ほとんどの場合、データの品質が不均一であり、データを更に処理する必要がある。一般に、データ処理は、データから「ノイズ」を除去し、実際に必要なデータを保持することである。声紋認識の分野では、ほとんどの場合、インターネットを利用して得られた特定の人物の声紋の音声サンプルが不純であり、非ヒトの音声などのノイズを含むことに加えて、通常、別の人の発話が含まれることがある。どのようにしてノイズや別の人の声をクレンジングで取り除き、特定の人の声紋の音声サンプルのみを保持するかは、現在見られる主な課題である。

現在、ノイズや別の人の声紋を含む音声データから特定の人の声紋の音声サンプルを取得するためには、通常は手動のマーキング方法が用いられる。特定の人の声紋、別の人の声紋、及びノイズを含む音声データのうち特定の人の声紋に属する具体的な音声サンプルは手動で認識され、ノイズと別の人の声紋とを含む音声サンプルは手動で切除される。このような手動マーキング方法を用いて音声データをクレンジングすると、時間と手間がかかり、効率が低い。

上述の課題について、現時点では有効な解決策は提供されていない。

本願の実施形態は、少なくとも、手動のマーキング方法を用いて音声データをクレンジングすることができず、音声データクレンジング効率が低くなってしまうという、関連技術における技術的課題を解決するために、音声データ処理の方法及び装置を提供する。

本願の実施形態の態様によれば、音声データ処理方法が提供される。本方法は、複数の音声サンプルの各々のI-Vectorベクトルを取得し、複数の音声サンプルの中の標的シードサンプルを決定するステップと、標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算するステップであって、標的剰余音声サンプルは、複数の音声サンプルのうち標的シードサンプル以外の音声サンプルである、ステップと、少なくともコサイン距離に従って、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから標的音声サンプルを取得するステップであって、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離は、第１の所定閾値よりも大きい、ステップと、を含む。

本願の実施形態の別の態様によれば、音声データ処理装置が更に提供される。本装置は、プロセッサ及びメモリを備える。メモリは、プロセッサによって実行可能な命令を記憶する。命令の実行時、プロセッサは、上記の方法を実行するように構成される。

本願は更に、コンピュータプログラムを記憶する不揮発性コンピュータ記憶媒体を提供する。コンピュータプログラムは、上述の方法を実行するように構成される。

本明細書で説明される添付図面は、本願の更なる理解を提供するために用いられ、本願の一部を形成する。本願の例示的な実施形態とその説明は、本願を説明するために用いられるものであり、本願に対する不適切な限定を構成するものではない。

本願の実施形態に係る音声データ処理方法のハードウェア環境の概略図である。本願の実施形態に係る音声データ処理方法のフローチャートである。本願の実施形態に係る、I-Vectorベクトルを取得するプロセスの概略図である。本願の実施形態に係る、複数の標的音声サンプルにおいて標的シードサンプルを決定するフローチャートである。本願の実施形態に係る音声データ処理方法のフローチャートである。本願の実施形態に係る音声データ処理装置の概略図である。本願の実施形態に係る音声データ処理装置の概略図である。本願の実施形態に係る別の音声データ処理装置の概略図である。本願の実施形態に係る別の音声データ処理装置の概略図である。本願の実施形態に係る別の音声データ処理装置の概略図である。本願の実施形態に係る別の音声データ処理装置の概略図である。本願の実施形態に係る別の音声データ処理装置の概略図である。本願の実施形態に係る端末の構造ブロック図である。

当業者が本願の解決策をより良く理解できるようにするために、以下、本願の実施形態において添付図面を参照して、本願の実施形態における技術的解決策を明確且つ完全に記載する。当然ながら、記載される実施形態は、本願の実施形態の一部に過ぎず全部ではない。当業者が本願の実施形態に基づいて創意工夫なく得た他の実施形態は、全て本願の保護範囲に包含されるものとする。

なお、本願の明細書、特許請求の範囲及び添付図面において、「第１」、「第２」などの用語は、類似のものを区別するものであり、必ずしも具体的な順序又はシーケンスを示すものではない。この方式で使用されるデータは、必要に応じて交換することができるので、本明細書に記載される本願の実施形態は、本明細書に例示又は記載された順序以外の順序で実施することができることを理解されたい。更に、「有する」や「含む」等の表現及びその任意の他の変形は、非排他的な包含をカバーすることが意図される。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又はデバイスは、リストされたステップ又はユニットに限定されず、明示的に列挙されていないか、或いはそのようなプロセス、方法、システム、製品又は装置に固有のものではない、他のステップ又はユニットを含んでよい。

第一に、本願の実施形態の説明中に現れる一部の名詞又は用語は、以下の説明に適用可能である。

I-Vector声紋認識技術は、アイデンティティ因子識別技術とも呼ばれ、スピーカ空間とチャネル空間を強制的に分離しようとはしないが、全変動空間（Total Variability Space）が直接設定される。全変動空間は、音声データの可能な情報を全て含む。次に、要因分析法により、全変動空間の負荷因子が取得される。これがI-Vector声紋認識技術である。その次元は、ガウススーパーベクトル（ＧＳＶ）の次元よりもはるかに小さい。この因子に対して、スピーカを区別するための簡単な方法が用いられる。すなわち、異なるスピーカ間の距離を長くし、ノイズの影響を受けた同じスピーカの語句間の距離を短くする。当然ながら、これは既存の判別分析方法の目的である。スピーカの差はクラス間マトリックスと見なされ、ノイズに起因する差はクラス内マトリックスと見なされる。次に、既存の確率判別分析法を適用することにより、I-Vectorマトリックスが推定される。情報ベクトル、すなわち、スピーカのアイデンティティを反映するI-Vectorベクトルは、I-Vectorマトリックス上にマッピングされる。

本願の実施形態によれば、音声データ処理方法の方法実施形態が提供される。

本実施形態では、音声データ処理方法は、図１に示されるサーバ102及び端末104を含むハードウェア環境に適用することができる。図１に示されるように、サーバ102は、ネットワークを用いて端末104に接続される。ネットワークは、広域ネットワーク、メトロポリタン・エリア・ネットワーク又はローカルエリアネットワークを含むが、これらに限定されない。端末104は、パーソナルコンピュータ（ＰＣ）、携帯電話、タブレットコンピュータなどに限定されない。本願の本実施形態における音声データ処理方法は、サーバ102によって実行されてもよいし、或いは端末104によって実行されてもよいし、或いはサーバ102及び端末104の両方によって実行されてもよい。端末104によって実行される、本願の本実施形態における音声データ処理方法は、端末104にインストールされたクライアントによって実行されてよい。

図２は、本願の実施形態に係る音声データ処理方法のフローチャートである。図２に示されるように、本方法は以下のステップを含んでよい。

ステップＳ22：複数の音声サンプルの各々のI-Vectorベクトルを取得し、複数の音声サンプルの中の標的シードサンプルを決定する。

ステップＳ24：標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算する。標的剰余音声サンプルは、複数の音声サンプルのうち標的シードサンプル以外の音声サンプルである。

ステップＳ26：少なくともコサイン距離に従って、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから標的音声サンプルを取得する。標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離は、第１の所定閾値よりも大きい。

ステップＳ22〜ステップＳ26により、各音声サンプルのI-Vectorベクトルが取得され、音声サンプルの中で標的シードサンプルが決定される。標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離がそれぞれ計算され、その標的シードサンプルのI-Vectorベクトルまでのコサイン距離が第１の所定閾値よりも大きい標的音声サンプルが、少なくともコサイン距離に従って、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから取得される。よって、人間の介在なしに音声データを自動でクレンジングするという目的が達成される。よって、手動のマーキング方法を用いて音声データをクレンジングすることができず、音声データクレンジング効率が低くなってしまうという、関連技術における技術的課題が解決され、音声データクレンジング効率を向上させるという技術的効果が達成される。

なお、１つの音声データ内の任意の音声サンプルについて、処理後に音声サンプルの１つのI-Vectorベクトルを得ることができる。I-Vectorベクトルは、I-Vectorマトリックスにスピーカのアイデンティティを反映するのに用いられる情報ベクトルである。音声サンプル間の差は、２つの音声サンプルのI-Vectorベクトル間のコサイン距離を用いて表されてよい。２つの音声サンプルのI-Vectorベクトル間のコサイン距離が１に近いほど、２つの音声サンプルが近いことを示し、それ以外の場合は、２つの音声サンプル間の差が大きいことを示す。同じ特定の人の音声サンプルについては、音声サンプルのI-Vectorベクトル間のコサイン距離は１に近くなければならず、その差は非常に小さい。したがって、本願の実施形態では、音声データのクレンジングの目的を達成するために、音声サンプルのI-Vectorベクトル間のコサイン距離に基づいて、音声サンプルがクラスタリングされる。

本願の本実施形態における音声データ処理方法を用いてどのように音声データをクレンジングするのかを理解しやすくするために、ここで、まず、ステップＳ22で提供される技術的解決策において、複数の音声サンプルの各々のI-Vectorベクトルをどのように取得するのかを詳細に説明する。詳細は以下のとおりである。

複数の音声サンプルの各々のI-Vectorベクトルを取得するステップＳ22は、以下のステップを含んでよい。

ステップＳ221：複数の音声サンプルの各々の音声特性パラメータを取得する。

なお、１つの音声データは複数の音声サンプルを含んでよい。各音声サンプルは、特定の人の声紋、別の人の声紋又はノイズに対応してよい。特定の人の声紋、別の人の声紋、ノイズの音声サンプルの音声特性パラメータはそれぞれ異なり、音声特性パラメータは、音声サンプルの声紋情報を表わすために用いられてよい。音声特性パラメータは、含まれる声紋タイプと、各タイプの声紋の周波数や強度などの情報とを含んでよいが、これに限定されない。

ステップＳ221は以下のステップを含んでよい。

ステップＳ2211：音声サンプルを処理して、サンプリングレートがそれぞれ第１のサンプリングレートと第２のサンプリングレートであるパルス符号変調（ＰＣＭ）信号にする。

ステップＳ2212：ＰＣＭ信号から音声特性パラメータを抽出する。

ステップＳ2213：音声特性パラメータにエネルギー検出及び正規化処理を実行する。

なお、本明細書に記載の第１のサンプリングレート及び第２のサンプリングレートは、実際の要件に応じて設定及び調整されてよく、第１のサンプリングレートは第２のサンプリングレートとは異なる。これは、本実施形態において具体的に限定はされない。本実施形態では、音声サンプルが処理されて異なるサンプリングレートを有するＰＣＭ信号とされ、ＰＣＭ信号から、音声サンプルの声紋情報を識別するのに用いられる音声特性パラメータが抽出されるので、抽出された音声特性パラメータの精度を向上させる効果を達成することができる。音声特性パラメータが抽出された後、音声特性パラメータに対してエネルギー検出と正規化処理が実行されるので、音声特性パラメータの安定性と精度を向上させる効果を達成することができる。なお、ＰＣＭ信号から抽出された音声特性パラメータは、ＰＣＭ信号から抽出されたＭＦＣＣ特性の１次統計量及び２次統計量が接合される特性であってよい。なお、更に、抽出された音声特性パラメータの安定性及び精度を向上させるために、本実施形態では、抽出された音声特性パラメータに対して音声活動検出等が更に実行されてよい。ここでは、例を用いて詳細を説明することはしない。

実際の適用シナリオにおいて、本実施形態では、音声サンプルは、fflmpegソフトウェアを用いて処理されて、そのサンプリングレートがそれぞれ８Ｋと１６ビットであるＰＣＭファイルとされてよい。具体的な操作コマンドは、ffmpeg -y -loglevel quiet -I オリジナル音声ファイル -acodec pam_s161e -ar 8000 -ac 標的音声ファイル名.pcmである。次に、ＭＦＣＣ特性が抽出される。具体的には、matlabのvioceboxツールキットやＨＴＫ音声認識パッケージ等のツールを用いて、２つのフレーム間に１０ｍｓのオーバーラップを有する２０ｍｓのフレーム長のＭＦＣＣ特性を抽出することができる。一般に、始めの２０次元のＭＦＣＣ特性が抽出される。次に、２０次元のＭＦＣＣ特性の１次統計量と２次統計量が取得されて、音声サンプルの音声特性パラメータに接合される。抽出されたＭＦＣＣ特性に対して、エネルギー検出、音声活動検出及び正規化処理が実行されてよい。

ステップＳ222：事前トレーニングによって完成されたI-Vectorマトリックスを用いて、各音声サンプルのI-Vectorベクトルを取得する。I-Vectorマトリックスは、音声サンプルの音声特性パラメータに対応するI-Vectorベクトルを示すのに用いられる。

なお、各音声サンプルの音声特性パラメータが取得された後、各音声サンプルのI-Vectorベクトルは、事前トレーニングによって完成されたI-Vectorマトリックスを用いて取得されてよい。なお、I-Vectorマトリックスは、音声サンプルの音声特性パラメータに対応するI-Vectorベクトルを示すのに用いられてよい。

I-Vectorマトリックスは、以下のステップを用いたトレーニングによって取得することができる。詳細は以下のとおりである。

ステップＳ2221：I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを取得する。

なお、ここで、I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータは、ステップＳ2211〜ステップＳ2213によって取得することができ、ここでは詳細の説明を省略する。実際の適用シナリオでは、１００時間超の音声データが、I-Vectorマトリックスのためのトレーニングデータとして選択されてよい。各音声サンプルの音声特性パラメータは、ステップＳ2211〜ステップＳ2213によって取得されてよい。

ステップＳ2222：I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータに従って、事前トレーニングによって完成された混合ガウスモデル（ＧＭＭ）からＧＳＶを抽出する。ＧＭＭは、ＧＭＭのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを用いたトレーニングによって得られるモデルである。

なお、ＧＭＭは、ＧＭＭのトレーニングに用いられる複数の音声サンプルの音声特性パラメータを用いてトレーニングすることによって得ることができる。実際のＧＭＭのトレーニング時には、約５０時間の音声データが、背景モデルのトレーニングデータとしてランダムに選択されてよい。ステップＳ2211〜ステップＳ2213に従って、上述の音声データの各音声サンプルの音声特性パラメータが取得された後、取得された音声特性パラメータを用いてＧＭＭがトレーニングされる。一般に、５１２超のコンポーネントがカスタマイズされる。なお、ここで、均一バックグラウンド・モデル（ＵＢＭ）は、実際には大きなＧＭＭであり、スピーカとは関係のない特性をトレーニングするのに用いられる。ＵＢＭ用のトレーニングデータは、様々なチャネル上の全ての人々の音声データを可能な限り含む。ＵＢＭのトレーニングは、ＧＭＭのトレーニングである。使用されるアルゴリズムはＥＭアルゴリズムであってよく、ＥＭアルゴリズムにおいて収束がない場合には、トレーニングが終了したと考えることができる。

I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータが取得された後、事前トレーニングによって完成されたＧＭＭを用いてＧＳＶを抽出することができる。ＧＳＶは、ＧＭＭの平均値を接合することによって形成される超高次元のベクトルである。

ステップＳ2223：ＧＳＶを用いてI-Vectorマトリックスをトレーニングする。

なお、I-Vector技術は、単一空間に基づくクロスチャネルアルゴリズムであり、スピーカ空間に関する情報とチャネル空間に関する情報とは区別されない。任意の個別の音声サンプルは、バックグラウンドモデルm₀と各スピーカの特性を反映するTw_Sとに分解することができる。ＧＳＶは、M_S＝m₀＋Tw_Sと表すことができる。ここで、ＭｓはC*F次元のＧＳＶであり、m₀は、スピーカに無関係であり且つチャネルに無関係であるC*F次元のスーパーベクトルであり、ＵＢＭの平均ベクトルを接合することによって得られる。w_Sは、Ｎ次元の全変動因子、すなわちI-Vectorであり、標準正規分布に従うランダムベクトル群である。Ｔは、CF*N次元の全変動空間マトリックスである。I-Vectorをトレーニングするフェーズでは、全変動空間マトリックスＴが、要因分析アルゴリズムを用いて、大量の音声データトレーニング集合に従って推定される。全変動空間が得られた後、マトリックスＴによって示される全変動部分空間に高次ＧＳＶが射影され、最終的に低次元の全変動因子、すなわちI-Vectorベクトルが得られる。

図３は、本願の実施形態に係る、I-Vectorベクトルを取得するプロセスの概略図である。図３に示されるように、図３は、２つの音声サンプルのI-Vectorベクトルを取得するプロセスの例のみを示す。複数の音声サンプルのうち別の音声サンプルについて、図３に示される取得プロセスを用いて、音声サンプルのI-Vectorベクトルを得ることもできることを理解されたい。図３に示されるように、まず、音声サンプルからＭＦＣＣ特性が抽出され、事前トレーニングによって完成されたＵＢＭを用いてＧＳＶが抽出される。次に、事前トレーニングによって得られた全変動空間マトリックスＴ、すなわちI-Vectorマトリックスを用いて、I-Vectorベクトルが得られる。最後に、事前トレーニングによって完成された線形判別分析モジュール（ＰＬＤＡ）モデルを用いて、得られたI-Vectorベクトルに従って音声サンプルがフィルタリングされる。

ステップＳ22で提供される技術的解決策では、複数の音声サンプルの各々のI-Vectorベクトルが取得された後、本願の本実施形態では、複数の音声サンプルにおいて標的シードサンプルが更に決定される必要がある。標的シードサンプルは、複数の音声サンプルの少なくとも１つを接合することによって取得することができる。標的シードサンプルに接合される必要のある複数の音声サンプルのうち少なくとも１つの量は、標的シードサンプルによって実際に必要とされる音声時間に応じて調整されてよい。

以下の反復プロセスを用いて、複数の音声サンプルにおいて標的シードサンプルが決定されてよい。なお、反復プロセスの初期化は、複数の音声サンプルのうち少なくとも１つを接合することによって得られるものとして現在のシードサンプルを初期化することと、前回のラウンドのシードサンプルと前回のラウンドの剰余音声サンプルとを空として初期化することと、を含んでよい。図４は、本願の実施形態に係る、複数の標的音声サンプルにおいて標的シードサンプルを決定するフローチャートである。図４に示されるように、複数の音声サンプルにおいて標的シードサンプルを決定するステップは、標的シードサンプルが決定されるまで以下の工程を繰り返し実行することを含んでよい。

ステップＳ223：現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算する。現在の剰余音声サンプルは、複数の音声サンプルの中で現在のシードサンプル以外の音声サンプルである。

なお、２つのベクトル間のコサイン距離は、以下のユークリッドのドット積式を用いて導出することができる。

２つのI-VectorベクトルＡ，Ｂが与えられたとき、２つのI-VectorベクトルＡ，Ｂのコサイン類似度θは、以下の式に示されるように、ドット積とベクトル長を用いて取得される。ここで、A_i及びB_iはそれぞれベクトルＡ，Ｂの成分を示す。

上述の式から分かるように、類似度の範囲は−１〜１である。ここで、−１は、２つのベクトルが向いている方向が互いに正反対であることを示し、１は、２つのベクトルの方向が同じであることを示し、０は、２つのベクトルが互いに独立していることを示す。−１と１との間の値は、２つのベクトルの類似性又は差を示す。

なお、現在の剰余複数の音声サンプルの中で現在のシードサンプル以外の音声サンプルは、複数存在してよく、したがって、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離は、複数存在する。現在の剰余音声サンプルの各々のI-Vectorベクトルと現在のシードサンプルのI-Vectorベクトルとの間のコサイン距離は、上述の式を用いて計算されてよい。

ステップＳ224：第１の平均値と第２の平均値との差が第２の所定閾値よりも小さいか否かを決定する。

第１の平均値は、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値である。第２の平均値は、前回のラウンドのシードサンプルのI-Vectorベクトルと前回のラウンドの剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値である。前回のラウンドの剰余音声サンプルは、複数の音声サンプルのうち前回のラウンドのシードサンプル以外の音声サンプルである。なお、前回のラウンドのシードサンプルのI-Vectorベクトルと、前回のラウンドの剰余音声サンプルの各々のI-Vectorベクトルとの間のコサイン距離は、上述の式を用いて計算されてもよい。本実施形態では、シードサンプルが決定されるたびに、シードサンプルのI-Vectorベクトルと剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値が計算される。初期化を起点として、２つの平均値が計算される度に、本実施形態では、計算された２つの平均値の差が比較されて、その差が第２の所定閾値よりも小さいか否かが決定される。なお、第２の所定閾値は、実際の要件に応じて設定又は調整されてよい。

第１の平均値と第２の平均値との差が第２の所定閾値よりも小さいと決定されたとき、本実施形態では、ステップＳ225が実行される。そうでなければ、ステップＳ226が実行される。

ステップＳ225：差が第２の所定閾値よりも小さい場合、現在のシードサンプルを標的シードサンプルとして決定する。

第１の平均値と第２の平均値との差が第２の所定閾値よりも小さいとき、反復プロセスは終了され、決定された現在のシードサンプルが標的シードサンプルである。標的シードサンプルが決定された後、コサイン距離に従って音声サンプルをフィルタリングすることにより音声データをクレンジングする目的を達成するために、ステップＳ24及びステップＳ26が標的シードサンプルを用いて実行されてよい。

ステップＳ226：差が第２の所定閾値以上である場合、現在のシードサンプルを前回のラウンドのシードサンプルとして用い、現在の剰余音声サンプルから音声サンプルを選択し、選択された音声サンプルを現在のシードサンプルに接合し、現在の剰余音声サンプルを前回のラウンドの剰余音声サンプルとして用い、ステップＳ223に戻る。

第１の平均値と第２の平均値との差が第２の所定閾値よりも大きいとき、反復が更に実行される必要があることを示す。現在のシードサンプルが前回のラウンドのシードサンプルとして用いられ、音声サンプルが現在の剰余音声サンプルから選択され、選択された音声サンプルが接合されて現在のシードサンプルとなり、現在の剰余音声サンプルが、前回のラウンドの剰余音声サンプルとして用いられ、ステップＳ223に戻って、次の反復プロセスに続く。反復プロセスは、コサイン距離の計算された２つの平均値の差が第２の所定閾値よりも小さいと決定されるまで終了しない。

上述のステップでは、反復プロセスにより、複数の音声サンプルにおいて標的シードサンプルが決定される。反復プロセスでは、I-Vectorベクトル間のコサイン距離に従ってクラスタリングが実行されるので、複数の音声サンプルに差異性クラスタリングを実行する目的が達成される。

現在の剰余音声サンプルから音声サンプルを選択するステップＳ226は、以下のステップを含んでよい。

ステップＳ2262：現在の剰余音声サンプルを、コサイン距離の昇順にソートする。

ステップＳ2264：ソート後の現在の剰余音声サンプルから、１つ以上の上位の音声サンプルを選択する。１つ以上の上位の音声サンプルが接合された現在のシードサンプルの音声時間は、第３の所定閾値である。

なお、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルの各々のI-Vectorベクトルとの間のコサイン距離が計算された後、反復処理を終了する条件が満たされていない場合、本実施形態では、現在のシードサンプルが再決定される必要がある。現在のシードサンプルが決定されると、コサイン距離が昇順にソートされる。ソートの目的は、比較的短いコサイン距離を有する音声サンプルが現在のシードサンプルに接合されるように、比較的短いコサイン距離を有する少なくとも１つの音声サンプルを簡単に速く決定することである。

なお、更に、比較的短いコサイン距離を有する少なくとも１つの音声サンプルが現在のシードサンプルに接合されるとき、実際の要件に応じて決定されたシードサンプルの音声時間が考慮される必要がある。現在のシードサンプルに接合される必要のある音声サンプルの数は、音声時間に従って決定される。ここで、現在のシードサンプルの音声時間の参照値は第３の所定閾値である。第３の所定閾値は、実際の要件に応じて設定又は調整することができ、ここでは具体的に限定されない。

ステップＳ24で提供される技術的解決策では、標的シードサンプルが決定された後、複数の音声サンプルのうち標的シードサンプル以外の音声サンプルが、標的剰余音声サンプルである。標的剰余音声サンプルは１つ以上存在してよい。なお、標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルの各々のI-Vectorベクトルとの間のコサイン距離を計算する方法は、ステップＳ223で説明された方法と同じであり、ここでは詳細の説明を省略する。複数の標的剰余音声サンプルが存在する場合、標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間の計算されるコサイン距離は、複数存在する。コサイン距離は全て−１〜１の範囲内であり、少なくとも２つのコサイン距離は同じであってよい。

ステップＳ26で提供される技術的解決策では、標的音声サンプルは、ステップＳ24で計算されたコサイン距離に従って取得されてよい。標的音声サンプルは、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから取得される音声サンプルである。なお、複数の音声サンプル又は標的剰余音声サンプルをフィルタリングする条件は、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離が、第１の所定閾値よりも大きいことである。第１の所定閾値は、実際の要件に応じて設定又は調整することができ、ここでは具体的に限定されない。フィルタリング条件に従って、複数の音声サンプル又は標的剰余音声サンプルからフィルタリングによって得られる標的音声サンプルは、１つ以上存在してよい。

実際の適用シナリオでは、上述のステップによって得られる標的音声サンプルは、特定の人の声紋、別の人の声紋及びノイズを含む音声データをクレンジングすることによって得られる、特定の人の声紋の音声サンプルである。上述のステップにより、手動のマーキング方法を用いて音声データをクレンジングすることができず、音声データクレンジング効率が低くなってしまうという、関連技術における技術的課題を解決することができ、よって、音声データクレンジング効率を向上させるという技術的効果が達成される。

少なくともコサイン距離に従って、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから標的音声サンプルを取得するステップＳ26は、以下のステップを含んでよい。

ステップＳ262：標的剰余音声サンプルの数が第４の所定閾値以上であるか否かを決定する。

ステップＳ264：標的剰余音声サンプルの数が第４の所定閾値以上であるとき、コサイン距離に従って、フィルタリングにより、標的剰余音声サンプルから標的音声サンプルを取得する。

ステップＳ266：標的剰余音声サンプルの数が第４の所定閾値よりも小さいとき、コサイン距離、及び、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離に従って、フィルタリングにより、複数の音声サンプルから標的音声サンプルを取得する。

なお、ステップＳ26で取得される標的音声サンプルは、フィルタリングにより複数の音声サンプルから取得されてもよく、フィルタリングにより標的剰余音声サンプルから取得されてもよい。本実施形態では、標的剰余音声サンプルの数は、複数の音声サンプルにフィルタリングが実行されたか否か、或いは標的剰余音声サンプルにフィルタリングが実行されたか否かを決定するための根拠として用いられる。具体的には、標的剰余音声サンプルの数が第４の所定閾値以上であるとき、本実施形態では、標的音声サンプルは、標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離に従って、フィルタリングにより標的剰余音声サンプルから取得されてよい。第１の所定閾値よりも大きいコサイン距離を有する音声サンプルが、標的剰余音声サンプルから標的音声サンプルとして選択される。標的剰余音声サンプルの数が第４の所定閾値よりも小さいとき、本実施形態では、標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離、及び、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離に従って、フィルタリングにより、複数の音声サンプルから標的音声サンプルが取得されてよい。ここで、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離は、同時に考慮される必要がある。第１の所定閾値よりも大きいコサイン距離を有する音声サンプルは、複数の音声サンプルから標的音声サンプルとして選択される。

本実施形態では、標的剰余音声サンプルの数に従って、標的音声サンプルがフィルタリングにより複数の音声サンプルから取得されたか否か、又は、標的音声サンプルがフィルタリングにより標的剰余音声サンプルから取得されたか否かが決定される。よって、標的剰余音声サンプルの数が少ないときに、フィルタリングにより標的音声サンプルを正確に取得できることを保証することができる。よって、音声データがクレンジングされた後に所望の音声サンプルを得る正確性を向上させるという効果が達成される。

本願は更に実施形態を提供する。図５は、本願の実施形態に係る音声データ処理方法のフローチャートである。図５に示されるように、本実施形態は以下のステップを含んでよい。

ステップＳ51：複数の音声サンプルから、特定の数の音声サンプルをシードサンプルとしてランダムに選択し、シードサンプルと剰余音声サンプルのI-Vectorベクトルを取得する。

ステップＳ52：各音声サンプルのI-VectorベクトルとシードサンプルのI-Vectorベクトルとの間のコサイン距離を順次計算する。

ステップＳ53：収束があるか否かを決定する。すなわち、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値と、前回のラウンドにおいて計算されたコサイン距離の平均値との差が、特定の閾値よりも小さいか否かを決定する。小さい場合はステップＳ54を実行し、そうでない場合はステップＳ55を実行する。

ステップＳ54：特定の距離閾値に従って、音声データがクレンジングされた後に得られた結果として、距離閾値以上のコサイン距離を有する音声サンプルを選択し、距離閾値未満のコサイン距離を有する音声サンプルをノイズ又は別の人の声紋と見なし、該音声サンプルをフィルタリングする。この時点で、音声データのクレンジングは終了される。

ステップＳ55：次の反復におけるシードサンプルとして、シードサンプルのI-Vectorベクトルに対して比較的短いコサイン距離を有する音声サンプルを選択し、ステップＳ52に戻る。

例を用いて説明が提供される。

標的フォルダには合計１００個の音声サンプルが存在し、６０個の音声サンプルが人物Ａに属し、剰余音声サンプルが別の人や各種ノイズのサンプルであると仮定する。１００個の音声サンプルから、５分の音声データがランダムに選択される。最初の選択時、可能な限り期間の短いファイルが選択され、可能な限り多くの音声サンプルが含まれる。確率分布に従って、そのような方式で選択された音声サンプルのほとんどはＡに属するサンプルである。選択された音声サンプルが接合される。期間が５分を超えた場合、シードサンプルとして、ffmpegを用いて５分間のデータがキャプチャされる。シードサンプルの特性として、シードサンプルのI-Vectorベクトルが抽出される。

現在のラウンドにおいて１０個の音声サンプルがシードサンプルとして選択された場合、残りの９０個の音声サンプルのI-Vectorベクトルがそれぞれ抽出される。そして、そのI-VectorベクトルとシードサンプルのI-Vectorベクトルとの間のコサイン距離が計算される。次に、９０個の音声サンプルのコサイン距離の平均値が求められ、score_itNと表記される。Ｎは反復の回数である。

score_itN−score_it(N-1)の絶対値が閾値よりも小さい場合（通常、閾値は統計値収集によって得られる）、反復は停止され、次のステップが実行される。そうでない場合、最もスコアの高い音声サンプル、すなわち、シードサンプルまでのコサイン距離が比較的短い音声サンプルが選択され、次の反復におけるシードサンプルとして、接合されて５分間の音声となる。その後、次の反復が実行される。

特定の距離閾値Thによれば（距離閾値Thは経験によって得られる）、音声データがクレンジングされた後の結果として、距離がThよりも大きい音声サンプルのみが用いられる。距離がThよりも小さい音声サンプルは、ノイズ又は別の人のサンプルと見なされてよい。この時点で、自動クレンジングは終了される。

本願の本実施形態における音声データ処理方法では、自動音声データクレンジングのために、I-Vectorベクトル間のコサイン距離に基づく自動クラスタリング方法が用いられる。しかしながら、具体的な実施時では、クラスタリング後に最終的にいくつのカテゴリが得られるかということではなく、多くのサンプルが含まれる特定のカテゴリのみが考慮される。比較的少ないサンプルが含まれる別のカテゴリは、ノイズ又は別の人のサンプルと見なし、破棄することができる。本願により、人件費を大幅に削減することができ、大量の高品質な音声データを生成するという可能性が提供される。本願では、最終的にサンプル間のコサイン距離を用いて結果が得られるので、柔軟性がある。フィルタリングのための最終的な距離閾値は、実際の要件に応じて柔軟に選択されてよく、サンプルの質とサンプルの量とのバランスが達成される。本願では、ＵＢＭ、ＧＭＭ及びI-Vectorマトリックスのトレーニングには非常に時間がかかる。それを除けば、他のステップでの計算速度は非常に高く、ＵＢＭ、ＧＭＭ及びI-Vectorマトリックスは１回トレーニングされるだけでよい。

なお、簡単な説明のために、上述の方法実施形態は、一連の動作の組合わせとして表されている。しかしながら、当業者であれば理解できるように、本願によれば、一部のステップは他の順序で実行されてもよいし同時に実行されてもよいので、本願は記載された動作の順序に限定されない。
加えて、当業者であれば分かるように、本明細書に記載の実施形態における関連する動作及びモジュールは、必ずしも本願に必須のものではない。

上述の実施形態の説明により、当業者であれば明らかに理解できるように、上述の実施形態に係る方法は、必要な汎用ハードウェアプラットフォームに加えてソフトウェアによって実現されてもよく、当然ながらハードウェアによって実現されてもよい。多くの場合、前者が好ましい実施である。そのような理解に基づき、本願の技術的解決策は必然的に、或いは既存の技術に貢献する部分は、ソフトウェア製品の形態で実現されてよい。コンピュータソフトウェア製品は、記憶媒体（読取専用媒体（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク、光ディスクなど）に記憶され、端末装置（携帯電話、コンピュータ、サーバ、ネットワーク装置などであってよい）に本願の実施形態に記載の方法を実行するように命令するためのいくつかの命令を含む。

本願の実施形態によれば、音声データ処理方法を実施するように構成される音声データ処理装置が更に提供される。図６は、本願の実施形態に係る音声データ処理装置の概略図である。図６に示されるように、本装置は、以下を備えてよい。

取得モジュール62は、複数の音声サンプルの各々のI-Vectorベクトルを取得し、複数の音声サンプルの中の標的シードサンプルを決定するように構成される。計算モジュール64は、標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算するように構成される、標的剰余音声サンプルは、複数の音声サンプルの中で標的シードサンプル以外の音声サンプルである。フィルタリングモジュール66は、少なくとも前記コサイン距離に従って、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから標的音声サンプルを取得するように構成され、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離は、第１の所定閾値よりも大きい。

なお、本実施形態における取得モジュール62は、本願のステップＳ22を実行するように構成されてよく、本実施形態における計算モジュール64は、本願のステップＳ24を実行するように構成されてよく、本実施形態におけるフィルタリングモジュール66は、本願のステップＳ26を実行するように構成されてよい。

なお、ここで、上述のモジュール及び対応するステップによって実現される例とそれらの適用シナリオは同じであるが、上述の実施形態で開示された内容に限定されない。なお、装置の一部としての上述のモジュールは、図１に示されるハードウェア環境で実行されてよく、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。

上述のモジュールを用いて、手動のマーキング方法を用いて音声データをクレンジングすることができず、音声データクレンジング効率が低くなってしまうという、関連技術における技術的課題を解決することができ、よって、音声データクレンジング効率を向上させるという技術的効果が達成される。

図７は、本願の実施形態に係る別の音声データ処理装置の概略図である。図７に示されるように、取得モジュール62は、複数の音声サンプルの各々の音声特性パラメータを取得するように構成される第１の取得サブモジュール621と、事前トレーニングによって完成されたI-Vectorマトリックスを用いて、各音声サンプルのI-Vectorベクトルを取得するように構成される第２の取得サブモジュール622とを有してよい。I-Vectorマトリックスは、音声サンプルの音声特性パラメータに対応するI-Vectorベクトルを示すのに用いられる。

なお、本実施形態における第１の取得サブモジュール621は、本願のステップＳ221を実行するように構成されてよく、本実施形態における第２の取得サブモジュール622は、本願のステップＳ222を実行するように構成されてよい。なお、ここで、上述のモジュール及び対応するステップによって実現される例とそれらの適用シナリオは同じであるが、上述の実施形態で開示された内容に限定されない。なお、装置の一部としての上述のモジュールは、図１に示されるハードウェア環境で実行されてよく、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。

図８は、本願の実施形態に係る別の音声データ処理装置の概略図である。図８に示されるように、第１の取得サブモジュール621は、音声サンプルを処理して、そのサンプリングレートがそれぞれ第１のサンプリングレートと第２のサンプリングレートであるＰＣＭ信号にするように構成されるサンプリングモジュール6211と、ＰＣＭ信号から音声特性パラメータを抽出するように構成される第２の抽出モジュール6212と、音声特性パラメータにエネルギー検出及び正規化処理を実行するように構成される処理モジュール6213と、を有してよい。

なお、本実施形態におけるサンプリングモジュール6211は、本願のステップＳ2211を実行するように構成されてよく、本実施形態における第２の抽出モジュール6212は、本願のステップＳ2212を実行するように構成されてよく、本実施形態における処理モジュール6213は、本願のステップＳ2213を実行するように構成されてよい。なお、ここで、上述のモジュール及び対応するステップによって実現される例とそれらの適用シナリオは同じであるが、上述の実施形態で開示された内容に限定されない。なお、装置の一部としての上述のモジュールは、図１に示されるハードウェア環境で実行されてよく、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。

図９は、本願の実施形態に係る別の音声データ処理装置の概略図である。図９に示されるように、I-Vectorマトリックスは、I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを取得するように構成される第３の取得サブモジュール6221と、I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータに従って、事前トレーニングによって完成されたＧＭＭからＧＳＶを抽出するように構成される第１の抽出モジュール6222であって、ＧＭＭは、ＧＭＭのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを用いたトレーニングによってを得られるモデルである、第１の抽出モジュール6222と、ＧＳＶを用いてI-Vectorマトリックスをトレーニングするように構成されるトレーニングモジュール6223と、を用いたトレーニングによって取得される。

なお、本実施形態における第３の取得サブモジュール6221は、本願のステップＳ2221を実行するように構成されてよく、本実施形態における第１の抽出モジュール6222は、本願のステップＳ2222を実行するように構成されてよく、本実施形態におけるトレーニングモジュール6223は、本願のステップＳ2223を実行するように構成されてよい。なお、ここで、上述のモジュール及び対応するステップによって実現される例とそれらの適用シナリオは同じであるが、上述の実施形態で開示された内容に限定されない。なお、装置の一部としての上述のモジュールは、図１に示されるハードウェア環境で実行されてよく、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。

図１０は、本願の実施形態に係る別の音声データ処理装置の概略図である。図１０に示されるように、現在のシードサンプルは、複数の音声サンプルの少なくとも１つを接合することによって得られるものとして初期化され、前回のラウンドのシードサンプル及び前回のラウンドの剰余音声サンプルは空として初期化される。取得モジュール62は、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算するように構成される第１の計算サブモジュール623と、現在の剰余音声サンプルは、複数の音声サンプルの中で現在のシードサンプル以外の音声サンプルである、第１の計算サブモジュール623と、第１の平均値と第２の平均値との差が第２の所定閾値よりも小さいか否かを決定するように構成される第１の判定モジュール624であって、第１の平均値は、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値であり、第２の平均値は、前回のラウンドのシードサンプルのI-Vectorベクトルと前回のラウンドの剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値であり、前回のラウンドの剰余音声サンプルは、複数の音声サンプルのうち前回のラウンドのシードサンプル以外の音声サンプルである、第１の判定モジュール624と、差が第２の所定閾値よりも小さい場合、現在のシードサンプルを標的シードサンプルとして決定するように構成される決定モジュール625と、差が第２の所定閾値以上である場合、現在のシードサンプルを前回のラウンドのシードサンプルとして用い、現在の剰余音声サンプルから音声サンプルを選択し、選択された音声サンプルを現在のシードサンプルに接合し、現在の剰余音声サンプルを前回のラウンドの剰余音声サンプルとして用いるように構成される選択モジュール626と、において、標的シードサンプルが決定されるまで繰り返し工程を実行することを含んでよい。

なお、本実施形態における第１の計算サブモジュール623は、本願のステップＳ223を実行するように構成されてよく、本実施形態における第１の判定モジュール624は、本願のステップＳ224を実行するように構成されてよく、本実施形態における決定モジュール625は、本願のステップＳ225を実行するように構成されてよく、本実施形態における選択モジュール626は、本願のステップＳ226を実行するように構成されてよい。なお、ここで、上述のモジュール及び対応するステップによって実現される例とそれらの適用シナリオは同じであるが、上述の実施形態で開示された内容に限定されない。なお、装置の一部としての上述のモジュールは、図１に示されるハードウェア環境で実行されてよく、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。

図１１は、本願の実施形態に係る別の音声データ処理装置の概略図である。図１１に示されるように、選択モジュール626は、現在の剰余音声サンプルを、コサイン距離の昇順にソートするように構成されるソートモジュール6262と、ソート後の現在の剰余音声サンプルから、１つ以上の上位の音声サンプルを選択するように構成される第１の選択サブモジュール6264であって、１つ以上の上位の音声サンプルが接合された現在のシードサンプルの音声時間は、第３の所定閾値である、第１の選択サブモジュール6264と、を有してよい。

なお、本実施形態におけるソートモジュール6262は、本願のステップＳ2262を実行するように構成されてよく、本実施形態における第１の選択サブモジュール6264は、本願のステップＳ2264を実行するように構成されてよい。なお、ここで、上述のモジュール及び対応するステップによって実現される例とそれらの適用シナリオは同じであるが、上述の実施形態で開示された内容に限定されない。なお、装置の一部としての上述のモジュールは、図１に示されるハードウェア環境で実行されてよく、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。

図１２は、本願の実施形態に係る別の音声データ処理装置の概略図である。図１２に示されるように、フィルタリングモジュール66は、標的剰余音声サンプルの数が第４の所定閾値以上であるか否かを決定するように構成される第２の判定モジュール662と、標的剰余音声サンプルの数が第４の所定閾値以上であるとき、コサイン距離に従って、フィルタリングにより、標的剰余音声サンプルから標的音声サンプルを取得するように構成される第１のフィルタリングサブモジュール664と、標的剰余音声サンプルの数が第４の所定閾値よりも小さいとき、コサイン距離、及び、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離に従って、フィルタリングにより、複数の音声サンプルから標的音声サンプルを取得するように構成される第２のフィルタリングサブモジュール666と、を有してよい。

なお、本実施形態における第１のフィルタリングサブモジュール664は、本願のステップＳ262を実行するように構成されてよく、本実施形態における第２のフィルタリングサブモジュール666は、本願のステップＳ262を実行するように構成されてよい。なお、ここで、上述のモジュール及び対応するステップによって実現される例とそれらの適用シナリオは同じであるが、上述の実施形態で開示された内容に限定されない。なお、装置の一部としての上述のモジュールは、図１に示されるハードウェア環境で実行されてよく、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。

本願の実施形態によれば、音声データ処理方法を実施するように構成されるサーバ又は端末が更に提供される。

図１３は、本願の実施形態に係る端末の構造ブロック図である。図１３に示されるように、端末は、１つ以上（図には１つしか示されていない）プロセッサ201と、メモリ203と、伝送装置205（例えば上述の実施形態の送信装置）とを備えてよい。図１３に示されるように、端末は更に、入出力装置207を備えてよい。

メモリ203は、ソフトウェアプログラム及びモジュール、例えば本願の実施形態における音声データ処理の方法及び装置に対応するプログラム命令／モジュールを記憶するように構成されてよい。プロセッサ201は、メモリ203に記憶されたソフトウェアプログラム及びモジュールを実行することにより、各種の機能アプリケーション及びデータ処理を実行する。すなわち、上述の音声データ処理方法を実現する。メモリ203は、高速ＲＡＭを含んでよく、また、不揮発性メモリを含んでよく、１つ以上の磁気記憶装置、フラッシュメモリ、或いは別の不揮発性ソリッドステートメモリを含んでよい。一部の実施形態では、メモリ203は更に、プロセッサ201に対して遠隔に配置されたメモリを含んでよく、これらの遠隔メモリは、ネットワークを用いて端末に接続されてよい。ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びこれらの組合わせが挙げられるが、これらに限定されない。

伝送装置205は、ネットワークを用いてデータを受信又は送信するように構成され、更に、プロセッサとメモリとの間でデータを伝送するように構成されてよい。上述のネットワークの具体例としては、有線ネットワークや無線ネットワークが挙げられる。一例では、伝送装置205は、ネットワークケーブルを用いて別のネットワークデバイス及びルータと接続することのできるネットワークインタフェースコントローラ（Network Interface Controller，ＮＩＣ）を備え、それによってインターネット又はローカルエリアネットワークと通信する。一例では、伝送装置205は、無線方式でインターネットと通信するように構成される無線周波数（Radio Frequency，ＲＦ）モジュールである。

具体的には、メモリ203は、アプリケーションプログラムを記憶するように構成される。

プロセッサ201は、伝送装置205を用いて、メモリ203に記憶されたアプリケーションプログラムを呼び出して、複数の音声サンプルの各々のI-Vectorベクトルを取得し、複数の音声サンプルの中の標的シードサンプルを決定するステップと、標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算するステップであって、標的剰余音声サンプルは、複数の音声サンプルの中で標的シードサンプル以外の音声サンプルである、ステップと、少なくともコサイン距離に従って、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから標的音声サンプルを取得するステップであって、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離は、第１の所定閾値よりも大きい、ステップと、を実行してよい。

プロセッサ201は更に、標的シードサンプルが決定されるまで、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算する工程であって、現在の剰余音声サンプルは、複数の音声サンプルのうち現在のシードサンプル以外の音声サンプルである、工程と、第１の平均値と第２の平均値との差が第２の所定閾値よりも小さいか否かを決定する工程であって、第１の平均値は、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値であり、第２の平均値は、前回のラウンドのシードサンプルのI-Vectorベクトルと前回のラウンドの剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値であり、前回のラウンドの剰余音声サンプルは、複数の音声サンプルのうち前回のラウンドのシードサンプル以外の音声サンプルである、工程と、差が第２の所定閾値よりも小さい場合、現在のシードサンプルを標的シードサンプルとして決定する工程、又は、差が第２の所定閾値以上である場合、現在のシードサンプルを前回のラウンドのシードサンプルとして用い、現在の剰余音声サンプルから音声サンプルを選択し、選択された音声サンプルを現在のシードサンプルに接合し、現在の剰余音声サンプルを前回のラウンドの剰余音声サンプルとして用いる工程と、を繰り返し実行するステップを実行するように構成される。

プロセッサ201は更に、現在の剰余音声サンプルを、コサイン距離の昇順にソートするステップと、ソート後の現在の剰余音声サンプルから、１つ以上の上位の音声サンプルを選択するステップであって、１つ以上の上位の音声サンプルが接合された現在のシードサンプルの音声時間は、第３の所定閾値である、ステップと、を実行するように構成される。

プロセッサ201は更に、標的剰余音声サンプルの数が第４の所定閾値以上であるか否かを決定するステップと、標的剰余音声サンプルの数が第４の所定閾値以上であるとき、コサイン距離に従って、フィルタリングにより、標的剰余音声サンプルから標的音声サンプルを取得するステップ、又は、標的剰余音声サンプルの数が第４の所定閾値よりも小さいとき、コサイン距離、及び、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離に従って、フィルタリングにより、複数の音声サンプルから標的音声サンプルを取得するステップと、を実行するように構成される。

プロセッサ201は更に、複数の音声サンプルの各々の音声特性パラメータを取得するステップと、事前トレーニングによって完成されたI-Vectorマトリックスを用いて、各音声サンプルのI-Vectorベクトルを取得するステップであって、I-Vectorマトリックスは、音声サンプルの音声特性パラメータに対応するI-Vectorベクトルを示すのに用いられる、ステップと、を実行するように構成される。

プロセッサ201は更に、I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを取得するステップと、I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータに従って、事前トレーニングによって完成されたＧＭＭからＧＳＶを抽出するステップであって、ＧＭＭは、ＧＭＭのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを用いたトレーニングによって得られるモデルである、ステップと、ＧＳＶを用いてI-Vectorマトリックスをトレーニングするステップと、を実行するように構成される。

プロセッサ201は更に、音声サンプルを処理して、そのサンプリングレートがそれぞれ第１のサンプリングレートと第２のサンプリングレートであるＰＣＭ信号にするステップと、ＰＣＭ信号から音声特性パラメータを抽出するステップと、音声特性パラメータにエネルギー検出及び正規化処理を実行するステップと、を実行するように構成される。

本願の本実施形態により、自動音声データクレンジングの解決策が提供される。各々の音声サンプルのI-Vectorベクトルが取得され、音声サンプルにおいて標的シードサンプルが決定される。標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離がそれぞれ計算され、少なくともコサイン距離に従って、複数の音声サンプル又は標的剰余音声サンプルから、フィルタリングにより、標的シードサンプルのI-Vectorベクトルまでのコサイン距離が第１の所定閾値よりも大きい標的音声サンプルが取得される。よって、人間の介在なしに音声データを自動でクレンジングするという目的が達成される。よって、手動のマーキング方法を用いて音声データをクレンジングすることができず、音声データクレンジング効率が低くなってしまうという、関連技術における技術的課題が解決され、音声データクレンジング効率を向上させるという技術的効果が達成される。

本実施形態における具体例については、上述の実施形態に記載の例を参照されたい。本実施形態では詳細の説明を省略する。

当業者であれば理解できるように、図１３に示される構造は一例に過ぎない。端末は、スマートフォン（Android携帯電話やiOS携帯電話など）、タブレットコンピュータ、パームトップコンピュータ、モバイルインターネットデバイス（Mobile Internet Device，ＭＩＤ）、ＰＡＤなどの端末デバイスであってよい。図１３は、上述の電子装置の構造を限定するものではない。例えば、端末は更に、図１３に示されるものよりも多い又は少ないコンポーネント（ネットワークインタフェースや表示装置など）を有してよく、或いは図１３に示される構成とは異なる構成を有してよい。

当業者であれば理解できるように、実施形態における方法のステップの全部又は一部は、端末装置の関連ハードウェアに命令するプログラムによって実現されてよい。プログラムは、コンピュータ可読記憶媒体に記憶されてよい。記憶媒体は、フラッシュメモリ、ＲＯＭ、ＲＡＭ、磁気ディスク、光ディスク等を含んでよい。

本願の実施形態は更に、記憶媒体を提供する。本実施形態では、記憶媒体は、音声データ処理方法のプログラムコードを実行するように構成されてよい。

本実施形態では、記憶媒体は、上述の実施形態に示されるネットワーク内の複数のネットワーク機器のうち少なくとも１つに位置してよい。

本実施形態では、記憶媒体は、以下のステップを実行するのに用いられるプログラムコードを記憶するように構成される。

Ｓ１：複数の音声サンプルの各々のI-Vectorベクトルを取得し、複数の音声サンプルの中の標的シードサンプルを決定する。

Ｓ２：標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算する。標的剰余音声サンプルは、複数の音声サンプルのうち標的シードサンプル以外の音声サンプルである。

Ｓ３：少なくともコサイン距離に従って、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから標的音声サンプルを取得する。標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離は、第１の所定閾値よりも大きい。

記憶媒体は更に、プログラムコードを記憶するように構成され、プログラムコードは、標的シードサンプルが決定されるまで、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算する工程であって、現在の剰余音声サンプルは、複数の音声サンプルの中で現在のシードサンプル以外の音声サンプルである、工程と、第１の平均値と第２の平均値との差が第２の所定閾値よりも小さいか否かを決定する工程であって、第１の平均値は、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値であり、第２の平均値は、前回のラウンドのシードサンプルのI-Vectorベクトルと前回のラウンドの剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値であり、前回のラウンドの剰余音声サンプルは、複数の音声サンプルのうち前回のラウンドのシードサンプル以外の音声サンプルである、工程と、差が第２の所定閾値よりも小さい場合、現在のシードサンプルを標的シードサンプルとして決定する工程、又は、差が第２の所定閾値以上である場合、現在のシードサンプルを前回のラウンドのシードサンプルとして用い、現在の剰余音声サンプルから音声サンプルを選択し、選択された音声サンプルを現在のシードサンプルに接合し、現在の剰余音声サンプルを前回のラウンドの剰余音声サンプルとして用いる工程と、を繰り返し実行するステップを実行するのに用いられる。

記憶媒体は更に、プログラムコードを記憶するように構成され、プログラムコードは、現在の剰余音声サンプルを、コサイン距離の昇順にソートするステップと、ソート後の現在の剰余音声サンプルから、１つ以上の上位の音声サンプルを選択するステップであって、１つ以上の上位の音声サンプルが接合された現在のシードサンプルの音声時間は、第３の所定閾値である、ステップと、を実行するのに用いられる。

記憶媒体は更に、プログラムコードを記憶するように構成され、プログラムコードは、標的剰余音声サンプルの数が第４の所定閾値以上であるか否かを決定するステップと、標的剰余音声サンプルの数が第４の所定閾値以上であるとき、コサイン距離に従って、フィルタリングにより、標的剰余音声サンプルから標的音声サンプルを取得するステップ、又は、標的剰余音声サンプルの数が第４の所定閾値よりも小さいとき、コサイン距離、及び、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離に従って、フィルタリングにより、複数の音声サンプルから標的音声サンプルを取得するステップと、を実行するのに用いられる。

記憶媒体は更に、プログラムコードを記憶するように構成され、プログラムコードは、複数の音声サンプルの各々の音声特性パラメータを取得するステップと、事前トレーニングによって完成されたI-Vectorマトリックスを用いて、各音声サンプルのI-Vectorベクトルを取得するステップであって、I-Vectorマトリックスは、音声サンプルの音声特性パラメータに対応するI-Vectorベクトルを示すのに用いられる、ステップと、を実行するのに用いられる。

記憶媒体は更に、プログラムコードを記憶するように構成され、プログラムコードは、I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを取得するステップと、I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータに従って、事前トレーニングによって完成されたＧＭＭからＧＳＶを抽出するステップであって、ＧＭＭは、ＧＭＭのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを用いたトレーニングによって得られるモデルである、ステップと、ＧＳＶを用いてI-Vectorマトリックスをトレーニングするステップと、を実行するのに用いられる。

記憶媒体は更に、プログラムコードを記憶するように構成され、プログラムコードは、音声サンプルを処理して、そのサンプリングレートがそれぞれ第１のサンプリングレートと第２のサンプリングレートであるＰＣＭ信号にするステップと、ＰＣＭ信号から音声特性パラメータを抽出するステップと、音声特性パラメータにエネルギー検出及び正規化処理を実行するステップと、を実行するのに用いられる。

本実施形態では、記憶媒体は、ＵＳＢフラッシュドライブ、ＲＯＭ、ＲＡＭ、リムーバブルハードディスク、磁気ディスク、光ディスク等の、プログラムコードを記憶可能な任意の媒体を含んでよいが、これらに限定されない。

本願の上述の実施形態の順番は、説明のためのものに過ぎず、実施形態の優先度を示すものではない。

実施形態における統合ユニットがソフトウェア機能ユニットの形態で実現され、独立した製品として販売又は使用される場合、統合ユニットはコンピュータ可読記憶媒体に記憶されてよい。そのような理解に基づき、本願の技術的解決策は必然的に、或いは既存の技術に貢献する部分、或いは技術的解決策の全部又は一部は、ソフトウェア製品の形態で実現されてよい。コンピュータソフトウェア製品は、記憶媒体に記憶され、１つ以上のコンピュータ装置（ＰＣ、サーバ、ネットワーク装置などであってよい）に本願の実施形態に記載の方法のステップの全部又は一部を実行するように命令するためのいくつかの命令を含む。

上述の本願の実施形態では、各実施形態の説明にはそれぞれの焦点がある。実施形態において詳細に記載されなかった部分については、他の実施形態における関連説明を参照されたい。

本願において提供されるいくつかの実施形態において、開示されたクライアントは他の方式で実現されてもよいことが理解されるべきである。説明された装置実施形態は例示に過ぎない。例えば、ユニット分割は論理的な機能分割に過ぎず、実際の実施時には他の分割であってよい。例えば、複数のユニット又はコンポーネントは別のシステムに組合わせ又は統合されてよく、或いは、一部の機能は無視されてもよく、実行されなくてもよい。加えて、表示又は議論された相互結合又は直接的な結合若しくは通信接続は、一部のインタフェースを介して実現されてよい。ユニット間又はモジュール間の間接的な結合又は通信接続は、電子的その他の形式で実現されてよい。

別個の部分として記載されるユニットは、物理的に別個のものであってもなくてもよく、ユニットとして表示される部分は物理ユニットであってもなくてもよく、１つの位置にあってもよいし、複数のネットワークユニットに分散されてもよい。ユニットの一部又は全部は、実施形態の解決策の目的を達成するために、実際の要件に応じて選択することができる。

加えて、本願の実施形態における機能ユニットは、１つの処理ユニットに統合されてもよいし、或いはユニットの各々が物理的に単独で存在してもよいし、２つ以上のユニットが１つのユニットに統合されてもよい。統合ユニットは、ハードウェアの形態で実現されてもよいし、ソフトウェア機能ユニットの形態で実現されてもよい。

上述の説明は、本願の一部の実施に過ぎない。なお、当業者であれば、本願の原理から逸脱することなく、いくつかの改善又は改良を行うことができるであろう。改善又は改良は、本願の保護範囲に包含されるものとする。

Claims

音声データ処理方法であって、
複数の音声サンプルの各々のＩ−Ｖｅｃｔｏｒベクトルを取得し、前記複数の音声サンプルの中の標的シードサンプルを決定するステップと、
前記標的シードサンプルのＩ−Ｖｅｃｔｏｒベクトルと標的剰余音声サンプルのＩ−Ｖｅｃｔｏｒベクトルとの間のコサイン距離をそれぞれ計算するステップであって、前記標的剰余音声サンプルは、前記複数の音声サンプルのうち前記標的シードサンプル以外の音声サンプルである、ステップと、
標的剰余音声サンプルの数が第４の所定閾値以上であるか否かを決定し、前記標的剰余音声サンプルの数が前記第４の所定閾値以上であるとき、前記コサイン距離に従って、フィルタリングにより、前記標的剰余音声サンプルから標的音声サンプルを取得し、前記標的剰余音声サンプルの数が前記第４の所定閾値よりも小さいとき、前記コサイン距離、及び、標的音声サンプルの前記Ｉ−Ｖｅｃｔｏｒベクトルと前記標的シードサンプルの前記Ｉ−Ｖｅｃｔｏｒベクトルとの間のコサイン距離に従って、フィルタリングにより、前記複数の音声サンプルから標的音声サンプルを取得するステップであって、前記標的音声サンプルのＩ−Ｖｅｃｔｏｒベクトルと前記標的シードサンプルの前記Ｉ−Ｖｅｃｔｏｒベクトルとの間のコサイン距離は、第１の所定閾値よりも大きい、ステップと、
を含む方法。
現在のシードサンプルは、前記複数の音声サンプルの少なくとも１つを接合することによって得られるものとして初期化され、前回のラウンドのシードサンプル及び前記前回のラウンドの剰余音声サンプルは空として初期化され、
前記複数の音声サンプルの中の標的シードサンプルを決定する前記ステップは、前記標的シードサンプルが決定されるまで、
前記現在のシードサンプルのＩ−Ｖｅｃｔｏｒベクトルと現在の剰余音声サンプルのＩ−Ｖｅｃｔｏｒベクトルとの間のコサイン距離をそれぞれ計算するステップであって、前記現在の剰余音声サンプルは、前記複数の音声サンプルのうち前記現在のシードサンプル以外の音声サンプルである、ステップと、
第１の平均値と第２の平均値との差が第２の所定閾値よりも小さいか否かを決定するステップであって、前記第１の平均値は、前記現在のシードサンプルの前記Ｉ−Ｖｅｃｔｏｒベクトルと前記現在の剰余音声サンプルの前記Ｉ−Ｖｅｃｔｏｒベクトルとの間の前記コサイン距離の平均値であり、前記第２の平均値は、前記前回のラウンドの前記シードサンプルのＩ−Ｖｅｃｔｏｒベクトルと前記前回のラウンドの前記剰余音声サンプルのＩ−Ｖｅｃｔｏｒベクトルとの間のコサイン距離の平均値であり、前記前回のラウンドの前記剰余音声サンプルは、前記複数の音声サンプルのうち前記前回のラウンドの前記シードサンプル以外の音声サンプルである、ステップと、
前記差が前記第２の所定閾値よりも小さい場合、前記現在のシードサンプルを前記標的シードサンプルとして決定するステップ、又は、
前記差が前記第２の所定閾値以上である場合、前記現在のシードサンプルを前記前回のラウンドの前記シードサンプルとして用い、前記現在の剰余音声サンプルから音声サンプルを選択し、選択された前記音声サンプルを前記現在のシードサンプルに接合し、前記現在の剰余音声サンプルを前記前回のラウンドの前記剰余音声サンプルとして用いるステップと、
を繰り返し実行することを含む、請求項１に記載の方法。
前記現在の剰余音声サンプルから音声サンプルを選択する前記ステップは、
前記現在の剰余音声サンプルを、前記コサイン距離の昇順にソートするステップと、
前記ソート後の前記現在の剰余音声サンプルから、１つ以上の上位の音声サンプルを選択するステップであって、前記１つ以上の上位の音声サンプルが接合された前記現在のシードサンプルの音声時間は、第３の所定閾値である、ステップと、
を含む、請求項２に記載の方法。
複数の音声サンプルの各々のＩ−Ｖｅｃｔｏｒベクトルを取得する前記ステップは、
前記複数の音声サンプルの各々の音声特性パラメータを取得するステップと、
事前トレーニングによって完成されたＩ−Ｖｅｃｔｏｒマトリックスを用いて、各音声サンプルの前記Ｉ−Ｖｅｃｔｏｒベクトルを取得するステップであって、前記Ｉ−Ｖｅｃｔｏｒマトリックスは、前記音声サンプルの前記音声特性パラメータに対応する前記Ｉ−Ｖｅｃｔｏｒベクトルを示すのに用いられる、ステップと、
を含む、請求項１に記載の方法。
前記Ｉ−Ｖｅｃｔｏｒマトリックスは、
前記Ｉ−Ｖｅｃｔｏｒマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを取得するステップと、
前記Ｉ−Ｖｅｃｔｏｒマトリックスのトレーニングに用いられる前記複数の音声サンプルの各々の前記音声特性パラメータに従って、事前トレーニングによって完成された混合ガウスモデル（ＧＭＭ）からガウススーパーベクトル（ＧＳＶ）を抽出するステップであって、前記ＧＭＭは、前記ＧＭＭのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを用いたトレーニングによって得られるモデルである、ステップと、
前記ＧＳＶを用いて前記Ｉ−Ｖｅｃｔｏｒマトリックスをトレーニングするステップと、
を用いることにより、トレーニングによって取得される、
請求項４に記載の方法。
前記音声サンプルの音声特性パラメータを取得する前記ステップは、
前記音声サンプルを、サンプリングレートがそれぞれ第１のサンプリングレートと第２のサンプリングレートであるパルス符号変調（ＰＣＭ）信号に処理するステップと、
前記ＰＣＭ信号から前記音声特性パラメータを抽出するステップと、
前記音声特性パラメータにエネルギー検出及び正規化処理を実行するステップと、
を含む、請求項４に記載の方法。
プロセッサ及びメモリを備える音声データ処理装置であって、
前記メモリは、前記プロセッサによって実行可能な命令を記憶し、前記命令の実行時、前記プロセッサは、請求項１乃至６のいずれか一項に記載の方法を実行するように構成される、装置。
コンピュータプログラムを記憶した不揮発性コンピュータ記憶媒体であって、前記コンピュータプログラムは、１つ又は複数のプロセッサによって実行されるとき、前記１つ又は複数のプロセッサに、請求項１乃至６のいずれか一項に記載の方法を実行させるように構成される、不揮発性コンピュータ記憶媒体。