JP6668501B2 - 音声データ処理方法、装置及び記憶媒体 - Google Patents

音声データ処理方法、装置及び記憶媒体 Download PDF

Info

Publication number
JP6668501B2
JP6668501B2 JP2018552112A JP2018552112A JP6668501B2 JP 6668501 B2 JP6668501 B2 JP 6668501B2 JP 2018552112 A JP2018552112 A JP 2018552112A JP 2018552112 A JP2018552112 A JP 2018552112A JP 6668501 B2 JP6668501 B2 JP 6668501B2
Authority
JP
Japan
Prior art keywords
vector
audio
sample
target
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018552112A
Other languages
English (en)
Other versions
JP2019509523A (ja
Inventor
ジン,シアンミン
リ,ウェイ
ジェン,ファンマイ
ウ,フジャン
ジュ,ビレイ
クイアン,ビンフア
リ,ケ
ウ,ヨンジャン
フアン,フェイユエ
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2019509523A publication Critical patent/JP2019509523A/ja
Application granted granted Critical
Publication of JP6668501B2 publication Critical patent/JP6668501B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)

Description

関連出願
本発明は、2016年3月25日に中国特許庁に出願された、「音声データ処理の方法及び装置」と題された中国特許出願第201610178300.8号に対する優先権を主張し、その全体が参照により本明細書に組み込まれる。
本願は、データ処理の分野に関し、具体的には、音声データ処理の方法及び装置に関する。
人工知能の様々な分野では、データが重要であり、多くの場合、データの品質が決定的な役割を果たす。しかしながら、実際の状況では、ほとんどの場合、データの品質が不均一であり、データを更に処理する必要がある。一般に、データ処理は、データから「ノイズ」を除去し、実際に必要なデータを保持することである。声紋認識の分野では、ほとんどの場合、インターネットを利用して得られた特定の人物の声紋の音声サンプルが不純であり、非ヒトの音声などのノイズを含むことに加えて、通常、別の人の発話が含まれることがある。どのようにしてノイズや別の人の声をクレンジングで取り除き、特定の人の声紋の音声サンプルのみを保持するかは、現在見られる主な課題である。
現在、ノイズや別の人の声紋を含む音声データから特定の人の声紋の音声サンプルを取得するためには、通常は手動のマーキング方法が用いられる。特定の人の声紋、別の人の声紋、及びノイズを含む音声データのうち特定の人の声紋に属する具体的な音声サンプルは手動で認識され、ノイズと別の人の声紋とを含む音声サンプルは手動で切除される。このような手動マーキング方法を用いて音声データをクレンジングすると、時間と手間がかかり、効率が低い。
上述の課題について、現時点では有効な解決策は提供されていない。
本願の実施形態は、少なくとも、手動のマーキング方法を用いて音声データをクレンジングすることができず、音声データクレンジング効率が低くなってしまうという、関連技術における技術的課題を解決するために、音声データ処理の方法及び装置を提供する。
本願の実施形態の態様によれば、音声データ処理方法が提供される。本方法は、複数の音声サンプルの各々のI-Vectorベクトルを取得し、複数の音声サンプルの中の標的シードサンプルを決定するステップと、標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算するステップであって、標的剰余音声サンプルは、複数の音声サンプルのうち標的シードサンプル以外の音声サンプルである、ステップと、少なくともコサイン距離に従って、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから標的音声サンプルを取得するステップであって、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離は、第1の所定閾値よりも大きい、ステップと、を含む。

本願の実施形態の別の態様によれば、音声データ処理装置が更に提供される。本装置は、プロセッサ及びメモリを備える。メモリは、プロセッサによって実行可能な命令を記憶する。命令の実行時、プロセッサは、上記の方法を実行するように構成される
本願は更に、コンピュータプログラムを記憶する不揮発性コンピュータ記憶媒体を提供する。コンピュータプログラムは、上述の方法を実行するように構成される。
本明細書で説明される添付図面は、本願の更なる理解を提供するために用いられ、本願の一部を形成する。本願の例示的な実施形態とその説明は、本願を説明するために用いられるものであり、本願に対する不適切な限定を構成するものではない。
本願の実施形態に係る音声データ処理方法のハードウェア環境の概略図である。 本願の実施形態に係る音声データ処理方法のフローチャートである。 本願の実施形態に係る、I-Vectorベクトルを取得するプロセスの概略図である。 本願の実施形態に係る、複数の標的音声サンプルにおいて標的シードサンプルを決定するフローチャートである。 本願の実施形態に係る音声データ処理方法のフローチャートである。 本願の実施形態に係る音声データ処理装置の概略図である。 本願の実施形態に係る音声データ処理装置の概略図である。 本願の実施形態に係る別の音声データ処理装置の概略図である。 本願の実施形態に係る別の音声データ処理装置の概略図である。 本願の実施形態に係る別の音声データ処理装置の概略図である。 本願の実施形態に係る別の音声データ処理装置の概略図である。 本願の実施形態に係る別の音声データ処理装置の概略図である。 本願の実施形態に係る端末の構造ブロック図である。
当業者が本願の解決策をより良く理解できるようにするために、以下、本願の実施形態において添付図面を参照して、本願の実施形態における技術的解決策を明確且つ完全に記載する。当然ながら、記載される実施形態は、本願の実施形態の一部に過ぎず全部ではない。当業者が本願の実施形態に基づいて創意工夫なく得た他の実施形態は、全て本願の保護範囲に包含されるものとする。
なお、本願の明細書、特許請求の範囲及び添付図面において、「第1」、「第2」などの用語は、類似のものを区別するものであり、必ずしも具体的な順序又はシーケンスを示すものではない。この方式で使用されるデータは、必要に応じて交換することができるので、本明細書に記載される本願の実施形態は、本明細書に例示又は記載された順序以外の順序で実施することができることを理解されたい。更に、「有する」や「含む」等の表現及びその任意の他の変形は、非排他的な包含をカバーすることが意図される。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又はデバイスは、リストされたステップ又はユニットに限定されず、明示的に列挙されていないか、或いはそのようなプロセス、方法、システム、製品又は装置に固有のものではない、他のステップ又はユニットを含んでよい。
第一に、本願の実施形態の説明中に現れる一部の名詞又は用語は、以下の説明に適用可能である。
I-Vector声紋認識技術は、アイデンティティ因子識別技術とも呼ばれ、スピーカ空間とチャネル空間を強制的に分離しようとはしないが、全変動空間(Total Variability Space)が直接設定される。全変動空間は、音声データの可能な情報を全て含む。次に、要因分析法により、全変動空間の負荷因子が取得される。これがI-Vector声紋認識技術である。その次元は、ガウススーパーベクトル(GSV)の次元よりもはるかに小さい。この因子に対して、スピーカを区別するための簡単な方法が用いられる。すなわち、異なるスピーカ間の距離を長くし、ノイズの影響を受けた同じスピーカの語句間の距離を短くする。当然ながら、これは既存の判別分析方法の目的である。スピーカの差はクラス間マトリックスと見なされ、ノイズに起因する差はクラス内マトリックスと見なされる。次に、既存の確率判別分析法を適用することにより、I-Vectorマトリックスが推定される。情報ベクトル、すなわち、スピーカのアイデンティティを反映するI-Vectorベクトルは、I-Vectorマトリックス上にマッピングされる。
本願の実施形態によれば、音声データ処理方法の方法実施形態が提供される。
本実施形態では、音声データ処理方法は、図1に示されるサーバ102及び端末104を含むハードウェア環境に適用することができる。図1に示されるように、サーバ102は、ネットワークを用いて端末104に接続される。ネットワークは、広域ネットワーク、メトロポリタン・エリア・ネットワーク又はローカルエリアネットワークを含むが、これらに限定されない。端末104は、パーソナルコンピュータ(PC)、携帯電話、タブレットコンピュータなどに限定されない。本願の本実施形態における音声データ処理方法は、サーバ102によって実行されてもよいし、或いは端末104によって実行されてもよいし、或いはサーバ102及び端末104の両方によって実行されてもよい。端末104によって実行される、本願の本実施形態における音声データ処理方法は、端末104にインストールされたクライアントによって実行されてよい。
図2は、本願の実施形態に係る音声データ処理方法のフローチャートである。図2に示されるように、本方法は以下のステップを含んでよい。
ステップS22:複数の音声サンプルの各々のI-Vectorベクトルを取得し、複数の音声サンプルの中の標的シードサンプルを決定する。
ステップS24:標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算する。標的剰余音声サンプルは、複数の音声サンプルのうち標的シードサンプル以外の音声サンプルである。
ステップS26:少なくともコサイン距離に従って、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから標的音声サンプルを取得する。標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離は、第1の所定閾値よりも大きい。
ステップS22〜ステップS26により、各音声サンプルのI-Vectorベクトルが取得され、音声サンプルの中で標的シードサンプルが決定される。標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離がそれぞれ計算され、その標的シードサンプルのI-Vectorベクトルまでのコサイン距離が第1の所定閾値よりも大きい標的音声サンプルが、少なくともコサイン距離に従って、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから取得される。よって、人間の介在なしに音声データを自動でクレンジングするという目的が達成される。よって、手動のマーキング方法を用いて音声データをクレンジングすることができず、音声データクレンジング効率が低くなってしまうという、関連技術における技術的課題が解決され、音声データクレンジング効率を向上させるという技術的効果が達成される。
なお、1つの音声データ内の任意の音声サンプルについて、処理後に音声サンプルの1つのI-Vectorベクトルを得ることができる。I-Vectorベクトルは、I-Vectorマトリックスにスピーカのアイデンティティを反映するのに用いられる情報ベクトルである。音声サンプル間の差は、2つの音声サンプルのI-Vectorベクトル間のコサイン距離を用いて表されてよい。2つの音声サンプルのI-Vectorベクトル間のコサイン距離が1に近いほど、2つの音声サンプルが近いことを示し、それ以外の場合は、2つの音声サンプル間の差が大きいことを示す。同じ特定の人の音声サンプルについては、音声サンプルのI-Vectorベクトル間のコサイン距離は1に近くなければならず、その差は非常に小さい。したがって、本願の実施形態では、音声データのクレンジングの目的を達成するために、音声サンプルのI-Vectorベクトル間のコサイン距離に基づいて、音声サンプルがクラスタリングされる。
本願の本実施形態における音声データ処理方法を用いてどのように音声データをクレンジングするのかを理解しやすくするために、ここで、まず、ステップS22で提供される技術的解決策において、複数の音声サンプルの各々のI-Vectorベクトルをどのように取得するのかを詳細に説明する。詳細は以下のとおりである。
複数の音声サンプルの各々のI-Vectorベクトルを取得するステップS22は、以下のステップを含んでよい。
ステップS221:複数の音声サンプルの各々の音声特性パラメータを取得する。
なお、1つの音声データは複数の音声サンプルを含んでよい。各音声サンプルは、特定の人の声紋、別の人の声紋又はノイズに対応してよい。特定の人の声紋、別の人の声紋、ノイズの音声サンプルの音声特性パラメータはそれぞれ異なり、音声特性パラメータは、音声サンプルの声紋情報を表わすために用いられてよい。音声特性パラメータは、含まれる声紋タイプと、各タイプの声紋の周波数や強度などの情報とを含んでよいが、これに限定されない。
ステップS221は以下のステップを含んでよい。
ステップS2211:音声サンプルを処理して、サンプリングレートがそれぞれ第1のサンプリングレートと第2のサンプリングレートであるパルス符号変調(PCM)信号にする。
ステップS2212:PCM信号から音声特性パラメータを抽出する。
ステップS2213:音声特性パラメータにエネルギー検出及び正規化処理を実行する。
なお、本明細書に記載の第1のサンプリングレート及び第2のサンプリングレートは、実際の要件に応じて設定及び調整されてよく、第1のサンプリングレートは第2のサンプリングレートとは異なる。これは、本実施形態において具体的に限定はされない。本実施形態では、音声サンプルが処理されて異なるサンプリングレートを有するPCM信号とされ、PCM信号から、音声サンプルの声紋情報を識別するのに用いられる音声特性パラメータが抽出されるので、抽出された音声特性パラメータの精度を向上させる効果を達成することができる。音声特性パラメータが抽出された後、音声特性パラメータに対してエネルギー検出と正規化処理が実行されるので、音声特性パラメータの安定性と精度を向上させる効果を達成することができる。なお、PCM信号から抽出された音声特性パラメータは、PCM信号から抽出されたMFCC特性の1次統計量及び2次統計量が接合される特性であってよい。なお、更に、抽出された音声特性パラメータの安定性及び精度を向上させるために、本実施形態では、抽出された音声特性パラメータに対して音声活動検出等が更に実行されてよい。ここでは、例を用いて詳細を説明することはしない。
実際の適用シナリオにおいて、本実施形態では、音声サンプルは、fflmpegソフトウェアを用いて処理されて、そのサンプリングレートがそれぞれ8Kと16ビットであるPCMファイルとされてよい。具体的な操作コマンドは、ffmpeg -y -loglevel quiet -I オリジナル音声ファイル -acodec pam_s161e -ar 8000 -ac 標的音声ファイル名.pcmである。次に、MFCC特性が抽出される。具体的には、matlabのvioceboxツールキットやHTK音声認識パッケージ等のツールを用いて、2つのフレーム間に10msのオーバーラップを有する20msのフレーム長のMFCC特性を抽出することができる。一般に、始めの20次元のMFCC特性が抽出される。次に、20次元のMFCC特性の1次統計量と2次統計量が取得されて、音声サンプルの音声特性パラメータに接合される。抽出されたMFCC特性に対して、エネルギー検出、音声活動検出及び正規化処理が実行されてよい。
ステップS222:事前トレーニングによって完成されたI-Vectorマトリックスを用いて、各音声サンプルのI-Vectorベクトルを取得する。I-Vectorマトリックスは、音声サンプルの音声特性パラメータに対応するI-Vectorベクトルを示すのに用いられる。
なお、各音声サンプルの音声特性パラメータが取得された後、各音声サンプルのI-Vectorベクトルは、事前トレーニングによって完成されたI-Vectorマトリックスを用いて取得されてよい。なお、I-Vectorマトリックスは、音声サンプルの音声特性パラメータに対応するI-Vectorベクトルを示すのに用いられてよい。
I-Vectorマトリックスは、以下のステップを用いたトレーニングによって取得することができる。詳細は以下のとおりである。
ステップS2221:I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを取得する。
なお、ここで、I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータは、ステップS2211〜ステップS2213によって取得することができ、ここでは詳細の説明を省略する。実際の適用シナリオでは、100時間超の音声データが、I-Vectorマトリックスのためのトレーニングデータとして選択されてよい。各音声サンプルの音声特性パラメータは、ステップS2211〜ステップS2213によって取得されてよい。
ステップS2222:I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータに従って、事前トレーニングによって完成された混合ガウスモデル(GMM)からGSVを抽出する。GMMは、GMMのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを用いたトレーニングによって得られるモデルである。
なお、GMMは、GMMのトレーニングに用いられる複数の音声サンプルの音声特性パラメータを用いてトレーニングすることによって得ることができる。実際のGMMのトレーニング時には、約50時間の音声データが、背景モデルのトレーニングデータとしてランダムに選択されてよい。ステップS2211〜ステップS2213に従って、上述の音声データの各音声サンプルの音声特性パラメータが取得された後、取得された音声特性パラメータを用いてGMMがトレーニングされる。一般に、512超のコンポーネントがカスタマイズされる。なお、ここで、均一バックグラウンド・モデル(UBM)は、実際には大きなGMMであり、スピーカとは関係のない特性をトレーニングするのに用いられる。UBM用のトレーニングデータは、様々なチャネル上の全ての人々の音声データを可能な限り含む。UBMのトレーニングは、GMMのトレーニングである。使用されるアルゴリズムはEMアルゴリズムであってよく、EMアルゴリズムにおいて収束がない場合には、トレーニングが終了したと考えることができる。
I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータが取得された後、事前トレーニングによって完成されたGMMを用いてGSVを抽出することができる。GSVは、GMMの平均値を接合することによって形成される超高次元のベクトルである。
ステップS2223:GSVを用いてI-Vectorマトリックスをトレーニングする。
なお、I-Vector技術は、単一空間に基づくクロスチャネルアルゴリズムであり、スピーカ空間に関する情報とチャネル空間に関する情報とは区別されない。任意の個別の音声サンプルは、バックグラウンドモデルm0と各スピーカの特性を反映するTwSとに分解することができる。GSVは、MS=m0+TwSと表すことができる。ここで、MsはC*F次元のGSVであり、m0は、スピーカに無関係であり且つチャネルに無関係であるC*F次元のスーパーベクトルであり、UBMの平均ベクトルを接合することによって得られる。wSは、N次元の全変動因子、すなわちI-Vectorであり、標準正規分布に従うランダムベクトル群である。Tは、CF*N次元の全変動空間マトリックスである。I-Vectorをトレーニングするフェーズでは、全変動空間マトリックスTが、要因分析アルゴリズムを用いて、大量の音声データトレーニング集合に従って推定される。全変動空間が得られた後、マトリックスTによって示される全変動部分空間に高次GSVが射影され、最終的に低次元の全変動因子、すなわちI-Vectorベクトルが得られる。
図3は、本願の実施形態に係る、I-Vectorベクトルを取得するプロセスの概略図である。図3に示されるように、図3は、2つの音声サンプルのI-Vectorベクトルを取得するプロセスの例のみを示す。複数の音声サンプルのうち別の音声サンプルについて、図3に示される取得プロセスを用いて、音声サンプルのI-Vectorベクトルを得ることもできることを理解されたい。図3に示されるように、まず、音声サンプルからMFCC特性が抽出され、事前トレーニングによって完成されたUBMを用いてGSVが抽出される。次に、事前トレーニングによって得られた全変動空間マトリックスT、すなわちI-Vectorマトリックスを用いて、I-Vectorベクトルが得られる。最後に、事前トレーニングによって完成された線形判別分析モジュール(PLDA)モデルを用いて、得られたI-Vectorベクトルに従って音声サンプルがフィルタリングされる。
ステップS22で提供される技術的解決策では、複数の音声サンプルの各々のI-Vectorベクトルが取得された後、本願の本実施形態では、複数の音声サンプルにおいて標的シードサンプルが更に決定される必要がある。標的シードサンプルは、複数の音声サンプルの少なくとも1つを接合することによって取得することができる。標的シードサンプルに接合される必要のある複数の音声サンプルのうち少なくとも1つの量は、標的シードサンプルによって実際に必要とされる音声時間に応じて調整されてよい。
以下の反復プロセスを用いて、複数の音声サンプルにおいて標的シードサンプルが決定されてよい。なお、反復プロセスの初期化は、複数の音声サンプルのうち少なくとも1つを接合することによって得られるものとして現在のシードサンプルを初期化することと、前回のラウンドのシードサンプルと前回のラウンドの剰余音声サンプルとを空として初期化することと、を含んでよい。図4は、本願の実施形態に係る、複数の標的音声サンプルにおいて標的シードサンプルを決定するフローチャートである。図4に示されるように、複数の音声サンプルにおいて標的シードサンプルを決定するステップは、標的シードサンプルが決定されるまで以下の工程を繰り返し実行することを含んでよい。
ステップS223:現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算する。現在の剰余音声サンプルは、複数の音声サンプルの中で現在のシードサンプル以外の音声サンプルである。
なお、2つのベクトル間のコサイン距離は、以下のユークリッドのドット積式を用いて導出することができる。
Figure 0006668501
2つのI-VectorベクトルA,Bが与えられたとき、2つのI-VectorベクトルA,Bのコサイン類似度θは、以下の式に示されるように、ドット積とベクトル長を用いて取得される。ここで、Ai及びBiはそれぞれベクトルA,Bの成分を示す。
Figure 0006668501
上述の式から分かるように、類似度の範囲は−1〜1である。ここで、−1は、2つのベクトルが向いている方向が互いに正反対であることを示し、1は、2つのベクトルの方向が同じであることを示し、0は、2つのベクトルが互いに独立していることを示す。−1と1との間の値は、2つのベクトルの類似性又は差を示す。
なお、現在の剰余複数の音声サンプルの中で現在のシードサンプル以外の音声サンプルは、複数存在してよく、したがって、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離は、複数存在する。現在の剰余音声サンプルの各々のI-Vectorベクトルと現在のシードサンプルのI-Vectorベクトルとの間のコサイン距離は、上述の式を用いて計算されてよい。
ステップS224:第1の平均値と第2の平均値との差が第2の所定閾値よりも小さいか否かを決定する。
第1の平均値は、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値である。第2の平均値は、前回のラウンドのシードサンプルのI-Vectorベクトルと前回のラウンドの剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値である。前回のラウンドの剰余音声サンプルは、複数の音声サンプルのうち前回のラウンドのシードサンプル以外の音声サンプルである。なお、前回のラウンドのシードサンプルのI-Vectorベクトルと、前回のラウンドの剰余音声サンプルの各々のI-Vectorベクトルとの間のコサイン距離は、上述の式を用いて計算されてもよい。本実施形態では、シードサンプルが決定されるたびに、シードサンプルのI-Vectorベクトルと剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値が計算される。初期化を起点として、2つの平均値が計算される度に、本実施形態では、計算された2つの平均値の差が比較されて、その差が第2の所定閾値よりも小さいか否かが決定される。なお、第2の所定閾値は、実際の要件に応じて設定又は調整されてよい。
第1の平均値と第2の平均値との差が第2の所定閾値よりも小さいと決定されたとき、本実施形態では、ステップS225が実行される。そうでなければ、ステップS226が実行される。
ステップS225:差が第2の所定閾値よりも小さい場合、現在のシードサンプルを標的シードサンプルとして決定する。
第1の平均値と第2の平均値との差が第2の所定閾値よりも小さいとき、反復プロセスは終了され、決定された現在のシードサンプルが標的シードサンプルである。標的シードサンプルが決定された後、コサイン距離に従って音声サンプルをフィルタリングすることにより音声データをクレンジングする目的を達成するために、ステップS24及びステップS26が標的シードサンプルを用いて実行されてよい。
ステップS226:差が第2の所定閾値以上である場合、現在のシードサンプルを前回のラウンドのシードサンプルとして用い、現在の剰余音声サンプルから音声サンプルを選択し、選択された音声サンプルを現在のシードサンプルに接合し、現在の剰余音声サンプルを前回のラウンドの剰余音声サンプルとして用い、ステップS223に戻る。
第1の平均値と第2の平均値との差が第2の所定閾値よりも大きいとき、反復が更に実行される必要があることを示す。現在のシードサンプルが前回のラウンドのシードサンプルとして用いられ、音声サンプルが現在の剰余音声サンプルから選択され、選択された音声サンプルが接合されて現在のシードサンプルとなり、現在の剰余音声サンプルが、前回のラウンドの剰余音声サンプルとして用いられ、ステップS223に戻って、次の反復プロセスに続く。反復プロセスは、コサイン距離の計算された2つの平均値の差が第2の所定閾値よりも小さいと決定されるまで終了しない。
上述のステップでは、反復プロセスにより、複数の音声サンプルにおいて標的シードサンプルが決定される。反復プロセスでは、I-Vectorベクトル間のコサイン距離に従ってクラスタリングが実行されるので、複数の音声サンプルに差異性クラスタリングを実行する目的が達成される。
現在の剰余音声サンプルから音声サンプルを選択するステップS226は、以下のステップを含んでよい。
ステップS2262:現在の剰余音声サンプルを、コサイン距離の昇順にソートする。
ステップS2264:ソート後の現在の剰余音声サンプルから、1つ以上の上位の音声サンプルを選択する。1つ以上の上位の音声サンプルが接合された現在のシードサンプルの音声時間は、第3の所定閾値である。
なお、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルの各々のI-Vectorベクトルとの間のコサイン距離が計算された後、反復処理を終了する条件が満たされていない場合、本実施形態では、現在のシードサンプルが再決定される必要がある。現在のシードサンプルが決定されると、コサイン距離が昇順にソートされる。ソートの目的は、比較的短いコサイン距離を有する音声サンプルが現在のシードサンプルに接合されるように、比較的短いコサイン距離を有する少なくとも1つの音声サンプルを簡単に速く決定することである。
なお、更に、比較的短いコサイン距離を有する少なくとも1つの音声サンプルが現在のシードサンプルに接合されるとき、実際の要件に応じて決定されたシードサンプルの音声時間が考慮される必要がある。現在のシードサンプルに接合される必要のある音声サンプルの数は、音声時間に従って決定される。ここで、現在のシードサンプルの音声時間の参照値は第3の所定閾値である。第3の所定閾値は、実際の要件に応じて設定又は調整することができ、ここでは具体的に限定されない。
ステップS24で提供される技術的解決策では、標的シードサンプルが決定された後、複数の音声サンプルのうち標的シードサンプル以外の音声サンプルが、標的剰余音声サンプルである。標的剰余音声サンプルは1つ以上存在してよい。なお、標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルの各々のI-Vectorベクトルとの間のコサイン距離を計算する方法は、ステップS223で説明された方法と同じであり、ここでは詳細の説明を省略する。複数の標的剰余音声サンプルが存在する場合、標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間の計算されるコサイン距離は、複数存在する。コサイン距離は全て−1〜1の範囲内であり、少なくとも2つのコサイン距離は同じであってよい。
ステップS26で提供される技術的解決策では、標的音声サンプルは、ステップS24で計算されたコサイン距離に従って取得されてよい。標的音声サンプルは、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから取得される音声サンプルである。なお、複数の音声サンプル又は標的剰余音声サンプルをフィルタリングする条件は、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離が、第1の所定閾値よりも大きいことである。第1の所定閾値は、実際の要件に応じて設定又は調整することができ、ここでは具体的に限定されない。フィルタリング条件に従って、複数の音声サンプル又は標的剰余音声サンプルからフィルタリングによって得られる標的音声サンプルは、1つ以上存在してよい。
実際の適用シナリオでは、上述のステップによって得られる標的音声サンプルは、特定の人の声紋、別の人の声紋及びノイズを含む音声データをクレンジングすることによって得られる、特定の人の声紋の音声サンプルである。上述のステップにより、手動のマーキング方法を用いて音声データをクレンジングすることができず、音声データクレンジング効率が低くなってしまうという、関連技術における技術的課題を解決することができ、よって、音声データクレンジング効率を向上させるという技術的効果が達成される。
少なくともコサイン距離に従って、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから標的音声サンプルを取得するステップS26は、以下のステップを含んでよい。
ステップS262:標的剰余音声サンプルの数が第4の所定閾値以上であるか否かを決定する。
ステップS264:標的剰余音声サンプルの数が第4の所定閾値以上であるとき、コサイン距離に従って、フィルタリングにより、標的剰余音声サンプルから標的音声サンプルを取得する。
ステップS266:標的剰余音声サンプルの数が第4の所定閾値よりも小さいとき、コサイン距離、及び、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離に従って、フィルタリングにより、複数の音声サンプルから標的音声サンプルを取得する。
なお、ステップS26で取得される標的音声サンプルは、フィルタリングにより複数の音声サンプルから取得されてもよく、フィルタリングにより標的剰余音声サンプルから取得されてもよい。本実施形態では、標的剰余音声サンプルの数は、複数の音声サンプルにフィルタリングが実行されたか否か、或いは標的剰余音声サンプルにフィルタリングが実行されたか否かを決定するための根拠として用いられる。具体的には、標的剰余音声サンプルの数が第4の所定閾値以上であるとき、本実施形態では、標的音声サンプルは、標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離に従って、フィルタリングにより標的剰余音声サンプルから取得されてよい。第1の所定閾値よりも大きいコサイン距離を有する音声サンプルが、標的剰余音声サンプルから標的音声サンプルとして選択される。標的剰余音声サンプルの数が第4の所定閾値よりも小さいとき、本実施形態では、標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離、及び、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離に従って、フィルタリングにより、複数の音声サンプルから標的音声サンプルが取得されてよい。ここで、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離は、同時に考慮される必要がある。第1の所定閾値よりも大きいコサイン距離を有する音声サンプルは、複数の音声サンプルから標的音声サンプルとして選択される。
本実施形態では、標的剰余音声サンプルの数に従って、標的音声サンプルがフィルタリングにより複数の音声サンプルから取得されたか否か、又は、標的音声サンプルがフィルタリングにより標的剰余音声サンプルから取得されたか否かが決定される。よって、標的剰余音声サンプルの数が少ないときに、フィルタリングにより標的音声サンプルを正確に取得できることを保証することができる。よって、音声データがクレンジングされた後に所望の音声サンプルを得る正確性を向上させるという効果が達成される。
本願は更に実施形態を提供する。図5は、本願の実施形態に係る音声データ処理方法のフローチャートである。図5に示されるように、本実施形態は以下のステップを含んでよい。
ステップS51:複数の音声サンプルから、特定の数の音声サンプルをシードサンプルとしてランダムに選択し、シードサンプルと剰余音声サンプルのI-Vectorベクトルを取得する。
ステップS52:各音声サンプルのI-VectorベクトルとシードサンプルのI-Vectorベクトルとの間のコサイン距離を順次計算する。
ステップS53:収束があるか否かを決定する。すなわち、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値と、前回のラウンドにおいて計算されたコサイン距離の平均値との差が、特定の閾値よりも小さいか否かを決定する。小さい場合はステップS54を実行し、そうでない場合はステップS55を実行する。
ステップS54:特定の距離閾値に従って、音声データがクレンジングされた後に得られた結果として、距離閾値以上のコサイン距離を有する音声サンプルを選択し、距離閾値未満のコサイン距離を有する音声サンプルをノイズ又は別の人の声紋と見なし、該音声サンプルをフィルタリングする。この時点で、音声データのクレンジングは終了される。
ステップS55:次の反復におけるシードサンプルとして、シードサンプルのI-Vectorベクトルに対して比較的短いコサイン距離を有する音声サンプルを選択し、ステップS52に戻る。
例を用いて説明が提供される。
標的フォルダには合計100個の音声サンプルが存在し、60個の音声サンプルが人物Aに属し、剰余音声サンプルが別の人や各種ノイズのサンプルであると仮定する。100個の音声サンプルから、5分の音声データがランダムに選択される。最初の選択時、可能な限り期間の短いファイルが選択され、可能な限り多くの音声サンプルが含まれる。確率分布に従って、そのような方式で選択された音声サンプルのほとんどはAに属するサンプルである。選択された音声サンプルが接合される。期間が5分を超えた場合、シードサンプルとして、ffmpegを用いて5分間のデータがキャプチャされる。シードサンプルの特性として、シードサンプルのI-Vectorベクトルが抽出される。
現在のラウンドにおいて10個の音声サンプルがシードサンプルとして選択された場合、残りの90個の音声サンプルのI-Vectorベクトルがそれぞれ抽出される。そして、そのI-VectorベクトルとシードサンプルのI-Vectorベクトルとの間のコサイン距離が計算される。次に、90個の音声サンプルのコサイン距離の平均値が求められ、score_itNと表記される。Nは反復の回数である。
score_itN−score_it(N-1)の絶対値が閾値よりも小さい場合(通常、閾値は統計値収集によって得られる)、反復は停止され、次のステップが実行される。そうでない場合、最もスコアの高い音声サンプル、すなわち、シードサンプルまでのコサイン距離が比較的短い音声サンプルが選択され、次の反復におけるシードサンプルとして、接合されて5分間の音声となる。その後、次の反復が実行される。
特定の距離閾値Thによれば(距離閾値Thは経験によって得られる)、音声データがクレンジングされた後の結果として、距離がThよりも大きい音声サンプルのみが用いられる。距離がThよりも小さい音声サンプルは、ノイズ又は別の人のサンプルと見なされてよい。この時点で、自動クレンジングは終了される。
本願の本実施形態における音声データ処理方法では、自動音声データクレンジングのために、I-Vectorベクトル間のコサイン距離に基づく自動クラスタリング方法が用いられる。しかしながら、具体的な実施時では、クラスタリング後に最終的にいくつのカテゴリが得られるかということではなく、多くのサンプルが含まれる特定のカテゴリのみが考慮される。比較的少ないサンプルが含まれる別のカテゴリは、ノイズ又は別の人のサンプルと見なし、破棄することができる。本願により、人件費を大幅に削減することができ、大量の高品質な音声データを生成するという可能性が提供される。本願では、最終的にサンプル間のコサイン距離を用いて結果が得られるので、柔軟性がある。フィルタリングのための最終的な距離閾値は、実際の要件に応じて柔軟に選択されてよく、サンプルの質とサンプルの量とのバランスが達成される。本願では、UBM、GMM及びI-Vectorマトリックスのトレーニングには非常に時間がかかる。それを除けば、他のステップでの計算速度は非常に高く、UBM、GMM及びI-Vectorマトリックスは1回トレーニングされるだけでよい。
なお、簡単な説明のために、上述の方法実施形態は、一連の動作の組合わせとして表されている。しかしながら、当業者であれば理解できるように、本願によれば、一部のステップは他の順序で実行されてもよいし同時に実行されてもよいので、本願は記載された動作の順序に限定されない。
加えて、当業者であれば分かるように、本明細書に記載の実施形態における関連する動作及びモジュールは、必ずしも本願に必須のものではない。
上述の実施形態の説明により、当業者であれば明らかに理解できるように、上述の実施形態に係る方法は、必要な汎用ハードウェアプラットフォームに加えてソフトウェアによって実現されてもよく、当然ながらハードウェアによって実現されてもよい。多くの場合、前者が好ましい実施である。そのような理解に基づき、本願の技術的解決策は必然的に、或いは既存の技術に貢献する部分は、ソフトウェア製品の形態で実現されてよい。コンピュータソフトウェア製品は、記憶媒体(読取専用媒体(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク、光ディスクなど)に記憶され、端末装置(携帯電話、コンピュータ、サーバ、ネットワーク装置などであってよい)に本願の実施形態に記載の方法を実行するように命令するためのいくつかの命令を含む。
本願の実施形態によれば、音声データ処理方法を実施するように構成される音声データ処理装置が更に提供される。図6は、本願の実施形態に係る音声データ処理装置の概略図である。図6に示されるように、本装置は、以下を備えてよい。
取得モジュール62は、複数の音声サンプルの各々のI-Vectorベクトルを取得し、複数の音声サンプルの中の標的シードサンプルを決定するように構成される。計算モジュール64は、標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算するように構成される、標的剰余音声サンプルは、複数の音声サンプルの中で標的シードサンプル以外の音声サンプルである。フィルタリングモジュール66は、少なくとも前記コサイン距離に従って、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから標的音声サンプルを取得するように構成され、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離は、第1の所定閾値よりも大きい。
なお、本実施形態における取得モジュール62は、本願のステップS22を実行するように構成されてよく、本実施形態における計算モジュール64は、本願のステップS24を実行するように構成されてよく、本実施形態におけるフィルタリングモジュール66は、本願のステップS26を実行するように構成されてよい。
なお、ここで、上述のモジュール及び対応するステップによって実現される例とそれらの適用シナリオは同じであるが、上述の実施形態で開示された内容に限定されない。なお、装置の一部としての上述のモジュールは、図1に示されるハードウェア環境で実行されてよく、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。
上述のモジュールを用いて、手動のマーキング方法を用いて音声データをクレンジングすることができず、音声データクレンジング効率が低くなってしまうという、関連技術における技術的課題を解決することができ、よって、音声データクレンジング効率を向上させるという技術的効果が達成される。
図7は、本願の実施形態に係る別の音声データ処理装置の概略図である。図7に示されるように、取得モジュール62は、複数の音声サンプルの各々の音声特性パラメータを取得するように構成される第1の取得サブモジュール621と、事前トレーニングによって完成されたI-Vectorマトリックスを用いて、各音声サンプルのI-Vectorベクトルを取得するように構成される第2の取得サブモジュール622とを有してよい。I-Vectorマトリックスは、音声サンプルの音声特性パラメータに対応するI-Vectorベクトルを示すのに用いられる。
なお、本実施形態における第1の取得サブモジュール621は、本願のステップS221を実行するように構成されてよく、本実施形態における第2の取得サブモジュール622は、本願のステップS222を実行するように構成されてよい。なお、ここで、上述のモジュール及び対応するステップによって実現される例とそれらの適用シナリオは同じであるが、上述の実施形態で開示された内容に限定されない。なお、装置の一部としての上述のモジュールは、図1に示されるハードウェア環境で実行されてよく、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。
図8は、本願の実施形態に係る別の音声データ処理装置の概略図である。図8に示されるように、第1の取得サブモジュール621は、音声サンプルを処理して、そのサンプリングレートがそれぞれ第1のサンプリングレートと第2のサンプリングレートであるPCM信号にするように構成されるサンプリングモジュール6211と、PCM信号から音声特性パラメータを抽出するように構成される第2の抽出モジュール6212と、音声特性パラメータにエネルギー検出及び正規化処理を実行するように構成される処理モジュール6213と、を有してよい。
なお、本実施形態におけるサンプリングモジュール6211は、本願のステップS2211を実行するように構成されてよく、本実施形態における第2の抽出モジュール6212は、本願のステップS2212を実行するように構成されてよく、本実施形態における処理モジュール6213は、本願のステップS2213を実行するように構成されてよい。なお、ここで、上述のモジュール及び対応するステップによって実現される例とそれらの適用シナリオは同じであるが、上述の実施形態で開示された内容に限定されない。なお、装置の一部としての上述のモジュールは、図1に示されるハードウェア環境で実行されてよく、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。
図9は、本願の実施形態に係る別の音声データ処理装置の概略図である。図9に示されるように、I-Vectorマトリックスは、I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを取得するように構成される第3の取得サブモジュール6221と、I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータに従って、事前トレーニングによって完成されたGMMからGSVを抽出するように構成される第1の抽出モジュール6222であって、GMMは、GMMのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを用いたトレーニングによってを得られるモデルである、第1の抽出モジュール6222と、GSVを用いてI-Vectorマトリックスをトレーニングするように構成されるトレーニングモジュール6223と、を用いたトレーニングによって取得される。
なお、本実施形態における第3の取得サブモジュール6221は、本願のステップS2221を実行するように構成されてよく、本実施形態における第1の抽出モジュール6222は、本願のステップS2222を実行するように構成されてよく、本実施形態におけるトレーニングモジュール6223は、本願のステップS2223を実行するように構成されてよい。なお、ここで、上述のモジュール及び対応するステップによって実現される例とそれらの適用シナリオは同じであるが、上述の実施形態で開示された内容に限定されない。なお、装置の一部としての上述のモジュールは、図1に示されるハードウェア環境で実行されてよく、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。
図10は、本願の実施形態に係る別の音声データ処理装置の概略図である。図10に示されるように、現在のシードサンプルは、複数の音声サンプルの少なくとも1つを接合することによって得られるものとして初期化され、前回のラウンドのシードサンプル及び前回のラウンドの剰余音声サンプルは空として初期化される。取得モジュール62は、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算するように構成される第1の計算サブモジュール623と、現在の剰余音声サンプルは、複数の音声サンプルの中で現在のシードサンプル以外の音声サンプルである、第1の計算サブモジュール623と、第1の平均値と第2の平均値との差が第2の所定閾値よりも小さいか否かを決定するように構成される第1の判定モジュール624であって、第1の平均値は、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値であり、第2の平均値は、前回のラウンドのシードサンプルのI-Vectorベクトルと前回のラウンドの剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値であり、前回のラウンドの剰余音声サンプルは、複数の音声サンプルのうち前回のラウンドのシードサンプル以外の音声サンプルである、第1の判定モジュール624と、差が第2の所定閾値よりも小さい場合、現在のシードサンプルを標的シードサンプルとして決定するように構成される決定モジュール625と、差が第2の所定閾値以上である場合、現在のシードサンプルを前回のラウンドのシードサンプルとして用い、現在の剰余音声サンプルから音声サンプルを選択し、選択された音声サンプルを現在のシードサンプルに接合し、現在の剰余音声サンプルを前回のラウンドの剰余音声サンプルとして用いるように構成される選択モジュール626と、において、標的シードサンプルが決定されるまで繰り返し工程を実行することを含んでよい。
なお、本実施形態における第1の計算サブモジュール623は、本願のステップS223を実行するように構成されてよく、本実施形態における第1の判定モジュール624は、本願のステップS224を実行するように構成されてよく、本実施形態における決定モジュール625は、本願のステップS225を実行するように構成されてよく、本実施形態における選択モジュール626は、本願のステップS226を実行するように構成されてよい。なお、ここで、上述のモジュール及び対応するステップによって実現される例とそれらの適用シナリオは同じであるが、上述の実施形態で開示された内容に限定されない。なお、装置の一部としての上述のモジュールは、図1に示されるハードウェア環境で実行されてよく、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。
図11は、本願の実施形態に係る別の音声データ処理装置の概略図である。図11に示されるように、選択モジュール626は、現在の剰余音声サンプルを、コサイン距離の昇順にソートするように構成されるソートモジュール6262と、ソート後の現在の剰余音声サンプルから、1つ以上の上位の音声サンプルを選択するように構成される第1の選択サブモジュール6264であって、1つ以上の上位の音声サンプルが接合された現在のシードサンプルの音声時間は、第3の所定閾値である、第1の選択サブモジュール6264と、を有してよい。
なお、本実施形態におけるソートモジュール6262は、本願のステップS2262を実行するように構成されてよく、本実施形態における第1の選択サブモジュール6264は、本願のステップS2264を実行するように構成されてよい。なお、ここで、上述のモジュール及び対応するステップによって実現される例とそれらの適用シナリオは同じであるが、上述の実施形態で開示された内容に限定されない。なお、装置の一部としての上述のモジュールは、図1に示されるハードウェア環境で実行されてよく、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。
図12は、本願の実施形態に係る別の音声データ処理装置の概略図である。図12に示されるように、フィルタリングモジュール66は、標的剰余音声サンプルの数が第4の所定閾値以上であるか否かを決定するように構成される第2の判定モジュール662と、標的剰余音声サンプルの数が第4の所定閾値以上であるとき、コサイン距離に従って、フィルタリングにより、標的剰余音声サンプルから標的音声サンプルを取得するように構成される第1のフィルタリングサブモジュール664と、標的剰余音声サンプルの数が第4の所定閾値よりも小さいとき、コサイン距離、及び、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離に従って、フィルタリングにより、複数の音声サンプルから標的音声サンプルを取得するように構成される第2のフィルタリングサブモジュール666と、を有してよい。
なお、本実施形態における第1のフィルタリングサブモジュール664は、本願のステップS262を実行するように構成されてよく、本実施形態における第2のフィルタリングサブモジュール666は、本願のステップS262を実行するように構成されてよい。なお、ここで、上述のモジュール及び対応するステップによって実現される例とそれらの適用シナリオは同じであるが、上述の実施形態で開示された内容に限定されない。なお、装置の一部としての上述のモジュールは、図1に示されるハードウェア環境で実行されてよく、ソフトウェアによって実現されてもよいし、ハードウェアによって実現されてもよい。
本願の実施形態によれば、音声データ処理方法を実施するように構成されるサーバ又は端末が更に提供される。
図13は、本願の実施形態に係る端末の構造ブロック図である。図13に示されるように、端末は、1つ以上(図には1つしか示されていない)プロセッサ201と、メモリ203と、伝送装置205(例えば上述の実施形態の送信装置)とを備えてよい。図13に示されるように、端末は更に、入出力装置207を備えてよい。
メモリ203は、ソフトウェアプログラム及びモジュール、例えば本願の実施形態における音声データ処理の方法及び装置に対応するプログラム命令/モジュールを記憶するように構成されてよい。プロセッサ201は、メモリ203に記憶されたソフトウェアプログラム及びモジュールを実行することにより、各種の機能アプリケーション及びデータ処理を実行する。すなわち、上述の音声データ処理方法を実現する。メモリ203は、高速RAMを含んでよく、また、不揮発性メモリを含んでよく、1つ以上の磁気記憶装置、フラッシュメモリ、或いは別の不揮発性ソリッドステートメモリを含んでよい。一部の実施形態では、メモリ203は更に、プロセッサ201に対して遠隔に配置されたメモリを含んでよく、これらの遠隔メモリは、ネットワークを用いて端末に接続されてよい。ネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びこれらの組合わせが挙げられるが、これらに限定されない。
伝送装置205は、ネットワークを用いてデータを受信又は送信するように構成され、更に、プロセッサとメモリとの間でデータを伝送するように構成されてよい。上述のネットワークの具体例としては、有線ネットワークや無線ネットワークが挙げられる。一例では、伝送装置205は、ネットワークケーブルを用いて別のネットワークデバイス及びルータと接続することのできるネットワークインタフェースコントローラ(Network Interface Controller,NIC)を備え、それによってインターネット又はローカルエリアネットワークと通信する。一例では、伝送装置205は、無線方式でインターネットと通信するように構成される無線周波数(Radio Frequency,RF)モジュールである。
具体的には、メモリ203は、アプリケーションプログラムを記憶するように構成される。
プロセッサ201は、伝送装置205を用いて、メモリ203に記憶されたアプリケーションプログラムを呼び出して、複数の音声サンプルの各々のI-Vectorベクトルを取得し、複数の音声サンプルの中の標的シードサンプルを決定するステップと、標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算するステップであって、標的剰余音声サンプルは、複数の音声サンプルの中で標的シードサンプル以外の音声サンプルである、ステップと、少なくともコサイン距離に従って、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから標的音声サンプルを取得するステップであって、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離は、第1の所定閾値よりも大きい、ステップと、を実行してよい。
プロセッサ201は更に、標的シードサンプルが決定されるまで、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算する工程であって、現在の剰余音声サンプルは、複数の音声サンプルのうち現在のシードサンプル以外の音声サンプルである、工程と、第1の平均値と第2の平均値との差が第2の所定閾値よりも小さいか否かを決定する工程であって、第1の平均値は、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値であり、第2の平均値は、前回のラウンドのシードサンプルのI-Vectorベクトルと前回のラウンドの剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値であり、前回のラウンドの剰余音声サンプルは、複数の音声サンプルのうち前回のラウンドのシードサンプル以外の音声サンプルである、工程と、差が第2の所定閾値よりも小さい場合、現在のシードサンプルを標的シードサンプルとして決定する工程、又は、差が第2の所定閾値以上である場合、現在のシードサンプルを前回のラウンドのシードサンプルとして用い、現在の剰余音声サンプルから音声サンプルを選択し、選択された音声サンプルを現在のシードサンプルに接合し、現在の剰余音声サンプルを前回のラウンドの剰余音声サンプルとして用いる工程と、を繰り返し実行するステップを実行するように構成される。
プロセッサ201は更に、現在の剰余音声サンプルを、コサイン距離の昇順にソートするステップと、ソート後の現在の剰余音声サンプルから、1つ以上の上位の音声サンプルを選択するステップであって、1つ以上の上位の音声サンプルが接合された現在のシードサンプルの音声時間は、第3の所定閾値である、ステップと、を実行するように構成される。
プロセッサ201は更に、標的剰余音声サンプルの数が第4の所定閾値以上であるか否かを決定するステップと、標的剰余音声サンプルの数が第4の所定閾値以上であるとき、コサイン距離に従って、フィルタリングにより、標的剰余音声サンプルから標的音声サンプルを取得するステップ、又は、標的剰余音声サンプルの数が第4の所定閾値よりも小さいとき、コサイン距離、及び、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離に従って、フィルタリングにより、複数の音声サンプルから標的音声サンプルを取得するステップと、を実行するように構成される。
プロセッサ201は更に、複数の音声サンプルの各々の音声特性パラメータを取得するステップと、事前トレーニングによって完成されたI-Vectorマトリックスを用いて、各音声サンプルのI-Vectorベクトルを取得するステップであって、I-Vectorマトリックスは、音声サンプルの音声特性パラメータに対応するI-Vectorベクトルを示すのに用いられる、ステップと、を実行するように構成される。
プロセッサ201は更に、I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを取得するステップと、I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータに従って、事前トレーニングによって完成されたGMMからGSVを抽出するステップであって、GMMは、GMMのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを用いたトレーニングによって得られるモデルである、ステップと、GSVを用いてI-Vectorマトリックスをトレーニングするステップと、を実行するように構成される。
プロセッサ201は更に、音声サンプルを処理して、そのサンプリングレートがそれぞれ第1のサンプリングレートと第2のサンプリングレートであるPCM信号にするステップと、PCM信号から音声特性パラメータを抽出するステップと、音声特性パラメータにエネルギー検出及び正規化処理を実行するステップと、を実行するように構成される。
本願の本実施形態により、自動音声データクレンジングの解決策が提供される。各々の音声サンプルのI-Vectorベクトルが取得され、音声サンプルにおいて標的シードサンプルが決定される。標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離がそれぞれ計算され、少なくともコサイン距離に従って、複数の音声サンプル又は標的剰余音声サンプルから、フィルタリングにより、標的シードサンプルのI-Vectorベクトルまでのコサイン距離が第1の所定閾値よりも大きい標的音声サンプルが取得される。よって、人間の介在なしに音声データを自動でクレンジングするという目的が達成される。よって、手動のマーキング方法を用いて音声データをクレンジングすることができず、音声データクレンジング効率が低くなってしまうという、関連技術における技術的課題が解決され、音声データクレンジング効率を向上させるという技術的効果が達成される。
本実施形態における具体例については、上述の実施形態に記載の例を参照されたい。本実施形態では詳細の説明を省略する。
当業者であれば理解できるように、図13に示される構造は一例に過ぎない。端末は、スマートフォン(Android携帯電話やiOS携帯電話など)、タブレットコンピュータ、パームトップコンピュータ、モバイルインターネットデバイス(Mobile Internet Device,MID)、PADなどの端末デバイスであってよい。図13は、上述の電子装置の構造を限定するものではない。例えば、端末は更に、図13に示されるものよりも多い又は少ないコンポーネント(ネットワークインタフェースや表示装置など)を有してよく、或いは図13に示される構成とは異なる構成を有してよい。
当業者であれば理解できるように、実施形態における方法のステップの全部又は一部は、端末装置の関連ハードウェアに命令するプログラムによって実現されてよい。プログラムは、コンピュータ可読記憶媒体に記憶されてよい。記憶媒体は、フラッシュメモリ、ROM、RAM、磁気ディスク、光ディスク等を含んでよい。
本願の実施形態は更に、記憶媒体を提供する。本実施形態では、記憶媒体は、音声データ処理方法のプログラムコードを実行するように構成されてよい。
本実施形態では、記憶媒体は、上述の実施形態に示されるネットワーク内の複数のネットワーク機器のうち少なくとも1つに位置してよい。
本実施形態では、記憶媒体は、以下のステップを実行するのに用いられるプログラムコードを記憶するように構成される。
S1:複数の音声サンプルの各々のI-Vectorベクトルを取得し、複数の音声サンプルの中の標的シードサンプルを決定する。
S2:標的シードサンプルのI-Vectorベクトルと標的剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算する。標的剰余音声サンプルは、複数の音声サンプルのうち標的シードサンプル以外の音声サンプルである。
S3:少なくともコサイン距離に従って、フィルタリングにより、複数の音声サンプル又は標的剰余音声サンプルから標的音声サンプルを取得する。標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離は、第1の所定閾値よりも大きい。
記憶媒体は更に、プログラムコードを記憶するように構成され、プログラムコードは、標的シードサンプルが決定されるまで、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離をそれぞれ計算する工程であって、現在の剰余音声サンプルは、複数の音声サンプルの中で現在のシードサンプル以外の音声サンプルである、工程と、第1の平均値と第2の平均値との差が第2の所定閾値よりも小さいか否かを決定する工程であって、第1の平均値は、現在のシードサンプルのI-Vectorベクトルと現在の剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値であり、第2の平均値は、前回のラウンドのシードサンプルのI-Vectorベクトルと前回のラウンドの剰余音声サンプルのI-Vectorベクトルとの間のコサイン距離の平均値であり、前回のラウンドの剰余音声サンプルは、複数の音声サンプルのうち前回のラウンドのシードサンプル以外の音声サンプルである、工程と、差が第2の所定閾値よりも小さい場合、現在のシードサンプルを標的シードサンプルとして決定する工程、又は、差が第2の所定閾値以上である場合、現在のシードサンプルを前回のラウンドのシードサンプルとして用い、現在の剰余音声サンプルから音声サンプルを選択し、選択された音声サンプルを現在のシードサンプルに接合し、現在の剰余音声サンプルを前回のラウンドの剰余音声サンプルとして用いる工程と、を繰り返し実行するステップを実行するのに用いられる。
記憶媒体は更に、プログラムコードを記憶するように構成され、プログラムコードは、現在の剰余音声サンプルを、コサイン距離の昇順にソートするステップと、ソート後の現在の剰余音声サンプルから、1つ以上の上位の音声サンプルを選択するステップであって、1つ以上の上位の音声サンプルが接合された現在のシードサンプルの音声時間は、第3の所定閾値である、ステップと、を実行するのに用いられる。
記憶媒体は更に、プログラムコードを記憶するように構成され、プログラムコードは、標的剰余音声サンプルの数が第4の所定閾値以上であるか否かを決定するステップと、標的剰余音声サンプルの数が第4の所定閾値以上であるとき、コサイン距離に従って、フィルタリングにより、標的剰余音声サンプルから標的音声サンプルを取得するステップ、又は、標的剰余音声サンプルの数が第4の所定閾値よりも小さいとき、コサイン距離、及び、標的音声サンプルのI-Vectorベクトルと標的シードサンプルのI-Vectorベクトルとの間のコサイン距離に従って、フィルタリングにより、複数の音声サンプルから標的音声サンプルを取得するステップと、を実行するのに用いられる。
記憶媒体は更に、プログラムコードを記憶するように構成され、プログラムコードは、複数の音声サンプルの各々の音声特性パラメータを取得するステップと、事前トレーニングによって完成されたI-Vectorマトリックスを用いて、各音声サンプルのI-Vectorベクトルを取得するステップであって、I-Vectorマトリックスは、音声サンプルの音声特性パラメータに対応するI-Vectorベクトルを示すのに用いられる、ステップと、を実行するのに用いられる。
記憶媒体は更に、プログラムコードを記憶するように構成され、プログラムコードは、I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを取得するステップと、I-Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータに従って、事前トレーニングによって完成されたGMMからGSVを抽出するステップであって、GMMは、GMMのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを用いたトレーニングによって得られるモデルである、ステップと、GSVを用いてI-Vectorマトリックスをトレーニングするステップと、を実行するのに用いられる。
記憶媒体は更に、プログラムコードを記憶するように構成され、プログラムコードは、音声サンプルを処理して、そのサンプリングレートがそれぞれ第1のサンプリングレートと第2のサンプリングレートであるPCM信号にするステップと、PCM信号から音声特性パラメータを抽出するステップと、音声特性パラメータにエネルギー検出及び正規化処理を実行するステップと、を実行するのに用いられる。
本実施形態における具体例については、上述の実施形態に記載の例を参照されたい。本実施形態では詳細の説明を省略する。
本実施形態では、記憶媒体は、USBフラッシュドライブ、ROM、RAM、リムーバブルハードディスク、磁気ディスク、光ディスク等の、プログラムコードを記憶可能な任意の媒体を含んでよいが、これらに限定されない。
本願の上述の実施形態の順番は、説明のためのものに過ぎず、実施形態の優先度を示すものではない。
実施形態における統合ユニットがソフトウェア機能ユニットの形態で実現され、独立した製品として販売又は使用される場合、統合ユニットはコンピュータ可読記憶媒体に記憶されてよい。そのような理解に基づき、本願の技術的解決策は必然的に、或いは既存の技術に貢献する部分、或いは技術的解決策の全部又は一部は、ソフトウェア製品の形態で実現されてよい。コンピュータソフトウェア製品は、記憶媒体に記憶され、1つ以上のコンピュータ装置(PC、サーバ、ネットワーク装置などであってよい)に本願の実施形態に記載の方法のステップの全部又は一部を実行するように命令するためのいくつかの命令を含む。
上述の本願の実施形態では、各実施形態の説明にはそれぞれの焦点がある。実施形態において詳細に記載されなかった部分については、他の実施形態における関連説明を参照されたい。
本願において提供されるいくつかの実施形態において、開示されたクライアントは他の方式で実現されてもよいことが理解されるべきである。説明された装置実施形態は例示に過ぎない。例えば、ユニット分割は論理的な機能分割に過ぎず、実際の実施時には他の分割であってよい。例えば、複数のユニット又はコンポーネントは別のシステムに組合わせ又は統合されてよく、或いは、一部の機能は無視されてもよく、実行されなくてもよい。加えて、表示又は議論された相互結合又は直接的な結合若しくは通信接続は、一部のインタフェースを介して実現されてよい。ユニット間又はモジュール間の間接的な結合又は通信接続は、電子的その他の形式で実現されてよい。
別個の部分として記載されるユニットは、物理的に別個のものであってもなくてもよく、ユニットとして表示される部分は物理ユニットであってもなくてもよく、1つの位置にあってもよいし、複数のネットワークユニットに分散されてもよい。ユニットの一部又は全部は、実施形態の解決策の目的を達成するために、実際の要件に応じて選択することができる。
加えて、本願の実施形態における機能ユニットは、1つの処理ユニットに統合されてもよいし、或いはユニットの各々が物理的に単独で存在してもよいし、2つ以上のユニットが1つのユニットに統合されてもよい。統合ユニットは、ハードウェアの形態で実現されてもよいし、ソフトウェア機能ユニットの形態で実現されてもよい。
上述の説明は、本願の一部の実施に過ぎない。なお、当業者であれば、本願の原理から逸脱することなく、いくつかの改善又は改良を行うことができるであろう。改善又は改良は、本願の保護範囲に包含されるものとする。

Claims (8)

  1. 音声データ処理方法であって、
    複数の音声サンプルの各々のI−Vectorベクトルを取得し、前記複数の音声サンプルの中の標的シードサンプルを決定するステップと、
    前記標的シードサンプルのI−Vectorベクトルと標的剰余音声サンプルのI−Vectorベクトルとの間のコサイン距離をそれぞれ計算するステップであって、前記標的剰余音声サンプルは、前記複数の音声サンプルのうち前記標的シードサンプル以外の音声サンプルである、ステップと、
    標的剰余音声サンプルの数が第4の所定閾値以上であるか否かを決定し、前記標的剰余音声サンプルの数が前記第4の所定閾値以上であるとき、前記コサイン距離に従って、フィルタリングにより、前記標的剰余音声サンプルから標的音声サンプルを取得し、前記標的剰余音声サンプルの数が前記第4の所定閾値よりも小さいとき、前記コサイン距離、及び、標的音声サンプルの前記I−Vectorベクトルと前記標的シードサンプルの前記I−Vectorベクトルとの間のコサイン距離に従って、フィルタリングにより、前記複数の音声サンプルから標的音声サンプルを取得するステップであって、前記標的音声サンプルのI−Vectorベクトルと前記標的シードサンプルの前記I−Vectorベクトルとの間のコサイン距離は、第1の所定閾値よりも大きい、ステップと、
    を含む方法。
  2. 現在のシードサンプルは、前記複数の音声サンプルの少なくとも1つを接合することによって得られるものとして初期化され、前回のラウンドのシードサンプル及び前記前回のラウンドの剰余音声サンプルは空として初期化され、
    前記複数の音声サンプルの中の標的シードサンプルを決定する前記ステップは、前記標的シードサンプルが決定されるまで、
    前記現在のシードサンプルのI−Vectorベクトルと現在の剰余音声サンプルのI−Vectorベクトルとの間のコサイン距離をそれぞれ計算するステップであって、前記現在の剰余音声サンプルは、前記複数の音声サンプルのうち前記現在のシードサンプル以外の音声サンプルである、ステップと、
    第1の平均値と第2の平均値との差が第2の所定閾値よりも小さいか否かを決定するステップであって、前記第1の平均値は、前記現在のシードサンプルの前記I−Vectorベクトルと前記現在の剰余音声サンプルの前記I−Vectorベクトルとの間の前記コサイン距離の平均値であり、前記第2の平均値は、前記前回のラウンドの前記シードサンプルのI−Vectorベクトルと前記前回のラウンドの前記剰余音声サンプルのI−Vectorベクトルとの間のコサイン距離の平均値であり、前記前回のラウンドの前記剰余音声サンプルは、前記複数の音声サンプルのうち前記前回のラウンドの前記シードサンプル以外の音声サンプルである、ステップと、
    前記差が前記第2の所定閾値よりも小さい場合、前記現在のシードサンプルを前記標的シードサンプルとして決定するステップ、又は、
    前記差が前記第2の所定閾値以上である場合、前記現在のシードサンプルを前記前回のラウンドの前記シードサンプルとして用い、前記現在の剰余音声サンプルから音声サンプルを選択し、選択された前記音声サンプルを前記現在のシードサンプルに接合し、前記現在の剰余音声サンプルを前記前回のラウンドの前記剰余音声サンプルとして用いるステップと、
    を繰り返し実行することを含む、請求項1に記載の方法。
  3. 前記現在の剰余音声サンプルから音声サンプルを選択する前記ステップは、
    前記現在の剰余音声サンプルを、前記コサイン距離の昇順にソートするステップと、
    前記ソート後の前記現在の剰余音声サンプルから、1つ以上の上位の音声サンプルを選択するステップであって、前記1つ以上の上位の音声サンプルが接合された前記現在のシードサンプルの音声時間は、第3の所定閾値である、ステップと、
    を含む、請求項2に記載の方法。
  4. 複数の音声サンプルの各々のI−Vectorベクトルを取得する前記ステップは、
    前記複数の音声サンプルの各々の音声特性パラメータを取得するステップと、
    事前トレーニングによって完成されたI−Vectorマトリックスを用いて、各音声サンプルの前記I−Vectorベクトルを取得するステップであって、前記I−Vectorマトリックスは、前記音声サンプルの前記音声特性パラメータに対応する前記I−Vectorベクトルを示すのに用いられる、ステップと、
    を含む、請求項1に記載の方法。
  5. 前記I−Vectorマトリックスは、
    前記I−Vectorマトリックスのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを取得するステップと、
    前記I−Vectorマトリックスのトレーニングに用いられる前記複数の音声サンプルの各々の前記音声特性パラメータに従って、事前トレーニングによって完成された混合ガウスモデル(GMM)からガウススーパーベクトル(GSV)を抽出するステップであって、前記GMMは、前記GMMのトレーニングに用いられる複数の音声サンプルの各々の音声特性パラメータを用いたトレーニングによって得られるモデルである、ステップと、
    前記GSVを用いて前記I−Vectorマトリックスをトレーニングするステップと、
    を用いることにより、トレーニングによって取得される、
    請求項に記載の方法。
  6. 前記音声サンプルの音声特性パラメータを取得する前記ステップは、
    前記音声サンプルを、サンプリングレートがそれぞれ第1のサンプリングレートと第2のサンプリングレートであるパルス符号変調(PCM)信号に処理するステップと、
    前記PCM信号から前記音声特性パラメータを抽出するステップと、
    前記音声特性パラメータにエネルギー検出及び正規化処理を実行するステップと、
    を含む、請求項に記載の方法。
  7. プロセッサ及びメモリを備える音声データ処理装置であって、
    前記メモリは、前記プロセッサによって実行可能な命令を記憶し、前記命令の実行時、前記プロセッサは、請求項1乃至のいずれか一項に記載の方法を実行するように構成される、装置。
  8. コンピュータプログラムを記憶した不揮発性コンピュータ記憶媒体であって、前記コンピュータプログラムは、1つ又は複数のプロセッサによって実行されるとき、前記1つ又は複数のプロセッサに、請求項1乃至のいずれか一項に記載の方法を実行させるように構成される、不揮発性コンピュータ記憶媒体。
JP2018552112A 2016-03-25 2017-03-03 音声データ処理方法、装置及び記憶媒体 Active JP6668501B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610178300.8A CN105869645B (zh) 2016-03-25 2016-03-25 语音数据处理方法和装置
CN201610178300.8 2016-03-25
PCT/CN2017/075522 WO2017162017A1 (zh) 2016-03-25 2017-03-03 语音数据处理方法、装置和存储介质

Publications (2)

Publication Number Publication Date
JP2019509523A JP2019509523A (ja) 2019-04-04
JP6668501B2 true JP6668501B2 (ja) 2020-03-18

Family

ID=56625955

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018552112A Active JP6668501B2 (ja) 2016-03-25 2017-03-03 音声データ処理方法、装置及び記憶媒体

Country Status (5)

Country Link
US (1) US10692503B2 (ja)
EP (1) EP3435374B1 (ja)
JP (1) JP6668501B2 (ja)
CN (1) CN105869645B (ja)
WO (1) WO2017162017A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869645B (zh) * 2016-03-25 2019-04-12 腾讯科技(深圳)有限公司 语音数据处理方法和装置
CN106503181B (zh) * 2016-10-25 2019-12-31 腾讯音乐娱乐(深圳)有限公司 一种音频数据处理方法及装置
CN106782564B (zh) * 2016-11-18 2018-09-11 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
CN106649644B (zh) * 2016-12-08 2020-02-07 腾讯音乐娱乐(深圳)有限公司 一种歌词文件生成方法及装置
CN107068154A (zh) * 2017-03-13 2017-08-18 平安科技(深圳)有限公司 基于声纹识别的身份验证的方法及系统
CN107978311B (zh) 2017-11-24 2020-08-25 腾讯科技(深圳)有限公司 一种语音数据处理方法、装置以及语音交互设备
CN108109613B (zh) * 2017-12-12 2020-08-25 苏州思必驰信息科技有限公司 用于智能对话语音平台的音频训练和识别方法及电子设备
CN110047491A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 一种随机数字口令相关的说话人识别方法及装置
CN108520752B (zh) * 2018-04-25 2021-03-12 西北工业大学 一种声纹识别方法和装置
CN109256137B (zh) * 2018-10-09 2021-11-12 深圳市声扬科技有限公司 语音采集方法、装置、计算机设备和存储介质
CN109524026B (zh) * 2018-10-26 2022-04-26 北京网众共创科技有限公司 提示音的确定方法及装置、存储介质、电子装置
CN111199741A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法、声纹验证方法、装置、计算设备及介质
CN109584893B (zh) * 2018-12-26 2021-09-14 南京邮电大学 非平行文本条件下基于VAE与i-vector的多对多语音转换系统
CN111599342A (zh) * 2019-02-21 2020-08-28 北京京东尚科信息技术有限公司 音色选择方法和选择系统
CN110390928B (zh) * 2019-08-07 2022-01-11 广州多益网络股份有限公司 一种自动拓增语料的语音合成模型训练方法和系统
CN110782879B (zh) * 2019-09-18 2023-07-07 平安科技(深圳)有限公司 基于样本量的声纹聚类方法、装置、设备及存储介质
CN110889009B (zh) * 2019-10-18 2023-07-21 平安科技(深圳)有限公司 一种声纹聚类方法、装置、处理设备以及计算机存储介质
CN111028847B (zh) * 2019-12-17 2022-09-09 广东电网有限责任公司 一种基于后端模型的声纹识别优化方法和相关装置
CN111599346B (zh) * 2020-05-19 2024-02-20 科大讯飞股份有限公司 一种说话人聚类方法、装置、设备及存储介质
CN112036491A (zh) * 2020-09-01 2020-12-04 北京推想科技有限公司 确定训练样本的方法及装置、训练深度学习模型的方法
US11750984B2 (en) 2020-09-25 2023-09-05 Bose Corporation Machine learning based self-speech removal
CN112614478B (zh) * 2020-11-24 2021-08-24 北京百度网讯科技有限公司 音频训练数据处理方法、装置、设备以及存储介质
CN112735382B (zh) * 2020-12-22 2024-02-02 北京声智科技有限公司 音频数据处理方法、装置、电子设备及可读存储介质
CN113113044B (zh) * 2021-03-23 2023-05-09 北京小米松果电子有限公司 音频处理方法及装置、终端及存储介质
CN113516987B (zh) * 2021-07-16 2024-04-12 科大讯飞股份有限公司 一种说话人识别方法、装置、存储介质及设备

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007298876A (ja) 2006-05-02 2007-11-15 Yamaha Corp 音声データ記録再生装置
CN101404160B (zh) * 2008-11-21 2011-05-04 北京科技大学 一种基于音频识别的语音降噪方法
US9767806B2 (en) * 2013-09-24 2017-09-19 Cirrus Logic International Semiconductor Ltd. Anti-spoofing
CN101651694A (zh) * 2009-09-18 2010-02-17 北京亮点时间科技有限公司 提供音频相关信息的方法、系统、客户端及服务器
US8682667B2 (en) * 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102074236B (zh) * 2010-11-29 2012-06-06 清华大学 一种分布式麦克风的说话人聚类方法
CN102723081B (zh) * 2012-05-30 2014-05-21 无锡百互科技有限公司 语音信号处理方法、语音和声纹识别方法及其装置
US9406298B2 (en) * 2013-02-07 2016-08-02 Nuance Communications, Inc. Method and apparatus for efficient i-vector extraction
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
CN103279581B (zh) * 2013-06-25 2016-08-17 中国科学院自动化研究所 一种利用紧凑视频主题描述子进行视频检索的方法
US9336781B2 (en) * 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
US9514753B2 (en) * 2013-11-04 2016-12-06 Google Inc. Speaker identification using hash-based indexing
EP3373176B1 (en) * 2014-01-17 2020-01-01 Cirrus Logic International Semiconductor Limited Tamper-resistant element for use in speaker recognition
US9318112B2 (en) * 2014-02-14 2016-04-19 Google Inc. Recognizing speech in the presence of additional audio
US9373330B2 (en) * 2014-08-07 2016-06-21 Nuance Communications, Inc. Fast speaker recognition scoring using I-vector posteriors and probabilistic linear discriminant analysis
CN104538035B (zh) * 2014-12-19 2018-05-01 深圳先进技术研究院 一种基于Fisher超向量的说话人识别方法及系统
CN105139857B (zh) * 2015-09-02 2019-03-22 中山大学 一种自动说话人识别中针对语音欺骗的对抗方法
CN105161093B (zh) * 2015-10-14 2019-07-09 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN105869645B (zh) 2016-03-25 2019-04-12 腾讯科技(深圳)有限公司 语音数据处理方法和装置
CN106128466B (zh) * 2016-07-15 2019-07-05 腾讯科技(深圳)有限公司 身份向量处理方法和装置
CN106782564B (zh) * 2016-11-18 2018-09-11 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
US10468032B2 (en) * 2017-04-10 2019-11-05 Intel Corporation Method and system of speaker recognition using context aware confidence modeling

Also Published As

Publication number Publication date
CN105869645A (zh) 2016-08-17
US20180286410A1 (en) 2018-10-04
JP2019509523A (ja) 2019-04-04
CN105869645B (zh) 2019-04-12
EP3435374A1 (en) 2019-01-30
US10692503B2 (en) 2020-06-23
EP3435374B1 (en) 2020-05-20
WO2017162017A1 (zh) 2017-09-28
EP3435374A4 (en) 2019-04-03

Similar Documents

Publication Publication Date Title
JP6668501B2 (ja) 音声データ処理方法、装置及び記憶媒体
JP7008638B2 (ja) 音声認識
CN108305641B (zh) 情感信息的确定方法和装置
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
CN110033756B (zh) 语种识别方法、装置、电子设备及存储介质
CN109065051B (zh) 一种语音识别处理方法及装置
US9799325B1 (en) Methods and systems for identifying keywords in speech signal
CN104766608A (zh) 一种语音控制方法及装置
CN109791616A (zh) 自动语音识别
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
CN107545898B (zh) 一种区分说话人语音的处理方法及装置
CN106384587B (zh) 一种语音识别方法及系统
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
CN110910865A (zh) 语音转换方法和装置、存储介质及电子装置
US10910000B2 (en) Method and device for audio recognition using a voting matrix
CN109065026B (zh) 一种录音控制方法及装置
CN109002529B (zh) 音频检索方法及装置
CN110569908B (zh) 说话人计数方法及系统
Balemarthy et al. Our practice of using machine learning to recognize species by voice
CN113593603A (zh) 音频类别的确定方法、装置、存储介质及电子装置
CN106971725B (zh) 一种具有优先级的声纹识方法和系统
CN112489678A (zh) 一种基于信道特征的场景识别方法及装置
CN106971731B (zh) 一种声纹识别的修正方法
CN111326161A (zh) 一种声纹确定方法及装置
CN113782033B (zh) 一种声纹识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180627

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200226

R150 Certificate of patent or registration of utility model

Ref document number: 6668501

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250