JP6897879B2 - 音声特徴補償装置、方法およびプログラム - Google Patents

音声特徴補償装置、方法およびプログラム Download PDF

Info

Publication number
JP6897879B2
JP6897879B2 JP2020539019A JP2020539019A JP6897879B2 JP 6897879 B2 JP6897879 B2 JP 6897879B2 JP 2020539019 A JP2020539019 A JP 2020539019A JP 2020539019 A JP2020539019 A JP 2020539019A JP 6897879 B2 JP6897879 B2 JP 6897879B2
Authority
JP
Japan
Prior art keywords
feature vector
feature
short
voice
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020539019A
Other languages
English (en)
Other versions
JP2021510846A (ja
Inventor
チョンチョン ワン
チョンチョン ワン
岡部 浩司
浩司 岡部
孝文 越仲
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2021510846A publication Critical patent/JP2021510846A/ja
Priority to JP2021096366A priority Critical patent/JP7243760B2/ja
Application granted granted Critical
Publication of JP6897879B2 publication Critical patent/JP6897879B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、発話および音声の特徴ベクトルをロバストなものに補償するための特徴補償装置、特徴補償方法およびプログラムに関する。
話者認識は、声から人を認識することである。声道の形状、喉頭のサイズ、および、音声生成器官の他の部分が異なるため、2人の声が同じように聞こえることはない。人間の声の独自性を考慮すると、話者認識は、テレフォンバンキングなどの不正アクセスの証拠が発見されるべき電話ベースのサービスにますます適用される。
話者認識システムは、テキスト依存のシステムとテキスト非依存のシステムに分けることができる。テキスト依存システムでは、認識句は固定されているか、事前に認識されている。テキスト非依存システムでは、話者が使用できる語に制約はない。テキスト非依存認識は、応用範囲が広く、2つのタスクに対してはるかにチャレンジングであり、過去数十年で一貫して改善されている。
テキスト非依存話者認識アプリケーションでの参照(reference:トレーニングで話されるもの)とテスト(test:実際の使用で発話されるもの)の発話は全く異なる内容になる可能性があるため、認識システムはこの音声の不一致を考慮する必要がある。パフォーマンスは音声の長さに大きく依存する。ユーザが、長い期間、通例1分以上、発話する場合、ほとんどの音素がカバーされていると考えられる。その結果、音声内容が異なっていても認識精度は高くなる。しかし、短時間音声の場合、統計的手法で抽出された発話の話者特徴ベクトルは正確な認識を行うには信頼性が低いので、短時間音声では話者認識性能が低下する。
実際の話者検証アプリケーションでは、テスト中に短い音声区間のみがしばしば観察される。一般に、10秒未満の短い音声区間がよく生ずる。よって、話者特徴ベクトルを復元して、短時間発話によるテキスト非依存話者認識を改善することが重要である。
特許文献1には、Denoising Autoencoder(DAE)を使用して、限られた発音情報を含む短時間音声の話者特徴ベクトルを復元する技術が開示されている。
図23に示すように、特許文献1に記載されたDAEに基づく特徴補正装置では、まず、音声モデルに基づく事後確率として、入力発話の音響的多様性の程度を推定する。次に、音響的多様性の程度と認識特徴ベクトルとの両方が入力層401に提供される。本明細書において、「特徴ベクトル」は、対象を表す数値(特定のデータ)のセットを意味する。入力層401、1つまたは複数の隠れ層402、および出力層403を含むDAEベースの変換は、長い音声区間と短い音声区間とのペアを使用した教師ありトレーニングの助けを借りて、出力層において復元された認識特徴ベクトルを生成できる。
非特許文献1には、音響特徴としてMFCC(Mel-Frequency Cepstrum Coefficients:メル周波数ケプストラム係数)が開示されている。
米国特許出願公開第2016/0098993号明細書
Najim Dehak, Patrick J. Kenny, Reda Dehak, Pierre Dumouchel, and Pierre Ouellet, "Front-End Factor Analysis for Speaker Verification", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 19, NO. 4, MAY 2011
しかし、特許文献1では、DAE最適化で平均二乗誤差最小化のみが使用されている。このような目的関数は、正確な実行のためには単純すぎる。また、単純な目的関数を使用する場合には、短時間音声を長時間音声の一部に制限しないとよりよい結果が得られない。現実には、そのようなネットワークをトレーニングするために、長時間音声しか使用できない(短時間音声はそこから切り取られる。)。存在する話者の短時間音声の情報は無駄になる。このシステムは、トレーニングのために、複数の長時間音声を有する十分な数の話者を必要とする。そのことは、すべてのアプリケーションにとって現実的ではない可能性がある。
本発明の目的は、上述した状況を考慮して、短時間音声に対する頑健(ロバスト)な特徴補償を提供することである。
音声特徴補償装置の例示的な態様は、短い音声区間から抽出された第1の特徴ベクトルと、短い音声区間よりも長く短い音声の話者と同一の話者からの長い音声区間から抽出された第2の特徴ベクトルとを使用してGAN(Generative Adversarial Network)の生成器と識別器とをトレーニングし、GANのトレーニングされたパラメータを出力するトレーニング手段と、入力された短時間音声から特徴ベクトルを抽出する特徴抽出手段と、トレーニングされたパラメータを使用して、抽出された特徴ベクトルに基づいてロバストな特徴ベクトルを生成する生成手段とを含む。
音声処理方法の例示的な態様は、短い音声区間から抽出された第1の特徴ベクトルと、短い音声区間よりも長く短い音声の話者と同一の話者からの長い音声区間から抽出された第2の特徴ベクトルとを使用してGAN(Generative Adversarial Network)の生成器と識別器とをトレーニングし、GANのトレーニングされたパラメータを出力し、入力された短時間音声から特徴ベクトルを抽出し、トレーニングされたパラメータを使用して、抽出された特徴ベクトルに基づいてロバストな特徴ベクトルを生成する。
音声処理プログラムの例示的な態様は、コンピュータに、短い音声区間から抽出された第1の特徴ベクトルと、短い音声区間よりも長く短い音声の話者と同一の話者からの長い音声区間から抽出された第2の特徴ベクトルとを使用してGAN(Generative Adversarial Network)の生成器と識別器とをトレーニングし、GANのトレーニングされたパラメータを出力する処理と、入力された短時間音声から特徴ベクトルを抽出する処理と、トレーニングされたパラメータを使用して、抽出された特徴ベクトルに基づいてロバストな特徴ベクトルを生成する処理とを実行させる。
本発明によれば、音声補償装置、音声特徴補償方法、およびプログラムは、短時間音声に対してロバストな特徴補償を提供することができる。
本発明の第1の実施形態のロバストな特徴補償装置のブロック図である。 短時間音声データ記憶部の内容の一例を示す図である。 長時間音声データ記憶部の内容の一例を示す図である。 生成器パラメータ記憶部の内容の一例を示す図である。 第1の実施形態におけるNNアーキテクチャの概念を示す図である。 第1の実施形態のロバストな特徴補償装置の動作を示すフローチャートである。 第1の実施形態のロバストな特徴補償装置のトレーニングフェーズの動作を示すフローチャートである。 第1の実施形態のロバストな特徴補償装置のロバストな特徴補償フェーズの動作を示すフローチャートである。 本発明の第2の実施形態のロバストな特徴補償装置のブロック図である。 第2の実施形態におけるNNアーキテクチャの概念を示す図である。 第2の実施形態のロバストな特徴補償装置の動作を示すフローチャートである。 第2の実施形態のロバストな特徴補償装置のトレーニングフェーズの動作を示すフローチャートである。 第2の実施形態のロバストな特徴補償装置のロバストな特徴補償フェーズの動作を示すフローチャートである。 本発明の第3の実施形態のロバストな特徴補償装置のブロック図である。 第3の実施形態におけるNNアーキテクチャの概念を示す図である。 第3の実施形態のロバストな特徴補償装置の動作を示すフローチャートである。 第3の実施形態のロバストな特徴補償装置のトレーニングフェーズの動作を示すフローチャートである。 第3の実施形態のロバストな特徴補償装置のロバストな特徴補償フェーズの動作を示すフローチャートである。 本発明による実施形態で使用可能なコンピュータ構成を示す図である。 本発明による実施形態で使用可能なコンピュータ構成を示す図である。 音声特徴補償装置の主要部を示すブロック図である。 音声特徴補償装置の他の態様を示すブロック図である。 特許文献1に示された特徴補償装置を示すブロック図である。
以下、本発明の各実施形態について、図面を参照して説明する。以下の詳細な説明は単なる例示であり、本発明または本発明の用途および使用を限定することを意図していない。さらに、上記の発明の背景または以下の詳細な説明に示されている考え方に拘束される意図はない。
図中の要素が単純化および明確化のために示され、必ずしも一定の縮尺で描かれていないことは、当業者に理解されるであろう。たとえば、集積回路アーキテクチャを示す図中のいくつかの要素の大きさは、当該実施形態および他の実施形態の理解を容易にするのに役立つように、他の要素に対して誇張されうる。
実際の話者認識アプリケーションでは、多くの場合、テキスト非依存話者認識が使用され、短い音声区間(10秒未満)が観察される。このような場合、音声の不整合を考慮に入れる必要がある。不均衡な音声分布は、短時間音声から抽出される話者特徴ベクトルの信頼性低下という結果をもたらすからである。区間の長さが短くなると、性能が低下する。したがって、話者特徴復元方法(speaker feature restoration method)によって、短時間発話によるテキスト非依存話者認識を改善する必要がある。
上記の観点から、以下の実施形態では、反復トレーニングプロセス中に互いを改善する生成器および識別器を含む敵対的生成ネットワーク(Generative Adversarial Network:GAN)が利用される。生成器は、補償によって短時間音声のためにロバストな特徴ベクトルを生成する。
第1の実施形態
第1の実施形態のロバストな特徴補償装置は、生成器を使用して、短時間音声の未加工の特徴ベクトルから、短い音声区間に対するロバストな特徴ベクトルを提供することができる。すなわち、この実施形態では、短時間音声と長時間音声とでトレーニングされたGANの生成器は、短時間音声からでもロバストな特徴ベクトルを生成することができる。長期間音声の期間は、短時間音声の期間よりも長い。
<ロバストな特徴補償装置の構成>
本発明の第1の実施形態では、GANの生成器を使用する特徴復元のためのロバストな特徴補償装置が説明される。
図1は、第1の実施形態のロバストな特徴補償装置100を示すブロック図である。ロバストな特徴補償装置100は、トレーニング部100Aと特徴復元部100Bとを備える。
トレーニング部100Aは、短時間音声データ記憶部101、長時間音声データ記憶部102、特徴抽出部103a,103b、ノイズ記憶部104、生成器・識別器トレーニング部105、および生成器パラメータ記憶部106を含む。特徴復元部100Bは、特徴抽出部103c、生成器107、および生成特徴記憶部108を備える。特徴抽出部103a,103b,103cは、同じ機能を有する。
短時間音声データ記憶部101は、図2に示されるような話者ラベルを有する短時間音声記録を記憶する。
長時間音声データ記憶部102は、図3に示すような話者ラベルを有する長時間音声記録を記憶する。長時間音声データ記憶部102は、短時間音声データ記憶部101に短時間音声記録が含まれる各話者について少なくとも1つの長時間音声記録を含む。
ノイズ記憶部104は、ノイズを表すランダムなベクトルを記憶する。
生成器パラメータ記憶部106は、図4に示すように生成器パラメータを格納する。生成器は、図4からわかるように、エンコーダおよびデコーダを含む。エンコーダおよびデコーダの両方のパラメータは、生成器パラメータ記憶部106に格納される。
特徴抽出部103aは、短時間音声データ記憶部101における短時間音声データから特徴ベクトルを抽出する。特徴抽出部103bは、長時間音声データ記憶部102における長時間音声から特徴ベクトルを抽出する。特徴ベクトルは、個別に測定可能な観測値の特性である。特徴ベクトルは、たとえば、i−vectorすなわち非特許文献1に記載されているMFCCなどの音響特徴から抽出された固定次元の特徴ベクトルである。
生成器・識別器トレーニング部105は、特徴抽出部103aから短い音声区間の特徴ベクトルを受け取り、特徴抽出部103bから長い音声区間の特徴ベクトルを受け取り、ノイズ記憶部104からノイズを受け取る。生成器・識別器トレーニング部105は、生成器と識別器(図1において図示せず)を繰り返しトレーニングして、「真」(特徴ベクトルは長時間音声から抽出される。)または「偽」(特徴ベクトルは、短時間音声からの特徴ベクトルを基に生成される。)、および特徴ベクトルが属する話者ラベルを判定する。生成器と識別器のそれぞれは、入力層、1つまたは複数の隠れ層、および出力層を含む。
トレーニングにおいて、「真」の場合には、受信された長時間音声の特徴ベクトルが、識別器の入力層に与えられる。「偽」の場合には、受信された短時間音声の特徴ベクトルが、生成器の入力層に与えられる。生成器の出力層は、識別器の入力層である。さらに、「真/偽」と話者のラベルとが、識別器の出力層に与えられる。それらの層の詳細は後述される。トレーニングの後、生成器・識別器トレーニング部105は、生成器パラメータを生成器パラメータ記憶部106に格納する。
特徴復元部100Bでは、特徴抽出部103cが、短時間音声から特徴ベクトルを抽出する。生成器107は、特徴ベクトルとともに、ノイズ記憶部104に記憶されたノイズと、生成器パラメータ記憶部106に記憶された生成器パラメータとを受け取る。生成器107は、ロバストな復元された特徴を生成する。
図5には、生成器と識別器のアーキテクチャの概念が示されている。生成器は、2つのニューラルネットワーク(NN)すなわちエンコーダNNとデコーダNNとを有する。識別器、は1つのNNを有する。各NNは、入力層、隠れ層、出力層の3種類のレイヤを含む。隠れ層は、複数層を含んでもよい。少なくとも入力層と隠れ層の間、および隠れ層と出力層の間には、線形変換および/または活性化関数(伝達関数)がある。エンコーダNNの入力層は、短時間音声記録の特徴ベクトルである。エンコーダNNの出力層は、話者係数(特徴ベクトル)である。デコーダの入力層は、ノイズとエンコーダNNの出力層の話者係数との加算または連結である。デコーダの出力層は、復元された特徴ベクトルである。識別器の場合、入力層は、長時間音声の特徴ベクトルまたはデコーダNNの出力である復元された特徴ベクトルである。識別器の出力は、「真/偽」および話者ラベルである。
トレーニング部100Aにおいて、エンコーダNNの入力層(短時間音声記録の特徴ベクトル)、デコーダNNの入力層の一部(ノイズ)、識別器用の2つのタイプのうちの1つの入力層(長時間音声記録の特徴ベクトル)、識別器(「真/偽」と話者ラベルを出力)の出力層が与えられ、その結果、3つのNN(エンコーダ、デコーダ、識別器)パラメータの隠れ層、エンコーダの出力層NN(話者係数)、デコーダの出力層NN(復元された特徴ベクトル)が決定される。たとえば、エンコーダ、デコーダ、および識別器における層数は、15、15、16である。
トレーニング部100Aの評価部では、エンコーダパラメータ、デコーダパラメータ、エンコーダNN(短時間音声の特徴ベクトル)の入力層、デコーダNNの入力層の一部(ノイズ)が設けられ、その結果、デコーダのNN(復元された特徴ベクトル)の出力層が決定される。
識別器において、出力層は(2+n)ニューロンで構成される。nはトレーニングデータにおける話者の数であり、2は「真/偽」である。トレーニング部100Aにおいて、ニューロンは、「真/偽」および「真の話者ラベル/偽の話者ラベル」に対応する値「1」または「0」を取ることができる。
トレーニング部100Aにおいて、生成器(エンコーダおよびデコーダ)および識別器は、互いに繰り返しトレーニングする。各反復で、識別器パラメータが固定されている間に生成器パラメータが1回更新され、次に、生成器パラメータが固定されている間に識別器パラメータが1回更新される。この目的のために、交差エントロピーとしての、事前定義されたコスト関数を最小にするバックプロパゲーションとして知られる最急降下法、平均二乗誤差など、様々な最適化手法を適用できる。
たとえば、目的関数は次のように表すことができる。
生成器のため:
Figure 0006897879
識別器のため:
Figure 0006897879
Figure 0006897879
値(a)は生成器のための目的変数であり、値(b)は識別器のための目的変数である。Aは、与えられた短時間音声の特徴ベクトルである。Bは、与えられた長時間音声の特徴ベクトルである。要素(c)は、話者以外のバリエーションをモデル化したノイズである。G(A、z)は、生成器から生成された特徴ベクトルである。要素(d)は、話者分類の結果すなわち話者の事後確率のための要素である。Nはトレーニングセットの話者の総数である。要素(e)は、「真/偽」の特徴ベクトル分類のための要素である。要素(f)は、Dのi番目の要素である。演算子(g)と(h)とは、それぞれ、期待値と平均二乗誤差演算子である。定数(i)は事前に定義された定数である。yは、真の話者ID(正解)である。
以下のように表現することもできる。
生成器のため:
Figure 0006897879
識別器のため
Figure 0006897879
<ロバストな特徴補償装置の動作>
次に、ロバストな特徴補償装置100の動作を、図面を参照して説明する。
ロバストな特徴補償装置100の全体の動作を図6を参照して説明する。図6は、トレーニング部100Aおよび特徴復元部100Bの動作を含む。ただし、これは例であり、トレーニングと特徴復元の操作を連続して実行したり、時間間隔を挿入したりすることができる。
ステップA01(トレーニング部)において、生成器・識別器トレーニング部105は、短時間音声データ記憶部101と長時間音声データ記憶部102とのそれぞれに記憶された同じ話者からの短時間音声および長時間音声に基づいて、生成器および識別器をともに繰り返しトレーニングする。詳しくは、各反復で、最初に識別器パラメータが固定され、目的関数を使用して生成器パラメータが更新される。次に、生成器パラメータが固定され、識別器パラメータが目的関数を使用して更新される。反復において、生成器パラメータと識別器パラメータとを更新する順序は変更可能である。トレーニングのために、交差エントロピーとしての、事前定義されたコスト関数を最小にするバックプロパゲーションとして知られる最急降下法、平均二乗誤差など、様々な最適化手法を適用できる。生成器の更新に使用される目的関数は、識別器が識別できない復元された特徴ベクトルを生成できるように生成器を更新できる。一方、識別器の更新における目的関数は、生成された特徴ベクトルを識別できるように識別器を更新できる。
ステップA02(特徴復元部)では、生成器107は、生成器パラメータ記憶部106に記憶されている生成器パラメータを用いて、出力層において、与えられた短時間音声発話から復元特徴ベクトルを生成する。
図7は、生成器および識別器が、ノイズとともに短時間音声の特徴ベクトルおよび長時間音声の特徴ベクトルを使用してともにトレーニングされることを示すフローチャートである。図7は、図6におけるトレーニング部を示す。
まず、ステップB01において、特徴抽出部103aは、トレーニング部の始めとして、話者ラベル付きの短時間音声データを短時間音声データ記憶部101から読み出す。
ステップB02では、特徴抽出部103aは、さらに、短時間音声から特徴ベクトルを抽出する。
ステップB03では、特徴抽出部103bは、話者ラベル付き長時間音声データを長時間音声データ記憶部102から読み出す。
ステップB04では、特徴抽出部103bは、さらに、長時間音声から特徴ベクトルを抽出する。
ステップB05では、生成器・識別器トレーニング部105は、ノイズ記憶部104に記憶されているノイズデータを読み出す。
ステップB06では、生成器・識別器トレーニング部105は、特徴抽出部103aから送信された話者ラベル付きの短時間音声の特徴ベクトルおよび特徴抽出部103bから送信された話者ラベル付きの長時間音声の特徴ベクトル、ならびにノイズを使用して、生成器と識別器とをともにトレーニングする。
ステップB07では、トレーニングの結果として、生成器・識別器トレーニング部105は、生成器パラメータおよび識別器パラメータを生成し、生成器パラメータを生成器パラメータ記憶部106に格納する。
B01〜B02とB03〜B04の順序は、図7に示した形式に限らず、入れ替えることができる。
図8は、特徴復元部100Bを示すフローチャートである。
まず、ステップC01において、特徴抽出部103cは、外部装置(図1において図示せず)を介して提供される短時間音声データを読み取る。
ステップC02では、特徴抽出部103cは、与えられた短時間音声データから特徴ベクトルを抽出する。
ステップC03では、生成器107は、ノイズ記憶部104に記憶されているノイズデータを読み出す。
ステップC04では、生成器107は、生成器パラメータ記憶部106から生成器パラメータを読み出す。
ステップC05では、生成器107は、短時間音声の特徴ベクトルを復元し、ロバストな特徴ベクトルを再生する。
なお、C03とC04の順序を入れ替えることができる。
第1の実施形態の効果
以上に説明したように、第1の実施形態では、短時間音声の特徴ベクトルのロバスト性を向上させることができる。その理由は、生成器と識別器の共同トレーニングがお互いの性能を向上させ、トレーニングにおける長時間音声の特徴ベクトルと短時間音声の特徴ベクトルとの関係が学習されるためである。その結果、そのようなNNは、短時間音声の特徴ベクトルを、長時間音声の特徴と同じくらいロバストに生成できる。
第2の実施形態
第2の実施形態のロバストな特徴補償装置は、エンコーダを使用して、短時間音声の未加工の特徴から短い音声区間に対してロバストな特徴を提供することができる。すなわち、この実施形態では、エンコーダ(短時間音声と長時間音声でトレーニングされたGANの生成器の一部)は、短時間音声に対してロバストな話者特徴ベクトルを生成することができる。
<ロバストな特徴補償装置の構成>
本発明の第2の実施形態では、GANの生成器および識別器を使用する話者特徴抽出のためのロバストな特徴補償装置が説明される。
図9は、第2の実施形態のロバストな特徴補償装置200のブロック図を示す。ロバストな特徴補償装置200は、トレーニング部200Aと話者特徴抽出部200Bとを含む。
トレーニング部200Aは、短時間音声データ記憶部201、長時間音声データ記憶部202、特徴抽出部203a,203b、ノイズ記憶部204、生成器・識別器トレーニング部205、およびエンコーダパラメータ記憶部206を含む。話者特徴抽出部200Bは、特徴抽出部203c、生成手段としてのエンコード部207、および生成特徴記憶部208を備える。特徴抽出部203a,203b,203cは、同様の機能を有する。
短時間音声データ記憶部201は、図2に示すように、話者ラベルを有する短時間音声記録を格納する。
長時間音声データ記憶部202は、図3に示すように、話者ラベルを有する長時間音声記録を記憶する。長時間音声データ記憶部202は、短時間音声データ記憶部201に短時間音声記録が含まれる各話者についての少なくとも1つの長時間音声記録を含む。
ノイズ記憶部204は、ノイズを表すランダムなベクトルを記憶する。
エンコーダパラメータ記憶部206は、エンコーダパラメータを格納する。各エンコーダパラメータは、生成器・識別器トレーニング部205の結果の一部である。生成器(図9において図示せず)は、図4から理解されうる第1の実施形態と同様に、エンコーダとデコーダとで構成されている。
特徴抽出部203aは、短時間音声データ記憶部201の短時間音声から特徴を抽出する。特徴抽出部203bは、長時間音声データ記憶部202の長時間音声から特徴を抽出する。特徴は、個別に測定可能な観測値の特性である。特徴は、たとえば、i−vectorすなわちMFCCなどの音響特徴から抽出された固定次元の特徴ベクトルである。
生成器・識別器トレーニング部205は、特徴抽出部203aから短時間音声の特徴ベクトルを受け取り、特徴抽出部203bから長時間音声の特徴ベクトルを受け取り、ノイズ記憶部204からノイズを受け取る。生成器・識別器トレーニング部205は、真(特徴ベクトルは長時間音声から抽出される。)または偽(特徴ベクトルは短時間音声からの特徴ベクトルを基に生成される。)、および特徴ベクトルが属している話者ラベルを決定するために、生成器と識別器(図9において図示せず)とを繰り返しトレーニングする。トレーニングの詳細は、第1の実施形態において示されている。トレーニングの後、生成器・識別器トレーニング部205は、生成器パラメータおよび識別器パラメータを出力し、それらをエンコーダパラメータ記憶部206に格納する。
話者特徴抽出部200Bにおいて、特徴抽出部203cは、短時間音声から特徴ベクトルを抽出する。エンコード部207は、特徴ベクトルとともに、ノイズ記憶部204に記憶されているノイズおよびエンコーダパラメータ記憶部206に記憶されているエンコーダパラメータを受け取る。エンコード部207は、ロバストな話者特徴をコード化(encode)する。
図10には、第2の実施形態の生成器および識別器のアーキテクチャの概念が示されている。生成器は、2つのNN(エンコーダNNとデコーダNN)を有し、識別器は、1つのNNを有する。各NNは、入力層、隠れ層、出力層の3種類のレイヤを含む。隠れ層は、複数層を含んでもよい。少なくとも入力層と隠れ層の間、および隠れ層と出力層の間には、線形変換および/または活性化関数(伝達関数)がある。エンコーダNNの入力層は、短時間音声の特徴ベクトルである。エンコーダNNの出力層は話者係数である。デコーダの入力層は、ノイズとエンコーダNNの出力層の話者係数との加算または連結である。デコーダの出力層は、復元された特徴ベクトルである。識別器の場合、入力層は、長時間音声の特徴ベクトルまたはデコーダNNの出力である復元された特徴ベクトルである。識別器の出力は、「真/偽」および話者ラベルである。
第2実施形態のトレーニング部200Aは、上述した第1の実施形態のトレーニング部と同様である。
評価部では、エンコーダパラメータとエンコーダNNの入力層(短時間音声の特徴ベクトル)が提供され、その結果、エンコーダNNの出力層(話者係数)が得られる。
<ロバストな特徴補償装置の動作>
次に、ロバストな特徴補償装置200の動作を、図面を参照して説明する。
ロバストな特徴補償装置200の全体の動作を、図11を参照して説明する。図11は、トレーニング部200Aおよび話者特徴抽出部200Bの動作を含む。ただし、これは例であって、トレーニングと話者特徴抽出の操作を連続して実行したり、時間間隔を挿入したりすることができる。
ステップD01(トレーニング部)において、生成器・識別器トレーニング部205は、それぞれ、短時間音声データ記憶部201と長時間音声データ記憶部202とののそれぞれに記憶された同じ話者からの短時間音声および長時間音声に基づいて、生成器および識別器をともに繰り返しトレーニングする。詳しくは、各反復で、最初に識別器パラメータが固定され、目的関数を使用して生成器パラメータが更新される。次に、生成器パラメータが固定され、識別器パラメータが目的関数を使用して更新される。反復において、生成器パラメータと識別器パラメータとを更新する順序は変更可能である。トレーニングのために、交差エントロピーとしての、事前定義されたコスト関数を最小にするバックプロパゲーションとして知られる最急降下法、平均二乗誤差など、様々な最適化手法を適用できる。生成器の更新に使用される目的関数は、識別器が識別できない復元された特徴ベクトルを生成できるように生成器を更新できる。一方、識別器の更新における目的関数は、生成された特徴ベクトルを識別できるように識別器を更新できる。
ステップD02(話者特徴抽出部)では、エンコード部207は、エンコーダパラメータ記憶部206に記憶されているエンコーダパラメータを用いて、エンコーダの出力層において、与えられた短時間発話からロバストな話者特徴ベクトルをコード化する。
図12は、生成器および識別器が、ノイズとともに短時間音声の特徴ベクトルおよび長時間音声の特徴ベクトルを使用してともにトレーニングされることを示すフローチャートである。図12は、図11のトレーニング部を示す。
まず、ステップE01において、特徴抽出部203aは、トレーニング部の始めとして、話者ラベル付きの短時間音声データを短時間音声データ記憶部201から読み出す。
ステップE02では、特徴抽出部203aは、さらに、短時間音声から特徴ベクトルを抽出する。
ステップE03では、特徴抽出部203bは、話者ラベル付き長時間音声データを長時間音声データ記憶部202から読み出す。
ステップE04では、特徴抽出部203bは、さらに、長時間音声から特徴ベクトルを抽出する。
ステップE05では、生成器・識別器トレーニング部205は、ノイズ記憶部204に記憶されているノイズデータを読み出す。
ステップE06において、生成器・識別器トレーニング部205は、特徴抽出部203aから送信された話者ラベル付きの短時間音声の特徴ベクトルおよび特徴抽出部203bから送信された話者ラベル付きの長時間音声の特徴ベクトル、ならびにノイズを使用して、生成器および識別器をともにトレーニングする。
ステップE07では、トレーニングの結果として、生成器・識別器トレーニング部205は、生成器および識別器をトレーニングし、エンコーダ(生成器の一部)のパラメータをエンコーダパラメータ記憶部206に格納する。
E01〜E02とE03〜E04の順序は、図12に示した形式に限らず、入れ替えることができる。
図13は、話者特徴抽出部200Bを示すフローチャートである。
まず、特徴抽出部203cは、ステップF01において、外部装置(図9において図示せず)を介して提供される短時間音声データを読み取る。
ステップF02では、特徴抽出部203cは、与えられた短時間音声データから特徴ベクトルを抽出する。
ステップF03では、エンコード部207は、ノイズ記憶部204に記憶されているノイズデータを読み出す。
ステップF04では、エンコード部207は、エンコーダパラメータ記憶部206からエンコーダパラメータを読み出す。
ステップF05では、エンコード部207は、短時間音声の特徴ベクトルをコード化し、ロバストな話者特徴ベクトルを抽出する。
なお、F03とF04の順序を入れ替えることができる。
第2の実施形態の効果
上述したように、第2の実施形態は、短時間音声の特徴ベクトルのロバスト性を改善することができる。第1の実施形態では、ロバストな特徴の復元が行われる。同じトレーニング構造で、エンコーダの出力層でロバストな話者特徴ベクトルを同時に生成できる。話者特徴ベクトルの使用は、話者検証アプリケーションにとってより直接的である。
第3の実施形態
第3の実施形態のロバストな特徴補償装置は、生成器および識別器を使用して、短時間音声の未加工の特徴から、識別器の最後の層で生成されるボトルネック特徴ベクトルを使用して、短い音声区間にロバストな特徴を提供できる。すなわち、この実施形態では、短時間音声および長時間音声でトレーニングされたGANの生成器および識別器は、短時間音声に対してロバストなボトルネック特徴を生成することができる。
<ロバストな特徴補償装置の構成>
本発明の第3の実施形態では、GANの生成器のエンコーダを使用するボトルネック特徴抽出のためのロバストな特徴補償装置が説明される。
図14は、第3の実施形態のロバストな特徴補償装置300のブロック図を示す。ロバストな特徴補償装置300は、トレーニング部300Aと、ボトルネック特徴抽出部300Bとを含む。
トレーニング部300Aは、短時間音声データ記憶部301、長時間音声データ記憶部302、特徴抽出部303a,303b,303c、ノイズ記憶部304、生成器・識別器トレーニング部305、生成器パラメータ記憶部306、および識別器を含む。ボトルネック特徴抽出部300Bは、特徴抽出部303c、生成器308、およびボトルネック特徴記憶部309を含む。特徴抽出部303a,303b,303cは、同様の機能を有する。
短時間音声データ記憶部301は、図2に示すように、話者ラベルを有する短時間音声記録を格納する。
長時間音声データ記憶部302は、図3に示すように、話者ラベルを有する長時間音声記録を記憶する。長時間音声データ記憶部302は、短時間音声データ記憶部301に短時間音声記録を有する各話者の少なくとも1つの長時間音声記録を含む。
ノイズ記憶部304は、ノイズを表すランダムなベクトルを記憶する。
生成器パラメータ記憶部306は、生成器パラメータを記憶する。生成器(図14において図示せず)は、図4から理解されうる第1の実施形態と同様のエンコーダおよびデコーダからなる。したがって、エンコーダおよびデコーダの両方のパラメータは、生成器パラメータ記憶部306に記憶される。
識別器パラメータ記憶部307は、識別器(図14において図示せず)のパラメータを記憶する。
特徴抽出部303aは、短時間音声データ記憶部301における短時間音声から特徴を抽出する。特徴抽出部303bは、長時間音声データ記憶部302における長時間音声から特徴を抽出する。特徴は、たとえば、i−vectorすなわちMFCCなどの音響特徴から抽出された固定次元の特徴ベクトルである。
生成器・識別器トレーニング部305は、特徴抽出部303aから短時間音声の特徴ベクトルを受け取り、特徴抽出部303bから長時間音声の特徴ベクトルを受け取り、ノイズ記憶部304からのノイズを受け取る。生成器・識別器トレーニング部305は、真(特徴ベクトルは長時間音声から抽出される。)または偽(特徴ベクトルは短時間音声からの特徴ベクトルを基に生成される。)、および特徴ベクトルが属している話者ラベルを決定するために、生成器と識別器とを繰り返しトレーニングする。トレーニングの詳細は、第1の実施形態において示されている。トレーニングの後、生成器・識別器トレーニング部305は、生成器パラメータおよび識別器パラメータを出力し、それらを生成器パラメータ記憶部306および識別器パラメータ記憶部307に格納する。
ボトルネック特徴抽出部300Bにおいて、特徴抽出部303cは、短時間音声から特徴ベクトルを抽出する。生成器308は、特徴ベクトルとともに、ノイズ記憶部304に記憶されているノイズおよび生成器パラメータ記憶部306に記憶されている生成器パラメータを受け取る。生成器308は、話者係数を表す1つ以上のロバストなボトルネック特徴を生成する。
図15には、第2の実施形態の生成器および識別器のアーキテクチャの概念が示されている。生成器は、2つのNN(エンコーダNNとデコーダNN)を有し、識別器は、1つのNNを有する。各NNは、入力層、隠れ層、出力層の3種類のレイヤを含む。隠れ層は、複数層を含んでもよい。少なくとも入力層と隠れ層の間、および隠れ層と出力層の間には、線形変換および/または活性化関数(伝達関数)がある。エンコーダNNの入力層は、短時間音声の特徴ベクトルである。エンコーダNNの出力層は話者係数である。デコーダの入力層は、ノイズとエンコーダNNの出力層の話者係数との加算または連結である。デコーダの出力層は、復元された特徴ベクトルである。識別器の場合、入力層は、長時間音声の特徴ベクトルまたはデコーダNNの出力である復元された特徴ベクトルである。識別器の出力は、トレーニングにおける「真/偽」および話者ラベルであり、評価部では、元の出力層が破棄され、その前の最後の層が出力層として使用される。
第3の実施形態のトレーニング部は、第1の実施形態のトレーニング部と同様である。
評価部では、エンコーダパラメータ、デコーダパラメータ、識別器パラメータ、エンコーダNNの入力層(短時間音声の特徴ベクトル)、デコーダNN(ノイズ)の入力層の一部が設けられ、その結果、識別器NN(ボトルネック特徴ベクトル)の出力層が得られる。
<ロバストな特徴補償装置の動作>
次に、ロバストな特徴補償装置300の動作を、図面を参照して説明する。
図16を参照して、ロバストな特徴補償装置300の全体の動作を説明する。図16は、トレーニング部300Aおよびボトルネック特徴抽出部300Bの動作を含む。ただし、これは例であり、トレーニングと特徴復元の操作を連続して実行したり、時間間隔を挿入したりできる。
ステップG01(トレーニング部)において、生成器・識別器トレーニング部305は、短時間音声データ記憶部301と長時間音声データ記憶部302とのそれぞれに記憶された同じ話者からの短時間音声および長時間音声に基づいて、生成器および識別器をともに繰り返しトレーニングする。詳しくは、各反復で、最初に識別器のパラメータが固定され、目的関数を使用して生成器パラメータが更新される。次に、生成器パラメータが固定され、識別器パラメータが目的関数を使用して更新される。反復において、生成器パラメータと識別器パラメータとを更新する順序は変更可能である。トレーニングのために、交差エントロピーとしての、事前定義されたコスト関数を最小にするバックプロパゲーションとして知られる最急降下法、平均二乗誤差など、様々な最適化手法を適用できる。生成器の更新に使用される目的関数は、識別器が識別できない復元された特徴ベクトルを生成できるように生成器を更新できる。一方、識別器の更新における目的関数は、生成された特徴ベクトルを識別できるように識別器を更新できる。
ステップG02(ボトルネック特徴抽出部)では、生成器308は、生成器パラメータ記憶部306に記憶されている生成器パラメータを用いて、出力層において、与えられた短時間音声発話から復元特徴ベクトルを生成し、識別器に入力する。生成器308は、最終の隠れ層をロバストなボトルネック特徴として抽出する。
図17は、生成器および識別器が、ノイズとともに短時間音声の特徴ベクトルおよび長時間音声の特徴ベクトルを使用してともにトレーニングされることを示すフローチャートである。図17は、図16のトレーニング部を示す。
まず、ステップH01において、特徴抽出部303aは、トレーニング部の始めとして、話者ラベル付きの短時間音声データを短時間音声データ記憶部301から読み出す。
ステップH02では、特徴抽出部303aは、さらに、短時間音声データから特徴ベクトルを抽出する。
ステップH03では、特徴抽出部303bは、話者ラベル付き長時間音声データを長時間音声データ記憶部302から読み出す。
ステップH04では、特徴抽出部303bは、さらに、長時間音声データから特徴ベクトルを抽出する。
ステップH05では、生成器・識別器トレーニング部305は、ノイズ記憶部304に記憶されているノイズデータを読み取る。
ステップH06では、生成器・識別器トレーニング部305は、特徴抽出部303aから送信された話者ラベル付きの短時間音声の特徴ベクトルおよび特徴抽出部303bから送信された話者ラベル付きの長時間音声の特徴ベクトル、ならびにノイズを使用して、生成器および識別器をともにトレーニングする。
ステップH07では、トレーニングの結果として、生成器・識別器トレーニング部305は、生成器パラメータおよび識別器パラメータを生成し、それらを、生成器パラメータ記憶部306および識別器パラメータ記憶部307に格納する。
H01〜H02とH03〜H04の順序は、図17に示した形式に限らず、入れ替えることができる。
図18は、ボトルネック特徴抽出部300Bを示すフローチャートである。
まず、ステップI01において、特徴抽出部303cは、外部装置(図14において図示せず)から提供される短時間音声データを読み取る。
ステップI02では、特徴抽出部303cは、与えられた短時間音声データから特徴ベクトルを抽出する。
ステップI03では、生成器308は、ノイズ記憶部304に記憶されているノイズデータを読み取る。
ステップI04では、生成器308は、生成器パラメータ記憶部306から生成器パラメータを読み取る。
ステップI05では、生成器308は、識別器パラメータ記憶部307から識別器パラメータを読み取る。
なお、I03〜I05の順序を入れ替えることができる。
ステップI06で、生成器308は、識別器NNの最終層で生成されたボトルネック特徴を抽出する。
第3の実施形態の効果
以上に説明したように、第3の実施形態は、短時間音声の特徴ベクトルのロバスト性を向上させることができる。その結果、そのようなNNは、短時間音声の特徴ベクトルを、長時間音声の特徴と同程度にロバストに生成できる。第1の実施形態では、ロバストな特徴の復元が行われる。同じトレーニング構造を使用すると、識別器の出力層にロバストなボトルネック特徴を同時に生成できる(元の出力層「真/偽」と話者ラベルは、トレーニング部の後で破棄される)。
なお、すべての実施形態において、訓練での識別器の出力層における話者ラベルは、感情認識、言語認識などのための特徴補償の使用のために、感情ラベル、言語ラベルなどに置き換えることができる。同様に、エンコーダの出力層は、感情特徴ベクトルまたは言語特徴ベクトルを表すこために変更可能である。
第4の実施形態
第4の実施形態のロバストな特徴補償装置を図19に示す。GANに基づく音声特徴補償装置500は、同じ話者からの少なくとも1つの短時間音声の特徴ベクトルと少なくとも1つの長時間音声の特徴ベクトルとに基づいて、生成器および識別器パラメータを生成するようにGANモデルをトレーニングする生成器・識別器トレーニング部501と、短時間音声ベクトルと生成器パラメータと識別器パラメータとに基づいて、短時間音声の特徴ベクトルを補償するロバストな特徴補償部502とを含む。
音声特徴補償装置500は、短時間音声に対してロバストな特徴補償を提供することができる。その理由は、短時間音声の特徴ベクトルと長時間音声の特徴ベクトルと間の関係を学習するために、短時間音声の特徴ベクトルと長時間音声の特徴ベクトルを使用して、生成器と識別器とが共同でトレーニングされ、お互いのパフォーマンスを反復的に改善するためである。
<情報処理装置の構成>
図20は、本発明の実施形態のロバストな特徴補償装置を実現可能な情報処理装置900(コンピュータ)の構成を例示する。すなわち、図20は、上記の実施形態における各機能を実現可能なハードウェア環境を表す図1、図9、図14、図19に示された装置を実現可能なコンピュータ(情報処理装置)の構成を示す。
図20に示す情報処理装置900は、以下の要素を含む。
−CPU(中央処理装置)901;
−ROM(Read Only Memory)902;
−RAM(Random Access Memory)903;
−ハードディスク904(記憶装置);
−外部デバイスとの通信インタフェース905;
−CD−ROM(Compact Disc Read Only Memory)などの記憶媒体907に格納されたデータを読み書きできるリーダ/ライタ908;
−入出力インタフェース909
情報処理装置900は、バス906(通信線)を介してこれらが接続された一般的なコンピュータである。
上記の一例としての実施形態で説明された本発明は、図20に示す情報処理装置900に、各実施形態の説明で参照されたブロック図(図1、図9)またはフローチャート(図6〜8、図11〜13および図16〜18)に記載された機能を実現可能なコンピュータプログラムが供給され、そのようなハードウェア内のCPU901にコンピュータプログラムを読み取らせ、解釈して実行することによって実現される。装置に提供されるコンピュータプログラムは、揮発性の読み書き可能な記憶メモリ(RAM903)またはハードディスク904などの不揮発性記憶装置に記憶されうる。
上記の場合、一般的な手順を使用して、そのようなハードウェアにコンピュータプログラムを提供できる。これらの手順には、たとえば、CD−ROMなどの様々な記憶媒体907のいずれかを介してコンピュータプログラムを装置にインストールすることや、インターネットなどの通信回線を介して外部ソースからプログラムをダウンロードすることが含まれる。それらの場合において、本発明は、そのようなコンピュータプログラムを形成するコードから構成されるか、またはコードを記憶する記憶媒体から構成されると見なすことができる。
なお、ここで説明および図示されているプロセス、技術、および方法論は、特定の装置に限定または関連していないことは明らかである。コンポーネントの組み合わせを使用して実装で可能である。また、ここでの教示に従って、様々なタイプの汎用装置を使用することができる。本発明は、特定のいくつかの例を使用して説明された。しかし、それらは単なる例であり、限定的なものではない。たとえば、説明されたソフトウェアは、C/C++、Java(登録商標)、MATLAB(登録商標)およびPythonなどの種々な言語で実装可能である。さらに、本発明の技術の他の実装は、当業者にとって明らかである。
図21は、本発明に係る音声特徴補償装置の要部を示すブロック図である。図21に示すように、音声特徴補償装置10は、短い音声区間から抽出された第1の特徴ベクトルと、短い音声区間よりも長く短い音声の話者と同一の話者からの長い音声区間から抽出された第2の特徴ベクトルとを使用してGAN(Generative Adversarial Network)の生成器21と識別器22とをトレーニングし、GANのトレーニングされたパラメータを出力するトレーニング手段11(実施形態では生成器・識別器トレーニング部105,205,305で実現される。)と、入力された短時間音声から特徴ベクトルを抽出する特徴抽出手段12(実施形態では、特徴抽出部103c,203c,303cで実現される。)と、トレーニングされたパラメータを使用して、抽出された特徴ベクトルに基づいてロバストな特徴ベクトルを生成する生成手段13(実施形態では、生成器107,308またはエンコード部207で実現される。)とを備える。
図22に示すように、生成器21は、第1の特徴ベクトルを入力して特徴ベクトルを出力するエンコーダ211と、復元された特徴ベクトルを出力するデコーダ212とを含み、少なくともエンコーダに関してトレーニングされたパラメータを出力し、生成手段13は、トレーニングされたパラメータを使用して、入力された短時間音声の特徴ベクトルをコード化することによってロバストな特徴ベクトルを生成するエンコード部を含んでいてもよい。
100,200,300 ロバストな特徴補償装置
101,201,301 短時間音声データ記憶部
102,202,302 長時間音声データ記憶部
103a,203a,303a 特徴抽出部
103b,203b,303b 特徴抽出部
103c,203c,303c 特徴抽出部
104,204,304 ノイズ記憶部
105,205,305 生成器・識別器トレーニング部
106 生成器パラメータ記憶部
206 エンコーダパラメータ記憶部
306 生成器パラメータ記憶部
107 生成器
207 エンコード部
307 識別器パラメータ記憶部
108,208 生成特徴記憶部
308 生成器
309 ボトルネック特徴記憶部

Claims (9)

  1. 短い音声区間から抽出された第1の特徴ベクトルと、前記短い音声区間よりも長く短い音声の話者と同一の話者からの長い音声区間から抽出された第2の特徴ベクトルとを使用してGAN(Generative Adversarial Network)の生成器と識別器とをトレーニングし、前記GANのトレーニングされたパラメータを出力するトレーニング手段と、
    入力された短時間音声から特徴ベクトルを抽出する特徴抽出手段と、
    前記トレーニングされたパラメータを使用して、抽出された前記特徴ベクトルに基づいてロバストな特徴ベクトルを生成する生成手段と
    を備えた音声特徴補償装置。
  2. 前記生成手段は、入力された短時間音声から抽出された前記特徴ベクトルに対応する復元された特徴ベクトルを生成する
    請求項1に記載の音声特徴補償装置。
  3. 前記生成器は、前記第1の特徴ベクトルを入力して特徴ベクトルを出力するエンコーダと、復元された前記特徴ベクトルを出力するデコーダとを含み、少なくともエンコーダに関して前記トレーニングされたパラメータを出力し、
    前記生成手段は、前記トレーニングされたパラメータを使用して前記入力された短時間音声の特徴ベクトルをコード化することによってロバストな特徴ベクトルを生成するエンコード部を含む
    請求項1または請求項2に記載の音声特徴補償装置。
  4. 前記生成手段は、前記識別器によって少なくとも1つのボトルネック特徴を生成する
    請求項1に記載の音声特徴補償装置。
  5. 前記識別器は、ニューラルネットワークに基づく識別器であって、前記第2の特徴ベクトルを入力し、
    前記トレーニング手段は、コスト関数が最小化されるようにニューラルネットワークをトレーニングし、該コスト関数は、真/偽分類エラー、話者識別エラー、および前記第2の特徴ベクトルと生成された長時間音声の特徴ベクトルと間のMSE(Mean Square Error)を計算する
    請求項1から請求項4のうちのいずれか1項に記載の音声特徴補償装置。
  6. 短い音声区間から抽出された第1の特徴ベクトルと、前記短い音声区間よりも長く短い音声の話者と同一の話者からの長い音声区間から抽出された第2の特徴ベクトルとを使用してGAN(Generative Adversarial Network)の生成器と識別器とをトレーニングし、前記GANのトレーニングされたパラメータを出力し、
    入力された短時間音声から特徴ベクトルを抽出し、
    前記トレーニングされたパラメータを使用して、抽出された前記特徴ベクトルに基づいてロバストな特徴ベクトルを生成する
    音声特徴補償方法。
  7. 入力された短時間音声から抽出された前記特徴ベクトルに対応する復元された特徴ベクトルを生成する
    請求項6に記載の音声特徴補償方法。
  8. コンピュータに、
    短い音声区間から抽出された第1の特徴ベクトルと、前記短い音声区間よりも長く短い音声の話者と同一の話者からの長い音声区間から抽出された第2の特徴ベクトルとを使用してGAN(Generative Adversarial Network)の生成器と識別器とをトレーニングし、前記GANのトレーニングされたパラメータを出力する処理と、
    入力された短時間音声から特徴ベクトルを抽出する処理と、
    前記トレーニングされたパラメータを使用して、抽出された前記特徴ベクトルに基づいてロバストな特徴ベクトルを生成する処理と
    を実行させるための音声特徴補償プログラム。
  9. コンピュータに、
    入力された短時間音声から抽出された前記特徴ベクトルに対応する復元された特徴ベクトルを生成させる
    請求項8に記載の音声特徴補償プログラム。
JP2020539019A 2018-03-05 2018-03-05 音声特徴補償装置、方法およびプログラム Active JP6897879B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021096366A JP7243760B2 (ja) 2018-03-05 2021-06-09 音声特徴補償装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/008251 WO2019171415A1 (en) 2018-03-05 2018-03-05 Speech feature compensation apparatus, method, and program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021096366A Division JP7243760B2 (ja) 2018-03-05 2021-06-09 音声特徴補償装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2021510846A JP2021510846A (ja) 2021-04-30
JP6897879B2 true JP6897879B2 (ja) 2021-07-07

Family

ID=67845548

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020539019A Active JP6897879B2 (ja) 2018-03-05 2018-03-05 音声特徴補償装置、方法およびプログラム
JP2021096366A Active JP7243760B2 (ja) 2018-03-05 2021-06-09 音声特徴補償装置、方法およびプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021096366A Active JP7243760B2 (ja) 2018-03-05 2021-06-09 音声特徴補償装置、方法およびプログラム

Country Status (2)

Country Link
JP (2) JP6897879B2 (ja)
WO (1) WO2019171415A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019171415A1 (en) * 2018-03-05 2019-09-12 Nec Corporation Speech feature compensation apparatus, method, and program
CN111477247B (zh) * 2020-04-01 2023-08-11 宁波大学 基于gan的语音对抗样本生成方法
CN111524525B (zh) * 2020-04-28 2023-06-16 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
CN111785281A (zh) * 2020-06-17 2020-10-16 国家计算机网络与信息安全管理中心 一种基于信道补偿的声纹识别方法及系统
CN112466314A (zh) * 2020-11-27 2021-03-09 平安科技(深圳)有限公司 情感语音数据转换方法、装置、计算机设备及存储介质
CN113488069B (zh) * 2021-07-06 2024-05-24 浙江工业大学 基于生成式对抗网络的语音高维特征快速提取方法和装置
CN113555026B (zh) * 2021-07-23 2024-04-19 平安科技(深圳)有限公司 语音转换方法、装置、电子设备及介质
CN113314109B (zh) * 2021-07-29 2021-11-02 南京烽火星空通信发展有限公司 一种基于循环生成网络的语音生成方法
KR102498268B1 (ko) * 2022-07-15 2023-02-09 국방과학연구소 화자 인식을 위한 전자 장치 및 그의 동작 방법
CN116631406B (zh) * 2023-07-21 2023-10-13 山东科技大学 基于声学特征生成的身份特征提取方法、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002023792A (ja) 2000-07-10 2002-01-25 Casio Comput Co Ltd 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
US9324320B1 (en) * 2014-10-02 2016-04-26 Microsoft Technology Licensing, Llc Neural network-based speech processing
JP6464650B2 (ja) * 2014-10-03 2019-02-06 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
US10395356B2 (en) 2016-05-25 2019-08-27 Kla-Tencor Corp. Generating simulated images from input images for semiconductor applications
WO2019171415A1 (en) 2018-03-05 2019-09-12 Nec Corporation Speech feature compensation apparatus, method, and program

Also Published As

Publication number Publication date
JP2021140188A (ja) 2021-09-16
WO2019171415A1 (en) 2019-09-12
JP7243760B2 (ja) 2023-03-22
JP2021510846A (ja) 2021-04-30

Similar Documents

Publication Publication Date Title
JP6897879B2 (ja) 音声特徴補償装置、方法およびプログラム
Chou et al. One-shot voice conversion by separating speaker and content representations with instance normalization
US11545137B2 (en) System and method of automated model adaptation
JP6993353B2 (ja) ニューラルネットワークベースの声紋情報抽出方法及び装置
JP7023934B2 (ja) 音声認識方法及び装置
JP6437581B2 (ja) 話者適応型の音声認識
US20230036020A1 (en) Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
JP6904483B2 (ja) パターン認識装置、パターン認識方法、及びパターン認識プログラム
CN112037766A (zh) 一种语音音色转换方法及相关设备
JP6189818B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、音響モデル適応方法、およびプログラム
WO2022227935A1 (zh) 语音识别方法、装置、设备、存储介质及程序产品
JP2018004947A (ja) テキスト補正装置、テキスト補正方法、およびプログラム
Gu et al. Dynamic convolution with global-local information for session-invariant speaker representation learning
JP7329393B2 (ja) 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
Nayem et al. Incorporating Embedding Vectors from a Human Mean-Opinion Score Prediction Model for Monaural Speech Enhancement.
Nguyen et al. Resident identification in smart home by voice biometrics
Li et al. A Two-stage Approach to Quality Restoration of Bone-conducted Speech
JP2021135314A (ja) 学習装置、音声認識装置、学習方法、および、学習プログラム
Nijhawan et al. Real time speaker recognition system for hindi words
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
WO2023157207A1 (ja) 信号解析システム、信号解析方法及びプログラム
JP6078402B2 (ja) 音声認識性能推定装置とその方法とプログラム
Mosiński et al. AE-Flow: Autoencoder Normalizing Flow
JP6132865B2 (ja) 声質変換用モデルパラメータ学習装置、その方法及びプログラム
WO2021234904A1 (ja) 学習データ生成装置、モデル学習装置、学習データ生成方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210511

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210524

R150 Certificate of patent or registration of utility model

Ref document number: 6897879

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150