JP6897879B2

JP6897879B2 - 音声特徴補償装置、方法およびプログラム

Info

Publication number: JP6897879B2
Application number: JP2020539019A
Authority: JP
Inventors: チョンチョンワン; 岡部　浩司; 浩司岡部; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2021-07-07
Anticipated expiration: 2038-03-05
Also published as: JP2021140188A; WO2019171415A1; JP7243760B2; JP2021510846A

Description

本発明は、発話および音声の特徴ベクトルをロバストなものに補償するための特徴補償装置、特徴補償方法およびプログラムに関する。

話者認識は、声から人を認識することである。声道の形状、喉頭のサイズ、および、音声生成器官の他の部分が異なるため、２人の声が同じように聞こえることはない。人間の声の独自性を考慮すると、話者認識は、テレフォンバンキングなどの不正アクセスの証拠が発見されるべき電話ベースのサービスにますます適用される。

話者認識システムは、テキスト依存のシステムとテキスト非依存のシステムに分けることができる。テキスト依存システムでは、認識句は固定されているか、事前に認識されている。テキスト非依存システムでは、話者が使用できる語に制約はない。テキスト非依存認識は、応用範囲が広く、２つのタスクに対してはるかにチャレンジングであり、過去数十年で一貫して改善されている。

テキスト非依存話者認識アプリケーションでの参照（reference:トレーニングで話されるもの）とテスト（test：実際の使用で発話されるもの）の発話は全く異なる内容になる可能性があるため、認識システムはこの音声の不一致を考慮する必要がある。パフォーマンスは音声の長さに大きく依存する。ユーザが、長い期間、通例１分以上、発話する場合、ほとんどの音素がカバーされていると考えられる。その結果、音声内容が異なっていても認識精度は高くなる。しかし、短時間音声の場合、統計的手法で抽出された発話の話者特徴ベクトルは正確な認識を行うには信頼性が低いので、短時間音声では話者認識性能が低下する。

実際の話者検証アプリケーションでは、テスト中に短い音声区間のみがしばしば観察される。一般に、１０秒未満の短い音声区間がよく生ずる。よって、話者特徴ベクトルを復元して、短時間発話によるテキスト非依存話者認識を改善することが重要である。

特許文献１には、Denoising Autoencoder（ＤＡＥ）を使用して、限られた発音情報を含む短時間音声の話者特徴ベクトルを復元する技術が開示されている。

図２３に示すように、特許文献１に記載されたＤＡＥに基づく特徴補正装置では、まず、音声モデルに基づく事後確率として、入力発話の音響的多様性の程度を推定する。次に、音響的多様性の程度と認識特徴ベクトルとの両方が入力層４０１に提供される。本明細書において、「特徴ベクトル」は、対象を表す数値（特定のデータ）のセットを意味する。入力層４０１、１つまたは複数の隠れ層４０２、および出力層４０３を含むＤＡＥベースの変換は、長い音声区間と短い音声区間とのペアを使用した教師ありトレーニングの助けを借りて、出力層において復元された認識特徴ベクトルを生成できる。

非特許文献１には、音響特徴としてＭＦＣＣ（Mel-Frequency Cepstrum Coefficients:メル周波数ケプストラム係数）が開示されている。

米国特許出願公開第２０１６／００９８９９３号明細書

Najim Dehak, Patrick J. Kenny, Reda Dehak, Pierre Dumouchel, and Pierre Ouellet, "Front-End Factor Analysis for Speaker Verification", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 19, NO. 4, MAY 2011

しかし、特許文献１では、ＤＡＥ最適化で平均二乗誤差最小化のみが使用されている。このような目的関数は、正確な実行のためには単純すぎる。また、単純な目的関数を使用する場合には、短時間音声を長時間音声の一部に制限しないとよりよい結果が得られない。現実には、そのようなネットワークをトレーニングするために、長時間音声しか使用できない（短時間音声はそこから切り取られる。）。存在する話者の短時間音声の情報は無駄になる。このシステムは、トレーニングのために、複数の長時間音声を有する十分な数の話者を必要とする。そのことは、すべてのアプリケーションにとって現実的ではない可能性がある。

本発明の目的は、上述した状況を考慮して、短時間音声に対する頑健（ロバスト）な特徴補償を提供することである。

音声特徴補償装置の例示的な態様は、短い音声区間から抽出された第１の特徴ベクトルと、短い音声区間よりも長く短い音声の話者と同一の話者からの長い音声区間から抽出された第２の特徴ベクトルとを使用してＧＡＮ（Generative Adversarial Network）の生成器と識別器とをトレーニングし、ＧＡＮのトレーニングされたパラメータを出力するトレーニング手段と、入力された短時間音声から特徴ベクトルを抽出する特徴抽出手段と、トレーニングされたパラメータを使用して、抽出された特徴ベクトルに基づいてロバストな特徴ベクトルを生成する生成手段とを含む。

音声処理方法の例示的な態様は、短い音声区間から抽出された第１の特徴ベクトルと、短い音声区間よりも長く短い音声の話者と同一の話者からの長い音声区間から抽出された第２の特徴ベクトルとを使用してＧＡＮ（Generative Adversarial Network）の生成器と識別器とをトレーニングし、ＧＡＮのトレーニングされたパラメータを出力し、入力された短時間音声から特徴ベクトルを抽出し、トレーニングされたパラメータを使用して、抽出された特徴ベクトルに基づいてロバストな特徴ベクトルを生成する。

音声処理プログラムの例示的な態様は、コンピュータに、短い音声区間から抽出された第１の特徴ベクトルと、短い音声区間よりも長く短い音声の話者と同一の話者からの長い音声区間から抽出された第２の特徴ベクトルとを使用してＧＡＮ（Generative Adversarial Network）の生成器と識別器とをトレーニングし、ＧＡＮのトレーニングされたパラメータを出力する処理と、入力された短時間音声から特徴ベクトルを抽出する処理と、トレーニングされたパラメータを使用して、抽出された特徴ベクトルに基づいてロバストな特徴ベクトルを生成する処理とを実行させる。

本発明によれば、音声補償装置、音声特徴補償方法、およびプログラムは、短時間音声に対してロバストな特徴補償を提供することができる。

本発明の第１の実施形態のロバストな特徴補償装置のブロック図である。短時間音声データ記憶部の内容の一例を示す図である。長時間音声データ記憶部の内容の一例を示す図である。生成器パラメータ記憶部の内容の一例を示す図である。第１の実施形態におけるＮＮアーキテクチャの概念を示す図である。第１の実施形態のロバストな特徴補償装置の動作を示すフローチャートである。第１の実施形態のロバストな特徴補償装置のトレーニングフェーズの動作を示すフローチャートである。第１の実施形態のロバストな特徴補償装置のロバストな特徴補償フェーズの動作を示すフローチャートである。本発明の第２の実施形態のロバストな特徴補償装置のブロック図である。第２の実施形態におけるＮＮアーキテクチャの概念を示す図である。第２の実施形態のロバストな特徴補償装置の動作を示すフローチャートである。第２の実施形態のロバストな特徴補償装置のトレーニングフェーズの動作を示すフローチャートである。第２の実施形態のロバストな特徴補償装置のロバストな特徴補償フェーズの動作を示すフローチャートである。本発明の第３の実施形態のロバストな特徴補償装置のブロック図である。第３の実施形態におけるＮＮアーキテクチャの概念を示す図である。第３の実施形態のロバストな特徴補償装置の動作を示すフローチャートである。第３の実施形態のロバストな特徴補償装置のトレーニングフェーズの動作を示すフローチャートである。第３の実施形態のロバストな特徴補償装置のロバストな特徴補償フェーズの動作を示すフローチャートである。本発明による実施形態で使用可能なコンピュータ構成を示す図である。本発明による実施形態で使用可能なコンピュータ構成を示す図である。音声特徴補償装置の主要部を示すブロック図である。音声特徴補償装置の他の態様を示すブロック図である。特許文献１に示された特徴補償装置を示すブロック図である。

以下、本発明の各実施形態について、図面を参照して説明する。以下の詳細な説明は単なる例示であり、本発明または本発明の用途および使用を限定することを意図していない。さらに、上記の発明の背景または以下の詳細な説明に示されている考え方に拘束される意図はない。

図中の要素が単純化および明確化のために示され、必ずしも一定の縮尺で描かれていないことは、当業者に理解されるであろう。たとえば、集積回路アーキテクチャを示す図中のいくつかの要素の大きさは、当該実施形態および他の実施形態の理解を容易にするのに役立つように、他の要素に対して誇張されうる。

実際の話者認識アプリケーションでは、多くの場合、テキスト非依存話者認識が使用され、短い音声区間（１０秒未満）が観察される。このような場合、音声の不整合を考慮に入れる必要がある。不均衡な音声分布は、短時間音声から抽出される話者特徴ベクトルの信頼性低下という結果をもたらすからである。区間の長さが短くなると、性能が低下する。したがって、話者特徴復元方法（speaker feature restoration method）によって、短時間発話によるテキスト非依存話者認識を改善する必要がある。

上記の観点から、以下の実施形態では、反復トレーニングプロセス中に互いを改善する生成器および識別器を含む敵対的生成ネットワーク（Generative Adversarial Network:ＧＡＮ）が利用される。生成器は、補償によって短時間音声のためにロバストな特徴ベクトルを生成する。

第１の実施形態
第１の実施形態のロバストな特徴補償装置は、生成器を使用して、短時間音声の未加工の特徴ベクトルから、短い音声区間に対するロバストな特徴ベクトルを提供することができる。すなわち、この実施形態では、短時間音声と長時間音声とでトレーニングされたＧＡＮの生成器は、短時間音声からでもロバストな特徴ベクトルを生成することができる。長期間音声の期間は、短時間音声の期間よりも長い。

＜ロバストな特徴補償装置の構成＞
本発明の第１の実施形態では、ＧＡＮの生成器を使用する特徴復元のためのロバストな特徴補償装置が説明される。

図１は、第１の実施形態のロバストな特徴補償装置１００を示すブロック図である。ロバストな特徴補償装置１００は、トレーニング部１００Ａと特徴復元部１００Ｂとを備える。

トレーニング部１００Ａは、短時間音声データ記憶部１０１、長時間音声データ記憶部１０２、特徴抽出部１０３ａ，１０３ｂ、ノイズ記憶部１０４、生成器・識別器トレーニング部１０５、および生成器パラメータ記憶部１０６を含む。特徴復元部１００Ｂは、特徴抽出部１０３ｃ、生成器１０７、および生成特徴記憶部１０８を備える。特徴抽出部１０３ａ，１０３ｂ，１０３ｃは、同じ機能を有する。

短時間音声データ記憶部１０１は、図２に示されるような話者ラベルを有する短時間音声記録を記憶する。

長時間音声データ記憶部１０２は、図３に示すような話者ラベルを有する長時間音声記録を記憶する。長時間音声データ記憶部１０２は、短時間音声データ記憶部１０１に短時間音声記録が含まれる各話者について少なくとも１つの長時間音声記録を含む。

ノイズ記憶部１０４は、ノイズを表すランダムなベクトルを記憶する。

生成器パラメータ記憶部１０６は、図４に示すように生成器パラメータを格納する。生成器は、図４からわかるように、エンコーダおよびデコーダを含む。エンコーダおよびデコーダの両方のパラメータは、生成器パラメータ記憶部１０６に格納される。

特徴抽出部１０３ａは、短時間音声データ記憶部１０１における短時間音声データから特徴ベクトルを抽出する。特徴抽出部１０３ｂは、長時間音声データ記憶部１０２における長時間音声から特徴ベクトルを抽出する。特徴ベクトルは、個別に測定可能な観測値の特性である。特徴ベクトルは、たとえば、ｉ−ｖｅｃｔｏｒすなわち非特許文献１に記載されているＭＦＣＣなどの音響特徴から抽出された固定次元の特徴ベクトルである。

生成器・識別器トレーニング部１０５は、特徴抽出部１０３ａから短い音声区間の特徴ベクトルを受け取り、特徴抽出部１０３ｂから長い音声区間の特徴ベクトルを受け取り、ノイズ記憶部１０４からノイズを受け取る。生成器・識別器トレーニング部１０５は、生成器と識別器（図１において図示せず）を繰り返しトレーニングして、「真」（特徴ベクトルは長時間音声から抽出される。）または「偽」（特徴ベクトルは、短時間音声からの特徴ベクトルを基に生成される。）、および特徴ベクトルが属する話者ラベルを判定する。生成器と識別器のそれぞれは、入力層、１つまたは複数の隠れ層、および出力層を含む。

トレーニングにおいて、「真」の場合には、受信された長時間音声の特徴ベクトルが、識別器の入力層に与えられる。「偽」の場合には、受信された短時間音声の特徴ベクトルが、生成器の入力層に与えられる。生成器の出力層は、識別器の入力層である。さらに、「真／偽」と話者のラベルとが、識別器の出力層に与えられる。それらの層の詳細は後述される。トレーニングの後、生成器・識別器トレーニング部１０５は、生成器パラメータを生成器パラメータ記憶部１０６に格納する。

特徴復元部１００Ｂでは、特徴抽出部１０３ｃが、短時間音声から特徴ベクトルを抽出する。生成器１０７は、特徴ベクトルとともに、ノイズ記憶部１０４に記憶されたノイズと、生成器パラメータ記憶部１０６に記憶された生成器パラメータとを受け取る。生成器１０７は、ロバストな復元された特徴を生成する。

図５には、生成器と識別器のアーキテクチャの概念が示されている。生成器は、２つのニューラルネットワーク（ＮＮ）すなわちエンコーダＮＮとデコーダＮＮとを有する。識別器、は１つのＮＮを有する。各ＮＮは、入力層、隠れ層、出力層の３種類のレイヤを含む。隠れ層は、複数層を含んでもよい。少なくとも入力層と隠れ層の間、および隠れ層と出力層の間には、線形変換および／または活性化関数（伝達関数）がある。エンコーダＮＮの入力層は、短時間音声記録の特徴ベクトルである。エンコーダＮＮの出力層は、話者係数（特徴ベクトル）である。デコーダの入力層は、ノイズとエンコーダＮＮの出力層の話者係数との加算または連結である。デコーダの出力層は、復元された特徴ベクトルである。識別器の場合、入力層は、長時間音声の特徴ベクトルまたはデコーダＮＮの出力である復元された特徴ベクトルである。識別器の出力は、「真／偽」および話者ラベルである。

トレーニング部１００Ａにおいて、エンコーダＮＮの入力層（短時間音声記録の特徴ベクトル）、デコーダＮＮの入力層の一部（ノイズ）、識別器用の２つのタイプのうちの１つの入力層（長時間音声記録の特徴ベクトル）、識別器（「真／偽」と話者ラベルを出力）の出力層が与えられ、その結果、３つのＮＮ（エンコーダ、デコーダ、識別器）パラメータの隠れ層、エンコーダの出力層ＮＮ（話者係数）、デコーダの出力層ＮＮ（復元された特徴ベクトル）が決定される。たとえば、エンコーダ、デコーダ、および識別器における層数は、１５、１５、１６である。

トレーニング部１００Ａの評価部では、エンコーダパラメータ、デコーダパラメータ、エンコーダＮＮ（短時間音声の特徴ベクトル）の入力層、デコーダＮＮの入力層の一部（ノイズ）が設けられ、その結果、デコーダのＮＮ（復元された特徴ベクトル）の出力層が決定される。

識別器において、出力層は（２＋ｎ）ニューロンで構成される。ｎはトレーニングデータにおける話者の数であり、２は「真／偽」である。トレーニング部１００Ａにおいて、ニューロンは、「真／偽」および「真の話者ラベル／偽の話者ラベル」に対応する値「１」または「０」を取ることができる。

トレーニング部１００Ａにおいて、生成器（エンコーダおよびデコーダ）および識別器は、互いに繰り返しトレーニングする。各反復で、識別器パラメータが固定されている間に生成器パラメータが１回更新され、次に、生成器パラメータが固定されている間に識別器パラメータが１回更新される。この目的のために、交差エントロピーとしての、事前定義されたコスト関数を最小にするバックプロパゲーションとして知られる最急降下法、平均二乗誤差など、様々な最適化手法を適用できる。

たとえば、目的関数は次のように表すことができる。
生成器のため：

識別器のため：

値（ａ）は生成器のための目的変数であり、値（ｂ）は識別器のための目的変数である。Ａは、与えられた短時間音声の特徴ベクトルである。Ｂは、与えられた長時間音声の特徴ベクトルである。要素（ｃ）は、話者以外のバリエーションをモデル化したノイズである。Ｇ（Ａ、z）は、生成器から生成された特徴ベクトルである。要素（ｄ）は、話者分類の結果すなわち話者の事後確率のための要素である。Ｎ^ｄはトレーニングセットの話者の総数である。要素（ｅ）は、「真／偽」の特徴ベクトル分類のための要素である。要素（ｆ）は、Ｄ^ｄのｉ番目の要素である。演算子（ｇ）と（ｈ）とは、それぞれ、期待値と平均二乗誤差演算子である。定数（ｉ）は事前に定義された定数である。ｙ^ｄは、真の話者IＤ（正解）である。

以下のように表現することもできる。
生成器のため：

識別器のため

＜ロバストな特徴補償装置の動作＞
次に、ロバストな特徴補償装置１００の動作を、図面を参照して説明する。

ロバストな特徴補償装置１００の全体の動作を図６を参照して説明する。図６は、トレーニング部１００Ａおよび特徴復元部１００Ｂの動作を含む。ただし、これは例であり、トレーニングと特徴復元の操作を連続して実行したり、時間間隔を挿入したりすることができる。

ステップＡ０１（トレーニング部）において、生成器・識別器トレーニング部１０５は、短時間音声データ記憶部１０１と長時間音声データ記憶部１０２とのそれぞれに記憶された同じ話者からの短時間音声および長時間音声に基づいて、生成器および識別器をともに繰り返しトレーニングする。詳しくは、各反復で、最初に識別器パラメータが固定され、目的関数を使用して生成器パラメータが更新される。次に、生成器パラメータが固定され、識別器パラメータが目的関数を使用して更新される。反復において、生成器パラメータと識別器パラメータとを更新する順序は変更可能である。トレーニングのために、交差エントロピーとしての、事前定義されたコスト関数を最小にするバックプロパゲーションとして知られる最急降下法、平均二乗誤差など、様々な最適化手法を適用できる。生成器の更新に使用される目的関数は、識別器が識別できない復元された特徴ベクトルを生成できるように生成器を更新できる。一方、識別器の更新における目的関数は、生成された特徴ベクトルを識別できるように識別器を更新できる。

ステップＡ０２（特徴復元部）では、生成器１０７は、生成器パラメータ記憶部１０６に記憶されている生成器パラメータを用いて、出力層において、与えられた短時間音声発話から復元特徴ベクトルを生成する。

図７は、生成器および識別器が、ノイズとともに短時間音声の特徴ベクトルおよび長時間音声の特徴ベクトルを使用してともにトレーニングされることを示すフローチャートである。図７は、図６におけるトレーニング部を示す。

まず、ステップＢ０１において、特徴抽出部１０３ａは、トレーニング部の始めとして、話者ラベル付きの短時間音声データを短時間音声データ記憶部１０１から読み出す。

ステップＢ０２では、特徴抽出部１０３ａは、さらに、短時間音声から特徴ベクトルを抽出する。

ステップＢ０３では、特徴抽出部１０３ｂは、話者ラベル付き長時間音声データを長時間音声データ記憶部１０２から読み出す。

ステップＢ０４では、特徴抽出部１０３ｂは、さらに、長時間音声から特徴ベクトルを抽出する。

ステップＢ０５では、生成器・識別器トレーニング部１０５は、ノイズ記憶部１０４に記憶されているノイズデータを読み出す。

ステップＢ０６では、生成器・識別器トレーニング部１０５は、特徴抽出部１０３ａから送信された話者ラベル付きの短時間音声の特徴ベクトルおよび特徴抽出部１０３ｂから送信された話者ラベル付きの長時間音声の特徴ベクトル、ならびにノイズを使用して、生成器と識別器とをともにトレーニングする。

ステップＢ０７では、トレーニングの結果として、生成器・識別器トレーニング部１０５は、生成器パラメータおよび識別器パラメータを生成し、生成器パラメータを生成器パラメータ記憶部１０６に格納する。

Ｂ０１〜Ｂ０２とＢ０３〜Ｂ０４の順序は、図７に示した形式に限らず、入れ替えることができる。

図８は、特徴復元部１００Ｂを示すフローチャートである。

まず、ステップＣ０１において、特徴抽出部１０３ｃは、外部装置（図１において図示せず）を介して提供される短時間音声データを読み取る。
ステップＣ０２では、特徴抽出部１０３ｃは、与えられた短時間音声データから特徴ベクトルを抽出する。

ステップＣ０３では、生成器１０７は、ノイズ記憶部１０４に記憶されているノイズデータを読み出す。

ステップＣ０４では、生成器１０７は、生成器パラメータ記憶部１０６から生成器パラメータを読み出す。

ステップＣ０５では、生成器１０７は、短時間音声の特徴ベクトルを復元し、ロバストな特徴ベクトルを再生する。

なお、Ｃ０３とＣ０４の順序を入れ替えることができる。

第１の実施形態の効果
以上に説明したように、第１の実施形態では、短時間音声の特徴ベクトルのロバスト性を向上させることができる。その理由は、生成器と識別器の共同トレーニングがお互いの性能を向上させ、トレーニングにおける長時間音声の特徴ベクトルと短時間音声の特徴ベクトルとの関係が学習されるためである。その結果、そのようなＮＮは、短時間音声の特徴ベクトルを、長時間音声の特徴と同じくらいロバストに生成できる。

第２の実施形態
第２の実施形態のロバストな特徴補償装置は、エンコーダを使用して、短時間音声の未加工の特徴から短い音声区間に対してロバストな特徴を提供することができる。すなわち、この実施形態では、エンコーダ（短時間音声と長時間音声でトレーニングされたＧＡＮの生成器の一部）は、短時間音声に対してロバストな話者特徴ベクトルを生成することができる。

＜ロバストな特徴補償装置の構成＞
本発明の第２の実施形態では、ＧＡＮの生成器および識別器を使用する話者特徴抽出のためのロバストな特徴補償装置が説明される。

図９は、第２の実施形態のロバストな特徴補償装置２００のブロック図を示す。ロバストな特徴補償装置２００は、トレーニング部２００Ａと話者特徴抽出部２００Ｂとを含む。

トレーニング部２００Ａは、短時間音声データ記憶部２０１、長時間音声データ記憶部２０２、特徴抽出部２０３ａ，２０３ｂ、ノイズ記憶部２０４、生成器・識別器トレーニング部２０５、およびエンコーダパラメータ記憶部２０６を含む。話者特徴抽出部２００Ｂは、特徴抽出部２０３ｃ、生成手段としてのエンコード部２０７、および生成特徴記憶部２０８を備える。特徴抽出部２０３ａ，２０３ｂ，２０３ｃは、同様の機能を有する。

短時間音声データ記憶部２０１は、図２に示すように、話者ラベルを有する短時間音声記録を格納する。

長時間音声データ記憶部２０２は、図３に示すように、話者ラベルを有する長時間音声記録を記憶する。長時間音声データ記憶部２０２は、短時間音声データ記憶部２０１に短時間音声記録が含まれる各話者についての少なくとも１つの長時間音声記録を含む。

ノイズ記憶部２０４は、ノイズを表すランダムなベクトルを記憶する。

エンコーダパラメータ記憶部２０６は、エンコーダパラメータを格納する。各エンコーダパラメータは、生成器・識別器トレーニング部２０５の結果の一部である。生成器（図９において図示せず）は、図４から理解されうる第１の実施形態と同様に、エンコーダとデコーダとで構成されている。

特徴抽出部２０３ａは、短時間音声データ記憶部２０１の短時間音声から特徴を抽出する。特徴抽出部２０３ｂは、長時間音声データ記憶部２０２の長時間音声から特徴を抽出する。特徴は、個別に測定可能な観測値の特性である。特徴は、たとえば、ｉ−ｖｅｃｔｏｒすなわちＭＦＣＣなどの音響特徴から抽出された固定次元の特徴ベクトルである。

生成器・識別器トレーニング部２０５は、特徴抽出部２０３ａから短時間音声の特徴ベクトルを受け取り、特徴抽出部２０３ｂから長時間音声の特徴ベクトルを受け取り、ノイズ記憶部２０４からノイズを受け取る。生成器・識別器トレーニング部２０５は、真（特徴ベクトルは長時間音声から抽出される。）または偽（特徴ベクトルは短時間音声からの特徴ベクトルを基に生成される。）、および特徴ベクトルが属している話者ラベルを決定するために、生成器と識別器（図９において図示せず）とを繰り返しトレーニングする。トレーニングの詳細は、第１の実施形態において示されている。トレーニングの後、生成器・識別器トレーニング部２０５は、生成器パラメータおよび識別器パラメータを出力し、それらをエンコーダパラメータ記憶部２０６に格納する。

話者特徴抽出部２００Ｂにおいて、特徴抽出部２０３ｃは、短時間音声から特徴ベクトルを抽出する。エンコード部２０７は、特徴ベクトルとともに、ノイズ記憶部２０４に記憶されているノイズおよびエンコーダパラメータ記憶部２０６に記憶されているエンコーダパラメータを受け取る。エンコード部２０７は、ロバストな話者特徴をコード化（encode）する。

図１０には、第２の実施形態の生成器および識別器のアーキテクチャの概念が示されている。生成器は、２つのＮＮ（エンコーダＮＮとデコーダＮＮ）を有し、識別器は、１つのＮＮを有する。各ＮＮは、入力層、隠れ層、出力層の３種類のレイヤを含む。隠れ層は、複数層を含んでもよい。少なくとも入力層と隠れ層の間、および隠れ層と出力層の間には、線形変換および／または活性化関数（伝達関数）がある。エンコーダＮＮの入力層は、短時間音声の特徴ベクトルである。エンコーダＮＮの出力層は話者係数である。デコーダの入力層は、ノイズとエンコーダＮＮの出力層の話者係数との加算または連結である。デコーダの出力層は、復元された特徴ベクトルである。識別器の場合、入力層は、長時間音声の特徴ベクトルまたはデコーダＮＮの出力である復元された特徴ベクトルである。識別器の出力は、「真／偽」および話者ラベルである。

第２実施形態のトレーニング部２００Ａは、上述した第１の実施形態のトレーニング部と同様である。

評価部では、エンコーダパラメータとエンコーダＮＮの入力層（短時間音声の特徴ベクトル）が提供され、その結果、エンコーダＮＮの出力層（話者係数）が得られる。

＜ロバストな特徴補償装置の動作＞
次に、ロバストな特徴補償装置２００の動作を、図面を参照して説明する。

ロバストな特徴補償装置２００の全体の動作を、図１１を参照して説明する。図１１は、トレーニング部２００Ａおよび話者特徴抽出部２００Ｂの動作を含む。ただし、これは例であって、トレーニングと話者特徴抽出の操作を連続して実行したり、時間間隔を挿入したりすることができる。

ステップＤ０１（トレーニング部）において、生成器・識別器トレーニング部２０５は、それぞれ、短時間音声データ記憶部２０１と長時間音声データ記憶部２０２とののそれぞれに記憶された同じ話者からの短時間音声および長時間音声に基づいて、生成器および識別器をともに繰り返しトレーニングする。詳しくは、各反復で、最初に識別器パラメータが固定され、目的関数を使用して生成器パラメータが更新される。次に、生成器パラメータが固定され、識別器パラメータが目的関数を使用して更新される。反復において、生成器パラメータと識別器パラメータとを更新する順序は変更可能である。トレーニングのために、交差エントロピーとしての、事前定義されたコスト関数を最小にするバックプロパゲーションとして知られる最急降下法、平均二乗誤差など、様々な最適化手法を適用できる。生成器の更新に使用される目的関数は、識別器が識別できない復元された特徴ベクトルを生成できるように生成器を更新できる。一方、識別器の更新における目的関数は、生成された特徴ベクトルを識別できるように識別器を更新できる。

ステップＤ０２（話者特徴抽出部）では、エンコード部２０７は、エンコーダパラメータ記憶部２０６に記憶されているエンコーダパラメータを用いて、エンコーダの出力層において、与えられた短時間発話からロバストな話者特徴ベクトルをコード化する。

図１２は、生成器および識別器が、ノイズとともに短時間音声の特徴ベクトルおよび長時間音声の特徴ベクトルを使用してともにトレーニングされることを示すフローチャートである。図１２は、図１１のトレーニング部を示す。

まず、ステップＥ０１において、特徴抽出部２０３ａは、トレーニング部の始めとして、話者ラベル付きの短時間音声データを短時間音声データ記憶部２０１から読み出す。

ステップＥ０２では、特徴抽出部２０３ａは、さらに、短時間音声から特徴ベクトルを抽出する。

ステップＥ０３では、特徴抽出部２０３ｂは、話者ラベル付き長時間音声データを長時間音声データ記憶部２０２から読み出す。

ステップＥ０４では、特徴抽出部２０３ｂは、さらに、長時間音声から特徴ベクトルを抽出する。

ステップＥ０５では、生成器・識別器トレーニング部２０５は、ノイズ記憶部２０４に記憶されているノイズデータを読み出す。

ステップＥ０６において、生成器・識別器トレーニング部２０５は、特徴抽出部２０３ａから送信された話者ラベル付きの短時間音声の特徴ベクトルおよび特徴抽出部２０３ｂから送信された話者ラベル付きの長時間音声の特徴ベクトル、ならびにノイズを使用して、生成器および識別器をともにトレーニングする。

ステップＥ０７では、トレーニングの結果として、生成器・識別器トレーニング部２０５は、生成器および識別器をトレーニングし、エンコーダ（生成器の一部）のパラメータをエンコーダパラメータ記憶部２０６に格納する。

Ｅ０１〜Ｅ０２とＥ０３〜Ｅ０４の順序は、図１２に示した形式に限らず、入れ替えることができる。

図１３は、話者特徴抽出部２００Ｂを示すフローチャートである。

まず、特徴抽出部２０３ｃは、ステップＦ０１において、外部装置（図９において図示せず）を介して提供される短時間音声データを読み取る。

ステップＦ０２では、特徴抽出部２０３ｃは、与えられた短時間音声データから特徴ベクトルを抽出する。

ステップＦ０３では、エンコード部２０７は、ノイズ記憶部２０４に記憶されているノイズデータを読み出す。

ステップＦ０４では、エンコード部２０７は、エンコーダパラメータ記憶部２０６からエンコーダパラメータを読み出す。

ステップＦ０５では、エンコード部２０７は、短時間音声の特徴ベクトルをコード化し、ロバストな話者特徴ベクトルを抽出する。

なお、Ｆ０３とＦ０４の順序を入れ替えることができる。

第２の実施形態の効果

上述したように、第２の実施形態は、短時間音声の特徴ベクトルのロバスト性を改善することができる。第１の実施形態では、ロバストな特徴の復元が行われる。同じトレーニング構造で、エンコーダの出力層でロバストな話者特徴ベクトルを同時に生成できる。話者特徴ベクトルの使用は、話者検証アプリケーションにとってより直接的である。

第３の実施形態
第３の実施形態のロバストな特徴補償装置は、生成器および識別器を使用して、短時間音声の未加工の特徴から、識別器の最後の層で生成されるボトルネック特徴ベクトルを使用して、短い音声区間にロバストな特徴を提供できる。すなわち、この実施形態では、短時間音声および長時間音声でトレーニングされたＧＡＮの生成器および識別器は、短時間音声に対してロバストなボトルネック特徴を生成することができる。

＜ロバストな特徴補償装置の構成＞
本発明の第３の実施形態では、ＧＡＮの生成器のエンコーダを使用するボトルネック特徴抽出のためのロバストな特徴補償装置が説明される。

図１４は、第３の実施形態のロバストな特徴補償装置３００のブロック図を示す。ロバストな特徴補償装置３００は、トレーニング部３００Ａと、ボトルネック特徴抽出部３００Ｂとを含む。

トレーニング部３００Ａは、短時間音声データ記憶部３０１、長時間音声データ記憶部３０２、特徴抽出部３０３ａ，３０３ｂ，３０３ｃ、ノイズ記憶部３０４、生成器・識別器トレーニング部３０５、生成器パラメータ記憶部３０６、および識別器を含む。ボトルネック特徴抽出部３００Ｂは、特徴抽出部３０３ｃ、生成器３０８、およびボトルネック特徴記憶部３０９を含む。特徴抽出部３０３ａ，３０３ｂ，３０３ｃは、同様の機能を有する。

短時間音声データ記憶部３０１は、図２に示すように、話者ラベルを有する短時間音声記録を格納する。

長時間音声データ記憶部３０２は、図３に示すように、話者ラベルを有する長時間音声記録を記憶する。長時間音声データ記憶部３０２は、短時間音声データ記憶部３０１に短時間音声記録を有する各話者の少なくとも１つの長時間音声記録を含む。

ノイズ記憶部３０４は、ノイズを表すランダムなベクトルを記憶する。

生成器パラメータ記憶部３０６は、生成器パラメータを記憶する。生成器（図１４において図示せず）は、図４から理解されうる第１の実施形態と同様のエンコーダおよびデコーダからなる。したがって、エンコーダおよびデコーダの両方のパラメータは、生成器パラメータ記憶部３０６に記憶される。

識別器パラメータ記憶部３０７は、識別器（図１４において図示せず）のパラメータを記憶する。

特徴抽出部３０３ａは、短時間音声データ記憶部３０１における短時間音声から特徴を抽出する。特徴抽出部３０３ｂは、長時間音声データ記憶部３０２における長時間音声から特徴を抽出する。特徴は、たとえば、ｉ−ｖｅｃｔｏｒすなわちＭＦＣＣなどの音響特徴から抽出された固定次元の特徴ベクトルである。

生成器・識別器トレーニング部３０５は、特徴抽出部３０３ａから短時間音声の特徴ベクトルを受け取り、特徴抽出部３０３ｂから長時間音声の特徴ベクトルを受け取り、ノイズ記憶部３０４からのノイズを受け取る。生成器・識別器トレーニング部３０５は、真（特徴ベクトルは長時間音声から抽出される。）または偽（特徴ベクトルは短時間音声からの特徴ベクトルを基に生成される。）、および特徴ベクトルが属している話者ラベルを決定するために、生成器と識別器とを繰り返しトレーニングする。トレーニングの詳細は、第１の実施形態において示されている。トレーニングの後、生成器・識別器トレーニング部３０５は、生成器パラメータおよび識別器パラメータを出力し、それらを生成器パラメータ記憶部３０６および識別器パラメータ記憶部３０７に格納する。

ボトルネック特徴抽出部３００Ｂにおいて、特徴抽出部３０３ｃは、短時間音声から特徴ベクトルを抽出する。生成器３０８は、特徴ベクトルとともに、ノイズ記憶部３０４に記憶されているノイズおよび生成器パラメータ記憶部３０６に記憶されている生成器パラメータを受け取る。生成器３０８は、話者係数を表す１つ以上のロバストなボトルネック特徴を生成する。

図１５には、第２の実施形態の生成器および識別器のアーキテクチャの概念が示されている。生成器は、２つのＮＮ（エンコーダＮＮとデコーダＮＮ）を有し、識別器は、１つのＮＮを有する。各ＮＮは、入力層、隠れ層、出力層の３種類のレイヤを含む。隠れ層は、複数層を含んでもよい。少なくとも入力層と隠れ層の間、および隠れ層と出力層の間には、線形変換および／または活性化関数（伝達関数）がある。エンコーダＮＮの入力層は、短時間音声の特徴ベクトルである。エンコーダＮＮの出力層は話者係数である。デコーダの入力層は、ノイズとエンコーダＮＮの出力層の話者係数との加算または連結である。デコーダの出力層は、復元された特徴ベクトルである。識別器の場合、入力層は、長時間音声の特徴ベクトルまたはデコーダＮＮの出力である復元された特徴ベクトルである。識別器の出力は、トレーニングにおける「真／偽」および話者ラベルであり、評価部では、元の出力層が破棄され、その前の最後の層が出力層として使用される。

第３の実施形態のトレーニング部は、第１の実施形態のトレーニング部と同様である。

評価部では、エンコーダパラメータ、デコーダパラメータ、識別器パラメータ、エンコーダＮＮの入力層（短時間音声の特徴ベクトル）、デコーダＮＮ（ノイズ）の入力層の一部が設けられ、その結果、識別器ＮＮ（ボトルネック特徴ベクトル）の出力層が得られる。

＜ロバストな特徴補償装置の動作＞
次に、ロバストな特徴補償装置３００の動作を、図面を参照して説明する。

図１６を参照して、ロバストな特徴補償装置３００の全体の動作を説明する。図１６は、トレーニング部３００Ａおよびボトルネック特徴抽出部３００Ｂの動作を含む。ただし、これは例であり、トレーニングと特徴復元の操作を連続して実行したり、時間間隔を挿入したりできる。

ステップＧ０１（トレーニング部）において、生成器・識別器トレーニング部３０５は、短時間音声データ記憶部３０１と長時間音声データ記憶部３０２とのそれぞれに記憶された同じ話者からの短時間音声および長時間音声に基づいて、生成器および識別器をともに繰り返しトレーニングする。詳しくは、各反復で、最初に識別器のパラメータが固定され、目的関数を使用して生成器パラメータが更新される。次に、生成器パラメータが固定され、識別器パラメータが目的関数を使用して更新される。反復において、生成器パラメータと識別器パラメータとを更新する順序は変更可能である。トレーニングのために、交差エントロピーとしての、事前定義されたコスト関数を最小にするバックプロパゲーションとして知られる最急降下法、平均二乗誤差など、様々な最適化手法を適用できる。生成器の更新に使用される目的関数は、識別器が識別できない復元された特徴ベクトルを生成できるように生成器を更新できる。一方、識別器の更新における目的関数は、生成された特徴ベクトルを識別できるように識別器を更新できる。

ステップＧ０２（ボトルネック特徴抽出部）では、生成器３０８は、生成器パラメータ記憶部３０６に記憶されている生成器パラメータを用いて、出力層において、与えられた短時間音声発話から復元特徴ベクトルを生成し、識別器に入力する。生成器３０８は、最終の隠れ層をロバストなボトルネック特徴として抽出する。

図１７は、生成器および識別器が、ノイズとともに短時間音声の特徴ベクトルおよび長時間音声の特徴ベクトルを使用してともにトレーニングされることを示すフローチャートである。図１７は、図１６のトレーニング部を示す。

まず、ステップＨ０１において、特徴抽出部３０３ａは、トレーニング部の始めとして、話者ラベル付きの短時間音声データを短時間音声データ記憶部３０１から読み出す。

ステップＨ０２では、特徴抽出部３０３ａは、さらに、短時間音声データから特徴ベクトルを抽出する。

ステップＨ０３では、特徴抽出部３０３ｂは、話者ラベル付き長時間音声データを長時間音声データ記憶部３０２から読み出す。

ステップＨ０４では、特徴抽出部３０３ｂは、さらに、長時間音声データから特徴ベクトルを抽出する。

ステップＨ０５では、生成器・識別器トレーニング部３０５は、ノイズ記憶部３０４に記憶されているノイズデータを読み取る。

ステップＨ０６では、生成器・識別器トレーニング部３０５は、特徴抽出部３０３ａから送信された話者ラベル付きの短時間音声の特徴ベクトルおよび特徴抽出部３０３ｂから送信された話者ラベル付きの長時間音声の特徴ベクトル、ならびにノイズを使用して、生成器および識別器をともにトレーニングする。

ステップＨ０７では、トレーニングの結果として、生成器・識別器トレーニング部３０５は、生成器パラメータおよび識別器パラメータを生成し、それらを、生成器パラメータ記憶部３０６および識別器パラメータ記憶部３０７に格納する。

Ｈ０１〜Ｈ０２とＨ０３〜Ｈ０４の順序は、図１７に示した形式に限らず、入れ替えることができる。

図１８は、ボトルネック特徴抽出部３００Ｂを示すフローチャートである。

まず、ステップＩ０１において、特徴抽出部３０３ｃは、外部装置（図１４において図示せず）から提供される短時間音声データを読み取る。

ステップＩ０２では、特徴抽出部３０３ｃは、与えられた短時間音声データから特徴ベクトルを抽出する。

ステップＩ０３では、生成器３０８は、ノイズ記憶部３０４に記憶されているノイズデータを読み取る。

ステップＩ０４では、生成器３０８は、生成器パラメータ記憶部３０６から生成器パラメータを読み取る。

ステップＩ０５では、生成器３０８は、識別器パラメータ記憶部３０７から識別器パラメータを読み取る。

なお、I０３〜I０５の順序を入れ替えることができる。

ステップＩ０６で、生成器３０８は、識別器ＮＮの最終層で生成されたボトルネック特徴を抽出する。

第３の実施形態の効果

以上に説明したように、第３の実施形態は、短時間音声の特徴ベクトルのロバスト性を向上させることができる。その結果、そのようなＮＮは、短時間音声の特徴ベクトルを、長時間音声の特徴と同程度にロバストに生成できる。第１の実施形態では、ロバストな特徴の復元が行われる。同じトレーニング構造を使用すると、識別器の出力層にロバストなボトルネック特徴を同時に生成できる（元の出力層「真／偽」と話者ラベルは、トレーニング部の後で破棄される）。

なお、すべての実施形態において、訓練での識別器の出力層における話者ラベルは、感情認識、言語認識などのための特徴補償の使用のために、感情ラベル、言語ラベルなどに置き換えることができる。同様に、エンコーダの出力層は、感情特徴ベクトルまたは言語特徴ベクトルを表すこために変更可能である。

第４の実施形態
第４の実施形態のロバストな特徴補償装置を図１９に示す。ＧＡＮに基づく音声特徴補償装置５００は、同じ話者からの少なくとも１つの短時間音声の特徴ベクトルと少なくとも１つの長時間音声の特徴ベクトルとに基づいて、生成器および識別器パラメータを生成するようにＧＡＮモデルをトレーニングする生成器・識別器トレーニング部５０１と、短時間音声ベクトルと生成器パラメータと識別器パラメータとに基づいて、短時間音声の特徴ベクトルを補償するロバストな特徴補償部５０２とを含む。

音声特徴補償装置５００は、短時間音声に対してロバストな特徴補償を提供することができる。その理由は、短時間音声の特徴ベクトルと長時間音声の特徴ベクトルと間の関係を学習するために、短時間音声の特徴ベクトルと長時間音声の特徴ベクトルを使用して、生成器と識別器とが共同でトレーニングされ、お互いのパフォーマンスを反復的に改善するためである。

＜情報処理装置の構成＞
図２０は、本発明の実施形態のロバストな特徴補償装置を実現可能な情報処理装置９００（コンピュータ）の構成を例示する。すなわち、図２０は、上記の実施形態における各機能を実現可能なハードウェア環境を表す図１、図９、図１４、図１９に示された装置を実現可能なコンピュータ（情報処理装置）の構成を示す。

図２０に示す情報処理装置９００は、以下の要素を含む。
−ＣＰＵ（中央処理装置）９０１;
−ＲＯＭ（Read Only Memory）９０２;
−ＲＡＭ（Random Access Memory）９０３;
−ハードディスク９０４（記憶装置）;
−外部デバイスとの通信インタフェース９０５;
−ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）などの記憶媒体９０７に格納されたデータを読み書きできるリーダ／ライタ９０８;
−入出力インタフェース９０９

情報処理装置９００は、バス９０６（通信線）を介してこれらが接続された一般的なコンピュータである。

上記の一例としての実施形態で説明された本発明は、図２０に示す情報処理装置９００に、各実施形態の説明で参照されたブロック図（図１、図９）またはフローチャート（図６〜８、図１１〜１３および図１６〜１８）に記載された機能を実現可能なコンピュータプログラムが供給され、そのようなハードウェア内のＣＰＵ９０１にコンピュータプログラムを読み取らせ、解釈して実行することによって実現される。装置に提供されるコンピュータプログラムは、揮発性の読み書き可能な記憶メモリ（ＲＡＭ９０３）またはハードディスク９０４などの不揮発性記憶装置に記憶されうる。

上記の場合、一般的な手順を使用して、そのようなハードウェアにコンピュータプログラムを提供できる。これらの手順には、たとえば、ＣＤ−ＲＯＭなどの様々な記憶媒体９０７のいずれかを介してコンピュータプログラムを装置にインストールすることや、インターネットなどの通信回線を介して外部ソースからプログラムをダウンロードすることが含まれる。それらの場合において、本発明は、そのようなコンピュータプログラムを形成するコードから構成されるか、またはコードを記憶する記憶媒体から構成されると見なすことができる。

なお、ここで説明および図示されているプロセス、技術、および方法論は、特定の装置に限定または関連していないことは明らかである。コンポーネントの組み合わせを使用して実装で可能である。また、ここでの教示に従って、様々なタイプの汎用装置を使用することができる。本発明は、特定のいくつかの例を使用して説明された。しかし、それらは単なる例であり、限定的なものではない。たとえば、説明されたソフトウェアは、Ｃ／Ｃ＋＋、Ｊａｖａ（登録商標）、ＭＡＴＬＡＢ（登録商標）およびＰｙｔｈｏｎなどの種々な言語で実装可能である。さらに、本発明の技術の他の実装は、当業者にとって明らかである。

図２１は、本発明に係る音声特徴補償装置の要部を示すブロック図である。図２１に示すように、音声特徴補償装置１０は、短い音声区間から抽出された第１の特徴ベクトルと、短い音声区間よりも長く短い音声の話者と同一の話者からの長い音声区間から抽出された第２の特徴ベクトルとを使用してＧＡＮ（Generative Adversarial Network）の生成器２１と識別器２２とをトレーニングし、ＧＡＮのトレーニングされたパラメータを出力するトレーニング手段１１（実施形態では生成器・識別器トレーニング部１０５，２０５，３０５で実現される。）と、入力された短時間音声から特徴ベクトルを抽出する特徴抽出手段１２（実施形態では、特徴抽出部１０３ｃ，２０３ｃ，３０３ｃで実現される。）と、トレーニングされたパラメータを使用して、抽出された特徴ベクトルに基づいてロバストな特徴ベクトルを生成する生成手段１３（実施形態では、生成器１０７，３０８またはエンコード部２０７で実現される。）とを備える。

図２２に示すように、生成器２１は、第１の特徴ベクトルを入力して特徴ベクトルを出力するエンコーダ２１１と、復元された特徴ベクトルを出力するデコーダ２１２とを含み、少なくともエンコーダに関してトレーニングされたパラメータを出力し、生成手段１３は、トレーニングされたパラメータを使用して、入力された短時間音声の特徴ベクトルをコード化することによってロバストな特徴ベクトルを生成するエンコード部を含んでいてもよい。

１００，２００，３００ロバストな特徴補償装置
１０１，２０１，３０１短時間音声データ記憶部
１０２，２０２，３０２長時間音声データ記憶部
１０３ａ，２０３ａ，３０３ａ特徴抽出部
１０３ｂ，２０３ｂ，３０３ｂ特徴抽出部
１０３ｃ，２０３ｃ，３０３ｃ特徴抽出部
１０４，２０４，３０４ノイズ記憶部
１０５，２０５，３０５生成器・識別器トレーニング部
１０６生成器パラメータ記憶部
２０６エンコーダパラメータ記憶部
３０６生成器パラメータ記憶部
１０７生成器
２０７エンコード部
３０７識別器パラメータ記憶部
１０８，２０８生成特徴記憶部
３０８生成器
３０９ボトルネック特徴記憶部

Claims

短い音声区間から抽出された第１の特徴ベクトルと、前記短い音声区間よりも長く短い音声の話者と同一の話者からの長い音声区間から抽出された第２の特徴ベクトルとを使用してＧＡＮ（Generative Adversarial Network）の生成器と識別器とをトレーニングし、前記ＧＡＮのトレーニングされたパラメータを出力するトレーニング手段と、
入力された短時間音声から特徴ベクトルを抽出する特徴抽出手段と、
前記トレーニングされたパラメータを使用して、抽出された前記特徴ベクトルに基づいてロバストな特徴ベクトルを生成する生成手段と
を備えた音声特徴補償装置。
前記生成手段は、入力された短時間音声から抽出された前記特徴ベクトルに対応する復元された特徴ベクトルを生成する
請求項１に記載の音声特徴補償装置。
前記生成器は、前記第１の特徴ベクトルを入力して特徴ベクトルを出力するエンコーダと、復元された前記特徴ベクトルを出力するデコーダとを含み、少なくともエンコーダに関して前記トレーニングされたパラメータを出力し、
前記生成手段は、前記トレーニングされたパラメータを使用して前記入力された短時間音声の特徴ベクトルをコード化することによってロバストな特徴ベクトルを生成するエンコード部を含む
請求項１または請求項２に記載の音声特徴補償装置。
前記生成手段は、前記識別器によって少なくとも１つのボトルネック特徴を生成する
請求項１に記載の音声特徴補償装置。
前記識別器は、ニューラルネットワークに基づく識別器であって、前記第２の特徴ベクトルを入力し、
前記トレーニング手段は、コスト関数が最小化されるようにニューラルネットワークをトレーニングし、該コスト関数は、真／偽分類エラー、話者識別エラー、および前記第２の特徴ベクトルと生成された長時間音声の特徴ベクトルと間のＭＳＥ（Mean Square Error）を計算する
請求項１から請求項４のうちのいずれか１項に記載の音声特徴補償装置。
短い音声区間から抽出された第１の特徴ベクトルと、前記短い音声区間よりも長く短い音声の話者と同一の話者からの長い音声区間から抽出された第２の特徴ベクトルとを使用してＧＡＮ（Generative Adversarial Network）の生成器と識別器とをトレーニングし、前記ＧＡＮのトレーニングされたパラメータを出力し、
入力された短時間音声から特徴ベクトルを抽出し、
前記トレーニングされたパラメータを使用して、抽出された前記特徴ベクトルに基づいてロバストな特徴ベクトルを生成する
音声特徴補償方法。
入力された短時間音声から抽出された前記特徴ベクトルに対応する復元された特徴ベクトルを生成する
請求項６に記載の音声特徴補償方法。
コンピュータに、
短い音声区間から抽出された第１の特徴ベクトルと、前記短い音声区間よりも長く短い音声の話者と同一の話者からの長い音声区間から抽出された第２の特徴ベクトルとを使用してＧＡＮ（Generative Adversarial Network）の生成器と識別器とをトレーニングし、前記ＧＡＮのトレーニングされたパラメータを出力する処理と、
入力された短時間音声から特徴ベクトルを抽出する処理と、
前記トレーニングされたパラメータを使用して、抽出された前記特徴ベクトルに基づいてロバストな特徴ベクトルを生成する処理と
を実行させるための音声特徴補償プログラム。
コンピュータに、
入力された短時間音声から抽出された前記特徴ベクトルに対応する復元された特徴ベクトルを生成させる
請求項８に記載の音声特徴補償プログラム。