JP2021526669A

JP2021526669A - 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム

Info

Publication number: JP2021526669A
Application number: JP2020568354A
Authority: JP
Inventors: 瓊瓊王; 岡部　浩司; 浩司岡部; 功益李; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2021-10-07
Anticipated expiration: 2038-06-29
Also published as: US11580967B2; JP7095756B2; US20210256970A1; WO2020003534A1

Abstract

音声特徴量抽出装置１００は、入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、音声アクティビティ検出部１０３と、与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、音声アクティビティ検出処理部１０６と、関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出部１１２とを備えている。【選択図】図１

Description

本発明は、音声特徴量抽出装置、音声特徴量抽出方法、及びこれらを実現するためのプログラムを記憶するコンピュータ読み取り可読な記録媒体に関する。

話者認識では、システムには、フレームの数は固定ではないが、生の特徴量（音響特徴量）が連続して入力される。これらはフレームレベルであるが、システムは、話者認証においては、予想される、話者識別における話者ＩＤ、又はターゲット／非ターゲット（同じ話者／異なる話者）の別を出力する。

出力された話者ＩＤとターゲット／非ターゲットの別との両方は、発話レベルである。フレームレベルの入力からこのような発話レベルの出力を生成するには、話者認識システムのどこかで、すべての有効なフレームにわたるプーリング（合計）プロセスが必要である。均等に重み付けされたプーリングは、通常、このような目的のために利用される。

例えば、非特許文献１及び２は、話者認証システムを開示している。図１８は、非特許文献２における話者認証システムのブロック図を示している。

N. Dehak, P. Kenny, R. Dehak, P. Dumouchel, and P. Ouellet, "Front-end factor analysis for speaker verification," IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, pp. 788-798, 2011 David Snyder, Daniel Garcia-Romero, Daniel Povey, and Sanjeev Khudanpur, "Deep Neural Network Embeddings for Text-Independent Speaker Verification", in Proceedings of Interspeech, 2017

話者認識においては、非特許文献１に開示されている標準のｉベクトルベースの方法、又は非特許文献２に開示されている最近人気のあるＤＮＮベースの話者埋め込み方法は問題とされていない。フレームレベルの音響特徴量の情報から、発話レベルの話者認識結果を出力として取得するために、均等に重み付けされたプーリングが使用されている。

非特許文献１のｉベクトルベースの方法では、Ｌフレームの特徴シーケンス｛ｙ_１，ｙ_２，．．．，ｙ_Ｌ｝の発話が与えられると、数１及び数２に従って、発話レベルの特徴量ｘが抽出される。数１において、Ｍは、スーパーベクトルＭを表している。スーパーベクトルＭは、すべてのＭ_Ｃを連結することによって生成される。数２において、ｃはＧＭＭ−ＵＢＭのガウス成分のインデックスである。全てのフレームは、全てのフレームにおいて合計する方法によって等しく扱われる。

非特許文献２に開示されているＤＮＮベースの方法では、実際には幾つかのフレームは、他のフレームよりも多くの話者情報を有しているにも関わらず、平均的なプーリング層は全てのフレームに等しい重要性を与える。その結果、埋め込みによる方法では、話者の正確な表現とならないため、バックエンドでどのようなモデルが使用されていても、話者認識のパフォーマンスが低下する。

本発明の目的は、上記問題を解消し、話者認識タスクにおいて発話のより正確な表現を提供し得る、音声特徴量抽出装置、音声特徴量抽出方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。

上記目的を達成するために、本発明の一例における音声特徴量抽出装置は、
入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、音声アクティビティ検出部と、
与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、音声アクティビティ検出処理部と、
前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出部と、
を備えている、ことを特徴とする。

上記目的を達成するために、本発明の一例における音声特徴量抽出方法は、
（ａ）入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
（ｂ）与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
（ｃ）前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を有する、ことを特徴とする。

上記目的を達成するために、本発明の一例におけるコンピュータ読み取り可能な記録媒体は、
コンピュータに、
（ａ）入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
（ｂ）与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
（ｃ）前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を実行させる命令を含む、プログラムを記録している、ことを特徴とする。

以上のように、本発明によれば、話者認識タスクにおいて発話のより正確な表現を提供することができる。

図面は、詳細な説明とともに、本発明の適応手法についての原理を説明するために有用である。図面は説明のためのものであり、技術の適用を制限するものではない。
図１は、本発明の実施の形態１における音声特徴量抽出装置の構成を概略的に示すブロック図である図２は、本発明の実施の形態１における音声特徴量抽出装置の構成を具体的に示すブロック図である。図３は、ＮＮベースの話者埋め込み構造のためのＮＮ構造の例を示す図である。図４は、ＮＮベースの話者埋め込み抽出の場合における、実施の形態１での、発話レベル特徴量抽出部、発話レベル特徴量抽出器パラメータ記憶部、及び発話レベル特徴量記憶部、それぞれの内容の例を示す。図５は、ｉベクトルの抽出の場合における、実施の形態１での、発話レベル特徴量抽出部、発話レベル特徴量抽出器パラメータ記憶部、及び発話レベル特徴量記憶部、それぞれの内容の例を示す。図６は、本発明の実施の形態１における音声特徴量抽出装置の動作を示すフロー図である。図７は、実施の形態１における訓練部の具体的な動作を示すフロー図である。図８は、実施の形態１における音声特徴量抽出部の具体的な動作を示すフロー図である。図９は、本発明の実施の形態２における音声特徴量抽出装置の具体的構成を示すブロック図である。図１０は、本発明の実施の形態２における音声特徴量抽出装置の具体的な動作を示すフロー図である。図１１は、実施の形態２における訓練部の具体的な動作を示すフロー図である。図１２は、実施の形態２における音声特徴抽出部の具体的な動作を示すフロー図である。図１３は、本発明の実施の形態３における音声特徴量抽出装置の具体的構成を示すブロック図である。図１４は、本発明の実施の形態３における音声特徴量抽出装置の具体的な動作を示すフロー図である。図１５は、実施の形態３における訓練部の具体的な動作を示すフロー図である。図１６は、実施の形態３における音声特徴量抽出部の具体的な動作を示すフロー図である。図１７は、本発明の実施の形態１から３における音声特徴量抽出装置を実現するコンピュータの一例を示すブロック図である。図１８は、非特許文献２における話者認証システムのブロック図を示している。当業者は、図における要素が、単純、且つ、明快に示されており、必ずしも一定の縮尺で描かれていないことを理解するであろう。例えば、集積回路アーキテクチャを示す図における幾つかの要素の寸法は、他の要素と比較して誇張され、本実施の形態及び代わりの実施の形態の理解に役立つ。

（発明の原理）
本発明は、フレームレベルから発話レベルまで、プーリングの特徴量において、フレーム毎の音声アクティビティ検出（ＶＡＤ）の事後確率の機能を使用して、重みを与える。ＶＡＤの事後確率が高いフレームは、無音またはノイズである可能性が高いＶＡＤの事後確率が低いフレームよりも、通常、多くの話者情報を有している。従って、ＶＡＤの事後確率が高いフレームに対して、より多くの重みが与えられると、話者認識タスクにより適した発話の最終的な表現が得られることになる。

（実施の形態）
以下に、図を用いて、本発明における各実施の形態について説明する。以下の詳細な説明は、本質的に単なる例示であり、本発明自体、又は本発明の用途と使用とを限定するものではない。更に、本発明は、上述の背景技術又は以下の詳細な説明に提示された理論によって制限されることはない。

（実施の形態１）
実施の形態１における音声特徴量抽出装置は、ＶＡＤの事後確率を利用して、音声といったフレームに大きな重みを与える。ＶＡＤの事後確率は、従来から、話者認識を含む殆どの音声処理システムにおいて、フレームの選択に利用されている。音声特徴量抽出装置は、既存のＶＡＤを用いて、より適切な発話レベルの特徴量を抽出することができる。

以下、図１〜図７を用いて、本発明の実施の形態１における音声特徴量抽出装置、音声特徴量抽出方法、及びプログラムについて説明する。

［装置構成］
最初に、図１を用いて、実施の形態１における音声特徴量抽出装置１００の概略構成を説明する。図１は、本発明の実施の形態１における音声特徴量抽出装置の構成を概略的に示すブロック図である。

図１に示すように、音声特徴量抽出装置１００は、音声アクティビティ検出（ＶＡＤ）部１０３と、音声アクティビティ検出（ＶＡＤ）処理部１０６と、発話レベル特徴量抽出部１１２とを備えている。

ＶＡＤ部１０３は、入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する。ＶＡＤ処理部１０６は、与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリンググフレーム内の重みとして関数値を計算する。発話レベル特徴量抽出部１１２は、関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する。

音声特徴量抽出装置１００によれば、話者認識タスクにおいて発話のより正確な表現を提供することができる。

続いて、図２〜図４を用いて、実施の形態１における音声特徴量抽出装置の構成について詳細に説明する。図２は、本発明の実施の形態１における音声特徴量抽出装置の具体的構成を示すブロック図である。

本発明の実施の形態１においては、既存のＶＡＤを用いた音声特徴量抽出装置１００について説明する。音声特徴量抽出装置１００は、訓練部１００Ａと発話レベル特徴量抽出部１００Ｂとを備えている。但し、訓練部１００Ａと発話レベル特徴量抽出部１００Ｂとは必ずしも一緒に用いられる必要はない。発話レベル特徴量抽出部１００Ｂは、単独で、非特許文献１及び非特許文献２に開示されている従来技術における訓練部と使用することもできる。

図２に示すように、訓練部１００Ａは、音声データ記憶部１０１と、音響特徴量抽出部１０２Ａと、ＶＡＤ部１０３Ａと、ＶＡＤ閾値記憶部１０４Ａと、選択済音響特徴量記憶部１０５と、ＶＡＤ処理部１０６Ａと、フレーム重み記憶部１０７と、発話レベル特徴量抽出器訓練部１０８と、発話レベル特徴量抽出器パラメータ記憶部１０９とを備えている。

音声特徴量抽出部１００Ｂは、音響特徴量抽出部１０２Ｂと、ＶＡＤ部１０３Ｂと、ＶＡＤ閾値記憶部１０４Ｂと、選択済フレーム音響特徴量記憶部１１０と、ＶＡＤ事後確率部１０６Ｂと、フレーム重み記憶部１１１と、発話レベル特徴量抽出部１１２と、発話レベル特徴量記憶部１１３とを備えている。

音響特徴量抽出部１０２Ａと音響特徴量抽出部１０２Ｂとは、同じ機能を有している。ＶＡＤ部１０３ＡとＶＡＤ部１０３Ｂも、同じ機能を有している。ＶＡＤ部１０３ＡとＶＡＤ部１０３Ｂとは、図１のＶＡＤ部１０３について述べたように機能する。ＶＡＤ処理部１０６Ａ及びＶＡＤ処理部１０６Ｂは、同じ機能を有している。ＶＡＤ処理部１０６Ａ及びＶＡＤ処理部１０６Ｂは、上述のＶＡＤ処理部１０６として機能する。

ＶＡＤ閾値記憶部１０４ＡとＶＡＤ閾値記憶部１０４Ｂとは、同じ記憶部で構成することができ、これは、訓練部と音声特徴量抽出部とで同じ閾値が使用されることを意味する。なお、ＶＡＤ閾値記憶部は、訓練部１００Ａと発話レベル特徴量抽出部１００Ｂとにおいて、異なる構成要素を有する可能性もある。

音響特徴量抽出部１０２は、音声データ記憶部１０１内のデータから音響特徴ベクトルｆを抽出する。ＶＡＤ部１０３Ａは、ＶＡＤを音響特徴量に適用し、フレーム毎のＶＡＤ事後確率Ｐを取得する。

ＶＡＤ部１０３Ａは、ＶＡＤ事後確率と、ＶＡＤ閾値記憶部１０４Ａに格納された所定のＶＡＤ閾値ＴＨＥＴＡとを比較し、ＶＡＤ事後確率が閾値よりも小さい（Ｐ＜ＴＨＥＴＡ）フレームを除去する。そして、ＶＡＤ部１０３Ａは、残りのフレーム｛ｆ_ｉ｜Ｐ_ｉ≧ＴＨＥＴＡ｝の音響特徴量を選択済音響特徴量記憶部１０５に格納する。

ＶＡＤ処理部１０６Ａは、ＶＡＤ事後確率Ｐを関数に入力して、各フレームｗ＝Ｆ（Ｐ）の重みを取得する。次いで、ＶＡＤ処理部１０６Ａは、それらをフレーム重み記憶部１０７に格納する。

発話レベル特徴量抽出器訓練部１０８は、選択済音響特徴量記憶部１０５から選択されたフレームの音響特徴量を読み出し、更に、フレーム重み記憶部１０７から対応する重みを読み出し、発話レベル特徴量抽出器を訓練し、最後に、抽出器を発話レベル特徴量抽出器パラメータ記憶部１０９に格納する。

音声特徴量抽出部において、音響特徴量抽出部１０２Ｂは、入力音声データから音響特徴ベクトルを抽出する。ＶＡＤ部１０３Ｂは、ＶＡＤを音響特徴ベクトルに適用し、各フレームのＶＡＤ事後確率を取得する。ＶＡＤ部１０３Ｂは、ＶＡＤ事後確率と、ＶＡＤ閾値記憶部１０４Ｂに格納された所定のＶＡＤ閾値とを比較し、ＶＡＤ事後確率が閾値よりも小さいフレームを除去する。

残りのフレームの音響特徴量は、選択済フレーム音響特徴量記憶部１１０に格納される。ＶＡＤ処理部１０６Ｂは、ＶＡＤ事後確率を関数Ｆ（Ｐ）に入力して、重みを取得し、それらをフレーム重み記憶部１１１に格納する。

発話レベル特徴量抽出部１１２は、選択済フレーム音響特徴量記憶部１１０から、選択されたフレームの音響特徴量を読み出し、更に、フレーム重み記憶部１１１から対応する重みを読み出し、そして、発話レベル特徴量抽出器パラメータ記憶部１０９から抽出器パラメータを読み出す。発話レベル特徴量抽出部１１２は、入力された発話のための１つの特徴ベクトルを抽出し、それを発話レベル特徴量記憶部１１３に格納する。

ＮＮ（ニューラルネットワーク）ベースの話者埋め込みの一例では、ＮＮは、少なくとも１つの入力層と、１つの出力層と、複数の隠れ層とを有する。ＮＮ構造図（図３）に示すように、隠れ層は、フレームレベルのプロセス層と、プーリング層と、発話レベルのプロセス層とを有する。そのようなＮＮベースの話者埋め込み抽出器を訓練するために、発話レベル特徴量抽出器訓練部１０８は、音響特徴量を、選択済音響特徴量記憶部１０５から取得し、フレーム重み記憶部１０７から対応するフレーム重みを取得する。

発話レベル特徴量抽出器訓練部１０８はまた、話者ＩＤをＮＮの出力層に渡す。次に、発話レベル特徴量抽出器訓練部１０８はＮＮを訓練し、隠れ層のパラメータを取得し、それらを、発話レベル特徴量抽出器パラメータ記憶部１０９に格納する（図４）。従って、ＮＮベースの話者埋め込みの場合、選択されたフレームの音響特徴量が、選択済音響特徴量記憶部１０５に格納されることに加えて、話者ＩＤも音声データ記憶部１０１から音響特徴量と共に運ばれる。

発話レベル特徴量抽出器パラメータ記憶部１０９は、ＮＮパラメータ（図４）を格納する。ＮＮパラメータは、少なくともフレームレベルのプロセス層パラメータと、プーリング層パラメータと、発話レベルのプロセス層パラメータとを含む。音声特徴量抽出部１００Ｂにおいて、入力層は、選択済フレーム音響特徴量記憶部１１０に格納された音響特徴量と、フレーム重み記憶部１１１からのフレーム重みとであり、出力層は除去されている。隠れ層は、発話レベル特徴量抽出器パラメータ記憶部１０９で構成される。ＮＮは、入力を前方に渡す。発話レベルのプロセス層の出力の１つが話者の埋め込み（発話レベルの特徴量）として使用される。

ｉベクトルの例では、発話レベル特徴量抽出器訓練部１０８において、話者ＩＤは必要ではない。発話レベル特徴量抽出器訓練部１０８は、射影行列（Ｔ行列）を訓練し、それを、発話レベル特徴量抽出器パラメータ記憶部１０９に格納する（図５）。発話レベル特徴抽出部において、発話レベル特徴量抽出部１１２は、フレーム重み記憶部１１１からフレーム重みが与えられると、発話レベル特徴量抽出器パラメータ記憶部１０９に記憶されたＴ行列を使用して、選択済フレーム音響特徴量記憶部１１０内の音響特徴量からｉベクトルを抽出する。

ＶＡＤ処理部１０６Ａ及び１０６Ｂにおいて関数は、ＶＡＤ事後確率によって単調に増加し、音声である可能性が高いフレームほど、プーリングにおいて、より多くの重みが与えられるようにする。この関数は、１つの発話において選択された全てのフレームについて数３を満足する。この関数は、幅広い選択肢を有している。最も簡単な例は数４である。数４においては、フレームの重みは、ＶＡＤ事後確率に対して線形である。

数５といった、パラメータを含む関数の選択が可能である。αが大きいほど、ＶＡＤにより多くの信頼度が与えられることになる。オッズ、対数オッズなど、他にも多くの選択肢がある。

［装置動作］
次に、図６〜図８を用いて、本発明の実施の形態１における音声特徴量抽出装置１００による動作について説明する。以下の説明では、必要に応じて、図１〜図５が参照される。また、実施の形態１においては、音声特徴抽出装置を動作させることによって、音声特徴量抽出方法が実行される。従って、以下においては、音声特徴量抽出装置１００によって実行される動作の説明を、実施の形態１における音声特徴量抽出方法の説明に代える。

図６を用いて、音声特徴量抽出装置１００の全体の動作について説明する。図６は、本発明の実施の形態１における音声特徴量抽出装置の動作を示すフロー図である。図６は、訓練部１００Ａ及び音声特徴量抽出部１００Ｂの処理を含む。但し、これは一例であり、訓練及び特徴量の抽出の処理は、連続して実行されても良いし、時間間隔を挿入して実行されても良いし、例えば、非特許文献１及び非特許文献２に開示されているように、特徴量の再抽出の処理が他の訓練の処理と一緒に行われても良い。

最初に、図６に示すように、訓練部１００Ａにおいて、発話レベル特徴量抽出器訓練部１０８は、発話レベル特徴量抽出器を訓練し、そのパラメータを、発話レベル特徴量抽出器パラメータ記憶部１０９に格納する（ステップＡ０１）。ＮＮベースの話者埋め込みの場合、ＮＮパラメータが格納される。また、ｉベクトルの場合、Ｔ行列が格納される。

次に、発話レベル特徴量抽出部１００Ｂにおいて、発話レベル特徴量抽出部１１２は、発話レベル特徴量抽出器パラメータ記憶部１０９に格納された抽出器パラメータを使用し、選択済フレーム音響特徴量記憶部１１０にある音響特徴量から発話レベル特徴量を、フレーム重み記憶部１１１にある、対応するフレーム重みと共に、抽出する（ステップＡ０２）。

図７は、実施の形態１における、音声特徴量抽出器についての訓練部の具体的な動作を示すフロー図である。最初に、音響特徴量抽出部１０２Ａは、音声データ記憶部１０１から音声データを読み出す（ステップＢ０１）。次に、音響特徴量抽出部１０２Ａは、フレームレベルの音響特徴量を抽出する（ステップＢ０２）。

次に、ＶＡＤ部１０３Ａは、ＶＡＤを適用し、全てのフレームの事後確率を取得する（ステップＢ０３）。次に、ＶＡＤ部１０３Ａは、事後確率と所定の閾値とを比較し、事後確率が閾値よりも小さいフレームを除去する（ステップＢ０４）。

次に、ＶＡＤ処理部１０６Ａは、ＶＡＤ事後確率を関数Ｆ（Ｐ）に入力し、得られた値をフレーム重みとして格納する（ステップＢ０５）。次に、発話レベル特徴量抽出器訓練部１０８は、発話レベル特徴量抽出器を訓練する（ステップＢ０６）。最後に、発話レベル特徴量抽出器訓練部１０８は、抽出器パラメータを、発話レベル特徴量抽出器パラメータ記憶部１０９に格納する（ステップＢ０７）。

図８は、実施の形態１における、フレームを除去するために上記と同じＶＡＤ事後確率を使用する、音声特徴量抽出部の具体的な動作を示すフロー図である。最初に、音響特徴量抽出部１０２Ｂは、入力音声データを読み出す（ステップＣ０１）。次に、音響特徴量抽出部１０２Ｂは、フレームレベルで音響特徴量を抽出する（ステップＣ０２）。

次に、ＶＡＤ部１０３Ｂは、ＶＡＤを適用し、すべてのフレームの事後確率を取得する（ステップＣ０３）。次に、ＶＡＤ部１０３Ｂは、事後確率を所定の閾値と比較し、事後確率が閾値よりも小さいフレームを除去する（ステップＣ０４）。

次に、ＶＡＤ処理部１０６Ｂは、ＶＡＤ事後確率を関数Ｆ（Ｐ）に入力し、得られた値をフレーム重みとして格納する（ステップＣ０５）。次に、発話レベル特徴量抽出部１１２は、発話レベル特徴量抽出器パラメータ記憶部１０９に格納されている発話レベル特徴量抽出器パラメータを読み出す（ステップＣ０６）。その後、発話レベル特徴量抽出部１１２は、発話レベルの特徴量を抽出する（ステップＣ０７）。

［実施の形態１における効果］
実施の形態１によれば、フレームレベルを発話レベルに変換するプロセスにおいて、重み付けされたプーリングを使用でき、より適切な発話レベルの特徴量を抽出することができる。更に、実施の形態１では、ＶＡＤ事後確率の関数は重みとして使用される。ＶＡＤ事後確率は、既に一般的に、殆どの音声処理システムにおいて使用されている。この音声処理システムは、非音声である可能性が高いフレームを除去する話者認識を含んでいる。このため、実施の形態１によれば、特別な情報を必要とすることなく、発話の特徴量を改善することができる。

［プログラム］
実施の形態１におけるプログラムは、図６に示すステップＡ０１〜Ａ０２、図７に示すステップＢ０１〜Ｂ０７、及び図８に示すステップＣ０１〜Ｃ０７をコンピュータに実行させるためのプログラムであれば良い。実施の形態１における音声特徴量抽出装置１００及び音声特徴量抽出方法は、このプログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、訓練部１００Ａ及び音声特徴量抽出部１００Ｂとして機能し、処理を行う。

実施の形態１におけるプログラムは、複数のコンピュータを用いて構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、訓練部１００Ａ及び音声特徴量抽出部１００Ｂのうちのいずれかとして機能することができる。

（実施の形態２）
実施の形態１は、重み付けされたプーリングとフレーム除去において、同じ事後確率が使用されている。しかし、話者認識におけるフレームの除去でよく使用されるＶＡＤは、エネルギーベースの手法を用いており、大きなバックグラウンドノイズや、様々なノイズの多い状態に対して脆弱である。このため、ＶＡＤ事後確率は、プーリングにおいてフレームの重み付けに使用できるほど正確ではない。実施の形態２においては、異なるＶＡＤ、例えば、様々な条件下でより正確であるＮＮベースのＶＡＤが使用されて、プーリングにおけるフレームの重み付けのための事後確率が取得される。

［装置構成］
最初に、図９を用いて、実施の形態２における音声特徴量抽出装置２００の概略構成について説明する。図９は、本発明の実施の形態２における音声特徴量抽出装置の具体的構成を示すブロック図である。

本発明の実施の形態２では、新しいＶＡＤを用いた音声特徴量抽出装置について説明する。音声特徴量抽出装置２００は、訓練部２００Ａと発話レベル特徴量抽出部２００Ｂとを備えている。但しは、これらは、必ずしも一緒に用いられる必要はない。発話レベル特徴量抽出部２００Ｂは、単独で、非特許文献１及び非特許文献２に開示されている従来技術における訓練部と使用することもできる。

図９に示すように、実施の形態２における音声特徴量抽出装置２００において、訓練部２００Ａは、音声データ記憶部２０１と、音響特徴量抽出部２０２Ａと、第１のＶＡＤ部２０３Ａと、第１のＶＡＤ閾値記憶部２０４Ａと、選択済フレーム音響特徴量記憶部２０５と、第２のＶＡＤ部２０６Ａと、ＶＡＤ処理部２０７Ａと、フレーム重み記憶部２０８と、発話レベル特徴量抽出器訓練部２０９と、発話レベル特徴量抽出器パラメータ記憶部２１０とを備えている。

音声特徴量抽出部２００Ｂは、音響特徴量抽出部２０２Ｂと、第１のＶＡＤ部２０３Ｂと、第１のＶＡＤ閾値記憶部２０４Ｂと、選択済フレーム音響特徴量記憶部２１１と、第２のＶＡＤ部２０６Ｂと、ＶＡＤ処理部２０７Ｂと、フレーム重み記憶部２１２と、発話レベル特徴量抽出部２１３と、発話レベル特徴量記憶部２１４とを備えている。

音響特徴量抽出部２０２Ａと音響特徴量抽出部２０２Ｂとは、同じ機能を有している。第１のＶＡＤ部２０３Ａと第１のＶＡＤ部２０３Ｂも、同じ機能を有している。第２のＶＡＤ部２０６Ａと第２のＶＡＤ部２０６Ｂも、同じ機能を有している。ＶＡＤ処理部２０７ＡとＶＡＤ処理部２０７Ｂも、同じ機能を有している。第１のＶＡＤ閾値記憶部２０４Ａと第１のＶＡＤ閾値記憶部２０４Ｂとは、同じ記憶部で構成することができ、これは、訓練部と音声特徴量抽出部とで同じ閾値が使用されることを意味する。なお、ＶＡＤ閾値記憶部は、訓練部と発話レベル特徴量抽出部とにおいて、異なる構成要素を有する可能性もある。

訓練部２００Ａにおいて、音響特徴量部２０１は、音声データ記憶部２０１内のデータから音響特徴ベクトルｆを抽出する。第１のＶＡＤ部２０３Ａは、第１のＶＡＤを音響特徴量に適用し、フレーム毎のＶＡＤ事後確率Ｐ_１を取得する。次に、第１のＶＡＤ部２０３Ａは、ＶＡＤ事後確率Ｐ_１と、ＶＡＤ閾値記憶部２０４Ａに格納された所定の第１のＶＡＤ閾値ＴＨＥＴＡと比較し、ＶＡＤ事後確率が閾値よりも小さい（Ｐ_１＜ＴＨＥＴＡ）フレームを除去する。そして、残りのフレーム｛ｆ_ｉ｜Ｐ_ｉ≧ＴＨＥＴＡ｝の音響特徴量は、選択済フレーム音響特徴量記憶部２０５に格納される。

第２のＶＡＤ部２０６Ａは、第２のＶＡＤを音響特徴量に適用し、第２のＶＡＤ事後確率Ｐ_２のセットを取得する。ＶＡＤ処理部２０７Ａは、第２のＶＡＤ事後確率Ｐ_２のセットを関数に入力して、各フレームｗ＝Ｆ（Ｐ２）の重みを取得し、それらをフレーム重み記憶部２０８に格納する。

発話レベル特徴量抽出器訓練部２０９は、選択済フレーム音響特徴量記憶部２０５から、選択されたフレームの音響特徴を読み出し、次に、フレーム重み記憶部２０８から、対応する重みを読み出し、更に、発話レベル特徴量抽出器を訓練し、その後、抽出器パラメータを、発話レベル特徴量抽出器パラメータ記憶部２１０に格納する。

音声特徴量抽出部２００Ｂにおいて、音響特徴量抽出部２０２Ｂは、入力音声データから音響特徴ベクトルを抽出する。第１のＶＡＤ部２０３Ｂは、第１のＶＡＤを音響特徴ベクトルに適用して、フレーム毎にＶＡＤ事後確率を取得する。

第１のＶＡＤ閾値記憶部２０４Ｂに格納された所定のＶＡＤ閾値と比較し、ＶＡＤ事後確率が閾値よりも小さいフレームは除去され、残りのフレームの音響特徴量が、選択済フレーム音響特徴量記憶部２１１に格納される。

第２のＶＡＤ部２０６Ｂは、第２のＶＡＤを音響特徴ベクトルに適用し、各フレームについて別のＶＡＤ事後確率を取得する。ＶＡＤ処理部２０７Ｂは、第２のＶＡＤ事後確率を関数に入力して、フレームの重みを取得し、それらをフレーム重み記憶部２１２に格納する。

発話レベル特徴量抽出部２１３は、選択済フレーム音響特徴量記憶部２１１から、選択されたフレームの音響特徴量を読み出し、フレーム重み記憶部２１２から、対応する重みを読み出し、更に、発話レベル特徴量抽出器パラメータ記憶部２１０から、パラメータを抽出する。発話レベル特徴量抽出部２１３は、入力された発話毎に、１つの特徴ベクトルを抽出し、それを、発話レベル特徴量抽出器パラメータ記憶部２１０に格納する。

実施の形態２は、実施の形態１と同様に、ＮＮベースの話者埋め込みの場合とｉベクトルの場合とに適用することができる（実施の形態１参照）。

ＶＡＤ処理部２０７Ａ及びＶＡＤ処理部２０８Ｂにおいて、関数は、ＶＡＤ事後確率によって単調に増加し、フレームが音声である可能性が高くなると、プーリングにおいてより多くの重みが与えられるようにする。加えて、１つの発話が選択されたフレーム全てにおいて、上記数３が満たされる必要がある（実施の形態１参照）。

［装置動作］
次に、図１０〜図１２を用いて、本発明の実施の形態２における音声特徴量抽出装置２００の動作について説明する。以下の説明では、必要に応じて図９を参照する。また、実施の形態２では、音声特徴量抽出装置を動作させることにより、音声特徴抽出方法が実施される。従って、音声特徴量抽出装置２００による動作の説明によって、実施の形態２における音声特徴量抽出方法の説明に代える。

音声特徴量抽出装置２００の全体の動作を、図１０を参照して説明する。図１０は、本発明の実施の形態２における音声特徴量抽出装置の動作を示すフロー図である。図１０は、訓練部２００Ａ及び音声特徴量抽出部２００Ｂの動作を含む。しかしながら、これは例示である。訓練及び特徴量抽出の処理は、連続的に実行されても良いし、時間間隔をおいて行われても良い。更には、特徴量の再抽出の処理が、他の訓練処理、例えば、非特許文献１及び非特許文献２に開示された従来技術と共に行われても良い。

まず、図１０に示すように、訓練部２００Ａにおいて、発話レベル特徴量抽出器訓練部２０９は、発話レベル特徴量抽出器を訓練して、そのパラメータを、発話レベル特徴量抽出器パラメータ記憶部２１０に格納する（ステップＤ０１）。ＮＮベースの話者埋め込みの場合、ＮＮパラメータが格納される。また、ｉベクトルの場合、Ｔ行列が格納される。

次に、発話レベル特徴量抽出部２００Ｂにおいて、発話レベル特徴量抽出部２１３は、発話レベル特徴量抽出器パラメータ記憶部２１０に格納された抽出器パラメータを使用し、選択済フレーム音響特徴量記憶部２１１における音響特徴量から、フレーム重み２１２における対応するフレーム重みと一緒に、発話レベル特徴量を抽出する（ステップＢ０２）。

図１１は、実施の形態２における、別のＶＡＤを使用して、除去されたフレームではなく重み付けされたプーリングの事後確率を取得するための、音声特徴量抽出器の訓練部での具体的な動作を示すフロー図である。

最初に、音響特徴量抽出部２０２Ａは、音声データ記憶部２０１から音声データを読み出す（ステップＥ０１）。次に、音響特徴量抽出部２０２Ａは、フレームレベルの音響特徴量を抽出する（ステップＥ０２）。

次に、第１のＶＡＤ部２０３Ａは、第１のＶＡＤを適用し、全てのフレームの事後確率を取得する（ステップＥ０３）。次に、第１のＶＡＤ部２０３Ａは、事後確率と所定の閾値とを比較し、事後確率が閾値よりも小さいフレームを除去する（ステップＥ０４）。

次に、第２のＶＡＤ部２０６Ａは、第２のＶＡＤを適用し、全てのフレームについて第２の事後確率のセットを取得する（ステップＥ０５）。次に、ＶＡＤ処理部２０７Ａは、第２のＶＡＤ事後確率のセットを関数Ｆ（Ｐ_２）に入力し、それらをフレーム重みとして格納する（ステップＥ０６）。

次に、発話レベル特徴量抽出器訓練部２０９は、抽出器を訓練する（ステップＥ０７）。その後、発話レベル特徴量抽出器訓練部２０９は、抽出器パラメータを、発話レベル特徴量抽出器パラメータ記憶部２１０に格納する（ステップＥ０８）。

図１２は、実施の形態２における、別のＶＡＤを使用して、除去されたフレームではなく重み付けされたプーリングの事後確率を取得するための、音声特徴量抽出部の具体的な動作を示すフロー図である。

最初に、音響特徴量抽出部２０２Ｂは、入力された音声データを読み出す（ステップＦ０１）。次に、音響特徴量抽出部２０２Ｂは、フレームレベルの音響特徴量を抽出する（ステップＦ０２）。

次に、第１のＶＡＤ部２０３Ｂは、第１のＶＡＤを適用し、全てのフレームの事後確率を取得する（ステップＦ０３）。次に、第１のＶＡＤ部２０３Ｂは、事後確率と所定の閾値とを比較し、事後確率が閾値よりも小さいフレームを除去する（ステップＦ０４）。

次に、第２のＶＡＤ部２０６Ｂは、第２のＶＡＤを適用し、すべてのフレームについて第２の事後セットを取得する（ステップＦ０５）。次に、ＶＡＤ処理部２０８Ｂは、ＶＡＤ事後確率の第２のセットを関数Ｆ（Ｐ２）に渡し、それらをフレーム重みとして格納する（ステップＦ０６）。

次に、発話レベル特徴量抽出部２１３は、発話レベル特徴量抽出器パラメータ記憶部２１０における発話レベル特徴量抽出器パラメータを読み出す（ステップＦ０７）。その後、発話レベル特徴量抽出部２１３は、発話レベル特徴量を抽出する（ステップＦ０８）。

［実施の形態２における効果］
実施の形態２によれば、フレームレベルを発話レベルに変換する処理において、重み付けされたプーリングを使用でき、より適切な発話レベルの特徴量を抽出することができる。実施の形態２によれば、フレームの除去に使用されたＶＡＤとは異なるＶＡＤ（通常はパフォーマンスが高い）の事後確率の関数が、重みとして使用される。フレームの重みの事後確率を生成するＶＡＤとしては、ＮＮベースのＶＡＤ等、多くの選択肢が挙げられる。このようなＶＡＤは、通常、フレームの除去で使用されるＶＡＤよりも高度な構成を有している。従って、このようなＶＡＤの事後確率もまた、重みに使用することが正確である。

［プログラム］
実施の形態２におけるプログラムは、図１０に示すステップＤ０１〜Ｄ０２、図１１に示すステップＥ０１〜Ｅ０８、及び図１２に示すステップＦ０１〜Ｆ０７をコンピュータに実行させるためのプログラムであれば良い。実施の形態２における音声特徴量抽出装置２００及び音声特徴量抽出方法は、このプログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、訓練部２００Ａ及び音声特徴量抽出部２００Ｂとして機能し、処理を行う。

実施の形態２におけるプログラムは、複数のコンピュータを用いて構築されたコンピュータシステムによって実行されても良い。この場合、例えば、各コンピュータが、訓練部２００Ａ及び音声特徴量抽出部２００Ｂのうちのいずれかとして機能することができる。

（実施の形態３）
実施の形態２は、重み付けされた加重プーリングにおいて、フレームの除去で使用されるＶＡＤ（第１のＶＡＤ）以外の、より高度なＶＡＤ（第２のＶＡＤ）から得られた事後確率を使用する。しかしながら、同じフレームに対して、異なるＶＡＤが異なる事後確率を有する場合がある。つまり、一部の非音声フレームにおいては、誤って、それが音声フレームであると見なされてしまう可能性がある。
最初のＶＡＤによって選択されたフレームの中には、２番目のＶＡＤの事後確率が非常に低い場合がある。実施の形態２は、このようなフレームに低い重みを与えるが、このようなフレームの多くは依然として最終的な発話レベルの特徴量に影響を与える。
実施の形態３は、第１のＶＡＤ及び第２のＶＡＤの両方を使用してフレームを除去し、そして、高度な第２のＶＡＤを使用して、プーリングに重みを与える。実施の形態３によれば、音声以外のフレームがより適切に削除されるため、最終的な発話レベルの特徴量がより正確なものとなる。

［装置構成］
最初に、図１３を用いて、実施の形態３における音声特徴量抽出装置３００の概略構成を説明する。図１３は、本発明の実施の形態３における音声特徴量抽出装置の具体的構成を示すブロック図である。

本発明の実施の形態３においては、重み付けられたプーリングとフレーム除去との両方に新しいＶＡＤを使用する、音声特徴量抽出装置について説明する。音声特徴量抽出装置３００は、訓練部３００Ａと発話レベル特徴量抽出部３００Ｂとを備えている。但しは、これらは、必ずしも一緒に用いられる必要はない。発話レベル特徴量抽出部３００Ｂは、単独で、非特許文献１及び非特許文献２に開示されている従来技術における訓練部と使用することもできる。

図１３に示すように、音声特徴量抽出装置３００において、訓練部３００Ａは、音声データ記憶部３０２と、音響特徴量抽出部３０２Ａと、第１のＶＡＤ部３０３Ａと、第１のＶＡＤ閾値記憶部３０４Ａと、選択済フレーム音響特徴量記憶部３０５と、第２のＶＡＤ部３０６Ａと、第２のＶＡＤ閾値記憶部３０７Ａと、ＶＡＤ処理部３０８Ａと、フレーム重み記憶部３０９と、発話レベル特徴量抽出器訓練部３１０と、発話レベル特徴量抽出器パラメータ記憶部３１１とを備えている。

音声特徴量抽出部３００Ｂは、音響特徴量抽出部３０２Ｂと、第１のＶＡＤ部３０３Ｂと、第１のＶＡＤ閾値記憶部３０４Ｂと、選択済フレーム音響特徴量記憶部３１２と、第２のＶＡＤ部３０６Ｂと、第２のＶＡＤ閾値記憶部３０７Ｂと、ＶＡＤ処理部３０８Ｂと、フレーム重み記憶部３１３と、発話レベル特徴量抽出部３１４と、発話レベル特徴量記憶部３１５とを備えている。

音響特徴量抽出部３０２Ａ及び音響特徴量抽出部３０２Ｂとは、同じ機能を有している。第１のＶＡＤ部３０３と第１のＶＡＤ部３０３Ｂも、同じ機能を有している。第２のＶＡＤ部３０６Ａと第２のＶＡＤ部３０６Ｂも、同じ機能を有している。ＶＡＤ処理部３０８ＡとＶＡＤ処理部３０８Ｂも、同じ機能を有している。第１のＶＡＤ閾値記憶部３０４Ａと第１のＶＡＤ閾値記憶部３０４Ｂとは、同じ記憶部で構成することができ、第２のＶＡＤ閾値記憶部３０７Ａと第２のＶＡＤ閾値記憶部３０７Ｂも、同じ記憶部で構成される。これは、訓練部と音声特徴量抽出部とで同じ閾値が使用されることを意味する。なお、ＶＡＤ閾値記憶部は、訓練部と発話レベル特徴量抽出部とにおいて、異なる構成要素を有する可能性もある。

訓練部３００Ａにおいて、音響特徴量抽出部３０２Ａは、音声データ記憶部３０１のデータから音響特徴ベクトルｆを抽出する。第１のＶＡＤ部３０３Ａは、第１のＶＡＤを音響特徴量に適用し、フレーム毎にＶＡＤ事後確率Ｐ_１を取得する。次に、第１のＶＡＤ部３０３Ａは、ＶＡＤ事後確率Ｐ_１と、第１のＶＡＤ閾値記憶部３０４Ａに格納された所定の第１のＶＡＤ閾値ＴＨＥＴＡ_１とを比較し、ＶＡＤ事後確率が閾値よりも小さい（Ｐ_１＜ＴＨＥＴＡ）フレームを除去する。

第２のＶＡＤ部３０６Ａは、第２のＶＡＤを音響特徴量に適用し、第２のＶＡＤ事後確率Ｐ_２のセットを取得する。第２のＶＡＤ部３０６Ａは、第２のＶＡＤ事後確率Ｐ_２のセットと、第２のＶＡＤ閾値記憶部３０７Ａに格納された所定の第２のＶＡＤ閾値ＴＨＥＴＡ_２と比較し、更に、第２のＶＡＤ事後確率Ｐ２が閾値よりも小さい（Ｐ_２＜ＴＨＥＴＡ_２）フレームを除去する。残りのフレームの音響特徴量｛ｆ_ｉ｜（Ｐ_１ｉ≧ＴＨＥＴＡ_１）＆＆（Ｐ_２ｉ≧ＴＨＥＴＡ_２）｝は、選択済フレーム音響特徴量記憶部３０５に格納される。

ＶＡＤ事後確率処理部３０８Ａは、第２のＶＡＤ事後確率Ｐ_２のセットを関数に入力し、各フレームｗ＝Ｆ（Ｐ_２）の重みを取得し、取得した重みをフレーム重み記憶部３０９に格納する。発話レベル特徴量抽出器訓練部３１０は、選択済フレーム音響特徴量記憶部３０５から選択されたフレームの音響特徴量を読み出し、フレーム重み記憶部３０９から対応する重みを読み出し、そして、発話レベル特徴量抽出器を訓練し、その後、抽出器パラメータを、発話レベル特徴量抽出器パラメータ記憶部３１１に格納する。

なお、数６のように、ＶＡＤ事後確率Ｐ_１と第２のＶＡＤ事後確率Ｐ_２とを線形結合することにより、ＶＡＤ事後確率Ｐ_１及び第２のＶＡＤ事後確率Ｐ_２は、単一の閾値ＴＨＥＴＡと比較できることに留意すべきである。

音声特徴量抽出部３００Ｂにおいて、音響特徴量抽出部３０２Ｂは、入力された音声データから音響特徴ベクトルを抽出する。第１のＶＡＤ部３０３Ｂは、第１のＶＡＤを音響特徴ベクトルに適用し、フレーム毎のＶＡＤ事後確率を取得する。第２のＶＡＤ部３０６Ｂは、第２のＶＡＤを音響特徴ベクトルに適用し、フレーム毎に別のＶＡＤ事後確率を取得する。

第１のＶＡＤ部３０３Ｂは、第１の事後確率のセットを、第１のＶＡＤ閾値記憶部３０４Ｂに格納されている所定の第１のＶＡＤ閾値と比較し、第１のＶＡＤ事後確率が第１の閾値よりも小さいフレームを除去する。第２のＶＡＤ部３０６Ｂは、残りのフレームの第２の事後確率のセットを比較し、第２のＶＡＤ事後確率が第２のＶＡＤ閾値よりも小さいフレームを更に除去する。

２つの選択の後、残ったフレームは、選択済フレーム音響特徴量記憶部３１２に格納される。ＶＡＤ事後確率処理部３０８Ｂは、第２のＶＡＤ事後確率を関数に入力し、各フレームの重みを取得し、そして、それらをフレーム重み記憶部３１３に格納する。
発話レベル特徴量抽出部３１４は、選択済フレーム音響特徴量記憶部３１２から、選択されたフレームの音響特徴量を読み出し、フレーム重み記憶部３１３から、対応する重みを読み出し、更に、発話レベル特徴量抽出器パラメータ記憶部３１１から、抽出器パラメータを読み出す。発話レベル特徴量抽出部３１４は、入力された発話のための１つの特徴ベクトルを抽出すると、それを、発話レベル特徴量記憶部３１５に格納する。

実施の形態３は、実施の形態１及び実施の形態２と同様に、ＮＮベースの話者埋め込みの場合及びｉベクトルの場合に適用することができる（実施の形態１参照）。

ＶＡＤ処理部３０８Ａ及びＶＡＤ処理部３０８Ｂによって、関数は、ＶＡＤ事後確率によって単調に増加し、フレームが音声である可能性が高くなると、プーリングにおいてより多くの重みが与えられるようにする。加えて、１つの発話が選択されたフレーム全てにおいて、上記数３が満たされる必要がある（実施の形態１参照）。

［装置動作］
次に、図１４〜図１６を用いて、本発明の実施の形態３における音声特徴量抽出装置３００の動作について説明する。以下の説明では、必要に応じて図１３を参照する。また、実施の形態３では、音声特徴量抽出装置を動作させることにより、音声特徴量抽出方法が実施される。従って、音声特徴量抽出装置３００による動作の説明によって、実施の形態３における音声特徴量抽出方法の説明に代える。

音声特徴量抽出装置３００の全体の動作を、図１４を参照する。図１４は、本発明の実施の形態３における音声特徴量抽出装置の動作を示すフロー図である。図１４は、訓練部３００Ａ及び音声特徴量抽出部３００Ｂの動作を含む。しかしながら、これは例示である。訓練及び特徴量抽出の処理は、連続的に実行されても良いし、時間間隔をおいて行われても良い。更には、特徴量の再抽出の処理が、他の訓練処理、例えば、非特許文献１及び非特許文献２に開示された従来技術と共に行われても良い。

最初に、図１４に示すように、訓練部３００Ａにおいて、発話レベル特徴量抽出器訓練部３１０は、発話レベル特徴量抽出器を訓練し、そのパラメータを、発話レベル特徴量抽出器パラメータ記憶部３１１に格納する（ステップＧ０１）。ＮＮベースの話者埋め込みの場合、ＮＮパラメータが格納される。また、ｉベクトルの場合、Ｔ行列が格納される。

次に、発話レベル特徴量抽出部３００Ｂにおいて、発話レベル特徴量抽出部３１４は、発話レベル特徴量抽出器パラメータ記憶部３１１に格納された抽出器パラメータを使用し、選択済フレーム音響特徴量記憶部３１２における音響特徴量から、フレーム重み記憶部３１３における対応するフレーム重みと一緒に、発話レベル特徴量を抽出する。（ステップＧ０２）。

図１５は、実施の形態３における、フレームの除去に元々使用されたＶＡＤに加えて、フレームの除去に使用された別のＶＡＤを使用して、重み付けられたプーリングの事後確率を取得するための、音声特徴量抽出器の訓練部の具体的な動作を示すフロー図である。

最初に、音響特徴量抽出部３０２Ａは、音声データ記憶部３０２から音声データを読み出す（ステップＨ０１）。次に、音響特徴量抽出部３０２Ａは、フレームレベルの音響特徴量を抽出する（ステップＨ０２）。

次に、第１のＶＡＤ部３０３Ａは、第１のＶＡＤを適用し、全てのフレームの事後確率を取得する（ステップＨ０３）。次に、第１のＶＡＤ部３０３Ａは、事後確率と所定の閾値とを比較し、事後確率が閾値よりも小さいフレームを除去する（ステップＨ０４）。

次に、第２のＶＡＤ部３０６Ａは、第２のＶＡＤを適用し、全てのフレームについて第２の事後確率のセットを取得する（ステップＨ０５）。次に、第２のＶＡＤ部３０６Ａは、第２の事後確率のセットを所定の第２の閾値と比較し、事後確率が第２の閾値よりも小さいフレームを更に除去する（ステップＨ０６）。

次に、ＶＡＤ処理部３０８Ａは、第２のＶＡＤ事後確率のセットを、関数Ｆ（Ｐ_２）に入力し、それらをフレーム重みとして格納する（ステップＨ０７）。次に、発話レベル特徴量抽出器訓練部３１０は、抽出器を訓練する（ステップＨ０８）。その後、発話レベル特徴量抽出器訓練部３１０は、抽出器パラメータを、発話レベル特徴量抽出器パラメータ記憶部３１１に格納する（ステップＨ０９）。

図１６は、実施の形態３における、フレームの除去に元々使用されたＶＡＤに加えて、フレームの除去に使用された別のＶＡＤを使用して、重み付けられたプーリングの事後確率を取得するための、音声特徴量抽出部の特定の動作を示すフロー図である。

最初に、音響特徴量抽出部３０２Ｂは、入力された音声データを読み出す（ステップＩ０１）。次に、音響特徴量抽出部３０２Ｂは、フレームレベルの音響特徴量を抽出する（ステップＩ０２）。

次に、第１のＶＡＤ部３０３Ｂは、第１のＶＡＤを適用し、すべてのフレームの事後確率を取得する（ステップＩ０３）。次に、第１のＶＡＤ部３０３Ｂは、事後確率と所定の第１の閾値とを比較し、事後確率が閾値よりも小さいフレームを除去する（ステップＩ０４）。

次に、第２のＶＡＤ部３０６Ｂは、第２のＶＡＤを適用し、全てのフレームの第２の事後確率のセットを取得する（ステップＩ０５）。次に、第２のＶＡＤ部３０６Ａは、第２の事後確率のセットと所定の第２の閾値とを比較し、事後確率が第２の閾値よりも小さいフレームを更に除去する（ステップＩ０６）。

次に、ＶＡＤ処理部３０８Ｂは、第２のＶＡＤ事後確率のセットを、関数Ｆ（Ｐ_２）に入力し、それらをフレーム重みとして格納する（ステップＩ０７）。次に、発話レベル特徴量抽出部３１４は、選択済フレーム音響特徴量記憶部３１２における発話レベル特徴量抽出器パラメータを読み出す（ステップＩ０８）。その後、発話レベル特徴量抽出部３１４は、発話レベルの特徴量を抽出する（ステップＩ０９）。

［実施の形態３における効果］
実施の形態３によれば、フレームレベルを発話レベルに変換する処理において加重み付けされたプーリングを使用して、より適切な発話レベルの特徴量を抽出することができる。実施の形態３では、フレームを除去するために２つのＶＡＤが使用され、２つのＶＡＤのうちのより進んだ方の事後確率の関数が重みとして使用される。

実施の形態２と同様に、フレーム重みの事後確率を生成するＶＡＤとしては、多くの選択肢、例えば、ＮＮベースのＶＡＤが挙げられる。このようなＶＡＤは、通常、フレームの除去で使用されるＶＡＤよりも高度な構造を有している。

フレームの除去のために２つのＶＡＤが使用されるので、ノイズの多いフレームがＶＡＤをだまして音声として使用されてしまう事態が回避される。従って、最終的な発話レベルの特徴量は、音声の事後確率の量を示す重みと共に、音声フレームをプーリングすることによって取得され、より正確なものとなる。

［プログラム］
実施の形態３におけるプログラムは、図１４に示すステップＧ０１〜Ｇ０２、図１５に示すステップＨ０１〜Ｈ０９、及び図１６に示すステップＩ０１〜Ｉ０９を、コンピュータに実行させるプログラムであれば良い。実施の形態２における音声特徴量抽出装置３００及び音声特徴量抽出装置方法は、このプログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、訓練部３００Ａ及び音声特徴量抽出部３００Ｂとして機能し、処理を行う。

実施の形態３におけるプログラムは、複数のコンピュータを使用して構築されたコンピュータシステムによって実行されても良い。この場合、例えば、各コンピュータは、訓練部３００Ａ及び音声特徴量抽出部３００Ｂのうちのいずれかとして機能することができる。

（物理構成）
次に、実施の形態１、実施の形態２、又は実施の形態３におけるプログラムを実行することによって、音声特徴量抽出装置を実現するコンピュータについて図１７を用いて説明する。図１７は、実施の形態１〜３における音声特徴量抽出装置を実現するコンピュータの一例を示すブロック図である。

図１７に示すように、コンピュータ１０は、ＣＰＵ（Central Processing Unit）１１と、メインメモリ１２と、記憶装置１３と、入力インターフェース１４と、表示コントローラ１５と、データリーダー／ライター１６と、通信インターフェース１７とを備えている。これらの各部は、バス２１を介して、互いにデータ通信可能に接続されている。

ＣＰＵ１１は、記憶装置１３に格納された、本実施の形態におけるプログラム（コード群）をメインメモリ１２に展開し、各コードを所定の順序で実行することにより、種々の演算を実施する。メインメモリ１２は、典型的には、ＤＲＡＭ（Dynamic Random-Access Memory）等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェース１７を介して接続されたインターネット上で流通するもであっても良い。

また、記憶装置１３の具体例としては、ハードディスクドライブに加えて、フラッシュメモリなどの半導体記憶装置が挙げられる。入力インターフェース１４は、ＣＰＵ１１と、キーボード又はマウス等の入力装置１８との間のデータ伝送を仲介する。表示コントローラ１５は、ディスプレイ装置１９と接続され、ディスプレイ装置１８での表示を制御する。

データリーダー／ライター１６は、ＣＰＵ１１と記録媒体２０との間のデータ伝送を仲介し、記録媒体２０からのプログラムを読み出し、コンピュータ１０における処理の結果の記録媒体２０への書き込みを実行する。通信インターフェース１７は、ＣＰＵ１１と、他のコンピュータとの間のデータ伝送を仲介する。

また、記録媒体２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶装置、フレキシブルディスク等の磁気記録媒体、ＣＤ−ＲＯＭ（Compact Disk Read Only Memory）等の光学記録媒体が挙げられる。

本実施形態による脈拍数推定装置１００は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、脈拍数推定装置１００は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていても良い。

上述した実施の形態の一部又は全部は、以下に記載する（付記１）〜（付記２４）によって表現することができるが、以下の記載に限定されるものではない。

（付記１）
入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、音声アクティビティ検出部と、
与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、音声アクティビティ検出処理部と、
前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出部と、
を備えている、ことを特徴とする音声特徴量抽出装置。

（付記２）
付記１に記載の音声特徴量抽出装置であって、
更に、前記音声アクティビティ検出処理部によって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、発話レベル特徴量抽出部を訓練して、発話レベル特徴量抽出器パラメータを生成する、発話レベル特徴量抽出器訓練部を備えている、
ことを特徴とする音声特徴量抽出装置。

（付記３）
付記１に記載の音声特徴量抽出装置であって、
非音声フレームを除去し、フレーム毎に音声化のための第２の事後確率を計算する、第２の音声アクティビティ検出部を備え、
前記発話レベル特徴量抽出部は、前記事後確率がフレームの除去のために利用されるにも関わらず、第２の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出装置。

（付記４）
付記２に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出器訓練部は、前記事後確率がフレームの除去のために利用されるにも関わらず、第２の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出装置。

（付記５）
付記３に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出部は、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティ検出を利用する、
ことを特徴とする音声特徴量抽出装置。

（付記６）
付記２に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出器訓練部は、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティを利用する、
ことを特徴とする音声特徴量抽出装置。

（付記７）
付記１に記載の音声特徴量抽出装置であって、
前記音声アクティビティ検出処理部は、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの１つとして定義され、
前記発話レベル特徴量抽出部は、特徴量として、ｉベクトルを抽出する、
ことを特徴とする音声特徴量抽出装置。

（付記８）
付記１に記載の音声特徴量抽出装置であって、
前記音声アクティビティ検出処理部は、単調に増加する関数を用い、
前記発話レベル特徴量抽出部は、少なくとも１つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
ことを特徴とする音声特徴量抽出装置。

（付記９）
（ａ）入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
（ｂ）与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
（ｃ）前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を有する、ことを特徴とする音声特徴量抽出方法。

（付記１０）
付記９に記載の音声特徴量抽出方法であって、
（ｄ）前記（ｂ）のステップによって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、前記（ｃ）のステップにおける前記発話レベル特徴量抽出を訓練して、発話レベル特徴量抽出器パラメータを生成する、ステップを更に有している、
ことを特徴とする音声特徴量抽出方法。

（付記１１）
付記９に記載の音声特徴量抽出方法であって、
（ｅ）非音声フレームを除去し、フレーム毎に音声化のための第２の事後確率を計算する、ステップ更に有し、
前記（ｃ）のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第２の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出方法。

（付記１２）
付記１０に記載の音声特徴量抽出方法であって、
前記（ｃ）のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第２の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出方法。

（付記１３）
付記１１に記載の音声特徴量抽出方法であって、
前記（ｃ）のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティ検出を利用する、
ことを特徴とする音声特徴量抽出方法。

（付記１４）
付記１０に記載の音声特徴量抽出方法であって、
前記（ｄ）のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティを利用する、
ことを特徴とする音声特徴量抽出方法。

（付記１５）
付記９に記載の音声特徴量抽出方法であって、
前記（ｂ）のステップにおいて、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの１つとして定義され、
前記（ｃ）のステップにおいて、特徴量として、ｉベクトルを抽出する、
ことを特徴とする音声特徴量抽出方法。

（付記１６）
付記９に記載の音声特徴量抽出方法であって、
前記（ｂ）のステップにおいて、単調に増加する関数を用い、
前記（ｃ）のステップにおいて、少なくとも１つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
ことを特徴とする音声特徴量抽出方法。

（付記１７）
コンピュータに、
（ａ）入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
（ｂ）与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
（ｃ）前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
実行させる命令を含む、プログラムを記録している、コンピュータ読み取り可能な記録媒体。

（付記１８）
付記１７に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
（ｄ）前記（ｂ）のステップによって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、前記（ｃ）のステップにおける前記発話レベル特徴量抽出を訓練して、発話レベル特徴量抽出器パラメータを生成する、ステップを実行させる命令を更に含む、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記１９）
付記１７に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
（ｅ）非音声フレームを除去し、フレーム毎に音声化のための第２の事後確率を計算する、ステップ実行させる命令を更に含み、
前記（ｃ）のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第２の事後確率の関数からの重みを利用する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２０）
付記１８に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｃ）のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第２の事後確率の関数からの重みを利用する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２１）
付記１９に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｃ）のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティ検出を利用する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２２）
付記１８に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｄ）のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティを利用する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２３）
付記１７に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの１つとして定義され、
前記（ｃ）のステップにおいて、特徴量として、ｉベクトルを抽出する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

（付記２４）
付記１７に記載のコンピュータ読み取り可能な記録媒体であって、
前記（ｂ）のステップにおいて、単調に増加する関数を用い、
前記（ｃ）のステップにおいて、少なくとも１つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

上記のように、本発明によれば、話者認識タスクにおいて発話のより正確な表現を提供することができる。本発明は、例えば、話者認証の分野において有用である。

１０コンピュータ
１１ＣＰＵ
１２メインメモリ
１３記憶装置
１４入力インターフェース
１５表示コントローラ
１６データリーダー／ライター
１７通信インターフェース
１８入力装置
１９ディスプレイ装置
２０コンピュータ読み取り可能な記録媒体
２１バス
１００音声特徴量抽出装置（実施の形態１）
１００Ａ訓練部
１００Ｂ発話レベル特徴量抽出部
１０１音声データ記憶部
１０２Ａ音響特徴量抽出部
１０２Ｂ音響特徴量抽出部
１０３ＶＡＤ部
１０３ＡＶＡＤ部
１０３ＢＶＡＤ部
１０４ＡＶＡＤ閾値記憶部
１０４ＢＶＡＤ閾値記憶部
１０５選択済音響特徴量記憶部
１０６ＶＡＤ処理部
１０６ＡＶＡＤ処理部
１０６ＢＶＡＤ事後確率部
１０７フレーム重み記憶部
１０８発話レベル特徴量抽出器訓練部
１０９発話レベル特徴量抽出器パラメータ記憶部
１１０選択済フレーム音響特徴量記憶部
１１１フレーム重み記憶部
１１２発話レベル特徴量抽出部
１１３発話レベル特徴量記憶部
２００音声特徴量抽出装置（実施の形態２）
２００Ａ訓練部
２００Ｂ発話レベル特徴量抽出部
２０１音声データ記憶部
２０２Ａ音響特徴量抽出部
２０２Ｂ音響特徴量抽出部
２０３Ａ第１のＶＡＤ部
２０３Ｂ第１のＶＡＤ部
２０４Ａ第１のＶＡＤ閾値記憶部
２０４Ｂ第１のＶＡＤ閾値記憶部
２０５選択済フレーム音響特徴量記憶部
２０６Ａ第２のＶＡＤ部
２０６Ｂ第２のＶＡＤ部
２０７ＡＶＡＤ処理部
２０７ＢＶＡＤ事後確率部
２０８フレーム重み記憶部
２０９発話レベル特徴量抽出器訓練部
２１０発話レベル特徴量抽出器パラメータ記憶部
２１１選択済フレーム音響特徴量記憶部
２１２フレーム重み記憶部
２１３発話レベル特徴量抽出部
２１４発話レベル特徴量記憶部
３００音声特徴量抽出装置（実施の形態３）
３０１音声データ記憶部
３００Ａ訓練部
３００Ｂ発話レベル特徴量抽出部
３０２Ａ音響特徴量抽出部
３０２Ｂ音響特徴量抽出部
３０３Ａ第１のＶＡＤ部
３０３Ｂ第１のＶＡＤ部
３０４Ａ第１のＶＡＤ閾値記憶部
３０４Ｂ第１のＶＡＤ閾値記憶部
３０５選択済フレーム音響特徴量記憶部
３０６Ａ第２のＶＡＤ部
３０６Ｂ第２のＶＡＤ部
３０７Ａ第２のＶＡＤ閾値記憶部
３０８ＡＶＡＤ処理部
３０８ＢＶＡＤ事後確率部
３０９フレーム重み記憶部
３１０発話レベル特徴量抽出器訓練部
３１１発話レベル特徴量抽出器パラメータ記憶部
３１２選択済フレーム音響特徴量記憶部
３１３フレーム重み記憶部
３１４発話レベル特徴量抽出部
３１５発話レベル特徴量記憶部

本発明は、音声特徴量抽出装置、音声特徴量抽出方法、及びこれらを実現するためのプログラムに関する。

本発明の目的は、上記問題を解消し、話者認識タスクにおいて発話のより正確な表現を提供し得る、音声特徴量抽出装置、音声特徴量抽出方法、及びプログラムを提供することにある。

上記目的を達成するために、本発明の一例におけるプログラムは、
コンピュータに、
（ａ）入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
（ｂ）与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
（ｃ）前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を実行させる、ことを特徴とする。

本発明の実施の形態１においては、既存のＶＡＤを用いた音声特徴量抽出装置１００について説明する。音声特徴量抽出装置１００は、訓練部１００Ａと音声特徴量抽出部１００Ｂとを備えている。但し、訓練部１００Ａと音声特徴量抽出部１００Ｂとは必ずしも一緒に用いられる必要はない音声特徴量抽出部１００Ｂは、単独で、非特許文献１及び非特許文献２に開示されている従来技術における訓練部と使用することもできる。

音声特徴量抽出部１００Ｂは、音響特徴量抽出部１０２Ｂと、ＶＡＤ部１０３Ｂと、ＶＡＤ閾値記憶部１０４Ｂと、選択済フレーム音響特徴量記憶部１１０と、ＶＡＤ処理部１０６Ｂと、フレーム重み記憶部１１１と、発話レベル特徴量抽出部１１２と、発話レベル特徴量記憶部１１３とを備えている。

ＶＡＤ閾値記憶部１０４ＡとＶＡＤ閾値記憶部１０４Ｂとは、同じ記憶部で構成することができ、これは、訓練部と音声特徴量抽出部とで同じ閾値が使用されることを意味する。なお、ＶＡＤ閾値記憶部は、訓練部１００Ａと音声特徴量抽出部１００Ｂとにおいて、異なる構成要素を有する可能性もある。

次に、音声特徴量抽出部１００Ｂにおいて、発話レベル特徴量抽出部１１２は、発話レベル特徴量抽出器パラメータ記憶部１０９に格納された抽出器パラメータを使用し、選択済フレーム音響特徴量記憶部１１０にある音響特徴量から発話レベル特徴量を、フレーム重み記憶部１１１にある、対応するフレーム重みと共に、抽出する（ステップＡ０２）。

本発明の実施の形態２では、新しいＶＡＤを用いた音声特徴量抽出装置について説明する。音声特徴量抽出装置２００は、訓練部２００Ａと音声特徴量抽出部２００Ｂとを備えている。但しは、これらは、必ずしも一緒に用いられる必要はない。音声特徴量抽出部２００Ｂは、単独で、非特許文献１及び非特許文献２に開示されている従来技術における訓練部と使用することもできる。

訓練部２００Ａにおいて、音響特徴量抽出部２０２Ａは、音声データ記憶部２０１内のデータから音響特徴ベクトルｆを抽出する。第１のＶＡＤ部２０３Ａは、第１のＶＡＤを音響特徴量に適用し、フレーム毎のＶＡＤ事後確率Ｐ_１を取得する。次に、第１のＶＡＤ部２０３Ａは、ＶＡＤ事後確率Ｐ_１と、ＶＡＤ閾値記憶部２０４Ａに格納された所定の第１のＶＡＤ閾値ＴＨＥＴＡと比較し、ＶＡＤ事後確率が閾値よりも小さい（Ｐ_１＜ＴＨＥＴＡ）フレームを除去する。そして、残りのフレーム｛ｆ_ｉ｜Ｐ_ｉ≧ＴＨＥＴＡ｝の音響特徴量は、選択済フレーム音響特徴量記憶部２０５に格納される。

次に、音声特徴量抽出部２００Ｂにおいて、発話レベル特徴量抽出部２１３は、発話レベル特徴量抽出器パラメータ記憶部２１０に格納された抽出器パラメータを使用し、選択済フレーム音響特徴量記憶部２１１における音響特徴量から、フレーム重み２１２における対応するフレーム重みと一緒に、発話レベル特徴量を抽出する（ステップＤ０２）。

［プログラム］
実施の形態２におけるプログラムは、図１０に示すステップＤ０１〜Ｄ０２、図１１に示すステップＥ０１〜Ｅ０８、及び図１２に示すステップＦ０１〜Ｆ０８をコンピュータに実行させるためのプログラムであれば良い。実施の形態２における音声特徴量抽出装置２００及び音声特徴量抽出方法は、このプログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、訓練部２００Ａ及び音声特徴量抽出部２００Ｂとして機能し、処理を行う。

本発明の実施の形態３においては、重み付けられたプーリングとフレーム除去との両方に新しいＶＡＤを使用する、音声特徴量抽出装置について説明する。音声特徴量抽出装置３００は、訓練部３００Ａと音声特徴量抽出部３００Ｂとを備えている。但しは、これらは、必ずしも一緒に用いられる必要はない。音声特徴量抽出部３００Ｂは、単独で、非特許文献１及び非特許文献２に開示されている従来技術における訓練部と使用することもできる。

ＶＡＤ処理部３０８Ａは、第２のＶＡＤ事後確率Ｐ_２のセットを関数に入力し、各フレームｗ＝Ｆ（Ｐ_２）の重みを取得し、取得した重みをフレーム重み記憶部３０９に格納する。発話レベル特徴量抽出器訓練部３１０は、選択済フレーム音響特徴量記憶部３０５から選択されたフレームの音響特徴量を読み出し、フレーム重み記憶部３０９から対応する重みを読み出し、そして、発話レベル特徴量抽出器を訓練し、その後、抽出器パラメータを、発話レベル特徴量抽出器パラメータ記憶部３１１に格納する。

２つの選択の後、残ったフレームは、選択済フレーム音響特徴量記憶部３１２に格納される。ＶＡＤ処理部３０８Ｂは、第２のＶＡＤ事後確率を関数に入力し、各フレームの重みを取得し、そして、それらをフレーム重み記憶部３１３に格納する。
発話レベル特徴量抽出部３１４は、選択済フレーム音響特徴量記憶部３１２から、選択されたフレームの音響特徴量を読み出し、フレーム重み記憶部３１３から、対応する重みを読み出し、更に、発話レベル特徴量抽出器パラメータ記憶部３１１から、抽出器パラメータを読み出す。発話レベル特徴量抽出部３１４は、入力された発話のための１つの特徴ベクトルを抽出すると、それを、発話レベル特徴量記憶部３１５に格納する。

次に、音声特徴量抽出部３００Ｂにおいて、発話レベル特徴量抽出部３１４は、発話レベル特徴量抽出器パラメータ記憶部３１１に格納された抽出器パラメータを使用し、選択済フレーム音響特徴量記憶部３１２における音響特徴量から、フレーム重み記憶部３１３における対応するフレーム重みと一緒に、発話レベル特徴量を抽出する。（ステップＧ０２）。

［プログラム］
実施の形態３におけるプログラムは、図１４に示すステップＧ０１〜Ｇ０２、図１５に示すステップＨ０１〜Ｈ０９、及び図１６に示すステップＩ０１〜Ｉ０９を、コンピュータに実行させるプログラムであれば良い。実施の形態３における音声特徴量抽出装置３００及び音声特徴量抽出装置方法は、このプログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、訓練部３００Ａ及び音声特徴量抽出部３００Ｂとして機能し、処理を行う。

また、記憶装置１３の具体例としては、ハードディスクドライブに加えて、フラッシュメモリなどの半導体記憶装置が挙げられる。入力インターフェース１４は、ＣＰＵ１１と、キーボード又はマウス等の入力装置１８との間のデータ伝送を仲介する。表示コントローラ１５は、ディスプレイ装置１９と接続され、ディスプレイ装置１９での表示を制御する。

本実施形態による音声特徴量抽出装置は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、音声特徴量抽出装置は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていても良い。

（付記１７）
コンピュータに、
（ａ）入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
（ｂ）与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
（ｃ）前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
実行させる、プログラム。

（付記１８）
付記１７に記載のプログラムであって、
前記コンピュータに、
（ｄ）前記（ｂ）のステップによって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、前記（ｃ）のステップにおける前記発話レベル特徴量抽出を訓練して、発話レベル特徴量抽出器パラメータを生成する、ステップを更に実行させる、
ことを特徴とするプログラム。

（付記１９）
付記１７に記載のプログラムであって、
前記コンピュータに、
（ｅ）非音声フレームを除去し、フレーム毎に音声化のための第２の事後確率を計算する、ステップを更に実行させ、
前記（ｃ）のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第２の事後確率の関数からの重みを利用する、
ことを特徴とするプログラム。

（付記２０）
付記１８に記載のプログラムであって、
前記（ｃ）のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第２の事後確率の関数からの重みを利用する、
ことを特徴とするプログラム。

（付記２１）
付記１９に記載のプログラムであって、
前記（ｃ）のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティ検出を利用する、
ことを特徴とするプログラム。

（付記２２）
付記１８に記載のプログラムであって、
前記（ｄ）のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティを利用する、
ことを特徴とするプログラム。

（付記２３）
付記１７に記載のプログラムであって、
前記（ｂ）のステップにおいて、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの１つとして定義され、
前記（ｃ）のステップにおいて、特徴量として、ｉベクトルを抽出する、
ことを特徴とするプログラム。

（付記２４）
付記１７に記載のプログラムであって、
前記（ｂ）のステップにおいて、単調に増加する関数を用い、
前記（ｃ）のステップにおいて、少なくとも１つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
ことを特徴とするプログラム。

１０コンピュータ
１１ＣＰＵ
１２メインメモリ
１３記憶装置
１４入力インターフェース
１５表示コントローラ
１６データリーダー／ライター
１７通信インターフェース
１８入力装置
１９ディスプレイ装置
２０コンピュータ読み取り可能な記録媒体
２１バス
１００音声特徴量抽出装置（実施の形態１）
１００Ａ訓練部
１００Ｂ音声特徴量抽出部
１０１音声データ記憶部
１０２Ａ音響特徴量抽出部
１０２Ｂ音響特徴量抽出部
１０３ＶＡＤ部
１０３ＡＶＡＤ部
１０３ＢＶＡＤ部
１０４ＡＶＡＤ閾値記憶部
１０４ＢＶＡＤ閾値記憶部
１０５選択済音響特徴量記憶部
１０６ＶＡＤ処理部
１０６ＡＶＡＤ処理部
１０６ＢＶＡＤ処理部
１０７フレーム重み記憶部
１０８発話レベル特徴量抽出器訓練部
１０９発話レベル特徴量抽出器パラメータ記憶部
１１０選択済フレーム音響特徴量記憶部
１１１フレーム重み記憶部
１１２発話レベル特徴量抽出部
１１３発話レベル特徴量記憶部
２００音声特徴量抽出装置（実施の形態２）
２００Ａ訓練部
２００Ｂ音声特徴量抽出部
２０１音声データ記憶部
２０２Ａ音響特徴量抽出部
２０２Ｂ音響特徴量抽出部
２０３Ａ第１のＶＡＤ部
２０３Ｂ第１のＶＡＤ部
２０４Ａ第１のＶＡＤ閾値記憶部
２０４Ｂ第１のＶＡＤ閾値記憶部
２０５選択済フレーム音響特徴量記憶部
２０６Ａ第２のＶＡＤ部
２０６Ｂ第２のＶＡＤ部
２０７ＡＶＡＤ処理部
２０７ＢＶＡＤ処理部
２０８フレーム重み記憶部
２０９発話レベル特徴量抽出器訓練部
２１０発話レベル特徴量抽出器パラメータ記憶部
２１１選択済フレーム音響特徴量記憶部
２１２フレーム重み記憶部
２１３発話レベル特徴量抽出部
２１４発話レベル特徴量記憶部
３００音声特徴量抽出装置（実施の形態３）
３０１音声データ記憶部
３００Ａ訓練部
３００Ｂ音声特徴量抽出部
３０２Ａ音響特徴量抽出部
３０２Ｂ音響特徴量抽出部
３０３Ａ第１のＶＡＤ部
３０３Ｂ第１のＶＡＤ部
３０４Ａ第１のＶＡＤ閾値記憶部
３０４Ｂ第１のＶＡＤ閾値記憶部
３０５選択済フレーム音響特徴量記憶部
３０６Ａ第２のＶＡＤ部
３０６Ｂ第２のＶＡＤ部
３０７Ａ第２のＶＡＤ閾値記憶部
３０８ＡＶＡＤ処理部
３０８ＢＶＡＤ処理部
３０９フレーム重み記憶部
３１０発話レベル特徴量抽出器訓練部
３１１発話レベル特徴量抽出器パラメータ記憶部
３１２選択済フレーム音響特徴量記憶部
３１３フレーム重み記憶部
３１４発話レベル特徴量抽出部
３１５発話レベル特徴量記憶部

Claims

入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、音声アクティビティ検出手段と、
与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、音声アクティビティ検出処理手段と、
前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出手段と、
を備えている、ことを特徴とする音声特徴量抽出装置。
請求項１に記載の音声特徴量抽出装置であって、
更に、前記音声アクティビティ検出処理手段によって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、発話レベル特徴量抽出手段を訓練して、発話レベル特徴量抽出器パラメータを生成する、発話レベル特徴量抽出器訓練手段を備えている、
ことを特徴とする音声特徴量抽出装置。
請求項１に記載の音声特徴量抽出装置であって、
非音声フレームを除去し、フレーム毎に音声化のための第２の事後確率を計算する、第２の音声アクティビティ検出手段を備え、
前記発話レベル特徴量抽出手段は、前記事後確率がフレームの除去のために利用されるにも関わらず、第２の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出装置。
請求項２に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出器訓練手段は、前記事後確率がフレームの除去のために利用されるにも関わらず、第２の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出装置。
請求項３に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出手段は、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティ検出を利用する、
ことを特徴とする音声特徴量抽出装置。
請求項２に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出器訓練手段は、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティを利用する、
ことを特徴とする音声特徴量抽出装置。
請求項１に記載の音声特徴量抽出装置であって、
前記音声アクティビティ検出処理手段は、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの１つとして定義され、
前記発話レベル特徴量抽出手段は、特徴量として、ｉベクトルを抽出する、
ことを特徴とする音声特徴量抽出装置。
請求項１に記載の音声特徴量抽出装置であって、
前記音声アクティビティ検出処理手段は、単調に増加する関数を用い、
前記発話レベル特徴量抽出手段は、少なくとも１つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
ことを特徴とする音声特徴量抽出装置。
（ａ）入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
（ｂ）与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
（ｃ）前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を有する、ことを特徴とする音声特徴量抽出方法。
コンピュータに、
（ａ）入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
（ｂ）与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
（ｃ）前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。