JP2021526669A - 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム - Google Patents

音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム Download PDF

Info

Publication number
JP2021526669A
JP2021526669A JP2020568354A JP2020568354A JP2021526669A JP 2021526669 A JP2021526669 A JP 2021526669A JP 2020568354 A JP2020568354 A JP 2020568354A JP 2020568354 A JP2020568354 A JP 2020568354A JP 2021526669 A JP2021526669 A JP 2021526669A
Authority
JP
Japan
Prior art keywords
voice
feature amount
frame
vad
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020568354A
Other languages
English (en)
Other versions
JPWO2020003534A5 (ja
JP7095756B2 (ja
Inventor
瓊瓊 王
瓊瓊 王
岡部 浩司
浩司 岡部
功益 李
功益 李
孝文 越仲
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2021526669A publication Critical patent/JP2021526669A/ja
Publication of JPWO2020003534A5 publication Critical patent/JPWO2020003534A5/ja
Application granted granted Critical
Publication of JP7095756B2 publication Critical patent/JP7095756B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

音声特徴量抽出装置100は、入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、音声アクティビティ検出部103と、与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、音声アクティビティ検出処理部106と、関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出部112とを備えている。【選択図】図1

Description

本発明は、音声特徴量抽出装置、音声特徴量抽出方法、及びこれらを実現するためのプログラムを記憶するコンピュータ読み取り可読な記録媒体に関する。
話者認識では、システムには、フレームの数は固定ではないが、生の特徴量(音響特徴量)が連続して入力される。これらはフレームレベルであるが、システムは、話者認証においては、予想される、話者識別における話者ID、又はターゲット/非ターゲット(同じ話者/異なる話者)の別を出力する。
出力された話者IDとターゲット/非ターゲットの別との両方は、発話レベルである。フレームレベルの入力からこのような発話レベルの出力を生成するには、話者認識システムのどこかで、すべての有効なフレームにわたるプーリング(合計)プロセスが必要である。均等に重み付けされたプーリングは、通常、このような目的のために利用される。
例えば、非特許文献1及び2は、話者認証システムを開示している。図18は、非特許文献2における話者認証システムのブロック図を示している。
N. Dehak, P. Kenny, R. Dehak, P. Dumouchel, and P. Ouellet, "Front-end factor analysis for speaker verification," IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, pp. 788-798, 2011 David Snyder, Daniel Garcia-Romero, Daniel Povey, and Sanjeev Khudanpur, "Deep Neural Network Embeddings for Text-Independent Speaker Verification", in Proceedings of Interspeech, 2017
話者認識においては、非特許文献1に開示されている標準のiベクトルベースの方法、又は非特許文献2に開示されている最近人気のあるDNNベースの話者埋め込み方法は問題とされていない。フレームレベルの音響特徴量の情報から、発話レベルの話者認識結果を出力として取得するために、均等に重み付けされたプーリングが使用されている。
非特許文献1のiベクトルベースの方法では、Lフレームの特徴シーケンス{y,y,...,y}の発話が与えられると、数1及び数2に従って、発話レベルの特徴量xが抽出される。数1において、Mは、スーパーベクトルMを表している。スーパーベクトルMは、すべてのMを連結することによって生成される。数2において、cはGMM−UBMのガウス成分のインデックスである。全てのフレームは、全てのフレームにおいて合計する方法によって等しく扱われる。
Figure 2021526669
Figure 2021526669
非特許文献2に開示されているDNNベースの方法では、実際には幾つかのフレームは、他のフレームよりも多くの話者情報を有しているにも関わらず、平均的なプーリング層は全てのフレームに等しい重要性を与える。その結果、埋め込みによる方法では、話者の正確な表現とならないため、バックエンドでどのようなモデルが使用されていても、話者認識のパフォーマンスが低下する。
本発明の目的は、上記問題を解消し、話者認識タスクにおいて発話のより正確な表現を提供し得る、音声特徴量抽出装置、音声特徴量抽出方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
上記目的を達成するために、本発明の一例における音声特徴量抽出装置は、
入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、音声アクティビティ検出部と、
与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、音声アクティビティ検出処理部と、
前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出部と、
を備えている、ことを特徴とする。
上記目的を達成するために、本発明の一例における音声特徴量抽出方法は、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
(b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を有する、ことを特徴とする。
上記目的を達成するために、本発明の一例におけるコンピュータ読み取り可能な記録媒体は、
コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
(b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を実行させる命令を含む、プログラムを記録している、ことを特徴とする。
以上のように、本発明によれば、話者認識タスクにおいて発話のより正確な表現を提供することができる。
図面は、詳細な説明とともに、本発明の適応手法についての原理を説明するために有用である。図面は説明のためのものであり、技術の適用を制限するものではない。
図1は、本発明の実施の形態1における音声特徴量抽出装置の構成を概略的に示すブロック図である 図2は、本発明の実施の形態1における音声特徴量抽出装置の構成を具体的に示すブロック図である。 図3は、NNベースの話者埋め込み構造のためのNN構造の例を示す図である。 図4は、NNベースの話者埋め込み抽出の場合における、実施の形態1での、発話レベル特徴量抽出部、発話レベル特徴量抽出器パラメータ記憶部、及び発話レベル特徴量記憶部、それぞれの内容の例を示す。 図5は、iベクトルの抽出の場合における、実施の形態1での、発話レベル特徴量抽出部、発話レベル特徴量抽出器パラメータ記憶部、及び発話レベル特徴量記憶部、それぞれの内容の例を示す。 図6は、本発明の実施の形態1における音声特徴量抽出装置の動作を示すフロー図である。 図7は、実施の形態1における訓練部の具体的な動作を示すフロー図である。 図8は、実施の形態1における音声特徴量抽出部の具体的な動作を示すフロー図である。 図9は、本発明の実施の形態2における音声特徴量抽出装置の具体的構成を示すブロック図である。 図10は、本発明の実施の形態2における音声特徴量抽出装置の具体的な動作を示すフロー図である。 図11は、実施の形態2における訓練部の具体的な動作を示すフロー図である。 図12は、実施の形態2における音声特徴抽出部の具体的な動作を示すフロー図である。 図13は、本発明の実施の形態3における音声特徴量抽出装置の具体的構成を示すブロック図である。 図14は、本発明の実施の形態3における音声特徴量抽出装置の具体的な動作を示すフロー図である。 図15は、実施の形態3における訓練部の具体的な動作を示すフロー図である。 図16は、実施の形態3における音声特徴量抽出部の具体的な動作を示すフロー図である。 図17は、本発明の実施の形態1から3における音声特徴量抽出装置を実現するコンピュータの一例を示すブロック図である。 図18は、非特許文献2における話者認証システムのブロック図を示している。 当業者は、図における要素が、単純、且つ、明快に示されており、必ずしも一定の縮尺で描かれていないことを理解するであろう。例えば、集積回路アーキテクチャを示す図における幾つかの要素の寸法は、他の要素と比較して誇張され、本実施の形態及び代わりの実施の形態の理解に役立つ。
(発明の原理)
本発明は、フレームレベルから発話レベルまで、プーリングの特徴量において、フレーム毎の音声アクティビティ検出(VAD)の事後確率の機能を使用して、重みを与える。VADの事後確率が高いフレームは、無音またはノイズである可能性が高いVADの事後確率が低いフレームよりも、通常、多くの話者情報を有している。従って、VADの事後確率が高いフレームに対して、より多くの重みが与えられると、話者認識タスクにより適した発話の最終的な表現が得られることになる。
(実施の形態)
以下に、図を用いて、本発明における各実施の形態について説明する。以下の詳細な説明は、本質的に単なる例示であり、本発明自体、又は本発明の用途と使用とを限定するものではない。更に、本発明は、上述の背景技術又は以下の詳細な説明に提示された理論によって制限されることはない。
(実施の形態1)
実施の形態1における音声特徴量抽出装置は、VADの事後確率を利用して、音声といったフレームに大きな重みを与える。VADの事後確率は、従来から、話者認識を含む殆どの音声処理システムにおいて、フレームの選択に利用されている。音声特徴量抽出装置は、既存のVADを用いて、より適切な発話レベルの特徴量を抽出することができる。
以下、図1〜図7を用いて、本発明の実施の形態1における音声特徴量抽出装置、音声特徴量抽出方法、及びプログラムについて説明する。
[装置構成]
最初に、図1を用いて、実施の形態1における音声特徴量抽出装置100の概略構成を説明する。図1は、本発明の実施の形態1における音声特徴量抽出装置の構成を概略的に示すブロック図である。
図1に示すように、音声特徴量抽出装置100は、音声アクティビティ検出(VAD)部103と、音声アクティビティ検出(VAD)処理部106と、発話レベル特徴量抽出部112とを備えている。
VAD部103は、入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する。VAD処理部106は、与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリンググフレーム内の重みとして関数値を計算する。発話レベル特徴量抽出部112は、関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する。
音声特徴量抽出装置100によれば、話者認識タスクにおいて発話のより正確な表現を提供することができる。
続いて、図2〜図4を用いて、実施の形態1における音声特徴量抽出装置の構成について詳細に説明する。図2は、本発明の実施の形態1における音声特徴量抽出装置の具体的構成を示すブロック図である。
本発明の実施の形態1においては、既存のVADを用いた音声特徴量抽出装置100について説明する。音声特徴量抽出装置100は、訓練部100Aと発話レベル特徴量抽出部100Bとを備えている。但し、訓練部100Aと発話レベル特徴量抽出部100Bとは必ずしも一緒に用いられる必要はない。発話レベル特徴量抽出部100Bは、単独で、非特許文献1及び非特許文献2に開示されている従来技術における訓練部と使用することもできる。
図2に示すように、訓練部100Aは、音声データ記憶部101と、音響特徴量抽出部102Aと、VAD部103Aと、VAD閾値記憶部104Aと、選択済音響特徴量記憶部105と、VAD処理部106Aと、フレーム重み記憶部107と、発話レベル特徴量抽出器訓練部108と、発話レベル特徴量抽出器パラメータ記憶部109とを備えている。
音声特徴量抽出部100Bは、音響特徴量抽出部102Bと、VAD部103Bと、VAD閾値記憶部104Bと、選択済フレーム音響特徴量記憶部110と、VAD事後確率部106Bと、フレーム重み記憶部111と、発話レベル特徴量抽出部112と、発話レベル特徴量記憶部113とを備えている。
音響特徴量抽出部102Aと音響特徴量抽出部102Bとは、同じ機能を有している。VAD部103AとVAD部103Bも、同じ機能を有している。VAD部103AとVAD部103Bとは、図1のVAD部103について述べたように機能する。VAD処理部106A及びVAD処理部106Bは、同じ機能を有している。VAD処理部106A及びVAD処理部106Bは、上述のVAD処理部106として機能する。
VAD閾値記憶部104AとVAD閾値記憶部104Bとは、同じ記憶部で構成することができ、これは、訓練部と音声特徴量抽出部とで同じ閾値が使用されることを意味する。なお、VAD閾値記憶部は、訓練部100Aと発話レベル特徴量抽出部100Bとにおいて、異なる構成要素を有する可能性もある。
音響特徴量抽出部102は、音声データ記憶部101内のデータから音響特徴ベクトルfを抽出する。VAD部103Aは、VADを音響特徴量に適用し、フレーム毎のVAD事後確率Pを取得する。
VAD部103Aは、VAD事後確率と、VAD閾値記憶部104Aに格納された所定のVAD閾値THETAとを比較し、VAD事後確率が閾値よりも小さい(P<THETA)フレームを除去する。そして、VAD部103Aは、残りのフレーム{f|P≧THETA}の音響特徴量を選択済音響特徴量記憶部105に格納する。
VAD処理部106Aは、VAD事後確率Pを関数に入力して、各フレームw=F(P)の重みを取得する。次いで、VAD処理部106Aは、それらをフレーム重み記憶部107に格納する。
発話レベル特徴量抽出器訓練部108は、選択済音響特徴量記憶部105から選択されたフレームの音響特徴量を読み出し、更に、フレーム重み記憶部107から対応する重みを読み出し、発話レベル特徴量抽出器を訓練し、最後に、抽出器を発話レベル特徴量抽出器パラメータ記憶部109に格納する。
音声特徴量抽出部において、音響特徴量抽出部102Bは、入力音声データから音響特徴ベクトルを抽出する。VAD部103Bは、VADを音響特徴ベクトルに適用し、各フレームのVAD事後確率を取得する。VAD部103Bは、VAD事後確率と、VAD閾値記憶部104Bに格納された所定のVAD閾値とを比較し、VAD事後確率が閾値よりも小さいフレームを除去する。
残りのフレームの音響特徴量は、選択済フレーム音響特徴量記憶部110に格納される。VAD処理部106Bは、VAD事後確率を関数F(P)に入力して、重みを取得し、それらをフレーム重み記憶部111に格納する。
発話レベル特徴量抽出部112は、選択済フレーム音響特徴量記憶部110から、選択されたフレームの音響特徴量を読み出し、更に、フレーム重み記憶部111から対応する重みを読み出し、そして、発話レベル特徴量抽出器パラメータ記憶部109から抽出器パラメータを読み出す。発話レベル特徴量抽出部112は、入力された発話のための1つの特徴ベクトルを抽出し、それを発話レベル特徴量記憶部113に格納する。
NN(ニューラルネットワーク)ベースの話者埋め込みの一例では、NNは、少なくとも1つの入力層と、1つの出力層と、複数の隠れ層とを有する。NN構造図(図3)に示すように、隠れ層は、フレームレベルのプロセス層と、プーリング層と、発話レベルのプロセス層とを有する。そのようなNNベースの話者埋め込み抽出器を訓練するために、発話レベル特徴量抽出器訓練部108は、音響特徴量を、選択済音響特徴量記憶部105から取得し、フレーム重み記憶部107から対応するフレーム重みを取得する。
発話レベル特徴量抽出器訓練部108はまた、話者IDをNNの出力層に渡す。次に、発話レベル特徴量抽出器訓練部108はNNを訓練し、隠れ層のパラメータを取得し、それらを、発話レベル特徴量抽出器パラメータ記憶部109に格納する(図4)。従って、NNベースの話者埋め込みの場合、選択されたフレームの音響特徴量が、選択済音響特徴量記憶部105に格納されることに加えて、話者IDも音声データ記憶部101から音響特徴量と共に運ばれる。
発話レベル特徴量抽出器パラメータ記憶部109は、NNパラメータ(図4)を格納する。NNパラメータは、少なくともフレームレベルのプロセス層パラメータと、プーリング層パラメータと、発話レベルのプロセス層パラメータとを含む。音声特徴量抽出部100Bにおいて、入力層は、選択済フレーム音響特徴量記憶部110に格納された音響特徴量と、フレーム重み記憶部111からのフレーム重みとであり、出力層は除去されている。隠れ層は、発話レベル特徴量抽出器パラメータ記憶部109で構成される。NNは、入力を前方に渡す。発話レベルのプロセス層の出力の1つが話者の埋め込み(発話レベルの特徴量)として使用される。
iベクトルの例では、発話レベル特徴量抽出器訓練部108において、話者IDは必要ではない。発話レベル特徴量抽出器訓練部108は、射影行列(T行列)を訓練し、それを、発話レベル特徴量抽出器パラメータ記憶部109に格納する(図5)。発話レベル特徴抽出部において、発話レベル特徴量抽出部112は、フレーム重み記憶部111からフレーム重みが与えられると、発話レベル特徴量抽出器パラメータ記憶部109に記憶されたT行列を使用して、選択済フレーム音響特徴量記憶部110内の音響特徴量からiベクトルを抽出する。
VAD処理部106A及び106Bにおいて関数は、VAD事後確率によって単調に増加し、音声である可能性が高いフレームほど、プーリングにおいて、より多くの重みが与えられるようにする。この関数は、1つの発話において選択された全てのフレームについて数3を満足する。この関数は、幅広い選択肢を有している。最も簡単な例は数4である。数4においては、フレームの重みは、VAD事後確率に対して線形である。
Figure 2021526669
Figure 2021526669
数5といった、パラメータを含む関数の選択が可能である。αが大きいほど、VAD により多くの信頼度が与えられることになる。オッズ、対数オッズなど、他にも多くの選択肢がある。
Figure 2021526669
[装置動作]
次に、図6〜図8を用いて、本発明の実施の形態1における音声特徴量抽出装置100による動作について説明する。以下の説明では、必要に応じて、図1〜図5が参照される。また、実施の形態1においては、音声特徴抽出装置を動作させることによって、音声特徴量抽出方法が実行される。従って、以下においては、音声特徴量抽出装置100によって実行される動作の説明を、実施の形態1における音声特徴量抽出方法の説明に代える。
図6を用いて、音声特徴量抽出装置100の全体の動作について説明する。図6は、本発明の実施の形態1における音声特徴量抽出装置の動作を示すフロー図である。図6は、訓練部100A及び音声特徴量抽出部100Bの処理を含む。但し、これは一例であり、訓練及び特徴量の抽出の処理は、連続して実行されても良いし、時間間隔を挿入して実行されても良いし、例えば、非特許文献1及び非特許文献2に開示されているように、特徴量の再抽出の処理が他の訓練の処理と一緒に行われても良い。
最初に、図6に示すように、訓練部100Aにおいて、発話レベル特徴量抽出器訓練部108は、発話レベル特徴量抽出器を訓練し、そのパラメータを、発話レベル特徴量抽出器パラメータ記憶部109に格納する(ステップA01)。NNベースの話者埋め込みの場合、NNパラメータが格納される。また、iベクトルの場合、T行列が格納される。
次に、発話レベル特徴量抽出部100Bにおいて、発話レベル特徴量抽出部112は、発話レベル特徴量抽出器パラメータ記憶部109に格納された抽出器パラメータを使用し、選択済フレーム音響特徴量記憶部110にある音響特徴量から発話レベル特徴量を、フレーム重み記憶部111にある、対応するフレーム重みと共に、抽出する(ステップA02)。
図7は、実施の形態1における、音声特徴量抽出器についての訓練部の具体的な動作を示すフロー図である。最初に、音響特徴量抽出部102Aは、音声データ記憶部101から音声データを読み出す(ステップB01)。次に、音響特徴量抽出部102Aは、フレームレベルの音響特徴量を抽出する(ステップB02)。
次に、VAD部103Aは、VADを適用し、全てのフレームの事後確率を取得する(ステップB03)。次に、VAD部103Aは、事後確率と所定の閾値とを比較し、事後確率が閾値よりも小さいフレームを除去する(ステップB04)。
次に、VAD処理部106Aは、VAD事後確率を関数F(P)に入力し、得られた値をフレーム重みとして格納する(ステップB05)。次に、発話レベル特徴量抽出器訓練部108は、発話レベル特徴量抽出器を訓練する(ステップB06)。最後に、発話レベル特徴量抽出器訓練部108は、抽出器パラメータを、発話レベル特徴量抽出器パラメータ記憶部109に格納する(ステップB07)。
図8は、実施の形態1における、フレームを除去するために上記と同じVAD事後確率を使用する、音声特徴量抽出部の具体的な動作を示すフロー図である。最初に、音響特徴量抽出部102Bは、入力音声データを読み出す(ステップC01)。次に、音響特徴量抽出部102Bは、フレームレベルで音響特徴量を抽出する(ステップC02)。
次に、VAD部103Bは、VADを適用し、すべてのフレームの事後確率を取得する(ステップC03)。次に、VAD部103Bは、事後確率を所定の閾値と比較し、事後確率が閾値よりも小さいフレームを除去する(ステップC04)。
次に、VAD処理部106Bは、VAD事後確率を関数F(P)に入力し、得られた値をフレーム重みとして格納する(ステップC05)。次に、発話レベル特徴量抽出部112は、発話レベル特徴量抽出器パラメータ記憶部109に格納されている発話レベル特徴量抽出器パラメータを読み出す(ステップC06)。その後、発話レベル特徴量抽出部112は、発話レベルの特徴量を抽出する(ステップC07)。
[実施の形態1における効果]
実施の形態1によれば、フレームレベルを発話レベルに変換するプロセスにおいて、重み付けされたプーリングを使用でき、より適切な発話レベルの特徴量を抽出することができる。更に、実施の形態1では、VAD事後確率の関数は重みとして使用される。VAD事後確率は、既に一般的に、殆どの音声処理システムにおいて使用されている。この音声処理システムは、非音声である可能性が高いフレームを除去する話者認識を含んでいる。このため、実施の形態1によれば、特別な情報を必要とすることなく、発話の特徴量を改善することができる。
[プログラム]
実施の形態1におけるプログラムは、図6に示すステップA01〜A02、図7に示すステップB01〜B07、及び図8に示すステップC01〜C07をコンピュータに実行させるためのプログラムであれば良い。実施の形態1における音声特徴量抽出装置100及び音声特徴量抽出方法は、このプログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、訓練部100A及び音声特徴量抽出部100Bとして機能し、処理を行う。
実施の形態1におけるプログラムは、複数のコンピュータを用いて構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、訓練部100A及び音声特徴量抽出部100Bのうちのいずれかとして機能することができる。
(実施の形態2)
実施の形態1は、重み付けされたプーリングとフレーム除去において、同じ事後確率が使用されている。しかし、話者認識におけるフレームの除去でよく使用されるVADは、エネルギーベースの手法を用いており、大きなバックグラウンドノイズや、様々なノイズの多い状態に対して脆弱である。このため、VAD事後確率は、プーリングにおいてフレームの重み付けに使用できるほど正確ではない。実施の形態2においては、異なるVAD、例えば、様々な条件下でより正確であるNNベースのVADが使用されて、プーリングにおけるフレームの重み付けのための事後確率が取得される。
[装置構成]
最初に、図9を用いて、実施の形態2における音声特徴量抽出装置200の概略構成について説明する。図9は、本発明の実施の形態2における音声特徴量抽出装置の具体的構成を示すブロック図である。
本発明の実施の形態2では、新しいVADを用いた音声特徴量抽出装置について説明する。音声特徴量抽出装置200は、訓練部200Aと発話レベル特徴量抽出部200Bとを備えている。但しは、これらは、必ずしも一緒に用いられる必要はない。発話レベル特徴量抽出部200Bは、単独で、非特許文献1及び非特許文献2に開示されている従来技術における訓練部と使用することもできる。
図9に示すように、実施の形態2における音声特徴量抽出装置200において、訓練部200Aは、音声データ記憶部201と、音響特徴量抽出部202Aと、第1のVAD部203Aと、第1のVAD閾値記憶部204Aと、選択済フレーム音響特徴量記憶部205と、第2のVAD部206Aと、VAD処理部207Aと、フレーム重み記憶部208と、発話レベル特徴量抽出器訓練部209と、発話レベル特徴量抽出器パラメータ記憶部210とを備えている。
音声特徴量抽出部200Bは、音響特徴量抽出部202Bと、第1のVAD部203Bと、第1のVAD閾値記憶部204Bと、選択済フレーム音響特徴量記憶部211と、第2のVAD部206Bと、VAD処理部207Bと、フレーム重み記憶部212と、発話レベル特徴量抽出部213と、発話レベル特徴量記憶部214とを備えている。
音響特徴量抽出部202Aと音響特徴量抽出部202Bとは、同じ機能を有している。第1のVAD部203Aと第1のVAD部203Bも、同じ機能を有している。第2のVAD部206Aと第2のVAD部206Bも、同じ機能を有している。VAD処理部207AとVAD処理部207Bも、同じ機能を有している。第1のVAD閾値記憶部204Aと第1のVAD閾値記憶部204Bとは、同じ記憶部で構成することができ、これは、訓練部と音声特徴量抽出部とで同じ閾値が使用されることを意味する。なお、VAD閾値記憶部は、訓練部と発話レベル特徴量抽出部とにおいて、異なる構成要素を有する可能性もある。
訓練部200Aにおいて、音響特徴量部201は、音声データ記憶部201内のデータから音響特徴ベクトルfを抽出する。第1のVAD部203Aは、第1のVADを音響特徴量に適用し、フレーム毎のVAD事後確率Pを取得する。次に、第1のVAD部203Aは、VAD事後確率Pと、VAD閾値記憶部204Aに格納された所定の第1のVAD閾値THETAと比較し、VAD事後確率が閾値よりも小さい(P<THETA)フレームを除去する。そして、残りのフレーム{f|P≧THETA}の音響特徴量は、選択済フレーム音響特徴量記憶部205に格納される。
第2のVAD部206Aは、第2のVADを音響特徴量に適用し、第2のVAD事後確率Pのセットを取得する。VAD処理部207Aは、第2のVAD事後確率Pのセットを関数に入力して、各フレームw=F(P2)の重みを取得し、それらをフレーム重み記憶部208に格納する。
発話レベル特徴量抽出器訓練部209は、選択済フレーム音響特徴量記憶部205から、選択されたフレームの音響特徴を読み出し、次に、フレーム重み記憶部208から、対応する重みを読み出し、更に、発話レベル特徴量抽出器を訓練し、その後、抽出器パラメータを、発話レベル特徴量抽出器パラメータ記憶部210に格納する。
音声特徴量抽出部200Bにおいて、音響特徴量抽出部202Bは、入力音声データから音響特徴ベクトルを抽出する。第1のVAD部203Bは、第1のVADを音響特徴ベクトルに適用して、フレーム毎にVAD事後確率を取得する。
第1のVAD閾値記憶部204Bに格納された所定のVAD閾値と比較し、VAD事後確率が閾値よりも小さいフレームは除去され、残りのフレームの音響特徴量が、選択済フレーム音響特徴量記憶部211に格納される。
第2のVAD部206Bは、第2のVADを音響特徴ベクトルに適用し、各フレームについて別のVAD事後確率を取得する。VAD処理部207Bは、第2のVAD事後確率を関数に入力して、フレームの重みを取得し、それらをフレーム重み記憶部212に格納する。
発話レベル特徴量抽出部213は、選択済フレーム音響特徴量記憶部211から、選択されたフレームの音響特徴量を読み出し、フレーム重み記憶部212から、対応する重みを読み出し、更に、発話レベル特徴量抽出器パラメータ記憶部210から、パラメータを抽出する。発話レベル特徴量抽出部213は、入力された発話毎に、1つの特徴ベクトルを抽出し、それを、発話レベル特徴量抽出器パラメータ記憶部210に格納する。
実施の形態2は、実施の形態1と同様に、NNベースの話者埋め込みの場合とiベクトルの場合とに適用することができる(実施の形態1参照)。
VAD処理部207A及びVAD処理部208Bにおいて、関数は、VAD事後確率によって単調に増加し、フレームが音声である可能性が高くなると、プーリングにおいてより多くの重みが与えられるようにする。加えて、1つの発話が選択されたフレーム全てにおいて、上記数3が満たされる必要がある(実施の形態1参照)。
[装置動作]
次に、図10〜図12を用いて、本発明の実施の形態2における音声特徴量抽出装置200の動作について説明する。以下の説明では、必要に応じて図9を参照する。また、実施の形態2では、音声特徴量抽出装置を動作させることにより、音声特徴抽出方法が実施される。従って、音声特徴量抽出装置200による動作の説明によって、実施の形態2における音声特徴量抽出方法の説明に代える。
音声特徴量抽出装置200の全体の動作を、図10を参照して説明する。図10は、本発明の実施の形態2における音声特徴量抽出装置の動作を示すフロー図である。図10は、訓練部200A及び音声特徴量抽出部200Bの動作を含む。しかしながら、これは例示である。訓練及び特徴量抽出の処理は、連続的に実行されても良いし、時間間隔をおいて行われても良い。更には、特徴量の再抽出の処理が、他の訓練処理、例えば、非特許文献1及び非特許文献2に開示された従来技術と共に行われても良い。
まず、図10に示すように、訓練部200Aにおいて、発話レベル特徴量抽出器訓練部209は、発話レベル特徴量抽出器を訓練して、そのパラメータを、発話レベル特徴量抽出器パラメータ記憶部210に格納する(ステップD01)。 NNベースの話者埋め込みの場合、NNパラメータが格納される。また、iベクトルの場合、T行列が格納される。
次に、発話レベル特徴量抽出部200Bにおいて、発話レベル特徴量抽出部213は、発話レベル特徴量抽出器パラメータ記憶部210に格納された抽出器パラメータを使用し、選択済フレーム音響特徴量記憶部211における音響特徴量から、フレーム重み212における対応するフレーム重みと一緒に、発話レベル特徴量を抽出する(ステップB02)。
図11は、実施の形態2における、別のVADを使用して、除去されたフレームではなく重み付けされたプーリングの事後確率を取得するための、音声特徴量抽出器の訓練部での具体的な動作を示すフロー図である。
最初に、音響特徴量抽出部202Aは、音声データ記憶部201から音声データを読み出す(ステップE01)。次に、音響特徴量抽出部202Aは、フレームレベルの音響特徴量を抽出する(ステップE02)。
次に、第1のVAD部203Aは、第1のVADを適用し、全てのフレームの事後確率を取得する(ステップE03)。次に、第1のVAD部203Aは、事後確率と所定の閾値とを比較し、事後確率が閾値よりも小さいフレームを除去する(ステップE04)。
次に、第2のVAD部206Aは、第2のVADを適用し、全てのフレームについて第2の事後確率のセットを取得する(ステップE05)。次に、VAD処理部207Aは、第2のVAD事後確率のセットを関数F(P)に入力し、それらをフレーム重みとして格納する(ステップE06)。
次に、発話レベル特徴量抽出器訓練部209は、抽出器を訓練する(ステップE07)。その後、発話レベル特徴量抽出器訓練部209は、抽出器パラメータを、発話レベル特徴量抽出器パラメータ記憶部210に格納する(ステップE08)。
図12は、実施の形態2における、別のVADを使用して、除去されたフレームではなく重み付けされたプーリングの事後確率を取得するための、音声特徴量抽出部の具体的な動作を示すフロー図である。
最初に、音響特徴量抽出部202Bは、入力された音声データを読み出す(ステップF01)。次に、音響特徴量抽出部202Bは、フレームレベルの音響特徴量を抽出する(ステップF02)。
次に、第1のVAD部203Bは、第1のVADを適用し、全てのフレームの事後確率を取得する(ステップF03)。次に、第1のVAD部203Bは、事後確率と所定の閾値とを比較し、事後確率が閾値よりも小さいフレームを除去する(ステップF04)。
次に、第2のVAD部206Bは、第2のVADを適用し、すべてのフレームについて第2の事後セットを取得する(ステップF05)。 次に、VAD処理部208Bは、VAD事後確率の第2のセットを関数F(P2)に渡し、それらをフレーム重みとして格納する(ステップF06)。
次に、発話レベル特徴量抽出部213は、発話レベル特徴量抽出器パラメータ記憶部210における発話レベル特徴量抽出器パラメータを読み出す(ステップF07)。その後、発話レベル特徴量抽出部213は、発話レベル特徴量を抽出する(ステップF08)。
[実施の形態2における効果]
実施の形態2によれば、フレームレベルを発話レベルに変換する処理において、重み付けされたプーリングを使用でき、より適切な発話レベルの特徴量を抽出することができる。実施の形態2によれば、フレームの除去に使用されたVADとは異なるVAD(通常はパフォーマンスが高い)の事後確率の関数が、重みとして使用される。フレームの重みの事後確率を生成するVADとしては、NNベースのVAD等、多くの選択肢が挙げられる。このようなVADは、通常、フレームの除去で使用されるVADよりも高度な構成を有している。従って、このようなVADの事後確率もまた、重みに使用することが正確である。
[プログラム]
実施の形態2におけるプログラムは、図10に示すステップD01〜D02、図11に示すステップE01〜E08、及び図12に示すステップF01〜F07をコンピュータに実行させるためのプログラムであれば良い。実施の形態2における音声特徴量抽出装置200及び音声特徴量抽出方法は、このプログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、訓練部200A及び音声特徴量抽出部200Bとして機能し、処理を行う。
実施の形態2におけるプログラムは、複数のコンピュータを用いて構築されたコンピュータシステムによって実行されても良い。この場合、例えば、各コンピュータが、訓練部200A及び音声特徴量抽出部200Bのうちのいずれかとして機能することができる。
(実施の形態3)
実施の形態2は、重み付けされた加重プーリングにおいて、フレームの除去で使用されるVAD(第1のVAD)以外の、より高度なVAD(第2のVAD)から得られた事後確率を使用する。しかしながら、同じフレームに対して、異なるVADが異なる事後確率を有する場合がある。つまり、一部の非音声フレームにおいては、誤って、それが音声フレームであると見なされてしまう可能性がある。
最初のVADによって選択されたフレームの中には、2番目のVADの事後確率が非常に低い場合がある。実施の形態2は、このようなフレームに低い重みを与えるが、このようなフレームの多くは依然として最終的な発話レベルの特徴量に影響を与える。
実施の形態3は、第1のVAD及び第2のVADの両方を使用してフレームを除去し、そして、高度な第2のVADを使用して、プーリングに重みを与える。実施の形態3によれば、音声以外のフレームがより適切に削除されるため、最終的な発話レベルの特徴量がより正確なものとなる。
[装置構成]
最初に、図13を用いて、実施の形態3における音声特徴量抽出装置300の概略構成を説明する。図13は、本発明の実施の形態3における音声特徴量抽出装置の具体的構成を示すブロック図である。
本発明の実施の形態3においては、重み付けられたプーリングとフレーム除去との両方に新しいVADを使用する、音声特徴量抽出装置について説明する。音声特徴量抽出装置300は、訓練部300Aと発話レベル特徴量抽出部300Bとを備えている。但しは、これらは、必ずしも一緒に用いられる必要はない。発話レベル特徴量抽出部300Bは、単独で、非特許文献1及び非特許文献2に開示されている従来技術における訓練部と使用することもできる。
図13に示すように、音声特徴量抽出装置300において、訓練部300Aは、音声データ記憶部302と、音響特徴量抽出部302Aと、第1のVAD部303Aと、第1のVAD閾値記憶部304Aと、選択済フレーム音響特徴量記憶部305と、第2のVAD部306Aと、第2のVAD閾値記憶部307Aと、VAD処理部308Aと、フレーム重み記憶部309と、発話レベル特徴量抽出器訓練部310と、発話レベル特徴量抽出器パラメータ記憶部311とを備えている。
音声特徴量抽出部300Bは、音響特徴量抽出部302Bと、第1のVAD部303Bと、第1のVAD閾値記憶部304Bと、選択済フレーム音響特徴量記憶部312と、第2のVAD部306Bと、第2のVAD閾値記憶部307Bと、VAD処理部308Bと、フレーム重み記憶部313と、発話レベル特徴量抽出部314と、発話レベル特徴量記憶部315とを備えている。
音響特徴量抽出部302A及び音響特徴量抽出部302Bとは、同じ機能を有している。第1のVAD部303と第1のVAD部303Bも、同じ機能を有している。第2のVAD部306Aと第2のVAD部306Bも、同じ機能を有している。VAD処理部308AとVAD処理部308Bも、同じ機能を有している。第1のVAD閾値記憶部304Aと第1のVAD閾値記憶部304Bとは、同じ記憶部で構成することができ、第2のVAD閾値記憶部307Aと第2のVAD閾値記憶部307Bも、同じ記憶部で構成される。これは、訓練部と音声特徴量抽出部とで同じ閾値が使用されることを意味する。なお、VAD閾値記憶部は、訓練部と発話レベル特徴量抽出部とにおいて、異なる構成要素を有する可能性もある。
訓練部300Aにおいて、音響特徴量抽出部302Aは、音声データ記憶部301のデータから音響特徴ベクトルfを抽出する。第1のVAD部303Aは、第1のVADを音響特徴量に適用し、フレーム毎にVAD事後確率Pを取得する。次に、第1のVAD部303Aは、VAD事後確率Pと、第1のVAD閾値記憶部304Aに格納された所定の第1のVAD閾値THETAとを比較し、VAD事後確率が閾値よりも小さい(P<THETA)フレームを除去する。
第2のVAD部306Aは、第2のVADを音響特徴量に適用し、第2のVAD事後確率Pのセットを取得する。第2のVAD部306Aは、第2のVAD事後確率Pのセットと、第2のVAD閾値記憶部307Aに格納された所定の第2のVAD閾値THETAと比較し、更に、第2のVAD事後確率P2が閾値よりも小さい(P<THETA)フレームを除去する。残りのフレームの音響特徴量{f|(P1i≧THETA)&&(P2i≧THETA)}は、選択済フレーム音響特徴量記憶部305に格納される。
VAD事後確率処理部308Aは、第2のVAD事後確率Pのセットを関数に入力し、各フレームw=F(P)の重みを取得し、取得した重みをフレーム重み記憶部309に格納する。発話レベル特徴量抽出器訓練部310は、選択済フレーム音響特徴量記憶部305から選択されたフレームの音響特徴量を読み出し、フレーム重み記憶部309から対応する重みを読み出し、そして、発話レベル特徴量抽出器を訓練し、その後、抽出器パラメータを、発話レベル特徴量抽出器パラメータ記憶部311に格納する。
なお、数6のように、VAD事後確率Pと第2のVAD事後確率Pとを線形結合することにより、VAD事後確率P及び第2のVAD事後確率Pは、単一の閾値THETAと比較できることに留意すべきである。
Figure 2021526669
音声特徴量抽出部300Bにおいて、音響特徴量抽出部302Bは、入力された音声データから音響特徴ベクトルを抽出する。第1のVAD部303Bは、第1のVADを音響特徴ベクトルに適用し、フレーム毎のVAD事後確率を取得する。第2のVAD部306Bは、第2のVADを音響特徴ベクトルに適用し、フレーム毎に別のVAD事後確率を取得する。
第1のVAD部303Bは、第1の事後確率のセットを、第1のVAD閾値記憶部304Bに格納されている所定の第1のVAD閾値と比較し、第1のVAD事後確率が第1の閾値よりも小さいフレームを除去する。第2のVAD部306Bは、残りのフレームの第2の事後確率のセットを比較し、第2のVAD事後確率が第2のVAD閾値よりも小さいフレームを更に除去する。
2つの選択の後、残ったフレームは、選択済フレーム音響特徴量記憶部312に格納される。VAD事後確率処理部308Bは、第2のVAD事後確率を関数に入力し、各フレームの重みを取得し、そして、それらをフレーム重み記憶部313に格納する。
発話レベル特徴量抽出部314は、選択済フレーム音響特徴量記憶部312から、選択されたフレームの音響特徴量を読み出し、フレーム重み記憶部313から、対応する重みを読み出し、更に、発話レベル特徴量抽出器パラメータ記憶部311から、抽出器パラメータを読み出す。発話レベル特徴量抽出部314は、入力された発話のための1つの特徴ベクトルを抽出すると、それを、発話レベル特徴量記憶部315に格納する。
実施の形態3は、実施の形態1及び実施の形態2と同様に、NNベースの話者埋め込みの場合及びiベクトルの場合に適用することができる(実施の形態1参照)。
VAD処理部308A及びVAD処理部308Bによって、関数は、VAD事後確率によって単調に増加し、フレームが音声である可能性が高くなると、プーリングにおいてより多くの重みが与えられるようにする。加えて、1つの発話が選択されたフレーム全てにおいて、上記数3が満たされる必要がある(実施の形態1参照)。
[装置動作]
次に、図14〜図16を用いて、本発明の実施の形態3における音声特徴量抽出装置300の動作について説明する。以下の説明では、必要に応じて図13を参照する。また、実施の形態3では、音声特徴量抽出装置を動作させることにより、音声特徴量抽出方法が実施される。従って、音声特徴量抽出装置300による動作の説明によって、実施の形態3における音声特徴量抽出方法の説明に代える。
音声特徴量抽出装置300の全体の動作を、図14を参照する。図14は、本発明の実施の形態3における音声特徴量抽出装置の動作を示すフロー図である。 図14は、訓練部300A及び音声特徴量抽出部300Bの動作を含む。しかしながら、これは例示である。訓練及び特徴量抽出の処理は、連続的に実行されても良いし、時間間隔をおいて行われても良い。更には、特徴量の再抽出の処理が、他の訓練処理、例えば、非特許文献1及び非特許文献2に開示された従来技術と共に行われても良い。
最初に、図14に示すように、訓練部300Aにおいて、発話レベル特徴量抽出器訓練部310は、発話レベル特徴量抽出器を訓練し、そのパラメータを、発話レベル特徴量抽出器パラメータ記憶部311に格納する(ステップG01)。NNベースの話者埋め込みの場合、NNパラメータが格納される。また、iベクトルの場合、T行列が格納される。
次に、発話レベル特徴量抽出部300Bにおいて、発話レベル特徴量抽出部314は、発話レベル特徴量抽出器パラメータ記憶部311に格納された抽出器パラメータを使用し、選択済フレーム音響特徴量記憶部312における音響特徴量から、フレーム重み記憶部313における対応するフレーム重みと一緒に、発話レベル特徴量を抽出する。(ステップG02)。
図15は、実施の形態3における、フレームの除去に元々使用されたVADに加えて、フレームの除去に使用された別のVADを使用して、重み付けられたプーリングの事後確率を取得するための、音声特徴量抽出器の訓練部の具体的な動作を示すフロー図である。
最初に、音響特徴量抽出部302Aは、音声データ記憶部302から音声データを読み出す(ステップH01)。次に、音響特徴量抽出部302Aは、フレームレベルの音響特徴量を抽出する(ステップH02)。
次に、第1のVAD部303Aは、第1のVADを適用し、全てのフレームの事後確率を取得する(ステップH03)。次に、第1のVAD部303Aは、事後確率と所定の閾値とを比較し、事後確率が閾値よりも小さいフレームを除去する(ステップH04)。
次に、第2のVAD部306Aは、第2のVADを適用し、全てのフレームについて第2の事後確率のセットを取得する(ステップH05)。次に、第2のVAD部306Aは、第2の事後確率のセットを所定の第2の閾値と比較し、事後確率が第2の閾値よりも小さいフレームを更に除去する(ステップH06)。
次に、VAD処理部308Aは、第2のVAD事後確率のセットを、関数F(P)に入力し、それらをフレーム重みとして格納する(ステップH07)。次に、発話レベル特徴量抽出器訓練部310は、抽出器を訓練する(ステップH08)。その後、発話レベル特徴量抽出器訓練部310は、抽出器パラメータを、発話レベル特徴量抽出器パラメータ記憶部311に格納する(ステップH09)。
図16は、実施の形態3における、フレームの除去に元々使用されたVADに加えて、フレームの除去に使用された別のVADを使用して、重み付けられたプーリングの事後確率を取得するための、音声特徴量抽出部の特定の動作を示すフロー図である。
最初に、音響特徴量抽出部302Bは、入力された音声データを読み出す(ステップI01)。次に、音響特徴量抽出部302Bは、フレームレベルの音響特徴量を抽出する(ステップI02)。
次に、第1のVAD部303Bは、第1のVADを適用し、すべてのフレームの事後確率を取得する(ステップI03)。次に、第1のVAD部303Bは、事後確率と所定の第1の閾値とを比較し、事後確率が閾値よりも小さいフレームを除去する(ステップI04)。
次に、第2のVAD部306Bは、第2のVADを適用し、全てのフレームの第2の事後確率のセットを取得する(ステップI05)。次に、第2のVAD部306Aは、第2の事後確率のセットと所定の第2の閾値とを比較し、事後確率が第2の閾値よりも小さいフレームを更に除去する(ステップI06)。
次に、VAD処理部308Bは、第2のVAD事後確率のセットを、関数F(P)に入力し、それらをフレーム重みとして格納する(ステップI07)。次に、発話レベル特徴量抽出部314は、選択済フレーム音響特徴量記憶部312における発話レベル特徴量抽出器パラメータを読み出す(ステップI08)。その後、発話レベル特徴量抽出部314は、発話レベルの特徴量を抽出する(ステップI09)。
[実施の形態3における効果]
実施の形態3によれば、フレームレベルを発話レベルに変換する処理において加重み付けされたプーリングを使用して、より適切な発話レベルの特徴量を抽出することができる。実施の形態3では、フレームを除去するために2つのVADが使用され、2つのVADのうちのより進んだ方の事後確率の関数が重みとして使用される。
実施の形態2と同様に、フレーム重みの事後確率を生成するVADとしては、多くの選択肢、例えば、NNベースのVADが挙げられる。このようなVADは、通常、フレームの除去で使用されるVADよりも高度な構造を有している。
フレームの除去のために2つのVADが使用されるので、ノイズの多いフレームがVADをだまして音声として使用されてしまう事態が回避される。従って、最終的な発話レベルの特徴量は、音声の事後確率の量を示す重みと共に、音声フレームをプーリングすることによって取得され、より正確なものとなる。
[プログラム]
実施の形態3におけるプログラムは、図14に示すステップG01〜G02、図15に示すステップH01〜H09、及び図16に示すステップI01〜I09を、コンピュータに実行させるプログラムであれば良い。実施の形態2における音声特徴量抽出装置300及び音声特徴量抽出装置方法は、このプログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、訓練部300A及び音声特徴量抽出部300Bとして機能し、処理を行う。
実施の形態3におけるプログラムは、複数のコンピュータを使用して構築されたコンピュータシステムによって実行されても良い。この場合、例えば、各コンピュータは、訓練部300A及び音声特徴量抽出部300Bのうちのいずれかとして機能することができる。
(物理構成)
次に、実施の形態1、実施の形態2、又は実施の形態3におけるプログラムを実行することによって、音声特徴量抽出装置を実現するコンピュータについて図17を用いて説明する。図17は、実施の形態1〜3における音声特徴量抽出装置を実現するコンピュータの一例を示すブロック図である。
図17に示すように、コンピュータ10は、CPU(Central Processing Unit)11と、メインメモリ12と、記憶装置13と、入力インターフェース14と、表示コントローラ15と、データリーダー/ライター16と、通信インターフェース17とを備えている。これらの各部は、バス21を介して、互いにデータ通信可能に接続されている。
CPU11は、記憶装置13に格納された、本実施の形態におけるプログラム(コード群)をメインメモリ12に展開し、各コードを所定の順序で実行することにより、種々の演算を実施する。メインメモリ12は、典型的には、DRAM(Dynamic Random-Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体20に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェース17を介して接続されたインターネット上で流通するもであっても良い。
また、記憶装置13の具体例としては、ハードディスクドライブに加えて、フラッシュメモリなどの半導体記憶装置が挙げられる。入力インターフェース14は、CPU11と、キーボード又はマウス等の入力装置18との間のデータ伝送を仲介する。表示コントローラ15は、ディスプレイ装置19と接続され、ディスプレイ装置18での表示を制御する。
データリーダー/ライター16は、CPU11と記録媒体20との間のデータ伝送を仲介し、記録媒体20からのプログラムを読み出し、コンピュータ10における処理の結果の記録媒体20への書き込みを実行する。通信インターフェース17は、CPU11と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体20の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶装置、フレキシブルディスク等の磁気記録媒体、CD−ROM(Compact Disk Read Only Memory)等の光学記録媒体が挙げられる。
本実施形態による脈拍数推定装置100は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、脈拍数推定装置100は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていても良い。
上述した実施の形態の一部又は全部は、以下に記載する(付記1)〜(付記24)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、音声アクティビティ検出部と、
与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、音声アクティビティ検出処理部と、
前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出部と、
を備えている、ことを特徴とする音声特徴量抽出装置。
(付記2)
付記1に記載の音声特徴量抽出装置であって、
更に、前記音声アクティビティ検出処理部によって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、発話レベル特徴量抽出部を訓練して、発話レベル特徴量抽出器パラメータを生成する、発話レベル特徴量抽出器訓練部を備えている、
ことを特徴とする音声特徴量抽出装置。
(付記3)
付記1に記載の音声特徴量抽出装置であって、
非音声フレームを除去し、フレーム毎に音声化のための第2の事後確率を計算する、第2の音声アクティビティ検出部を備え、
前記発話レベル特徴量抽出部は、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出装置。
(付記4)
付記2に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出器訓練部は、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出装置。
(付記5)
付記3に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出部は、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティ検出を利用する、
ことを特徴とする音声特徴量抽出装置。
(付記6)
付記2に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出器訓練部は、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティを利用する、
ことを特徴とする音声特徴量抽出装置。
(付記7)
付記1に記載の音声特徴量抽出装置であって、
前記音声アクティビティ検出処理部は、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの1つとして定義され、
前記発話レベル特徴量抽出部は、特徴量として、iベクトルを抽出する、
ことを特徴とする音声特徴量抽出装置。
(付記8)
付記1に記載の音声特徴量抽出装置であって、
前記音声アクティビティ検出処理部は、単調に増加する関数を用い、
前記発話レベル特徴量抽出部は、少なくとも1つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
ことを特徴とする音声特徴量抽出装置。
(付記9)
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
(b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を有する、ことを特徴とする音声特徴量抽出方法。
(付記10)
付記9に記載の音声特徴量抽出方法であって、
(d)前記(b)のステップによって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、前記(c)のステップにおける前記発話レベル特徴量抽出を訓練して、発話レベル特徴量抽出器パラメータを生成する、ステップを更に有している、
ことを特徴とする音声特徴量抽出方法。
(付記11)
付記9に記載の音声特徴量抽出方法であって、
(e)非音声フレームを除去し、フレーム毎に音声化のための第2の事後確率を計算する、ステップ更に有し、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出方法。
(付記12)
付記10に記載の音声特徴量抽出方法であって、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出方法。
(付記13)
付記11に記載の音声特徴量抽出方法であって、
前記(c)のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティ検出を利用する、
ことを特徴とする音声特徴量抽出方法。
(付記14)
付記10に記載の音声特徴量抽出方法であって、
前記(d)のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティを利用する、
ことを特徴とする音声特徴量抽出方法。
(付記15)
付記9に記載の音声特徴量抽出方法であって、
前記(b)のステップにおいて、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの1つとして定義され、
前記(c)のステップにおいて、特徴量として、iベクトルを抽出する、
ことを特徴とする音声特徴量抽出方法。
(付記16)
付記9に記載の音声特徴量抽出方法であって、
前記(b)のステップにおいて、単調に増加する関数を用い、
前記(c)のステップにおいて、少なくとも1つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
ことを特徴とする音声特徴量抽出方法。
(付記17)
コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
(b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
実行させる命令を含む、プログラムを記録している、コンピュータ読み取り可能な記録媒体。
(付記18)
付記17に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
(d)前記(b)のステップによって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、前記(c)のステップにおける前記発話レベル特徴量抽出を訓練して、発話レベル特徴量抽出器パラメータを生成する、ステップを実行させる命令を更に含む、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記19)
付記17に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
(e)非音声フレームを除去し、フレーム毎に音声化のための第2の事後確率を計算する、ステップ実行させる命令を更に含み、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記20)
付記18に記載のコンピュータ読み取り可能な記録媒体であって、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記21)
付記19に記載のコンピュータ読み取り可能な記録媒体であって、
前記(c)のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティ検出を利用する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記22)
付記18に記載のコンピュータ読み取り可能な記録媒体であって、
前記(d)のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティを利用する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記23)
付記17に記載のコンピュータ読み取り可能な記録媒体であって、
前記(b)のステップにおいて、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの1つとして定義され、
前記(c)のステップにおいて、特徴量として、iベクトルを抽出する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
(付記24)
付記17に記載のコンピュータ読み取り可能な記録媒体であって、
前記(b)のステップにおいて、単調に増加する関数を用い、
前記(c)のステップにおいて、少なくとも1つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
上記のように、本発明によれば、話者認識タスクにおいて発話のより正確な表現を提供することができる。本発明は、例えば、話者認証の分野において有用である。
10 コンピュータ
11 CPU
12 メインメモリ
13 記憶装置
14 入力インターフェース
15 表示コントローラ
16 データリーダー/ライター
17 通信インターフェース
18 入力装置
19 ディスプレイ装置
20 コンピュータ読み取り可能な記録媒体
21 バス
100 音声特徴量抽出装置(実施の形態1)
100A 訓練部
100B 発話レベル特徴量抽出部
101 音声データ記憶部
102A 音響特徴量抽出部
102B 音響特徴量抽出部
103 VAD部
103A VAD部
103B VAD部
104A VAD閾値記憶部
104B VAD閾値記憶部
105 選択済音響特徴量記憶部
106 VAD処理部
106A VAD処理部
106B VAD事後確率部
107 フレーム重み記憶部
108 発話レベル特徴量抽出器訓練部
109 発話レベル特徴量抽出器パラメータ記憶部
110 選択済フレーム音響特徴量記憶部
111 フレーム重み記憶部
112 発話レベル特徴量抽出部
113 発話レベル特徴量記憶部
200 音声特徴量抽出装置(実施の形態2)
200A 訓練部
200B 発話レベル特徴量抽出部
201 音声データ記憶部
202A 音響特徴量抽出部
202B 音響特徴量抽出部
203A 第1のVAD部
203B 第1のVAD部
204A 第1のVAD閾値記憶部
204B 第1のVAD閾値記憶部
205 選択済フレーム音響特徴量記憶部
206A 第2のVAD部
206B 第2のVAD部
207A VAD処理部
207B VAD事後確率部
208 フレーム重み記憶部
209 発話レベル特徴量抽出器訓練部
210 発話レベル特徴量抽出器パラメータ記憶部
211 選択済フレーム音響特徴量記憶部
212 フレーム重み記憶部
213 発話レベル特徴量抽出部
214 発話レベル特徴量記憶部
300 音声特徴量抽出装置(実施の形態3)
301 音声データ記憶部
300A 訓練部
300B 発話レベル特徴量抽出部
302A 音響特徴量抽出部
302B 音響特徴量抽出部
303A 第1のVAD部
303B 第1のVAD部
304A 第1のVAD閾値記憶部
304B 第1のVAD閾値記憶部
305 選択済フレーム音響特徴量記憶部
306A 第2のVAD部
306B 第2のVAD部
307A 第2のVAD閾値記憶部
308A VAD処理部
308B VAD事後確率部
309 フレーム重み記憶部
310 発話レベル特徴量抽出器訓練部
311 発話レベル特徴量抽出器パラメータ記憶部
312 選択済フレーム音響特徴量記憶部
313 フレーム重み記憶部
314 発話レベル特徴量抽出部
315 発話レベル特徴量記憶部
本発明は、音声特徴量抽出装置、音声特徴量抽出方法、及びこれらを実現するためのプログラムに関する。
本発明の目的は、上記問題を解消し、話者認識タスクにおいて発話のより正確な表現を提供し得る、音声特徴量抽出装置、音声特徴量抽出方法、及びプログラムを提供することにある。
上記目的を達成するために、本発明の一例におけるプログラムは、
コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
(b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を実行させる、ことを特徴とする。
本発明の実施の形態1においては、既存のVADを用いた音声特徴量抽出装置100について説明する。音声特徴量抽出装置100は、訓練部100Aと音声特徴量抽出部100Bとを備えている。但し、訓練部100Aと音声特徴量抽出部100Bとは必ずしも一緒に用いられる必要はない音声特徴量抽出部100Bは、単独で、非特許文献1及び非特許文献2に開示されている従来技術における訓練部と使用することもできる。
音声特徴量抽出部100Bは、音響特徴量抽出部102Bと、VAD部103Bと、VAD閾値記憶部104Bと、選択済フレーム音響特徴量記憶部110と、VAD処理部106Bと、フレーム重み記憶部111と、発話レベル特徴量抽出部112と、発話レベル特徴量記憶部113とを備えている。
VAD閾値記憶部104AとVAD閾値記憶部104Bとは、同じ記憶部で構成することができ、これは、訓練部と音声特徴量抽出部とで同じ閾値が使用されることを意味する。なお、VAD閾値記憶部は、訓練部100Aと音声特徴量抽出部100Bとにおいて、異なる構成要素を有する可能性もある。
次に、音声特徴量抽出部100Bにおいて、発話レベル特徴量抽出部112は、発話レベル特徴量抽出器パラメータ記憶部109に格納された抽出器パラメータを使用し、選択済フレーム音響特徴量記憶部110にある音響特徴量から発話レベル特徴量を、フレーム重み記憶部111にある、対応するフレーム重みと共に、抽出する(ステップA02)。
本発明の実施の形態2では、新しいVADを用いた音声特徴量抽出装置について説明する。音声特徴量抽出装置200は、訓練部200Aと音声特徴量抽出部200Bとを備えている。但しは、これらは、必ずしも一緒に用いられる必要はない。音声特徴量抽出部200Bは、単独で、非特許文献1及び非特許文献2に開示されている従来技術における訓練部と使用することもできる。
訓練部200Aにおいて、音響特徴量抽出部202Aは、音声データ記憶部201内のデータから音響特徴ベクトルfを抽出する。第1のVAD部203Aは、第1のVADを音響特徴量に適用し、フレーム毎のVAD事後確率Pを取得する。次に、第1のVAD部203Aは、VAD事後確率Pと、VAD閾値記憶部204Aに格納された所定の第1のVAD閾値THETAと比較し、VAD事後確率が閾値よりも小さい(P<THETA)フレームを除去する。そして、残りのフレーム{f|P≧THETA}の音響特徴量は、選択済フレーム音響特徴量記憶部205に格納される。
次に、音声特徴量抽出部200Bにおいて、発話レベル特徴量抽出部213は、発話レベル特徴量抽出器パラメータ記憶部210に格納された抽出器パラメータを使用し、選択済フレーム音響特徴量記憶部211における音響特徴量から、フレーム重み212における対応するフレーム重みと一緒に、発話レベル特徴量を抽出する(ステップD02)。
[プログラム]
実施の形態2におけるプログラムは、図10に示すステップD01〜D02、図11に示すステップE01〜E08、及び図12に示すステップF01〜F0をコンピュータに実行させるためのプログラムであれば良い。実施の形態2における音声特徴量抽出装置200及び音声特徴量抽出方法は、このプログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、訓練部200A及び音声特徴量抽出部200Bとして機能し、処理を行う。
本発明の実施の形態3においては、重み付けられたプーリングとフレーム除去との両方に新しいVADを使用する、音声特徴量抽出装置について説明する。音声特徴量抽出装置300は、訓練部300Aと音声特徴量抽出部300Bとを備えている。但しは、これらは、必ずしも一緒に用いられる必要はない。音声特徴量抽出部300Bは、単独で、非特許文献1及び非特許文献2に開示されている従来技術における訓練部と使用することもできる。
VAD処理部308Aは、第2のVAD事後確率Pのセットを関数に入力し、各フレームw=F(P)の重みを取得し、取得した重みをフレーム重み記憶部309に格納する。発話レベル特徴量抽出器訓練部310は、選択済フレーム音響特徴量記憶部305から選択されたフレームの音響特徴量を読み出し、フレーム重み記憶部309から対応する重みを読み出し、そして、発話レベル特徴量抽出器を訓練し、その後、抽出器パラメータを、発話レベル特徴量抽出器パラメータ記憶部311に格納する。
2つの選択の後、残ったフレームは、選択済フレーム音響特徴量記憶部312に格納される。VAD処理部308Bは、第2のVAD事後確率を関数に入力し、各フレームの重みを取得し、そして、それらをフレーム重み記憶部313に格納する。
発話レベル特徴量抽出部314は、選択済フレーム音響特徴量記憶部312から、選択されたフレームの音響特徴量を読み出し、フレーム重み記憶部313から、対応する重みを読み出し、更に、発話レベル特徴量抽出器パラメータ記憶部311から、抽出器パラメータを読み出す。発話レベル特徴量抽出部314は、入力された発話のための1つの特徴ベクトルを抽出すると、それを、発話レベル特徴量記憶部315に格納する。
次に、音声特徴量抽出部300Bにおいて、発話レベル特徴量抽出部314は、発話レベル特徴量抽出器パラメータ記憶部311に格納された抽出器パラメータを使用し、選択済フレーム音響特徴量記憶部312における音響特徴量から、フレーム重み記憶部313における対応するフレーム重みと一緒に、発話レベル特徴量を抽出する。(ステップG02)。
[プログラム]
実施の形態3におけるプログラムは、図14に示すステップG01〜G02、図15に示すステップH01〜H09、及び図16に示すステップI01〜I09を、コンピュータに実行させるプログラムであれば良い。実施の形態3における音声特徴量抽出装置300及び音声特徴量抽出装置方法は、このプログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、訓練部300A及び音声特徴量抽出部300Bとして機能し、処理を行う。
また、記憶装置13の具体例としては、ハードディスクドライブに加えて、フラッシュメモリなどの半導体記憶装置が挙げられる。入力インターフェース14は、CPU11と、キーボード又はマウス等の入力装置18との間のデータ伝送を仲介する。表示コントローラ15は、ディスプレイ装置19と接続され、ディスプレイ装置19での表示を制御する。
本実施形態による音声特徴量抽出装置は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、音声特徴量抽出装置は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていても良い。
(付記17)
コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
(b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
実行させる、プログラム。
(付記18)
付記17に記載のプログラムであって、
記コンピュータに、
(d)前記(b)のステップによって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、前記(c)のステップにおける前記発話レベル特徴量抽出を訓練して、発話レベル特徴量抽出器パラメータを生成する、ステップを更に実行させる、
ことを特徴とするプログラム
(付記19)
付記17に記載のプログラムであって、
記コンピュータに、
(e)非音声フレームを除去し、フレーム毎に音声化のための第2の事後確率を計算する、ステップを更に実行させ、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とするプログラム
(付記20)
付記18に記載のプログラムであって、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とするプログラム
(付記21)
付記19に記載のプログラムであって、
前記(c)のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティ検出を利用する、
ことを特徴とするプログラム
(付記22)
付記18に記載のプログラムであって、
前記(d)のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティを利用する、
ことを特徴とするプログラム
(付記23)
付記17に記載のプログラムであって、
前記(b)のステップにおいて、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの1つとして定義され、
前記(c)のステップにおいて、特徴量として、iベクトルを抽出する、
ことを特徴とするプログラム
(付記24)
付記17に記載のプログラムであって、
前記(b)のステップにおいて、単調に増加する関数を用い、
前記(c)のステップにおいて、少なくとも1つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
ことを特徴とするプログラム
10 コンピュータ
11 CPU
12 メインメモリ
13 記憶装置
14 入力インターフェース
15 表示コントローラ
16 データリーダー/ライター
17 通信インターフェース
18 入力装置
19 ディスプレイ装置
20 コンピュータ読み取り可能な記録媒体
21 バス
100 音声特徴量抽出装置(実施の形態1)
100A 訓練部
100B 音声特徴量抽出部
101 音声データ記憶部
102A 音響特徴量抽出部
102B 音響特徴量抽出部
103 VAD部
103A VAD部
103B VAD部
104A VAD閾値記憶部
104B VAD閾値記憶部
105 選択済音響特徴量記憶部
106 VAD処理部
106A VAD処理部
106B VAD処理部
107 フレーム重み記憶部
108 発話レベル特徴量抽出器訓練部
109 発話レベル特徴量抽出器パラメータ記憶部
110 選択済フレーム音響特徴量記憶部
111 フレーム重み記憶部
112 発話レベル特徴量抽出部
113 発話レベル特徴量記憶部
200 音声特徴量抽出装置(実施の形態2)
200A 訓練部
200B 音声特徴量抽出部
201 音声データ記憶部
202A 音響特徴量抽出部
202B 音響特徴量抽出部
203A 第1のVAD部
203B 第1のVAD部
204A 第1のVAD閾値記憶部
204B 第1のVAD閾値記憶部
205 選択済フレーム音響特徴量記憶部
206A 第2のVAD部
206B 第2のVAD部
207A VAD処理部
207B VAD処理部
208 フレーム重み記憶部
209 発話レベル特徴量抽出器訓練部
210 発話レベル特徴量抽出器パラメータ記憶部
211 選択済フレーム音響特徴量記憶部
212 フレーム重み記憶部
213 発話レベル特徴量抽出部
214 発話レベル特徴量記憶部
300 音声特徴量抽出装置(実施の形態3)
301 音声データ記憶部
300A 訓練部
300B 音声特徴量抽出部
302A 音響特徴量抽出部
302B 音響特徴量抽出部
303A 第1のVAD部
303B 第1のVAD部
304A 第1のVAD閾値記憶部
304B 第1のVAD閾値記憶部
305 選択済フレーム音響特徴量記憶部
306A 第2のVAD部
306B 第2のVAD部
307A 第2のVAD閾値記憶部
308A VAD処理部
308B VAD処理部
309 フレーム重み記憶部
310 発話レベル特徴量抽出器訓練部
311 発話レベル特徴量抽出器パラメータ記憶部
312 選択済フレーム音響特徴量記憶部
313 フレーム重み記憶部
314 発話レベル特徴量抽出部
315 発話レベル特徴量記憶部

Claims (10)

  1. 入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、音声アクティビティ検出手段と、
    与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、音声アクティビティ検出処理手段と、
    前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出手段と、
    を備えている、ことを特徴とする音声特徴量抽出装置。
  2. 請求項1に記載の音声特徴量抽出装置であって、
    更に、前記音声アクティビティ検出処理手段によって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、発話レベル特徴量抽出手段を訓練して、発話レベル特徴量抽出器パラメータを生成する、発話レベル特徴量抽出器訓練手段を備えている、
    ことを特徴とする音声特徴量抽出装置。
  3. 請求項1に記載の音声特徴量抽出装置であって、
    非音声フレームを除去し、フレーム毎に音声化のための第2の事後確率を計算する、第2の音声アクティビティ検出手段を備え、
    前記発話レベル特徴量抽出手段は、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
    ことを特徴とする音声特徴量抽出装置。
  4. 請求項2に記載の音声特徴量抽出装置であって、
    前記発話レベル特徴量抽出器訓練手段は、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
    ことを特徴とする音声特徴量抽出装置。
  5. 請求項3に記載の音声特徴量抽出装置であって、
    前記発話レベル特徴量抽出手段は、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティ検出を利用する、
    ことを特徴とする音声特徴量抽出装置。
  6. 請求項2に記載の音声特徴量抽出装置であって、
    前記発話レベル特徴量抽出器訓練手段は、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティを利用する、
    ことを特徴とする音声特徴量抽出装置。
  7. 請求項1に記載の音声特徴量抽出装置であって、
    前記音声アクティビティ検出処理手段は、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの1つとして定義され、
    前記発話レベル特徴量抽出手段は、特徴量として、iベクトルを抽出する、
    ことを特徴とする音声特徴量抽出装置。
  8. 請求項1に記載の音声特徴量抽出装置であって、
    前記音声アクティビティ検出処理手段は、単調に増加する関数を用い、
    前記発話レベル特徴量抽出手段は、少なくとも1つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
    ことを特徴とする音声特徴量抽出装置。
  9. (a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
    (b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
    (c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
    を有する、ことを特徴とする音声特徴量抽出方法。
  10. コンピュータに、
    (a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
    (b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
    (c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
    を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
JP2020568354A 2018-06-29 2018-06-29 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム Active JP7095756B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/024933 WO2020003534A1 (en) 2018-06-29 2018-06-29 Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium

Publications (3)

Publication Number Publication Date
JP2021526669A true JP2021526669A (ja) 2021-10-07
JPWO2020003534A5 JPWO2020003534A5 (ja) 2022-01-26
JP7095756B2 JP7095756B2 (ja) 2022-07-05

Family

ID=68986169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020568354A Active JP7095756B2 (ja) 2018-06-29 2018-06-29 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム

Country Status (3)

Country Link
US (1) US11580967B2 (ja)
JP (1) JP7095756B2 (ja)
WO (1) WO2020003534A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3997696A4 (en) * 2019-07-10 2022-08-31 NEC Corporation DEVICE AND METHOD FOR EMBEDDING A LOUDSPEAKER
US11158329B2 (en) * 2019-09-11 2021-10-26 Artificial Intelligence Foundation, Inc. Identification of fake audio content

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006078654A (ja) * 2004-09-08 2006-03-23 Embedded System:Kk 音声認証装置及び方法並びにプログラム
WO2018163279A1 (ja) * 2017-03-07 2018-09-13 日本電気株式会社 音声処理装置、音声処理方法、および音声処理プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222499B (zh) * 2005-10-20 2012-11-07 日本电气株式会社 声音判别系统、声音判别方法以及声音判别用程序
US10403268B2 (en) * 2016-09-08 2019-09-03 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores
US20180330718A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition
US10672388B2 (en) * 2017-12-15 2020-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for open-vocabulary end-to-end speech recognition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006078654A (ja) * 2004-09-08 2006-03-23 Embedded System:Kk 音声認証装置及び方法並びにプログラム
WO2018163279A1 (ja) * 2017-03-07 2018-09-13 日本電気株式会社 音声処理装置、音声処理方法、および音声処理プログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DAVID SNYDER ET AL.: "Deep Neural Network Embeddings for Text-Independent Speaker Verification", INTERSPEECH 2017, JPN6021045726, August 2017 (2017-08-01), pages 999 - 1003, XP055636895, ISSN: 0004646499, DOI: 10.21437/Interspeech.2017-620 *
HITOSHI YAMAMOTO ET AL.: "Robust i-vector extraction tightly coupled with voice activity detection using deep neural networks", 2017 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE, JPN6021045728, December 2017 (2017-12-01), pages 600 - 604, XP033315500, ISSN: 0004646497, DOI: 10.1109/APSIPA.2017.8282114 *
KOJI OKABE ET AL.: "Attentive Statistics Pooling for Deep Speaker Embedding", [ONLINE], JPN6021045727, 29 March 2018 (2018-03-29), ISSN: 0004646498 *

Also Published As

Publication number Publication date
US11580967B2 (en) 2023-02-14
JP7095756B2 (ja) 2022-07-05
US20210256970A1 (en) 2021-08-19
WO2020003534A1 (en) 2020-01-02

Similar Documents

Publication Publication Date Title
US11735176B2 (en) Speaker diarization using speaker embedding(s) and trained generative model
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
EP2943951B1 (en) Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US9368116B2 (en) Speaker separation in diarization
US10089978B2 (en) Detecting customers with low speech recognition accuracy by investigating consistency of conversation in call-center
CN109616097B (zh) 语音数据处理方法、装置、设备及存储介质
CN105900171A (zh) 依赖于情境的瞬态抑制
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
EP3989217B1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
JP7095756B2 (ja) 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム
CN112397093A (zh) 一种语音检测方法与装置
US20200075042A1 (en) Detection of music segment in audio signal
CN112885379A (zh) 客服语音评估方法、系统、设备及存储介质
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP2011107650A (ja) 音声特徴量算出装置、音声特徴量算出方法及び音声特徴量算出プログラム並びに音声認識装置
Chit et al. Myanmar continuous speech recognition system using fuzzy logic classification in speech segmentation
JP7028203B2 (ja) 音声認識装置、音声認識方法、プログラム
CN113658581A (zh) 声学模型的训练、语音处理方法、装置、设备及存储介质
KR102586289B1 (ko) 대화 예측을 이용한 대화 에이전트 시스템 및 방법
CN116453512A (zh) 声纹模型的训练方法、装置、设备、介质及产品
JP2022010410A (ja) 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム
KR20220081129A (ko) 음향 신호 처리 방법 및 장치
CN118116387A (zh) 多人交叉场景的单通道语音识别方法、系统、设备及介质
WO2024072481A1 (en) Text to speech synthesis without using parallel text-audio data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220118

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20220118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220606

R151 Written notification of patent or utility model registration

Ref document number: 7095756

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151