JP2021526669A - 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム - Google Patents
音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム Download PDFInfo
- Publication number
- JP2021526669A JP2021526669A JP2020568354A JP2020568354A JP2021526669A JP 2021526669 A JP2021526669 A JP 2021526669A JP 2020568354 A JP2020568354 A JP 2020568354A JP 2020568354 A JP2020568354 A JP 2020568354A JP 2021526669 A JP2021526669 A JP 2021526669A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- feature amount
- frame
- vad
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 280
- 238000012545 processing Methods 0.000 claims abstract description 70
- 230000000694 effects Effects 0.000 claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 239000000284 extract Substances 0.000 claims abstract description 31
- 238000006243 chemical reaction Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 93
- 238000000034 method Methods 0.000 claims description 40
- 238000013528 artificial neural network Methods 0.000 claims description 31
- 238000011176 pooling Methods 0.000 claims description 30
- 238000010586 diagram Methods 0.000 abstract description 16
- 230000006870 function Effects 0.000 description 87
- 238000013500 data storage Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 3
- 238000012795 verification Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、音声アクティビティ検出部と、
与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、音声アクティビティ検出処理部と、
前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出部と、
を備えている、ことを特徴とする。
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
(b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を有する、ことを特徴とする。
コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
(b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を実行させる命令を含む、プログラムを記録している、ことを特徴とする。
本発明は、フレームレベルから発話レベルまで、プーリングの特徴量において、フレーム毎の音声アクティビティ検出(VAD)の事後確率の機能を使用して、重みを与える。VADの事後確率が高いフレームは、無音またはノイズである可能性が高いVADの事後確率が低いフレームよりも、通常、多くの話者情報を有している。従って、VADの事後確率が高いフレームに対して、より多くの重みが与えられると、話者認識タスクにより適した発話の最終的な表現が得られることになる。
以下に、図を用いて、本発明における各実施の形態について説明する。以下の詳細な説明は、本質的に単なる例示であり、本発明自体、又は本発明の用途と使用とを限定するものではない。更に、本発明は、上述の背景技術又は以下の詳細な説明に提示された理論によって制限されることはない。
実施の形態1における音声特徴量抽出装置は、VADの事後確率を利用して、音声といったフレームに大きな重みを与える。VADの事後確率は、従来から、話者認識を含む殆どの音声処理システムにおいて、フレームの選択に利用されている。音声特徴量抽出装置は、既存のVADを用いて、より適切な発話レベルの特徴量を抽出することができる。
最初に、図1を用いて、実施の形態1における音声特徴量抽出装置100の概略構成を説明する。図1は、本発明の実施の形態1における音声特徴量抽出装置の構成を概略的に示すブロック図である。
次に、図6〜図8を用いて、本発明の実施の形態1における音声特徴量抽出装置100による動作について説明する。以下の説明では、必要に応じて、図1〜図5が参照される。また、実施の形態1においては、音声特徴抽出装置を動作させることによって、音声特徴量抽出方法が実行される。従って、以下においては、音声特徴量抽出装置100によって実行される動作の説明を、実施の形態1における音声特徴量抽出方法の説明に代える。
実施の形態1によれば、フレームレベルを発話レベルに変換するプロセスにおいて、重み付けされたプーリングを使用でき、より適切な発話レベルの特徴量を抽出することができる。更に、実施の形態1では、VAD事後確率の関数は重みとして使用される。VAD事後確率は、既に一般的に、殆どの音声処理システムにおいて使用されている。この音声処理システムは、非音声である可能性が高いフレームを除去する話者認識を含んでいる。このため、実施の形態1によれば、特別な情報を必要とすることなく、発話の特徴量を改善することができる。
実施の形態1におけるプログラムは、図6に示すステップA01〜A02、図7に示すステップB01〜B07、及び図8に示すステップC01〜C07をコンピュータに実行させるためのプログラムであれば良い。実施の形態1における音声特徴量抽出装置100及び音声特徴量抽出方法は、このプログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、訓練部100A及び音声特徴量抽出部100Bとして機能し、処理を行う。
実施の形態1は、重み付けされたプーリングとフレーム除去において、同じ事後確率が使用されている。しかし、話者認識におけるフレームの除去でよく使用されるVADは、エネルギーベースの手法を用いており、大きなバックグラウンドノイズや、様々なノイズの多い状態に対して脆弱である。このため、VAD事後確率は、プーリングにおいてフレームの重み付けに使用できるほど正確ではない。実施の形態2においては、異なるVAD、例えば、様々な条件下でより正確であるNNベースのVADが使用されて、プーリングにおけるフレームの重み付けのための事後確率が取得される。
最初に、図9を用いて、実施の形態2における音声特徴量抽出装置200の概略構成について説明する。図9は、本発明の実施の形態2における音声特徴量抽出装置の具体的構成を示すブロック図である。
次に、図10〜図12を用いて、本発明の実施の形態2における音声特徴量抽出装置200の動作について説明する。以下の説明では、必要に応じて図9を参照する。また、実施の形態2では、音声特徴量抽出装置を動作させることにより、音声特徴抽出方法が実施される。従って、音声特徴量抽出装置200による動作の説明によって、実施の形態2における音声特徴量抽出方法の説明に代える。
実施の形態2によれば、フレームレベルを発話レベルに変換する処理において、重み付けされたプーリングを使用でき、より適切な発話レベルの特徴量を抽出することができる。実施の形態2によれば、フレームの除去に使用されたVADとは異なるVAD(通常はパフォーマンスが高い)の事後確率の関数が、重みとして使用される。フレームの重みの事後確率を生成するVADとしては、NNベースのVAD等、多くの選択肢が挙げられる。このようなVADは、通常、フレームの除去で使用されるVADよりも高度な構成を有している。従って、このようなVADの事後確率もまた、重みに使用することが正確である。
実施の形態2におけるプログラムは、図10に示すステップD01〜D02、図11に示すステップE01〜E08、及び図12に示すステップF01〜F07をコンピュータに実行させるためのプログラムであれば良い。実施の形態2における音声特徴量抽出装置200及び音声特徴量抽出方法は、このプログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、訓練部200A及び音声特徴量抽出部200Bとして機能し、処理を行う。
実施の形態2は、重み付けされた加重プーリングにおいて、フレームの除去で使用されるVAD(第1のVAD)以外の、より高度なVAD(第2のVAD)から得られた事後確率を使用する。しかしながら、同じフレームに対して、異なるVADが異なる事後確率を有する場合がある。つまり、一部の非音声フレームにおいては、誤って、それが音声フレームであると見なされてしまう可能性がある。
最初のVADによって選択されたフレームの中には、2番目のVADの事後確率が非常に低い場合がある。実施の形態2は、このようなフレームに低い重みを与えるが、このようなフレームの多くは依然として最終的な発話レベルの特徴量に影響を与える。
実施の形態3は、第1のVAD及び第2のVADの両方を使用してフレームを除去し、そして、高度な第2のVADを使用して、プーリングに重みを与える。実施の形態3によれば、音声以外のフレームがより適切に削除されるため、最終的な発話レベルの特徴量がより正確なものとなる。
最初に、図13を用いて、実施の形態3における音声特徴量抽出装置300の概略構成を説明する。図13は、本発明の実施の形態3における音声特徴量抽出装置の具体的構成を示すブロック図である。
発話レベル特徴量抽出部314は、選択済フレーム音響特徴量記憶部312から、選択されたフレームの音響特徴量を読み出し、フレーム重み記憶部313から、対応する重みを読み出し、更に、発話レベル特徴量抽出器パラメータ記憶部311から、抽出器パラメータを読み出す。発話レベル特徴量抽出部314は、入力された発話のための1つの特徴ベクトルを抽出すると、それを、発話レベル特徴量記憶部315に格納する。
次に、図14〜図16を用いて、本発明の実施の形態3における音声特徴量抽出装置300の動作について説明する。以下の説明では、必要に応じて図13を参照する。また、実施の形態3では、音声特徴量抽出装置を動作させることにより、音声特徴量抽出方法が実施される。従って、音声特徴量抽出装置300による動作の説明によって、実施の形態3における音声特徴量抽出方法の説明に代える。
実施の形態3によれば、フレームレベルを発話レベルに変換する処理において加重み付けされたプーリングを使用して、より適切な発話レベルの特徴量を抽出することができる。実施の形態3では、フレームを除去するために2つのVADが使用され、2つのVADのうちのより進んだ方の事後確率の関数が重みとして使用される。
実施の形態3におけるプログラムは、図14に示すステップG01〜G02、図15に示すステップH01〜H09、及び図16に示すステップI01〜I09を、コンピュータに実行させるプログラムであれば良い。実施の形態2における音声特徴量抽出装置300及び音声特徴量抽出装置方法は、このプログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、訓練部300A及び音声特徴量抽出部300Bとして機能し、処理を行う。
次に、実施の形態1、実施の形態2、又は実施の形態3におけるプログラムを実行することによって、音声特徴量抽出装置を実現するコンピュータについて図17を用いて説明する。図17は、実施の形態1〜3における音声特徴量抽出装置を実現するコンピュータの一例を示すブロック図である。
入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、音声アクティビティ検出部と、
与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、音声アクティビティ検出処理部と、
前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出部と、
を備えている、ことを特徴とする音声特徴量抽出装置。
付記1に記載の音声特徴量抽出装置であって、
更に、前記音声アクティビティ検出処理部によって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、発話レベル特徴量抽出部を訓練して、発話レベル特徴量抽出器パラメータを生成する、発話レベル特徴量抽出器訓練部を備えている、
ことを特徴とする音声特徴量抽出装置。
付記1に記載の音声特徴量抽出装置であって、
非音声フレームを除去し、フレーム毎に音声化のための第2の事後確率を計算する、第2の音声アクティビティ検出部を備え、
前記発話レベル特徴量抽出部は、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出装置。
付記2に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出器訓練部は、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出装置。
付記3に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出部は、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティ検出を利用する、
ことを特徴とする音声特徴量抽出装置。
付記2に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出器訓練部は、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティを利用する、
ことを特徴とする音声特徴量抽出装置。
付記1に記載の音声特徴量抽出装置であって、
前記音声アクティビティ検出処理部は、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの1つとして定義され、
前記発話レベル特徴量抽出部は、特徴量として、iベクトルを抽出する、
ことを特徴とする音声特徴量抽出装置。
付記1に記載の音声特徴量抽出装置であって、
前記音声アクティビティ検出処理部は、単調に増加する関数を用い、
前記発話レベル特徴量抽出部は、少なくとも1つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
ことを特徴とする音声特徴量抽出装置。
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
(b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を有する、ことを特徴とする音声特徴量抽出方法。
付記9に記載の音声特徴量抽出方法であって、
(d)前記(b)のステップによって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、前記(c)のステップにおける前記発話レベル特徴量抽出を訓練して、発話レベル特徴量抽出器パラメータを生成する、ステップを更に有している、
ことを特徴とする音声特徴量抽出方法。
付記9に記載の音声特徴量抽出方法であって、
(e)非音声フレームを除去し、フレーム毎に音声化のための第2の事後確率を計算する、ステップ更に有し、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出方法。
付記10に記載の音声特徴量抽出方法であって、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出方法。
付記11に記載の音声特徴量抽出方法であって、
前記(c)のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティ検出を利用する、
ことを特徴とする音声特徴量抽出方法。
付記10に記載の音声特徴量抽出方法であって、
前記(d)のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティを利用する、
ことを特徴とする音声特徴量抽出方法。
付記9に記載の音声特徴量抽出方法であって、
前記(b)のステップにおいて、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの1つとして定義され、
前記(c)のステップにおいて、特徴量として、iベクトルを抽出する、
ことを特徴とする音声特徴量抽出方法。
付記9に記載の音声特徴量抽出方法であって、
前記(b)のステップにおいて、単調に増加する関数を用い、
前記(c)のステップにおいて、少なくとも1つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
ことを特徴とする音声特徴量抽出方法。
コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
(b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
実行させる命令を含む、プログラムを記録している、コンピュータ読み取り可能な記録媒体。
付記17に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
(d)前記(b)のステップによって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、前記(c)のステップにおける前記発話レベル特徴量抽出を訓練して、発話レベル特徴量抽出器パラメータを生成する、ステップを実行させる命令を更に含む、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記17に記載のコンピュータ読み取り可能な記録媒体であって、
前記プログラムが、前記コンピュータに、
(e)非音声フレームを除去し、フレーム毎に音声化のための第2の事後確率を計算する、ステップ実行させる命令を更に含み、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記18に記載のコンピュータ読み取り可能な記録媒体であって、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記19に記載のコンピュータ読み取り可能な記録媒体であって、
前記(c)のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティ検出を利用する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記18に記載のコンピュータ読み取り可能な記録媒体であって、
前記(d)のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティを利用する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記17に記載のコンピュータ読み取り可能な記録媒体であって、
前記(b)のステップにおいて、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの1つとして定義され、
前記(c)のステップにおいて、特徴量として、iベクトルを抽出する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
付記17に記載のコンピュータ読み取り可能な記録媒体であって、
前記(b)のステップにおいて、単調に増加する関数を用い、
前記(c)のステップにおいて、少なくとも1つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
ことを特徴とするコンピュータ読み取り可能な記録媒体。
11 CPU
12 メインメモリ
13 記憶装置
14 入力インターフェース
15 表示コントローラ
16 データリーダー/ライター
17 通信インターフェース
18 入力装置
19 ディスプレイ装置
20 コンピュータ読み取り可能な記録媒体
21 バス
100 音声特徴量抽出装置(実施の形態1)
100A 訓練部
100B 発話レベル特徴量抽出部
101 音声データ記憶部
102A 音響特徴量抽出部
102B 音響特徴量抽出部
103 VAD部
103A VAD部
103B VAD部
104A VAD閾値記憶部
104B VAD閾値記憶部
105 選択済音響特徴量記憶部
106 VAD処理部
106A VAD処理部
106B VAD事後確率部
107 フレーム重み記憶部
108 発話レベル特徴量抽出器訓練部
109 発話レベル特徴量抽出器パラメータ記憶部
110 選択済フレーム音響特徴量記憶部
111 フレーム重み記憶部
112 発話レベル特徴量抽出部
113 発話レベル特徴量記憶部
200 音声特徴量抽出装置(実施の形態2)
200A 訓練部
200B 発話レベル特徴量抽出部
201 音声データ記憶部
202A 音響特徴量抽出部
202B 音響特徴量抽出部
203A 第1のVAD部
203B 第1のVAD部
204A 第1のVAD閾値記憶部
204B 第1のVAD閾値記憶部
205 選択済フレーム音響特徴量記憶部
206A 第2のVAD部
206B 第2のVAD部
207A VAD処理部
207B VAD事後確率部
208 フレーム重み記憶部
209 発話レベル特徴量抽出器訓練部
210 発話レベル特徴量抽出器パラメータ記憶部
211 選択済フレーム音響特徴量記憶部
212 フレーム重み記憶部
213 発話レベル特徴量抽出部
214 発話レベル特徴量記憶部
300 音声特徴量抽出装置(実施の形態3)
301 音声データ記憶部
300A 訓練部
300B 発話レベル特徴量抽出部
302A 音響特徴量抽出部
302B 音響特徴量抽出部
303A 第1のVAD部
303B 第1のVAD部
304A 第1のVAD閾値記憶部
304B 第1のVAD閾値記憶部
305 選択済フレーム音響特徴量記憶部
306A 第2のVAD部
306B 第2のVAD部
307A 第2のVAD閾値記憶部
308A VAD処理部
308B VAD事後確率部
309 フレーム重み記憶部
310 発話レベル特徴量抽出器訓練部
311 発話レベル特徴量抽出器パラメータ記憶部
312 選択済フレーム音響特徴量記憶部
313 フレーム重み記憶部
314 発話レベル特徴量抽出部
315 発話レベル特徴量記憶部
コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
(b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を実行させる、ことを特徴とする。
実施の形態2におけるプログラムは、図10に示すステップD01〜D02、図11に示すステップE01〜E08、及び図12に示すステップF01〜F08をコンピュータに実行させるためのプログラムであれば良い。実施の形態2における音声特徴量抽出装置200及び音声特徴量抽出方法は、このプログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、訓練部200A及び音声特徴量抽出部200Bとして機能し、処理を行う。
発話レベル特徴量抽出部314は、選択済フレーム音響特徴量記憶部312から、選択されたフレームの音響特徴量を読み出し、フレーム重み記憶部313から、対応する重みを読み出し、更に、発話レベル特徴量抽出器パラメータ記憶部311から、抽出器パラメータを読み出す。発話レベル特徴量抽出部314は、入力された発話のための1つの特徴ベクトルを抽出すると、それを、発話レベル特徴量記憶部315に格納する。
実施の形態3におけるプログラムは、図14に示すステップG01〜G02、図15に示すステップH01〜H09、及び図16に示すステップI01〜I09を、コンピュータに実行させるプログラムであれば良い。実施の形態3における音声特徴量抽出装置300及び音声特徴量抽出装置方法は、このプログラムをコンピュータにインストールして実行することにより実現することができる。この場合、コンピュータのプロセッサは、訓練部300A及び音声特徴量抽出部300Bとして機能し、処理を行う。
コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
(b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
実行させる、プログラム。
付記17に記載のプログラムであって、
前記コンピュータに、
(d)前記(b)のステップによって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、前記(c)のステップにおける前記発話レベル特徴量抽出を訓練して、発話レベル特徴量抽出器パラメータを生成する、ステップを更に実行させる、
ことを特徴とするプログラム。
付記17に記載のプログラムであって、
前記コンピュータに、
(e)非音声フレームを除去し、フレーム毎に音声化のための第2の事後確率を計算する、ステップを更に実行させ、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とするプログラム。
付記18に記載のプログラムであって、
前記(c)のステップにおいて、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とするプログラム。
付記19に記載のプログラムであって、
前記(c)のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティ検出を利用する、
ことを特徴とするプログラム。
付記18に記載のプログラムであって、
前記(d)のステップにおいて、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティを利用する、
ことを特徴とするプログラム。
付記17に記載のプログラムであって、
前記(b)のステップにおいて、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの1つとして定義され、
前記(c)のステップにおいて、特徴量として、iベクトルを抽出する、
ことを特徴とするプログラム。
付記17に記載のプログラムであって、
前記(b)のステップにおいて、単調に増加する関数を用い、
前記(c)のステップにおいて、少なくとも1つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
ことを特徴とするプログラム。
11 CPU
12 メインメモリ
13 記憶装置
14 入力インターフェース
15 表示コントローラ
16 データリーダー/ライター
17 通信インターフェース
18 入力装置
19 ディスプレイ装置
20 コンピュータ読み取り可能な記録媒体
21 バス
100 音声特徴量抽出装置(実施の形態1)
100A 訓練部
100B 音声特徴量抽出部
101 音声データ記憶部
102A 音響特徴量抽出部
102B 音響特徴量抽出部
103 VAD部
103A VAD部
103B VAD部
104A VAD閾値記憶部
104B VAD閾値記憶部
105 選択済音響特徴量記憶部
106 VAD処理部
106A VAD処理部
106B VAD処理部
107 フレーム重み記憶部
108 発話レベル特徴量抽出器訓練部
109 発話レベル特徴量抽出器パラメータ記憶部
110 選択済フレーム音響特徴量記憶部
111 フレーム重み記憶部
112 発話レベル特徴量抽出部
113 発話レベル特徴量記憶部
200 音声特徴量抽出装置(実施の形態2)
200A 訓練部
200B 音声特徴量抽出部
201 音声データ記憶部
202A 音響特徴量抽出部
202B 音響特徴量抽出部
203A 第1のVAD部
203B 第1のVAD部
204A 第1のVAD閾値記憶部
204B 第1のVAD閾値記憶部
205 選択済フレーム音響特徴量記憶部
206A 第2のVAD部
206B 第2のVAD部
207A VAD処理部
207B VAD処理部
208 フレーム重み記憶部
209 発話レベル特徴量抽出器訓練部
210 発話レベル特徴量抽出器パラメータ記憶部
211 選択済フレーム音響特徴量記憶部
212 フレーム重み記憶部
213 発話レベル特徴量抽出部
214 発話レベル特徴量記憶部
300 音声特徴量抽出装置(実施の形態3)
301 音声データ記憶部
300A 訓練部
300B 音声特徴量抽出部
302A 音響特徴量抽出部
302B 音響特徴量抽出部
303A 第1のVAD部
303B 第1のVAD部
304A 第1のVAD閾値記憶部
304B 第1のVAD閾値記憶部
305 選択済フレーム音響特徴量記憶部
306A 第2のVAD部
306B 第2のVAD部
307A 第2のVAD閾値記憶部
308A VAD処理部
308B VAD処理部
309 フレーム重み記憶部
310 発話レベル特徴量抽出器訓練部
311 発話レベル特徴量抽出器パラメータ記憶部
312 選択済フレーム音響特徴量記憶部
313 フレーム重み記憶部
314 発話レベル特徴量抽出部
315 発話レベル特徴量記憶部
Claims (10)
- 入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、音声アクティビティ検出手段と、
与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、音声アクティビティ検出処理手段と、
前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、発話レベル特徴量抽出手段と、
を備えている、ことを特徴とする音声特徴量抽出装置。 - 請求項1に記載の音声特徴量抽出装置であって、
更に、前記音声アクティビティ検出処理手段によって計算された関数値として、複数のフレームレベル特徴量及び重みを用いて、発話レベル特徴量抽出手段を訓練して、発話レベル特徴量抽出器パラメータを生成する、発話レベル特徴量抽出器訓練手段を備えている、
ことを特徴とする音声特徴量抽出装置。 - 請求項1に記載の音声特徴量抽出装置であって、
非音声フレームを除去し、フレーム毎に音声化のための第2の事後確率を計算する、第2の音声アクティビティ検出手段を備え、
前記発話レベル特徴量抽出手段は、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出装置。 - 請求項2に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出器訓練手段は、前記事後確率がフレームの除去のために利用されるにも関わらず、第2の事後確率の関数からの重みを利用する、
ことを特徴とする音声特徴量抽出装置。 - 請求項3に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出手段は、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティ検出を利用する、
ことを特徴とする音声特徴量抽出装置。 - 請求項2に記載の音声特徴量抽出装置であって、
前記発話レベル特徴量抽出器訓練手段は、フレームを除去するためのポーリングにおける重みを得るために、音声アクティビティを利用する、
ことを特徴とする音声特徴量抽出装置。 - 請求項1に記載の音声特徴量抽出装置であって、
前記音声アクティビティ検出処理手段は、単調に増加し、且つ、非線形である、関数を用い、前記関数は、正規化されたオッズ及び正規化された対数オッズの1つとして定義され、
前記発話レベル特徴量抽出手段は、特徴量として、iベクトルを抽出する、
ことを特徴とする音声特徴量抽出装置。 - 請求項1に記載の音声特徴量抽出装置であって、
前記音声アクティビティ検出処理手段は、単調に増加する関数を用い、
前記発話レベル特徴量抽出手段は、少なくとも1つのプーリング層を有するニューラルネットワークを用いて、特徴量を抽出する、
ことを特徴とする音声特徴量抽出装置。 - (a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
(b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を有する、ことを特徴とする音声特徴量抽出方法。 - コンピュータに、
(a)入力された音声の発話に対応するフレームから非音声フレームを除去し、フレーム毎に、音声化のための事後確率を計算する、ステップと、
(b)与えられた音声アクティビティ検出のための事後確率から発話レベルの特徴量を生成するために、ポーリングフレーム内の重みとして関数値を計算する、ステップと、
(c)前記関数値を使用して、複数のフレームレベルの特徴量に基づいて、フレームから、発話レベルの特徴量を抽出する、ステップと、
を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/024933 WO2020003534A1 (en) | 2018-06-29 | 2018-06-29 | Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021526669A true JP2021526669A (ja) | 2021-10-07 |
JPWO2020003534A5 JPWO2020003534A5 (ja) | 2022-01-26 |
JP7095756B2 JP7095756B2 (ja) | 2022-07-05 |
Family
ID=68986169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020568354A Active JP7095756B2 (ja) | 2018-06-29 | 2018-06-29 | 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11580967B2 (ja) |
JP (1) | JP7095756B2 (ja) |
WO (1) | WO2020003534A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3997696A4 (en) * | 2019-07-10 | 2022-08-31 | NEC Corporation | DEVICE AND METHOD FOR EMBEDDING A LOUDSPEAKER |
US11158329B2 (en) * | 2019-09-11 | 2021-10-26 | Artificial Intelligence Foundation, Inc. | Identification of fake audio content |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006078654A (ja) * | 2004-09-08 | 2006-03-23 | Embedded System:Kk | 音声認証装置及び方法並びにプログラム |
WO2018163279A1 (ja) * | 2017-03-07 | 2018-09-13 | 日本電気株式会社 | 音声処理装置、音声処理方法、および音声処理プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222499B (zh) * | 2005-10-20 | 2012-11-07 | 日本电气株式会社 | 声音判别系统、声音判别方法以及声音判别用程序 |
US10403268B2 (en) * | 2016-09-08 | 2019-09-03 | Intel IP Corporation | Method and system of automatic speech recognition using posterior confidence scores |
US20180330718A1 (en) * | 2017-05-11 | 2018-11-15 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for End-to-End speech recognition |
US10672388B2 (en) * | 2017-12-15 | 2020-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for open-vocabulary end-to-end speech recognition |
-
2018
- 2018-06-29 JP JP2020568354A patent/JP7095756B2/ja active Active
- 2018-06-29 WO PCT/JP2018/024933 patent/WO2020003534A1/en active Application Filing
- 2018-06-29 US US17/253,434 patent/US11580967B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006078654A (ja) * | 2004-09-08 | 2006-03-23 | Embedded System:Kk | 音声認証装置及び方法並びにプログラム |
WO2018163279A1 (ja) * | 2017-03-07 | 2018-09-13 | 日本電気株式会社 | 音声処理装置、音声処理方法、および音声処理プログラム |
Non-Patent Citations (3)
Title |
---|
DAVID SNYDER ET AL.: "Deep Neural Network Embeddings for Text-Independent Speaker Verification", INTERSPEECH 2017, JPN6021045726, August 2017 (2017-08-01), pages 999 - 1003, XP055636895, ISSN: 0004646499, DOI: 10.21437/Interspeech.2017-620 * |
HITOSHI YAMAMOTO ET AL.: "Robust i-vector extraction tightly coupled with voice activity detection using deep neural networks", 2017 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE, JPN6021045728, December 2017 (2017-12-01), pages 600 - 604, XP033315500, ISSN: 0004646497, DOI: 10.1109/APSIPA.2017.8282114 * |
KOJI OKABE ET AL.: "Attentive Statistics Pooling for Deep Speaker Embedding", [ONLINE], JPN6021045727, 29 March 2018 (2018-03-29), ISSN: 0004646498 * |
Also Published As
Publication number | Publication date |
---|---|
US11580967B2 (en) | 2023-02-14 |
JP7095756B2 (ja) | 2022-07-05 |
US20210256970A1 (en) | 2021-08-19 |
WO2020003534A1 (en) | 2020-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11735176B2 (en) | Speaker diarization using speaker embedding(s) and trained generative model | |
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
EP2943951B1 (en) | Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination | |
US9368116B2 (en) | Speaker separation in diarization | |
US10089978B2 (en) | Detecting customers with low speech recognition accuracy by investigating consistency of conversation in call-center | |
CN109616097B (zh) | 语音数据处理方法、装置、设备及存储介质 | |
CN105900171A (zh) | 依赖于情境的瞬态抑制 | |
KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
EP3989217B1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
KR102410850B1 (ko) | 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치 | |
JP7095756B2 (ja) | 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム | |
CN112397093A (zh) | 一种语音检测方法与装置 | |
US20200075042A1 (en) | Detection of music segment in audio signal | |
CN112885379A (zh) | 客服语音评估方法、系统、设备及存储介质 | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
JP2011107650A (ja) | 音声特徴量算出装置、音声特徴量算出方法及び音声特徴量算出プログラム並びに音声認識装置 | |
Chit et al. | Myanmar continuous speech recognition system using fuzzy logic classification in speech segmentation | |
JP7028203B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
CN113658581A (zh) | 声学模型的训练、语音处理方法、装置、设备及存储介质 | |
KR102586289B1 (ko) | 대화 예측을 이용한 대화 에이전트 시스템 및 방법 | |
CN116453512A (zh) | 声纹模型的训练方法、装置、设备、介质及产品 | |
JP2022010410A (ja) | 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム | |
KR20220081129A (ko) | 음향 신호 처리 방법 및 장치 | |
CN118116387A (zh) | 多人交叉场景的单通道语音识别方法、系统、设备及介质 | |
WO2024072481A1 (en) | Text to speech synthesis without using parallel text-audio data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201207 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220118 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20220118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220606 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7095756 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |