JP7205546B2 - 音声処理装置、音声処理方法、及びプログラム - Google Patents
音声処理装置、音声処理方法、及びプログラム Download PDFInfo
- Publication number
- JP7205546B2 JP7205546B2 JP2020552456A JP2020552456A JP7205546B2 JP 7205546 B2 JP7205546 B2 JP 7205546B2 JP 2020552456 A JP2020552456 A JP 2020552456A JP 2020552456 A JP2020552456 A JP 2020552456A JP 7205546 B2 JP7205546 B2 JP 7205546B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- signal
- processing
- speaker
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 245
- 238000003672 processing method Methods 0.000 title claims description 36
- 230000005236 sound signal Effects 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 47
- 238000000034 method Methods 0.000 claims description 45
- 238000011156 evaluation Methods 0.000 claims description 25
- 238000012986 modification Methods 0.000 description 45
- 230000004048 modification Effects 0.000 description 45
- 238000010586 diagram Methods 0.000 description 20
- 238000006243 chemical reaction Methods 0.000 description 19
- 238000000605 extraction Methods 0.000 description 14
- 238000012790 confirmation Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008602 contraction Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000011295 pitch Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
前記訓練データの元になる音声信号をサンプルデータとして取得する、データ取得部と、
取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、データ生成部と、
を備えている、
ことを特徴とする。
(a)前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
(b)取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を有する、
ことを特徴とする。
前記コンピュータに、
(a)前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
(b)取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を実行させる、プログラム。
以下、本発明の実施の形態1における、音声処理装置、音声処理方法、及びプログラムについて、図1~図5を参照しながら説明する。
最初に、図1を用いて、本実施の形態1における音声処理装置の構成について説明する。図1は、本発明の実施の形態1における音声処理装置の概略構成を示すブロック図である。
次に、本実施の形態1における音声処理装置100の動作について図3を用いて説明する。図3は、本発明の実施の形態1における音声処理装置の動作を示すフロー図である。以下の説明においては、適宜図1を参酌する。また、本実施の形態1では、音声処理装置100を動作させることによって、音声処理方法が実施される。よって、本実施の形態1における音声処理方法の説明は、以下の音声処理装置100の動作説明に代える。
以上のように、本実施の形態1では、元の音声信号から、声の高さが異なる人物を模した音声信号、又は声道長が異なる人物を模した音声信号が得られる。本実施の形態1によれば、訓練データの収集にかかるコストの上昇を抑制しつつ、話者認識における特徴抽出器の抽出精度の向上を図ることができる。
本実施の形態1におけるプログラムは、コンピュータに、図3に示すステップA1~A3を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における音声処理装置100と音声処理方法とを実現することができる。この場合、コンピュータのプロセッサは、データ取得部10、及びデータ生成部20として機能し、処理を行なう。
ここで、図4を用いて、本実施の形態1における音声処理装置100の変形例1について説明する。図4は、本発明の実施の形態1の変形例1における音声処理装置の構成を示すブロック図である。
続いて、図5を用いて、本実施の形態1における音声処理装置100の変形例2について説明する。図5は、本発明の実施の形態1の変形例2における音声処理装置の構成を示すブロック図である。
次に、本発明の実施の形態2における、音声処理装置、音声処理方法、及びプログラムについて、図6~図10を参照しながら説明する。
最初に、図6を用いて、本実施の形態2における音声処理装置の構成について説明する。図6は、本発明の実施の形態2における音声処理装置の構成を示すブロック図である。
次に、本実施の形態2における音声処理装置101の動作について図7を用いて説明する。図7は、本発明の実施の形態2における音声処理装置の動作を示すフロー図である。以下の説明においては、適宜図6を参酌する。また、本実施の形態2では、音声処理装置101を動作させることによって、音声処理方法が実施される。よって、本実施の形態2における音声処理方法の説明は、以下の音声処理装置101の動作説明に代える。
以上のように、本実施の形態2においても、実施の形態1と同様に、元の音声信号から、それとは異なる新たな音声信号が得られる。本実施の形態2によっても、訓練データの収集にかかるコストの上昇を抑制しつつ、話者認識における特徴抽出器の抽出精度の向上を図ることができる。
本実施の形態2におけるプログラムは、コンピュータに、図7に示すステップB1~B5を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態2における音声処理装置101と音声処理方法とを実現することができる。この場合、コンピュータのプロセッサは、データ取得部10、及びデータ生成部20として機能し、処理を行なう。
ここで、図8を用いて、本実施の形態2における音声処理装置101の変形例1について説明する。図8は、本発明の実施の形態2の変形例1における音声処理装置の構成を示すブロック図である。
続いて、図9を用いて、本実施の形態2における音声処理装置101の変形例2について説明する。図9は、本発明の実施の形態2の変形例2における音声処理装置の構成を示すブロック図である。
ここで、図10及び図11を用いて、本実施の形態2における音声処理装置101の変形例3について説明する。図10は、本発明の実施の形態2の変形例3における音声処理装置の構成を示すブロック図である。
ここで、実施の形態1及び2におけるプログラムを実行することによって、音声処理装置を実現するコンピュータについて図12を用いて説明する。図12は、本発明の実施の形態1及び2における音声処理装置を実現するコンピュータの一例を示すブロック図である。
話者認識における訓練データを生成するための装置であって、
前記訓練データの元になる音声信号をサンプルデータとして取得する、データ取得部と、
取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、データ生成部と、
を備えている、
ことを特徴とする音声処理装置。
付記1に記載の音声処理装置であって、
前記データ生成部が、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とする音声処理装置。
付記1に記載の音声処理装置であって、
前記データ生成部が、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とする音声処理装置。
付記1~3のいずれかに記載の音声処理装置であって、
前記データ生成部が、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理装置。
付記1~4のいずれかに記載の音声処理装置であって、
前記データ生成部が、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理装置。
付記3に記載の音声処理装置であって、
前記データ生成部が、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とする音声処理装置。
話者認識における訓練データを生成するための方法であって、
(a)前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
(b)取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を有する、
ことを特徴とする音声処理方法。
付記7に記載の音声処理方法であって、
前記(b)のステップにおいて、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とする音声処理方法。
付記7に記載の音声処理方法であって、
前記(b)のステップにおいて、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とする音声処理方法。
付記7~9のいずれかに記載の音声処理方法であって、
前記(b)のステップにおいて、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理方法。
付記7~10のいずれかに記載の音声処理方法であって、
前記(b)のステップにおいて、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理方法。
付記9に記載の音声処理方法であって、
前記(b)のステップにおいて、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とする音声処理方法。
コンピュータによって、話者認識における訓練データを生成するためのプログラムであって、
前記コンピュータに、
(a)前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
(b)取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を実行させる、プログラム。
付記13に記載のプログラムであって、
前記(b)のステップにおいて、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とするプログラム。
付記13に記載のプログラムであって、
前記(b)のステップにおいて、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とするプログラム。
付記13~15のいずれかに記載のプログラムであって、
前記(b)のステップにおいて、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とするプログラム。
付記13~16のいずれかに記載のプログラムであって、
前記(b)のステップにおいて、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とするプログラム。
付記15に記載のプログラムであって、
前記(b)のステップにおいて、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とするプログラム。
20 データ生成部
21 音声変換部
22 類似度判定部
23 評価確認部
24 符号化処理部
25 演算処理部
26 復号処理部
27 第2の符号化処理部
28 差分算出部
100 音声処理装置(実施の形態1)
101 音声処理装置(実施の形態2)
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
200 話者データベース
300 話者認識装置
Claims (21)
- 第1の音声信号をサンプルデータとして取得し、
取得した前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな第2の音声信号を、前記訓練データとして生成する、
音声処理装置と、
生成された前記第2の音声信号を前記第1の音声信号の話者とは異なる話者として学習する、話者認識装置と、
を備えている、
ことを特徴とするシステム。 - 請求項1に記載のシステムであって、
前記音声処理装置が、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とするシステム。 - 請求項1に記載のシステムであって、
前記音声処理装置が、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とするシステム。 - 請求項1~3のいずれかに記載のシステムであって、
前記音声処理装置が、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とするシステム。 - 請求項1~4のいずれかに記載のシステムであって、
前記音声処理装置が、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とするシステム。 - 請求項3に記載のシステムであって、
前記音声処理装置が、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とするシステム。 - 請求項3に記載のシステムであって、
前記音声処理装置が、前記類似度が所定の値より大きい場合に、前記潜在変数に対する演算処理として、前記潜在変数に乱数を加算する、
ことを特徴とするシステム。 - (a)第1の音声信号をサンプルデータとして取得する、ステップと、
(b)取得した前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな第2の音声信号を、前記訓練データとして生成する、ステップと、
(c)生成された前記第2の音声信号を前記第1の音声信号の話者とは異なる話者として学習する、ステップと、
を有する、
ことを特徴とする音声処理方法。 - 請求項8に記載の音声処理方法であって、
前記(b)のステップにおいて、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とする音声処理方法。 - 請求項8に記載の音声処理方法であって、
前記(b)のステップにおいて、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とする音声処理方法。 - 請求項8~10のいずれかに記載の音声処理方法であって、
前記(b)のステップにおいて、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理方法。 - 請求項8~11のいずれかに記載の音声処理方法であって、
前記(b)のステップにおいて、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理方法。 - 請求項10に記載の音声処理方法であって、
前記(b)のステップにおいて、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とする音声処理方法。 - 請求項10に記載の音声処理方法であって、
前記(b)のステップにおいて、前記類似度が所定の値より大きい場合に、前記潜在変数に対する演算処理として、前記潜在変数に乱数を加算する、
ことを特徴とする音声処理方法。 - コンピュータに、
(a)第1の音声信号をサンプルデータとして取得する、ステップと、
(b)取得した前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな第2の音声信号を、前記訓練データとして生成する、ステップと、
(c)生成された前記第2の音声信号を前記第1の音声信号の話者とは異なる話者として学習する、ステップと、
を実行させる、プログラム。 - 請求項15に記載のプログラムであって、
前記(b)のステップにおいて、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とするプログラム。 - 請求項15に記載のプログラムであって、
前記(b)のステップにおいて、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とするプログラム。 - 請求項15~17のいずれかに記載のプログラムであって、
前記(b)のステップにおいて、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とするプログラム。 - 請求項15~18のいずれかに記載のプログラムであって、
前記(b)のステップにおいて、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とするプログラム。 - 請求項17に記載のプログラムであって、
前記(b)のステップにおいて、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とするプログラム。 - 請求項17に記載のプログラムであって、
前記(b)のステップにおいて、前記類似度が所定の値より大きい場合に、前記潜在変数に対する演算処理として、前記潜在変数に乱数を加算する、
ことを特徴とするプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/039735 WO2020084741A1 (ja) | 2018-10-25 | 2018-10-25 | 音声処理装置、音声処理方法、及びコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020084741A1 JPWO2020084741A1 (ja) | 2021-09-09 |
JP7205546B2 true JP7205546B2 (ja) | 2023-01-17 |
Family
ID=70332183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020552456A Active JP7205546B2 (ja) | 2018-10-25 | 2018-10-25 | 音声処理装置、音声処理方法、及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US12051424B2 (ja) |
EP (1) | EP3872808A4 (ja) |
JP (1) | JP7205546B2 (ja) |
WO (1) | WO2020084741A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240144101A1 (en) * | 2022-11-01 | 2024-05-02 | Kabushiki Kaisha Yaskawa Denki | Generation system, computer-readable storage medium, and method for generating waveform evaluation model |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003022088A (ja) | 2001-07-10 | 2003-01-24 | Sharp Corp | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 |
JP2018139071A (ja) | 2017-02-24 | 2018-09-06 | 株式会社リコー | 生成モデル学習方法、生成モデル学習装置およびプログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0792673B2 (ja) | 1984-10-02 | 1995-10-09 | 株式会社東芝 | 認識用辞書学習方法 |
JPS6378200A (ja) * | 1986-09-22 | 1988-04-08 | 松下電器産業株式会社 | 音声認識方法 |
JPH04295900A (ja) * | 1991-03-26 | 1992-10-20 | Sekisui Chem Co Ltd | 話者認識システム |
US5913187A (en) * | 1997-08-29 | 1999-06-15 | Nortel Networks Corporation | Nonlinear filter for noise suppression in linear prediction speech processing devices |
KR20140017338A (ko) * | 2012-07-31 | 2014-02-11 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 처리 장치 및 방법 |
US9548056B2 (en) * | 2012-12-19 | 2017-01-17 | Dolby International Ab | Signal adaptive FIR/IIR predictors for minimizing entropy |
WO2016092807A1 (ja) | 2014-12-11 | 2016-06-16 | 日本電気株式会社 | 話者識別装置および話者識別用の登録音声の特徴量登録方法 |
US10861475B2 (en) * | 2015-11-10 | 2020-12-08 | Dolby International Ab | Signal-dependent companding system and method to reduce quantization noise |
US10373073B2 (en) * | 2016-01-11 | 2019-08-06 | International Business Machines Corporation | Creating deep learning models using feature augmentation |
-
2018
- 2018-10-25 JP JP2020552456A patent/JP7205546B2/ja active Active
- 2018-10-25 WO PCT/JP2018/039735 patent/WO2020084741A1/ja unknown
- 2018-10-25 US US17/288,154 patent/US12051424B2/en active Active
- 2018-10-25 EP EP18937772.4A patent/EP3872808A4/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003022088A (ja) | 2001-07-10 | 2003-01-24 | Sharp Corp | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 |
JP2018139071A (ja) | 2017-02-24 | 2018-09-06 | 株式会社リコー | 生成モデル学習方法、生成モデル学習装置およびプログラム |
Non-Patent Citations (1)
Title |
---|
西崎博光 他,"音声コーデックと変分オートエンコーダを利用した音響モデル学習データの拡張",日本音響学会2017年秋季研究発表会講演論文集CD-ROM,2017年09月11日,pp.87-90 |
Also Published As
Publication number | Publication date |
---|---|
US20220005482A1 (en) | 2022-01-06 |
US12051424B2 (en) | 2024-07-30 |
EP3872808A1 (en) | 2021-09-01 |
EP3872808A4 (en) | 2021-11-03 |
JPWO2020084741A1 (ja) | 2021-09-09 |
WO2020084741A1 (ja) | 2020-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
CN111292764A (zh) | 辨识系统及辨识方法 | |
CN112071330B (zh) | 一种音频数据处理方法、设备以及计算机可读存储介质 | |
CN111899758B (zh) | 语音处理方法、装置、设备和存储介质 | |
US20170011736A1 (en) | Method and device for recognizing voice | |
Bharti et al. | Real time speaker recognition system using MFCC and vector quantization technique | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN110890087A (zh) | 一种基于余弦相似度的语音识别方法和装置 | |
CN112786003A (zh) | 语音合成模型训练方法、装置、终端设备及存储介质 | |
US10147443B2 (en) | Matching device, judgment device, and method, program, and recording medium therefor | |
JP7205546B2 (ja) | 音声処理装置、音声処理方法、及びプログラム | |
CN115376498A (zh) | 语音识别方法、模型训练方法、装置、介质、电子设备 | |
CN109671440B (zh) | 一种模拟音频失真方法、装置、服务器及存储介质 | |
WO2018001125A1 (zh) | 一种音频识别方法和装置 | |
CN111292754A (zh) | 语音信号处理方法、装置及设备 | |
JP7095756B2 (ja) | 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム | |
CN113436621B (zh) | 一种基于gpu语音识别的方法、装置、电子设备及存储介质 | |
Singh et al. | Voice based login authentication for Linux | |
CN115035904A (zh) | 一种基于生成式对抗神经网络的高质量声码器模型 | |
CN114724589A (zh) | 语音质检的方法、装置、电子设备和存储介质 | |
CN113990325A (zh) | 流式语音识别方法及装置、电子设备、存储介质 | |
Aggarwal et al. | Characterization between child and adult voice using machine learning algorithm | |
Al-Sarayreh et al. | Using the sound recognition techniques to reduce the electricity consumption in highways | |
Zhipeng et al. | Voiceprint recognition based on BP Neural Network and CNN | |
CN113066459A (zh) | 基于旋律的歌曲信息合成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210420 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221212 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7205546 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |