JP2020034624A - 信号生成装置、信号生成システム、信号生成方法およびプログラム - Google Patents
信号生成装置、信号生成システム、信号生成方法およびプログラム Download PDFInfo
- Publication number
- JP2020034624A JP2020034624A JP2018158776A JP2018158776A JP2020034624A JP 2020034624 A JP2020034624 A JP 2020034624A JP 2018158776 A JP2018158776 A JP 2018158776A JP 2018158776 A JP2018158776 A JP 2018158776A JP 2020034624 A JP2020034624 A JP 2020034624A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- amplitude
- frequency
- phase
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000006243 chemical reaction Methods 0.000 claims abstract description 22
- 230000005236 sound signal Effects 0.000 claims description 15
- 239000012634 fragment Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 12
- 230000006870 function Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 3
- 238000012886 linear function Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
ニューラルネットワークを用いた信号処理の一例として、複数の話者の音声を含む信号から一部の話者の音声を強調し、強調した音声に基づいて音声認識を行う処理が挙げられる。このような処理を行うニューラルネットワークでは、例えば前半の音声強調処理が正しく実行されているかを確認することが困難となる場合がある。
振幅:Ajn=|X(j、n)|
位相:θjn=tan−1(I{X(j、n)}/R{X(j、n)})
ただし、|・|は絶対値をとる演算、R{・}とI{・}はそれぞれ実部、虚部をとる演算、tan−1はタンジェント関数の逆関数を表す。
(例1)中間層が複素層3層、出力が複素層で構成される場合
中間層1(複素):h1(n)=tanh(|C1X(n)|)exp(i arg(C1X(n)))
中間層2(複素):h2(n)=tanh(|C2h1(n)|)exp(i arg(C2h1(n)))
中間層3(複素):h3(n)=tanh(|C3h2(n)|)exp(i arg(C3h2(n)))
出力層(複素):out(n)=tanh(|Coh3(n)|)exp(i arg(Coh3(n)))
(例2)中間層が複素層1層、絶対値層、実数層1層、出力が実数層で構成される場合
中間層1(複素):h1(n)=tanh(|C1X(n)|)exp(i arg(C1X(n)))
絶対値層:h2(n)=|h1(n)|
中間層3(実数):h3(n)=tanh(R3h2(n))
出力層(実数):out(n)=tanh(Roh3(n))
X(n)=[X(1,n),X(2,n),・・・,X(J,n)] ・・・(1)
<参考文献1>P.J.Werbos,“Backpropagation Through Time:What it Does and How to Do It”,Proceedings of the IEEE,vol.78,no.10,pp.1550-1560,Oct.1990.
<参考文献2>T.Nitta,“An extension of the back-propagation algorithm to complex numbers”,Neural Netw.,vol.10,no.8,pp.1391-1415,Nov.1997.
・音声の短時間フーリエ変換特徴量を入力として、音素、音節、文字、単語片、および、単語の少なくともいずれか1つである処理単位ごとの事後確率を出力とするような音響モデル
・クリーンな音声に雑音を重畳した雑音重畳音声から取得された短時間フーリエ変換特徴量を入力として、クリーンな音声の短時間フーリエ変換特徴量を出力とするデノイジングオートエンコーダ
sj=2j/12 ・・・(5)
τn=nT ・・・(6)
振幅:Bjn=|Y(j、n)|
位相:φjn=tan−1(I{Y(j、n)}/R{Y(j、n)})
ただし、|・|は絶対値をとる演算、R{・}とI{・}はそれぞれ実部、虚部をとる演算、tan−1はタンジェント関数の逆関数を表す。
Y(n)=[Y(1,n),Y(2,n),・・・,Y(J,n)] ・・・(7)
Ωk=G/ωk ・・・(9)
第2の実施形態にかかる信号生成システムは、第1の実施形態の信号生成装置の一部の機能を外部の装置(サーバ装置)で実行する。すなわち第2の実施形態にかかる信号生成システムは、信号生成処理を複数の装置で分散して実現する。
第1または第2の実施形態にかかる装置を用いて、特定話者の認識に用いることもできる。例えば、記者会見、講演会、および、学会発表など、一人で話す時間が長い場面において取得された音声から、雑音を抑制して、話者の声を強調するような場合を想定する。この場合、第1または第2の実施形態にかかる信号生成装置、信号生成システム、信号生成方法およびプログラムを用いて、取得した音声の雑音の抑制具合を具体的に音声として再生することができる。利用者は、再生した音声を実際にきくことで、十分雑音が抑制されているかなどを確認できる。さらに、音声取得のために設定されたマイクが可動な場合、雑音が強調されない、反響などが少ない、など、マイク自体の場所、集音方向など、試した結果を利用者が音で確認することができる。これらは演奏会の楽器などの音響でもよい。
101 音声取得部
102 変換部
103 ニューラルネットワーク処理部
104 周波数取得部
105 生成部
111−2、211−2 通信制御部
121 記憶部
200−2 サーバ装置
300−2 ネットワーク
601 絶対値取得部
602 ピーク周波数算出部
901a、901b マイクロホン
Claims (9)
- 音響信号を変換し、複数の周波数における振幅および位相を出力する変換部と、
前記振幅および前記位相を入力とするニューラルネットワークに含まれる中間層の複数のノードごとに、前記ノードの演算で用いられる複数の重みに基づいて周波数を取得する周波数取得部と、
取得された複数の周波数と、複数の前記ノードそれぞれに対応する振幅および位相とに基づいて、音響信号を生成する生成部と、
を備える信号生成装置。 - 前記ニューラルネットワークは、複素数を入出力する層を含む複素ニューラルネットワークである、
請求項1に記載の信号生成装置。 - 前記周波数取得部は、複素数を入出力する中間層の複数のノードごとに、前記ノードの演算で用いられる複数の重みの絶対値に基づいて周波数を取得する、
請求項2に記載の信号生成装置。 - 前記周波数取得部は、前記絶対値が最大となる重みに対応する前層のノードに対して定められる周波数を取得する、
請求項3に記載の信号生成装置。 - 前記ニューラルネットワークは、音響信号の特徴量を入力して音素、音節、文字、単語片、および、単語の少なくともいずれか1つである処理単位ごとの事後確率を出力するように学習された音響モデルである、
請求項1に記載の信号生成装置。 - 前記ニューラルネットワークは、音響信号の特徴量を入力して雑音が除去された特徴量を出力するように学習されたデノイジングオートエンコーダである、
請求項1に記載の信号生成装置。 - 音響信号を変換し、複数の周波数における振幅および位相を出力する変換部と、
前記振幅および前記位相を入力とするニューラルネットワークに含まれる中間層の複数のノードごとに、前記ノードの演算で用いられる複数の重みに基づいて周波数を取得する周波数取得部と、
取得された複数の周波数と、複数の前記ノードそれぞれに対応する振幅および位相とに基づいて、音響信号を生成する生成部と、
を備える信号生成システム。 - 音響信号を変換し、複数の周波数における振幅および位相を出力する変換ステップと、
前記振幅および前記位相を入力とするニューラルネットワークに含まれる中間層の複数のノードごとに、前記ノードの演算で用いられる複数の重みに基づいて周波数を取得する周波数取得ステップと、
取得された複数の周波数と、複数の前記ノードそれぞれに対応する振幅および位相とに基づいて、音響信号を生成する生成ステップと、
を含む信号生成方法。 - コンピュータを、
音響信号を変換し、複数の周波数における振幅および位相を出力する変換部と、
前記振幅および前記位相を入力とするニューラルネットワークに含まれる中間層の複数のノードごとに、前記ノードの演算で用いられる複数の重みに基づいて周波数を取得する周波数取得部と、
取得された複数の周波数と、複数の前記ノードそれぞれに対応する振幅および位相とに基づいて、音響信号を生成する生成部と、
として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018158776A JP6903611B2 (ja) | 2018-08-27 | 2018-08-27 | 信号生成装置、信号生成システム、信号生成方法およびプログラム |
US16/296,282 US11282505B2 (en) | 2018-08-27 | 2019-03-08 | Acoustic signal processing with neural network using amplitude, phase, and frequency |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018158776A JP6903611B2 (ja) | 2018-08-27 | 2018-08-27 | 信号生成装置、信号生成システム、信号生成方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020034624A true JP2020034624A (ja) | 2020-03-05 |
JP6903611B2 JP6903611B2 (ja) | 2021-07-14 |
Family
ID=69583753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018158776A Active JP6903611B2 (ja) | 2018-08-27 | 2018-08-27 | 信号生成装置、信号生成システム、信号生成方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11282505B2 (ja) |
JP (1) | JP6903611B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6959420B1 (ja) * | 2020-10-08 | 2021-11-02 | 株式会社小野測器 | 信号処理装置、及び、信号処理方法 |
JPWO2021220515A1 (ja) * | 2020-05-01 | 2021-11-04 | ||
JP2022017170A (ja) * | 2020-07-20 | 2022-01-25 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム |
WO2022018864A1 (ja) * | 2020-07-22 | 2022-01-27 | 2nd Community株式会社 | 音データ処理装置、音データ処理方法及び音データ処理プログラム |
JP2022062453A (ja) * | 2020-10-08 | 2022-04-20 | 株式会社小野測器 | 推定装置、及び、推定方法 |
WO2024062626A1 (ja) * | 2022-09-22 | 2024-03-28 | 富美男 大庭 | 演算装置、集積回路、機械学習装置、判別装置、制御方法、及び、制御装置 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11854562B2 (en) * | 2019-05-14 | 2023-12-26 | International Business Machines Corporation | High-quality non-parallel many-to-many voice conversion |
US20200394994A1 (en) * | 2019-06-12 | 2020-12-17 | Nvidia Corporation | Invertible neural network to synthesize audio signals |
US11646009B1 (en) * | 2020-06-16 | 2023-05-09 | Amazon Technologies, Inc. | Autonomously motile device with noise suppression |
US11863221B1 (en) * | 2020-07-14 | 2024-01-02 | Hrl Laboratories, Llc | Low size, weight and power (swap) efficient hardware implementation of a wide instantaneous bandwidth neuromorphic adaptive core (NeurACore) |
US12057989B1 (en) * | 2020-07-14 | 2024-08-06 | Hrl Laboratories, Llc | Ultra-wide instantaneous bandwidth complex neuromorphic adaptive core processor |
US11742901B2 (en) * | 2020-07-27 | 2023-08-29 | Electronics And Telecommunications Research Institute | Deep learning based beamforming method and apparatus |
CN112201272B (zh) * | 2020-09-29 | 2024-07-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据降噪的方法、装置、设备及存储介质 |
CN113229842B (zh) * | 2021-05-19 | 2022-10-14 | 苏州美糯爱医疗科技有限公司 | 一种基于复数深度神经网络的心肺音自动分离方法 |
JP7508409B2 (ja) * | 2021-05-31 | 2024-07-01 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05232986A (ja) * | 1992-02-21 | 1993-09-10 | Hitachi Ltd | 音声信号用前処理方法 |
US20170353789A1 (en) * | 2016-06-01 | 2017-12-07 | Google Inc. | Sound source estimation using neural networks |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5692098A (en) * | 1995-03-30 | 1997-11-25 | Harris | Real-time Mozer phase recoding using a neural-network for speech compression |
US7885420B2 (en) * | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
US9177550B2 (en) * | 2013-03-06 | 2015-11-03 | Microsoft Technology Licensing, Llc | Conservatively adapting a deep neural network in a recognition system |
US10564923B2 (en) * | 2014-03-31 | 2020-02-18 | Sony Corporation | Method, system and artificial neural network |
US9582753B2 (en) * | 2014-07-30 | 2017-02-28 | Mitsubishi Electric Research Laboratories, Inc. | Neural networks for transforming signals |
US10339921B2 (en) * | 2015-09-24 | 2019-07-02 | Google Llc | Multichannel raw-waveform neural networks |
US9813810B1 (en) * | 2016-01-05 | 2017-11-07 | Google Inc. | Multi-microphone neural network for sound recognition |
US10657437B2 (en) * | 2016-08-18 | 2020-05-19 | International Business Machines Corporation | Training of front-end and back-end neural networks |
US10140980B2 (en) * | 2016-12-21 | 2018-11-27 | Google LCC | Complex linear projection for acoustic modeling |
US10614827B1 (en) * | 2017-02-21 | 2020-04-07 | Oben, Inc. | System and method for speech enhancement using dynamic noise profile estimation |
US10381020B2 (en) * | 2017-06-16 | 2019-08-13 | Apple Inc. | Speech model-based neural network-assisted signal enhancement |
US10553207B2 (en) * | 2017-12-29 | 2020-02-04 | Facebook, Inc. | Systems and methods for employing predication in computational models |
US10832660B2 (en) * | 2018-04-10 | 2020-11-10 | Futurewei Technologies, Inc. | Method and device for processing whispered speech |
JP7027365B2 (ja) * | 2019-03-13 | 2022-03-01 | 株式会社東芝 | 信号処理装置、信号処理方法およびプログラム |
-
2018
- 2018-08-27 JP JP2018158776A patent/JP6903611B2/ja active Active
-
2019
- 2019-03-08 US US16/296,282 patent/US11282505B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05232986A (ja) * | 1992-02-21 | 1993-09-10 | Hitachi Ltd | 音声信号用前処理方法 |
US20170353789A1 (en) * | 2016-06-01 | 2017-12-07 | Google Inc. | Sound source estimation using neural networks |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021220515A1 (ja) * | 2020-05-01 | 2021-11-04 | ||
JP7422867B2 (ja) | 2020-05-01 | 2024-01-26 | 株式会社ソニー・インタラクティブエンタテインメント | 情報処理装置、情報処理方法及びプログラム |
JP2022017170A (ja) * | 2020-07-20 | 2022-01-25 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム |
JP7406521B2 (ja) | 2020-07-20 | 2023-12-27 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声検出方法、音声検出装置、電子デバイス、コンピュータ可読記憶媒体、及び、コンピュータプログラム |
WO2022018864A1 (ja) * | 2020-07-22 | 2022-01-27 | 2nd Community株式会社 | 音データ処理装置、音データ処理方法及び音データ処理プログラム |
JPWO2022018864A1 (ja) * | 2020-07-22 | 2022-01-27 | ||
JP7160264B2 (ja) | 2020-07-22 | 2022-10-25 | 2nd Community株式会社 | 音データ処理装置、音データ処理方法及び音データ処理プログラム |
JP6959420B1 (ja) * | 2020-10-08 | 2021-11-02 | 株式会社小野測器 | 信号処理装置、及び、信号処理方法 |
JP2022062452A (ja) * | 2020-10-08 | 2022-04-20 | 株式会社小野測器 | 信号処理装置、及び、信号処理方法 |
JP2022062453A (ja) * | 2020-10-08 | 2022-04-20 | 株式会社小野測器 | 推定装置、及び、推定方法 |
WO2024062626A1 (ja) * | 2022-09-22 | 2024-03-28 | 富美男 大庭 | 演算装置、集積回路、機械学習装置、判別装置、制御方法、及び、制御装置 |
Also Published As
Publication number | Publication date |
---|---|
US20200066260A1 (en) | 2020-02-27 |
JP6903611B2 (ja) | 2021-07-14 |
US11282505B2 (en) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6903611B2 (ja) | 信号生成装置、信号生成システム、信号生成方法およびプログラム | |
Luo et al. | Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation | |
US20210089967A1 (en) | Data training in multi-sensor setups | |
Michelsanti et al. | Conditional generative adversarial networks for speech enhancement and noise-robust speaker verification | |
JP6989951B2 (ja) | スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法 | |
Eskimez et al. | Adversarial training for speech super-resolution | |
Tian et al. | TFGAN: Time and frequency domain based generative adversarial network for high-fidelity speech synthesis | |
Zhang et al. | Multi-channel multi-frame ADL-MVDR for target speech separation | |
CN108198566B (zh) | 信息处理方法及装置、电子设备及存储介质 | |
JP2008158035A (ja) | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 | |
WO2019163848A1 (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
Parmar et al. | Effectiveness of cross-domain architectures for whisper-to-normal speech conversion | |
Feng et al. | Learning bandwidth expansion using perceptually-motivated loss | |
Shankar et al. | Efficient two-microphone speech enhancement using basic recurrent neural network cell for hearing and hearing aids | |
JP2021043264A (ja) | 音声変換装置、音声変換学習装置、画像生成装置、画像生成学習装置、音声変換方法、音声変換学習方法、画像生成方法、画像生成学習方法及びコンピュータプログラム | |
Rice et al. | General Purpose Audio Effect Removal | |
CN114333892A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
JP6721165B2 (ja) | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム | |
JP7360814B2 (ja) | 音声処理装置及び音声処理プログラム | |
JP6925995B2 (ja) | 信号処理装置、音声強調装置、信号処理方法およびプログラム | |
JPH1185194A (ja) | 声質変換音声合成装置 | |
Dwivedi et al. | Spherical harmonics domain-based approach for source localization in presence of directional interference | |
JP7103390B2 (ja) | 音響信号生成方法、音響信号生成装置およびプログラム | |
Ai et al. | Reverberation modeling for source-filter-based neural vocoder | |
JP2021189402A (ja) | 音声処理プログラム、音声処理装置及び音声処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200701 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210623 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6903611 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |