JP7421827B2 - 音声変換装置、音声変換方法及び音声変換プログラム - Google Patents
音声変換装置、音声変換方法及び音声変換プログラム Download PDFInfo
- Publication number
- JP7421827B2 JP7421827B2 JP2022500378A JP2022500378A JP7421827B2 JP 7421827 B2 JP7421827 B2 JP 7421827B2 JP 2022500378 A JP2022500378 A JP 2022500378A JP 2022500378 A JP2022500378 A JP 2022500378A JP 7421827 B2 JP7421827 B2 JP 7421827B2
- Authority
- JP
- Japan
- Prior art keywords
- subband signals
- voice
- conversion
- spectrum
- filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 158
- 238000000034 method Methods 0.000 title claims description 39
- 238000001228 spectrum Methods 0.000 claims description 66
- 238000004904 shortening Methods 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 230000001131 transforming effect Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000007796 conventional method Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000006866 deterioration Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
差分スペクトル法に基づく声質変換では、下記非特許文献2に記載されるように、最小位相フィルタを用いることによって、従来から用いられているMLSA(Mel-Log Spectrum Approximation)よりも高品質な変換音声が得られることが知られている。
ここで、n=1,2,…,Nであり、WN=exp(j2π/2N)であってもよい。
式(2)
xn,pp(t)=f(t)*xn(t)
ここで、*は、畳み込みの演算子である。当該信号xn,pp(t)は、複素数値として得られる。
ここで、・*は、複素共役を表す。
式(4)
xn(k)=xn,SSB(kM)
なお、式(5)におけるNは、周波数ビン数であり、Tは所定期間内の総フレーム数であり、lは、タップ長(l番目のフレーム)である。
Claims (6)
- 対象者の音声の信号を取得する取得部と、
前記信号を、複数の周波数帯に関するサブバンド信号に分割する分割部と、
前記複数の周波数帯に関するサブバンド信号のうち、低域の1又は複数のサブバンド信号を変換する変換部と、
変換後の前記1又は複数のサブバンド信号及び変換していない残りのサブバンド信号を合成し、合成音声を生成する合成部と、
を備え、
前記変換部は、
前記低域の一つ又は複数のサブバンド信号の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出するフィルタ算出部と、
前記フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する短縮フィルタ算出部と、
前記短縮フィルタをフーリエ変換したスペクトルを前記信号のスペクトルに掛けて、逆フーリエ変換することで、前記低域の一つ又は複数のサブバンド信号の変換音声を生成する生成部と、を含む、
音声変換装置。 - 前記信号のサンプリング周波数は、44.1kHz以上であり、
前記低域の1又は複数のサブバンド信号は、少なくとも2kHzから4kHzの周波数帯に関するサブバンド信号を含む、
請求項1に記載の音声変換装置。 - 前記短縮フィルタをフーリエ変換したスペクトルを前記低域の一つ又は複数のサブバンド信号のスペクトルに掛けて、前記変換音声の声色を表す特徴量を算出し、当該特徴量とターゲット音声の声色を表す特徴量との誤差が小さくなるように、前記変換モデル及び前記リフタのパラメータを更新し、前記学習済みの変換モデル及び前記学習済みのリフタを生成する学習部をさらに備える、
請求項1又は請求項2に記載の音声変換装置。 - 前記変換モデルは、ニューラルネットワークで構成され、
前記学習部は、誤差逆伝播法によって前記パラメータを更新し、前記学習済みの変換モデル及び前記学習済みのリフタを生成する、
請求項3に記載の音声変換装置。 - 音声変換装置に備えられたプロセッサによって、
対象者の音声の信号を取得することと、
前記信号を、複数の周波数帯に関するサブバンド信号に分割することと、
前記複数の周波数帯に関するサブバンド信号のうち、低域の1又は複数のサブバンド信号を変換することと、
変換後の前記1又は複数のサブバンド信号及び変換していない残りのサブバンド信号を合成し、合成音声を生成することと、
を実行し、
前記低域の一つ又は複数のサブバンド信号を変換することを実行することは、
前記低域の一つ又は複数のサブバンド信号の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出し、
前記フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出し、
前記短縮フィルタをフーリエ変換したスペクトルを前記信号のスペクトルに掛けて、逆フーリエ変換することで、前記低域の一つ又は複数のサブバンド信号の変換音声を生成することと、を含む、
音声変換方法。 - 音声変換装置に備えられたプロセッサを、
対象者の音声の信号を取得する取得部、
前記信号を、複数の周波数帯に関するサブバンド信号に分割する分割部、
前記複数の周波数帯に関するサブバンド信号のうち、低域の1又は複数のサブバンド信号を変換する変換部、及び
変換後の前記1又は複数のサブバンド信号及び変換していない残りのサブバンド信号を合成し、合成音声を生成する合成部、
として機能させ、
前記変換部は、
前記低域の一つ又は複数のサブバンド信号の声色を表す特徴量を学習済みの変換モデルによって変換し、変換後の特徴量に学習済みのリフタを掛けて、フィルタのスペクトルを算出するフィルタ算出部と、
前記フィルタのスペクトルを逆フーリエ変換し、所定の窓関数を適用することで短縮フィルタを算出する短縮フィルタ算出部と、
前記短縮フィルタをフーリエ変換したスペクトルを前記信号のスペクトルに掛けて、逆フーリエ変換することで、前記低域の一つ又は複数のサブバンド信号の変換音声を生成する生成部と、を含む、
音声変換プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020022334 | 2020-02-13 | ||
JP2020022334 | 2020-02-13 | ||
PCT/JP2021/004367 WO2021161924A1 (ja) | 2020-02-13 | 2021-02-05 | 音声変換装置、音声変換方法及び音声変換プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021161924A1 JPWO2021161924A1 (ja) | 2021-08-19 |
JP7421827B2 true JP7421827B2 (ja) | 2024-01-25 |
Family
ID=77292174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022500378A Active JP7421827B2 (ja) | 2020-02-13 | 2021-02-05 | 音声変換装置、音声変換方法及び音声変換プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230086642A1 (ja) |
JP (1) | JP7421827B2 (ja) |
WO (1) | WO2021161924A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113555007B (zh) * | 2021-09-23 | 2021-12-14 | 中国科学院自动化研究所 | 语音拼接点检测方法及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004029587A (ja) | 2002-06-28 | 2004-01-29 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号処理方法、装置及び音声信号処理プログラム |
JP2010049196A (ja) | 2008-08-25 | 2010-03-04 | Toshiba Corp | 声質変換装置及び方法、音声合成装置及び方法 |
-
2021
- 2021-02-05 US US17/798,857 patent/US20230086642A1/en active Pending
- 2021-02-05 WO PCT/JP2021/004367 patent/WO2021161924A1/ja active Application Filing
- 2021-02-05 JP JP2022500378A patent/JP7421827B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004029587A (ja) | 2002-06-28 | 2004-01-29 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号処理方法、装置及び音声信号処理プログラム |
JP2010049196A (ja) | 2008-08-25 | 2010-03-04 | Toshiba Corp | 声質変換装置及び方法、音声合成装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
US20230086642A1 (en) | 2023-03-23 |
WO2021161924A1 (ja) | 2021-08-19 |
JPWO2021161924A1 (ja) | 2021-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3266819B2 (ja) | 周期信号変換方法、音変換方法および信号分析方法 | |
EP3336843B1 (en) | Speech coding method and speech coding apparatus | |
US20130024191A1 (en) | Audio communication device, method for outputting an audio signal, and communication system | |
US10957303B2 (en) | Training apparatus, speech synthesis system, and speech synthesis method | |
US20070192100A1 (en) | Method and system for the quick conversion of a voice signal | |
JP2010176090A (ja) | 信号帯域拡張装置 | |
US20180040336A1 (en) | Blind Bandwidth Extension using K-Means and a Support Vector Machine | |
US20230282202A1 (en) | Audio generator and methods for generating an audio signal and training an audio generator | |
WO2022161475A1 (zh) | 音频处理方法、装置及电子设备 | |
WO2018003849A1 (ja) | 音声合成装置および音声合成方法 | |
JP2013242410A (ja) | 音声処理装置 | |
JP7421827B2 (ja) | 音声変換装置、音声変換方法及び音声変換プログラム | |
Guido et al. | A neural-wavelet architecture for voice conversion | |
WO2021033685A1 (ja) | 音声変換装置、音声変換方法及び音声変換プログラム | |
US20190066657A1 (en) | Audio data learning method, audio data inference method and recording medium | |
JP7103390B2 (ja) | 音響信号生成方法、音響信号生成装置およびプログラム | |
JP2020013008A (ja) | 音声処理装置、音声処理プログラムおよび音声処理方法 | |
JP6902759B2 (ja) | 音響モデル学習装置、音声合成装置、方法およびプログラム | |
Gupta et al. | Artificial bandwidth extension using H∞ sampled-data control theory | |
Wang et al. | Combined Generative and Predictive Modeling for Speech Super-resolution | |
RU2823015C1 (ru) | Генератор аудиоданных и способы формирования аудиосигнала и обучения генератора аудиоданных | |
Nirmal et al. | Voice conversion system using salient sub-bands and radial basis function | |
WO2020032177A1 (ja) | 時系列データの周波数成分ベクトルを生成する方法及び装置 | |
WO2022101967A1 (ja) | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム | |
Iqbal et al. | Speech enhancement using deep complex convolutional neural network (DCCNN) model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220809 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7421827 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |