JP2014109669A - 音声合成装置、音声合成方法および音声合成プログラム - Google Patents
音声合成装置、音声合成方法および音声合成プログラム Download PDFInfo
- Publication number
- JP2014109669A JP2014109669A JP2012263607A JP2012263607A JP2014109669A JP 2014109669 A JP2014109669 A JP 2014109669A JP 2012263607 A JP2012263607 A JP 2012263607A JP 2012263607 A JP2012263607 A JP 2012263607A JP 2014109669 A JP2014109669 A JP 2014109669A
- Authority
- JP
- Japan
- Prior art keywords
- subband
- waveform
- speech
- sound source
- weighted sum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 49
- 238000001308 synthesis method Methods 0.000 title claims description 8
- 239000013598 vector Substances 0.000 claims abstract description 84
- 238000012545 processing Methods 0.000 claims abstract description 77
- 238000001228 spectrum Methods 0.000 claims abstract description 34
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims description 76
- 230000008569 process Effects 0.000 claims description 29
- 230000005284 excitation Effects 0.000 claims description 24
- 238000002156 mixing Methods 0.000 claims description 12
- 230000002194 synthesizing effect Effects 0.000 claims description 12
- 238000003786 synthesis reaction Methods 0.000 abstract description 42
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000003595 spectral effect Effects 0.000 description 25
- 230000035508 accumulation Effects 0.000 description 16
- 238000009825 accumulation Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000005070 sampling Methods 0.000 description 10
- 238000007792 addition Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 230000037433 frameshift Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【解決手段】入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成装置200であって、音源波形を複数の周波数帯域の成分に分解する成分分解部205と、分解された成分をそれぞれサブバンド符号化するサブバンド符号化部210と、サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、分解成分について重み付き和を算出する重み付き和算出部220と、重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成するサブバンド復号部140と、を備える。
【選択図】図6
Description
(音声合成装置の構成)
図1は、音声合成装置100の基本構成を示すブロック図であり、図2は、音声合成装置100の具体的構成を示すブロック図である。音声合成装置100は、音源波形をサブバンド符号化部110によりサブバンド符号化して蓄積し、入力情報に応じてサブバンド毎に振幅を調整する。そして、振幅を調整されたサブバンド符号化波形ベクトルを用いてサブバンド復号部140により合成し、目標となるスペクトル特性を近似的に有する音声波形を合成する。
フィルタバンクを構成するあるフィルタの係数に離散フーリエ変換(DFT)や離散コサイン変換(DCT)、あるいはそれらの逆変換の係数系列を掛けると、基となったフィルタの特性を、周波数軸上でシフトした形のフィルタ特性が得られる。そして、このようなフィルタでフィルタバンクを構成することで、フィルタバンクの処理で必要な計算に、FFT(高速フーリエ変換)等の高速化手法が利用可能となる。これにより、サブバンド符号化・サブバンド合成の処理を高速化することができる。
次に、音源の制御方法について説明する。まず前提として、サブバンド符号化・サブバンド合成の前後で処理の線形性が保証されているものとする。先述のDFTやDCTに基づくフィルタバンクは、線形な操作の組み合わせだけでその処理が構成されているので、この条件を満たす。
フィルタバンクにおける間引き率Mはその値が1(全く間引かない)からMまでの場合で、少なくとも再合成前に各サブバンドでパワー調整を行なわない場合、サブバンド合成結果がサブバンド符号化前の入力信号と一致するようなフィルタバンクを構成することができることが理論上知られている。例えば、DFTやDCTのみでフィルタバンクを構成し、間引き率Lの間引きを行なう場合、計算誤差を無視すれば、それらの逆変換により入力波形が完全に復元できることは明らかである。
(成分分解を行う装置の構成)
上記の実施形態は、サブバンド符号化により周波数分割された帯域ごとに振幅調整をしているが、本発明の実施形態においてはサブバンド符号化前に成分分解しておき、符号化とは別に、分解された成分ごとに振幅調整を行なう。
次に、音声合成装置200の動作例を説明する。雑音素片は、成分分解部205における音源波形に対する帯域制限フィルタのタップ数と、サブバンド符号化部210におけるフィルタのタップ数の影響を考慮する必要がある。ランダムに選択した素片の足し合わせで雑音を構成する方法をとることもできるが、そのようにすると、足し合わせの数が増え、処理が複雑になる。
サブバンド符号化および復号を行なう対象の周波数帯域と同じ幅で、音源波形を成分分解する例を上げて、本発明の処理量の低減を説明する。この例では、事前に成分分解しない方法に比べて、3/4程度の処理量で同等の周波数および時間の解像度を得られる。
110 サブバンド符号化部
120 サブバンド符号化音源生成部
121 蓄積部
122 選択部
130 サブバンドパワー調整部
140 サブバンド復号部
200 音声合成装置
205 成分分解部
206a インパルス側分解部
206b 白色雑音側分解部
210 サブバンド符号化部
211a インパルス側符号化部
211b 白色雑音側符号化部
220 重み付き和算出部
220a インパルス側重み付き和算出部
220b 白色雑音側重み付き和算出部
221a インパルス側蓄積部
221b 白色雑音側蓄積部
222a インパルス側選択部
222b 白色雑音側選択部
223a インパルス側重み付け乗算部
223b 白色雑音側重み付け乗算部
224 加算部
Claims (6)
- 入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成装置であって、
音源波形を複数の周波数帯域の成分に分解する成分分解部と、
前記分解された成分をそれぞれサブバンド符号化するサブバンド符号化部と、
前記サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、前記分解成分について重み付き和を算出する重み付き和算出部と、
前記重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成するサブバンド復号部と、を備えることを特徴とする音声合成装置。 - 前記成分分解部は、帯域通過フィルタの集合で構成され、前記分解された成分の和により前記音源波形を近似的に再現できるように前記音源波形を成分分解することを特徴とする請求項1記載の音声合成装置。
- 前記成分分解部は、前記音源波形として、インパルス列および白色雑音の2種類の音源波形を用い、
前記重み付き和算出部は、入力されたスペクトル特性情報に基づくインパルス列と白色雑音との混合比で、前記2種類の音源波形に基づくサブバンド符号化波形ベクトルの重み付き和を求めることを特徴とする請求項1または請求項2記載の音声合成装置。 - 前記成分分解部は、前記サブバンド符号化および復号を行なう対象の周波数帯域と同じ幅で、前記音源波形を成分分解することを特徴とする請求項1から請求項3のいずれかに記載の音声合成装置。
- 入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成方法であって、
音源波形を複数の周波数帯域の成分に分解するステップと、
前記分解された成分をそれぞれサブバンド符号化するステップと、
前記サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、前記分解成分について重み付き和を算出するステップと、
前記重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成するステップと、を含むことを特徴とする音声合成方法。 - 入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成プログラムであって、
音源波形を複数の周波数帯域の成分に分解する処理と、
前記分解された成分をそれぞれサブバンド符号化する処理と、
前記サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、前記分解成分について重み付き和を算出する処理と、
前記重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成する処理と、をコンピュータに実行させることを特徴とする音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012263607A JP6201205B2 (ja) | 2012-11-30 | 2012-11-30 | 音声合成装置、音声合成方法および音声合成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012263607A JP6201205B2 (ja) | 2012-11-30 | 2012-11-30 | 音声合成装置、音声合成方法および音声合成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014109669A true JP2014109669A (ja) | 2014-06-12 |
JP6201205B2 JP6201205B2 (ja) | 2017-09-27 |
Family
ID=51030336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012263607A Expired - Fee Related JP6201205B2 (ja) | 2012-11-30 | 2012-11-30 | 音声合成装置、音声合成方法および音声合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6201205B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019045856A (ja) * | 2017-08-31 | 2019-03-22 | 国立研究開発法人情報通信研究機構 | オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム |
JP2022055464A (ja) * | 2020-09-29 | 2022-04-08 | Kddi株式会社 | 音声分析装置、方法及びプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04116700A (ja) * | 1990-09-07 | 1992-04-17 | Mitsubishi Electric Corp | 音声分析・合成装置 |
JPH05113799A (ja) * | 1991-08-30 | 1993-05-07 | Oki Electric Ind Co Ltd | コード励振線形予測符号化方式 |
JP2001051698A (ja) * | 1999-08-06 | 2001-02-23 | Yrp Kokino Idotai Tsushin Kenkyusho:Kk | 音声符号化復号方法および装置 |
JP2007171519A (ja) * | 2005-12-21 | 2007-07-05 | Mitsubishi Electric Corp | 音声符号化・復号装置 |
JP2008519991A (ja) * | 2004-11-09 | 2008-06-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声の符号化及び復号化 |
-
2012
- 2012-11-30 JP JP2012263607A patent/JP6201205B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04116700A (ja) * | 1990-09-07 | 1992-04-17 | Mitsubishi Electric Corp | 音声分析・合成装置 |
JPH05113799A (ja) * | 1991-08-30 | 1993-05-07 | Oki Electric Ind Co Ltd | コード励振線形予測符号化方式 |
JP2001051698A (ja) * | 1999-08-06 | 2001-02-23 | Yrp Kokino Idotai Tsushin Kenkyusho:Kk | 音声符号化復号方法および装置 |
JP2008519991A (ja) * | 2004-11-09 | 2008-06-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声の符号化及び復号化 |
JP2007171519A (ja) * | 2005-12-21 | 2007-07-05 | Mitsubishi Electric Corp | 音声符号化・復号装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019045856A (ja) * | 2017-08-31 | 2019-03-22 | 国立研究開発法人情報通信研究機構 | オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム |
JP7209275B2 (ja) | 2017-08-31 | 2023-01-20 | 国立研究開発法人情報通信研究機構 | オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム |
JP2022055464A (ja) * | 2020-09-29 | 2022-04-08 | Kddi株式会社 | 音声分析装置、方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6201205B2 (ja) | 2017-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2586846C2 (ru) | Устройство и способ обработки входного звукового сигнала с помощью каскадированного банка фильтров | |
RU2547220C2 (ru) | Устройство и способ для генерирования высокочастотного аудиосигнала с применением адаптивной избыточной дискретизации | |
JP4473913B2 (ja) | スペクトル/変調スペクトル域表現における変形による情報信号処理 | |
CA3008914C (en) | Improved subband block based harmonic transposition | |
AU2011263191B2 (en) | Bandwidth Extension Method, Bandwidth Extension Apparatus, Program, Integrated Circuit, and Audio Decoding Apparatus | |
KR102014696B1 (ko) | 교차 곱 강화된 서브밴드 블록 기반 고조파 전위 | |
AU2013286049B2 (en) | Device, method and computer program for freely selectable frequency shifts in the sub-band domain | |
JP6410890B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP6201205B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP6284298B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP5763487B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
RU2641253C2 (ru) | Устройство и способ для обработки звукового сигнала с использованием сигнала ошибки вследствие наложения спектров |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150828 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161018 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170523 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170613 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170808 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6201205 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |