JP2013003470A - 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ - Google Patents
音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ Download PDFInfo
- Publication number
- JP2013003470A JP2013003470A JP2011136776A JP2011136776A JP2013003470A JP 2013003470 A JP2013003470 A JP 2013003470A JP 2011136776 A JP2011136776 A JP 2011136776A JP 2011136776 A JP2011136776 A JP 2011136776A JP 2013003470 A JP2013003470 A JP 2013003470A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- filter
- cumulative frequency
- histogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 46
- 238000003672 processing method Methods 0.000 title claims description 6
- 230000001186 cumulative effect Effects 0.000 claims abstract description 88
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000006243 chemical reaction Methods 0.000 claims description 32
- 230000015572 biosynthetic process Effects 0.000 claims description 24
- 238000003786 synthesis reaction Methods 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 abstract description 6
- 238000000605 extraction Methods 0.000 description 23
- 238000001228 spectrum Methods 0.000 description 21
- 238000013500 data storage Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
Abstract
音声を強調する際のフィルタ特性を適切に制御できる音声処理装置を実現することである。
【解決手段】
実施形態の音声処理装置は、音声データから抽出された第1の音声特徴量から第1のヒストグラムを計算し、前記第1の音声特徴量とは異なる第2の音声特徴量から第2のヒストグラムを計算するヒストグラム計算手段と、前記第1のヒストグラムの度数を累積した第1の累積度数と、前記第2のヒストグラムの度数を累積した第2の累積度数とを計算する累積度数計算手段と、前記第1および第2の累積度数に基づいて、前記第2の累積度数を前記第1の累積度数に近づける特性をもつフィルタを作成するフィルタ作成手段とを備える音声処理装置である。
【選択図】図1
Description
第1の実施形態の音声処理装置は、任意のテキストから音声波形を生成する音声合成を想定しており、フィルタを用いて音声スペクトルの凹凸を強調することにより、音声合成により生成された人工的な音声波形の音質を目標となる実音声データに近づけることを目的としている。ここでは、オフラインで音声スペクトルの凹凸を強調するためのフィルタを作成し、オンラインでこのフィルタを用いて任意のテキストを読み上げるための音声波形を生成する。
図1は、第1の実施形態にかかる音声処理装置を示すブロック図である。本実施形態の音声処理装置は、隠れマルコフモデルを利用して任意のテキストから音声波形を生成する。この音声処理装置は、オフラインでフィルタを作成するフィルタ作成部101と、作成されたフィルタを用いてオンラインで音声波形を合成する音声合成部102とを備える。
図2は、本実施形態にかかる音声処理装置において、オフラインでフィルタを作成する際のフローチャートである。まず、ステップS1では、第1特徴量抽出部103は、音声データ格納部111から実音声データを取得し、取得した音声波形を20〜30ms程度の長さのフレームに分割する。
図4は、本実施形態にかかる音声処理装置において、フィルタを用いて音声スペクトルの凹凸が強調された音声波形を生成する際のフローチャートである。まず、ステップS41では、テキスト解析部112は、読み上げ対象となる第1のテキストを解析してコンテキスト情報を抽出する。コンテキスト情報は、音素情報、アクセント句長、品詞情報などを含んでおり、構文解析により抽出できる。
このように、本実施形態にかかる音声処理装置は、実音声データから計算した第1の累積度数と音声合成辞書を用いて計算した第2の累積度数に基づいて、第2の累積度数を第1の累積度数に近づけるという基準でフィルタを作成する。これにより、フィルタ特性を適切に制御することができる。
本実施形態では、第1ヒストグラム計算部104および第2ヒストグラム計算部108の2つのヒストグラム計算部を設けたが、これらを1つにまとめることもできる。第1累積度数計算部105および第2累積度数計算部109についても同様である。
フィルタ作成処理部110では、第2の正規化累積度数分布を第1の正規化累積度数分布に近づけるd次元目のフィルタT(d)として、(17)式を満たす係数ad ^、bd ^を用いることができる。
本実施形態では、テキスト音声合成における音声強調について説明したが、他の用途に音声強調を用いることもできる。図9は、入力された音声データの声質を変換する機能を有した音声処理装置のブロック図を示している。この音声処理装置は、声質変換部121に入力された変換前の音声データの声質を、音声データ格納部111に格納された実音声データの声質に近づけることを目的としている。例えば、音声データ格納部111にユーザの実音声データを格納しておけば、声質変換部121に入力された任意の音声波形の声質をユーザの声質に近づくよう変換することができる。
102 音声合成部
103 第1特徴量抽出部
104 第1ヒストグラム計算部
105 第1累積度数計算部
106 音声合成辞書
107、117 第2特徴量抽出部
108 第2ヒストグラム計算部
109 第2累積度数計算部
110 フィルタ作成処理部
111 音声データ格納部
112 テキスト解析部
113、118 第3特徴量抽出部
114 特徴量変換部
115、120 音源特徴量抽出部
116 波形生成部
119、124 声質変換処理部
121 声質変換部
125 声質変換フィルタ
Claims (10)
- 音声データから抽出された第1の音声特徴量から第1のヒストグラムを計算し、前記第1の音声特徴量とは異なる第2の音声特徴量から第2のヒストグラムを計算するヒストグラム計算手段と、
前記第1のヒストグラムの度数を累積した第1の累積度数と、前記第2のヒストグラムの度数を累積した第2の累積度数とを計算する累積度数計算手段と、
前記第1および第2の累積度数に基づいて、前記第2の累積度数を前記第1の累積度数に近づける特性をもつフィルタを作成するフィルタ作成手段と、
を備える音声処理装置。 - 前記フィルタ作成手段が、前記第1および第2の累積度数の値域において所定値を設定し、前記第1の累積度数の分布において前記所定値を累積度数とした場合に対応する音声特徴量の値と、前記第2の累積度数の分布において前記所定値を累積度数とした場合に対応する音声特徴量の値とを用いて前記フィルタを作成する請求項1記載の音声処理装置。
- 前記フィルタ作成手段で作成されたフィルタを用いて、前記第2の音声特徴量と同様な方法で抽出された第3の音声特徴量を第4の音声特徴量に変換する特徴量変換手段を更に備える請求項1乃至請求項2記載の音声処理装置。
- 前記累積度数計算手段で計算される前記第1および第2の累積度数が、それぞれ前記第1の音声特徴量の総数および前記第2の音声特徴量の総数で正規化されたものである請求項1から請求項3の何れか1項に記載の音声処理装置。
- 前記第2および第3の音声特徴量が、コンテキスト情報および音声合成のための辞書を用いて生成された音声特徴量である請求項3記載の音声処理装置。
- 前記第2および第3の音声特徴量が、声質を変換するフィルタにより値が変換された音声特徴量である請求項3記載の音声処理装置。
- 前記第2および第3の音声特徴量が、同一の音声特徴量である請求項3、請求項5、請求項6の何れか1項に記載の音声処理装置。
- 前記第1から第3の音声特徴量が、スペクトル包絡、スペクトル包絡を示すパラメータ、基本周波数、音声の周期性・非周期性を示すパラメータのいずれかである請求項3記載の音声処理装置。
- 音声データから抽出された第1の音声特徴量から第1のヒストグラムを計算し、前記第1の音声特徴量とは異なる第2の音声特徴量から第2のヒストグラムを計算するステップと、
前記第1のヒストグラムの度数を累積した第1の累積度数と、前記第2のヒストグラムの度数を累積した第2の累積度数とを計算するステップと、
前記第1および第2の累積度数に基づいて、前記第2の累積度数を前記第1の累積度数に近づける特性をもつフィルタを作成するステップと、
を備える音声処理方法。 - 請求項9記載の音声処理方法により作成されたフィルタ。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011136776A JP2013003470A (ja) | 2011-06-20 | 2011-06-20 | 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ |
US13/420,824 US20120323569A1 (en) | 2011-06-20 | 2012-03-15 | Speech processing apparatus, a speech processing method, and a filter produced by the method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011136776A JP2013003470A (ja) | 2011-06-20 | 2011-06-20 | 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015164768A Division JP2015212845A (ja) | 2015-08-24 | 2015-08-24 | 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013003470A true JP2013003470A (ja) | 2013-01-07 |
Family
ID=47354385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011136776A Pending JP2013003470A (ja) | 2011-06-20 | 2011-06-20 | 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ |
Country Status (2)
Country | Link |
---|---|
US (1) | US20120323569A1 (ja) |
JP (1) | JP2013003470A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9159329B1 (en) * | 2012-12-05 | 2015-10-13 | Google Inc. | Statistical post-filtering for hidden Markov modeling (HMM)-based speech synthesis |
JP6413263B2 (ja) * | 2014-03-06 | 2018-10-31 | 株式会社デンソー | 報知装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005266349A (ja) * | 2004-03-18 | 2005-09-29 | Nec Corp | 声質変換装置および声質変換方法ならびに声質変換プログラム |
JP2008058379A (ja) * | 2006-08-29 | 2008-03-13 | Seiko Epson Corp | 音声合成システム及びフィルタ装置 |
WO2009044525A1 (ja) * | 2007-10-01 | 2009-04-09 | Panasonic Corporation | 音声強調装置および音声強調方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6240384B1 (en) * | 1995-12-04 | 2001-05-29 | Kabushiki Kaisha Toshiba | Speech synthesis method |
JP3361291B2 (ja) * | 1999-07-23 | 2003-01-07 | コナミ株式会社 | 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
US6463412B1 (en) * | 1999-12-16 | 2002-10-08 | International Business Machines Corporation | High performance voice transformation apparatus and method |
TW564400B (en) * | 2001-12-25 | 2003-12-01 | Univ Nat Cheng Kung | Speech coding/decoding method and speech coder/decoder |
US7546241B2 (en) * | 2002-06-05 | 2009-06-09 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
JP4025355B2 (ja) * | 2004-10-13 | 2007-12-19 | 松下電器産業株式会社 | 音声合成装置及び音声合成方法 |
JP4645241B2 (ja) * | 2005-03-10 | 2011-03-09 | ヤマハ株式会社 | 音声処理装置およびプログラム |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
US8639502B1 (en) * | 2009-02-16 | 2014-01-28 | Arrowhead Center, Inc. | Speaker model-based speech enhancement system |
CN102117614B (zh) * | 2010-01-05 | 2013-01-02 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
JP5085700B2 (ja) * | 2010-08-30 | 2012-11-28 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US20120234158A1 (en) * | 2011-03-15 | 2012-09-20 | Agency For Science, Technology And Research | Auto-synchronous vocal harmonizer |
JP5665780B2 (ja) * | 2012-02-21 | 2015-02-04 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
-
2011
- 2011-06-20 JP JP2011136776A patent/JP2013003470A/ja active Pending
-
2012
- 2012-03-15 US US13/420,824 patent/US20120323569A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005266349A (ja) * | 2004-03-18 | 2005-09-29 | Nec Corp | 声質変換装置および声質変換方法ならびに声質変換プログラム |
JP2008058379A (ja) * | 2006-08-29 | 2008-03-13 | Seiko Epson Corp | 音声合成システム及びフィルタ装置 |
WO2009044525A1 (ja) * | 2007-10-01 | 2009-04-09 | Panasonic Corporation | 音声強調装置および音声強調方法 |
Non-Patent Citations (4)
Title |
---|
ANGEL DE LA TORRE, JOSE C.SEGURA, CARMEN BENITEZ, ANTONIO M.PEINADO, ANTONIO L.RUBIO: "Non-linear transformations of the feature space for robust Speech Recognition", 2002 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), vol. 1, JPN6014046831, 13 May 2002 (2002-05-13), pages 401 - 402, ISSN: 0002934347 * |
HANNA SILEN, ELINA HELANDER, JANI NURMINEN, MONCEF GABBOUJ: "Ways to Implement Global Variance in Statistical Speech Synthesis", INTERSPEECH-2012, JPN7014003167, 9 September 2012 (2012-09-09), pages 1436 - 1439, ISSN: 0002934349 * |
ZHI-ZHENG WU, TOMI KINNUNEN, ENG SIONG CHNG, HAIZHOU LI: "Text-Independent F0 Transformation with Non-Parallel Data for Voice Conversion", INTERSPEECH-2010, JPN7014003166, 26 September 2010 (2010-09-26), pages 1732 - 1735, ISSN: 0002934346 * |
大谷 大和、田村 正統、森田 眞弘: "HMM音声合成におけるヒストグラムに基づくスペクトル強調法の検討", 日本音響学会 2011年 秋季研究発表会, JPN6014046832, 13 September 2011 (2011-09-13), JP, pages 349 - 350, ISSN: 0002934348 * |
Also Published As
Publication number | Publication date |
---|---|
US20120323569A1 (en) | 2012-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11423874B2 (en) | Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product | |
US10186252B1 (en) | Text to speech synthesis using deep neural network with constant unit length spectrogram | |
Airaksinen et al. | Quasi closed phase glottal inverse filtering analysis with weighted linear prediction | |
EP0970466B1 (en) | Voice conversion | |
US8321222B2 (en) | Synthesis by generation and concatenation of multi-form segments | |
US8594993B2 (en) | Frame mapping approach for cross-lingual voice transformation | |
JP4738057B2 (ja) | ピッチパターン生成方法及びその装置 | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
Ramani et al. | A multi-level GMM-based cross-lingual voice conversion using language-specific mixture weights for polyglot synthesis | |
US10446133B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
JP2013003470A (ja) | 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ | |
Wen et al. | Pitch-scaled spectrum based excitation model for HMM-based speech synthesis | |
WO2012032748A1 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
WO2021033629A1 (ja) | 音響モデル学習装置、音声合成装置、方法およびプログラム | |
JP6840124B2 (ja) | 言語処理装置、言語処理プログラムおよび言語処理方法 | |
JP2015212845A (ja) | 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ | |
JP2017151224A (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
JP6234134B2 (ja) | 音声合成装置 | |
Sulír et al. | The influence of adaptation database size on the quality of HMM-based synthetic voice based on the large average voice model | |
López | Methods for speaking style conversion from normal speech to high vocal effort speech | |
Ramírez López | Methods for speaking style conversion from normal speech to high vocal effort speech | |
Mangayyagari et al. | Pitch conversion based on pitch mark mapping | |
Sudhakar et al. | Performance Analysis of Text To Speech Synthesis System Using Hmm and Prosody Features With Parsing for Tamil Language | |
Kachare et al. | Voice conversion: Wavelet based residual selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141226 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150216 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150218 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150522 |