JP4177751B2 - 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ - Google Patents
声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ Download PDFInfo
- Publication number
- JP4177751B2 JP4177751B2 JP2003430209A JP2003430209A JP4177751B2 JP 4177751 B2 JP4177751 B2 JP 4177751B2 JP 2003430209 A JP2003430209 A JP 2003430209A JP 2003430209 A JP2003430209 A JP 2003430209A JP 4177751 B2 JP4177751 B2 JP 4177751B2
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- unit
- voice quality
- voice
- vocal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
図1は、本発明の一実施の形態に係る声質変換システム30のブロック図である。図1を参照して、この声質変換システム30は、それぞれ特定の声質を持つ音声として選ばれた、声質を制御するパラメータの基準値を定めるための基準音声波形32から、声門波形モデルとしての、声質を制御するパラメータを表すPCAパラメータモデル36を主成分分析(PCA)によって作成するためのモデル作成部34と、入力音声波形50と当該入力音声波形50の声質を特定する、ユーザにより入力される声質特定情報51とを受け、入力音声波形50に対して、モデル作成部34が行なうのと同様の分析を行なって声帯波の波形を抽出し、声質特定情報51と、ユーザにより設定されたターゲットの声質とに基づいて、PCAパラメータモデル36を用いて音声波形54をターゲットの声質で再生成するための声質変換装置52とを含む。
以上構成を説明した声質変換システム30は以下のように動作する。声質変換システム30の動作には二つの局面がある。第1の局面はPCAパラメータモデル36を作成する処理に関し、第2の局面はこのPCAパラメータモデル36を用い、入力音声波形50の声質をユーザ入力に従い変化させて音声波形54を生成する局面である。以下、まず第1の局面、次に第2の局面を順に説明する。
図11に、本実施の形態による処理結果の例を示す。図11は、Laver(非特許文献1)のModalによる発話の一部のスペクトログラム260と、その発話をよりCreakyな声に変換した後のスペクトログラム262とを対照して示す。この例では、変換関数はModalプロトタイプに基づいて生成され、ターゲットをCreakyに設定した。
Claims (20)
- それぞれ予め所定の声質に対応して準備された、基準となる複数の音声波形のうち、所定の条件を充足する部分から、当該部分が発声されたときの声帯波の単位波形をそれぞれ推定する声帯波形推定ステップと、
前記声帯波の単位波形の各々を所定のパラメータ化方法にしたがってパラメータ化するパラメータ化ステップと、
前記パラメータ化された声帯波の単位波形の全てに対する主成分分析を行なうことにより、前記声帯波の単位波形の各々の主成分表現を取得する主成分分析ステップと、
前記声帯波の単位波形の各々の波形と、当該波形に対応する主成分表現とを、当該声帯波が得られた音声波形に対応する声質のモデルとして出力するステップとを含む、声質モデル生成方法。 - 前記声帯波形推定ステップは、
それぞれ予め所定の音質に対応して準備された、前記複数の音声波形の音節核を抽出するステップと、
抽出された前記音節核の各々に対し、声道の影響を除去して音声が発生された際の声門気流の体積速度波形を検出するための逆フィルタを適用するステップと、
前記逆フィルタが適用された後の前記音節核の各々から前記声帯波の単位波形を抽出する単位波形抽出ステップとを含む、請求項1に記載の声質モデル生成方法。 - 前記単位波形抽出ステップは、前記音節核の中央部に存在する、前記体積速度波形の極小部分を起点とし、そこから当該音節核を含む所定領域の基本周波数により定まる周期の1周期分だけ遡った部分までを前記単位波形として抽出するステップを含む、請求項2に記載の声質モデル生成方法。
- 前記単位波形抽出ステップに先立って、前記声門気流の体積速度波形を所定の正規化方法にしたがって正規化するステップをさらに含む、請求項2又は請求項3に記載の声質モデル生成方法。
- 前記主成分分析ステップは、
前記パラメータ化された声帯波の単位波形の全てに対する主成分分析を行なうことにより、前記声帯波の単位波形の各々の、先頭から所定個数までの主成分による主成分表現を取得するステップを含む、請求項1〜請求項4のいずれかに記載の声質モデル生成方法。 - 前記所定個数までの主成分は、第1主成分から第4主成分までである、請求項5に記載の声質モデル生成方法。
- 前記パラメータ化ステップは、前記声帯波の単位波形を複数の等長部分に分割する所定個数のサンプリング点において、前記声帯波の単位波形を再サンプリングする再サンプリングステップを含む、請求項1〜請求項6のいずれかに記載の声質モデル生成方法。
- 前記再サンプリングステップによって再サンプリングされた前記声帯波の各々の単位波形において、隣接するサンプリング点間の差分をとることにより、前記声帯波の単位波形の各々の微分データ列を求める微分ステップをさらに含み、
前記主成分分析ステップは、前記微分データ列の全てに対し前記主成分分析を行なうことにより、前記声帯波の単位波形の各々の微分量に対する主成分表現を取得するステップを含む、請求項7に記載の声質モデル生成方法。 - 前記微分ステップによって求められた微分データ列の各々は、再サンプリング時間の差分と、当該再サンプリング時間の差分に対応する前記声帯波の単位波形の差分との対を含み、
前記声質モデル生成方法はさらに、前記主成分分析ステップに先立って、前記微分データ列を求めるステップによって求められた微分データ列の各々に対し、時間軸方向の変動による影響と振幅方向の変動による影響とを等化するための予め定められる規準化処理を行なうステップをさらに含む、請求項8に記載の声質モデル生成方法。 - それぞれ所定の声質に対応付けられた複数のプロトタイプ声帯波の単位波形と、当該複数のプロトタイプ声帯波の単位波形の全てに対して予め定める主成分分析を行なうことによって、前記複数のプロトタイプ声帯波の単位波形の各々に対して得られた先頭から所定個数の主成分の値からなる主成分表現との対からなる声門波形モデルを用いて、入力音声波形の声質を変換する声質変換方法であって、
入力音声波形のうち、所定の条件を充足している部分からそれぞれ声帯波の単位波形を抽出する単位波形抽出ステップと、
入力音声波形の声質として予め指定される声質に対応する声門波形モデルと、ユーザにより指定される声質に対応する声門波形モデルとに基づいて、前記入力音声波形から抽出された声帯波の単位波形を、前記ユーザにより指定される声質に変換して出力音声波形を生成する音声波形生成ステップとを含む、声質変換方法。 - 前記音声波形生成ステップは、
前記入力音声波形の声質に対応する声門波形モデルから第1のプロトタイプ声帯波を選択するステップと、
前記ユーザにより指定された声質に対応する声門波形モデルから第2のプロトタイプ声帯波を選択するステップと、
前記第1の波形と前記第2の波形との間で所定の演算を行なうことにより、前記入力音声波形を前記ユーザにより指定された声質の音声波形に変換するための変換関数を算出する変換関数算出ステップと、
前記入力音声波形の声帯波の単位波形に対して前記変換関数を適用することにより、前記出力音声波形を生成するステップとを含む、請求項10に記載の声質変換方法。 - 前記変換関数算出ステップは、前記第2の波形から前記第1の波形を減算することにより、前記変換関数を算出するステップを含む、請求項11に記載の声質変換方法。
- 前記音声波形生成ステップは、前記入力音声波形の声帯波の単位波形に対して前記変換関数を加算することにより、前記出力音声波形を生成するステップを含む、請求項12に記載の声質変換方法。
- 前記単位波形抽出ステップは、
前記入力音声波形の音節核を抽出するステップと、
抽出された前記音節核の各々に対し、声道の影響を除去して音声が発生された際の声門気流の体積速度波形を検出するための逆フィルタを適用するステップと、
前記逆フィルタが適用された後の前記音節核の各々から前記声帯波の単位波形を抽出するステップとを含む、請求項1〜請求項13のいずれかに記載の声質変換方法。 - 前記単位波形を抽出するステップは、前記音節核の中央部に存在する、前記体積速度波形の極小部分を起点とし、そこから当該音節核を含む所定領域の基本周波数により定まる周期の1周期分だけ遡った部分までを前記単位波形として抽出するステップを含む、請求項14に記載の声質変換生成方法。
- 前記波形を抽出するステップに先立って、前記声門気流の体積速度波形を所定の正規化方法にしたがって正規化するステップをさらに含む、請求項14又は請求項15に記載の声質変換方法。
- 前記先頭から所定個数の主成分表現は、第1主成分から第4主成分によるものである、請求項1〜請求項16のいずれかに記載の声質変換方法。
- コンピュータにより実行されると、請求項1〜請求項17のいずれかに記載の全てのステップを実現するようにコンピュータを動作させるように構成された、コンピュータプログラム。
- 請求項18に記載のコンピュータプログラムによりプログラムされたコンピュータ。
- 請求項18に記載のコンピュータプログラムを記録した、コンピュータ読取可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003430209A JP4177751B2 (ja) | 2003-12-25 | 2003-12-25 | 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003430209A JP4177751B2 (ja) | 2003-12-25 | 2003-12-25 | 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005189483A JP2005189483A (ja) | 2005-07-14 |
JP2005189483A5 JP2005189483A5 (ja) | 2005-08-25 |
JP4177751B2 true JP4177751B2 (ja) | 2008-11-05 |
Family
ID=34788644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003430209A Expired - Fee Related JP4177751B2 (ja) | 2003-12-25 | 2003-12-25 | 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4177751B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101606190B (zh) | 2007-02-19 | 2012-01-18 | 松下电器产业株式会社 | 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法 |
CN101578659B (zh) * | 2007-05-14 | 2012-01-18 | 松下电器产业株式会社 | 音质转换装置及音质转换方法 |
JP4970371B2 (ja) * | 2008-07-16 | 2012-07-04 | 株式会社東芝 | 情報処理装置 |
WO2011151956A1 (ja) * | 2010-06-04 | 2011-12-08 | パナソニック株式会社 | 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム |
-
2003
- 2003-12-25 JP JP2003430209A patent/JP4177751B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005189483A (ja) | 2005-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1667108B1 (en) | Speech synthesis system, speech synthesis method, and program product | |
WO2014062521A1 (en) | Emotion recognition using auditory attention cues extracted from users voice | |
CN108538308B (zh) | 基于语音的口型和/或表情模拟方法及装置 | |
Alku et al. | Closed phase covariance analysis based on constrained linear prediction for glottal inverse filtering | |
JP4568826B2 (ja) | 声門閉鎖区間検出装置および声門閉鎖区間検出プログラム | |
Raitio et al. | Deep neural network based trainable voice source model for synthesis of speech with varying vocal effort. | |
JP2019008206A (ja) | 音声帯域拡張装置、音声帯域拡張統計モデル学習装置およびそれらのプログラム | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
JP2018180334A (ja) | 感情認識装置、方法およびプログラム | |
Narendra et al. | Estimation of the glottal source from coded telephone speech using deep neural networks | |
JP3673507B2 (ja) | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム | |
JP4177751B2 (ja) | 声質モデル生成方法、声質変換方法、並びにそれらのためのコンピュータプログラム、当該プログラムを記録した記録媒体、及び当該プログラムによりプログラムされたコンピュータ | |
JP3174777B2 (ja) | 信号処理方法および装置 | |
Prabhu et al. | EMOCONV-Diff: Diffusion-Based Speech Emotion Conversion for Non-Parallel and in-the-Wild Data | |
Airaksinen et al. | Quadratic programming approach to glottal inverse filtering by joint norm-1 and norm-2 optimization | |
Buza et al. | Voice signal processing for speech synthesis | |
Athanasopoulos et al. | 3D immersive karaoke for the learning of foreign language pronunciation | |
Alku et al. | Parameterization of the voice source by combining spectral decay and amplitude features of the glottal flow | |
Hasan et al. | An approach to voice conversion using feature statistical mapping | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP4226831B2 (ja) | 音声分析方法及びその装置、音声分析プログラム並びにその記録媒体 | |
JP2012058293A (ja) | 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム | |
Savran et al. | Speaker-independent 3D face synthesis driven by speech and text | |
WO2018043708A1 (ja) | 音声のイントネーション構造を抽出する方法及びそのためのコンピュータプログラム | |
KR20080065775A (ko) | 구화 교육용 발성 시각화 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050405 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050405 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080805 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080822 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110829 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120829 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120829 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130829 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |