JP6475572B2 - 発話リズム変換装置、方法及びプログラム - Google Patents
発話リズム変換装置、方法及びプログラム Download PDFInfo
- Publication number
- JP6475572B2 JP6475572B2 JP2015106228A JP2015106228A JP6475572B2 JP 6475572 B2 JP6475572 B2 JP 6475572B2 JP 2015106228 A JP2015106228 A JP 2015106228A JP 2015106228 A JP2015106228 A JP 2015106228A JP 6475572 B2 JP6475572 B2 JP 6475572B2
- Authority
- JP
- Japan
- Prior art keywords
- rhythm
- gaussian
- speech
- phoneme
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
以下、図面を参照して、この発明の一実施形態について説明する。発話リズム変換装置は、図1に示すように、第一特徴抽出部1、第二特徴抽出部2、ガウス混合モデル生成部3、入力音声特徴抽出部4、重み決定部5、変換部6及び音声合成部7を例えば備えている。発話リズム変換装置の各部が、図2の発話リズム変換ステップの処理を行うことにより、発話リズム変換方法が実現される。
<第一特徴抽出部1,第二特徴抽出部2>
第一グループの話者にテキストを読み上げてもらい、その音声信号(以下、「第一音声信号」とする。)を第一特徴抽出部1に入力する。
ここで、時系列信号Yの時間長をTとし、、時刻を表すインデックスをtとし、Y={Y(1),…,Y(t),…,Y(T)}とする。LSPパラメータの分析次数の総数をp、分析次数を表すインデックスをiとすると、Y(t)={y1(t),…,yi(t),…,yp(t)}である。よって、yi(t)は、時刻tにおけるLSPパラメータの分析次数iの値を表し、単にLSPパラメータyi(t)とも記載する。
日本語母語話者及び英語母語話者の発話リズム(ΦJ',DJ)と(ΦE',DE)から、発話リズム変換則を求めることを考える。ここで、第一音声信号の音素列と第二音声信号の音素列との両方に共通の音素をkj及びkeとする。すなわち、kj=keである。
<入力音声特徴抽出部4>
入力音声特徴抽出部4は、入力された、発話リズムの変換の対象となる音声信号の各音素の発話リズムと、その入力された音声信号の特徴量とを求める。求まった、各音素の発話リズムは重み決定部に出力され、特徴量は音声合成部7に出力される。
重み決定部5は、ガウス混合モデル生成部3で生成されたガウス混合モデルの中の、第一特徴抽出部1で求まった発話リズムに対応する次元のガウス混合モデルを第一ガウス混合モデルとして、入力音声特徴抽出部4で求まった各音素kの発話リズム(φk’,Dk)に第一ガウス混合モデルが最も良く当てはまるように第一ガウス混合モデルの重みを求める。求まった重みは変換部6に出力される。
P(φk’,Dk) = Σm=1 M πmN(φk’,Dk|λm)
を最大にするような重みπm(m=1,2,…,M。ただしΣm=1 M πm=1)を求める。ここで、Nは第一ガウス混合モデルを構成するm番目のガウス分布であり、λmは第一ガウス混合モデルを構成するm番目のガウス分布の平均値及び分散であり、Mは混合数を表わす。
πm = N(φk’,Dk|λm) /Σm=1 M N(φk’,Dk|λm)
となる重みπm(m=1,2,…,M)を求める。この式により求まる重みπm(m=1,2,…,M)の和は1となる。
変換部6は、ガウス混合モデルの中の、第二特徴抽出部2で求まった発話リズムに対応する次元のガウス混合モデルを第二ガウス混合モデルとして、第二ガウス混合分布の各次元のガウス混合モデルを構成するガウス分布の平均値ベクトルを重みπm(m=1,2,…,M)を用いて重み付き加算することにより、変換後の発話リズムを求める。
音声合成部7は、変換後の発話リズム(φmod’,Dmod)と、入力音声特徴抽出部4で求まった入力された音声の特徴量とを用いて、音声を合成する。
音声信号に対する音素ラべリングは、人手で行ってもよい。
ωN(Dmod|λm) + N(Dmodの分散 | M,V)
を最大にするようなDmodを求めてもよい。これにより、英語母語話者のメリハリを与えるような音素継続長を求めることができる(例えば、参考文献2参照。)。ここで、ωは重みであり、例えば0.5とする。なお、上記関数は、最急降下法などを用いて最適化を行ってもよい。
[プログラム及び記録媒体]
発話リズム変換装置及び方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
2 第二特徴抽出部
3 ガウス混合モデル生成部
4 入力音声特徴抽出部
5 重み決定部
6 変換部
7 音声合成部
Claims (3)
- 第一グループの話者が読み上げたテキストの音声信号である第一音声信号と第二グループの話者が読み上げた上記テキストの音声信号である第二音声信号に共通の音素について、上記第一音声信号におけるその音素の発話リズムである第一発話リズムと、上記第一音声信号に対応する上記第二音声信号におけるその音素の発話リズムである第二発話リズムとを結合したベクトルが、M個のガウス分布を混合したガウス混合分布で表現されるものとしてモデル化したものをガウス混合モデルとして、
入力された音声信号の各音素の発話リズムである入力発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出部と、
上記ガウス混合モデルを構成するM個のガウス分布の各々における上記第一発話リズムに対応する次元を第一ガウス分布として、上記入力発話リズムに上記M個の第一ガウス分布を混合した第一ガウス混合モデルが最も良く当てはまるように上記第一ガウス混合モデルの混合重みを求める重み決定部と、
上記ガウス混合モデルを構成するM個のガウス分布の各々における上記第二発話リズムに対応する次元を第二ガウス分布として、上記第二ガウス分布を、上記重み決定部で求めた当該第二ガウス分布に対応する第一ガウス分布の混合重みに従い重み付き加算することにより、変換後の発話リズムを求める変換部と、
上記変換後の発話リズムと、上記入力された音声の特徴量とを用いて、音声を合成する音声合成部と、
を含む発話リズム変換装置。 - 第一グループの話者が読み上げたテキストの音声信号である第一音声信号と第二グループの話者が読み上げた上記テキストの音声信号である第二音声信号に共通の音素について、上記第一音声信号におけるその音素の発話リズムである第一発話リズムと、上記第一音声信号に対応する上記第二音声信号におけるその音素の発話リズムである第二発話リズムとを結合したベクトルが、M個のガウス分布を混合したガウス混合分布で表現されるものとしてモデル化したものをガウス混合モデルとして、
入力音声特徴抽出部が、入力された音声信号の各音素の発話リズムである入力発話リズムと、その入力された音声信号の特徴量とを求める入力音声特徴抽出ステップと、
重み決定部が、上記ガウス混合モデルを構成するM個のガウス分布の各々における上記第一発話リズムに対応する次元を第一ガウス分布として、上記入力発話リズムに上記M個の第一ガウス分布を混合した第一ガウス混合モデルが最も良く当てはまるように上記第一ガウス混合モデルの混合重みを求める重み決定ステップと、
変換部が、上記ガウス混合モデルを構成するM個のガウス分布の各々における上記第二発話リズムに対応する次元を第二ガウス分布として、上記第二ガウス分布を、上記重み決定ステップで求めた当該第二ガウス分布に対応する第一ガウス分布の混合重みに従い重み付き加算することにより、変換後の発話リズムを求める変換ステップと、
音声合成部が、上記変換後の発話リズムと、上記入力された音声の特徴量とを用いて、音声を合成する音声合成ステップと、
を含む発話リズム変換方法。 - 請求項1の発話リズム変換装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015106228A JP6475572B2 (ja) | 2015-05-26 | 2015-05-26 | 発話リズム変換装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015106228A JP6475572B2 (ja) | 2015-05-26 | 2015-05-26 | 発話リズム変換装置、方法及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018160588A Division JP6538944B2 (ja) | 2018-08-29 | 2018-08-29 | 発話リズム変換装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016218386A JP2016218386A (ja) | 2016-12-22 |
JP6475572B2 true JP6475572B2 (ja) | 2019-02-27 |
Family
ID=57581020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015106228A Active JP6475572B2 (ja) | 2015-05-26 | 2015-05-26 | 発話リズム変換装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6475572B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020136948A1 (ja) * | 2018-12-26 | 2020-07-02 | 日本電信電話株式会社 | 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5143809B2 (ja) * | 2009-10-09 | 2013-02-13 | 日本電信電話株式会社 | 時空間分解装置、発話リズム変換装置、これらの方法及びプログラム |
JP6167063B2 (ja) * | 2014-04-14 | 2017-07-19 | 日本電信電話株式会社 | 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム |
-
2015
- 2015-05-26 JP JP2015106228A patent/JP6475572B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016218386A (ja) | 2016-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102199050B1 (ko) | 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템 | |
JP6622505B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
US20220013106A1 (en) | Multi-speaker neural text-to-speech synthesis | |
JP5323212B2 (ja) | 複数言語音声認識 | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
JP6392012B2 (ja) | 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム | |
JP2018146803A (ja) | 音声合成装置及びプログラム | |
JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
Kardava et al. | Solving the problem of the accents for speech recognition systems | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP6538944B2 (ja) | 発話リズム変換装置、方法及びプログラム | |
JP6475572B2 (ja) | 発話リズム変換装置、方法及びプログラム | |
El Amrani et al. | Towards using CMU sphinx tools for the holy Quran recitation verification | |
JP7357518B2 (ja) | 音声合成装置及びプログラム | |
Louw et al. | The Speect text-to-speech entry for the Blizzard Challenge 2016 | |
Souza et al. | An automatic phonetic aligner for Brazilian Portuguese with a Praat interface | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Hoffmann | Analysis-by-Synthesis in Prosody Research | |
KR20210019151A (ko) | 동화 낭독 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램 | |
Turk et al. | An Edinburgh speech production facility |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180710 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6475572 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |