JP5830364B2 - 韻律変換装置およびそのプログラム - Google Patents
韻律変換装置およびそのプログラム Download PDFInfo
- Publication number
- JP5830364B2 JP5830364B2 JP2011263672A JP2011263672A JP5830364B2 JP 5830364 B2 JP5830364 B2 JP 5830364B2 JP 2011263672 A JP2011263672 A JP 2011263672A JP 2011263672 A JP2011263672 A JP 2011263672A JP 5830364 B2 JP5830364 B2 JP 5830364B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- prosody
- unit
- fundamental frequency
- prosodic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
また、非特許文献1に記載されたフレーズ成分とアクセント成分を考慮することによって韻律変換を行うことも考えられるが、それらのパラメータの自動抽出は容易ではないことと、個々のパラメータの制御量には詳細な設定が必要になることから、人手を介する必要が多くなるという問題がある。
図1は、本実施形態による韻律変換装置の機能構成を示すブロック図である。図示するように、韻律変換装置1は、音声分析部20と、韻律データ作成部32と、パラメータ記憶部33と、韻律変換部40と、設定データ更新部50とを備えて構成される。
図2は、音声分析部20が作成し、韻律データ作成部32が更新する韻律データの構成とデータ例を示す概略図である。図示するように、韻律データは、表形式で表され、各フレームのフレーム番号と相対時刻と基本周波数との対応関係を時系列に並べて構成されるデータである。ここで、相対時刻は、入力音声の開始時からの相対時刻であり、「HH:MM:SS.hh」(HHは時、MMは分、SSは秒、hhは百分の一秒)の形式で表現される。図示する例では相対時刻の刻み幅を百分の一秒(1/100秒)としているが、異なる刻み幅を用いても良い。また、基本周波数は、音声が有する周波数成分の最も低い周波数である。言い換えれば、基本周波数は、音声信号を正弦波の合成で表したときの最も低い周波数成分の周波数である。基本周波数の単位はヘルツ(Hertz)である。このように、韻律は、基本周波数の時間変動で表される。また、この韻律データは、相対時刻に対応して「有声/無声」のデータを含んでいる。このデータ「有声/無声」は、当該相対時刻から始まり次の相対時刻までの時間区間が、有声区間であるか無声区間であるかを表わす。なお、無声区間に対応する基本周波数のデータをヌルデータとしても良い。図示するデータでは、例えば、相対時刻「00:00:00.03」における入力音声の基本周波数は99.7ヘルツであり、同時刻から百分の一秒間の区間は有声区間である。
図4は、音声分析部20の内部における詳細な機能構成を示すブロック図である。図示するように、音声分析部20は、特徴量分析部21と、基本周波数平滑化処理部22と、パラメータ抽出部23とを含んで構成される。
アクセント用パラメータ制御部321から受け取る制御用データに基づいて、基本周波数構成部323は、時刻tごとに、関数の種類に応じて、また制御用データE(t)の値の正負に応じて、下の式(7)〜(10)によって韻律データの変換を行う。
P(t)=p(t)+RLp・E(t) (E(t)≧0のとき)・・・ (7)
P(t)=p(t)+RLn・E(t) (E(t)<0のとき)・・・ (8)
P(t)=p(t)+RDp・E(t) (E(t)≧0のとき)・・・ (9)
P(t)=p(t)+RDn・E(t) (E(t)<0のとき)・・・ (10)
基本周波数構成部323は、式(5)および(6)で表わした制御に基づき、韻律データを構成する。
図10は、韻律変換装置1による韻律変換処理の手順を示すフローチャートである。
次に、ステップS2において、特徴量分析部21が、有声区間であるか無声区間であるかを判別する。
次に、ステップS3において、基本周波数平滑化処理部22が、韻律データの平滑化を行なう。このとき、基本周波数平滑化処理部22は、その区間が有声区間であるか無声区間であるかを示す情報も用いる。
次に、ステップS6において、イントネーション用パラメータ制御部322が、入力音声に対応する韻律データに関して、イントネーション用のパラメータ制御を行なう。
なお、ステップS5とS6の順序を入れ替えても良い。
そして、ステップS8において、韻律変換部40が、変換済基本周波数を用いて韻律変換を行い、変換後の音声データを出力する。
次に、第1の実施形態の変形例を説明する。
変形例1では、LoGフィルタ関数を利用する場合において、正方向の強調成分係数と負方向の強調成分係数とを同一とする。つまり、RLp=RLnとする。
変形例2では、DoGフィルタ関数を利用する場合において、正方向の強調成分係数と負方向の強調成分係数とを同一とする。つまり、RDp=RDnとする。
変形例3では、LoGフィルタ関数を利用する場合において、負方向の強調成分係数を0とする。つまり、RLn=0とする。これにより、韻律変換のアクセント用パラメータ制御において、基本周波数が高くなる方向の強調のみが行なわれ、基本周波数が低くなる方向には強調が行なわれない。
変形例4では、DoGフィルタ関数を利用する場合において、負方向の強調成分係数を0とする。つまり、RDn=0とする。これにより、韻律変換のアクセント用パラメータ制御において、基本周波数が高くなる方向の強調のみが行なわれ、基本周波数が低くなる方向には強調が行なわれない。
変形例5では、アクセント用パラメータ制御部321が、LoGフィルタ関数の結果得られる値に対して、時系列変動における複数の山の部分の基本周波数が所定の範囲内に収まるように変更を加えるとともに、時系列変動における複数の谷の部分の基本周波数が所定の範囲内に収まるように変更を加える
変形例7では、イントネーション用パラメータ制御において、負方向の係数を1とする。つまり、Rin=1とする。これにより、イントネーション用パラメータ制御において、基本周波数が高くなる方向の強調のみが行なわれ、基本周波数が低くなる方向には強調が行なわれない。
変形例9では、韻律データ作成部32が、アクセント用パラメータ制御のみを行ない、イントネーション用パラメータ制御を行なわないようにする。この場合、韻律データ作成部32は、イントネーション用パラメータ制御部322を具備しない。このような構成においても、韻律変換装置1は、逐次的にアクセント用パラメータのみの制御による韻律変換処理を行うことができる。
図11は、第2の実施形態による韻律変換装置の機能構成を示すブロック図である。図示するように、韻律変換装置2は、音声分析部20と、韻律データ作成部32と、パラメータ記憶部33と、韻律変換部40と、設定データ更新部50と、認識処理部60を備えて構成される。なお、以下では、前述の実施形態との共通の事項については記載を省略し、本実施形態特有の技術事項のみを記す。また、前述の実施形態と共通の機能ブロックについては、同一の符号を付している。
例えば、上述した実施形態においては、韻律データ作成部32は、一定の等間隔に並んだ時刻ごとの基本周波数の値をデータとして出力するようにしたが、基本周波数の時間変動を表す他の形式のデータを用いて構成するようにしてもよい。例えば、基本周波数のサンプル値を取る間隔は一定でなくてもよく、また、サンプル値の集合としてではなく数式等で基本周波数の時間変動を表すようにしてもよい。
20 音声分析部
21 特徴量分析部
22 基本周波数平滑化処理部
23 パラメータ抽出部
32,32a 韻律データ作成部
321 アクセント用パラメータ制御部
3211 LoG関数処理部
3212 DoG関数処理部
322 イントネーション用パラメータ制御部
323 基本周波数構成部
33 パラメータ記憶部
40 韻律変換部
41 波形変換処理部
42 音声出力部
50 設定データ更新部
60 認識処理部
Claims (6)
- 入力音声を分析し前記入力音声の韻律データを出力する音声分析部と、
前記韻律データを変換し変換後の韻律データを出力する韻律データ作成部と、
前記韻律データ作成部から出力される前記変換後の韻律データに従って前記入力音声の韻律を変換し、変換後の音声を出力する韻律変換部と、
を具備する韻律変換装置であって、
前記韻律データ作成部は、
前記音声分析部から出力される前記韻律データの所定の時間窓内のデータをフィルタリングして強調成分データを抽出するアクセント用パラメータ制御部と、
前記韻律データに前記強調成分データを合成して前記変換後の韻律データを作成する基本周波数構成部と、
を具備することを特徴とする韻律変換装置。 - 請求項1に記載の韻律変換装置であって、
前記韻律データ作成部は、
前記韻律データにおける基本周波数の代表値を基準として、所定の係数を用いて、前記代表値からの基本周波数の変位量を変化させるよう前記基本周波数構成部を制御するイントネーション用パラメータ制御部、
を更に具備することを特徴とする韻律変換装置。 - 請求項1または2のいずれか一項に記載の韻律変換装置であって、
韻律の強調度合いを制御するための強調成分係数をパラメータとして記憶するパラメータ記憶部を具備し、
前記基本周波数構成部は、前記パラメータ記憶部から読み出した前記強調成分係数を前記強調成分データに乗じて得たデータを、変換前の前記韻律データに加算することにより、前記変換後の韻律データを作成する、
ことを特徴とする韻律変換装置。 - 請求項2に記載の韻律変換装置であって、
前記入力音声の音声認識処理を行って前記入力音声に対応するテキストを出力する認識処理部を更に具備するとともに、
前記韻律データ作成部は、前記認識処理部から出力された前記テキストが文を含む場合には前記アクセント用パラメータ制御部と前記イントネーション用パラメータ制御部の両方の処理結果に基づき前記変換後の韻律データを作成し、前記テキストが文を含まない場合には前記アクセント用パラメータ制御部のみの処理結果に基づき前記変換後の韻律データを作成する、
ことを特徴とする韻律変換装置。 - 請求項1から4までのいずれか一項に記載の韻律変換装置であって、
前記アクセント用パラメータ制御部は、ラプラシアン・オブ・ガウシアン関数またはディファレンス・オブ・ガウシアン関数のいずれかにより変換前の前記韻律データから前記強調成分データを抽出する、
ことを特徴とする韻律変換装置。 - コンピューターを、
入力音声を分析し前記入力音声の韻律データを出力する音声分析部と、
前記韻律データを変換し変換後の韻律データを出力する韻律データ作成部と、
前記韻律データ作成部から出力される前記変換後の韻律データに従って前記入力音声の韻律を変換し、変換後の音声を出力する韻律変換部と、を具備し、
前記韻律データ作成部が、
前記音声分析部から出力される前記韻律データの所定の時間窓内のデータをフィルタリングして強調成分データを抽出するアクセント用パラメータ制御部と、
前記韻律データに前記強調成分データを合成して前記変換後の韻律データを作成する基本周波数構成部と、
を具備する韻律変換装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011263672A JP5830364B2 (ja) | 2011-12-01 | 2011-12-01 | 韻律変換装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011263672A JP5830364B2 (ja) | 2011-12-01 | 2011-12-01 | 韻律変換装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013117556A JP2013117556A (ja) | 2013-06-13 |
JP5830364B2 true JP5830364B2 (ja) | 2015-12-09 |
Family
ID=48712177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011263672A Active JP5830364B2 (ja) | 2011-12-01 | 2011-12-01 | 韻律変換装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5830364B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6433650B2 (ja) * | 2013-11-15 | 2018-12-05 | 国立大学法人佐賀大学 | 気分誘導装置および気分誘導プログラムならびにコンピュータの動作方法 |
DE102013224417B3 (de) * | 2013-11-28 | 2015-05-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Hörhilfevorrichtung mit Grundfrequenzmodifizierung, Verfahren zur Verarbeitung eines Sprachsignals und Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens |
CN113689837B (zh) | 2021-08-24 | 2023-08-29 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、设备以及存储介质 |
-
2011
- 2011-12-01 JP JP2011263672A patent/JP5830364B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013117556A (ja) | 2013-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
JP4705203B2 (ja) | 声質変換装置、音高変換装置および声質変換方法 | |
Doi et al. | Esophageal speech enhancement based on statistical voice conversion with Gaussian mixture models | |
JPH031200A (ja) | 規則型音声合成装置 | |
JP6386237B2 (ja) | 音声明瞭化装置及びそのためのコンピュータプログラム | |
WO2010032405A1 (ja) | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム | |
JP5830364B2 (ja) | 韻律変換装置およびそのプログラム | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
KR102072627B1 (ko) | 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법 | |
JP6349112B2 (ja) | サウンドマスキング装置、方法及びプログラム | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP2008292587A (ja) | 韻律生成装置、韻律生成方法、および、韻律生成プログラム | |
US5748838A (en) | Method of speech representation and synthesis using a set of high level constrained parameters | |
JP2904279B2 (ja) | 音声合成方法および装置 | |
JP7339151B2 (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
JP5677137B2 (ja) | 韻律変換装置およびプログラム | |
JP2013033103A (ja) | 声質変換装置および声質変換方法 | |
JP5518621B2 (ja) | 音声合成装置およびコンピュータプログラム | |
JPH0580791A (ja) | 音声規則合成装置および方法 | |
JP5745453B2 (ja) | 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム | |
JP2019070775A (ja) | 信号解析装置、方法、及びプログラム | |
JP6371531B2 (ja) | 音声信号処理装置及びプログラム | |
JP4644879B2 (ja) | 調音パラメータ補間用データ生成装置及びコンピュータプログラム | |
JP6011758B2 (ja) | 音声合成システム、音声合成方法、およびプログラム | |
KR101567566B1 (ko) | 개인 음색을 반영한 통계적 음성합성 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150924 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150929 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151026 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5830364 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |