JPH0193795A - 音声の発声速度変換方法 - Google Patents
音声の発声速度変換方法Info
- Publication number
- JPH0193795A JPH0193795A JP62250707A JP25070787A JPH0193795A JP H0193795 A JPH0193795 A JP H0193795A JP 62250707 A JP62250707 A JP 62250707A JP 25070787 A JP25070787 A JP 25070787A JP H0193795 A JPH0193795 A JP H0193795A
- Authority
- JP
- Japan
- Prior art keywords
- section
- voiced
- consonant
- waveform
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title description 10
- 230000008602 contraction Effects 0.000 claims description 15
- 230000003247 decreasing effect Effects 0.000 claims 1
- 239000011295 pitch Substances 0.000 abstract description 54
- 238000004458 analytical method Methods 0.000 abstract description 21
- 230000006866 deterioration Effects 0.000 abstract description 6
- 238000010606 normalization Methods 0.000 abstract 2
- 238000004904 shortening Methods 0.000 abstract 1
- 238000000034 method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 229940081330 tena Drugs 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分!l!?]
本発明は、放送、映画、音楽等において、人間の音声を
処理する場合の発声速度を制御する音声の発声速度変換
方法に関する。
処理する場合の発声速度を制御する音声の発声速度変換
方法に関する。
゛ [発明の概要]
本発明は人の音声を一時髭録し、その発生速度を変化さ
せて、再び音声として出力する技術に関するもので、 入力音声をへ/D変換した後、有声音区間についてその
ピッチ周波数を抽出して各ピッチ間隔で分割し、その内
おもに定常母音区間についてピッチ単位で間引きまたは
繰り返しを行うと共相、無音区間、無声子音区間につい
ても間引きまたは繰返しを行って接続し、これをD/A
変換することにより、 原音声の音韻性や自然性を良好に保ったまま、発声速度
を自由に変換できるようにする方法である。
せて、再び音声として出力する技術に関するもので、 入力音声をへ/D変換した後、有声音区間についてその
ピッチ周波数を抽出して各ピッチ間隔で分割し、その内
おもに定常母音区間についてピッチ単位で間引きまたは
繰り返しを行うと共相、無音区間、無声子音区間につい
ても間引きまたは繰返しを行って接続し、これをD/A
変換することにより、 原音声の音韻性や自然性を良好に保ったまま、発声速度
を自由に変換できるようにする方法である。
[従来の技術]
この種の技術としては、古典的な例として音声をアナロ
グテープレコーダに録音し、再生スピードを変化させる
方法がある。この場合、発声速度のみならず、ピッチ周
波数やホルマント周波数も一様に変化する。すなわち、
再生スピードを録音時のR倍にすると、発声速度がR倍
になると共に、ピッチおよびホルマント周波数も全てR
倍となる。ここで、ピッチ周波数はその全体的な変化に
よって音声の高低を決定し、局所的な変化によって、ア
クセント等、音声の抑揚を決定するものである。また、
ホルマント周波数は音声の個人性や音韻性を定めるもの
である。
グテープレコーダに録音し、再生スピードを変化させる
方法がある。この場合、発声速度のみならず、ピッチ周
波数やホルマント周波数も一様に変化する。すなわち、
再生スピードを録音時のR倍にすると、発声速度がR倍
になると共に、ピッチおよびホルマント周波数も全てR
倍となる。ここで、ピッチ周波数はその全体的な変化に
よって音声の高低を決定し、局所的な変化によって、ア
クセント等、音声の抑揚を決定するものである。また、
ホルマント周波数は音声の個人性や音韻性を定めるもの
である。
これに対し、R倍になったピッチおよびホルマント周波
数を元に戻すには、BBDなどを用いてクロック周波数
Fで取込んだ音声波形を、F/Rなるクロック周波数で
読出せばピッチおよびホルマント周波数が17R倍とな
りもとに戻る。ただし、BBDに取込む前に、適当な時
間窓と周期を用いて波形を間引いたり、繰り返したりし
て、過不足のないようにする。
数を元に戻すには、BBDなどを用いてクロック周波数
Fで取込んだ音声波形を、F/Rなるクロック周波数で
読出せばピッチおよびホルマント周波数が17R倍とな
りもとに戻る。ただし、BBDに取込む前に、適当な時
間窓と周期を用いて波形を間引いたり、繰り返したりし
て、過不足のないようにする。
また、デジタル信号処理である、分析・合成法を用いる
方式も提案されている。分析によって得られた調音パラ
メータと残差波形を、時間的に適当な単位で間引いたり
、繰返しながら合成すれば、ピッチおよびホルマント周
波数には変化を与えずに発声速度を制御することができ
る。
方式も提案されている。分析によって得られた調音パラ
メータと残差波形を、時間的に適当な単位で間引いたり
、繰返しながら合成すれば、ピッチおよびホルマント周
波数には変化を与えずに発声速度を制御することができ
る。
[発明が解決しようとする問題点]
しかしながら、テープレコーダの再生スピードを変化さ
せるだけの方法は簡単ではあるが、ピッチやホルマント
周波数も変化してしまう。ピッチやホルマント周波数が
変化すると、個人性に影響があり、更に変化量が多い場
合には音韻性が劣化し、非人間的な声となる。
せるだけの方法は簡単ではあるが、ピッチやホルマント
周波数も変化してしまう。ピッチやホルマント周波数が
変化すると、個人性に影響があり、更に変化量が多い場
合には音韻性が劣化し、非人間的な声となる。
またピッチやホルマント周波数を元に戻す方式において
も、その処理単位が、ブロック単位であるため、波形の
連続性を完全に保つことが難しく、音質劣化が著しい。
も、その処理単位が、ブロック単位であるため、波形の
連続性を完全に保つことが難しく、音質劣化が著しい。
さらに、分析・合成方法においても、出力音声がパラメ
ータ制御による合成音であるためある程度の音質劣化は
避けられない。
ータ制御による合成音であるためある程度の音質劣化は
避けられない。
また、従来の方式では、処理が全ての区間で一様である
が、実際の音声では子音の種類によってはその持続時間
が発声速度に殆ど依存せず、この部分を母音区間と同じ
比率で時間伸縮したのでは、会話音声としての自然性が
劣化する。
が、実際の音声では子音の種類によってはその持続時間
が発声速度に殆ど依存せず、この部分を母音区間と同じ
比率で時間伸縮したのでは、会話音声としての自然性が
劣化する。
ざらにtやkのような破裂性の子音は持続時間が短いの
で、ブロック単位で間引いた場合に消失する場合がある
。
で、ブロック単位で間引いた場合に消失する場合がある
。
そこで、本発明の目的は上述した従来の問題点を解消し
、間引きや繰り返しの単位をピッチ単位とすることで波
形の連続性を保ち、かつ原音声の波形をそのまま用いる
ことで音質の劣化を防ぐことを可能とする音声の発声速
度変換方法を提供することにある。
、間引きや繰り返しの単位をピッチ単位とすることで波
形の連続性を保ち、かつ原音声の波形をそのまま用いる
ことで音質の劣化を防ぐことを可能とする音声の発声速
度変換方法を提供することにある。
本発明の他の目的は母音区間、有声子音区間、無声子音
区間、無音区間を別々の比率で時間伸縮し、音声として
の自然性を維持することが可能な音声の発声速度変換方
法を提供することにある。
区間、無音区間を別々の比率で時間伸縮し、音声として
の自然性を維持することが可能な音声の発声速度変換方
法を提供することにある。
[問題点を解決するための手段]
そのために本発明では入力音声波形から、母音区間、有
声子音区間、無声子音区間、無音区間を抽出し、有声子
音区間と母音区間とで構成される有声音区間からピッチ
周期を抽出することによって有声音区間をピッチの間隔
で分割し、母音区間および無音区間における発声時間長
の伸縮比率を大とし、かつ有声子音区間および無声子音
区間の伸縮比率を小とする各々の区間の伸縮比率を定め
、母音区間および有声子音区間では定められた伸縮比率
に基づきピッチ間隔で波形の間引または繰り返しをする
ことによって発声時間長を伸縮し、無声子音区間および
無音区間では定められた伸縮比率に基づき区間毎に発声
時間長の伸縮を行なった後各々の区間を接続して新たな
音声波形とすることを特徴とする。
声子音区間、無声子音区間、無音区間を抽出し、有声子
音区間と母音区間とで構成される有声音区間からピッチ
周期を抽出することによって有声音区間をピッチの間隔
で分割し、母音区間および無音区間における発声時間長
の伸縮比率を大とし、かつ有声子音区間および無声子音
区間の伸縮比率を小とする各々の区間の伸縮比率を定め
、母音区間および有声子音区間では定められた伸縮比率
に基づきピッチ間隔で波形の間引または繰り返しをする
ことによって発声時間長を伸縮し、無声子音区間および
無音区間では定められた伸縮比率に基づき区間毎に発声
時間長の伸縮を行なった後各々の区間を接続して新たな
音声波形とすることを特徴とする。
[作 用]
以上の構成によれば、入力音声を母音区間、有声子音区
間、無声子音区間、無音区間に分離し、それぞれの区間
毎に人間の発声特徴に応じた変換方法を用いて発声速度
を変換する。
間、無声子音区間、無音区間に分離し、それぞれの区間
毎に人間の発声特徴に応じた変換方法を用いて発声速度
を変換する。
すなわち、有声音区間では音声の間引きや繰り返しの単
位をピッチ単位とし、かつ原音声の波形をそのまま用い
る。
位をピッチ単位とし、かつ原音声の波形をそのまま用い
る。
また、子音区間においても、それぞれの子音の性質によ
り伸縮の方式を切替える。
り伸縮の方式を切替える。
[実施例]
以下、図面に示す実施例に基づき本発明の詳細な説明す
る。
る。
第1図は、本発明の一実施例に係る発声速度変換システ
ムのブロック図を示す。図において、2は分析部、4は
制御部、6は波形接続部をそれぞれ示し、各部は電子計
算機内に構成され、ROM 。
ムのブロック図を示す。図において、2は分析部、4は
制御部、6は波形接続部をそれぞれ示し、各部は電子計
算機内に構成され、ROM 。
RAMあるいはメモリディスク等のメモリを併用しなが
ら発声速度変換の処理が実行される。
ら発声速度変換の処理が実行される。
A/D変換されて標本化された音声波形は分析部2へ入
力し、有音と無音および有声音と無声音の判別、さらに
は有声音については線形予測分析がなされ、ピッチ周期
、予測係数、共振周波数、共振の帯域幅が求められる。
力し、有音と無音および有声音と無声音の判別、さらに
は有声音については線形予測分析がなされ、ピッチ周期
、予測係数、共振周波数、共振の帯域幅が求められる。
次に、制御部4においては、発声速度を変更し、波形接
続部6では発声時間長を伸縮して波形の接続を行なう。
続部6では発声時間長を伸縮して波形の接続を行なう。
上述した一連の発声速度変換の処理を終了すると、合成
された音声波形をD/A変換して出力音声とする。
された音声波形をD/A変換して出力音声とする。
上記各部における処理の詳細を第2図に示すフローチャ
ートを参照しながら説明する。
ートを参照しながら説明する。
変換ビット数12bit、標本化周波数15kHzでA
/D変換された音声は、まず、分析部2において、ステ
ップS1で音声パワーの有無に基づいて有音区間と無音
区間の判別が行われる。次にステップS2では有音区間
の標本値に対してPARCOR分析と7交さ分析とを行
い、無声子音区間と有声音区間との判別を行う、これは
、1次のPARCOR係数を参照して入力周波数の高域
成分の割合を調べたり、平文さ数を調べることによって
行なう。すなわち、無声子音のエネルギーは高周波領域
にまで分布しているので、高域成分の割合および高周波
になると多くなる;交さ数を調べることによって無声子
音と有声音とを判別する。なお、PARCOR分析と平
文さ分析の両方を用いて判別を行なうのは、判別を確実
なものとするためである。
/D変換された音声は、まず、分析部2において、ステ
ップS1で音声パワーの有無に基づいて有音区間と無音
区間の判別が行われる。次にステップS2では有音区間
の標本値に対してPARCOR分析と7交さ分析とを行
い、無声子音区間と有声音区間との判別を行う、これは
、1次のPARCOR係数を参照して入力周波数の高域
成分の割合を調べたり、平文さ数を調べることによって
行なう。すなわち、無声子音のエネルギーは高周波領域
にまで分布しているので、高域成分の割合および高周波
になると多くなる;交さ数を調べることによって無声子
音と有声音とを判別する。なお、PARCOR分析と平
文さ分析の両方を用いて判別を行なうのは、判別を確実
なものとするためである。
上記ステップS1およびS2で判別された無音区間の時
間および無声子音区間の波形は、それぞれステップS1
5およびS16においてそのままRAMあるいはメモリ
ディスク等に記憶される。
間および無声子音区間の波形は、それぞれステップS1
5およびS16においてそのままRAMあるいはメモリ
ディスク等に記憶される。
次に、ステップS3では有声音区間における音声波形の
標本値を音声の生成モデルに基づくいわゆる声道逆フィ
ルタに通すことによって線形予測分析を行なう。この線
形予測分析によって線形予測係数と残差波形を得る。得
られた残差波形はステップ517においてRAMあるい
はメモリディスク等に記憶される。
標本値を音声の生成モデルに基づくいわゆる声道逆フィ
ルタに通すことによって線形予測分析を行なう。この線
形予測分析によって線形予測係数と残差波形を得る。得
られた残差波形はステップ517においてRAMあるい
はメモリディスク等に記憶される。
ステップS4ではステップS3で得られた残差波形の相
間における周期と原音声波形のピークの間隔とから仮の
ピッチ周期を求める。
間における周期と原音声波形のピークの間隔とから仮の
ピッチ周期を求める。
次に、ステップS5においては、第3図に示すように波
形のレベルが急に大きくなる点の直前をピッチの開始点
とし、上記で求めたピッチ周期に基づき次のピッチの開
始点の1標本手前を終了点として1つのピッチ区間を定
める。
形のレベルが急に大きくなる点の直前をピッチの開始点
とし、上記で求めたピッチ周期に基づき次のピッチの開
始点の1標本手前を終了点として1つのピッチ区間を定
める。
ステップS6では上記で求めた1ピッチ区間の中間点を
分析窓の中心として、20m5ec程度の窓掛けを行な
う。この窓掛けにより有限個の標本値による短時間スペ
クトル分析が可能となり、この窓掛はデータを基に再び
線形予測分析を行なう。すなわち、標本値の窓掛けを行
なったデータを基に相関関数を求めることによって、線
形予測係数α1〜α、を算出する。ここで、pは線形予
測分析の次数であり、一般に男性の声に対してはp=−
14、女性の声に対してはp=10程度を用いる。
分析窓の中心として、20m5ec程度の窓掛けを行な
う。この窓掛けにより有限個の標本値による短時間スペ
クトル分析が可能となり、この窓掛はデータを基に再び
線形予測分析を行なう。すなわち、標本値の窓掛けを行
なったデータを基に相関関数を求めることによって、線
形予測係数α1〜α、を算出する。ここで、pは線形予
測分析の次数であり、一般に男性の声に対してはp=−
14、女性の声に対してはp=10程度を用いる。
さらに、ステップ318で、以下に示す(1)式を満足
するZの根z、〜zpを求め、各々の根21に対応して
(2) 、 (3)式により共振周波数F、とその帯域
幅Blを求める。
するZの根z、〜zpを求め、各々の根21に対応して
(2) 、 (3)式により共振周波数F、とその帯域
幅Blを求める。
1 + a 、z−’十a 2z−2+−+ a 、z
す=0 (1)F1=Fs/(2π)・arg(
zt) [Hzl (2)B+ =Fs/
π・flog(lz+l ) l [Hz
l (3)なおFsは音声の標本化周波数である。
す=0 (1)F1=Fs/(2π)・arg(
zt) [Hzl (2)B+ =Fs/
π・flog(lz+l ) l [Hz
l (3)なおFsは音声の標本化周波数である。
また、ステップS7はこの1ピッチ区間内のサンプル値
の自乗和をピッチ区間長で割った値を正規化パワーと定
義し、ピッチ区間の長さと共にRAMあるいはメモリデ
ィスク等に記録する。
の自乗和をピッチ区間長で割った値を正規化パワーと定
義し、ピッチ区間の長さと共にRAMあるいはメモリデ
ィスク等に記録する。
処理区間を1ピッチ分だけ後へずらし、上述した一連の
処理を行い、これらの操作を有声区間が終るまで繰返す
。
処理を行い、これらの操作を有声区間が終るまで繰返す
。
(2)式で求めた共振周波数の時間軌跡は、定常母音部
では連続的でかつ緩やかに変化するが、有声子音部では
不安定に変化しかつ帯域幅は母音部よりも広い。また正
規化パワーの時間軌跡においては有声子音部で一時的か
つ急激な減少が起こることが多い。そこで、ステップS
8では、これらの特徴を用いて、母音部と有声子音部を
分離し、各ピッチ毎にその情報をRAMあるいはメモリ
ディスク等に記録する。
では連続的でかつ緩やかに変化するが、有声子音部では
不安定に変化しかつ帯域幅は母音部よりも広い。また正
規化パワーの時間軌跡においては有声子音部で一時的か
つ急激な減少が起こることが多い。そこで、ステップS
8では、これらの特徴を用いて、母音部と有声子音部を
分離し、各ピッチ毎にその情報をRAMあるいはメモリ
ディスク等に記録する。
制御部4では、分析部2において得られた、無音区間長
や一連のピッチ周期を基に、適当な配分により無音区間
長を伸縮したり、有声区間の各々のピッチを繰返すかま
たは間引くことにより、発話の時間長即ち発声速度が変
更された新しいピッチ周期列を作る。
や一連のピッチ周期を基に、適当な配分により無音区間
長を伸縮したり、有声区間の各々のピッチを繰返すかま
たは間引くことにより、発話の時間長即ち発声速度が変
更された新しいピッチ周期列を作る。
ここで分析部2において次のような結果が得られたとす
る。
る。
全発声時間長 T a、1母音部分
の時間長の総和 TV有声子音部分の時間長の
総和 T ev無声子音部分の時間長の総和
Terl無音部分の時間長の総和 Tまただし Ta++−Tv +Tcv+ Ten + Tt
(4)ここで発声速度をR倍にしたければ、T、
、、を1/R倍にすれ゛ばよい。
の時間長の総和 TV有声子音部分の時間長の
総和 T ev無声子音部分の時間長の総和
Terl無音部分の時間長の総和 Tまただし Ta++−Tv +Tcv+ Ten + Tt
(4)ここで発声速度をR倍にしたければ、T、
、、を1/R倍にすれ゛ばよい。
ところが、実際の音声家は、発声速度が変化してもTc
nやTcvはあまり変化せず、主にT、やTvが変化す
る。そこで、T1とTVについては1の重みで、Tcn
とTcvについてはW(ただしWく1)の重みでその長
さを変更し、その和’r’、、。
nやTcvはあまり変化せず、主にT、やTvが変化す
る。そこで、T1とTVについては1の重みで、Tcn
とTcvについてはW(ただしWく1)の重みでその長
さを変更し、その和’r’、、。
がTa1lの17R倍になるようにする。すなわちステ
ップS9において、変更後の各部の時間長を次のように
する。
ップS9において、変更後の各部の時間長を次のように
する。
T ’、、、−γ。・T−++
(5)r ’v = y r”T v
(8)T′ev=γ2・Tcv(7) T′cn=γ2・T an
(a)To、 =γ1・T *
(9)ただし γ。−1/ R(10) 波形接続部6では制御部4で決定された比率により各部
分の発声時間長を伸縮して接続する。
(5)r ’v = y r”T v
(8)T′ev=γ2・Tcv(7) T′cn=γ2・T an
(a)To、 =γ1・T *
(9)ただし γ。−1/ R(10) 波形接続部6では制御部4で決定された比率により各部
分の発声時間長を伸縮して接続する。
母音区間、有声子音区間においてそれぞれの発声時間長
を71倍、12倍にするには、以下のように適当な割合
でピッチ単位の波形を適宜間引くかまたは繰り返して接
続する。
を71倍、12倍にするには、以下のように適当な割合
でピッチ単位の波形を適宜間引くかまたは繰り返して接
続する。
すなわち、ステップ510およびSllで、ある母音区
間または有声子音区間の発声時間長を1倍するとして、
γ〉1ならば、1/(γ−1)ピッチにつき1ピツチの
割合で同じピッチ波形を繰返し、γく1ならば、1/(
1−γ)ピッチにつき1ピツチの割合で間引く。第4図
にγ=1.5、およびγ= 0.667の場合の例を示
す。同図から明らかなように、γ=1.5の場合は2ピ
ツチに1回ピッチ区間2および4を繰り返えす。また、
γ;0.867の場合、3ピツチに1回ピッチ区間3お
よび6を間引く。
間または有声子音区間の発声時間長を1倍するとして、
γ〉1ならば、1/(γ−1)ピッチにつき1ピツチの
割合で同じピッチ波形を繰返し、γく1ならば、1/(
1−γ)ピッチにつき1ピツチの割合で間引く。第4図
にγ=1.5、およびγ= 0.667の場合の例を示
す。同図から明らかなように、γ=1.5の場合は2ピ
ツチに1回ピッチ区間2および4を繰り返えす。また、
γ;0.867の場合、3ピツチに1回ピッチ区間3お
よび6を間引く。
なお、有声子音区間のうち原音声の区間長が25m5e
c以下のものについては消音/γ/の可能性が高く、こ
の区間の長さは発声速度には殆ど依存しないので伸縮は
行わない。
c以下のものについては消音/γ/の可能性が高く、こ
の区間の長さは発声速度には殆ど依存しないので伸縮は
行わない。
このようにすれば、概ね原音声の1倍の発声時間長とす
ることができ、かつ聴感的にも違和感がない。
ることができ、かつ聴感的にも違和感がない。
なお、−殻内にピッチ区間を間引くかまたは繰返した波
形においては、あるピッチ区間の終了点と次のピッチ区
間の開始点の間は不連続であるので、接続点の前後数サ
ンプルのデータを用いて最小自乗法により3次曲線を用
いた近似を行い、連続的に接続する。
形においては、あるピッチ区間の終了点と次のピッチ区
間の開始点の間は不連続であるので、接続点の前後数サ
ンプルのデータを用いて最小自乗法により3次曲線を用
いた近似を行い、連続的に接続する。
無声子音区間においてはステップS12で原音声の区間
長しが60m5ecより短いものについては破裂性また
は破擦性の子音の可能性が高いので、それ自身の伸縮は
行わない。
長しが60m5ecより短いものについては破裂性また
は破擦性の子音の可能性が高いので、それ自身の伸縮は
行わない。
Lが8θミリ秒より大きいものについてはγ2〈1なら
ば区間の開始点および終了点から中間点に向かって、そ
れぞれL・(1−γ2)/2に相当する長さを省く。2
≧γ2〉1ならば中間点の前後し・(γ2−1)に相当
する長さの波形を切り出し原波形の中間点の間に挿入す
る。この様子を第5図に示す。γ2〉2の場合は、全区
間を繰返す操作を適宜加える。
ば区間の開始点および終了点から中間点に向かって、そ
れぞれL・(1−γ2)/2に相当する長さを省く。2
≧γ2〉1ならば中間点の前後し・(γ2−1)に相当
する長さの波形を切り出し原波形の中間点の間に挿入す
る。この様子を第5図に示す。γ2〉2の場合は、全区
間を繰返す操作を適宜加える。
無音区間においては、ステップS13で、基本的には無
条件にその区間長を11倍して新たな区間長とするが、
無声子音の直後の30ミリ秒以下の無音部は、無声破裂
子音の気音部の可能性が高いので例外としてその長さを
不変とすると共に、無声子音の直前の無音部を短くする
場合には30ミリ秒以下にならないように制限する。
条件にその区間長を11倍して新たな区間長とするが、
無声子音の直後の30ミリ秒以下の無音部は、無声破裂
子音の気音部の可能性が高いので例外としてその長さを
不変とすると共に、無声子音の直前の無音部を短くする
場合には30ミリ秒以下にならないように制限する。
なお、以上の処理で各部分に生じた伸縮時間長の誤差は
、それぞれの区間の近傍の無音区間または母音区間の長
さを伸縮して修正する。
、それぞれの区間の近傍の無音区間または母音区間の長
さを伸縮して修正する。
ひとつの区間の処理が終了したならば、ステップS14
において、その開始部および終了部に1ミリ秒程度の立
上がりおよび立下がりの窓をかけ、前の区間と接続し、
次の区間の処理に穆る。
において、その開始部および終了部に1ミリ秒程度の立
上がりおよび立下がりの窓をかけ、前の区間と接続し、
次の区間の処理に穆る。
なお、長時間にわたる連続音声の全発声時間長を基に処
理を行うのは困難であるので、100〜200ミリ秒前
後の比較的長い無音区間を検出したならば、その中間点
までをひとつのブロックと考え、まずこの1ブロツクの
中で上記の一連の時間伸縮処理を行った後、つぎのブロ
ックの処理に移る。ただし、原音声が比較的早口の場合
には、ブロック分割を判断するための無音区間長を50
ミリ秒程度に狭めた方がよい。
理を行うのは困難であるので、100〜200ミリ秒前
後の比較的長い無音区間を検出したならば、その中間点
までをひとつのブロックと考え、まずこの1ブロツクの
中で上記の一連の時間伸縮処理を行った後、つぎのブロ
ックの処理に移る。ただし、原音声が比較的早口の場合
には、ブロック分割を判断するための無音区間長を50
ミリ秒程度に狭めた方がよい。
最終的に合成された音声をD/^変換して、出力音声と
する。
する。
なお、分析部2における、ピッチ周波数抽出法や、有声
/無声判別法、有声子音抽出法などは、ここで述べたも
のに限らず、それらが精度良く抽出できる方法なら何で
も良い。
/無声判別法、有声子音抽出法などは、ここで述べたも
のに限らず、それらが精度良く抽出できる方法なら何で
も良い。
[発明の効果]
以上説明したように、本発明によれば予め入力音声を母
音区間、有声子音区間、無声子音区間、無音区間に分離
し、それぞれの区間毎に人間の発声の特徴に応じた変換
方法を用いて発声速度を換えるので、音声としての自然
性が高い。
音区間、有声子音区間、無声子音区間、無音区間に分離
し、それぞれの区間毎に人間の発声の特徴に応じた変換
方法を用いて発声速度を換えるので、音声としての自然
性が高い。
また、有声音区間では音声の間引きや繰返しの単位をピ
ッチ単位とすることで波形の連続性を保ち、かつ原音声
の波形をそのまま用いることで音質の劣化が殆どない。
ッチ単位とすることで波形の連続性を保ち、かつ原音声
の波形をそのまま用いることで音質の劣化が殆どない。
さらに子音区間においても、それぞれの子音の性質によ
り伸縮の方式を切替えることができるので、持続時間の
短いものが脱落することなどもなく、明瞭度の低下を最
小限に抑えることができる。
り伸縮の方式を切替えることができるので、持続時間の
短いものが脱落することなどもなく、明瞭度の低下を最
小限に抑えることができる。
第1図は本発明の一実施例に係るシステムのブロック図
、 第2図は本発明の一実施例を示すフローチャート、 第3図は実施例におけるピッチ区間の定め方を説明する
ための波形図、 第4図は実施例における波形の繰り返しおよび間引きを
説明するための波形図、 第5図は実施例における無声子音部の波形の伸縮を説明
するための波形図である。 2・・・分析部、 4・・・制御部、 6・・・波形制御部。
、 第2図は本発明の一実施例を示すフローチャート、 第3図は実施例におけるピッチ区間の定め方を説明する
ための波形図、 第4図は実施例における波形の繰り返しおよび間引きを
説明するための波形図、 第5図は実施例における無声子音部の波形の伸縮を説明
するための波形図である。 2・・・分析部、 4・・・制御部、 6・・・波形制御部。
Claims (1)
- 【特許請求の範囲】 入力音声波形から、母音区間、有声子音区間、無声子音
区間、無音区間を抽出し、 前記有声子音区間と前記母音区間とで構成される有声音
区間からピッチ周期を抽出することによって該有声音区
間を当該ピッチの間隔で分割し、 前記母音区間および前記無音区間における発話時間長の
伸縮比率を大とし、かつ前記有声子音区間および前記無
声子音区間の前記伸縮比率を小とする前記各々の区間の
前記伸縮比率を定め、前記母音区間および前記有声子音
区間では前記定められた伸縮比率に基づき前記ピッチ間
隔で波形の間引または繰り返しをすることによって発声
時間長を伸縮し、 前記無声子音区間および前記無音区間では前記定められ
た伸縮比率に基づき当該区間毎に発声時間長の伸縮を行
なった後前記各々の区間を接続して新たな音声波形とす
ることを特徴とする音声の発声速度変換方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62250707A JP2612868B2 (ja) | 1987-10-06 | 1987-10-06 | 音声の発声速度変換方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62250707A JP2612868B2 (ja) | 1987-10-06 | 1987-10-06 | 音声の発声速度変換方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0193795A true JPH0193795A (ja) | 1989-04-12 |
JP2612868B2 JP2612868B2 (ja) | 1997-05-21 |
Family
ID=17211852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62250707A Expired - Lifetime JP2612868B2 (ja) | 1987-10-06 | 1987-10-06 | 音声の発声速度変換方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2612868B2 (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998041976A1 (fr) * | 1997-03-14 | 1998-09-24 | Nippon Hoso Kyokai | Procede et dispositif permettant de modifier la vitesse des sons vocaux |
US5825853A (en) * | 1995-09-07 | 1998-10-20 | Hitachi, Ltd. | Communication device |
US5995925A (en) * | 1996-09-17 | 1999-11-30 | Nec Corporation | Voice speed converter |
US6801898B1 (en) | 1999-05-06 | 2004-10-05 | Yamaha Corporation | Time-scale modification method and apparatus for digital signals |
US6835885B1 (en) | 1999-08-10 | 2004-12-28 | Yamaha Corporation | Time-axis compression/expansion method and apparatus for multitrack signals |
WO2005117366A1 (ja) * | 2004-05-26 | 2005-12-08 | Nippon Telegraph And Telephone Corporation | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 |
JP2005539261A (ja) * | 2002-09-17 | 2005-12-22 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声合成における時間幅を制御する方法 |
JPWO2006077626A1 (ja) * | 2005-01-18 | 2008-06-12 | 富士通株式会社 | 話速変換方法及び話速変換装置 |
US7664650B2 (en) | 2005-06-22 | 2010-02-16 | Fujitsu Limited | Speech speed converting device and speech speed converting method |
JP2012074911A (ja) * | 2010-09-28 | 2012-04-12 | Kyocera Corp | 携帯電子機器及び音声制御システム |
JP2012088392A (ja) * | 2010-10-15 | 2012-05-10 | Nippon Hoso Kyokai <Nhk> | 話速変換装置及びプログラム |
US8469035B2 (en) | 2008-09-18 | 2013-06-25 | R. J. Reynolds Tobacco Company | Method for preparing fuel element for smoking article |
JP2016218345A (ja) * | 2015-05-25 | 2016-12-22 | ヤマハ株式会社 | 音素材処理装置および音素材処理プログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001344905A (ja) | 2000-05-26 | 2001-12-14 | Fujitsu Ltd | データ再生装置、その方法及び記録媒体 |
-
1987
- 1987-10-06 JP JP62250707A patent/JP2612868B2/ja not_active Expired - Lifetime
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5825853A (en) * | 1995-09-07 | 1998-10-20 | Hitachi, Ltd. | Communication device |
US5995925A (en) * | 1996-09-17 | 1999-11-30 | Nec Corporation | Voice speed converter |
WO1998041976A1 (fr) * | 1997-03-14 | 1998-09-24 | Nippon Hoso Kyokai | Procede et dispositif permettant de modifier la vitesse des sons vocaux |
US6205420B1 (en) | 1997-03-14 | 2001-03-20 | Nippon Hoso Kyokai | Method and device for instantly changing the speed of a speech |
US6801898B1 (en) | 1999-05-06 | 2004-10-05 | Yamaha Corporation | Time-scale modification method and apparatus for digital signals |
US6835885B1 (en) | 1999-08-10 | 2004-12-28 | Yamaha Corporation | Time-axis compression/expansion method and apparatus for multitrack signals |
US7912708B2 (en) | 2002-09-17 | 2011-03-22 | Koninklijke Philips Electronics N.V. | Method for controlling duration in speech synthesis |
JP2005539261A (ja) * | 2002-09-17 | 2005-12-22 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声合成における時間幅を制御する方法 |
US7710982B2 (en) | 2004-05-26 | 2010-05-04 | Nippon Telegraph And Telephone Corporation | Sound packet reproducing method, sound packet reproducing apparatus, sound packet reproducing program, and recording medium |
WO2005117366A1 (ja) * | 2004-05-26 | 2005-12-08 | Nippon Telegraph And Telephone Corporation | 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体 |
JPWO2006077626A1 (ja) * | 2005-01-18 | 2008-06-12 | 富士通株式会社 | 話速変換方法及び話速変換装置 |
JP4630876B2 (ja) * | 2005-01-18 | 2011-02-09 | 富士通株式会社 | 話速変換方法及び話速変換装置 |
US7664650B2 (en) | 2005-06-22 | 2010-02-16 | Fujitsu Limited | Speech speed converting device and speech speed converting method |
US8469035B2 (en) | 2008-09-18 | 2013-06-25 | R. J. Reynolds Tobacco Company | Method for preparing fuel element for smoking article |
JP2012074911A (ja) * | 2010-09-28 | 2012-04-12 | Kyocera Corp | 携帯電子機器及び音声制御システム |
JP2012088392A (ja) * | 2010-10-15 | 2012-05-10 | Nippon Hoso Kyokai <Nhk> | 話速変換装置及びプログラム |
JP2016218345A (ja) * | 2015-05-25 | 2016-12-22 | ヤマハ株式会社 | 音素材処理装置および音素材処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2612868B2 (ja) | 1997-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2787179B2 (ja) | 音声合成システムの音声合成方法 | |
US7016841B2 (en) | Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method | |
AU719955B2 (en) | Non-uniform time scale modification of recorded audio | |
US5682502A (en) | Syllable-beat-point synchronized rule-based speech synthesis from coded utterance-speed-independent phoneme combination parameters | |
JPH031200A (ja) | 規則型音声合成装置 | |
JPH0193795A (ja) | 音声の発声速度変換方法 | |
JP3576800B2 (ja) | 音声分析方法、及びプログラム記録媒体 | |
JPH04358200A (ja) | 音声合成装置 | |
JP2904279B2 (ja) | 音声合成方法および装置 | |
JP2612867B2 (ja) | 音声ピッチ変換方法 | |
JP3197975B2 (ja) | ピッチ制御方法及び装置 | |
JP2612869B2 (ja) | 声質変換方法 | |
US20050131679A1 (en) | Method for synthesizing speech | |
WO2004027753A1 (en) | Method of synthesis for a steady sound signal | |
Itoh et al. | A new waveform speech synthesis approach based on the COC speech spectrum | |
Anil et al. | Expressive speech synthesis using prosodic modification for Marathi language | |
JP3083830B2 (ja) | 音声の発声時間長制御方法および装置 | |
Lawlor | A novel efficient algorithm for voice gender conversion | |
JP3241582B2 (ja) | 韻律制御装置及び方法 | |
JPH07210192A (ja) | 出力データ制御方法及び装置 | |
JP3083829B2 (ja) | 音声ピッチ変換方法および装置 | |
Singh et al. | Removal of spectral discontinuity in concatenated speech waveform | |
JPH10187180A (ja) | 楽音発生装置 | |
JPS5950079B2 (ja) | 音声合成方法 | |
JP2008262140A (ja) | 音程変換装置及び音程変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080227 Year of fee payment: 11 |