JPH1145098A - 音声波形の区切り点検出方法並びに話速変換方法および話速変換処理プログラムを記憶した記憶媒体 - Google Patents
音声波形の区切り点検出方法並びに話速変換方法および話速変換処理プログラムを記憶した記憶媒体Info
- Publication number
- JPH1145098A JPH1145098A JP9201632A JP20163297A JPH1145098A JP H1145098 A JPH1145098 A JP H1145098A JP 9201632 A JP9201632 A JP 9201632A JP 20163297 A JP20163297 A JP 20163297A JP H1145098 A JPH1145098 A JP H1145098A
- Authority
- JP
- Japan
- Prior art keywords
- breakpoint
- processing
- waveform
- section
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Abstract
(57)【要約】
【課題】 話速変換を行うために音声波形からピッチ周
期を少ない処理量で、且つ、高精度に求める。 【解決手段】 有音声区間を抽出し(ステップs1)、
抽出した有音声区間を処理対象音声波形とし、その処理
対象音声波形の時間軸上における既に決定済みの区切り
点を基点に、予め定めた区間の音声波形をコピーし(ス
テップs2)、コピー区間の音声波形を前記時間軸上の
既に決定済みの区切り点を基点に所定サンプリング点ず
つ平行移動し(ステップs3)、平行移動ごとにそれぞ
れの平行移動点におけるコピー区間の音声波形と処理対
象音声波形との相関を求め、相関の最も大きくなる平行
移動点を次の区切り点として求める(ステップs4〜s
6)。そして、求められたそれぞれの区切り点間を処理
対象音声波形のピッチ周期あるいはその整数倍の周期と
して、それぞれの区切り点間の音声波形を、変換すべき
話速に応じて重複あるいは間引き処理する。
期を少ない処理量で、且つ、高精度に求める。 【解決手段】 有音声区間を抽出し(ステップs1)、
抽出した有音声区間を処理対象音声波形とし、その処理
対象音声波形の時間軸上における既に決定済みの区切り
点を基点に、予め定めた区間の音声波形をコピーし(ス
テップs2)、コピー区間の音声波形を前記時間軸上の
既に決定済みの区切り点を基点に所定サンプリング点ず
つ平行移動し(ステップs3)、平行移動ごとにそれぞ
れの平行移動点におけるコピー区間の音声波形と処理対
象音声波形との相関を求め、相関の最も大きくなる平行
移動点を次の区切り点として求める(ステップs4〜s
6)。そして、求められたそれぞれの区切り点間を処理
対象音声波形のピッチ周期あるいはその整数倍の周期と
して、それぞれの区切り点間の音声波形を、変換すべき
話速に応じて重複あるいは間引き処理する。
Description
【0001】
【発明の属する技術分野】本発明は、音声波形の区切り
点検出方法、並びに、この音声波形の区切り点検出方法
により求められたピッチ周期あるいはその整数倍の区切
り点で処理対象音声波形を区切って、それぞれ区切り点
間の音声波形を、変換すべき話速に応じて重複あるいは
間引き処理することで、音声の話速を変換する話速変換
方法および話速変換処理プログラムを記憶した記憶媒体
に関する。
点検出方法、並びに、この音声波形の区切り点検出方法
により求められたピッチ周期あるいはその整数倍の区切
り点で処理対象音声波形を区切って、それぞれ区切り点
間の音声波形を、変換すべき話速に応じて重複あるいは
間引き処理することで、音声の話速を変換する話速変換
方法および話速変換処理プログラムを記憶した記憶媒体
に関する。
【0002】
【従来の技術】人間の音声データを再生する際の話速
は、レコードの回転を替えるようにして任意の速さに変
化させることができる。しかし、この場合、音声のピッ
チ周波数が再生する話速に応じて変化してしまう。たと
えば、レコードを通常の速度より高速で回転させると、
話し声の場合、高音で早口なものとなり、逆に、規定の
速度より遅く回転させれば低音でゆっくりした口調とな
る。このように、規定の再生速度とは異なった速度で再
生すると、元の音声の声質とは全く異なった声質となっ
てしまい、聞き取りにくいものとなる。
は、レコードの回転を替えるようにして任意の速さに変
化させることができる。しかし、この場合、音声のピッ
チ周波数が再生する話速に応じて変化してしまう。たと
えば、レコードを通常の速度より高速で回転させると、
話し声の場合、高音で早口なものとなり、逆に、規定の
速度より遅く回転させれば低音でゆっくりした口調とな
る。このように、規定の再生速度とは異なった速度で再
生すると、元の音声の声質とは全く異なった声質となっ
てしまい、聞き取りにくいものとなる。
【0003】これに対処するための従来技術として、音
声波形をピッチ周期あるいはその整数倍で区切って、区
切られた区間の波形を重複させたり間引いたりすること
で、音程(ピッチ周波数)を変化させずに話速のみを変
化させる手法がある。図7にその一例を示す。
声波形をピッチ周期あるいはその整数倍で区切って、区
切られた区間の波形を重複させたり間引いたりすること
で、音程(ピッチ周波数)を変化させずに話速のみを変
化させる手法がある。図7にその一例を示す。
【0004】図7(a)は音声の原波形(原音声波形と
いう)であり、このような原音声波形を、ここでは、1
/2の速度で話速変換して再生する場合について説明す
る。この図7(a)に示す原音声波形からもわかるよう
に、一般に、音声波形は同じような波形の繰り返しとな
っていることが多い。この同じような繰り返しの最小単
位の波形をここでは単位波形と呼ぶ。図7(a)の例で
は、h1,h2,h3,・・・の各区間の波形が単位波
形である。
いう)であり、このような原音声波形を、ここでは、1
/2の速度で話速変換して再生する場合について説明す
る。この図7(a)に示す原音声波形からもわかるよう
に、一般に、音声波形は同じような波形の繰り返しとな
っていることが多い。この同じような繰り返しの最小単
位の波形をここでは単位波形と呼ぶ。図7(a)の例で
は、h1,h2,h3,・・・の各区間の波形が単位波
形である。
【0005】このように、音声波形を単位波形ごとに区
切って、図7(b)に示すように、区切られた各単位波
形をピッチ周期として、ピッチ周期ごとに同じ波形を2
つ連続させることで、この場合、1/2の話速となり、
音程を変化させずに話速のみを変えることができる。
切って、図7(b)に示すように、区切られた各単位波
形をピッチ周期として、ピッチ周期ごとに同じ波形を2
つ連続させることで、この場合、1/2の話速となり、
音程を変化させずに話速のみを変えることができる。
【0006】このように、音程を変化せずに話速のみを
変える技術は、たとえば、英会話練習用のソフトにおい
て、原音生をゆっくり再生して聞き易くしたり、あるい
は、ゆっくりとした口調で話す長い講演内容を高速で再
生して短時間に内容を把握したいという場合など様々な
分野に適用できる。
変える技術は、たとえば、英会話練習用のソフトにおい
て、原音生をゆっくり再生して聞き易くしたり、あるい
は、ゆっくりとした口調で話す長い講演内容を高速で再
生して短時間に内容を把握したいという場合など様々な
分野に適用できる。
【0007】
【発明が解決しようとする課題】以上のように、区切ら
れた各区間ごとにその区間の波形を重複させることで、
音程を替えずに話速のみを変化させる手法においては、
原音声波形の区切り点を如何にして決定するかが重要な
ポイントとなってくる。
れた各区間ごとにその区間の波形を重複させることで、
音程を替えずに話速のみを変化させる手法においては、
原音声波形の区切り点を如何にして決定するかが重要な
ポイントとなってくる。
【0008】従来の区切り点の決定方法について以下に
説明する。なお、ここでの処理は、適当な長さのフレー
ム区間ごとに行うものとする。
説明する。なお、ここでの処理は、適当な長さのフレー
ム区間ごとに行うものとする。
【0009】まず、1つの方法として、原音生波形から
自己相関によって平均のピッチ周期を求め、次に、何ら
かの方法で原音生波形上に基点となる区切り点を決定し
て、その後、その基点から平均のピッチ周期間隔で区切
り点を決めて行く方法がある。
自己相関によって平均のピッチ周期を求め、次に、何ら
かの方法で原音生波形上に基点となる区切り点を決定し
て、その後、その基点から平均のピッチ周期間隔で区切
り点を決めて行く方法がある。
【0010】また、他の方法として、LPC分析におけ
る残差を使って区切り点を決定する方法もある。
る残差を使って区切り点を決定する方法もある。
【0011】しかし、これら従来の手法は、話速変換後
の音質に問題があったり、処理量がきわめて多いなど様
々な問題点があった。
の音質に問題があったり、処理量がきわめて多いなど様
々な問題点があった。
【0012】そこで、本発明は、音声データを単純かつ
少ない処理量でしかも高精度に、ピッチ周期あるいはそ
の整数倍の周期で区切ることを可能とし、さらに、これ
により区切られたそれぞれ区切り点情報を用いることに
よって、少ない処理量で高品質な話速変換を可能とする
ことを目的とする。
少ない処理量でしかも高精度に、ピッチ周期あるいはそ
の整数倍の周期で区切ることを可能とし、さらに、これ
により区切られたそれぞれ区切り点情報を用いることに
よって、少ない処理量で高品質な話速変換を可能とする
ことを目的とする。
【0013】
【課題を解決するための手段】前述の目的を達成するた
めに、請求項1に記載された本発明の音声データのピッ
チ周期検出方法は、処理対象音声波形の時間軸上におけ
る既に決定済みの区切り点を基点に、時間軸方向に予め
定めた区間の音声波形をコピーし、コピー区間の音声波
形を予め定められた範囲内で前記既に決定済みの区切り
点を基点に時間軸方向に所定サンプリング点ずつ平行移
動し、平行移動ごとにそれぞれの平行移動点におけるコ
ピー区間の音声波形と処理対象音声波形との相関を求め
る。そして、相関の最も大きくなる平行移動点を次の区
切り点として求め、この求められた区切り点を基点に、
前記同様の処理を行うことを特徴としている。
めに、請求項1に記載された本発明の音声データのピッ
チ周期検出方法は、処理対象音声波形の時間軸上におけ
る既に決定済みの区切り点を基点に、時間軸方向に予め
定めた区間の音声波形をコピーし、コピー区間の音声波
形を予め定められた範囲内で前記既に決定済みの区切り
点を基点に時間軸方向に所定サンプリング点ずつ平行移
動し、平行移動ごとにそれぞれの平行移動点におけるコ
ピー区間の音声波形と処理対象音声波形との相関を求め
る。そして、相関の最も大きくなる平行移動点を次の区
切り点として求め、この求められた区切り点を基点に、
前記同様の処理を行うことを特徴としている。
【0014】また、請求項2の発明は、請求項1におけ
る基本処理を行う前に、前記処理対象音声波形のなかで
音声のパワーが予め定めたしきい値以上の区間を設定
し、その区間に対して前記基本処理と同じ処理を施すこ
とで、前記音声のパワーが予め定めたしきい値以上の区
間におけるそれぞれの区切り点を求めて、それぞれの区
切り点位置を基に平均の区切り点間隔を求める。そし
て、その後に前記基本処理を開始するが、その基本処理
において、前記コピー区間の音声波形を、既に決定済み
の区切り点を基点に時間軸方向に所定サンプリング点ず
つ平行移動してコピー区間の音声波形と処理対象音声波
形との相関を求める処理を行う際、その相関を求める処
理の開始点を、前記既に求められた区切り点に対して、
前記平均の区切り点間隔に近い距離を置いた位置とする
ようにしている。
る基本処理を行う前に、前記処理対象音声波形のなかで
音声のパワーが予め定めたしきい値以上の区間を設定
し、その区間に対して前記基本処理と同じ処理を施すこ
とで、前記音声のパワーが予め定めたしきい値以上の区
間におけるそれぞれの区切り点を求めて、それぞれの区
切り点位置を基に平均の区切り点間隔を求める。そし
て、その後に前記基本処理を開始するが、その基本処理
において、前記コピー区間の音声波形を、既に決定済み
の区切り点を基点に時間軸方向に所定サンプリング点ず
つ平行移動してコピー区間の音声波形と処理対象音声波
形との相関を求める処理を行う際、その相関を求める処
理の開始点を、前記既に求められた区切り点に対して、
前記平均の区切り点間隔に近い距離を置いた位置とする
ようにしている。
【0015】さらに、請求項3の発明は、請求項1にお
ける基本処理を行う前に、処理対象音声波形のなかで音
声のパワーが予め定めたしきい値以上の区間を設定し、
その区間に対して前記基本処理と同じ処理を施すことで
前記音声のパワーが予め定めたしきい値以上の区間にお
けるそれぞれの区切り点を求めて、それぞれの区切り点
間における音声パワーの差を求めて、原波形のエンベロ
ーブを平行とするような処理を行った後に前記基本処理
を開始するようにしている。
ける基本処理を行う前に、処理対象音声波形のなかで音
声のパワーが予め定めたしきい値以上の区間を設定し、
その区間に対して前記基本処理と同じ処理を施すことで
前記音声のパワーが予め定めたしきい値以上の区間にお
けるそれぞれの区切り点を求めて、それぞれの区切り点
間における音声パワーの差を求めて、原波形のエンベロ
ーブを平行とするような処理を行った後に前記基本処理
を開始するようにしている。
【0016】以上の請求項1〜請求項3に記載された発
明は、処理対象音声波形のピッチ周期を少ない処理量
で、高精度に検出するために、処理対象音声波形の区切
り点を求める方法の発明である。なお、ここでは、人の
発話に対する音声波形のうち、有声音部分のみを取り出
し、その1つの有音声区間を処理対象音声波形としてい
る。この発明は、それぞれの有音声区間ごとに処理を行
う。
明は、処理対象音声波形のピッチ周期を少ない処理量
で、高精度に検出するために、処理対象音声波形の区切
り点を求める方法の発明である。なお、ここでは、人の
発話に対する音声波形のうち、有声音部分のみを取り出
し、その1つの有音声区間を処理対象音声波形としてい
る。この発明は、それぞれの有音声区間ごとに処理を行
う。
【0017】請求項1の発明によれば、単純かつ少ない
処理量で、高精度なピッチ周期あるいはその整数倍の周
期を求めることができる。この請求項1に記載の処理
は、本発明の音声データの区切り点検出方法における基
本的な処理であり、この基本的な処理によっても、少な
い処理量で高精度なピッチ周期あるいはその整数倍の周
期を求めるという本発明の所期の目的は十分達成できる
が、この基本処理にさらに、請求項2、請求項3を加え
ることにより、より一層、高精度な処理が可能となる。
処理量で、高精度なピッチ周期あるいはその整数倍の周
期を求めることができる。この請求項1に記載の処理
は、本発明の音声データの区切り点検出方法における基
本的な処理であり、この基本的な処理によっても、少な
い処理量で高精度なピッチ周期あるいはその整数倍の周
期を求めるという本発明の所期の目的は十分達成できる
が、この基本処理にさらに、請求項2、請求項3を加え
ることにより、より一層、高精度な処理が可能となる。
【0018】つまり、請求項2の発明は、音声パワーが
一定以上有る区間において予め平均的な区切り点間隔を
求めておき、それを処理対象音声波形の目安となる区切
り点間隔とし、その後に行う基本処理において、既に決
定済みの区切り点を基点に時間軸方向に所定サンプリン
グ点ずつ平行移動してコピー区間の音声波形と処理対象
音声波形との相関を求める処理を行う際、その相関を求
める処理の開始点を、前記平均の区切り点間隔に近い距
離を置いた位置以降とする。これによれば、既に求めら
れた区切り点に対する次の区切り点は、目安となる区切
り点間隔程度離れた位置となり、本来求められるべき位
置ではない不自然な位置に次の区切り点が求められるの
を防止することができる。
一定以上有る区間において予め平均的な区切り点間隔を
求めておき、それを処理対象音声波形の目安となる区切
り点間隔とし、その後に行う基本処理において、既に決
定済みの区切り点を基点に時間軸方向に所定サンプリン
グ点ずつ平行移動してコピー区間の音声波形と処理対象
音声波形との相関を求める処理を行う際、その相関を求
める処理の開始点を、前記平均の区切り点間隔に近い距
離を置いた位置以降とする。これによれば、既に求めら
れた区切り点に対する次の区切り点は、目安となる区切
り点間隔程度離れた位置となり、本来求められるべき位
置ではない不自然な位置に次の区切り点が求められるの
を防止することができる。
【0019】また、単位波形ごとの波形の形状は同じで
もエンベローブが大きく増加または減少している音声波
形において、前述の基本処理を行うと、良好な位置に区
切り点が求められない場合が時としてある。請求項3の
発明はこれに対処するために行われる処理であり、エン
ベローブを平行となるような処理を行ったのちに、前述
の基本処理を行う。これによれば、原波形のエンベロー
ブが大きく増加または減少している場合でも高精度な区
切り点を求めることができる。また、この請求項3の発
明と請求項2の発明の両方を前述の基本処理に加えて行
うことにより、より一層、良好な結果が得られる。
もエンベローブが大きく増加または減少している音声波
形において、前述の基本処理を行うと、良好な位置に区
切り点が求められない場合が時としてある。請求項3の
発明はこれに対処するために行われる処理であり、エン
ベローブを平行となるような処理を行ったのちに、前述
の基本処理を行う。これによれば、原波形のエンベロー
ブが大きく増加または減少している場合でも高精度な区
切り点を求めることができる。また、この請求項3の発
明と請求項2の発明の両方を前述の基本処理に加えて行
うことにより、より一層、良好な結果が得られる。
【0020】また、請求項4に記載された本発明の話速
変換方法は、前記処理対象音声波形を時間軸上において
所定の区切り点で区切って、それぞれ区切り点間の音声
波形を、変換すべき話速に応じて重複あるいは間引き処
理することで音声の話速を変換する話速変換方法におい
て、処理対象音声波形の時間軸上における既に決定済み
の区切り点を基点に、時間軸方向に予め定めた区間の音
声波形をコピーし、コピー区間の音声波形を予め定めら
れた範囲内で前記既に決定済みの区切り点を基点に時間
軸方向に所定サンプリング点ずつ平行移動し、平行移動
ごとにそれぞれの平行移動点におけるコピー区間の音声
波形と処理対象音声波形との相関を求め、相関の最も大
きくなる平行移動点を次の区切り点として求め、この求
められた区切り点を基点に、前記同様の処理を行い、そ
の次の区切り点を求める一連の処理を基本処理として行
う。そして、この基本処理により求められたそれぞれの
区切り点間を処理対象音声波形のピッチ周期あるいはそ
の整数倍の周期として、これらピッチ周期あるいはその
整数倍の周期ごとの音声波形を、変換すべき話速に応じ
て重複あるいは間引き処理することを特徴としている。
変換方法は、前記処理対象音声波形を時間軸上において
所定の区切り点で区切って、それぞれ区切り点間の音声
波形を、変換すべき話速に応じて重複あるいは間引き処
理することで音声の話速を変換する話速変換方法におい
て、処理対象音声波形の時間軸上における既に決定済み
の区切り点を基点に、時間軸方向に予め定めた区間の音
声波形をコピーし、コピー区間の音声波形を予め定めら
れた範囲内で前記既に決定済みの区切り点を基点に時間
軸方向に所定サンプリング点ずつ平行移動し、平行移動
ごとにそれぞれの平行移動点におけるコピー区間の音声
波形と処理対象音声波形との相関を求め、相関の最も大
きくなる平行移動点を次の区切り点として求め、この求
められた区切り点を基点に、前記同様の処理を行い、そ
の次の区切り点を求める一連の処理を基本処理として行
う。そして、この基本処理により求められたそれぞれの
区切り点間を処理対象音声波形のピッチ周期あるいはそ
の整数倍の周期として、これらピッチ周期あるいはその
整数倍の周期ごとの音声波形を、変換すべき話速に応じ
て重複あるいは間引き処理することを特徴としている。
【0021】そして、請求項5の発明は、請求項4に記
載された話速変換方法において、前記基本処理を行う前
に、前記処理対象音声波形のなかで音声のパワーが予め
定めたしきい値以上の区間を設定し、その区間に対して
前記基本処理と同じ処理を施すことで前記音声のパワー
が予め定めたしきい値以上の区間におけるそれぞれの区
切り点を求めて、それぞれの区切り点位置を基に平均の
区切り点間隔を求め、その後に前記基本処理を開始し、
その基本処理において、前記コピー区間の音声波形を、
既に決定済みの区切り点を基点に時間軸方向に所定サン
プリング点ずつ平行移動してコピー区間の音声波形と処
理対象音声波形との相関を求める処理を行う際、その相
関を求める処理の開始点を、前記既に求められた区切り
点に対して、前記平均の区切り点間隔に近い距離を置い
た位置とするようにしている。
載された話速変換方法において、前記基本処理を行う前
に、前記処理対象音声波形のなかで音声のパワーが予め
定めたしきい値以上の区間を設定し、その区間に対して
前記基本処理と同じ処理を施すことで前記音声のパワー
が予め定めたしきい値以上の区間におけるそれぞれの区
切り点を求めて、それぞれの区切り点位置を基に平均の
区切り点間隔を求め、その後に前記基本処理を開始し、
その基本処理において、前記コピー区間の音声波形を、
既に決定済みの区切り点を基点に時間軸方向に所定サン
プリング点ずつ平行移動してコピー区間の音声波形と処
理対象音声波形との相関を求める処理を行う際、その相
関を求める処理の開始点を、前記既に求められた区切り
点に対して、前記平均の区切り点間隔に近い距離を置い
た位置とするようにしている。
【0022】さらに、請求項6の発明は、請求項4また
は5に記載の話速変換方法において、 前述した基本処
理を行う前に、前記処理対象音声波形のなかで音声のパ
ワーが予め定めたしきい値以上の区間を設定し、その区
間に対して前記基本処理と同じ処理を施すことで、前記
音声のパワーが予め定めたしきい値以上の区間における
それぞれの区切り点を求めて、それぞれの区切り点間に
おける音声パワーの差を求め、原波形のエンベローブを
平行とするような処理を行った後に、前述の基本処理を
開始するようにしている。
は5に記載の話速変換方法において、 前述した基本処
理を行う前に、前記処理対象音声波形のなかで音声のパ
ワーが予め定めたしきい値以上の区間を設定し、その区
間に対して前記基本処理と同じ処理を施すことで、前記
音声のパワーが予め定めたしきい値以上の区間における
それぞれの区切り点を求めて、それぞれの区切り点間に
おける音声パワーの差を求め、原波形のエンベローブを
平行とするような処理を行った後に、前述の基本処理を
開始するようにしている。
【0023】さらに、請求項7の発明は、請求項4から
6のいずれかに記載の話速変換方法において、それぞれ
の区切り点間の音声波形を、変換すべき話速に応じて重
複あるいは間引き処理する際、前記重複あるいは間引き
による波形同志の接点部分の連続性が高くなるように、
前記基本処理によって求められたそれぞれの区切り点が
設定された区切り点スケールを時間軸上で平行移動さ
せ、最も連続性の高くなる平行移動点で前記区切り点ス
ケールを固定し、その位置でそれぞれの区切り点を処理
対象音声波形に対応させて、処理対象音声波形に区切り
点を設定するようにしている。
6のいずれかに記載の話速変換方法において、それぞれ
の区切り点間の音声波形を、変換すべき話速に応じて重
複あるいは間引き処理する際、前記重複あるいは間引き
による波形同志の接点部分の連続性が高くなるように、
前記基本処理によって求められたそれぞれの区切り点が
設定された区切り点スケールを時間軸上で平行移動さ
せ、最も連続性の高くなる平行移動点で前記区切り点ス
ケールを固定し、その位置でそれぞれの区切り点を処理
対象音声波形に対応させて、処理対象音声波形に区切り
点を設定するようにしている。
【0024】また、請求項8に記載された話速変換処理
プログラムを記憶した記憶媒体の発明は、処理対象音声
波形を時間軸上において所定の区切り点で区切って、そ
れぞれ区切り点間の音声波形を、変換すべき話速に応じ
て重複あるいは間引き処理することで音声の話速を変換
する話速変換処理プログラムを記憶した記憶媒体におい
て、前記話速変換処理プログラムによる処理手順は、処
理対象音声波形の時間軸上における既に決定済みの区切
り点を基点に、時間軸方向に予め定めた区間の音声波形
をコピーし、コピー区間の音声波形を予め定められた範
囲内で前記既に決定済みの区切り点を基点に時間軸方向
に所定サンプリング点ずつ平行移動し、平行移動ごとに
それぞれの平行移動点におけるコピー区間の音声波形と
処理対象音声波形とを比較することで、コピー区間の音
声波形と処理対象音声波形との相関を求め、相関の最も
大きくなる平行移動点を次の区切り点として求め、この
求められた区切り点を基点に、前記同様の処理を行い、
その次の区切り点を求める一連の処理を基本処理として
行い、この基本処理により求められたそれぞれの区切り
点間を処理対象音声波形のピッチ周期あるいはその整数
倍の周期として、これらピッチ周期あるいはその整数倍
の周期ごとの音声波形を、変換すべき話速に応じて重複
あるいは間引き処理するようにしている。
プログラムを記憶した記憶媒体の発明は、処理対象音声
波形を時間軸上において所定の区切り点で区切って、そ
れぞれ区切り点間の音声波形を、変換すべき話速に応じ
て重複あるいは間引き処理することで音声の話速を変換
する話速変換処理プログラムを記憶した記憶媒体におい
て、前記話速変換処理プログラムによる処理手順は、処
理対象音声波形の時間軸上における既に決定済みの区切
り点を基点に、時間軸方向に予め定めた区間の音声波形
をコピーし、コピー区間の音声波形を予め定められた範
囲内で前記既に決定済みの区切り点を基点に時間軸方向
に所定サンプリング点ずつ平行移動し、平行移動ごとに
それぞれの平行移動点におけるコピー区間の音声波形と
処理対象音声波形とを比較することで、コピー区間の音
声波形と処理対象音声波形との相関を求め、相関の最も
大きくなる平行移動点を次の区切り点として求め、この
求められた区切り点を基点に、前記同様の処理を行い、
その次の区切り点を求める一連の処理を基本処理として
行い、この基本処理により求められたそれぞれの区切り
点間を処理対象音声波形のピッチ周期あるいはその整数
倍の周期として、これらピッチ周期あるいはその整数倍
の周期ごとの音声波形を、変換すべき話速に応じて重複
あるいは間引き処理するようにしている。
【0025】このように、請求項4から8の発明は、前
述の請求項1から3に記載の音声データの区切り点検出
方法を話速変換処理に応用した発明であり、これによれ
ば、少ない処理量で高品質な話速変換が可能となる。こ
の話速変換を行う際に必要な、処理対象音声データの区
切り点検出方法としては、前述の基本処理でも十分良好
な結果が得られるが、それに加えて、請求項5、6の処
理を追加して行えば、より一層、良好な区切り点が得ら
れ、より高品質な話速変換音声を得ることができる。
述の請求項1から3に記載の音声データの区切り点検出
方法を話速変換処理に応用した発明であり、これによれ
ば、少ない処理量で高品質な話速変換が可能となる。こ
の話速変換を行う際に必要な、処理対象音声データの区
切り点検出方法としては、前述の基本処理でも十分良好
な結果が得られるが、それに加えて、請求項5、6の処
理を追加して行えば、より一層、良好な区切り点が得ら
れ、より高品質な話速変換音声を得ることができる。
【0026】さらに、この話速変換方法において、請求
項7の処理を行うことで、波形の重複あるいは間引き処
理後の音声波形を、重複あるいは間引き部分での段差を
少なくして連続性の高い波形とすることができ、高品質
な話速変換音声を得ることができる。
項7の処理を行うことで、波形の重複あるいは間引き処
理後の音声波形を、重複あるいは間引き部分での段差を
少なくして連続性の高い波形とすることができ、高品質
な話速変換音声を得ることができる。
【0027】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。まず、本発明の基本的な処理につ
いての実施の形態について説明し、次に、より一層、高
精度な区切り点検出および高品質な話速変換を実現する
ための幾つかの追加処理について説明する。
を参照して説明する。まず、本発明の基本的な処理につ
いての実施の形態について説明し、次に、より一層、高
精度な区切り点検出および高品質な話速変換を実現する
ための幾つかの追加処理について説明する。
【0028】(本発明の基本処理)この基本処理は、処
理対象音声波形の時間軸上における既に決定済みの区切
り点を基点に、時間軸方向に予め定めた区間の音声波形
をコピーし、コピー区間の音声波形を予め定められた範
囲内で前記既に決定済みの区切り点を基点に時間軸方向
に所定サンプリング点ずつ平行移動し、平行移動ごとに
それぞれの平行移動点におけるコピー区間の音声波形と
処理対象音声波形との相関を求め、相関の最も大きくな
る平行移動点を次の区切り点として求め、この求められ
た区切り点を基点に、前記同様の処理を行い、その次の
区切り点を求める一連の処理でる。
理対象音声波形の時間軸上における既に決定済みの区切
り点を基点に、時間軸方向に予め定めた区間の音声波形
をコピーし、コピー区間の音声波形を予め定められた範
囲内で前記既に決定済みの区切り点を基点に時間軸方向
に所定サンプリング点ずつ平行移動し、平行移動ごとに
それぞれの平行移動点におけるコピー区間の音声波形と
処理対象音声波形との相関を求め、相関の最も大きくな
る平行移動点を次の区切り点として求め、この求められ
た区切り点を基点に、前記同様の処理を行い、その次の
区切り点を求める一連の処理でる。
【0029】図1(a)はある音声波形(原音声波形と
いう)であり、このような原音声波形を再生する際に話
速変換する例について、この図1のタイムチャートおよ
び図2のフローチャートを参照しながら説明する。
いう)であり、このような原音声波形を再生する際に話
速変換する例について、この図1のタイムチャートおよ
び図2のフローチャートを参照しながら説明する。
【0030】まず、図1で示した音声波形について、有
音声区間を取り出す(図2のステップs1)。ここでの
有音声区間というのは、話者が発話して得られた音声デ
ータのうち、音声が途切れるまでの区間をいい、たとえ
ば、図1の例では、区間T1が1つ目の有音声区間、区
間T2が2つ目の有音声区間であるといえる。なお、音
声が途切れているか否かは音声レベルがゼロとなってい
る時間が一定時間有るか否かなどで判定できる。
音声区間を取り出す(図2のステップs1)。ここでの
有音声区間というのは、話者が発話して得られた音声デ
ータのうち、音声が途切れるまでの区間をいい、たとえ
ば、図1の例では、区間T1が1つ目の有音声区間、区
間T2が2つ目の有音声区間であるといえる。なお、音
声が途切れているか否かは音声レベルがゼロとなってい
る時間が一定時間有るか否かなどで判定できる。
【0031】本発明はこのようにして取り出される有音
声区間の音声を処理対象音声とする。したがって、ここ
では、まず、有音声区間T1について処理を行う。
声区間の音声を処理対象音声とする。したがって、ここ
では、まず、有音声区間T1について処理を行う。
【0032】この有音声区間T1において、今、点p1
0まで区切り点が求まっているものとする。この区切り
点p10は、有音声区間T1の始点から本発明の処理に
より1つ目の区切り点p1、2つ目の区切り点p2とい
うように区切られたときの或る区切り点であり、今、こ
の点p10までの区切り点が求められているものとして
いる。なお、最初の区切り点p1は、有音声区間T1の
先頭(第1サンプリング点)とする。
0まで区切り点が求まっているものとする。この区切り
点p10は、有音声区間T1の始点から本発明の処理に
より1つ目の区切り点p1、2つ目の区切り点p2とい
うように区切られたときの或る区切り点であり、今、こ
の点p10までの区切り点が求められているものとして
いる。なお、最初の区切り点p1は、有音声区間T1の
先頭(第1サンプリング点)とする。
【0033】この実施の形態では、この区切り点p10
からあとの区切り点を求める処理について説明する。
からあとの区切り点を求める処理について説明する。
【0034】まず、ある区切り点p10を基点に比較的
短い区間Sの音声波形をコピーする(図2のステップs
2)。この区間S(以下、コピー区間Sという)は、音
声波形の最澄ピッチ周期よりも長くする必要があり、処
理対象の音声データによって異ならせるのが理想(たと
えば、女性の高い声に比べて男性の低い声に対しては区
間Sを長く取る必要がある)であるが、処理が面倒にな
るので、ここでは、男性の低い声に合わせた区間の長さ
を設定している。
短い区間Sの音声波形をコピーする(図2のステップs
2)。この区間S(以下、コピー区間Sという)は、音
声波形の最澄ピッチ周期よりも長くする必要があり、処
理対象の音声データによって異ならせるのが理想(たと
えば、女性の高い声に比べて男性の低い声に対しては区
間Sを長く取る必要がある)であるが、処理が面倒にな
るので、ここでは、男性の低い声に合わせた区間の長さ
を設定している。
【0035】図1(b)はコピー区間Sを示している。
次に、このコピー区間Sを時間軸xに沿って時間t方向
に1サンプリング点ずつ平行移動する(図2のステップ
s3)。この1サンプリング点というのは、たとえば、
サンプリング周波数が8KHzであるとすると、1/8
000秒ごとの時間間隔に対応する点である。
次に、このコピー区間Sを時間軸xに沿って時間t方向
に1サンプリング点ずつ平行移動する(図2のステップ
s3)。この1サンプリング点というのは、たとえば、
サンプリング周波数が8KHzであるとすると、1/8
000秒ごとの時間間隔に対応する点である。
【0036】そして、まず、1サンプリング点ずらした
ところで、コピー区間Sの音声波形と、このコピー区間
Sの音声波形に対して時間的に対応する区間の原音声波
形との波高値の差を各サンプリング点ごとにとり、それ
ぞれの絶対値の和を両者の音声波形の誤差量として求め
る(図2のステップs4)。さらに、1サンプリング点
ずらしてところで、コピー区間Sの音声波形と、このコ
ピー区間Sに対して時間的に対応する区間の原音声波形
との差を各サンプリング点ごとにとり、それぞれの絶対
値の和を求める。図1(c)はサンプリング点を幾つか
ずらしたときのコピー区間Sの位置を示すものである。
ところで、コピー区間Sの音声波形と、このコピー区間
Sの音声波形に対して時間的に対応する区間の原音声波
形との波高値の差を各サンプリング点ごとにとり、それ
ぞれの絶対値の和を両者の音声波形の誤差量として求め
る(図2のステップs4)。さらに、1サンプリング点
ずらしてところで、コピー区間Sの音声波形と、このコ
ピー区間Sに対して時間的に対応する区間の原音声波形
との差を各サンプリング点ごとにとり、それぞれの絶対
値の和を求める。図1(c)はサンプリング点を幾つか
ずらしたときのコピー区間Sの位置を示すものである。
【0037】このようにして、コピー区間Sを1サンプ
リング点づつずらして行き、それぞれのサンプリング点
ごとに、コピー区間Sの音声波形と、コピー区間Sに対
して時間的に対応する区間の原音声波形との差をとり、
それぞれの絶対値の和を求めて行く。
リング点づつずらして行き、それぞれのサンプリング点
ごとに、コピー区間Sの音声波形と、コピー区間Sに対
して時間的に対応する区間の原音声波形との差をとり、
それぞれの絶対値の和を求めて行く。
【0038】なお、このときのコピー区間Sの移動可能
サンプリング個数(Pで表す)は、P≦Sであり、ここ
では、P=Sとする。たとえば、Sをサンプリング数8
0とすれば、移動可能サンプリング個数Pは80個とな
る。そして、コピー区間SをP=Sまで移動させ終わっ
たときの各サンプリング点におけるコピー区間Sの音声
波形と、このコピー区間Sに対して時間的に対応する区
間の原音声波形との差の絶対値を結んだ誤差曲線を求め
る(図2のステップs5,s6)。図1(d)は求めら
れた誤差曲線の一例である。
サンプリング個数(Pで表す)は、P≦Sであり、ここ
では、P=Sとする。たとえば、Sをサンプリング数8
0とすれば、移動可能サンプリング個数Pは80個とな
る。そして、コピー区間SをP=Sまで移動させ終わっ
たときの各サンプリング点におけるコピー区間Sの音声
波形と、このコピー区間Sに対して時間的に対応する区
間の原音声波形との差の絶対値を結んだ誤差曲線を求め
る(図2のステップs5,s6)。図1(d)は求めら
れた誤差曲線の一例である。
【0039】この図1(d)の誤差曲線は、あるサンプ
リング点において、コピー区間Sの音声波形と、このコ
ピー区間Sに対して時間的に対応する区間の原音声波形
との差の絶対値の和が大きければ大きい値となり、差の
絶対値の和が小さければ小さい値となる。つまり、コピ
ー区間Sと、このコピー区間Sの音声波形に対して時間
的に対応する区間の原音声波形との相関が大きいほど小
さい値となる。
リング点において、コピー区間Sの音声波形と、このコ
ピー区間Sに対して時間的に対応する区間の原音声波形
との差の絶対値の和が大きければ大きい値となり、差の
絶対値の和が小さければ小さい値となる。つまり、コピ
ー区間Sと、このコピー区間Sの音声波形に対して時間
的に対応する区間の原音声波形との相関が大きいほど小
さい値となる。
【0040】そして、図1(d)のように求められた誤
差曲線における最小値mを探して、その最小値mが得ら
れる位置を時間軸上に求める。この最小値mが得られる
位置に対応する時間軸x上の位置p11を次の区切り点
とする(図2のステップs7)。この場合、区切り点p
11は区切り点p10の次の区切り点となる。この図2
(d)の例では、区切り点p11となる時間軸x上の位
置p11は、コピー区間Sが原音声波形に対して1ピッ
チ周期(1つの単位波形)だけ移動した位置となる。
差曲線における最小値mを探して、その最小値mが得ら
れる位置を時間軸上に求める。この最小値mが得られる
位置に対応する時間軸x上の位置p11を次の区切り点
とする(図2のステップs7)。この場合、区切り点p
11は区切り点p10の次の区切り点となる。この図2
(d)の例では、区切り点p11となる時間軸x上の位
置p11は、コピー区間Sが原音声波形に対して1ピッ
チ周期(1つの単位波形)だけ移動した位置となる。
【0041】このようにして、区切り点p11が求めら
れると、今度は、この区切り点P11を基点にしたコピ
ー区間Sを取り出し、取り出したコピー区間Sを用いて
前述したと同様の操作を行う。そして、区切り点P11
の次の区切り点p12を求める。この操作を1つの有音
声区間T1についてすべて行い、その有声音区間T1が
終了すると、次の有音声区間T2について、前述のステ
ップs2以降の処理に入る(図2のステップs8)。
れると、今度は、この区切り点P11を基点にしたコピ
ー区間Sを取り出し、取り出したコピー区間Sを用いて
前述したと同様の操作を行う。そして、区切り点P11
の次の区切り点p12を求める。この操作を1つの有音
声区間T1についてすべて行い、その有声音区間T1が
終了すると、次の有音声区間T2について、前述のステ
ップs2以降の処理に入る(図2のステップs8)。
【0042】以上のようにして或る処理対象音声波形に
ついて区切り点を求めることができる。図1(e)は図
1(a)の原音声波形について求められられた区切り点
を時間軸x上に示した図であり、これをここでは、区切
り点スケールと呼ぶことにする。
ついて区切り点を求めることができる。図1(e)は図
1(a)の原音声波形について求められられた区切り点
を時間軸x上に示した図であり、これをここでは、区切
り点スケールと呼ぶことにする。
【0043】この図1(e)に示すように、同じような
単位波形が繰り返されている部分は、1ピッチ周期(1
つの単位波形周期)ごとに区切り点が求められる場合が
多いがこの図2(e)からもわかるように、区切り点間
隔が2倍のピッチ周期となる部分も存在する場合があ
る。
単位波形が繰り返されている部分は、1ピッチ周期(1
つの単位波形周期)ごとに区切り点が求められる場合が
多いがこの図2(e)からもわかるように、区切り点間
隔が2倍のピッチ周期となる部分も存在する場合があ
る。
【0044】これは、前述した最小値を求める処理にお
いて、コピー区間Sを時間軸x上に平行移動させたと
き、2ピッチ周期分移動させたときに、最小値mが求め
られる場合である。つまり、図1(d)の例で説明する
と、2つ目の極小部分が最小値となった場合であり、こ
れは、コピー区間Sを2ピッチ周期分移動させたとき
に、コピー区間Sの音声波形と、このコピー区間Sに対
して時間的に対応する区間の原音声波形との差の絶対値
の和が最小となったことを意味している。
いて、コピー区間Sを時間軸x上に平行移動させたと
き、2ピッチ周期分移動させたときに、最小値mが求め
られる場合である。つまり、図1(d)の例で説明する
と、2つ目の極小部分が最小値となった場合であり、こ
れは、コピー区間Sを2ピッチ周期分移動させたとき
に、コピー区間Sの音声波形と、このコピー区間Sに対
して時間的に対応する区間の原音声波形との差の絶対値
の和が最小となったことを意味している。
【0045】なお、図1(e)区切り点スケール上に示
された2倍のピッチ周期部分は、ピッチ周期の整数倍の
周期が求められる場合もあることを例示した架空の区切
り点であり、図1(a)〜(d)の一連の処理とは対応
しない。
された2倍のピッチ周期部分は、ピッチ周期の整数倍の
周期が求められる場合もあることを例示した架空の区切
り点であり、図1(a)〜(d)の一連の処理とは対応
しない。
【0046】以上説明したような操作を行うことによ
り、図(e)で示されるような区切り点スケールが求め
られる。この区切り点スケール上の各区切り点p1,P
2,・・・,p11,p12,・・・を図1(a)の処
理対象音声波形に対応させることによって、処理対象音
声波形の区切り点を決定することができる。
り、図(e)で示されるような区切り点スケールが求め
られる。この区切り点スケール上の各区切り点p1,P
2,・・・,p11,p12,・・・を図1(a)の処
理対象音声波形に対応させることによって、処理対象音
声波形の区切り点を決定することができる。
【0047】以上が本発明による区切り点検出を行うた
めの基本的な処理であり、このようにして、処理対象音
声波形の区切り点p1,p2,・・・,p9,p10,
p11,・・・が求められると、これらの各区切り点p
1,P2,・・・,p9,p10,p11,・・・で区
切って、それぞれ区切られた区間(区切り点間という)
の波形をコピーしてその波形を重複させるという処理を
行う。
めの基本的な処理であり、このようにして、処理対象音
声波形の区切り点p1,p2,・・・,p9,p10,
p11,・・・が求められると、これらの各区切り点p
1,P2,・・・,p9,p10,p11,・・・で区
切って、それぞれ区切られた区間(区切り点間という)
の波形をコピーしてその波形を重複させるという処理を
行う。
【0048】たとえば、話速を1/2の速さにする場合
は、それぞれの区切り点についてその区切り点間の波形
をすべて2つずつ連続させればよく、話速を1/3の速
さにする場合は、それぞれの区切り点についてその区切
り点間の波形をすべて3つずつ連続させればよい。ま
た、話速を2倍の速さにする場合は、それぞれの区切り
点についてその区切り点間の波形を1つ置きに削除すれ
ばよい。さらに、たとえば、話速を1.5倍遅くする場合
は、それぞれの区切り点についてその区切り点間の波形
を1つ置きに2つずつ連続させればよい。
は、それぞれの区切り点についてその区切り点間の波形
をすべて2つずつ連続させればよく、話速を1/3の速
さにする場合は、それぞれの区切り点についてその区切
り点間の波形をすべて3つずつ連続させればよい。ま
た、話速を2倍の速さにする場合は、それぞれの区切り
点についてその区切り点間の波形を1つ置きに削除すれ
ばよい。さらに、たとえば、話速を1.5倍遅くする場合
は、それぞれの区切り点についてその区切り点間の波形
を1つ置きに2つずつ連続させればよい。
【0049】以上のような処理を施すことにより音程を
変化させずに話速のみを変換させることができる。しか
も、この実施の形態で説明した区切り点検出処理は、処
理が単純で計算量も少なく、高精度なピッチ周期あるい
はその整数倍の周期を求めることができるので、話速変
換処理も少ない処理量で高品質な話速変換が可能とな
る。
変化させずに話速のみを変換させることができる。しか
も、この実施の形態で説明した区切り点検出処理は、処
理が単純で計算量も少なく、高精度なピッチ周期あるい
はその整数倍の周期を求めることができるので、話速変
換処理も少ない処理量で高品質な話速変換が可能とな
る。
【0050】また、計算量をさらに少なくするには、図
2のステップs3において、コピー区間Sの異動量を1
サンプリング点ではなく、複数のサンプリングごととす
ることも可能である。そして、誤差量の少ない区間のみ
1サンプリング点ずつ平行移動させ誤差量の最小値を決
めるようにすれば、より一層、計算量を削減することが
できる。
2のステップs3において、コピー区間Sの異動量を1
サンプリング点ではなく、複数のサンプリングごととす
ることも可能である。そして、誤差量の少ない区間のみ
1サンプリング点ずつ平行移動させ誤差量の最小値を決
めるようにすれば、より一層、計算量を削減することが
できる。
【0051】また、この基本処理において、前述した例
では、コピー区間Sをずらして行き、それぞれのサンプ
リング点ごとに、コピー区間Sの音声波形と、コピー区
間Sに対して時間的に対応する区間の原音声波形との差
をとり、それぞれの絶対値の和を求め、その絶対値の和
が最小となる位置を探して区切り点を決定するようにし
たが、これ以外にも、たとえば、次のようにして区切り
点を決定することができる。
では、コピー区間Sをずらして行き、それぞれのサンプ
リング点ごとに、コピー区間Sの音声波形と、コピー区
間Sに対して時間的に対応する区間の原音声波形との差
をとり、それぞれの絶対値の和を求め、その絶対値の和
が最小となる位置を探して区切り点を決定するようにし
たが、これ以外にも、たとえば、次のようにして区切り
点を決定することができる。
【0052】すなわち、それぞれのサンプリング点ごと
に、コピー区間Sの音声波形と、コピー区間Sに対して
時間的に対応する区間の原音声波形との差の2乗の和を
とり、それぞれの2乗の和が最小となる位置を区切り点
とする方法、あるいは、それぞれのサンプリング点ごと
に、コピー区間Sの音声波形の波高値と、コピー区間S
に対して時間的に対応する区間の原音声波形の波高値と
の積を求め、それぞれの積の和が最大となる位置を区切
り点とする方法などが考えられる。
に、コピー区間Sの音声波形と、コピー区間Sに対して
時間的に対応する区間の原音声波形との差の2乗の和を
とり、それぞれの2乗の和が最小となる位置を区切り点
とする方法、あるいは、それぞれのサンプリング点ごと
に、コピー区間Sの音声波形の波高値と、コピー区間S
に対して時間的に対応する区間の原音声波形の波高値と
の積を求め、それぞれの積の和が最大となる位置を区切
り点とする方法などが考えられる。
【0053】ところで、これまで説明した本発明の基本
処理によっても、本発明の所期の目的は十分に多するこ
とはできるが、さらに、以下のような処理を追加するこ
とにより、より一層、高精度な区切り点検出および高品
質な話速変換が実現できる。
処理によっても、本発明の所期の目的は十分に多するこ
とはできるが、さらに、以下のような処理を追加するこ
とにより、より一層、高精度な区切り点検出および高品
質な話速変換が実現できる。
【0054】(第1の追加処理)この第1の追加処理
は、区切り点が本来求められるべき位置から大きく外れ
た位置に求められるのを防ぐ方法である。
は、区切り点が本来求められるべき位置から大きく外れ
た位置に求められるのを防ぐ方法である。
【0055】つまり、前述した基本処理を行ったとき、
たとえば、区切り点p10の次に求められる区切り点p
11が、本来求められるべき位置ではなくそれよりも大
きくれた位置となってしまう場合を例にして説明する。
図3において、区切り点p11は本来、時間軸x上にお
けるt1の位置付近に決定されるべきであるが、それよ
りも時間的に早い位置に決定された場合を示している。
たとえば、区切り点p10の次に求められる区切り点p
11が、本来求められるべき位置ではなくそれよりも大
きくれた位置となってしまう場合を例にして説明する。
図3において、区切り点p11は本来、時間軸x上にお
けるt1の位置付近に決定されるべきであるが、それよ
りも時間的に早い位置に決定された場合を示している。
【0056】このように、本来、求められるべき位置で
はないところに区切り点が求められた場合、その区切り
点を用いて話速変換を行うと、話速変換後の音質に悪影
響を与えることになる。したがって、この第1の追加処
理を施すことによりこれを除去する。以下、この第1の
追加処理について説明する。
はないところに区切り点が求められた場合、その区切り
点を用いて話速変換を行うと、話速変換後の音質に悪影
響を与えることになる。したがって、この第1の追加処
理を施すことによりこれを除去する。以下、この第1の
追加処理について説明する。
【0057】まず、前述の説明で用いた図1(a)のよ
うな原音声波形が有ったとすると、その原音声波形にお
ける有音声区間として、有音声区間T1を抽出し、その
有音声区間T1に音声パワーのしきい値を設定し、その
有音声区間T1のなかで、音声パワーがしきい値以上と
なっている区間を抽出する。そして、その音声パワーが
しきい値以上の区間において、前述の基本処理を行い、
区切り点を求め、求められた区切り点から平均の区切り
点間隔を求める。このようにして求められた音声パワー
がしきい値以上の区間における平均の区切り点間隔を、
その有音声区間T1における目安となる区切り点間隔
(ピッチ周期)とする。
うな原音声波形が有ったとすると、その原音声波形にお
ける有音声区間として、有音声区間T1を抽出し、その
有音声区間T1に音声パワーのしきい値を設定し、その
有音声区間T1のなかで、音声パワーがしきい値以上と
なっている区間を抽出する。そして、その音声パワーが
しきい値以上の区間において、前述の基本処理を行い、
区切り点を求め、求められた区切り点から平均の区切り
点間隔を求める。このようにして求められた音声パワー
がしきい値以上の区間における平均の区切り点間隔を、
その有音声区間T1における目安となる区切り点間隔
(ピッチ周期)とする。
【0058】つまり、その有音声区間T1は、目安とな
る区切り点間隔で区切られる可能性が高いということが
いえる。なお、このような処理は、他の有音声区間にお
いても同様に行う。
る区切り点間隔で区切られる可能性が高いということが
いえる。なお、このような処理は、他の有音声区間にお
いても同様に行う。
【0059】図1(a)を例にとって説明すると、前述
の基本処理での説明と同様、今、区切り点p10までが
求められていて、この区切り点p10の次の区切り点p
11を求めようとするとき、まず、処理対象の有音声区
間T1における目安となる区切り点間隔を求めた後、前
述の基本処理を行う。このとき、区切り点p11の位置
は区切り点p10に対して、目安となる区切り点間隔程
度の間隔を有した位置に求められるものと推測できる。
の基本処理での説明と同様、今、区切り点p10までが
求められていて、この区切り点p10の次の区切り点p
11を求めようとするとき、まず、処理対象の有音声区
間T1における目安となる区切り点間隔を求めた後、前
述の基本処理を行う。このとき、区切り点p11の位置
は区切り点p10に対して、目安となる区切り点間隔程
度の間隔を有した位置に求められるものと推測できる。
【0060】したがって、区切り点p10次の区切り点
p11を求めようとするとき、前述の基本処理では、コ
ピー区間Sの音声波形を平行移動して原音声波形との差
分を取る処理の開始点を、区切り点p10を基点に1サ
ンプリング点ずつ平行移動する処理を行っていたが、こ
の第1の追加処理では、処理の開始点を始めから、区切
り点p10に対して目安となる区切り点間隔を有した位
置に近いところに設定する。
p11を求めようとするとき、前述の基本処理では、コ
ピー区間Sの音声波形を平行移動して原音声波形との差
分を取る処理の開始点を、区切り点p10を基点に1サ
ンプリング点ずつ平行移動する処理を行っていたが、こ
の第1の追加処理では、処理の開始点を始めから、区切
り点p10に対して目安となる区切り点間隔を有した位
置に近いところに設定する。
【0061】これを図4により説明する。図4(a)は
有音声区間T1であり、この有声音区間において、区切
り点p10が時間軸x上に予め求められているとする。
まず、目安となる区切り点間隔を前述したように、しき
い値以上の音声パワーを有する区間から平均の区切り点
間隔を求め、その平均の区切り点間隔を目安となる区切
り点間隔(これをここでは、tαとする)とする。これ
により、次に求められる区切り点p11の位置は、区切
り点p10に対して、目安となる区切り点間隔tα程度
の間隔を有した位置に求められるものと推測できる。
有音声区間T1であり、この有声音区間において、区切
り点p10が時間軸x上に予め求められているとする。
まず、目安となる区切り点間隔を前述したように、しき
い値以上の音声パワーを有する区間から平均の区切り点
間隔を求め、その平均の区切り点間隔を目安となる区切
り点間隔(これをここでは、tαとする)とする。これ
により、次に求められる区切り点p11の位置は、区切
り点p10に対して、目安となる区切り点間隔tα程度
の間隔を有した位置に求められるものと推測できる。
【0062】したがって、有音声区間T1からコピー区
間Sを抽出してそのコピー区間Sを、平行移動して原波
形との差分を取る処理の開始点pα1を、図4(a)に
示すように、区切り点p10に対して目安となる区切り
点間隔tαを有した位置に近いところに設定する。その
位置としては、たとえば、区切り点p10からtα/
2、あるいは、2tα/3、4tα/5など、適当な位
置を予め設定しておく。この図4の例では、2tα/3
程度の位置に設定された例を示しており、この位置を処
理の開始点とする。
間Sを抽出してそのコピー区間Sを、平行移動して原波
形との差分を取る処理の開始点pα1を、図4(a)に
示すように、区切り点p10に対して目安となる区切り
点間隔tαを有した位置に近いところに設定する。その
位置としては、たとえば、区切り点p10からtα/
2、あるいは、2tα/3、4tα/5など、適当な位
置を予め設定しておく。この図4の例では、2tα/3
程度の位置に設定された例を示しており、この位置を処
理の開始点とする。
【0063】そして、この開始点pα1を基点に、コピ
ー区間Sを1サンプリング点ずつ平行移動させて、基本
処理で説明した処理を行い、差分の和が最小となる位置
を次の区切り点p11とする。
ー区間Sを1サンプリング点ずつ平行移動させて、基本
処理で説明した処理を行い、差分の和が最小となる位置
を次の区切り点p11とする。
【0064】このような処理を行うことにより、区切り
点10の次に求められる区切り点p11は、少なくと
も、区切り点p10に対して、この例の場合、2tα/
3以内の範囲に求められることはなくなる。
点10の次に求められる区切り点p11は、少なくと
も、区切り点p10に対して、この例の場合、2tα/
3以内の範囲に求められることはなくなる。
【0065】また、コピー区間Sの平行移動量を図4
(b)に示すように、予め設定した移動範囲tβ内に規
制することもできる。つまり、区切り点p10に対して
目安となる区切り点間隔tα有した位置をpα2とした
とき、このpα2を含む短い時間tβを設定し、この時
間tβをコピー区間Sの移動範囲とすれば、たとえば、
pα3のような位置に区切り点p11が求められるのを
防ぐことができ、区切り点p11は区切り点p10に対
して目安となる区切り点間隔tαに近い間隔を有したと
ころに決定されることになる。
(b)に示すように、予め設定した移動範囲tβ内に規
制することもできる。つまり、区切り点p10に対して
目安となる区切り点間隔tα有した位置をpα2とした
とき、このpα2を含む短い時間tβを設定し、この時
間tβをコピー区間Sの移動範囲とすれば、たとえば、
pα3のような位置に区切り点p11が求められるのを
防ぐことができ、区切り点p11は区切り点p10に対
して目安となる区切り点間隔tαに近い間隔を有したと
ころに決定されることになる。
【0066】以上説明したように、この第1の追加処理
を施すことにより、新たに求められる区切り点位置が、
本来求められるべき位置に対して大幅に異なった位置に
求められるのを防止でき、ほぼ1ピッチ周期ごとの区切
りとすることができ、これによっても話速変換後の音質
を高品質なものとすることができる。
を施すことにより、新たに求められる区切り点位置が、
本来求められるべき位置に対して大幅に異なった位置に
求められるのを防止でき、ほぼ1ピッチ周期ごとの区切
りとすることができ、これによっても話速変換後の音質
を高品質なものとすることができる。
【0067】(第2の追加処理)この第2の追加処理
は、ある短い時間内における原音声波形を見たとき、そ
れぞれの単位波形ごとの波形の形状は同じでも、波形の
エンベローブが大きく増加あるいは減少する場合があ
る。たとえば、「あー」という音声を発するとき、尻上
がりに大きな声となった場合などにそのような状態(こ
の場合は、波形のエンベローブが大きく増加する)が生
じる可能性がある。このように単位波形ごとの波形の形
状は同じでも、波形のエンベローブが大きく増加あるい
は減少している音声波形において、前述の基本処理を行
うと、良好な位置に区切り点が求められない場合が時と
してある。これに対処するために以下のような処理を行
う。
は、ある短い時間内における原音声波形を見たとき、そ
れぞれの単位波形ごとの波形の形状は同じでも、波形の
エンベローブが大きく増加あるいは減少する場合があ
る。たとえば、「あー」という音声を発するとき、尻上
がりに大きな声となった場合などにそのような状態(こ
の場合は、波形のエンベローブが大きく増加する)が生
じる可能性がある。このように単位波形ごとの波形の形
状は同じでも、波形のエンベローブが大きく増加あるい
は減少している音声波形において、前述の基本処理を行
うと、良好な位置に区切り点が求められない場合が時と
してある。これに対処するために以下のような処理を行
う。
【0068】まず、原音声波形の大まかなエンベローブ
を検出し、ある単位波形の平均のパワーを求め、その単
位波形に続く次の単位波形のパワーが、前の単位波形の
平均のパワーに一致するように所定の定数を掛け算す
る。これにより、処理対象音声区間におけるエンベロー
ブはほぼ平行なものとすることができ、そのあとで前述
の基本処理を行う。なお、この第2の追加処理は、前述
の第1の追加処理を行った後に行うようにしてもよい。
を検出し、ある単位波形の平均のパワーを求め、その単
位波形に続く次の単位波形のパワーが、前の単位波形の
平均のパワーに一致するように所定の定数を掛け算す
る。これにより、処理対象音声区間におけるエンベロー
ブはほぼ平行なものとすることができ、そのあとで前述
の基本処理を行う。なお、この第2の追加処理は、前述
の第1の追加処理を行った後に行うようにしてもよい。
【0069】つまり、前述の第1の追加処理は、音声パ
ワーがしきい値以上となっている区間を抽出し、その音
声パワーがしきい値以上の区間において、前述の基本処
理と同じ処理を行ったのち、平均の区切り点を求めてそ
れを処理対象の有音声区間における目安となる区切り点
間隔として求める処理であるが、このような処理を行う
際、目安となる区切り点間隔ごとのパワーの変化をも知
ることができる。
ワーがしきい値以上となっている区間を抽出し、その音
声パワーがしきい値以上の区間において、前述の基本処
理と同じ処理を行ったのち、平均の区切り点を求めてそ
れを処理対象の有音声区間における目安となる区切り点
間隔として求める処理であるが、このような処理を行う
際、目安となる区切り点間隔ごとのパワーの変化をも知
ることができる。
【0070】したがって、それぞれの区切り点間隔ごと
のパワーの大きさが一定となるように所定の定数を掛け
算すればよい。
のパワーの大きさが一定となるように所定の定数を掛け
算すればよい。
【0071】このように第3の追加処理を行うことによ
り、処理対象音声区間のエンベローブをほぼ平行なもの
とすることができ、これにより前述の基本処理を行うこ
とにより、良好な区切り点を求めることができ、話速変
換後の音質を高品質なものとすることができる。
り、処理対象音声区間のエンベローブをほぼ平行なもの
とすることができ、これにより前述の基本処理を行うこ
とにより、良好な区切り点を求めることができ、話速変
換後の音質を高品質なものとすることができる。
【0072】ただし、この処理を施した場合、話速変換
を行うときには、処理対象音声波形(原波形)のエンベ
ローブを基に戻してから話速変換処理を行うようにする
必要がある。つまり、原波形のエンベローブが、もとも
と、増大あるいは減少しているにも係わらず、正確な区
切り点を求めるために、一旦、エンベローブを平行にす
る処理を施しているため、そのままのエンベローブで原
波形が話速変換されると、原音声の音の大きさの変化が
話速変換後の音声に反映されなくなるからである。した
がって、話速変換を行うときには、原波形のエンベロー
ブは元のエンベローブに戻してから行うようにする。
を行うときには、処理対象音声波形(原波形)のエンベ
ローブを基に戻してから話速変換処理を行うようにする
必要がある。つまり、原波形のエンベローブが、もとも
と、増大あるいは減少しているにも係わらず、正確な区
切り点を求めるために、一旦、エンベローブを平行にす
る処理を施しているため、そのままのエンベローブで原
波形が話速変換されると、原音声の音の大きさの変化が
話速変換後の音声に反映されなくなるからである。した
がって、話速変換を行うときには、原波形のエンベロー
ブは元のエンベローブに戻してから行うようにする。
【0073】(第3の追加処理)話速変換処理は、これ
まで説明した手法によって区切り点を決定し、その区切
り点で処理対象音声波形(ある有音声区間)を区切っ
て、区切られた区間を重複(ここでは、2つ連続させる
場合について説明する)させる処理を行うが、このとき
の処理対象音声波形における区切り点p21,p22,
p23が図5(a)に示される位置に求められたとす
る。
まで説明した手法によって区切り点を決定し、その区切
り点で処理対象音声波形(ある有音声区間)を区切っ
て、区切られた区間を重複(ここでは、2つ連続させる
場合について説明する)させる処理を行うが、このとき
の処理対象音声波形における区切り点p21,p22,
p23が図5(a)に示される位置に求められたとす
る。
【0074】そして、このように決定された区切り点p
21,p22,p23により区切られた区間をそれぞれ
2つずつ連続させた音声波形が図5(b)である。
21,p22,p23により区切られた区間をそれぞれ
2つずつ連続させた音声波形が図5(b)である。
【0075】この図5(a)のように、処理対象音声波
形における区切り点部分の区切られた隣接する単位波形
の音声レベルL1,L2に大きな差があると、区切られ
た区間の波形をコピーしてその波形を連続させたとき、
図5(b)に示すように、連続させる部分で段差gが生
じる場合がある。
形における区切り点部分の区切られた隣接する単位波形
の音声レベルL1,L2に大きな差があると、区切られ
た区間の波形をコピーしてその波形を連続させたとき、
図5(b)に示すように、連続させる部分で段差gが生
じる場合がある。
【0076】つまり、前述した操作により求められた区
切り点p21,p22,p23が図5(a)に示すよう
な位置であったとすると、話速を1/2にするには、こ
れら区切り点によって区切られた区間w1,w2をそれ
ぞれ2つずつ連続させることになる。今、区間w1につ
いて考える。この区間w1を2つ連続させると、図5
(b)に示すように、波形の切り口での音声レベルの違
いによる不連続部分gが生じてしまうのである。たとえ
ば、区間w1の始点における音声レベルをL1、区間w
1の終点における音声レベルをL2とし、L1<L2と
すると、この区間w1の音声波形を連続させると、その
接続点で音声レベルの差による段差gができ、音声波形
の不連続部分が生じてしまう。
切り点p21,p22,p23が図5(a)に示すよう
な位置であったとすると、話速を1/2にするには、こ
れら区切り点によって区切られた区間w1,w2をそれ
ぞれ2つずつ連続させることになる。今、区間w1につ
いて考える。この区間w1を2つ連続させると、図5
(b)に示すように、波形の切り口での音声レベルの違
いによる不連続部分gが生じてしまうのである。たとえ
ば、区間w1の始点における音声レベルをL1、区間w
1の終点における音声レベルをL2とし、L1<L2と
すると、この区間w1の音声波形を連続させると、その
接続点で音声レベルの差による段差gができ、音声波形
の不連続部分が生じてしまう。
【0077】このように、不連続部分が生じると、ノイ
ズが発生する原因ともなる。これを防ぐため、本発明で
は、以下のような処理を行う。なお、この操作も前述同
様、1つの有音声区間ごとに行う。
ズが発生する原因ともなる。これを防ぐため、本発明で
は、以下のような処理を行う。なお、この操作も前述同
様、1つの有音声区間ごとに行う。
【0078】たとえば、図1(a)に示す有声音区間T
1を例にとれば、この有声音区間における区切り点p
1,p2,・・・,p9,p10,・・・が求められる
と、その区切り点スケール(図1(e))を時間軸と平
行に1サンプリング点ずつ平行移動して行き、それぞれ
の区切り点を1サンプリング点移動したところで、その
区切り点により区切られた区間を連続させる処理を行
い、接続点における音声波形の切り口同志のつながり具
合を見る。
1を例にとれば、この有声音区間における区切り点p
1,p2,・・・,p9,p10,・・・が求められる
と、その区切り点スケール(図1(e))を時間軸と平
行に1サンプリング点ずつ平行移動して行き、それぞれ
の区切り点を1サンプリング点移動したところで、その
区切り点により区切られた区間を連続させる処理を行
い、接続点における音声波形の切り口同志のつながり具
合を見る。
【0079】このようにして、区切り点スケールを時間
軸と平行に1サンプリング点ごとに順次平行移動させ
て、平行移動させるたびに、その区切り点により区切ら
れた区間を連続させる処理を行い、接続点における音声
波形の切り口同志のつながり具合を見て行く。
軸と平行に1サンプリング点ごとに順次平行移動させ
て、平行移動させるたびに、その区切り点により区切ら
れた区間を連続させる処理を行い、接続点における音声
波形の切り口同志のつながり具合を見て行く。
【0080】そして、1つの有音声区間内で、それぞれ
の接続点における音声レベルの差による段差gの絶対値
の合計が最も小さくなる区切り点スケールの平行移動量
を求め、その平行移動量だけ移動させたところに区切り
点スケールを固定する。なお、区切り点スケールの平行
移動量dは、ピッチ周期をfとすれば、0<d<fとす
る。
の接続点における音声レベルの差による段差gの絶対値
の合計が最も小さくなる区切り点スケールの平行移動量
を求め、その平行移動量だけ移動させたところに区切り
点スケールを固定する。なお、区切り点スケールの平行
移動量dは、ピッチ周期をfとすれば、0<d<fとす
る。
【0081】このような処理を施すことにより、それぞ
れの不連続部分における音声レベルの差による段差gを
極力小さくすることができるので、ノイズを軽減するこ
とができる。
れの不連続部分における音声レベルの差による段差gを
極力小さくすることができるので、ノイズを軽減するこ
とができる。
【0082】なお、このような音声レベルの差による段
差gの絶対値の合計が最も小さくなる平行移動量を求
め、その平行移動量だけ移動させたところに区切り点ス
ケールを固定するという処理は、すべての有音声区間ご
とに行う。
差gの絶対値の合計が最も小さくなる平行移動量を求
め、その平行移動量だけ移動させたところに区切り点ス
ケールを固定するという処理は、すべての有音声区間ご
とに行う。
【0083】また、不連続部分が生じることによるノイ
ズに対する対処方法としては、不連続が生じないよう
に、区切り点の位置を音声レベルがゼロとなる部分のみ
とするという制約を設けることによっても行うことがで
きる。
ズに対する対処方法としては、不連続が生じないよう
に、区切り点の位置を音声レベルがゼロとなる部分のみ
とするという制約を設けることによっても行うことがで
きる。
【0084】以上説明したように、処理対象音声波形の
区切り点を求めるための処理としては、前述した本発明
の基本処理により行うことができ、さらに、これに第1
の追加処理、第2の追加処理を施すことにより、より一
層、高精度な区切り点を求めることができる。また、こ
のようにして求められた区切り点を用いて話速変換を行
う際、第3の追加処理を施すことにより、話速変換後の
音質をより高品質なものとすることができる。
区切り点を求めるための処理としては、前述した本発明
の基本処理により行うことができ、さらに、これに第1
の追加処理、第2の追加処理を施すことにより、より一
層、高精度な区切り点を求めることができる。また、こ
のようにして求められた区切り点を用いて話速変換を行
う際、第3の追加処理を施すことにより、話速変換後の
音質をより高品質なものとすることができる。
【0085】また、これまで説明した区切り点を求める
ための本発明方法によれば、高精度なピッチ周期の抽出
が可能となることから性能の良いピッチ周波数を得るこ
とができ、これを利用して、たとえば、英会話など発話
の抑揚を評価するための処理も可能となる。つまり、ピ
ッチ周波数を得ることにより音程(抑揚ということもで
きる)の変化を判定することができ、ユーザの発話内容
を時間軸に対する音程の変化として表すことによって、
英会話などにおける会話内容の抑揚を練習する場合に、
発話した会話内容の抑揚と手本の抑揚を比較するなどし
てその評価を出すというような会話練習用ソフトなどに
適用できる。
ための本発明方法によれば、高精度なピッチ周期の抽出
が可能となることから性能の良いピッチ周波数を得るこ
とができ、これを利用して、たとえば、英会話など発話
の抑揚を評価するための処理も可能となる。つまり、ピ
ッチ周波数を得ることにより音程(抑揚ということもで
きる)の変化を判定することができ、ユーザの発話内容
を時間軸に対する音程の変化として表すことによって、
英会話などにおける会話内容の抑揚を練習する場合に、
発話した会話内容の抑揚と手本の抑揚を比較するなどし
てその評価を出すというような会話練習用ソフトなどに
適用できる。
【0086】また、前述の基本処理でも述べたように、
本発明の区切り点検出方法によると、求められた区切り
点がピッチ周期の整数倍の周期となってしまうことがあ
るが、これはそれほど頻発するものではないため、前後
のピッチ周期を参照することで修正可能である。たとえ
ば、前後のピッチ周期の2倍のピッチ周期で区切り点が
求められたる場合には、その区切り点間の真ん中にもう
1つの区切り点を追加するようにし、また、3倍のピッ
チ周期で区切り点が求められたる場合には、その区切り
点間を3等分してそれぞれに区切り点を追加することに
より、高精度にピッチ周期が設定できる。
本発明の区切り点検出方法によると、求められた区切り
点がピッチ周期の整数倍の周期となってしまうことがあ
るが、これはそれほど頻発するものではないため、前後
のピッチ周期を参照することで修正可能である。たとえ
ば、前後のピッチ周期の2倍のピッチ周期で区切り点が
求められたる場合には、その区切り点間の真ん中にもう
1つの区切り点を追加するようにし、また、3倍のピッ
チ周期で区切り点が求められたる場合には、その区切り
点間を3等分してそれぞれに区切り点を追加することに
より、高精度にピッチ周期が設定できる。
【0087】このように、高精度なピッチ周期が得られ
ることにより、前述したように、英会話など語学練習用
のソフトにも応用でき、さらに、ピッチ周期により、音
声が男性か女性かを区別することができる。このピッチ
周期による男女の区別を音声認識に適用すれば、入力音
声データから男性か女性かをまず始めに特定して、その
後で、音声認識処理を行えば、音声認識に必要な処理量
を減らすことができ、認識率の向上をも図ることができ
る。
ることにより、前述したように、英会話など語学練習用
のソフトにも応用でき、さらに、ピッチ周期により、音
声が男性か女性かを区別することができる。このピッチ
周期による男女の区別を音声認識に適用すれば、入力音
声データから男性か女性かをまず始めに特定して、その
後で、音声認識処理を行えば、音声認識に必要な処理量
を減らすことができ、認識率の向上をも図ることができ
る。
【0088】さらに、本発明が行う基本処理は、前述し
たように、波形の相関を求める処理ということができ、
この波形の相関を求める処理は、音声の圧縮伸張処理に
も適用できる。
たように、波形の相関を求める処理ということができ、
この波形の相関を求める処理は、音声の圧縮伸張処理に
も適用できる。
【0089】たとえば、圧縮伸張処理する音声が時間的
に長い音声であった場合、本発明で用いた波形の相関を
求める処理によって似た波形のグループを抽出して、そ
れぞれのグループごとにそのグループを代表する波形を
1つ選び、その他は消去するという処理を行うことによ
って、音声データを大幅に圧縮することができる。
に長い音声であった場合、本発明で用いた波形の相関を
求める処理によって似た波形のグループを抽出して、そ
れぞれのグループごとにそのグループを代表する波形を
1つ選び、その他は消去するという処理を行うことによ
って、音声データを大幅に圧縮することができる。
【0090】以上述べたように、本発明の基本処理で説
明した音声の区切り点検出方法は様々な分野に広く適応
することができる。
明した音声の区切り点検出方法は様々な分野に広く適応
することができる。
【0091】図6は本発明による音声データの区切り点
検出方法が適用された話速変換装置の構成を示すブロッ
ク図であり、原音声をA/D変換するA/D変換部1
1、ディジタル変換された音声データを話速変換するた
めにピッチ周期ごとの区切り点を検出するための区切り
点検出部12、検出された区切り点情報を用いて話速変
換処理を行う話速変換処理部13、話速変換処理後の音
声データをアナログ信号に変換し、話速変換後の音声信
号として出力するD/A変換部14を有した構成となっ
ている。
検出方法が適用された話速変換装置の構成を示すブロッ
ク図であり、原音声をA/D変換するA/D変換部1
1、ディジタル変換された音声データを話速変換するた
めにピッチ周期ごとの区切り点を検出するための区切り
点検出部12、検出された区切り点情報を用いて話速変
換処理を行う話速変換処理部13、話速変換処理後の音
声データをアナログ信号に変換し、話速変換後の音声信
号として出力するD/A変換部14を有した構成となっ
ている。
【0092】前記区切り点検出部12は、前述した本発
明の基本処理による区切り点検出を行うものであり、こ
の基本処理に加えて、第1の追加処理、第2の追加処理
を行うようにしてもよい。なお、これらの基本処理、さ
らには、第1、第2の追加処理については既に詳細に説
明してあるので、ここではその説明は省略する。
明の基本処理による区切り点検出を行うものであり、こ
の基本処理に加えて、第1の追加処理、第2の追加処理
を行うようにしてもよい。なお、これらの基本処理、さ
らには、第1、第2の追加処理については既に詳細に説
明してあるので、ここではその説明は省略する。
【0093】話速変換処理部13は、区切り点検出部1
2により決定された区切り点情報を用い、それぞれの区
切り点間の音声波形を変換すべき話速に応じて重複させ
たり、間引いたりすることで、話速の変換を行う。
2により決定された区切り点情報を用い、それぞれの区
切り点間の音声波形を変換すべき話速に応じて重複させ
たり、間引いたりすることで、話速の変換を行う。
【0094】たとえば、処理対象音声波形に対して、区
切り点p1,P2,・・・,p9,p10,p11,・
・・が求められたとすると、その音声波形をこれらの各
区切り点p1,P2,・・・,p9,p10,p11,
・・・で区切って、原音声の再生速度に応じてそれぞれ
の区切り点間の波形を重複させるかあるいは間引くとい
う処理を行う。たとえば、話速を1/2の速さにする場
合は、それぞれの区切り点についてその区切り点間の波
形をすべて2つずつ連続させればよく、話速を1/3の
速さにする場合は、それぞれの区切り点についてその区
切り点間の波形をすべて3つずつ連続させればよい。ま
た、話速を2倍の速さにする場合は、それぞれの区切り
点についてその区切り点間の波形を1つ置きに削除すれ
ばよい。さらに、たとえば、話速を1.5倍遅くする場合
は、それぞれの区切り点についてその区切り点間の波形
を1つ置きに2つずつ連続させればよい。
切り点p1,P2,・・・,p9,p10,p11,・
・・が求められたとすると、その音声波形をこれらの各
区切り点p1,P2,・・・,p9,p10,p11,
・・・で区切って、原音声の再生速度に応じてそれぞれ
の区切り点間の波形を重複させるかあるいは間引くとい
う処理を行う。たとえば、話速を1/2の速さにする場
合は、それぞれの区切り点についてその区切り点間の波
形をすべて2つずつ連続させればよく、話速を1/3の
速さにする場合は、それぞれの区切り点についてその区
切り点間の波形をすべて3つずつ連続させればよい。ま
た、話速を2倍の速さにする場合は、それぞれの区切り
点についてその区切り点間の波形を1つ置きに削除すれ
ばよい。さらに、たとえば、話速を1.5倍遅くする場合
は、それぞれの区切り点についてその区切り点間の波形
を1つ置きに2つずつ連続させればよい。
【0095】以上のような処理を施すことにより音程を
変化させずに話速のみを変換させることができる。しか
も、ここで用いられる区切り点決定処理は、処理量が非
常に少なく、話速変換後の音声を高品質なものとするこ
とができる。なお、この話速変換処理を行う際、前述し
た第3の追加処理を施すようにすれば、より一層、高品
質な話速変換ごの音声が得られる。
変化させずに話速のみを変換させることができる。しか
も、ここで用いられる区切り点決定処理は、処理量が非
常に少なく、話速変換後の音声を高品質なものとするこ
とができる。なお、この話速変換処理を行う際、前述し
た第3の追加処理を施すようにすれば、より一層、高品
質な話速変換ごの音声が得られる。
【0096】このような話速変換装置は、たとえば、英
会話などを練習するとき、手本となる会話内容をゆっく
りとした話し方で再生させるような場合や、お年寄りな
どがテレビやラジオなどからの音声をゆっくりした速さ
に変換して聴きたいという場合に有効なものとなる。
会話などを練習するとき、手本となる会話内容をゆっく
りとした話し方で再生させるような場合や、お年寄りな
どがテレビやラジオなどからの音声をゆっくりした速さ
に変換して聴きたいという場合に有効なものとなる。
【0097】なお、本発明は以上説明した実施の形態に
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。また、以上説
明した本発明の処理を行う処理プログラムは、フロッピ
ィディスク、光ディスク、ハードディスクなどの記憶媒
体に記憶させておくことができ、本発明はその記憶媒体
をも含むものである。また、ネットワークから処理プロ
グラムを得るようにしてもよい。
限定されるものではなく、本発明の要旨を逸脱しない範
囲で種々変形実施可能となるものである。また、以上説
明した本発明の処理を行う処理プログラムは、フロッピ
ィディスク、光ディスク、ハードディスクなどの記憶媒
体に記憶させておくことができ、本発明はその記憶媒体
をも含むものである。また、ネットワークから処理プロ
グラムを得るようにしてもよい。
【0098】
【発明の効果】以上説明したように、本発明の音声デー
タの区切り点検出方法によれば、決定済みの区切り点を
基点に時間軸方向に予め定めた或る短い区間の音声波形
をコピーし、コピー区間の音声波形を時間軸方向にたと
えば1サンプリング点ずつ平行移動し、平行移動ごとに
それぞれの平行移動点におけるコピー区間の音声波形と
処理対象音声波形とを比較し、コピー区間の音声波形と
処理対象音声波形との相関を求め、相関の最も大きくな
る平行移動点を次の区切り点として求めるという処理を
行うだけで、区切り点を求めることができ、少ない処理
量で高精度なピッチ周期あるいはその整数倍の周期を求
めることができる。
タの区切り点検出方法によれば、決定済みの区切り点を
基点に時間軸方向に予め定めた或る短い区間の音声波形
をコピーし、コピー区間の音声波形を時間軸方向にたと
えば1サンプリング点ずつ平行移動し、平行移動ごとに
それぞれの平行移動点におけるコピー区間の音声波形と
処理対象音声波形とを比較し、コピー区間の音声波形と
処理対象音声波形との相関を求め、相関の最も大きくな
る平行移動点を次の区切り点として求めるという処理を
行うだけで、区切り点を求めることができ、少ない処理
量で高精度なピッチ周期あるいはその整数倍の周期を求
めることができる。
【0099】また、本発明の話速変換方法は、請求項1
に記載した音声データの区切り点検出方法を用いて処理
対象音声データを区切って、それぞれの区切り点間の音
声波形を重複あるいは間引くことで、話速変換を行うよ
うにしている。このように、話速変換を行うための音声
波形の区切り点検出を前述の請求項1記載の方法を採用
することで、少ない処理量で高品質な話速変換音声を得
ることができる。
に記載した音声データの区切り点検出方法を用いて処理
対象音声データを区切って、それぞれの区切り点間の音
声波形を重複あるいは間引くことで、話速変換を行うよ
うにしている。このように、話速変換を行うための音声
波形の区切り点検出を前述の請求項1記載の方法を採用
することで、少ない処理量で高品質な話速変換音声を得
ることができる。
【0100】さらに、本発明における音声データの区切
り点検出方法は、請求項1の基本処理にさらに、請求項
2の処理を追加することにより、求められるべきでない
不自然な位置に区切り点が求められるのを防止でき、ま
た、請求項3を追加することにより、単位波形ごとの波
形の形状は同じでも振幅が大きく変化している音声波形
においても、高精度な区切り点を求めることができる。
より一層、高精度な処理が可能となる。
り点検出方法は、請求項1の基本処理にさらに、請求項
2の処理を追加することにより、求められるべきでない
不自然な位置に区切り点が求められるのを防止でき、ま
た、請求項3を追加することにより、単位波形ごとの波
形の形状は同じでも振幅が大きく変化している音声波形
においても、高精度な区切り点を求めることができる。
より一層、高精度な処理が可能となる。
【0101】また、本発明における話速変換方法におい
て、請求項7の処理を追加することにより、音声波形の
重複あるいは間引き処理後において、重複あるいは間引
き部分での段差を少なくして連続性の高い波形とするこ
とができ、高品質な話速変換音声を得ることができる。
て、請求項7の処理を追加することにより、音声波形の
重複あるいは間引き処理後において、重複あるいは間引
き部分での段差を少なくして連続性の高い波形とするこ
とができ、高品質な話速変換音声を得ることができる。
【0102】このように、本発明は、少ない処理で高精
度な区切り点検出が可能となり、この区切り点検出方法
を話速変換処理に用いることで、少ない処理で高品質な
話速変換が可能となり、さらに、本発明の区切り点検出
方法は、話速変換のみならず、音声認識技術や音声圧縮
技術など広い分野にも適応できる。
度な区切り点検出が可能となり、この区切り点検出方法
を話速変換処理に用いることで、少ない処理で高品質な
話速変換が可能となり、さらに、本発明の区切り点検出
方法は、話速変換のみならず、音声認識技術や音声圧縮
技術など広い分野にも適応できる。
【図1】本発明の基本処理の実施の形態を説明するタイ
ムチャート。
ムチャート。
【図2】本発明の基本処理の実施の形態における処理手
順を説明するフローチャート。
順を説明するフローチャート。
【図3】本発明の基本処理により時として求められる可
能性のある区切り点位置について説明する図。
能性のある区切り点位置について説明する図。
【図4】本発明の基本処理に加えて行う第1の追加処理
の実施の形態を説明する図。
の実施の形態を説明する図。
【図5】本発明の基本処理に加えて行う第3の追加処理
の実施の形態を説明する図。
の実施の形態を説明する図。
【図6】本発明による音声波形の区切り点検出方法およ
び話速変換方法を用いた話速変換装置の構成例を示すブ
ロック図。
び話速変換方法を用いた話速変換装置の構成例を示すブ
ロック図。
【図7】従来から行われている話速変換方法を説明する
図。
図。
T1,T2 有音声区間 S コピー区間 x 時間軸 m 最小値 p1,p2,・・・,p9,p10,p11 区切り点 tα 目安となる区切り点間隔 g 段差
───────────────────────────────────────────────────── フロントページの続き (72)発明者 長谷川 浩 長野県諏訪市大和3丁目3番5号 セイコ ーエプソン株式会社内
Claims (8)
- 【請求項1】 処理対象音声波形の時間軸上における既
に決定済みの区切り点を基点に、時間軸方向に予め定め
た区間の音声波形をコピーし、コピー区間の音声波形を
予め定められた範囲内で前記既に決定済みの区切り点を
基点に時間軸方向に所定サンプリング点ずつ平行移動
し、平行移動ごとにそれぞれの平行移動点におけるコピ
ー区間の音声波形と処理対象音声波形との相関を求め、
相関の最も大きくなる平行移動点を次の区切り点として
求め、この求められた区切り点を基点に、前記同様の処
理を行い、その次の区切り点を求める一連の処理を基本
処理として行うことを特徴とする音声波形の区切り点検
出方法。 - 【請求項2】 前記基本処理を行う前に、前記処理対象
音声波形のなかで音声のパワーが予め定めたしきい値以
上の区間を設定し、その区間に対して前記基本処理と同
じ処理を施すことで、前記音声のパワーが予め定めたし
きい値以上の区間におけるそれぞれの区切り点を求め
て、それぞれの区切り点位置を基に平均の区切り点間隔
を求め、 その後に前記基本処理を開始し、その基本処理におい
て、前記コピー区間の音声波形を、既に決定済みの区切
り点を基点に時間軸方向に所定サンプリング点ずつ平行
移動してコピー区間の音声波形と処理対象音声波形との
相関を求める処理を行う際、その相関を求める処理の開
始点を、前記既に求められた区切り点に対して、前記平
均の区切り点間隔に近い距離を置いた位置とすることを
特徴とする請求項1記載の音声波形の区切り点検出方
法。 - 【請求項3】 前記基本処理を行う前に、前記処理対象
音声波形のなかで音声のパワーが予め定めたしきい値以
上の区間を設定し、その区間に対して前記基本処理と同
じ処理を施すことで前記音声のパワーが予め定めたしき
い値以上の区間におけるそれぞれの区切り点を求めて、
それぞれの区切り点間における音声パワーの差を求め、
原波形のエンベローブを平行とするような処理を行った
後に前記基本処理を開始することを特徴とする請求項1
または2記載の音声波形の区切り点検出方法。 - 【請求項4】 処理対象音声波形を時間軸上において所
定の区切り点で区切って、それぞれ区切り点間の音声波
形を、変換すべき話速に応じて重複あるいは間引き処理
することで音声の話速を変換する話速変換方法におい
て、 処理対象音声波形の時間軸上における既に決定済みの区
切り点を基点に、時間軸方向に予め定めた区間の音声波
形をコピーし、コピー区間の音声波形を予め定められた
範囲内で前記既に決定済みの区切り点を基点に時間軸方
向に所定サンプリング点ずつ平行移動し、平行移動ごと
にそれぞれの平行移動点におけるコピー区間の音声波形
と処理対象音声波形との相関を求め、相関の最も大きく
なる平行移動点を次の区切り点として求め、この求めら
れた区切り点を基点に、前記同様の処理を行い、その次
の区切り点を求める一連の処理を基本処理として行い、
この基本処理により求められたそれぞれの区切り点間を
処理対象音声波形のピッチ周期あるいはその整数倍の周
期として、これらピッチ周期あるいはその整数倍の周期
ごとの音声波形を、変換すべき話速に応じて重複あるい
は間引き処理することを特徴とする話速変換方法。 - 【請求項5】 前記基本処理を行う前に、前記処理対象
音声波形のなかで音声のパワーが予め定めたしきい値以
上の区間を設定し、その区間に対して前記基本処理と同
じ処理を施すことで、前記音声のパワーが予め定めたし
きい値以上の区間におけるそれぞれの区切り点を求め
て、それぞれの区切り点位置を基に平均の区切り点間隔
を求め、 その後に前記基本処理を開始し、その基本処理におい
て、前記コピー区間の音声波形を、既に決定済みの区切
り点を基点に時間軸方向に所定サンプリング点ずつ平行
移動してコピー区間の音声波形と処理対象音声波形との
相関を求める処理を行う際、その相関を求める処理の開
始点を、前記既に求められた区切り点に対して、前記平
均の区切り点間隔に近い距離を置いた位置とすることを
特徴とする請求項4記載の話速変換方法。 - 【請求項6】 前記基本処理を行う前に、前記処理対象
音声波形のなかで音声のパワーが予め定めたしきい値以
上の区間を設定し、その区間に対して前記基本処理と同
じ処理を施すことで、前記音声のパワーが予め定めたし
きい値以上の区間におけるそれぞれの区切り点を求め
て、それぞれの区切り点間における音声パワーの差を求
め、原波形のエンベローブを平行とするような処理を行
った後に前記基本処理を開始することを特徴とする請求
項4または5記載の話速変換方法。 - 【請求項7】 前記基本処理によって求められたそれぞ
れの区切り点間の音声波形を、変換すべき話速に応じて
重複あるいは間引き処理する際、前記重複あるいは間引
きによる波形同志の接点部分の連続性が高くなるよう
に、前記基本処理によって求められたそれぞれの区切り
点が設定された区切り点スケールを時間軸上で平行移動
させ、最も連続性の高くなる平行移動点で前記区切り点
スケールを固定し、その位置でそれぞれの区切り点を処
理対象音声波形に対応させて、処理対象音声波形に区切
り点を設定することを特徴とする請求項4〜6のいずれ
かに記載の話速変換方法。 - 【請求項8】 処理対象音声波形を時間軸上において所
定の区切り点で区切って、それぞれ区切り点間の音声波
形を、変換すべき話速に応じて重複あるいは間引き処理
することで音声の話速を変換する話速変換処理プログラ
ムを記憶した記憶媒体において、 前記話速変換処理プログラムによる処理手順は、 処理対象音声波形の時間軸上における既に決定済みの区
切り点を基点に、時間軸方向に予め定めた区間の音声波
形をコピーし、コピー区間の音声波形を予め定められた
範囲内で前記既に決定済みの区切り点を基点に時間軸方
向に所定サンプリング点ずつ平行移動し、平行移動ごと
にそれぞれの平行移動点におけるコピー区間の音声波形
と処理対象音声波形との相関を求め、相関の最も大きく
なる平行移動点を次の区切り点として求め、この求めら
れた区切り点を基点に、前記同様の処理を行い、その次
の区切り点を求める一連の処理を基本処理として行い、
この基本処理により求められたそれぞれの区切り点間を
処理対象音声波形のピッチ周期あるいはその整数倍の周
期として、これらピッチ周期あるいはその整数倍の周期
ごとの音声波形を、変換すべき話速に応じて重複あるい
は間引き処理することを特徴とする話速変換処理プログ
ラムを記憶した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9201632A JPH1145098A (ja) | 1997-07-28 | 1997-07-28 | 音声波形の区切り点検出方法並びに話速変換方法および話速変換処理プログラムを記憶した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9201632A JPH1145098A (ja) | 1997-07-28 | 1997-07-28 | 音声波形の区切り点検出方法並びに話速変換方法および話速変換処理プログラムを記憶した記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH1145098A true JPH1145098A (ja) | 1999-02-16 |
Family
ID=16444301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9201632A Withdrawn JPH1145098A (ja) | 1997-07-28 | 1997-07-28 | 音声波形の区切り点検出方法並びに話速変換方法および話速変換処理プログラムを記憶した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH1145098A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003500703A (ja) * | 1999-05-21 | 2003-01-07 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号タイムスケール変更 |
-
1997
- 1997-07-28 JP JP9201632A patent/JPH1145098A/ja not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003500703A (ja) * | 1999-05-21 | 2003-01-07 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号タイムスケール変更 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1380029B1 (en) | Time-scale modification of signals applying techniques specific to determined signal types | |
US6151576A (en) | Mixing digitized speech and text using reliability indices | |
KR100438826B1 (ko) | 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법 | |
JPH06266390A (ja) | 波形編集型音声合成装置 | |
JP2002091472A (ja) | 音声言語の韻律表示装置、再生装置、類似度判定装置、音声言語処理装置、および記録媒体 | |
JP2001051700A (ja) | マルチトラック音源信号の時間軸圧伸方法及び装置 | |
JP3576800B2 (ja) | 音声分析方法、及びプログラム記録媒体 | |
JPH1145098A (ja) | 音声波形の区切り点検出方法並びに話速変換方法および話速変換処理プログラムを記憶した記憶媒体 | |
JPH05257490A (ja) | 話速変換方法および装置 | |
KR20200102309A (ko) | 단어 유사도를 이용한 음성 인식 시스템 및 그 방법 | |
JPH11338496A (ja) | 話速変換方法および話速変換処理プログラムを記録した記録媒体 | |
US7092884B2 (en) | Method of nonvisual enrollment for speech recognition | |
Soens et al. | On split dynamic time warping for robust automatic dialogue replacement | |
JP4778402B2 (ja) | 休止時間長算出装置及びそのプログラム、並びに音声合成装置 | |
JP3422716B2 (ja) | 話速変換方法および装置および話速変換プログラムを格納した記録媒体 | |
JP6313619B2 (ja) | 音声信号処理装置及びプログラム | |
JP2000196917A (ja) | 映像/音声ずれ補正システム、方法および記録媒体 | |
JP3201327B2 (ja) | 録音再生装置 | |
JPH10133678A (ja) | 音声再生装置 | |
JP2020079852A (ja) | 非言語発話検出装置、非言語発話検出方法、およびプログラム | |
KR100359988B1 (ko) | 실시간 화속 변환 장치 | |
JPH07272447A (ja) | 音声データ編集システム | |
JP2585214B2 (ja) | ピッチ抽出方法 | |
JP2588963B2 (ja) | 音声合成装置 | |
JP2004117724A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20041005 |