JP2000259200A - 話速変換方法および装置および話速変換プログラムを格納した記録媒体 - Google Patents

話速変換方法および装置および話速変換プログラムを格納した記録媒体

Info

Publication number
JP2000259200A
JP2000259200A JP11065512A JP6551299A JP2000259200A JP 2000259200 A JP2000259200 A JP 2000259200A JP 11065512 A JP11065512 A JP 11065512A JP 6551299 A JP6551299 A JP 6551299A JP 2000259200 A JP2000259200 A JP 2000259200A
Authority
JP
Japan
Prior art keywords
waveform
section
frame
speech
speech speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11065512A
Other languages
English (en)
Other versions
JP3422716B2 (ja
Inventor
Noriko Mizusawa
紀子 水澤
Masanobu Higashida
正信 東田
Hirokazu Suzuki
博和 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP06551299A priority Critical patent/JP3422716B2/ja
Publication of JP2000259200A publication Critical patent/JP2000259200A/ja
Application granted granted Critical
Publication of JP3422716B2 publication Critical patent/JP3422716B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】原音の音質を保ったまま簡単な方法で話速変換
を行なうことができる話速変換装置を提供する。 【解決手段】音声波形の基本周期の波形(ピッチ区間波
形)をその音声波形に対して挿入・削除することによ
り、音声波形の定常的な区間のみを伸長・短縮して録音
音声の話速を変換する話速変換装置であって、パラメー
タとして波形類似度下限値βおよび話速変換率αを与え
るための閾値入力部3および話速変換率入力部4と、入
力音声波形を先頭から順次短いフレーム区間で切りだす
フレーム切りだし部5と、切りだされたフレーム区間の
波形の自己相関関数を計算する自己相関関数計算部6
と、自己相関関数における極大値y(T)が波形類似度
下限値βよりも大きい場合に当該フレーム区間の波形が
定常的であるとみなし、当該フレーム区間波形に対して
極大値を与える周期Tを基本周期とするピッチ区間波形
の挿入・削除を行なう波形挿入/削除部8とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、録音音声の品質お
よび話者の声質を保ったまま話速だけを変換する話速変
換方法と装置とプログラムを格納した記録媒体に関す
る。
【0002】
【従来の技術】各種の自動音声応答装置などに用いられ
る単語音声を蓄積する録音音声データベースは、それに
含まれる各音声データの話速が良く揃っていることが望
まれる。しかし、データベースが大規模になると、良く
訓練された発声者でも全ての音声データの話速が同じに
なるよう発声することは難しいため、録音音声データの
音質を劣化させることなく話速だけを変換する技術が必
要となる。
【0003】一方、テレビ放送などの録音音声データを
短時間で聞きたい、高齢者向けにゆっくり再生したいと
いう要求から、各種の話速変換方法が考案されている。
それらの中で、比較的簡便で原音の品質劣化、音質変化
の少ない方法として、音声波形区間を適宜挿入・削除し
て再生時間を変化させる方法がある。このような方法
は、大きく以下のように整理できる。
【0004】1.無音区間、子音区間、母音区間の区別
を行なうか否かによる区別
【0005】人間の音声は大きく上記の3つの区間に分
けることができる。一般に人間が速く/遅く話そうとす
ると、無音区間、母音区間、子音区間の順で時間長を調
整している。これに着目し、処理対象の音声をまずこの
3つの区間にわけ、それぞれの区間に応じた時間長の調
整を行なう場合と、これらを区別せず全て同じ方式の時
間長調整を行なう場合がある。
【0006】2.挿入・削除する波形の長さによる区別
【0007】挿入・削除する区間の長さを、常に一定の
長さにする場合と、基本周期の波形(以下、ピッチ区間
波形と呼ぶ)の長さもしくはその整数倍の長さにする場
合がある。
【0008】3.挿入・削除の方法による区別
【0009】挿入・削除を行なう際に、ある区間の波形
をそのまま挿入・削除する場合と、複数の切り出した波
形に窓関数をかけて、互いに重なるよう足し合わせて区
間長を調整する場合がある。
【0010】
【発明が解決しようとする課題】従来考案されてきた方
法は、いずれも所望の話速変換率を得ることが第一の目
的であり、始めから音質を最重要視した方法ではない。
また、前記の従来技術においては、各々以下のような問
題点がある。
【0011】1.無音区間、子音区間、母音区間の区別
について
【0012】それぞれの区間に応じて時間長の調整を行
なう方法は、人間の話速調整方法に近く、自然な出力音
声が得られる。しかし従来の技術では、各区間の時間長
の調整を全く異なる方式で行なっている。このため、ま
ず音声波形を各区間にわけ、その後区間に応じた処理を
施すという二重の処理が必要である。
【0013】2,3.挿入・削除する波形の長さおよび
挿入・削除の方法について
【0014】人間の音声の基本周期は、女性の場合2.
5〜7msec、男性の場合5〜20msecと非常に
幅がある。これを考慮すると、ピッチ区間波形の長さに
応じて挿入・削除する波形の長さを変えて処理した方が
滑らかな出力音声になると考えられる。
【0015】しかし、音声波形の基本周期を正確に求め
るのは非常に難しい。そのため、簡便な周期抽出方法で
は接続部分が不連続になることが多く、これを避けるた
めに複数の切り出した波形に窓関数をかけて、互いに重
なるよう足し合わせて区間長を調整する方法がとられる
ことが多い。しかし、この方法は波形全体に渡って乗
算、加算などの演算が行なわれるため、原音の声質が損
なわれる可能性がある。一方、音声波形をフーリエ変換
などによって周波数領域で解析したり、ローパスフィル
タをかけたりして高精度に基本周期を抽出すれば波形を
そのまま挿入・削除しても接続部分の不連続が少なくて
済むが、計算量が多くなるため実時間性に欠け、装置も
大規模になる。
【0016】本発明は、以上のような問題点に鑑みてな
されたものであり、原音の音質を保ったまま簡単な方法
で話速変換を行なおうとするものである。また、与える
パラメータを変えることにより、音質をどのくらい重視
するかを指定することができ、用途に応じた柔軟な話速
変換処理が可能とするものである。
【0017】
【課題を解決するための手段】上記の課題を解決するた
め、請求項1記載の発明は、音声波形の基本周期の波形
(以下、ピッチ区間波形と呼ぶ)を適宜挿入・削除する
ことにより、音声波形の定常的な区間のみを伸長・短縮
して録音音声の話速を変換する話速変換方法において、
パラメータとして波形類似度下限値を設定し、入力音声
波形を先頭から順次短い区間で切りだし(以下、切り出
した波形をフレーム区間波形と呼ぶ)、当該フレーム区
間波形の波形類似度を計算し、前記波形類似度が、前記
パラメータとして与えた波形類似度下限値よりも大きい
場合に当該フレーム区間波形は定常的であるとみなし、
当該フレーム区間波形に対してピッチ区間波形の挿入・
削除を行なうことを特徴としている。
【0018】また、請求項2記載の発明は、前記波形類
似度は自己相関係数で表されるものとし、当該フレーム
区間波形の自己相関係数を計算し、ある点の自己相関係
数がパラメータとして与えた自己相関係数下限値よりも
大きい場合、当該フレーム区間波形が定常的であるとみ
なすことを特徴としている。また、請求項3記載の発明
は、前記ピッチ区間波形の長さを決定する際に、前記フ
レーム区間波形の自己相関係数を計算し、前記自己相関
係数の極大値を与える波形のずれの量をピッチ区間波形
の長さとすることを特徴としている。また、請求項4記
載の発明は、前記ピッチ区間波形を挿入・削除する点を
決定する際に、前記フレーム区間内の各時点について、
当該時点を挟んで隣り合う2周期分のピッチ区間波形
の、差の2乗平均値または2乗和または絶対値の平均値
または絶対値の和を計算し、これが最小となる点を前記
ピッチ区間波形を挿入・削除する点とすることを特徴と
している。
【0019】また、請求項5記載の発明は、音声波形の
基本周期の波形(以下、ピッチ区間波形と呼ぶ)を適宜
挿入・削除することにより、音声波形の定常的な区間の
みを伸長・短縮して録音音声の話速を変換する話速変換
装置において、パラメータとして波形類似度下限値を設
定する手段と、入力音声波形を先頭から順次短い区間で
切りだし(以下、切り出した波形をフレーム区間波形と
呼ぶ)、当該フレーム区間波形の波形類似度を計算し、
前記波形類似度が、前記パラメータとして与えた波形類
似度下限値よりも大きい場合に当該フレーム区間波形は
定常的であるとみなし、ピッチ区間波形の挿入・削除を
行なう手段とを備えることを特徴とする話速変換装置で
ある。
【0020】また、請求項6記載の発明は、請求項1〜
4のいずれか1項に記載の話速変換方法を、計算機を用
いて実行するための話速変換プログラムを格納した計算
機読み取り可能な記録媒体である。
【0021】本発明による話速変換方法は、母音区間の
区間長のみを、ピッチ区間波形を挿入・削除することに
より伸縮させて全体の長さを調節する。しかし従来技術
のように始めに母音区間を抽出する処理が必要なわけで
はなく、母音区間は波形が定常的であることを利用し
て、処理するフレーム区間の自己相関係数を計算して当
該フレーム区間が母音区間かどうかを判定し、同時に基
本周期を得ている。
【0022】波形が定常的な部分しか処理を行なわない
ため、基本周期の抽出の誤りが少なく、接続部分が不連
続になることが少ない。したがって窓関数をかけるなど
の処理を行なわなくても、雑音が混入する可能性が低
い。
【0023】
【発明の実施の形態】図1は本発明による話速変換装置
の実施の形態の一例を示すブロック図である。本発明に
よる話速変換装置1は音声波形入力部2と閾値入力部3
と話速変換率入力部4とフレーム切りだし部5と自己相
関係数計算部6と処理判断部7と波形挿入/削除部8と
音声波形出力部9から成る。
【0024】音声入力部2は話速変換したい音声を取得
する。閾値入力部3は波形の類似度を表す自己相関係数
の下限を取得し、処理判断部7に送る。話速変換率入力
部4はどのくらい話速を速く/遅くするかを表す話速変
換率を取得し、波形挿入/削除部8に送る。
【0025】フレーム切りだし部5は波形挿入/削除部
8から送られるフレーム開始点に応じて、音声入力部2
において取得された音声波形の一部分(以下フレーム区
間波形と呼ぶ)を切り出す。切り出すフレーム区間波形
が処理対象だった場合は自己相関係数計算部6と波形挿
入/削除部8に送り、処理対象でなかった場合は音声波
形処出力部9へ送る。
【0026】自己相関係数計算部6はフレーム切りだし
部5から送られたフレーム区間波形の自己相関係数を計
算して自己相関係数の極大値を処理判断部7に、極大値
を与えるフレーム区間波形のずれを基本周期の長さとし
て波形挿入/削除部8に送る。処理判断部7は自己相関
係数計算部6から送られた自己相関係数の極大値と閾値
入力部3から送られた相関係数の下限を比較して波形の
挿入/削除を行なうかどうかを決定し、その判断結果を
波形挿入/削除部8へ送る。
【0027】波形挿入/削除部8は処理判断部7から送
られた挿入/削除を行なうか否かの判断結果を受けと
り、必要に応じてフレーム切りだし部5から送られたフ
レーム区間波形に対して基本周期の波形(以下、ピッチ
区間波形と呼ぶ)の挿入/削除を行ない、音声波形出力
部9に送る。波形挿入/削除部8は、また、話速変換率
入力部4から送られた話速変換率と自己相関係数計算部
6から送られた基本周期の長さを用いて次のフレームの
開始を決定し、フレーム切りだし部5に送る。
【0028】音声波形出力部9はフレーム切りだし部5
または波形挿入/削除部8から送られたフレーム区間波
形を順次、または入力された音声の処理が全て終了する
まで蓄積したのち、出力する。
【0029】図2は、図1に示す本発明による話速変換
装置1の動作を説明する流れ図である。以下、図1のブ
ロック図と図2の流れ図に従って具体的に音声の話速を
α倍にする場合の、この話速変換装置の動作例を説明す
る。
【0030】音声入力部2は話速変換したい音声を取得
し、必要に応じてディジタル信号x(n);n=0,
1,2,…に直す(ステップS1)。ここでnは時刻に
相当するインデックスである。閾値入力部3は波形の類
似度を表す自己相関係数の下限値βを取得し、処理判断
部7に送る(ステップS2)。
【0031】雑音の混入など音質の劣化を防ぐため、波
形の挿入/削除は波形が定常的な部分で行なうことが望
ましいが、一般に波形が定常的な場合は自己相関係数が
1に近くなる。閾値入力部3で取得する自己相関係数の
下限値βは、処理したい波形がどのくらい定常的なら基
本周期の波形(以下、ピッチ区間波形と呼ぶ)の挿入/
削除を行なうかを指定するものである。βを小さくする
と波形が定常的でない部分でも挿入/削除を行なうた
め、雑音が混入しやすくなるが、目標とする話速に近い
出力が得られる。逆にβを1に近くすると雑音混入のリ
スクを抑えることができる。話速変換の目的に応じて自
己相関係数下限値βの値を設定することにより、「品質
を落さない範囲で話速を変える」といった柔軟な処理が
可能となる。例えばここではβ=0.7に設定されるも
のとする。
【0032】話速変換率入力部4はどのくらい話速を速
く/遅くするかを表す話速変換率αを取得し、波形挿入
/削除部8に送る(ステップS3)。例えばここでは話
速を1.2倍に速くする場合を考え、話速変換率α=
1.2とする。
【0033】フレーム切りだし部5は波形挿入/削除部
8から送られるフレーム開始点nbiに応じて、音声入力
部2において取得された音声波形の一部分(以下フレー
ム区間波形と呼ぶ)を切り出す。本話速変換装置は音声
波形を先頭から順次フレーム区間ごとに処理する。送ら
れたフレーム開始点nbiが、前回切り出したフレーム区
間波形の終了点ne(i-1)より大きい場合は、まず
【0034】
【数1】
【0035】を切りだして直接音声波形出力部9へ送り
(ステップS6)、次にnbiを先頭として一定の長さM
サンプルの波形
【0036】
【数2】
【0037】を切りだして自己相関係数計算部6と波形
挿入/削除部8に送る(ステップS7)。なお、ディジ
タル信号x(n)のインデックスnにおいて、nbiはi
番目のフレームの開始点、nb(i-1)は(i−1)番目の
フレームの開始点、neiはi番目のフレームの終了点、
e(i-1)は(i−1)番目のフレームの終了点を表して
いる。
【0038】送られたフレーム開始点nbiが、前回切り
出したフレーム区間波形の終了点n e(i-1)以下の場合
は、すぐにnbiを先頭としたMサンプルの波形x
(nbi)〜x(nei)を切りだして自己相関係数計算部
6と波形挿入/削除部8に送る(ステップS7)。
【0039】図3にMサンプルの長さのフレーム区間波
形の一例を示す。この例は、サンプリング周波数が16
kHzの音声データの一部を切り出したものであり、M
=240、この場合は15msecである。
【0040】自己相関係数計算部6はフレーム切りだし
部5から送られたフレーム区間波形x(nbi)〜x(n
ei)の自己相関係数y(m)を計算する(ステップS
8)。y(m)は、ここではフレーム区間波形のみの計
算とし、
【0041】
【数3】 と定義する。
【0042】図4(a)に自己相関係数の計算イメー
ジ、図4(b)に図3のフレーム区間波形の自己相関係
数y(m)を示す。自己相関係数は、ある波形と、その
波形をmずらした波形がどのくらい似ているかを示すも
のである。フレーム区間波形が周期的な場合には基本周
期Tの整数倍ずれた時に二つの波形が似ており、y
(m)が大きい値になる。逆に波形があまり周期的でな
い場合は、波形をずらすと似た部分がないので、y
(m)の値が小さい。波形が周期的でない例として、図
5、図6に別のフレーム区間波形とその自己相関係数を
示す。
【0043】自己相関係数計算部はy(m)を計算した
のち、フレーム区間内の極大値y(T)を探索し、自己
相関係数の極大値y(T)を処理判断部7に、極大値を
与えるフレーム区間波形のずれ、すなわち基本周期の長
さTを波形挿入/削除部8に送る(ステップS9)。図
3の例ではy(T)=0.75、T=55、図5の例で
はy(T)=0.56、T=53である。
【0044】処理判断部7は自己相関係数計算部6から
送られた自己相関係数の極大値y(T)と閾値入力部3
から送られた自己相関係数の下限値βを比較する(ステ
ップS10)。y(T)の値が大きければ波形が定常的
なので、波形処理を行なっても雑音が混入しにくい。図
3の例ではy(T)=0.75>0.7=βなので、ピ
ッチ区間波形の挿入/削除を行なうと決定する。図5の
例ではy(T)=0.56<0.7=βなので、ピッチ
区間波形の挿入/削除を行なわないと決定する。例えば
判断結果を示す信号を、挿入/削除を行なう場合1、行
なわない場合0として、波形挿入/削除部8へ送る。
【0045】波形挿入/削除部8はまず処理判断部7か
ら送られた挿入/削除を行なうか否かの判断信号を受け
とり、それによって異なる動作をする。挿入/削除を行
なわない場合は、次のフレーム開始点nb(i+1)をこのフ
レームの次の点すなわちnei+1と決定してフレーム切
りだし部5に送り(ステップS11)、フレーム区間波
形に何も処理を施さずに音声波形出力部9に送る(ステ
ップS23)。挿入/削除を行なう場合は、まず自己相
関係数計算部6から送られた基本周期の長さTを用いて
フレーム区間内でピッチ区間波形の挿入/削除を行なう
点Pを探索する(ステップS12)。点Pは、フレーム
区間内で最も似ている2周期の間の点とする。例えばm
=nbi+T〜nei−Tに渡って
【0046】
【数4】
【0047】を計算し、z(m)が最小になるようなm
をPとする。z(m)の計算は、上記のような定義、す
なわち当該時点を挟んで隣り合う2周期分のピッチ区間
波形の差の2乗和の計算以外、|x(n)−x(n+
T)|の平均値、2乗平均値または絶対値の和の計算な
どでも良い。図7に図3に示したフレーム区間波形にお
いてPを探索する様子を示す。
【0048】次に話速変換率入力部4から送られた話速
変換率αが1より大きいか、小さいかによって、ピッチ
区間波形を挿入するのか削除するのか判断する(ステッ
プS13)。α>1の場合は話速を速くするので、x
(P+1)〜x(P+T)をフレーム区間波形から削除
する(ステップS14)。α<1の場合は話速を遅くす
るので、x(P+1)〜x(P+T)を一度バッファに
保存して、それをフレーム区間波形のx(P)とx(P
+1)の間に挿入する(ステップS15)。
【0049】次に、αとTからフレーム移動量M’を計
算する(ステップS16)。(M’±T)/M’=1/
αから、
【0050】
【数5】
【0051】を計算すれば良い。次のフレーム開始点n
b(i+1)は基本的にはnbi+M’+1になる(ステップS
18)。ただし、次のフレーム開始点が波形の挿入/削
除を行なった点より以前にある場合、すなわちnbi
M’<P+Tの場合は、P+T+1を次のフレーム開始
点nb(i+1)とする(ステップS17,S19)。このよ
うに決定したnb(i+1)をフレーム切りだし部5に送る。
【0052】次に、処理したフレーム区間波形のうち、
フレーム開始点nbiから次のフレーム開始点nb(i+1)
1までの波形を処理したフレーム区間波形を音声波形出
力部9に送る(ステップS21,S22)。ただし、次
のフレーム開始点がフレーム区間の外にある場合、すな
わちnb(i+1)−1>neiの場合はフレーム区間x
(n bi)〜x(nei)を出力する(ステップS20,S
23)。この場合、残りのx(nei+1)〜x(n
b(i+1))は次のフレーム区間を切り出す前に、そのまま
出力される(S6)。
【0053】フレームの進め方と出力範囲の例を図8〜
図10に示す。例えばT=55,M=240のフレーム
区間において、α=1.2の場合(図8)、
【0054】
【数6】
【0055】であり、P+T<nei<nbi+M’なの
で、次のフレーム開始点nb(i+1)としてnbi+331を
フレーム切りだし部5に送り、x(nbi)〜x(nei
の途中1周期55サンプルを削除した波形を音声波形出
力部9に送る(ステップS17→S18→S20→S2
3)。
【0056】α=1.35の場合(図9)、
【0057】
【数7】
【0058】であり、P+T<nbi+M’<neiなの
で、次のフレーム開始点nb(i+1)としてnbi+213を
フレーム切りだし部5に送り、x(nbi)〜x(nbi
M’)の途中1周期55サンプルを削除した波形を音声
波形出力部9に送る(ステップS17→S18→S20
→S21)。
【0059】α=1.5の場合(図10)、
【0060】
【数8】
【0061】であり、nbi+M’<P+T<neiなの
で、次のフレーム開始点nb(i+1)としてP+55+1を
フレーム切りだし部5に送り、x(nbi)〜x(P+
T)のうち処理された部分、この場合はx(P+1)〜
x(P+T)を削除しているのでx(nbi)〜x(P)
を音声波形出力部9に送る(ステップS17→S19→
S22)。
【0062】この例では波形の挿入/削除を行なう点P
を探索する際、フレーム区間全体に対して探索を行なっ
たが、この探索の範囲をT一周期分にすれば結果的に次
のフレーム開始点nb(i+1)がP+Tの手前になる可能性
が低くなり、所望の話速変換率に近い変換率が得られ
る。音声波形出力部9はフレーム切りだし部5または波
形挿入/削除部8から送られたフレーム区間波形を順次
出力する。入力音声を全て出力したかどうかを判断し
(ステップS24)、まだ出力が終了していない場合は
ステップS4に戻り、次のフレーム処理を開始する。
【0063】音声波形出力部9が送られたフレーム区間
波形を順次出力する場合は、入力音声をフレーム区間ご
とに次々に処理していくので、入力に対してリアルタイ
ムに出力していくことが可能であり、例えばVTR(ビ
デオテープレコーダ)の再生速度変更時の音声出力など
に適用可能である。音声データベース中の各音声データ
の話速変換など、実時間性が要求されない用途では、音
声波形出力部9は入力された音声の処理が全て終了する
までフレーム区間波形を蓄積したのち、必要に応じて接
続部分に平滑化処理を施して出力しても良い。
【0064】上述のように、本発明による話速変換装置
は話速変換率αと自己相関係数の下限値βの二つのパラ
メータを取得し、βで指示したレベルの音質でできるだ
け話速をα倍に近付けようとする。これらの与え方によ
り適用領域に応じた柔軟な処理が可能になる。例えばβ
を0.8などの1に近い値に設定しておけば、音質を保
ったまま話速変換できる範囲で処理を行なうので、録音
音声データベースの話速均一化など、高音質が要求され
るような用途に向く。
【0065】また、αを与えず、話速を速くするか遅く
するかだけを指示し、ステップS16,S17,S1
8,S20において決定される次のフレーム開始点n
b(i+1)を常にP+1とするようにすれば、βで指示した
レベルの音質でできるだけ速く/遅くする、という処理
が可能である。
【0066】また、録音内容がわかれば良いといった、
音質がそれほど重要でない用途では、βとして0.1な
ど極端に小さい値を与えれば、少しでも周期的なフレー
ム区間波形であれば挿入/削除処理を行なうため、与え
たαに近い出力が得られる。
【0067】なお、本発明の実施の形態は、図1および
図2に示した構成に限定されるものではなく、例えば、
話速変換率αと自己相関係数の下限値βの一方または両
方を、あらかじめ設定しておくようにしたり、あるい
は、あらかじめ設定した値から選択して設定するように
する等の変更が可能である。また、本発明の話速変換装
置は、組合せ論理回路等を用いたハードウェアのみによ
って実現することも可能であるとともに、コンピュータ
とそれによって実行されるソフトウェアを用いて実現す
ることも可能である。また、このソフトウェアは、コン
ピュータ読み取り可能な記録媒体、あるいは通信回線を
介して配布することが可能である。
【0068】
【発明の効果】以上の説明から明らかなように、本発明
による話速変換方法によれば、原音の音質を保ったまま
話速変換を行なうことが可能である。簡単な方法である
にも関わらず、雑音の混入も少ない。また、自己相関係
数の下限値βの与え方によって音質をどのくらい重視す
るかを指定することができ、用途に応じた柔軟な話速変
換処理が可能である。
【図面の簡単な説明】
【図1】 本発明による話速変換装置の実施の形態の一
例を示すブロック図。
【図2】 本発明による話速変換装置の動作を説明する
流れ図。
【図3】 フレーム区間波形の一例を示す図。
【図4】 図3に示すフレーム区間波形に対する自己相
関係数(b)の計算方法の一例(a)を説明するための
図。
【図5】 フレーム区間波形の別の一例を示す図。
【図6】 図5に示したフレーム区間波形の自己相関係
数を示す図。
【図7】 図3に示したフレーム区間波形において波形
の挿入/削除を行なう点Pを決定する方法を説明する
図。
【図8】 出力する波形の範囲と次フレーム開始点の一
例を示す図(α=1.2の場合)。
【図9】 出力する波形の範囲と次フレーム開始点の一
例を示す図(α=1.35の場合)。
【図10】 出力する波形の範囲と次フレーム開始点の
一例を示す図(α=1.5の場合)。
【符号の説明】
1 話速変換装置 2 音声波形入力部 3 閾値入力部 4 話速変換率入力部 5 フレーム切りだし部 6 自己相関係数計算部 7 処理判断部 8 波形挿入/削除部 9 音声波形出力部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 鈴木 博和 東京都武蔵野市御殿山一丁目1番3号 エ ヌ・ティ・ティ・アドバンステクノロジ株 式会社内 Fターム(参考) 5D045 AA08

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 音声波形の基本周期の波形(以下、ピッ
    チ区間波形と呼ぶ)を適宜挿入・削除することにより、
    音声波形の定常的な区間のみを伸長・短縮して録音音声
    の話速を変換する話速変換方法において、 パラメータとして波形類似度下限値を設定し、 入力音声波形を先頭から順次短い区間で切りだし(以
    下、切り出した波形をフレーム区間波形と呼ぶ)、当該
    フレーム区間波形の波形類似度を計算し、前記波形類似
    度が、前記パラメータとして与えた波形類似度下限値よ
    りも大きい場合に当該フレーム区間波形は定常的である
    とみなし、当該フレーム区間波形に対してピッチ区間波
    形の挿入・削除を行なうことを特徴とする話速変換方
    法。
  2. 【請求項2】 前記波形類似度は自己相関係数で表され
    るものとし、 当該フレーム区間波形の自己相関係数を計算し、ある点
    の自己相関係数がパラメータとして与えた自己相関係数
    下限値よりも大きい場合、当該フレーム区間波形が定常
    的であるとみなすことを特徴とする請求項1記載の話速
    変換方法。
  3. 【請求項3】 前記ピッチ区間波形の長さを決定する際
    に、 前記フレーム区間波形の自己相関係数を計算し、前記自
    己相関係数の極大値を与える波形のずれの量をピッチ区
    間波形の長さとすることを特徴とする請求項1記載の話
    速変換方法。
  4. 【請求項4】 前記ピッチ区間波形を挿入・削除する点
    を決定する際に、 前記フレーム区間内の各時点について、当該時点を挟ん
    で隣り合う2周期分のピッチ区間波形の、差の2乗平均
    値または2乗和または絶対値の平均値または絶対値の和
    を計算し、これが最小となる点を前記ピッチ区間波形を
    挿入・削除する点とすることを特徴とする請求項1記載
    の話速変換方法。
  5. 【請求項5】 音声波形の基本周期の波形(以下、ピッ
    チ区間波形と呼ぶ)を適宜挿入・削除することにより、
    音声波形の定常的な区間のみを伸長・短縮して録音音声
    の話速を変換する話速変換装置において、 パラメータとして波形類似度下限値を設定する手段と、 入力音声波形を先頭から順次短い区間で切りだし(以
    下、切り出した波形をフレーム区間波形と呼ぶ)、当該
    フレーム区間波形の波形類似度を計算し、前記波形類似
    度が、前記パラメータとして与えた波形類似度下限値よ
    りも大きい場合に当該フレーム区間波形は定常的である
    とみなし、ピッチ区間波形の挿入・削除を行なう手段と
    を備えることを特徴とする話速変換装置。
  6. 【請求項6】 請求項1〜4のいずれか1項に記載の話
    速変換方法を、計算機を用いて実行するための話速変換
    プログラムを格納した計算機読み取り可能な記録媒体。
JP06551299A 1999-03-11 1999-03-11 話速変換方法および装置および話速変換プログラムを格納した記録媒体 Expired - Lifetime JP3422716B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06551299A JP3422716B2 (ja) 1999-03-11 1999-03-11 話速変換方法および装置および話速変換プログラムを格納した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06551299A JP3422716B2 (ja) 1999-03-11 1999-03-11 話速変換方法および装置および話速変換プログラムを格納した記録媒体

Publications (2)

Publication Number Publication Date
JP2000259200A true JP2000259200A (ja) 2000-09-22
JP3422716B2 JP3422716B2 (ja) 2003-06-30

Family

ID=13289186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06551299A Expired - Lifetime JP3422716B2 (ja) 1999-03-11 1999-03-11 話速変換方法および装置および話速変換プログラムを格納した記録媒体

Country Status (1)

Country Link
JP (1) JP3422716B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002221976A (ja) * 2001-01-24 2002-08-09 Yamaha Corp 話速検出方法および音声信号処理装置
US7143029B2 (en) 2002-12-04 2006-11-28 Mitel Networks Corporation Apparatus and method for changing the playback rate of recorded speech
KR100656968B1 (ko) 2003-05-27 2006-12-13 가부시끼가이샤 도시바 음속변환장치와 음속변환방법 및 컴퓨터 독출가능기록매체
JP2007094004A (ja) * 2005-09-29 2007-04-12 Kowa Co 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置
WO2007086365A1 (ja) * 2006-01-24 2007-08-02 Matsushita Electric Industrial Co., Ltd. 変換装置
CN102426838A (zh) * 2011-08-24 2012-04-25 华为终端有限公司 语音信号处理方法和用户设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002221976A (ja) * 2001-01-24 2002-08-09 Yamaha Corp 話速検出方法および音声信号処理装置
US7143029B2 (en) 2002-12-04 2006-11-28 Mitel Networks Corporation Apparatus and method for changing the playback rate of recorded speech
KR100656968B1 (ko) 2003-05-27 2006-12-13 가부시끼가이샤 도시바 음속변환장치와 음속변환방법 및 컴퓨터 독출가능기록매체
JP2007094004A (ja) * 2005-09-29 2007-04-12 Kowa Co 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置
WO2007086365A1 (ja) * 2006-01-24 2007-08-02 Matsushita Electric Industrial Co., Ltd. 変換装置
JP5096932B2 (ja) * 2006-01-24 2012-12-12 パナソニック株式会社 変換装置
CN102426838A (zh) * 2011-08-24 2012-04-25 华为终端有限公司 语音信号处理方法和用户设备

Also Published As

Publication number Publication date
JP3422716B2 (ja) 2003-06-30

Similar Documents

Publication Publication Date Title
CN108259965B (zh) 一种视频剪辑方法和剪辑系统
CA2253749C (en) Method and device for instantly changing the speed of speech
KR101334366B1 (ko) 오디오 배속 재생 방법 및 장치
US20050273321A1 (en) Audio signal time-scale modification method using variable length synthesis and reduced cross-correlation computations
CN100555876C (zh) 声信号处理装置和方法
US6801898B1 (en) Time-scale modification method and apparatus for digital signals
JP2003303195A (ja) 線形メディアの最適要約を自動作成する方法および情報を格納する情報格納メディアを備える製品
JP3219868B2 (ja) 音声のピッチ周期抽出装置およびピッチ区間自動抽出装置
US20070011001A1 (en) Apparatus for predicting the spectral information of voice signals and a method therefor
JP2000259200A (ja) 話速変換方法および装置および話速変換プログラムを格納した記録媒体
JPH10260694A (ja) 話速変換装置、話速変換方法及び記録媒体
JP4965371B2 (ja) 音声再生装置
US7787976B2 (en) Method and apparatus for estimating length of audio file
JP3378672B2 (ja) 話速変換装置
JP3373933B2 (ja) 話速変換装置
JPH09152889A (ja) 話速変換装置
JP2002297200A (ja) 話速変換装置
JP2001222300A (ja) 音声再生装置および記録媒体
JP6313619B2 (ja) 音声信号処理装置及びプログラム
JP4437703B2 (ja) 話速変換方法および装置
KR20020036014A (ko) 실시간 화속 변환 장치
JPH09146587A (ja) 話速変換装置
KR20030000400A (ko) 음성 재생속도 실시간 변환 방법 및 장치
KR100643966B1 (ko) 오디오 프레임 배속 조절방법
JP2006038956A (ja) 音声速度遅延装置及び方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090425

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100425

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100425

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120425

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130425

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140425

Year of fee payment: 11

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term