JP2008020870A - 話速変換装置及び話速変換方法 - Google Patents

話速変換装置及び話速変換方法 Download PDF

Info

Publication number
JP2008020870A
JP2008020870A JP2006218939A JP2006218939A JP2008020870A JP 2008020870 A JP2008020870 A JP 2008020870A JP 2006218939 A JP2006218939 A JP 2006218939A JP 2006218939 A JP2006218939 A JP 2006218939A JP 2008020870 A JP2008020870 A JP 2008020870A
Authority
JP
Japan
Prior art keywords
audio signal
speech
waveform
speed
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006218939A
Other languages
English (en)
Inventor
Saburo Tsuchiya
三郎 土谷
Kenichi Yamazaki
健一 山崎
Tatsuo Yatagai
達雄 谷田貝
Yasuo Tamaki
康雄 玉木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AREX KK
Original Assignee
AREX KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AREX KK filed Critical AREX KK
Priority to JP2006218939A priority Critical patent/JP2008020870A/ja
Publication of JP2008020870A publication Critical patent/JP2008020870A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】音声の速度を変換しても、音声品質を変換前と略同一に維持し、変換時に生じる雑音を抑制する。
【解決手段】バンドパスフィルタ出力切換部では、出力振幅比較部の出力を基に、BPF15〜BPF21の出力の1つを選択する繰り返しがなされる。バンドパスフィルタ出力切換部の出力は、基本周波数成分を含み、高調波成分を抑圧した、ほぼ単一の正弦波となる。ピッチ周期検出部は、バンドパスフィルタ出力切換部の出力を基に、波形のピーク位置を求め、隣り合うピーク位置2点間の距離(時間)から、その2点間での周期Tを求める。話速制御部は、予め話速倍率設定部で設定した倍率値に応じて、音声データ一時保存用記憶部に格納した音声データを周期情報一時保存用記憶部の情報を基に、音声信号の周期を単位として間引き/挿入する処理を行い、その間引き/挿入の処理結果を音声データ一時保存用記憶部から音声データ出力部を経由して出力させる。
【選択図】図1

Description

本発明は、入力される音声信号の再生速度を、所望の速度に変換して出力する話速変換装置、及び話速変換方法に関する。
従来、再生される音声信号の同期を維持しつつ、多チャンネルの音声信号について適切な話速変換処理が行えるようにすることを目的とした話速変換装置が提案されている。この提案に係る装置では、複数チャンネルの入力音声信号から処理区間毎に単一のピッチ周期を算出し、該ピッチ周期に基づき該処理区間における各チャンネルの入力音声信号を時間軸に沿って圧縮する(例えば特許文献1参照)。また、原音の音質を保ったまま簡単な方法で話速変換を行えるようにすることを目的とした話速変換装置も提案されている。この提案に係る装置では、パラメータとして波形類似度下限値、及び話速変換率が用いられ、入力音声波形を先頭から順次短いフレーム区間で切り出し、切り出されたフレーム区間の波形の自己相関関数を計算する。そして、自己相関関数における極大値が波形類似度下限値より大きい場合に、該フレーム区間の波形が定常的であると見做し、該フレーム区間波形に対し、極大値を与える周期を基本周期とするピッチ区間波形の挿入・削除を行う(例えば特許文献2参照)。
特開2002−297200号公報 特開2000−259200号公報
従来、話速変換においては、話速変換装置に入力される音声波形からその特徴を把し、把握した特徴から音声波形の周期を求め、音声信号の話速を高速に変換する際には、求めた周期を削除する信号処理を、音声信号の話速を低速にする際には、求めた周期を繰り返す信号処理を、夫々実行する。この信号処理について更に詳述すれば、音声信号の振幅の中心であるゼロクロスポイントを基準として、ピッチ周期に対応した所定個数のゼロクロスポイントを持つ信号波形を抜くことで話速が高速に変換され、ピッチ周期に対応した所定個数のゼロクロスポイントを持つ信号波形を繰り返すことで、話速が低速に変換される。
上述したゼロクロスポイントを基準とする上記信号処理の手法は、ゼロクロスポイントが容易に見出せる上に、音声波形からその周期性が容易に認定できるという利点がある。しかし、その反面、ゼロクロスポイントが時間軸方向に対して信号波形の変位が大きい(信号波形の単位時間当たりの変化が最も大きい)ために、例えば上記信号波形を抜く処理や、上記信号波形を繰り返す処理を行った場合に、ゼロクロスポイントで信号波形に不連続点が生じ易くなる。
このように、信号波形に不連続点が生じると、それがノイズ発生の原因となる。この不連続点が1個だけであれば、人間の耳には聞こえ難く殆ど問題にはならないが、複数個連続して生じると、例えば『ブツ』、『ブツ』、・・・というような可聴音となり、耳障りな雑音になってしまうという問題がある。
そこで、従来技術の問題点を解決するため、本件出願人が先に出願した発明では、話速変換時に元音声を間引き/挿入する際、音声信号の単位時間当たりの変化量が小さい波形のピーク位置で音声データを互いに接合するものにした。これにより時間軸で隣接する波形相互の接合点での不連続性が小さく抑えられ、その結果ノイズの発生を抑えることができた。
しかし、この発明の方法では、波形のピーク位置での接合を基本としているため、音声データを間引き/挿入する区間長はその時々の波形により変化してしまう。このため、波形的には不連続性が少なく接続できるが、周期性については微視的に見ると元音声の周期に対して細かく変動することになり、これがノイズや音質劣化の原因となる。
従って本発明の目的は、話速変換装置において、人間が発した音声の速度を変換しても、変換後の音声品質を変換前のそれと略同一に維持することができ、且つ、変換時に生じる雑音を抑制することができるようにすることにある。
本発明の第1の観点に従う話速変換装置は、入力される音声信号の再生速度を、所望の速度に設定するための再生速度設定手段と、人の声の周波数範囲をカバーし、且つ帯域内を分割するように、各通過周波数帯域を設定したバンドパスフィルタを複数用意し、これらの各バンドパスフィルタを用いて高調波成分を抑圧した基本周波数信号を求める高調波成分抑圧手段と、前記基本周波数信号の波形を基に前記音声信号の実波形の周期を検出する実波形周期検出手段と、前記再生速度設定手段により設定された再生速度に制御すべく、前記実波形周期検出手段における検出で得られる基本周波数に応じた周期で、前記音声信号の実波形を対象に波形処理することにより話速変換する話速変換手段と、を備える話速変換装置であって、前記高調波成分抑圧手段には、前記音声信号の一定区間毎に最も出力が大きい周波数帯域の出力レベルを基準として設定変更される閾値と、前記各バンドパスフィルタからの一定区間毎の平均出力値とを比較することで、振幅が一定量以上であり、かつ低い周波数帯域を重視するようフィルタを選択するための出力を生成する出力振幅比較手段を出力振幅比較手段を具備し、前記話速変換手段では、前記実波形周期検出手段が示す周期情報の位置で波形の接続処理を実施する。
本発明の第1の観点に係る好適な実施形態では、上記実波形周期検出手段が、上記基本周波数信号の波形のピーク位置若しくはその位置近傍を順次検出すると共に、検出される順位が連続しているピーク位置同士若しくはそのピーク位置近傍同士の間隔を検出する実波形周期検出手段である。
上記とは別の実施形態では、上記実波形周期検出手段が、上記基本周波数信号の波形のゼロクロス位置若しくはその位置近傍を順次検出すると共に、検出される順位が連続しているゼロクロス位置若しくはそのゼロクロス位置近傍同士を検出する実波形周期検出手段である。
また、上記とは別の実施形態では、前記話速変換手段が、前記音声信号の再生を、前記再生速度設定手段により設定された再生速度に制御すべく、前記実波形周期検出手段が検出したピーク位置若しくはその位置近傍間の間隔で、且つ、そのピーク位置若しくはその位置近傍毎に前記音声信号の実波形における時間軸上の一致点を処理位置として、前記音声信号の実波形を対象に波形処理することで話速変換処理をする。
また、上記とは別の実施形態では、前記出力振幅比較手段の後段には、当該出力振幅比較手段の出力を基に、各バンドパスフィルタからの出力のうち、いずれか1つのみ選択し出力するフィルタ出力切換手段を備えている。
また、上記とは別の実施形態では、前記話速変換手段では、前記音声信号の再生を、前記再生速度設定手段により設定された再生速度に制御すべく、前記実波形周期検出手段が検出したピーク位置若しくはその位置近傍間の間隔で、且つ、そのピーク位置若しくはその位置近傍毎に前記音声信号の実波形における時間軸上の一致点を処理位置として、前記音声信号の読み飛ばし処理又は繰り返し処理を行うことにより、前記音声信号の実波形を対象に話速変換処理をする。
本発明の第2の観点に従う話速変換方法は、入力される音声信号の再生速度を、所望の速度に設定するためのステップと、人の声の周波数範囲をカバーし、且つ帯域内を分割するように、各通過周波数帯域を設定したバンドパスフィルタを複数用意し、これらの各バンドパスフィルタを用いて高調波成分を抑圧した基本周波数信号を求めるステップと、前記基本周波数信号の波形を基に前記音声信号の実波形の周期を検出するステップと、前記再生速度設定のステップにより設定された再生速度に制御すべく、前記実波形周期検出ステップにおける検出で得られる基本周波数に応じた周期で、前記音声信号の実波形を対象に波形処理することにより話速変換するステップと、を備える話速変換方法であって、前記高調波成分抑圧ステップでは、前記音声信号の一定区間毎に最も出力が大きい周波数帯域の出力レベルを基準として設定変更される閾値と、前記各バンドパスフィルタからの一定区間毎の平均出力値とを比較することで、振幅が一定量以上であり、かつ低い周波数帯域を重視するようフィルタを選択するための出力を生成するステップと、前記話速変換ステップでは、前記前記実波形周期検出手段が示す周期情報の位置で波形の接続処理を実施するステップを有する。
本発明によれば、話速変換装置において、人の声を話速変換する際に、人の声の音程(基本周波数)を検出し、音程より決まる周期を基本単位として音声データ(音声信号の実波形)を再生処理することで、周期性を保ちつつ話速を変化させることができ、音声品質の劣化やノイズの発生を抑えることを達成できる。
以下、本発明の実施の形態を、図面により詳細に説明する。
図1は、本発明の一実施形態に係る話速変換装置の内部構成を示す機能ブロック図である。
上記話速変換装置は、図1に示すように、話速倍率設定部3と、音声データ一時保存用記憶部5と、周期情報一時保存用記憶部7と、音声特徴検出部9と、話速制御部11と、音声データ出力部13と、を含む。
音声特徴検出部9は、バンドパスフィルタ(以下、「BPF」と表記する)15、BPF17、BPF19、BPF21と、出力振幅比較部23と、バンドパスフィルタ出力切換部25と、ピッチ周期検出部27と、を備える。
これらの各部において、音声データ入力部1には、話速変換対象とするPCMデータ(PCM:Pulse Code Modulation)を入力する。PCMデータが入力された音声データ入力部1は、PCM データを音声データ一時保存用記憶部5、およびBPF15、BPF17、BPF19、BPF21へと出力する。
音声データ一時保存用記憶部5は、音声データを話速変換処理するために設けたもので、入力した音声データを一時的に記憶し、この一時的に記憶した音声データを、話速制御部11の制御下で話速変換処理に適した音声データに変換して音声データ出力部13へと出力する。
BPF15、BPF17、BPF19、BPF21は、人の声の周波数範囲をカバーし、かつ帯域内を分割するように各通過周波数帯域を設定する。
出力振幅比較部23は、BPF15、BPF17、BPF19、BPF21からの出力を一定区間毎に比較し、最も出力が大きい周波数帯域の出力レベルを基準として設定変更される閾値と、BPF15、BPF17、BPF19、BPF21からの一定区間毎の平均出力値とを比較することで、振幅が一定量以上であり、かつ低い周波数帯域を重視するようフィルタを選択するための出力を生成する。
バンドパスフィルタ出力切換部25は、出力振幅比較部23の後段に設けられ、この出力振幅比較部23の出力を基に、BPF15、BPF17、BPF19、BPF21の出力のうち、いずれか1つのみを選択し、出力する。
ピッチ周期検出部27は、バンドパスフィルタ出力切換部25からの出力を基に音声信号の周期を求め、その結果を出力する。
周期情報一時保存用記憶部7は、ピッチ周期検出部27で検出した周期情報を格納する。
話速制御部11は、予め話速倍率設定部3で設定した倍率値に応じて、音声データ一時保存用記憶部5に格納した音声データを周期情報一時保存用記憶部7の情報を基に、音声信号の周期を単位として間引き/挿入する処理を行い、その結果を音声データ一時保存用記憶部5に出力し、その記憶内容を更新する。こうして得られる話速変換処理結果を音声データ一時保存用記憶部5から音声データ出力部13を経由して出力させる制御を行う。
前述した各部を備えた構成において、音声特徴検出部9について詳述する。この音声特徴検出部9には、人の声の音程により決まる周期(基本周期)を精度良く検出するため、BPF15、BPF17、BPF19、BPF21の4つからなる帯域フィルタを用意する。それぞれのフィルタの通過帯域は、話速変換対象とする音声の音程範囲をカバーし、その音程範囲を分割するように決定する。ここでは、例えば図2に利得A−周波数f〔Hz〕特性で示すように、フィルタの通過帯域での利得Aが1.0となる関係でBPF15のフィルタの通過帯域は100〜200〔Hz〕、BPF17のフィルタの通過帯域は200〜300〔Hz〕、BPF19のフィルタの通過帯域は300〜400〔Hz〕、BPF21の通過帯域は400〜500〔Hz〕の如くに定める。
図2に示す関係にあるBPF15、BPF17、BPF19、BPF21の出力を、出力振幅比較部23に入力する。出力振幅比較部23は、BPF15、BPF17、BPF19、BPF21からの出力を一定区間毎に比較し、最も出力が大きい周波数帯域の出力レベルを基準として設定変更される閾値と、BPF15、BPF17、BPF19、BPF21からの一定区間毎の平均出力値とを比較することで、振幅が一定量以上であり、かつ低い周波数帯域を重視するようフィルタを選択するための出力を生成する。
この出力振幅比較部23の出力を基に、バンドパスフィルタ出力切換部25は、出力振幅比較部23の出力のうち、何れか1つのみ選択し出力することになる。これによって、人の声の基本周波数成分を含み、かつその周波数の高調波成分を抑圧した基本周波数信号(音声波形)を得ることができる。
また、上記した関係でバンドパスフィルタ出力切換部25は、出力振幅比較部23の出力を基に、BPF15、BPF17、BPF19、BPF21の出力のうち、いずれか1つのみを選択する繰り返しがなされる。このバンドパスフィルタ出力切換部25の出力は、図3及び図4を用いて以下説明するように、人の声の基本周波数成分を含み、かつその周波数の高調波成分を抑圧した音声波形となり、ほぼ単一の正弦波となる。
図3及び図4は、図1に記載の音声特徴検出部9において行われる入力音声データの音声特徴検出処理のプロセスに係わる信号波形図である。音声データ入力部1からの音声信号がBPF15、BPF17、BPF19、BPF21へと図3に示す波形のように入力されると、バンドパスフィルタ出力切換部25の出力は、図4に示すようにほぼ単一の正弦波となる。
このため、図4に表されているように、バンドパスフィルタ出力切換部25の出力を基に、波形のピーク位置を求め、隣り合うピーク位置2点間の距離(時間)から、その2点間での周期Tを求めることができ、この周期Tを求める処理がピッチ周期検出部(実波形周期検出手段)27において達成される。従って、ピッチ周期検出部27にて音声信号の周期情報を得るための精度が著しく向上されたものとなる。
このようにピッチ周期検出部27において周期情報を求める際、ピッチ周期検出部27にてバンドパスフィルタ出力切換部25の出力のピーク位置を検出することで、次に詳述する話速制御部11で音声データを間引く際の波形接合点を、入力音声のピーク位置近傍にすることができる。
また、入力音声信号が無声音(さ行の子音など)の場合、通過帯域を400〜500〔Hz〕としたBPF21の通過帯域の最高周波数を超える成分が主体となるため、どのBPFも出力値はほぼ0となる。また、入力音声信号が無音の場合についても、どのBPFも出力値はほぼ0となる。これらの場合、ピッチ周期検出部27は周期性を検出しないことになる。
こうして得られるピッチ周期検出部27からの出力は、周期情報一時保存用記憶部7へと順次入力されて、話速制御部11で用いる周期情報として更新記憶される。
話速制御部11は、音声信号の再生を速度倍率設定部3により設定された再生速度に制御すべく、周期情報一時保存用記憶部7に記憶したバンドパスフィルタ出力切換部25の出力におけるピッチ周期検出部27が検出したピーク位置2点間の間隔で、且つ、そのピーク位置毎に上記音声信号の実波形における時間軸上の一致点を処理位置として、基本周波数の周期毎に上記音声信号の読み飛ばし処理又は繰り返し処理を行うことにより、音程より決まる周期を基本単位として音声データ(上記音声信号の実波形)を間引き/挿入し、話速変換を実現する。この話速変換に際しては、上記した如く音声信号の周期情報を高精度に得ている条件でなされるので、変換時に生じる雑音を効果的に抑制することが可能となる。
図5は、入力した音声信号を間引き処理し、話速を高速にする場合における一処理例を示す。ここでは、図3に示した波形の音声信号の話速を2倍に高速化している。
周期情報一時保存用記憶部7に記憶した位置情報を基に、話速制御部11にて音声の基本周期単位で1つおきに間引くことで、周期の数を1/2倍とし、2倍の速度の話速を実現している。但し、周期の長さが一定時間以上の場合は、無音区間または無声音などの周波数の高い成分による区間であるため、周期性は持たないものとし、あらかじめ定めた一定周期毎に挿入する処理を行う。
また、ピッチ周期検出部27において周期情報を求める際、バンドパスフィルタ出力切換部25の出力のピーク位置を検出しているので、音声データを間引く際の波形接合点を、音声信号波形のピーク位置近傍にすることができる。この場合、音声信号波形のピーク位置は、単位時間当たりの変化量が小さく音声データを接合する際、接合点での不連続性が小さく抑えられ、その結果ノイズの発生を抑えることができる利点がある。もちろん、本実施形態ではバンドパスフィルタ出力切換部25の出力のピーク位置をそのまま音声信号に適用し、周期性を最も重視して波形編集を行っているため、必ずしも入力音声のピーク位置にて波形編集を行っているわけではないが、音声信号波形のピーク位置に優先度を与えるための手段としてこのような手法をとった。
図6は、入力した音声信号を挿入処理し、話速を低速にする場合における一処理例を示す。ここでは、図3に示した波形の音声信号の話速を1/2倍に低速化している。
周期情報一時保存用記憶部7に記憶した位置情報を基に、話速制御部11にて音声の基本周期単位で1つおきに間引くことで、周期の数を2倍とし、1/2倍の速度の話速を実現している。但し、周期の長さが一定時間以上の場合は、無音区間または無声音などの周波数の高い成分による区間であるため、周期性は持たないものとし、あらかじめ定めた一定周期毎に挿入する処理を行う。
本方式では音声信号を間引き/挿入する処理の際、あくまで音声信号の基本周波数により決まる基本周期を重視し、その処理区間を決定しているため、接合点にて波形が不連続となり、瞬間的に値が大きく変化してノイズ発生原因となることが考えられる。このため、接合処理の際に音声データが滑らかに連続的につなげる工夫として、クロスフェード処理が必要となる。
図7(a)、(b)、(c)は、図1に記載の話速制御部11において行われる、クロスフェード処理の過程を模式的に示した図である。ここでは、話速を高速化する際に周期Bの音声区間を間引き、周期Aの音声区間と周期Cの音声区間とを接合する例を挙げた。同図(a)に示すように接合点の前後に一定の遷移区間を設け、同図(b)に示すように接合点の前の音声信号は一定の割合で振幅を減衰し、接合点の後の音声信号は一定の割合で振幅0から元の振幅まで増幅した上で同図(c)に示すように両者を合成することにより、接合点での急激な変化が無いようにしている。
既に説明した内容から明らかなように、入力音声データの話速を0.5倍速(即ち、1/2倍速)に変換するということは、同一ピッチ周期について2回繰り返し処理を行うことである。図3における周期A、周期B、及び周期Cを夫々2回繰り返す処理を行うことにより、図6に示すような信号波形が、話速制御部11の制御下で音声データ一時保存用記憶部5、及び音声データ出力部13を通じて話速変換装置から外部へ出力される。
また、入力音声データの話速を2倍速に変換(所謂早口再生)するということは、或るピッチ周期を読み飛ばす処理を行うことである。図3における周期A、周期B、周期C、及び周期Dのうちの、周期A、及び周期Cの読み飛ばし処理が行われる。この読み飛ばし処理(周期A、及び周期Cの読み飛ばし処理)が行われることにより、図7に示すような信号波形、即ち、周期A、及び周期Cの読み飛ばし処理が行われた後の音声データが、話速制御部11から音声データ一時保存用記憶部5、及び音声データ出力部13を通じて話速変換装置より外部へ出力される。
以上説明したように、本発明の一実施形態によれば、入力された音声信号をフィルタリングすることにより、該入力音声信号中から高周波成分を除去し、該除去後の入力音声信号におけるピッチ周期を検出し、該ピッチ周期に対応する時間軸上の区間を、フィルタリング前の入力音声信号の任意のピーク位置に適用して、フィルタリング前の入力音声信号の周期性を取りこぼさないように、且つ、上記検出したピッチ周期と次の周期とを接続する位置にあるピークにおいてズレが生じないようにして信号処理を繰り返すようにした。そのため、入力音声信号を話速変換する際に、該入力音声信号のピークレベル付近で、不連続状態になっているピークレベル同士を接合することにより、該接合点における単位時間当たりの該入力音声信号の変位量を小さな値に抑制することができるから、該入力音声信号変換後の音声品質を変換前のそれと略同一に維持することができ、且つ、変換時に生じる雑音を抑制することが可能になる。
なお、仮に図1で示したピッチ周期検出部27において、入力音声信号の特性により、該入力音声信号中にピッチ周期の検出が困難な部分が生じた場合には、該部分がF、S、Hなどで表される子音であるのか、或いは、話していない(音声を発していない)無音部分の何れかであるとの判別ができる。そのため、言葉と言葉の間の速度変換や、言葉そのものの速度変換を、個別に行うことができる。
上述した内容は、予め格納されている音声データを読み出して、該音声データを再生するのと同時に話速変換をも行う基本仕様に係わるものである。しかし、本発明の技術思想は、事前にピーク処理を施して得られたピーク位置を示すデータと、音声データとを予め格納しておき、話速変換処理を行うに際して上記音声データを、上記ピーク位置を示すデータと共に読み出して該処理を行う仕様にも適用が可能である。このような仕様では、話速変換処理そのものは、非常に軽度な処理になる。
この仕様の例としては、話速変換機能を有する携帯型語学学習機を挙げることができる。上記語学学習機では、音声データ等は予めメモリカード等に格納されていて、速度変換(話速変換)が行われるポイント(既述の検出済みピーク点)を手掛かりとして、検出されたピッチ周期毎に上述した繰り返し再生処理、或いは読み飛ばし再生処理を行うことで、話速変換が可能である。メモリカード等に格納されるデータについては、事前にパーソナルコンピュータ(パソコン)等により前処理を行っておいて、速度変換(話速変換)を行うポイント(既述の検出済みピーク点)を、音声データに含めて準備しておくことで、音声データの再生と同時に速度変換(話速変換)を行うポイントの検出処理を省略することができる。
このような仕様に係る携帯型語学学習機では、必要とする話速変換処理動作の負荷が軽度であるので、製品単価を低価格に設定することができ、また、消費電力を低減することも可能になる。
更に、本発明の技術思想は、音声データ等が予め格納されていない仕様のもの、即ち、リアルタイムで、音声信号のピッチ周期検出、及び話速変換処理を行うものにも、適用が可能である。
この仕様の例としては、インターフォン、TV(テレビジョン受像機)、携帯電話機等を挙げることができる。
インターフォン、TV、携帯電話機等の機器類において、例えばユーザ等が実際の話速の2倍の時間をかけて上記機器類から出力される音声情報を聴き取ろうとする場合には、話速変換を行おうとする最大話長の1/2の長さのデータが格納可能なRAM等のメモリに、該データを随時保存しておいて、話速変換と同時に音声データの再生が行われる。この場合、上記メモリの最大記憶容量を超えて連続する音声データが入力されると、話速変換後の音声は飛び越し再生されるため、音声としての連続性を失ってしまう。そこで、このような飛び越し再生の対策として、話の合間、即ち、無音を検出した場合に、上記メモリに保存されている音声データのうちの、再生を完了した部分に、保存しきれない音声データの部分を上書きすることで、飛び越し再生が行われるまでの時間を引き延ばすことが可能になる。
以上、本発明の好適な実施形態を説明したが、これは本発明の説明のための例示であって、本発明の範囲をこの実施形態にのみ限定する趣旨ではない。本発明は、他の種々の形態でも実施することが可能であり、次に、これらの他の各実施形態について説明する。
本発明の好適な他の各実施形態における話速変換装置の内部構成は、機能ブロック図で示すと図1と同じになるので、図1を援用して説明する。バンドパスフィルタ出力切換部25では、出力振幅比較部23の出力を基に、BPF15、BPF17、BPF19、BPF21の出力のうち、いずれか1つのみを選択する繰り返しがなされる。バンドパスフィルタ出力切換部25の出力は、人の声の基本周波数成分を含み、かつその周波数の高調波成分を抑圧した音声波形となり、ほぼ単一の正弦波となる。
本発明の好適な他の一実施形態では、図8(a)、(b)にそれぞれ示す関係で、ピッチ周期検出部27において周期情報を求める。同図(a)は、ピッチ周期検出部27において周期情報を求める際、バンドパスフィルタ出力切換部25の出力のピーク位置よりも進み位相の近傍位置を処理位置として検出し、同図(b)は、ピッチ周期検出部27において周期情報を求める際、バンドパスフィルタ出力切換部25の出力のピーク位置よりも遅れ位相の近傍位置を処理位置として検出する。そして、その処理位置2点間での周期Tを求める。話速制御部11は、予め話速倍率設定部3で設定した倍率値に応じて、音声データ一時保存用記憶部5に格納した音声データを周期情報一時保存用記憶部7の情報を基に、音声信号の周期Tを単位として間引き/挿入する処理を行い、その間引き/挿入の処理結果を音声データ一時保存用記憶部5から音声データ出力部13を経由して出力させる制御を行う。このようにしても、音声データを間引く際の波形接合点を、音声信号波形のピーク位置近傍にすることができるので、音声信号波形のピーク位置は、単位時間当たりの変化量が小さく音声データを接合する際、接合点での不連続性が小さく抑えられ、その結果ノイズの発生を抑えることができる利点がある。なお、話速制御部11おいて周期Tを求めるための処理位置についての進み或いは遅れ処理を実施してもよい。
本発明の好適な別の他の一実施形態では、図9に示す関係で、ピッチ周期検出部27において周期情報を求める。同図は、ピッチ周期検出部27において周期情報を求める際、バンドパスフィルタ出力切換部25の出力における処理位置として基本周波数信号の波形のゼロクロス位置を検出し、そのゼロクロス位置2点間での周期Tを求める。また、ピッチ周期検出部27において周期情報を求める際、必要に応じて図8で説明した関係でバンドパスフィルタ出力切換部25の出力のゼロクロス位置よりも進み位相の近傍位置を処理位置として検出し、または、バンドパスフィルタ出力切換部25の出力のゼロクロス位置よりも遅れ位相の近傍位置を処理位置として検出することができる。これらの各実施形態においても、話速制御部11は、予め話速倍率設定部3で設定した倍率値に応じて、音声データ一時保存用記憶部5に格納した音声データを周期情報一時保存用記憶部7の情報を基に、音声信号の周期Tを単位として間引き/挿入する処理を行い、その間引き/挿入の処理結果を音声データ一時保存用記憶部5から音声データ出力部13を経由して出力させる制御を行う。なお、話速制御部11おいて周期Tを求めるための処理位置についての進み或いは遅れ処理を実施してもよい。
本発明の一実施形態に係る話速変換装置の内部構成を示す機能ブロック図。 バンドパスフィルタを複数用意した状況を説明するために用いた利得一周波数特性を示す図。 図1に記載した音声データ入力部からの出力波形の一例を示す信号波形図。 図1に記載したバンドパスフィルタ出力切換部からの出力波形の一例を示す信号波形図。 図1に記載した話速制御部において行われる、入力音声データの話速変換処理のプロセスに係わる信号波形図。 図1に記載した話速制御部において行われる、入力音声データの話速変換処理のプロセスに係わる信号波形図。 図1に記載した話速制御部11において行われる、クロスフェード処理を模式的に示した図。 本発明の他の一実施形態に係る話速変換装置を説明するために用いたバンドパスフィルタ出力切換部からの出力波形の一例を示す信号波形図。 本発明の他の一実施形態に係る話速変換装置を説明するために用いたバンドパスフィルタ出力切換部からの出力波形の一例を示す信号波形図。
符号の説明
1 音声データ入力部
3 話速倍率設定部
5 音声データ一時保存用記憶部
7 周期情報一時保存用記憶部
9 音声特徴検出部
11 話速制御部
13 音声データ出力部
15 バンドパスフィルタ(BPF)
17 バンドパスフィルタ(BPF)
19 バンドパスフィルタ(BPF)
21 バンドパスフィルタ(BPF)
23 出力振幅比較部
25 バンドパスフィルタ出力切換部
27 ピッチ周期検出部

Claims (10)

  1. 入力される音声信号の再生速度を、所望の速度に変換して出力する話速変換装置において、
    前記音声信号の再生速度を、所望の速度に設定するための再生速度設定手段と、
    前記音声信号の実波形を基に音声の基本周波数成分を含み、且つその周波数成分の高調波成分が抑圧されている基本周波数信号を求める高調波成分抑圧手段と、
    前記基本周波数信号の波形を基に前記音声信号の実波形の周期を検出する実波形周期検出手段と、
    前記音声信号の再生を、前記再生速度設定手段により設定された再生速度に制御すべく、前記実波形周期検出手段が検出した周期で前記音声信号の実波形を対象に音声信号の再生処理を行う音声信号再生処理手段と、
    を備える話速変換装置。
  2. 請求項1記載の話速変換装置において、
    前記実波形周期検出手段が、前記基本周波数信号の波形のピーク位置若しくはその位置近傍を順次検出すると共に、検出される順位が連続しているピーク位置同士若しくはそのピーク位置近傍同士の間隔を検出する実波形周期検出手段である話速変換装置。
  3. 請求項1記載の話速変換装置において、
    前記実波形周期検出手段が、前記基本周波数信号の波形のゼロクロス位置若しくはその位置近傍を順次検出すると共に、検出される順位が連続しているゼロクロス位置若しくはそのゼロクロス位置近傍同士を検出する実波形周期検出手段である話速変換装置。
  4. 請求項2記載の話速変換装置において、
    前記音声信号再生処理手段が、前記音声信号の再生を、前記再生速度設定手段により設定された再生速度に制御すべく、前記実波形周期検出手段が検出したピーク位置若しくはその位置近傍間の間隔で、且つ、そのピーク位置若しくはその位置近傍毎に前記音声信号の実波形における時間軸上の一致点を処理位置として、前記音声信号の実波形を対象に音声信号の再生処理を行う音声信号再生処理手段である話速変換装置。
  5. 請求項1乃至請求項4の何れか1項記載の話速変換装置において、
    前記高調波成分抑圧手段は、人の声の周波数範囲をカバーし、且つ帯域内を分割するように、各通過周波数帯域を設定したバンドパスフィルタを複数用意し、これらの各バンドパスフィルタを用いて前記高調波成分を抑圧した信号を求めることを特徴とする話速変換装置。
  6. 請求項5記載の話速変換装置において、
    前記高調波成分抑圧手段には、各バンドパスフィルタからの出力を比較し、振幅が一定量以上あり、かつ低い周波数帯域を重視するようフィルタを選択するための出力を生成する出力振幅比較手段を用いている話速変換装置。
  7. 請求項5記載の話速変換装置において、前記出力振幅比較手段の後段には、当該出力振幅比較手段の出力を基に、各バンドパスフィルタからの出力のうち、いずれか1つのみ選択し出力するフィルタ出力切換手段を備えている話速変換装置。
  8. 請求項4乃至請求項7の何れか1項記載の話速変換装置において、
    前記音声信号再生処理手段では、前記音声信号の再生を、前記再生速度設定手段により設定された再生速度に制御すべく、前記実波形周期検出手段が検出したピーク位置若しくはその位置近傍間の間隔で、且つ、そのピーク位置若しくはその位置近傍毎に前記音声信号の実波形における時間軸上の一致点を処理位置として、前記音声信号の読み飛ばし処理又は繰り返し処理を行うことにより、前記音声信号の実波形を対象に音声信号の再生処理をする話速変換装置。
  9. 請求項4乃至請求項8の何れか1項記載の話速変換装置において、
    前記音声信号再生処理手段により、前記音声信号の実波形を対象に音声信号の再生処理をする際、その対象となるピーク位置若しくはその位置近傍間の間隔における前記接合しようとする側のピーク位置若しくはその位置近傍と対になっている各ピーク位置若しくはその各位置近傍において、該ピーク位置若しくはその位置近傍間の間隔に続く別のピーク位置若しくはその位置近傍間の間隔における各信号波形が互いに不連続にならないような増幅処理を行う話速変換装置。
  10. 入力される音声信号の再生速度を、所望の速度に変換して出力する話速変換方法において、
    前記音声信号の再生速度を、所望の速度に設定するためのステップと、
    前記音声信号の実波形を基に音声の基本周波数成分を含み、且つその周波数成分の高調波成分が抑圧されている基本周波数信号を求めるステップと、
    前記基本周波数信号の波形のピーク位置若しくはその位置近傍を順次検出すると共に、検出される順位が連続しているピーク位置同士若しくはそのピーク位置近傍同士の間隔を検出する実波形周期検出ステップと、
    前記音声信号を再生する際、前記再生速度設定により設定された再生速度に制御すべく、前記実波形周期検出ステップにより検出したピーク位置若しくはその位置近傍間の間隔で、且つ、そのピーク位置若しくはその位置近傍毎に前記音声信号の実波形における時間軸上の一致点を処理位置として、前記音声信号の読み飛ばし処理又は繰り返し処理を行うことにより、前記音声信号の実波形を対象に音声信号の再生処理を行うステップと、
    を備える話速変換方法。
JP2006218939A 2006-07-14 2006-07-14 話速変換装置及び話速変換方法 Pending JP2008020870A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006218939A JP2008020870A (ja) 2006-07-14 2006-07-14 話速変換装置及び話速変換方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006218939A JP2008020870A (ja) 2006-07-14 2006-07-14 話速変換装置及び話速変換方法

Publications (1)

Publication Number Publication Date
JP2008020870A true JP2008020870A (ja) 2008-01-31

Family

ID=39076811

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006218939A Pending JP2008020870A (ja) 2006-07-14 2006-07-14 話速変換装置及び話速変換方法

Country Status (1)

Country Link
JP (1) JP2008020870A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014115696A1 (ja) * 2013-01-28 2014-07-31 シナノケンシ株式会社 音声データ再生速度変換方法および音声データ再生速度変換装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014115696A1 (ja) * 2013-01-28 2014-07-31 シナノケンシ株式会社 音声データ再生速度変換方法および音声データ再生速度変換装置
US9361905B2 (en) 2013-01-28 2016-06-07 Shinano Kenshi Kabushiki Kaisha Voice data playback speed conversion method and voice data playback speed conversion device

Similar Documents

Publication Publication Date Title
CA2253749C (en) Method and device for instantly changing the speed of speech
US6865537B2 (en) Method and apparatus for reproducing audio information
JP3439307B2 (ja) 発声速度変換装置
JP3576800B2 (ja) 音声分析方法、及びプログラム記録媒体
JP2008020870A (ja) 話速変換装置及び話速変換方法
JPS5982608A (ja) 音声の再生速度制御方式
JP2009075280A (ja) コンテンツ再生装置
JP3266124B2 (ja) アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置
JP4311541B2 (ja) オーディオ信号圧縮装置
JP6313619B2 (ja) 音声信号処理装置及びプログラム
JP4212253B2 (ja) 話速変換装置
JP2007094004A (ja) 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置
JP2001222300A (ja) 音声再生装置および記録媒体
JP2000099097A (ja) 信号再生装置及び方法、音声信号再生装置、並びに、音声信号の速度変換方法
JPH1078791A (ja) ピッチ変換器
JP2008262140A (ja) 音程変換装置及び音程変換方法
WO2014115696A1 (ja) 音声データ再生速度変換方法および音声データ再生速度変換装置
JP5326796B2 (ja) 再生装置
KR100359988B1 (ko) 실시간 화속 변환 장치
JP2008145841A (ja) 再生装置、再生方法、信号処理装置、信号処理方法
JP3639461B2 (ja) 音声信号のピッチ周期抽出方法、及び音声信号のピッチ周期抽出装置、音声信号の時間軸圧縮装置、音声信号の時間軸伸長装置、音声信号の時間軸圧縮伸長装置
JPH06337696A (ja) 速度変換制御装置と速度変換制御方法
JPH08292796A (ja) 再生装置
JP2003216187A (ja) 再生装置
CN112309419A (zh) 多路音频的降噪、输出方法及其系统

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080325