JP2867744B2 - 音声再生装置 - Google Patents
音声再生装置Info
- Publication number
- JP2867744B2 JP2867744B2 JP3144454A JP14445491A JP2867744B2 JP 2867744 B2 JP2867744 B2 JP 2867744B2 JP 3144454 A JP3144454 A JP 3144454A JP 14445491 A JP14445491 A JP 14445491A JP 2867744 B2 JP2867744 B2 JP 2867744B2
- Authority
- JP
- Japan
- Prior art keywords
- inference
- section
- speed
- speed conversion
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
Description
【0001】
【産業上の利用分野】本発明は記録された会話音声信号
などの再生速度を通常速度以外に変更する音声再生装置
に関するものである。
などの再生速度を通常速度以外に変更する音声再生装置
に関するものである。
【0002】
【従来の技術】従来より、記録した音声信号の再生速度
を可変する機能をもつ様々な装置が提案されている。最
も簡単な例はアナログテープレコーダのキュー(早送り
再生)、レビュー(巻戻し再生)であるが、これらの高
速再生音声は通常速度の音声と比べると音程・速度の両
方が変化しているため、内容を聴取するのはほとんど不
可能である。また、高速/低速再生時にも音程が変化し
ないように補償する速度変換処理を行なう音声再生装置
も提案されている。 以下、速度変換処理を行なう音声
再生装置について、図面を参照しながら説明を行なう。
を可変する機能をもつ様々な装置が提案されている。最
も簡単な例はアナログテープレコーダのキュー(早送り
再生)、レビュー(巻戻し再生)であるが、これらの高
速再生音声は通常速度の音声と比べると音程・速度の両
方が変化しているため、内容を聴取するのはほとんど不
可能である。また、高速/低速再生時にも音程が変化し
ないように補償する速度変換処理を行なう音声再生装置
も提案されている。 以下、速度変換処理を行なう音声
再生装置について、図面を参照しながら説明を行なう。
【0003】(図4)は従来の音声再生装置の構成を示
すものである。(図4)において、101は速度変換
器、102は切り換え器、103は速度制御器である。
すものである。(図4)において、101は速度変換
器、102は切り換え器、103は速度制御器である。
【0004】以上のように構成された音声再生装置につ
いて、以下その動作について説明する。まず、入力され
た音声信号は速度変換器101と切り替え器102に入
力される。速度変換器101は音程を通常再生時に保っ
たまま速度のみを変更する処理を行なうものである。速
度変換処理については例えば『ディジタル音声処理』古
井貞煕著、東海大学出版会のTDHSアルゴリズムの項
目を参照されたい。切り換え器102は入力されたその
ままの音声信号と、速度変換器101の出力信号とを速
度制御器103の制御により切り換える。速度制御器1
03は設定された再生速度に応じて速度変換器101の
パラメータを制御し、切り換え器102の入力を選択す
る。この構成で、通常再生時には入力された音声信号は
そのまま切り換え器102を通じて出力される。一方、
再生速度を変更して聴取する場合には、速度制御器10
3で制御された速度変換器101によって速度変換され
た音声が切り換え器102を通じて出力される。
いて、以下その動作について説明する。まず、入力され
た音声信号は速度変換器101と切り替え器102に入
力される。速度変換器101は音程を通常再生時に保っ
たまま速度のみを変更する処理を行なうものである。速
度変換処理については例えば『ディジタル音声処理』古
井貞煕著、東海大学出版会のTDHSアルゴリズムの項
目を参照されたい。切り換え器102は入力されたその
ままの音声信号と、速度変換器101の出力信号とを速
度制御器103の制御により切り換える。速度制御器1
03は設定された再生速度に応じて速度変換器101の
パラメータを制御し、切り換え器102の入力を選択す
る。この構成で、通常再生時には入力された音声信号は
そのまま切り換え器102を通じて出力される。一方、
再生速度を変更して聴取する場合には、速度制御器10
3で制御された速度変換器101によって速度変換され
た音声が切り換え器102を通じて出力される。
【0005】
【発明が解決しようとする課題】しかし上記の構成では
入力信号の内容如何によらずに、一様に時間軸伸縮を行
なう速度変換処理を行なって再生速度を変化させてい
る。これにより、再生音の音程は保存されてはいる。し
かしながら、再生速度を通常速度から大きく変更する場
合には、人間の発声法とは異なった不自然な再生音にな
るという課題を有している。
入力信号の内容如何によらずに、一様に時間軸伸縮を行
なう速度変換処理を行なって再生速度を変化させてい
る。これにより、再生音の音程は保存されてはいる。し
かしながら、再生速度を通常速度から大きく変更する場
合には、人間の発声法とは異なった不自然な再生音にな
るという課題を有している。
【0006】本発明は上記の課題を解決するもので、再
生速度を変更してもできるだけ人間の発声法に近い状態
で自然に聞き取れ、しかも了解性も改善できる再生音を
得るための音声再生装置を提供することを目的とする。
生速度を変更してもできるだけ人間の発声法に近い状態
で自然に聞き取れ、しかも了解性も改善できる再生音を
得るための音声再生装置を提供することを目的とする。
【0007】
【課題を解決するための手段】この目的を達成するため
に本発明の音声再生装置は、有無判定器、音声時間率検
出器、推論器、切換手段、無音区間処理器、速度変換処
理器を有した構成で、有無判定器は、入力信号が音声区
間か無音区間であるかを判定し、音声時間率検出器は、
有無判定器の検出結果に基づいて、入力信号の所定の時
間長に対する音声区間の時間長の比である音声時間率を
検出し、推論器は、第1の推論手段と第2の推論手段か
らなり、第1の推論手段は、入力される再生速度の度合
に対応したメンバーシップ関数と音声時間率に基づいて
ファジー推論を行い、無音区間増減比を出力し、第2の
推論手段は、入力される再生速度の度合に対応したメン
バーシップ関数と音声時間率に基づいてファジー推論を
行い、速度変換比を出力し、切換手段は、無音区間の場
合には無音区間処理器に、有音区間の場合には速度変換
処理器に切換え、無音区間処理器は、無音区間増減比に
基づいて入力信号から所定時間長の無音の削除または付
加を行って出力し、速度変換処理器は、入力される速度
変換比に基づいて入力信号の継続時間長の圧縮または伸
長を行って出力することを特徴とする。
に本発明の音声再生装置は、有無判定器、音声時間率検
出器、推論器、切換手段、無音区間処理器、速度変換処
理器を有した構成で、有無判定器は、入力信号が音声区
間か無音区間であるかを判定し、音声時間率検出器は、
有無判定器の検出結果に基づいて、入力信号の所定の時
間長に対する音声区間の時間長の比である音声時間率を
検出し、推論器は、第1の推論手段と第2の推論手段か
らなり、第1の推論手段は、入力される再生速度の度合
に対応したメンバーシップ関数と音声時間率に基づいて
ファジー推論を行い、無音区間増減比を出力し、第2の
推論手段は、入力される再生速度の度合に対応したメン
バーシップ関数と音声時間率に基づいてファジー推論を
行い、速度変換比を出力し、切換手段は、無音区間の場
合には無音区間処理器に、有音区間の場合には速度変換
処理器に切換え、無音区間処理器は、無音区間増減比に
基づいて入力信号から所定時間長の無音の削除または付
加を行って出力し、速度変換処理器は、入力される速度
変換比に基づいて入力信号の継続時間長の圧縮または伸
長を行って出力することを特徴とする。
【0008】
【作用】この構成によって、音声時間率検出器の出力と
再生速度比とをファジー推論して無音区間増減比と速度
変換比とを決定している。これにより入力音声信号の特
徴を考慮して、早口な会話や遅口な会話をもう少し遅く
/早くといった再生速度の変更をより自然に行なうこと
が可能となる。そして、この無音区間の伸長と音声区間
の伸長をうまく組み合わせることで、人間が会話速度を
変更するときと同様の結果が得られるのである。
再生速度比とをファジー推論して無音区間増減比と速度
変換比とを決定している。これにより入力音声信号の特
徴を考慮して、早口な会話や遅口な会話をもう少し遅く
/早くといった再生速度の変更をより自然に行なうこと
が可能となる。そして、この無音区間の伸長と音声区間
の伸長をうまく組み合わせることで、人間が会話速度を
変更するときと同様の結果が得られるのである。
【0009】
【実施例】以下本発明の第1の実施例について、図面を
参照しながら説明する。
参照しながら説明する。
【0010】(図1)は本発明の第1の実施例における
フローチャートを示すものである。本実施例では入力さ
れる音声信号は、記録媒体にすでに録音がなされている
ものとする。基本的な考え方は、入力信号の無音区間に
対しては所定の時間長だけ無音を削除することで、ま
た、音声区間に対しては所定の速度変換比で継続時間長
を圧縮して音声信号の高速再生を可能とするものであ
る。また、音声はフレーム単位で音声/無音の判定と、
無音削除、速度変換の処理がなされるものとする。ここ
で、音声時間率とは次の(数1)で示すように、入力さ
れる信号において音声区間が占める時間長の比を表して
いる。
フローチャートを示すものである。本実施例では入力さ
れる音声信号は、記録媒体にすでに録音がなされている
ものとする。基本的な考え方は、入力信号の無音区間に
対しては所定の時間長だけ無音を削除することで、ま
た、音声区間に対しては所定の速度変換比で継続時間長
を圧縮して音声信号の高速再生を可能とするものであ
る。また、音声はフレーム単位で音声/無音の判定と、
無音削除、速度変換の処理がなされるものとする。ここ
で、音声時間率とは次の(数1)で示すように、入力さ
れる信号において音声区間が占める時間長の比を表して
いる。
【0011】
【数1】
【0012】また、速度変換比とは(数2)で示すよう
に、高速再生時には常時1より小さい値をとり、圧縮比
が大きいほど小さい値となる。
に、高速再生時には常時1より小さい値をとり、圧縮比
が大きいほど小さい値となる。
【0013】
【数2】
【0014】以下に、(図1)の説明を行なう。まず、
現在のフレームF0 の音声/無音判定を行なう。この判
定結果は以後Nフレーム分の処理が済むまで保持されて
いるものとする。そして、現在のフレーム以前のNフレ
ームについての音声/無音判定の結果を調べて、音声区
間と判定された時間長の全体に占める割合を示す音声時
間率VRを求める。これにより、F0 近傍におけるVR
が推定される。また、高速再生の度合とは、通常再生と
比較した再生速度の度合であり、ここでは「少し早
い」、と「かなり早い」の2つが設定可能であるとす
る。この値VRと設定されている高速再生の度合により
F0 に対する無音削除処理あるいは速度変換処理のパラ
メータを変更することを考える。一般にVRが大きいと
きは早口の会話であり、VRが小さいときは遅口の会話
であることが知られている(参考文献:「音声情報処理
の基礎」斉藤収三、中田和男共著、オーム社、第3
章)。
現在のフレームF0 の音声/無音判定を行なう。この判
定結果は以後Nフレーム分の処理が済むまで保持されて
いるものとする。そして、現在のフレーム以前のNフレ
ームについての音声/無音判定の結果を調べて、音声区
間と判定された時間長の全体に占める割合を示す音声時
間率VRを求める。これにより、F0 近傍におけるVR
が推定される。また、高速再生の度合とは、通常再生と
比較した再生速度の度合であり、ここでは「少し早
い」、と「かなり早い」の2つが設定可能であるとす
る。この値VRと設定されている高速再生の度合により
F0 に対する無音削除処理あるいは速度変換処理のパラ
メータを変更することを考える。一般にVRが大きいと
きは早口の会話であり、VRが小さいときは遅口の会話
であることが知られている(参考文献:「音声情報処理
の基礎」斉藤収三、中田和男共著、オーム社、第3
章)。
【0015】しかし、これらは発声者や会話状況によっ
て様々に状況が変わる。入力音声を分類したときの「早
口」,「普通」,「遅口」は、ファジー集合である。
「早口」な音声を「少し早く」したいときと、「遅口」
な音声を「少し早く」したいときとでは、早くする度合
が異なるため、実際の再生速度も違った値にするほうが
良い。つまり、無音削除処理あるいは速度変換処理のパ
ラメータを決定する際には、曖昧な情報処理が必要とい
える。したがって、VRと高速再生の度合とを入力とし
たファジー推論を行なうことで無音区間削除比SEと速
度変換比STを導出する。無音区間削除処理では、VR
が大きいときはF0 に対して短い削除をし、VRが小さ
いときはF0 に対して長い削除をする。一方、速度変換
処理では、VRが大きいときは速度変換比を大きくし
(1に近い値)、VRが小さいときには速度変換比を小
さく(0に近い値)する。以上のようなルールを基にS
EとSTを設定する。
て様々に状況が変わる。入力音声を分類したときの「早
口」,「普通」,「遅口」は、ファジー集合である。
「早口」な音声を「少し早く」したいときと、「遅口」
な音声を「少し早く」したいときとでは、早くする度合
が異なるため、実際の再生速度も違った値にするほうが
良い。つまり、無音削除処理あるいは速度変換処理のパ
ラメータを決定する際には、曖昧な情報処理が必要とい
える。したがって、VRと高速再生の度合とを入力とし
たファジー推論を行なうことで無音区間削除比SEと速
度変換比STを導出する。無音区間削除処理では、VR
が大きいときはF0 に対して短い削除をし、VRが小さ
いときはF0 に対して長い削除をする。一方、速度変換
処理では、VRが大きいときは速度変換比を大きくし
(1に近い値)、VRが小さいときには速度変換比を小
さく(0に近い値)する。以上のようなルールを基にS
EとSTを設定する。
【0016】次に、F0 が無音区間であるならば無音削
除をし、そうでなければ速度変換で時間圧縮を行なう。
このような処理を繰り返すことで高速再生を行なう。
除をし、そうでなければ速度変換で時間圧縮を行なう。
このような処理を繰り返すことで高速再生を行なう。
【0017】次にファジー推論を行なう推論の規則等に
ついて示す。(図5)にファジー推論を行なう際に必要
なメンバーシップ関数を示す。
ついて示す。(図5)にファジー推論を行なう際に必要
なメンバーシップ関数を示す。
【0018】(図5)において(a)はVRに対するメン
バーシップ関数、(b)はSEに対するメンバーシップ関
数、(c)はSTに対するメンバーシップ関数である。こ
れらの図に於て使用している記号の示す意味を以下に列
挙する。
バーシップ関数、(b)はSEに対するメンバーシップ関
数、(c)はSTに対するメンバーシップ関数である。こ
れらの図に於て使用している記号の示す意味を以下に列
挙する。
【0019】 音声時間率:VR PS:音声時間率が小さい(遅口) PM:音声時間率は中ぐらい(普通の会話速度) PB:音声時間率は大きい(早口) 無音区間削除比:SE PS:少しだけ削除する PM:やや削除する PB:かなり削除する 速度変換比:ST PS:少しだけ圧縮する PM:やや圧縮する PB:かなり圧縮する そして、(表1)に示す制御規則でSEおよびSTを推
論する。
論する。
【0020】
【表1】
【0021】以上のように本実施例によれば、無音区間
削除比と速度変換比とを音声時間率によってファジー推
論して再生速度の制御を行なっているため、より人間の
感覚に合った自然な高速再生ができる。
削除比と速度変換比とを音声時間率によってファジー推
論して再生速度の制御を行なっているため、より人間の
感覚に合った自然な高速再生ができる。
【0022】以下本発明の第2の実施例について、図面
を参照しながら説明する。(図2)は本発明の第2の実
施例におけるフローチャートを示すものである。本実施
例でも入力される音声信号は、記録媒体にすでに録音が
なされているものとする。基本的な考え方は、入力信号
の無音区間に対しては所定の時間長だけ無音を付加する
ことで、また、音声区間に対しては所定の速度変換比で
継続時間長を伸長して音声信号の低速再生を可能とする
ものである。また、音声はフレーム単位で音声/無音の
判定と、無音付加、速度変換の処理がなされるものとす
る。また(数2)で表わされる速度変換比は、低速再生
時には常時1より大きい値をとり、伸長比が大きいほど
大きい値となる。
を参照しながら説明する。(図2)は本発明の第2の実
施例におけるフローチャートを示すものである。本実施
例でも入力される音声信号は、記録媒体にすでに録音が
なされているものとする。基本的な考え方は、入力信号
の無音区間に対しては所定の時間長だけ無音を付加する
ことで、また、音声区間に対しては所定の速度変換比で
継続時間長を伸長して音声信号の低速再生を可能とする
ものである。また、音声はフレーム単位で音声/無音の
判定と、無音付加、速度変換の処理がなされるものとす
る。また(数2)で表わされる速度変換比は、低速再生
時には常時1より大きい値をとり、伸長比が大きいほど
大きい値となる。
【0023】以下に、(図2)の説明を行なう。まず、
現在のフレームF0 の音声/無音判定を行なう。この判
定結果は以後Nフレーム分の処理が済むまで保持されて
いるものとする。そして、現在のフレーム以前のNフレ
ームについての音声/無音判定の結果を調べて、音声区
間と判定された時間長の全体に占める割合を示す音声時
間率VRを求める。これにより、F0 近傍におけるVR
が推定される。また、低速再生の度合とは、通常再生と
比較した再生速度の度合であり、ここでは「少し遅
い」、と「かなり遅い」の2つが設定可能であるとす
る。
現在のフレームF0 の音声/無音判定を行なう。この判
定結果は以後Nフレーム分の処理が済むまで保持されて
いるものとする。そして、現在のフレーム以前のNフレ
ームについての音声/無音判定の結果を調べて、音声区
間と判定された時間長の全体に占める割合を示す音声時
間率VRを求める。これにより、F0 近傍におけるVR
が推定される。また、低速再生の度合とは、通常再生と
比較した再生速度の度合であり、ここでは「少し遅
い」、と「かなり遅い」の2つが設定可能であるとす
る。
【0024】VRと設定されている低速再生の度合によ
りF0 に対する無音付加処理あるいは速度変換処理のパ
ラメータを変更することを考える。「早口」な音声を
「少し遅く」したいときと、「遅口」な音声を「少し遅
く」したいときとでは、遅くする度合が異なるため、実
際の再生速度も違った値にするほうが良い。つまり、無
音付加処理あるいは速度変換処理のパラメータを決定す
る際には、曖昧な情報処理が必要といえる。したがっ
て、VRと低速再生の度合とを入力としたファジー推論
を行なうことで無音区間付加比SAと速度変換比STを
導出する。無音区間付加処理では、VRが大きいときは
F0 に対して多く付加をし、VRが小さいときはF0 に
対して短い付加をする。一方、速度変換処理では、VR
が大きいときは速度変換比を大きくし(1より大きい
値)、VRが小さいときには速度変換比を小さく(1に
近い値)する。以上のようにSAとSTを設定する。
りF0 に対する無音付加処理あるいは速度変換処理のパ
ラメータを変更することを考える。「早口」な音声を
「少し遅く」したいときと、「遅口」な音声を「少し遅
く」したいときとでは、遅くする度合が異なるため、実
際の再生速度も違った値にするほうが良い。つまり、無
音付加処理あるいは速度変換処理のパラメータを決定す
る際には、曖昧な情報処理が必要といえる。したがっ
て、VRと低速再生の度合とを入力としたファジー推論
を行なうことで無音区間付加比SAと速度変換比STを
導出する。無音区間付加処理では、VRが大きいときは
F0 に対して多く付加をし、VRが小さいときはF0 に
対して短い付加をする。一方、速度変換処理では、VR
が大きいときは速度変換比を大きくし(1より大きい
値)、VRが小さいときには速度変換比を小さく(1に
近い値)する。以上のようにSAとSTを設定する。
【0025】次に、F0 が無音区間であるならば無音付
加をし、そうでなければ速度変換で時間伸長を行なう。
このような処理を繰り返すことで低速再生を行なう。
加をし、そうでなければ速度変換で時間伸長を行なう。
このような処理を繰り返すことで低速再生を行なう。
【0026】次にファジー推論を行なう推論の規則等に
ついて示す。(図6)において(a)はVRに対するメン
バーシップ関数、(b)はSAに対するメンバーシップ関
数、(c)はSTに対するメンバーシップ関数である。こ
れらの図に於て使用している記号の示す意味を以下に列
挙する。
ついて示す。(図6)において(a)はVRに対するメン
バーシップ関数、(b)はSAに対するメンバーシップ関
数、(c)はSTに対するメンバーシップ関数である。こ
れらの図に於て使用している記号の示す意味を以下に列
挙する。
【0027】 音声時間率:VR PS:音声時間率が小さい(遅口) PM:音声時間率は中ぐらい(普通の会話速度) PB:音声時間率は大きい(早口) 無音区間付加比:SA PS:少しだけ付加する PM:やや付加する PB:かなり付加する 速度変換比:ST NS:少しだけ伸長する NM:やや伸長する NB:かなり伸長する そして、(表2)に示す制御規則でSEおよびSTを推
論する。
論する。
【0028】
【表2】
【0029】以上のように本実施例によれば、無音区間
付加比と速度変換比とを音声時間率によってファジー推
論して再生速度の制御を行なっているため、より人間の
感覚に合った自然な低速再生ができる。
付加比と速度変換比とを音声時間率によってファジー推
論して再生速度の制御を行なっているため、より人間の
感覚に合った自然な低速再生ができる。
【0030】以下本発明の第3の実施例について、図面
を参照しながら説明する。
を参照しながら説明する。
【0031】(図3)は本発明の音声再生装置の一実施
例における構成を示すものである。(図3)において、
1は有無判定器、2は音声時間率検出器、3は推論器、
4は無音区間処理器、5は速度変換処理器、6は第1の
スイッチ、7は第2のスイッチである。本実施例でも入
力される音声信号は、記録媒体にすでに録音がなされて
いるものとする。基本的な考え方は、入力信号の無音区
間に対しては所定の時間長だけ無音を削除/付加するこ
とで、また、音声区間に対しては所定の速度変換比で継
続時間長を圧縮/伸長して音声信号の低速/高速再生を
可能とするものである。また、音声はフレーム単位で音
声/無音の判定と、無音削除/付加、速度変換の処理が
なされるものとする。また、音声時間率および速度変換
比は上述したようにそれぞれ(数1)および(数2)で
表わされる。
例における構成を示すものである。(図3)において、
1は有無判定器、2は音声時間率検出器、3は推論器、
4は無音区間処理器、5は速度変換処理器、6は第1の
スイッチ、7は第2のスイッチである。本実施例でも入
力される音声信号は、記録媒体にすでに録音がなされて
いるものとする。基本的な考え方は、入力信号の無音区
間に対しては所定の時間長だけ無音を削除/付加するこ
とで、また、音声区間に対しては所定の速度変換比で継
続時間長を圧縮/伸長して音声信号の低速/高速再生を
可能とするものである。また、音声はフレーム単位で音
声/無音の判定と、無音削除/付加、速度変換の処理が
なされるものとする。また、音声時間率および速度変換
比は上述したようにそれぞれ(数1)および(数2)で
表わされる。
【0032】以上のように構成された実施例について以
下にその動作を説明する。まず、有無判定器1は現在の
フレームF0 の音声/無音判定を行い、その結果を有声
時間率検出器2と第1のスイッチ6と第2のスイッチ7
とに出力する。音声時間率検出器2は有無判定器1の過
去から現在までの判定結果を複数フレーム分保持してお
り、音声区間のフレームと無音区間のフレームとの比率
に基づいて音声時間率VRを求めて推論器3へ出力す
る。ここで、推論器3に入力される再生速度変更量DS
と音声時間率VRについて補足説明を行なう。
下にその動作を説明する。まず、有無判定器1は現在の
フレームF0 の音声/無音判定を行い、その結果を有声
時間率検出器2と第1のスイッチ6と第2のスイッチ7
とに出力する。音声時間率検出器2は有無判定器1の過
去から現在までの判定結果を複数フレーム分保持してお
り、音声区間のフレームと無音区間のフレームとの比率
に基づいて音声時間率VRを求めて推論器3へ出力す
る。ここで、推論器3に入力される再生速度変更量DS
と音声時間率VRについて補足説明を行なう。
【0033】VRは本発明の第1の実施例で説明したよ
うに、人間の会話の早さを示すファジー集合と考えられ
る。また、DSは現在の再生速度をどれくらい早く/遅
くするかを使用者が設定したあいまいな値であり、これ
もファジー集合と考えられる。例えば、現在遅口の音声
を少し早く再生中であるが、これを今よりさらに少し早
くしたい時や、現在早口の英語音声を大変ゆっくり再生
しているが、これを今より少しだけ早くしたい時、以上
のような再生速度の制御をうまく行なうためにファジー
推論を用いてパラメータを決定する。
うに、人間の会話の早さを示すファジー集合と考えられ
る。また、DSは現在の再生速度をどれくらい早く/遅
くするかを使用者が設定したあいまいな値であり、これ
もファジー集合と考えられる。例えば、現在遅口の音声
を少し早く再生中であるが、これを今よりさらに少し早
くしたい時や、現在早口の英語音声を大変ゆっくり再生
しているが、これを今より少しだけ早くしたい時、以上
のような再生速度の制御をうまく行なうためにファジー
推論を用いてパラメータを決定する。
【0034】推論器3は現在設定されている再生速度変
更量DSと音声時間率VRとを入力として、無音区間増
減比および速度変換比をファジー推論によって決定す
る。音声信号は、有無判定器1の判定結果に基づいた第
1のスイッチ6の切り替え操作により、無音区間につい
ては無音区間処理器4へ入力され、音声区間については
速度変換処理器5へ入力される。無音区間処理器4は無
音区間のフレームに対して推論器3によって与えられた
無音区間増減比で決められた所定の時間長の無音区間を
削除/付加する。速度変換処理器5は音声区間のフレー
ムに対して推論器3によって与えられた速度変換比で時
間軸伸縮を行なう。第2のスイッチ7は有無判定器1の
判定結果に基づき、無音区間処理器4の出力と速度変換
処理器5の出力とを切り換えて出力音声とする。
更量DSと音声時間率VRとを入力として、無音区間増
減比および速度変換比をファジー推論によって決定す
る。音声信号は、有無判定器1の判定結果に基づいた第
1のスイッチ6の切り替え操作により、無音区間につい
ては無音区間処理器4へ入力され、音声区間については
速度変換処理器5へ入力される。無音区間処理器4は無
音区間のフレームに対して推論器3によって与えられた
無音区間増減比で決められた所定の時間長の無音区間を
削除/付加する。速度変換処理器5は音声区間のフレー
ムに対して推論器3によって与えられた速度変換比で時
間軸伸縮を行なう。第2のスイッチ7は有無判定器1の
判定結果に基づき、無音区間処理器4の出力と速度変換
処理器5の出力とを切り換えて出力音声とする。
【0035】以上のように本実施例では、無音区間増減
比と速度変換比とを音声時間率と現在の再生速度からの
変更量によってファジー推論して再生速度の制御を行な
っているため、より所望の再生速度に設定しやすくな
る。
比と速度変換比とを音声時間率と現在の再生速度からの
変更量によってファジー推論して再生速度の制御を行な
っているため、より所望の再生速度に設定しやすくな
る。
【0036】なお、本実施例においては、無音区間に対
しては無音区間処理器で必ず処理を行なう構成である
が、無音区間に対しても速度変換処理を用いる構成も考
えられる。
しては無音区間処理器で必ず処理を行なう構成である
が、無音区間に対しても速度変換処理を用いる構成も考
えられる。
【0037】
【発明の効果】以上の説明からも明らかなように、本発
明は音声時間率によって無音区間削除比と速度変換比と
をファジー推論で決定して、無音区間の所定の時間長を
削除し、音声区間に速度変換処理を施して時間長を圧縮
することで、音声を人間に自然に聞こえるように高速に
再生する音声再生装置を実現できるものである。
明は音声時間率によって無音区間削除比と速度変換比と
をファジー推論で決定して、無音区間の所定の時間長を
削除し、音声区間に速度変換処理を施して時間長を圧縮
することで、音声を人間に自然に聞こえるように高速に
再生する音声再生装置を実現できるものである。
【0038】また、音声時間率によって無音区間付加比
と速度変換比とをファジー推論で決定して、無音区間の
所定の時間長を付加し、音声区間に速度変換処理を施し
て時間長を伸長することで、音声を人間に自然に聞こえ
るように低速に再生する音声再生装置を実現できる。
と速度変換比とをファジー推論で決定して、無音区間の
所定の時間長を付加し、音声区間に速度変換処理を施し
て時間長を伸長することで、音声を人間に自然に聞こえ
るように低速に再生する音声再生装置を実現できる。
【0039】さらに、音声時間率検出器によって得た音
声時間率と現在の再生速度からの変更量によって無音区
間増減比と速度変換比とをファジー推論する推論器と、
無音区間処理器、速度変換処理器を設けることにより、
現在の再生速度を使用者がどのように変更したいかをよ
り的確に実現できる音声再生装置を提供することができ
る。
声時間率と現在の再生速度からの変更量によって無音区
間増減比と速度変換比とをファジー推論する推論器と、
無音区間処理器、速度変換処理器を設けることにより、
現在の再生速度を使用者がどのように変更したいかをよ
り的確に実現できる音声再生装置を提供することができ
る。
【図1】本発明の第1の実施例における動作を説明する
フローチャート
フローチャート
【図2】本発明の第2の実施例における動作を説明する
フローチャート
フローチャート
【図3】本発明の音声再生装置の一実施例の構成図
【図4】従来の音声再生装置の構成図
【図5】本発明の第1の実施例に適用される各メンバー
シップ関数
シップ関数
【図6】本発明の第2の実施例に適用される各メンバー
シップ関数
シップ関数
1 有無判定器 2 音声時間率検出器 3 推論器 4 無音区間処理器 5 速度変換処理器 6 第1のスイッチ 7 第2のスイッチ
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−212998(JP,A) 特開 平3−2794(JP,A) 特開 平1−244498(JP,A) 特開 平1−93795(JP,A) 特開 昭59−82608(JP,A) 特開 平3−84599(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/02 G11B 20/02
Claims (3)
- 【請求項1】 有無判定器(1)、音声時間率検出器
(2)、推論器(3)、切換手段(6,7)、無音区間
処理器(4)、速度変換処理器(5)からなる音声再生
装置であって、 有無判定器(1)は、入力信号が音声区間か無音区間で
あるかを判定し、 音声時間率検出器(2)は、有無判定器(1)の検出結
果に基づいて、入力信号の所定の時間長に対する音声区
間の時間長の比である音声時間率を検出し、 推論器(3)は、第1の推論手段と第2の推論手段から
なり、 第1の推論手段は、入力される再生速度の度合に対応し
たメンバーシップ関数と音声時間率に基づいてファジー
推論を行い、無音区間増減比を出力し、 第2の推論手段は、入力される再生速度の度合に対応し
たメンバーシップ関数と音声時間率に基づいてファジー
推論を行い、速度変換比を出力し、 切換手段(6,7)は、無音区間の場合には無音区間処
理器(4)に、有音区間の場合には速度変換処理器
(5)に切換え、 無音区間処理器(4)は、無音区間増減比に基づいて入
力信号から所定時間長の無音の削除または付加を行って
出力し、 速度変換処理器(5)は、入力される速度変換比に基づ
いて入力信号の継続時間長の圧縮または伸長を行って出
力する音声再生装置。 - 【請求項2】 有無判定器(1)、音声時間率検出器
(2)、推論器(3)、切換手段(6,7)、無音区間
処理器(4)、速度変換処理器(5)からなる音声再生
装置であって、 有無判定器(1)は、入力信号が音声区間か無音区間で
あるかを判定し、 音声時間率検出器(2)は、有無判定器(1)の検出結
果に基づいて、入力信号の所定の時間長に対する音声区
間の時間長の比である音声時間率を検出し、 推論器(3)は、第1の推論手段と第2の推論手段から
なり、 第1の推論手段は、入力される再生速度の度合に対応し
たメンバーシップ関数と音声時間率に基づいてファジー
推論を行い、無音区間削除比を出力し、 第2の推論手段は、入力される再生速度の度合に対応し
たメンバーシップ関数と音声時間率に基づいてファジー
推論を行い、速度変換比を出力し、 切換手段(6,7)は、無音区間の場合には無音区間処
理器(4)に、有音区間の場合には速度変換処理器
(5)に切換え、 無音区間処理器(4)は、無音区間削除比に基づいて入
力信号から所定時間長の無音の削除を行って出力し、 速度変換処理器(5)は、入力される速度変換比に基づ
いて入力信号の継続時間長の圧縮を行って出力する音声
再生装置。 - 【請求項3】 有無判定器(1)、音声時間率検出器
(2)、推論器(3)、切換手段(6,7)、無音区間
処理器(4)、速度変換処理器(5)からなる音声再生
装置であって、 有無判定器(1)は、入力信号が音声区間か無音区間で
あるかを判定し、 音声時間率検出器(2)は、有無判定器(1)の検出結
果に基づいて、入力信号の所定の時間長に対する音声区
間の時間長の比である音声時間率を検出し、 推論器(3)は、第1の推論手段と第2の推論手段から
なり、 第1の推論手段は、入力される再生速度の度合に対応し
たメンバーシップ関数と音声時間率に基づいてファジー
推論を行い、無音区間付加比を出力し、 第2の推論手段は、入力される再生速度の度合に対応し
たメンバーシップ関数と音声時間率に基づいてファジー
推論を行い、速度変換比を出力し、 切換手段(6,7)は、無音区間の場合には無音区間処
理器(4)に、有音区間の場合には速度変換処理器
(5)に切換え、 無音区間処理器(4)は、無音区間付加比に基づいて入
力信号から所定時間長の無音の付加を行って出力し、 速度変換処理器(5)は、入力される速度変換比に基づ
いて入力信号の継続時間長の伸長を行って出力する音声
再生装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3144454A JP2867744B2 (ja) | 1991-06-17 | 1991-06-17 | 音声再生装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3144454A JP2867744B2 (ja) | 1991-06-17 | 1991-06-17 | 音声再生装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04367898A JPH04367898A (ja) | 1992-12-21 |
JP2867744B2 true JP2867744B2 (ja) | 1999-03-10 |
Family
ID=15362628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3144454A Expired - Fee Related JP2867744B2 (ja) | 1991-06-17 | 1991-06-17 | 音声再生装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2867744B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7337108B2 (en) * | 2003-09-10 | 2008-02-26 | Microsoft Corporation | System and method for providing high-quality stretching and compression of a digital audio signal |
JP4580297B2 (ja) * | 2005-07-13 | 2010-11-10 | パナソニック株式会社 | 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路 |
JP4965371B2 (ja) * | 2006-07-31 | 2012-07-04 | パナソニック株式会社 | 音声再生装置 |
JP2008107381A (ja) * | 2006-10-23 | 2008-05-08 | Mitsubishi Electric Corp | 話速変換装置及び話速変換制御方法 |
-
1991
- 1991-06-17 JP JP3144454A patent/JP2867744B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH04367898A (ja) | 1992-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6205420B1 (en) | Method and device for instantly changing the speed of a speech | |
JP4523257B2 (ja) | 音声データ処理方法、プログラム及び音声信号処理システム | |
WO2006077626A1 (ja) | 話速変換方法及び話速変換装置 | |
JP3619946B2 (ja) | 話速変換装置、話速変換方法及び記録媒体 | |
JP2867744B2 (ja) | 音声再生装置 | |
JP3249567B2 (ja) | 話速変換方法および装置 | |
JP2000099097A (ja) | 信号再生装置及び方法、音声信号再生装置、並びに、音声信号の速度変換方法 | |
JP3378672B2 (ja) | 話速変換装置 | |
JP2009075280A (ja) | コンテンツ再生装置 | |
JPH08146985A (ja) | 話速制御システム | |
JP3373933B2 (ja) | 話速変換装置 | |
JP3081469B2 (ja) | 話速変換装置 | |
JPH09152889A (ja) | 話速変換装置 | |
JPH0916193A (ja) | 話速変換装置 | |
JPH0573089A (ja) | 音声再生方法 | |
JP3357742B2 (ja) | 話速変換装置 | |
JPH09138698A (ja) | 音声記録再生装置 | |
JP4212253B2 (ja) | 話速変換装置 | |
JP3189587B2 (ja) | 音声時間軸変換装置 | |
JPH09146587A (ja) | 話速変換装置 | |
JP2001222300A (ja) | 音声再生装置および記録媒体 | |
JP2007025039A (ja) | 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路 | |
JPH0854895A (ja) | 再生装置 | |
JP2962777B2 (ja) | 音声信号の時間軸伸長圧縮装置 | |
JP3189597B2 (ja) | 音声時間軸変換装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071225 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081225 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091225 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |