JPH0845177A

JPH0845177A - 話速変換装置

Info

Publication number: JPH0845177A
Application number: JP6228205A
Authority: JP
Inventors: Koji Tanaka; 浩司田中; Shozo Sugishita; 正蔵杉下; Masayuki Iida; 正幸飯田; Masanori Miyatake; 正典宮武
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1993-10-19
Filing date: 1994-09-22
Publication date: 1996-02-16
Anticipated expiration: 2018-02-17
Also published as: JP3378672B2

Abstract

(57)【要約】【目的】この発明は、処理負荷を低減できるととも
に、映像と音声のズレを小さくでき、しかも音声信号を
蓄積するためのメモリの容量も膨大とならない話速変換
装置を提供することを目的とする。【構成】話速変換装置において、話速変換処理手段６
は、フレームメモリ５に入力された所要数の音声信号に
対応する入力音声が、音声区間か無音区間かを判別する
区間判別手段１１、１２、１３、ならびに、区間判別手
段１１、１２、１３の出力および蓄積量算出手段９の出
力に応じて、上記所要数の音声信号に対して圧縮伸長処
理または削除処理を行なう信号処理手段２１〜２６を備
え、信号処理手段２１〜２６は、入力音声が音声区間で
ありかつリングメモリ７がオーバーフロー直前状態でな
いときに、設定再生速度倍率をｎとして１／ｎ以上の圧
縮率であって、リングメモリ７の蓄積量の単位時間当り
の変化量に応じて決定された圧縮率で圧縮伸長処理を行
なう手段２３を含んでいる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、音声信号の話速を変
える話速変換装置に関し、例えば、映像を伴うレーザデ
ィスク、ＶＴＲ、ＴＶ、ＴＶ電話、ＴＶ会議システムの
音声の早聞き或いは遅聞きを行なう音声再生装置、音声
信号をゆっくりした聞きやすい音声に変換する聴覚補助
機能付きラジオ、電話機、補聴器、または、音声の早聞
き或いは遅聞きを行なうテープレコーダ、ステレオシス
テム、ＣＤプレーヤ、音声ガイダンスシステム、ネイテ
ィブスピードで話された英語音声をゆっくりした聞きや
すい音声に変換する英語学習器等に利用される話速変換
装置に関する。

【０００２】

【従来の技術】話速を変換する従来の技術として、アナ
ログ方式の時間軸伸長圧縮技術がある。しかしながら、
アナログ方式の時間軸伸長圧縮技術を用いた話速変換方
法では、単純な音声波形の間引きまたは音声波形の繰り
返し挿入が行なわれているだけなので、音声のつなぎめ
が不連続になるため、音質が悪くなるという問題があ
る。

【０００３】良好な音質が得られる音声の時間軸伸長圧
縮技術として、ディジタル信号処理によって、音声のピ
ッチ周期を検出し、検出したピッチ周期単位でピッチ部
の間引きまたは挿入を行なう技術がある。しかしなが
ら、このディジタル方式の時間軸伸長圧縮技術を用いた
話速変換方法では、音声信号における無音区間および音
声区間にかかわらず、一律の圧縮伸長率で音声信号の圧
縮または伸長が行なわれているので、ＶＴＲの倍速再生
時、英語学習器の英語音声再生時等においては音声区間
の再生速度が速くなりすぎ、音声が聞き取れなくなる場
合があるという問題がある。

【０００４】

【発明が解決しようとする課題】上記問題を解決するた
めに、音声信号の無音区間と音声区間とを識別し、無音
区間を削除し、音声区間をピッチ周期単位で伸長する話
速変換方法が既に開発されている（参考文献Ａ（以下、
第１従来方式という）：信学技法ＳＰ９２−５６、ＨＣ
９２−３３（１９９２−０９）タイトル「話速変換に
伴う時間伸長を吸収するための一方法」社団法人電
子情報通信学会発行、参考文献Ｂ（以下、第２従来方式
という）：信学技法ＳＰ９２−１５０（１９９３−０
３）タイトル「難聴者による話速変換方式の評価」
社団法人電子情報通信学会発行）。この方法によれ
ば、音声区間の再生速度を遅くでき、音声が聞きやすく
なる。しかしながら、この方法では、次のような問題が
ある。

【０００５】第１従来方式では、処理負荷が大きいた
め、高速演算が必要となり、消費電力が大きくなる。第
２従来方式では、映像と音声のズレが大きくなりすぎ内
容把握が困難となるとともに、音声信号を蓄積するため
のメモリの容量が膨大となりコストがかかる。

【０００６】この発明は、処理負荷を低減できるととも
に、映像と音声のズレを小さくでき、しかも音声信号を
蓄積するためのメモリの容量も膨大とならない話速変換
装置を提供することを目的とする。

【０００７】この発明の他の目的は、入力信号の音声区
間における音声の欠落部をできるだけ少なくしつつ、音
声区間における音声に対する音声再生速度を、設定され
た再生速度倍率に対して遅くさせることができる話速変
換装置を提供することを目的とする。

【０００８】

【課題を解決するための手段】この発明による第１の話
速変換装置は、入力音声信号を話速変換処理する話速変
換処理手段、話速変換処理手段の出力が書き込まれるリ
ングメモリ、およびリングメモリからデータを一定速度
で読み出す手段を備え、話速変換処理手段は、入力音声
信号が音声区間でありかつリングメモリがオーバーフロ
ー直前状態でないときに、設定再生速度倍率をｎとして
１／ｎ以上の圧縮率であって、リングメモリの蓄積量の
単位時間当りの変化量に応じて決定された圧縮率で入力
音声信号に対して圧縮伸長処理を行なう手段を備えてい
ることを特徴とする。

【０００９】この発明による第２の話速変換装置は、入
力されるアナログ音声信号を設定された再生速度倍率に
応じたサンプリング周波数でサンプリングするＡ／Ｄ変
換手段、Ａ／Ｄ変換手段から出力された音声信号が入力
されるフレームメモリ、フレームメモリに所要数の音声
信号が入力されるごとに、それらの音声信号に対して話
速変換処理を行なう話速変換処理手段、話速変換処理手
段の出力が書き込まれるリングメモリ、１倍速再生時の
サンプリング周波数と等しい周波数の読み出し信号に基
づいて、リングメモリからデータを読み出す読出手段、
およびリングメモリの書き込み信号と読み出し信号とに
基づいて、リングメモリの蓄積量を算出、今回までの無
音区間の継続長が算出され（ステップ１１）、算出され
た継続長がポーズ継続長メモリ１７に設定されているポ
ーズ継続長Ｔｄｅｌ以上か否かが判別される（ステップ
１２）。そして、無音区間の継続長がポーズ継続長Ｔｄ
ｅｌ未満であると判別された場合には、リングメモリ蓄
積量状態判別部１６の出力に基づいて、アンダーフロー
直前状態か否かが判別される（ステップ１３、１４）。
する蓄積量算出手段を備えており、話速変換処理手段
は、フレームメモリに入力された所要数の音声信号に対
応する入力音声が、音声区間か無音区間かを判別する区
間判別手段、ならびに区間判別手段の出力および蓄積量
算出手段の出力に応じて、上記所要数の音声信号に対し
て圧縮伸長処理または削除処理を行なう信号処理手段を
備え、信号処理手段は、入力音声が音声区間でありかつ
リングメモリがオーバーフロー直前状態でないときに、
設定再生速度倍率をｎとして１／ｎ以上の圧縮率であっ
て、リングメモリの蓄積量の単位時間当りの変化量に応
じて決定された圧縮率で圧縮伸長処理を行なう手段を含
んでいることを特徴とする。

【００１０】この発明による第３の話速変換装置は、入
力されるディジタル音声信号が、設定された再生速度倍
率に応じた速度で書き込まれるフレームメモリ、フレー
ムメモリに所要数の音声信号が入力されるごとに、それ
らの音声信号に対して話速変換処理を行なう話速変換処
理手段、話速変換処理手段の出力が書き込まれるリング
メモリ、リングメモリから一定速度でデータを読み出す
読出手段、およびリングメモリの書き込み信号と読み出
し信号とに基づいて、リングメモリの蓄積量を算出する
蓄積量算出手段を備えており、話速変換処理手段は、フ
レームメモリに入力された所要数の音声信号に対応する
入力音声が、音声区間か無音区間かを判別する区間判別
手段、ならびに、区間判別手段の出力および蓄積量算出
手段の出力に応じて、上記所要数の音声信号に対して圧
縮伸長処理または削除処理を行なう信号処理手段を備
え、信号処理手段は、入力音声が音声区間でありかつリ
ングメモリがオーバーフロー直前状態でないときに、設
定再生速度倍率をｎとして１／ｎ以上の圧縮率であっ
て、リングメモリの蓄積量の単位時間当りの変化量に応
じて決定された圧縮率で圧縮伸長処理を行なう手段を含
んでいることを特徴とする。

【００１１】上記リングメモリとは、リング構造（ rin
g structure ) を有するメモリをいう。リング構造と
は、連鎖リストの最後の項目のポインタが先頭の項目を
指すようにつながれたものをいう。

【００１２】上記信号処理手段としては、たとえば、区
間判別手段の出力および蓄積量算出手段の出力に基づい
て、（１）入力音声が音声区間でありかつリングメモリ
がオーバーフロー直前状態でない第１モード、（２）入
力音声が音声区間でありかつリングメモリがオーバーフ
ロー直前状態である第２モード、（３）入力音声が無音
区間でありかつ無音区間の継続長が所定の無音削除開始
点判別値未満であり、かつリングメモリがオーバーフロ
ー直前状態でない第３モード、（４）入力音声が無音区
間でありかつ無音区間の継続長が所定の無音削除開始点
判別値未満であり、かつリングメモリがオーバーフロー
直前状態である第４モード、（５）入力音声が無音区間
でありかつ無音区間の継続長が所定の無音削除開始点判
別値以上であり、かつリングメモリがアンダーフロー直
前状態でない第５モード、および（６）入力音声が無音
区間でありかつ無音区間の継続長が所定の無音削除開始
点判別値以上であり、かつリングメモリがアンダーフロ
ー直前状態である第６モードのうちのいずれのモードで
あるかを判別するモード判別手段、第１モードまたは第
３モードと判別されたときに、設定再生速度倍率をｎと
して１／ｎ以上の圧縮率であって、リングメモリの蓄積
量の単位時間当りの変化量に応じて決定された圧縮率で
圧縮伸長処理を行なう第１処理手段、第２モードまたは
第４モードと判別されたときに、リングメモリの蓄積量
がアンダーフロー直前状態となるまで音声信号を削除す
る第２処理手段、第５モードと判別されたときに、無音
区間の音声信号を削除する第３処理手段、ならびに、第
６モードと判別されたときに、設定再生速度倍率をｎと
して、圧縮率１／ｎ±α（ただし、αは０以上で１以下
の値）で圧縮伸長処理を行なう第４処理手段を備えてい
るものが用いられる。

【００１３】上記第１処理手段としては、ポインター移
動量制御による重複加算法（Pointer Interval Control
Overlap and Add : ＰＩＣＯＬＡ）、ＴＤＨＳ(Time
Domain Harmonic Scaling)法等のように、ピッチ周期単
位またはピッチ周期の整数倍単位で圧縮伸長処理を行な
うものまたは固定フレーム長単位で圧縮伸長処理を行な
うもの等が用いられる。

【００１４】上記無音削除開始点判別値を、上記リング
メモリの蓄積量に応じて調整するようにしてもよい。

【００１５】上記区間判別手段としては、たとえば、フ
レームメモリに入力された所要数の音声信号のパワー平
均値を算出する手段、および算出されたパワー平均値と
所与のしきい値とに基づいて、入力音声が音声区間か無
音区間かを判別する判別手段を備えているものが用いら
れる。上記しきい値を上記リングメモリの蓄積量に応じ
て調整するようにしてもよい。

【００１６】上記区間判別手段としては、たとえば、フ
レームメモリに入力された所要数の音声信号のパワー累
積値を算出する手段、および算出されたパワー累積値と
所与のしきい値とに基づいて、入力音声が音声区間か無
音区間かを判別する判別手段を備えているものが用いら
れる。上記しきい値を上記リングメモリの蓄積量に応じ
て調整するようにしてもよい。

【００１７】上記区間判別手段としては、たとえば、フ
レームメモリに入力された所要数の音声信号の振幅平均
値を算出する手段、および算出された振幅平均値と所与
のしきい値とに基づいて、入力音声が音声区間か無音区
間かを判別する判別手段を備えているものが用いられ
る。上記しきい値を上記リングメモリの蓄積量に応じて
調整するようにしてもよい。

【００１８】上記区間判別手段としては、たとえば、フ
レームメモリに入力された所要数の音声信号の振幅累積
値を算出する手段、および算出された振幅累積値と所与
のしきい値とに基づいて、入力音声が音声区間か無音区
間かを判別する判別手段を備えているものが用いられ
る。上記しきい値を上記リングメモリの蓄積量に応じて
調整するようにしてもよい。

【００１９】上記区間判別手段としては、たとえば、フ
レームメモリに入力された所要数の音声信号の周期性を
検出する検出手段、および検出された周期に基づいて、
入力音声が音声区間か無音区間かを判別する判別手段を
備えているものが用いられる。

【００２０】上記区間判別手段としては、たとえば、フ
レームメモリに入力された所要数の音声信号の所定の１
または複数の周波数帯域に対するパワースペクトルを算
出する算出手段、および算出されたパワースペクトルと
所与のしきい値とに基づいて、入力音声が音声区間か無
音区間かを判別する判別手段を備えているものが用いら
れる。上記しきい値を上記リングメモリの蓄積量に応じ
て調整するようにしてもよい。

【００２１】

【作用】この発明による第１の話速変換装置では、入力
音声信号は、話速変換処理手段によって話速変換処理さ
れる。話速変換処理手段の出力は、リングメモリに書き
込まれる。リングメモリに書き込まれたデータは、一定
速度で読み出される。話速変換処理手段においては、入
力音声信号が音声区間でありかつリングメモリがオーバ
ーフロー直前状態でないときに、設定再生速度倍率をｎ
として１／ｎ以上の圧縮率であって、リングメモリの蓄
積量の単位時間当りの変化量に応じて決定された圧縮率
で入力音声信号に対して圧縮伸長処理が行なわれる。

【００２２】この発明による第２の話速変換装置では、
入力されるアナログ音声信号は、Ａ／Ｄ変換手段によ
り、設定された再生速度倍率に応じたサンプリング周波
数でサンプリングされる。Ａ／Ｄ変換手段から出力され
た音声信号は、フレームメモリに入力される。フレーム
メモリに所要数の音声信号が入力されるごとに、話速変
換処理手段により、それらの音声信号に対して話速変換
処理が行なわれる。話速変換処理手段の出力は、リング
メモリに書き込まれる。リングメモリに書き込まれたデ
ータは、１倍速再生時のサンプリング周波数に等しい周
波数の読み出し信号に基づいて読み出される。リングメ
モリの書き込み信号と読み出し信号とに基づいて、蓄積
量算出手段によって、リングメモリの蓄積量が算出され
る。

【００２３】話速変換処理手段においては、フレームメ
モリに入力された所要数の音声信号に対する入力音声
が、区間判別手段により、音声区間か無音区間かが判別
される。そして、信号処理手段によって、区間判別手段
の出力および蓄積量算出手段の出力に応じて、上記所要
数の音声信号に対して圧縮伸長処理または削除処理が行
なわれる。信号処理手段では、入力音声が音声区間であ
りかつリングメモリがオーバーフロー直前状態でないと
きには、設定再生速度倍率をｎとして１／ｎ以上の圧縮
率であって、リングメモリの蓄積量の単位時間当りの変
化量に応じて決定された圧縮率で圧縮伸長処理が行われ
る。

【００２４】この発明による第３の話速変換装置では、
入力されるディジタル音声信号が、設定された再生速度
倍率に応じた速度でフレームメモリに書き込まれる。フ
レームメモリに所要数の音声信号が入力されるごとに、
話速変換処理手段により、それらの音声信号に対して話
速変換処理が行なわれる。話速変換処理手段の出力は、
リングメモリに書き込まれる。リングメモリに書き込ま
れたデータは、読み出し信号に基づいて一定速度で読み
出される。リングメモリの書き込み信号と読み出し信号
とに基づいて、蓄積量算出手段によって、リングメモリ
の蓄積量が算出される。

【００２５】話速変換処理手段においては、フレームメ
モリに入力された所要数の音声信号に対する入力音声
が、区間判別手段により、音声区間か無音区間かが判別
される。そして、信号処理手段によって、区間判別手段
の出力および蓄積量算出手段の出力に応じて、上記所要
数の音声信号に対して圧縮伸長処理または削除処理が行
なわれる。信号処理手段では、入力音声が音声区間であ
りかつリングメモリがオーバーフロー直前状態でないと
きには、設定再生速度倍率をｎとして１／ｎ以上の圧縮
率であって、リングメモリの蓄積量の単位時間当りの変
化量に応じて決定された圧縮率で圧縮伸長処理が行われ
る。

【００２６】

【実施例】以下、図面を参照して、この発明をＶＴＲに
適用した場合の実施例について説明する。

【００２７】図１は、話速変換装置の全体的な構成を示
している。

【００２８】入力音声信号は、ＡＬＣアンプ１で増幅さ
れた後、Ａ／Ｄ変換部２に送られ、例えば１２ビットの
ディジタル信号に変換される。Ａ／Ｄ変換部２の標準サ
ンプリング周波数は、たとえば８ＫＨｚである。２倍速
再生時には、Ａ／Ｄ変換部２のサンプリング周波数ｆｓ
ＡＤは、１６ＫＨｚとなる。

【００２９】Ａ／Ｄ変換部２の出力は、ＤＳＰ( Digita
l Signal Processor) ４に送られるとともにレベル検出
部３にも送られる。レベル検出部３は、Ａ／Ｄ変換部２
でＡ／Ｄ変換されたデータが変換レンジの最大値となっ
たときに、ＡＬＣ(automaticlevel control) 信号をＡ
ＬＣアンプ１に出力する。これにより、ＡＬＣアンプ１
のアンプ利得が制御され、Ａ／Ｄ変換部２の入力信号が
最大レンジを越えないようにされる。つまり、ＶＴＲの
再生テープ速度が変化するとＡＬＣアンプ１の入力信号
レベルも変化する。そこで、レベル検出部３の出力に基
づいて、アンプ利得を自動調整することにより、Ａ／Ｄ
変換部２の入力信号が最大レンジを越えないようにして
いる。

【００３０】ＤＳＰ４は、２フレーム分の音声信号を記
憶できる容量のフレームメモリ５およびフレームメモリ
５に記憶された音声信号に対してフレーム単位で話速変
換処理を行なう話速変換部６とを備えている。１フレー
ムは、ここでは、２００個のサンプリングデータから構
成されるものとする。

【００３１】フレームメモリ５内の前半領域および後半
領域のうち、一方の領域に記憶された１フレーム分の音
声信号に対して話速変換部６により処理が行なわれると
同時に、他方の領域にＡ／Ｄ変換部２からの信号が蓄積
される。そして、この他方の領域に１フレーム分の信号
が蓄積されると、今度はその領域内のデータに対して話
速変換部６により処理が行なわれると同時に、既に処理
が行なわれたデータが記憶されていた上記一方の領域に
Ａ／Ｄ変換部２からの信号が蓄積される。

【００３２】話速変換部６から出力されたデータは、書
き込みクロックに基づいてリングメモリ７に書き込まれ
る。リングメモリ７に書き込まれたデータは、読み出し
クロックに基づいて、読み出される。リングメモリ７か
ら読み出された信号は、Ｄ／Ａ変換部８によってアナロ
グ信号に変換された後、アンプ１０で増幅され、音声出
力信号として出力される。

【００３３】Ｄ／Ａ変換部８のサンプリング周波数ｆｓ
ＤＡは、８ＫＨｚである。また、リングメモリ７の読み
出しクロックの周波数も８ＫＨｚである。リングメモリ
７としては、２１８４５×１２ｂｉｔのもの、すなわ
ち、２１８４５ワードのものが用いられている。したが
って、リングメモリ７にデータを蓄積できる最大時間
（入力信号に対する出力時間の最大遅延時間）は、２１
８４５×１／８０００＝２．７３秒となる。

【００３４】リングメモリ７に対する書き込みクロック
は、アップダウンカウンタ９のアップカウント用入力端
子（ＵＰ）に入力する。リングメモリ７に対する読み出
しクロックは、アップダウンカウンタ９のダウンカウン
ト用入力端子（ＤＯＷＮ）に入力する。アップダウンカ
ウンタ９は、入力された書き込みクロックの総数と入力
された読み出しクロックの総数との差（リングメモリ７
の蓄積量）をカウントし、そのカウント値を１５ｂｉｔ
のディジタル信号として出力する。アップダウンカウン
タ９の出力は、話速変換部６に送られる。

【００３５】図２は、話速変換部６の詳細な構成を示し
ている。

【００３６】フレームメモリ５から読み出された音声信
号は、パワー計算部１１に送られ、１フレーム分の音声
信号の平均パワー値Ｐが算出される。この平均パワー値
Ｐは、サンプリングされた１フレーム内の各音声信号の
振幅をｉ₀、ｉ₁ …ｉ_N-1（ただし、Ｎ＝２００）と
すると、次の数式１によって求められる。

【００３７】

【数１】

【００３８】パワー計算部１１で求められた平均パワー
値Ｐは、比較部１２に送られる。比較部１２には、しき
い値メモリ１３からしきい値Ｔｈが送られており、平均
パワー値Ｐがしきい値Ｔｈ以上（Ｐ≧Ｔｈ）か、平均パ
ワー値Ｐがしきい値Ｔｈより小さいか（Ｐ＜Ｔｈ）が判
別される。比較部１２からは、平均パワー値Ｐがしきい
値Ｔｈ以上（Ｐ≧Ｔｈ）のときには現フレームが音声区
間であることを示す信号が、平均パワー値Ｐがしきい値
Ｔｈより小さいときには現フレームが無音区間であるこ
とを示す信号が、それぞれ出力される。

【００３９】しきい値Ｔｈとしては、Ａ／Ｄ変換部２の
量子化ビット数が１２ｂｉｔのときには、たとえば、２
¹²に設定される。なお、次のようにして、しきい値Ｔｈ
を変更するようにしてもよい。すなわち、図２に点線で
示すように、パワー定常状態検出およびしきい値更新部
１４を設ける。パワー定常状態検出およびしきい値更新
部１４は、パワー計算部１１からの平均パワー値Ｐが、
所定フレーム数（例えば、４０フレーム）にわたって一
定であったか否かを判別し、一定であったときには（定
常状態）、そのときの平均パワー値Ｐの２倍の値をしき
い値メモリ１３に書き込み、しきい値Ｔｈを更新させ
る。ただし、更新されるしきい値の最大値は、所定値、
たとえば、２¹⁴に制限される。このようにすることによ
り、定常的に発生している雑音を無音区間として取り扱
うことができるようになる。

【００４０】また、入力信号の音声区間と無音区間と
を、次の数式２で示す各フレームの音声信号のパワー累
積値Ｐａと所与のしきい値とに基づいて判別するように
してもよい。

【００４１】

【数２】

【００４２】比較部１２の出力は、条件分岐部１５に送
られる。条件分岐部１５には、リングメモリ蓄積量状態
判別部１６の出力が入力している。また、条件分岐部１
５には、パワー計算部１１を介してフレームメモリ５か
らの、音声信号が送られている。さらに、条件分岐部１
５には、ポーズ継続長設定メモリ１７が接続されてい
る。ポーズ継続長設定メモリ１７には、無音区間の削除
開始点を決定するためのポーズ継続長Ｔｄｅｌ（無音削
除開始点判別値）が設定されている。

【００４３】リングメモリ蓄積量状態判別部１６は、ア
ップダウンカウンタ９から送られてきた蓄積量に基づい
て、リングメモリ７の状態がオーバーフロー直前状態に
なったこと、およびリングメモリ７の状態がアンダーフ
ロー直前状態になったことを検出する。

【００４４】つまり、オーバーフロー検出用データメモ
リ１８にはオーバーフロー検出用データＴｍａｘが、ア
ンダーフロー検出用データメモリ１９にはアンダーフロ
ー検出用データＴｍｉｎが、それぞれ記憶されている。
オーバーフロー検出用データＴｍａｘは、例えば、リン
グメモリ７の総ワード数（ＴＯＴＡＬ）２１８４５より
２００小さい値２１６４５に設定されている。アンダー
フロー検出用データＴｍｉｎは、例えば、２００に設定
されている。

【００４５】そして、アップダウンカウンタ９から送ら
れてきた蓄積量がオーバーフロー検出用データＴｍａｘ
以上になると、リングメモリ蓄積量状態判別部１６から
オーバーフロー直前検出信号が出力される。また、アッ
プダウンカウンタ９から送られてきた蓄積量がアンダー
フロー検出用データＴｍｉｎ以下になると、リングメモ
リ蓄積量状態判別部１６からアンダーフロー直前検出信
号が出力される。条件分岐部１５は、オーバーフロー直
前検出信号が入力されているときにはリングメモリ７が
オーバーフロー直前状態であると判別し、アンダーフロ
ー直前検出信号が入力されているときにはリングメモリ
７がアンダーフロー直前状態であると判別する。

【００４６】条件分岐部１５は、比較部１２から送られ
てくる音声区間または無音区間の判別信号と、リングメ
モリ蓄積量状態判別部１６から送られてくるリングメモ
リ状態に関する検出信号と、ポーズ継続長設定メモリ１
７に設定されているポーズ継続長Ｔｄｅｌとに基づい
て、以下の６つのケースに場合分けを行なう。そして、
それに応じて、マルチプレクサ２０を制御して、音声信
号を所定の処理部に送る。

【００４７】（１）第１ケース（ｃａｓｅ１）入力信号が音声区間であり、かつリングメモリ７がオー
バーフロー直前状態ではないと判別されたときには、第
１ケースとなる。

【００４８】この場合には、音声信号は、マルチプレク
サ２０を介して、ピッチ圧縮伸長手段２３に送られる。
ピッチ圧縮伸長手段２３は、バリアブルスピーチコ
ントロール（ＶＳＣ）を行なうものであり、ＶＴＲの再
生速度倍率をｎとすると、入力信号に対して、圧縮率１
／ｎ以上の圧縮率αで伸長圧縮処理を行なう。圧縮率α
は、圧縮伸長率調整手段４２によって決定される。ここ
で用いられる伸長圧縮法としては、例えば、ポインター
移動量制御による重複加算法（Pointer Interval Contr
ol Overlap and Add : ＰＩＣＯＬＡ）、ＴＤＨＳ(Tim
e Domain Harmonic Scaling)法等がある。ピッチ伸長圧
縮手段２３で伸長圧縮処理が行なわれた信号は、デマル
チプレクサ２７を介してリングメモリ７に送られ、書き
込みクロックにしたがって、リングメモリ７に書き込ま
れる。

【００４９】ＶＴＲの２倍速再生時においては、Ａ／Ｄ
変換部２のサンプリング周波数ｆｓＡＤは１６ＫＨＺで
あり、Ｄ／Ａ変換部８のサンプリング周波数ｆｓＤＡは
８ＫＨＺである。このため、音程は元に戻されて出力さ
れる。

【００５０】従来の一般的な時間軸伸長圧縮において
は、２倍速再生時には圧縮率１／２で、圧縮される。言
い換えれば、２ピッチ周期が１ピッチ周期に間引かれ
る。このため、出力音声は標準音声速度の２倍速とな
る。つまり、２倍速再生の通常再生では、出力音声は標
準音声速度の２倍速となる。ただし、音程は元のままと
なる。

【００５１】これに対し、図２の話速変換部６に設けら
れた上記ピッチ伸長圧縮手段２３では、圧縮伸長率調整
手段４２によって求められた１／２以上の圧縮率αで伸
長圧縮処理が行われる。圧縮伸長率調整手段４２は、リ
ングメモリ７の単位時間ごとの蓄積量の変化量に基づい
て、リングメモリ７への書込量が読出量に対して少なく
なるほど、圧縮率が大きくなるように、つまり音声再生
速度が遅くなるように、そして、リングメモリ７への書
込量が読出量に対して多くなるほど、圧縮率が小さくな
るように、つまり音声再生速度が速くなるように、圧縮
率αを決定する。

【００５２】つまり、リングメモリ蓄積量状態判別部１
６は、タイマ等の一定時間測定手段４１によって計測さ
れる一定時間毎に、アップダウンカウンタ９から送られ
てくるリングメモリ７の蓄積量を圧縮伸長率調整手段４
２に送る。圧縮伸長率調整手段４２は、今回送られてき
た蓄積量から前回送られてきた蓄積量を減算することに
より、単位時間当りの蓄積量の変化量を求める。そし
て、求められた単位時間当りの蓄積量の変化量をＤ／Ａ
変換部８のサンプリング周波数で除することにより、単
位時間当りの伸長時間の変化分ΔＴを算出する。そし
て、算出された単位時間当りの伸長時間の変化分ΔＴに
基づいて、圧縮率αを決定する。

【００５３】より具体的に説明すると、圧縮伸長率調整
手段４２には、たとえば２．０秒毎に、リングメモリ７
の蓄積量が送られてくる。今回送られてきた蓄積量から
前回送られてきた蓄積量を減算することにより、単位時
間当りの蓄積量の変化量が求められる。次に、単位時間
当りの蓄積量の変化量が、Ｄ／Ａ変換部８のサンプリン
グ周波数である８０００で除されることにより、伸長時
間の変化分ΔＴが求められる。そして、予め作成された
伸長時間の変化分に対する圧縮率のデータに基づいて、
伸長時間の変化分ΔＴに対する圧縮率αが求められる。

【００５４】次の表は、ＶＴＲの２倍速再生時における
伸長時間の変化分ΔＴに対する圧縮率αのデータの一例
を示している。この表において、Ｖは、圧縮率に対応す
る音声再生速度を示している。

【００５５】

【表１】

【００５６】この表からわかるように、伸長時間の変化
分ΔＴが小さくなるほど、すなわち、単位時間当たりの
リングメモリ７の蓄積量変化（読出量に対する書込量）
が少なくなるほど、圧縮率αは大きくなり、音声再生速
度が遅くなる。逆に、読出量に対する書込量が多くなる
ほど、圧縮率αは小さくなり、音声再生速度が速くな
る。したがって、音声区間における音声の欠落部をでき
るだけ少なくしつつ、音声区間における音声に対する音
声再生速度を遅くさせることができる。

【００５７】圧縮率αが、１／２以上の圧縮率、たとえ
ば上記表１の中にはないが、説明の便宜上、２／３に決
定されたとすると、３ピッチ周期が２ピッチ周期に間引
かれる。このため、出力音声は標準音声速度の３／２倍
速となる。この場合も音程は、元のままである。このよ
うに、圧縮率２／３で圧縮された場合には、圧縮率１／
２の場合に比べて、２／３−１／２＝１／６だけ、信号
が伸長されることになる。この伸長分が、リングメモリ
７の蓄積量となる。

【００５８】ＰＩＣＯＬＡを用いて、入力信号を圧縮率
２／３で圧縮する方法について、図３を用いて簡単に説
明する。まず、入力信号からピッチ周期が抽出される。
抽出されたピッチ周期をＴｐとする。波形Ａに対して
は、１から０へ直線的に向かう重み（重み関数Ｋ１）が
つけられて、波形Ａ’が作成される。波形Ｂに対しては
０から１に向かう重み（重み関数Ｋ２）がつけられて、
波形Ｂ’が作成される。

【００５９】そして、それらの波形Ａ’およびＢ’が加
え合わされ、長さＴｐの波形Ａ’＊Ｂ’が作成される。
これらの重みは、波形Ａ’＊Ｂ’の前後の接続点での連
続性を保つためにつけられている。つぎに、ポインター
が、圧縮率に基づいて決まる長さである３Ｔｐ分だけ移
動され、同様な操作が行なわれる。これにより、３つの
波形Ａ、Ｂ、Ｃから２つの波形Ａ’＊Ｂ’およびＣが得
られる。このようにして、３ピッチ周期分の信号が、２
ピッチ周期分の信号に圧縮される。

【００６０】ピッチ伸長圧縮手段２３による伸長圧縮法
としては、図１７（ａ）、（ｂ）に示すように、ピッチ
抽出をすることなく、所定長の固定フレーム長Ｔｓ単位
で伸長圧縮処理を行うようにしてもよい。固定フレーム
長Ｔｓは、たとえば入力データの２００個分の長さに設
定される。図１７の例では、３Ｔｓを２Ｔｓにする例を
示している。

【００６１】図１７（ａ）の方法では、固定フレーム長
Ｔｓの波形Ａ、Ｂ、Ｃのうち、波形Ａに対しては、１か
ら０へ直線的に向かう重み（重み関数Ｋ１）がつけられ
て、波形Ａ”が作成される。波形Ｂに対しては０から１
に向かう重み（重み関数Ｋ２）がつけられて、波形Ｂ”
が作成される。

【００６２】そして、それらの波形Ａ”およびＢ”が加
え合わされ、長さＴｓの波形Ａ”＊Ｂ”が作成される。
これらの重みは、波形Ａ”＊Ｂ”の前後の接続点での連
続性を保つためにつけられている。そして、次の波形Ｃ
に対しては、そのまま出力される。これにより、３つの
波形Ａ、Ｂ、Ｃから２つの波形Ａ”＊Ｂ”およびＣが得
られる。このようにして、３Ｔｓ分の信号が、２Ｔｓ分
の信号に圧縮される。

【００６３】図１７（ｂ）の方法では、固定フレーム長
Ｔｓの波形Ａ〜Ｃのうちの波形Ａには先頭からたとえば
２０個のデータに０から１へ直線的に向かう重み（重み
関数Ｋ３）をつけて波形Ａ”を得る。波形Ｂには１８１
個目〜２００個目までの入力データに１から０へ直線的
に向かう重み（重み関数Ｋ４）をつけて波形Ｂ”を得
る。そして、波形Ｃを削除する。次の３つの波形Ｄ〜Ｆ
に対しても、同様な処理が行われる。このようにして、
３つの波形Ａ〜Ｃ（またはＤ〜Ｆ）からなる信号は、２
つの波形Ａ”およびＢ”（またはＤ”およびＥ”）から
なる信号に圧縮される。つまり、３Ｔｓ分の信号が、２
Ｔｓ分の信号に圧縮される。

【００６４】上記固定フレーム長単位での伸長圧縮処理
を用いた場合には、ピッチ周期ごとの伸長圧縮処理を用
いた場合に比べて、音質は低下するが、処理量は軽減さ
れる。

【００６５】なお、この話速変換装置が英語学習器に適
用されている場合には（１倍速再生時）、Ａ／Ｄ変換部
２のサンプリング周波数ｆｓＡＤは８ＫＨＺであり、Ｄ
／Ａ変換部８のサンプリング周波数ｆｓＤＡは８ＫＨＺ
である。この場合には、圧縮伸長率調整手段４２によっ
て、伸長時間の変化分ΔＴに応じて圧縮率αが１以上の
値に決定される。圧縮率αが、たとえば、１．５に決定
された場合には、ピッチ圧縮伸長手段２３で、２ピッチ
周期が３ピッチ周期になるように、音声信号が伸長され
る。つまり、音声区間が１．５倍に伸長される。したが
って、この場合には、１倍速再生の通常再生時に対し
て、３／２−１＝１／２だけ信号が伸長されることにな
り、この伸長分がリングメモリ７の蓄積量となる。

【００６６】（２）第２ケース（ｃａｓｅ２）入力信号が音声区間であり、かつリングメモリ７がオー
バーフロー直前状態であると判別されたときには、第２
ケースとなる。

【００６７】この場合には、音声信号はマルチプレクサ
２０を介して、入力信号削除部２１に送られ、音声信号
が削除される。具体的には、アップダウンカウンタ９の
カウント値が、アンダーフロー検出用データＴｍｉｎに
なるまで、すなわちリングメモリ７がアンダーフロー直
前状態になるまで、リングメモリ７への書き込み動作が
停止される。

【００６８】リングメモリ７がアンダーフロー直前状態
になると、２００個以下の個数、例えば１００個の消音
信号（値”０”の信号）が消音挿入部２２から出力さ
れ、この消音信号がデマルチプレクサ２７を介してリン
グメモリ７に送られて書き込まれる。このように、消音
信号をリングメモリ７へ書き込んでいるのは、音声削除
によって音声信号の繋ぎ目にクリック音が発生するのを
防止するためである。

【００６９】（３）第３ケース（ｃａｓｅ３）入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Ｔｄｅｌ未満であり、かつリング
メモリ７がオーバーフロー直前状態ではないと判別され
たときには、第３ケースとなる。

【００７０】この場合は、上記第１ケースの場合と同じ
処理が行なわれる。

【００７１】（４）第４ケース（ｃａｓｅ４）入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Ｔｄｅｌ未満であり、かつリング
メモリ７がオーバーフロー直前状態であると判別された
ときには、第４ケースとなる。

【００７２】この場合は、上記第２ケースの場合と同じ
処理が行なわれる。

【００７３】（５）第５ケース（ｃａｓｅ５）入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Ｔｄｅｌ以上であり、かつリング
メモリ７がアンダーフロー直前状態ではないと判別され
たときには、第５ケースとなる。

【００７４】この場合には、音声信号はマルチプレクサ
２０を介して、入力信号削除部２５に送られ、音声信号
が削除される。具体的には、リングメモリ７への書き込
み動作が停止される。ただし、音声区間のスタート部分
（無声区間）が欠落するのを防止したり、音声の削除に
よって繋ぎ目にクリック音が発生したりするのを防止す
るために、波形合成挿入部２６によって波形合成挿入処
理が行なわれる。

【００７５】波形合成挿入部２６による波形合成挿入処
理について、図４（ａ）、（ｂ）を用いて説明する。図
４（ａ）による方法では、波形合成挿入部２６は、第１
メモリ３１および第２メモリ３２を備えている。入力信
号削除部２５による入力信号削除処理の開始時において
は、削除開始点から、１フレーム長以下の所定長さＴ
ｓ、例えば１フレーム分の入力信号が、第１メモリ３１
にアドレス順に順次記憶される。次に、第１メモリ３１
のアドレスが大きくなるにしたがって１から０に直線的
に変化する関数Ｋ１が、第１メモリ３１の内容Ａに乗算
される。そして、その乗算結果Ａ’が、再度第１メモリ
３１に書き込まれる。

【００７６】また、入力信号削除部２５による入力信号
削除区間の終了点直前の所定長さＴｓ分の入力信号が、
第２メモリ３２にアドレス順に順次記憶される。次に、
第２メモリ３２のアドレスが大きくなるほど、０から１
に直線的に変化する関数Ｋ２が、第２メモリ３２の内容
Ｂに乗算される。そして、その乗算結果Ｂ’が、再度第
２メモリ３２に書き込まれる。この後、第１メモリ３１
の内容Ａ’と、第２メモリ３２の内容Ｂ’とが加え合わ
されて、所定長さＴｓのデータＡ’＊Ｂ’が得られる。
そして、得られた所定長さＴｓ分のデータＡ’＊Ｂ’が
デマルチプレクサ２７を介して、リングメモリ７に送ら
れ、リングメモリ７に書き込まれる。

【００７７】図４（ｂ）による方法では、削除開始点か
ら、１フレーム長以下の所定長さＴｓ、例えば１フレー
ム分の入力信号が、第１メモリ３１にアドレス順に順次
記憶される。次に、後端に１から０に直線的に変化する
スロープがついた関数Ｋ３が、第１メモリ３１の内容Ａ
に乗算される。そして、その乗算結果Ａ’が、再度第１
メモリ３１に書き込まれる。

【００７８】また、入力信号削除部２５による入力信号
削除区間の終了点直前の所定長さＴｓ分の入力信号が、
第２メモリ３２にアドレス順に順次記憶される。次に、
前端に０から１に直線的に変化するスロープがついた関
数Ｋ４が、第２メモリ３２の内容Ｂに乗算される。そし
て、その乗算結果Ｂ’が、再度第２メモリ３２に書き込
まれる。この後、第１メモリ３１の内容Ａ’と、第２メ
モリ３２の内容Ｂ’とが繋ぎ合わされて、２Ｔｓ分のの
データＡ’＋Ｂ’が得られる。そして、得られた２Ｔｓ
分のデータＡ’＋Ｂ’がデマルチプレクサ２７を介し
て、リングメモリ７に送られ、リングメモリ７に書き込
まれる。図４（ｂ）では、Ｔｓが、１フレーム分の長さ
である例を示したが、１フレームの半分の長さのデータ
をＴｓとしてもよい。

【００７９】なお、入力信号削除部２５による無音区間
の音声信号の削除処理が繰り返し行なわれている場合
に、リングメモリ７がアンダーフロー直前状態になるこ
とがある。この場合には、リングメモリ７がアンダーフ
ロー直前状態なったときから、所定長さＴｓ分の入力信
号が第２メモリ３２に記憶される。そして、第１メモリ
３１に記憶されているデータと、第２メモリ３２に記憶
されているデータにもとづいて、上記と同様な入力信号
削除処理が行なわれる。

【００８０】（６）第６ケース（ｃａｓｅ６）入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Ｔｄｅｌ以上であり、かつリング
メモリ７がアンダーフロー直前状態であると判別された
ときには、第６ケースとなる。

【００８１】この場合は、入力信号は、マルチプレクサ
２０を介して間引き処理部２４に送られる。間引き処理
部２４では、ＶＴＲの再生速度倍率をｎとして、圧縮率
が１／ｎとなるように間引き処理が行なわれる。たとえ
ば、２倍速再生時には入力信号に対して圧縮率１／２で
間引きが行なわれ、３倍速再生時には入力信号に対して
圧縮率１／３で間引きが行なわれる。１倍速再生時に
は、入力信号がそのまま出力される。

【００８２】１／ｎ間引き処理部２４による間引き処理
としては、次のような方法が用いられる。ここでは、２
倍速再生時を例にとって説明する。

【００８３】上述したＰＩＣＯＬＡまたはＴＤＨＳを用
いた時間軸圧縮法を用い、入力信号のピッチを抽出し、
ピッチデータ部分を圧縮率が１／２となるように、間引
く。

【００８４】また、図５（ａ）〜（ｃ）に示すように、
ピッチ抽出をすることなく、所定時間Ｔｓごとに波形を
間引くようにしてもよい。

【００８５】図５（ａ）の方法では、波形Ａ〜Ｄのう
ち、波形Ｂおよび波形Ｄが間引かれ、波形Ａ、Ｃからな
る信号が得られる。

【００８６】図５（ｂ）の方法では、波形Ａ〜Ｄのう
ち、波形Ｂと波形Ｄが間引かれている。また、波形Ａに
は、前端に０から１に上昇するスロープ（関数Ｋ４）
が、後端に１から０に下降するスロープ（関数Ｋ３）が
ついた関数が乗算されて、波形Ａ’が作成される。ま
た、波形Ｃには、前端に０から１に上昇するスロープ
（関数Ｋ４）が、後端に１から０に下降するスロープ
（関数Ｋ３）がついた関数が乗算されて、波形Ｃ’が作
成される。このようにして、４つの波形Ａ〜Ｄからなる
信号は、２つの波形Ａ’およびＣ’からなる信号に圧縮
される。

【００８７】図５（ｃ）の方法では、波形Ａに対して
は、１から０へ直線的に向かう重み（重み関数Ｋ１）が
つけられて、波形Ａ’が作成される。波形Ｂに対しては
０から１に向かう重み（重み関数Ｋ２）がつけられて、
波形Ｂ’が作成される。そして、それらの波形Ａ’およ
びＢ’が加え合わされ、長さＴｓの波形Ａ’＊Ｂ’が作
成される。

【００８８】同様に、波形Ｃに対しては、１から０へ直
線的に向かう重み（関数Ｋ１）がつけられて、波形Ｃ’
が作成される。波形Ｄに対しては０から１に向かう重み
（関数Ｋ２）がつけられて、波形Ｄ’が作成される。そ
して、それらの波形Ｃ’およびＤ’が加え合わされ、長
さＴｓの波形Ｃ’＊Ｄ’が作成される。このようにし
て、４つの波形Ａ〜Ｄからなる信号は、２つの波形Ａ’
＊Ｂ’およびＣ’＊Ｄ’からなる信号に圧縮される。

【００８９】上述のように、第６ケースに該当する場合
には、ＶＴＲの再生倍率をｎとして、圧縮率１／ｎで間
引き処理が行われているが、次のようにして圧縮率を制
御するようにしてもよい。

【００９０】圧縮率１／ｎで間引き処理が行われている
場合、Ｄ／Ａ変換器８のサンプリング周波数ｆｓＤＡと
Ａ／Ｄ変換器２のサンプリング周波数ｆｓＡＤとの比ｆ
ｓＤＡ／ｆｓＡＤが、圧縮率１／ｎと等しい場合には、
リングメモリ７の蓄積量は、変化しない。しかしなが
ら、圧縮率１／ｎの演算精度、サンプリング周波数ｆｓ
ＡＤとｆｓＤＡのクロック精度によっては、ｆｓＤＡ／
ｆｓＡＤが圧縮率１／ｎと等しくならないことが起こり
うる。

【００９１】ｆｓＤＡ／ｆｓＡＤが圧縮率１／ｎより大
きくなったとき（ｆｓＤＡ／ｆｓＡＤ＞１／ｎ）には、
ｆｓＤＡ／ｆｓＡＤ＝１／ａ（ａ＞０）として、｛（１
／ａ）−（１／ｎ）｝だけ、圧縮率が小さくなり、間引
きの度合いが大きくなり、リングメモリ７の蓄積量が減
少していき、リングメモリ７の蓄積量がアンダーフロー
するおそれがある。

【００９２】一方、ｆｓＤＡ／ｆｓＡＤが圧縮率１／
ｎより小さくなったとき（ｆｓＤＡ／ｆｓＡＤ＜１／
ｎ）には、ｆｓＤＡ／ｆｓＡＤ＝１／ａ（ａ＞０）とし
て、｛（１／ｎ）−（１／ａ）｝だけ、圧縮率が大きく
なり、間引きの度合いが小さくなり、リングメモリ７の
蓄積量が増加していく。

【００９３】したがって、間引き処理を行う場合には、
リングメモリ７の蓄積量を確認して、次のように圧縮率
を制御する。ｆｓＤＡ／ｆｓＡＤ＝１／ａ（ａ＞０）と
して、（１／ｎ）−α＜１／ａ＜（１／ｎ）＋αの条件
を満たすαを選定する。ただし、αは、０以上で１以下
の値であり、例えば０．００１〜０．１の範囲の値であ
る。

【００９４】ｆｓＤＡ／ｆｓＡＤが圧縮率１／ｎより大
きくなったとき、すなわち、リングメモリ７の蓄積量が
減少していく場合には、圧縮率を１／ｎから｛（１／
ｎ）＋α｝にする。つまり、圧縮率を大きくし、リング
メモリ７の蓄積量を増加させるようにする。

【００９５】ｆｓＤＡ／ｆｓＡＤが圧縮率１／ｎより小
さくなったとき、すなわち、リングメモリ７の蓄積量が
増加していく場合には、圧縮率を１／ｎから｛（１／
ｎ）−α｝にする。つまり、圧縮率を小さくし、リング
メモリ７の蓄積量を減少させるようにする。

【００９６】上記では、リングメモリ７の蓄積量に基づ
いて、圧縮率を変化させているが、間引き処理が行われ
る場合に、フレーム毎に圧縮率を｛（１／ｎ）−α｝ま
たは｛（１／ｎ）＋α｝に、交互に変化させるようにし
てもよい。

【００９７】図６および図７は、話速変換部６による処
理手順を示している。

【００９８】以下、ＶＴＲの２倍速再生時の場合の話速
変換部６による処理について、説明する。

【００９９】（１）再生開始時の処理再生が開始されて、パワー計算部１１によって最初のフ
レームの平均パワー値Ｐが算出されると（ステップ
１）、算出された平均パワー値Ｐがしきい値Ｔｈ以上か
否かが比較部１２の出力に基づいて判別される（ステッ
プ２）。

【０１００】入力音声信号が無音区間から開始した場
合、最初のフレームにおいては、平均パワー値Ｐはしき
い値Ｔｈより小さくなり、ステップ１１に進む。そし
て、無音区間の継続長（無音区間が継続するフレーム
数）が算出され、算出された継続長がポーズ継続長メモ
リ１７に設定されているポーズ継続長Ｔｄｅｌ以上か否
かが判別される（ステップ１２）。このポーズ継続長Ｔ
ｄｅｌは、たとえば、フレーム数にして４フレーム分の
長さに設定されている。

【０１０１】最初のフレームに対する処理においては、
無音区間の継続長がポーズ継続長Ｔｄｅｌ未満であるの
で、リングメモリ蓄積量状態判別部１６の出力に基づい
て、リングメモリ７がアンダーフロー直前状態か否かが
判別される（ステップ１３、１４）。

【０１０２】最初のフレームに対する処理においては、
リングメモリ７は、アンダーフロー直前状態になってい
るので、フレームデータが間引き処理部２４によって圧
縮率１／２で間引きされ（ステップ２８）、間引き処理
後の圧縮データがリングメモリ７に書き込まれる。この
後、ステップ１に戻る。

【０１０３】（２）第１ケースとなる処理の説明ステップ２で、平均パワー値Ｐがしきい値Ｔｈ以上であ
ると判別されたときには、今回のフレームが音声区間で
あると判断され、ステップ３に進む。ステップ３では、
前フレームが削除区間であったか否かが、第１フラグＦ
１の状態に基づいて判別される。前フレームが削除区間
でない場合には、リングメモリ蓄積量状態判別部１６の
出力に基づいて、リングメモリ７がオーバーフロー直前
状態か否かが判別される（ステップ６、７）。前フレー
ムが削除区間である場合には、ステップ４および５の処
理が行なわれた後、リングメモリ７がオーバーフロー直
前状態か否かが判別される（ステップ６、７）。ステッ
プ４および５の処理については、後述する。

【０１０４】ステップ７において、オーバーフロー直前
状態ではないと判別された場合には、第１ケースとな
り、ピッチ圧縮伸長手段２３によって、今回のフレーム
データが圧縮伸長率調整手段４２によって決定された圧
縮率αで時間軸圧縮される（ステップ８）。圧縮データ
は、リングメモリ７に送られて書き込まれる。この後、
ステップ１に戻る。

【０１０５】（２）第２ケースとなる処理の説明ステップ２で、平均パワー値Ｐがしきい値Ｔｈ以上であ
ると判別されたときには、今回送られてきたフレームは
音声区間であると判断され、ステップ３に進む。ステッ
プ３では、前フレームが削除区間であったか否かが、第
１フラグＦ１の状態に基づいて判別される。前フレーム
が削除区間でない場合には、リングメモリ蓄積量状態判
別部１６の出力に基づいて、リングメモリ７がオーバー
フロー直前状態か否かが判別される（ステップ６、
７）。前フレームが削除区間である場合には、ステップ
４および５の処理が行なわれた後、リングメモリ７がオ
ーバーフロー直前状態か否かが判別される（ステップ
６、７）。ステップ４および５の処理については、後述
する。

【０１０６】ステップ７において、オーバーフロー直前
状態であると判別された場合には、第２ケースとなり、
リングメモリ蓄積量状態判別部１６からアンダーフロー
検出信号が出力されるまで、入力信号削除部２１によっ
て入力信号が削除される（ステップ９）。つまり、リン
グメモリ７がアンダーフロー直前状態になるまで、リン
グメモリ７への書き込みが停止される。

【０１０７】そして、リングメモリ７がアンダーフロー
直前状態になると、消音挿入部２２によって、２００個
以下の所定数の消音信号”０”がリングメモリ７に書き
込まれる（ステップ１０）。そして、ステップ１に戻
る。

【０１０８】上記ステップ１０の処理の代わりに、図９
（ａ）または図９（ｂ）に示すような処理を行なっても
よい。図９（ａ）に示す方法について説明すると、ステ
ップ７でオーバーフロー直前状態と判別されたときか
ら、たとえば、２００個の入力信号に対する波形Ａに対
しては、１から０へ直線的に向かう重み（重み関数Ｋ
１）をつけて波形Ａ’を得る。また、アンダーフロー直
前から２００個前までの２００個の入力信号に対する波
形Ｂに対しては０から１に向かう重み（重み関数Ｋ２）
をつけて、波形Ｂ’を得る。

【０１０９】そして、得られた２つの波形Ａ’および
Ｂ’を加え合わせて、２００個分の長さの波形Ａ’＊
Ｂ’を作成する。そして、この波形Ａ’＊Ｂ’に対する
２００個の信号をリングメモリ７に書き込む。なお、ア
ンダーフロー直前から２００個前の時点の検出は、アッ
プダウンカウンタ９のカウント値に基づいて行なわれ
る。これにより、音声削除区間の前後の音声信号の繋ぎ
目にクリック音が発生するのを、効果的に防止できる。

【０１１０】図９（ｂ）に示す方法について説明する
と、ステップ７でオーバーフロー直前状態と判別された
ときから、たとえば、１００個の入力信号に対する波形
Ａに対しては、１から０へ直線的に向かう重み（重み関
数Ｋ１）をつけて波形Ａ’を得る。また、アンダーフロ
ー直前から１００個前までの１００個の入力信号に対す
る波形Ｂに対しては０から１に向かう重み（重み関数Ｋ
２）をつけて、波形Ｂ’を得る。そして、得られた２つ
の波形Ａ’およびＢ’を繋ぎ合わせた２００個分の信号
をリングメモリ７に書き込む。

【０１１１】上記ステップ９では、オーバーフロー直前
状態であると判別された場合には、リングメモリ蓄積量
状態判別部１６からアンダーフロー検出信号が出力され
るまで、入力信号削除部２１によって入力信号が削除さ
れているが、リングメモリ７に蓄積されているデータ
を、リングメモリ７がアンダーフロー直前状態になるよ
うに、削除するようにしてもよい。

【０１１２】具体的には、リングメモリ７の書込開始ア
ドレスを、図１８（ａ）に示すオーバーフロー直前状態
の時のアドレス（Ｃ地点）から、図１８（ｂ）に示すよ
うにリングメモリ７がアンダーフロー直前状態となるア
ドレス（Ａ地点）までジャンプさせる。したがって、ス
テップ９の処理では、Ａ地点からＣ地点までのアドレス
に蓄積されていたデータが削除されることになる。この
後、図１８（ｃ）に示すように、ステップ１０によって
消音信号が書き込まれた後、入力データが書き込まれて
いく。

【０１１３】ステップ９において、上記のように、リン
グメモリ７に蓄積されているデータをリングメモリ７が
アンダーフロー直前状態になるように削除した場合、ス
テップ１０で消音信号をリングメモリ７に書き込む代わ
りに図１９（ａ）または図１９（ｂ）のような処理を行
ってもよい。

【０１１４】今、リングメモリ７の書込開始アドレス
が、図１８（ａ）に示すオーバーフロー直前状態の時の
アドレス（Ｃ地点）から、図１８（ｂ）に示すようにリ
ングメモリ７がアンダーフロー直前状態となるアドレス
（Ａ地点）までジャンプしたとする。このＡ地点から所
定数、例えば２００先のアドレス（図１９（ａ）のＢ地
点）までに蓄積されているデータＳに対しては、図１９
（ａ）に示すように、１から０へ直線的に向かう重み
（重み関数Ｋ１）をつけて波形Ｓ’を得る。また、それ
以後にリングメモリ７に書き込まれる２００個分の入力
データ（波形Ｔ）に対しては、図１９（ａ）に示すよう
に、０から１に向かう重み（重み関数Ｋ２）をつけて、
波形Ｔ’を得る。

【０１１５】そして、得られた２つの波形Ｓ’および
Ｔ’を加え合わせて、２００個分の長さの波形Ｓ’＊
Ｔ’を作成する。そして、この波形Ｓ’＊Ｔ’に対する
２００個の信号をＡ地点からリングメモリ７に書き込
む。これにより、蓄積データ削除区間の前後の音声信号
の繋ぎ目にクリック音が発生するのを、効果的に防止で
きる。

【０１１６】図１９（ｂ）に示す方法について説明する
と、図１８（ｂ）のＡ地点から所定数、例えば１００個
先のアドレス（図１９（ｂ）のＢ地点）までに蓄積され
ているデータＳに対しては、１から０へ直線的に向かう
重み（重み関数Ｋ１）をつけて波形Ｓ’を得る。また、
それ以後にリングメモリ７に書き込まれる１００個分の
入力データ（波形Ｔ）に対しては、０から１に向かう重
み（重み関数Ｋ２）をつけて、波形Ｔ’を得る。そし
て、得られた２つの波形Ｓ’およびＴ’を繋ぎ合わせた
２００個分の信号をＡ地点からリングメモリ７に書き込
む。

【０１１７】（３）第３ケースとなる処理の説明ステップ２で平均パワー値Ｐがしきい値Ｔｈより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され（ステップ１１）、算出された継続長がポーズ
継続長メモリ１７に設定されているポーズ継続長Ｔｄｅ
ｌ以上か否かが判別される（ステップ１２）。そして、
無音区間の継続長がポーズ継続長Ｔｄｅｌ未満であると
判別された場合には、リングメモリ蓄積量状態判別部１
６の出力に基づいて、アンダーフロー直前状態か否かが
判別される（ステップ１３、１４）。

【０１１８】リングメモリ７がアンダーフロー直前状態
になっていないときには、リングメモリ蓄積量状態判別
部１６の出力に基づいて、オーバーフロー直前状態か否
かが判別される（ステップ６、７）。オーバーフロー直
前状態でない場合には、第３ケースとなり、ピッチ圧縮
伸長手段２３によって、今回のフレームデータが圧縮伸
長率調整手段４２によって決定された圧縮率αで時間軸
圧縮される（ステップ８）。圧縮データは、リングメモ
リ７に送られて書き込まれる。この後、ステップ１に戻
る。

【０１１９】（４）第４ケースとなる処理の説明ステップ２で平均パワー値Ｐがしきい値Ｔｈより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され（ステップ１１）、算出された継続長がポーズ
継続長メモリ１７に設定されているポーズ継続長Ｔｄｅ
ｌ以上か否かが判別される（ステップ１２）。そして、
無音区間の継続長がポーズ継続長Ｔｄｅｌ未満であると
判別された場合には、リングメモリ蓄積量状態判別部１
６の出力に基づいて、アンダーフロー直前状態か否かが
判別される（ステップ１３、１４）。

【０１２０】リングメモリ７がアンダーフロー直前状態
になっていないときには、リングメモリ蓄積量状態判別
部１６の出力に基づいて、オーバーフロー直前状態か否
かが判別される（ステップ６、７）。オーバーフロー直
前状態である場合には、第４ケースとなり、リングメモ
リ蓄積量状態判別部１６からアンダーフロー検出信号が
出力されるまで、入力信号削除部２１によって入力信号
が削除される（ステップ９）。つまり、リングメモリ７
がアンダーフロー直前状態になるまで、リングメモリ７
への書き込みが中断される。

【０１２１】そして、リングメモリ７がアンダーフロー
直前状態になると、消音挿入部２２によって、２００個
以下の所定数の消音信号”０”がリングメモリ７に書き
込まれる（ステップ１０）。そして、ステップ１に戻
る。

【０１２２】（５）第５ケースとなる処理の説明ステップ２で平均パワー値Ｐがしきい値Ｔｈより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され（ステップ１１）、算出された継続長がポーズ
継続長メモリ１７に設定されているポーズ継続長Ｔｄｅ
ｌ以上か否かが判別される（ステップ１２）。そして、
無音区間の継続長がポーズ継続長Ｔｄｅｌ以上であると
判別された場合には、リングメモリ蓄積量状態判別部１
６の出力に基づいて、アンダーフロー直前状態か否かが
判別される（ステップ１５、１６）。

【０１２３】リングメモリ７がアンダーフロー直前状態
でないときには、第５ケースとなり、今回のフレームが
入力信号削除部２５による削除区間であることを示す第
１フラグＦ１がセットされる（ステップ１７）。この第
１フラグＦ１は、電源投入時の初期設定において、リセ
ット（Ｆ１＝０）されている。そして、今回のフレーム
が入力信号削除部２５による削除区間の最初のフレーム
であるか否かを示す第２フラグＦ２がリセットされてい
るか否かが判別される（ステップ１８）。

【０１２４】この第２フラグＦ２は、電源投入時の初期
設定において、リセット（Ｆ２＝０）されている。そし
て、入力信号削除部２５による削除区間の最初のフレー
ムに対する処理が終了したときにセット（Ｆ２＝１）に
される。そして、入力信号削除部２５による一連の削除
区間に対する処理が終了したときにリセット（Ｆ２＝
０）される。

【０１２５】したがって、今回のフレームが入力信号削
除部２５による削除区間の最初のフレームであるときに
は、第２フラグＦ２は、リセット（Ｆ２＝０）されてい
る。第２フラグＦ２がリセットされているときには、波
形合成挿入部２６によって第１メモリ３１に今回のフレ
ームデータが記憶される（ステップ１９）。また、入力
信号削除部２５によって今回のフレームデータのリング
メモリ７への書き込みが停止される（ステップ２０）。
つまり、今回のフレームデータが削除される。そして、
第２フラグＦ２がセット（Ｆ２＝１）された後（ステッ
プ２１）、ステップ１に戻る。

【０１２６】さらに、無音区間が続いている場合には、
ステップ２、１１、１２、１５を通ってステップ１６に
移り、リングメモリ蓄積量状態判別部１６の出力に基づ
いて、リングメモリ７がアンダーフロー直前状態か否か
が判別される。

【０１２７】リングメモリ７がアンダーフロー直前状態
でないときには、今回のフレームが入力信号削除部２５
による削除区間であることを示す第１フラグＦ１がセッ
トされる（ステップ１７）。そして、今回のフレームが
入力信号削除部２５による削除区間の最初フレームであ
るか否かを示す第２フラグＦ２がリセットされているか
否かが判別される（ステップ１８）。

【０１２８】この場合には、第２フラグＦ２はセット
（Ｆ２＝１）されているので、今回のフレームが入力信
号削除部２５による削除区間の最初のフレームでないと
判断される。この場合には、波形合成挿入部２６によっ
て第２メモリ３２に今回のフレームデータが記憶される
（ステップ２２）。また、入力信号削除部２５によって
今回のフレームデータのリングメモリ７への書き込みが
停止される（ステップ２３）。そして、ステップ１に戻
る。

【０１２９】そして、さらに、無音区間が続きかつリン
グメモリ７がアンダーフロー直前状態となっていないと
きには、ステップ２、１１、１２、１５、１６、１７、
１８、２２および２３の処理が繰り返される。つまり、
第２メモリ３２のフレームデータが更新されるととも
に、フレームデータのリングメモリ７への書き込みが停
止される。

【０１３０】この後、音声区間のフレームデータが入力
されたときには、ステップ２において、平均パワー値Ｐ
がしきい値Ｔｈ以上となるので、前フレームが入力信号
削除部２５による削除区間であったか否かが、第１フラ
グＦ１状態に基づいて判別される（ステップ３）。この
場合には、第１フラグＦ１がセット（Ｆ１＝１）されて
いるので、前フレームが入力信号削除部２５による削除
区間であったと判別され、ステップ４に移る。ステップ
４では、入力信号削除部２５による削除処理が停止せし
められるとともに、波形合成挿入部２６による波形合成
挿入処理が行なわれる。

【０１３１】すなわち、図４（ａ）を用いて既に説明し
たように、第１メモリ３１の内容に１から０に直線的に
変化する関数が乗算され、第２メモリ３２の内容に０か
ら１に直線的に変化する関数が乗算され、これらの両乗
算結果が加え合わされる。この加算結果（図４（ａ）の
Ａ’＊Ｂ’に相当する。）が、デマルチプレクサ２７を
介して、リングメモリ７に送られ、リングメモリ７に書
き込まれる。

【０１３２】この後、第１フラグＦ１および第２フラグ
Ｆ２がリセット（Ｆ１＝Ｆ２＝０）される（ステップ
５）。そして、ステップ６に進む。

【０１３３】ところで、連続している無音区間に対し
て、上記のような入力信号削除部２５による削除処理が
繰り返し行なわれている場合において、リングメモリ７
がアンダーフロー直前状態になることがある。この場合
には、上記ステップ１６でＹＥＳとなり、ステップ２４
に移る。ステップ２４では、前フレームが入力信号削除
部２５による削除区間であったか否かが、第１フラグＦ
１の状態に基づいて判別される。

【０１３４】この場合には、第１フラグＦ１がセット
（Ｆ１＝１）されているので、ステップ２５に進み、第
２メモリ３２に今回のフレームデータが記憶される。そ
して、入力信号削除部２５による削除処理が停止せしめ
られるとともに、波形合成挿入部２６による波形合成挿
入処理が行なわれる（ステップ２６）。そして、第１フ
ラグＦ１および第２フラグＦ２がリセット（Ｆ１＝Ｆ２
＝０）された後（ステップ２７）、ステップ１に進む。

【０１３５】上記ステップ２６における波形合成挿入部
２６による波形合成挿入処理には、上記ステップ４で説
明した波形合成挿入処理とほぼ同様であるが、第２メモ
リ３２に記憶されているフレームデータが、リングメモ
リ７がアンダーフロー直前状態になった後のフレームデ
ータである点が、上記ステップ４で説明した処理の場合
と異なっている。

【０１３６】なお、上記ステップ２５の処理を省略し、
ステップ２４でＹＥＳとなった場合に、第２メモリ３２
に今回のフレームデータを記憶させることなく、ステッ
プ２６に移るようにしてもよい。この場合には、ステッ
プ２６で行なわれる波形合成挿入処理においては、上記
ステップ４で説明した波形合成挿入処理と同様に、第２
メモリ３２に記憶されているアンダーフロー直前状態よ
り前のフレームデータ（前回のフレームデータ）が用い
られる。

【０１３７】また、上記ステップ２２の処理を省略する
とともに上記ステップ３と上記ステップ４との間に、フ
レームデータを第２メモリ３２に記憶させるステップを
追加するようにしてもよい。この場合には、ステップ４
においては、上記ステップ１９において第１メモリ３１
に記憶された内容と、上記ステップ３と上記ステップ４
との間に追加されたステップで第２メモリ３２に記憶さ
れた内容とに基づいて、波形合成挿入処理が行われる。

【０１３８】（６）第６ケースとなる処理の説明ステップ２で平均パワー値Ｐがしきい値Ｔｈより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され（ステップ１１）、算出された継続長がポーズ
継続長メモリ１７に設定されているポーズ継続長Ｔｄｅ
ｌ以上か否かが判別される（ステップ１２）。そして、
無音区間の継続長がポーズ継続長Ｔｄｅｌ以上であると
判別された場合には、リングメモリ蓄積量状態判別部１
６の出力に基づいて、アンダーフロー直前状態か否かが
判別される（ステップ１５、１６）。

【０１３９】リングメモリ７がアンダーフロー直前状態
であるときには、前フレームが入力信号削除部２５によ
る削除区間であったか否かが、第１フラグＦ１の状態に
基づいて判別される（ステップ２４）。第１フラグＦ１
がリセットされている場合（Ｆ１＝０）、すなわち、前
フレームが入力信号削除部２５による削除区間でなかっ
た場合には、第６ケースとなり、ステップ２８に移る。
ステップ２８では、間引き処理部２４によって、今回の
フレームデータが圧縮率１／２で間引き処理が行なわれ
る。そして、間引き処理されたデータは、リングメモリ
７に送られて書き込まれる。この後、ステップ１に戻
る。

【０１４０】つまり、無音区間の継続長がポーズ継続長
Ｔｄｅｌ以上であっても、リングメモリ７がアンダーフ
ロー直前状態であり、かつ前フレームが入力信号削除部
２５による削除区間でない場合には、フレームデータは
削除されず、圧縮率１／２で間引き処理が行なわれた
後、リングメモリ７に書き込まれる。

【０１４１】図７においては、ステップ１２において、
無音区間の継続長が設定されたポーズ継続長Ｔｄｅｌよ
り長いか否かが判別されているが、図８のステップ１２
Ａに示すように、無音区間の継続長Ｔが設定された第１
基準長Ｔ１未満か（Ｔ＜Ｔ１）、無音区間の継続長Ｔが
設定された第１基準長Ｔ１以上で設定された第２基準長
Ｔ２（ただしＴ１＜Ｔ２）未満か（Ｔ１≦Ｔ＜Ｔ２）、
または無音区間の継続長Ｔが設定された第２基準長Ｔ２
以上か（Ｔ≧Ｔ２）を、判別するようにしてもよい。第
１基準長としては、たとえば、４フレーム分の長さが、
第２基準長としてはたとえば４０フレーム分の長さが設
定される。

【０１４２】そして、図８に示すように、各判別結果に
応じて、次のようなステップに進むようにしてもよい。
すなわち、無音区間の継続長Ｔが設定された第１基準長
Ｔ１未満（Ｔ＜Ｔ１）である場合には、ステップ１３に
進む。無音区間の継続長Ｔが設定された第１基準長Ｔ１
以上で設定された第２基準長Ｔ２（Ｔ１＜Ｔ２）未満
（Ｔ１≦Ｔ＜Ｔ２）であるときには、ステップ２８に進
んで１／ｎ間引き処理による間引きを行なう。無音区間
の継続長Ｔが設定された第２基準長Ｔ２以上（Ｔ≧Ｔ
２）であるときには、ステップ１５に進む。

【０１４３】図１０は、２倍速再生時の入力信号と出力
信号との関係を示し、特に無音区間の入力信号が削除さ
れる様子を示している。図１１および図１２は、リング
メモリ７へのデータ書き込み開始点、リングメモリ７か
らのデータ読み出し開始点ならびに図１０の各点Ａ〜Ｈ
におけるリングメモリ７の状態を示している。

【０１４４】２倍速再生開始時においては、入力信号は
無音区間となっており、かつリングメモリ７は空状態で
あるので（図１１（ａ）参照）、フレームデータが間引
き処理部２４によって圧縮率１／２で間引かれた後、リ
ングメモリ７に書き込まれていく。

【０１４５】そして、リングメモリ７の蓄積量Ｔｍがア
ンダーフロー検出用データＴｍｉｎに達すると、リング
メモリ７からのデータの読み出しが開始される（図１１
（ｂ）参照）。

【０１４６】そして、入力信号の音声区間ａに対するフ
レームデータが送られてくると（Ａ点）、フレームデー
タは、圧縮伸長率調整手段４２によって決定された１／
２以上の圧縮率αで、ピッチ圧縮伸長手段２３により圧
縮される。入力信号と出力信号との長さが一致する圧縮
率１／２の圧縮を基準とすると、圧縮率αが１／２以外
のときにはフレームデータが伸長される。この意味で、
図１０には、伸長処理と記載されている。そして、この
圧縮データがリングメモリ７に書き込まれる。Ａ点にお
いては、図１１（ｃ）に示すように、蓄積量ＴｍＡは、
Ｔｍｉｎのままである。

【０１４７】入力信号の音声区間ａに対する出力信号ａ
１は、Ａ点での蓄積量ＴｍＡ分だけ遅れて読み出されて
いく。そして、入力信号の音声区間ａが入力され終わっ
た時点（Ｂ点）では、図１１（ｄ）に示すように、今回
の圧縮区間の開始点であるＡ点での蓄積量Ｔｍｉｎと、
Ａ点からＢ点までの音声区間ａの圧縮データの、圧縮率
１／２の圧縮に対する伸長分ＳｔＢとの和がリングメモ
リ７の蓄積量ＴｍＢ（＝ＳｔＢ＋Ｔｍｉｎ）となる。し
たがって、入力信号の音声区間ａに対する出力信号ａ１
は、Ｂ点からＴｍＢ（＝ＳｔＢ＋Ｔｍｉｎ）分が経過し
た点で出力され終わる。

【０１４８】入力信号の音声区間ａに続くポーズ継続長
Ｔｄｅｌ未満の無音区間のフレームデータも、ピッチ圧
縮伸長手段２３によって１／２以上の圧縮率αで圧縮さ
れる。この無音区間に続いて音声区間ｂが入力される
と、この音声区間ｂのフレームデータもピッチ圧縮伸長
手段２３によって１／２以上の圧縮率αで圧縮される。

【０１４９】そして、入力信号の音声区間ｂが入力され
終わった時点（Ｃ点）では、図１１（ｅ）に示すよう
に、今回の圧縮区間の開始点であるＡ点での蓄積量Ｔｍ
ｉｎと、Ａ点からＣ点までの入力信号に対応する圧縮デ
ータの、１／２圧縮に対する伸長分ＳｔＣとの和がリン
グメモリ７の蓄積量ＴｍＣ（＝ＳｔＣ＋Ｔｍｉｎ）とな
る。したがって、入力信号の音声区間ｂに対する出力信
号ｂ１は、Ｃ点からＴｍＣ（＝ＳｔＣ＋Ｔｍｉｎ）分が
経過した点で出力され終わる。

【０１５０】入力信号の音声区間ｂに続いて、ポーズ継
続長Ｔｄｅｌ以上の長さの無音区間の信号が送られてき
たときには、ポーズ継続長Ｔｄｅｌに達するまで（Ｄ
点）はフレームデータが、ピッチ圧縮伸長手段２３によ
って１／２以上の圧縮率αで圧縮される。

【０１５１】Ｄ点では、図１１（ｆ）に示すように、今
回の圧縮区間の開始点であるＡ点での蓄積量Ｔｍｉｎ
と、Ａ点からＤ点までの入力信号に対応する圧縮データ
の、１／２圧縮に対する伸長分ＳｔＤとの和がリングメ
モリ７の蓄積量ＴｍＤ（＝ＳｔＤ＋Ｔｍｉｎ）となる。
したがって、入力信号の音声区間ｂとＤ点との間の無音
区間に対する出力信号は、Ｄ点からＴｍＤ（＝ＳｔＤ＋
Ｔｍｉｎ）分が経過した点で出力され終わる。

【０１５２】ポーズ継続長Ｔｄｅｌ以降の無音区間のフ
レームデータは、リングメモリ７の蓄積量がアンダーフ
ロー検出用データＴｍｉｎ以下になるまで、入力信号削
除部２５によって削除される。このポーズ削除部分の長
さＳｔｄは、今回の圧縮区間の開始点であるＡ点からＤ
点までの入力信号に対応する圧縮データの、１／２圧縮
に対する伸長分ＳｔＤと等しくなる。入力信号削除部２
５によって削除処理が行なわれた後においては、波形合
成挿入部２６によってクリック音防止のための合成波形
が挿入されるが、図１０には挿入された合成波形部分を
省略してある。

【０１５３】入力信号が削除された区間の最終点（Ｅ
点）においては、図１２（ｇ）に示すように、リングメ
モリ７の蓄積量ＴｍＥは、アンダーフロー検出用データ
Ｔｍｉｎ以下となる。ここでは、蓄積量ＴｍＥがアンダ
ーフロー検出用データＴｍｉｎに等しくなった例を示し
ている。

【０１５４】Ｅ点からの無音区間に対するフレームデー
タは、間引き処理部２４によって、圧縮率１／２で間引
かれた後、フレームメモリ７に書き込まれる。そして、
音声区間ｃの信号が入力さると（Ｆ点）、この音声区間
ｃのフレームデータがピッチ圧縮伸長手段２３によっ
て、１／２以上の圧縮率αで圧縮される。つまり、新た
な圧縮区間が開始される。そして、圧縮データがリング
メモリ７に書き込まれる。

【０１５５】Ｆ点では、図１２（ｈ）に示すように、リ
ングメモリ７の蓄積量ＴｍＦは、Ｅ点のときと同じＴｍ
ｉｎとなっている。

【０１５６】入力信号の音声区間ｃに対する出力信号ｃ
１は、Ｆ点での蓄積量Ｔｍｉｎ分だけ遅れて出力されて
いく。入力信号の音声区間ｃに続くポーズ継続長Ｔｄｅ
ｌ未満の無音区間（音声区間ｃからＧ点までの無音区
間）のフレームデータも、ピッチ圧縮伸長手段２３によ
って１／２以上の圧縮率αで圧縮される。

【０１５７】Ｇ点では、図１２（ｉ）に示すように、今
回の圧縮区間の開始点であるＦ点での蓄積量Ｔｍｉｎ
と、Ｆ点からＧ点までの入力信号に対応する圧縮データ
の、１／２圧縮に対する伸長分ＳｔＧとの和がリングメ
モリ７の蓄積量ＴｍＧ（＝ＳｔＧ＋Ｔｍｉｎ）となる。
したがって、入力信号の音声区間ｃからＧ点までの無音
区間に対する出力信号は、Ｇ点からＴｍＧ（＝ＳｔＧ＋
Ｔｍｉｎ）分が経過した点で出力され終わる。

【０１５８】ポーズ継続長Ｔｄｅｌ以降の無音区間のフ
レームデータは、リングメモリ７の蓄積量がアンダーフ
ロー検出用データＴｍｉｎになるまで、入力信号削除部
２５によって削除される。このポーズ削除部分の長さＳ
ｔｄは、今回の圧縮区間の開始点であるＦ点からＧ点ま
での入力信号に対応する圧縮データの、１／２圧縮に対
する伸長分ＳｔＧと等しくなる。

【０１５９】入力信号が削除された区間の最終点（Ｈ
点）においては、図１２（ｊ）に示すように、リングメ
モリ７の蓄積量ＴｍＨは、アンダーフロー検出用データ
Ｔｍｉｎ以下となる。ここでは、蓄積量ＴｍＨがアンダ
ーフロー検出用データＴｍｉｎに等しくなった例を示し
ている。

【０１６０】Ｈ点からの無音区間に対するフレームデー
タは、間引き処理部２４によって、圧縮率１／２で間引
かれた後、フレームメモリ７に書き込まれる。そして、
音声区間ｄの信号が入力されると、この音声区間ｄのフ
レームデータがピッチ圧縮伸長手段２３によって、１／
２以上の圧縮率αで圧縮される。そして、伸長されたデ
ータがリングメモリ７に書き込まれる。

【０１６１】図１３は、２倍速再生時の入力信号と出力
信号との関係を示し、特にオーバーフロー直前状態とな
ったときに、入力信号が削除される様子を示している。
図１４は、図１３の各点Ｓ〜Ｕにおけるリングメモリ７
の状態を示している。

【０１６２】ある時点からＴ点までの、音声区間ａ、
ｂ、ｃ等と無音区間とを含む一連の入力信号に対するフ
レームデータが、ピッチ圧縮伸長手段２３によって１／
２以上の圧縮率αで圧縮され（圧縮率αが１／２以外の
ときには、圧縮率１／２の圧縮に対しては伸長され）て
いるとする。この場合には、リングメモリ７に伸長分が
蓄積されていく。

【０１６３】音声区間ｂの入力開始点（Ｓ点）において
は、図１４（ａ）に示すように、当該１連の入力信号の
圧縮処理の開始点での蓄積量Ｔｍｉｎと、上記圧縮処理
の開始点からＳ点までの入力信号に対応する圧縮データ
の、１／２圧縮に対する伸長分ＳｔＳとの和がリングメ
モリ７の蓄積量ＴｍＳ（＝ＳｔＳ＋Ｔｍｉｎ）となる。
したがって、音声区間ｂに対する出力信号ｂ１は、Ｓ点
からＴｍＳ（＝ＳｔＳ＋Ｔｍｉｎ）分が経過した点で出
力され始められる。

【０１６４】音声区間ｃの入力信号に対応する圧縮デー
タがリングメモリ７に書き込まれた時点（Ｔ点）におい
て、リングメモリ７がオーバーフロー直前状態になった
とする。すなわち、Ｔ点において、リングメモリ７の蓄
積量がオーバーフロー検出用データＴｍａｘ以上になっ
たとする。

【０１６５】Ｔ点においては、図１４（ｂ）に示すよう
に、当該１連の入力信号に対する圧縮処理の開始点での
蓄積量Ｔｍｉｎと、上記圧縮処理開始点からＴ点までの
入力信号に対応する圧縮データの、１／２圧縮に対する
伸長分ＳｔＴとの和がリングメモリ７の蓄積量ＴｍＴ
（＝ＳｔＴ＋Ｔｍｉｎ）となる。言い換えれば、リング
メモリ７の全ワード数をＴＯＴＡＬとし、オーバーフロ
ー検出用データをＴｍａｘとし、ＴＯＴＡＬとＴｍａｘ
との差をＤｍｉｎとすると、Ｔ点での蓄積量Ｔｍｔは、
Ｔｍａｘに等しいので、ＴＯＴＡＬ−Ｄｍｉｎとなる。

【０１６６】したがって、当該１連の入力信号に対する
出力信号は、Ｔ点から蓄積量ＴｍＴ（＝ＳｔＴ＋Ｔｍｉ
ｎ）分遅れた時点で出力され終わる。

【０１６７】Ｔ点において、リングメモリ７がオーバー
フロー直前状態になると、それ以後の入力信号に対して
は、リングメモリ７がアンダーフロー直前状態になるま
で、入力信号削除部２１によって無条件に削除される。
入力信号削除部２１によって削除処理が行なわれた後に
おいては、消音挿入部２２によって消音が挿入される
が、図１３には挿入された消音部分を省略してある。リ
ングメモリ７がオーバーフロー直前状態になった後（Ｔ
点）、フレームデータが削除されていき、図１４（ｃ）
に示すようにＵ点でリングメモリ７がアンダーフロー直
前状態（蓄積量ＴｍＵ＝Ｔｍｉｎ）になったとする。こ
の場合には、Ｔ点からＵ点までの４つの無音区間および
３つの音声区間ｄ、ｅ、ｆからなる入力信号が削除され
る。したがって、Ｔ点からＵ点までの入力信号は、出力
信号としては現れない。

【０１６８】Ｕ点の後に音声区間ｇの信号が入力される
と、この音声区間に対するフレームデータは、ピッチ圧
縮伸長手段２３によって１／２以上の圧縮率αで圧縮さ
れ（圧縮率αが１／２以外のときには、圧縮率１／２の
圧縮に対しては伸長され）た後、リングメモリ７に書き
込まれていく。音声区間ｇに対する出力信号ｇは、Ｕ点
でのリングメモリ７の蓄積量Ｔｍｉｎ分だけ遅れて出力
され始められる。

【０１６９】上記実施例では、入力信号の音声区間と無
音区間とを、各フレームの平均パワー値に基づいて判別
しているが、各フレームの平均振幅に基づいて判別する
ようにしてもよい。この場合には、図１５に示すよう
に、図２のパワー計算部１１の代わりにフレーム単位で
平均振幅値を計算する平均振幅計算部１１Ａが設けら
れ、しきい値メモリ１３Ａには、たとえば、値２⁶のし
きい値が設定される。そして、平均振幅計算部１１Ａに
よって計算された平均振幅値と、しきい値メモリ１３Ａ
のしきい値とが、比較部１２Ａによって比較されること
により、音声区間か無音区間かが判別される。

【０１７０】つまり、平均振幅値がしきい値以上であれ
ば音声区間と判別され、平均振幅値がしきい値未満であ
れば無音区間と判別される。フレーム単位の平均振幅値
Ｗは、サンプリングされた１フレーム内の各音声信号の
振幅をｉ₀、ｉ₁、…ｉ_N-1（ただし、Ｎ＝２００）と
すると、次の数式３に基づいて算出される。

【０１７１】

【数３】

【０１７２】その他の処理については、図２の話速変換
部６による処理と同じであるので、その説明を省略す
る。

【０１７３】なお、この場合においても、次のようにし
て、しきい値を変更するようにしてもよい。すなわち、
図１５に点線で示すように、平均振幅定常状態検出およ
びしきい値更新部１４Ａを設ける。平均振幅定常状態検
出およびしきい値更新部１４Ａは、平均振幅計算部１１
Ａからの平均振幅値Ｗが、所定フレーム数にわたって一
定であったか否かを判別し、一定であったときには（定
常状態）、そのときの平均振幅値Ｗの２倍の値をしきい
値メモリ１３Ａに書き込み、しきい値を更新させる。た
だし、更新されるしきい値の最大値は、所定値、たとえ
ば２⁸に制限される。

【０１７４】また、入力信号の音声区間と無音区間と
を、次の数式４で示す各フレームの音声信号の振幅累積
値Ｗａと所与のしきい値とに基づいて判別するようにし
てもよい。

【０１７５】

【数４】

【０１７６】また、入力信号の音声区間と無音区間と
を、各フレームの信号の周期性を検出し、検出した周期
が予め定められた音声信号のピッチ周期範囲内であれ
ば、音声区間であると判別し、検出した周期が予め定め
られた音声信号のピッチ周期範囲外であれば無音区間で
あると判別するようにしてもよい。

【０１７７】この場合には、図１６に示すように、図２
のパワー計算部１１の代わりに、自己相関法に基づい
て、フレームごとの周期性を検出するピッチ周期検出部
１１Ｂが設けられ、しきい値メモリ１３Ｂには、音声信
号のピッチ周期範囲が設定される。そして、ピッチ周期
検出部１１Ｂで検出された周期と、しきい値メモリ１３
Ｂに設定された音声信号のピッチ周期範囲とが、比較部
１２Ｂによって比較される。

【０１７８】設定される音声信号のピッチ周期範囲は、
再生速度により異なり、ｎ倍速再生のときには、たとえ
ば、６６×ｎ（Ｈｚ）〜３２０×ｎ（Ｈｚ）の範囲に設
定される。したがって、２倍速再生時には、音声信号の
ピッチ周期範囲は、１３２Ｈｚ〜６４０Ｈｚの範囲に設
定される。その他の処理については、図２の話速変換部
６による処理と同じであるので、その説明を省略する。

【０１７９】また、入力信号の音声区間と無音区間と
を、各フレームの信号のパワースペクトルと、定常状態
のパワースペクトルと比較することにより、判別するよ
うにしてもよい。

【０１８０】この場合には、図２０に示すように、図２
のパワー計算部１１の代わりに、フレームごとに所定の
１または複数の周波数帯域に対するパワースペクトルを
算出するパワースペクトル算出部１１Ｃが設けられる。
また、上記所定の１または複数の周波数帯域に対する定
常状態のパワースペクトルがパワースペクトル記憶部１
３Ｃに記憶されている。

【０１８１】パワースペクトル記憶部１３Ｃの内容は、
パワースペクトル算出部１１Ｃによって算出されたパワ
ースペクトルの変化状態に基づいて、パワースペクトル
定常状態検出部１４Ｂが定常状態であることを検出した
ときには、検出された定常状態でのパワースペクトルに
更新される。

【０１８２】入力信号がパワースペクトル算出部１１Ｃ
に送られてくると、フレームごとに所定の１または複数
の周波数帯域に対するパワースペクトルが算出される。
そして、算出されたパワースペクトルと、パワースペク
トル記憶部１３Ｃに記憶されている定常状態のパワース
ペクトルとが比較部１２Ｃによって比較される。

【０１８３】算出されたパワースペクトルが定常状態の
パワースペクトルに対して、変動していれば、そのフレ
ームは音声区間と判別される。逆に、算出されたパワー
スペクトルが定常状態のパワースペクトルに対して、変
動していなければ、そのフレームは無音区間と判別され
る。

【０１８４】具体的には、パワースペクトル記憶部１３
Ｃには、上記所定の１または複数の周波数帯域に対する
定常状態のパワースペクトルに基づいて、上記所定の１
または複数の周波数帯域に対するしきい値が記憶され
る。そして、パワースペクトル記憶部１３Ｃに記憶され
ている。パワースペクトル算出部１１Ｃによって算出さ
れた上記所定の１または複数の周波数帯域に対するパワ
ースペクトルと、パワースペクトル記憶部１３Ｃに記憶
されている対応するしきい値とが比較されることによ
り、入力信号が音声区間か無音区間かが判別される。

【０１８５】たとえば、定常状態のパワースペクトルが
図２１の（ａ）に示されているように、雑音のみのパワ
ースペクトルであるとする。また、雑音が含まれていな
い音声のパワースペクトルが図２１の（ｂ）に示されて
いるものとする。定常状態において、図２１（ａ）のパ
ワースペクトルで示される雑音が存在する場合に、図２
１（ｂ）で示すパワースペクトルを持つ音声信号が入力
すると、そのパワースペクトルは、図２１（ｃ）に示さ
れるように、両者のパワースペクトルが合成されたもの
となる。

【０１８６】したがって、たとえば、定常状態のパワー
スペクトルにおいてパワーが比較的小さい周波数帯域ｆ
ａおよびｆｂに対するパワーは、音声区間のパワースペ
クトルにおいては大幅に増加する。つまり、定常状態の
パワースペクトルにおいてパワーが比較的小さい１また
は複数の周波数帯域における定常状態のパワーと、入力
信号のパワースペクトルの上記１または複数の周波数帯
域におけるパワーとを比較することにより、入力信号が
音声区間か無音区間かを判別することができる。

【０１８７】なお、定常状態の雑音が高い周波数帯域の
雑音であると判明している場合には、雑音の影響の少な
い低い周波数帯域（例えば、４ＫＨｚ以下の周波数帯
域）に対するパワースペクトルを算出し、算出されたパ
ワースペクトルが所定のしきい値以上か否かによって、
入力信号が音声区間か無音区間かを判別することもでき
る。

【０１８８】また、各フレームのパワー平均値Ｐと、し
きい値Ｔｈとを比較することにより、音声区間と無音区
間とを判別する場合において、リングメモリ７の蓄積量
に基づいて、しきい値Ｔｈを変化させるようにしてもよ
い。すなわち、リングメモリ７の蓄積量が少なくなるほ
ど、言い換えれば、リングメモリ７の空領域が多くなる
ほど、音声区間の欠落部が少なくなるようにしきい値Ｔ
ｈは小さくされる。これにより、出力音声が自然により
近くなる。

【０１８９】つまり、図２２に示すように、しきい値調
整手段５１を設ける。しきい値調整手段５１は、リング
メモリ蓄積量状態判別部１６からリングメモリ７の蓄積
量を得る。そして、得られたリングメモリ７の蓄積量
を、Ｄ／Ａ変換部８のサンプリング周波数で除すること
により、蓄積時間Ｔｍを算出する。そして、算出された
蓄積時間Ｔｍに基づいて、しきい値Ｔｈを決定し、しき
い値メモリ１３の内容を更新する。

【０１９０】より具体的に説明すると、リングメモリ蓄
積量状態判別部１６から得られたリングメモリ７の蓄積
量がＤ／Ａ変換部８のサンプリング周波数である８００
０で除されることにより、蓄積時間Ｔｍが求められる。
そして、予め作成された蓄積時間Ｔｍに対するしきい値
Ｔｈのデータに基づいて、蓄積時間Ｔｍに対するしきい
値Ｔｈが求められる。

【０１９１】次の表は、Ａ／Ｄ変換部２の量子化ビット
数が１２ｂｉｔである場合における蓄積時間Ｔｍに対す
るしきい値Ｔｈのデータの一例を示している。

【０１９２】

【表２】

【０１９３】また、各フレームのパワー累積値Ｐａとし
きい値とを比較することにより、音声区間と無音区間と
を判別する場合、各フレームの平均振幅値Ｗとしきい値
とを比較することにより、音声区間と無音区間とを判別
する場合、各フレームの振幅累積値Ｗａとしきい値とを
比較することにより、各フレームのパワースークトルと
しきい値とを比較することにより、音声区間と無音区間
とを判別する場合にも、上記と同様に、リングメモリ７
の蓄積量に基づいて、しきい値を変化させるようにして
もよい。

【０１９４】また、リングメモリ７の蓄積量に基づい
て、無音区間の削除開始点を決定するためのポーズ継続
長Ｔｄｅｌを変化させるようにしてもよい。すなわち、
リングメモリ７の蓄積量が少なくなるほど、言い換えれ
ば、リングメモリ７の空領域が多くなるほど、無音区間
の削除部が少なくなるように、ポーズ継続長Ｔｄｅｌが
長くされる。これにより、出力音声が自然により近くな
る。

【０１９５】つまり、図２２に示すように、ポーズ継続
長調整手段５２を設ける。ポーズ継続長調整手段５２
は、リングメモリ蓄積量状態判別部１６からリングメモ
リ７の蓄積量を得る。そして、得られたリングメモリ７
の蓄積量を、Ｄ／Ａ変換部８のサンプリング周波数で除
することにより、蓄積時間Ｔｍを算出する。そして、算
出された蓄積時間Ｔｍに基づいて、ポーズ継続長Ｔｄｅ
ｌを決定し、ポーズ継続長設定メモリ１７の内容を更新
する。

【０１９６】より具体的に説明すると、リングメモリ蓄
積量状態判別部１６から得られたリングメモリ７の蓄積
量がＤ／Ａ変換部８のサンプリング周波数である８００
０で除されることにより、蓄積時間Ｔｍが求められる。
そして、予め作成された蓄積時間Ｔｍに対するポーズ継
続長Ｔｄｅｌのデータに基づいて、蓄積時間Ｔｍに対す
るポーズ継続長Ｔｄｅｌが求められる。

【０１９７】次の表は、ＶＴＲの２倍速再生時における
蓄積時間Ｔｍに対するポーズ継続長Ｔｄｅｌのデータの
一例を示している。

【０１９８】

【表３】

【０１９９】上記実施例においては、入力信号が音声区
間であり、かつリングメモリ７がオーバーフロー直前状
態ではないと判別されたとき（第１ケース）、および入
力信号が無音区間であり、かつ無音区間の継続長が設定
されたポーズ継続長Ｔｄｅｌ未満であり、かつリングメ
モリ７がオーバーフロー直前状態ではないと判別された
とき（第３ケース）において、ピッチ伸長圧縮手段２３
で行われる伸長圧縮処理で用いられる圧縮率αは、リン
グメモリ７の単位時間ごとの蓄積量の変化量に基づいて
決定されている。しかしながら、この場合の圧縮率αを
リングメモリ７の蓄積量に基づいて算出するようにして
もよい。

【０２００】つまり、第１ケースまたは第３ケースと判
別されたときには、リングメモリ蓄積量状態判別部１６
からリングメモリ７の蓄積量を得る。リングメモリ蓄積
量状態判別部１６から得たリングメモリ７の蓄積量を、
Ｄ／Ａ変換部８のサンプリング周波数である８０００で
除されることにより、蓄積時間Ｔｍを求める。そして、
予め作成された蓄積時間に対する圧縮率のデータに基づ
いて、蓄積時間Ｔｍに対する圧縮率αが求められる。

【０２０１】次の表は、ＶＴＲの２倍速再生時における
蓄積時間Ｔｍに対する圧縮率αのデータの一例を示して
いる。この表において、Ｖは、圧縮率に対応する音声再
生速度を示している。

【０２０２】

【表４】

【０２０３】この表からわかるように、蓄積時間Ｔｍが
小さくなるほど、圧縮率αは大きくなり、音声再生速度
が遅くなる。逆に、蓄積時間Ｔｍが大きくなるほど、圧
縮率αは小さくなり、音声再生速度が速くなる。したが
って、音声区間における音声の欠落部をできるだけ少な
くしつつ、音声区間における音声に対する音声再生速度
を遅くさせることができる。

【０２０４】以上は、入力信号がアナログ信号の場合に
ついて説明したが、入力信号がディジタルデータである
場合にもこの発明を適用することができる。たとえば、
ＩＣメモリ、磁気ディスク、ディジタル通信回線等か
ら、圧縮されたディジタル音声信号が送られてきた場合
には、圧縮されたディジタル音声信号が伸長されてＰＣ
Ｍ音声信号に変換され、得られたＰＣＭ音声信号がバッ
ファに一旦格納される。その後、設定された再生速度倍
率に応じた速度で、ＰＣＭ音声データがバッファから読
み出されて、図１のフレームメモリ５に送られる。

【０２０５】次に本発明による話速変換装置をＴＶ電話
機に応用する場合の実施例について述べる。尚、以下の
話速変換装置１０９は図１に示す話速変換装置に相当す
る。

【０２０６】図２３は、本発明を応用した話速変換機能
付きＴＶ電話機の概略構成図である。映像と音声とが混
在する入力信号は、信号分離合成部１０１により、映像
信号と音声信号とに分離され各々映像信号処理ブロック
１０２および音声信号処理ブロック１０３に送信され処
理される。また、上記各々の信号処理ブロック１０２お
よび１０３で処理された映像および音声信号は信号分離
合成部１０１により合成され、映像信号と音声信号とが
混在する出力信号となる。

【０２０７】次に映像信号処理ブロック１０２での処理
について述べる。信号分離合成部１０１によって分離さ
れた映像入力信号は、映像受信部１０４により受信さ
れ、上記映像をモニター１０５に映し出す。また、カメ
ラ１０７によって撮影された映像は映像送信部１０６に
より映像信号として信号分離合成部１０１に送信され
る。

【０２０８】同様に、音声信号ブロック１０３では、信
号分離合成部１０１によって分離された音声入力信号
は、受話部１０８により受信され、本発明による話速変
換装置１０９により受信者が聞きやすい速度に話速制御
された音声として、スピーカー１１０により発声され
る。また、マイク１１２によって集音された音声は送話
部１１１により音声信号として信号分離合成部１０１に
送信される。この時、上記入出力信号に混在する映像と
音声は時間的なズレがないことが好ましく、本発明によ
る話速変換装置１０９により極力映像と音声のズレのな
いＴＶ電話機の提供が可能となる。

【０２０９】加えて、上記ＴＶ電話機で映像信号の授受
がなく、電話機の如き音声信号のみを送受信する場合で
も、本発明による話速変換装置１０９により送話者と受
話者との会話のタイミングのズレがおこりにくく、か
つ、受話者が聞きやすい速度で話速変換可能な話速変換
機能付き電話機も提供可能となることは言うまでもな
い。

【０２１０】

【発明の効果】この発明によれば、処理負荷を低減でき
るとともに、映像と音声のズレを小さくでき、しかも音
声信号を蓄積するためのメモリの容量も膨大とならない
話速変換装置が得られる。

【０２１１】また、この発明によれば、入力信号の音声
区間における音声の欠落部をできるだけ少なくしつつ、
音声区間における音声に対する音声再生速度を、設定さ
れた再生速度倍率に対して遅くさせることができる。

【図面の簡単な説明】

【図１】話速変換装置の全体的な構成を示すブロック図
である。

【図２】話速変換部の構成を示すブロック図である。

【図３】ＰＩＣＯＬＡを用いて、入力信号を圧縮率２／
３で圧縮する方法を示す説明図である。

【図４】波形合成処理部による処理を説明するための説
明図である。

【図５】間引き処理部によって行なわれる各種の間引き
処理方法を説明するための説明図である。

【図６】話速変換部による処理手順を示すフローチャー
トである。

【図７】話速変換部による処理手順を示すフローチャー
トである。

【図８】話速変換部による処理手順の変形例を示し、図
７に相当するフローチャートである。

【図９】図６のステップ１０の処理と置き換え可能な処
理を説明するための説明図である。

【図１０】２倍速再生時の入力信号と出力信号との関係
を示し、特に無音区間の入力信号が削除される様子を示
すタイムチャートである。

【図１１】リングメモリ７へのデータ書き込み開始点、
リングメモリ７からのデータ読み出し開始点ならびに図
１０の点Ａ〜Ｄにおけるリングメモリ７の状態を示す模
式図である。

【図１２】図１０の点Ｅ〜Ｈにおけるリングメモリ７の
状態を示す模式図である。

【図１３】２倍速再生時の入力信号と出力信号との関係
を示し、特にオーバーフロー直前状態となったときに、
入力信号が削除される様子を示すタイムチャートであ
る。

【図１４】図１３の各点Ｓ〜Ｕにおけるリングメモリ７
の状態を示す模式図である。

【図１５】音声区間と無音区間とを判別するための回路
の変形例を示し、図２に相当するブロック図である。

【図１６】音声区間と無音区間とを判別するための回路
の他の変形例を示し、図２に相当するブロック図であ
る。

【図１７】固定フレーム単位で、入力信号を圧縮率２／
３で圧縮する方法を示す説明図である。

【図１８】図６のステップ９の処理と置き換え可能な処
理を説明するための説明図である。

【図１９】図６のステップ９の処理として図１８の処理
を採用した場合に、図６のステップ１０の処理と置き換
え可能な処理を説明するための説明図である。

【図２０】音声区間と無音区間とを判別するための回路
のさらに他の変形例を示し、図２に相当するブロック図
である。

【図２１】定常状態のパワースペクトル、雑音を含まな
い音声のパワースペクトルおよび音声区間のパワースペ
クトルを示すグラフである。

【図２２】しきい値調整手段およびポーズ継続長調整手
段が付加された話速変換部を示すブロック図である。

【図２３】本発明を応用した話速変換機能付きＴＶ電話
機の概略構成図である。

【符号の説明】

２Ａ／Ｄ変換部４ＤＳＰ５フレームメモリ６話速変換部７リングメモリ８Ｄ／Ａ変換部９アップダウンカウンタ１１パワー計算部１１Ａ平均振幅計算部１１Ｂピッチ周期検出部１１Ｃパワースペクトル計算部１２、１２Ａ、１２Ｂ、１２Ｃ比較部１５条件分岐部１６リングメモリ蓄積量状態判別部２１、２５入力信号削除部２３ピッチ圧縮伸長手段２４間引き処理部４２圧縮伸長率調整手段５１しきい値調整手段５２ポーズ継続長調整手段

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｈ０４Ｂ 14/04 ＢＨ０４Ｎ 5/928 5/937 (72)発明者宮武正典大阪府守口市京阪本通２丁目５番５号三洋電機株式会社内

Claims

【特許請求の範囲】

【請求項１】入力音声信号を話速変換処理する話速変換
処理手段、話速変換処理手段の出力が書き込まれるリングメモリ、
およびリングメモリからデータを一定速度で読み出す手
段を備え、話速変換処理手段は、入力音声信号が音声区間でありか
つリングメモリがオーバーフロー直前状態でないとき
に、設定再生速度倍率をｎとして１／ｎ以上の圧縮率で
あって、リングメモリの蓄積量の単位時間当りの変化量
に応じて決定された圧縮率で入力音声信号に対して圧縮
伸長処理を行なう手段を備えている話速変換装置。
【請求項２】入力されるアナログ音声信号を設定された
再生速度倍率に応じたサンプリング周波数でサンプリン
グするＡ／Ｄ変換手段、Ａ／Ｄ変換手段から出力された音声信号が入力されるフ
レームメモリ、フレームメモリに所要数の音声信号が入力されるごと
に、それらの音声信号に対して話速変換処理を行なう話
速変換処理手段、話速変換処理手段の出力が書き込まれるリングメモリ、１倍速再生時のサンプリング周波数と等しい周波数の読
み出し信号に基づいて、リングメモリからデータを読み
出す読出手段、およびリングメモリの書き込み信号と読
み出し信号とに基づいて、リングメモリの蓄積量を算出
する蓄積量算出手段を備えており、話速変換処理手段は、フレームメモリに入力された所要数の音声信号に対応す
る入力音声が、音声区間か無音区間かを判別する区間判
別手段、ならびに、区間判別手段の出力および蓄積量算出手段の出力に応じ
て、上記所要数の音声信号に対して圧縮伸長処理または
削除処理を行なう信号処理手段を備え、信号処理手段は、入力音声が音声区間でありかつリング
メモリがオーバーフロー直前状態でないときに、設定再
生速度倍率をｎとして１／ｎ以上の圧縮率であって、リ
ングメモリの蓄積量の単位時間当りの変化量に応じて決
定された圧縮率で圧縮伸長処理を行なう手段を含んでい
る話速変換装置。
【請求項３】入力されるディジタル音声信号が、設定さ
れた再生速度倍率に応じた速度で書き込まれるフレーム
メモリ、フレームメモリに所要数の音声信号が入力されるごと
に、それらの音声信号に対して話速変換処理を行なう話
速変換処理手段、話速変換処理手段の出力が書き込まれるリングメモリ、リングメモリから一定速度でデータを読み出す読出手
段、およびリングメモリの書き込み信号と読み出し信号
とに基づいて、リングメモリの蓄積量を算出する蓄積量
算出手段を備えており、話速変換処理手段は、フレームメモリに入力された所要数の音声信号に対応す
る入力音声が、音声区間か無音区間かを判別する区間判
別手段、ならびに、区間判別手段の出力および蓄積量算出手段の出力に応じ
て、上記所要数の音声信号に対して圧縮伸長処理または
削除処理を行なう信号処理手段を備え、信号処理手段は、入力音声が音声区間でありかつリング
メモリがオーバーフロー直前状態でないときに、設定再
生速度倍率をｎとして１／ｎ以上の圧縮率であって、リ
ングメモリの蓄積量の単位時間当りの変化量に応じて決
定された圧縮率で圧縮伸長処理を行なう手段を含んでい
る話速変換装置。
【請求項４】上記信号処理手段は、区間判別手段の出力および蓄積量算出手段の出力に基づ
いて、（１）入力音声が音声区間でありかつリングメモリがオ
ーバーフロー直前状態でない第１モード、（２）入力音声が音声区間でありかつリングメモリがオ
ーバーフロー直前状態である第２モード、（３）入力音声が無音区間でありかつ無音区間の継続長
が所定の無音削除開始点判別値未満であり、かつリング
メモリがオーバーフロー直前状態でない第３モード、（４）入力音声が無音区間でありかつ無音区間の継続長
が所定の無音削除開始点判別値未満であり、かつリング
メモリがオーバーフロー直前状態である第４モード、（５）入力音声が無音区間でありかつ無音区間の継続長
が所定の無音削除開始点判別値以上であり、かつリング
メモリがアンダーフロー直前状態でない第５モード、お
よび（６）入力音声が無音区間でありかつ無音区間の継続長
が所定の無音削除開始点判別値以上であり、かつリング
メモリがアンダーフロー直前状態である第６モード、のうちのいずれのモードであるかを判別するモード判別
手段、第１モードまたは第３モードと判別されたときに、設定
再生速度倍率をｎとして１／ｎ以上の圧縮率であって、
リングメモリの蓄積量の単位時間当りの変化量に応じて
決定された圧縮率で圧縮伸長処理を行なう第１処理手
段、第２モードまたは第４モードと判別されたときに、リン
グメモリの蓄積量がアンダーフロー直前状態となるまで
音声信号を削除する第２処理手段、第５モードと判別されたときに、無音区間の音声信号を
削除する第３処理手段、ならびに、第６モードと判別されたときに、設定再生速度倍率をｎ
として、圧縮率１／ｎ±α（ただし、αは０以上で１以
下の値）で圧縮伸長処理を行なう第４処理手段、を備えていることを特徴とする請求項２および３のいず
れかに記載の話速変換装置。
【請求項５】上記区間判別手段は、フレームメモリに入力された所要数の音声信号のパワー
平均値を算出する手段、および算出されたパワー平均値
と所与のしきい値とに基づいて、入力音声が音声区間か
無音区間かを判別する判別手段、を備えている請求項２、３および４のいずれかに記載の
話速変換装置。
【請求項６】上記区間判別手段は、フレームメモリに入力された所要数の音声信号のパワー
累積値を算出する手段、および算出されたパワー累積値
と所与のしきい値とに基づいて、入力音声が音声区間か
無音区間かを判別する判別手段、を備えている請求項２、３および４のいずれかに記載の
話速変換装置。
【請求項７】上記区間判別手段は、フレームメモリに入力された所要数の音声信号の振幅平
均値を算出する手段、および算出された振幅平均値と所
与のしきい値とに基づいて、入力音声が音声区間か無音
区間かを判別する判別手段、を備えている請求項２、３および４のいずれかに記載の
話速変換装置。
【請求項８】上記区間判別手段は、フレームメモリに入力された所要数の音声信号の振幅累
積値を算出する手段、および算出された振幅累積値と所
与のしきい値とに基づいて、入力音声が音声区間か無音
区間かを判別する判別手段、を備えている請求項２、３および４のいずれかに記載の
話速変換装置。
【請求項９】上記区間判別手段は、フレームメモリに入力された所要数の音声信号の周期性
を検出する検出手段、および検出された周期に基づい
て、入力音声が音声区間か無音区間かを判別する判別手
段、を備えている請求項２、３および４のいずれかに記載の
話速変換装置。
【請求項１０】上記区間判別手段は、フレームメモリに入力された所要数の音声信号の所定の
１または複数の周波数帯域に対するパワースペクトルを
算出する算出手段、および算出されたパワースペクトル
と所与のしきい値とに基づいて、入力音声が音声区間か
無音区間かを判別する判別手段、を備えている請求項２、３および４のいずれかに記載の
話速変換装置。
【請求項１１】上記しきい値が、上記リングメモリの蓄
積量に応じて調整される請求項５、６、７、８および１
０のいずれかに記載の話速変換装置。
【請求項１２】上記第１処理手段は、ピッチ周期単位ま
たはピッチ周期の整数倍単位で圧縮伸長処理を行なうも
のである請求項４記載の話速変換装置。
【請求項１３】上記第１処理手段は、固定フレーム長単
位で圧縮伸長処理を行なうものである請求項４記載の話
速変換装置。
【請求項１４】上記無音削除開始点判別値が、上記リン
グメモリの蓄積量に応じて調整される請求項４に記載の
話速変換装置。