JPH0845177A - 話速変換装置 - Google Patents

話速変換装置

Info

Publication number
JPH0845177A
JPH0845177A JP6228205A JP22820594A JPH0845177A JP H0845177 A JPH0845177 A JP H0845177A JP 6228205 A JP6228205 A JP 6228205A JP 22820594 A JP22820594 A JP 22820594A JP H0845177 A JPH0845177 A JP H0845177A
Authority
JP
Japan
Prior art keywords
voice
section
ring memory
memory
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6228205A
Other languages
English (en)
Other versions
JP3378672B2 (ja
Inventor
Koji Tanaka
浩司 田中
Shozo Sugishita
正蔵 杉下
Masayuki Iida
正幸 飯田
Masanori Miyatake
正典 宮武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP22820594A priority Critical patent/JP3378672B2/ja
Publication of JPH0845177A publication Critical patent/JPH0845177A/ja
Application granted granted Critical
Publication of JP3378672B2 publication Critical patent/JP3378672B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

(57)【要約】 【目的】 この発明は、処理負荷を低減できるととも
に、映像と音声のズレを小さくでき、しかも音声信号を
蓄積するためのメモリの容量も膨大とならない話速変換
装置を提供することを目的とする。 【構成】 話速変換装置において、話速変換処理手段6
は、フレームメモリ5に入力された所要数の音声信号に
対応する入力音声が、音声区間か無音区間かを判別する
区間判別手段11、12、13、ならびに、区間判別手
段11、12、13の出力および蓄積量算出手段9の出
力に応じて、上記所要数の音声信号に対して圧縮伸長処
理または削除処理を行なう信号処理手段21〜26を備
え、信号処理手段21〜26は、入力音声が音声区間で
ありかつリングメモリ7がオーバーフロー直前状態でな
いときに、設定再生速度倍率をnとして1/n以上の圧
縮率であって、リングメモリ7の蓄積量の単位時間当り
の変化量に応じて決定された圧縮率で圧縮伸長処理を行
なう手段23を含んでいる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、音声信号の話速を変
える話速変換装置に関し、例えば、映像を伴うレーザデ
ィスク、VTR、TV、TV電話、TV会議システムの
音声の早聞き或いは遅聞きを行なう音声再生装置、音声
信号をゆっくりした聞きやすい音声に変換する聴覚補助
機能付きラジオ、電話機、補聴器、または、音声の早聞
き或いは遅聞きを行なうテープレコーダ、ステレオシス
テム、CDプレーヤ、音声ガイダンスシステム、ネイテ
ィブスピードで話された英語音声をゆっくりした聞きや
すい音声に変換する英語学習器等に利用される話速変換
装置に関する。
【0002】
【従来の技術】話速を変換する従来の技術として、アナ
ログ方式の時間軸伸長圧縮技術がある。しかしながら、
アナログ方式の時間軸伸長圧縮技術を用いた話速変換方
法では、単純な音声波形の間引きまたは音声波形の繰り
返し挿入が行なわれているだけなので、音声のつなぎめ
が不連続になるため、音質が悪くなるという問題があ
る。
【0003】良好な音質が得られる音声の時間軸伸長圧
縮技術として、ディジタル信号処理によって、音声のピ
ッチ周期を検出し、検出したピッチ周期単位でピッチ部
の間引きまたは挿入を行なう技術がある。しかしなが
ら、このディジタル方式の時間軸伸長圧縮技術を用いた
話速変換方法では、音声信号における無音区間および音
声区間にかかわらず、一律の圧縮伸長率で音声信号の圧
縮または伸長が行なわれているので、VTRの倍速再生
時、英語学習器の英語音声再生時等においては音声区間
の再生速度が速くなりすぎ、音声が聞き取れなくなる場
合があるという問題がある。
【0004】
【発明が解決しようとする課題】上記問題を解決するた
めに、音声信号の無音区間と音声区間とを識別し、無音
区間を削除し、音声区間をピッチ周期単位で伸長する話
速変換方法が既に開発されている(参考文献A(以下、
第1従来方式という):信学技法SP92−56、HC
92−33(1992−09) タイトル「話速変換に
伴う時間伸長を吸収するための一方法」 社団法人 電
子情報通信学会発行、参考文献B(以下、第2従来方式
という):信学技法SP92−150(1993−0
3) タイトル「難聴者による話速変換方式の評価」
社団法人 電子情報通信学会発行)。この方法によれ
ば、音声区間の再生速度を遅くでき、音声が聞きやすく
なる。しかしながら、この方法では、次のような問題が
ある。
【0005】第1従来方式では、処理負荷が大きいた
め、高速演算が必要となり、消費電力が大きくなる。第
2従来方式では、映像と音声のズレが大きくなりすぎ内
容把握が困難となるとともに、音声信号を蓄積するため
のメモリの容量が膨大となりコストがかかる。
【0006】この発明は、処理負荷を低減できるととも
に、映像と音声のズレを小さくでき、しかも音声信号を
蓄積するためのメモリの容量も膨大とならない話速変換
装置を提供することを目的とする。
【0007】この発明の他の目的は、入力信号の音声区
間における音声の欠落部をできるだけ少なくしつつ、音
声区間における音声に対する音声再生速度を、設定され
た再生速度倍率に対して遅くさせることができる話速変
換装置を提供することを目的とする。
【0008】
【課題を解決するための手段】この発明による第1の話
速変換装置は、入力音声信号を話速変換処理する話速変
換処理手段、話速変換処理手段の出力が書き込まれるリ
ングメモリ、およびリングメモリからデータを一定速度
で読み出す手段を備え、話速変換処理手段は、入力音声
信号が音声区間でありかつリングメモリがオーバーフロ
ー直前状態でないときに、設定再生速度倍率をnとして
1/n以上の圧縮率であって、リングメモリの蓄積量の
単位時間当りの変化量に応じて決定された圧縮率で入力
音声信号に対して圧縮伸長処理を行なう手段を備えてい
ることを特徴とする。
【0009】この発明による第2の話速変換装置は、入
力されるアナログ音声信号を設定された再生速度倍率に
応じたサンプリング周波数でサンプリングするA/D変
換手段、A/D変換手段から出力された音声信号が入力
されるフレームメモリ、フレームメモリに所要数の音声
信号が入力されるごとに、それらの音声信号に対して話
速変換処理を行なう話速変換処理手段、話速変換処理手
段の出力が書き込まれるリングメモリ、1倍速再生時の
サンプリング周波数と等しい周波数の読み出し信号に基
づいて、リングメモリからデータを読み出す読出手段、
およびリングメモリの書き込み信号と読み出し信号とに
基づいて、リングメモリの蓄積量を算出、今回までの無
音区間の継続長が算出され(ステップ11)、算出され
た継続長がポーズ継続長メモリ17に設定されているポ
ーズ継続長Tdel以上か否かが判別される(ステップ
12)。そして、無音区間の継続長がポーズ継続長Td
el未満であると判別された場合には、リングメモリ蓄
積量状態判別部16の出力に基づいて、アンダーフロー
直前状態か否かが判別される(ステップ13、14)。
する蓄積量算出手段を備えており、話速変換処理手段
は、フレームメモリに入力された所要数の音声信号に対
応する入力音声が、音声区間か無音区間かを判別する区
間判別手段、ならびに区間判別手段の出力および蓄積量
算出手段の出力に応じて、上記所要数の音声信号に対し
て圧縮伸長処理または削除処理を行なう信号処理手段を
備え、信号処理手段は、入力音声が音声区間でありかつ
リングメモリがオーバーフロー直前状態でないときに、
設定再生速度倍率をnとして1/n以上の圧縮率であっ
て、リングメモリの蓄積量の単位時間当りの変化量に応
じて決定された圧縮率で圧縮伸長処理を行なう手段を含
んでいることを特徴とする。
【0010】この発明による第3の話速変換装置は、入
力されるディジタル音声信号が、設定された再生速度倍
率に応じた速度で書き込まれるフレームメモリ、フレー
ムメモリに所要数の音声信号が入力されるごとに、それ
らの音声信号に対して話速変換処理を行なう話速変換処
理手段、話速変換処理手段の出力が書き込まれるリング
メモリ、リングメモリから一定速度でデータを読み出す
読出手段、およびリングメモリの書き込み信号と読み出
し信号とに基づいて、リングメモリの蓄積量を算出する
蓄積量算出手段を備えており、話速変換処理手段は、フ
レームメモリに入力された所要数の音声信号に対応する
入力音声が、音声区間か無音区間かを判別する区間判別
手段、ならびに、区間判別手段の出力および蓄積量算出
手段の出力に応じて、上記所要数の音声信号に対して圧
縮伸長処理または削除処理を行なう信号処理手段を備
え、信号処理手段は、入力音声が音声区間でありかつリ
ングメモリがオーバーフロー直前状態でないときに、設
定再生速度倍率をnとして1/n以上の圧縮率であっ
て、リングメモリの蓄積量の単位時間当りの変化量に応
じて決定された圧縮率で圧縮伸長処理を行なう手段を含
んでいることを特徴とする。
【0011】上記リングメモリとは、リング構造( rin
g structure ) を有するメモリをいう。リング構造と
は、連鎖リストの最後の項目のポインタが先頭の項目を
指すようにつながれたものをいう。
【0012】上記信号処理手段としては、たとえば、区
間判別手段の出力および蓄積量算出手段の出力に基づい
て、(1)入力音声が音声区間でありかつリングメモリ
がオーバーフロー直前状態でない第1モード、(2)入
力音声が音声区間でありかつリングメモリがオーバーフ
ロー直前状態である第2モード、(3)入力音声が無音
区間でありかつ無音区間の継続長が所定の無音削除開始
点判別値未満であり、かつリングメモリがオーバーフロ
ー直前状態でない第3モード、(4)入力音声が無音区
間でありかつ無音区間の継続長が所定の無音削除開始点
判別値未満であり、かつリングメモリがオーバーフロー
直前状態である第4モード、(5)入力音声が無音区間
でありかつ無音区間の継続長が所定の無音削除開始点判
別値以上であり、かつリングメモリがアンダーフロー直
前状態でない第5モード、および(6)入力音声が無音
区間でありかつ無音区間の継続長が所定の無音削除開始
点判別値以上であり、かつリングメモリがアンダーフロ
ー直前状態である第6モードのうちのいずれのモードで
あるかを判別するモード判別手段、第1モードまたは第
3モードと判別されたときに、設定再生速度倍率をnと
して1/n以上の圧縮率であって、リングメモリの蓄積
量の単位時間当りの変化量に応じて決定された圧縮率で
圧縮伸長処理を行なう第1処理手段、第2モードまたは
第4モードと判別されたときに、リングメモリの蓄積量
がアンダーフロー直前状態となるまで音声信号を削除す
る第2処理手段、第5モードと判別されたときに、無音
区間の音声信号を削除する第3処理手段、ならびに、第
6モードと判別されたときに、設定再生速度倍率をnと
して、圧縮率1/n±α(ただし、αは0以上で1以下
の値)で圧縮伸長処理を行なう第4処理手段を備えてい
るものが用いられる。
【0013】上記第1処理手段としては、ポインター移
動量制御による重複加算法(Pointer Interval Control
Overlap and Add : PICOLA)、TDHS(Time
Domain Harmonic Scaling)法等のように、ピッチ周期単
位またはピッチ周期の整数倍単位で圧縮伸長処理を行な
うものまたは固定フレーム長単位で圧縮伸長処理を行な
うもの等が用いられる。
【0014】上記無音削除開始点判別値を、上記リング
メモリの蓄積量に応じて調整するようにしてもよい。
【0015】上記区間判別手段としては、たとえば、フ
レームメモリに入力された所要数の音声信号のパワー平
均値を算出する手段、および算出されたパワー平均値と
所与のしきい値とに基づいて、入力音声が音声区間か無
音区間かを判別する判別手段を備えているものが用いら
れる。上記しきい値を上記リングメモリの蓄積量に応じ
て調整するようにしてもよい。
【0016】上記区間判別手段としては、たとえば、フ
レームメモリに入力された所要数の音声信号のパワー累
積値を算出する手段、および算出されたパワー累積値と
所与のしきい値とに基づいて、入力音声が音声区間か無
音区間かを判別する判別手段を備えているものが用いら
れる。上記しきい値を上記リングメモリの蓄積量に応じ
て調整するようにしてもよい。
【0017】上記区間判別手段としては、たとえば、フ
レームメモリに入力された所要数の音声信号の振幅平均
値を算出する手段、および算出された振幅平均値と所与
のしきい値とに基づいて、入力音声が音声区間か無音区
間かを判別する判別手段を備えているものが用いられ
る。上記しきい値を上記リングメモリの蓄積量に応じて
調整するようにしてもよい。
【0018】上記区間判別手段としては、たとえば、フ
レームメモリに入力された所要数の音声信号の振幅累積
値を算出する手段、および算出された振幅累積値と所与
のしきい値とに基づいて、入力音声が音声区間か無音区
間かを判別する判別手段を備えているものが用いられ
る。上記しきい値を上記リングメモリの蓄積量に応じて
調整するようにしてもよい。
【0019】上記区間判別手段としては、たとえば、フ
レームメモリに入力された所要数の音声信号の周期性を
検出する検出手段、および検出された周期に基づいて、
入力音声が音声区間か無音区間かを判別する判別手段を
備えているものが用いられる。
【0020】上記区間判別手段としては、たとえば、フ
レームメモリに入力された所要数の音声信号の所定の1
または複数の周波数帯域に対するパワースペクトルを算
出する算出手段、および算出されたパワースペクトルと
所与のしきい値とに基づいて、入力音声が音声区間か無
音区間かを判別する判別手段を備えているものが用いら
れる。上記しきい値を上記リングメモリの蓄積量に応じ
て調整するようにしてもよい。
【0021】
【作用】この発明による第1の話速変換装置では、入力
音声信号は、話速変換処理手段によって話速変換処理さ
れる。話速変換処理手段の出力は、リングメモリに書き
込まれる。リングメモリに書き込まれたデータは、一定
速度で読み出される。話速変換処理手段においては、入
力音声信号が音声区間でありかつリングメモリがオーバ
ーフロー直前状態でないときに、設定再生速度倍率をn
として1/n以上の圧縮率であって、リングメモリの蓄
積量の単位時間当りの変化量に応じて決定された圧縮率
で入力音声信号に対して圧縮伸長処理が行なわれる。
【0022】この発明による第2の話速変換装置では、
入力されるアナログ音声信号は、A/D変換手段によ
り、設定された再生速度倍率に応じたサンプリング周波
数でサンプリングされる。A/D変換手段から出力され
た音声信号は、フレームメモリに入力される。フレーム
メモリに所要数の音声信号が入力されるごとに、話速変
換処理手段により、それらの音声信号に対して話速変換
処理が行なわれる。話速変換処理手段の出力は、リング
メモリに書き込まれる。リングメモリに書き込まれたデ
ータは、1倍速再生時のサンプリング周波数に等しい周
波数の読み出し信号に基づいて読み出される。リングメ
モリの書き込み信号と読み出し信号とに基づいて、蓄積
量算出手段によって、リングメモリの蓄積量が算出され
る。
【0023】話速変換処理手段においては、フレームメ
モリに入力された所要数の音声信号に対する入力音声
が、区間判別手段により、音声区間か無音区間かが判別
される。そして、信号処理手段によって、区間判別手段
の出力および蓄積量算出手段の出力に応じて、上記所要
数の音声信号に対して圧縮伸長処理または削除処理が行
なわれる。信号処理手段では、入力音声が音声区間であ
りかつリングメモリがオーバーフロー直前状態でないと
きには、設定再生速度倍率をnとして1/n以上の圧縮
率であって、リングメモリの蓄積量の単位時間当りの変
化量に応じて決定された圧縮率で圧縮伸長処理が行われ
る。
【0024】この発明による第3の話速変換装置では、
入力されるディジタル音声信号が、設定された再生速度
倍率に応じた速度でフレームメモリに書き込まれる。フ
レームメモリに所要数の音声信号が入力されるごとに、
話速変換処理手段により、それらの音声信号に対して話
速変換処理が行なわれる。話速変換処理手段の出力は、
リングメモリに書き込まれる。リングメモリに書き込ま
れたデータは、読み出し信号に基づいて一定速度で読み
出される。リングメモリの書き込み信号と読み出し信号
とに基づいて、蓄積量算出手段によって、リングメモリ
の蓄積量が算出される。
【0025】話速変換処理手段においては、フレームメ
モリに入力された所要数の音声信号に対する入力音声
が、区間判別手段により、音声区間か無音区間かが判別
される。そして、信号処理手段によって、区間判別手段
の出力および蓄積量算出手段の出力に応じて、上記所要
数の音声信号に対して圧縮伸長処理または削除処理が行
なわれる。信号処理手段では、入力音声が音声区間であ
りかつリングメモリがオーバーフロー直前状態でないと
きには、設定再生速度倍率をnとして1/n以上の圧縮
率であって、リングメモリの蓄積量の単位時間当りの変
化量に応じて決定された圧縮率で圧縮伸長処理が行われ
る。
【0026】
【実施例】以下、図面を参照して、この発明をVTRに
適用した場合の実施例について説明する。
【0027】図1は、話速変換装置の全体的な構成を示
している。
【0028】入力音声信号は、ALCアンプ1で増幅さ
れた後、A/D変換部2に送られ、例えば12ビットの
ディジタル信号に変換される。A/D変換部2の標準サ
ンプリング周波数は、たとえば8KHzである。2倍速
再生時には、A/D変換部2のサンプリング周波数fs
ADは、16KHzとなる。
【0029】A/D変換部2の出力は、DSP( Digita
l Signal Processor) 4に送られるとともにレベル検出
部3にも送られる。レベル検出部3は、A/D変換部2
でA/D変換されたデータが変換レンジの最大値となっ
たときに、ALC(automaticlevel control) 信号をA
LCアンプ1に出力する。これにより、ALCアンプ1
のアンプ利得が制御され、A/D変換部2の入力信号が
最大レンジを越えないようにされる。つまり、VTRの
再生テープ速度が変化するとALCアンプ1の入力信号
レベルも変化する。そこで、レベル検出部3の出力に基
づいて、アンプ利得を自動調整することにより、A/D
変換部2の入力信号が最大レンジを越えないようにして
いる。
【0030】DSP4は、2フレーム分の音声信号を記
憶できる容量のフレームメモリ5およびフレームメモリ
5に記憶された音声信号に対してフレーム単位で話速変
換処理を行なう話速変換部6とを備えている。1フレー
ムは、ここでは、200個のサンプリングデータから構
成されるものとする。
【0031】フレームメモリ5内の前半領域および後半
領域のうち、一方の領域に記憶された1フレーム分の音
声信号に対して話速変換部6により処理が行なわれると
同時に、他方の領域にA/D変換部2からの信号が蓄積
される。そして、この他方の領域に1フレーム分の信号
が蓄積されると、今度はその領域内のデータに対して話
速変換部6により処理が行なわれると同時に、既に処理
が行なわれたデータが記憶されていた上記一方の領域に
A/D変換部2からの信号が蓄積される。
【0032】話速変換部6から出力されたデータは、書
き込みクロックに基づいてリングメモリ7に書き込まれ
る。リングメモリ7に書き込まれたデータは、読み出し
クロックに基づいて、読み出される。リングメモリ7か
ら読み出された信号は、D/A変換部8によってアナロ
グ信号に変換された後、アンプ10で増幅され、音声出
力信号として出力される。
【0033】D/A変換部8のサンプリング周波数fs
DAは、8KHzである。また、リングメモリ7の読み
出しクロックの周波数も8KHzである。リングメモリ
7としては、21845×12bitのもの、すなわ
ち、21845ワードのものが用いられている。したが
って、リングメモリ7にデータを蓄積できる最大時間
(入力信号に対する出力時間の最大遅延時間)は、21
845×1/8000=2.73秒となる。
【0034】リングメモリ7に対する書き込みクロック
は、アップダウンカウンタ9のアップカウント用入力端
子(UP)に入力する。リングメモリ7に対する読み出
しクロックは、アップダウンカウンタ9のダウンカウン
ト用入力端子(DOWN)に入力する。アップダウンカ
ウンタ9は、入力された書き込みクロックの総数と入力
された読み出しクロックの総数との差(リングメモリ7
の蓄積量)をカウントし、そのカウント値を15bit
のディジタル信号として出力する。アップダウンカウン
タ9の出力は、話速変換部6に送られる。
【0035】図2は、話速変換部6の詳細な構成を示し
ている。
【0036】フレームメモリ5から読み出された音声信
号は、パワー計算部11に送られ、1フレーム分の音声
信号の平均パワー値Pが算出される。この平均パワー値
Pは、サンプリングされた1フレーム内の各音声信号の
振幅をi0 、i1 …iN-1(ただし、N=200)と
すると、次の数式1によって求められる。
【0037】
【数1】
【0038】パワー計算部11で求められた平均パワー
値Pは、比較部12に送られる。比較部12には、しき
い値メモリ13からしきい値Thが送られており、平均
パワー値Pがしきい値Th以上(P≧Th)か、平均パ
ワー値Pがしきい値Thより小さいか(P<Th)が判
別される。比較部12からは、平均パワー値Pがしきい
値Th以上(P≧Th)のときには現フレームが音声区
間であることを示す信号が、平均パワー値Pがしきい値
Thより小さいときには現フレームが無音区間であるこ
とを示す信号が、それぞれ出力される。
【0039】しきい値Thとしては、A/D変換部2の
量子化ビット数が12bitのときには、たとえば、2
12に設定される。なお、次のようにして、しきい値Th
を変更するようにしてもよい。すなわち、図2に点線で
示すように、パワー定常状態検出およびしきい値更新部
14を設ける。パワー定常状態検出およびしきい値更新
部14は、パワー計算部11からの平均パワー値Pが、
所定フレーム数(例えば、40フレーム)にわたって一
定であったか否かを判別し、一定であったときには(定
常状態)、そのときの平均パワー値Pの2倍の値をしき
い値メモリ13に書き込み、しきい値Thを更新させ
る。ただし、更新されるしきい値の最大値は、所定値、
たとえば、214に制限される。このようにすることによ
り、定常的に発生している雑音を無音区間として取り扱
うことができるようになる。
【0040】また、入力信号の音声区間と無音区間と
を、次の数式2で示す各フレームの音声信号のパワー累
積値Paと所与のしきい値とに基づいて判別するように
してもよい。
【0041】
【数2】
【0042】比較部12の出力は、条件分岐部15に送
られる。条件分岐部15には、リングメモリ蓄積量状態
判別部16の出力が入力している。また、条件分岐部1
5には、パワー計算部11を介してフレームメモリ5か
らの、音声信号が送られている。さらに、条件分岐部1
5には、ポーズ継続長設定メモリ17が接続されてい
る。ポーズ継続長設定メモリ17には、無音区間の削除
開始点を決定するためのポーズ継続長Tdel(無音削
除開始点判別値)が設定されている。
【0043】リングメモリ蓄積量状態判別部16は、ア
ップダウンカウンタ9から送られてきた蓄積量に基づい
て、リングメモリ7の状態がオーバーフロー直前状態に
なったこと、およびリングメモリ7の状態がアンダーフ
ロー直前状態になったことを検出する。
【0044】つまり、オーバーフロー検出用データメモ
リ18にはオーバーフロー検出用データTmaxが、ア
ンダーフロー検出用データメモリ19にはアンダーフロ
ー検出用データTminが、それぞれ記憶されている。
オーバーフロー検出用データTmaxは、例えば、リン
グメモリ7の総ワード数(TOTAL)21845より
200小さい値21645に設定されている。アンダー
フロー検出用データTminは、例えば、200に設定
されている。
【0045】そして、アップダウンカウンタ9から送ら
れてきた蓄積量がオーバーフロー検出用データTmax
以上になると、リングメモリ蓄積量状態判別部16から
オーバーフロー直前検出信号が出力される。また、アッ
プダウンカウンタ9から送られてきた蓄積量がアンダー
フロー検出用データTmin以下になると、リングメモ
リ蓄積量状態判別部16からアンダーフロー直前検出信
号が出力される。条件分岐部15は、オーバーフロー直
前検出信号が入力されているときにはリングメモリ7が
オーバーフロー直前状態であると判別し、アンダーフロ
ー直前検出信号が入力されているときにはリングメモリ
7がアンダーフロー直前状態であると判別する。
【0046】条件分岐部15は、比較部12から送られ
てくる音声区間または無音区間の判別信号と、リングメ
モリ蓄積量状態判別部16から送られてくるリングメモ
リ状態に関する検出信号と、ポーズ継続長設定メモリ1
7に設定されているポーズ継続長Tdelとに基づい
て、以下の6つのケースに場合分けを行なう。そして、
それに応じて、マルチプレクサ20を制御して、音声信
号を所定の処理部に送る。
【0047】(1)第1ケース(case1) 入力信号が音声区間であり、かつリングメモリ7がオー
バーフロー直前状態ではないと判別されたときには、第
1ケースとなる。
【0048】この場合には、音声信号は、マルチプレク
サ20を介して、ピッチ圧縮伸長手段23に送られる。
ピッチ圧縮伸長手段23は、バリアブル スピーチ コ
ントロール(VSC)を行なうものであり、VTRの再
生速度倍率をnとすると、入力信号に対して、圧縮率1
/n以上の圧縮率αで伸長圧縮処理を行なう。圧縮率α
は、圧縮伸長率調整手段42によって決定される。ここ
で用いられる伸長圧縮法としては、例えば、ポインター
移動量制御による重複加算法(Pointer Interval Contr
ol Overlap and Add : PICOLA)、TDHS(Tim
e Domain Harmonic Scaling)法等がある。ピッチ伸長圧
縮手段23で伸長圧縮処理が行なわれた信号は、デマル
チプレクサ27を介してリングメモリ7に送られ、書き
込みクロックにしたがって、リングメモリ7に書き込ま
れる。
【0049】VTRの2倍速再生時においては、A/D
変換部2のサンプリング周波数fsADは16KHZで
あり、D/A変換部8のサンプリング周波数fsDAは
8KHZである。このため、音程は元に戻されて出力さ
れる。
【0050】従来の一般的な時間軸伸長圧縮において
は、2倍速再生時には圧縮率1/2で、圧縮される。言
い換えれば、2ピッチ周期が1ピッチ周期に間引かれ
る。このため、出力音声は標準音声速度の2倍速とな
る。つまり、2倍速再生の通常再生では、出力音声は標
準音声速度の2倍速となる。ただし、音程は元のままと
なる。
【0051】これに対し、図2の話速変換部6に設けら
れた上記ピッチ伸長圧縮手段23では、圧縮伸長率調整
手段42によって求められた1/2以上の圧縮率αで伸
長圧縮処理が行われる。圧縮伸長率調整手段42は、リ
ングメモリ7の単位時間ごとの蓄積量の変化量に基づい
て、リングメモリ7への書込量が読出量に対して少なく
なるほど、圧縮率が大きくなるように、つまり音声再生
速度が遅くなるように、そして、リングメモリ7への書
込量が読出量に対して多くなるほど、圧縮率が小さくな
るように、つまり音声再生速度が速くなるように、圧縮
率αを決定する。
【0052】つまり、リングメモリ蓄積量状態判別部1
6は、タイマ等の一定時間測定手段41によって計測さ
れる一定時間毎に、アップダウンカウンタ9から送られ
てくるリングメモリ7の蓄積量を圧縮伸長率調整手段4
2に送る。圧縮伸長率調整手段42は、今回送られてき
た蓄積量から前回送られてきた蓄積量を減算することに
より、単位時間当りの蓄積量の変化量を求める。そし
て、求められた単位時間当りの蓄積量の変化量をD/A
変換部8のサンプリング周波数で除することにより、単
位時間当りの伸長時間の変化分ΔTを算出する。そし
て、算出された単位時間当りの伸長時間の変化分ΔTに
基づいて、圧縮率αを決定する。
【0053】より具体的に説明すると、圧縮伸長率調整
手段42には、たとえば2.0秒毎に、リングメモリ7
の蓄積量が送られてくる。今回送られてきた蓄積量から
前回送られてきた蓄積量を減算することにより、単位時
間当りの蓄積量の変化量が求められる。次に、単位時間
当りの蓄積量の変化量が、D/A変換部8のサンプリン
グ周波数である8000で除されることにより、伸長時
間の変化分ΔTが求められる。そして、予め作成された
伸長時間の変化分に対する圧縮率のデータに基づいて、
伸長時間の変化分ΔTに対する圧縮率αが求められる。
【0054】次の表は、VTRの2倍速再生時における
伸長時間の変化分ΔTに対する圧縮率αのデータの一例
を示している。この表において、Vは、圧縮率に対応す
る音声再生速度を示している。
【0055】
【表1】
【0056】この表からわかるように、伸長時間の変化
分ΔTが小さくなるほど、すなわち、単位時間当たりの
リングメモリ7の蓄積量変化(読出量に対する書込量)
が少なくなるほど、圧縮率αは大きくなり、音声再生速
度が遅くなる。逆に、読出量に対する書込量が多くなる
ほど、圧縮率αは小さくなり、音声再生速度が速くな
る。したがって、音声区間における音声の欠落部をでき
るだけ少なくしつつ、音声区間における音声に対する音
声再生速度を遅くさせることができる。
【0057】圧縮率αが、1/2以上の圧縮率、たとえ
ば上記表1の中にはないが、説明の便宜上、2/3に決
定されたとすると、3ピッチ周期が2ピッチ周期に間引
かれる。このため、出力音声は標準音声速度の3/2倍
速となる。この場合も音程は、元のままである。このよ
うに、圧縮率2/3で圧縮された場合には、圧縮率1/
2の場合に比べて、2/3−1/2=1/6だけ、信号
が伸長されることになる。この伸長分が、リングメモリ
7の蓄積量となる。
【0058】PICOLAを用いて、入力信号を圧縮率
2/3で圧縮する方法について、図3を用いて簡単に説
明する。まず、入力信号からピッチ周期が抽出される。
抽出されたピッチ周期をTpとする。波形Aに対して
は、1から0へ直線的に向かう重み(重み関数K1)が
つけられて、波形A’が作成される。波形Bに対しては
0から1に向かう重み(重み関数K2)がつけられて、
波形B’が作成される。
【0059】そして、それらの波形A’およびB’が加
え合わされ、長さTpの波形A’*B’が作成される。
これらの重みは、波形A’*B’の前後の接続点での連
続性を保つためにつけられている。つぎに、ポインター
が、圧縮率に基づいて決まる長さである3Tp分だけ移
動され、同様な操作が行なわれる。これにより、3つの
波形A、B、Cから2つの波形A’*B’およびCが得
られる。このようにして、3ピッチ周期分の信号が、2
ピッチ周期分の信号に圧縮される。
【0060】ピッチ伸長圧縮手段23による伸長圧縮法
としては、図17(a)、(b)に示すように、ピッチ
抽出をすることなく、所定長の固定フレーム長Ts単位
で伸長圧縮処理を行うようにしてもよい。固定フレーム
長Tsは、たとえば入力データの200個分の長さに設
定される。図17の例では、3Tsを2Tsにする例を
示している。
【0061】図17(a)の方法では、固定フレーム長
Tsの波形A、B、Cのうち、波形Aに対しては、1か
ら0へ直線的に向かう重み(重み関数K1)がつけられ
て、波形A”が作成される。波形Bに対しては0から1
に向かう重み(重み関数K2)がつけられて、波形B”
が作成される。
【0062】そして、それらの波形A”およびB”が加
え合わされ、長さTsの波形A”*B”が作成される。
これらの重みは、波形A”*B”の前後の接続点での連
続性を保つためにつけられている。そして、次の波形C
に対しては、そのまま出力される。これにより、3つの
波形A、B、Cから2つの波形A”*B”およびCが得
られる。このようにして、3Ts分の信号が、2Ts分
の信号に圧縮される。
【0063】図17(b)の方法では、固定フレーム長
Tsの波形A〜Cのうちの波形Aには先頭からたとえば
20個のデータに0から1へ直線的に向かう重み(重み
関数K3)をつけて波形A”を得る。波形Bには181
個目〜200個目までの入力データに1から0へ直線的
に向かう重み(重み関数K4)をつけて波形B”を得
る。そして、波形Cを削除する。次の3つの波形D〜F
に対しても、同様な処理が行われる。このようにして、
3つの波形A〜C(またはD〜F)からなる信号は、2
つの波形A”およびB”(またはD”およびE”)から
なる信号に圧縮される。つまり、3Ts分の信号が、2
Ts分の信号に圧縮される。
【0064】上記固定フレーム長単位での伸長圧縮処理
を用いた場合には、ピッチ周期ごとの伸長圧縮処理を用
いた場合に比べて、音質は低下するが、処理量は軽減さ
れる。
【0065】なお、この話速変換装置が英語学習器に適
用されている場合には(1倍速再生時)、A/D変換部
2のサンプリング周波数fsADは8KHZであり、D
/A変換部8のサンプリング周波数fsDAは8KHZ
である。この場合には、圧縮伸長率調整手段42によっ
て、伸長時間の変化分ΔTに応じて圧縮率αが1以上の
値に決定される。圧縮率αが、たとえば、1.5に決定
された場合には、ピッチ圧縮伸長手段23で、2ピッチ
周期が3ピッチ周期になるように、音声信号が伸長され
る。つまり、音声区間が1.5倍に伸長される。したが
って、この場合には、1倍速再生の通常再生時に対し
て、3/2−1=1/2だけ信号が伸長されることにな
り、この伸長分がリングメモリ7の蓄積量となる。
【0066】(2)第2ケース(case2) 入力信号が音声区間であり、かつリングメモリ7がオー
バーフロー直前状態であると判別されたときには、第2
ケースとなる。
【0067】この場合には、音声信号はマルチプレクサ
20を介して、入力信号削除部21に送られ、音声信号
が削除される。具体的には、アップダウンカウンタ9の
カウント値が、アンダーフロー検出用データTminに
なるまで、すなわちリングメモリ7がアンダーフロー直
前状態になるまで、リングメモリ7への書き込み動作が
停止される。
【0068】リングメモリ7がアンダーフロー直前状態
になると、200個以下の個数、例えば100個の消音
信号(値”0”の信号)が消音挿入部22から出力さ
れ、この消音信号がデマルチプレクサ27を介してリン
グメモリ7に送られて書き込まれる。このように、消音
信号をリングメモリ7へ書き込んでいるのは、音声削除
によって音声信号の繋ぎ目にクリック音が発生するのを
防止するためである。
【0069】(3)第3ケース(case3) 入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Tdel未満であり、かつリング
メモリ7がオーバーフロー直前状態ではないと判別され
たときには、第3ケースとなる。
【0070】この場合は、上記第1ケースの場合と同じ
処理が行なわれる。
【0071】(4)第4ケース(case4) 入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Tdel未満であり、かつリング
メモリ7がオーバーフロー直前状態であると判別された
ときには、第4ケースとなる。
【0072】この場合は、上記第2ケースの場合と同じ
処理が行なわれる。
【0073】(5)第5ケース(case5) 入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Tdel以上であり、かつリング
メモリ7がアンダーフロー直前状態ではないと判別され
たときには、第5ケースとなる。
【0074】この場合には、音声信号はマルチプレクサ
20を介して、入力信号削除部25に送られ、音声信号
が削除される。具体的には、リングメモリ7への書き込
み動作が停止される。ただし、音声区間のスタート部分
(無声区間)が欠落するのを防止したり、音声の削除に
よって繋ぎ目にクリック音が発生したりするのを防止す
るために、波形合成挿入部26によって波形合成挿入処
理が行なわれる。
【0075】波形合成挿入部26による波形合成挿入処
理について、図4(a)、(b)を用いて説明する。図
4(a)による方法では、波形合成挿入部26は、第1
メモリ31および第2メモリ32を備えている。入力信
号削除部25による入力信号削除処理の開始時において
は、削除開始点から、1フレーム長以下の所定長さT
s、例えば1フレーム分の入力信号が、第1メモリ31
にアドレス順に順次記憶される。次に、第1メモリ31
のアドレスが大きくなるにしたがって1から0に直線的
に変化する関数K1が、第1メモリ31の内容Aに乗算
される。そして、その乗算結果A’が、再度第1メモリ
31に書き込まれる。
【0076】また、入力信号削除部25による入力信号
削除区間の終了点直前の所定長さTs分の入力信号が、
第2メモリ32にアドレス順に順次記憶される。次に、
第2メモリ32のアドレスが大きくなるほど、0から1
に直線的に変化する関数K2が、第2メモリ32の内容
Bに乗算される。そして、その乗算結果B’が、再度第
2メモリ32に書き込まれる。この後、第1メモリ31
の内容A’と、第2メモリ32の内容B’とが加え合わ
されて、所定長さTsのデータA’*B’が得られる。
そして、得られた所定長さTs分のデータA’*B’が
デマルチプレクサ27を介して、リングメモリ7に送ら
れ、リングメモリ7に書き込まれる。
【0077】図4(b)による方法では、削除開始点か
ら、1フレーム長以下の所定長さTs、例えば1フレー
ム分の入力信号が、第1メモリ31にアドレス順に順次
記憶される。次に、後端に1から0に直線的に変化する
スロープがついた関数K3が、第1メモリ31の内容A
に乗算される。そして、その乗算結果A’が、再度第1
メモリ31に書き込まれる。
【0078】また、入力信号削除部25による入力信号
削除区間の終了点直前の所定長さTs分の入力信号が、
第2メモリ32にアドレス順に順次記憶される。次に、
前端に0から1に直線的に変化するスロープがついた関
数K4が、第2メモリ32の内容Bに乗算される。そし
て、その乗算結果B’が、再度第2メモリ32に書き込
まれる。この後、第1メモリ31の内容A’と、第2メ
モリ32の内容B’とが繋ぎ合わされて、2Ts分のの
データA’+B’が得られる。そして、得られた2Ts
分のデータA’+B’がデマルチプレクサ27を介し
て、リングメモリ7に送られ、リングメモリ7に書き込
まれる。図4(b)では、Tsが、1フレーム分の長さ
である例を示したが、1フレームの半分の長さのデータ
をTsとしてもよい。
【0079】なお、入力信号削除部25による無音区間
の音声信号の削除処理が繰り返し行なわれている場合
に、リングメモリ7がアンダーフロー直前状態になるこ
とがある。この場合には、リングメモリ7がアンダーフ
ロー直前状態なったときから、所定長さTs分の入力信
号が第2メモリ32に記憶される。そして、第1メモリ
31に記憶されているデータと、第2メモリ32に記憶
されているデータにもとづいて、上記と同様な入力信号
削除処理が行なわれる。
【0080】(6)第6ケース(case6) 入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Tdel以上であり、かつリング
メモリ7がアンダーフロー直前状態であると判別された
ときには、第6ケースとなる。
【0081】この場合は、入力信号は、マルチプレクサ
20を介して間引き処理部24に送られる。間引き処理
部24では、VTRの再生速度倍率をnとして、圧縮率
が1/nとなるように間引き処理が行なわれる。たとえ
ば、2倍速再生時には入力信号に対して圧縮率1/2で
間引きが行なわれ、3倍速再生時には入力信号に対して
圧縮率1/3で間引きが行なわれる。1倍速再生時に
は、入力信号がそのまま出力される。
【0082】1/n間引き処理部24による間引き処理
としては、次のような方法が用いられる。ここでは、2
倍速再生時を例にとって説明する。
【0083】上述したPICOLAまたはTDHSを用
いた時間軸圧縮法を用い、入力信号のピッチを抽出し、
ピッチデータ部分を圧縮率が1/2となるように、間引
く。
【0084】また、図5(a)〜(c)に示すように、
ピッチ抽出をすることなく、所定時間Tsごとに波形を
間引くようにしてもよい。
【0085】図5(a)の方法では、波形A〜Dのう
ち、波形Bおよび波形Dが間引かれ、波形A、Cからな
る信号が得られる。
【0086】図5(b)の方法では、波形A〜Dのう
ち、波形Bと波形Dが間引かれている。また、波形Aに
は、前端に0から1に上昇するスロープ(関数K4)
が、後端に1から0に下降するスロープ(関数K3)が
ついた関数が乗算されて、波形A’が作成される。ま
た、波形Cには、前端に0から1に上昇するスロープ
(関数K4)が、後端に1から0に下降するスロープ
(関数K3)がついた関数が乗算されて、波形C’が作
成される。このようにして、4つの波形A〜Dからなる
信号は、2つの波形A’およびC’からなる信号に圧縮
される。
【0087】図5(c)の方法では、波形Aに対して
は、1から0へ直線的に向かう重み(重み関数K1)が
つけられて、波形A’が作成される。波形Bに対しては
0から1に向かう重み(重み関数K2)がつけられて、
波形B’が作成される。そして、それらの波形A’およ
びB’が加え合わされ、長さTsの波形A’*B’が作
成される。
【0088】同様に、波形Cに対しては、1から0へ直
線的に向かう重み(関数K1)がつけられて、波形C’
が作成される。波形Dに対しては0から1に向かう重み
(関数K2)がつけられて、波形D’が作成される。そ
して、それらの波形C’およびD’が加え合わされ、長
さTsの波形C’*D’が作成される。このようにし
て、4つの波形A〜Dからなる信号は、2つの波形A’
*B’およびC’*D’からなる信号に圧縮される。
【0089】上述のように、第6ケースに該当する場合
には、VTRの再生倍率をnとして、圧縮率1/nで間
引き処理が行われているが、次のようにして圧縮率を制
御するようにしてもよい。
【0090】圧縮率1/nで間引き処理が行われている
場合、D/A変換器8のサンプリング周波数fsDAと
A/D変換器2のサンプリング周波数fsADとの比f
sDA/fsADが、圧縮率1/nと等しい場合には、
リングメモリ7の蓄積量は、変化しない。しかしなが
ら、圧縮率1/nの演算精度、サンプリング周波数fs
ADとfsDAのクロック精度によっては、fsDA/
fsADが圧縮率1/nと等しくならないことが起こり
うる。
【0091】fsDA/fsADが圧縮率1/nより大
きくなったとき(fsDA/fsAD>1/n)には、
fsDA/fsAD=1/a(a>0)として、{(1
/a)−(1/n)}だけ、圧縮率が小さくなり、間引
きの度合いが大きくなり、リングメモリ7の蓄積量が減
少していき、リングメモリ7の蓄積量がアンダーフロー
するおそれがある。
【0092】一方、 fsDA/fsADが圧縮率1/
nより小さくなったとき(fsDA/fsAD<1/
n)には、fsDA/fsAD=1/a(a>0)とし
て、{(1/n)−(1/a)}だけ、圧縮率が大きく
なり、間引きの度合いが小さくなり、リングメモリ7の
蓄積量が増加していく。
【0093】したがって、間引き処理を行う場合には、
リングメモリ7の蓄積量を確認して、次のように圧縮率
を制御する。fsDA/fsAD=1/a(a>0)と
して、(1/n)−α<1/a<(1/n)+αの条件
を満たすαを選定する。ただし、αは、0以上で1以下
の値であり、例えば0.001〜0.1の範囲の値であ
る。
【0094】fsDA/fsADが圧縮率1/nより大
きくなったとき、すなわち、リングメモリ7の蓄積量が
減少していく場合には、圧縮率を1/nから{(1/
n)+α}にする。つまり、圧縮率を大きくし、リング
メモリ7の蓄積量を増加させるようにする。
【0095】fsDA/fsADが圧縮率1/nより小
さくなったとき、すなわち、リングメモリ7の蓄積量が
増加していく場合には、圧縮率を1/nから{(1/
n)−α}にする。つまり、圧縮率を小さくし、リング
メモリ7の蓄積量を減少させるようにする。
【0096】上記では、リングメモリ7の蓄積量に基づ
いて、圧縮率を変化させているが、間引き処理が行われ
る場合に、フレーム毎に圧縮率を{(1/n)−α}ま
たは{(1/n)+α}に、交互に変化させるようにし
てもよい。
【0097】図6および図7は、話速変換部6による処
理手順を示している。
【0098】以下、VTRの2倍速再生時の場合の話速
変換部6による処理について、説明する。
【0099】(1)再生開始時の処理 再生が開始されて、パワー計算部11によって最初のフ
レームの平均パワー値Pが算出されると(ステップ
1)、算出された平均パワー値Pがしきい値Th以上か
否かが比較部12の出力に基づいて判別される(ステッ
プ2)。
【0100】入力音声信号が無音区間から開始した場
合、最初のフレームにおいては、平均パワー値Pはしき
い値Thより小さくなり、ステップ11に進む。そし
て、無音区間の継続長(無音区間が継続するフレーム
数)が算出され、算出された継続長がポーズ継続長メモ
リ17に設定されているポーズ継続長Tdel以上か否
かが判別される(ステップ12)。このポーズ継続長T
delは、たとえば、フレーム数にして4フレーム分の
長さに設定されている。
【0101】最初のフレームに対する処理においては、
無音区間の継続長がポーズ継続長Tdel未満であるの
で、リングメモリ蓄積量状態判別部16の出力に基づい
て、リングメモリ7がアンダーフロー直前状態か否かが
判別される(ステップ13、14)。
【0102】最初のフレームに対する処理においては、
リングメモリ7は、アンダーフロー直前状態になってい
るので、フレームデータが間引き処理部24によって圧
縮率1/2で間引きされ(ステップ28)、間引き処理
後の圧縮データがリングメモリ7に書き込まれる。この
後、ステップ1に戻る。
【0103】(2)第1ケースとなる処理の説明 ステップ2で、平均パワー値Pがしきい値Th以上であ
ると判別されたときには、今回のフレームが音声区間で
あると判断され、ステップ3に進む。ステップ3では、
前フレームが削除区間であったか否かが、第1フラグF
1の状態に基づいて判別される。前フレームが削除区間
でない場合には、リングメモリ蓄積量状態判別部16の
出力に基づいて、リングメモリ7がオーバーフロー直前
状態か否かが判別される(ステップ6、7)。前フレー
ムが削除区間である場合には、ステップ4および5の処
理が行なわれた後、リングメモリ7がオーバーフロー直
前状態か否かが判別される(ステップ6、7)。ステッ
プ4および5の処理については、後述する。
【0104】ステップ7において、オーバーフロー直前
状態ではないと判別された場合には、第1ケースとな
り、ピッチ圧縮伸長手段23によって、今回のフレーム
データが圧縮伸長率調整手段42によって決定された圧
縮率αで時間軸圧縮される(ステップ8)。圧縮データ
は、リングメモリ7に送られて書き込まれる。この後、
ステップ1に戻る。
【0105】(2)第2ケースとなる処理の説明 ステップ2で、平均パワー値Pがしきい値Th以上であ
ると判別されたときには、今回送られてきたフレームは
音声区間であると判断され、ステップ3に進む。ステッ
プ3では、前フレームが削除区間であったか否かが、第
1フラグF1の状態に基づいて判別される。前フレーム
が削除区間でない場合には、リングメモリ蓄積量状態判
別部16の出力に基づいて、リングメモリ7がオーバー
フロー直前状態か否かが判別される(ステップ6、
7)。前フレームが削除区間である場合には、ステップ
4および5の処理が行なわれた後、リングメモリ7がオ
ーバーフロー直前状態か否かが判別される(ステップ
6、7)。ステップ4および5の処理については、後述
する。
【0106】ステップ7において、オーバーフロー直前
状態であると判別された場合には、第2ケースとなり、
リングメモリ蓄積量状態判別部16からアンダーフロー
検出信号が出力されるまで、入力信号削除部21によっ
て入力信号が削除される(ステップ9)。つまり、リン
グメモリ7がアンダーフロー直前状態になるまで、リン
グメモリ7への書き込みが停止される。
【0107】そして、リングメモリ7がアンダーフロー
直前状態になると、消音挿入部22によって、200個
以下の所定数の消音信号”0”がリングメモリ7に書き
込まれる(ステップ10)。そして、ステップ1に戻
る。
【0108】上記ステップ10の処理の代わりに、図9
(a)または図9(b)に示すような処理を行なっても
よい。図9(a)に示す方法について説明すると、ステ
ップ7でオーバーフロー直前状態と判別されたときか
ら、たとえば、200個の入力信号に対する波形Aに対
しては、1から0へ直線的に向かう重み(重み関数K
1)をつけて波形A’を得る。また、アンダーフロー直
前から200個前までの200個の入力信号に対する波
形Bに対しては0から1に向かう重み(重み関数K2)
をつけて、波形B’を得る。
【0109】そして、得られた2つの波形A’および
B’を加え合わせて、200個分の長さの波形A’*
B’を作成する。そして、この波形A’*B’に対する
200個の信号をリングメモリ7に書き込む。なお、ア
ンダーフロー直前から200個前の時点の検出は、アッ
プダウンカウンタ9のカウント値に基づいて行なわれ
る。これにより、音声削除区間の前後の音声信号の繋ぎ
目にクリック音が発生するのを、効果的に防止できる。
【0110】図9(b)に示す方法について説明する
と、ステップ7でオーバーフロー直前状態と判別された
ときから、たとえば、100個の入力信号に対する波形
Aに対しては、1から0へ直線的に向かう重み(重み関
数K1)をつけて波形A’を得る。また、アンダーフロ
ー直前から100個前までの100個の入力信号に対す
る波形Bに対しては0から1に向かう重み(重み関数K
2)をつけて、波形B’を得る。そして、得られた2つ
の波形A’およびB’を繋ぎ合わせた200個分の信号
をリングメモリ7に書き込む。
【0111】上記ステップ9では、オーバーフロー直前
状態であると判別された場合には、リングメモリ蓄積量
状態判別部16からアンダーフロー検出信号が出力され
るまで、入力信号削除部21によって入力信号が削除さ
れているが、リングメモリ7に蓄積されているデータ
を、リングメモリ7がアンダーフロー直前状態になるよ
うに、削除するようにしてもよい。
【0112】具体的には、リングメモリ7の書込開始ア
ドレスを、図18(a)に示すオーバーフロー直前状態
の時のアドレス(C地点)から、図18(b)に示すよ
うにリングメモリ7がアンダーフロー直前状態となるア
ドレス(A地点)までジャンプさせる。したがって、ス
テップ9の処理では、A地点からC地点までのアドレス
に蓄積されていたデータが削除されることになる。この
後、図18(c)に示すように、ステップ10によって
消音信号が書き込まれた後、入力データが書き込まれて
いく。
【0113】ステップ9において、上記のように、リン
グメモリ7に蓄積されているデータをリングメモリ7が
アンダーフロー直前状態になるように削除した場合、ス
テップ10で消音信号をリングメモリ7に書き込む代わ
りに図19(a)または図19(b)のような処理を行
ってもよい。
【0114】今、リングメモリ7の書込開始アドレス
が、図18(a)に示すオーバーフロー直前状態の時の
アドレス(C地点)から、図18(b)に示すようにリ
ングメモリ7がアンダーフロー直前状態となるアドレス
(A地点)までジャンプしたとする。このA地点から所
定数、例えば200先のアドレス(図19(a)のB地
点)までに蓄積されているデータSに対しては、図19
(a)に示すように、1から0へ直線的に向かう重み
(重み関数K1)をつけて波形S’を得る。また、それ
以後にリングメモリ7に書き込まれる200個分の入力
データ(波形T)に対しては、図19(a)に示すよう
に、0から1に向かう重み(重み関数K2)をつけて、
波形T’を得る。
【0115】そして、得られた2つの波形S’および
T’を加え合わせて、200個分の長さの波形S’*
T’を作成する。そして、この波形S’*T’に対する
200個の信号をA地点からリングメモリ7に書き込
む。これにより、蓄積データ削除区間の前後の音声信号
の繋ぎ目にクリック音が発生するのを、効果的に防止で
きる。
【0116】図19(b)に示す方法について説明する
と、図18(b)のA地点から所定数、例えば100個
先のアドレス(図19(b)のB地点)までに蓄積され
ているデータSに対しては、1から0へ直線的に向かう
重み(重み関数K1)をつけて波形S’を得る。また、
それ以後にリングメモリ7に書き込まれる100個分の
入力データ(波形T)に対しては、0から1に向かう重
み(重み関数K2)をつけて、波形T’を得る。そし
て、得られた2つの波形S’およびT’を繋ぎ合わせた
200個分の信号をA地点からリングメモリ7に書き込
む。
【0117】(3)第3ケースとなる処理の説明 ステップ2で平均パワー値Pがしきい値Thより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され(ステップ11)、算出された継続長がポーズ
継続長メモリ17に設定されているポーズ継続長Tde
l以上か否かが判別される(ステップ12)。そして、
無音区間の継続長がポーズ継続長Tdel未満であると
判別された場合には、リングメモリ蓄積量状態判別部1
6の出力に基づいて、アンダーフロー直前状態か否かが
判別される(ステップ13、14)。
【0118】リングメモリ7がアンダーフロー直前状態
になっていないときには、リングメモリ蓄積量状態判別
部16の出力に基づいて、オーバーフロー直前状態か否
かが判別される(ステップ6、7)。オーバーフロー直
前状態でない場合には、第3ケースとなり、ピッチ圧縮
伸長手段23によって、今回のフレームデータが圧縮伸
長率調整手段42によって決定された圧縮率αで時間軸
圧縮される(ステップ8)。圧縮データは、リングメモ
リ7に送られて書き込まれる。この後、ステップ1に戻
る。
【0119】(4)第4ケースとなる処理の説明 ステップ2で平均パワー値Pがしきい値Thより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され(ステップ11)、算出された継続長がポーズ
継続長メモリ17に設定されているポーズ継続長Tde
l以上か否かが判別される(ステップ12)。そして、
無音区間の継続長がポーズ継続長Tdel未満であると
判別された場合には、リングメモリ蓄積量状態判別部1
6の出力に基づいて、アンダーフロー直前状態か否かが
判別される(ステップ13、14)。
【0120】リングメモリ7がアンダーフロー直前状態
になっていないときには、リングメモリ蓄積量状態判別
部16の出力に基づいて、オーバーフロー直前状態か否
かが判別される(ステップ6、7)。オーバーフロー直
前状態である場合には、第4ケースとなり、リングメモ
リ蓄積量状態判別部16からアンダーフロー検出信号が
出力されるまで、入力信号削除部21によって入力信号
が削除される(ステップ9)。つまり、リングメモリ7
がアンダーフロー直前状態になるまで、リングメモリ7
への書き込みが中断される。
【0121】そして、リングメモリ7がアンダーフロー
直前状態になると、消音挿入部22によって、200個
以下の所定数の消音信号”0”がリングメモリ7に書き
込まれる(ステップ10)。そして、ステップ1に戻
る。
【0122】(5)第5ケースとなる処理の説明 ステップ2で平均パワー値Pがしきい値Thより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され(ステップ11)、算出された継続長がポーズ
継続長メモリ17に設定されているポーズ継続長Tde
l以上か否かが判別される(ステップ12)。そして、
無音区間の継続長がポーズ継続長Tdel以上であると
判別された場合には、リングメモリ蓄積量状態判別部1
6の出力に基づいて、アンダーフロー直前状態か否かが
判別される(ステップ15、16)。
【0123】リングメモリ7がアンダーフロー直前状態
でないときには、第5ケースとなり、今回のフレームが
入力信号削除部25による削除区間であることを示す第
1フラグF1がセットされる(ステップ17)。この第
1フラグF1は、電源投入時の初期設定において、リセ
ット(F1=0)されている。そして、今回のフレーム
が入力信号削除部25による削除区間の最初のフレーム
であるか否かを示す第2フラグF2がリセットされてい
るか否かが判別される(ステップ18)。
【0124】この第2フラグF2は、電源投入時の初期
設定において、リセット(F2=0)されている。そし
て、入力信号削除部25による削除区間の最初のフレー
ムに対する処理が終了したときにセット(F2=1)に
される。そして、入力信号削除部25による一連の削除
区間に対する処理が終了したときにリセット(F2=
0)される。
【0125】したがって、今回のフレームが入力信号削
除部25による削除区間の最初のフレームであるときに
は、第2フラグF2は、リセット(F2=0)されてい
る。第2フラグF2がリセットされているときには、波
形合成挿入部26によって第1メモリ31に今回のフレ
ームデータが記憶される(ステップ19)。また、入力
信号削除部25によって今回のフレームデータのリング
メモリ7への書き込みが停止される(ステップ20)。
つまり、今回のフレームデータが削除される。そして、
第2フラグF2がセット(F2=1)された後(ステッ
プ21)、ステップ1に戻る。
【0126】さらに、無音区間が続いている場合には、
ステップ2、11、12、15を通ってステップ16に
移り、リングメモリ蓄積量状態判別部16の出力に基づ
いて、リングメモリ7がアンダーフロー直前状態か否か
が判別される。
【0127】リングメモリ7がアンダーフロー直前状態
でないときには、今回のフレームが入力信号削除部25
による削除区間であることを示す第1フラグF1がセッ
トされる(ステップ17)。そして、今回のフレームが
入力信号削除部25による削除区間の最初フレームであ
るか否かを示す第2フラグF2がリセットされているか
否かが判別される(ステップ18)。
【0128】この場合には、第2フラグF2はセット
(F2=1)されているので、今回のフレームが入力信
号削除部25による削除区間の最初のフレームでないと
判断される。この場合には、波形合成挿入部26によっ
て第2メモリ32に今回のフレームデータが記憶される
(ステップ22)。また、入力信号削除部25によって
今回のフレームデータのリングメモリ7への書き込みが
停止される(ステップ23)。そして、ステップ1に戻
る。
【0129】そして、さらに、無音区間が続きかつリン
グメモリ7がアンダーフロー直前状態となっていないと
きには、ステップ2、11、12、15、16、17、
18、22および23の処理が繰り返される。つまり、
第2メモリ32のフレームデータが更新されるととも
に、フレームデータのリングメモリ7への書き込みが停
止される。
【0130】この後、音声区間のフレームデータが入力
されたときには、ステップ2において、平均パワー値P
がしきい値Th以上となるので、前フレームが入力信号
削除部25による削除区間であったか否かが、第1フラ
グF1状態に基づいて判別される(ステップ3)。この
場合には、第1フラグF1がセット(F1=1)されて
いるので、前フレームが入力信号削除部25による削除
区間であったと判別され、ステップ4に移る。ステップ
4では、入力信号削除部25による削除処理が停止せし
められるとともに、波形合成挿入部26による波形合成
挿入処理が行なわれる。
【0131】すなわち、図4(a)を用いて既に説明し
たように、第1メモリ31の内容に1から0に直線的に
変化する関数が乗算され、第2メモリ32の内容に0か
ら1に直線的に変化する関数が乗算され、これらの両乗
算結果が加え合わされる。この加算結果(図4(a)の
A’*B’に相当する。)が、デマルチプレクサ27を
介して、リングメモリ7に送られ、リングメモリ7に書
き込まれる。
【0132】この後、第1フラグF1および第2フラグ
F2がリセット(F1=F2=0)される(ステップ
5)。そして、ステップ6に進む。
【0133】ところで、連続している無音区間に対し
て、上記のような入力信号削除部25による削除処理が
繰り返し行なわれている場合において、リングメモリ7
がアンダーフロー直前状態になることがある。この場合
には、上記ステップ16でYESとなり、ステップ24
に移る。ステップ24では、前フレームが入力信号削除
部25による削除区間であったか否かが、第1フラグF
1の状態に基づいて判別される。
【0134】この場合には、第1フラグF1がセット
(F1=1)されているので、ステップ25に進み、第
2メモリ32に今回のフレームデータが記憶される。そ
して、入力信号削除部25による削除処理が停止せしめ
られるとともに、波形合成挿入部26による波形合成挿
入処理が行なわれる(ステップ26)。そして、第1フ
ラグF1および第2フラグF2がリセット(F1=F2
=0)された後(ステップ27)、ステップ1に進む。
【0135】上記ステップ26における波形合成挿入部
26による波形合成挿入処理には、上記ステップ4で説
明した波形合成挿入処理とほぼ同様であるが、第2メモ
リ32に記憶されているフレームデータが、リングメモ
リ7がアンダーフロー直前状態になった後のフレームデ
ータである点が、上記ステップ4で説明した処理の場合
と異なっている。
【0136】なお、上記ステップ25の処理を省略し、
ステップ24でYESとなった場合に、第2メモリ32
に今回のフレームデータを記憶させることなく、ステッ
プ26に移るようにしてもよい。この場合には、ステッ
プ26で行なわれる波形合成挿入処理においては、上記
ステップ4で説明した波形合成挿入処理と同様に、第2
メモリ32に記憶されているアンダーフロー直前状態よ
り前のフレームデータ(前回のフレームデータ)が用い
られる。
【0137】また、上記ステップ22の処理を省略する
とともに上記ステップ3と上記ステップ4との間に、フ
レームデータを第2メモリ32に記憶させるステップを
追加するようにしてもよい。この場合には、ステップ4
においては、上記ステップ19において第1メモリ31
に記憶された内容と、上記ステップ3と上記ステップ4
との間に追加されたステップで第2メモリ32に記憶さ
れた内容とに基づいて、波形合成挿入処理が行われる。
【0138】(6)第6ケースとなる処理の説明 ステップ2で平均パワー値Pがしきい値Thより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され(ステップ11)、算出された継続長がポーズ
継続長メモリ17に設定されているポーズ継続長Tde
l以上か否かが判別される(ステップ12)。そして、
無音区間の継続長がポーズ継続長Tdel以上であると
判別された場合には、リングメモリ蓄積量状態判別部1
6の出力に基づいて、アンダーフロー直前状態か否かが
判別される(ステップ15、16)。
【0139】リングメモリ7がアンダーフロー直前状態
であるときには、前フレームが入力信号削除部25によ
る削除区間であったか否かが、第1フラグF1の状態に
基づいて判別される(ステップ24)。第1フラグF1
がリセットされている場合(F1=0)、すなわち、前
フレームが入力信号削除部25による削除区間でなかっ
た場合には、第6ケースとなり、ステップ28に移る。
ステップ28では、間引き処理部24によって、今回の
フレームデータが圧縮率1/2で間引き処理が行なわれ
る。そして、間引き処理されたデータは、リングメモリ
7に送られて書き込まれる。この後、ステップ1に戻
る。
【0140】つまり、無音区間の継続長がポーズ継続長
Tdel以上であっても、リングメモリ7がアンダーフ
ロー直前状態であり、かつ前フレームが入力信号削除部
25による削除区間でない場合には、フレームデータは
削除されず、圧縮率1/2で間引き処理が行なわれた
後、リングメモリ7に書き込まれる。
【0141】図7においては、ステップ12において、
無音区間の継続長が設定されたポーズ継続長Tdelよ
り長いか否かが判別されているが、図8のステップ12
Aに示すように、無音区間の継続長Tが設定された第1
基準長T1未満か(T<T1)、無音区間の継続長Tが
設定された第1基準長T1以上で設定された第2基準長
T2(ただしT1<T2)未満か(T1≦T<T2)、
または無音区間の継続長Tが設定された第2基準長T2
以上か(T≧T2)を、判別するようにしてもよい。第
1基準長としては、たとえば、4フレーム分の長さが、
第2基準長としてはたとえば40フレーム分の長さが設
定される。
【0142】そして、図8に示すように、各判別結果に
応じて、次のようなステップに進むようにしてもよい。
すなわち、無音区間の継続長Tが設定された第1基準長
T1未満(T<T1)である場合には、ステップ13に
進む。無音区間の継続長Tが設定された第1基準長T1
以上で設定された第2基準長T2(T1<T2)未満
(T1≦T<T2)であるときには、ステップ28に進
んで1/n間引き処理による間引きを行なう。無音区間
の継続長Tが設定された第2基準長T2以上(T≧T
2)であるときには、ステップ15に進む。
【0143】図10は、2倍速再生時の入力信号と出力
信号との関係を示し、特に無音区間の入力信号が削除さ
れる様子を示している。図11および図12は、リング
メモリ7へのデータ書き込み開始点、リングメモリ7か
らのデータ読み出し開始点ならびに図10の各点A〜H
におけるリングメモリ7の状態を示している。
【0144】2倍速再生開始時においては、入力信号は
無音区間となっており、かつリングメモリ7は空状態で
あるので(図11(a)参照)、フレームデータが間引
き処理部24によって圧縮率1/2で間引かれた後、リ
ングメモリ7に書き込まれていく。
【0145】そして、リングメモリ7の蓄積量Tmがア
ンダーフロー検出用データTminに達すると、リング
メモリ7からのデータの読み出しが開始される(図11
(b)参照)。
【0146】そして、入力信号の音声区間aに対するフ
レームデータが送られてくると(A点)、フレームデー
タは、圧縮伸長率調整手段42によって決定された1/
2以上の圧縮率αで、ピッチ圧縮伸長手段23により圧
縮される。入力信号と出力信号との長さが一致する圧縮
率1/2の圧縮を基準とすると、圧縮率αが1/2以外
のときにはフレームデータが伸長される。この意味で、
図10には、伸長処理と記載されている。そして、この
圧縮データがリングメモリ7に書き込まれる。A点にお
いては、図11(c)に示すように、蓄積量TmAは、
Tminのままである。
【0147】入力信号の音声区間aに対する出力信号a
1は、A点での蓄積量TmA分だけ遅れて読み出されて
いく。そして、入力信号の音声区間aが入力され終わっ
た時点(B点)では、図11(d)に示すように、今回
の圧縮区間の開始点であるA点での蓄積量Tminと、
A点からB点までの音声区間aの圧縮データの、圧縮率
1/2の圧縮に対する伸長分StBとの和がリングメモ
リ7の蓄積量TmB(=StB+Tmin)となる。し
たがって、入力信号の音声区間aに対する出力信号a1
は、B点からTmB(=StB+Tmin)分が経過し
た点で出力され終わる。
【0148】入力信号の音声区間aに続くポーズ継続長
Tdel未満の無音区間のフレームデータも、ピッチ圧
縮伸長手段23によって1/2以上の圧縮率αで圧縮さ
れる。この無音区間に続いて音声区間bが入力される
と、この音声区間bのフレームデータもピッチ圧縮伸長
手段23によって1/2以上の圧縮率αで圧縮される。
【0149】そして、入力信号の音声区間bが入力され
終わった時点(C点)では、図11(e)に示すよう
に、今回の圧縮区間の開始点であるA点での蓄積量Tm
inと、A点からC点までの入力信号に対応する圧縮デ
ータの、1/2圧縮に対する伸長分StCとの和がリン
グメモリ7の蓄積量TmC(=StC+Tmin)とな
る。したがって、入力信号の音声区間bに対する出力信
号b1は、C点からTmC(=StC+Tmin)分が
経過した点で出力され終わる。
【0150】入力信号の音声区間bに続いて、ポーズ継
続長Tdel以上の長さの無音区間の信号が送られてき
たときには、ポーズ継続長Tdelに達するまで(D
点)はフレームデータが、ピッチ圧縮伸長手段23によ
って1/2以上の圧縮率αで圧縮される。
【0151】D点では、図11(f)に示すように、今
回の圧縮区間の開始点であるA点での蓄積量Tmin
と、A点からD点までの入力信号に対応する圧縮データ
の、1/2圧縮に対する伸長分StDとの和がリングメ
モリ7の蓄積量TmD(=StD+Tmin)となる。
したがって、入力信号の音声区間bとD点との間の無音
区間に対する出力信号は、D点からTmD(=StD+
Tmin)分が経過した点で出力され終わる。
【0152】ポーズ継続長Tdel以降の無音区間のフ
レームデータは、リングメモリ7の蓄積量がアンダーフ
ロー検出用データTmin以下になるまで、入力信号削
除部25によって削除される。このポーズ削除部分の長
さStdは、今回の圧縮区間の開始点であるA点からD
点までの入力信号に対応する圧縮データの、1/2圧縮
に対する伸長分StDと等しくなる。入力信号削除部2
5によって削除処理が行なわれた後においては、波形合
成挿入部26によってクリック音防止のための合成波形
が挿入されるが、図10には挿入された合成波形部分を
省略してある。
【0153】入力信号が削除された区間の最終点(E
点)においては、図12(g)に示すように、リングメ
モリ7の蓄積量TmEは、アンダーフロー検出用データ
Tmin以下となる。ここでは、蓄積量TmEがアンダ
ーフロー検出用データTminに等しくなった例を示し
ている。
【0154】E点からの無音区間に対するフレームデー
タは、間引き処理部24によって、圧縮率1/2で間引
かれた後、フレームメモリ7に書き込まれる。そして、
音声区間cの信号が入力さると(F点)、この音声区間
cのフレームデータがピッチ圧縮伸長手段23によっ
て、1/2以上の圧縮率αで圧縮される。つまり、新た
な圧縮区間が開始される。そして、圧縮データがリング
メモリ7に書き込まれる。
【0155】F点では、図12(h)に示すように、リ
ングメモリ7の蓄積量TmFは、E点のときと同じTm
inとなっている。
【0156】入力信号の音声区間cに対する出力信号c
1は、F点での蓄積量Tmin分だけ遅れて出力されて
いく。入力信号の音声区間cに続くポーズ継続長Tde
l未満の無音区間(音声区間cからG点までの無音区
間)のフレームデータも、ピッチ圧縮伸長手段23によ
って1/2以上の圧縮率αで圧縮される。
【0157】G点では、図12(i)に示すように、今
回の圧縮区間の開始点であるF点での蓄積量Tmin
と、F点からG点までの入力信号に対応する圧縮データ
の、1/2圧縮に対する伸長分StGとの和がリングメ
モリ7の蓄積量TmG(=StG+Tmin)となる。
したがって、入力信号の音声区間cからG点までの無音
区間に対する出力信号は、G点からTmG(=StG+
Tmin)分が経過した点で出力され終わる。
【0158】ポーズ継続長Tdel以降の無音区間のフ
レームデータは、リングメモリ7の蓄積量がアンダーフ
ロー検出用データTminになるまで、入力信号削除部
25によって削除される。このポーズ削除部分の長さS
tdは、今回の圧縮区間の開始点であるF点からG点ま
での入力信号に対応する圧縮データの、1/2圧縮に対
する伸長分StGと等しくなる。
【0159】入力信号が削除された区間の最終点(H
点)においては、図12(j)に示すように、リングメ
モリ7の蓄積量TmHは、アンダーフロー検出用データ
Tmin以下となる。ここでは、蓄積量TmHがアンダ
ーフロー検出用データTminに等しくなった例を示し
ている。
【0160】H点からの無音区間に対するフレームデー
タは、間引き処理部24によって、圧縮率1/2で間引
かれた後、フレームメモリ7に書き込まれる。そして、
音声区間dの信号が入力されると、この音声区間dのフ
レームデータがピッチ圧縮伸長手段23によって、1/
2以上の圧縮率αで圧縮される。そして、伸長されたデ
ータがリングメモリ7に書き込まれる。
【0161】図13は、2倍速再生時の入力信号と出力
信号との関係を示し、特にオーバーフロー直前状態とな
ったときに、入力信号が削除される様子を示している。
図14は、図13の各点S〜Uにおけるリングメモリ7
の状態を示している。
【0162】ある時点からT点までの、音声区間a、
b、c等と無音区間とを含む一連の入力信号に対するフ
レームデータが、ピッチ圧縮伸長手段23によって1/
2以上の圧縮率αで圧縮され(圧縮率αが1/2以外の
ときには、圧縮率1/2の圧縮に対しては伸長され)て
いるとする。この場合には、リングメモリ7に伸長分が
蓄積されていく。
【0163】音声区間bの入力開始点(S点)において
は、図14(a)に示すように、当該1連の入力信号の
圧縮処理の開始点での蓄積量Tminと、上記圧縮処理
の開始点からS点までの入力信号に対応する圧縮データ
の、1/2圧縮に対する伸長分StSとの和がリングメ
モリ7の蓄積量TmS(=StS+Tmin)となる。
したがって、音声区間bに対する出力信号b1は、S点
からTmS(=StS+Tmin)分が経過した点で出
力され始められる。
【0164】音声区間cの入力信号に対応する圧縮デー
タがリングメモリ7に書き込まれた時点(T点)におい
て、リングメモリ7がオーバーフロー直前状態になった
とする。すなわち、T点において、リングメモリ7の蓄
積量がオーバーフロー検出用データTmax以上になっ
たとする。
【0165】T点においては、図14(b)に示すよう
に、当該1連の入力信号に対する圧縮処理の開始点での
蓄積量Tminと、上記圧縮処理開始点からT点までの
入力信号に対応する圧縮データの、1/2圧縮に対する
伸長分StTとの和がリングメモリ7の蓄積量TmT
(=StT+Tmin)となる。言い換えれば、リング
メモリ7の全ワード数をTOTALとし、オーバーフロ
ー検出用データをTmaxとし、TOTALとTmax
との差をDminとすると、T点での蓄積量Tmtは、
Tmaxに等しいので、TOTAL−Dminとなる。
【0166】したがって、当該1連の入力信号に対する
出力信号は、T点から蓄積量TmT(=StT+Tmi
n)分遅れた時点で出力され終わる。
【0167】T点において、リングメモリ7がオーバー
フロー直前状態になると、それ以後の入力信号に対して
は、リングメモリ7がアンダーフロー直前状態になるま
で、入力信号削除部21によって無条件に削除される。
入力信号削除部21によって削除処理が行なわれた後に
おいては、消音挿入部22によって消音が挿入される
が、図13には挿入された消音部分を省略してある。リ
ングメモリ7がオーバーフロー直前状態になった後(T
点)、フレームデータが削除されていき、図14(c)
に示すようにU点でリングメモリ7がアンダーフロー直
前状態(蓄積量TmU=Tmin)になったとする。こ
の場合には、T点からU点までの4つの無音区間および
3つの音声区間d、e、fからなる入力信号が削除され
る。したがって、T点からU点までの入力信号は、出力
信号としては現れない。
【0168】U点の後に音声区間gの信号が入力される
と、この音声区間に対するフレームデータは、ピッチ圧
縮伸長手段23によって1/2以上の圧縮率αで圧縮さ
れ(圧縮率αが1/2以外のときには、圧縮率1/2の
圧縮に対しては伸長され)た後、リングメモリ7に書き
込まれていく。音声区間gに対する出力信号gは、U点
でのリングメモリ7の蓄積量Tmin分だけ遅れて出力
され始められる。
【0169】上記実施例では、入力信号の音声区間と無
音区間とを、各フレームの平均パワー値に基づいて判別
しているが、各フレームの平均振幅に基づいて判別する
ようにしてもよい。この場合には、図15に示すよう
に、図2のパワー計算部11の代わりにフレーム単位で
平均振幅値を計算する平均振幅計算部11Aが設けら
れ、しきい値メモリ13Aには、たとえば、値26 のし
きい値が設定される。そして、平均振幅計算部11Aに
よって計算された平均振幅値と、しきい値メモリ13A
のしきい値とが、比較部12Aによって比較されること
により、音声区間か無音区間かが判別される。
【0170】つまり、平均振幅値がしきい値以上であれ
ば音声区間と判別され、平均振幅値がしきい値未満であ
れば無音区間と判別される。フレーム単位の平均振幅値
Wは、サンプリングされた1フレーム内の各音声信号の
振幅をi0 、i1 、…iN-1(ただし、N=200)と
すると、次の数式3に基づいて算出される。
【0171】
【数3】
【0172】その他の処理については、図2の話速変換
部6による処理と同じであるので、その説明を省略す
る。
【0173】なお、この場合においても、次のようにし
て、しきい値を変更するようにしてもよい。すなわち、
図15に点線で示すように、平均振幅定常状態検出およ
びしきい値更新部14Aを設ける。平均振幅定常状態検
出およびしきい値更新部14Aは、平均振幅計算部11
Aからの平均振幅値Wが、所定フレーム数にわたって一
定であったか否かを判別し、一定であったときには(定
常状態)、そのときの平均振幅値Wの2倍の値をしきい
値メモリ13Aに書き込み、しきい値を更新させる。た
だし、更新されるしきい値の最大値は、所定値、たとえ
ば28 に制限される。
【0174】また、入力信号の音声区間と無音区間と
を、次の数式4で示す各フレームの音声信号の振幅累積
値Waと所与のしきい値とに基づいて判別するようにし
てもよい。
【0175】
【数4】
【0176】また、入力信号の音声区間と無音区間と
を、各フレームの信号の周期性を検出し、検出した周期
が予め定められた音声信号のピッチ周期範囲内であれ
ば、音声区間であると判別し、検出した周期が予め定め
られた音声信号のピッチ周期範囲外であれば無音区間で
あると判別するようにしてもよい。
【0177】この場合には、図16に示すように、図2
のパワー計算部11の代わりに、自己相関法に基づい
て、フレームごとの周期性を検出するピッチ周期検出部
11Bが設けられ、しきい値メモリ13Bには、音声信
号のピッチ周期範囲が設定される。そして、ピッチ周期
検出部11Bで検出された周期と、しきい値メモリ13
Bに設定された音声信号のピッチ周期範囲とが、比較部
12Bによって比較される。
【0178】設定される音声信号のピッチ周期範囲は、
再生速度により異なり、n倍速再生のときには、たとえ
ば、66×n(Hz)〜320×n(Hz)の範囲に設
定される。したがって、2倍速再生時には、音声信号の
ピッチ周期範囲は、132Hz〜640Hzの範囲に設
定される。その他の処理については、図2の話速変換部
6による処理と同じであるので、その説明を省略する。
【0179】また、入力信号の音声区間と無音区間と
を、各フレームの信号のパワースペクトルと、定常状態
のパワースペクトルと比較することにより、判別するよ
うにしてもよい。
【0180】この場合には、図20に示すように、図2
のパワー計算部11の代わりに、フレームごとに所定の
1または複数の周波数帯域に対するパワースペクトルを
算出するパワースペクトル算出部11Cが設けられる。
また、上記所定の1または複数の周波数帯域に対する定
常状態のパワースペクトルがパワースペクトル記憶部1
3Cに記憶されている。
【0181】パワースペクトル記憶部13Cの内容は、
パワースペクトル算出部11Cによって算出されたパワ
ースペクトルの変化状態に基づいて、パワースペクトル
定常状態検出部14Bが定常状態であることを検出した
ときには、検出された定常状態でのパワースペクトルに
更新される。
【0182】入力信号がパワースペクトル算出部11C
に送られてくると、フレームごとに所定の1または複数
の周波数帯域に対するパワースペクトルが算出される。
そして、算出されたパワースペクトルと、パワースペク
トル記憶部13Cに記憶されている定常状態のパワース
ペクトルとが比較部12Cによって比較される。
【0183】算出されたパワースペクトルが定常状態の
パワースペクトルに対して、変動していれば、そのフレ
ームは音声区間と判別される。逆に、算出されたパワー
スペクトルが定常状態のパワースペクトルに対して、変
動していなければ、そのフレームは無音区間と判別され
る。
【0184】具体的には、パワースペクトル記憶部13
Cには、上記所定の1または複数の周波数帯域に対する
定常状態のパワースペクトルに基づいて、上記所定の1
または複数の周波数帯域に対するしきい値が記憶され
る。そして、パワースペクトル記憶部13Cに記憶され
ている。パワースペクトル算出部11Cによって算出さ
れた上記所定の1または複数の周波数帯域に対するパワ
ースペクトルと、パワースペクトル記憶部13Cに記憶
されている対応するしきい値とが比較されることによ
り、入力信号が音声区間か無音区間かが判別される。
【0185】たとえば、定常状態のパワースペクトルが
図21の(a)に示されているように、雑音のみのパワ
ースペクトルであるとする。また、雑音が含まれていな
い音声のパワースペクトルが図21の(b)に示されて
いるものとする。定常状態において、図21(a)のパ
ワースペクトルで示される雑音が存在する場合に、図2
1(b)で示すパワースペクトルを持つ音声信号が入力
すると、そのパワースペクトルは、図21(c)に示さ
れるように、両者のパワースペクトルが合成されたもの
となる。
【0186】したがって、たとえば、定常状態のパワー
スペクトルにおいてパワーが比較的小さい周波数帯域f
aおよびfbに対するパワーは、音声区間のパワースペ
クトルにおいては大幅に増加する。つまり、定常状態の
パワースペクトルにおいてパワーが比較的小さい1また
は複数の周波数帯域における定常状態のパワーと、入力
信号のパワースペクトルの上記1または複数の周波数帯
域におけるパワーとを比較することにより、入力信号が
音声区間か無音区間かを判別することができる。
【0187】なお、定常状態の雑音が高い周波数帯域の
雑音であると判明している場合には、雑音の影響の少な
い低い周波数帯域(例えば、4KHz以下の周波数帯
域)に対するパワースペクトルを算出し、算出されたパ
ワースペクトルが所定のしきい値以上か否かによって、
入力信号が音声区間か無音区間かを判別することもでき
る。
【0188】また、各フレームのパワー平均値Pと、し
きい値Thとを比較することにより、音声区間と無音区
間とを判別する場合において、リングメモリ7の蓄積量
に基づいて、しきい値Thを変化させるようにしてもよ
い。すなわち、リングメモリ7の蓄積量が少なくなるほ
ど、言い換えれば、リングメモリ7の空領域が多くなる
ほど、音声区間の欠落部が少なくなるようにしきい値T
hは小さくされる。これにより、出力音声が自然により
近くなる。
【0189】つまり、図22に示すように、しきい値調
整手段51を設ける。しきい値調整手段51は、リング
メモリ蓄積量状態判別部16からリングメモリ7の蓄積
量を得る。そして、得られたリングメモリ7の蓄積量
を、D/A変換部8のサンプリング周波数で除すること
により、蓄積時間Tmを算出する。そして、算出された
蓄積時間Tmに基づいて、しきい値Thを決定し、しき
い値メモリ13の内容を更新する。
【0190】より具体的に説明すると、リングメモリ蓄
積量状態判別部16から得られたリングメモリ7の蓄積
量がD/A変換部8のサンプリング周波数である800
0で除されることにより、蓄積時間Tmが求められる。
そして、予め作成された蓄積時間Tmに対するしきい値
Thのデータに基づいて、蓄積時間Tmに対するしきい
値Thが求められる。
【0191】次の表は、A/D変換部2の量子化ビット
数が12bitである場合における蓄積時間Tmに対す
るしきい値Thのデータの一例を示している。
【0192】
【表2】
【0193】また、各フレームのパワー累積値Paとし
きい値とを比較することにより、音声区間と無音区間と
を判別する場合、各フレームの平均振幅値Wとしきい値
とを比較することにより、音声区間と無音区間とを判別
する場合、各フレームの振幅累積値Waとしきい値とを
比較することにより、各フレームのパワースークトルと
しきい値とを比較することにより、音声区間と無音区間
とを判別する場合にも、上記と同様に、リングメモリ7
の蓄積量に基づいて、しきい値を変化させるようにして
もよい。
【0194】また、リングメモリ7の蓄積量に基づい
て、無音区間の削除開始点を決定するためのポーズ継続
長Tdelを変化させるようにしてもよい。すなわち、
リングメモリ7の蓄積量が少なくなるほど、言い換えれ
ば、リングメモリ7の空領域が多くなるほど、無音区間
の削除部が少なくなるように、ポーズ継続長Tdelが
長くされる。これにより、出力音声が自然により近くな
る。
【0195】つまり、図22に示すように、ポーズ継続
長調整手段52を設ける。ポーズ継続長調整手段52
は、リングメモリ蓄積量状態判別部16からリングメモ
リ7の蓄積量を得る。そして、得られたリングメモリ7
の蓄積量を、D/A変換部8のサンプリング周波数で除
することにより、蓄積時間Tmを算出する。そして、算
出された蓄積時間Tmに基づいて、ポーズ継続長Tde
lを決定し、ポーズ継続長設定メモリ17の内容を更新
する。
【0196】より具体的に説明すると、リングメモリ蓄
積量状態判別部16から得られたリングメモリ7の蓄積
量がD/A変換部8のサンプリング周波数である800
0で除されることにより、蓄積時間Tmが求められる。
そして、予め作成された蓄積時間Tmに対するポーズ継
続長Tdelのデータに基づいて、蓄積時間Tmに対す
るポーズ継続長Tdelが求められる。
【0197】次の表は、VTRの2倍速再生時における
蓄積時間Tmに対するポーズ継続長Tdelのデータの
一例を示している。
【0198】
【表3】
【0199】上記実施例においては、入力信号が音声区
間であり、かつリングメモリ7がオーバーフロー直前状
態ではないと判別されたとき(第1ケース)、および入
力信号が無音区間であり、かつ無音区間の継続長が設定
されたポーズ継続長Tdel未満であり、かつリングメ
モリ7がオーバーフロー直前状態ではないと判別された
とき(第3ケース)において、ピッチ伸長圧縮手段23
で行われる伸長圧縮処理で用いられる圧縮率αは、リン
グメモリ7の単位時間ごとの蓄積量の変化量に基づいて
決定されている。しかしながら、この場合の圧縮率αを
リングメモリ7の蓄積量に基づいて算出するようにして
もよい。
【0200】つまり、第1ケースまたは第3ケースと判
別されたときには、リングメモリ蓄積量状態判別部16
からリングメモリ7の蓄積量を得る。リングメモリ蓄積
量状態判別部16から得たリングメモリ7の蓄積量を、
D/A変換部8のサンプリング周波数である8000で
除されることにより、蓄積時間Tmを求める。そして、
予め作成された蓄積時間に対する圧縮率のデータに基づ
いて、蓄積時間Tmに対する圧縮率αが求められる。
【0201】次の表は、VTRの2倍速再生時における
蓄積時間Tmに対する圧縮率αのデータの一例を示して
いる。この表において、Vは、圧縮率に対応する音声再
生速度を示している。
【0202】
【表4】
【0203】この表からわかるように、蓄積時間Tmが
小さくなるほど、圧縮率αは大きくなり、音声再生速度
が遅くなる。逆に、蓄積時間Tmが大きくなるほど、圧
縮率αは小さくなり、音声再生速度が速くなる。したが
って、音声区間における音声の欠落部をできるだけ少な
くしつつ、音声区間における音声に対する音声再生速度
を遅くさせることができる。
【0204】以上は、入力信号がアナログ信号の場合に
ついて説明したが、入力信号がディジタルデータである
場合にもこの発明を適用することができる。たとえば、
ICメモリ、磁気ディスク、ディジタル通信回線等か
ら、圧縮されたディジタル音声信号が送られてきた場合
には、圧縮されたディジタル音声信号が伸長されてPC
M音声信号に変換され、得られたPCM音声信号がバッ
ファに一旦格納される。その後、設定された再生速度倍
率に応じた速度で、PCM音声データがバッファから読
み出されて、図1のフレームメモリ5に送られる。
【0205】次に本発明による話速変換装置をTV電話
機に応用する場合の実施例について述べる。尚、以下の
話速変換装置109は図1に示す話速変換装置に相当す
る。
【0206】図23は、本発明を応用した話速変換機能
付きTV電話機の概略構成図である。映像と音声とが混
在する入力信号は、信号分離合成部101により、映像
信号と音声信号とに分離され各々映像信号処理ブロック
102および音声信号処理ブロック103に送信され処
理される。また、上記各々の信号処理ブロック102お
よび103で処理された映像および音声信号は信号分離
合成部101により合成され、映像信号と音声信号とが
混在する出力信号となる。
【0207】次に映像信号処理ブロック102での処理
について述べる。信号分離合成部101によって分離さ
れた映像入力信号は、映像受信部104により受信さ
れ、上記映像をモニター105に映し出す。また、カメ
ラ107によって撮影された映像は映像送信部106に
より映像信号として信号分離合成部101に送信され
る。
【0208】同様に、音声信号ブロック103では、信
号分離合成部101によって分離された音声入力信号
は、受話部108により受信され、本発明による話速変
換装置109により受信者が聞きやすい速度に話速制御
された音声として、スピーカー110により発声され
る。また、マイク112によって集音された音声は送話
部111により音声信号として信号分離合成部101に
送信される。この時、上記入出力信号に混在する映像と
音声は時間的なズレがないことが好ましく、本発明によ
る話速変換装置109により極力映像と音声のズレのな
いTV電話機の提供が可能となる。
【0209】加えて、上記TV電話機で映像信号の授受
がなく、電話機の如き音声信号のみを送受信する場合で
も、本発明による話速変換装置109により送話者と受
話者との会話のタイミングのズレがおこりにくく、か
つ、受話者が聞きやすい速度で話速変換可能な話速変換
機能付き電話機も提供可能となることは言うまでもな
い。
【0210】
【発明の効果】この発明によれば、処理負荷を低減でき
るとともに、映像と音声のズレを小さくでき、しかも音
声信号を蓄積するためのメモリの容量も膨大とならない
話速変換装置が得られる。
【0211】また、この発明によれば、入力信号の音声
区間における音声の欠落部をできるだけ少なくしつつ、
音声区間における音声に対する音声再生速度を、設定さ
れた再生速度倍率に対して遅くさせることができる。
【図面の簡単な説明】
【図1】話速変換装置の全体的な構成を示すブロック図
である。
【図2】話速変換部の構成を示すブロック図である。
【図3】PICOLAを用いて、入力信号を圧縮率2/
3で圧縮する方法を示す説明図である。
【図4】波形合成処理部による処理を説明するための説
明図である。
【図5】間引き処理部によって行なわれる各種の間引き
処理方法を説明するための説明図である。
【図6】話速変換部による処理手順を示すフローチャー
トである。
【図7】話速変換部による処理手順を示すフローチャー
トである。
【図8】話速変換部による処理手順の変形例を示し、図
7に相当するフローチャートである。
【図9】図6のステップ10の処理と置き換え可能な処
理を説明するための説明図である。
【図10】2倍速再生時の入力信号と出力信号との関係
を示し、特に無音区間の入力信号が削除される様子を示
すタイムチャートである。
【図11】リングメモリ7へのデータ書き込み開始点、
リングメモリ7からのデータ読み出し開始点ならびに図
10の点A〜Dにおけるリングメモリ7の状態を示す模
式図である。
【図12】図10の点E〜Hにおけるリングメモリ7の
状態を示す模式図である。
【図13】2倍速再生時の入力信号と出力信号との関係
を示し、特にオーバーフロー直前状態となったときに、
入力信号が削除される様子を示すタイムチャートであ
る。
【図14】図13の各点S〜Uにおけるリングメモリ7
の状態を示す模式図である。
【図15】音声区間と無音区間とを判別するための回路
の変形例を示し、図2に相当するブロック図である。
【図16】音声区間と無音区間とを判別するための回路
の他の変形例を示し、図2に相当するブロック図であ
る。
【図17】固定フレーム単位で、入力信号を圧縮率2/
3で圧縮する方法を示す説明図である。
【図18】図6のステップ9の処理と置き換え可能な処
理を説明するための説明図である。
【図19】図6のステップ9の処理として図18の処理
を採用した場合に、図6のステップ10の処理と置き換
え可能な処理を説明するための説明図である。
【図20】音声区間と無音区間とを判別するための回路
のさらに他の変形例を示し、図2に相当するブロック図
である。
【図21】定常状態のパワースペクトル、雑音を含まな
い音声のパワースペクトルおよび音声区間のパワースペ
クトルを示すグラフである。
【図22】しきい値調整手段およびポーズ継続長調整手
段が付加された話速変換部を示すブロック図である。
【図23】本発明を応用した話速変換機能付きTV電話
機の概略構成図である。
【符号の説明】
2 A/D変換部 4 DSP 5 フレームメモリ 6 話速変換部 7 リングメモリ 8 D/A変換部 9 アップダウンカウンタ 11 パワー計算部 11A 平均振幅計算部 11B ピッチ周期検出部 11C パワースペクトル計算部 12、12A、12B、12C 比較部 15 条件分岐部 16 リングメモリ蓄積量状態判別部 21、25 入力信号削除部 23 ピッチ圧縮伸長手段 24 間引き処理部 42 圧縮伸長率調整手段 51 しきい値調整手段 52 ポーズ継続長調整手段
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 H04B 14/04 B H04N 5/928 5/937 (72)発明者 宮武 正典 大阪府守口市京阪本通2丁目5番5号 三 洋電機株式会社内

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】入力音声信号を話速変換処理する話速変換
    処理手段、 話速変換処理手段の出力が書き込まれるリングメモリ、
    およびリングメモリからデータを一定速度で読み出す手
    段を備え、 話速変換処理手段は、入力音声信号が音声区間でありか
    つリングメモリがオーバーフロー直前状態でないとき
    に、設定再生速度倍率をnとして1/n以上の圧縮率で
    あって、リングメモリの蓄積量の単位時間当りの変化量
    に応じて決定された圧縮率で入力音声信号に対して圧縮
    伸長処理を行なう手段を備えている話速変換装置。
  2. 【請求項2】入力されるアナログ音声信号を設定された
    再生速度倍率に応じたサンプリング周波数でサンプリン
    グするA/D変換手段、 A/D変換手段から出力された音声信号が入力されるフ
    レームメモリ、 フレームメモリに所要数の音声信号が入力されるごと
    に、それらの音声信号に対して話速変換処理を行なう話
    速変換処理手段、 話速変換処理手段の出力が書き込まれるリングメモリ、 1倍速再生時のサンプリング周波数と等しい周波数の読
    み出し信号に基づいて、リングメモリからデータを読み
    出す読出手段、およびリングメモリの書き込み信号と読
    み出し信号とに基づいて、リングメモリの蓄積量を算出
    する蓄積量算出手段を備えており、 話速変換処理手段は、 フレームメモリに入力された所要数の音声信号に対応す
    る入力音声が、音声区間か無音区間かを判別する区間判
    別手段、ならびに、 区間判別手段の出力および蓄積量算出手段の出力に応じ
    て、上記所要数の音声信号に対して圧縮伸長処理または
    削除処理を行なう信号処理手段を備え、 信号処理手段は、入力音声が音声区間でありかつリング
    メモリがオーバーフロー直前状態でないときに、設定再
    生速度倍率をnとして1/n以上の圧縮率であって、リ
    ングメモリの蓄積量の単位時間当りの変化量に応じて決
    定された圧縮率で圧縮伸長処理を行なう手段を含んでい
    る話速変換装置。
  3. 【請求項3】入力されるディジタル音声信号が、設定さ
    れた再生速度倍率に応じた速度で書き込まれるフレーム
    メモリ、 フレームメモリに所要数の音声信号が入力されるごと
    に、それらの音声信号に対して話速変換処理を行なう話
    速変換処理手段、 話速変換処理手段の出力が書き込まれるリングメモリ、 リングメモリから一定速度でデータを読み出す読出手
    段、およびリングメモリの書き込み信号と読み出し信号
    とに基づいて、リングメモリの蓄積量を算出する蓄積量
    算出手段を備えており、 話速変換処理手段は、 フレームメモリに入力された所要数の音声信号に対応す
    る入力音声が、音声区間か無音区間かを判別する区間判
    別手段、ならびに、 区間判別手段の出力および蓄積量算出手段の出力に応じ
    て、上記所要数の音声信号に対して圧縮伸長処理または
    削除処理を行なう信号処理手段を備え、 信号処理手段は、入力音声が音声区間でありかつリング
    メモリがオーバーフロー直前状態でないときに、設定再
    生速度倍率をnとして1/n以上の圧縮率であって、リ
    ングメモリの蓄積量の単位時間当りの変化量に応じて決
    定された圧縮率で圧縮伸長処理を行なう手段を含んでい
    る話速変換装置。
  4. 【請求項4】上記信号処理手段は、 区間判別手段の出力および蓄積量算出手段の出力に基づ
    いて、 (1)入力音声が音声区間でありかつリングメモリがオ
    ーバーフロー直前状態でない第1モード、 (2)入力音声が音声区間でありかつリングメモリがオ
    ーバーフロー直前状態である第2モード、 (3)入力音声が無音区間でありかつ無音区間の継続長
    が所定の無音削除開始点判別値未満であり、かつリング
    メモリがオーバーフロー直前状態でない第3モード、 (4)入力音声が無音区間でありかつ無音区間の継続長
    が所定の無音削除開始点判別値未満であり、かつリング
    メモリがオーバーフロー直前状態である第4モード、 (5)入力音声が無音区間でありかつ無音区間の継続長
    が所定の無音削除開始点判別値以上であり、かつリング
    メモリがアンダーフロー直前状態でない第5モード、お
    よび (6)入力音声が無音区間でありかつ無音区間の継続長
    が所定の無音削除開始点判別値以上であり、かつリング
    メモリがアンダーフロー直前状態である第6モード、 のうちのいずれのモードであるかを判別するモード判別
    手段、 第1モードまたは第3モードと判別されたときに、設定
    再生速度倍率をnとして1/n以上の圧縮率であって、
    リングメモリの蓄積量の単位時間当りの変化量に応じて
    決定された圧縮率で圧縮伸長処理を行なう第1処理手
    段、 第2モードまたは第4モードと判別されたときに、リン
    グメモリの蓄積量がアンダーフロー直前状態となるまで
    音声信号を削除する第2処理手段、 第5モードと判別されたときに、無音区間の音声信号を
    削除する第3処理手段、ならびに、 第6モードと判別されたときに、設定再生速度倍率をn
    として、圧縮率1/n±α(ただし、αは0以上で1以
    下の値)で圧縮伸長処理を行なう第4処理手段、 を備えていることを特徴とする請求項2および3のいず
    れかに記載の話速変換装置。
  5. 【請求項5】上記区間判別手段は、 フレームメモリに入力された所要数の音声信号のパワー
    平均値を算出する手段、および算出されたパワー平均値
    と所与のしきい値とに基づいて、入力音声が音声区間か
    無音区間かを判別する判別手段、 を備えている請求項2、3および4のいずれかに記載の
    話速変換装置。
  6. 【請求項6】上記区間判別手段は、 フレームメモリに入力された所要数の音声信号のパワー
    累積値を算出する手段、および算出されたパワー累積値
    と所与のしきい値とに基づいて、入力音声が音声区間か
    無音区間かを判別する判別手段、 を備えている請求項2、3および4のいずれかに記載の
    話速変換装置。
  7. 【請求項7】上記区間判別手段は、 フレームメモリに入力された所要数の音声信号の振幅平
    均値を算出する手段、および算出された振幅平均値と所
    与のしきい値とに基づいて、入力音声が音声区間か無音
    区間かを判別する判別手段、 を備えている請求項2、3および4のいずれかに記載の
    話速変換装置。
  8. 【請求項8】上記区間判別手段は、 フレームメモリに入力された所要数の音声信号の振幅累
    積値を算出する手段、および算出された振幅累積値と所
    与のしきい値とに基づいて、入力音声が音声区間か無音
    区間かを判別する判別手段、 を備えている請求項2、3および4のいずれかに記載の
    話速変換装置。
  9. 【請求項9】上記区間判別手段は、 フレームメモリに入力された所要数の音声信号の周期性
    を検出する検出手段、および検出された周期に基づい
    て、入力音声が音声区間か無音区間かを判別する判別手
    段、 を備えている請求項2、3および4のいずれかに記載の
    話速変換装置。
  10. 【請求項10】上記区間判別手段は、 フレームメモリに入力された所要数の音声信号の所定の
    1または複数の周波数帯域に対するパワースペクトルを
    算出する算出手段、および算出されたパワースペクトル
    と所与のしきい値とに基づいて、入力音声が音声区間か
    無音区間かを判別する判別手段、 を備えている請求項2、3および4のいずれかに記載の
    話速変換装置。
  11. 【請求項11】上記しきい値が、上記リングメモリの蓄
    積量に応じて調整される請求項5、6、7、8および1
    0のいずれかに記載の話速変換装置。
  12. 【請求項12】上記第1処理手段は、ピッチ周期単位ま
    たはピッチ周期の整数倍単位で圧縮伸長処理を行なうも
    のである請求項4記載の話速変換装置。
  13. 【請求項13】上記第1処理手段は、固定フレーム長単
    位で圧縮伸長処理を行なうものである請求項4記載の話
    速変換装置。
  14. 【請求項14】上記無音削除開始点判別値が、上記リン
    グメモリの蓄積量に応じて調整される請求項4に記載の
    話速変換装置。
JP22820594A 1993-10-19 1994-09-22 話速変換装置 Expired - Fee Related JP3378672B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22820594A JP3378672B2 (ja) 1993-10-19 1994-09-22 話速変換装置

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP28605193 1993-10-19
JP5-286051 1993-10-19
JP6-109874 1994-05-24
JP10987494 1994-05-24
JP22820594A JP3378672B2 (ja) 1993-10-19 1994-09-22 話速変換装置

Publications (2)

Publication Number Publication Date
JPH0845177A true JPH0845177A (ja) 1996-02-16
JP3378672B2 JP3378672B2 (ja) 2003-02-17

Family

ID=27311577

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22820594A Expired - Fee Related JP3378672B2 (ja) 1993-10-19 1994-09-22 話速変換装置

Country Status (1)

Country Link
JP (1) JP3378672B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0829851A2 (en) * 1996-09-17 1998-03-18 Nec Corporation Voice speed converter
WO2001067438A1 (fr) * 2000-03-10 2001-09-13 Matsushita Electric Industrial Co., Ltd. Procede de reproduction par ralentissement de la voix
JP2001255894A (ja) * 2000-03-13 2001-09-21 Sony Corp 再生速度変換装置及び方法
JP2004506244A (ja) * 2000-08-10 2004-02-26 トムソン ライセンシング ソシエテ アノニム 可変速度データ再生機能を備えたシステム用のメモリアドレス指定方法
JP2008107381A (ja) * 2006-10-23 2008-05-08 Mitsubishi Electric Corp 話速変換装置及び話速変換制御方法
JPWO2007004611A1 (ja) * 2005-07-06 2009-01-29 シャープ株式会社 出力回路、制御プログラム製品および制御方法
JP2011033789A (ja) * 2009-07-31 2011-02-17 Nippon Hoso Kyokai <Nhk> 適応的な話速変換装置及びプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0829851A2 (en) * 1996-09-17 1998-03-18 Nec Corporation Voice speed converter
EP0829851A3 (en) * 1996-09-17 1998-11-11 Nec Corporation Voice speed converter
US5995925A (en) * 1996-09-17 1999-11-30 Nec Corporation Voice speed converter
WO2001067438A1 (fr) * 2000-03-10 2001-09-13 Matsushita Electric Industrial Co., Ltd. Procede de reproduction par ralentissement de la voix
JP2001255894A (ja) * 2000-03-13 2001-09-21 Sony Corp 再生速度変換装置及び方法
JP2004506244A (ja) * 2000-08-10 2004-02-26 トムソン ライセンシング ソシエテ アノニム 可変速度データ再生機能を備えたシステム用のメモリアドレス指定方法
JPWO2007004611A1 (ja) * 2005-07-06 2009-01-29 シャープ株式会社 出力回路、制御プログラム製品および制御方法
JP2008107381A (ja) * 2006-10-23 2008-05-08 Mitsubishi Electric Corp 話速変換装置及び話速変換制御方法
JP2011033789A (ja) * 2009-07-31 2011-02-17 Nippon Hoso Kyokai <Nhk> 適応的な話速変換装置及びプログラム

Also Published As

Publication number Publication date
JP3378672B2 (ja) 2003-02-17

Similar Documents

Publication Publication Date Title
US5611018A (en) System for controlling voice speed of an input signal
JP2955247B2 (ja) 話速変換方法およびその装置
KR100739355B1 (ko) 음성 재생 방법 및 음성 재생 장치
KR101334366B1 (ko) 오디오 배속 재생 방법 및 장치
KR100302370B1 (ko) 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
US20080262856A1 (en) Method and system for enabling audio speed conversion
JPWO2005117366A1 (ja) 音声パケット再生方法、音声パケット再生装置、音声パケット再生プログラム、記録媒体
JP3378672B2 (ja) 話速変換装置
JP3220043B2 (ja) 話速変換方法およびその装置
JP3373933B2 (ja) 話速変換装置
JP3081469B2 (ja) 話速変換装置
JP3162945B2 (ja) ビデオテープレコーダ
JP3357742B2 (ja) 話速変換装置
JP2001184100A (ja) 話速変換装置
US20070269056A1 (en) Method and Apparatus for Audio Signal Expansion and Compression
JP4580297B2 (ja) 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
JP4212253B2 (ja) 話速変換装置
JPH09152889A (ja) 話速変換装置
JPH09146587A (ja) 話速変換装置
KR100359988B1 (ko) 실시간 화속 변환 장치
JPH07210192A (ja) 出力データ制御方法及び装置
JPH05303400A (ja) 音声再生装置と音声再生方法
JPH0983673A (ja) 音声通信システム、音声通信方法および送受信装置
KR20030000400A (ko) 음성 재생속도 실시간 변환 방법 및 장치
JP2001318700A (ja) 話速変換装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees