JP3373933B2 - 話速変換装置 - Google Patents

話速変換装置

Info

Publication number
JP3373933B2
JP3373933B2 JP10987594A JP10987594A JP3373933B2 JP 3373933 B2 JP3373933 B2 JP 3373933B2 JP 10987594 A JP10987594 A JP 10987594A JP 10987594 A JP10987594 A JP 10987594A JP 3373933 B2 JP3373933 B2 JP 3373933B2
Authority
JP
Japan
Prior art keywords
section
voice
memory
signal
ring memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10987594A
Other languages
English (en)
Other versions
JPH07191695A (ja
Inventor
浩司 田中
正蔵 杉下
照雄 法師
正幸 飯田
正典 宮武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP10987594A priority Critical patent/JP3373933B2/ja
Publication of JPH07191695A publication Critical patent/JPH07191695A/ja
Application granted granted Critical
Publication of JP3373933B2 publication Critical patent/JP3373933B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、音声信号の話速を変
える話速変換装置に関し、例えば、映像を伴うレーザデ
ィスク、VTR等の音声の早聞きまたは遅聞きを行なう
音声再生装置、聴覚障害者に放送される音声信号をゆっ
くりした聞きやすい音声に変換する聴覚補助装置、ネイ
ティブスピードで話された英語音声をゆっくりした聞き
やすい音声に変換する英語学習器等に利用される話速変
換装置に関する。
【0002】
【従来の技術】話速を変換する従来の技術として、アナ
ログ方式の時間軸伸長圧縮技術がある。しかしながら、
アナログ方式の時間軸伸長圧縮技術を用いた話速変換方
法では、単純な音声波形の間引きまたは音声波形の繰り
返し挿入が行なわれているだけなので、音声のつなぎめ
が不連続になるため、音質が悪くなるという問題があ
る。
【0003】良好な音質が得られる音声の時間軸伸長圧
縮技術として、ディジタル信号処理によって、音声のピ
ッチ周期を検出し、検出したピッチ周期単位またはピッ
チ周期の整数倍単位でピッチ部の間引きまたは挿入を行
なう技術がある。しかしながら、このディジタル方式の
時間軸伸長圧縮技術を用いた話速変換方法では、音声信
号における無音区間および音声区間にかかわらず、一律
の圧縮伸長率で音声信号の圧縮または伸長が行なわれて
いるので、VTRの倍速再生時、英語学習器の英語音声
再生時等においては音声区間の再生速度が速くなりす
ぎ、音声が聞き取れなくなる場合があるという問題があ
る。
【0004】
【発明が解決しようとする課題】上記問題を解決するた
めに、音声信号の無音区間と音声区間とを識別し、無音
区間を削除し、音声区間をピッチ周期単位で伸長する話
速変換方法が既に開発されている(参考文献A(以下、
第1従来方式という):信学技法SP92−56、HC
92−33(1992−09) タイトル「話速変換に
伴う時間伸長を吸収するための一方法」 社団法人 電
子情報通信学会発行、参考文献B(以下、第2従来方式
という):信学技法SP92−150(1993−0
3) タイトル「難聴者による話速変換方式の評価」
社団法人 電子情報通信学会発行)。この方法によれ
ば、音声区間の再生速度を遅くでき、音声が聞きやすく
なる。しかしながら、この方法では、次のような問題が
ある。
【0005】第1従来方式では、処理負荷が大きいた
め、高速演算が必要となり、消費電力が大きくなる。第
2従来方式では、映像と音声のズレが大きくなりすぎ内
容把握が困難となるとともに、音声信号を蓄積するため
のメモリの容量が膨大となりコストがかかる。
【0006】この発明は、処理負荷を低減できるととも
に、映像と音声のズレを小さくでき、しかも音声信号を
蓄積するためのメモリの容量も膨大とならない話速変換
装置を提供することを目的とする。
【0007】
【課題を解決するための手段】この発明による第1の話
速変換装置は、リングメモリ、読出手段、蓄積量算出手
段、話速変換処理手段を備える話速変換装置であって、
リングメモリは、話速変換処理手段の出力が書き込ま
れ、読出手段は、リングメモリのデータを一定速度で読
出し、蓄積量算出手段は、リングメモリへの書き込みと
読み出しに基づいて、リングメモリの蓄積量を算出し、
話速変換処理手段は、区間判別手段、信号処理手段、選
択手段を備え、区間判別手段は、入力音声信号が音声区
間であるか無音区間であるを判別し、信号処理手段は、
入力音声信号に対して、圧縮慎重処理、削除処理、2つ
の入力音声信号をそのまま、もしくは、一方を加工して
加重する輪唱処理のいずれかを行い、選択手段は、区間
判別手段の判別結果、及び、蓄積算出手段の算出する蓄
積量、及び設定された再生速度倍率に応じて信号処理手
段のいずれかの処理を選択すると共に、蓄積量算出手段
の算出する蓄積量がオーバーフロー直前状態である場合
には、輪唱処理を選択する話速変換装置である。
【0008】この発明による第2の話速変換装置は、A
/D変換手段、フレームメモリ、リングメモリ、読出手
段、蓄積量算出手段、話速変換手段を備える話速変換装
置であって、A/D変換手段は、アナログ音声信号を設
定された再生速度倍率に応じたサンプリング周波数でサ
ンプリングし、フレームメモリは、A/D変換手段から
の音声信号を入力音声信号として話速変換手段に出力
し、リングメモリは、話速変換処理手段の出力が書き込
まれ、読出手段は、リングメモリのデータを一定速度で
読出し、蓄積量算出手段は、リングメモリへの書き込み
と読み出しに基づいて、リングメモリの蓄積量を算出
し、話速変換処理手段は、区間判別手段、信号処理手
段、選択手段を備え、区間判別手段は、入力音声信号が
音声区間であるか無音区間であるを判別し、信号処理手
段は、入力音声信号に対して、圧縮慎重処理、削除処
理、2つの入力音声信号をそのまま、もしくは、一方を
加工して加重する輪唱処理のいずれかを行い、選択手段
は、区間判別手段の判別結果、及び、蓄積算出手段の算
出する蓄積量、及び、設定された再生速度倍率に応じて
信号処理手段のいずれかの処理を選択すると共に、蓄積
量算出手段の算出する蓄積量がオーバーフロー直前状態
である場合には、輪唱処理を選択する話速変換装置であ
る。
【0009】この発明による第3の話速変換装置は、フ
レームメモリ、リングメモリ、読出手段、蓄積量算出手
段、話速変換手段を備える話速変換装置であって、フレ
ームメモリには、設定された再生速度倍率に応じた速度
で入力される音声信号を入力音声信号として話速変換手
段に出力し、リングメモリは、話速変換処理手段の出力
が書き込まれ、読出手段は、リングメモリのデータを一
定速度で読出し、蓄積量算出手段は、リングメモリへの
書き込みと読み出しに基づいて、リングメモリの蓄積量
を算出し、話速変換処理手段は、区間判別手段、信号処
理手段、選択手段を備え、区間判別手段は、入力音声信
号が音声区間であるか無音区間であるを判別し、信号処
理手段は、入力音声信号に対して、圧縮慎重処理、削除
処理、2つの入力音声信号をそのまま、もしくは、一方
を加工して加重する輪唱処理のいずれかを行い、選択手
段は、区間判別手段の判別結果、及び、蓄積算出手段の
算出する蓄積量、及び、設定された再生速度倍率に応じ
て信号処理手段のいずれかの処理を選択すると共に、蓄
積量算出手段の算出する蓄積量がオーバーフロー直前状
態である場合には、輪唱処理を選択する話速変換装置で
ある。
【0010】上記輪唱処理は、音声区間の入力音声信
号、及び、無音区間の継続長が無音削除判別値未満の入
力音声信号に対して、処理開始後の所定長のデータと、
次の所定長のデータに1以下の定数を加算するものであ
る。
【0011】また、上記輪唱処理は、音声区間の入力音
声信号、及び、無音区間の継続長が無音削除判別値未満
の入力音声信号に対して、処理開始後の所定長のデータ
と、次の所定長のデータに関数を乗算するものである。
【0012】上記区間判別手段は、パワー算出手段、判
別手段からなり、パワー算出手段は、所定数の入力音声
信号のパワー平均値を算出し、判別手段は、パワー平均
値としきい値に基づいて、入力音声信号が音声区間か無
音区間かを判別するものである。
【0013】また、上記区間判別手段は、パワー算出手
段、判別手段からなり、パワー算出手段は、所定数の入
力音声信号のパワー累積値を算出し、判別手段は、パワ
ー累積値としきい値に基づいて、入力音声信号が音声区
間か無音区間かを判別するものである。
【0014】また、上記区間判別手段は、振幅算出手
段、判別手段からなり、振幅算出手段は、所定数の入力
音声信号の平均振幅値を算出し、判別手段は、平均振幅
値としきい値に基づいて、入力音声信号が音声区間か無
音区間かを判別するものである。
【0015】また、上記区間判別手段は、振幅算出手
段、判別手段からなり、振幅算出手段は、所定数の入力
音声信号の振幅累積値を算出し、判別手段は、振幅累積
値としきい値に基づいて、入力音声信号が音声区間か無
音区間かを判別するものである。
【0016】
【0017】また、上記区間判別手段は、周期検出手
段、判別手段からなり、周期検出手段は、入力音声信号
の周期を算出し、判別手段は、周期としきい値に基づい
て、入力音声信号が音声区間か無音区間かを判別するも
のである。
【0018】また、上記区間判別手段は、パワースペク
トル算出手段、判別手段からなり、パワースペクトル算
出手段は、入力音声信号の所定の1または複数の周波数
帯域に対するパワースペクトルを算出し、判別手段は、
パワースペクトルに基づいて入力音声信号が音声区間か
無音区間かを判別するものである。
【0019】
【0020】
【0021】
【0022】
【0023】
【作用】この発明による第1の話速変換装置では、入力
音声信号は、話速変換処理手段によって話速変換処理さ
れる。話速変換処理手段の出力は、リングメモリに書き
込まれる。リングメモリに書き込まれたデータは、一定
速度で読み出される。話速変換処理手段においては、入
力音声信号が音声区間であるか無音区間であるかが、区
間判別手段によって判別される。また、リングメモリの
書き込み信号と読み出し信号とに基づいて、リングメモ
リの蓄積量が蓄積量算出手段によって算出される。
【0024】そして、区間判別手段の出力および蓄積量
算出手段の出力に基づいて、設定された再生速度倍率に
応じて入力音声信号に対して圧縮伸長処理、削除処理ま
たは音声信号における2つの所定長の信号をそのまま加
重するかまたは少なくとも一方の信号に加工を施した後
に加重するといった輪唱処理が、信号処理手段によって
行なわれる。信号処理手段では、リングメモリの蓄積量
がオーバーフロー直前状態である場合に、入力音声信号
に対して輪唱処理が行なわれる。
【0025】この発明による第2の話速変換装置では、
入力されるアナログ音声信号が、A/D変換手段によ
り、設定された再生速度倍率に応じたサンプリング周波
数でサンプリングされる。A/D変換手段から出力され
た音声信号は、フレームメモリに入力される。フレーム
メモリに所要数の音声信号が入力されるごとに、話速変
換処理手段により、それらの音声信号に対して話速変換
処理が行なわれる。話速変換処理手段の出力は、リング
メモリに書き込まれる。リングメモリに書き込まれたデ
ータは、標準速度再生時のサンプリング周波数と等しい
周波数の読み出し信号に基づいて読み出される。また、
リングメモリの書き込み信号と読み出し信号とに基づい
て、リングメモリの蓄積量が蓄積量算出手段によって算
出される。
【0026】話速変換処理手段においては、フレームメ
モリに入力された所要数の音声信号に対応する入力音声
が音声区間であるか無音区間であるかが、区間判別手段
によって判別される。また、区間判別手段の出力および
蓄積量算出手段の出力に基づいて、上記所要数の音声信
号に対して圧縮伸長処理、削除処理または音声信号にお
ける2つの所定長の信号をそのまま加重するかまたは少
なくとも一方の信号に加工を施した後に加重するといっ
た輪唱処理が、信号処理手段によって行なわれる。信号
処理手段では、リングメモリの蓄積量がオーバーフロー
直前状態である場合に、音声信号に対して輪唱処理が行
なわれる。
【0027】
【0028】話速変換処理手段においては、フレームメ
モリに入力された所要数の音声信号に対応する入力音声
が音声区間であるか無音区間であるかが、区間判別手段
によって判別される。区間判別手段の出力および蓄積量
算出手段の出力に基づいて、上記所要数の音声信号に対
して圧縮伸長処理、削除処理または音声信号における2
つの所定長の信号をそのまま加重するかまたは少なくと
も一方の信号に加工を施した後に加重するといった輪唱
処理が、信号処理手段によって行なわれる。信号処理手
段では、リングメモリの蓄積量がオーバーフロー直前状
態である場合に、音声信号に対して輪唱処理が行なわれ
る。
【実施例】以下、図面を参照して、この発明をVTRに
適用した場合の実施例について説明する。
【0029】図1は、話速変換装置の全体的な構成を示
している。
【0030】入力音声信号は、ALCアンプ1で増幅さ
れた後、A/D変換部2に送られ、例えば12ビットの
ディジタル信号に変換される。A/D変換部2の標準サ
ンプリング周波数は、たとえば8KHzである。2倍速
再生時には、A/D変換部2のサンプリング周波数fs
ADは、16KHzとなる。
【0031】A/D変換部2の出力は、DSP( Digita
l Signal Processor) 4に送られるとともにレベル検出
部3にも送られる。レベル検出部3は、A/D変換部2
でA/D変換されたデータが変換レンジの最大値となっ
たときに、ALC(automaticlevel control) 信号をA
LCアンプ1に出力する。これにより、ALCアンプ1
のアンプ利得が制御され、A/D変換部2の入力信号が
最大レンジを越えないようにされる。つまり、VTRの
再生テープ速度が変化するとALCアンプ1の入力信号
レベルも変化する。そこで、レベル検出部3の出力に基
づいて、アンプ利得を自動調整することにより、A/D
変換部2の入力信号が最大レンジを越えないようにして
いる。
【0032】DSP4は、2フレーム分の音声信号を記
憶できる容量のフレームメモリ5およびフレームメモリ
5に記憶された音声信号に対してフレーム単位で話速変
換処理を行なう話速変換部6とを備えている。1フレー
ムは、ここでは、200個のサンプリングデータから構
成されるものとする。
【0033】フレームメモリ5内の前半領域および後半
領域のうち、一方の領域に記憶された1フレーム分の音
声信号に対して話速変換部6により処理が行なわれると
同時に、他方の領域にA/D変換部2からの信号が蓄積
される。そして、この他方の領域に1フレーム分の信号
が蓄積されると、今度はその領域内のデータに対して話
速変換部6により処理が行なわれると同時に、既に処理
が行なわれたデータが記憶されていた上記一方の領域に
A/D変換部2からの信号が蓄積される。
【0034】話速変換部6から出力されたデータは、書
き込みクロックに基づいてリングメモリ7に書き込まれ
る。リングメモリ7に書き込まれたデータは、読み出し
クロックに基づいて、読み出される。リングメモリ7か
ら読み出された信号は、D/A変換部8によってアナロ
グ信号に変換された後、アンプ10で増幅され、音声出
力信号として出力される。
【0035】D/A変換部8のサンプリング周波数fs
DAは、8KHzである。また、リングメモリ7の読み
出しクロックの周波数も8KHzである。リングメモリ
7としては、21845×12bitのもの、すなわ
ち、21845ワードのものが用いられている。したが
って、リングメモリ7にデータを蓄積できる最大時間
(入力信号に対する出力時間の最大遅延時間)は、21
845×1/8000=2.73秒となる。
【0036】リングメモリ7に対する書き込みクロック
は、アップダウンカウンタ9のアップカウント用入力端
子(UP)に入力する。リングメモリ7に対する読み出
しクロックは、アップダウンカウンタ9のダウンカウン
ト用入力端子(DOWN)に入力する。アップダウンカ
ウンタ9は、入力された書き込みクロックの総数と入力
された読み出しクロックの総数との差(リングメモリ7
の蓄積量)をカウントし、そのカウント値を15bit
のディジタル信号として出力する。アップダウンカウン
タ9の出力は、話速変換部6に送られる。
【0037】図2は、話速変換部6の詳細な構成を示し
ている。
【0038】フレームメモリ5から読み出された音声信
号は、パワー計算部11に送られ、1フレーム分の音声
信号の平均パワー値Pが算出される。この平均パワー値
Pは、サンプリングされた1フレーム内の各音声信号の
振幅をi0 、i1 …iN- 1 (ただし、N=200)
とすると、次の数式1によって求められる。
【0039】
【数1】
【0040】パワー計算部11で求められた平均パワー
値Pは、比較部12に送られる。比較部12には、しき
い値メモリ13からしきい値Thが送られており、平均
パワー値Pがしきい値Th以上(P≧Th)か、平均パ
ワー値Pがしきい値Thより小さいか(P<Th)かが
判別される。比較部12からは、平均パワー値Pがしき
い値Th以上(P≧Th)のときには現フレームが音声
区間であることを示す信号が、平均パワー値Pがしきい
値Thより小さいときには現フレームが無音区間である
ことを示す信号が、それぞれ出力される。
【0041】しきい値Thとしては、A/D変換部2の
量子化ビット数が12bitのときには、たとえば、2
12に設定される。なお、次のようにして、しきい値Th
を変更するようにしてもよい。すなわち、図2に点線で
示すように、パワー定常状態検出およびしきい値更新部
14を設ける。パワー定常状態検出およびしきい値更新
部14は、パワー計算部11からの平均パワー値Pが、
所定フレーム数(例えば、40フレーム)にわたって一
定であったか否かを判別し、一定であったときには(定
常状態)、そのときの平均パワー値Pの2倍の値をしき
い値メモリ13に書き込み、しきい値Thを更新させ
る。ただし、更新されるしきい値の最大値は、所定値、
たとえば214に制限される。このようにすることによ
り、定常的に発生している雑音を無音区間として取り扱
うことができるようになる。
【0042】また、入力信号の音声区間と無音区間と
を、次の数式2で示す各フレームの音声信号のパワー累
積値Paと所与のしきい値とに基づいて判別するように
してもよい。
【0043】
【数2】
【0044】比較部12の出力は、条件分岐部15に送
られる。条件分岐部15には、リングメモリ蓄積量状態
判別部16の出力が入力している。また、条件分岐部1
5には、パワー計算部11を介してフレームメモリ5か
らの、音声信号が送られている。さらに、条件分岐部1
5には、ポーズ継続長設定メモリ17が接続されてい
る。ポーズ継続長設定メモリ17には、無音区間の削除
開始点を決定するためのポーズ継続長Tdel(無音削
除開始点判別値)が設定されている。
【0045】リングメモリ蓄積量状態判別部16は、ア
ップダウンカウンタ9から送られてきた蓄積量に基づい
て、リングメモリ7の状態がオーバーフロー直前状態に
なったこと、およびリングメモリ7の状態がアンダーフ
ロー直前状態になったことを検出する。
【0046】つまり、オーバーフロー検出用データメモ
リ18にはオーバーフロー検出用データTmaxが、ア
ンダーフロー検出用データメモリ19にはアンダーフロ
ー検出用データTminが、それぞれ記憶されている。
オーバーフロー検出用データTmaxは、例えば、リン
グメモリ7の総ワード数(TOTAL)21845より
200小さい値21645に設定されている。アンダー
フロー検出用データTminは、例えば、200に設定
されている。
【0047】そして、アップダウンカウンタ9から送ら
れてきた蓄積量がオーバーフロー検出用データTmax
以上になると、リングメモリ蓄積量状態判別部16から
オーバーフロー直前検出信号が出力される。また、アッ
プダウンカウンタ9から送られてきた蓄積量がアンダー
フロー検出用データTmin以下になると、リングメモ
リ蓄積量状態判別部16からアンダーフロー直前検出信
号が出力される。条件分岐部15は、オーバーフロー直
前検出信号が入力されているときにはリングメモリ7が
オーバーフロー直前状態であると判別し、アンダーフロ
ー直前検出信号が入力されているときにはリングメモリ
7がアンダーフロー直前状態であると判別する。
【0048】条件分岐部15は、比較部12から送られ
てくる音声区間または無音区間の判別信号と、リングメ
モリ蓄積量状態判別部16から送られてくるリングメモ
リ状態に関する検出信号と、ポーズ継続長設定メモリ1
7に設定されているポーズ継続長Tdelとに基づい
て、以下の6つのケースに場合分けを行なう。そして、
それに応じて、マルチプレクサ20を制御して、音声信
号を所定の処理部に送る。
【0049】(1)第1ケース(case1) 入力信号が音声区間であり、かつリングメモリ7がオー
バーフロー直前状態ではないと判別されたときには、第
1ケースとなる。
【0050】この場合には、音声信号は、マルチプレク
サ20を介して、ピッチ圧縮伸長手段23に送られる。
ピッチ圧縮伸長手段23は、バリアブル スピーチ コ
ントロール(VSC)を行なうものであり、再生速度倍
率をnとすると、入力信号に対して、圧縮率1/nより
大きな圧縮率で伸長圧縮処理を行なう。ここで用いられ
る伸長圧縮法としては、例えば、ポインター移動量制御
による重複加算法(Pointer Interval Control Overlap
and Add : PICOLA)、TDHS(TimeDomain Ha
rmonic Scaling)法等がある。ピッチ伸長圧縮手段23
で伸長圧縮処理が行なわれた信号は、デマルチプレクサ
27を介してリングメモリ7に送られ、書き込みクロッ
クにしたがって、リングメモリ7に書き込まれる。
【0051】VTRの2倍速再生時においては、A/D
変換部2のサンプリング周波数fsADは16KHZで
あり、D/A変換部8のサンプリング周波数fsDAは
8KHZである。このため、音程は元に戻されて出力さ
れる。
【0052】従来の一般的な時間軸伸長圧縮において
は、VTRの2倍速再生時には圧縮率1/2で、圧縮さ
れる。言い換えれば、2ピッチ周期が1ピッチ周期に間
引かれる。このため、出力音声は標準音声速度の2倍速
となる。つまり、2倍速再生の通常再生では、出力音声
は標準音声速度の2倍速となる。ただし、音程は元のま
まとなる。
【0053】これに対し、図2の話速変換部6に設けら
れた上記ピッチ伸長圧縮手段23では、圧縮率が1/2
より大きな値に設定される。ここでは、圧縮率が2/3
に設定されているとする。言い換えれば、3ピッチ周期
が2ピッチ周期に間引かれる。このため、出力音声は、
標準音声速度の3/2倍速となる。この場合も音程は、
元のままである。このように、圧縮率2/3で圧縮され
た場合には、圧縮率1/2の場合に比べて、2/3−1
/2=1/6だけ、信号が伸長されることになる。この
伸長分が、リングメモリ7の蓄積量となる。
【0054】PICOLAを用いて、入力信号を圧縮率
2/3で圧縮する方法について、図3を用いて簡単に説
明する。まず、入力信号からピッチ周期が抽出される。
抽出されたピッチ周期をTpとする。波形Aに対して
は、1から0へ直線的に向かう重み(重み関数K1)が
つけられて、波形A’が作成される。波形Bに対しては
0から1に向かう重み(重み関数K2)がつけられて、
波形B’が作成される。
【0055】そして、それらの波形A’およびB’が加
え合わされ、長さTpの波形A’*B’が作成される。
これらの重みは、波形A’*B’の前後の接続点での連
続性を保つためにつけられている。つぎに、ポインター
が、圧縮率に基づいて決まる長さである3Tp分だけ移
動され、同様な操作が行なわれる。これにより、3つの
波形A、B、Cから2つの波形A’*B’およびCが得
られる。このようにして、3ピッチ周期分の信号が、2
ピッチ周期分の信号に圧縮される。
【0056】ピッチ伸長圧縮手段23による伸長圧縮法
としては、図4(a)、(b)に示すように、ピッチ抽
出をすることなく、所定長の固定フレーム長Ts単位で
伸長圧縮処理を行うようにしてもよい。固定フレーム長
Tsは、たとえば入力データの200個分の長さに設定
される。図4の例では、3Tsを2Tsにする例を示し
ている。
【0057】図4(a)の方法では、固定フレーム長T
sの波形A、B、Cのうち、波形Aに対しては、1から
0へ直線的に向かう重み(重み関数K1)がつけられ
て、波形A”が作成される。波形Bに対しては0から1
に向かう重み(重み関数K2)がつけられて、波形B”
が作成される。
【0058】そして、それらの波形A”およびB”が加
え合わされ、長さTsの波形A”*B”が作成される。
これらの重みは、波形A”*B”の前後の接続点での連
続性を保つためにつけられている。そして、次の波形C
に対しては、そのまま出力される。これにより、3つの
波形A、B、Cから2つの波形A”*B”およびCが得
られる。このようにして、3Ts分の信号が、2Ts分
の信号に圧縮される。
【0059】図4(b)の方法では、固定フレーム長T
sの波形A〜Cのうちの波形Aには先頭からたとえば2
0個のデータに0から1へ直線的に向かう重み(重み関
数K3)をつけて波形A”を得る。波形Bには181個
目〜200個目までの入力データに1から0へ直線的に
向かう重み(重み関数K4)をつけて波形B”を得る。
そして、波形Cを削除する。次の3つの波形D〜Fに対
しても、同様な処理が行われる。このようにして、3つ
の波形A〜C(またはD〜F)からなる信号は、2つの
波形A”およびB”(またはD”およびE”)からなる
信号に圧縮される。つまり、3Ts分の信号が、2Ts
分の信号に圧縮される。
【0060】上記固定フレーム長単位での伸長圧縮処理
を用いた場合には、ピッチ周期ごとの伸長圧縮処理を用
いた場合に比べて、音質は低下するが、処理量は軽減さ
れる。
【0061】なお、この話速変換装置が英語学習器に適
用されている場合には(1倍速再生時)、A/D変換部
2のサンプリング周波数fsADは8KHZであり、D
/A変換部8のサンプリング周波数fsDAは8KHZ
である。この場合には、ピッチ圧縮伸長手段23で、た
とえば、2ピッチ周期が3ピッチ周期になるように、圧
縮率3/2で音声信号が伸長される。つまり、音声区間
が1.5倍に伸長される。したがって、この場合には、
1倍速再生の通常再生時に対して、3/2−1=1/2
だけ信号が伸長されることになり、この伸長分がリング
メモリ7の蓄積量となる。
【0062】(2)第2ケース(case2) 入力信号が音声区間であり、かつリングメモリ7がオー
バーフロー直前状態であると判別されたときには、第2
ケースとなる。
【0063】この場合には、音声信号はマルチプレクサ
20を介して、輪唱処理部21に送られ、音声信号が輪
唱処理される。輪唱処理部21は、乗算器41、加算器
42および輪唱処理メモリ43を備えている。後述する
波形合成挿入部26の出力が輪唱処理部21に送られる
場合もある。この輪唱処理について、図5を参照して説
明する。
【0064】図5には、輪唱処理の2つの方法が示され
ている。まず、図5(a)に示されている方法について
説明する。リングメモリ7がオーバーフロー直前状態と
なった時点t0から入力される信号を、波形A、B、
C、D…で示す。各波形A、B、C、Dは、たとえば所
定フレーム数分(VTRの2倍速再生時においては、た
とえば、0.5〜1.0秒分)のデータを示している。
また、ここでは、各波形A、B、C、Dに含まれている
信号は、音声区間の信号または継続長がポーズ継続長T
del未満の無音区間の信号であるとする。
【0065】まず、リングメモリ7がオーバーフロー直
前状態となった時点になると、入力される所定フレーム
数分のデータAが輪唱処理メモリ43に順次記憶され
る。このように、輪唱処理メモリ43にそのまま記憶さ
れるデータAを被加重データと呼ぶことにする。次に、
次の所定フレーム数分のデータBに1.0以下の定数k
が乗算器41により乗算され、B×kのデータが作成さ
れる。そして、輪唱処理メモリ43の内容AにデータB
×kが加算器42により加え合わされ、その演算結果A
*(B×k)が再度、輪唱処理メモリ43に記憶され
る。このように、定数kが乗算された後に、輪唱処理メ
モリ43内の被加重データに加重されるデータBを加重
データと呼ぶことにする。このようにして、波形Aと波
形Bとから、所定フレーム数分の輪唱データA*(B×
k)が作成される。上記定数kとしては、例えば0.5
が選択される。
【0066】この後、輪唱処理メモリ43から輪唱デー
タA*(B×k)がリングメモリ7に転送される。波形
Bに続く波形Cと波形Dに対しても同様な処理が行われ
る。つまり、輪唱処理によって2種の音声、たとえば、
波形Aと波形(B×k)にそれぞれ対応する音声が同時
に出力されることになる。
【0067】上記の方法では、データBに定数kを乗算
してデータB×kを作成したが、輪唱処理部21におい
て、データBを右に1ビットシフトすることにより、デ
ータB×kを作成するようにしてもよい。この場合に
は、kは、0.5となる。
【0068】図5(b)に示す輪唱処理の方法について
説明する。まず、リングメモリ7がオーバーフロー直前
状態となった時点になると、入力される所定フレーム数
分のデータA(被加重データ)が輪唱処理メモリ43に
順次記憶される。次に、次の所定フレーム数分のデータ
B(加重データ)に徐々に値が小さくなる関数Fが乗算
器41により乗算され、B×Fのデータが作成される。
徐々に値が小さくなる関数Fとしては、1≧α1>β1
≧0の条件を満足する下降直線で表される関数F1また
は1≧α2>β2≧0の条件を満足する下降曲線で表さ
れる関数F2等が用いられる。そして、輪唱処理メモリ
43の内容AにデータB×Fが加算器42により加え合
わされ、その演算結果A*(B×F)が再度、輪唱処理
メモリ43に記憶される。このようにして、波形Aと波
形Bとから、所定フレーム数分の輪唱データA*(B×
F)が作成される。
【0069】この後、輪唱処理メモリ43から輪唱デー
タA*(B×F)がリングメモリ7に転送される。波形
Bに続く波形Cと波形Dに対しても同様な処理が行われ
る。つまり、輪唱処理によって2種の音声、たとえば、
波形Aと波形(B×F)にそれぞれ対応する音声が同時
に出力されることになる。
【0070】輪唱処理部21の演算出力は、D/A変換
器8の量子化ビット数が12bitとなっているため、
D/A変換器8の出力がオーバーフローしないよう、1
2bit内に収まるように調整されている。この調整
は、輪唱処理部21で行ってもよいし、輪唱処理部21
にデータが入力される前にデータの振幅を減少させるこ
とにより行ってもよい。
【0071】上記のような輪唱処理の対象となる入力信
号は、音声区間の入力信号または無音区間でかつ無音区
間の継続長が設定されたポーズ継続長Tdel未満の入
力信号に限られる。したがって、第2ケース(または後
述する第4ケース)に該当して、輪唱処理が開始された
後、継続長が設定されたポーズ継続長Tdel以上の無
音区間の入力信号が入力された場合には、その無音区間
の信号は、後述する入力信号削除部25によって削除さ
れる。このような場合には、削除区間の前後のつなぎ目
でクリック音が発生しないように、後述する波形合成挿
入部26によって作成されたデータが、被加重データま
たは加重データとして、輪唱処理部21に送られる。
【0072】上記輪唱処理が開始された後に、輪唱処理
が終了する条件は、次の2つの場合がある。その第1
は、輪唱処理の過程において、継続長が設定されたポー
ズ継続長Tdel以上の無音区間の入力信号が入力さ
れ、その入力信号が削除されたために、輪唱処理メモリ
43から輪唱データ(図5の例ではA*(B×k)また
はA*(B×F))がリングメモリ7に転送された時点
において、リングメモリ7がオーバーフロー直前状態と
ならなくなった場合である。第2は、輪唱処理の過程に
おいて、継続長が設定されたポーズ継続長Tdel以上
の無音区間の入力信号が多数入力され、その入力信号が
削除された結果、リングメモリ7がアンダーフロー直前
状態になった場合である。
【0073】このように、入力信号が音声区間であり、
かつリングメモリ7がオーバーフロー直前状態であると
判別されたときには、音声区間の入力信号および継続長
が設定されたポーズ継続長Tdel未満の無音区間の入
力信号に対しては輪唱処理が行われ、継続長が設定され
たポーズ継続長Tdel以上の無音区間の入力信号は削
除される。
【0074】(3)第3ケース(case3) 入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Tdel未満であり、かつリング
メモリ7がオーバーフロー直前状態ではないと判別され
たときには、第3ケースとなる。
【0075】この場合は、上記第1ケースの場合と同じ
処理が行なわれる。ただし、第3ケースに該当する場合
には、再生速度倍率をnとすると、1/nの圧縮率で伸
長圧縮処理を行ってもよい。
【0076】(4)第4ケース(case4) 入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Tdel未満であり、かつリング
メモリ7がオーバーフロー直前状態であると判別された
ときには、第4ケースとなる。この場合は、上記第2ケ
ースの場合と同じ処理が行なわれる。
【0077】(5)第5ケース(case5) 入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Tdel以上であり、かつリング
メモリ7がアンダーフロー直前状態ではないと判別され
たときには、第5ケースとなる。
【0078】この場合には、音声信号はマルチプレクサ
20を介して、入力信号削除部25に送られ、音声信号
が削除される。具体的には、リングメモリ7への書き込
み動作が停止される。ただし、音声区間のスタート部分
(無声区間)が欠落するのを防止したり、音声の削除に
よって繋ぎ目にクリック音が発生したりするのを防止す
るために、波形合成挿入部26によって波形合成挿入処
理が行なわれる。
【0079】波形合成挿入部26による波形合成挿入処
理について、図6(a)、(b)を用いて説明する。図
6(a)による方法では、波形合成挿入部26は、第1
メモリ31および第2メモリ32を備えている。入力信
号削除部25による入力信号削除処理の開始時において
は、削除開始点から、1フレーム長以下の所定長さT
s、例えば1フレーム分の入力信号が、第1メモリ31
にアドレス順に順次記憶される。次に、第1メモリ31
のアドレスが大きくなるにしたがって1から0に直線的
に変化する関数K1が、第1メモリ31の内容Aに乗算
される。そして、その乗算結果A’が、再度第1メモリ
31に書き込まれる。
【0080】また、入力信号削除部25による入力信号
削除区間の終了点直前の所定長さTs分の入力信号が、
第2メモリ32にアドレス順に順次記憶される。次に、
第2メモリ32のアドレスが大きくなるほど、0から1
に直線的に変化する関数K2が、第2メモリ32の内容
Bに乗算される。そして、その乗算結果B’が、再度第
2メモリ32に書き込まれる。この後、第1メモリ31
の内容A’と、第2メモリ32の内容B’とが加え合わ
されて、所定長さTsのデータA’*B’が得られる。
そして、得られた所定長さTs分のデータA’*B’が
デマルチプレクサ27を介して、リングメモリ7に送ら
れ、リングメモリ7に書き込まれる。
【0081】図6(b)による方法では、削除開始点か
ら、1フレーム長以下の所定長さTs、例えば1フレー
ム分の入力信号が、第1メモリ31にアドレス順に順次
記憶される。次に、後端に1から0に直線的に変化する
スロープがついた関数K3が、第1メモリ31の内容A
に乗算される。そして、その乗算結果A’が、再度第1
メモリ31に書き込まれる。
【0082】また、入力信号削除部25による入力信号
削除区間の終了点直前の所定長さTs分の入力信号が、
第2メモリ32にアドレス順に順次記憶される。次に、
前端に0から1に直線的に変化するスロープがついた関
数K4が、第2メモリ32の内容Bに乗算される。そし
て、その乗算結果B’が、再度第2メモリ32に書き込
まれる。この後、第1メモリ31の内容A’と、第2メ
モリ32の内容B’とが繋ぎ合わされて、2Ts分のの
データA’+B’が得られる。そして、得られた2Ts
分のデータA’+B’がデマルチプレクサ27を介し
て、リングメモリ7に送られ、リングメモリ7に書き込
まれる。図6(b)では、Tsが、1フレーム分の長さ
である例を示したが、1フレームの半分の長さのデータ
をTsとしてもよい。
【0083】なお、入力信号削除部25による無音区間
の音声信号の削除処理が繰り返し行なわれている場合
に、リングメモリ7がアンダーフロー直前状態になるこ
とがある。この場合には、リングメモリ7がアンダーフ
ロー直前状態なったときから、所定長さTs分の入力信
号が第2メモリ32に記憶される。そして、第1メモリ
31に記憶されているデータと、第2メモリ32に記憶
されているデータにもとづいて、上記と同様な波形合成
挿入処理が行なわれる。
【0084】また、上記第2または第4ケースに該当
し、輪唱処理が行われている過程において、入力信号が
無音区間でかつ無音区間の継続長が設定されたポーズ継
続長Tdel以上であり、かつリングメモリ7がアンダ
ーフロー直前状態ではないと判別されたときにも、入力
信号削除部25による入力信号削除処理が行われる。ま
た、その場合には、リングメモリ7がアンダーフロー直
前状態にならなければ、波形合成挿入部26によって、
図6に示すようなデータA’*B’が作成される。
【0085】(6)第6ケース(case6) 入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Tdel以上であり、かつリング
メモリ7がアンダーフロー直前状態であると判別された
ときには、第6ケースとなる。
【0086】この場合は、入力信号は、マルチプレクサ
20を介して間引き処理部24に送られる。間引き処理
部24では、VTRの再生速度倍率をnとして、圧縮率
が1/nとなるように間引き処理が行なわれる。たとえ
ば、2倍速再生時には入力信号に対して圧縮率1/2で
間引きが行なわれ、3倍速再生時には入力信号に対して
圧縮率1/3で間引きが行なわれる。1倍速再生時に
は、入力信号がそのまま出力される。
【0087】1/n間引き処理部24による間引き処理
としては、次のような方法が用いられる。ここでは、2
倍速再生時を例にとって説明する。
【0088】上述したPICOLAまたはTDHSを用
いた時間軸圧縮法を用い、入力信号のピッチを抽出し、
ピッチデータ部分を圧縮率が1/2となるように、間引
く。
【0089】また、図7(a)〜(c)に示すように、
ピッチ抽出をすることなく、所定時間Tsごとに波形を
間引くようにしてもよい。
【0090】図7(a)の方法では、波形A〜Dのう
ち、波形Bおよび波形Dが間引かれ、波形A、Cからな
る信号が得られる。
【0091】図7(b)の方法では、波形A〜Dのう
ち、波形Bと波形Dが間引かれている。また、波形Aに
は、前端に0から1に上昇するスロープ(関数K4)
が、後端に1から0に下降するスロープ(関数K3)が
ついた関数が乗算されて、波形A’が作成される。ま
た、波形Cには、前端に0から1に上昇するスロープ
(関数K4)が、後端に1から0に下降するスロープ
(関数K3)がついた関数が乗算されて、波形C’が作
成される。このようにして、4つの波形A〜Dからなる
信号は、2つの波形A’およびC’からなる信号に圧縮
される。
【0092】図7(c)の方法では、波形Aに対して
は、1から0へ直線的に向かう重み(重み関数K1)が
つけられて、波形A’が作成される。波形Bに対しては
0から1に向かう重み(重み関数K2)がつけられて、
波形B’が作成される。そして、それらの波形A’およ
びB’が加え合わされ、長さTsの波形A’*B’が作
成される。
【0093】同様に、波形Cに対しては、1から0へ直
線的に向かう重み(関数K1)がつけられて、波形C’
が作成される。波形Dに対しては0から1に向かう重み
(関数K2)がつけられて、波形D’が作成される。そ
して、それらの波形C’およびD’が加え合わされ、長
さTsの波形C’*D’が作成される。このようにし
て、4つの波形A〜Dからなる信号は、2つの波形A’
*B’およびC’*D’からなる信号に圧縮される。
【0094】上述のように、第6ケースに該当する場合
には、VTRの再生倍率をnとして、圧縮率1/nで間
引き処理が行われているが、次のようにして圧縮率を制
御するようにしてもよい。
【0095】圧縮率1/nで間引き処理が行われている
場合、D/A変換器8のサンプリング周波数fsDAと
A/D変換器2のサンプリング周波数fsADとの比f
sDA/fsADが、圧縮率1/nと等しい場合には、
リングメモリ7の蓄積量は、変化しない。しかしなが
ら、圧縮率1/nの演算精度、サンプリング周波数fs
ADとfsDAのクロック精度によっては、fsDA/
fsADが圧縮率1/nと等しくならないことが起こり
うる。
【0096】fsDA/fsADが圧縮率1/nより大
きくなったとき(fsDA/fsAD>1/n)には、
fsDA/fsAD=1/a(a>0)として、{(1
/a)−(1/n)}だけ、圧縮率が小さくなり、間引
きの度合いが大きくなり、リングメモリ7の蓄積量が減
少していき、リングメモリ7の蓄積量がアンダーフロー
するおそれがある。
【0097】一方、 fsDA/fsADが圧縮率1/
nより小さくなったとき(fsDA/fsAD<1/
n)には、fsDA/fsAD=1/a(a>0)とし
て、{(1/n)−(1/a)}だけ、圧縮率が大きく
なり、間引きの度合いが小さくなり、リングメモリ7の
蓄積量が増加していく。
【0098】したがって、間引き処理を行う場合には、
リングメモリ7の蓄積量を確認して、次のように圧縮率
を制御する。fsDA/fsAD=1/a(a>0)と
して、(1/n)−α<1/a<(1/n)+αの条件
を満たすαを選定する。ただし、αは、0以上で1以下
の値であり、例えば0.001〜0.1の範囲の値であ
る。
【0099】fsDA/fsADが圧縮率1/nより大
きくなったとき、すなわち、リングメモリ7の蓄積量が
減少していく場合には、圧縮率を1/nから{(1/
n)+α}にする。つまり、圧縮率を大きくし、リング
メモリ7の蓄積量を増加させるようにする。
【0100】fsDA/fsADが圧縮率1/nより小
さくなったとき、すなわち、リングメモリ7の蓄積量が
増加していく場合には、圧縮率を1/nから{(1/
n)−α}にする。つまり、圧縮率を小さくし、リング
メモリ7の蓄積量を減少させるようにする。
【0101】上記では、リングメモリ7の蓄積量に基づ
いて、圧縮率を変化させているが、間引き処理が行われ
る場合に、フレーム毎に圧縮率を{(1/n)−α}ま
たは{(1/n)+α}に、交互に変化させるようにし
てもよい。
【0102】図8および図9は、話速変換部6による処
理手順を示している。
【0103】以下、VTRの2倍速再生時の場合の話速
変換部6による処理について、説明する。
【0104】(1)再生開始時の処理 再生が開始されて、パワー計算部11によって最初のフ
レームの平均パワー値Pが算出される(ステップ1)。
次に、輪唱処理フラグF3がセットされているか否かが
判別される(ステップ2)。電源投入時においては、輪
唱処理フラグF3はリセット(F3=0)されているの
で、ステップ2でNOとなり、ステップ3に移る。ステ
ップ3では上記ステップ1で算出された平均パワー値P
がしきい値Th以上か否かが比較部12の出力に基づい
て判別される(ステップ3)。
【0105】入力音声信号が無音区間から開始した場
合、最初のフレームにおいては、平均パワー値Pはしき
い値Thより小さくなり、ステップ13に進む。そし
て、無音区間の継続長(無音区間が継続するフレーム
数)が算出され、算出された継続長がポーズ継続長メモ
リ17に設定されているポーズ継続長Tdel以上か否
かが判別される(ステップ14)。このポーズ継続長T
delは、たとえば、フレーム数にして4フレーム分の
長さに設定されている。
【0106】最初のフレームに対する処理においては、
無音区間の継続長がポーズ継続長Tdel未満であるの
で、リングメモリ蓄積量状態判別部16の出力に基づい
て、リングメモリ7がアンダーフロー直前状態か否かが
判別される(ステップ15、16)。
【0107】最初のフレームに対する処理においては、
リングメモリ7は、アンダーフロー直前状態になってい
るので、フレームデータが間引き処理部24によって圧
縮率1/2で間引かれ(ステップ30)、間引き処理後
の圧縮データがリングメモリ7に書き込まれる。この
後、ステップ1に戻る。
【0108】(2)第1ケースとなる処理の説明 ステップ3で、平均パワー値Pがしきい値Th以上であ
ると判別されたときには、今回のフレームが音声区間で
あると判断され、ステップ4に進む。ステップ4では、
前フレームが削除区間であったか否かが、第1フラグF
1の状態に基づいて判別される。前フレームが削除区間
でない場合には、リングメモリ蓄積量状態判別部16の
出力に基づいて、リングメモリ7がオーバーフロー直前
状態か否かが判別される(ステップ7、8)。前フレー
ムが削除区間である場合には、ステップ5および6の処
理が行なわれた後、リングメモリ7がオーバーフロー直
前状態か否かが判別される(ステップ7、8)。ステッ
プ5および6の処理については、後述する。
【0109】ステップ8において、オーバーフロー直前
状態ではないと判別された場合には、第1ケースとな
り、ピッチ圧縮伸長手段23によって、今回のフレーム
データが2/3の圧縮率で時間軸圧縮される(ステップ
9)。圧縮データは、リングメモリ7に送られて書き込
まれた後、ステップ1に戻る。
【0110】(2)第2ケースとなる処理の説明 ステップ3で、平均パワー値Pがしきい値Th以上であ
ると判別されたときには、今回送られてきたフレームは
音声区間であると判断され、ステップ4に進む。ステッ
プ4では、前フレームが削除区間であったか否かが、第
1フラグF1の状態に基づいて判別される。前フレーム
が削除区間でない場合には、リングメモリ蓄積量状態判
別部16の出力に基づいて、リングメモリ7がオーバー
フロー直前状態か否かが判別される(ステップ7、
8)。前フレームが削除区間である場合には、ステップ
4および5の処理が行なわれた後、リングメモリ7がオ
ーバーフロー直前状態か否かが判別される(ステップ
7、8)。ステップ5および6の処理については、後述
する。
【0111】ステップ8において、オーバーフロー直前
状態であると判別された場合には、第2ケースとなり、
輪唱処理フラグF3がセット(F3=1)される(ステ
ップ11)。そして、今回のフレームデータが被加重デ
ータとして輪唱処理メモリ43に記憶される(ステップ
12)。この後、ステップ1に戻る。そして、輪唱処理
ルーチンに進む。輪唱処理ルーチンの詳細については、
後述する。
【0112】(3)第3ケースとなる処理の説明 ステップ3で平均パワー値Pがしきい値Thより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され(ステップ13)、算出された継続長がポーズ
継続長メモリ17に設定されているポーズ継続長Tde
l以上か否かが判別される(ステップ14)。そして、
無音区間の継続長がポーズ継続長Tdel未満であると
判別された場合には、リングメモリ蓄積量状態判別部1
6の出力に基づいて、アンダーフロー直前状態か否かが
判別される(ステップ15、16)。
【0113】リングメモリ7がアンダーフロー直前状態
になっていないときには、リングメモリ蓄積量状態判別
部16の出力に基づいて、オーバーフロー直前状態か否
かが判別される(ステップ7、8)。オーバーフロー直
前状態でない場合には、第3ケースとなり、ピッチ圧縮
伸長手段23によって、今回のフレームデータが2/3
の圧縮率で時間軸圧縮される(ステップ9)。圧縮デー
タは、リングメモリ7に送られて書き込まれた後、ステ
ップ1に戻る。
【0114】(4)第4ケースとなる処理の説明 ステップ3で平均パワー値Pがしきい値Thより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され(ステップ13)、算出された継続長がポーズ
継続長メモリ17に設定されているポーズ継続長Tde
l以上か否かが判別される(ステップ14)。そして、
無音区間の継続長がポーズ継続長Tdel未満であると
判別された場合には、リングメモリ蓄積量状態判別部1
6の出力に基づいて、アンダーフロー直前状態か否かが
判別される(ステップ15、16)。
【0115】リングメモリ7がアンダーフロー直前状態
になっていないときには、リングメモリ蓄積量状態判別
部16の出力に基づいて、オーバーフロー直前状態か否
かが判別される(ステップ7、8)。オーバーフロー直
前状態である場合には、第4ケースとなり、輪唱処理フ
ラグF3がセット(F3=1)される(ステップ1
1)。そして、今回のフレームデータが被加重データと
して輪唱処理メモリ43に記憶される(ステップ1
2)。この後、ステップ1に戻る。そして、輪唱処理ル
ーチンに進む。輪唱処理ルーチンの詳細については、後
述する。
【0116】(5)第5ケースとなる処理の説明 ステップ3で平均パワー値Pがしきい値Thより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され(ステップ13)、算出された継続長がポーズ
継続長メモリ17に設定されているポーズ継続長Tde
l以上か否かが判別される(ステップ14)。そして、
無音区間の継続長がポーズ継続長Tdel以上であると
判別された場合には、リングメモリ蓄積量状態判別部1
6の出力に基づいて、アンダーフロー直前状態か否かが
判別される(ステップ17、18)。
【0117】リングメモリ7がアンダーフロー直前状態
でないときには、第5ケースとなり、今回のフレームが
入力信号削除部25による削除区間であることを示す第
1フラグF1がセットされる(ステップ19)。この第
1フラグF1は、電源投入時の初期設定において、リセ
ット(F1=0)されている。そして、今回のフレーム
が入力信号削除部25による削除区間の最初のフレーム
であるか否かを示す第2フラグF2がリセットされてい
るか否かが判別される(ステップ20)。
【0118】この第2フラグF2は、電源投入時の初期
設定において、リセット(F2=0)されている。そし
て、入力信号削除部25による削除区間の最初のフレー
ムに対する処理が終了したときにセット(F2=1)に
される。そして、入力信号削除部25による一連の削除
区間に対する処理が終了したときにリセット(F2=
0)される。
【0119】したがって、今回のフレームが入力信号削
除部25による削除区間の最初のフレームであるときに
は、第2フラグF2は、リセット(F2=0)されてい
る。第2フラグF2がリセットされているときには、波
形合成挿入部26によって第1メモリ31に今回のフレ
ームデータが記憶される(ステップ21)。また、入力
信号削除部25によって今回のフレームデータのリング
メモリ7への書き込みが停止される(ステップ22)。
つまり、今回のフレームデータが削除される。そして、
第2フラグF2がセット(F2=1)された後(ステッ
プ23)、ステップ1に戻る。
【0120】さらに、無音区間が続いている場合には、
ステップ3、13、14、17を通ってステップ18に
移り、リングメモリ蓄積量状態判別部16の出力に基づ
いて、リングメモリ7がアンダーフロー直前状態か否か
が判別される。
【0121】リングメモリ7がアンダーフロー直前状態
でないときには、今回のフレームが入力信号削除部25
による削除区間であることを示す第1フラグF1がセッ
トされる(ステップ19)。そして、今回のフレームが
入力信号削除部25による削除区間の最初のフレームで
あるか否かを示す第2フラグF2がリセットされている
か否かが判別される(ステップ20)。
【0122】この場合には、第2フラグF2はセット
(F2=1)されているので、今回のフレームが入力信
号削除部25による削除区間の最初のフレームでないと
判断される。この場合には、波形合成挿入部26によっ
て第2メモリ32に今回のフレームデータが記憶される
(ステップ24)。また、入力信号削除部25によって
今回のフレームデータのリングメモリ7への書き込みが
停止される(ステップ25)。そして、ステップ1に戻
る。
【0123】そして、さらに、無音区間が続きかつリン
グメモリ7がアンダーフロー直前状態となっていないと
きには、ステップ3、13、14、17、18、19、
20、24および25の処理が繰り返される。つまり、
第2メモリ32のフレームデータが更新されるととも
に、フレームデータのリングメモリ7への書き込みが停
止される。
【0124】この後、音声区間のフレームデータが入力
されたときには、ステップ3において、平均パワー値P
がしきい値Th以上となるので、前フレームが入力信号
削除部25による削除区間であったか否かが、第1フラ
グF1状態に基づいて判別される(ステップ4)。この
場合には、第1フラグF1がセット(F1=1)されて
いるので、前フレームが入力信号削除部25による削除
区間であったと判別され、ステップ5に移る。ステップ
5では、入力信号削除部25による削除処理が停止せし
められるとともに、波形合成挿入部26による波形合成
挿入処理が行なわれる。
【0125】すなわち、図6(a)を用いて既に説明し
たように、第1メモリ31の内容に1から0に直線的に
変化する関数が乗算され、第2メモリ32の内容に0か
ら1に直線的に変化する関数が乗算され、これらの両乗
算結果が加え合わされる。この加算結果(図6(a)の
A’*B’に相当する。)が、デマルチプレクサ27を
介して、リングメモリ7に送られ、リングメモリ7に書
き込まれる。
【0126】この後、第1フラグF1および第2フラグ
F2がリセット(F1=F2=0)される(ステップ
6)。そして、ステップ7に進む。
【0127】ところで、連続している無音区間に対し
て、上記のような入力信号削除部25による削除処理が
繰り返し行なわれている場合において、リングメモリ7
がアンダーフロー直前状態になることがある。この場合
には、上記ステップ18でYESとなり、ステップ26
に移る。ステップ26では、前フレームが入力信号削除
部25による削除区間であったか否かが、第1フラグF
1の状態に基づいて判別される。
【0128】この場合には、第1フラグF1がセット
(F1=1)されているので、ステップ27に進み、第
2メモリ32に今回のフレームデータが記憶される。そ
して、入力信号削除部25による削除処理が停止せしめ
られるとともに、波形合成挿入部26による波形合成挿
入処理が行なわれる(ステップ28)。そして、第1フ
ラグF1および第2フラグF2がリセット(F1=F2
=0)された後(ステップ29)、ステップ1に進む。
【0129】上記ステップ28における波形合成挿入部
26による波形合成挿入処理には、上記ステップ5で説
明した波形合成挿入処理とほぼ同様であるが、第2メモ
リ32に記憶されているフレームデータが、リングメモ
リ7がアンダーフロー直前状態になった後のフレームデ
ータである点が、上記ステップ5で説明した処理の場合
と異なっている。
【0130】なお、上記ステップ27の処理を省略し、
ステップ26でYESとなった場合に、第2メモリ32
に今回のフレームデータを記憶させることなく、ステッ
プ28に移るようにしてもよい。この場合には、ステッ
プ28で行なわれる波形合成挿入処理においては、上記
ステップ5で説明した波形合成挿入処理と同様に、第2
メモリ32に記憶されているアンダーフロー直前状態よ
り前のフレームデータ(前回のフレームデータ)が用い
られる。
【0131】また、上記ステップ24の処理を省略する
とともに上記ステップ4と上記ステップ5との間に、フ
レームデータを第2メモリ32に記憶させるステップを
追加するようにしてもよい。この場合には、ステップ5
においては、上記ステップ21において第1メモリ31
に記憶された内容と、上記ステップ4と上記ステップ5
との間に追加されたステップにおいて第2メモリ32に
記憶された内容とに基づいて、波形合成挿入処理が行わ
れる。
【0132】(6)第6ケースとなる処理の説明 ステップ3で平均パワー値Pがしきい値Thより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され(ステップ13)、算出された継続長がポーズ
継続長メモリ17に設定されているポーズ継続長Tde
l以上か否かが判別される(ステップ14)。そして、
無音区間の継続長がポーズ継続長Tdel以上であると
判別された場合には、リングメモリ蓄積量状態判別部1
6の出力に基づいて、アンダーフロー直前状態か否かが
判別される(ステップ17、18)。
【0133】リングメモリ7がアンダーフロー直前状態
であるときには、前フレームが入力信号削除部25によ
る削除区間であったか否かが、第1フラグのF1状態に
基づいて判別される(ステップ26)。第1フラグF1
がリセットされている場合(F1=0)、すなわち、前
フレームが入力信号削除部25による削除区間でなかっ
た場合には、第6ケースとなり、ステップ30に移る。
ステップ30では、間引き処理部24によって、今回の
フレームデータが圧縮率1/2で間引き処理が行なわれ
る。そして、間引き処理されたデータは、リングメモリ
7に送られて書き込まれる。この後、ステップ1に戻
る。
【0134】つまり、無音区間の継続長がポーズ継続長
Tdel以上であっても、リングメモリ7がアンダーフ
ロー直前状態であり、かつ前フレームが入力信号削除部
25による削除区間でない場合には、フレームデータは
削除されず、圧縮率1/2で間引き処理が行なわれた
後、リングメモリ7に書き込まれる。
【0135】(7)輪唱処理ルーチンの説明 上記ステップ11において、輪唱処理フラグF3がセッ
トされ、ステップ12で輪唱処理メモリ43にフレーム
データが記憶された後に、ステップ1に移った場合に行
われる処理について説明する。
【0136】まず、ステップ1において、パワー計算部
11によって今回のフレームの平均パワー値Pが算出さ
れる。次に、輪唱処理フラグF3がセットされているか
否かが判別される(ステップ2)。この場合には、輪唱
処理フラグF3はセット(F3=1)されているので、
ステップ2でYESとなり、輪唱処理ルーチンに移る
(ステップ50)。そして、輪唱処理ルーチンの処理が
行われた後、ステップ1に戻る。
【0137】図10および図11は、輪唱処理ルーチン
の詳細を示している。
【0138】(7−1)入力音声が音声区間である場合 まず、上記ステップ1で算出された平均パワー値Pがし
きい値Th以上であるか否かが判別される(ステップ5
1)。平均パワー値Pがしきい値Th以上であると判別
されたときには、今回送られてきたフレームは音声区間
であると判断され、ステップ52に進む。ステップ52
では、前フレームが削除区間であったか否かが、第1フ
ラグF1の状態に基づいて判別される。前フレームが削
除区間でない場合には、輪唱処理メモリ43への所定フ
レーム数の被加重データ(VTRの2倍速再生時には、
たとえば1秒間分の入力データ)の書込みが完了してい
るか否かが判別される(ステップ55)。
【0139】輪唱処理メモリ43への所定フレーム数の
被加重データの書込みが完了していないと判別されたと
きには、今回のフレームデータが輪唱処理メモリ43に
継続して書き込まれる(ステップ56)。そして、輪唱
処理フラグF3がセットされたまま、ステップ1に戻
る。したがって、この場合には、次のフレームデータに
対しても、ステップ50の輪唱処理ルーチンが実行され
る。
【0140】ステップ52において、前フレームが削除
区間であると判別された場合には、ステップ53および
54の処理が行なわれた後、輪唱処理メモリ43への所
定フレーム数の被加重データの書込みが完了しているか
否かが判別される(ステップ56)。ステップ53およ
び54の処理については、後述する。
【0141】上記ステップ55において、輪唱処理メモ
リ43への所定フレーム数の被加重データの書込みが完
了していると判別された場合には、今回のフレームデー
タに定数kまたは関数F(図5参照)が乗算された後、
その乗算結果が輪唱処理メモリ43に記憶されている被
加重データのうち加算されるべきデータに加え合わされ
る(ステップ57)。
【0142】この後、輪唱処理メモリ43内の全ての被
加重データに対して、加算処理が行われたか否かが判別
される(ステップ58)。輪唱処理メモリ43内の全て
の被加重データに対して、加算処理が行われていない場
合には、輪唱処理フラグF3がセットされたまま、ステ
ップ1に戻る。したがって、この場合には、次のフレー
ムデータに対しても、ステップ50の輪唱処理ルーチン
が実行される。
【0143】ステップ58において、輪唱処理メモリ4
3内の全ての被加重データに対して、加算処理が行われ
たと判別された場合には、輪唱処理メモリ43内の輪唱
データ(図5のA*(B×k)またはA*(B×F)に
相当する)が、リングメモリ7に転送される(ステップ
59)。そして、リングメモリ7の蓄積量がオーバーフ
ロー直前状態か否かが判別される(ステップ60)。
【0144】依然として、リングメモリ7の蓄積量がオ
ーバーフロー直前状態である場合には、輪唱処理メモリ
43がクリアされた後(ステップ62)、輪唱処理フラ
グF3がセットされたまま、ステップ1に戻る。したが
って、この場合には、次のフレームデータに対しても、
ステップ50の輪唱処理ルーチンが実行される。次の輪
唱処理ルーチンにおいて、ステップ55の処理が行われ
る場合には、フレームデータが輪唱処理メモリ43の先
頭から記録されることになる。なお、輪唱処理メモリ4
3は、電源投入時にはクリアされている。
【0145】ステップ60において、リングメモリ7の
蓄積量がオーバーフロー直前状態でない場合には、輪唱
処理フラグF3がリセット(F3=0)された後(ステ
ップ61)、ステップ1に戻る。したがって、この場合
には、輪唱処理は終了し、次のフレームデータに対して
は、輪唱処理ルーチンは実行されない。
【0146】(7−2)入力音声が無音区間でありかつ
無音区間の継続長が所定長未満である場合 ステップ51で平均パワー値Pがしきい値Thより小さ
い判別されたときには、今回までの無音区間の継続長が
算出され(ステップ71)、算出された継続長がポーズ
継続長メモリ17に設定されているポーズ継続長Tde
l以上か否かが判別される(ステップ72)。そして、
無音区間の継続長がポーズ継続長Tdel未満であると
判別された場合には、ステップ55に進む。そして、上
述したステップ55〜62の処理が行われる。
【0147】つまり、入力音声が無音区間でありかつ無
音区間の継続長が所定長未満である場合には、入力音声
が音声区間である場合と同様に、輪唱処理メモリ43を
用いた輪唱処理が行われる。ステップ72では、算出さ
れた継続長がポーズ継続長メモリ17に設定されている
ポーズ継続長Tdel以上か否かが判別されているが、
算出された継続長がポーズ継続長Tdel以外の所定長
以上か否かを判別するようにしてもよい。この所定長と
しては、たとえば、Tdelの0.5倍〜1.0倍の間
の値が用いられる。
【0148】(7−3)入力音声が無音区間でありかつ
無音区間の継続長が所定長以上である場合 ステップ51で平均パワー値Pがしきい値Thより小さ
い判別されたときには、今回までの無音区間の継続長が
算出され(ステップ71)、算出された継続長がポーズ
継続長メモリ17に設定されているポーズ継続長Tde
l以上か否かが判別される(ステップ72)。そして、
無音区間の継続長がポーズ継続長Tdel以上であると
判別された場合には、リングメモリ蓄積量状態判別部1
6の出力に基づいて、アンダーフロー直前状態か否かが
判別される(ステップ73、74)。
【0149】リングメモリ7がアンダーフロー直前状態
でないときには、今回のフレームが入力信号削除部25
による削除区間であることを示す第1フラグF1がセッ
トされる(ステップ75)。この第1フラグF1は、電
源投入時の初期設定において、リセット(F1=0)さ
れている。そして、今回のフレームが入力信号削除部2
5による削除区間の最初のフレームであるか否かを示す
第2フラグF2がリセットされているか否かが判別され
る(ステップ76)。
【0150】この第2フラグF2は、電源投入時の初期
設定において、リセット(F2=0)されている。そし
て、入力信号削除部25による削除区間の最初のフレー
ムに対する処理が終了したときにセット(F2=1)に
される。そして、入力信号削除部25による一連の削除
区間に対する処理が終了したときにリセット(F2=
0)される。
【0151】したがって、今回のフレームが入力信号削
除部25による削除区間の最初のフレームであるときに
は、第2フラグF2は、リセット(F2=0)されてい
る。第2フラグF2がリセットされているときには、波
形合成挿入部26によって第1メモリ31に今回のフレ
ームデータが記憶される(ステップ77)。また、入力
信号削除部25によって今回のフレームデータのリング
メモリ7および輪唱処理メモリ43への書き込みが停止
される(ステップ78)。つまり、今回のフレームデー
タが削除される。そして、第2フラグF2がセット(F
2=1)された後(ステップ79)、ステップ1に戻
る。したがって、この場合には、輪唱処理フラグF3は
セットされたままとなり、次のフレームデータに対して
も、ステップ50の輪唱処理ルーチンが実行される。
【0152】そして、さらに、無音区間が続いている場
合には、ステップ51、71、72、73を通ってステ
ップ74に移り、リングメモリ蓄積量状態判別部16の
出力に基づいて、リングメモリ7がアンダーフロー直前
状態か否かが判別される。
【0153】リングメモリ7がアンダーフロー直前状態
でないときには、今回のフレームが入力信号削除部25
による削除区間であることを示す第1フラグF1がセッ
トされる(ステップ75)。そして、今回のフレームが
入力信号削除部25による削除区間の最初フレームであ
るか否かを示す第2フラグF2がリセットされているか
否かが判別される(ステップ76)。
【0154】この場合には、第2フラグF2はセット
(F2=1)されているので、今回のフレームが入力信
号削除部25による削除区間の最初のフレームでないと
判断される。この場合には、波形合成挿入部26によっ
て第2メモリ32に今回のフレームデータが記憶される
(ステップ80)。また、入力信号削除部25によって
今回のフレームデータのリングメモリ7および輪唱処理
メモリ43への書き込みが停止される(ステップ8
1)。そして、ステップ1に戻る。したがって、この場
合にも、輪唱処理フラグF3はセットされたままとな
り、次のフレームデータに対しても、ステップ50の輪
唱処理ルーチンが実行される。
【0155】そして、さらに、無音区間が続きかつリン
グメモリ7がアンダーフロー直前状態となっていないと
きには、ステップ51、71〜76、80および81の
処理が繰り返される。つまり、第2メモリ32のフレー
ムデータが更新されるとともに、フレームデータのリン
グメモリ7および輪唱処理メモリ43への書き込みが停
止される。したがって、この場合にも、輪唱処理フラグ
F3はセットされたままとなり、次のフレームデータに
対しても、ステップ50の輪唱処理ルーチンが実行され
る。
【0156】この後、音声区間のフレームデータが入力
されたときには、ステップ51において、平均パワー値
Pがしきい値Th以上となるので、前フレームが入力信
号削除部25による削除区間であったか否かが、第1フ
ラグF1の状態に基づいて判別される(ステップ5
2)。この場合には、第1フラグF1がセット(F1=
1)されているので、前フレームが入力信号削除部25
による削除区間であったと判別され、ステップ53に移
る。ステップ53では、入力信号削除部25による削除
処理が停止せしめられるとともに、波形合成挿入部26
による波形合成挿入処理が行なわれる。
【0157】すなわち、図6(a)を用いて既に説明し
たように、第1メモリ31の内容に1から0に直線的に
変化する関数が乗算され、第2メモリ32の内容に0か
ら1に直線的に変化する関数が乗算され、これらの両乗
算結果が加え合わされる。この加算結果(図6(a)の
A’*B’に相当する。)が、今回のフレームデータの
前に繋ぎ合わされる。
【0158】つまり、輪唱処理ルーチンが繰り返し実行
されている過程において、フレームデータが削除された
場合には、削除区間の最初のフレームデータに1から0
に直線的に変化する関数が乗算され、削除区間の最後の
フレームデータに0から1に直線的に変化する関数が乗
算され、これらの両乗算結果が加え合わされる。この加
算結果が削除区間終了後の最初のフレームデータの前に
繋ぎ合わされる。これにより、削除区間の前後のつなぎ
目において、クリック音が発生するのが防止される。
【0159】この後、第1フラグF1および第2フラグ
F2がリセット(F1=F2=0)され(ステップ5
4)、ステップ55に進む。
【0160】ところで、連続している無音区間に対し
て、上記のような入力信号削除部25による削除処理が
繰り返し行なわれている場合において、リングメモリ7
がアンダーフロー直前状態になることがある。この場合
には、上記ステップ74でYESとなり、ステップ83
に移る。
【0161】ステップ83においては、輪唱処理メモリ
43に蓄積されているデータがリングメモリ7に転送さ
れる。その後、輪唱処理メモリ43がクリアされる。ス
テップ83において輪唱処理メモリ43に蓄積されてい
るデータとしては、リングメモリ7がアンダーフロー直
前状態になるまで行われていた削除処理が開始される直
前の輪唱処理ルーチンにおいて、ステップ55でNOと
なったときの被加重データまたは、ステップ58でNO
となったときの輪唱データがある。
【0162】ステップ83の処理が行われると、輪唱処
理フラグF3がリセット(F3=0)された後(ステッ
プ84)、ステップ1に戻る。したがって、この場合に
は、次のフレームデータに対しては、輪唱処理ルーチン
は実行されない。
【0163】上記実施例では、図9のステップ14にお
いて、無音区間の継続長が設定されたポーズ継続長Td
elより長いか否かが判別されているが、図12のステ
ップ14Aに示すように、無音区間の継続長Tが設定さ
れた第1基準長T1未満か(T<T1)、無音区間の継
続長Tが設定された第1基準長T1以上で設定された第
2基準長T2(ただしT1<T2)未満か(T1≦T<
T2)、または無音区間の継続長Tが設定された第2基
準長T2以上か(T≧T2)を、判別するようにしても
よい。第1基準長としては、たとえば、4フレーム分の
長さが、第2基準長としてはたとえば40フレーム分の
長さが設定される。
【0164】そして、図12に示すように、各判別結果
に応じて、次のようなステップに進むようにしてもよ
い。すなわち、無音区間の継続長Tが設定された第1基
準長T1未満(T<T1)である場合には、ステップ1
5に進む。無音区間の継続長Tが設定された第1基準長
T1以上で設定された第2基準長T2(T1<T2)未
満(T1≦T<T2)であるときには、ステップ30に
進んで1/n間引き処理による間引きを行なう。無音区
間の継続長Tが設定された第2基準長T2以上(T≧T
2)であるときには、ステップ17に進む。
【0165】図13は、2倍速再生時の入力信号と出力
信号との関係を示し、特に無音区間の入力信号が削除さ
れる様子を示している。図14および図15は、リング
メモリ7へのデータ書き込み開始点、リングメモリ7か
らのデータ読み出し開始点ならびに図13の各点A〜H
におけるリングメモリ7の状態を示している。
【0166】図13では、2倍速再生開始時において
は、入力信号は無音区間となっており、かつリングメモ
リ7は空状態であるので(図14(a)参照)、フレー
ムデータが間引き処理部24によって圧縮率1/2で間
引かれた後、リングメモリ7に書き込まれていく。
【0167】そして、リングメモリ7の蓄積量Tmがア
ンダーフロー検出用データTminに達すると、リング
メモリ7からのデータの読み出しが開始される(図14
(b)参照)。
【0168】そして、入力信号の音声区間aに対するフ
レームデータが送られてくると(A点)、ピッチ圧縮伸
長手段23によって、フレームデータが圧縮率2/3で
圧縮される。入力信号と出力信号との長さが一致する圧
縮率1/2の圧縮を基準とすると、フレームデータが伸
長される。この意味で、図13には、伸長処理と記載さ
れている。そして、この圧縮データがリングメモリ7に
書き込まれる。A点においては、図14(c)に示すよ
うに、蓄積量TmAは、Tminのままである。
【0169】入力信号の音声区間aに対する出力信号a
1は、A点での蓄積量TmA分だけ遅れて読み出されて
いく。そして、入力信号の音声区間aが入力され終わっ
た時点(B点)では、図14(d)に示すように、今回
の圧縮区間の開始点であるA点での蓄積量Tminと、
A点からB点までの音声区間aの圧縮データの、圧縮率
1/2の圧縮に対する伸長分StBとの和がリングメモ
リ7の蓄積量TmB(=StB+Tmin)となる。し
たがって、入力信号の音声区間aに対する出力信号a1
は、B点からTmB(=StB+Tmin)分が経過し
た点で出力され終わる。
【0170】入力信号の音声区間aに続くポーズ継続長
Tdel未満の無音区間のフレームデータも、ピッチ圧
縮伸長手段23によって圧縮率2/3で圧縮される。こ
の無音区間に続いて音声区間bが入力されると、この音
声区間bのフレームデータもピッチ圧縮伸長手段23に
よって圧縮率2/3で圧縮される。
【0171】そして、入力信号の音声区間bが入力され
終わった時点(C点)では、図14(e)に示すよう
に、今回の圧縮区間の開始点であるA点での蓄積量Tm
inと、A点からC点までの入力信号に対応する圧縮デ
ータの、1/2圧縮に対する伸長分StCとの和がリン
グメモリ7の蓄積量TmC(=StC+Tmin)とな
る。したがって、入力信号の音声区間bに対する出力信
号b1は、C点からTmC(=StC+Tmin)分が
経過した点で出力され終わる。
【0172】入力信号の音声区間bに続いて、ポーズ継
続長Tdel以上の長さの無音区間の信号が送られてき
たときには、ポーズ継続長Tdelに達するまで(D
点)はフレームデータが、ピッチ圧縮伸長手段23によ
って圧縮率2/3で圧縮される。
【0173】D点では、図14(f)に示すように、今
回の圧縮区間の開始点であるA点での蓄積量Tmin
と、A点からD点までの入力信号に対応する圧縮データ
の、1/2圧縮に対する伸長分StDとの和がリングメ
モリ7の蓄積量TmD(=StD+Tmin)となる。
したがって、入力信号の音声区間bとD点との間の無音
区間に対する出力信号は、D点からTmD(=StD+
Tmin)分が経過した点で出力され終わる。
【0174】ポーズ継続長Tdel以降の無音区間のフ
レームデータは、リングメモリ7の蓄積量がアンダーフ
ロー検出用データTmin以下になるまで、入力信号削
除部25によって削除される。このポーズ削除部分の長
さStdは、今回の圧縮区間の開始点であるA点からD
点までの入力信号に対応する圧縮データの、1/2圧縮
に対する伸長分StDと等しくなる。入力信号削除部2
5によって削除処理が行なわれた後においては、波形合
成挿入部22によってクリック音防止のための合成波形
が挿入されるが、図13には挿入された合成波形部分を
省略してある。
【0175】入力信号が削除された区間の最終点(E
点)においては、図15(g)に示すように、リングメ
モリ7の蓄積量TmEは、アンダーフロー検出用データ
Tmin以下となる。ここでは、蓄積量TmEがアンダ
ーフロー検出用データTminと等しくなった例を示し
ている。
【0176】E点からの無音区間に対するフレームデー
タは、間引き処理部24によって、圧縮率1/2で間引
かれた後、フレームメモリ7に書き込まれる。そして、
音声区間cの信号が入力さると(F点)、この音声区間
cのフレームデータがピッチ圧縮伸長手段23によっ
て、圧縮率2/3で圧縮される。つまり、新たな圧縮区
間が開始される。そして、圧縮データがリングメモリ7
に書き込まれる。
【0177】F点では、図15(h)に示すように、リ
ングメモリ7の蓄積量TmFは、E点のときと同じTm
inとなっている。
【0178】入力信号の音声区間cに対する出力信号c
1は、F点での蓄積量Tmin分だけ遅れて出力されて
いく。入力信号の音声区間cに続くポーズ継続長Tde
l未満の無音区間(音声区間cからG点までの無音区
間)のフレームデータも、ピッチ圧縮伸長手段23によ
って圧縮率2/3で圧縮される。
【0179】G点では、図15(i)に示すように、今
回の圧縮区間の開始点であるF点での蓄積量Tmin
と、F点からG点までの入力信号に対応する圧縮データ
の、1/2圧縮に対する伸長分StGとの和がリングメ
モリ7の蓄積量TmG(=StG+Tmin)となる。
したがって、入力信号の音声区間cからG点までの無音
区間に対する出力信号は、G点からTmG(=StG+
Tmin)分が経過した点で出力され終わる。
【0180】ポーズ継続長Tdel以降の無音区間のフ
レームデータは、リングメモリ7の蓄積量がアンダーフ
ロー検出用データTminになるまで、入力信号削除部
25によって削除される。このポーズ削除部分の長さS
tdは、今回の圧縮区間の開始点であるF点からG点ま
での入力信号に対応する圧縮データの、1/2圧縮に対
する伸長分StGと等しくなる。
【0181】入力信号が削除された区間の最終点(H
点)においては、図15(j)に示すように、リングメ
モリ7の蓄積量TmHは、アンダーフロー検出用データ
Tmin以下となる。ここでは、蓄積量TmHがアンダ
ーフロー検出用データTminと等しくなった例を示し
ている。
【0182】H点からの無音区間に対するフレームデー
タは、間引き処理部24によって、圧縮率1/2で間引
かれた後、フレームメモリ7に書き込まれる。そして、
音声区間dの信号が入力されると、この音声区間dのフ
レームデータがピッチ圧縮伸長手段23によって、圧縮
率2/3で圧縮される。そして、伸長されたデータがリ
ングメモリ7に書き込まれる。
【0183】図16は、2倍速再生時の入力信号と出力
信号との関係を示し、特にオーバーフロー直前状態とな
ったときに、入力信号が削除される様子を示している。
図17は、図16の各点SおよびTにおけるリングメモ
リ7の状態を示している。
【0184】ある時点からT点までの、音声区間a、
b、c等と無音区間とを含む一連の入力信号に対するフ
レームデータが、ピッチ圧縮伸長手段23によって圧縮
率2/3で圧縮され(圧縮率1/2の圧縮に対しては伸
長され)ているとする。この場合には、リングメモリ7
に伸長分が蓄積されていく。
【0185】音声区間bの入力開始点(S点)において
は、図17(a)に示すように、当該1連の入力信号の
圧縮処理の開始点での蓄積量Tminと、上記圧縮処理
の開始点からS点までの入力信号に対応する圧縮データ
の、1/2圧縮に対する伸長分StSとの和がリングメ
モリ7の蓄積量TmS(=StS+Tmin)となる。
したがって、音声区間bに対する出力信号b1は、S点
からTmS(=StS+Tmin)分が経過した点で出
力され始められる。
【0186】音声区間cの入力信号に対応する圧縮デー
タがリングメモリ7に書き込まれた時点(T点)におい
て、リングメモリ7がオーバーフロー直前状態になった
とする。すなわち、T点において、リングメモリ7の蓄
積量がオーバーフロー検出用データTmax以上になっ
たとする。
【0187】T点においては、図17(b)に示すよう
に、当該1連の入力信号に対する圧縮処理の開始点での
蓄積量Tminと、上記圧縮処理開始点からT点までの
入力信号に対応する圧縮データの、1/2圧縮に対する
伸長分StTとの和がリングメモリ7の蓄積量TmT
(=StT+Tmin)となる。言い換えれば、リング
メモリ7の全ワード数をTOTALとし、オーバーフロ
ー検出用データをTmaxとし、TOTALとTmax
との差をDminとすると、T点での蓄積量Tmtは、
Tmaxに等しいので、TOTAL−Dminとなる。
【0188】したがって、当該1連の入力信号に対する
出力信号は、T点から蓄積量TmT(=StT+Tmi
n)分遅れた時点(V地点)で出力され終わる。
【0189】T点において、リングメモリ7がオーバー
フロー直前状態になると、輪唱処理部21による輪唱処
理が開始される。今、T点からU点までの間の入力信号
は、ポーズ継続長Tdel未満の無音区間の入力信号
d、音声区間の入力信号e、ポーズ継続長Tdel未満
の無音区間の入力信号f、ポーズ継続長Tdel以上の
無音区間の入力信号g、音声区間の入力信号hおよびポ
ーズ継続長Tdel未満の無音区間の入力信号iを含ん
でいるものとする。
【0190】この場合には、まず、T点から入力信号が
輪唱処理メモリ43に順次記憶されていく。そして、入
力信号fが輪唱メモリ43に記憶された時点で、輪唱処
理メモリ43が満杯になったとする。
【0191】次の入力信号gはポーズ継続長Tdelよ
り長い無音区間の入力信号なので削除され、リングメモ
リ7にも輪唱メモリ43にも入力信号gは記憶されな
い。ただし、この削除期間の最初のフレームデータは、
第1メモリ31に記憶される。また、この削除処理が終
了したときには、第2メモリ32には、削除期間の最後
のフレームデータが記憶されている。そして、次の入力
信号(音声区間の入力信号)hが入力された場合には、
波形合成挿入部26による波形合成挿入処理が行なわれ
る。
【0192】すなわち、第1メモリ31の内容に1から
0に直線的に変化する関数が乗算され、第2メモリ32
の内容に0から1に直線的に変化する関数が乗算され、
これらの両乗算結果が加え合わされる。この加算結果
(合成波形:図6(a)のA’*B’に相当する)が、
入力信号(音声区間の入力信号)hの前に繋ぎ合わされ
る。
【0193】そして、波形合成挿入部26によって作成
された合成波形および入力信号hに、1以下の定数kま
たは関数Fが乗算される。そして、その乗算結果が輪唱
処理メモリ43に記憶されている被加重データに加え合
わされて輪唱処理メモリ43に記憶される。次の入力信
号iに対しても、1以下の定数kまたは関数Fが乗算さ
れる。そして、その乗算結果が輪唱処理メモリ43に記
憶されている被加重データに加え合わされて輪唱処理メ
モリ43に記憶される。これにより、輪唱処理メモリ4
3内の全ての被加重データに対して、加重データが加算
されたとすると、輪唱処理メモリ43に記憶されている
輪唱データがリングメモリ7に転送される。
【0194】この輪唱データは、V点から出力され始め
られる。上述した輪唱処理の過程において、入力信号g
が削除されたため、輪唱データがリングメモリ7に転送
された後のU点においては、リングメモリ7は、オーバ
ーフロー直前状態となっていないので、U点の後に音声
区間jの信号が入力されると、この音声区間に対するフ
レームデータは、ピッチ圧縮伸長手段23によって圧縮
率2/3で圧縮され(圧縮率1/2の圧縮に対しては伸
長され)た後、リングメモリ7に書き込まれていく。音
声区間jに対する出力信号j1は、輪唱データに続いて
出力され始められる。
【0195】上記実施例では、入力信号の音声区間と無
音区間とを、各フレームの平均パワー値に基づいて判別
しているが、各フレームの平均振幅に基づいて判別する
ようにしてもよい。この場合には、図18に示すよう
に、図2のパワー計算部11の代わりにフレーム単位で
平均振幅値を計算する平均振幅計算部11Aが設けら
れ、しきい値メモリ13Aには、A/D変換部2の量子
化ビット数が12bitのときには、たとえば、値26
のしきい値が設定される。そして、平均振幅計算部11
Aによって計算された平均振幅値と、しきい値メモリ1
3Aのしきい値とが、比較部12Aによって比較される
ことにより、音声区間か無音区間かが判別される。
【0196】つまり、平均振幅値がしきい値以上であれ
ば音声区間と判別され、平均振幅値がしきい値未満であ
れば無音区間と判別される。フレーム単位の平均振幅値
Wは、サンプリングされた1フレーム内の各音声信号の
振幅をi0 、i1 、…iN-1(ただし、N=200)と
すると、次の数式3に基づいて算出される。
【0197】
【数3】
【0198】その他の処理については、図2の話速変換
部6による処理と同じであるので、その説明を省略す
る。
【0199】なお、この場合においても、次のようにし
て、しきい値を変更するようにしてもよい。すなわち、
図18に点線で示すように、平均振幅定常状態検出およ
びしきい値更新部14Aを設ける。平均振幅定常状態検
出およびしきい値更新部14Aは、平均振幅計算部11
Aからの平均振幅値Wが、所定フレーム数にわたって一
定であったか否かを判別し、一定であったときには(定
常状態)、そのときの平均振幅値Wの2倍の値をしきい
値メモリ13Aに書き込み、しきい値を更新させる。た
だし、更新されるしきい値の最大値は、所定値、たとえ
ば28 に制限される。
【0200】また、入力信号の音声区間と無音区間と
を、次の数式4で示す各フレームの音声信号の振幅累積
値Waと所与のしきい値とに基づいて判別するようにし
てもよい。
【0201】
【数4】
【0202】また、入力信号の音声区間と無音区間と
を、各フレームの信号の周期性を検出し、検出した周期
が予め定められた音声信号のピッチ周期範囲内であれ
ば、音声区間であると判別し、検出した周期が予め定め
られた音声信号のピッチ周期範囲外であれば無音区間で
あると判別するようにしてもよい。
【0203】この場合には、図19に示すように、図2
のパワー計算部11の代わりに、自己相関法に基づい
て、フレームごとの周期性を検出するピッチ周期検出部
11Bが設けられ、しきい値メモリ13Bには、音声信
号のピッチ周期範囲が設定される。そして、ピッチ周期
検出部11Bで検出された周期と、しきい値メモリ13
Bに設定された音声信号のピッチ周期範囲とが、比較部
12Bによって比較される。
【0204】設定される音声信号のピッチ周期範囲は、
再生速度により異なり、n倍速再生のときには、たとえ
ば、66×n(Hz)〜320×n(Hz)の範囲に設
定される。したがって、2倍速再生時には、音声信号の
ピッチ周期範囲は、132Hz〜640Hzの範囲に設
定される。その他の処理については、図2の話速変換部
6による処理と同じであるので、その説明を省略する。
【0205】また、入力信号の音声区間と無音区間と
を、各フレームの信号のパワースペクトルと、定常状態
のパワースペクトルと比較することにより、判別するよ
うにしてもよい。
【0206】この場合には、図20に示すように、図2
のパワー計算部11の代わりに、フレームごとに所定の
1または複数の周波数帯域に対するパワースペクトルを
算出するパワースペクトル算出部11Cが設けられる。
また、上記所定の1または複数の周波数帯域に対する定
常状態のパワースペクトルがパワースペクトル記憶部1
3Cに記憶されている。
【0207】パワースペクトル記憶部13Cの内容は、
パワースペクトル算出部11Cによって算出されたパワ
ースペクトルの変化状態に基づいて、パワースペクトル
定常状態検出部14Bが定常状態であることを検出した
ときには、検出された定常状態でのパワースペクトルに
更新される。
【0208】入力信号がパワースペクトル算出部11C
に送られてくると、フレームごとに所定の1または複数
の周波数帯域に対するパワースペクトルが算出される。
そして、算出されたパワースペクトルと、パワースペク
トル記憶部13Cに記憶されている定常状態のパワース
ペクトルとが比較部12Cによって比較される。
【0209】算出されたパワースペクトルが定常状態の
パワースペクトルに対して、変動していれば、そのフレ
ームは音声区間と判別される。逆に、算出されたパワー
スペクトルが定常状態のパワースペクトルに対して、変
動していなければ、そのフレームは無音区間と判別され
る。
【0210】具体的には、パワースペクトル記憶部13
Cには、上記所定の1または複数の周波数帯域に対する
定常状態のパワースペクトルに基づいて、上記所定の1
または複数の周波数帯域に対するしきい値が記憶され
る。そして、パワースペクトル記憶部13Cに記憶され
ている。パワースペクトル算出部11Cによって算出さ
れた上記所定の1または複数の周波数帯域に対するパワ
ースペクトルと、パワースペクトル記憶部13Cに記憶
されている対応するしきい値とが比較されることによ
り、入力信号が音声区間か無音区間かが判別される。
【0211】たとえば、定常状態のパワースペクトルが
図21の(a)に示されているように、雑音のみのパワ
ースペクトルであるとする。また、雑音が含まれていな
い音声のパワースペクトルが図21の(b)に示されて
いるものとする。定常状態において、図21(a)のパ
ワースペクトルで示される雑音が存在する場合に、図2
1(b)で示すパワースペクトルを持つ音声信号が入力
すると、そのパワースぺクトルは、図21(c)に示さ
れるように、両者のパワースペクトルが合成されたもの
となる。
【0212】したがって、たとえば、定常状態のパワー
スペクトルにおいてパワーが比較的小さい周波数帯域f
aおよびfbに対するパワーは、音声区間のパワースペ
クトルにおいては大幅に増加する。つまり、定常状態の
パワースペクトルにおいてパワーが比較的小さい1また
は複数の周波数帯域における定常状態のパワーと、入力
信号のパワースペクトルの上記1または複数の周波数帯
域におけるパワーとを比較することにより、入力信号が
音声区間か無音区間かを判別することができる。
【0213】なお、定常状態の雑音が高い周波数帯域の
雑音であると判明している場合には、雑音の影響の少な
い低い周波数帯域(例えば、4KHz以下の周波数帯
域)に対するパワースペクトルを算出し、算出されたパ
ワースペクトルが所定のしきい値以上か否かによって、
入力信号が音声区間か無音区間かを判別することもでき
る。
【0214】また、各フレームのパワー平均値Pと、し
きい値Thとを比較することにより、音声区間と無音区
間とを判別する場合において、リングメモリ7の蓄積量
に基づいて、しきい値Thを変化させるようにしてもよ
い。すなわち、リングメモリ7の蓄積量が少なくなるほ
ど、言い換えれば、リングメモリ7の空領域が多くなる
ほど、音声区間の欠落部が少なくなるようにしきい値T
hは小さくされる。これにより、出力音声が自然により
近くなる。
【0215】つまり、図22に示すように、しきい値調
整手段51を設ける。しきい値調整手段51は、リング
メモリ蓄積量状態判別部16からリングメモリ7の蓄積
量を得る。そして、得られたリングメモリ7の蓄積量
を、D/A変換部8のサンプリング周波数で除すること
により、蓄積時間Tmを算出する。そして、算出された
蓄積時間Tmに基づいて、しきい値Thを決定し、しき
い値メモリ13の内容を更新する。
【0216】より具体的に説明すると、リングメモリ蓄
積量状態判別部16から得られたリングメモリ7の蓄積
量がD/A変換部8のサンプリング周波数である800
0で除されることにより、蓄積時間Tmが求められる。
そして、予め作成された蓄積時間Tmに対するしきい値
Thのデータに基づいて、蓄積時間Tmに対するしきい
値Thが求められる。
【0217】次の表は、A/D変換部2の量子化ビット
数が12bitである場合における蓄積時間Tmに対す
るしきい値Thのデータの一例を示している。
【0218】
【表1】
【0219】また、各フレームのパワー累積値Paとし
きい値とを比較することにより、音声区間と無音区間と
を判別する場合、各フレームの平均振幅値Wとしきい値
とを比較することにより、音声区間と無音区間とを判別
する場合、各フレームの振幅累積値Waとしきい値とを
比較することにより、各フレームのパワースークトルと
しきい値とを比較することにより、音声区間と無音区間
とを判別する場合にも、上記と同様に、リングメモリ7
の蓄積量に基づいて、しきい値を変化させるようにして
もよい。
【0220】また、リングメモリ7の蓄積量に基づい
て、無音区間の削除開始点を決定するためのポーズ継続
長Tdelを変化させるようにしてもよい。すなわち、
リングメモリ7の蓄積量が少なくなるほど、言い換えれ
ば、リングメモリ7の空領域が多くなるほど、無音区間
の削除部が少なくなるように、ポーズ継続長Tdelが
長くされる。これにより、出力音声が自然により近くな
る。
【0221】つまり、図22に示すように、ポーズ継続
長調整手段52を設ける。ポーズ継続長調整手段52
は、リングメモリ蓄積量状態判別部16からリングメモ
リ7の蓄積量を得る。そして、得られたリングメモリ7
の蓄積量を、D/A変換部8のサンプリング周波数で除
することにより、蓄積時間Tmを算出する。そして、算
出された蓄積時間Tmに基づいて、ポーズ継続長Tde
lを決定し、ポーズ継続長設定メモリ17の内容を更新
する。
【0222】より具体的に説明すると、リングメモリ蓄
積量状態判別部16から得られたリングメモリ7の蓄積
量がD/A変換部8のサンプリング周波数である800
0で除されることにより、蓄積時間Tmが求められる。
そして、予め作成された蓄積時間Tmに対するポーズ継
続長Tdelのデータに基づいて、蓄積時間Tmに対す
るポーズ継続長Tdelが求められる。
【0223】次の表は、VTRの2倍速再生時における
蓄積時間Tmに対するポーズ継続長Tdelのデータの
一例を示している。
【0224】
【表2】
【0225】上記実施例では、ピッチ圧縮伸長手段23
は、固定された圧縮率で伸長圧縮処理を行っているが、
圧縮率をリングメモリ7の単位時間ごとの蓄積量の変化
量に基づいて、変化させるようにしてもよい。
【0226】VTRの2倍速再生時について説明する
と、ピッチ圧縮伸長手段23では、1/2以上で1以下
の圧縮率αで伸長圧縮処理が行われる。ピッチ圧縮伸長
手段23は、リングメモリ7の単位時間ごとの蓄積量の
変化量に基づいて、リングメモリ7への書込量が読出量
に対して少なくなるほど、圧縮率が大きくなるように、
つまり音声再生速度が遅くなるように、そして、リング
メモリ7への書込量が読出量に対して多くなるほど、圧
縮率が小さくなるように、つまり音声再生速度が速くな
るように、圧縮率αを決定する。
【0227】つまり、ピッチ圧縮伸長手段23には、た
とえば2.0秒毎に、リングメモリ7の蓄積量が送られ
てくる。今回送られてきた蓄積量から前回送られてきた
蓄積量を減算することにより、単位時間当りの蓄積量の
変化量が求められる。次に、単位時間当りの蓄積量の変
化量が、D/A変換部8のサンプリング周波数である8
000で除されることにより、伸長時間の変化分ΔTが
求められる。そして、予め作成された伸長時間の変化分
に対する圧縮率のデータに基づいて、伸長時間の変化分
ΔTに対する圧縮率αが求められる。
【0228】次の表は、VTRの2倍速再生時における
伸長時間の変化分ΔTに対する圧縮率αのデータの一例
を示している。この表において、Vは、圧縮率に対応す
る音声再生速度を示している。
【0229】
【表3】
【0230】この表からわかるように、伸長時間の変化
分ΔTが小さくなるほど、すなわち、単位時間当たりの
リングメモリ7の蓄積量変化(読出量に対する書込量)
が少なくなるほど、圧縮率αは大きくなり、音声再生速
度が遅くなる。逆に、読出量に対する書込量が多くなる
ほど、圧縮率αは小さくなり、音声再生速度が速くな
る。したがって、音声区間における音声の欠落部をでき
るだけ少なくしつつ、音声区間における音声に対する音
声再生速度を遅くさせることができる。
【0231】また、ピッチ圧縮伸長手段23で用いられ
る圧縮率を、ユーザが操作部を用いて設定したモードお
よびリングメモリ7の蓄積量の変化に基づいて、決定す
るようにしてもよい。VTRの2倍速再生時について説
明すると、ピッチ圧縮伸長手段23では、1/2以上で
1以下の圧縮率αで伸長圧縮処理が行われる。
【0232】操作部によって設定されるモードの種類に
は、番組を選択するための番組設定モードと、番組設定
モードによって設定された番組に対して圧縮率αを固定
させるか変動させるかを設定する固定変動設定モードと
がある。
【0233】次の表は、VTRの2倍速再生時におい
て、番組設定モードによって設定される番組の例と、各
番組に対して固定モードが設定されたときの、各番組に
対する音声再生速度(圧縮率)と、各番組に対して変動
モードが設定されたときの、各番組に対する音声再生速
度(圧縮率)の変動範囲の一例をそれぞれ示している。
【0234】
【表4】
【0235】各番組に対する固定モードに対する音声再
生速度および変動モードに対する音声再生速度範囲は、
次のような考え方に基づいて設定されている。すなわ
ち、番組内容によって、発声速度が異なっている。例え
ば、ドラマ、ニュース、F1中継および将棋番組では、
発声速度は、F1中継が最も速く、ニュース、ドラマ、
将棋対局の順に発声速度が遅くなる。このような、発声
速度の違いは、単位時間当たりのモーラ数に起因してい
る。モーラ(mora)とは、韻律音において、強勢や
抑揚などの単位となる音の相対的長さをいい、1モーラ
は、短母音を含む1音節の長さに相当する。
【0236】発話者により変動はあるが、各番組の単位
時間当りのモーラ数の平均値は、次のようになる。 F1中継:12モーラ/秒 ニュース:8モーラ/秒 ドラマ :5モーラ/秒 将棋対局:3モーラ/秒
【0237】固定モードが設定されているときには、設
定番組についての固定モードにおける音声再生速度に対
する圧縮率が、圧縮率αとして決定される。たとえば、
ニュース番組が設定され、かつ固定モードが設定されて
いるときには、圧縮率αは、1.4倍速に対する圧縮
率、たとえば0.714と決定される。このように、発
声速度が速い番組ほど圧縮率が小さく(音声再生速度が
速く)されるので、次のような利点がある。
【0238】つまり、発声速度が速い番組ほど、リング
メモリ7がオーバーフロー直前状態になりやすくなるの
で、音声再生速度が2倍速に近くなるように、圧縮率が
決定される。逆に、発声速度が遅い番組ほど、音声再生
速度が1倍速に近くなるように、圧縮率が決定される。
したがって、音声再生速度は、2倍速以下の速度であっ
て、かつ元の発声速度に応じた速度となり、より自然な
再生音が得られる。
【0239】変動モードが設定されている場合には、設
定番組についての変動モードにおける音声再生速度範囲
に対する圧縮率の範囲内で、圧縮率αが次のようにして
決定される。ピッチ圧縮伸長手段23は、リングメモリ
7の蓄積量が少なくなるほど、圧縮率が大きくなるよう
に、つまり音声再生速度が遅くなるように、そして、リ
ングメモリ7の蓄積量が多くなるほど、圧縮率が小さく
なるように、つまり音声再生速度が速くなるように、圧
縮率αを決定し、決定した圧縮率を用いて伸長圧縮処理
を行う。
【0240】つまり、第1ケースまたは第3ケースに該
当すると判別されたときには、ピッチ圧縮伸長手段23
は、リングメモリ蓄積量状態判別部16から得たリング
メモリ7の蓄積量を、D/A変換部8のサンプリング周
波数である8000で除することにより、蓄積時間Tm
を求める。そして、各番組ごとに予め作成された蓄積時
間に対する圧縮率のデータに基づいて、蓄積時間Tmに
対する圧縮率αを求める。
【0241】次の表は、VTRの2倍速再生時における
F1中継の番組についての蓄積時間Tmに対する圧縮率
αのデータの一例を示している。この表において、V
は、圧縮率に対応する音声再生速度を示している。
【0242】
【表5】
【0243】この表からわかるように、リングメモリ7
の蓄積時間Tmが小さくなるほど、圧縮率αは大きくな
り、音声再生速度が遅くなる。逆に、リングメモリ7の
蓄積時間Tmが大きくなるほど、圧縮率αは小さくな
り、音声再生速度が速くなる。したがって、変動モード
が設定されている場合には、固定モードが設定された場
合に述べた上記の利点に加えて、入力信号の音声区間に
おける音声の欠落部をできるだけ少なくできるとい利点
がある。
【0244】上記方法では、音声の欠落部をできるだけ
少なくするようにしているが、F1中継、早口のニュー
スでは、高齢者には聞き取れない場合が起こりうる。こ
のような場合には、音声の欠落部を多くし、例えば、蓄
積時間に対する音声再生速度範囲を1.0〜1.3倍速
とし、音声をゆっくりにするようにしてもよい。このよ
うにすると、音声の欠落は多くなるが、再生される音声
速度がゆっくりになり、高齢者にも音声が聞取り易くな
る。
【0245】以上は、入力信号がアナログ信号の場合に
ついて説明したが、入力信号がディジタルデータである
場合にもこの発明を適用することができる。たとえば、
ICメモリ、磁気ディスク、ディジタル通信回線等か
ら、圧縮されたディジタル音声信号が送られてきた場合
には、圧縮されたディジタル音声信号が伸長されてPC
M音声信号に変換され、得られたPCM音声信号がバッ
ファに一旦格納される。その後、設定された再生速度倍
率に応じた速度で、PCM音声データがバッファから読
み出されて、図1のフレームメモリ5に送られる。
【0246】
【発明の効果】この発明によれば、処理負荷を低減でき
るとともに、映像と音声のズレを小さくでき、しかも音
声信号を蓄積するためのメモリの容量も膨大とならない
話速変換装置が得られる。
【図面の簡単な説明】
【図1】話速変換装置の全体的な構成を示すブロック図
である。
【図2】話速変換部の構成を示すブロック図である。
【図3】PICOLAを用いて、入力信号を圧縮率2/
3で圧縮する方法を示す説明図である。
【図4】固定フレーム単位で、入力信号を圧縮率2/3
で圧縮する方法を示す説明図である。
【図5】輪唱処理を説明するための説明図である。
【図6】波形合成処理部による処理を説明するための説
明図である。
【図7】間引き処理部によって行なわれる各種の間引き
処理方法を説明するための説明図である。
【図8】話速変換部による処理手順を示すフローチャー
トである。
【図9】話速変換部による処理手順を示すフローチャー
トである。
【図10】輪唱処理ルーチンの処理手順を示すフローチ
ャートである。
【図11】輪唱処理ルーチンの処理手順を示すフローチ
ャートである。
【図12】話速変換部による処理手順の変形例を示し、
図9に相当するフローチャートである。
【図13】2倍速再生時の入力信号と出力信号との関係
を示し、特に無音区間の入力信号が削除される様子を示
すタイムチャートである。
【図14】リングメモリ7へのデータ書き込み開始点、
リングメモリ7からのデータ読み出し開始点ならびに図
13の点A〜Dにおけるリングメモリ7の状態を示す模
式図である。
【図15】図13の点E〜Hにおけるリングメモリ7の
状態を示す模式図である。
【図16】2倍速再生時の入力信号と出力信号との関係
を示し、特にオーバーフロー直前状態となったときに、
入力信号が削除される様子を示すタイムチャートであ
る。
【図17】図16の各点SおよびTにおけるリングメモ
リ7の状態を示す模式図である。
【図18】音声区間と無音区間とを判別するための回路
の変形例を示し、図2に相当するブロック図である。
【図19】音声区間と無音区間とを判別するための回路
の他の変形例を示し、図2に相当するブロック図であ
る。
【図20】音声区間と無音区間とを判別するための回路
のさらに他の変形例を示し、図2に相当するブロック図
である。
【図21】定常状態のパワースペクトル、雑音を含まな
い音声のパワースペクトルおよび音声区間のパワースペ
クトルを示すグラフである。
【図22】しきい値調整手段およびポーズ継続長調整手
段が付加された話速変換部を示すブロック図である。
【符号の説明】
2 A/D変換部 4 DSP 5 フレームメモリ 6 話速変換部 7 リングメモリ 8 D/A変換部 9 アップダウンカウンタ 11 パワー計算部 11A 平均振幅計算部 11B ピッチ周期検出部 11C パワースペクトル計算部 12、12A、12B、12C 比較部 15 条件分岐部 16 リングメモリ蓄積量状態判別部 21 輪唱処理部 23 ピッチ圧縮伸長手段 24 間引き処理部 25 入力信号削除部 41 乗算器 42 加算器 43 輪唱処理メモリ 51 しきい値調整手段 52 ポーズ継続長調整手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 飯田 正幸 大阪府守口市京阪本通2丁目5番5号 三洋電機株式会社内 (72)発明者 宮武 正典 大阪府守口市京阪本通2丁目5番5号 三洋電機株式会社内 (58)調査した分野(Int.Cl.7,DB名) G10L 21/04 G11B 20/02

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】リングメモリ、読出手段、蓄積量算出手
    段、話速変換処理手段を備える話速変換装置であって、 リングメモリは、話速変換処理手段の出力が書き込ま
    れ、 読出手段は、リングメモリのデータを一定速度で読出
    し、 蓄積量算出手段は、リングメモリへの書き込みと読み出
    しに基づいて、リングメモリの蓄積量を算出し、 話速変換処理手段は、区間判別手段、信号処理手段、選
    択手段を備え、 区間判別手段は、入力音声信号が音声区間であるか無音
    区間であるを判別し、 信号処理手段は、入力音声信号に対して、圧縮慎重処
    理、削除処理、2つの入力音声信号をそのまま、もしく
    は、一方を加工して加重する輪唱処理のいずれかを行
    い、 選択手段は、区間判別手段の判別結果、及び、蓄積算出
    手段の算出する蓄積量、及び設定された再生速度倍率に
    応じて信号処理手段のいずれかの処理を選択すると共
    に、蓄積量算出手段の算出する蓄積量がオーバーフロー
    直前状態である場合には、輪唱処理を選択する話速変換
    装置。
  2. 【請求項2】A/D変換手段、フレームメモリ、リング
    メモリ、読出手段、蓄積量算出手段、話速変換手段を備
    える話速変換装置であって、 A/D変換手段は、アナログ音声信号を設定された再生
    速度倍率に応じたサンプリング周波数でサンプリング
    し、 フレームメモリは、A/D変換手段からの音声信号を入
    力音声信号として話速変換手段に出力し、 リングメモリは、話速変換処理手段の出力が書き込ま
    れ、 読出手段は、リングメモリのデータを一定速度で読出
    し、 蓄積量算出手段は、リングメモリへの書き込みと読み出
    しに基づいて、リングメモリの蓄積量を算出し、 話速変換処理手段は、区間判別手段、信号処理手段、選
    択手段を備え、 区間判別手段は、入力音声信号が音声区間であるか無音
    区間であるを判別し、 信号処理手段は、入力音声信号に対して、圧縮慎重処
    理、削除処理、2つの入力音声信号をそのまま、もしく
    は、一方を加工して加重する輪唱処理のいずれかを行
    い、 選択手段は、区間判別手段の判別結果、及び、蓄積算出
    手段の算出する蓄積量、及び、設定された再生速度倍率
    に応じて信号処理手段のいずれかの処理を選択すると共
    に、蓄積量算出手段の算出する蓄積量がオーバーフロー
    直前状態である場合には、輪唱処理を選択する話速変換
    装置。
  3. 【請求項3】フレームメモリ、リングメモリ、読出手
    段、蓄積量算出手段、話速変換手段を備える話速変換装
    置であって、 フレームメモリには、設定された再生速度倍率に応じた
    速度で入力される音声信号を入力音声信号として話速変
    換手段に出力し、 リングメモリは、話速変換処理手段の出力が書き込ま
    れ、 読出手段は、リングメモリのデータを一定速度で読出
    し、 蓄積量算出手段は、リングメモリへの書き込みと読み出
    しに基づいて、リングメモリの蓄積量を算出し、 話速変換処理手段は、区間判別手段、信号処理手段、選
    択手段を備え、 区間判別手段は、入力音声信号が音声区間であるか無音
    区間であるを判別し、 信号処理手段は、入力音声信号に対して、圧縮慎重処
    理、削除処理、2つの入力音声信号をそのまま、もしく
    は、一方を加工して加重する輪唱処理のいずれかを行
    い、 選択手段は、区間判別手段の判別結果、及び、蓄積算出
    手段の算出する蓄積量、及び、設定された再生速度倍率
    に応じて信号処理手段のいずれかの処理を選択すると共
    に、蓄積量算出手段の算出する蓄積量がオーバーフロー
    直前状態である場合には、輪唱処理を選択する話速変換
    装置。
  4. 【請求項4】輪唱処理は、音声区間の入力音声信号、及
    び、無音区間の継続長が無音削除判別値未満の入力音声
    信号に対して、処理開始後の所定長のデータと、次の所
    定長のデータに1以下の定数を加算する請求項1乃至3
    に記載の話速変換装置。
  5. 【請求項5】輪唱処理は、音声区間の入力音声信号、及
    び、無音区間の継続長が無音削除判別値未満の入力音声
    信号に対して、処理開始後の所定長のデータと、次の所
    定長のデータに関数を乗算する請求項1乃至3に記載の
    話速変換装置。
  6. 【請求項6】区間判別手段は、パワー算出手段、判別手
    段からなり、 パワー算出手段は、所定数の入力音声信号のパワー平均
    値を算出し、 判別手段は、パワー平均値としきい値に基づいて、入力
    音声信号が音声区間か無音区間かを判別する請求項1乃
    至5に記載の話速変換装置。
  7. 【請求項7】区間判別手段は、パワー算出手段、判別手
    段からなり、 パワー算出手段は、所定数の入力音声信号のパワー累積
    値を算出し、 判別手段は、パワー累積値としきい値に基づいて、入力
    音声信号が音声区間か無音区間かを判別する請求項1乃
    至5に記載の話速変換装置。
  8. 【請求項8】区間判別手段は、振幅算出手段、判別手段
    からなり、 振幅算出手段は、所定数の入力音声信号の平均振幅値を
    算出し、 判別手段は、平均振幅値としきい値に基づいて、入力音
    声信号が音声区間か無音区間かを判別する請求項1乃至
    5に記載の話速変換装置。
  9. 【請求項9】区間判別手段は、振幅算出手段、判別手段
    からなり、 振幅算出手段は、所定数の入力音声信号の振幅累積値を
    算出し、 判別手段は、振幅累積値としきい値に基づいて、入力音
    声信号が音声区間か無音区間かを判別する請求項1乃至
    5に記載の話速変換装置。
  10. 【請求項10】区間判別手段は、周期検出手段、判別手
    段からなり、 周期検出手段は、入力音声信号の周期を算出し、 判別手段は、周期としきい値に基づいて、入力音声信号
    が音声区間か無音区間かを判別する請求項1乃至5に記
    載の話速変換装置。
  11. 【請求項11】区間判別手段は、パワースペクトル算出
    手段、判別手段からなり、 パワースペクトル算出手段は、入力音声信号の所定の1
    または複数の周波数帯域に対するパワースペクトルを算
    出し、 判別手段は、パワースペクトルに基づいて入力音声信号
    が音声区間か無音区間かを判別する請求項1乃至5に記
    載の話速変換装置。
  12. 【請求項12】しきい値は、リングメモリの蓄積量に応
    じて調整される請求項6乃至11に記載の話速変換装
    置。
JP10987594A 1993-11-17 1994-05-24 話速変換装置 Expired - Fee Related JP3373933B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10987594A JP3373933B2 (ja) 1993-11-17 1994-05-24 話速変換装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP5-312579 1993-11-17
JP31257993 1993-11-17
JP10987594A JP3373933B2 (ja) 1993-11-17 1994-05-24 話速変換装置

Publications (2)

Publication Number Publication Date
JPH07191695A JPH07191695A (ja) 1995-07-28
JP3373933B2 true JP3373933B2 (ja) 2003-02-04

Family

ID=26449583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10987594A Expired - Fee Related JP3373933B2 (ja) 1993-11-17 1994-05-24 話速変換装置

Country Status (1)

Country Link
JP (1) JP3373933B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2955247B2 (ja) 1997-03-14 1999-10-04 日本放送協会 話速変換方法およびその装置
JP2003006991A (ja) * 2001-06-21 2003-01-10 Sony Corp デジタル信号処理装置及びデジタル信号処理方法、並びにデジタル信号再生受信システム
JP2003295882A (ja) 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
JP4572123B2 (ja) 2005-02-28 2010-10-27 日本電気株式会社 音源供給装置及び音源供給方法
JPWO2007004611A1 (ja) * 2005-07-06 2009-01-29 シャープ株式会社 出力回路、制御プログラム製品および制御方法
JP5593244B2 (ja) 2011-01-28 2014-09-17 日本放送協会 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体

Also Published As

Publication number Publication date
JPH07191695A (ja) 1995-07-28

Similar Documents

Publication Publication Date Title
US5611018A (en) System for controlling voice speed of an input signal
JP2955247B2 (ja) 話速変換方法およびその装置
KR101334366B1 (ko) 오디오 배속 재생 방법 및 장치
JP2000511651A (ja) 記録されたオーディオ信号の非均一的時間スケール変更
JP5593244B2 (ja) 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
JP3373933B2 (ja) 話速変換装置
JP3378672B2 (ja) 話速変換装置
JP3220043B2 (ja) 話速変換方法およびその装置
JP3081469B2 (ja) 話速変換装置
JP3357742B2 (ja) 話速変換装置
JP3162945B2 (ja) ビデオテープレコーダ
JP2001184100A (ja) 話速変換装置
JP3803302B2 (ja) 映像要約装置
JP4580297B2 (ja) 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
JPH09152889A (ja) 話速変換装置
JP2001222300A (ja) 音声再生装置および記録媒体
JPH08328586A (ja) 音声時間軸変換装置
JPH09146587A (ja) 話速変換装置
JP2002297200A (ja) 話速変換装置
JPH0854895A (ja) 再生装置
JP4313724B2 (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
KR100359988B1 (ko) 실시간 화속 변환 장치
JPH0376480B2 (ja)
JPH04367898A (ja) 音声再生装置
JPH07210192A (ja) 出力データ制御方法及び装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees