JP3162945B2 - Video tape recorder - Google Patents
Video tape recorderInfo
- Publication number
- JP3162945B2 JP3162945B2 JP09533595A JP9533595A JP3162945B2 JP 3162945 B2 JP3162945 B2 JP 3162945B2 JP 09533595 A JP09533595 A JP 09533595A JP 9533595 A JP9533595 A JP 9533595A JP 3162945 B2 JP3162945 B2 JP 3162945B2
- Authority
- JP
- Japan
- Prior art keywords
- speed
- memory
- signal
- section
- ring memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Television Signal Processing For Recording (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
Description
【0001】[0001]
【産業上の利用分野】この発明は、音声信号の話速を変
える話速変換装置を備えた、ビデオテープレコーダ(V
TR)関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a video tape recorder (V) equipped with a speech speed converter for changing the speech speed of an audio signal.
TR)
【0002】[0002]
【従来の技術】2倍速でも音声を通常のスピードで聞け
るようにしたVTRが商品化されており、その基本的構
成については例えば雑誌「エレクトロニクス」1993
年4月号、34頁〜37頁に記載されている。2. Description of the Related Art A VTR capable of listening to a sound at a normal speed even at a double speed has been commercialized, and its basic configuration is described in, for example, a magazine "Electronics" 1993.
April, pp. 34-37.
【0003】[0003]
【発明が解決しようとする課題】しかしながら、上記の
ようなVTRは2倍速再生時においては、通常のスピー
ドで音声が聞けるものの、音声情報を無条件に半分間引
いて削除してしまう方法であるため、再生音声から記録
されたテープの内容を把握することができなくなった
り、映像と音声の時間的なズレが大きいという問題点が
あった。However, the above-mentioned VTR is a method in which sound can be heard at a normal speed during double-speed playback, but audio information is unconditionally pulled for half an hour and deleted. However, there has been a problem that it is not possible to grasp the contents of the recorded tape from the reproduced audio, and there is a large time lag between the video and the audio.
【0004】従って本発明は2倍速再生時には映像と音
声のズレを小さくでき、しかも可及的に音声情報が得ら
れるように音声スピードを制限するように話速変換を行
い、2倍速より早い、例えば早送り、巻戻し再生時の速
度(5倍、9倍)で、音声速度を再生するときには従来
の2倍速再生と同様の方法により音声を再生するように
したビデオテープレコーダを提供しようとするものであ
る。Accordingly, the present invention can reduce the gap between video and audio during double-speed playback, and also performs speech speed conversion so as to limit the audio speed so that audio information can be obtained as much as possible. For example, a video tape recorder which reproduces audio by the same method as conventional double-speed reproduction when reproducing the audio speed at the speed of fast forward and rewind reproduction (5 times and 9 times). It is.
【0005】[0005]
【課題を解決するための手段】この発明によると2倍速
再生時においては、再生音声信号が音声区間であるか無
音区間であるかに応じて、入力音声信号に対して圧縮伸
長処理または削除処理を行なう話速変換を行う2倍速音
声再生モードと、±N倍速(N:3以上の自然数)再生
時においては、再生音声信号の所定の期間の音声区間を
この再生倍速に応じて間引く処理を行うN倍速再生モー
ドとを設定する制御手段をビデオテープレコーダに備え
てなる。According to the present invention, at the time of double-speed reproduction, compression / expansion processing or deletion processing is performed on an input audio signal depending on whether the reproduced audio signal is an audio section or a silent section. In the double-speed audio reproduction mode in which the speech speed conversion is performed, and in the reproduction at ± N-times speed (N: a natural number of 3 or more), a process of thinning out the audio section of the reproduction audio signal in a predetermined period according to the reproduction double speed is performed. The video tape recorder is provided with control means for setting the N-times speed reproduction mode to be performed.
【0006】また、上記のビデオテープレコーダにおい
て、2倍速音声再生モードを行うべく、入力音声信号を
話速変換処理する話速変換処理手段、話速変換処理手段
の出力が書き込まれるリングメモリ、およびリングメモ
リからデータを一定速度で読み出す手段を備え、話速変
換処理手段は、入力音声信号が音声区間であるか無音区
間であるかおよびリングメモリの蓄積量に応じて、入力
音声信号に対して圧縮伸長処理または削除処理を行なう
手段を備えた話速変換装置を有することを特徴とする。Further, in the above-mentioned video tape recorder, a speech speed conversion processing means for performing a speech speed conversion processing of an input audio signal, a ring memory in which an output of the speech speed conversion processing means is written in order to perform a double speed audio reproduction mode, and Means for reading data from the ring memory at a constant speed; and a speech speed conversion processing means for the input voice signal in accordance with whether the input voice signal is a voice section or a silent section and the amount of storage in the ring memory. It is characterized by having a speech speed conversion device provided with means for performing compression / decompression processing or deletion processing.
【0007】また、上記のビデオテープレコーダにおい
て、2倍速音声再生モードを行うべく、入力されるアナ
ログ音声信号を設定された再生速度倍率に応じたサンプ
リング周波数でサンプリングするA/D変換手段、A/
D変換手段から出力された音声信号が入力されるフレー
ムメモリ、フレームメモリに所要数の音声信号が入力さ
れるごとに、それらの音声信号に対して話速変換処理を
行なう話速変換処理手段、話速変換処理手段の出力が書
き込まれるリングメモリ、リングメモリから一定速度で
データを読み出す読出手段、およびリングメモリの書き
込み信号と読み出し信号とに基づいて、リングメモリの
蓄積量を算出する蓄積量算出手段を備えており、話速変
換処理手段は、フレームメモリに入力された所要数の音
声信号に対応する入力音声が、音声区間か無音区間かを
判別する区間判別手段、ならびに、区間判別手段の出力
および蓄積量算出手段の出力に応じて、上記所要数の音
声信号に対して圧縮伸長処理または削除処理を行なう信
号処理手段を備えた話速変換装置を有することを特徴と
する。In the above-mentioned video tape recorder, A / D conversion means for sampling an input analog audio signal at a sampling frequency corresponding to a set reproduction speed magnification in order to perform a double speed audio reproduction mode,
A frame memory to which an audio signal output from the D conversion means is input, and a voice speed conversion processing means for performing a voice speed conversion process on the voice signal each time a required number of voice signals are input to the frame memory; A ring memory to which the output of the speech speed conversion processing means is written, a reading means for reading data from the ring memory at a constant speed, and a storage amount calculation for calculating a storage amount of the ring memory based on a write signal and a read signal of the ring memory Means, a speech speed conversion processing means, a section discriminating means for discriminating whether the input speech corresponding to the required number of speech signals inputted to the frame memory is a speech section or a silent section, and a section discriminating means. Signal processing means for performing compression / decompression processing or deletion processing on the required number of audio signals according to the output of the output and accumulation amount calculation means Characterized in that it has a speech speed converting device.
【0008】また、上記のビデオテープレコーダにおい
て、2倍速音声再生モードを行うべく、入力されるディ
ジタル音声信号が、設定された再生速度倍率に応じた速
度で書き込まれるフレームメモリ、フレームメモリに所
要数の音声信号が入力されるごとに、それらの音声信号
に対して話速変換処理を行なう話速変換処理手段、話速
変換処理手段の出力が書き込まれるリングメモリ、1倍
速再生時のフレームメモリへの書込み速度と等しい周波
数の読み出し信号に基づいて、リングメモリからデータ
を読み出す読出手段、およびリングメモリの書き込み信
号と読み出し信号とに基づいて、リングメモリの蓄積量
を算出する蓄積量算出手段を備えており、話速変換処理
手段は、フレームメモリに入力された所要数の音声信号
に対応する入力音声が、音声区間か無音区間かを判別す
る区間判別手段、ならびに、区間判別手段の出力および
蓄積量算出手段の出力に応じて、上記所要数の音声信号
に対して圧縮伸長処理または削除処理を行なう信号処理
手段を備えている話速変換装置を有することを特徴とす
る。In the above-mentioned video tape recorder, a required number of frames are stored in a frame memory and a frame memory in which an input digital audio signal is written at a speed corresponding to a set reproduction speed magnification in order to perform a double speed audio reproduction mode. Each time a voice signal is input, the voice speed conversion processing means for performing voice speed conversion processing on those voice signals, a ring memory in which the output of the voice speed conversion processing means is written, and a frame memory at the time of 1 × speed reproduction Reading means for reading data from the ring memory based on a read signal having a frequency equal to the writing speed of the memory, and storage amount calculating means for calculating the storage amount of the ring memory based on the write signal and the read signal of the ring memory. And the speech speed conversion processing means outputs the input sound corresponding to the required number of audio signals input to the frame memory. Performs a compression / expansion process or a deletion process on the required number of audio signals according to an output of the interval determination means and an output of the accumulation amount calculation means for determining whether the section is a voice section or a silent section. It is characterized by having a speech speed conversion device provided with signal processing means.
【0009】上記ビデオテープレコーダにおいて、N倍
速再生モードを行うべく、N倍速で音声データをメモリ
に書き込み、1倍速でその書き込まれたデータを読み出
すようにメモリを制御するようにしたことを特徴とす
る。In the above video tape recorder, in order to perform the N-times playback mode, the memory is controlled so that the audio data is written into the memory at the N-times speed and the written data is read at the 1-times speed. I do.
【0010】[0010]
【作用】この発明によれば、2倍速再生時においては、
適応型話速変換処理を行い、3倍速以上のときは単純間
引き処理を行うようにVTRが制御される。According to the present invention, at the time of double speed reproduction,
An adaptive speech speed conversion process is performed, and the VTR is controlled to perform a simple decimation process when the speed is three times or more.
【0011】この発明によれば、2倍速再生時において
は入力音声信号が音声区間であるか無音区間であるかに
応じて、入力音声信号に対して圧縮伸長処理または削除
処理が行われる。According to the present invention, at the time of double-speed reproduction, compression / expansion processing or deletion processing is performed on an input audio signal depending on whether the input audio signal is an audio section or a silent section.
【0012】この発明によれば、2倍速再生時において
は、入力音声信号は話速変換処理手段によって、話速変
換処理される。話速変換処理手段の出力は、リングメモ
リに書き込まれる。リングメモリに書き込まれたデータ
は、一定速度で読み出される。話速変換処理手段におい
ては、入力音声信号が音声区間であるか無音区間である
かおよびリングメモリの蓄積量に応じて、入力音声信号
に対して圧縮伸長処理または削除処理が行なわれる。According to the present invention, at the time of double speed reproduction, the input voice signal is subjected to the speech speed conversion processing by the speech speed conversion processing means. The output of the speech speed conversion processing means is written to the ring memory. Data written to the ring memory is read at a constant speed. In the speech speed conversion processing means, compression / expansion processing or deletion processing is performed on the input voice signal according to whether the input voice signal is a voice section or a silent section and the amount of storage in the ring memory.
【0013】この発明によれば、2倍速再生時において
は、入力されるアナログ音声信号は、A/D変換手段に
より、設定された再生速度倍率に応じたサンプリング周
波数でサンプリングされる。A/D変換手段から出力さ
れた音声信号は、フレームメモリに入力される。フレー
ムメモリに所要数の音声信号が入力されるごとに、話速
変換処理手段により、それらの音声信号に対して話速変
換処理が行なわれる。話速変換処理手段の出力は、リン
グメモリに書き込まれる。リングメモリに書き込まれた
データは、1倍速再生時のサンプリング周波数に等しい
周波数の読み出し信号に基づいて読み出される。リング
メモリの書き込み信号と読み出し信号とに基づいて、蓄
積量算出手段によって、リングメモリの蓄積量が算出さ
れる。According to the present invention, at the time of double speed reproduction, the input analog audio signal is sampled by the A / D converter at a sampling frequency corresponding to the set reproduction speed magnification. The audio signal output from the A / D converter is input to the frame memory. Each time a required number of voice signals are input to the frame memory, the voice speed conversion processing means performs voice speed conversion processing on those voice signals. The output of the speech speed conversion processing means is written to the ring memory. The data written in the ring memory is read based on a read signal having a frequency equal to the sampling frequency at the time of 1 × speed reproduction. The storage amount of the ring memory is calculated by the storage amount calculation means based on the write signal and the read signal of the ring memory.
【0014】この発明によれば、2倍速再生時において
は、フレームメモリに入力された所要数の音声信号に対
する入力音声が、区間判別手段により、音声区間か無音
区間かが判別される。そして、区間判別手段の出力およ
び蓄積量算出手段の出力に応じて、上記所要数の音声信
号に対して圧縮伸長処理または削除処理が行なわれる。According to the present invention, at the time of double-speed reproduction, the section discriminating means determines whether the input voice corresponding to the required number of voice signals input to the frame memory is a voice section or a silent section. Then, compression / expansion processing or deletion processing is performed on the required number of audio signals in accordance with the output of the section determination means and the output of the accumulation amount calculation means.
【0015】この発明によれば、2倍速再生時において
は、入力されるディジタル音声信号が、設定された再生
速度倍率に応じた速度でフレームメモリに書き込まれ
る。フレームメモリに所要数の音声信号が入力されるご
とに、話速変換処理手段により、それらの音声信号に対
して話速変換処理が行なわれる。話速変換処理手段の出
力は、リングメモリに書き込まれる。リングメモリに書
き込まれたデータは、読み出し信号に基づいて一定速度
で読み出される。リングメモリの書き込み信号と読み出
し信号とに基づいて、蓄積量算出手段によって、リング
メモリの蓄積量が算出される。According to the present invention, at the time of double speed reproduction, an input digital audio signal is written to the frame memory at a speed corresponding to the set reproduction speed magnification. Each time a required number of voice signals are input to the frame memory, the voice speed conversion processing means performs voice speed conversion processing on those voice signals. The output of the speech speed conversion processing means is written to the ring memory. Data written to the ring memory is read at a constant speed based on a read signal. The storage amount of the ring memory is calculated by the storage amount calculation means based on the write signal and the read signal of the ring memory.
【0016】話速変換処理手段においては、フレームメ
モリに入力された所要数の音声信号に対する入力音声
が、区間判別手段により、音声区間か無音区間かが判別
される。そして、区間判別手段の出力および蓄積量算出
手段の出力に応じて、上記所要数の音声信号に対して圧
縮伸長処理または削除処理が行なわれる。In the speech speed conversion processing means, the input voice corresponding to the required number of voice signals input to the frame memory is determined by the section determining means as a voice section or a silent section. Then, compression / expansion processing or deletion processing is performed on the required number of audio signals in accordance with the output of the section determination means and the output of the accumulation amount calculation means.
【0017】本発明によれば、±N倍速再生時に一部の
音声が伸長されて、残余の信号が間引かれるAccording to the present invention, at the time of ± N times speed reproduction, a part of the sound is expanded and the remaining signal is thinned out.
【0018】[0018]
【実施例】以下、図面を参照して、この発明の実施例に
ついて説明する。Embodiments of the present invention will be described below with reference to the drawings.
【0019】図23は本発明を実施したVTRの概略ブ
ロック図を示しており、テープTの横トラックから再生
されたモノラル音声信号は、音声ヘッドHにてピックア
ップされイコライザアンプ111に入力される。イコラ
イザアンプ111でイコライズおよびアンプされた音声
信号は切り替え回路115の端子bおよび話速変換IC
112に供給される。話速変換IC112の出力は前記
切り替え回路115の端子aに供給される。前記切り替
え回路115はシステムマイコン114からの指令に基
づいて端子aまたはbを選択し、その選択した出力をミ
ュート回路116を介して出力する。すなわち、テープ
Tから出力される音声は端子bから出力される場合、テ
ープ速度比例した速度の音声信号が出力され、端子aか
らは再生音声信号に圧縮、伸長、削除処理などの処理が
施された信号が出力される。話速変換IC112は、シ
ステムマイコン114によって制御されるとともに、メ
モリ(ダイナミックRAM)113と協働して上記の処
理を行う。FIG. 23 is a schematic block diagram of a VTR embodying the present invention. A monaural audio signal reproduced from a horizontal track of a tape T is picked up by an audio head H and input to an equalizer amplifier 111. The audio signal equalized and amplified by the equalizer amplifier 111 is supplied to a terminal b of a switching circuit 115 and a speech speed conversion IC.
112. The output of the speech speed conversion IC 112 is supplied to a terminal a of the switching circuit 115. The switching circuit 115 selects the terminal a or b based on a command from the system microcomputer 114, and outputs the selected output via the mute circuit 116. That is, when the audio output from the tape T is output from the terminal b, an audio signal having a speed proportional to the tape speed is output, and from the terminal a, the reproduced audio signal is subjected to processing such as compression, decompression, and deletion processing. Signal is output. The speech speed conversion IC 112 is controlled by the system microcomputer 114 and performs the above processing in cooperation with a memory (dynamic RAM) 113.
【0020】次に図23の動作を図24のフローチャー
トを参照しつつ説明する。Next, the operation of FIG. 23 will be described with reference to the flowchart of FIG.
【0021】まず、システムマイコン114は当該VT
Rが再生モードがどうかの判断を行う(S1)。ステッ
プ1で再生モードであると判断されると次に2倍速再生
キー117が押されたかどうかの判断がステップ2(S
2)で行われる。この2倍速再生キーが押されると、テ
ープ速度を2倍速にして、映像および音声が再生される
ようになっている。そして、音声に関しては2倍速再生
キー117が押されると2倍速の適応話速処理(S3)
が行われる。First, the system microcomputer 114 sets the VT
R determines whether or not it is in the reproduction mode (S1). If it is determined in step 1 that the playback mode is set, then it is determined in step 2 (S2) whether the double speed playback key 117 has been pressed.
This is performed in 2). When the double speed reproduction key is pressed, the tape speed is doubled, and the video and the audio are reproduced. When the double speed reproduction key 117 is depressed with respect to the voice, the double speed adaptive speech speed process (S3).
Is performed.
【0022】この適応話速処理について図25を用いて
説明すると、通常速度の再生音声が図25(a)のよう
に時間Tで「話速変換を用いたVTRです」なる音声が
再生されるものとし、これに2倍速の適応話速処理をか
けると同図(b)のように1/2の1の時間(T/2)
で再生するが、このために通常速度の音声の単語と単語
の間の無音部分、すなわち話をしていない部分を削除
し、単語の部分は通常速度の音声と近い話速のままで単
語をつなげている。このとき、物音などの周囲の雑音の
ため完全な無音は存在しないが、無音判定のしきい値を
音声の状況に応じて適応的に変化させることによって周
囲の雑音と目的とする音声を判別している。尚、無音を
取り除いただけでは再生時間が1/2にならない場合、
音声の一部を無音区間の長さに応じて適応的に圧縮する
ことにより、再生時間を1/2にしている。そして、再
生が終了したとステップ6(S6)で判断されると再生
が終了する。This adaptive speech speed processing will be described with reference to FIG. 25. As shown in FIG. 25 (a), a speech sound of "VTR using speech speed conversion" is reproduced at time T as shown in FIG. If this is applied to the double-speed adaptive speech rate processing, the time is 1/2 (T / 2) as shown in FIG.
, But for this purpose the silence between the words of the normal-speed speech, i.e., the part that is not speaking, is deleted, and the words are reproduced at the same speed as the normal-speed speech. Connected. At this time, there is no complete silence due to ambient noise such as noises, but the surrounding noise is distinguished from the target voice by adaptively changing the threshold for silence determination according to the voice situation. ing. If the playback time is not reduced by half just by removing silence,
The reproduction time is reduced to half by adaptively compressing a part of the voice according to the length of the silent section. Then, when it is determined in step 6 (S6) that the reproduction has ended, the reproduction ends.
【0023】ステップ2(S2)で2倍速再生キーが押
されていない場合、次にステップ4(S4)で±N倍速
モードになったかどうかの判断がされる。この±N倍速
モードとは例えば早送り再生、または巻戻し再生時がこ
れに相当する。そして、このステップ4で±N倍速モー
ドでないと判断されると、ステップ6に戻る。If the double speed reproduction key has not been depressed in step 2 (S2), then it is determined in step 4 (S4) whether or not the. ± .N speed mode has been set. The ± N double speed mode corresponds to, for example, fast forward reproduction or rewind reproduction. If it is determined in step 4 that the mode is not the ± N speed mode, the process returns to step 6.
【0024】ステップ4で±N倍速モードである場合、
単純間引き処理による圧縮処理を行い(S5)、ステッ
プ6に進む。If the mode is ± N times speed mode in step 4,
The compression process by the simple thinning process is performed (S5), and the process proceeds to step 6.
【0025】前記単純間引き処理を図26を参照しつつ
説明すると、例えば3倍速での再生音声信号の場合、図
26(a)で示すようにT1時間で「ビデオテープレコ
ーダに時間差適応話速変換回路を」なる音声信号が再生
されてるが、この再生信号に対し、単純間引き処理を行
うと、同図(b)に示すようにT2期間である「ビデオ
テ」が伸長されてT1時間で再生される。すなわち、3
倍速再生の音声信号を2/3を間引いて(間引かれる期
間:TD)標準の話速に変換される。換言すれば、T
1:T2=3:1になる。The simple decimation process will be described with reference to FIG. 26. For example, in the case of a reproduced audio signal at a 3 × speed, as shown in FIG. When a simple thinning process is performed on the reproduced signal, the "video signal" in the T2 period is expanded and reproduced in the T1 time period, as shown in FIG. You. That is, 3
The audio signal of the double speed reproduction is converted to a standard speech speed by thinning out 2/3 (thinning period: TD). In other words, T
1: T2 = 3: 1.
【0026】また同様に、入力信号が5倍速再生の場
合、4/5を間引いて標準話速に変換し(T1:T2=
5:1)、入力信号が9倍速再生の場合、8/9を間引
いて標準話速に変換する(T1:T2=9:1)。Similarly, when the input signal is reproduced at 5 × speed, 4/5 is thinned out and converted to the standard speech speed (T1: T2 =
5: 1), when the input signal is reproduced at 9 × speed, 8/9 is thinned out and converted to the standard speech speed (T1: T2 = 9: 1).
【0027】また、逆転N倍速再生時(−N倍速再生
時)に対する単純間引き処理を図5を参照しつつ説明す
ると、図27に示す通り逆転入力音声の一部を抽出し正
方向の通常話速に変換する。すなわち、図27(a)は
N倍速の逆転音声信号であり、同図(b)はそれを間引
き処理した場合を示していて、5倍速逆転再生の場合
は、4/5を間引いて標準話速に変換し(T1:T2=
5:1)、9倍速逆転再生の場合は、8/9を間引いて
標準話速に変換する(T1:T2=9:1)。尚、図2
7において、TDは間引かれる期間を示す。Referring to FIG. 5, a simple decimation process at the time of reverse N-times speed reproduction (at the time of -N times speed reproduction) will be described. As shown in FIG. Convert to speed. That is, FIG. 27 (a) shows an N-times reverse video signal, and FIG. 27 (b) shows a case where it is thinned out. (T1: T2 =
5: 1), in the case of 9 × speed reverse reproduction, 8/9 is thinned out and converted to the standard speech speed (T1: T2 = 9: 1). FIG.
At 7, TD indicates the period to be decimated.
【0028】上記のように2倍速再生時においては、適
応型話速変換処理を行い、3倍速以上のときは単純間引
き処理を行うようにしているのは、3倍速以上になると
適応型話速変換を行っても、音声を削除する量が多くな
り、信号処理が簡単な単純間引きとあまり変わらなくな
り、複雑な信号処理を必要とする適応話速をする意味が
無いばかりでなくかえって聞きづらくなるからである。
従って、このように2倍速再生時においては、適応型話
速変換処理を行い、3倍速以上のときは単純間引き処理
を行うようにすることにより、話速変換用ICとしてそ
の構成が簡単になるばかりでなく、VTRとしての商品
価値を向上せしめることができる。As described above, the adaptive speech speed conversion process is performed at the time of double speed reproduction, and the simple thinning process is performed at the time of triple speed or higher. Even if the conversion is performed, the amount of voice to be deleted is increased, the signal processing is not much different from simple thinning, and there is no point in making an adaptive speech rate that requires complicated signal processing, and it is also difficult to hear. Because.
Therefore, by performing the adaptive speech speed conversion process at the time of double speed reproduction and performing the simple thinning process at the time of triple speed or more, the configuration as the speech speed conversion IC is simplified. In addition, the commercial value of the VTR can be improved.
【0029】図1は、上記話速変換IC内の適応型話速
変換を行う部分に相当する話速変換装置の全体的な構成
を示している。FIG. 1 shows an overall configuration of a speech speed conversion device corresponding to a portion for performing adaptive speech speed conversion in the speech speed conversion IC.
【0030】入力音声信号は、ALCアンプ1で増幅さ
れた後、A/D変換部2に送られ、例えば12ビットの
ディジタル信号に変換される。A/D変換部2の標準サ
ンプリング周波数は、たとえば8KHzである。2倍速
再生時には、A/D変換部2のサンプリング周波数fs
ADは、16KHzとなる。After the input audio signal is amplified by the ALC amplifier 1, it is sent to the A / D converter 2 and converted into, for example, a 12-bit digital signal. The standard sampling frequency of the A / D converter 2 is, for example, 8 KHz. At the time of 2 × speed reproduction, the sampling frequency fs of the A / D converter 2
AD is 16 KHz.
【0031】A/D変換部2の出力は、DSP( Digita
l Signal Processor) 4に送られるとともにレベル検出
部3にも送られる。レベル検出部3は、A/D変換部2
でA/D変換されたデータが変換レンジの最大値となっ
たときに、ALC(automaticlevel control) 信号をA
LCアンプ1に出力する。これにより、ALCアンプ1
のアンプ利得が制御され、A/D変換部2の入力信号が
最大レンジを越えないようにされる。つまり、VTRの
再生テープ速度が変化するとALCアンプ1の入力信号
レベルも変化する。そこで、レベル検出部3の出力に基
づいて、アンプ利得を自動調整することにより、A/D
変換部2の入力信号が最大レンジを越えないようにして
いる。The output of the A / D converter 2 is a DSP (Digital
l Signal Processor) 4 and also to the level detector 3. The level detection unit 3 includes the A / D conversion unit 2
When the A / D-converted data reaches the maximum value of the conversion range, the ALC (automatic level control) signal is output to A
Output to LC amplifier 1. Thereby, the ALC amplifier 1
Is controlled so that the input signal of the A / D converter 2 does not exceed the maximum range. That is, when the playback tape speed of the VTR changes, the input signal level of the ALC amplifier 1 also changes. Therefore, by automatically adjusting the amplifier gain based on the output of the level detector 3, the A / D
The input signal of the converter 2 is prevented from exceeding the maximum range.
【0032】DSP4は、2フレーム分の音声信号を記
憶できる容量のフレームメモリ5およびフレームメモリ
5に記憶された音声信号に対してフレーム単位で話速変
換処理を行なう話速変換部6とを備えている。1フレー
ムは、ここでは、200個のサンプリングデータから構
成されるものとする。The DSP 4 includes a frame memory 5 having a capacity capable of storing two frames of voice signals, and a voice speed conversion unit 6 for performing voice speed conversion processing on a frame basis for voice signals stored in the frame memory 5. ing. Here, it is assumed that one frame is composed of 200 pieces of sampling data.
【0033】フレームメモリ5内の前半領域および後半
領域のうち、一方の領域に記憶された1フレーム分の音
声信号に対して話速変換部6により処理が行なわれると
同時に、他方の領域にA/D変換部2からの信号が蓄積
される。そして、この他方の領域に1フレーム分の信号
が蓄積されると、今度はその領域内のデータに対して話
速変換部6により処理が行なわれると同時に、既に処理
が行なわれたデータが記憶されていた上記一方の領域に
A/D変換部2からの信号が蓄積される。Of the first half area and the second half area in the frame memory 5, one frame of the audio signal stored in one area is processed by the speech speed conversion unit 6, and at the same time, A The signal from the / D converter 2 is accumulated. When the signal for one frame is accumulated in the other area, the data in the area is processed by the speech speed conversion unit 6 and the data already processed is stored. The signal from the A / D conversion unit 2 is stored in the one of the areas.
【0034】話速変換部6から出力されたデータは、書
き込みクロックに基づいてリングメモリ7に書き込まれ
る。リングメモリ7に書き込まれたデータは、読み出し
クロックに基づいて、読み出される。リングメモリ7か
ら読み出された信号は、D/A変換部8によってアナロ
グ信号に変換された後、アンプ10で増幅され、音声出
力信号として出力される。The data output from the speech speed converter 6 is written to the ring memory 7 based on a write clock. The data written in the ring memory 7 is read based on a read clock. The signal read from the ring memory 7 is converted into an analog signal by the D / A converter 8, then amplified by the amplifier 10, and output as an audio output signal.
【0035】D/A変換部8のサンプリング周波数fs
DAは、8KHzである。また、リングメモリ7の読み
出しクロックの周波数も8KHzである。リングメモリ
7としては、21845×12bitのもの、すなわ
ち、21845ワードのものが用いられている。したが
って、リングメモリ7にデータを蓄積できる最大時間
(入力信号に対する出力時間の最大遅延時間)は、21
845×1/8000=2.73秒となる。The sampling frequency fs of the D / A converter 8
DA is 8 KHz. The frequency of the read clock of the ring memory 7 is also 8 KHz. As the ring memory 7, a memory of 21845 × 12 bits, that is, a memory of 21845 words is used. Therefore, the maximum time during which data can be stored in the ring memory 7 (the maximum delay time of the output time with respect to the input signal) is 21
845 x 1/8000 = 2.73 seconds.
【0036】リングメモリ7に対する書き込みクロック
は、アップダウンカウンタ9のアップカウント用入力端
子(UP)に入力する。リングメモリ7に対する読み出
しクロックは、アップダウンカウンタ9のダウンカウン
ト用入力端子(DOWN)に入力する。アップダウンカ
ウンタ9は、入力された書き込みクロックの総数と入力
された読み出しクロックの総数との差(リングメモリ7
の蓄積量)をカウントし、そのカウント値を15bit
のディジタル信号として出力する。アップダウンカウン
タ9の出力は、話速変換部6に送られる。A write clock for the ring memory 7 is input to an up-counting input terminal (UP) of the up-down counter 9. A read clock for the ring memory 7 is input to a down-counting input terminal (DOWN) of the up-down counter 9. The up / down counter 9 calculates the difference between the total number of input write clocks and the total number of input read clocks (the ring memory 7).
Count) and count the count value to 15 bits
As a digital signal. The output of the up / down counter 9 is sent to the speech speed converter 6.
【0037】図2は、話速変換部6の詳細な構成を示し
ている。FIG. 2 shows a detailed configuration of the speech speed converter 6.
【0038】フレームメモリ5から読み出された音声信
号は、パワー計算部11に送られ、1フレーム分の音声
信号の平均パワー値Pが算出される。この平均パワー値
Pは、サンプリングされた1フレーム内の各音声信号の
振幅をi0 、i1 、…iN−1 (ただし、N=2
00)とすると、次の数式1によって求められる。The audio signal read from the frame memory 5 is sent to the power calculator 11, and the average power value P of the audio signal for one frame is calculated. The average power value P represents the amplitude of each audio signal in one sampled frame as i0, i1,... IN-1 (where N = 2
00) is obtained by the following equation 1.
【0039】[0039]
【数1】 (Equation 1)
【0040】パワー計算部11で求められた平均パワー
値Pは、比較部12に送られる。比較部12には、しき
い値メモリ13からしきい値Thが送られており、平均
パワー値Pがしきい値Th以上(P≧Th)か、平均パ
ワー値Pがしきい値Thより小さいか(P<Th)が判
別される。比較部12からは、平均パワー値Pがしきい
値Th以上(P≧Th)のときには現フレームが音声区
間であることを示す信号が、平均パワー値Pがしきい値
Thより小さいときには現フレームが無音区間であるこ
とを示す信号が、それぞれ出力される。The average power value P obtained by the power calculator 11 is sent to the comparator 12. The threshold value Th is sent from the threshold value memory 13 to the comparison unit 12, and the average power value P is equal to or larger than the threshold value Th (P ≧ Th) or the average power value P is smaller than the threshold value Th. (P <Th) is determined. The comparison unit 12 outputs a signal indicating that the current frame is a voice section when the average power value P is equal to or larger than the threshold Th (P ≧ Th). Is a signal indicating that is a silent section.
【0041】しきい値Thとしては、A/D変換部2の
量子化ビット数が12bitのときには、たとえば、2
12に設定される。なお、次のようにして、しきい値T
hを変更するようにしてもよい。すなわち、図2に点線
で示すように、パワー定常状態検出およびしきい値更新
部14を設ける。パワー定常状態検出およびしきい値更
新部14は、パワー計算部11からの平均パワー値P
が、所定フレーム数(例えば、40フレーム)にわたっ
て一定であったか否かを判別し、一定であったときには
(定常状態)、そのときの平均パワー値Pの2倍の値を
しきい値メモリ13に書き込み、しきい値Thを更新さ
せる。ただし、更新されるしきい値の最大値は、所定
値、たとえば214に制限される。このようにすること
により、定常的に発生している雑音を無音区間として取
り扱うことができるようになる。The threshold value Th is, for example, 2 when the number of quantization bits of the A / D converter 2 is 12 bits.
It is set to 12. Note that the threshold value T is calculated as follows.
h may be changed. That is, as shown by a dotted line in FIG. 2, a power steady state detection and threshold value updating unit 14 is provided. The power steady state detection and threshold update unit 14 calculates the average power value P from the power calculation unit 11.
Is determined over a predetermined number of frames (for example, 40 frames), and if it is constant (steady state), a value twice the average power value P at that time is stored in the threshold memory 13. Write and update the threshold value Th. However, the maximum value of the updated threshold value is limited to a predetermined value, for example, 214. By doing so, it is possible to treat the constantly occurring noise as a silent section.
【0042】また、入力信号の音声区間と無音区間と
を、次の数式2で示す各フレームの音声信号のパワー累
積値Paと所与のしきい値とに基づいて判別するように
してもよい。Further, the voice section and the silent section of the input signal may be determined based on the cumulative power Pa of the voice signal of each frame and the given threshold value as shown in the following equation (2). .
【0043】[0043]
【数2】 (Equation 2)
【0044】比較部12の出力は、条件分岐部15に送
られる。条件分岐部15には、リングメモリ蓄積量状態
判別部16の出力が入力している。また、条件分岐部1
5には、パワー計算部11を介してフレームメモリ5か
らの、音声信号が送られている。さらに、条件分岐部1
5には、ポーズ継続長設定メモリ17が接続されてい
る。ポーズ継続長設定メモリ17には、無音区間の削除
開始点を決定するためのポーズ継続長Tdel(無音削
除開始点判別値)が設定されている。The output of the comparing section 12 is sent to the conditional branching section 15. The output of the ring memory accumulated amount state determination unit 16 is input to the conditional branch unit 15. Also, conditional branching unit 1
5 is supplied with an audio signal from the frame memory 5 via the power calculator 11. Furthermore, conditional branching unit 1
5, a pause continuation length setting memory 17 is connected. In the pause continuation length setting memory 17, a pause continuation length Tdel (a silence deletion start point discrimination value) for determining a deletion start point of a silent section is set.
【0045】リングメモリ蓄積量状態判別部16は、ア
ップダウンカウンタ9から送られてきた蓄積量に基づい
て、リングメモリ7の状態がオーバーフロー直前状態に
なったこと、およびリングメモリ7の状態がアンダーフ
ロー直前状態になったことを検出する。Based on the amount of storage sent from the up / down counter 9, the ring memory storage state determination unit 16 determines that the state of the ring memory 7 has just reached the overflow state and that the state of the ring memory 7 is under. Detects the state immediately before the flow.
【0046】つまり、オーバーフロー検出用データメモ
リ18にはオーバーフロー検出用データTmaxが、ア
ンダーフロー検出用データメモリ19にはアンダーフロ
ー検出用データTminが、それぞれ記憶されている。
オーバーフロー検出用データTmaxは、例えば、リン
グメモリ7の総ワード数(TOTAL)21845より
200小さい値21645に設定されている。アンダー
フロー検出用データTminは、例えば、200に設定
されている。That is, the overflow detection data memory 18 stores overflow detection data Tmax, and the underflow detection data memory 19 stores underflow detection data Tmin.
The overflow detection data Tmax is set to, for example, a value 21645 smaller than the total number of words (TOTAL) 21845 of the ring memory 7 by 200. The underflow detection data Tmin is set to, for example, 200.
【0047】そして、アップダウンカウンタ9から送ら
れてきた蓄積量がオーバーフロー検出用データTmax
以上になると、リングメモリ蓄積量状態判別部16から
オーバーフロー直前検出信号が出力される。また、アッ
プダウンカウンタ9から送られてきた蓄積量がアンダー
フロー検出用データTmin以下になると、リングメモ
リ蓄積量状態判別部16からアンダーフロー直前検出信
号が出力される。条件分岐部15は、オーバーフロー直
前検出信号が入力されているときにはリングメモリ7が
オーバーフロー直前状態であると判別し、アンダーフロ
ー直前検出信号が入力されているときにはリングメモリ
7がアンダーフロー直前状態であると判別する。The accumulated amount sent from the up / down counter 9 is equal to the overflow detection data Tmax.
At this point, the ring memory storage amount state determination unit 16 outputs a detection signal immediately before overflow. When the accumulated amount sent from the up / down counter 9 becomes equal to or less than the underflow detection data Tmin, the ring memory accumulated amount state determination unit 16 outputs a detection signal immediately before the underflow. The conditional branch unit 15 determines that the ring memory 7 is in the state immediately before the overflow when the immediately before overflow detection signal is input, and the ring memory 7 is in the state immediately before the underflow when the immediately before underflow detection signal is input. Is determined.
【0048】条件分岐部15は、比較部12から送られ
てくる音声区間または無音区間の判別信号と、リングメ
モリ蓄積量状態判別部16から送られてくるリングメモ
リ状態に関する検出信号と、ポーズ継続長設定メモリ1
7に設定されているポーズ継続長Tdelとに基づい
て、以下の6つのケースに場合分けを行なう。そして、
それに応じて、マルチプレクサ20を制御して、音声信
号を所定の処理部に送る。 (1)第1ケース(case1) 入力信号が音声区間であり、かつリングメモリ7がオー
バーフロー直前状態ではないと判別されたときには、第
1ケースとなる。The condition branching unit 15 determines whether a voice section or a silent section has been sent from the comparing unit 12, a detection signal regarding the ring memory state sent from the ring memory storage amount state determining unit 16, and a pause continuation. Length setting memory 1
Based on the pause duration Tdel set to 7, the following six cases are classified. And
In response, the multiplexer 20 is controlled to send the audio signal to a predetermined processing unit. (1) First Case (case 1) When it is determined that the input signal is in the voice section and the ring memory 7 is not in the state immediately before the overflow, the first case occurs.
【0049】この場合には、音声信号は、マルチプレク
サ20を介して、ピッチ圧縮伸長手段23に送られる。
ピッチ圧縮伸長手段23は、バリアブル スピーチ コ
ントロール(VSC)を行なうものであり、再生速度倍
率をnとすると、入力信号に対して、圧縮率1/nより
大きな圧縮率で伸長圧縮処理を行なう。ここで用いられ
る伸長圧縮法としては、例えば、ポインター移動量制御
による重複加算法(Pointer Interval Control Overlap
and Add : PICOLA)、TDHS(TimeDomain Ha
rmonic Scaling)法等がある。ピッチ伸長圧縮手段23
で伸長圧縮処理が行なわれた信号は、デマルチプレクサ
27を介してリングメモリ7に送られ、書き込みクロッ
クにしたがって、リングメモリ7に書き込まれる。In this case, the audio signal is sent to the pitch compression / expansion means 23 via the multiplexer 20.
The pitch compression / expansion means 23 performs variable speech control (VSC). Assuming that the reproduction speed magnification is n, the pitch compression / expansion means 23 performs the expansion / compression processing on the input signal at a compression ratio larger than 1 / n. As the decompression compression method used here, for example, an overlap addition method (Pointer Interval Control Overlap
and Add: PICOLA), TDHS (TimeDomain Ha
rmonic Scaling) method. Pitch expansion / compression means 23
The signal subjected to the decompression and compression processing is sent to the ring memory 7 via the demultiplexer 27, and is written to the ring memory 7 according to a write clock.
【0050】VTRの2倍速再生時においては、A/D
変換部2のサンプリング周波数fsADは16KHZで
あり、D/A変換部8のサンプリング周波数fsDAは
8KHZである。このため、音程は元に戻されて出力さ
れる。During double-speed playback of a VTR, the A / D
The sampling frequency fsAD of the converter 2 is 16 KHZ, and the sampling frequency fsDA of the D / A converter 8 is 8 KHZ. Therefore, the pitch is restored and output.
【0051】従来の一般的な時間軸伸長圧縮において
は、VTRの2倍速再生時には圧縮率1/2で、圧縮さ
れる。言い換えれば、2ピッチ周期が1ピッチ周期に間
引かれる。このため、出力音声は標準音声速度の2倍速
となる。つまり、2倍速再生の通常再生では、出力音声
は標準音声速度の2倍速となる。ただし、音程は元のま
まとなる。In the conventional general time-axis expansion compression, compression is performed at a compression rate of 1/2 at the time of double speed reproduction of a VTR. In other words, two pitch periods are thinned out to one pitch period. For this reason, the output sound is twice as fast as the standard sound speed. In other words, in the normal reproduction of the double speed reproduction, the output audio is twice the standard audio speed. However, the pitch remains unchanged.
【0052】これに対し、図2の話速変換部6に設けら
れた上記ピッチ伸長圧縮手段23では、圧縮率が1/2
より大きな値に設定される。ここでは、圧縮率が2/3
に設定されているとする。言い換えれば、3ピッチ周期
が2ピッチ周期に間引かれる。このため、出力音声は、
標準音声速度の3/2倍速となる。この場合も音程は、
元のままである。このように、圧縮率2/3で圧縮され
た場合には、圧縮率1/2の場合に比べて、2/3−1
/2=1/6だけ、信号が伸長されることになる。この
伸長分が、リングメモリ7の蓄積量となる。On the other hand, the pitch expansion / compression means 23 provided in the speech speed converter 6 shown in FIG.
Set to a larger value. Here, the compression ratio is 2/3
Is set to In other words, three pitch periods are thinned out to two pitch periods. Therefore, the output audio is
This is 3/2 times the standard audio speed. Again, the pitch is
It remains as it is. As described above, when the data is compressed at the compression rate of 2/3, it is 2 / 3-1 as compared with the case of the compression rate of 1/2.
The signal will be expanded by / 2 = 1/6. This extension is the amount of storage in the ring memory 7.
【0053】PICOLAを用いて、入力信号を圧縮率
2/3で圧縮する方法について、図3を用いて簡単に説
明する。まず、入力信号からピッチ周期が抽出される。
抽出されたピッチ周期をTpとする。波形Aに対して
は、1から0へ直線的に向かう重み(重み関数K1)が
つけられて、波形A’が作成される。波形Bに対しては
0から1に向かう重み(重み関数K2)がつけられて、
波形B’が作成される。A method of compressing an input signal at a compression ratio of 2/3 using PICOLA will be briefly described with reference to FIG. First, a pitch period is extracted from an input signal.
Let the extracted pitch period be Tp. The waveform A is weighted linearly from 1 to 0 (weight function K1), and a waveform A 'is created. A weight (weight function K2) from 0 to 1 is assigned to the waveform B,
A waveform B 'is created.
【0054】そして、それらの波形A’およびB’が加
え合わされ、長さTpの波形A’*B’が作成される。
これらの重みは、波形A’*B’の前後の接続点での連
続性を保つためにつけられている。つぎに、ポインター
が、圧縮率に基づいて決まる長さである3Tp分だけ移
動され、同様な操作が行なわれる。これにより、3つの
波形A、B、Cから2つの波形A’*B’およびCが得
られる。このようにして、3ピッチ周期分の信号が、2
ピッチ周期分の信号に圧縮される。Then, the waveforms A ′ and B ′ are added to generate a waveform A ′ * B ′ having a length Tp.
These weights are added to maintain continuity at connection points before and after the waveform A '* B'. Next, the pointer is moved by 3Tp, which is a length determined based on the compression ratio, and the same operation is performed. Thus, two waveforms A ′ * B ′ and C are obtained from the three waveforms A, B, and C. In this way, the signal for three pitch periods becomes 2
The signal is compressed to a pitch period signal.
【0055】ピッチ伸長圧縮手段23による伸長圧縮法
としては、図17(a)、(b)に示すように、ピッチ
抽出をすることなく、所定長の固定フレーム長Ts単位
で伸長圧縮処理を行うようにしてもよい。固定フレーム
長Tsは、たとえば入力データの200個分の長さに設
定される。図17の例では、3Tsを2Tsにする例を
示している。As a decompression method by the pitch decompression / compression means 23, as shown in FIGS. 17A and 17B, decompression processing is performed in units of a predetermined fixed frame length Ts without extracting a pitch. You may do so. The fixed frame length Ts is set to, for example, a length of 200 input data. FIG. 17 shows an example in which 3Ts is changed to 2Ts.
【0056】図17(a)の方法では、固定フレーム長
Tsの波形A、B、Cのうち、波形Aに対しては、1か
ら0へ直線的に向かう重み(重み関数K1)がつけられ
て、波形A”が作成される。波形Bに対しては0から1
に向かう重み(重み関数K2)がつけられて、波形B”
が作成される。In the method of FIG. 17 (a), of the waveforms A, B and C having the fixed frame length Ts, the waveform A is given a weight (weight function K1) linearly going from 1 to 0. Thus, a waveform A ″ is created.
Weight (weight function K2) toward the waveform B "
Is created.
【0057】そして、それらの波形A”およびB”が加
え合わされ、長さTsの波形A”*B”が作成される。
これらの重みは、波形A”*B”の前後の接続点での連
続性を保つためにつけられている。そして、次の波形C
に対しては、そのまま出力される。これにより、3つの
波形A、B、Cから2つの波形A”*B”およびCが得
られる。このようにして、3Ts分の信号が、2Ts分
の信号に圧縮される。Then, those waveforms A "and B" are added to create a waveform A "* B" having a length Ts.
These weights are added to maintain continuity at connection points before and after the waveform A "* B". And the next waveform C
Is output as is. As a result, two waveforms A "* B" and C are obtained from the three waveforms A, B, and C. In this way, the signal for 3Ts is compressed into a signal for 2Ts.
【0058】図17(b)の方法では、固定フレーム長
Tsの波形A〜Cのうちの波形Aには先頭からたとえば
20個のデータに0から1へ直線的に向かう重み(重み
関数K3)をつけて波形A”を得る。波形Bには181
個目〜200個目までの入力データに1から0へ直線的
に向かう重み(重み関数K4)をつけて波形B”を得
る。そして、波形Cを削除する。次の3つの波形D〜F
に対しても、同様な処理が行われる。このようにして、
3つの波形A〜C(またはD〜F)からなる信号は、2
つの波形A”およびB”(またはD”およびE”)から
なる信号に圧縮される。つまり、3Ts分の信号が、2
Ts分の信号に圧縮される。In the method shown in FIG. 17 (b), the waveform A of the waveforms A to C having the fixed frame length Ts has a weight (weight function K3) from the top, for example, 20 data points linearly from 0 to 1. To obtain a waveform A ″.
A weight B (weight function K4) that linearly goes from 1 to 0 is applied to the first to 200th input data to obtain a waveform B ". Then, the waveform C is deleted. The following three waveforms D to F
, The same processing is performed. In this way,
A signal consisting of three waveforms AC (or DF) is 2
Compressed into a signal consisting of two waveforms A "and B" (or D "and E"). That is, the signal for 3Ts is 2
It is compressed to a signal of Ts.
【0059】上記固定フレーム長単位での伸長圧縮処理
を用いた場合には、ピッチ周期ごとの伸長圧縮処理を用
いた場合に比べて、音質は低下するが、処理量は軽減さ
れる。When the decompression and compression processing in units of the fixed frame length is used, the sound quality is reduced, but the processing amount is reduced as compared with the case where the decompression and compression processing for each pitch cycle is used.
【0060】なお、この話速変換装置が英語学習器に適
用されている場合には(1倍速再生時)、A/D変換部
2のサンプリング周波数fsADは8KHZであり、D
/A変換部8のサンプリング周波数fsDAは8KHZ
である。この場合には、ピッチ圧縮伸長手段23で、た
とえば、2ピッチ周期が3ピッチ周期になるように、圧
縮率3/2で音声信号が伸長される。つまり、音声区間
が1.5倍に伸長される。したがって、この場合には、
1倍速再生の通常再生時に対して、3/2−1=1/2
だけ信号が伸長されることになり、この伸長分がリング
メモリ7の蓄積量となる。 (2)第2ケース(case2) 入力信号が音声区間であり、かつリングメモリ7がオー
バーフロー直前状態であると判別されたときには、第2
ケースとなる。When this speech speed conversion device is applied to an English language learning device (at the time of 1 × speed reproduction), the sampling frequency fsAD of the A / D converter 2 is 8 KHZ, and
The sampling frequency fsDA of the / A conversion unit 8 is 8 KHZ
It is. In this case, the pitch compression / expansion means 23 expands the audio signal at a compression ratio of 3/2, for example, so that two pitch periods become three pitch periods. That is, the voice section is extended 1.5 times. Therefore, in this case,
3 / 2−1 = 1/2 with respect to the normal playback of 1 × speed playback
Only the signal is expanded, and the expanded amount becomes the storage amount of the ring memory 7. (2) Second case (case 2) When it is determined that the input signal is a voice section and the ring memory 7 is in a state immediately before overflow, the second case
It becomes a case.
【0061】この場合には、音声信号はマルチプレクサ
20を介して、入力信号削除部21に送られ、音声信号
が削除される。具体的には、アップダウンカウンタ9の
カウント値が、アンダーフロー検出用データTmin以
下になるまで、すなわちリングメモリ7がアンダーフロ
ー直前状態になるまで、リングメモリ7への書き込み動
作が停止される。In this case, the audio signal is sent to the input signal deleting section 21 via the multiplexer 20, and the audio signal is deleted. Specifically, the writing operation to the ring memory 7 is stopped until the count value of the up / down counter 9 becomes equal to or less than the underflow detection data Tmin, that is, until the ring memory 7 is in a state immediately before the underflow.
【0062】リングメモリ7がアンダーフロー直前状態
になると、200個以下の個数、例えば100個の消音
信号(値”0”の信号)が消音挿入部22から出力さ
れ、この消音信号がデマルチプレクサ27を介してリン
グメモリ7に送られて書き込まれる。このように、消音
信号をリングメモリ7へ書き込んでいるのは、音声削除
によって音声信号の〓ぎ目にクリック音が発生するのを
防止するためである。 (3)第3ケース(case3) 入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Tdel未満であり、かつリング
メモリ7がオーバーフロー直前状態ではないと判別され
たときには、第3ケースとなる。When the ring memory 7 is in the state immediately before the underflow, 200 or less, for example, 100 muffling signals (signals having a value “0”) are output from the muffling insertion unit 22, and the muffling signals are output from the demultiplexer 27. Is sent to the ring memory 7 via the. The reason why the mute signal is written in the ring memory 7 is to prevent a click sound from being generated at the end of the sound signal due to sound deletion. (3) Third Case (case 3) When it is determined that the input signal is a silent section, the duration of the silent section is less than the set pause duration Tdel, and the ring memory 7 is not in the state immediately before overflow. This is the third case.
【0063】この場合は、上記第1ケースの場合と同じ
処理が行なわれる。ただし、第3ケースに該当する場合
には、再生速度倍率をnとすると、1/nの圧縮率で伸
長圧縮処理を行ってもよい。つまり、第3ケースに該当
する場合には、1/n以上の圧縮率で伸長圧縮処理が行
われる。 (4)第4ケース(case4) 入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Tdel未満であり、かつリング
メモリ7がオーバーフロー直前状態であると判別された
ときには、第4ケースとなる。In this case, the same processing as in the first case is performed. However, in the case of the third case, the expansion / compression processing may be performed at a compression ratio of 1 / n, where n is the reproduction speed magnification. That is, in the third case, the decompression and compression processing is performed at a compression ratio of 1 / n or more. (4) Fourth case (case 4) When it is determined that the input signal is a silent section, the duration of the silent section is less than the set pause duration Tdel, and the ring memory 7 is in a state immediately before overflow. , The fourth case.
【0064】この場合は、上記第2ケースの場合と同じ
処理が行なわれる。 (5)第5ケース(case5) 入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Tdel以上であり、かつリング
メモリ7がアンダーフロー直前状態ではないと判別され
たときには、第5ケースとなる。In this case, the same processing as in the second case is performed. (5) Fifth Case (case 5) It is determined that the input signal is a silent section, the duration of the silent section is longer than the set pause duration Tdel, and the ring memory 7 is not in the state immediately before the underflow. Sometimes it is the fifth case.
【0065】この場合には、音声信号はマルチプレクサ
20を介して、入力信号削除部25に送られ、音声信号
が削除される。具体的には、リングメモリ7への書き込
み動作が停止される。ただし、音声区間のスタート部分
(無声区間)が欠落するのを防止したり、音声の削除に
よって〓ぎ目にクリック音が発生したりするのを防止す
るために、波形合成挿入部26によって波形合成挿入処
理が行なわれる。In this case, the audio signal is sent to the input signal deleting section 25 via the multiplexer 20, and the audio signal is deleted. Specifically, the writing operation to the ring memory 7 is stopped. However, in order to prevent the start part (unvoiced section) of the voice section from being lost, and to prevent a click sound from being generated at a gap due to the deletion of the voice, the waveform synthesis / insertion unit 26 performs waveform synthesis. Insertion processing is performed.
【0066】波形合成挿入部26による波形合成挿入処
理について、図4(a)、(b)を用いて説明する。図
4(a)による方法では、波形合成挿入部26は、第1
メモリ31および第2メモリ32を備えている。入力信
号削除部25による入力信号削除処理の開始時において
は、削除開始点から、1フレーム長以下の所定長さT
s、例えば1フレーム分の入力信号が、第1メモリ31
にアドレス順に順次記憶される。次に、第1メモリ31
のアドレスが大きくなるにしたがって1から0に直線的
に変化する関数K1が、第1メモリ31の内容Aに乗算
される。そして、その乗算結果A’が、再度第1メモリ
31に書き込まれる。The waveform synthesizing and inserting process performed by the waveform synthesizing and inserting unit 26 will be described with reference to FIGS. In the method according to FIG. 4A, the waveform combining and inserting unit 26
A memory 31 and a second memory 32 are provided. At the start of the input signal deletion process by the input signal deletion unit 25, a predetermined length T equal to or less than one frame length from the deletion start point.
s, for example, an input signal for one frame is stored in the first memory 31.
Are sequentially stored in address order. Next, the first memory 31
Is multiplied with the content A of the first memory 31 by a function K1 that linearly changes from 1 to 0 as the address of the first memory 31 increases. Then, the multiplication result A ′ is written into the first memory 31 again.
【0067】また、入力信号削除部25による入力信号
削除区間の終了点直前の所定長さTs分の入力信号が、
第2メモリ32にアドレス順に順次記憶される。次に、
第2メモリ32のアドレスが大きくなるほど、0から1
に直線的に変化する関数K2が、第2メモリ32の内容
Bに乗算される。そして、その乗算結果B’が、再度第
2メモリ32に書き込まれる。この後、第1メモリ31
の内容A’と、第2メモリ32の内容B’とが加え合わ
されて、所定長さTsのデータA’*B’が得られる。
そして、得られた所定長さTs分のデータA’*B’が
デマルチプレクサ27を介して、リングメモリ7に送ら
れ、リングメモリ7に書き込まれる。An input signal of a predetermined length Ts immediately before the end point of the input signal deletion section by the input signal deletion section 25 is
The data is sequentially stored in the second memory 32 in the order of addresses. next,
As the address of the second memory 32 increases, 0 to 1
Is multiplied by the content B of the second memory 32. Then, the multiplication result B ′ is written into the second memory 32 again. Thereafter, the first memory 31
Is added to the content B 'of the second memory 32 to obtain data A' * B 'having a predetermined length Ts.
Then, the obtained data A ′ * B ′ for the predetermined length Ts is sent to the ring memory 7 via the demultiplexer 27 and written into the ring memory 7.
【0068】図4(b)による方法では、削除開始点か
ら、1フレーム長以下の所定長さTs、例えば1フレー
ム分の入力信号が、第1メモリ31にアドレス順に順次
記憶される。次に、後端に1から0に直線的に変化する
スロープがついた関数K3が、第1メモリ31の内容A
に乗算される。そして、その乗算結果A’が、再度第1
メモリ31に書き込まれる。In the method shown in FIG. 4B, input signals of a predetermined length Ts less than one frame length, for example, one frame, are sequentially stored in the first memory 31 in address order from the deletion start point. Next, a function K3 having a slope that changes linearly from 1 to 0 at the rear end is stored in the content A of the first memory 31.
Is multiplied by Then, the multiplication result A ′ is again the first
The data is written to the memory 31.
【0069】また、入力信号削除部25による入力信号
削除区間の終了点直前の所定長さTs分の入力信号が、
第2メモリ32にアドレス順に順次記憶される。次に、
前端に0から1に直線的に変化するスロープがついた関
数K4が、第2メモリ32の内容Bに乗算される。そし
て、その乗算結果B’が、再度第2メモリ32に書き込
まれる。この後、第1メモリ31の内容A’と、第2メ
モリ32の内容B’とが〓ぎ合わされて、2Ts分のの
データA’+B’が得られる。そして、得られた2Ts
分のデータA’+B’がデマルチプレクサ27を介し
て、リングメモリ7に送られ、リングメモリ7に書き込
まれる。図4(b)では、Tsが、1フレーム分の長さ
である例を示したが、1フレームの半分の長さのデータ
をTsとしてもよい。The input signal of a predetermined length Ts immediately before the end point of the input signal deletion section by the input signal deletion section 25 is
The data is sequentially stored in the second memory 32 in the order of addresses. next,
The content B of the second memory 32 is multiplied by a function K4 having a slope linearly changing from 0 to 1 at the front end. Then, the multiplication result B ′ is written into the second memory 32 again. Thereafter, the contents A 'of the first memory 31 and the contents B' of the second memory 32 are joined together to obtain data A '+ B' for 2Ts. And the obtained 2Ts
The minute data A ′ + B ′ is sent to the ring memory 7 via the demultiplexer 27 and written to the ring memory 7. FIG. 4B shows an example in which Ts is the length of one frame, but data having half the length of one frame may be used as Ts.
【0070】なお、入力信号削除部25による無音区間
の音声信号の削除処理が繰り返し行なわれている場合
に、リングメモリ7がアンダーフロー直前状態になるこ
とがある。この場合には、リングメモリ7がアンダーフ
ロー直前状態なったときから、所定長さTs分の入力信
号が第2メモリ32に記憶される。そして、第1メモリ
31に記憶されているデータと、第2メモリ32に記憶
されているデータにもとづいて、上記と同様な波形合成
挿入処理が行なわれる。 (6)第6ケース(case6) 入力信号が無音区間であり、かつ無音区間の継続長が設
定されたポーズ継続長Tdel以上であり、かつリング
メモリ7がアンダーフロー直前状態であると判別された
ときには、第6ケースとなる。When the input signal deleting unit 25 repeatedly performs the process of deleting the audio signal in the silent section, the ring memory 7 may be in a state immediately before the underflow. In this case, the input signal for the predetermined length Ts is stored in the second memory 32 from the time when the ring memory 7 enters the state immediately before the underflow. Then, based on the data stored in the first memory 31 and the data stored in the second memory 32, the same waveform synthesis insertion processing as described above is performed. (6) Sixth case (case 6) It is determined that the input signal is a silent section, the duration of the silent section is longer than the set pause duration Tdel, and the ring memory 7 is in a state immediately before underflow. Sometimes this is the sixth case.
【0071】この場合は、入力信号は、マルチプレクサ
20を介して間引き処理部24に送られる。間引き処理
部24では、VTRの再生速度倍率をnとして、圧縮率
が1/nとなるように間引き処理が行なわれる。たとえ
ば、2倍速再生時には入力信号に対して圧縮率1/2で
間引きが行なわれ、3倍速再生時には入力信号に対して
圧縮率1/3で間引きが行なわれる。1倍速再生時に
は、入力信号がそのまま出力される。In this case, the input signal is sent to the thinning processing section 24 via the multiplexer 20. The thinning-out section 24 performs thinning-out processing so that the compression rate is 1 / n, where n is the reproduction speed magnification of the VTR. For example, at the time of double speed reproduction, the input signal is thinned at a compression rate of 1/2, and at the time of triple speed reproduction, the input signal is thinned at a compression rate of 1/3. During 1 × speed reproduction, the input signal is output as it is.
【0072】1/n間引き処理部24による間引き処理
としては、次のような方法が用いられる。ここでは、2
倍速再生時を例にとって説明する。The following method is used as the thinning processing by the 1 / n thinning processing section 24. Here, 2
A description will be given of the case of double speed reproduction as an example.
【0073】上述したPICOLAまたはTDHSを用
いた時間軸圧縮法を用い、入力信号のピッチを抽出し、
ピッチデータ部分を圧縮率が1/2となるように、間引
く。The pitch of the input signal is extracted using the time axis compression method using PICOLA or TDHS described above,
The pitch data portion is thinned out so that the compression ratio becomes 1/2.
【0074】また、図5(a)〜(c)に示すように、
ピッチ抽出をすることなく、所定時間Tsごとに波形を
間引くようにしてもよい。As shown in FIGS. 5A to 5C,
The waveform may be thinned every predetermined time Ts without performing the pitch extraction.
【0075】図5(a)の方法では、波形A〜Dのう
ち、波形Bおよび波形Dが間引かれ、波形A、Cからな
る信号が得られる。In the method shown in FIG. 5A, the waveforms B and D of the waveforms A to D are thinned out, and a signal composed of the waveforms A and C is obtained.
【0076】図5(b)の方法では、波形A〜Dのう
ち、波形Bと波形Dが間引かれている。また、波形Aに
は、前端に0から1に上昇するスロープ(関数K4)
が、後端に1から0に下降するスロープ(関数K3)が
ついた関数が乗算されて、波形A’が作成される。ま
た、波形Cには、前端に0から1に上昇するスロープ
(関数K4)が、後端に1から0に下降するスロープ
(関数K3)がついた関数が乗算されて、波形C’が作
成される。このようにして、4つの波形A〜Dからなる
信号は、2つの波形A’およびC’からなる信号に圧縮
される。In the method of FIG. 5B, the waveforms B and D are thinned out of the waveforms A to D. The waveform A has a slope rising from 0 to 1 at the front end (function K4).
Is multiplied by a function having a slope (function K3) having a slope falling from 1 to 0 at the rear end to generate a waveform A ′. Further, the waveform C ′ is formed by multiplying the waveform C by a function having a slope (function K4) rising from 0 to 1 at the front end and a slope (function K3) falling from 1 to 0 at the rear end. Is done. In this way, a signal consisting of four waveforms A to D is compressed into a signal consisting of two waveforms A 'and C'.
【0077】図5(c)の方法では、波形Aに対して
は、1から0へ直線的に向かう重み(重み関数K1)が
つけられて、波形A’が作成される。波形Bに対しては
0から1に向かう重み(重み関数K2)がつけられて、
波形B’が作成される。そして、それらの波形A’およ
びB’が加え合わされ、長さTsの波形A’*B’が作
成される。In the method shown in FIG. 5C, the waveform A is weighted linearly from 1 to 0 (weight function K1), and a waveform A 'is created. A weight (weight function K2) from 0 to 1 is assigned to the waveform B,
A waveform B 'is created. Then, those waveforms A ′ and B ′ are added to create a waveform A ′ * B ′ having a length Ts.
【0078】同様に、波形Cに対しては、1から0へ直
線的に向かう重み(関数K1)がつけられて、波形C’
が作成される。波形Dに対しては0から1に向かう重み
(関数K2)がつけられて、波形D’が作成される。そ
して、それらの波形C’およびD’が加え合わされ、長
さTsの波形C’*D’が作成される。このようにし
て、4つの波形A〜Dからなる信号は、2つの波形A’
*B’およびC’*D’からなる信号に圧縮される。Similarly, the waveform C is given a weight (function K1) linearly going from 1 to 0, and the waveform C ′
Is created. The waveform D 'is weighted from 0 to 1 (function K2) to generate a waveform D'. Then, those waveforms C ′ and D ′ are added to create a waveform C ′ * D ′ having a length Ts. In this way, a signal consisting of four waveforms A to D becomes two waveforms A '
It is compressed into a signal consisting of * B 'and C' * D '.
【0079】上述のように、第6ケースに該当する場合
には、VTRの再生倍率をnとして、圧縮率1/nで間
引き処理が行われているが、次のようにして圧縮率を制
御するようにしてもよい。As described above, in the case corresponding to the sixth case, the thinning-out process is performed at a compression ratio of 1 / n, where n is the reproduction magnification of the VTR, but the compression ratio is controlled as follows. You may make it.
【0080】圧縮率1/nで間引き処理が行われている
場合、D/A変換器8のサンプリング周波数fsDAと
A/D変換器2のサンプリング周波数fsADとの比f
sDA/fsADが、圧縮率1/nと等しい場合には、
リングメモリ7の蓄積量は、変化しない。しかしなが
ら、圧縮率1/nの演算精度、サンプリング周波数fs
ADとfsDAのクロック精度によっては、fsDA/
fsADが圧縮率1/nと等しくならないことが起こり
うる。When the decimation process is performed at a compression ratio of 1 / n, the ratio f between the sampling frequency fsDA of the D / A converter 8 and the sampling frequency fsAD of the A / D converter 2 is obtained.
When sDA / fsAD is equal to the compression ratio 1 / n,
The storage amount of the ring memory 7 does not change. However, the calculation accuracy of the compression ratio 1 / n and the sampling frequency fs
Depending on the clock accuracy of AD and fsDA, fsDA /
It is possible that fsAD does not equal the compression ratio 1 / n.
【0081】fsDA/fsADが圧縮率1/nより大
きくなったとき(fsDA/fsAD>1/n)には、
fsDA/fsAD=1/a(a>0)として、{(1
/a)−(1/n)}だけ、圧縮率が小さくなり、間引
きの度合いが大きくなり、リングメモリ7の蓄積量が減
少していき、リングメモリ7の蓄積量がアンダーフロー
するおそれがある。When fsDA / fsAD becomes larger than the compression ratio 1 / n (fsDA / fsAD> 1 / n),
Assuming that fsDA / fsAD = 1 / a (a> 0), {(1
/ A)-(1 / n)}, the compression ratio decreases, the degree of thinning increases, the storage amount of the ring memory 7 decreases, and the storage amount of the ring memory 7 may underflow. .
【0082】一方、 fsDA/fsADが圧縮率1/
nより小さくなったとき(fsDA/fsAD<1/
n)には、fsDA/fsAD=1/a(a>0)とし
て、{(1/n)−(1/a)}だけ、圧縮率が大きく
なり、間引きの度合いが小さくなり、リングメモリ7の
蓄積量が増加していく。On the other hand, fsDA / fsAD is equal to the compression ratio 1 /
n (fsDA / fsAD <1 /
In n), assuming that fsDA / fsAD = 1 / a (a> 0), the compression ratio increases by {(1 / n)-(1 / a)}, the degree of thinning decreases, and the ring memory 7 Is increasing.
【0083】したがって、間引き処理を行う場合には、
リングメモリ7の蓄積量を確認して、次のように圧縮率
を制御する。fsDA/fsAD=1/a(a>0)と
して、(1/n)−α<1/a<(1/n)+αの条件
を満たすαを選定する。ただし、αは、0以上で1以下
の値であり、例えば0.001〜0.1の範囲の値であ
る。Therefore, when performing the thinning process,
After confirming the storage amount of the ring memory 7, the compression ratio is controlled as follows. As fsDA / fsAD = 1 / a (a> 0), α that satisfies the condition of (1 / n) −α <1 / a <(1 / n) + α is selected. Here, α is a value of 0 or more and 1 or less, for example, a value in a range of 0.001 to 0.1.
【0084】fsDA/fsADが圧縮率1/nより大
きくなったとき、すなわち、リングメモリ7の蓄積量が
減少していく場合には、圧縮率を1/nから{(1/
n)+α}にする。つまり、圧縮率を大きくし、リング
メモリ7の蓄積量を増加させるようにする。When fsDA / fsAD becomes larger than the compression ratio 1 / n, that is, when the storage amount of the ring memory 7 decreases, the compression ratio is increased from 1 / n to {(1 /
n) + α}. That is, the compression ratio is increased, and the amount of storage in the ring memory 7 is increased.
【0085】fsDA/fsADが圧縮率1/nより小
さくなったとき、すなわち、リングメモリ7の蓄積量が
増加していく場合には、圧縮率を1/nから{(1/
n)−α}にする。つまり、圧縮率を小さくし、リング
メモリ7の蓄積量を減少させるようにする。When fsDA / fsAD becomes smaller than the compression ratio 1 / n, that is, when the storage amount of the ring memory 7 increases, the compression ratio is increased from 1 / n to {(1 / n).
n) -α}. That is, the compression ratio is reduced, and the amount of storage in the ring memory 7 is reduced.
【0086】上記では、リングメモリ7の蓄積量に基づ
いて、圧縮率を変化させているが、間引き処理が行われ
る場合に、フレーム毎に圧縮率を{(1/n)−α}ま
たは{(1/n)+α}に、交互に変化させるようにし
てもよい。In the above description, the compression ratio is changed based on the storage amount of the ring memory 7, but when the thinning process is performed, the compression ratio is set to {(1 / n) -α} or { (1 / n) + α} may be alternately changed.
【0087】図6および図7は、話速変換部6による処
理手順を示している。FIGS. 6 and 7 show the processing procedure by the speech speed converter 6.
【0088】以下、VTRの2倍速再生時の場合の話速
変換部6による処理について、説明する。 (1)再生開始時の処理 再生が開始されて、パワー計算部11によって最初のフ
レームの平均パワー値Pが算出されると(ステップ
1)、算出された平均パワー値Pがしきい値Th以上か
否かが比較部12の出力に基づいて判別される(ステッ
プ2)。The processing performed by the speech speed conversion unit 6 in the case of double speed reproduction of a VTR will be described below. (1) Processing at Start of Reproduction When reproduction is started and the average power value P of the first frame is calculated by the power calculation unit 11 (step 1), the calculated average power value P is equal to or larger than the threshold Th. Whether it is or not is determined based on the output of the comparison unit 12 (step 2).
【0089】入力音声信号が無音区間から開始した場
合、最初のフレームにおいては、平均パワー値Pはしき
い値Thより小さくなり、ステップ11に進む。そし
て、無音区間の継続長(無音区間が継続するフレーム
数)が算出され、算出された継続長がポーズ継続長メモ
リ17に設定されているポーズ継続長Tdel以上か否
かが判別される(ステップ12)。このポーズ継続長T
delは、たとえば、フレーム数にして4フレーム分の
長さに設定されている。When the input speech signal starts from a silent section, in the first frame, the average power value P becomes smaller than the threshold value Th, and the process proceeds to step S11. Then, the duration of the silent section (the number of frames in which the silent section continues) is calculated, and it is determined whether or not the calculated duration is equal to or longer than the pause duration Tdel set in the pause duration memory 17 (step). 12). This pause continuation length T
“del” is set to, for example, a length of four frames in terms of the number of frames.
【0090】最初のフレームに対する処理においては、
無音区間の継続長がポーズ継続長Tdel未満であるの
で、リングメモリ蓄積量状態判別部16の出力に基づい
て、リングメモリ7がアンダーフロー直前状態か否かが
判別される(ステップ13、14)。In the processing for the first frame,
Since the continuation length of the silent section is less than the pause continuation length Tdel, it is determined whether or not the ring memory 7 is in the state immediately before the underflow based on the output of the ring memory storage amount state determination unit 16 (steps 13 and 14). .
【0091】最初のフレームに対する処理においては、
リングメモリ7は、アンダーフロー直前状態になってい
るので、フレームデータが間引き処理部24によって圧
縮率1/2で間引かれ(ステップ28)、間引き処理後
の圧縮データがリングメモリ7に書き込まれる。この
後、ステップ1に戻る。 (2)第1ケースとなる処理の説明 ステップ2で、平均パワー値Pがしきい値Th以上であ
ると判別されたときには、今回のフレームが音声区間で
あると判断され、ステップ3に進む。ステップ3では、
前フレームが削除区間であったか否かが、第1フラグF
1の状態に基づいて判別される。前フレームが削除区間
でない場合には、リングメモリ蓄積量状態判別部16の
出力に基づいて、リングメモリ7がオーバーフロー直前
状態か否かが判別される(ステップ6、7)。前フレー
ムが削除区間である場合には、ステップ4および5の処
理が行なわれた後、リングメモリ7がオーバーフロー直
前状態か否かが判別される(ステップ6、7)。ステッ
プ4および5の処理については、後述する。In the processing for the first frame,
Since the ring memory 7 is in a state immediately before the underflow, the frame data is thinned out by the thinning-out processing unit 24 at a compression ratio of 1/2 (step 28), and the compressed data after the thinning-out processing is written to the ring memory 7. . Thereafter, the process returns to step 1. (2) Description of the Process in the First Case In step 2, when it is determined that the average power value P is equal to or larger than the threshold Th, it is determined that the current frame is a voice section, and the process proceeds to step 3. In step 3,
Whether or not the previous frame was a deletion section is determined by the first flag F
1 is determined based on the state. If the previous frame is not a deletion section, it is determined whether or not the ring memory 7 is in the state immediately before overflow based on the output of the ring memory storage amount state determination unit 16 (steps 6 and 7). If the previous frame is a section to be deleted, after the processes of steps 4 and 5 are performed, it is determined whether or not the ring memory 7 is in a state immediately before overflow (steps 6 and 7). Steps 4 and 5 will be described later.
【0092】ステップ7において、オーバーフロー直前
状態ではないと判別された場合には、第1ケースとな
り、ピッチ圧縮伸長手段23によって、今回のフレーム
データが2/3の圧縮率で時間軸圧縮される(ステップ
8)。圧縮データは、リングメモリ7に送られて書き込
まれる。この後、ステップ1に戻る。 (2)第2ケースとなる処理の説明 ステップ2で、平均パワー値Pがしきい値Th以上であ
ると判別されたときには、今回送られてきたフレームは
音声区間であると判断され、ステップ3に進む。ステッ
プ3では、前フレームが削除区間であったか否かが、第
1フラグF1の状態に基づいて判別される。前フレーム
が削除区間でない場合には、リングメモリ蓄積量状態判
別部16の出力に基づいて、リングメモリ7がオーバー
フロー直前状態か否かが判別される(ステップ6、
7)。前フレームが削除区間である場合には、ステップ
4および5の処理が行なわれた後、リングメモリ7がオ
ーバーフロー直前状態か否かが判別される(ステップ
6、7)。ステップ4および5の処理については、後述
する。If it is determined in step 7 that the current state is not the state immediately before the overflow, the first case occurs, and the pitch compression / expansion means 23 compresses the current frame data on the time axis at a compression ratio of 2/3 ( Step 8). The compressed data is sent to and written to the ring memory 7. Thereafter, the process returns to step 1. (2) Description of the Second Case Process When it is determined in step 2 that the average power value P is equal to or greater than the threshold Th, the frame transmitted this time is determined to be a voice section, and step 3 is performed. Proceed to. In step 3, it is determined whether or not the previous frame is a deletion section based on the state of the first flag F1. If the previous frame is not the deletion section, it is determined whether or not the ring memory 7 is in the state immediately before the overflow based on the output of the ring memory storage amount state determination unit 16 (step 6,
7). If the previous frame is a section to be deleted, after the processes of steps 4 and 5 are performed, it is determined whether or not the ring memory 7 is in a state immediately before overflow (steps 6 and 7). Steps 4 and 5 will be described later.
【0093】ステップ7において、オーバーフロー直前
状態であると判別された場合には、第2ケースとなり、
リングメモリ蓄積量状態判別部16からアンダーフロー
検出信号が出力されるまで、入力信号削除部21によっ
て入力信号が削除される(ステップ9)。つまり、リン
グメモリ7がアンダーフロー直前状態になるまで、リン
グメモリ7への書き込みが停止される。If it is determined in step 7 that the state is just before the overflow, the second case occurs,
The input signal is deleted by the input signal deletion unit 21 until the underflow detection signal is output from the ring memory storage amount state determination unit 16 (step 9). That is, writing to the ring memory 7 is stopped until the ring memory 7 is in a state immediately before underflow.
【0094】そして、リングメモリ7がアンダーフロー
直前状態になると、消音挿入部22によって、200個
以下の所定数の消音信号”0”がリングメモリ7に書き
込まれる(ステップ10)。そして、ステップ1に戻
る。When the ring memory 7 is in the state immediately before underflow, the silence insertion section 22 writes a predetermined number of silence signals "0" of 200 or less into the ring memory 7 (step 10). Then, the process returns to step 1.
【0095】上記ステップ10の処理の代わりに、図9
(a)または図9(b)に示すような処理を行なっても
よい。図9(a)に示す方法について説明すると、ステ
ップ7でオーバーフロー直前状態と判別されたときか
ら、たとえば、200個の入力信号に対する波形Aに対
しては、1から0へ直線的に向かう重み(重み関数K
1)をつけて波形A’を得る。また、アンダーフロー直
前から200個前までの200個の入力信号に対する波
形Bに対しては0から1に向かう重み(重み関数K2)
をつけて、波形B’を得る。Instead of the processing in step 10 described above, FIG.
The processing shown in FIG. 9A or FIG. 9B may be performed. The method shown in FIG. 9A will be described. From the time when it is determined in step 7 that the state is immediately before the overflow, for example, for the waveform A corresponding to 200 input signals, the weight (linear) going from 1 to 0 linearly ( Weight function K
1) is applied to obtain a waveform A '. In addition, for waveform B corresponding to 200 input signals from immediately before the underflow to 200 before the underflow, weights from 0 to 1 (weight function K2)
To obtain a waveform B ′.
【0096】そして、得られた2つの波形A’および
B’を加え合わせて、200個分の長さの波形A’*
B’を作成する。そして、この波形A’*B’に対する
200個の信号をリングメモリ7に書き込む。なお、ア
ンダーフロー直前から200個前の時点の検出は、アッ
プダウンカウンタ9のカウント値に基づいて行なわれ
る。これにより、音声削除区間の前後の音声信号の〓ぎ
目にクリック音が発生するのを、効果的に防止できる。Then, the obtained two waveforms A ′ and B ′ are added to form a waveform A ′ * of 200 lengths.
Create B '. Then, 200 signals for this waveform A ′ * B ′ are written in the ring memory 7. The detection 200 times before the immediately before the underflow is performed based on the count value of the up / down counter 9. As a result, it is possible to effectively prevent a click sound from being generated at a gap between audio signals before and after the audio deletion section.
【0097】図9(b)に示す方法について説明する
と、ステップ7でオーバーフロー直前状態と判別された
ときから、たとえば、100個の入力信号に対する波形
Aに対しては、1から0へ直線的に向かう重み(重み関
数K1)をつけて波形A’を得る。また、アンダーフロ
ー直前から100個前までの100個の入力信号に対す
る波形Bに対しては0から1に向かう重み(重み関数K
2)をつけて、波形B’を得る。そして、得られた2つ
の波形A’およびB’を〓ぎ合わせた200個分の信号
をリングメモリ7に書き込む。The method shown in FIG. 9B will be described. When it is determined in step 7 that the state is immediately before the overflow, for example, the waveform A for 100 input signals is linearly changed from 1 to 0. A weight A (weight function K1) is applied to obtain a waveform A '. Also, for waveform B for 100 input signals from immediately before the underflow to 100 before, the weights from 0 to 1 (weight function K
By adding 2), a waveform B 'is obtained. Then, 200 signals obtained by combining the obtained two waveforms A ′ and B ′ are written in the ring memory 7.
【0098】上記ステップ9では、オーバーフロー直前
状態であると判別された場合には、リングメモリ蓄積量
状態判別部16からアンダーフロー検出信号が出力され
るまで、入力信号削除部21によって入力信号が削除さ
れているが、リングメモリ7に蓄積されているデータ
を、リングメモリ7がアンダーフロー直前状態になるよ
うに、削除するようにしてもよい。In step 9 described above, if it is determined that the state is immediately before the overflow, the input signal is deleted by the input signal deletion unit 21 until the underflow detection signal is output from the ring memory storage state determination unit 16. However, the data stored in the ring memory 7 may be deleted so that the ring memory 7 is in a state immediately before the underflow.
【0099】具体的には、リングメモリ7の書込開始ア
ドレスを、図18(a)に示すオーバーフロー直前状態
の時のアドレス(C地点)から、図18(b)に示すよ
うにリングメモリ7がアンダーフロー直前状態となるア
ドレス(A地点)までジャンプさせる。したがって、ス
テップ9の処理では、A地点からC地点までのアドレス
に蓄積されていたデータが削除されることになる。この
後、図18(c)に示すように、ステップ10によって
消音信号が書き込まれた後、入力データが書き込まれて
いく。More specifically, the write start address of the ring memory 7 is changed from the address (point C) in the state immediately before the overflow shown in FIG. 18A, as shown in FIG. Is jumped to the address (point A) where the state immediately before the underflow occurs. Therefore, in the process of step 9, the data stored at the addresses from the point A to the point C is deleted. Thereafter, as shown in FIG. 18C, after the mute signal is written in step 10, the input data is written.
【0100】ステップ9において、上記のように、リン
グメモリ7に蓄積されているデータをリングメモリ7が
アンダーフロー直前状態になるように削除した場合、ス
テップ10で消音信号をリングメモリ7に書き込む代わ
りに図19(a)または図19(b)のような処理を行
ってもよい。If the data stored in the ring memory 7 is deleted in step 9 so that the ring memory 7 is in the state immediately before the underflow, as described above, the mute signal is written in the ring memory 7 in step 10. 19 (a) or FIG. 19 (b).
【0101】今、リングメモリ7の書込開始アドレス
が、図18(a)に示すオーバーフロー直前状態の時の
アドレス(C地点)から、図18(b)に示すようにリ
ングメモリ7がアンダーフロー直前状態となるアドレス
(A地点)までジャンプしたとする。このA地点から所
定数、例えば200先のアドレス(図19(a)のB地
点)までに蓄積されているデータSに対しては、図19
(a)に示すように、1から0へ直線的に向かう重み
(重み関数K1)をつけて波形S’を得る。また、それ
以後にリングメモリ7に書き込まれる200個分の入力
データ(波形T)に対しては、図19(a)に示すよう
に、0から1に向かう重み(重み関数K2)をつけて、
波形T’を得る。Now, as shown in FIG. 18B, the write start address of the ring memory 7 is changed from the address (point C) in the state immediately before the overflow shown in FIG. It is assumed that the user jumps to the address (point A) in the immediately preceding state. For data S stored from a point A to a predetermined number, for example, an address 200 points ahead (point B in FIG. 19A), FIG.
As shown in (a), a waveform S ′ is obtained by applying a weight (weight function K1) linearly going from 1 to 0. Further, as shown in FIG. 19A, a weight (weight function K2) from 0 to 1 is applied to 200 pieces of input data (waveform T) written to the ring memory 7 thereafter. ,
A waveform T 'is obtained.
【0102】そして、得られた2つの波形S’および
T’を加え合わせて、200個分の長さの波形S’*
T’を作成する。そして、この波形S’*T’に対する
200個の信号をA地点からリングメモリ7に書き込
む。これにより、蓄積データ削除区間の前後の音声信号
の〓ぎ目にクリック音が発生するのを、効果的に防止で
きる。Then, the obtained two waveforms S ′ and T ′ are added together, and a waveform S ′ * having a length of 200
Create T '. Then, 200 signals for this waveform S ′ * T ′ are written into the ring memory 7 from the point A. As a result, it is possible to effectively prevent a click sound from being generated at a gap between audio signals before and after the storage data deletion section.
【0103】図19(b)に示す方法について説明する
と、図18(b)のA地点から所定数、例えば100個
先のアドレス(図19(b)のB地点)までに蓄積され
ているデータSに対しては、1から0へ直線的に向かう
重み(重み関数K1)をつけて波形S’を得る。また、
それ以後にリングメモリ7に書き込まれる100個分の
入力データ(波形T)に対しては、0から1に向かう重
み(重み関数K2)をつけて、波形T’を得る。そし
て、得られた2つの波形S’およびT’を〓ぎ合わせた
200個分の信号をA地点からリングメモリ7に書き込
む。 (3)第3ケースとなる処理の説明 ステップ2で平均パワー値Pがしきい値Thより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され(ステップ11)、算出された継続長がポーズ
継続長メモリ17に設定されているポーズ継続長Tde
l以上か否かが判別される(ステップ12)。そして、
無音区間の継続長がポーズ継続長Tdel未満であると
判別された場合には、リングメモリ蓄積量状態判別部1
6の出力に基づいて、アンダーフロー直前状態か否かが
判別される(ステップ13、14)。The method shown in FIG. 19B will be described. Data stored from a point A in FIG. 18B to a predetermined number of addresses, for example, 100 addresses ahead (point B in FIG. 19B). S is weighted linearly from 1 to 0 (weight function K1) to obtain a waveform S '. Also,
Thereafter, a weight (weight function K2) from 0 to 1 is applied to 100 pieces of input data (waveform T) written to the ring memory 7 to obtain a waveform T '. Then, 200 signals obtained by combining the obtained two waveforms S ′ and T ′ are written into the ring memory 7 from the point A. (3) Description of the process as the third case When it is determined in step 2 that the average power value P is smaller than the threshold Th, the continuation length of the silent section up to this time is calculated (step 11) and calculated. Pause duration Tde whose duration is set in the pause duration memory 17
It is determined whether it is equal to or greater than 1 (step 12). And
If it is determined that the duration of the silent section is less than the pause duration Tdel, the ring memory storage amount state determination unit 1
Based on the output of No. 6, it is determined whether or not the state is immediately before underflow (steps 13 and 14).
【0104】リングメモリ7がアンダーフロー直前状態
になっていないときには、リングメモリ蓄積量状態判別
部16の出力に基づいて、オーバーフロー直前状態か否
かが判別される(ステップ6、7)。オーバーフロー直
前状態でない場合には、第3ケースとなり、ピッチ圧縮
伸長手段23によって、今回のフレームデータが2/3
の圧縮率で時間軸圧縮される(ステップ8)。圧縮デー
タは、リングメモリ7に送られて書き込まれる。この
後、ステップ1に戻る。 (4)第4ケースとなる処理の説明 ステップ2で平均パワー値Pがしきい値Thより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され(ステップ11)、算出された継続長がポーズ
継続長メモリ17に設定されているポーズ継続長Tde
l以上か否かが判別される(ステップ12)。そして、
無音区間の継続長がポーズ継続長Tdel未満であると
判別された場合には、リングメモリ蓄積量状態判別部1
6の出力に基づいて、アンダーフロー直前状態か否かが
判別される(ステップ13、14)。When the ring memory 7 is not in the state immediately before the underflow, it is determined whether or not the state is immediately before the overflow based on the output of the ring memory storage amount state determination section 16 (steps 6 and 7). If the state is not the state immediately before the overflow, a third case occurs, and the pitch compression / expansion means 23 determines that the current frame data is 2/3.
(Step 8). The compressed data is sent to and written to the ring memory 7. Thereafter, the process returns to step 1. (4) Description of Processing in Fourth Case When it is determined in step 2 that the average power value P is smaller than the threshold value Th, the continuation length of the silent section up to this time is calculated (step 11). Pause duration Tde whose duration is set in the pause duration memory 17
It is determined whether it is equal to or greater than 1 (step 12). And
If it is determined that the duration of the silent section is less than the pause duration Tdel, the ring memory storage amount state determination unit 1
Based on the output of No. 6, it is determined whether or not the state is immediately before underflow (steps 13 and 14).
【0105】リングメモリ7がアンダーフロー直前状態
になっていないときには、リングメモリ蓄積量状態判別
部16の出力に基づいて、オーバーフロー直前状態か否
かが判別される(ステップ6、7)。オーバーフロー直
前状態である場合には、第4ケースとなり、リングメモ
リ蓄積量状態判別部16からアンダーフロー検出信号が
出力されるまで、入力信号削除部21によって入力信号
が削除される(ステップ9)。つまり、リングメモリ7
がアンダーフロー直前状態になるまで、リングメモリ7
への書き込みが中断される。If the ring memory 7 is not in the state immediately before underflow, it is determined whether or not it is in the state immediately before overflow based on the output of the ring memory storage amount state determination section 16 (steps 6 and 7). If the state is immediately before the overflow, the fourth case occurs, and the input signal is deleted by the input signal deletion unit 21 until the underflow detection signal is output from the ring memory storage amount state determination unit 16 (step 9). That is, the ring memory 7
Ring memory 7 until
Writing to is interrupted.
【0106】そして、リングメモリ7がアンダーフロー
直前状態になると、消音挿入部22によって、200個
以下の所定数の消音信号”0”がリングメモリ7に書き
込まれる(ステップ10)。そして、ステップ1に戻
る。 (5)第5ケースとなる処理の説明 ステップ2で平均パワー値Pがしきい値Thより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され(ステップ11)、算出された継続長がポーズ
継続長メモリ17に設定されているポーズ継続長Tde
l以上か否かが判別される(ステップ12)。そして、
無音区間の継続長がポーズ継続長Tdel以上であると
判別された場合には、リングメモリ蓄積量状態判別部1
6の出力に基づいて、アンダーフロー直前状態か否かが
判別される(ステップ15、16)。When the ring memory 7 is in the state immediately before underflow, the silence insertion section 22 writes a predetermined number of silence signals "0" of 200 or less into the ring memory 7 (step 10). Then, the process returns to step 1. (5) Description of Process as Fifth Case When it is determined in step 2 that the average power value P is smaller than the threshold Th, the continuation length of the silent section up to this time is calculated (step 11) and calculated. Pause duration Tde whose duration is set in the pause duration memory 17
It is determined whether it is equal to or greater than 1 (step 12). And
When it is determined that the duration of the silent section is equal to or longer than the pause duration Tdel, the ring memory storage amount state determination unit 1
6, it is determined whether or not the state is immediately before the underflow (steps 15 and 16).
【0107】リングメモリ7がアンダーフロー直前状態
でないときには、第5ケースとなり、今回のフレームが
入力信号削除部25による削除区間であることを示す第
1フラグF1がセットされる(ステップ17)。この第
1フラグF1は、電源投入時の初期設定において、リセ
ット(F1=0)されている。そして、今回のフレーム
が入力信号削除部25による削除区間の最初のフレーム
であるか否かを示す第2フラグF2がリセットされてい
るか否かが判別される(ステップ18)。When the ring memory 7 is not in the state immediately before the underflow, the fifth case is set, and the first flag F1 indicating that the current frame is a deletion section by the input signal deletion section 25 is set (step 17). The first flag F1 has been reset (F1 = 0) in the initial setting when the power is turned on. Then, it is determined whether or not the second flag F2 indicating whether or not the current frame is the first frame of the deletion section by the input signal deletion unit 25 has been reset (step 18).
【0108】この第2フラグF2は、電源投入時の初期
設定において、リセット(F2=0)されている。そし
て、入力信号削除部25による削除区間の最初のフレー
ムに対する処理が終了したときにセット(F2=1)に
される。そして、入力信号削除部25による一連の削除
区間に対する処理が終了したときにリセット(F2=
0)される。The second flag F2 has been reset (F2 = 0) in the initial setting when the power is turned on. Then, when the processing for the first frame of the deletion section by the input signal deletion unit 25 is completed, it is set to (F2 = 1). Then, when the processing for a series of deletion sections by the input signal deletion unit 25 is completed, reset (F2 =
0).
【0109】したがって、今回のフレームが入力信号削
除部25による削除区間の最初のフレームであるときに
は、第2フラグF2は、リセット(F2=0)されてい
る。第2フラグF2がリセットされているときには、波
形合成挿入部26によって第1メモリ31に今回のフレ
ームデータが記憶される(ステップ19)。また、入力
信号削除部25によって今回のフレームデータのリング
メモリ7への書き込みが停止される(ステップ20)。
つまり、今回のフレームデータが削除される。そして、
第2フラグF2がセット(F2=1)された後(ステッ
プ21)、ステップ1に戻る。Therefore, when the current frame is the first frame of the section to be deleted by the input signal deleting section 25, the second flag F2 is reset (F2 = 0). When the second flag F2 is reset, the current frame data is stored in the first memory 31 by the waveform synthesis insertion unit 26 (step 19). Further, the writing of the current frame data to the ring memory 7 is stopped by the input signal deleting unit 25 (step 20).
That is, the current frame data is deleted. And
After the second flag F2 is set (F2 = 1) (Step 21), the process returns to Step 1.
【0110】さらに、無音区間が続いている場合には、
ステップ2、11、12、15を通ってステップ16に
移り、リングメモリ蓄積量状態判別部16の出力に基づ
いて、リングメモリ7がアンダーフロー直前状態か否か
が判別される。Further, when a silent section continues,
The process proceeds to Step 16 through Steps 2, 11, 12, and 15, and it is determined whether or not the ring memory 7 is in the state immediately before the underflow based on the output of the ring memory storage amount state determination unit 16.
【0111】リングメモリ7がアンダーフロー直前状態
でないときには、今回のフレームが入力信号削除部25
による削除区間であることを示す第1フラグF1がセッ
トされる(ステップ17)。そして、今回のフレームが
入力信号削除部25による削除区間の最初のフレームで
あるか否かを示す第2フラグF2がリセットされている
か否かが判別される(ステップ18)。When the ring memory 7 is not in the state immediately before the underflow, the current frame is stored in the input signal deleting section 25.
A first flag F1 indicating that the section is a deletion section is set (step 17). Then, it is determined whether or not the second flag F2 indicating whether or not the current frame is the first frame of the deletion section by the input signal deletion unit 25 has been reset (step 18).
【0112】この場合には、第2フラグF2はセット
(F2=1)されているので、今回のフレームが入力信
号削除部25による削除区間の最初のフレームでないと
判断される。この場合には、波形合成挿入部26によっ
て第2メモリ32に今回のフレームデータが記憶される
(ステップ22)。また、入力信号削除部25によって
今回のフレームデータのリングメモリ7への書き込みが
停止される(ステップ23)。そして、ステップ1に戻
る。In this case, since the second flag F2 is set (F2 = 1), it is determined that the current frame is not the first frame of the deletion section by the input signal deletion unit 25. In this case, the current frame data is stored in the second memory 32 by the waveform synthesis insertion unit 26 (step 22). Further, the writing of the current frame data to the ring memory 7 is stopped by the input signal deleting unit 25 (step 23). Then, the process returns to step 1.
【0113】そして、さらに、無音区間が続きかつリン
グメモリ7がアンダーフロー直前状態となっていないと
きには、ステップ2、11、12、15、16、17、
18、22および23の処理が繰り返される。つまり、
第2メモリ32のフレームデータが更新されるととも
に、フレームデータのリングメモリ7への書き込みが停
止される。When the silent section continues and the ring memory 7 is not in the state immediately before the underflow, steps 2, 11, 12, 15, 16, 17, and
The processing of 18, 22, and 23 is repeated. That is,
The frame data in the second memory 32 is updated, and the writing of the frame data to the ring memory 7 is stopped.
【0114】この後、音声区間のフレームデータが入力
されたときには、ステップ2において、平均パワー値P
がしきい値Th以上となるので、前フレームが入力信号
削除部25による削除区間であったか否かが、第1フラ
グF1状態に基づいて判別される(ステップ3)。この
場合には、第1フラグF1がセット(F1=1)されて
いるので、前フレームが入力信号削除部25による削除
区間であったと判別され、ステップ4に移る。ステップ
4では、入力信号削除部25による削除処理が停止せし
められるとともに、波形合成挿入部26による波形合成
挿入処理が行なわれる。After that, when the frame data of the voice section is input, in step 2, the average power value P
Is greater than or equal to the threshold Th, it is determined based on the state of the first flag F1 whether or not the previous frame was a deletion section by the input signal deletion unit 25 (step 3). In this case, since the first flag F1 is set (F1 = 1), it is determined that the previous frame was a deletion section by the input signal deletion unit 25, and the process proceeds to Step 4. In step 4, the deletion process by the input signal deletion unit 25 is stopped, and the waveform synthesis insertion process by the waveform synthesis insertion unit 26 is performed.
【0115】すなわち、図4(a)を用いて既に説明し
たように、第1メモリ31の内容に1から0に直線的に
変化する関数が乗算され、第2メモリ32の内容に0か
ら1に直線的に変化する関数が乗算され、これらの両乗
算結果が加え合わされる。この加算結果(図4(a)の
A’*B’に相当する。)が、デマルチプレクサ27を
介して、リングメモリ7に送られ、リングメモリ7に書
き込まれる。That is, as already described with reference to FIG. 4A, the content of the first memory 31 is multiplied by a function that changes linearly from 1 to 0, and the content of the second memory 32 is multiplied by 0 to 1 Is multiplied by a function that changes linearly, and the results of both multiplications are added. The result of this addition (corresponding to A ′ * B ′ in FIG. 4A) is sent to the ring memory 7 via the demultiplexer 27 and written into the ring memory 7.
【0116】この後、第1フラグF1および第2フラグ
F2がリセット(F1=F2=0)される(ステップ
5)。そして、ステップ6に進む。Thereafter, the first flag F1 and the second flag F2 are reset (F1 = F2 = 0) (step 5). Then, the process proceeds to Step 6.
【0117】ところで、連続している無音区間に対し
て、上記のような入力信号削除部25による削除処理が
繰り返し行なわれている場合において、リングメモリ7
がアンダーフロー直前状態になることがある。この場合
には、上記ステップ16でYESとなり、ステップ24
に移る。ステップ24では、前フレームが入力信号削除
部25による削除区間であったか否かが、第1フラグF
1の状態に基づいて判別される。By the way, in the case where the above-described deletion processing by the input signal deletion unit 25 is repeatedly performed on the continuous silent section, the ring memory 7
May be in the state immediately before underflow. In this case, the result of step 16 is YES, and the
Move on to In step 24, it is determined whether or not the previous frame is a deletion section by the input signal deletion unit 25 by the first flag F.
1 is determined based on the state.
【0118】この場合には、第1フラグF1がセット
(F1=1)されているので、ステップ25に進み、第
2メモリ32に今回のフレームデータが記憶される。そ
して、入力信号削除部25による削除処理が停止せしめ
られるとともに、波形合成挿入部26による波形合成挿
入処理が行なわれる(ステップ26)。そして、第1フ
ラグF1および第2フラグF2がリセット(F1=F2
=0)された後(ステップ27)、ステップ1に進む。In this case, since the first flag F1 has been set (F1 = 1), the routine proceeds to step 25, where the current frame data is stored in the second memory 32. Then, the deletion processing by the input signal deletion unit 25 is stopped, and the waveform synthesis insertion processing by the waveform synthesis insertion unit 26 is performed (step 26). Then, the first flag F1 and the second flag F2 are reset (F1 = F2
= 0) (step 27), and then proceed to step 1.
【0119】上記ステップ26における波形合成挿入部
26による波形合成挿入処理には、上記ステップ4で説
明した波形合成挿入処理とほぼ同様であるが、第2メモ
リ32に記憶されているフレームデータが、リングメモ
リ7がアンダーフロー直前状態になった後のフレームデ
ータである点が、上記ステップ4で説明した処理の場合
と異なっている。The waveform synthesizing and inserting process performed by the waveform synthesizing and inserting unit 26 in step 26 is substantially the same as the waveform synthesizing and inserting process described in step 4 except that the frame data stored in the second memory 32 is The difference from the processing described in step 4 above is that the frame data is after the ring memory 7 is in the state immediately before the underflow.
【0120】なお、上記ステップ25の処理を省略し、
ステップ24でYESとなった場合に、第2メモリ32
に今回のフレームデータを記憶させることなく、ステッ
プ26に移るようにしてもよい。この場合には、ステッ
プ26で行なわれる波形合成挿入処理においては、上記
ステップ4で説明した波形合成挿入処理と同様に、第2
メモリ32に記憶されているアンダーフロー直前状態よ
り前のフレームデータ(前回のフレームデータ)が用い
られる。The processing in step 25 is omitted, and
If the answer is YES in step 24, the second memory 32
Alternatively, the process may proceed to step 26 without storing the current frame data. In this case, in the waveform synthesis insertion process performed in step 26, the second
The frame data before the underflow immediately before state (the previous frame data) stored in the memory 32 is used.
【0121】また、上記ステップ22の処理を省略する
とともに上記ステップ3と上記ステップ4との間に、フ
レームデータを第2メモリ32に記憶させるステップを
追加するようにしてもよい。この場合には、ステップ4
においては、上記ステップ19において第1メモリ31
に記録された内容と、上記ステップ3と上記ステップ4
との間に追加されたステップにおいて第2メモリ32に
記録された内容とに基づいて、波形合成挿入処理が行わ
れる。 (6)第6ケースとなる処理の説明 ステップ2で平均パワー値Pがしきい値Thより小さい
と判別されたときには、今回までの無音区間の継続長が
算出され(ステップ11)、算出された継続長がポーズ
継続長メモリ17に設定されているポーズ継続長Tde
l以上か否かが判別される(ステップ12)。そして、
無音区間の継続長がポーズ継続長Tdel以上であると
判別された場合には、リングメモリ蓄積量状態判別部1
6の出力に基づいて、アンダーフロー直前状態か否かが
判別される(ステップ15、16)。Further, the processing of step 22 may be omitted, and a step of storing frame data in the second memory 32 may be added between step 3 and step 4. In this case, step 4
In the step 19, the first memory 31
And the contents recorded in step 3 and step 4
The waveform synthesis insertion process is performed on the basis of the contents recorded in the second memory 32 in the step added between. (6) Description of the Process in the Sixth Case When it is determined in step 2 that the average power value P is smaller than the threshold Th, the continuation length of the silent section up to this time is calculated (step 11). Pause duration Tde whose duration is set in the pause duration memory 17
It is determined whether it is equal to or greater than 1 (step 12). And
When it is determined that the duration of the silent section is equal to or longer than the pause duration Tdel, the ring memory storage amount state determination unit 1
6, it is determined whether or not the state is immediately before the underflow (steps 15 and 16).
【0122】リングメモリ7がアンダーフロー直前状態
であるときには、前フレームが入力信号削除部25によ
る削除区間であったか否かが、第1フラグF1の状態に
基づいて判別される(ステップ24)。第1フラグF1
がリセットされている場合(F1=0)、すなわち、前
フレームが入力信号削除部25による削除区間でなかっ
た場合には、第6ケースとなり、ステップ28に移る。
ステップ28では、間引き処理部24によって、今回の
フレームデータが圧縮率1/2で間引き処理が行なわれ
る。そして、間引き処理されたデータは、リングメモリ
7に送られて書き込まれる。この後、ステップ1に戻
る。When the ring memory 7 is in a state immediately before an underflow, it is determined whether or not the previous frame is a deletion section by the input signal deletion unit 25 based on the state of the first flag F1 (step 24). First flag F1
Is reset (F1 = 0), that is, if the previous frame is not the section to be deleted by the input signal deleting unit 25, the sixth case occurs and the process proceeds to step.
In step 28, the thinning processing section 24 thins the current frame data at a compression ratio of 1/2. The thinned data is sent to the ring memory 7 and written. Thereafter, the process returns to step 1.
【0123】つまり、無音区間の継続長がポーズ継続長
Tdel以上であっても、リングメモリ7がアンダーフ
ロー直前状態であり、かつ前フレームが入力信号削除部
25による削除区間でない場合には、フレームデータは
削除されず、圧縮率1/2で間引き処理が行なわれた
後、リングメモリ7に書き込まれる。That is, even if the duration of the silent section is equal to or longer than the pause duration Tdel, if the ring memory 7 is in the state immediately before underflow and the previous frame is not the section to be deleted by the input signal deleting section 25, the frame The data is not deleted, and after being thinned out at a compression ratio of 1/2, is written to the ring memory 7.
【0124】図7においては、ステップ12において、
無音区間の継続長が設定されたポーズ継続長Tdelよ
り長いか否かが判別されているが、図8のステップ12
Aに示すように、無音区間の継続長Tが設定された第1
基準長T1未満か(T<T1)、無音区間の継続長Tが
設定された第1基準長T1以上で設定された第2基準長
T2(ただしT1<T2)未満か(T1≦T<T2)、
または無音区間の継続長Tが設定された第2基準長T2
以上か(T≧T2)を、判別するようにしてもよい。第
1基準長としては、たとえば、4フレーム分の長さが、
第2基準長としてはたとえば40フレーム分の長さが設
定される。In FIG. 7, in step 12,
It is determined whether or not the duration of the silent section is longer than the set pause duration Tdel.
A, as shown in FIG.
Whether it is less than the reference length T1 (T <T1), or less than the second reference length T2 (T1 <T2) set to be equal to or longer than the first reference length T1 in which the silence duration T is set (T1 ≦ T <T2) ),
Or a second reference length T2 in which a continuation length T of a silent section is set.
Whether (T ≧ T2) or not may be determined. As the first reference length, for example, the length for four frames is
As the second reference length, for example, a length for 40 frames is set.
【0125】そして、図8に示すように、各判別結果に
応じて、次のようなステップに進むようにしてもよい。
すなわち、無音区間の継続長Tが設定された第1基準長
T1未満(T<T1)である場合には、ステップ13に
進む。無音区間の継続長Tが設定された第1基準長T1
以上で設定された第2基準長T2(T1<T2)未満
(T1≦T<T2)であるときには、ステップ28に進
んで1/n間引き処理による間引きを行なう。無音区間
の継続長Tが設定された第2基準長T2以上(T≧T
2)であるときには、ステップ15に進む。Then, as shown in FIG. 8, the process may proceed to the following steps according to each determination result.
That is, when the continuation length T of the silent section is less than the set first reference length T1 (T <T1), the process proceeds to step S13. First reference length T1 in which duration T of silent section is set
If it is less than the second reference length T2 (T1 <T2) (T1 ≦ T <T2) set as described above, the process proceeds to step 28, where the thinning is performed by the 1 / n thinning process. The duration T of the silent section is equal to or longer than the set second reference length T2 (T ≧ T
If 2), go to step 15.
【0126】図10は、2倍速再生時の入力信号と出力
信号との関係を示し、特に無音区間の入力信号が削除さ
れる様子を示している。図11および図12は、リング
メモリ7へのデータ書き込み開始点、リングメモリ7か
らのデータ読み出し開始点ならびに図10の各点A〜H
におけるリングメモリ7の状態を示している。FIG. 10 shows the relationship between the input signal and the output signal during double-speed playback, and particularly shows how the input signal in the silent section is deleted. FIGS. 11 and 12 show a data write start point to the ring memory 7, a data read start point from the ring memory 7, and points A to H in FIG.
3 shows the state of the ring memory 7 in FIG.
【0127】図10では、2倍速再生開始時において
は、入力信号は無音区間となっており、かつリングメモ
リ7は空状態であるので(図11(a)参照)、フレー
ムデータが間引き処理部24によって圧縮率1/2で間
引かれた後、リングメモリ7に書き込まれていく。In FIG. 10, at the start of double-speed playback, the input signal is in a silent section and the ring memory 7 is empty (see FIG. 11A). After the data is thinned out at a compression ratio of に よ っ て by 24, the data is written to the ring memory 7.
【0128】そして、リングメモリ7の蓄積量Tmがア
ンダーフロー検出用データTminに達すると、リング
メモリ7からのデータの読み出しが開始される(図11
(b)参照)。When the accumulated amount Tm of the ring memory 7 reaches the underflow detection data Tmin, reading of data from the ring memory 7 is started (FIG. 11).
(B)).
【0129】そして、入力信号の音声区間aに対するフ
レームデータが送られてくると(A点)、ピッチ圧縮伸
長手段23によって、フレームデータが圧縮率2/3で
圧縮される。入力信号と出力信号との長さが一致する圧
縮率1/2の圧縮を基準とすると、フレームデータが伸
長される。この意味で、図10には、伸長処理と記載さ
れている。そして、この圧縮データがリングメモリ7に
書き込まれる。A点においては、図11(c)に示すよ
うに、蓄積量TmAは、Tminのままである。When the frame data for the voice section a of the input signal is transmitted (point A), the frame data is compressed by the pitch compression / expansion means 23 at a compression ratio of 2/3. Frame data is decompressed on the basis of compression at a compression ratio of 1/2 at which the lengths of the input signal and the output signal match. In this sense, the decompression process is described in FIG. Then, the compressed data is written to the ring memory 7. At the point A, as shown in FIG. 11C, the accumulated amount TmA remains at Tmin.
【0130】入力信号の音声区間aに対する出力信号a
1は、A点での蓄積量TmA分だけ遅れて読み出されて
いく。そして、入力信号の音声区間aが入力され終わっ
た時点(B点)では、図11(d)に示すように、今回
の圧縮区間の開始点であるA点での蓄積量Tminと、
A点からB点までの音声区間aの圧縮データの、圧縮率
1/2の圧縮に対する伸長分StBとの和がリングメモ
リ7の蓄積量TmB(=StB+Tmin)となる。し
たがって、入力信号の音声区間aに対する出力信号a1
は、B点からTmB(=StB+Tmin)分が経過し
た点で出力され終わる。Output signal a for speech section a of the input signal
1 is read out with a delay of the accumulated amount TmA at the point A. Then, at the point in time when the voice section a of the input signal has been input (point B), as shown in FIG. 11D, the accumulation amount Tmin at point A, which is the start point of the current compression section,
The sum of the compressed data of the voice section a from the point A to the point B and the decompression amount StB with respect to the compression at the compression ratio of 1/2 is the storage amount TmB (= StB + Tmin) of the ring memory 7. Therefore, the output signal a1 for the speech section a of the input signal
Is output when TmB (= StB + Tmin) has elapsed from point B.
【0131】入力信号の音声区間aに続くポーズ継続長
Tdel未満の無音区間のフレームデータも、ピッチ圧
縮伸長手段23によって圧縮率2/3で圧縮される。こ
の無音区間に続いて音声区間bが入力されると、この音
声区間bのフレームデータもピッチ圧縮伸長手段23に
よって圧縮率2/3で圧縮される。The frame data of a silent section shorter than the pause duration Tdel following the voice section a of the input signal is also compressed by the pitch compression / expansion means 23 at a compression rate of 2/3. When a voice section b is input following the silent section, the frame data of the voice section b is also compressed by the pitch compression / expansion means 23 at a compression rate of 2/3.
【0132】そして、入力信号の音声区間bが入力され
終わった時点(C点)では、図11(e)に示すよう
に、今回の圧縮区間の開始点であるA点での蓄積量Tm
inと、A点からC点までの入力信号に対応する圧縮デ
ータの、1/2圧縮に対する伸長分StCとの和がリン
グメモリ7の蓄積量TmC(=StC+Tmin)とな
る。したがって、入力信号の音声区間bに対する出力信
号b1は、C点からTmC(=StC+Tmin)分が
経過した点で出力され終わる。At the point in time when the voice section b of the input signal has been input (point C), as shown in FIG. 11 (e), the accumulated amount Tm at point A which is the start point of the current compression section.
The sum of in and the decompression amount StC of the compressed data corresponding to the input signals from point A to point C with respect to 圧 縮 compression is the accumulated amount TmC (= StC + Tmin) of the ring memory 7. Therefore, the output signal b1 for the voice section b of the input signal ends being output at the point when TmC (= StC + Tmin) has elapsed from the point C.
【0133】入力信号の音声区間bに続いて、ポーズ継
続長Tdel以上の長さの無音区間の信号が送られてき
たときには、ポーズ継続長Tdelに達するまで(D
点)はフレームデータが、ピッチ圧縮伸長手段23によ
って圧縮率2/3で圧縮される。When a signal in a silent section having a length equal to or longer than the pause duration Tdel is transmitted following the voice section b of the input signal, the signal reaches the pause duration Tdel (D
(Point), the frame data is compressed by the pitch compression / expansion means 23 at a compression ratio of 2/3.
【0134】D点では、図11(f)に示すように、今
回の圧縮区間の開始点であるA点での蓄積量Tmin
と、A点からD点までの入力信号に対応する圧縮データ
の、1/2圧縮に対する伸長分StDとの和がリングメ
モリ7の蓄積量TmD(=StD+Tmin)となる。
したがって、入力信号の音声区間bとD点との間の無音
区間に対する出力信号は、D点からTmD(=StD+
Tmin)分が経過した点で出力され終わる。At point D, as shown in FIG. 11 (f), the accumulation amount Tmin at point A, which is the start point of the current compression section,
Of the compressed data corresponding to the input signal from the point A to the point D and the decompression amount StD with respect to the 圧 縮 compression is the accumulated amount TmD (= StD + Tmin) of the ring memory 7.
Therefore, the output signal for the silent section between the voice section b of the input signal and the point D is TmD (= StD +
Tmin), the output ends at the point when the minute has elapsed.
【0135】ポーズ継続長Tdel以降の無音区間のフ
レームデータは、リングメモリ7の蓄積量がアンダーフ
ロー検出用データTmin以下になるまで、入力信号削
除部25によって削除される。このポーズ削除部分の長
さStdは、今回の圧縮区間の開始点であるA点からD
点までの入力信号に対応する圧縮データの、1/2圧縮
に対する伸長分StDと等しくなる。入力信号削除部2
5によって削除処理が行なわれた後においては、波形合
成挿入部22によってクリック音防止のための合成波形
が挿入されるが、図10には挿入された合成波形部分を
省略してある。The frame data in the silent section after the pause duration Tdel is deleted by the input signal deletion unit 25 until the storage amount of the ring memory 7 becomes equal to or less than the underflow detection data Tmin. The length Std of the pause deletion part is D from the point A which is the start point of the current compression section.
It becomes equal to the extension StD of the compressed data corresponding to the input signal up to the point with respect to 圧 縮 compression. Input signal deletion unit 2
After the deletion process is performed by step 5, a synthesized waveform for preventing a click sound is inserted by the waveform synthesis insertion unit 22, but the inserted synthesized waveform portion is omitted in FIG.
【0136】入力信号が削除された区間の最終点(E
点)においては、図12(g)に示すように、リングメ
モリ7の蓄積量TmEは、アンダーフロー検出用データ
Tmin以下となる。ここでは、蓄積量TmEが、アン
ダーフロー検出用データTminに等しくなった例を示
している。The last point (E
12), the accumulated amount TmE of the ring memory 7 is equal to or less than the underflow detection data Tmin, as shown in FIG. Here, an example is shown in which the accumulated amount TmE has become equal to the underflow detection data Tmin.
【0137】E点からの無音区間に対するフレームデー
タは、間引き処理部24によって、圧縮率1/2で間引
かれた後、フレームメモリ7に書き込まれる。そして、
音声区間cの信号が入力さると(F点)、この音声区間
cのフレームデータがピッチ圧縮伸長手段23によっ
て、圧縮率2/3で圧縮される。つまり、新たな圧縮区
間が開始される。そして、圧縮データがリングメモリ7
に書き込まれる。The frame data for the silent section from the point E is decimated by the decimating processing section 24 at a compression ratio of 、, and then written to the frame memory 7. And
When the signal of the voice section c is input (point F), the frame data of the voice section c is compressed by the pitch compression / expansion means 23 at a compression rate of 2/3. That is, a new compression section is started. Then, the compressed data is stored in the ring memory 7.
Is written to.
【0138】F点では、図12(h)に示すように、リ
ングメモリ7の蓄積量TmFは、E点のときと同じTm
inとなっている。At the point F, as shown in FIG. 12 (h), the accumulation amount TmF of the ring memory 7 is the same as that at the point E.
in.
【0139】入力信号の音声区間cに対する出力信号c
1は、F点での蓄積量Tmin分だけ遅れて出力されて
いく。入力信号の音声区間cに続くポーズ継続長Tde
l未満の無音区間(音声区間cからG点までの無音区
間)のフレームデータも、ピッチ圧縮伸長手段23によ
って圧縮率2/3で圧縮される。The output signal c for the voice section c of the input signal
1 is output with a delay of the accumulation amount Tmin at the point F. Pause duration Tde following the voice section c of the input signal
Frame data in a silent section less than 1 (a silent section from the voice section c to the point G) is also compressed by the pitch compression / expansion means 23 at a compression ratio of 2/3.
【0140】G点では、図12(i)に示すように、今
回の圧縮区間の開始点であるF点での蓄積量Tmin
と、F点からG点までの入力信号に対応する圧縮データ
の、1/2圧縮に対する伸長分StGとの和がリングメ
モリ7の蓄積量TmG(=StG+Tmin)となる。
したがって、入力信号の音声区間cからG点までの無音
区間に対する出力信号は、G点からTmG(=StG+
Tmin)分が経過した点で出力され終わる。At point G, as shown in FIG. 12 (i), the accumulated amount Tmin at point F which is the start point of the current compression section.
Of the compressed data corresponding to the input signal from the point F to the point G and the decompression amount StG with respect to the 圧 縮 compression is the accumulated amount TmG (= StG + Tmin) of the ring memory 7.
Therefore, the output signal of the input signal for the silent section from the voice section c to the point G is TmG (= StG +
Tmin), the output ends at the point when the minute has elapsed.
【0141】ポーズ継続長Tdel以降の無音区間のフ
レームデータは、リングメモリ7の蓄積量がアンダーフ
ロー検出用データTminになるまで、入力信号削除部
25によって削除される。このポーズ削除部分の長さS
tdは、今回の圧縮区間の開始点であるF点からG点ま
での入力信号に対応する圧縮データの、1/2圧縮に対
する伸長分StGと等しくなる。The frame data of the silent section after the pause duration Tdel is deleted by the input signal deletion unit 25 until the storage amount of the ring memory 7 becomes the underflow detection data Tmin. Length S of this pause deletion part
td is equal to the decompression amount StG of the compressed data corresponding to the input signal from the point F to the point G, which is the start point of the current compression section, with respect to 圧 縮 compression.
【0142】入力信号が削除された区間の最終点(H
点)においては、図12(j)に示すように、リングメ
モリ7の蓄積量TmHは、アンダーフロー検出用データ
Tmin以下となる。ここでは、蓄積量TmHが、アン
ダーフロー検出用データTminに等しくなった例を示
している。The last point (H
12), the accumulated amount TmH of the ring memory 7 is equal to or less than the underflow detection data Tmin, as shown in FIG. Here, an example is shown in which the accumulated amount TmH has become equal to the underflow detection data Tmin.
【0143】H点からの無音区間に対するフレームデー
タは、間引き処理部24によって、圧縮率1/2で間引
かれた後、フレームメモリ7に書き込まれる。そして、
音声区間dの信号が入力されると、この音声区間dのフ
レームデータがピッチ圧縮伸長手段23によって、圧縮
率2/3で圧縮される。そして、伸長されたデータがリ
ングメモリ7に書き込まれる。The frame data for the silent section from the point H is thinned out by the thinning-out section 24 at a compression ratio of 1/2, and then written into the frame memory 7. And
When the signal of the voice section d is input, the frame data of the voice section d is compressed by the pitch compression / expansion means 23 at a compression rate of 2/3. Then, the decompressed data is written to the ring memory 7.
【0144】図13は、2倍速再生時の入力信号と出力
信号との関係を示し、特にオーバーフロー直前状態とな
ったときに、入力信号が削除される様子を示している。
図14は、図13の各点S〜Uにおけるリングメモリ7
の状態を示している。FIG. 13 shows the relationship between the input signal and the output signal at the time of double-speed reproduction, and particularly shows how the input signal is deleted when the state immediately before the overflow occurs.
FIG. 14 shows the ring memory 7 at each of points S to U in FIG.
The state of is shown.
【0145】ある時点からT点までの、音声区間a、
b、c等と無音区間とを含む一連の入力信号に対するフ
レームデータが、ピッチ圧縮伸長手段23によって圧縮
率2/3で圧縮され(圧縮率1/2の圧縮に対しては伸
長され)ているとする。この場合には、リングメモリ7
に伸長分が蓄積されていく。From a certain point of time to a point T, a voice section a,
Frame data for a series of input signals including b, c, etc. and a silent section is compressed by the pitch compression / expansion means 23 at a compression rate of 2/3 (expanded for compression at a compression rate of 1/2). And In this case, the ring memory 7
The elongation accumulates.
【0146】音声区間bの入力開始点(S点)において
は、図14(a)に示すように、当該1連の入力信号の
圧縮処理の開始点での蓄積量Tminと、上記圧縮処理
の開始点からS点までの入力信号に対応する圧縮データ
の、1/2圧縮に対する伸長分StSとの和がリングメ
モリ7の蓄積量TmS(=StS+Tmin)となる。
したがって、音声区間bに対する出力信号b1は、S点
からTmS(=StS+Tmin)分が経過した点で出
力され始められる。At the input start point (point S) of the voice section b, as shown in FIG. 14A, the accumulation amount Tmin at the start point of the compression processing of the series of input signals and the compression processing of the compression processing are performed. The sum of the compressed data corresponding to the input signal from the start point to the point S and the decompression amount StS with respect to 圧 縮 compression is the accumulated amount TmS (= StS + Tmin) of the ring memory 7.
Therefore, the output signal b1 for the voice section b is started to be output at the point when TmS (= StS + Tmin) has elapsed from the point S.
【0147】音声区間cの入力信号に対応する圧縮デー
タがリングメモリ7に書き込まれた時点(T点)におい
て、リングメモリ7がオーバーフロー直前状態になった
とする。すなわち、T点において、リングメモリ7の蓄
積量がオーバーフロー検出用データTmax以上になっ
たとする。It is assumed that at the time point (point T) when the compressed data corresponding to the input signal of the voice section c is written into the ring memory 7, the ring memory 7 is in a state immediately before overflow. That is, it is assumed that, at the point T, the accumulated amount of the ring memory 7 is equal to or larger than the overflow detection data Tmax.
【0148】T点においては、図14(b)に示すよう
に、当該1連の入力信号に対する圧縮処理の開始点での
蓄積量Tminと、上記圧縮処理開始点からT点までの
入力信号に対応する圧縮データの、1/2圧縮に対する
伸長分StTとの和がリングメモリ7の蓄積量TmT
(=StT+Tmin)となる。言い換えれば、リング
メモリ7の全ワード数をTOTALとし、オーバーフロ
ー検出用データをTmaxとし、TOTALとTmax
との差をDminとすると、T点での蓄積量Tmtは、
Tmaxに等しいので、TOTAL−Dminとなる。At point T, as shown in FIG. 14 (b), the accumulated amount Tmin at the start point of the compression processing for the series of input signals and the input signal from the compression processing start point to point T are determined. The sum of the corresponding compressed data and the decompression amount StT with respect to 1 / compression is the accumulated amount TmT of the ring memory 7.
(= StT + Tmin). In other words, the total number of words in the ring memory 7 is set to TOTAL, the overflow detection data is set to Tmax, and TOTAL and Tmax are used.
Is Dmin, the accumulated amount Tmt at point T is
Since it is equal to Tmax, it becomes TOTAL-Dmin.
【0149】したがって、当該1連の入力信号に対する
出力信号は、T点から蓄積量TmT(=StT+Tmi
n)分遅れた時点で出力され終わる。Therefore, the output signal corresponding to the series of input signals starts from point T and accumulates TmT (= StT + Tmi).
n) Output is completed at the point of time delayed.
【0150】T点において、リングメモリ7がオーバー
フロー直前状態になると、それ以後の入力信号に対して
は、リングメモリ7がアンダーフロー直前状態になるま
で、入力信号削除部21によって無条件に削除される。
入力信号削除部21によって削除処理が行なわれた後に
おいては、消音挿入部22によって消音が挿入される
が、図13には挿入された消音部分を省略してある。リ
ングメモリ7がオーバーフロー直前状態になった後(T
点)、フレームデータが削除されていき、図14(c)
に示すようにU点でリングメモリ7がアンダーフロー直
前状態(蓄積量TmU=Tmin)になったとする。こ
の場合には、T点からU点までの4つの無音区間および
3つの音声区間d、e、fからなる入力信号が削除され
る。したがって、T点からU点までの入力信号は、出力
信号としては現れない。At the point T, when the ring memory 7 enters the state immediately before overflow, the input signals thereafter are unconditionally deleted by the input signal deletion section 21 until the ring memory 7 enters the state immediately before underflow. You.
After the deletion process is performed by the input signal deletion unit 21, silence is inserted by the silence insertion unit 22, but the inserted silence part is omitted in FIG. After the ring memory 7 enters the state immediately before overflow (T
Point), and the frame data is deleted, as shown in FIG.
It is assumed that the ring memory 7 is in a state immediately before underflow (accumulated amount TmU = Tmin) at point U as shown in FIG. In this case, an input signal including four silent sections and three voice sections d, e, and f from point T to point U is deleted. Therefore, the input signal from point T to point U does not appear as an output signal.
【0151】U点の後に音声区間gの信号が入力される
と、この音声区間に対するフレームデータは、ピッチ圧
縮伸長手段23によって圧縮率2/3で圧縮され(圧縮
率1/2の圧縮に対しては伸長され)た後、リングメモ
リ7に書き込まれていく。音声区間gに対する出力信号
gは、U点でのリングメモリ7の蓄積量Tmin分だけ
遅れて出力され始められる。When the signal of the voice section g is inputted after the point U, the frame data for this voice section is compressed at a compression rate of 2/3 by the pitch compression / expansion means 23 (compared to the compression at the compression rate of 1/2). After that, the data is written into the ring memory 7. The output signal g for the voice section g is started to be output with a delay of the accumulation amount Tmin of the ring memory 7 at the point U.
【0152】上記実施例では、入力信号の音声区間と無
音区間とを、各フレームの平均パワー値Pに基づいて判
別しているが、各フレームの平均振幅に基づいて判別す
るようにしてもよい。この場合には、図15に示すよう
に、図2のパワー計算部11の代わりにフレーム単位で
平均振幅値を計算する平均振幅計算部11Aが設けら
れ、しきい値メモリ13Aには、A/D変換部2の量子
化ビット数が12bitのときには、たとえば、値26
のしきい値が設定される。そして、平均振幅計算部1
1Aによって計算された平均振幅値と、しきい値メモリ
13Aのしきい値とが、比較部12Aによって比較され
ることにより、音声区間か無音区間かが判別される。In the above embodiment, the voice section and the silent section of the input signal are determined based on the average power value P of each frame, but may be determined based on the average amplitude of each frame. . In this case, as shown in FIG. 15, an average amplitude calculator 11A for calculating an average amplitude value for each frame is provided instead of the power calculator 11 in FIG. When the number of quantization bits of the D conversion unit 2 is 12 bits, for example, the value 26
Is set. And the average amplitude calculation unit 1
The comparison unit 12A compares the average amplitude value calculated by 1A with the threshold value of the threshold value memory 13A, thereby determining whether it is a voice section or a silent section.
【0153】つまり、平均振幅値がしきい値以上であれ
ば音声区間と判別され、平均振幅値がしきい値未満であ
れば無音区間と判別される。フレーム単位の平均振幅値
Wは、サンプリングされた1フレーム内の各音声信号の
振幅をi0 、i1 、…iN−1 (ただし、N=2
00)とすると、次の数式3に基づいて算出される。That is, if the average amplitude value is equal to or greater than the threshold value, it is determined to be a voice section, and if the average amplitude value is less than the threshold value, it is determined to be a silent section. The average amplitude value W for each frame is obtained by calculating the amplitude of each audio signal in one sampled frame as i0, i1,... IN-1 (where N = 2
00), it is calculated based on the following Equation 3.
【0154】[0154]
【数3】 (Equation 3)
【0155】その他の処理については、図2の話速変換
部6による処理と同じであるので、その説明を省略す
る。The other processing is the same as the processing performed by the speech speed conversion unit 6 in FIG. 2, and a description thereof will be omitted.
【0156】なお、この場合においても、次のようにし
て、しきい値を変更するようにしてもよい。すなわち、
図15に点線で示すように、平均振幅定常状態検出およ
びしきい値更新部14Aを設ける。平均振幅定常状態検
出およびしきい値更新部14Aは、平均振幅計算部11
Aからの平均振幅値Wが、所定フレーム数にわたって一
定であったか否かを判別し、一定であったときには(定
常状態)、そのときの平均振幅値Wの2倍の値をしきい
値メモリ13Aに書き込み、しきい値を更新させる。た
だし、更新されるしきい値の最大値は、所定値、たとえ
ば28 に制限される。Note that, in this case, the threshold value may be changed as follows. That is,
As shown by a dotted line in FIG. 15, an average amplitude steady state detection and threshold value updating unit 14A is provided. The average amplitude steady state detection and threshold update unit 14A includes an average amplitude calculation unit 11
It is determined whether or not the average amplitude value W from A is constant over a predetermined number of frames. If the average amplitude value W is constant (steady state), a value twice the average amplitude value W at that time is stored in the threshold memory 13A. To update the threshold. However, the maximum value of the updated threshold value is limited to a predetermined value, for example, 28.
【0157】また、入力信号の音声区間と無音区間と
を、次の数式4で示す各フレームの音声信号の振幅累積
値Waと所与のしきい値とに基づいて判別するようにし
てもよい。The speech section and the silence section of the input signal may be determined on the basis of the cumulative amplitude Wa of the speech signal of each frame represented by the following equation 4 and a given threshold value. .
【0158】[0158]
【数4】 (Equation 4)
【0159】また、入力信号の音声区間と無音区間と
を、各フレームの信号の周期性を検出し、検出した周期
が予め定められた音声信号のピッチ周期範囲内であれ
ば、音声区間であると判別し、検出した周期が予め定め
られた音声信号のピッチ周期範囲外であれば無音区間で
あると判別するようにしてもよい。The voice section and the silence section of the input signal are detected as the signal periodicity of each frame, and if the detected cycle is within a predetermined pitch range of the voice signal, the section is a voice section. If the detected cycle is outside the predetermined pitch cycle range of the audio signal, it may be determined to be a silent section.
【0160】この場合には、図16に示すように、図2
のパワー計算部11の代わりに、自己相関法に基づい
て、フレームごとの周期性を検出するピッチ周期検出部
11Bが設けられ、しきい値メモリ13Bには、音声信
号のピッチ周期範囲が設定される。そして、ピッチ周期
検出部11Bで検出された周期と、しきい値メモリ13
Bに設定された音声信号のピッチ周期範囲とが、比較部
12Bによって比較される。In this case, as shown in FIG.
Is provided with a pitch cycle detecting section 11B for detecting the periodicity of each frame based on the autocorrelation method, and the pitch memory range of the voice signal is set in the threshold value memory 13B. You. Then, the cycle detected by the pitch cycle detecting unit 11B and the threshold memory 13
The comparison unit 12B compares the pitch cycle range of the audio signal set to B.
【0161】設定される音声信号のピッチ周期範囲は、
再生速度により異なり、n倍速再生のときには、たとえ
ば、66×n(Hz)〜320×n(Hz)の範囲に設
定される。したがって、2倍速再生時には、音声信号の
ピッチ周期範囲は、132Hz〜640Hzの範囲に設
定される。その他の処理については、図2の話速変換部
6による処理と同じであるので、その説明を省略する。The pitch period range of the audio signal to be set is:
It depends on the reproduction speed, and is set, for example, in the range of 66 × n (Hz) to 320 × n (Hz) at the time of n × speed reproduction. Therefore, at the time of double speed reproduction, the pitch cycle range of the audio signal is set to a range of 132 Hz to 640 Hz. Other processes are the same as the processes performed by the speech speed conversion unit 6 in FIG. 2, and thus description thereof is omitted.
【0162】また、入力信号の音声区間と無音区間と
を、各フレームの信号のパワースペクトルと、定常状態
のパワースペクトルと比較することにより、判別するよ
うにしてもよい。Further, the speech section and the silent section of the input signal may be determined by comparing the power spectrum of the signal of each frame with the power spectrum of the steady state.
【0163】この場合には、図20に示すように、図2
のパワー計算部11の代わりに、フレームごとに所定の
1または複数の周波数帯域に対するパワースペクトルを
算出するパワースペクトル算出部11Cが設けられる。
また、上記所定の1または複数の周波数帯域に対する定
常状態のパワースペクトルがパワースペクトル記憶部1
3Cに記憶されている。In this case, as shown in FIG.
Is provided with a power spectrum calculator 11C for calculating a power spectrum for one or a plurality of predetermined frequency bands for each frame.
The power spectrum in the steady state for the predetermined one or a plurality of frequency bands is stored in the power spectrum storage unit 1.
3C.
【0164】パワースペクトル記憶部13Cの内容は、
パワースペクトル算出部11Cによって算出されたパワ
ースペクトルの変化状態に基づいて、パワースペクトル
定常状態検出部14Bが定常状態であることを検出した
ときには、検出された定常状態でのパワースペクトルに
更新される。The contents of the power spectrum storage unit 13C are as follows:
When the power spectrum steady state detection unit 14B detects that the power spectrum is in the steady state based on the change state of the power spectrum calculated by the power spectrum calculation unit 11C, the power spectrum is updated to the detected power spectrum in the steady state.
【0165】入力信号がパワースペクトル算出部11C
に送られてくると、フレームごとに所定の1または複数
の周波数帯域に対するパワースペクトルが算出される。
そして、算出されたパワースペクトルと、パワースペク
トル記憶部13Cに記憶されている定常状態のパワース
ペクトルとが比較部12Cによって比較される。The input signal is a power spectrum calculator 11C.
, A power spectrum for one or more predetermined frequency bands is calculated for each frame.
Then, the comparison unit 12C compares the calculated power spectrum with the power spectrum in the steady state stored in the power spectrum storage unit 13C.
【0166】算出されたパワースペクトルが定常状態の
パワースペクトルに対して、変動していれば、そのフレ
ームは音声区間と判別される。逆に、算出されたパワー
スペクトルが定常状態のパワースペクトルに対して、変
動していなければ、そのフレームは無音区間と判別され
る。If the calculated power spectrum fluctuates with respect to the steady-state power spectrum, the frame is determined to be a voice section. Conversely, if the calculated power spectrum does not fluctuate from the steady-state power spectrum, the frame is determined to be a silent section.
【0167】具体的には、パワースペクトル記憶部13
Cには、上記所定の1または複数の周波数帯域に対する
定常状態のパワースペクトルに基づいて、上記所定の1
または複数の周波数帯域に対するしきい値が記憶され
る。そして、パワースペクトル記憶部13Cに記憶され
ている。パワースペクトル算出部11Cによって算出さ
れた上記所定の1または複数の周波数帯域に対するパワ
ースペクトルと、パワースペクトル記憶部13Cに記憶
されている対応するしきい値とが比較されることによ
り、入力信号が音声区間か無音区間かが判別される。Specifically, the power spectrum storage unit 13
C includes the predetermined one based on the steady-state power spectrum for the predetermined one or more frequency bands.
Alternatively, threshold values for a plurality of frequency bands are stored. Then, it is stored in the power spectrum storage unit 13C. The power spectrum for the predetermined one or more frequency bands calculated by the power spectrum calculation unit 11C is compared with the corresponding threshold value stored in the power spectrum storage unit 13C, so that the input signal is It is determined whether the section is a section or a silent section.
【0168】たとえば、定常状態のパワースペクトルが
図21の(a)に示されているように、雑音のみのパワ
ースペクトルであるとする。また、雑音が含まれていな
い音声のパワースペクトルが図21の(b)に示されて
いるものとする。定常状態において、図21(a)のパ
ワースペクトルで示される雑音が存在する場合に、図2
1(b)で示すパワースペクトルを持つ音声信号が入力
すると、そのパワースペクトルは、図21(c)に示さ
れるように、両者のパワースペクトルが合成されたもの
となる。For example, it is assumed that the power spectrum in the steady state is a power spectrum of only noise as shown in FIG. Also, it is assumed that the power spectrum of the voice without noise is shown in FIG. In the steady state, when noise shown by the power spectrum of FIG.
When an audio signal having the power spectrum shown by 1 (b) is input, the power spectrum is obtained by combining both power spectra as shown in FIG. 21 (c).
【0169】したがって、たとえば、定常状態のパワー
スペクトルにおいてパワーが比較的小さい周波数帯域f
aおよびfbに対するパワーは、音声区間のパワースペ
クトルにおいては大幅に増加する。つまり、定常状態の
パワースペクトルにおいてパワーが比較的小さい1また
は複数の周波数帯域における定常状態のパワーと、入力
信号のパワースペクトルの上記1または複数の周波数帯
域におけるパワーとを比較することにより、入力信号が
音声区間か無音区間かを判別することができる。Therefore, for example, a frequency band f having a relatively small power in a power spectrum in a steady state.
The powers for a and fb increase significantly in the power spectrum of the voice section. That is, by comparing the steady-state power in one or more frequency bands having relatively small power in the steady-state power spectrum with the power in the one or more frequency bands of the power spectrum of the input signal, Is a voice section or a silent section.
【0170】なお、定常状態の雑音が高い周波数帯域の
雑音であると判明している場合には、雑音の影響の少な
い低い周波数帯域(例えば、4KHz以下の周波数帯
域)に対するパワースペクトルを算出し、算出されたパ
ワースペクトルが所定のしきい値以上か否かによって、
入力信号が音声区間か無音区間かを判別することもでき
る。If it is known that the noise in the steady state is a noise in a high frequency band, a power spectrum for a low frequency band (for example, a frequency band of 4 KHz or less) where the influence of the noise is small is calculated. Depending on whether the calculated power spectrum is equal to or greater than a predetermined threshold,
It is also possible to determine whether the input signal is a voice section or a silent section.
【0171】また、各フレームのパワー平均値Pと、し
きい値Thとを比較することにより、音声区間と無音区
間とを判別する場合において、リングメモリ7の蓄積量
に基づいて、しきい値Thを変化させるようにしてもよ
い。すなわち、リングメモリ7の蓄積量が少なくなるほ
ど、言い換えれば、リングメモリ7の空領域が多くなる
ほど、音声区間の欠落部が少なくなるようにしきい値T
hは小さくされる。これにより、出力音声が自然により
近くなる。Further, by comparing the average power value P of each frame with the threshold value Th, when discriminating between a voice section and a silent section, the threshold value is determined based on the storage amount of the ring memory 7. Th may be changed. That is, the threshold value T is set such that the smaller the storage amount of the ring memory 7, in other words, the larger the empty area of the ring memory 7, the smaller the missing portion of the voice section.
h is reduced. This makes the output sound closer to nature.
【0172】つまり、図22に示すように、しきい値調
整手段51を設ける。しきい値調整手段51は、リング
メモリ蓄積量状態判別部16からリングメモリ7の蓄積
量を得る。そして、得られたリングメモリ7の蓄積量
を、D/A変換部8のサンプリング周波数で除すること
により、蓄積時間Tmを算出する。そして、算出された
蓄積時間Tmに基づいて、しきい値Thを決定し、しき
い値メモリ13の内容を更新する。That is, as shown in FIG. 22, a threshold adjusting means 51 is provided. The threshold adjusting unit 51 obtains the storage amount of the ring memory 7 from the ring memory storage amount state determination unit 16. Then, the storage time Tm is calculated by dividing the obtained storage amount of the ring memory 7 by the sampling frequency of the D / A converter 8. Then, the threshold value Th is determined based on the calculated accumulation time Tm, and the content of the threshold value memory 13 is updated.
【0173】より具体的に説明すると、リングメモリ蓄
積量状態判別部16から得られたリングメモリ7の蓄積
量がD/A変換部8のサンプリング周波数である800
0で除されることにより、蓄積時間Tmが求められる。
そして、予め作成された蓄積時間Tmに対するしきい値
Thのデータに基づいて、蓄積時間Tmに対するしきい
値Thが求められる。More specifically, the storage amount of the ring memory 7 obtained from the ring memory storage amount state determination unit 16 is 800, which is the sampling frequency of the D / A conversion unit 8.
By dividing by 0, the accumulation time Tm is obtained.
Then, the threshold value Th for the accumulation time Tm is obtained based on the data of the threshold value Th for the accumulation time Tm created in advance.
【0174】次の表は、A/D変換部2の量子化ビット
数が12bitである場合における蓄積時間Tmに対す
るしきい値Thのデータの一例を示している。The following table shows an example of the data of the threshold Th with respect to the accumulation time Tm when the number of quantization bits of the A / D converter 2 is 12 bits.
【0175】[0175]
【表1】 [Table 1]
【0176】また、各フレームのパワー累積値Paとし
きい値とを比較することにより、音声区間と無音区間と
を判別する場合、各フレームの平均振幅値Wとしきい値
とを比較することにより、音声区間と無音区間とを判別
する場合、各フレームの振幅累積値Waとしきい値とを
比較することにより、各フレームのパワースークトルと
しきい値とを比較することにより、音声区間と無音区間
とを判別する場合にも、上記と同様に、リングメモリ7
の蓄積量に基づいて、しきい値を変化させるようにして
もよい。When discriminating between a voice section and a silent section by comparing the power accumulated value Pa of each frame with a threshold value, the average amplitude value W of each frame is compared with the threshold value. When discriminating between the voice section and the silent section, the power section of each frame is compared with the threshold value by comparing the amplitude cumulative value Wa of each frame with the threshold value. Is also determined in the same manner as described above.
The threshold value may be changed based on the accumulated amount of.
【0177】また、リングメモリ7の蓄積量に基づい
て、無音区間の削除開始点を決定するためのポーズ継続
長Tdelを変化させるようにしてもよい。すなわち、
リングメモリ7の蓄積量が少なくなるほど、言い換えれ
ば、リングメモリ7の空領域が多くなるほど、無音区間
の削除部が少なくなるように、ポーズ継続長Tdelが
長くされる。これにより、出力音声が自然により近くな
る。Further, the pause continuation length Tdel for determining the silence section deletion start point may be changed based on the storage amount of the ring memory 7. That is,
The pause continuation length Tdel is increased such that the smaller the storage amount of the ring memory 7, in other words, the larger the empty area of the ring memory 7, the smaller the number of silence sections to be deleted. This makes the output sound closer to nature.
【0178】つまり、図22に示すように、ポーズ継続
長調整手段52を設ける。ポーズ継続長調整手段52
は、リングメモリ蓄積量状態判別部16からリングメモ
リ7の蓄積量を得る。そして、得られたリングメモリ7
の蓄積量を、D/A変換部8のサンプリング周波数で除
することにより、蓄積時間Tmを算出する。そして、算
出された蓄積時間Tmに基づいて、ポーズ継続長Tde
lを決定し、ポーズ継続長設定メモリ17の内容を更新
する。That is, as shown in FIG. 22, a pause duration adjusting means 52 is provided. Pause continuation length adjusting means 52
Obtains the storage amount of the ring memory 7 from the ring memory storage amount state determination unit 16. And the obtained ring memory 7
Is divided by the sampling frequency of the D / A converter 8 to calculate the accumulation time Tm. Then, based on the calculated accumulation time Tm, the pause duration Tde
is determined, and the contents of the pause continuation length setting memory 17 are updated.
【0179】より具体的に説明すると、リングメモリ蓄
積量状態判別部16から得られたリングメモリ7の蓄積
量がD/A変換部8のサンプリング周波数である800
0で除されることにより、蓄積時間Tmが求められる。
そして、予め作成された蓄積時間Tmに対するポーズ継
続長Tdelのデータに基づいて、蓄積時間Tmに対す
るポーズ継続長Tdelが求められる。More specifically, the storage amount of the ring memory 7 obtained from the ring memory storage amount state determination unit 16 is 800, which is the sampling frequency of the D / A conversion unit 8.
By dividing by 0, the accumulation time Tm is obtained.
Then, the pause duration Tdel for the accumulation time Tm is obtained based on the data of the pause duration Tdel for the accumulation time Tm created in advance.
【0180】次の表は、VTRの2倍速再生時における
蓄積時間Tmに対するポーズ継続長Tdelのデータの
一例を示している。The following table shows an example of the data of the pause duration Tdel with respect to the accumulation time Tm at the time of double speed reproduction of the VTR.
【0181】[0181]
【表2】 [Table 2]
【0182】以上は、入力信号がアナログ信号の場合に
ついて説明したが、入力信号がディジタルデータである
場合にもこの発明を適用することができる。たとえば、
ICメモリ、磁気ディスク、ディジタル通信回線等か
ら、圧縮されたディジタル音声信号が送られてきた場合
には、圧縮されたディジタル音声信号が伸長されてPC
M音声信号に変換され、得られたPCM音声信号がバッ
ファに一旦格納される。その後、設定された再生速度倍
率に応じた速度で、PCM音声データがバッファから読
み出されて、図1のフレームメモリ5に送られる。In the above, the case where the input signal is an analog signal has been described. However, the present invention can be applied to a case where the input signal is digital data. For example,
When a compressed digital audio signal is sent from an IC memory, a magnetic disk, a digital communication line, or the like, the compressed digital audio signal is expanded and the PC
The converted PCM audio signal is temporarily stored in a buffer. Thereafter, the PCM audio data is read from the buffer at a speed corresponding to the set reproduction speed magnification, and is sent to the frame memory 5 in FIG.
【0183】以上適応型話速変換処理について詳述した
が、次に単純間引き方式による話速変換について具体的
なメモリ制御動作について説明する。すなわち、話速変
換IC112はメモリ113を次のように制御して話速
変換を行う。The adaptive speech rate conversion processing has been described in detail above. Next, a specific memory control operation for speech rate conversion by the simple thinning method will be described. That is, the speech speed conversion IC 112 controls the memory 113 as follows to perform the speech speed conversion.
【0184】図28は3倍速再生時におけるメモリ制御
動作を示しており、音声信号を3倍速のままで書き込
み、書き込みと同時に読み出しを始め、音声が1倍速再
生と同じ速度になるように読み出しを終了する。すなわ
ち、読み出し周期Tの1/3の周期T/3で書き込むよ
うにメモリ制御されるようになっており、従って、図の
T0期間が間引かれることになる。同様に、5倍速再生
時は、書き込み時間がT/5となり、9倍速再生時はT
/9となる。FIG. 28 shows a memory control operation at the time of triple speed reproduction, in which the audio signal is written at the triple speed, reading is started at the same time as the writing, and reading is performed so that the audio has the same speed as the normal speed reproduction. finish. That is, memory control is performed so that writing is performed in a cycle T / 3 that is 1/3 of the read cycle T, and accordingly, the T0 period in the drawing is thinned out. Similarly, at the time of 5 × speed reproduction, the writing time is T / 5, and at the time of 9 × speed reproduction, the writing time is T / 5.
/ 9.
【0185】図29は逆転5倍速再生時におけるメモリ
の読み出し/書き込みタイミングを示しており、Tが1
倍速周期、Wは書き込み期間、*2はT/5、*はT/
6となっている。メモリの書き込みアドレスのタイミン
グは5倍速であり、書き込みサイクル期間が5倍速正方
向再生の5/6となっており、また、T期間6回とした
書き込みサイクルカウンタは、5回で巡回し、アドレス
値が0の期間だけ書き込みをさせている。このため図に
示すように書き込みと、読み出しとは少しずつずれて巡
回し、読み出し5回でもとに戻るのでα点での内容変化
は起こらずスムーズに再生音が聞こえる。尚、図に示す
ように書き込みと読み出しは、dとD,eとE、f1は
F1、F2はf2の順で行われる。また、図28及び図
29において、破線は書き込みアドレスの歩進状態を示
し、実線は読み出しアドレスの歩進状態を示す。FIG. 29 shows the read / write timing of the memory at the time of the reverse 5 × speed reproduction.
Double speed cycle, W is write period, * 2 is T / 5, * is T /
It is 6. The timing of the write address of the memory is 5 × speed, the write cycle period is 5/6 of the 5 × speed forward reproduction, and the write cycle counter with 6 times in the T period circulates 5 times, and Writing is performed only during the period when the value is 0. For this reason, as shown in the figure, the writing and reading go round with a slight shift, and the reading returns to the original state five times, so that the reproduced sound can be heard smoothly without changing the content at the point α. As shown in the figure, writing and reading are performed in the order of d and D, e and E, f1 is F1, and F2 is f2. In FIGS. 28 and 29, the broken line indicates the stepped state of the write address, and the solid line indicates the stepped state of the read address.
【0186】[0186]
【発明の効果】このように本発明のVTRでは、2倍速
再生時においては適応型話速変換処理を行い、3倍速再
生以上のときは単純間引き処理を行うようにすることに
より、話速変換用ICとしてその構成が簡単になるばか
りでなく、適切な話速変換処理が自動的に選択されるよ
うになっているのでVTRとしての商品価値を向上せし
めることができる。さらに、この発明によれば、2倍速
再生時は処理負荷を低減できるとともに、映像と音声の
ズレを小さくでき、しかも音声信号を蓄積するためのメ
モリの容量も膨大とならないという利点が得られる。As described above, in the VTR according to the present invention, the adaptive speech speed conversion processing is performed at the time of double speed reproduction, and the simple thinning processing is performed at the time of triple speed reproduction or more. In addition to simplifying the configuration of the IC for use, the appropriate speech speed conversion processing is automatically selected, so that the commercial value of the VTR can be improved. Further, according to the present invention, there is an advantage that the processing load can be reduced at the time of double-speed reproduction, the gap between the video and the audio can be reduced, and the capacity of the memory for storing the audio signal does not become enormous.
【図1】話速変換装置の全体的な構成を示すブロック図
である。FIG. 1 is a block diagram showing an overall configuration of a speech speed conversion device.
【図2】話速変換部の構成を示すブロック図である。FIG. 2 is a block diagram illustrating a configuration of a speech speed conversion unit.
【図3】PICOLAを用いて、入力信号を圧縮率2/
3で圧縮する方法を示す説明図である。FIG. 3 shows that an input signal is compressed at a compression ratio of 2 /
FIG. 3 is an explanatory diagram showing a method of performing compression in Step 3;
【図4】波形合成処理部による処理を説明するための説
明図である。FIG. 4 is an explanatory diagram for describing processing by a waveform synthesis processing unit;
【図5】間引き処理部によって行なわれる各種の間引き
処理方法を説明するための説明図である。FIG. 5 is an explanatory diagram for explaining various thinning processing methods performed by a thinning processing unit.
【図6】話速変換部による処理手順を示すフローチャー
トである。FIG. 6 is a flowchart illustrating a processing procedure by a speech speed conversion unit;
【図7】話速変換部による処理手順を示すフローチャー
トである。FIG. 7 is a flowchart illustrating a processing procedure by a speech speed conversion unit;
【図8】話速変換部による処理手順の変形例を示し、図
7に相当するフローチャートである。FIG. 8 is a flowchart illustrating a modified example of the processing procedure by the speech speed conversion unit and corresponding to FIG. 7;
【図9】図6のステップ10の処理と置き換え可能な処
理を説明するための説明図である。FIG. 9 is an explanatory diagram for explaining a process that can be replaced with the process of step 10 in FIG. 6;
【図10】2倍速再生時の入力信号と出力信号との関係
を示し、特に無音区間の入力信号が削除される様子を示
すタイムチャートである。FIG. 10 is a time chart showing a relationship between an input signal and an output signal at the time of double-speed reproduction, and particularly showing a state in which an input signal in a silent section is deleted.
【図11】リングメモリ7へのデータ書き込み開始点、
リングメモリ7からのデータ読み出し開始点ならびに図
10の点A〜Dにおけるリングメモリ7の状態を示す模
式図である。FIG. 11 shows a starting point of data writing to the ring memory 7,
FIG. 11 is a schematic diagram showing a state of starting reading data from the ring memory 7 and a state of the ring memory 7 at points A to D in FIG. 10.
【図12】図10の点E〜Hにおけるリングメモリ7の
状態を示す模式図である。12 is a schematic diagram showing the state of the ring memory 7 at points E to H in FIG.
【図13】2倍速再生時の入力信号と出力信号との関係
を示し、特にオーバーフロー直前状態となったときに、
入力信号が削除される様子を示すタイムチャートであ
る。FIG. 13 shows a relationship between an input signal and an output signal at the time of 2 × speed reproduction.
6 is a time chart illustrating a state in which an input signal is deleted.
【図14】図13の各点S〜Uにおけるリングメモリ7
の状態を示す模式図である。14 is a diagram showing a ring memory 7 at each of points S to U in FIG. 13;
It is a schematic diagram which shows the state of.
【図15】音声区間と無音区間とを判別するための回路
の変形例を示し、図2に相当するブロック図である。FIG. 15 is a block diagram illustrating a modified example of a circuit for determining a voice section and a silent section, corresponding to FIG. 2;
【図16】音声区間と無音区間とを判別するための回路
の他の変形例を示し、図2に相当するブロック図であ
る。FIG. 16 is a block diagram showing another modified example of the circuit for distinguishing between a voice section and a silent section, and corresponds to FIG. 2;
【図17】固定フレーム単位で、入力信号を圧縮率2/
3で圧縮する方法を示す説明図である。FIG. 17 shows a compression ratio of 2 /
FIG. 3 is an explanatory diagram showing a method of performing compression in Step 3;
【図18】図6のステップ9の処理と置き換え可能な処
理を説明するための説明図である。FIG. 18 is an explanatory diagram for explaining a process that can be replaced with the process of step 9 in FIG. 6;
【図19】図6のステップ9の処理として図18の処理
を採用した場合に、図6のステップ10の処理と置き換
え可能な処理を説明するための説明図である。19 is an explanatory diagram for explaining a process that can be replaced with the process of step 10 of FIG. 6 when the process of FIG. 18 is adopted as the process of step 9 of FIG. 6;
【図20】音声区間と無音区間とを判別するための回路
のさらに他の変形例を示し、図2に相当するブロック図
である。FIG. 20 is a block diagram showing still another modification of the circuit for discriminating between a voice section and a silent section, corresponding to FIG. 2;
【図21】定常状態のパワースペクトル、雑音を含まな
い音声のパワースペクトルおよび音声区間のパワースペ
クトルを示すグラフである。FIG. 21 is a graph showing a power spectrum in a steady state, a power spectrum of a voice without noise, and a power spectrum of a voice section.
【図22】しきい値調整手段およびポーズ継続長調整手
段が付加された話速変換部を示すブロック図である。FIG. 22 is a block diagram showing a speech speed conversion unit to which a threshold adjustment unit and a pause duration adjustment unit are added.
【図23】本発明を実施したビデオテープレコーダの要
部回路ブロック図である。FIG. 23 is a main circuit block diagram of a video tape recorder embodying the present invention.
【図24】図23の回路ブロック図の動作説明のための
フローチャートを示す図である。24 is a diagram showing a flowchart for explaining the operation of the circuit block diagram of FIG. 23;
【図25】適応型話速変換処理の概念を説明するための
図である。FIG. 25 is a diagram for explaining the concept of adaptive speech speed conversion processing.
【図26】単純間引き処理による話速変換の概念を説明
するための図である。FIG. 26 is a diagram for explaining the concept of speech speed conversion by simple thinning processing.
【図27】逆転再生時における単純間引き処理による話
速変換の概念を説明するための図である。FIG. 27 is a diagram for explaining the concept of speech speed conversion by simple thinning processing during reverse playback.
【図28】単純間引き処理を実現するためのメモリ制御
方法を説明するための図である。FIG. 28 is a diagram for explaining a memory control method for realizing a simple thinning process.
【図29】逆転再生時における単純間引き処理を実現す
るためのメモリ制御方法を説明するための図である。FIG. 29 is a diagram for explaining a memory control method for implementing a simple thinning process during reverse playback.
2 A/D変換部 4 DSP 5 フレームメモリ 6 話速変換部 7 リングメモリ 8 D/A変換部 9 アップダウンカウンタ 11 パワー計算部 11A 平均振幅計算部 11B ピッチ周期検出部 11C パワースペクトル計算部 12、12A、12B、12C 比較部 15 条件分岐部 16 リングメモリ蓄積量状態判別部 21、25 入力信号削除部 23 ピッチ圧縮伸長手段 24 間引き処理部 51 しきい値調整手段 52 ポーズ継続長調整手段 112 話速変換IC 114 マイコン(マイクロコンピュータ) 2 A / D converter 4 DSP 5 Frame memory 6 Speech speed converter 7 Ring memory 8 D / A converter 9 Up / down counter 11 Power calculator 11A Average amplitude calculator 11B Pitch cycle detector 11C Power spectrum calculator 12, 12A, 12B, 12C Comparison unit 15 Conditional branching unit 16 Ring memory storage amount state determination unit 21, 25 Input signal deletion unit 23 Pitch compression / expansion unit 24 Decimation processing unit 51 Threshold adjustment unit 52 Pause continuation length adjustment unit 112 Talk speed Conversion IC 114 microcomputer (microcomputer)
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 21/04 ──────────────────────────────────────────────────続 き Continued on the front page (58) Field surveyed (Int.Cl. 7 , DB name) G10L 21/04
Claims (5)
音声区間であるか無音区間であるかに応じて、入力音声
信号に対して圧縮伸長処理または削除処理を行なう話速
変換を行う2倍速音声再生モードと、 ±N倍速(N:3以上の自然数)再生時においては、再
生音声信号の所定の期間の音声区間をこの再生倍速に応
じて間引く処理を行うN倍速再生モードと、 を設定する制御手段を備えてなるビデオテープレコー
ダ。At the time of double speed reproduction, speech speed conversion is performed for performing compression / decompression processing or deletion processing on an input audio signal according to whether the reproduced audio signal is a voice section or a silent section. A double-speed audio playback mode and an N-times playback mode for performing a process of thinning out a voice section of a predetermined period of a playback audio signal in accordance with the playback double speed during ± N-times playback (N: a natural number of 3 or more). A video tape recorder comprising control means for setting.
を行うべく、入力音声信号を話速変換処理する話速変換
処理手段、話速変換処理手段の出力が書き込まれるリン
グメモリ、およびリングメモリからデータを一定速度で
読み出す手段を備え、話速変換処理手段は、入力音声信
号が音声区間であるか無音区間であるかおよびリングメ
モリの蓄積量に応じて、入力音声信号に対して圧縮伸長
処理または削除処理を行なう手段を備えた話速変換装置
を有することを特徴とするビデオテープレコーダ。2. A speech memory according to claim 1, further comprising: a speech speed conversion processing means for performing speech speed conversion processing of an input speech signal in order to perform a double speed speech reproduction mode; Means for reading out data at a constant speed from the voice signal, and the speech speed conversion processing means compresses and decompresses the input voice signal according to whether the input voice signal is a voice section or a silent section and the amount of storage in the ring memory. A video tape recorder comprising a speech speed converter provided with means for performing processing or deletion processing.
を行うべく、入力されるアナログ音声信号を設定された
再生速度倍率に応じたサンプリング周波数でサンプリン
グするA/D変換手段、A/D変換手段から出力された
音声信号が入力されるフレームメモリ、フレームメモリ
に所要数の音声信号が入力されるごとに、それらの音声
信号に対して話速変換処理を行なう話速変換処理手段、
話速変換処理手段の出力が書き込まれるリングメモリ、
リングメモリから一定速度でデータを読み出す読出手
段、およびリングメモリの書き込み信号と読み出し信号
とに基づいて、リングメモリの蓄積量を算出する蓄積量
算出手段を備えており、 話速変換処理手段は、フレームメモリに入力された所要
数の音声信号に対応する入力音声が、音声区間か無音区
間かを判別する区間判別手段、ならびに、区間判別手段
の出力および蓄積量算出手段の出力に応じて、上記所要
数の音声信号に対して圧縮伸長処理または削除処理を行
なう信号処理手段を備えた話速変換装置を有することを
特徴とするビデオテープレコーダ。3. An A / D converter for sampling an input analog audio signal at a sampling frequency corresponding to a set reproduction speed magnification in order to perform a double speed audio reproduction mode. A frame memory to which an audio signal output from the means is input, each time a required number of audio signals are input to the frame memory, a voice speed conversion processing means for performing a voice speed conversion process on those voice signals,
A ring memory into which the output of the speech speed conversion processing means is written;
A reading unit that reads data from the ring memory at a constant speed; and a storage amount calculation unit that calculates a storage amount of the ring memory based on a write signal and a read signal of the ring memory. The section discriminating means for discriminating whether the input speech corresponding to the required number of speech signals inputted to the frame memory is a speech section or a silent section, and the output of the section discriminating means and the output of the accumulation amount calculating means, A video tape recorder comprising a speech speed conversion device including signal processing means for performing compression / decompression processing or deletion processing on a required number of audio signals.
を行うべく、入力されるディジタル音声信号が、設定さ
れた再生速度倍率に応じた速度で書き込まれるフレーム
メモリ、フレームメモリに所要数の音声信号が入力され
るごとに、それらの音声信号に対して話速変換処理を行
なう話速変換処理手段、話速変換処理手段の出力が書き
込まれるリングメモリ、1倍速再生時のフレームメモリ
への書込み速度と等しい周波数の読み出し信号に基づい
て、リングメモリからデータを読み出す読出手段、およ
びリングメモリの書き込み信号と読み出し信号とに基づ
いて、リングメモリの蓄積量を算出する蓄積量算出手段
を備えており、 話速変換処理手段は、フレームメモリに入力された所要
数の音声信号に対応する入力音声が、音声区間か無音区
間かを判別する区間判別手段、ならびに、 区間判別手段の出力および蓄積量算出手段の出力に応じ
て、上記所要数の音声信号に対して圧縮伸長処理または
削除処理を行なう信号処理手段を備えている話速変換装
置を有することを特徴とするビデオテープレコーダ。4. A frame memory in which an input digital audio signal is written at a speed corresponding to a set reproduction speed magnification in order to perform a double speed audio reproduction mode. Each time a signal is input, a speech speed conversion processing means for performing speech speed conversion processing on those audio signals, a ring memory in which the output of the speech speed conversion processing means is written, and a writing to a frame memory at the time of 1 × speed reproduction A read unit that reads data from the ring memory based on a read signal having a frequency equal to the speed; and a storage amount calculation unit that calculates a storage amount of the ring memory based on a write signal and a read signal of the ring memory. The speech rate conversion processing means determines whether the input voice corresponding to the required number of voice signals input to the frame memory is a voice section or a silent section. And a signal processing means for performing compression / expansion processing or deletion processing on the required number of audio signals in accordance with the output of the section determination means and the output of the storage amount calculation means. A video tape recorder comprising a speech speed conversion device.
うべく、N倍速で音声データをメモリに書き込み、1倍
速でその書き込まれたデータを読み出すようにメモリを
制御するメモリ制御手段を備えたことを特徴とするビデ
オテープレコーダ。5. The apparatus according to claim 1, further comprising a memory control means for controlling the memory so as to write the audio data into the memory at N times speed and to read out the written data at 1 times speed in order to perform the N times speed reproduction mode. A video tape recorder characterized in that:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09533595A JP3162945B2 (en) | 1995-04-20 | 1995-04-20 | Video tape recorder |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09533595A JP3162945B2 (en) | 1995-04-20 | 1995-04-20 | Video tape recorder |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08292790A JPH08292790A (en) | 1996-11-05 |
JP3162945B2 true JP3162945B2 (en) | 2001-05-08 |
Family
ID=14134849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09533595A Expired - Fee Related JP3162945B2 (en) | 1995-04-20 | 1995-04-20 | Video tape recorder |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3162945B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3619946B2 (en) * | 1997-03-19 | 2005-02-16 | 富士通株式会社 | Speaking speed conversion device, speaking speed conversion method, and recording medium |
CN100383864C (en) | 2002-10-17 | 2008-04-23 | 皇家飞利浦电子股份有限公司 | Arrangement and method for reproducing audio data as well as computer program product for this |
JP4533234B2 (en) | 2005-05-10 | 2010-09-01 | キヤノン株式会社 | Recording / reproducing apparatus and recording / reproducing method |
JP4952469B2 (en) * | 2007-09-19 | 2012-06-13 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
JP5863472B2 (en) * | 2012-01-18 | 2016-02-16 | 日本放送協会 | Speaking speed conversion device and program thereof |
JP2015056723A (en) * | 2013-09-11 | 2015-03-23 | 株式会社日立国際電気 | Video server system and sound reproduction method |
-
1995
- 1995-04-20 JP JP09533595A patent/JP3162945B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH08292790A (en) | 1996-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5611018A (en) | System for controlling voice speed of an input signal | |
JP2955247B2 (en) | Speech speed conversion method and apparatus | |
KR100739355B1 (en) | Speech processing method and apparatus | |
US20080262856A1 (en) | Method and system for enabling audio speed conversion | |
EP0939401B1 (en) | Sound processing method, sound processor, and recording/reproduction device | |
JP3162945B2 (en) | Video tape recorder | |
JP3378672B2 (en) | Speech speed converter | |
US6085157A (en) | Reproducing velocity converting apparatus with different speech velocity between voiced sound and unvoiced sound | |
JP3357742B2 (en) | Speech speed converter | |
JP3373933B2 (en) | Speech speed converter | |
JP3081469B2 (en) | Speech speed converter | |
JPH10301598A (en) | Method and device for converting speech speed | |
JP4580297B2 (en) | Audio reproduction device, audio recording / reproduction device, and method, recording medium, and integrated circuit | |
JP4212253B2 (en) | Speaking speed converter | |
JP3189587B2 (en) | Audio time base converter | |
EP0702354A1 (en) | Apparatus for modifying the time scale modification of speech | |
JPH0573089A (en) | Speech reproducing method | |
JPH09146587A (en) | Speech speed changer | |
JPH05303400A (en) | Method and device for audio reproduction | |
JP3639461B2 (en) | Audio signal pitch period extraction method, audio signal pitch period extraction apparatus, audio signal time axis compression apparatus, audio signal time axis expansion apparatus, audio signal time axis compression / expansion apparatus | |
JP2001318700A (en) | Speech speed converter | |
KR20030000400A (en) | Method and apparatus for real- time modification of audio play speed | |
JP2004279906A (en) | Data reproducing method | |
JPH08293137A (en) | Reproducing device | |
JPH08335099A (en) | Recording device and reproducing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090223 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |