JPH02153396A - Voice storing and reproducing device - Google Patents

Voice storing and reproducing device

Info

Publication number
JPH02153396A
JPH02153396A JP63307475A JP30747588A JPH02153396A JP H02153396 A JPH02153396 A JP H02153396A JP 63307475 A JP63307475 A JP 63307475A JP 30747588 A JP30747588 A JP 30747588A JP H02153396 A JPH02153396 A JP H02153396A
Authority
JP
Japan
Prior art keywords
audio
waveform
memory
pitch
thinning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63307475A
Other languages
Japanese (ja)
Other versions
JP2861005B2 (en
Inventor
Kazuyuki Kodama
和行 児玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP63307475A priority Critical patent/JP2861005B2/en
Publication of JPH02153396A publication Critical patent/JPH02153396A/en
Application granted granted Critical
Publication of JP2861005B2 publication Critical patent/JP2861005B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To perform reproduction in a short time which is <=1/2 as long as a sound recording time by providing a means which thins out a waveform in pitch units repeatedly for a voice whose waveform is thinned out in pitch units. CONSTITUTION:The voice which is inputted from a microphone 1, amplified, A/D-converted, and then encoded is stored in a memory M1. The encoded voice is decoded and stored in a waveform memory M4. A thinning-out processing circuit TDS inputs a waveform of two pitches from a memory M4, thins out the waveform by one-pitch length, and outputs the result to the output waveform memory M4. Then the waveform of one-pitch length after being thinned out is inputted from the memory M4 and a waveform of next one-pitch length is inputted from a memory M3; and they are thinned out again to one-pitch length and written in the same address of the memory M4 with the last thinned- out waveform. Thus, a voice waveform of three-pitch length is shortened into a waveform of one-pitch length and the voice can be reproduced in a short time <=1/2 as long as the recording time.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声機能付きワークステーションにおける音
声メモ、通信システムにおけるボイスメール等の音声蓄
積再生装置に関し、特に蓄積した音声を、音質を変えず
に高速(2倍速以上の早口)再生可能な、使い勝手のよ
い音声蓄積再生装置に関する。
[Detailed Description of the Invention] [Field of Industrial Application] The present invention relates to a voice storage and playback device for voice memos in workstations with voice functions, voice mails in communication systems, etc., and in particular, the present invention relates to a voice storage and playback device for voice memos in workstations with voice functions, voice mails in communication systems, etc. The present invention relates to an easy-to-use voice storage and playback device that can play back at high speed (fast speech at double speed or higher).

〔従来の技術〕[Conventional technology]

従来、蓄積した音声を高速に再生する装置あるいは手法
として、 (1)特開昭57−85099号に開示されている如く
、サンプリングクロックと出力クロックの比で、時間軸
を変換する装置 (2)特開昭59−75295号に開示されている如く
、休止区間の長さを調整することにより、音声の再生速
度を変える装置 (3)アイ・イー・イー・イー、トランザクションオン
アコースティクス、スピーチアンドシグナルプロセシン
グ、エイニスエスピー 27(1979年)第121〜133頁(I E E 
E 、 Trans。
Conventionally, devices or methods for reproducing stored audio at high speed include (1) a device that converts the time axis based on the ratio of the sampling clock to the output clock, as disclosed in Japanese Patent Laid-Open No. 57-85099 (2) As disclosed in Japanese Unexamined Patent Publication No. 59-75295, a device for changing the playback speed of audio by adjusting the length of the pause section (3) IE, Transaction on Acoustics, Speech and Signal Processing, Ainis Sp. 27 (1979) pp. 121-133 (IEE
E, Trans.

Acoustics、5peech and Sign
al Process−ing、 A S S P−2
7(1979)、pp、121−133)において論じ
られている如く、音声のピッチ単位で波形を間引いて出
力する手法 等が知られている。
Acoustics, 5peech and Sign
al Processing, ASSP-2
7 (1979), pp. 121-133), a method is known in which the waveform is thinned out and output in units of voice pitch.

〔発明が解決しようとする課題〕[Problem to be solved by the invention]

上記従来技術には、それぞれ、下記の如き問題があった
Each of the above conventional techniques has the following problems.

(1)は、音質について配慮がなされておらず、音声が
テープレコーダを早回し再生したように甲高い声に変化
して、話者の特徴が失なわれるという点 (2)は、音声のポーズを削除するため、発声内容が不
自然になるとともに、意味が不明確になるばかりでなく
、それほどの高速性能が得られないという点 (3)は、音質を変えずにある程度まで高速に再生でき
るので、音声メモ等の音声蓄積再生装置には好適な手法
であるが、未だ、2倍以上の高速再生の手法と装置化に
ついての配慮がなされておらず、2倍速以上の再生を実
現するには如何に間引いて行くかという点、また、フレ
ーム単位で音声を扱う音声蓄積再生装置に適用する場合
、如何に実時間で処理するかという点 に問題があった。
In (1), no consideration has been given to the sound quality, and the voice changes to a high-pitched voice, as if played on a tape recorder at high speed, and the characteristics of the speaker are lost.In (2), there are pauses in the voice. , the uttered content becomes unnatural and the meaning becomes unclear, and the high-speed performance cannot be obtained.The point (3) is that it is possible to play back at a certain high speed without changing the sound quality. Therefore, this method is suitable for audio storage and playback devices such as voice memos, but no consideration has yet been given to methods and equipment for playback at twice the speed or higher, and it is difficult to achieve playback at twice the speed or higher. There are problems in how to thin out the audio data, and in how to process it in real time when applied to an audio storage and playback device that handles audio in units of frames.

本発明は上記事情に鑑みてなされたもので、その目的と
するところは、従来の技術における上述の如き問題を解
消し、フレーム単位で音声を入力して、2倍速以上のピ
ッチ単位の波形間引きを実時間で処理可能な、比較的小
型の音声蓄積再生装【を提供することにある。
The present invention has been made in view of the above circumstances, and its purpose is to solve the above-mentioned problems in the conventional technology, input audio in frame units, and thin out the waveform in pitch units at twice the speed or more. The object of the present invention is to provide a relatively small-sized audio storage and playback device that can process audio in real time.

C課題を解決するための手段〕 本発明の上述の目的は、音声を符号化して蓄積し、蓄積
した符号化音声を読出して復号し、音声のピッチ単位で
波形を間引いて、ディジタル/アナログ変換回路を介し
て出力する音声蓄積再生装置において、前記復号した音
声を蓄える第1のメモリと、ピッチ単位で波形を間引い
た音声を蓄える第2のメモリと、前記第1のメモリの音
声と前記第2のメモリの音声を選択して人力し、ピッチ
単位で波形を間引いて前記第2のメモリに出力する間引
き処理手段とを設けたことを特徴とする音声蓄積再生装
置によって達成される。
Means for Solving Problem C] The above-mentioned object of the present invention is to encode and store audio, read out and decode the stored encoded audio, thin out the waveform in pitch units of the audio, and perform digital/analog conversion. In the audio storage and playback device that outputs the audio through a circuit, a first memory stores the decoded audio, a second memory stores audio whose waveform is thinned out in pitch units, and the audio in the first memory and the audio in the first memory are stored. This is achieved by an audio storage and reproducing apparatus characterized in that it is provided with a thinning processing means for selecting and manually inputting audio from the second memory, thinning out the waveform in units of pitches, and outputting the waveform to the second memory.

〔作用〕[Effect]

本発明に係る音声蓄積再生装置においては、前記第1の
メモリには、符号化音声を復号した音声波形を蓄える。
In the audio storage and playback device according to the present invention, the first memory stores audio waveforms obtained by decoding encoded audio.

前記間引き処理手段は、まず、前記第1のメモリから2
ピッチ分の波形(vi、およびvi、、ここで、viは
復号した音声波形の1ピッチ分を表す)を入力して1ピ
ツチ長に間引き。
The thinning processing means first performs the thinning process from the first memory.
Waveforms for pitches (vi and vi, where vi represents one pitch of the decoded audio waveform) are input and thinned to one pitch length.

前記第2のメモリに出力する(voいvOは間引き後の
1ピツチ長の波形を表す)。これを第1段の間引きとい
う。
It is output to the second memory (voi vO represents a 1-pitch-length waveform after thinning). This is called the first stage of thinning.

次に、間引き処理手段は、前記第2のメモリからvO□
、また第1のメモリから次の1ピツチ長の波形vi、を
入力し、再び1ピツチ長に間引いて、第2のメモリの第
1段の間引きと同一の番地に書込む(vot)−これを
第2段の間引きという。
Next, the thinning processing means extracts vO□ from the second memory.
, and inputs the next 1-pitch length waveform vi from the first memory, decimates it to 1-pitch length again, and writes it to the same address in the second memory as the first stage decimated (vot). is called the second stage of thinning.

このように2段の間引きを行うことによって、3ピツチ
長の音声波形(vi、〜vi、)が1ピツチ長の波形(
vo、)に短縮され、録音時間に比べて173の早口再
生が可能になる。
By performing two-stage thinning in this way, the 3-pitch-length audio waveform (vi, ~vi,) is changed to the 1-pitch-length waveform (
vo, ), making it possible to play back 173 times faster than the recording time.

〔実施例〕〔Example〕

以下1本発明の実施例を図面に基づいて詳細に説明する
EMBODIMENT OF THE INVENTION Below, one embodiment of the present invention will be described in detail based on the drawings.

第1図は1本発明の一実施例を示す構成図である。図に
おいて、1はマイク、2は増幅およびAID変換回路、
3はCCITT G、721勧告に準拠したADPCM
エンコーダ、Mlはマイク1から入力して増幅し、8K
HzサンプリングでA/D変換後、上記ADPCMエン
コーダ3で32Kb/sに符号化した音声を蓄積する、
比較的大容量のメモリ、また、M2は1フレーム分(例
えば40m5に相当する320サンプル点)の符号化音
声を蓄えるメモリ、4はフレーム単位で符号化音声を音
声波形に復号する、CCITT勧告に準拠したADPC
Mデコーダ、M3は1フレーム前の間引き処理で残った
音声波形(Vzと言う)と、復号した1フレーム分の音
声波形(Vfと言う)を蓄えるメモリを示す(以下、V
zとVfを総称してVtと言う)。
FIG. 1 is a block diagram showing an embodiment of the present invention. In the figure, 1 is a microphone, 2 is an amplification and AID conversion circuit,
3 is ADPCM compliant with CCITT G, 721 recommendation
Encoder, Ml inputs from microphone 1 and amplifies it, 8K
After A/D conversion with Hz sampling, the audio encoded at 32 Kb/s by the ADPCM encoder 3 is stored.
A relatively large capacity memory, M2 is a memory that stores encoded audio for one frame (for example, 320 sample points corresponding to 40m5), and 4 is a memory that decodes encoded audio into audio waveforms in frame units, according to CCITT recommendations. ADPC compliant
The M decoder M3 indicates a memory that stores the audio waveform (referred to as Vz) remaining from the thinning process of one frame before and the audio waveform for one decoded frame (referred to as Vf) (hereinafter referred to as V
z and Vf are collectively called Vt).

MCUは、音声蓄積時にはA D P CMエンコーダ
3の出力をMlに取込み、再生時には転送要求信号TR
EQが入力される度に、Mlにある符号化音声を1フレ
ームずつM2に転送して、転送が終わるとADPCMデ
コーダ3を起動(FRUN)する、マイクロコンピュー
タを中心に構成される転送制御回路である。PWRは、
M3の音声波形Vfを読出してフレームのパワ(電力)
を計算し、パワが予め設定された閾値以上のときは有声
フレーム、閾値未満のときは無音または無声フレームで
あると判定(V/U判定)してフラグの形態(VUF)
で出力するパワ処理回路である。
The MCU captures the output of the ADP CM encoder 3 into Ml during audio storage, and transfers the transfer request signal TR during playback.
This is a transfer control circuit mainly composed of a microcomputer that transfers the encoded audio in M1 to M2 frame by frame every time EQ is input, and starts (FRUN) the ADPCM decoder 3 when the transfer is completed. be. PWR is
Read the audio waveform Vf of M3 and calculate the power of the frame
is calculated, and if the power is above a preset threshold, it is determined to be a voiced frame, and if it is less than the threshold, it is determined to be a silent or unvoiced frame (V/U determination), and a flag is set (VUF).
This is a power processing circuit that outputs power.

また、PTHは、有声7L/−ム(VTJF=1)(7
)ときはVfを読出してフレームのピッチ(基本周波数
:P)を計算して出力し、VUF=OのときはPを予め
決められた値2例えば、106(単位はサンプル点数)
に設定して出力する ピッチ処理回路を示している。T
DSは、M3から音声波形Vt或いはM4から音声波形
Voを読出してピッチ(P)単位で波形を間引いて行き
、間引いた波形を再びM4に書込むとともに、Vtの波
形数がピッチの整数倍でないために間引き処理できなか
った残波形VzをM3の一定の番地に移動する間引き処
理回路である。
In addition, PTH is voiced 7L/-m (VTJF=1) (7
), read Vf, calculate and output the frame pitch (fundamental frequency: P), and when VUF=O, set P to a predetermined value 2, for example, 106 (unit is the number of sample points)
This shows the pitch processing circuit that outputs the settings. T
The DS reads the audio waveform Vt from M3 or the audio waveform Vo from M4, thins out the waveform in units of pitch (P), writes the thinned out waveform to M4 again, and checks that the number of waveforms in Vt is not an integral multiple of the pitch. This is a decimation processing circuit that moves the residual waveform Vz that could not be decimated due to the above reason to a fixed address in M3.

M4は間引き処理回路による書込み/読出しのアクセス
と、出力制御回路による読出しのアクセスが並行して可
能な2頁構成の出力波形メモリ。
M4 is a two-page output waveform memory that allows write/read access by the thinning processing circuit and read access by the output control circuit in parallel.

また、OCTは1M4のTDSが書込み/読出しをして
いる頁とは別な頁から、サンプリング周期(8KH2)
毎に出力波形Voutを読出してD/A変換回路5に出
力し、設定された数Noutの読出しが終了すると、T
REQをMCUに出力するとともに、M4の頁を切替え
て出力波形を読出す出力制御回路である。
In addition, OCT uses a sampling period (8KH2) from a page different from the page that TDS of 1M4 is writing/reading.
The output waveform Vout is read out every time and outputted to the D/A conversion circuit 5, and when the set number Nout has been read out, T
This is an output control circuit that outputs REQ to the MCU, switches the page of M4, and reads out the output waveform.

メモリの詳細な構成を、第2図(a)〜(d)に示す。The detailed structure of the memory is shown in FIGS. 2(a) to 2(d).

図中、M1〜M4は、それぞれ第1図と対応している。In the figure, M1 to M4 correspond to those in FIG. 1, respectively.

Mlには 1フレーム320サンプル点分のADPCM
符号化音声AVがフレーム類kn(F=1.2゜・・・
、N)蓄積されている。符号化音声は、例えば、図(a
)下段のように4サンプル点分が1ワードにパックされ
ているので、1フレーム当り80ワードになる。M2に
は、(b)に示す如<Mlから転送された1フレーム分
の符号化音声AV(F=i)の他に、パワ処理回路PW
RがV/U判定を行うために読出す閾値PWRTH、ピ
ッチ処理回路PTHがピッチ計算で使用する波形の相関
閾値PTTH、ピッチ探索範囲PTMIN、PTMAX
、間引き処理回路TDSが使用する間引き速度のパター
ンCPATが蓄えられている。
Ml has ADPCM of 320 sample points per frame.
The encoded audio AV is of frame type kn (F=1.2°...
, N) are accumulated. The encoded speech is, for example, as shown in figure (a
) As shown in the lower row, four sample points are packed into one word, so there are 80 words per frame. As shown in (b), M2 includes a power processing circuit PW in addition to one frame of encoded audio AV (F=i) transferred from Ml.
Threshold value PWRTH read by R to perform V/U judgment, correlation threshold value PTTH of the waveform used by pitch processing circuit PTH in pitch calculation, pitch search range PTMIN, PTMAX
, the thinning speed pattern CPAT used by the thinning processing circuit TDS is stored.

第2図(b)に示したCPATは、2.5倍速再生のた
めの値で、 cpは1,1,0,1,0,1,1,0,1,0.・・
・−とピッチ毎に周期的に読出される(“1″のときに
間引く)、2倍速再生の場合、MCUが、Ct=(00
10) Cp =(10) と設定することにより Cpは1,0,1,0.・・・ のように読出される。3倍速再生では、Ct=(001
1) Cp=(110) と設定し、 Cpは1,1,0,1,1,0.・・・・のように読出
される。
The CPAT shown in FIG. 2(b) is a value for 2.5x playback, and cp is 1, 1, 0, 1, 0, 1, 1, 0, 1, 0...・・・
・In the case of double speed playback, which is read out periodically for each pitch of - (thinned out when it is "1"), the MCU has Ct = (00
10) By setting Cp = (10), Cp becomes 1,0,1,0. ... is read out as follows. For 3x speed playback, Ct=(001
1) Set Cp=(110), and Cp is 1, 1, 0, 1, 1, 0. It is read out as follows.

間引き速度のパターンCPATは、上に示した如く、M
CUによってフレーム単位で設定することができる。
As shown above, the thinning speed pattern CPAT is M
It can be set in units of frames by the CU.

M3には第i−1フレームの間引き処理で残った人波形
Vz(F=i−1)が1番地からIz番地に、第1フレ
ームの波形Vf(F=i)がI z+1番地から I 
z +320番地に蓄えられている。人波形については
、一般に1フレームのサンプル数NとnXP(Pはピッ
チに相当するサンプル数、nは自然数)は等しくないの
で、 I z =(I z’+N) −n X Pのサンプル
点の波形Vzが、未処理で残る。ここに、Iz’は1フ
レーム前の残波形数を示す。
In M3, the human waveform Vz (F=i-1) remaining from the thinning process of the i-1 frame is transferred from address 1 to Iz, and the waveform Vf (F=i) of the first frame is transferred from address Iz+1 to I.
It is stored at address z+320. Regarding human waveforms, generally the number of samples in one frame N and nXP (P is the number of samples corresponding to the pitch, n is a natural number) are not equal, so I z = (I z' + N) - n X P sample points The waveform Vz remains unprocessed. Here, Iz' indicates the number of residual waveforms one frame before.

M4は、間引き処理回路TDSと出力制御回路OCTが
並行してアクセスできるように2頁で構成されたメモリ
であり、間引き処理をした出力波形■0が蓄えられる。
M4 is a two-page memory that can be accessed in parallel by the thinning processing circuit TDS and the output control circuit OCT, and stores the thinned out output waveform (2).

TDSがM4のある頁を書込み/続出しアクセスしてい
るとき、OCTは他方の頁に蓄えられている1フレーム
前の間引き結果Voutを読出して、D/A変換回路に
送出する。
When the TDS is writing/continuously accessing a certain page of M4, the OCT reads the thinning result Vout of the previous frame stored in the other page and sends it to the D/A conversion circuit.

上述の如く構成された本実施例の動作を、以下第3図〜
第5図を用いて説明する。第3図は、装置全体の動作を
フローチャートで示したもの、第4図は、ピッチ単位で
波形を間引<TDSの動作の詳細を示したもの、第5図
は、全体の動作タイミングを示したものである。
The operation of this embodiment configured as described above is shown in Figures 3 to 3 below.
This will be explained using FIG. Figure 3 shows the operation of the entire device as a flowchart, Figure 4 shows the details of the operation of thinning the waveform in pitch units < TDS, and Figure 5 shows the overall operation timing. It is something that

第3図において、PLAYは蓄積した音声の再生を開始
する入口を示す。まず、転送制御回路MCUは、残波形
数Izを0にして、MlからM2に第1フレームの符号
化音声(AV(F=1))、間引き速度のパターンCP
AT等を転送し、信号FRUNによりADPCMデコー
ダ4を起動する。
In FIG. 3, PLAY indicates an entry point for starting playback of stored audio. First, the transfer control circuit MCU sets the number of remaining waveforms Iz to 0, and transfers the encoded audio (AV (F=1)) of the first frame from M1 to M2, and the thinning rate pattern CP.
AT etc. are transferred, and the ADPCM decoder 4 is activated by the signal FRUN.

該デコーダ4は、M2の符号化音声を読出して、音声波
形(V f (F = 1 ))ニ復号し、VfをM3
に書込む。デコードが終了すると、パワ処理回路PWR
が、M3から音声波形(Vf)を読出して、パワを計算
し、有声/無声の判定をする(VUF)。
The decoder 4 reads the encoded voice of M2, decodes the voice waveform (V f (F = 1)), and converts Vf into M3.
write to. When the decoding is completed, the power processing circuit PWR
reads the voice waveform (Vf) from M3, calculates the power, and determines voiced/unvoiced (VUF).

次に、ピッチ処理回路PTHは、フレームが有声(VU
F=1)のときにはピッチ(P)を計算し、無音、無声
のときにはPを106に設定する。
Next, the pitch processing circuit PTH determines whether the frame is voiced (VU
When F=1), the pitch (P) is calculated, and when there is no sound or no voice, P is set to 106.

間引き処理回路TDSは、Vt(Iz点のVzと320
点のVf)を処理の対象にするので、図中のステップT
DS1で残波形数をI z +320に設定する。(第
1フレームでは残波形数は0なので、ここでI z =
320に設定される。)続いて、間引き処理回路TDS
は1間引き速度のパターンCPに応じて、ピッチP単位
にIz点の音声波形Vtの間引きを行う。これを第4図
を用いて詳細に説明する。
The thinning processing circuit TDS has Vt (Vz at point Iz and 320
Since the point Vf) is to be processed, step T in the figure
The number of residual waveforms is set to I z +320 in DS1. (In the first frame, the number of residual waveforms is 0, so here I z =
320. ) Next, the thinning processing circuit TDS
decimates the audio waveform Vt at point Iz in units of pitch P in accordance with pattern CP of 1 decimation speed. This will be explained in detail using FIG. 4.

第4図は、2.5倍速再生(Cp=1,1,0,1,0
.1,1,0,1.O,・・・・・の繰返し)、第1フ
レームのピッチP 1 =58(単位はサンプル点数、
周波数単位では138Hz)、第2フレームのピッチP
2=65(123Hz)としたときの間引きの動作例を
示す。
Figure 4 shows 2.5x playback (Cp=1,1,0,1,0
.. 1, 1, 0, 1. (repetition of O, ...), pitch of the first frame P 1 = 58 (unit: number of sample points,
138Hz in frequency units), pitch P of the second frame
An example of thinning operation when 2=65 (123 Hz) is shown.

(1)第1フレームではI z =320を初期値にし
て、間引きを開始する6まず、Cp=1(この場合は、
第1番目の1)で Iz≧2P1なのでytをピッチ単
位に間引く。すなわち、M3の1〜2P1番地から2P
1点の波形Vtを読出して、それぞれの波形に図示した
窓関数Wを乗じた後、左半分の1ピッチ分の波形と、P
lだけ隔たった右半分の1ピッチ分の波形を加算して出
力波形vOを得、M4の1〜P1番地に格納する。これ
を式で示せば、 Do  τ=1.PL τ −1 DO τ=1.PL END   D。
(1) In the first frame, set I z = 320 as the initial value and start thinning.6 First, Cp = 1 (in this case,
In the first step 1), since Iz≧2P1, yt is thinned out in pitch units. That is, from address 1 to 2P1 of M3, 2P
After reading out the waveform Vt at one point and multiplying each waveform by the window function W shown in the figure, the waveform for one pitch in the left half and the waveform P
The output waveform vO is obtained by adding the waveforms for one pitch in the right half separated by l, and is stored in addresses 1 to P1 of M4. Expressing this as a formula, Do τ=1. PL τ −1 DO τ=1. PL END D.

となり、2ピッチ分のVtが1ピツチ長のvOに間引か
れる。間引いた後は、 Iz=Iz−2P1 =320−116=204 に残波形数を更新し、CpとしてM2から次のパターン
を読出しておく。以上が第3図のステップTDS2の説
明である。
Thus, Vt for two pitches is thinned out to vO of one pitch length. After thinning out, the number of remaining waveforms is updated to Iz=Iz-2P1=320-116=204, and the next pattern is read out from M2 as Cp. The above is the explanation of step TDS2 in FIG.

(2)次に、Cp=1(この場合は、第2番目の1)で
Iz≧P1なので、ステップTDS3で示される第2段
目の間引きを行う。M4の1〜P1番地から21点の波
形(すなわち、前記V o )を、M3の2P1+1〜
3P1番地から21点の波形を読出して、それぞれの波
形に窓関数Wを乗じた後、加算して出力波形vOを得、
再びM4の1〜P1番地に格納する。これを式で示せば
(2) Next, since Cp=1 (in this case, the second 1) and Iz≧P1, the second stage of thinning indicated by step TDS3 is performed. The 21-point waveform (i.e., the V o ) from addresses 1 to P1 of M4 is transferred from 2P1+1 to M3.
Read the 21-point waveform from address 3P1, multiply each waveform by the window function W, and then add them to obtain the output waveform vO.
It is stored again in addresses 1 to P1 of M4. If we show this in a formula.

END   D。END D.

となる。間引いた後は、 Iz=Iz−PL = 204−58 = 146 に残波形数を更新し、CpとしてM2からピッチに対応
して、次の次のパターンを読出しておく。
becomes. After thinning out, the number of remaining waveforms is updated to Iz=Iz-PL=204-58=146, and the next next pattern is read out as Cp from M2 corresponding to the pitch.

以上が第3図のステップTDS3の説明である。The above is the explanation of step TDS3 in FIG.

上に示したように、(1)と(2)で3ピッチ分のVt
が1ピツチ長のvOに間引かれる。(2)を終了して第
3図のラベルtに戻る。
As shown above, (1) and (2) provide Vt for 3 pitches.
is thinned out to vO of one pitch length. After completing (2), return to label t in FIG.

(3)Cp=1(この場合は、第3番目の1)でIz=
146≧2PLなので、再びステップTDS2を行う。
(3) Cp=1 (in this case, the third 1) and Iz=
Since 146≧2PL, step TDS2 is performed again.

すなわち、M3の3P1+1〜5P1番地から2P1点
の波形vしを読出して、(1)と同様にして出力波形v
Oを得、これをM4のP1+1〜2P1番地に格納する
。残波形数を Iz=Iz−2P1 = 146−116=30 に更新し、CpとしてM2から次のパターンを読出して
おく。
That is, read out the waveform v of 2P1 point from addresses 3P1+1 to 5P1 of M3, and create the output waveform v in the same manner as in (1).
O is obtained and stored in addresses P1+1 to 2P1 of M4. The number of remaining waveforms is updated to Iz=Iz-2P1=146-116=30, and the next pattern is read out from M2 as Cp.

(4)次に、Cp=O(ここでは、第2番目のO)なの
で、次のパターンを読出してラベルtに戻る。
(4) Next, since Cp=O (here, the second O), read out the next pattern and return to label t.

(5)Cp=1(第2周期日の第1番目の1)であるが
、I z =30< P 1なので、M3の5P1+1
〜5P1+I z番地の波形を、人波形としてM3の1
〜Iz番地に移動する。
(5) Cp=1 (first 1 on the second cycle day), but since I z =30<P 1, 5P1+1 of M3
~5P1+I The waveform at address z is M3's 1 as a human waveform.
~Move to address Iz.

(6)出力制御回路OCTは、M4の頁を切替えて第2
フレームの符号化音声転送要求信号TREQをMCUに
出力し、第1フレームの間引き処理を終了する(第3図
ラベルfに戻る)。
(6) The output control circuit OCT switches the page of M4 and
The frame encoded audio transfer request signal TREQ is output to the MCU, and the first frame thinning process is completed (return to label f in FIG. 3).

このように、第1フレームでは320点の入力波形Vt
をピッチ単位で間引いた結果、2ピツチ長(116点)
の出力波形Voutが得られる。なお、残波形数Izは
30点である。
In this way, in the first frame, the input waveform Vt of 320 points
As a result of thinning out by pitch unit, 2 pitch length (116 points)
An output waveform Vout is obtained. Note that the number of remaining waveforms Iz is 30 points.

第2フレームの符号化音声に対する処理は、ラベルfか
ら開始する。Iz=30なので、ステップTDS1で、 I z = I z +320=350に設定される。
Processing for the encoded audio of the second frame starts from label f. Since Iz=30, Iz=Iz+320=350 is set in step TDS1.

なお、M3の1〜30番地には、第1フレームの人波形
VZ(F=1)が格納されており、また31〜350番
地には、第2フレームの復号した音声波形Vf(F=2
)が格納されている。以下、TDSの動作は、第1フレ
ームと同様で、ピッチP2=65単位でVtを間引いて
行く。その結果、Voutは130点、Izは25点に
なる。
Note that the human waveform VZ (F=1) of the first frame is stored in addresses 1 to 30 of M3, and the decoded voice waveform Vf (F=2) of the second frame is stored in addresses 31 to 350.
) are stored. Hereinafter, the TDS operation is the same as in the first frame, and Vt is thinned out in units of pitch P2=65. As a result, Vout becomes 130 points and Iz becomes 25 points.

以下、同様にして、MCUによるフレーム数管理の下で
、Mlに蓄積された符号化音声の全フレームの処理が終
了すれば、第3図の5TOPに進んで、再生を終える。
Thereafter, in the same manner, when all frames of the encoded audio stored in M1 have been processed under the frame number management by the MCU, the process advances to 5TOP in FIG. 3 and the playback ends.

なお、第3図のステップTDS4は、Cp=0でIz≧
Pのときは、間引かないで、1ピッチ分の波形をそのま
まM3(Vt)からM4(Vo)に出力する動作を示し
ている。このときには、Iz=Iz−Pに残波形数を更
新して、次のCpをM2から読出しておく。ステップT
DS4は、例えば1.5倍速再生(CP ” 1 r 
Or Or・・・・)で第2番目のOのときに動作する
Note that in step TDS4 in FIG. 3, Cp=0 and Iz≧
P indicates an operation in which the waveform for one pitch is directly output from M3 (Vt) to M4 (Vo) without being thinned out. At this time, the number of remaining waveforms is updated to Iz=Iz-P, and the next Cp is read from M2. Step T
DS4, for example, can play at 1.5x speed (CP" 1 r
Or Or...) and operates when the second O is selected.

ステップTDS5は、Cp=1で、2P>Iz≧Pのと
きには、1ピッチ分の波形を、そのままM3からM4に
出力する動作を示している。このときは、Iz=Iz−
Pに残波形数を更新して、次のCpをM2から読出して
おく。ステップTDS5はリアルタイム処理のために必
要な動作で。
Step TDS5 indicates an operation in which when Cp=1 and 2P>Iz≧P, the waveform for one pitch is directly output from M3 to M4. At this time, Iz=Iz−
The number of remaining waveforms is updated in P, and the next Cp is read from M2. Step TDS5 is an operation necessary for real-time processing.

例えば、P = 163(49Hz )でV t <3
26点なるフレームにおいて、出力波形vOのサンプル
数Noutが0点になることを回避する動作を示してい
る。
For example, P = 163 (49 Hz) and V t <3
This shows an operation to avoid the number of samples Nout of the output waveform vO from becoming 0 points in a frame of 26 points.

ステップTDS6は、1フレーム分の波形を間引いた結
果、Noutが96点未満のときには、M4に書込まれ
たVoの最終の1ピッチ分を2度繰返して出力すること
を示している。これは、現状のハードウェア(例えば、
ディジタル・シグナルプロセッサ)を使用して、1フレ
ームのADPCMデコード処理等に最低96サンプル時
間(12ms)が必要なためである。
Step TDS6 indicates that when Nout is less than 96 points as a result of thinning out one frame's worth of waveforms, the last one pitch of Vo written in M4 is repeated twice and output. This is based on current hardware (e.g.
This is because a minimum of 96 sample times (12 ms) are required for one frame of ADPCM decoding using a digital signal processor (digital signal processor).

最後に、装置の動作タイミングを、第5図を用いて説明
する。出力制御回路OCTは、前述のデコーダ4.パワ
処理回路PWR,ピッチ処理回路P T Hおよび間引
き処理回路TDSが、第iフレームの音声を処理して出
力波形をM4のある頁に書込んでいるとき、M4の別な
頁から第i−1フレームの音声を処理したNi−1点の
出力波形Vout(F = i  1 )をサンプリン
グ周期毎に読出して、D/A変換回路に出力している。
Finally, the operation timing of the device will be explained using FIG. 5. The output control circuit OCT includes the aforementioned decoder 4. When the power processing circuit PWR, the pitch processing circuit PTH, and the thinning processing circuit TDS are processing the audio of the i-th frame and writing the output waveform to a certain page of M4, the i-th The output waveform Vout (F = i 1 ) of Ni-1 points obtained by processing one frame of audio is read out at every sampling period and output to the D/A conversion circuit.

上記Nj−1は前述のNout(i−1)と同じで、出
力制御回路OCTにあるカウンタに、第i−1フレーム
の間引き処理が終了したときにロードされているもので
ある。
The above Nj-1 is the same as the above-mentioned Nout(i-1), and is loaded into the counter in the output control circuit OCT when the thinning process of the i-1th frame is completed.

Ni−1点のD/A出力が終了すると、出力制御回路O
CTは、第i+1フレームの符号化音声をM2に転送す
る要求TREQを、MCUに発生し、M4の読出し頁を
切替えて、次のサンプリングタイミングからはNi点の
Vout(F = i )のD/A出力を開始する。
When the D/A output of Ni-1 point is completed, the output control circuit O
The CT generates a request TREQ to the MCU to transfer the encoded audio of the i+1th frame to M2, switches the read page of M4, and from the next sampling timing, D/ of the Ni point Vout (F = i). Start A output.

このように、本装置は、125XNi(μ5ec)を区
切りにして、フレーム毎の音声をピッチ単位で間引き処
理して行く。
In this manner, the present apparatus thins out the audio of each frame in units of pitch, using 125XNi (μ5ec) as a delimiter.

上記実施例においては、主として、蓄積した音声の再生
について説明したが、音声の蓄積については、マイクか
ら入力して増幅し、8KHzサンプリングでA/D変換
後、ADPCMエンコーダ3で32Kb/s(4ビツト
/サンプリング)に符号化して比較的大容量のメモリM
1に蓄積するわけで、従来と同様と考えて良い。
In the above embodiment, the explanation has mainly been given to the playback of the stored audio, but regarding the storage of the audio, it is input from the microphone, amplified, A/D converted with 8KHz sampling, and then converted to 32Kb/s (4Kb/s) by the ADPCM encoder 3. bits/sampling) and a relatively large capacity memory M.
1, so it can be considered to be the same as before.

上記実施例においては、音声の符号化方式としてCCI
 TT G、721勧告に準拠したADPCM方式を用
いた例を示したが、これは、他の方式によっても良いこ
とは言うまでもない。例えば、音声の符号化方式として
PARCOR方式を用い、第1図のADPCMエンコー
ダをPARCOR分析器で、また、デコーダ4をPAR
COR合成器で構成して、PARCOR分析では、1フ
レームの音声のスペクトルパラメータと、音源情報とし
てV/Uフラグとピッチを計算する。この情報を前記M
1とM2に蓄える。この場合には、第1図のパワ処理回
路PWRおよびピッチ処理回路PTHは、M2に転送さ
れたV/Uフラグおよびピッチを読出す回路となる。
In the above embodiment, CCI is used as the audio encoding method.
Although an example using the ADPCM method based on the TTG, 721 recommendation has been shown, it goes without saying that other methods may also be used. For example, if the PARCOR method is used as the audio encoding method, the ADPCM encoder in FIG. 1 is replaced by a PARCOR analyzer, and the decoder 4 is
It is configured with a COR synthesizer, and in PARCOR analysis, the spectral parameters of one frame of audio and the V/U flag and pitch are calculated as sound source information. This information is
Store in 1 and M2. In this case, the power processing circuit PWR and pitch processing circuit PTH in FIG. 1 become circuits that read the V/U flag and pitch transferred to M2.

また、無声フレーム(子音など)に対しては1間引きを
行うと明瞭性が低下して音質が劣化する場合がある。こ
れを回避するために、間引き処理回路TDSは、無声フ
レームでは、間引きを行わずにM3の波形vtをそのま
ま出力波形としてM4に書込む回路としても良い。
Furthermore, if unvoiced frames (such as consonants) are thinned out by one, the clarity may decrease and the sound quality may deteriorate. In order to avoid this, the thinning processing circuit TDS may be a circuit that writes the waveform vt of M3 as it is to M4 as an output waveform without thinning out in the unvoiced frame.

なお、話者により発声速度が異なるのを微調整するよう
な場合にも、前述の間引き速度のパターンCPATを、
MCUによってフレーム単位で設定することで、対処す
ることができる。
In addition, even when fine-tuning the difference in speaking speed depending on the speaker, the thinning speed pattern CPAT described above can be used.
This can be handled by setting the MCU in units of frames.

〔発明の効果〕〔Effect of the invention〕

以上述べた如く、本発明によれば、音声を符号化して蓄
積し、蓄積した符号化音声を読出して復号し、音声のピ
ッチ単位で波形を間引いて、ディジタル/アナログ変換
回路を介して出力する、音声蓄積再生装置において、−
旦ピッチ単位で波形を間引いた音声に対して、繰返して
ピッチ単位で波形を間引く手段を設けたので、録音時間
に対して172以下の短時間で再生可能な、比較的小型
の音声蓄積再生装置を実現できるという効果を奏するも
のである。
As described above, according to the present invention, audio is encoded and stored, the stored encoded audio is read out and decoded, the waveform is thinned out in pitch units of the audio, and the waveform is output via a digital/analog conversion circuit. , in the audio storage and playback device, −
A relatively small-sized audio storage and playback device that can reproduce the sound in a short time of 172 pixels or less compared to the recording time because it is provided with a means to repeatedly thin out the waveform in pitch units for the sound whose waveform has been thinned out in pitch units. This has the effect of realizing the following.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例を示す構成図、第2図はメモ
リの詳細な構成を示す図、第3図は装置全体の動作を示
すフローチャート、第4図はピッチ単位で波形を間引<
TDSの動作の詳細を示す図、第5図は全体の動作タイ
ミングを示す図である。 Ml:メモリ、M2:フレームメモリ、4:ADPCM
デコーダ、M3:波形メモリ、PWR:パワ処理回路、
PTH:ピッチ処理回路、TDS:間引き処理回路、M
4:出力波形メモリ、OCT:出力制御回路1MCU:
転送制御回路。 図(その2) (d) 第 図(その3) 第 図(その2) 第 図(その1)
Fig. 1 is a block diagram showing an embodiment of the present invention, Fig. 2 is a diagram showing the detailed structure of the memory, Fig. 3 is a flowchart showing the operation of the entire device, and Fig. 4 shows waveform intervals in pitch units. Pull<
FIG. 5 is a diagram showing details of the operation of the TDS, and FIG. 5 is a diagram showing the overall operation timing. Ml: Memory, M2: Frame memory, 4: ADPCM
Decoder, M3: waveform memory, PWR: power processing circuit,
PTH: pitch processing circuit, TDS: thinning processing circuit, M
4: Output waveform memory, OCT: Output control circuit 1MCU:
Transfer control circuit. Figure (Part 2) (d) Figure (Part 3) Figure (Part 2) Figure (Part 1)

Claims (1)

【特許請求の範囲】 1、音声を符号化して蓄積し、蓄積した符号化音声を読
出して復号し、音声のピッチ単位で波形を間引いて、デ
ィジタル/アナログ変換回路を介して出力する音声蓄積
再生装置において、ピッチ単位で波形を間引いた音声に
対して、繰返してピッチ単位で波形を間引く処理を行う
手段を設けたことを特徴とする音声蓄積再生装置。 2、復号した音声を蓄える第1のメモリと、ピッチ単位
で波形を間引いた音声を蓄える第2のメモリと、前記第
1のメモリの音声と前記第2のメモリの音声を選択して
入力し、ピッチ単位で波形を間引いて前記第2のメモリ
に出力する間引き処理手段とを設けたことを特徴とする
、請求項1記載の音声蓄積再生装置。 3、所定の間引きパターンに応じて前記第1のメモリの
音声と前記第2のメモリの音声を選択して入力し、ピッ
チ単位で波形を間引いて前記第2のメモリに出力し、ま
た、間引きパターンによっては、前記第1のメモリの音
声をピッチ単位でそのまま前記第2のメモリに出力する
間引き処理手段を設けたことを特徴とする、請求項2記
載の音声蓄積再生装置。 4、1フレーム毎に、音声を符号化して蓄積し、蓄積し
た符号化音声を読出して復号し、音声のピッチ単位で波
形を間引いて、ディジタル/アナログ変換回路を介して
出力する音声蓄積再生装置において、復号した1フレー
ム分の音声を蓄える第1のメモリと、ピッチ単位で、波
形を間引いた音声を蓄える第2のメモリと、前記第1の
メモリの音声と前記第2のメモリの音声を選択して入力
し、ピッチ単位で波形を間引いて前記第2のメモリに出
力し、前記第1のメモリ中の未処理の音声数が所定の値
以下になったときには前記第1のメモリの音声をピッチ
単位でそのまま前記第2のメモリに出力する間引き処理
手段とを設けたことを特徴とする音声蓄積再生装置。 5、1フレーム分の音声を処理した結果、前記第2のメ
モリに出力された音声数が所定の値以下の場合には、前
記第2のメモリの音声をピッチ単位で繰り返して前記第
2のメモリに付加する間引き処理手段を設けたことを特
徴とする、請求項4記載の音声蓄積再生装置。
[Claims] 1. Audio storage and playback in which audio is encoded and stored, the stored encoded audio is read out and decoded, the waveform is thinned out in pitch units of the audio, and the waveform is output via a digital/analog conversion circuit. 1. An audio storage and playback device, characterized in that the device is provided with means for repeatedly thinning out a waveform in pitch units for audio whose waveform has been thinned out in pitch units. 2. Select and input the audio in the first memory and the audio in the second memory into a first memory that stores decoded audio, a second memory that stores audio whose waveform has been thinned out in pitch units, and 2. The audio storage and playback device according to claim 1, further comprising a thinning processing means for thinning out the waveform in pitch units and outputting the waveform to the second memory. 3. Selecting and inputting the audio in the first memory and the audio in the second memory according to a predetermined thinning pattern, thinning out the waveform in pitch units and outputting it to the second memory, and thinning out the waveform in pitch units. 3. The audio storage and playback device according to claim 2, further comprising a thinning processing means for outputting the audio in the first memory as is in pitch units to the second memory depending on the pattern. 4. An audio storage and playback device that encodes and stores audio for each frame, reads out and decodes the stored encoded audio, thins out the waveform in units of audio pitch, and outputs it via a digital/analog conversion circuit. a first memory that stores audio for one decoded frame; a second memory that stores audio whose waveform has been thinned out in pitch units; and audio in the first memory and audio in the second memory. Select and input the waveform, thin out the waveform in pitch units, and output it to the second memory, and when the number of unprocessed sounds in the first memory becomes less than a predetermined value, the sound in the first memory is 1. A sound storage and playback device comprising: thinning processing means for outputting the sound to the second memory as is in pitch units. 5. As a result of processing one frame of audio, if the number of audio output to the second memory is less than a predetermined value, the audio in the second memory is repeated in pitch units and 5. The audio storage and playback device according to claim 4, further comprising a thinning processing means added to the memory.
JP63307475A 1988-12-05 1988-12-05 Audio storage and playback device Expired - Fee Related JP2861005B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63307475A JP2861005B2 (en) 1988-12-05 1988-12-05 Audio storage and playback device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63307475A JP2861005B2 (en) 1988-12-05 1988-12-05 Audio storage and playback device

Publications (2)

Publication Number Publication Date
JPH02153396A true JPH02153396A (en) 1990-06-13
JP2861005B2 JP2861005B2 (en) 1999-02-24

Family

ID=17969528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63307475A Expired - Fee Related JP2861005B2 (en) 1988-12-05 1988-12-05 Audio storage and playback device

Country Status (1)

Country Link
JP (1) JP2861005B2 (en)

Also Published As

Publication number Publication date
JP2861005B2 (en) 1999-02-24

Similar Documents

Publication Publication Date Title
EP0380572B1 (en) Generating speech from digitally stored coarticulated speech segments
JP2885372B2 (en) Audio coding method
EP0714089B1 (en) Code-excited linear predictive coder and decoder, and method thereof
JPH10260694A (en) Device and method for speaking speed conversion and record medium
JPS5982608A (en) System for controlling reproducing speed of sound
JP3226711B2 (en) Compressed information reproducing apparatus and compressed information reproducing method
JPH02153396A (en) Voice storing and reproducing device
JP2860991B2 (en) Audio storage and playback device
JP3189587B2 (en) Audio time base converter
JP3620787B2 (en) Audio data encoding method
JPH03233500A (en) Voice synthesis system and device used for same
JP2865714B2 (en) Audio storage and playback device
JPH0854895A (en) Reproducing device
JP3083830B2 (en) Method and apparatus for controlling speech production time length
JP3086458B2 (en) Speech synthesizer
JPS61252598A (en) Voice word editing system
JPS63234299A (en) Voice analysis/synthesization system
JPS5837697A (en) Voice memory reproducer
JPH04213500A (en) Method and device for encoding voice
JPH0329999A (en) Voice storing and reproducing device
JPS5868799A (en) Voice synthesizer
JPS62150397A (en) Voice information encoding system
JPS62100027A (en) Voice coding system
JPH08286696A (en) Speech speed conversion and decoding method
JPH0312320B2 (en)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees