JPH0219899A - Voice accumulating and reproducing device - Google Patents

Voice accumulating and reproducing device

Info

Publication number
JPH0219899A
JPH0219899A JP63170070A JP17007088A JPH0219899A JP H0219899 A JPH0219899 A JP H0219899A JP 63170070 A JP63170070 A JP 63170070A JP 17007088 A JP17007088 A JP 17007088A JP H0219899 A JPH0219899 A JP H0219899A
Authority
JP
Japan
Prior art keywords
audio
frame
waveform
memory
thinning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63170070A
Other languages
Japanese (ja)
Other versions
JP2860991B2 (en
Inventor
Kazuyuki Kodama
和行 児玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP63170070A priority Critical patent/JP2860991B2/en
Publication of JPH0219899A publication Critical patent/JPH0219899A/en
Application granted granted Critical
Publication of JP2860991B2 publication Critical patent/JP2860991B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To input voices in frames and perform waveform thinning processes at every pitch in real time by accumulating the voices after encoding and reading out and decoding the accumulated encoded voices, and then, thinning waveforms at every pitch of the voices. CONSTITUTION:A power process circuit PER reads out the voice waveform of a frame waveform memory M3 and calculates the power of a frame and outputs a voice frame in the form of a flag (VUF) by discriminating that the frame to be outputted is the voice frame when the power exceeds a preset threshold. When the power does not reach the threshold, the circuit PWR outputs a soundless or voiceless frame in the form of the flag (VUH) by discriminating that the frame to be outputted is the soundless or voiceless frame. A thinning process circuit TDS thins the waveforms at every pitch NP by reading out voice waveforms from memories M4 and M3 and restores the remaining reside waveform in the memory M4. Thus the voices are accumulated after encoding and the accumulated encoded voices are read out, decoded, and outputted through a D/A converter circuit 5 after thinning waveforms at every pitch of the voices. Therefore, voices can be inputted in frames and waveform thinning can be performed at every pitch in real time.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文書検索システムにおけるコメント等の音声
メモ、通信システムにおけるボイスメール等の音声蓄積
再生装置に関し、特に、蓄積した音声を、音質を変えず
に高速に(早口で)再生できる、使い勝手の良い音声蓄
積再生装置に関する。
[Detailed Description of the Invention] [Field of Industrial Application] The present invention relates to a voice storage and playback device for voice memos such as comments in document retrieval systems, voice mails in communication systems, etc., and in particular, the present invention relates to a voice storage and playback device for voice memos such as comments in document retrieval systems and voice mails in communication systems. This invention relates to an easy-to-use audio storage and playback device that can be played back at high speed (quickly speaking) without changing anything.

〔従来の技術〕[Conventional technology]

従来、蓄積した音声を高速に再生する装置あるいは手法
として、 (1)特開昭57−85099号に開示されている如く
、サンプリングクロックと出力クロックの比で、時間軸
を変換する装置 (2)特開昭59−75295号に開示されている如く
、休止区間の長さを調整することにより、音声の再生速
度を変える装置 (3)アイ・イー・イー・イー、トランザクションオン
アコースティックス、スピーチアンドシグナルプロセシ
ング、エイ ニスエスピー−27(1979年)第12
1〜133頁(I E E E  Trans。
Conventionally, devices or methods for reproducing stored audio at high speed include (1) a device that converts the time axis based on the ratio of the sampling clock to the output clock, as disclosed in Japanese Patent Laid-Open No. 57-85099 (2) As disclosed in Japanese Patent Application Laid-Open No. 59-75295, a device for changing the playback speed of audio by adjusting the length of the pause section (3) IE, Transaction on Acoustics, Speech & Signal Processing, Anis Sp-27 (1979) No. 12
pp. 1-133 (IEE Trans.

Acoustics、5peech and Sign
al Processing、 A S S P −2
7(1970) 、pp121−133)において論じ
られている如く、音声のピッチ単位で波形を間引いて出
力する手法 等が知られている。
Acoustics, 5peech and Sign
al Processing, ASSP-2
7 (1970), pp. 121-133), a method is known in which the waveform is thinned out and output in pitch units of speech.

〔発明が解決しようとする課題〕[Problem to be solved by the invention]

上記従来技術には、それぞれ、下記の如き問題があった
。すなわち、 (1)は、音質について配慮がなされておらず、音声が
テープレコーダを早回し再生したように甲高い声に変化
して、話者の特徴が失なわれるという点 (2)は、音声のポーズを削除するため1発声内容不自
然になるとともに意味が不明確になるばかりでなく、そ
れ程の高速性能が得られるわけでもないという点 (3)は、音質を変えずに高速に再生できるので、音声
メモ等の音声蓄積再生装置には好適な手法であるが、未
だ実験段階にあるもので装置化についての配慮はなされ
ておらず、フレーム単位で音声を取扱う音声蓄積再生装
置に適用する場合、一定時間長の波形をフレーム毎に変
動するピッチ長で如何に間引いて行くが(タイミングの
問題)という点、また、端数の波形をどのように処理す
るかという点 に問題があった。
Each of the above conventional techniques has the following problems. In other words, point (1) is that no consideration is given to the sound quality, and the voice changes to a high-pitched voice, as if playing a tape recorder at high speed, and the characteristics of the speaker are lost. By removing the pauses, the content of the utterance becomes unnatural and the meaning becomes unclear, and the high-speed performance cannot be achieved. (3) It is possible to play back at high speed without changing the sound quality. Therefore, it is a suitable method for audio storage and playback devices such as voice memos, but it is still in the experimental stage and no consideration has been given to making it into a device, so it cannot be applied to audio storage and playback devices that handle audio on a frame-by-frame basis. In this case, there were problems in how to thin out a waveform of a fixed time length with a pitch length that varies from frame to frame (timing problem), and in how to process fractional waveforms.

本発明は上記事情に鑑みてなされたもので、その目的と
するところは、フレーム単位で音声を入力して、ピッチ
単位の波形間引きを実時間で処理可能な、比較的小型の
音声蓄積再生装置を提供することにある。
The present invention has been made in view of the above circumstances, and its purpose is to provide a relatively small audio storage and playback device capable of inputting audio in frame units and processing waveform thinning in pitch units in real time. Our goal is to provide the following.

〔課題を解決するための手段〕[Means to solve the problem]

本発明の上述の目的は、音声を符号化して蓄積し、蓄積
した符号化音声を読比して復号し、音声のピッチ単位で
波形を間引いて、ディジタル/アナログ変換回路を介し
て出力する、フレーム単位で音声を取扱う音声蓄積再生
装置において、前記復号した音声波形フレームの有声、
無声または無音を判定する手段と、前記間引き処理で残
った音声波形と次のフレームの音声波形とを連続して扱
い、ピッチ単位で波形を間引く処理を行う手段を設けた
ことを特徴とする音声蓄積再生装置によって達成される
The above-mentioned object of the present invention is to encode and store audio, compare and decode the stored encoded audio, thin out the waveform in pitch units of the audio, and output it via a digital/analog conversion circuit. In an audio storage and playback device that handles audio on a frame-by-frame basis, voicedness of the decoded audio waveform frame;
A voice characterized by comprising: a means for determining whether there is no voice or no voice; and a means for successively handling the voice waveform remaining after the thinning process and the voice waveform of the next frame, and thinning the waveform in units of pitches. This is accomplished by a storage and playback device.

〔作用〕[Effect]

本発明に係る音声蓄積再生装置においては、前記第2の
メモリに転送された第iフレームの符号化音声を音声波
形(VF工)に復号し、このピッチを計算する。次に、
前記間引き処理手段により、例えば、2倍速再生のとき
、前フレーム(第i−1フレーム)の残波形を■2□−
1として、前記第4のメモリと第3のメモリから上記v
2□−0とvF□を連続して読出して、ピッチ単位で間
引いて行く。
In the audio storage and playback device according to the present invention, the encoded audio of the i-th frame transferred to the second memory is decoded into a audio waveform (VF), and its pitch is calculated. next,
For example, during double speed playback, the thinning processing means reduces the residual waveform of the previous frame (i-1st frame) to ■2□-
1, the above v from the fourth memory and the third memory
2□-0 and vF□ are successively read out and thinned out in pitch units.

上記波形のサンプル点数(NF)とピッチ(Nl’□)
との比率は、一般には、2n(nは自然数)に等しくな
いので、上の場合、 N zz = (N z□−0+ NF)  2 n 
Np□サンプル点個の波形(Vzi)が未処理で残る。
Number of sample points (NF) and pitch (Nl'□) of the above waveform
Generally speaking, the ratio between
A waveform (Vzi) of Np□ sample points remains unprocessed.

これを前記第4のメモリに転送しておいて、次のフレー
ムの音声V F i + 、と合せて、上と同様の処理
を繰り返す。出力音声を蓄える、互いに独立して書込み
と読出しが可能なように2頁構成となっている出力波形
メモリ(後述の第5のメモリ)に書込む、フレームiに
対する出力音声(VO□)は、nN P iサンプル点
になる。
This is transferred to the fourth memory, and the same process as above is repeated together with the audio V F i + of the next frame. The output audio (VO□) for frame i, which is written to the output waveform memory (fifth memory described later) that stores the output audio and has two pages so that writing and reading are possible independently of each other, is as follows: nN P i sample points.

〔実施例〕〔Example〕

以下、本発明の実施例を図面に基づいて詳細に説明する
Embodiments of the present invention will be described in detail below with reference to the drawings.

第1図は、本発明の一実施例を示す構成図である。図に
おいて、1はマイク、2は増幅およびAID変換回路、
3はCCITT G、721勧告に準拠したADPCM
エンコーダ、Mlはマイク1から入力して増幅し、8K
HzサンプリングでA/D変換後、ADPCMエンコー
ダ3で32Kb/s(4ビツト/サンプリング)に符号
化した音声を蓄積する、比較的大容量のメモリ、また、
M2は1フレーム(例えば、40m5(320サンプル
点))分の符号化音声を蓄えるメモリ、4はフレーム単
位で符号化音声を音声波形に復号する、CCITT勧告
に準拠したADPCMデコーダ、M3は復号した1フレ
ームの音声波形(320サンプル点分)を蓄積する波形
メモリを示している。
FIG. 1 is a configuration diagram showing an embodiment of the present invention. In the figure, 1 is a microphone, 2 is an amplification and AID conversion circuit,
3 is ADPCM compliant with CCITT G, 721 recommendation
Encoder, Ml inputs from microphone 1 and amplifies it, 8K
A relatively large-capacity memory that stores audio encoded at 32 Kb/s (4 bits/sampling) by the ADPCM encoder 3 after A/D conversion using Hz sampling;
M2 is a memory that stores encoded audio for one frame (for example, 40 m5 (320 sample points)), 4 is an ADPCM decoder that decodes the encoded audio into audio waveforms in frame units, and is compliant with the CCITT recommendations. M3 is a decoding device. It shows a waveform memory that stores one frame of audio waveform (320 sample points).

MCUは、蓄積時にはADPCMエンコーダ3の出力を
Mlに取込み、再生時には転送要求信号TREQが入力
される度に、Mlにある符号化音声を1フレームずつM
2に転送して、転送が終わるとADPCMデコーダ3を
起動(FRUN)するマイクロコンピュータを中心に構
成される転送制御回路である。PWRは、M3の音声波
形を読出してフレームのパワーを計算し、パワーが予め
設定された閾値以上のときは音声フレーム、閾値未満の
ときは無音あるいは無声フレームであると判定(V/U
判定)して フラグの形態(VUF)で出力するパワー
処理回路、PTHは、M3の音声波形を読出してフレー
ムのピッチを計算し、有声フレーム(VUF=1)のと
きは計算した値を、VUF=0のときは予め決められた
値、例えば、160(単位はサンプル点数)を出力する
ピッチ処理回路を示している。
During storage, the MCU captures the output of the ADPCM encoder 3 into Ml, and during playback, the MCU captures the encoded audio in Ml one frame at a time each time a transfer request signal TREQ is input.
This transfer control circuit is mainly composed of a microcomputer that transfers the data to ADPCM decoder 2 and activates (FRUN) the ADPCM decoder 3 when the transfer is completed. PWR reads the audio waveform of M3 and calculates the power of the frame, and when the power is above a preset threshold, it is determined to be an audio frame, and when it is less than the threshold, it is determined to be a silent or unvoiced frame (V/U
The power processing circuit, PTH, reads the audio waveform of M3 and calculates the frame pitch, and when it is a voiced frame (VUF=1), outputs the calculated value in the form of a flag (VUF). =0 indicates a pitch processing circuit that outputs a predetermined value, for example, 160 (unit is the number of sample points).

また、M4は、フレーム長がピッチの整数倍でないため
に間引き処理できなかった残波形を蓄えるメモリ、TD
Sは、上記メモリM4とM3から音声波形を読出して、
ピッチNP単位で波形を間引いて行き、残った波形をM
4に再格納する間引き処理回路、M5は、上記間引き処
理回路TDSによって出力波形が書込まれる書込み/読
出しが並行して可能な2頁構成の出力波形メモリ、OC
Tは、L記出力波形メモリM5の1間引き処理回路TD
Sが書込んでいるのとは別な頁から、サンプリング周期
(8KHz)毎に出力波形を読出して、D/A変換回路
5に出力し、設定された数N0UTの読出しが終了する
と、TREQをMCUに出力するとともに、M5の書込
み/読出し用の頁を切替えて出力波形を読出す出力制御
回路である。
In addition, M4 is a memory for storing residual waveforms that could not be thinned out because the frame length was not an integral multiple of the pitch, and TD
S reads the audio waveform from the memories M4 and M3,
The waveform is thinned out in units of pitch NP, and the remaining waveform is
A thinning processing circuit M5 is a two-page output waveform memory OC in which the output waveform is written by the thinning processing circuit TDS and can be written/read in parallel.
T is a 1-thinning processing circuit TD of the output waveform memory M5 written in L.
The output waveform is read out at every sampling period (8 KHz) from a page different from that written by S, and outputted to the D/A conversion circuit 5. When the set number N0UT has been read out, TREQ is This is an output control circuit that outputs to the MCU, switches the write/read page of M5, and reads the output waveform.

なお、第1図中、破線で区切られたM2以降が本実施例
の装置の主要部を示している。また、AID変換回路2
の出力は16ビツトとしている。
In FIG. 1, the area after M2 separated by a broken line indicates the main parts of the apparatus of this embodiment. In addition, AID conversion circuit 2
The output is 16 bits.

メモリの詳細な構成を、第2図(a)〜(e)に示す。The detailed structure of the memory is shown in FIGS. 2(a) to 2(e).

図中、M1〜M5は、それぞれ、第1図と対応している
In the figure, M1 to M5 correspond to those in FIG. 1, respectively.

M 14.−は、17 L/−A320サンプル点分(
j=0〜319)のADPCM符号化音声AVJがフレ
ーム類に(F=1.2.・・・・N)蓄積されている。
M14. - is 17 L/-A320 sample points (
ADPCM encoded audio AVJ of j=0 to 319) is stored in frames (F=1.2...N).

符号化音声は、4サンプル点分が1ワードにバックされ
ているので、1フレーム当り80ワードを占める。
Since the encoded audio is backed up by 4 sample points into 1 word, it occupies 80 words per frame.

M2には、MCUによってMlから転送された1フレー
ムの符号化音声A V j(F = j)の他に、P 
W RがV/U判定を行うために読出す閾値pwRTH
,PTHがピッチ計算で使用する波形の相関閾値P T
 T Hと、ピッチ探索範囲PTMIN〜PTMAX、
TDSが使用する間引き速度のパターンCPATが蓄え
られている。
In addition to one frame of encoded audio A V j (F = j) transferred from Ml by the MCU, M2 has P
Threshold value pwRTH read by WR to perform V/U judgment
, PTH is the waveform correlation threshold P T used in pitch calculation.
T H and pitch search range PTMIN to PTMAX,
The pattern CPAT of the thinning speed used by TDS is stored.

図に示したCPATは、2倍速再生のための値で、C2
が” 101010・・・″とピッチ毎に周期的に読出
される(111 IIのとき間引く)。1.5倍速再生
の場合、M CUがCT=0011.CP=OO1と設
定することにより、CPは“100100100・・・
・″のように読出される。
The CPAT shown in the figure is a value for double speed playback, and C2
is read out periodically as "101010..." for each pitch (thinned out at 111 II). For 1.5x playback, MCU is CT=0011. By setting CP=OO1, CP becomes “100100100...
・It is read out as follows.

M5は、前記T I) Sが間引き処理をした第1フレ
ームの出力波形V。(F=i)を1頁に書込んでいると
き、OCTは2頁にある第i−1フレームの波形■。(
F=i−1)を読出して、D/A変換回路5に出力する
。それを読み終えると、TDSは2頁に処理した波形■
。(F=i+1)を書き、OCTは1頁からV。(F=
i)を読出す。
M5 is the output waveform V of the first frame subjected to the thinning process by the TIS. When (F=i) is written on page 1, OCT shows the waveform ■ of the i-1th frame on page 2. (
F=i-1) and outputs it to the D/A conversion circuit 5. After reading it, TDS shows the processed waveform on page 2.
. Write (F=i+1), OCT is V from page 1. (F=
i) Read out.

上述の如く構成された本実施例の動作を、以下第3図〜
第5図をも用いて説明する。第3図は全体の動作をフロ
ーチャートで示したもの、第4図はピッチ単位で波形を
間引<TDSの動作の詳細を示したもの、第5図は全体
の動作タイミングを示したものである。
The operation of this embodiment configured as described above is shown in Figures 3 to 3 below.
This will be explained using FIG. 5 as well. Figure 3 shows the overall operation as a flowchart, Figure 4 shows the details of the waveform thinning <TDS operation in pitch units, and Figure 5 shows the overall operation timing. .

第3図で、PLAYは容積した音声の再生を開始する入
口を示す。まず、転送制御回路M CUは残波形数I2
をOにしてMlからM2に、第1フレームの符号化音声
(A VJ(F = 1 ))、前述の間引き速度のパ
ターンCPAT等を転送して、信号FRU NによりA
DPCMデコーダ4を起動する。
In FIG. 3, PLAY indicates the entry point for starting the playback of the volumetric audio. First, the transfer control circuit M CU is the number of remaining waveforms I2
is set to O, the encoded audio of the first frame (A VJ (F = 1)), the pattern CPAT of the above-mentioned thinning rate, etc. are transferred from Ml to M2, and A is transmitted by the signal FRU N.
Activate DPCM decoder 4.

ADPCMデコーダ4は、M2の符号化音声を読出して
復号し、音声波形VF(F=1)をM3に書込む・ デコードが終了すると、パワー処理回路p W Rは、
M3から V、(F=1.)を読出してパワーを計算し
V/Uを判定する。次に、ピッチ処理回路工]THは、
フレームが有声(VUF=1)のときにはピッチNPを
計算し7、V U F = OのときにはNPを160
に設定する。
The ADPCM decoder 4 reads the encoded audio of M2, decodes it, and writes the audio waveform VF (F=1) to M3. When the decoding is completed, the power processing circuit pWR:
Read V, (F=1.) from M3, calculate power, and determine V/U. Next, the pitch processing circuit engineer] TH is
When the frame is voiced (VUF = 1), calculate the pitch NP, and when VUF = O, calculate the NP to 160.
Set to .

間引き処理回路TDSは、「波形パック」でM4に格納
されているI2個の残波形v2と、M3の1フレーム3
20個の音声波形vFを、連続してアクセスし易いよう
に、一つのメモリ(例えばM3)に編集する。このとき
、M3には、O〜■2−1番地に■2が、■2〜I2+
319番地にvFが蓄えられる。これらを総称して、以
下、■1と呼ぶ。なお、■2=0のときはVT=VFで
、M 3 (7) 0−319番地ニvTが蓄えられる
(第2図(d)(d’)参照)。
The thinning processing circuit TDS uses the I2 residual waveforms v2 stored in M4 as a "waveform pack" and 1 frame 3 of M3.
The 20 audio waveforms vF are edited into one memory (for example, M3) so that they can be easily accessed consecutively. At this time, M3 has ■2 at addresses O~■2-1, ■2~I2+
vF is stored at address 319. These will be collectively referred to as (1) below. Note that when 2=0, VT=VF, and M3(7) 0-319 addresses nivT are stored (see FIGS. 2(d) and 2(d')).

続いて、残波形数12を I 24320(V、の波形
数)に設定する。第1フレームでは、前フレームの残波
形数はOなので、ここで、Iz”320に設定される。
Subsequently, the number of remaining waveforms (12) is set to I 24320 (the number of waveforms in V). In the first frame, since the number of residual waveforms in the previous frame is O, it is set to Iz''320 here.

次に、間引き処理回路TDSは、間引きのパターンC,
がII I IIで I z> 2 N pならば、波
形の間引き(第2図TDH31)を行う。この動作を第
4図を用いて説明する。
Next, the thinning processing circuit TDS executes thinning pattern C,
If is II I II and I z > 2 N p, the waveform is thinned out (TDH31 in FIG. 2). This operation will be explained using FIG. 4.

第4図は、2倍速再生(CP=1010・・・・の繰り
返し)、第1フレームのピッチNP、=12N(単位は
サンプル点数2周波数単位では66 Hz) 、第2フ
レームのピッチNP□= 114 (70Hz)とした
場合の動作を示している。
Figure 4 shows double speed playback (CP = 1010...repetition), pitch NP of the first frame = 12N (unit: 66 Hz in units of 2 sample points and frequency), pitch NP of the second frame = 114 (70Hz).

第1フレームでは、■2=320を初期値にして間引き
を開始する。Iz>2Npなので、ピッチ単位に間引く
ことができる。そこで、vTから 2NF□の波形を読
出して(M3のO〜2N、!−1番地)、それぞれの波
形に窓関数Wを乗じた後、左半分の波形と、NPlだけ
隔たった右半分の波形を加算して出力波形V。、を得る
。これを式で示せば、Do  t=1.NP□ NP□−1 END   D。
In the first frame, thinning is started with ■2=320 as the initial value. Since Iz>2Np, it can be thinned out in units of pitches. Therefore, after reading the waveform of 2NF□ from vT (addresses O to 2N, !-1 of M3) and multiplying each waveform by the window function W, the left half waveform and the right half waveform separated by NPl are created. The output waveform V is obtained by adding . , get . Expressing this as a formula, Do t=1. NP□ NP□-1 END D.

となり、2ピッチ分の■7が1ピツチ長のV。に間引か
れる。間引いた後は、 l2=I2−2NP□=78 に残波形数を更新し、CPとしてM2からピッチに対応
して、次の次のパターンを読出しておく。
Therefore, ■7, which is two pitches long, is V, which is one pitch long. are thinned out. After thinning out, the number of remaining waveforms is updated to 12=I2-2NP□=78, and the next next pattern is read out from M2 as CP corresponding to the pitch.

以上で、第1フレーム第1回目の間引きを終了して、第
3図のフローチャートでラベルrに戻る。
This completes the first thinning of the first frame, and returns to label r in the flowchart of FIG.

再びCPを参照すると、2倍速再生ではC,=1でぁる
。しかし、今度は 工2〉2NP□を満足しない(I2
−78.2Np、=242)ので、フローチャートで■
を進み、M3に残っている 工2個(78ワード)の人
波形vTを、M4にv2として転送して、第1フレーム
の間引き処理を終了する。
Referring to CP again, C,=1 in double speed playback. However, this time, it does not satisfy 2〉2NP□ (I2
-78.2Np, = 242), so in the flowchart ■
Then, the human waveform vT of two words (78 words) remaining in M3 is transferred to M4 as v2, and the first frame thinning process is completed.

第1フレームの音声に対する出力波形V。□のサンプル
点数N0UT□は、NP□点(121点)になる。
Output waveform V for the audio of the first frame. The number of sample points N0UT□ of □ becomes NP□ points (121 points).

第2フレームの符号化音声に対する処理は、出力制御回
路OCTからTREQが出力され、その結果、転送制御
回路MCUからFRUNが出力されたときに開始される
。つまり、フローチャートで、ラベルfに戻る。
Processing for the encoded audio of the second frame is started when TREQ is output from the output control circuit OCT and, as a result, FRUN is output from the transfer control circuit MCU. In other words, the process returns to label f in the flowchart.

第2フレームでは、人波形V2が78点あるので、波形
パックで、VT(M3Nmはo〜77番地ニV2゜78
−397番地にVF(F=2)が蓄えられて、I 2=
 78+320 = 398 に設定される。
In the second frame, there are 78 points in the human waveform V2, so in the waveform pack, VT (M3Nm is V2°78 from o to address 77).
VF (F=2) is stored at address -397, and I 2=
It is set to 78+320=398.

以下1間引き処理回路TDSの動作は、第1フレームの
場合と同様で、NP2単位でvTを間引いて行く。その
結果、N0UT2=114.l2=170になる。
The operation of the one-thinning process circuit TDS is the same as that for the first frame, and vT is thinned out in units of NP2. As a result, N0UT2=114. l2=170.

以下、同様にして、MCUによるフレーム数管理の下で
、Mlに蓄積された全フレームの処理が終了すれば、再
生を終わる。
Thereafter, in the same manner, under the frame number management by the MCU, playback ends when all frames stored in Ml are processed.

なお、第3図におけるステップTDH82は、間引きパ
ターンCPが0で残波形数が1ピッチ長以上のときには
間引かないで、1ピッチ分の波形をそのままVT(M3
)からVO(M5)に出力することを示している。この
ときには、残波形数をl2=I2−Np にし、次のCPをM2から読出す。TDH32は、例え
ば、1.5倍速再生(CP= 100100・・・)で
、CP=1 、 O(2ピッチ分を間引く)に続< c
p=oのときに動作する。
Note that in step TDH82 in FIG. 3, when the thinning pattern CP is 0 and the number of remaining waveforms is one pitch length or more, the waveform for one pitch is directly transferred to the VT (M3
) to VO (M5). At this time, the number of remaining waveforms is set to l2=I2-Np, and the next CP is read from M2. For example, TDH32 is 1.5x playback (CP = 100100...), CP = 1, O (thinning out 2 pitches) and then < c
It operates when p=o.

最後に、装置の動作タイミングを、第5図のタイムチャ
ートを用いて説明する。出力制御回路OCTは、ADP
CMデコーダ4.パワー処理回路PWR,ピッチ処理回
路PTHおよび間引き処理回路TDSが、第1フレーム
の音声を処理して出力波形をM5のある頁に書込んでい
るとき、M5の別な頁から第i−1フレームの音声を処
理したnl−0個の出力波形Vo(F=i−1)をサン
プリング周期毎に読出してD/A変換回路5に出力して
いる。上記ni−□は前述のN OU T i−1と同
じで、出力制御回路OCTにあるカウンタの一つに、第
i−1フレームの間引き処理が終了したときに ロード
されているものである。
Finally, the operation timing of the apparatus will be explained using the time chart of FIG. The output control circuit OCT is ADP
CM decoder 4. When the power processing circuit PWR, pitch processing circuit PTH, and thinning processing circuit TDS are processing the audio of the first frame and writing the output waveform to a certain page of M5, the i-1st frame is written from another page of M5. nl-0 output waveforms Vo (F=i-1) obtained by processing the audio are read out at every sampling period and output to the D/A conversion circuit 5. The above ni-□ is the same as the above-mentioned NOUT i-1, and is loaded into one of the counters in the output control circuit OCT when the thinning process of the i-1th frame is completed.

nニー、個のD/A変換出力が終了すると、第j+1フ
レームの符号化音声をM2に転送する要求TREQを転
送制御回路MCUに発生し、M5の読出し頁を切替えて
1次のサンプリングタイミングからは、n1個のVo(
F=i)のD/A変換出力ヲ開始する。このように、装
置は125Xnよ(μ5ec)を区切りにして、フレー
ム毎の音声を間引き処理して行く。
When the D/A conversion output of n knees is completed, a request TREQ to transfer the encoded audio of the j+1 frame to M2 is generated in the transfer control circuit MCU, and the readout page of M5 is switched to start from the first sampling timing. is n1 Vo(
D/A conversion output of F=i) is started. In this way, the device thins out the audio for each frame, dividing the frame into 125Xn (μ5ec) intervals.

n□はフレーム長(1フレームの音声波形数)、ピッチ
NP、残波形数および間引きパターンによって変化する
が、現状のハードウェア(例えばディジタル信号処理プ
ロセッサ)では、転送、デコードおよびパワー処理回路
(pwR)、ピッチ処理回路(PTH)、間引き処理回
路(TDS)による処理に約10m5の処理時間を要す
るので、 nニの最小値は80点にする必要がある。こ
のためピッチが50〜400I]Z(NP=160〜2
0サンプル点)であることを前提として、フレーム長は
40m5(320サンプル点)が適当である。
n□ changes depending on the frame length (number of audio waveforms in one frame), pitch NP, number of residual waveforms, and thinning pattern, but with current hardware (for example, digital signal processing processor), transfer, decoding, and power processing circuits (pwR ), the pitch processing circuit (PTH), and the thinning processing circuit (TDS) require approximately 10 m5 of processing time, so the minimum value of nd needs to be 80 points. Therefore, the pitch is 50~400I]Z(NP=160~2
0 sample points), an appropriate frame length is 40 m5 (320 sample points).

また、無音と無声フレーム(VUF=O)に対する間引
き単位長(ピッチに相当)としては、フレーム長が32
0サンプル点であるので、320/2n(nは自然数)
が適当である。
In addition, the frame length is 32 as the thinning unit length (corresponding to pitch) for silent and unvoiced frames (VUF=O).
Since it is 0 sample point, 320/2n (n is a natural number)
is appropriate.

上記実施例においては、主として、蓄積した音声の再生
について説明したが、音声の蓄積については、マイク1
から入力して増幅し 8KHzサンプリングでA/D変
換後、ADPCMエンコーダ3で32Kb/s(4ビツ
ト/サンプリング)に符号化して比較的大容量のメモリ
M1に蓄積するわけで、従来と同様と考えて良い。
In the above embodiment, the explanation was mainly about the playback of the stored audio, but regarding the storage of the audio, the microphone 1
It is considered to be the same as the conventional method, as it is inputted from the computer, amplified, A/D converted at 8KHz sampling, encoded at 32Kb/s (4 bits/sampling) by ADPCM encoder 3, and stored in relatively large capacity memory M1. It's good.

上記実施例においては、音声の符号化方式として、CC
ITTG、721勧告に準拠したADPCMエンコード
方式を用いた例を示したが、これは、他の方式によって
も良いことは言うまでもない。
In the above embodiment, CC is used as the audio encoding method.
Although an example using the ADPCM encoding method conforming to the ITTG 721 recommendation has been shown, it goes without saying that other methods may also be used.

例えば、音声の符号化方式として、PARCOR方式を
用い、第1図のADPCMエンコーダ3をPARCOR
分析器で、ADPCMデコーダ4をPARCOR合成器
で構成して、PARCOR分析では、1フレームの音声
のスペクトルパラメータと、音源情報としてV/Uフラ
グとピッチを計算する。この情報を前記M1とM2に蓄
える。この場合には、第1図のパワー処理回路PWRお
よびピッチ処理回路PTHは、M2に転送されたV/U
フラグとピッチを読出す回路となる。
For example, if the PARCOR method is used as the audio encoding method, the ADPCM encoder 3 in FIG.
In the analyzer, the ADPCM decoder 4 is configured with a PARCOR synthesizer, and in the PARCOR analysis, the spectral parameters of one frame of audio and the V/U flag and pitch are calculated as sound source information. This information is stored in M1 and M2. In this case, the power processing circuit PWR and pitch processing circuit PTH in FIG.
This is a circuit that reads out the flag and pitch.

また、無声フレーム(子音など)に対しては、間引きを
行うと明瞭性が低下して音質が悪くなる場合がある。こ
れを回避するために、第1図のADPCMエンコーダ3
を、音声を符号化するとともにフレームのパワーを計算
してV/U判定を行う回路、転送制御回路MCUを、V
UFが“1″のフレームと、VUFが0”から111”
に変化する以前の4フレームおよびVUFが1(I I
+からIL Ojlに変化した以降の4フレームとを除
いたフレームで“1″になる無音フラグを作成し、符号
化音声、V/Uフラグおよび無音フラグをM2に転送す
る制御回路、パワー処理回路PWRはM2から上記V/
Uフラグおよび無音フラグを読出す回路、ピッチ処理回
路PTHは、無音フラグがtr OtpでV/Uフラグ
がtt 1 uのときにピッチNPを計算し、無音フラ
グが1”のときにNPを160に設定する回路とし、間
引き処理回路TDSは、 ■無音フラグが“0″でV/Uフラグが“1″、または
、無音フラグが“1″のときに、NP単位で波形を間引
いて出力波形をM5に書込み、■無音フラグが0”でV
/Uフラグが“Or+のときに、M4の人波形とM3の
1フレ一ム分の音声波形をそのまま出力波形としてM5
に書込む回路としても良い。
Furthermore, when unvoiced frames (consonants, etc.) are thinned out, the clarity may decrease and the sound quality may deteriorate. In order to avoid this, the ADPCM encoder 3 in FIG.
, a circuit that encodes the audio and calculates the power of the frame to make a V/U judgment, a transfer control circuit MCU, and a V
Frames with UF “1” and VUF from 0” to 111”
The previous 4 frames and VUF changed to 1 (I I
A control circuit and a power processing circuit that create a silence flag that becomes "1" in frames other than the four frames after the change from + to IL Ojl, and transfer the encoded audio, V/U flag, and silence flag to M2. PWR is from M2 to above V/
The pitch processing circuit PTH, which is a circuit that reads the U flag and the silence flag, calculates the pitch NP when the silence flag is tr Otp and the V/U flag is tt 1 u, and calculates the pitch NP to 160 when the silence flag is 1''. The thinning processing circuit TDS thins out the waveform in units of NP and outputs the waveform when the silence flag is "0" and the V/U flag is "1", or when the silence flag is "1". is written to M5, and the silent flag is set to 0”.
When the /U flag is "Or+," the human waveform of M4 and the audio waveform of one frame of M3 are output as they are as output waveforms of M5.
It may also be used as a circuit to write to.

〔発明の効果〕〔Effect of the invention〕

以上述べた如く、本発明によれば、音声を符号化して蓄
積し、蓄積した符号化音声を読出して復号し、音声のピ
ッチ単位で波形を間引いて、ディジタル/アナログ変換
回路を介して出力する、フレーム単位で音声を取扱う音
声蓄積再生装置において、前記復号した音声波形フレー
ムの有声、無声または無音を判定する手段と、前記間引
き処理で残った音声波形と次のフレームの音声波形とを
連続して扱い、ピッチ単位で波形を間引く処理を行う手
段を設けたので、フレーム単位で音声を入力して、ピッ
チ単位の波形間引きを実時間で処理可能な、比較的小型
の音声蓄積再生装置を実現できるという顕著な効果を奏
するものである。
As described above, according to the present invention, audio is encoded and stored, the stored encoded audio is read out and decoded, the waveform is thinned out in pitch units of the audio, and the waveform is output via a digital/analog conversion circuit. , in an audio storage and playback device that handles audio on a frame-by-frame basis, means for determining whether the decoded audio waveform frame is voiced, unvoiced, or silent; Since we have provided a means to thin out the waveform in pitch units, we have realized a relatively small audio storage and playback device that can input audio in frame units and process waveform thinning in pitch units in real time. This has the remarkable effect that it can be done.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例を示す構成図、第2図(a)
〜(e)はメモリの詳細な構成を示す図、第3図は全体
の動作を示すフローチャート、第4図はピッチ単位で波
形を間引< ”r o sの動作の詳細を示す図、第5
図は全体の動作タイミングを示す図である。 2:増幅、A/D変換回路、3 : ADPCMエンコ
ーダ、4 : ADPCMデコーダ、Ml:メモリ、M
2:フレーム符号化音声メモリ、M3:フレーム波形メ
モリ、MCU:転送制御回路、PWR:パワー処理回路
、PTH:ピッチ処理回路、M4:人波形メモリ、TD
S :間引き処理回路、M5:出力波形メモリ、OCT
:出力制御回路、5:D/A変換回路。 H− 第 図 (その2) 第 図 (その3 −−> CRsad) m−中 RAad D/A
Fig. 1 is a configuration diagram showing an embodiment of the present invention, Fig. 2(a)
- (e) are diagrams showing the detailed configuration of the memory, Figure 3 is a flowchart showing the overall operation, Figure 4 is a diagram showing details of the operation of thinning out the waveform in pitch units <"ros," 5
The figure shows the overall operation timing. 2: Amplification, A/D conversion circuit, 3: ADPCM encoder, 4: ADPCM decoder, Ml: Memory, M
2: Frame encoded audio memory, M3: Frame waveform memory, MCU: Transfer control circuit, PWR: Power processing circuit, PTH: Pitch processing circuit, M4: Human waveform memory, TD
S: Thinning processing circuit, M5: Output waveform memory, OCT
: Output control circuit, 5: D/A conversion circuit. H- Figure (Part 2) Figure (Part 3 --> CRsad) m- Medium RAad D/A

Claims (1)

【特許請求の範囲】 1、音声を符号化して蓄積し、蓄積した符号化音声を読
出して復号し、音声のピッチ単位で波形を間引いて、デ
ィジタル/アナログ変換回路を介して出力する、フレー
ム単位で音声を取扱う音声蓄積再生装置において、音声
波形フレームの有声、無声または無音を判定する手段と
、前記間引き処理で残った音声波形と次のフレームの音
声波形とを連続して扱い、ピッチ単位で波形を間引く処
理を行う手段を設けたことを特徴とする音声蓄積再生装
置。 2、符号化音声を蓄積する第1のメモリと、フレーム単
位の符号化音声を蓄積する第2のメモリと、前記第1の
メモリから符号化音声をフレーム単位で読出して前記第
2のメモリに転送する制御回路と、前記第2のメモリか
ら読出して復号した音声波形を蓄積する第3のメモリと
を有し、前記第3のメモリから読出した音声波形フレー
ムについて前記判定手段によるフレームの有声、無声ま
たは無音を判定するとともに、前記間引き処理手段によ
る間引き処理で残った音声波形を蓄積する第4のメモリ
を有し、該第4のメモリと前記第3のメモリから連続し
て読出した音声波形について前記間引き処理手段により
ピッチ単位で波形を間引く処理を行う如く構成したこと
を特徴とする特許請求の範囲第1項記載の音声蓄積再生
装置。 3、前記判定手段によるフレームの有声、無声または無
音の判定の結果、無音および有声フレームの場合に前記
間引き処理手段による間引き処理を行う、無声フレーム
の場合には前記間引き処理手段による間引き処理を行わ
ないことを特徴とする特許請求の範囲第1項または第2
項記載の音声蓄積再生装置。 4、前記復号した音声波形を蓄積する第3のメモリは、
少なくとも、装置の扱い得るピッチ周期の2倍以上のサ
ンプル点の音声波形を蓄積する容量を有することを特徴
とする特許請求の範囲第1項から第3項記載の音声蓄積
再生装置。 5、前記判定手段による判定結果が無音または無声フレ
ームであった場合に、前記間引き処理手段により行う間
引き処理のピッチを、装置の扱い得る最も長いピッチ周
期以下に設定することを特徴とする特許請求の範囲第1
項から第4項記載の音声蓄積再生装置。 6、前記間引き処理手段により行う間引き処理のパター
ンを記憶するメモリを設け、該メモリの内容に基づいて
間引き処理を行う如く構成したことを特徴とする特許請
求の範囲第1項から第5項のいずれかに記載の音声蓄積
再生装置。
[Claims] 1. A frame unit that encodes and stores audio, reads and decodes the stored encoded audio, thins out the waveform in pitch units of the audio, and outputs it via a digital/analog conversion circuit. In an audio storage and playback device that handles audio, there is a means for determining whether an audio waveform frame is voiced, unvoiced, or silent, and a means for continuously handling the audio waveform remaining after the thinning process and the audio waveform of the next frame in pitch units. An audio storage and playback device characterized in that it is provided with means for thinning out a waveform. 2. A first memory that stores encoded audio, a second memory that stores encoded audio in frames, and reads the encoded audio in frames from the first memory and stores it in the second memory. a control circuit for transferring, and a third memory for storing the audio waveform read out from the second memory and decoded; A fourth memory that determines whether there is no voice or no sound and stores the audio waveform remaining after the thinning process by the thinning processing means, and the audio waveform is continuously read from the fourth memory and the third memory. 2. The audio storage and playback device according to claim 1, wherein said thinning processing means thins out the waveform in pitch units. 3. As a result of the determination of whether the frame is voiced, unvoiced, or silent by the determination means, if the frame is silent or voiced, the thinning processing means performs a thinning process, and if the frame is a voiceless frame, the thinning processing means performs a thinning process. Claim 1 or 2 characterized in that
The audio storage and playback device described in . 4. The third memory that stores the decoded audio waveform is:
4. The audio storage and playback device according to claim 1, wherein the audio storage and playback device has a capacity to store audio waveforms of sample points of at least twice the pitch period that the device can handle. 5. A patent claim characterized in that, when the judgment result by the judgment means is a silent or silent frame, the pitch of the thinning process performed by the thinning process means is set to be equal to or less than the longest pitch period that can be handled by the apparatus. range 1
4. The audio storage and playback device according to items 4 to 4. 6. The method according to claim 1 to 5, characterized in that a memory is provided to store a pattern of the thinning process performed by the thinning process means, and the thinning process is performed based on the contents of the memory. The audio storage and playback device according to any one of the above.
JP63170070A 1988-07-08 1988-07-08 Audio storage and playback device Expired - Fee Related JP2860991B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63170070A JP2860991B2 (en) 1988-07-08 1988-07-08 Audio storage and playback device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63170070A JP2860991B2 (en) 1988-07-08 1988-07-08 Audio storage and playback device

Publications (2)

Publication Number Publication Date
JPH0219899A true JPH0219899A (en) 1990-01-23
JP2860991B2 JP2860991B2 (en) 1999-02-24

Family

ID=15898079

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63170070A Expired - Fee Related JP2860991B2 (en) 1988-07-08 1988-07-08 Audio storage and playback device

Country Status (1)

Country Link
JP (1) JP2860991B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007003682A (en) * 2005-06-22 2007-01-11 Fujitsu Ltd Speaking speed converting device
JP2016004234A (en) * 2014-06-19 2016-01-12 三菱電機株式会社 Voice reproduction device and voice reproduction method

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007003682A (en) * 2005-06-22 2007-01-11 Fujitsu Ltd Speaking speed converting device
JP4675692B2 (en) * 2005-06-22 2011-04-27 富士通株式会社 Speaking speed converter
JP2016004234A (en) * 2014-06-19 2016-01-12 三菱電機株式会社 Voice reproduction device and voice reproduction method

Also Published As

Publication number Publication date
JP2860991B2 (en) 1999-02-24

Similar Documents

Publication Publication Date Title
US4384169A (en) Method and apparatus for speech synthesizing
EP0380572B1 (en) Generating speech from digitally stored coarticulated speech segments
JPH079600B2 (en) Method and apparatus for encoding and decoding audio signals
JPS60102697A (en) Method and apparatus for encoding voice
US4716591A (en) Speech synthesis method and device
JPS5827200A (en) Voice recognition unit
US6678650B2 (en) Apparatus and method for converting reproducing speed
JPH0219899A (en) Voice accumulating and reproducing device
JPH03233500A (en) Voice synthesis system and device used for same
JP2861005B2 (en) Audio storage and playback device
JP2865714B2 (en) Audio storage and playback device
JP3086458B2 (en) Speech synthesizer
JP3457393B2 (en) Speech speed conversion method
JPS5968793A (en) Voice synthesizer
JPH0376480B2 (en)
KR920002861B1 (en) Lpc voice syndisizing apparatus and thereof method
JPH0235320B2 (en)
JPS6295595A (en) Voice response system
JPS63269200A (en) Voice recognition equipment
JPH0312320B2 (en)
JPH0329999A (en) Voice storing and reproducing device
JPH04213500A (en) Method and device for encoding voice
JPS63234299A (en) Voice analysis/synthesization system
JPH0752357B2 (en) Voice data storage device
Inoue et al. A single CMOS speech synthesis chip and new synthesis techniques

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees