JPH09146596A - Sound signal synthesizing method - Google Patents

Sound signal synthesizing method

Info

Publication number
JPH09146596A
JPH09146596A JP7302945A JP30294595A JPH09146596A JP H09146596 A JPH09146596 A JP H09146596A JP 7302945 A JP7302945 A JP 7302945A JP 30294595 A JP30294595 A JP 30294595A JP H09146596 A JPH09146596 A JP H09146596A
Authority
JP
Japan
Prior art keywords
frame
length
ref
information
smz
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7302945A
Other languages
Japanese (ja)
Inventor
Akihiro Nakahara
聡宏 中原
Osamu Hattori
修 服部
Yoshikatsu Matsunaga
良勝 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Radio Co Ltd
Original Assignee
Japan Radio Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Radio Co Ltd filed Critical Japan Radio Co Ltd
Priority to JP7302945A priority Critical patent/JPH09146596A/en
Publication of JPH09146596A publication Critical patent/JPH09146596A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a sound signal synthesizing method which can reproduce spectrum envelope in a frame and the change of spectral fine structure with time by interpolating and synthesizing a sound signal in synchronization with the information on the pitch period to which smoothing has been applied. SOLUTION: When an information obtained by an analysis based on the unit of the fundamental frame of a specified length is received from the analyser section 20 of a first vocoder through a transmission line 10, a sub-frame is set inside an extend frame corresponding to the present fundamental frame in the interpolation processing section 33 of synthesizer section 30 of a second vocoder so that the sub-frame length showing the pitch period related to each sub-frame is changed smoothly. A line spectrum pair coefficient and/or frame power information are generated for every sub-frame based on the information related to the present frame. A synthesis processing section 34 synthesizes a sound signal based on the information related to the present fundamental frame, line spectrum pair coefficient and/or frame power information.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、短波用ボコーダ等
にて使用される音声信号合成方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice signal synthesizing method used in a short wave vocoder or the like.

【0002】[0002]

【従来の技術】電波法により占有帯域≦3kHzという
制約が課されているため、短波帯伝送路に適するボコー
ダを開発するに際しては、低ビットレート化が必要であ
る。他方、短波帯伝送路はフェージングや混信が生じや
すいという特質を有しているため、低ビットレート化に
際しては、誤り耐性を考慮する必要がある。
2. Description of the Related Art Since the Radio Law imposes a restriction that an occupied band is ≤3 kHz, it is necessary to reduce the bit rate when developing a vocoder suitable for a short wave band transmission line. On the other hand, since the short wave band transmission line has the characteristic that fading and interference easily occur, it is necessary to consider error resilience when lowering the bit rate.

【0003】図1には、第1及び第2の短波用低ビット
レートボコーダを伝送路10を介して接続した状態が示
されている。但し、図示の簡略化のため、第1のボコー
ダに関しては分析部10のみを、第2のボコーダに関し
ては合成部30のみを示している。第1のボコーダの分
析部10は、入力される音声信号を分析する分析処理部
21と、分析処理部21の出力を符号化する符号化器2
3−1〜23−4と、各符号化器の出力を多重するマル
チプレクサ22とを有しており、第2のボコーダの合成
部30は、伝送路を介し第1のボコーダから受信した信
号を多重分離するデマルチプレクサ31、多重分離され
た信号を復号化する復号器32−1〜32−4、復号器
32−1〜32−4の出力に基づき補間処理を実行する
補間処理部33及び補間処理部33の出力から音声信号
を合成する合成処理部34を有している。
FIG. 1 shows a state in which first and second low-bit rate vocoders for short waves are connected via a transmission line 10. However, for simplicity of illustration, only the analysis unit 10 is shown for the first vocoder, and only the combining unit 30 is shown for the second vocoder. The analysis unit 10 of the first vocoder includes an analysis processing unit 21 that analyzes an input voice signal and an encoder 2 that encodes the output of the analysis processing unit 21.
3-1 to 23-4 and a multiplexer 22 that multiplexes the outputs of the respective encoders, and the synthesizing unit 30 of the second vocoder converts the signal received from the first vocoder via the transmission path. Demultiplexer 31 for demultiplexing, decoders 32-1 to 32-4 for decoding the demultiplexed signal, interpolation processing unit 33 for performing interpolation processing based on the outputs of decoders 32-1 to 32-4, and interpolation It has a synthesis processing unit 34 that synthesizes an audio signal from the output of the processing unit 33.

【0004】分析処理部21では、低ビットレート化の
要請に応えるべくその長さが長め(例えば30mse
c)に設定された分析区間(フレーム)毎に、ベクトル
量子化等の方法を用いて入力音声信号を分析し、その結
果得られる情報を出力する。このとき生成される情報に
は、ピッチ周期、線スペクトル対係数、フレームパワ
ー、有声音/無声音情報等がある。これらの情報は符号
化/多重化/伝送路伝送/多重分離/復号化を経て、補
間処理部33に供給される。補間処理部33は、前述の
ようにフレーム長を長めに設定したために失われている
情報を回復すべく、1個のフレーム(以下基本フレーム
と呼ぶ)を複数個のフレーム(以下サブフレームと呼
ぶ)に均等分割し、各サブフレーム毎に、ピッチ周期、
線スペクトル対係数、フレームパワー等を線形内挿す
る。合成処理部34は、この結果得られるピッチ周期、
線スペクトル対係数、フレームパワー等に基づき、音声
信号を合成する。
In the analysis processing unit 21, its length is long (for example, 30 mse) in order to meet the request for a lower bit rate.
For each analysis section (frame) set in c), the input voice signal is analyzed using a method such as vector quantization, and the information obtained as a result is output. The information generated at this time includes pitch period, line spectrum pair coefficient, frame power, voiced / unvoiced information, and the like. These pieces of information are supplied to the interpolation processing unit 33 through encoding / multiplexing / transmission path transmission / demultiplexing / decoding. The interpolation processing unit 33 uses one frame (hereinafter referred to as a basic frame) to a plurality of frames (hereinafter referred to as subframes) in order to recover information that is lost due to the frame length being set to be long as described above. ), The pitch period,
Linearly interpolate line spectrum pair coefficients, frame power, etc. The synthesizing unit 34 determines the pitch period obtained as a result,
The audio signal is synthesized based on the line spectrum pair coefficient, the frame power, and the like.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、このよ
うな方法では、音声信号を忠実に再現するために必要な
各種の情報、例えばフレーム内のスペクトル包絡やスペ
クトル微細構造の時間的推移等を、再現することができ
ない。本発明の目的は、ピッチ周期に関する処理によ
り、かかる情報を再現可能な音声信号合成方法を実現す
ることにある。
However, in such a method, various kinds of information necessary for faithfully reproducing an audio signal, such as a spectral envelope in a frame and a temporal transition of a fine spectral structure, are reproduced. Can not do it. An object of the present invention is to realize an audio signal synthesizing method capable of reproducing such information by a process relating to a pitch cycle.

【0006】[0006]

【課題を解決するための手段及び発明の効果】このよう
な目的を達成するために、本発明の第1の構成は、所定
長Fanl の基本フレームを単位とした分析にて得られる
ピッチ周期情報Pref 並びに線スペクトル対係数Lref
及び/又はフレームパワー情報Gref を、第1のボコー
ダの分析部から伝送路を介し受信したとき、第2のボコ
ーダの合成部により実行される音声信号合成方法におい
て、下記各ステップを上記基本フレーム毎に繰り返し実
行することを特徴とする: (1)現在の基本フレームに対応する拡張フレーム内
に、当該拡張フレームの長さFpre 、現在の基本フレー
ムに係るピッチ周期情報Pref 及び前回の拡張フレーム
内の最終サブフレームの長さPpst に基づき、各サブフ
レームに係るピッチ周期を示すサブフレーム長P
smz [n]がnに対して滑らかに変化するよう、N個の
サブフレームを設定する第1ステップ(Nは2以上の自
然数、nは0≦n≦N−1を満たす整数); (2)現在の基本フレームに係る線スペクトル対係数L
ref 及び/又はフレームパワー情報Gref に基づき、か
つ各サブフレーム毎に、線スペクトル対係数L
smz [n]及び/又はフレームパワー情報Gsmz [n]
を生成する第2ステップ; (3)ピッチ周期情報Psmz [n]並びに線スペクトル
対係数Lsmz [n]及び/又はフレームパワー情報G
smz [n]に基づき、音声信号を合成する第3ステッ
プ;及び (4)サブフレーム長Psmz [n]のnについての総和
syn に対する上記拡張フレーム長Fpre の余剰分ΔF
を基本フレーム長Fanl に加算し、その結果得られる値
nxt を、次に到来する基本フレームに対応する拡張フ
レームの長さFpre に設定する第4ステップ。
Means for Solving the Problems and Effects of the Invention In order to achieve such an object, a first structure of the present invention is a pitch period obtained by an analysis using a basic frame of a predetermined length F anl as a unit. Information P ref and line spectrum pair coefficient L ref
And / or the frame power information G ref is received from the analysis unit of the first vocoder via the transmission line, in the audio signal synthesizing method executed by the synthesizing unit of the second vocoder, It is characterized in that it is repeatedly executed every time: (1) In the extension frame corresponding to the current basic frame, the length F pre of the extension frame, the pitch period information P ref related to the current basic frame, and the previous extension. Based on the length P pst of the last sub-frame in the frame, the sub-frame length P indicating the pitch period of each sub-frame
The first step of setting N subframes so that smz [n] changes smoothly with respect to n (N is a natural number of 2 or more, and n is an integer satisfying 0 ≦ n ≦ N−1); (2 ) Line spectrum pair coefficient L for the current basic frame
The line spectrum pair coefficient L based on the ref and / or the frame power information G ref and for each subframe.
smz [n] and / or frame power information G smz [n]
(3) Pitch period information P smz [n] and line spectrum pair coefficient L smz [n] and / or frame power information G
Third step of synthesizing voice signal based on smz [n]; and (4) Surplus amount ΔF of the extended frame length F pre with respect to sum F syn of n of subframe length P smz [n].
Is added to the basic frame length F anl , and the resulting value F nxt is set to the length F pre of the extension frame corresponding to the next incoming basic frame.

【0007】このように、本構成においては、合成に先
立ち第1ステップにてスムージングされたピッチ周期情
報Psmz [n]にいわば同期して、第2のステップにお
いて線スペクトル対係数Lsmz [n]及び/又はフレー
ムパワー情報Gsmz [n]が生成され(補間)、その結
果に基づき第3のステップにおいて音声信号が合成され
る。従って、スペクトル包絡やスペクトル微細構造の時
間的推移等の特徴を再現することが可能になり、合成に
より得られる音声信号の品質を改善できる。
As described above, in the present configuration, the line spectrum pair coefficient L smz [n] is synchronized in the second step, so to speak, in synchronism with the pitch period information P smz [n] smoothed in the first step prior to the synthesis. ] And / or frame power information G smz [n] is generated (interpolation), and the audio signal is synthesized in the third step based on the result. Therefore, it becomes possible to reproduce the characteristics such as the temporal change of the spectral envelope and the spectral fine structure, and the quality of the speech signal obtained by the synthesis can be improved.

【0008】本発明の第2の構成は、所定長Fanl の基
本フレームを単位とした分析にて得られるピッチ周期情
報Pref 、線スペクトル対係数Lref 及び/又はフレー
ムパワー情報Gref 、並びに現在の基本フレームが有声
音フレームであるのかそれとも無声音フレームであるの
かを示す有声音/無声音情報を、第1のボコーダの分析
部から伝送路を介し受信したとき、第2のボコーダの合
成部により実行される音声信号合成方法において、下記
各ステップを上記基本フレーム毎に繰り返し実行するこ
とを特徴とする: (0)受信した有声音/無声音情報に基づき現在の基本
フレームが有声音フレームであるのかそれとも無声音フ
レームであるのかを判定する第0ステップ; (6)第0ステップにて有声音フレームであると判定し
た場合に、第1の構成に係る音声信号合成方法に移行す
る第6ステップ;及び (7)第0ステップにて無声音フレームであると判定し
た場合に、現在の基本フレーム又はこれに直前の有声音
フレームに係る余剰分ΔFを加算した長さのフレーム
を、上記拡張フレームと見なした上で、第2乃至第4の
ステップに移行する第7ステップ。本構成によれば、無
声音フレームにも対処できる。
The second configuration of the present invention is that the pitch period information P ref , the line spectrum pair coefficient L ref and / or the frame power information G ref , which are obtained by the analysis using a basic frame of a predetermined length F anl as a unit, and When voiced / unvoiced information indicating whether the current basic frame is a voiced frame or an unvoiced frame is received from the analysis unit of the first vocoder via the transmission path, the synthesis unit of the second vocoder The voice signal synthesizing method to be performed is characterized in that the following steps are repeatedly performed for each of the basic frames: (0) is the current basic frame a voiced frame based on the received voiced / unvoiced information? 0th step of determining whether it is an unvoiced sound frame; (6) If it is determined in step 0 that the frame is a voiced sound, The sixth step of transitioning to the voice signal synthesizing method according to the configuration; A seventh step in which a frame having a length obtained by adding ΔF is regarded as the extended frame, and then the second to fourth steps are performed. According to this configuration, it is possible to deal with unvoiced sound frames.

【0009】本発明の第3の構成は、第2の構成におい
て、第7ステップが、前回の基本フレームが有声音フレ
ームでありかつ現在の基本フレームが無声音フレームで
あった場合に、前回の拡張フレームにおける余剰分ΔF
を均等区分に係るサブフレーム長に加算した値を、今回
の基本フレームに対応する拡張フレームの冒頭サブフレ
ームの長さに設定するステップを含むことを特徴とす
る。本構成によれば、有声音から無声音への移行に当た
って格別の矛盾が生じないよう、調整が可能である。
According to a third configuration of the present invention, in the second configuration, in the seventh step, when the previous basic frame is a voiced sound frame and the current basic frame is an unvoiced sound frame, the previous expansion is performed. Surplus in frame ΔF
Is added to the subframe length related to the equal division, and the step is set to the length of the beginning subframe of the extension frame corresponding to the current basic frame. According to this configuration, it is possible to make adjustment so that no particular contradiction occurs in the transition from voiced sound to unvoiced sound.

【0010】[0010]

【発明の実施の形態】以下、本発明の好適な実施形態に
関し図面に基づき説明する。なお、本発明は図1に示さ
れる装置にて実施できるため以下の説明では図1の装置
を前提とするが、本発明は装置の機能構成の細部に限定
を要するものではない。同様に、以下に説明する手順の
細部にも限定を要さない。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Preferred embodiments of the present invention will be described below with reference to the drawings. Since the present invention can be implemented by the device shown in FIG. 1, the following description is premised on the device shown in FIG. 1, but the present invention does not require the details of the functional configuration of the device to be limited. Similarly, the details of the procedure described below are not limited.

【0011】図2には、本発明の一実施形態に係る装置
において補間処理部33により実行される処理の手順が
示されている。この手順においては、補間処理部33
は、まず、基本フレーム長Fanl 、拡張フレーム長F
pre 、ピッチ周期プリセット値Ppst 、線スペクトル対
係数プリセット値Lpst 、フレームパワー(合成側ゲイ
ン)プリセット値Gpst 、拡張フレーム内に収容可能な
ピッチ周期個数N、無声音時の均等分割個数NUV等の変
数を、システム設計等に従い、初期設定する(10
0)。補間処理部33は、次に、デマルチプレクサ31
により多重分離された情報のうち復号器32−1により
復号化される有声音/無声音情報を入力し、これに基づ
き、第2のボコーダの合成部30が回線10等を介し第
1のボコーダの分析部20から受信したフレームが有声
音フレームであるか否かを判定する(102)。
FIG. 2 shows a procedure of processing executed by the interpolation processing unit 33 in the apparatus according to the embodiment of the present invention. In this procedure, the interpolation processing unit 33
First, the basic frame length F anl and the extension frame length F
pre, pitch period preset value P pst, line spectral pair coefficients preset value L pst, frame power (Synthesis side gain) preset value G pst, it can accommodate pitch period number in the extended frame N, evenly divided number N UV during unvoiced Variables such as are initialized according to the system design (10
0). The interpolation processing unit 33 then receives the demultiplexer 31.
The voiced sound / unvoiced sound information decoded by the decoder 32-1 is input from the information demultiplexed by the above, and based on this, the synthesizing unit 30 of the second vocoder transmits the information of the first vocoder via the line 10 or the like. It is determined whether the frame received from the analysis unit 20 is a voiced sound frame (102).

【0012】有声音フレームであると判定したときに
は、補間処理部33は、復号器32−2〜32−4から
それぞれピッチ周期Pref 、線スペクトル対係数Lref
及びフレームパワーGref を入力する(104)。補間
処理部33は、次の式
When it is determined that the frame is a voiced sound frame, the interpolation processing unit 33 outputs the pitch period P ref and the line spectrum pair coefficient L ref from the decoders 32-2 to 32-4, respectively.
And the frame power G ref are input (104). The interpolation processing unit 33 uses the following equation

【数1】 に従い、拡張フレーム(後述)内に収まるピッチ周期の
個数Nを演算する(106)。すなわち、1個の拡張フ
レームをN個のサブフレームに分割する。但し、上式で
は入力したピッチ周期Pref と初期設定したピッチ周期
プリセット値Pps t の単純平均値を分母に用いている
が、加重平均値等を用いても構わない。
(Equation 1) According to the above, the number N of pitch periods that can be accommodated in the extension frame (described later) is calculated (106). That is, one extension frame is divided into N subframes. However, although the above equation is used a simple average value of the pitch period preset value P ps t that pitch period P ref and the initial settings entered in the denominator, may be used a weighted average value.

【0013】補間処理部33は、さらに、次の式The interpolation processing unit 33 further uses the following equation

【数2】 に従い線形内挿演算を行うことにより、拡張フレーム内
のN個のサブフレームそれぞれについてピッチ周期P
smz [n]を求める(108)。補間処理部33は、求
めたピッチ周期Psmz [n]に係る全てのサブフレーム
が拡張フレーム内に収まることを確認すべく、次の式
(Equation 2) By performing the linear interpolation calculation according to the following, the pitch period P is calculated for each of the N subframes in the extension frame.
The smz [n] is calculated (108). The interpolation processing unit 33 confirms that all subframes related to the obtained pitch period P smz [n] are included in the extension frame by the following equation.

【数3】 に従い合成フレーム長Fsyn を求め(110)、拡張フ
レーム長Fpre と比較する(112)。収まらない場合
(すなわちFsyn >Fpre の場合)、補間処理部33
は、サブフレームの個数Nを1減らして(114)、ス
テップ108に戻る。逆に収まる場合(すなわちFsyn
≦Fpre の場合)、補間処理部33は、式(2)と同様
の式
(Equation 3) The synthetic frame length F syn is calculated according to (110) and compared with the extended frame length F pre (112). If it does not fit (that is, if F syn > F pre ), the interpolation processing unit 33
Decrements the number N of subframes by 1 (114) and returns to step 108. Conversely, if it fits (ie F syn
≦ F pre ), the interpolation processing unit 33 uses the same formula as the formula (2).

【数4】 により、すなわちピッチ周期の線形内挿と同期した演算
により、各サブフレームについて線スペクトル対係数L
smz [n]及びフレームパワーGsmz [n]を求める
(116)。
(Equation 4) , That is, by the calculation synchronized with the linear interpolation of the pitch period, the line spectrum pair coefficient L is calculated for each subframe.
The smz [n] and the frame power G smz [n] are obtained (116).

【0014】ステップ116実行後、補間処理部33
は、拡張フレーム長Fpre に対する合成フレーム長F
syn の残余ΔF=Fpre −Fsyn を求め(118)、求
めた残余フレーム長ΔFを基本フレーム長、すなわち分
析部20において使用しているフレーム長Fanl に加算
することにより次の基本フレームに係る拡張フレーム長
pre を求め(120)、各プリセット値Ppst 、L
pst 及びGpst に最終サブフレームのピッチ周期Psmz
[N−1]、線スペクトル対係数Lsmz [N−1]及び
フレームパワーGsmz [N−1]をそれぞれ設定し(1
22)、ステップ102に戻る。すなわち、上の説明に
て使用した拡張フレームとは、前回の拡張フレームの長
さのうちいずれのサブフレームにも属さなかった残余分
ΔFにて、基本フレームを拡張したフレームである。
After the execution of step 116, the interpolation processing unit 33
Is the composite frame length F with respect to the extended frame length F pre
syn calculated residual ΔF = F pre -F syn of (118), calculated residual frame length [Delta] F the basic frame length, i.e. the next basic frame by adding a frame length F anl using in the analysis unit 20 The extended frame length F pre is calculated (120) and the preset values P pst and L are set.
The pitch period P smz of the last sub-frame in pst and G pst
[N-1], line spectrum pair coefficient L smz [N-1] and frame power G smz [N-1] are set (1
22) and returns to step 102. That is, the extension frame used in the above description is a frame obtained by extending the basic frame with the residual ΔF that does not belong to any subframe of the length of the previous extension frame.

【0015】ステップ102にて無声音フレームである
と判定したときには、補間処理部33は、サブフレーム
長を、基本フレーム長Fanl を均等分割数NUVにて除し
た長さに設定する。また、直前のフレームが有声音フレ
ームであった場合、当該有声音フレームにて一般に非ゼ
ロの残余ΔFが生じているから、補間処理部33は、第
1サブフレームを残余分ΔFにて拡張する。補間処理部
33は、ステップ116〜122と同様の処理を実行し
(128〜134)、ステップ102に戻る。但し、ス
テップ128〜134では、NをNUVに置換し、ΔFを
0として扱う。また、無声音時には、ピッチ周期に係る
演算は実行しない。Pref としては、分析部20にて計
算したピッチトラッキング値にて、有声音になるまで毎
フレーム更新する。
When it is determined in step 102 that the frame is unvoiced, the interpolation processing unit 33 sets the subframe length to the length obtained by dividing the basic frame length F anl by the equal division number N UV . If the immediately preceding frame is a voiced sound frame, a non-zero residual ΔF is generally generated in the voiced sound frame, so the interpolation processing unit 33 expands the first sub-frame with the residual ΔF. . The interpolation processing unit 33 executes the same processing as steps 116 to 122 (128 to 134) and returns to step 102. However, in steps 128 to 134, N is replaced with N UV and ΔF is treated as 0. In addition, when the voice is unvoiced, the pitch cycle calculation is not executed. As P ref , the pitch tracking value calculated by the analysis unit 20 is updated every frame until voiced sound is obtained.

【0016】図3には、本実施形態における補間状態が
類型図示されている。特に図3(a)は有声音フレーム
の場合であり、1個の拡張フレームが複数個のサブフレ
ームに区分されている。また、この場合、各サブフレー
ムの長さは、線形内挿により定められている。次に、図
3(b)は無声音フレームの場合であり、1個の基本フ
レームが複数個のサブフレームに区分されている。この
場合、各サブフレームの長さは、均等分割により定めら
れているため互いに等しい。そして、図3(c)は有声
音フレームから無声音フレームに移行した直後の例であ
り、第1サブフレームに残余ΔFが加算されている点で
図3(b)と相違している。
FIG. 3 schematically shows the interpolation state in this embodiment. Particularly, FIG. 3A shows a case of a voiced sound frame, and one extension frame is divided into a plurality of subframes. Further, in this case, the length of each subframe is determined by linear interpolation. Next, FIG. 3B shows a case of an unvoiced sound frame, in which one basic frame is divided into a plurality of subframes. In this case, the lengths of the subframes are equal to each other because they are determined by the equal division. 3C is an example immediately after the transition from the voiced sound frame to the unvoiced sound frame, which is different from FIG. 3B in that the residual ΔF is added to the first subframe.

【0017】このように、本実施形態では、ステップ1
08にてスムージングされたピッチ周期Psmz [n]に
同期して、ステップ116にて線スペクトル対係数L
smz [n]及びフレームパワーGsmz [n]が生成さ
れ、その結果に基づき合成処理部34が音声信号を合成
する。従って、スペクトル包絡やスペクトル微細構造の
時間的推移等の特徴を再現することが可能になり、合成
により得られる音声信号の品質を改善できる。また、均
等分割を採用しているため、無声音フレームにも対処で
きる。さらに、有声音フレームから無声音フレームへの
移行の際に、残余ΔFを第1サブフレーム長に加算して
いるため、有声音から無声音への移行に当たって格別の
矛盾が生じない。
As described above, in this embodiment, step 1
In step 116, the line spectrum pair coefficient L is synchronized with the smoothed pitch period P smz [n].
smz [n] and frame power G smz [n] are generated, and the synthesis processing unit 34 synthesizes the audio signal based on the result. Therefore, it becomes possible to reproduce the characteristics such as the temporal change of the spectral envelope and the spectral fine structure, and the quality of the speech signal obtained by the synthesis can be improved. Moreover, since even division is adopted, unvoiced frames can be dealt with. Furthermore, since the residual ΔF is added to the length of the first subframe when the voiced sound frame is changed to the unvoiced sound frame, no particular contradiction occurs when the voiced sound is changed to the unvoiced sound.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 ボコーダの一例構成を示すブロック図であ
る。
FIG. 1 is a block diagram showing an example configuration of a vocoder.

【図2】 本発明の一実施形態における補間処理部の動
作の流れを示すフローチャートである。
FIG. 2 is a flowchart showing a flow of operations of an interpolation processing unit according to the embodiment of the present invention.

【図3】 この実施形態における補間状態を示す図であ
り、(a)は有声音時を、(b)は無声音時を、(c)
は有声音から無声音への移行時を、それぞれ示してい
る。
3A and 3B are diagrams showing an interpolation state in this embodiment, where FIG. 3A is a voiced sound, FIG. 3B is an unvoiced sound, and FIG.
Indicates the transition from voiced sound to unvoiced sound.

【符号の説明】[Explanation of symbols]

10 伝送路、20 分析部、30 合成部、33 補
間処理部、34 合成処理部。
10 transmission lines, 20 analysis unit, 30 synthesis unit, 33 interpolation processing unit, 34 synthesis processing unit.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 所定長Fanl の基本フレームを単位とし
た分析にて得られるピッチ周期情報Pref 並びに線スペ
クトル対係数Lref 及び/又はフレームパワー情報G
ref を、第1のボコーダの分析部から伝送路を介し受信
したとき、第2のボコーダの合成部により実行される音
声信号合成方法において、下記各ステップを上記基本フ
レーム毎に繰り返し実行することを特徴とする音声信号
合成方法:現在の基本フレームに対応する拡張フレーム
内に、当該拡張フレームの長さFpre 、現在の基本フレ
ームに係るピッチ周期情報Pref 及び前回の拡張フレー
ム内の最終サブフレームの長さPpst に基づき、各サブ
フレームに係るピッチ周期を示すサブフレーム長Psmz
[n]がnに対して滑らかに変化するよう、N個のサブ
フレームを設定する第1ステップ(Nは2以上の自然
数、nは0≦n≦N−1を満たす整数);現在の基本フ
レームに係る線スペクトル対係数Lref 及び/又はフレ
ームパワー情報Gref に基づき、かつ各サブフレーム毎
に、線スペクトル対係数Lsmz [n]及び/又はフレー
ムパワー情報Gsmz [n]を生成する第2ステップ;ピ
ッチ周期情報Psmz [n]並びに線スペクトル対係数L
smz [n]及び/又はフレームパワー情報Gsmz [n]
に基づき、音声信号を合成する第3ステップ;及びサブ
フレーム長Psmz [n]のnについての総和Fsyn に対
する上記拡張フレーム長Fpre の余剰分ΔFを基本フレ
ーム長Fanl に加算し、その結果得られる値Fnxt を、
次に到来する基本フレームに対応する拡張フレームの長
さFpre に設定する第4ステップ。
1. Pitch period information P ref and line spectrum pair coefficient L ref and / or frame power information G obtained by an analysis using a basic frame of a predetermined length F anl as a unit.
When ref is received from the analysis unit of the first vocoder via the transmission line, in the audio signal synthesizing method executed by the synthesizing unit of the second vocoder, the following steps are repeatedly performed for each basic frame. Characteristic audio signal synthesizing method: Length of the extension frame F pre , pitch period information P ref related to the current base frame, and last subframe in the previous extension frame in the extension frame corresponding to the current base frame. Sub-frame length P smz indicating the pitch period of each sub-frame based on the length P pst of
The first step of setting N subframes so that [n] changes smoothly with respect to n (N is a natural number of 2 or more, n is an integer satisfying 0 ≦ n ≦ N−1); current basic A line spectrum pair coefficient L smz [n] and / or frame power information G smz [n] is generated based on the line spectrum pair coefficient L ref and / or the frame power information G ref related to the frame and for each subframe. Second step; pitch period information P smz [n] and line spectrum pair coefficient L
smz [n] and / or frame power information G smz [n]
A third step of synthesizing a speech signal based on the above, and adding a surplus ΔF of the extended frame length F pre to the sum F syn of n of the sub-frame length P smz [n] to the basic frame length F anl , and The resulting value F nxt is
The fourth step of setting the length F pre of the extension frame corresponding to the next basic frame.
【請求項2】 所定長Fanl の基本フレームを単位とし
た分析にて得られるピッチ周期情報Pref 、線スペクト
ル対係数Lref 及び/又はフレームパワー情報Gref
並びに現在の基本フレームが有声音フレームであるのか
それとも無声音フレームであるのかを示す有声音/無声
音情報を、第1のボコーダの分析部から伝送路を介し受
信したとき、第2のボコーダの合成部により実行される
音声信号合成方法において、下記各ステップを上記基本
フレーム毎に繰り返し実行することを特徴とする音声信
号合成方法:受信した有声音/無声音情報に基づき現在
の基本フレームが有声音フレームであるのかそれとも無
声音フレームであるのかを判定する第0ステップ;第0
ステップにて有声音フレームであると判定した場合に、
請求項1記載の音声信号合成方法に移行する第6ステッ
プ;及び第0ステップにて無声音フレームであると判定
した場合に、現在の基本フレーム又はこれに直前の有声
音フレームに係る余剰分ΔFを加算した長さのフレーム
を、上記拡張フレームと見なした上で、第2乃至第4の
ステップに移行する第7ステップ。
2. Pitch period information P ref , line spectrum pair coefficient L ref and / or frame power information G ref , which are obtained by analysis in units of a basic frame of a predetermined length F anl .
Also, when voiced / unvoiced information indicating whether the current basic frame is a voiced frame or an unvoiced frame is received from the analysis unit of the first vocoder via the transmission path, the synthesis unit of the second vocoder is In the method of synthesizing a voice signal according to claim 1, the following steps are repeatedly performed for each of the above basic frames: a voice signal synthesizing method, in which the current basic frame is a voiced frame based on the received voiced / unvoiced information. 0th step of judging whether there is an unvoiced sound frame or not; 0th
When it is determined that the frame is a voiced sound in step,
The sixth step of transitioning to the voice signal synthesizing method according to claim 1; and, when it is determined that the frame is an unvoiced sound frame in the 0th step, the surplus ΔF related to the current basic frame or the immediately preceding voiced sound frame is calculated. A seventh step in which the frame having the added length is regarded as the above-mentioned extended frame, and then the second to fourth steps are performed.
【請求項3】 請求項2記載の音声信号合成方法におい
て、第7ステップが、前回の基本フレームが有声音フレ
ームでありかつ現在の基本フレームが無声音フレームで
あった場合に、前回の拡張フレームにおける余剰分ΔF
を均等区分に係るサブフレーム長に加算した値を、今回
の基本フレームに対応する拡張フレームの冒頭サブフレ
ームの長さに設定するステップを含むことを特徴とする
音声信号合成方法。
3. The speech signal synthesizing method according to claim 2, wherein in the seventh step, when the previous basic frame is a voiced sound frame and the current basic frame is an unvoiced sound frame, Surplus ΔF
A method of synthesizing a voice signal, comprising the step of setting a value obtained by adding to the subframe length according to the equal division to the length of the beginning subframe of the extension frame corresponding to the current basic frame.
JP7302945A 1995-11-21 1995-11-21 Sound signal synthesizing method Pending JPH09146596A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7302945A JPH09146596A (en) 1995-11-21 1995-11-21 Sound signal synthesizing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7302945A JPH09146596A (en) 1995-11-21 1995-11-21 Sound signal synthesizing method

Publications (1)

Publication Number Publication Date
JPH09146596A true JPH09146596A (en) 1997-06-06

Family

ID=17915039

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7302945A Pending JPH09146596A (en) 1995-11-21 1995-11-21 Sound signal synthesizing method

Country Status (1)

Country Link
JP (1) JPH09146596A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103562994A (en) * 2011-03-18 2014-02-05 弗兰霍菲尔运输应用研究公司 Frame element length transmission in audio coding

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103562994A (en) * 2011-03-18 2014-02-05 弗兰霍菲尔运输应用研究公司 Frame element length transmission in audio coding
US9524722B2 (en) 2011-03-18 2016-12-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Frame element length transmission in audio coding
US9773503B2 (en) 2011-03-18 2017-09-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder and decoder having a flexible configuration functionality
US9779737B2 (en) 2011-03-18 2017-10-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Frame element positioning in frames of a bitstream representing audio content

Similar Documents

Publication Publication Date Title
US7394833B2 (en) Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
JP5420175B2 (en) Method for generating concealment frame in communication system
KR100472585B1 (en) Method and apparatus for reproducing voice signal and transmission method thereof
US5873059A (en) Method and apparatus for decoding and changing the pitch of an encoded speech signal
US4821324A (en) Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate
JP2746033B2 (en) Audio decoding device
KR20050042020A (en) Audio decoding apparatus and audio decoding method based on spectral band replication
JP2002541499A (en) CELP code conversion
JP2002528775A (en) Method and apparatus for adaptive band pitch search in wideband signal coding
KR20040005860A (en) Method and system for comfort noise generation in speech communication
JPH0962299A (en) Code exciting linear predictive coding device
JPH01155400A (en) Voice encoding system
JP4558205B2 (en) Speech coder parameter quantization method
JPH0730496A (en) Sound signal decoding device
US7302385B2 (en) Speech restoration system and method for concealing packet losses
JP2007504503A (en) Low bit rate audio encoding
US7739106B2 (en) Sinusoidal coding including a phase jitter parameter
JPH08305398A (en) Voice decoding device
EP1905009B1 (en) Audio signal synthesis
WO2009122757A1 (en) Stereo signal converter, stereo signal reverse converter, and methods for both
JPH09146596A (en) Sound signal synthesizing method
JP2006503323A (en) Sinusoidal audio coding with phase update
JP3050978B2 (en) Audio coding method
US20020052745A1 (en) Speech encoding method, speech decoding method and electronic apparatus
JP4826580B2 (en) Audio signal reproduction method and apparatus