JP3886815B2 - Speech coding apparatus, speech decoding apparatus, speech coding method, and speech decoding method - Google Patents

Speech coding apparatus, speech decoding apparatus, speech coding method, and speech decoding method Download PDF

Info

Publication number
JP3886815B2
JP3886815B2 JP2002020502A JP2002020502A JP3886815B2 JP 3886815 B2 JP3886815 B2 JP 3886815B2 JP 2002020502 A JP2002020502 A JP 2002020502A JP 2002020502 A JP2002020502 A JP 2002020502A JP 3886815 B2 JP3886815 B2 JP 3886815B2
Authority
JP
Japan
Prior art keywords
information
speech
spectrum information
quantized value
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002020502A
Other languages
Japanese (ja)
Other versions
JP2003223177A (en
Inventor
正 山浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2002020502A priority Critical patent/JP3886815B2/en
Publication of JP2003223177A publication Critical patent/JP2003223177A/en
Application granted granted Critical
Publication of JP3886815B2 publication Critical patent/JP3886815B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Time-Division Multiplex Systems (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、音声信号をディジタル信号に圧縮符号化する音声符号化装置及び音声符号化方法と、圧縮符号化されたディジタル信号を復号化する音声復号化装置及び音声復号化方法とに関するものである。
【0002】
【従来の技術】
従来、高能率音声符号化方法として、所定時間のフレーム毎に入力音声をスペクトル情報と音源情報とに分離して符号化する音声符号化方法が広く用いられている。その代表的な方法としては、例えば、マルチパルス音声符号化方法やCELP(Code Excited Linear Prediction)音声符号化方法がよく知られている。
【0003】 これらの音声符号化方法では、スペクトル情報の符号化が予め定められたフレーム単位で行われ、また、音源情報の符号化がフレーム長より短い間隔(サブフレーム)毎に行われる。音源情報を符号化する際にはスペクトル情報を利用するが、本来、スペクトル情報は時間的に滑らかに変化するものであるため、フレーム毎のスペクトル情報をサブフレーム毎に補間することが必要である。
【0004】
このスペクトル情報を補間する方法としては、一般に先行フレームのスペクトル情報から現フレームのスペクトル情報までの変動を直線近似するものが利用されている。また、どのフレームにおいても単一の変動パターンで近似を施すのは適切でない場合もあるので、特開平4−232999号公報や特開平6−118996号公報では、複数の補間パターンから最適な補間パターンを選択する方法が開示されている。
【0005】
図9は従来の音声符号化装置及び音声復号化装置を示す構成図であり、図において、1は入力音声S1のスペクトル情報を符号化するとともに、入力音声S1の音源情報を符号化する符号化部、2は符号化部1により符号化されたスペクトル情報の符号と音源情報の符号を多重化して伝送する多重化部、3は多重化されているスペクトル情報の符号と音源情報の符号を分離する分離部、4はスペクトル情報の符号と音源情報の符号を復号化して復号音声S3を生成する復号化部である。
【0006】
11は入力音声S1のスペクトル情報を符号化し、そのスペクトル情報の符号と量子化値を出力するスペクトル情報符号化部、12は予め用意されている複数の補間方法のうち、任意の補間方法を一つ選択し、その補間方法を実行してスペクトル情報の量子化値を補間するとともに、その選択した補間方法を示す補間情報の符号を出力する補間部、13は補間部12から出力されたスペクトル情報の量子化値を用いて入力音声S1の音源情報を符号化し、その音源情報の符号を出力する音源情報符号化部である。
【0007】
14はスペクトル情報の符号を復号化し、そのスペクトル情報の量子化値を出力するスペクトル情報復号化部、15は予め用意されている複数の補間方法のうち、補間情報の符号が示す補間方法を選択し、その補間方法を実行してスペクトル情報の量子化値を補間する補間部、16は音源情報の符号を復号化し、その音源情報の量子化値を出力する音源情報復号化部、17は補間部15から出力されたスペクトル情報の量子化値と音源情報復号化部16から出力された音源情報の量子化値を合成して復号音声S3を生成する合成部である。
【0008】
次に動作について説明する。
まず、符号化部1のスペクトル情報符号化部11は、入力音声S1を分析し、例えば、線形予測パラメータやケプストラムなどのスペクトル情報を抽出する。
そして、そのスペクトル情報をベクトル量子化などの既知の方法を実行して符号化し、得られたスペクトル情報の符号を多重化部2に出力する。また、スペクトル情報の量子化値(符号化結果)を補間部12に出力する。
【0009】
符号化部1の補間部12は、予め用意されている複数の補間方法のうち、例えば、特開平4−232999号公報に開示されている方法を実行することにより、任意の補間方法を一つ選択する。
そして、その選択した補間方法を実行してスペクトル情報の量子化値を補間し、補間後のスペクトル情報の量子化値を音源情報符号化部13に出力する。また、その選択した補間方法を示す補間情報の符号を多重化部2に出力する。
【0010】
符号化部1の音源情報符号化部13は、入力音声S1を分析して音源情報を抽出する。
そして、補間部12から出力されたスペクトル情報の量子化値を用いて、入力音声S1の音源情報を符号化し、得られた音源情報の符号を多重化部2に出力する。
【0011】
多重化部2は、符号化部1から出力されたスペクトル情報の符号と、補間情報の符号と、音源情報の符号とを多重化し、その多重化結果S2を分離部3に伝送する。
分離部3は、多重化結果S2を受けると、それらを分離する。そして、スペクトル情報の符号をスペクトル情報復号化部14に出力し、補間情報の符号を補間部15に出力し、音源情報の符号を音源情報復号化部16に出力する。
【0012】
復号化部4のスペクトル情報復号化部14は、分離部3からスペクトル情報の符号を受けると、そのスペクトル情報の符号を復号化し、そのスペクトル情報の量子化値(復号化結果)を補間部15に出力する。
復号化部4の補間部15は、予め用意されている複数の補間方法のうち、補間情報の符号が示す補間方法を選択する。即ち、符号化部1の補間部12により選択された補間方法と同じ補間方法を選択する。そして、その補間方法を実行してスペクトル情報の量子化値を補間し、補間後のスペクトル情報の量子化値を合成部17に出力する。
【0013】
復号化部4の音源情報復号化部16は、分離部3から音源情報の符号を受けると、その音源情報の符号を復号化し、その音源情報の量子化値(復号化結果)を合成部17に出力する。
復号化部4の合成部17は、補間部15から出力されたスペクトル情報の量子化値と音源情報復号化部16から出力された音源情報の量子化値を合成して復号音声S3を生成する。
【0014】
【発明が解決しようとする課題】
従来の音声符号化装置及び音声復号化装置は以上のように構成されているので、常に同一の補間方法を実行してスペクトル情報の量子化値を補間する場合よりも、高品質な復号音声を生成することができるが、補間情報の符号を伝送する必要があるため、低ビットレート化の妨げになる課題があった。
【0015】
この発明は上記のような課題を解決するためになされたもので、伝送情報量の増加を招くことなく、品質の高い音声の再生を実現することができる音声符号化装置、音声復号化装置、音声符号化方法及び音声復号化方法を得ることを目的とする。
【0016】
【課題を解決するための手段】
この発明に係る音声符号化装置は、スペクトル情報符号化手段から出力された量子化値に基づいて入力音声の前フレーム及び現フレームが有声であるか無声であるかを判定する様態判定手段を設け、その様態判定手段の判定結果に応じて補間方法を選択し、その補間方法を実行してスペクトル情報符号化手段から出力された量子化値をフレーム間で補間するようにしたものである。
【0017】
この発明に係る音声符号化装置は、スペクトル情報符号化手段から出力されたスペクトル情報の符号に基づいて入力音声の前フレーム及び現フレームが有声であるか無声であるかを判定する様態判定手段を設け、その様態判定手段の判定結果に応じて補間方法を選択し、その補間方法を実行してスペクトル情報符号化手段から出力された量子化値をフレーム間で補間するようにしたものである。
【0019】
この発明に係る音声符号化装置は、様態判定手段の判定結果が、入力音声の前フレームが無声であって、現フレームが有声である旨を示す場合、補間対象の一部のサブフレームの量子化値が現フレームの量子化値と一致するような補間方法を実行するようにしたものである。
【0020】
この発明に係る音声符号化装置は、様態判定手段の判定結果が、入力音声の前フレームが有声であって、現フレームが無声である旨を示す場合、補間対象の一部のサブフレームの量子化値が前フレームの量子化値と一致するような補間方法を実行するようにしたものである。
【0021】
この発明に係る音声復号化装置は、スペクトル情報復号化手段から出力された量子化値に基づいて復号音声の前フレーム及び現フレームが有声であるか無声であるかを判定する様態判定手段を設け、その様態判定手段の判定結果に応じて補間方法を選択し、その補間方法を実行してスペクトル情報復号化手段から出力された量子化値をフレーム間で補間するようにしたものである。
【0022】
この発明に係る音声復号化装置は、スペクトル情報の符号に基づいて復号音声の前フレーム及び現フレームが有声であるか無声であるかを判定する様態判定手段を設け、その様態判定手段の判定結果に応じて補間方法を選択し、その補間方法を実行してスペクトル情報復号化手段から出力された量子化値をフレーム間で補間するようにしたものである。
【0024】
この発明に係る音声復号化装置は、様態判定手段の判定結果が、復号音声の前フレームが無声であって、現フレームが有声である旨を示す場合、補間対象の一部のサブフレームの量子化値が現フレームの量子化値と一致するような補間方法を実行するようにしたものである。
【0025】
この発明に係る音声復号化装置は、様態判定手段の判定結果が、復号音声の前フレームが有声であって、現フレームが無声である旨を示す場合、補間対象の一部のサブフレームの量子化値が前フレームの量子化値と一致するような補間方法を実行するようにしたものである。
【0026】
この発明に係る音声符号化方法は、スペクトル情報の量子化値に基づいて入力音声の前フレーム及び現フレームが有声であるか無声であるかを判定し、その判定結果に応じて補間方法を選択し、その補間方法を実行してそのスペクトル情報の量子化値をフレーム間で補間するようにしたものである。
【0027】
この発明に係る音声符号化方法は、スペクトル情報の符号に基づいて入力音声の前フレーム及び現フレームが有声であるか無声であるかを判定し、その判定結果に応じて補間方法を選択し、その補間方法を実行してそのスペクトル情報の量子化値をフレーム間で補間するようにしたものである。
【0028】
この発明に係る音声復号化方法は、スペクトル情報の量子化値に基づいて復号音声の前フレーム及び現フレームが有声であるか無声であるかを判定し、その判定結果に応じて補間方法を選択し、その補間方法を実行してそのスペクトル情報の量子化値をフレーム間で補間するようにしたものである。
【0029】
この発明に係る音声復号化方法は、スペクトル情報の符号に基づいて復号音声の前フレーム及び現フレームが有声であるか無声であるかを判定し、その判定結果に応じて補間方法を選択し、その補間方法を実行してそのスペクトル情報の量子化値をフレーム間で補間するようにしたものである。
【0030】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による音声符号化装置及び音声復号化装置を示す構成図であり、図において、21は入力音声S1のスペクトル情報を符号化するとともに、入力音声S1の音源情報を符号化する符号化部、22は符号化部21により符号化されたスペクトル情報の符号と音源情報の符号を多重化して伝送する多重化部、23は多重化されているスペクトル情報の符号と音源情報の符号を分離する分離部、24はスペクトル情報の符号と音源情報の符号を復号化して復号音声S3を生成する復号化部である。
【0031】
31は入力音声S1のスペクトル情報を符号化し、そのスペクトル情報の符号と量子化値を出力するスペクトル情報符号化部(スペクトル情報符号化手段)、32はスペクトル情報符号化部31から出力されたスペクトル情報の量子化値に基づいて入力音声S1の様態を判定する様態判定部(様態判定手段)、33は予め用意されている複数の補間方法のうち、様態判定部32の判定結果に応じた補間方法を実行して、スペクトル情報符号化部31から出力されたスペクトル情報の量子化値をフレーム間で補間する補間部(補間手段)、34は補間部33から出力されたスペクトル情報の量子化値を用いて入力音声S1の音源情報を符号化し、その音源情報の符号を出力する音源情報符号化部(音源情報符号化手段)である。
【0032】
35はスペクトル情報の符号を復号化し、そのスペクトル情報の量子化値を出力するスペクトル情報復号化部(スペクトル情報復号化手段)、36はスペクトル情報復号化部35から出力されたスペクトル情報の量子化値に基づいて復号音声S3の様態を判定する様態判定部(様態判定手段)、37は様態判定部36の判定結果に応じた補間方法を実行して、スペクトル情報復号化部35から出力されたスペクトル情報の量子化値をフレーム間で補間する補間部(補間手段)、38は音源情報の符号を復号化し、その音源情報の量子化値を出力する音源情報復号化部(音源情報復号化手段)、39は補間部37から出力されたスペクトル情報の量子化値と音源情報復号化部38から出力された音源情報の量子化値を合成して復号音声S3を生成する合成部(合成手段)である。
図2はこの発明の実施の形態1による音声符号化方法及び音声復号化方法を示すフローチャートである。
【0033】
次に動作について説明する。
まず、符号化部21のスペクトル情報符号化部31は、入力音声S1を分析して、例えば、線形予測パラメータやケプストラムなどのスペクトル情報を抽出する。
そして、そのスペクトル情報をベクトル量子化などの既知の方法を実行して符号化し、得られたスペクトル情報の符号を多重化部22に出力する(ステップST1)。また、スペクトル情報の量子化値(符号化結果)を様態判定部32及び補間部33に出力する。
【0034】
符号化部21の様態判定部32は、スペクトル情報符号化部31からスペクトル情報の量子化値を受けると、そのスペクトル情報の量子化値に基づいて入力音声S1の様態を判定する(ステップST2)。即ち、音声符号化や音声認識などの技術分野において既知の方法を実行することにより、スペクトル情報の量子化値から入力音声S1の各フレームの様態が有声であるか、または、無声であるかを判定する。
【0035】
符号化部21の補間部33は、予め用意されている複数の補間方法(補間パターン)のうち、様態判定部32の判定結果に応じた補間パターンを選択する(ステップST3)。
ここで、図3は補間パターン例を示す説明図であり、図において、(A)はスペクトル情報をフレーム間で線形補間している補間パターン例である。また、(B)はサブフレームの量子化値が早期に現フレームの量子化値と一致するように補間している補間パターン例である。
【0036】
補間部33は、例えば、様態判定部32の判定結果が、前フレームが無声であって、現フレームが有声である旨を示す場合には、補間パターン(B)を選択し、それ例外の場合には、補間パターン(A)を選択するようにする。
このような補間パターンを用いることにより、図4に示すように、無声から有声への過渡部(有声区間である第2、第3サブフレーム)において、補間後のスペクトル情報が真のスペクトル情報に近いものとなるので、当該区間の復号音声の品質を高めることができる。
【0037】
このような補間を行った場合、入力音声S1のフレーミングによっては、図5に示すように、無声区間である第2サブフレームにおいて、補間後のスペクトル情報が有声のスペクトル様態を示すものとなることもあるが、無声区間はパワーが小さいので、このような齟齬が発生しても復号音声の聴覚上の劣化は生じない。
【0038】
なお、前フレームが無声であって、現フレームが有声である場合のスペクトル情報の補間パターンは、図3の補間パターン(B)に限るものではなく、図6に示す補間パターン(B’)や(B″)などの他の補間パターンを用いることも当然可能である。また、図3〜図6では1フレーム当り、4つのサブフレームを有する構成を示したが、1フレーム当りのサブフレーム数は4に限るものでなく、他の構成でも同様に補間パターンを与えることは当然可能である。
【0039】
符号化部21の補間部33は、上記のようにして補間パターンを選択すると、その補間パターンにしたがってスペクトル情報符号化部31から出力されたスペクトル情報の量子化値をフレーム間で補間する(ステップST4)。
符号化部21の音源情報符号化部34は、入力音声S1を分析して音源情報を抽出する。
そして、補間部33から出力されたスペクトル情報の量子化値を用いて、入力音声S1の音源情報を符号化し、得られた音源情報の符号を多重化部22に出力する(ステップST5)。
【0040】
多重化部22は、符号化部21から出力されたスペクトル情報の符号と、音源情報の符号とを多重化し、その多重化結果S2を分離部23に伝送する(ステップST6)。
分離部23は、多重化結果S2を受けると、それらを分離する(ステップST7)。そして、スペクトル情報の符号をスペクトル情報復号化部35に出力し、音源情報の符号を音源情報復号化部38に出力する。
【0041】
復号化部24のスペクトル情報復号化部35は、分離部23からスペクトル情報の符号を受けると、そのスペクトル情報の符号を復号化し、そのスペクトル情報の量子化値(復号化結果)を様態判定部36及び補間部37に出力する(ステップST8)。
【0042】
復号化部24の様態判定部36は、スペクトル情報復号化部35からスペクトル情報の量子化値を受けると、符号化部21の様態判定部32と同様に、そのスペクトル情報の量子化値に基づいて復号音声S3の様態を判定する(ステップST9)。
【0043】
復号化部24の補間部37は、符号化部21の補間部33と同様に、予め用意されている複数の補間方法のうち、様態判定部36の判定結果に応じた補間パターンを選択する(ステップST10)。
そして、その選択した補間パターンにしたがってスペクトル情報復号化部35から出力されたスペクトル情報の量子化値をフレーム間で補間する(ステップST11)。
【0044】
復号化部24の音源情報復号化部38は、分離部23から音源情報の符号を受けると、その音源情報の符号を復号化し、その音源情報の量子化値(復号化結果)を合成部39に出力する(ステップST12)。
復号化部24の合成部39は、補間部37から出力されたスペクトル情報の量子化値と音源情報復号化部38から出力された音源情報の量子化値を合成して復号音声S3を生成する(ステップST13)。
【0045】
以上で明らかなように、この実施の形態1によれば、符号化部21においては、スペクトル情報符号化部31から出力されたスペクトル情報の量子化値に基づいて入力音声S1の様態を判定する様態判定部32を設け、その様態判定部32の判定結果に応じた補間方法を実行して、スペクトル情報符号化部31から出力されたスペクトル情報の量子化値をフレーム間で補間するように構成し、復号化部24においては、スペクトル情報復号化部35から出力されたスペクトル情報の量子化値に基づいて復号音声S3の様態を判定する様態判定部36を設け、その様態判定部36の判定結果に応じた補間方法を実行して、スペクトル情報復号化部35から出力されたスペクトル情報の量子化値をフレーム間で補間するように構成したので、従来例のように、補間情報の符号を伝送する必要がなくなり、その結果、伝送情報量の増加を招くことなく、品質の高い音声の再生を実現することができる効果を奏する。
【0046】
また、この実施の形態1では、入力音声S1の様態判定結果が所定条件を満たす場合には、サブフレームの量子化値が早期に現フレームの量子化値と一致するように補間するので、フレーム内で入力音声S1の様態が急変する場合にも、適正なスペクトル情報の補間を実施して、品質の高い復号音声を生成することができる。
【0047】
実施の形態2.
図7はこの発明の実施の形態2による音声符号化装置及び音声復号化装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
41はスペクトル情報符号化部31から出力されたスペクトル情報の符号に基づいて入力音声S1の様態を判定する様態判定部(様態判定手段)、42はスペクトル情報の符号に基づいて復号音声S3の様態を判定する様態判定部(様態判定手段)である。
【0048】
上記実施の形態1では、様態判定部32がスペクトル情報符号化部31から出力されたスペクトル情報の量子化値に基づいて入力音声S1の様態を判定し、様態判定部36がスペクトル情報復号化部35から出力されたスペクトル情報の量子化値に基づいて復号音声S3の様態を判定するものについて示したが、これに限るものではなく、様態判定部41がスペクトル情報符号化部31から出力されたスペクトル情報の符号に基づいて入力音声S1の様態を判定し、様態判定部42がスペクトル情報の符号に基づいて復号音声S3の様態を判定するようにしてもよく、上記実施の形態1と同様の効果を奏することができる。
また、スペクトル情報の符号と量子化値(符号化結果または復号化結果)の両方を用いて音声の様態を判定するようにしてもよい。
【0049】
実施の形態3.
上記実施の形態1,2では、前フレームが無声であって、現フレームが有声である場合には、サブフレームの量子化値が早期に現フレームの量子化値と一致するように補間し、それ以外の場合には、線形に補間するものについて示したが、前フレームが有声であって、現フレームが無声である場合には、図8(C)に示すように、サブフレームの量子化値が遅くまで前フレームの量子化値と一致するように補間してもよい。
この実施の形態3によれば、有声から無声への過渡部において、補間後のスペクトル情報が真のスペクトル情報に近いものとなるので、品質の高い復号音声を生成することができる。
【0050】
実施の形態4.
上記実施の形態1〜3では、音声の様態を有声と無声の2値で判定するものについて示したが、これに限るものではなく、例えば、有声の度合を多値判定し、その判定結果に応じて異なる補間パターンを用いるようにしてもよい。
また、有声と無声だけではなく、無声、有声定常、有声過渡など、他の多くの音声様態に分類して判定し、その様態の判定結果に応じて異なる補間パターンを用いるようにしてもよい。
【0051】
さらに、上記実施の形態1〜3では、人が発見的に与えられるような単純な補間パターンを示しているが、これに限るものではなく、例えば、大量の発話音声からなるデータベースを用いて統計的な手法により、各音声様態における最適な補間パターンを学習して獲得するようにしてもよい。
この実施の形態4によれば、それぞれの音声様態に適したスペクトル状態の補間を行うなどの細かい制御が可能となるので、品質の高い復号音声を生成することができる。
【0052】
実施の形態5.
上記実施の形態1〜4では、スペクトル情報のみを用いて音声様態を判定するものについて示したが、これに限るものではなく、例えば、現フレームはスペクトル情報のみから音声様態を判定し、過去のフレームにおける様態判定は過去のフレームの音源情報も用いて再度判定するようにしてもよい。
この実施の形態5によれば、過去のフレームの様態判定精度を向上することが可能となるので、品質の高い復号音声を生成することができる。
【0053】
【発明の効果】
以上のように、この発明によれば、スペクトル情報符号化手段から出力された量子化値に基づいて入力音声の前フレーム及び現フレームが有声であるか無声であるかを判定する様態判定手段を設け、その様態判定手段の判定結果に応じて補間方法を選択し、その補間方法を実行してスペクトル情報符号化手段から出力された量子化値をフレーム間で補間するように構成したので、伝送情報量の増加を招くことなく、品質の高い音声の再生を実現することができる効果がある。
【0054】
この発明によれば、スペクトル情報符号化手段から出力されたスペクトル情報の符号に基づいて入力音声の前フレーム及び現フレームが有声であるか無声であるかを判定する様態判定手段を設け、その様態判定手段の判定結果に応じて補間方法を選択し、その補間方法を実行してスペクトル情報符号化手段から出力された量子化値をフレーム間で補間するように構成したので、伝送情報量の増加を招くことなく、品質の高い音声の再生を実現することができる効果がある。
【0056】
この発明によれば、様態判定手段の判定結果が、入力音声の前フレームが無声であって、現フレームが有声である旨を示す場合、補間対象の一部のサブフレームの量子化値が現フレームの量子化値と一致するような補間方法を実行するように構成したので、無声から有声への過渡部においても、品質の高い音声の再生を実現することができる効果がある。
【0057】
この発明によれば、様態判定手段の判定結果が、入力音声の前フレームが有声であって、現フレームが無声である旨を示す場合、補間対象の一部のサブフレームの量子化値が前フレームの量子化値と一致するような補間方法を実行するように構成したので、有声から無声への過渡部においても、品質の高い音声の再生を実現することができる効果がある。
【0058】
この発明によれば、スペクトル情報復号化手段から出力された量子化値に基づいて復号音声の前フレーム及び現フレームが有声であるか無声であるかを判定する様態判定手段を設け、その様態判定手段の判定結果に応じて補間方法を選択し、その補間方法を実行してスペクトル情報復号化手段から出力された量子化値をフレーム間で補間するように構成したので、伝送情報量の増加を招くことなく、品質の高い音声の再生を実現することができる効果がある。
【0059】
この発明によれば、スペクトル情報の符号に基づいて復号音声の前フレーム及び現フレームが有声であるか無声であるかを判定する様態判定手段を設け、その様態判定手段の判定結果に応じて補間方法を選択し、その補間方法を実行してスペクトル情報復号化手段から出力された量子化値をフレーム間で補間するように構成したので、伝送情報量の増加を招くことなく、品質の高い音声の再生を実現することができる効果がある。
【0061】
この発明によれば、様態判定手段の判定結果が、復号音声の前フレームが無声であって、現フレームが有声である旨を示す場合、補間対象の一部のサブフレームの量子化値が現フレームの量子化値と一致するような補間方法を実行するように構成したので、無声から有声への過渡部においても、品質の高い音声の再生を実現することができる効果がある。
【0062】
この発明によれば、様態判定手段の判定結果が、復号音声の前フレームが有声であって、現フレームが無声である旨を示す場合、補間対象の一部のサブフレームの量子化値が前フレームの量子化値と一致するような補間方法を実行するように構成したので、有声から無声への過渡部においても、品質の高い音声の再生を実現することができる効果がある。
【0063】
この発明によれば、スペクトル情報の量子化値に基づいて入力音声の前フレーム及び現フレームが有声であるか無声であるかを判定し、その判定結果に応じて補間方法を選択し、その補間方法を実行してそのスペクトル情報の量子化値をフレーム間で補間するように構成したので、伝送情報量の増加を招くことなく、品質の高い音声の再生を実現することができる効果がある。
【0064】
この発明によれば、スペクトル情報の符号に基づいて入力音声の前フレーム及び現フレームが有声であるか無声であるかを判定し、その判定結果に応じて補間方法を選択し、その補間方法を実行してそのスペクトル情報の量子化値をフレーム間で補間するように構成したので、伝送情報量の増加を招くことなく、品質の高い音声の再生を実現することができる効果がある。
【0065】
この発明によれば、スペクトル情報の量子化値に基づいて復号音声の前フレーム及び現フレームが有声であるか無声であるかを判定し、その判定結果に応じて補間方法を選択し、その補間方法を実行してそのスペクトル情報の量子化値をフレーム間で補間するように構成したので、伝送情報量の増加を招くことなく、品質の高い音声の再生を実現することができる効果がある。
【0066】
この発明によれば、スペクトル情報の符号に基づいて復号音声の前フレーム及び現フレームが有声であるか無声であるかを判定し、その判定結果に応じて補間方法を選択し、その補間方法を実行してそのスペクトル情報の量子化値をフレーム間で補間するように構成したので、伝送情報量の増加を招くことなく、品質の高い音声の再生を実現することができる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声符号化装置及び音声復号化装置を示す構成図である。
【図2】 この発明の実施の形態1による音声符号化方法及び音声復号化方法を示すフローチャートである。
【図3】 補間パターン例を示す説明図である。
【図4】 スペクトル情報と音声の関係を示す説明図である。
【図5】 スペクトル情報と音声の関係を示す説明図である。
【図6】 補間パターン例を示す説明図である。
【図7】 この発明の実施の形態2による音声符号化装置及び音声復号化装置を示す構成図である。
【図8】 補間パターン例を示す説明図である。
【図9】 従来の音声符号化装置及び音声復号化装置を示す構成図である。
【符号の説明】
1 符号化部、2 多重化部、3 分離部、4 復号化部、11 スペクトル情報符号化部、12 補間部、13 音源情報符号化部、14 スペクトル情報復号化部、15 補間部、16 音源情報復号化部、17 合成部、21 符号化部、22 多重化部、23 分離部、24 復号化部、31 スペクトル情報符号化部(スペクトル情報符号化手段)、32 様態判定部(様態判定手段)、33 補間部(補間手段)、34 音源情報符号化部(音源情報符号化手段)、35 スペクトル情報復号化部(スペクトル情報復号化手段)、36 様態判定部(様態判定手段)、37 補間部(補間手段)、38 音源情報復号化部(音源情報復号化手段)、39 合成部(合成手段)、41 様態判定部(様態判定手段)、42 様態判定部(様態判定手段)。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech coding apparatus and speech coding method for compressing and coding speech signals into digital signals, and a speech decoding apparatus and speech decoding method for decoding compression-coded digital signals. .
[0002]
[Prior art]
Conventionally, as a high-efficiency speech encoding method, a speech encoding method that separates and encodes input speech into spectrum information and sound source information every frame for a predetermined time has been widely used. As typical methods, for example, a multipulse speech coding method and a CELP (Code Excited Linear Prediction) speech coding method are well known.
In these speech encoding methods, spectral information is encoded in predetermined frames, and sound source information is encoded at intervals (subframes) shorter than the frame length. Spectral information is used when encoding sound source information. However, since spectral information changes smoothly with time, it is necessary to interpolate spectral information for each frame for each subframe. .
[0004]
As a method for interpolating the spectrum information, generally, a method that linearly approximates the fluctuation from the spectrum information of the preceding frame to the spectrum information of the current frame is used. In addition, since it may not be appropriate to perform approximation with a single variation pattern in any frame, in Japanese Patent Laid-Open Nos. 4-232999 and 6-118996, an optimal interpolation pattern is selected from a plurality of interpolation patterns. A method of selecting is disclosed.
[0005]
FIG. 9 is a block diagram showing a conventional speech encoding apparatus and speech decoding apparatus. In the figure, 1 encodes spectral information of the input speech S1 and encodes sound source information of the input speech S1. 2 is a multiplexing unit that multiplexes and transmits the spectrum information code and the excitation information code encoded by the encoding unit 1, and 3 separates the multiplexed spectrum information code and the excitation information code. The separating unit 4 is a decoding unit that decodes the code of the spectrum information and the code of the sound source information to generate the decoded speech S3.
[0006]
11 is a spectrum information encoding unit that encodes the spectrum information of the input speech S1 and outputs a code of the spectrum information and a quantized value, and 12 is an arbitrary interpolation method among a plurality of interpolation methods prepared in advance. And interpolating the quantized value of the spectrum information by executing the interpolation method and outputting a code of the interpolation information indicating the selected interpolation method, 13 is the spectrum information output from the interpolation unit 12 This is a sound source information encoding unit that encodes the sound source information of the input speech S1 using the quantized value of and outputs the code of the sound source information.
[0007]
14 is a spectrum information decoding unit that decodes a spectrum information code and outputs a quantized value of the spectrum information, and 15 is an interpolation method indicated by the interpolation information code among a plurality of interpolation methods prepared in advance. An interpolation unit that executes the interpolation method to interpolate the quantized value of the spectrum information, 16 decodes the code of the sound source information, and outputs the quantized value of the sound source information, and 17 interpolates This is a synthesizing unit that generates a decoded speech S3 by synthesizing the quantized value of the spectrum information output from the unit 15 and the quantized value of the sound source information output from the sound source information decoding unit 16.
[0008]
Next, the operation will be described.
First, the spectrum information encoding unit 11 of the encoding unit 1 analyzes the input speech S1 and extracts, for example, spectrum information such as linear prediction parameters and cepstrum.
Then, the spectrum information is encoded by executing a known method such as vector quantization, and the obtained spectrum information code is output to the multiplexing unit 2. Further, the quantized value (encoding result) of the spectrum information is output to the interpolation unit 12.
[0009]
The interpolation unit 12 of the encoding unit 1 performs one arbitrary interpolation method by executing, for example, a method disclosed in JP-A-4-232999, among a plurality of interpolation methods prepared in advance. select.
Then, the selected interpolation method is executed to interpolate the quantized value of the spectrum information, and the quantized value of the interpolated spectral information is output to the excitation information encoding unit 13. In addition, a code of interpolation information indicating the selected interpolation method is output to the multiplexing unit 2.
[0010]
The sound source information encoding unit 13 of the encoding unit 1 analyzes the input speech S1 and extracts sound source information.
Then, using the quantized value of the spectrum information output from the interpolation unit 12, the sound source information of the input speech S <b> 1 is encoded, and the obtained sound source information code is output to the multiplexing unit 2.
[0011]
The multiplexing unit 2 multiplexes the spectrum information code, the interpolation information code, and the excitation information code output from the encoding unit 1, and transmits the multiplexing result S 2 to the separation unit 3.
When receiving the multiplexing result S2, the separating unit 3 separates them. The code of the spectrum information is output to the spectrum information decoding unit 14, the code of the interpolation information is output to the interpolation unit 15, and the code of the excitation information is output to the excitation information decoding unit 16.
[0012]
When the spectrum information decoding unit 14 of the decoding unit 4 receives the code of the spectrum information from the separation unit 3, the spectrum information decoding unit 14 decodes the code of the spectrum information and interpolates the quantized value (decoding result) of the spectrum information. Output to.
The interpolation unit 15 of the decoding unit 4 selects an interpolation method indicated by the code of the interpolation information from among a plurality of interpolation methods prepared in advance. That is, the same interpolation method as that selected by the interpolation unit 12 of the encoding unit 1 is selected. Then, the interpolation method is executed to interpolate the quantized value of the spectrum information, and the quantized value of the interpolated spectral information is output to the synthesis unit 17.
[0013]
When receiving the code of the sound source information from the separation unit 3, the sound source information decoding unit 16 of the decoding unit 4 decodes the code of the sound source information and combines the quantized value (decoding result) of the sound source information with the synthesis unit 17. Output to.
The synthesis unit 17 of the decoding unit 4 combines the quantized value of the spectrum information output from the interpolation unit 15 and the quantized value of the excitation information output from the excitation information decoding unit 16 to generate decoded speech S3. .
[0014]
[Problems to be solved by the invention]
Since the conventional speech coding apparatus and speech decoding apparatus are configured as described above, a higher quality decoded speech can be obtained than when the same interpolation method is always executed to interpolate the quantized values of spectrum information. Although it can be generated, since it is necessary to transmit the code of the interpolation information, there is a problem that hinders the reduction of the bit rate.
[0015]
The present invention has been made to solve the above-described problems. A speech encoding device, a speech decoding device, and a speech decoding device that can realize high-quality speech reproduction without increasing the amount of transmission information. An object is to obtain a speech encoding method and a speech decoding method.
[0016]
[Means for Solving the Problems]
The speech coding apparatus according to the present invention is based on the quantized value output from the spectrum information coding means. Whether the previous and current frames are voiced or unvoiced A mode determining unit is provided, and an interpolation method is selected according to the determination result of the mode determining unit, and the interpolation method is executed to interpolate the quantized value output from the spectrum information encoding unit between frames. It is a thing.
[0017]
The speech coding apparatus according to the present invention is configured to input speech based on the spectrum information code output from the spectrum information coding means. Whether the previous and current frames are voiced or unvoiced A mode determining unit is provided, and an interpolation method is selected according to the determination result of the mode determining unit, and the interpolation method is executed to interpolate the quantized value output from the spectrum information encoding unit between frames. It is a thing.
[0019]
In the speech coding apparatus according to the present invention, when the determination result of the state determination means indicates that the previous frame of the input speech is unvoiced and the current frame is voiced, the quantum of some subframes to be interpolated An interpolation method is executed so that the quantized value matches the quantized value of the current frame.
[0020]
In the speech coding apparatus according to the present invention, when the determination result of the state determination means indicates that the previous frame of the input speech is voiced and the current frame is unvoiced, the quantization of some subframes to be interpolated An interpolation method in which the quantized value matches the quantized value of the previous frame is executed.
[0021]
The speech decoding apparatus according to the present invention is configured to decode decoded speech based on the quantization value output from the spectrum information decoding unit. Whether the previous and current frames are voiced or unvoiced A mode determination unit for determining is provided, an interpolation method is selected according to a determination result of the mode determination unit, and the quantization value output from the spectrum information decoding unit is interpolated between frames by executing the interpolation method. It is a thing.
[0022]
The speech decoding apparatus according to the present invention is configured to decode decoded speech based on a code of spectrum information. Whether the previous and current frames are voiced or unvoiced A mode determination unit for determining is provided, an interpolation method is selected according to a determination result of the mode determination unit, and the quantization value output from the spectrum information decoding unit is interpolated between frames by executing the interpolation method. It is a thing.
[0024]
In the speech decoding apparatus according to the present invention, when the determination result of the state determination means indicates that the previous frame of the decoded speech is unvoiced and the current frame is voiced, the quantization of some subframes to be interpolated An interpolation method is executed so that the quantized value matches the quantized value of the current frame.
[0025]
In the speech decoding apparatus according to the present invention, when the determination result of the state determination means indicates that the previous frame of the decoded speech is voiced and the current frame is unvoiced, the quantization of some subframes to be interpolated An interpolation method in which the quantized value matches the quantized value of the previous frame is executed.
[0026]
The speech coding method according to the present invention is based on a quantized value of spectrum information. Whether the previous and current frames are voiced or unvoiced It is determined, an interpolation method is selected according to the determination result, the interpolation method is executed, and the quantized value of the spectrum information is interpolated between frames.
[0027]
The speech coding method according to the present invention is based on the code of spectrum information. Whether the previous and current frames are voiced or unvoiced It is determined, an interpolation method is selected according to the determination result, the interpolation method is executed, and the quantized value of the spectrum information is interpolated between frames.
[0028]
The speech decoding method according to the present invention is based on a quantized value of spectrum information. Whether the previous and current frames are voiced or unvoiced It is determined, an interpolation method is selected according to the determination result, the interpolation method is executed, and the quantized value of the spectrum information is interpolated between frames.
[0029]
The speech decoding method according to the present invention is based on a code of spectrum information. Whether the previous and current frames are voiced or unvoiced It is determined, an interpolation method is selected according to the determination result, the interpolation method is executed, and the quantized value of the spectrum information is interpolated between frames.
[0030]
DETAILED DESCRIPTION OF THE INVENTION
An embodiment of the present invention will be described below.
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a speech encoding apparatus and speech decoding apparatus according to Embodiment 1 of the present invention. In FIG. 1, reference numeral 21 encodes the spectrum information of the input speech S1 and the sound source information of the input speech S1. 22 is a multiplexing unit that multiplexes and transmits the spectrum information code encoded by the encoding unit 21 and the sound source information code, and 23 is a multiplexed spectrum information code. A separation unit 24 that separates the code of the sound source information, and a decoding unit 24 that decodes the code of the spectrum information and the code of the sound source information to generate the decoded speech S3.
[0031]
31 is a spectrum information encoding unit (spectrum information encoding means) that encodes the spectrum information of the input speech S1 and outputs the code of the spectrum information and a quantized value, and 32 is a spectrum output from the spectrum information encoding unit 31. A mode determination unit (mode determination unit) 33 for determining the mode of the input speech S1 based on the quantized value of the information, 33 is an interpolation according to the determination result of the mode determination unit 32 among a plurality of interpolation methods prepared in advance. An interpolation unit (interpolation means) that interpolates the quantized value of the spectral information output from the spectral information encoding unit 31 between frames by executing the method, and 34 indicates the quantized value of the spectral information output from the interpolating unit 33 Is a sound source information encoding unit (sound source information encoding means) that encodes the sound source information of the input speech S1 and outputs the code of the sound source information.
[0032]
Reference numeral 35 denotes a spectrum information decoding unit (spectrum information decoding means) that decodes the spectrum information code and outputs a quantized value of the spectrum information, and 36 denotes quantization of the spectrum information output from the spectrum information decoding unit 35. A mode determination unit (mode determination unit) 37 that determines the mode of the decoded speech S3 based on the value, executes an interpolation method according to the determination result of the mode determination unit 36, and is output from the spectrum information decoding unit 35 An interpolating unit (interpolating unit) that interpolates the quantized value of the spectrum information between frames, and 38 is a sound source information decoding unit (sound source information decoding unit) that decodes the code of the sound source information and outputs the quantized value of the sound source information. , 39 synthesizes the quantized value of the spectrum information output from the interpolation unit 37 and the quantized value of the sound source information output from the sound source information decoding unit 38 to generate the decoded speech S3. Combining section that is (combining means).
FIG. 2 is a flowchart showing a speech encoding method and speech decoding method according to Embodiment 1 of the present invention.
[0033]
Next, the operation will be described.
First, the spectrum information encoding unit 31 of the encoding unit 21 analyzes the input speech S1 and extracts, for example, spectrum information such as linear prediction parameters and cepstrum.
Then, the spectrum information is encoded by executing a known method such as vector quantization, and the obtained spectrum information code is output to the multiplexing unit 22 (step ST1). Further, the quantized value (encoding result) of the spectrum information is output to the state determination unit 32 and the interpolation unit 33.
[0034]
When receiving the quantized value of the spectrum information from the spectrum information encoding unit 31, the mode determining unit 32 of the encoding unit 21 determines the mode of the input speech S1 based on the quantized value of the spectrum information (step ST2). . That is, by executing a method known in the technical field such as speech coding and speech recognition, whether the state of each frame of the input speech S1 is voiced or unvoiced from the quantized value of the spectrum information. judge.
[0035]
The interpolation unit 33 of the encoding unit 21 selects an interpolation pattern according to the determination result of the state determination unit 32 among a plurality of interpolation methods (interpolation patterns) prepared in advance (step ST3).
Here, FIG. 3 is an explanatory diagram showing an example of an interpolation pattern. In FIG. 3, (A) is an example of an interpolation pattern in which spectral information is linearly interpolated between frames. (B) is an example of an interpolation pattern in which interpolation is performed so that the quantized value of the subframe matches the quantized value of the current frame at an early stage.
[0036]
For example, when the determination result of the state determination unit 32 indicates that the previous frame is unvoiced and the current frame is voiced, the interpolation unit 33 selects the interpolation pattern (B). In this case, the interpolation pattern (A) is selected.
By using such an interpolation pattern, as shown in FIG. 4, in the transitional part from unvoiced to voiced (second and third subframes which are voiced sections), the interpolated spectral information becomes true spectral information. Since they are close to each other, the quality of decoded speech in the section can be improved.
[0037]
When such interpolation is performed, depending on the framing of the input speech S1, as shown in FIG. 5, in the second subframe that is an unvoiced section, the interpolated spectrum information indicates a voiced spectrum mode. However, since the power in the unvoiced section is small, even if such a wrinkle occurs, auditory deterioration of the decoded speech does not occur.
[0038]
Note that the interpolation pattern of the spectrum information when the previous frame is unvoiced and the current frame is voiced is not limited to the interpolation pattern (B) in FIG. 3, but the interpolation pattern (B ′) shown in FIG. It is of course possible to use other interpolation patterns such as (B ″). FIGS. 3 to 6 show the configuration having four subframes per frame, but the number of subframes per frame is shown. Is not limited to 4, and it is naturally possible to provide an interpolation pattern in other configurations as well.
[0039]
When the interpolation unit 33 of the encoding unit 21 selects the interpolation pattern as described above, the quantization value of the spectrum information output from the spectrum information encoding unit 31 is interpolated between frames according to the interpolation pattern (step ST4).
The sound source information encoding unit 34 of the encoding unit 21 analyzes the input speech S1 and extracts sound source information.
Then, using the quantized value of the spectrum information output from the interpolation unit 33, the sound source information of the input speech S1 is encoded, and the obtained code of the sound source information is output to the multiplexing unit 22 (step ST5).
[0040]
The multiplexing unit 22 multiplexes the spectrum information code output from the encoding unit 21 and the sound source information code, and transmits the multiplexing result S2 to the demultiplexing unit 23 (step ST6).
When receiving the multiplexing result S2, the separating unit 23 separates them (step ST7). The code of the spectrum information is output to the spectrum information decoding unit 35, and the code of the excitation information is output to the excitation information decoding unit 38.
[0041]
When the spectrum information decoding unit 35 of the decoding unit 24 receives the code of the spectrum information from the separation unit 23, the spectrum information decoding unit 35 decodes the code of the spectrum information and uses the quantized value (decoding result) of the spectrum information as the state determination unit. 36 and the interpolation unit 37 (step ST8).
[0042]
When the state determination unit 36 of the decoding unit 24 receives the quantized value of the spectrum information from the spectrum information decoding unit 35, the state determination unit 36, based on the quantization value of the spectrum information, like the state determination unit 32 of the encoding unit 21. Then, the state of the decoded speech S3 is determined (step ST9).
[0043]
Like the interpolation unit 33 of the encoding unit 21, the interpolation unit 37 of the decoding unit 24 selects an interpolation pattern corresponding to the determination result of the state determination unit 36 from among a plurality of interpolation methods prepared in advance ( Step ST10).
Then, the quantized value of the spectrum information output from the spectrum information decoding unit 35 is interpolated between frames according to the selected interpolation pattern (step ST11).
[0044]
When receiving the code of the sound source information from the separation unit 23, the sound source information decoding unit 38 of the decoding unit 24 decodes the code of the sound source information and combines the quantized value (decoding result) of the sound source information with the synthesis unit 39. (Step ST12).
The synthesizing unit 39 of the decoding unit 24 synthesizes the quantized value of the spectrum information output from the interpolating unit 37 and the quantized value of the sound source information output from the sound source information decoding unit 38 to generate decoded speech S3. (Step ST13).
[0045]
As apparent from the above, according to the first embodiment, the encoding unit 21 determines the mode of the input speech S1 based on the quantized value of the spectrum information output from the spectrum information encoding unit 31. An aspect determination unit 32 is provided, and an interpolation method according to the determination result of the aspect determination unit 32 is executed to interpolate the quantized value of the spectrum information output from the spectrum information encoding unit 31 between frames. In the decoding unit 24, a mode determination unit 36 that determines the mode of the decoded speech S3 based on the quantized value of the spectrum information output from the spectrum information decoding unit 35 is provided. Since the interpolation method according to the result is executed and the quantized value of the spectrum information output from the spectrum information decoding unit 35 is interpolated between frames, As in, it is not necessary to transmit the code of the interpolation information, as a result, without increasing the amount of transmitted information, an effect that can realize the reproduction of high quality sound.
[0046]
In the first embodiment, when the state determination result of the input speech S1 satisfies the predetermined condition, the subframe is interpolated so that the quantized value of the subframe coincides with the quantized value of the current frame at an early stage. Even when the state of the input speech S1 changes suddenly, proper spectral information interpolation can be performed to generate decoded speech with high quality.
[0047]
Embodiment 2. FIG.
FIG. 7 is a block diagram showing a speech coding apparatus and speech decoding apparatus according to Embodiment 2 of the present invention. In the figure, the same reference numerals as those in FIG.
41 is a mode determination unit (mode determination unit) that determines the mode of the input speech S1 based on the code of the spectrum information output from the spectrum information encoding unit 31, and 42 is a mode of the decoded speech S3 based on the code of the spectrum information. This is a mode determination unit (mode determination unit).
[0048]
In the first embodiment, the state determining unit 32 determines the state of the input speech S1 based on the quantized value of the spectrum information output from the spectrum information encoding unit 31, and the state determining unit 36 is the spectrum information decoding unit. Although it has been shown that the state of the decoded speech S3 is determined based on the quantized value of the spectrum information output from 35, the present invention is not limited to this, and the state determination unit 41 is output from the spectrum information encoding unit 31. The mode of the input speech S1 may be determined based on the code of the spectrum information, and the mode determination unit 42 may determine the mode of the decoded speech S3 based on the code of the spectrum information, as in the first embodiment. There is an effect.
Moreover, you may make it determine the aspect of an audio | voice using both the code | symbol of spectrum information and a quantization value (an encoding result or a decoding result).
[0049]
Embodiment 3 FIG.
In the first and second embodiments, when the previous frame is unvoiced and the current frame is voiced, interpolation is performed so that the quantized value of the subframe matches the quantized value of the current frame at an early stage. In other cases, linear interpolation is shown. However, when the previous frame is voiced and the current frame is unvoiced, subframe quantization is performed as shown in FIG. Interpolation may be performed so that the value matches the quantization value of the previous frame until late.
According to the third embodiment, the interpolated spectrum information is close to the true spectrum information in the transitional part from voiced to unvoiced, so that high-quality decoded speech can be generated.
[0050]
Embodiment 4 FIG.
In the first to third embodiments described above, the voice mode is determined based on the two values of voiced and unvoiced. However, the present invention is not limited to this. Different interpolation patterns may be used accordingly.
In addition to voiced and unvoiced, determination may be made by classifying into many other voice modes such as unvoiced, voiced steady, and voiced transient, and different interpolation patterns may be used depending on the determination result of the mode.
[0051]
Furthermore, in Embodiments 1 to 3 described above, a simple interpolation pattern that is given heuristically is shown. However, the present invention is not limited to this, and for example, statistics using a database consisting of a large amount of uttered speech is used. The optimum interpolation pattern in each voice mode may be learned and acquired by a typical method.
According to the fourth embodiment, fine control such as interpolating spectral states suitable for each speech mode can be performed, so that high-quality decoded speech can be generated.
[0052]
Embodiment 5 FIG.
In the first to fourth embodiments, the speech mode is determined using only the spectrum information. However, the present invention is not limited to this. For example, the current frame determines the speech mode only from the spectrum information, and the past The state determination in the frame may be performed again using the sound source information of the past frame.
According to the fifth embodiment, it is possible to improve the state determination accuracy of the past frame, and thus it is possible to generate high quality decoded speech.
[0053]
【The invention's effect】
As described above, according to the present invention, based on the quantized value output from the spectrum information encoding means, Whether the previous and current frames are voiced or unvoiced A mode determining unit is provided, and an interpolation method is selected according to the determination result of the mode determining unit, and the interpolation method is executed to interpolate the quantized value output from the spectrum information encoding unit between frames. Thus, there is an effect that it is possible to realize reproduction of high-quality sound without increasing the amount of transmission information.
[0054]
According to this invention, based on the code of the spectrum information output from the spectrum information encoding means, Whether the previous and current frames are voiced or unvoiced A mode determining unit is provided, and an interpolation method is selected according to the determination result of the mode determining unit, and the interpolation method is executed to interpolate the quantized value output from the spectrum information encoding unit between frames. Thus, there is an effect that it is possible to realize reproduction of high-quality sound without increasing the amount of transmission information.
[0056]
According to the present invention, when the determination result of the mode determining means indicates that the previous frame of the input speech is unvoiced and the current frame is voiced, the quantized values of some subframes to be interpolated are present. Since the interpolation method that matches the quantized value of the frame is executed, there is an effect that it is possible to realize reproduction of high-quality sound even in a transitional part from unvoiced to voiced.
[0057]
According to the present invention, when the determination result of the mode determination means indicates that the previous frame of the input speech is voiced and the current frame is unvoiced, the quantization values of some subframes to be interpolated are Since the interpolation method that matches the quantized value of the frame is executed, there is an effect that it is possible to realize high-quality sound reproduction even in a transitional part from voiced to unvoiced.
[0058]
According to the present invention, based on the quantized value output from the spectrum information decoding means, the decoded speech is Whether the previous and current frames are voiced or unvoiced An aspect determining means is provided, an interpolation method is selected according to the determination result of the aspect determining means, and the interpolation method is executed to interpolate the quantized value output from the spectrum information decoding means between frames. Thus, there is an effect that it is possible to realize reproduction of high-quality sound without increasing the amount of transmission information.
[0059]
According to the present invention, the decoded speech is based on the code of the spectrum information. Whether the previous and current frames are voiced or unvoiced An aspect determining means is provided, an interpolation method is selected according to the determination result of the aspect determining means, and the interpolation method is executed to interpolate the quantized value output from the spectrum information decoding means between frames. Thus, there is an effect that it is possible to realize high-quality sound reproduction without causing an increase in the amount of transmission information.
[0061]
According to the present invention, when the determination result of the mode determination means indicates that the previous frame of the decoded speech is unvoiced and the current frame is voiced, the quantized values of some subframes to be interpolated are present. Since the interpolation method that matches the quantized value of the frame is executed, there is an effect that it is possible to realize reproduction of high-quality sound even in a transitional part from unvoiced to voiced.
[0062]
According to this invention, when the determination result of the mode determination means indicates that the previous frame of the decoded speech is voiced and the current frame is unvoiced, the quantization values of some subframes to be interpolated are Since the interpolation method that matches the quantized value of the frame is executed, there is an effect that it is possible to realize high-quality sound reproduction even in a transitional part from voiced to unvoiced.
[0063]
According to the present invention, based on the quantized value of the spectrum information, the input speech is Whether the previous and current frames are voiced or unvoiced Since it is configured to select an interpolation method according to the determination result, execute the interpolation method, and interpolate the quantized value of the spectrum information between frames, without increasing the amount of transmission information There is an effect that high-quality sound reproduction can be realized.
[0064]
According to the present invention, based on the sign of the spectrum information, the input speech Whether the previous and current frames are voiced or unvoiced Since it is configured to select an interpolation method according to the determination result, execute the interpolation method, and interpolate the quantized value of the spectrum information between frames, without increasing the amount of transmission information There is an effect that high-quality sound reproduction can be realized.
[0065]
According to the present invention, based on the quantized value of the spectrum information, the decoded speech is Whether the previous and current frames are voiced or unvoiced Since it is configured to select an interpolation method according to the determination result, execute the interpolation method, and interpolate the quantized value of the spectrum information between frames, without increasing the amount of transmission information There is an effect that high-quality sound reproduction can be realized.
[0066]
According to the present invention, the decoded speech is based on the code of the spectrum information. Whether the previous and current frames are voiced or unvoiced Since it is configured to select an interpolation method according to the determination result, execute the interpolation method, and interpolate the quantized value of the spectrum information between frames, without increasing the amount of transmission information There is an effect that high-quality sound reproduction can be realized.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a speech encoding apparatus and speech decoding apparatus according to Embodiment 1 of the present invention.
FIG. 2 is a flowchart showing a speech encoding method and a speech decoding method according to Embodiment 1 of the present invention.
FIG. 3 is an explanatory diagram showing an example of an interpolation pattern.
FIG. 4 is an explanatory diagram showing the relationship between spectrum information and voice.
FIG. 5 is an explanatory diagram showing the relationship between spectrum information and voice.
FIG. 6 is an explanatory diagram showing an example of an interpolation pattern.
FIG. 7 is a block diagram showing a speech encoding apparatus and speech decoding apparatus according to Embodiment 2 of the present invention.
FIG. 8 is an explanatory diagram showing an example of an interpolation pattern.
FIG. 9 is a block diagram showing a conventional speech coding apparatus and speech decoding apparatus.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 Encoding part, 2 Multiplexing part, 3 Separation part, 4 Decoding part, 11 Spectrum information encoding part, 12 Interpolation part, 13 Excitation information encoding part, 14 Spectrum information decoding part, 15 Interpolation part, 16 Excitation Information decoding unit, 17 synthesizing unit, 21 encoding unit, 22 multiplexing unit, 23 demultiplexing unit, 24 decoding unit, 31 spectrum information encoding unit (spectrum information encoding unit), 32 mode determining unit (mode determining unit) ), 33 interpolation unit (interpolation unit), 34 sound source information encoding unit (sound source information encoding unit), 35 spectrum information decoding unit (spectrum information decoding unit), 36 mode determination unit (mode determination unit), 37 interpolation Unit (interpolation unit), 38 sound source information decoding unit (sound source information decoding unit), 39 synthesis unit (synthesis unit), 41 mode determination unit (mode determination unit), 42 mode determination unit (mode determination unit).

Claims (12)

入力音声のスペクトル情報を符号化し、そのスペクトル情報の符号と量子化値を出力するスペクトル情報符号化手段と、上記スペクトル情報符号化手段から出力された量子化値に基づいて入力音声の前フレーム及び現フレームが有声であるか無声であるかを判定する様態判定手段と、上記様態判定手段の判定結果に応じて補間方法を選択し、その補間方法を実行して上記スペクトル情報符号化手段から出力された量子化値をフレーム間で補間する補間手段と、上記補間手段から出力された量子化値を用いて上記入力音声の音源情報を符号化し、その音源情報の符号を出力する音源情報符号化手段とを備えた音声符号化装置。Spectral information encoding means for encoding spectral information of the input speech and outputting a code of the spectral information and a quantized value; a previous frame of the input speech based on the quantized value output from the spectral information encoding means; A mode determination unit for determining whether the current frame is voiced or unvoiced, and an interpolation method is selected according to the determination result of the mode determination unit, and the interpolation method is executed and output from the spectrum information encoding unit Interpolating means for interpolating the quantized values between frames, and sound source information coding for encoding sound source information of the input speech using the quantized values output from the interpolating means and outputting a code of the sound source information A speech encoding device comprising: means. 入力音声のスペクトル情報を符号化し、そのスペクトル情報の符号と量子化値を出力するスペクトル情報符号化手段と、上記スペクトル情報符号化手段から出力されたスペクトル情報の符号に基づいて入力音声の前フレーム及び現フレームが有声であるか無声であるかを判定する様態判定手段と、上記様態判定手段の判定結果に応じて補間方法を選択し、その補間方法を実行して上記スペクトル情報符号化手段から出力された量子化値をフレーム間で補間する補間手段と、上記補間手段から出力された量子化値を用いて上記入力音声の音源情報を符号化し、その音源情報の符号を出力する音源情報符号化手段とを備えた音声符号化装置。Spectral information encoding means for encoding spectral information of the input speech and outputting the code of the spectral information and a quantized value; and a previous frame of the input speech based on the code of the spectral information output from the spectral information encoding means And a mode determination unit for determining whether the current frame is voiced or unvoiced, and an interpolation method is selected according to a determination result of the mode determination unit, and the interpolation method is executed to execute the interpolation method from the spectrum information encoding unit. Interpolating means for interpolating output quantized values between frames, and sound source information code for encoding sound source information of the input speech using the quantized values output from the interpolating means and outputting codes of the sound source information And a speech encoding apparatus comprising: 補間手段は、様態判定手段の判定結果が、入力音声の前フレームが無声であって、現フレームが有声である旨を示す場合、補間対象の一部のサブフレームの量子化値が現フレームの量子化値と一致するような補間方法を実行することを特徴とする請求項1または請求項2記載の音声符号化装置。When the determination result of the mode determination unit indicates that the previous frame of the input speech is unvoiced and the current frame is voiced, the interpolation unit determines that the quantization values of some subframes to be interpolated are those of the current frame. The speech encoding apparatus according to claim 1 or 2, wherein an interpolation method that matches the quantized value is executed. 補間手段は、様態判定手段の判定結果が、入力音声の前フレームが有声であって、現フレームが無声である旨を示す場合、補間対象の一部のサブフレームの量子化値が前フレームの量子化値と一致するような補間方法を実行することを特徴とする請求項1または請求項2記載の音声符号化装置。When the determination result of the aspect determination unit indicates that the previous frame of the input speech is voiced and the current frame is unvoiced, the interpolation unit determines that the quantization values of some subframes to be interpolated are those of the previous frame. The speech encoding apparatus according to claim 1 or 2, wherein an interpolation method that matches the quantized value is executed. スペクトル情報の符号を復号化し、そのスペクトル情報の量子化値を出力するスペクトル情報復号化手段と、上記スペクトル情報復号化手段から出力された量子化値に基づいて復号音声の前フレーム及び現フレームが有声であるか無声であるかを判定する様態判定手段と、上記様態判定手段の判定結果に応じて補間方法を選択し、その補間方法を実行して上記スペクトル情報復号化手段から出力された量子化値をフレーム間で補間する補間手段と、音源情報の符号を復号化し、その音源情報の量子化値を出力する音源情報復号化手段と、上記補間手段から出力された量子化値と上記音源情報復号化手段から出力された量子化値を合成して復号音声を生成する合成手段とを備えた音声復号化装置。Spectral information decoding means for decoding a spectrum information code and outputting a quantized value of the spectrum information, and a previous frame and a current frame of the decoded speech based on the quantized value output from the spectrum information decoding means A mode determination unit for determining whether the voice is voiced or unvoiced, and an interpolation method is selected according to a determination result of the mode determination unit, and the quantum method output from the spectrum information decoding unit is executed by executing the interpolation method. Interpolating means for interpolating quantized values between frames, sound source information decoding means for decoding the code of sound source information and outputting quantized values of the sound source information, quantized values output from the interpolating means and the sound sources A speech decoding apparatus comprising: synthesis means for synthesizing the quantized values output from the information decoding means to generate decoded speech. スペクトル情報の符号を復号化し、そのスペクトル情報の量子化値を出力するスペクトル情報復号化手段と、そのスペクトル情報の符号に基づいて復号音声の前フレーム及び現フレームが有声であるか無声であるかを判定する様態判定手段と、上記様態判定手段の判定結果に応じて補間方法を選択し、その補間方法を実行して上記スペクトル情報復号化手段から出力された量子化値をフレーム間で補間する補間手段と、音源情報の符号を復号化し、その音源情報の量子化値を出力する音源情報復号化手段と、上記補間手段から出力された量子化値と上記音源情報復号化手段から出力された量子化値を合成して復号音声を生成する合成手段とを備えた音声復号化装置。Spectrum information decoding means for decoding the spectrum information code and outputting a quantized value of the spectrum information, and whether the previous frame and the current frame of the decoded speech are voiced or unvoiced based on the code of the spectrum information and determining manner determining means, to select the interpolation method in accordance with the determination result of the manner determining means, for interpolating an output quantized value from the spectral information decoding means to execute the interpolation method between frames Interpolating means, sound source information decoding means for decoding the code of the sound source information and outputting the quantized value of the sound source information, the quantized value output from the interpolating means and the sound source information decoding means A speech decoding apparatus comprising: synthesis means for synthesizing quantized values to generate decoded speech. 補間手段は、様態判定手段の判定結果が、復号音声の前フレームが無声であって、現フレームが有声である旨を示す場合、補間対象の一部のサブフレームの量子化値が現フレームの量子化値と一致するような補間方法を実行することを特徴とする請求項5または請求項6記載の音声復号化装置。When the determination result of the aspect determination unit indicates that the previous frame of the decoded speech is unvoiced and the current frame is voiced, the interpolation unit determines that the quantization values of some subframes to be interpolated are those of the current frame. 7. The speech decoding apparatus according to claim 5, wherein an interpolation method that matches the quantized value is executed. 補間手段は、様態判定手段の判定結果が、復号音声の前フレームが有声であって、現フレームが無声である旨を示す場合、補間対象の一部のサブフレームの量子化値が前フレームの量子化値と一致するような補間方法を実行することを特徴とする請求項5または請求項6記載の音声復号化装置。When the determination result of the aspect determination unit indicates that the previous frame of the decoded speech is voiced and the current frame is unvoiced, the interpolation unit determines that the quantization values of some subframes to be interpolated are those of the previous frame. 7. The speech decoding apparatus according to claim 5, wherein an interpolation method that matches the quantized value is executed. 入力音声のスペクトル情報を符号化して、そのスペクトル情報の符号を出力する一方、そのスペクトル情報の量子化値に基づいて入力音声の前フレーム及び現フレームが有声であるか無声であるかを判定し、その判定結果に応じて補間方法を選択し、その補間方法を実行してそのスペクトル情報の量子化値をフレーム間で補間すると、補間処理後のスペクトル情報の量子化値を用いて上記入力音声の音源情報を符号化して、その音源情報の符号を出力する音声符号化方法。Encodes the spectrum information of the input speech and outputs the spectrum information code, while determining whether the previous and current frames of the input speech are voiced or unvoiced based on the quantized value of the spectrum information. Then, when an interpolation method is selected according to the determination result, and the quantization method of the spectrum information is interpolated between the frames by executing the interpolation method, the input speech is obtained using the quantization value of the spectrum information after the interpolation process. Encoding method for encoding the sound source information and outputting the code of the sound source information. 入力音声のスペクトル情報を符号化して、そのスペクトル情報の符号を出力する一方、そのスペクトル情報の符号に基づいて入力音声の前フレーム及び現フレームが有声であるか無声であるかを判定し、その判定結果に応じて補間方法を選択し、その補間方法を実行してそのスペクトル情報の量子化値をフレーム間で補間すると、補間処理後のスペクトル情報の量子化値を用いて上記入力音声の音源情報を符号化して、その音源情報の符号を出力する音声符号化方法。Encode the spectrum information of the input speech and output the code of the spectrum information, while determining whether the previous frame and the current frame of the input speech are voiced or unvoiced based on the code of the spectrum information, When an interpolation method is selected according to the determination result, and the quantized value of the spectrum information is interpolated between the frames by executing the interpolation method, the sound source of the input sound is used using the quantized value of the spectrum information after the interpolation process. A speech encoding method for encoding information and outputting a code of the sound source information. スペクトル情報の符号を復号化して、そのスペクトル情報の量子化値を出力する一方、そのスペクトル情報の量子化値に基づいて復号音声の前フレーム及び現フレームが有声であるか無声であるかを判定し、その判定結果に応じて補間方法を選択し、その補間方法を実行してそのスペクトル情報の量子化値をフレーム間で補間するとともに、音源情報の符号を復号化して、その音源情報の量子化値を出力すると、補間処理後のスペクトル情報の量子化値とその音源情報の量子化値を合成して復号音声を生成する音声復号化方法。Decodes the spectrum information code and outputs the quantized value of the spectrum information, while determining whether the previous and current frames of the decoded speech are voiced or unvoiced based on the quantized value of the spectrum information Then, an interpolation method is selected according to the determination result, the quantization method is executed to interpolate the quantized value of the spectrum information between frames, the code of the sound source information is decoded, and the quantum of the sound source information is decoded. A speech decoding method for generating decoded speech by synthesizing the quantized value of the spectrum information after interpolation processing and the quantized value of the sound source information after outputting the quantized value. スペクトル情報の符号を復号化して、そのスペクトル情報の量子化値を出力する一方、そのスペクトル情報の符号に基づいて復号音声の前フレーム及び現フレームが有声であるか無声であるかを判定し、その判定結果に応じて補間方法を選択し、その補間方法を実行してそのスペクトル情報の量子化値をフレーム間で補間するとともに、音源情報の符号を復号化して、その音源情報の量子化値を出力すると、補間処理後のスペクトル情報の量子化値とその音源情報の量子化値を合成して復号音声を生成する音声復号化方法。While decoding the code of the spectrum information and outputting the quantized value of the spectrum information , determining whether the previous frame and the current frame of the decoded speech are voiced or unvoiced based on the code of the spectrum information, Select an interpolation method according to the determination result, execute the interpolation method, interpolate the quantized value of the spectrum information between frames, decode the code of the excitation information, and quantize the excitation information Is a speech decoding method for generating decoded speech by synthesizing the quantized value of spectrum information after interpolation processing and the quantized value of sound source information after interpolation.
JP2002020502A 2002-01-29 2002-01-29 Speech coding apparatus, speech decoding apparatus, speech coding method, and speech decoding method Expired - Lifetime JP3886815B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002020502A JP3886815B2 (en) 2002-01-29 2002-01-29 Speech coding apparatus, speech decoding apparatus, speech coding method, and speech decoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002020502A JP3886815B2 (en) 2002-01-29 2002-01-29 Speech coding apparatus, speech decoding apparatus, speech coding method, and speech decoding method

Publications (2)

Publication Number Publication Date
JP2003223177A JP2003223177A (en) 2003-08-08
JP3886815B2 true JP3886815B2 (en) 2007-02-28

Family

ID=27743981

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002020502A Expired - Lifetime JP3886815B2 (en) 2002-01-29 2002-01-29 Speech coding apparatus, speech decoding apparatus, speech coding method, and speech decoding method

Country Status (1)

Country Link
JP (1) JP3886815B2 (en)

Also Published As

Publication number Publication date
JP2003223177A (en) 2003-08-08

Similar Documents

Publication Publication Date Title
JP4550289B2 (en) CELP code conversion
US6427135B1 (en) Method for encoding speech wherein pitch periods are changed based upon input speech signal
JP5343098B2 (en) LPC harmonic vocoder with super frame structure
JP4270866B2 (en) High performance low bit rate coding method and apparatus for non-speech speech
JPH0353300A (en) Sound encoding and decoding system
JP2002268690A (en) Voice coder, method for voice coding, voice decoder and method for voice decoding
JP2002055699A (en) Device and method for encoding voice
JP3364825B2 (en) Audio encoding device and audio encoding / decoding device
EP2132731B1 (en) Method and arrangement for smoothing of stationary background noise
US7860711B2 (en) Transmitter and receiver for speech coding and decoding by using additional bit allocation method
WO2002071394A1 (en) Sound encoding apparatus and method, and sound decoding apparatus and method
JP2002229599A (en) Device and method for converting voice code string
JP3886815B2 (en) Speech coding apparatus, speech decoding apparatus, speech coding method, and speech decoding method
JP3303580B2 (en) Audio coding device
JP2008139447A (en) Speech encoder and speech decoder
JP2001051699A (en) Device and method for coding/decoding voice containing silence voice coding and storage medium recording program
JPH05165500A (en) Voice coding method
JP2004151424A (en) Transcoder and code conversion method
JP3166697B2 (en) Audio encoding / decoding device and system
JP2007513364A (en) Harmonic noise weighting in digital speech encoders
JP2001265390A (en) Voice coding and decoding device and method including silent voice coding operating with plural rates
JP3041325B1 (en) Audio encoding device and audio decoding device
JPH10177399A (en) Voice coding method, voice decoding method and voice coding/decoding method
JPH10232697A (en) Voice coding/decoding method
JP3114799B2 (en) Code-driven linear prediction speech encoding / decoding system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040617

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041001

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20041019

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20041210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061122

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3886815

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091201

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101201

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111201

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121201

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121201

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131201

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term