JP3616307B2 - 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体 - Google Patents

音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3616307B2
JP3616307B2 JP2000150212A JP2000150212A JP3616307B2 JP 3616307 B2 JP3616307 B2 JP 3616307B2 JP 2000150212 A JP2000150212 A JP 2000150212A JP 2000150212 A JP2000150212 A JP 2000150212A JP 3616307 B2 JP3616307 B2 JP 3616307B2
Authority
JP
Japan
Prior art keywords
vector
frequency domain
average power
voice
musical sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000150212A
Other languages
English (en)
Other versions
JP2001331198A (ja
Inventor
健弘 守谷
直樹 岩上
明夫 神
岳至 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000150212A priority Critical patent/JP3616307B2/ja
Publication of JP2001331198A publication Critical patent/JP2001331198A/ja
Application granted granted Critical
Publication of JP3616307B2 publication Critical patent/JP3616307B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は楽音や音声信号をできるだけ少ない情報量でディジタル符号化する高能率信号符号化法に関するものである。
【0002】
【従来の技術】
従来の信号の変換符号化復号化器は図1に示されるような構成となっている。
符号器は、楽音や音声信号を時間窓で切り出したフレームを例えば、周波数変換としてMDCT(Modified Discrete Cosine Transform)を使い、スペクトル推定部により、その変換後の成分全体、すなわちスペクトルの包絡や全体の平均振幅を求め、平坦化・正規化部でMDCT係数を正規化したあとで量子化部において量子化する。量子化には適応ビット配分または適応重み付けベクトル量子化などを利用する。符号器は、スペクトル推定部で生成された補助情報(スペクトル包絡成分情報)と量子化部で生成された主情報(周波数領域成分情報)を出力する。
復号器は、主情報(周波数領域成分情報)を逆量子化部で逆量子化し、逆平坦化部において、逆量子化信号を補助情報(スペクトル包絡成分情報)を用いて逆平坦化し、さらに、逆MDCTを行ない音声や楽音信号を出力する。
【0003】
符号化する帯域に対して、与えられたビット数が少ないと量子化雑音が多くなり、品質が劣化する。このため、ビット数が少ないときには高い周波数成分を固定的に減衰させ、帯域を狭めるかわりに量子化雑音を軽減する。音声などのようにもともと帯域が狭い場合はこの効果があるが、通常の音楽では量子化雑音が目立ちにくい反面、帯域が狭いことによる劣化が問題となり、量子化雑音と帯域の両立は難しかった。
【0004】
【発明が解決しようとする課題】
本発明の目的は、できるだけ高品質で楽音や音声を伝送することであり、特に符号化に先立って、量子化雑音を抑えきれない周波数成分を減衰させることで、再生信号の品質の低下を抑える方法およびこの方法を実行するためのプログラムを記録した記録媒体を提供することである。
【0005】
【課題を解決するための手段】
前記目的を達成するために、本発明は、与えられた情報量と信号の帯域に基づいて十分な精度で量子化できない周波数成分を推定し、符号化の前にその成分を減衰させることで最終的な聴覚上の歪を軽減する。すなわち、入力信号の特徴にあわせて適応的に帯域を制限する点を特徴とする。
【0006】
【発明の実施の形態】
〈実施例〉
図2は、本発明の第1の実施例の符号器の構成図である。
音声・楽音信号を時間窓で切り出した1フレームについての処理を説明する。
この例ではフレーム単位でMDCT係数に変換し、MDCT係数をスペクトル包絡とパワーで正規化したあとで量子化を行なっている。この枠組みは従来法と同じである。
【0007】
典型的な数値としては1フレームは例えば1024サンプルからなり、ベクトルは8サンプルからなる。すなわち、1フレームあたりのベクトルの数Nは128
である。
本発明ではMDCT係数を平坦化する前に前処理の変形を行なう。この前処理は、スペクトル算出部、減衰量算出部、前処理変形部によりMDCT係数のスペクトルを分析し、符号化条件により減衰量を算出し、それに基づいてMDCT係数を変形する。具体例としてはベクトルの絶対値または複数サンプルごとにベクトルとしてまとめたときの平均パワーEiを求める。
【0008】
【数1】
Figure 0003616307
一方、フレームあたりのサンプル数とビット数からサンプルあたりのビット数を求め、後述するレート歪理論による割り当てビット数が0となるベクトルのパワー値を閾値とする。
【0009】
ベクトルあたりの平均パワーが閾値以下のベクトルに対しては振幅を減衰させる。例えば量子化前のMDCT係数そのものに
【0010】
【数2】
Figure 0003616307
をかける。さらにこの変形で信号全体のパワーが減衰するのでMDCT係数全体に係数をかけて、全体のパワーが保たれるように変形してもよい。この減衰係数は、符号化条件、すなわち、サンプリング周波数、与えられる量子化ビット数などに依存し、詳細なパラメータは実験的に調整したほうがよい。
【0011】
この変形されたMDCT係数を入力とみなして従来の平坦化と量子化を行なう。この前処理による変形の情報は復号器には伝えられないので、復号器で再生される信号は量子化精度がよくても元の入力信号とは異なる。ただし、この変形は低ビット量子化で生じる量子化歪より十分小さいように設定することで、品質を改善できる。
【0012】
図3は、この処理によるMDCT係数の変形例である。
(A)の実線で表わされるもとのスペクトル(ベクトル毎の平均パワー)の閾値Tより小さいベクトルに対して(B)のような減衰係数をかける。係数が1ということは変形なしということになる。この結果(A)の破線で表わされるスペクトルに変形される。
この処理の原理はレート歪理論にある。
【0013】
【数3】
Figure 0003616307
ベクトルあたりの平均ビット数が少ない時にはbi が負の値になる場合がある。実際に配分するビット数bi^は負にはなりえないからbi が負の場合は0とする。すなわち情報を送らずに復号器でそのベクトルの値を0とする。情報量が少ないときにはパワーの小さい成分の伝送を放棄することになる。
【0014】
実際の符号化ではビット配分を示す補助情報を細かく送ることは情報量が増えてしまい得策ではないし、すでに標準化された方法では補助情報を送ることはできない。
本発明では、あらかじめ量子化ビットを配分できないような帯域の信号を減衰させることでその帯域の量子化雑音を小さくする。
【0015】
図4は、同じフレームのなかで時間的に分割して周波数領域に変換する場合の実施例である。
この実施例の場合、一つのフレームを4つのサブフレームに分割して、それぞれのサブフレームごとにMDCT係数を求めたものである。フレーム全体のパワーから閾値Tを基準に減衰量を決定する。
【0016】
図5は、聴覚のマスキング効果を利用した減衰量を決定する実施例である。
ここまでの実施例では(A)のようにもとのスペクトルに対して量子化雑音が周波数軸上で平坦になるように最適量子化を行なうことを前提としてきた。実際の符号化では(B)のようにマスキング効果を考慮してもとのスペクトルと相関をもつように量子化雑音を整形することがよく行なわれる。そこで(B)の量子化雑音が平坦となるように逆特性をもとの信号にかけることで(C)の変形したスペクトルを作る。このスペクトルを入力のスペクトルとみなしてこれまでの実施例に適用すればよい。
また、スペクトルのパワーを算出するベクトルは聴覚の分解能を考慮して、低域ほど幅が狭く、広域が広くなる周波数目盛り尺度(例えば、バーク尺度)で分割することもできる。
【0017】
なお、本発明の符号器をCPUやメモリ等を有するコンピュータで構成し、記録媒体に記録されたプログラムをコンピュータに読取り、コンピュータの動作を制御して前述の実施の形態の各構成要素を実現する。
【0018】
【発明の効果】
本発明により、量子化歪が避けられない周波数成分を適応的に減衰させているので、その成分に対する量子化誤差を相対的に小さくすることができ、品質を改善できる。音声信号のように低域にパワーが集中している場合には量子化する帯域が狭められ、低域の量子化誤差が小さくなる。また、一般の音楽ではパワーが少なく聴覚的に重要でない帯域の信号が減衰し、その他の重要な帯域の歪が小さくなる。
【0019】
周波数領域の量子化を行なう符号化には処理量の大きな増加はなく簡単に組み入れることができ、時間領域の符号化と組み合わせることも可能である。
【図面の簡単な説明】
【図1】従来のMDCT係数を量子化する符号器及び復号器の構成を示す図。
【図2】本発明の第1実施例である符号器の構成を示す図。
【図3】本発明の第1実施例の符号化のMDCT係数の変形例を示す説明図。
【図4】1つのフレームを4つのサブフレームに分割したMDCT係数の例を示す図。
【図5】聴覚特性の補正を行なう場合の説明図。

Claims (2)

  1. 音声・楽音信号をフレーム単位、またはフレームをさらに分割してサブフレーム単位とし、
    前記音声・楽音信号をフレーム単位またはサブフレーム単位で周波数領域成分に変換し、
    記周波数領域成分を変形させて量子化し、ベクトル単位で符号化出力を得る音声・楽音信号符号化方法であって、
    前記周波数領域成分の変形
    前記周波数領域成分を構成するベクトル毎の平均パワーを求め、前記ベクトル毎の平均パワーからフレーム毎の平均パワーを求め、
    前記ベクトル毎に、当該ベクトルの平均パワー及びフレーム毎の平均パワーに基いてビット配分を求め、
    前記ビット配分が一定閾値以下となるベクトルに対応する周波数領域成分を減衰させる、ことを特徴とする、
    音声・楽音信号符号化方法。
  2. 音声・楽音信号をフレーム単位、またはフレームをさらに分割してサブフレーム単位とする処理と、
    前記音声・楽音信号をフレーム単位またはサブフレーム単位で周波数領域成分に変換する処理と、
    波数領域成分を変形させる処理と、
    前記変形させた周波数領域成分を量子化する処理と、を有し、ベクトル単位で符号化出力を得る音声・楽音信号符号化方法をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体であって、
    前記周波数領域成分を変形させる処理
    前記周波数領域成分を構成するベクトル毎の平均パワーを求め、前記ベクトル毎の平均パワーからフレーム毎の平均パワーを求め、
    前記ベクトル毎に、当該ベクトルの平均パワー及びフレーム毎の平均パワーに基いてビット配分を求め、
    前記ビット配分が一定閾値以下となるベクトルに対応する周波数領域成分を減衰させる、ことを特徴とする、
    音声・楽音信号符号化方法をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体。
JP2000150212A 2000-05-22 2000-05-22 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体 Expired - Lifetime JP3616307B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000150212A JP3616307B2 (ja) 2000-05-22 2000-05-22 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000150212A JP3616307B2 (ja) 2000-05-22 2000-05-22 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2001331198A JP2001331198A (ja) 2001-11-30
JP3616307B2 true JP3616307B2 (ja) 2005-02-02

Family

ID=18655957

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000150212A Expired - Lifetime JP3616307B2 (ja) 2000-05-22 2000-05-22 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3616307B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
WO2009093714A1 (ja) * 2008-01-24 2009-07-30 Nippon Telegraph And Telephone Corporation 符号化方法、復号化方法、それらの装置、及びそれらのプログラムと記録媒体
EP2525355B1 (en) * 2010-01-14 2017-11-01 Panasonic Intellectual Property Corporation of America Audio encoding apparatus and audio encoding method
KR102457290B1 (ko) * 2014-02-24 2022-10-20 삼성전자주식회사 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치

Also Published As

Publication number Publication date
JP2001331198A (ja) 2001-11-30

Similar Documents

Publication Publication Date Title
JP6423460B2 (ja) フレームエラー隠匿装置
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
JP6704037B2 (ja) 音声符号化装置および方法
JP2964879B2 (ja) ポストフィルタ
KR100814673B1 (ko) 오디오 부호화
US6654716B2 (en) Perceptually improved enhancement of encoded acoustic signals
WO2010079168A1 (en) Filtering speech
JP3999807B2 (ja) 改良された周波数領域におけるエラー隠蔽技術
US10762912B2 (en) Estimating noise in an audio signal in the LOG2-domain
JP2004508596A (ja) 出力ベースの客観的音声品質評価方法及び装置
KR20070007851A (ko) 계층 부호화 장치 및 계층 부호화 방법
JP2004515801A (ja) 音響信号の符号化の知覚的改善
JP3616307B2 (ja) 音声・楽音信号符号化方法及びこの方法を実行するプログラムを記録した記録媒体
JP2008261999A (ja) オーディオ復号装置
KR100513815B1 (ko) 신호부호화방법및장치
JPH11184498A (ja) 音声符号化/復号化方法
JP4286666B2 (ja) Pcm信号から量子化雑音を除去するための方法及びユニット
JP3353266B2 (ja) 音響信号変換符号化方法
JP2005516442A6 (ja) Pcm信号から量子化雑音を除去するための方法及びユニット
JP2900431B2 (ja) 音声信号符号化装置
JP4618823B2 (ja) 信号符号化装置及び方法
JP3863706B2 (ja) 音声符号化方法
JP3111459B2 (ja) 音声データの高能率符号化方法
JPS62224122A (ja) 信号符号化方法
JP3273870B2 (ja) 音声の線形予測パラメータ符号化装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041104

R151 Written notification of patent or utility model registration

Ref document number: 3616307

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071112

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term