JP4547965B2 - 音声符号化装置、方法及びプログラム - Google Patents

音声符号化装置、方法及びプログラム Download PDF

Info

Publication number
JP4547965B2
JP4547965B2 JP2004110107A JP2004110107A JP4547965B2 JP 4547965 B2 JP4547965 B2 JP 4547965B2 JP 2004110107 A JP2004110107 A JP 2004110107A JP 2004110107 A JP2004110107 A JP 2004110107A JP 4547965 B2 JP4547965 B2 JP 4547965B2
Authority
JP
Japan
Prior art keywords
frame
encoding
signal sequence
unit
independent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004110107A
Other languages
English (en)
Other versions
JP2005292640A (ja
Inventor
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2004110107A priority Critical patent/JP4547965B2/ja
Publication of JP2005292640A publication Critical patent/JP2005292640A/ja
Application granted granted Critical
Publication of JP4547965B2 publication Critical patent/JP4547965B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、サンプリングされた音声信号を符号化する音声符号化装置、方法及びプログラムに関する
例えば、引用文献1に記載されている音声符号化方法では、原デジタル音声信号に対して、過去の信号から現在の信号を複数予測し、これら予測値から予測残差(差分)が最小となるものを求めて、求めた予測残差を符号化する。
ここで、原デジタル音声信号とは、音声信号を所定の方式によりサンプリング及び量子化したサンプル値データを指し示す。
特開2001−188571号公報(第3、4頁、図2)
特許文献1に記載された方法では、(サブ)フレーム単位で、注目している音声信号を、それより過去の時点の音声信号から予測するのみであって、未来の時点の音声信号から、注目している音声信号を予測することが無い。このため、音声信号を符号化した際に得られる符号の長さが十分に短くなっていなかった。なぜなら、もし、ある時点の音声信号が、それより過去の時点の音声信号よりも未来の時点の音声信号と類似していれば、未来側から音声信号を予測し、注目している音声信号波形との差分を符号化した方が、過去側から音声信号を予測し、注目している音声信号との差分を符号化するよりも、得られる符号の長さが短くなるからである。従来の方法では、このような予測を行っていなかった。
本発明は上記問題点に鑑みてなされたもので、本発明の目的は音声信号を時間的に過去及び未来の音声信号から予測してその差分の符号化を行う音声符号化装置、方法及びプログラムを提供することにある。
上記目的を達成するため、本発明の第1の観点にかかる音声符号化装置は、
予めサンプリングされている音声信号列を符号化する音声符号化装置であって、
音声信号列を所定のサンプル数からなる音声フレームに分割する分割手段と、
前記分割手段により分割された音声フレームを、連続する2つの独立フレームが周期的に現れるように、予測フレームと独立フレームとに区分する順序制御手段と、
独立フレームを構成する信号列を所定の方式で符号化して出力する第1の符号化手段と、
前後して現れる連続する2つの独立フレームに対応して、当該2つの独立フレームを構成する信号列を記憶する2つの倍長フレーム記憶手段と、
予測フレームを構成する信号列と最も類似する信号列部分を前記2つの倍長フレーム記憶手段に記憶された信号列から検索する検索手段と、
予測フレームを構成する信号列と前記検索手段で検索された最も類似する信号列部分との差分を計算する差分計算手段と、
前記差分計算手段で計算された前記差分と前記最も類似する信号列部分が含まれる独立フレームを示す情報と前記最も類似する信号列部分が存在する位置を示す情報とを所定の方式で符号化して出力する第2の符号化手段と、を具備することを特徴とする。
上記音声符号化装置は、
ある波形が繰り返されている状態である、定常状態にある信号列を、音声フレームを構成する信号列が含んでいるか否かを判別する定常状態判別手段と、
音声フレームを構成する信号列を所定の方式で符号化する第3の符号化手段と、
を具備し、
前記定常状態判別手段で、音声フレームを構成する信号列が定常状態にある信号列を含んでいると判別した場合は、前記順序制御手段の区分に従って、該部分信号列を前記第1の符号化手段あるいは前記第2の符号化手段で符号化し、
前記定常状態判別手段で、音声フレームを構成する信号列が定常状態にある信号列を含んでいないと判別した場合は、当該信号列を前記第3の符号化手段で符号化するようにしても良い。
本発明によれば、音声信号を効率よく符号化することができる。
以下図面を参照して、本発明にかかる実施形態を説明する。
(実施形態1)
図1は、本発明の実施形態にかかる音声処理装置の構成を示すブロック図である。
図1に示すように、音声処理装置100は、例えば、コンピュータなどの情報処理装置から構成される。入力装置12と出力装置13と記録媒体17とが音声処理装置100に接続される。音声処理装置100は、入力装置12から指示を受けて、記録媒体17から入力された音声波形データを符号化・圧縮し、圧縮データとして記録媒体17に出力する。また、入力装置12から指示を受けて、記録媒体17から入力された、圧縮データを伸張・復号し、記録媒体17に出力する。
ここで、音声波形データとは、アナログ音声が所定のサンプリング周波数(例えば、8kHz)で量子化されているサンプル値データである。
記録媒体17は、例えば、CD−RW(Compact Disk ReWritable)ディスクなどであり、音声波形データを格納する。
音声処理装置100は、制御部110と、入力制御部120と、出力制御部130と、プログラム格納部140と、記憶部150と、外部記憶IO装置170とを備える。
制御部110は、例えば、CPU(Central Processing Unit:中央演算処理装置)、ROM(Read Only Memory)、RAM(Random Access Memory)等から構成され、プログラム格納部140に格納されている所定の動作プログラムに基づいて、音声処理装置100の各部を制御したり、外部記憶IO装置170を介して、記録媒体17に格納されている音声波形データや圧縮データを読み出し、音声波形データや圧縮データを記録媒体17に書き込んだりする。また、例えば図2に示すような、分割部200、符号化処理部210、圧縮部220、伸張部230、復号処理部240等を実現し、後述する符号化処理や復号処理などを実行する。
図1に戻って、制御部110は、記憶部150に格納された音声波形データを予測符号化後、圧縮し、圧縮データを生成する。制御部110は、生成した圧縮データを記憶部150に格納する。また、記憶部150に格納された圧縮データを伸張し、復号する。制御部110は、復号した音声波形データを記憶部150に格納する。
入力制御部120は、例えば、キーボードやポインティングデバイス等の所定の入力装置12を接続し、入力装置12から入力された制御部110への指示などを受け付けて制御部110に伝達する。
出力制御部130は、例えば、ディスプレイなどの所定の出力装置13を接続し、制御部110の処理結果などを必要に応じて出力装置13に出力する。
プログラム格納部140は、ROM(Read Only Memory)などの記憶装置から構成され、制御部110が実行するプログラムを記憶する。
記憶部150は、例えば、ハードディスク装置やRAM(Read Access Memory)などの記憶装置から構成され、外部記憶IO装置170から送られてきた音声波形データあるいは圧縮音声波形データ、及び圧縮後の圧縮データあるいは伸張後の音声波形データを格納する。記憶部150は、格納した音声波形データや圧縮データを外部記憶IO装置170又は制御部110に送り出す。
外部記憶IO装置170は、例えば、CD−RWドライブなどであって、記録媒体17に格納されている音声波形データあるいは圧縮データを読み出したり、音声波形データあるいは圧縮データを記録媒体17に書き込んだりする。
図2を参照して、制御部110が実現する各機能について説明する。
分割部200は、音声波形データを所定のサンプル数毎に分割して音声フレームとする。そして、音声フレームを符号化処理部210に送信する。なお、音声フレームのサンプル数は特に限定されるものではないが、音声の周期性を利用するため、音声フレーム内にアナログ音声の1周期分のサンプル値を含む程度の長さが必要である。例えば、人間の音声を圧縮・伸張の対象とした場合は、50分の1秒に相当するサンプル数(160個)とする。
符号化処理部210は、分割部200から送信された音声フレームをフレーム毎に符号化する。より詳細には、符号化処理部210は、音声フレームをそのまま符号化する「独立フレーム」と、「独立フレーム」から予測された「予測部分信号列」との差分(以下、「予測差分信号」と称する)をとった後にその差分を符号化する「予測フレーム」との2種類に分け、それぞれ符号化する。
音声信号は周期性を有するが、ある場所からあまりにも時間的に離れた場所の音声信号とその場所の音声信号とが類似していることは少ない。従って、予測フレームの近傍の音声フレームを元に予測すれば、「予測フレーム」と「予測差分信号」との差分が十分に小さくなることが見込まれる。そこで、本実施形態において符号化処理部210は、「予測フレーム」の直前直後の「独立フレーム」から「予測部分信号列」を予測する。
以下、「独立フレーム」から予測された「予測部分信号列」との差分をとった後にその差分を符号化することを「予測符号化」と称する。また、予測符号化するために用いられる「独立フレーム」を「予測元」と称する。
符号化処理部210の構成を図3に示す。図示するように、符号化処理部210は、順序部211と、符号化部212、217と、復号部213と、メモリ214、215と、予測差分出力部216とを備える。
順序部211は、所定の決定基準に基づいて、音声フレームを独立して符号化すべきか否かを判別し、独立して符号化すべきであると判別した場合には、当該音声フレームを符号化部212に送り、そうでない場合には、予測差分出力部216に送る。独立して符号化すべきか否かについての判別は、例えば、音声フレームの数をカウントしておき、所定の個数(例えば、10個)毎に2個独立して符号化するものと決定する。ただし、最後の音声フレームは必ず独立フレームとする。この場合、順序部211は、音声フレームの数がL個のとき、フレーム0、1、フレーム10、11、・・・、フレームL−2、フレームL−1を独立フレームとする。
順序部211は、また、後述する予測差分出力部216で予測部分信号列を取り出せるように、また、復号処理部240で予測フレームを復号できるように、音声フレームの符号化(出力)順序を入れ換える。
符号化順序の入れ換えについて、図4を参照して説明する。図4の「符号化前」というのは、順序部211が、音声フレームを「独立フレーム」と「予測フレーム」との2種類に振り分けた直後の音声フレームの並びを図示したものである。「独立フレーム3」は、「予測フレーム1」から「予測フレーム8」の「予測元」となる。従って、「独立フレーム3」は、「予測フレーム1」から「予測フレーム8」に先立って符号化される。同様に、「独立フレーム4」も、「予測フレーム1」から「予測フレーム8」に先立って符号化される。
図3に戻り、符号化部212は、順序部211から送られてきた音声フレームを所定の符号化方法(例えば、ベクトル量子化、MDCT(Modified Discrete Cosine Transform)、ADPCM(Adaptive Differential Pulse Code Modulation)など)により符号化する。そして、符号化された音声フレーム(以下、音声符号と称する)と復号に必要なデータ(以下、ヘッダと称する)とをカプセル化して、圧縮部220及び復号部213に送信する。以下、符号化部が出力する符号を「中間符号」と称する。
以下、所定の符号化の例として、MDCTの場合を説明する。符号化部212は、入力信号列に基づいてMDCT係数を計算し、計算結果を音声符号とする。ここで、MDCTの窓長(サンプル数)をM、入力信号列を{x,x,・・・,xM−1}としたとき、MDCT係数Xは次の数1に従って計算される。
Figure 0004547965
(ただし、k=0,1,・・・,M/2−1)
符号化部212は数1の式により得られた各MDCT係数Xを音声符号とする。Xを並べる順序は特に制限されないが、本実施形態では、X,X,・・・とする。なお、符号化部212はXをさらに量子化してもよいし、所定の閾値(例えば、0.0039(おおよそ2のマイナス8乗))以下のXを0に置き換えたりしてもよい。また、さらにベクトル量子化してもよい。このような処理を行えば、圧縮部220でより圧縮がかかる。
図5に、符号化部212が出力する中間符号の例を示す。図5に示すように、符号化部212が出力する中間符号は、符号化された音声波形データである音声符号と、独立フラグ、順序フラグ、位相情報、符号サイズなどから構成されるヘッダとを含む。なお、復号時にフレーム単位で処理できるのであれば、ヘッダはどのような形態をとっても構わないが、本実施形態では、ヘッダの長さは固定長とする。
独立フラグは、音声符号が(他の音声フレームとの差分をとられることなく)独立して符号化されたものであるか否かを示す情報を格納したものである。符号化部212は独立フラグに独立して符号化されたものであることを示す情報(例えば、「1」)を格納する。
順序フラグは、中間符号に対応している「独立フレーム」が、時間的に当該「独立フレーム」より過去の音声フレーム(「予測フレーム」)の「予測元」として利用される可能性があるために、符号化順序が前倒しされたか否かを示す情報を格納したものである。符号化部212は、例えば、最初の2つの「独立フレーム」に対して、符号化順序が前倒しされていないことを意味する「0」を設定し、それ以外の「独立フレーム」に対しては、符号化順序が前倒しされていることを意味する「1」を設定する。
符号サイズは、この音声フレームにおける音声符号の長さを示す情報を格納する。特に制限されるものではないが、符号サイズには、音声符号のビット数、バイト数などを格納される。
位相情報は、「予測差分信号」が、「予測元」のどの場所に対応するのかを示す情報を格納する。例えば、「予測元」を示す情報と「予測部分信号列」の「予測元」での開始位置を示す情報とを格納する。より詳細には、「予測元」を示す情報とは、「予測元」となった「独立フレーム」が当該音声フレームの前か後かを示す情報である。なお、符号化部212は、独立フレームを符号化するので、位相情報を特に設定しなくてもよい。位相情報の設定例については、後述する。
図3に示す、復号部213は、符号化部212から送信された中間符号を復号し、2つ毎にペアにして、メモリ214に出力する(以下、ペアにされた独立フレームを倍長フレームと称する。)。復号は上記所定の符号化の逆演算(例えば、MDCTの場合はIMDCT(Inverse MDCT))に相当する。すなわち、復号部213は上述の音声符号を所定の方式により音声フレーム(独立フレーム)に復号する。IMDCTの計算式を数2に示す。なお、入力数値列を{X,X,・・・,XM/2−1}とする。
Figure 0004547965
(ただし、i=0,1,・・・,M−1)
メモリ214は、復号部213が出力した倍長フレームを一時的に格納する。メモリ214は、復号部213から新たな倍長フレームが入力された場合には、格納している倍長フレームはメモリ215に転送され、新たな倍長フレームを格納する。メモリ214に格納された倍長フレームは、予測差分出力部216の「予測元」として採用される。
メモリ215は、メモリ214から転送された倍長フレームを順次上書きして格納する。メモリ215に格納された倍長フレームは、予測差分出力部216の「予測元」として採用される。
予測差分出力部216は、メモリ214、215に格納されている倍長フレームから、予測フレームの長さと等しい部分信号列を切り出し、そのうち、予測フレームと最も類似する部分信号列を抽出(検索)し、予測部分信号列{s,s,・・・,sN−1}とする。ここで、メモリ214、215に格納されている倍長フレームは、この予測フレームの前後の独立フレームのペアの何れかである。
今、予測フレームのサンプル数をN個、予測部分信号列を検索しようとしている倍長フレームのサンプル数をM個としたとき(従って、倍長フレームのサンプル値列は{p,p,・・・,pM−1}とする。)、予測部分信号列{s,s,・・・,sN−1}は(以下、{s}と略記する)、数3に示す式で求められるeが最小となるkにより決定されるサンプル値列{p,pk+1,・・・,pk+N−1}である(ただし、0≦k≦M−Nとする。)。
Figure 0004547965
予測差分出力部216は、順序部211から送られてきた音声フレーム(予測フレーム)と、予測部分信号列との差分(予測差分信号){y,y,・・・,yN−1}(以下、{y}と略記する)を、数4に示す式に従って計算する。
(数4)
=x−s
(i=0,1,・・・,N−1)
最後に、予測差分出力部216は、数3及び数4により求められた予測差分信号{y}を符号化部217に出力する。
予測差分出力部216は、過去の独立フレームと未来の独立フレームとから予測部分信号列を検索する。ここで、独立フレームの長さを予測フレームとの長さより長くとり(つまり、M≧N)、独立フレームから予測フレームの長さと一致する音声フレームを取り出して予測部分信号列を検索するようにすれば、より類似する予測部分信号列を検索できる。
符号化部217は、予測差分出力部216から出力された予測差分信号を所定の符号化方式により符号化し、中間符号へとカプセル化した上で圧縮部220に送信する。符号化部217が用いる符号化方式は、符号化部212が用いる符号化方式と同じであっても、異なってもよい。なお、本実施形態では、予測差分信号を単にカプセル化、すなわち、音声符号にヘッダを付加して、中間符号を出力する。
符号化部217は、符号化部212と同様に、図5に示した形式で音声符号をカプセル化する。符号化部217は予測差分信号を符号化するので、独立フラグの内容を独立して符号化されたものではないことを示す情報である「0」に設定する。符号化部217は同じ理由から、順序フラグについては特に設定する必要がないが、復号時に復号の順序が変更されることを防ぐため、符号化順序が変更されていないことを意味する「0」を設定することが望ましい。符号化部217は、位相情報のうち、「予測元」を示す情報を、「予測元」が当該音声フレームより前の「独立フレーム」であれば、そのことを示す情報(例えば「0」)に設定し、「予測元」が当該音声フレームより後の「独立フレーム」であれば、「1」に設定する。「予測部分信号列」の開始位置を示す情報とは、例えば、「予測差分信号」の先頭の、「予測元」における位置を示す情報である。なお、符号サイズの設定は、符号化部212の設定と同一とする。最後に、符号化部217はカプセル化した音声符号(すなわち、中間符号)を圧縮部220に送信する。
図2に示す圧縮部220は、中間符号の圧縮機能を有する。すなわち、符号化処理部210で生成された中間符号を、連長圧縮(ランレングス)、ハフマン(Huffman)符号化、レンジコーダ(RangeCoder)など既知の圧縮アルゴリズムを利用してさらに圧縮し、圧縮データに変換する。圧縮部220は変換した圧縮データを、制御部110を介して、記憶部150に格納する。圧縮部220は音声符号のみを圧縮の対象としてもよい。
伸張部230は記憶部150に一時記憶された圧縮データを上記圧縮部220で使用している圧縮アルゴリズムに対応する伸張アルゴリズムを利用して伸張し、復号処理部240に渡す。
復号処理部240は、音声フレーム単位で中間符号を受信し、音声符号を音声フレームの形式に復号する。そして、音声フレームの順序を元の順序に並べ替えて、音声波形データに復元し、記憶部150に出力する。
図6に復号処理部240の構成を示す。図示するように、復号処理部240は、符号判別部241と、復号部242、246と、順序部243と、メモリ244、245と、合成部247とを備える。
符号判別部241は、伸張部230から送られてきた伸張された圧縮データを走査し、中間符号単位に区切りながら、各中間符号に含まれる「独立フラグ」の内容を判別し、中間符号を復号部242あるいは復号部246に転送する。より詳細には、符号判別部241は、「独立フラグ」の内容を判別し、中間符号を復号部242あるいは復号部246の何れに転送するかを決定する。「独立フラグ」の内容が独立して符号化されたものであることを示す情報(「1」)である場合には、中間符号を復号部242に転送し、「独立フラグ」の内容が独立して符号化されたものではないことを示す情報(「0」)である場合には、中間符号を復号部246に転送する。符号判別部241は符号サイズに格納されている情報によって、中間符号の区切り位置を識別し、伸張された圧縮データを中間符号単位で切り出すことができる。
復号部242は、符号判別部241から送られてきた中間符号に含まれる音声符号を音声フレームに復号する。復号の方式は、符号化部212が用いている符号化方式の逆変換に相当する方式である。復号部242の復号処理については、復号部213ですでに説明したものと同一である。復号部242は、復号部213と同様に、2つ毎にペアにして、メモリ244に倍長フレームを出力する。
順序部243は、復号部242が復号した音声フレームと合成部247が出力した音声フレームとを、符号化前の音声信号の並びになるように、各中間符号に含まれる「順序フラグ」に格納されている情報に従って、音声フレームの順序を入れ換える。すなわち、順序部211が並び換えた順を元に戻す。順序部211が独立フレームと予測フレームとを決定する例に従って説明すれば、3つ目以降の各独立フレームを8個の予測フレームの後に配置する。ただし、最後2つの独立フレームは、予測フレームの個数に関係なく、最後に配置する。
メモリ244は、復号部242が出力した倍長フレームを一時的に格納する。メモリ244は、復号部242から新たな倍長フレームが入力された場合には、格納している倍長フレームはメモリ245に転送され、新たな倍長フレームを格納する。メモリ244に格納された倍長フレームは、合成部247の「合成元」として採用される。ここで、「合成元」とは、予測フレームを復元するために必要な音声フレームであることを意味する。
メモリ245は、メモリ244から転送された倍長フレームを順次上書きして格納する。メモリ245に格納された倍長フレームは、合成部247の「合成元」として採用される。
復号部246は、符号判別部241から送られてきた音声符号を予測差分信号列に復号する。復号の方式は、符号化部217が用いている符号化方式の逆変換に相当する方式である。復号部246は、復号した予測差分信号列と、音声符号に付加されていた「位相情報」とを合成部247に送信する。
合成部247は、復号部246から送信された予測差分信号列{y}と位相情報と、メモリ244、245に格納されている倍長フレームの信号列{p}とに基づいて、音声フレーム{x,x,・・・,xN−1}(以下、{x}と略記する)を合成(復元)する。まず、位相情報と信号列{p}とに基づいて、予測信号列{s}を特定する。すなわち、位相情報に従って、予測信号列の先頭のサンプル値sを決定する。そして、それ以降のN−1個のサンプル値を{s,s,・・・,sN−1}とする。最後に、数5に示す式に従って、{x}を計算する。
(数5)
=s+y
(i=0,1,・・・,N−1)
合成部247は、復元した音声フレームを順序部243に出力する。
上記のように構成された音声処理装置100の動作を以下図面を参照して説明する。以下に示す各動作は、制御部110がプログラム格納部140に格納されている各プログラムの何れか又はすべてを適宜実行することで実現される。
音声処理装置100は、入力装置12から音声データを圧縮する旨の指示を受け付けたことを契機として、図7に示す符号化処理を開始する。なお、音声データは、予め記録媒体17から読み出され、記憶部150に格納されているものとする。
音声処理装置100(制御部110)は、まず音声データを記憶部150から読み出して、分割部200に送信する。分割部200は受信した音声データを音声フレームに分割する(ステップS101)。分割部200は、音声フレームを符号化処理部210に渡す。
符号化処理部210内の順序部211は、音声フレームを受信すると、所定の基準に従って、各音声フレームを独立フレームとするか予測フレームとするかを判別する。そして、復号の際に予測フレームが復号できるように、また、独立フレームの符号化を「予測元」の対象となっている予測フレームの符号化よりも先に行うように、フレームの順序を入れ換える(ステップS102)。
以下、ステップS103からS107までは、音声フレーム毎に行われる処理である。ステップS103では、順序部211が、音声フレームが独立フレームであるか予測フレームであるかを判別して、符号化部212あるいは予測差分出力部216に出力することを決定する。音声フレームが独立フレームであると判別すれば(ステップS103:NO)、順序部211は、その音声フレームを符号化部212に出力する。音声フレームが予測フレームであると判別すれば(ステップS103:YES)、順序部211は、その音声フレームを予測差分出力部216に出力する。
符号化部212は、順序部211から出力された音声フレームを受信し、所定の符号化方式により、音声フレームを音声符号に符号化し(ステップS104)、さらにヘッダ情報を付加して復号部213と圧縮部220とに出力する。復号部213は、符号化部212から受け取った音声符号を復号し、2つペアにしてメモリ214に格納する。メモリ214は、格納していた倍長フレームをメモリ215に転送し、メモリ215は転送された倍長フレームを格納する。なお、メモリ215に格納されていた倍長フレームは上書きされ、消去される。
一方、予測差分出力部216は、順序部211から出力された音声フレームを受信し、メモリ214あるいはメモリ215に格納されている倍長フレームから予測フレームに最も類似している部分を、数3に示した式で求めた値のうち最小値をとるものを検索することで判別し(ステップS105)、予測フレームとその予測フレームに最も類似している部分との差分を数4に示した式により求めて、符号化部217に出力する。
予測差分出力部216から差分を受信した符号化部217は、所定の符号化方式に従って、差分を音声符号に符号化し(ステップS106)、さらにヘッダ情報を付加して圧縮部220に出力する。
ステップS107では、すべての音声フレームが符号化されたか否かを判別する。すべての音声フレームが符号化されていると判別すれば(ステップS107:YES)、符号化処理部210は、符号化処理を終了する。少なくとも1つの音声フレームが符号化されていないと判別すれば(ステップS107:NO)、符号化処理部210はステップS103に処理を戻し、残りの音声フレームの符号化を実行する。
以上の各ステップにより、符号化処理部210で生成された符号は次に、圧縮部220で既知の圧縮アルゴリズムを利用して圧縮され、記憶部150に格納される。
次に、復号処理について説明する。復号処理のフローチャートを図8に示す。
音声処理装置100(制御部110)は、入力装置12から圧縮された音声データを伸張・復元する旨の指示を受け付けたことを契機として、制御部110は記憶部150に格納されている圧縮された音声データを読み出し、伸張部230で圧縮された音声データを中間符号に伸張し、中間符号を復号処理部240に渡す。そして、復号処理部240に音声符号が渡されると、復号処理部240は復号処理を開始する。
伸張部230から音声符号を受け付けた符号判別部241は、復号すべき音声符号が残っているか否かを判別する(ステップS201)。復号すべき音声符号が無くなった場合に、符号判別部241はすべてが復号されたと判別し(ステップS201:YES)、ステップS209に処理を移す。
一方、処理すべき音声符号が残っている場合には(ステップS201:NO)、符号判別部241は、ヘッダ情報内のサイズ情報に格納されている情報に従って、中間符号の区切り位置を判別し、1フレーム分の中間符号を切り出す(ステップS202)。そして、中間符号に付加されている「独立フラグ」に格納されている情報を参照し、その音声符号が独立フレームを符号化したものであるか否かを判別する(ステップS203)。
符号判別部241が、その音声符号が独立フレームを符号化したものであると判別した場合には(ステップS203:YES)、符号判別部241は中間符号を復号部242に転送する。中間符号を受け取った復号部242は、符号化部212が生成した音声符号を復号する復号方式により、音声フレームに復号し(ステップS204)、順序部243に送信する。復号部242はさらに、復号した音声フレームを2つ単位でメモリ244にも送信する(ステップS205)。倍長フレームが復号部242からメモリ244に送信されると、メモリ244に格納されている倍長フレームはメモリ245に転送される。メモリ245は転送された倍長フレームを格納する。そして、処理はステップS201に戻される。
一方、符号判別部241が、その音声符号が予測フレームを符号化したものであると判別した場合には(ステップS203:NO)、符号判別部241は中間符号を復号部246に転送する。中間符号を受け取った復号部246は、符号化部217が生成した音声符号を復号する復号方式により、予測差分信号に復号し(ステップS206)、合成部247に送信する。
合成部247は、復号部246が復号した予測差分信号と、中間符号に付加されていた位相情報と、メモリ244、245に格納されている倍長フレームとに基づいて、倍長フレームから、予測信号列となる音声フレームを検索し(ステップS207)、予測差分信号列と予測信号列とを加算して音声フレームを復元する(ステップS208)。復元した音声フレームは順序部243に送信する。そして、処理はステップS201に戻される。
すべての中間符号が音声フレームに復号されると(ステップS201:YES)、順序部243は、各中間符号に付加されていた「独立フラグ」の内容に従って、音声フレームを符号化前の音声フレームの並びに並べ替え(ステップS209)、記憶部150に格納する。以上で、復号処理が終了する。
このように、本実施形態にかかる音声処理装置100は、予測符号化において、過去の信号波形だけでなく、未来の信号波形からも信号波形を予測する。このため、信号波形の予測時に、より類似した信号波形を見いだすことができる。従って、得られる差分のデータサイズが小さくなり、予測符号化における圧縮率が向上する。さらに、「予測元」となる信号波形の長さを予測しようとする信号波形の長さより長くとり、「予測元」の信号波形の中からより類似する信号波形を検索するようにしたため、さらに類似した信号波形を見いだすことができる。
(実施形態2)
母音のような定常信号では、類似した波形が繰り返される。このため、予測が働きやすく、予測信号の波形と現実の信号波形との差分が小さくなり、圧縮率の向上に寄与する。しかし、子音は雑音信号に近いため、信号波形の予測を行うことは必ずしも圧縮率の向上に寄与しない。従って、実施形態2では、音声フレームが母音を含むか否か(すなわち定常信号を含むか否か)を判別し、母音を含む場合には予測差分信号を求めて符号化を行い、母音を含まない場合には予測差分信号を求めないで符号化を行う音声符号化処理について説明する。
本実施形態の音声処理装置100は、実施形態1で説明した機能に加え、部分信号列に定常信号(母音)が含まれているか否かを判別し、母音が含まれていれば、その部分信号列に対し予測符号化を行い、母音が含まれていなければ、単なる符号化を行う機能を有する。
本実施形態にかかる音声処理装置100は、実施形態1にかかる音声処理装置100と同様の構成(図1、2参照)を有しているため、共通する機能構成については説明を省略し、相違点を中心に説明する。
図9は、実施形態2にかかる符号化処理部210のブロック図である。図3に示した符号化処理部210と比較すると分かるように、実施形態1の符号化処理部210に、母音判別部218と符号化部219とが追加されている構成が、本実施形態の符号化処理部210である。
母音判別部218は入力された音声フレーム群が母音を含んでいるか否かを判別し、母音を含んでいれば、その音声フレーム群を順序部211に送り、母音を含んでいなければ、その音声フレーム群を符号化部219に送る。母音判別部218は、判別結果を順序部211に送信する。
この音声フレーム群の信号列{d}(全サンプル数J、1フレームあたりのサンプル数N)としたとき、例えば、数6に示した式の計算結果が何れかのkにおいて0.7以上である場合に、母音判別部218は、この音声フレーム群が母音を含んでいると判別する。ただし、このkの下限(少なくとも1以上)は、周期性のない音声波形を誤って母音を含むと判別することのないよう、実験的に求めた値を適用する。また、0.7という閾値も、実際には、実験的に求めた値を適用する。
Figure 0004547965
符号化処理部210は、音声フレーム群(例えば、連続した10個の音声フレーム)が母音を含んでいるか否かを判別し、母音を含んでいると判別すれば、第1の実施形態と同様に、音声フレームを独立フレームか予測フレームかにするかを判別し、判別結果に従って単独で符号化あるいは予測符号化する。符号化処理部210は、音声フレーム群が母音を含んでいないと判別すれば、単独で符号化する。
順序部211は、上記実施形態1と比較して、基本的な機能(独立フレームの判別、音声フレームの並べ替え)では同一であるが、独立フレームの判別方法が実施形態1とは異なる。これは、上記実施形態1における独立フレームの判別方法では、独立フレームとして取り扱われるはずの音声フレームが、本実施形態において母音を含まない音声フレーム群に入っていると、順序部211に入力されないため、後方の独立フレームから予測符号化が行えないという理由からである。
従って、本実施形態の順序部211は、母音判別部218から音声フレーム群が母音を含んでいない旨の判別結果を受信し、着目している音声フレーム群の後の音声フレーム群が順序部211に入力されないことを判別する。順序部211は判別結果により独立フレームと判別する音声フレームを変更する。順序部211は、音声フレーム群が入力されたか否かを判別し、入力されたと判別すれば、実施形態1と同じように、独立フレームを決定する。順序部211に次の音声フレームが入力されないことを判別すれば、着目している音声フレーム群の最後の2フレームを独立フレームと判別する。
なお、次の音声フレーム群が入力されるか否かにかかわらず、順序部211は、入力された音声フレーム群の最初の2フレームを独立フレームと判別する。これは、実施形態1と同一である。
そして、順序部211は、音声フレーム毎に、音声フレームの符号化順序が本来の再生順序からどれだけずらされたかに関する数値情報である「順序情報」を符号化部212、217に送信する。
符号化部212、217は、音声フレームを所定の符号化方式により符号化する。そして、復号に必要な情報と共に音声符号を圧縮部220に出力する。実施形態2では、この復号に必要な情報が実施形態1と異なる。図10に、実施形態2にかかる符号化部が出力する中間符号の例を示す。図5と比較すると分かるように、実施形態1の復号に必要な情報に「母音フラグ」が追加されている。「母音フラグ」とは、当該音声符号に母音(定常信号)が含まれているか否かを示す情報を格納するものである。符号化部212、217は「母音フラグ」の内容を母音が含まれていることを示す情報(例えば、「1」)に設定する。
また、「順序フラグ」の代わりに「順序情報」が含まれる。符号化部212及び符号化部217はこの「順序情報」に順序部211から送信された「順序情報」で指示された値を設定する。本実施形態では、符号化部212は「順序情報」に格納する値を「0」から「−8」(本来の8フレーム前を意味する値)の間に設定する。また、符号化部217は「順序情報」に格納する値を「2」(本来の2フレーム後を意味する値)に設定する。
符号化部219は、符号化部212や217と同様に、入力された音声フレームを所定の符号化方式に従って符号化し、圧縮部220に出力する。ただし、符号化部219の所定の符号化方式は、符号化部212や217の符号化方式と異なっていても、同一であってもよい。
図10を参照して、符号化部219が出力する中間符号を説明する。音声符号及び符号サイズは、第実施形態1と同一である。符号化部219は、「母音フラグ」の内容を母音が含まれていないことを示す情報(例えば、「0」)に設定する。「独立フラグ」及び「位相情報」の内容は特に設定する必要はないが、復号処理との関係で、符号化部212が出力する内容と同一にしておくことが望ましい。「順序情報」は、順序が変更されていないことを示す情報である「0」に設定する。
図11は、実施形態2にかかる復号処理部240のブロック図である。図6に示した復号処理部240と比較すると分かるように、実施形態1の復号処理部240に、復号部248が追加されている構成が、本実施形態の復号処理部240である。
符号判別部241は、入力された音声符号が、母音を含む音声フレームを符号化したものであるか否かを判別する。そして、母音を含む音声フレームでないと判別した場合には、その音声符号を復号部248に転送する。母音を含む音声フレームであると判別した場合には、さらに、実施形態1と同じく、独立して符号化されたか否かを判別し、判別結果に応じて、その音声符号を復号部242あるいは復号部246に転送する。
復号部248は、符号判別部241から転送された音声符号を所定の音声フレームに復号し、記憶部150に出力する。復号の方式は、符号化部219が用いている符号化方式の逆変換に相当する方式である。
順序部243は、復号部242が復号した音声フレームと合成部247が出力した音声フレームとを、元々の音声信号の並びになるように、音声フレームの順序を入れ換える。すなわち、順序部211が並び換えた順を元に戻す。順序部243は、各フレームデータに付加されていた順序情報に従って(正負を逆にする)、音声フレームを本来の再生順序に並び換える。
以下、図面を参照して、実施形態2にかかる動作例を説明する。図12は、実施形態2の符号化処理を説明するためのフローチャートであり、図13が復号処理を説明するためのフローチャートである。これらのフローチャートにおいて、実施形態1と共通する処理については説明を省略し、相違点を中心に説明する。
まず、符号化処理について説明する。ステップS101の処理が終了すると、符号化処理部210は、次にステップS308に処理を移す。ステップS308では、母音判別部218が、上述の数6の計算結果に従って、当該音声フレームが母音を含んでいるか否かを判別する。そして、母音判別部218が音声フレームが母音を含んでいると判別した場合は(ステップS308:YES)、その音声フレームを順序部211に転送する。以下、実施形態1と同様にステップS102からS106が実行される。母音判別部218が音声フレームに母音が含まれてないと判別した場合は(ステップS308:NO)、その音声フレームを符号化部219に送信する。
母音判別部218から音声フレームを受け取った符号化部219は、所定の符号化により音声フレームを符号化し(ステップS309)、復号に必要な情報を付加して、圧縮部220に送信する。
ステップS107では、すべての音声フレームが符号化されたか否かを判別する。すべての音声フレームが符号化されていると判別すれば(ステップS107:YES)、符号化処理部210は、符号化処理を終了する。少なくとも1つの音声フレームが符号化されていないと判別すれば(ステップS107:NO)、符号化処理部210はステップS308に処理を戻し、残りの音声フレームの符号化を実行する。
次に、図13を参照して、復号処理について説明する。ステップS202の後、ステップS410に処理が移り、符号判別部241は、「母音フラグ」に格納されている情報に基づいて、当該中間符号内の音声符号に母音が含まれているか否かを判別する。符号判別部241は、音声符号に母音が含まれていると判別した場合には(ステップS410:YES)、さらに、符号判別部241は、「独立フラグ」に格納されている情報に基づいて、中間符号が独立フレームを符号化したものであるか否かを判別する(ステップS203)。以下、ステップS204からS208までを実行する。一方、音声符号に母音が含まれていないと判別した場合には(ステップS410:NO)、符号判別部241はその中間符号を復号部248に転送する。復号部248は、符号判別部241から転送された中間符号を所定の復号方式に従って復号し(ステップS411)、記憶部150に出力する。
上記実施形態2によれば、音声フレームが定常信号(母音)を含んでいるか否かを判別し、定常信号を含んでいる音声フレームに対してのみ、予測符号化を行う。一方、定常信号を含まない音声フレームは予測を省略し、単に符号化する。定常信号を含まない音声フレームに対して予測符号化を行っても、単に符号化した場合と比較して、圧縮率が大きくなるとは限らないため、上記実施形態1と比較して、十分な圧縮率を保ったままで、高速化を図ることができる。
なお、本実施形態では、定常信号の例として母音を取り上げたが、定常信号はこれに限られず、例えば、楽部が放音する、ある音階の音なども該当する。
(実施形態3)
上記実施形態1及び実施形態2において、音声フレーム毎に予測信号の振幅を調整することで、予測差分信号の波形をより小さくすることができる。ここで、振幅の調整とは、予測信号の各サンプル値に係数(ゲイン)Gを乗じることで、予測信号の波形を予測フレームの音声信号の波形に、より類似させようとすることをいう。
なお、本実施形態にかかる音声処理装置100は、実施形態1にかかる音声処理装置100あるいは実施形態2の音声処理装置100と同様の構成(図1、2、3、6、9、11参照)を有しているため、共通する機能構成については説明を省略し、相違点を中心に説明する。
予測差分出力部216は、予測信号を検索した後、予測信号の振幅を調整して、予測信号の波形を実際の音声信号の波形により類似するようにする。すなわち、予測差分出力部216は、音声フレームのデータサンプル数をN個とし、予測差分出力部216で検索した予測信号(音声フレーム)の各サンプルデータを{s}、実際の音声フレームの各サンプルデータを{x}としたとき、数7で示す式により、かかる数Gを算出する。ただし、{s}がすべて0である場合には、分子が0となり数7では算出できない。この場合、Gの値に何を設定してもよいが(後述する数8参照)、本実施形態ではG=0とする。
Figure 0004547965
従って、予測差分出力部216は、数4の代わりに数8で、各サンプル点での予測差分信号のサンプル値{y}を得る。
(数8)
=x−G×s
この場合、図5あるいは図10に示したヘッダに数Gを格納するエリアが追加される。符号化部217は、予測差分出力部216で計算された数Gの値をこのエリアに格納し、出力する音声符号に付加して出力する。符号化部212及び符号化部219はこのエリアに関して、特に値を設定する必要はないが、ゲインの調整が無いことを示すようにするため、本実施形態では、G=1として出力する。
また、合成部247は、予測信号の振幅を調整して予測フレームを復元する。すなわち、合成部247は、中間符号に含まれる数Gの値を取り出し、上記数5の代わりに数9を用いて、予測フレームの各サンプル値を算出する。
(数9)
=y+G×s
上記実施形態3によれば、予測フレームの波形により類似するように、予測信号の振幅を調整する。従って、上記各実施形態と比較して、差分信号から生成される符号の長さをより小さくすることができる。
なお、本発明は上記実施形態に限定されず、種々の変形及び応用が可能である。
例えば、上記各実施形態では、1つの音声処置装置100で符号化及び復号を行っていたが、符号化と復号とのうち一方の機能だけを有するようにしてもよい。
また、上記各実施形態にかかる音声処理装置は、インターネット等のネットワークを介して他の装置との通信を行う通信制御部をさらに備えてもよく、この通信制御部を介して、音声波形データや圧縮データを他の装置と送受信するようにしてもよい。
また、上記各実施形態では、符号化処理と圧縮処理とを一連の処理として行っているが、これは一例であり、符号化処理と圧縮処理とは異なるタイミングで実行してもよい。伸張処理と復号処理とにおいても同様である。
また、上記各実施形態では、一旦、符号化部212で符号化された独立フレームを復号部213で復号していたが、直接、順序部211からメモリ214に送るようにしてもよい。また、メモリ214と215、メモリ244と245は分離されている必要はなく、それぞれ1つのメモリであってもよい。さらに、復号部213あるいは順序部211から送られてきた独立フレームをメモリ214とメモリ215とに交互に上書きするようにしてもよい。同様に、復号部242から送られてきた復号した音声フレームをメモリ244とメモリ245とに交互に上書きするようにしてもよい。
また、予測差分出力部216において、2つの独立フレームから音声フレームを所定の方法により合成し、合成した音声フレームから差分をとる部分を検索するようにしてもよい。この場合、符号化部217は、「位相情報」は、当該部分の先頭の位置が合成した音声フレーム上のどの位置にあたるかを示す情報を格納する。
また、上記各実施形態では、予測部分信号列を検索する方法として数3に示した最小二乗誤差を利用したが、数10に示す平均誤差vや、数11に示すベクトルの角度係数hを使用するようにしてもよい。制御部110は、平均誤差vを使用する場合は、平均誤差が最小となるk、角度係数hを使用する場合は、角度係数が最大となるk、で定まるサンプル値列{p,pk+1,・・・,pk+N−1}を予測部分信号列{s,s,・・・,sN−1}とする。
Figure 0004547965
Figure 0004547965
また、上記各実施形態において、復号処理部240は復号部を複数備えているが、これらの復号部242、246、248が同一の復号方式を用いている場合には、1つの復号部に置き換えることができる。この場合、符号判別部241は、1つにまとめられた復号部の後に置くように構成する。符号化部212、217、219が同一の符号化方式を用いている場合も、同様に1つの符号化部に置き換えることができる。この場合、1つにまとめられた符号化部は、圧縮部220の前に置かれ、音声フレームが順序部211と、予測差分出力部216と、母音判別部218とのうち、いずれかから送信されたかに応じて、この符号化部はヘッダに格納する情報を設定する。
なお、上記各実施形態における音声処理装置100は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、上述の動作を実行するためのプログラムをコンピュータ読み取り可能な記録媒体(FD、CD−ROM、DVD等)に格納して配布し、該プログラムをコンピュータにインストールすることにより、上述の処理を実行する、音声処理装置100を構成してもよい。また、インターネット等のネットワーク上のサーバ装置が有するディスク装置に格納しておき、例えばコンピュータにダウンロード等するようにしてもよい。
また、上述の機能を、OSが分担又はOSとアプリケーションの共同より実現する場合等には、OS以外の部分のみを媒体に格納して配布してもよく、また、コンピュータにダウンロード等してもよい。
本発明の実施形態にかかる音声処理装置のブロック図である。 図1の制御部で実現される機能を示す機能ブロック図である。 図2の符号化処理部で実現される機能を示す機能ブロック図である。 図3の順序部の処理の概要を説明するための図である。 図3の符号化部が出力するデータを説明するための図である。 図2の復号処理部で実現される機能を示す機能ブロック図である。 本発明の実施形態1にかかる符号化処理を説明するためのフローチャートである。 本発明の実施形態1にかかる復号処理を説明するためのフローチャートである。 本発明の実施形態2にかかる符号化処理部で実現される機能を示す機能ブロック図である。 図9の符号化部が出力するデータを説明するための図である。 本発明の実施形態2にかかる復号処理部で実現される機能を示す機能ブロック図である。 本発明の実施形態2にかかる符号化処理を説明するためのフローチャートである。 本発明の実施形態2にかかる復号処理を説明するためのフローチャートである。
符号の説明
100…音声処理装置、110…制御部、120…入力制御部、12…入力装置、130…出力制御部、13…出力装置、140…プログラム格納部、150…記憶部、170…外部記憶IO装置、17…記録媒体、200…分割部、210…符号化処理部、211…順序部、212、217、219…符号化部、213…復号部、214、215…メモリ、216…予測差分出力部、218…母音判別部、220…圧縮部、230…伸張部、240…復号処理部、241…符号判別部、242、246、248…復号部、243…順序部、244、245…メモリ、247…合成部

Claims (4)

  1. 予めサンプリングされている音声信号列を符号化する音声符号化装置であって、
    音声信号列を所定のサンプル数からなる音声フレームに分割する分割手段と、
    前記分割手段により分割された音声フレームを、連続する2つの独立フレームが周期的に現れるように、予測フレームと独立フレームとに区分する順序制御手段と、
    独立フレームを構成する信号列を所定の方式で符号化して出力する第1の符号化手段と、
    前後して現れる連続する2つの独立フレームに対応して、当該2つの独立フレームを構成する信号列を記憶する2つの倍長フレーム記憶手段と、
    予測フレームを構成する信号列と最も類似する信号列部分を前記2つの倍長フレーム記憶手段に記憶された信号列から検索する検索手段と、
    予測フレームを構成する信号列と前記検索手段で検索された最も類似する信号列部分との差分を計算する差分計算手段と、
    前記差分計算手段で計算された前記差分と前記最も類似する信号列部分が含まれる独立フレームを示す情報と前記最も類似する信号列部分が存在する位置を示す情報とを所定の方式で符号化して出力する第2の符号化手段と、
    を具備することを特徴とする音声符号化装置。
  2. る波形が繰り返されている状態である、定常状態にある信号列を、音声フレームを構成する信号列が含んでいるか否かを判別する定常状態判別手段と、
    音声フレームを構成する信号列を所定の方式で符号化する第3の符号化手段と、
    を具備し、
    前記定常状態判別手段で、音声フレームを構成する信号列が定常状態にある信号列を含んでいると判別した場合は、前記順序制御手段の区分に従って、該部分信号列を前記第1の符号化手段あるいは前記第2の符号化手段で符号化し、
    前記定常状態判別手段で、音声フレームを構成する信号列が定常状態にある信号列を含んでいないと判別した場合は、当該信号列を前記第3の符号化手段で符号化すること、
    を特徴とする請求項記載の音声符号化装置。
  3. 予めサンプリングされている音声信号列を所定のサンプル数からなる音声フレームに分割する分割ステップと、
    前記分割ステップにより分割された音声フレームを、連続する2つの独立フレームが周期的に現れるように、予測フレームと独立フレームとに区分する順序制御ステップと、
    独立フレームを構成する信号列を所定の方式で符号化して出力する第1の符号化ステップと、
    前後して現れる連続する2つの独立フレームに対応して、当該2つの独立フレームを構成する信号列をそれぞれメモリに記憶する倍長フレーム記憶ステップと、
    予測フレームを構成する信号列と最も類似する信号列部分を前記メモリに記憶された2つの独立フレームを構成するそれぞれの信号列から検索する検索ステップと、
    予測フレームを構成する信号列と前記検索ステップで検索された最も類似する信号列部分との差分を計算する差分計算ステップと、
    前記差分計算ステップで計算された前記差分と前記最も類似する信号列部分が含まれる独立フレームを示す情報と前記最も類似する信号列部分が存在する位置を示す情報とを所定の方式で符号化して出力する第2の符号化ステップと、
    具備することを特徴とする音声符号化方法。
  4. コンピュータ装置を
    予めサンプリングされている音声信号列を所定のサンプル数からなる音声フレームに分割する分割手段と、
    前記分割手段により分割された音声フレームを、連続する2つの独立フレームが周期的に現れるように、予測フレームと独立フレームとに区分する順序制御手段と、
    独立フレームを構成する信号列を所定の方式で符号化して出力する第1の符号化手段と、
    前後して現れる連続する2つの独立フレームに対応して、当該2つの独立フレームを構成する信号列を記憶する2つの倍長フレーム記憶手段と、
    予測フレームを構成する信号列と最も類似する信号列部分を前記2つの倍長フレーム記憶手段に記憶された信号列から検索する検索手段と、
    予測フレームを構成する信号列と前記検索手段で検索された最も類似する信号列部分との差分を計算する差分計算手段と、
    前記差分計算手段で計算された前記差分と前記最も類似する信号列部分が含まれる独立フレームを示す情報と前記最も類似する信号列部分が存在する位置を示す情報とを所定の方式で符号化して出力する第2の符号化手段と、
    として機能させることを特徴とするプログラム。
JP2004110107A 2004-04-02 2004-04-02 音声符号化装置、方法及びプログラム Expired - Fee Related JP4547965B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004110107A JP4547965B2 (ja) 2004-04-02 2004-04-02 音声符号化装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004110107A JP4547965B2 (ja) 2004-04-02 2004-04-02 音声符号化装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2005292640A JP2005292640A (ja) 2005-10-20
JP4547965B2 true JP4547965B2 (ja) 2010-09-22

Family

ID=35325602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004110107A Expired - Fee Related JP4547965B2 (ja) 2004-04-02 2004-04-02 音声符号化装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4547965B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009253744A (ja) * 2008-04-08 2009-10-29 Mitsubishi Electric Corp 符号化装置、復号装置及び映像音声伝送システム
CN116665683A (zh) * 2013-02-21 2023-08-29 杜比国际公司 用于参数化多声道编码的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002094384A (ja) * 2000-09-13 2002-03-29 Nec Corp 長時間用画像・音声圧縮装置及びその方法
JP2002182697A (ja) * 1994-04-29 2002-06-26 Audiocodes Ltd ピッチポストフィルタ
JP2002202799A (ja) * 2000-10-30 2002-07-19 Fujitsu Ltd 音声符号変換装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110455A (ja) * 1992-09-25 1994-04-22 Mitsubishi Electric Corp オーディオ信号の符号化/復号化方法およびこの方法を用いたオーディオ再生装置
JP3088204B2 (ja) * 1992-10-16 2000-09-18 沖電気工業株式会社 コード励振線形予測符号化装置及び復号化装置
JP3537008B2 (ja) * 1995-07-17 2004-06-14 株式会社日立国際電気 音声符号化通信方式とその送受信装置
JP3166572B2 (ja) * 1995-07-21 2001-05-14 日本電気株式会社 動画像音声圧縮装置
JP3618217B2 (ja) * 1998-02-26 2005-02-09 パイオニア株式会社 音声のピッチ符号化方法及び音声のピッチ符号化装置並びに音声のピッチ符号化プログラムが記録された記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002182697A (ja) * 1994-04-29 2002-06-26 Audiocodes Ltd ピッチポストフィルタ
JP2002094384A (ja) * 2000-09-13 2002-03-29 Nec Corp 長時間用画像・音声圧縮装置及びその方法
JP2002202799A (ja) * 2000-10-30 2002-07-19 Fujitsu Ltd 音声符号変換装置

Also Published As

Publication number Publication date
JP2005292640A (ja) 2005-10-20

Similar Documents

Publication Publication Date Title
EP2335242B1 (en) Audio decoder, method for decoding an audio signal and computer program
KR101437127B1 (ko) 가중 윈도우들을 사용한 저-지연 변환 코딩
KR101689766B1 (ko) 음성 복호 장치, 음성 복호 방법, 음성 부호화 장치, 및 음성 부호화 방법
JPH0353300A (ja) 音声符号化装置
JP2707564B2 (ja) 音声符号化方式
WO2008072736A1 (ja) 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法
JP3628268B2 (ja) 音響信号符号化方法、復号化方法及び装置並びにプログラム及び記録媒体
JP4978539B2 (ja) 符号化装置、符号化方法及びプログラム。
US6611797B1 (en) Speech coding/decoding method and apparatus
JP4108317B2 (ja) 符号変換方法及び装置とプログラム並びに記憶媒体
JP4547965B2 (ja) 音声符号化装置、方法及びプログラム
KR100416363B1 (ko) 선형 예측 분석 대 합성 엔코딩 방법 및 엔코더
JPH03257500A (ja) 音声のスペクトル包絡パラメータ符号化装置
EP1522063B1 (en) Sinusoidal audio coding
JP2006211243A (ja) ディジタル信号符号化装置,ディジタル信号符号化方法
JP2002091497A (ja) オーディオ信号符号化方法、復号化方法及びそれらの方法を実行するプログラム記憶媒体
JPH09230898A (ja) 音響信号変換符号化方法及び復号化方法
JP3308783B2 (ja) 音声復号化装置
US7092878B1 (en) Speech synthesis using multi-mode coding with a speech segment dictionary
RU2792658C1 (ru) Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио
JP4438655B2 (ja) 符号化装置、復号装置、符号化方法及び復号方法
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
KR20080092823A (ko) 부호화/복호화 장치 및 방법
JP2508002B2 (ja) 音声符号化方法とその装置
JP2004260252A (ja) 時系列信号の符号化装置および復号装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061016

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100615

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100628

R150 Certificate of patent or registration of utility model

Ref document number: 4547965

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130716

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees