JP2015523024A - データストリームの符号化方法 - Google Patents

データストリームの符号化方法 Download PDF

Info

Publication number
JP2015523024A
JP2015523024A JP2015518931A JP2015518931A JP2015523024A JP 2015523024 A JP2015523024 A JP 2015523024A JP 2015518931 A JP2015518931 A JP 2015518931A JP 2015518931 A JP2015518931 A JP 2015518931A JP 2015523024 A JP2015523024 A JP 2015523024A
Authority
JP
Japan
Prior art keywords
block
cluster
data stream
code table
entropy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015518931A
Other languages
English (en)
Other versions
JP6005273B2 (ja
Inventor
ラウター ウルリヒ
ラウター ウルリヒ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of JP2015523024A publication Critical patent/JP2015523024A/ja
Application granted granted Critical
Publication of JP6005273B2 publication Critical patent/JP6005273B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/42Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code using table look-up for the coding or decoding process, e.g. using read-only memory
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本発明は、データストリーム(DS)の符号化方法に関する。データストリーム(DS)は、アルファベットから成るシンボル(S)である複数のキャラクタを含み、データストリーム(DS)のキャラクタは、複数のブロック(B)にまとめられ、ブロック(B)は、個々のブロック(B)ごとに適用される符号テーブル(CT)に基づき、エントロピー符号化される。本発明による方法の特徴によれば、ブロック(B)が反復処理(IT)を通して、距離値(d)に基づき複数のクラスタ(CL)に割り当てられ、距離値(d)は、あるブロック(BL)をあるクラスタ(CL)に追加したときの、クラスタ(CL)のエントロピー(ET)の変化が小さくなるにつれて、ブロック(B)とクラスタ(CL)との距離値(d)が小さくなるように定義されている。反復処理(IT)の個々の反復ステップ中、クラスタ(CL)に対するブロック(B)の再割り当てを行って、ブロック(B)とクラスタ(CL)との距離値(d)が最小のクラスタ(CL)に、ブロック(B)がそれぞれ割り当てられる。さらに反復処理(IT)を通して決定されたクラスタ(CL)に、それぞれ1つの符号テーブル(CT)を割り当て、符号テーブル(CT)を、個々のクラスタ(CL)中に含まれる複数のブロック(B)の少なくとも一部のシンボル(S)の頻度分布に基づき規定し、符号テーブル(CT)を、個々のクラスタ(CL)のすべてのブロック(B)に適用する。

Description

本発明は、データストリームの符号化方法、対応する符号化装置および送信装置に関する。この場合、データストリームには多数のキャラクタが含まれており、これらのキャラクタはアルファベットから成るシンボルを表す。さらに本発明は、データストリームの伝送方法および伝送装置にも関する。
従来技術から、データストリームを損失なくいわゆるエントロピー符号化によって圧縮することが知られている。この場合、データストリームにおいていっそう高い頻度で現れるシンボルには、いっそう短い符号が割り当てられるので、符号化されたデータストリームの全長が低減される。相応のシンボルと符号との対応づけは、シンボルに対応する符号が割り振られた符号テーブルに基づき行われる。シンボルの頻度は、データストリーム中の種々のセクションにおいてそれぞれ異なる可能性があるので、データストリームの種々のセクションもしくはブロックのために、場合によってはそれぞれ異なる符号テーブルを使用することができる。ただし、データストリームを復号化するための符号テーブルを対応する復号化器に伝送する必要があるので、テーブル数を適切に制限するのが望ましい。このため、制限された個数の符号テーブルを用いて、データストリームの効率的な符号化を実現する要求が存在する。
したがって本発明の課題は、符号テーブルを使用しながら、データストリームを損失なく高い圧縮率で符号化することにある。
この課題は、独立請求項に記載された特徴により解決される。従属請求項には、本発明の実施形態が記載されている。
本発明による方法は、アルファベットから成るシンボルを表す複数のキャラクタを含むデータストリームを符号化するために用いられる。たとえばそれらのキャラクタを相応のASCIIシンボルとすることができ、これはデータストリーム中、適切なビットシーケンスを介して表現される。データストリーム中のキャラクタは、データストリームにおいて相前後して続く複数のキャラクタから成る複数のブロックとしてまとめられる。その際、これら複数のブロックは、個々のブロックに対して適用される符号テーブルに基づき、エントロピー符号化される。
本発明による方法によれば、ブロックを反復処理を通して、距離値に基づき複数のクラスタに割り当てるものであって、この距離値は、あるブロックをあるクラスタに追加したとき、クラスタのエントロピーの(絶対値の)変化もしくは増加が小さくなるにつれて、ブロックとクラスタとの距離値が小さくなるように定義されている。この場合、反復処理における個々の反復ステップごとに、クラスタに対するブロックの再割り当てを行うのであるが、この再割り当ての際に、クラスタに対するブロックの距離値が最小のクラスタに、ブロックがそれぞれ割り当てられるようにする。ブロックと、このブロックが目下割り当てられているクラスタとの距離値は、このブロックとこのクラスタとの距離値を、このブロックを含めずに算出するようにして求められる。
エントロピーの上述の概念は、当業者にはよく知られている。エントロピーは、1つのクラスタ内で用いられている、アルファベットから成るシンボルを表す複数のキャラクタの平均情報量に対する尺度である。複数のシンボルsの集合から成る全体でn個のキャラクタを含む1つまたは複数のブロックから成るクラスタに対するエントロピーは、次式のように定義される:
Figure 2015523024
ここでETはエントロピーを表し、クラスタ中に出現するシンボルsが合計される。ただしf(s)は、クラスタ中の対応するシンボルsの頻度を表す。
本発明による方法によれば、反復処理を通して決定されたクラスタに、それぞれ1つの符号テーブルが割り当てられる。この符号テーブルは、個々のクラスタ中に含まれる複数のブロックの少なくとも一部におけるシンボルの頻度分布に基づき、特に個々のクラスタ中に含まれるすべてのブロックにおけるシンボルの頻度分布に基づき規定され、個々のクラスタのすべてのブロックに適用される。
本発明による方法によれば、適切なエントロピーベースの距離値を介して、頻度分布が類似している複数のブロックがクラスタにまとめられ、その結果、適切に規定された符号テーブルを介して、1つのクラスタにおける複数のブロックに対して、無損失のエントロピー符号化が高圧縮効率で達成されるようになる。本発明によれば、従来技術により知られているk平均アルゴリズムに依拠する反復処理に基づきクラスタリングが達成されるが、データ符号化の分野においてエントロピーベースの距離値とともにk平均アルゴリズムが用いられるのは初めてである。
本発明による方法の格別有利な実施形態によれば、反復処理は次のようにして初期化される。すなわち、それぞれ1つのブロックから成る複数のクラスタが決定され、ついで残りのブロックすなわちまだいずれのクラスタにも割り当てられていないブロックが、そのブロックとクラスタとの距離値が最小のクラスタにそれぞれ割り当てられる。この場合、複数のクラスタはk個のクラスタに相応する(k≧2)。ここでkは、形成すべきクラスタについて予め定められた定数であり、したがって符号テーブルの個数と一致する。
反復処理の上述の初期化に関する1つの簡単な実施形態によれば、それぞれ1つのブロックから成る複数のクラスタがランダムに決定される。ただし別の選択肢として、またはこれに加えて、以下のようにすることも可能である。すなわち最初にデータストリーム中、エントロピーが最小のブロックが決定され、このブロックから成る1つのクラスタが形成される。次に、既存のクラスタまでの最小距離値が最大であるブロックがステップごとに決定され、この決定されたブロックのために、この決定されたブロックから成るさらに別のクラスタが形成されことが、それぞれ1つのブロックから成る上記の個数のクラスタが生成されるまで行われる。
本発明による方法のさらに別の実施形態によれば、各反復ステップごとに、すべてのクラスタのエントロピーの和として総エントロピーが算出され、個々の反復ステップにおいて算出された総エントロピーと、先行の反復ステップにおいて算出された総エントロピーとの差が、予め定められた閾値よりも小さければ、反復処理が中止される。これに加えて、または択一的に、反復ステップの最大回数を反復処理の中止判定基準として設定することができ、この場合、反復ステップの最大回数を超えると、反復処理が中止される。
本発明による方法において実施される、符号テーブルを用いたエントロピー符号化を、任意の無損失符号化法に依拠させることができる。1つの有利な実施形態によれば、エントロピー符号化はそれ自体公知のハフマン符号化である。
本発明による方法を、任意のデータストリームの符号化に利用することができる。本発明の1つの実施形態によれば、データストリームには、ソフトウェア更新データが含まれており、たとえば移動電話のためのソフトウェア更新データが含まれている。これらのデータによって、対応する機器のソフトウェアを最新の状態にすることができる。その際、ソフトウェア更新データには、以前のソフトウェアと新たな最新のソフトウェアとの差分が、ソフトウェア更新データに含まれるようにすると有利である。
本発明は上述の符号化方法のほか、データストリームを符号化するための符号化装置にも関する。この場合、データストリームには、アルファベットから成るシンボルを表す複数のキャラクタが含まれており、データストリーム中のこれらのキャラクタが複数のブロックにまとめられる。この符号化装置は、個々のブロックに適用される符号テーブルに基づき、ブロックをエントロピー符号化するために設けられている。
本発明による符号化装置には、距離値に基づき反復処理を通して、ブロックを複数のクラスタに割り当てるための第1手段が設けられている。ただし距離値は、あるブロックをあるクラスタに追加したときの、このクラスタのエントロピーの増大が小さくなるにつれて、このブロックとこのクラスタとの距離値が小さくなるように、定義されている。反復処理における個々の反復ステップ中、クラスタに対するブロックの再割り当てが行われるが、その際、このブロックとこのクラスタとの距離値が最小のクラスタに、このブロックがそれぞれ割り当てられるようにする。さらに符号化装置には、反復処理を通して決定されたクラスタに、それぞれ1つの符号テーブルを割り当てられるための第2手段が設けられている。その際、第2手段によって符号テーブルは、個々のクラスタ中に含まれる複数のブロックの少なくとも一部におけるシンボルの頻度分布に基づき、特に個々のクラスタ中に含まれるすべてのブロックにおけるシンボルの頻度分布に基づき規定され、かつ、個々のクラスタのすべてのブロックに適用される。
有利には本発明による符号化装置は、本発明による方法に関する1つまたは複数の有利な実施形態をこの符号化装置によって実施できるように構成されている。
さらに本発明は、データストリームの送信方法にも関する。この場合、データストリームは、本発明による上述の方法によって符号化される。ついで、符号化されたデータストリームと、複数のクラスタのために適切に規定された符号テーブルと、これらの符号テーブルがいずれのブロックに適用されるのかの情報とが、送信される。
さらに本発明は、データストリームを送信するための送信装置にも関する。この送信装置には、上述の本発明による符号化装置と、この符号化装置によって符号化されたデータストリーム、および複数のクラスタのための符号テーブル、ならびにこれらの符号テーブルがいずれのブロックに適用されるのかの情報を送信するための手段とが設けられている。
さらに本発明は、データストリームの伝送方法にも関する。この場合、データストリームは、上述の本発明による送信方法によって送信され、受信装置により受信される。この受信装置は、複数のクラスタのための符号テーブルと、これらの符号テーブルがいずれのブロックに適用されるのかの情報とを用いて、符号化されたデータストリームを復号化する。
さらに本発明は、データストリームの伝送装置にも関する。この伝送装置には、データストリームを送信するための上述の本発明による送信装置と、受信装置とが含まれている。この受信装置は、符号化されたデータストリーム、および複数のクラスタのための符号テーブル、ならびにこれらの符号テーブルをいずれのブロックに適用するのかの情報を受信するための受信手段を備えている。受信装置にはさらに、符号テーブルと、これらの符号テーブルをいずれのブロックに適用するのかの情報とを用いて、符号化されているデータストリームを復号化するための復号化装置も設けられている。
次に、添付の図面を参照しながら本発明の実施例について説明する。
本発明による方法において実施されるクラスタの決定について示す図 本発明による方法に基づき、データストリームが送信装置により符号化されて送信され、ついで受信装置により受信されて復号化されるシステムを示す図
ここで説明する本発明による方法の実施形態によれば、アルファベット(例えばASCIIシンボル)から成るシンボルとして多数のキャラクタを表すデータストリームが、損失のないエントロピー符号化によって符号化される。符号化にあたり、データストリーム中で相前後する複数のキャラクタがブロックとしてまとめられ、各ブロックは対応する符号テーブルによってエントロピー符号化される。その際に各ブロックの符号テーブルを介して、シンボルの頻度分布に基づき対応する符号ワードがシンボルに割り当てられる。つまり対応するブロックにおいて、あるシンボルの頻度が少なければ少ないほど、符号ワードが短くなる。損失のないこのようなエントロピー符号化自体は、従来技術で知られているものであり、有利な実施形態ではハフマン符号化が適用される。本発明において重要であるのは、類似した頻度分布をもつ複数のブロックが、適切な手法でクラスタとしてまとめられ、常に個々のクラスタごとにしか符号テーブルが作成されないことである。このようにすれば、効率的な符号化を最大の圧縮率で達成することができる。
次に図1を参照しながら、データストリームの個々のブロックとクラスタとの対応づけについて説明する。入力量として、シンボルSの形態で対応するキャラクタを含むデータストリームDSが処理され、それらのシンボルSは複数のブロックBとしてまとめられている。ここで説明する方法においては、相応の距離値dとエントロピーETとが考慮され、後述するように、これらを介してブロックとクラスタとの対応づけが行われる。ブロックとクラスタとの対応づけは、従来技術から公知のk平均アルゴリズムに依拠しており、このアルゴリズムが初めてエントロピー符号化の分野において、エントロピーに依存する特別な距離値に基づき使用される。
一般にk平均アルゴリズムの目標は、各オブジェクトからそれらの個々のクラスタの重心までの距離の和を最小化することである。この目的で、複数の反復ステップにおいて各オブジェクトが、重心が最も近くにあるクラスタに対応づけられる。各反復ステップが終了するたびに、クラスタ重心(クラスタにおける対応するオブジェクトの平均値)が新たに計算される。この目的で、適切な距離の定義が必要とされる。本発明による方法によれば、符号化すべきデータストリーム中の対応するブロックによってオブジェクトが表現され、そして、距離が、あるブロックがクラスタに追加されるときのそのクラスタにおけるエントロピーの値の増加に基づいて、定義される。その際、このようなエントロピーに基づく距離関数を用いることによって、類似したシンボル頻度分布をもつブロックがまとめられので、1つのクラスタの複数のブロックのために同じ符号テーブルが使用されることから、きわめて良好な圧縮が行われるようになる。
ブロックもしくはクラスタのエントロピーは、従来技術においてよく知られている値であり、ブロックもしくはクラスタ内の相応のシンボルの圧縮率の下方限界を表している。エントロピー値が高い場合、ブロックもしくはクラスタ中に現れるすべてのシンボルの頻度は類似している。これに対しエントロピー値が低い場合、大きい頻度は僅かなシンボルでしか発生しない。
数学的には、それぞれ対応する1つのシンボルsによって表されているn個のキャラクタから成るブロックもしくはクラスタのエントロピーETは、そのブロックもしくはクラスタ中に含まれるシンボルsの頻度f(s)に基づき、以下のように記述することができる:
Figure 2015523024
上記の式および以下では、logは2を底とする対数である。この場合、ブロックもしくはクラスタにおいて現れるすべてのシンボルsが加算される。上記の式と等価なものとして、エントロピーを以下のように記述することもできる;
Figure 2015523024
ここで、nb個のキャラクタを有するブロックbが、nc個のキャラクタを有するクラスタcに追加されると、組み合わせのエントロピーが、以下の値だけ増大する:
Figure 2015523024
Figure 2015523024
は、ブロックb内のブロックbで出現する相応のシンボルSbの頻度に対応し、
Figure 2015523024
は、クラスタc内のブロックbで出現する相応のシンボルの頻度に対応する。
ここで、
Figure 2015523024
が成り立つとき、上記の式の最後の項がなくなる。上記の値δc,bは、ブロックbがクラスタcに追加されたときのクラスタcのエントロピーの変化を表しており、特許請求の範囲に記載されているような距離値の1つの実施形態である。図1において、距離値は参照符号dによって表されている。ここで述べた距離値δc,bは、あとで説明するk平均アルゴリズムによる反復処理において用いられる。
図1によれば、k平均アルゴリズムに依拠する反復処理ITが実際に行われる前に、ステップS1およびS2において適切な初期化が実行される。予め定められたk個の作成すべき符号テーブルに基づき、最初に初期化の第1ステップS1において、それぞれ単一のブロックから成るk個のクラスタが形成される。ここで説明する実施形態の場合にはその際に、上述の距離値δc,bに従って互いにかなり離れて位置するブロックが探索される。この場合、データストリーム中、最小のエントロピーを有するブロックが最初に探索される。このブロックによって第1クラスタが形成される。その後、(k―1)回、すでに形成された各クラスタに対して最小間隔が最大であるブロックが探索される。このブロックから新たなクラスタが形成される。
ここで述べたステップS1について、および以降のステップについても、以下では適切な疑似コードによって表す。なお、それらの疑似コード中のコメントを、二本のスラッシュで表す。疑似コード中の値entropy (b)は、上記の通り定義された相応のブロックbのエントロピーETに対応する。同様に、distance (b, c)は、上記の通り定義されたブロックbとクラスタcとの間の距離値dもしくはδc,bに対応する。
上記のステップS1の疑似コードは以下の通りである:
Figure 2015523024
Figure 2015523024
このようにしてステップS1の実行後、それぞれ1つのブロックを含むk個のクラスが生成される。ついでステップS2において、まだクラスタに割り当てられていない残りの各ブロックが、それら個々のブロックまでの距離値が最小のクラスタに割り当てられる。これは以下の疑似コードに基づき行われる:
Figure 2015523024
そしてステップS2に続いて、本来の反復処理ITが行われる。この場合、反復ステップ各々において、クラスタに対するブロックの再割り当てが実行され、この再割り当ては、エントロピーベースの距離値に基づき、最も近いクラスタを決定して、そのブロックをそのクラスタ中へ移動させることによって行われる。ここで、ブロックとそのブロックが目下存在しているクラスタとの間の距離値を求めるために、そのクラスタからそのブロックを取り出して、そのブロックとそのクラスタとの距離値が求められる。個々の反復ステップの実行後は、各クラスタが変更されてしまい、その結果として、次の反復ステップにおいて、ブロックのクラスタへの割り当てにおいて差異が発生する可能性がある。
クラスタに対するブロックの反復的な再割り当てを、以下の疑似コードによって表すことができる。これによれば以下に示すwhileループは、変数changeが状態trueにセットされるまで続けられる:
Figure 2015523024
上記の疑似コードによれば、個々の反復ステップにおいて決定されたすべてのクラスタのエントロピーの和によって、総エントロピーが求められる。ここでnew_entropyは、目下の反復ステップにおいて求められた総エントロピーを表し、old_entropyは、先行の反復ステップにおいて求められた総エントロピーを表す。図1では参照符号TEが付されている、目下の反復ステップにおいて求められたエントロピーは、反復処理ITの中止判定基準として用いられ、このことは矢印Pによって表されている。この目下のエントロピーが、先行の反復ステップによる総エントロピーに対し、まえもって定められた閾値(疑似コードでは"epsilon"と称されている)よりも僅かにしか隔たっていなければ、反復処理ITは終了する。なぜならば、総エントロピーにおいて変化が生じておらず、もしくは僅かな変化しか生じていないからである。別の中止判定基準として上記の疑似コードによれば、最大反復回数max_iterが用いられる。最大反復回数を超えると、同様に反復処理ITが中止される。
上述の方法の結果としてk個のクラスタが得られ、これらは図1では参照符号CLで表されている。この場合、各クラスタに対し、データストリームから相応のブロックが割り当てられている。同じクラスタに属するすべてのブロックは、同じ符号テーブルによってエントロピー符号化される。そのため、本発明による方法の次のステップにおいて(このステップは図1にはもはや示されていない)、個々のクラスタに属するブロック中のシンボルの頻度分布に基づき、それ自体公知の手法で符号テーブルが生成され、このテーブルは図1では全体として参照符号CTで表されている。これらの符号テーブルを用いることで、ブロック中のシンボルに符号ワードが割り当てられ、これによってデータストリームのエントロピー符号化が達成される。次に、符号化されたデータストリームを、符号テーブルおよびブロックと符号テーブルとの対応づけとともに、相応の伝送区間を介して伝送することができ、符号テーブルおよびブロックと符号テーブルとの相応の対応づけを用いることによって、受信側でデータストリームを復号化することができる。図2には、これに対応するシナリオが描かれている。
図2に示されているシステムによれば、元のデータストリームDSが符号化され、伝送区間を介して伝送され、ついでそれらが復号化される。この場合、データストリームDSが送信装置SEによって処理される。この送信装置SEには、本発明による方法を実施するための手段M1およびM2を備えた符号化装置CMが含まれている。手段M1において、相応のクラスタが上述の反復期間内で決定される。次に手段M2において、適切な符号テーブルがクラスタ中のシンボルの頻度分布に基づき規定され、対応するブロックに割り当てられる。その後、これらの符号テーブルを用いて、符号化装置CMにおいてエントロピー符号化が行われる。これによって生成された符号化されたデータストリームCDが、次に付加情報INとともに、送信装置SEの相応の送信手段SMを介して送信され、伝送区間Uを介して伝送される。送信手段SMには例えばアンテナを含めることができ、したがって符号化されたデータストリームCDおよび情報INがワイヤレスで伝達される。情報INには、適切に規定された符号テーブルならびにデータストリームのブロックと符号テーブルとの対応づけが含まれている。
データストリームCDおよび情報INは、次に受信装置REにより相応の受信手段RMを介して受信される。ワイヤレス伝送であれば、受信手段に相応の受信アンテナを設けることができる。次に復号化装置DMにおいて、情報INに含まれる符号テーブルとそれらの符号テーブルとブロックとの対応づけを利用して、符号化されたデータストリームが復号化される。そして最終的に、本来のデータストリームDSが再び取得され、これはエントロピー符号化によって損失なく再現可能である。
本発明による方法の既述の実施形態は、一連の利点を有している。適切なエントロピーベースの距離値によって、データストリームにおける符号化すべきブロックを、類似したシンボル頻度分布をもつクラスタにまとめることができる。このようにして、各クラスタについて規定された相応の符号テーブルを介して、データストリームの効率的なエントロピー符号化を達成することができる。この場合、クラスタは、データ符号化の分野ではこれまで用いられていなかったk平均法に依拠して決定される。まえもって生成された符号テーブルセットを用いてデータストリームを符号化する従来の方法に比べて、いっそう改善された圧縮結果を達成することができる。
本発明は、データストリームの符号化方法、対応する符号化装置および送信装置に関する。この場合、データストリームには多数のキャラクタが含まれており、これらのキャラクタはアルファベットから成るシンボルを表す。さらに本発明は、データストリームの伝送方法および伝送装置にも関する。
従来技術から、データストリームを損失なくいわゆるエントロピー符号化によって圧縮することが知られている。この場合、データストリームにおいていっそう高い頻度で現れるシンボルには、いっそう短い符号が割り当てられるので、符号化されたデータストリームの全長が低減される。相応のシンボルと符号との対応づけは、シンボルに対応する符号が割り振られた符号テーブルに基づき行われる。シンボルの頻度は、データストリーム中の種々のセクションにおいてそれぞれ異なる可能性があるので、データストリームの種々のセクションもしくはブロックのために、場合によってはそれぞれ異なる符号テーブルを使用することができる。ただし、データストリームを復号化するための符号テーブルを対応する復号化器に伝送する必要があるので、テーブル数を適切に制限するのが望ましい。このため、制限された個数の符号テーブルを用いて、データストリームの効率的な符号化を実現する要求が存在する。
Farshid Golchin等による文献"Minimum-entropy cluster-ing and ist application to lossless image coding", PROC. OF INT. CONF. ON IMAGE PROCESSING, Bd. 2, 1997年10月26日、第262〜265頁に開示されているエントロピー符号化によれば、符号化すべきブロックが反復的にクラスタに割り当てられる。この場合、クラスタへの割り当ては、個々のクラスタのエントロピーができるかぎり小さくなるようにして行われる。個々のクラスタに属するブロックは、個々のクラスタ内のシンボルの確率分布に基づきエントロピー符号化される。
発明の課題は、符号テーブルを使用しながら、データストリームを損失なく高い圧縮率で符号化することにある。
この課題は、独立請求項に記載された特徴により解決される。従属請求項には、本発明の実施形態が記載されている。
本発明による方法は、アルファベットから成るシンボルを表す複数のキャラクタを含むデータストリームを符号化するために用いられる。たとえばそれらのキャラクタを相応のASCIIシンボルとすることができ、これはデータストリーム中、適切なビットシーケンスを介して表現される。データストリーム中のキャラクタは、データストリームにおいて相前後して続く複数のキャラクタから成る複数のブロックとしてまとめられる。その際、これら複数のブロックは、個々のブロックに対して適用される符号テーブルに基づき、エントロピー符号化される。
本発明による方法によれば、ブロックを反復処理を通して、距離値に基づき複数のクラスタに割り当てるものであって、この距離値は、あるブロックをあるクラスタに追加したとき、クラスタのエントロピーの(絶対値の)変化もしくは増加が小さくなるにつれて、ブロックとクラスタとの距離値が小さくなるように定義されている。この場合、反復処理における個々の反復ステップごとに、クラスタに対するブロックの再割り当てを行うのであるが、この再割り当ての際に、クラスタに対するブロックの距離値が最小のクラスタに、ブロックがそれぞれ割り当てられるようにする。ブロックと、このブロックが目下割り当てられているクラスタとの距離値は、このブロックとこのクラスタとの距離値を、このブロックを含めずに算出するようにして求められる。
エントロピーの上述の概念は、当業者にはよく知られている。エントロピーは、1つのクラスタ内で用いられている、アルファベットから成るシンボルを表す複数のキャラクタの平均情報量に対する尺度である。複数のシンボルsの集合から成る全体でn個のキャラクタを含む1つまたは複数のブロックから成るクラスタに対するエントロピーは、次式のように定義される:
Figure 2015523024
ここでETはエントロピーを表し、クラスタ中に出現するシンボルsが合計される。ただしf(s)は、クラスタ中の対応するシンボルsの頻度を表す。
本発明による方法によれば、反復処理を通して決定されたクラスタに、それぞれ1つの符号テーブルが割り当てられる。この符号テーブルは、個々のクラスタ中に含まれる複数のブロックの少なくとも一部におけるシンボルの頻度分布に基づき、特に個々のクラスタ中に含まれるすべてのブロックにおけるシンボルの頻度分布に基づき規定され、個々のクラスタのすべてのブロックに適用される。
本発明による方法によれば、適切なエントロピーベースの距離値を介して、頻度分布が類似している複数のブロックがクラスタにまとめられ、その結果、適切に規定された符号テーブルを介して、1つのクラスタにおける複数のブロックに対して、無損失のエントロピー符号化が高圧縮効率で達成されるようになる。本発明によれば、従来技術により知られているk平均アルゴリズムに依拠する反復処理に基づきクラスタリングが達成されるが、データ符号化の分野においてエントロピーベースの距離値とともにk平均アルゴリズムが用いられるのは初めてである。
本発明によれば、反復処理は次のようにして初期化される。すなわち、それぞれ1つのブロックから成る複数のクラスタが決定され、ついで残りのブロックすなわちまだいずれのクラスタにも割り当てられていないブロックが、そのブロックとクラスタとの距離値が最小のクラスタにそれぞれ割り当てられる。この場合、複数のクラスタはk個のクラスタに相応する(k≧2)。ここでkは、形成すべきクラスタについて予め定められた定数であり、したがって符号テーブルの個数と一致する。
本発明の一部ではないが、反復処理の上述の初期化に関する1つの簡単な変形によれば、それぞれ1つのブロックから成る複数のクラスタがランダムに決定される。本発明によれば、最初にデータストリーム中、エントロピーが最小のブロックが決定され、このブロックから成る1つのクラスタが形成される。次に、既存のクラスタまでの最小距離値が最大であるブロックがステップごとに決定され、この決定されたブロックのために、この決定されたブロックから成るさらに別のクラスタが形成されことが、それぞれ1つのブロックから成る上記の個数のクラスタが生成されるまで行われる。
本発明による方法の1つの実施形態によれば、各反復ステップごとに、すべてのクラスタのエントロピーの和として総エントロピーが算出され、個々の反復ステップにおいて算出された総エントロピーと、先行の反復ステップにおいて算出された総エントロピーとの差が、予め定められた閾値よりも小さければ、反復処理が中止される。これに加えて、または択一的に、反復ステップの最大回数を反復処理の中止判定基準として設定することができ、この場合、反復ステップの最大回数を超えると、反復処理が中止される。
本発明による方法において実施される、符号テーブルを用いたエントロピー符号化を、任意の無損失符号化法に依拠させることができる。1つの有利な実施形態によれば、エントロピー符号化はそれ自体公知のハフマン符号化である。
本発明による方法を、任意のデータストリームの符号化に利用することができる。本発明の1つの実施形態によれば、データストリームには、ソフトウェア更新データが含まれており、たとえば移動電話のためのソフトウェア更新データが含まれている。これらのデータによって、対応する機器のソフトウェアを最新の状態にすることができる。その際、ソフトウェア更新データには、以前のソフトウェアと新たな最新のソフトウェアとの差分が、ソフトウェア更新データに含まれるようにすると有利である。
本発明は上述の符号化方法のほか、データストリームを符号化するための符号化装置にも関する。この場合、データストリームには、アルファベットから成るシンボルを表す複数のキャラクタが含まれており、データストリーム中のこれらのキャラクタが複数のブロックにまとめられる。この符号化装置は、個々のブロックに適用される符号テーブルに基づき、ブロックをエントロピー符号化するために設けられている。
本発明による符号化装置には、距離値に基づき反復処理を通して、ブロックを複数のクラスタに割り当てるための第1手段が設けられている。ただし距離値は、あるブロックをあるクラスタに追加したときの、このクラスタのエントロピーの増大が小さくなるにつれて、このブロックとこのクラスタとの距離値が小さくなるように、定義されている。反復処理における個々の反復ステップ中、クラスタに対するブロックの再割り当てが行われるが、その際、このブロックとこのクラスタとの距離値が最小のクラスタに、このブロックがそれぞれ割り当てられるようにする。さらに符号化装置には、反復処理を通して決定されたクラスタに、それぞれ1つの符号テーブルを割り当てられるための第2手段が設けられている。その際、第2手段によって符号テーブルは、個々のクラスタ中に含まれる複数のブロックの少なくとも一部におけるシンボルの頻度分布に基づき、特に個々のクラスタ中に含まれるすべてのブロックにおけるシンボルの頻度分布に基づき規定され、かつ、個々のクラスタのすべてのブロックに適用される。本発明による符号化装置は、本発明による方法を実施するように構成されている。
有利には本発明による符号化装置は、本発明による方法に関する1つまたは複数の有利な実施形態をこの符号化装置によって実施できるように構成されている。
さらに本発明は、データストリームの送信方法にも関する。この場合、データストリームは、本発明による上述の方法によって符号化される。ついで、符号化されたデータストリームと、複数のクラスタのために適切に規定された符号テーブルと、これらの符号テーブルがいずれのブロックに適用されるのかの情報とが、送信される。
さらに本発明は、データストリームを送信するための送信装置にも関する。この送信装置には、上述の本発明による符号化装置と、この符号化装置によって符号化されたデータストリーム、および複数のクラスタのための符号テーブル、ならびにこれらの符号テーブルがいずれのブロックに適用されるのかの情報を送信するための手段とが設けられている。
さらに本発明は、データストリームの伝送方法にも関する。この場合、データストリームは、上述の本発明による送信方法によって送信され、受信装置により受信される。この受信装置は、複数のクラスタのための符号テーブルと、これらの符号テーブルがいずれのブロックに適用されるのかの情報とを用いて、符号化されたデータストリームを復号化する。
さらに本発明は、データストリームの伝送装置にも関する。この伝送装置には、データストリームを送信するための上述の本発明による送信装置と、受信装置とが含まれている。この受信装置は、符号化されたデータストリーム、および複数のクラスタのための符号テーブル、ならびにこれらの符号テーブルをいずれのブロックに適用するのかの情報を受信するための受信手段を備えている。受信装置にはさらに、符号テーブルと、これらの符号テーブルをいずれのブロックに適用するのかの情報とを用いて、符号化されているデータストリームを復号化するための復号化装置も設けられている。
次に、添付の図面を参照しながら本発明の実施例について説明する。
本発明による方法において実施されるクラスタの決定について示す図 本発明による方法に基づき、データストリームが送信装置により符号化されて送信され、ついで受信装置により受信されて復号化されるシステムを示す図
ここで説明する本発明による方法の実施形態によれば、アルファベット(例えばASCIIシンボル)から成るシンボルとして多数のキャラクタを表すデータストリームが、損失のないエントロピー符号化によって符号化される。符号化にあたり、データストリーム中で相前後する複数のキャラクタがブロックとしてまとめられ、各ブロックは対応する符号テーブルによってエントロピー符号化される。その際に各ブロックの符号テーブルを介して、シンボルの頻度分布に基づき対応する符号ワードがシンボルに割り当てられる。つまり対応するブロックにおいて、あるシンボルの頻度が少なければ少ないほど、符号ワードが短くなる。損失のないこのようなエントロピー符号化自体は、従来技術で知られているものであり、有利な実施形態ではハフマン符号化が適用される。本発明において重要であるのは、類似した頻度分布をもつ複数のブロックが、適切な手法でクラスタとしてまとめられ、常に個々のクラスタごとにしか符号テーブルが作成されないことである。このようにすれば、効率的な符号化を最大の圧縮率で達成することができる。
次に図1を参照しながら、データストリームの個々のブロックとクラスタとの対応づけについて説明する。入力量として、シンボルSの形態で対応するキャラクタを含むデータストリームDSが処理され、それらのシンボルSは複数のブロックBとしてまとめられている。ここで説明する方法においては、相応の距離値dとエントロピーETとが考慮され、後述するように、これらを介してブロックとクラスタとの対応づけが行われる。ブロックとクラスタとの対応づけは、従来技術から公知のk平均アルゴリズムに依拠しており、このアルゴリズムが初めてエントロピー符号化の分野において、エントロピーに依存する特別な距離値に基づき使用される。
一般にk平均アルゴリズムの目標は、各オブジェクトからそれらの個々のクラスタの重心までの距離の和を最小化することである。この目的で、複数の反復ステップにおいて各オブジェクトが、重心が最も近くにあるクラスタに対応づけられる。各反復ステップが終了するたびに、クラスタ重心(クラスタにおける対応するオブジェクトの平均値)が新たに計算される。この目的で、適切な距離の定義が必要とされる。本発明による方法によれば、符号化すべきデータストリーム中の対応するブロックによってオブジェクトが表現され、そして、距離が、あるブロックがクラスタに追加されるときのそのクラスタにおけるエントロピーの値の増加に基づいて、定義される。その際、このようなエントロピーに基づく距離関数を用いることによって、類似したシンボル頻度分布をもつブロックがまとめられので、1つのクラスタの複数のブロックのために同じ符号テーブルが使用されることから、きわめて良好な圧縮が行われるようになる。
ブロックもしくはクラスタのエントロピーは、従来技術においてよく知られている値であり、ブロックもしくはクラスタ内の相応のシンボルの圧縮率の下方限界を表している。エントロピー値が高い場合、ブロックもしくはクラスタ中に現れるすべてのシンボルの頻度は類似している。これに対しエントロピー値が低い場合、大きい頻度は僅かなシンボルでしか発生しない。
数学的には、それぞれ対応する1つのシンボルsによって表されているn個のキャラクタから成るブロックもしくはクラスタのエントロピーETは、そのブロックもしくはクラスタ中に含まれるシンボルsの頻度f(s)に基づき、以下のように記述することができる:
Figure 2015523024
上記の式および以下では、logは2を底とする対数である。この場合、ブロックもしくはクラスタにおいて現れるすべてのシンボルsが加算される。上記の式と等価なものとして、エントロピーを以下のように記述することもできる;
Figure 2015523024
ここで、nb個のキャラクタを有するブロックbが、nc個のキャラクタを有するクラスタcに追加されると、組み合わせのエントロピーが、以下の値だけ増大する:
Figure 2015523024
Figure 2015523024
は、ブロックb内のブロックbで出現する相応のシンボルSbの頻度に対応し、
Figure 2015523024
は、クラスタc内のブロックbで出現する相応のシンボルの頻度に対応する。
ここで、
Figure 2015523024
が成り立つとき、上記の式の最後の項がなくなる。上記の値δc,bは、ブロックbがクラスタcに追加されたときのクラスタcのエントロピーの変化を表しており、特許請求の範囲に記載されているような距離値の1つの実施形態である。図1において、距離値は参照符号dによって表されている。ここで述べた距離値δc,bは、あとで説明するk平均アルゴリズムによる反復処理において用いられる。
図1によれば、k平均アルゴリズムに依拠する反復処理ITが実際に行われる前に、ステップS1およびS2において適切な初期化が実行される。予め定められたk個の作成すべき符号テーブルに基づき、最初に初期化の第1ステップS1において、それぞれ単一のブロックから成るk個のクラスタが形成される。ここで説明する実施形態の場合にはその際に、上述の距離値δc,bに従って互いにかなり離れて位置するブロックが探索される。この場合、データストリーム中、最小のエントロピーを有するブロックが最初に探索される。このブロックによって第1クラスタが形成される。その後、(k―1)回、すでに形成された各クラスタに対して最小間隔が最大であるブロックが探索される。このブロックから新たなクラスタが形成される。
ここで述べたステップS1について、および以降のステップについても、以下では適切な疑似コードによって表す。なお、それらの疑似コード中のコメントを、二本のスラッシュで表す。疑似コード中の値entropy (b)は、上記の通り定義された相応のブロックbのエントロピーETに対応する。同様に、distance (b, c)は、上記の通り定義されたブロックbとクラスタcとの間の距離値dもしくはδc,bに対応する。
上記のステップS1の疑似コードは以下の通りである:
Figure 2015523024
Figure 2015523024
このようにしてステップS1の実行後、それぞれ1つのブロックを含むk個のクラスが生成される。ついでステップS2において、まだクラスタに割り当てられていない残りの各ブロックが、それら個々のブロックまでの距離値が最小のクラスタに割り当てられる。これは以下の疑似コードに基づき行われる:
Figure 2015523024
そしてステップS2に続いて、本来の反復処理ITが行われる。この場合、反復ステップ各々において、クラスタに対するブロックの再割り当てが実行され、この再割り当ては、エントロピーベースの距離値に基づき、最も近いクラスタを決定して、そのブロックをそのクラスタ中へ移動させることによって行われる。ここで、ブロックとそのブロックが目下存在しているクラスタとの間の距離値を求めるために、そのクラスタからそのブロックを取り出して、そのブロックとそのクラスタとの距離値が求められる。個々の反復ステップの実行後は、各クラスタが変更されてしまい、その結果として、次の反復ステップにおいて、ブロックのクラスタへの割り当てにおいて差異が発生する可能性がある。
クラスタに対するブロックの反復的な再割り当てを、以下の疑似コードによって表すことができる。これによれば以下に示すwhileループは、変数changeが状態trueにセットされるまで続けられる:
Figure 2015523024
上記の疑似コードによれば、個々の反復ステップにおいて決定されたすべてのクラスタのエントロピーの和によって、総エントロピーが求められる。ここでnew_entropyは、目下の反復ステップにおいて求められた総エントロピーを表し、old_entropyは、先行の反復ステップにおいて求められた総エントロピーを表す。図1では参照符号TEが付されている、目下の反復ステップにおいて求められたエントロピーは、反復処理ITの中止判定基準として用いられ、このことは矢印Pによって表されている。この目下のエントロピーが、先行の反復ステップによる総エントロピーに対し、まえもって定められた閾値(疑似コードでは"epsilon"と称されている)よりも僅かにしか隔たっていなければ、反復処理ITは終了する。なぜならば、総エントロピーにおいて変化が生じておらず、もしくは僅かな変化しか生じていないからである。別の中止判定基準として上記の疑似コードによれば、最大反復回数max_iterが用いられる。最大反復回数を超えると、同様に反復処理ITが中止される。
上述の方法の結果としてk個のクラスタが得られ、これらは図1では参照符号CLで表されている。この場合、各クラスタに対し、データストリームから相応のブロックが割り当てられている。同じクラスタに属するすべてのブロックは、同じ符号テーブルによってエントロピー符号化される。そのため、本発明による方法の次のステップにおいて(このステップは図1にはもはや示されていない)、個々のクラスタに属するブロック中のシンボルの頻度分布に基づき、それ自体公知の手法で符号テーブルが生成され、このテーブルは図1では全体として参照符号CTで表されている。これらの符号テーブルを用いることで、ブロック中のシンボルに符号ワードが割り当てられ、これによってデータストリームのエントロピー符号化が達成される。次に、符号化されたデータストリームを、符号テーブルおよびブロックと符号テーブルとの対応づけとともに、相応の伝送区間を介して伝送することができ、符号テーブルおよびブロックと符号テーブルとの相応の対応づけを用いることによって、受信側でデータストリームを復号化することができる。図2には、これに対応するシナリオが描かれている。
図2に示されているシステムによれば、元のデータストリームDSが符号化され、伝送区間を介して伝送され、ついでそれらが復号化される。この場合、データストリームDSが送信装置SEによって処理される。この送信装置SEには、本発明による方法を実施するための手段M1およびM2を備えた符号化装置CMが含まれている。手段M1において、相応のクラスタが上述の反復期間内で決定される。次に手段M2において、適切な符号テーブルがクラスタ中のシンボルの頻度分布に基づき規定され、対応するブロックに割り当てられる。その後、これらの符号テーブルを用いて、符号化装置CMにおいてエントロピー符号化が行われる。これによって生成された符号化されたデータストリームCDが、次に付加情報INとともに、送信装置SEの相応の送信手段SMを介して送信され、伝送区間Uを介して伝送される。送信手段SMには例えばアンテナを含めることができ、したがって符号化されたデータストリームCDおよび情報INがワイヤレスで伝達される。情報INには、適切に規定された符号テーブルならびにデータストリームのブロックと符号テーブルとの対応づけが含まれている。
データストリームCDおよび情報INは、次に受信装置REにより相応の受信手段RMを介して受信される。ワイヤレス伝送であれば、受信手段に相応の受信アンテナを設けることができる。次に復号化装置DMにおいて、情報INに含まれる符号テーブルとそれらの符号テーブルとブロックとの対応づけを利用して、符号化されたデータストリームが復号化される。そして最終的に、本来のデータストリームDSが再び取得され、これはエントロピー符号化によって損失なく再現可能である。
本発明による方法の既述の実施形態は、一連の利点を有している。適切なエントロピーベースの距離値によって、データストリームにおける符号化すべきブロックを、類似したシンボル頻度分布をもつクラスタにまとめることができる。このようにして、各クラスタについて規定された相応の符号テーブルを介して、データストリームの効率的なエントロピー符号化を達成することができる。この場合、クラスタは、データ符号化の分野ではこれまで用いられていなかったk平均法に依拠して決定される。まえもって生成された符号テーブルセットを用いてデータストリームを符号化する従来の方法に比べて、いっそう改善された圧縮結果を達成することができる。

Claims (14)

  1. データストリーム(DS)の符号化方法であって、
    前記データストリーム(DS)は、アルファベットから成るシンボル(S)である複数のキャラクタを含み、前記データストリーム(DS)の前記キャラクタは、複数のブロック(B)にまとめられており、前記ブロック(B)は、個々のブロック(B)ごとに適用される符号テーブル(CT)に基づき、エントロピー符号化される、
    データストリーム(DS)の符号化方法において、
    ・前記複数のブロック(B)を、距離値(d)に基づき反復処理(IT)を通して、複数のクラスタ(CL)に割り当て、ただし前記距離値(d)は、あるブロック(BL)をあるクラスタ(CL)に追加したときの、該クラスタ(CL)のエントロピー(ET)の変化が小さくなるにつれて、該ブロック(B)と該クラスタ(CL)との距離値(d)が小さくなるように、定義されており、前記各ブロックは、ブロックとクラスタとの距離値(d)が最小のクラスタに、ブロックがそれぞれ割り当てられるように、前記反復処理(IT)の各反復ステップのたびに、前記各クラスタ(CL)に対して再割り当てされ、
    ・前記反復処理(IT)を通して決定されたクラスタ(CL)に、それぞれ1つの符号テーブル(CT)を割り当てる、なお、該符号テーブル(CT)は、個々のクラスタ(CL)中に含まれる複数のブロック(B)の少なくとも一部におけるシンボル(S)の頻度分布に基づき規定され、該符号テーブル(CT)は、個々のクラスタ(CL)のすべてのブロック(B)に適用される
    ことを特徴とする、
    データストリーム(DS)の符号化方法。
  2. それぞれ1つのブロックから成る複数のクラスタ(CL)を決定し、ついで残りのブロック(B)を、該ブロック(B)とクラスタ(CL)との距離値(d)が最小となるクラスタ(CL)にそれぞれ割り当てるように、前記反復処理(IT)を初期化する、
    請求項1記載の方法。
  3. 前記反復処理(IT)の初期化において、それぞれ1つのブロック(B)から成る複数のクラスタ(CL)をランダムに決定する、
    請求項2記載の方法。
  4. 前記反復処理の初期化において、
    最初に、データストリーム(DS)中、エントロピー(ET)が最小のブロック(B)を1つ決定し、該ブロック(B)から成る1つのクラスタ(CL)を形成し、
    次に、既存のクラスタ(CL)までの最小距離値(d)が最大であるブロック(B)を漸次決定し、この決定したブロックに対し、前記複数のクラスタ(CL)がそれぞれ1つのブロックを有するまで、この決定されたブロックから成るさらに別のクラスタを形成する、
    請求項2または3記載の方法。
  5. 各反復ステップごとに、すべてのクラスタ(CL)のエントロピーの和として総エントロピー(TE)を算出し、個々の反復ステップにおいて算出された総エントロピー(TE)と、先行の反復ステップにおいて算出された総エントロピー(TE)との差が、予め定められた閾値よりも小さければ、前記反復処理(IT)を中止する、
    請求項1から4のいずれか1項記載の方法。
  6. 反復ステップの最大回数を超えたならば、前記反復処理(IT)を中止する、
    請求項1から5のいずれか1項記載の方法。
  7. 前記ブロック(B)をハフマン符号化によってエントロピー符号化する、
    請求項1から6のいずれか1項記載の方法。
  8. 前記データストリーム(DS)は、ソフトウェア更新データ、例えば移動電話用のソフトウェア更新データを含む、
    請求項1から7のいずれか1項記載の方法。
  9. データストリームを符号化するための符号化装置であって、
    前記データストリーム(DS)は、アルファベットから成るシンボル(S)である複数のキャラクタを含み、前記データストリーム(DS)の前記キャラクタは、複数のブロック(B)にまとめられており、前記符号化装置(CM)は、個々のブロック(B)ごとに適用される符号テーブル(CT)に基づき、前記ブロック(B)をエントロピー符号化するために設けられている、
    符号化装置において、
    該符号化装置(CM)は、第1手段(M1)および第2手段(M2)を含み、
    前記第1手段(M1)は、距離値(d)に基づき反復処理を通して、前記複数のブロック(B)を複数のクラスタ(CL)に割り当てるものであり、ただし前記距離値(d)は、あるブロック(BL)をあるクラスタ(CL)に追加したときの、該クラスタ(CL)のエントロピー(ET)の変化が小さくなるにつれて、該ブロック(B)と該クラスタ(CL)との距離値(d)が小さくなるように、定義されており、かつ、前記ブロック(B)は、ブロック(B)とクラスタ(CL)との距離値(d)が最小のクラスタ(CL)に、該ブロック(B)がそれぞれ割り当てられるように、前記反復処理(IT)の反復ステップごとに、前記クラスタ(CL)に対しての再割り当てが行われ、
    前記第2手段(M2)は、前記反復処理(IT)を通して決定されたクラスタ(CL)に、それぞれ1つの符号テーブル(CT)を割り当てるものであり、該符号テーブル(CT)は該第2手段(M2)によって、個々のクラスタ(CL)中に含まれる複数のブロック(B)の少なくとも一部におけるシンボル(S)の頻度分布に基づき規定され、かつ、該符号テーブル(CT)は、個々のクラスタ(CL)のすべてのブロック(B)に適用される
    ことを特徴とする、
    データストリームを符号化するための符号化装置。
  10. 請求項2から8のいずれか1項記載の方法を実施するように構成されている、請求項9記載の符号化装置。
  11. データストリーム(DS)の送信方法において、
    請求項1から8のいずれか1項記載の方法によってデータストリーム(DS)を符号化し、
    該符号化したデータストリーム(CD)と、複数のクラスタ(CL)のための符号テーブル(CT)と、該符号テーブル(CT)がいずれのブロック(B)に適用されるのかの情報とを送信する
    ことを特徴とする、
    データストリーム(DS)の送信方法。
  12. データストリーム(DS)を送信するための送信装置において、
    請求項9または10記載の符号化装置(CM)と、
    該符号化装置(CM)により符号化されたデータストリーム(CD)と、複数のクラスタ(CL)のための符号テーブル(CT)と、該符号テーブル(CT)がいずれのブロック(B)に適用されるのかの情報とを送信する手段(SM)と
    が設けられている
    ことを特徴とする、
    データストリーム(DS)を送信するための送信装置。
  13. データストリームの伝送方法において、
    前記データストリーム(DS)を、請求項11記載の方法によって送信し、受信装置(RE)により受信し、該受信装置は、複数のクラスタ(CL)のための符号テーブル(CT)と、該符号テーブル(CT)がいずれのブロック(B)に適用されるのかの情報とを用いて、符号化されたデータストリーム(CD)を復号化する
    ことを特徴とする、
    データストリームの伝送方法。
  14. データストリーム(DS)の伝送装置において、
    前記データストリーム(DS)を送信するための請求項12記載の送信装置(SE)と、受信手段(RM)および復号化装置(DM)を備えた受信装置(RE)とが設けられており、
    前記受信手段(RM)は、符合化されたデータストリーム(CD)、および複数のクラスタ(CL)のための符号テーブル(CT)、ならびに該符号テーブル(CT)がいずれのブロック(B)に適用されるのかの情報を受信し、
    前記復号化装置(DM)は、前記符号テーブル(CT)と、該符号テーブル(CT)がいずれのブロック(B)に適用されるのかの前記情報とを用いて、前記符号化されたデータストリーム(CD)を復号化する
    ことを特徴とする、
    データストリーム(DS)の伝送装置。
JP2015518931A 2012-06-27 2013-05-24 データストリームの符号化方法、送信方法、伝送方法、データストリームを符号化するための符号化装置、送信装置、および、伝送装置 Expired - Fee Related JP6005273B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102012211031A DE102012211031B3 (de) 2012-06-27 2012-06-27 Verfahren zur Codierung eines Datenstroms
DE102012211031.3 2012-06-27
PCT/EP2013/060698 WO2014001001A1 (de) 2012-06-27 2013-05-24 Verfahren zur codierung eines datenstroms

Publications (2)

Publication Number Publication Date
JP2015523024A true JP2015523024A (ja) 2015-08-06
JP6005273B2 JP6005273B2 (ja) 2016-10-12

Family

ID=48570093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015518931A Expired - Fee Related JP6005273B2 (ja) 2012-06-27 2013-05-24 データストリームの符号化方法、送信方法、伝送方法、データストリームを符号化するための符号化装置、送信装置、および、伝送装置

Country Status (6)

Country Link
US (1) US9319064B2 (ja)
EP (1) EP2823568B1 (ja)
JP (1) JP6005273B2 (ja)
DE (1) DE102012211031B3 (ja)
HU (1) HUE037553T2 (ja)
WO (1) WO2014001001A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046023A (ja) * 2017-08-31 2019-03-22 富士通株式会社 情報処理装置、情報処理方法及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9513813B1 (en) 2015-12-18 2016-12-06 International Business Machines Corporation Determining prefix codes for pseudo-dynamic data compression utilizing clusters formed based on compression ratio
CN117639792B (zh) * 2023-11-27 2024-07-26 浙江大学 一种基于码表聚类的深度学习模型压缩方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137497A (ja) * 1998-10-29 2000-05-16 Ricoh Co Ltd デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP2002533005A (ja) * 1998-12-14 2002-10-02 マイクロソフト コーポレイション 可変長から可変長へのエントロピー符号化のためのコードブック構成
JP2009501943A (ja) * 2005-07-15 2009-01-22 マイクロソフト コーポレーション 適応コーディングおよびデコーディングでの複数のエントロピモデルの選択的使用

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2840589B2 (ja) * 1996-02-09 1998-12-24 富士通株式会社 データ圧縮装置及びデータ復元装置
US6959300B1 (en) * 1998-12-10 2005-10-25 At&T Corp. Data compression method and apparatus
US7469070B2 (en) * 2004-02-09 2008-12-23 Lsi Corporation Method for selection of contexts for arithmetic coding of reference picture and motion vector residual bitstream syntax elements
US7689051B2 (en) * 2004-04-15 2010-03-30 Microsoft Corporation Predictive lossless coding of images and video
DE102005056122A1 (de) * 2005-11-23 2007-05-31 Universität Zu Lübeck Verfahren zur Kompression, Dekompression und Verarbeitung von Datensätzen
US8112624B2 (en) * 2006-11-29 2012-02-07 Red Hat, Inc. Method and system for certificate revocation list compression
US8305244B2 (en) * 2007-04-16 2012-11-06 Hewlett-Packard Development Company, L.P. Coding data using different coding alphabets
US7791513B2 (en) * 2008-10-06 2010-09-07 Donald Martin Monro Adaptive combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems
US8588178B2 (en) * 2009-03-19 2013-11-19 Qualcomm Incorporated Adaptive association and joint association and resource partitioning in a wireless communication network
US8633838B2 (en) * 2010-01-15 2014-01-21 Neverfail Group Limited Method and apparatus for compression and network transport of data in support of continuous availability of applications
EP2614592B1 (en) * 2010-09-09 2018-06-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Entropy encoding and decoding scheme

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137497A (ja) * 1998-10-29 2000-05-16 Ricoh Co Ltd デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP2002533005A (ja) * 1998-12-14 2002-10-02 マイクロソフト コーポレイション 可変長から可変長へのエントロピー符号化のためのコードブック構成
JP2009501943A (ja) * 2005-07-15 2009-01-22 マイクロソフト コーポレーション 適応コーディングおよびデコーディングでの複数のエントロピモデルの選択的使用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015050971; Farshid Golchin et al.: 'Minimum-Entropy Clustering and its Application to Lossless Image Coding' Image Processing, 1997. Proceedings., International Conference on 第2巻, 19971029, pp.262-265 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046023A (ja) * 2017-08-31 2019-03-22 富士通株式会社 情報処理装置、情報処理方法及びプログラム
JP7013732B2 (ja) 2017-08-31 2022-02-01 富士通株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
US20150162936A1 (en) 2015-06-11
WO2014001001A1 (de) 2014-01-03
HUE037553T2 (hu) 2018-09-28
DE102012211031B3 (de) 2013-11-28
EP2823568A1 (de) 2015-01-14
US9319064B2 (en) 2016-04-19
EP2823568B1 (de) 2018-02-21
JP6005273B2 (ja) 2016-10-12

Similar Documents

Publication Publication Date Title
JP7548706B2 (ja) データを圧縮する方法および装置
US20190363733A1 (en) Methods and apparatus to parallelize data decompression
JP4786796B2 (ja) 周波数領域オーディオ符号化のためのエントロピー符号モード切替え
JP5221047B2 (ja) 圧縮率の向上のために改善されたコンテキストモデル選択を使用するcabac符号化方法及び装置、並びにcabac復号化方法及び装置
JP4801776B2 (ja) データ圧縮
US7623047B2 (en) Data sequence compression
CN106560010B (zh) Vlsi高效霍夫曼编码设备和方法
US20110181448A1 (en) Lossless compression
CN116151740B (zh) 一种库存交易数据过程安全管理系统及云平台
JP6045123B2 (ja) エンコーダ、デコーダ及び方法
US6919826B1 (en) Systems and methods for efficient and compact encoding
US10749546B1 (en) Method and system of content based dynamic data compression
KR20150092585A (ko) 이진 영상에 기반한 유전체 데이터 압축 방법 및 장치
JP6005273B2 (ja) データストリームの符号化方法、送信方法、伝送方法、データストリームを符号化するための符号化装置、送信装置、および、伝送装置
CN114614829A (zh) 卫星数据帧的处理方法、装置、电子设备和可读存储介质
CN108880559B (zh) 数据压缩方法、数据解压缩方法、压缩设备及解压缩设备
US20100085219A1 (en) Combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems
JP2015534795A (ja) セキュアで損失のないデータ圧縮
CN111274950B (zh) 特征向量数据编解码方法及服务器和终端
KR100636370B1 (ko) 결정 비트를 이용한 부호화 장치 및 그 방법과 그에 따른복호화 장치 및 그 방법
CN103746701A (zh) 一种用于Rice无损数据压缩的快速编码选项选择方法
KR20160106229A (ko) 문맥기반 분포데이터의 블럭화를 이용한 허프만 부호화의 효율화 방법 및 그 장치
KR101549740B1 (ko) 이진 데이터의 압축 및 압축해제 방법과 장치
EP2485420A1 (en) Data transmitting apparatus, data generating program and data transmitting/receiving method
CN112749139B (zh) 日志文件处理方法、电子设备及存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160906

R150 Certificate of patent or registration of utility model

Ref document number: 6005273

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees