JP2014515228A - データ識別子を符号化する方法 - Google Patents

データ識別子を符号化する方法 Download PDF

Info

Publication number
JP2014515228A
JP2014515228A JP2014504238A JP2014504238A JP2014515228A JP 2014515228 A JP2014515228 A JP 2014515228A JP 2014504238 A JP2014504238 A JP 2014504238A JP 2014504238 A JP2014504238 A JP 2014504238A JP 2014515228 A JP2014515228 A JP 2014515228A
Authority
JP
Japan
Prior art keywords
data
data identifier
network
identifiers
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014504238A
Other languages
English (en)
Inventor
シユバン,ニコ
シヤンブハグ,シヤシヤーンク
リマク,イフイカ
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2014515228A publication Critical patent/JP2014515228A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/74Address processing for routing
    • H04L45/745Address table lookup; Address filtering
    • H04L45/7453Address table lookup; Address filtering using hashing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/70Type of the data to be coded, other than image and sound
    • H03M7/705Unicode

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本発明は、データ識別子を符号化する方法と、データネットワークのネットワークユニットと、上記の方法を実行するためのコンピュータプログラム製品とに関する。データ識別子は、データネットワークの複数のデータ識別子のうちの1つである。各データ識別子は文字列から成る。複数のデータ識別子の定義された構成要素について複数のデータ識別子内の発生頻度を示す発生確率テーブルが設けられる。各構成要素は、複数のデータ識別子の1つまたは複数の特性に基づいて定義される。データ識別子は、発生確率テーブルに基づき、可変長符号化アルゴリズムに従って符号化される。

Description

本発明は、データ識別子を符号化する方法、データネットワークのネットワークユニット、および上記の方法を実行するためのコンピュータプログラム製品に関する。
インターネットなどのデータネットワーク内でのデータに対するユーザのデータ要求の経路指定は通常、データネットワーク内に配置されるネットワークユニット、特にいわゆるルータによって行われる。データ要求は、URIなどのデータ識別子、特にURL(URI=Uniform Resource Identifier、URL=Uniform Resource Locator)によって指定される。ルータは通常、ルーティングテーブルにアクセスし、データ要求を経路指定するためのインターフェースを判定する。
図1は、たとえばコンテント−セントリックネットワーキング(content−centric networking)(=CCN)で使用されるような知られているルーティングテーブルの単純な例を示す。テーブルの左側の列は、ASCIIで符号化された様々なURLを示し、テーブルの右側の列は、各データ要求を経路指定するための対応するインターフェースを示す(ASCII=American Standard Code for Information Interchange)。ASCII URLでは長さが可変であるので、従来の32ビットIPアドレス(IP=インターネットプロトコル)と比較してルーティングテーブルエントリの参照時間が長く、予測不能である。
図2は、図1の可変長URLを事前に定義されたハッシュ空間における固定長値にマップするために160ビットSHA1ハッシングが使用されている、知られている代替ルーティングテーブルの単純な例である(SHA=セキュアハッシュアルゴリズム)。このテーブルの左側の列はハッシュ化表現の図1のURLを示し、このテーブルの右側の列は、図1に対応する、各データ要求を経路指定するための対応するインターフェースを示す。ハッシュ化されたURLがランダムであるので、あらゆる集約方式が妨げられ、特にURL状の構造は保存されず、したがって、プレフィックスマッチングが妨げられる。
本発明の目的は、データ識別子の改良された符号化を提供することである。
本発明の目的は、各データ識別子が文字列から成るデータネットワークの複数のデータ識別子のうちのデータ識別子を符号化する方法であって、複数のデータ識別子の1つまたは複数の特性に基づいて定義された複数の識別子の定義された構成要素について、複数のデータ識別子内の発生頻度を示す発生確率テーブルを設けるステップと、発生確率テーブルに基づいて、可変長符号化アルゴリズムに従ってデータ識別子を符号化するステップとを含む方法によって実現される。本発明の目的は、各データ識別子が文字列から成るデータネットワークの複数のデータ識別子のうちのデータ識別子に関する要求を管理するように構成され、複数のデータ識別子の1つまたは複数の特性に基づいて定義された複数の識別子の定義された構成要素について、複数のデータ識別子内の発生頻度を示す発生確率テーブルにアクセスするようにさらに構成され、発生確率テーブルに基づいて、可変長符号化アルゴリズムに従ってデータ識別子を符号化するようにさらに構成されたデータネットワークのネットワークユニットによってさらに実現される。本発明の目的は、各データ識別子が文字列から成るデータネットワークの複数のデータ識別子のうちのデータ識別子を符号化するためのコンピュータプログラム製品であって、ネットワークユニットによって実行されたときに、複数のデータ識別子の1つまたは複数の特性に基づいて定義された複数の識別子の定義された構成要素について、複数のデータ識別子内の発生頻度を示す発生確率テーブルにアクセスするステップと、発生確率テーブルに基づいて、可変長符号化アルゴリズムに従ってデータ識別子を符号化するステップとを実行するコンピュータプログラム製品によって実現される。
本発明の一態様は、データ識別子、たとえばURLを、その構造を保存しつつ圧縮して参照速度を改善するものであり、最長のプレフィックスまたはその他の方式に基づいて集約を行う際に助けになる。
本発明は、データ識別子、たとえばURL状のコンテンツ識別子用の新しい符号化方式を構成する。本発明の各実施形態による符号化方式は、コンテンツ名を解析するのに必要なビット数を最小限に抑え、それによって参照時間を短縮する。本発明の各実施形態は、参照時間を改善することに加えて、ルータメモリをより効率的に使用するのを可能にし、同じ量のメモリ内により多くのルーティングテーブルエントリを記憶することが可能になる。
本発明の各実施形態は特に、名前ベースのルータ内のテーブルエントリの参照時間を短縮し、したがって、ルータにCCNを実装するための解決手段を実現する。本発明の各実施形態は、構造を保存しつつ参照速度を向上させるのを可能にする。これによって、最長のプレフィックスまたはその他の方式に基づく集約が可能になる。
本発明の各実施形態によって符号化されたデータ識別子によって参照速度を向上させることが可能になるが、ASCIIで符号化されたURLでは、長さがより長く(本発明の各実施形態によって符号化されたデータ識別子と比べてビットカウントが大きく)、したがって、ルーティングテーブルエントリの参照時間および次転送先解決時間がより長くなる。
ハッシュ化されたURLと比較して本発明の各実施形態によって符号化されたデータ識別子によって構造を保存することが可能になるが、ハッシュ化されたURLはランダムであるので、あらゆる集約方式が妨げられ、特にURL状の構造が保存されず、したがって、プレフィックスマッチングが妨げられる。ハッシュ化解決手段は、より効率的な符号化を実現することができるが、転送テーブルのスケーラビリティに重要な構造が失われるので集約が不可能になる。
従属クレームによって示される本発明の各実施形態によってさらなる利点が実現される。
本発明の一実施形態によれば、複数のデータ識別子の特性には以下のものが含まれる:
・複数のデータ識別子の中での文字の発生頻度。URLにおける英語の文字発生頻度が英語のアルファベット発生頻度に密接に従うことが分かっている。
・複数のデータ識別子の中での構成要素のシーケンスの発生頻度。構成要素のいくつかのシーケンスは他のシーケンスよりも頻繁に出現する。たとえば、文字シーケンス「in」は、URLでは文字シーケンス「zx」よりも頻繁に見られる。
・複数のデータ識別子の中でのデータ識別子の事前に定義された構成単位の発生頻度。データ識別子の構成単位は、階層データ識別子の場合の様々な階層レベルに関連する識別子構成要素、たとえば、URLの場合のTLD、ドメイン名、およびアンカータグ(TLD=トップレベルドメイン)であってもよい。URLの76.5%が、登録されているすべての(約300の)TLDのサブセット:com、net、de、ru、およびorgしか使用しないことが分かっている。
・データ識別子を構成する文字列における文字の平均数。平均ドメイン長は15文字である。
・データ識別子を構成するのに利用可能な互いに異なる文字の数。RFC1738によれば、URLは73個の文字(0−9、a−z、A−Z、および特殊文字$−_.+!’(),)を使用しなければ符号化できない。
・データ識別子を構成するのに利用可能な文字の種類。ある種のデータ識別子では大文字しか許容されないことがある。
・データネットワークの少なくとも一部内でのデータ識別子の使用頻度。いくつかのデータ識別子、たとえば「http://www.google.com」は、他のデータ識別子よりもインターネット内で使用される頻度が高い。
この符号化では、複数のデータ識別子におけるこれらの特性のうちの1つが使用されることも複数が使用されることもある。たとえば、TLD「com」が複数のデータ識別子の中でTLD「tl」よりもずっと頻繁に出現するならば、符号化方式によってTLD「com」に単一の符号化シンボルを割り当て、TLD「tl」を文字「t」および「l」のシーケンスとして符号化すると有利である。
本発明の実施形態によれば、データ識別子を1つまたは複数の定義された構成要素のシーケンスに分離し、データ識別子の1つまたは複数の定義された構成要素に可変長符号化アルゴリズムによるビット表現を割り当て、データ識別子の1つまたは複数の構成要素のシーケンスを割り当てられたビット表現のシーケンスに変換することによって、データ識別子が符号化される。
たとえば、URL「http://www.youtube.com/user/AIcatelLucentCorp#p/a/u/0/mr5YuTXEPI」は、インターネットにおいて比較的頻繁に出現する構成要素、たとえばドメイン名およびTLDを含み、一方、他の構成要素はそれほど頻繁に出現しない。構成要素「http://www.youtube」は、関連するデータネットワーク、すなわち、インターネットにおける発生頻度が比較的高いことが分かっているので、この構成要素に固有のシンボルを割り当てるのは妥当である。同じことが、構成要素「com」、「AIcatelLucentCorp」、およびアンカータグ「#」にも当てはまる。一方、「#」に続く文字に関するシンボル割当ては個々の文字の発生頻度に依存する。
本発明の実施形態によれば、データ識別子はURI、特にURLである。インターネットでは、URIは最も一般的なデータ識別子である。しかし、専用データネットワークでは、この代わりに別のデータ識別子タイプを使用してもよい。
本発明の実施形態によれば、可変長符号化アルゴリズムはハフマン符号化、シャノンファノ符号化、または算術符号化に基づく。データ識別子の結果として得られる表現は、2進コードであってもよく、すなわち、2つの2進数0および1を使用してもよい。
本発明の実施形態によれば、データ識別子はURLであり、定義された構成要素は、複数のURLの中で発生頻度が最高のTLD、複数のURLの中で発生頻度が最高のURL名、およびRFC1738に従って利用可能な単一の文字を含み、データ識別子は、可変長符号化アルゴリズム、好ましくはハフマン符号化に従ってビットコードに符号化される(RFC=Request for Comments)。
本発明のこの実施形態によれば、可変長符号化アルゴリズムで使用可能なシンボルを定義するのにURL特性が使用される。これらのURL特性は、URLのTLDのポピュラリティ、URLのURL名のポピュラリティ、およびURLがすべての可能な文字のサブセット(73文字)からのみ構成されることであることが好ましい。その場合、あるシンボルが発生する頻度に関する確率が各シンボルに割り当てられる。次に、可変長符号化方式、たとえばハフマン符号化が適用されてURLのビットコード表現が作成される。
本発明の別の実施形態によれば、ネットワークユニットは、符号化されたデータ識別子を発生確率テーブルに基づいてデータ識別子の元の文字列表現に復号するようにさらに構成される。ネットワークユニットが着信データ要求を受信し、本発明の方法の実施形態によってデータ要求に関連するデータ識別子を符号化し、データ識別子および関連するルーティングアドレスのリストを含むネットワークユニットのルーティングテーブルを参照することが可能である。互換性を確保するために、ルーティングテーブル内のデータ識別子は、ルータによって使用されるのと同じ符号化方法によって符号化されている。ネットワークユニットは、ルーティングテーブル内の適切なルーティングアドレスを識別した後、符号化されたデータ識別子を再度復号し、復号形式のデータ要求、すなわち最初に受信されたときの状態のデータ要求をルーティングアドレスに経路指定する。したがって、この方法がネットワークユニットの内部でのみ適用され、各ネットワークユニットがそれ自体の要件に従ってシンボルおよび確率の割当てを最適化することが可能になる。
本発明の別の実施形態によれば、ネットワークユニットはルータである。
この方法には様々な展開可能性がある:
1つの可能性は、ルータ同士の間のプロトコルがこの方法を使用し、したがって、すべてのルータが同じシンボル確率割当て方式を使用することが必要になることである。したがって、本発明の実施形態によれば、ネットワークユニットは、データネットワークのいくつかのネットワークユニットの1つとして発生確率テーブルにアクセスするように構成される。
別の展開では、この方法はルータの内部にのみ適用され、したがって、各ルータは、それ自体の要件に従ってシンボル確率割当てを最適化してもよい。したがって、本発明の実施形態によれば、ネットワークユニットは、発生確率テーブルをネットワークユニットによってのみアクセス可能なリソースとして維持するようにさらに構成される。
本発明の別の実施形態によれば、ネットワークユニットは発生確率テーブルを備える。このことは、発生確率テーブルがネットワークユニットの記憶ユニットに記憶されることを意味する。
本発明のこれらの特徴および利点ならびにさらなる特徴および利点は、例示的な実施形態についての以下の詳細な説明を添付の図面に関連して読むことによってよりよく理解されよう。
コンテント−セントリックネットワーキング(=CCN)で使用されるような知られているルーティングテーブルの単純な例を示す。 図1の可変長URLを事前に定義されたハッシュ空間における固定長値にマップするために160ビットSHA1ハッシングが使用されている、知られている代替ルーティングテーブルの単純な例である。 本発明の実施形態による発生確率テーブルを示す図である。 本発明の実施形態によるデータ識別子のハフマン符号化方式を示す図である。 本発明の実施形態によるビットコードテーブルを示す図である。 標準的なASCII URL符号化のビットカウントを示す図である。 SAH1 URL符号化のビットカウントを示す図である。 本発明の実施形態による可変長符号化のビットカウントを示す図である。 本発明の実施形態によるCCNルータの図である。
図3は、データ識別子、たとえばコンテンツ名を解析するのに必要なビットの数を最小限に抑えることを目的とする符号化方式で使用される発生確率テーブルを示す。この場合、参照時間が向上することに加えて、ルータメモリをより効率的に使用することが可能になる。その理由は、同じ量のメモリによってより多くのルーティングテーブルエントリを記憶することができるからである。
このテーブルの左側の列は、以下の特性のようなURLの特性を考慮して選択されているURLの構成要素を示す:
−文字の発生頻度
−いくつかのコンテンツ項目/ドメイン名が他のコンテンツ項目/ドメイン名よりもポピュラリティが高いことを意味する要求パターン
−大部分のURLはTLDのサブセットのみを使用して構成される。
−URLの平均長
−URLが73個の異なる文字のみから成ること。
URL長、URL文字、およびTLD分布、ドメインポピュラリティなどに関する前述の考察に基づいて、以下にURLの特性のいくつかを示す。
−平均URL長は58文字である。
−平均ドメイン長は15文字である。
−URLの76.5%が以下のTLDを有する:com、net、de、ru、およびorg
−合計で約300個のTLDがある。
−URLにおける英文字の発生頻度は、英語のアルファベット発生頻度に密接に従う。
テーブルの右側の列は、複数のURLを考慮した各構成要素の相対的な確率を示す。可変長符号化に利用可能なすべての構成要素のすべての相対的な確率の和は、右側の列の最後の行に示されているように1に等しい。可変長符号化の言語では、各構成要素は「シンボル」と呼ばれる。
図4は、発生頻度を使用する符号化アレイを示す。この例では、ハフマン符号化アレイが使用される。事前に定義された構成要素、すなわち、「x」によってマークされたシンボルは、図3の発生確率テーブルの各構成要素に対応する。各構成要素は、頻繁に使用されるTLDを含む第1のクラス41と、頻繁に使用されるドメイン名を含む第2のクラス42と、URLを作成するのに利用可能な73個の文字を含む第3のクラス43として分類されている。
各シンボルxの下に、「重み」とも呼ばれる対応する相対的な確率p(x)が示されている。二分木が、シンボルおよびそれに関連する重みから始まり、ハフマン符号化に従って生成される。図4は、この方式の右縁にある楕円形の点によって示されているように二分木全体の一部のみを示す。二分木全体は加重合計1:Σp(x)=1を与える。
図5は、図3の発生確率テーブルの構成要素(「シンボル」)のビットコードのビットコードテーブルリストを示す。より頻繁に使用される構成要素がめったに使用されない構成要素よりもビット数が少ないことは明らかである。このことは、本発明によるデータ識別子符号化方式がデータ識別子を解析するのに必要なビット数を最小限に抑え、それによって解析ネットワークユニットにおける参照時間を短縮することを示す。
このビットコードテーブルに基づいて、URLをその構成要素から再構成しビットコードとして表してもよい。たとえば、ASCII符号化されたURL「http://www.google.com」は、図5のビットコードテーブルに従って符号化されると以下のビットコード表現:「0101101000110000」を有する。
図6から図8は、2つのURLの様々な符号化によるビットカウントの比較を示す。符号化方式を適用した後の最終ビットコード表現が図示されていないことに留意されたい。その代わり、各図は、最終的な2進ビットカウントのみを示すように制限されている。可変符号化の場合、ビットカウントは、本発明の利点を示す考えられる1つの結果に過ぎない。
図6は、各々の長さが65文字である2つのURLをASCII符号化で示している。各URLはその最後の11文字のみが異なる。これらのURLの各々のビットカウントは65文字×8ビット/文字=520ビットである。ASCII符号化されたURLの利点は、集約が可能になることである。
図7は、図6の2つのURLを、ここではURLを40文字の長さまで短縮するSHA1符号化で示している。したがって、これらのURLの各々のビットカウントは40文字×8ビット/文字=320ビットである。SHA1符号化はASCII符号化と比較してビットカウントを顕著に減少させるが、SHA1符号化では集約が不可能である。
図8は、図6の2つのURLを、ここでは本発明の実施形態による可変長符号化で示している。以下の構成要素(=シンボル)の定義が使用される:
http://www=α
youtube=β
com=γ
AIcatelLucentCorp=δ
可変長符号化によってURLは32個の構成要素の長さまで短縮される。図5に示されたように、各構成要素は異なるビット長を有してもよい。したがって、単純計算の32構成要素x8ビット/構成要素=256ビットはこの場合誤りである。本発明の実施形態による可変長符号化におけるこれらのURLの各々のビットカウントは約360ビットであることを示すことができる。したがって、ビットカウントはASCII符号化と比較して少ないが、SHA1符号化と比較して多い。
本発明による可変長符号化ではSHA1符号化と比較してビットカウントがわずかに多くなるが、この可変長符号化は、データ識別子、ここではURLの構造を保存する、SHA1符号化に勝る顕著な利点を有する。
図9は、CCNデータネットワークのルータ91を示す。ルータ91は、FIB92と、コンテンツストア93と、PIT94と、3つのインターフェース95、96、97と、記憶ユニット98と、処理ユニット99(FIB=Forwarding Information Base、PIT=Pending Interest Table)とを備える。FIBは、ルーティングテーブルと同等である。ルータ91は、他のネットワークユニット71、72、73、たとえば携帯ユニット71、インターネットベースのユニット72、およびアプリケーションユニット73とルータ91のインターフェース95、96、97を介して通信するように構成される。ルータ91は、他のネットワークユニット71、72、73の各々から、データネットワークの複数のデータ識別子のうちのデータ識別子に関する要求81、82、83を受信してもよい。
ネットワークユニット91は、複数のデータ識別子の定義された構成要素について複数のデータ識別子内の発生頻度を示す発生確率テーブルにアクセスするように構成される。ネットワークユニット91が発生確率テーブルを備え、すなわち、ネットワークユニット91の記憶ユニット98に発生確率テーブルを記憶することが可能である。ネットワークユニット91がデータネットワークのいくつかのルータの1つとして好ましくは外部に配置された発生確率テーブルにアクセスすることも可能である。
ルータ91は、要求81、82、83のうちの1つを受信した後、要求に指定されたデータ識別子を判定し、発生確率テーブルに示された各構成要素に従って判定されたデータ識別子を分離する。
ルータ91は、発生確率テーブルに基づき、たとえば処理ユニット99によって、可変長符号化アルゴリズムに従ってデータ識別子を符号化する。
処理ユニット99は、1つまたは複数の相互にリンクされたコンピュータ、すなわちハードウェアプラットフォームに基づくソフトウェアプラットフォーム、ならびにソフトウェアプラットフォームおよびハードウェアプラットフォームによって形成されるシステムプラットフォームによって実行されるいくつかのアプリケーションプログラムで構成される。処理ユニット99の機能は、これらのアプリケーションプログラムを実行することによって実現される。アプリケーションプログラムまたはこれらのアプリケーションプログラムの選択された部分は、システムプラットフォーム上で実行されたときに以下に記載されたような符号化サービスを提供するコンピュータソフトウェア製品を構成する。さらに、そのようなコンピュータソフトウェア製品は、これらのアプリケーションプログラムまたはアプリケーションプログラムの上記の選択された部分を記憶する記憶媒体98によって構成される。
各データ識別子が文字列から成るデータネットワークの複数のデータ識別子のうちのデータ識別子を符号化するためのコンピュータプログラム製品は、ルータ91の処理ユニット99によって実行されたときに、複数のデータ識別子の1つまたは複数の特性に基づいて定義された複数のデータ識別子の定義された構成要素について複数のデータ識別子内の発生頻度を示す発生確率テーブルにアクセスするステップと、発生確率テーブルに基づき、可変長符号化アルゴリズムに従ってデータ識別子を符号化するステップとを実行する。
ルータ91は、符号化されたデータ識別子によって、FIB92を解析し、データ要求81、82、83の転送元になる適切なインターフェース95、96、97を判定する。ルータ91は、適切なインターフェース95、96、97を識別した後、データ要求81、82、83を識別されたインターフェース95、96、97から別のネットワークユニット71、72、73に経路指定する。

Claims (13)

  1. 各データ識別子が文字列から成るデータネットワークの複数のデータ識別子のうちのデータ識別子を符号化する方法であって、
    複数のデータ識別子の1つまたは複数の特性に基づいて定義された複数のデータ識別子の定義された構成要素について、複数のデータ識別子内の発生頻度を示す発生確率テーブルを設けるステップであって、データネットワークの発生頻度が高い構成要素に単一の符号化シンボルが割り当てられる、設けるステップと、
    発生確率テーブルに基づいて、可変長符号化アルゴリズムに従ってデータ識別子を符号化するステップとを含む、方法。
  2. 複数のデータ識別子の特性が、
    − 複数のデータ識別子の中での文字の発生頻度、
    − 複数のデータ識別子の中での構成要素のシーケンスの発生頻度、
    − 複数のデータ識別子の中でのデータ識別子の事前に定義された構成単位の発生頻度、
    − データ識別子を構成する文字列における文字の平均数、
    − データ識別子を構成するのに利用可能な互いに異なる文字の数、
    − データ識別子を構成するのに利用可能な文字の種類、および
    − データネットワークの少なくとも一部内でのデータ識別子の使用頻度を含む、請求項1に記載の方法。
  3. データ識別子を1つまたは複数の定義された構成要素のシーケンスに分離し、データ識別子の1つまたは複数の定義された構成要素に可変長符号化アルゴリズムによるビット表現を割り当て、データ識別子の1つまたは複数の構成要素のシーケンスを割り当てられたビット表現のシーケンスに変換することによって、データ識別子が符号化される、請求項1に記載の方法。
  4. データ識別子がURIである、請求項1に記載の方法。
  5. 可変長符号化アルゴリズムがハフマン符号化、シャノンファノ符号化、または算術符号化に基づく、請求項1に記載の方法。
  6. データ識別子がURLであり、定義された構成要素が、複数のURLの中で発生頻度が最高のTLD、複数のURLの中で発生頻度が最高のURL名、およびRFC1738に従って利用可能な単一の文字を含み、データ識別子は、可変長符号化アルゴリズム、好ましくはハフマン符号化に従ってビットコードに符号化される、請求項1に記載の方法。
  7. 各データ識別子が文字列から成るデータネットワークの複数のデータ識別子のうちのデータ識別子に関する要求(81、82、83)を管理するように構成され、複数のデータ識別子の1つまたは複数の特性に基づいて定義され、データネットワーク内の発生頻度が高い構成要素に単一の符号化シンボルが割り当てられる、複数のデータ識別子の定義された構成要素について、複数のデータ識別子内の発生頻度を示す発生確率テーブルにアクセスするようにさらに構成され、発生確率テーブルに基づいて、可変長符号化アルゴリズムに従ってデータ識別子を符号化するようにさらに構成された、データネットワークのネットワークユニット(91)。
  8. 発生確率テーブルに基づいて符号化されたデータ識別子を元の文字列表現に復号するようにさらに構成される、請求項7に記載のネットワークユニット(91)。
  9. ルータである、請求項7に記載のネットワークユニット(91)。
  10. 発生確率テーブルをネットワークユニット(91)によってのみアクセス可能なリソースとして維持するようにさらに構成される、請求項7に記載のネットワークユニット(91)。
  11. 発生確率テーブルを備える、請求項7に記載のネットワークユニット(91)。
  12. データネットワークのいくつかのネットワークユニットのうちの1つとして発生確率テーブルにアクセスするように構成される、請求項7に記載のネットワークユニット(91)。
  13. 各データ識別子が文字列から成るデータネットワークの複数のデータ識別子のうちのデータ識別子を符号化するためのコンピュータプログラム製品であって、ネットワークユニットによって実行されたときに、
    複数のデータ識別子の1つまたは複数の特性に基づいて定義され、データネットワークにおける発生頻度の高い構成要素に単一の符号化シンボルが割り当てられる、複数のデータ識別子の定義された構成要素について、複数のデータ識別子内の発生頻度を示す発生確率テーブルにアクセスするステップと、
    発生確率テーブルに基づいて、可変長符号化アルゴリズムに従ってデータ識別子を符号化するステップとを実行する、コンピュータプログラム製品。
JP2014504238A 2011-04-11 2012-03-28 データ識別子を符号化する方法 Pending JP2014515228A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP11290181A EP2511834A1 (en) 2011-04-11 2011-04-11 Method of encoding a data identifier
EP11290181.4 2011-04-11
PCT/EP2012/055466 WO2012139885A1 (en) 2011-04-11 2012-03-28 Method of encoding a data identifier

Publications (1)

Publication Number Publication Date
JP2014515228A true JP2014515228A (ja) 2014-06-26

Family

ID=44474997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014504238A Pending JP2014515228A (ja) 2011-04-11 2012-03-28 データ識別子を符号化する方法

Country Status (6)

Country Link
US (1) US20130311678A1 (ja)
EP (1) EP2511834A1 (ja)
JP (1) JP2014515228A (ja)
KR (1) KR20130138839A (ja)
CN (1) CN103460209A (ja)
WO (1) WO2012139885A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9112833B2 (en) 2013-05-01 2015-08-18 Red Hat, Inc. Compression of content paths in a digital certificate
CN104283567B (zh) * 2013-07-02 2018-07-03 北京四维图新科技股份有限公司 一种名称数据的压缩、解压缩方法及设备
US9552489B1 (en) * 2013-09-19 2017-01-24 Imdb.Com, Inc. Restricting network spidering
US20150263949A1 (en) * 2014-03-12 2015-09-17 Huawei Technologies Co., Ltd Compressed source routing encoding
EP3147890A1 (en) * 2015-09-28 2017-03-29 Mobilead Authenticity tag and methods of encoding and verification
US9762521B2 (en) * 2016-01-15 2017-09-12 International Business Machines Corporation Semantic analysis and delivery of alternative content
US10681147B2 (en) * 2016-08-15 2020-06-09 Saturn Licensing Llc URLs for acquiring or transmitting data
KR101959049B1 (ko) * 2017-06-27 2019-03-18 광주과학기술원 Bci 시스템에 사용되는 스마트 키보드 및 이의 입력 방법
CN111723787A (zh) * 2019-03-20 2020-09-29 宝山钢铁股份有限公司 一种基于3d符号的钢管按支跟踪方法
CN110266316B (zh) * 2019-05-08 2023-02-21 创新先进技术有限公司 一种数据压缩、解压方法、装置和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09321633A (ja) * 1996-05-30 1997-12-12 Nippon Telegr & Teleph Corp <Ntt> 情報アドレス変換方法,情報アドレス変換装置および情報検索システム
JPH11177438A (ja) * 1997-12-12 1999-07-02 Toyota Central Res & Dev Lab Inc 情報変換装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146429B2 (en) * 2001-03-16 2006-12-05 The Aerospace Corporation Cooperative adaptive web caching routing and forwarding web content data requesting method
WO2004110027A1 (en) * 2003-06-06 2004-12-16 Computer Associates Think, Inc. System and method for compressing url request parameters
US7809697B1 (en) * 2007-11-09 2010-10-05 Google Inc. Compressing hyperlinks in a hyperlink-based document
CN101605129B (zh) * 2009-06-23 2012-02-01 北京理工大学 一种用于url过滤系统的url查找方法
TW201143305A (en) * 2009-12-29 2011-12-01 Ibm Data value occurrence information for data compression

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09321633A (ja) * 1996-05-30 1997-12-12 Nippon Telegr & Teleph Corp <Ntt> 情報アドレス変換方法,情報アドレス変換装置および情報検索システム
JPH11177438A (ja) * 1997-12-12 1999-07-02 Toyota Central Res & Dev Lab Inc 情報変換装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015003848; Zhou Zhou, Tian Song and Yunde Jia: 'A High-Performance URL Lookup Engine for URL Filtering Systems' Proceedings of 2010 IEEE International Conference on Communications (ICC 2010) , 20100523, IEEE *

Also Published As

Publication number Publication date
CN103460209A (zh) 2013-12-18
US20130311678A1 (en) 2013-11-21
WO2012139885A1 (en) 2012-10-18
KR20130138839A (ko) 2013-12-19
EP2511834A1 (en) 2012-10-17

Similar Documents

Publication Publication Date Title
JP2014515228A (ja) データ識別子を符号化する方法
JP4452183B2 (ja) プログラマブル状態マシンのデータ構造を作成して入力単語連鎖を構文解析する方法、プログラマブル状態マシンのデータ構造を使用して入力単語連鎖に対応する結果として得られた値を検索する方法、ワイヤスピードのディープ・パケット処理を行う方法、ディープ・パケット処理のための装置、チップ埋め込み装置、およびプログラミング・コード命令を含むコンピュータ・プログラム(ディープ・パケット処理のための方法および装置)
EP1168723B1 (en) Method and apparatus for longest matching prefix determination in a communication network
EP2214356B1 (en) System for forwarding a packet with a hierarchically structured variable-length identifier
US20100058027A1 (en) Method for selecting hash function, method for storing and searching routing table and devices thereof
US6963868B2 (en) Multi-bit Patricia trees
CN112347377B (zh) Ip地址段查找方法与业务调度方法、装置、电子设备
KR20020082461A (ko) 네트워크 어드레스 서버
US8923298B2 (en) Optimized trie-based address lookup
US9807205B2 (en) Header compression for CCN messages using dictionary
WO2013062954A2 (en) Prefix and predictive search in a distributed hash table
Tzeng Longest prefix search using compressed trees
US20060242301A1 (en) DNS compatible PNRP peer name encoding
US10021222B2 (en) Bit-aligned header compression for CCN messages using dictionary
EP3163838A1 (en) Header compression for ccn messages using dictionary learning
CN114553825A (zh) 一种网页地址转短地址的方法及系统
CN112839113B (zh) 域名存储与解析方法、装置、电子设备及存储介质
EP3255571B1 (en) System and method for efficient interval search using locality-preserving hashing
CN112822307B (zh) 一种网络标识数据的处理方法及装置
JPWO2002101935A1 (ja) 復号化装置、復号化方法、ルックアップテーブルおよび復号化プログラム
Wang et al. Labelling and encoding hierarchical addressing for scalable internet routing
Wang et al. Labeling and Encoding Hierarchical Addressing for Scalable Internet Routing
CN115952328A (zh) 一种dns域名最长后缀快速匹配方法
McLaughlin et al. Implementing high speed IP address lookups in hardware

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150630