JP7464499B2 - コード化装置、コード化方法及びコード化プログラム - Google Patents
コード化装置、コード化方法及びコード化プログラム Download PDFInfo
- Publication number
- JP7464499B2 JP7464499B2 JP2020180704A JP2020180704A JP7464499B2 JP 7464499 B2 JP7464499 B2 JP 7464499B2 JP 2020180704 A JP2020180704 A JP 2020180704A JP 2020180704 A JP2020180704 A JP 2020180704A JP 7464499 B2 JP7464499 B2 JP 7464499B2
- Authority
- JP
- Japan
- Prior art keywords
- distance
- code
- data
- semantic
- conversion unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 39
- 230000006870 function Effects 0.000 description 13
- 238000005457 optimization Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
しかしながら、この手法では、TomとTimというような文字列の近さを評価することは可能だが、文字列の距離は遠くても意味的に近いデータ、例えば、baseballとsoccerのようなデータの近さ(互いに球技という意味で近い)を評価することはできなかった。このため、匿名化されたカテゴリカルデータ間で近似マッチングを行うことは難しかった。
以下、本発明の第1実施形態について説明する。
本実施形態のコード化装置1は、BF上でカテゴリカルデータ(以下、単にデータ)の近似マッチングが行えるように、元のデータを、その意味的な距離がBF上のデータの距離に対応するようにコード化する。
本実施形態では、前提として、予めデータの意味的な相互関係を表現したグラフ構造として、階層木が与えられているものとする。
コード化装置1は、サーバ又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
制御部10は、これらの機能部により、まず、与えられた階層木の各データを示すノード間の意味的距離を評価した後、各データのコード化を行う。
ここで、距離取得部11は、例えば、階層木の構造に基づき定義された各ノードの情報量から意味的距離を算出する。具体的には、各ノード間の意味的距離の指標として、例えば、情報量に基づく次の指標を用いることができる。
ノードniがリーフノードの集合Lに含まれるとき、I(ni)=|L|とし、niがルートノードのとき、I(ni)=0とする。
niが中間ノードの集合Wに含まれるとき、ni配下のリーフノードの集合をLWとし、I(ni)=|L|-|LW|とする。
ノードa,bの距離Dis(a,b)は、a,bのそれぞれからルートノードに至るまでのパスの共通する部分に含まれる共通ノードのうち、最も下位に位置するノードをΛ(a,b)とし、Dis(a,b)=max(I(a),I(b))-I(Λ(a,b))とする。
この例では、11個のノード(データ)の意味的な相互関係が3階層の木構造により表現されている。
このとき、変換部12は、コードの組み合わせそれぞれの符号間距離と意味的距離との差分を最小化するように、変換後のコードを生成する。
例えば、変換部12は、複数のデータの意味的な相互関係を表現したグラフの構造に基づいて、各ノードにビット列を付与することによりコードを生成する。また、変換部12は、階層木のルートに至るパスの一部が共通するノードに対して共通のビット列を付与することによりコードを生成する。
ここで、リーフノードを高さ1として、階層木の高さをHとする。また、高さ2のノード及びその配下のリーフノードを含めたサブツリーをブロックbiとし、biの親ノードをpiとする。
さらに、ブロックbiに含まれるリーフノードの数を|Lbi|=2ki、又は|Lbi|=2ki-1とする。変換後のコード化されたデータiは、xi∈{0,1}*で表され、各データが相互に、距離取得部11で取得された意味的距離に対応する符号間距離を持つようなビット列に変換される。
この場合、まずn-gramでコード化されたデータが分割される。例えば、n=2として、「baseball」がコード化により「1010」と変換されたとすると、このデータは、{_1,10,01,10,0_}というデータに分割できる。
その後、各分割データをハッシュ関数fの入力として、f(_1)=101000,f(10)=110000,f(01)=101001,f(0_)=001001が得られたとすると、出力の論理和111001が第1のBFに格納される。同様に、「soccer」がコード化により「1011」と変換され、第2のBFに格納された値が111011であったとする。
このとき、第2のBFに格納された値をDice係数により評価する。この例では、BFに格納された値に含まれる1の数は、それぞれ4と5であり、一致している1の数は4なので、Dice係数は2×4/(4+5)=8/9となる。このように、意味的に近いデータは高いDice係数をとることが可能となり、BF上での近似マッチングが可能となる。
これにより、コード化装置1は、簡便な手順により効率的にデータをコード化できる。
以下、本発明の第2実施形態について説明する。
第2実施形態では、第1実施形態のコード化装置1における変換部12の機能が変更される。
第1実施形態では、階層木の構造に基づく所定のルールに従ってコード化が行われたが、符号間距離と前記意味的距離との差分を最小化するという課題は、最適化問題に置き換えることが可能であり、最適化アルゴリズムは、適宜設計可能である。
前提として、予めデータ間の意味的距離が与えられているものとする。この意味的距離は、例えば、第1実施形態と同様に、データ構造に基づく情報量から算出されてもよい。
具体的には、変換部12は、例えば、コードの組み合わせそれぞれについて、排他的論理和のハミング重みを意味的距離と一致させつつ、効用関数を最小化するためのコードの要素を決定する。
まず、データ数をmとし、各データをn次元ベクトルxi=(xi 1,…,xi n)(i=1,…,m)とする。またデータxi,xj間の距離をdi,jとする。このとき、以下の制約条件のもと、nを最小とするxi(i=1,…,m)を求める。
この例では、まず、十分に大きいnを用意し、∀i,xi=0とする。
この結果、n次元ベクトルxiが決定されるが、変換部12は、全てのiにおいて0となっている高次の要素を削除し、ベクトルの次元を削減してもよい。
これにより、コード化装置1は、コード長を抑えながら、データの意味的距離に対応した符号間距離を持つコードを適切に生成できる。
このとき、意味的距離di,jが大きい(i,j)の組み合わせほど、ハミング距離との差分が生じる可能性があるが、近似マッチングで必要とされる近距離の組み合わせについて、十分な最適化が期待できる。
10 制御部
11 距離取得部
12 変換部
20 記憶部
Claims (8)
- 複数のデータの組み合わせそれぞれに定義された意味的距離を取得する距離取得部と、
前記意味的距離に基づいて、前記データをコードに変換する変換部と、を備え、
前記変換部は、前記コードの組み合わせそれぞれの符号間距離と前記意味的距離との差分を最小化するように、前記コードを生成するコード化装置。 - 前記変換部は、前記複数のデータの意味的な相互関係を表現したグラフの構造に基づいて、各ノードにビット列を付与することにより前記コードを生成する請求項1に記載のコード化装置。
- 前記複数のデータの意味的な相互関係は、階層木により表現され、
前記変換部は、前記階層木のルートに至るパスの一部が共通するノードに対して共通のビット列を付与することにより前記コードを生成する請求項2に記載のコード化装置。 - 前記距離取得部は、前記階層木の構造に基づき定義された各ノードの情報量から前記意味的距離を算出する請求項3に記載のコード化装置。
- 前記変換部は、前記コードの長さに応じた効用関数を最小化するように、前記コードを生成する請求項1に記載のコード化装置。
- 前記変換部は、前記コードの組み合わせそれぞれについて、排他的論理和のハミング重みを前記意味的距離と一致させつつ、前記効用関数を最小化するための前記コードの要素を決定する請求項5に記載のコード化装置。
- 複数のデータの組み合わせそれぞれに定義された意味的距離を取得する距離取得ステップと、
前記意味的距離に基づいて、前記データをコードに変換する変換ステップと、をコンピュータが実行し、
前記変換ステップにおいて、前記コードの組み合わせそれぞれの符号間距離と前記意味的距離との差分を最小化するように、前記コードを生成するコード化方法。 - 請求項1から請求項6のいずれかに記載のコード化装置としてコンピュータを機能させるためのコード化プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020180704A JP7464499B2 (ja) | 2020-10-28 | 2020-10-28 | コード化装置、コード化方法及びコード化プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020180704A JP7464499B2 (ja) | 2020-10-28 | 2020-10-28 | コード化装置、コード化方法及びコード化プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022071640A JP2022071640A (ja) | 2022-05-16 |
JP7464499B2 true JP7464499B2 (ja) | 2024-04-09 |
Family
ID=81594063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020180704A Active JP7464499B2 (ja) | 2020-10-28 | 2020-10-28 | コード化装置、コード化方法及びコード化プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7464499B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013152654A (ja) | 2012-01-26 | 2013-08-08 | Toyota Central R&D Labs Inc | 識別器、識別器構築装置、プログラム |
JP2014137423A (ja) | 2013-01-15 | 2014-07-28 | Fujitsu Ltd | 暗号処理装置、方法およびプログラム |
JP2018013863A (ja) | 2016-07-19 | 2018-01-25 | 富士通株式会社 | 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法 |
JP2018503205A (ja) | 2014-12-10 | 2018-02-01 | キンダイ、インコーポレイテッドKyndi, Inc. | 重み付きサブシンボリックデータ符号化 |
-
2020
- 2020-10-28 JP JP2020180704A patent/JP7464499B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013152654A (ja) | 2012-01-26 | 2013-08-08 | Toyota Central R&D Labs Inc | 識別器、識別器構築装置、プログラム |
JP2014137423A (ja) | 2013-01-15 | 2014-07-28 | Fujitsu Ltd | 暗号処理装置、方法およびプログラム |
JP2018503205A (ja) | 2014-12-10 | 2018-02-01 | キンダイ、インコーポレイテッドKyndi, Inc. | 重み付きサブシンボリックデータ符号化 |
JP2018013863A (ja) | 2016-07-19 | 2018-01-25 | 富士通株式会社 | 符号化プログラム、検索プログラム、符号化装置、検索装置、符号化方法、及び検索方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2022071640A (ja) | 2022-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7689630B1 (en) | Two-level bitmap structure for bit compression and data management | |
JP5858432B2 (ja) | 分散連想メモリベースを提供する方法、システム、及びコンピュータプログラム製品 | |
CN103914506B (zh) | 数据检索装置、数据存储方法和数据检索方法 | |
US20090094262A1 (en) | Automatic Generation Of Ontologies Using Word Affinities | |
US9300471B2 (en) | Information processing apparatus, information processing method, and program | |
CN113961528A (zh) | 基于知识图谱的文件语义关联存储系统及方法 | |
JP6989006B2 (ja) | 秘密集約関数計算システム、秘密計算装置、秘密集約関数計算方法、およびプログラム | |
US20200212932A1 (en) | Reducing storage of blockchain metadata via dictionary-style compression | |
CN108027816B (zh) | 数据管理系统、数据管理方法及记录介质 | |
CN111026788A (zh) | 一种混合云中基于同态加密的多关键词密文排序检索方法 | |
JP2019184852A (ja) | データ分析サーバ、データ分析システム、及びデータ分析方法 | |
CN113806458A (zh) | 时空关联数据的查询方法、装置、电子设备和存储介质 | |
EP3871115A1 (en) | Data retrieval | |
CN116992464A (zh) | 一种支持动态更新的通配符可搜索加密方法及系统 | |
Pibiri et al. | Dynamic elias-fano representation | |
JP7464499B2 (ja) | コード化装置、コード化方法及びコード化プログラム | |
JP6418658B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN117312486A (zh) | 一种支持快速加密文档排序检索的字典划分两层结构加密索引创建方法 | |
JP5440235B2 (ja) | オントロジーの類似性行列の効率的な計算 | |
CN113571198B (zh) | 转化率预测方法、装置、设备及存储介质 | |
JPWO2012049883A1 (ja) | データ構造、インデックス作成装置、データ検索装置、インデックス作成方法、データ検索方法、インデックス作成プログラムおよびデータ検索プログラム | |
JP6904426B2 (ja) | 擬似データ生成装置、その方法、およびプログラム | |
CN114297046A (zh) | 基于日志的事件获取方法、装置、设备及介质 | |
EP3246900B1 (en) | Matrix and key generation device, matrix and key generation system, matrix coupling device, matrix and key generation method, and program | |
JP3615439B2 (ja) | 類似特徴量の検索方法,その検索装置およびその検索プログラム記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230306 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7464499 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |