JP2011233023A - 文書の類似度を判定する方法、装置及びプログラム。 - Google Patents

文書の類似度を判定する方法、装置及びプログラム。 Download PDF

Info

Publication number
JP2011233023A
JP2011233023A JP2010104088A JP2010104088A JP2011233023A JP 2011233023 A JP2011233023 A JP 2011233023A JP 2010104088 A JP2010104088 A JP 2010104088A JP 2010104088 A JP2010104088 A JP 2010104088A JP 2011233023 A JP2011233023 A JP 2011233023A
Authority
JP
Japan
Prior art keywords
node
similarity
graph
calculating
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010104088A
Other languages
English (en)
Other versions
JP5467643B2 (ja
Inventor
Takuya Mishina
拓也 三品
Sachiko Yoshihama
佐知子 吉濱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2010104088A priority Critical patent/JP5467643B2/ja
Priority to US13/088,457 priority patent/US20110270851A1/en
Priority to CN201110103501.9A priority patent/CN102236693B/zh
Publication of JP2011233023A publication Critical patent/JP2011233023A/ja
Application granted granted Critical
Publication of JP5467643B2 publication Critical patent/JP5467643B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90339Query processing by using parallel associative memories or content-addressable memories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】テキストと非テキスト情報が混在した文書の類似度検出を行う技術を提供する。
【解決手段】上記課題を解決するために第1の態様として、2つの文書データの類似度判定を支援するコンピュータで実行可能な方法であって、前記文書はテキスト、非テキスト、若しくはそれらの混在からなるオブジェクトを含んでおり、前記文書データの各々を有向グラフに変換して記憶するステップと、変換された有向グラフ間の類似度を前記コンピュータの演算処理により計算するステップであって、オブジェクトの重要度を用いて、前記類似度を計算するステップを有する方法、を提供する。
【選択図】図1

Description

本発明は、複数の文書の類似度を判定する方法、装置及びコンピュータ・プログラムに関する。
昨今プレゼンテーション資料の作成は膨大の一途を辿り、1つの資料、もしくは複数の資料を基にまた新たなプレゼンテーション資料が作成されている。このような環境において機密性の高い資料が外部に出た場合、企業にとっては社会的信用失墜が懸念され、それによる経済的損失のリスクも増大する。問題となる資料が外に出ないように歯止めをかけるとともに、そのプレゼンテーション資料が何を元に作成されたかのを判別するのは非常に難しい。資料がテキストのみの場合であれば比較する方法はよく知られているが、プレゼンテーション資料はオブジェクトとして、テキストと、非テキスト情報である図形、イメージが混在しており比較は容易ではない。
特許文献1は比較の判断材料として図形の面積を用いている。より具体的には2つの紙面を比較する場合に、紙面内のオブジェクト間の面積比を他方の紙面内のオブジェクト間の面積比を比べることにより、紙面の類似性を判断する。しかしながら特許文献1の方法ではオブジェクト間の面積比が異なるだけで類似性なしということになり、人が判断する類似性判断とはかなり異なる。さらに特許文献1はイメージ情報のみを使用しており、テキスト情報を考慮していない。つまる所、特許文献1は紙面全体の拡大、縮小コピーの場合に有効な類似性判断方法と言える。
非特許文献1は画像の類似度を求める際に、ベクタ画像をグラフ表現に変換しグラフの類似度として計算するという手法を取る。しかしながらプレゼンテーション文書などの図形を含む文書の類似度の算出において非特許文献1の手法では十分な精度が得られない。なぜならプレゼンテーション文書では図形とともにテキストデータが含まれ、これが文書の特徴を大きく左右するからである。また非特許文献1の手法では、企業ロゴや文書をまたがって頻繁に使われるクリップアートなど、全く異なる文書間で同一の画像オブジェクトが使用されている場合に、誤って類似文書として検出してしまう。
非特許文献2はランダムウォークに基づくグラフマイニングの手法を開示している。非特許文献2にはテキストの類似度やオブジェクトの面積比を用いた文書の類似度を求める方法は記載されていない。
特開2007-164648
Anoop M. Namboodiri,AnilK. Jain,"Retrieval of On-line Hand-DrawnSketches," icpr,vol. 2,pp.642-645,17thInternational Conference on Pattern Recognition (ICPR'04) - Volume 2,2004 Kashima,H.; Tsuda,K.& Inokuchi,A."Marginalized kernels betweenlabeled graphs" ICML'03: Proceedings of the Twentieth InternationalConference on Machine Learning,AAAIPress,2003,321-328
本発明は斯かる事情に鑑みてなされたものであり、テキストと非テキスト情報が混在した文書の類似度検出を行う技術を提供すること、またオブジェクトの重要度を考慮した文書の類似度検出を行う技術を提供すること、また人間が見る文書の類似度感に近い文書の類似度判定を行う技術を提供することを目的とする。
上記課題を解決するために本発明では、2つの文書データの類似度判定を支援するコンピュータで実行可能な方法であって、前記文書はテキスト、非テキスト、若しくはそれらの混在からなるオブジェクトを含んでおり、前記文書データの各々を有向グラフに変換して記憶するステップと、変換された有向グラフ間の類似度を前記コンピュータの演算処理により計算するステップであって、オブジェクトの重要度を用いて、前記類似度を計算するステップを有するように構成する。
ここで、前記オブジェクトの重要度は、オブジェクトの面積が全オブジェクト面積に占める割合(面積率)である。
さらに、前記有向グラフに変換するステップが、文書データ中のオブジェクトをノードに変換し、前記オブジェクトのプロパティを当該ノードのもつ特徴量として記憶するステップと、ノード間をエッジで連結するステップであって、連結される前記ノード間の位置関係を表す情報を記憶するステップ、を有するように構成する。
ここで、前記ノードがもつ特徴量は、テキスト、画像、または図形プロパティである。
そして、前記位置関係を表す情報は、上、下、左、または右である。
また、前記有向グラフ間の類似度の計算を、グラフマイニングにより行う。
さらに、前記グラフマイニングによる類似度の計算が、ノードiから開始される確率と、ノードiとエッジで連結されたノードjに遷移する確率と、ノードiで終了する確率と、ノード対(v,v')の類似度を示すカーネル関数と、エッジ対(e,e')の類似度を示すカーネル関数を用いて計算するようにする。
ここで、前記グラフマイニングによる類似度の計算を、ランダムウォークに基づくグラフマイニングにより計算するステップであって、変換された有向グラフG,G'として、当該有向グラフG,G'間の類似度を表すカーネル関数K(G,G')を
ps(i): ランダムウォークがノードiから開始される確率
pt(j|i): ノードiからノードjへの遷移確率
pq(i): ランダムウォークがノードiで終了する確率
K(v,v'): ノード対(v,v')の類似度を示すカーネル関数
K(e,e'): エッジ対(e,e')の類似度を示すカーネル関数
を用いて計算するにあたり、前記ps(i)、またはpt(j|i)の値が、オブジェクトの面積が全オブジェクト面積に占める割合(面積率)に比例して高く、計算するように構成する。
また別の態様として、2つの文書データの類似度判定を支援するコンピュータで実行可能なシステムであって、前記文書はテキスト、非テキスト、若しくはそれらの混在からなるオブジェクトを含んでおり、前記文書データの各々を有向グラフに変換して記憶する手段と、変換された有向グラフ間の類似度を前記コンピュータの演算処理により計算する手段であって、オブジェクトの重要度を用いて、前記類似度を計算する手段を有するシステムを提供する。
また別の態様として、2つの文書データの類似度判定を支援するためのコンピュータ・プログラムであって、前記各方法のステップを、コンピュータに実行させる、コンピュータ・プログラムを提供する。
また別の態様として、上記コンピュータ・プログラムをコンピュータ可読に格納した記録媒体を提供する。
本発明を用いることにより、テキストと非テキスト情報が混在した文書の類似度検出が可能になり、またオブジェクトの重要度を考慮した文書の類似度検出が可能になる。本発明では、大きな面積のオブジェクトほど頻回に比較されるため「大きなオブジェクトほど類似度計算に大きく寄与させる」ことができる。これにより、人間が見る文書の類似度感に近い判定をコンピュータに行わせることが可能になる。
本発明の処理の概要である。 文書データをラベル付き有向グラフに変換する、より詳細なフローチャートである。 ノードおよびエッジの特徴量の例である。 文書データとしてプレゼンテーションチャートを用いた場合の有向グラフへの変換例である。 ノードの特徴量の内部データ構造である。 エッジのラベルのデータ構造である。 本発明の文書類似度判定システムのブロック図である。 本発明の文書類似度判定システムの詳細なフローチャートである。 ページの類似度比較のより詳細な処理フローチャートである。 本発明の文書データ類似度判定システムのハードウェア・ブロックの一例である。 より実用的な比較方法を説明する図である。
本発明の処理の概要を図1に示す。ステップ110でオブジェクトを含む文書データをラベル付き有向グラフに変換する。この時、オブジェクトをノードに変換し、オブジェクトの持つ特徴量を計算する。そしてノード間をエッジで連結する。エッジに付与するラベルとして連結されるノード間の地理的位置関係を用いる。そしてステップ120で有向グラフ間の類似度を求める関数を用いて、文書データの類似度を計算する。この時、上記ノードの特徴量とエッジの位置関係に加えてオブジェクトの重要度を用いて計算する。本発明ではオブジェクトの重要度としてそのオブジェクトの面積を考慮するがその他の指標、例えば特別な形状に比例する情報、電子透かし技術によって埋め込まれた重要度などを用いても本発明の本質を逸脱することなく使可能である。本発明の実施例ではオブジェクトの重要度として、該オブジェクトの全オブジェクト面積に占める割合(面積率)をノードおよびエッジの類似度計算に適用する。
図2に文書データをラベル付き有向グラフに変換するステップ110の、より詳細なフローチャートを図示する。まず、ステップ210で、文書データ中のオブジェクトをノードに変換する。この時、オブジェクトのプロパティをそのノードが持つ特徴量とする。次にステップ220で、ノード間をエッジで連結する。連結されるノード間の位置関係をエッジにラベルとして付与する。
図3に、オブジェクトのプロパティを、ノードおよびエッジについて例示する。文書データをラベル付き有向グラフに変換する再に、ノードが持つ特徴量には、大きく分けてテキスト、ビットマップ画像、図形プロパティがある。テキストには、その内容として文字列がある。ビットマップ画像にはその作成者のユーザID、面積がある。図形プロパティには、前景色、背景色、線種、横幅、縦幅、形状、面積がある。エッジが持つ特徴量としては方向とラベルがある。方向はどのノードからどのノードへという情報を持つ。ラベルは地理的位置情報を持つ。
図4は文書データとしてプレゼンテーションチャートを用いた場合の有向グラフへの変換例である。2枚の図のうち上がオリジナルのチャート、下がそれを有向グラフに変換したものである。v1,v2,v3,v4,v5,v6はノードを表す。オリジナルのチャート内のv1,v2,v3,v4,v5,v6はグラフとの対応関係を明示するために付記したもので実際のチャートには記載されてはいない。有向グラフにおいてノード中のEは元のオブジェクトの形状が楕円(ellipse)であることを、Rは長方形(rectangle)あることを、Bはビットマップ図形(bitmap)であることを示す。またエッジのラベルであるA、B、L、Rは夫々、上、下、左、右の意味である。例えばノードv1とノードv2の関係で言えば、v1の左にv2が存在するという位置関係を表している。また各ノードは特徴量を持つ。例えばノードv3は、テキストとして"Risk"、ラインカラーは黒、塗りつぶし色は水色である。ノードv6はビットマップに固有のID(Unique identifier)であり、そのUIDがA593F7である。
図5にノードの特徴量の内部データ構造を示す。このデータ構造はメモリ中に記憶される。図5ではノードv3について例示する。ノード番号毎に、特徴名と値の順に記憶されることが理解されるであろう。図5の場合はオブジェクトの形状が楕円(ellipse)の場合であるが、例えばノードv6であればオブジェクトの形状がBとなり、特徴名に固有IDとその値がA593F7を含むことになる。図5は一例であり、オブジェクトの種類に応じて多数の特徴量が適宜考えられる。
図6にエッジのラベルのデータ構造を示す。このデータ構造もメモリ中に記憶される。図6ではノードv4とノードv5間のエッジについて例示する。エッジには方向とラベルの特徴量がある。方向にはどこのノードからどこのノードへを表す”From”,”To”があり値としてノード番号が入る。ラベルにはエッジ元のノードからエッジ先のノードがどの位置に存在するかを表す地理的位置情報”上”、”下””左”、”右”のどれかの値が入る。ノードv4の下にノードv5があるので値には”下”が入る。またノードv5の上にノードv4が存在するので値には”上”が入る。
実施例として、カーネル法を使ったグラフマイニングを利用した類似度判定方法を開示する。グラフマイニングは分子構造などグラフ表現可能なデータの類似度を計算することができ、得られた類似度から特定の性質を持つ物質を探索する等の用途に用いられる。グラフマイニングの方法については既知であるので詳細な方法は省略する。例えばグラフマイニング手法の中でも非特許文献2はランダムウォークとカーネル法を組み合わせた手法を提案している。そこで本発明の実施例として、文書データの類似度判定に適したカーネル関数を定義し、類似度の判定に用いる例を示す。
<グラフマイニングの概要>
ランダムウォークに基づくグラフマイニングにおいて、二つのラベル付き有向グラフ G,G'の間のカーネル関数K(G,G')は以下のように表される。
Figure 2011233023

ただし
ps(i): ランダムウォークがノード iから開始される確率
pt(j|i):ノード iからノード jへの遷移確率
pq(i): ランダムウォークがノード iで終了する確率
K(v,v'):ノード対 (v,v')の類似度を示すカーネル関数
K(e,e'):エッジ対 (e,e')の類似度を示すカーネル関数
非特許文献2では、ps及び ptとして一様分布を、ps、pqは定数を用いている。また、 K(v,v')及び K(e,e')については、ノードもしくはエッジに付与されたラベルが一致する場合に 1、一致しない場合に 0 を返す関数を用いている。本発明も同様の関数とする。
カーネル関数を端的に表現すると、ある特徴空間上のふたつの特徴ベクトル間の内積であると考えられるから、似通った特徴を持つベクトル対に対して高い値を、異なる特徴を持つベクトル対に対して低い値を返すような関数であると考えてよい。すなわち K(G,G')は、二つのグラフ G,G' の構造がどの程度類似しているのかを表していると言える。よって、類似度を計測したい文書データのページ対をそれぞれグラフに変換し、その間のカーネル関数の値を求めることで、そのページ対の類似度を得ることができる。
<文書類似度判定へグラフマイニング応用>
テキストおよび非テキストデータを含む文書データに対してグラフマイニングを適用するために、以下において、文書データ内に含まれる各ページをグラフ構造に変換する手続きと、グラフマイニングに必要なパラメータ(ps,pt,pq,K(v,v'),K(e,e'))を決定する。
<グラフ構造への変換>
まず文書データ(例えばプレゼンテーション文書の1ページ)をラベル付き有向グラフへ変換する。まず、オブジェクトをノードに変換する。オブジェクトの持つプロパティ(テキストを含む)をそのノードが持つ特徴量と考えて、後述する K(v,v')の計算に利用する。続いてノード間をエッジで連結する。このときエッジに付与するラベルとして、連結されるノード間の地理的位置関係(上下左右)を用いる。意図的に荒い粒度のエッジラベルを用いることで、微修正に対して頑健なグラフ構造を目指す。有向グラフへの変換例については図4を参照をされたい。
<ランダムウォークパラメータ>
次にランダムウォークに関するパラメータ ps(i),pt(j|i),pq(i)を決定する。ここで ps(i), pt(j|i) をノード毎に調整することで、ノードを考慮する度合いを変えることができる。そこで今回は主要なオブジェクトを重視して些末なオブジェクトを軽視するようにパラメータを調整する。具体的には、オブジェクトがページ上で占める面積率に比例して遷移確率を割り当てる。例えば図4において、ノードv6の面積が 100平方ピクセル、 ノードv4の面積が50平方ピクセル、全オブジェクトの面積の合計が 1000平方ピクセルであった場合、 ps(v6) = 100 = 1000 となり、
pt(v6|v5) = 100= (100 + 50)
pt(v4|v5) = 50 = (100 + 50)
となる。さらにランダムウォークでの開始ノードを乱数で選出する際にも、オブジェクトがページ上で占める面積率に比例して選択されやすくする。上記のようにノードから他のノードに遷移する確率についても面積の広いオブジェクト(ノード)に遷移し易くするわけである。このように面積が広いオブジェクトが選ばれやすくすることで、オブジェクトの重要度を考慮した判定が可能になる。つまり人間が見る文書の類似度感に近い文書の類似度判定を行うことができる。なおオブジェクトの重要度として面積率ではなく、特定の形状にどれだけ近いかを表す形状の近似度や、電子透かし技術によって埋め込まれた不可視の重要度などを用いても良い。
<ノードとエッジのカーネル関数>
カーネル関数は似通った特徴を持つベクトル対に対して高い値を、異なる特徴を持つベクトル対に対して低い値を返すような関数であり、いくつかの条件、例えば
(K(x,y)= K(y,x),K(x,y) > 0
などを満たすものであれば任意の関数をカーネル関数として利用可能である。
まず K(v,v')については、以下のようなプロパティの一致度を線形補間して得る。ノードおよびエッジの特徴量(プロパティ)は図5のデータ構造の例に示したようにメモリ中に記憶される。
テキストについては、ノード対に共通して出現する語の割合(Jaccard index)を用いる。つまりテキスト同士を比較して何パーセント同じ語が使用されているかという情報を用いて、テキストの一致度を測る。
ビットマップ画像については、画像の固有のIDである Picture Unique ID が同じかを判断する。
図形プロパティについては、前景色・背景色・線種・横幅・縦幅等の一致度を判断する。
K(e,e')については、ラベルが一致する場合 1、一致しない場合 0 を返す関数を用いる。エッジのデータ構造例については図6を参照されたい。以上は例示であり、種々の変形が可能であることは言うまでもない。
図7に本発明の文書類似度判定システムのブロック図を示す。文書データ取得部710は文書データを読み込み、文書データ記憶部705に記憶する。次に有向グラフ変換部720は文書データ記憶部から文書データを読み取り、有向グラフに変換し、グラフデータ記憶部730に記憶する。次に類似度判定部740はグラフデータ記憶部730に記憶したグラフデータを読み取り類似度を判定し、その結果を判定結果累積部750に記憶する。文書データの全ページについて類似度判定が行われると、判定結果出力部760が、判定結果累積部750の累積データから、最終的な類似度の判定結果を出力する。
図8に本発明の文書類似度判定システムの詳細なフローチャートを示す。まずステップ810で、文書データ1の全ページを読み込み、文書データ記憶部705に記憶する。次にステップ820で文書データ記憶部705に記憶された文書データ1を読み取り、全ページを有向グラフに変換し、グラフデータ1としてグラフデータ記憶部730に追加記憶する。同様にステップ820で、文書データ2の全ページ読み込み、文書データ記憶部705に記憶する。次にステップ840で文書データ記憶部705に記憶された文書データ2を読み取り、全ページを有向グラフに変換し、グラフデータ2としてグラフデータ記憶部730に追加記憶する。
ステップ850で全ページの類似度比較が終了したかどうかを判定し、終了した場合にはステップ880で判定結果累積部750の累積データから、最終的な類似度の判定結果を0%〜100%の確率(連続値)として出力する。最終的な類似度の計算はページ間の類似度が確率であった場合には好ましくはそれらの平均とする。また各ページ間の類似度が絶対値であった場合には総和としても良い。何れにしても各ページ間の類似度を総合して出力する。ステップ850でまだ全ページの比較が終了していない場合には、ステップ860で処理対象のページを1つ進める。そしてステップ870でグラフデータ記憶部730のグラフデータ1とグラフデータ2から処理対象のページを読み取り両者の類似度を算出し、結果を判定結果累積部750に追加記憶する。
実際のプレゼンテーションの場合、文書1と文書2が同一ページ数で構成されているとは限らず、また削除したり移動したり編集も様々である。そこで本発明ではより実用的な比較方法を採る。図11により実用的な比較方法を図示する。図11ではグラフデータ1は n ページ、グラフデータ2は m ページで構成されているとする。全ページの比較組み合わせの数は nm 通りある。
1つの判断方法として、 nm ペア全てが類似していたら、文書全体が類似しているとみなす。この判断方法では誤検出が少ないが、完全な再利用しか検出できず、部分再利用を検出できない場合がある。
別の方法として、nm 個のペアのうち、少なくとも1ペアについて、類似度が事前に決めて置いた閾値 t を超えていたら、文書全体が類似しているとみなすとしても良い。こうすることで1ページだけ再利用した場合でもあますことなく類似文書を検出できる。再利用での情報漏洩を防ぎたい場合には、より網羅的に検出できるこの判断方法が適している。
さらに、文書が似ていると判断したら即時にユーザに警告するようにしても良い。その場合、総合類似度は0(警告しない)か1(警告する)かのどちらかがわかればよいので、nm のペアのどこかで閾値 t を超えた段階で処理を終了し、文書は類似していると表示する。その他、種々の変形が可能である。
図9にステップ870のページの類似度比較のより詳細な処理フローチャートを示す。図9のフローチャートはグラフデータ記憶部730に記憶したグラフデータ1、およびグラフデータ2の処理対象ページについて類似度が比較される。処理対象ページについて、比較を開始するノードの選定では、オブジェクトの重要度(オブジェクトの面積率)を含む確率に左右される関数によって、同じノードが選定されるとは限らず、また開始ノードが同じでもそれから遷移する遷移先のノードが同じであるとも限らない。ランダムウォークのアルゴリズムにおいて遷移はエッジで接続された複数ノードへ同時に確率遷移して計算され、処理終了までのパスの類似度が合算される。図9では説明の便宜上単一ノードから単一ノードへの遷移に留めていることに留意されたい。
まずステップ910で全ノードの中から比較の開始を行う初期ノードの選択を行う。グラフデータ1から1つ、グラフデータ2から1つノードが選定される。この時、オブジェクトの重要度(面積率)が高いものほど選択されやすい。次にステップ920で、ノード対 (v,v')の類似度を示す上記カーネル関数K(v,v')を用いてノードの類似度を算出する。次にステップ930で、ランダムウォークがノード iで終了する上記終了確率pq(i)に基づき処理が終了かを判断し、終了している場合にはここで処理を終了し、終了していない場合にはステップ940で、ノード iからノード jへの上記遷移確率pt(j|i)に基づき、隣接ノードの中から遷移先のノードを選択する。この時オブジェクトの重要度(面積率)が高いオブジェクトほど選択されやすい。次にステップ950で、エッジ対 (e,e')の類似度を示す上記カーネル関数K(e,e')を用いて遷移先ノードへのエッジの類似度が算出され、判定結果累積部750にその結果が追加記憶され、処理はステップ920に戻る。
<コンピュータ・ハードウェアのブロック図>
図10に本発明の文書データ類似度判定システムにおける、コンピュータ・ハードウェアのブロック図を一例として示す。本発明の実施形態に係るコンピュータ・システム(1001)は、CPU(1002)とメイン・メモリ(1003)と含み、これらはバス(1004)に接続されている。CPU(1002)は好ましくは、32ビット又は64ビットのアーキテクチャに基づくものであり、例えば、インテル社のXeon(商標)シリーズ、Core(商標)シリーズ、Atom(商標)シリーズ、Pentium(商標)シリーズ、Celeron(商標)シリーズ、AMD社のPhenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(商標)シリーズ及びSempron(商標)などを使用することができる。
バス(1004)には、ディスプレイ・コントローラ(1005)を介して、LCDモニタなどのディスプレイ(1006)が接続されている。ディスプレイ(1006)は、文書データ、変換された有向グラフ、類似度判定結果の表示に使用する。バス(1004)にはまた、IDE又はSATAコントローラ(1007)を介して、ハードディスク又はシリコン・ディスク(1008)と、CD−ROM、DVDドライブ又はBlu−rayドライブ(1009)が接続されている。これらの記憶装置に、本発明にかかるプログラム、データを記憶するようにしても良い。本発明のプログラム、文書データ、変換後の有向グラフデータはハードディスク(1008)もしくはメイン・メモリ(1003)に格納されCPU(1002)により類似度判定の処理が行われる。また判定結果累積データも好ましくはハードディスク(1008に記憶される。そして最終の類似度判定がディスプレイ(1006)に表示される。
CD−ROM、DVD又はBlu−rayドライブ(1009)は、必要に応じて、コンピュータ可読の媒体であるCD−ROM、DVD−ROM又はBlu−rayディスクから本発明のプログラムをハードディスクにインストールするため、もしくはデータを読み取るために使用される。バス(1004)には更に、キーボード・マウスコントローラ(1010)を介して、キーボード(1011)及びマウス(1012)が接続されている。
通信インタフェース(1014)は、例えばイーサネット(商標)・プロトコルに従う。通信インタフェース(1014)は、通信コントローラ(1013)を介してバス(1004)に接続され、コンピュータ・システム及び通信回線(1015)を物理的に接続する役割を担い、コンピュータ・システムのオペレーティング・システムの通信機能のTCP/IP通信プロトコルに対して、ネットワーク・インターフェース層を提供する。なお通信回線を通して、外部の文書データもしくは有向グラフを読みとり、CPU(1002)により処理するようにしても良い。
本発明の文書類似判定方法は、C++、Java(登録商標)、Java(登録商標)Beans、Java(登録商標)Applet、Java(登録商標)Script、Perl、Rubyなどのオブジェクト指向プログラミング言語、SQLなどのデータベース言語などで記述された装置実行可能なプログラムにより実現できる。また該プログラムをコンピュータ可読な記録媒体に格納して頒布または伝送して頒布することができる。
これまで本発明を、特定の実施形態および実施例をもって説明してきたが、本発明は、特定の実施形態または実施例に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれる。
705 文書データ記憶部
710 文書データ取得部
720 有向グラフ変換部
730 グラフデータ記憶部
740 類似度判定部
750 判定結果累積部
760 判定結果出力部

Claims (18)

  1. 2つの文書データの類似度判定を支援するコンピュータで実行可能な方法であって、前記文書はテキスト、非テキスト、若しくはそれらの混在からなるオブジェクトを含んでおり、
    前記文書データの各々を有向グラフに変換して記憶するステップと、
    変換された有向グラフ間の類似度を前記コンピュータの演算処理により計算するステップであって、
    オブジェクトの重要度を用いて、前記類似度を計算するステップ
    を有する方法。
  2. 前記オブジェクトの重要度が、オブジェクトの面積が全オブジェクト面積に占める割合(面積率)である、請求項1記載の方法。
  3. 前記有向グラフに変換するステップが、
    文書データ中のオブジェクトをノードに変換し、前記オブジェクトのプロパティを当該ノードのもつ特徴量として記憶するステップと、
    ノード間をエッジで連結するステップであって、連結される前記ノード間の位置関係を表す情報を記憶するステップ、
    を有する、請求項1記載の方法。
  4. 前記ノードがもつ特徴量が、テキスト、画像、または図形プロパティである、請求項3記載の方法。
  5. 前記位置関係を表す情報が、上、下、左、または右である、請求項3記載の方法。
  6. 前記有向グラフ間の類似度の計算を、グラフマイニングにより行う請求項1記載の方法。
  7. 前記グラフマイニングによる類似度の計算が、ノードiから開始される確率と、ノードiとエッジで連結されたノードjに遷移する確率と、ノードiで終了する確率と、ノード対(v,v')の類似度を示すカーネル関数と、エッジ対(e,e')の類似度を示すカーネル関数を用いて計算される、請求項6記載の方法。
  8. 前記グラフマイニングによる類似度の計算を、ランダムウォークに基づくグラフマイニングにより計算するステップであって、
    変換された有向グラフG,G'として、当該有向グラフG,G'間の類似度を表すカーネル関数K(G,G')を
    ps(i): ランダムウォークがノードiから開始される確率
    pt(j|i): ノードiからノードjへの遷移確率
    pq(i): ランダムウォークがノードiで終了する確率
    K(v,v'): ノード対(v,v')の類似度を示すカーネル関数
    K(e,e'): エッジ対(e,e')の類似度を示すカーネル関数
    を用いて計算するにあたり、前記ps(i)、またはpt(j|i)の値が、オブジェクトの面積が全オブジェクト面積に占める割合(面積率)に比例して高く、計算するステップである、請求項7記載の方法。
  9. 2つの文書データの類似度判定を支援するコンピュータで実行可能なシステムであって、前記文書はテキスト、非テキスト、若しくはそれらの混在からなるオブジェクトを含んでおり、
    前記文書データの各々を有向グラフに変換して記憶する手段と、
    変換された有向グラフ間の類似度を前記コンピュータの演算処理により計算する手段であって、
    オブジェクトの重要度を用いて、前記類似度を計算する手段
    を有するシステム。
  10. 前記オブジェクトの重要度が、オブジェクトの面積が全オブジェクト面積に占める割合(面積率)である、請求項9記載のシステム。
  11. 前記有向グラフに変換する手段が、
    文書データ中のオブジェクトをノードに変換し、前記オブジェクトのプロパティを当該ノードのもつ特徴量として記憶する手段と、
    ノード間をエッジで連結する手段であって、連結される前記ノード間の位置関係を表す情報を記憶する手段、
    を有する、請求項9記載のシステム。
  12. 前記ノードがもつ特徴量が、テキスト、画像、または図形プロパティである、請求項11記載のシステム。
  13. 前記位置関係を表す情報が、上、下、左、または右である、請求項11記載のシステム。
  14. 前記有向グラフ間の類似度の計算を、グラフマイニングにより行う請求項9記載のシステム。
  15. 前記グラフマイニングによる類似度の計算が、ノードiから開始される確率と、ノードiとエッジで連結されたノードjに遷移する確率と、ノードiで終了する確率と、ノード対(v,v')の類似度を示すカーネル関数と、エッジ対(e,e')の類似度を示すカーネル関数を用いて計算される、請求項14記載のシステム。
  16. 前記グラフマイニングによる類似度の計算を、ランダムウォークに基づくグラフマイニングにより計算する手段であって、
    変換された有向グラフG,G'として、当該有向グラフG,G'間の類似度を表すカーネル関数K(G,G')を
    ps(i): ランダムウォークがノードiから開始される確率
    pt(j|i): ノードiからノードjへの遷移確率
    pq(i): ランダムウォークがノードiで終了する確率
    K(v,v'): ノード対(v,v')の類似度を示すカーネル関数
    K(e,e'): エッジ対(e,e')の類似度を示すカーネル関数
    を用いて計算するにあたり、前記ps(i)、またはpt(j|i)の値が、オブジェクトの面積が全オブジェクト面積に占める割合(面積率)に比例して高く、計算する手段である、請求項15記載のシステム。
  17. 2つの文書データの類似度判定を支援するためのコンピュータ実行可能なコンピュータ・プログラムであって、請求項1乃至8の何れかに1つに記載の方法の各ステップをコンピュータに実行させる、コンピュータ・プログラム。
  18. 請求項17に記載のコンピュータ実行可能なプログラムをコンピュータ可読に格納する記録媒体。
JP2010104088A 2010-04-28 2010-04-28 文書の類似度を判定する方法、装置及びプログラム。 Expired - Fee Related JP5467643B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010104088A JP5467643B2 (ja) 2010-04-28 2010-04-28 文書の類似度を判定する方法、装置及びプログラム。
US13/088,457 US20110270851A1 (en) 2010-04-28 2011-04-18 Method, device, and program for determining similarity between documents
CN201110103501.9A CN102236693B (zh) 2010-04-28 2011-04-25 确定文档之间的相似度的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010104088A JP5467643B2 (ja) 2010-04-28 2010-04-28 文書の類似度を判定する方法、装置及びプログラム。

Publications (2)

Publication Number Publication Date
JP2011233023A true JP2011233023A (ja) 2011-11-17
JP5467643B2 JP5467643B2 (ja) 2014-04-09

Family

ID=44859133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010104088A Expired - Fee Related JP5467643B2 (ja) 2010-04-28 2010-04-28 文書の類似度を判定する方法、装置及びプログラム。

Country Status (3)

Country Link
US (1) US20110270851A1 (ja)
JP (1) JP5467643B2 (ja)
CN (1) CN102236693B (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013190973A (ja) * 2012-03-13 2013-09-26 Nec Corp 文書内の図情報を利用した類似文書の検索システム及び方法
KR20150051084A (ko) * 2013-11-01 2015-05-11 삼성전자주식회사 선택적 정제를 이용한 계층적 중요점 영상 생성 방법, 상기 방법을 기록한 컴퓨터 판독 가능 저장매체 및 중요점 영상 생성 장치.
JP2016504656A (ja) * 2012-11-16 2016-02-12 キヤノン株式会社 視覚的属性を修正する装置、システム及び方法
US9786272B2 (en) 2013-12-24 2017-10-10 Kabushiki Kaisha Toshiba Decoder for searching a digraph and generating a lattice, decoding method, and computer program product
WO2021079230A1 (ja) * 2019-10-25 2021-04-29 株式会社半導体エネルギー研究所 文書検索システム
WO2021100209A1 (ja) * 2019-11-22 2021-05-27 日本電信電話株式会社 画像識別装置、画像識別方法及び画像識別プログラム

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8499284B2 (en) * 2008-09-11 2013-07-30 Microsoft Corporation Visualizing relationships among components using grouping information
US8509525B1 (en) * 2011-04-06 2013-08-13 Google Inc. Clustering of forms from large-scale scanned-document collection
US9792017B1 (en) 2011-07-12 2017-10-17 Domo, Inc. Automatic creation of drill paths
US9202297B1 (en) 2011-07-12 2015-12-01 Domo, Inc. Dynamic expansion of data visualizations
US10001898B1 (en) 2011-07-12 2018-06-19 Domo, Inc. Automated provisioning of relational information for a summary data visualization
JP2013149061A (ja) * 2012-01-19 2013-08-01 Nec Corp 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム
CN102651034B (zh) * 2012-04-11 2013-11-20 江苏大学 一种基于核函数的文档相似检测方法
US9779063B1 (en) * 2013-03-15 2017-10-03 Not Invented Here LLC Document processor program having document-type dependent interface
US9753960B1 (en) * 2013-03-20 2017-09-05 Amdocs Software Systems Limited System, method, and computer program for dynamically generating a visual representation of a subset of a graph for display, based on search criteria
US9405853B2 (en) * 2013-06-17 2016-08-02 Hewlett Packard Enterprise Development Lp Reading object queries
US10776501B2 (en) 2013-08-07 2020-09-15 Microsoft Technology Licensing, Llc Automatic augmentation of content through augmentation services
US10127230B2 (en) 2015-05-01 2018-11-13 Microsoft Technology Licensing, Llc Dynamic content suggestion in sparse traffic environment
US10394949B2 (en) 2015-06-22 2019-08-27 Microsoft Technology Licensing, Llc Deconstructing documents into component blocks for reuse in productivity applications
US10740349B2 (en) 2015-06-22 2020-08-11 Microsoft Technology Licensing, Llc Document storage for reuse of content within documents
US10339183B2 (en) 2015-06-22 2019-07-02 Microsoft Technology Licensing, Llc Document storage for reuse of content within documents
US10395325B2 (en) * 2015-11-11 2019-08-27 International Business Machines Corporation Legal document search based on legal similarity
US9436760B1 (en) * 2016-02-05 2016-09-06 Quid, Inc. Measuring accuracy of semantic graphs with exogenous datasets
US9558265B1 (en) * 2016-05-12 2017-01-31 Quid, Inc. Facilitating targeted analysis via graph generation based on an influencing parameter
US11222054B2 (en) * 2018-03-12 2022-01-11 International Business Machines Corporation Low-complexity methods for assessing distances between pairs of documents
CN110890977B (zh) * 2019-10-15 2022-06-21 平安科技(深圳)有限公司 云平台的主机节点监控方法、装置和计算机设备
US11568663B2 (en) * 2020-05-05 2023-01-31 Jpmorgan Chase Bank, N.A. Image-based document analysis using neural networks

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164648A (ja) * 2005-12-16 2007-06-28 Ricoh Co Ltd 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体
JP2008181460A (ja) * 2007-01-26 2008-08-07 Ricoh Co Ltd 文書画像検索装置および文書画像検索方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3726263B2 (ja) * 2002-03-01 2005-12-14 ヒューレット・パッカード・カンパニー 文書分類方法及び装置
CN100543735C (zh) * 2005-10-31 2009-09-23 北大方正集团有限公司 基于文档结构的文档相似性度量方法
US8332333B2 (en) * 2006-10-19 2012-12-11 Massachusetts Institute Of Technology Learning algorithm for ranking on graph data
CN101576903B (zh) * 2009-03-03 2011-03-30 杜小勇 一种文档相似度衡量方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007164648A (ja) * 2005-12-16 2007-06-28 Ricoh Co Ltd 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体
JP2008181460A (ja) * 2007-01-26 2008-08-07 Ricoh Co Ltd 文書画像検索装置および文書画像検索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG199900691002; 周 長明: 'グラフ記述・マッチングを利用した類似画像検索' 電子情報通信学会技術研究報告 Vol.91 No.299, 19911025, 9-14ページ, 社団法人電子情報通信学会 *
CSNG199901515004; 黒川 雅人: '形状情報を用いた画像の類似検索システムの試作' 情報処理学会研究報告 Vol.90 No.34, 19900511, 1-7ページ, 社団法人情報処理学会 *
JPN6013023171; 黒川 雅人: '形状情報を用いた画像の類似検索システムの試作' 情報処理学会研究報告 Vol.90 No.34, 19900511, 1-7ページ, 社団法人情報処理学会 *
JPN6013023174; 周 長明: 'グラフ記述・マッチングを利用した類似画像検索' 電子情報通信学会技術研究報告 Vol.91 No.299, 19911025, 9-14ページ, 社団法人電子情報通信学会 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013190973A (ja) * 2012-03-13 2013-09-26 Nec Corp 文書内の図情報を利用した類似文書の検索システム及び方法
US9378248B2 (en) 2012-03-13 2016-06-28 Nec Corporation Retrieval apparatus, retrieval method, and computer-readable recording medium
JP2016504656A (ja) * 2012-11-16 2016-02-12 キヤノン株式会社 視覚的属性を修正する装置、システム及び方法
KR20150051084A (ko) * 2013-11-01 2015-05-11 삼성전자주식회사 선택적 정제를 이용한 계층적 중요점 영상 생성 방법, 상기 방법을 기록한 컴퓨터 판독 가능 저장매체 및 중요점 영상 생성 장치.
KR102094507B1 (ko) 2013-11-01 2020-03-27 삼성전자주식회사 선택적 정제를 이용한 계층적 중요점 영상 생성 방법, 상기 방법을 기록한 컴퓨터 판독 가능 저장매체 및 중요점 영상 생성 장치.
US9786272B2 (en) 2013-12-24 2017-10-10 Kabushiki Kaisha Toshiba Decoder for searching a digraph and generating a lattice, decoding method, and computer program product
WO2021079230A1 (ja) * 2019-10-25 2021-04-29 株式会社半導体エネルギー研究所 文書検索システム
WO2021100209A1 (ja) * 2019-11-22 2021-05-27 日本電信電話株式会社 画像識別装置、画像識別方法及び画像識別プログラム
JPWO2021100209A1 (ja) * 2019-11-22 2021-05-27
JP7147996B2 (ja) 2019-11-22 2022-10-05 日本電信電話株式会社 画像識別装置、画像識別方法及び画像識別プログラム

Also Published As

Publication number Publication date
CN102236693B (zh) 2015-04-08
CN102236693A (zh) 2011-11-09
US20110270851A1 (en) 2011-11-03
JP5467643B2 (ja) 2014-04-09

Similar Documents

Publication Publication Date Title
JP5467643B2 (ja) 文書の類似度を判定する方法、装置及びプログラム。
Steiniger et al. An approach for the classification of urban building structures based on discriminant analysis techniques
Bialas et al. Object-based classification of earthquake damage from high-resolution optical imagery using machine learning
CN107077570A (zh) 用于检测通过数据分发通道发送敏感信息的尝试的系统和方法
US20120328189A1 (en) Method for Identifying Pairs of Derivative and Original Images
US20150228045A1 (en) Methods for embedding and extracting a watermark in a text document and devices thereof
JP2019220144A (ja) 詐欺検出を改善するためのデータ拡張の方法、デバイス、およびシステム
Martin et al. Dating color images with ordinal classification
KR101177626B1 (ko) 물체 검출 장치 및 방법
JPWO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
JP5629908B2 (ja) セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置
CN108566372A (zh) 基于哈希算法的文件信息防泄漏方法、介质及设备
JP5962449B2 (ja) 判定プログラム、判定方法及び判定装置
Dalins et al. PDQ & TMK+ PDQF--A Test Drive of Facebook's Perceptual Hashing Algorithms
JP5880089B2 (ja) コミック画像データ検出装置及びコミック画像データ検出プログラム
Kumar et al. Encoder–decoder-based CNN model for detection of object removal by image inpainting
Tan et al. Dual encoder network with efficient channel attention refinement module for image splicing forgery detection
JP2011141664A (ja) 文書比較装置、文書比較方法、及びプログラム
Xue et al. ISD-SSD: image splicing detection by using modified single shot MultiBox detector
Zhang et al. Small target detection based on faster R-CNN
KR100922693B1 (ko) 인물 검색 시스템 및 방법
Jing et al. The application of social media image analysis to an emergency management system
Mustafa Quick probabilistic binary image matching: changing the rules of the game
Abdessamad et al. A sparse representation-based approach for copy-move image forgery detection in smooth regions
JP6303742B2 (ja) 画像処理装置、画像処理方法、および画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130521

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130717

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130819

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130819

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20130819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140108

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20140108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140124

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees