JP2005276205A - そっくり物(重複)の検出・抑制方法 - Google Patents

そっくり物(重複)の検出・抑制方法 Download PDF

Info

Publication number
JP2005276205A
JP2005276205A JP2005080092A JP2005080092A JP2005276205A JP 2005276205 A JP2005276205 A JP 2005276205A JP 2005080092 A JP2005080092 A JP 2005080092A JP 2005080092 A JP2005080092 A JP 2005080092A JP 2005276205 A JP2005276205 A JP 2005276205A
Authority
JP
Japan
Prior art keywords
supersamples
match
requesting
matching
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005080092A
Other languages
English (en)
Other versions
JP2005276205A5 (ja
Inventor
Mark S Manasse
エス.マナッセ マーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005276205A publication Critical patent/JP2005276205A/ja
Publication of JP2005276205A5 publication Critical patent/JP2005276205A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F13/00Bandages or dressings; Absorbent pads
    • A61F13/15Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators
    • A61F13/51Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the outer layers
    • A61F13/511Topsheet, i.e. the permeable cover or layer facing the skin
    • A61F13/51121Topsheet, i.e. the permeable cover or layer facing the skin characterised by the material
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F13/00Bandages or dressings; Absorbent pads
    • A61F13/15Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators
    • A61F13/51Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the outer layers
    • A61F2013/51002Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the outer layers with special fibres
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F13/00Bandages or dressings; Absorbent pads
    • A61F13/15Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators
    • A61F13/51Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the outer layers
    • A61F2013/51059Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the outer layers being sprayed with chemicals
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F13/00Bandages or dressings; Absorbent pads
    • A61F13/15Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators
    • A61F13/51Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the outer layers
    • A61F2013/5109Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the outer layers with odour control
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F13/00Bandages or dressings; Absorbent pads
    • A61F13/15Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators
    • A61F13/53Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the absorbing medium
    • A61F2013/530481Absorbent pads, e.g. sanitary towels, swabs or tampons for external or internal application to the body; Supporting or fastening means therefor; Tampon applicators characterised by the absorbing medium having superabsorbent materials, i.e. highly absorbent polymer gel materials
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Vascular Medicine (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Separation Using Semi-Permeable Membranes (AREA)
  • Steering-Linkage Mechanisms And Four-Wheel Steering (AREA)

Abstract

【課題】 オブジェクトのコレクション内で類似のオブジェクトを検出する方法を提供する。
【解決手段】 本方法は、誤検出を従来法とほぼ同程度に回避しながら、オブジェクトごとの必要メモリを縮小するように従来法を修正する。修正は以下のことを含む。(i)k個の特徴サンプルをs個のスーパーサンプルにまとめること。kの値は、従来法で用いられる対応する値よりも小さい。(ii)各スーパーサンプルをbビットの精度で記録すること。bの値は、従来法で用いられる対応する値よりも小さい。(iii)2個のオブジェクトが十分に類似していると結論するためにl(エル)個のスーパーサンプルの一致を要求すること。l(エル)の値は、従来法で要求される対応する値よりも大きい。本方法の一用途は、問合せ結果がほとんどそっくり物文書(よく似た文書)であるクラスタ(束)を判定する、ウェブ検索エンジン問合せサービスに関連する。
【選択図】 図4

Description

本発明は、大規模コレクション(収集物)内で類似のデータオブジェクトを識別することに関し、より詳細には、ワールドワイドウェブ(World Wide Web)のような非常に大規模な文書コーパス(言語資料集合体)内でほとんどそっくり物(near-duplicate)を識別することに関する。
一般に、大規模な文書コレクションは、互いに同一またはほぼ同一の文書を多数含む。2つのディジタル符号化された文書がビット単位で同一かどうかを判定することは容易である(例えばハッシュ技法を用いる)。しかし、おおよそあるいは実質同一である文書を迅速に識別することはより困難であるけれども、多くの状況において、より有益な仕事である。ワールドワイドウェブは、極めて大規模な文書の集合である。ウェブはその誕生以来指数関数的に成長してきているので、現在ではウェブインデックスは約50億ウェブページを含み(静的ウェブは200億ページと推定される)、そのかなりの部分がそっくり物(duplicate;重複、複製)またはほとんどそっくり物(near-duplicate;準重複、ほぼ複製)である。ウェブクローラや検索エンジンのようなアプリケーションにとって、ほとんどそっくり物を検出する能力は有益である。例えば、このようなアプリケーションにほとんどの重複および重複に近いものを無視させたり、類似の文書をまとめるように問合せの結果をフィルタリングしたりすることが望ましい場合がある。
大規模コレクション内の類似オブジェクトを見出すという問題を解決するために、「シングリング」(shingling)あるいは「シングルプリンティング」(shingleprinting)という技法が開発されている。この技法の種々の態様が、以下の特許文献に記載されている。
特許文献1、発明者:Broder他、名称:「Method for Determining the Resemblance of Documents」、出願日:1996年6月18日。
特許文献2、発明者:Broder他、名称:「Method for Estimating the Probability of Collisions of Fingerprints」、出願日:1997年9月15日。
特許文献3、発明者:Broder他、名称:「System and Method for Monitoring Web Pages by Comparing Generated Abstracts」、出願日:1997年12月19日。この米国特許では、本出願の発明者が共同発明者となっている。
特許文献4、発明者:Broder他、名称:「Method for Clustering Closely Resembling Data Objects」、出願日:1998年3月26日。この米国特許では、本出願の発明者が共同発明者となっている。
特許文献5、発明者:Broder他、名称:「Method for Clustering Closely Resembling Data Objects」、出願日:2000年8月21日。この米国特許では、本出願の発明者が共同発明者となっている。
特許文献6、米国特許出願第09/960,583号、発明者:Manasse他、名称:「System and Method for Determining Likely Identity in a Biometric Database」、出願日:2001年9月21日、公開日:2003年3月27日。この米国特許出願では、本出願の発明者が共同発明者となっている。
また、非特許文献1、非特許文献2、および非特許文献3も参照されたい。
これらの特許文献および非特許文献はそれぞれ引用により本明細書に援用される。
シングリング手法では、2つの非常に類似する文書が多数の特徴を共有するように、文書を十分に代表する特徴集合へと文書を縮約する。テキスト文書の場合、wを一定の数として、重複する連続w語のサブフレーズ(その文書の「w−シングリング」)の集合を特徴として抽出すると有益であることが分かっている。DおよびDを文書とし、FおよびFをそれぞれの特徴集合として、DとDの類似度を、特徴集合のジャカール(Jaccard)係数
Figure 2005276205
(すなわち、2つの文書内の共通する特徴の個数を、2つの文書内の特徴の総数で割ったもの)として定義する。これは0と1の間の数を与える。2つの本質的に同等の文書の類似度は1に近い数となるが、ほとんどの非類似文書のペアに対する類似度は0に近い数となる。なお、大規模コレクション内で実質同一項目を検出するためのシングリング技法は、テキストコーパスに制限されないことに留意すべきである。シングリングは、代表特徴集合を抽出することが可能なサウンド録音およびビジュアル画像等の任意の種類のデータオブジェクトのコレクションに適用可能である。
各文書から抽出される特徴の個数は、(その文書内の単語数と同程度に)極めて大きくなる可能性がある。文書コレクション自体が非常に大きい(ウェブの場合のように、数十億となり得る)と仮定すると、類似度の値を正確に計算しペアごとの比較を実行することは、コレクションのサイズに関して2次であり、極めて高価となる。そこで、問題を扱いやすいサイズに縮小するために、類似度を近似する。
この近似は、文書の類似度を保ちながら各文書の特徴集合をサンプリングすることを含む。原理的には、特徴の空間から、すべての特徴からなる集合よりも大きい整列集合へのランダムな一対一関数を使用できる。整列性により、確率関数(rondom function)による特徴集合の像の最小元が存在する。その最小元の原像(preimage)を、選択されるサンプル特徴にとる。すべての関数が等確率であるので、これでうまくいく。集合の任意の元が最小元に写像される可能性が同程度であり、2つの集合から選択する場合、最小元はその和集合から一様に選択される。
上記の方式は、実際に実施可能であるためには変更が必要である。まず第一に、一様に選び出すには、像集合を整数の有限集合とするのが便利である。特徴集合が有界でない場合、有限集合への一対一関数を得るのが困難である。うまく選んだハッシュ関数、好ましくはラビンフィンガープリント(Rabin fingerprint)を用いて、各特徴を固定ビット数の数値へとハッシュすることで、その集合全体での衝突確率が無視できるほど小さくなる程度の大きさの集合を選択できる。第二に、真にランダムな関数を選ぶ代わりに、より小さい、容易にパラメータ化(媒介変数化)される関数の集合から関数を選択する。ここで、選択される関数は、正しい確率に任意に近づくように良好であることが証明できる。通常、線型合同置換の組合せをラビンフィンガープリントとともに用いる。ただし、その正当性は証明可能でない。
この技法は、Prob(f=f)=Sim(D,D)となるように、各特徴集合Fから1つの特徴fを選択するためのメカニズムを提供する。この選択メカニズムは、類似度に対する不偏点推定量(unbiased point estimator)を提供する。ある数r個のセレクタを選ぶ。それぞれの文書Dに対し、Dに関して各セレクタを1回ずつ用いて、f ,...,f を計算する。これにより、ある程度の前処理と引き替えに、各項目に対するデータ記憶域を一定値に縮約し、集合の比較をベクトルの成分の照合に帰着させる。
複数の独立な選択メカニズムを実行することにより、選択のベクトルの一致を数えることによって、2つの文書の類似度の百分率の推定値が得られる。p=Sim(D,E)の場合、DおよびEに対するベクトルの各成分は確率pで一致する。k個連続で成分が一致する確率はpである。重複しない連続するk個の成分を、ハッシュ値の衝突確率が無視し得るようになるくらい大きい空間から選択される単一の整数へとハッシュすることによって、ベクトルを圧縮しつつ、必要な記憶域をk分の1に縮小できる。長さkのグループ(「スーパーサンプル」)がs個存在する場合、1個以上のスーパーサンプル(supersampel)が一致する確率は1−(1−pであり、2個以上のスーパーサンプルが一致する確率は1−(1−p−s(1−ps−1である。
Alta Vista検索エンジンに関する従来研究では、各文書のテキストの正規化バージョンの6−シングリングを特徴集合として抽出した。特徴は、64ビット整数として表現した。線型合同置換を用いた技法をそれぞれの64ビット整数に適用することにより、新たな64ビット整数の集合を生成し、その新しい集合内の最小元の原像をサンプルとして選択した。84個のサンプルをとり、14サンプルずつにまとめて6個のスーパーサンプルに分割した。すなわち、パラメータkおよびsについて、k=14およびs=6という値を用いた。パラメータをこのように選択したのは、ほとんどそっくり物文書に対する所望の類似度閾値が0.95であったからである。2つの文書間で14個のサンプルが一致する確率は文書の類似度の14乗に等しいので、文書がほとんどそっくり物である場合、その確率は0.9514となる。これは約2分の1である。したがって、それぞれ14サンプルからなる6個のグループの場合、6個中少なくとも2個のグループが一致する可能性は高く、2個よりも少ないグループが一致する可能性は低い。よって、文書がおそらくほとんどそっくり物であると判断するには、6個中2個のスーパーサンプルを照合する必要がある。上記従来研究は、所望の閾値に従ってほとんどそっくり物項目を識別するのに実際に有効であった。
上記従来研究では、照合プロセスを項目ごとの少数のハッシュテーブル参照に単純化できることが分かった。1グループ内のk個のサンプルを1つの64ビット整数に圧縮する。以下でさらに説明するように、非類似文書との偶然の一致を避けるために、各スーパーサンプルを64ビットの精度で記録する。そして、s個の64ビット整数のすべての可能なペアをハッシュテーブルに挿入する。例えばs=6の場合、少なくとも2個連続して一致する項目を見出すには、
Figure 2005276205
回の参照だけでよいので、15個のハッシュテーブルが用いられる。
米国特許第5909677号明細書 米国特許第5974481号明細書 米国特許第6269362号明細書 米国特許第6119124号明細書 米国特許第6349296号明細書 米国特許出願公開第2003/0061233号明細書 (米国特許出願第09/960,583号) ブローダー(Broder)、「文書の類似および包含について(On the Resemblance and Containment of Documents)」、1997 Proc. Compression & Complexity of Sequences (IEEE 1998) p.21-29 ブローダー(Broder)、グラスマン(Glassman)、マナッセ(Manasse)、ツヴァイク(Zweig)、「ウェブの統語論的クラスタリング(Syntactic Clustering of the Web)」、Proc. 6th Intl. World Wide Web Conf.、1997年4月、p.391-404 マナッセ(Manasse)、「大規模コレクション内で迅速に類似物を見出すこと(Finding Similar Things Quickly in Large Collections)」、[online]、2004年、<URL: http://research.microsoft.com/research/sv/PageTurner/similarity.htm>
上記従来研究はオフラインプロセスの使用を対象としていたので、主記憶を節約することは主要な関心事ではなかった。例えば、前段落に記載したハッシュ最適化はオフライン処理に適している。しかし、この技法で文書ごとに必要な記憶域は、すべての文書に対してこの技法を「進行中(on the fly)」に実行する検索エンジンにとっては受け入れがたいものとなる。この場合、50億文書のコレクションでは、6個の値を記憶するために240ギガバイトのメモリフットプリントを要し、ハッシュテーブルを記憶するためにさらに520ギガバイトを要する。これは、検索実行時に扱いにくく、インデックス構築に制約を課すことになる。例えば、検索エンジンは、文書コレクション全体に対する前処理を実行せず、そのインデックスを増分的に作成するかもしれない。検索エンジンは、オンラインプロセスにおいて、報告しようとしているどの問合せ結果がほとんどそっくり物であるかを判定し、ランキング関数を用いてほとんどそっくり物クラスタ(束)当たり1つの文書を選択して報告をその文書へと縮約することで、最もよく対応する文書を動的に選択できれば望ましい。
いくつかの実施形態に従って、本発明は、オブジェクトのコレクション内で類似のオブジェクトを検出する方法を提供する。本方法は、誤検出を従来法とほぼ同程度に回避しながら、オブジェクトごとの必要メモリを縮小するように従来法を修正することを含む。この修正は以下のことを含む。(i)k個の特徴サンプルをs個のスーパーサンプルにまとめること。kの値は、従来法で用いられる対応する値よりも小さい。(ii)各スーパーサンプルをbビットの精度で記録すること。bの値は、従来法で用いられる対応する値よりも小さい。(iii)2個のオブジェクトが十分に類似していると結論するために、l(エル)個のスーパーサンプルの一致を要求すること。このl(エル)の値は、従来法で要求される対応する値よりも大きい。本方法におけるl(エル)の値は、例えば、s、s−1、またはs−2としてよい。
一実施形態によれば、k=4であり、これは従来法におけるk=14よりも小さい。一実施形態によれば、b=16であり、これは従来法におけるb=64よりも小さい。また、6個中4個のスーパーサンプルが一致することを要求しており、これは従来法における6個中2個の要求よりも増大している。別の実施形態では、従来法における6個中2個の代わりに、7個中5個のスーパーサンプルが一致することを要求している。さらに別の実施形態では、すべてのスーパーサンプル、したがってすべてのサンプルが一致することを要求している。
本発明のいくつかの実施形態では、本方法は、ほとんどそっくり物文書である問合せ結果のクラスタを判定するために、ウェブ検索エンジン問合せサービスに関連して用いられる。本方法がこのようなクラスタを見出すために用いられた場合、各クラスタから、例えばランキング関数に従って1つの文書を選択し、クラスタ全体ではなくその1つの文書(および類似文書への参照)を問合せ提出者に報告する。
なお、本発明は、全部または一部を、コンピュータ上で実行するためのソフトウェアとして実施してもよいと意図している。
本発明の他の特徴は、以下の説明を図面とともに参照すれば明らかとなるであろう。
以下の記載において、本発明のいくつかの実施形態を説明する。説明のために、実施形態の理解が得られるために、具体的な構成および詳細を記載する。しかし、そうした具体的詳細なしで本発明を実施し得ることも当業者にとっては明らかであろう。また、説明する実施形態があいまいにならないようにするために、本発明の一部であって当業者にとって本質的に基礎的な周知の特徴は、おおむね省略または簡略化する。
本発明は、従来研究の方法とほぼ同程度に、大規模コレクション内のほとんどそっくり物項目(near-duplicate item)を識別しつつ、文書当たりの必要メモリを低減する技法を提供する。これにより、オフラインプロセスが望ましくない、あるいは使用できない状況や、上記の発明が解決しようとする課題に記載した検索エンジンの例の場合のように特定のメモリ制約が提起されているその他の状況において、本技法は実施可能で有益となる。
図1は、さまざまなパラメータ値を用いてシングルプリンティング(shingle printing method)法を適用した場合に文書を受け取る確率101を示すグラフである。基礎となる類似度103がx軸に表示されている。凡例105の表記は、利用可能なスーパーサンプルの総数のうち、一致することが要求されるスーパーサンプルの個数を示す。Lkという表記は、各スーパーサンプルがk個のサンプルをまとめたものであることを示す。最も右側の曲線107(「6個中2個、L14」として示す)は、前に背景技術の箇所で説明したように、従来研究で適用されたパラメータに対する結果をプロットしている。この曲線は階段関数(step function)に極めて近く、95%レベルでほとんどそっくり物を識別する可能性があるという既存の手法の利点を例示している。
前に背景技術の箇所に記載したように、ウェブ検索エンジン問合せ結果におけるほとんどそっくり物に対する従来研究では、6個のスーパーサンプル(そのうちの2個の一致が要求される)の長さはそれぞれ64ビットである。誕生日パラドックス(birthday paradox)による誤衝突がないように保証するために、要求される一致の組合せに対して128ビットの精度が必要である。誕生日パラドックスによれば、n個の項目からなるコレクションにおいては、たった√n個の項目の後で衝突が起こる可能性が高くなる。精度が64ビットしかないと、プロセスは、類似度について232対の項目を調べた後に、誕生日パラドックスの影響を受けやすくなる。したがって、ウェブ全体(上記のように数十億の文書)ほどの大規模な文書コレクションでは、ほとんどといっていいくらい、誤衝突(false collision)が保証されることとなる。よって、64ビットのスーパーサンプルを用いる場合、6個中2個の一致が必要であり、6個すべてのスーパーサンプルの記憶域が必要である。50億の文書の場合、多くのウェブ検索関連アプリケーションにとって、明らかに、このような必要記憶域は相当に大きく、非実用的となる。
本発明は、従来研究における総体的な識別力に十分に近づきながら、必要記憶域が大幅に低減されるという洞察を具現化する。各スーパーサンプルにまとめるサンプルを少なくし、スーパーサンプルの集合のうちでより多くの一致を要求する。いくつかの実施形態では、1個または2個を除くすべてのスーパーサンプルが一致することを要求する。別の実施形態では、すべてのスーパーサンプル、したがってすべてのサンプルが一致することを要求する。各スーパーサンプルのビット精度を低減しているものの、依然として誕生日パラドックス衝突は回避される。本発明は、特に大規模なコレクションに対する新規な具体的技法を提供することに加えて、メモリ使用量を節約するために、そのようなコレクションにおける類似度を検出する既存の具体的技法を修正する方法を提供する。
一実施形態では、ユーザ問合せの結果を処理するウェブ検索エンジン問合せサービスに関連して、文書のほとんどそっくり物(複製に近いもの、重複に近いもの)を判定する技法を用いることにより、ほとんどそっくり物のそれぞれの集合のうちただ1つのほとんどそっくり物のみをユーザに報告する。図3は、そのような問合せサービスのための例示的プロセスを示している。ステップ301で、問合せを処理し、結果集合(result set)を生成する。ステップ303で、ほとんどそっくり物である結果のクラスタ(集団、一団)を判定する方法を適用する。ステップ305で、ほとんどそっくり物の各クラスタについて、ランキング関数を適用することにより、高く評価される結果を判定する。ステップ307で、フィルタリングされた問合せ結果をユーザに報告する。
この実施形態では、従来研究の場合のように6個中2個のスーパーサンプルではなく、6個中4個のスーパーサンプルが一致することを要求する。各スーパーサンプルの長さはそれぞれ16ビットに過ぎない。16ビットで十分であるのは、4個の一致を要求するので、それぞれのビット数が誤衝突を回避する確率に寄与するからである。さらに、この実施形態では、一般にはウェブ全体が検索されているのではなく、ある特定の時刻において1つの問合せの結果どうしが競合しているだけなので、関与する文書数は数十億ではなく、数万ないし数十万となる可能性が高い。したがって、(検索エンジンユーザが空の問合せ(null query)をするようなことがなければ)誕生日パラドックスの影響を回避するのに128ビットも必要となることはなく、64ビットで十分である可能性が高い。各スーパーサンプルは、14個のサンプルをまとめて1つの64ビット数値に圧縮するのではなく、4個のサンプルをまとめて1つの16ビット数値に圧縮したものである。というのは、6個中4個が一致する確率(それぞれの一致確率は2分の1)は比較的小さいからである。ビット精度の低減により、必要メモリを約4分の1に縮小できる。それをさらに縮小することも可能である。というのは、メモリ内ハッシュテーブルは問合せに対して返される文書の集合について作成されるので、文書の集合全体に対して必要とされる値は、15個全部ではなく6個の値だけで済むからである。
図4は、上記の本発明の実施形態による、文書がほとんどそっくり物であるかどうかを判定する手法の代表的ステップを示している。ステップ401で、文書あるいはその他のオブジェクトを特徴集合(a set of features)に縮約する。ウェブ上の検索可能文書のようなテキストベースの文書の場合、シングリング法(shingling approach)を用いることができる。ステップ403で、文書を語彙解析(lexically analyze)し、句読点や大文字使用のような特徴を無視してトークン列を作成する。ステップ405で、連続する固定ワードサイズのサブフレーズの集合を求める。
ステップ407で、特徴を64ビット整数に変換する。ステップ409で、変換された特徴集合に擬似確率関数(pseudorandom function)を適用し、ステップ411で、像集合の最小元(minimal element)の原像(preimage)をとることによって1つのサンプルを選択する。ステップ409および411はk=4回実行される。ステップ413で、結果として得られた選択ベクトルをハッシュして1つのスーパーサンプルを生成し、16ビットの精度で記録する。このサブプロセスは、6個のスーパーサンプルを生成するように繰り返される。ステップ415で、照合のために6個のメモリ内テーブルを作成する。6個中4個のスーパーサンプルが一致する場合(ステップ417)、比較中の文書はほとんどそっくり物であると判定し(ステップ419)、そうでない場合、ほとんどそっくり物でないと判定する(ステップ421)。ステップ415および417の効率的な実施には、15個のハッシュテーブルを用いて4個のスーパーサンプルの組合せを記憶するとよい。
各スーパーサンプルのビット長をbとすると、s個中l個の一致を求める場合の偽陽性率(false positive rate)は
Figure 2005276205
である。233個の文書のコレクションにおける偽陽性数の期待値は
Figure 2005276205
である。l=4、s=6、およびb=16の場合、コレクション全体で60個の文書クラスタが誤って重複(そっくり物)と識別される。これは、2個のこのようなクラスタが単一の問合せの結果集合内に現れる場合に限り観測されることになる。仮に、どの問合せも210個より多くのクラスタを返さない場合、約1兆個の問合せが処理された後で誤衝突に遭遇すると予想できる。検索エンジンによってサポートされる問合せレートが年間約235回の問合せであると仮定した場合、問合せサービスが常時フルスピードで実行され、すべての問合せが最大の結果集合を有するとしても、誤衝突が起こるのは1世紀に2、3回である。
図1に戻って、曲線109が上記の実施形態に対応し、「6個中4個、L4 16ビット」として示されている。「16ビット」とは、各スーパーサンプルが16ビットの精度で記録されることを意味する。同図から分かるように、曲線109は、曲線107ほど急峻ではない。曲線111のほうが曲線107に対するやや優れた近似であり、「7個中5個、L4」(これは、7個中5個のスーパーサンプルが一致し、各スーパーサンプルが4個のサンプルをまとめたものであることを意味する)で示されている。前段落に記載した検索エンジンアプリケーションの代替実施形態は、この7個中5個の解決手段を用いる。図示していないが、「6個中4個、L5」も良好な近似である。
図2は、図1にプロットした値の対数をとることに基づいて得られた誤採択率(false acceptance rate)201のグラフを示している。ここにプロットされている曲線は、基礎となる組合せ論および各サンプルに組み込まれた精度の両方を反映する。このグラフは一般的に、類似度が低下すると、文書ペアがほとんどそっくり物と誤って識別される確率が非常に小さくなることを示している。「6個中4個、L4 16ビット」に対する曲線203の左端は10−18で水平になっているが(リードライン205)、これはサンプルに対する16ビット精度に関連する限界を意味する。しかし、上記の実施形態の場合にはこれで十分であり、誤衝突の確率は無視できる。
他の変形形態も本発明の技術思想の範囲内にある。したがって、本発明は種々の変更および代替構成が可能であり、その例示的実施形態が図面に示され上記で説明されている。しかし、理解されるべきであるが、開示された特定の1つまたは複数の形態に本発明を限定する意図はなく、逆に本発明は、特許請求の範囲に規定される本発明の趣旨および範囲に入るすべての変更、代替構成、および均等物を包含するものである。
本発明の好ましい実施形態が本明細書に記載されており、それには本発明者が知っている本発明を実施するための最良の形態が含まれている。当業者にとって、それらの好ましい実施形態の変形は、上記の説明を読むことから明らかとなるであろう。本発明者は、当業者がそのような変形を適宜用いることを見込んでおり、本明細書に具体的に記載された以外の方法で本発明が実施されることを予定している。したがって、本発明は、準拠法によって許容される限り、特許請求の範囲に記載の事項のすべての変更および均等物を包含する。さらに、本明細書において特に断りのない限り、あるいは文脈と明白に矛盾しない限り、上記の要素のいかなる組合せも、そのすべての可能な変形形態において、本発明に包含される。
本発明の実施形態において使用可能なパラメータを含むいくつかの異なるパラメータ選択に対して、シングルプリンティング法を用いた文書の採択確率を示すグラフである。 図1にプロットした値の対数をとることに基づいて得られた誤採択率のグラフである。 本発明の一実施形態におけるウェブ検索エンジン問合せサービスによって実行されるステップを示す流れ図である。 本発明の一実施形態による、文書がほとんどそっくり物であるかどうかを判定する方法の例示的ステップを示す流れ図である。
符号の説明
101 文書採択確率
103 類似度
105 凡例
201 誤採択率

Claims (22)

  1. オブジェクトのコレクション内で類似オブジェクトを検出する方法において、2個のオブジェクトのそれぞれについて、
    類似オブジェクトを検出する従来法とほぼ同程度に誤検出を回避しながら必要メモリを低減するように該従来法を修正したステップ
    を含み、該修正したステップが、
    前記従来法で用いられるサンプル数よりも少ない数の特徴のサンプルを各々ある総数のスーパーサンプルにまとめるステップと、
    前記従来法で用いられるビット数の精度よりも小さいビット数の精度で各々の前記総数のスーパーサンプルを記録するステップと、
    前記2個のオブジェクトが十分に類似していると結論するために、前記総数のスーパーサンプルのうち、前記従来法で要求される一致スーパーサンプル数よりも多い数の一致スーパーサンプルを要求するステップと
    を含むことを特徴とする類似オブジェクトを検出する方法。
  2. 前記一致スーパーサンプルを要求するステップが、前記スーパーサンプルの総数のうち1個以外のすべてが一致することを要求することを特徴とする請求項1に記載の方法。
  3. 前記一致スーパーサンプル数を要求するステップが、前記スーパーサンプルの総数のうち2個以外のすべてが一致することを要求することを特徴とする請求項1に記載の方法。
  4. 前記一致スーパーサンプル数を要求するステップが、すべてのスーパーサンプルが一致することを要求することを特徴とする請求項1に記載の方法。
  5. 前記サンプルを各々の総数のスーパーサンプルにまとめるステップが、4個のサンプルを各々の総数のスーパーサンプルにまとめ、前記従来法で用いられるサンプル数が14であることを要求することを特徴とする請求項1に記載の方法。
  6. 第1のビット数の精度で各スーパーサンプルを記録するステップが、16ビットの精度で各スーパーサンプルを記録することを含み、前記従来法で用いられる第2のビット数の精度が64ビットであり、
    前記一致スーパーサンプル数を要求するステップが、6個中4個のスーパーサンプルが一致することを要求し、前記従来法で要求される一致スーパーサンプル数が6個中2個のスーパーサンプル数である
    ことを特徴とする請求項5に記載の方法。
  7. 前記一致スーパーサンプル数を要求するステップが、7個中5個のスーパーサンプルが一致することを要求し、前記従来法で要求される一致スーパーサンプル数が6個中2個のスーパーサンプル数であることを特徴とする請求項5に記載の方法。
  8. 前記オブジェクトが文書であり、前記方法が、ほとんどそっくり物文書である問合せ結果のクラスタを判定する検索エンジン問合せサービスに関連して用いられることを特徴とする請求項1に記載の方法。
  9. 各クラスタ内で報告すべき1つの文書を選択するステップをさらに含むことを特徴とする請求項8に記載の方法。
  10. 前記1つの文書を選択するステップがランキング関数によることを特徴とする請求項9に記載の方法。
  11. 検索エンジン問合せ結果内のほとんどそっくり物項目のグループを判定する方法において、比較される2個の項目のそれぞれについて、
    特徴のサンプルを4個ずつまとめて6個のスーパーサンプルのそれぞれを生成するステップと、
    各スーパーサンプルを16ビットの精度で記録するステップと、
    前記6個のスーパーサンプルのうち4個が一致することを要求するステップと
    を含むことを特徴とする検索エンジン問合せ結果内のほとんどそっくり物項目のグループを判定する方法。
  12. 各クラスタ内で報告すべき1つの文書を選択するステップをさらに含むことを特徴とする請求項11に記載の方法。
  13. 前記1つの文書を選択するステップがランキング関数によることを特徴とする請求項12に記載の方法。
  14. 検索エンジン問合せ結果内のほとんどそっくり物項目のグループを判定する方法において、比較される2個の項目のそれぞれについて、
    特徴のサンプルを4個ずつまとめて7個のスーパーサンプルのそれぞれを生成するステップと、
    各スーパーサンプルを16ビットの精度で記録するステップと、
    前記7個のスーパーサンプルのうち5個が一致することを要求するステップと
    を含むことを特徴とする検索エンジン問合せ結果内のほとんどそっくり物項目のグループを判定する方法。
  15. 各クラスタ内で報告すべき単一の文書を選択するステップをさらに含むことを特徴とする請求項14に記載の方法。
  16. 前記単一の文書を選択するステップがランキング関数によることを特徴とする請求項15に記載の方法。
  17. オブジェクトのコレクション内で類似オブジェクトを検出する本方法を実施するマシン命令を具現化したコンピュータ可読媒体において、該本方法は、類似オブジェクトを検出する従来法とほぼ同程度に誤検出を回避しながら必要メモリを低減するような、該従来法の修正を含み、前記本方法が、
    前記従来法で用いられるサンプル数よりも少ない数の特徴のサンプルを各々ある総数のスーパーサンプルにまとめるステップと、
    前記従来法で用いられるビット数の精度よりも小さいビット数の精度で各々の前記総数のスーパーサンプルを記録するステップと、
    前記2個のオブジェクトが十分に類似していると結論するために、前記従来法で要求される一致スーパーサンプル数よりも多い数の一致スーパーサンプル数を要求するステップと
    を含むことを特徴とするコンピュータ可読媒体。
  18. 前記一致スーパーサンプル数を要求するステップが、前記スーパーサンプルの総数のうち1個以外のすべてが一致することを要求することを特徴とする請求項17に記載のコンピュータ可読媒体。
  19. 前記一致スーパーサンプル数を要求するステップが、前記スーパーサンプルの総数のうち2個以外のすべてが一致することを要求することを特徴とする請求項17に記載のコンピュータ可読媒体。
  20. 前記一致スーパーサンプル数を要求するステップが、すべてのスーパーサンプルが一致することを要求することを特徴とする請求項17に記載のコンピュータ可読媒体。
  21. 検索エンジン問合せ結果内のほとんどそっくり物項目のグループを判定する方法を実施するマシン命令を具現化したコンピュータ可読媒体において、比較される2個の項目のそれぞれについて、
    特徴のサンプルを4個ずつまとめて6個のスーパーサンプルのそれぞれを生成するステップと、
    各スーパーサンプルを16ビットの精度で記録するステップと、
    前記6個のスーパーサンプルのうち4個が一致することを要求するステップと
    を含むことを特徴とするコンピュータ可読媒体。
  22. 検索エンジン問合せ結果内のほとんどそっくり物項目のグループを判定する方法を実施するマシン命令を具現化したコンピュータ可読媒体において、比較される2個の項目のそれぞれについて、
    特徴のサンプルを4個ずつまとめて7個のスーパーサンプルのそれぞれを生成するステップと、
    各スーパーサンプルを16ビットの精度で記録するステップと、
    前記7個のスーパーサンプルのうち5個が一致することを要求するステップと
    を含むことを特徴とするコンピュータ可読媒体。
JP2005080092A 2004-03-22 2005-03-18 そっくり物(重複)の検出・抑制方法 Pending JP2005276205A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/805,805 US7603370B2 (en) 2004-03-22 2004-03-22 Method for duplicate detection and suppression

Publications (2)

Publication Number Publication Date
JP2005276205A true JP2005276205A (ja) 2005-10-06
JP2005276205A5 JP2005276205A5 (ja) 2008-05-08

Family

ID=34912641

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005080092A Pending JP2005276205A (ja) 2004-03-22 2005-03-18 そっくり物(重複)の検出・抑制方法

Country Status (7)

Country Link
US (1) US7603370B2 (ja)
EP (1) EP1585073B1 (ja)
JP (1) JP2005276205A (ja)
KR (1) KR101153033B1 (ja)
CN (1) CN100447782C (ja)
AT (1) ATE432515T1 (ja)
DE (1) DE602005014582D1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015232855A (ja) * 2014-06-11 2015-12-24 日本電信電話株式会社 イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム
JP2023035656A (ja) * 2021-09-01 2023-03-13 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735253B1 (en) 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
US7143434B1 (en) 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
US7339992B2 (en) 2001-12-06 2008-03-04 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
US7707157B1 (en) 2004-03-25 2010-04-27 Google Inc. Document near-duplicate detection
US7680798B2 (en) * 2004-11-20 2010-03-16 International Business Machines Corporation Method, device and system for automatic retrieval of similar objects in a network of devices
US7630987B1 (en) * 2004-11-24 2009-12-08 Bank Of America Corporation System and method for detecting phishers by analyzing website referrals
WO2006096612A2 (en) 2005-03-04 2006-09-14 The Trustees Of Columbia University In The City Of New York System and method for motion estimation and mode decision for low-complexity h.264 decoder
US8140505B1 (en) * 2005-03-31 2012-03-20 Google Inc. Near-duplicate document detection for web crawling
US7472131B2 (en) * 2005-12-12 2008-12-30 Justsystems Evans Research, Inc. Method and apparatus for constructing a compact similarity structure and for using the same in analyzing document relevance
US8280782B1 (en) * 2006-05-31 2012-10-02 Amazon Technologies, Inc. System and method for managing a listing of offers between buyers and sellers
US20080219495A1 (en) * 2007-03-09 2008-09-11 Microsoft Corporation Image Comparison
US20080244428A1 (en) * 2007-03-30 2008-10-02 Yahoo! Inc. Visually Emphasizing Query Results Based on Relevance Feedback
US8204866B2 (en) * 2007-05-18 2012-06-19 Microsoft Corporation Leveraging constraints for deduplication
US20090089326A1 (en) * 2007-09-28 2009-04-02 Yahoo!, Inc. Method and apparatus for providing multimedia content optimization
WO2009126785A2 (en) * 2008-04-10 2009-10-15 The Trustees Of Columbia University In The City Of New York Systems and methods for image archaeology
WO2009155281A1 (en) 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
US8832034B1 (en) 2008-07-03 2014-09-09 Riverbed Technology, Inc. Space-efficient, revision-tolerant data de-duplication
US8370309B1 (en) 2008-07-03 2013-02-05 Infineta Systems, Inc. Revision-tolerant data de-duplication
US8078593B1 (en) 2008-08-28 2011-12-13 Infineta Systems, Inc. Dictionary architecture and methodology for revision-tolerant data de-duplication
US20100070511A1 (en) * 2008-09-17 2010-03-18 Microsoft Corporation Reducing use of randomness in consistent uniform hashing
KR20100066920A (ko) * 2008-12-10 2010-06-18 한국전자통신연구원 전자 문서 처리 장치 및 그 방법
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
US8825641B2 (en) 2010-11-09 2014-09-02 Microsoft Corporation Measuring duplication in search results
US8594239B2 (en) 2011-02-21 2013-11-26 Microsoft Corporation Estimating document similarity using bit-strings
US20150254342A1 (en) * 2011-05-30 2015-09-10 Lei Yu Video dna (vdna) method and system for multi-dimensional content matching
US8909625B1 (en) 2011-06-02 2014-12-09 Google Inc. Image search
US9058469B2 (en) 2012-01-18 2015-06-16 International Business Machines Corporation End user license agreement detection and monitoring
US20130290232A1 (en) * 2012-04-30 2013-10-31 Mikalai Tsytsarau Identifying news events that cause a shift in sentiment
US9443025B1 (en) * 2015-07-07 2016-09-13 Yext, Inc. Suppressing duplicate listings on multiple search engine web sites from a single source system given a known synchronized listing
US10762156B2 (en) 2015-07-07 2020-09-01 Yext, Inc. Suppressing duplicate listings on multiple search engine web sites from a single source system triggered by a user
US10203953B2 (en) * 2017-02-24 2019-02-12 Microsoft Technology Licensing, Llc Identification of duplicate function implementations
US11934568B2 (en) 2019-12-12 2024-03-19 Mellanox Technologies, Ltd. Cable security

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6119124A (en) * 1998-03-26 2000-09-12 Digital Equipment Corporation Method for clustering closely resembling data objects

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5721788A (en) * 1992-07-31 1998-02-24 Corbis Corporation Method and system for digital image signatures
US5909677A (en) 1996-06-18 1999-06-01 Digital Equipment Corporation Method for determining the resemblance of documents
US6058410A (en) * 1996-12-02 2000-05-02 Intel Corporation Method and apparatus for selecting a rounding mode for a numeric operation
US5974481A (en) 1997-09-15 1999-10-26 Digital Equipment Corporation Method for estimating the probability of collisions of fingerprints
US6269362B1 (en) 1997-12-19 2001-07-31 Alta Vista Company System and method for monitoring web pages by comparing generated abstracts
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
CN1206847C (zh) * 2003-06-30 2005-06-15 北京大学计算机科学技术研究所 一种基于内容的视频片段检索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6119124A (en) * 1998-03-26 2000-09-12 Digital Equipment Corporation Method for clustering closely resembling data objects

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015232855A (ja) * 2014-06-11 2015-12-24 日本電信電話株式会社 イベント同一性判定方法、イベント同一性判定装置、イベント同一性判定プログラム
JP2023035656A (ja) * 2021-09-01 2023-03-13 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7410099B2 (ja) 2021-09-01 2024-01-09 Lineヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
KR20060044563A (ko) 2006-05-16
EP1585073B1 (en) 2009-05-27
US20050210043A1 (en) 2005-09-22
EP1585073A1 (en) 2005-10-12
DE602005014582D1 (de) 2009-07-09
CN100447782C (zh) 2008-12-31
ATE432515T1 (de) 2009-06-15
US7603370B2 (en) 2009-10-13
KR101153033B1 (ko) 2012-06-04
CN1677393A (zh) 2005-10-05

Similar Documents

Publication Publication Date Title
JP2005276205A (ja) そっくり物(重複)の検出・抑制方法
Zhu et al. Linear cross-modal hashing for efficient multimedia search
Bilenko et al. On evaluation and training-set construction for duplicate detection
US8315997B1 (en) Automatic identification of document versions
US6119124A (en) Method for clustering closely resembling data objects
US7792829B2 (en) Table querying
US8244767B2 (en) Composite locality sensitive hash based processing of documents
JP5037627B2 (ja) 顔認識を用いた画像の識別
US10649997B2 (en) Method, system and computer program product for performing numeric searches related to biometric information, for finding a matching biometric identifier in a biometric database
JP2020500371A (ja) 意味的検索のための装置および方法
JP2008541228A (ja) 意味的に関係する検索エンジンクエリを見つける方法
TW201027375A (en) Search system, search method and program
JP3798719B2 (ja) ブロック・レベル・サンプリングを使用してデータベースのクラスタ化係数を判定する装置および方法
JP2003030222A (ja) 大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のための方法、システム、記録媒体、およびサーバ
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
CN116738988A (zh) 文本检测方法、计算机设备和存储介质
Kishida High‐speed rough clustering for very large document collections
Evangelista et al. Adaptive and flexible blocking for record linkage tasks
Pereira et al. A generic Web‐based entity resolution framework
Zhang et al. Measuring multi-modality similarities via subspace learning for cross-media retrieval
Dal Bianco et al. Tuning large scale deduplication with reduced effort
Zhang et al. A preprocessing framework and approach for web applications
CN114218347A (zh) 多个文件内容的快速索引查找方法
Batra et al. Semantic discovery of web services using principal component analysis
JP3287307B2 (ja) 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080318

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101102

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110408