JP2011129161A - 重複する文書の検出および表示機能 - Google Patents

重複する文書の検出および表示機能 Download PDF

Info

Publication number
JP2011129161A
JP2011129161A JP2011057289A JP2011057289A JP2011129161A JP 2011129161 A JP2011129161 A JP 2011129161A JP 2011057289 A JP2011057289 A JP 2011057289A JP 2011057289 A JP2011057289 A JP 2011057289A JP 2011129161 A JP2011129161 A JP 2011129161A
Authority
JP
Japan
Prior art keywords
document
documents
query
feature
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011057289A
Other languages
English (en)
Other versions
JP5522743B2 (ja
Inventor
Jack G Conrad
ジー. コンラッド ジャック
Joanne R S Claussen
アール.エス. クラウセン ジョアン
Jie Lin
チエ リン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Reuters Global Resources ULC
Original Assignee
Thomson Reuters Global Resources ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Reuters Global Resources ULC filed Critical Thomson Reuters Global Resources ULC
Publication of JP2011129161A publication Critical patent/JP2011129161A/ja
Application granted granted Critical
Publication of JP5522743B2 publication Critical patent/JP5522743B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

【課題】検索結果内の重複する文書の識別および/またはグループ分けを容易にするシステム、方法、およびソフトウェアを提供すること。
【解決手段】多くの企業では、ユーザーが文書をコンピュータ検索できるようにするオンライン検索機能を提供している。しかしこれらの検索は、重複する文書、すなわち完全または実質的に同じ文書を提供することが多い。さらに、重複する文書が検索結果に混在し、ユーザー自身にそれらの文書の識別および/またはフィルタリングを手作業で処理させている。例示的システムは、長さ、時間的、および/またはコンテンツコンポーネントに基づいて文書署名を生成する署名生成モジュール、文書署名を使用して「正確な」または「あいまいな」重複する文書を識別するリアルタイム重複検出モジュール、検索結果にどのように重複する文書を表すかまたは抑制するかを制御するユーザーインターフェースまたは表示モジュールを備える。
【選択図】図1

Description

(関連出願の相互参照)
本出願は、2004年8月23日出願の米国仮出願第60/603,762号(代理人整理番号4962.030PRV)、および2004年11月1日出願の米国仮出願第60/623,975号(代理人整理番号4962.030PV2)に対する優先権を主張するものである。どちらの出願も、参照することにより本願明細書に援用される。
(著作権の表示および許可)
この特許文献の一部は、著作権保護を受ける資料を含む。著作権所有者は、特許商標局の特許ファイルまたは記録に記載されている、特許文献および特許開示については、誰でも自由にファクシミリによって複製することに異論はないが、その他の場合には、すべての著作権を保有する。以下の表示:Copyright(C)2004、West Services,Inc.は、本文書に適用される。
(技術分野)
本発明の種々の実施形態は、ニュース文書または他の関連するコンテンツを提供するような、情報検索システムに関する。
(背景)
ミネソタ州セントポールのThomson Legal&Regulatory,Inc.(Thomson West社として運営)のような企業では、データベースのシステムおよびWestlaw(登録商標)システムとして公知の検索ツールへのオンラインアクセスに対して、ニュースを含む非常に広範囲の文書を世界中から収集および格納している。Westlawシステムでは、ユーザーに1億以上の文書を検索する能力を与えている。
本発明の発明者が認識している1つの問題には、ニュースまたは他のデータベースに対して行われる検索が、重複する文書、すなわち、互いに全くまたは実質的に同じ文書を提供することが多い、ということがある。この問題は、再版(re−publication)のためにニュース記事を世界中の複数の出版社に販売している、AP通信社(AP)のようなニュースのプロバイダから生じている。これはまた、ユーザーに、多様な出版社からの複数群のニュース記事への検索可能なアクセスを提供する、Westlawシステムのようなシステムが、一般にユーザーの検索結果において、多くのニュースの重複する複製を示していることを意味する。不都合にも、重複する記事は、概して、他の相異なる記事との関連性に基づいて混合され、ユーザー自身にそれらの文書の識別および/またはフィルタリングを手作業で処理させている。
その点を考慮して、本発明の発明者らは、情報検索システムの文書収集時に、およびさらに重要なことにはそのシステムのユーザーの検索結果内の重複する文書の存在を、Westlawシステムのような情報検索システムがどのように処理するのかに効果的に対処することの必要性を認識した。
(概要)
こうした必要性に対処するために、本発明の発明者らは、検索結果内の重複する文書の識別および/またはグループ分けを容易にする、システム、方法、およびソフトウェアを案出した。一例示的システムは、次の3つ主要なコンポーネントを含む:1)長さ、時間的、および/またはコンテンツコンポーネントに基づいて文書署名を生成する署名生成モジュール;2)文書署名を使用して「正確な」または「あいまいな」重複する文書を識別する重複検出モジュール;および3)検索結果に、どのように重複する文書を表すかをユーザーが制御できるようにする、ユーザーインターフェース(または表示)モジュール。例えば、ユーザーは、検索結果から重複を除外するか、または重複を結果の表示に一緒にグループ化するかどうかを選択することができる。いくつかの実施形態では、識別およびグループ分けは、最終的に、重複する文書を含む検索結果を解釈およびアクセスするユーザーのプロセスを合理化する。
例えば、本発明は以下の項目を提供する。
(項目1)
1つ以上のデータベースと、
ネットワークを介した該データベースへのクライアントのアクセスを容易にするための1つ以上のサーバーと
を備える情報検索システムであって、各サーバーは、
ユーザーのクエリーのサブミッションを容易にし、1つ以上の他の検索結果の文書と重複するコンテンツを含む検索結果の文書の識別に関連するオプションをユーザーが選択しやすくするためのクエリー定義手段と、
該検索結果の文書のうちの1つ以上が、1つ以上の他の検索結果の文書内のコンテンツと重複するコンテンツを含むかどうかを判断するための重複判定手段であって、該重複決定手段は、
第1および第2の文書それぞれの第1および第2の特徴ベクトルを、該文書のそれぞれから選択された特徴の複数の等長二進表現を含む各特徴ベクトル、および該データベースのうちの1つ以上の逆文書頻度(idf)テーブル内の該特徴のうちの対応する1つの逐次的な位置に基づく各二進表現と比較するための手段と、
該第1および第2の文書が、該第1および第2の特徴ベクトルの比較結果に基づく重複であるかどうかを判定するための手段と
を含む、重複判定手段と、
該選択されたオプションに基づく検索結果の文書の表示を制御するための手段であって、該結果内の1つ以上の他の文書のコンテンツと重複するコンテンツを含むものとして、該表示された結果のうちの少なくとも1つが示される、文書の表示を制御するための手段と
を備える、情報検索システム。
(項目2)
前記サーバーは、前記第1および第2の文書それぞれの第1および第2の長さを比較するための手段をさらに備え、該第1および第2の文書それぞれの第1および第2の特徴ベクトルを比較するための手段は、所定の関係を有する該第1および第2の長さにのみ応えて、該特徴ベクトルを比較する、項目1に記載のシステム。
(項目3)
各特徴ベクトルは、そのそれぞれの文書から選択された少なくとも30の用語を含み、前記重複判定手段は、前記第1および第2の特徴ベクトル内の用語の少なくとも80パーセントが一致するときに、文書が重複していると判断する、項目1に記載のシステム。
(項目4)
前記idfテーブルは、idf値の降順でソートされる、項目1に記載のシステム。
(項目5)
各手段は、1つ以上の組の機械可読の命令を含む、項目1に記載のシステム。
(項目6)
情報検索システムのオペレーティング方法であって、
第1および第2の文書それぞれの第1および第2の特徴ベクトルを、該文書のそれぞれから選択された特徴の複数の二進表現を含む各特徴ベクトル、および逆文書頻度(idf)テーブル内の該特徴のうちの対応する1つの逐次的な位置に基づく各二進表現と比較するステップと、
該第1および第2の特徴ベクトルの比較結果に基づき、該第1および第2の文書が重複であるかどうかを判定するステップと
を含む、情報検索システムのオペレーティング方法。
(項目7)
ユーザーのクエリーに応えて識別された前記第1および第2の文書それぞれの第1および第2の長さを比較するステップをさらに含み、
該第1および第2の文書の比較は、該第1および第2の長さが所定の関係を有することを示す該第1および第2の長さの該比較に応じて生じる、項目6に記載の方法。
(項目8)
前記第1および第2の文書とそれぞれ関連する第1および第2の時間的値を比較するステップをさらに含む、項目6に記載の方法。
(項目9)
第1および第2の特徴ベクトルの比較は、インターネットを介した前記システムへのクエリーのサブミットに応じてリアルタイムで生じる、項目6に記載の方法。
(項目10)
前記第1および第2の文書が重複するかどうかの前記判定は、前記第1の特徴ベクトルが、少なくとも前記第2の特徴ベクトルと同じような特徴の閾値数を有する場合に限り肯定的である、項目7に記載の方法。
(項目11)
前記二進表現は、同じ長さのものであり、各特徴は、前記idfテーブル内の対応するidf値の相対的な大きさに基づいて、前記文書のそれぞれから選択される、項目6に記載の方法。
(項目12)
前記idfテーブルは、idf値の降順でソートされ、0.8を超えるidf値を有する特徴を除外する、項目11に記載の方法。
(項目13)
機械可読のメディアであって、
該第1および第2の文書それぞれの第1および第2の特徴ベクトルを、該文書のそれぞれから選択された特徴の複数の等長二進表現を含む各特徴ベクトル、および逆文書頻度(idf)テーブル内の該特徴のうちの対応する1つの位置に基づく各二進表現と比較し、
該第1および第2の特徴ベクトルの比較結果に基づき、該第1および第2の文書が重複であるかどうかを判定するための命令を含む、機械可読のメディア。
(項目14)
ユーザーのクエリーに応えて識別された前記第1および第2の文書それぞれの第1および第2の長さを比較するための命令をさらに含み、
該第1および第2の文書の比較は、該第1および第2の長さが所定の関係を有することを示す該第1および第2の長さの該比較に応じて生じる、項目13に記載のメディア。
(項目15)
前記第1および第2の文書とそれぞれ関連する第1および第2の時間的値を比較するための命令をさらに含む、項目13に記載のメディア。
図1は、本発明の1つ以上の実施形態に対応する例示的な情報検索システム100の図である。 図2は、オペレーティングシステム100の1つ以上の例示的な方法、および本発明の1つ以上の実施形態に対応するフローチャートである。 図3は、本発明の1つ以上の実施形態に対応する例示的な文書署名およびIDFテーブルの図である。 図4は、本発明の1つ以上の実施形態に対応する例示的なクエリーウィンドウ400の複製の図である。 図5は、本発明の1つ以上の実施形態に対応する例示的なユーザーインターフェース500の複製の図である。 図6は、本発明の1つ以上の実施形態に対応する例示的なユーザーインターフェース600の複製の図である。 図7は、本発明の1つ以上の実施形態に対応する例示的なHTMLフォーマットの複製の図である。 図8は、本発明の1つ以上の実施形態に対応する例示的なユーザーインターフェース800の複製の図である。 図9は、本発明の1つ以上の実施形態に対応する例示的なビニングスキームの図である。
上述の図を参照および組み込んだ記述は、本発明の1つ以上の特定の実施形態を説明するものである。これに限定されないが本発明を例証および教示するだけであるこれらの実施形態は、当業者が本発明を実行または実施できるようにするために十分詳細に図とともに記載される。したがって、必要な箇所で本発明を不明瞭にしないために、説明においては、当業者が公知の特定の情報を省略する場合がある。
(例示的な定義)
本記述には、従来技術における用法から、または該記述のコンテキスト内での使用から導出された意味を有する多数の用語が含まれる。しかし、更なる補助として、以下に例示的な定義を示す。
「文書」という用語は、あらゆるアドレス指定可能な配置の、テキストデータのような機械可読のデータのことである。
「データベース」という用語には、文書のあらゆる論理的配置を含む。いくつかの実施形態では、1つ以上のデータベースが、1つ以上の他のデータベースとコンテンツを共有する。
「重複(duplicate)」という用語は、概して、少なくとも1つの別の文書と同じような実質的な量のコンテンツを有するあらゆる文書のことである。時間的、長さ、および/またはコンテンツ基準は、1つの文書が他と重複するかどうかを判定するために使用する。コンテンツ基準に関して、いくつかの実施形態では、一組の文書のそれぞれにおける一組の最も希有の用語または他の特徴を識別し、それらの文書は、「正確な」重複として、類似した相対的位置に同じ組の最も希有の用語を有するものとみなす。他の実施形態では、文書のそれぞれにおける一組の最も希有の用語を識別し、それらの文書は、「あいまいな」重複として、これらの組の最も希有の用語の中のオーバーラップの閾値レベルを超えているものとみなす。
(例示的な情報検索システム)
図1は、例示的なオンライン情報検索システム100を示す。システム100は、1つ以上のデータベース110と、1つ以上のサーバー120と、1つ以上のアクセスデバイス130と、を備える。
データベース110は、代表的なデータベース112、114、および116を備える。例示的な実施形態では、データベース112は、ニュース記事(例えばビジネスや金融情報)を含み;データベース114は、科学および技術情報を含み;データベース116は、知的財産情報(例えば米国および外国の特許)を含む。いくつかの実施形態では、データベースのうちの1つ以上は、金融、科学、またはヘルスケアデータについて構成される。
1つ以上の電子的、磁気的、または光学的なデータストレージデバイスの例示的な形態をとるデータベース112、114、および116は、それぞれのインデックス112N、114N、および116Nを含むか、またはこれらに関連付けられる。それぞれのインデックスは、文書のアドレス、識別子、および他の従来の情報に関連する用語およびフレーズを含む。
データベース112、114、および116は、サーバー120に接続されるか、またはローカル、プライベート、仮想プライベートネットワークのような無線または有線通信ネットワークを介してサーバー120に接続可能である。
サーバー120は、様々な「厚さ」のサービスクライアントに、ウェブページの形態、または関連するアプレット、ActiveXコントロール、リモート起動オブジェクトの形態の他のマークアップ言語のデータを提供するか、または他の関連する、または類似するソフトウェアおよびデータ構造を提供するための、1つ以上のサーバーを概して代表する。より詳しくは、サーバー120は、プロセッサモジュール121と、メモリモジュール122と、検索モジュール123と、加入者データベース124と、署名データベース125と、重複処理モジュール126と、を備える。
プロセッサモジュール121は、1つ以上のローカルまたは分散プロセッサ、コントローラ、または仮想マシンを含む。例示的な実施形態では、プロセッサモジュール121は、あらゆる好都合な、または所望の形態をとる。
1つ以上の電子的、磁気的、または光学的なデータストレージデバイスの例示的な形態をとるメモリモジュール122は、検索モジュール123と、加入者データベース124と、署名データベース125と、重複処理モジュール126と、を格納する。
検索モジュール123は、1つ以上のデータベース110に対するユーザークエリーを受信して処理するための、1つ以上の検索エンジンと、関連するユーザーインターフェースコンポーネントと、を備える。例示的な実施形態では、検索モジュール123に関連付けられた1つ以上の検索エンジンは、ブーリアンまたは自然言語検索機能を提供する。加入者データベース124は、データベース110への都度払い(pay−as−you−go)または加入者ベースのアクセスを制御、管理、および処理するための、加入者関連のデータを含む。例示的な実施形態では、加入者データベース124は、データ構造1241が代表的である、1つ以上の重複プレファレンス(duplicate preference)データ構造を含む。データ構造1241は、顧客またはユーザーの識別子部1241Aを含み、この部分は、プレファレンス1241B、1241C、および1241Dのような1つ以上の重複処理プレファレンスに論理的に関連付けられる。プレファレンス1241Bは、選択されたデータベースを検索するときに、重複の検索を有効にするか無効にするかを管理するデフォルト値を含む。プレファレンス1241Cは、例えば印刷中、保存中、またはメール中に、外部に検索結果を出力するときに、重複が含まれているかどうかを管理するデフォルト値を含む。プレファレンス1241Dは、2つ以上の重複する文書の定義および/または検出アルゴリズムの中のどれが、重複の検出中に使用されるのかを管理するデフォルト値を含む。いくつかの実施形態では、例えば一組の重複する文書を最長、最新、または最適のうちのどれで最初にリストするかといった、重複の検出または表示機能の1つ以上の側面を制御するために、更なるプレファレンスが格納される。
署名データベース125は、データベース110のうちの1つ以上における各文書のための、代表のデータ構造1251のような、1つ以上の文書署名のデータ構造を含む。例示的な実施形態では、データ構造1251は、1つ以上の長さ関連のフィールド1251B、1つ以上の時間関連のフィールドまたは部分1251C、および/または1つ以上のコンテンツ関連の部分1251Dに論理的に関連付けられた、文書識別子フィールドまたは部分1251Aを含む。(本願明細書で使用される場合、時間関連のフィールドとは、時間および/または日付を広義に包含する。)これらのフィールドの構造およびコンテンツは、重複処理モジュール126によって定義される。
重複処理モジュール126は、署名生成モジュール1261と、重複検出モジュール1262と、重複表示モジュール1263と、を備える。(いくつかの実施形態では、ソフトウェアモジュールまたはそのコンポーネントは、複数のサーバーにわたって配信される。)署名生成モジュール1261は、逆文書頻度(idf;inverse−document−frequency)テーブル1261Aが概して代表する、1つ以上のidfテーブルを備える。例示的な実施形態では、組み合わせた一組の関連する文書コレクションの1/3のサンプリングから選択された用語とともに、約100万の用語を有する二進コード化したidfテーブルを使用する。このテーブルでは、idf用語が、実際のテキスト表現ではなく、対応する序数または製造番号で表すことができるように、各idf用語は、対応する3バイト(24ビット)表現の序数(またはシリアル番号)に関連付けられるので、迅速な処理を容易にし、idfテーブルのためのストレージ要件を減じることができる。(各idf用語を表すために使用する一定のバイト数は、テーブル内の用語全体の関数である。)例示的なidfテーブルは、数値トークン、英数字トークン、例えば.,−\&+のような特殊文字を有するトークン、および3つ未満の記号を有するトークンを除外する。しかしながら、いくつかの実施形態では、これらのトークンを含めることを選択することが可能である。(署名生成、重複検出、および重複表示モジュールとそれらの例示的な動作は、以下で図2を参照して提供される。)
サーバー120は、アクセスデバイス130のような1つ以上のアクセスデバイスに、通信で接続されるか、またはローカル、プライベート、仮想プライベートネットワークのような無線または有線通信ネットワークを介して接続可能である。
アクセスデバイス130は、概して1つ以上のアクセスデバイスを代表する。例示的な実施形態では、アクセスデバイス130は、パーソナルコンピュータ、ワークステーション、携帯情報端末、携帯電話、またはサーバーまたはデータベースとの有効なユーザーインターフェースを提供することが可能な他のデバイスという形態をとる。特に、アクセスデバイス130は、プロセッサモジュール131と、メモリ132と、ディスプレイ133と、キーボード134と、グラフィカルポインタまたはセレクタ(またはマウス)135と、を備える。
プロセッサモジュール131は、1つ以上のプロセッサ、プロセス回路、またはコントローラを備える。例示的な実施形態では、プロセッサモジュール131は、あらゆる好都合な、または所望の形態をとる。メモリ132は、プロセッサモジュール131に接続される。
メモリ132は、オペレーティングシステム136、ブラウザ137、および、グラフィカルユーザーインターフェース(GUI)138のためのコード(機械可読の、または機械で実行可能な命令)を格納する。例示的な実施形態では、オペレーティングシステム136は、Microsoft Windows(登録商標)オペレーティングシステムのバージョンという形態をとり、ブラウザ137は、Microsoft Internet Explorer(登録商標)のバージョンという形態をとる。オペレーティングシステム136およびブラウザ137は、キーボード134およびセレクタ135からの入力を受信するだけでなく、ディスプレイ133上へのGUI138の描写のサポートも行う。描写すると、GUI138は、1つ以上の対話型制御機能(またはユーザーインターフェース要素)に関連してデータを示す。(例示的な実施形態では、サーバー120からのアプレットまたは他のプログラムのオブジェクトまたは構造を使用して、インターフェース138の1つ以上の部分を定義する)。
さらに具体的には、グラフィカルユーザーインターフェース138は、クエリー領域1381および検索結果領域1382のような、1つ以上の表示領域を定義するか、または提供する。クエリー領域1381は、メモリ内に定義され、描写に応じて、クエリー入力領域1381A、クエリーサブミッションボタン1381B、および重複処理選択1381Cのような、1つ以上の対話型制御機能(要素または装置)を備える。検索結果領域1382はまた、メモリ内にも定義され、描写に応じて、サーバー120を介して1つ以上のデータベース110にアクセスするか、またはこれらから1つ以上の対応する文書を検索するための、機能1382A、1382B、1382C、1382D、1382Eのような、1つ以上の対話型制御機能を備える。
各制御機能は、DOC X、DOC Y、DOC Z、DOC Z1、およびDOC Z2のようなそれぞれの文書識別子またはラベルを含み、これらは対応する文書を識別して、対応するリンクまたは全ての、または一部のユニフォームリソースロケータ(URL)に関連付けられる。(いくつかの実施形態では、同時係属中の米国特許出願第09/237,219号(代理人整理番号962.002US1、1999年1月25日出願)に示されるようなURLフォーマットを使用しており、上記出願は、参照することにより本願明細書に援用される。)制御機能のユーザーの選択は、インターフェース138(図示せず)内の対応する文書の少なくとも一部を検索して表示する。制御機能1382Dおよび1382Eは、DOC Zと重複するものとして、それらの対応する文書DOC Z1およびDOC Z2、制御機能1362Cに対応する文書の状態を示すために、制御機能1382Cに関連してインデントされる。制御特徴1382Cは、2つの重複する文書が存在することを示しているラベル「2つの重複」を含む。例示的な実施形態では、これらの制御機能のそれぞれは、ハイパーリンクまたは他のブラウザ互換のコマンド入力という形態をとり、クエリー領域1381および検索結果領域へのアクセスおよびそれらの制御を提供する。図1は、クエリー領域1381および結果領域1382が同時に示されたときの状態を示すが、いくつかの実施形態では、それらを別々の時間に示す。
(例示的なオペレーション方法)
図2は、システム100のような1つ以上の例示的なシステムのオペレーション方法のフローチャート200を示す。フローチャート200は、本記述における他のブロックと同様に、例示的な実施形態において連続したシーケンスで構成および説明されるブロック210〜270を含む。なお、いくつかの実施形態では、複数のプロセッサまたはプロセッサのようなデバイスを使用して、または2つ以上の仮想マシンまたはサブプロセッサとして構成された単一のプロセッサを使用して、2つ以上のブロックを並行して実行する。いくつかの実施形態はまた、類似した結果を得るために、プロセスシーケンスを変更するか、または異なる機能分割を提供する。例えば、いくつかの実施形態では、サーバー側に表示および記述される機能が、クライアント側にその全体または一部が実装され、逆の場合も同じように実装されるように、クライアント−サーバー間の機能の割り当てを変更することが可能である。また、さらに他の実施形態では、モジュール間およびモジュールを介して通信される関連する制御およびデータ信号によって、2つ以上の相互接続されたハードウェアモジュールとして、ブロックを実装する。したがって、(図2、およびこの記述内の)例示的なプロセスフローを、ソフトウェア、ハードウェア、およびファームウェア実装に適用する。
ブロック210で、例示的な方法は、オンライン情報検索システムの1つ以上の検索可能な文書に対するメタデータ(デジタル署名など)の自動生成を開始する。例示的な実施形態では、このブロックは、ニュースのデータベースのような選択された一組のデータベース内の文書のためのバッチプロセスに基づいて進められる。(いくつかの実施形態では、プロセスは、文書ごとに、および/またはリアルタイムのクエリー主導の基準で実行される。)バッチプロセスは、概して、各文書に対する文書署名のデータ構造の生成および格納を伴う。例示的な実施形態は、概してフローチャート210Aおよび210Bで表される、2つ以上の署名生成プロセスのうちの1つを使用する。(リアルタイムで署名を処理することが可能な、いくつかの実施形態では、プロセスの選択がユーザープレファレンスを介して管理される。しかし、他の実施形態では、2つの文書署名を有するそれぞれの文書を提供するために両方のプロセスを使用し、どちらの署名または検出方法を使用するのかを判断するために、検出中にユーザープレファレンスを使用する。いくつかの実施形態では、署名の選択は、管理的決定である。)フローチャート210Aは、より正確な重複基準に基づく重複の検出を容易にする署名の生成を示し、フローチャート210Bは、あまり正確でない、または「あいまいな(fuzzy)」基準に基づく重複の検出を容易にする署名の生成を示す。
(正確な署名の生成)
より詳しくは、フローチャート210Aは、長さスカラー量およびフィンガープリント(例、ハッシュ値)を有する署名を得るものであり、プロセスブロック211A〜216Aを含む。このプロセスは、1つ以上の文書長の特徴または値の判定を伴う、ブロック211Aから開始する。このために、例示的な実施形態では、長さスカラー量を判定するが、これは新聞紙、タイトル、著者、および他のヘッダー情報を除く、トークン内における文書長として定義される。
次に、ブロック212Aでは、文書に対する1つ以上の意味論的または語彙的(より一般的には、コンテンツ)値の判定および識別、またはランク付けを伴う。例示的な実施形態では、これは、文書(タイトル、著者、および他のヘッダー情報またはメタデータを除く)に対する、上位X(例、6つ)の一意の最高位の逆文書頻度(idf)用語を含むように定義される、「フィンガープリント(fingerprint)」または用語ベクトルの判定を伴う。所与の用語に対するidfは、その用語の文書頻度の相互関係として、すなわち、その用語を含む検討中のコレクションにおける文書数の逆数として定義される。いくつかの実施形態は、次のように定義される正規化IDFを使用する:
Figure 2011129161
ここで、nは、所与の用語を含む文書数を示し、Nは、コレクションにおける文書の総数を示し、分子および分母の定数は、スパースデータ(sparse data)が存在するスケーリングファクタである。
特にベクトルの定義では、例示的な実施形態は、文書内のタイトルおよび他のヘッダーにおける用語が、重複する新聞記事において著しく異なる可能性があるので、これらの用語を上位のidf用語としての考慮から除外する。また、これらの用語は誤植やスペルミスのようなテキストの異常である傾向があるので、非常に高いidfを有する用語(例えば、0.8以上である用語)を上位Xのidf用語から除外する。(他の実施形態では、より多いか、またはより少ない数の用語、および/またはより高いか、またはより低いidf除外基準を使用する場合がある。いくつかの実施形態は、いかなるidf除外基準も使用しない場合がある。いくつかの実施形態では、単一の用語または単一の用語を組み合わせたフレーズではなく、単語の組のようなフレーズまたは用語の組み合わせを使用する場合がある。)コンテンツの特徴が識別されて、ランク付けされると、ブロック213Aで実行を継続する。
ブロック213Aは、文書内のidf用語の相対的位置の判定を伴う。その位置は、絶対的または相対的位置として定義することができる。絶対位置は、文書内の第1のトークンに対する用語の位置である。あるサンプルのベクトルには、次のようなものがあげられる:
prevarication[76]、
hostage[0]、
conspicuous[25]、
intransigence[121]、
brutality[163]、
theater[13]
なお、用語はidfの降順でランク付けされて示され、カッコ内の位置は、文書内の第1のトークンに対するトークンで判断される。
いくつかの実施形態では、先の最上位にランク付けされたidf用語の位置に対する各idf用語の位置を判断する。そして、重複する文書の緩和した、またはより許容性のある定義を提供する、いくつかの実施形態では、相対的位置のオフセットをbinにラウンドする。例えば、一実施形態では、10で分割したトークン内の文書のサイズによって判定されるbinの数によって、最も近い一連の10のトークンの「bin」に、対応する上位のidfのそれぞれの位置オフセットをラウンドする。この位置ビニングは、文書が挿入または置換されても、依然として別の異なる文書、または同一の文書の重複であると見なされるような場合を、本実施形態が処理できるようにする際に有効である。次の表は、6つのidf用語の一組のサンプルを示すものであり、文書内における元の(または絶対的な)位置を2列目に示し、相対的位置を3列目に示し、ビニングした(ラウンドした)相対的位置を4列目に示す。
Figure 2011129161
位置のビニングに使用される全てのラウンディングは上位に向かうものであり、差が0で終わるものは、使用されないままのものである(例、テーブルの「ビニングした」相対的位置のignobleを参照)ことに留意されたい。また、本実施形態では、文書のタイトル(および付随するヘッダーおよびサブヘッダーのうちのいずれか)は、文書内でのオフセットの生成に関与しない(すなわち、考慮されない)ことにも留意されたい。フィンガープリントを定義した後に、実行はブロック214Aに進む。
ブロック214Aは、フィンガープリントに基づくハッシュ値(または他の一意の値)の判定を伴う。特に、例示的な実施形態では、上位のidf用語と位置情報と、「irate20flabbergasted30dishonorable30disgraceful10outrageous20ignoble40」のような単一の文字列に連結して、ハッシュ値を判定するためのアルゴリズムに基づいて、得られた文字列をハッシュする。例示的な実施形態では、これは、米国標準技術局(National Institute of Standards and Technology)のSHA1ハッシュアルゴリズムを使用した、20バイトのキーへのベクトルのハッシュを伴う。いくつかの実施形態は、ハッシュ値を判定する他の方法を使用することが可能である。
ブロック215Aは、1つ以上の長さの値および(コンテンツに基づくハッシュ値のような)判定されたフィンガープリント数に基づく、文書署名(すなわち、データ構造)の形成または定義を伴う。例示的な実施形態では、これは、例えば文書識別子またはポインタを使用して、対応する文書に論理的に関連付けられたデータ構造への、スカラー長の値およびフィンガープリント数の統合を伴う。
ブロック216Aは、メモリデバイスへの文書署名のデータ構造の格納を伴う。このために、例示的な実施形態は、図1の文書署名データベース125のようなインデックスまたはメタデータのデータベースに、データ構造を格納する。
(あいまいな署名生成)
フローチャート210Bは、文書の時間的、長さ、およびコンテンツコンポーネントに基づく、文書署名のデータ構造(または特性特徴の組)の生成を示すものであり、プロセスブロック211B〜215Bを含む。
特に、ブロック211Bは、1つ以上の時間的コンポーネントまたは文書に対する値の判定を伴う。例示的な実施形態では、この判定は、文書の日付欄からの刊行日またはタイムスタンプの抽出と、1950年1月1日のような基準日に対する時間、日付、週、または月の数を表す単純な整数への日付またはタイムスタンプの変換と、を伴う。他の文書では、文書の最初または最後の発生日、または最初または最後の発生日の一部のような、文書に関連するか、またはこれに含まれる他の日付を使用することが可能である。例えば、いくつかの実施形態では、時間的コンポーネントに対する基準として、文書の最初の発生年を抽出して使用することが可能である。さらに他の実施形態では、文書内の複数の日付(例えば、2つ以上の日付を平均または統合したもの)に基づく時間的コンポーネントを判定することが可能である。ブロック212Bで実行を継続する。
ブロック212Bでは、文書に対する1つ以上の長さのコンポーネントまたは値を判定する。例示的な実施形態では、長さの値は、文書の長さに基づくものであり、文書に関連する所定の単語カウントから文書長のインジケータを抽出することによって判定される。なお、他の実施形態では、単語カウントを単独で判定して、これを長さの値として使用する。実行は、ブロック213Bへ進む。
ブロック213Bは、文書に対する1つ以上のコンテンツの値または特徴の判定を伴う。例示的な実施形態では、これは、文書に対する1つ以上の語彙的な特徴の識別と、「フィンガープリント」または用語ベクトルの形成と、を伴う。フィンガープリントは、概して文書(タイトル、著者、および他のヘッダー情報またはメタデータを除く)に対する、上位Y(例、60)の最高位のidfを含む。
さらに具体的には、例示的な実施形態は、文書を用語にトークン化および解析して、それらが関連するidfによってこれらの用語をソートする。idfテーブルに存在しないあらゆる用語、およびストップワードのリストに含まれるあらゆる用語は、用語(または特徴)ベクトルから除外される。文書のidf用語yの数が10未満の場合、文書に対する署名は作成されない。しかし、yが10からY−1の間である場合は、例示的な実施形態では、Yの用語を確実に含めるために、更なる用語を用語ベクトルに埋め込む。
例示的な埋め込みは、次のように進められる。文書に対するidf用語の数yが30から59の間である場合は、例示的な実施形態では、「pad1」、「pad2」、「pad3」、・・・、「padn」(n=Y−y)のようなベクトルに、最大で30の異なる英数字の用語を加えることによって埋め込む。yが10から29の間である場合は、例示的な実施形態では、nの所定の非idf用語とmのランダムに選択した(y+n+m=Yのような)非idf用語とを組み合わせたものを用語ベクトルに埋め込む。いくつかの実施形態では、nの所定の非idfテーブル化した用語は、共通のテキスト部分と配列された数字部分とを有する、(上述の)「pad1」、「pad2」、・・・、「padn」のような英数字の用語である。いくつかの実施形態では、ランダムに生成された非idfテーブル化した用語mは、既存のidf用語と一致しない用語を表す、英数字の用語R1、R2、Rmである。次の表は、例示的な実施形態で使用する埋め込みスキームを示す。
Figure 2011129161
次に、ブロック214Bは、用語ベクトルを符合化する。このために、例示的な実施形態では、ランク付けされたidfテーブル内の用語の位置に基づく符号化によって、各用語を別々に符号化する。特に、例示的な実施形態では、idfテーブル(約100万のエントリを含む)内のトークンに対応させるだけでなく、(例示的な実施形態において)idfテーブル内の用語のランクも示す、一意の3バイト(24ビット)の製造番号またはインデックスとして、各用語のベクトルトークンを符号化する。(例示的な実施形態では、不一致カウントを迅速化して計算時間を短縮するために、idf値の最高から最低へのベクトルで用語を構成する。)用語ベクトルを符合化した後に、実行はブロック215Bに進む。
ブロック215Bは、文書署名のデータ構造のメモリデバイスへの格納を伴う。このために、例示的な実施形態では、署名データベース125(図1)のようなメタデータのデータベースに署名を格納する。(いくつかの実施形態では、文書に文書署名データを添付する。)
いくつかの実施形態では、コレクション統計のメンテナンスおよびidfテーブルの更新の環境を付与する。例えば、フローチャート210Aおよび/または210Bに基づく署名を作成する一実施形態では、所与のコレクションまたはデータベースにおける文書の追加、削除、または修正とともに一般に生じる、idfテーブルの更新に対するこれらの文書署名の検出感度を認識する。この実施形態は、idfテーブルの更新日付近(例えば、更新日を中心に1乃至2ヶ月の範囲)に発行された文書に、一組の署名を提供する。ある署名(更新前の署名)は、更新前のidfテーブルに基づき、別の署名(更新後の署名)は、更新後のidfテーブルに基づく。(使用時には、例えばブロック250で、2つの署名のうちの少なくとも1つが、別の文書に対する少なくとも1つの署名と一致した場合に、2つの文書が重複していると見なされる。)
図3は、文書署名300が、そのコンテンツコンポーネント310を介してどのようにidfテーブル340に関連付けられるのかを示すものである。特に、文書署名300は、長さのコンポーネント310と、時間的コンポーネント320と、コンテンツコンポーネント330と、を含む。コンテンツコンポーネント330は、用語T0〜T59を含む60の用語のベクトル330’の例示的な形態をとる。図3に示されるように、1つ以上の用語(例、全ての用語)は、100万の用語および対応するidf値を有する、idfテーブル340内の用語にマッピングされる。
フローチャート210Aおよび210Bに示される方法のうちの1つまたは両方に基づく、選択されたデータベースの全ての文書に対する文書署名を生成および格納した後で、例示的な実行は、最終的にブロック220へ進む。
ブロック220は、ユーザーへの検索インターフェースの表示を伴う。例示的な実施形態では、これは、Westlawシステムのような情報検索システムに対するインターネットプロトコル(IP)アドレスへのクライアントアクセスデバイスにおけるユーザーのブラウザへの命令と、システムへのロギングと、を伴う。図1のインターフェース138または図4のインターフェース300(またはその1つ以上の部分)のような、ウェブベースのインターフェースにおけるログインの成功によって、サーバー120からの出力、メモリ132への格納、およびクライアントアクセスデバイス130による表示が行われる。
図4に示されるように、インターフェース400は、クエリー入力領域410と、クエリーフィールド規制領域420と、重複命令領域430と、およびクエリーサブミットコマンド440と、を含む複数の対話型制御機能を備える。クエリー入力領域410は、クエリーを定義するテキスト入力を受信する。クエリーターゲティング領域420によって、ユーザーは、フィールド分けされたデータベースにおいて、文書、見出し、および主要なパラグラフの特定のサブセクションへのクエリーのターゲットを定めることができるようになる。(他の実施形態では、1つ以上の他の選択可能なサブセクションを有することが可能である。)重複命令領域430によって、ユーザーは特に、定義されたクエリーに対する検索結果内の重複する文書の識別を可能にすることができる。この命令領域の初期の状態は、データベース124のような加入者データベース内に格納された、デフォルトのユーザープレファレンス値によって判定される。例示的な実施形態では、命令領域の状態の変更により、現在のクエリーに対する命令が変更されるが、より高い制御レベルで変化されない限りデフォルトのプレファレンス値は影響を受けない。
インターフェース138または400を使用することによって、ユーザーは、クエリーを定義またはサブミットして、それをサーバー120のようなサーバーに出力させることができる。他の実施形態では、クエリーは、スケジュールまたはイベント主導基準で自動的に実行するように、ユーザーによって定義または選択されている場合がある。これらの場合、クエリーは、(サービスのクリッピングに対して行われるように)情報検索システムのためのサーバーのメモリ内にすでに存在している場合があるので、サーバーに繰り返し通信する必要はない。実行は、次いでブロック230(図2)へ進む。
ブロック230は、クエリーの受信を伴う。例示的な実施形態では、クエリーは、クエリー文字列および/または選択されたデータベースのうちの1つ以上を含む一組のターゲットデータベースを含む。いくつかの実施形態では、クエリー文字列は、一組の用語および/またはコネクタを含み、他の実施形態では、自然言語文字列を含む。また、いくつかの実施形態では、一組のターゲットデータベースは、自動的に定義されるか、またはシステムまたは検索インターフェースの形態に基づくデフォルトによって定義される。さらにいくつかの実施形態では、受信したクエリーは、上述のように重複する文書を確認すべきかどうかを定義する情報のような、他の情報を伴うことが可能である。いずれにせよ、実行は、ブロック240で継続される。
ブロック240は、受信したクエリーに基づくか、またはこれに応じた、一組の文書または検索結果の識別を伴う。例示的な実施形態では、これは、サーバー、またはサーバーもしくはコマンドの制御下にあるコンポーネントの、ターゲットにした組のデータベースに対するクエリーの実行と、クエリー基準を満たす文書の識別と、を伴う。実行は、ブロック250へ進む。
ブロック250は、検索結果における複数組の重複する文書の識別を伴う。(いくつかの実施形態では、重複識別ブロックの実行は、重複する文書を識別するがどうかを指定する、デフォルトまたは選択されたユーザーオプションに依存する。いくつかの実施形態によって、ユーザーまたは管理者は、2つ以上の重複検出技術またはアルゴリズムのうちのいずれを使用するのかを選択できるようになる。)例示的な実施形態では、重複識別は、概して、1つ以上の文書署名の1つ以上の側面と、他の文書署名の対応する側面との比較と、重複する文書を構成する「正確な」または「あいまいな」(正確でない)基準に基づく文書の重複であるかどうかの判定と、を伴う。
さらに具体的には、例示的な実施形態は、正確な、またはより正確な検出アルゴリズムのためのプロセスブロック251A〜254Aを含む、フローチャート250Aに示される方法に従うか、または、「あいまいな」検出アルゴリズムのためのプロセスブロック251B〜255Bを含む、フローチャート250Bに示される方法に従う。上述のどちらのタイプの署名も使用するいくつかの実施形態では、両方の対応する方法を使用する。
(正確な重複検出)
フローチャート250Aでは、例示的な方法はブロック251Aでから開始するが、比較のための検索結果の2つ以上の文書の選択を伴う。例示的な実施形態では、これは、各文書の文書識別子に基づく検索結果における各文書に対する文書署名のデータ構造の検索と、リアルタイムの重複検出または比較のための複数の文書の組の定義と、を伴う。文書の組の定義は、一次的文書の選択と、検索結果内の他の文書のそれぞれとの一次的文書の対合(または、より正確には、その文書署名)と、を伴い、次いで第二の一次的文書の選択と、まだ対合されていない全ての他の文書との第二の一次的文書の対合と、を伴う。同様に、各文書は、一次的文書として選択することができ、まだ対合されていない全ての他の文書と対合することができ、最終的に、比較のための完全な組の一意の文書の対合を定義する。(いくつかの実施形態では、一次的文書は、検索結果内のそれらの関連性の順位の順に選択される。また、いくつかの実施形態では、特定の関連性の閾値を超えている文書か、または特定の最小順位を有する文書への重複検出プロセスの適用を制限する。)実行は、次いでブロック252Aへ進む。
ブロック252Aは、比較のために選択された一組の文書に対する長さ基準を満たしているかどうかの判定を伴う。例示的な実施形態では、これは、選択された対の文書署名のデータ構造の長さのスカラー量が、±40トークン、または互いの±10%のような、所定の範囲内にあるかどうかの判定を伴う。固定または相対的な範囲によって、例えばDateline:Amsterdamのようなヘッダーのデータに近い、潜在的な差異を可能にさせる。長さ基準(または条件)を満たしていないという判定であった場合、実行は、比較のための別の組の文書の選択のために、ブロック251Aに戻る。しかし、長さ基準を満たした場合、実行は、ブロック253Aへ進む。
ブロック253Aは、選択された文書のコンテンツ基準を満たしているかどうかを判定する。例示的な実施形態では、これは、選択された文書の文書フィンガープリントの互いに対する比較を伴う。2つのフィンガープリントが同一でない場合、実行は、比較のための別の組の文書の選択のために、ブロック251Aに戻る。フィンガープリントが同一である場合、実行は、ブロック254Aに進む。
ブロック254Aは、選択された文書の互いに重複するものとしてのマーキングを伴う。例示的な実施形態では、このマーキングは、重複組のバッファにおいて重複するとみなされる文書の文書識別子の格納を伴う。(他の実施形態では、マーキングは、特別な重複文書クエリーに再利用することが可能な、主たる重複する文書のデータベースか、または選択された文書に対するそれぞれの文書署名のデータ構造への、選択された文書に対する文書識別子の追加を含む。)
実行は、比較のための次の組の文書の選択のために、ブロック251Aに戻る。例示的な実施形態では、ブロック251Aは、全ての選択された組の文書が処理された後に、比較プロセスを終了させるためのロジックを含む。
(あいまいな重複検出)
フローチャート250Bは、代わりの検出プロセスを示し、概して検索結果において識別された文書に対する署名のデータ構造のリアルタイムのマルチレベル処理を伴う。(いくつかの実施形態は、ユーザークエリーに応えてではなく、その前に重複の検出を行うことが可能である。)フローチャート250Bは、プロセスブロック251B〜255Bを含む。
ブロック251Bで、プロセスは、検索結果において識別された文書に対する少なくとも2つの文書署名のデータ構造の検索に続いて生じる。例示的な実施形態では、これは、ブロック251Aに対して説明したものと同じ様式で、検索結果内の各文書に対する(図1に示される)署名データベース125からの、署名のデータ構造の検索を伴う。署名を検索すると、文書署名に対応する文書が重複しているかどうかの判断に使用するために、一組の2つ以上の文書署名が選択される。実行は、次いでブロック252Bで継続する。
ブロック252Bは、2つ以上の文書署名に関連付けられたコンポーネントに対する時間的基準が、互いの特定の時間の範囲内にあるかどうかを判定する。例示的な実施形態では、これは、選択された文書署名の時間的コンポーネントが互いに30日以内であるかどうかの判定を伴う。(いくつかの実施形態では、より小さいか、またはより大きな時間的ウィンドウを使用する。)否定的な判定によって、文書は非重複とみなされ、実行は、ブロック251Bに戻り、比較のための別の一組の文書署名を獲得するが、一方で、肯定的な判定であれば、実行をブロック253Bに進める。
ブロック253Bでは、1つ以上の対応する文書に対する署名のデータ構造の長さのコンポーネントが互いのある範囲内にあるかどうかを判定する。例示的な実施形態では、これは、長さのコンポーネントが互いの±20%内にあるかどうかのリアルタイムでの判定を伴う。長さの判定が否定的である場合、文書は非重複とみなされ、実行は、比較のための別の一組の文書署名を選択するためにブロック251Bに戻る。なお、判定が肯定的な場合は、文書長が十分に近いことを示しており、実行は、ブロック254Bで継続する。
ブロック254Bは、一組の文書署名が、重複する文書のフィンガープリントまたはコンテンツ基準を満たすかどうかの判定を伴う。例示的な実施形態では、これは、一方の文書の用語ベクトル内の用語の少なくとも80%が他方の文書の用語ベクトルに含まれているかどうかの判定を伴う。いくつかの実施形態では、別の閾値(例えば60、65、70、75、80、85、90、または95%)を使用することが可能である。他の実施形態では、文書またはデータベースのタイプによって変化する動的な閾値を使用することが可能である。実際にいくつかの実施形態によって、ユーザーは、閾値を選択することができるようになる。
より詳しくは、コンテンツ基準を満たしているかどうかの判定では、例示的な実施形態は、リアルタイムで用語ごとの比較を行い、用語が不一致であれば不一致カウンタを増加させ、また用語が一致すれば一致カウンタを増加させる。用語ごとの比較は、不一致カウンタが非重複閾値(例、12)を超えたときに終了し、(例えば、20%を超える用語が一致しなかったために)コンテンツ基準を満たすことができないことを示す。別様には、用語ごとの比較は、一致カウンタが重複閾値(例、49)を満たしたときに終了させることができ、80%を超える用語が一致したことを示す。いずれにしても、コンテンツ基準が満たされなかった場合、実行は、ブロック251Bに戻る。また、コンテンツ基準を満たした場合、実行は、ブロック255Bへ進む。
ブロック255Bは、複数組の文書内の文書を重複するものとしてマーキングすることを伴う。例示的な実施形態では、このマーキングは、重複組のバッファにおいて重複するとみなされる文書の文書識別子の格納を伴う。検索結果内で重複を識別した後に、実行は、ブロック260へ進む。
ブロック260は、ユーザーへの検索結果の表示を伴う。例示的な実施形態では、これは、図1のクライアントアクセスデバイス130のようなクライアントアクセスデバイスへの、ランク付けしたリストの形態での検索結果の出力を伴う。特に、例示的な実施形態は、インターフェース138(特に図1の領域1382)によって、または図5のインターフェース500によって例示されるように、グラフィカルユーザーインターフェースのコンテキスト内にそのリストを提供する。
インターフェース500は、選択可能な文書の引用文またはハイパーリンクの結果リスト510を示し、また結果リスト510内の少なくとも1つの文書のテキストを表示するためのウィンドウ520を示す。結果リスト510は、1つ以上の組の、またはグループ分けした重複する文書の識別子を含み、その代表が重複組512である。例示的な実施形態では、結果リスト510内の重複組512の位置は、新しい順、関連性の順位、またはその組の中か、またはその組に関連する最高位のスコアに基づいて判定される。例えば、元の組が、重複する文書3および5(ランク付けした順序で)を含み、文書5が、一次的文書である場合、重複組全体が引用文リストの順位3の位置に表示される。重複組512は、一次的文書識別子5121と、重複カウントインジケータ5122と、重複識別子5123と、を含む。
一次的文書識別子5121は、一次的文書を識別し、例示的な実施形態では、重複組における最も長い文書であると定義される。2つ以上の重複する文書が同じ長さ(すなわち、同じ単語カウントを有する)である場合は、より最近の文書が一次的文書としてリストされる。いくつかの実施形態では、一次的文書識別子は、最適なスコアであるか、または最新の出版日である文書に対応する。
重複カウントインジケータ5122は、一次的文書のコンテンツと重複するとみなされる、すなわち、一次的文書のコンテンツで重複であるコンテンツの実質的な量を含むとみなされる、検索結果内の文書数を示す。ここに示される例では、一次的文書は、結果リスト内に1つの重複があるように表示されている。
重複リスト5123は、文書の引用文または識別子5123Aのような1つ以上の選択可能な文書の引用文または識別子をリストし、それぞれが、検索クエリーに関連するとみなされ、一次的文書内のコンテンツと重複する実質的な量のコンテンツを含むと考えられる文書(または文書のURL)に関連付けられる。(例示的な実施形態では、本願明細書に示される技術および原理に従って判定されるが、他の実施形態では、別の技術および/または原理を使用することが可能である。)重複リストでは、複数の重複をリストする順序は、長さ、発行日、文書の関連性、またはアクセスの頻度によって決定することができる。いくつかの実施形態では、これらのリンクのラベルは、文書、発行、および単語カウントの日付を含む。
結果リスト内の重複リストを示すのではなく、いくつかの実施形態では、一次的文書の識別子に関連する、重複フォルダのようなコンテナアイコンを表示する。重複フォルダは、書誌情報とともに、重複する文書(または対応するURL)のリストを表示するために、選択されたときにウィンドウを開く、ユーザーが選択可能なアイコンである。
実行は、ブロック260での検索結果の表示からブロック270に進み、検索結果から1つ以上の選択された文書の出力を伴う。例示的な実施形態では、この出力は、ユーザーの選択に応じて、アクセスデバイス130のようなクライアントアクセスデバイスに関連付けられたメモリへの、1つ以上の識別された文書の印刷、電子メール送信、または保存を伴う。ユーザーによるこの出力の制御または命令を容易にするために、例示的な実施形態では、図1のインターフェース138を介して組み込まれてアクセス可能となる、図6のインターフェース600のようなグラフィカルユーザーインターフェースをユーザーに示す。
インターフェース600は、出力先領域610と、範囲定義領域620と、コンテンツ定義領域630と、リクエストサブミッション領域640と、を備える。出力先領域610によって、ユーザーは、検索結果の1つ以上の部分に対するプリンタ、電子メール、またはメモリの宛先を指定できるようになる。(サンプルの電子メールメッセージは、図7および関係テキストを参照。)範囲定義領域620によって、ユーザーは、領域610内で識別される宛先に出力すべき検索結果内の文書を識別できるようになる。
コンテンツ定義領域630は、とりわけ重複出力制御ユニット機能631を備え、ユーザーは、出力のために範囲定義領域620内で選択される文書の特定の部分を識別できるようになる。この機能によって、ユーザーは、出力の一部として識別された文書の重複である文書を含んでいるかどうかを示して制御できるようになる。ユーザーが、図1の加入者データベース124内のプレファレンス設定1241Dのような、自身の対応するプレファレンスを変更していなかった場合、デフォルトでは出力から重複する文書を除外するが、これは、重複出力制御領域が最初に、出力から重複が除外されることを示すことを意味するものである。
例示的な実施形態では、重複を含める機能の選択または起動によって、選択された文書または引用文のオプションを除く、範囲定義領域内の全てのオプションに対して重複する文書の出力を生じさせるだけでなく、インターフェース600内の表示にも影響を及ぼす。領域620内の「全ての文書」範囲のオプションは、検索結果の組全体からあらゆる重複を差し引いた一組の一次的文書とともに、検索結果内の一次的文書の数を示すラベルを含む。検索結果が合計30の文書を含む場合、文書1、5、および7は重複しており、領域620内の「全ての文書」のオプションの隣のラベルは、通常「28の文書」と示すことになる。しかし、ユーザーが重複を含める機能を(手動またはデフォルトで)実行している場合は、一次的および重複する文書を示す、すなわち例に従えば「30の文書」と示すことになる。
図7は、とりわけ重複する文書を識別する結果リストを含む、例示的なHTMLフォーマットの電子メッセージ700を示す。特に、繰り返し、定期的、またはイベント手動の実行のために定義されたクエリーの自動実行に応えて送信することもできる、メッセージ700は、ヘッダー710と、クエリー領域720と、結果リスト領域730と、を含む。
ヘッダー710は、From、Sent、To、Subjectの領域を含み、それぞれ送信者、送信日時、受信者、および電子メールの主題を識別する。クエリー領域720は、データベース識別フィールド722と、クエリーフィールド724と、を含む。データベース識別フィールド722は、検索されたデータベースを識別し、クエリーフィールド724は、クエリーのテキストをリストする。例示的な実施形態では、特定のクエリーは、ブーリアンまたは自然言語クエリーという形態をとる。
結果リスト領域730は、識別子732および734のような1つ以上の文書の引用文またはハイパーリンクを含み、これらは対応する文書の全て、または一部の検索および表示を起動するために選択することができる。いくつかの実施形態では、ハイパーリンクのうちの1つを選択することよって、ブラウザウィンドウ内の対応する文書の検索が直ちに行われる。他の実施形態では、その選択によってブラウザウィンドウ内にログイン画面が表示され、ユーザーに、文書を識別する前に、適切なログインデータおよび/またはクライアントマター識別データを入力するように促す。関連付けられた文書識別子732は、一組の1つ以上の選択可能な重複文書の識別子またはリンク7322である。例示的な実施形態では、これらのリンクのラベルは、それぞれの発行日および単語カウントを含む。
(例示的なオプション制御インターフェース)
図8は、図1のインターフェース138の一部として機能し、ユーザーが、重複の処理および/または表現に関連するもののような、加入者データベース123内のプレファレンスに対する値を設定できるようにする、オプション制御インターフェース800を示す。例示的な実施形態では、インターフェース800は、識別重複制御機能810と、重複包含または除外制御機能820と、一次的重複選択機能830と、保存コマンド機能840と、を備える。
識別重複制御機能810(本実施形態ではチェックボックス)によって、ユーザーは、適格な検索結果に重複処理を行うかどうかに対するデフォルトを設定することができるようになる。
重複包含または除外制御機能820は、制御機能821および822を備える。本実施形態では、機能821および822は、ラジオボタンの形態をとり、それぞれによって、ユーザーは、重複が表示された結果リストに含めるか、または表示された結果リストから除外するかを選択できるようになる。
一次的重複選択機能830は、機能831および832を備え、これもラジオボタンの形態をとり、これらによって、ユーザーは、一組の重複する文書のどちらの文書を結果リストの一次的文書として表示させるかを指定できるようになる。本実施形態では、ユーザーは、一次的文書として、最長の文書か、最新または最適な文書を有するように選択することができる。重複が検索結果から除外されることになっている場合、このオプションは、一組の重複のうちのどちらの文書を結果リストに表示するかを管理する。また、文書をリストに含めるようになっている場合、このオプションは、どちらの文書を最初にリストに表示するかを管理する。
保存コマンド機能840によって、ユーザーは、現在の検索セッションの途中および今後の検索セッションにおける使用のために、制御機能810、820、830を介して、加入者データベース124に対する変更内容の保存を行うことができる。
(時間的および長さbinの使用)
いくつかの実施形態は、複数組またはbinの潜在的に重複する文書を定義することによって、ブロック252Bおよび253B(図2)の時間的比較と長さの比較とを統合する。例えば、いくつかの実施形態は、署名データベース124からフローチャート210Bで定義されたような、一組の対応する署名データ構造を検索して、それらのそれぞれの時間的コンポーネントに基づいて、新しい順にソートする。
この時間的ソートの後、これらの実施形態は、固定した時間的ウィンドウをソートされた文書リストの下方に「移動させる」ことによって、1つ以上の時間的組またはbinを定義する。第1の時間的binは、第1のソートされた文書、および第1のソートされた文書の期間(例、30日)内の時間的値(temporal value)を有する全ての文書を含む。第2の時間的binは、第2のソートされた文書、および第2のソートされた文書の30日以内の時間的値を有する全ての文書を含む。更なるbinは同じように定義され、ソートされた文書のリストを下に移動させる。(いくつかの実施形態は、相互排他的な組またはbinの文書を定義する。)
これらの時間的組またはbinが定義されると、これらの実施形態は、定義された時間的bin内の1つ以上の長さベースのbinまたは1つ以上の組の署名を定義する。これは、時間的binの対応する署名における長さのコンポーネントの降順で、時間的binのそれぞれの署名をソートし、1つ以上の長さbinまたは組を定義するために、ソートしたリストの下方に長さウィンドウを「移動させる」ことを伴う。第1の時間的bin内の第1の長さbinは、その長さbin内の長さをランク付けしたリスト(すなわち、時間的bin内の最も長い文書)における第1の署名と、最も長い文書の長さの20%を超えない第1の時間的bin内の全ての文書と、を含む。
すなわち、以降の署名のそれぞれは、第1の長さbinにおける互いの署名の長さ値の少なくとも80%を有する。第2の長さbinは、第1の時間的binにおける第2の最も長い文書と、その長さの20%を超えない全ての文書と、を含む。以降の長さbinは、各時間的binにおける全ても文書が長さbinに割り当てられるまで、同じように定義される。したがって、2つの文書は、それらの時間的特長(例、発行日)が同じ30日の期間内であり、それらの文書のうちの短いほうが、長い方の文書の80%を超えていなければ、同じ長さbinのメンバーである。さらに、第1の時間的bin、および他の時間的binに対する長さbinが、同じように定義される。
このビニングを示すために、図9は、ダイアグラム900を示す。ダイアグラム900は、文書識別子または文書署名D1〜D20を時間的に逆ソートしたリスト910を含み、これは、3つの時間的bin、すなわちTB1、TB2、およびTB3として構成され、互いに30日以内に発行された一組の文書を識別するか、またはこれに対応する各binを有する。時間的binTB1は、文書識別子または文書署名D1〜D7を含む。コンテンツの文書署名の長さのコンポーネントに基づいて時間的bin TB1のコンテンツをソートすることによって、長さをソートしたリスト920が得られる。リスト920は、2つの長さbinLB1およびLB2として構成して示され、bin内の最も長い文書の長さの20%を超えない一組の文書を識別するか、またはこれに対応する各binを有する。各時間的binに対するすべての時間的binが定義されると、各長さbinにおける全ての一意の対の文書が、ブロック254B(図2)に対して概説したコンテンツ比較プロセスに従って比較される。
いくつかの実施形態は、長さbinの実際の定義を省略し、その代わりに、各文書の長さを現在の時間的binにおける互いの文書と比較し、互いに±20%以内の長さを有するそれらの対の文書に対してのみコンテンツの比較を行う。実質的に、これらの実施形態は、仮想的な様式で長さbinを定義する。
(結び)
技術促進のために、本発明は、情報検索システムの文書コレクション内の重複する文書の存在に、文書検索システムがどのように効果的に対処するかという必要性を認識しただけでなく、ユーザープレファレンスに基づいて、検索結果における重複する文書の識別および/またはグループ分けを容易にする、システム、方法、およびソフトウェアも本願明細書に示された。この識別およびグループ分けは、最終的に、ユーザーの重複する文書を含む検索結果へのアクセスおよびその検討を合理化する。
上述の実施形態は、本発明の1つ以上の構成および使用方法を例証して教示することだけを意図したものであり、その領域および範囲を制限するものではない。本発明の教示を実施または実行する全ての方法を包含する、本発明の実際の範囲は、1つ以上の特許となる請求の範囲およびそれらの均等物よってのみ定義される。

Claims (39)

  1. 情報検索システムであって、
    複数のデータベースと、
    クライアントがネットワークを介して前記複数のデータベースにアクセスすることを容易にする1つ以上のサーバと
    を含み、
    前記1つ以上のサーバは、全体として、
    複数の文書署名を生成する署名生成手段であって、各文書署名は、前記データベースのうちの1つ以上からの複数の特徴およびそれに対応する文書内の前記特徴のそれぞれの位置に基づいており、前記署名生成手段は、文書ハッシュ値および文書特徴ベクトルからなる群のうちの1つ以上に基づいて文書署名を形成する手段を含み、前記ハッシュ値は、文書内の特徴および前記特徴の位置に基づいている、署名生成手段と、
    クエリーを定義するクエリー定義手段であって、1つ以上の他のサーチ結果の文書のコンテンツ重複を含むサーチ結果文書の識別を命令するクエリー定義手段と、
    前記文書署名のサブセットに基づいて、前記クエリーの結果内の1つ以上の文書が、前記結果内の1つ以上の他の文書内のコンテンツのコンテンツ重複を含むか否かを決定する重複決定手段と、
    前記クエリーの結果の表示を制御する手段であって、前記表示された結果のうちの少なくとも1つは、前記結果内の1つ以上の他の文書のコンテンツのコンテンツ重複を含むものとして指示される、前記クエリーの結果の表示を制御する手段と、
    前記結果内の1つ以上の他の文書のコンテンツのコンテンツ重複を含む文書の出力に関するユーザによって選択されたオプションに基づいて、プリンタまたは電子メール伝送デバイスに対する前記クエリーの結果の出力を制御する手段と
    を含む、システム。
  2. 前記署名生成手段は、各文書に対する時間、長さ、文書コンポーネントのうちの少なくとも2つを決定する手段を含む、請求項1に記載のシステム。
  3. 各手段は、機械によって実行可能な命令のうちの1つ以上のセットを含む、請求項1に記載のシステム。
  4. クエリーを定義する前記クエリー定義手段は、ブール言語または自然言語を用いて、前記クエリを定義するオプションを提供する、請求項1に記載のシステム。
  5. 複数の文書署名を生成する前記署名生成手段は、
    1つ以上の文書長さ特徴または値を決定する手段と、
    各文書からの特徴のセットをそれらに対応する逆文書頻度(idf)値に基づいて識別する手段と、
    各文書内の特徴の位置を決定する手段と、
    前記特徴のセットおよびそれらの決定された位置を連結することにより、文字列を定義する手段と、
    前記文字列をハッシュすることにより、各文書に対するハッシュ値を定義する手段と、
    前記文書長さ特徴または値および各文書に対するハッシュ値に基づいて、文書署名を形成する手段と、
    メモリデバイス内に文書署名を格納する手段と
    を含む、請求項1に記載のシステム。
  6. 前記署名生成手段は、
    各特徴の前記決定された位置をラウンドする手段と、
    前記特徴のセットおよび前記特徴のラウンドされ決定された位置を連結することにより、文字列を決定する手段と
    をさらに含む、請求項5に記載のシステム。
  7. クエリを定義する前記クエリ定義手段は、1つ以上の他のサーチ結果文書のコンテンツ重複を含むサーチ結果文書の識別を制御するオプションを選択する手段を含む、請求項1に記載のシステム。
  8. 情報検索システムであって、
    複数のデータベースと、
    前記データベースのうちの1つ以上に対するアクセスをユーザに提供するサーバと
    を含み、
    前記サーバは、
    クエリーを定義し、処理することにより、結果を生成する手段であって、前記結果は、前記結果内の1つ以上の他の文書内のコンテンツのコンテンツ重複を含む文書を含む、手段と、
    前記クエリーの結果内の1つ以上の文書が、前記結果の1つ以上の他の文書内のコンテンツのコンテンツ重複を含むか否かを決定する重複決定手段であって、
    前記重複決定手段は、
    前記結果内の前記文書のうちの第1の文書に対する第1の文書署名を前記結果内の前記文書のうちの第2の文書に対する第2の文書署名と比較する手段であって、各署名は、複数の用語およびそれに対応する文書内の対応する位置に基づいている、手段と、
    前記第1の文書および前記第2の文書の第1の長さおよび第2の長さ、および、第1の時間的特徴および第2の時間的特徴をそれぞれ比較する手段と、
    前記第1の文書および前記第2の文書のそれぞれに対する第1のハッシュ値および第2のハッシュ値を比較する手段であって、各ハッシュ値は、特徴およびそのそれぞれの文書内の前記特徴の位置に基づいている、手段と
    を含み、
    前記重複決定手段は、前記第1の文書および前記第2の文書が、ハッシュ値を比較する前記手段の結果に応答して重複するか否かを決定するように適合されている、重複決定手段と、
    前記クエリーの結果の表示を制御する手段であって、前記表示された結果のうちの少なくとも1つは、前記結果内の1つ以上の他の文書のコンテンツのコンテンツ重複を含むものとして指示される、手段と、
    前記結果内の1つ以上の他の文書のコンテンツのコンテンツ重複を含む文書の出力に関するユーザによって選択されたオプションに基づいて、プリンタまたは電子メール伝送デバイスに対する前記クエリーの結果の出力を制御する手段と
    を含む、情報検索システム。
  9. 各署名は、前記複数の用語のラウンドされた位置に基づいている、請求項8に記載のシステム。
  10. 各手段は、機械によって実行可能な命令のうちの1つ以上のセット含む、請求項8に記載のシステム。
  11. クエリーを定義し、処理する前記手段は、ブール言語または自然言語を用いて、前記クエリーを定義するオプションを提供する、請求項8に記載のシステム。
  12. 第1のハッシュ値および第2のハッシュ値を比較する前記手段は、前記第1の文書および前記第2の文書の第1の長さおよび第2の長さ、および、第1の時間的特徴および第2の時間的特徴をそれぞれ比較する前記手段の結果に応答して実行される、請求項8に記載のシステム。
  13. 前記重複決定手段は、将来の自動的な実行に適合されたクエリーに応答して実行され、そして、前記クエリーの自動的な実行に応答して実行される、請求項12に記載のシステム。
  14. 第1のハッシュ値および第2のハッシュ値を比較する前記手段は、前記長さまたは時間の比較が肯定的である場合にのみ実行される、請求項8に記載のシステム。
  15. 第1のハッシュ値および第2のハッシュ値を比較する前記手段は、
    それぞれの文書からの特徴のセットをそれらに対応する逆文書頻度(idf)値に基づいて識別する手段と、
    前記それぞれの文書内の特徴の位置を決定する手段と、
    各特徴の前記決定された位置をラウンドする手段と、
    前記特徴のセットおよびそれらのラウンドされた位置を連結することにより、文字列を定義する手段と、
    前記文字列をハッシュすることにより、ハッシュ値を決定する手段と
    をさらに含む、請求項8に記載のシステム。
  16. 第1の文書および第2の文書が重複コンテンツを含むか否かを識別するコンピュータに実装される方法であって、
    前記方法は、
    前記第1の文書および前記第2の文書が、それらに対応する時間的特性であって、互いの第1の範囲内に存在する時間的特性を有するか否かを決定することと、
    前記第1の文書および前記第2の文書が、それらに対応する長さ特性であって、互いの第2の範囲内に存在する長さ特性を有するか否かを決定することと、
    前記第1の文書および前記第2の文書の前記時間的特性が、互いの前記第1の範囲内に存在するという肯定的決定に応答して、そして、前記第1の文書および前記第2の文書の前記長さ特性が、互いの前記第2の範囲内に存在するという肯定的決定に応答して、前記第1の文書および前記第2の文書が、互いに共通の有意な数の特徴を有するか否かを決定することと、
    前記第1の文書および前記第2の文書の前記時間的特性が、互いの前記第1の範囲内に存在し、前記第1の文書および前記第2の文書の前記長さが、互いの前記第2の範囲内に存在し、そして、前記第1の文書および前記第2の文書が、互いに共通の有意な数の特徴を少なくとも有するという決定に応答して、前記第1の文書および前記第2の文書を重複として識別することと
    を含む、方法。
  17. 前記第1の範囲は、30日を超えず、
    前記第2の範囲は、20%を超えず、
    前記有意な数の特徴は、各文書内のそれぞれの用語の数の少なくとも80%として予め決定され、前記用語は、それに対応する逆文書頻度(idf)値に基づいて選択される、請求項16に記載の方法。
  18. 前記第1の文書および前記第2の文書は、それぞれ第1の文書署名データ構造および第2の文書署名データ構造を含み、各文書署名データ構造は、
    前記文書に関連付けられた発行日に基づいている時間的コンポーネントと、
    前記文書に関連付けられた単語カウントに基づいている長さコンポーネントと、
    前記文書の一定数の(最上位にランク付けされた)逆文書頻度(idf)用語に基づいている用語ベクトルと
    を含む、請求項16に記載の方法。
  19. 前記用語べクトルは、少なくとも10用語を含む、請求項18に記載の方法。
  20. 第1の文書および第2の文書のそれぞれの長さ特性が、互いの一範囲内に存在するか否かを決定し、そして、前記第1の文書および前記第2の文書が、互いに共通の閾値数の選択された特徴を少なくとも有するか否かを決定することであって、各特徴は、それに対応する逆文書頻度(idf)値に基づいて選択され、前記第1の文書および前記第2の文書が互いに共通の閾値数の特徴を少なくとも有するか否かを決定することは、
    前記第1の文書および前記第2の文書に対してそれぞれ第1の用語ベクトルおよび第2の用語ベクトルを定義することであって、各用語ベクトルは、そのそれぞれの文書に対して、idf用語の複数の等しい長さのバイナリ表現を含む、こと
    を含む、ことと、
    前記第1の用語ベクトルのバイナリ表現の数を前記第2の用語ベクトルのバイナリ表現の数と比較することと、
    前記決定が肯定的であることに応答して、前記第1の文書および前記第2の文書を重複として識別することと
    を含む、方法。
  21. コンピュータに実装される方法であって、
    ユーザクエリーを受信することと、
    前記ユーザクエリーに応答して、データベースからの第1の文書および第2の文書を少なくとも識別することであって、前記第1の文書および前記第2の文書は、それぞれ第1の特徴ベクトルおよび第2の特徴べクトルに関連付けられており、各特徴ベクトルは、そのそれぞれの文書内の用語または特徴の複数の等しい長さのバイナリ表現を有し、用語または特徴は、逆文書頻度(idf)値のテーブル内の対応する逆文書頻度(idf)値の相対的大きさに基づいて選択される、ことと、
    前記第1の文書または前記第2の文書の時間的特性が、互いの第1の範囲内に存在するか否かを決定することと、
    前記第1の文書または前記第2の文書の長さ特性が、互いの第2の範囲内に存在するか否かを決定することと、
    前記第1の文書および前記第2の文書を識別したこと、および、少なくとも1つの決定が肯定的であるということに応答して、前記第1の特徴ベクトルおよび前記第2の特徴ベクトルを比較することと
    を含む、方法。
  22. 前記ユーザクエリーに応答して、前記第1の文書および前記第2の文書のうちの少なくとも1つを識別するサーチ結果を提示することをさらに含み、前記提示されたリストは、前記第1の特徴ベクトルおよび前記第2の特徴ベクトルの比較に基づいて、前記第1の文書および前記第2の文書が、互いの重複であるコンテンツを含むか否かの指示を含む、請求項21に記載の方法。
  23. 前記第1の特徴ベクトルおよび前記第2の特徴ベクトルを比較することは、前記第1の文書および前記第2の文書の時間的特性が、互いの第1の範囲内に存在するという肯定的決定、および、前記第1の文書および前記第2の文書の長さ特性が、互いの第2の範囲内に存在するという肯定的決定に応答して、行われる、請求項22に記載の方法。
  24. 前記第1の文書および前記第2の文書のうちの少なくとも1つを識別する前記サーチ結果を提示することは、前記第1の文書のタイトルのリストを提示することを含み、前記第1の文書および前記第2の文書が互いの重複であるコンテンツを含むか否かの指示は、
    前記第2の文書のタイトルのリストを提示することであって、前記第2の文書のタイトルは、前記第1の文書のタイトルよりも下であり、前記第1の文書のタイトルに対してインデントされている、ことと、
    前記第1の文書のタイトルのフォントとは異なるフォントで前記第2の文書のタイトルのリストを提示することと、
    前記第2の文書を識別する1つ以上の文書のリストを表示するように選択可能なフォルダまたは他のコンテンツアイコンを提示することと
    を含む、請求項21に記載の方法。
  25. 第1の文書および第2の文書が重複コンテンツを含むか否かを識別するコンピュータベースのシステムであって、前記システムは、プロセッサ、メモリ、ユーザインターフェース、前記プロセッサによって実行可能なコードを含み、
    前記システムは、
    ユーザクエリーを受信する手段と、
    前記ユーザクエリーに応答して、データベースからの第1の文書および第2の文書を少なくとも識別する手段であって、前記第1の文書および前記第2の文書は、それぞれ第1の特徴ベクトルおよび第2の特徴べクトルに関連付けられており、各特徴ベクトルは、そのそれぞれの文書内の用語または特徴の複数の等しい長さのバイナリ表現を有し、用語または特徴は、逆文書頻度(idf)値のテーブル内の対応する逆文書頻度(idf)値の相対的大きさに基づいて選択される、手段と、
    前記第1の文書または前記第2の文書の時間的特性が、互いの第1の範囲内に存在するか否かを決定する第1の決定手段と、
    前記第1の文書または前記第2の文書の長さ特性が、互いの第2の範囲内に存在するか否かを決定する第2の決定手段と、
    前記第1の文書および前記第2の文書を識別したこと、および、少なくとも1つの決定が肯定的であるということに応答して、前記第1の特徴ベクトルおよび前記第2の特徴ベクトルを比較する手段と
    をさらに含む、コンピュータベースのシステム。
  26. グラフィカルユーザインターフェースをさらに含み、
    前記グラフィカルユーザインターフェースは、
    表示デバイス上のクエリー定義領域であって、前記領域は、クエリーのユーザによる定義を容易にするための1つ以上のインタラクティブ制御特徴を含む、クエリー定義領域と、
    前記クエリー定義領域内の少なくとも1つのインタラクティブ制御特徴であって、ユーザが、前記クエリーに応答して提供されたサーチ結果が、実質的に重複コンテンツを有すると決定された文書を識別するか否かを選択することを可能にする、少なくとも1つのインタラクティブ制御特徴と
    をさらに含む、請求項25に記載のコンピュータベースのシステム。
  27. 前記1つのインタラクティブ制御特徴は、チェックボックスを含む、請求項26に記載のコンピュータベースのシステム。
  28. 前記サーチ結果において他の文書と実質的に重複するコンテンツを有すると決定された文書の出力を制御する少なくとも1つのインタラクティブ制御特徴をさらに含む、請求項26に記載のコンピュータベースのシステム。
  29. クエリー結果領域をさらに含み、
    前記クエリー結果領域は、
    対応するサーチ結果文書の表示を引き起こす1つ以上のインタラクティブ制御特徴と、
    前記サーチ結果文書の少なくとも別の文書の重複であるとして見なされるサーチ結果文書を識別し、前記サーチ結果文書の表示を引き起こす少なくとも1つのインタラクティブ制御特徴と
    を含む、請求項26に記載のコンピュータベースのシステム。
  30. 表示デバイス上に表示されるグラフィカルユーザインターフェースをさらに含み、
    前記インターフェースは、
    クエリを提出する1つ以上のインタラクティブ制御特徴と、
    前記クエリに基づいて、前記表示デバイス上にサーチ結果を表示するクエリ結果領域と
    を含み、
    前記領域は、
    少なくとも1つのインタラクティブ制御特徴であって、対応するサーチ結果文書の表示または検索を識別し、引き起こす少なくとも1つのインタラクティブ制御手段と、
    少なくとも1つの重複指示特徴であって、前記サーチ結果が、対応するサーチ結果文書の重複であるとして見なされる任意の文書を含むか否かを指示する、少なくとも1つの重複指示特徴と、
    重複であるとして見なされる文書の数を指示する重複カウントインジケータと
    を含む、請求項25に記載のコンピュータベースのシステム。
  31. 前記1つの重複指示特徴は、選択可能リンクを含み、前記選択可能リンクは、対応するサーチ結果文書に対して、1つのインタラクティブ制御特徴の下に配置され、前記1つのインタラクティブ制御特徴に対してインデントされる、請求項30に記載のコンピュータベースのシステム。
  32. クエリーに応答して提示されたサーチ結果が実質的に重複コンテンツを有すると決定された文書を識別するか否かのデフォルト設定を定義する少なくとも1つのインタラクティブ制御特徴をさらに含む、請求項30に記載のコンピュータベースのシステム。
  33. 前記1つのインタラクティブ制御特徴は、チェックボックスを含む、請求項32に記載のコンピュータベースのシステム。
  34. 情報検索システムであって、
    複数のデータベースと、
    ユーザに前記データベースのうちの1つ以上に対するアクセスを提供するサーバと
    を含み、
    前記サーバは、
    クエリーを定義し、処理することにより、結果を生成する手段であって、前記結果は、前記結果内の1つ以上の他の文書内のコンテンツのコンテンツ重複を含む文書を含む、手段と、
    前記クエリーの結果内の1つ以上の文書が、前記結果内の1つ以上の他の文書内のコンテンツのコンテンツ重複を含むか否かを決定する重複決定手段であって、
    前記重複決定手段は、
    前記結果内の前記文書のうちの第1の文書に対する第1の文書署名を前記結果内の前記文書のうちの第2の文書に対する第2の文書署名と比較する第1の手段であって、各署名は、複数の用語およびそれに対応する文書内の前記複数の用語に対応する位置に基づいている、第1の手段と、
    前記第1の文書および前記第2の文書の第1の長さおよび第2の長さ、および、第1の時間的特徴および第2の時間的特徴をそれぞれ比較する第2の手段と、
    前記第1の文書および前記第2の文書に共通の特徴のセットを比較する第3の手段であって、前記特徴のセットは、それらに対応する逆文書頻度(idf)値に基づいて選択される特徴を含み、前記第1の文書および前記第2の文書は、互いに共通の閾値数の特徴を少なくとも含む、第3の手段と
    を含み、
    前記重複決定手段は、比較する前記第3の手段の結果に応答して、前記第1の文書および前記第2の文書が重複するか否かを決定するように適合されている、重複決定手段と、
    前記クエリーの結果の表示を制御する手段であって、前記表示された結果のうちの少なくとも1つは、前記結果内の1つ以上の他の文書のコンテンツのコンテンツ重複を含むものとして指示される、前記クエリーの結果の表示を制御する手段と、
    前記結果内の1つ以上の他の文書のコンテンツのコンテンツ重複を含む文書の出力に関するユーザによって選択されたオプションに基づいて、プリンタまたは電子メール伝送デバイスに対する前記クエリーの結果の出力を制御する手段と
    を含む、システム。
  35. 特徴のセットを比較する前記手段は、前記第1の文書および前記第2の文書の第1の長さおよび第2の長さ、および、第1の時間的特徴および第2の時間的特徴をそれぞれ比較する手段の結果に応答して実行される、請求項34に記載のシステム。
  36. 第1の文書および第2の文書にそれぞれ関連付けられた時間的値が、互いの一範囲内に存在するか否かを決定し、そして、前記第1の文書および前記第2の文書が、互いに共通の閾値数の選択された特徴を少なくとも有するか否かを決定することであって、各特徴は、それに対応する逆文書頻度(idf)値に基づいて選択され、前記第1の文書および前記第2の文書が互いに共通の閾値数の特徴を少なくとも有するか否かを決定することは、
    前記第1の文書および前記第2の文書に対してそれぞれ第1の用語べクトルおよび第2の用語ベクトルを定義することであって、各用語ベクトルは、そのそれぞれの文書に対して、idf用語の複数の等しい長さのバイナリ表現を含む、こと
    を含む、ことと、
    前記第1の用語ベクトルのバイナリ表現の数を前記第2の用語ベクトルのバイナリ表現の数と比較することと、
    前記決定が肯定的であることに応答して、前記第1の文書および前記第2の文書を重複として識別することと
    を含む、方法。
  37. 第1の文書および第2の文書が重複コンテンツを含むか否かを識別するコンピュータベースのシステムであって、前記システムは、プロセッサ、メモリ、ユーザインターフェース、前記プロセッサによって実行可能なコードを含み、
    前記システムは、
    前記第1の文書および前記第2の文書が、それらに対応する時間的特性であって、互いの第1の範囲内に存在する時間的特性を有するか否かを決定する第1の決定手段と、
    前記第1の文書および前記第2の文書が、それらに対応する長さ特性であって、互いの第2の範囲内に存在する長さ特性を有するか否かを決定する第2の決定手段と、
    前記第1の文書および前記第2の文書の前記時間的特性が、互いの前記第1の範囲内に存在するという肯定的決定に応答して、そして、前記第1の文書および前記第2の文書の前記長さ特性が、互いの前記第2の範囲内に存在するという肯定的決定に応答して、前記第1の文書および前記第2の文書が、互いに共通の有意な数の特徴を有するか否かを決定する第3の決定手段と、
    前記第1の文書および前記第2の文書の前記時間的特性が、互いの前記第1の範囲内に存在し、前記第1の文書および前記第2の文書の前記長さが、互いの前記第2の範囲内に存在し、そして、前記第1の文書および前記第2の文書が、互いに共通の有意な数の特徴を少なくとも有するという決定に応答して、前記第1の文書および前記第2の文書を重複として識別する手段と
    を含む、システム。
  38. 第1の文書および第2の文書が重複コンテンツを含むか否かを識別するコンピュータベースのシステムであって、前記システムは、プロセッサ、メモリ、ユーザインターフェース、前記プロセッサによって実行可能なコードを含み、
    前記システムは、
    前記第1の文書および前記第2の文書のそれぞれの長さ特性が、互いの一範囲内に存在するか否かを決定し、そして、前記第1の文書および前記第2の文書が、互いに共通の閾値数の選択された特徴を少なくとも有するか否かを決定する手段であって、各特徴は、それに対応する逆文書頻度(idf)値に基づいて選択される、手段と、
    前記第1の文書および前記第2の文書に対してそれぞれ第1の用語ベクトルおよび第2の用語ベクトルを定義する手段であって、各用語ベクトルは、そのそれぞれの文書に対して、idf用語の複数の等しい長さのバイナリ表現を含む、手段と、
    前記第1の用語ベクトルのバイナリ表現の数を前記第2の用語ベクトルのバイナリ表現の数と比較する手段と、
    前記決定が肯定的であるということに応答して、前記第1の文書および前記第2の文書を重複として識別する手段と
    を含む、システム。
  39. 第1の文書および第2の文書が重複コンテンツを含むか否かを識別するコンピュータベースのシステムであって、前記システムは、プロセッサ、メモリ、ユーザインターフェース、前記プロセッサによって実行可能なコードを含み、
    前記システムは、
    前記第1の文書および前記第2の文書のそれぞれに関連付けられた時間的値が、互いの一範囲内に存在するか否かを決定し、そして、前記第1の文書および前記第2の文書が、互いに共通の閾値数の選択された特徴を少なくとも有するか否かを決定する手段であって、各特徴は、それに対応する逆文書頻度(idf)値に基づいて選択される、手段と、
    前記第1の文書および前記第2の文書に対してそれぞれ第1の用語ベクトルおよび第2の用語ベクトルを定義する手段であって、各用語ベクトルは、そのそれぞれの文書に対して、idf用語の複数の等しい長さのバイナリ表現を含む、手段と、
    前記第1の用語ベクトルのバイナリ表現の数を前記第2の用語ベクトルのバイナリ表現の数と比較する手段と、
    前記決定が肯定的であるという決定ことに応答して、前記第1の文書および前記第2の文書を重複として識別する手段と
    を含む、システム。
JP2011057289A 2004-08-23 2011-03-15 重複する文書の検出および表示機能 Expired - Fee Related JP5522743B2 (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US60376204P 2004-08-23 2004-08-23
US60/603,762 2004-08-23
US62397504P 2004-11-01 2004-11-01
US60/623,975 2004-11-01
US11/122,577 2005-05-05
US11/122,577 US7809695B2 (en) 2004-08-23 2005-05-05 Information retrieval systems with duplicate document detection and presentation functions

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2007530061A Division JP4919515B2 (ja) 2004-08-23 2005-08-23 重複する文書の検出および表示機能

Publications (2)

Publication Number Publication Date
JP2011129161A true JP2011129161A (ja) 2011-06-30
JP5522743B2 JP5522743B2 (ja) 2014-06-18

Family

ID=35295361

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007530061A Expired - Fee Related JP4919515B2 (ja) 2004-08-23 2005-08-23 重複する文書の検出および表示機能
JP2011057289A Expired - Fee Related JP5522743B2 (ja) 2004-08-23 2011-03-15 重複する文書の検出および表示機能

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2007530061A Expired - Fee Related JP4919515B2 (ja) 2004-08-23 2005-08-23 重複する文書の検出および表示機能

Country Status (8)

Country Link
US (1) US7809695B2 (ja)
EP (1) EP1805661A1 (ja)
JP (2) JP4919515B2 (ja)
CN (1) CN101076800B (ja)
AU (1) AU2005277039B2 (ja)
CA (1) CA2578157C (ja)
NZ (1) NZ553567A (ja)
WO (1) WO2006023941A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013105273A (ja) * 2011-11-11 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム
JP2015501469A (ja) * 2011-11-11 2015-01-15 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 製品情報検索結果に対する重複排除の実施

Families Citing this family (163)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7809695B2 (en) 2004-08-23 2010-10-05 Thomson Reuters Global Resources Information retrieval systems with duplicate document detection and presentation functions
US7672971B2 (en) * 2006-02-17 2010-03-02 Google Inc. Modular architecture for entity normalization
US8510325B1 (en) * 2004-12-30 2013-08-13 Google Inc. Supplementing search results with information of interest
US7769579B2 (en) 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US8244689B2 (en) * 2006-02-17 2012-08-14 Google Inc. Attribute entropy as a signal in object normalization
US8682913B1 (en) 2005-03-31 2014-03-25 Google Inc. Corroborating facts extracted from multiple sources
US9208229B2 (en) * 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US7516130B2 (en) * 2005-05-09 2009-04-07 Trend Micro, Inc. Matching engine with signature generation
US8996470B1 (en) 2005-05-31 2015-03-31 Google Inc. System for ensuring the internal consistency of a fact repository
US20070050423A1 (en) * 2005-08-30 2007-03-01 Scentric, Inc. Intelligent general duplicate management system
US7617231B2 (en) * 2005-12-07 2009-11-10 Electronics And Telecommunications Research Institute Data hashing method, data processing method, and data processing system using similarity-based hashing algorithm
US7991797B2 (en) 2006-02-17 2011-08-02 Google Inc. ID persistence through normalization
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US8700568B2 (en) * 2006-02-17 2014-04-15 Google Inc. Entity normalization via name normalization
WO2007131213A2 (en) * 2006-05-05 2007-11-15 Visible Technologies, Inc. Systems and methods for consumer-generated media reputation management
US20090106697A1 (en) 2006-05-05 2009-04-23 Miles Ward Systems and methods for consumer-generated media reputation management
US9269068B2 (en) 2006-05-05 2016-02-23 Visible Technologies Llc Systems and methods for consumer-generated media reputation management
US20090070683A1 (en) * 2006-05-05 2009-03-12 Miles Ward Consumer-generated media influence and sentiment determination
US7720835B2 (en) * 2006-05-05 2010-05-18 Visible Technologies Llc Systems and methods for consumer-generated media reputation management
US8725830B2 (en) * 2006-06-22 2014-05-13 Linkedin Corporation Accepting third party content contributions
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
FR2907934B1 (fr) * 2006-10-27 2009-02-06 Inst Nat Rech Inf Automat Outil informatique de gestion de documents numeriques
US7756798B2 (en) * 2007-03-06 2010-07-13 Oracle International Corporation Extensible mechanism for detecting duplicate search items
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US7698317B2 (en) * 2007-04-20 2010-04-13 Yahoo! Inc. Techniques for detecting duplicate web pages
US8239350B1 (en) 2007-05-08 2012-08-07 Google Inc. Date ambiguity resolution
US7818278B2 (en) * 2007-06-14 2010-10-19 Microsoft Corporation Large scale item representation matching
US7966291B1 (en) * 2007-06-26 2011-06-21 Google Inc. Fact-based object merging
JP4892427B2 (ja) * 2007-07-13 2012-03-07 キヤノン株式会社 画像処理装置、画像処理方法、及び、画像処理プログラム
US7970766B1 (en) 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8301637B2 (en) * 2007-07-27 2012-10-30 Seiko Epson Corporation File search system, file search device and file search method
US8738643B1 (en) 2007-08-02 2014-05-27 Google Inc. Learning synonymous object names from anchor texts
US20090043767A1 (en) * 2007-08-07 2009-02-12 Ashutosh Joshi Approach For Application-Specific Duplicate Detection
US8442969B2 (en) * 2007-08-14 2013-05-14 John Nicholas Gross Location based news and search engine
US8271493B2 (en) * 2007-10-11 2012-09-18 Oracle International Corporation Extensible mechanism for grouping search results
US8812435B1 (en) 2007-11-16 2014-08-19 Google Inc. Learning objects and facts from documents
US8240554B2 (en) 2008-03-28 2012-08-14 Keycorp System and method of financial instrument processing with duplicate item detection
US9430526B2 (en) * 2008-09-29 2016-08-30 Teradata Us, Inc. Method and system for temporal aggregation
US9542409B2 (en) 2008-11-26 2017-01-10 Red Hat, Inc. Deduplicated file system
KR20100066920A (ko) * 2008-12-10 2010-06-18 한국전자통신연구원 전자 문서 처리 장치 및 그 방법
US20100174698A1 (en) * 2009-01-06 2010-07-08 Global Patent Solutions, Llc Method for a customized and automated forward and backward patent citation search
US8943033B2 (en) * 2009-01-30 2015-01-27 International Business Machines Corporation System and method for avoiding duplication of effort in drafting documents
US8250072B2 (en) * 2009-03-06 2012-08-21 Dmitri Asonov Detecting real word typos
US8874533B1 (en) * 2009-03-25 2014-10-28 MyWerx, LLC System and method for data validation and life cycle management
CN101551818B (zh) * 2009-04-14 2011-04-06 北京红旗中文贰仟软件技术有限公司 一种单向多映射文件匹配方法
JP5184438B2 (ja) * 2009-05-15 2013-04-17 日本電信電話株式会社 類似文書を検出するための文書署名生成装置、文書署名生成方法、文書署名生成プログラム
US20110015921A1 (en) * 2009-07-17 2011-01-20 Minerva Advisory Services, Llc System and method for using lingual hierarchy, connotation and weight of authority
US8180740B1 (en) * 2009-08-12 2012-05-15 Netapp, Inc. System and method for eliminating duplicate data by generating data fingerprints using adaptive fixed-length windows
CN101694668B (zh) * 2009-09-29 2012-04-18 北京百度网讯科技有限公司 网页结构相似性确定方法及装置
US10210279B2 (en) 2009-10-28 2019-02-19 International Business Machines Corporation Method, apparatus and software for differentiating two or more data sets having common data set identifiers
US8589497B2 (en) * 2009-12-08 2013-11-19 International Business Machines Corporation Applying tags from communication files to users
US8266228B2 (en) * 2009-12-08 2012-09-11 International Business Machines Corporation Tagging communication files based on historical association of tags
US8620849B2 (en) * 2010-03-10 2013-12-31 Lockheed Martin Corporation Systems and methods for facilitating open source intelligence gathering
US9633121B2 (en) 2010-04-19 2017-04-25 Facebook, Inc. Personalizing default search queries on online social networks
US8185558B1 (en) 2010-04-19 2012-05-22 Facebook, Inc. Automatically generating nodes and edges in an integrated social graph
US8732208B2 (en) 2010-04-19 2014-05-20 Facebook, Inc. Structured search queries based on social-graph information
US8868603B2 (en) 2010-04-19 2014-10-21 Facebook, Inc. Ambiguous structured search queries on online social networks
US8782080B2 (en) 2010-04-19 2014-07-15 Facebook, Inc. Detecting social graph elements for structured search queries
US8918418B2 (en) 2010-04-19 2014-12-23 Facebook, Inc. Default structured search queries on online social networks
US8751521B2 (en) 2010-04-19 2014-06-10 Facebook, Inc. Personalized structured search queries for online social networks
US8180804B1 (en) 2010-04-19 2012-05-15 Facebook, Inc. Dynamically generating recommendations based on social graph information
WO2012025784A1 (en) * 2010-08-23 2012-03-01 Nokia Corporation An audio user interface apparatus and method
CN102402563A (zh) * 2010-09-19 2012-04-04 腾讯科技(深圳)有限公司 网络信息筛选方法和装置
US8825641B2 (en) 2010-11-09 2014-09-02 Microsoft Corporation Measuring duplication in search results
US8266115B1 (en) * 2011-01-14 2012-09-11 Google Inc. Identifying duplicate electronic content based on metadata
CN102081598B (zh) * 2011-01-27 2012-07-04 北京邮电大学 一种检测文本重复的方法
CN102609536B (zh) * 2012-02-16 2013-09-18 杭州电子科技大学 一种非合作环境下的资源选择方法
US8799236B1 (en) * 2012-06-15 2014-08-05 Amazon Technologies, Inc. Detecting duplicated content among digital items
US8935255B2 (en) 2012-07-27 2015-01-13 Facebook, Inc. Social static ranking for search
CN104246760A (zh) * 2012-07-30 2014-12-24 惠普发展公司,有限责任合伙企业 搜索方法
US10007731B2 (en) * 2012-09-12 2018-06-26 Google Llc Deduplication in search results
CN103167159B (zh) * 2012-09-25 2015-02-11 深圳市金立通信设备有限公司 一种手机中快速查找相同文件内容的方法
US9223826B2 (en) 2013-02-25 2015-12-29 Facebook, Inc. Pushing suggested search queries to mobile devices
US9910887B2 (en) 2013-04-25 2018-03-06 Facebook, Inc. Variable search query vertical access
US9367625B2 (en) * 2013-05-03 2016-06-14 Facebook, Inc. Search query interactions on online social networks
US9223898B2 (en) 2013-05-08 2015-12-29 Facebook, Inc. Filtering suggested structured queries on online social networks
US9330183B2 (en) 2013-05-08 2016-05-03 Facebook, Inc. Approximate privacy indexing for search queries on online social networks
RU2580036C2 (ru) 2013-06-28 2016-04-10 Закрытое акционерное общество "Лаборатория Касперского" Система и способ создания гибкой свертки для обнаружения вредоносных программ
US9305322B2 (en) 2013-07-23 2016-04-05 Facebook, Inc. Native application testing
US9881077B1 (en) * 2013-08-08 2018-01-30 Google Llc Relevance determination and summary generation for news objects
CN103605693A (zh) * 2013-11-04 2014-02-26 北京奇虎科技有限公司 用于识别网络游戏中发布消息的广告特征的装置和方法
CN103605694A (zh) * 2013-11-04 2014-02-26 北京奇虎科技有限公司 一种相似文本检测装置和方法
US20150193436A1 (en) * 2014-01-08 2015-07-09 Kent D. Slaney Search result processing
US9336300B2 (en) 2014-01-17 2016-05-10 Facebook, Inc. Client-side search templates for online social networks
US10963810B2 (en) * 2014-06-30 2021-03-30 Amazon Technologies, Inc. Efficient duplicate detection for machine learning data sets
CN104050299A (zh) * 2014-07-07 2014-09-17 江苏金智教育信息技术有限公司 一种论文查重的方法
US20160021051A1 (en) * 2014-07-16 2016-01-21 Theplatform, Llc Providing Access To Content Via Social Media
CN104182465A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于网络的大数据处理方法
US9805099B2 (en) 2014-10-30 2017-10-31 The Johns Hopkins University Apparatus and method for efficient identification of code similarity
US9767183B2 (en) * 2014-12-30 2017-09-19 Excalibur Ip, Llc Method and system for enhanced query term suggestion
US9298836B1 (en) * 2015-07-07 2016-03-29 Yext, Inc. Suppressing duplicate listings on multiple search engine web sites from a single source system given a synchronized listing is unknown
US10509832B2 (en) 2015-07-13 2019-12-17 Facebook, Inc. Generating snippet modules on online social networks
CN106354730B (zh) * 2015-07-16 2019-12-10 北京国双科技有限公司 网页解析中网页正文重复内容的识别方法及装置
US10268664B2 (en) 2015-08-25 2019-04-23 Facebook, Inc. Embedding links in user-created content on online social networks
US10810217B2 (en) 2015-10-07 2020-10-20 Facebook, Inc. Optionalization and fuzzy search on online social networks
KR20180069813A (ko) * 2015-10-16 2018-06-25 알리바바 그룹 홀딩 리미티드 타이틀 표시 방법 및 장치
US10270868B2 (en) 2015-11-06 2019-04-23 Facebook, Inc. Ranking of place-entities on online social networks
US10795936B2 (en) 2015-11-06 2020-10-06 Facebook, Inc. Suppressing entity suggestions on online social networks
US9602965B1 (en) 2015-11-06 2017-03-21 Facebook, Inc. Location-based place determination using online social networks
US10534814B2 (en) 2015-11-11 2020-01-14 Facebook, Inc. Generating snippets on online social networks
US10387511B2 (en) 2015-11-25 2019-08-20 Facebook, Inc. Text-to-media indexes on online social networks
US10740368B2 (en) 2015-12-29 2020-08-11 Facebook, Inc. Query-composition platforms on online social networks
US10019466B2 (en) 2016-01-11 2018-07-10 Facebook, Inc. Identification of low-quality place-entities on online social networks
US10262039B1 (en) 2016-01-15 2019-04-16 Facebook, Inc. Proximity-based searching on online social networks
US10162899B2 (en) 2016-01-15 2018-12-25 Facebook, Inc. Typeahead intent icons and snippets on online social networks
US10740375B2 (en) 2016-01-20 2020-08-11 Facebook, Inc. Generating answers to questions using information posted by users on online social networks
US10157224B2 (en) 2016-02-03 2018-12-18 Facebook, Inc. Quotations-modules on online social networks
US10216850B2 (en) 2016-02-03 2019-02-26 Facebook, Inc. Sentiment-modules on online social networks
US10242074B2 (en) 2016-02-03 2019-03-26 Facebook, Inc. Search-results interfaces for content-item-specific modules on online social networks
US10270882B2 (en) 2016-02-03 2019-04-23 Facebook, Inc. Mentions-modules on online social networks
US10452671B2 (en) 2016-04-26 2019-10-22 Facebook, Inc. Recommendations from comments on online social networks
US10437845B2 (en) * 2016-05-05 2019-10-08 Corsearch, Inc. System and method for displaying search results for a trademark query in an interactive graphical representation
US10635661B2 (en) 2016-07-11 2020-04-28 Facebook, Inc. Keyboard-based corrections for search queries on online social networks
US9998525B1 (en) 2016-07-18 2018-06-12 Google Llc Reducing transmissions of redundant third-party content over a network
US10282483B2 (en) 2016-08-04 2019-05-07 Facebook, Inc. Client-side caching of search keywords for online social networks
US10223464B2 (en) 2016-08-04 2019-03-05 Facebook, Inc. Suggesting filters for search on online social networks
US10726022B2 (en) 2016-08-26 2020-07-28 Facebook, Inc. Classifying search queries on online social networks
US10534815B2 (en) 2016-08-30 2020-01-14 Facebook, Inc. Customized keyword query suggestions on online social networks
CN107784022B (zh) * 2016-08-31 2020-09-15 北京国双科技有限公司 检测法律文书是否重复的方法及装置
US10102255B2 (en) 2016-09-08 2018-10-16 Facebook, Inc. Categorizing objects for queries on online social networks
US10645142B2 (en) 2016-09-20 2020-05-05 Facebook, Inc. Video keyframes display on online social networks
US10083379B2 (en) 2016-09-27 2018-09-25 Facebook, Inc. Training image-recognition systems based on search queries on online social networks
US10026021B2 (en) 2016-09-27 2018-07-17 Facebook, Inc. Training image-recognition systems using a joint embedding model on online social networks
US10579688B2 (en) 2016-10-05 2020-03-03 Facebook, Inc. Search ranking and recommendations for online social networks based on reconstructed embeddings
US10311117B2 (en) 2016-11-18 2019-06-04 Facebook, Inc. Entity linking to query terms on online social networks
US10650009B2 (en) 2016-11-22 2020-05-12 Facebook, Inc. Generating news headlines on online social networks
US10162886B2 (en) 2016-11-30 2018-12-25 Facebook, Inc. Embedding-based parsing of search queries on online social networks
US10313456B2 (en) 2016-11-30 2019-06-04 Facebook, Inc. Multi-stage filtering for recommended user connections on online social networks
US10235469B2 (en) 2016-11-30 2019-03-19 Facebook, Inc. Searching for posts by related entities on online social networks
US10185763B2 (en) 2016-11-30 2019-01-22 Facebook, Inc. Syntactic models for parsing search queries on online social networks
US10417202B2 (en) * 2016-12-21 2019-09-17 Hewlett Packard Enterprise Development Lp Storage system deduplication
US10607148B1 (en) 2016-12-21 2020-03-31 Facebook, Inc. User identification with voiceprints on online social networks
US11223699B1 (en) 2016-12-21 2022-01-11 Facebook, Inc. Multiple user recognition with voiceprints on online social networks
US10535106B2 (en) 2016-12-28 2020-01-14 Facebook, Inc. Selecting user posts related to trending topics on online social networks
US10372813B2 (en) 2017-01-17 2019-08-06 International Business Machines Corporation Selective content dissemination
US10489472B2 (en) 2017-02-13 2019-11-26 Facebook, Inc. Context-based search suggestions on online social networks
US10614141B2 (en) 2017-03-15 2020-04-07 Facebook, Inc. Vital author snippets on online social networks
US10769222B2 (en) 2017-03-20 2020-09-08 Facebook, Inc. Search result ranking based on post classifiers on online social networks
US20180300296A1 (en) * 2017-04-17 2018-10-18 Microstrategy Incorporated Document similarity analysis
US11379861B2 (en) 2017-05-16 2022-07-05 Meta Platforms, Inc. Classifying post types on online social networks
US10248645B2 (en) 2017-05-30 2019-04-02 Facebook, Inc. Measuring phrase association on online social networks
US10268646B2 (en) 2017-06-06 2019-04-23 Facebook, Inc. Tensor-based deep relevance model for search on online social networks
EP3642766A4 (en) * 2017-06-19 2021-03-03 Equifax, Inc. AUTOMATIC LEARNING SYSTEM TO PROCESS QUESTIONS FOR DIGITAL CONTENT
US10489468B2 (en) 2017-08-22 2019-11-26 Facebook, Inc. Similarity search using progressive inner products and bounds
US10776437B2 (en) 2017-09-12 2020-09-15 Facebook, Inc. Time-window counters for search results on online social networks
CN107861974B (zh) * 2017-09-19 2018-12-25 北京金堤科技有限公司 一种自适应网络爬虫系统及其数据获取方法
US10678786B2 (en) 2017-10-09 2020-06-09 Facebook, Inc. Translating search queries on online social networks
US10810214B2 (en) 2017-11-22 2020-10-20 Facebook, Inc. Determining related query terms through query-post associations on online social networks
US10963514B2 (en) 2017-11-30 2021-03-30 Facebook, Inc. Using related mentions to enhance link probability on online social networks
US10129705B1 (en) 2017-12-11 2018-11-13 Facebook, Inc. Location prediction using wireless signals on online social networks
US11604968B2 (en) 2017-12-11 2023-03-14 Meta Platforms, Inc. Prediction of next place visits on online social networks
US20200117742A1 (en) * 2018-10-15 2020-04-16 Microsoft Technology Licensing, Llc Dynamically suppressing query answers in search
RU2744028C2 (ru) * 2018-12-26 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для хранения множества документов
GB201821327D0 (en) 2018-12-31 2019-02-13 Transversal Ltd A system and method for discriminating removing boilerplate text in documents comprising structured labelled text elements
CN111611787A (zh) * 2019-02-25 2020-09-01 中国海洋大学 抄袭评测方法、系统和辅助写作系统
US11531818B2 (en) * 2019-11-15 2022-12-20 42 Maru Inc. Device and method for machine reading comprehension question and answer
KR102448061B1 (ko) 2019-12-11 2022-09-27 네이버 주식회사 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템
KR102432600B1 (ko) * 2019-12-17 2022-08-16 네이버 주식회사 벡터 양자화를 이용한 중복 문서 탐지 방법 및 시스템
CN111737966B (zh) * 2020-06-11 2024-03-01 北京百度网讯科技有限公司 文档重复度检测方法、装置、设备和可读存储介质
CN112183052B (zh) * 2020-09-29 2024-03-05 百度(中国)有限公司 一种文档重复度检测方法、装置、设备和介质
US11593439B1 (en) * 2022-05-23 2023-02-28 Onetrust Llc Identifying similar documents in a file repository using unique document signatures
WO2024036394A1 (en) * 2022-08-18 2024-02-22 9197-1168 Québec Inc. Systems and methods for identifying documents and references

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296363A (ja) * 2002-03-29 2003-10-17 Fujitsu Ltd 文書検索方法
JP2004062880A (ja) * 2003-06-12 2004-02-26 Hitachi Ltd 情報の埋め込み方法およびその装置
US20040093323A1 (en) * 2002-11-07 2004-05-13 Mark Bluhm Electronic document repository management and access system

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0513652A2 (en) 1991-05-10 1992-11-19 Siemens Aktiengesellschaft Method for modelling similarity function using neural network
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
JPH07295994A (ja) * 1994-04-22 1995-11-10 Sharp Corp 情報検索装置
JP3810463B2 (ja) * 1995-07-31 2006-08-16 株式会社ニューズウオッチ 情報フィルタリング装置
US5826260A (en) * 1995-12-11 1998-10-20 International Business Machines Corporation Information retrieval system and method for displaying and ordering information based on query element contribution
US5913208A (en) * 1996-07-09 1999-06-15 International Business Machines Corporation Identifying duplicate documents from search results without comparing document content
JPH10254894A (ja) * 1997-03-11 1998-09-25 Toshiba Corp 類似文書検索装置、類似文書検索方法及び類似文書検索用記憶媒体
US6138113A (en) * 1998-08-10 2000-10-24 Altavista Company Method for identifying near duplicate pages in a hyperlinked database
US6654739B1 (en) * 2000-01-31 2003-11-25 International Business Machines Corporation Lightweight document clustering
US6785669B1 (en) * 2000-03-08 2004-08-31 International Business Machines Corporation Methods and apparatus for flexible indexing of text for use in similarity searches
GB0016974D0 (en) * 2000-07-12 2000-08-30 Univ Salford The Document retrieval system
US6757675B2 (en) * 2000-07-24 2004-06-29 The Regents Of The University Of California Method and apparatus for indexing document content and content comparison with World Wide Web search service
US7013310B2 (en) * 2002-01-03 2006-03-14 Cashedge, Inc. Method and apparatus for retrieving and processing data
US6978419B1 (en) * 2000-11-15 2005-12-20 Justsystem Corporation Method and apparatus for efficient identification of duplicate and near-duplicate documents and text spans using high-discriminability text fragments
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US6745197B2 (en) * 2001-03-19 2004-06-01 Preston Gates Ellis Llp System and method for efficiently processing messages stored in multiple message stores
JP2003016092A (ja) * 2001-04-26 2003-01-17 Hitachi Ltd 類似文書検索方法及びその実施システム並びにその処理プログラム
JP2003030224A (ja) * 2001-07-17 2003-01-31 Fujitsu Ltd 文書クラスタ作成装置、文書検索システムおよびfaq作成システム
US7139756B2 (en) * 2002-01-22 2006-11-21 International Business Machines Corporation System and method for detecting duplicate and similar documents
US6910037B2 (en) * 2002-03-07 2005-06-21 Koninklijke Philips Electronics N.V. Method and apparatus for providing search results in response to an information search request
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
WO2004034282A1 (ja) * 2002-10-10 2004-04-22 Fujitsu Limited コンテンツ再利用管理装置およびコンテンツ再利用支援装置
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US7809695B2 (en) 2004-08-23 2010-10-05 Thomson Reuters Global Resources Information retrieval systems with duplicate document detection and presentation functions
US7264274B2 (en) * 2005-06-22 2007-09-04 Delphi Technologies, Inc. Tuneable energy absorbing mounting structure for steering column

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296363A (ja) * 2002-03-29 2003-10-17 Fujitsu Ltd 文書検索方法
US20040093323A1 (en) * 2002-11-07 2004-05-13 Mark Bluhm Electronic document repository management and access system
JP2004062880A (ja) * 2003-06-12 2004-02-26 Hitachi Ltd 情報の埋め込み方法およびその装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013105273A (ja) * 2011-11-11 2013-05-30 Nippon Telegr & Teleph Corp <Ntt> 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム
JP2015501469A (ja) * 2011-11-11 2015-01-15 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 製品情報検索結果に対する重複排除の実施

Also Published As

Publication number Publication date
EP1805661A1 (en) 2007-07-11
NZ553567A (en) 2010-09-30
JP5522743B2 (ja) 2014-06-18
CA2578157C (en) 2016-07-05
WO2006023941A1 (en) 2006-03-02
JP2008511081A (ja) 2008-04-10
AU2005277039A1 (en) 2006-03-02
US7809695B2 (en) 2010-10-05
JP4919515B2 (ja) 2012-04-18
CA2578157A1 (en) 2006-03-02
US20060041597A1 (en) 2006-02-23
CN101076800B (zh) 2012-11-14
AU2005277039B2 (en) 2009-05-28
CN101076800A (zh) 2007-11-21

Similar Documents

Publication Publication Date Title
JP5522743B2 (ja) 重複する文書の検出および表示機能
US8200642B2 (en) System and method for managing electronic documents in a litigation context
US8225371B2 (en) Method and apparatus for creating an information security policy based on a pre-configured template
US7743051B1 (en) Methods, systems, and user interface for e-mail search and retrieval
US9104772B2 (en) System and method for providing tag-based relevance recommendations of bookmarks in a bookmark and tag database
US7886359B2 (en) Method and apparatus to report policy violations in messages
US20070250501A1 (en) Search result delivery engine
US20120131021A1 (en) Phrase Based Snippet Generation
US20110161309A1 (en) Method Of Sorting The Result Set Of A Search Engine
EP1826692A2 (en) Query correction using indexed content on a desktop indexer program.
US20100198802A1 (en) System and method for optimizing search objects submitted to a data resource
US10783195B2 (en) System and method for constructing search results
WO2012142652A1 (en) Method for identifying potential defects in a block of text using socially contributed pattern/message rules
WO2011072172A1 (en) System and method for quickly determining a subset of irrelevant data from large data content
US10417334B2 (en) Systems and methods for providing a microdocument framework for storage, retrieval, and aggregation
JP2011238019A (ja) カテゴリ処理装置及び方法
US10579660B2 (en) System and method for augmenting search results
US20160299896A1 (en) Processing a search query and ranking results from a database system of an electronic messaging system
AU2013214496A1 (en) A Search Method
Claussen et al. i, United States Patent (10) Patent No.: US 7.809. 695 B2
JP2009528630A (ja) 関連するトピックを表示するサーチ・エンジンの方法及びシステム
Steinberger et al. Continuous Multi-Source Information Gathering and Classification
Geller et al. Blog mining for the fortune 500
AU2015203812A1 (en) Systems, methods, interfaces and software for extending search results beyond initial query-defined boundaries

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130514

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130813

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130913

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140210

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140403

R150 Certificate of patent or registration of utility model

Ref document number: 5522743

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees