JP2011129161A - 重複する文書の検出および表示機能 - Google Patents
重複する文書の検出および表示機能 Download PDFInfo
- Publication number
- JP2011129161A JP2011129161A JP2011057289A JP2011057289A JP2011129161A JP 2011129161 A JP2011129161 A JP 2011129161A JP 2011057289 A JP2011057289 A JP 2011057289A JP 2011057289 A JP2011057289 A JP 2011057289A JP 2011129161 A JP2011129161 A JP 2011129161A
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- query
- feature
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title abstract description 21
- 230000006870 function Effects 0.000 title description 28
- 230000002123 temporal effect Effects 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 57
- 239000013598 vector Substances 0.000 claims description 69
- 230000004044 response Effects 0.000 claims description 35
- 230000002452 interceptive effect Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 9
- 230000007717 exclusion Effects 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 3
- 102100032282 26S proteasome non-ATPase regulatory subunit 14 Human genes 0.000 description 2
- 101100406366 Caenorhabditis elegans pad-2 gene Proteins 0.000 description 2
- 101000590281 Homo sapiens 26S proteasome non-ATPase regulatory subunit 14 Proteins 0.000 description 2
- 238000010923 batch production Methods 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011017 operating method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 101100217298 Mus musculus Aspm gene Proteins 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
【解決手段】多くの企業では、ユーザーが文書をコンピュータ検索できるようにするオンライン検索機能を提供している。しかしこれらの検索は、重複する文書、すなわち完全または実質的に同じ文書を提供することが多い。さらに、重複する文書が検索結果に混在し、ユーザー自身にそれらの文書の識別および/またはフィルタリングを手作業で処理させている。例示的システムは、長さ、時間的、および/またはコンテンツコンポーネントに基づいて文書署名を生成する署名生成モジュール、文書署名を使用して「正確な」または「あいまいな」重複する文書を識別するリアルタイム重複検出モジュール、検索結果にどのように重複する文書を表すかまたは抑制するかを制御するユーザーインターフェースまたは表示モジュールを備える。
【選択図】図1
Description
本出願は、2004年8月23日出願の米国仮出願第60/603,762号(代理人整理番号4962.030PRV)、および2004年11月1日出願の米国仮出願第60/623,975号(代理人整理番号4962.030PV2)に対する優先権を主張するものである。どちらの出願も、参照することにより本願明細書に援用される。
この特許文献の一部は、著作権保護を受ける資料を含む。著作権所有者は、特許商標局の特許ファイルまたは記録に記載されている、特許文献および特許開示については、誰でも自由にファクシミリによって複製することに異論はないが、その他の場合には、すべての著作権を保有する。以下の表示:Copyright(C)2004、West Services,Inc.は、本文書に適用される。
本発明の種々の実施形態は、ニュース文書または他の関連するコンテンツを提供するような、情報検索システムに関する。
ミネソタ州セントポールのThomson Legal&Regulatory,Inc.(Thomson West社として運営)のような企業では、データベースのシステムおよびWestlaw(登録商標)システムとして公知の検索ツールへのオンラインアクセスに対して、ニュースを含む非常に広範囲の文書を世界中から収集および格納している。Westlawシステムでは、ユーザーに1億以上の文書を検索する能力を与えている。
こうした必要性に対処するために、本発明の発明者らは、検索結果内の重複する文書の識別および/またはグループ分けを容易にする、システム、方法、およびソフトウェアを案出した。一例示的システムは、次の3つ主要なコンポーネントを含む:1)長さ、時間的、および/またはコンテンツコンポーネントに基づいて文書署名を生成する署名生成モジュール;2)文書署名を使用して「正確な」または「あいまいな」重複する文書を識別する重複検出モジュール;および3)検索結果に、どのように重複する文書を表すかをユーザーが制御できるようにする、ユーザーインターフェース(または表示)モジュール。例えば、ユーザーは、検索結果から重複を除外するか、または重複を結果の表示に一緒にグループ化するかどうかを選択することができる。いくつかの実施形態では、識別およびグループ分けは、最終的に、重複する文書を含む検索結果を解釈およびアクセスするユーザーのプロセスを合理化する。
例えば、本発明は以下の項目を提供する。
(項目1)
1つ以上のデータベースと、
ネットワークを介した該データベースへのクライアントのアクセスを容易にするための1つ以上のサーバーと
を備える情報検索システムであって、各サーバーは、
ユーザーのクエリーのサブミッションを容易にし、1つ以上の他の検索結果の文書と重複するコンテンツを含む検索結果の文書の識別に関連するオプションをユーザーが選択しやすくするためのクエリー定義手段と、
該検索結果の文書のうちの1つ以上が、1つ以上の他の検索結果の文書内のコンテンツと重複するコンテンツを含むかどうかを判断するための重複判定手段であって、該重複決定手段は、
第1および第2の文書それぞれの第1および第2の特徴ベクトルを、該文書のそれぞれから選択された特徴の複数の等長二進表現を含む各特徴ベクトル、および該データベースのうちの1つ以上の逆文書頻度(idf)テーブル内の該特徴のうちの対応する1つの逐次的な位置に基づく各二進表現と比較するための手段と、
該第1および第2の文書が、該第1および第2の特徴ベクトルの比較結果に基づく重複であるかどうかを判定するための手段と
を含む、重複判定手段と、
該選択されたオプションに基づく検索結果の文書の表示を制御するための手段であって、該結果内の1つ以上の他の文書のコンテンツと重複するコンテンツを含むものとして、該表示された結果のうちの少なくとも1つが示される、文書の表示を制御するための手段と
を備える、情報検索システム。
(項目2)
前記サーバーは、前記第1および第2の文書それぞれの第1および第2の長さを比較するための手段をさらに備え、該第1および第2の文書それぞれの第1および第2の特徴ベクトルを比較するための手段は、所定の関係を有する該第1および第2の長さにのみ応えて、該特徴ベクトルを比較する、項目1に記載のシステム。
(項目3)
各特徴ベクトルは、そのそれぞれの文書から選択された少なくとも30の用語を含み、前記重複判定手段は、前記第1および第2の特徴ベクトル内の用語の少なくとも80パーセントが一致するときに、文書が重複していると判断する、項目1に記載のシステム。
(項目4)
前記idfテーブルは、idf値の降順でソートされる、項目1に記載のシステム。
(項目5)
各手段は、1つ以上の組の機械可読の命令を含む、項目1に記載のシステム。
(項目6)
情報検索システムのオペレーティング方法であって、
第1および第2の文書それぞれの第1および第2の特徴ベクトルを、該文書のそれぞれから選択された特徴の複数の二進表現を含む各特徴ベクトル、および逆文書頻度(idf)テーブル内の該特徴のうちの対応する1つの逐次的な位置に基づく各二進表現と比較するステップと、
該第1および第2の特徴ベクトルの比較結果に基づき、該第1および第2の文書が重複であるかどうかを判定するステップと
を含む、情報検索システムのオペレーティング方法。
(項目7)
ユーザーのクエリーに応えて識別された前記第1および第2の文書それぞれの第1および第2の長さを比較するステップをさらに含み、
該第1および第2の文書の比較は、該第1および第2の長さが所定の関係を有することを示す該第1および第2の長さの該比較に応じて生じる、項目6に記載の方法。
(項目8)
前記第1および第2の文書とそれぞれ関連する第1および第2の時間的値を比較するステップをさらに含む、項目6に記載の方法。
(項目9)
第1および第2の特徴ベクトルの比較は、インターネットを介した前記システムへのクエリーのサブミットに応じてリアルタイムで生じる、項目6に記載の方法。
(項目10)
前記第1および第2の文書が重複するかどうかの前記判定は、前記第1の特徴ベクトルが、少なくとも前記第2の特徴ベクトルと同じような特徴の閾値数を有する場合に限り肯定的である、項目7に記載の方法。
(項目11)
前記二進表現は、同じ長さのものであり、各特徴は、前記idfテーブル内の対応するidf値の相対的な大きさに基づいて、前記文書のそれぞれから選択される、項目6に記載の方法。
(項目12)
前記idfテーブルは、idf値の降順でソートされ、0.8を超えるidf値を有する特徴を除外する、項目11に記載の方法。
(項目13)
機械可読のメディアであって、
該第1および第2の文書それぞれの第1および第2の特徴ベクトルを、該文書のそれぞれから選択された特徴の複数の等長二進表現を含む各特徴ベクトル、および逆文書頻度(idf)テーブル内の該特徴のうちの対応する1つの位置に基づく各二進表現と比較し、
該第1および第2の特徴ベクトルの比較結果に基づき、該第1および第2の文書が重複であるかどうかを判定するための命令を含む、機械可読のメディア。
(項目14)
ユーザーのクエリーに応えて識別された前記第1および第2の文書それぞれの第1および第2の長さを比較するための命令をさらに含み、
該第1および第2の文書の比較は、該第1および第2の長さが所定の関係を有することを示す該第1および第2の長さの該比較に応じて生じる、項目13に記載のメディア。
(項目15)
前記第1および第2の文書とそれぞれ関連する第1および第2の時間的値を比較するための命令をさらに含む、項目13に記載のメディア。
本記述には、従来技術における用法から、または該記述のコンテキスト内での使用から導出された意味を有する多数の用語が含まれる。しかし、更なる補助として、以下に例示的な定義を示す。
図1は、例示的なオンライン情報検索システム100を示す。システム100は、1つ以上のデータベース110と、1つ以上のサーバー120と、1つ以上のアクセスデバイス130と、を備える。
サーバー120は、アクセスデバイス130のような1つ以上のアクセスデバイスに、通信で接続されるか、またはローカル、プライベート、仮想プライベートネットワークのような無線または有線通信ネットワークを介して接続可能である。
図2は、システム100のような1つ以上の例示的なシステムのオペレーション方法のフローチャート200を示す。フローチャート200は、本記述における他のブロックと同様に、例示的な実施形態において連続したシーケンスで構成および説明されるブロック210〜270を含む。なお、いくつかの実施形態では、複数のプロセッサまたはプロセッサのようなデバイスを使用して、または2つ以上の仮想マシンまたはサブプロセッサとして構成された単一のプロセッサを使用して、2つ以上のブロックを並行して実行する。いくつかの実施形態はまた、類似した結果を得るために、プロセスシーケンスを変更するか、または異なる機能分割を提供する。例えば、いくつかの実施形態では、サーバー側に表示および記述される機能が、クライアント側にその全体または一部が実装され、逆の場合も同じように実装されるように、クライアント−サーバー間の機能の割り当てを変更することが可能である。また、さらに他の実施形態では、モジュール間およびモジュールを介して通信される関連する制御およびデータ信号によって、2つ以上の相互接続されたハードウェアモジュールとして、ブロックを実装する。したがって、(図2、およびこの記述内の)例示的なプロセスフローを、ソフトウェア、ハードウェア、およびファームウェア実装に適用する。
より詳しくは、フローチャート210Aは、長さスカラー量およびフィンガープリント(例、ハッシュ値)を有する署名を得るものであり、プロセスブロック211A〜216Aを含む。このプロセスは、1つ以上の文書長の特徴または値の判定を伴う、ブロック211Aから開始する。このために、例示的な実施形態では、長さスカラー量を判定するが、これは新聞紙、タイトル、著者、および他のヘッダー情報を除く、トークン内における文書長として定義される。
prevarication[76]、
hostage[0]、
conspicuous[25]、
intransigence[121]、
brutality[163]、
theater[13]
なお、用語はidfの降順でランク付けされて示され、カッコ内の位置は、文書内の第1のトークンに対するトークンで判断される。
フローチャート210Bは、文書の時間的、長さ、およびコンテンツコンポーネントに基づく、文書署名のデータ構造(または特性特徴の組)の生成を示すものであり、プロセスブロック211B〜215Bを含む。
いくつかの実施形態では、コレクション統計のメンテナンスおよびidfテーブルの更新の環境を付与する。例えば、フローチャート210Aおよび/または210Bに基づく署名を作成する一実施形態では、所与のコレクションまたはデータベースにおける文書の追加、削除、または修正とともに一般に生じる、idfテーブルの更新に対するこれらの文書署名の検出感度を認識する。この実施形態は、idfテーブルの更新日付近(例えば、更新日を中心に1乃至2ヶ月の範囲)に発行された文書に、一組の署名を提供する。ある署名(更新前の署名)は、更新前のidfテーブルに基づき、別の署名(更新後の署名)は、更新後のidfテーブルに基づく。(使用時には、例えばブロック250で、2つの署名のうちの少なくとも1つが、別の文書に対する少なくとも1つの署名と一致した場合に、2つの文書が重複していると見なされる。)
図3は、文書署名300が、そのコンテンツコンポーネント310を介してどのようにidfテーブル340に関連付けられるのかを示すものである。特に、文書署名300は、長さのコンポーネント310と、時間的コンポーネント320と、コンテンツコンポーネント330と、を含む。コンテンツコンポーネント330は、用語T0〜T59を含む60の用語のベクトル330’の例示的な形態をとる。図3に示されるように、1つ以上の用語(例、全ての用語)は、100万の用語および対応するidf値を有する、idfテーブル340内の用語にマッピングされる。
フローチャート250Aでは、例示的な方法はブロック251Aでから開始するが、比較のための検索結果の2つ以上の文書の選択を伴う。例示的な実施形態では、これは、各文書の文書識別子に基づく検索結果における各文書に対する文書署名のデータ構造の検索と、リアルタイムの重複検出または比較のための複数の文書の組の定義と、を伴う。文書の組の定義は、一次的文書の選択と、検索結果内の他の文書のそれぞれとの一次的文書の対合(または、より正確には、その文書署名)と、を伴い、次いで第二の一次的文書の選択と、まだ対合されていない全ての他の文書との第二の一次的文書の対合と、を伴う。同様に、各文書は、一次的文書として選択することができ、まだ対合されていない全ての他の文書と対合することができ、最終的に、比較のための完全な組の一意の文書の対合を定義する。(いくつかの実施形態では、一次的文書は、検索結果内のそれらの関連性の順位の順に選択される。また、いくつかの実施形態では、特定の関連性の閾値を超えている文書か、または特定の最小順位を有する文書への重複検出プロセスの適用を制限する。)実行は、次いでブロック252Aへ進む。
実行は、比較のための次の組の文書の選択のために、ブロック251Aに戻る。例示的な実施形態では、ブロック251Aは、全ての選択された組の文書が処理された後に、比較プロセスを終了させるためのロジックを含む。
フローチャート250Bは、代わりの検出プロセスを示し、概して検索結果において識別された文書に対する署名のデータ構造のリアルタイムのマルチレベル処理を伴う。(いくつかの実施形態は、ユーザークエリーに応えてではなく、その前に重複の検出を行うことが可能である。)フローチャート250Bは、プロセスブロック251B〜255Bを含む。
図8は、図1のインターフェース138の一部として機能し、ユーザーが、重複の処理および/または表現に関連するもののような、加入者データベース123内のプレファレンスに対する値を設定できるようにする、オプション制御インターフェース800を示す。例示的な実施形態では、インターフェース800は、識別重複制御機能810と、重複包含または除外制御機能820と、一次的重複選択機能830と、保存コマンド機能840と、を備える。
いくつかの実施形態は、複数組またはbinの潜在的に重複する文書を定義することによって、ブロック252Bおよび253B(図2)の時間的比較と長さの比較とを統合する。例えば、いくつかの実施形態は、署名データベース124からフローチャート210Bで定義されたような、一組の対応する署名データ構造を検索して、それらのそれぞれの時間的コンポーネントに基づいて、新しい順にソートする。
これらの時間的組またはbinが定義されると、これらの実施形態は、定義された時間的bin内の1つ以上の長さベースのbinまたは1つ以上の組の署名を定義する。これは、時間的binの対応する署名における長さのコンポーネントの降順で、時間的binのそれぞれの署名をソートし、1つ以上の長さbinまたは組を定義するために、ソートしたリストの下方に長さウィンドウを「移動させる」ことを伴う。第1の時間的bin内の第1の長さbinは、その長さbin内の長さをランク付けしたリスト(すなわち、時間的bin内の最も長い文書)における第1の署名と、最も長い文書の長さの20%を超えない第1の時間的bin内の全ての文書と、を含む。
技術促進のために、本発明は、情報検索システムの文書コレクション内の重複する文書の存在に、文書検索システムがどのように効果的に対処するかという必要性を認識しただけでなく、ユーザープレファレンスに基づいて、検索結果における重複する文書の識別および/またはグループ分けを容易にする、システム、方法、およびソフトウェアも本願明細書に示された。この識別およびグループ分けは、最終的に、ユーザーの重複する文書を含む検索結果へのアクセスおよびその検討を合理化する。
Claims (39)
- 情報検索システムであって、
複数のデータベースと、
クライアントがネットワークを介して前記複数のデータベースにアクセスすることを容易にする1つ以上のサーバと
を含み、
前記1つ以上のサーバは、全体として、
複数の文書署名を生成する署名生成手段であって、各文書署名は、前記データベースのうちの1つ以上からの複数の特徴およびそれに対応する文書内の前記特徴のそれぞれの位置に基づいており、前記署名生成手段は、文書ハッシュ値および文書特徴ベクトルからなる群のうちの1つ以上に基づいて文書署名を形成する手段を含み、前記ハッシュ値は、文書内の特徴および前記特徴の位置に基づいている、署名生成手段と、
クエリーを定義するクエリー定義手段であって、1つ以上の他のサーチ結果の文書のコンテンツ重複を含むサーチ結果文書の識別を命令するクエリー定義手段と、
前記文書署名のサブセットに基づいて、前記クエリーの結果内の1つ以上の文書が、前記結果内の1つ以上の他の文書内のコンテンツのコンテンツ重複を含むか否かを決定する重複決定手段と、
前記クエリーの結果の表示を制御する手段であって、前記表示された結果のうちの少なくとも1つは、前記結果内の1つ以上の他の文書のコンテンツのコンテンツ重複を含むものとして指示される、前記クエリーの結果の表示を制御する手段と、
前記結果内の1つ以上の他の文書のコンテンツのコンテンツ重複を含む文書の出力に関するユーザによって選択されたオプションに基づいて、プリンタまたは電子メール伝送デバイスに対する前記クエリーの結果の出力を制御する手段と
を含む、システム。 - 前記署名生成手段は、各文書に対する時間、長さ、文書コンポーネントのうちの少なくとも2つを決定する手段を含む、請求項1に記載のシステム。
- 各手段は、機械によって実行可能な命令のうちの1つ以上のセットを含む、請求項1に記載のシステム。
- クエリーを定義する前記クエリー定義手段は、ブール言語または自然言語を用いて、前記クエリを定義するオプションを提供する、請求項1に記載のシステム。
- 複数の文書署名を生成する前記署名生成手段は、
1つ以上の文書長さ特徴または値を決定する手段と、
各文書からの特徴のセットをそれらに対応する逆文書頻度(idf)値に基づいて識別する手段と、
各文書内の特徴の位置を決定する手段と、
前記特徴のセットおよびそれらの決定された位置を連結することにより、文字列を定義する手段と、
前記文字列をハッシュすることにより、各文書に対するハッシュ値を定義する手段と、
前記文書長さ特徴または値および各文書に対するハッシュ値に基づいて、文書署名を形成する手段と、
メモリデバイス内に文書署名を格納する手段と
を含む、請求項1に記載のシステム。 - 前記署名生成手段は、
各特徴の前記決定された位置をラウンドする手段と、
前記特徴のセットおよび前記特徴のラウンドされ決定された位置を連結することにより、文字列を決定する手段と
をさらに含む、請求項5に記載のシステム。 - クエリを定義する前記クエリ定義手段は、1つ以上の他のサーチ結果文書のコンテンツ重複を含むサーチ結果文書の識別を制御するオプションを選択する手段を含む、請求項1に記載のシステム。
- 情報検索システムであって、
複数のデータベースと、
前記データベースのうちの1つ以上に対するアクセスをユーザに提供するサーバと
を含み、
前記サーバは、
クエリーを定義し、処理することにより、結果を生成する手段であって、前記結果は、前記結果内の1つ以上の他の文書内のコンテンツのコンテンツ重複を含む文書を含む、手段と、
前記クエリーの結果内の1つ以上の文書が、前記結果の1つ以上の他の文書内のコンテンツのコンテンツ重複を含むか否かを決定する重複決定手段であって、
前記重複決定手段は、
前記結果内の前記文書のうちの第1の文書に対する第1の文書署名を前記結果内の前記文書のうちの第2の文書に対する第2の文書署名と比較する手段であって、各署名は、複数の用語およびそれに対応する文書内の対応する位置に基づいている、手段と、
前記第1の文書および前記第2の文書の第1の長さおよび第2の長さ、および、第1の時間的特徴および第2の時間的特徴をそれぞれ比較する手段と、
前記第1の文書および前記第2の文書のそれぞれに対する第1のハッシュ値および第2のハッシュ値を比較する手段であって、各ハッシュ値は、特徴およびそのそれぞれの文書内の前記特徴の位置に基づいている、手段と
を含み、
前記重複決定手段は、前記第1の文書および前記第2の文書が、ハッシュ値を比較する前記手段の結果に応答して重複するか否かを決定するように適合されている、重複決定手段と、
前記クエリーの結果の表示を制御する手段であって、前記表示された結果のうちの少なくとも1つは、前記結果内の1つ以上の他の文書のコンテンツのコンテンツ重複を含むものとして指示される、手段と、
前記結果内の1つ以上の他の文書のコンテンツのコンテンツ重複を含む文書の出力に関するユーザによって選択されたオプションに基づいて、プリンタまたは電子メール伝送デバイスに対する前記クエリーの結果の出力を制御する手段と
を含む、情報検索システム。 - 各署名は、前記複数の用語のラウンドされた位置に基づいている、請求項8に記載のシステム。
- 各手段は、機械によって実行可能な命令のうちの1つ以上のセット含む、請求項8に記載のシステム。
- クエリーを定義し、処理する前記手段は、ブール言語または自然言語を用いて、前記クエリーを定義するオプションを提供する、請求項8に記載のシステム。
- 第1のハッシュ値および第2のハッシュ値を比較する前記手段は、前記第1の文書および前記第2の文書の第1の長さおよび第2の長さ、および、第1の時間的特徴および第2の時間的特徴をそれぞれ比較する前記手段の結果に応答して実行される、請求項8に記載のシステム。
- 前記重複決定手段は、将来の自動的な実行に適合されたクエリーに応答して実行され、そして、前記クエリーの自動的な実行に応答して実行される、請求項12に記載のシステム。
- 第1のハッシュ値および第2のハッシュ値を比較する前記手段は、前記長さまたは時間の比較が肯定的である場合にのみ実行される、請求項8に記載のシステム。
- 第1のハッシュ値および第2のハッシュ値を比較する前記手段は、
それぞれの文書からの特徴のセットをそれらに対応する逆文書頻度(idf)値に基づいて識別する手段と、
前記それぞれの文書内の特徴の位置を決定する手段と、
各特徴の前記決定された位置をラウンドする手段と、
前記特徴のセットおよびそれらのラウンドされた位置を連結することにより、文字列を定義する手段と、
前記文字列をハッシュすることにより、ハッシュ値を決定する手段と
をさらに含む、請求項8に記載のシステム。 - 第1の文書および第2の文書が重複コンテンツを含むか否かを識別するコンピュータに実装される方法であって、
前記方法は、
前記第1の文書および前記第2の文書が、それらに対応する時間的特性であって、互いの第1の範囲内に存在する時間的特性を有するか否かを決定することと、
前記第1の文書および前記第2の文書が、それらに対応する長さ特性であって、互いの第2の範囲内に存在する長さ特性を有するか否かを決定することと、
前記第1の文書および前記第2の文書の前記時間的特性が、互いの前記第1の範囲内に存在するという肯定的決定に応答して、そして、前記第1の文書および前記第2の文書の前記長さ特性が、互いの前記第2の範囲内に存在するという肯定的決定に応答して、前記第1の文書および前記第2の文書が、互いに共通の有意な数の特徴を有するか否かを決定することと、
前記第1の文書および前記第2の文書の前記時間的特性が、互いの前記第1の範囲内に存在し、前記第1の文書および前記第2の文書の前記長さが、互いの前記第2の範囲内に存在し、そして、前記第1の文書および前記第2の文書が、互いに共通の有意な数の特徴を少なくとも有するという決定に応答して、前記第1の文書および前記第2の文書を重複として識別することと
を含む、方法。 - 前記第1の範囲は、30日を超えず、
前記第2の範囲は、20%を超えず、
前記有意な数の特徴は、各文書内のそれぞれの用語の数の少なくとも80%として予め決定され、前記用語は、それに対応する逆文書頻度(idf)値に基づいて選択される、請求項16に記載の方法。 - 前記第1の文書および前記第2の文書は、それぞれ第1の文書署名データ構造および第2の文書署名データ構造を含み、各文書署名データ構造は、
前記文書に関連付けられた発行日に基づいている時間的コンポーネントと、
前記文書に関連付けられた単語カウントに基づいている長さコンポーネントと、
前記文書の一定数の(最上位にランク付けされた)逆文書頻度(idf)用語に基づいている用語ベクトルと
を含む、請求項16に記載の方法。 - 前記用語べクトルは、少なくとも10用語を含む、請求項18に記載の方法。
- 第1の文書および第2の文書のそれぞれの長さ特性が、互いの一範囲内に存在するか否かを決定し、そして、前記第1の文書および前記第2の文書が、互いに共通の閾値数の選択された特徴を少なくとも有するか否かを決定することであって、各特徴は、それに対応する逆文書頻度(idf)値に基づいて選択され、前記第1の文書および前記第2の文書が互いに共通の閾値数の特徴を少なくとも有するか否かを決定することは、
前記第1の文書および前記第2の文書に対してそれぞれ第1の用語ベクトルおよび第2の用語ベクトルを定義することであって、各用語ベクトルは、そのそれぞれの文書に対して、idf用語の複数の等しい長さのバイナリ表現を含む、こと
を含む、ことと、
前記第1の用語ベクトルのバイナリ表現の数を前記第2の用語ベクトルのバイナリ表現の数と比較することと、
前記決定が肯定的であることに応答して、前記第1の文書および前記第2の文書を重複として識別することと
を含む、方法。 - コンピュータに実装される方法であって、
ユーザクエリーを受信することと、
前記ユーザクエリーに応答して、データベースからの第1の文書および第2の文書を少なくとも識別することであって、前記第1の文書および前記第2の文書は、それぞれ第1の特徴ベクトルおよび第2の特徴べクトルに関連付けられており、各特徴ベクトルは、そのそれぞれの文書内の用語または特徴の複数の等しい長さのバイナリ表現を有し、用語または特徴は、逆文書頻度(idf)値のテーブル内の対応する逆文書頻度(idf)値の相対的大きさに基づいて選択される、ことと、
前記第1の文書または前記第2の文書の時間的特性が、互いの第1の範囲内に存在するか否かを決定することと、
前記第1の文書または前記第2の文書の長さ特性が、互いの第2の範囲内に存在するか否かを決定することと、
前記第1の文書および前記第2の文書を識別したこと、および、少なくとも1つの決定が肯定的であるということに応答して、前記第1の特徴ベクトルおよび前記第2の特徴ベクトルを比較することと
を含む、方法。 - 前記ユーザクエリーに応答して、前記第1の文書および前記第2の文書のうちの少なくとも1つを識別するサーチ結果を提示することをさらに含み、前記提示されたリストは、前記第1の特徴ベクトルおよび前記第2の特徴ベクトルの比較に基づいて、前記第1の文書および前記第2の文書が、互いの重複であるコンテンツを含むか否かの指示を含む、請求項21に記載の方法。
- 前記第1の特徴ベクトルおよび前記第2の特徴ベクトルを比較することは、前記第1の文書および前記第2の文書の時間的特性が、互いの第1の範囲内に存在するという肯定的決定、および、前記第1の文書および前記第2の文書の長さ特性が、互いの第2の範囲内に存在するという肯定的決定に応答して、行われる、請求項22に記載の方法。
- 前記第1の文書および前記第2の文書のうちの少なくとも1つを識別する前記サーチ結果を提示することは、前記第1の文書のタイトルのリストを提示することを含み、前記第1の文書および前記第2の文書が互いの重複であるコンテンツを含むか否かの指示は、
前記第2の文書のタイトルのリストを提示することであって、前記第2の文書のタイトルは、前記第1の文書のタイトルよりも下であり、前記第1の文書のタイトルに対してインデントされている、ことと、
前記第1の文書のタイトルのフォントとは異なるフォントで前記第2の文書のタイトルのリストを提示することと、
前記第2の文書を識別する1つ以上の文書のリストを表示するように選択可能なフォルダまたは他のコンテンツアイコンを提示することと
を含む、請求項21に記載の方法。 - 第1の文書および第2の文書が重複コンテンツを含むか否かを識別するコンピュータベースのシステムであって、前記システムは、プロセッサ、メモリ、ユーザインターフェース、前記プロセッサによって実行可能なコードを含み、
前記システムは、
ユーザクエリーを受信する手段と、
前記ユーザクエリーに応答して、データベースからの第1の文書および第2の文書を少なくとも識別する手段であって、前記第1の文書および前記第2の文書は、それぞれ第1の特徴ベクトルおよび第2の特徴べクトルに関連付けられており、各特徴ベクトルは、そのそれぞれの文書内の用語または特徴の複数の等しい長さのバイナリ表現を有し、用語または特徴は、逆文書頻度(idf)値のテーブル内の対応する逆文書頻度(idf)値の相対的大きさに基づいて選択される、手段と、
前記第1の文書または前記第2の文書の時間的特性が、互いの第1の範囲内に存在するか否かを決定する第1の決定手段と、
前記第1の文書または前記第2の文書の長さ特性が、互いの第2の範囲内に存在するか否かを決定する第2の決定手段と、
前記第1の文書および前記第2の文書を識別したこと、および、少なくとも1つの決定が肯定的であるということに応答して、前記第1の特徴ベクトルおよび前記第2の特徴ベクトルを比較する手段と
をさらに含む、コンピュータベースのシステム。 - グラフィカルユーザインターフェースをさらに含み、
前記グラフィカルユーザインターフェースは、
表示デバイス上のクエリー定義領域であって、前記領域は、クエリーのユーザによる定義を容易にするための1つ以上のインタラクティブ制御特徴を含む、クエリー定義領域と、
前記クエリー定義領域内の少なくとも1つのインタラクティブ制御特徴であって、ユーザが、前記クエリーに応答して提供されたサーチ結果が、実質的に重複コンテンツを有すると決定された文書を識別するか否かを選択することを可能にする、少なくとも1つのインタラクティブ制御特徴と
をさらに含む、請求項25に記載のコンピュータベースのシステム。 - 前記1つのインタラクティブ制御特徴は、チェックボックスを含む、請求項26に記載のコンピュータベースのシステム。
- 前記サーチ結果において他の文書と実質的に重複するコンテンツを有すると決定された文書の出力を制御する少なくとも1つのインタラクティブ制御特徴をさらに含む、請求項26に記載のコンピュータベースのシステム。
- クエリー結果領域をさらに含み、
前記クエリー結果領域は、
対応するサーチ結果文書の表示を引き起こす1つ以上のインタラクティブ制御特徴と、
前記サーチ結果文書の少なくとも別の文書の重複であるとして見なされるサーチ結果文書を識別し、前記サーチ結果文書の表示を引き起こす少なくとも1つのインタラクティブ制御特徴と
を含む、請求項26に記載のコンピュータベースのシステム。 - 表示デバイス上に表示されるグラフィカルユーザインターフェースをさらに含み、
前記インターフェースは、
クエリを提出する1つ以上のインタラクティブ制御特徴と、
前記クエリに基づいて、前記表示デバイス上にサーチ結果を表示するクエリ結果領域と
を含み、
前記領域は、
少なくとも1つのインタラクティブ制御特徴であって、対応するサーチ結果文書の表示または検索を識別し、引き起こす少なくとも1つのインタラクティブ制御手段と、
少なくとも1つの重複指示特徴であって、前記サーチ結果が、対応するサーチ結果文書の重複であるとして見なされる任意の文書を含むか否かを指示する、少なくとも1つの重複指示特徴と、
重複であるとして見なされる文書の数を指示する重複カウントインジケータと
を含む、請求項25に記載のコンピュータベースのシステム。 - 前記1つの重複指示特徴は、選択可能リンクを含み、前記選択可能リンクは、対応するサーチ結果文書に対して、1つのインタラクティブ制御特徴の下に配置され、前記1つのインタラクティブ制御特徴に対してインデントされる、請求項30に記載のコンピュータベースのシステム。
- クエリーに応答して提示されたサーチ結果が実質的に重複コンテンツを有すると決定された文書を識別するか否かのデフォルト設定を定義する少なくとも1つのインタラクティブ制御特徴をさらに含む、請求項30に記載のコンピュータベースのシステム。
- 前記1つのインタラクティブ制御特徴は、チェックボックスを含む、請求項32に記載のコンピュータベースのシステム。
- 情報検索システムであって、
複数のデータベースと、
ユーザに前記データベースのうちの1つ以上に対するアクセスを提供するサーバと
を含み、
前記サーバは、
クエリーを定義し、処理することにより、結果を生成する手段であって、前記結果は、前記結果内の1つ以上の他の文書内のコンテンツのコンテンツ重複を含む文書を含む、手段と、
前記クエリーの結果内の1つ以上の文書が、前記結果内の1つ以上の他の文書内のコンテンツのコンテンツ重複を含むか否かを決定する重複決定手段であって、
前記重複決定手段は、
前記結果内の前記文書のうちの第1の文書に対する第1の文書署名を前記結果内の前記文書のうちの第2の文書に対する第2の文書署名と比較する第1の手段であって、各署名は、複数の用語およびそれに対応する文書内の前記複数の用語に対応する位置に基づいている、第1の手段と、
前記第1の文書および前記第2の文書の第1の長さおよび第2の長さ、および、第1の時間的特徴および第2の時間的特徴をそれぞれ比較する第2の手段と、
前記第1の文書および前記第2の文書に共通の特徴のセットを比較する第3の手段であって、前記特徴のセットは、それらに対応する逆文書頻度(idf)値に基づいて選択される特徴を含み、前記第1の文書および前記第2の文書は、互いに共通の閾値数の特徴を少なくとも含む、第3の手段と
を含み、
前記重複決定手段は、比較する前記第3の手段の結果に応答して、前記第1の文書および前記第2の文書が重複するか否かを決定するように適合されている、重複決定手段と、
前記クエリーの結果の表示を制御する手段であって、前記表示された結果のうちの少なくとも1つは、前記結果内の1つ以上の他の文書のコンテンツのコンテンツ重複を含むものとして指示される、前記クエリーの結果の表示を制御する手段と、
前記結果内の1つ以上の他の文書のコンテンツのコンテンツ重複を含む文書の出力に関するユーザによって選択されたオプションに基づいて、プリンタまたは電子メール伝送デバイスに対する前記クエリーの結果の出力を制御する手段と
を含む、システム。 - 特徴のセットを比較する前記手段は、前記第1の文書および前記第2の文書の第1の長さおよび第2の長さ、および、第1の時間的特徴および第2の時間的特徴をそれぞれ比較する手段の結果に応答して実行される、請求項34に記載のシステム。
- 第1の文書および第2の文書にそれぞれ関連付けられた時間的値が、互いの一範囲内に存在するか否かを決定し、そして、前記第1の文書および前記第2の文書が、互いに共通の閾値数の選択された特徴を少なくとも有するか否かを決定することであって、各特徴は、それに対応する逆文書頻度(idf)値に基づいて選択され、前記第1の文書および前記第2の文書が互いに共通の閾値数の特徴を少なくとも有するか否かを決定することは、
前記第1の文書および前記第2の文書に対してそれぞれ第1の用語べクトルおよび第2の用語ベクトルを定義することであって、各用語ベクトルは、そのそれぞれの文書に対して、idf用語の複数の等しい長さのバイナリ表現を含む、こと
を含む、ことと、
前記第1の用語ベクトルのバイナリ表現の数を前記第2の用語ベクトルのバイナリ表現の数と比較することと、
前記決定が肯定的であることに応答して、前記第1の文書および前記第2の文書を重複として識別することと
を含む、方法。 - 第1の文書および第2の文書が重複コンテンツを含むか否かを識別するコンピュータベースのシステムであって、前記システムは、プロセッサ、メモリ、ユーザインターフェース、前記プロセッサによって実行可能なコードを含み、
前記システムは、
前記第1の文書および前記第2の文書が、それらに対応する時間的特性であって、互いの第1の範囲内に存在する時間的特性を有するか否かを決定する第1の決定手段と、
前記第1の文書および前記第2の文書が、それらに対応する長さ特性であって、互いの第2の範囲内に存在する長さ特性を有するか否かを決定する第2の決定手段と、
前記第1の文書および前記第2の文書の前記時間的特性が、互いの前記第1の範囲内に存在するという肯定的決定に応答して、そして、前記第1の文書および前記第2の文書の前記長さ特性が、互いの前記第2の範囲内に存在するという肯定的決定に応答して、前記第1の文書および前記第2の文書が、互いに共通の有意な数の特徴を有するか否かを決定する第3の決定手段と、
前記第1の文書および前記第2の文書の前記時間的特性が、互いの前記第1の範囲内に存在し、前記第1の文書および前記第2の文書の前記長さが、互いの前記第2の範囲内に存在し、そして、前記第1の文書および前記第2の文書が、互いに共通の有意な数の特徴を少なくとも有するという決定に応答して、前記第1の文書および前記第2の文書を重複として識別する手段と
を含む、システム。 - 第1の文書および第2の文書が重複コンテンツを含むか否かを識別するコンピュータベースのシステムであって、前記システムは、プロセッサ、メモリ、ユーザインターフェース、前記プロセッサによって実行可能なコードを含み、
前記システムは、
前記第1の文書および前記第2の文書のそれぞれの長さ特性が、互いの一範囲内に存在するか否かを決定し、そして、前記第1の文書および前記第2の文書が、互いに共通の閾値数の選択された特徴を少なくとも有するか否かを決定する手段であって、各特徴は、それに対応する逆文書頻度(idf)値に基づいて選択される、手段と、
前記第1の文書および前記第2の文書に対してそれぞれ第1の用語ベクトルおよび第2の用語ベクトルを定義する手段であって、各用語ベクトルは、そのそれぞれの文書に対して、idf用語の複数の等しい長さのバイナリ表現を含む、手段と、
前記第1の用語ベクトルのバイナリ表現の数を前記第2の用語ベクトルのバイナリ表現の数と比較する手段と、
前記決定が肯定的であるということに応答して、前記第1の文書および前記第2の文書を重複として識別する手段と
を含む、システム。 - 第1の文書および第2の文書が重複コンテンツを含むか否かを識別するコンピュータベースのシステムであって、前記システムは、プロセッサ、メモリ、ユーザインターフェース、前記プロセッサによって実行可能なコードを含み、
前記システムは、
前記第1の文書および前記第2の文書のそれぞれに関連付けられた時間的値が、互いの一範囲内に存在するか否かを決定し、そして、前記第1の文書および前記第2の文書が、互いに共通の閾値数の選択された特徴を少なくとも有するか否かを決定する手段であって、各特徴は、それに対応する逆文書頻度(idf)値に基づいて選択される、手段と、
前記第1の文書および前記第2の文書に対してそれぞれ第1の用語ベクトルおよび第2の用語ベクトルを定義する手段であって、各用語ベクトルは、そのそれぞれの文書に対して、idf用語の複数の等しい長さのバイナリ表現を含む、手段と、
前記第1の用語ベクトルのバイナリ表現の数を前記第2の用語ベクトルのバイナリ表現の数と比較する手段と、
前記決定が肯定的であるという決定ことに応答して、前記第1の文書および前記第2の文書を重複として識別する手段と
を含む、システム。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US60376204P | 2004-08-23 | 2004-08-23 | |
US60/603,762 | 2004-08-23 | ||
US62397504P | 2004-11-01 | 2004-11-01 | |
US60/623,975 | 2004-11-01 | ||
US11/122,577 | 2005-05-05 | ||
US11/122,577 US7809695B2 (en) | 2004-08-23 | 2005-05-05 | Information retrieval systems with duplicate document detection and presentation functions |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007530061A Division JP4919515B2 (ja) | 2004-08-23 | 2005-08-23 | 重複する文書の検出および表示機能 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011129161A true JP2011129161A (ja) | 2011-06-30 |
JP5522743B2 JP5522743B2 (ja) | 2014-06-18 |
Family
ID=35295361
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007530061A Expired - Fee Related JP4919515B2 (ja) | 2004-08-23 | 2005-08-23 | 重複する文書の検出および表示機能 |
JP2011057289A Expired - Fee Related JP5522743B2 (ja) | 2004-08-23 | 2011-03-15 | 重複する文書の検出および表示機能 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007530061A Expired - Fee Related JP4919515B2 (ja) | 2004-08-23 | 2005-08-23 | 重複する文書の検出および表示機能 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7809695B2 (ja) |
EP (1) | EP1805661A1 (ja) |
JP (2) | JP4919515B2 (ja) |
CN (1) | CN101076800B (ja) |
AU (1) | AU2005277039B2 (ja) |
CA (1) | CA2578157C (ja) |
NZ (1) | NZ553567A (ja) |
WO (1) | WO2006023941A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013105273A (ja) * | 2011-11-11 | 2013-05-30 | Nippon Telegr & Teleph Corp <Ntt> | 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム |
JP2015501469A (ja) * | 2011-11-11 | 2015-01-15 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 製品情報検索結果に対する重複排除の実施 |
Families Citing this family (163)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7809695B2 (en) | 2004-08-23 | 2010-10-05 | Thomson Reuters Global Resources | Information retrieval systems with duplicate document detection and presentation functions |
US7672971B2 (en) * | 2006-02-17 | 2010-03-02 | Google Inc. | Modular architecture for entity normalization |
US8510325B1 (en) * | 2004-12-30 | 2013-08-13 | Google Inc. | Supplementing search results with information of interest |
US7769579B2 (en) | 2005-05-31 | 2010-08-03 | Google Inc. | Learning facts from semi-structured text |
US8244689B2 (en) * | 2006-02-17 | 2012-08-14 | Google Inc. | Attribute entropy as a signal in object normalization |
US8682913B1 (en) | 2005-03-31 | 2014-03-25 | Google Inc. | Corroborating facts extracted from multiple sources |
US9208229B2 (en) * | 2005-03-31 | 2015-12-08 | Google Inc. | Anchor text summarization for corroboration |
US7587387B2 (en) | 2005-03-31 | 2009-09-08 | Google Inc. | User interface for facts query engine with snippets from information sources that include query terms and answer terms |
US7516130B2 (en) * | 2005-05-09 | 2009-04-07 | Trend Micro, Inc. | Matching engine with signature generation |
US8996470B1 (en) | 2005-05-31 | 2015-03-31 | Google Inc. | System for ensuring the internal consistency of a fact repository |
US20070050423A1 (en) * | 2005-08-30 | 2007-03-01 | Scentric, Inc. | Intelligent general duplicate management system |
US7617231B2 (en) * | 2005-12-07 | 2009-11-10 | Electronics And Telecommunications Research Institute | Data hashing method, data processing method, and data processing system using similarity-based hashing algorithm |
US7991797B2 (en) | 2006-02-17 | 2011-08-02 | Google Inc. | ID persistence through normalization |
US8260785B2 (en) | 2006-02-17 | 2012-09-04 | Google Inc. | Automatic object reference identification and linking in a browseable fact repository |
US8700568B2 (en) * | 2006-02-17 | 2014-04-15 | Google Inc. | Entity normalization via name normalization |
WO2007131213A2 (en) * | 2006-05-05 | 2007-11-15 | Visible Technologies, Inc. | Systems and methods for consumer-generated media reputation management |
US20090106697A1 (en) | 2006-05-05 | 2009-04-23 | Miles Ward | Systems and methods for consumer-generated media reputation management |
US9269068B2 (en) | 2006-05-05 | 2016-02-23 | Visible Technologies Llc | Systems and methods for consumer-generated media reputation management |
US20090070683A1 (en) * | 2006-05-05 | 2009-03-12 | Miles Ward | Consumer-generated media influence and sentiment determination |
US7720835B2 (en) * | 2006-05-05 | 2010-05-18 | Visible Technologies Llc | Systems and methods for consumer-generated media reputation management |
US8725830B2 (en) * | 2006-06-22 | 2014-05-13 | Linkedin Corporation | Accepting third party content contributions |
US8122026B1 (en) | 2006-10-20 | 2012-02-21 | Google Inc. | Finding and disambiguating references to entities on web pages |
FR2907934B1 (fr) * | 2006-10-27 | 2009-02-06 | Inst Nat Rech Inf Automat | Outil informatique de gestion de documents numeriques |
US7756798B2 (en) * | 2007-03-06 | 2010-07-13 | Oracle International Corporation | Extensible mechanism for detecting duplicate search items |
US8347202B1 (en) | 2007-03-14 | 2013-01-01 | Google Inc. | Determining geographic locations for place names in a fact repository |
US7698317B2 (en) * | 2007-04-20 | 2010-04-13 | Yahoo! Inc. | Techniques for detecting duplicate web pages |
US8239350B1 (en) | 2007-05-08 | 2012-08-07 | Google Inc. | Date ambiguity resolution |
US7818278B2 (en) * | 2007-06-14 | 2010-10-19 | Microsoft Corporation | Large scale item representation matching |
US7966291B1 (en) * | 2007-06-26 | 2011-06-21 | Google Inc. | Fact-based object merging |
JP4892427B2 (ja) * | 2007-07-13 | 2012-03-07 | キヤノン株式会社 | 画像処理装置、画像処理方法、及び、画像処理プログラム |
US7970766B1 (en) | 2007-07-23 | 2011-06-28 | Google Inc. | Entity type assignment |
US8301637B2 (en) * | 2007-07-27 | 2012-10-30 | Seiko Epson Corporation | File search system, file search device and file search method |
US8738643B1 (en) | 2007-08-02 | 2014-05-27 | Google Inc. | Learning synonymous object names from anchor texts |
US20090043767A1 (en) * | 2007-08-07 | 2009-02-12 | Ashutosh Joshi | Approach For Application-Specific Duplicate Detection |
US8442969B2 (en) * | 2007-08-14 | 2013-05-14 | John Nicholas Gross | Location based news and search engine |
US8271493B2 (en) * | 2007-10-11 | 2012-09-18 | Oracle International Corporation | Extensible mechanism for grouping search results |
US8812435B1 (en) | 2007-11-16 | 2014-08-19 | Google Inc. | Learning objects and facts from documents |
US8240554B2 (en) | 2008-03-28 | 2012-08-14 | Keycorp | System and method of financial instrument processing with duplicate item detection |
US9430526B2 (en) * | 2008-09-29 | 2016-08-30 | Teradata Us, Inc. | Method and system for temporal aggregation |
US9542409B2 (en) | 2008-11-26 | 2017-01-10 | Red Hat, Inc. | Deduplicated file system |
KR20100066920A (ko) * | 2008-12-10 | 2010-06-18 | 한국전자통신연구원 | 전자 문서 처리 장치 및 그 방법 |
US20100174698A1 (en) * | 2009-01-06 | 2010-07-08 | Global Patent Solutions, Llc | Method for a customized and automated forward and backward patent citation search |
US8943033B2 (en) * | 2009-01-30 | 2015-01-27 | International Business Machines Corporation | System and method for avoiding duplication of effort in drafting documents |
US8250072B2 (en) * | 2009-03-06 | 2012-08-21 | Dmitri Asonov | Detecting real word typos |
US8874533B1 (en) * | 2009-03-25 | 2014-10-28 | MyWerx, LLC | System and method for data validation and life cycle management |
CN101551818B (zh) * | 2009-04-14 | 2011-04-06 | 北京红旗中文贰仟软件技术有限公司 | 一种单向多映射文件匹配方法 |
JP5184438B2 (ja) * | 2009-05-15 | 2013-04-17 | 日本電信電話株式会社 | 類似文書を検出するための文書署名生成装置、文書署名生成方法、文書署名生成プログラム |
US20110015921A1 (en) * | 2009-07-17 | 2011-01-20 | Minerva Advisory Services, Llc | System and method for using lingual hierarchy, connotation and weight of authority |
US8180740B1 (en) * | 2009-08-12 | 2012-05-15 | Netapp, Inc. | System and method for eliminating duplicate data by generating data fingerprints using adaptive fixed-length windows |
CN101694668B (zh) * | 2009-09-29 | 2012-04-18 | 北京百度网讯科技有限公司 | 网页结构相似性确定方法及装置 |
US10210279B2 (en) | 2009-10-28 | 2019-02-19 | International Business Machines Corporation | Method, apparatus and software for differentiating two or more data sets having common data set identifiers |
US8589497B2 (en) * | 2009-12-08 | 2013-11-19 | International Business Machines Corporation | Applying tags from communication files to users |
US8266228B2 (en) * | 2009-12-08 | 2012-09-11 | International Business Machines Corporation | Tagging communication files based on historical association of tags |
US8620849B2 (en) * | 2010-03-10 | 2013-12-31 | Lockheed Martin Corporation | Systems and methods for facilitating open source intelligence gathering |
US9633121B2 (en) | 2010-04-19 | 2017-04-25 | Facebook, Inc. | Personalizing default search queries on online social networks |
US8185558B1 (en) | 2010-04-19 | 2012-05-22 | Facebook, Inc. | Automatically generating nodes and edges in an integrated social graph |
US8732208B2 (en) | 2010-04-19 | 2014-05-20 | Facebook, Inc. | Structured search queries based on social-graph information |
US8868603B2 (en) | 2010-04-19 | 2014-10-21 | Facebook, Inc. | Ambiguous structured search queries on online social networks |
US8782080B2 (en) | 2010-04-19 | 2014-07-15 | Facebook, Inc. | Detecting social graph elements for structured search queries |
US8918418B2 (en) | 2010-04-19 | 2014-12-23 | Facebook, Inc. | Default structured search queries on online social networks |
US8751521B2 (en) | 2010-04-19 | 2014-06-10 | Facebook, Inc. | Personalized structured search queries for online social networks |
US8180804B1 (en) | 2010-04-19 | 2012-05-15 | Facebook, Inc. | Dynamically generating recommendations based on social graph information |
WO2012025784A1 (en) * | 2010-08-23 | 2012-03-01 | Nokia Corporation | An audio user interface apparatus and method |
CN102402563A (zh) * | 2010-09-19 | 2012-04-04 | 腾讯科技(深圳)有限公司 | 网络信息筛选方法和装置 |
US8825641B2 (en) | 2010-11-09 | 2014-09-02 | Microsoft Corporation | Measuring duplication in search results |
US8266115B1 (en) * | 2011-01-14 | 2012-09-11 | Google Inc. | Identifying duplicate electronic content based on metadata |
CN102081598B (zh) * | 2011-01-27 | 2012-07-04 | 北京邮电大学 | 一种检测文本重复的方法 |
CN102609536B (zh) * | 2012-02-16 | 2013-09-18 | 杭州电子科技大学 | 一种非合作环境下的资源选择方法 |
US8799236B1 (en) * | 2012-06-15 | 2014-08-05 | Amazon Technologies, Inc. | Detecting duplicated content among digital items |
US8935255B2 (en) | 2012-07-27 | 2015-01-13 | Facebook, Inc. | Social static ranking for search |
CN104246760A (zh) * | 2012-07-30 | 2014-12-24 | 惠普发展公司,有限责任合伙企业 | 搜索方法 |
US10007731B2 (en) * | 2012-09-12 | 2018-06-26 | Google Llc | Deduplication in search results |
CN103167159B (zh) * | 2012-09-25 | 2015-02-11 | 深圳市金立通信设备有限公司 | 一种手机中快速查找相同文件内容的方法 |
US9223826B2 (en) | 2013-02-25 | 2015-12-29 | Facebook, Inc. | Pushing suggested search queries to mobile devices |
US9910887B2 (en) | 2013-04-25 | 2018-03-06 | Facebook, Inc. | Variable search query vertical access |
US9367625B2 (en) * | 2013-05-03 | 2016-06-14 | Facebook, Inc. | Search query interactions on online social networks |
US9223898B2 (en) | 2013-05-08 | 2015-12-29 | Facebook, Inc. | Filtering suggested structured queries on online social networks |
US9330183B2 (en) | 2013-05-08 | 2016-05-03 | Facebook, Inc. | Approximate privacy indexing for search queries on online social networks |
RU2580036C2 (ru) | 2013-06-28 | 2016-04-10 | Закрытое акционерное общество "Лаборатория Касперского" | Система и способ создания гибкой свертки для обнаружения вредоносных программ |
US9305322B2 (en) | 2013-07-23 | 2016-04-05 | Facebook, Inc. | Native application testing |
US9881077B1 (en) * | 2013-08-08 | 2018-01-30 | Google Llc | Relevance determination and summary generation for news objects |
CN103605693A (zh) * | 2013-11-04 | 2014-02-26 | 北京奇虎科技有限公司 | 用于识别网络游戏中发布消息的广告特征的装置和方法 |
CN103605694A (zh) * | 2013-11-04 | 2014-02-26 | 北京奇虎科技有限公司 | 一种相似文本检测装置和方法 |
US20150193436A1 (en) * | 2014-01-08 | 2015-07-09 | Kent D. Slaney | Search result processing |
US9336300B2 (en) | 2014-01-17 | 2016-05-10 | Facebook, Inc. | Client-side search templates for online social networks |
US10963810B2 (en) * | 2014-06-30 | 2021-03-30 | Amazon Technologies, Inc. | Efficient duplicate detection for machine learning data sets |
CN104050299A (zh) * | 2014-07-07 | 2014-09-17 | 江苏金智教育信息技术有限公司 | 一种论文查重的方法 |
US20160021051A1 (en) * | 2014-07-16 | 2016-01-21 | Theplatform, Llc | Providing Access To Content Via Social Media |
CN104182465A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于网络的大数据处理方法 |
US9805099B2 (en) | 2014-10-30 | 2017-10-31 | The Johns Hopkins University | Apparatus and method for efficient identification of code similarity |
US9767183B2 (en) * | 2014-12-30 | 2017-09-19 | Excalibur Ip, Llc | Method and system for enhanced query term suggestion |
US9298836B1 (en) * | 2015-07-07 | 2016-03-29 | Yext, Inc. | Suppressing duplicate listings on multiple search engine web sites from a single source system given a synchronized listing is unknown |
US10509832B2 (en) | 2015-07-13 | 2019-12-17 | Facebook, Inc. | Generating snippet modules on online social networks |
CN106354730B (zh) * | 2015-07-16 | 2019-12-10 | 北京国双科技有限公司 | 网页解析中网页正文重复内容的识别方法及装置 |
US10268664B2 (en) | 2015-08-25 | 2019-04-23 | Facebook, Inc. | Embedding links in user-created content on online social networks |
US10810217B2 (en) | 2015-10-07 | 2020-10-20 | Facebook, Inc. | Optionalization and fuzzy search on online social networks |
KR20180069813A (ko) * | 2015-10-16 | 2018-06-25 | 알리바바 그룹 홀딩 리미티드 | 타이틀 표시 방법 및 장치 |
US10270868B2 (en) | 2015-11-06 | 2019-04-23 | Facebook, Inc. | Ranking of place-entities on online social networks |
US10795936B2 (en) | 2015-11-06 | 2020-10-06 | Facebook, Inc. | Suppressing entity suggestions on online social networks |
US9602965B1 (en) | 2015-11-06 | 2017-03-21 | Facebook, Inc. | Location-based place determination using online social networks |
US10534814B2 (en) | 2015-11-11 | 2020-01-14 | Facebook, Inc. | Generating snippets on online social networks |
US10387511B2 (en) | 2015-11-25 | 2019-08-20 | Facebook, Inc. | Text-to-media indexes on online social networks |
US10740368B2 (en) | 2015-12-29 | 2020-08-11 | Facebook, Inc. | Query-composition platforms on online social networks |
US10019466B2 (en) | 2016-01-11 | 2018-07-10 | Facebook, Inc. | Identification of low-quality place-entities on online social networks |
US10262039B1 (en) | 2016-01-15 | 2019-04-16 | Facebook, Inc. | Proximity-based searching on online social networks |
US10162899B2 (en) | 2016-01-15 | 2018-12-25 | Facebook, Inc. | Typeahead intent icons and snippets on online social networks |
US10740375B2 (en) | 2016-01-20 | 2020-08-11 | Facebook, Inc. | Generating answers to questions using information posted by users on online social networks |
US10157224B2 (en) | 2016-02-03 | 2018-12-18 | Facebook, Inc. | Quotations-modules on online social networks |
US10216850B2 (en) | 2016-02-03 | 2019-02-26 | Facebook, Inc. | Sentiment-modules on online social networks |
US10242074B2 (en) | 2016-02-03 | 2019-03-26 | Facebook, Inc. | Search-results interfaces for content-item-specific modules on online social networks |
US10270882B2 (en) | 2016-02-03 | 2019-04-23 | Facebook, Inc. | Mentions-modules on online social networks |
US10452671B2 (en) | 2016-04-26 | 2019-10-22 | Facebook, Inc. | Recommendations from comments on online social networks |
US10437845B2 (en) * | 2016-05-05 | 2019-10-08 | Corsearch, Inc. | System and method for displaying search results for a trademark query in an interactive graphical representation |
US10635661B2 (en) | 2016-07-11 | 2020-04-28 | Facebook, Inc. | Keyboard-based corrections for search queries on online social networks |
US9998525B1 (en) | 2016-07-18 | 2018-06-12 | Google Llc | Reducing transmissions of redundant third-party content over a network |
US10282483B2 (en) | 2016-08-04 | 2019-05-07 | Facebook, Inc. | Client-side caching of search keywords for online social networks |
US10223464B2 (en) | 2016-08-04 | 2019-03-05 | Facebook, Inc. | Suggesting filters for search on online social networks |
US10726022B2 (en) | 2016-08-26 | 2020-07-28 | Facebook, Inc. | Classifying search queries on online social networks |
US10534815B2 (en) | 2016-08-30 | 2020-01-14 | Facebook, Inc. | Customized keyword query suggestions on online social networks |
CN107784022B (zh) * | 2016-08-31 | 2020-09-15 | 北京国双科技有限公司 | 检测法律文书是否重复的方法及装置 |
US10102255B2 (en) | 2016-09-08 | 2018-10-16 | Facebook, Inc. | Categorizing objects for queries on online social networks |
US10645142B2 (en) | 2016-09-20 | 2020-05-05 | Facebook, Inc. | Video keyframes display on online social networks |
US10083379B2 (en) | 2016-09-27 | 2018-09-25 | Facebook, Inc. | Training image-recognition systems based on search queries on online social networks |
US10026021B2 (en) | 2016-09-27 | 2018-07-17 | Facebook, Inc. | Training image-recognition systems using a joint embedding model on online social networks |
US10579688B2 (en) | 2016-10-05 | 2020-03-03 | Facebook, Inc. | Search ranking and recommendations for online social networks based on reconstructed embeddings |
US10311117B2 (en) | 2016-11-18 | 2019-06-04 | Facebook, Inc. | Entity linking to query terms on online social networks |
US10650009B2 (en) | 2016-11-22 | 2020-05-12 | Facebook, Inc. | Generating news headlines on online social networks |
US10162886B2 (en) | 2016-11-30 | 2018-12-25 | Facebook, Inc. | Embedding-based parsing of search queries on online social networks |
US10313456B2 (en) | 2016-11-30 | 2019-06-04 | Facebook, Inc. | Multi-stage filtering for recommended user connections on online social networks |
US10235469B2 (en) | 2016-11-30 | 2019-03-19 | Facebook, Inc. | Searching for posts by related entities on online social networks |
US10185763B2 (en) | 2016-11-30 | 2019-01-22 | Facebook, Inc. | Syntactic models for parsing search queries on online social networks |
US10417202B2 (en) * | 2016-12-21 | 2019-09-17 | Hewlett Packard Enterprise Development Lp | Storage system deduplication |
US10607148B1 (en) | 2016-12-21 | 2020-03-31 | Facebook, Inc. | User identification with voiceprints on online social networks |
US11223699B1 (en) | 2016-12-21 | 2022-01-11 | Facebook, Inc. | Multiple user recognition with voiceprints on online social networks |
US10535106B2 (en) | 2016-12-28 | 2020-01-14 | Facebook, Inc. | Selecting user posts related to trending topics on online social networks |
US10372813B2 (en) | 2017-01-17 | 2019-08-06 | International Business Machines Corporation | Selective content dissemination |
US10489472B2 (en) | 2017-02-13 | 2019-11-26 | Facebook, Inc. | Context-based search suggestions on online social networks |
US10614141B2 (en) | 2017-03-15 | 2020-04-07 | Facebook, Inc. | Vital author snippets on online social networks |
US10769222B2 (en) | 2017-03-20 | 2020-09-08 | Facebook, Inc. | Search result ranking based on post classifiers on online social networks |
US20180300296A1 (en) * | 2017-04-17 | 2018-10-18 | Microstrategy Incorporated | Document similarity analysis |
US11379861B2 (en) | 2017-05-16 | 2022-07-05 | Meta Platforms, Inc. | Classifying post types on online social networks |
US10248645B2 (en) | 2017-05-30 | 2019-04-02 | Facebook, Inc. | Measuring phrase association on online social networks |
US10268646B2 (en) | 2017-06-06 | 2019-04-23 | Facebook, Inc. | Tensor-based deep relevance model for search on online social networks |
EP3642766A4 (en) * | 2017-06-19 | 2021-03-03 | Equifax, Inc. | AUTOMATIC LEARNING SYSTEM TO PROCESS QUESTIONS FOR DIGITAL CONTENT |
US10489468B2 (en) | 2017-08-22 | 2019-11-26 | Facebook, Inc. | Similarity search using progressive inner products and bounds |
US10776437B2 (en) | 2017-09-12 | 2020-09-15 | Facebook, Inc. | Time-window counters for search results on online social networks |
CN107861974B (zh) * | 2017-09-19 | 2018-12-25 | 北京金堤科技有限公司 | 一种自适应网络爬虫系统及其数据获取方法 |
US10678786B2 (en) | 2017-10-09 | 2020-06-09 | Facebook, Inc. | Translating search queries on online social networks |
US10810214B2 (en) | 2017-11-22 | 2020-10-20 | Facebook, Inc. | Determining related query terms through query-post associations on online social networks |
US10963514B2 (en) | 2017-11-30 | 2021-03-30 | Facebook, Inc. | Using related mentions to enhance link probability on online social networks |
US10129705B1 (en) | 2017-12-11 | 2018-11-13 | Facebook, Inc. | Location prediction using wireless signals on online social networks |
US11604968B2 (en) | 2017-12-11 | 2023-03-14 | Meta Platforms, Inc. | Prediction of next place visits on online social networks |
US20200117742A1 (en) * | 2018-10-15 | 2020-04-16 | Microsoft Technology Licensing, Llc | Dynamically suppressing query answers in search |
RU2744028C2 (ru) * | 2018-12-26 | 2021-03-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для хранения множества документов |
GB201821327D0 (en) | 2018-12-31 | 2019-02-13 | Transversal Ltd | A system and method for discriminating removing boilerplate text in documents comprising structured labelled text elements |
CN111611787A (zh) * | 2019-02-25 | 2020-09-01 | 中国海洋大学 | 抄袭评测方法、系统和辅助写作系统 |
US11531818B2 (en) * | 2019-11-15 | 2022-12-20 | 42 Maru Inc. | Device and method for machine reading comprehension question and answer |
KR102448061B1 (ko) | 2019-12-11 | 2022-09-27 | 네이버 주식회사 | 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템 |
KR102432600B1 (ko) * | 2019-12-17 | 2022-08-16 | 네이버 주식회사 | 벡터 양자화를 이용한 중복 문서 탐지 방법 및 시스템 |
CN111737966B (zh) * | 2020-06-11 | 2024-03-01 | 北京百度网讯科技有限公司 | 文档重复度检测方法、装置、设备和可读存储介质 |
CN112183052B (zh) * | 2020-09-29 | 2024-03-05 | 百度(中国)有限公司 | 一种文档重复度检测方法、装置、设备和介质 |
US11593439B1 (en) * | 2022-05-23 | 2023-02-28 | Onetrust Llc | Identifying similar documents in a file repository using unique document signatures |
WO2024036394A1 (en) * | 2022-08-18 | 2024-02-22 | 9197-1168 Québec Inc. | Systems and methods for identifying documents and references |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003296363A (ja) * | 2002-03-29 | 2003-10-17 | Fujitsu Ltd | 文書検索方法 |
JP2004062880A (ja) * | 2003-06-12 | 2004-02-26 | Hitachi Ltd | 情報の埋め込み方法およびその装置 |
US20040093323A1 (en) * | 2002-11-07 | 2004-05-13 | Mark Bluhm | Electronic document repository management and access system |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0513652A2 (en) | 1991-05-10 | 1992-11-19 | Siemens Aktiengesellschaft | Method for modelling similarity function using neural network |
US5488725A (en) * | 1991-10-08 | 1996-01-30 | West Publishing Company | System of document representation retrieval by successive iterated probability sampling |
JPH07295994A (ja) * | 1994-04-22 | 1995-11-10 | Sharp Corp | 情報検索装置 |
JP3810463B2 (ja) * | 1995-07-31 | 2006-08-16 | 株式会社ニューズウオッチ | 情報フィルタリング装置 |
US5826260A (en) * | 1995-12-11 | 1998-10-20 | International Business Machines Corporation | Information retrieval system and method for displaying and ordering information based on query element contribution |
US5913208A (en) * | 1996-07-09 | 1999-06-15 | International Business Machines Corporation | Identifying duplicate documents from search results without comparing document content |
JPH10254894A (ja) * | 1997-03-11 | 1998-09-25 | Toshiba Corp | 類似文書検索装置、類似文書検索方法及び類似文書検索用記憶媒体 |
US6138113A (en) * | 1998-08-10 | 2000-10-24 | Altavista Company | Method for identifying near duplicate pages in a hyperlinked database |
US6654739B1 (en) * | 2000-01-31 | 2003-11-25 | International Business Machines Corporation | Lightweight document clustering |
US6785669B1 (en) * | 2000-03-08 | 2004-08-31 | International Business Machines Corporation | Methods and apparatus for flexible indexing of text for use in similarity searches |
GB0016974D0 (en) * | 2000-07-12 | 2000-08-30 | Univ Salford The | Document retrieval system |
US6757675B2 (en) * | 2000-07-24 | 2004-06-29 | The Regents Of The University Of California | Method and apparatus for indexing document content and content comparison with World Wide Web search service |
US7013310B2 (en) * | 2002-01-03 | 2006-03-14 | Cashedge, Inc. | Method and apparatus for retrieving and processing data |
US6978419B1 (en) * | 2000-11-15 | 2005-12-20 | Justsystem Corporation | Method and apparatus for efficient identification of duplicate and near-duplicate documents and text spans using high-discriminability text fragments |
US6658423B1 (en) * | 2001-01-24 | 2003-12-02 | Google, Inc. | Detecting duplicate and near-duplicate files |
US6745197B2 (en) * | 2001-03-19 | 2004-06-01 | Preston Gates Ellis Llp | System and method for efficiently processing messages stored in multiple message stores |
JP2003016092A (ja) * | 2001-04-26 | 2003-01-17 | Hitachi Ltd | 類似文書検索方法及びその実施システム並びにその処理プログラム |
JP2003030224A (ja) * | 2001-07-17 | 2003-01-31 | Fujitsu Ltd | 文書クラスタ作成装置、文書検索システムおよびfaq作成システム |
US7139756B2 (en) * | 2002-01-22 | 2006-11-21 | International Business Machines Corporation | System and method for detecting duplicate and similar documents |
US6910037B2 (en) * | 2002-03-07 | 2005-06-21 | Koninklijke Philips Electronics N.V. | Method and apparatus for providing search results in response to an information search request |
JP2003288362A (ja) * | 2002-03-27 | 2003-10-10 | Seiko Epson Corp | 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法 |
WO2004034282A1 (ja) * | 2002-10-10 | 2004-04-22 | Fujitsu Limited | コンテンツ再利用管理装置およびコンテンツ再利用支援装置 |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
US7809695B2 (en) | 2004-08-23 | 2010-10-05 | Thomson Reuters Global Resources | Information retrieval systems with duplicate document detection and presentation functions |
US7264274B2 (en) * | 2005-06-22 | 2007-09-04 | Delphi Technologies, Inc. | Tuneable energy absorbing mounting structure for steering column |
-
2005
- 2005-05-05 US US11/122,577 patent/US7809695B2/en active Active
- 2005-08-23 NZ NZ553567A patent/NZ553567A/en unknown
- 2005-08-23 JP JP2007530061A patent/JP4919515B2/ja not_active Expired - Fee Related
- 2005-08-23 WO PCT/US2005/030024 patent/WO2006023941A1/en active Application Filing
- 2005-08-23 CA CA2578157A patent/CA2578157C/en active Active
- 2005-08-23 EP EP05792821A patent/EP1805661A1/en not_active Withdrawn
- 2005-08-23 CN CN2005800354876A patent/CN101076800B/zh not_active Expired - Fee Related
- 2005-08-23 AU AU2005277039A patent/AU2005277039B2/en active Active
-
2011
- 2011-03-15 JP JP2011057289A patent/JP5522743B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003296363A (ja) * | 2002-03-29 | 2003-10-17 | Fujitsu Ltd | 文書検索方法 |
US20040093323A1 (en) * | 2002-11-07 | 2004-05-13 | Mark Bluhm | Electronic document repository management and access system |
JP2004062880A (ja) * | 2003-06-12 | 2004-02-26 | Hitachi Ltd | 情報の埋め込み方法およびその装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013105273A (ja) * | 2011-11-11 | 2013-05-30 | Nippon Telegr & Teleph Corp <Ntt> | 類似ページ検出装置、類似ページ検出方法、類似ページ検出プログラム |
JP2015501469A (ja) * | 2011-11-11 | 2015-01-15 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 製品情報検索結果に対する重複排除の実施 |
Also Published As
Publication number | Publication date |
---|---|
EP1805661A1 (en) | 2007-07-11 |
NZ553567A (en) | 2010-09-30 |
JP5522743B2 (ja) | 2014-06-18 |
CA2578157C (en) | 2016-07-05 |
WO2006023941A1 (en) | 2006-03-02 |
JP2008511081A (ja) | 2008-04-10 |
AU2005277039A1 (en) | 2006-03-02 |
US7809695B2 (en) | 2010-10-05 |
JP4919515B2 (ja) | 2012-04-18 |
CA2578157A1 (en) | 2006-03-02 |
US20060041597A1 (en) | 2006-02-23 |
CN101076800B (zh) | 2012-11-14 |
AU2005277039B2 (en) | 2009-05-28 |
CN101076800A (zh) | 2007-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5522743B2 (ja) | 重複する文書の検出および表示機能 | |
US8200642B2 (en) | System and method for managing electronic documents in a litigation context | |
US8225371B2 (en) | Method and apparatus for creating an information security policy based on a pre-configured template | |
US7743051B1 (en) | Methods, systems, and user interface for e-mail search and retrieval | |
US9104772B2 (en) | System and method for providing tag-based relevance recommendations of bookmarks in a bookmark and tag database | |
US7886359B2 (en) | Method and apparatus to report policy violations in messages | |
US20070250501A1 (en) | Search result delivery engine | |
US20120131021A1 (en) | Phrase Based Snippet Generation | |
US20110161309A1 (en) | Method Of Sorting The Result Set Of A Search Engine | |
EP1826692A2 (en) | Query correction using indexed content on a desktop indexer program. | |
US20100198802A1 (en) | System and method for optimizing search objects submitted to a data resource | |
US10783195B2 (en) | System and method for constructing search results | |
WO2012142652A1 (en) | Method for identifying potential defects in a block of text using socially contributed pattern/message rules | |
WO2011072172A1 (en) | System and method for quickly determining a subset of irrelevant data from large data content | |
US10417334B2 (en) | Systems and methods for providing a microdocument framework for storage, retrieval, and aggregation | |
JP2011238019A (ja) | カテゴリ処理装置及び方法 | |
US10579660B2 (en) | System and method for augmenting search results | |
US20160299896A1 (en) | Processing a search query and ranking results from a database system of an electronic messaging system | |
AU2013214496A1 (en) | A Search Method | |
Claussen et al. | i, United States Patent (10) Patent No.: US 7.809. 695 B2 | |
JP2009528630A (ja) | 関連するトピックを表示するサーチ・エンジンの方法及びシステム | |
Steinberger et al. | Continuous Multi-Source Information Gathering and Classification | |
Geller et al. | Blog mining for the fortune 500 | |
AU2015203812A1 (en) | Systems, methods, interfaces and software for extending search results beyond initial query-defined boundaries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120302 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130514 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130813 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130816 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130913 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20131008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140210 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20140312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140403 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5522743 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |