JP2013016176A - 複数のコンテンツサイトで記事コンテンツの検索を行う方法及び装置 - Google Patents

複数のコンテンツサイトで記事コンテンツの検索を行う方法及び装置 Download PDF

Info

Publication number
JP2013016176A
JP2013016176A JP2012148759A JP2012148759A JP2013016176A JP 2013016176 A JP2013016176 A JP 2013016176A JP 2012148759 A JP2012148759 A JP 2012148759A JP 2012148759 A JP2012148759 A JP 2012148759A JP 2013016176 A JP2013016176 A JP 2013016176A
Authority
JP
Japan
Prior art keywords
result set
documents
query
memory
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012148759A
Other languages
English (en)
Inventor
Juliusz Wojtowicz Lech
ユリウス ボイトビッチ レフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Copyright Clearance Center Inc
Original Assignee
Copyright Clearance Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Copyright Clearance Center Inc filed Critical Copyright Clearance Center Inc
Publication of JP2013016176A publication Critical patent/JP2013016176A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】特定の記事に対しての権利を探し求める場合に適切なソースを識別する、複数のコンテンツサイトで記事コンテンツの検索を行う方法及び装置を提供する。
【解決手段】複数のコンテンツプロバイダから記事レベルコンテンツを取り出すために、連合検索プログラムはユーザから汎用クエリを受け取り、複数のコネクタオブジェクトに同時にディスパッチする。各コネクタオブジェクトは、汎用クエリを、関連付けられたコンテンツソース専用のクエリフォーマットに再フォーマットする。専用のクエリはコンテンツソースにディスパッチされる。コンテンツソースでの結果のセットはコネクタによってフェッチされ、標準フォーマットにマッピングされる。異なるコンテンツソースからの標準結果セットは1つの統合結果セットに統合される。複製の文書はその統合結果セットから削除され、最終の結果はユーザによって指定された条件に応じてソートされ、ユーザに示される。
【選択図】図1

Description

本発明はディジタル権利表示、並びにコンテンツの再使用権を決定する方法及び装置に関する。
作者によって作り出された作品、又は「コンテンツ」は一般に、再使用について法的規制を受ける。例えば、大部分のコンテンツは著作権によって保護される。著作権法に従うために、コンテンツ使用者は度々コンテンツ再使用ライセンスを得る。コンテンツ再使用ライセンスは、実際には、異なるフォーマットでコンテンツを表現する権利、異なるフォーマットでコンテンツを再生する権利、派生作品を作成する権利等を含む権利の「束(bundle)」である。よって、特定の再使用に応じて、その再使用に対する特定のライセンスを得る必要がある。
多くの知識労働者は、権利所有者の正当な権利の侵害を避けるために、特定のコンテンツを使用する前にそのコンテンツに対してどの権利が有効であるのか決定することを試みる。特定の出版物に対する権利が探し求められているならば、いくつかの選択肢が利用可能である。例えば、労働者がISBN等の標準出版番号から、著者から、又はコンテンツそれ自身から出版物の出版社を度々判断することができる。そして、労働者はどんな権利が有効であるかを判断するために出版社のウェブサイトを訪れることができる。或いは、労働者はマサチューセッツのダンバーズ(Danvers)にある米国著作権料精算センタ(Copyright Clearance Center)等の権利精算ハウスのウェブサイトを訪れることができる。この組織は、労働者がISBN、著者名、出版物タイトルの言葉等の情報を用いて出版物を検索することができるように各出版社からの許可を受けた権利を提供するために多くの出版社と提携している。出版物が検索されると、様々な再使用権が各ソースから表示される。そして、労働者は最も適切な権利を適切な価格で選択することができる。例えば、労働者は特定の出版社だけから予め購入されたライセンスを有する組織に属し、その場合に労働者が既に許可されているソースから利用することができる出版物を選択しても良い。
しかしながら、特定の記事に対してだけの権利が探し求められるならば、適切なソースを識別することはより難しい。特に、著者は様々な出版物に対して同一の記事を頻繁に提示し、それによりその記事がある時間の期間に亘っていくつかの出版物に現れる。加えて、いくつかの出版物は他の出版物に元々現れた記事を転載し、それらの転載の記事は別々に又はコレクションで現れても良い。その識別は更に困難にされる。なぜならば、単独のソースは出版された全て記事の総合的なデータベースを提供しないからである。いくつかの出版社はそれらのコンテンツを検索する能力を提供する検索サービスを見せるが、そのような検索は出版社毎に運営されなければならない。それらの検索は不便である。なぜならば、各出版社はクエリが提出されなければならない特定のフォーマットと、総合的な検索が各出版社の知識や検索結果の整理統合を要求するように結果が返送される特定のフォーマットを持っているからである。
本発明の原理によれば、連合検索プログラムはユーザと関連付けられたクライアントから汎用クエリを受け取り、その汎用クエリから複数のサブクエリを生成する。各サブクエリは、特定のコンテンツソースと関連付けられているコネクタオブジェクト(connector object)によって生成され、汎用クエリは全てのコネクタオブジェクトに同時にディスパッチされる。各コネクタオブジェクトは、汎用クエリを関連付けられたコンテンツソースに対して要求された専用のフォーマットに再フォーマットするソース特定コードを含む。そして、専用のクエリはコンテンツソースにディスパッチされる。コンテンツソースでの結果が用意できたとき、その結果のセットはコネクタによってフェッチされる。そのフェッチの結果は標準フォーマットにマッピングされる。異なるコンテンツソースからの標準結果セットは1つの統合結果セットに統合される。複製の文書はその統合結果セットから削除され、最終の結果はユーザによって指定された条件に応じてソートされ、ユーザに示される。
本発明の主要コンポーネントを示すブロック略図及びコンポーネント間のデータフロー図である。 一緒に配置されるときの、ユーザ検索リクエストを処理する図1のシステムを用いる方法例のステップを示す図である。 一緒に配置されるときの、ユーザ検索リクエストを処理する図1のシステムを用いる方法例のステップを示す図である。 ユーザが出版物タイトル又は出版物識別番号を入力することにより出版物検索を開始するウェブアプリケーションによって生成される基本検索表示のスクリーンショットを示す図である。 ユーザが出版物に関係する様々な情報項目を入力することにより出版物検索を開始する上級(アドバンスト)検索表示のスクリーンショットを示す図である。 図3及び図4で示された表示において記事−特定権利が選択されたときウェブアプリケーションによって表示されている記事検索スクリーン表示のスクリーンショットを示す図である。 特定のコンテンツプロバイダの検索サービスを問い合わせるコネクタオブジェクトを備えるコンポーネントの詳細表示を示す図である。 統合結果セットから複製記録を削除する処理例のステップを示す図である。
図1、図2A及び図2Bは、ブロック略図型式で装置100及び本発明の原理に応じて記事レベルでコンテンツ検索を行う処理のステップを示している。その処理はステップ200で開始し、クエリがクライアント102から受け取られるステップ202に移行する。
クライアント102は記事レベル検索を生成する何らかのアプリケーションとなることができる。例えば、1つのそのようなアプリケーションは米国著作権料精算センタ(CCC)によってURL:www.copyright.comで公開されているウェブアプリケーションである。このウェブアプリケーションは図3及び図4に示されているスクリーンショットを有するいくつかの検索表示を生成する。図3は、ユーザがテキストボックス300内に出版物タイトル又は出版物識別番号を入力し、「GO」コマンドボタン302上でクリックすることにより検索を開始する基本検索表示を示している。
図4は、ユーザがタイトル、出版物識別番号、シリーズ名称、著者又は編集者、及び出版社等の検索基準をテキストボックス400〜406内に入力することができる代替の「上級」検索表示を示している。その検索は、出版物タイプ、国、言語等の制限項目をリストボックス408〜412内に入力することにより制限され得る。加えて、セクション414でチェックボックスをチェック又は未チェックにすることにより異なる権利タイプを表示することができる。
図3に示された表示から開始された基本検索、及び図4に示された表示によって開始された上級検索の両方は出版物を検索する。出版物がユーザによって選択された後、ユーザにコンテンツに対する特定の権利の購入を許可する異なる使用権利が表示される。記事−特定権利が選択されたならば、www.copyright.comのウェブアプリケーションは図5に示されたように、記事検索スクリーン表示を表示する。この検索表示はタイトル(テキストボックス502を埋めることによって)、著者(テキストボックス504を埋めることによって)、ディジタルオブジェクトID番号(テキストボックス506を埋めることによって)、巻(テキストボックス508を埋めることによって)、版(テキストボックス510を埋めることによって)、スタートページ番号(テキストボックス512を埋めることによって)、及び出版物日付範囲(コンボボックス514,516及びテキストボックス518,520を埋めることによって)によってユーザに選択された出版物において記事の検索を許可する。「検索(search)」ボタン522をクリックすることが全ての目標(ターゲット)に対するマルチターゲット検索を実行し、マルチターゲット検索ではこの出版物に対する選択された記事を見つけ出すことができる。
この検索は、クライアント102が検索サービス106に対して、特に矢印104で示されかつステップ204で説明されたようにディスパッチャ108に対して汎用クエリを与えたとき開始される。例として、このクエリは次のようにしても良い。
タイトル:地球物理学
著者:オーケルベリ(Akerberg)
上記したように、検索は複数のコンテンツソースに亘って同時に実施される。1つの実施形態は、4つのコンテンツソース又は検索「ターゲット」:内部CCCデータベース、ネイチャー(Nature)データベース、パブゲット(PubGet)データベース、及びニューヨークタイムス(NYT)データベースを使用する。各検索ターゲットは、それ独自の特定のクエリ言語を有し、その言語でクエリが表現されることが期待されている。例えば、CCC内部データベースはルシーン(Lucene)エンジン言語を内部的に用いるソーラ(Solr)技術を使用する。この言語の詳細については、lucene.apache.org/java/2_3_2/queryparsersyntax.htmlで見つけ出すことができる。同様に、ネイチャークエリ言語の詳細については、nature.com/opensearch/で見つけ出すことができる。パブゲット及びNYTクエリ言語の詳細については、corporate.pubget.com/services/premium及びdeveloper.nytimes.com/各々で見つけ出すことができる。
よって、ジェネリックサーチ(generic search)は、コンテンツソース毎にローカルクエリ言語に変換されなければならない。それに応じて、次に、ステップ206では、ディスパッチャ108が汎用クエリを複数のコネクタオブジェクトに同時にディスパッチする。3つのコネクタオブジェクト112,114及び116は、矢印118,120及び122で概略的に図示されたステップ206で説明されたように図1に示されている。
コネクタオブジェクトの詳細は図6に示されている。各コネクタオブジェクト600はコンテンツソースに対して特有であり、コンテンツソースクエリ言語604に対して特有のコードを含んでジェネリックリクエスト(generic request)をそのソースについての適切なクエリに変換する。一般に、この変換はその汎用クエリを解析してクエリ項目毎に「トークン(tokens)」を得ること、そして特定のコンテンツソースにアクセスすることに適した型式において各トークンを含むクエリフレーズを加えることを含む。例えば、上記の記入された汎用クエリはステップ208で次のようなローカルCCCソーラインデックスへのクエリに変換される。
このクエリは関連性ランキング計算を形作るために作成される部分を含んでいる。
同一のクエリは、ネイチャーデータベースにアクセスするために用いられるクエリ言語では次の如きである。
パブゲット及びNYTサイト特有言語での対応するクエリは、
及び
である。ここで、"key"クローズ(clause)は記事のNYTレポジトリへのアクセスを許可する特別のキーである。
加えて、(図3及び図4各々に示された基本又はアドバンスト検索表示においてユーザ入力から得られた、又は出版物検索の結果として得られた)出版物又は書籍についてのISSN又はISBN番号は、その番号によって識別されるジャーナル又は書籍から記事(又はISBNの場合に本の章)だけに対する検索を絞り込むために用いられる。
その後、汎用クエリは特定のコンテンツプロバイダについてのクエリフォーマットに再フォーマットされる。再フォーマットされたクエリは矢印606によって図示されているように、データベースインターフェース608に供給される。データベースインターフェース608は、(必要ならば)データベースにログオンし、ステップ210で、図6の矢印610及び図1の矢印124,130,134によって図示されたように、再フォーマットされたクエリをコンテンツプロバイダに送信する。図1に示されたように、いくつかの場合には、リクエストが従来の方法でインターネット126を介してコンテンツプロバイダサイト(128及び132)に送信される。データベース136等のローカルデータベースについては、クエリはLAN又は他のネットワークを介して矢印134によって示されるように直接送信されても良い。
コネクタオブジェクト112,114及び116は、コンテンツプロバイダサイトで利用可能になるように検索結果を待ち、ステップ212によって示されたように利用可能であるときデータフェッチャ612は矢印614によって図示されるようにその結果をフェッチし、その結果をフォーマットマッパー618に提供する。クエリ言語と同様に、その結果は一般的に、各コンテンツプロバイダ特有のXML又はJSON等のフォーマットの状態であるので、フォーマットマッピングは必要である。
処理は、オフページコネクタ214及び216を介してステップ218に進行する。ステップ218ではコネクタオブジェクト600におけるフォーマットマッパー618が各コンテンツプロバイダからのクエリ結果メタデータを共通フォーマットにマッピングする。ステップ218の結果は、各検索コネクタから結果リストを作成し、検索結果を有する「リストのうちのリスト」を生成する。各検索ターゲットは記録のそれ独自の選択(リスト)を生成した。次に、ステップ220で、各コネクタオブジェクト、例えば、コネクタオブジェクト112,114及び116からの結果は矢印138,140及び142によって図示されるようにマージ(統合)モジュール144に供給され、そこではその結果は検索ターゲット間の複製を識別することにより統合される。
統合処理は、文書の対のメタデータを、異なるターゲットから取られた対の各文書と比較して統合リストを作成することを含む。統合リストにおける文書は、統合リストを作成するために用いられた2つのターゲット以外のターゲットの文書と比較される。この処理は、統合リストにおける全ての文書が異なるターゲットリストにおける全ての文書と比較されるまで繰り返される。1対の文書についての統合処理は図7に更に詳細に示されている。特に、この処理はステップ700で始まり、ステップ702に進む。ステップ702では両方の文書がディジタルオブジェクト識別子(digital object identifier:DOI)を有しているか否かのチェックが行われる。両方の文書がDOIを有しているならば、その処理はステップ704に進む。ステップ704では、DOIが合致するか否かの判別が行われる。ステップ704でDOIが合致すると判別されたならば、文書は複製と考えられる。この場合には、ステップ708で、それらの由来に基づいて文書の予め定められた優先順位に基づいて更に処理するために複製文書のうちの1つが選択される。例えば、上記したリストの文書ソースについては、この順位は最も高い順から最も低い順、ローカルデータベース、ネイチャー、パブゲット、そしてNYTであっても良い。その処理はステップ712で終了する。
代わって、2つの文書のDOIがステップ704における決定として合致しないならば、その文書は異なると考えられ、その処理はステップ710に進む。ステップ710では両文書が保持される。その処理はステップ712で終了する。
代わって、ステップ702で、比較されている2つの文書のうちの少なくとも一方がDOIを有していないと判別されたならば、処理はステップ706に進む。ステップ706では、「タイトルグループ」マッチ(合致)が行われる。タイトルグループはタイトル、巻、版、スタートページ等のメタデータを含む。タイトルの合致の言葉(トークン)の数が2つのタイトルの長い方の言葉の総数の50パーセントより少ないならば、文書は異なっていると考えられ、処理はステップ710に進む。ステップ710では、両方の記録が統合検索リストに加えられる。
タイトルの合致トークンの数が2つのタイトルの長い方の言葉の総数の50パーセント以上であれば、各文書の巻、版及びスタートページが比較される。それらの後のメタデータ値の3つのうちの少なくとも2つが合致するならば、それらの作品は同一であると考えられ、処理はステップ708に進む。そうでないならば、作品は異なると考えられ、処理はステップ710に進む。ターゲット間における複製作品が識別された後、更なる処理のために作られた統合結果セットが存在する。
図1に戻ると、統合結果セットは矢印146によって図示されたように、ソートモジュール148に提供され、そこではステップ222(図2B)で説明されたように、その結果はソートされる。1つの実施形態において、文書は4つの異なるソーティング基準(関連度、タイトル、出版社、及びデータ)によってソートされる。妥当なソート回数を達成するために、(lucene.apache.org/java/docs/index.htmlに記述された)ルシーン検索エンジンと呼ばれるソーティングプログラムがこのソートを行うために使用された。ルシーン検索エンジンは記憶のための選択肢の1つとしてRAMDirectoryを提示している。RAMDirectoryが用いられるとき、記録はディスクに書き込まれないが、その代わりにメモリに保持され、検索インデックスが作られる。このメモリ構築は即時の検索/ソートのために用いられる。
RAMDirectoryソートは、文書毎にメタデータの全セットへの参照に加えて、記録毎に検索/ソートフィールドを含む定義されるべきInMemoryWorkと呼ばれるソートデータ構造を要求する。検索/ソートフィールドは、タイトル、著者、標準番号及び標準番号タイプ(DOI,Pubmed ID)及び日付である。統合記録セットからの文書はこのデータ構造にマッピングされ、インメモリルシーンインデックス(in-memory Lucene index)に加えられた。そして、このインデックスはコーリングクライアント(calling client)によって要求されたソート順に再問い合わせされた。このアレンジメントは、4つのコネクタオブジェクト(全400作品)から100文書を引き出し、それらの文書からインメモリインデックスを作り上げ、所望のソート順にその文書作品を再クエリ及び取り出すために約100〜250ミリ秒を要する。
本発明は多くの実施形態を参照して示されかつ説明されたが、形や詳細において様々な変更が特許請求の範囲に定義された本発明の精神及び範囲から外れることなく本明細書においてされ得ることはこの分野の当業者によって認識される。

Claims (16)

  1. プロセッサ及びメモリを有するユーザコンピュータに入力されたクエリに応答して複数のコンテンツサイトで記事コンテンツに対する検索を行う方法であって、
    (a)前記プロセッサを使用して前記メモリにおける複数のコネクタオブジェクトに対して同時に前記クエリをディスパッチするステップであって、前記コネクタオブジェクトの各々が、前記クエリを受け取ると、前記複数のコンテンツソースのいずれか1つから検索結果をフェッチし、前記メモリにフェッチされた結果セットを格納することと、
    (b)前記プロセッサを使用して前記メモリにおいてマッピングされた結果セットから複製結果を削除することによって全ての結果セットを前記メモリにおける統合結果セットに統合するステップと、
    (c)前記プロセッサを使用して前記メモリにおいて前記統合結果セットのソートインデックスを作成するステップと
    を含むことを特徴とする方法。
  2. 前記ステップ(a)において、前記コネクタオブジェクトの各々は、前記クエリを受け取ると、前記プロセッサを制御して前記クエリを、前記複数のコンテンツソースのいずれか1つによって用いられた専用のクエリフォーマットに再フォーマットし、当該再フォーマットされたクエリを当該1つのコンテンツソースに送信し、前記1つのコンテンツソースから前記クエリによって生成された結果をフェッチし、当該結果を共通結果フォーマットにマッピングし、前記メモリに当該マッピングされた結果を格納することを特徴とする請求項1に記載の方法。
  3. 前記ステップ(b)は、
    (b1)2つの文書からのメタデータを比較するステップと、
    (b2)両方の文書がディジタルオブジェクト識別子を有し、前記ディジタルオブジェクト識別子が合致するとき、前記2つの文書のいずれか一方を前記統合結果セットに加えるステップと、
    (b3) 両方の文書がディジタルオブジェクト識別子を有し、前記ディジタルオブジェクト識別子が合致しないとき、前記2つの文書の両方を前記統合結果セットに加えるステップと
    を含むことを特徴とする請求項1に記載の方法。
  4. 前記ステップ(b)は、
    (b4) 両方の文書がディジタルオブジェクト識別子を有していないとき、前記2つの文書のタイトルを比較するステップと、
    (b5)当該2つのタイトルにおける言葉の所定パーセントより多いパーセントが合致するならば、前記文書のいずれか一方を前記統合結果セットに加えるステップと、
    (b6)前記2つのタイトルにおける言葉の前記所定パーセントより少ないパーセントが合致するならば、追加のメタデータの項目を比較するステップと、
    (b7)前記ステップ(b6)で追加のメタデータの項目の第2の所定パーセントより多いパーセントが合致するならば、前記文書のいずれか一方を前記統合結果セットに加えるステップと、
    (b8)前記ステップ(b6)で追加のメタデータの項目の前記第2の所定パーセントより少ないパーセントが合致するならば、前記文書の両方を前記統合結果セットに加えるステップと
    を更に含むことを特徴とする請求項3に記載の方法。
  5. 前記所定パーセントは50パーセントであることを特徴とする請求項4に記載の方法。
  6. 前記追加のメタデータの項目は、文書の巻、版、及びスタートページを含むことを特徴とする請求項4記載の方法。
  7. 前記第2の所定パーセントは66パーセントであることを特徴とする請求項4に記載の方法。
  8. 前記ステップ(c)は、前記統合結果セットの各記録を、ソートフィールドと前記統合結果セットの文書メタデータに対する参照とを含むインメモリデータ構造にマッピングするステップと、前記データ構造から前記メモリにおいてソートインデックスを作成するステップと、ユーザが指定した条件に基づいて前記ソートインデックスを用いて前記データ構造をソートするステップと、当該ソートしたデータ構造によって特定された順に前記統合結果セットからメタデータを取り出すステップと
    を含むことを特徴とする請求項1に記載の方法。
  9. プロセッサ及びメモリを有するユーザコンピュータに入力されたクエリに応答して複数のコンテンツサイトで記事コンテンツに対する検索を行う装置であって、前記装置は、
    前記メモリにおける複数のコネクタオブジェクトに対して同時に前記クエリをディスパッチし、前記コネクタオブジェクトの各々が、前記クエリを受け取られると、前記複数のコンテンツソースのいずれか1つから検索結果をフェッチし、前記メモリに前記フェッチされた結果セットを格納し、
    前記メモリにおいてマッピングされた結果セットから複製結果を削除することによって全ての結果セットを前記メモリにおける統合結果セットに統合し、
    前記メモリにおける前記統合結果セットのソートインデックスを作成する
    ように前記プロセッサを制御するソフトウエアプログラムを前記メモリにおいて備えることを特徴とする装置。
  10. 前記コネクタオブジェクトの各々は、前記クエリを受け取ると、前記クエリを前記複数のコンテンツソースのいずれか1つによって用いられた専用のクエリフォーマットに再フォーマットし、当該再フォーマットしたクエリを当該1つのコンテンツソースに送信し、前記1つのコンテンツソースから前記クエリによって生成された結果をフェッチし、当該結果を共通結果フォーマットにマッピングし、前記メモリに当該マッピングされた結果を格納するように前記プロセッサを制御することを特徴とする請求項9に記載の装置。
  11. 前記プロセッサは、2つの文書からのメタデータを比較することと、両方の文書がディジタルオブジェクト識別子を有し、前記ディジタルオブジェクト識別子が合致するとき、前記2つの文書のいずれか一方を前記統合結果セットに加えることと、両方の文書がディジタルオブジェクト識別子を有し、前記ディジタルオブジェクト識別子が合致しないとき、前記2つの文書の両方を前記統合結果セットに加えることとによって、全ての結果セットを統合するように制御されることを特徴とする請求項9に記載の装置。
  12. 前記プロセッサは、両方の文書がディジタルオブジェクト識別子を有していないとき、前記2つの文書のタイトルを比較することと、当該2つのタイトルにおける言葉の所定パーセントより多いパーセントが合致するならば、前記文書のいずれか一方を前記統合結果セットに加えることと、前記2つのタイトルにおける言葉の前記所定パーセントより少ないパーセントが合致するならば、追加のメタデータの項目を比較することと、追加のメタデータの項目の第2の所定パーセントより多いパーセントが合致するならば、前記文書のいずれか一方を前記統合結果セットに加えることと、追加のメタデータの項目の前記第2の所定パーセントより少ないパーセントが合致するならば、前記文書の両方を前記統合結果セットに加えることとによって、全ての結果セットを統合するように更に制御されることを特徴とする請求項11に記載の装置。
  13. 前記所定パーセントは50パーセントであることを特徴とする請求項12に記載の装置。
  14. 前記追加のメタデータの項目は、文書の巻、版、及びスタートページを含むことを特徴とする請求項12に記載の装置。
  15. 前記第2の所定パーセントは66パーセントであることを特徴とする請求項12に記載の装置。
  16. 前記プロセッサは、前記統合結果セットの各記録を、ソートフィールドと前記統合結果セットの文書メタデータに対する参照とを含むインメモリデータ構造にマッピングすることと、前記データ構造から前記メモリにおいてソートインデックスを作成することと、ユーザが指定した条件に基づいて前記ソートインデックスを用いて前記データ構造をソートすることと、当該ソートされたデータ構造によって特定された順に前記統合結果セットからメタデータを取り出すこととによって、前記ソートインデックスを作成することを特徴とする請求項9に記載の装置。
JP2012148759A 2011-06-30 2012-07-02 複数のコンテンツサイトで記事コンテンツの検索を行う方法及び装置 Pending JP2013016176A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/173,172 US20130006999A1 (en) 2011-06-30 2011-06-30 Method and apparatus for performing a search for article content at a plurality of content sites
US13/173,172 2011-06-30

Publications (1)

Publication Number Publication Date
JP2013016176A true JP2013016176A (ja) 2013-01-24

Family

ID=46639285

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012148759A Pending JP2013016176A (ja) 2011-06-30 2012-07-02 複数のコンテンツサイトで記事コンテンツの検索を行う方法及び装置

Country Status (5)

Country Link
US (1) US20130006999A1 (ja)
EP (1) EP2541446A1 (ja)
JP (1) JP2013016176A (ja)
AU (1) AU2012203678A1 (ja)
CA (1) CA2781293A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8504536B2 (en) * 2011-09-30 2013-08-06 Sirsi Corporation Normalizing metadata between library content providers
US20130191365A1 (en) * 2012-01-19 2013-07-25 Mauritius H.P.M. van Putten Method to search objectively for maximal information
US20150106883A1 (en) * 2013-10-10 2015-04-16 Fharo Miller System and method for researching and accessing documents online
US10198558B2 (en) * 2014-10-06 2019-02-05 Red Hat, Inc. Data source security cluster
US10528613B2 (en) * 2015-11-23 2020-01-07 Advanced Micro Devices, Inc. Method and apparatus for performing a parallel search operation
US10990929B2 (en) * 2018-02-27 2021-04-27 Servicenow, Inc. Systems and methods for generating and transmitting targeted data within an enterprise
US11354312B2 (en) * 2019-08-29 2022-06-07 International Business Machines Corporation Access-plan-based querying for federated database-management systems

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5845285A (en) * 1997-01-07 1998-12-01 Klein; Laurence C. Computer system and method of data analysis
WO2002035395A2 (en) * 2000-10-27 2002-05-02 Entigen Corporation Integrating heterogeneous data and tools
US6912549B2 (en) * 2001-09-05 2005-06-28 Siemens Medical Solutions Health Services Corporation System for processing and consolidating records
EP1657655A3 (en) * 2004-11-12 2007-02-28 Trialstat Corporation Method, system and computer program product for reference categorization and/or reference particulars mining
US7818314B2 (en) * 2004-12-29 2010-10-19 Aol Inc. Search fusion
US8386469B2 (en) * 2006-02-16 2013-02-26 Mobile Content Networks, Inc. Method and system for determining relevant sources, querying and merging results from multiple content sources
US7962464B1 (en) * 2006-03-30 2011-06-14 Emc Corporation Federated search
AU2008229623A1 (en) * 2007-03-16 2008-09-25 Pr Software Pty Limited An internet mediated booking and distribution system

Also Published As

Publication number Publication date
CA2781293A1 (en) 2012-12-30
AU2012203678A1 (en) 2013-01-17
US20130006999A1 (en) 2013-01-03
EP2541446A1 (en) 2013-01-02

Similar Documents

Publication Publication Date Title
US10275419B2 (en) Personalized search
US10275434B1 (en) Identifying a primary version of a document
JP5256293B2 (ja) 検索結果ページ上に対話要素を含めるためのシステム及び方法
Platzer et al. Web service clustering using multidimensional angles as proximity measures
JP4574356B2 (ja) 電子的ドキュメントレポジトリーマネジメントおよびアクセスシステム
JP6006267B2 (ja) 索引キーを使用して検索を絞込むシステムおよび方法
US8473473B2 (en) Object oriented data and metadata based search
TWI463337B (zh) 用於實施於跨多搜尋引擎之結盟搜尋之方法及系統
CN103235776B (zh) 呈现搜索结果信息
US9311402B2 (en) System and method for invoking functionalities using contextual relations
JP2013016176A (ja) 複数のコンテンツサイトで記事コンテンツの検索を行う方法及び装置
US8688702B1 (en) Techniques for using dynamic data sources with static search mechanisms
US20120036125A1 (en) Method and system for integrating web-based systems with local document processing applications
CN1750001A (zh) 向库存内容项添加元数据
JP5555809B2 (ja) テレビ検索アシスタントのためのシステム及び方法
WO2013070534A1 (en) Function extension for browsers or documents
EP2933734A1 (en) Method and system for the structural analysis of websites
US20110270816A1 (en) Information Exploration
US10235459B1 (en) Creating entries in at least one of a personal cache and a personal index
RU2693193C1 (ru) Автоматизированное извлечение информации
US20160232236A1 (en) Presenting search results for an internet search request
JP5284064B2 (ja) 商品idサーバ装置、および商品idサーバ装置の制御方法
Delsey The Library Catalogue in a Networked Environment.
US20150046437A1 (en) Search Method
KR101487356B1 (ko) 검색논문의 참고문헌정보를 제공하는 서버 및 제공방법