JP2008515049A - 文書構造に基づいた検索結果の表示 - Google Patents

文書構造に基づいた検索結果の表示 Download PDF

Info

Publication number
JP2008515049A
JP2008515049A JP2007533473A JP2007533473A JP2008515049A JP 2008515049 A JP2008515049 A JP 2008515049A JP 2007533473 A JP2007533473 A JP 2007533473A JP 2007533473 A JP2007533473 A JP 2007533473A JP 2008515049 A JP2008515049 A JP 2008515049A
Authority
JP
Japan
Prior art keywords
document
node
search term
structural elements
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007533473A
Other languages
English (en)
Other versions
JP4637181B2 (ja
Inventor
シンハール,アミタブ・ケイ
ラトナカール,ビレッシュ
リファンセブ,マキシム
オサリバン,ジョゼフ・キーラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2008515049A publication Critical patent/JP2008515049A/ja
Application granted granted Critical
Publication of JP4637181B2 publication Critical patent/JP4637181B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

システムは検索用語に関係する文書を識別し、文書は構造要素のセットを含む。このシステムは、文書において検索用語の出現の分布を判断し、文書において検索用語の出現の分布に基づいて構造要素のうちの1つを識別し、識別された構造要素と関連付けられる情報を表示する。

Description

背景
発明の分野
この発明の本質と一致したシステムおよび方法は、一般に、情報の検索に関し、特に、文書の構造に基づいた検索結果として文書を表示することに関する。
関連技術の説明
World Wide Web(“web”)は大量の情報を含む。しかしながら、情報の所望の部分を見つけることは難しいことであり得る。この問題は、ウェブ上の情報の量およびウェブ検索での経験のない新しいユーザの数が急増しているため、複雑になっている。
検索エンジンは、ユーザが興味を持つウェブ文書へのハイパーリンクを返そうとする。一般に、検索エンジンは、ユーザによって入力される検索用語(検索クエリと呼ばれる)に基づいてユーザの興味を判断をする。検索エンジンの目標は、検索クエリに基づいて高品質の関連結果をユーザに提供することである。典型的には、検索エンジンは検索クエリ内の用語に合致するものを事前に記憶されたウェブ文書の集成から見つけることによって、このことを実現する。ユーザの検索用語を含むウェブ文書は「ヒット」であり、ユーザに返される。既存の検索エンジンは典型的には、ヒットをウェブ文書からの抜粋として表示する。抜粋は検索結果ページとして、単一のウェブページで表示され得る。
概要
一局面によると、ある方法は検索用語に関連する文書を識別するステップを含んでもよく、文書は構造要素のセットを含む。この方法は、文書において検索用語の出現の分布を判断するステップと、文書において検索用語の出現の分布に基づいて構造要素のうちの1つを識別するステップと、識別された構造要素と関連付けられる情報を表示するステップとを含んでもよい。
別の局面によると、ある方法は、検索用語に関係する文書を識別するステップを含んでもよく、文書は構造要素のセットを含む。この方法は、文書において検索用語の出現を判断するステップと、検索用語の出現の物理的な近接度に基づいて検索用語の出現をクラスタへと分類するステップと、クラスタの各々を含む構造要素のうちの1つを判断するステップと、判断された構造要素に関係する情報を提供するステップとを含んでもよい。
さらに別の局面によると、ある方法は検索用語に関連する文書を識別するステップを含んでもよく、文書は構造要素のセットを含み、構造要素は、文書と、文書の部のセットと、文書のページのセットとを含む。この方法は、文書の3つの表示を識別するステップを含んでもよく、文書のページは葉ノードに対応し、文書の部はより高いレベルのノードに対応し、文書はルートノードに対応する。この方法は、葉ノードが検索用語の出現を含むか否かに基づいて葉ノードに点数を割当てるステップと、葉ノードのうちの関連付けられるものの点数に基づいてより高いレベルのノードに対する点数を判断するステップと、より高いレベルのノードの点数に基づいてルートノードに対する点数を判断するステップと、点数に基づいて、葉ノードのうちの1つ、より高いレベルのノードのうちの1つ、またはルートノードを選択されたノードとして選択するステップと、選択されたノードに関係する情報を提供するステップとを含んでもよい。
この明細書に組込まれかつこの明細書の一部を構成する添付の図面は、説明とともに、この発明の実施例を例示し、この発明を説明する。
詳細な説明
この発明の以下の詳細な説明は添付の図面を参照する。異なる図面の同じ参照番号は同じかまたは類似の要素を示し得る。さらに、以下の詳細な説明はこの発明を制限しない。
概要
より多くのタイプの文書が検索エンジンを通じて検索可能となっている。一部のタイプの文書は、それらが部(parts)、章(chapters)、節(sections)、ページ(pages)等の構造要素のセットを含むという点で構造化されている。これらのタイプの文書の例は、書籍、ウェブサイト、雑誌、新聞、記事、特許、およびカタログを含み得る。これら文書はスキャンされてもよく、それらのテキストは光学的文字認識(OCR)を通じて認識される。
図1は構造化された文書の例示的な図である。この例示的な実現例では、文書は書籍の形を取る。書籍はスキャンされるかまたは他の態様で電子フォームで獲得され得る。典型的な書籍はいくつかの構造要素を含み得る。書籍の特定の構造要素は、出版社によって提供されるOCRによって判断されるか、または他の方法で獲得され得る。
図2は文書の例示的な構造要素の図である。図2に示されるように、構造要素は階層的に配置されてもよい。図2の構造要素は4つのレベルに配置されてもよい。他の実現例では、構造要素はいくつのレベルに配置されてもよく、4つより多いかまたは少ないレベルに配置されてもよい。
図2に示されるように、最高レベルの構造要素は文書自身を含んでもよい。2番目に高いレベルの構造要素は文書の部を含んでもよい。書籍の場合、部は、書籍の章に対応してもよい。ウェブサイトの場合、部はウェブサイトの部分に対応してもよい。記事の場合、部は記事の節に対応してもよい。
次に最も高いレベルの構造要素は文書の下位部(sub-parts)を含んでもよい。書籍の場合、下位部は書籍の下位章(sub-chapters)または節に対応してもよい。ウェブサイトの場合、下位部はウェブサイトの下位部分(sub-portions)に対応してもよい。記事の場合、下位部は記事の下位節(sub-sections)に対応してもよい。階層構造で次に最も高いレベルの構造要素は文書のページを含んでもよい。
この発明の本質と一致するシステムおよび方法は、基礎となる文書と関連付けられる構造要素および文書内のヒットの分布に基づいて検索結果を表示してもよい。
例示的な情報検索ネットワーク
図3は、この発明の本質と一致するシステムおよび方法が実現され得るネットワーク300の例示的な図である。ネットワーク300は、ネットワーク350を通じて複数のサーバ320〜340に接続された複数のクライアント310を含んでもよい。ネットワーク350は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、公衆交換電話網(PSTN)などの電話網、イントラネット、インターネット、記憶装置、またはネットワークの組合せを含んでもよい。簡略化のため、2つのクライアント310および3つのサーバ320〜340がネットワーク350に接続されて示される。実際には、より多くのまたはより少ないクライアントおよびサーバがあり得る。さらに
、場合によっては、クライアントはサーバの機能を実行してもよく、および/またはサーバはクライアントの機能を実行してもよい。
クライアント310はクライアント実体を含んでもよい。実体は、パーソナルコンピュータ、無線電話、携帯情報端末(PDA)、ラップトップ、または他のタイプの計算または通信装置、これら装置のうちの1つの上で稼働するスレッドまたはプロセス、および/またはこれら装置のうちの1つによって実行可能なオブジェクトなどの装置として規定され得る。サーバ320〜340は、この発明の本質と一致した態様で文書を集め、処理し、検索し、および/または維持するサーバ実体を含んでもよい。クライアント310およびサーバ320〜340は、有線の接続、無線接続および/または光学接続を通じてネットワーク350に接続してもよい。
この発明の本質と一致した実現例では、サーバ320はクライアント310によって使用可能な検索エンジン325を含んでもよい。サーバ320は(たとえば、スキャンまたは巡回(crawling)を通じて)文書の集成を識別し、文書に索引を付け、文書と関連付けられる情報を文書のリポジトリ(repository)に記憶してもよい。サーバ330および340は、ウェブページまたはウェブサイトなどの文書を記憶または維持してもよい。サーバ320〜340は別々の実体として示されるが、サーバ320〜340のうちの1つまたは複数がサーバ320〜340の別の1つまたは複数の機能のうちの1つまたは複数を実行することも可能であり得る。たとえば、サーバ320〜340のうちの2つ以上が単一のサーバとして実現されることが可能であり得る。サーバ320〜340のうちの1つが2つ以上の別々の(かつ分散され得る)装置として実現されることも可能であり得る。
例示的なクライアント/サーバアーキテクチャ
図4は、この発明の本質と一致する実現例による、クライアント310およびサーバ320〜340のうちの1つまたは複数に対応し得るクライアントまたはサーバ実体(以降は「クライアント/サーバ実体」と称される)の例示的な図である。クライアント/サーバ実体は、バス410、プロセッサ420、メインメモリ430、読出専用メモリ(ROM)440、記憶装置450、入力装置460、出力装置470、および通信インターフェイス480を含み得る。バス410は、クライアント/サーバ実体の要素間で通信を可能にする経路を含んでもよい。
プロセッサ420は、命令を解釈し実行する従来のプロセッサ、マイクロプロセッサ、または処理ロジックを含んでもよい。メインメモリ430は、プロセッサ420によって実行するために情報および命令を記憶するランダムアクセスメモリ(RAM)または別のタイプの動的記憶装置を含んでもよい。ROM440は、プロセッサ420によって使用するために静的な情報および命令を記憶する従来のROM装置、または別のタイプの静的な記憶装置を含んでもよい。記憶装置450は、磁気および/または光記憶媒体およびその対応するドライブを含んでもよい。
入力装置460は、キーボード、マウス、ペン、音声認識および/またはバイオメトリック機構などのオペレータが情報をクライアント/サーバ実体に入力することを可能にする従来の機構を含んでもよい。出力装置470は、ディスプレイ、プリンタ、スピーカ等を含む、オペレータに情報を出力する従来の機構を含んでもよい。通信インターフェイス480は、クライアント/サーバ実体が他の装置および/またはシステムと通信するのを可能にするトランシーバの様な機構を含んでもよい。たとえば、通信インターフェイス480は、ネットワーク350などのネットワークを通じて、別の装置またはシステムと通信するための機構を含んでもよい。
以下に詳細に説明されるように、この発明の本質と一致するクライアント/サーバ実体
は、ある検索に関係する動作を実行してもよい。クライアント/サーバ実体は、プロセッサ420がメモリ430などのコンピュータ読取可能な媒体に含まれるソフトウェア命令を実行することに応答して、これらの動作を実行してもよい。コンピュータ読取可能な媒体は、物理的または論理的な記憶装置および/または搬送波として規定され得る。
ソフトウェア命令は、データ記憶装置450などの別のコンピュータ読取可能な媒体から、または通信インターフェイス480を通じて別の装置からメモリ430へと読出され得る。メモリ430に含まれるソフトウェア命令は、プロセッサ420に、以下に説明されるプロセスを行なわせる。またはこれに代えて、この発明の本質と一致するプロセスを実現するために、ソフトウェア命令の代わりに、またはソフトウェア命令と組合せて配線接続された回路を使用してもよい。したがって、この発明の本質と一致する実現例は、ハードウェア回路およびソフトウェアの特定の組合せに制限されない。
例示的な検索エンジン
図5は、この発明の本質と一致する実現例による、検索エンジン325などの検索エンジンの例示的な機能ブロック図である。一実現例によると、以下に説明される機能のうちの1つまたは複数は、サーバ320の別の部分、またはサーバ320と関連付けられるコンピュータなどのサーバ320とは別の実体、もしくはサーバ330または340のうちの1つによって行なわれてもよい。
検索エンジン325は情報検索ユニット510およびリポジトリ530に接続された表示ユニット520を含んでもよい。リポジトリ530は、たとえば、サーバ320(図3)またはサーバ320とは別の実体によって巡回されかつ索引を付けられた文書と関連付けられる情報を記憶する物理的または論理的な記憶装置を含んでもよい。文書情報は文書の内容および関連付けられるメタデータを含んでもよい。この発明の本質と一致する実現例では、文書と関連付けられるメタデータは、文書と関連付けられる構造要素に関する情報を含んでもよい。文書と関連付けられる特定の構造要素は、出版社によって提供されるOCRによって判断されるか、または他の方法で獲得され得る。
情報検索ユニット510は、ユーザの検索用語に対して動作し、用語に関連する文書を識別してもよい。情報検索ユニット510が検索用語のセットに関係する文書を識別するために使用し得るいくつかの技術がある。たとえば、検索用語のセットが単一の検索用語を含むとき、情報検索ユニット510は検索用語を含む文書を識別し得る。検索用語のセットが複数の検索用語を含むとき、情報検索ユニット510は、検索用語を語句として含む文書を識別し得る。またはこれに代えて、もしくはこれに加えて、情報検索ユニット510は、検索用語を含むが、必ずしも一緒には含まない文書を識別し得る。またはこれに代えて、もしくはこれに加えて、情報検索ユニット510は、検索用語のすべてより少ないものを含むか、または検索用語の類義語を含む文書を識別し得る。関連文書を識別するためのさらに別の技術が当業者には知られている。
表示ユニット520は、情報検索ユニット510によって識別された文書を検索用語のセットに関連するものとして分析してもよい。たとえば、表示ユニット520は、リポジトリ530内の文書と関連付けられるメタデータから文書と関連付けられる構造要素を識別してもよい。表示ユニット520は文書と関連付けられるヒットも判断してもよい。たとえば、表示ユニット520は、おそらく文書の構造要素に関して、文書の内容内のどこで検索用語のセットが出現するかを判断してもよい。
一実現例では、表示ユニット520は、ヒットをそれらの物理的な近接度に基づいてクラスタ化してもよい。物理的な近接度は、クラスタリング近接しきい値に基づいて判断されてもよい。しきい値は、(物理的な位置の面で)どの程度だけ近接した2つのヒットが
クラスタ化されるべきかを示してもよい。しきい値は固定されてもよい。またはこれに代えて、しきい値は文書のページ、文書の部、文書の下位部等の数に比例して設定されてもよい。この場合、文書の同じ部内にあるページ上のヒットは、しきい値によって示されるように、ヒットが出現するページの数がその部のページの合計数のある割合より大きいときにクラスタにされてもよい。さらに、クラスタリングは、単一の構造要素内にあるクラスタを、複数の構造要素内にあるクラスタより優先的に扱うために行なわれてもよい。各クラスタに対して、表示ユニット520は、クラスタ全体を含む最小の構造要素を判断し、この構造要素を検索結果として表示してもよい。
図6Aは、検索結果に含めるためにどのように構造要素が識別され得るかを示すために文書内での例示的なヒットの分布を示す。図6Aに示されるように、ヒットは10、12、15、16、18、139および211ページで出現している。図6Aにさらに示されるように、10、12、15、16および18ページは第1章にあり、139ページは第5章にあり、211ページは第9章にある。ヒットを含むページの物理的な近接度に基づいて、3つのクラスタ{10,12,15,16,18}、{139}、および{211}が形成され得る。第1のクラスタ全体を含む最小の構造要素が第1章であるようにしきい値が設定されると仮定すると、第2のクラスタ全体を含む最小の構造要素は139ページであり、第3のクラスタ全体を含む最小の構造要素は211ページである。したがって、第1章、139ページおよび211ページに関する情報が検索結果として提供され得る。
別の実現例では、表示ユニット520は文書の階層構造の3つの表示を識別してもよく、ここで葉ノードはページを表してもよく、より高いレベルのノードは部(たとえば、章)を表してもよく、ルートノードは文書全体を表してもよい。表示ユニット520は、ヒットを含む葉ノードを潜在的な結果として識別してもよい。表示ユニット520は、ヒットを含む各葉ノードに1点を、ヒットを含まない各葉ノードに0点を割当ててもよい。またはこれに代えて、ヒットを含む葉ノードに割当てられる点数は1以外のものであってもよい。たとえば、点数はヒットの重要性の関数であってもよい。重要性は特定のページ上のヒットの数および/またはページ上のどこでヒットが出現するかに基づいて判断されてもよい(たとえば、太字のフォントのテキスト上のヒット、より大きいサイズのフォントのテキスト上のヒット、および/または見出しと関連付けられるテキスト上のヒットはより高い点数を与えられてもよい)。
点数は次に木の上に向けて伝達されてもよく、ここで各ノードの点数はその子の点数の合計を含んでもよい。ノードの点数がしきい値を超える場合、そのノードは提供されるべき潜在的な結果として選択されてもよく、以前に選択された子ノードは除去されてもよく、0点がその親に伝達されてもよい。別の態様として、ノードはその最高限の点数をその親に伝達してもよい(親が存在する場合)。しきい値は固定されてもよく、レベルに特有であってもよく、またはノードと関連付けられるページの数の関数であってもよい。
図6Bは、検索結果に含めるためにどのように構造要素が識別され得るかを示すために文書内の例示的なヒットの分布を示す。図6Bに示されるように、ヒットは10、12、15、20、56および100ページで出現している。図6Bにさらに示されるように、10、12、15および20ページは第1章にあり、56ページは第2章にあり、100ページは第3章にある。ページの各々はその点数をその親へと上へ伝達する。親(すなわち、章)に対する点数はそのページの点数の合計である。この場合、第1章は4点を有し、第2章は1点を有し、第3章は1点を有し、第N章は0点を有する。
しきい値が3に設定されているとする。この場合、第1章の点数はしきい値を超え、それは潜在的な結果として選択される。10、12、15および20ページは、それ以降、
もはや潜在的な結果として含まれない。第1章は潜在的な結果として選択されたため、それは0点をその親(すなわち、文書全体)に伝達する。第2章、第3章および第N章は各々しきい値より小さい点数を有し、したがって、その点数をその親に伝達する。親(すなわち、文書)の点数はその章の点数の合計である。この場合、文書は2点を有し、これはしきい値より小さい。したがって、第1章、56ページおよび100ページに関する情報が検索結果として提供され得る。
例示的な処理
図7〜9Bは、この発明の本質と一致する実現例による、検索結果を表示するための例示的な処理のフローチャートである。処理は文書の集成を検索するためにユーザが検索用語を検索クエリとして提供することで開始してもよい。一実現例では、文書の集成はインターネットから利用可能な文書を含み、この集成を検索するための手段は、検索エンジン325(図3)などの検索エンジンである。ユーザは、クライアント310(図3)などのクライアント上のウェブブラウザソフトウェアを通じて検索クエリを提供してもよい。
検索クエリは検索エンジンによって受取られ、検索クエリに関係する文書(たとえば、書籍、ウェブサイト、新聞、記事、特許または他のタイプの構造化された文書)を識別するために使用され得る(動作710および720)(図7)。検索クエリに関係する文書を識別するためのいくつかの技術が存在する。1つのそのような技術は、検索用語を語句として含む文書を識別することを含み得る。別の技術は、それらが必ずしも一緒であるとは限らないが検索用語を含む文書を識別することを含み得る。他の技術は、検索用語のすべてより少ないものを含むか、または検索用語の類義語を含む文書を識別することを含み得る。さらに別の技術が当業者に知られている。
ヒット(文書の内容内での検索用語の出現)が判断され得る(動作730)。たとえば、文書の内容は、文書の構造要素に関して文書内のどこで検索用語が出現するかを識別するために検索され得る。たとえば、どの部、どの下位部、および/またはどのページで検索用語が出現するかが判断され得る。
表示するための構造要素が識別され得る(動作740)。一実現例によると、ヒットはヒットが出現するページの近接度に基づいてクラスタ化されてもよい(動作810)(図8)。上述のように、近接度は、たとえば、どの程度だけ近接した2つのページがクラスタ化されなければならないか、および/または構造要素についてクラスタリングを偏らせるべきか否か(たとえば、単一の構造要素の中にあるクラスタを複数の要素の中にあるクラスタより優先的に扱うか否か)を特定するクラスタリング近接しきい値に基づいて判断されてもよい。各クラスタに対して、この構造要素が文書全体であれ、部であれ、下位部であれ、またはページであれ、クラスタ全体を含む最小の構造要素が識別され得る。
一実現例によると、文書の階層構造の3つの表示が判断されてもよく、ここで葉ノードはページを表し、より高いレベルのノードは部、下位部等を表し、ルートノードは文書全体を表してもよい(動作905)(図9A)。ヒットを含む葉ノードは潜在的な結果として選択され得る(動作910)。
点数が各葉ノードに割当てられ得る(動作915)。一実現例では、ヒットを含む葉ノードは1点を割当てられてもよく、ヒットを含まない葉ノードは0点を割当てられてもよい。別の実現例では、ヒットを含む葉ノードに割当てられる点数は上述のようにヒットの重要性の関数であってもよい。
点数は木の上へと親ノードに伝達されてもよい(動作920)。点数は親ノードに対して判断されてもよい(動作925)。一実現例では、親ノードの点数はその子の点数の合
計を含んでもよい。親ノードの点数はしきい値と比較されてもよい。親ノードの点数がしきい値を超えない場合(動作930)、親ノード自身が親ノードを有するか否かが判断されてもよい(動作935)。そのような親ノードが存在する場合、次に処理は動作920に戻ってもよく、ここでノードはその点数を親ノードへと上へ伝達する。
親ノードの点数がしきい値を超える場合(動作930)、次にそのノードは潜在的な結果として選択されてもよい(動作940)(図9B)。以前に選択された子ノードは潜在的な結果のグループから除去されてもよい(動作945)。次に親ノード自身が親ノードを有するか否かが判断されてもよい(動作950)。そのような親ノードが存在する場合、そのノードは0点をその親ノードへと伝達してもよい(動作955)。処理は次に動作925へと戻ってもよく、ここで親ノードの点数が判断される。他に親ノードが存在しない場合(動作935または950)、次に潜在的な結果として選択されたノードに対応する構造要素が識別されてもよい(動作960)。
文書の各々に対して識別された構造要素に基づいて次に検索結果が形成されてもよい(動作750)(図7)。言い換えると、文書と関連付けられる検索結果は、場合によっては、文書全体、文書の部、文書の下位部、または文書のページと関連付けられる情報を含んでもよい。文書全体と関連付けられる情報は、(検索用語のどれもタイトルのページに現われない場合でも)文書のタイトルのページ(または表紙)を含んでもよい。文書の部または下位部と関連付けられる情報は、(検索用語のどれも部または下位部の第1ページに現われない場合でも)部または下位部の第1ページを含んでもよい。文書のページと関連付けられる情報はページ自身(またはそのページのある部分)を含んでもよい。
検索結果は点数を与えられ、それらの点数に基づいてソートされ得る。検索結果は、従来の検索エンジンによって提供される検索結果と同様に、HTML文書として提供されてもよい。またはこれに代えて、検索結果は検索エンジンおよびクライアントによって同意されたフォーマットによって提供されてもよい(たとえば、拡張可能マークアップ言語(XML))。
図10A〜10Dは、例示的な書籍に対する例示的な検索結果を示す。図10Aは書籍の表紙を示す。書籍の表紙は、書籍全体が検索クエリ(たとえば、“memory”)に関連すると判断されたことを示すために表示され得る。図10Bは、書籍の第3章の第1ページを示す。その章の第1ページは、図10Bに示されるように、検索用語“memory”はそのページには現われないが、その章全体が検索クエリに関連すると判断されたことを示すために表示され得る。図10Cは、書籍の第4章の第1ページを示す。この場合、検索用語はそのページに現われている。図10Dは書籍の52ページを示す。任意で、検索用語は、ユーザがページのテキスト内で用語を容易に識別できるように何らかの態様でハイライト表示されてもよい。
結論
この発明の本質と一致するシステムおよび方法は、基礎となる文書と関連付けられる構造要素および文書内でのヒットの分布に基づいて検索結果を生成し得る。
この発明の好ましい実施例の上述の説明は、例示および説明を行なっているが、網羅的なものであること、またはこの発明を開示される正確な形に制限することを意図されない。上述の教示に鑑みて変形および修正が可能であり、またはこの発明の実行から獲得され得る。
たとえば、一連の動作が図7〜9Bに関して説明されているが、動作の順序はこの発明の本質と一致した他の実施例では変更され得る。さらに、非依存の動作は並行して実行さ
れてもよい。
一実現例では、サーバ120は、図7〜9Bの処理に関して説明された動作のすべてではないとしても大半を実行してもよい。この発明の本質と一致する別の実現例では、動作の1つまたは複数、もしくはすべては、別のサーバ330および/または340もしくはクライアント310などの別の実体によって実行されてもよい。
当業者には、上述のように、この発明の局面が図に示される実現例において多くの異なる形のソフトウェア、ファームウェアおよびハードウェアで実現され得ることが明らかであろう。この発明の本質と一致する局面を実現するために使用される実際のソフトウェアコードまたは特化された制御ハードウェアはこの発明の制限ではない。したがって、その局面の動作および挙動は特定のソフトウェアコードに言及することなく説明されており、当業者はここの説明に基づいてその局面を実現するためにソフトウェアを設計し、ハードウェアを制御できることが理解される。
この出願で使用される要素、動作または命令は、そのように明示的に記載されない限り、この発明にとって重大または本質的なものとして理解されるべきではない。ここで使用されるように、冠詞“a”は1つまたは複数の品目を含むことを意図される。1つのみの品目が意図される場合、用語「1つ(“one”)」または同様の言葉が使用される。さらに、「に基づく(“based on”)は、明示的に別段の記載がない限り「に少なくとも部分的に基づく(“based, at least in part, on”)」を意味することを意図される。
文書の例示的な図である。 文書の例示的な構造要素の図である。 この発明の本質と一致するシステムおよび方法が実現され得る例示的な情報検索ネットワークの図である。 この発明の本質と一致する実現例によるクライアントまたはサーバの例示的な図である。 この発明の本質と一致する実現例による図4の検索エンジンの例示的な機能ブロック図である。 検索結果に含めるためにどのように構造要素が識別され得るかを示すために文書内での例示的なヒットの分布を示す図である。 検索結果に含めるためにどのように構造要素が識別され得るかを示すために文書内での例示的なヒットの分布を示す図である。 この発明の本質と一致する実現例による検索結果を表示するための例示的な処理のフローチャートである。 この発明の本質と一致する実現例による検索結果を表示するための例示的な処理のフローチャートである。 この発明の本質と一致する実現例による検索結果を表示するための例示的な処理のフローチャートである。 この発明の本質と一致する実現例による検索結果を表示するための例示的な処理のフローチャートである。 例示的な書籍に対する例示的な検索結果の図である。 例示的な書籍に対する例示的な検索結果の図である。 例示的な書籍に対する例示的な検索結果の図である。 例示的な書籍に対する例示的な検索結果の図である。

Claims (42)

  1. 方法であって、
    検索用語に関係する文書を識別するステップを備え、前記文書は複数の構造要素を含み、前記方法はさらに、
    前記文書において前記検索用語の出現の分布を判断するステップと、
    前記文書において前記検索用語の出現の分布に基づいて前記構造要素のうちの1つを識別するステップと、
    前記識別された構造要素と関連付けられる情報を表示するステップとを備える、方法。
  2. 前記文書を識別するステップは、
    前記検索用語に関係する前記文書を識別するために文書の集成を検索するステップを含む、請求項1に記載の方法。
  3. 前記文書は、書籍、ウェブサイト、新聞、記事または特許のうちの1つを含む、請求項1に記載の方法。
  4. 前記文書において前記検索用語の出現の分布を判断するステップは、
    前記文書の前記構造要素に関して前記検索用語の出現を識別するために前記文書の内容を検索するステップを含む、請求項1に記載の方法。
  5. 前記構造要素のうちの1つを識別するステップは、
    前記検索用語の出現の物理的な近接度に基づいて前記検索用語の出現をクラスタに分類するステップと、
    前記クラスタの各々を含む前記構造要素のうちの最小のものを判断するステップとを含む、請求項4に記載の方法。
  6. 前記構造要素のうちの1つを識別するステップは、
    前記検索用語の出現の物理的な近接度に基づいて前記文書における前記検索用語の出現をクラスタに分類するステップと、
    前記クラスタの各々を含む前記構造要素のうちの最小のものを判断するステップとを含む、請求項1に記載の方法。
  7. 前記情報を表示するステップは、
    前記構造要素のうちの最小のものと関連付けられる情報に基づいて検索結果を生成するステップを含む、請求項6に記載の方法。
  8. 物理的な近接度においてどの程度だけ近接した前記検索用語の2つの出現がクラスタ化されなければならないかを特定するしきい値を提供するステップをさらに備え、
    前記検索用語の出現をクラスタに分類するステップは前記しきい値に基づく、請求項6に記載の方法。
  9. 前記しきい値は前記文書のページの数に比例する、請求項8に記載の方法。
  10. 前記検索用語の出現をクラスタに分類するステップは前記構造要素のうちの1つの中にあるクラスタを前記構造要素のうちの複数のものの中にあるクラスタより優先的に扱う、請求項6に記載の方法。
  11. 前記文書は書籍であり、前記構造要素は、書籍と、書籍の章のセットと、書籍のページのセットとを含む、請求項1に記載の方法。
  12. 前記構造要素は、前記文書と、前記文書の部のセットと、前記文書のページのセットとを含み、
    前記識別された構造要素に関係する前記情報は、前記文書が前記識別された構造要素である場合に前記文書のタイトルのページである、請求項1に記載の方法。
  13. 前記構造要素は、前記文書と、前記文書の部のセットと、前記文書のページのセットとを含み、
    前記識別された構造要素に関係する前記情報は、部が前記識別された構造要素である場合に部の第1ページである、請求項1に記載の方法。
  14. 前記構造要素は、前記文書と、前記文書の部のセットと、前記文書のページのセットとを含み、
    前記識別された構造要素に関係する前記情報は、ページが前記識別された構造要素である場合に前記文書のページである、請求項1に記載の方法。
  15. 前記識別された構造要素と関連付けられる前記情報は、前記検索用語の出現を含む前記文書の部分を含む、請求項1に記載の方法。
  16. 前記識別された構造要素と関連付けられる前記情報は、前記検索用語の出現を含まない前記文書の部分を含む、請求項1に記載の方法。
  17. 前記識別された構造要素と関連付けられる情報を表示するステップは、
    前記識別された構造要素と関連付けられる前記情報内で前記検索用語を視覚的に区別するステップを含む、請求項1に記載の方法。
  18. 前記構造要素は、前記文書と、前記文書の部のセットと、前記文書のページのセットとを含み、
    前記構造要素のうちの1つを識別するステップは、
    前記文書の3つの表示を識別するステップを含み、前記文書の前記ページは葉ノードに対応し、前記文書の前記部はより高いレベルのノードに対応し、前記文書はルートノードに対応し、前記構造要素のうちの1つを識別するステップはさらに、
    前記葉ノードが前記検索用語の出現を含むか否かに基づいて前記葉ノードに点数を割当てるステップと、
    前記葉ノードのうちの関連付けられるものの点数に基づいて前記より高いレベルのノードに対する点数を判断するステップと、
    前記より高いレベルのノードの点数に基づいて前記ルートノードに対する点数を判断するステップとを含む、請求項1に記載の方法。
  19. 前記構造要素のうちの1つを識別するステップは、
    しきい値を設定するステップと、
    前記検索用語の出現を含む前記葉ノードのうちの1つを潜在的な結果として選択するステップと、
    1つのより高いレベルのノードの点数が前記しきい値より大きいときに前記より高いレベルのノードの1つを潜在的な結果として選択するステップと、
    前記ルートノードの点数が前記しきい値より大きいときに前記ルートノードを潜在的な結果として選択するステップとをさらに含む、請求項18に記載の方法。
  20. 前記構造要素のうちの1つを識別するステップは、
    より高いレベルのノードが潜在的な結果として選択されるときにより前記高いレベルの
    ノードと関連付けられる葉ノードの選択を除去するステップと、
    前記ルートノードが潜在的な結果として選択されるときに前記葉ノードおよび前記より高いレベルのノードの選択を除去するステップとをさらに含む、請求項19に記載の方法。
  21. 前記構造要素のうちの1つを識別するステップは、
    前記選択された葉ノード、より高いレベルのノード、またはルートノードを前記識別された構造要素として識別するステップをさらに含む、請求項20に記載の方法。
  22. 前記葉ノードに点数を割当てるステップは、
    前記検索用語の出現を含まない葉ノードに0点を割当てるステップと、
    前記検索用語の出現を含む葉ノードに1点を割当てるステップとを含む、請求項18に記載の方法。
  23. 前記葉ノードに点数を割当てるステップは、
    前記検索用語の出現を含まない葉ノードに0点を割当てるステップと、
    前記検索用語の出現を含む葉ノードに、前記検索用語の出現の重要性の関数である点数を割当てるステップとを含む、請求項18に記載の方法。
  24. システムであって、
    検索用語に関係する文書を獲得するための手段を備え、前記文書は複数の構造要素を含み、前記システムはさらに、
    前記構造要素に関して前記文書において前記検索用語の出現の分布を識別するための手段と、
    前記文書において前記検索用語の出現の分布に基づいて前記検索用語の出現の各々を前記構造要素のうちの1つと関連付けるための手段と、
    前記検索用語の出現のうちの1つと関連付けられる前記構造要素に関係する情報を表示するための手段とを備える、システム。
  25. システムであって、
    文書の集成を記憶するためのメモリを備え、前記文書の少なくとも一部は複数の構造要素を備え、前記システムはさらに、
    プロセッサを備え、前記プロセッサは、
    検索用語を含む検索クエリを受取り、
    前記検索用語に関連の文書を文書の集成で識別し、
    前記構造要素に基づいて前記文書において前記検索用語の出現を判断し、
    前記文書において前記検索用語の出現に基づいて前記構造要素のうちの1つを選択し、
    前記選択された構造要素と関連付けられる情報を前記検索クエリの結果として提供するためのものである、システム。
  26. 方法であって、
    検索用語に関連の文書を識別するステップを備え、前記文書は複数の構造要素を備え、前記方法はさらに、
    前記文書において前記検索用語の出現を判断するステップと、
    前記検索用語の出現の物理的な近接度に基づいて前記検索用語の出現をクラスタに分類するステップと、
    前記クラスタの各々を含む前記構造要素のうちの1つを判断するステップと、
    前記判断された構造要素に関係する情報を提供するステップとを備える、方法。
  27. 物理的な近接度においてどの程度だけ近接した前記検索用語の2つの出現がクラスタ化されなければならないかを特定するしきい値を提供するステップをさらに備え、
    前記検索用語の出現をクラスタに分類するステップは前記しきい値に基づく、請求項26に記載の方法。
  28. 前記しきい値は前記文書のページの数に比例する、請求項27に記載の方法。
  29. 前記検索用語の出現をクラスタに分類するステップは、前記構造要素のうちの1つの中にあるクラスタを前記構造要素のうちの複数のものの中にあるクラスタより優先的に扱う、請求項26に記載の方法。
  30. システムであって、
    検索用語に関連の文書を識別するための手段を備え、前記文書は複数の構造要素を含み、前記システムはさらに、
    前記文書において前記検索用語の出現を識別するための手段と、
    物理的な近接度においてどの程度だけ近接した前記検索用語の2つの出現がクラスタ化されなければならないかを特定するしきい値に基づいて、前記検索用語の出現をクラスタに分類するための手段と、
    前記クラスタの各々を含む前記構造要素のうちの最小のものを判断するための手段と、
    前記最小の構造要素に関係する情報を表示するための手段とを備える、システム。
  31. 方法であって、
    検索用語に関連の文書を識別するステップを備え、前記文書は複数の構造要素を備え、前記構造要素は、前記文書と、前記文書の部のセットと、前記文書のページのセットとを含み、前記方法はさらに、
    前記文書の3つの表示を識別するステップを備え、前記文書の前記ページは葉ノードに対応し、前記文書の前記部はより高いレベルのノードに対応し、前記文書はルートノードに対応し、前記方法はさらに、
    前記葉ノードが前記検索用語の出現を含むか否かに基づいて前記葉ノードに点数を割当てるステップと、
    前記葉ノードのうちの関連付けられるものの点数に基づいて前記より高いレベルのノードに対する点数を判断するステップと、
    前記より高いレベルのノードの点数に基づいて前記ルートノードに対する点数を判断するステップと、
    点数に基づいて、前記葉ノードのうちの1つ、前記より高いレベルのノードのうちの1つ、または前記ルートノードを選択されたノードとして選択するステップと、
    前記選択されたノードに関係する情報を提供するステップとを備える、方法。
  32. しきい値を提供するステップをさらに備え、
    前記葉ノードのうちの1つ、前記より高いレベルのノードのうちの1つ、または前記ルートノードを選択するステップは、
    前記検索用語の出現を含む前記葉ノードのうちの1つを潜在的な結果として選択するステップと、
    1つのより高いレベルのノードの点数が前記しきい値より大きいときに前記より高いレベルのノードのうちの1つを潜在的な結果として選択するステップと、
    前記ルートノードの点数が前記しきい値より大きいときに前記ルートノードを潜在的な結果として選択するステップとを含む、請求項31に記載の方法。
  33. 前記しきい値は、前記しきい値が前記葉ノード、前記より高いレベルのノード、または前記ルートノードと関連付けられるか否かに基づいて設定される、請求項32に記載の方
    法。
  34. 前記しきい値は、前記葉ノードのうちの1つ、前記より高いレベルのノードのうちの1つ、または前記ルートノードと関連付けられるページの数に基づいて設定される、請求項32に記載の方法。
  35. 前記葉ノードのうちの1つ、前記より高いレベルのノードのうちの1つ、または前記ルートノードを選択するステップは、
    より高いレベルのノードが潜在的な結果として選択されるときに、前記より高いレベルのノードと関連付けられる葉ノードの選択を除去するステップと、
    前記ルートノードが潜在的な結果として選択されるときに、前記葉ノードおよび前記より高いレベルのノードの選択を除去するステップとをさらに含む、請求項32に記載の方法。
  36. 前記葉ノードに点数を割当てるステップは、
    前記検索用語の出現を含まない葉ノードに0点を割当てるステップと、
    前記検索用語の出現を含む葉ノードに1点を割当てるステップとを含む、請求項31に記載の方法。
  37. 前記葉ノードに点数を割当てるステップは、
    前記検索用語の出現を含まない葉ノードに0点を割当てるステップと、
    前記検索用語の出現を含む葉ノードに、前記検索用語の出現の重要性の関数である点数を割当てるステップとを含む、請求項31に記載の方法。
  38. 前記選択されたノードに関係する前記情報は、前記文書が前記選択されたノードである場合に前記文書のタイトルのページである、請求項31に記載の方法。
  39. 前記選択されたノードに関係する前記情報は、部が前記選択されたノードである場合に部の第1のページである、請求項31に記載の方法。
  40. 前記選択されたノードに関係する前記情報は、ページが前記選択されたノードである場合に前記文書のページである、請求項31に記載の方法。
  41. システムであって、
    検索用語に関連の文書を識別するための手段と、
    前記文書の3つの表示を識別するための手段とを備え、前記文書のページは葉ノードに対応し、前記文書の部はより高いレベルのノードに対応し、前記文書はルートノードに対応し、前記システムはさらに、
    前記葉ノードが前記検索用語の出現を含むか否かに基づいて前記葉ノードに点数を割当てるための手段と、
    前記葉ノードのうちの関連付けられるものの点数に基づいて前記より高いレベルのノードに対する点数を判断するための手段と、
    前記より高いレベルのノードの点数に基づいて前記ルートノードに対する点数を判断するための手段と、
    しきい値を提供するための手段と、
    前記点数および前記しきい値に基づいて、前記葉ノードのうちの1つ、前記より高いレベルのノードのうちの1つ、または前記ルートノードを選択されたノードとして選択するための手段と、
    前記選択されたノードに関係する情報を提供するための手段とを備える、システム。
  42. コンピュータの実行可能な命令を含むコンピュータ読取可能な媒体であって、
    文書が検索用語に関連すると判断するための命令を備え、前記文書は複数の構造要素を備え、前記コンピュータ読取可能な媒体はさらに、
    前記文書において前記検索用語の出現を判断するための命令と、
    前記検索用語の出現の物理的な近接度に基づいて、前記検索用語の出現をクラスタに分類するための命令と、
    前記クラスタの各々を含む前記構造要素のうちの1つを判断するための命令と、
    少なくとも1つの判断された構造要素に関係する情報を表示するための命令とを備える、コンピュータ読取可能な媒体。
JP2007533473A 2004-09-27 2005-08-19 文書構造に基づいた検索結果の表示 Expired - Fee Related JP4637181B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/949,708 US9031898B2 (en) 2004-09-27 2004-09-27 Presentation of search results based on document structure
PCT/US2005/029691 WO2006036376A1 (en) 2004-09-27 2005-08-19 Presentation of search results based on document structure

Publications (2)

Publication Number Publication Date
JP2008515049A true JP2008515049A (ja) 2008-05-08
JP4637181B2 JP4637181B2 (ja) 2011-02-23

Family

ID=35414787

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007533473A Expired - Fee Related JP4637181B2 (ja) 2004-09-27 2005-08-19 文書構造に基づいた検索結果の表示

Country Status (9)

Country Link
US (1) US9031898B2 (ja)
EP (1) EP1800226A1 (ja)
JP (1) JP4637181B2 (ja)
KR (1) KR100957080B1 (ja)
CN (1) CN101061479B (ja)
AU (1) AU2005290154B2 (ja)
BR (1) BRPI0517356B1 (ja)
CA (1) CA2581713C (ja)
WO (1) WO2006036376A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146209A (ja) * 2006-12-07 2008-06-26 Just Syst Corp 文書検索装置、文書検索方法および文書検索プログラム
JP2009545072A (ja) * 2006-07-26 2009-12-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 階層に編成され、ネットワークを介してリンクされた複数のノードに保管された複製データを更新するための方法およびコンピュータ可読媒体(分散アプリケーションにおいて複製オーバヘッドと整合性レベルを最適にトレードオフするためのシステムおよび装置)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7590657B1 (en) * 2005-06-10 2009-09-15 At&T Corp. System and method for identifying hierarchical heavy hitters in a multidimensional environment
US7475071B1 (en) * 2005-11-12 2009-01-06 Google Inc. Performing a parallel nearest-neighbor matching operation using a parallel hybrid spill tree
US7660804B2 (en) * 2006-08-16 2010-02-09 Microsoft Corporation Joint optimization of wrapper generation and template detection
JP4801555B2 (ja) * 2006-09-29 2011-10-26 株式会社ジャストシステム 文書処理装置、文書処理方法および文書処理プログラム
US9239835B1 (en) * 2007-04-24 2016-01-19 Wal-Mart Stores, Inc. Providing information to modules
US20080270382A1 (en) * 2007-04-24 2008-10-30 Interse A/S System and Method of Personalizing Information Object Searches
JP2009129013A (ja) * 2007-11-20 2009-06-11 Just Syst Corp 文書検索方法、文書検索装置および文書検索プログラム
JP2009129280A (ja) * 2007-11-26 2009-06-11 Just Syst Corp 文書検索方法、文書検索装置および文書検索プログラム
US20100287177A1 (en) * 2009-05-06 2010-11-11 Foundationip, Llc Method, System, and Apparatus for Searching an Electronic Document Collection
US20100287148A1 (en) * 2009-05-08 2010-11-11 Cpa Global Patent Research Limited Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection
WO2011007935A1 (ko) 2009-07-15 2011-01-20 주식회사 네오패드 홈페이지 통합 서비스 제공 시스템 및 방법
US8364679B2 (en) * 2009-09-17 2013-01-29 Cpa Global Patent Research Limited Method, system, and apparatus for delivering query results from an electronic document collection
US20110082839A1 (en) * 2009-10-02 2011-04-07 Foundationip, Llc Generating intellectual property intelligence using a patent search engine
US20110119250A1 (en) * 2009-11-16 2011-05-19 Cpa Global Patent Research Limited Forward Progress Search Platform
CN102279856B (zh) * 2010-06-09 2013-10-02 阿里巴巴集团控股有限公司 一种网站导航实现方法及系统
US20130204867A1 (en) * 2010-07-30 2013-08-08 Hewlett-Packard Development Company, Lp. Selection of Main Content in Web Pages
CN102143142A (zh) * 2010-09-30 2011-08-03 华为软件技术有限公司 Ip多媒体子系统业务中订阅处理方法和资源列表服务器
CN103218719B (zh) 2012-01-19 2016-12-07 阿里巴巴集团控股有限公司 一种电子商务网站导航方法及系统
CA2878238C (en) * 2013-01-11 2015-07-07 La Presse, Ltee Device, method and system for displaying digital editions
WO2014146265A1 (en) * 2013-03-20 2014-09-25 Nokia Corporation Method and apparatus for personalized resource recommendations
CN105005562B (zh) * 2014-04-15 2018-09-21 索意互动(北京)信息技术有限公司 检索结果的显示处理方法及装置
US9858251B2 (en) 2014-08-14 2018-01-02 Rakuten Kobo Inc. Automatically generating customized annotation document from query search results and user interface thereof
US20160239161A1 (en) * 2015-02-12 2016-08-18 Kobo Incorporated Method and system for term-occurrence-based navigation of apportioned e-book content
TW201832105A (zh) * 2017-02-17 2018-09-01 雲拓科技有限公司 專利檢索之檢索關鍵字建議方法
US20190130027A1 (en) 2017-11-02 2019-05-02 International Business Machines Corporation Data classification

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030241A (ja) * 2001-06-29 2003-01-31 Internatl Business Mach Corp <Ibm> キーワード検索方法、キーワード検索端末、コンピュータプログラム
WO2003098466A1 (en) * 2002-05-14 2003-11-27 Verity, Inc. Apparatus and method for region sensitive dynamically configurable document relevance ranking
JP2004157628A (ja) * 2002-11-05 2004-06-03 Mitsubishi Electric Corp 文書検索方法及びその装置及びそのプログラム

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2048039A1 (en) * 1991-07-19 1993-01-20 Steven Derose Data processing system and method for generating a representation for and random access rendering of electronic documents
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
US5694594A (en) * 1994-11-14 1997-12-02 Chang; Daniel System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms
JP3598742B2 (ja) 1996-11-25 2004-12-08 富士ゼロックス株式会社 文書検索装置及び文書検索方法
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6167397A (en) * 1997-09-23 2000-12-26 At&T Corporation Method of clustering electronic documents in response to a search query
US6363378B1 (en) * 1998-10-13 2002-03-26 Oracle Corporation Ranking of query feedback terms in an information retrieval system
WO2000046701A1 (en) * 1999-02-08 2000-08-10 Huntsman Ici Chemicals Llc Method for retrieving semantically distant analogies
US6718363B1 (en) * 1999-07-30 2004-04-06 Verizon Laboratories, Inc. Page aggregation for web sites
US20030050927A1 (en) * 2001-09-07 2003-03-13 Araha, Inc. System and method for location, understanding and assimilation of digital documents through abstract indicia
US6819339B1 (en) * 2000-02-24 2004-11-16 Eric Morgan Dowling Web browser with multilevel functions
US6678692B1 (en) * 2000-07-10 2004-01-13 Northrop Grumman Corporation Hierarchy statistical analysis system and method
JP2002108710A (ja) * 2000-07-24 2002-04-12 Sony Corp 情報処理システム、情報処理方法、および情報処理装置、並びにプログラム提供媒体
US6678679B1 (en) 2000-10-10 2004-01-13 Science Applications International Corporation Method and system for facilitating the refinement of data queries
US20070226640A1 (en) * 2000-11-15 2007-09-27 Holbrook David M Apparatus and methods for organizing and/or presenting data
CA2358048A1 (en) * 2001-09-25 2003-03-25 Luis Rueda A cryptosystem for data security
US20030115191A1 (en) * 2001-12-17 2003-06-19 Max Copperman Efficient and cost-effective content provider for customer relationship management (CRM) or other applications
DE60332315D1 (de) * 2002-01-16 2010-06-10 Elucidon Group Ltd Abruf von informationsdaten, wobei daten in bedingungen, dokumenten und dokument-corpora organisiert sind
US7085771B2 (en) * 2002-05-17 2006-08-01 Verity, Inc System and method for automatically discovering a hierarchy of concepts from a corpus of documents
US7127469B2 (en) * 2002-06-13 2006-10-24 Mark Logic Corporation XML database mixed structural-textual classification system
EP2562663A3 (en) * 2002-06-13 2016-05-11 MarkLogic Corporation. Parent-child query indexing for XML databases
US7383258B2 (en) * 2002-10-03 2008-06-03 Google, Inc. Method and apparatus for characterizing documents based on clusters of related words
US7320000B2 (en) * 2002-12-04 2008-01-15 International Business Machines Corporation Method and apparatus for populating a predefined concept hierarchy or other hierarchical set of classified data items by minimizing system entrophy
US20040133560A1 (en) * 2003-01-07 2004-07-08 Simske Steven J. Methods and systems for organizing electronic documents
US7512615B2 (en) * 2003-11-07 2009-03-31 International Business Machines Corporation Single pass workload directed clustering of XML documents
US7523109B2 (en) * 2003-12-24 2009-04-21 Microsoft Corporation Dynamic grouping of content including captive data
US7165216B2 (en) * 2004-01-14 2007-01-16 Xerox Corporation Systems and methods for converting legacy and proprietary documents into extended mark-up language format
US20050177555A1 (en) * 2004-02-11 2005-08-11 Alpert Sherman R. System and method for providing information on a set of search returned documents
WO2006012487A1 (en) * 2004-07-22 2006-02-02 Genometric Systems Llc Method and apparatus for informational processing based on creation of term-proximity graphs and their embeddings into informational units

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030241A (ja) * 2001-06-29 2003-01-31 Internatl Business Mach Corp <Ibm> キーワード検索方法、キーワード検索端末、コンピュータプログラム
WO2003098466A1 (en) * 2002-05-14 2003-11-27 Verity, Inc. Apparatus and method for region sensitive dynamically configurable document relevance ranking
JP2004157628A (ja) * 2002-11-05 2004-06-03 Mitsubishi Electric Corp 文書検索方法及びその装置及びそのプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009545072A (ja) * 2006-07-26 2009-12-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 階層に編成され、ネットワークを介してリンクされた複数のノードに保管された複製データを更新するための方法およびコンピュータ可読媒体(分散アプリケーションにおいて複製オーバヘッドと整合性レベルを最適にトレードオフするためのシステムおよび装置)
JP2008146209A (ja) * 2006-12-07 2008-06-26 Just Syst Corp 文書検索装置、文書検索方法および文書検索プログラム

Also Published As

Publication number Publication date
CN101061479A (zh) 2007-10-24
JP4637181B2 (ja) 2011-02-23
CA2581713A1 (en) 2006-04-06
KR100957080B1 (ko) 2010-05-13
EP1800226A1 (en) 2007-06-27
CA2581713C (en) 2015-12-29
AU2005290154A1 (en) 2006-04-06
BRPI0517356B1 (pt) 2019-09-24
WO2006036376A1 (en) 2006-04-06
AU2005290154B2 (en) 2010-09-09
BRPI0517356A (pt) 2008-10-07
CN101061479B (zh) 2011-06-15
US9031898B2 (en) 2015-05-12
US20060074907A1 (en) 2006-04-06
KR20070058685A (ko) 2007-06-08

Similar Documents

Publication Publication Date Title
JP4637181B2 (ja) 文書構造に基づいた検索結果の表示
US10528650B2 (en) User interface for presentation of a document
US11314824B2 (en) System and method for block segmenting, identifying and indexing visual elements, and searching documents
US9342583B2 (en) Book content item search
US7676745B2 (en) Document segmentation based on visual gaps
US9262527B2 (en) Optimized ontology based internet search systems and methods
JP4837040B2 (ja) ブログ文書のランク付け
US8316032B1 (en) Book content item search
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
US20150161179A1 (en) Automatic determination of whether a document includes an image gallery
JP2009086903A (ja) 検索サービス装置
JP2004078446A (ja) キーワード抽出装置、抽出方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091215

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100315

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101102

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131203

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4637181

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees