JP2001297103A - インターネット検索のコンテンツから情報を要約して表示する方法及びシステム - Google Patents

インターネット検索のコンテンツから情報を要約して表示する方法及びシステム

Info

Publication number
JP2001297103A
JP2001297103A JP2001054099A JP2001054099A JP2001297103A JP 2001297103 A JP2001297103 A JP 2001297103A JP 2001054099 A JP2001054099 A JP 2001054099A JP 2001054099 A JP2001054099 A JP 2001054099A JP 2001297103 A JP2001297103 A JP 2001297103A
Authority
JP
Japan
Prior art keywords
uniform resource
resource locators
layout
search
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001054099A
Other languages
English (en)
Inventor
Edward E Brindle
イー.ブリンドル エドワード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=22680462&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2001297103(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2001297103A publication Critical patent/JP2001297103A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【課題】 本発明は、インターネット検索のコンテンツ
から情報を要約して表示する方法及びシステムを提供す
る。 【解決手段】 インターネット検索が実施されると
(S50)、検索結果32が表示装置21上に表示され
る(S52)。検索サーバ15は、検索結果32のコン
テンツのURLを識別し(S54)、URLを抽出順序
に優先順位付けし(S56)、URLを抽出し(S5
8)、URLのコンテンツを取り出し、アクセスし(S
60)、要約し(S62)、ページ記述言語へ変換し
(S64)、表示用のページ記述言語要約のレイアウト
を作成する(S68)。全てのURLが処理されたこと
が判断された場合、表示のために作成されたPDL要約
のレイアウトを出力する(S72)。

Description

【発明の詳細な説明】
【発明の属する技術分野】本出願は、2000年2月2
8日に出願された米国仮特許出願第60/185,31
2号の優先権を主張し、その内容は本明細書中に参照と
して組み込まれるものとする。
【0001】本発明は、電子ドキュメントの記憶と管理
に関し、特に、テキスト・データベースからのコンピュ
ータ利用テキストまたは情報についてのシステム及び方
法に関する。詳細には、本発明は、インターネット検索
エンジン/エージェントにより提供されるURLセット
を取得し、容易に読み取りと理解が可能なフォーマット
でURLに関連するウェブ・サイトの要約を表示するこ
とに関する。
【0002】
【従来の技術】現在では、稀少商品から過剰商品への遷
移を情報は経験する。稀少商品の場合、その商品を取得
することに主に努力が払われ、過剰商品の場合、価値を
上げるためにその商品を取り除くことに主に努力が払わ
れている。この現象の主な例は、「インターネット」と
して知られるネットワークの世界的相互ネットワークの
発展から生じる情報の急拡大である。インターネットへ
接続されるネットワークとコンピュータは、発信元端末
から送信先端末へデータ・パケットを確実に送るため
に、TCP/IP(送信制御プロトコル/インターネッ
ト・プロトコル)を使用してデータを送る。デジタル・
データのオブジェクトを送信するために、TCP/IP
に加えて種々の高レベルのプロトコルが使用され、その
特定のプロトコルは、オブジェクトの特性に左右され
る。例えば電子メイルは、SimpleMail Tr
ansport(SMTP)を使用して送信され、一
方、ファイルはFile Transfer Prot
ocol(FTP)を使用して送信される。
【0003】ハイパーテキスト・ドキュメント及びそれ
らの関連データは、Hypertext Transp
ort Protocol(HTTP)を使用して送信
される。多くのハイパーテキスト・ドキュメントが他の
ハイパーテキスト・ドキュメントにリンクされる場合、
それらは集合的に「ウェブ」構造を形成する。「ウェ
ブ」構造は、HTTPを使用して送信できるハイパーテ
キスト・ドキュメントを収集するための同一の「ワール
ド・ワイド・ウェブ」(「WWW」または「ウェブ」と
短縮されることが多い)を導いた。勿論、ハイパーリン
クは、それ用のドキュメントにおいて、HTTPを使用
して送信される必要はない。事実、任意のオブジェクト
は、それらがHTTPの要求事項に合致する限り、HT
TPを使用して送信できる。
【0004】HTTPの一般的な用途においてブラウザ
は、ユニフォーム・リソース・ロケータ(URL)をウ
ェブ・サーバへ送り、ウェブ・サーバが、ブラウザ用の
Hypertext Markup Language
(HTML)ドキュメントをディスプレイへ戻す。ブラ
ウザは、HTTPクライアントの一例であり、戻された
ハイパーテキストを表示し、戻されたドキュメントで参
照される他のドキュメントを選択かつ表示する機会をユ
ーザが有することができるので、ブラウザと名付けられ
る。ウェブ・サーバは、HTTPクライアントにより要
求されるハイパーテキスト・ドキュメントを戻すインタ
ーネット端末である。
【0005】一部のウェブ・サーバは、スタティック・
ドキュメントを取り扱うことに加えて、ダイナミック・
ドキュメントを戻すことができる。スタティック・ドキ
ュメントは、ドキュメントについての要求がなされる前
にウェブ・サーバ上に存在するドキュメントであり、そ
のためにウェブ・サーバは、要求があればスタティック
・ドキュメントを送出する。スタティック・ページUR
Lは、一般的に、「host.subdomain.d
omain.TLD/path/file」などの形式
である。そのスタティック・ページURLは、ドメイン
名host.subdomain.domain.TL
Dを有するマシン上のパス上に見出される「file」
という名称のドキュメントを示す。実際のドメイン「w
ww.xerox.com」は、「.com」トップレ
ベル・ドメイン(TLD)内のドメイン「xerox」
におけるマシン(または複数のマシン)指定「www」
を示す。反対にダイナミック・ドキュメントは、ウェブ
・サーバがダイナミック・ドキュメント用の要求として
識別する特定のURLをそのサーバが受信するときにそ
のサーバにより作成されるドキュメントである。
【0006】多くのウェブ・サーバは、一個人またはエ
ンティティにより制御されるリンクされたハイパーテキ
スト・ドキュメントの集合を提供する「ウェブ・サイ
ト」を作動する。ウェブ・サイトが一個人またはエンテ
ィティにより制御されるので、このコンテクストにおい
て「ウェブ・ページ」と呼ばれることが多いハイパーテ
キスト・ドキュメントは、一貫したルックスとコンテン
ツとを有する。特に、商品またはサービスを商業目的で
販売することにより設定されるウェブ・サイトの場合、
ウェブ・サイトを形成するハイパーリンクされるドキュ
メントは、興味を有する者により制御されないページへ
のリンクは、例えあったとしても、僅かであろう。用語
「ウェブ・サイト」及び「ウェブ・ページ」は、互換可
能に使用されることが多いが、ここでは「ウェブ・ペー
ジ」は、ウェブ・サイトの一部を形成する単一のハイパ
ーテキスト・ドキュメントを示し、また「ウェブ・サイ
ト」は、特定のトピック上のサイトを提示するように協
力して作業する会社のグループまたは単一の会社により
制御される(すなわち変更可能である)一枚以上のウェ
ブ・ページの集合を示す。
【0007】ウェブ・サーバを通して多数のユーザが使
用可能な多くのサイトとページの全てにおいて、特定の
ページを見出すか、または特定のトピックについての情
報を何処で見出すかを判断することが難しいことが多
い。入手可能なものの「公式」のリストはない。何故な
らば、誰でもウェブ・サーバ上に何でも入力でき、それ
を公的機関へ報告する必要はないし、また、ウェブは急
速に変化するからである。公式な「目次」がないため、
ウェブをインデックスする幾つかの方法が提案されてい
る。
【0008】1つの方法は、何処かに見出されるウェブ
・ドキュメントの全てをインデックスすることである。
この方法は、稀にしか検討されないトピックについての
ドキュメント、または通常ではない名と姓を有する者の
照合を見出すためには有用であるが、過大な数の「適
合」を導くことが多い。他の方法は、ウェブ・ドキュメ
ントを分類し、それらを分類別に検索可能にすることで
ある。
【0009】
【発明が解決しようとする課題】インターネットから情
報を収集するためにインターネット検索エンジンを使用
することにより、インターネット上の多量の情報を減少
させる(絞る)ことができるが、検索エンジンは、依然
として非常に多くのインターネット・サイト(URL)
を返し、検索する者がそのサイトを退屈しながら「訪
問」して、該当する情報を抽出し、次に、さらに検索を
行う決定をしなければならない。頻繁に、人は、検索規
準にはない興味ある「別のリンク」を見出し、直接には
該当しない他のサイトを訪問して時間を費やす。これに
より、無駄な時間と長い情報収集時間が生じる。したが
って、情報抽出のための別の方法を提供することによ
り、インターネット検索エンジンの使用を拡大して、全
体の情報収集時間を減少する必要がある。
【0010】
【課題を解決するための手段】インターネット検索エン
ジンにより提供されるユニフォーム・リソース・ロケー
タの収集物から情報を作成し表示する装置は、インター
ネット検索エンジンにより提供されるユニフォーム・リ
ソース・ロケータを抽出する手段と、ユニフォーム・リ
ソース・ロケータを取り出す手段であって、各々のユニ
フォーム・リソース・ロケータが対応付けされるHTM
Lアイテムを有する手段と、HTMLアイテムを要約に
集約する手段と、個別の要約をリポジトリに記憶する手
段と、所要の要約を1つのドキュメントで表示する手段
と、を有する。
【0011】インターネット検索エンジンにより提供さ
れるユニフォーム・リソース・ロケータの収集物から情
報を作成し表示する方法は、インターネット検索エンジ
ンにより提供されるユニフォーム・リソース・ロケータ
を抽出するステップと、ユニフォーム・リソース・ロケ
ータを取り出すステップであって、各々のユニフォーム
・リソース・ロケータが対応付けされるHTMLアイテ
ムを有するステップと、HTMLアイテムを要約に集約
するステップと、個別の要約をリポジトリに記憶するス
テップと、要約を1つのドキュメントで表示するステッ
プと、を有する。
【0012】他の実施例に従うインターネット検索のコ
ンテンツからの情報を要約し表示する方法は数ステップ
を含む。1つ以上のユニフォーム・リソース・ロケータ
は、インターネット検索のコンテンツから抽出される。
抽出されたユニフォーム・リソース・ロケータの各々が
取り出される。抽出されたユニフォーム・リソース・ロ
ケータの各々に関連する1つ以上のHTMLアイテムが
アクセスされる。ユニフォーム・リソース・ロケータ各
々についてアクセスされたHTMLアイテムの要約が作
成される。少なくとも2つ以上の要約のレイアウトが作
成され、次に、インターネット検索のコンテンツについ
ての要約のレイアウトが出力される。詳細には、インタ
ーネット検索のコンテンツから情報を要約して表示する
方法であって、前記インターネット検索のコンテンツか
ら1つ以上のユニフォーム・リソース・ロケータを抽出
するステップと、取り出される前記ユニフォーム・リソ
ース・ロケータの各々に関連する1つ以上のHTMLア
イテムにアクセスするために、抽出された該ユニフォー
ム・リソース・ロケータの各々を取り出すステップと、
前記ユニフォーム・リソース・ロケータの各々について
アクセスされた前記HTMLアイテムの要約を作成する
ステップと、少なくとも2つ以上の前記要約のレイアウ
トを作成するステップと、前記インターネット検索のコ
ンテンツについて前記要約のレイアウトを出力するステ
ップと、を有する方法が提供される。
【0013】他の実施例に従うインターネット検索のコ
ンテンツからの情報を要約し表示するシステムは、抽出
処理システム、取り出し処理システム、アクセス処理シ
ステム、要約処理システム、レイアウト処理システム、
及び表示処理システムを備える。抽出処理システムは、
インターネット検索のコンテンツから1つ以上のユニフ
ォーム・リソース・ロケータを抽出する。取り出し処理
システムは、抽出されたユニフォーム・リソース・ロケ
ータの各々を取り出して、取り出されたユニフォーム・
リソース・ロケータの各々に関連する1つ以上のHTM
Lアイテムにアクセスする。要約処理システムは、ユニ
フォーム・リソース・ロケータ各々についてアクセスさ
れたHTMLアイテムの要約を作成する。レイアウト処
理システムは2つ以上の要約のレイアウトを作成する。
表示処理システムは、インターネット検索のコンテンツ
の要約のレイアウトを作成する。詳細には、インターネ
ット検索のコンテンツから情報を要約して表示するシス
テムであって、前記インターネット検索のコンテンツか
ら1つ以上のユニフォーム・リソース・ロケータを抽出
する抽出処理システムと、取り出される前記ユニフォー
ム・リソース・ロケータの各々に関連する1つ以上のH
TMLアイテムにアクセスするために、抽出された該ユ
ニフォーム・リソース・ロケータの各々を取り出す取り
出しシステムと、前記ユニフォーム・リソース・ロケー
タの各々についてアクセスされた前記HTMLアイテム
の要約を作成する要約処理システムと、少なくとも2つ
以上の前記要約のレイアウトを作成するレイアウト処理
システムと、前記インターネット検索のコンテンツにつ
いて前記要約のレイアウトを出力する表示処理システム
と、を有するシステムが提供される。
【0014】
【発明の実施の形態】本発明は、インターネット検索エ
ージェント/エンジンによる検索からユーザへ返される
情報またはコンテンツ(URLの形式であることが多
い)を取得すること、及びその情報を、通常のネットワ
ーク・プリント・インターフェース(例えばTCP/I
Pのlprまたはftp、Novell Nprin
t、Apple PAP)の手段により、通常のコンピ
ュータまたはプリンタへ送信されるように、サーバまた
は他の適切な計算デバイスへ送信することに関する。次
に、サーバは、情報から各々のURLを抽出し、各々の
URLを取り出して、取り出された各々のURLのHT
MLアイテムにアクセスする。URLについて取り出さ
れたコンテンツまたは情報(HTML−hyperte
xt markuplanguage)は記憶されて、
次に、コンテンツを管理可能な形式に要約または変換す
るソフトウェア・エージェントへ送信される。次に、そ
の要約は他のソフトウェア・エージェントへ送信され
る。次に、そのエージェントは、印刷できるか、また
は、ユーザへ電子的に返されるか、もしくは紙に印刷さ
れる出力を生成するので、ユーザは、どのURLがさら
に検査を必要とするかを迅速に判断できる。
【0015】図1を参照すると、ここに参照として組み
込まれる米国特許第5,991,756号に開示される
検索エンジンのような従来技術の検索エンジン14を有
するクライアント・サーバ・システム10の概略図が示
される。システム10は、インターネット16を経て検
索サーバ(エンジン)14へ接続されるHTTPクライ
アント12を備えることが示されている。検索サーバ1
4は、ドキュメント・リポジトリ20とワード・インデ
ックス22とへ接続され、また検索要求30に対して検
索結果32で応答する。
【0016】操作に際して、ブラウザまたは他のHTT
Pクライアント・システム12において、ユーザは検索
表現式を含む要求30を検索サーバ14へ送信する。検
索サーバ14は検索表現式を構文解析し、検索表現式が
有効なフォーマットであるならば、ユーザは検索表現式
を使用してドキュメント・リポジトリ20内で検索表現
式と合致するドキュメントを見出す。検索サーバ14
は、合致するドキュメントのリストで、またはドキュメ
ント自体で応答する。ワード・インデックス22は、ド
キュメント・リポジトリ20内でドキュメントの検索を
促進するために使用される。
【0017】図2を参照すると、一実施例に従う改良さ
れた検索エンジン(サーバ)15を有するクライアント
・サーバ・システム11の概略図が図示される。システ
ム11のこの実施例は、インターネット16を経て検索
サーバ15へ機能的に接続されるHTTPクライアント
処理システム17を備える。この実施例における検索サ
ーバ15も、ドキュメント・リポジトリ20とワード・
インデックス22へ機能的に接続され、また検索要求3
0に対して検索結果32で応答する。この特定の実施例
においてクライアント処理システム17、検索サーバ1
5、及び/またはシステム11内の他の構成装置間の通
信がインターネットを経て達成されるが、本発明はこれ
に限定されず、他の通信システム及び/または方法を使
用でき、それらには、各々が自身の対応する通信プロト
コルを有する、構成装置間のダイレクト接続、構内通信
網(LAN)、広域網(WAN)、モデムと電話回線、
及び/または無線通信技術が含まれる。ここでは、クラ
イアント・サーバ・システム11の一構成が示される
が、本発明はこれに限定されず他の構成が可能であり、
かつ、考えられる。
【0018】この特定の実施例において検索サーバ15
は、少なくとも1つのプロセッサ、少なくとも1つの記
憶装置、及びバス・システムまたは他のリンクにより互
いに接続される少なくとも1つの入力/出力ユーザ・イ
ンターフェースを備えるが、本発明はこれに限定され
ず、他の構成装置、他の数の構成装置、及び構成装置の
他の組合せから構成することもできる。検索サーバ15
におけるプロセッサは、ここで説明され、かつ、図3に
記載される本発明の一実施例に従ってインターネット検
索のコンテンツから情報を要約して表示する記憶された
命令のプログラムを実行する。サーバ15内のプロセッ
サへ接続される磁気システム、光学システム、または他
の読み取り及び/または書き込みシステムにより、それ
らから読み取り及び/またはそれらへ書き込みができる
サーバ15内のランダム・アクセス記憶装置(RAM)
または読み取り専用記憶装置(ROM)、またはフロッ
ピー(登録商標)・ディスク、ハード・ディスク、CD
−ROM,または他のコンピュータ読み取り可能媒体の
ような種々の形式の記憶装置を、ここに説明されるプロ
グラムされた命令、及び他の情報を記憶するために使用
できる。入力/出力ユーザ・インターフェースは、検索
サーバ15とクライアント処理システム17、ドキュメ
ント・リポジトリ20、及びワード・インデックス22
を機能的に接続し、かつそれらの間で通信するために使
用される。この特定の実施例において、その方法が、検
索サーバ15内のプロセッサによる実行のために、検索
サーバ15の記憶装置内にプログラムされた命令として
記憶されるが、本発明はこれに限定されず、プログラム
された命令の一部または全ては、他の場所で記憶及び/
または実行できるであろう。一例だけをあげると、本発
明に従う方法についてのプログラム可能な命令の少なく
とも一部は、検索サーバ15へ機能的に接続される他の
サーバ内の記憶装置に記憶されかつプロセッサにより実
行できるであろうし、またはクライアント処理システム
17内の記憶装置に記憶されかつプロセッサにより実行
できるであろう。
【0019】クライアント処理システム17は、少なく
とも1つのプロセッサ、少なくとも1つの記憶装置、少
なくとも1つの入力/出力ユーザ・インターフェース、
少なくとも1つの表示装置21、及び少なくとも1つの
ユーザ入力装置19を備え、それらの装置がバス・シス
テムまたは他のリンクにより互いに接続されるが、処理
システム17は、他の構成装置、他の数の構成装置、及
び構成装置の他の組合せから構成することもできる。シ
ステム17内のプロセッサへ接続される磁気システム、
光学システム、または他の読み取り及び/または書き込
みシステムにより、それらから読み取り及び/またはそ
れらへ書き込みができるシステム17内のランダム・ア
クセス記憶装置(RAM)または読取り専用記憶装置
(ROM)、またはフロッピー・ディスク、ハード・デ
ィスク、CD−ROM,または他のコンピュータ読み取
り可能媒体のような種々の形式の記憶装置を、ここに説
明されるプログラムされた命令、及び他の情報を記憶す
るために使用できる。入力/出力ユーザ・インターフェ
ースは、クライアント処理システム17と検索サーバ1
5との間を機能的に接続し、かつそれらの間で通信する
ために使用される。表示装置21は、受信された電子情
報からのインターネット検索のコンテンツの要約のレイ
アウトのようなオペレータ用情報を表示する。モニタ、
プリンタ、または情報をクライアント処理システム17
のユーザへ送信できる他の型式のデバイスのような種々
の型式の表示装置を使用できる。ユーザ入力装置19に
より、オペレータは、検索要求30のような検索サーバ
15への信号または命令を、作成して送信できる。キー
ボード、コンピュータ・マウス、若しくは、ユーザまた
はオペレータ用の手段を提供する他のユーザ入力装置の
ような種々の型式のユーザ入力装置を使用できる。
【0020】図3を参照すると、本発明を要約及び表示
する方法の一実施例を示すフローチャートが図示され
る。ステップ50においてクライアント処理システムの
ユーザまたはオペレータは、インターネット検索を実施
する。検索を実施するために、オペレータはユーザ入力
装置で検索エンジン用のURLを入力する。クライアン
ト処理システム17は、検索エンジン用のURLを検索
サーバ15へ送信し、サーバは要求された検索エンジン
を引き出す。
【0021】次に、オペレータは、表示装置上で、検索
要求30を引き出された検索エンジンに入力するように
促される。オペレータは、ユーザ入力装置を使用して、
検索エンジン用検索要求30の検索表現式またはパラメ
ータを入力する。検索要求は検索サーバ15へ送信さ
れ、検索エンジンが検索要求30を使用して検索を実施
する。
【0022】次に、この特定の例においては、URL及
び他の検索情報である検索要求30に応答する検索結果
32が引き出される。検索された検索結果32は、検索
サーバ15からクライアント処理システム17へ戻るよ
うに送信され、検索結果32が、ステップ52におい
て、オペレータ用の表示装置21上に表示される。残念
ながら、この表示フォーマットにおいて、検索結果32
は、容易に読み取り、または、理解可能なフォーマット
の状態ではない。
【0023】インターネット検索の一例が上述された
が、Yahoo(商標)またはAskOnce(商標)
(Xerox(商標)による)のような検索エンジンに
よる問い合わせに応答するウェブ・サイトのコンパイル
及びリスティングを、本発明により利用できる。加えて
任意のウェブ・ブラウザまたはクライアント処理システ
ム17及び任意のインターネット検索エンジン/エージ
ェントを、インターネット検索を実施するために使用で
きる。
【0024】図3を参照すると、ステップ54において
検索サーバ15は、検索結果32のコンテンツのURL
を識別する。次に、ステップ56において、検索サーバ
15は識別されたURLを抽出順序に優先順位付けす
る。この優先順位付けは、検索サーバ15により使用さ
れるインターネット検索エンジン/エージェントの一般
的な機能であるが、本発明はこれに限定されず、他のパ
ラメータも、その特定の用途により要求されるか、また
はそれにとって望ましいときに、URLを優先順位付け
するために使用できる。
【0025】URLが優先順位付けされると、ステップ
58において、検索サーバ15はURLを抽出する。一
般的には、検索サーバ15は、先ず最も高い優先順位の
URLを抽出するが、URLを抽出するために任意の順
序も使用できる。
【0026】次に、ステップ60において、検索サーバ
15は抽出されたURLのコンテンツを取り出し、それ
にアクセスする。一般的には取り出されアクセスされた
コンテンツは、HTMLのドキュメントまたはアイテム
である。
【0027】次に、ステップ62において、検索サーバ
15は取り出されアクセスされたコンテンツを要約す
る。この特定の実施例において検索サーバ15は、取り
出されアクセスされたコンテンツのテキスト要約を作成
し、次に、その要約は、ステップ64において、Ado
be PostScript(商標)または他のPDL
のようなページ記述言語へ変換されて、ページ記述言語
要約を作成するが、他の要約手順も使用できる。一例と
して検索サーバ15は、Xerox(商標)製品により
生成されるInXsight(商標)Software
Summarizerを使用するか、またはここに参
照として組み込まれる米国特許第5,918,240号
に開示される、コンテンツのテキスト要約を達成するた
め要約する方法とシステムを使用することがある。検索
サーバ15は、取り出されアクセスされたコンテンツを
英語ASCIIテキストで10行未満に要約する、な
ど、特定の用途に必要な、または、望まれるレイアウト
用に作成されるどのようなフォーマットに対してもコン
テンツを要約するように構成できる。
【0028】次に、ステップ66において、取り出され
アクセスされたコンテンツについてのページ記述言語要
約は、検索サーバ15の記憶装置に記憶されるが、要約
を記憶するために他の記憶装置またはリポジトリも使用
できる。この特定の実施例において、各々の要約は、検
索サーバ15により実行されるXerox(商標)Di
giFlow(商標)Automated Filfi
llment(DFAF)ソフトウェア・アプリケーシ
ョンの手段により、DFAFドキュメント・リポジトリ
に記録されるが、本発明はこれに限定されず、他の記憶
装置及び手順も使用できる。DFAFソフトウェア・ア
プリケーションは、市販のソフトウェア製品である。
【0029】ステップ68において、表示用のページ記
述言語要約のレイアウトが、検索サーバ15により作成
される。この特定の実施例において、検索サーバ15は
Xerox(商標)DigiFlow(商標)Auto
mated Filfillmentのようなソフトウ
ェア・アプリケーションを使用して、表示用レイアウト
を作成する。このレイアウトは、取り出されたURL各
々からアクセスされたコンテンツについて作成され、検
索サーバ15の記憶装置に記憶される。この特定の実施
例においてレイアウトは、検索サーバ15のリポジトリ
に記憶されるが、本発明はこれに限定されず、他の場所
にも記憶できる。要約の種々のレイアウトを使用しても
よい。
【0030】次に、ステップ70において、検索サーバ
15により識別されたURLの全てが取り出されたかど
うかについての判断がなされる。現在のURLが取り出
される最後のURLでないならば、分岐Noを通ってス
テップ70からステップ60へ戻り、次のURLが優先
順位付けに基づいて取り出され、ステップ60、62、
64、66、68及び70が上述のように繰り返され
る。
【0031】現在のURLが、取り出される最後のUR
Lであるならば、分岐Yesを通り、ステップ70から
ステップ72へ進む。全てのURLが取り出され、かつ
その関連するコンテンツがアクセスされ、要約され、か
つレイアウトされると、検索サーバ15は、ステップ7
2において、表示のために作成されたPDL要約のレイ
アウトを出力する。
【0032】次に、ステップ74において、検索サーバ
15で出力フォーマットの選択がなされる。クライアン
ト処理システム17におけるオペレータは、キーボード
の手段により所要の出力フォーマットを入力し、次に、
その要求を検索サーバ15へ送信できる。
【0033】ステップ74において、作成されたレイア
ウト用のハードコピー・フォーマットが選択されるなら
ば、ステップ76において、検索サーバ15は要約のレ
イアウトをプリンタへ送信し、プリンタがレイアウトの
ハードコピー・ドキュメントをプリントアウトする。ス
テップ78において、要約のハードコピー・ドキュメン
トは、オペレータへ郵送されるか、または引渡される。
【0034】ステップ74において、生成されたレイア
ウト用の電子ドキュメント・フォーマットが選択される
ならば、ステップ80において、検索サーバ15は、A
dobe(商標)ドキュメント、またはPalm(商
標)を利用した電子ドキュメントのような電子ドキュメ
ントを該当するフォーマットで作成し、次に、その電子
ドキュメントを、電子メイル、WAP可能携帯電話また
はテキスト・ページャのような手段により、クライアン
ト処理システム17へ送信する。次に、作成されたレイ
アウト用の電子ドキュメントが開かれると、オペレータ
用の表示装置21上に電子ドキュメントが表示される。
【0035】一例だけをあげると、インターネット検索
からの作成されたURLの要約のレイアウト82が、図
4に示される。このレイアウト82に要約されるURL
は、そのレイアウトの上部に列挙される。この例に図示
されるように作成されたレイアウトは、オペレータにと
って、インターネット検索結果の読み取りと理解の容易
なフォーマットを提供する。その結果、オペレータは、
種々の要約を通して迅速に解読し、特定対象のウェブ・
サイトを識別して、検索処理が効果的にされる。
【0036】本発明の基本的着想を説明してきたが、上
述の詳細な開示は、一例だけをあげて示そうとしている
ものであり、本発明はこれに限定されるものではないこ
とは、技術に有能な者にとってむしろ明らかである。種
々の変形態様、改良態様及び変更態様は、ここでは明示
的に記載されないが、技術に有能な者にとって考えら
れ、かつ意図される。これらの変形態様、改良態様及び
変更態様は、これにより示唆されようとするものであ
り、また本発明の精神と範囲内のものである。したがっ
て本発明は上述の請求範囲及びそれに同等なものだけに
より限定される。
【図面の簡単な説明】
【図1】従来技術の検索エンジン(サーバ)を有するク
ライアント・サーバ・システムの概略図である。
【図2】本発明の一実施例の検索エンジン(サーバ)を
有するクライアント・サーバ・システムの概略図であ
る。
【図3】本発明の他の実施例を示すフロー・チャートで
ある。
【図4】エージェント/検索エンジンにより作成される
一般的なリストのテキスト要約の一例である。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 インターネット検索のコンテンツから情
    報を要約して表示する方法であって、 前記インターネット検索のコンテンツから1つ以上のユ
    ニフォーム・リソース・ロケータを抽出するステップ
    と、 取り出される前記ユニフォーム・リソース・ロケータの
    各々に関連する1つ以上のHTMLアイテムにアクセス
    するために、抽出された該ユニフォーム・リソース・ロ
    ケータの各々を取り出すステップと、 前記ユニフォーム・リソース・ロケータの各々について
    アクセスされた前記HTMLアイテムの要約を作成する
    ステップと、 少なくとも2つ以上の前記要約のレイアウトを作成する
    ステップと、 前記インターネット検索のコンテンツについて前記要約
    のレイアウトを出力するステップと、 を有する方法。
  2. 【請求項2】 前記要約を作成するステップは、 前記ユニフォーム・リソース・ロケータの各々について
    アクセスされた前記HTMLアイテムのテキスト要約を
    作成するステップと、 前記テキスト要約の各々をページ記述言語要約へ変換す
    るステップであって、該ページ記述言語要約は作成され
    た前記レイアウト内にあるステップと、 をさらに有する請求項1に記載の方法。
  3. 【請求項3】 前記取り出すステッブの前に、抽出され
    た前記ユニフォーム・リソース・ロケータを優先順位付
    けするステップと、 前記優先順位付けに基づいて取り出し順序を決定するス
    テップと、 をさらに有する請求項1に記載の方法。
  4. 【請求項4】 前記インターネット検索のコンテンツか
    ら抽出された前記ユニフォーム・リソース・ロケータの
    全てが取り出されるまで、レイアウトの出力を遅延する
    ステップをさらに有する請求項1に記載の方法。
  5. 【請求項5】 インターネット検索のコンテンツから情
    報を要約して表示するシステムであって、 前記インターネット検索のコンテンツから1つ以上のユ
    ニフォーム・リソース・ロケータを抽出する抽出処理シ
    ステムと、 取り出される前記ユニフォーム・リソース・ロケータの
    各々に関連する1つ以上のHTMLアイテムにアクセス
    するために、抽出された該ユニフォーム・リソース・ロ
    ケータの各々を取り出す取り出しシステムと、 前記ユニフォーム・リソース・ロケータの各々について
    アクセスされた前記HTMLアイテムの要約を作成する
    要約処理システムと、 少なくとも2つ以上の前記要約のレイアウトを作成する
    レイアウト処理システムと、 前記インターネット検索のコンテンツについて前記要約
    のレイアウトを出力する表示処理システムと、 を有するシステム。
  6. 【請求項6】 前記要約処理システムは、 前記ユニフォーム・リソース・ロケータの各々について
    アクセスされた前記HTMLアイテムのテキスト要約を
    作成するテキスト処理システムと、 前記テキスト要約の各々をページ記述言語要約へ変換す
    る変換処理システムであって、該ページ記述言語要約は
    作成された前記レイアウト内にあるシステムと、 をさらに有する請求項5に記載のシステム。
  7. 【請求項7】 抽出された前記ユニフォーム・リソース
    ・ロケータを取り出す前に優先順位付けする優先順位付
    けシステムと、 前記優先順位付けに基づいて取り出し順序を決定する順
    序決定システムと、 をさらに有する請求項5に記載のシステム。
  8. 【請求項8】 前記インターネット検索のコンテンツか
    ら抽出された前記ユニフォーム・リソース・ロケータの
    全てが取り出されるまで、前記レイアウトの出力を遅延
    する遅延処理システムをさらに有する請求項5に記載の
    システム。
JP2001054099A 2000-02-28 2001-02-28 インターネット検索のコンテンツから情報を要約して表示する方法及びシステム Pending JP2001297103A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US18531200P 2000-02-28 2000-02-28
US09/793,235 US7114124B2 (en) 2000-02-28 2001-02-26 Method and system for information retrieval from query evaluations of very large full-text databases
US185312 2001-02-26
US793235 2001-02-26

Publications (1)

Publication Number Publication Date
JP2001297103A true JP2001297103A (ja) 2001-10-26

Family

ID=22680462

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001054099A Pending JP2001297103A (ja) 2000-02-28 2001-02-28 インターネット検索のコンテンツから情報を要約して表示する方法及びシステム

Country Status (3)

Country Link
US (1) US7114124B2 (ja)
EP (1) EP1128290A3 (ja)
JP (1) JP2001297103A (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7190976B2 (en) 2000-10-02 2007-03-13 Microsoft Corporation Customizing the display of a mobile computing device
US20020124056A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Method and apparatus for modifying a web page
WO2002095641A1 (fr) * 2001-05-18 2002-11-28 Nikon Corporation Procede d'enregistrement de client de magasin electronique
WO2002095597A1 (en) * 2001-05-18 2002-11-28 Nikon Corporation Method for providing bulletin board for placing an image and method for providing electronic album service
WO2002095640A1 (fr) * 2001-05-18 2002-11-28 Nikon Corporation Procede de fourniture de magasin virtuel, procede de recherche de sites, et procede de fourniture tableau d'affichage
US20040236598A1 (en) * 2003-03-21 2004-11-25 Thomsen David J. System and method for providing occupational information
GB2418276A (en) * 2003-08-13 2006-03-22 Whereonearth Ltd Determining a likely geographical location
EP1522931A1 (de) * 2003-10-07 2005-04-13 Cogisum Intermedia AG Verfahren und System zum Suchen und Recherchieren von einem Suchbegriff betreffenden Dokumenten innerhalb eines Datenraums
JP2005128955A (ja) * 2003-10-27 2005-05-19 Canon Inc 情報処理方法および記憶媒体、プログラム
US7752210B2 (en) * 2003-11-13 2010-07-06 Yahoo! Inc. Method of determining geographical location from IP address information
US7707265B2 (en) * 2004-05-15 2010-04-27 International Business Machines Corporation System, method, and service for interactively presenting a summary of a web site
US7581175B1 (en) * 2005-05-10 2009-08-25 Adobe Systems, Incorporated File format conversion of an interactive element in a graphical user interface
US7657859B2 (en) * 2005-12-08 2010-02-02 International Business Machines Corporation Method for IC wiring yield optimization, including wire widening during and after routing
US20100057695A1 (en) * 2008-08-28 2010-03-04 Microsoft Corporation Post-processing search results on a client computer

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000039981A (ja) * 1998-07-22 2000-02-08 Canon Inc 情報処理装置および情報処理方法

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5214755A (en) * 1989-04-25 1993-05-25 Microsoft Corporation Document processing method and system
US5504891A (en) * 1991-10-17 1996-04-02 Ricoh Company, Ltd. Method and apparatus for format conversion of a hierarchically structured page description language document
US6522770B1 (en) * 1999-05-19 2003-02-18 Digimarc Corporation Management of documents and other objects using optical devices
US5848413A (en) * 1995-01-13 1998-12-08 Ricoh Company, Ltd. Method and apparatus for accessing and publishing electronic documents
US5659732A (en) * 1995-05-17 1997-08-19 Infoseek Corporation Document retrieval over networks wherein ranking and relevance scores are computed at the client for multiple database documents
US5963205A (en) * 1995-05-26 1999-10-05 Iconovex Corporation Automatic index creation for a word processor
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5867164A (en) * 1995-09-29 1999-02-02 Apple Computer, Inc. Interactive document summarization
US6366933B1 (en) * 1995-10-27 2002-04-02 At&T Corp. Method and apparatus for tracking and viewing changes on the web
JP3211648B2 (ja) * 1995-12-07 2001-09-25 富士ゼロックス株式会社 描画プログラム生成装置および描画プログラム生成方法
US6650998B1 (en) * 1996-03-11 2003-11-18 At&T Corp. Information Search System for enabling a user of a user terminal to search a data source
JPH09259028A (ja) * 1996-03-19 1997-10-03 Toshiba Corp 情報呈示方法
US5913215A (en) * 1996-04-09 1999-06-15 Seymour I. Rubinstein Browse by prompted keyword phrases with an improved method for obtaining an initial document set
US5826031A (en) * 1996-06-10 1998-10-20 Sun Microsystems, Inc. Method and system for prioritized downloading of embedded web objects
US6078914A (en) 1996-12-09 2000-06-20 Open Text Corporation Natural language meta-search system and method
JPH10198539A (ja) * 1997-01-08 1998-07-31 Fuji Xerox Co Ltd 画像形成装置および画像形成方法
US6415319B1 (en) * 1997-02-07 2002-07-02 Sun Microsystems, Inc. Intelligent network browser using incremental conceptual indexer
US6012053A (en) * 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
US6301586B1 (en) * 1997-10-06 2001-10-09 Canon Kabushiki Kaisha System for managing multimedia objects
US6533822B2 (en) 1998-01-30 2003-03-18 Xerox Corporation Creating summaries along with indicators, and automatically positioned tabs
US6065012A (en) * 1998-02-27 2000-05-16 Microsoft Corporation System and method for displaying and manipulating user-relevant data
US6182085B1 (en) * 1998-05-28 2001-01-30 International Business Machines Corporation Collaborative team crawling:Large scale information gathering over the internet
US6424980B1 (en) 1998-06-10 2002-07-23 Nippon Telegraph And Telephone Corporation Integrated retrieval scheme for retrieving semi-structured documents
JP3812927B2 (ja) * 1998-08-25 2006-08-23 パイオニア株式会社 情報検索システム
US6271840B1 (en) * 1998-09-24 2001-08-07 James Lee Finseth Graphical search engine visual index
US6020970A (en) * 1998-10-27 2000-02-01 First Data Corporation AFP to PostScript conversion method
US6487555B1 (en) * 1999-05-07 2002-11-26 Alta Vista Company Method and apparatus for finding mirrored hosts by analyzing connectivity and IP addresses
US6405175B1 (en) * 1999-07-27 2002-06-11 David Way Ng Shopping scouts web site for rewarding customer referrals on product and price information with rewards scaled by the number of shoppers using the information
US6591289B1 (en) * 1999-07-27 2003-07-08 The Standard Register Company Method of delivering formatted documents over a communications network
US6397218B1 (en) * 1999-08-04 2002-05-28 International Business Machines Corporation Network interactive search engine server and method
JP4306045B2 (ja) * 1999-09-29 2009-07-29 ブラザー工業株式会社 インターネット通信システム
US6675350B1 (en) * 1999-11-04 2004-01-06 International Business Machines Corporation System for collecting and displaying summary information from disparate sources
US6480837B1 (en) * 1999-12-16 2002-11-12 International Business Machines Corporation Method, system, and program for ordering search results using a popularity weighting
US6625594B1 (en) * 2000-01-18 2003-09-23 With1Click, Inc. System and method for searching a global communication system using a sub-root domain name agent
WO2001063919A1 (en) * 2000-02-23 2001-08-30 Penta Trading Ltd. Systems and methods for generating and providing previews of electronic files such as web files
US6643641B1 (en) * 2000-04-27 2003-11-04 Russell Snyder Web search engine with graphic snapshots
US6611835B1 (en) * 2000-05-04 2003-08-26 International Business Machines Corporation System and method for maintaining up-to-date link information in the metadata repository of a search engine
US6938083B1 (en) * 2000-07-21 2005-08-30 Unisys Corporation Method of providing duplicate original file copies of a searched topic from multiple file types derived from the web
AU2000278962A1 (en) * 2000-10-19 2002-04-29 Copernic.Com Text extraction method for html pages
US6940491B2 (en) * 2000-10-27 2005-09-06 International Business Machines Corporation Method and system for generating hyperlinked physical copies of hyperlinked electronic documents
US20020087326A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented web page summarization method and system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000039981A (ja) * 1998-07-22 2000-02-08 Canon Inc 情報処理装置および情報処理方法

Also Published As

Publication number Publication date
EP1128290A2 (en) 2001-08-29
EP1128290A3 (en) 2002-10-09
US7114124B2 (en) 2006-09-26
US20010047374A1 (en) 2001-11-29

Similar Documents

Publication Publication Date Title
US7949660B2 (en) Method and apparatus for searching and resource discovery in a distributed enterprise system
US7200677B1 (en) Web address converter for dynamic web pages
US7809710B2 (en) System and method for extracting content for submission to a search engine
US5983351A (en) Web site copyright registration system and method
US7290061B2 (en) System and method for internet content collaboration
US8171010B2 (en) Method and system for indexing information and providing results for a search including objects having predetermined attributes
US20040030780A1 (en) Automatic search responsive to an invalid request
US20100125781A1 (en) Page generation by keyword
JPH11232192A (ja) 電子メッセージをアーカイブし、アクセスするためのデータ処理システム及び方法
JP2001297103A (ja) インターネット検索のコンテンツから情報を要約して表示する方法及びシステム
US20030018669A1 (en) System and method for associating a destination document to a source document during a save process
JP2006099341A (ja) 更新履歴生成装置及びプログラム
US7836108B1 (en) Clustering by previous representative
CA2391002C (en) Retrieval of digital objects by redirection of controlled vocabulary searches
WO2000077681A1 (en) Method for displaying search result data from internet search engines in three dimensional form
EP2435902A1 (en) Retrieval system, retrieval space map server apparatus and program
JP4027568B2 (ja) インターネット上の複数の検索エンジンを使ってクリッピングサービスを行う情報処理装置
US7085801B1 (en) Method and apparatus for printing web pages
JP3664906B2 (ja) 情報源観測装置および情報源観測方法ならびに情報源観測処理を実行させるプログラムを記録した記録媒体
EP1101173A1 (en) Information access
JP2001306597A (ja) ホームページ生成・統合検索サイトシステム、ホームページ自動生成システム、ホームページ統合検索サイトシステム、ホームページ生成・統合検索方法、ホームページ自動生成方法、ホームページ統合検索サイト生成方法、プログラム記録媒体
JPH11265402A (ja) データ処理システム及びデータ処理システムを制御するプログラムを記録した記録媒体
JP2001084169A (ja) 文書データベースアクセス装置
JP2003203032A (ja) ウェブサーバ仲介装置、方法および対話型ウェブサーバ仲介ポータルサーバ
JP2007026457A (ja) 閲覧頻度データ提供方法、そのための中継装置、プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100921

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130313