JP3877957B2 - 情報の集約整理支援システム - Google Patents

情報の集約整理支援システム Download PDF

Info

Publication number
JP3877957B2
JP3877957B2 JP2000365373A JP2000365373A JP3877957B2 JP 3877957 B2 JP3877957 B2 JP 3877957B2 JP 2000365373 A JP2000365373 A JP 2000365373A JP 2000365373 A JP2000365373 A JP 2000365373A JP 3877957 B2 JP3877957 B2 JP 3877957B2
Authority
JP
Japan
Prior art keywords
information
data
layout form
original data
aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000365373A
Other languages
English (en)
Other versions
JP2002169836A (ja
Inventor
亮之 藤野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2000365373A priority Critical patent/JP3877957B2/ja
Publication of JP2002169836A publication Critical patent/JP2002169836A/ja
Application granted granted Critical
Publication of JP3877957B2 publication Critical patent/JP3877957B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、データベースやWWW上にある情報からユーザが望む特定の情報を抜粋して取得することで情報の整理を支援する情報の集約整理支援システムに関する。
【0002】
【従来の技術】
近年、インターネットの発達により、インターネットのWWW(World Wide Web)上から様々な情報やサービスを入手できるようになっている。しかし、WWW上に存在する情報は、その量が膨大であり、また情報の形式や編集スタイルも様々であるため、ユーザが必要とする情報を抜粋して効率的に取得し整理することは容易ではない。
【0003】
そこで、WWW上の情報をユーザの望む条件に沿って効率的に取得する技術が提案されている。特開平11−203100号公報には、WWW上のHTML(Hyper Text Markup Language)文書を取得し、その中にある画像データなどの不要情報をHTMLタグから判断して除去し、文書のレイアウトは保持したまま不要情報の部分を空白にして出力する技術が開示されている。また、特開平11−134341号公報には、同じくWWW上のHTML文書を取得し、その中からあらかじめ設定したキーワードを検索し、検索結果とHTMLタグを利用して、キーワードを含むひとまとまりの文字列を抜粋して表示する技術が開示されている。
【0004】
【発明が解決しようとする課題】
前記従来の情報取得技術では、元情報の記述言語であるHTMLを手掛かりにして必要な情報を抽出しているため、抽出対象となるHTML文書にユーザの望む情報が記載されていない場合には、そのHTML文書に埋め込まれたリンクをたどって新たなHTML文書を探さなければならなかった。このことから、ユーザが望む情報の一覧性が著しく低下してしまうという不便があった。
【0005】
また、特開平11−203100号公報に開示された技術では、ユーザの望む情報がどのHTMLタグの範囲に記載されているか判断できないため、必要な情報を取りこぼしてしまう可能性があった。また、例えば画像など、必要のない情報を空白のまま表示するために、表示段階でのレイアウト上の効率が悪かった。
【0006】
また、特開平11−134341号公報に開示された技術では、キーワードの検索のみによってユーザの望む情報の有無を判断しているため、必要な情報の取りこぼしや不要な情報の取り込みを避けられなかった。また、表示段階でのレイアウトが統一されていないため、取得した情報を比較検討するのにはなはだ不便であった。
【0007】
かかる事情から、ユーザの望む情報を精度良く取得し、これをユーザの望むレイアウトで見やすく表示することが求められている。具体的には、ユーザの望む情報が複数箇所の元情報に分散している場合に、それらの中から必要な情報を抽出し、同じレイアウトフォームに編集して表示することにより、比較検討を容易にする、といった要望である。
【0008】
すなわち本発明は、ユーザが望む情報のレイアウトフォームをユーザ自身が作成し、そのレイアウトフォームに沿って情報を精度良く集約して表示することにより、集約された情報の一覧性を高めるとともに集約情報の比較をしやすくできるような情報の集約整理支援システムを提供することを解決課題とするものである。
【0009】
【課題を解決するための手段】
前記課題を解決するため、本発明の情報の集約整理支援システムは、ユーザが求める情報を集約して表示するためのレイアウトフォームを決定するとともに、階層構造をなす文書形式で記述された元データから前記レイアウトフォーム内の項目に対応するデータを抽出するためのキーとなるタグを保存するレイアウトフォーム作成手段と、ユーザが指定した元情報の範囲内から前記タグを含む複数セットの元データを取得する情報取得手段と、前記複数セットの元データから前記タグに対応するデータを抽出して集約データを生成し、さらに、前記元データの階層構造を手掛かりに、抽出された複数組の集約データの対応関係を判別して集約データ同士を結合する情報集約手段と、前記情報集約手段により生成された集約データを前記レイアウトフォームに合わせて出力する集約情報出力手段と、を備えることを特徴とする。この構成によれば、大量の情報の中からユーザが求める情報を効率的に、かつ精度良く抽出し、それをユーザの好みのレイアウトフォーム上に集約して表示することができるので、情報の整理や閲覧、比較分析などが容易になる。さらに、前記情報集約手段は、情報取得手段によって取得された複数セットの元データから、タグに対応するデータを抽出して集約データを生成し、それらを結合しうるように構成されているので、ユーザの求める情報の断片がさまざまな場所に分散して存在する場合でも、それらをひとつのレイアウトフォームに集約することで、情報の活用性を格段に向上させることができる。
【0010】
そして、前記レイアウトフォーム作成手段において、キーとなるタグにXMLタグを使用することにより、ユーザが求める情報を、単なるデータの形式ではなく、個々の意味を踏まえて的確に抽出することができる。
【0011】
さらに、前記レイアウトフォーム作成手段において、XMLタグとレイアウトフォーム内の項目とを関連付けるにあたり、XML文書からXMLタグの付与された箇所をドラッグ・アンド・ドロップ操作により入力できるように構成することもできる。この構成によれば、ユーザがXMLタグについての詳しい知識を持たない場合でも、容易に本発明を利用することができる。
【0012】
また、本発明における前記情報取得手段は、レイアウトフォームに対応する元データを、ユーザがURLにより指定したWWW上のウェブページから取得するように構成されたことを特徴とする。この構成によれば、多種多様で大量の情報を有しているWWW上から、ユーザの求める情報を幅広く取得することができるので、取得される情報の質や量が充実する。
【0013】
前記情報取得手段は、レイアウトフォームに対応する元データをユーザが指定したWWW上のウェブページから抽出できない場合に、前記ウェブページからリンクをたどって他のウェブページを探索することにより、必要な元データを補充するように構成されてもよい。この構成よれば、あらかじめユーザが指定した情報だけでなく、その情報と関連ある他の情報も自動的に探索される。したがって、ユーザが全ての情報がある場所を把握していない場合でも、断片的な情報を手掛かりにして広範囲に情報を取得することができる。
【0014】
また、本発明における前記情報集約手段は、情報取得手段によって取得された元データから、共通のレイアウトフォームで複数セットの集約データを生成するように構成することができる。この構成によれば、取得された大量の情報が共通のレイアウトフォームに集約整理されるので、情報の比較検討が容易になり、情報の見落としも防止される。
【0016】
さらに、本発明の情報の集約整理支援システムは、前記情報集約手段においてレイアウトフォーム内の全項目に対応するデータを元データから抽出できなかった場合に、データの抽出ができなかった項目のタグを変更または追加して、元データの再取得ができるように構成することができる。この構成によれば、ユーザが求めるデータを十分に抽出できなかった場合でも、他のタグをキーにして再度、必要な元データの取得をやり直すことができるので、情報の取りこぼしを減らし、求める情報を確実に取得することができる。
【0017】
また、本発明の情報の集約整理支援システムは、前記情報集約手段においてレイアウトフォーム内の全項目に対応するデータを元データから抽出できなかった場合に、元データを取得する対象となる元情報の指定範囲を変更または追加して、元データの再取得ができるように構成することができる。この構成によれば、元データの情報量が不十分であった場合にこれを再取得して補充することができるので、情報の取りこぼしを減らし、求める情報を確実に取得することができる。
【0018】
また、本発明における前記集約情報出力手段は、情報集約手段において抽出したデータがどの元データから抽出されたものであるかを示す抽出元情報を表示するように構成されたことを特徴とする。この構成によれば、集約整理された情報から、ユーザが更なる関連情報を入手することが容易になる。
【0019】
また、前記集約情報出力手段は、共通のレイアウトフォームで生成された複数セットの集約データを一覧表形式で表示するように構成されたことを特徴とする。この構成によれば、共通のレイアウトフォームで集約された情報の視認性がさらに向上し、情報の比較検討が容易になる。
【0020】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照しつつ説明する。
【0021】
<システム構成>
図1は、本発明の情報の集約整理支援システムのシステム構成を示している。パーソナルコンピュータ10(以下、「PC」と記す。)内には、本発明の動作に必要なデバイスの制御や管理を行うデータ処理部20、データ処理部20が必要とするデータを保存する記憶部30、データ処理部20をWWWに接続するためのネットワークインターフェース(I/F)40が設けられている。データ処理部20は、PC10のメモリ上に格納されているプログラムの集まりで、レイアウトフォーム作成部21と、元データ取得部22と、取捨選択部23とを有する。記憶部30は、PC10のメモリ上に領域を確保されている保存用の空間で、ウェブデータ記憶部31と、XMLデータ記憶部32と、フォームデータ記憶部33と、集約データ記憶部34とを有する。また、データ処理部20には、ユーザからの各種入力を受け付けるための入力制御部51及び入力装置52、ならびに各種処理結果をユーザに通知するための出力制御部61および出力装置62が接続されている。
【0022】
<情報の集約整理処理全体の流れ>
図2は、本発明による情報の集約整理処理全体の流れを示す。本発明による情報の集約整理処理は、ステップS10(以下、各ステップを「S10」のように略記する。)のレイアウトフォーム作成処理、S20の元データ取得処理、S30の集約データ生成処理、S40の出力処理、の順で行われる。以下、これらの各処理について順に詳述する。
【0023】
<レイアウトフォーム作成処理>
S10のレイアウトフォーム作成処理では、ユーザがどのような内容の情報を取得し、それをどのような形態に集約して表示するのかをあらかじめ指定するためのレイアウトフォームを作成する。このレイアウトフォーム作成処理は、図1に示したデータ処理部20の中のレイアウトフォーム作成部21にて行われる。図3に、このレイアウトフォーム作成処理の流れを示し、図4に、具体的なレイアウトフォーム70の作成例を示す。
【0024】
レイアウトフォーム70を作成するためには、まずS11でキャプション入力を行い、情報の集約項目となるキャプション部71を作成する。続いて、S12の入力スペース作成で、取得した情報を集約して表示するためのデータ入力部72を作成する。続いて、S13の入力スペースの関連付けで、前記データ入力部72に取得した情報を表示させるのに必要な設定情報を入力する。S14の追加入力では、S11からS13までの作業を、ユーザが必要とするキャプション部71およびデータ入力部72の数だけ繰り返して行う。
【0025】
図4の例に沿って説明すると、レイアウトフォーム70は、情報を集約すべき項目となる複数のキャプション部71と、各キャプション部71に対応して設けられるデータ入力部72とから構成される。ユーザは、レイアウトフォーム70のページ上に自由にキャプション部71およびデータ入力部72を配置できるが、これらは必ず対になるように配置する。この例では、キャプション部71として、「製品名」、「型番」、「性能」、「価格」、「オプション」が入力され、それぞれに対応するデータ入力部72が矩形のスペースとして各キャプション部71の右横に確保されている。
【0026】
データ入力部72には、取得された情報(元データ)の中から各キャプション部71に対応する個々のデータが抽出されて表示される。この抽出は、個々の情報が保有する意味内容に基づいて行われる必要があり、そのための設定情報を入力するのが入力スペースの関連付けである。本発明では、個々の情報を意味的に抽出する鍵としてXMLタグを利用する。以下、XMLタグを利用した入力スペースの関連付けについて説明する。
【0027】
図5は、取得される元データの一例として、ある製品のスペック表(a)および価格表(b)の表示形態を示した図で、図6は、図5(a)に示したスペック表の論理構造の一部をXML形式の文書で表現したものである。図6に示すように、XML文書は、開始タグと終了タグとが対になったXMLタグにより、明確な階層構造をなすように記述されている。そこで、あらかじめデータ入力部72に必要とするデータのXMLタグを指定しておき、指定されたXMLタグを元データから検索することで、必要なデータをデータ入力部72に抽出することができる。
【0028】
ただし、あらかじめ必要な情報に係るXMLタグを指定するには、元データの中で使用されているXMLタグの種類や階層構造がすべて判明している必要がある。しかし、XML文書ではその作成者がXMLタグを自由に定義できるので、本発明のユーザがそのXMLタグの定義をすべて確認し適切に指定するのは容易ではない。そこで、本発明では、XMLタグの入力を支援する方法として、XML文書からデータ入力部72に関連付けしたい文字列を選択し、ドラッグ・アンド・ドロップ操作で入力する方法を採用する。この入力方法について、図7を参照しつつ説明する。
【0029】
ユーザは、まず所望の情報を保有している元データのサンプルをXML文書で用意する。そして、まずS131で、データ入力部72に抽出したいデータが記載されたXML文書中の関連部分を選択する。図4に示したレイアウトフォーム70および図5(a)〜図6に示したスペック表を例にとると、レイアウトフォーム70の「型番」というキャプション部71に対応するデータ入力部72に、図5(a)のスペック表から「型番」の意味を持つ文字列を取り込みたい場合は、例えば型番のひとつを示す「8244」という文字列を選択する。そして、S132で、この選択された文字列の前後を囲むXMLタグの抽出を行う。この例では、図6に示したXML文書から、「8244」という文字列が<型番>・</型番>というXMLタグによって指定されており、このXMLタグがデータ入力部72に入力される。このXMLタグを抽出する処理は、図5(a)のスペック表の上ではユーザには見えないが、<型番>・</型番>というXMLタグがどういう意味を持っているかをユーザが知る必要はない。XMLタグが抽出できた場合は、S133にてXMLタグの保存を行い、抽出できなかった場合は、S134で再入力指示を行う。この手順で、すべてのデータ入力部72にXMLタグを入力する。
【0030】
こうして、各キャプション部71とそれに対応する各データ入力部72、および各データ入力部72に対応して意味的に関連付けされた各XMLタグが、それぞれ入力される。このデータは、図8に示すような構造のフォームデータとして、図1に示した記憶部30のフォームデータ記憶部33に保存される。また、抽出された各XMLタグは、記憶部30のXMLデータ記憶部32にも保存される。
【0031】
<元データ取得処理>
S10のレイアウトフォーム作成処理によって所望のレイアウトフォーム70が準備できると、続いて、S20の元データ取得処理を行う。元データ取得処理とは、ユーザが作成したレイアウトフォーム70を埋めるのに必要な情報を、ユーザが指定したデータセット(情報を取得する対象となる元データの集合)あるいはWWW上のウェブページから取得する処理であり、レイアウトフォーム70上の全てのデータ入力部72を埋めるのに必要な元データを取得することを最終目的とする。この元データ取得処理は、図1に示したデータ処理部20の中の元データ取得部22にて行われる。この元データ取得処理の流れを図9に示す。まず、S21で、元データ取得部22は前記レイアウトフォーム作成処理で作成されたフォームデータをフォームデータ記憶部33から取得する。次に、S22で、レイアウトフォーム70を埋めるのに必要な元データを取得する。さらに、このレイアウトフォーム70に対し複数のデータセットを与える場合は、S23で元データの追加入力を行う。
【0032】
S22の元データ取得処理の流れについて、図10を参照しつつ詳述する。まず、ユーザはS221でデータセットを指定し、そのファイル名やURLを入力する。すると、元データ取得部22はS222で、指定されたデータセット内にフォームデータで指定されたXMLタグがすべてあるかどうかを検索する。データセット内にすべてのXMLタグが見つかった場合は、S223で、そのデータセットを保存する。XMLタグが見つからなかった場合は、S224で、このデータセット内に他文書へのリンクがあるかどうかを調べる。リンクがない場合は、S223で、ここまでのデータセットを保存する。リンクがある場合は、S225で、まずリンク探索の上限であるかを判断する。リンク探索の上限の決定は、特開2000−90111に開示された技術を利用する。探索上限にかかっていれば探索を終了し、S223で、ここまでのデータセットを保存する。探索可能であれば、S226で、リンクをたどって他の元データを取得し、S222で、新たに取得した元データ内に必要なXMLタグがあるかどうかの判断を繰り返す。このような手順で、できるかぎりレイアウトフォーム70内のすべてのデータ入力部72を埋めるのに必要な元データを取得する。
【0033】
<集約データ生成処理>
S20の元データ取得処理によって必要な元データが取得されると、続いて、S30の集約データ生成処理を行う。この集約データ生成処理は、S10で作成されたレイアウトフォーム70の各データ入力部72に、S20で取得した元データの中からそれぞれ対応するデータを抽出して入力する処理である。この集約データ生成処理は、図1に示したデータ処理部20の中の取捨選択部23にて行われる。この集約データ生成処理の流れを図11に示す。まず、S31で、レイアウトフォーム70の各データ入力部72に関連付けられたXMLタグを取得し、このXMLタグによって元データを検索する。図4に示したレイアウトフォーム70および図5(a)〜図6に示したスペック表を例にとると、レイアウトフォーム70上の「製品名」に対応するデータ入力部72には、XML文書中の<シリーズ>・</シリーズ>というXMLタグが対応し、これらのXMLタグで検索することにより、「MN−360」という文字列が抽出される。これをデータ入力部72の数だけ繰り返し、各XMLタグに対応するデータを元データから順次抽出して、集約データを生成する。
【0034】
このとき、元データの内容によっては、複数の集約データを生成する場合がある。前記の例では、元データ中に複数個の型番とそれに対応する各スペックが記載されているので、ユーザとしては図12に示すように、複数枚のレイアウトフォーム70に型番別にスペックを集約したいとする。ここで、各型番と各スペックとが互いに対応したデータとして抽出できるかどうかということが問題になる。これについて、図6に示したXML文書を例にとり説明する。
【0035】
図6のXML文書を、<型番>というXMLタグ(以下、終了タグは省略する。)および<スペック>というXMLタグで検索すると、<型番>というXMLタグでは「8244」、「8128」、「4322」…という文字列が得られ、<スペック>というXMLタグでは「○○○○」、「□□□□」、「△△△△」…という文字列が得られる。このままでは、どの型番とどのスペックが対応しているのかわからない。しかし、XML文書は明快な階層構造を有するという特長があり、慣例として同種のデータや意味的に関連するデータは同じXMLタグで括られ、同一階層にまとめられる。この原則によれば、<機種>というXMLタグで括られた同じ階層にある<型番>と<スペック>とが互いに対応するものであると判別できる。このように、XMLタグの階層構造を手掛かりにすれば、型番「8244」とスペック「○○○○」、型番「8128」とスペック「□□□□」…のように、互いに対応するデータを同一のレイアウトフォーム70に集約することができる。
【0036】
なお、XML文書における階層構造やタグ定義については、業界で標準化を図る動きもある。その標準化が進めば、レイアウトフォーム作成処理においても、XML文書の基本的な階層構造を記憶し、あらかじめ上位階層のXMLタグをサンプルとなる元データから取得しておくなどして、より汎用性の高い情報の集約整理が可能になる。
【0037】
また、データを抽出するための元データが複数にわたっている場合も、前記と同様に、抽出したデータ間の対応関係を判別する必要がある。この場合は、異なる元データから抽出した集約データを対比し、集約データの一部が一致するもの同士を合成することにより、ひとまとまりの集約データとして結合することができる。図5(a)のスペック表と同(b)の価格表の例では、スペック表から[型番「8244」・スペック「○○○○」]という集約データを抽出し、価格表から[型番「8244」・価格「XXX」]という集約データを抽出した後、型番「8244」というデータをキーにして二つの集約データを結合する。これにより、[型番「8244」・スペック「○○○○」・価格「XXX」]という集約データを生成することができる。このように複数組の集約データを結合するためには、レイアウトフォーム作成処理において、ユーザの注目している項目をあらかじめキー項目として指定しておく必要がある。このキー項目を適切に設定することにより、ユーザが求める情報をより有用な形態で集約することができる。
【0038】
次に、図11の中でS32で示した空欄処理について説明する。空欄処理は、元データから必要なデータの抽出ができず、レイアウトフォーム70上のデータ入力部72のいずれかに空欄が残ったとき、その空欄を埋めるかどうかをユーザの追加入力によって判断し、必要がある場合は再度、データの抽出を行う処理である。
【0039】
レイアウトフォーム70上にデータの抽出ができなかったデータ入力部72がある場合、そのデータ入力部72は、一旦、空欄で表示されユーザに通知される。このときユーザは、データ処理部20に対し、以下の2種類の命令を行うことができる。
【0040】
第一は、抽出条件を変更しての再抽出である。これは、空欄となったデータ入力部72について、データ抽出の際の検索キーとなるXMLタグを変更または追加入力して抽出条件を変更し、同じ元データを再度、検索することにより、最初に取りこぼしたデータを抽出し直す処理である。
【0041】
第二は、元情報の範囲を拡大しての元データの再取得である。これは、元情報の指定範囲を変更または追加して、より広い範囲から元データを再取得した後、再び集約データ生成処理を行うことにより、新たなデータを補充する処理である。
【0042】
これらの処理の流れを図13に示す。まずS321で、データの再抽出を行うべき空欄を選択する。次にS322で、この空欄のデータ入力部72に指定するXMLタグの再入力を行うべきか否かを判断し、必要に応じてS323で再入力およびそのXMLタグの保存を行う。再入力を行わない場合は、そのままS324に移り、元データを再取得するためのデータセットの追加入力を行う。ここでは、新たに元データを取得しなおすための元情報の範囲をURL等により追加する。かかるURLは、複数件でも可とする。データセットの追加入力を行った場合は、S325で再取得されたデータセットを元データ取得部22に保存する。データセットの再取得を行わない場合は、そのままS326に移る。そして、新たに入力されたXMLタグまたは新たに取得された元データに基づき、既述の集約データ生成処理(S30)と同じ手順にて、この空欄に対する集約データ生成処理を行う。
【0043】
こうして生成した集約データを、図11のS33で、データ記憶部30内の集約データ記憶部34に保存する。保存される集約データのデータ構造を図14に例示する。集約データ80は、フォームデータ名81、XMLタグ名82、抽出データ83、抽出元データ84、の4要素で構成される。フォームデータ名81は、この集約データ80を生成する元になったレイアウトフォーム70の名称、XMLタグ名82は、データを抽出するための検索に用いたXMLタグの名称、抽出データ83は、前記XMLタグでの検索によって抽出した文字列などのデータ要素、抽出元データ84は、前記抽出データ83を取得したデータセットのファイル名やURLを、それぞれ示す。フォームデータ名81以外のデータ要素は、必要な数だけ、互いに対応づけられて同時に保存される。
【0044】
<出力処理>
S30の集約データ生成処理によって集約データが生成・保存されると、続いて、S40の出力処理を行う。この出力処理では、フォームデータ記憶部33に保存されたフォームデータと、集約データ記憶部34に保存された集約データとの組み合わせにより、レイアウトフォーム70に合わせた集約データの表示が行われる。前記した図12は、図4に例示したレイアウトフォーム70を元にして、図5に例示した元情報から必要なデータを集約整理したときの最終的な表示形態を例示したものである。
【0045】
なお、出力の形態としては、抽出されたデータが含まれていた元情報へのアクセスを容易にするために、抽出されたデータが記載されていた元データのファイル名やURLを同時に表示することも考えられる。これによれば、ユーザが集約情報を見て、それに関連する情報を追加的に探索・収集することが容易になる。また、WWW上のURLであれば、自動的にリンクを生成することでアクセスがより簡単になる。
【0046】
また、図12のようなデータシート形式で蓄積された複数セットの集約データを、図15に示すような一覧表形式で1ページ(1画面)に表示することにより、集約情報の一覧性や比較性を高めることも可能である。
【0047】
【発明の効果】
本発明の情報の集約整理支援システムは、ユーザが求める情報の表示形態を決定するとともに抽出すべきデータのキーとなるタグを指定して保存するレイアウトフォーム作成手段と、元情報から前記タグを含む元データを取得する情報取得手段と、前記元データから前記タグに対応するデータを抽出して集約データを生成する情報集約手段と、前記情報集約手段により生成された集約データを前記レイアウトフォームに合わせて出力する集約情報出力手段とを備えて構成されるので、大量の情報の中からユーザが求める情報を効率的に、かつ精度良く抽出し、それをユーザの好みの表示形態で表示することが可能になる。したがって、情報の整理や閲覧、比較分析などを迅速かつ効率的に行うことができる。
【図面の簡単な説明】
【図1】本発明の実施の形態にかかる情報の集約整理支援システムのシステム構成図である。
【図2】本発明による情報の集約整理処理の流れを示すフローチャートである。
【図3】図2中のレイアウトフォーム作成処理の流れを示すフローチャートである。
【図4】具体的なレイアウトフォームの作成例を示す図である。
【図5】元情報の一例として、ある製品のスペック表(a)および価格表(b)の表示形態を示した図である。
【図6】図5(a)に示したスペック表の論理構造の一部をXML形式で表現した図である。
【図7】図3中の入力スペースの関連付けにおいて、XMLタグの入力を支援する方法を示すフローチャートである。
【図8】レイアウトフォームのデータ構造を模式的に例示した図である。
【図9】図2中の元データ取得処理の流れを示すフローチャートである。
【図10】図9中の元データ取得処理における元データの探索・保存処理の流れを示すフローチャートである。
【図11】図2中の集約データ生成処理の流れを示すフローチャートである。
【図12】本発明によって最終的に出力される集約情報の編集例を示す図である。
【図13】図11中の集約データ生成処理における空欄処理の流れを示すフローチャートである。
【図14】集約データのデータ構造を模式的に例示した図である。
【図15】集約データを一覧表形式で表示したときの表示例を示す図である。
【符号の説明】
21 レイアウトフォーム作成部(レイアウトフォーム作成手段)
22 元データ取得部(情報取得手段)
23 取捨選択部(情報集約手段)
61 出力制御部(集約情報出力手段)
70 レイアウトフォーム
80 集約データ

Claims (10)

  1. ユーザが求める情報を集約して表示するためのレイアウトフォームを決定するとともに、階層構造をなす文書形式で記述された元データから前記レイアウトフォーム内の項目に対応するデータを抽出するためのキーとなるタグを保存するレイアウトフォーム作成手段と、
    ユーザが指定した元情報の範囲内から前記タグを含む複数セットの元データを取得する情報取得手段と、
    前記複数セットの元データから前記タグに対応するデータを抽出して集約データを生成し、さらに、前記元データの階層構造を手掛かりに、抽出された複数組の集約データの対応関係を判別して集約データ同士を結合する情報集約手段と、
    前記情報集約手段により生成された集約データを前記レイアウトフォームに合わせて出力する集約情報出力手段と、
    を備えることを特徴とする情報の集約整理支援システム。
  2. レイアウトフォーム作成手段において、キーとなるタグにXMLタグを使用することを特徴とする請求項1に記載の情報の集約整理支援システム。
  3. レイアウトフォーム作成手段において、XMLタグとレイアウトフォーム内の項目とを関連付けるにあたり、XML文書からXMLタグの付与された箇所をドラッグ・アンド・ドロップ操作により入力できるように構成されたことを特徴とする請求項2に記載の情報の集約整理支援システム。
  4. 情報取得手段は、レイアウトフォームに対応する元データを、ユーザがURLにより指定したWWW上のウェブページから取得するように構成されたことを特徴とする請求項1に記載の情報の集約整理支援システム。
  5. 情報取得手段は、レイアウトフォームに対応する元データをユーザが指定したWWW上のウェブページから抽出できない場合に、前記ウェブページからリンクをたどって他のウェブページを探索することにより、必要な元データを補充するように構成されたことを特徴とする請求項4に記載の情報の集約整理支援システム。
  6. 情報集約手段は、情報取得手段によって取得された元データから、共通のレイアウトフォームで複数セットの集約データを生成することを特徴とする請求項1に記載の情報の集約整理支援システム。
  7. 情報集約手段においてレイアウトフォーム内の全項目に対応するデータを元データから抽出できなかった場合に、データの抽出ができなかった項目のタグを変更または追加して、元データの再取得ができるように構成されたことを特徴とする請求項1に記載の情報の集約整理支援システム。
  8. 情報集約手段においてレイアウトフォーム内の全項目に対応するデータを元データから抽出できなかった場合に、元データを取得する対象となる元情報の指定範囲を変更または追加して、元データの再取得ができるように構成されたことを特徴とする請求項1に記載の情報の集約整理支援システム。
  9. 集約情報出力手段は、情報集約手段において抽出したデータがどの元データから抽出されたものであるかを示す抽出元情報を表示するように構成されたことを特徴とする請求項1に記載の情報の集約整理支援システム。
  10. 集約情報出力手段は、共通のレイアウトフォームで生成された複数セットの集約データを一覧表形式で表示するように構成されたことを特徴とする請求項6に記載の情報の集約整理支援システム。
JP2000365373A 2000-11-30 2000-11-30 情報の集約整理支援システム Expired - Fee Related JP3877957B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000365373A JP3877957B2 (ja) 2000-11-30 2000-11-30 情報の集約整理支援システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000365373A JP3877957B2 (ja) 2000-11-30 2000-11-30 情報の集約整理支援システム

Publications (2)

Publication Number Publication Date
JP2002169836A JP2002169836A (ja) 2002-06-14
JP3877957B2 true JP3877957B2 (ja) 2007-02-07

Family

ID=18836150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000365373A Expired - Fee Related JP3877957B2 (ja) 2000-11-30 2000-11-30 情報の集約整理支援システム

Country Status (1)

Country Link
JP (1) JP3877957B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262616A (zh) * 2010-05-24 2011-11-30 株式会社Pfu 表单处理系统、ocr装置、表单制作装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004038512A (ja) * 2002-07-03 2004-02-05 Nec Corp 情報処理端末及びそれに用いる指定タグ位置移動方法並びにそのプログラム
CN1328687C (zh) * 2003-06-11 2007-07-25 中兴通讯股份有限公司 一种基于可扩展标记语言的集中式广谱报表生成方法
US20070240036A1 (en) * 2004-04-08 2007-10-11 Justsystems Corporation Document Processing Device and Document Processing Method
JP4558369B2 (ja) * 2004-04-16 2010-10-06 Kddi株式会社 情報抽出システム、情報抽出方法、コンピュータプログラム
JP5301907B2 (ja) * 2008-07-18 2013-09-25 株式会社プロフィールド 情報処理装置
EP3220287A4 (en) 2014-11-14 2017-10-11 Fujitsu Limited Information acquisition program, information acquisition method and information acquisition device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262616A (zh) * 2010-05-24 2011-11-30 株式会社Pfu 表单处理系统、ocr装置、表单制作装置

Also Published As

Publication number Publication date
JP2002169836A (ja) 2002-06-14

Similar Documents

Publication Publication Date Title
Hammer et al. Semistructured data: The TSIMMIS experience
US9135341B2 (en) Method and arrangement for paginating and previewing XHTML/HTML formatted information content
EP1376408B1 (en) Extraction of information from structured documents
US20090019386A1 (en) Extraction and reapplication of design information to existing websites
US20030038836A1 (en) Web map tool
US20120102390A1 (en) Method and apparatus for generating widget
WO2005096173A1 (ja) 電子化サービスマニュアル生成方法、付加データ生成方法
JP2007122513A (ja) コンテンツ検索方法、及び、コンテンツ検索サーバ
Ahmadi et al. User-centric adaptation of Web information for small screens
US20110219017A1 (en) System and methods for citation database construction and for allowing quick understanding of scientific papers
KR100403947B1 (ko) 개인용 전자문서를 생성하는 방법, 시스템 및 컴퓨터프로그램 제조물
WO2006137562A1 (ja) 文書処理装置及び文書処理方法
JP2007280011A (ja) Webページ閲覧履歴の提示方法および装置
CN104281648A (zh) 基于维度标签的搜索结果多维度导航方法
JP3877957B2 (ja) 情報の集約整理支援システム
KR100522186B1 (ko) 동적으로 홈페이지를 제작하는 방법 및 이 방법을 웹에서구현하는 장치
JP2004192355A (ja) 情報の検索方法およびその装置および情報検索のためのコンピュータプログラム
JP2007279978A (ja) 文書検索装置及び文書検索方法
JP2012150638A (ja) コンテンツ推奨装置、コンテンツ推奨方法及びプログラム
JP2008046879A (ja) ページ表示装置、ページ表示方法、およびコンピュータプログラム
JP2003337825A (ja) オンラインデータベースによる情報供給方法
JP4391131B2 (ja) コンテンツ表示装置、コンテンツ表示プログラム、およびコンテンツ表示プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000067126A (ja) スケジュール情報処理装置および表示情報処理装置ならびにスケジュールおよび表示情報処理制御プログラムを記憶した媒体
KR20020061443A (ko) 컴퓨터 통신망을 이용한 정보의 수집, 가공 및 표시방법과 그 시스템
Liu et al. Personalized web views for multilingual web sources

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060711

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061101

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3877957

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091110

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101110

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111110

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111110

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131110

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees