JP2004062258A - メタデータ収集におけるデータ収集先自動変更システム及び方法 - Google Patents

メタデータ収集におけるデータ収集先自動変更システム及び方法 Download PDF

Info

Publication number
JP2004062258A
JP2004062258A JP2002215993A JP2002215993A JP2004062258A JP 2004062258 A JP2004062258 A JP 2004062258A JP 2002215993 A JP2002215993 A JP 2002215993A JP 2002215993 A JP2002215993 A JP 2002215993A JP 2004062258 A JP2004062258 A JP 2004062258A
Authority
JP
Japan
Prior art keywords
metadata
data collection
data
user
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002215993A
Other languages
English (en)
Inventor
Kazuhiro Yoshiyama
芳山 和弘
Shunichi Uyama
鵜山 俊一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2002215993A priority Critical patent/JP2004062258A/ja
Publication of JP2004062258A publication Critical patent/JP2004062258A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】利用者がデータの検索を行うメタデータ自動収集システムにおいて、データ収集先リストを自動的に効率よく修正できるようにする。
【解決手段】メタデータ自動収集システムにおいて、利用者の認証を実施し利用者がメタデータを検索した場合、統計データを統計データベース112に蓄積する。統計データから統計解析手段107によりメタデータの分類毎に統計解析を実施し、データ収集先リスト109からデータ収集先を変更する。
【効果】必要ないデータ収集を抑止することにより、メタデータ蓄積用データベースの蓄積媒体の使用効率が向上される。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明はデータの収集登録を行い、利用者がデータの検索を行うメタデータ自動収集システムに関し、特に、データ収集先リストを効率よく修正するのに好適なデータ収集先自動変更方法に関する。
【0002】
【従来の技術】
インターネット上の多数のサーバが公開しているホームページにおいては、ホームページ上のデータ更新が日々行われている。各サーバで公開されているデータを収集し、一箇所に蓄積することにより、収集した広範囲のデータを一つのインターフェースで検索するシステムを利用者に提供可能となる。このような検索システムにおいては、データ収集、リンク先データ収集、およびデータの一定期間毎の再収集が行われ、データ収集システムが構築されている。
【0003】
このようなインターネット上のデータ収集システムにおいて、従来システム(特開2000−339316号公報)では、利用者に検索させる提供データをデータベースに蓄積するにあたり、利用者の検索語を蓄積し、利用頻度の高い検索語のリンク先をデータ収集先リストに追加することにより、データ収集の効率化を実施している。
【0004】
【発明が解決しようとする課題】
従来のインターネット上のデータ収集システムは、利用者に検索させる提供データを用意しデータベースに蓄積するにあたり、データの収集、データ変換、およびデータ登録は自動的に実施することができたが、データをデータ収集先から、収集しつづけるという問題点があった。
【0005】
本発明の目的は、データ収集先の変更を自動に実施することにより、システム管理者の収集先リストのメンテナンスの負担を軽減し、また、必要のないデータ収集を抑止することによる、データ蓄積媒体の使用効率の向上を可能とする方法を提供することにある。
【0006】
【課題を解決するための手段】
上記目的を達成するため、本発明のシステムはデータ収集先を分類分けしたデータ収集先リストをもとに、インターネット上の多数のサーバが公開しているホームページからデータを収集するデータ収集手段と、メタデータフォーマットをもとに収集したデータからメタデータを作成するメタデータ作成手段と、メタデータを分類しデータベースに登録するメタデータ登録手段と、利用者認証が成功した利用者がメタデータを検索した時、利用者の属性と利用者が検索したメタデータの分類と参照回数をデータベースに蓄積する統計データ登録手段と、メタデータの分類毎に、データベースに蓄積した参照回数と利用者の属性の比率から、統計解析を行い、データ収集先リストから除外するデータ収集先の分類とデータ収集先の分類分けを変更する候補を抽出する統計解析手段と、データ収集先リストから抽出した候補をもとに分類を変更するデータ収集先変更手段とを備える。
【0007】
メタデータ自動収集システムにおいて、利用者端末からメタデータベースに蓄積されたメタデータを検索するため、利用者データベースに対し利用者認証を実施し、認証が成功した利用者がメタデータを検索した場合、利用者IDと利用者属性と利用者が検索したメタデータの分類と参照回数をデータベースに蓄積する。
【0008】
システム管理者が設定した期間経過後、蓄積した統計情報よりメタデータの分類毎に、データベースに蓄積した参照回数と利用者の属性の比率から、統計解析を行い、データ収集先リストから除外するデータ収集先の分類の候補を抽出し、データ収集先リストから抽出した候補をもとに分類の削除を実施する。
【0009】
これにより、必要ないデータ収集の抑止が可能となり、メタデータ蓄積用データベースの蓄積媒体の使用効率の向上が可能となる
【0010】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。
【0011】
図1は、本発明の実施例であるメタデータ収集システムの全体構成の図を示したものである。
【0012】
101はデータの収集先となる外部サーバ、102はメタデータ収集サーバ、103はデータ収集手段、104はメタデータ作成手段、105はメタデータ登録手段、106は統計データ登録手段、107は統計解析手段、108はデータ収集先変更手段、109はデータ収集先サーバを登録しておくデータ収集先リスト、110は利用者データを登録しておく利用者データベースを格納する外部記憶装置、111は収集したメタデータを登録しておくメタデータデータベースを格納する外部記憶装置、112は統計データを登録しておく統計データベースを格納する外部記憶装置、113は利用者端末である。
【0013】
データを収集してからデータ収集先の変更までの方法は、図5に示すデータ収集先変更方法に従い実施される。
【0014】
図2は、利用者データベース110のテーブル構造である。図5において、利用者認証を実施する場合に参照する。テーブルには、利用者番号、利用者属性、利用者氏名等の利用者情報を利用者毎に登録する。
【0015】
図3は、統計データベース112のテーブル構造である。図5において、利用者認証が成功した利用者がメタデータデータベース507に対し検索を実施した場合にデータが登録される。統計解析手段511による統計解析を行う場合に参照する。テーブルには、検索を実施した利用者番号、利用者属性、ログイン日付、ログアウト日付、参照データ分類等のデータを、利用者のログイン毎に登録する。
【0016】
図4は、データ収集先リスト109の内容である。データ収集手段502において、データ収集する場合に参照する。データ収集先を分野毎に分類し、分類名を設定する。データ収集手段502において収集先のURLを分類毎に設定し、該当する分類のデータ収集の再収集を実施する収集頻度を設定し、設定したURLのリンク先を何階層まで収集するかを収集階層に設定する。
【0017】
図5は、図1のメタデータ自動収集システムにおけるデータ収集先自動変更方法である。
【0018】
図5において、501はインターネット上の各サーバが公開しているホームページ、502は各サーバで公開しているデータを収集するデータ収集手段、503は収集した文書データ、504は収集した文書データからメタデータを生成するメタデータ作成手段、505はメタデータファイル、506はメタデータデータベースにメタデータファイルを登録するメタデータ登録手段、507はメタデータデータベースを登録しておく外部記憶装置、508は統計データベースを登録しておく外部記憶装置、509は利用者データベースを登録しておく外部記憶装置、510は利用者端末、511は統計データベースに登録した統計データから統計解析を実施する統計解析手段、512は統計解析結果からデータ収集先リストを変更するデータ収集先変更手段、513はデータ収集先リストである。
【0019】
データ収集手段502はデータ収集先リスト513に記述されている分類のURL毎各サイトから文書データ503の自動収集を行う。メタデータ作成手段504は、各サイトから収集した文書データ503から、データ毎にメタデータ505を自動作成を行う。メタデータ登録手段506はメタデータ505をメタデータデータベース507に登録可能な形式に自動変換し、メタデータデータベース507に自動登録を行う。
【0020】
利用者が利用者端末510からメタデータデータベース507のデータを検索する場合、利用者データベース509に対し利用者認証を行い、認証が成功した場合データの検索を行うことができる。統計データ登録手段511は利用者の利用者番号、利用者属性、ログイン日時、ログアウト日付、参照データの分類を統計データベース508に登録を行う。
【0021】
統計解析手段512により、統計データベース508に登録されたデータから、データ収集先リスト514に記述されているデータ分類毎に、参照回数、全参照回数における参照回数の比率、参照した利用者の属性の比率の統計解析を行う。データ収集先変更手段513は、統計解析手段512の統計解析結果から、参照回数、参照回数の比率の低いデータ分類をデータ収集先リスト514から除外する。データ収集先変更手段513は、除外対象のデータ分類に対し、利用者の属性の比率を確認し属性の高い利用者の利用が多い場合、またはシステム管理者の設定した除外禁止データ分類の場合は除外対象から外す。
【0022】
【発明の効果】
以上説明したように、本発明によれば、メタデータ収集先の変更を自動に実施することにより、システム管理者のメンテナンスの負担を軽減することが可能であり、必要ないデータ収集を抑止することにより、メタデータ蓄積用データベースの蓄積媒体の使用効率の向上が可能となる。
【図面の簡単な説明】
【図1】発明の実施の形態を示すシステム構成の全体構成を示した図。
【図2】図1における利用者データベースのテーブル構造を示した図。
【図3】図1における統計データベースのテーブル構造を示した図。
【図4】図1におけるデータ収集先リストを示した図。
【図5】図1におけるデータ収集先変更方法を示した図。
【符号の説明】
102…メタデータ収集サーバ、103…データ収集手段、104…メタデータ作成手段、105…メタデータ登録手段、106…統計データ登録手段、107…統計解析手段、108…データ収集先変更手段、109…データ収集先リスト、110,111,112…外部記憶装置、113…利用者端末。

Claims (2)

  1. データ収集先を分類分けしたデータ収集先リストをもとに、インターネット上の多数のサーバが公開しているホームページからデータを収集する手段と、
    メタデータフォーマットをもとにメタデータに編集する手段と、
    メタデータを分類しデータベースに登録する手段と、
    利用者認証が成功した利用者がメタデータを検索した時、利用者の属性と利用者が検索したメタデータの分類と参照回数をデータベースに蓄積する手段と、
    メタデータの分類毎に、データベースに蓄積した参照回数と利用者の属性の比率から、統計解析を行い、データ収集先リストから除外するデータ収集先の分類を変更する候補を抽出する手段と、
    データ収集先リストから抽出した候補をもとに分類の削除と分類分けを変更する手段とを有することを特徴とするメタデータ自動収集システムのデータ収集先自動変更システム。
  2. 請求項1に記載の、データ収集先を分類分けしたデータ収集先リストをもとに、インターネット上の多数のサーバが公開しているホームページからデータを収集し、メタデータフォーマットをもとにメタデータに編集し、メタデータを分類しデータベースに登録し、利用者端末から登録済みメタデータを検索するメタデータ自動収集システムにおいて、
    利用者端末からメタデータを検索するため利用者認証し、認証が成功した利用者がメタデータを検索した時、利用者の属性と利用者が検索したメタデータの分類と参照回数をデータベースに蓄積し、
    メタデータの分類毎に、データベースに蓄積した参照回数と利用者の属性の比率から、統計解析を行い、データ収集先リストから除外するデータ収集先の分類とデータ収集先の分類分けを変更する候補を抽出し、
    データ収集先リストから抽出した候補をもとに分類の削除を実施することを特徴とするメタデータ自動収集システムのデータ収集先自動変更方法。
JP2002215993A 2002-07-25 2002-07-25 メタデータ収集におけるデータ収集先自動変更システム及び方法 Pending JP2004062258A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002215993A JP2004062258A (ja) 2002-07-25 2002-07-25 メタデータ収集におけるデータ収集先自動変更システム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002215993A JP2004062258A (ja) 2002-07-25 2002-07-25 メタデータ収集におけるデータ収集先自動変更システム及び方法

Publications (1)

Publication Number Publication Date
JP2004062258A true JP2004062258A (ja) 2004-02-26

Family

ID=31937867

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002215993A Pending JP2004062258A (ja) 2002-07-25 2002-07-25 メタデータ収集におけるデータ収集先自動変更システム及び方法

Country Status (1)

Country Link
JP (1) JP2004062258A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011033565A1 (ja) * 2009-09-17 2011-03-24 株式会社 東芝 メタデータ収集装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011033565A1 (ja) * 2009-09-17 2011-03-24 株式会社 東芝 メタデータ収集装置
CN102483750A (zh) * 2009-09-17 2012-05-30 株式会社东芝 元数据收集装置
JP5433700B2 (ja) * 2009-09-17 2014-03-05 株式会社東芝 メタデータ収集装置

Similar Documents

Publication Publication Date Title
CN104077402B (zh) 数据处理方法和数据处理系统
KR101095069B1 (ko) 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법
CA2600685C (en) Generating structured information
CN106982150B (zh) 一种基于Hadoop的移动互联网用户行为分析方法
US20130018967A1 (en) System and method for deriving user expertise based on data propagating in a network environment
CN112261645B (zh) 一种基于分组分域的移动应用指纹自动化提取方法及系统
EP2195734A1 (en) System and methods for clustering information
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN102750346B (zh) 软件推荐方法和系统、终端设备
CN102457817B (zh) 一种手机报中新闻内容的抽取方法及系统
US8433666B2 (en) Link information extracting apparatus, link information extracting method, and recording medium
Amato et al. Searching and annotating 100M Images with YFCC100M-HNfc6 and MI-File
CN113360661A (zh) 多租户的媒体大数据应用云服务平台
CN110543584A (zh) 一种建立人脸索引的方法、装置、处理服务器及存储介质
JP2004062258A (ja) メタデータ収集におけるデータ収集先自動変更システム及び方法
CN116401434A (zh) 一种网络数据信息智能提取系统
CN110941836A (zh) 一种分布式垂直爬虫方法及终端设备
Kitamoto Digital typhoon: Near real-time aggregation, recombination and delivery of typhoon-related information
CN114580734A (zh) 结合大数据的数字化社交网络信息优化方法及服务器
KR101005871B1 (ko) 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 복구방법
JP2010176387A (ja) 電子スクラップシステム、電子スクラップ方法、電子スクラップサーバ、および利用者端末
SalahEldeen et al. Reading the correct history? Modeling temporal intention in resource sharing
JP3774145B2 (ja) Webサイトの内部構造推定装置、内部構造推定方法、この方法のプログラム、このプログラムを記録した記録媒体
KR20100027841A (ko) 대용량 웹로그마이닝 및 공격탐지를 위한 비트리인덱스벡터기반 웹로그 고속검색방법 및 비-트리기반인덱싱로그 프로세서
Bolettieri et al. Enabling content-based image retrieval in very large digital libraries