JPH11327995A - 情報収集方法及び装置並びに情報収集プログラムを記録した記録媒体 - Google Patents

情報収集方法及び装置並びに情報収集プログラムを記録した記録媒体

Info

Publication number
JPH11327995A
JPH11327995A JP10135195A JP13519598A JPH11327995A JP H11327995 A JPH11327995 A JP H11327995A JP 10135195 A JP10135195 A JP 10135195A JP 13519598 A JP13519598 A JP 13519598A JP H11327995 A JPH11327995 A JP H11327995A
Authority
JP
Japan
Prior art keywords
information
resources
group
collection
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10135195A
Other languages
English (en)
Inventor
Seiji Yokomichi
誠司 横路
Nobuyuki Miura
信幸 三浦
Katsumi Takahashi
克己 高橋
Kenichi Shima
健一 島
Koichi Washisaka
光一 鷲坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10135195A priority Critical patent/JPH11327995A/ja
Publication of JPH11327995A publication Critical patent/JPH11327995A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

(57)【要約】 【課題】本発明の課題は、WWWページの内容を解析
し、収集が必要なリソースを予測及び学習することによ
り、内容予測型リソース収集を行うことにある。 【解決手段】本発明は、ネットワーク上に分散している
リソースを内容毎に分類し、必要なリソースのみを、選
択的かつ自動的に収集する情報収集において、既に収集
したリソースの集合を既収集群とし、未収集の集合を未
収集群としたときに、既収集群の内容を形態素解析する
ことにより、未収集群の内容を予測し必要なリソースの
みを自動的に収集することを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、通信においてデー
タを選択的かつ自動的に収集する内容予測型情報収集方
法及び装置並びに情報収集プログラムを記録した記録媒
体に関する。
【0002】
【従来の技術】インターネット上に膨大にあるリソース
の発見および自動収集を行う技術として、WWW(Wo
rld Wide Web)ロボット技術が有効に働
く。WWWロボット技術は主として、情報検索システム
のリソース収集において使用され、既に実用化され、そ
の有用性が認められている。また、WWWロボットの評
価ポイントは、収集の速度、リソースを提供するサーバ
に対する負荷の低さ、収集のマナー(リソース提供者が
収集を希望するもののみを収集する。)である。収集速
度が速く、情報提供サーバに対する負荷が低く、マナー
の良いWWWロボットが良いWWWロボットである。
【0003】上記にも示したように、WWWロボットは
主に情報検索システムで使用される。現在、動作してい
る情報検索システムの多くが、検索対象として、インタ
ーネット上に提供される全ての分野のリソースを用いて
いる。
【0004】図4は従来のWWWロボットを示す構成説
明図である。すなわち、インターネット1と通信を行う
ネットワーク通信部2に収集候補選択部3からリソース
収集要求があると、前記ネットワーク通信部2からデー
タ保存部4にデータが供給されデータの保存が行われ
る。前記データ保存部4からハイパーリンク抽出部5に
データが供給されハイパーリンクの抽出が行われる。こ
のハイパーリンク抽出部5で抽出されたハイパーリンク
はハイパーリンク評価部6に供給されハイパーリンクの
評価が行われ、前記ハイパーリンク評価部6からのハイ
パーリンクの評価データは収集候補選択部3に供給され
る。前記ネットワーク通信部2からハイパーリンクDB
(Database)管理部7に変更要求がなされ、前
記ハイパーリンク抽出部5からハイパーリンクDB管理
部7に追加要求がなされ、前記収集候補選択部3からハ
イパーリンクDB管理部7に変更要求がなされる。
【0005】しかし従来のロボットは、図4に示すよう
に、ハイパーリンクについては評価を行い必要なリソー
スとそうでないものの取捨選択を行うが、内容について
は評価を行っていない。
【0006】従って、検索対象を限定した情報検索シス
テムのリソース収集に、従来のロボットを使用すると、
不要なリソースも収集してしまうという欠点がある。更
に、不要なリソースの収集は、収集速度の低下を招くだ
けではなく、ネットワーク、リソースを提供する計算機
及び収集を行う計算機の負荷を助長する。
【0007】
【発明が解決しようとする課題】従来のWWWロボット
には上記のような欠点があった。本発明では、上記の欠
点を解決するために、以下の3点を解決する。 1.従来のWWWロボットに加え、WWWページの内容
の解析を行い、実際の収集を行うこと無く、収集が必要
と思われるリソースの予測が可能となる情報収集方法及
び装置並びに情報収集プログラムを記録した記録媒体を
与えること。
【0008】2.従来のWWWロボットと比較して、必
要なリソースを学習し、再収集の際には優先的に必要な
リソースを収集することが可能な情報収集方法及び装置
並びに情報収集プログラムを記録した記録媒体を与える
こと。
【0009】3.従来のWWWロボットと比較して、必
要なリソースの収集に要する時間が短い情報収集方法及
び装置並びに情報収集プログラムを記録した記録媒体を
与えること。
【0010】
【課題を解決するための手段】上記課題を達成するため
に本発明の情報収集は、ネットワーク上に分散している
リソースを内容毎に分類し、必要なリソースのみを、選
択的かつ自動的に収集することを特徴とする。
【0011】また本発明は、上記情報収集において、既
に収集したリソースの集合を既収集群とし、未収集の集
合を未収集群としたときに、既収集群の内容を形態素解
析することにより、未収集群の内容を予測し必要なリソ
ースのみを自動的に収集することを特徴とする。
【0012】また本発明は、上記情報収集において、既
収集群の内容からパターンマッチによる情報抽出を行う
ことで、未収集群の内容を予測し必要なリソースのみを
自動的に収集することを特徴とする。
【0013】また本発明は、既に収集したWWWページ
中に含まれるアンカーラベルの位置情報を抽出し、WW
Wのリソースを選択的に収集することを特徴とする。本
発明では、WWWページの内容を解析し、収集が必要な
リソースを予測および学習することにより、内容予測型
リソース収集を行うことが出来る。その結果、特定の分
野に関するWWWリソースのみを収集することが出来
る。また、必要なリソース収集速度は従来のWWWロボ
ットと比較して高速にすることが出来る。
【0014】
【発明の実施の形態】以下図面を参照して本発明の実施
の形態例を詳細に説明する。図1は本発明の一実施形態
例を示す構成説明図、図2は図1の内容解析部の一例を
示す構成説明図、図3は図1の内容予測および学習部の
一例を示す構成説明図である。図において、図4と同一
部分は同一符号を付してその説明を省略する。
【0015】すなわち、図1に示すように、データ保存
部4に保存されたデータのWWW文書はハイパーリンク
抽出部5およびハイパーリンク評価部6を介して内容解
析部11に供給される。
【0016】前記内容解析部11は図2に示すように、
WWW文書21が形態素解析処理部22、パターンマッ
チ情報抽出処理部23およびHTML(Hyper T
ext Markup Language)解析処理部
24にそれぞれ供給される。内容解析部11の各処理部
の機能の概要は以下の通りである。
【0017】段階1[形態素解析処理部22] WWW文書21を形態素解析し、名詞、固有名詞および
未定義語を抽出し、文書毎にこれらの単語のリストを生
成して内容予測および学習部12に供給する。
【0018】段階2[パターンマッチ情報抽出処理部2
3] WWW文書21から特定の分野に特徴的なパターン
(例:電話番号なら0x−xxxx−xxxx等)を抽
出し、文書毎に一覧を生成して内容予測および学習部1
2に供給する。
【0019】段階3[HTML解析処理部(HTMLパ
ーサ)24] WWW文書21から、HTMLタグを抽出し(アンカー
の抽出)、ハイパーリンクを示すもののみの一覧を生成
して内容予測および学習部12に供給する。
【0020】図3に示すように、前記内容予測および学
習部12の各処理部の機能の概要は以下の通りである。 段階1[抽出単語重み付け処理部31] 内容解析部11の形態素解析処理部22により抽出され
た単語と特定分野辞書35を比較することにより、単語
に特定分野への関連の度合(重み)を与える。それらの
重みを総合して、重みによる優先順位再計算部34へ出
力する。
【0021】段階2[ハイパーリンク重み付け処理部3
2] HTML解析処理部(HTMLパーサ)24より抽出さ
れたハイパーリンク(アンカー)中の文字列と特定分野
辞書35を比較することにより、ハイパーリンク中のU
RL(Uniform Resource Locat
or)に対する重み付けを行う。この未収集のWWW文
書に対する重み(予測用重み)を重みによる優先順位再
計算部34へ出力する。
【0022】段階3[パターン評価および重み付け処理
部33] パターンマッチ情報抽出処理部23より抽出されたパタ
ーンをその種類毎に評価し、パターンに応じた重みをW
WW文書に与える。この収集されたWWW文書に対する
重み(学習用重み)は、重みによる優先順位再計算部3
4へ出力される。
【0023】段階4[重みによる優先順位再計算部3
4] 各重み付け処理部31、32、33から出力された重み
をもとに、収集済および未収集のWWWページに対し
て、収集の優先順位を計算する。優先順位は収集が行わ
れるたびに動的に変更され、その結果は収集優先順位D
B36へ追加、変更されて保存される。WWWロボット
はこの優先順位が大きいものを早く収集する。
【0024】前記内容予測および学習部12からハイパ
ーリンクDB管理部7に変更要求がなされる。本発明に
は次のような発明が含まれる。
【0025】1、ネットワーク上に分散しているリソー
スを内容毎に分類し、必要なリソースのみを、選択的か
つ自動的に収集することを特徴とする情報収集方法。 2、上記1の情報収集方法において、既に収集したリソ
ースの集合を既収集群とし、未収集の集合を未収集群と
したときに、既収集群の内容を形態素解析することによ
り、未収集群の内容を予測し必要なリソースのみを自動
的に収集することを特徴とする情報収集方法。
【0026】3、上記2の情報収集方法において、既収
集群の内容からパターンマッチによる情報抽出を行うこ
とで、未収集群の内容を予測し必要なリソースのみを自
動的に収集することを特徴とする情報収集方法。
【0027】4、既に収集したWWWページ中に含まれ
るアンカーラベルの位置情報を抽出し、WWWのリソー
スを選択的に収集することを特徴とする情報収集方法。 5、ネットワーク上に分散しているリソースを内容毎に
分類する分類手段と、この分類手段による分類から必要
なリソースのみを、選択的かつ自動的に収集する収集手
段とを具備することを特徴とする情報収集装置。
【0028】6、上記1の情報収集装置において、既に
収集したリソースの集合である既収集群の内容を形態素
解析する解析手段と、この解析手段の解析から未収集の
集合である未収集群の内容を予測し必要なリソースのみ
を自動的に収集する収集手段とを具備することを特徴と
する情報収集装置。
【0029】7、上記2の情報収集装置において、既収
集群の内容からパターンマッチによる情報抽出を行う抽
出手段と、この抽出手段で抽出した情報から未収集群の
内容を予測し必要なリソースのみを自動的に収集する収
集手段とを具備することを特徴とする情報収集装置。
【0030】8、既に収集したWWWページ中に含まれ
るアンカーラベルの位置情報を抽出する抽出手段と、こ
の抽出手段で抽出した位置情報からWWWのリソースを
選択的に収集する収集手段とを具備することを特徴とす
る情報収集装置。
【0031】9、ネットワーク上に分散しているリソー
スを内容毎に分類する分類手順、この分類手順による分
類から必要なリソースのみを、選択的かつ自動的に収集
する収集手順を実行させるための情報収集プログラムを
記録した記録媒体。
【0032】10、上記1の情報収集プログラムを記録
した記録媒体において、既に収集したリソースの集合で
ある既収集群の内容を形態素解析する解析手順、この解
析手順の解析から未収集の集合である未収集群の内容を
予測し必要なリソースのみを自動的に収集する収集手順
を実行させるための情報収集プログラムを記録した記録
媒体。
【0033】11、上記2の情報収集プログラムを記録
した記録媒体において、既収集群の内容からパターンマ
ッチによる情報抽出を行う抽出手順、この抽出手順で抽
出した情報から未収集群の内容を予測し必要なリソース
のみを自動的に収集する収集手順を実行させるための情
報収集プログラムを記録した記録媒体。
【0034】12、既に収集したWWWページ中に含ま
れるアンカーラベルの位置情報を抽出する抽出手順、こ
の抽出手順で抽出した位置情報からWWWのリソースを
選択的に収集する収集手順を実行させるための情報収集
プログラムを記録した記録媒体。
【0035】
【発明の効果】以上述べたように本発明によれば次のよ
うな効果がある。 1.本発明のWWWロボットは、特殊な場合として従来
のWWWロボットを包含する。すなわち、内容解析部お
よび内容予測、学習部の機能に無効とすると、従来のW
WWロボットになる。
【0036】2.本発明のWWWロボットは、従来のW
WWロボットと比較してネットワークおよびWWWロボ
ットを動作させる計算機への負荷は同等である。その根
拠は、ネットワークおよび情報提供サーバに対する負荷
分散には従来のWWWロボットのものを使用するからで
あり、また、内容解析および内容予測、学習は、WWW
ロボットの情報提供サーバとの通信待ち時間に行われる
ために、WWWロボットの動作への影響は少ないからで
ある。
【0037】3.本発明のWWWロボットは、従来のW
WWロボットと比較して、特定分野に属するリソースの
収集速度が高速である。その根拠は、従来のWWWロボ
ットが内容を考慮せずにリソース収集を行うのに対し、
本発明のWWWロボットは、収集前にリソースの内容を
予測および学習し、有用なものを優先的に収集するため
である。
【図面の簡単な説明】
【図1】本発明の一実施形態例を示す構成説明図であ
る。
【図2】図1の内容解析部の一例を示す構成説明図であ
る。
【図3】図1の内容予測および学習部の一例を示す構成
説明図である。
【図4】従来のWWWロボットを示す構成説明図であ
る。
【符号の説明】
1 インターネット 2 ネットワーク通信部 3 収集候補選択部 4 データ保存部 5 ハイパーリンク抽出部 6 ハイパーリンク評価部 7 ハイパーリンクDB管理部 11 内容解析部 12 内容予測および学習部 21 WWW文書 22 形態素解析処理部 23 パターンマッチ情報抽出処理部 24 HTML解析処理部 31 抽出単語重み付け処理部 32 ハイパーリンク重み付け処理部 33 パターン評価および重み付け処理部 34 重みによる優先順位再計算部 35 特定分野辞書 36 収集優先順位DB
───────────────────────────────────────────────────── フロントページの続き (72)発明者 島 健一 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 鷲坂 光一 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 ネットワーク上に分散しているリソース
    を内容毎に分類し、必要なリソースのみを、選択的かつ
    自動的に収集することを特徴とする情報収集方法。
  2. 【請求項2】 請求項1記載の情報収集方法において、
    既に収集したリソースの集合を既収集群とし、未収集の
    集合を未収集群としたときに、既収集群の内容を形態素
    解析することにより、未収集群の内容を予測し必要なリ
    ソースのみを自動的に収集することを特徴とする情報収
    集方法。
  3. 【請求項3】 請求項2記載の情報収集方法において、
    既収集群の内容からパターンマッチによる情報抽出を行
    うことで、未収集群の内容を予測し必要なリソースのみ
    を自動的に収集することを特徴とする情報収集方法。
  4. 【請求項4】 既に収集したWWWページ中に含まれる
    アンカーラベルの位置情報を抽出し、WWWのリソース
    を選択的に収集することを特徴とする情報収集方法。
  5. 【請求項5】 ネットワーク上に分散しているリソース
    を内容毎に分類する分類手段と、この分類手段による分
    類から必要なリソースのみを、選択的かつ自動的に収集
    する収集手段とを具備することを特徴とする情報収集装
    置。
  6. 【請求項6】 請求項1記載の情報収集装置において、
    既に収集したリソースの集合である既収集群の内容を形
    態素解析する解析手段と、この解析手段の解析から未収
    集の集合である未収集群の内容を予測し必要なリソース
    のみを自動的に収集する収集手段とを具備することを特
    徴とする情報収集装置。
  7. 【請求項7】 請求項2記載の情報収集装置において、
    既収集群の内容からパターンマッチによる情報抽出を行
    う抽出手段と、この抽出手段で抽出した情報から未収集
    群の内容を予測し必要なリソースのみを自動的に収集す
    る収集手段とを具備することを特徴とする情報収集装
    置。
  8. 【請求項8】 既に収集したWWWページ中に含まれる
    アンカーラベルの位置情報を抽出する抽出手段と、この
    抽出手段で抽出した位置情報からWWWのリソースを選
    択的に収集する収集手段とを具備することを特徴とする
    情報収集装置。
  9. 【請求項9】 ネットワーク上に分散しているリソース
    を内容毎に分類する分類手順、この分類手順による分類
    から必要なリソースのみを、選択的かつ自動的に収集す
    る収集手順を実行させるための情報収集プログラムを記
    録した記録媒体。
  10. 【請求項10】 請求項1記載の情報収集プログラムを
    記録した記録媒体において、既に収集したリソースの集
    合である既収集群の内容を形態素解析する解析手順、こ
    の解析手順の解析から未収集の集合である未収集群の内
    容を予測し必要なリソースのみを自動的に収集する収集
    手順を実行させるための情報収集プログラムを記録した
    記録媒体。
  11. 【請求項11】 請求項2記載の情報収集プログラムを
    記録した記録媒体において、既収集群の内容からパター
    ンマッチによる情報抽出を行う抽出手順、この抽出手順
    で抽出した情報から未収集群の内容を予測し必要なリソ
    ースのみを自動的に収集する収集手順を実行させるため
    の情報収集プログラムを記録した記録媒体。
  12. 【請求項12】 既に収集したWWWページ中に含まれ
    るアンカーラベルの位置情報を抽出する抽出手順、この
    抽出手順で抽出した位置情報からWWWのリソースを選
    択的に収集する収集手順を実行させるための情報収集プ
    ログラムを記録した記録媒体。
JP10135195A 1998-05-18 1998-05-18 情報収集方法及び装置並びに情報収集プログラムを記録した記録媒体 Pending JPH11327995A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10135195A JPH11327995A (ja) 1998-05-18 1998-05-18 情報収集方法及び装置並びに情報収集プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10135195A JPH11327995A (ja) 1998-05-18 1998-05-18 情報収集方法及び装置並びに情報収集プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JPH11327995A true JPH11327995A (ja) 1999-11-30

Family

ID=15146076

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10135195A Pending JPH11327995A (ja) 1998-05-18 1998-05-18 情報収集方法及び装置並びに情報収集プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JPH11327995A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000054312A (ko) * 2000-06-01 2000-09-05 최우석 맞춤 웹정보 구축 제공 방법
KR20010069940A (ko) * 2001-05-21 2001-07-25 주형순 인터넷을 이용한 홍보 관리 장치 및 방법
JP2002007431A (ja) * 2000-06-27 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 情報探索装置、情報探索方法および記録媒体
KR20020036114A (ko) * 2000-11-08 2002-05-16 구자홍 통신망을 이용하여 맞춤신문을 제공하는 방법 및 시스템
KR20030094967A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 인터넷자료 자동수집방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000054312A (ko) * 2000-06-01 2000-09-05 최우석 맞춤 웹정보 구축 제공 방법
JP2002007431A (ja) * 2000-06-27 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 情報探索装置、情報探索方法および記録媒体
KR20020036114A (ko) * 2000-11-08 2002-05-16 구자홍 통신망을 이용하여 맞춤신문을 제공하는 방법 및 시스템
KR20010069940A (ko) * 2001-05-21 2001-07-25 주형순 인터넷을 이용한 홍보 관리 장치 및 방법
KR20030094967A (ko) * 2002-06-11 2003-12-18 주식회사 코스모정보통신 인터넷자료 자동수집방법

Similar Documents

Publication Publication Date Title
Yi et al. Web page cleaning for web mining through feature weighting
JP4489994B2 (ja) 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
US7117200B2 (en) Synthesizing information-bearing content from multiple channels
US7516397B2 (en) Methods, apparatus and computer programs for characterizing web resources
US9110985B2 (en) Generating a conceptual association graph from large-scale loosely-grouped content
US20080208858A1 (en) Method of managing websites registered in search engine and a system thereof
CN102207936B (zh) 用于提示电子文档内容变更的方法和系统
CN110929145B (zh) 舆情分析方法、装置、计算机装置及存储介质
JP2001519952A (ja) データ要約装置
US20040015485A1 (en) Method and apparatus for improved internet searching
CN103942268B (zh) 搜索与应用相结合的方法、设备以及应用接口
US20040117363A1 (en) Information processing device and method, recording medium, and program
KR20040017008A (ko) 검색엔진을 활용한 정보 제공 시스템 및 그 방법
CN112307303A (zh) 基于云计算的网络页面高效精准去重系统
CN112328806A (zh) 一种数据的处理方法、系统、计算机设备和存储介质
CN114491034B (zh) 一种文本分类方法及智能设备
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
JPH11327995A (ja) 情報収集方法及び装置並びに情報収集プログラムを記録した記録媒体
CN112597370A (zh) 指定需求范围的网页信息自主搜集筛选系统
JP3746233B2 (ja) 知識分析システムおよび知識分析方法
CN101840402B (zh) 从多语言网站构建多语言的对象层次结构的方法和系统
KR100667917B1 (ko) 웹사이트 검색 서비스 제공 방법 및 그 시스템
JP2005092443A (ja) クラスター分析装置およびクラスター分析方法
CN113297447A (zh) 一种基于关键词的相关知识产权信息抓取、挖掘及可视化分析系统及方法
Fu et al. Using XPath to discover informative content blocks of web pages

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040629

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041026