JP2004302809A - Automatic information collecting and integrating system and method - Google Patents
Automatic information collecting and integrating system and method Download PDFInfo
- Publication number
- JP2004302809A JP2004302809A JP2003094516A JP2003094516A JP2004302809A JP 2004302809 A JP2004302809 A JP 2004302809A JP 2003094516 A JP2003094516 A JP 2003094516A JP 2003094516 A JP2003094516 A JP 2003094516A JP 2004302809 A JP2004302809 A JP 2004302809A
- Authority
- JP
- Japan
- Prior art keywords
- information
- website
- unit
- collection
- aggregation system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、設定されたキーワードに基づいてインタネットでウェブサイト情報を自動的に収集しウェブサイト情報を集約する情報自動収集集約システム及び情報自動収集集約方法に関するものである。
【0002】
【従来の技術】
日本企業が日本国外の企業と取引を行ったり、日本国民が日本国外の国や地域を旅行する場合、当該企業や現地の実状に関する情報を収集して対策等をたてることが多い。このため、情報の入手方法、得られた情報内容の信頼度が問題となる。
【0003】
従来は、情報の入手先として、書籍やパンフレット等の刊行物、ビデオテープ等があった。しかし、書籍等は、刊行されるまでに時間がかかり、読者が情報を得る時点では情報として古くなっており、現地の状況がすでに変化していたりする場合が起こり得る。また、書籍等の場合、著者の主観が入っている場合があり、その情報に基づいて判断を行う場合に、偏った判断を下してしまうという場合も多かった。また、日本国民の在住者がいる国等、あるいは日本国民が頻繁に往来する国等の場合は、情報も豊富だが、そうでない国等の場合には、情報自体が少なく、かつ情報源が限られてしまい、正確な判断の材料として適切ではない場合もあった。
【0004】
このため、現在では、インタネットを利用し、情報を検索し、入手する方法が知られている(例えば、特許文献1参照)。
【0005】
【特許文献1】
特開2001−184397号公報(第1−18頁、図1−12)
【0006】
【発明が解決しようとする課題】
しかし、上記した従来のインタネットを利用した情報検索システムにおいては、キーワードを設定しても、なかなか目的とする所望の情報を絞り込めない、という問題があった。
【0007】
本発明は上記の問題を解決するためになされたものであり、本発明の解決しようとする課題は、インタネットを利用して迅速に情報を収集するとともに、キーワードを用いて効果的に情報を絞り込んで集約し整理し得る情報自動収集集約システム及びその方法を提供することにある。
【0008】
【課題を解決するための手段】
上記課題を解決するため、本発明に係る情報自動収集集約システムは、
多数のコンピュータや電子端末が相互に各種回線で接続されて結ばれるとともに情報を相互に授受可能なコンピュータ・ネットワークであるインタネットと、
前記インタネットに接続されるコンピュータであるサーバと、
前記インタネットに接続されるコンピュータで前記サーバに入力を行うとともに前記サーバが行った情報処理結果を受け取るユーザ端末を
備えた情報自動収集集約システムであって、
前記サーバは、
前記ユーザ端末によって設定されたキーワードに基づき、前記インタネットのウェブサイトを定期的に巡回してウェブサイト情報を収集するウェブサイト巡回部と、
前記ウェブサイト巡回部により収集されたウェブサイト情報のうち、前記キーワードを含む情報である該当ウェブサイト情報のみをふるい分けて取得する情報フィルタリング部と、
前記情報フィルタリング部により取得された該当ウェブサイト情報を蓄積するデータベース部と、
前記データベース部により蓄積された該当ウェブサイト情報を時系列のツリー構造となるように整理して出力する情報整理部を
備えたこと
を特徴とする。
【0009】
また、上記した情報自動収集集約システムにおいて、好ましくは、
前記情報整理部は、
前記時系列のツリー構造に整理された該当ウェブサイト情報の内容を所定字数以下の文章である概要短文に要約する要約作成部と、
前記概要短文を内部に含む枠状図形を前記時系列のツリー状に結合した画像情報を生成するツリー画像生成部を
有すること
を特徴とする。
【0010】
また、上記した情報自動収集集約システムにおいて、好ましくは、
前記情報整理部は、
前記データベース部により蓄積された該当ウェブサイト情報のうち、前記時系列で先行する情報である先行情報を選択して表示する。
【0011】
また、上記した情報自動収集集約システムにおいて、好ましくは、
前記情報整理部は、
前記先行情報の選択を少なくとも毎日1回実行し、選択された前記先行情報をその度に情報記憶部に更新する。
【0012】
また、上記した情報自動収集集約システムにおいて、好ましくは、
前記キーワードは、日本国内、又は日本国外の国若しくは地域の事故である。
【0013】
また、上記した情報自動収集集約システムにおいて、好ましくは、
前記情報整理部は、
あらかじめ入力された特定の文字データと、当該特定の文字データに対応する確実性レベルの表を格納するとともに、
前記データベース部により蓄積された該当ウェブサイト情報のうち、前記特定の文字データを含む該当ウェブサイト情報については、前記枠状図形の近傍又は内部に前記確実性レベルを示す文字又は記号を表示する。
【0014】
また、上記した情報自動収集集約システムにおいて、好ましくは、前記先行情報には、最も高い確実性レベルを付与最も高い確実性レベルが付与される。
【0015】
また、上記した情報自動収集集約システムにおいて、好ましくは、
前記特定の文字データは、日本国、又は日本国外の国若しくは地域の行政機関、又は監督官庁の名称を示す文字データであり、
前記特定の文字データに対応する確実性レベルは、前記先行情報の値よりも低いレベルに設定される。
【0016】
また、上記した情報自動収集集約システムにおいて、好ましくは、
前記特定の文字データは、日本国、又は日本国外の国若しくは地域の代表的な報道機関の名称を示す文字データであり、
前記特定の文字データに対応する確実性レベルは、前記行政機関又は監督官庁の名称を示す文字データを含む該当ウェブサイト情報の値よりも低いレベルに設定される。
【0017】
また、上記した情報自動収集集約システムにおいて、好ましくは、前記ウェブサイト巡回部が定期的に収集するウェブサイト情報は、日本国外の国又は地域の安全に関する情報である海外セキュリティ情報である。
【0018】
また、上記した情報自動収集集約システムにおいて、好ましくは、
前記情報整理部は、
前記データベース部により蓄積された前記海外セキュリティ情報のうちの前記先行情報に基づき、前記安全の程度が低い事件の件数をカウントし、前記カウント値に応じて前記日本国外の国又は地域の安全度を演算し出力する。
【0019】
また、上記した情報自動収集集約システムにおいて、好ましくは、
前記情報整理部は、
前記日本国外の国又は地域の安全度の演算及び出力を少なくとも毎日1回実行し、演算及び出力された前記日本国外の国又は地域の安全度をその度に情報記憶部に更新記憶する。
【0020】
また、本発明に係る情報自動収集集約方法は、
多数のコンピュータや電子端末が相互に各種回線で接続されて結ばれるとともに情報を相互に授受可能なコンピュータ・ネットワークであるインタネットと、
前記インタネットに接続されるコンピュータであるサーバと、
前記インタネットに接続されるコンピュータで前記サーバに入力を行うとともに前記サーバが行った情報処理結果を受け取るユーザ端末を
用いて行う情報自動収集集約方法であって、
前記サーバは、
ウェブサイト巡回部により、前記ユーザ端末によって設定されたキーワードに基づき、前記インタネットのウェブサイトを定期的に巡回してウェブサイト情報を収集し、
情報フィルタリング部により、前記ウェブサイト巡回部により収集されたウェブサイト情報のうち、前記キーワードを含む情報である該当ウェブサイト情報のみをふるい分け、
データベース部により、前記情報フィルタリング部により取得された該当ウェブサイト情報を蓄積し、
情報整理部により、前記データベース部により蓄積された該当ウェブサイト情報を時系列のツリー構造となるように整理して出力すること
を特徴とする。
【0021】
【発明の実施の形態】
以下、本発明に係る移動通信網を利用する情報自動収集集約システムの実施形態について、図面を参照しながら詳細に説明する。
【0022】
図1は、本発明の一実施形態である情報自動収集集約システムの全体構成を示す図である。また、図2は、本発明の一実施形態である情報自動収集集約システムにおけるサーバのハードウェア的な構成を示す図である。
【0023】
図1に示すように、この情報自動収集集約システム100は、サーバ10と、インタネット20と、ユーザ端末30を備えて構成されている。ここで、インタネット20は、多数のコンピュータや電子端末が相互に各種回線で接続されて結ばれ、情報を相互に授受することが可能な全世界的なコンピュータ・ネットワークである。また、サーバ10は、インタネット20に回線で接続されたコンピュータであり、以下に説明する情報収集、情報集約、情報整理等の主体となる。また、ユーザ端末は、インタネット20に回線で接続されたコンピュータであり、サーバ10に対して、キーワード等の入力を行い、サーバ10が行った情報収集、情報集約、情報整理等の結果を受け取る。すなわち、ユーザ端末30は、インタネット20を介してサーバ10に接続されている。
【0024】
サーバ10のハードウェア的な構成は、図2に示されている。すなわち、サーバ10は、ハードウェア的にはコンピュータであり、CPU41と、ROM42と、RAM43と、入出力インタフェイス部11を備えて構成されている。
【0025】
これらの構成要素のうち、CPU(Central Processing Unit:中央演算処理装置)41は、CPU41の内部での電流(信号)の授受を行うための信号線である内部バス(図示せず)を有しており、この内部バスに、演算部(図示せず)と、レジスタ(図示せず)と、クロック生成部(図示せず)と、命令処理部(図示せず)等が接続されている。
【0026】
CPU41内の演算部は、レジスタに記憶されている各種データに対して、四則演算(加算、減算、乗算、及び除算)を行い、又は論理演算(論理積、論理和、否定、排他的論理和など)を行い、又はデータ比較、若しくはデータシフトなどの処理を実行する部分である。処理の結果は、レジスタ等に格納される。クロック生成部は、CPU41の各部分の時間の同期をとるための刻時信号(クロック信号)を生成する。CPU41は、このクロック信号に基づいて動作する。命令処理部は、演算部等が実行すべき命令の取り出し、その解読、及びその実行などを制御し処理する。また、CPU41は、クロック信号をもとに、送られてくるデータ又は演算した結果とその時刻をリアルタイムで検出し、RAM43等に一時記憶させる。
【0027】
ROM(Read Only Memory:読出し専用メモリ)42は、CPU41を制御するための制御プログラムや、CPUが用いる各種データ等を格納している。ROM42としては、半導体チップにより構成されるものと、ハードディスク装置等が用いられる。CPU41の制御プログラムには、OS(Operating System)等のCPU41の基本ソフトウェアのほか、各種の処理や分析演算等をCPU41に実行させるための命令等の処理手順が含まれる。
【0028】
また、RAM(Random Access Memory:随時書込み読出しメモリ)43は、CPU41により演算された途中のデータ等を一時記憶する。RAM43は、例えば半導体チップ等により構成される。
【0029】
CPU41によって生成されたディジタル電気信号、又はCPU41へ入力されるディジタル電気信号は、入出力インタフェイス部11を経て外部と授受される。入出力インタフェイス部11内には、ディジタル信号とアナログ信号の変換系であるA/Dコンバータ、D/Aコンバータ等(図示せず)が設けられている。
【0030】
また、ユーザ端末30は、上記した入出力インタフェイス部31と、このインタフェイス部31に接続されるユーザ端末制御部32と、画像表示部33と、入力部34を備えている。ユーザ端末30のハードウェア的な構成は、図2に示されたサーバ10の構成と基本的には同じである。すなわち、ユーザ端末30は、ハードウェア的には、コンピュータである。また、ユーザ端末制御部32は、CPU41と同様なCPU(図示せず)と、ROM42と同様なROM(図示せず)と、RAM43と同様なRAM(図示せず)を備えて構成されている。
【0031】
また、ユーザ端末30の操作やデータ入力等は、キーボードやマウス等の入力部34によって行われ、入力された指令やデータは、入出力インタフェイス部31を経て、ユーザ端末30内のCPU(図示せず)へ送られる。ユーザ端末内のCPU(図示せず)により演算された結果等は、入出力インタフェイス部31を経て、ブラウン管や液晶表示器等からなる画像表示部33へ送られ画像や文字・数字等として画面に表示される。また、ユーザ端末内のCPU(図示せず)により演算された結果等は、入出力インタフェイス部31を経て、さらにプリンタ(図示せず)により紙に印刷されて出力することができるようになっている。
【0032】
次に、上記したサーバ10のソフトウェア的な構成について、図1を参照しつつ説明する。すなわち、図1に示すように、サーバ10は、上記した入出力インタフェイス部11と、このインタフェイス部11に接続されるウェブサイト巡回部12と情報フィルタリング部13とデータベース部14と情報整理部15を備えている。これらのウェブサイト巡回部12と情報フィルタリング部13とデータベース部14と情報整理部15は、上記したCPU41がROM42とRAM43と共同しながら実行するソフトウェア・プログラムによって実現される。
【0033】
次に、この実施形態の情報自動収集集約システム100の作用について説明する。
【0034】
サーバ10のウェブサイト巡回部12は、インタネット20のウェブサイトを定期的に巡回してウェブサイト情報を収集する。このようなウェブサイト巡回部12を実現するソフトウェアは、インタネット巡回エンジンなどと呼ばれる。このウェブサイト巡回部12を実現するソフトウェアは、サーバ10のROM42等に格納されてており、CPU41が実行する。また、蓄積されたデータは、RAM43等に格納される。RAM43は、特許請求の範囲における情報記憶部に相当している。
【0035】
ウェブサイト巡回部12は、インタネット20上に存在する多数のウェブサイト(ホームページ)を特定するアドレスであるURLをデータとしてメモリ(RAM43等)に格納し、新たなURLを取得した場合には、メモリ(RAM43等)に書き加えて格納するようになっている。ウェブサイト巡回部12は、所定の時間が経過するごとに、インタネット閲覧ソフトウェアを起動する。時間の経過は、CPU41の上記したクロック信号に基づき、CPU41が、ROM42等に格納されている計時ソフトウェアを実行して計測する。また、インタネット閲覧ソフトウェアとは、インタネットを閲覧するためのソフトウェアであり、例えば、いわゆる「インタネット・エクスプローラ(登録商標)」などがこれに該当する。
【0036】
インタネット閲覧ソフトウェアを起動したのち、ウェブサイト巡回部12は、記憶しているURLにより、インタネット20上に存在する各ウェブサイトを呼び出し、その内容であるコンテンツ情報を収集する。収集されるコンテンツ情報としては、そのウェブサイトに表示されている文字データがあげられる。
【0037】
ここで、ユーザ端末30の入力部34によって、収集したい情報を特定するキーワードが入力されて設定される。このキーワードは、インタネット20を経てサーバ10に送られる。この場合、サーバ10のCPU41は、入力されたキーワードに基づき、上記したウェブサイト巡回部12を起動させ、上記と同様にして、インタネット20のウェブサイトを定期的に巡回し、コンテンツ情報(例えば文字データ)を収集する。
【0038】
次に、情報フィルタリング部13は、ウェブサイト巡回部12により収集されたコンテンツ情報(例えば文字データ)のうち、設定されたキーワードを含む情報(以下、「該当ウェブサイト情報」という。)のみをふるいわけ、この該当ウェブサイト情報を取得する。この情報フィルタリング部13を実現するソフトウェアは、サーバ10のROM42等に格納されており、CPU41が実行する。また、蓄積されたデータは、RAM43等に格納される。
【0039】
このような情報フィルタリング部13の基幹となるソフトウェアは、インタネット検索エンジンなどと呼ばれる。インタネット検索エンジンは、インタネットにおいて、キーワードを含む文字データを有するウェブサイトのうち、キーワードの趣旨に最も適合すると判別されるウェブサイトを上位(最初に近い部分)にして画面表示するためのソフトウェアであり、例えば、いわゆる「Google(登録商標)」などがこれに該当する。
【0040】
インタネット検索エンジンのプログラムでは、「設定されたキーワードで、他のウェブサイトから、最も多く引用されているウェブサイトが、そのキーワードに最も適したウェブサイトである」という論理(ロジック)により、最も適したウェブサイトを画面の先頭に配置して表示し、次に適したウェブサイトを画面の2番目に配置して表示する、というようにして、画面に表示する。このような論理の方が、単に「キーワードを多く含むウェブサイトを上位のウェブサイトとする」とする機械的論理のインタネット検索エンジンよりも、より確からしく、よりキーワードの趣旨に沿ったウェブサイトを選択することができる、という利点がある。
【0041】
情報フィルタリング部13は、上記したインタネット検索エンジンのうち、「設定されたキーワードで、他のウェブサイトから、最も多く引用されているウェブサイトが、そのキーワードに最も適したウェブサイトである」という論理によって画面表示する前の段階で、最も適したウェブサイトを選択し、次に適したウェブサイトを選択する段階までのプログラムを有している。これにより、情報フィルタリング部13は、選択されたウェブサイトからのウェブサイト情報のみを、選択された順序、すなわち最も確からしい順序で、該当ウェブサイト情報として取得し、キーワードを含まない情報は、取得しない。これにより、ウェブサイトのコンテンツ情報(例えば文字データ)の「ふるい分け」が行われる。
【0042】
次に、情報フィルタリング部13により取得された該当ウェブサイト情報は、データベース部14に送られ、蓄積される。このデータベース部14を実現するソフトウェアは、サーバ10のROM42等に格納されており、CPU41が実行する。また、蓄積されたデータは、RAM43等に格納される。データベースは、多数の情報が、そのアドレスとともに記憶されたものであり、アドレスを指定することにより、その情報内容に一義的にアクセスすることができるシステムである。
【0043】
その後、データベース部14により蓄積された該当ウェブサイト情報は、情報整理部15により、時系列で、かつツリー構造となるように整理され、出力される。ここに、時系列とは、時間の順序に応じたデータ列ということであり、時間的に古いデータが先行されて配置され、時間的に新しいデータが後続されて配置されている。また、ツリー構造とは、データが、関連するグループごとに樹枝状に並べて整理された構造をいい、グループ内で基本となるデータが幹に相当する部分に配置され、グループ内で付随事項となるデータが枝葉に相当する部分に配置されている。この情報整理部15を実現するソフトウェアは、サーバ10のROM42等に格納されており、CPU41が実行する。また、整理されて出力されたデータは、RAM43等に格納される。
【0044】
次に、情報整理部15のさらに詳細な構成について説明する。図3は、本発明の一実施形態の情報自動収集集約システム100における情報整理部のソフトウェア的な詳細構成を示す図である。
【0045】
図3に示すように、情報整理部15は、ソフトウェア的には、要約生成部16と、ツリー画像生成部17を有して構成されている。
【0046】
これらのうち、要約生成部16は、時系列のツリー構造に整理された該当ウェブサイト情報の文字データの内容を、所定字数以下の文章である概要短文に要約して出力する。この要約生成部16を実現するソフトウェアは、サーバ10のROM42等に格納されており、CPU41が実行する。また、蓄積されたデータは、RAM43等に格納される。
【0047】
次に、ツリー画像生成部17の出力により表示される画面(図4参照)に基づき、ツリー画像生成部17の作用を説明する。すなわちツリー画像生成部17は、要約生成部16が出力した概要短文を用い、図4に示すように、概要短文を内部に含む枠状図形A1〜A10を時系列のツリー状に結合した画像情報を生成し、出力する。このツリー画像生成部17を実現するソフトウェアは、サーバ10のROM42等に格納されており、CPU41が実行する。また、蓄積されたデータは、RAM43等に格納される。
【0048】
この画像情報は、サーバ10からインタネット20を経てユーザ端末30が受け取り、図4のツリー画像が、ユーザ端末30の画像表示部33の画面に表示される。図4のツリー画像においては、概要短文を含む枠状図形A1等が、樹枝状に並べて整理されており、グループ内で時間的に古いものが左側となるように配置され、グループ内で時間的に新しいものが右側となるように配置されている。また、樹枝の枝分かれは、概要短文の内容の相違(グループの相違)を示している。
【0049】
図4のツリー画像において、例えば、枠状図形A1は、この画像が意味する時系列のデータの範囲内で、最も時間的に先行する(古い)情報(以下、「先行情報」という。)であることを示している。このことは、先行情報は、情報A1〜A10のうちで最も基本的な情報(元の情報)であることを推測させる。したがって、情報整理部15は、このA1を先行情報として出力し、A1の内容である概要短文の文字データを、RAM43等に格納する。
【0050】
このようにして、ユーザ端末30の使用者は、キーワードを設定入力することにより、図4のようなツリー画像を画像表示部33の画面で見ることができ、最も元の情報であろうと推定される先行情報A1を得ることができる。
【0051】
上記した情報自動収集集約システム100は、上記したように、設定されたキーワードに基づき、情報収集・集約を、自動的に、例えば毎日実行し、毎日1回、その結果、(例えば、上記したツリー画像や先行情報など)を検出して出力し、RAM43等の情報記憶部に更新記憶しておく。したがって、ユーザ端末30の使用者がキーワードを設定した場合には、最新の結果が画像表示部33に表示されるように構成されているので、ユーザ端末30の使用者は、日々更新された最新の結果を把握することができる。なお、情報整理部15が行う情報収集・集約と結果の更新・記憶は、毎日2回以上行うように構成してもよく、少なくとも毎日1回行うように構成すればよい。
【0052】
以下に、上記した情報自動収集集約システム100によって行える情報収集・集約の具体例を説明する。
【0053】
第1の具体例は、情報フィルタリング部13が、ウェブサイト巡回部12により収集されたコンテンツ情報(例えば文字データ)のうち、該当ウェブサイト情報をふるい分けるときのキーワードが「日本国内」かつ「鉄道事故」の場合である。
【0054】
この場合には、情報整理部15は、ROM42内に、あらかじめ入力されて格納されてある複数の表を具備している。これらの表の中から、情報整理部15は、キーワードが「日本国内」かつ「鉄道事故」の場合には、ある該当する表を選択する。選択された表においては、「日本国内」の「鉄道事故」の監督官庁である「国土交通省」という文字データに、確実性レベル「AA」が対応し、かつ、「○○新聞社」と「△△TV会社」という文字データのそれぞれに、確実性レベル「A」が対応している。この場合、「○○新聞社」及び「△△TV会社」は、日本国を代表する報道機関(各メディアごとに一又は数社とする)を、あらかじめ選択し、入力しておく。
【0055】
そして、情報整理部15は、データベース部14により蓄積された該当ウェブサイト情報のうち、上記した「国土交通省」の文字データを含む該当ウェブサイト情報については、枠状図形(図4におけるA1〜A10)の近傍又は内部(例えば、図4における枠状図形の右肩外部)に、確実性レベル「AA」を示す文字又は記号を表示するように制御する。例えば、画面では、図4における枠状図形A3及びA4のように表示される。この確実性レベル「AA」は、確実性が二番目に高いこと、すなわち信頼度が二番目に高いことを示している。最も確実性(信頼度)が高いレベルについては後述する。
【0056】
同様に、情報整理部15は、データベース部14により蓄積された該当ウェブサイト情報のうち、上記した「○○新聞社」、又は「△△TV会社」の文字データを含む該当ウェブサイト情報については、枠状図形(図4におけるA1〜A10)の近傍又は内部(例えば、図4における枠状図形の右肩外部)に、確実性レベル「A」を示す文字又は記号を表示するように制御する。例えば、画面では、図4における枠状図形A10のように表示される。この確実性レベル「A」は、確実性が「AA」の次に高いこと、すなわち信頼度が三番目に高いことを示している。
【0057】
この場合、確実性レベル「AA」又は「A」が付加された枠状図形A1等のうち、最も古い情報、すなわち、最も元の情報であろうと推定される先行情報を抽出する。例えば、いま、この先行情報が、枠状図形A1であったとする。その場合、情報整理部15は、抽出された枠状図形(図4におけるA1)の近傍又は内部(例えば、図4における枠状図形の右肩外部)に、確実性レベル「AAA」を示す文字又は記号を表示するように制御する。例えば、画面では、図4における枠状図形A1のように表示される。この確実性レベル「AAA」は、確実性が最も高いこと、すなわち信頼度が一番目に高いことを示している。
【0058】
上記の例を応用し、情報整理部15は、キーワードが「日本国内」かつ「食中毒」の場合には、監督官庁「厚生労働省」の文字データを含む該当ウェブサイト情報については確実性レベルが「AA」で、国内の代表的報道機関「○○新聞社」又は「△△TV会社」の文字データを含む該当ウェブサイト情報については確実性レベルが「A」であるような表を選択するように構成してもよい。この場合、確実性レベル「AA」は、確実性が二番目に高いことを示し、確実性レベル「A」は、確実性が三番目に高いことを示すものとする。
【0059】
また、情報整理部15は、キーワードが「日本国内」かつ「原発事故」の場合には、監督官庁「経済産業省」の文字データを含む該当ウェブサイト情報については確実性レベルが「AA」で、国内の代表的報道機関「○○新聞社」又は「△△TV会社」の文字データを含む該当ウェブサイト情報については確実性レベルが「A」であるような表を選択するように構成してもよい。この場合、確実性レベル「AA」は、確実性が二番目に高いことを示し、確実性レベル「A」は、確実性が三番目に高いことを示すものとする。
【0060】
また、情報整理部15は、キーワードが「日本国外の国又は地域」かつ「鉄道事故」の場合には、例えばアメリカ合衆国の監督官庁である「DOT(米国運輸省)」や「NTSB(米国運輸安全委員会)」等、各国の運輸・鉄道関係の監督官庁(行政機関)の文字データを含む該当ウェブサイト情報については確実性レベルが「AA」で、世界各国の代表的報道機関「……新聞社」又は「……TV会社」の文字データを含む該当ウェブサイト情報については確実性レベルが「A」であるような表を選択するように構成してもよい。この場合、確実性レベル「AA」は、確実性が二番目に高いことを示し、確実性レベル「A」は、確実性が三番目に高いことを示すものとする。
【0061】
そして、確実性レベル「AA」又は「A」が付加された枠状図形A1等のうち、最も古い情報、すなわち、最も元の情報であろうと推定される先行情報を抽出する。例えば、いま、この先行情報が、枠状図形Anであったとする。その場合、情報整理部15は、抽出された枠状図形Anの近傍又は内部(例えば、枠状図形の右肩外部)に、確実性レベル「AAA」を示す文字又は記号を表示するように制御する。この確実性レベル「AAA」は、確実性が最も高いこと、すなわち信頼度が一番目に高いことを示す。
【0062】
なお、上記の例を応用し、一般に、以下のような情報収集・集約を行うようにしてもよい。この場合には、情報フィルタリング部13が、ウェブサイト巡回部12により収集されたコンテンツ情報(例えば文字データ)のうち、該当ウェブサイト情報をふるい分けるときのキーワードを「X」と設定する。
【0063】
この場合には、情報整理部15は、ROM42内に、あらかじめ入力されて格納されてある複数の表を具備している。これらの表の中から、情報整理部15は、キーワードが「X」の場合には、ある該当する表を選択する。選択された表においては、「X」に関連する語「Ym」(例えばXの国内又は国外の監督官庁の名称である「……省」など)という文字データに、確実性レベル「Zm」が対応し、かつ、語「Yn」(例えば各国の代表的報道機関である「……新聞社」や「……TV会社」の名称)という文字データに、確実性レベル「Zn」が対応している。この場合、「……新聞社」、「……TV会社」などは、各国を代表する報道機関(各メディアごとに一又は数社とする)を、あらかじめ選択し、入力しておく。また、この場合、確実性レベル「Zm」は、確実性がm(m:m>2なる整数)番目に高いことを示し、確実性レベル「Zn」は、確実性がn(n:m>nなる整数)番目に高いことを示すものとする。
【0064】
そして、情報整理部15は、データベース部14により蓄積された該当ウェブサイト情報のうち、上記した「Ym」の文字データを含む該当ウェブサイト情報については、画面上の枠状図形の近傍又は内部に、確実性レベル「Zm」を示す文字又は記号を表示するように制御する。
【0065】
同様に、情報整理部15は、データベース部14により蓄積された該当ウェブサイト情報のうち、上記した「Yn」の文字データを含む該当ウェブサイト情報については、画面上の枠状図形(の近傍又は内部に、確実性レベル「Zn」を示す文字又は記号を表示するように制御する。
【0066】
そして、確実性レベル「Zm」、「Zn」などが付加された画面上の枠状図形のうち、最も古い情報、すなわち、最も元の情報であろうと推定される先行情報を抽出する。情報整理部15は、抽出された枠状図形の近傍又は内部(例えば、枠状図形の右肩外部)に、確実性レベル「Z1」を示す文字又は記号を表示するように制御する。この確実性レベル「Z1」は、確実性が最も高いこと、すなわち信頼度が一番目に高いことを示す。
【0067】
このように、あらかじめ入力された特定の文字データ「Y」、例えばYm等と、当該特定の文字データ「Y」に対応する確実性レベル「Z」、例えばZm等の対応表を格納するとともに、データベース部により蓄積された該当ウェブサイト情報のうち、特定の文字データ「Y」を含む該当ウェブサイト情報については、枠状図形の近傍又は内部に確実性レベル「Z」を示す文字又は記号を表示するようにしておけば、時系列のツリー画面を見る操作者に、より確実性の高い情報がどれであるかを、明確に示すことができる。
【0068】
なお、上記において、報道機関のメディアとしては、新聞、TV放送、雑誌、ラジオ放送などが挙げられる。また、確実性レベルとしては、上記したA、AA、AAAなどのほか、1、2、3等の評価、1、10、100、1000等の対数値などが挙げられる。
【0069】
次に、上記した情報自動収集集約システム100によって行える情報収集・集約の第2の具体例としては、下記のものが挙げられる。
【0070】
この場合には、ウェブサイト巡回部12が定期的に収集するインタネット・ウェブサイト情報として、日本国外の国又は地域の安全又は危険に関する情報(以下、「海外セキュリティ情報」という。)を設定する。この海外セキュリティ情報には、日本国外の国又は地域における危険な事故、又は危険な犯罪等の事件の発生数(以下、「危険事故等発生数」という。)が含まれる。この危険事故等発生数の値を、期間で除することにより、危険事故等の発生率を算出することができる。また、危険犯罪事件であれば、発生した危険犯罪事件のうち、犯人が逮捕された割合を「事件解決率」として算出することができる。さらに、時間的な変化率(対前年比、対前月比など)により、改善傾向や改悪傾向なども算出することができる。
【0071】
また、この場合、情報整理部15は、データベース部14によって蓄積された海外セキュリティ情報のうち、上記した先行情報を抽出する。この先行情報は、多数のインタネット情報のうち、「最も確からしい海外セキュリティ情報」を意味している。その後情報整理部15は、その先行情報に基づき、安全の程度が低い(すなわち危険な)事件の件数を、海外の各国又は地域ごとに、リアルタイムでカウントする。その後、情報整理部15は、そのカウント値に応じて日本国外の国又は地域を、安全(あるいは危険)の観点からランク分け(グループ分け)し、その結果を出力(例えば、ユーザ端末30の画像表示部33に、表やグラフ等の表示)する。
【0072】
例えば、指標としての危険事故等発生数が、1日当たりN1〜N2のランク、というようなランク分けである。ここに、N1、N2には、数値が設定される。危険事故等の発生率、事件解決率などについても同様である。
【0073】
さらに、情報整理部15は、各指標のランクに入った国や地域を、その各指標のランクを総合して総合評価値を出力し、その総合評価値に応じて、安全度又は危険度を演算するようにしてもよい。例えば、総合評価値として、各指標値に重み計数を乗じて総和した値などを用いてもよい。
【0074】
上記した情報自動収集集約システム100の情報収集・集約の第2の具体例の場合も、設定されたキーワードに基づき、情報収集・集約を、自動的に、例えば毎日実行し、毎日1回、その結果、(例えば、上記した危険事故等発生数、発生率、事件解決率、時間変化率、総合評価値など)を検出して出力し、RAM43等の情報記憶部に更新記憶しておく。したがって、ユーザ端末30の使用者がキーワードを設定した場合には、最新の結果が画像表示部33に表示されるように構成されているので、ユーザ端末30の使用者は、日々更新された最新の結果を把握することができる。なお、情報整理部15が行う情報収集・集約と結果の更新・記憶は、毎日2回以上行うように構成してもよく、少なくとも毎日1回行うように構成すればよい。
【0075】
上記したように、本実施形態の情報自動収集集約システムによれば、インタネットを利用して迅速に(リアルタイムで)情報を収集することができ、キーワードを用いて効果的に情報を絞り込んで集約し、更新・記憶するので、使用者は、元の情報と推定される先行情報等を少なくとも1日に1回、把握することができる、という利点を有している。
【0076】
なお、本発明は、上記各実施形態に限定されるものではない。上記各実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。
【0077】
例えば、要約生成部16は、図示はしていないが、英語等の外国語を日本語に翻訳する翻訳ソフトウェアを内蔵し、海外のコンテンツ情報の文字データから、日本語の概要短文を作成するように構成してもよい。このように構成すれば、海外のインタネット・ウェブサイト情報から、日本人に役立つ情報の元情報を、リアルタイムで集約することができる。
【0078】
【発明の効果】
以上説明したように、本発明によれば、多数のコンピュータや電子端末が相互に各種回線で接続されて結ばれるとともに情報を相互に授受可能なコンピュータ・ネットワークであるインタネットと、インタネットに接続されるコンピュータであるサーバと、インタネットに接続されるコンピュータでサーバに入力を行うとともにサーバが行った情報処理結果を受け取るユーザ端末を備えた情報自動収集集約システムであって、サーバは、ユーザ端末によって設定されたキーワードに基づきインタネットのウェブサイトを定期的に巡回してウェブサイト情報を収集するウェブサイト巡回部と、ウェブサイト巡回部により収集されたウェブサイト情報のうちキーワードを含む情報である該当ウェブサイト情報のみをふるい分けて取得する情報フィルタリング部と、情報フィルタリング部により取得された該当ウェブサイト情報を蓄積するデータベース部と、データベース部により蓄積された該当ウェブサイト情報を時系列のツリー構造となるように整理して出力する情報整理部を備えるように構成したので、設定されたキーワードに基づき、情報収集・集約を、自動的に、かつ定期的に実行し、その都度その結果を検出して出力し、更新記憶しておくことができ、ユーザ端末の使用者がキーワードを設定した場合には、最新の情報集約・整理結果をユーザ端末側に表示することができる、という利点を有している。
【図面の簡単な説明】
【図1】本発明の一実施形態である情報自動収集集約システムの全体構成を示す図である。
【図2】本発明の一実施形態である情報自動収集集約システムにおけるサーバのハードウェア的な構成を示す図である。
【図3】本発明の一実施形態の情報自動収集集約システムにおける情報整理部のソフトウェア的な詳細構成を示す図である。
【図4】本発明の一実施形態である情報自動収集集約システムにおける情報処理結果の画面表示例を示す図である。
【符号の説明】
10 サーバ
11 入出力インタフェイス部
12 ウェブサイト巡回部
13 情報フィルタリング部
14 データベース部
15 情報整理部
16 要約生成
17 ツリー画像生成
20 インタネット
30 ユーザ端末
31 入出力インタフェイス部
32 ユーザ端末制御部
33 画像表示部
34 入力部
41 CPU
42 ROM
43 RAM
100 情報自動収集集約システム
A1〜A10 要約情報[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an automatic information collection and aggregation system and an automatic information collection and aggregation method for automatically collecting website information on the Internet based on set keywords and aggregating the website information.
[0002]
[Prior art]
When a Japanese company does business with a company outside of Japan, or a Japanese citizen travels in a country or region outside of Japan, it is often the case that information about the company or the local situation is collected and measures are taken. For this reason, the method of obtaining information and the reliability of the obtained information content become problems.
[0003]
Conventionally, sources of information include publications such as books and pamphlets, and video tapes. However, books and the like take time to be published, and are old as information when the reader obtains the information, and the situation in the local area may have already changed. Further, in the case of a book or the like, the subjectivity of the author may be included, and when making a decision based on the information, a biased decision is often made. In addition, in countries where Japanese citizens are resident or countries where Japanese people frequently come and go, the information is abundant, but in other countries the information itself is small and the information source is limited. In some cases, it was not appropriate as a source of accurate judgment.
[0004]
For this reason, at present, a method of searching for and obtaining information using the Internet is known (for example, see Patent Document 1).
[0005]
[Patent Document 1]
JP 2001-184397 A (page 1-18, FIG. 1-12)
[0006]
[Problems to be solved by the invention]
However, in the above-described conventional information search system using the Internet, there is a problem that even if a keyword is set, it is difficult to narrow down desired information.
[0007]
SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and the problem to be solved by the present invention is to collect information quickly by using the Internet and to narrow down information effectively by using keywords. It is an object of the present invention to provide an automatic information collection / aggregation system and a method therefor that can be aggregated and organized by using the above.
[0008]
[Means for Solving the Problems]
In order to solve the above-mentioned problems, an information automatic collection and aggregation system according to the present invention includes:
Internet, which is a computer network where many computers and electronic terminals are mutually connected and connected by various lines, and can exchange information with each other;
A server which is a computer connected to the Internet;
A user terminal that inputs information to the server with a computer connected to the Internet and receives a result of information processing performed by the server.
An automatic information collection and aggregation system with
The server comprises:
A website circulating unit that periodically traverses the website of the Internet and collects website information based on a keyword set by the user terminal;
Among the website information collected by the website patrol unit, an information filtering unit that obtains only the corresponding website information that is the information including the keyword by sieving,
A database unit that stores the website information acquired by the information filtering unit;
An information organizing unit for organizing and outputting the corresponding website information accumulated by the database unit into a time-series tree structure;
Having prepared
It is characterized by.
[0009]
In the above information automatic collection and aggregation system, preferably,
The information organizing unit includes:
A summary creation unit for summarizing the contents of the website information arranged in the time-series tree structure into an outline short sentence that is a sentence having a predetermined number of characters or less;
A tree image generating unit that generates image information in which the frame-shaped figure including the outline short sentence is combined in the time-series tree shape;
Having
It is characterized by.
[0010]
In the above information automatic collection and aggregation system, preferably,
The information organizing unit includes:
The preceding information, which is the preceding information in the time series, is selected and displayed from the corresponding website information accumulated by the database unit.
[0011]
In the above information automatic collection and aggregation system, preferably,
The information organizing unit includes:
The selection of the preceding information is performed at least once a day, and the selected preceding information is updated in the information storage unit each time.
[0012]
In the above information automatic collection and aggregation system, preferably,
The keyword is an accident in Japan or a country or region outside Japan.
[0013]
In the above information automatic collection and aggregation system, preferably,
The information organizing unit includes:
While storing a table of specific character data previously input and a certainty level corresponding to the specific character data,
For the corresponding website information including the specific character data among the corresponding website information accumulated by the database unit, a character or a symbol indicating the certainty level is displayed near or inside the frame-shaped graphic.
[0014]
In the above information automatic collection and aggregation system, preferably, the preceding information is provided with the highest certainty level and the highest certainty level.
[0015]
In the above information automatic collection and aggregation system, preferably,
The specific character data is character data indicating the name of Japan, or an administrative organization of a country or region outside Japan, or a regulatory agency,
The certainty level corresponding to the specific character data is set to a level lower than the value of the preceding information.
[0016]
In the above information automatic collection and aggregation system, preferably,
The specific character data is character data indicating the name of a representative news organization in Japan or a country or region outside Japan,
The certainty level corresponding to the specific character data is set to a level lower than the value of the corresponding website information including the character data indicating the name of the administrative organization or the supervisory agency.
[0017]
In the above information automatic collection and aggregation system, preferably, the website information periodically collected by the website patrol unit is overseas security information that is information relating to safety in a country or region outside Japan.
[0018]
In the above information automatic collection and aggregation system, preferably,
The information organizing unit includes:
Based on the preceding information of the overseas security information accumulated by the database unit, count the number of incidents with a low degree of security, and determine the degree of security of the country or region outside Japan according to the count value. Calculate and output.
[0019]
In the above information automatic collection and aggregation system, preferably,
The information organizing unit includes:
The calculation and output of the degree of security of the country or region outside of Japan are executed at least once daily, and the calculated and output degree of safety of the country or region outside of Japan is updated and stored in the information storage unit each time.
[0020]
Further, the information automatic collection and aggregation method according to the present invention,
Internet, which is a computer network where many computers and electronic terminals are mutually connected and connected by various lines, and can exchange information with each other;
A server which is a computer connected to the Internet;
A user terminal that inputs information to the server with a computer connected to the Internet and receives a result of information processing performed by the server.
An automatic information collection and aggregation method using
The server comprises:
A website patrol unit, based on a keyword set by the user terminal, periodically visits the Internet website to collect website information,
By the information filtering unit, among the website information collected by the website patrol unit, only the corresponding website information that is information including the keyword is sifted,
The database unit stores the relevant website information acquired by the information filtering unit,
The information organizing unit arranges and outputs the corresponding website information accumulated by the database unit into a time-series tree structure.
It is characterized by.
[0021]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, an embodiment of an automatic information collection and aggregation system using a mobile communication network according to the present invention will be described in detail with reference to the drawings.
[0022]
FIG. 1 is a diagram showing an overall configuration of an information automatic collection and aggregation system according to an embodiment of the present invention. FIG. 2 is a diagram showing a hardware configuration of a server in the automatic information collection and aggregation system according to one embodiment of the present invention.
[0023]
As shown in FIG. 1, the automatic information collection and
[0024]
FIG. 2 shows a hardware configuration of the
[0025]
Among these components, a CPU (Central Processing Unit) 41 has an internal bus (not shown) which is a signal line for transmitting and receiving a current (signal) inside the
[0026]
The arithmetic unit in the
[0027]
A ROM (Read Only Memory) 42 stores a control program for controlling the
[0028]
A RAM (Random Access Memory: random access memory) 43 temporarily stores data and the like calculated by the
[0029]
A digital electric signal generated by the
[0030]
The
[0031]
The operation and data input of the
[0032]
Next, a software configuration of the
[0033]
Next, the operation of the information automatic collection and
[0034]
The website patrol unit 12 of the
[0035]
The website circulating unit 12 stores URLs, which are addresses for specifying a large number of websites (homepages) existing on the
[0036]
After activating the Internet browsing software, the website circulating unit 12 calls each website existing on the
[0037]
Here, a keyword for specifying information to be collected is input and set by the
[0038]
Next, the
[0039]
Such software serving as the backbone of the
[0040]
In Internet search engine programs, the most suitable logic is based on the logic that "the website that is most cited by other websites with the set keyword is the most suitable website for the keyword". The displayed website is placed at the top of the screen and displayed, and the next suitable website is placed and displayed at the second position on the screen, and so on. Such a logic is more reliable and more relevant to the purpose of the keyword than an Internet search engine with mechanical logic that simply considers a website with many keywords as the top website. There is an advantage that it can be selected.
[0041]
The
[0042]
Next, the corresponding website information acquired by the
[0043]
Thereafter, the corresponding website information accumulated by the
[0044]
Next, a more detailed configuration of the
[0045]
As shown in FIG. 3, the
[0046]
Among these, the
[0047]
Next, the operation of the tree
[0048]
This image information is received by the
[0049]
In the tree image of FIG. 4, for example, the frame-shaped figure A1 is the information that is the earliest in time (old) (hereinafter referred to as “preceding information”) within the time-series data range that this image means. It indicates that there is. This presumes that the preceding information is the most basic information (original information) among the information A1 to A10. Therefore, the
[0050]
In this way, the user of the
[0051]
As described above, the information automatic collection /
[0052]
Hereinafter, a specific example of the information collection / aggregation that can be performed by the information automatic collection /
[0053]
In the first specific example, the keyword used when the
[0054]
In this case, the
[0055]
Then, the
[0056]
Similarly, the
[0057]
In this case, the oldest information, that is, the preceding information that is presumed to be the most original information, is extracted from the frame-shaped graphic A1 or the like to which the certainty level “AA” or “A” is added. For example, it is assumed that the preceding information is a frame-shaped graphic A1. In this case, the
[0058]
Applying the above example, when the keyword is “in Japan” and “food poisoning”, the
[0059]
When the keyword is “Japan” and “nuclear power plant accident”, the certainty level of the relevant website information including the character data of the regulatory agency “METI” is “AA”. , For the relevant website information including the character data of the representative domestic news media “XX Newspaper” or “@TV Company”, select the table whose certainty level is “A”. You may. In this case, the certainty level “AA” indicates that the certainty is the second highest, and the certainty level “A” indicates that the certainty is the third highest.
[0060]
When the keyword is “country or region outside of Japan” and “railroad accident”, the
[0061]
Then, of the frame-shaped graphic A1 or the like to which the certainty level “AA” or “A” is added, the oldest information, that is, the preceding information that is presumed to be the most original information is extracted. For example, it is assumed that the preceding information is a frame-shaped graphic An. In this case, the
[0062]
In addition, by applying the above example, generally, the following information collection / aggregation may be performed. In this case, the
[0063]
In this case, the
[0064]
Then, the
[0065]
Similarly, the
[0066]
Then, among the frame-shaped figures on the screen to which the certainty levels “Zm”, “Zn” and the like are added, the oldest information, that is, the preceding information that is presumed to be the most original information is extracted. The
[0067]
In this way, a correspondence table of specific character data “Y”, for example, Ym, etc. previously input and a certainty level “Z”, for example, Zm, etc. corresponding to the specific character data “Y” is stored, Characters or symbols indicating the certainty level "Z" are displayed near or inside the frame-shaped graphic for the relevant website information that includes the specific character data "Y" among the relevant website information accumulated by the database unit. By doing so, it is possible to clearly show the operator who looks at the time-series tree screen which information has higher certainty.
[0068]
In the above, the media of the news media include newspapers, TV broadcasts, magazines, and radio broadcasts. In addition, as the certainty level, in addition to A, AA, and AAA described above, evaluations such as 1, 2, 3, and the like, logarithmic values such as 1, 10, 100, and 1000, and the like can be given.
[0069]
Next, as a second specific example of the information collection / aggregation that can be performed by the above-described automatic information collection /
[0070]
In this case, information relating to safety or danger in a country or region outside Japan (hereinafter referred to as “overseas security information”) is set as Internet website information that the website patrol unit 12 periodically collects. This overseas security information includes the number of occurrences of dangerous accidents or dangerous crimes in countries or regions outside Japan (hereinafter, referred to as “the number of dangerous accidents”). By dividing the value of the number of occurrences of dangerous accidents and the like by the period, the occurrence rate of dangerous accidents and the like can be calculated. In the case of a dangerous crime case, the ratio of arrested criminals in the occurred dangerous crime cases can be calculated as the “case resolution rate”. Further, an improvement tendency, an aggravation tendency, and the like can be calculated from a temporal change rate (year-on-year change, month-on-month change, and the like).
[0071]
In this case, the
[0072]
For example, the classification is such that the number of occurrences of dangerous accidents or the like as an index is a rank of N1 to N2 per day. Here, numerical values are set in N1 and N2. The same applies to the occurrence rate of dangerous accidents, the case resolution rate, and the like.
[0073]
Further, the
[0074]
Also in the case of the second specific example of the information collection / aggregation of the information automatic collection /
[0075]
As described above, according to the automatic information collection and aggregation system of the present embodiment, information can be collected quickly (in real time) using the Internet, and information can be effectively narrowed down and aggregated using keywords. , Updated and stored, the user has the advantage of being able to grasp the precedent information and the like presumed to be the original information at least once a day.
[0076]
Note that the present invention is not limited to the above embodiments. Each of the above embodiments is an example, and has substantially the same configuration as the technical idea described in the scope of the claims of the present invention, and any device having the same operation and effect can be obtained. It is included in the technical scope of the present invention.
[0077]
For example, although not shown, the
[0078]
【The invention's effect】
As described above, according to the present invention, a large number of computers and electronic terminals are connected to each other by various lines and are connected to the Internet, which is a computer network capable of exchanging information with each other. An automatic information collection and aggregation system including a server that is a computer and a user terminal that inputs data to the server with a computer connected to the Internet and receives an information processing result performed by the server, wherein the server is set by the user terminal. Website circulating unit that periodically traverses the Internet website based on the keywords that have been collected to collect website information, and the corresponding website information that is information that includes the keyword among the website information collected by the website circulating unit Information file to obtain only And a database section for storing the corresponding website information acquired by the information filtering section, and an information organizing section for organizing and outputting the corresponding website information accumulated by the database section into a time-series tree structure. The information collection / aggregation is automatically and periodically executed based on the set keywords, and the result is detected and output each time, and updated and stored. This has the advantage that when the user of the user terminal sets a keyword, the latest information aggregation / arrangement result can be displayed on the user terminal side.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating an overall configuration of an information automatic collection and aggregation system according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating a hardware configuration of a server in the automatic information collection and aggregation system according to an embodiment of the present invention.
FIG. 3 is a diagram illustrating a detailed software configuration of an information organizing unit in the automatic information collection and aggregation system according to the embodiment of the present invention.
FIG. 4 is a diagram showing a screen display example of an information processing result in the automatic information collection and aggregation system according to one embodiment of the present invention.
[Explanation of symbols]
10 Server
11 I / O interface
12 Website patrol department
13 Information filtering part
14 Database section
15 Information Organizing Department
16 Summary generation
17 Tree image generation
20 Internet
30 user terminals
31 I / O interface
32 User terminal control unit
33 Image display
34 Input section
41 CPU
42 ROM
43 RAM
100 Automatic information collection and aggregation system
A1 to A10 summary information
Claims (13)
前記インタネットに接続されるコンピュータであるサーバと、
前記インタネットに接続されるコンピュータで前記サーバに入力を行うとともに前記サーバが行った情報処理結果を受け取るユーザ端末を
備えた情報自動収集集約システムであって、
前記サーバは、
前記ユーザ端末によって設定されたキーワードに基づき、前記インタネットのウェブサイトを定期的に巡回してウェブサイト情報を収集するウェブサイト巡回部と、
前記ウェブサイト巡回部により収集されたウェブサイト情報のうち、前記キーワードを含むウェブサイト情報である該当ウェブサイト情報のみをふるい分けて取得する情報フィルタリング部と、
前記情報フィルタリング部により取得された該当ウェブサイト情報を蓄積するデータベース部と、
前記データベース部により蓄積された該当ウェブサイト情報を時系列のツリー構造となるように整理して出力する情報整理部を
備えたこと
を特徴とする情報自動収集集約システム。Internet, which is a computer network where many computers and electronic terminals are mutually connected and connected by various lines, and can exchange information with each other;
A server which is a computer connected to the Internet;
An information automatic collection and aggregation system including a user terminal that receives an information processing result performed by the server while performing input to the server with a computer connected to the Internet,
The server comprises:
A website circulating unit that periodically traverses the website of the Internet and collects website information based on a keyword set by the user terminal;
Among the website information collected by the website patrol unit, an information filtering unit that obtains only the corresponding website information that is the website information including the keyword by sieving,
A database unit that stores the website information acquired by the information filtering unit;
An automatic information collection / aggregation system comprising: an information organizing unit for organizing and outputting pertinent website information accumulated by the database unit into a time-series tree structure.
前記情報整理部は、
前記時系列のツリー構造に整理された該当ウェブサイト情報の内容を所定字数以下の文章である概要短文に要約する要約作成部と、
前記概要短文を内部に含む枠状図形を前記時系列のツリー状に結合した画像情報を生成するツリー画像生成部を
有すること
を特徴とする情報自動収集集約システム。The information automatic collection and aggregation system according to claim 1,
The information organizing unit includes:
A summary creation unit for summarizing the contents of the website information arranged in the time-series tree structure into an outline short sentence that is a sentence having a predetermined number of characters or less;
An automatic information collection / aggregation system, comprising: a tree image generation unit configured to generate image information in which a frame-shaped figure including the outline short sentence therein is combined in the time-series tree shape.
前記情報整理部は、
前記データベース部により蓄積された該当ウェブサイト情報のうち、前記時系列で先行する情報である先行情報を選択して表示すること
を特徴とする情報自動収集集約システム。The information automatic collection and aggregation system according to claim 1,
The information organizing unit includes:
An automatic information collection / aggregation system characterized by selecting and displaying preceding information, which is the preceding information in the time series, from the corresponding website information accumulated by the database unit.
前記情報整理部は、
前記先行情報の選択を少なくとも毎日1回実行し、選択された前記先行情報をその度に情報記憶部に更新記憶すること
を特徴とする情報自動収集集約システム。The information automatic collection and aggregation system according to claim 3,
The information organizing unit includes:
An automatic information collection and aggregation system, wherein the selection of the preceding information is performed at least once a day, and the selected preceding information is updated and stored in an information storage unit each time.
前記キーワードは、日本国内、又は日本国外の国若しくは地域の事故であること
を特徴とする情報自動収集集約システム。The information automatic collection and aggregation system according to claim 3,
The information automatic collection and aggregation system, wherein the keyword is an accident in Japan or a country or region outside Japan.
前記情報整理部は、
あらかじめ入力された特定の文字データと、当該特定の文字データに対応する確実性レベルの表を格納するとともに、
前記データベース部により蓄積された該当ウェブサイト情報のうち、前記特定の文字データを含む該当ウェブサイト情報については、前記枠状図形の近傍又は内部に前記確実性レベルを示す文字又は記号を表示すること
を特徴とする情報自動収集集約システム。The information automatic collection and aggregation system according to claim 5,
The information organizing unit includes:
While storing a table of specific character data previously input and a certainty level corresponding to the specific character data,
Among the website information stored by the database unit, for the website information including the specific character data, a character or a symbol indicating the certainty level is displayed near or inside the frame-shaped graphic. An automatic information collection / aggregation system characterized by:
前記先行情報には、最も高い確実性レベルが付与されること
を特徴とする情報自動収集集約システム。The information automatic collection and aggregation system according to claim 6,
An automatic information collection / aggregation system, wherein a highest certainty level is given to the preceding information.
前記特定の文字データは、日本国、又は日本国外の国若しくは地域の行政機関、又は監督官庁の名称を示す文字データであり、
前記特定の文字データに対応する確実性レベルは、前記先行情報の値よりも低いレベルに設定されること
を特徴とする情報自動収集集約システム。The information automatic collection and aggregation system according to claim 7,
The specific character data is character data indicating the name of Japan, or an administrative organization of a country or region outside Japan, or a regulatory agency,
The automatic information collection and aggregation system according to claim 1, wherein the certainty level corresponding to the specific character data is set to a level lower than the value of the preceding information.
前記特定の文字データは、日本国、又は日本国外の国若しくは地域の代表的な報道機関の名称を示す文字データであり、
前記特定の文字データに対応する確実性レベルは、前記行政機関又は監督官庁の名称を示す文字データを含む該当ウェブサイト情報の値よりも低いレベルに設定されること
を特徴とする情報自動収集集約システム。The information automatic collection and aggregation system according to claim 8,
The specific character data is character data indicating the name of a representative news organization in Japan or a country or region outside Japan,
The information collection / aggregation / aggregation method, wherein the certainty level corresponding to the specific character data is set to a level lower than a value of corresponding website information including character data indicating the name of the administrative agency or the supervisory agency. system.
前記ウェブサイト巡回部が定期的に収集するウェブサイト情報は、日本国外の国又は地域の安全に関する情報である海外セキュリティ情報であること
を特徴とする情報自動収集集約システム。The information automatic collection and aggregation system according to claim 3,
An automatic information collection / aggregation system, wherein the website information periodically collected by the website patrol unit is overseas security information which is information relating to safety in a country or region outside Japan.
前記情報整理部は、
前記データベース部により蓄積された前記海外セキュリティ情報のうちの前記先行情報に基づき、前記安全の程度が低い事件の件数をカウントし、前記カウント値に応じて前記日本国外の国又は地域の安全度を演算し出力すること
を特徴とする情報自動収集集約システム。The information automatic collection and aggregation system according to claim 10,
The information organizing unit includes:
Based on the preceding information of the overseas security information accumulated by the database unit, count the number of incidents with a low degree of security, and determine the degree of security of the country or region outside Japan according to the count value. Automatic information collection and aggregation system characterized by calculating and outputting.
前記情報整理部は、
前記日本国外の国又は地域の安全度の演算及び出力を少なくとも毎日1回実行し、演算及び出力された前記日本国外の国又は地域の安全度をその度に情報記憶部に更新記憶すること
を特徴とする情報自動収集集約システム。The information automatic collection and aggregation system according to claim 11,
The information organizing unit includes:
Calculating and outputting the safety level of the country or region outside of Japan at least once daily, and updating and storing the calculated and output safety level of the country or region outside of Japan in the information storage unit each time. A feature of automatic information collection and aggregation system.
前記インタネットに接続されるコンピュータであるサーバと、
前記インタネットに接続されるコンピュータで前記サーバに入力を行うとともに前記サーバが行った情報処理結果を受け取るユーザ端末を
用いて行う情報自動収集集約方法であって、
前記サーバは、
ウェブサイト巡回部により、前記ユーザ端末によって設定されたキーワードに基づき、前記インタネットのウェブサイトを定期的に巡回してウェブサイト情報を収集し、
情報フィルタリング部により、前記ウェブサイト巡回部により収集されたウェブサイト情報のうち、前記キーワードを含む情報である該当ウェブサイト情報のみをふるい分け、
データベース部により、前記情報フィルタリング部により取得された該当ウェブサイト情報を蓄積し、
情報整理部により、前記データベース部により蓄積された該当ウェブサイト情報を時系列のツリー構造となるように整理して出力すること
を特徴とする情報自動収集集約方法。Internet, which is a computer network where many computers and electronic terminals are mutually connected and connected by various lines, and can exchange information with each other;
A server which is a computer connected to the Internet;
An information automatic collection and aggregation method performed using a user terminal that receives an information processing result performed by the server while performing input to the server with a computer connected to the Internet,
The server comprises:
A website patrol unit, based on a keyword set by the user terminal, periodically visits the Internet website to collect website information,
By the information filtering unit, among the website information collected by the website patrol unit, only the corresponding website information that is information including the keyword is sifted,
The database unit stores the relevant website information acquired by the information filtering unit,
An automatic information collection / aggregation method, wherein the information organizing unit arranges and outputs pertinent website information accumulated by the database unit into a time-series tree structure.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003094516A JP2004302809A (en) | 2003-03-31 | 2003-03-31 | Automatic information collecting and integrating system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003094516A JP2004302809A (en) | 2003-03-31 | 2003-03-31 | Automatic information collecting and integrating system and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004302809A true JP2004302809A (en) | 2004-10-28 |
Family
ID=33407056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003094516A Pending JP2004302809A (en) | 2003-03-31 | 2003-03-31 | Automatic information collecting and integrating system and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004302809A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7526462B2 (en) | 2005-05-26 | 2009-04-28 | Kabushiki Kaisha Toshiba | Method and apparatus for generating time-series data from web pages |
JP2010530580A (en) * | 2007-06-20 | 2010-09-09 | アマデウス エス.エイ.エス | System and method for integrated display of travel advice collected from multiple trusted sources |
JP7465023B1 (en) | 2023-06-12 | 2024-04-10 | クリニファー株式会社 | How to provide information on pharmaceutical shipment volumes |
-
2003
- 2003-03-31 JP JP2003094516A patent/JP2004302809A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7526462B2 (en) | 2005-05-26 | 2009-04-28 | Kabushiki Kaisha Toshiba | Method and apparatus for generating time-series data from web pages |
JP2010530580A (en) * | 2007-06-20 | 2010-09-09 | アマデウス エス.エイ.エス | System and method for integrated display of travel advice collected from multiple trusted sources |
KR101511640B1 (en) | 2007-06-20 | 2015-04-16 | 아마데우스 에스.에이.에스. | System and method for integrating and displaying travel advices gathered from a plurality of reliable sources |
JP7465023B1 (en) | 2023-06-12 | 2024-04-10 | クリニファー株式会社 | How to provide information on pharmaceutical shipment volumes |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10546005B2 (en) | Perspective data analysis and management | |
JP4093012B2 (en) | Hypertext inspection apparatus, method, and program | |
CN108509482A (en) | Question classification method, device, computer equipment and storage medium | |
CN113837531A (en) | Product quality problem finding and risk assessment method based on network comments | |
CN110110156A (en) | Industry public sentiment monitoring method, device, computer equipment and storage medium | |
US20140379719A1 (en) | System and method for tagging and searching documents | |
CA2710413A1 (en) | Systems, methods, and software for an intellectual property relationship warehouse and monitor | |
US10528609B2 (en) | Aggregating procedures for automatic document analysis | |
WO2018194799A1 (en) | Multi-factor document analysis | |
WO2014206151A1 (en) | System and method for tagging and searching documents | |
CN106557558A (en) | A kind of data analysing method and device | |
CN108090104A (en) | For obtaining the method and apparatus of webpage information | |
US9792377B2 (en) | Sentiment trent visualization relating to an event occuring in a particular geographic region | |
WO2014000130A1 (en) | Method or system for automated extraction of hyper-local events from one or more web pages | |
CN101976394A (en) | Data acquiring and counting system and method | |
JP6868576B2 (en) | Event presentation system and event presentation device | |
CN109670183B (en) | Text importance calculation method, device, equipment and storage medium | |
JP2004302809A (en) | Automatic information collecting and integrating system and method | |
CN111008519A (en) | Reading page display method, electronic equipment and computer storage medium | |
US20220408155A1 (en) | System and method for providing media content | |
Heinrich et al. | A transnational analysis of news and tweets about nuclear phase-out in the aftermath of the Fukushima incident | |
CN115546815A (en) | Table identification method, device, equipment and storage medium | |
CN112232020B (en) | General article release time identification method and system, electronic equipment and storage medium | |
CN113886585A (en) | Item recommendation method, computer device and computer-readable storage medium | |
JP7064871B2 (en) | Text mining device and text mining method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050822 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20061106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080401 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080812 |