JPH10143541A - 情報フィルタリング装置および情報フィルタリング方法 - Google Patents

情報フィルタリング装置および情報フィルタリング方法

Info

Publication number
JPH10143541A
JPH10143541A JP9249100A JP24910097A JPH10143541A JP H10143541 A JPH10143541 A JP H10143541A JP 9249100 A JP9249100 A JP 9249100A JP 24910097 A JP24910097 A JP 24910097A JP H10143541 A JPH10143541 A JP H10143541A
Authority
JP
Japan
Prior art keywords
information
document
filtering
similarity
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9249100A
Other languages
English (en)
Other versions
JP3683687B2 (ja
Inventor
Kazuo Sumita
一男 住田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP24910097A priority Critical patent/JP3683687B2/ja
Publication of JPH10143541A publication Critical patent/JPH10143541A/ja
Application granted granted Critical
Publication of JP3683687B2 publication Critical patent/JP3683687B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】非定期的に発生および修正される文書を対象に
して、ユーザが必要とする情報のみを絞り込んでユーザ
に提供する情報フィルタリング装置。 【解決手段】予めプロファイル161に登録された検索
条件と、処理対象となる文書に含まれる情報との間の類
似度を類似度算出部16が算出し、その算出した類似度
にしたがって、複数の文書の中から所定の文書を選出す
る情報フィルタリング装置において、複数情報判定部1
4は、その文書が複数の情報単位を含むか否か判定し、
情報分割部15は、複数情報判定部14によって複数の
情報単位を含むと判定された文書を情報単位ごとに分割
する。そして、類似度算出部16は、文書に対する類似
度を、その文書に含まれる情報単位それぞれに算出す
る。したがって、複数の情報単位を含む文書内の情報単
位それぞれが、回りの情報に何等影響されることなく、
フィルタリング処理されることになる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、膨大な数のテキ
スト記事や文献などの文書から、新たに入力された情報
であってユーザの要求・興味にあったものを選出してユ
ーザに提供する情報フィルタリング装置および情報フィ
ルタリング方法に関する。
【0002】
【従来の技術】近年、インターネットの普及は目覚まし
いものがあり、世界中に点在する計算機に格納された情
報が、インターネットに接続されてさえいれば、どこか
らでも簡単にアクセスできるようになってきている。特
に、WWW(World Wide Web)では、H
TTP(HyperText Transfer Pr
otocol)を用いることにより、利用者が、世界中
の情報をGUI(Graphical User In
terface)ベースのブラウザによって簡単にアク
セスできる仕組みを提供している。
【0003】WWWでは、ある計算機上でhttpdと
呼ばれるソフトウェアを用いる。このソフトウェアは、
その計算機のデータベースに格納されているHTML
(HyperText Markup Languag
e)で記述したハイパーテキストファイルを、他の計算
機からの要求に応じて転送するものである。インターネ
ットに接続されている計算機は、転送を要求するハイパ
ーテキストファイルが存在するhttpdに対し、ハイ
パーテキストファイルのアドレスを指定することによっ
て、指定したファイルを読み込むことができる。HTM
Lの記述では、ハイパーテキストファイル内のリンク情
報として、前記アドレスが記述されるので、HTTPの
プロトコルにしたがったブラウザは、各httpd支配
下のハイパーテキストファイルを表示することができ
る。そして、音声、静止画、動画などの様々なデータを
出力できるようにすることによって、マルチメディアデ
ータを含むハイパーテキストを、ブラウザは表示するこ
とができる。
【0004】このWWWの仕組みにより、利用者は、よ
り簡単にインターネット上の情報にアクセスできるよう
になり、多くの個人や企業が、Webページと呼ばれる
ハイパーテキストファイルを公開するようになってきて
いる。
【0005】しかしながら、WWWではデータベースの
管理者がおらず、個々人がそれぞれ勝手にWebページ
を作成および修正し、しかもその規模が膨大であるため
に(1996年度初頭における世界中で公開されている
Webページは4000万ページと推定されている)、
個々の利用者が自らが必要とするWebページがどこに
あるか(URLアドレスとして何を指定すれば必要なW
ebページを取得できるか)を知ることが困難な状況に
なっている。
【0006】このため、最近では、アクセス可能なWe
bページを内容ベースで検索するシステムが開発され、
検索を代行するようなサービスが行なわれるようになっ
てきた。具体的には、Yahoo、LycosおよびA
ltavistaなどといったWeb検索サーバが存在
する。Web検索サーバでは、キーワードを指定するこ
とによって、そのキーワードを含むWebページを検索
することができる。利用者は、これらWeb検索サーバ
を用いて必要なWebページを検索する。
【0007】しかし、このようにWeb検索サーバを用
いることによってオンラインで必要な情報を容易に検索
できるようになったものの、これは利用者が能動的に必
要な情報を検索指示した場合にのみ得られるのであっ
て、利用者が関心・興味をいだいている情報が新しく作
成された際に利用者が検索指示を行なわなければ、たと
え重要な情報であったとしても、その利用者がその情報
を知ることはない。したがって、利用者が関心・興味の
ある情報が発生したときに、その旨を適切な利用者に知
らしめるシステムが必要である。旧来のデータベースシ
ステムでは、このような機能をSDI(Selecti
ve Disseminative Informat
ion)と呼んでいる。SDIでは、利用者は自らの関
心・興味のある情報を選択するためのキーワードなどを
個人プロファイルとしてシステムに登録しておく。そし
て、システムは、新しくデータが登録された際に、その
データとキーワード(プロファイル)とを比較して、そ
のデータがキーワードと合致するときに、所望した情報
が新たに発生した旨をプロファイルの登録利用者に知ら
せるものである。
【0008】しかしながら、WWWでは、Webページ
にどのような情報を記載するかは個々人の自由であると
いう性格をもつために、一つのWebページに複数の情
報単位が記載されることは十分に考えられる。そして、
互いに関連のない複数の情報単位が記載されたWebペ
ージを一つの処理単位としてプロファイルとの比較を実
行した場合、必ずしも適切なフィルタリングが施される
保証はない。したがって、利用者が関心・興味をもつ極
めて重要な情報が一部に含まれるWebページであって
も、ページ全体としてその取捨が判定された結果、選択
対象とならない場合が発生するといった問題があった。
【0009】また、前述したような旧来型のデータベー
スでは、個々のデータはローカルな環境に存在するか、
または特定のデータベース管理者が管理するものであっ
たために、新しく情報が発生した情報と既存の情報とを
区別することが容易であったが、WWWでは、個々人が
Webページを独自に登録できる仕組みになっており、
かつWWW全体を管理する管理者も存在しないため、新
規情報と既存情報との区別が非常に困難である。さら
に、Webページは、ハイパーテキスト構造をもち、互
いに関連づけられた複数のページによって一定の情報を
表現することがあるため、監視対象とするページについ
て新規情報の発生を検出するのみでは不十分であるとい
った問題があった。
【0010】さらに、WWW上のWebページなどのよ
うに非常に広範囲な範囲に対して新規発生情報を監視す
ることは、単独のシステムにおいては困難であるといっ
た問題があった。
【0011】
【発明が解決しようとする課題】このように、従来の情
報フィルタリングをたとえばWWW上のWebページな
どに適用する場合においては、以下に示すような問題が
存在していた。
【0012】(1)Webページは単一の情報からなる
場合と複数の情報からなる場合があり、複数の情報から
なるページの場合に、個々の情報単位ごとに分割し、そ
の情報単位ごとにプロファイルとの比較を行なわない
と、必要な情報の選択が正確にできない。
【0013】(2)大規模なシステムでない場合、全世
界のページを網羅的にチェックすることは単独システム
では不可能である。一方、特定のページを指定して、そ
のページの情報が修正されたことを検出する監視手段を
設けることで、利用者の便を図ることができる。しかし
ながら、Webページはハイパーテキストであるため
に、複数のページによって一定の情報を表現することが
あり、前述の監視手段が一つのWebページだけしか指
定できないと、そのページからリンクを張られている子
供ページや孫ページが修正されても検出できない。
【0014】(3)単独の情報フィルタリング装置の処
理だけでは、利用者にとって十分な範囲の新規発生情報
を監視することが困難である。
【0015】この発明は、このような実情に鑑みてなさ
れたものであり、WWWのように個々人が独自にデータ
を作成および修正するデータベースにおいて、新規に発
生した情報(新鮮な情報)の中から、利用者の関心・興
味のある情報のみを効率的に選択して通知することを可
能とする情報フィルタリング装置および情報フィルタリ
ング方法を提供することを目的とする。
【0016】
【課題を解決するための手段】第1の発明の情報フィル
タリング装置は、予め登録された検索条件と文書に含ま
れる情報との間の類似度を算出し、その算出した類似度
にしたがって複数の文書の中から所定の文書を選出する
情報フィルタリング装置において、前記文書が複数の情
報単位を含むか否か判定する判定手段と、前記判定手段
によって複数の情報単位を含むと判定された文書を情報
単位ごとに分割する分割手段と、前記分割手段によって
分割された情報単位それぞれに、前記検索条件との間の
類似度を算出する類似度算出手段とを具備してなること
を特徴とする。
【0017】この第1の発明の情報フィルタリング装置
においては、判定手段が、文書それぞれに対して、単一
の内容からなるデータか複数の内容からなるデータかを
判定する。そして、この判定手段によって複数の内容か
らなるデータと判定されたときに、分割手段が、その内
容ごとにフィルタリング処理を行なうべく文書を情報単
位ごとに分割する。そして、類似度算出手段は、この分
割された情報単位それぞれに、検索条件との間の類似度
を算出する。これにより、この第1の発明の情報フィル
タリング装置では、単一の内容からなるWebページと
複数の内容からなるWebページとに対し、これらを同
時にフィルタリング対象とし、かつ内容に応じた高精度
のフィルタリングを可能とすることができる。
【0018】また、第2の発明の情報フィルタリング装
置は、複数の文書の中から所定の文書を選出する情報フ
ィルタリング装置であって、階層構造をなすハイパーテ
キストをフィルタリング対象の文書に含む情報フィルタ
リング装置において、新たな情報が発生したか否か監視
すべき文書のアドレスを設定する第1の設定手段と、前
記第1の設定手段によって設定された文書を起点に下位
層に位置する文書に対する監視すべき階層数を設定する
第2の設定手段と、前記第1の設定手段によって設定さ
れたアドレスから前記第2の設定手段によって設定され
た階層数を対象範囲として文書を読み込み、その範囲内
に新たな情報が発生したか否か判定する判定手段とを具
備してなることを特徴とする。
【0019】この第2の発明の情報フィルタリング装置
においては、第1の設定手段が、監視すべき文書を設定
し、第2の設定手段が、第1の設定手段によって設定さ
れた文書を起点とした階層数を設定する。そして、判定
手段が、この第1および第2の設定手段で設定された範
囲のデータを対象にフィルタリング処理を行なう。これ
により、階層的なWebページを監視可能とし、指定し
た範囲内に新規または修正された情報があるときに、そ
れをもれなく検知することを可能とする。
【0020】また、第3の発明の情報フィルタリング装
置は、複数の文書の中から所定の文書を選出する情報フ
ィルタリング装置において、他の情報フィルタリング装
置により出力されるフィルタリング結果を取り込む取り
込み手段と、この取り込み手段が取り込んだフィルタリ
ング結果を前記複数の文書に含めてフィルタリング処理
を実行するフィルタリング手段とを具備してなることを
特徴とする。
【0021】この第3の発明の情報フィルタリング装置
によれば、他の情報フィルタリング装置が出力したフィ
ルタリング結果を取り込むことにより、単独の情報フィ
ルタリング装置が監視できる以上の範囲の情報を監視す
ることを可能にする。
【0022】
【発明の実施の形態】以下、図面を参照してこの発明の
実施形態について説明する。
【0023】(第1実施形態)まず、この発明の第1の
実施形態について説明する。図1に本実施形態の情報フ
ィルタリングシステムの機器構成を示す。図1に示した
ように、本実施形態の情報フィルタリングシステムは、
オペレーティングシステムやユーティリティを含む各種
アプリケーションプログラム(フィルタリング処理を行
なう各種プログラムもこれらに含まれる)を実行制御す
るCPU1、アプリケーションプログラムや各種データ
を格納する記憶装置2、および他の計算機からデータを
読み込むための回線入出力装置3からなる。なお、この
発明は、ソフトウェアとしての実施も可能であり、フロ
ッピィディスクやCD−ROMなどに格納した形態で提
供したり、磁気ディスクなどに格納しておいてネットワ
ークで入手可能な形態で提供することが可能である。
【0024】図2に本実施形態の情報フィルタリングシ
ステムの機能ブロックを示す。図2に示すように、本実
施形態の情報フィルタリングシステムは、制御部11、
新規情報判定部12、書式解析部13、複数情報判定部
14、情報分割部15、類似度算出部16および結果整
形部17の各処理部を具備してなる。ここでは、これら
の各処理部は、CPU1で実行制御されるアプリケーシ
ョンプログラムとして構成されるものとする。
【0025】制御部11は、システム全体の動作を制御
する。新規情報判定部12は、処理対象とするデータが
新規に発生した情報かどうかを判定する。書式解析部1
3は、データ(HTMLファイル)の論理的な構造を解
析する。複数情報判定部14は、取り出したデータが複
数の内容からなっているかどうかを判定する。
【0026】また、情報分割部15は、取り出したデー
タが複数の内容からなっている場合に、その内容ごとに
分割する。類似度算出部16は、計算対象のデータとプ
ロファイル161とを比較して類似度を算出する。結果
整形部15は、類似度の高いデータから順に並べて整形
する。
【0027】ここで、制御部11の処理の流れを図3を
参照して説明する。制御部11は、監視ページリストに
登録されているすべてのページに対して処理を行なう。
まず始めに、制御部11は、監視ページリストからWe
bページのアドレスを取り出す(ステップA1)。次
に、制御部11は、その取り出したアドレスに基づい
て、新規情報判定部12を実行し(ステップA2)、そ
のアドレスのページが新規情報であるか否かを判定する
(ステップA3)。新規情報であった場合には(ステッ
プA3のY)、制御部11は、書式解析部13を実行し
(ステップA4)、対象とするページを取り込むととも
に、そのページの論理構造を解析する。次に、制御部1
1は、複数情報判定部14を実行し(ステップA5)、
処理対象のページが複数の情報単位からなっているペー
ジか否かを判定し(ステップA6)、複数の情報単位か
らなっているページである場合には(ステップA6の
Y)、情報分割部15を実行して(ステップA7)、こ
のページの内容を各情報単位に分割する。類似度算出部
16では、情報分割部15で対象ページが分割された場
合には、この分割された情報単位ごとに、一方、分割さ
れなかった場合には、そのページ全体を対象に登録され
ているプロファイル161との類似度を算出する(ステ
ップA8)。そして、制御部11は、この算出された類
似度を、算出対象の情報単位とともに格納する(ステッ
プA9)。
【0028】監視ページリスト内に処理すべきページア
ドレスが残っている場合(ステップA10のY)、制御
部11は、その残りを対象に始めの処理に戻るが、一
方、残りのページが存在しない場合には(ステップA1
0のN)、制御部11は、結果整形部17を実行する
(ステップA11)。そして、結果整形部17は、格納
されている類似度算出結果を参照し、類似度の高い順に
情報単位をソーティングするとともに、利用者に提示す
る情報フィルタリング結果を生成する。
【0029】監視ページリストは、システムが監視すべ
きアドレスの一覧である。利用者がこの監視ページリス
トに監視したいページアドレスを登録する。
【0030】次に、新規情報判定部12の処理の流れを
図4を参照して説明する。本実施例では、今回のフィル
タリング時に取り込んだページを(ステップB1)、前
回のフィルタリング時に取り込んだページと比較するこ
とにより(ステップB2)、そのページに修正が施され
たか否かを判定する(ステップB3)。変化があった場
合(ステップB3のY)、取り込んだページを次回のフ
ィルタリングに利用するために記憶して(ステップB
4)、この処理を終了する。なお、ページの作成日や修
正日が取り出せる場合には、その情報を用いても良いこ
とはいうまでもない。また、第2実施形態において、W
ebページの階層関係に対応した新規情報判定処理につ
いて述べる。
【0031】書式解析部13では、HTML形式のデー
タに付与されている各タグに基づいて、Webページの
情報を内部構造に変換する。HTMLは、SGMLのサ
ブセットであり、一般に、開始タグと終了タグとによっ
て論理的な構造を規定している。たとえば、HTMLで
は、開始タグ<TITLE>と終了タグ</TITLE
>とに囲まれた部分がタイトル、および、開始タグ<U
L>と終了タグ</UL>とに囲まれた部分が箇条書き
と定義されている。また、段落を規定する<P>や、箇
条書きの各項目を表現する<LI>のように、終了タグ
を省略してよいタグも存在する。これらのタグについて
は、同じ開始タグが出現した時点で終了タグが存在した
ものと見なされる。書式解析では、入力データの文字列
をスキャンしてHTMLの開始タグを検出する。そし
て、その開始タグに対応する終了タグを検出することに
より、各タグに対応する情報を取り出す。
【0032】次に、複数情報判定部14の処理の流れを
図5を参照して説明する。複数情報判定部14は、箇条
書きのフィールドが存在し(ステップC1のY)、その
箇条書きフィールドの各項目に地の文が存在するときに
(ステップC2のY)、各項目の地の文の文字列の平均
長(M)と標準偏差(S)とを求める(ステップC
3)。そして、その平均長(M)が、予め定められた長
さ(M0 )よりも長く、かつその標準偏差(S)が、予
め定められた値(S0 )よりも小さいときに(ステップ
C4のY)、判定対象のページが、複数の情報単位から
なると判定する(ステップC5)。
【0033】図6には、複数の情報単位からなるページ
のHTMLの記述例、および図7には、そのページの表
示イメージが示されている。
【0034】箇条書きの各項目の見出し行は、タグ<L
I>と改行タグ<BR>とで囲まれている文字列であ
る。一方、地の文は、見出し行の終わる<BR>から次
の<LI>までである。地の文の長さを求めるにあたっ
ては、タグは除外して算出するものとする。HTMLで
は、箇条書きのフィールドを定義するタグ<DL>が存
在する。<DT>が各項目の見出し行を、<DD>が地
の文を表現するタグである。この場合、<DD>から次
の<DT>までを地の文として文字列長の計算に用い
る。
【0035】なお、処理対象とするページが複数の情報
単位からなるページであるかどうかをページごとに記憶
する手段を設け、それにしたがって複数の情報単位から
なることを判定するようにしても構わない。
【0036】情報分割部15では、箇条書きのフィール
ドを、各項目ごとに分割して出力する。具体的には、複
数情報判定部14で検出した箇条書きの情報単位(見出
しと地の文)に分割する。この分割結果は、図8に示し
たように、見出し(<HEADING>と</HEAD
ING>とで囲んだ部分)と、地の文(<BODY>と
</BODY>とで囲んだ部分からなるデータに変換さ
れる。
【0037】類似度算出部16の処理は、たとえばプロ
ファイル161に格納された検索条件と処理対象となる
各情報単位とをそれぞれ単語頻度のベクトルとして表現
し、これらベクトル間の内積をとることによって類似度
を求めるといった従前の算出方法を流用すればよい。
【0038】次に、結果整形部17の処理の流れを図9
を参照して説明する。結果整形部17は、類似度算出部
16での類似度算出の対象となった各情報単位を1つの
単位として、類似度の値に基づいてソーティングを行な
う(ステップD1)。そして、結果整形部17は、この
ソーティング結果の順に、情報単位の見出しを箇条書き
の項目とし(ステップD2)、地の文から要約を生成し
て出力する(ステップD3)。要約の生成としては、た
とえば、ページの前方から数文を取り出すといった簡単
な処理でも構わない。図10に、結果整形部17による
整形結果の例を示す。2つの情報が抽出された例であ
る。
【0039】本実施形態では、MosaicなどのHT
MLブラウザで表示することを想定しているため、HT
ML形式で整形結果を出力している。これは、フィルタ
リング結果で選択された文書のオリジナルをアクセスす
る場合に、その文書形式との統一性を図るためである。
したがって、必ずしもこれに限定するものでなく、特殊
なブラウザで取り込める形式のデータに変換するように
変形することは,ごく容易である。
【0040】このように、本実施形態の情報フィルタリ
ングシステムによれば、単一の内容からなるWebペー
ジと、複数の内容からなるWebページとに対し、これ
らを同時にフィルタリング対象とし、かつ内容に応じた
高精度のフィルタリングを可能とすることができる。
【0041】(第2実施形態)次に、第2の実施形態を
説明する。前述した第1の実施形態では、監視するペー
ジをすべて事前に登録しておく形態について説明した。
しかしながら、Webページは、ハイパーテキストによ
り階層構造を形成することが可能であるため、単一のペ
ージだけを登録する形態では問題が生じる場合がある。
【0042】たとえば、図11(a)に示すように、ペ
ージ0から参照されている他のページが階層的に関連づ
けられて存在しており、しかも(b)に示すように、ペ
ージ0が個々のページへのリンク情報だけからなってい
る場合を考える。この場合、新規情報は、新着情報が記
載されているページ21や、プレスリリースを記載した
ページ24に格納されることになるため、ページ0の内
容は、ほとんど修正されることがないことは明らかであ
る。したがって、第1実施形態に示したように、監視ペ
ージとしてページ0を事前に登録しておいても、新着情
報のページ21の情報が更新された際に、その旨を検出
することができない。
【0043】本実施形態では、このような問題に対処す
るため、監視情報を指定するための監視情報指定手段を
設ける。そして、利用者は、新規情報の発生を監視する
階層の範囲を事前に設定する。一方、新規情報判定部1
4では、設定された範囲だけ階層の深さをたどり、新規
情報か否かを判定する。
【0044】監視情報指定手段では、監視ページリスト
を図12に示す形式とし、利用者は、監視するページア
ドレスとそのページから張られたリンクをたどる段数と
を設定する(個々のページについてたどる段数を設定す
るのではなく、すべてのページに関して同じ段数を設定
する形態に変形することも可能である)。
【0045】本実施形態における新規情報判定部14の
処理の流れを図13に示す。サブルーチンcheckN
ew(図13(b))は、設定したページの下位層に位
置するページが、新規情報を含むかどうかを再帰的にチ
ェックする。前回のフィルタリング時のページと変化が
あったかどうかは、第1実施形態と同様に、前回のフィ
ルタリング時に取り込んだページの内容と比較すること
により実現することができる。
【0046】情報分割部15についても、階層構造をた
どり個々のページごとに情報単位の分割を行なう。第1
実施形態の処理を再帰的に実行することにより実現でき
るので、処理手続きについては説明を省略する。本実施
形態における新規情報判定部14では、内容が変化した
ページを検出した時点で監視ページとして設定したペー
ジ以下の階層に変化があったこととし、それ以下のペー
ジをたどらない。この場合には、情報分割部15では、
監視ページ以下の全ページについて、処理を行なう必要
がある。また、新規情報判定部14において、内容の変
化したページを検出した以降も、それ以下のページにつ
いて変化があったか否かをチェックするようにしてもよ
い。この場合、情報分割部15は、変化のあったページ
についてのみ情報分割処理を行なえばよい。
【0047】本実施形態は、比較的小規模なシステムを
想定し、システムに監視させるページのアドレスを、監
視ページのリストに利用者自らが登録する形態について
説明した。一方、大規模なシステムである場合、事前に
監視するページのすべてを事前に登録することは困難で
ある。そこで、取り込んだページに記述されているアド
レスを順次たどっていくことが考えられる。大規模シス
テムとして実施する場合は、この形態によって取り込む
ページの範囲を拡大することも可能である。なた、We
bページでは、外部のページへリンクを張っている場合
がある。このような外部へのリンクについては無視する
ように変形することも可能である。
【0048】このように本実施形態の情報フィルタリン
グシステムによれば、階層的なWebページを監視可能
とし、指定した範囲内に新規または修正された情報があ
るときに、それをもれなく検知することを可能とする。
【0049】(第3実施形態)次に、第3の実施形態を
説明する。本実施形態では、他の情報フィルタリング装
置が出力する結果とのマージ機能を持つシステムについ
て説明する。第1および第2の実施形態では、フィルタ
リング対象とするページが、HTTP手順にしたがって
取り込めることを前提としている。一方、利用者が入手
したい情報にはWebページとして公開されていない情
報も存在する。
【0050】図14に、他のフィルタリング装置のフィ
ルタリング結果を取り込む動作原理を示す。(a)は、
あるWebサーバ30が設定されており、他の情報フィ
ルタ40が、そのWebサーバ30のWebページ31
に、フィルタリング結果を書き込む。そして、このWe
bページ31を本発明における監視ページリスト20に
設定しておくことによって、他のWebページと同様に
フィルタリングを行なうことが可能となる。
【0051】一方、(b)は、電子メールやftp手順
にしたがって、ローカルなネットワークでアクセス可能
なファイルとして格納される場合を示している。この場
合、取り込まれたファイルの形式にしたがって、情報取
得ゲートウェイ60を設けることにより、他のWebペ
ージと同様にフィルタリングを行なえる。他の情報フィ
ルタ40が、ftp手順にしたがってフィルタリング結
果を出力する場合、予め定められた名前のファイル(ロ
ーカルデータベース50内)に情報フィルタ40のフィ
ルタリング結果が書き込まれる。情報取得ゲートウェイ
60は、このファイルをHTML形式に変換し、予め定
められた名前のファイルに出力する。そして、監視ペー
ジリスト20にこのHTMLファイルを登録しておくこ
とによって、他のWebページと同様にフィルタリング
を行なうことが可能となる。
【0052】電子メールで送付される場合、電子メール
は(メールボックスと呼ばれる)電子メール特定のファ
イルに格納される。他の一般の電子メールとの区別を行
なうため、電子メールのSubject欄に予め取り決
めた文字列が設定され、他の情報フィルタ40より送信
される。情報取得ゲートウェイ60は、予め取り決めた
文字列がSubject欄に設定されているメールをH
TML形式に変換し、HTMLファイルを更新すればよ
い。
【0053】情報取得ゲートウェイ60の処理の流れ
は、他の情報フィルタ40の出力するファイルまたは電
子メールの形式に依存する。たとえば、図15に例示し
たデータが配信される場合には、図16に示す手順でH
TMLに変換できる。
【0054】すなわち、入力ファイルを入力バッファに
読み込んだ後(ステップG1)、リンクデータのみから
なるHTMLファイル(ファイル0)を初期化する(生
成した後、図17に示す文字列を書き込む)(ステップ
G2)。
【0055】次に、ファイル番号を1に設定し(ステッ
プG3)、入力バッファの先頭より処理を開始し(ステ
ップG4)、ポインタP以降に見出し行があるかをチェ
ックする(ステップG5)。処理対象の入力ファイルで
は、行の先頭が「*」である行が見出しであるので、そ
れを取り出し、ファイル0にその情報と、ファイル番号
に相当するファイル名(ファイル番号が1の場合、”
1.htm1”)の情報を出力する(ステップG6)。
次に、このファイル名に、見出し行と、入力バッファで
見出し行に続く地の文とを書き込み(ステップG7)、
ファイル番号を1進めて(ステップG8)、繰り返し処
理を行なう。
【0056】そして、処理すべき見出しが入力バッファ
中に見出せなくなった時点で(ステップG5のN)、フ
ァイル0に、図18に示す文字列を出力して、この処理
を終了する。図19には、図15で示したデータを変換
した結果が示されている。
【0057】本実施形態では、処理のモジュラリティを
高めるため、一旦HTMLファイルに変換する実施形態
について説明した。モジュラリティを無視すれば、他の
情報フィルタリング装置が出力するフィルタリング結果
のファイルを、直接本発明の装置の入力とするように変
形することはごく容易である。
【0058】このように、本本実施形態の情報フィルタ
リングシステムによれば、他の情報フィルタリング装置
が出力したフィルタリング結果を読み込むことにより、
単独の情報フィルタリング装置が監視できる以上の範囲
の情報を監視することが可能となる。
【0059】
【発明の効果】以上詳述したように、この発明によれ
ば、複数の形態を有するWebページをはじめとする文
書情報のフィルタリングを統一的に処理し、利用者の分
かりやすい形態で提供することができる。
【0060】第1の発明にあっては、複数の情報単位か
らなる文書内の各情報単位について、回りのテキストに
影響されることなく独立して類似度を算出するため、高
い精度でフィルタリング処理を行なうことが可能とな
る。
【0061】また、第2の発明にあっては、ハイパーテ
キスト形式の文書を、フィルタリング対象とする際階層
の段数を指定することにより、複数のWebページで一
つの情報を表現しているWebページ群を効果的に更新
監視させることができ、また、無制限に階層をたどるこ
とを排除することができるため、処理時間を抑えること
が可能となる。
【0062】さらに、第3の発明にあっては、他の情報
フィルタリング装置の出力結果を、他の文書と同じよう
にマージして出力でき、利用者に分かりやすい結果を提
供することが可能となる。
【図面の簡単な説明】
【図1】第1実施形態の情報フィルタリングシステムの
機器構成を示す図。
【図2】同実施形態の情報フィルタリングシステムの機
能ブロックを示す図。
【図3】同実施形態の制御部の処理の流れを示すフロー
チャート。
【図4】同実施形態の新規情報判定部の処理の流れを示
すフローチャート。
【図5】同実施形態の複数情報判定部の処理の流れを示
すフローチャート。
【図6】同実施形態の複数の情報単位からなるページの
HTMLの記述例を示す図。
【図7】図6で示したHTML記述の表示イメージを示
す図。
【図8】同実施形態の情報分割部の分割結果を示す図。
【図9】同実施形態の結果整形部の処理の流れを示すフ
ローチャート。
【図10】同実施形態の結果整形部の整形結果の例を示
す図。
【図11】ハイパーテキストによって階層構造を形成す
るWebページを説明する図。
【図12】第2実施形態の監視ページリストの形式を示
す図。
【図13】同実施形態の新規情報判定部の処理の流れを
示すフローチャート。
【図14】第3実施形態の他のフィルタリング装置のフ
ィルタリング結果を取り込む動作原理を示す図。
【図15】同実施形態の配信されるデータを例示する
図。
【図16】同実施形態の配信データをHTMLに変換す
る手順を示すフローチャート。
【図17】同実施形態のHTMLファイルに書き込まれ
る記述を示す図。
【図18】同実施形態のHTMLファイルに書き込まれ
る記述を示す図。
【図19】図15で示した配信データをHTMLに変換
した結果を示す図。
【符号の説明】
1…CPU、2…記憶装置、3…回線入出力装置、11
…制御部、12新規情報判定部、13…書式解析部、1
4…複数情報判定部、15…情報分割部、16…類似度
算出部、161…プロファイル、17…結果整形部。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 予め登録された検索条件と文書に含まれ
    る情報との間の類似度を算出し、その算出した類似度に
    したがって複数の文書の中から所定の文書を選出する情
    報フィルタリング装置において、 前記文書が複数の情報単位を含むか否か判定する判定手
    段と、 前記判定手段によって複数の情報単位を含むと判定され
    た文書を情報単位ごとに分割する分割手段と、 前記分割手段によって分割された情報単位それぞれに、
    前記検索条件との間の類似度を算出する類似度算出手段
    とを具備してなることを特徴とする情報フィルタリング
    装置。
  2. 【請求項2】 複数の文書の中から所定の文書を選出す
    る情報フィルタリング装置であって、階層構造をなすハ
    イパーテキストをフィルタリング対象の文書に含む情報
    フィルタリング装置において、 新たな情報が発生したか否か監視すべき文書のアドレス
    を設定する第1の設定手段と、 前記第1の設定手段によって設定された文書を起点に下
    位層に位置する文書に対する監視すべき階層数を設定す
    る第2の設定手段と、 前記第1の設定手段によって設定されたアドレスから前
    記第2の設定手段によって設定された階層数を対象範囲
    として文書を読み込み、その範囲内に新たな情報が発生
    したか否か判定する判定手段とを具備してなることを特
    徴とする情報フィルタリング装置。
  3. 【請求項3】 複数の文書の中から所定の文書を選出す
    る情報フィルタリング装置において、 他の情報フィルタリング装置により出力されるフィルタ
    リング結果を取り込む取り込み手段と、 この取り込み手段が取り込んだフィルタリング結果を前
    記複数の文書に含めてフィルタリング処理を実行するフ
    ィルタリング手段とを具備してなることを特徴とする情
    報フィルタリング装置。
  4. 【請求項4】 予め登録された検索条件と文書に含まれ
    る情報との間の類似度を算出し、その算出した類似度に
    したがって複数の文書の中から所定の文書を選出する情
    報フィルタリング方法において、 前記文書が複数の情報単位を含むか否か判定し、 複数の情報単位を含むと判定された文書を情報単位ごと
    に分割し、 この分割された情報単位それぞれに、前記検索条件との
    間の類似度を算出することを特徴とする情報フィルタリ
    ング方法。
  5. 【請求項5】 複数の文書の中から所定の文書を選出す
    る情報フィルタリング方法であって、階層構造をなすハ
    イパーテキストをフィルタリング対象の文書に含む情報
    フィルタリング方法において、 新たな情報が発生したか否か監視すべき文書のアドレス
    を設定し、 この設定された文書を起点に下位層に位置する文書に対
    する監視すべき階層数を設定し、 前記設定されたアドレスから前記設定された階層数を対
    象範囲として文書を読み込み、その範囲内に新たな情報
    が発生したか否か判定することを特徴とする情報フィル
    タリング方法。
  6. 【請求項6】 複数の文書の中から所定の文書を選出す
    る情報フィルタリング方法において、 他の情報フィルタリング装置が出力するフィルタリング
    結果を取り込み、 この取り込んだフィルタリング結果を前記複数の文書に
    含めてフィルタリング処理を実行することを特徴とする
    情報フィルタリング方法。
  7. 【請求項7】 予め登録された検索条件と文書に含まれ
    る情報との間の類似度を算出し、その算出した類似度に
    したがって複数の文書の中から所定の文書を選出するた
    めのプログラムであって、 前記文書が複数の情報単位を含むか否か判定し、 複数の情報単位を含むと判定された文書を情報単位ごと
    に分割し、 この分割された情報単位それぞれに、前記検索条件との
    間の類似度を算出するようにコンピュータを動作させる
    プログラムを記録したコンピュータ読み込み可能な記録
    媒体。
  8. 【請求項8】 階層構造をなすハイパーテキストを含む
    複数の文書の中から所定の文書を選出するためのプログ
    ラムであって、 新たな情報が発生したか否か監視すべき文書のアドレス
    を設定し、 この設定された文書を起点に下位層に位置する文書に対
    する監視すべき階層数を設定し、 前記設定されたアドレスから前記設定された階層数を対
    象範囲として文書を読み込み、その範囲内に新たな情報
    が発生したか否か判定するようにコンピュータを動作さ
    せるプログラムを記録したコンピュータ読み込み可能な
    記録媒体。
  9. 【請求項9】 複数の文書の中から所定の文書を選出す
    るためのプログラムであって、 他の情報フィルタリング装置が出力するフィルタリング
    結果を取り込み、 この取り込んだフィルタリング結果を前記複数の文書に
    含めてフィルタリング処理を実行するようにコンピュー
    タを動作させるプログラムを記録したコンピュータ読み
    込み可能な記録媒体。
JP24910097A 1996-09-13 1997-09-12 情報フィルタリング装置および情報フィルタリング方法 Expired - Fee Related JP3683687B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24910097A JP3683687B2 (ja) 1996-09-13 1997-09-12 情報フィルタリング装置および情報フィルタリング方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP24378596 1996-09-13
JP8-243785 1996-09-13
JP24910097A JP3683687B2 (ja) 1996-09-13 1997-09-12 情報フィルタリング装置および情報フィルタリング方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2004381478A Division JP4173857B2 (ja) 1996-09-13 2004-12-28 情報フィルタリング装置および情報フィルタリング方法

Publications (2)

Publication Number Publication Date
JPH10143541A true JPH10143541A (ja) 1998-05-29
JP3683687B2 JP3683687B2 (ja) 2005-08-17

Family

ID=26536431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24910097A Expired - Fee Related JP3683687B2 (ja) 1996-09-13 1997-09-12 情報フィルタリング装置および情報フィルタリング方法

Country Status (1)

Country Link
JP (1) JP3683687B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249982A (ja) * 1998-02-27 1999-09-17 Nec Corp 情報配信システム及び方法
JPH11259354A (ja) * 1998-03-10 1999-09-24 Oki Electric Ind Co Ltd インターネット上の情報更新確認方法
JP2000067067A (ja) * 1998-08-20 2000-03-03 Sky Com:Kk 配信サーバ及び配信システム
US6321221B1 (en) 1998-07-17 2001-11-20 Net Perceptions, Inc. System, method and article of manufacture for increasing the user value of recommendations
US6334127B1 (en) * 1998-07-17 2001-12-25 Net Perceptions, Inc. System, method and article of manufacture for making serendipity-weighted recommendations to a user
US6412012B1 (en) 1998-12-23 2002-06-25 Net Perceptions, Inc. System, method, and article of manufacture for making a compatibility-aware recommendations to a user
US7461058B1 (en) 1999-09-24 2008-12-02 Thalveg Data Flow Llc Optimized rule based constraints for collaborative filtering systems
US7788123B1 (en) 2000-06-23 2010-08-31 Ekhaus Michael A Method and system for high performance model-based personalization

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249982A (ja) * 1998-02-27 1999-09-17 Nec Corp 情報配信システム及び方法
JPH11259354A (ja) * 1998-03-10 1999-09-24 Oki Electric Ind Co Ltd インターネット上の情報更新確認方法
US6321221B1 (en) 1998-07-17 2001-11-20 Net Perceptions, Inc. System, method and article of manufacture for increasing the user value of recommendations
US6334127B1 (en) * 1998-07-17 2001-12-25 Net Perceptions, Inc. System, method and article of manufacture for making serendipity-weighted recommendations to a user
JP2000067067A (ja) * 1998-08-20 2000-03-03 Sky Com:Kk 配信サーバ及び配信システム
US6412012B1 (en) 1998-12-23 2002-06-25 Net Perceptions, Inc. System, method, and article of manufacture for making a compatibility-aware recommendations to a user
US7461058B1 (en) 1999-09-24 2008-12-02 Thalveg Data Flow Llc Optimized rule based constraints for collaborative filtering systems
US8548987B2 (en) 1999-09-24 2013-10-01 Thalveg Data Flow Llc System and method for efficiently providing a recommendation
US7788123B1 (en) 2000-06-23 2010-08-31 Ekhaus Michael A Method and system for high performance model-based personalization
US8155992B2 (en) 2000-06-23 2012-04-10 Thalveg Data Flow Llc Method and system for high performance model-based personalization

Also Published As

Publication number Publication date
JP3683687B2 (ja) 2005-08-17

Similar Documents

Publication Publication Date Title
JP3655714B2 (ja) 情報フィルタリング装置及び記録媒体
KR101450358B1 (ko) 구조형 지리적 데이터 검색
JP3717808B2 (ja) 情報検索システム
US7024405B2 (en) Method and apparatus for improved internet searching
JP2005122690A (ja) 情報処理
JP2002230035A (ja) 情報整理方法、情報処理装置、情報処理システム、記憶媒体、およびプログラム伝送装置
JP2002132832A (ja) 画像検索方法及び画像検索エンジン装置
JP7171100B1 (ja) 特許文書作成支援装置、特許文書作成支援方法、特許文書作成支援プログラム。
JP3683687B2 (ja) 情報フィルタリング装置および情報フィルタリング方法
US20110252313A1 (en) Document information selection method and computer program product
CN114443928A (zh) 一种网络文本数据爬虫方法与系统
JP2003196294A (ja) 知識分析システムおよび知識分析方法
JP4417497B2 (ja) 情報検索装置及びプログラムを記憶した記憶媒体
JP2002049638A (ja) 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体
CN109388665B (zh) 作者关系在线挖掘方法及系统
JP4173857B2 (ja) 情報フィルタリング装置および情報フィルタリング方法
JP3943005B2 (ja) 情報検索プログラム
JPH1145252A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005316590A (ja) 情報検索装置
JP2001022788A (ja) 情報検索装置および情報検索プログラムを記録した記録媒体
JP3598738B2 (ja) 情報抽出装置、情報検索方法及び情報抽出方法
JP2000105769A (ja) 文書表示方法
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体
JP3287307B2 (ja) 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体
JP4352840B2 (ja) プログラム、データ処理方法およびデータ処理システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041102

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20041203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050308

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050526

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090603

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100603

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110603

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees