JP3683687B2

JP3683687B2 - 情報フィルタリング装置および情報フィルタリング方法

Info

Publication number: JP3683687B2
Application number: JP24910097A
Authority: JP
Inventors: 一男住田
Original assignee: 株式会社ニューズウオッチ
Priority date: 1996-09-13
Filing date: 1997-09-12
Publication date: 2005-08-17
Anticipated expiration: 2017-09-12
Also published as: JPH10143541A

Description

【０００１】
【発明の属する技術分野】
この発明は、膨大な数のテキスト記事や文献などの文書から、新たに入力された情報であってユーザの要求・興味にあったものを選出してユーザに提供する情報フィルタリング装置および情報フィルタリング方法に関する。
【０００２】
【従来の技術】
近年、インターネットの普及は目覚ましいものがあり、世界中に点在する計算機に格納された情報が、インターネットに接続されてさえいれば、どこからでも簡単にアクセスできるようになってきている。特に、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）では、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）を用いることにより、利用者が、世界中の情報をＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）ベースのブラウザによって簡単にアクセスできる仕組みを提供している。
【０００３】
ＷＷＷでは、ある計算機上でｈｔｔｐｄと呼ばれるソフトウェアを用いる。このソフトウェアは、その計算機のデータベースに格納されているＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）で記述したハイパーテキストファイルを、他の計算機からの要求に応じて転送するものである。インターネットに接続されている計算機は、転送を要求するハイパーテキストファイルが存在するｈｔｔｐｄに対し、ハイパーテキストファイルのアドレスを指定することによって、指定したファイルを読み込むことができる。ＨＴＭＬの記述では、ハイパーテキストファイル内のリンク情報として、前記アドレスが記述されるので、ＨＴＴＰのプロトコルにしたがったブラウザは、各ｈｔｔｐｄ支配下のハイパーテキストファイルを表示することができる。そして、音声、静止画、動画などの様々なデータを出力できるようにすることによって、マルチメディアデータを含むハイパーテキストを、ブラウザは表示することができる。
【０００４】
このＷＷＷの仕組みにより、利用者は、より簡単にインターネット上の情報にアクセスできるようになり、多くの個人や企業が、Ｗｅｂページと呼ばれるハイパーテキストファイルを公開するようになってきている。
【０００５】
しかしながら、ＷＷＷではデータベースの管理者がおらず、個々人がそれぞれ勝手にＷｅｂページを作成および修正し、しかもその規模が膨大であるために（１９９６年度初頭における世界中で公開されているＷｅｂページは４０００万ページと推定されている）、個々の利用者が自らが必要とするＷｅｂページがどこにあるか（ＵＲＬアドレスとして何を指定すれば必要なＷｅｂページを取得できるか）を知ることが困難な状況になっている。
【０００６】
このため、最近では、アクセス可能なＷｅｂページを内容ベースで検索するシステムが開発され、検索を代行するようなサービスが行なわれるようになってきた。具体的には、Ｙａｈｏｏ、ＬｙｃｏｓおよびＡｌｔａｖｉｓｔａなどといったＷｅｂ検索サーバが存在する。Ｗｅｂ検索サーバでは、キーワードを指定することによって、そのキーワードを含むＷｅｂページを検索することができる。利用者は、これらＷｅｂ検索サーバを用いて必要なＷｅｂページを検索する。
【０００７】
しかし、このようにＷｅｂ検索サーバを用いることによってオンラインで必要な情報を容易に検索できるようになったものの、これは利用者が能動的に必要な情報を検索指示した場合にのみ得られるのであって、利用者が関心・興味をいだいている情報が新しく作成された際に利用者が検索指示を行なわなければ、たとえ重要な情報であったとしても、その利用者がその情報を知ることはない。したがって、利用者が関心・興味のある情報が発生したときに、その旨を適切な利用者に知らしめるシステムが必要である。旧来のデータベースシステムでは、このような機能をＳＤＩ（ＳｅｌｅｃｔｉｖｅＤｉｓｓｅｍｉｎａｔｉｖｅＩｎｆｏｒｍａｔｉｏｎ）と呼んでいる。ＳＤＩでは、利用者は自らの関心・興味のある情報を選択するためのキーワードなどを個人プロファイルとしてシステムに登録しておく。そして、システムは、新しくデータが登録された際に、そのデータとキーワード（プロファイル）とを比較して、そのデータがキーワードと合致するときに、所望した情報が新たに発生した旨をプロファイルの登録利用者に知らせるものである。
【０００８】
しかしながら、ＷＷＷでは、Ｗｅｂページにどのような情報を記載するかは個々人の自由であるという性格をもつために、一つのＷｅｂページに複数の情報単位が記載されることは十分に考えられる。そして、互いに関連のない複数の情報単位が記載されたＷｅｂページを一つの処理単位としてプロファイルとの比較を実行した場合、必ずしも適切なフィルタリングが施される保証はない。したがって、利用者が関心・興味をもつ極めて重要な情報が一部に含まれるＷｅｂページであっても、ページ全体としてその取捨が判定された結果、選択対象とならない場合が発生するといった問題があった。
【０００９】
また、前述したような旧来型のデータベースでは、個々のデータはローカルな環境に存在するか、または特定のデータベース管理者が管理するものであったために、新しく情報が発生した情報と既存の情報とを区別することが容易であったが、ＷＷＷでは、個々人がＷｅｂページを独自に登録できる仕組みになっており、かつＷＷＷ全体を管理する管理者も存在しないため、新規情報と既存情報との区別が非常に困難である。さらに、Ｗｅｂページは、ハイパーテキスト構造をもち、互いに関連づけられた複数のページによって一定の情報を表現することがあるため、監視対象とするページについて新規情報の発生を検出するのみでは不十分であるといった問題があった。
【００１０】
さらに、ＷＷＷ上のＷｅｂページなどのように非常に広範囲な範囲に対して新規発生情報を監視することは、単独のシステムにおいては困難であるといった問題があった。
【００１１】
【発明が解決しようとする課題】
このように、従来の情報フィルタリングをたとえばＷＷＷ上のＷｅｂページなどに適用する場合においては、以下に示すような問題が存在していた。
【００１２】
（１）Ｗｅｂページは単一の情報からなる場合と複数の情報からなる場合があり、複数の情報からなるページの場合に、個々の情報単位ごとに分割し、その情報単位ごとにプロファイルとの比較を行なわないと、必要な情報の選択が正確にできない。
【００１３】
（２）大規模なシステムでない場合、全世界のページを網羅的にチェックすることは単独システムでは不可能である。一方、特定のページを指定して、そのページの情報が修正されたことを検出する監視手段を設けることで、利用者の便を図ることができる。しかしながら、Ｗｅｂページはハイパーテキストであるために、複数のページによって一定の情報を表現することがあり、前述の監視手段が一つのＷｅｂページだけしか指定できないと、そのページからリンクを張られている子供ページや孫ページが修正されても検出できない。
【００１４】
（３）単独の情報フィルタリング装置の処理だけでは、利用者にとって十分な範囲の新規発生情報を監視することが困難である。
【００１５】
この発明は、このような実情に鑑みてなされたものであり、ＷＷＷのように個々人が独自にデータを作成および修正するデータベースにおいて、新規に発生した情報（新鮮な情報）の中から、利用者の関心・興味のある情報のみを効率的に選択して通知することを可能とする情報フィルタリング装置および情報フィルタリング方法を提供することを目的とする。
【００１６】
【課題を解決するための手段】
この発明の情報フィルタリング装置は、予め登録された検索条件とＨＴＭＬ形式の文書に含まれる情報との間の類似度を算出し、その算出した類似度にしたがって複数の文書の中から所定の文書を選出する情報フィルタリング装置において、文書中の箇条書きフィールドの各項目の地の文の平均長および標準偏差を求め、この求めた平均長および標準偏差を予め定められた値と比較して、前記文書が複数の情報単位を含むか否か判定する判定手段と、前記判定手段によって複数の情報単位を含むと判定された文書を情報単位ごとに分割する分割手段と、前記分割手段によって分割された情報単位それぞれに、前記検索条件との間の類似度を算出する類似度算出手段とを具備してなることを特徴とする。
【００１７】
この発明の情報フィルタリング装置においては、判定手段が、文書それぞれに対して、単一の内容からなるデータか複数の内容からなるデータかを判定する。そして、この判定手段によって複数の内容からなるデータと判定されたときに、分割手段が、その内容ごとにフィルタリング処理を行なうべく文書を情報単位ごとに分割する。そして、類似度算出手段は、この分割された情報単位それぞれに、検索条件との間の類似度を算出する。これにより、この発明の情報フィルタリング装置では、単一の内容からなるＷｅｂページと複数の内容からなるＷｅｂページとに対し、これらを同時にフィルタリング対象とし、かつ内容に応じた高精度のフィルタリングを可能とすることができる。
【００２０】
また、この発明の情報フィルタリング装置は、他の情報フィルタリング装置により出力されるフィルタリング結果を取り込む取り込み手段と、この取り込み手段が取り込んだフィルタリング結果を前記複数の文書に含めてフィルタリング処理を実行するフィルタリング手段とを具備してなることを特徴とする。
【００２１】
この発明の情報フィルタリング装置によれば、他の情報フィルタリング装置が出力したフィルタリング結果を取り込むことにより、単独の情報フィルタリング装置が監視できる以上の範囲の情報を監視することを可能にする。
【００２２】
【発明の実施の形態】
以下、図面を参照してこの発明の実施形態について説明する。
【００２３】
（第１実施形態）
まず、この発明の第１の実施形態について説明する。図１に本実施形態の情報フィルタリングシステムの機器構成を示す。図１に示したように、本実施形態の情報フィルタリングシステムは、オペレーティングシステムやユーティリティを含む各種アプリケーションプログラム（フィルタリング処理を行なう各種プログラムもこれらに含まれる）を実行制御するＣＰＵ１、アプリケーションプログラムや各種データを格納する記憶装置２、および他の計算機からデータを読み込むための回線入出力装置３からなる。なお、この発明は、ソフトウェアとしての実施も可能であり、フロッピィディスクやＣＤ−ＲＯＭなどに格納した形態で提供したり、磁気ディスクなどに格納しておいてネットワークで入手可能な形態で提供することが可能である。
【００２４】
図２に本実施形態の情報フィルタリングシステムの機能ブロックを示す。図２に示すように、本実施形態の情報フィルタリングシステムは、制御部１１、新規情報判定部１２、書式解析部１３、複数情報判定部１４、情報分割部１５、類似度算出部１６および結果整形部１７の各処理部を具備してなる。ここでは、これらの各処理部は、ＣＰＵ１で実行制御されるアプリケーションプログラムとして構成されるものとする。
【００２５】
制御部１１は、システム全体の動作を制御する。新規情報判定部１２は、処理対象とするデータが新規に発生した情報かどうかを判定する。書式解析部１３は、データ（ＨＴＭＬファイル）の論理的な構造を解析する。複数情報判定部１４は、取り出したデータが複数の内容からなっているかどうかを判定する。
【００２６】
また、情報分割部１５は、取り出したデータが複数の内容からなっている場合に、その内容ごとに分割する。類似度算出部１６は、計算対象のデータとプロファイル１６１とを比較して類似度を算出する。結果整形部１５は、類似度の高いデータから順に並べて整形する。
【００２７】
ここで、制御部１１の処理の流れを図３を参照して説明する。制御部１１は、監視ページリストに登録されているすべてのページに対して処理を行なう。まず始めに、制御部１１は、監視ページリストからＷｅｂページのアドレスを取り出す（ステップＡ１）。次に、制御部１１は、その取り出したアドレスに基づいて、新規情報判定部１２を実行し（ステップＡ２）、そのアドレスのページが新規情報であるか否かを判定する（ステップＡ３）。新規情報であった場合には（ステップＡ３のＹ）、制御部１１は、書式解析部１３を実行し（ステップＡ４）、対象とするページを取り込むとともに、そのページの論理構造を解析する。次に、制御部１１は、複数情報判定部１４を実行し（ステップＡ５）、処理対象のページが複数の情報単位からなっているページか否かを判定し（ステップＡ６）、複数の情報単位からなっているページである場合には（ステップＡ６のＹ）、情報分割部１５を実行して（ステップＡ７）、このページの内容を各情報単位に分割する。類似度算出部１６では、情報分割部１５で対象ページが分割された場合には、この分割された情報単位ごとに、一方、分割されなかった場合には、そのページ全体を対象に登録されているプロファイル１６１との類似度を算出する（ステップＡ８）。そして、制御部１１は、この算出された類似度を、算出対象の情報単位とともに格納する（ステップＡ９）。
【００２８】
監視ページリスト内に処理すべきページアドレスが残っている場合（ステップＡ１０のＹ）、制御部１１は、その残りを対象に始めの処理に戻るが、一方、残りのページが存在しない場合には（ステップＡ１０のＮ）、制御部１１は、結果整形部１７を実行する（ステップＡ１１）。そして、結果整形部１７は、格納されている類似度算出結果を参照し、類似度の高い順に情報単位をソーティングするとともに、利用者に提示する情報フィルタリング結果を生成する。
【００２９】
監視ページリストは、システムが監視すべきアドレスの一覧である。利用者がこの監視ページリストに監視したいページアドレスを登録する。
【００３０】
次に、新規情報判定部１２の処理の流れを図４を参照して説明する。本実施例では、今回のフィルタリング時に取り込んだページを（ステップＢ１）、前回のフィルタリング時に取り込んだページと比較することにより（ステップＢ２）、そのページに修正が施されたか否かを判定する（ステップＢ３）。変化があった場合（ステップＢ３のＹ）、取り込んだページを次回のフィルタリングに利用するために記憶して（ステップＢ４）、この処理を終了する。なお、ページの作成日や修正日が取り出せる場合には、その情報を用いても良いことはいうまでもない。また、第２実施形態において、Ｗｅｂページの階層関係に対応した新規情報判定処理について述べる。
【００３１】
書式解析部１３では、ＨＴＭＬ形式のデータに付与されている各タグに基づいて、Ｗｅｂページの情報を内部構造に変換する。ＨＴＭＬは、ＳＧＭＬのサブセットであり、一般に、開始タグと終了タグとによって論理的な構造を規定している。たとえば、ＨＴＭＬでは、開始タグ＜ＴＩＴＬＥ＞と終了タグ＜／ＴＩＴＬＥ＞とに囲まれた部分がタイトル、および、開始タグ＜ＵＬ＞と終了タグ＜／ＵＬ＞とに囲まれた部分が箇条書きと定義されている。また、段落を規定する＜Ｐ＞や、箇条書きの各項目を表現する＜ＬＩ＞のように、終了タグを省略してよいタグも存在する。これらのタグについては、同じ開始タグが出現した時点で終了タグが存在したものと見なされる。書式解析では、入力データの文字列をスキャンしてＨＴＭＬの開始タグを検出する。そして、その開始タグに対応する終了タグを検出することにより、各タグに対応する情報を取り出す。
【００３２】
次に、複数情報判定部１４の処理の流れを図５を参照して説明する。複数情報判定部１４は、箇条書きのフィールドが存在し（ステップＣ１のＹ）、その箇条書きフィールドの各項目に地の文が存在するときに（ステップＣ２のＹ）、各項目の地の文の文字列の平均長（Ｍ）と標準偏差（Ｓ）とを求める（ステップＣ３）。そして、その平均長（Ｍ）が、予め定められた長さ（Ｍ₀）よりも長く、かつその標準偏差（Ｓ）が、予め定められた値（Ｓ₀）よりも小さいときに（ステップＣ４のＹ）、判定対象のページが、複数の情報単位からなると判定する（ステップＣ５）。
【００３３】
図６には、複数の情報単位からなるページのＨＴＭＬの記述例、および図７には、そのページの表示イメージが示されている。
【００３４】
箇条書きの各項目の見出し行は、タグ＜ＬＩ＞と改行タグ＜ＢＲ＞とで囲まれている文字列である。一方、地の文は、見出し行の終わる＜ＢＲ＞から次の＜ＬＩ＞までである。地の文の長さを求めるにあたっては、タグは除外して算出するものとする。ＨＴＭＬでは、箇条書きのフィールドを定義するタグ＜ＤＬ＞が存在する。＜ＤＴ＞が各項目の見出し行を、＜ＤＤ＞が地の文を表現するタグである。この場合、＜ＤＤ＞から次の＜ＤＴ＞までを地の文として文字列長の計算に用いる。
【００３５】
なお、処理対象とするページが複数の情報単位からなるページであるかどうかをページごとに記憶する手段を設け、それにしたがって複数の情報単位からなることを判定するようにしても構わない。
【００３６】
情報分割部１５では、箇条書きのフィールドを、各項目ごとに分割して出力する。具体的には、複数情報判定部１４で検出した箇条書きの情報単位（見出しと地の文）に分割する。この分割結果は、図８に示したように、見出し（＜ＨＥＡＤＩＮＧ＞と＜／ＨＥＡＤＩＮＧ＞とで囲んだ部分）と、地の文（＜ＢＯＤＹ＞と＜／ＢＯＤＹ＞とで囲んだ部分からなるデータに変換される。
【００３７】
類似度算出部１６の処理は、たとえばプロファイル１６１に格納された検索条件と処理対象となる各情報単位とをそれぞれ単語頻度のベクトルとして表現し、これらベクトル間の内積をとることによって類似度を求めるといった従前の算出方法を流用すればよい。
【００３８】
次に、結果整形部１７の処理の流れを図９を参照して説明する。結果整形部１７は、類似度算出部１６での類似度算出の対象となった各情報単位を１つの単位として、類似度の値に基づいてソーティングを行なう（ステップＤ１）。そして、結果整形部１７は、このソーティング結果の順に、情報単位の見出しを箇条書きの項目とし（ステップＤ２）、地の文から要約を生成して出力する（ステップＤ３）。要約の生成としては、たとえば、ページの前方から数文を取り出すといった簡単な処理でも構わない。図１０に、結果整形部１７による整形結果の例を示す。２つの情報が抽出された例である。
【００３９】
本実施形態では、ＭｏｓａｉｃなどのＨＴＭＬブラウザで表示することを想定しているため、ＨＴＭＬ形式で整形結果を出力している。これは、フィルタリング結果で選択された文書のオリジナルをアクセスする場合に、その文書形式との統一性を図るためである。したがって、必ずしもこれに限定するものでなく、特殊なブラウザで取り込める形式のデータに変換するように変形することは，ごく容易である。
【００４０】
このように、本実施形態の情報フィルタリングシステムによれば、単一の内容からなるＷｅｂページと、複数の内容からなるＷｅｂページとに対し、これらを同時にフィルタリング対象とし、かつ内容に応じた高精度のフィルタリングを可能とすることができる。
【００４１】
（第２実施形態）
次に、第２の実施形態を説明する。前述した第１の実施形態では、監視するページをすべて事前に登録しておく形態について説明した。しかしながら、Ｗｅｂページは、ハイパーテキストにより階層構造を形成することが可能であるため、単一のページだけを登録する形態では問題が生じる場合がある。
【００４２】
たとえば、図１１（ａ）に示すように、ページ０から参照されている他のページが階層的に関連づけられて存在しており、しかも（ｂ）に示すように、ページ０が個々のページへのリンク情報だけからなっている場合を考える。この場合、新規情報は、新着情報が記載されているページ２１や、プレスリリースを記載したページ２４に格納されることになるため、ページ０の内容は、ほとんど修正されることがないことは明らかである。したがって、第１実施形態に示したように、監視ページとしてページ０を事前に登録しておいても、新着情報のページ２１の情報が更新された際に、その旨を検出することができない。
【００４３】
本実施形態では、このような問題に対処するため、監視情報を指定するための監視情報指定手段を設ける。そして、利用者は、新規情報の発生を監視する階層の範囲を事前に設定する。一方、新規情報判定部１４では、設定された範囲だけ階層の深さをたどり、新規情報か否かを判定する。
【００４４】
監視情報指定手段では、監視ページリストを図１２に示す形式とし、利用者は、監視するページアドレスとそのページから張られたリンクをたどる段数とを設定する（個々のページについてたどる段数を設定するのではなく、すべてのページに関して同じ段数を設定する形態に変形することも可能である）。
【００４５】
本実施形態における新規情報判定部１４の処理の流れを図１３に示す。サブルーチンｃｈｅｃｋＮｅｗ（図１３（ｂ））は、設定したページの下位層に位置するページが、新規情報を含むかどうかを再帰的にチェックする。前回のフィルタリング時のページと変化があったかどうかは、第１実施形態と同様に、前回のフィルタリング時に取り込んだページの内容と比較することにより実現することができる。
【００４６】
情報分割部１５についても、階層構造をたどり個々のページごとに情報単位の分割を行なう。第１実施形態の処理を再帰的に実行することにより実現できるので、処理手続きについては説明を省略する。本実施形態における新規情報判定部１４では、内容が変化したページを検出した時点で監視ページとして設定したページ以下の階層に変化があったこととし、それ以下のページをたどらない。この場合には、情報分割部１５では、監視ページ以下の全ページについて、処理を行なう必要がある。また、新規情報判定部１４において、内容の変化したページを検出した以降も、それ以下のページについて変化があったか否かをチェックするようにしてもよい。この場合、情報分割部１５は、変化のあったページについてのみ情報分割処理を行なえばよい。
【００４７】
本実施形態は、比較的小規模なシステムを想定し、システムに監視させるページのアドレスを、監視ページのリストに利用者自らが登録する形態について説明した。一方、大規模なシステムである場合、事前に監視するページのすべてを事前に登録することは困難である。そこで、取り込んだページに記述されているアドレスを順次たどっていくことが考えられる。大規模システムとして実施する場合は、この形態によって取り込むページの範囲を拡大することも可能である。なた、Ｗｅｂページでは、外部のページへリンクを張っている場合がある。このような外部へのリンクについては無視するように変形することも可能である。
【００４８】
このように本実施形態の情報フィルタリングシステムによれば、階層的なＷｅｂページを監視可能とし、指定した範囲内に新規または修正された情報があるときに、それをもれなく検知することを可能とする。
【００４９】
（第３実施形態）
次に、第３の実施形態を説明する。本実施形態では、他の情報フィルタリング装置が出力する結果とのマージ機能を持つシステムについて説明する。第１および第２の実施形態では、フィルタリング対象とするページが、ＨＴＴＰ手順にしたがって取り込めることを前提としている。一方、利用者が入手したい情報にはＷｅｂページとして公開されていない情報も存在する。
【００５０】
図１４に、他のフィルタリング装置のフィルタリング結果を取り込む動作原理を示す。（ａ）は、あるＷｅｂサーバ３０が設定されており、他の情報フィルタ４０が、そのＷｅｂサーバ３０のＷｅｂページ３１に、フィルタリング結果を書き込む。そして、このＷｅｂページ３１を本発明における監視ページリスト２０に設定しておくことによって、他のＷｅｂページと同様にフィルタリングを行なうことが可能となる。
【００５１】
一方、（ｂ）は、電子メールやｆｔｐ手順にしたがって、ローカルなネットワークでアクセス可能なファイルとして格納される場合を示している。この場合、取り込まれたファイルの形式にしたがって、情報取得ゲートウェイ６０を設けることにより、他のＷｅｂページと同様にフィルタリングを行なえる。他の情報フィルタ４０が、ｆｔｐ手順にしたがってフィルタリング結果を出力する場合、予め定められた名前のファイル（ローカルデータベース５０内）に情報フィルタ４０のフィルタリング結果が書き込まれる。情報取得ゲートウェイ６０は、このファイルをＨＴＭＬ形式に変換し、予め定められた名前のファイルに出力する。そして、監視ページリスト２０にこのＨＴＭＬファイルを登録しておくことによって、他のＷｅｂページと同様にフィルタリングを行なうことが可能となる。
【００５２】
電子メールで送付される場合、電子メールは（メールボックスと呼ばれる）電子メール特定のファイルに格納される。他の一般の電子メールとの区別を行なうため、電子メールのＳｕｂｊｅｃｔ欄に予め取り決めた文字列が設定され、他の情報フィルタ４０より送信される。情報取得ゲートウェイ６０は、予め取り決めた文字列がＳｕｂｊｅｃｔ欄に設定されているメールをＨＴＭＬ形式に変換し、ＨＴＭＬファイルを更新すればよい。
【００５３】
情報取得ゲートウェイ６０の処理の流れは、他の情報フィルタ４０の出力するファイルまたは電子メールの形式に依存する。たとえば、図１５に例示したデータが配信される場合には、図１６に示す手順でＨＴＭＬに変換できる。
【００５４】
すなわち、入力ファイルを入力バッファに読み込んだ後（ステップＧ１）、リンクデータのみからなるＨＴＭＬファイル（ファイル０）を初期化する（生成した後、図１７に示す文字列を書き込む）（ステップＧ２）。
【００５５】
次に、ファイル番号を１に設定し（ステップＧ３）、入力バッファの先頭より処理を開始し（ステップＧ４）、ポインタＰ以降に見出し行があるかをチェックする（ステップＧ５）。処理対象の入力ファイルでは、行の先頭が「＊」である行が見出しであるので、それを取り出し、ファイル０にその情報と、ファイル番号に相当するファイル名（ファイル番号が１の場合、”１．ｈｔｍ１”）の情報を出力する（ステップＧ６）。次に、このファイル名に、見出し行と、入力バッファで見出し行に続く地の文とを書き込み（ステップＧ７）、ファイル番号を１進めて（ステップＧ８）、繰り返し処理を行なう。
【００５６】
そして、処理すべき見出しが入力バッファ中に見出せなくなった時点で（ステップＧ５のＮ）、ファイル０に、図１８に示す文字列を出力して、この処理を終了する。図１９には、図１５で示したデータを変換した結果が示されている。
【００５７】
本実施形態では、処理のモジュラリティを高めるため、一旦ＨＴＭＬファイルに変換する実施形態について説明した。モジュラリティを無視すれば、他の情報フィルタリング装置が出力するフィルタリング結果のファイルを、直接本発明の装置の入力とするように変形することはごく容易である。
【００５８】
このように、本本実施形態の情報フィルタリングシステムによれば、他の情報フィルタリング装置が出力したフィルタリング結果を読み込むことにより、単独の情報フィルタリング装置が監視できる以上の範囲の情報を監視することが可能となる。
【００５９】
【発明の効果】
以上詳述したように、この発明によれば、複数の形態を有するＷｅｂページをはじめとする文書情報のフィルタリングを統一的に処理し、利用者の分かりやすい形態で提供することができる。
【００６０】
第１の発明にあっては、複数の情報単位からなる文書内の各情報単位について、回りのテキストに影響されることなく独立して類似度を算出するため、高い精度でフィルタリング処理を行なうことが可能となる。
【００６１】
また、第２の発明にあっては、ハイパーテキスト形式の文書を、フィルタリング対象とする際階層の段数を指定することにより、複数のＷｅｂページで一つの情報を表現しているＷｅｂページ群を効果的に更新監視させることができ、また、無制限に階層をたどることを排除することができるため、処理時間を抑えることが可能となる。
【００６２】
さらに、第３の発明にあっては、他の情報フィルタリング装置の出力結果を、他の文書と同じようにマージして出力でき、利用者に分かりやすい結果を提供することが可能となる。
【図面の簡単な説明】
【図１】第１実施形態の情報フィルタリングシステムの機器構成を示す図。
【図２】同実施形態の情報フィルタリングシステムの機能ブロックを示す図。
【図３】同実施形態の制御部の処理の流れを示すフローチャート。
【図４】同実施形態の新規情報判定部の処理の流れを示すフローチャート。
【図５】同実施形態の複数情報判定部の処理の流れを示すフローチャート。
【図６】同実施形態の複数の情報単位からなるページのＨＴＭＬの記述例を示す図。
【図７】図６で示したＨＴＭＬ記述の表示イメージを示す図。
【図８】同実施形態の情報分割部の分割結果を示す図。
【図９】同実施形態の結果整形部の処理の流れを示すフローチャート。
【図１０】同実施形態の結果整形部の整形結果の例を示す図。
【図１１】ハイパーテキストによって階層構造を形成するＷｅｂページを説明する図。
【図１２】第２実施形態の監視ページリストの形式を示す図。
【図１３】同実施形態の新規情報判定部の処理の流れを示すフローチャート。
【図１４】第３実施形態の他のフィルタリング装置のフィルタリング結果を取り込む動作原理を示す図。
【図１５】同実施形態の配信されるデータを例示する図。
【図１６】同実施形態の配信データをＨＴＭＬに変換する手順を示すフローチャート。
【図１７】同実施形態のＨＴＭＬファイルに書き込まれる記述を示す図。
【図１８】同実施形態のＨＴＭＬファイルに書き込まれる記述を示す図。
【図１９】図１５で示した配信データをＨＴＭＬに変換した結果を示す図。
【符号の説明】
１…ＣＰＵ、２…記憶装置、３…回線入出力装置、１１…制御部、１２新規情報判定部、１３…書式解析部、１４…複数情報判定部、１５…情報分割部、１６…類似度算出部、１６１…プロファイル、１７…結果整形部。

Claims

予め登録された検索条件とＨＴＭＬ形式の文書に含まれる情報との間の類似度を算出し、その算出した類似度にしたがって複数の文書の中から所定の文書を選出する情報フィルタリング装置において、
文書中の箇条書きフィールドの各項目の地の文の平均長および標準偏差を求め、この求めた平均長および標準偏差を予め定められた値と比較して、前記文書が複数の情報単位を含むか否か判定する判定手段と、
前記判定手段によって複数の情報単位を含むと判定された文書を情報単位ごとに分割する分割手段と、
前記分割手段によって分割された情報単位それぞれに、前記検索条件との間の類似度を算出する類似度算出手段とを具備してなることを特徴とする情報フィルタリング装置。
他の情報フィルタリング装置により出力されるフィルタリング結果を取り込む取り込み手段と、
この取り込み手段が取り込んだフィルタリング結果を前記複数の文書に含めてフィルタリング処理を実行するフィルタリング手段とを具備してなることを特徴とする請求項１記載の情報フィルタリング装置。
予め登録された検索条件とＨＴＭＬ形式の文書に含まれる情報との間の類似度を算出し、その算出した類似度にしたがって複数の文書の中から所定の文書を選出する情報フィルタリング装置の情報フィルタリング方法において、
前記情報フィルタリング装置が、文書中の箇条書きフィールドの各項目の地の文の平均長および標準偏差を求め、この求めた平均長および標準偏差を予め定められた値と比較して、前記文書が複数の情報単位を含むか否か判定し、
前記情報フィルタリング装置が、複数の情報単位を含むと判定された文書を情報単位ごとに分割し、
前記情報フィルタリング装置が、この分割された情報単位それぞれに、前記検索条件との間の類似度を算出することを特徴とする情報フィルタリング方法。
前記情報フィルタリング装置が、他の情報フィルタリング装置が出力するフィルタリング結果を取り込み、
前記情報フィルタリング装置が、この取り込んだフィルタリング結果を前記複数の文書に含めてフィルタリング処理を実行することを特徴とする請求項３記載の情報フィルタリング方法。
予め登録された検索条件とＨＴＭＬ形式の文書に含まれる情報との間の類似度を算出し、その算出した類似度にしたがって複数の文書の中から所定の文書を選出するためのプログラムであって、
コンピュータが、文書中の箇条書きフィールドの各項目の地の文の平均長および標準偏差を求め、この求めた平均長および標準偏差を予め定められた値と比較して、前記文書が複数の情報単位を含むか否か判定し、
コンピュータが、複数の情報単位を含むと判定された文書を情報単位ごとに分割し、
コンピュータが、この分割された情報単位それぞれに、前記検索条件との間の類似度を算出するようにコンピュータを動作させるプログラムを記録したコンピュータ読み込み可能な記録媒体。
コンピュータが、他の情報フィルタリング装置が出力するフィルタリング結果を取り込み、
コンピュータが、この取り込んだフィルタリング結果を前記複数の文書に含めてフィルタリング処理を実行するようにコンピュータを動作させるプログラムを記録した請求項５記載のコンピュータ読み込み可能な記録媒体。