JP4173857B2 - 情報フィルタリング装置および情報フィルタリング方法 - Google Patents

情報フィルタリング装置および情報フィルタリング方法 Download PDF

Info

Publication number
JP4173857B2
JP4173857B2 JP2004381478A JP2004381478A JP4173857B2 JP 4173857 B2 JP4173857 B2 JP 4173857B2 JP 2004381478 A JP2004381478 A JP 2004381478A JP 2004381478 A JP2004381478 A JP 2004381478A JP 4173857 B2 JP4173857 B2 JP 4173857B2
Authority
JP
Japan
Prior art keywords
document
information
filtering
similarity
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004381478A
Other languages
English (en)
Other versions
JP2005174358A (ja
Inventor
一男 住田
Original Assignee
株式会社ニューズウォッチ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ニューズウォッチ filed Critical 株式会社ニューズウォッチ
Priority to JP2004381478A priority Critical patent/JP4173857B2/ja
Publication of JP2005174358A publication Critical patent/JP2005174358A/ja
Application granted granted Critical
Publication of JP4173857B2 publication Critical patent/JP4173857B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、膨大な数のテキスト記事や文献などの文書から、新たに入力された情報であってユーザの要求・興味にあったものを選出してユーザに提供する情報フィルタリング装置および情報フィルタリング方法に関する。
近年、インターネットの普及は目覚ましいものがあり、世界中に点在する計算機に格納された情報が、インターネットに接続されてさえいれば、どこからでも簡単にアクセスできるようになってきている。特に、WWW(World Wide Web)では、HTTP(HyperText Transfer Protocol)を用いることにより、利用者が、世界中の情報をGUI(Graphical User Interface)ベースのブラウザによって簡単にアクセスできる仕組みを提供している。
WWWでは、ある計算機上でhttpdと呼ばれるソフトウェアを用いる。このソフトウェアは、その計算機のデータベースに格納されているHTML(HyperText Markup Language)で記述したハイパーテキストファイルを、他の計算機からの要求に応じて転送するものである。インターネットに接続されている計算機は、転送を要求するハイパーテキストファイルが存在するhttpdに対し、ハイパーテキストファイルのアドレスを指定することによって、指定したファイルを読み込むことができる。HTMLの記述では、ハイパーテキストファイル内のリンク情報として、前記アドレスが記述されるので、HTTPのプロトコルにしたがったブラウザは、各httpd支配下のハイパーテキストファイルを表示することができる。そして、音声、静止画、動画などの様々なデータを出力できるようにすることによって、マルチメディアデータを含むハイパーテキストを、ブラウザは表示することができる。
このWWWの仕組みにより、利用者は、より簡単にインターネット上の情報にアクセスできるようになり、多くの個人や企業が、Webページと呼ばれるハイパーテキストファイルを公開するようになってきている。
しかしながら、WWWではデータベースの管理者がおらず、個々人がそれぞれ勝手にWebページを作成および修正し、しかもその規模が膨大であるために (1996年度初頭における世界中で公開されているWebページは4000万ページと推定されている)、個々の利用者が自らが必要とするWebページがどこにあるか(URLアドレスとして何を指定すれば必要なWebページを取得できるか)を知ることが困難な状況になっている。
このため、最近では、アクセス可能なWebページを内容ベースで検索するシステムが開発され、検索を代行するようなサービスが行なわれるようになってきた。具体的には、Yahoo、LycosおよびAltavistaなどといったWeb検索サーバが存在する。Web検索サーバでは、キーワードを指定することによって、そのキーワードを含むWebページを検索することができる。利用者は、これらWeb検索サーバを用いて必要なWebページを検索する。
しかし、このようにWeb検索サーバを用いることによってオンラインで必要な情報を容易に検索できるようになったものの、これは利用者が能動的に必要な情報を検索指示した場合にのみ得られるのであって、利用者が関心・興味をいだいている情報が新しく作成された際に利用者が検索指示を行なわなければ、たとえ重要な情報であったとしても、その利用者がその情報を知ることはない。したがって、利用者が関心・興味のある情報が発生したときに、その旨を適切な利用者に知らしめるシステムが必要である。旧来のデータベースシステムでは、このような機能をSDI(Selective Disseminative Information)と呼んでいる。SDIでは、利用者は自らの関心・興味のある情報を選択するためのキーワードなどを個人プロファイルとしてシステムに登録しておく。そして、システムは、新しくデータが登録された際に、そのデータとキーワード(プロファイル)とを比較して、そのデータがキーワードと合致するときに、所望した情報が新たに発生した旨をプロファイルの登録利用者に知らせるものである。
しかしながら、WWWでは、Webページにどのような情報を記載するかは個々人の自由であるという性格をもつために、一つのWebページに複数の情報単位が記載されることは十分に考えられる。そして、互いに関連のない複数の情報単位が記載されたWebページを一つの処理単位としてプロファイルとの比較を実行した場合、必ずしも適切なフィルタリングが施される保証はない。したがって、利用者が関心・興味をもつ極めて重要な情報が一部に含まれるWebページであっても、ページ全体としてその取捨が判定された結果、選択対象とならない場合が発生するといった問題があった。
また、前述したような旧来型のデータベースでは、個々のデータはローカルな環境に存在するか、または特定のデータベース管理者が管理するものであったために、新しく情報が発生した情報と既存の情報とを区別することが容易であったが、WWWでは、個々人がWebページを独自に登録できる仕組みになっており、かつWWW全体を管理する管理者も存在しないため、新規情報と既存情報との区別が非常に困難である。さらに、Webページは、ハイパーテキスト構造をもち、互いに関連づけられた複数のページによって一定の情報を表現することがあるため、監視対象とするページについて新規情報の発生を検出するのみでは不十分であるといった問題があった。
さらに、WWW上のWebページなどのように非常に広範囲な範囲に対して新規発生情報を監視することは、単独のシステムにおいては困難であるといった問題があった。
このように、従来の情報フィルタリングをたとえばWWW上のWebページなどに適用する場合においては、以下に示すような問題が存在していた。
(1)Webページは単一の情報からなる場合と複数の情報からなる場合があり、複数の情報からなるページの場合に、個々の情報単位ごとに分割し、その情報単位ごとにプロファイルとの比較を行なわないと、必要な情報の選択が正確にできない。
(2)大規模なシステムでない場合、全世界のページを網羅的にチェックすることは単独システムでは不可能である。一方、特定のページを指定して、そのページの情報が修正されたことを検出する監視手段を設けることで、利用者の便を図ることができる。しかしながら、Webページはハイパーテキストであるために、複数のページによって一定の情報を表現することがあり、前述の監視手段が一つのWebページだけしか指定できないと、そのページからリンクを張られている子供ページや孫ページが修正されても検出できない。
(3)単独の情報フィルタリング装置の処理だけでは、利用者にとって十分な範囲の新規発生情報を監視することが困難である。
この発明は、このような実情に鑑みてなされたものであり、WWWのように個々人が独自にデータを作成および修正するデータベースにおいて、新規に発生した情報(新鮮な情報)の中から、利用者の関心・興味のある情報のみを効率的に選択して通知することを可能とする情報フィルタリング装置および情報フィルタリング方法を提供することを目的とする。
前述の目的を達成するために、この発明の情報フィルタリング装置は、予め登録されたフィルタリング条件と文書中に含まれる情報との間の類似度を算出し、その算出した類似度にしたがって複数の文書の中から所定の文書を選出する情報フィルタリング装置であって、階層構造をなすHTML形式の文書をフィルタリング対象の文書に含む情報フィルタリング装置において、新たな情報が発生したか否か監視すべき文書のアドレスを設定する第1の設定手段と、前記第1の設定手段によって設定された文書を起点に下位層に位置する文書に対する監視すべき階層数を前記第1の設定手段により設定されたアドレス毎に設定する第2の設定手段と、前記第1の設定手段によって設定されたアドレスから前記第2の設定手段によって設定された階層数を対象範囲として文書を読み込み、その範囲内に新たな情報が発生したか否か判定する第1の判定手段と、前記第1の判定手段により新たな情報が発生したと判定された文書について、その文書中の箇条書きフィールドの各項目の地の文の平均長および標準偏差を求め、この求めた平均長および標準偏差を予め定められた値と比較して、前記文書が複数の情報単位を含むか否か判定する第2の判定手段と、前記第2の判定手段によって複数の情報単位を含むと判定された文書を情報単位ごとに分割する分割手段と、前記分割手段によって分割された情報単位それぞれに、前記フィルタリング条件との間の類似度を算出する類似度算出手段と、を具備してなることを特徴とする。
この発明によれば、複数の形態を有するWebページをはじめとする文書情報のフィルタリングを統一的に処理し、利用者の分かりやすい形態で提供することができる。
つまり、この発明にあっては、ハイパーテキスト形式の文書を、フィルタリング対象とする際階層の段数を指定することにより、複数のWebページで一つの情報を表現しているWebページ群を効果的に更新監視させることができ、また、無制限に階層をたどることを排除することができるため、処理時間を抑えることが可能となる。
以下、図面を参照してこの発明の実施形態について説明する。
(第1実施形態)
まず、この発明の第1の実施形態について説明する。図1に本実施形態の情報フィルタリングシステムの機器構成を示す。図1に示したように、本実施形態の情報フィルタリングシステムは、オペレーティングシステムやユーティリティを含む各種アプリケーションプログラム(フィルタリング処理を行なう各種プログラムもこれらに含まれる)を実行制御するCPU1、アプリケーションプログラムや各種データを格納する記憶装置2、および他の計算機からデータを読み込むための回線入出力装置3からなる。なお、この発明は、ソフトウェアとしての実施も可能であり、フロッピィディスクやCD−ROMなどに格納した形態で提供したり、磁気ディスクなどに格納しておいてネットワークで入手可能な形態で提供することが可能である。
図2に本実施形態の情報フィルタリングシステムの機能ブロックを示す。図2に示すように、本実施形態の情報フィルタリングシステムは、制御部11、新規情報判定部12、書式解析部13、複数情報判定部14、情報分割部15、類似度算出部16および結果整形部17の各処理部を具備してなる。ここでは、これらの各処理部は、CPU1で実行制御されるアプリケーションプログラムとして構成されるものとする。
制御部11は、システム全体の動作を制御する。新規情報判定部12は、処理対象とするデータが新規に発生した情報かどうかを判定する。書式解析部13は、データ(HTMLファイル)の論理的な構造を解析する。複数情報判定部14は、取り出したデータが複数の内容からなっているかどうかを判定する。
また、情報分割部15は、取り出したデータが複数の内容からなっている場合に、その内容ごとに分割する。類似度算出部16は、計算対象のデータとプロファイル161とを比較して類似度を算出する。結果整形部15は、類似度の高いデータから順に並べて整形する。
ここで、制御部11の処理の流れを図3を参照して説明する。制御部11は、監視ページリストに登録されているすべてのページに対して処理を行なう。まず始めに、制御部11は、監視ページリストからWebページのアドレスを取り出す(ステップA1)。次に、制御部11は、その取り出したアドレスに基づいて、新規情報判定部12を実行し(ステップA2)、そのアドレスのページが新規情報であるか否かを判定する(ステップA3)。新規情報であった場合には(ステップA3のY)、制御部11は、書式解析部13を実行し(ステップA4)、対象とするページを取り込むとともに、そのページの論理構造を解析する。次に、制御部11は、複数情報判定部14を実行し(ステップA5)、処理対象のページが複数の情報単位からなっているページか否かを判定し(ステップA6)、複数の情報単位からなっているページである場合には(ステップA6のY)、情報分割部15を実行して(ステップA7)、このページの内容を各情報単位に分割する。類似度算出部16では、情報分割部15で対象ページが分割された場合には、この分割された情報単位ごとに、一方、分割されなかった場合には、そのページ全体を対象に登録されているプロファイル161との類似度を算出する (ステップA8)。そして、制御部11は、この算出された類似度を、算出対象の情報単位とともに格納する(ステップA9)。
監視ページリスト内に処理すべきページアドレスが残っている場合(ステップA10のY)、制御部11は、その残りを対象に始めの処理に戻るが、一方、残りのページが存在しない場合には(ステップA10のN)、制御部11は、結果整形部17を実行する(ステップA11)。そして、結果整形部17は、格納されている類似度算出結果を参照し、類似度の高い順に情報単位をソーティングするとともに、利用者に提示する情報フィルタリング結果を生成する。
監視ページリストは、システムが監視すべきアドレスの一覧である。利用者がこの監視ページリストに監視したいページアドレスを登録する。
次に、新規情報判定部12の処理の流れを図4を参照して説明する。本実施例では、今回のフィルタリング時に取り込んだページを(ステップB1)、前回のフィルタリング時に取り込んだページと比較することにより(ステップB2)、そのページに修正が施されたか否かを判定する(ステップB3)。変化があった場合(ステップB3のY)、取り込んだページを次回のフィルタリングに利用するために記憶して(ステップB4)、この処理を終了する。なお、ページの作成日や修正日が取り出せる場合には、その情報を用いても良いことはいうまでもない。また、第2実施形態において、Webページの階層関係に対応した新規情報判定処理について述べる。
書式解析部13では、HTML形式のデータに付与されている各タグに基づいて、Webページの情報を内部構造に変換する。HTMLは、SGMLのサブセットであり、一般に、開始タグと終了タグとによって論理的な構造を規定している。たとえば、HTMLでは、開始タグ<TITLE>と終了タグ</TITLE>とに囲まれた部分がタイトル、および、開始タグ<UL>と終了タグ</UL>とに囲まれた部分が箇条書きと定義されている。また、段落を規定する<P>や、箇条書きの各項目を表現する<LI>のように、終了タグを省略してよいタグも存在する。これらのタグについては、同じ開始タグが出現した時点で終了タグが存在したものと見なされる。書式解析では、入力データの文字列をスキャンしてHTMLの開始タグを検出する。そして、その開始タグに対応する終了タグを検出することにより、各タグに対応する情報を取り出す。
次に、複数情報判定部14の処理の流れを図5を参照して説明する。複数情報判定部14は、箇条書きのフィールドが存在し(ステップC1のY)、その箇条書きフィールドの各項目に地の文が存在するときに(ステップC2のY)、各項目の地の文の文字列の平均長(M)と標準偏差(S)とを求める(ステップC3)。そして、その平均長(M)が、予め定められた長さ(M0 )よりも長く、かつその標準偏差(S)が、予め定められた値(S0 )よりも小さいときに(ステップC4のY)、判定対象のページが、複数の情報単位からなると判定する(ステップC5)。
図6には、複数の情報単位からなるページのHTMLの記述例、および図7には、そのページの表示イメージが示されている。
箇条書きの各項目の見出し行は、タグ<LI>と改行タグ<BR>とで囲まれている文字列である。一方、地の文は、見出し行の終わる<BR>から次の<LI>までである。地の文の長さを求めるにあたっては、タグは除外して算出するものとする。HTMLでは、箇条書きのフィールドを定義するタグ<DL>が存在する。<DT>が各項目の見出し行を、<DD>が地の文を表現するタグである。この場合、<DD>から次の<DT>までを地の文として文字列長の計算に用いる。
なお、処理対象とするページが複数の情報単位からなるページであるかどうかをページごとに記憶する手段を設け、それにしたがって複数の情報単位からなることを判定するようにしても構わない。
情報分割部15では、箇条書きのフィールドを、各項目ごとに分割して出力する。具体的には、複数情報判定部14で検出した箇条書きの情報単位(見出しと地の文)に分割する。この分割結果は、図8に示したように、見出し(<HEADING>と</HEADING>とで囲んだ部分)と、地の文(<BODY>と</BODY>とで囲んだ部分からなるデータに変換される。
類似度算出部16の処理は、たとえばプロファイル161に格納された検索条件と処理対象となる各情報単位とをそれぞれ単語頻度のベクトルとして表現し、これらベクトル間の内積をとることによって類似度を求めるといった従前の算出方法を流用すればよい。
次に、結果整形部17の処理の流れを図9を参照して説明する。結果整形部17は、類似度算出部16での類似度算出の対象となった各情報単位を1つの単位として、類似度の値に基づいてソーティングを行なう(ステップD1)。そして、結果整形部17は、このソーティング結果の順に、情報単位の見出しを箇条書きの項目とし(ステップD2)、地の文から要約を生成して出力する(ステップD3)。要約の生成としては、たとえば、ページの前方から数文を取り出すといった簡単な処理でも構わない。図10に、結果整形部17による整形結果の例を示す。2つの情報が抽出された例である。
本実施形態では、MosaicなどのHTMLブラウザで表示することを想定しているため、HTML形式で整形結果を出力している。これは、フィルタリング結果で選択された文書のオリジナルをアクセスする場合に、その文書形式との統一性を図るためである。したがって、必ずしもこれに限定するものでなく、特殊なブラウザで取り込める形式のデータに変換するように変形することは,ごく容易である。
このように、本実施形態の情報フィルタリングシステムによれば、単一の内容からなるWebページと、複数の内容からなるWebページとに対し、これらを同時にフィルタリング対象とし、かつ内容に応じた高精度のフィルタリングを可能とすることができる。
(第2実施形態)
次に、第2の実施形態を説明する。前述した第1の実施形態では、監視するページをすべて事前に登録しておく形態について説明した。しかしながら、Webページは、ハイパーテキストにより階層構造を形成することが可能であるため、単一のページだけを登録する形態では問題が生じる場合がある。
たとえば、図11(a)に示すように、ページ0から参照されている他のページが階層的に関連づけられて存在しており、しかも(b)に示すように、ページ0が個々のページへのリンク情報だけからなっている場合を考える。この場合、新規情報は、新着情報が記載されているページ21や、プレスリリースを記載したページ24に格納されることになるため、ページ0の内容は、ほとんど修正されることがないことは明らかである。したがって、第1実施形態に示したように、監視ページとしてページ0を事前に登録しておいても、新着情報のページ21の情報が更新された際に、その旨を検出することができない。
本実施形態では、このような問題に対処するため、監視情報を指定するための監視情報指定手段を設ける。そして、利用者は、新規情報の発生を監視する階層の範囲を事前に設定する。一方、新規情報判定部14では、設定された範囲だけ階層の深さをたどり、新規情報か否かを判定する。
監視情報指定手段では、監視ページリストを図12に示す形式とし、利用者は、監視するページアドレスとそのページから張られたリンクをたどる段数とを設定する(個々のページについてたどる段数を設定するのではなく、すべてのページに関して同じ段数を設定する形態に変形することも可能である)。
本実施形態における新規情報判定部14の処理の流れを図13に示す。サブルーチンcheckNew(図13(b))は、設定したページの下位層に位置するページが、新規情報を含むかどうかを再帰的にチェックする。前回のフィルタリング時のページと変化があったかどうかは、第1実施形態と同様に、前回のフィルタリング時に取り込んだページの内容と比較することにより実現することができる。
情報分割部15についても、階層構造をたどり個々のページごとに情報単位の分割を行なう。第1実施形態の処理を再帰的に実行することにより実現できるので、処理手続きについては説明を省略する。本実施形態における新規情報判定部14では、内容が変化したページを検出した時点で監視ページとして設定したページ以下の階層に変化があったこととし、それ以下のページをたどらない。この場合には、情報分割部15では、監視ページ以下の全ページについて、処理を行なう必要がある。また、新規情報判定部14において、内容の変化したページを検出した以降も、それ以下のページについて変化があったか否かをチェックするようにしてもよい。この場合、情報分割部15は、変化のあったページについてのみ情報分割処理を行なえばよい。
本実施形態は、比較的小規模なシステムを想定し、システムに監視させるページのアドレスを、監視ページのリストに利用者自らが登録する形態について説明した。一方、大規模なシステムである場合、事前に監視するページのすべてを事前に登録することは困難である。そこで、取り込んだページに記述されているアドレスを順次たどっていくことが考えられる。大規模システムとして実施する場合は、この形態によって取り込むページの範囲を拡大することも可能である。なた、Webページでは、外部のページへリンクを張っている場合がある。このような外部へのリンクについては無視するように変形することも可能である。
このように本実施形態の情報フィルタリングシステムによれば、階層的なWebページを監視可能とし、指定した範囲内に新規または修正された情報があるときに、それをもれなく検知することを可能とする。
(第3実施形態)
次に、第3の実施形態を説明する。本実施形態では、他の情報フィルタリング装置が出力する結果とのマージ機能を持つシステムについて説明する。第1および第2の実施形態では、フィルタリング対象とするページが、HTTP手順にしたがって取り込めることを前提としている。一方、利用者が入手したい情報にはWebページとして公開されていない情報も存在する。
図14に、他のフィルタリング装置のフィルタリング結果を取り込む動作原理を示す。(a)は、あるWebサーバ30が設定されており、他の情報フィルタ40が、そのWebサーバ30のWebページ31に、フィルタリング結果を書き込む。そして、このWebページ31を本発明における監視ページリスト20に設定しておくことによって、他のWebページと同様にフィルタリングを行なうことが可能となる。
一方、(b)は、電子メールやftp手順にしたがって、ローカルなネットワークでアクセス可能なファイルとして格納される場合を示している。この場合、取り込まれたファイルの形式にしたがって、情報取得ゲートウェイ60を設けることにより、他のWebページと同様にフィルタリングを行なえる。他の情報フィルタ40が、ftp手順にしたがってフィルタリング結果を出力する場合、予め定められた名前のファイル(ローカルデータベース50内)に情報フィルタ40のフィルタリング結果が書き込まれる。情報取得ゲートウェイ60は、このファイルをHTML形式に変換し、予め定められた名前のファイルに出力する。そして、監視ページリスト20にこのHTMLファイルを登録しておくことによって、他のWebページと同様にフィルタリングを行なうことが可能となる。
電子メールで送付される場合、電子メールは(メールボックスと呼ばれる)電子メール特定のファイルに格納される。他の一般の電子メールとの区別を行なうため、電子メールのSubject欄に予め取り決めた文字列が設定され、他の情報フィルタ40より送信される。情報取得ゲートウェイ60は、予め取り決めた文字列がSubject欄に設定されているメールをHTML形式に変換し、HTMLファイルを更新すればよい。
情報取得ゲートウェイ60の処理の流れは、他の情報フィルタ40の出力するファイルまたは電子メールの形式に依存する。たとえば、図15に例示したデータが配信される場合には、図16に示す手順でHTMLに変換できる。
すなわち、入力ファイルを入力バッファに読み込んだ後(ステップG1)、リンクデータのみからなるHTMLファイル(ファイル0)を初期化する(生成した後、図17に示す文字列を書き込む)(ステップG2)。
次に、ファイル番号を1に設定し(ステップG3)、入力バッファの先頭より処理を開始し(ステップG4)、ポインタP以降に見出し行があるかをチェックする(ステップG5)。処理対象の入力ファイルでは、行の先頭が「*」である行が見出しであるので、それを取り出し、ファイル0にその情報と、ファイル番号に相当するファイル名(ファイル番号が1の場合、”1.htm1”)の情報を出力する(ステップG6)。次に、このファイル名に、見出し行と、入力バッファで見出し行に続く地の文とを書き込み(ステップG7)、ファイル番号を1進めて(ステップG8)、繰り返し処理を行なう。
そして、処理すべき見出しが入力バッファ中に見出せなくなった時点で(ステップG5のN)、ファイル0に、図18に示す文字列を出力して、この処理を終了する。図19には、図15で示したデータを変換した結果が示されている。
本実施形態では、処理のモジュラリティを高めるため、一旦HTMLファイルに変換する実施形態について説明した。モジュラリティを無視すれば、他の情報フィルタリング装置が出力するフィルタリング結果のファイルを、直接本発明の装置の入力とするように変形することはごく容易である。
このように、本本実施形態の情報フィルタリングシステムによれば、他の情報フィルタリング装置が出力したフィルタリング結果を読み込むことにより、単独の情報フィルタリング装置が監視できる以上の範囲の情報を監視することが可能となる。
第1実施形態の情報フィルタリングシステムの機器構成を示す図 同実施形態の情報フィルタリングシステムの機能ブロックを示す図 同実施形態の制御部の処理の流れを示すフローチャート 同実施形態の新規情報判定部の処理の流れを示すフローチャート 同実施形態の複数情報判定部の処理の流れを示すフローチャート 同実施形態の複数の情報単位からなるページのHTMLの記述例を示す図 図6で示したHTML記述の表示イメージを示す図 同実施形態の情報分割部の分割結果を示す図 同実施形態の結果整形部の処理の流れを示すフローチャート 同実施形態の結果整形部の整形結果の例を示す図 ハイパーテキストによって階層構造を形成するWebページを説明する図 第2実施形態の監視ページリストの形式を示す図 同実施形態の新規情報判定部の処理の流れを示すフローチャート 第3実施形態の他のフィルタリング装置のフィルタリング結果を取り込む動作原理を示す図 同実施形態の配信されるデータを例示する図 同実施形態の配信データをHTMLに変換する手順を示すフローチャート 同実施形態のHTMLファイルに書き込まれる記述を示す図 同実施形態のHTMLファイルに書き込まれる記述を示す図 図15で示した配信データをHTMLに変換した結果を示す図
符号の説明
1…CPU、2…記憶装置、3…回線入出力装置、11…制御部、12新規情報判定部、13…書式解析部、14…複数情報判定部、15…情報分割部、16…類似度算出部、161…プロファイル、17…結果整形部。

Claims (3)

  1. 予め登録されたフィルタリング条件と文書中に含まれる情報との間の類似度を算出し、その算出した類似度にしたがって複数の文書の中から所定の文書を選出する情報フィルタリング装置であって、階層構造をなすHTML形式の文書をフィルタリング対象の文書に含む情報フィルタリング装置において、
    新たな情報が発生したか否か監視すべき文書のアドレスを設定する第1の設定手段と、
    前記第1の設定手段によって設定された文書を起点に下位層に位置する文書に対する監視すべき階層数を前記第1の設定手段により設定されたアドレス毎に設定する第2の設定手段と、
    前記第1の設定手段によって設定されたアドレスから前記第2の設定手段によって設定された階層数を対象範囲として文書を読み込み、その範囲内に新たな情報が発生したか否か判定する第1の判定手段と、
    前記第1の判定手段により新たな情報が発生したと判定された文書について、その文書中の箇条書きフィールドの各項目の地の文の平均長および標準偏差を求め、この求めた平均長および標準偏差を予め定められた値と比較して、前記文書が複数の情報単位を含むか否か判定する第2の判定手段と、
    前記第2の判定手段によって複数の情報単位を含むと判定された文書を情報単位ごとに分割する分割手段と、
    前記分割手段によって分割された情報単位それぞれに、前記フィルタリング条件との間の類似度を算出する類似度算出手段と、
    を具備してなることを特徴とする情報フィルタリング装置。
  2. 予め登録されたフィルタリング条件と文書中に含まれる情報との間の類似度を算出し、その算出した類似度にしたがって複数の文書の中から所定の文書を選出する情報フィルタリング装置であって、階層構造をなすHTML形式の文書をフィルタリング対象の文書に含む情報フィルタリング装置の情報フィルタリング方法において、
    前記情報フィルタリング装置は、
    新たな情報が発生したか否か監視すべき文書のアドレスを設定し、
    この設定された文書を起点に下位層に位置する文書に対する監視すべき階層数を前記設定されたアドレス毎に設定し、
    前記設定されたアドレスから前記設定された階層数を対象範囲として文書を読み込み、その範囲内に新たな情報が発生したか否か判定し、
    新たな情報が発生したと判定された文書について、その文書中の箇条書きフィールドの各項目の地の文の平均長および標準偏差を求め、この求めた平均長および標準偏差を予め定められた値と比較して、前記文書が複数の情報単位を含むか否か判定し、
    複数の情報単位を含むと判定された文書を情報単位ごとに分割し、
    この分割された情報単位それぞれに、前記フィルタリング条件との間の類似度を算出する、
    ことを特徴とする情報フィルタリング方法。
  3. 予め登録されたフィルタリング条件と文書中に含まれる情報との間の類似度を算出し、その算出した類似度にしたがって複数の文書の中から所定の文書を選出する処理であって、階層構造をなすHTML形式の文書をフィルタリング対象の文書に含む処理をコンピュータに実行させるためのプログラムであって、
    新たな情報が発生したか否か監視すべき文書のアドレスを設定し、
    この設定された文書を起点に下位層に位置する文書に対する監視すべき階層数を前記設定されたアドレス毎に設定し、
    前記設定されたアドレスから前記設定された階層数を対象範囲として文書を読み込み、その範囲内に新たな情報が発生したか否か判定し、
    新たな情報が発生したと判定された文書について、その文書中の箇条書きフィールドの各項目の地の文の平均長および標準偏差を求め、この求めた平均長および標準偏差を予め定められた値と比較して、前記文書が複数の情報単位を含むか否か判定し、
    複数の情報単位を含むと判定された文書を情報単位ごとに分割し、
    この分割された情報単位それぞれに、前記フィルタリング条件との間の類似度を算出する、
    ようにコンピュータを動作させるプログラムを記録したコンピュータ読み込み可能な記録媒体。
JP2004381478A 1996-09-13 2004-12-28 情報フィルタリング装置および情報フィルタリング方法 Expired - Fee Related JP4173857B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004381478A JP4173857B2 (ja) 1996-09-13 2004-12-28 情報フィルタリング装置および情報フィルタリング方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP24378596 1996-09-13
JP2004381478A JP4173857B2 (ja) 1996-09-13 2004-12-28 情報フィルタリング装置および情報フィルタリング方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP24910097A Division JP3683687B2 (ja) 1996-09-13 1997-09-12 情報フィルタリング装置および情報フィルタリング方法

Publications (2)

Publication Number Publication Date
JP2005174358A JP2005174358A (ja) 2005-06-30
JP4173857B2 true JP4173857B2 (ja) 2008-10-29

Family

ID=34740838

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004381478A Expired - Fee Related JP4173857B2 (ja) 1996-09-13 2004-12-28 情報フィルタリング装置および情報フィルタリング方法

Country Status (1)

Country Link
JP (1) JP4173857B2 (ja)

Also Published As

Publication number Publication date
JP2005174358A (ja) 2005-06-30

Similar Documents

Publication Publication Date Title
US7496581B2 (en) Information search system, information search method, HTML document structure analyzing method, and program product
JP3655714B2 (ja) 情報フィルタリング装置及び記録媒体
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
JP2003114906A (ja) ユーザ定義可能なパーソナリティを備えたメタ文書管理システム
CN110633264B (zh) 应用专利数据库的研发辅助系统及其方法
JPWO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
CN108520007B (zh) 万维网网页信息提取方法、存储介质及计算机设备
JP7171100B1 (ja) 特許文書作成支援装置、特許文書作成支援方法、特許文書作成支援プログラム。
TW201804345A (zh) 基於結構化網路知識的自動中文本體庫建構方法、系統及電腦可讀媒體
JP3683687B2 (ja) 情報フィルタリング装置および情報フィルタリング方法
KR20020075359A (ko) 디지털 소스로부터 정보를 포착하고 관리하기 위한 시스템및 방법
JP3832693B2 (ja) 構造化文書検索表示方法及び装置
JP2003271609A (ja) 情報監視装置及び情報監視方法
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
JP4883644B2 (ja) リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
JP4173857B2 (ja) 情報フィルタリング装置および情報フィルタリング方法
JP2007188427A (ja) 話題画像選出方法及び装置及プログラム
CN109388665B (zh) 作者关系在线挖掘方法及系统
JP4417497B2 (ja) 情報検索装置及びプログラムを記憶した記憶媒体
JP3943005B2 (ja) 情報検索プログラム
Tsapatsoulis Web image indexing using WICE and a learning-free language model
US8122039B2 (en) Apparatus for multimedia integrated retrieval and storage medium storing a multimedia integrated retrieval program
JP2005316590A (ja) 情報検索装置
JP2008269106A (ja) スキーマ抽出方法、情報処理装置、コンピュータプログラム及び記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080507

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080729

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080814

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110822

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees