JP2010257412A - 情報フィルタリング装置、情報フィルタリング方法及びプログラム - Google Patents
情報フィルタリング装置、情報フィルタリング方法及びプログラム Download PDFInfo
- Publication number
- JP2010257412A JP2010257412A JP2009109793A JP2009109793A JP2010257412A JP 2010257412 A JP2010257412 A JP 2010257412A JP 2009109793 A JP2009109793 A JP 2009109793A JP 2009109793 A JP2009109793 A JP 2009109793A JP 2010257412 A JP2010257412 A JP 2010257412A
- Authority
- JP
- Japan
- Prior art keywords
- content
- information
- filtering
- unit
- unnecessary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】構造化文書で表現された多様な構造を有するコンテンツに対して、構造内の文書内容に応じたフィルタリングを行う。
【解決手段】コンテンツ取得部11は、ウェブサーバからコンテンツを取得し、コンテンツ構造取得部23は、コンテンツ取得部11が取得したコンテンツのURLに基づいて、コンテンツ構造記憶部22が記憶する記事構造を取得する。次に、分割手段13は、取得した記事構造に基づいてコンテンツを解析し、コンテンツ取得部11が取得したコンテンツを記事毎のコンテンツ部分に分割する。次に、フィルタ部25は、分割部13が分割したコンテンツ部分の各々に対してフィルタリング処理を行い、表示部15は、フィルタリングしたコンテンツ部分を表示する。
【選択図】図1
【解決手段】コンテンツ取得部11は、ウェブサーバからコンテンツを取得し、コンテンツ構造取得部23は、コンテンツ取得部11が取得したコンテンツのURLに基づいて、コンテンツ構造記憶部22が記憶する記事構造を取得する。次に、分割手段13は、取得した記事構造に基づいてコンテンツを解析し、コンテンツ取得部11が取得したコンテンツを記事毎のコンテンツ部分に分割する。次に、フィルタ部25は、分割部13が分割したコンテンツ部分の各々に対してフィルタリング処理を行い、表示部15は、フィルタリングしたコンテンツ部分を表示する。
【選択図】図1
Description
本発明は、構造化文書で表現されるコンテンツに対してフィルタリングを行う情報フィルタリング装置、情報フィルタリング方法及びプログラムに関する。
近年、情報網の発展に伴い、ユーザは大量の情報の中から必要な情報を選択する必要が出てきている。しかし、大量の情報の中から必要な情報だけを選択することは、ユーザにとって大変困難なことであった。
そこで、ユーザにとって不要な情報であるか否かを判定するフィルタリング方法が開発されている。特許文献1や特許文献2には、ユーザからの学習情報を用いて大量のメールの中から不要なメールのフィルタリングをする方法が開示されている。
そこで、ユーザにとって不要な情報であるか否かを判定するフィルタリング方法が開発されている。特許文献1や特許文献2には、ユーザからの学習情報を用いて大量のメールの中から不要なメールのフィルタリングをする方法が開示されている。
しかしながら、特許文献1に記載のフィルタリング方法は、メーラに組み込まれたフィルタ情報を用いて電子メールの要否を判定する手法であるため、学習されたフィルタ情報を他のウェブサービスに適用させることができないという問題があった。
また、特許文献2に記載の情報フィルタリング装置は、入力された文書全体に対してフィルタリングを行うため、入力された文書に複数の記事が含まれる場合において、当該文書が必要であると判定されたとき、情報フィルタリング装置は、不要な記事を含む全文を表示する。そのため、ユーザは表示された文書の中から必要な記事を探し出さなくてはならなかった。つまり、一つの文書に含まれる複数の記事の各々に対するフィルタリングを行うことができないという問題があった。
本発明は上記の点に鑑みてなされたものであり、その目的は、構造化文書で表現された多様な構造を有するコンテンツに対して、構造内の文書内容に応じたフィルタリングを行うことができる情報フィルタリング装置、情報フィルタリング方法及びプログラムを提供することにある。
本発明は上記の課題を解決するためになされたものであり、構造化文書で表現されるコンテンツに対してフィルタリングを行う情報フィルタリング装置であって、前記コンテンツのうち抽出対象となるコンテンツ部分の記事構造を記憶するコンテンツ構造記憶手段と、前記コンテンツを、前記コンテンツ構造記憶手段が記憶する記事構造にマッチするコンテンツ部分毎に分割する分割手段と、前記分割手段が分割したコンテンツ部分の各々に対してフィルタリング処理を行うフィルタ手段と、前記フィルタ手段がフィルタリングしたコンテンツ部分を表示する表示手段と、を備えることを特徴とする。
また、本発明は、構造化文書で表現されるコンテンツのうち抽出対象となるコンテンツ部分の記事構造を記憶するコンテンツ構造記憶手段を備え、当該コンテンツに対してフィルタリングを行う情報フィルタリング装置を用いた情報フィルタリング方法であって、分割手段は、前記コンテンツを、前記コンテンツ構造記憶手段が記憶する記事構造にマッチするコンテンツ部分毎に分割し、フィルタ手段は、前記分割手段が分割したコンテンツ部分の各々に対してフィルタリング処理を行い、表示手段は、前記フィルタ手段がフィルタリングしたコンテンツ部分を表示する、ことを特徴とする。
また、本発明は、構造化文書で表現されるコンテンツに対してフィルタリングを行う情報フィルタリング装置を、前記コンテンツのうち抽出対象となるコンテンツ部分の記事構造を記憶するコンテンツ構造記憶手段、前記コンテンツを、前記コンテンツ構造記憶手段が記憶する記事構造にマッチするコンテンツ部分毎に分割する分割手段、前記分割手段が分割したコンテンツ部分の各々に対してフィルタリング処理を行うフィルタ手段、前記フィルタ手段がフィルタリングしたコンテンツ部分を表示する表示手段、として動作させるためのプログラムである。
本発明によれば、分割手段が、コンテンツ構造記憶手段が記憶する記事構造にマッチするコンテンツ部分毎にコンテンツを分割し、フィルタ手段が分割したコンテンツ部分の各々に対してフィルタリング処理を行う。構造化文書で表現された多様な構造を有するコンテンツに対して、構造内の文書内容に応じたフィルタリングを行うことができる。
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態による情報フィルタリングシステムの構成を示す概略ブロック図である。
情報フィルタリングシステムは、表示装置10とフィルタリングサーバ20とを備える。なお、ここでは情報フィルタリングシステムとして表示装置10とフィルタリングサーバ20を備える構成を例に説明するが、例えば、各処理部を一つの装置にまとめ、装置単体で動作させる場合や、何れかの装置が備える何れかの処理部を他の装置に備えるように構成する場合など、本構成に限られず、他の構成であっても良い。
表示装置10は、ウェブサーバからコンテンツを取得し、画面に表示する。
フィルタリングサーバ20は、表示装置10が表示するコンテンツに対してフィルタリングを行う。
図1は、本発明の一実施形態による情報フィルタリングシステムの構成を示す概略ブロック図である。
情報フィルタリングシステムは、表示装置10とフィルタリングサーバ20とを備える。なお、ここでは情報フィルタリングシステムとして表示装置10とフィルタリングサーバ20を備える構成を例に説明するが、例えば、各処理部を一つの装置にまとめ、装置単体で動作させる場合や、何れかの装置が備える何れかの処理部を他の装置に備えるように構成する場合など、本構成に限られず、他の構成であっても良い。
表示装置10は、ウェブサーバからコンテンツを取得し、画面に表示する。
フィルタリングサーバ20は、表示装置10が表示するコンテンツに対してフィルタリングを行う。
表示装置10は、コンテンツ取得部11(コンテンツ取得手段)、通信部12、分割部13(分割手段)、コンテンツ書き換え部14(ユーザインタフェース追加手段)、表示部15(表示手段)、入力部16(入力手段)を備える。
コンテンツ取得部11は、通信ネットワーク等を介してウェブサーバからコンテンツを取得する。ウェブサーバが配信するコンテンツの例としては、例えば、ウェブメーラや、RSS(Really Simple Syndication)リーダ等が挙げられる。
通信部12は、フィルタリングサーバ20との通信を行う。
分割部13は、コンテンツ取得部12が取得したコンテンツを複数のコンテンツ部分に分割する。
コンテンツ書き換え部14は、コンテンツ取得部12が取得したコンテンツの一部を書き換える。
表示部15は、コンテンツ書き換え部14が書き換えたコンテンツを表示する。
入力部16は、ユーザから表示部15が表示するコンテンツの記事の各々が不要であるか否かを示す評価情報の入力を受け付ける。
コンテンツ取得部11は、通信ネットワーク等を介してウェブサーバからコンテンツを取得する。ウェブサーバが配信するコンテンツの例としては、例えば、ウェブメーラや、RSS(Really Simple Syndication)リーダ等が挙げられる。
通信部12は、フィルタリングサーバ20との通信を行う。
分割部13は、コンテンツ取得部12が取得したコンテンツを複数のコンテンツ部分に分割する。
コンテンツ書き換え部14は、コンテンツ取得部12が取得したコンテンツの一部を書き換える。
表示部15は、コンテンツ書き換え部14が書き換えたコンテンツを表示する。
入力部16は、ユーザから表示部15が表示するコンテンツの記事の各々が不要であるか否かを示す評価情報の入力を受け付ける。
フィルタリングサーバ20は、通信部21、コンテンツ構造記憶部22(コンテンツ構造記憶手段)、コンテンツ構造取得部23(コンテンツ構造取得手段)、フィルタ情報記憶部24、フィルタ部25(フィルタ手段)、更新部26(フィルタ情報更新手段)を備える。
通信部21は、表示装置10との通信を行う。
コンテンツ構造記憶部22は、ウェブサーバが配信する各々のコンテンツの記事構造を格納するコンテンツテーブルを記憶する。
コンテンツ構造取得部23は、表示装置10がウェブサーバから取得したコンテンツの記事構造をコンテンツ構造記憶部22から取得する。
フィルタ情報記憶部24は、表示装置10のユーザの趣向に基づくフィルタ情報を記憶する。
フィルタ部25は、表示装置10が取得したコンテンツに対してフィルタリングを行う。
更新部26は、表示装置10のユーザによる評価情報の入力に基づいてフィルタ情報記憶部24が記憶するフィルタ情報の更新を行う。
通信部21は、表示装置10との通信を行う。
コンテンツ構造記憶部22は、ウェブサーバが配信する各々のコンテンツの記事構造を格納するコンテンツテーブルを記憶する。
コンテンツ構造取得部23は、表示装置10がウェブサーバから取得したコンテンツの記事構造をコンテンツ構造記憶部22から取得する。
フィルタ情報記憶部24は、表示装置10のユーザの趣向に基づくフィルタ情報を記憶する。
フィルタ部25は、表示装置10が取得したコンテンツに対してフィルタリングを行う。
更新部26は、表示装置10のユーザによる評価情報の入力に基づいてフィルタ情報記憶部24が記憶するフィルタ情報の更新を行う。
図2は、コンテンツ構造記憶部が記憶するコンテンツテーブルの例を示す図である。
フィルタリングサーバ20のコンテンツ構造記憶部22が記憶するコンテンツテーブルは、ウェブサーバ内でコンテンツを特定するための情報であるのURL(Uniform Resource Locator)に関連付けて、記事構造ルール情報とUI(User Interface:ユーザインタフェース)追加情報とを格納する。記事構造ルール情報は、コンテンツ内の記事を抽出するための情報であって、1つの記事毎のまとまりを特定する構造をマークアップ言語の正規表現で示した情報である。また、UI追加情報は、記事構造ルール情報にマッチするコンテンツ構造に評価情報の入力を受け付けるフォームを追加するための情報である。
フィルタリングサーバ20のコンテンツ構造記憶部22が記憶するコンテンツテーブルは、ウェブサーバ内でコンテンツを特定するための情報であるのURL(Uniform Resource Locator)に関連付けて、記事構造ルール情報とUI(User Interface:ユーザインタフェース)追加情報とを格納する。記事構造ルール情報は、コンテンツ内の記事を抽出するための情報であって、1つの記事毎のまとまりを特定する構造をマークアップ言語の正規表現で示した情報である。また、UI追加情報は、記事構造ルール情報にマッチするコンテンツ構造に評価情報の入力を受け付けるフォームを追加するための情報である。
記事構造ルール情報及びUI追加情報は正規表現で記述される。例えば、図2の記事構造ルール情報51に含まれる、「(¥d+)」は、1文字以上の数字の繰り返しを示し、「(.*)」は、0文字以上の任意の文字の繰り返しを示す。また、UI追加情報52に含まれる「$1」は、記事構造ルール情報の初めに出現する「()」で括られた文字列、すなわち「(¥d+)」にマッチする文字列を示し、「$2」は、記事構造ルール情報の2番目に出現する「()」で括られた文字列、すなわち「(.*)」にマッチする文字列を示す。
なお、コンテンツテーブルへの情報の追加は、フィルタリングサーバ20の管理者が行うと良い。例えば、管理者が予めウェブサーバからコンテンツを取得し、当該コンテンツに含まれる記事の繰り返し構造を正規表現で表現することで当該コンテンツに対応する記事構造ルール情報及びUI追加情報を生成することができる。
なお、コンテンツテーブルへの情報の追加は、フィルタリングサーバ20の管理者が行うと良い。例えば、管理者が予めウェブサーバからコンテンツを取得し、当該コンテンツに含まれる記事の繰り返し構造を正規表現で表現することで当該コンテンツに対応する記事構造ルール情報及びUI追加情報を生成することができる。
そして、情報フィルタリングシステムにおいて、表示装置10の分割部13は、コンテンツ取得部11が取得したコンテンツを、フィルタリングサーバ20のコンテンツ構造記憶部22が記憶する記事構造にマッチするコンテンツ部分毎に分割し、フィルタリングサーバ20のフィルタ部25は、表示装置10の分割部13が分割したコンテンツ部分の各々に対してフィルタリング処理を行い、表示装置10の表示部15は、フィルタリングサーバ20のフィルタ部25がフィルタリングしたコンテンツ部分を表示する。
これにより、構造化文書で表現された多様な構造を有するコンテンツに対して、構造内の文書内容に応じたフィルタリングを行う。
これにより、構造化文書で表現された多様な構造を有するコンテンツに対して、構造内の文書内容に応じたフィルタリングを行う。
次に、情報フィルタリングシステムの動作を説明する。
図3は、情報フィルタリングシステムの動作を示すシーケンス図である。
まず、表示装置10のコンテンツ取得部11は、通信ネットワークを介してウェブサーバからコンテンツを取得する(ステップS1)。次に、通信部12は、取得したコンテンツのURLをフィルタリングサーバ20に送信する(ステップS2)。
図3は、情報フィルタリングシステムの動作を示すシーケンス図である。
まず、表示装置10のコンテンツ取得部11は、通信ネットワークを介してウェブサーバからコンテンツを取得する(ステップS1)。次に、通信部12は、取得したコンテンツのURLをフィルタリングサーバ20に送信する(ステップS2)。
表示装置10がURLを送信すると、フィルタリングサーバ20の通信部21は、表示装置10からURLを受信する(ステップS3)。そして、コンテンツ構造取得部23は、通信部21が受信したURLに対応する記事構造ルール情報とUI追加情報とをコンテンツ構造記憶部22から取得する(ステップS4)。コンテンツ構造取得部23がURLに対応する記事構造ルール情報とUI追加情報とを取得すると、次に通信部21は、取得した記事構造ルール情報とUI追加情報とを表示装置10に送信する(ステップS5)。
フィルタリングサーバ20が記事構造ルール情報とUI追加情報とを送信すると、表示装置10の通信部12は、フィルタリングサーバ20から記事構造ルール情報とUI追加情報とを受信する(ステップS6)。その後、分割部13は、コンテンツ取得部11が取得したコンテンツを、受信した記事構造ルール情報にマッチする複数のコンテンツ部分に分割する(ステップS7)。
図4は、コンテンツの分割例を示す図である。
図4(A)は、ウェブサーバが配信するコンテンツのデータ例を示している。図4(A)に示されるコンテンツは、HTML(HyperText Markup Language)で記述されている。このコンテンツに対して図2の記事構造ルール情報51を用いて分割を行うと、図4(B)に示されるように、<li>タグで括られた複数のコンテンツ部分に分割される。
図4(A)は、ウェブサーバが配信するコンテンツのデータ例を示している。図4(A)に示されるコンテンツは、HTML(HyperText Markup Language)で記述されている。このコンテンツに対して図2の記事構造ルール情報51を用いて分割を行うと、図4(B)に示されるように、<li>タグで括られた複数のコンテンツ部分に分割される。
ステップS7で分割部13がコンテンツを分割すると、コンテンツ書き換え部14は、分割部13が分割したコンテンツ部分を、通信部12が受信したUI追加情報が示す構造に置換する(ステップS8)。これにより、コンテンツ書き換え部14は、コンテンツ部分に評価情報の入力フォームを追加する。また、このとき、コンテンツ書き換え部14は、追加した入力フォームへの入力情報をフィルタリングサーバ20に送信させるスクリプトをコンテンツに追加する。
図5は、コンテンツ部分の置換例を示す図である。
図5(A)は、分割部13が分割したコンテンツ部分の例を示している。このコンテンツ部分に対して図2のUI追加情報52を用いて置換を行うと、図5(B)に示されるように、<input>タグが追加される。
図5(C)は図5(A)が示すコンテンツ部分を表示部15が表示した例を示している。図5(A)が示すコンテンツ部分を表示部15が表示する場合、表示部15は、図5(C)に示すように、「あいうえお」という文字列を表示する。
図5(D)は図5(B)が示すコンテンツ部分を表示部15が表示した例を示している。図5(B)が示すコンテンツ部分を表示部15が表示する場合、表示部15は、図5(C)に示すように、「あいうえお」という文字列の前に評価情報の入力を受け付けるチェックボックスを表示する。
図5(A)は、分割部13が分割したコンテンツ部分の例を示している。このコンテンツ部分に対して図2のUI追加情報52を用いて置換を行うと、図5(B)に示されるように、<input>タグが追加される。
図5(C)は図5(A)が示すコンテンツ部分を表示部15が表示した例を示している。図5(A)が示すコンテンツ部分を表示部15が表示する場合、表示部15は、図5(C)に示すように、「あいうえお」という文字列を表示する。
図5(D)は図5(B)が示すコンテンツ部分を表示部15が表示した例を示している。図5(B)が示すコンテンツ部分を表示部15が表示する場合、表示部15は、図5(C)に示すように、「あいうえお」という文字列の前に評価情報の入力を受け付けるチェックボックスを表示する。
ステップS8でコンテンツ書き換え部14がコンテンツ部分の書き換えを行うと、通信部12は、ステップS7で分割部18が分割したコンテンツ部分の各々と、記事構造ルール情報にマッチしなかった残りのコンテンツ部分とをフィルタリングサーバ20に送信する(ステップS9)。
表示装置10が分割したコンテンツ部分を送信すると、フィルタリングサーバ20の通信部21は、表示装置10からコンテンツ部分を受信する(ステップS10)。通信部21がコンテンツ部分を受信すると、フィルタ部25は、受信したコンテンツ部分の各々に対してフィルタリングを行う(ステップS11)。フィルタ部25によるフィルタリングは、例えば、以下のように行う。
まず、フィルタ部25は、フィルタリングを行うコンテンツ部分を形態素解析により単語毎に分解する。次に、フィルタ部25は、フィルタ情報記憶部24が記憶するフィルタ情報から単語の各々の不要確率を取得する。フィルタ情報記憶部24が記憶するフィルタ情報は、予めユーザから入力された不要な記事及び不要でない記事に含まれる単語の頻度から算出された各単語の不要確率を格納している。
そして、フィルタ部25は、コンテンツ部分に含まれる単語の各々の不要確率に基づいてコンテンツ部分の各々に対して不要確率を算出し、当該不要確率が所定の閾値を超えるか否かに基づいて当該コンテンツ部分が不要であるか否かの判定を行うことで、フィルタリングを行う。このとき、更新部26は、フィルタ部25の判定結果に基づいてフィルタ情報記憶部24が記憶するフィルタ情報が格納する単語の各々の不要確率を更新すると良い。例えば、フィルタ部25が不要であると判定したコンテンツ部分に含まれる単語の不要確率を高くし、フィルタ部25が不要でないと判定したコンテンツ部分に含まれる単語の不要確率を低くすると良い。
そして、フィルタ部25は、コンテンツ部分に含まれる単語の各々の不要確率に基づいてコンテンツ部分の各々に対して不要確率を算出し、当該不要確率が所定の閾値を超えるか否かに基づいて当該コンテンツ部分が不要であるか否かの判定を行うことで、フィルタリングを行う。このとき、更新部26は、フィルタ部25の判定結果に基づいてフィルタ情報記憶部24が記憶するフィルタ情報が格納する単語の各々の不要確率を更新すると良い。例えば、フィルタ部25が不要であると判定したコンテンツ部分に含まれる単語の不要確率を高くし、フィルタ部25が不要でないと判定したコンテンツ部分に含まれる単語の不要確率を低くすると良い。
ステップS11でフィルタ部25がコンテンツ部分の各々に対して不要であるか否かの判定を行うことでフィルタリングを行うと、通信部21は、フィルタリングの結果を表示装置10に送信する(ステップS12)。
フィルタリングサーバ20がフィルタリングの結果を送信すると、表示装置10の通信部12は、フィルタリングサーバ20からフィルタリングの結果を受信する(ステップS13)。通信部12がフィルタリングの結果を受信すると、コンテンツ書き換え部14は、フィルタリングサーバ20によって不要と判定されたコンテンツ部分を不要であることを示す情報に書き換える(ステップS14)。ここで、不要であることを示す情報への書き換えは、例えば、該当するコンテンツ部分を<strike>タグで括ることにより、打ち消し線を表示させる方法や、該当するコンテンツ部分を削除する方法などが挙げられる。
フィルタリングサーバ20がフィルタリングの結果を送信すると、表示装置10の通信部12は、フィルタリングサーバ20からフィルタリングの結果を受信する(ステップS13)。通信部12がフィルタリングの結果を受信すると、コンテンツ書き換え部14は、フィルタリングサーバ20によって不要と判定されたコンテンツ部分を不要であることを示す情報に書き換える(ステップS14)。ここで、不要であることを示す情報への書き換えは、例えば、該当するコンテンツ部分を<strike>タグで括ることにより、打ち消し線を表示させる方法や、該当するコンテンツ部分を削除する方法などが挙げられる。
コンテンツ書き換え部14が不要と判定されたコンテンツ部分を書き換えると、表示部15は、コンテンツ書き換え部14が書き換えたコンテンツ部分を含むコンテンツを表示する(ステップS15)。これにより、表示部15が表示するコンテンツは、記事毎に評価情報の入力を受け付ける入力フォームが表示され、視覚的に各記事が不要であるか否かが分かるようになっている。
表示部15がコンテンツを表示すると、入力部16は、ユーザから評価情報の入力を受け付ける(ステップS16)。評価情報の入力は、表示部15が表示するコンテンツの記事の各々に配置されている入力フォームを介して行われる。入力部16がユーザからマウス操作等による入力フォームへの評価情報の入力を受け付けると、通信部12は、入力を受け付けた評価情報をフィルタリングサーバ20に送信する(ステップS17)
表示装置10が評価情報を送信すると、フィルタリングサーバ20の通信部21は、表示装置10から評価情報を受信する(ステップS18)。通信部21が評価情報を受信すると、更新部26は、評価情報に基づいてフィルタ情報記憶部24が記憶するフィルタ情報の更新を行う(ステップS19)。フィルタ情報の更新は、例えば、評価情報が不要を示すンテンツ部分に含まれる単語の不要確率を高くし、評価情報が不要でないことを示すコンテンツ部分に含まれる単語の不要確率を低くすると良い。
次に、具体的な例を用いて、情報フィルタリングシステムの動作を説明する。
図6は、情報フィルタリングシステムの具体的な動作例を示す図である。
ここでは、表示装置10がウェブサーバから取得するコンテンツとしてRSSリーダ及びウェブメーラを動作させる場合を例に説明する。
まず、表示部15がRSSリーダのコンテンツを表示している場合において、ユーザは表示装置10のコンテンツ書き換え部14によって追加されたチェックボックスを介して評価情報の入力を行う。例えば、「ラーメン食べた」という記事が不要であることを示す評価情報を入力する。評価情報の入力を行うと、評価情報は、フィルタリングサーバ20に送信され、更新部26は、評価情報に基づいてフィルタ情報記憶部24が記憶するフィルタ情報を更新する。
図6は、情報フィルタリングシステムの具体的な動作例を示す図である。
ここでは、表示装置10がウェブサーバから取得するコンテンツとしてRSSリーダ及びウェブメーラを動作させる場合を例に説明する。
まず、表示部15がRSSリーダのコンテンツを表示している場合において、ユーザは表示装置10のコンテンツ書き換え部14によって追加されたチェックボックスを介して評価情報の入力を行う。例えば、「ラーメン食べた」という記事が不要であることを示す評価情報を入力する。評価情報の入力を行うと、評価情報は、フィルタリングサーバ20に送信され、更新部26は、評価情報に基づいてフィルタ情報記憶部24が記憶するフィルタ情報を更新する。
ここで、同じユーザがウェブメーラを実行すると、表示装置10の分割部13は、ウェブメーラのコンテンツを一連の記事(メール)を示すコンテンツ部分毎に分割し、通信部12は、分割したコンテンツ部分をフィルタリングサーバ20に送信する。フィルタリングサーバ20のフィルタ部25は、コンテンツ部分の各々に対してフィルタリングを行う。そして、表示装置10の表示部15は、フィルタリングサーバ20によってフィルタリングがなされたコンテンツを表示する。
このとき、フィルタ部25がフィルタリングに用いるフィルタ情報は、RSSリーダの評価情報に基づいて更新されたフィルタ情報である。そのため、表示装置10は、RSSサービスで学習した学習情報をウェブメーラで利用することができる。例えば、フィルタリングサーバ20は、RSSリーダのコンテンツの「ラーメン食べた」という記事が不要であることを学習することで、ウェブメーラのコンテンツの「ラーメン情報」というメールが不要であると判定することができる。
このとき、フィルタ部25がフィルタリングに用いるフィルタ情報は、RSSリーダの評価情報に基づいて更新されたフィルタ情報である。そのため、表示装置10は、RSSサービスで学習した学習情報をウェブメーラで利用することができる。例えば、フィルタリングサーバ20は、RSSリーダのコンテンツの「ラーメン食べた」という記事が不要であることを学習することで、ウェブメーラのコンテンツの「ラーメン情報」というメールが不要であると判定することができる。
このように、本実施形態によれば、分割部13が、記事構造ルール情報に基づいてコンテンツを解析し、フィルタ部25が、コンテンツを記事毎のコンテンツ部分に分割し、分割したコンテンツの各々に対してフィルタリング処理を行う。これにより、構造化文書で表現された多様な構造を有するコンテンツに対して、構造内の文書内容に応じたフィルタリングを行うことができる。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、本実施形態では、コンテンツ書き換え部14がコンテンツに評価情報の入力フォームを追加する場合を説明したが、これに限られず、例えば、予め記事毎に入力フォームが用意されているコンテンツに対しては入力フォームの追加を行わず、予め用意された入力フォームを利用して評価情報の入力を行うようにしても良い。
例えば、本実施形態では、コンテンツ書き換え部14がコンテンツに評価情報の入力フォームを追加する場合を説明したが、これに限られず、例えば、予め記事毎に入力フォームが用意されているコンテンツに対しては入力フォームの追加を行わず、予め用意された入力フォームを利用して評価情報の入力を行うようにしても良い。
なお、本実施形態では、コンテンツ構造記憶部22が記憶するコンテンツテーブルが、コンテンツを示すURLに関連付けて記事構造ルール情報及びUI追加情報を格納する場合を説明したが、これに限られず、例えば、URL以外のコンテンツを特定する情報に関連付けて記事構造ルール情報及びUI追加情報を格納しても良い。
また、本実施形態では、表示装置10とフィルタリングサーバ20とを備える情報フィルタリングシステムを用いてコンテンツのフィルタリングを行ったが、これに限られず、例えば、1つの情報フィルタリング装置に表示装置10及びフィルタリングサーバ20の機能を搭載させ、当該情報フィルタリング装置を用いてコンテンツのフィルタリングを行っても良い。
上述の表示装置10及びフィルタリングサーバ20は内部に、コンピュータシステムを有している。そして、上述した各処理部の動作は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
10…表示装置 11…コンテンツ取得部 12…通信部 13…分割部 14…コンテンツ書き換え部 15…表示部 16…入力部 20…フィルタリングサーバ 21…通信部 22…コンテンツ構造記憶部 23…コンテンツ構造取得部 24…フィルタ情報記憶部 25…フィルタ部 26…更新部
Claims (7)
- 構造化文書で表現されるコンテンツに対してフィルタリングを行う情報フィルタリング装置であって、
前記コンテンツのうち抽出対象となるコンテンツ部分の記事構造を記憶するコンテンツ構造記憶手段と、
前記コンテンツを、前記コンテンツ構造記憶手段が記憶する記事構造にマッチするコンテンツ部分毎に分割する分割手段と、
前記分割手段が分割したコンテンツ部分の各々に対してフィルタリング処理を行うフィルタ手段と、
前記フィルタ手段がフィルタリングしたコンテンツ部分を表示する表示手段と、
を備えることを特徴とする情報フィルタリング装置。 - 前記フィルタ手段は、
前記コンテンツ部分を複数の文字列毎に分解し、
当該分解した文字列毎の不要確率を、文字列の不要確率を格納するフィルタ情報から取得し、
前記分解した文字列毎の不要確率に基づいて前記コンテンツ部分の不要確率を算出し、
前記不要確率が所定の閾値以上である場合に当該コンテンツ部分が不要であると判定することによってフィルタリングを行う、
ことを特徴とする請求項1に記載の情報フィルタリング装置。 - ユーザから前記分割手段が分割したコンテンツ部分の各々に対して不要であるか否かを示す評価情報の入力を受け付ける入力手段と、
前記フィルタ情報が記憶する不要確率のうち、前記入力手段が受け付けた評価情報が不要を示すコンテンツ部分を構成する文字列の不要確率を高くし、前記入力手段が受け付けた評価情報が不要でないことを示すコンテンツ部分を構成する文字列の不要確率を低くするフィルタ情報更新手段と、
を備えることを特徴とする請求項2に記載の情報フィルタリング装置。 - 前記分割手段が分割したコンテンツ部分に前記評価情報の入力用のユーザインタフェースを挿入するユーザインタフェース追加手段を備え、
前記表示手段は、前記ユーザインタフェース追加手段がユーザインタフェースを挿入したコンテンツ部分を表示し、
前記入力手段は、前記ユーザインタフェース追加手段が追加したユーザインタフェースを介して前記評価情報の入力を受け付ける、
ことを特徴とする請求項3に記載の情報フィルタリング装置。 - 前記フィルタ手段は、各コンテンツに対して共通のフィルタ情報に基づいてフィルタリングを行う、
ことを特徴とする請求項1から請求項4の何れか1項に記載の情報フィルタリング装置。 - 構造化文書で表現されるコンテンツのうち抽出対象となるコンテンツ部分の記事構造を記憶するコンテンツ構造記憶手段を備え、当該コンテンツに対してフィルタリングを行う情報フィルタリング装置を用いた情報フィルタリング方法であって、
分割手段は、前記コンテンツを、前記コンテンツ構造記憶手段が記憶する記事構造にマッチするコンテンツ部分毎に分割し、
フィルタ手段は、前記分割手段が分割したコンテンツ部分の各々に対してフィルタリング処理を行い、
表示手段は、前記フィルタ手段がフィルタリングしたコンテンツ部分を表示する、
ことを特徴とする情報フィルタリング方法。 - 構造化文書で表現されるコンテンツに対してフィルタリングを行う情報フィルタリング装置を、
前記コンテンツのうち抽出対象となるコンテンツ部分の記事構造を記憶するコンテンツ構造記憶手段、
前記コンテンツを、前記コンテンツ構造記憶手段が記憶する記事構造にマッチするコンテンツ部分毎に分割する分割手段、
前記分割手段が分割したコンテンツ部分の各々に対してフィルタリング処理を行うフィルタ手段、
前記フィルタ手段がフィルタリングしたコンテンツ部分を表示する表示手段、
として動作させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009109793A JP2010257412A (ja) | 2009-04-28 | 2009-04-28 | 情報フィルタリング装置、情報フィルタリング方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009109793A JP2010257412A (ja) | 2009-04-28 | 2009-04-28 | 情報フィルタリング装置、情報フィルタリング方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010257412A true JP2010257412A (ja) | 2010-11-11 |
Family
ID=43318209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009109793A Pending JP2010257412A (ja) | 2009-04-28 | 2009-04-28 | 情報フィルタリング装置、情報フィルタリング方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010257412A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022512056A (ja) * | 2020-02-27 | 2022-02-02 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | ページ処理方法、デバイス、電子デバイス及びコンピュータ読み取り可能な記憶媒体 |
US11275799B2 (en) | 2019-03-18 | 2022-03-15 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium |
-
2009
- 2009-04-28 JP JP2009109793A patent/JP2010257412A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11275799B2 (en) | 2019-03-18 | 2022-03-15 | Fujifilm Business Innovation Corp. | Information processing device and non-transitory computer readable medium |
JP2022512056A (ja) * | 2020-02-27 | 2022-02-02 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | ページ処理方法、デバイス、電子デバイス及びコンピュータ読み取り可能な記憶媒体 |
JP7212771B2 (ja) | 2020-02-27 | 2023-01-25 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | ページ処理方法、デバイス、電子デバイス及びコンピュータ読み取り可能な記憶媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8756489B2 (en) | Method and system for dynamic assembly of form fragments | |
US9047346B2 (en) | Reporting language filtering and mapping to dimensional concepts | |
CN102779114B (zh) | 利用自动规则生成的非结构化数据支持 | |
KR102345005B1 (ko) | 특허 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템 | |
US20150067476A1 (en) | Title and body extraction from web page | |
CN102725729B (zh) | 对于标准验证从图形界面分析对象 | |
US8387010B2 (en) | Automatic software configuring system | |
US9471405B1 (en) | Methods and systems for access to legacy programs using non-legacy interfaces | |
JP2018097846A (ja) | Api学習 | |
CN107273122A (zh) | 基于解耦机制的可迭代组建业务系统的方法及其终端 | |
JP2010015554A (ja) | 表構造解析装置、表構造解析方法および表構造解析プログラム | |
US9449114B2 (en) | Removing non-substantive content from a web page by removing its text-sparse nodes and removing high-frequency sentences of its text-dense nodes using sentence hash value frequency across a web page collection | |
WO2016095502A1 (zh) | 数学公式处理方法、装置、设备和计算机存储介质 | |
US20190392024A1 (en) | Digital Content Editing of a Document Object Model (DOM) | |
CN108694172B (zh) | 信息输出方法和装置 | |
JP2010257412A (ja) | 情報フィルタリング装置、情報フィルタリング方法及びプログラム | |
EP1959352A2 (en) | System and method of report representation | |
JP2012084119A (ja) | 機器管理装置および機器管理プログラム | |
US20210397663A1 (en) | Data reduction in a tree data structure for a wireframe | |
JP2009265770A (ja) | 重要文提示システム | |
US10303719B1 (en) | Organization and retrieval of conditioned data | |
US9424243B1 (en) | Mechanism to support composite data models in HTML form | |
KR20170129225A (ko) | 스타일에 대한 선언적 캐스캐이드 재정렬 | |
JP2010287154A (ja) | 文書校正プログラムおよび文書校正装置 | |
JP2015162107A (ja) | 対応関係抽出装置、対応関係抽出方法、対応関係抽出プログラム |