JP4934572B2 - Spam特徴情報生成装置、spam情報フィルタリング装置および情報検索装置およびその方法 - Google Patents

Spam特徴情報生成装置、spam情報フィルタリング装置および情報検索装置およびその方法 Download PDF

Info

Publication number
JP4934572B2
JP4934572B2 JP2007295787A JP2007295787A JP4934572B2 JP 4934572 B2 JP4934572 B2 JP 4934572B2 JP 2007295787 A JP2007295787 A JP 2007295787A JP 2007295787 A JP2007295787 A JP 2007295787A JP 4934572 B2 JP4934572 B2 JP 4934572B2
Authority
JP
Japan
Prior art keywords
information
spam
storage unit
location
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007295787A
Other languages
English (en)
Other versions
JP2009122931A (ja
Inventor
聡哉 栗島
禅 北山
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007295787A priority Critical patent/JP4934572B2/ja
Publication of JP2009122931A publication Critical patent/JP2009122931A/ja
Application granted granted Critical
Publication of JP4934572B2 publication Critical patent/JP4934572B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Description

本発明は、インターネットなどの通信ネットワークにあるSPAM情報の特徴を示すSPAM特徴情報を生成するSPAM特徴情報生成装置、SPAM特徴情報によりSPAM情報をフィルタリングするSPAM情報フィルタリング装置、ならびに、SPAM情報をフィルタリングして残った非SPAM情報を閲覧させるための情報検索装置およびその方法に関するものである。
近年では、ブログといわれるようなWebサービスの人気が高い。ブログでは、日記などの情報を書き込んだ記事が、書き込んだ人とは別の人の端末に表示される。
ブログの中には、端末から送信されたキーワードを含む記事を示す検索結果を表示させるものもある。こうするためには、予め記事が収集され、記事に含まれたキーワードと当該記事のタイトルなどの両方を含むインデクスが生成される。そして、検索エンジンが、送信されたキーワードを含むインデクスを検索し、対応する記事を示す検索結果を生成して端末に表示させる。検索エンジンは、ときには、キーワードに対する適合度が高い記事の検索結果だけを生成し表示させる。
この出願の発明に関連する先行技術文献情報としては次のものがある。
gooブログ,[online],2007年,[2007年9月21日検索],インターネット<URL:http://blog.goo.ne.jp/>
ところで、最近では、商品の評判などを書き込んだ記事が多い。主目的が、例えばアフィリエイト収入であるなら、その記事は望まれないのだが、検索結果には反映されてしまう。こうした記事は俗にSPAMといわれる。広告目的の記事なども然りである。かかる記事は、例えば、自動生成された意味のありそうな内容、検索結果のままの内容、芸能人名を羅列しただけの内容を含むことがあり、やはりSPAMである。また、かかるSPAMで儲けているサービスもある。
こうして、SPAMにより記事数は大変多くなっている。そのため、インデクス生成および検索、並びに、検索結果の表示に長時間を要し、また、検索結果にSPAMに関するものが含まれるという、いわゆる検索結果の精度低下を招くという問題が発生している。
本発明は、上記の課題に鑑みてなされたものであり、SPAMのフィルタリングつまり排除に関連する技術を提供し、インデクス生成および検索、並びに、検索結果表示の迅速化、検索結果の精度向上に寄与することを目的とする。
上記の課題を解決するために、第1の本発明によれば、SPAM情報を取得し、取得したSPAM情報に基づいて、SPAM特徴情報を生成することで、SPAM特徴情報に基づいて、SPAM情報をフィルタリングすることができる。
の本発明によれば、SPAM情報をフィルタリングすることで、インデクス生成および検索が迅速化される。
の本発明によれば、SPAM情報をフィルタリングして残った非SPAM情報についてのインデクス生成および検索、並びに、検索結果の送信を行うことで、検索結果の表示が迅速化され、検索結果の精度が向上する。
第1の本発明によれば、SPAM情報を取得し、取得したSPAM情報に基づいて、SPAM特徴情報を生成することで、SPAM特徴情報に基づいて、SPAM情報をフィルタリングすることができる。
の本発明によれば、SPAM情報をフィルタリングすることで、インデクス生成および検索が迅速化される。
の本発明によれば、SPAM情報をフィルタリングして残った非SPAM情報についてのインデクス生成および検索、並びに、検索結果の送信を行うことで、検索結果の表示が迅速化され、検索結果の精度が向上する。
以下、本発明の実施の形態を図面を参照して説明する。
図1は、本実施の形態に係る情報検索装置の構成と利用形態を示す図である。
情報検索装置は、キーワードにより文書を検索する装置であり、ウェブサーバなどにより構成される。情報検索装置は、同図に示すように、例えば、インターネットなどの通信ネットワークNにあるSPAM情報の場所を示す場所情報が予め記憶される特定場所情報記憶部1と、SPAM情報の特徴を示すSPAM特徴情報が記憶されることになるSPAM特徴情報記憶部2と、特定場所情報記憶部1から場所情報を読み出し、読み出した場所情報の場所にあるSPAM情報を取得し、取得したSPAM情報に基づいて、取得したSPAM情報の特徴を示すSPAM特徴情報を生成し、SPAM特徴情報記憶部2に記憶させるSPAM特徴情報生成部3と、通信ネットワークNにおけるSPAM情報と非SPAM情報の各場所を示す場所情報が区別せずに予め記憶される場所情報記憶部4と、非SPAM情報が記憶されることになる非SPAM情報記憶部5と、場所情報記憶部4から場所情報を読み出し、通信ネットワークの読み出した場所情報の場所にある情報を取得し、SPAM特徴情報記憶部2からSPAM特徴情報を読み出し、読み出したSPAM特徴情報に基づいて、取得した情報の全体の中に混在するSPAM情報をフィルタリングし、残った非SPAM情報を非SPAM情報記憶部5に記憶させるSPAM情報フィルタリング部6と、非SPAM情報記憶部5に記憶された非SPAM情報に含まれたキーワードと当該非SPAM情報を示す情報とを含むインデクス情報を生成するインデクス情報生成部7と、生成されたインデクス情報が記憶されるインデクス情報記憶部8と、非SPAM情報を閲覧したいユーザに使用されるPC(パーソナルコンピュータ)などの端末Tから送信されたキーワードを受信し、受信したキーワードを含むインデクス情報をインデクス情報記憶部8から検索するインデクス情報検索部9と、検索されたインデクス情報に基づいて、検索されたインデクス情報に対応する非SPAM情報を示す検索結果情報を生成し、端末Tに送信する検索結果情報生成送信部10とを備える。
特定場所情報記憶部1とSPAM特徴情報記憶部2とSPAM特徴情報生成部3とで構成される部分をSPAM特徴情報生成装置という。SPAM特徴情報生成装置と場所情報記憶部4と非SPAM情報記憶部5とSPAM情報フィルタリング部6とで構成される部分をSPAM情報フィルタリング装置という。
情報検索装置は、1つのコンピュータまたは複数のコンピュータを通信回線で接続したコンピュータシステムに構成され、コンピュータが予め記憶装置に記憶されたコンピュータプログラムを読み込んで実行することで実現される。SPAM情報フィルタリング装置、SPAM特徴情報生成装置も同様である。
SPAM情報は、背景技術の説明にならえば、SPAMといわれるブログの記事である。そうならば、非SPAM情報は、SPAM情報でないブログの記事であり、場所情報は、ブログの記事のURL(Uniform Resource Locator)やIPアドレス(Internet Protocol Address)である。インデクス情報は、いわゆるインデクスの集合体ではなく、個々のインデクスである。検索結果情報は、いわゆる検索結果である。
次に、本実施の形態に係るSPAM特徴情報生成方法、SPAM情報フィルタリング方法、インデクス情報生成方法および情報検索方法を説明する。
まず、SPAM特徴情報生成方法を説明する。
図2は、SPAM特徴情報生成方法のフローチャートである。同図に示すように、まず、SPAM特徴情報生成部3が、特定場所情報記憶部1から場所情報を読み出し、読み出した場所情報の場所にある情報つまりSPAM情報を取得する(ステップS1)。次に、SPAM特徴情報生成部3は、取得したSPAM情報に基づいて、取得したSPAM情報の特徴を示すSPAM特徴情報を生成する(ステップS3)。例えば、SPAM特徴情報生成部3は、図3に示すように、記事の日本語形態素解析、キーワードの取得、HTML(HyperText Markup Language)のタグ、CSS(Cascading Style Sheets)のスタイル情報などの要素への分解などを行い、各要素の出現頻度、複数要素が共に出現する頻度、出現位置などから、SPAM情報に特徴的に含まれる要素を抽出し、この要素を含むSPAM情報を排除するルールを生成する。このルールは、SPAM情報の特徴を示すので、SPAM特徴情報という。次に、SPAM特徴情報生成部3は、生成したSPAM特徴情報をSPAM特徴情報記憶部2に記憶させる(ステップS5)。
次に、SPAM情報フィルタリング方法を説明する。
図4は、SPAM情報フィルタリング方法のフローチャートである。同図に示すように、まず、SPAM情報フィルタリング部6が、場所情報記憶部4から場所情報を読み出し、読み出した場所情報の場所にある情報を取得する(ステップS11)。SPAM情報フィルタリング部6は、SPAM情報と非SPAM情報のいずれか一方であるがそのように区別できない情報を取得することになる。次に、SPAM情報フィルタリング部6は、SPAM特徴情報記憶部2からSPAM特徴情報を読み出し、読み出したSPAM特徴情報に基づいて、取得した情報の全体の中に混在するSPAM情報をフィルタリングする(ステップS13)。SPAM情報フィルタリング部6は、SPAM情報と非SPAM情報の区別ができない情報のそれぞれにつき、情報がSPAM特徴情報であるルールに合致するか否かにより、情報がSPAM情報であるか否かを判定し、SPAM情報であるなら情報を排除する。次に、SPAM情報フィルタリング部6は、取得した情報の全体の中から排除されずに残った情報つまり非SPAM情報を非SPAM情報記憶部5に記憶させる(ステップS15)。
次に、インデクス情報生成方法および情報検索方法を説明する。
図5は、インデクス情報生成方法および情報検索方法のフローチャートである。同図に示すように、インデクス情報生成方法では、インデクス情報生成部7が、非SPAM情報記憶部5に記憶された非SPAM情報に含まれたキーワードと当該非SPAM情報を示す情報とを含むインデクス情報を生成し、インデクス情報記憶部8に記憶させる(ステップS21)。インデクス情報生成部7は、一般的なインデクスの生成方法にならえば、非SPAM情報の場所情報、非SPAM情報のタイトルや要約文をインデクス情報に含ませ、インデクス情報記憶部8に記憶させる。
情報検索方法では、インデクス情報検索部9が、ユーザの操作により端末Tから送信されたキーワードを受信し(ステップS23)、受信したキーワードを含むインデクス情報をインデクス情報記憶部8から検索する(ステップS25)。次に、検索結果情報生成送信部10が、検索されたインデクス情報に基づいて、検索されたインデクス情報に対応する非SPAM情報を示す検索結果情報を生成し(ステップS27)、端末Tに送信する(ステップS29)。検索結果情報生成送信部10は、一般的な検索結果の生成方法にならえば、インデクス情報内の非SPAM情報の場所情報、非SPAM情報のタイトルや要約文を検索結果情報に含ませ、端末Tに送信する。
一般的なブログの記事の閲覧方法にならえば、端末Tは、送信された検索結果情報に基づいて、検索結果情報に含まれた非SPAM情報のタイトルや要約文を表示する。そして、端末Tは、いわゆるマウスクリックなどにより、検索結果情報に含まれた場所情報の場所から非SPAM情報を取得して表示する。これにより、端末Tのユーザは、閲覧したかった非SPAM情報を閲覧することができる。
したがって、本実施の形態によれば、SPAM情報を取得し、取得したSPAM情報に基づいて、SPAM特徴情報を生成することで、SPAM特徴情報に基づいて、SPAM情報をフィルタリングすることができる。
また、SPAM情報をフィルタリングすることで、残った非SPAM情報についてだけインデクスを生成すればよく、インデクス生成が迅速化される。また、インデクス数が少なくなるので、インデクス検索が迅速化される。
また、迅速なインデクス検索により生成した検索結果を送信することで、検索結果の表示が迅速化される。また、検索結果にSPAMに関するものが含まれず、つまり、検索結果の精度が向上する。
なお、本実施の形態は一例であり、これに本発明は限定されない。例えば、ブログの記事でなく、通信ネットワークにある他の情報(いわゆるページ記述言語で記述されるような情報)を対象としてもよい。また、インターネットでなく、構内ネットワークや広域ネットワークを対象としてもよい。
また、本実施の形態の各方法を装置に実行させるコンピュータプログラムは、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどのコンピュータ読み取り可能な記録媒体に格納し、陳列などして流通させたり、当該コンピュータプログラムをインターネットなどの通信網を介して伝送させてもよい。
本実施の形態に係る情報検索装置の構成と利用形態を示す図である。 SPAM特徴情報生成方法のフローチャートである。 SPAM特徴情報の生成についての説明図である。 SPAM情報フィルタリング方法のフローチャートである。 インデクス情報生成方法および情報検索方法のフローチャートである。
符号の説明
1…特定場所情報記憶部
2…SPAM特徴情報記憶部
3…SPAM特徴情報生成部
4…場所情報記憶部
5…非SPAM情報記憶部
6…SPAM情報フィルタリング部
7…インデクス情報生成部
8…インデクス情報記憶部
9…インデクス情報検索部
10…検索結果情報生成送信部
N…通信ネットワーク
T…端末

Claims (6)

  1. 通信ネットワークにあるSPAM情報の場所を示す場所情報が予め記憶される特定場所情報記憶部と、前記SPAM情報の特徴を示すSPAM特徴情報が記憶されることになるSPAM特徴情報記憶部と、前記特定場所情報記憶部から場所情報を読み出し、読み出した場所情報の場所にあるSPAM情報を取得し、取得したSPAM情報に基づいて、取得したSPAM情報の特徴を示すSPAM特徴情報を生成し、前記SPAM特徴情報記憶部に記憶させるSPAM特徴情報生成部とを備えるSPAM特徴情報生成装置と、
    通信ネットワークにおけるSPAM情報と非SPAM情報の各場所を示す場所情報が区別せずに予め記憶される場所情報記憶部と、
    前記非SPAM情報が記憶されることになる非SPAM情報記憶部と、
    前記場所情報記憶部から場所情報を読み出し、読み出した場所情報の場所にある情報を取得し、前記SPAM特徴情報記憶部からSPAM特徴情報を読み出し、読み出したSPAM特徴情報に基づいて、取得した情報の全体の中に混在するSPAM情報をフィルタリングし、残った非SPAM情報を前記非SPAM情報記憶部に記憶させるSPAM情報フィルタリング部と
    を備えることを特徴とするSPAM情報フィルタリング装置。
  2. 請求項記載のSPAM情報フィルタリング装置と、
    前記非SPAM情報記憶部に記憶された非SPAM情報に含まれたキーワードと当該非SPAM情報を示す情報とを含むインデクス情報を生成するインデクス情報生成部と、
    前記生成されたインデクス情報が記憶されるインデクス情報記憶部と、
    前記非SPAM情報を閲覧したいユーザに使用される端末から送信されたキーワードを受信し、受信したキーワードを含むインデクス情報を前記インデクス情報記憶部から検索するインデクス情報検索部と、
    前記検索されたインデクス情報に基づいて、検索されたインデクス情報に対応する非SPAM情報を示す検索結果情報を生成し、前記端末に送信する検索結果情報生成送信部と
    を備えることを特徴とする情報検索装置。
  3. 請求項記載のSPAM情報フィルタリング装置におけるSPAM情報フィルタリング方法であって、
    前記SPAM情報フィルタリング部が、前記場所情報記憶部から場所情報を読み出し、読み出した場所情報の場所にある情報を取得し、前記SPAM特徴情報記憶部からSPAM特徴情報を読み出し、読み出したSPAM特徴情報に基づいて、取得した情報の全体の中に混在するSPAM情報をフィルタリングし、残った非SPAM情報を前記非SPAM情報記憶部に記憶させることを特徴とするSPAM情報フィルタリング方法。
  4. 請求項記載の情報検索装置における情報検索方法であって、
    前記インデクス情報検索部が、前記非SPAM情報を閲覧したいユーザに使用される端末から送信されたキーワードを受信し、受信したキーワードを含むインデクス情報を前記インデクス情報記憶部から検索し、前記検索結果情報生成送信部が、前記検索されたインデクス情報に基づいて、検索されたインデクス情報に対応する非SPAM情報を示す検索結果情報を生成し、前記端末に送信することを特徴とする情報検索方法。
  5. 請求項3または4記載の方法をコンピュータに実行させるコンピュータプログラム。
  6. 請求項記載のコンピュータプログラムが記録されたコンピュータ読み取り可能な記録媒体。
JP2007295787A 2007-11-14 2007-11-14 Spam特徴情報生成装置、spam情報フィルタリング装置および情報検索装置およびその方法 Expired - Fee Related JP4934572B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007295787A JP4934572B2 (ja) 2007-11-14 2007-11-14 Spam特徴情報生成装置、spam情報フィルタリング装置および情報検索装置およびその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007295787A JP4934572B2 (ja) 2007-11-14 2007-11-14 Spam特徴情報生成装置、spam情報フィルタリング装置および情報検索装置およびその方法

Publications (2)

Publication Number Publication Date
JP2009122931A JP2009122931A (ja) 2009-06-04
JP4934572B2 true JP4934572B2 (ja) 2012-05-16

Family

ID=40815026

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007295787A Expired - Fee Related JP4934572B2 (ja) 2007-11-14 2007-11-14 Spam特徴情報生成装置、spam情報フィルタリング装置および情報検索装置およびその方法

Country Status (1)

Country Link
JP (1) JP4934572B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001028006A (ja) * 1999-07-15 2001-01-30 Kdd Corp 情報自動フィルタリング方法および装置
AU771963B2 (en) * 2000-01-28 2004-04-08 Websense, Inc. System and method for controlling access to internet sites
JP4350631B2 (ja) * 2004-10-06 2009-10-21 ソフトバンクモバイル株式会社 検索サービス提供システム
JP2006107199A (ja) * 2004-10-06 2006-04-20 Vodafone Kk 検索システム
JP4859779B2 (ja) * 2007-08-01 2012-01-25 ヤフー株式会社 有害コンテンツの評価付与装置、プログラム及び方法

Also Published As

Publication number Publication date
JP2009122931A (ja) 2009-06-04

Similar Documents

Publication Publication Date Title
US9665642B2 (en) Automatic identification of digital content related to a block of text, such as a blog entry
US9659278B2 (en) Methods, systems, and computer program products for displaying tag words for selection by users engaged in social tagging of content
US7899829B1 (en) Intelligent bookmarks and information management system based on same
US8533199B2 (en) Intelligent bookmarks and information management system based on the same
US9152614B2 (en) System and method for bulk web domain generation and management
US7954045B2 (en) Recommendatory information provision system
US20070239674A1 (en) Method and System for Providing Weblog Author-Defined, Weblog-Specific Search Scopes in Weblogs
US20080163067A1 (en) System for visualizing weblog social network communities
US20100131455A1 (en) Cross-website management information system
US20080208975A1 (en) Methods, systems, and computer program products for accessing a discussion forum and for associating network content for use in performing a search of a network database
US11651039B1 (en) System, method, and user interface for a search engine based on multi-document summarization
KR100856916B1 (ko) 관심사를 반영하여 추출한 정보 제공 방법 및 시스템
JP2010128928A (ja) 検索システム及び検索方法
JP2006099341A (ja) 更新履歴生成装置及びプログラム
JP2009015589A (ja) 関連文書提示システム及びプログラム
JP4610543B2 (ja) 期間抽出装置,期間抽出方法,その方法を実装した期間抽出プログラム及びそのプログラムを格納した記録媒体
JP2002149668A (ja) インターネット補助ソフトウェア及び該プログラムを記録した記録媒体
JP4934572B2 (ja) Spam特徴情報生成装置、spam情報フィルタリング装置および情報検索装置およびその方法
US20080114786A1 (en) Breaking documents
KR20100090178A (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
JP2007233463A (ja) ブログ作成用クライアント装置、ブログサーバ、及びそれらのプログラム
JP2002132825A (ja) 画像検索システム、画像検索方法、画像検索プログラム、画像検索プログラムを記録したコンピュータ読み取り可能な記憶媒体、および画像検索装置
JP2006235882A (ja) 複数情報の閲覧方法およびシステム
JP2005182298A (ja) フィルタリングシステム
JP4238813B2 (ja) 話題情報提示方法及び装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111122

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120220

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150224

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees