JP2009157510A - System, method and program for identifying spam information - Google Patents

System, method and program for identifying spam information Download PDF

Info

Publication number
JP2009157510A
JP2009157510A JP2007333068A JP2007333068A JP2009157510A JP 2009157510 A JP2009157510 A JP 2009157510A JP 2007333068 A JP2007333068 A JP 2007333068A JP 2007333068 A JP2007333068 A JP 2007333068A JP 2009157510 A JP2009157510 A JP 2009157510A
Authority
JP
Japan
Prior art keywords
spam
description
blog
information
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007333068A
Other languages
Japanese (ja)
Inventor
Junko Watanabe
純子 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007333068A priority Critical patent/JP2009157510A/en
Publication of JP2009157510A publication Critical patent/JP2009157510A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To effectively identify spam descriptions included in blog articles. <P>SOLUTION: A system for identifying spam information includes a blog data storage unit 41 for storing blog articles to be posted and browsed via a communication network, and a spam determination means 2 for analyzing texts in the blog articles and determining whether or not preset spam description patterns are included in the blog articles. The spam determination means 2 has a function of specifying, as a spam description, text information set in different blog articles and guiding to common link information, and identifying and separating any blog article including the spam description from the blog articles. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、ブログ(ウェブログ)記事に含まれるスパム記述を判別する手法に関し、特にスパム記述の判別精度を向上させる手法に関する。   The present invention relates to a technique for discriminating spam descriptions included in a blog (web log) article, and more particularly to a method for improving the accuracy of discriminating spam descriptions.

ウェブサイトとして個人的な日記や特定のメンバー間による掲示板のように利用されるブログ(weblog:ウェブログ)記事を公開し、このブログ記事を介して多数の利用者間でコミュニケーションを行う形態が普及している。
ブログは、ウェブサイトとしてインターネット上にアップされ、当該ブログを閲覧したユーザは、このブログに対してコメントを書き込むことが可能である。閲覧者が簡易にコメントの書込みを行えることから、企業と消費者間のコミュニケーションの場としてなど、様々な場面で活用されている。
A blog (weblog: web log) article that is used as a personal diary or a bulletin board between specific members is published as a website, and a form of communication among many users via this blog article is widespread is doing.
The blog is uploaded as a website on the Internet, and a user who has viewed the blog can write a comment on the blog. Since viewers can easily write comments, it is used in various situations such as a place for communication between companies and consumers.

しかしながら、その一方で、ブログの通常の利用とは異なり、ブログ記事内に閲覧者(ユーザ)にとって必要の無い情報、広告目的や特定サイトへの誘導、クリック数などを目的とした自動生成の書き込みなど、スパムと呼ばれる書込み(以下「スパム記述」という)が多数行われ、ブログ記事の内容や本来のトレンド傾向を埋没させてしまうという不都合が生じてきている。   However, on the other hand, unlike the normal use of blogs, information that is not necessary for viewers (users) in blog articles, automatic creation for the purpose of advertising, guidance to specific sites, number of clicks, etc. Etc., a lot of writing called “spam” (hereinafter referred to as “spam description”) is performed, and the inconvenience of burying the content of the blog article and the original trend tendency has arisen.

これに対して、ブログ記事からスパム記述を発見するため関連技術が開示されている(特許文献1)。
このシステムは、ブログ運営者管理用ブログサーバと、フィルタリング用ルックアップサーバとから構成され、ブログ運営者が公開しているブログサイトにコメントやトラックバックとして投稿があったことを、ブログサーバが検知した場合に、フィルタリング用ルックアップサーバが、URLやキーワードといった固定的なパターンデータに基づいて、投稿がスパム記述であるか否かの判断を行い、スパム記述であると判断された場合は、ブログサーバが投稿除外の処理を行う。
On the other hand, a related technique for discovering spam descriptions from blog articles has been disclosed (Patent Document 1).
This system is composed of a blog server for managing the blog operator and a lookup server for filtering. The blog server detected that a blog site published by the blog operator posted a comment or a trackback. In this case, the filtering lookup server determines whether or not the post is a spam description based on fixed pattern data such as a URL or a keyword. Performs post exclusion processing.

また、上記内容の関連技術として、スパム記述のフィルタリング更新方式の一例が開示されている(特許文献2)。
この関連技術は、スパムフィルタとアップデートコンポーネントとから構成されており、スパムフィルタが、プロバイダ上でトレーニングされて追加アップデートが発生すると、アップデートコンポーネントは、そのすべてをユーザ端末上に配信するのではなく、増分式のアップデートのみを抽出し配信を行う。
In addition, as a related technique of the above contents, an example of a spam description filtering update method is disclosed (Patent Document 2).
This related technology consists of a spam filter and an update component. When a spam filter is trained on a provider and additional updates occur, the update component does not distribute it all on the user device, Extract and distribute only incremental updates.

特開2007−115173公報JP 2007-115173 A 特開2006−012165公報JP 2006-012165 A

しかしながら、上記特許文献1に開示されたスパム記述発見方式では、1つのブログ記事を調べた場合にはスパム記述であることを判別できない、例えば異なるブログ記事にまたがり記述されるパターンのスパム記述に対処することができないという不都合がある。   However, the spam description discovery method disclosed in Patent Document 1 cannot deal with spam description when one blog article is examined. For example, it deals with a spam description having a pattern described across different blog articles. There is an inconvenience that can not be done.

又、スパム記述の中には、同一記述によるマルチポストのような種別のスパム記述が多数存在するため、同一の記述内容が、日付やサイトをまたいで異なるブログ記事に存在するスパム記述を相互に参照する必要がある。
又、特許文献2の関連技術も前述の特許文献1と同様、URLやキーワードベース以外のスパム記述に対応することができない。又、この関連技術は、メールスパムを想定していることから1件1件のデータを処理する方式であるため、他のデータ(ブログ記事)との比較や参照により判定する必要のあるタイプのスパム記述には対応できないという不都合がある。
In addition, there are many types of spam descriptions such as multi-posts with the same description in the spam description. Therefore, the same description contents can be used to exchange spam descriptions that exist in different blog articles across dates and sites. Need to refer.
Similarly to Patent Document 1, the related art of Patent Document 2 cannot deal with spam descriptions other than URLs and keyword bases. In addition, because this related technology assumes email spam, it is a method that processes one data at a time, so it is a type that needs to be determined by comparison or reference with other data (blog articles) There is an inconvenience that it cannot cope with spam description.

更に、ブログ記事のスパム記述を判定するためのルールや手順を固定的に実行しても、スパム記述除去の精度がすぐに低下してしまうという不都合がある。これは、スパム記述は次々と亜種が生じ、それらの亜種のスパム記述は、単なる単語の置き換えではない新しい記述パターンを有するため、予め設定されたスパム記述判定のルールに適合しないスパム記事が短期間で増えてしまうという不都合がある。   Furthermore, even if the rules and procedures for determining the spam description of the blog article are fixedly executed, there is a disadvantage that the accuracy of removing the spam description is quickly reduced. This is because spam descriptions are generated one after another, and the spam descriptions of these variants have new description patterns that are not simply word replacements. There is an inconvenience of increasing in a short period of time.

[発明の目的]
本発明は、上記従来例の有する不都合を改善し、ブログ記事内に含まれるスパム記述を有効に判別すると共に分離し、利用者が有効利用可能にブログ記事を設定するスパム情報判別システム、スパム情報判別方法、およびスパム情報判別プログラムを提供することを、その目的とする。
[Object of invention]
The present invention improves the inconvenience of the above-described conventional example, effectively discriminates and separates spam descriptions contained in a blog article, and sets a blog article so that a user can use it effectively, and spam information It is an object of the present invention to provide a discrimination method and a spam information discrimination program.

上記目的を達成するために、本発明に係るスパム情報判別システムは、通信ネットワークを介して投稿および閲覧されるブログ記事を記憶したブログ記事記憶装置と、前記ブログ記事に対してテキスト解析を行うと共に前記各ブログ記事に予め設定されたスパム記述パターンが含まれるか否かの判定を行うスパム判定手段とを備えたスパム情報判別システムであって、前記スパム判定手段は、前記異なるブログ記事内に設定され共通のリンク先情報に誘導するテキスト情報をスパム記述として特定すると共に、前記ブログ記事から前記スパム記述を含むブログ記事を判別し分離する機能を備えた構成をとっている。   To achieve the above object, a spam information determination system according to the present invention includes a blog article storage device that stores blog articles that are posted and viewed via a communication network, and performs text analysis on the blog articles. A spam information determination system comprising: a spam determination unit that determines whether or not each blog article includes a preset spam description pattern, wherein the spam determination unit is set in the different blog article The text information to be guided to the common link destination information is specified as a spam description, and the blog article including the spam description is discriminated and separated from the blog article.

又、本発明にかかるスパム情報判別方法は、通信ネットワークを介して投稿および閲覧されるブログ記事を記憶したブログ記事記憶装置と、前記ブログ記事に対してテキスト解析を行い前記各ブログ記事に予め設定されたスパム記述パターンが含まれるか否かの判定を行うスパム判定手段とを備え、前記ブログ記事からスパム記述を含むブログ記事をスパム記事として判別するスパム情報判別方法であって、前記ブログ記事記憶装置から入力されたブログ記事に対してテキスト解析を行うテキスト解析工程と、この解析結果に基づいて前記各ブログ記事のテキスト情報に予め設定されたスパム記述パターンが含まれるか否かを判定するスパムパターン判定工程と、異なるブログ記事内に設定され共通のリンク先情報に誘導するテキスト情報をスパム記述として特定するスパム記述特定工程と、前記ブログ記事からスパム記述が含まれたブログ記事をスパム記事として判別し分離するスパム記事判別工程と、を備えたことを特徴としている。   In addition, the spam information determination method according to the present invention includes a blog article storage device that stores blog articles that are posted and viewed via a communication network, and performs text analysis on the blog articles and sets the blog articles in advance. Spam determination means for determining whether or not a specified spam description pattern is included, and a spam information determination method for determining a blog article including a spam description from the blog article as a spam article, the blog article storage A text analysis step for performing text analysis on a blog article input from the apparatus, and spam for determining whether or not a predetermined spam description pattern is included in the text information of each blog article based on the analysis result Text information that is set in different blog posts and leads to common link destination information And spam description specifying step of specifying as Pam description, is characterized in that the posts that contains spam written from the posts with spam articles discriminating step for discriminating isolated as spam articles, the.

更に、本発明にかかるスパム情報判別プログラムは、通信ネットワークを介して投稿および閲覧されるブログ記事を記憶したブログ記事記憶装置と、前記ブログ記事に対してテキスト解析を行い前記各ブログ記事に予め設定されたスパム記述パターンが含まれるか否かの判定を行うスパム判定手段とを備え、前記ブログ記事からスパム記述を含むブログ記事をスパム記事として判別するためのスパム情報判別プログラムであって、前記ブログ記事記憶装置から入力されたブログ記事に対してテキスト解析を行うテキスト解析機能、この解析結果に基づいて前記各ブログ記事のテキスト情報に予め設定されたスパム記述パターンが含まれるか否かを判定するスパムパターン判定機能、異なるブログ記事内に設定され共通のリンク先情報に誘導するテキスト情報をスパム記述として特定するスパム記述特定機能、前記ブログ記事からスパム記述が含まれたブログ記事をスパム記事として判別し分離するスパム記事判別機能、を前記スパム判定手段の備えるコンピュータに実行させることを特徴としている。   Further, the spam information determination program according to the present invention includes a blog article storage device that stores blog articles that are posted and browsed via a communication network, and performs text analysis on the blog articles and sets the blog articles in advance. A spam information discriminating program for discriminating a blog article including a spam description from the blog article as a spam article, comprising: a spam judging means for judging whether or not the spam description pattern is included. A text analysis function for performing text analysis on a blog article input from an article storage device, and determining whether or not a predetermined spam description pattern is included in the text information of each blog article based on the analysis result Spam pattern judgment function, set in different blog articles and lead to common link information A spam description identifying function for identifying text information as a spam description, and a spam article determination function for determining and separating a blog article including a spam description from the blog article as a spam article, and causing the computer provided with the spam determination means to execute. It is characterized by.

本発明は、以上のように構成され機能するので、これによると、通信ネットワークを介して投稿および閲覧されるブログ記事を記憶したブログ記事記憶装置と、異なるブログ記事内に設定され共通のリンク先情報に誘導するテキスト情報をスパム記述として特定し前記スパム記述を含むブログ記事を判別するスパム判定手段とを備えた構成としたことにより、多様なパターンのスパム記述を判別することができ、且つスパム記述を含んだブログ記事を有効に軽減することができる。   Since the present invention is configured and functions as described above, according to this, a blog article storage device that stores blog articles posted and viewed via a communication network and a common link destination set in different blog articles. It is possible to discriminate spam descriptions of various patterns by identifying the text information that leads to information as a spam description, and having a spam judging means for discriminating a blog article including the spam description. You can effectively reduce blog articles that contain descriptions.

[実施形態1]
次に、本発明の実施形態1について、その基本的構成内容を説明する。
[Embodiment 1]
Next, the basic configuration content of Embodiment 1 of the present invention will be described.

本実施形態のスパム情報判別システムは、図1に示すように、データ記憶装置4と、このデータ記憶装置4からブログデータを読出すブログデータ入力手段1と、このブログデータ入力手段から送り込まれたブログデータにおけるスパム記述の有無を判別するスパム判定手段2と、このスパム判定手段2でスパム記述の有無により判別されたブログデータをデータ記憶装置4にそれぞれ格納するデータ出力手段3とを備えた構成となっている。   As shown in FIG. 1, the spam information discrimination system of this embodiment is sent from a data storage device 4, blog data input means 1 for reading blog data from the data storage device 4, and the blog data input means. Spam determination means 2 for determining the presence / absence of spam description in the blog data, and data output means 3 for storing the blog data determined by the spam determination means 2 based on the presence / absence of spam description in the data storage device 4, respectively. It has become.

ここで、上記スパム判定手段2は、入力されたブログデータをテキスト処理するテキスト解析手段21と、データ記憶装置4に予め格納されたスパム定義情報に基づきブログデータのテキスト情報を参照するスパムパターン判定手段22と、ブログデータに含まれるテキスト情報がスパム記述であるかを判定するスパム記述判定手段23とを備え、スパム記述を含むスパム記事とスパム記述を含まない記事データとを判別し出力する。   Here, the spam determination means 2 includes a text analysis means 21 for text-processing the input blog data, and a spam pattern determination for referring to the text information of the blog data based on the spam definition information stored in the data storage device 4 in advance. Means 22 and spam description determination means 23 for determining whether the text information included in the blog data is a spam description, and discriminates and outputs a spam article including the spam description and an article data not including the spam description.

更に、上記データ記憶装置4は、通信ネットワークを介して投稿されたブログ記事を記憶するブログデータ記憶部41、予め設定されたスパム記述のパターン情報(ファイル)からなるスパム定義情報(ファイル)を記憶するスパム定義情報記憶部42、上記スパムパターンに対応するスパム記述をリスト化したスパム固有情報を記憶するスパム固有情報記憶部43、スパム記述が含まれていないと判別されたブログ記事(データ)が格納される記事データ記憶部44、およびスパム記述を含むブログ記事と判別されたデータが格納されるスパムデータ記憶部45を含み構成される。   Further, the data storage device 4 stores a blog data storage unit 41 for storing a blog article posted via a communication network, and spam definition information (file) including preset spam description pattern information (file). A spam definition information storage unit 42, a spam specific information storage unit 43 that stores spam specific information that lists spam descriptions corresponding to the spam patterns, and a blog article (data) that is determined not to contain a spam description. An article data storage unit 44 to be stored and a spam data storage unit 45 to store data determined to be a blog article including a spam description are configured.

以下、これを詳説する。
ブログデータ入力手段1は、ブログデータ記憶部41からブログ記事(ブログデータ)を取得するデータ取得機能と、取得したブログ記事をスパム判定手段2に入力(送信)するブログデータ入力機能とを有する。図2に入力されたブログデータの一例を示す。
This will be described in detail below.
The blog data input unit 1 has a data acquisition function for acquiring a blog article (blog data) from the blog data storage unit 41 and a blog data input function for inputting (transmitting) the acquired blog article to the spam determination unit 2. FIG. 2 shows an example of the input blog data.

スパム判定手段2のテキスト解析手段21は、ブログデータ入力手段1から入力されたブログデータに対して形態素解析を行うデータ解析機能と、入力されたブログデータに含まれるテキスト情報に対して単語区切り、文区切り、話題区切り等を行い、ブログ記事ごとに、使用単語、フレーズ、文きり(文節)情報、およびリンク先URLなどの使用特殊記号情報を付与して出力情報を生成する出力情報生成機能を備えている。
図3は、テキスト解析手段21の出力情報の一例である。
The text analysis unit 21 of the spam determination unit 2 includes a data analysis function for performing morphological analysis on the blog data input from the blog data input unit 1, and a word break for text information included in the input blog data. An output information generation function for generating output information by performing sentence breaks, topic breaks, etc., and adding used special symbol information such as used words, phrases, sentence cutting (sentence) information, and link destination URLs for each blog article I have.
FIG. 3 is an example of output information from the text analysis means 21.

又、テキスト解析手段21は、生成された出力情報に対してアルファベット順、あいうえお順等のソート処理を行うソート処理機能を有する。   Further, the text analysis means 21 has a sort processing function for performing sort processing such as alphabetical order or aitou order on the generated output information.

スパムパターン判定手段22は、テキスト解析手段21からの出力情報を読み込む出力情報読込み機能と、この出力情報に基づいてスパム定義情報記憶部42に予め格納されたスパム定義情報(スパムパターン)を参照し、上記出力情報とスパム定義情報との一致の有無を判定するスパムパターン判定機能を備えている。ここで、図4にスパム定義情報の一例を示す。   The spam pattern determination unit 22 refers to the output information reading function for reading the output information from the text analysis unit 21 and the spam definition information (spam pattern) stored in advance in the spam definition information storage unit 42 based on the output information. And a spam pattern determination function for determining whether or not the output information matches the spam definition information. Here, FIG. 4 shows an example of spam definition information.

これにより、スパムパターン判定手段22は、各ブログ記事におけるテキスト情報がスパムデータであるか否かの判定を行うことができ、又、スパムパターン判定手段22は、単独ブログ記事内のテキスト情報を調べることで判別することが可能なスパムパターンが、各ブログ記事のテキスト情報に含まれているか否かを判定することができる。   Thereby, the spam pattern determination means 22 can determine whether or not the text information in each blog article is spam data, and the spam pattern determination means 22 examines the text information in a single blog article. It is possible to determine whether or not a spam pattern that can be determined is included in the text information of each blog article.

ここで、スパムパターン判定手段22は、上述の単独ブログ記事におけるスパム記述の有無判定では、図4の判別区分に「単独」とあるスパムパターンについてスパム判定を行う。
例えば、P1の単語羅列型のスパムパターンでは、ルールモデルにあるような単語(W)と単語をカンマで区切って羅列する形式になっているか否かを判定する。
ここで、スパム記事を含んだ出力情報の一例を図5に示す。テキスト解析手段21の出力情報である図5のJ1は、形態素解析の結果が、名詞/記号(カンマ)/名詞/記号/・・・の繰り返しとなっており、図4のP1パターンに合致すると判定される。
Here, the spam pattern determination means 22 performs the spam determination on the spam pattern having “single” in the determination category of FIG.
For example, in the P1 word enumeration type spam pattern, it is determined whether or not the word (W) and the word in the rule model are enumerated by separating them with commas.
Here, an example of output information including a spam article is shown in FIG. J1 in FIG. 5 which is the output information of the text analysis means 21 is that the result of the morphological analysis is a repetition of noun / symbol (comma) / noun / symbol /... Determined.

更に、スパムパターン判定手段22は、スパム固有情報記憶部43に予めスパム固有情報として登録された単語、フレーズに基づきブログ記事内に設定されたリンクのリンク先データ(WebページやPDFファイル等)のテキスト情報を参照し、スパム固有情報と一致する単語、フレーズがリンク先データに含まれるか否かの判定を行うリンク先データ判定機能を有する。   Further, the spam pattern determination means 22 stores link destination data (Web page, PDF file, etc.) of links set in the blog article based on words and phrases registered in the spam unique information storage unit 43 as spam unique information in advance. It has a link destination data determination function that refers to text information and determines whether or not a word or phrase that matches spam-specific information is included in the link destination data.

又、スパムパターン判定手段22は、異なる複数のブログ記事内のテキスト情報(出力情報)を比較参照することにより、重複して表れるスパム記述パターンを特定するスパム記述特定機能を有する。   Further, the spam pattern determination unit 22 has a spam description specifying function for specifying a spam description pattern that appears redundantly by comparing and referring to text information (output information) in a plurality of different blog articles.

更に、スパムパターン判定手段22は、例えば、図5のJ2やJ3のように異なるブログ記事から同一のサイトへ誘導するリンクおよびURL記載の抽出を行うリンク抽出機能と、複数ブログ記事におけるテキスト情報の比較により、図5のJ4とJ5に示されるような、同一記述が複数の異なるブログ記事に書き込まれたマルチポスト記述や自動生成記述を抽出する同一記述抽出機能とを備えている。   Further, for example, the spam pattern determination means 22 includes a link extraction function for extracting links and URL descriptions from different blog articles to the same site, such as J2 and J3 in FIG. 5, and text information in a plurality of blog articles. By comparison, the same description extraction function is provided for extracting a multi-post description or an automatically generated description in which the same description is written in a plurality of different blog articles as shown by J4 and J5 in FIG.

又、スパムパターン判定手段22は、上記自動生成記述、およびマルチポスト記述の抽出処理については、複数のブログ記事内に書き込まれた共通の記述に加えて、完全一致ではない近似の記述や似た表現などの抽出も行う。
スパムパターン判定手段22は、複数の異なるブログ記事に含まれるテキスト情報のうち予め設定された一定の割合を上回り一致する記述や表現に対して、スパム記述である可能性を示すスパム度を算出すると共に、上記抽出された記述と該記述それぞれのスパム度とを対応付けて記憶する比較スパム度算出記憶機能を備えている。
Further, the spam pattern determination unit 22 extracts the above-mentioned automatically generated description and multi-post description extraction processing in addition to a common description written in a plurality of blog articles, an approximate description that is not completely identical, or similar. It also extracts expressions.
The spam pattern determination means 22 calculates a spam degree indicating the possibility of being a spam description for a description or expression that matches a predetermined percentage of text information included in a plurality of different blog articles. In addition, a comparison spam degree calculation storage function for storing the extracted description and the spam degree of each description in association with each other is provided.

ここで、スパムパターン判定手段22は、異なるブログ記事に表れる共通または近似の表現、記述を抽出すると共に、その頻度、記述の数、および近似の割合などに基づいて、スパム記述である可能性が高い表現、記述に対してより大きな数値をスパム度(重み付け)として割り当てる設定としてもよい。   Here, the spam pattern determination unit 22 extracts common or approximate expressions and descriptions appearing in different blog articles, and may be a spam description based on the frequency, the number of descriptions, the approximate ratio, and the like. A higher numerical value may be assigned as a spam degree (weighting) for high expressions and descriptions.

スパム記述判定手段23は、上記スパムパターン判定手段22のスパム判定結果について、特徴単語・フレーズパターンとの一致の割合に基づきスパム度を算出するスパム度算出機能と、このスパム度およびスパム記述を関連付けて予め設定されたスパム度記憶手段24に記憶するスパム記述記憶機能とを備えている。   Spam description determination means 23 associates the spam degree and the spam description with the spam degree calculation function for calculating the spam degree based on the rate of coincidence with the characteristic word / phrase pattern for the spam determination result of the spam pattern determination means 22. And a spam description storage function for storing in a preset spam degree storage means 24.

又、スパム記述判定手段23は、テキスト解析手段21からの出力情報全てに対して上記処理が行われたか否かを判定する処理完了判定機能を有する。
更に、スパム記述判定手段23は、各ブログ記事単位で算出されたスパム度を集計し、その結果をデータ出力手段3に通知するスパム度集計通知機能を有する。
Further, the spam description determination unit 23 has a processing completion determination function for determining whether or not the above processing has been performed on all output information from the text analysis unit 21.
Further, the spam description determination means 23 has a spam degree total notifying function for totalizing the spam degrees calculated for each blog article and notifying the result to the data output means 3.

データ出力手段3は、スパム判定手段2で算出されたスパム度の合計が、各ブログ記事単位で予め設定されたスパム記事判定閾値を上回るブログ記事をスパムデータ記憶部45へ、又、スパム記事判定閾値を下回るブログ記事を通常記事として記事データ記憶部44に格納するスパム記事判別格納機能を備えている。   The data output means 3 sends a blog article whose total spam degree calculated by the spam judgment means 2 exceeds a spam article judgment threshold set in advance for each blog article to the spam data storage unit 45, or spam article judgment. A spam article discrimination storage function is provided for storing a blog article below the threshold value in the article data storage unit 44 as a normal article.

ブログデータ記憶部41は、タイトル、投稿内容、および日付などを含むブログデータ(ブログ記事)を記憶するブログ記事記憶機能を有する。
尚、このブログデータ記憶部41がインターネットに接続され記憶されたブログ記事がインターネットを介して書込み可能に公開された設定であってもよい。
The blog data storage unit 41 has a blog article storage function for storing blog data (blog articles) including a title, posted content, date, and the like.
Note that the blog data storage unit 41 may be connected to the Internet and the stored blog articles may be set to be writable via the Internet.

スパム定義情報記憶部42は、予め設定されたスパムパターンおよびスパム記述のルールモデルをスパム定義情報として記憶するスパム定義情報記憶機能を備えている。
スパム固有情報記憶部43は、上記スパム定義情報およびスパムパターンに対応して、その具体例として予め特定された単語、フレーズなどをスパム記述がリスト化されたスパム固有情報を記憶する固有情報記憶機能を有する。
The spam definition information storage unit 42 has a spam definition information storage function for storing a preset spam pattern and a rule model of spam description as spam definition information.
The spam unique information storage unit 43 is a unique information storage function for storing spam unique information in which spam descriptions are listed for words, phrases, and the like specified in advance as specific examples corresponding to the spam definition information and the spam pattern. Have

スパム記述が含まれていないと判別されたブログ記事(データ)が格納される記事データ記憶部44、およびスパム記述を含むブログ記事と判別されたデータが格納されるスパムデータ記憶部45を含み構成される。
[実施形態1の動作説明]
An article data storage unit 44 that stores a blog article (data) determined not to include a spam description, and a spam data storage unit 45 that stores data determined to be a blog article including a spam description Is done.
[Description of Operation of First Embodiment]

次に、本実施形態の全体の動作について説明する。
先ず、ブログデータ記憶部41から入力されたブログ記事に対してテキスト解析を行う(テキスト解析工程)い、この解析結果に基づいて各ブログ記事のテキスト情報に予め設定されたスパム記述パターンが含まれるか否かを判定する(スパムパターン判定工程)。
次いで、異なるブログ記事内に設定され共通のリンク先情報に誘導するテキスト情報をスパム記述として特定し(スパム記述特定工程)、前記ブログ記事からスパム記述が含まれたブログ記事をスパム記事として判別する(スパム記事判別工程)。
Next, the overall operation of this embodiment will be described.
First, text analysis is performed on the blog article input from the blog data storage unit 41 (text analysis process), and a spam description pattern set in advance is included in the text information of each blog article based on the analysis result. (Spam pattern determination step).
Next, text information that is set in different blog articles and leads to common link destination information is specified as a spam description (spam description specifying step), and a blog article that includes the spam description is determined as a spam article from the blog article. (Spam article discrimination process).

ここで、上記テキスト解析工程、スパムパターン判定工程、スパム記述特定工程、およびスパム記事判別工程については、その実行内容をプログラム化し、コンピュータに実行させるように構成してもよい。   Here, regarding the text analysis step, spam pattern determination step, spam description identification step, and spam article determination step, the execution contents may be programmed and executed by a computer.

次に、上記実施形態のシステムの動作について図6のフローチャートに基づいて説明する。   Next, the operation of the system of the above embodiment will be described based on the flowchart of FIG.

まず、ブログデータ入力手段1が、ブログデータ記憶部41から取得したブログ記事(ブログデータ)をスパム判定手段2に入力し、テキスト解析手段21が、このブログデータに対して形態素解析を行う(ステップS101)。   First, the blog data input means 1 inputs the blog article (blog data) acquired from the blog data storage unit 41 to the spam determination means 2, and the text analysis means 21 performs morphological analysis on the blog data (step) S101).

ここで、テキスト解析手段21は、送り込まれたブログデータに含まれるテキスト情報に対して単語区切り、文区切り、話題区切り等を行うとともに、ブログ記事ごとに、使用単語、フレーズ、文きり(文節)情報、およびリンク先URLなどの使用特殊記号情報を付与して出力情報を生成する(ステップS102)。   Here, the text analysis means 21 performs word breaks, sentence breaks, topic breaks, etc. on the text information included in the sent blog data, and also uses words, phrases, sentences (phrases) for each blog article. Information and use special symbol information such as a link destination URL are added to generate output information (step S102).

次いで、スパムパターン判定手段22が、上記テキスト解析手段21の出力情報を読み込むと共に、当該出力情報に基づいてスパム定義情報記憶部42に予め格納されたスパム定義情報(スパム記述パターン)を参照し、上記出力情報とスパム定義情報との一致の有無を判定する(ステップS103)。   Next, the spam pattern determination unit 22 reads the output information of the text analysis unit 21 and refers to the spam definition information (spam description pattern) stored in advance in the spam definition information storage unit 42 based on the output information. It is determined whether or not the output information matches the spam definition information (step S103).

これにより、スパムパターン判定手段22は、各ブログ記事におけるテキスト情報がスパムデータであるか否か、つまり、スパム記述に該当するか否かの判定を行う。
また、これにより、スパムパターン判定手段22は、単独ブログ記事内のテキスト情報を調べることで判別することが可能なスパムパターンが、各ブログ記事のテキスト情報に含まれているか否かを判定する。
Thereby, the spam pattern determination means 22 determines whether or not the text information in each blog article is spam data, that is, whether or not it corresponds to a spam description.
Thereby, the spam pattern determination means 22 determines whether or not a spam pattern that can be determined by examining text information in a single blog article is included in the text information of each blog article.

ここで、上述の単独ブログ記事におけるスパム記述の有無判定では、図7の判別区分に「単独」とあるスパムパターンについてスパム判定が行われる。
例えば、P1の単語羅列型のスパムパターンでは、ルールモデルにあるような単語(W)と単語をカンマで区切って羅列する形式になっているか否かを判定する。
又、図5のJ1では、テキスト解析手段21の出力として、形態素解析の結果が、名詞/記号(カンマ)/名詞/記号/・・・の繰り返しとなっており、図4のP1パターンに合致すると判定される。
Here, in the determination of the presence / absence of the spam description in the single blog article described above, the spam determination is performed for the spam pattern having “single” in the determination category of FIG.
For example, in the P1 word enumeration type spam pattern, it is determined whether or not the word (W) and the word in the rule model are enumerated by separating them with commas.
In J1 of FIG. 5, the result of the morpheme analysis is the repetition of noun / symbol (comma) / noun / symbol /... As the output of the text analysis means 21, which matches the P1 pattern of FIG. Then, it is determined.

更に、スパムパターン判定手段22は、スパム固有情報記憶部43に予めスパム固有情報として登録された単語、フレーズに基づきブログ記事内に設定されたリンクのリンク先データ(WebページやPDFファイル等)のテキスト情報を参照し、スパム固有情報と一致する単語、フレーズがリンク先データに含まれるか否かの判定を行う(ステップS104)。   Further, the spam pattern determination means 22 stores link destination data (Web page, PDF file, etc.) of links set in the blog article based on words and phrases registered in the spam unique information storage unit 43 as spam unique information in advance. With reference to the text information, it is determined whether or not a word or phrase that matches the spam specific information is included in the link destination data (step S104).

次いで、スパム記述判定手段23は、上記判定結果について、特徴単語・フレーズパターンとの一致の割合に基づきスパム度を算出すると共に、記憶する(ステップS105)。
又、スパム記述判定手段23は、テキスト解析手段21からの出力情報全てに対して上記データ処理(スパム度算出処理)が行われたか否かを判定し(ステップS106)、全ての出力情報に対してステップS103〜S106の処理を行う。
Next, the spam description determination unit 23 calculates and stores the spam degree based on the ratio of matching with the characteristic word / phrase pattern for the determination result (step S105).
Further, the spam description determination unit 23 determines whether or not the above data processing (spam degree calculation processing) has been performed on all output information from the text analysis unit 21 (step S106), and all output information is processed. Steps S103 to S106 are performed.

次に、テキスト解析手段21は、上記出力情報に対してアルファベット順、あいうえお順等のソート処理を行い(ステップS107)、スパムパターン判定手段22が、異なる複数のブログ記事内のテキスト情報(出力情報)を比較参照することにより、重複して表れるスパム記述パターンを特定する(ステップS108)。   Next, the text analysis unit 21 performs sort processing such as alphabetical order and aiueo order on the output information (step S107), and the spam pattern determination unit 22 performs text information (output information) in different blog articles. ) To identify spam description patterns that appear in duplicate (step S108).

ここで、スパムパターン判定手段22は、例えば、図5のJ2やJ3のように異なるブログ記事から同一のサイトへ誘導するリンクおよびURL記載の抽出を行う。
また、複数ブログ記事におけるテキスト情報の比較により、図5のJ4とJ5に示されるような、同一記述が複数の異なるブログ記事に書き込まれたマルチポスト記述や自動生成記述を抽出する。
また、上記自動生成記述、およびマルチポスト記述の抽出処理については、複数のブログ記事内に書き込まれた共通の記述に加えて、完全一致ではない近似の記述や似た表現などの抽出も行う。
Here, for example, the spam pattern determination means 22 extracts links and URL descriptions that lead to the same site from different blog articles such as J2 and J3 in FIG.
Further, by comparing text information in a plurality of blog articles, a multi-post description or an automatically generated description in which the same description is written in a plurality of different blog articles as shown in J4 and J5 in FIG. 5 is extracted.
In addition, regarding the above-described automatic generation description and multi-post description extraction processing, in addition to a common description written in a plurality of blog articles, an approximate description and a similar expression that are not completely matched are also extracted.

次いで、スパム記述判定手段23が、複数の異なるブログ記事に含まれるテキスト情報のうち予め設定された一定の割合を上回り一致する記述や表現に対して、スパム記述である可能性を示すスパム度を算出すると共に、上記抽出された記述と当該記述それぞれのスパム度とを対応付けて、予め設定されたスパム度記憶手段24に記憶する(ステップS109)。
ここで、スパム記述判定手段23は、異なるブログ記事に表れる共通または近似の表現、記述を抽出すると共に、その頻度、記述の数、および近似の割合などに基づいて、スパム記述である可能性が高い表現、記述に対してより大きな数値をスパム度(重み付け)として割り当てる設定としてもよい。
Next, the spam description determination unit 23 determines a spam degree indicating the possibility of being a spam description for a description or expression that matches a predetermined percentage of text information included in a plurality of different blog articles. In addition to the calculation, the extracted description and the spam level of each description are associated with each other and stored in the preset spam level storage unit 24 (step S109).
Here, the spam description determination unit 23 extracts common or approximate expressions and descriptions appearing in different blog articles, and may be a spam description based on the frequency, the number of descriptions, the approximate ratio, and the like. A higher numerical value may be assigned as a spam degree (weighting) for high expressions and descriptions.

次いで、スパム記述判定手段23は、各ブログ記事単位で上記算出されたスパム度を集計し、その結果をデータ出力手段3に通知する(ステップS110)。   Next, the spam description determination unit 23 aggregates the calculated spam degree for each blog article unit and notifies the data output unit 3 of the result (step S110).

次に、データ出力手段3が、算出されたスパム度の合計が、各ブログ記事単位で予め設定されたスパム記事判定閾値を上回るブログ記事(スパム記事)をスパムデータ記憶部45へ、下回るブログ記事を通常記事として記事データ記憶部44に格納する(ステップS111)。   Next, the blog article in which the data output means 3 lowers the blog article (spam article) whose calculated spam degree exceeds the spam article determination threshold set in advance for each blog article to the spam data storage unit 45. Is stored in the article data storage unit 44 as a normal article (step S111).

以上のように、本実施形態では、スパム定義情報記憶部42およびスパム固有情報記憶部43を参照し、大量かつ様々なパターンで存在するスパム記述を判定し、対象外として分類するように構成されているため、分析・参照・情報収集の精度を向上させることができる。
また、本実施形態では、スパムパターン判定手段22が、単独ブログ記事におけるスパムパターン判定に加え、複数のブログ記事間を比較参照することにより実行されるスパムパターン判定も行うように構成されているため、単純な単語やルールによる除去では対処できないタイプのスパム記述にも対応できる。
As described above, the present embodiment is configured to refer to the spam definition information storage unit 42 and the spam specific information storage unit 43, determine spam descriptions existing in large quantities and various patterns, and classify them as excluded. Therefore, the accuracy of analysis / reference / information collection can be improved.
In the present embodiment, the spam pattern determination unit 22 is configured to perform spam pattern determination executed by comparing and referring to a plurality of blog articles in addition to the spam pattern determination in a single blog article. It can also deal with types of spam that cannot be dealt with by simple word or rule removal.

[実施形態2]
次に、本発明に係る実施形態2のスパム情報判別システムについて説明する。ここで、前述した実施形態1と同一の部分については、同一の符号を付するものとする。
この実施形態2は、システムの構成部分は前述した実施形態1(図1)とほぼ同一の構成を備えており、新規スパム学習手段5およびスパム定義更新手段6を新たに備えた点が実施形態1の場合と相違する。
以下、これを詳述する。
[Embodiment 2]
Next, the spam information discrimination system according to the second embodiment of the present invention will be described. Here, the same reference numerals are assigned to the same portions as those of the first embodiment described above.
In the second embodiment, the components of the system have almost the same configuration as that of the first embodiment (FIG. 1), and the new spam learning means 5 and the spam definition updating means 6 are newly provided. This is different from the case of 1.
This will be described in detail below.

本実施形態2は、前述した実施形態1(図1)の場合と同様に、データ記憶装置4と、このデータ記憶装置4からブログデータを読出すブログデータ入力手段1と、このブログデータ入力手段から送り込まれたブログデータにおけるスパム記述の有無を判別するスパム判定手段2と、このスパム判定手段2でスパム記述の有無により判別されたブログデータをデータ記憶装置4にそれぞれ格納するデータ出力手段3とを備えている。   In the second embodiment, as in the first embodiment (FIG. 1) described above, the data storage device 4, the blog data input means 1 for reading blog data from the data storage device 4, and the blog data input means. Spam determination means 2 for determining the presence or absence of spam description in the blog data sent from, and data output means 3 for storing the blog data determined by the spam determination means 2 based on the presence or absence of spam description in the data storage device 4, respectively. It has.

ここで、本実施形態は、このデータ出力手段3に接続され記事データ情報を読出し新規スパム記述情報およびルールを学習する新規スパム学習手段5と、この新規スパム学習手段5に接続され、上記学習結果に基づきスパム定義情報記憶部42およびスパム固有情報記憶部43に登録された情報を更新するスパム定義更新手段6を備えた構成となっている。   Here, the present embodiment is connected to the data output means 3 and reads out the article data information to learn new spam description information and rules, and is connected to the new spam learning means 5 and the learning result described above. The spam definition updating means 6 for updating the information registered in the spam definition information storage unit 42 and the spam specific information storage unit 43 is provided.

新規スパム学習手段5は、データ記憶装置4の記事データ情報記憶部45に記憶された記事データ情報を読み出す記事データ読出し機能と、読み出された記事データ中で、現状ではスパムとは判定されていないものでスパム度の高い記述の特徴を抽出するスパム記事特徴抽出機能を備えている。
ここで、新規スパム学習手段5により読み出された記事データ情報は、スパム判定手段2により、スパム定義情報記憶部42のスパム定義情報に基づきスパムではないと判定された記事データ情報である。ただし、この記事データ情報中には、いずれのスパム記述パターンにも分類されないが、スパム記述としての特徴を有する記述や、スパム度判定閾値よりは低いがスパム記述を含んだブログ記事が含まれている。
The new spam learning means 5 is the article data reading function for reading the article data information stored in the article data information storage unit 45 of the data storage device 4 and the read article data. It has a spam article feature extraction function that extracts features of descriptions that are not spam and have a high degree of spam.
Here, the article data information read by the new spam learning means 5 is article data information determined by the spam determination means 2 as not spam based on the spam definition information in the spam definition information storage unit 42. However, this article data information does not fall under any spam description pattern, but includes descriptions that have the characteristics of spam descriptions and blog articles that contain spam descriptions that are lower than the spam level threshold. Yes.

又、ユーザがブログ記事を閲覧する中で発見され、スパム記述として申告がなされた記述や、このスパム記述申告に応じて、予め設定されたスパム度が上げられたスパム記述などが含まれる。
ここで、新規スパム学習手段5は、例えば、スパム度が予め設定された値より高いものを正例、スパム度が予め設定された値より低いまたは’0’のものを負例として、スパム度の高いブログ記事に特有の特徴抽出を行う。
更に、新規スパム学習手段5は、上記特徴抽出された記述のうち、特徴度の高い記述、ユーザにより申告された記述、又は記述内容のルール化を設定する記述を選別する登録記述選別機能を備えている。
Also included are descriptions that have been discovered as users browse blog articles and have been declared as spam descriptions, and spam descriptions that have been set up in advance according to the spam description declaration.
Here, the new spam learning means 5 uses, for example, a spam degree higher than a preset value as a positive example, a spam degree lower than a preset value or '0' as a negative example, and a spam degree Extract features specific to high blog posts.
Further, the new spam learning means 5 has a registered description selecting function for selecting a description having a high feature degree, a description declared by the user, or a description for setting rule description of the description among the descriptions extracted from the features. ing.

スパム定義更新手段6は、新規スパム学習手段5で記述選別の結果に基づき、選別された記述が新規スパム記述パターンであるか否かを判定する新規記述パターン判定機能を備えている。
又、スパム定義更新手段6は、新規スパム記述パターンとして判定された記述または記述パターンを、スパム定義情報記憶部42に追加登録する定義情報追加機能と、上記追加登録された記述又は記述パターンに対応するスパム固有情報を、スパム固有情報記憶部43に追加登録する固有情報追加登録機能を備えている。
これにより、スパム定義更新手段6は、スパム定義情報記憶部42に登録された記述情報、およびスパム固有情報記憶部43に登録されたスパム記述情報や、スパム記述ルールを更新することができる。
The spam definition updating means 6 has a new description pattern determination function for determining whether or not the selected description is a new spam description pattern based on the result of the description selection by the new spam learning means 5.
The spam definition updating means 6 corresponds to a definition information adding function for additionally registering a description or description pattern determined as a new spam description pattern in the spam definition information storage unit 42, and the additionally registered description or description pattern. A unique information additional registration function for additionally registering spam unique information to the spam unique information storage unit 43.
As a result, the spam definition updating unit 6 can update the description information registered in the spam definition information storage unit 42, the spam description information registered in the spam specific information storage unit 43, and the spam description rule.

[実施形態2の動作説明] [Description of Operation of Embodiment 2]

次に、上記実施形態2の全体的な動作を説明する。
先ず、ブログデータ記憶部41から入力されたブログ記事に対してテキスト解析を行い(テキスト解析工程)、この解析結果に基づいて各ブログ記事のテキスト情報に予め設定されたスパム記述パターンが含まれるか否かを判定する(スパムパターン判定工程)。
次いで、異なるブログ記事内に設定され共通のリンク先情報に誘導するテキスト情報をスパム記述として特定し(スパム記述特定工程)、前記ブログ記事からスパム記述が含まれたブログ記事をスパム記事として判別する(スパム記事判別工程)。
次いで、前記ブログ記事からスパム記述を特徴付けるスパム記述特徴を抽出すると共に、当該スパム記述特徴に基づきスパム記述パターンを更新する(スパム記述パターン更新工程)。
Next, the overall operation of the second embodiment will be described.
First, text analysis is performed on the blog article input from the blog data storage unit 41 (text analysis step), and whether or not a spam description pattern set in advance is included in the text information of each blog article based on the analysis result. It is determined whether or not (spam pattern determination step).
Next, text information that is set in different blog articles and leads to common link destination information is specified as a spam description (spam description specifying step), and a blog article that includes the spam description is determined as a spam article from the blog article. (Spam article discrimination process).
Next, the spam description feature characterizing the spam description is extracted from the blog article, and the spam description pattern is updated based on the spam description feature (spam description pattern updating step).

次に、上記実施形態2の新規スパム学習手段5およびスパム定義更新手段6の動作を、図8のフローチャートに基づいて説明する。
尚、前述した実施形態1の動作(図6)は、本実施形態2においても同様に動作しているものとする。
Next, the operations of the new spam learning unit 5 and the spam definition updating unit 6 of the second embodiment will be described based on the flowchart of FIG.
The operation of the first embodiment (FIG. 6) described above is assumed to operate similarly in the second embodiment.

新規スパム学習手段5は、データ記憶装置4の記事データ情報記憶部45に記憶されている通常記事(以下「記事データ情報」という)を読み出す(ステップS201:記事データ情報読出し工程)。
ここで、新規スパム学習手段5は、データ出力手段3が記事データ記憶部44又はスパムデータ記憶部45にデータ格納を行われたことがデータ格納通知に応じて上記記事データ情報読出し工程を開始する設定としてもよい。
The new spam learning means 5 reads a normal article (hereinafter referred to as “article data information”) stored in the article data information storage unit 45 of the data storage device 4 (step S201: article data information reading step).
Here, the new spam learning means 5 starts the article data information reading process in response to the data storage notification that the data output means 3 has stored data in the article data storage unit 44 or the spam data storage unit 45. It is good also as a setting.

ここで、新規スパム学習手段5により読み出された記事データ情報は、スパム判定手段2がスパム定義情報に基づきスパムではないと判定された記事データ情報である。ただし、この記事データ情報中には、いずれのスパム記述パターンにも分類されないが、スパム記述としての特徴を有する記述や、スパム度判定閾値よりは低いがスパム記述を含んだブログ記事が含まれている。
また、ユーザがブログ記事を閲覧する中で発見され、スパム記述として申告がなされた記述や、このスパム記述申告に応じて、予め設定されたスパム度が上げられたスパム記述などが含まれる。
Here, the article data information read by the new spam learning means 5 is article data information determined by the spam determination means 2 as not spam based on the spam definition information. However, this article data information does not fall under any spam description pattern, but includes descriptions that have the characteristics of spam descriptions and blog articles that contain spam descriptions that are lower than the spam level threshold. Yes.
Also included are descriptions that have been discovered while the user browses blog articles and have been declared as spam descriptions, and spam descriptions that have been set to a predetermined spam level according to the spam description declaration.

次いで、新規スパム学習手段5は、スパム度の高さが予め設定された値より高いものを正例、スパム度が予め設定された値より低いまたは’0’ものを負例として、スパム度の高いブログ記事に特有の特徴抽出を行う(ステップS202)。
ここで、新規スパム学習手段5は、例えば、単語・フレーズ・URL・記号などの特徴度順のランキングを設定してスパム度の高いブログ記事の特徴抽出を行う。
Next, the new spam learning means 5 takes the spam degree as a positive example when the spam degree is higher than a preset value, and as a negative example when the spam degree is lower than the preset value or '0'. Feature extraction specific to a high blog article is performed (step S202).
Here, the new spam learning means 5 performs the feature extraction of the blog article having a high spam degree by setting the ranking in the order of the characteristic degree such as words, phrases, URLs, and symbols.

次に、新規スパム学習手段5は、上記特徴抽出された記述のうち、特徴度の高い記述、ユーザにより申告された記述、又は記述内容のルール化を設定される記述を選別する(ステップS203)。   Next, the new spam learning means 5 selects a description having a high characteristic degree, a description declared by the user, or a description for which a description content is set to rule from among the descriptions extracted from the features (step S203). .

次いで、スパム定義更新手段6は、上記選別された記述に基づきスパム定義情報記憶部42のスパム定義情報を参照し(ステップS204)、選別された記述それぞれが、新規スパム記述パターンであるか否かを判定する(ステップS205)。
ここで、新規スパム記述パターン若しくはスパム固有情報でない場合は、処理を終了する。
Next, the spam definition updating means 6 refers to the spam definition information in the spam definition information storage unit 42 based on the selected description (step S204), and whether each selected description is a new spam description pattern or not. Is determined (step S205).
If it is not a new spam description pattern or spam-specific information, the process is terminated.

次いで、スパム定義更新手段6が、新規スパム記述パターンとして判定された記述または記述パターンを、スパム定義情報記憶部42に追加登録する(ステップS206)。
更に、スパム定義更新手段6は、上記追加登録された記述又は記述パターンに対応するスパム固有情報を、上記読み出された記事データ情報中から抽出すると共にスパム固有情報記憶部43に格納(登録)する(ステップS207)。
Next, the spam definition updating means 6 additionally registers the description or description pattern determined as the new spam description pattern in the spam definition information storage unit 42 (step S206).
Further, the spam definition updating means 6 extracts spam specific information corresponding to the additionally registered description or description pattern from the read article data information and stores (registers) it in the spam specific information storage unit 43. (Step S207).

上記のように、実施形態2では、新規スパム学習手段5が、スパムルールやスパム単語・スパムフレーズと異なる亜種に対して、および、ユーザにより発見された新種のスパム記述およびスパム記事の情報に基づいて、スパム記述を特徴付けるテキスト記述を抽出すると共に、スパム定義更新手段6が、予め設定されたスパム記述パターン、スパム固有情報、スパム記述ルールなどを更新するように構成されている。
これにより、本実施形態では、次々と開発され生じるスパム記述およびその亜種に対して柔軟に追随し、スパム記述判別の精度を向上させることができる。
As described above, in the second embodiment, the new spam learning means 5 is used for the variant different from the spam rule and the spam word / spam phrase, and for the new spam description and spam article information discovered by the user. Based on this, the text description characterizing the spam description is extracted, and the spam definition updating means 6 is configured to update a preset spam description pattern, spam specific information, spam description rules, and the like.
Thereby, in this embodiment, it is possible to flexibly follow a spam description and its variants that are developed one after another, and to improve the accuracy of spam description discrimination.

本発明は、ブログ情報からトレンド情報を抽出する情報処理システムや、コマーシャルやキャンペーンなどの広告情報に対する反応を効果測定として分析するシステムに適用できる。
また、ブログ運営サイトにおいて、ブログ記事、トラックバック、およびコメントにスパム記述が投稿されることを防止するシステムのスパム記述判別に適用できる。
更に、ブログ運営サイトやブログ情報収集および活用事業者で利用されるスパム記述発見方式やスパム記述フィルタ更新サービスにも適用可能である。
The present invention can be applied to an information processing system that extracts trend information from blog information and a system that analyzes a reaction to advertisement information such as a commercial or a campaign as an effect measurement.
Further, it can be applied to spam description discrimination of a system that prevents a spam description from being posted in a blog article, trackback, and comment on a blog management site.
Furthermore, the present invention can also be applied to spam description discovery methods and spam description filter update services used by blog management sites and blog information collection and utilization companies.

本発明によるスパム情報判別システムの一実施例を示す概略構成図である。It is a schematic block diagram which shows one Example of the spam information discrimination | determination system by this invention. 図1に開示したスパム情報判別システムにおけるブログ記事の一例を示す説明図である。It is explanatory drawing which shows an example of the blog article in the spam information discrimination | determination system disclosed in FIG. 図1に開示したスパム情報判別システムにおける出力情報の一例を示す説明図である。It is explanatory drawing which shows an example of the output information in the spam information discrimination | determination system disclosed in FIG. 図1に開示したスパム情報判別システムにおけるスパム定義情報の一例を示す説明図である。It is explanatory drawing which shows an example of the spam definition information in the spam information discrimination system disclosed in FIG. 図1に開示したスパム情報判別システムにおけるスパム記事を含んだ出力情報の一例を示す説明図である。It is explanatory drawing which shows an example of the output information containing the spam article in the spam information discrimination system disclosed in FIG. 本発明によるスパム情報判別システムの全体的な動作処理ステップを示したフローチャートである。5 is a flowchart showing overall operation processing steps of the spam information discrimination system according to the present invention. 本発明によるスパム情報判別システムの一実施例を示す概略構成図である。It is a schematic block diagram which shows one Example of the spam information discrimination | determination system by this invention. 本発明によるスパム情報判別システムの全体的な動作処理ステップを示したフローチャートである。5 is a flowchart showing overall operation processing steps of the spam information discrimination system according to the present invention.

符号の説明Explanation of symbols

1 ブログデータ入力手段
2 スパム判定手段
3 データ出力手段
4 データ記憶装置
5 新規スパム学習手段
6 スパム定義更新手段
21 テキスト解析手段
22 スパムパターン判定手段
23 スパム記述判定手段
24 スパム度記憶手段
41 ブログデータ記憶部
42 スパム定義情報記憶部
43 スパム固有情報記憶部
44 記事データ記憶部
45 スパムデータ記憶部
DESCRIPTION OF SYMBOLS 1 Blog data input means 2 Spam judgment means 3 Data output means 4 Data storage device 5 New spam learning means 6 Spam definition update means 21 Text analysis means 22 Spam pattern judgment means 23 Spam description judgment means 24 Spam degree memory means 41 Blog data storage Section 42 Spam definition information storage section 43 Spam specific information storage section 44 Article data storage section 45 Spam data storage section

Claims (9)

通信ネットワークを介して投稿および閲覧されるブログ記事を記憶したブログ記事記憶装置と、前記ブログ記事に対してテキスト解析を行うと共に前記各ブログ記事に予め設定されたスパム記述パターンが含まれるか否かの判定を行うスパム判定手段とを備えたスパム情報判別システムであって、
前記スパム判定手段は、前記異なるブログ記事内に設定され共通のリンク先情報に誘導するテキスト情報をスパム記述として特定すると共に、前記ブログ記事から前記スパム記述を含むブログ記事を判別し分離する機能を備えたことを特徴とするスパム情報判別システム。
A blog article storage device that stores blog articles that are posted and viewed via a communication network, and whether or not a text description analysis is performed on each blog article and a preset spam description pattern is included in each blog article A spam information discriminating system comprising a spam judging means for judging
The spam determination means has a function of identifying text information that is set in the different blog articles and that leads to common link destination information as a spam description, and distinguishing and separating a blog article that includes the spam description from the blog article. A spam information discrimination system characterized by comprising.
前記請求項1に記載のスパム情報判別システムにおいて、
前記スパム判定手段が、前記異なるブログ記事それぞれに含まれる共通のテキスト情報を抽出し当該テキスト情報にスパム記述を特徴付ける記述が含まれるか否かを前記スパム記述パターンに基づき判定する共通テキスト判別機能を備えたことを特徴としたスパム情報判別システム。
In the spam information determination system according to claim 1,
A common text discriminating function for the spam judging means to extract common text information included in each of the different blog articles and determine whether the text information includes a description characterizing a spam description based on the spam description pattern; Spam information discrimination system characterized by having.
前記請求項1に記載のスパム情報判別システムにおいて、
前記スパム判定手段が、前記リンク先情報を取得し当該リンク先情報に前記スパム記述パターンが含まれるか否かの判定を行うリンク先スパム判定機能を備えたことを特徴とするスパム情報判別システム。
In the spam information determination system according to claim 1,
A spam information discrimination system comprising a link destination spam judgment function in which the spam judgment unit acquires the link destination information and judges whether or not the spam description pattern is included in the link destination information.
前記請求項1に記載のスパム情報判別システムにおいて、
前記スパム判定手段が、前記異なるブログ記事から近似のテキスト情報を抽出する近似テキスト抽出機能と、当該抽出されたテキスト情報の近似の度合いに基づき前記テキスト記述がスパム記述である可能性を示すスパム度を算出する記述スパム度算出機能と、前記ブログ記事のスパム度が予め設定された値以上の場合に前記ブログ記事をスパム記事として判別するスパム記事判別機能と、を備えたことを特徴とするスパム情報判別システム。
In the spam information determination system according to claim 1,
Spam degree indicating the possibility that the text description is a spam description based on an approximate text extraction function for the spam determination means to extract approximate text information from the different blog articles and the degree of approximation of the extracted text information And a spam article discrimination function for discriminating the blog article as a spam article when the spam degree of the blog article is greater than or equal to a preset value. Information discrimination system.
前記請求項4に記載のスパム情報判別システムにおいて、
前記スパム判定手段が、前記抽出されたテキスト情報のリンク先情報を取得するリンク先情報取得機能と、
前記取得されたリンク先情報と前記テキスト記述との一致の度合いに基づき前記テキスト記述がスパム記述である可能性を示すスパム度を算出するリンク先情報スパム度算出機能を備えたことを特徴とするスパム情報判別システム。
In the spam information determination system according to claim 4,
A link destination information acquisition function for the spam determination means to acquire link destination information of the extracted text information;
A link destination information spam degree calculation function for calculating a spam degree indicating the possibility that the text description is a spam description based on a degree of coincidence between the acquired link destination information and the text description is provided. Spam information discrimination system.
前記請求項4に記載のスパム情報判別システムにおいて、
前記ブログ記事のうち予め設定された値未満のスパム度のブログ記事からスパム度の高い記述のスパム記述特徴を抽出すると共に、スパム記述を特徴付ける記述を判別する指標である前記スパム記述パターンを前記抽出されたスパム記述特徴に基づき更新するスパム記述パターン更新手段を前記スパム判定手段に併設したことを特徴とするスパム情報判別システム。
In the spam information determination system according to claim 4,
Extracting a spam description feature having a high spam degree description from a blog article having a spam degree less than a preset value among the blog articles, and extracting the spam description pattern as an index for determining a description characterizing the spam description A spam information discriminating system, characterized in that a spam description pattern updating means for updating based on the described spam description characteristics is provided in the spam judging means.
通信ネットワークを介して投稿および閲覧されるブログ記事を記憶したブログ記事記憶装置と、前記ブログ記事に対してテキスト解析を行い前記各ブログ記事に予め設定されたスパム記述パターンが含まれるか否かの判定を行うスパム判定手段とを備え、前記ブログ記事からスパム記述を含むブログ記事をスパム記事として判別するスパム情報判別方法において、
前記ブログ記事記憶装置から入力されたブログ記事に対してテキスト解析を行うテキスト解析工程と、この解析結果に基づいて前記各ブログ記事のテキスト情報に予め設定されたスパム記述パターンが含まれるか否かを判定するスパムパターン判定工程と、異なるブログ記事内に設定され共通のリンク先情報に誘導するテキスト情報をスパム記述として特定するスパム記述特定工程と、前記ブログ記事からスパム記述が含まれたブログ記事をスパム記事として判別し分離するスパム記事判別工程と、を備えたことを特徴とするスパム情報判別方法。
A blog article storage device that stores blog articles that are posted and viewed via a communication network, and whether or not each blog article includes a predetermined spam description pattern by performing text analysis on the blog article A spam information determining method for determining a blog article including a spam description from the blog article as a spam article, comprising:
A text analysis step for performing text analysis on the blog article input from the blog article storage device, and whether or not a predetermined spam description pattern is included in the text information of each blog article based on the analysis result A spam pattern determination step for determining a spam description, a spam description specifying step for specifying text information set in different blog articles and leading to common link destination information as a spam description, and a blog article including a spam description from the blog article And a spam article discriminating step for discriminating and separating them as spam articles.
前記請求項7に記載のスパム情報判別方法において、
前記ブログ記事からスパム記述を特徴付けるスパム記述特徴を抽出すると共に、当該スパム記述特徴に基づき前記スパム記述パターンを更新するスパム記述パターン更新工程を、前記スパム記事判別工程の後に備えたことを特徴とするスパム情報判別方法。
The spam information determination method according to claim 7,
A spam description pattern update step of extracting a spam description feature characterizing a spam description from the blog article and updating the spam description pattern based on the spam description feature is provided after the spam article determination step. Spam information discrimination method.
通信ネットワークを介して投稿および閲覧されるブログ記事を記憶したブログ記事記憶装置と、前記ブログ記事に対してテキスト解析を行い前記各ブログ記事に予め設定されたスパム記述パターンが含まれるか否かの判定を行うスパム判定手段とを備え、前記ブログ記事からスパム記述を含むブログ記事をスパム記事として判別するためのスパム情報判別プログラムにおいて、
前記ブログ記事記憶装置から入力されたブログ記事に対してテキスト解析を行うテキスト解析機能、この解析結果に基づいて前記各ブログ記事のテキスト情報に予め設定されたスパム記述パターンが含まれるか否かを判定するスパムパターン判定機能、異なるブログ記事内に設定され共通のリンク先情報に誘導するテキスト情報をスパム記述として特定するスパム記述特定機能、前記ブログ記事からスパム記述が含まれたブログ記事をスパム記事として判別し分離するスパム記事判別機能、を前記スパム判定手段の備えるコンピュータに実行させることを特徴としたスパム情報判別プログラム。
A blog article storage device that stores blog articles that are posted and viewed via a communication network, and whether or not each blog article includes a predetermined spam description pattern by performing text analysis on the blog article A spam information determination program for determining a blog article including a spam description from the blog article as a spam article, comprising:
A text analysis function for performing text analysis on a blog article input from the blog article storage device, and whether or not a predetermined spam description pattern is included in the text information of each blog article based on the analysis result Spam pattern determination function to determine, spam description specification function to specify text information that is set in different blog articles and leads to common link destination information as spam description, blog articles that contain spam descriptions from the blog articles are spam articles A spam information determination program that causes a computer provided with the spam determination means to execute a spam article determination function that determines and separates
JP2007333068A 2007-12-25 2007-12-25 System, method and program for identifying spam information Pending JP2009157510A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007333068A JP2009157510A (en) 2007-12-25 2007-12-25 System, method and program for identifying spam information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007333068A JP2009157510A (en) 2007-12-25 2007-12-25 System, method and program for identifying spam information

Publications (1)

Publication Number Publication Date
JP2009157510A true JP2009157510A (en) 2009-07-16

Family

ID=40961494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007333068A Pending JP2009157510A (en) 2007-12-25 2007-12-25 System, method and program for identifying spam information

Country Status (1)

Country Link
JP (1) JP2009157510A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009199341A (en) * 2008-02-21 2009-09-03 Nec Corp Spam/event detection device, method and program
JP2013012142A (en) * 2011-06-30 2013-01-17 Yahoo Japan Corp Spam submission determination device, method and system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003348161A (en) * 2002-05-23 2003-12-05 Nec Corp Mail server, mail system and spam mail deleting method, and program for the method
JP2004362559A (en) * 2003-06-04 2004-12-24 Microsoft Corp Features and list of origination and destination for spam prevention
JP2006012165A (en) * 2004-06-29 2006-01-12 Microsoft Corp Look-up service and update service of incremental anti-spam
JP2006268304A (en) * 2005-03-23 2006-10-05 Nomura Research Institute Ltd Contributed data evaluation device
JP2007265368A (en) * 2006-03-02 2007-10-11 Yafoo Japan Corp Spam eliminating method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003348161A (en) * 2002-05-23 2003-12-05 Nec Corp Mail server, mail system and spam mail deleting method, and program for the method
JP2004362559A (en) * 2003-06-04 2004-12-24 Microsoft Corp Features and list of origination and destination for spam prevention
JP2006012165A (en) * 2004-06-29 2006-01-12 Microsoft Corp Look-up service and update service of incremental anti-spam
JP2006268304A (en) * 2005-03-23 2006-10-05 Nomura Research Institute Ltd Contributed data evaluation device
JP2007265368A (en) * 2006-03-02 2007-10-11 Yafoo Japan Corp Spam eliminating method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009199341A (en) * 2008-02-21 2009-09-03 Nec Corp Spam/event detection device, method and program
JP2013012142A (en) * 2011-06-30 2013-01-17 Yahoo Japan Corp Spam submission determination device, method and system

Similar Documents

Publication Publication Date Title
US10311377B2 (en) Categorization of user interactions into predefined hierarchical categories
Zimmeck et al. Privee: An architecture for automatically analyzing web privacy policies
US8630989B2 (en) Systems and methods for information extraction using contextual pattern discovery
Inzalkar et al. A survey on text mining-techniques and application
CN102576358B (en) Word pair acquisition device, word pair acquisition method, and program
Kestemont et al. Cross-genre authorship verification using unmasking
US20130275433A1 (en) Classification rule generation device, classification rule generation method, classification rule generation program, and recording medium
US20140180934A1 (en) Systems and Methods for Using Non-Textual Information In Analyzing Patent Matters
US8560518B2 (en) Method and apparatus for building sales tools by mining data from websites
Kiefer Assessing the Quality of Unstructured Data: An Initial Overview.
WO2021098651A1 (en) Method and apparatus for acquiring risk entity
US8862586B2 (en) Document analysis system
CN112948664A (en) Method and system for automatically processing sensitive words
Chawla et al. Automatic bug labeling using semantic information from LSI
CN117473512B (en) Vulnerability risk assessment method based on network mapping
JP2013131075A (en) Classification model learning method, device, program, and review document classifying method
US20210232615A1 (en) Systems and method for generating a structured report from unstructured data
Jeong et al. Does sentiment help requirement engineering: Exploring sentiments in user comments to discover informative comments
JP2009157450A (en) Mail sorting system, mail retrieving system, and mail destination sorting system
JP2009157510A (en) System, method and program for identifying spam information
CN115481240A (en) Data asset quality detection method and detection device
CN107102994B (en) Method and device for determining query dimension information
JP2004206468A (en) Document management system and document management program
CN112199467B (en) Configuration method and device for mail display page
CA3099632C (en) Systems and methods for identifying a risk of impliedly overruled content based on citationally related content

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120321

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120808