JP5113206B2 - Spam blog determination apparatus and method - Google Patents
Spam blog determination apparatus and method Download PDFInfo
- Publication number
- JP5113206B2 JP5113206B2 JP2010064447A JP2010064447A JP5113206B2 JP 5113206 B2 JP5113206 B2 JP 5113206B2 JP 2010064447 A JP2010064447 A JP 2010064447A JP 2010064447 A JP2010064447 A JP 2010064447A JP 5113206 B2 JP5113206 B2 JP 5113206B2
- Authority
- JP
- Japan
- Prior art keywords
- predetermined keyword
- blog
- determination
- spam
- predetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 45
- 238000010801 machine learning Methods 0.000 claims description 87
- 230000004044 response Effects 0.000 claims description 24
- 238000012217 deletion Methods 0.000 claims description 20
- 230000037430 deletion Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 description 35
- 238000012545 processing Methods 0.000 description 15
- 238000012706 support-vector machine Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Description
本発明は、スパムブログ判定装置及び方法に関する。 The present invention relates to a spam blog determination apparatus and method.
従来、特定のサイトへ誘導することを目的として、自動的に作成して投稿する「スパムブログ」と呼ばれるブログが存在する。スパムブログは、「スプログ」(splog)とも呼ばれる。このスパムブログは、インターネットにおいて様々な問題が生じる危険性がある。例えば、ブログサービス提供業者にとって、スパムブログは、サーバや回線を高負荷にするため、サービスに支障が出る危険性がある。また、企業等は、自社の製品や情報がどの程度の検索ランクになっているのか知りたいニーズが存在する。しかし、スパムブログによって検索ランクが狂されてしまうという危険性がある。そして、スパムブログによって、例えば、検索サービスからユーザの欲する情報に到達できなくなる危険性がある。 Conventionally, there is a blog called “spam blog” that is automatically created and posted for the purpose of guiding to a specific site. Spam blogs are also referred to as “splogs”. This spam blog has various risks in the Internet. For example, for a blog service provider, a spam blog places a high load on a server and a line, so there is a risk that the service will be hindered. In addition, there is a need for companies and the like to know the search rank of their products and information. However, there is a risk that spam blogs can corrupt the search rank. Then, there is a risk that the information desired by the user cannot be reached from the search service due to the spam blog, for example.
このようなスパムブログに対する対策として、例えば、スパムブログの頻出用語やスパムブログのパターン等の情報に基づき、スパムブログを判断する方法が考えられている(例えば、特許文献1(段落[0005])参照)。特許文献1の該当の段落に記載されたものは、機械学習を利用して特定の特徴を持つものを排除する、いわゆるスパムフィルタと呼ばれるものである。
As a countermeasure against such a spam blog, for example, a method of determining a spam blog based on information such as frequent terms of the spam blog and a spam blog pattern is considered (for example, Patent Document 1 (paragraph [0005]). reference). What is described in the corresponding paragraph of
ところで、スパムブログの中には、流行している用語をそのブログ内に含むものがある。そして、流行している用語は、流行り廃りの動きが早く、次々に入れ替わり、しかも、一旦流行した用語がどの程度継続するかの予測が難しいという特徴がある。特許文献1に開示された技術によっても、このような状況に適切に対応することはできず、管理者は、スパムブログを判断するためにプログラムロジックを都度変更する必要が生じ、これは、ブログサービス提供業者の管理者にとって煩雑な作業であった。
By the way, some spam blogs include popular terms in the blog. And terms that are popular are characterized by the fact that they are rapidly becoming obsolete, are replaced one after another, and it is difficult to predict how long a term that has been once popular will continue. Even the technique disclosed in
本発明は、管理者による作業を容易にしてスパムブログを判定するスパムブログ判定装置及び方法を提供することを目的とする。 An object of the present invention is to provide a spam blog determination apparatus and method for determining a spam blog by facilitating an operation by an administrator.
本発明者らは、流行している用語を登録することで判定対象にし、さらに流行の継続期間に追随してスパムブログを判定することが可能な環境を提供することを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。 The present inventors have found that an environment in which spam blogs can be determined by registering popular terms and determining spam blogs following the trend duration is completed. It came to do. Specifically, the present invention provides the following.
(1) 所定のキーワードの登録指定を受け付けたことに応じて、前記所定のキーワードを所定キーワード記憶手段に記憶する所定キーワード記憶制御手段と、判定対象のブログ記事を受け付けたことに応じて、前記所定キーワード記憶手段に記憶した前記所定のキーワードを素性として用いて前記ブログ記事がスパムブログであるか否かを機械学習により判定する機械学習手段と、前記機械学習手段による判定対象の前記ブログ記事のうち、前記所定キーワード記憶手段に記憶された前記所定のキーワードを含むブログ記事と、スパムブログであるか否かの前記機械学習による判定の結果とを対応付けて出力するスパム判定結果出力手段と、前記所定のキーワードの削除指定を受け付けたことに応じて、前記所定キーワード記憶手段に記憶された前記所定のキーワードを削除する調整戻し手段と、前記スパム判定結果出力手段が前記機械学習による判定の結果を出力した前記ブログ記事について、前記機械学習による判定の結果の正誤判断を示す情報である正誤判断情報を受け付けたことに応じて、前記正誤判断情報を前記ブログ記事に対応付けて記憶する正誤判断情報記憶手段と、所定期間において前記正誤判断情報記憶手段が記憶した前記正誤判断情報に基づいて前記所定のキーワードごとに前記機械学習による判定の誤り率を算出し、前記誤り率が所定の閾値以上となった前記所定のキーワードについて流行が終わったと判定する第1流行終了判定手段と、を備えるスパムブログ判定装置。 (1) In response to receiving registration designation of a predetermined keyword, predetermined keyword storage control means for storing the predetermined keyword in a predetermined keyword storage means, and in response to receiving a blog article to be determined, Machine learning means for determining whether or not the blog article is a spam blog using the predetermined keyword stored in the predetermined keyword storage means as a feature, and the blog article to be determined by the machine learning means Among them, a spam determination result output means for outputting a blog article including the predetermined keyword stored in the predetermined keyword storage means and a result of the determination by the machine learning as to whether or not it is a spam blog, In response to receiving the deletion designation of the predetermined keyword, the predetermined keyword storage means stores the predetermined keyword. Information indicating the correctness / incorrectness of the determination result by the machine learning for the blog article from which the determination result by the machine learning is output by the adjustment determination return means for deleting the predetermined keyword and the spam determination result output means In response to accepting certain correctness determination information, the correctness determination information storage means for storing the correctness determination information in association with the blog article, and the correctness determination information stored in the correctness determination information storage means for a predetermined period. An error rate of determination by the machine learning based on each predetermined keyword based on the first trend end determination means for determining that the trend has ended for the predetermined keyword for which the error rate is equal to or greater than a predetermined threshold; A spam blog determination device comprising:
本発明のこのような構成によれば、スパムブログ判定装置は、例えば、流行り廃りのある所定のキーワードを処理対象にする、所定のキーワードの登録指定を受け付けたことで、所定のキーワードを含むスパムブログの判定を行い、結果を出力する。よって、スパムブログ判定装置は、管理者に所定のキーワードの登録指定を行わせるだけで、所定のキーワードを含むスパムブログを判定することができる。さらに、スパムブログ判定装置は、スパム判定結果出力手段が出力した判定結果を見た管理者から所定のキーワードを処理対象外にする削除指定を受け付けたことで、所定のキーワードを処理の対象から外す。よって、スパムブログ判定装置は、流行り廃りのある所定のキーワードを含むスパムブログの判定を適切に行うことができる。また、本発明によれば、スパムブログ判定装置は、判定の結果を出力したブログ記事についての機械学習の判定の結果の正誤判断を示す情報である正誤判断情報を受け付けてブログ記事に対応付けて記憶し、所定期間において記憶した正誤判断情報に基づいて所定のキーワードごとに機械学習による判定の誤り率を算出し、その誤り率が所定の閾値以上となった場合に、所定のキーワードについて流行が終わったと判定する。よって、スパム判定結果出力手段が出力した判定結果を見た管理者がブログ記事についての機械学習の判定の結果の正誤判断を行って正誤判断情報を入力することで、スパムブログ判定装置は、所定のキーワードごとに機械学習による判定の誤り率を計算して、予め設定した閾値と比較して自動的に所定のキーワードの「一時的」な流行の終了状態を判断できる。 According to such a configuration of the present invention, the spam blog determination apparatus receives, for example, a predetermined keyword registration specification for processing a predetermined keyword that is out of fashion and includes a predetermined keyword. And output the result. Therefore, the spam blog determination apparatus can determine a spam blog including a predetermined keyword only by allowing the administrator to specify and register a predetermined keyword. Further, the spam blog determination device removes the predetermined keyword from the processing target by receiving a deletion designation for excluding the predetermined keyword from the administrator who viewed the determination result output by the spam determination result output unit. . Therefore, the spam blog determination device can appropriately determine a spam blog that includes a predetermined keyword that has become obsolete. Further, according to the present invention, the spam blog determination device accepts correctness / incorrectness determination information, which is information indicating the correctness / incorrectness determination of the result of the machine learning determination for the blog post that outputs the determination result, and associates it with the blog post. An error rate of determination by machine learning is calculated for each predetermined keyword based on the correctness / incorrectness determination information stored in a predetermined period, and when the error rate is equal to or higher than a predetermined threshold, the prevalence of the predetermined keyword is increased. Judge that it is over. Therefore, the administrator who sees the determination result output by the spam determination result output means makes a correct / incorrect determination on the result of the machine learning determination on the blog article and inputs the correct / incorrect determination information, so that the spam blog determination apparatus is predetermined. The error rate of determination by machine learning is calculated for each keyword, and the “temporary” fashion end state of a predetermined keyword can be automatically determined by comparing with a preset threshold value.
(2) 所定のキーワードの登録指定を受け付けたことに応じて、前記所定のキーワードを所定キーワード記憶手段に記憶する所定キーワード記憶制御手段と、判定対象のブログ記事を受け付けたことに応じて、前記所定キーワード記憶手段に記憶した前記所定のキーワードを素性として用いて前記ブログ記事がスパムブログであるか否かを機械学習により判定する機械学習手段と、前記機械学習手段による判定対象の前記ブログ記事のうち、前記所定キーワード記憶手段に記憶された前記所定のキーワードを含むブログ記事と、スパムブログであるか否かの前記機械学習による判定の結果とを対応付けて出力するスパム判定結果出力手段と、前記所定のキーワードの削除指定を受け付けたことに応じて、前記所定キーワード記憶手段に記憶された前記所定のキーワードを削除する調整戻し手段と、所定期間において前記所定のキーワードを含む前記判定対象の前記ブログ記事のうち、前記機械学習手段がスパムブログであると判定した前記ブログ記事の割合が所定の閾値以下となった場合に、前記所定のキーワードについて流行が終了したと判定する第2流行終了判定手段と、を備えるスパムブログ判定装置。 ( 2 ) In response to receiving registration designation of a predetermined keyword, predetermined keyword storage control means for storing the predetermined keyword in a predetermined keyword storage means, and in response to receiving a determination target blog article, Machine learning means for determining whether or not the blog article is a spam blog using the predetermined keyword stored in the predetermined keyword storage means as a feature, and the blog article to be determined by the machine learning means Among them, a spam determination result output means for outputting a blog article including the predetermined keyword stored in the predetermined keyword storage means and a result of the determination by the machine learning as to whether or not it is a spam blog, Stored in the predetermined keyword storage means in response to receiving the deletion specification of the predetermined keyword And adjusting the return means for deleting the predetermined keyword, among the posts of the determination target containing the predetermined keyword in a predetermined period, the proportion of the posts of the machine learning unit is determined to be spam blog There spam blog determination device provided in the case of equal to or less than a predetermined threshold value, and a second outbreak end determining unit determines that the epidemic has been completed for the predetermined keyword.
本発明のこのような構成によれば、スパムブログ判定装置は、所定期間において所定のキーワードを含む判定対象のブログ記事のうち、機械学習手段がスパムブログであると判定したブログ記事の割合が所定の閾値以下となった場合に、所定のキーワードについて流行が終了したと判定する。よって、スパムブログ判定装置は、所定の基準によって所定のキーワードの「一時的」な流行の終了状態を判断できる。 According to such a configuration of the present invention, the spam blog determination device has a predetermined ratio of blog articles that the machine learning means determines to be spam blogs among the blog articles to be determined that include a predetermined keyword in a predetermined period. When the threshold is less than or equal to the threshold, it is determined that the trend has ended for the predetermined keyword. Therefore, the spam blog determination apparatus can determine the “temporary” trend end state of a predetermined keyword according to a predetermined criterion.
(3) 前記調整戻し手段は、前記第1流行終了判定手段又は前記第2流行終了判定手段により流行が終了したと判定された前記所定のキーワードを、前記所定キーワード記憶手段から削除する、(1)又は(2)に記載のスパムブログ判定装置。 (3) the adjusting the return means, the predetermined keyword epidemic is determined to have ended by the first outbreak termination judgment means or the second outbreak end determining unit is deleted from the predetermined keyword storage unit, (1 ) Or the spam blog determination device according to ( 2 ).
本発明のこのような構成によれば、スパムブログ判定装置は、流行が終了したと判定された所定のキーワードを、所定キーワード記憶手段から削除するので、所定キーワード記憶手段のメンテナンスを自動的に行うことができる。 According to such a configuration of the present invention, the spam blog determination device deletes the predetermined keyword determined to be end of the fashion from the predetermined keyword storage unit, so that the predetermined keyword storage unit is automatically maintained. be able to.
(4) コンピュータが、所定のキーワードの登録指定を受け付けたことに応じて、前記所定のキーワードを所定キーワード記憶手段に記憶する所定キーワード記憶ステップと、コンピュータが、判定対象のブログ記事を受け付けたことに応じて、前記所定キーワード記憶手段に記憶した前記所定のキーワードを素性として用いて前記ブログ記事がスパムブログであるか否かを機械学習により判定する機械学習ステップと、コンピュータが、スパムブログであるか否かの判定対象の前記ブログ記事のうち、前記所定キーワード記憶手段に記憶された前記所定のキーワードを含むブログ記事と、スパムブログであるか否かの前記機械学習による判定の結果とを対応付けて出力するスパム判定結果出力ステップと、コンピュータが、前記所定のキーワードの削除指定を受け付けたことに応じて、前記所定キーワード記憶手段に記憶された前記所定のキーワードを削除する調整戻しステップと、コンピュータが、前記スパム判定結果出力ステップで前記機械学習による判定の結果を出力した前記ブログ記事について、前記機械学習による判定の結果の正誤判断を示す情報である正誤判断情報を受け付けたことに応じて、前記正誤判断情報を前記ブログ記事に対応付けて記憶する正誤判断情報記憶ステップと、コンピュータが、所定期間において前記正誤判断情報記憶ステップで記憶した前記正誤判断情報に基づいて前記所定のキーワードごとに前記機械学習による判定の誤り率を算出し、前記誤り率が所定の閾値以上となった前記所定のキーワードについて流行が終わったと判定する第1流行終了判定ステップと、を含むスパムブログ判定方法。
(5) コンピュータが、所定のキーワードの登録指定を受け付けたことに応じて、前記所定のキーワードを所定キーワード記憶手段に記憶する所定キーワード記憶ステップと、コンピュータが、判定対象のブログ記事を受け付けたことに応じて、前記所定キーワード記憶手段に記憶した前記所定のキーワードを素性として用いて前記ブログ記事がスパムブログであるか否かを機械学習により判定する機械学習ステップと、コンピュータが、スパムブログであるか否かの判定対象の前記ブログ記事のうち、前記所定キーワード記憶手段に記憶された前記所定のキーワードを含むブログ記事と、スパムブログであるか否かの前記機械学習による判定の結果とを対応付けて出力するスパム判定結果出力ステップと、コンピュータが、前記所定のキーワードの削除指定を受け付けたことに応じて、前記所定キーワード記憶手段に記憶された前記所定のキーワードを削除する調整戻しステップと、コンピュータが、所定期間において前記所定のキーワードを含む前記判定対象の前記ブログ記事のうち、前記機械学習ステップでスパムブログであると判定した前記ブログ記事の割合が所定の閾値以下となった場合に、前記所定のキーワードについて流行が終了したと判定する第2流行終了判定ステップと、を含むスパムブログ判定方法。
( 4 ) A predetermined keyword storage step of storing the predetermined keyword in the predetermined keyword storage means in response to the computer receiving registration designation of the predetermined keyword, and the computer has received the blog article to be determined And a machine learning step for determining whether or not the blog article is a spam blog by using the predetermined keyword stored in the predetermined keyword storage means as a feature, and the computer is a spam blog. Corresponding between the blog article including the predetermined keyword stored in the predetermined keyword storage unit and the result of the determination by the machine learning whether the blog article is a spam blog among the blog articles to be determined whether or not and spam determination result output step of attaching output, the computer, the predetermined key In response to reception of the deletion specified word, the a predetermined keyword adjusted return step to remove the predetermined keyword stored in the storage unit, the computer, the determination by the machine learning in the spam analysis result output step results In response to accepting correct / incorrect determination information, which is information indicating the correct / incorrect determination of the determination result by the machine learning, the correct / incorrect determination that stores the correct / incorrect determination information in association with the blog article. An information storage step; and a computer calculates an error rate of determination by the machine learning for each of the predetermined keywords based on the correctness / incorrectness determination information stored in the correctness / incorrectness determination information storage step in a predetermined period, and the error rate is predetermined First to determine that the trend has ended for the predetermined keyword that is equal to or greater than the threshold of Spam blog determination method, including, and end-of-line determination step.
(5) A predetermined keyword storage step of storing the predetermined keyword in the predetermined keyword storage means in response to the computer receiving registration designation of the predetermined keyword, and the computer has received the blog article to be determined And a machine learning step for determining whether or not the blog article is a spam blog by using the predetermined keyword stored in the predetermined keyword storage means as a feature, and the computer is a spam blog. Corresponding between the blog article including the predetermined keyword stored in the predetermined keyword storage unit and the result of the determination by the machine learning whether the blog article is a spam blog among the blog articles to be determined whether or not And a spam determination result output step for outputting, and the computer outputs the predetermined key An adjustment return step of deleting the predetermined keyword stored in the predetermined keyword storage means in response to accepting a word deletion designation; and a computer including the predetermined keyword in the predetermined period The second trend end determination that determines that the trend has ended for the predetermined keyword when the ratio of the blog articles determined to be spam blogs in the machine learning step is equal to or less than a predetermined threshold. And a spam blog determination method including steps.
本発明によれば、管理者による作業を容易にしてスパムブログを判定するスパムブログ判定装置及び方法を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the spam blog determination apparatus and method which determine a spam blog easily by the operation | work by an administrator can be provided.
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。 DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. This is merely an example, and the technical scope of the present invention is not limited to this.
(第1実施形態)
[スパムブログ判定システム100の全体構成及びスパムブログ判定装置1の機能構成]
図1は、第1実施形態に係るスパムブログ判定システム100の全体構成及びスパムブログ判定装置1の機能構成を示す図である。図2は、第1実施形態に係るスパムブログ判定装置1の記憶部20に記憶された各種データの例を示す図である。図3は、第1実施形態に係るスパムブログ判定装置1の機械学習による判定結果を説明するための図である。
(First embodiment)
[Overall Configuration of Spam
FIG. 1 is a diagram showing an overall configuration of a spam
図1に示すように、スパムブログ判定システム100は、スパムブログ判定装置1と、ブログサーバ3と、管理端末5と、通信ネットワーク9とにより構成される。
As shown in FIG. 1, the spam
スパムブログ判定装置1は、管理端末5から受け付けた所定キーワード(所定のキーワード)を記憶し、記憶した所定キーワードを素性として用いて、ブログサーバ3から受け付けたブログ記事がスパムブログであるか否かを機械学習により判定して、判定結果を管理端末5に対して出力する装置である。また、スパムブログ判定装置1は、管理端末5から受け付けた所定キーワードを、記憶されたキーワードから削除することで、スパムブログであるか否かの機械学習による判定処理で用いる素性から外す装置である。スパムブログ判定装置1は、制御部10と、記憶部20とを備える。
The spam
制御部10は、所定キーワード受付手段11と、所定キーワード記憶制御手段12と、ブログ記事受付手段13と、機械学習手段14と、スパム判定結果出力手段15と、調整戻し手段17とを備える。
The
所定キーワード受付手段11は、管理端末5から送信された、所定キーワードの登録要求を受け付ける制御部である。所定キーワードとは、流行り廃りのあるキーワードであって、スパムブログの対象になりやすいキーワードをいう。流行り廃りのあるキーワードは、「恒常的」とは対照であって、「一時的」の継続期間が予測できない。スパムブログとは、例えば、一般的に話題になっているワードを使用した意味のないブログ記事であって、あるWebページに対してリンクを張ることで、そのWebページのランキングを上位にするために用いられるものをいう。そこで、スパムブログに多く用いられている、一般的に話題になっているワードであって流行り廃りのあるワードを、所定キーワードとして管理端末5が送信することで、所定キーワード受付手段11は、所定キーワードを受け付ける。
The predetermined keyword receiving means 11 is a control unit that receives a predetermined keyword registration request transmitted from the
所定キーワード記憶制御手段12は、管理端末5から受け付けた所定キーワードを、所定キーワードDB21(DB:データベース)(所定キーワード記憶手段)に記憶させる制御部である。
The predetermined keyword
図2(a)に一例を示す所定キーワードDB21は、管理端末5から受け付けた所定キーワードを記憶するDBである。所定キーワードDB21は、通し番号21aと、所定キーワード21bと、登録日21cと、タイプ21dとの各項目からなる。
The
通し番号21aは、管理端末5から受け付けた順番に、制御部10によって振られた1からの連番を格納する。所定キーワード21bは、管理端末5から受け付けた所定キーワードを格納する。登録日21cは、管理端末5から所定キーワードを受け付けた日付を格納する。タイプ21dは、所定キーワードのカテゴリを格納する。タイプ21dに格納するタイプは、管理端末5から所定キーワードと共に受け付けてもよい。
The
図1に戻り、ブログ記事受付手段13は、ブログサーバ3からブログ記事を受け付ける制御部である。ここで、ブログ記事とは、ブログを構成する1つ1つの記事をいう。ブログ記事受付手段13は、ブログサーバ3においてブログ記事が更新された都度、ブログサーバ3から送信されたブログ記事を受け付けてもよいし、スパムブログ判定装置1からブログサーバ3に対して、例えば、毎日決まった時刻にブログ記事の送信を依頼することで、新たに更新されたブログ記事をブログサーバ3から受け付けてもよい。
Returning to FIG. 1, the blog article receiving means 13 is a control unit that receives a blog article from the
機械学習手段14は、例えば、SVM(Support Vector Machine)エンジン22を用いた学習モデルにより、ブログ記事受付手段13が受け付けたブログ記事がスパムブログであるか否かを判定する制御部である。その仕組みとして、機械学習手段14は、予めスパムブログのブログ記事と、スパムブログではないブログ記事(通常のブログ記事)とを学習し、統計的処理を実施し、スパムブログのブログ記事と、通常のブログ記事との区別の基準を示す基準データを生成しておく。そして、機械学習手段14のSVMエンジン22を用いた判定は、2つのクラス(スパムブログのブログ記事の集合及び通常のブログ記事の集合)のいずれかに属する訓練事例から、未知の事例であるブログ記事がいずれかのクラスに属するかを判定するものである。ここで、機械学習手段14は、所定キーワードDB21に記憶された所定キーワードを素性として使用することで、ブログ記事に所定キーワードを含む場合には、そのブログ記事がスパムブログであるか否かを判定する。
The
ここで、SVMエンジン22を用いた学習モデルでの学習結果30について、図3を用いて説明する。SVMエンジン22を用いた機械学習手段14は、スパムブログか否かのラベルが未知の事例であるブログ記事に対して、ラベルを推定する分類器である。スパムブログ等を事例にした上で、スパムブログのブログ記事から生成された事例と、通常のブログ記事から生成された事例との2つの識別面31,32同士の距離(マージン)が特徴空間上で最大になるような識別面31,32を算出する。このように、機械学習手段14は、スパムブログ等を事例という形に変換した上で、学習するようになっている。
Here, the learning
機械学習手段14は、識別面31,32に最も近接するスパムブログから生成された事例と、通常のブログ記事から生成された事例とを各々サポートベクタ33,34として、ラベルが未知の事例の分類に利用する。機械学習手段14は、スパムブログから生成された事例と、通常のブログ記事から生成された事例とを事例にした上で、統計処理をすることによって、スパムブログから生成された事例群と、通常のブログ記事から生成された事例群とを区別するための識別データである識別面を生成する。 The machine learning means 14 categorizes cases where the labels are unknown, using the cases generated from the spam blog closest to the identification surfaces 31 and 32 and the cases generated from the normal blog articles as support vectors 33 and 34, respectively. To use. The machine learning means 14 performs a statistical process on a case generated from a spam blog and a case generated from a normal blog article as a case. An identification surface, which is identification data for distinguishing the case group generated from the blog article, is generated.
そして、機械学習手段14は、スパムブログか否かのラベルが未知の事例であるブログ記事に対して、学習結果30を用いて、どの位置に該当するものであるかを、所定キーワードを素性として使用することで分類する。素性とは、入力されたデータを特徴付けるものである。このように、スパムブログ判定装置1は、既知のモデルであるSVMエンジン22を使用して機械学習による判定をすることができる。そして、スパムブログ判定装置1は、機械学習手段14を用いることで、機械学習自体をやり直すことなく、素性をメンテナンスするだけで対応できる。よって、スパムブログ判定装置1は、スパムブログであるか否かの判定に用いることができる。
Then, the machine learning means 14 uses a
図1に戻り、スパム判定結果出力手段15は、機械学習手段14による判定結果として、所定キーワードを含むブログ記事とその判定結果とを、管理端末5に対して出力する制御部である。
Returning to FIG. 1, the spam determination
調整戻し手段17は、管理端末5から送信された所定キーワードの削除要求を受け付けることで、所定キーワードDB21から受け付けた所定キーワードを削除する制御部である。
The
記憶部20は、所定キーワードDB21と、SVMエンジン22と、判定結果テーブル23とを備える。
The
所定キーワードDB21及びSVMエンジン22は、上述のとおりである。判定結果テーブル23は、機械学習手段14による判定結果であって、スパム判定結果出力手段15が管理端末5に対して送信する、所定キーワードを含むブログ記事とその判定結果とを記憶したデータテーブルである。
The
図2(b)に一例を示す判定結果テーブル23は、所定キーワード23aと、ブログ記事23bと、スパムブログ判定23cとの各項目を有する。所定キーワード23aは、ブログ記事に含まれる所定キーワードを格納する。ブログ記事23bは、ブログ記事を特定するブログID(ID:identifier)を格納する。ブログ記事23bは、ブログ記事そのものを格納してもよい。スパムブログ判定23cは、機械学習手段14によるスパムブログであるか否かの判定結果のコードを格納する。ここで、スパムブログ判定23cが「1」の場合は、機械学習手段14によってスパムブログであると判定された場合であり、スパムブログ判定23cが「0」の場合は、機械学習手段14によってスパムブログではないと判定された場合である。
The determination result table 23 shown as an example in FIG. 2B includes items of a
第1実施形態のスパムブログ判定装置1のハードウェアは、一般的なコンピュータによって構成してもよい。一般的なコンピュータは、例えば、制御部10として、中央処理装置(CPU)を備える他、記憶部20として、メモリ(RAM、ROM)、ハードディスク(HDD)及び光ディスク(CD、DVD等)を、ネットワーク通信装置として、各種有線及び無線LAN装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス(マウス、トラッキングボール等)を適宜備え、これらはバスラインにより接続されている。このような一般的なコンピュータにおいて、CPUは、スパムブログ判定装置1を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
The hardware of the spam
ブログサーバ3は、ブログ記事を記憶するサーバであり、ブログ記事を記憶する記憶部と、ブログサーバ3の全体を制御する制御部とを備える。ブログサーバ3のハードウェアは、一般的なコンピュータによって構成してよい。
The
管理端末5は、例えば、パーソナルコンピュータ(PC)や、携帯電話機等の携帯端末である。管理端末5は、通信機能を有し、スパムブログ判定装置1に対してデータの送受信が可能な端末であれば、どのような装置でもよい。
The
なお、第1実施形態では、スパムブログ判定装置1と、ブログサーバ3とを別々の装置として説明しているが、スパムブログ判定装置1がブログサーバ3の機能をも有して、1台のコンピュータによって実現してもよい。
In the first embodiment, the spam
通信ネットワーク9は、スパムブログ判定装置1と、ブログサーバ3と、管理端末5との間で通信を行うための、例えば、インターネット等の通信回線である。通信ネットワーク9は、有線であってもよいし、その一部又は全部が無線であってもよい。
The
[スパムブログ判定装置1の処理]
次に、スパムブログ判定装置1での処理について説明する。最初に、所定キーワードの反映について説明する。図4は、第1実施形態に係るスパムブログ判定装置1の所定キーワード反映処理のフローチャートである。この処理は、管理端末5から所定キーワードの指定を受け付ける都度実行される。
[Processing of Spam Blog Determination Device 1]
Next, processing in the spam
S1:制御部10(所定キーワード受付手段11)は、管理端末5から所定キーワードの登録の指定を受け付けたか否かを判断する。所定キーワードの登録の指定を受け付けた場合(S1:YES)には、制御部10は、処理をS2に移す。他方、所定キーワードの登録の指定を受け付けていない場合(S1:NO)には、制御部10は、処理をS3に移す。
S1: The control unit 10 (predetermined keyword accepting means 11) determines whether or not designation of registration of a predetermined keyword has been accepted from the
S2:制御部10(所定キーワード記憶制御手段12)は、S1で受け付けた所定キーワードを、所定キーワードDB21に記憶させる。
S2: The control unit 10 (predetermined keyword storage control means 12) stores the predetermined keyword received in S1 in the
S3:制御部10(調整戻し手段17)は、管理端末5から所定キーワードの削除の指定を受け付けたか否かを判断する。所定キーワードの削除の指定を受け付けた場合(S3:YES)には、制御部10は、処理をS4に移す。他方、所定キーワードの削除の指定を受け付けていない場合(S3:NO)には、制御部10は、本処理を終了する。
S3: The control unit 10 (adjustment return means 17) determines whether or not the designation of deletion of the predetermined keyword has been received from the
S4:制御部10(調整戻し手段17)は、S3で受け付けた所定キーワードを、所定キーワードDB21から削除する。その後、制御部10は、本処理を終了する。
S4: The control unit 10 (adjustment return means 17) deletes the predetermined keyword received in S3 from the
このように、スパムブログ判定装置1は、管理端末5から流行り廃りのある所定キーワードの登録指定を受け付けたことで、所定キーワードを含むスパムブログの機械学習による判定処理で用いる素性として、所定キーワードDB21に所定キーワードを登録できる。また、スパムブログ判定装置1は、管理端末5から所定キーワードの削除指定を受け付けたことで、所定キーワードを機械学習による判定処理で用いる素性から外すことができる。なお、管理端末5のユーザである管理者は、後述のスパム判定結果出力手段15の出力する判定結果を見て、スパムブログではない、と判定されたブログに含まれる所定キーワードを素性から外すタイミングを検討することができる。
As described above, the spam
次に、ブログ記事のスパム判定について説明する。この処理は、ブログサーバ3からブログ記事を受け付ける都度実行される。図5は、第1実施形態に係るスパムブログ判定装置1のスパム判定処理のフローチャートである。
Next, spam determination for blog articles will be described. This process is executed every time a blog article is received from the
S11:制御部10(ブログ記事受付手段13)は、ブログサーバ3からブログ記事を受け付ける。
S <b> 11: The control unit 10 (blog article accepting unit 13) accepts a blog article from the
S12:制御部10(機械学習手段14)は、S11において受け付けたブログ記事に対して機械学習処理を行う。機械学習処理とは、例えば、SVMエンジン22を用いた学習モデルにより、所定キーワードDB21に記憶された所定キーワードを素性として使用して、S11で受け付けたブログ記事がスパムブログであるか否かを判定する処理をいう。
S12: The control unit 10 (machine learning means 14) performs machine learning processing on the blog article received in S11. The machine learning process is, for example, using a learning model using the
S13:制御部10(スパム判定結果出力手段15)は、S12において実行した機械学習処理の結果(スパム判定結果)を管理端末5に対して出力する。また、制御部10は、スパム判定結果を判定結果テーブル23に記憶する。その後、制御部10は、本処理を終了する。
S13: The control unit 10 (spam determination result output means 15) outputs the result of the machine learning process (spam determination result) executed in S12 to the
なお、制御部10は、図4で説明した所定キーワード反映処理と、図5で説明したスパム判定処理とを並行して行ってもよい。
Note that the
このように、スパムブログ判定装置1は、ブログサーバ3からブログ記事を受け付けたことで、所定キーワードを含むスパムブログの判定を行い、結果を出力する。よって、スパムブログ判定装置1は、管理者に予め所定キーワードの指定を行わせるだけで、所定キーワードを含むスパムブログを判定することができる。また、スパムブログ判定装置1は、管理端末5からの指示によって所定キーワードを登録及び削除した所定キーワードDB21を用いることで、流行り廃りのある所定キーワードを含むスパムブログの判定を適切に行うことができる。
As described above, the spam
(第2実施形態)
第1実施形態では、管理端末から受け付けた所定キーワードを、記憶されたキーワードから削除することで、スパムブログであるか否かの機械学習による判定処理で用いる素性から外すものであった。第2実施形態では、所定の条件を満たす所定キーワードを自動的に削除することで、スパムブログであるか否かの機械学習による判定処理で用いる素性から外すものを説明する。なお、以降の説明において、上述した第1実施形態と同様の機能を果たす部分には、同一の符号又は末尾に同一の符号を付して、重複する説明を適宜省略する。
(Second Embodiment)
In the first embodiment, the predetermined keyword received from the management terminal is deleted from the stored keyword, thereby removing it from the feature used in the determination process by machine learning as to whether it is a spam blog. In the second embodiment, a description will be given of a case where a predetermined keyword that satisfies a predetermined condition is automatically deleted, so that it is excluded from the feature used in the determination process by machine learning as to whether or not it is a spam blog. In the following description, parts that perform the same functions as those in the first embodiment described above are given the same reference numerals or the same reference numerals at the end, and redundant descriptions are omitted as appropriate.
[スパムブログ判定システム200の全体構成及びスパムブログ判定装置201の機能構成]
図6は、第2実施形態に係るスパムブログ判定システム200の全体構成及びスパムブログ判定装置201の機能構成を示す図である。
[Overall Configuration of Spam
FIG. 6 is a diagram showing the overall configuration of the spam
スパムブログ判定システム200は、スパムブログ判定装置201と、ブログサーバ3と、管理端末5と、通信ネットワーク9とにより構成される。
The spam
スパムブログ判定装置201は、制御部210と、記憶部20とを備える。制御部210は、所定キーワード受付手段11と、所定キーワード記憶制御手段12と、ブログ記事受付手段13と、機械学習手段14と、スパム判定結果出力手段15との他に、第2流行終了判定手段216と、調整戻し手段217とを備える。
The spam
第2流行終了判定手段216は、所定期間(例えば、1週間)において、所定キーワードを含む判定対象のブログ記事のうち、機械学習手段14によりスパムブログであると判定されたブログ記事の割合が所定の閾値(例えば、20%)以下になった場合に、所定キーワードの流行が終了したと判定する制御部である。 The second fashion end determination means 216 has a predetermined ratio (for example, one week) of the blog articles determined to be spam blogs by the machine learning means 14 among the blog articles to be determined including the predetermined keyword. This is a control unit that determines that the trend of a predetermined keyword has ended when the threshold value (for example, 20%) or less is reached.
調整戻し手段217は、第2流行終了判定手段216により流行が終了したと判定された所定キーワードを、所定キーワードDB21から削除する制御部である。
The
[スパムブログ判定装置201の処理]
次に、スパムブログ判定装置201での処理について説明する。図7は、第2実施形態に係るスパムブログ判定装置201の所定キーワード削除処理のフローチャートである。なお、所定キーワードの登録については、第1実施形態のS1〜S2(図4)の処理と同様であり、スパム判定については、第1実施形態のS11〜S13(図5)の処理と同様である。
[Processing of Spam Blog Determination Device 201]
Next, processing in the spam
S21:制御部210(第2流行終了判定手段216)は、所定期間において、所定キーワードを含む判定対象のブログ記事のうち、機械学習手段14によりスパムブログであると判定されたブログ記事の割合が所定の閾値以下になっているか否かを判断する。所定の閾値以下になっている場合(S21:YES)には、制御部210は、処理をS22に移す。他方、所定の閾値以下になっていない場合(S21:NO)には、制御部210は、本処理を終了する。
S21: The control unit 210 (second fashion end determination unit 216) determines the ratio of the blog articles determined to be spam blogs by the
S22:制御部210(調整戻し手段217)は、S21で所定の閾値以下になっていると判定された所定キーワードを、所定キーワードDB21から削除する。その後、制御部210は、本処理を終了する。
S22: The control unit 210 (adjustment return means 217) deletes the predetermined keyword determined to be equal to or less than the predetermined threshold in S21 from the
このように、スパムブログ判定装置201は、所定期間において所定キーワードを含む判定対象のブログ記事のうち、機械学習手段14がスパムブログであると判定したブログ記事の割合が所定の閾値以下となった場合に、所定キーワードについて流行が終了したと判定する。よって、スパムブログ判定装置201は、所定の基準によって所定キーワードの「一時的」な流行の終了状態を判断できる。
As described above, the spam
そして、スパムブログ判定装置201は、流行が終了したと判定された所定キーワードを、所定キーワードDB21から削除するので、所定キーワードDB21のメンテナンスを自動的に行うことができる。
And since the spam
(第3実施形態)
第3実施形態では、スパムブログ判定装置が管理端末から機械学習による判定の結果の正誤判断を受け付けて、誤り率に応じて所定の条件を満たす所定キーワードを自動的に削除して、スパムブログであるか否かの機械学習による判定処理で用いる素性から外すものを説明する。
(Third embodiment)
In the third embodiment, the spam blog determination apparatus accepts a correct / incorrect determination of the result of determination by machine learning from the management terminal, automatically deletes a predetermined keyword satisfying a predetermined condition according to the error rate, What is excluded from the features used in the determination process based on whether or not there is machine learning will be described.
[スパムブログ判定システム300の全体構成及びスパムブログ判定装置301の機能構成]
図8は、第3実施形態に係るスパムブログ判定システム300の全体構成及びスパムブログ判定装置301の機能構成を示す図である。
[Overall Configuration of Spam
FIG. 8 is a diagram illustrating the overall configuration of the spam
スパムブログ判定システム300は、スパムブログ判定装置301と、ブログサーバ3と、管理端末5と、通信ネットワーク9とにより構成される。
The spam
スパムブログ判定装置301は、制御部310と、記憶部320とを備える。制御部310は、所定キーワード受付手段11と、所定キーワード記憶制御手段12と、ブログ記事受付手段13と、機械学習手段14と、スパム判定結果出力手段15と、調整戻し手段217との他に、正誤判断情報記憶制御手段318と、第1流行終了判定手段319とを備える。
The spam
正誤判断情報記憶制御手段318は、スパムブログである、又はスパムブログではないと判定された機械学習の結果に対しての正誤判断を示す正誤判断情報を管理端末5から受け付けて、正誤判断情報DB324に記憶させる制御部である。受け付ける正誤判断情報は、所定キーワードを含むブログ記事に対応付けて、スパムブログであるとの判定に対して正しいか否か、及びスパムブログではないとの判定に対して正しいか否か、の計4とおりの判断がある。また、管理端末5から受け付ける正誤判断情報は、管理者が入力を行うものである。そして、管理者は、スパム判定結果出力手段15が出力した全ての判定結果に対して正誤判定情報の入力を行う必要はなく、数件に1件のサンプリングであってもよいし、所定キーワードごとに絞り込んで行ってもよい。
The right / wrong judgment information storage control means 318 receives right / wrong judgment information indicating the right / wrong judgment with respect to the result of machine learning determined to be a spam blog or not a spam blog from the
第1流行終了判定手段319は、所定期間(例えば、1週間)において、正誤判断情報DB324に記憶された正誤判断情報に基づいて、所定キーワードごとに誤り率を算出し、その誤り率が所定の閾値(例えば、70%)以上になった場合に、所定キーワードの流行が終了したと判定する制御部である。
The first fashion
正誤判断情報DB324は、正誤判断情報記憶制御手段318が受け付けた機械学習による判定の結果に対する正誤を、所定キーワードを含むブログ記事に対応付けて記憶する。
The correctness / incorrectness
[スパムブログ判定装置301の処理]
次に、スパムブログ判定装置301での処理について説明する。図9は、第3実施形態に係るスパムブログ判定装置301の所定キーワード削除処理のフローチャートである。なお、所定キーワードの登録については、第1実施形態のS1〜S2(図4)の処理と同様であり、スパム判定については、第1実施形態のS11〜S13(図5)の処理と同様である。
[Processing of Spam Blog Determination Device 301]
Next, processing in the spam
S31:制御部310(正誤判断情報記憶制御手段318)は、管理端末5から正誤判断情報を受け付ける。
S32:制御部310(正誤判断情報記憶制御手段318)は、受け付けた正誤判断情報を正誤判断情報DB324に記憶させる。
S33:制御部310(第1流行終了判定手段319)は、所定期間において、正誤判断情報DB324に記憶された正誤判断情報に基づいて、所定キーワードごとに機械学習による判定の誤り率を算出する。
S34:制御部310(第1流行終了判定手段319)は、誤り率が所定の閾値以上になっているか否かを判断する。所定の閾値以上になっている場合(S34:YES)には、制御部310は、処理をS35に移す。他方、所定の閾値以上になっていない場合(S34:NO)には、制御部310は、本処理を終了する。
S31: The control unit 310 (correction determination information storage control unit 318) accepts correctness determination information from the
S32: The control unit 310 (correction determination information storage control unit 318) stores the received correctness determination information in the correctness
S33: The control unit 310 (first fashion end determination unit 319) calculates an error rate of determination by machine learning for each predetermined keyword based on the correctness determination information stored in the correctness
S34: The control unit 310 (first fashion end determination means 319) determines whether or not the error rate is equal to or higher than a predetermined threshold value. If it is equal to or greater than the predetermined threshold (S34: YES), the
S35:制御部310(調整戻し手段217)は、S34で所定の閾値以上になっていると判定された所定キーワードを、所定キーワードDB21から削除する。その後、制御部310は、本処理を終了する。
S35: The control unit 310 (adjustment returning means 217) deletes the predetermined keyword determined to be equal to or greater than the predetermined threshold in S34 from the
このように、スパムブログ判定装置301は、所定キーワードを含む判定対象のブログ記事のうち、判定の結果を出力したブログ記事についての機械学習の判定の結果に対する正誤判断情報を受け付けてブログ記事に対応付けて正誤判断情報DB324に記憶し、所定期間において記憶された正誤判断情報に基づいて所定キーワードごとに誤り率を算出し、誤り率が所定の閾値以上となった場合に、所定キーワードについて流行が終了したと判定する。よって、管理者が機械学習による判定の正誤を入力するだけで、スパムブログ判定装置301は、所定の基準によって所定キーワードの「一時的」な流行の終了状態を自動的に判断できる。
As described above, the spam
そして、スパムブログ判定装置301は、流行が終了したと判定された所定キーワードを、所定キーワードDB21から削除するので、所定キーワードDB21のメンテナンスを自動的に行うことができる。
And since the spam
(変形形態)
第1実施形態は、所定キーワードの所定キーワードDBからの削除を管理端末からの入力に応じて行い、第2及び第3実施形態では、所定キーワードの所定キーワードDBからの削除をスパムブログ判定装置が自動的に行うものとして示したが、これに限定されない。いずれの削除も行えるようにしてもよい。そのようにすることで、監視不要の所定キーワードを自動的に削除でき、しかも、管理者の操作によって削除できるので、便利である。
(Deformation)
In the first embodiment, deletion of a predetermined keyword from the predetermined keyword DB is performed according to an input from the management terminal. In the second and third embodiments, the spam blog determination device deletes the predetermined keyword from the predetermined keyword DB. Although shown as being performed automatically, it is not limited to this. Any deletion may be performed. By doing so, it is convenient because a predetermined keyword that does not need to be monitored can be automatically deleted and can be deleted by the operation of the administrator.
以上、本発明の実施形態について説明したが、本発明は、上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. The effects described in the embodiments of the present invention are only the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. is not.
1,201,301 スパムブログ判定装置
3 ブログサーバ
5 管理端末
10,210,310 制御部
11 所定キーワード受付手段
12 所定キーワード記憶制御手段
13 ブログ記事受付手段
14 機械学習手段
15 スパム判定結果出力手段
17,217 調整戻し手段
20,320 記憶部
21 所定キーワードDB
22 SVMエンジン
23 判定結果テーブル
100,200,300 スパムブログ判定システム
216 第2流行終了判定手段
318 正誤判断情報記憶制御手段
319 第1流行終了判定手段
324 正誤判断情報DB
1, 201, 301 Spam
22
Claims (5)
判定対象のブログ記事を受け付けたことに応じて、前記所定キーワード記憶手段に記憶した前記所定のキーワードを素性として用いて前記ブログ記事がスパムブログであるか否かを機械学習により判定する機械学習手段と、
前記機械学習手段による判定対象の前記ブログ記事のうち、前記所定キーワード記憶手段に記憶された前記所定のキーワードを含むブログ記事と、スパムブログであるか否かの前記機械学習による判定の結果とを対応付けて出力するスパム判定結果出力手段と、
前記所定のキーワードの削除指定を受け付けたことに応じて、前記所定キーワード記憶手段に記憶された前記所定のキーワードを削除する調整戻し手段と、
前記スパム判定結果出力手段が前記機械学習による判定の結果を出力した前記ブログ記事について、前記機械学習による判定の結果の正誤判断を示す情報である正誤判断情報を受け付けたことに応じて、前記正誤判断情報を前記ブログ記事に対応付けて記憶する正誤判断情報記憶手段と、
所定期間において前記正誤判断情報記憶手段が記憶した前記正誤判断情報に基づいて前記所定のキーワードごとに前記機械学習による判定の誤り率を算出し、前記誤り率が所定の閾値以上となった前記所定のキーワードについて流行が終わったと判定する第1流行終了判定手段と、
を備えるスパムブログ判定装置。 Predetermined keyword storage control means for storing the predetermined keyword in the predetermined keyword storage means in response to receiving registration designation of the predetermined keyword;
Machine learning means for determining whether or not the blog article is a spam blog by machine learning using the predetermined keyword stored in the predetermined keyword storage means as a feature in response to receiving the determination target blog article When,
Among the blog articles to be determined by the machine learning means, a blog article including the predetermined keyword stored in the predetermined keyword storage means, and a result of the determination by the machine learning as to whether or not it is a spam blog. A spam determination result output means for outputting in association with each other;
An adjustment return unit for deleting the predetermined keyword stored in the predetermined keyword storage unit in response to receiving the deletion specification of the predetermined keyword;
In response to accepting the correctness / incorrectness determination information, which is information indicating the correctness / incorrectness of the determination result by the machine learning, for the blog article for which the spam determination result output means has output the determination result by the machine learning, Correctness determination information storage means for storing determination information in association with the blog article;
An error rate for determination by the machine learning is calculated for each of the predetermined keywords based on the correctness / incorrectness determination information stored in the correctness / incorrectness determination information storage unit in a predetermined period, and the predetermined error rate is equal to or greater than a predetermined threshold. A first fashion end judging means for judging that the fashion has ended for the keyword;
A spam blog determination device comprising:
判定対象のブログ記事を受け付けたことに応じて、前記所定キーワード記憶手段に記憶した前記所定のキーワードを素性として用いて前記ブログ記事がスパムブログであるか否かを機械学習により判定する機械学習手段と、
前記機械学習手段による判定対象の前記ブログ記事のうち、前記所定キーワード記憶手段に記憶された前記所定のキーワードを含むブログ記事と、スパムブログであるか否かの前記機械学習による判定の結果とを対応付けて出力するスパム判定結果出力手段と、
前記所定のキーワードの削除指定を受け付けたことに応じて、前記所定キーワード記憶手段に記憶された前記所定のキーワードを削除する調整戻し手段と、
所定期間において前記所定のキーワードを含む前記判定対象の前記ブログ記事のうち、前記機械学習手段がスパムブログであると判定した前記ブログ記事の割合が所定の閾値以下となった場合に、前記所定のキーワードについて流行が終了したと判定する第2流行終了判定手段と、
を備えるスパムブログ判定装置。 Predetermined keyword storage control means for storing the predetermined keyword in the predetermined keyword storage means in response to receiving registration designation of the predetermined keyword;
Machine learning means for determining whether or not the blog article is a spam blog by machine learning using the predetermined keyword stored in the predetermined keyword storage means as a feature in response to receiving the determination target blog article When,
Among the blog articles to be determined by the machine learning means, a blog article including the predetermined keyword stored in the predetermined keyword storage means, and a result of the determination by the machine learning as to whether or not it is a spam blog. A spam determination result output means for outputting in association with each other;
An adjustment return unit for deleting the predetermined keyword stored in the predetermined keyword storage unit in response to receiving the deletion specification of the predetermined keyword;
Among the blog articles to be determined that include the predetermined keyword in a predetermined period, the ratio of the blog articles that the machine learning means determines to be spam blogs is equal to or lower than a predetermined threshold value. A second fashion end determination means for determining that the fashion has ended for the keyword;
A spam blog determination device comprising:
請求項1又は請求項2に記載のスパムブログ判定装置。 The adjustment return means deletes the predetermined keyword determined to have ended by the first trend end determination means or the second trend end determination means from the predetermined keyword storage means;
The spam blog determination apparatus according to claim 1 or 2 .
コンピュータが、判定対象のブログ記事を受け付けたことに応じて、前記所定キーワード記憶手段に記憶した前記所定のキーワードを素性として用いて前記ブログ記事がスパムブログであるか否かを機械学習により判定する機械学習ステップと、
コンピュータが、スパムブログであるか否かの判定対象の前記ブログ記事のうち、前記所定キーワード記憶手段に記憶された前記所定のキーワードを含むブログ記事と、スパムブログであるか否かの前記機械学習による判定の結果とを対応付けて出力するスパム判定結果出力ステップと、
コンピュータが、前記所定のキーワードの削除指定を受け付けたことに応じて、前記所定キーワード記憶手段に記憶された前記所定のキーワードを削除する調整戻しステップと、
コンピュータが、前記スパム判定結果出力ステップで前記機械学習による判定の結果を出力した前記ブログ記事について、前記機械学習による判定の結果の正誤判断を示す情報である正誤判断情報を受け付けたことに応じて、前記正誤判断情報を前記ブログ記事に対応付けて記憶する正誤判断情報記憶ステップと、
コンピュータが、所定期間において前記正誤判断情報記憶ステップで記憶した前記正誤判断情報に基づいて前記所定のキーワードごとに前記機械学習による判定の誤り率を算出し、前記誤り率が所定の閾値以上となった前記所定のキーワードについて流行が終わったと判定する第1流行終了判定ステップと、
を含むスパムブログ判定方法。 A predetermined keyword storage step for storing the predetermined keyword in a predetermined keyword storage means in response to the computer accepting the registration specification of the predetermined keyword ;
When the computer accepts the blog article to be determined, the machine determines whether the blog article is a spam blog by using the predetermined keyword stored in the predetermined keyword storage unit as a feature. Machine learning steps,
Among the blog articles to be determined whether or not the computer is a spam blog, the blog article including the predetermined keyword stored in the predetermined keyword storage unit and the machine learning whether or not the computer is a spam blog A spam determination result output step for outputting the determination result in accordance with
An adjustment return step of deleting the predetermined keyword stored in the predetermined keyword storage means in response to the computer receiving the deletion specification of the predetermined keyword;
In response to accepting correct / incorrect determination information, which is information indicating correct / incorrect determination of the result of determination by machine learning, for the blog article that has output the determination result by machine learning in the spam determination result output step , A correct / incorrect determination information storing step for storing the correct / incorrect determination information in association with the blog article;
The computer calculates an error rate for determination by the machine learning for each of the predetermined keywords based on the accuracy determination information stored in the accuracy determination information storage step in a predetermined period, and the error rate is equal to or greater than a predetermined threshold. A first fashion end determination step for determining that the fashion has ended for the predetermined keyword;
Spam blog determination method including.
コンピュータが、判定対象のブログ記事を受け付けたことに応じて、前記所定キーワード記憶手段に記憶した前記所定のキーワードを素性として用いて前記ブログ記事がスパムブログであるか否かを機械学習により判定する機械学習ステップと、When the computer accepts the blog article to be determined, the machine determines whether the blog article is a spam blog by using the predetermined keyword stored in the predetermined keyword storage unit as a feature. Machine learning steps,
コンピュータが、スパムブログであるか否かの判定対象の前記ブログ記事のうち、前記所定キーワード記憶手段に記憶された前記所定のキーワードを含むブログ記事と、スパムブログであるか否かの前記機械学習による判定の結果とを対応付けて出力するスパム判定結果出力ステップと、Among the blog articles to be determined whether or not the computer is a spam blog, the blog article including the predetermined keyword stored in the predetermined keyword storage unit and the machine learning whether or not the computer is a spam blog A spam determination result output step for outputting the determination result in accordance with
コンピュータが、前記所定のキーワードの削除指定を受け付けたことに応じて、前記所定キーワード記憶手段に記憶された前記所定のキーワードを削除する調整戻しステップと、An adjustment return step of deleting the predetermined keyword stored in the predetermined keyword storage means in response to the computer receiving the deletion specification of the predetermined keyword;
コンピュータが、所定期間において前記所定のキーワードを含む前記判定対象の前記ブログ記事のうち、前記機械学習ステップでスパムブログであると判定した前記ブログ記事の割合が所定の閾値以下となった場合に、前記所定のキーワードについて流行が終了したと判定する第2流行終了判定ステップと、When the ratio of the blog articles determined to be spam blogs in the machine learning step out of the blog articles to be determined that include the predetermined keyword in a predetermined period is equal to or less than a predetermined threshold, A second trend end determination step for determining that the trend has ended for the predetermined keyword;
を含むスパムブログ判定方法。Spam blog determination method including.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064447A JP5113206B2 (en) | 2010-03-19 | 2010-03-19 | Spam blog determination apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064447A JP5113206B2 (en) | 2010-03-19 | 2010-03-19 | Spam blog determination apparatus and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011198065A JP2011198065A (en) | 2011-10-06 |
JP5113206B2 true JP5113206B2 (en) | 2013-01-09 |
Family
ID=44876173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010064447A Active JP5113206B2 (en) | 2010-03-19 | 2010-03-19 | Spam blog determination apparatus and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5113206B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6047365B2 (en) * | 2012-10-19 | 2016-12-21 | Kddi株式会社 | SEARCH DEVICE, SEARCH PROGRAM, AND SEARCH METHOD |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4617608B2 (en) * | 2001-06-13 | 2011-01-26 | 株式会社日立製作所 | Search system with free alternative keyword settings |
-
2010
- 2010-03-19 JP JP2010064447A patent/JP5113206B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011198065A (en) | 2011-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10970294B2 (en) | Website scoring system | |
JP5243779B2 (en) | System and method for adaptive spell checking | |
US8892539B2 (en) | Building, reusing and managing authored content for incident management | |
US9703860B2 (en) | Returning related previously answered questions based on question affinity | |
US20080154807A1 (en) | Confusion matrix for classification systems | |
US20160098444A1 (en) | Corpus Management Based on Question Affinity | |
JP2014515514A (en) | Method and apparatus for providing suggested words | |
US11068479B2 (en) | Method and system for analytic based connections among user types in an online platform | |
CN111708934A (en) | Knowledge content evaluation method and device, electronic equipment and storage medium | |
CN106462613A (en) | Ranking suggestions based on user attributes | |
US20170154292A1 (en) | System and method for managing resolution of an incident ticket | |
EP3782048A1 (en) | Action indicators for search operation output elements | |
CN112966081A (en) | Method, device, equipment and storage medium for processing question and answer information | |
US20150379112A1 (en) | Creating an on-line job function ontology | |
JP2012068985A (en) | Question-answer retrieval apparatus and method thereof | |
JP2006268690A (en) | Faq presentation/improvement method, faq presentation/improvement device and faq presentation/improvement program | |
WO2021135322A1 (en) | Automatic question setting method, apparatus and system | |
US10831511B2 (en) | Customized application programming interface presentation | |
JP5113206B2 (en) | Spam blog determination apparatus and method | |
JP2019101539A (en) | Contract content evaluation device and contract content evaluation method and program | |
CN110457318A (en) | The update method of data field, device, medium, electronic equipment in block chain | |
US10084853B2 (en) | Distributed processing systems | |
US11810022B2 (en) | Contact center call volume prediction | |
Komarkova et al. | Methods of usability evaluation of web-based geographic information systems | |
US20150193683A1 (en) | Assisting an expert to answer preexisting questions in a time efficient manner |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120605 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120806 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120911 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121011 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151019 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5113206 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |