JP5775508B2 - Spam account extraction apparatus and spam account extraction method - Google Patents
Spam account extraction apparatus and spam account extraction method Download PDFInfo
- Publication number
- JP5775508B2 JP5775508B2 JP2012262369A JP2012262369A JP5775508B2 JP 5775508 B2 JP5775508 B2 JP 5775508B2 JP 2012262369 A JP2012262369 A JP 2012262369A JP 2012262369 A JP2012262369 A JP 2012262369A JP 5775508 B2 JP5775508 B2 JP 5775508B2
- Authority
- JP
- Japan
- Prior art keywords
- spam
- document
- url
- account
- inappropriate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、スパムアカウントを抽出する抽出装置及び抽出方法に関する。 The present invention relates to an extraction apparatus and an extraction method for extracting a spam account.
従来、インターネットなどのネットワーク上のサーバに文書を投稿するサービスにおいて、ブログの一種であるミニブログ(マイクロブログ)等のコミュニケーションツールが利用されている。利用者は、日常の出来事や所感など様々なことを著した文書を投稿している。投稿された文書は、ストリームデータとなり、世論を反映したものとして、ビジネスやエンターテイメントなど多くの分野において様々な用途のために、分析及び活用されている。 Conventionally, a communication tool such as a miniblog (microblog), which is a kind of blog, is used in a service for posting a document to a server on a network such as the Internet. Users post documents that write various things such as daily events and feelings. The posted document becomes stream data and is analyzed and utilized for various uses in many fields such as business and entertainment as reflecting public opinion.
ストリームデータの活用例として、ストリームデータに出現する単語の出現頻度を分析し、出現頻度が上昇している単語を話題語とし、話題語を抽出するサービスがある。 As an example of the use of stream data, there is a service that analyzes the appearance frequency of words appearing in stream data, uses a word whose appearance frequency is rising as a topic word, and extracts the topic word.
話題語は、その特性上、ミニブログサイトもしくはその連携サイトの目立つ位置に設置されることが多いため、閲覧数が多くなる傾向にある。そのため、その傾向に着目し、話題語についての議論を装い自社サイトへ誘導するリンク等、不特定多数への一方的な広告を含むスパム投稿が横行している。 Due to their characteristics, topical words are often placed in conspicuous positions on a mini-blog site or a linked site, so the number of browsing tends to increase. Therefore, paying attention to this trend, spam postings including one-sided advertisements to unspecified many people such as links that lead to discussions about topic words and lead to their own site are rampant.
これらスパム投稿に対処する先行技術として、スパムメールや迷惑メールを排除する方法(例えば、特許文献1参照)と、機械学習的手法を用いてスパマー(スパムを送信するアカウント)を特定する方法(例えば、非特許文献1参照)が知られている。 As a prior art for dealing with these spam posts, a method for eliminating spam mails and spam mails (for example, see Patent Document 1) and a method for identifying spammers (accounts for sending spam) using machine learning techniques (for example, And non-patent document 1).
スパムメールや迷惑メールを排除する方法は、送信側から受信側への送信するメールに対して、該送信を拒否する判断基準となるキーワードをサーバにて管理する。そして、送信側から受信側へ送信するメール本文に、登録された該キーワードが含まれている場合、そのメールを破棄することにより、スパムメールや迷惑メールを受信側へ配信しない方法である。 As a method of eliminating spam mails and spam mails, a keyword that serves as a criterion for rejecting transmission of mail transmitted from the transmission side to the reception side is managed by the server. Then, when the registered keyword is included in the mail body to be transmitted from the transmission side to the reception side, spam mail and spam mail are not distributed to the reception side by discarding the mail.
また、機械学習的手法を用いてスパマーを特定する方法は、スパムの送信側であるスパマーが不当なリンクを形成するという特徴に着目する方法である。すなわち、まず、架空のユーザアカウントを作成し、次に、その架空のユーザアカウントへリンク形成の申請を送信してきたアカウントの中からスパマーを判定する。さらに、機械学習的手法を用いることにより、スパマーと判定したアカウントに見られる行動からスパマーを分類する。 A method of identifying a spammer using a machine learning method is a method that pays attention to a feature that a spammer on a spam transmission side forms an unfair link. That is, first, a fictitious user account is created, and then a spammer is determined from the accounts that have transmitted the link formation application to the fictitious user account. Further, by using a machine learning method, the spammers are classified from the behaviors that are seen in the account determined to be a spammer.
しかしながら、上記特許文献1に記載の方法は、メール本文に含まれるキーワードをもとにして、そのメールが迷惑メールであるか否かを判断しているため、メール本文に登録されたキーワードが含まれない場合、話題語をターゲットにしたメールであっても判定することが困難である。このため、投稿された文書内に、登録されたキーワードが含まれない場合は、この文書をスパム文書と判定できない虞がある。
However, since the method described in
また、上記非特許文献1に記載されている方法は、スパムアカウントの判定に各アカウントの行動に関する詳細な情報を用いるため、全てのアカウントを対象にすることは困難である。さらに、この方法は、スパム判定の精度を向上させようとすると、実際にはスパマーであるにも関わらず、スパマーで無いと誤った判定(偽陰性)が生じる虞がある。
Moreover, since the method described in the said
よって、本発明は上記課題に鑑みてなされたものであり、スパムか否かを判定する対象となる文書を絞り込み、簡単な特徴から、スパムアカウントを効率的に抽出することを目的とする。 Therefore, the present invention has been made in view of the above problems, and an object of the present invention is to narrow down documents to be determined as spam or not and efficiently extract spam accounts from simple features.
本発明に係るスパムアカウント抽出装置は、ネットワーク上のサーバに文書を投稿するサービスにおいて、文書からなるストリームデータ中に出現する単語のうち出現頻度が上昇している単語を特定の話題となっている話題語として収集する話題語収集部と、投稿された文書に対して、話題語を少なくとも1つ含む文書を検索する検索部と、検索部によって検索された文書が、話題語を一定数以上含む場合、文書をスパム文書と判定するスパム文書判定部と、スパム文書が投稿される頻度に基づいて、スパム文書を投稿するアカウントをスパムアカウントと判定するスパムアカウント判定部と、を備える。 The spam account extracting apparatus according to the present invention is a topic that has a particular topic of words that appear in the stream data composed of documents , and that appears frequently in a service for posting documents to a server on a network. A topic word collection unit that collects as a topic word, a search unit that searches for a document that includes at least one topic word with respect to a posted document, and a document that is searched by the search unit includes a certain number of topic words or more If, obtain Preparations and spam documents and determining spam document judging section documents, based on the frequency of spam document is posted, an account posting spam documents spam account and determining spam account determination unit.
本発明に係るスパムアカウント抽出装置によると、話題語収集部によって特定の話題となっている話題語が収集され、検索部によって投稿された文書のうち少なくとも話題語収集部が収集した単語を1つ以上含む文書が検索される。その後、スパム文書判定部により、投稿された文書がスパム文書であるか判定され、スパムアカウント判定部により、投稿された文書がスパム文書であった場合、その文書を投稿したアカウントがスパムアカウントと判定される。このため、話題語に基づいて検索対象となる文書が絞り込まれ、一方、絞り込まれた文書を対象にスパム文書か否か判定される。そして、スパム文書と判定された文書を一定回数以上投稿するアカウントをスパムアカウントと判定する。よって、スパムアカウントの抽出を効率的かつ網羅的に行うことが可能となる。さらに、同一文書内に複数種類の話題語を一定数以上含む文書をスパム文書と判定することができる。このため、スパムアカウントの抽出をより効率的に行うことが可能となる。 According to the spam account extraction device of the present invention, topic words that are specific topics are collected by the topic word collection unit, and at least one word collected by the topic word collection unit from the documents posted by the search unit. Documents including the above are retrieved. After that, the spam document determination unit determines whether the posted document is a spam document. If the posted document is a spam document, the spam account determination unit determines that the account that posted the document is a spam account. Is done. For this reason, the document to be searched is narrowed down based on the topic word, and on the other hand, it is determined whether the narrowed document is a spam document. An account that posts a document determined to be a spam document a certain number of times or more is determined as a spam account. Therefore, it becomes possible to extract spam accounts efficiently and exhaustively. Furthermore, it is possible to determine a document including a certain number of topic words of a plurality of types in the same document as a spam document. For this reason, it becomes possible to extract a spam account more efficiently.
また、上記のスパムアカウント抽出装置は、文書に含まれるURLが不適切なサイトへのリンクを含む場合、URLを不適切URLと判定する不適切URL判定部をさらに備え、スパム文書判定部は、URLが不適切URLと判定された場合、文書を前記スパム文書と判定してもよい。 The spam account extraction device further includes an inappropriate URL determination unit that determines a URL as an inappropriate URL when the URL included in the document includes a link to an inappropriate site, and the spam document determination unit includes: If the URL is determined to be inappropriate, the document may be determined as the spam document.
このように構成すると、文書内に不適切なサイトへのリンクを含む文書をスパム文書と判定することができる。このため、スパムアカウントの抽出をより効率的に行うことが可能となる。 With this configuration, a document that includes a link to an inappropriate site in the document can be determined as a spam document. For this reason, it becomes possible to extract a spam account more efficiently.
また、上記のスパムアカウント抽出装置においては、不適切URL判定部は、URL又はURLのリダイレクト先のURLが事前に定義した文字列を含む場合、URLを不適切URLと判定してもよい。 In the spam account extracting device, the inappropriate URL determination unit may determine that the URL is an inappropriate URL when the URL or the URL to which the URL is redirected includes a predefined character string.
このように構成すると、不適切URL判定部は、例えば、アフィリエイト又はアダルトサイト等の不適切なサイトであることがURLから事前に判別する。このため、不適切なURLを含む文書をスパム文書と判定することができるため、スパムアカウントの抽出をより効率的に行うことが可能となる。 If comprised in this way, an inappropriate URL determination part will determine beforehand from URL that it is an inappropriate site, such as an affiliate or an adult site, for example. For this reason, since a document including an inappropriate URL can be determined as a spam document, a spam account can be extracted more efficiently.
また、上記のスパムアカウント抽出装置においては、不適切URL判定部は、URL又はURLのリダイレクト先のURLが遷移する文書が事前に定義した単語を含む場合、URLを不適切URLと判定してもよい。 In the spam account extracting device, the inappropriate URL determination unit may determine that the URL is an inappropriate URL when the URL or the document to which the URL to which the URL is redirected includes a predefined word. Good.
このように構成すると、不適切URL判定部は、文書に含まれるURL又はURLのリダイレクト先のURLが遷移する文書に不適切な単語が含まれる場合、遷移元のURLを不適切なURLと判定する。このため、不適切なURLを含む文書をスパム文書と判定することができるため、スパムアカウントの抽出をより効率的に行うことが可能となる。 With this configuration, the inappropriate URL determination unit determines that the transition source URL is an inappropriate URL when the URL included in the document or the document to which the URL redirect destination URL transitions includes an inappropriate word. To do. For this reason, since a document including an inappropriate URL can be determined as a spam document, a spam account can be extracted more efficiently.
また、上記のスパムアカウント抽出装置においては、不適切URL判定部は、URL又はURLのリダイレクト先のURLが遷移する文書が、複数の関連性のない話題語を含む文書からのリンクを有する場合、URLを不適切URLと判定してもよい。 In the spam account extraction device, the inappropriate URL determination unit may include a link from a document including a plurality of unrelated topic words when the document in which the URL or the URL to which the URL is redirected changes. The URL may be determined as an inappropriate URL.
このように構成すると、不適切URL判定部は、URL又はURLのリダイレクト先のURLが遷移する文書が、複数の関連性のない話題語を含む文書からのリンクを有する場合、遷移元のURLを不適切URLと判定する。このため、不適切なURLを含む文書をスパム文書と判定することができるため、スパムアカウントの抽出をより効率的に行うことが可能となる。 With this configuration, the inappropriate URL determination unit determines the transition source URL when the document in which the URL or the URL to which the URL is redirected has a link from a document including a plurality of unrelated topic words. It is determined as an inappropriate URL. For this reason, since a document including an inappropriate URL can be determined as a spam document, a spam account can be extracted more efficiently.
また、上記のスパムアカウント抽出装置においては、不適切URL判定部は、URL又はURLのリダイレクト先のURLが遷移する文書が、文書で使用されている話題語を含まない場合、URLを不適切URLと判定してもよい。 In the spam account extracting apparatus, the inappropriate URL determination unit may determine that the URL or the URL to which the URL is redirected does not include the topic word used in the document. May be determined.
このように構成すると、不適切URL判定部は、URL又はURLのリダイレクト先のURLが遷移する文書が、遷移元の文書で使用されている話題語を含まない場合、遷移元のURLを不適切URLと判定する。このため、不適切なURLを含む文書をスパム文書と判定することができるため、スパムアカウントの抽出をより効率的に行うことが可能となる。 With this configuration, the inappropriate URL determination unit determines that the transition source URL is inappropriate when the URL or the document to which the URL to which the URL is redirected does not include a topic word used in the transition source document. The URL is determined. For this reason, since a document including an inappropriate URL can be determined as a spam document, a spam account can be extracted more efficiently.
また、上記のスパムアカウント抽出装置においては、不適切URL判定部は、URL又はURLのリダイレクト先のURLが遷移する文書が、複数の関連性のない話題語を含む場合、URLを不適切URLと判定してもよい。 In the spam account extraction device, the inappropriate URL determination unit may determine that an URL is an inappropriate URL if the document to which the URL or the URL to which the URL is redirected includes a plurality of unrelated topic words. You may judge.
このように構成すると、不適切URL判定部は、URL又はURLのリダイレクト先のURLが遷移する文書が、複数の関連性のない話題語を含む場合、URLを不適切URLと判定する。このため、不適切なURLを含む文書をスパム文書と判定することができるため、スパムアカウントの抽出をより効率的に行うことが可能となる。 If comprised in this way, an inappropriate URL determination part will determine URL as inappropriate URL, when the document to which URL or URL of the redirect destination of URL contains a plurality of unrelated topic words. For this reason, since a document including an inappropriate URL can be determined as a spam document, a spam account can be extracted more efficiently.
また、上記のスパムアカウント抽出装置は、第1のアカウントが投稿した文書を閲覧可能であるアカウントの一覧を取得する友人一覧取得部と、友人一覧取得部によって取得される第1のアカウントの友人一覧と、スパムアカウント判定部によりスパムアカウントと判定されたアカウントが投稿した文書を閲覧可能であるアカウントの一覧と、の類似度を算出するアカウント間類似度算出部と、をさらに備え、スパムアカウント判定部は、類似度に基づいてスパムアカウントを判定してもよい。 In addition, the spam account extracting device described above includes a friend list acquisition unit that acquires a list of accounts that can view documents posted by the first account, and a friend list of the first account acquired by the friend list acquisition unit. When, further comprising a and account inter similarity calculation unit for calculating a list of accounts that are viewable documents account identified as spam accounts posted, the similarity by spam account determination unit, spam account determination unit May determine the spam account based on the similarity.
このように構成すると、友人一覧取得部は、第1のアカウントが投稿した文書を閲覧可能であるアカウントの一覧を取得する。そして、アカウント間類似度算出部は、スパムアカウント判定部によりスパムアカウントと判定されたアカウントが投稿した文書を閲覧可能であるアカウントの一覧と、上記第1のアカウントが投稿した文書を閲覧可能であるアカウントの一覧と、の類似性を算出する。このため、スパムアカウントが抽出された場合、第1のアカウントがスパムアカウントか否かを効率的に判定することができる。よって、スパムアカウントの抽出を効率的かつ網羅的に行うことが可能となる。 If comprised in this way, a friend list acquisition part will acquire the list of the accounts which can browse the document which the 1st account contributed. The inter-account similarity calculation unit can browse a list of accounts that can be viewed by the account determined as a spam account by the spam account determination unit and a document posted by the first account. Calculate the similarity between the list of accounts . For this reason, if the spam account is extracted, it is possible to first account to determine whether spam account efficiently. Therefore, it becomes possible to extract spam accounts efficiently and exhaustively.
また、友人一覧取得部は、アカウント間類似度算出部が算出するアカウント間の類似度に基づいて、類似度が一定の閾値を超えるアカウントを第1のアカウントの友人一覧から抽出するスパムアカウント抽出部を含んでいてもよい。 Further, the friend list acquisition unit extracts a spam account extraction unit that extracts, from the friend list of the first account, accounts whose similarity exceeds a certain threshold based on the similarity between accounts calculated by the inter-account similarity calculation unit. May be included.
このように構成すると、スパムアカウント抽出部は、友人一覧取得部が取得したアカウントの一覧から、スパムアカウントと類似度の高いアカウントを、文書の投稿頻度に基づいて抽出することができる。よって、スパムアカウントの抽出をより精度よく、効率的かつ網羅的に行うことが可能となる。 If comprised in this way, the spam account extraction part can extract an account with high similarity with a spam account from the list of accounts which the friend list acquisition part acquired based on the posting frequency of a document. Therefore, it becomes possible to extract spam accounts more accurately, efficiently and comprehensively.
また、上記のスパムアカウント抽出装置は、スパムアカウントの判定結果に基づいて、文書のインデックスを生成する文書インデックス生成部と、スパムアカウントではないアカウントからの投稿のみを閲覧可能とする閲覧手段と、をさらに備えてもよい。 In addition, the spam account extraction device includes a document index generation unit that generates a document index based on a determination result of the spam account, and a browsing unit that allows browsing only from accounts that are not spam accounts. Further, it may be provided.
このように構成すると、文書インデックス生成部は、スパムアカウント判定部が判定する判定結果に基づいて、文書のインデックスを生成し、閲覧手段は、スパムアカウントではないアカウントからの投稿のみを閲覧可能とする。このため、閲覧手段は、文書のインデックスに基づいて、文書の検索結果にスパムアカウントの投稿が表示されないようにすることができる。 If comprised in this way, a document index production | generation part will produce | generate the index of a document based on the determination result which a spam account determination part determines, and a browsing means will be able to browse only the posting from the account which is not a spam account. . For this reason, the browsing means can prevent the posting of the spam account from being displayed in the document search result based on the document index.
ところで、上述したスパムアカウント抽出装置に係る発明は、スパムアカウント抽出方法の発明としてもとらえることができ、同様の作用・効果を奏する。スパムアカウント抽出方法は以下のように記述することができる。 By the way, the invention related to the spam account extraction apparatus described above can be obtained as an invention of a spam account extraction method, and has the same operations and effects. The spam account extraction method can be described as follows.
本発明に係るスパムアカウント抽出方法は、文書からなるストリームデータ中に出現する単語のうち出現頻度が上昇している単語を特定の話題となっている話題語として収集する話題語収集ステップと、投稿された文書に対して、話題語を少なくとも1つ含む文書を検索する検索ステップと、検索ステップによって検索された文書が、話題語を一定数以上含む場合、文書をスパム文書と判定するスパム文書判定ステップと、スパム文書が投稿される頻度に基づいて、スパム文書を投稿するアカウントをスパムアカウントと判定するスパムアカウント判定ステップと、を備えて構成される。 Spam account extraction method according to the present invention, a topic word collecting step of collecting a word occurrence frequency of the word appearing in the stream data composed of a document is increased as the topic word has become a particular topic, post A search step for searching for a document including at least one topic word from the retrieved document, and a spam document determination for determining a document as a spam document when the document searched by the search step includes a certain number of topic words or more a method, based on the frequency of spam document is posted, it constructed example Preparations and spam account determination step of determining an account and spam account to post spam documents, the.
本発明によれば、スパムか否かを判定する対象となる文書を絞り込み、簡単な特徴から、スパムアカウントを効率的に抽出することができる。 According to the present invention, it is possible to narrow down documents to be judged as spam or not and efficiently extract a spam account from simple features.
以下、添付図面を参照して本発明の実施形態について具体的に説明するが、本発明は以下の実施形態に限定されるものではない。なお、同一又は相当する要素には、同一の符号を付し、重複する説明は省略する。 Hereinafter, embodiments of the present invention will be specifically described with reference to the accompanying drawings. However, the present invention is not limited to the following embodiments. In addition, the same code | symbol is attached | subjected to the element which is the same or it corresponds, and the overlapping description is abbreviate | omitted.
(第1実施形態)
図1は、第1実施形態に係るスパムアカウント抽出装置の機能ブロック図である。スパムアカウント抽出装置1は、インターネット等のネットワーク上のサーバに文書を投稿する装置に好適に適用される。
(First embodiment)
FIG. 1 is a functional block diagram of the spam account extraction apparatus according to the first embodiment. The spam
図1に示すように、本実施形態のスパムアカウント抽出装置1は、主に、判定部10Aと記憶部20とを備える。判定部10Aは、話題語収集部11、検索部12、URL展開部13、スパム文書判定部14、及びスパムアカウント判定部15を備える。記憶部20は、文書インデックス格納部21、不適切URL格納部22、スパム文書格納部23、及びスパムユーザ格納部24を備える。さらに判定部10Aは文書インデックス生成部16を備えてもよい。以下、各部の機能を概説する。
As shown in FIG. 1, the spam
話題語収集部11は、現在話題になっている話題語の一覧を収集する。検索部12は、話題語Wを少なくとも1つ含む文書を検索し、話題語Wを含む文書の集合を収集する。URL展開部13は、本文内のURLに一度アクセスを行い、リダイレクトされている間はリダイレクト先に再度アクセスする。スパム文書判定部14は、収集した各文書がスパム投稿であるかどうかを判別する。スパムアカウント判定部15は、スパム文書が投稿される頻度に基づいて、スパム文書を投稿するアカウントをスパムアカウントと判定する。文書インデックス生成部16は、インデックスにスパムアカウントの抽出結果を登録し、スパムの投稿が検索結果に表示されないようにする。
The topic
本実施形態では、スパム型投稿として主に2種類を想定している。1つは、話題語や検索急上昇ワード等の一覧を定期的に自動投稿するアカウントによる投稿で、以後トレンド型投稿と呼ぶ。トレンド型投稿は話題語をランキング表示することから同一文書内に話題語を複数含むという特徴を持つ。トレンド型投稿は厳密にはスパム文書ではないが、本発明の目的とする話題語に対する議論を抽出するという観点では必要の無い文書であるため、本実施形態においてはスパムと分類する。 In the present embodiment, two types of spam-type posts are assumed. One is posting by an account that automatically posts a list of topic words, search suddenly rising words, etc. periodically, and is hereinafter referred to as trend-type posting. The trend-type posting has a feature that a plurality of topic words are included in the same document because the topic words are ranked and displayed. Although the trend-type posting is not strictly a spam document, it is a document that is unnecessary from the viewpoint of extracting the discussion on the topic word targeted by the present invention, and is therefore classified as spam in this embodiment.
スパム型投稿のもう1つの種類は、話題語に加え、事前定義した特定のURLへのリンクを含む投稿であり、以後URL型投稿と呼ぶ。URL型投稿は基本的には自身のサイトやアフィリエイトプログラムへの誘導を目的としたものである。この目的は、大きく2種類のものが確認されている。1つは物販サイト等において話題語をキーワードに含む商品のPRを投稿したものであり、もう1つはあたかも話題語に関するデータソースを含む投稿を装いながら、実際にリンク先に遷移すると全く関係無い遷移先に誘導されるものである。URL型投稿はブログサイトのコメント欄等にも見られ、従来から存在するスパムに近いが、文書のテキスト情報そのものからの判別は困難であること、URLが短縮されていることや文書の量が膨大であることから全ての文書を調査することは事実上困難であるという特徴がある。 Another type of spam-type post is a post containing a link to a specific URL defined in advance in addition to a topic word, and is hereinafter referred to as a URL-type post. The URL type posting is basically for the purpose of guiding to its own site or affiliate program. For this purpose, two types have been confirmed. One is a product sales site that has posted a PR of a product that contains a topic word as a keyword, and the other is that it is completely irrelevant if it actually transitions to a link destination while pretending to contain a data source related to the topic word. It is guided to the transition destination. URL-type postings are also seen in the comment field of blog sites and are similar to the existing spam, but it is difficult to discriminate from the text information of the document itself, the URL is shortened, and the amount of documents is Due to its enormous volume, it is practically difficult to investigate all documents.
文書インデックス格納部21は、図12及び図13に示すように、文書一覧21a及び転置インデックス21bとから構成される。文書インデックス格納部21の文書一覧21aは、図12に示すように、文書ID、投稿日時、ユーザID、及び本文が、対応づけられて記憶されている。また、文書インデックス格納部21の転置インデックス21bは、図13に示すように、単語及び文書IDが対応づけて記憶されている。このため、各単語がどの文書IDで管理される文書に記載されているか、簡易に検索することができる。
As shown in FIGS. 12 and 13, the document
不適切URL格納部22は、図14に示すように、不適切と判定されたURLが一覧で記録されている。
As shown in FIG. 14, the inappropriate
スパム文書格納部23は、スパムと判定された文書は文書ID及び投稿を行ったアカウントIDが格納されている。スパム文書格納部23は、図15に示すように、文書ID、投稿日時、ユーザID、話題語、URL、URL型フラグ、及びトレンド型フラグが一対一に対応づけられて記録されている。
The spam
スパムユーザ格納部24は、トレンド型もしくはURL型の投稿が一定数以上のアカウントをスパムアカウントと判定し、判定結果が格納されている。スパムユーザ格納部24は、図16に示すように、スパムアカウントと判定されたユーザIDが記録されている。
The spam
図20には、スパムアカウント抽出装置1のハードウェア構成の一例を示す。スパムアカウント抽出装置1は、ハードウェア構成として、CPU1Aと、RAM1Bと、ROM1Cと、キーボード、音声入力のための音声認識装置等から成る入力部1Dと、所定位置に挿入された記憶媒体Mに記憶されたデータやプログラム等を読み取る読取部1Eと、外部との通信を行う通信部1Fと、補助記憶部1Gと、スパム判定結果又は文書検索結果等を含む画像を表示する表示部1Hと、を備える。前述したスパムアカウント抽出装置1の各機能ブロックの機能は、RAM1B等にプログラムやデータ等を読み込ませ、CPU1Aの制御の下でプログラムを実行することで実現される。なお、後述する第2〜第4実施形態におけるスパムアカウント抽出装置のハードウェア構成も、上記図20のハードウェア構成と同様である。
FIG. 20 shows an example of the hardware configuration of the spam
次に、図2を用いて、第1実施形態におけるスパムアカウントを抽出するフローを説明する。図2は、スパムアカウント抽出装置1におけるスパムアカウントを抽出するフローチャートである。
Next, a flow for extracting a spam account in the first embodiment will be described with reference to FIG. FIG. 2 is a flowchart for extracting a spam account in the spam
図2に示すように、まず、ステップS11において、話題語収集部11は、現在話題になっている話題語Wを収集する。ここで、話題語Wは文書インデックス格納部21に格納されている情報の時系列の推移から生成しても良いし、外部のミニブログ解析サービス、もしくは検索キーワード急上昇ランキング等を用いても良い。
As shown in FIG. 2, first, in step S <b> 11, the topic
次に、ステップS12において、検索部12は、話題語収集部11が収集した話題語Wを用いて、話題語Wを少なくとも1つ含む文書を検索し、話題語Wを含む文書の集合を収集する。検索部12が検索する文書は、収集した複数の話題語Wのうち任意の一つを含んでいれば個数は限定されない。また、話題語Wを含む文書の集合の適合度は考慮する必要が無いため、検索部12は新着順に検索を行ってもよい。さらに、目的は各話題語Wが公開されて以降に話題語Wを含む投稿を網羅的に収集することであるが、各語が公開された日時を知ることは困難であるため、図2のフローを定期的に実行してもよく、所定回実施時以降に投稿された文書のみを収集するとしてもよい。
Next, in step S12, the
さらに、ステップS13において、スパム文書判定部14は、収集した各文書がスパム投稿であるかどうかを判別する。スパム文書判定部14は、検索部12によって検索された文書に含まれる話題語Wが、特定の話題と関連性が無い場合に、文書をスパム文書と判定する。文書をスパム判定するフローについては、図3を用いて後述する。
In step S13, the spam
そして、ステップS14において、スパムアカウント判定部15は、スパム文書が投稿される頻度に基づいて、スパム文書を投稿するアカウントをスパムアカウントと判定する。スパムアカウント判定部15は、スパム文書判定部14によってスパム文書と判定された文書を投稿するアカウントを、スパムアカウントと判定する。スパム文書を投稿するスパムアカウントを判定するフローについては、図4を用いて後述する。
In step S14, the spam
さらに、本実施形態では、図1に示すように、文書インデックス生成部16を備えて構成してもよい。このように構成すると、文書インデックス生成部16は、インデックスにスパムアカウントの抽出結果を登録し、スパムの投稿が検索結果に表示されないようにする。
Furthermore, in the present embodiment, as shown in FIG. 1, a document
そして、図2に示すように、ステップS15において、文書インデックス生成部16は、インデックス(インデクサ)にスパムアカウントの抽出結果を登録し、スパムの投稿が検索結果に表示されないようにしてもよい。
As shown in FIG. 2, in step S15, the document
ここで、図3を用いて、本実施形態における文書をスパム判定するフローについて説明する。図3はスパム文書を判定する流れを示すフローチャートである。 Here, with reference to FIG. 3, a flow for determining a document as spam in this embodiment will be described. FIG. 3 is a flowchart showing a flow of determining a spam document.
本実施形態における文書のスパム判定(図2のS13)は、スパム文書判定部14が文書インデックス格納部21及び不適切URL格納部22に格納された情報をもとに、以下に示すフローに沿って行われる。
The document spam determination in this embodiment (S13 in FIG. 2) follows the flow shown below based on information stored in the document
まず、図3に示すように、ステップS21において、スパム文書判定部14は文書内にURLを含んでいるか否かを判定し、文書内にURLを含む投稿である場合は、ステップS22において、URL展開部13がURLの展開を行う。
First, as shown in FIG. 3, in step S21, the spam
一般に、ミニブログサービスでは、URLを含む投稿を行う場合、投稿文字数の制限の関係や表示を簡易にするために、URL短縮サービスを併用することが多い。URL短縮サービスとは、元々のURLをより短い別のURLに置き換えるサービスで、複数の事業者により提供されている。短縮URLはHTTPのリダイレクトにより実現されている。このため、本実施形態では、本文内のURLに一度アクセスを行い、リダイレクトされている間はリダイレクト先に再度アクセスを行い、その都度URLを更新するとしてもよい。 In general, in a mini blog service, when a posting including a URL is performed, a URL shortening service is often used together in order to simplify the relationship and display of the number of posted characters. The URL shortening service is a service that replaces an original URL with another shorter URL, and is provided by a plurality of businesses. The shortened URL is realized by HTTP redirection. For this reason, in the present embodiment, the URL in the text may be accessed once, the redirect destination may be accessed again while being redirected, and the URL may be updated each time.
次に、ステップS23において、スパム文書判定部14は、同一文書内に話題語を一定数以上(例えば、5つ以上)含むか否かを判定し、同一文書内に話題語を一定数以上(例えば、5つ以上)含む場合、ステップS24において、スパム文書判定部14は判定対象の文書をトレンド型投稿のスパム文書と判定する。
Next, in step S23, the spam
そして、ステップS25において、スパム文書判定部14は、文書内に含まれていたURL、又はそのリダイレクト先のURLが事前定義したブラックリスト内のURLに、少なくとも一部が一致するか否かを判定し、文書内に含まれていたURL、又はそのリダイレクト先のURLが事前定義したブラックリスト内のURLに、少なくとも一部が一致する場合、ステップS26において、スパム文書判定部14は、判定対象の文書をURL型投稿のスパム文書と判定する。
In step S25, the spam
また、URL又はURLのリダイレクト先のURLに、事前に定義した文字列が含まれる場合、スパム文書判定部14は、判定対象の文書をスパム文書と判定してもよい。そして、スパム文書判定部14は、不適切URL格納部22に、不適切と判定されたURLを記録する。スパム文書判定部14が記録するURLは、一覧にして、不適切URL格納部22に記録されていてもよい。あるいは、アダルトサイトや物販サイトのアフィリエイトといった遷移先のURLを、不適切URL格納部22へ事前に登録しておいてもよい。
Further, when the URL or the URL to which the URL is redirected includes a predefined character string, the spam
そして、スパムと判定された文書は、文書ID及び投稿を行ったアカウントIDがスパム文書格納部23に格納される。単一の文書がトレンド型、URL型の両者に分類される場合もある。
Then, the document determined to be spam is stored in the spam
ここで、図4を用いて、本実施形態におけるスパムアカウントを判定するフローについて説明する。図4はスパムアカウントを判定する流れを示すフローチャートである。 Here, a flow for determining a spam account in the present embodiment will be described with reference to FIG. FIG. 4 is a flowchart showing a flow for determining a spam account.
本実施形態におけるスパムアカウントの判定(図2のS14)は、スパムアカウント判定部15がスパム文書格納部23に格納された情報を基に、以下に示すフローに沿って行われる。
The spam account determination (S14 in FIG. 2) in the present embodiment is performed along the flow shown below based on the information stored in the spam
まず、図4に示すように、ステップS31において、スパムアカウント判定部15は、スパム文書格納部23に格納された情報のうち、直近のd日間分を抽出し、ステップS32において、ユニークな文書数をアカウントID毎に集計する。また、d日間を例えば7日間としてもよい。
First, as shown in FIG. 4, in step S31, the spam
なお、第1実施形態において、スパムアカウント判定部15は、ユニークな文書数をアカウントIDごとに集計するための文書集計手段(不図示)を備えてもよい。そして、ステップS32において、文書集計手段がユニークな文書数を集計してもよい。
In the first embodiment, the spam
次に、ステップS33において、スパムアカウント判定部15は、集計した投稿数を基にアカウント毎に判定を行い、ステップS34においてトレンド型もしくはURL型の投稿が一定数以上のアカウントをスパムアカウントと判定し、判定結果をスパムユーザ格納部24に格納する。
Next, in step S33, the spam
そして、ステップS35において、スパムアカウント判定部15がスパムアカウントの判定を行う。
In step S35, the spam
上述した一連の処理は、定期的に実行され、スパムアカウント(スパムユーザ)の情報は常に更新されるように設定してもよい。また、一度スパムアカウントと判定された場合でもd日間スパム投稿を行わない場合、そのアカウントをスパムアカウントではないと判定してもよい。あるいは、一度スパムアカウントと判定された場合でもd日間スパム投稿を行わない場合、そのアカウントをスパムユーザ格納部24に格納されたリストから解除されるように設定してもよい。
The series of processes described above may be performed periodically, and the spam account (spam user) information may be constantly updated. Also, even if it is determined that the account is spam, it may be determined that the account is not a spam account if spam posting is not performed for d days. Alternatively, if spam posting is not performed for d days even if it is determined to be a spam account, the account may be set to be released from the list stored in the spam
このように構成すると、話題語収集部11によって特定の話題となっている話題語Wが収集され、検索部12によって投稿された文書のうち少なくとも話題語収集部11が収集した単語を1つ以上含む文書が検索される。そして、スパム文書判定部14により、投稿された文書がスパム文書であるか判定することができる。さらに、スパムアカウント判定部15により、投稿された文書がスパム文書であった場合、その文書を投稿したアカウントをスパムアカウントと判定することができる。
If comprised in this way, the topic word W used as the specific topic will be collected by the topic
よって、話題語Wに基づいて検索対象となる文書を絞り込み、絞り込まれた文書を対象にしてスパム文書か否かを判定することができる。また、同一文書内に複数種類の話題語を一定数以上含む文書をスパム文書と判定することができる。さらに、スパム文書と判定された文書を一定回数以上投稿するアカウントをスパムアカウントと判定することができる。 Therefore, it is possible to narrow down the documents to be searched based on the topic word W and determine whether the narrowed document is a spam document. In addition, a document including a certain number of plural types of topic words in the same document can be determined as a spam document. Furthermore, an account that posts a document determined to be a spam document a certain number of times or more can be determined as a spam account.
このため、スパムアカウントの抽出を効率的かつ網羅的に行うことが可能となる。 For this reason, it becomes possible to extract spam accounts efficiently and exhaustively.
上述した第1実施形態において、文書インデックス生成部16は、スパムアカウントの抽出を効率的かつ網羅的に行うための必須の構成ではない。第1実施形態において、文書インデックス生成部16を備えることにより、スパムカウントと判定されたアカウントからの投稿を検索結果に表示されないように処理することができる。また、上述した第1実施形態において、スパムアカウントの判定は、上述した方法に限定されるものではない。
In the first embodiment described above, the document
(第2実施形態)
図5は、第2実施形態に係るスパムアカウント抽出装置の機能ブロック図である。第2実施形態に係るスパムアカウント抽出装置2は、第1実施形態に係るスパムアカウント抽出装置1に、更に不適切URL判定部17を備える。
(Second Embodiment)
FIG. 5 is a functional block diagram of the spam account extraction apparatus according to the second embodiment. The spam
図6に不適切URL判定部17の機能ブロック図を示す。不適切URL判定部17は、判定部100及び記憶部200を備えて構成される。判定部100は、URL展開部101、Webページ取得部102、Webページ解析部103を備えて構成される。記憶部200は、不適切語格納部201、参照元話題語格納部202、判定結果格納部203から成る記憶部200を備えて構成される。
FIG. 6 shows a functional block diagram of the inappropriate
URL展開部101は、短縮URLの展開を行う。Webページ取得部102は、遷移先のWebページの本文を取得する。Webページ解析部103は、取得したWebページ本文中に参照元話題語格納部202、並びに不適切語格納部201に格納された不適切語が出現するかどうかをチェックする。
The
不適切語格納部201は、図17に示すように、事前に登録された不適切語が格納されている。また、この不適切語の一覧201aは、逐次更新されてもよく、あるいは、学習によって随時語句が格納されてもよい。参照元話題語格納部202は、図18に示すように、遷移元の文書に含まれている話題語Wが投稿日時及びURLと対応づけて格納されている。判定結果格納部203は、図19に示すように、不適切URLと判定されたURLが格納されている。
As shown in FIG. 17, the inappropriate
不適切URL判定部17は、次の条件のいずれか1つにでも該当するURLを不適切URLと判定し、判定結果格納部203に格納する。条件1は遷移先に不適切語を含む場合、条件2は遷移先に参照元話題語を含まない場合、条件3は一定以上の話題語Wから参照されている場合、条件4は遷移先に複数の関連性のない話題語を含む場合である。このとき、一定以上の話題語Wとは、例えば、5つ以上としてもよい。
The inappropriate
図7は不適切URLを判定するフローである。まず、ステップS41において、URL展開部101は短縮URLの展開を行う。次に、ステップS42において、判定部100は、短縮URL展開した展開後のURLが判定結果格納部203に登録済みのものであるかどうかをチェックする。
FIG. 7 is a flow for determining an inappropriate URL. First, in step S41, the
URLが登録済みのものでない場合、ステップS43において、判定部100は、参照元話題語格納部202にURLと参照元話題語のペアを格納した後、Webページ取得部102は遷移先のWebページの本文を取得する。
If the URL is not already registered, in step S43, the
ステップS44において、判定部100は、Webページ解析部103が取得したWebページ本文中に参照元話題語格納部202及びに不適切語格納部201に格納された不適切語が出現しているか否か判定する。
In step S <b> 44, the
次に、ステップS47において、不適切URL判定部17は、以下の3つの条件のいずれか1つにでも該当するURLを不適切URLと判定し、判定結果格納部203に格納する。条件1は、遷移先に不適切語を含む場合である(ステップS44)。条件2は、遷移先に参照元話題語を含まない場合である(ステップS45)。条件3は、一定以上(例えば、5つ以上)の話題語から参照されている場合、条件4は、遷移先に複数の関連性のない話題語を含む場合(ステップS48)である(ステップS46)。
Next, in step S <b> 47, the inappropriate
そして、本実施形態において、ステップS45における判定は、遷移先に不適切な単語を含んでいない場合であっても、参照元の話題語とは関係性の薄いものであるとし、不適切なURLであると判定する。このため、事前定義されていないURLを含む文書を投稿していたとしてもスパムユーザとしての検出することが可能となる。 In the present embodiment, the determination in step S45 assumes that the transition destination does not include an inappropriate word, and that the topic word of the reference source is not closely related. It is determined that For this reason, even if a document including a URL that is not predefined is posted, it is possible to detect as a spam user.
また、本実施形態において、ステップS46における判定は、遷移先に不適切な単語を含んでおらず、かつ、遷移先に参照元の話題語が含まれる場合であっても、一定数以上の参照元から参照されているURLは、不適切なURLであると判定する。このため、事前定義されていないURLを含む文書を投稿していたとしてもスパムユーザとしての検出することが可能となる。 Further, in the present embodiment, the determination in step S46 is that the transition destination does not include an inappropriate word, and even if the transition destination includes a reference source topic word, a certain number or more of references It is determined that the URL referenced from the beginning is an inappropriate URL. For this reason, even if a document including a URL that is not predefined is posted, it is possible to detect as a spam user.
さらに、本実施形態において、ステップS48における判定は、遷移先に不適切な単語を含んでおらず、遷移先に参照元の話題語が含まれており、かつ、一定数以上の参照元から参照されていないURLであっても、遷移先に複数の関連性のない話題語が含まれている場合、不適切なURLであると判定する。このため、事前定義されていないURLを含む文書を投稿していたとしてもスパムユーザとして検出することが可能となる。 Furthermore, in this embodiment, the determination in step S48 does not include an inappropriate word at the transition destination, the topic word of the reference source is included at the transition destination, and is referenced from a certain number of reference sources or more. Even if the URL is not set, if the transition destination includes a plurality of unrelated topic words, the URL is determined to be inappropriate. For this reason, even if a document including a URL that is not predefined is posted, it can be detected as a spam user.
さらに、文書インデックス生成部16は、不適切URL格納部22に加え、判定結果格納部203を参照し、文書インデックス生成時の表示/非表示の判定を行う。
Further, the document
このように構成すると、文書内に不適切なサイトへのリンクを含む文書をスパム文書と判定することができる。また、不適切URL判定部17は、例えば、アフィリエイト又はアダルトサイト等の不適切なサイトであることをURLから事前に判別することができる。そして、不適切URL判定部17は、文書に含まれるURL又はURLのリダイレクト先のURLが遷移する文書に不適切な単語が含まれる場合、遷移元のURLを不適切なURLと判定することができる。そして、不適切URL判定部17は、URL又はURLのリダイレクト先のURLが遷移する文書が、複数の関連性のない話題語を含む文書からのリンクを有する場合、遷移元のURLを不適切URLと判定することができる。さらに、不適切URL判定部17は、URL又はURLのリダイレクト先のURLが遷移する文書が、複数の関連性のない話題語を含む場合であっても、URLを不適切URLと判定することができる。
With this configuration, a document that includes a link to an inappropriate site in the document can be determined as a spam document. Further, the inappropriate
このため、不適切なURLを含む文書をスパム文書と判定することができるため、スパムアカウントの抽出をより効率的に行うことが可能となる。 For this reason, since a document including an inappropriate URL can be determined as a spam document, a spam account can be extracted more efficiently.
(第3実施形態)
図8は、第3実施形態に係るスパムアカウント抽出装置の機能ブロック図である。第3実施形態に係るスパムアカウント抽出装置3は、第2実施形態に係るスパムアカウント抽出装置2に、更に友人一覧取得部18、スパムアカウント抽出部181、及びアカウント間類似度算出部19を備える。
(Third embodiment)
FIG. 8 is a functional block diagram of the spam account extraction apparatus according to the third embodiment. The spam account extraction device 3 according to the third embodiment further includes a friend
一般に、ミニブログサービスにおける友人関係には、一方からの申請を他方が承認することで成り立つ双方向のものと、一方のユーザが他方のユーザの投稿を一方的に閲覧可能な状態にする(以降、フォローと呼ぶ)一方向のものがある。説明理解の容易性を考慮し、本実施形態では、フォローの関係にあるユーザを友人関係にあるユーザとして説明する。 In general, friendships in the miniblog service include a bidirectional relationship that is established by one side approving an application from one side, and a state in which one user can unilaterally view the other user's post (hereinafter referred to as the other user's post). , Called follow). In consideration of the ease of understanding the explanation, in this embodiment, a user who is in a follow relationship is described as a user who is in a friend relationship.
友人一覧取得部18は、スパムユーザ格納部24に格納されたユーザアカウントの友人の一覧を取得する。スパムアカウント抽出部181は、第1のアカウントと関連する他のアカウントの一覧からから、類似度の高いアカウントをスパムアカウントとして抽出する。アカウント間類似度算出部19は、各スパムアカウントの類似度を、友人関係を用いて算出する。記憶部20は、類似度が一定の閾値を超えるアカウントをスパムユーザとしてスパムユーザ格納部24に格納する。
The friend
図9は、スパムアカウント抽出装置3におけるスパムアカウントを抽出するフローである。すなわち、友人関係からのスパムアカウント判定の処理の流れを示すフローチャートである。 FIG. 9 is a flow for extracting a spam account in the spam account extraction apparatus 3. That is, it is a flowchart showing a flow of processing for determining a spam account from a friend relationship.
図9に示すように、ステップS51において、友人一覧取得部18は、スパムアカウントと判定されたアカウントの友人一覧を、スパムユーザ格納部24から取得する。そして、ステップS52において、スパムアカウント抽出部181は、友人一覧取得部18が取得したユーザアカウントの一覧から、出現頻度の高い、即ちスパムアカウントを多数友人に持つアカウントを抽出する。
As shown in FIG. 9, in step S <b> 51, the friend
次に、ステップS53において、友人一覧取得部18は、ステップS52においてスパムアカウント抽出部181が抽出したユーザアカウントの友人一覧を取得する。
Next, in step S53, the friend
さらに、ステップS54において、アカウント間類似度算出部19は、ステップS52においてスパムアカウント抽出部181が抽出したアカウントと、そのアカウントの友人のアカウントとの類似度を、算出する。また、記憶部20は、類似度が一定の閾値を超えるアカウントをスパムアカウントとしてスパムユーザ格納部24に格納する。例えば、類似度の指標として例えばJaccard係数を用いてもよい。Jaccard係数を用いると、2つのアカウントX、Yの類似度は以下の式(1)にて評価される。
ここで、|X∩Y|はXとYが共通に友人として持つアカウントの数、|X∪Y|はXとYの少なくとも一方を友人として持つアカウントの総数となる。 Here, | X∩Y | is the number of accounts that X and Y have as friends in common, and | X∪Y | is the total number of accounts that have at least one of X and Y as friends.
あるいは、類似度の指標として、コサイン距離又はSimpson係数等他の類似度を表す指標を用いてもよい。 Alternatively, as a similarity index, an index representing another similarity such as a cosine distance or a Simpson coefficient may be used.
このように構成すると、第1のアカウントがスパムアカウントと判定された場合、効率的に他のスパムアカウントを抽出することができる。すなわち、ミニブログサービス上における友人関係から、スパム判定されたユーザアカウントの判定が可能となる。よって、スパムアカウントの抽出を効率的かつ網羅的に行うことが可能となる。 If comprised in this way, when a 1st account is determined to be a spam account, another spam account can be extracted efficiently. That is, it is possible to determine a user account determined to be spam from a friend relationship on the miniblog service. Therefore, it becomes possible to extract spam accounts efficiently and exhaustively.
尚、上述した実施形態では、友人関係における方向をフォローしているユーザを友人関係として説明したが、本実施形態における友人関係は、フォローしている場合に限らず、双方向の場合であってもよい。また、上述した実施形態では、1以上のアカウントを1のユーザが所有し管理していてもよい。 In the above-described embodiment, the user who follows the direction in the friendship has been described as the friendship. However, the friendship in the present embodiment is not limited to the case of following, but is a two-way case. Also good. In the above-described embodiment, one user may own and manage one or more accounts.
(第4実施形態)
図10は、第4実施形態に係るスパムアカウント抽出装置4の機能ブロック図である。第4実施形態に係るスパムアカウント抽出装置4は、第3実施形態に係るスパムアカウント抽出装置3に、更に文書閲覧制御部30を備える。
(Fourth embodiment)
FIG. 10 is a functional block diagram of the spam account extraction device 4 according to the fourth embodiment. The spam account extraction device 4 according to the fourth embodiment further includes a document
文書閲覧制御部30は、文書インデックス生成部16によって生成され文書インデックスにもとづいて、スパムアカウントからの投稿と判定された文書の閲覧を除外する。
The document
図11は、文書閲覧制御部30における文書の閲覧を判定するフローである。
FIG. 11 is a flow for determining document browsing in the document
まず、図11に示すように、ステップS61において、文書閲覧制御部30は、文書のインデックスを取得する。
First, as shown in FIG. 11, in step S61, the document
次に、ステップS62において、文書閲覧制御部30は、スパムユーザ格納部24からスパムアカウントについての検索結果を取得する。さらに、ステップS63において、文書閲覧制御部30は、文書の検索結果がスパムアカウントから投稿された文書か否かを判定する。そして、ステップS65において、文書閲覧制御部30は、検索結果がスパムカウントから投稿された文書と判定された場合は閲覧不可と判定する。一方、ステップS66において、文書閲覧制御部30は、検索結果がスパムカウントから投稿された文書ではないと判定された場合、文書を閲覧可能と判定する。
Next, in step S <b> 62, the document
このように構成すると、文書インデックス生成部16がスパムアカウントの判定結果に基づいて作成した文書のインデックスを基に、文書閲覧制御部30は、スパムアカウントではないアカウントからの投稿のみを閲覧可能とすることができる。このため、閲覧手段(不図示)は、文書のインデックスに基づいて、表示部1Hが表示する文書の検索結果中に、スパムアカウントの投稿が表示されないようにすることができる。
If comprised in this way, based on the index of the document which the document index production |
上述した各実施形態は、本発明に係るスパムアカウント抽出装置及びスパムアカウントの抽出方法の一例を示すものであり、実施形態に係る装置及び方法に限られるものではなく、変形し、又は他のものに適用したものであってもよい。 Each embodiment mentioned above shows an example of the spam account extraction device and spam account extraction method concerning the present invention, and is not restricted to the device and method concerning an embodiment, but changes, or others It may be applied to.
1,2,3,4…スパムアカウント抽出装置、10A,10B,10C,10D…判定部、11…話題語収集部、12…検索部、13…URL展開部、14…スパム文書判定部、15…スパムアカウント判定部、16…文書インデックス生成部、17…不適切URL判定部、18…友人一覧取得部、19…アカウント間類似度算出部、20…記憶部、21…文書インデックス格納部、21a…文書一覧、21b…転置インデックス、22…不適切URL格納部、23…スパム文書格納部、24…スパムユーザ格納部、30…文書閲覧制御部、100…判定部、101…URL展開部、102…Webページ取得部、103…Webページ解析部、181…スパムアカウント抽出部、200…記憶部、201…不適切語格納部、202…参照元話題語格納部、203…判定結果格納部、W…話題語。 1, 2, 3, 4 ... Spam account extraction device, 10A, 10B, 10C, 10D ... determination unit, 11 ... topic word collection unit, 12 ... search unit, 13 ... URL expansion unit, 14 ... spam document determination unit, 15 ... Spam account determination unit, 16 ... Document index generation unit, 17 ... Inappropriate URL determination unit, 18 ... Friend list acquisition unit, 19 ... Inter-account similarity calculation unit, 20 ... Storage unit, 21 ... Document index storage unit, 21a ... Document list, 21b ... Transposed index, 22 ... Inappropriate URL storage unit, 23 ... Spam document storage unit, 24 ... Spam user storage unit, 30 ... Document browsing control unit, 100 ... Determination unit, 101 ... URL development unit, 102 ... Web page acquisition unit, 103 ... Web page analysis unit, 181 ... Spam account extraction unit, 200 ... Storage unit, 201 ... Inappropriate word storage unit, 202 ... Reference source Title word storage unit, 203 ... judgment result storage unit, W ... topic words.
Claims (11)
投稿された前記文書に対して、前記話題語を少なくとも1つ含む前記文書を検索する検索部と、
前記検索部によって検索された前記文書が、前記話題語を一定数以上含む場合、前記文書をスパム文書と判定するスパム文書判定部と、
前記スパム文書が投稿される頻度に基づいて、前記スパム文書を投稿するアカウントをスパムアカウントと判定するスパムアカウント判定部と、
を備える、スパムアカウント抽出装置。 In a service for posting a document to a server on a network, a topic word collection that collects, as a topic word that is a specific topic, the word having an increased appearance frequency among words appearing in stream data composed of the document And
A search unit relative posted the document, searches for at least one comprising said document the topic word,
A spam document determination unit that determines that the document is a spam document if the document searched by the search unit includes a certain number of the topic words ;
A spam account determination unit that determines, based on the frequency with which the spam document is posted, an account that posts the spam document as a spam account;
Bei El, spam account extraction device.
前記スパム文書判定部は、前記URLが前記不適切URLと判定された場合、前記文書を前記スパム文書と判定する、
請求項1に記載のスパムアカウント抽出装置。 The spam account extraction device further includes an inappropriate URL determination unit that determines that the URL is an inappropriate URL when the URL included in the document includes a link to an inappropriate site,
The spam document determination unit determines the document as the spam document when the URL is determined as the inappropriate URL.
The spam account extraction device according to claim 1.
請求項2に記載のスパムアカウント抽出装置。 The inappropriate URL determination unit determines the URL as the inappropriate URL when the URL or a URL to which the URL is redirected includes a predefined character string.
The spam account extraction device according to claim 2.
請求項2又は3に記載のスパムアカウント抽出装置。 The inappropriate URL determination unit determines that the URL is an inappropriate URL when a document to which the URL or a URL to which the URL is redirected includes a predefined word,
The spam account extraction device according to claim 2 or 3.
請求項2〜4のいずれか一項に記載のスパムアカウント抽出装置。 The inappropriate URL determination unit determines that the URL or the URL to which the URL is redirected includes a link from a document including a plurality of unrelated topic words. To determine,
The spam account extraction device according to any one of claims 2 to 4.
請求項2〜5のいずれか一項に記載のスパムアカウント抽出装置。 The inappropriate URL determination unit determines that the URL is the inappropriate URL when the URL or the document to which the URL redirect destination transitions does not include the topic word used in the document.
The spam account extraction device according to any one of claims 2 to 5.
請求項2〜6のいずれか一項に記載のスパムアカウント抽出装置。 The inappropriate URL determination unit determines the URL as the inappropriate URL when the URL or the document to which the URL redirect destination includes transition includes a plurality of unrelated topic words.
The spam account extraction device according to any one of claims 2 to 6.
前記友人一覧取得部によって取得される前記第1のアカウントの友人一覧と、前記スパムアカウント判定部によりスパムアカウントと判定されたアカウントが投稿した文書を閲覧可能であるアカウントの一覧と、の類似度を算出するアカウント間類似度算出部と、
をさらに備え、
前記スパムアカウント判定部は、前記類似度に基づいて前記スパムアカウントを判定する、
請求項1〜7のいずれか一項に記載のスパムアカウント抽出装置。 A friend list acquisition unit that acquires a list of accounts that can view documents posted by the first account;
The degree of similarity between the friend list of the first account acquired by the friend list acquisition unit and the list of accounts that can view documents posted by the account determined to be a spam account by the spam account determination unit. A calculation unit for calculating similarity between accounts;
Further comprising
The spam account determination unit determines the spam account based on the similarity;
The spam account extraction device according to any one of claims 1 to 7.
前記アカウント間類似度算出部が算出するアカウント間の類似度に基づいて、前記類似度が一定の閾値を超えるアカウントを前記第1のアカウントの友人一覧から抽出するスパムアカウント抽出部、を含む請求項8に記載のスパムアカウント抽出装置。 The friend list acquisition unit
A spam account extraction unit that extracts, from the friend list of the first account, accounts whose similarity exceeds a certain threshold based on the similarity between accounts calculated by the inter-account similarity calculation unit. 9. The spam account extraction device according to 8.
前記スパムアカウントから投稿された文書の閲覧を制御する文書閲覧制御部と、
をさらに備える請求項1〜8のいずれか一項に記載のスパムアカウント抽出装置。 A document index generation unit that generates an index of the document based on a determination result determined by the spam account determination unit;
A document browsing control unit that controls browsing of documents posted from the spam account;
The spam account extraction device according to any one of claims 1 to 8, further comprising:
ネットワーク上のサーバに文書を投稿するサービスにおいて、前記文書からなるストリームデータ中に出現する単語のうち出現頻度が上昇している前記単語を特定の話題となっている話題語として収集する話題語収集ステップと、
投稿された前記文書に対して、前記話題語を少なくとも1つ含む前記文書を検索する検索ステップと、
前記検索ステップによって検索された前記文書が、前記話題語を一定数以上含む場合、前記文書をスパム文書と判定するスパム文書判定ステップと、
前記スパム文書が投稿される頻度に基づいて、前記スパム文書を投稿するアカウントをスパムアカウントと判定するスパムアカウント判定ステップと、
を備える、スパムアカウント抽出方法。 A spam account extraction method executed by a spam account extraction device,
In a service for posting a document to a server on a network, a topic word collection that collects, as a topic word that is a specific topic, the word having an increased appearance frequency among words appearing in stream data composed of the document Steps,
A search step of relative posted the document, searches for at least one comprising said document the topic word,
A spam document determination step of determining , when the document searched by the search step includes a certain number of the topic words or more, the document as a spam document;
A spam account determination step of determining an account that posts the spam document as a spam account based on the frequency with which the spam document is posted;
Bei El, spam account extraction methods.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012262369A JP5775508B2 (en) | 2012-11-30 | 2012-11-30 | Spam account extraction apparatus and spam account extraction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012262369A JP5775508B2 (en) | 2012-11-30 | 2012-11-30 | Spam account extraction apparatus and spam account extraction method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014109794A JP2014109794A (en) | 2014-06-12 |
JP5775508B2 true JP5775508B2 (en) | 2015-09-09 |
Family
ID=51030422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012262369A Active JP5775508B2 (en) | 2012-11-30 | 2012-11-30 | Spam account extraction apparatus and spam account extraction method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5775508B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111327913B (en) | 2020-01-20 | 2021-07-20 | 北京字节跳动网络技术有限公司 | Message processing method and device and electronic equipment |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4500285B2 (en) * | 2006-03-02 | 2010-07-14 | ヤフー株式会社 | Spam removal method |
JP5324824B2 (en) * | 2008-05-27 | 2013-10-23 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Information processing apparatus, information processing system, information processing method, and program for classifying network nodes |
-
2012
- 2012-11-30 JP JP2012262369A patent/JP5775508B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014109794A (en) | 2014-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11870864B2 (en) | System and method for automatic storyline construction based on determined breaking news | |
Sanchez et al. | Twitter bullying detection | |
CN101124576B (en) | Search system and methods with integration of user annotations from a trust network | |
US10074094B2 (en) | Generating a user profile based on self disclosed public status information | |
US8793249B2 (en) | Optimization filters for user generated content searches | |
US10885548B2 (en) | System and method for identification of subject line templates | |
US20160359791A1 (en) | Computerized notification system and method for delivering breaking news content | |
US20160359790A1 (en) | System and method for determining and delivering breaking news utilizing social media | |
US9483462B2 (en) | Generating training data for disambiguation | |
Lehmann et al. | Finding news curators in twitter | |
US8788342B2 (en) | Intelligent feature expansion of online text ads | |
WO2012159011A2 (en) | Method to increase content relevance using insights obtained from user activity updates | |
WO2015047920A1 (en) | Title and body extraction from web page | |
US8572118B2 (en) | Computer method and apparatus of information management and navigation | |
KR20160010416A (en) | Customizable, real time intelligence channel | |
CN112771564A (en) | Artificial intelligence engine that generates semantic directions for web sites to map identities for automated entity seeking | |
KR20150067897A (en) | Apparutus and method for predicting popularity of social data | |
KR101429397B1 (en) | Method and system for extracting core events based on message analysis in social network service | |
KR101011726B1 (en) | Apparatus and method for providing snippet | |
JP2010128917A (en) | Method, device and program for extracting information propagation network | |
Chen et al. | The best answers? think twice: online detection of commercial campaigns in the CQA forums | |
Alim et al. | Online social network profile data extraction for vulnerability analysis | |
JP5775508B2 (en) | Spam account extraction apparatus and spam account extraction method | |
JP5178077B2 (en) | Discussion status grasping support apparatus and method | |
JP5022946B2 (en) | Propagation structure extraction device and method, program, and computer-readable recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140416 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150630 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150703 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5775508 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |