JP6249794B2 - Bot determination device, bot determination method, and program - Google Patents
Bot determination device, bot determination method, and program Download PDFInfo
- Publication number
- JP6249794B2 JP6249794B2 JP2014012524A JP2014012524A JP6249794B2 JP 6249794 B2 JP6249794 B2 JP 6249794B2 JP 2014012524 A JP2014012524 A JP 2014012524A JP 2014012524 A JP2014012524 A JP 2014012524A JP 6249794 B2 JP6249794 B2 JP 6249794B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- determination
- bot
- information
- target user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Description
本発明は、SNS(Social Networking Service)において、発言を投稿しているユーザがボットであるか否かを判定するボット判定装置、ボット判定方法、およびプログラムに関する。 The present invention relates to a bot determination apparatus, a bot determination method, and a program for determining whether or not a user posting a message is a bot in SNS (Social Networking Service).
インターネット上には情報検索の邪魔となる広告等の情報(スパム)が大量に存在しており、それらを取り除く様々な研究が行われている。SNS(Social Networking Service)上においても、ボット(bot)と呼ばれる、ルールに基づき自動で発言するシステムが大量に存在し、これらがユーザに代わって自動的に出力する発言が、SNSから情報収集を行う際の大きな妨げとなっている。 There is a large amount of information (spam) such as advertisements that hinders information retrieval on the Internet, and various studies have been conducted to remove them. On SNS (Social Networking Service), there are a large number of systems called bots that automatically speak based on rules, and the utterances that are automatically output on behalf of users are collected from SNS. It is a great hindrance to doing.
既存のメール/URLのスパムフィルタでは、正例・負例が予め与えられていれば、ベイズ推定(例えば、非特許文献1参照)等の教師つき学習を用いて、スパムの判別が可能である。これらは基本的にスパムの正解例と似ているかどうかで判定するため、利用される単語が日々変化するSNS上で用いるためには、スパムの正否を人手で示した教師データを日々更新して行く必要があり、大変な労力を必要とするという問題点があった。 In the existing mail / URL spam filter, if positive examples and negative examples are given in advance, it is possible to discriminate spam using supervised learning such as Bayesian estimation (for example, see Non-Patent Document 1). . Since these are basically determined by whether or not they are similar to the correct answer example of spam, in order to use on SNS where the word used changes every day, the teacher data that indicates whether spam is correct or not is updated daily. There was a problem that it was necessary to go and a lot of labor was required.
この問題に対し、本文やURL参照先といったメタ情報や、ヘッダ/タグ/スクリプト等の構造情報といった、比較的変化が少ない特徴を基準として判定する手法(例えば、非特許文献2参照)が提案されているが、スパムが持つ上記の特徴が変化した場合は、やはり新たに学習データを更新する必要があった。 In order to deal with this problem, a method has been proposed (for example, refer to Non-Patent Document 2) in which characteristics such as meta information such as a text and URL reference destination and structure information such as header / tag / script are relatively small. However, if the above characteristics of spam change, it is necessary to update the learning data again.
一方で、文書間の類似性を評価し、類似する文書が多数あればそれをスパムとして判定することで、正/負の教師データ無しにスパムを判定する手法が提案されている(例えば、特許文献1、非特許文献3参照)。特許文献1では、メールのスパム判定をするために受信用のアカウントを複数用意し、2つのアカウントの受信した結果を比較し、類似するメールがあった場合はスパムと判定する手法が提案されている。また、非特許文献3では、この手法を更に一般化し、受け取ったメールの本文文書からハッシュ特徴量を抽出し、特徴空間内に存在するメールの密度を計算することで、類似するメール群を抽出する手法が提案されている。 On the other hand, there has been proposed a technique for evaluating spam without positive / negative teacher data by evaluating similarity between documents and determining if there are many similar documents as spam (for example, patents). Reference 1 and non-patent reference 3). Patent Document 1 proposes a method for preparing a plurality of receiving accounts for determining e-mail spam, comparing the results received by two accounts, and determining if there is a similar e-mail as spam. Yes. In Non-Patent Document 3, this technique is further generalized to extract a hash feature quantity from the received mail body document, and to extract a similar mail group by calculating the density of mail existing in the feature space. A technique has been proposed.
ところで、SNSにおいてはメールとは異なりユーザIDは使い捨てされない。そのため、スパムと判定される発言が多いユーザはボットであって、そのユーザの発言はスパムと判定されるのが正しい。しかしながら、非特許文献1から3、および特許文献1で提案されている手法では、発言(文書)1件毎にスパムの判定をしているため、ボットであるユーザの発言であっても、スパムと判定された発言と類似していなければ、スパムと判定されず、効率よくスパムを除去できないという問題点があった。 By the way, unlike e-mail, a user ID is not disposable in SNS. Therefore, it is correct that a user who has many utterances determined to be spam is a bot, and that the user's utterance is determined to be spam. However, in the methods proposed in Non-Patent Documents 1 to 3 and Patent Document 1, spam is determined for each utterance (document), so even a bot user's utterance is spam. If it is not similar to the speech determined to be, it is not determined to be spam, and there is a problem that spam cannot be efficiently removed.
そこで、本発明は上記課題に鑑み、SNSにおいて、発言を投稿しているユーザがボットであるか否かを、ユーザIDが使い捨てされないというSNSの特性、および発言の投稿は予めプログラムされたルールに従って行うというボットの特性を利用して、学習データを必要とせずに、効率よく判定するボット判定装置、ボット判定方法、およびプログラムを提供することを目的とする。 Therefore, in view of the above problems, the present invention is based on the SNS characteristics that the user ID is not thrown away and the posting of the utterance in accordance with a pre-programmed rule in the SNS, whether or not the user posting the utterance is a bot. An object of the present invention is to provide a bot determination device, a bot determination method, and a program that efficiently determine without using learning data by using the characteristic of the bot to be performed.
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。 The present invention proposes the following matters in order to solve the above problems. In addition, in order to make an understanding easy, although the code | symbol corresponding to embodiment of this invention is attached | subjected and demonstrated, it is not limited to this.
(1) 本発明は、投稿された発言の受け付けと公開を行うSNS(Social Networking Service)において、前記発言を投稿しているユーザがボットであるか否かを判定するボット判定装置(例えば、図1のボット判定装置100)であって、前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段(例えば、図1の発言記憶部120)と、判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザとの間における投稿タイミングの規則性を示す規則性指数を算出する規則性指数算出手段(例えば、図1の規則性指数算出部130)と、前記規則性指数算出手段で算出された規則性指数と、予め設定されたしきい値とを比較することによって、前記判定対象ユーザが前記ボットであるか否かを判定するユーザ判定手段(例えば、図1のユーザ判定部110)と、を備えるボット判定装置を提案している。
(1) The present invention relates to a bot determination device that determines whether or not a user posting a comment is a bot in an SNS (Social Networking Service) that accepts and publishes posted comments. 1 bot determination device 100), and a message storage means (for example,
(2) 本発明は、(1)のボット判定装置について、前記規則性指数算出手段が、前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの各投稿日時情報に、当該各投稿日時情報に最も近い前記他ユーザそれぞれの投稿日時情報を対応付けた最近傍投稿日時リストを取得する最近傍投稿日時リスト取得手段(例えば、図1の最近傍投稿日時リスト取得部141)と、前記最近傍投稿日時リスト取得手段で取得した前記最近傍投稿日時リストに基づいて、前記他ユーザそれぞれと前記判定対象ユーザとの投稿タイミングの関連性を示す個別相関係数を算出する個別相関係数算出手段(例えば、図1の個別相関係数算出部142)と、前記個別相関係数算出手段で算出された個別相関係数の中から、前記判定対象ユーザの前に発言を投稿する傾向を有する他ユーザの個別相関係数を前記最近傍投稿日時リスト取得手段で取得した最近傍投稿日時リストに基づいて抽出し、抽出した個別相関係数の最大相関係数をタイミング相関係数として決定するタイミング相関係数決定手段(例えば、図1のタイミング相関係数決定部143)と、を備え、前記ユーザ判定手段が、前記タイミング相関係数と、前記予め設定されたしきい値との大小関係から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とするボット判定装置を提案している。
(2) In the bot determination device according to (1), the regularity index calculation unit includes, in the posting date information of the determination target user, based on the statement information stored in the statement storage unit. The nearest posting date / time list acquisition means (for example, the nearest posting date / time
(3) 本発明は、(1)または(2)のボット判定装置について、前記発言記憶手段の発言情報は、前記SNSに投稿された各発言の他発言との関係を示す発言間関係情報を更に含み、前記規則性指数算出手段が、前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの応答発言の投稿日時情報のリストである応答日時リストを取得する応答日時リスト取得手段(例えば、図1の応答日時リスト取得部151)と、前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの応答発言の元発言の投稿日時情報のリストである元投稿日時リストを取得する元投稿日時リスト取得手段(例えば、図1の元投稿日時リスト取得部152)と、前記応答日時リスト取得手段で取得した応答日時リストと、前記元投稿日時リスト取得手段で取得した元投稿日時リストとに基づいて、前記判定対象ユーザが前記応答発言を投稿するまでの応答時間を算出し、算出した応答時間の平均を前記判定対象ユーザのユーザ応答時間として決定するユーザ応答時間決定手段(例えば、図1のユーザ応答時間決定部153)と、を備え、前記ユーザ判定手段が、前記ユーザ応答時間決定手段で取得されたユーザ応答時間と、前記予め設定されたしきい値との大小関係から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とするボット判定装置を提案している。
(3) In the bot determination device according to (1) or (2), the speech information in the speech storage means includes inter-speech relationship information indicating a relationship with other speeches posted to the SNS. In addition, the regularity index calculating means obtains a response date / time list that is a list of post date / time information of response messages of the determination target user based on the message information stored in the message storage means It is a list of post date information of original utterances of the response utterance of the determination target user based on utterance information stored in the utterance storage means (for example, response date / time
(4) 本発明は、(3)のボット判定装置について、前記規則性指数算出手段が、前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザと一の前記他ユーザとの間で所定の間隔以下で連続的に発言がやり取りされている連続応答区間の発言情報を抽出する連続応答区間抽出手段(例えば、図1の連続応答区間抽出部161)と、前記連続応答区間抽出手段で抽出された連続応答区間の発言情報に基づいて、当該連続応答区間内に含まれる各発言の応答間隔を算出し、算出した応答間隔の差分から交替潜時特徴量を算出する交替潜時特徴量算出手段(例えば、図1の交替潜時特徴量算出部160)と、を備え、前記ユーザ判定手段が、前記交替潜時特徴量算出手段で算出した交替潜時特徴量から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とするボット判定装置を提案している。
(4) In the bot determination device according to (3), the regularity index calculation unit may be configured to have the determination target user and one other user based on the statement information stored in the statement storage unit. A continuous response section extracting means (for example, the continuous response
(5) 本発明は、(4)のボット判定装置について、前記発言記憶手段の発言情報は、前記SNSに投稿された各発言の内容情報を更に含み、前記規則性指数算出手段が、前記連続応答区間抽出手段で抽出された連続応答区間の発言情報に含まれる内容情報に基づいて、当該連続応答区間内に含まれる各発言が前発言に同意するか否かを判定する同意判定手段(例えば、図1の同意判定部162)を備え、前記交替潜時特徴量算出手段が、当該連続応答区間内に含まれる各発言の前記同意判定手段の判定結果によって、前記応答間隔に重み付けを行うことを特徴とするボット判定装置を提案している。 (5) In the bot determination device according to (4), the utterance information in the utterance storage unit further includes content information of each utterance posted to the SNS, and the regularity index calculation unit includes the continuous index calculation unit. Based on the content information included in the utterance information of the continuous response section extracted by the response section extraction means, consent determination means for determining whether or not each utterance included in the continuous response section agrees with the previous utterance (for example, 1, and the alternation latency feature value calculating unit weights the response interval according to the determination result of the consent determination unit of each utterance included in the continuous response section. Has proposed a bot determination device characterized by the following.
(6) 本発明は、(1)から(5)のボット判定装置について、前記規則性指数算出手段が、前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの投稿日時情報のリストを取得する解析投稿日時リスト取得手段(例えば、図1の解析投稿日時リスト取得部171)と、前記解析投稿日時リスト取得手段で取得した前記判定対象ユーザの投稿日時情報のリストをスペクトル解析し、振幅スペクトルの最大振幅値を周期性指数として取得するスペクトル解析手段(例えば、図1のスペクトル解析部172)と、を備え、前記ユーザ判定手段が、前記スペクトル解析手段で取得された周期性指数と、前記予め設定されたしきい値との大小関係から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とするボット判定装置を提案している。
(6) In the bot determination device according to any one of (1) to (5), the regularity index calculation means is based on the comment information stored in the comment storage means, and the posting date and time of the determination target user An analysis posting date / time list acquisition unit (for example, an analysis posting date / time
(7) 本発明は、(6)のボット判定装置について、前記スペクトル解析手段が、離散フーリエ変換法またはpiccolo法を用いて、前記解析投稿日時リスト取得手段で取得した前記判定対象ユーザの投稿日時情報のリストを解析し、前記周期性指数を算出することを特徴とするボット判定装置を提案している。 (7) In the bot determination device according to (6), the spectrum analysis unit uses the discrete Fourier transform method or the piccolo method, and the posting date / time of the determination target user acquired by the analysis posting date / time list acquisition unit It proposes a bot determination device characterized by analyzing a list of information and calculating the periodicity index.
(8) 本発明は、(6)または(7)のボット判定装置について、前記発言記憶手段は、前記SNSに投稿された各発言の他発言との関係を示す発言間関係情報を更に発言情報に含め、解析投稿日時リスト取得手段が、前記発言記憶手段に記憶されている発言情報の発言間関係情報に基づいて、前記判定対象ユーザについて、応答発言以外の発言の投稿日時情報のリストを取得することを特徴とするボット判定装置を提案している。 (8) In the bot determination device according to (6) or (7), the speech storage unit further includes inter-speech relationship information indicating a relationship with other utterances posted to the SNS. In addition, the analysis posting date / time list acquisition unit acquires a list of posting date / time information of statements other than response messages for the determination target user based on the inter-speech relationship information of the speech information stored in the speech storage unit A bot determination device characterized by the above is proposed.
(9) 本発明は、投稿された発言の受け付けと公開を行うSNS(Social Networking Service)において、前記発言を投稿しているユーザがボットであるか否かを判定するボット判定装置(例えば、図2のボット判定装置200)であって、前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段と、判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザとの間における投稿タイミングの規則性を示す複数種類の規則性指数を算出する規則性指数算出手段(例えば、図2の規則性指数算出部131)と、ボットであると判定されているユーザおよび当該ボットでないと判定されているユーザそれぞれの前記複数種類の規則性指数を教師データとして、所定の学習アルゴリズムを用いて、前記複数種類の規則性指数それぞれを重み付けして統合した統合モデルを学習する統合モデル学習手段(例えば、図2の統合モデル学習部210)と、判定対象ユーザについて前記規則性指数算出手段で算出された前記複数種類の規則性指数と前記統合モデル学習手段で学習された統合モデルに基づいて、前記判定対象ユーザがボットであるか否かを判定する統合モデル判定手段(例えば、図2の統合モデル判定部230)と、を備えるボット判定装置を提案している。
(9) The present invention relates to a bot determination device that determines whether or not the user who posted the utterance is a bot in an SNS (Social Networking Service) that accepts and publishes the posted comments. 2 bot determination device 200), which stores message information storing means for storing message information including at least posted user information and posted date information of messages posted to the SNS, and a determination target user stored in the message storage means. based on the speech information that is, definitive regularity index calculating means for calculating a plurality of types of regularity index indicating the regularity of the post timing (e.g., regularity index of 2 between the other users and the determination target user A calculation unit 131), a user determined to be a bot, and a user determined to be not the bot An integrated model learning means for learning an integrated model obtained by weighting and integrating each of the plurality of types of regularity indices using a predetermined learning algorithm using the plurality of types of regularity indices as teacher data (for example, FIG. 2). Integrated model learning unit 210), the determination target user based on the plurality of types of regularity indexes calculated by the regularity index calculation means for the determination target user and the integrated model learned by the integrated model learning means Has proposed an integrated model determination means (for example, an integrated
(10) 本発明は、投稿された発言の受け付けと公開を行うSNS(Social Networking Service)において、前記発言を投稿しているユーザがボットであるか否かを判定するボット判定装置におけるボット判定方法であって、前記ボット判定装置が、前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段と、規則性指数算出手段と、ユーザ判定手段と、を備え、前記ユーザ判定手段が、前記ボットか否かの判定を行う判定対象ユーザの入力を受け付ける第1のステップ(例えば、図2のステップS1)と、前記規則性指数算出手段が、前記判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザとの間における投稿タイミングの規則性を示す規則性指数を算出する第2のステップ(例えば、図2のステップS2からS7)と、前記ユーザ判定手段が、前記第2のステップで算出された規則性指数と、予め設定されたしきい値とを比較することによって、前記判定対象ユーザが前記ボットであるか否かを判定する第3のステップ(例えば、図2のステップS8からS10)と、を含むボット判定方法を提案している。 (10) The present invention relates to a bot determination method in a bot determination device that determines whether or not a user who has posted a comment is a bot in an SNS (Social Networking Service) that accepts and discloses posted comments. The bot determination device stores message information including at least posted user information and posted date and time information of a message posted to the SNS, regularity index calculation means, user determination means, A first step (for example, step S1 in FIG. 2) for receiving an input of a determination target user for determining whether or not the user is a bot; and for the target user, based on the speech information stored in said speech storage means, determination target user and other users A second step of calculating the regularity index indicating the regularity of the definitive post timing between the (e.g., from step S2 of FIG. 2 S7) and, said user determination means, rules that are calculated in the second step A third step (for example, steps S8 to S10 in FIG. 2) for determining whether or not the determination target user is the bot by comparing the sex index with a preset threshold; A bot determination method including
(11) 本発明は、投稿された発言の受け付けと公開を行うSNS(Social Networking Service)において、前記発言を投稿しているユーザがボットであるか否かを判定するボット判定装置におけるボット判定方法をコンピュータに実行させるためのプログラムであって、前記ボット判定装置が、前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段と、規則性指数算出手段と、ユーザ判定手段と、を備え、前記ユーザ判定手段が、前記ボットか否かの判定を行う判定対象ユーザの入力を受け付ける第1のステップ(例えば、図2のステップS1)と、前記規則性指数算出手段が、前記判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザとの間における投稿タイミングの規則性を示す規則性指数を算出する第2のステップ(例えば、図2のステップS2からS7)と、前記ユーザ判定手段が、前記第2のステップで算出された規則性指数と、予め設定されたしきい値とを比較することによって、前記判定対象ユーザが前記ボットであるか否かを判定する第3のステップ(例えば、図2のステップS8からS10)と、をコンピュータに実行させるためのプログラムを提案している。 (11) The present invention relates to a bot determination method in a bot determination device that determines whether or not a user who has posted a comment is a bot in a social networking service (SNS) that accepts and publishes the posted comment. , A bot determination device that stores utterance information including at least posted user information and posted date information of the utterance posted to the SNS, and regularity index calculation A first step (for example, step S1 in FIG. 2) for receiving an input of a determination target user for determining whether the user is a bot, and the rule. The sex index calculating means stores the speech stored in the speech storage means for the determination target user. Based on the information, a second step of calculating the regularity index indicating the regularity of the definitive post timing between the other users and the determination target user (e.g., S7 from step S2 of FIG. 2), the user determination unit A third step of determining whether or not the determination target user is the bot by comparing the regularity index calculated in the second step with a preset threshold value ( For example, a program for causing a computer to execute steps S8 to S10) of FIG. 2 is proposed.
本発明によれば、SNSにおいて、発言を投稿しているユーザがボットであるか否かを、ユーザIDが使い捨てされないというSNSの特性、および発言の投稿は予めプログラムされたルールに従って行うというボットの特性を利用して、学習データを必要とせずに、効率よく判定することができる。その結果、SNSにおいて、ボットの発言を除くことができ、効率よくスパムを除去できる。 According to the present invention, in the SNS, whether or not the user posting the speech is a bot, whether the user ID is not disposable, the SNS characteristics, and the posting of the speech is performed according to pre-programmed rules. Using the characteristics, it is possible to make an efficient determination without requiring learning data. As a result, in the SNS, bot remarks can be removed, and spam can be efficiently removed.
以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that the constituent elements in the present embodiment can be appropriately replaced with existing constituent elements and the like, and various variations including combinations with other existing constituent elements are possible. Therefore, the description of the present embodiment does not limit the contents of the invention described in the claims.
<第1の実施形態>
<ボット判定装置の機能構成>
図1は、本発明の第1の実施形態に係るボット判定装置100の機能構成を示す図である。ボット判定装置100は、SNS(Social Networking Service)において、発言を投稿しているユーザがボットであるか否かを判定する装置であって、ユーザ判定部110、発言記憶部120、規則性指数算出部130、およびしきい値記憶部180を備える。ここで、本発明におけるボットとは、広告等の情報(スパム)を発言する、機械による自動発言システムを意味する。
<First Embodiment>
<Functional configuration of bot determination device>
FIG. 1 is a diagram illustrating a functional configuration of a
ユーザ判定部110は、ボットであるか否かを判定するユーザ(以下、判定対象ユーザという)のSNSにおけるユーザID、または判定対象ユーザの発言情報が入力されたことに応じて、処理を開始して、ユーザIDまたは判定対象ユーザの発言情報を規則性指数算出部130に送信する。判定対象ユーザの発言情報が入力された場合には、ユーザ判定部110は、判定対象ユーザの発言情報を発言記憶部120に記憶する。発言情報については、後述する発言記憶部120にて説明する。
The
そして、ユーザ判定部110は、規則性指数算出部130から規則性指数を受信すると、規則性指数算出部130から受信した規則性指数と、しきい値記憶部180に記憶されているしきい値と、を比較して、判定対象ユーザがボットであるか否かを判定する。規則性指数とは判定対象ユーザの投稿タイミングの規則性をあらわす指数であって、ユーザ判定部110が規則性指数としきい値とを比較することによって、判定対象ユーザの発言タイミングに規則性があるか否かを判定する。
When receiving the regularity index from the regularity
ボットによる発言の投稿は予めプログラムされたルールに従って行われるために、投稿のタイミングには規則性が生じるので、ユーザ判定部110は規則性があると判定した場合には、判定対象ユーザはボットであると判定し、一方、規則性がないと判定した場合には、判定対象ユーザはボットでない非ボットと判定する。
Since posting of utterances by bots is performed according to pre-programmed rules, regularity occurs in the posting timing. Therefore, when the
発言記憶部120は、SNSに投稿された発言の発言情報を記憶する。ここで、発言情報は、発言を投稿したユーザのユーザID、SNSに投稿された発言の投稿日時情報、SNSに投稿された各発言の他発言との関係を示す発言間関係情報、発言の内容を示す内容情報を含む。発言記憶部120に記憶される発言情報は、SNSのサーバから定期的に自動で取得されてもよいし、ボット判定装置100の管理者が手動で登録を行ってもよい。
The
ここで、各発言の他発言との関係とは、各発言が、他ユーザが投稿した発言を再投稿(返信も含む)や引用投稿(言及も含む)している関係をいい、これらの関係にある発言を、本発明においては、応答発言という。例えば、発言間関係情報は、応答発言であるか、および応答対象の元発言を特定する情報を含み、投稿サイト内で適用される投稿ルールを利用して、「@」に続いてプレーヤの投稿サイトユーザ名が含まれる投稿を抽出すること等により実現できる。 Here, the relationship between each utterance and other utterances refers to a relationship in which each utterance re-posts (including replies) or quotes (including references) utterances posted by other users. In the present invention, the utterance in the above is called a response utterance. For example, the inter-speech relationship information includes information that identifies whether the response is a response speech and the original speech to be responded to, and uses the posting rules applied within the posting site, followed by the player's post This can be realized by extracting posts including the site user name.
規則性指数算出部130は、タイミング相関係数算出部140、ユーザ応答時間算出部150、交替潜時特徴量算出部160、および周期性指数算出部170を備える。なお、規則性指数算出部130は、タイミング相関係数算出部140、ユーザ応答時間算出部150、交替潜時特徴量算出部160、および周期性指数算出部170のうち、少なくとも1つ備えていればよい。
The regularity
タイミング相関係数算出部140は、判定対象ユーザと他ユーザとの間の発言の投稿タイミングの相関関係を表すタイミング相関係数を規則性指数として算出する。ところで、ボットによる発言の投稿は予めプログラムされたルールに従って行われるために、ボットによる発言の投稿は、特定ユーザの発言の投稿に追従するという規則性があることが多い。この場合には、ボットと特定ユーザとの間の発言の投稿タイミングに相関関係が表れるので、規則性指数としてタイミング相関係数を利用して、判定対象ユーザがボットか否かを判定することができる。
The timing correlation
図1に示すように、タイミング相関係数算出部140は、最近傍投稿日時リスト取得部141、個別相関係数算出部142、およびタイミング相関係数決定部143を備える。
As shown in FIG. 1, the timing correlation
最近傍投稿日時リスト取得部141は、発言記憶部120に記憶されている発言情報に基づいて、判定対象ユーザの各投稿日時情報に、各投稿日時情報に最も近い他ユーザそれぞれの投稿日時情報を対応付けた最近傍投稿日時リストを取得する。
The nearest posting date / time
最近傍投稿日時リスト取得部141は、ユーザ判定部110から判定対象ユーザのユーザIDを取得すると、取得したユーザIDに基づいて、発言記憶部120から判定対象ユーザの投稿日時情報を取得する。最近傍投稿日時リスト取得部141は、発言記憶部120に記憶されている全投稿日時情報を取得してもよいし、期間を指定して、期間内の投稿日時情報のみを取得するようにしてもよい。
When acquiring the user ID of the determination target user from the
ユーザ判定部110から発言情報を取得した場合には、最近傍投稿日時リスト取得部141は、発言記憶部120から取得する判定対象ユーザの投稿日時情報の代わりに、ユーザ判定部110から発言情報に含まれる投稿日時情報を利用してもよい。また、最近傍投稿日時リスト取得部141は、ユーザ判定部110から取得した発言情報に含まれる判定対象ユーザのユーザIDに基づいて、発言記憶部120から判定対象ユーザの投稿日時情報を取得してもよい。
When the utterance information is acquired from the
また、最近傍投稿日時リスト取得部141は、判定対象ユーザのユーザIDに基づいて判定対象ユーザ以外の他ユーザのユーザIDを発言記憶部120から取得する。なお、ユーザ判定部110から発言情報を取得した場合には、発言情報含まれる判定対象ユーザのユーザIDに基づいて、判定対象ユーザ以外の他ユーザのユーザIDを発言記憶部120から取得する。このとき、判定対象ユーザ以外であって、所定数以上の発言があるユーザのみを他ユーザとしてもよい。
The nearest posting date / time
最近傍投稿日時リスト取得部141は、取得した他ユーザのユーザIDに基づいて、他ユーザ毎に投稿日時情報を取得する。そして、最近傍投稿日時リスト取得部141は、他ユーザの投稿日時情報の中から、判定対象ユーザの各投稿日時情報に最も近い投稿日時情報それぞれを抽出し、判定対象ユーザの各投稿日時情報に対応付け、同処理を全他ユーザについて行って最近傍投稿日時リストを作成する。
The nearest neighbor posting date
個別相関係数算出部142は、最近傍投稿日時リスト取得部141で取得された最近傍投稿日時リストに基づいて、判定対象ユーザと他ユーザそれぞれとの投稿タイミングの関連性を示す、判定対象ユーザの投稿日時情報と他ユーザの投稿日時情報との個別相関係数を算出する。具体的には、以下の(1)式に最近傍投稿日時リストから判定対象ユーザのi番目の投稿日時情報と、他ユーザのi番目の投稿日時情報を代入して、判定対象ユーザと他ユーザとの個別相関係数を算出する。なお、個別相関係数算出部142は、全他ユーザについて判定対象ユーザとの相関係数を算出する。
The individual correlation
タイミング相関係数決定部143は、個別相関係数算出部142で算出された個別相関係数の中から、判定対象ユーザの前に発言を投稿する傾向を有する他ユーザの個別相関係数を最近傍投稿日時リスト取得部141で取得した最近傍投稿日時リストに基づいて抽出し、抽出した個別相関係数の最大相関係数をタイミング相関係数として決定する。
The timing correlation
具体的には、タイミング相関係数決定部143は、最近傍投稿日時リスト取得部141で取得された最近傍投稿日時リストに基づいて、判定対象ユーザの投稿日時情報の平均値と他ユーザそれぞれの投稿日時情報の平均値とを算出する。次に、タイミング相関係数決定部143は、判定対象ユーザの投稿日時情報の平均値よりも投稿日時情報の平均値が小さい他ユーザを特定する。判定対象ユーザの投稿日時情報の平均値よりも投稿日時情報の平均値が小さい他ユーザは、判定対象ユーザより前の投稿する傾向を有すると判断することができる。そして、タイミング相関係数決定部143は、特定した他ユーザと判定対象ユーザとの個別相関係数の最大値を、タイミング相関係数として決定する。
Specifically, the timing correlation
ボットによる発言の投稿は他ユーザの発言の投稿に追従するので、判定対象ユーザが追従している他ユーザとの個別相関係数の最大値を、ボットか否かの判定に用いるタイミング相関係数として決定する。タイミング相関係数決定部143は、判定対象ユーザの投稿日時情報の平均値よりも投稿日時情報の平均値が小さい他ユーザを特定することができない場合は、判定対象ユーザが追従している他ユーザがいないので、判定対象ユーザはボットでないと判断できる。この場合、ユーザ判定部110に判定対象ユーザがボットでないと必ず判断させるために、タイミング相関係数を0やマイナス値に置き換えることが望ましい。
Since the posting of the utterance by the bot follows the posting of the utterance of the other user, the timing correlation coefficient used to determine whether or not the bot is the maximum individual correlation coefficient with the other user that the target user follows Determine as. If the average value of the posting date information is smaller than the average value of the posting date information of the determination target user and the timing correlation
タイミング相関係数は大きいほど、判定対象ユーザと他ユーザとの投稿タイミングに関連性があることを示す。規則性指数として算出されたタイミング相関係数としきい値記憶部180に記憶されているしきい値との大小関係を比較し、ユーザ判定部110は、タイミング相関係数がしきい値よりも大きい場合には、判定対象ユーザはボットであると判断し、一方、タイミング相関係数がしきい値以下の場合には、判定対象ユーザはボットでないと判断する。
The larger the timing correlation coefficient, the more relevant the posting timing between the determination target user and other users. The
ユーザ応答時間算出部150は、判定対象ユーザの応答時間を規則性指数として算出する。ところで、ボットによる発言の投稿は予めプログラムされたルールに従って行われるために、ボットは人よりも応答が速いという規則性があることが多ので、規則性指数として応答時間を利用して、判定対象ユーザがボットか否かを判定することができる。
The user response
図1に示すように、ユーザ応答時間算出部150は、応答日時リスト取得部151、元投稿日時リスト取得部152、およびユーザ応答時間決定部153を備える。
As illustrated in FIG. 1, the user response
応答日時リスト取得部151は、ユーザ判定部110から判定対象ユーザのユーザIDを取得すると、取得したユーザIDに対応付けて発言記憶部120に記憶されている発言間関係情報に含まれる応答発言であるかの情報に基づいて、判定対象ユーザの応答発言の投稿日時情報のリストである応答日時リストを、発言記憶部120から取得する。
When the response date and time
応答日時リスト取得部151は、ユーザ判定部110から判定対象ユーザの発言情報を取得した場合には、取得した発言情報に含まれる発言間関係情報に基づいて、判定対象ユーザの応答発言の投稿日時情報のリストである応答日時リストを取得する。なお、応答日時リスト取得部151は、ユーザ判定部110から取得した発言情報に含まれる判定対象ユーザのユーザIDに対応付けて発言記憶部120に記憶されている発言間関係情報に基づいて、応答日時リストを発言記憶部120から取得してもよい。
When the response date and time
元投稿日時リスト取得部152は、ユーザ判定部110から判定対象ユーザのユーザIDを取得すると、取得したユーザIDに対応付けて発言記憶部120に記憶されている発言間関係情報に含まれる応答対象の元発言を特定する情報に基づいて、判定対象ユーザの各応答発言の元発言の投稿日時情報のリストである元投稿日時リストを、発言記憶部120から取得する。なお、元投稿日時リストのi番目の投稿日時情報は、応答日時リストのi番目の投稿日時情報に対応する応答発言の元発言である。
When the original posting date / time list acquisition unit 152 acquires the user ID of the determination target user from the
元投稿日時リスト取得部152は、ユーザ判定部110から判定対象ユーザの発言情報を取得した場合には、取得した発言情報の発言間関係情報に含まれる応答対象の元発言を特定する情報に基づいて、判定対象ユーザの各応答発言の元発言の投稿日時情報のリストである元投稿日時リストを取得する。なお、元投稿日時リスト取得部152は、ユーザ判定部110から取得した発言情報に含まれる判定対象ユーザのユーザIDに対応付けて発言記憶部120に記憶されている発言間関係情報に含まれる応答対象の元発言を特定する情報に基づいて、応答日時リストを発言記憶部120から取得してもよい。
When the original posting date / time list acquisition unit 152 acquires the utterance information of the determination target user from the
ユーザ応答時間決定部153は、応答日時リストと元投稿日時リストとにおいて対応する投稿日時情報に基づいて、判定対象ユーザが各応答発言を投稿するまでの応答時間をそれぞれ算出し、算出した応答時間の平均を判定対象ユーザのユーザ応答時間として決定する。
The user response
応答時間が常に早いユーザはボットである可能性が高いことから、ユーザ判定部110は、ユーザ応答時間算出部150で算出されたユーザ応答時間をしきい値と比較し、しきい値よりもユーザ応答時間が小さい場合には、判定対象ユーザはボットであると判断し、一方、ユーザ応答時間がしきい値以上である場合には、判定対象ユーザは非ボットであると判断する。
Since the user whose response time is always fast is likely to be a bot, the
交替潜時特徴量算出部160は、判定対象ユーザの交代潜時特徴量を規則性指数として算出する。ところで、人が2者間で対話する際には交代潜時が同調するが、ボットによる発言の投稿は予めプログラムされたルールに従って行われるために、交代潜時が同調しないという規則性があることが多ので、規則性指数として交代潜時特徴量を利用して、判定対象ユーザがボットか否かを判定することができる。
The alternation latency feature
図1に示すように、交替潜時特徴量算出部160は、連続応答区間抽出部161、同意判定部162、および交替潜時特徴量決定部163を備える。
As shown in FIG. 1, the replacement latency feature
連続応答区間抽出部161は、発言記憶部120に記憶されている発言情報に基づいて、判定対象ユーザと一の他ユーザとリアルタイムに近い間隔で互いに向かって発言の投稿を所定回数繰り返している連続応答区間の発言情報を、発言記憶部120から抽出する。
The continuous response
具体的には、連続応答区間抽出部161は、まず、判定対象ユーザのユーザIDと、発言記憶部120に記憶されている発言間関係情報に含まれる応答対象の元発言を特定する情報および投稿日時情報とに基づいて、判定対象ユーザの発言と応答関係にあって、判定対象ユーザの発言との投稿間隔が所定時間以内にある発言を投稿しているユーザを連続応答ユーザ候補として抽出する。なお、ユーザ判定部110から発言情報を取得した場合には、最初に、ユーザ判定部110から取得した発言情報に含まれる判定対象ユーザのユーザIDを取得する。
Specifically, the continuous response
次に、連続応答区間抽出部161は、発言記憶部120に記憶されている発言間関係情報に含まれる応答対象の元発言を特定する情報に基づいて、抽出した一の連続応答ユーザ候補の発言および判定対象ユーザの発言の中から応答関係にある発言の発言情報を抽出し、抽出した発言情報に含まれる投稿日時情報に基づいて、時系列に並べた発言時系列リストを作成する。連続応答区間抽出部161は、全ての連続応答ユーザ候補について、発言時系列リストを作成する。
Next, the continuous response
そして、連続応答区間抽出部161は、作成した全発言時系列リストの中から投稿間隔が所定時間以内の発言が所定数以上続く区間を連続応答区間として特定し、全発言時系列リストから連続応答区間の発言情報を抽出する。
Then, the continuous response
同意判定部162は、連続応答区間抽出部161で抽出された発言情報に含まれる内容情報に基づいて、連続応答区間の各発言が元発言に同意か不同意かを判定する。なお、同意でも不同意でもない中立かを含めて判定を行ってもよい。判定結果は、発言情報に付与する。
The
交替潜時特徴量算出部160は、連続応答区間抽出部161で抽出された連続応答区間の発言情報に含まれる投稿日時情報に基づいて、連続応答区間内に含まれる各発言の応答間隔を算出し、算出した応答間隔を以下の(2)式に代入して、交替潜時特徴量を算出する。
The alternation latency feature
交替潜時特徴量算出部160は、連続応答区間の発言情報に同意判定部162の判定結果が付与されている場合には、判定結果に基づいて、連続応答区間内に含まれる各発言の応答間隔に重み付けを行う。そして、重み付けをした応答間隔を上述した(2)式に代入して、交替潜時特徴量を算出する。
When the determination result of the
相手に不同意の場合の応答時間は、同意の場合に応答時間に比べ長くなる傾向がある(非特許文献4:松山隆司,川嶋宏彰,平山高嗣,「時間と時間感覚に対する感性の情報処理」,電子情報通信学会誌 92(11),952−954,2009−11−01)。そのため、発言が同意か不同かによって応答時間に重み付けを行うことにより、より精度よく交替潜時特徴量を算出することが可能となる。 Response time in the case of disagreement with the other party tends to be longer than response time in the case of consent (Non-patent document 4: Takashi Matsuyama, Hiroaki Kawashima, Takaaki Hirayama, “Information processing of sensitivity to time and time sense”) , IEICE Journal 92 (11), 952-954, 2009-11-01). Therefore, it is possible to calculate the alternation latency feature amount with higher accuracy by weighting the response time depending on whether the utterance is agreement or disagreement.
人間は2者間で対話する際、交替潜時が同調することから、ユーザ判定部110は、交代潜時特徴量が、しきい値「0」に収束する場合には、判定対象ユーザは非ボットであると判定し、一方、しきい値「0」に収束しない場合には、判定対象ユーザはボットであると判定する。
When humans interact with each other, the alternation latency is synchronized. Therefore, when the alternation latency feature value converges to the threshold value “0”, the
周期性指数算出部170は、解析投稿日時リスト取得部171、およびスペクトル解析部172を備える。
The periodicity
解析投稿日時リスト取得部171は、ユーザ判定部110から判定対象ユーザのユーザIDを取得すると、取得したユーザIDに対応付けて発言記憶部120に記憶されている発言情報に基づいて、判定対象ユーザの投稿日時情報のリストを解析投稿日時リストとして取得する。解析投稿日時リスト取得部171は、発言記憶部120に記憶されている全投稿日時情報を取得してもよいし、期間を指定して、期間内の投稿日時情報のみを取得するようにしてもよい。
When the analysis posting date and time
ユーザ判定部110から発言情報を取得した場合には、解析投稿日時リスト取得部171は、発言記憶部120から取得する判定対象ユーザの投稿日時情報の代わりに、ユーザ判定部110から取得した発言情報から解析投稿日時リストを取得してもよい。なお、解析投稿日時リスト取得部171は、ユーザ判定部110から取得した発言情報に含まれる判定対象ユーザのユーザIDに基づいて、発言記憶部120から解析投稿日時リストを取得してもよい。
When the utterance information is acquired from the
解析投稿日時リスト取得部171は、発言記憶部120に記憶されている発言情報に含まれる発言間関係情報に基づいて、判定対象ユーザについて、応答発言以外の発言の投稿日時情報のリストを解析投稿日時リストとして取得してもよい。それにより、より精度よく周期性の有無を判定することができる。他のユーザへの応答の発言は、予め設定されたルールには依存せず投稿されるため、周期性の有無を判定するにはノイズとなるからである。
The analysis posting date / time
スペクトル解析部172は、解析投稿日時リスト取得部171で取得した解析投稿日時リストをスペクトル解析する。具体的には、スペクトル解析部172は、発言の投稿を一定出力のインパルス応答信号の出力とみなして、スペクトル解析を行い、解析結果として振幅スペクトルを取得する。なお、スペクトル解析には、例えば、フーリエ変換やpiccolo法を用いる。そして、スペクトル解析部172は、取得した振幅スペクトルの最大振幅値を規則性指数として取得する。
The
ユーザ判定部110は、スペクトル解析部172で取得した最大振幅値がしきい値より大きければボットと判定し、一方、最大振幅値がしきい値以下であれば非ボットであると判定する。特定周期で発言が投稿されているほど、最大振幅値が大きくなるので、最大振幅値としきい値をと比較することにより判定対象ユーザがボットであるか否かを判定することができる。
The
しきい値記憶部180は、予め設定された規則性指数のしきい値を記憶する。具体的には、ボットの判定にユーザ間相関係数を用いる場合にはユーザ間相関係数のしきい値、ボットの判定に応答時間を用いる場合には応答時間のしきい値、ボットの判定に交代潜時特徴量を用いる場合には交代潜時特徴量のしきい値「0」、ボットの判定に最大振幅値を用いる場合には最大振幅値のしきい値が記憶されている。 The threshold value storage unit 180 stores a preset regularity index threshold value. Specifically, when the inter-user correlation coefficient is used for the bot determination, the inter-user correlation coefficient threshold value is used. When the response time is used for the bot determination, the response time threshold value and the bot determination are used. When the alternate latency feature quantity is used, the threshold value of the alternate latency feature quantity “0” is stored. When the maximum amplitude value is used for bot determination, the threshold value of the maximum amplitude value is stored.
<タイミング相関係数を用いたボット判定処理フロー>
図2は、本発明の第1の実施形態に係るボット判定装置100における、タイミング相関係数を用いたボット判定処理フローを示す図である。
<Bot decision processing flow using timing correlation coefficient>
FIG. 2 is a diagram showing a bot determination processing flow using a timing correlation coefficient in the
まず、ステップS1において、ユーザ判定部110が、外部から判定対象ユーザのユーザIDまたは判定対象ユーザの発言情報が入力されたか否かを判定する。入力されたと判定した場合(YES)には、ステップS2に処理を進め、一方、入力されていないと判定した場合(NO)には、処理を終了する。
First, in step S1, the
次に、ステップS2において、最近傍投稿日時リスト取得部141は、判定対象ユーザの投稿日時情報を取得する。ユーザ判定部110から判定対象ユーザのユーザIDを受信した場合には、受信したユーザIDに基づいて投稿日時情報を発言記憶部120から取得する。一方、ユーザ判定部110から判定対象ユーザの発言情報を取得した場合には、発言情報に含まれるユーザIDに基づいて投稿日時情報を発言記憶部120から取得してもよいし、取得した発言情報から投稿日時情報を取得してもよい。
Next, in step S <b> 2, the nearest posting date / time
次に、ステップS3において、最近傍投稿日時リスト取得部141は、判定対象ユーザのユーザIDに基づいて判定対象ユーザ以外の他ユーザのユーザIDを発言記憶部120から取得する。
Next, in step S <b> 3, the nearest posting date / time
次に、ステップS4において、最近傍投稿日時リスト取得部141は、ステップS2で取得した判定対象ユーザの投稿日時情報と、ステップS3で取得した他ユーザそれぞれのユーザIDとに基づいて、発言記憶部120に記憶されている発言情報に基づいて、判定対象ユーザの各投稿日時情報に、各投稿日時情報に最も近い他ユーザそれぞれの投稿日時情報を対応付けた最近傍投稿日時リストを、発言記憶部120から取得する。
Next, in step S4, the nearest posting date / time
次に、ステップS5において、個別相関係数算出部142は、ステップS4で取得された最近傍投稿日時リストに基づいて、判定対象ユーザと他ユーザとの投稿タイミングの関連性を示し、判定対象ユーザの投稿日時情報と他ユーザそれぞれとの投稿日時情報との個別相関係数を算出する。
Next, in step S5, the individual correlation
次に、ステップS6において、個別相関係数算出部142は、ステップS4で取得した最近傍投稿日時リストに含まれる全ての他ユーザについて個別相関係数を算出したか否かを判定する。全ての他ユーザの個別相関係数を算出した場合には、ステップS7に処理を進め、一方、まだ全ての他ユーザの個別相関係数を算出していない場合には、ステップS5に処理を戻す。
Next, in step S6, the individual correlation
次に、ステップS7において、タイミング相関係数決定部143は、ステップS5で算出された個別相関係数の中から、判定対象ユーザの前に発言を投稿する傾向を有する他ユーザの個別相関係数をステップS4で取得した最近傍投稿日時リストに基づいて抽出し、抽出した個別相関係数の最大相関係数をタイミング相関係数として決定する。
Next, in step S7, the timing correlation
次に、ステップS8において、ユーザ判定部110は、ステップS7で算出したタイミング相関係数がしきい値記憶部180に記憶されているしきい値より大きいか否かを判定する。タイミング相関係数がしきい値より大きいと判定した場合(YES)には、ステップS9に処理を進め、一方、タイミング相関係数がしきい値以下と判定した場合(NO)には、ステップS10に処理を進める。
Next, in step S <b> 8, the
次に、ステップS9において、ユーザ判定部110は、判断対象ユーザはボットであると判定し、出力する。
Next, in step S9, the
次に、ステップS10において、ユーザ判定部110は、判断対象ユーザは非ボットであると判定し、出力する。
Next, in step S10, the
<ユーザ応答時間を用いたボット判定処理フロー>
図3は、本発明の第1の実施形態に係るボット判定装置100における、ユーザ応答時間を用いたボット判定処理フローを示す図である。なお、図2を用いて説明したタイミング相関係数を用いたボット判定処理フローと同一処理については、同一符号を付し、その詳細な説明は省略する。
<Bot decision processing flow using user response time>
FIG. 3 is a diagram showing a bot determination processing flow using the user response time in the
次に、ステップS11において、応答日時リスト取得部151は、判定対象ユーザの応答日時リストを取得する。ユーザ判定部110から判定対象ユーザのユーザIDを受信した場合には、受信したユーザIDに対応付けて発言記憶部120に記憶されている発言間関係情報に含まれる応答発言であるかの情報に基づいて、応答日時リストを発言記憶部120から取得する。一方、ユーザ判定部110から判定対象ユーザの発言情報を取得した場合には、発言情報に含まれるユーザIDに基づいて同様にして応答日時リストを発言記憶部120から取得してもよいし、ユーザ判定部110から取得した発言情報から応答日時リストを取得してもよい。
Next, in step S11, the response date / time
次に、ステップS12において、元投稿日時リスト取得部152は、元投稿日時リストを取得する。ユーザ判定部110から判定対象ユーザのユーザIDを受信した場合には、受信したユーザIDに対応付けて発言記憶部120に記憶されている発言間関係情報に含まれる応答対象の元発言を特定する情報に基づいて、元投稿日時リストを発言記憶部120から取得する。一方、ユーザ判定部110から判定対象ユーザの発言情報を取得した場合には、発言情報に含まれるユーザIDに基づいて同様にして応答日時リストを発言記憶部120から取得してもよいし、発言情報に含まれる発言間関係情報に含まれる応答対象の元発言を特定する情報に基づいて、元投稿日時リストを発言記憶部120から取得してもよい。
Next, in step S12, the original posting date / time list acquisition unit 152 acquires the original posting date / time list. When the user ID of the determination target user is received from the
次に、ステップS13において、ユーザ応答時間決定部153は、ステップS11で取得した応答日時リストとステップS12で取得した元投稿日時リストとにおいて対応する投稿日時情報に基づいて、判定対象ユーザが各応答発言を投稿するまでの応答時間をそれぞれ算出し、算出した応答時間の平均を判定対象ユーザのユーザ応答時間として決定する。
Next, in step S13, the user response
次に、ステップS14において、ユーザ判定部110は、ステップS13で算出されたユーザ応答時間がしきい値記憶部180に記憶されているしきい値より小さいか否かを判定する。ユーザ応答時間がしきい値より小さいと判定した場合(YES)には、ステップS9に処理を進め、一方、ユーザ応答時間がしきい値以上と判定した場合(NO)には、ステップS10に処理を進める。
Next, in step S14, the
<交替潜時特徴量を用いたボット判定処理フロー>
図4は、本発明の第1の実施形態に係るボット判定装置100における、交替潜時特徴量を用いたボット判定処理フローを示す図である。なお、図2を用いて説明したタイミング相関係数を用いたボット判定処理フローと同一処理については、同一符号を付し、その詳細な説明は省略する。
<Bot decision processing flow using alternate latency feature>
FIG. 4 is a diagram showing a bot determination processing flow using the alternate latency feature quantity in the
次に、ステップS21において、連続応答区間抽出部161は、判定対象ユーザの発言と応答関係にあって、判定対象ユーザの発言との投稿間隔が所定時間以内にある発言を投稿しているユーザを連続応答ユーザ候補として抽出する。
Next, in step S <b> 21, the continuous response
次に、ステップS22において、連続応答区間抽出部161は、ステップS21で抽出した一の連続応答ユーザ候補の発言情報、および判定対象ユーザの発言情報の中から応答関係にある発言情報を抽出し、時系列に並べた発言時系列リストを作成する。
Next, in step S22, the continuous response
次に、ステップS23において、連続応答区間抽出部161は、ステップS22で作成した発言時系列リストの中から投稿間隔が所定時間以内の発言が所定数以上続く区間を連続応答区間として特定し、連続応答区間の発言情報を抽出する。
Next, in step S23, the continuous response
次に、ステップS24において、連続応答区間抽出部161は、ステップS21で抽出した全ての連続対応ユーザ候補ユーザについてステップS22およびS23の処理を行ったか否かを判定する。全ての連続対応ユーザ候補ユーザについて処理を行った場合(YES)には、ステップS25に処理を進め、一方、まだ全ての他ユーザの個別相関係数を算出していない場合(NO)には、ステップS22に処理を戻す。
Next, in step S24, the continuous response
次に、ステップS25において、交替潜時特徴量算出部160は、ステップS23で抽出した全ての個別連続応答区間を合わせて一の連続応答区間として、連続応答区間内に含まれる各発言の応答間隔を算出し、算出した応答間隔を上述した(2)式に代入して、交替潜時特徴量を決定する。
Next, in step S25, the alternation latency feature
次に、ステップS26において、ユーザ判定部110は、ステップS25で算出された交替潜時特徴量がしきい値記憶部180に記憶されているしきい値「0」に収束か否かを判定する。交替潜時特徴量がしきい値「0」に収束すると判定した場合(YES)には、ステップS9に処理を進め、一方、しきい値「0」に収束しないと判定した場合(NO)には、ステップS10に処理を進める。
Next, in step S <b> 26, the
<スペクトル解析を用いたボット判定処理フロー>
図5は、本発明の第1の実施形態に係るボット判定装置100における、スペクトル解析を用いたボット判定処理フローを示す図である。なお、図2を用いて説明したタイミング相関係数を用いたボット判定処理フローと同一処理については、同一符号を付し、その詳細な説明は省略する。
<Bot decision processing flow using spectrum analysis>
FIG. 5 is a diagram showing a bot determination processing flow using spectrum analysis in the
次に、ステップS31において、解析投稿日時リスト取得部171は、判定対象ユーザの投稿日時情報を解析投稿日時リストとして取得する。ユーザ判定部110から判定対象ユーザのユーザIDを受信した場合には、受信したユーザIDに基づいて解析投稿日時リストを発言記憶部120から取得する。一方、ユーザ判定部110から判定対象ユーザの発言情報を取得した場合には、発言情報に含まれるユーザIDに基づいて解析投稿日時リストを発言記憶部120から取得してもよいし、取得した発言情報から解析投稿日時リストを取得してもよい。
Next, in step S31, the analysis posting date
次に、ステップS32において、スペクトル解析部172は、ステップS31で取得した解析投稿日時リストをスペクトル解析する。
Next, in step S32, the
次に、ステップS33において、ステップS32の解析結果として取得した振幅スペクトルの最大振幅値を規則性指数として取得する。 Next, in step S33, the maximum amplitude value of the amplitude spectrum acquired as the analysis result of step S32 is acquired as the regularity index.
次に、ステップS34において、ユーザ判定部110は、ステップS33で算出された最大振幅値がしきい値記憶部180に記憶されているしきい値より大きいか否かを判定する。最大振幅値がしきい値より大きいと判定した場合(YES)には、ステップS9に処理を進め、一方、ユーザ応答時間がしきい値以下と判定した場合(NO)には、ステップS10に処理を進める。
Next, in step S <b> 34, the
以上、説明したように、本実施形態によれば、SNSにおいて、ユーザIDは使い捨てされないこと、およびボットはルールに従って発言を投稿することを利用して、他ユーザとの投稿タイミングの相関関係や応答時間、発言の交替潜時の特徴、ユーザ内の投稿間隔の周期性といった投稿タイミングの規則性から、学習データを必要とせずに、発言を投稿しているユーザがボットであるか否かを効率よく判定することができる。その結果、SNSにおいて、ボットの発言を除くことができ、効率よくスパムを除去できる。 As described above, according to the present embodiment, in the SNS, the user ID is not thrown away, and the bot posts a statement according to the rule, and the correlation and response of the posting timing with other users. Efficiency of whether or not the user who posted the utterance is a bot, without learning data, due to the regularity of posting timing such as time, the alternation latency of the utterance, and the periodicity of the posting interval within the user Can be judged well. As a result, in the SNS, bot remarks can be removed, and spam can be efficiently removed.
<第2の実施形態>
図6を用いて、本発明の第2の実施形態について説明する。なお、本実施形態におけるボット判定装置は、第1の実施形態で説明したユーザ間相関係数、応答時間、および振幅最大値を統合してボット判定を行うことにより、判定の精度を向上させた装置である。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
<Second Embodiment>
A second embodiment of the present invention will be described with reference to FIG. The bot determination device according to the present embodiment improves the determination accuracy by integrating the correlation coefficient between users, the response time, and the maximum amplitude value described in the first embodiment to perform the bot determination. Device. In addition, about the component which attaches | subjects the same code | symbol as 1st Embodiment, since it has the same function, the detailed description is abbreviate | omitted.
<ボット判定装置の機能構成>
図6は、本発明の第2の実施形態に係るボット判定装置200の機能構成を示す図である。ボット判定装置200は、SNS(Social Networking Service)において、発言を投稿しているユーザがボットであるか否かを判定する装置であって、規則性指数算出部131、発言記憶部120、統合モデル学習部210、統合モデル記憶部220、および統合モデル判定部230を備える。ここで、本発明におけるボットとは、広告等の情報(スパム)を発言する、機械による自動発言システムを意味する。
<Functional configuration of bot determination device>
FIG. 6 is a diagram illustrating a functional configuration of the
規則性指数算出部131は、タイミング相関係数算出部140、ユーザ応答時間算出部150、および周期性指数算出部170を備える。
The regularity
統合モデル学習部210は、ボットであると判定されているユーザおよび非ボットと判定されているユーザそれぞれの複数種類の規則性指数を教師データとして、所定の学習アルゴリズムを用いて、複数種類の規則性指数それぞれを重み付けして統合した統合モデルを学習する。複数種類の規則性指数には、タイミング相関係数、ユーザ応答時間、周期性指数の少なくとも2つが含まれる。
The integrated
統合モデル学習部210は、複数種類の規則性指数それぞれを重み付けする方法には、例えば、AfaBoost(非特許文献5:Yoav Freund,Robert E.Schapire.“A Decision−Theoretic Generalization of on−Line Learning and an Application to Boostion”,1995)を用いることができる。
The integrated
統合モデル記憶部220は、統合モデル学習部210で学習された統合モデルを記憶する。なお、複数種類の規則性指数の組み合わせ毎に統合モデルが記憶されてもよい。
The integrated
統合モデル判定部230は、判定対象ユーザについて規則性指数算出部131で算出された複数種類の規則性指数と統合モデル記憶部220に記憶されている統合モデルに基づいて、判定対象ユーザがボットであるか否かを判定する。
The integrated
以上、説明したように、本実施形態によれば、教師データを利用して学習した、投稿タイミングの規則性に基づく統合モデルを用いて、発言を投稿しているユーザがボットであるか否かを効率よく判定することができる。その結果、SNSにおいて、ボットの発言を除くことができ、効率よくスパムを除去できる。 As described above, according to the present embodiment, whether or not the user who is posting a utterance is a bot using an integrated model based on regularity of posting timing learned using teacher data. Can be determined efficiently. As a result, in the SNS, bot remarks can be removed, and spam can be efficiently removed.
なお、ボット判定装置の処理をコンピュータシステムが読み取り可能な記録媒体に記録し、この記録媒体に記録されたボット判定装置に読み込ませ、実行することによって本発明のボット判定装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。 Note that the bot determination device of the present invention can be realized by recording the processing of the bot determination device on a recording medium readable by a computer system, causing the bot determination device recorded on the recording medium to read and execute the processing. . The computer system here includes an OS and hardware such as peripheral devices.
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。 Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW (World Wide Web) system is used. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiments of the present invention have been described in detail with reference to the drawings. However, the specific configuration is not limited to the embodiments, and includes designs and the like that do not depart from the gist of the present invention.
100,200 ボット判定装置
110 ユーザ判定部
120 発言記憶部
130,131 規則性指数算出部
140 タイミング相関係数算出部
141 最近傍投稿日時リスト取得部
142 個別相関係数算出部
143 タイミング相関係数決定部
150 ユーザ応答時間算出部
151 応答日時リスト取得部
152 元投稿日時リスト取得部
153 ユーザ応答時間決定部
160 交替潜時特徴算出部
161 連続応答区間抽出部
162 同意判定部
163 交替せん潜時特徴決定部
170 周期性指数算出部
171 解析投稿日時リスト取得部
172 スペクトル解析部
180 しきい値算出部
210 統合モデル学習部
220 統合モデル記憶部
230 統合モデル判定部
100, 200
Claims (11)
前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段と、
判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザとの間における投稿タイミングの規則性を示す規則性指数を算出する規則性指数算出手段と、
前記規則性指数算出手段で算出された規則性指数と、予め設定されたしきい値とを比較することによって、前記判定対象ユーザが前記ボットであるか否かを判定するユーザ判定手段と、
を備えるボット判定装置。 In a SNS (Social Networking Service) that accepts and publishes posted comments, it is a bot determination device that determines whether or not a user posting a comment is a bot.
Message storage means for storing message information including at least posted user information and posted date information of the message posted to the SNS;
For determining the target user, based on the speech information stored in said speech storage means, and regularity index calculating means for calculating a regularity index indicating the regularity of the definitive post timing between the other users and the determination target user ,
User determination means for determining whether or not the determination target user is the bot by comparing the regularity index calculated by the regularity index calculation means and a preset threshold;
A bot determination device comprising:
前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの各投稿日時情報に、当該各投稿日時情報に最も近い前記他ユーザそれぞれの投稿日時情報を対応付けた最近傍投稿日時リストを取得する最近傍投稿日時リスト取得手段と、
前記最近傍投稿日時リスト取得手段で取得した前記最近傍投稿日時リストに基づいて、前記他ユーザそれぞれと前記判定対象ユーザとの投稿タイミングの関連性を示す個別相関係数を算出する個別相関係数算出手段と、
前記個別相関係数算出手段で算出された個別相関係数の中から、前記判定対象ユーザの前に発言を投稿する傾向を有する他ユーザの個別相関係数を前記最近傍投稿日時リスト取得手段で取得した最近傍投稿日時リストに基づいて抽出し、抽出した個別相関係数の最大相関係数をタイミング相関係数として決定するタイミング相関係数決定手段と、
を備え、
前記ユーザ判定手段が、前記タイミング相関係数と、前記予め設定されたしきい値との大小関係から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とする請求項1に記載のボット判定装置。 The regularity index calculating means is
The nearest posting date / time in which each posting date / time information of the determination target user is associated with the posting date / time information of each of the other users closest to the posting date / time information based on the statement information stored in the statement storage unit. The nearest posting date / time list acquisition means for acquiring a list,
Based on the nearest posting date list acquired by the nearest posting date list acquisition unit, an individual correlation coefficient that calculates an individual correlation coefficient indicating a posting timing relationship between each of the other users and the determination target user A calculation means;
Among the individual correlation coefficients calculated by the individual correlation coefficient calculation means, the individual correlation coefficient of another user having a tendency to post a statement before the determination target user is obtained by the nearest posting date list acquisition means. A timing correlation coefficient determining means for extracting based on the acquired nearest posting date list and determining the maximum correlation coefficient of the extracted individual correlation coefficient as a timing correlation coefficient;
With
The said user determination means determines whether the said determination target user is the said bot from the magnitude relationship between the said timing correlation coefficient and the said preset threshold value. The bot determination device described in 1.
前記規則性指数算出手段が、
前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの応答発言の投稿日時情報のリストである応答日時リストを取得する応答日時リスト取得手段と、
前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの応答発言の元発言の投稿日時情報のリストである元投稿日時リストを取得する元投稿日時リスト取得手段と、
前記応答日時リスト取得手段で取得した応答日時リストと、前記元投稿日時リスト取得手段で取得した元投稿日時リストとに基づいて、前記判定対象ユーザが前記応答発言を投稿するまでの応答時間を算出し、算出した応答時間の平均を前記判定対象ユーザのユーザ応答時間として決定するユーザ応答時間決定手段と、
を備え、
前記ユーザ判定手段が、前記ユーザ応答時間決定手段で取得されたユーザ応答時間と、前記予め設定されたしきい値との大小関係から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とする請求項1または請求項2に記載のボット判定装置。 The speech information of the speech storage means further includes inter-speech relationship information indicating a relationship with other utterances posted to the SNS,
The regularity index calculating means is
A response date and time list acquisition unit that acquires a response date and time list that is a list of posting date and time information of the response speech of the determination target user based on the message information stored in the message storage unit;
Based on the utterance information stored in the utterance storage means, original posting date / time list acquisition means for acquiring an original posting date / time list that is a list of posting date / time information of the original utterance of the response utterance of the determination target user;
Based on the response date list acquired by the response date list acquisition means and the original posting date list acquired by the original posting date list acquisition means, the response time until the determination target user posts the response message is calculated. And a user response time determining means for determining an average of the calculated response times as a user response time of the determination target user;
With
The user determination means determines whether or not the determination target user is the bot from the magnitude relationship between the user response time acquired by the user response time determination means and the preset threshold value. The bot determination device according to claim 1, wherein the bot determination device according to claim 1.
前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザと一の前記他ユーザとの間で所定の間隔以下で連続的に発言がやり取りされている連続応答区間の発言情報を抽出する連続応答区間抽出手段と、
前記連続応答区間抽出手段で抽出された連続応答区間の発言情報に基づいて、当該連続応答区間内に含まれる各発言の応答間隔を算出し、算出した応答間隔の差分から交替潜時特徴量を算出する交替潜時特徴量算出手段と、
を備え、
前記ユーザ判定手段が、前記交替潜時特徴量算出手段で算出した交替潜時特徴量から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とする請求項3に記載のボット判定装置。 The regularity index calculating means is
Based on the utterance information stored in the utterance storage means, the utterance information of the continuous response section in which utterances are continuously exchanged at a predetermined interval or less between the determination target user and the one other user. Continuous response interval extracting means for extracting;
Based on the utterance information of the continuous response section extracted by the continuous response section extraction means, the response interval of each utterance included in the continuous response section is calculated, and the alternate latency feature quantity is calculated from the difference of the calculated response intervals. Alternate latency feature quantity calculating means for calculating;
With
The said user determination means determines whether the said determination object user is the said bot from the substitution latency feature-value calculated by the said substitution latency feature-value calculation means. Bot judgment device.
前記規則性指数算出手段が、
前記連続応答区間抽出手段で抽出された連続応答区間の発言情報に含まれる内容情報に基づいて、当該連続応答区間内に含まれる各発言が前発言に同意するか否かを判定する同意判定手段を備え、
前記交替潜時特徴量算出手段が、当該連続応答区間内に含まれる各発言の前記同意判定手段の判定結果によって、前記応答間隔に重み付けを行うことを特徴とする請求項4に記載のボット判定装置。 The message information of the message storage means further includes content information of each message posted to the SNS,
The regularity index calculating means is
Consent determination means for determining whether or not each utterance included in the continuous response section agrees with the previous utterance based on the content information included in the utterance information of the continuous response section extracted by the continuous response section extraction means. With
5. The bot determination according to claim 4, wherein the alternate latency characteristic amount calculation unit weights the response interval according to a determination result of the consent determination unit of each utterance included in the continuous response section. apparatus.
前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの投稿日時情報のリストを取得する解析投稿日時リスト取得手段と、
前記解析投稿日時リスト取得手段で取得した前記判定対象ユーザの投稿日時情報のリストをスペクトル解析し、振幅スペクトルの最大振幅値を周期性指数として取得するスペクトル解析手段と、
を備え、
前記ユーザ判定手段が、前記スペクトル解析手段で取得された周期性指数と、前記予め設定されたしきい値との大小関係から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とする請求項1から請求項5のいずれかに記載のボット判定装置。 The regularity index calculating means is
Analysis posting date / time list acquisition means for acquiring a list of posting date / time information of the determination target user based on the statement information stored in the comment storage means;
A spectrum analysis unit that performs spectrum analysis on a list of post date information of the determination target user acquired by the analysis post date list acquisition unit, and acquires a maximum amplitude value of an amplitude spectrum as a periodicity index;
With
The user determination means determines whether the determination target user is the bot from the magnitude relationship between the periodicity index acquired by the spectrum analysis means and the preset threshold value. The bot determination device according to any one of claims 1 to 5, characterized in that:
解析投稿日時リスト取得手段が、前記発言記憶手段に記憶されている発言情報の発言間関係情報に基づいて、前記判定対象ユーザについて、応答発言以外の発言の投稿日時情報のリストを取得することを特徴とする請求項6または請求項7に記載のボット判定装置。 The speech storage means further includes inter-speech relationship information indicating a relationship with other utterances posted to the SNS in the utterance information,
The analysis posting date / time list acquisition unit acquires a list of posting date / time information of a statement other than a response message for the determination target user based on the inter-speech relationship information of the message information stored in the message storage unit. The bot determination device according to claim 6 or 7, wherein the bot determination device according to claim 6 or 7 is characterized.
前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段と、
判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザ間との間における投稿タイミングの規則性を示す複数種類の規則性指数を算出する規則性指数算出手段と、
ボットであると判定されているユーザおよび当該ボットでないと判定されているユーザそれぞれの前記複数種類の規則性指数を教師データとして、所定の学習アルゴリズムを用いて、前記複数種類の規則性指数それぞれを重み付けして統合した統合モデルを学習する統合モデル学習手段と、
判定対象ユーザについて前記規則性指数算出手段で算出された前記複数種類の規則性指数と前記統合モデル学習手段で学習された統合モデルに基づいて、前記判定対象ユーザがボットであるか否かを判定する統合モデル判定手段と、
を備えるボット判定装置。 In a SNS (Social Networking Service) that accepts and publishes posted comments, it is a bot determination device that determines whether or not a user posting a comment is a bot.
Message storage means for storing message information including at least posted user information and posted date information of the message posted to the SNS;
For determining the target user, based on the speech information stored in said speech storage means, regularities of calculating a plurality of types of regularity index indicating the regularity of the definitive post timing between between other users and determining target user Index calculation means;
Using each of the plurality of types of regularity indices of the user determined to be a bot and each of the users determined to be not the bot as teacher data, a predetermined learning algorithm is used to calculate each of the plurality of types of regularity indices. An integrated model learning means for learning an integrated model weighted and integrated;
It is determined whether or not the determination target user is a bot based on the plurality of types of regularity indexes calculated by the regularity index calculation means and the integrated model learned by the integrated model learning means for the determination target user. An integrated model determination means to
A bot determination device comprising:
前記ボット判定装置が、前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段と、規則性指数算出手段と、ユーザ判定手段と、を備え、
前記ユーザ判定手段が、前記ボットか否かの判定を行う判定対象ユーザの入力を受け付ける第1のステップと、
前記規則性指数算出手段が、前記判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザとの間における投稿タイミングの規則性を示す規則性指数を算出する第2のステップと、
前記ユーザ判定手段が、前記第2のステップで算出された規則性指数と、予め設定されたしきい値とを比較することによって、前記判定対象ユーザが前記ボットであるか否かを判定する第3のステップと、
を含むボット判定方法。 In a SNS (Social Networking Service) that accepts and publishes posted comments, a bot determination method in a bot determination device that determines whether or not a user posting a comment is a bot,
The bot determination device includes message storage means for storing message information including at least posting user information and posting date information of messages posted to the SNS, regularity index calculation means, and user determination means,
A first step in which the user determination means receives an input of a determination target user who determines whether or not the bot;
The regularity index calculation means for the determination target user, based on the speech information stored in said speech storage means, regularity index indicating the regularity of the definitive post timing between the determination target user and other users A second step of calculating
The user determination means determines whether or not the determination target user is the bot by comparing the regularity index calculated in the second step with a preset threshold value. 3 steps,
A bot determination method including
前記ボット判定装置が、前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段と、規則性指数算出手段と、ユーザ判定手段と、を備え、
前記ユーザ判定手段が、前記ボットか否かの判定を行う判定対象ユーザの入力を受け付ける第1のステップと、
前記規則性指数算出手段が、前記判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザとの間における投稿タイミングの規則性を示す規則性指数を算出する第2のステップと、
前記ユーザ判定手段が、前記第2のステップで算出された規則性指数と、予め設定されたしきい値とを比較することによって、前記判定対象ユーザが前記ボットであるか否かを判定する第3のステップと、
をコンピュータに実行させるためのプログラム。 In order to cause a computer to execute a bot determination method in a bot determination device that determines whether or not a user posting a utterance is a bot in an SNS (Social Networking Service) that accepts and publishes a posted utterance A program,
The bot determination device includes message storage means for storing message information including at least posting user information and posting date information of messages posted to the SNS, regularity index calculation means, and user determination means,
A first step in which the user determination means receives an input of a determination target user who determines whether or not the bot;
The regularity index calculation means for the determination target user, based on the speech information stored in said speech storage means, regularity index indicating the regularity of the definitive post timing between the determination target user and other users A second step of calculating
The user determination means determines whether or not the determination target user is the bot by comparing the regularity index calculated in the second step with a preset threshold value. 3 steps,
A program that causes a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014012524A JP6249794B2 (en) | 2014-01-27 | 2014-01-27 | Bot determination device, bot determination method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014012524A JP6249794B2 (en) | 2014-01-27 | 2014-01-27 | Bot determination device, bot determination method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015141456A JP2015141456A (en) | 2015-08-03 |
JP6249794B2 true JP6249794B2 (en) | 2017-12-20 |
Family
ID=53771792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014012524A Active JP6249794B2 (en) | 2014-01-27 | 2014-01-27 | Bot determination device, bot determination method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6249794B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020173593A (en) * | 2019-04-10 | 2020-10-22 | 日本電信電話株式会社 | Sns analyzing system, sns analyzing method and program |
CN112861128B (en) * | 2021-01-21 | 2024-06-18 | 微梦创科网络科技(中国)有限公司 | Method and system for identifying machine account numbers in batches |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8495727B2 (en) * | 2007-08-07 | 2013-07-23 | Microsoft Corporation | Spam reduction in real time communications by human interaction proof |
-
2014
- 2014-01-27 JP JP2014012524A patent/JP6249794B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015141456A (en) | 2015-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Beskow et al. | Bot-hunter: a tiered approach to detecting & characterizing automated activity on twitter | |
US11170064B2 (en) | Method and system to filter out unwanted content from incoming social media data | |
US11126678B2 (en) | Method and system to filter out harassment from incoming social media data | |
US9208441B2 (en) | Information processing apparatus, information processing method, and program | |
US20180144256A1 (en) | Categorizing Accounts on Online Social Networks | |
CN108768883B (en) | Network traffic identification method and device | |
US11983186B2 (en) | Predicting potential incident event data structures based on multi-modal analysis | |
US10565311B2 (en) | Method for updating a knowledge base of a sentiment analysis system | |
US20180101864A1 (en) | Endorsement abuse detection via social interactions | |
US20170319074A1 (en) | System and method for providing an indication of the well-being of an individual | |
US10528985B2 (en) | Determining a personalized advertisement channel | |
KR20190122334A (en) | Expert recommending method and system for providing social network system based question and answer service | |
Keertipati et al. | Multi-level analysis of peace and conflict data in GDELT | |
KR101450453B1 (en) | Method and apparatus for recommending contents | |
US10237226B2 (en) | Detection of manipulation of social media content | |
CN105335476B (en) | A kind of focus incident classification method and device | |
KR101811751B1 (en) | Advertisement providing server using chatbot | |
JP6249794B2 (en) | Bot determination device, bot determination method, and program | |
KR101894060B1 (en) | Advertisement providing server using chatbot | |
US20210044864A1 (en) | Method and apparatus for identifying video content based on biometric features of characters | |
KR102228873B1 (en) | Construction system of criminal suspect knowledge network using public security information and Method thereof | |
Iqbal et al. | Artificial intelligence and digital forensics | |
JP6839001B2 (en) | Model learning device, information judgment device and their programs | |
KR20200106231A (en) | Qualitative system for determining fake news, qualitative method for determining fake news, and computer-readable medium having a program recorded therein for executing the same | |
US20150254563A1 (en) | Detecting emotional stressors in networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160727 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170516 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6249794 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |