JP6249794B2 - Bot determination device, bot determination method, and program - Google Patents

Bot determination device, bot determination method, and program Download PDF

Info

Publication number
JP6249794B2
JP6249794B2 JP2014012524A JP2014012524A JP6249794B2 JP 6249794 B2 JP6249794 B2 JP 6249794B2 JP 2014012524 A JP2014012524 A JP 2014012524A JP 2014012524 A JP2014012524 A JP 2014012524A JP 6249794 B2 JP6249794 B2 JP 6249794B2
Authority
JP
Japan
Prior art keywords
user
determination
bot
information
target user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014012524A
Other languages
Japanese (ja)
Other versions
JP2015141456A (en
Inventor
亮博 小林
亮博 小林
啓一郎 帆足
啓一郎 帆足
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2014012524A priority Critical patent/JP6249794B2/en
Publication of JP2015141456A publication Critical patent/JP2015141456A/en
Application granted granted Critical
Publication of JP6249794B2 publication Critical patent/JP6249794B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Description

本発明は、SNS(Social Networking Service)において、発言を投稿しているユーザがボットであるか否かを判定するボット判定装置、ボット判定方法、およびプログラムに関する。   The present invention relates to a bot determination apparatus, a bot determination method, and a program for determining whether or not a user posting a message is a bot in SNS (Social Networking Service).

インターネット上には情報検索の邪魔となる広告等の情報(スパム)が大量に存在しており、それらを取り除く様々な研究が行われている。SNS(Social Networking Service)上においても、ボット(bot)と呼ばれる、ルールに基づき自動で発言するシステムが大量に存在し、これらがユーザに代わって自動的に出力する発言が、SNSから情報収集を行う際の大きな妨げとなっている。   There is a large amount of information (spam) such as advertisements that hinders information retrieval on the Internet, and various studies have been conducted to remove them. On SNS (Social Networking Service), there are a large number of systems called bots that automatically speak based on rules, and the utterances that are automatically output on behalf of users are collected from SNS. It is a great hindrance to doing.

既存のメール/URLのスパムフィルタでは、正例・負例が予め与えられていれば、ベイズ推定(例えば、非特許文献1参照)等の教師つき学習を用いて、スパムの判別が可能である。これらは基本的にスパムの正解例と似ているかどうかで判定するため、利用される単語が日々変化するSNS上で用いるためには、スパムの正否を人手で示した教師データを日々更新して行く必要があり、大変な労力を必要とするという問題点があった。   In the existing mail / URL spam filter, if positive examples and negative examples are given in advance, it is possible to discriminate spam using supervised learning such as Bayesian estimation (for example, see Non-Patent Document 1). . Since these are basically determined by whether or not they are similar to the correct answer example of spam, in order to use on SNS where the word used changes every day, the teacher data that indicates whether spam is correct or not is updated daily. There was a problem that it was necessary to go and a lot of labor was required.

この問題に対し、本文やURL参照先といったメタ情報や、ヘッダ/タグ/スクリプト等の構造情報といった、比較的変化が少ない特徴を基準として判定する手法(例えば、非特許文献2参照)が提案されているが、スパムが持つ上記の特徴が変化した場合は、やはり新たに学習データを更新する必要があった。   In order to deal with this problem, a method has been proposed (for example, refer to Non-Patent Document 2) in which characteristics such as meta information such as a text and URL reference destination and structure information such as header / tag / script are relatively small. However, if the above characteristics of spam change, it is necessary to update the learning data again.

一方で、文書間の類似性を評価し、類似する文書が多数あればそれをスパムとして判定することで、正/負の教師データ無しにスパムを判定する手法が提案されている(例えば、特許文献1、非特許文献3参照)。特許文献1では、メールのスパム判定をするために受信用のアカウントを複数用意し、2つのアカウントの受信した結果を比較し、類似するメールがあった場合はスパムと判定する手法が提案されている。また、非特許文献3では、この手法を更に一般化し、受け取ったメールの本文文書からハッシュ特徴量を抽出し、特徴空間内に存在するメールの密度を計算することで、類似するメール群を抽出する手法が提案されている。   On the other hand, there has been proposed a technique for evaluating spam without positive / negative teacher data by evaluating similarity between documents and determining if there are many similar documents as spam (for example, patents). Reference 1 and non-patent reference 3). Patent Document 1 proposes a method for preparing a plurality of receiving accounts for determining e-mail spam, comparing the results received by two accounts, and determining if there is a similar e-mail as spam. Yes. In Non-Patent Document 3, this technique is further generalized to extract a hash feature quantity from the received mail body document, and to extract a similar mail group by calculating the density of mail existing in the feature space. A technique has been proposed.

特開2007−86821号公報JP 2007-86821 A

Paul Graham.A plan for spam,In P.Graham,Hackers andPainters.O‘Reilly.O’Reilly,2004.Paul Graham. A plan for spam, In P.A. Graham, Hackers and Painters. O’Reilly. O'Reilly, 2004. 北村順平,青野雅樹“ウェブサイト間の類似度を用いたウェブスパムの検出”,DBSJ Journal,Vol.8,No.1,pp.143−148,2009.Junpei Kitamura, Masaki Aono “Detection of Web Spam Using Similarity Between Websites”, DBSJ Journal, Vol. 8, no. 1, pp. 143-148, 2009. Density−Based Spam Detector,Kenichi Yoshida,Fujimori Adachi,Takashi Washio,Hiroshi Motoda,Teruaki Homma,Akihiro Hakashima,Hiromitsu Fujikawa and Katsuyuki Yamazaki,IEICE Trans.Inf.&Syst.,Vol.E87−D, No.12,pp.2678−2688,2004年12月(特開2005−202590号公報)Density-Based Spam Detector, Kenichi Yoshida, Fujimori Adachi, Takashi Wasio, Hiroshi Motoda, Teraki Hamakata, Akihiro Hashimashi. Inf. & Syst. , Vol. E87-D, no. 12, pp. 2678-2688, December 2004 (Japanese Patent Laid-Open No. 2005-202590)

ところで、SNSにおいてはメールとは異なりユーザIDは使い捨てされない。そのため、スパムと判定される発言が多いユーザはボットであって、そのユーザの発言はスパムと判定されるのが正しい。しかしながら、非特許文献1から3、および特許文献1で提案されている手法では、発言(文書)1件毎にスパムの判定をしているため、ボットであるユーザの発言であっても、スパムと判定された発言と類似していなければ、スパムと判定されず、効率よくスパムを除去できないという問題点があった。   By the way, unlike e-mail, a user ID is not disposable in SNS. Therefore, it is correct that a user who has many utterances determined to be spam is a bot, and that the user's utterance is determined to be spam. However, in the methods proposed in Non-Patent Documents 1 to 3 and Patent Document 1, spam is determined for each utterance (document), so even a bot user's utterance is spam. If it is not similar to the speech determined to be, it is not determined to be spam, and there is a problem that spam cannot be efficiently removed.

そこで、本発明は上記課題に鑑み、SNSにおいて、発言を投稿しているユーザがボットであるか否かを、ユーザIDが使い捨てされないというSNSの特性、および発言の投稿は予めプログラムされたルールに従って行うというボットの特性を利用して、学習データを必要とせずに、効率よく判定するボット判定装置、ボット判定方法、およびプログラムを提供することを目的とする。   Therefore, in view of the above problems, the present invention is based on the SNS characteristics that the user ID is not thrown away and the posting of the utterance in accordance with a pre-programmed rule in the SNS, whether or not the user posting the utterance is a bot. An object of the present invention is to provide a bot determination device, a bot determination method, and a program that efficiently determine without using learning data by using the characteristic of the bot to be performed.

本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。   The present invention proposes the following matters in order to solve the above problems. In addition, in order to make an understanding easy, although the code | symbol corresponding to embodiment of this invention is attached | subjected and demonstrated, it is not limited to this.

(1) 本発明は、投稿された発言の受け付けと公開を行うSNS(Social Networking Service)において、前記発言を投稿しているユーザがボットであるか否かを判定するボット判定装置(例えば、図1のボット判定装置100)であって、前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段(例えば、図1の発言記憶部120)と、判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザとの間における投稿タイミングの規則性を示す規則性指数を算出する規則性指数算出手段(例えば、図1の規則性指数算出部130)と、前記規則性指数算出手段で算出された規則性指数と、予め設定されたしきい値とを比較することによって、前記判定対象ユーザが前記ボットであるか否かを判定するユーザ判定手段(例えば、図1のユーザ判定部110)と、を備えるボット判定装置を提案している。 (1) The present invention relates to a bot determination device that determines whether or not a user posting a comment is a bot in an SNS (Social Networking Service) that accepts and publishes posted comments. 1 bot determination device 100), and a message storage means (for example, message storage unit 120 in FIG. 1) for storing message information including at least posted user information and posted date / time information of a message posted to the SNS; for determining the target user, the talk on the basis of the storage means speech information stored in the other user and determining regularity index calculation means for calculating a regularity index indicating the regularity of the definitive post timing between the target user ( For example, the regularity index calculation unit 130) of FIG. 1 and the regularity index calculated by the regularity index calculation means are set in advance. And a user determination unit (for example, the user determination unit 110 in FIG. 1) for determining whether or not the determination target user is the bot by comparing with a determined threshold value. ing.

(2) 本発明は、(1)のボット判定装置について、前記規則性指数算出手段が、前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの各投稿日時情報に、当該各投稿日時情報に最も近い前記他ユーザそれぞれの投稿日時情報を対応付けた最近傍投稿日時リストを取得する最近傍投稿日時リスト取得手段(例えば、図1の最近傍投稿日時リスト取得部141)と、前記最近傍投稿日時リスト取得手段で取得した前記最近傍投稿日時リストに基づいて、前記他ユーザそれぞれと前記判定対象ユーザとの投稿タイミングの関連性を示す個別相関係数を算出する個別相関係数算出手段(例えば、図1の個別相関係数算出部142)と、前記個別相関係数算出手段で算出された個別相関係数の中から、前記判定対象ユーザの前に発言を投稿する傾向を有する他ユーザの個別相関係数を前記最近傍投稿日時リスト取得手段で取得した最近傍投稿日時リストに基づいて抽出し、抽出した個別相関係数の最大相関係数をタイミング相関係数として決定するタイミング相関係数決定手段(例えば、図1のタイミング相関係数決定部143)と、を備え、前記ユーザ判定手段が、前記タイミング相関係数と、前記予め設定されたしきい値との大小関係から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とするボット判定装置を提案している。   (2) In the bot determination device according to (1), the regularity index calculation unit includes, in the posting date information of the determination target user, based on the statement information stored in the statement storage unit. The nearest posting date / time list acquisition means (for example, the nearest posting date / time list acquisition unit 141 in FIG. 1) that acquires the nearest posting date / time list that associates the posting date / time information of each of the other users closest to the posting date / time information. And an individual phase that calculates an individual correlation coefficient indicating the relevance of the posting timing between each of the other users and the determination target user based on the nearest posting date list acquired by the nearest posting date list acquisition unit. From the correlation number calculating means (for example, the individual correlation coefficient calculating unit 142 in FIG. 1) and the individual correlation coefficient calculated by the individual correlation coefficient calculating means, the determination target user The individual correlation coefficient of another user who has a tendency to post a statement before is extracted based on the nearest posting date list acquired by the nearest posting date list acquisition means, and the maximum correlation coefficient of the extracted individual correlation coefficient Timing correlation coefficient determination means (for example, timing correlation coefficient determination unit 143 in FIG. 1), and the user determination means is set in advance as the timing correlation coefficient. A bot determination device has been proposed in which it is determined whether or not the determination target user is the bot based on the magnitude relationship with the threshold value.

(3) 本発明は、(1)または(2)のボット判定装置について、前記発言記憶手段の発言情報は、前記SNSに投稿された各発言の他発言との関係を示す発言間関係情報を更に含み、前記規則性指数算出手段が、前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの応答発言の投稿日時情報のリストである応答日時リストを取得する応答日時リスト取得手段(例えば、図1の応答日時リスト取得部151)と、前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの応答発言の元発言の投稿日時情報のリストである元投稿日時リストを取得する元投稿日時リスト取得手段(例えば、図1の元投稿日時リスト取得部152)と、前記応答日時リスト取得手段で取得した応答日時リストと、前記元投稿日時リスト取得手段で取得した元投稿日時リストとに基づいて、前記判定対象ユーザが前記応答発言を投稿するまでの応答時間を算出し、算出した応答時間の平均を前記判定対象ユーザのユーザ応答時間として決定するユーザ応答時間決定手段(例えば、図1のユーザ応答時間決定部153)と、を備え、前記ユーザ判定手段が、前記ユーザ応答時間決定手段で取得されたユーザ応答時間と、前記予め設定されたしきい値との大小関係から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とするボット判定装置を提案している。   (3) In the bot determination device according to (1) or (2), the speech information in the speech storage means includes inter-speech relationship information indicating a relationship with other speeches posted to the SNS. In addition, the regularity index calculating means obtains a response date / time list that is a list of post date / time information of response messages of the determination target user based on the message information stored in the message storage means It is a list of post date information of original utterances of the response utterance of the determination target user based on utterance information stored in the utterance storage means (for example, response date / time list acquisition unit 151 in FIG. 1) and the utterance storage unit. An original posting date / time list acquisition unit (for example, an original posting date / time list acquisition unit 152 in FIG. 1) for acquiring an original posting date / time list, a response date / time list acquired by the response date / time list acquisition unit, Based on the original posting date list acquired by the original posting date list acquisition means, the response time until the determination target user posts the response message is calculated, and the average of the calculated response times is calculated by the determination target user. User response time determination means (for example, user response time determination unit 153 in FIG. 1) that is determined as a user response time, wherein the user determination means is a user response time acquired by the user response time determination means; A bot determination device is proposed that determines whether or not the determination target user is the bot based on a magnitude relationship with the preset threshold value.

(4) 本発明は、(3)のボット判定装置について、前記規則性指数算出手段が、前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザと一の前記他ユーザとの間で所定の間隔以下で連続的に発言がやり取りされている連続応答区間の発言情報を抽出する連続応答区間抽出手段(例えば、図1の連続応答区間抽出部161)と、前記連続応答区間抽出手段で抽出された連続応答区間の発言情報に基づいて、当該連続応答区間内に含まれる各発言の応答間隔を算出し、算出した応答間隔の差分から交替潜時特徴量を算出する交替潜時特徴量算出手段(例えば、図1の交替潜時特徴量算出部160)と、を備え、前記ユーザ判定手段が、前記交替潜時特徴量算出手段で算出した交替潜時特徴量から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とするボット判定装置を提案している。   (4) In the bot determination device according to (3), the regularity index calculation unit may be configured to have the determination target user and one other user based on the statement information stored in the statement storage unit. A continuous response section extracting means (for example, the continuous response section extracting unit 161 in FIG. 1) for extracting the utterance information of the continuous response section in which utterances are continuously exchanged at a predetermined interval or less, and the continuous response section Based on the utterance information of the continuous response section extracted by the extracting means, the response interval of each utterance included in the continuous response section is calculated, and the replacement latency characteristic amount is calculated from the difference of the calculated response intervals. A temporal feature amount calculating means (for example, a substitute latency feature amount calculating unit 160 in FIG. 1), and the user determining means calculates the substitute latency feature amount calculated by the substitute latency feature amount calculating means from the substitute latency feature amount Target user It proposes a bot determination apparatus characterized by determining whether a said bot.

(5) 本発明は、(4)のボット判定装置について、前記発言記憶手段の発言情報は、前記SNSに投稿された各発言の内容情報を更に含み、前記規則性指数算出手段が、前記連続応答区間抽出手段で抽出された連続応答区間の発言情報に含まれる内容情報に基づいて、当該連続応答区間内に含まれる各発言が前発言に同意するか否かを判定する同意判定手段(例えば、図1の同意判定部162)を備え、前記交替潜時特徴量算出手段が、当該連続応答区間内に含まれる各発言の前記同意判定手段の判定結果によって、前記応答間隔に重み付けを行うことを特徴とするボット判定装置を提案している。   (5) In the bot determination device according to (4), the utterance information in the utterance storage unit further includes content information of each utterance posted to the SNS, and the regularity index calculation unit includes the continuous index calculation unit. Based on the content information included in the utterance information of the continuous response section extracted by the response section extraction means, consent determination means for determining whether or not each utterance included in the continuous response section agrees with the previous utterance (for example, 1, and the alternation latency feature value calculating unit weights the response interval according to the determination result of the consent determination unit of each utterance included in the continuous response section. Has proposed a bot determination device characterized by the following.

(6) 本発明は、(1)から(5)のボット判定装置について、前記規則性指数算出手段が、前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの投稿日時情報のリストを取得する解析投稿日時リスト取得手段(例えば、図1の解析投稿日時リスト取得部171)と、前記解析投稿日時リスト取得手段で取得した前記判定対象ユーザの投稿日時情報のリストをスペクトル解析し、振幅スペクトルの最大振幅値を周期性指数として取得するスペクトル解析手段(例えば、図1のスペクトル解析部172)と、を備え、前記ユーザ判定手段が、前記スペクトル解析手段で取得された周期性指数と、前記予め設定されたしきい値との大小関係から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とするボット判定装置を提案している。   (6) In the bot determination device according to any one of (1) to (5), the regularity index calculation means is based on the comment information stored in the comment storage means, and the posting date and time of the determination target user An analysis posting date / time list acquisition unit (for example, an analysis posting date / time list acquisition unit 171 in FIG. 1) that acquires a list of information, and a list of posting date / time information of the determination target user acquired by the analysis posting date / time list acquisition unit is a spectrum. A spectrum analysis unit (for example, the spectrum analysis unit 172 in FIG. 1) that analyzes and acquires the maximum amplitude value of the amplitude spectrum as a periodicity index, and the user determination unit acquires the period acquired by the spectrum analysis unit It is characterized by determining whether or not the determination target user is the bot based on a magnitude relationship between a sex index and the preset threshold value. It has proposed that bot determination device.

(7) 本発明は、(6)のボット判定装置について、前記スペクトル解析手段が、離散フーリエ変換法またはpiccolo法を用いて、前記解析投稿日時リスト取得手段で取得した前記判定対象ユーザの投稿日時情報のリストを解析し、前記周期性指数を算出することを特徴とするボット判定装置を提案している。   (7) In the bot determination device according to (6), the spectrum analysis unit uses the discrete Fourier transform method or the piccolo method, and the posting date / time of the determination target user acquired by the analysis posting date / time list acquisition unit It proposes a bot determination device characterized by analyzing a list of information and calculating the periodicity index.

(8) 本発明は、(6)または(7)のボット判定装置について、前記発言記憶手段は、前記SNSに投稿された各発言の他発言との関係を示す発言間関係情報を更に発言情報に含め、解析投稿日時リスト取得手段が、前記発言記憶手段に記憶されている発言情報の発言間関係情報に基づいて、前記判定対象ユーザについて、応答発言以外の発言の投稿日時情報のリストを取得することを特徴とするボット判定装置を提案している。   (8) In the bot determination device according to (6) or (7), the speech storage unit further includes inter-speech relationship information indicating a relationship with other utterances posted to the SNS. In addition, the analysis posting date / time list acquisition unit acquires a list of posting date / time information of statements other than response messages for the determination target user based on the inter-speech relationship information of the speech information stored in the speech storage unit A bot determination device characterized by the above is proposed.

(9) 本発明は、投稿された発言の受け付けと公開を行うSNS(Social Networking Service)において、前記発言を投稿しているユーザがボットであるか否かを判定するボット判定装置(例えば、図2のボット判定装置200)であって、前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段と、判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザとの間における投稿タイミングの規則性を示す複数種類の規則性指数を算出する規則性指数算出手段(例えば、図2の規則性指数算出部131)と、ボットであると判定されているユーザおよび当該ボットでないと判定されているユーザそれぞれの前記複数種類の規則性指数を教師データとして、所定の学習アルゴリズムを用いて、前記複数種類の規則性指数それぞれを重み付けして統合した統合モデルを学習する統合モデル学習手段(例えば、図2の統合モデル学習部210)と、判定対象ユーザについて前記規則性指数算出手段で算出された前記複数種類の規則性指数と前記統合モデル学習手段で学習された統合モデルに基づいて、前記判定対象ユーザがボットであるか否かを判定する統合モデル判定手段(例えば、図2の統合モデル判定部230)と、を備えるボット判定装置を提案している。 (9) The present invention relates to a bot determination device that determines whether or not the user who posted the utterance is a bot in an SNS (Social Networking Service) that accepts and publishes the posted comments. 2 bot determination device 200), which stores message information storing means for storing message information including at least posted user information and posted date information of messages posted to the SNS, and a determination target user stored in the message storage means. based on the speech information that is, definitive regularity index calculating means for calculating a plurality of types of regularity index indicating the regularity of the post timing (e.g., regularity index of 2 between the other users and the determination target user A calculation unit 131), a user determined to be a bot, and a user determined to be not the bot An integrated model learning means for learning an integrated model obtained by weighting and integrating each of the plurality of types of regularity indices using a predetermined learning algorithm using the plurality of types of regularity indices as teacher data (for example, FIG. 2). Integrated model learning unit 210), the determination target user based on the plurality of types of regularity indexes calculated by the regularity index calculation means for the determination target user and the integrated model learned by the integrated model learning means Has proposed an integrated model determination means (for example, an integrated model determination unit 230 in FIG. 2) that determines whether or not is a bot.

(10) 本発明は、投稿された発言の受け付けと公開を行うSNS(Social Networking Service)において、前記発言を投稿しているユーザがボットであるか否かを判定するボット判定装置におけるボット判定方法であって、前記ボット判定装置が、前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段と、規則性指数算出手段と、ユーザ判定手段と、を備え、前記ユーザ判定手段が、前記ボットか否かの判定を行う判定対象ユーザの入力を受け付ける第1のステップ(例えば、図2のステップS1)と、前記規則性指数算出手段が、前記判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザとの間における投稿タイミングの規則性を示す規則性指数を算出する第2のステップ(例えば、図2のステップS2からS7)と、前記ユーザ判定手段が、前記第2のステップで算出された規則性指数と、予め設定されたしきい値とを比較することによって、前記判定対象ユーザが前記ボットであるか否かを判定する第3のステップ(例えば、図2のステップS8からS10)と、を含むボット判定方法を提案している。 (10) The present invention relates to a bot determination method in a bot determination device that determines whether or not a user who has posted a comment is a bot in an SNS (Social Networking Service) that accepts and discloses posted comments. The bot determination device stores message information including at least posted user information and posted date and time information of a message posted to the SNS, regularity index calculation means, user determination means, A first step (for example, step S1 in FIG. 2) for receiving an input of a determination target user for determining whether or not the user is a bot; and for the target user, based on the speech information stored in said speech storage means, determination target user and other users A second step of calculating the regularity index indicating the regularity of the definitive post timing between the (e.g., from step S2 of FIG. 2 S7) and, said user determination means, rules that are calculated in the second step A third step (for example, steps S8 to S10 in FIG. 2) for determining whether or not the determination target user is the bot by comparing the sex index with a preset threshold; A bot determination method including

(11) 本発明は、投稿された発言の受け付けと公開を行うSNS(Social Networking Service)において、前記発言を投稿しているユーザがボットであるか否かを判定するボット判定装置におけるボット判定方法をコンピュータに実行させるためのプログラムであって、前記ボット判定装置が、前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段と、規則性指数算出手段と、ユーザ判定手段と、を備え、前記ユーザ判定手段が、前記ボットか否かの判定を行う判定対象ユーザの入力を受け付ける第1のステップ(例えば、図2のステップS1)と、前記規則性指数算出手段が、前記判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザとの間における投稿タイミングの規則性を示す規則性指数を算出する第2のステップ(例えば、図2のステップS2からS7)と、前記ユーザ判定手段が、前記第2のステップで算出された規則性指数と、予め設定されたしきい値とを比較することによって、前記判定対象ユーザが前記ボットであるか否かを判定する第3のステップ(例えば、図2のステップS8からS10)と、をコンピュータに実行させるためのプログラムを提案している。 (11) The present invention relates to a bot determination method in a bot determination device that determines whether or not a user who has posted a comment is a bot in a social networking service (SNS) that accepts and publishes the posted comment. , A bot determination device that stores utterance information including at least posted user information and posted date information of the utterance posted to the SNS, and regularity index calculation A first step (for example, step S1 in FIG. 2) for receiving an input of a determination target user for determining whether the user is a bot, and the rule. The sex index calculating means stores the speech stored in the speech storage means for the determination target user. Based on the information, a second step of calculating the regularity index indicating the regularity of the definitive post timing between the other users and the determination target user (e.g., S7 from step S2 of FIG. 2), the user determination unit A third step of determining whether or not the determination target user is the bot by comparing the regularity index calculated in the second step with a preset threshold value ( For example, a program for causing a computer to execute steps S8 to S10) of FIG. 2 is proposed.

本発明によれば、SNSにおいて、発言を投稿しているユーザがボットであるか否かを、ユーザIDが使い捨てされないというSNSの特性、および発言の投稿は予めプログラムされたルールに従って行うというボットの特性を利用して、学習データを必要とせずに、効率よく判定することができる。その結果、SNSにおいて、ボットの発言を除くことができ、効率よくスパムを除去できる。   According to the present invention, in the SNS, whether or not the user posting the speech is a bot, whether the user ID is not disposable, the SNS characteristics, and the posting of the speech is performed according to pre-programmed rules. Using the characteristics, it is possible to make an efficient determination without requiring learning data. As a result, in the SNS, bot remarks can be removed, and spam can be efficiently removed.

本発明の第1の実施形態に係るボット判定装置の機能構成を示す図である。It is a figure which shows the function structure of the bot determination apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係るボット判定装置におけるタイミング相関係数を用いたボット判定処理フローを示す図である。It is a figure which shows the bot determination processing flow using the timing correlation coefficient in the bot determination apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係るボット判定装置におけるユーザ応答時間を用いたボット判定処理フローを示す図である。It is a figure which shows the bot determination processing flow using the user response time in the bot determination apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係るボット判定装置における交替潜時特徴量を用いたボット判定処理フローを示す図である。It is a figure which shows the bot determination processing flow using the alternative latency feature-value in the bot determination apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係るボット判定装置におけるスペクトル解析を用いたボット判定処理フローを示す図である。It is a figure which shows the bot determination processing flow using the spectrum analysis in the bot determination apparatus which concerns on the 1st Embodiment of this invention. 本発明の第2の実施形態に係るボット判定装置の機能構成を示す図である。It is a figure which shows the function structure of the bot determination apparatus which concerns on the 2nd Embodiment of this invention.

以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that the constituent elements in the present embodiment can be appropriately replaced with existing constituent elements and the like, and various variations including combinations with other existing constituent elements are possible. Therefore, the description of the present embodiment does not limit the contents of the invention described in the claims.

<第1の実施形態>
<ボット判定装置の機能構成>
図1は、本発明の第1の実施形態に係るボット判定装置100の機能構成を示す図である。ボット判定装置100は、SNS(Social Networking Service)において、発言を投稿しているユーザがボットであるか否かを判定する装置であって、ユーザ判定部110、発言記憶部120、規則性指数算出部130、およびしきい値記憶部180を備える。ここで、本発明におけるボットとは、広告等の情報(スパム)を発言する、機械による自動発言システムを意味する。
<First Embodiment>
<Functional configuration of bot determination device>
FIG. 1 is a diagram illustrating a functional configuration of a bot determination device 100 according to the first embodiment of the present invention. The bot determination device 100 is a device that determines whether or not a user who has posted a comment is a bot in SNS (Social Networking Service), and includes a user determination unit 110, a message storage unit 120, and a regularity index calculation. Unit 130 and threshold value storage unit 180. Here, the bot in the present invention means an automatic speech system by a machine that speaks information (spam) such as advertisements.

ユーザ判定部110は、ボットであるか否かを判定するユーザ(以下、判定対象ユーザという)のSNSにおけるユーザID、または判定対象ユーザの発言情報が入力されたことに応じて、処理を開始して、ユーザIDまたは判定対象ユーザの発言情報を規則性指数算出部130に送信する。判定対象ユーザの発言情報が入力された場合には、ユーザ判定部110は、判定対象ユーザの発言情報を発言記憶部120に記憶する。発言情報については、後述する発言記憶部120にて説明する。   The user determination unit 110 starts processing in response to input of a user ID in the SNS of a user (hereinafter referred to as a determination target user) that determines whether or not the user is a bot, or speech information of the determination target user. Then, the user ID or the utterance information of the determination target user is transmitted to the regularity index calculation unit 130. When the determination target user's utterance information is input, the user determination unit 110 stores the determination target user's utterance information in the utterance storage unit 120. The comment information will be described in a comment storage unit 120 described later.

そして、ユーザ判定部110は、規則性指数算出部130から規則性指数を受信すると、規則性指数算出部130から受信した規則性指数と、しきい値記憶部180に記憶されているしきい値と、を比較して、判定対象ユーザがボットであるか否かを判定する。規則性指数とは判定対象ユーザの投稿タイミングの規則性をあらわす指数であって、ユーザ判定部110が規則性指数としきい値とを比較することによって、判定対象ユーザの発言タイミングに規則性があるか否かを判定する。   When receiving the regularity index from the regularity index calculation unit 130, the user determination unit 110 receives the regularity index received from the regularity index calculation unit 130 and the threshold value stored in the threshold value storage unit 180. And whether or not the determination target user is a bot. The regularity index is an index representing the regularity of the posting timing of the determination target user, and the user determination unit 110 compares the regularity index with a threshold value, so that the speech timing of the determination target user has regularity. It is determined whether or not.

ボットによる発言の投稿は予めプログラムされたルールに従って行われるために、投稿のタイミングには規則性が生じるので、ユーザ判定部110は規則性があると判定した場合には、判定対象ユーザはボットであると判定し、一方、規則性がないと判定した場合には、判定対象ユーザはボットでない非ボットと判定する。   Since posting of utterances by bots is performed according to pre-programmed rules, regularity occurs in the posting timing. Therefore, when the user determination unit 110 determines that there is regularity, the determination target user is a bot. On the other hand, if it is determined that there is no regularity, the determination target user is determined as a non-bot non-bot.

発言記憶部120は、SNSに投稿された発言の発言情報を記憶する。ここで、発言情報は、発言を投稿したユーザのユーザID、SNSに投稿された発言の投稿日時情報、SNSに投稿された各発言の他発言との関係を示す発言間関係情報、発言の内容を示す内容情報を含む。発言記憶部120に記憶される発言情報は、SNSのサーバから定期的に自動で取得されてもよいし、ボット判定装置100の管理者が手動で登録を行ってもよい。   The comment storage unit 120 stores the comment information of the comments posted to the SNS. Here, the utterance information includes the user ID of the user who posted the utterance, post date information of the utterance posted to the SNS, inter-speech relation information indicating the relationship with other utterances posted to the SNS, and the content of the utterance. The content information indicating is included. The message information stored in the message storage unit 120 may be automatically acquired periodically from the SNS server, or may be manually registered by the administrator of the bot determination device 100.

ここで、各発言の他発言との関係とは、各発言が、他ユーザが投稿した発言を再投稿(返信も含む)や引用投稿(言及も含む)している関係をいい、これらの関係にある発言を、本発明においては、応答発言という。例えば、発言間関係情報は、応答発言であるか、および応答対象の元発言を特定する情報を含み、投稿サイト内で適用される投稿ルールを利用して、「@」に続いてプレーヤの投稿サイトユーザ名が含まれる投稿を抽出すること等により実現できる。   Here, the relationship between each utterance and other utterances refers to a relationship in which each utterance re-posts (including replies) or quotes (including references) utterances posted by other users. In the present invention, the utterance in the above is called a response utterance. For example, the inter-speech relationship information includes information that identifies whether the response is a response speech and the original speech to be responded to, and uses the posting rules applied within the posting site, followed by the player's post This can be realized by extracting posts including the site user name.

規則性指数算出部130は、タイミング相関係数算出部140、ユーザ応答時間算出部150、交替潜時特徴量算出部160、および周期性指数算出部170を備える。なお、規則性指数算出部130は、タイミング相関係数算出部140、ユーザ応答時間算出部150、交替潜時特徴量算出部160、および周期性指数算出部170のうち、少なくとも1つ備えていればよい。   The regularity index calculation unit 130 includes a timing correlation coefficient calculation unit 140, a user response time calculation unit 150, an alternating latency feature value calculation unit 160, and a periodicity index calculation unit 170. The regularity index calculation unit 130 includes at least one of the timing correlation coefficient calculation unit 140, the user response time calculation unit 150, the alternation latency feature value calculation unit 160, and the periodicity index calculation unit 170. That's fine.

タイミング相関係数算出部140は、判定対象ユーザと他ユーザとの間の発言の投稿タイミングの相関関係を表すタイミング相関係数を規則性指数として算出する。ところで、ボットによる発言の投稿は予めプログラムされたルールに従って行われるために、ボットによる発言の投稿は、特定ユーザの発言の投稿に追従するという規則性があることが多い。この場合には、ボットと特定ユーザとの間の発言の投稿タイミングに相関関係が表れるので、規則性指数としてタイミング相関係数を利用して、判定対象ユーザがボットか否かを判定することができる。   The timing correlation coefficient calculation unit 140 calculates a timing correlation coefficient that represents the correlation of the posting timing of a statement between the determination target user and another user as a regularity index. By the way, since the posting of the utterance by the bot is performed according to a pre-programmed rule, the posting of the utterance by the bot often has a regularity of following the posting of the utterance by the specific user. In this case, since a correlation appears in the posting timing of the speech between the bot and the specific user, it is possible to determine whether the determination target user is a bot using the timing correlation coefficient as the regularity index. it can.

図1に示すように、タイミング相関係数算出部140は、最近傍投稿日時リスト取得部141、個別相関係数算出部142、およびタイミング相関係数決定部143を備える。   As shown in FIG. 1, the timing correlation coefficient calculation unit 140 includes a nearest posting date / time list acquisition unit 141, an individual correlation coefficient calculation unit 142, and a timing correlation coefficient determination unit 143.

最近傍投稿日時リスト取得部141は、発言記憶部120に記憶されている発言情報に基づいて、判定対象ユーザの各投稿日時情報に、各投稿日時情報に最も近い他ユーザそれぞれの投稿日時情報を対応付けた最近傍投稿日時リストを取得する。   The nearest posting date / time list acquisition unit 141 adds the posting date / time information of each of the other users closest to each posting date / time information to each posting date / time information of the determination target user based on the statement information stored in the statement storage unit 120. Acquires the nearest posting date list associated.

最近傍投稿日時リスト取得部141は、ユーザ判定部110から判定対象ユーザのユーザIDを取得すると、取得したユーザIDに基づいて、発言記憶部120から判定対象ユーザの投稿日時情報を取得する。最近傍投稿日時リスト取得部141は、発言記憶部120に記憶されている全投稿日時情報を取得してもよいし、期間を指定して、期間内の投稿日時情報のみを取得するようにしてもよい。   When acquiring the user ID of the determination target user from the user determination unit 110, the nearest neighbor posting date list acquisition unit 141 acquires the determination target user posting date information from the statement storage unit 120 based on the acquired user ID. The nearest neighbor posting date / time list acquisition unit 141 may acquire all posting date / time information stored in the comment storage unit 120, or specify a period and acquire only posting date / time information within the period. Also good.

ユーザ判定部110から発言情報を取得した場合には、最近傍投稿日時リスト取得部141は、発言記憶部120から取得する判定対象ユーザの投稿日時情報の代わりに、ユーザ判定部110から発言情報に含まれる投稿日時情報を利用してもよい。また、最近傍投稿日時リスト取得部141は、ユーザ判定部110から取得した発言情報に含まれる判定対象ユーザのユーザIDに基づいて、発言記憶部120から判定対象ユーザの投稿日時情報を取得してもよい。   When the utterance information is acquired from the user determination unit 110, the nearest posting date / time list acquisition unit 141 replaces the posting date information of the determination target user acquired from the utterance storage unit 120 with the utterance information from the user determination unit 110. The posted date information included may be used. Further, the nearest posting date / time list acquisition unit 141 acquires the posting date / time information of the determination target user from the statement storage unit 120 based on the user ID of the determination target user included in the remark information acquired from the user determination unit 110. Also good.

また、最近傍投稿日時リスト取得部141は、判定対象ユーザのユーザIDに基づいて判定対象ユーザ以外の他ユーザのユーザIDを発言記憶部120から取得する。なお、ユーザ判定部110から発言情報を取得した場合には、発言情報含まれる判定対象ユーザのユーザIDに基づいて、判定対象ユーザ以外の他ユーザのユーザIDを発言記憶部120から取得する。このとき、判定対象ユーザ以外であって、所定数以上の発言があるユーザのみを他ユーザとしてもよい。   The nearest posting date / time list acquisition unit 141 acquires the user IDs of users other than the determination target user from the statement storage unit 120 based on the user ID of the determination target user. When speech information is acquired from the user determination unit 110, user IDs of users other than the determination target user are acquired from the speech storage unit 120 based on the user ID of the determination target user included in the speech information. At this time, only users other than the determination target users who have a predetermined number of statements may be set as other users.

最近傍投稿日時リスト取得部141は、取得した他ユーザのユーザIDに基づいて、他ユーザ毎に投稿日時情報を取得する。そして、最近傍投稿日時リスト取得部141は、他ユーザの投稿日時情報の中から、判定対象ユーザの各投稿日時情報に最も近い投稿日時情報それぞれを抽出し、判定対象ユーザの各投稿日時情報に対応付け、同処理を全他ユーザについて行って最近傍投稿日時リストを作成する。   The nearest neighbor posting date list acquisition unit 141 acquires posting date information for each other user based on the acquired user ID of the other user. Then, the nearest posting date / time list acquisition unit 141 extracts each posting date / time information closest to each posting date / time information of the determination target user from the posting date / time information of the other users, and extracts each posting date / time information of the determination target user. The association and the same processing are performed for all other users to create the nearest posting date list.

個別相関係数算出部142は、最近傍投稿日時リスト取得部141で取得された最近傍投稿日時リストに基づいて、判定対象ユーザと他ユーザそれぞれとの投稿タイミングの関連性を示す、判定対象ユーザの投稿日時情報と他ユーザの投稿日時情報との個別相関係数を算出する。具体的には、以下の(1)式に最近傍投稿日時リストから判定対象ユーザのi番目の投稿日時情報と、他ユーザのi番目の投稿日時情報を代入して、判定対象ユーザと他ユーザとの個別相関係数を算出する。なお、個別相関係数算出部142は、全他ユーザについて判定対象ユーザとの相関係数を算出する。   The individual correlation coefficient calculation unit 142 is a determination target user that indicates the relevance of the posting timing between the determination target user and each of the other users based on the nearest posting date / time list acquired by the nearest posting date / time list acquisition unit 141. The individual correlation coefficient between the posting date / time information and the posting date / time information of other users is calculated. Specifically, by substituting the i-th posting date / time information of the determination target user and the i-th posting date / time information of the other user from the nearest posting date / time list into the following formula (1), the determination target user and the other user The individual correlation coefficient is calculated. The individual correlation coefficient calculation unit 142 calculates a correlation coefficient with the determination target user for all other users.

Figure 0006249794
Figure 0006249794

タイミング相関係数決定部143は、個別相関係数算出部142で算出された個別相関係数の中から、判定対象ユーザの前に発言を投稿する傾向を有する他ユーザの個別相関係数を最近傍投稿日時リスト取得部141で取得した最近傍投稿日時リストに基づいて抽出し、抽出した個別相関係数の最大相関係数をタイミング相関係数として決定する。   The timing correlation coefficient determination unit 143 selects the individual correlation coefficient of another user who has a tendency to post a comment before the determination target user from among the individual correlation coefficients calculated by the individual correlation coefficient calculation unit 142. Extracted based on the nearest posting date / time list acquired by the side posting date / time list acquisition unit 141, and the maximum correlation coefficient of the extracted individual correlation coefficient is determined as a timing correlation coefficient.

具体的には、タイミング相関係数決定部143は、最近傍投稿日時リスト取得部141で取得された最近傍投稿日時リストに基づいて、判定対象ユーザの投稿日時情報の平均値と他ユーザそれぞれの投稿日時情報の平均値とを算出する。次に、タイミング相関係数決定部143は、判定対象ユーザの投稿日時情報の平均値よりも投稿日時情報の平均値が小さい他ユーザを特定する。判定対象ユーザの投稿日時情報の平均値よりも投稿日時情報の平均値が小さい他ユーザは、判定対象ユーザより前の投稿する傾向を有すると判断することができる。そして、タイミング相関係数決定部143は、特定した他ユーザと判定対象ユーザとの個別相関係数の最大値を、タイミング相関係数として決定する。   Specifically, the timing correlation coefficient determination unit 143 determines the average value of the posting date information of the determination target user and each of the other users based on the nearest posting date list acquired by the nearest posting date list acquisition unit 141. The average value of the posting date information is calculated. Next, the timing correlation coefficient determination unit 143 specifies another user whose average value of the posting date information is smaller than the average value of the posting date information of the determination target user. It can be determined that another user whose average value of the posting date information is smaller than the average value of the posting date information of the determination target user has a tendency to post before the determination target user. Then, the timing correlation coefficient determination unit 143 determines the maximum value of the individual correlation coefficient between the identified other user and the determination target user as the timing correlation coefficient.

ボットによる発言の投稿は他ユーザの発言の投稿に追従するので、判定対象ユーザが追従している他ユーザとの個別相関係数の最大値を、ボットか否かの判定に用いるタイミング相関係数として決定する。タイミング相関係数決定部143は、判定対象ユーザの投稿日時情報の平均値よりも投稿日時情報の平均値が小さい他ユーザを特定することができない場合は、判定対象ユーザが追従している他ユーザがいないので、判定対象ユーザはボットでないと判断できる。この場合、ユーザ判定部110に判定対象ユーザがボットでないと必ず判断させるために、タイミング相関係数を0やマイナス値に置き換えることが望ましい。   Since the posting of the utterance by the bot follows the posting of the utterance of the other user, the timing correlation coefficient used to determine whether or not the bot is the maximum individual correlation coefficient with the other user that the target user follows Determine as. If the average value of the posting date information is smaller than the average value of the posting date information of the determination target user and the timing correlation coefficient determination unit 143 cannot identify the other user, the other user that the determination target user follows Therefore, it can be determined that the determination target user is not a bot. In this case, it is desirable to replace the timing correlation coefficient with 0 or a negative value in order to cause the user determination unit 110 to always determine that the determination target user is not a bot.

タイミング相関係数は大きいほど、判定対象ユーザと他ユーザとの投稿タイミングに関連性があることを示す。規則性指数として算出されたタイミング相関係数としきい値記憶部180に記憶されているしきい値との大小関係を比較し、ユーザ判定部110は、タイミング相関係数がしきい値よりも大きい場合には、判定対象ユーザはボットであると判断し、一方、タイミング相関係数がしきい値以下の場合には、判定対象ユーザはボットでないと判断する。   The larger the timing correlation coefficient, the more relevant the posting timing between the determination target user and other users. The user determination unit 110 compares the magnitude correlation between the timing correlation coefficient calculated as the regularity index and the threshold value stored in the threshold value storage unit 180, and the user determination unit 110 has a timing correlation coefficient larger than the threshold value. In this case, it is determined that the determination target user is a bot. On the other hand, if the timing correlation coefficient is equal to or less than the threshold value, it is determined that the determination target user is not a bot.

ユーザ応答時間算出部150は、判定対象ユーザの応答時間を規則性指数として算出する。ところで、ボットによる発言の投稿は予めプログラムされたルールに従って行われるために、ボットは人よりも応答が速いという規則性があることが多ので、規則性指数として応答時間を利用して、判定対象ユーザがボットか否かを判定することができる。   The user response time calculation unit 150 calculates the response time of the determination target user as a regularity index. By the way, since posting of utterances by bots is performed according to pre-programmed rules, bots often have regularity that responds faster than humans. It can be determined whether or not the user is a bot.

図1に示すように、ユーザ応答時間算出部150は、応答日時リスト取得部151、元投稿日時リスト取得部152、およびユーザ応答時間決定部153を備える。   As illustrated in FIG. 1, the user response time calculation unit 150 includes a response date / time list acquisition unit 151, an original posting date / time list acquisition unit 152, and a user response time determination unit 153.

応答日時リスト取得部151は、ユーザ判定部110から判定対象ユーザのユーザIDを取得すると、取得したユーザIDに対応付けて発言記憶部120に記憶されている発言間関係情報に含まれる応答発言であるかの情報に基づいて、判定対象ユーザの応答発言の投稿日時情報のリストである応答日時リストを、発言記憶部120から取得する。   When the response date and time list acquisition unit 151 acquires the user ID of the determination target user from the user determination unit 110, the response date and time list acquisition unit 151 is a response message included in the inter-sentence relationship information stored in the message storage unit 120 in association with the acquired user ID. Based on the information on whether or not there is a response date / time list, which is a list of post date / time information of response speech of the determination target user, is acquired from the statement storage unit 120.

応答日時リスト取得部151は、ユーザ判定部110から判定対象ユーザの発言情報を取得した場合には、取得した発言情報に含まれる発言間関係情報に基づいて、判定対象ユーザの応答発言の投稿日時情報のリストである応答日時リストを取得する。なお、応答日時リスト取得部151は、ユーザ判定部110から取得した発言情報に含まれる判定対象ユーザのユーザIDに対応付けて発言記憶部120に記憶されている発言間関係情報に基づいて、応答日時リストを発言記憶部120から取得してもよい。   When the response date and time list acquisition unit 151 acquires the utterance information of the determination target user from the user determination unit 110, the response date and time of posting the response utterance of the determination target user based on the inter-utterance relation information included in the acquired utterance information Get a response date list that is a list of information. The response date / time list acquisition unit 151 responds based on the inter-sentence relationship information stored in the speech storage unit 120 in association with the user ID of the determination target user included in the speech information acquired from the user determination unit 110. The date / time list may be acquired from the comment storage unit 120.

元投稿日時リスト取得部152は、ユーザ判定部110から判定対象ユーザのユーザIDを取得すると、取得したユーザIDに対応付けて発言記憶部120に記憶されている発言間関係情報に含まれる応答対象の元発言を特定する情報に基づいて、判定対象ユーザの各応答発言の元発言の投稿日時情報のリストである元投稿日時リストを、発言記憶部120から取得する。なお、元投稿日時リストのi番目の投稿日時情報は、応答日時リストのi番目の投稿日時情報に対応する応答発言の元発言である。   When the original posting date / time list acquisition unit 152 acquires the user ID of the determination target user from the user determination unit 110, the response target included in the inter-sentence relationship information stored in the statement storage unit 120 in association with the acquired user ID. Based on the information specifying the original utterance, the original posting date / time list, which is a list of the posting date / time information of the original utterance of each response utterance of the determination target user, is acquired from the utterance storage unit 120. The i-th posting date / time information in the original posting date / time list is the original message of the response message corresponding to the i-th posting date / time information in the response date / time list.

元投稿日時リスト取得部152は、ユーザ判定部110から判定対象ユーザの発言情報を取得した場合には、取得した発言情報の発言間関係情報に含まれる応答対象の元発言を特定する情報に基づいて、判定対象ユーザの各応答発言の元発言の投稿日時情報のリストである元投稿日時リストを取得する。なお、元投稿日時リスト取得部152は、ユーザ判定部110から取得した発言情報に含まれる判定対象ユーザのユーザIDに対応付けて発言記憶部120に記憶されている発言間関係情報に含まれる応答対象の元発言を特定する情報に基づいて、応答日時リストを発言記憶部120から取得してもよい。   When the original posting date / time list acquisition unit 152 acquires the utterance information of the determination target user from the user determination unit 110, the original posting date / time list acquisition unit 152 is based on information that specifies the original utterance of the response target included in the inter-utterance relationship information of the acquired utterance information. Thus, an original posting date list that is a list of original posting date information of each response message of the determination target user is acquired. The original posting date / time list acquisition unit 152 is a response included in the inter-sentence relationship information stored in the speech storage unit 120 in association with the user ID of the determination target user included in the speech information acquired from the user determination unit 110. The response date / time list may be acquired from the message storage unit 120 based on information specifying the target original message.

ユーザ応答時間決定部153は、応答日時リストと元投稿日時リストとにおいて対応する投稿日時情報に基づいて、判定対象ユーザが各応答発言を投稿するまでの応答時間をそれぞれ算出し、算出した応答時間の平均を判定対象ユーザのユーザ応答時間として決定する。   The user response time determination unit 153 calculates a response time until the determination target user posts each response message based on the corresponding posting date information in the response date list and the original posting date list, and calculates the calculated response time Is determined as the user response time of the determination target user.

応答時間が常に早いユーザはボットである可能性が高いことから、ユーザ判定部110は、ユーザ応答時間算出部150で算出されたユーザ応答時間をしきい値と比較し、しきい値よりもユーザ応答時間が小さい場合には、判定対象ユーザはボットであると判断し、一方、ユーザ応答時間がしきい値以上である場合には、判定対象ユーザは非ボットであると判断する。   Since the user whose response time is always fast is likely to be a bot, the user determination unit 110 compares the user response time calculated by the user response time calculation unit 150 with a threshold value and compares the user response time with the threshold value. When the response time is small, it is determined that the determination target user is a bot. On the other hand, when the user response time is equal to or greater than the threshold value, it is determined that the determination target user is a non-bot.

交替潜時特徴量算出部160は、判定対象ユーザの交代潜時特徴量を規則性指数として算出する。ところで、人が2者間で対話する際には交代潜時が同調するが、ボットによる発言の投稿は予めプログラムされたルールに従って行われるために、交代潜時が同調しないという規則性があることが多ので、規則性指数として交代潜時特徴量を利用して、判定対象ユーザがボットか否かを判定することができる。   The alternation latency feature quantity calculation unit 160 calculates the alternation latency feature quantity of the determination target user as a regularity index. By the way, when a person talks between two parties, the alternation latency is synchronized, but since the posting of utterances by the bot is performed according to pre-programmed rules, there is a regularity that the alternation latency is not synchronized Therefore, it is possible to determine whether or not the determination target user is a bot using the alternation latency characteristic amount as the regularity index.

図1に示すように、交替潜時特徴量算出部160は、連続応答区間抽出部161、同意判定部162、および交替潜時特徴量決定部163を備える。   As shown in FIG. 1, the replacement latency feature value calculation unit 160 includes a continuous response section extraction unit 161, an agreement determination unit 162, and a replacement latency feature value determination unit 163.

連続応答区間抽出部161は、発言記憶部120に記憶されている発言情報に基づいて、判定対象ユーザと一の他ユーザとリアルタイムに近い間隔で互いに向かって発言の投稿を所定回数繰り返している連続応答区間の発言情報を、発言記憶部120から抽出する。   The continuous response section extraction unit 161 continuously repeats posting of comments a predetermined number of times toward each other at near real-time intervals with the determination target user and one other user based on the speech information stored in the speech storage unit 120. The comment information of the response section is extracted from the comment storage unit 120.

具体的には、連続応答区間抽出部161は、まず、判定対象ユーザのユーザIDと、発言記憶部120に記憶されている発言間関係情報に含まれる応答対象の元発言を特定する情報および投稿日時情報とに基づいて、判定対象ユーザの発言と応答関係にあって、判定対象ユーザの発言との投稿間隔が所定時間以内にある発言を投稿しているユーザを連続応答ユーザ候補として抽出する。なお、ユーザ判定部110から発言情報を取得した場合には、最初に、ユーザ判定部110から取得した発言情報に含まれる判定対象ユーザのユーザIDを取得する。   Specifically, the continuous response section extraction unit 161 firstly specifies the user ID of the determination target user and the response target original utterance included in the inter-speech relationship information stored in the utterance storage unit 120 and the posting. Based on the date and time information, a user who has posted a message that is in a response relationship with the determination target user's statement and whose posting interval with the determination target user's message is within a predetermined time is extracted as a continuous response user candidate. When speech information is acquired from the user determination unit 110, first, the user ID of the determination target user included in the speech information acquired from the user determination unit 110 is acquired.

次に、連続応答区間抽出部161は、発言記憶部120に記憶されている発言間関係情報に含まれる応答対象の元発言を特定する情報に基づいて、抽出した一の連続応答ユーザ候補の発言および判定対象ユーザの発言の中から応答関係にある発言の発言情報を抽出し、抽出した発言情報に含まれる投稿日時情報に基づいて、時系列に並べた発言時系列リストを作成する。連続応答区間抽出部161は、全ての連続応答ユーザ候補について、発言時系列リストを作成する。   Next, the continuous response section extraction unit 161 extracts the utterance of one continuous response user candidate extracted based on the information specifying the original utterance to be responded included in the inter-speech relation information stored in the utterance storage unit 120. Then, the utterance information of the utterances having a response relationship is extracted from the utterances of the determination target user, and the utterance time series list arranged in time series is created based on the posting date information included in the extracted utterance information. The continuous response section extraction unit 161 creates a speech time series list for all continuous response user candidates.

そして、連続応答区間抽出部161は、作成した全発言時系列リストの中から投稿間隔が所定時間以内の発言が所定数以上続く区間を連続応答区間として特定し、全発言時系列リストから連続応答区間の発言情報を抽出する。   Then, the continuous response section extraction unit 161 identifies, as a continuous response section, a section in which a predetermined number of utterances with a posting interval within a predetermined time are included as a continuous response section from the created all utterance time series list. Extract speech information for the section.

同意判定部162は、連続応答区間抽出部161で抽出された発言情報に含まれる内容情報に基づいて、連続応答区間の各発言が元発言に同意か不同意かを判定する。なお、同意でも不同意でもない中立かを含めて判定を行ってもよい。判定結果は、発言情報に付与する。   The consent determination unit 162 determines whether each utterance in the continuous response section agrees or disagrees with the original utterance based on the content information included in the utterance information extracted by the continuous response section extraction unit 161. The determination may be made including neutrality that is neither consent nor disagreement. The determination result is given to the comment information.

交替潜時特徴量算出部160は、連続応答区間抽出部161で抽出された連続応答区間の発言情報に含まれる投稿日時情報に基づいて、連続応答区間内に含まれる各発言の応答間隔を算出し、算出した応答間隔を以下の(2)式に代入して、交替潜時特徴量を算出する。   The alternation latency feature quantity calculation unit 160 calculates the response interval of each utterance included in the continuous response section based on the posting date information included in the utterance information of the continuous response section extracted by the continuous response section extraction unit 161. Then, the calculated response interval is substituted into the following equation (2) to calculate the alternation latency characteristic amount.

Figure 0006249794
Figure 0006249794

交替潜時特徴量算出部160は、連続応答区間の発言情報に同意判定部162の判定結果が付与されている場合には、判定結果に基づいて、連続応答区間内に含まれる各発言の応答間隔に重み付けを行う。そして、重み付けをした応答間隔を上述した(2)式に代入して、交替潜時特徴量を算出する。   When the determination result of the consent determination unit 162 is given to the utterance information in the continuous response section, the alternation latency feature quantity calculation unit 160 responds to each utterance included in the continuous response section based on the determination result. Weight intervals. Then, the weighted response interval is substituted into the above-described equation (2) to calculate the alternate latency feature amount.

相手に不同意の場合の応答時間は、同意の場合に応答時間に比べ長くなる傾向がある(非特許文献4:松山隆司,川嶋宏彰,平山高嗣,「時間と時間感覚に対する感性の情報処理」,電子情報通信学会誌 92(11),952−954,2009−11−01)。そのため、発言が同意か不同かによって応答時間に重み付けを行うことにより、より精度よく交替潜時特徴量を算出することが可能となる。   Response time in the case of disagreement with the other party tends to be longer than response time in the case of consent (Non-patent document 4: Takashi Matsuyama, Hiroaki Kawashima, Takaaki Hirayama, “Information processing of sensitivity to time and time sense”) , IEICE Journal 92 (11), 952-954, 2009-11-01). Therefore, it is possible to calculate the alternation latency feature amount with higher accuracy by weighting the response time depending on whether the utterance is agreement or disagreement.

人間は2者間で対話する際、交替潜時が同調することから、ユーザ判定部110は、交代潜時特徴量が、しきい値「0」に収束する場合には、判定対象ユーザは非ボットであると判定し、一方、しきい値「0」に収束しない場合には、判定対象ユーザはボットであると判定する。   When humans interact with each other, the alternation latency is synchronized. Therefore, when the alternation latency feature value converges to the threshold value “0”, the user determination unit 110 determines that the determination target user is not On the other hand, if it is determined to be a bot and does not converge to the threshold value “0”, the determination target user is determined to be a bot.

周期性指数算出部170は、解析投稿日時リスト取得部171、およびスペクトル解析部172を備える。   The periodicity index calculation unit 170 includes an analysis posting date list acquisition unit 171 and a spectrum analysis unit 172.

解析投稿日時リスト取得部171は、ユーザ判定部110から判定対象ユーザのユーザIDを取得すると、取得したユーザIDに対応付けて発言記憶部120に記憶されている発言情報に基づいて、判定対象ユーザの投稿日時情報のリストを解析投稿日時リストとして取得する。解析投稿日時リスト取得部171は、発言記憶部120に記憶されている全投稿日時情報を取得してもよいし、期間を指定して、期間内の投稿日時情報のみを取得するようにしてもよい。   When the analysis posting date and time list acquisition unit 171 acquires the user ID of the determination target user from the user determination unit 110, the determination target user is based on the remark information stored in the remark storage unit 120 in association with the acquired user ID. Get a list of post date information as an analysis post date list. The analysis posting date list acquisition unit 171 may acquire all posting date information stored in the comment storage unit 120, or may specify only a period and acquire only posting date information within the period. Good.

ユーザ判定部110から発言情報を取得した場合には、解析投稿日時リスト取得部171は、発言記憶部120から取得する判定対象ユーザの投稿日時情報の代わりに、ユーザ判定部110から取得した発言情報から解析投稿日時リストを取得してもよい。なお、解析投稿日時リスト取得部171は、ユーザ判定部110から取得した発言情報に含まれる判定対象ユーザのユーザIDに基づいて、発言記憶部120から解析投稿日時リストを取得してもよい。   When the utterance information is acquired from the user determination unit 110, the analysis posting date / time list acquisition unit 171 receives the utterance information acquired from the user determination unit 110 instead of the posting date / time information of the determination target user acquired from the utterance storage unit 120. You may acquire the analysis posting date list from. The analysis posting date / time list acquisition unit 171 may acquire the analysis posting date / time list from the message storage unit 120 based on the user ID of the determination target user included in the message information acquired from the user determination unit 110.

解析投稿日時リスト取得部171は、発言記憶部120に記憶されている発言情報に含まれる発言間関係情報に基づいて、判定対象ユーザについて、応答発言以外の発言の投稿日時情報のリストを解析投稿日時リストとして取得してもよい。それにより、より精度よく周期性の有無を判定することができる。他のユーザへの応答の発言は、予め設定されたルールには依存せず投稿されるため、周期性の有無を判定するにはノイズとなるからである。   The analysis posting date / time list acquisition unit 171 analyzes and posts a list of posting date / time information of statements other than response messages for the determination target user based on the inter-speech relationship information included in the speech information stored in the speech storage unit 120. You may acquire as a date list. Thereby, the presence or absence of periodicity can be determined with higher accuracy. This is because a utterance of a response to another user is posted without depending on a preset rule, so that it becomes noise to determine the presence or absence of periodicity.

スペクトル解析部172は、解析投稿日時リスト取得部171で取得した解析投稿日時リストをスペクトル解析する。具体的には、スペクトル解析部172は、発言の投稿を一定出力のインパルス応答信号の出力とみなして、スペクトル解析を行い、解析結果として振幅スペクトルを取得する。なお、スペクトル解析には、例えば、フーリエ変換やpiccolo法を用いる。そして、スペクトル解析部172は、取得した振幅スペクトルの最大振幅値を規則性指数として取得する。   The spectrum analysis unit 172 performs spectrum analysis on the analysis posting date list acquired by the analysis posting date list acquisition unit 171. Specifically, the spectrum analysis unit 172 regards the posting of the message as an output of a constant output impulse response signal, performs spectrum analysis, and acquires an amplitude spectrum as an analysis result. For the spectrum analysis, for example, Fourier transform or piccolo method is used. Then, the spectrum analysis unit 172 acquires the maximum amplitude value of the acquired amplitude spectrum as a regularity index.

ユーザ判定部110は、スペクトル解析部172で取得した最大振幅値がしきい値より大きければボットと判定し、一方、最大振幅値がしきい値以下であれば非ボットであると判定する。特定周期で発言が投稿されているほど、最大振幅値が大きくなるので、最大振幅値としきい値をと比較することにより判定対象ユーザがボットであるか否かを判定することができる。   The user determination unit 110 determines a bot if the maximum amplitude value acquired by the spectrum analysis unit 172 is greater than the threshold value, and determines that it is a non-bot if the maximum amplitude value is equal to or less than the threshold value. Since the maximum amplitude value increases as the utterance is posted in a specific cycle, it can be determined whether or not the determination target user is a bot by comparing the maximum amplitude value with a threshold value.

しきい値記憶部180は、予め設定された規則性指数のしきい値を記憶する。具体的には、ボットの判定にユーザ間相関係数を用いる場合にはユーザ間相関係数のしきい値、ボットの判定に応答時間を用いる場合には応答時間のしきい値、ボットの判定に交代潜時特徴量を用いる場合には交代潜時特徴量のしきい値「0」、ボットの判定に最大振幅値を用いる場合には最大振幅値のしきい値が記憶されている。   The threshold value storage unit 180 stores a preset regularity index threshold value. Specifically, when the inter-user correlation coefficient is used for the bot determination, the inter-user correlation coefficient threshold value is used. When the response time is used for the bot determination, the response time threshold value and the bot determination are used. When the alternate latency feature quantity is used, the threshold value of the alternate latency feature quantity “0” is stored. When the maximum amplitude value is used for bot determination, the threshold value of the maximum amplitude value is stored.

<タイミング相関係数を用いたボット判定処理フロー>
図2は、本発明の第1の実施形態に係るボット判定装置100における、タイミング相関係数を用いたボット判定処理フローを示す図である。
<Bot decision processing flow using timing correlation coefficient>
FIG. 2 is a diagram showing a bot determination processing flow using a timing correlation coefficient in the bot determination apparatus 100 according to the first embodiment of the present invention.

まず、ステップS1において、ユーザ判定部110が、外部から判定対象ユーザのユーザIDまたは判定対象ユーザの発言情報が入力されたか否かを判定する。入力されたと判定した場合(YES)には、ステップS2に処理を進め、一方、入力されていないと判定した場合(NO)には、処理を終了する。   First, in step S1, the user determination unit 110 determines whether the user ID of the determination target user or the remark information of the determination target user is input from the outside. If it is determined that it has been input (YES), the process proceeds to step S2. On the other hand, if it is determined that it has not been input (NO), the process ends.

次に、ステップS2において、最近傍投稿日時リスト取得部141は、判定対象ユーザの投稿日時情報を取得する。ユーザ判定部110から判定対象ユーザのユーザIDを受信した場合には、受信したユーザIDに基づいて投稿日時情報を発言記憶部120から取得する。一方、ユーザ判定部110から判定対象ユーザの発言情報を取得した場合には、発言情報に含まれるユーザIDに基づいて投稿日時情報を発言記憶部120から取得してもよいし、取得した発言情報から投稿日時情報を取得してもよい。   Next, in step S <b> 2, the nearest posting date / time list acquisition unit 141 acquires the posting date / time information of the determination target user. When the user ID of the determination target user is received from the user determination unit 110, the posting date / time information is acquired from the message storage unit 120 based on the received user ID. On the other hand, when the utterance information of the determination target user is acquired from the user determination unit 110, the posting date information may be acquired from the utterance storage unit 120 based on the user ID included in the utterance information. Post date information may be obtained from

次に、ステップS3において、最近傍投稿日時リスト取得部141は、判定対象ユーザのユーザIDに基づいて判定対象ユーザ以外の他ユーザのユーザIDを発言記憶部120から取得する。   Next, in step S <b> 3, the nearest posting date / time list acquisition unit 141 acquires the user IDs of users other than the determination target user from the statement storage unit 120 based on the user ID of the determination target user.

次に、ステップS4において、最近傍投稿日時リスト取得部141は、ステップS2で取得した判定対象ユーザの投稿日時情報と、ステップS3で取得した他ユーザそれぞれのユーザIDとに基づいて、発言記憶部120に記憶されている発言情報に基づいて、判定対象ユーザの各投稿日時情報に、各投稿日時情報に最も近い他ユーザそれぞれの投稿日時情報を対応付けた最近傍投稿日時リストを、発言記憶部120から取得する。   Next, in step S4, the nearest posting date / time list acquisition unit 141, based on the posting date / time information of the determination target user acquired in step S2 and the user ID of each other user acquired in step S3, the message storage unit Based on the utterance information stored in 120, the utterance storage unit includes a nearest posting date / time list in which each posting date / time information of the determination target user is associated with each posting date / time information of the other users closest to the posting date / time information. Obtain from 120.

次に、ステップS5において、個別相関係数算出部142は、ステップS4で取得された最近傍投稿日時リストに基づいて、判定対象ユーザと他ユーザとの投稿タイミングの関連性を示し、判定対象ユーザの投稿日時情報と他ユーザそれぞれとの投稿日時情報との個別相関係数を算出する。   Next, in step S5, the individual correlation coefficient calculation unit 142 indicates the relevance of the posting timing between the determination target user and other users based on the nearest posting date / time list acquired in step S4. The individual correlation coefficient between the posting date / time information and the posting date / time information of each other user is calculated.

次に、ステップS6において、個別相関係数算出部142は、ステップS4で取得した最近傍投稿日時リストに含まれる全ての他ユーザについて個別相関係数を算出したか否かを判定する。全ての他ユーザの個別相関係数を算出した場合には、ステップS7に処理を進め、一方、まだ全ての他ユーザの個別相関係数を算出していない場合には、ステップS5に処理を戻す。   Next, in step S6, the individual correlation coefficient calculation unit 142 determines whether or not individual correlation coefficients have been calculated for all other users included in the nearest posting date / time list acquired in step S4. If the individual correlation coefficients of all other users have been calculated, the process proceeds to step S7. On the other hand, if the individual correlation coefficients of all other users have not yet been calculated, the process returns to step S5. .

次に、ステップS7において、タイミング相関係数決定部143は、ステップS5で算出された個別相関係数の中から、判定対象ユーザの前に発言を投稿する傾向を有する他ユーザの個別相関係数をステップS4で取得した最近傍投稿日時リストに基づいて抽出し、抽出した個別相関係数の最大相関係数をタイミング相関係数として決定する。   Next, in step S7, the timing correlation coefficient determination unit 143 determines the individual correlation coefficient of another user who has a tendency to post a comment before the determination target user from the individual correlation coefficients calculated in step S5. Are extracted based on the nearest posting date / time list acquired in step S4, and the maximum correlation coefficient of the extracted individual correlation coefficients is determined as the timing correlation coefficient.

次に、ステップS8において、ユーザ判定部110は、ステップS7で算出したタイミング相関係数がしきい値記憶部180に記憶されているしきい値より大きいか否かを判定する。タイミング相関係数がしきい値より大きいと判定した場合(YES)には、ステップS9に処理を進め、一方、タイミング相関係数がしきい値以下と判定した場合(NO)には、ステップS10に処理を進める。   Next, in step S <b> 8, the user determination unit 110 determines whether or not the timing correlation coefficient calculated in step S <b> 7 is greater than the threshold value stored in the threshold value storage unit 180. If it is determined that the timing correlation coefficient is greater than the threshold value (YES), the process proceeds to step S9. On the other hand, if it is determined that the timing correlation coefficient is equal to or less than the threshold value (NO), step S10 is performed. Proceed with the process.

次に、ステップS9において、ユーザ判定部110は、判断対象ユーザはボットであると判定し、出力する。   Next, in step S9, the user determination unit 110 determines that the determination target user is a bot, and outputs it.

次に、ステップS10において、ユーザ判定部110は、判断対象ユーザは非ボットであると判定し、出力する。   Next, in step S10, the user determination unit 110 determines that the determination target user is a non-bot and outputs it.

<ユーザ応答時間を用いたボット判定処理フロー>
図3は、本発明の第1の実施形態に係るボット判定装置100における、ユーザ応答時間を用いたボット判定処理フローを示す図である。なお、図2を用いて説明したタイミング相関係数を用いたボット判定処理フローと同一処理については、同一符号を付し、その詳細な説明は省略する。
<Bot decision processing flow using user response time>
FIG. 3 is a diagram showing a bot determination processing flow using the user response time in the bot determination apparatus 100 according to the first embodiment of the present invention. Note that the same processes as those in the bot determination process flow using the timing correlation coefficient described with reference to FIG. 2 are denoted by the same reference numerals, and detailed description thereof is omitted.

次に、ステップS11において、応答日時リスト取得部151は、判定対象ユーザの応答日時リストを取得する。ユーザ判定部110から判定対象ユーザのユーザIDを受信した場合には、受信したユーザIDに対応付けて発言記憶部120に記憶されている発言間関係情報に含まれる応答発言であるかの情報に基づいて、応答日時リストを発言記憶部120から取得する。一方、ユーザ判定部110から判定対象ユーザの発言情報を取得した場合には、発言情報に含まれるユーザIDに基づいて同様にして応答日時リストを発言記憶部120から取得してもよいし、ユーザ判定部110から取得した発言情報から応答日時リストを取得してもよい。   Next, in step S11, the response date / time list acquisition unit 151 acquires the response date / time list of the determination target user. When the user ID of the determination target user is received from the user determination unit 110, information indicating whether the response is included in the inter-sentence relation information stored in the statement storage unit 120 in association with the received user ID. Based on this, the response date / time list is acquired from the message storage unit 120. On the other hand, when the utterance information of the determination target user is acquired from the user determination unit 110, the response date and time list may be acquired from the utterance storage unit 120 in the same manner based on the user ID included in the utterance information. You may acquire a response date list from the utterance information acquired from the determination part 110. FIG.

次に、ステップS12において、元投稿日時リスト取得部152は、元投稿日時リストを取得する。ユーザ判定部110から判定対象ユーザのユーザIDを受信した場合には、受信したユーザIDに対応付けて発言記憶部120に記憶されている発言間関係情報に含まれる応答対象の元発言を特定する情報に基づいて、元投稿日時リストを発言記憶部120から取得する。一方、ユーザ判定部110から判定対象ユーザの発言情報を取得した場合には、発言情報に含まれるユーザIDに基づいて同様にして応答日時リストを発言記憶部120から取得してもよいし、発言情報に含まれる発言間関係情報に含まれる応答対象の元発言を特定する情報に基づいて、元投稿日時リストを発言記憶部120から取得してもよい。   Next, in step S12, the original posting date / time list acquisition unit 152 acquires the original posting date / time list. When the user ID of the determination target user is received from the user determination unit 110, the response target original statement included in the inter-sentence relationship information stored in the statement storage unit 120 in association with the received user ID is specified. Based on the information, the original posting date list is acquired from the comment storage unit 120. On the other hand, when the utterance information of the determination target user is acquired from the user determination unit 110, the response date and time list may be acquired from the utterance storage unit 120 in the same manner based on the user ID included in the utterance information. The original posting date / time list may be acquired from the statement storage unit 120 based on the information specifying the original message to be responded included in the inter-speech relationship information included in the information.

次に、ステップS13において、ユーザ応答時間決定部153は、ステップS11で取得した応答日時リストとステップS12で取得した元投稿日時リストとにおいて対応する投稿日時情報に基づいて、判定対象ユーザが各応答発言を投稿するまでの応答時間をそれぞれ算出し、算出した応答時間の平均を判定対象ユーザのユーザ応答時間として決定する。   Next, in step S13, the user response time determination unit 153 determines whether the determination target user responds based on the corresponding posting date information in the response date list acquired in step S11 and the original posting date list acquired in step S12. The response time until posting a comment is calculated, and the average of the calculated response times is determined as the user response time of the determination target user.

次に、ステップS14において、ユーザ判定部110は、ステップS13で算出されたユーザ応答時間がしきい値記憶部180に記憶されているしきい値より小さいか否かを判定する。ユーザ応答時間がしきい値より小さいと判定した場合(YES)には、ステップS9に処理を進め、一方、ユーザ応答時間がしきい値以上と判定した場合(NO)には、ステップS10に処理を進める。   Next, in step S14, the user determination unit 110 determines whether or not the user response time calculated in step S13 is smaller than the threshold value stored in the threshold value storage unit 180. If it is determined that the user response time is smaller than the threshold value (YES), the process proceeds to step S9. On the other hand, if the user response time is determined to be equal to or greater than the threshold value (NO), the process proceeds to step S10. To proceed.

<交替潜時特徴量を用いたボット判定処理フロー>
図4は、本発明の第1の実施形態に係るボット判定装置100における、交替潜時特徴量を用いたボット判定処理フローを示す図である。なお、図2を用いて説明したタイミング相関係数を用いたボット判定処理フローと同一処理については、同一符号を付し、その詳細な説明は省略する。
<Bot decision processing flow using alternate latency feature>
FIG. 4 is a diagram showing a bot determination processing flow using the alternate latency feature quantity in the bot determination apparatus 100 according to the first embodiment of the present invention. Note that the same processes as those in the bot determination process flow using the timing correlation coefficient described with reference to FIG. 2 are denoted by the same reference numerals, and detailed description thereof is omitted.

次に、ステップS21において、連続応答区間抽出部161は、判定対象ユーザの発言と応答関係にあって、判定対象ユーザの発言との投稿間隔が所定時間以内にある発言を投稿しているユーザを連続応答ユーザ候補として抽出する。   Next, in step S <b> 21, the continuous response section extraction unit 161 selects a user who has posted a comment that is in a response relationship with the determination target user's comment and that has a posting interval within a predetermined time with the determination target user's comment. Extract as continuous response user candidates.

次に、ステップS22において、連続応答区間抽出部161は、ステップS21で抽出した一の連続応答ユーザ候補の発言情報、および判定対象ユーザの発言情報の中から応答関係にある発言情報を抽出し、時系列に並べた発言時系列リストを作成する。   Next, in step S22, the continuous response section extraction unit 161 extracts remark information that is in a response relationship from the remark information of the one continuous response user candidate extracted in step S21 and the remark information of the determination target user, Create a utterance time series list arranged in time series.

次に、ステップS23において、連続応答区間抽出部161は、ステップS22で作成した発言時系列リストの中から投稿間隔が所定時間以内の発言が所定数以上続く区間を連続応答区間として特定し、連続応答区間の発言情報を抽出する。   Next, in step S23, the continuous response section extraction unit 161 identifies, as a continuous response section, a section in which a predetermined number of utterances with a posting interval within a predetermined time continue from the utterance time series list created in step S22. Extract utterance information in the response section.

次に、ステップS24において、連続応答区間抽出部161は、ステップS21で抽出した全ての連続対応ユーザ候補ユーザについてステップS22およびS23の処理を行ったか否かを判定する。全ての連続対応ユーザ候補ユーザについて処理を行った場合(YES)には、ステップS25に処理を進め、一方、まだ全ての他ユーザの個別相関係数を算出していない場合(NO)には、ステップS22に処理を戻す。   Next, in step S24, the continuous response section extraction unit 161 determines whether or not the processing in steps S22 and S23 has been performed for all the continuous corresponding user candidate users extracted in step S21. If the process is performed for all the continuous corresponding user candidate users (YES), the process proceeds to step S25. On the other hand, if the individual correlation coefficients of all other users are not yet calculated (NO), The process returns to step S22.

次に、ステップS25において、交替潜時特徴量算出部160は、ステップS23で抽出した全ての個別連続応答区間を合わせて一の連続応答区間として、連続応答区間内に含まれる各発言の応答間隔を算出し、算出した応答間隔を上述した(2)式に代入して、交替潜時特徴量を決定する。   Next, in step S25, the alternation latency feature quantity calculation unit 160 combines all the individual continuous response sections extracted in step S23 as one continuous response section, and the response interval of each comment included in the continuous response section. And the calculated response interval is substituted into the above-described equation (2) to determine the alternation latency feature amount.

次に、ステップS26において、ユーザ判定部110は、ステップS25で算出された交替潜時特徴量がしきい値記憶部180に記憶されているしきい値「0」に収束か否かを判定する。交替潜時特徴量がしきい値「0」に収束すると判定した場合(YES)には、ステップS9に処理を進め、一方、しきい値「0」に収束しないと判定した場合(NO)には、ステップS10に処理を進める。   Next, in step S <b> 26, the user determination unit 110 determines whether or not the alternation latency feature value calculated in step S <b> 25 converges to the threshold value “0” stored in the threshold value storage unit 180. . If it is determined that the alternation latency feature value converges to the threshold value “0” (YES), the process proceeds to step S9. On the other hand, if it is determined not to converge to the threshold value “0” (NO) Advances the process to step S10.

<スペクトル解析を用いたボット判定処理フロー>
図5は、本発明の第1の実施形態に係るボット判定装置100における、スペクトル解析を用いたボット判定処理フローを示す図である。なお、図2を用いて説明したタイミング相関係数を用いたボット判定処理フローと同一処理については、同一符号を付し、その詳細な説明は省略する。
<Bot decision processing flow using spectrum analysis>
FIG. 5 is a diagram showing a bot determination processing flow using spectrum analysis in the bot determination apparatus 100 according to the first embodiment of the present invention. Note that the same processes as those in the bot determination process flow using the timing correlation coefficient described with reference to FIG. 2 are denoted by the same reference numerals, and detailed description thereof is omitted.

次に、ステップS31において、解析投稿日時リスト取得部171は、判定対象ユーザの投稿日時情報を解析投稿日時リストとして取得する。ユーザ判定部110から判定対象ユーザのユーザIDを受信した場合には、受信したユーザIDに基づいて解析投稿日時リストを発言記憶部120から取得する。一方、ユーザ判定部110から判定対象ユーザの発言情報を取得した場合には、発言情報に含まれるユーザIDに基づいて解析投稿日時リストを発言記憶部120から取得してもよいし、取得した発言情報から解析投稿日時リストを取得してもよい。   Next, in step S31, the analysis posting date list acquisition unit 171 acquires the posting date information of the determination target user as an analysis posting date list. When the user ID of the determination target user is received from the user determination unit 110, the analysis posting date list is acquired from the statement storage unit 120 based on the received user ID. On the other hand, when the utterance information of the determination target user is acquired from the user determination unit 110, the analysis posting date list may be acquired from the utterance storage unit 120 based on the user ID included in the utterance information, or the acquired utterance An analysis posting date list may be acquired from the information.

次に、ステップS32において、スペクトル解析部172は、ステップS31で取得した解析投稿日時リストをスペクトル解析する。   Next, in step S32, the spectrum analysis unit 172 performs spectrum analysis on the analysis posting date list acquired in step S31.

次に、ステップS33において、ステップS32の解析結果として取得した振幅スペクトルの最大振幅値を規則性指数として取得する。   Next, in step S33, the maximum amplitude value of the amplitude spectrum acquired as the analysis result of step S32 is acquired as the regularity index.

次に、ステップS34において、ユーザ判定部110は、ステップS33で算出された最大振幅値がしきい値記憶部180に記憶されているしきい値より大きいか否かを判定する。最大振幅値がしきい値より大きいと判定した場合(YES)には、ステップS9に処理を進め、一方、ユーザ応答時間がしきい値以下と判定した場合(NO)には、ステップS10に処理を進める。   Next, in step S <b> 34, the user determination unit 110 determines whether or not the maximum amplitude value calculated in step S <b> 33 is greater than the threshold value stored in the threshold value storage unit 180. If it is determined that the maximum amplitude value is greater than the threshold value (YES), the process proceeds to step S9. On the other hand, if it is determined that the user response time is equal to or less than the threshold value (NO), the process proceeds to step S10. To proceed.

以上、説明したように、本実施形態によれば、SNSにおいて、ユーザIDは使い捨てされないこと、およびボットはルールに従って発言を投稿することを利用して、他ユーザとの投稿タイミングの相関関係や応答時間、発言の交替潜時の特徴、ユーザ内の投稿間隔の周期性といった投稿タイミングの規則性から、学習データを必要とせずに、発言を投稿しているユーザがボットであるか否かを効率よく判定することができる。その結果、SNSにおいて、ボットの発言を除くことができ、効率よくスパムを除去できる。   As described above, according to the present embodiment, in the SNS, the user ID is not thrown away, and the bot posts a statement according to the rule, and the correlation and response of the posting timing with other users. Efficiency of whether or not the user who posted the utterance is a bot, without learning data, due to the regularity of posting timing such as time, the alternation latency of the utterance, and the periodicity of the posting interval within the user Can be judged well. As a result, in the SNS, bot remarks can be removed, and spam can be efficiently removed.

<第2の実施形態>
図6を用いて、本発明の第2の実施形態について説明する。なお、本実施形態におけるボット判定装置は、第1の実施形態で説明したユーザ間相関係数、応答時間、および振幅最大値を統合してボット判定を行うことにより、判定の精度を向上させた装置である。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
<Second Embodiment>
A second embodiment of the present invention will be described with reference to FIG. The bot determination device according to the present embodiment improves the determination accuracy by integrating the correlation coefficient between users, the response time, and the maximum amplitude value described in the first embodiment to perform the bot determination. Device. In addition, about the component which attaches | subjects the same code | symbol as 1st Embodiment, since it has the same function, the detailed description is abbreviate | omitted.

<ボット判定装置の機能構成>
図6は、本発明の第2の実施形態に係るボット判定装置200の機能構成を示す図である。ボット判定装置200は、SNS(Social Networking Service)において、発言を投稿しているユーザがボットであるか否かを判定する装置であって、規則性指数算出部131、発言記憶部120、統合モデル学習部210、統合モデル記憶部220、および統合モデル判定部230を備える。ここで、本発明におけるボットとは、広告等の情報(スパム)を発言する、機械による自動発言システムを意味する。
<Functional configuration of bot determination device>
FIG. 6 is a diagram illustrating a functional configuration of the bot determination device 200 according to the second embodiment of the present invention. The bot determination device 200 is a device that determines whether or not a user who has posted a comment is a bot in SNS (Social Networking Service), and includes a regularity index calculation unit 131, a message storage unit 120, and an integrated model. A learning unit 210, an integrated model storage unit 220, and an integrated model determination unit 230 are provided. Here, the bot in the present invention means an automatic speech system by a machine that speaks information (spam) such as advertisements.

規則性指数算出部131は、タイミング相関係数算出部140、ユーザ応答時間算出部150、および周期性指数算出部170を備える。   The regularity index calculation unit 131 includes a timing correlation coefficient calculation unit 140, a user response time calculation unit 150, and a periodicity index calculation unit 170.

統合モデル学習部210は、ボットであると判定されているユーザおよび非ボットと判定されているユーザそれぞれの複数種類の規則性指数を教師データとして、所定の学習アルゴリズムを用いて、複数種類の規則性指数それぞれを重み付けして統合した統合モデルを学習する。複数種類の規則性指数には、タイミング相関係数、ユーザ応答時間、周期性指数の少なくとも2つが含まれる。   The integrated model learning unit 210 uses a plurality of types of regularity indices for each of a user determined to be a bot and a user determined to be a non-bot as teacher data, using a predetermined learning algorithm. Learn an integrated model that weights and integrates each sex index. The plurality of types of regularity indices include at least two of a timing correlation coefficient, a user response time, and a periodicity index.

統合モデル学習部210は、複数種類の規則性指数それぞれを重み付けする方法には、例えば、AfaBoost(非特許文献5:Yoav Freund,Robert E.Schapire.“A Decision−Theoretic Generalization of on−Line Learning and an Application to Boostion”,1995)を用いることができる。   The integrated model learning unit 210 uses, for example, AfaBoost (Non-Patent Document 5: Yoav Freund, Robert E. Shapire. an Application to Boost ", 1995).

統合モデル記憶部220は、統合モデル学習部210で学習された統合モデルを記憶する。なお、複数種類の規則性指数の組み合わせ毎に統合モデルが記憶されてもよい。   The integrated model storage unit 220 stores the integrated model learned by the integrated model learning unit 210. An integrated model may be stored for each combination of a plurality of types of regularity indices.

統合モデル判定部230は、判定対象ユーザについて規則性指数算出部131で算出された複数種類の規則性指数と統合モデル記憶部220に記憶されている統合モデルに基づいて、判定対象ユーザがボットであるか否かを判定する。   The integrated model determination unit 230 determines whether the determination target user is a bot based on a plurality of types of regularity indexes calculated by the regularity index calculation unit 131 for the determination target user and the integrated model stored in the integrated model storage unit 220. It is determined whether or not there is.

以上、説明したように、本実施形態によれば、教師データを利用して学習した、投稿タイミングの規則性に基づく統合モデルを用いて、発言を投稿しているユーザがボットであるか否かを効率よく判定することができる。その結果、SNSにおいて、ボットの発言を除くことができ、効率よくスパムを除去できる。   As described above, according to the present embodiment, whether or not the user who is posting a utterance is a bot using an integrated model based on regularity of posting timing learned using teacher data. Can be determined efficiently. As a result, in the SNS, bot remarks can be removed, and spam can be efficiently removed.

なお、ボット判定装置の処理をコンピュータシステムが読み取り可能な記録媒体に記録し、この記録媒体に記録されたボット判定装置に読み込ませ、実行することによって本発明のボット判定装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。   Note that the bot determination device of the present invention can be realized by recording the processing of the bot determination device on a recording medium readable by a computer system, causing the bot determination device recorded on the recording medium to read and execute the processing. . The computer system here includes an OS and hardware such as peripheral devices.

また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。   Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW (World Wide Web) system is used. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.

また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合せで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。   The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.

以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiments of the present invention have been described in detail with reference to the drawings. However, the specific configuration is not limited to the embodiments, and includes designs and the like that do not depart from the gist of the present invention.

100,200 ボット判定装置
110 ユーザ判定部
120 発言記憶部
130,131 規則性指数算出部
140 タイミング相関係数算出部
141 最近傍投稿日時リスト取得部
142 個別相関係数算出部
143 タイミング相関係数決定部
150 ユーザ応答時間算出部
151 応答日時リスト取得部
152 元投稿日時リスト取得部
153 ユーザ応答時間決定部
160 交替潜時特徴算出部
161 連続応答区間抽出部
162 同意判定部
163 交替せん潜時特徴決定部
170 周期性指数算出部
171 解析投稿日時リスト取得部
172 スペクトル解析部
180 しきい値算出部
210 統合モデル学習部
220 統合モデル記憶部
230 統合モデル判定部
100, 200 Bot determination device 110 User determination unit 120 Statement storage unit 130, 131 Regularity index calculation unit 140 Timing correlation coefficient calculation unit 141 Nearest neighbor posting date / time list acquisition unit 142 Individual correlation coefficient calculation unit 143 Timing correlation coefficient determination Unit 150 User response time calculation unit 151 Response date and time list acquisition unit 152 Original posting date and time list acquisition unit 153 User response time determination unit 160 Replacement latency characteristic calculation unit 161 Continuous response section extraction unit 162 Consent determination unit 163 Replacement latency characteristic determination Unit 170 periodicity index calculation unit 171 analysis posting date list acquisition unit 172 spectrum analysis unit 180 threshold calculation unit 210 integrated model learning unit 220 integrated model storage unit 230 integrated model determination unit

Claims (11)

投稿された発言の受け付けと公開を行うSNS(Social Networking Service)において、前記発言を投稿しているユーザがボットであるか否かを判定するボット判定装置であって、
前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段と、
判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザとの間における投稿タイミングの規則性を示す規則性指数を算出する規則性指数算出手段と、
前記規則性指数算出手段で算出された規則性指数と、予め設定されたしきい値とを比較することによって、前記判定対象ユーザが前記ボットであるか否かを判定するユーザ判定手段と、
を備えるボット判定装置。
In a SNS (Social Networking Service) that accepts and publishes posted comments, it is a bot determination device that determines whether or not a user posting a comment is a bot.
Message storage means for storing message information including at least posted user information and posted date information of the message posted to the SNS;
For determining the target user, based on the speech information stored in said speech storage means, and regularity index calculating means for calculating a regularity index indicating the regularity of the definitive post timing between the other users and the determination target user ,
User determination means for determining whether or not the determination target user is the bot by comparing the regularity index calculated by the regularity index calculation means and a preset threshold;
A bot determination device comprising:
前記規則性指数算出手段が、
前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの各投稿日時情報に、当該各投稿日時情報に最も近い前記他ユーザそれぞれの投稿日時情報を対応付けた最近傍投稿日時リストを取得する最近傍投稿日時リスト取得手段と、
前記最近傍投稿日時リスト取得手段で取得した前記最近傍投稿日時リストに基づいて、前記他ユーザそれぞれと前記判定対象ユーザとの投稿タイミングの関連性を示す個別相関係数を算出する個別相関係数算出手段と、
前記個別相関係数算出手段で算出された個別相関係数の中から、前記判定対象ユーザの前に発言を投稿する傾向を有する他ユーザの個別相関係数を前記最近傍投稿日時リスト取得手段で取得した最近傍投稿日時リストに基づいて抽出し、抽出した個別相関係数の最大相関係数をタイミング相関係数として決定するタイミング相関係数決定手段と、
を備え、
前記ユーザ判定手段が、前記タイミング相関係数と、前記予め設定されたしきい値との大小関係から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とする請求項1に記載のボット判定装置。
The regularity index calculating means is
The nearest posting date / time in which each posting date / time information of the determination target user is associated with the posting date / time information of each of the other users closest to the posting date / time information based on the statement information stored in the statement storage unit. The nearest posting date / time list acquisition means for acquiring a list,
Based on the nearest posting date list acquired by the nearest posting date list acquisition unit, an individual correlation coefficient that calculates an individual correlation coefficient indicating a posting timing relationship between each of the other users and the determination target user A calculation means;
Among the individual correlation coefficients calculated by the individual correlation coefficient calculation means, the individual correlation coefficient of another user having a tendency to post a statement before the determination target user is obtained by the nearest posting date list acquisition means. A timing correlation coefficient determining means for extracting based on the acquired nearest posting date list and determining the maximum correlation coefficient of the extracted individual correlation coefficient as a timing correlation coefficient;
With
The said user determination means determines whether the said determination target user is the said bot from the magnitude relationship between the said timing correlation coefficient and the said preset threshold value. The bot determination device described in 1.
前記発言記憶手段の発言情報は、前記SNSに投稿された各発言の他発言との関係を示す発言間関係情報を更に含み、
前記規則性指数算出手段が、
前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの応答発言の投稿日時情報のリストである応答日時リストを取得する応答日時リスト取得手段と、
前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの応答発言の元発言の投稿日時情報のリストである元投稿日時リストを取得する元投稿日時リスト取得手段と、
前記応答日時リスト取得手段で取得した応答日時リストと、前記元投稿日時リスト取得手段で取得した元投稿日時リストとに基づいて、前記判定対象ユーザが前記応答発言を投稿するまでの応答時間を算出し、算出した応答時間の平均を前記判定対象ユーザのユーザ応答時間として決定するユーザ応答時間決定手段と、
を備え、
前記ユーザ判定手段が、前記ユーザ応答時間決定手段で取得されたユーザ応答時間と、前記予め設定されたしきい値との大小関係から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とする請求項1または請求項2に記載のボット判定装置。
The speech information of the speech storage means further includes inter-speech relationship information indicating a relationship with other utterances posted to the SNS,
The regularity index calculating means is
A response date and time list acquisition unit that acquires a response date and time list that is a list of posting date and time information of the response speech of the determination target user based on the message information stored in the message storage unit;
Based on the utterance information stored in the utterance storage means, original posting date / time list acquisition means for acquiring an original posting date / time list that is a list of posting date / time information of the original utterance of the response utterance of the determination target user;
Based on the response date list acquired by the response date list acquisition means and the original posting date list acquired by the original posting date list acquisition means, the response time until the determination target user posts the response message is calculated. And a user response time determining means for determining an average of the calculated response times as a user response time of the determination target user;
With
The user determination means determines whether or not the determination target user is the bot from the magnitude relationship between the user response time acquired by the user response time determination means and the preset threshold value. The bot determination device according to claim 1, wherein the bot determination device according to claim 1.
前記規則性指数算出手段が、
前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザと一の前記他ユーザとの間で所定の間隔以下で連続的に発言がやり取りされている連続応答区間の発言情報を抽出する連続応答区間抽出手段と、
前記連続応答区間抽出手段で抽出された連続応答区間の発言情報に基づいて、当該連続応答区間内に含まれる各発言の応答間隔を算出し、算出した応答間隔の差分から交替潜時特徴量を算出する交替潜時特徴量算出手段と、
を備え、
前記ユーザ判定手段が、前記交替潜時特徴量算出手段で算出した交替潜時特徴量から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とする請求項3に記載のボット判定装置。
The regularity index calculating means is
Based on the utterance information stored in the utterance storage means, the utterance information of the continuous response section in which utterances are continuously exchanged at a predetermined interval or less between the determination target user and the one other user. Continuous response interval extracting means for extracting;
Based on the utterance information of the continuous response section extracted by the continuous response section extraction means, the response interval of each utterance included in the continuous response section is calculated, and the alternate latency feature quantity is calculated from the difference of the calculated response intervals. Alternate latency feature quantity calculating means for calculating;
With
The said user determination means determines whether the said determination object user is the said bot from the substitution latency feature-value calculated by the said substitution latency feature-value calculation means. Bot judgment device.
前記発言記憶手段の発言情報は、前記SNSに投稿された各発言の内容情報を更に含み、
前記規則性指数算出手段が、
前記連続応答区間抽出手段で抽出された連続応答区間の発言情報に含まれる内容情報に基づいて、当該連続応答区間内に含まれる各発言が前発言に同意するか否かを判定する同意判定手段を備え、
前記交替潜時特徴量算出手段が、当該連続応答区間内に含まれる各発言の前記同意判定手段の判定結果によって、前記応答間隔に重み付けを行うことを特徴とする請求項4に記載のボット判定装置。
The message information of the message storage means further includes content information of each message posted to the SNS,
The regularity index calculating means is
Consent determination means for determining whether or not each utterance included in the continuous response section agrees with the previous utterance based on the content information included in the utterance information of the continuous response section extracted by the continuous response section extraction means. With
5. The bot determination according to claim 4, wherein the alternate latency characteristic amount calculation unit weights the response interval according to a determination result of the consent determination unit of each utterance included in the continuous response section. apparatus.
前記規則性指数算出手段が、
前記発言記憶手段に記憶されている発言情報に基づいて、前記判定対象ユーザの投稿日時情報のリストを取得する解析投稿日時リスト取得手段と、
前記解析投稿日時リスト取得手段で取得した前記判定対象ユーザの投稿日時情報のリストをスペクトル解析し、振幅スペクトルの最大振幅値を周期性指数として取得するスペクトル解析手段と、
を備え、
前記ユーザ判定手段が、前記スペクトル解析手段で取得された周期性指数と、前記予め設定されたしきい値との大小関係から、前記判定対象ユーザが前記ボットであるか否かを判定することを特徴とする請求項1から請求項5のいずれかに記載のボット判定装置。
The regularity index calculating means is
Analysis posting date / time list acquisition means for acquiring a list of posting date / time information of the determination target user based on the statement information stored in the comment storage means;
A spectrum analysis unit that performs spectrum analysis on a list of post date information of the determination target user acquired by the analysis post date list acquisition unit, and acquires a maximum amplitude value of an amplitude spectrum as a periodicity index;
With
The user determination means determines whether the determination target user is the bot from the magnitude relationship between the periodicity index acquired by the spectrum analysis means and the preset threshold value. The bot determination device according to any one of claims 1 to 5, characterized in that:
前記スペクトル解析手段が、離散フーリエ変換法またはpiccolo法を用いて、前記解析投稿日時リスト取得手段で取得した前記判定対象ユーザの投稿日時情報のリストを解析し、前記周期性指数を算出することを特徴とする請求項6に記載のボット判定装置。   The spectrum analyzing unit analyzes a list of post date information of the determination target user acquired by the analysis post date list acquiring unit using a discrete Fourier transform method or a piccolo method, and calculates the periodicity index. The bot determination device according to claim 6, wherein 前記発言記憶手段は、前記SNSに投稿された各発言の他発言との関係を示す発言間関係情報を更に発言情報に含め、
解析投稿日時リスト取得手段が、前記発言記憶手段に記憶されている発言情報の発言間関係情報に基づいて、前記判定対象ユーザについて、応答発言以外の発言の投稿日時情報のリストを取得することを特徴とする請求項6または請求項7に記載のボット判定装置。
The speech storage means further includes inter-speech relationship information indicating a relationship with other utterances posted to the SNS in the utterance information,
The analysis posting date / time list acquisition unit acquires a list of posting date / time information of a statement other than a response message for the determination target user based on the inter-speech relationship information of the message information stored in the message storage unit. The bot determination device according to claim 6 or 7, wherein the bot determination device according to claim 6 or 7 is characterized.
投稿された発言の受け付けと公開を行うSNS(Social Networking Service)において、前記発言を投稿しているユーザがボットであるか否かを判定するボット判定装置であって、
前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段と、
判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザ間との間における投稿タイミングの規則性を示す複数種類の規則性指数を算出する規則性指数算出手段と、
ボットであると判定されているユーザおよび当該ボットでないと判定されているユーザそれぞれの前記複数種類の規則性指数を教師データとして、所定の学習アルゴリズムを用いて、前記複数種類の規則性指数それぞれを重み付けして統合した統合モデルを学習する統合モデル学習手段と、
判定対象ユーザについて前記規則性指数算出手段で算出された前記複数種類の規則性指数と前記統合モデル学習手段で学習された統合モデルに基づいて、前記判定対象ユーザがボットであるか否かを判定する統合モデル判定手段と、
を備えるボット判定装置。
In a SNS (Social Networking Service) that accepts and publishes posted comments, it is a bot determination device that determines whether or not a user posting a comment is a bot.
Message storage means for storing message information including at least posted user information and posted date information of the message posted to the SNS;
For determining the target user, based on the speech information stored in said speech storage means, regularities of calculating a plurality of types of regularity index indicating the regularity of the definitive post timing between between other users and determining target user Index calculation means;
Using each of the plurality of types of regularity indices of the user determined to be a bot and each of the users determined to be not the bot as teacher data, a predetermined learning algorithm is used to calculate each of the plurality of types of regularity indices. An integrated model learning means for learning an integrated model weighted and integrated;
It is determined whether or not the determination target user is a bot based on the plurality of types of regularity indexes calculated by the regularity index calculation means and the integrated model learned by the integrated model learning means for the determination target user. An integrated model determination means to
A bot determination device comprising:
投稿された発言の受け付けと公開を行うSNS(Social Networking Service)において、前記発言を投稿しているユーザがボットであるか否かを判定するボット判定装置におけるボット判定方法であって、
前記ボット判定装置が、前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段と、規則性指数算出手段と、ユーザ判定手段と、を備え、
前記ユーザ判定手段が、前記ボットか否かの判定を行う判定対象ユーザの入力を受け付ける第1のステップと、
前記規則性指数算出手段が、前記判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザとの間における投稿タイミングの規則性を示す規則性指数を算出する第2のステップと、
前記ユーザ判定手段が、前記第2のステップで算出された規則性指数と、予め設定されたしきい値とを比較することによって、前記判定対象ユーザが前記ボットであるか否かを判定する第3のステップと、
を含むボット判定方法。
In a SNS (Social Networking Service) that accepts and publishes posted comments, a bot determination method in a bot determination device that determines whether or not a user posting a comment is a bot,
The bot determination device includes message storage means for storing message information including at least posting user information and posting date information of messages posted to the SNS, regularity index calculation means, and user determination means,
A first step in which the user determination means receives an input of a determination target user who determines whether or not the bot;
The regularity index calculation means for the determination target user, based on the speech information stored in said speech storage means, regularity index indicating the regularity of the definitive post timing between the determination target user and other users A second step of calculating
The user determination means determines whether or not the determination target user is the bot by comparing the regularity index calculated in the second step with a preset threshold value. 3 steps,
A bot determination method including
投稿された発言の受け付けと公開を行うSNS(Social Networking Service)において、前記発言を投稿しているユーザがボットであるか否かを判定するボット判定装置におけるボット判定方法をコンピュータに実行させるためのプログラムであって、
前記ボット判定装置が、前記SNSに投稿された発言の投稿ユーザ情報および投稿日時情報を少なくとも含む発言情報を記憶する発言記憶手段と、規則性指数算出手段と、ユーザ判定手段と、を備え、
前記ユーザ判定手段が、前記ボットか否かの判定を行う判定対象ユーザの入力を受け付ける第1のステップと、
前記規則性指数算出手段が、前記判定対象ユーザについて、前記発言記憶手段に記憶されている発言情報に基づいて、他ユーザと判定対象ユーザとの間における投稿タイミングの規則性を示す規則性指数を算出する第2のステップと、
前記ユーザ判定手段が、前記第2のステップで算出された規則性指数と、予め設定されたしきい値とを比較することによって、前記判定対象ユーザが前記ボットであるか否かを判定する第3のステップと、
をコンピュータに実行させるためのプログラム。
In order to cause a computer to execute a bot determination method in a bot determination device that determines whether or not a user posting a utterance is a bot in an SNS (Social Networking Service) that accepts and publishes a posted utterance A program,
The bot determination device includes message storage means for storing message information including at least posting user information and posting date information of messages posted to the SNS, regularity index calculation means, and user determination means,
A first step in which the user determination means receives an input of a determination target user who determines whether or not the bot;
The regularity index calculation means for the determination target user, based on the speech information stored in said speech storage means, regularity index indicating the regularity of the definitive post timing between the determination target user and other users A second step of calculating
The user determination means determines whether or not the determination target user is the bot by comparing the regularity index calculated in the second step with a preset threshold value. 3 steps,
A program that causes a computer to execute.
JP2014012524A 2014-01-27 2014-01-27 Bot determination device, bot determination method, and program Active JP6249794B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014012524A JP6249794B2 (en) 2014-01-27 2014-01-27 Bot determination device, bot determination method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014012524A JP6249794B2 (en) 2014-01-27 2014-01-27 Bot determination device, bot determination method, and program

Publications (2)

Publication Number Publication Date
JP2015141456A JP2015141456A (en) 2015-08-03
JP6249794B2 true JP6249794B2 (en) 2017-12-20

Family

ID=53771792

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014012524A Active JP6249794B2 (en) 2014-01-27 2014-01-27 Bot determination device, bot determination method, and program

Country Status (1)

Country Link
JP (1) JP6249794B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020173593A (en) * 2019-04-10 2020-10-22 日本電信電話株式会社 Sns analyzing system, sns analyzing method and program
CN112861128B (en) * 2021-01-21 2024-06-18 微梦创科网络科技(中国)有限公司 Method and system for identifying machine account numbers in batches

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8495727B2 (en) * 2007-08-07 2013-07-23 Microsoft Corporation Spam reduction in real time communications by human interaction proof

Also Published As

Publication number Publication date
JP2015141456A (en) 2015-08-03

Similar Documents

Publication Publication Date Title
Beskow et al. Bot-hunter: a tiered approach to detecting & characterizing automated activity on twitter
US11170064B2 (en) Method and system to filter out unwanted content from incoming social media data
US11126678B2 (en) Method and system to filter out harassment from incoming social media data
US9208441B2 (en) Information processing apparatus, information processing method, and program
US20180144256A1 (en) Categorizing Accounts on Online Social Networks
CN108768883B (en) Network traffic identification method and device
US11983186B2 (en) Predicting potential incident event data structures based on multi-modal analysis
US10565311B2 (en) Method for updating a knowledge base of a sentiment analysis system
US20180101864A1 (en) Endorsement abuse detection via social interactions
US20170319074A1 (en) System and method for providing an indication of the well-being of an individual
US10528985B2 (en) Determining a personalized advertisement channel
KR20190122334A (en) Expert recommending method and system for providing social network system based question and answer service
Keertipati et al. Multi-level analysis of peace and conflict data in GDELT
KR101450453B1 (en) Method and apparatus for recommending contents
US10237226B2 (en) Detection of manipulation of social media content
CN105335476B (en) A kind of focus incident classification method and device
KR101811751B1 (en) Advertisement providing server using chatbot
JP6249794B2 (en) Bot determination device, bot determination method, and program
KR101894060B1 (en) Advertisement providing server using chatbot
US20210044864A1 (en) Method and apparatus for identifying video content based on biometric features of characters
KR102228873B1 (en) Construction system of criminal suspect knowledge network using public security information and Method thereof
Iqbal et al. Artificial intelligence and digital forensics
JP6839001B2 (en) Model learning device, information judgment device and their programs
KR20200106231A (en) Qualitative system for determining fake news, qualitative method for determining fake news, and computer-readable medium having a program recorded therein for executing the same
US20150254563A1 (en) Detecting emotional stressors in networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170516

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171121

R150 Certificate of patent or registration of utility model

Ref document number: 6249794

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150