JP2013077044A - Credibility analysis device and credibility analysis method - Google Patents
Credibility analysis device and credibility analysis method Download PDFInfo
- Publication number
- JP2013077044A JP2013077044A JP2011214941A JP2011214941A JP2013077044A JP 2013077044 A JP2013077044 A JP 2013077044A JP 2011214941 A JP2011214941 A JP 2011214941A JP 2011214941 A JP2011214941 A JP 2011214941A JP 2013077044 A JP2013077044 A JP 2013077044A
- Authority
- JP
- Japan
- Prior art keywords
- document
- credibility
- documents
- specific operation
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、ドキュメントの信憑性を解析する信憑性解析装置及び信憑性解析方法に関する。 The present invention relates to a credibility analysis apparatus and a credibility analysis method for analyzing the credibility of a document.
近年、ミニブログまたはマイクロブログによるコミュニケーションが一般化してきている。マイクロブログとは数十から百数十文字程度で構成される短い文章を投稿するのが特徴であり、ユーザは何気ない一言を投稿し自分の状況を他ユーザとシェアする簡易型ブログとしての活用が目立つ。また自分が興味を持ったニュース記事などURL(Uniform Resource Locator)を付けてコメントを投稿することで他ユーザと情報を共有することも可能なため、ミニブログは友達の近況を得るツールに留まらず、情報収集ツールとしての活用も広く使われている。最近では多くのメディアがTwitterアカウントを活用し、情報を配信することも珍しくなく自分の好みのメディアをフォローする(自分の閲覧リストに登録する)ことで自分の興味のある情報の収集が可能となる。こういった情報は自動で情報を投稿する側から自分に情報がPUSH(送信)される。 In recent years, communication using miniblogs or microblogs has become common. Microblogging is characterized by posting short sentences consisting of tens to hundreds of characters, and users can use it as a simple blog to post casual words and share their situation with other users stand out. You can also share information with other users by posting comments with URLs (Uniform Resource Locators) such as news articles that interest you, so miniblogs are not just a tool to get the status of friends. It is also widely used as an information collection tool. Recently, it is not uncommon for many media to use a Twitter account to distribute information, and it is possible to collect information that interests you by following your favorite media (registering in your browsing list). Become. Such information is automatically pushed (transmitted) from the information posting side to itself.
マイクロブログで有名なTwitterではリツイート、非公式リツイートや、ハッシュタグを付けたツイートの投稿などによってユーザを介することで情報を伝搬させ拡散しやすい性質がある。 Twitter, which is famous for microblogging, has the property that information can be easily propagated and diffused through users via retweets, informal retweets, and posting tweets with hashtags.
リツイートとは、自分のフォロワー(自分を閲覧リストに登録しているユーザ群)に対して情報を共有する時に頻繁に使われる方法である。一般的な傾向によると、より重要な情報を含むツイートは多数のユーザにリツイートされやすい傾向にある。リツイートされた情報は自分のフォロワーに渡り、自分のフォロワーが更にリツイートすることで、情報がユーザを介して伝搬していく。一般的にこのリツイートは公式リツイートと呼ばれることが多い。 Retweeting is a method often used when sharing information with your followers (users who are registered in the browsing list). According to a general trend, tweets containing more important information tend to be retweeted by many users. The retweeted information is passed to the follower, and the follower retweets further, so that the information propagates through the user. In general, this retweet is often called official retweet.
非公式リツイートとは単純にユーザのコメントをリツイートするのでなく、自分のコメントを添えてリツイートすることである。この場合、元の情報に対して自分の意見を添えてリツイートすることが可能なため、追加情報の付与、あるいは情報が誤っている場合の訂正等が可能である。公式リツイートと同様に非公式リツイートは情報を拡散する際によく用いられる手段である。 Informal retweets are not simply retweeting a user's comments, but retweeting with their own comments. In this case, since it is possible to retweet the original information with its own opinion, it is possible to give additional information or to correct if the information is incorrect. Like official retweets, informal retweets are a common means of spreading information.
ハッシュタグとはツイートにタグづける事で特定のトピックに対して情報を共有する機能である。ユーザがTwitter社や第三者が提供する検索を利用し、ハッシュタグを検索することで、そのトピックに関する投稿内容を容易に閲覧することが可能である。ユーザをフォローする以外に特定のハッシュタグをユーザが閲覧することで、特定のトピックについての情報収集が可能となる。 A hash tag is a function for sharing information on a specific topic by tagging a tweet. When the user searches for a hash tag using a search provided by Twitter or a third party, it is possible to easily view the posted content related to the topic. When a user browses a specific hash tag in addition to following the user, information about a specific topic can be collected.
東日本大震災では地震の影響で携帯電話や固定電話といった主要な通信手段が麻痺した。主要な通信インフラが麻痺する中、TwitterやFacebookといったSNS(ソーシャルネットワーキングサービス)が安否確認や情報共有の場としての活躍で一躍注目された。FacebookやTwitterでは自分の友達や家族を(TwitterやFacebookでいうFriends相当である)ユーザ自身のコンタクトリストに登録していることが多いため、SNS上でのコミュニケーションを通して身近な人の安否確認が容易に行えた。情報共有という観点では震災時に被災地の写真の投稿など、マイクロブログ上で被災地の状況を随時報告する人が目立ち、こうした情報を閲覧することで被災地の情報がテレビより、よりリアルタイムに入ることも稀ではなかった。震災時におけるTwitterを活用したコミュニケーションは東日本大震災に限らない。2011年8月に発生した大型ハリケーンであるアイリーンにおいても、Twitterによる、被災情報の共有が目立った。震災時においてTwitterやFacebookといったネットのSNSツールは、現在ではあたり前のコミュニケーションツールの一つとなってなりつつある。 In the Great East Japan Earthquake, major communication means such as mobile phones and landlines were paralyzed due to the earthquake. While the main communication infrastructure is paralyzed, SNS (Social Networking Services) such as Twitter and Facebook have attracted a great deal of attention for their safety and information sharing. In Facebook and Twitter, your friends and family are often registered in your contact list (equivalent to Friends in Twitter and Facebook), so it is easy to check the safety of people around you through SNS communication. I was able to do it. From the viewpoint of information sharing, people who report the status of the disaster-stricken area on microblogs, such as posting photos of the disaster-stricken area at the time of the earthquake, are conspicuous. It was not uncommon to enter. Communication using Twitter at the time of the earthquake is not limited to the Great East Japan Earthquake. In Eileen, a large hurricane that occurred in August 2011, sharing of disaster information by Twitter was conspicuous. At the time of the earthquake disaster, Internet SNS tools such as Twitter and Facebook are now becoming one of the common communication tools.
Twitterを活用した震災時のコミュニケーションという点で、良い面がある一方、情報が伝搬し易い特徴を利用し不確定または偽りの情報を流すことで混乱を招くといった悪い側面もある。例えば東日本大震災直後に、石油工場が爆発し放射能の雨が降る、震災による著名人の死亡説、政策・政党・政権に対する批判等といった根拠のない情報が多くTwitter上に流れ混乱を招いた。こういった信憑性の低い、根拠のない情報は、震災時には特に混乱を招く恐れがあるため、信憑性の低い情報を特定する技術が必要である。 While there is a good aspect in terms of communication at the time of an earthquake disaster utilizing Twitter, there is also a bad aspect that causes inconvenience by flowing uncertain or false information using the characteristics that information is easy to propagate. For example, immediately after the Great East Japan Earthquake, oil factories exploded and radioactive rain fell, celebrity deaths due to the earthquake, criticism of policies, political parties, administrations, etc. . Such low-credibility, unfounded information can be particularly confusing during an earthquake, so a technique to identify low-credibility information is required.
非特許文献1ではツイートにツイートを投稿したユーザの特徴(投稿したツイート数、Friend数、フォロワー数)、投稿したツイートの特徴(文字数、URLを含むか、ハッシュタグを含むか)等の情報から機械学習へのインプットである特徴量を生成し、機械学習を行うことでモデルを生成した。作成したモデルを利用し、ツイートの特徴量を抽出し、モデルへ入力することで、ツイート毎に信用度をスコアとして出すことを可能とした。
In Non-Patent
また特許文献1ではWebページに含まれる一つまたは複数のコメントを単一コメントに分割し、それぞれのコメントが指定された(例えばある会社の製品名等の)キーワードに対して風評表現を行っているコメントを抽出する技術について記載している。コメントに含まれる文字を風評表現辞書とテキストマッチすることで風評表現の有無を特定している。風評表現を行っているコメント一覧を生成することでそのキーワードに対してどういった風評表現コメントがあるか閲覧することが可能である。特許文献2では特許文献1と同様の処理を行うが、時間単位で風評表現を行っているコメント数を集約することで、指定されたキーワードに対して、時間毎に風評表現がどの程度行われているか閲覧することが可能である。
Further, in
しかしながら、非特許文献1、特許文献1及び特許文献2に記載される技術には以下のような問題がある。
However, the techniques described in
これらの技術における処理は主に単一コメント毎に行われるため抽出精度が低い。特許文献1及び特許文献2では処理がコメント単位の風評表現辞書とのテキストマッチで行っているため風評表現しているコメントの情報抽出精度に問題がある。例えば風評表現辞書に登録されていないワードを利用し風評表現を行っているコメントを抽出する事は可能でない。テキストマッチからの風評表現抽出には限界がある。マイクロブログは数十文字から百数十文字といった短い単位の文章に対して特許文献1の技術を応用する場合、風評を行っているか判断するには文字数を考慮すると情報量が少なすぎる。非特許文献1では、過去のユーザの投稿したツイート数、Friend数、フォロワー数といった統計的なユーザの情報も用いているが他ユーザがツイートに対してどのようなコメントを述べているか解析は行っていない。そのため信憑性の解析は主に単一ツイート単位である。ユーザの反応を利用していないため単一コメントによる処理では精度よく風評表現を含むコメントを特定できない。
Since the processing in these techniques is mainly performed for each single comment, the extraction accuracy is low. In
本発明は、上記の問題点を鑑みてなされたものであり、文章サイズは限定しないが、特に上述したミニブログ等に投稿されるドキュメント(上述したコメントやツイートを含む)の信憑性をより適切に判断することができる信憑性解析装置及び信憑性解析方法を提供することを目的とする。 The present invention has been made in view of the above problems, and the sentence size is not limited. In particular, the credibility of documents (including the comments and tweets described above) posted on the miniblog described above is more appropriate. It is an object of the present invention to provide a credibility analysis apparatus and a credibility analysis method that can be determined in a simple manner.
上記の目的を達成するために、本発明に係る信憑性解析装置は、ドキュメントの信憑性を解析する信憑性解析装置であって、複数のドキュメントを格納するドキュメント格納部と、ドキュメント格納部によって格納された複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定する参照関係特定手段と、参照関係特定手段によって特定された参照関係によって示される参照元のドキュメントに対して、参照先のドキュメントの信憑性に係る特定操作が行われていることを検出する特定操作検出手段と、特定操作検出手段によって検出された特定操作が行われている参照元のドキュメントの数である第1の数を参照先のドキュメント毎に算出する算出手段と、算出手段によって算出された第1の数から参照先のドキュメントの信憑性を判断する信憑性判断手段と、信憑性判断手段による判断結果を示す情報を出力する出力手段と、を備える。 In order to achieve the above object, a credibility analysis apparatus according to the present invention is a credibility analysis apparatus that analyzes the credibility of a document, and is stored by a document storage unit that stores a plurality of documents and a document storage unit. A reference relationship specifying unit for specifying a reference relationship indicating that the reference source document is generated by referring to the reference destination document, and the reference relationship specified by the reference relationship specifying unit Specific operation detecting means for detecting that a specific operation related to the authenticity of the referenced document is performed, and a specific operation detected by the specific operation detecting means. Calculating means for calculating a first number, which is the number of reference source documents, for each reference destination document; It comprises a credibility determination means for determining the authenticity of the referenced document from a first number which is calculated by the means and output means for outputting information indicating a result of determination by the authenticity determination means, a.
本発明に係る信憑性解析装置では、複数のドキュメント間の参照関係と、参照元のドキュメントに対する参照先のドキュメントの信憑性に係る特定操作の数とに基づいて信憑性が判断される。従って、参照元のドキュメントが、参照先のドキュメントに応じてどのように作成されたか、あるいは扱われたか等に基づいて参照先のドキュメントの信憑性が判断される。即ち、参照元のドキュメントを作成したユーザの、参照先のドキュメントに対する反応が反映されて、参照先のドキュメントの信憑性が判断される。従って、本発明に係る信憑性解析装置によれば、ドキュメントの信憑性をより適切に判断することができる。 In the credibility analysis apparatus according to the present invention, the credibility is determined based on the reference relationship between a plurality of documents and the number of specific operations related to the credibility of the reference destination document with respect to the reference source document. Therefore, the credibility of the reference destination document is determined based on how the reference source document was created or handled according to the reference destination document. That is, the credibility of the reference destination document is determined by reflecting the reaction of the user who created the reference source document to the reference destination document. Therefore, according to the credibility analysis apparatus according to the present invention, it is possible to more appropriately determine the credibility of the document.
算出手段は、参照先のドキュメントに対する参照元のドキュメントの数である第2の数を参照先のドキュメント毎に算出し、信憑性判断手段は、第1の数及び第2の数から参照先のドキュメントの信憑性を判断する、こととすることができる。この構成によれば、参照先のドキュメント毎の参照元のドキュメントの数を考慮して信憑性を判断することができるので、ドキュメントの信憑性を更に適切に判断することができる。 The calculation means calculates a second number, which is the number of reference source documents with respect to the reference destination document, for each reference destination document, and the credibility determination means calculates the reference destination from the first number and the second number. Judging the authenticity of the document. According to this configuration, since the credibility can be determined in consideration of the number of reference source documents for each reference document, it is possible to more appropriately determine the credibility of the document.
参照関係は、参照元のドキュメントが参照先のドキュメントの引用又は返信である関係の少なくとも何れかであることとすることができる。また、参照元のドキュメントは、参照先のドキュメントを加工することなく引用したもの、及び参照先のドキュメントを加工することなく引用した以外で参照先のドキュメントと参照関係を有するものの少なくとも何れかであることとすることができる。これらの構成によれば、適切かつ確実にドキュメント間の参照関係を把握することができ、本発明を適切かつ確実に実施することができる。 The reference relationship may be at least one of a relationship in which the reference source document is a citation or a reply of the reference destination document. Further, the reference source document is at least one of a reference document that is cited without processing, and a reference document other than the reference document that is cited without processing. Can be. According to these configurations, the reference relationship between documents can be grasped appropriately and reliably, and the present invention can be implemented appropriately and reliably.
参照先のドキュメントの信憑性に係る特定操作は、参照元のドキュメントを削除することを含むこととすることができる。これらの構成によれば、適切かつ確実に参照元のドキュメントに対する特定操作を把握することができ、本発明を適切かつ確実に実施することができる。 The specific operation related to the authenticity of the reference destination document may include deleting the reference source document. According to these configurations, it is possible to grasp a specific operation for a reference source document appropriately and reliably, and the present invention can be implemented appropriately and reliably.
参照先のドキュメントの信憑性に係る特定操作は、参照元のドキュメントが参照先のドキュメントの内容を訂正するものとして生成されていることを含むこととすることができる。より具体的には、特定操作検出手段は、訂正表現を示す情報を予め記憶しておき、参照元のドキュメントに当該訂正表現が含まれているか否かを判断することによって、当該参照元のドキュメントが参照先のドキュメントの内容を訂正するものとして生成されていることを検出することとすることができる。これら構成によれば、適切かつ確実に参照元のドキュメントに対する特定操作を把握することができ、本発明を適切かつ確実に実施することができる。 The specific operation related to the authenticity of the reference destination document may include that the reference source document is generated as a correction of the content of the reference destination document. More specifically, the specific operation detection unit stores information indicating the corrected expression in advance, and determines whether the corrected expression is included in the reference source document, thereby determining the reference source document. Can be detected as correcting the content of the document to be referred to. According to these configurations, it is possible to grasp the specific operation for the reference source document appropriately and reliably, and the present invention can be implemented appropriately and reliably.
特定操作検出手段は、参照先のドキュメントに訂正表現が含まれているか否かを判断して、当該訂正表現が含まれていると判断した場合には、参照元のドキュメントが当該参照先のドキュメントの内容を訂正するものとして生成されているものとして検出しないこととすることができる。この構成によれば、参照元のドキュメントが参照先のドキュメントの内容を訂正するものであるかを適切に判断することができ、本発明をより適切に実施することができる。 The specific operation detection means determines whether or not the reference document includes a corrected expression. If the specific operation detection unit determines that the corrected expression is included, the reference source document is the reference document. It is possible not to detect that the content is generated as a correction of the content of. According to this configuration, it is possible to appropriately determine whether the reference source document corrects the content of the reference destination document, and the present invention can be more appropriately implemented.
信憑性判断手段は、信憑性が低いと判断したドキュメントに含まれる別のデータへのリンクを示すリンク情報を抽出して、当該リンク情報の少なくとも一部をドキュメントが含んでいるか否かを判断することによってもドキュメントの信憑性を判断することとすることができる。また、信憑性判断手段は、抽出したリンク情報のドメインをドキュメントが含んでいるか否かを判断することによってもドキュメントの信憑性を判断することとすることができる。これらの構成によれば、一旦信憑性が低いと判断されたドキュメントの情報を用いて、効率的にドキュメントの信憑性を判断することができる。 The credibility determination means extracts link information indicating a link to another data included in the document determined to have low credibility, and determines whether or not the document includes at least a part of the link information. It is also possible to determine the authenticity of the document. Further, the credibility determination means can determine the credibility of the document by determining whether or not the document includes the domain of the extracted link information. According to these configurations, it is possible to efficiently determine the credibility of a document using the information of the document once determined to have low credibility.
参照関係特定手段は、ドキュメントのテキスト同士を比較して、当該テキスト同士の一致に基づいて参照関係を特定することとすることができる。この構成によれば、ドキュメント間の参照関係を適切かつ確実に把握することができ、本発明を適切かつ確実に実施することができる。 The reference relationship specifying means can compare the texts of the documents and specify the reference relationship based on the match between the texts. According to this configuration, the reference relationship between documents can be grasped appropriately and reliably, and the present invention can be implemented appropriately and reliably.
参照関係特定手段は、参照元のドキュメントに参照先のドキュメントを示す参照関係情報が付加されているかを判断することによって参照関係を特定すると共に、当該参照関係情報によって参照関係があると特定された参照先のドキュメントに対してのみ、他のドキュメントとのテキスト同士の比較を行うこととすることができる。この構成によれば、信憑性を判断するドキュメントを絞り込むことができ、効率的な処理が可能となる。 The reference relationship specifying unit specifies the reference relationship by determining whether or not the reference relationship information indicating the reference destination document is added to the reference source document, and the reference relationship information is specified as having the reference relationship. It is possible to compare texts with other documents only for the referenced document. According to this configuration, documents for which credibility is determined can be narrowed down, and efficient processing becomes possible.
ドキュメントには、時刻が対応付けられており、参照関係特定手段は、参照関係の特定をドキュメントに対応付けられた時刻に応じて行う、こととすることができる。この構成によれば、時間帯毎のドキュメントの信憑性の判断を行うことができ、また、効率的な処理が可能となる。 The document is associated with a time, and the reference relationship specifying unit can specify the reference relationship according to the time associated with the document. According to this configuration, it is possible to determine the authenticity of the document for each time zone, and it is possible to perform efficient processing.
ところで、本発明は、上記のように信憑性解析装置の発明として記述できる他に、以下のように信憑性解析方法の発明としても記述することができる。これはカテゴリ等が異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。 By the way, the present invention can be described as an invention of a credibility analysis apparatus as described above, and can also be described as an invention of a credibility analysis method as follows. This is substantially the same invention only in different categories and the like, and has the same operations and effects.
即ち、本発明に係る信憑性解析方法は、ドキュメントの信憑性を解析する、複数のドキュメントを格納するドキュメント格納部を備える信憑性解析装置による信憑性解析方法であって、ドキュメント格納部によって格納された複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定する参照関係特定ステップと、参照関係特定ステップにおいて特定された参照関係によって示される参照元のドキュメントに対して、参照先のドキュメントの信憑性に係る特定操作が行われていることを検出する特定操作検出ステップと、特定操作検出ステップにおいて検出された特定操作が行われている参照元のドキュメントの数である第1の数を参照先のドキュメント毎に算出する算出ステップと、算出ステップにおいて算出された第1の数から参照先のドキュメントの信憑性を判断する信憑性判断ステップと、信憑性判断ステップにおける判断結果を示す情報を出力する出力ステップと、を含む。 In other words, a credibility analysis method according to the present invention is a credibility analysis method by a credibility analysis apparatus that includes a document storage unit that stores a plurality of documents, and that is stored by a document storage unit. In a plurality of documents, a reference relationship specifying step for specifying a reference relationship indicating that a reference source document is generated by referring to a reference destination document, and a reference relationship specified in the reference relationship specifying step A specific operation detection step for detecting that a specific operation related to the authenticity of the reference destination document is performed on the indicated reference source document, and the specific operation detected in the specific operation detection step are performed. Calculate the first number, which is the number of referenced documents, for each referenced document A calculating step for determining, a credibility determining step for determining the credibility of the reference document from the first number calculated in the calculating step, and an output step for outputting information indicating a determination result in the credibility determining step. Including.
本発明によれば、参照元のドキュメントを作成したユーザの、参照先のドキュメントに対する信用が反映されて、参照先のドキュメントの信憑性が判断されるため、ドキュメントの信憑性をより適切に判断することができる。 According to the present invention, since the credibility of the reference destination document is determined by reflecting the trust of the user who created the reference source document with respect to the reference destination document, the credibility of the document is more appropriately determined. be able to.
以下、図面と共に本発明に係る信憑性解析装置及び信憑性解析方法の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。 Hereinafter, embodiments of a credibility analysis apparatus and a credibility analysis method according to the present invention will be described in detail with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted.
図1に本実施形態に係る信憑性解析装置1を示す。信憑性解析装置1は、ドキュメントの信憑性を解析する装置である。具体的には、解析対象となる1つ以上のドキュメントについて信憑性が低いか否か(ドキュメントの内容が信用に値しないものであるか否か)を判断する装置である。解析対象となるドキュメントは、例えば、ユーザによって投稿されてWeb上で公開されるミニブログやマイクロブログで公開されるドキュメントである。本実施形態では、説明を簡潔にするため、具体的な例として適宜マイクロブログの代表であるTwitterを用いる。なお、本実施形態では、解析対象をドキュメントと呼ぶが、ミニブログやマイクロブログのサービスによってはツイートあるいはコメント等とも呼ばれる。なお、解析対象のドキュメントは、必ずしもWeb上で公開されるドキュメントである必要は無い。
FIG. 1 shows a
Twitterのようなマイクロブログの場合、ドキュメントの引用や返信を行うリツイートや非公式リツイートによって、あるドキュメントが別のドキュメントを参照して生成される参照関係が形成される。本実施形態では、この参照関係を利用してドキュメントの信憑性を解析する。 In the case of a microblog such as Twitter, a referential relationship in which one document is generated by referring to another document is formed by retweet or informal retweet for quoting or replying to a document. In the present embodiment, the authenticity of the document is analyzed using this reference relationship.
Twitterのようなマイクロブログにおいては、上記のリツイートや非公式リツイートによる情報の拡散が可能である。しかしながら、情報の拡散が容易であるため、デマのツイート等の信憑性の低いツイートが容易に拡散されえることがあり、東日本大震災直後には実際にそのようなツイートが拡散された。そのようなツイートに対してデマであると呼び掛ける非公式リツイートや、デマ情報を含むリツイートしてしまったユーザによる自身のリツイートが削除される傾向が見られた。本実施形態では、このようなドキュメントの内容を訂正するドキュメントやドキュメントの削除を、参照元のドキュメントに対して参照先のドキュメントの信憑性に係る特定操作がなされているものとしてドキュメントの信憑性の解析に用いる。なお、特定操作としては、上記の訂正及び削除の何れか一方のみが用いられてもよい。 In microblogs like Twitter, it is possible to spread information by retweets and informal retweets. However, due to the easy diffusion of information, tweets with low credibility such as hoax tweets could be easily spread, and such tweets were actually spread immediately after the Great East Japan Earthquake. There was a tendency for unofficial retweets calling such tweets to be hoaxes, and for their retweets by users who retweeted to include hoax information. In the present embodiment, the document that corrects the content of such a document or the deletion of the document is assumed to be that the specific operation related to the authenticity of the reference destination document is performed on the reference source document. Used for analysis. Note that only one of the correction and deletion described above may be used as the specific operation.
本実施形態においては、参照関係は、参照元のドキュメント(後に投稿されたドキュメント)が参照先のドキュメント(先に投稿されたドキュメント)の引用又は返信である関係の少なくとも何れかである。また、参照元のドキュメントは、参照先のドキュメントを加工することなく引用したもの(Twitterのける公式リツイート相当、あるいはFacebookにおけるLike相当のものである)、及びそれ以外で参照先のドキュメントと参照関係を有するものの少なくとも何れかである。 In the present embodiment, the reference relationship is at least one of a relationship in which a reference source document (a document posted later) is a citation or a reply of a reference destination document (a document posted earlier). In addition, the reference document is a reference document that is quoted without being processed (equivalent to the official retweet in Twitter, or equivalent to Facebook in Facebook), and other than the reference document and the reference relationship It is at least any one of having.
加工することなく引用されたドキュメント、即ち、拡散されたドキュメントは、拡散される数が多いほどユーザが有益と考えているドキュメントであると考えられる。また、ユーザが自分の主張などのコメントを載せたドキュメント、即ち、共有されたドキュメントは、共有される数が多いほどユーザが有益と考えているドキュメントであると考えられる。 Documents that are quoted without processing, that is, spread documents, are considered to be documents that the user finds more useful as the number of spreads increases. In addition, a document on which a comment is posted by the user such as his / her claim, that is, a shared document is considered to be a document that the user thinks is more useful as the number of shared documents increases.
図1に示すように、信憑性解析装置1は、ドキュメントの信憑性の解析処理を行う解析サーバ10と、それぞれ解析に用いるデータを保持するデータベースであるドキュメント格納部20と、分類データ格納部30と、訂正表現格納部40と、ブラックリストURL格納部50と、デマ格納部60とを備えて構成される。信憑性解析装置1は、解析対象となるドキュメントを取得(受信)できるように当該ドキュメントを出力する装置(例えば、マイクロブログのサービスを提供するサーバ)とインターネット等のネットワークを介して接続されている。以下では、まず、各データ格納部20〜60に格納されるデータを説明する。
As shown in FIG. 1, the
ドキュメント格納部20は、予め、信憑性の解析対象となる複数のドキュメントを格納する。ドキュメント格納部20に格納されるドキュメントの取得は、例えば、解析サーバ10が、インターネット経由でマイクロブログのサービスを提供すると共にドキュメントを保存するサーバに対してドキュメントの取得を要求して取得(受信)することとしてもよいし、当該サーバからストリーミングでドキュメントのデータを受信することとしてもよい。ドキュメントは、例えば、ユーザによって生成されたコメント単位のものである。Twitterにおける各ドキュメントは、各ツイートデータ相当のものである。
The
ドキュメント格納部20に格納される各ドキュメントのデータは、ドキュメントの内容を示すテキストのデータを含む。このテキストは、例えば、ユーザによって作成された投稿の内容を示すものである。また、ドキュメントのデータには一意に特定するIDが付与されている。このIDは、ドキュメントの取得時に予め付与されていてもよいし、ドキュメントが取得された時点で解析サーバ10によって一意なIDを付与されてもよい。また、ドキュメントのデータには時刻を示すデータが付与されていてもよい。この時刻は、例えば、ドキュメントがユーザによって、ミニブログ等のサーバに投稿(あるいは生成)された時刻である。
The data of each document stored in the
また、ドキュメントのデータには、参照先のドキュメントを示す参照関係情報、例えば、参照先のドキュメントのIDを示す情報が付与されていてもよい。上述したように、例えば、ドキュメントがリツイートに係るものである場合には、リツイート元(リツイートの参照先)となるツイートを特定する情報が付与されていてもよい。更に、参照先のドキュメントを示す情報には、この参照がどのように行われているかを示す情報、例えば、参照元のドキュメントが加工されずに引用されて生成された拡散データであることを示すフラグが付与されていてもよい。参照先のドキュメントのIDを示す情報、及び拡散データであることを示すフラグは、例えば、参照元のドキュメントが作成、あるいは投稿されたときに当該ドキュメントに付与される。 The document data may be provided with reference relationship information indicating the reference destination document, for example, information indicating the ID of the reference destination document. As described above, for example, when a document relates to retweets, information specifying a tweet that is a retweet source (reference destination of retweets) may be given. Further, the information indicating the reference document indicates information indicating how the reference is performed, for example, the spread data generated by quoting the reference document without being processed. A flag may be given. The information indicating the ID of the reference destination document and the flag indicating the spread data are given to the document when the reference source document is created or posted, for example.
また、削除されたドキュメントのデータには、削除されたことが把握できるように、当該ドキュメントが削除されたものであることを示す削除フラグが付与されていてもよい。この削除は、マイクロブログのサービス等においてユーザが一旦投稿したものを削除することである。また、削除フラグが付与されている場合には、更に削除された時刻を示す情報が付与されていてもよい。削除されたドキュメントのデータについても、マイクロブログのサービスを提供するサーバから、例えば、TwitterのAPIを通して取得可能である。削除フラグは、ドキュメントが削除されたときに付与される。なお、ドキュメントが削除されたことを示すデータ(削除フラグのデータ)は、削除されたドキュメントのテキストとは独立に取得されてもよい。 The deleted document data may be provided with a deletion flag indicating that the document has been deleted so that it can be determined that the document has been deleted. This deletion is to delete what the user has once posted in a microblog service or the like. Moreover, when the deletion flag is given, the information which shows the time deleted further may be given. The deleted document data can also be acquired from a server that provides a microblog service, for example, via Twitter's API. The deletion flag is given when a document is deleted. Note that the data indicating that the document has been deleted (deletion flag data) may be acquired independently of the text of the deleted document.
分類データ格納部30は、ドキュメント格納部20に格納されたドキュメントを分類して格納する。この分類は、後述するように解析サーバ10によって行われ、各データは、解析サーバ10によって分類データ格納部30に格納される。分類データ格納部30は、削除データテーブル31と、拡散データテーブル32と、ドキュメントデータテーブル33とを備える。
The classification
削除データテーブル31は、ドキュメント格納部20に格納されたドキュメントのデータのうち、削除されたドキュメントのデータが格納される。図2に示すように、削除データテーブル31には、削除されたドキュメントのIDと、削除された時刻である削除日時とが対応付けて格納される。
The deleted data table 31 stores deleted document data among the document data stored in the
拡散データテーブル32は、ドキュメント格納部20に格納されたドキュメントのデータのうち、別のドキュメントを拡散した(別のドキュメントを加工せずに引用した)ドキュメントのデータが格納される。このようなドキュメント(拡散データ)は、Twitterのける公式リツイート相当のものであり、FacebookにおけるLike相当のものである。図3に示すように、拡散データテーブル32には、拡散しているドキュメント(参照元のドキュメント)のIDと、投稿された時刻である拡散された日時と、参照先のドキュメントのIDとが対応付けられて格納される。
The diffusion data table 32 stores data of a document obtained by diffusing another document (quoted without processing another document) among the document data stored in the
ドキュメントデータテーブル33は、ドキュメント格納部20に格納されたドキュメントのデータのうち、拡散データ(参照元のドキュメント)以外のドキュメントのデータが格納される。また、ドキュメントデータテーブル33には、各ドキュメントに訂正表現が含まれるか否かを示す情報である訂正表現フラグが付与される。図4に示すように、ドキュメントデータテーブル33には、投稿されたドキュメントのIDと、投稿された時刻である投稿日時と、ドキュメントの内容である投稿テキストと、訂正表現フラグとが対応付けられて格納される。訂正表現フラグは、値が“1”である場合にドキュメントに訂正表現が含まれることを示し、値が“0”である場合にドキュメントに訂正表現が含まれないことを示している。但し、訂正表現フラグは必ずしも上記のフォーマットである必要はない。上述した各種のテーブル31〜33は、上述した以外の項目のデータも含んでいてもよい。また、テーブルというフォーマット以外のフォーマットでデータを格納してもよい。
The document data table 33 stores document data other than the spread data (reference source document) among the document data stored in the
また、上記の情報は、時刻でデータを細分化しておくこととしてもよい。これにより時間帯毎にデータの処理を行う場合に必要なデータのみを参照することができ処理時間にかかるコストの短縮化が可能になる。 The above information may be obtained by subdividing data by time. As a result, it is possible to refer to only the data necessary when processing the data for each time period, and it is possible to reduce the cost for the processing time.
訂正表現格納部40は、予め訂正表現を示す情報を格納(記憶)する。訂正表現とは、ドキュメントの内容が誤っていることを示す表現である。具体的には、図5に示すように「デマ」、「騙されるな」等のキーワード(テキスト)が格納されている。訂正表現格納部40に格納される訂正表現を示す情報は、予め信憑性解析装置1の管理者等によって入力されている。訂正表現を示す情報は、信憑性の判断に用いられる。
The corrected
ブラックリストURL格納部50は、信憑性が低いドキュメントとされたドキュメントに含まれる別のデータへのリンクを示すリンク情報であるURLを格納する。このURLは、後述するように解析サーバ10によってブラックリストURL格納部50に格納される。このURLは、信憑性の判断(の事前処理)に用いられる。
The blacklist
ドキュメントに含まれるURLが短縮URLである場合、伸長URLに変換して格納することとしてもよい。具体的には、図6に示すようなURLが格納されている。なお、格納されるURLはパラメータ付きのURL、パラメータを省いたURL、ドメイン、又はURLの一部でもよい。マイクロブログ上では、短縮URLで投稿されることが多いため、格納されるURLは短縮URLでも伸長URLでもよい。 When the URL included in the document is a shortened URL, the URL may be converted into an expanded URL and stored. Specifically, a URL as shown in FIG. 6 is stored. The URL to be stored may be a URL with parameters, a URL without parameters, a domain, or a part of a URL. Since the posting is often performed with a shortened URL on a microblog, the stored URL may be a shortened URL or an expanded URL.
デマ格納部60は、後述するように解析サーバ10によって信憑性が低いドキュメントとされたドキュメントを示す情報を格納する。信憑性が低いドキュメントの情報は、信憑性の判断(の事前処理)に用いられる。図7に示すように、デマ格納部60には、信憑性が低いとされたドキュメントのIDと、当該ドキュメントの内容である投稿テキストと、当該ドキュメントが作成(投稿)された時刻である作成日とが対応付けて格納される。上述したデマ格納部60は、上述した以外の項目のデータも含んでいてもよい。
As described later, the
引き続いて、解析サーバ10の構成について説明する。解析サーバ10は、分類部11と、事前処理部12と、第2の数算出部13と、第1の数算出部14と、信憑性判断部15と、出力部16とを備えて構成される。なお、解析サーバ10は、上記の構成要素以外にも、ドキュメントのデータを取得してドキュメント格納部20に格納する手段等を備えていてもよい。
Subsequently, the configuration of the
分類部11は、ドキュメント格納部20に格納された解析対象となるドキュメントを読み出して、分類し分類データ格納部30の各テーブル31〜33に格納する手段である。分類部11は、読み出したドキュメント毎に分類処理を行う。まず、分類部11は、ドキュメントが削除されたものか否かを確認する。具体的には例えば、この確認はドキュメントのデータに削除フラグが付与されたものかどうかを判断することによって行われる。分類部11は、ドキュメントが削除されたものであると判断すると、そのドキュメントのIDと、削除された時刻である削除日時とをドキュメントのデータから取得して、それらを対応付けて分類データ格納部30の削除データテーブル31に格納する。
The
また、分類部11は、ドキュメントが、参照先のドキュメントを拡散した拡散データであるか否かを確認する。具体的には例えば、この確認はドキュメントのデータに拡散データであることを示すフラグが付与されたものかどうかを判断することによって行われる。分類部11は、ドキュメントが拡散データであると判断すると、そのドキュメントのIDと、投稿された時刻である拡散された日時と、参照先のドキュメントのIDとをドキュメントのデータから取得して、それらを対応付けて分類データ格納部30の拡散データテーブル32に格納する。
Further, the
なお、ドキュメントが拡散データであるかの判断は、ドキュメントのテキスト同士を比較してそれらが完全一致するか否かによって判断することとしてもよい(投稿時刻が早いほうが参照先のドキュメントであり、投稿時刻が遅いほうが参照元のドキュメントである)。 Note that the determination of whether a document is spread data may be made by comparing the texts of the documents and determining whether or not they completely match (the document with the earlier submission time is the reference document, The document with the later time is the source document).
分類部11は、拡散データでないと判断したドキュメントについては、訂正表現格納部40に格納されている訂正表現を示す情報を取得して、当該ドキュメントにそれらの訂正表現が含まれているか否かを判断する。具体的には、ドキュメントのテキストと、訂正表現格納部40に格納されている情報に係る各訂正表現とのテキストマッチをかける。
For a document that is determined not to be spread data, the
分類部11は、拡散データでないと判断したドキュメントのIDと、投稿された時刻である投稿日時と、ドキュメントの内容である投稿テキストとをドキュメントに含まれるデータから取得して、それらを対応付けて分類データ格納部30のドキュメントデータテーブル33に格納する。また、訂正表現を含むか否かの判断結果に応じた訂正表現フラグ(ドキュメントに訂正表現を含めば“1”、含まなければ“0”)も対応付けてドキュメントデータテーブル33に格納する。
The
上記のように、分類部11は、ドキュメントが拡散データであることを特定しており、ドキュメント格納部20によって格納された複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定する参照関係特定手段(の一機能)である。
As described above, the
更に、分類部11は、ドキュメントが削除され、あるいは訂正表現を含む、即ち、別のドキュメント(参照先のドキュメント)の内容を訂正するものとして生成された可能性があることを検出する。即ち、分類部11は、ドキュメントに対して、参照先のドキュメントの信憑性に係る特定操作が行われている(可能性がある)ことを検出する特定操作検出手段(の一機能)である。
Furthermore, the
分類部11によるドキュメントの分類は、例えば、ドキュメントの信憑性の解析が行われるタイミングで行われる。このタイミングは、例えば、信憑性解析装置1の管理者の操作をトリガとしたタイミングや、予め設定された(例えば、一定時間毎)タイミングである。
The classification of the document by the
分類部11は、ドキュメントの信憑性の解析のための分類(即ち、ドキュメント間の参照関係の特定)を、ドキュメントに対応付けられた時刻に応じて行うこととしてもよい。例えば、予め設定した時間帯毎のドキュメントのみを用いて分類を行うこととしてもよい。即ち、予め設定した時間帯毎のドキュメントのみを用いて、ドキュメントの信憑性の解析が行われてもよい。これによって、信憑性の解析に不要な古いデータに対して、後述するテキストマッチング等の処理が不要になる。
The
事前処理部12は、信憑性の解析が不要なドキュメントのフィルタリングを行う手段である。ここでいう不要なドキュメントとは、信憑性判断部15による信憑性の判断を行う必要のないドキュメントである。事前処理部12は、過去に信憑性判断部15によって信憑性が低いと判断されたドキュメントのデータを用いて上記のフィルタリングを行う。上記のフィルタリングで、信憑性の解析が不要とされたドキュメントは、過去に信憑性判断部15によって信憑性が低いと判断されたドキュメントと同様に信憑性が低いものであると判断して、それ以降の解析対象外とする。即ち、事前処理部12は、過去の信憑性判断部15による信憑性の判断を用いて、ドキュメントの信憑性を判断する信憑性判断手段(の一機能)である。
The
具体的には、事前処理部12は、解析対象となりえるドキュメントのデータとして分類データ格納部30のドキュメントデータテーブル33からドキュメントのデータを取得する。事前処理部12は、デマ格納部60に格納されているドキュメントのデータを取得して、解析対象となりえるドキュメントのデータと照合して、解析対象となりえるドキュメントがデマ格納部60に格納されているドキュメントのデータと一致するか否かの照合を行う。この照合は、ドキュメントID同士、又はテキスト同士で行われる。なお、テキスト同士の比較は、完全一致でなく一部の一致でもよい。あるいは、形態素解析を用いて形態素レベルでの照合が行われてもよい。上記の照合で、解析対象となりえるドキュメントがデマ格納部60に格納されているドキュメントのデータと一致すると判断されると、事前処理部12は、当該解析対象となりえるドキュメントは信憑性が低いものと判断して、信憑性判断部15による信憑性の判断は行われない。
Specifically, the
また、事前処理部12は、ブラックリストURL格納部50に格納されているURLのデータを取得して、解析対象となりえるドキュメントのデータと照合して、解析対象となりえるドキュメントが当該URLの少なくとも一部を含んでいるかの判断を行う。上記の判断で、解析対象となりえるドキュメントがブラックリストURL格納部50に格納されているURLを含むと判断されると、事前処理部12は、当該解析対象となりえるドキュメントは信憑性が低いものと判断して、信憑性判断部15による信憑性の判断は行われない。
Further, the
なお、解析対象となりえるドキュメントがURLの少なくとも一部でなく、URL全体を含む場合に、ドキュメントは信憑性が低いものと判断することとしてもよい。また、解析対象となりえるドキュメントがURLのドメインを含む場合に、ドキュメントは信憑性が低いものと判断することとしてもよい。また、比較対象とするURLは、上述したように短縮URL、及び伸長URLの何れか又は両方であってもよい。 Note that if the document that can be analyzed is not at least a part of the URL but includes the entire URL, the document may be determined to have low credibility. Further, when a document that can be analyzed includes a URL domain, it may be determined that the document has low credibility. Further, as described above, the URL to be compared may be either or both of the shortened URL and the decompressed URL.
事前処理部12は、上述した処理によって、信憑性の判断は行われないとされたドキュメント以外の情報を第2の数算出部13と、第1の数算出部14とに通知する。通知されたドキュメントを対象として信憑性の判断が行われる。信憑性の判断は、後述するように、信憑性の判断から除外されなかった解析対象となるドキュメントのうち参照先のドキュメント(別のドキュメントから参照されているドキュメント)に対して行われ、当該参照先のドキュメントと参照関係にある参照元のドキュメントの情報が用いられて行われる。
The
第2の数算出部13は、解析対象となる参照先のドキュメントに対する参照元のドキュメントの数である第2の数を参照先のドキュメント毎に算出する算出手段(の一機能)である。図1に示すように第2の数算出部13は、拡散件数算出部13aと、共有件数算出部13bとを備える。
The second
拡散件数算出部13aは、第2の数として、解析対象となる参照先のドキュメントを加工せずに引用した(参照先のドキュメントを拡散した)参照元のドキュメントの数(拡散件数)を算出する。この算出は、解析対象となる参照先のドキュメントのID単位で、分類データ格納部30の拡散データテーブル32を参照して参照元ドキュメントのIDの数を集計することで行うことができる。拡散件数算出部13aは、算出した拡散件数を解析対象となる参照先のドキュメントのIDに対応付けて信憑性判断部15に出力する。
The diffusion
共有件数算出部13bは、第2の数として、解析対象となる参照先のドキュメントを加工せずに引用したもの以外で参照関係を有するドキュメント、具体的には例えば、解析対象となる参照先のドキュメントに対して参照元のユーザ自身のコメントを付与して引用(あるいは返信)したドキュメントの数(共有件数)を算出する。これは、参照先のドキュメントの内容を引用して、かつ自分のコメントを載せたドキュメントの数である。Twitterでいう非公式リツイート相当のものである。
The number-of-
このような参照関係については、拡散したドキュメントのように分類データ格納部30に参照関係を示す情報が格納されていない。そこで、共有件数算出部13bは、図4に示す分類データ格納部30のドキュメントデータテーブル33のデータを用いて、ドキュメント間の参照関係(繋がり)を抽出する。共有件数算出部13bは、ドキュメントデータテーブル33に含まれる解析対象となる参照先のドキュメントのテキストと、当該参照先のドキュメントより後に投稿された他のドキュメントのテキストとを比較する(照合する)。
For such a reference relationship, information indicating the reference relationship is not stored in the classification
例えば、参照先のドキュメントのテキストのうち、先頭の文字から予め定めた文字数(例えば、十文字)が、他のドキュメントのテキストに含まれるかテキストマッチで照合する。図4に示すデータの場合、ID“23450”のドキュメントのテキスト「今日は晴れ」を、ID“89012”のドキュメントのテキストが含むため、ID“89012”のドキュメントは、ID“23450”のドキュメントを引用先のドキュメントとしている(非公式リツイートしている)と判断される。なお、テキストの照合箇所は必ずしも先頭の文字からでなくてもよく、参照関係が判断しえる文字列の一致(テキスト同士の少なくとも一部同士の一致)が判断されればよい。 For example, in a text of a reference destination document, a predetermined number of characters (for example, ten characters) from the first character is included in the text of another document or collated by text matching. In the case of the data shown in FIG. 4, since the text “Today is sunny” of the document with ID “23450” and the text of the document with ID “89012” are included, the document with ID “89012” includes the document with ID “23450”. It is determined that the document is cited (unofficially retweeted). It should be noted that the text collation location does not necessarily have to be from the first character, and it is only necessary to determine the matching of the character strings (the matching of at least some of the texts) from which the reference relationship can be determined.
また、加工せずに引用されて拡散されたドキュメント以外でも、拡散されたドキュメントと同様に、引用関係等の参照関係を有する参照元のドキュメントのデータに参照先のドキュメントを示す参照関係情報が付加されている場合には、参照関係情報を用いて参照関係を判断することとしてもよい。 In addition to documents that have been quoted and diffused without processing, reference relationship information indicating the reference destination document is added to the data of the reference source document having a reference relationship such as a citation relationship, as with the diffused document. If it is, the reference relationship may be determined using the reference relationship information.
共有件数算出部13bは、上記のように解析対象となる参照先のドキュメント毎に上記の参照関係を判断して、参照関係があると判断された参照元ドキュメントの数を集計して共有件数とする。上記のように、共有件数の算出においては、共有件数算出部13bは、ドキュメント間の参照関係の特定も行っており、参照元のドキュメントと参照先のドキュメントとの間の参照関係を特定する参照関係特定手段(の一機能)でもある。共有件数算出部13bは、算出した共有件数を解析対象となる参照先のドキュメントのIDに対応付けて信憑性判断部15に出力する。
The number-of-
上記のように全てのドキュメントについてテキスト同士の比較で参照関係を特定する場合、非常に処理時間がかかる。そこで、解析対象となる参照先のドキュメントの絞り込みを行って処理時間の短縮化を可能にすることができる。 As described above, when a reference relationship is specified by comparing texts for all documents, it takes a very long processing time. Therefore, the processing time can be shortened by narrowing down the reference documents to be analyzed.
具体的には、共有件数算出部13bは、分類データ格納部30の拡散データテーブル32に参照先ドキュメントのIDとしてIDが格納されているドキュメントのみを解析対象となる参照先のドキュメントとする。即ち、別のドキュメントに参照先のドキュメントを示す参照関係情報としてIDが付加されているドキュメントである別のユーザによって拡散されたドキュメントについてのみ解析対象とする(処理を行う)。
Specifically, the sharing
また、参照関係情報によって示される別のドキュメントから参照先のドキュメントの数が一定以上のドキュメントのみを解析対象とすることとしてもよい。このように、拡散されたドキュメントのみを解析対象とすれば、処理対象とするドキュメントの数を削減でき処理コストを削減することができると共にユーザからの注目度の高いドキュメントに絞り信憑性解析を行うことができる。これにより、リアルタイムな処理が可能となる。 Alternatively, only documents with a certain number of reference destination documents from another document indicated by the reference relationship information may be analyzed. As described above, if only the diffused document is set as the analysis target, the number of documents to be processed can be reduced, the processing cost can be reduced, and the reliability analysis is performed by narrowing down to a document having a high degree of attention from the user. be able to. Thereby, real-time processing becomes possible.
第1の数算出部14は、解析対象となる(参照先の)ドキュメント毎に、特定操作が行われている参照元のドキュメントの数である第1の数を算出する算出手段(の一機能)である。図1に示すように第1の数算出部14は、訂正件数算出部14aと、削除件数算出部14bとを備える。
The first
訂正件数算出部14aは、第1の数として、解析対象となる参照先のドキュメントに対して、その内容の訂正を行う参照元のドキュメントの数(訂正件数)を算出する。訂正件数算出部14aは、上記の第2の数算出部13と同様に参照先のドキュメントと参照元のドキュメントとの参照関係を特定する(この参照関係は、第2の数算出部13による処理結果によるものが用いられてもよい)。訂正件数算出部14aは、参照先のドキュメント毎に参照関係がある参照元のドキュメントから、分類データ格納部30のドキュメントデータテーブル33の訂正表現フラグを参照して訂正表現を含む参照元のドキュメントの数を訂正件数として集計する。訂正件数算出部14aは、算出した訂正件数を解析対象となる参照先のドキュメントのIDに対応付けて信憑性判断部15に出力する。
The correction
また、訂正件数算出部14aは、以下のような処理を行うこととしてもよい。訂正件数算出部14aは、分類データ格納部30のドキュメントデータテーブル33の訂正表現フラグを参照して、解析対象となる参照先のドキュメントに訂正表現を含むか否かを判断する。もし、参照先のドキュメントに訂正表現を含む場合、訂正件数は共有件数と同等の値になってしまう。その場合、訂正件数を用いた信憑性解析は適切ではない。このため、訂正件数算出部14aは、解析対象となる参照先のドキュメントに訂正表現を含むと判断した場合には、参照元のドキュメントが参照先のドキュメントの内容を訂正するものとして生成されているものとして検出せず、訂正件数を算出しない。
The correction
削除件数算出部14bは、第1の数として、解析対象となる参照先のドキュメントと参照関係がある参照元のドキュメントであって、その内容の訂正を行う参照元のドキュメントの数(削除件数)を算出する。削除件数算出部14bは、上記の第2の数算出部13と同様に参照先のドキュメントと参照元のドキュメントとの参照関係を特定する(この参照関係は、第2の数算出部13による処理結果によるものが用いられてもよい)。削除件数算出部14bは、参照先のドキュメント毎に参照関係がある参照元のドキュメントから、分類データ格納部30の削除データテーブル31を参照して削除された参照元のドキュメントの数を削除件数として集計する。この削除件数は、参照先ドキュメントを拡散した参照元ドキュメント(公式リツイート)に対する数(拡散件数に対する削除件数)、それ以外の参照元ドキュメント(非公式リツイート)に対する数(共有件数に対する削除件数)それぞれ、及びそれらの和を算出することとしてもよい。削除件数算出部14bは、算出した削除件数を解析対象となる参照先のドキュメントのIDに対応付けて信憑性判断部15に出力する。
The number-of-deletions-
上記のように、訂正件数あるいは削除件数の算出においては、訂正件数算出部14a及び削除件数算出部14bは、ドキュメント間の参照関係の特定も行っており、参照元のドキュメントと参照先のドキュメントとの間の参照関係を特定する参照関係特定手段(の一機能)でもある。
As described above, in calculating the number of corrections or the number of deletions, the correction
なお、共有件数算出部13b、訂正件数算出部14a及び削除件数算出部14bによって使用される参照関係については、共有件数、訂正件数及び削除件数が算出される前に予めドキュメントデータテーブル33が参照して特定して、(例えば、図示しない共有ドキュメント格納部等に)格納しておいてもよい。これにより以降の処理をスムーズに行うことができる。即ち、Twitterでいう、ツイート間のリツイート関係情報を予め抽出しておき、以降の処理に応用する。また、このデータは、分類データ格納部30に格納されるデータと同様に時間帯毎のデータとしてもよい。
Note that the reference relationship used by the sharing
信憑性判断部15は、第1の数算出部14によって算出された第1の数と、第2の数算出部13によって算出された第2の数とから、解析対象となる参照先のドキュメントの信憑性を判断する信憑性判断手段である。具体的には、信憑性判断部15は、信憑性を判断するための式と閾値とを予め記憶しておき、それに基づいて判断を行う。
The
具体的には、参照先のドキュメントに訂正表現が含まれない場合には、以下の4つの式の何れか又は全てを用いて判断する。信憑性判断部15は、以下の式の関係を満たすものを信憑性が低いドキュメントと判断する(以下についても同様である)。
訂正件数/拡散件数>α
削除件数/拡散件数>β
訂正件数/共有件数>θ
削除件数/共有件数>π
ここで、α、β、θ、πは予め設定された閾値である。また、削除件数は、式に応じて拡散件数に対する削除件数、共有件数に対する削除件数の何れかが用いられてもよい(以下についても同様である)。
Specifically, if the corrected document is not included in the reference destination document, the determination is made using any or all of the following four expressions. The
Corrections / Diffusions> α
Number of deletions / spreads> β
Number of corrections / shares> θ
Number of deleted / shared items> π
Here, α, β, θ, and π are preset threshold values. As the number of deletions, either the number of deletions with respect to the number of diffusions or the number of deletions with respect to the number of sharing may be used according to the formula (the same applies to the following).
また、上述したように参照先のドキュメントに訂正表現が含まれる場合には、訂正件数は算出されないので、以下の2つの式の何れか又は全てを用いて判断する。
削除件数/拡散件数>γ
削除件数/共有件数>χ
ここで、γ、χは予め設定された閾値である。
Further, as described above, when the corrected document is included in the reference destination document, the number of corrections is not calculated, and therefore determination is made using either or all of the following two expressions.
Number of deletions / spreads> γ
Number of deleted / shared items> χ
Here, γ and χ are preset threshold values.
上記の判断基準は、拡散件数、共有件数を用いたものであったが、それらが用いられない判断基準としてもよい(両方を用いてもよい)。具体的には、参照先のドキュメントに訂正表現が含まれない場合には、以下の2つの式の何れか又は全てを用いて判断する。
訂正件数>α´
削除件数>β´
参照先のドキュメントに訂正表現が含まれる場合には、以下の式を用いて判断する。
削除件数>γ´
ここで、α´、β´、γ´は予め設定された閾値である。
Although the above-mentioned judgment criteria are those using the number of diffusion cases and the number of sharing cases, they may be judgment criteria in which they are not used (both may be used). Specifically, if the corrected document is not included in the reference destination document, the determination is made using either or all of the following two expressions.
Number of corrections> α '
Number of deletions> β '
When the corrected document is included in the reference document, it is determined using the following formula.
Number of deletions> γ '
Here, α ′, β ′, and γ ′ are preset threshold values.
信憑性判断部15は、解析対象となる参照先のドキュメントの判断結果を出力部16に出力する。
The
出力部16は、信憑性判断部15による判断結果を示す情報を出力する出力手段である。具体的には、出力部16は、信憑性が低いと判断されたドキュメントの情報をデマ格納部60に格納する。具体的には、図7に示すように信憑性が低いと判断されたドキュメントのIDと、当該ドキュメントのテキストと、当該ドキュメントの作成日(投稿された時刻)とを対応付けてデマ格納部60に格納する。
The
また、出力部16は、信憑性が低いと判断されたドキュメントにURLが含まれるか否かを判断して、URLが含まれていた場合には、そのURLを図6に示すようにブラックリストURL格納部50に格納する。なお、URLは、一定の数以上、信憑性が低いと判断されたドキュメントに含まれていた場合、即ち、信憑性が低いと判断されたドキュメントに頻繁に出現した場合にブラックリストURL格納部50に格納することとしてもよい。また、上述したようにURLのドメイン、パラメータなしのURL、短縮URL及び伸長URL等が、ブラックリストURL格納部50に格納されえる。
Further, the
このようなURLを有するサイトとして、虚報新聞(http://kyoko-np.net/)等の嘘の情報をベースとしたニュースサイト等があり、Twitter上ではこのサイトの情報が頻繁にデマ情報として流れることがある。URLが付いたツイートで情報が共有されるため一見、真実のように思えるが実際のサイトの中身は嘘の情報が集まっているため、このようなサイトを特定することは重要である。 As a site having such a URL, there is a news site based on false information such as a fictional newspaper (http://kyoko-np.net/), and the information on this site is frequently used on Twitter. May flow as. At first glance, it seems to be true because the information is shared by the tweet with the URL, but it is important to identify such a site because the contents of the actual site are gathered with lie information.
あるいは、出力部16は、信憑性解析装置1が備えるディスプレイに表示することによって信憑性解析装置1の管理者が確認できるように表示出力する。以上が、信憑性解析装置1の機能構成である。
Alternatively, the
図8に信憑性解析装置1のハードウェア構成を示す。図8に示すように信憑性解析装置1は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述した信憑性解析装置1の機能が発揮される。以上が、信憑性解析装置1の構成である。
FIG. 8 shows a hardware configuration of the
引き続いて、図9及び図10のフローチャートを用いて、本実施形態に係る信憑性解析装置1で実行される処理である信憑性解析方法を説明する。なお、本処理は、例えば、信憑性解析装置1の管理者による操作とトリガとして、あるいは一定時間毎の定期的な処理として行われる。
Subsequently, a credibility analysis method that is a process executed by the
まず、解析サーバ10によって、解析対象となる複数のドキュメントが取得されてドキュメント格納部20に格納される(S01)。続いて、分類部11によって、ドキュメント格納部20に格納されたドキュメントが分類されて、分類データ格納部30に格納される。ドキュメントの分類について、図10のフローチャートを用いて説明する。
First, the
まず、ドキュメントのデータに削除フラグが付与されたものかが確認される(S201、特定操作検出ステップ)。ドキュメントが削除されたものであると判断されると、当該ドキュメントに係る情報が分類データ格納部30の削除データテーブル31に格納される(S202、特定操作検出ステップ)。この場合、ここでドキュメントの分類は終了する。なお、上記の処理は、削除フラグに係るドキュメントのデータが、削除されたドキュメントのテキストとは独立に取得される場合を前提としている。この場合、削除されたドキュメントのテキストに係る情報は、既に拡散データテーブル32又はドキュメントデータテーブル33に格納されている。削除されたドキュメントのテキストと削除フラグとが含まれる一つのデータとして取得される場合には、S202の処理の後、S203以降の処理を行うこととしてもよい。S201においてドキュメントが削除されたものであると判断されなかった場合、引き続いて、ドキュメントのデータに拡散データであることを示すフラグが付与されたものかが確認される(S203、参照関係特定ステップ)。ドキュメントが拡散データであると判断されると、当該ドキュメントに係る情報が分類データ格納部30の拡散データテーブル32に格納される(S204、参照関係特定ステップ)。この場合、以上で分類の処理は終了する。 First, it is confirmed whether or not a deletion flag is given to document data (S201, specific operation detection step). If it is determined that the document has been deleted, information relating to the document is stored in the deletion data table 31 of the classification data storage unit 30 (S202, specific operation detection step). In this case, the document classification ends here. The above processing is based on the assumption that the document data related to the deletion flag is acquired independently of the deleted document text. In this case, information related to the text of the deleted document is already stored in the diffusion data table 32 or the document data table 33. When acquired as one data including the text of the deleted document and the deletion flag, the processing after S203 may be performed after the processing of S202. If it is not determined in step S201 that the document has been deleted, it is subsequently checked whether the document data has been given a flag indicating that it is spread data (step S203, reference relationship specifying step). . When it is determined that the document is spread data, information related to the document is stored in the spread data table 32 of the classification data storage unit 30 (S204, reference relationship specifying step). In this case, the classification process ends here.
S203においてドキュメントが拡散データであると判断されなかった場合、当該ドキュメントに訂正表現を含むか否かの判断がなされる(S205、特定操作検出ステップ)。続いて、当該ドキュメントのデータが、訂正表現を含むか否かのフラグと共に、分類データ格納部30のドキュメントデータテーブル33に格納される(S206、参照関係特定ステップ)。以上で分類の処理は、終了する。信憑性の解析に用いるドキュメント全てについて上記の分類を行う。
If it is not determined in S203 that the document is spread data, it is determined whether or not the document includes a corrected expression (S205, specific operation detection step). Subsequently, the document data is stored in the document data table 33 of the classification
上記の分類が終了すると、続いて、事前処理部12によって解析対象のドキュメントの絞り込みが行われる(図9のS03、信憑性判断ステップ)。具体的には、分類データ格納部30のドキュメントデータテーブル33に格納されているドキュメントのデータが、デマ格納部60に格納されているドキュメントのデータ、及びブラックリストURL格納部50に格納されているURLのデータと照合されて、ドキュメントデータテーブル33に格納されているドキュメントが信憑性が低いものでないかが判断される。ドキュメントが信憑性が低いものであると判断されると、そのドキュメントについては以降の処理には用いられない。以降の処理では、上記の判断でドキュメントが信憑性が低いものであると判断されなかったドキュメントが解析の対象とされる。
When the above classification is completed, the
引き続いて、第2の数算出部13によって、参照先のドキュメントとなっているドキュメントについて、当該ドキュメント毎に第2の数として拡散件数と共有件数とが算出される(S04、第2の数算出ステップ、参照関係特定ステップ)。また、第1の数算出部14によって、参照先のドキュメントとなっているドキュメントについて、当該ドキュメント毎に第1の数として訂正件数と削除件数とが算出される(S05、第1の数算出ステップ、参照関係特定ステップ)。なお、上述したように、ここで参照先のドキュメントとされるのは、拡散されたドキュメントのみとしてテキストの比較による参照関係を特定する処理を減らすこととしてもよい。
Subsequently, for the document that is the reference destination document, the second
引き続いて、信憑性判断部15によって、上記のように算出された第1の数及び第2の数を用いて参照先のドキュメントについて、信憑性の判断が行われる(S06、信憑性判断ステップ)。信憑性の判断結果は、出力部16によって出力される(S07、出力ステップ)。具体的には、信憑性が低いとされたドキュメントのデータが用いられて、デマ格納部60に当該ドキュメントの情報が蓄積され、また、ブラックリストURL格納部50の情報が更新される。以上が、本実施形態に係る信憑性解析装置1で実行される処理である信憑性解析方法である。
Subsequently, the
上述したように本実施形態によれば、複数のドキュメント間の参照関係と、参照元のドキュメントに対する参照先のドキュメントの信憑性に係る特定操作の数とに基づいて信憑性が判断される。従って、参照元のドキュメントが、参照先のドキュメントに応じてどのように作成されたか、あるいは扱われたか等に基づいて参照先のドキュメントの信憑性が判断される。 As described above, according to the present embodiment, the credibility is determined based on the reference relationship between a plurality of documents and the number of specific operations related to the credibility of the reference destination document with respect to the reference source document. Therefore, the credibility of the reference destination document is determined based on how the reference source document was created or handled according to the reference destination document.
具体的には、参照元のドキュメントを作成(投稿)するユーザは、参照先のドキュメントがデマである等の信憑性の低いものであると考えた場合、参照先のドキュメントによるデマで他のユーザが惑わされないように、参照元のドキュメントで当該参照先のドキュメントを訂正したり、参照元のドキュメントを削除したりする。このように、本実施形態によれば、参照元のドキュメントを作成したユーザの、参照先のドキュメントに対する反応が反映されて、参照先のドキュメントの信憑性が判断される。従って、本実施形態によれば、ドキュメントの信憑性をより適切に判断することができる。 Specifically, when a user who creates (posts) a reference source document thinks that the reference destination document has low credibility, such as a hoax, other users can use the hoax by the reference destination document. The reference document is corrected in the reference source document or the reference source document is deleted so as not to be confused. As described above, according to the present embodiment, the response of the user who created the reference source document to the reference destination document is reflected, and the credibility of the reference destination document is determined. Therefore, according to the present embodiment, it is possible to more appropriately determine the authenticity of the document.
また、信憑性の判断は、第1の数である訂正件数や削除件数のみからおこなわれてもよいが、第2の数である拡散件数や共有件数を用いて行うこととしてもよい。この構成によれば、参照先のドキュメント毎の参照元のドキュメントの数を考慮して信憑性を判断することができるので、ドキュメントの信憑性を更に適切に判断することができる。より具体的には、訂正や削除されている割合によって、信憑性をより適切に判断することができる。 The determination of credibility may be performed only from the number of corrections and deletions that are the first number, but may be performed using the number of diffusions and the number of sharings that is the second number. According to this configuration, since the credibility can be determined in consideration of the number of reference source documents for each reference document, it is possible to more appropriately determine the credibility of the document. More specifically, the credibility can be more appropriately determined based on the ratio of correction or deletion.
また、本実施形態にように参照関係は、引用や返信、また、加工せずにした引用(拡散、Twitterにおける公式リツイート相当のもの)やそれ以外(Twitterにおける非公式リツイート相当のもの)等としてもよい。これらの構成によれば、適切かつ確実にドキュメント間の参照関係を把握することができ、本発明を適切かつ確実に実施することができる。但し、上記以外でも把握しえる参照関係があれば、任意のものがもちいられてもよい。 In addition, as in this embodiment, the reference relationship is quoted or replied, quoted without processing (diffusion, equivalent to official retweet in Twitter), or other (equivalent to informal retweet in Twitter), etc. Also good. According to these configurations, the reference relationship between documents can be grasped appropriately and reliably, and the present invention can be implemented appropriately and reliably. However, as long as there is a reference relationship that can be grasped other than the above, an arbitrary one may be used.
また、参照先のドキュメントの信憑性に係る特定操作は、本実施形態のように訂正や削除を用いることができる。これらの構成によれば、適切かつ確実に参照元のドキュメントに対する特定操作を把握することができ、本発明を適切かつ確実に実施することができる。但し、上記以外でも把握しえる、ドキュメントに対する信憑性に係る特定操作があれば、任意のものがもちいられてもよい。 Further, the specific operation related to the authenticity of the reference document can be corrected or deleted as in the present embodiment. According to these configurations, it is possible to grasp a specific operation for a reference source document appropriately and reliably, and the present invention can be implemented appropriately and reliably. However, as long as there is a specific operation related to the credibility of the document that can be grasped other than the above, an arbitrary one may be used.
また、訂正の場合は、本実施形態のように参照先のドキュメント自体に訂正表現を含む場合を考慮すれば、参照元のドキュメントが参照先のドキュメントの内容を訂正するものであるかを適切に判断することができ、より適切な信憑性の判断が可能になる。 Further, in the case of correction, considering the case where the reference document itself includes a correction expression as in this embodiment, it is appropriately determined whether the reference source document corrects the content of the reference destination document. This makes it possible to judge more appropriate credibility.
また、本実施形態における事前処理部12の処理のように、一旦信憑性が低いと判断されたドキュメントの情報を用いて解析対象のドキュメントを絞り込むこととすれば、効率的にドキュメントの信憑性を判断することができる。
Further, if the document to be analyzed is narrowed down using the information of the document once determined to be low as in the processing of the
また、ドキュメントに対応付けられた時刻に応じてドキュメントの処理対象を決定することすれば、時間帯毎の時間帯毎のドキュメントの信憑性の判断を行うことができ、また、効率的な処理が可能となりリアルタイムな信憑性解析が可能となる。 Also, by determining the document processing target according to the time associated with the document, it is possible to determine the credibility of the document for each time zone, and for efficient processing. Real time credibility analysis becomes possible.
1…信憑性解析装置、10…解析サーバ、11…分類部、12…事前処理部、13…第2の数算出部、13a…拡散件数算出部、13b…共有件数算出部、14第1の数算出部、14a…訂正件数算出部、14b…削除件数算出部、15…信憑性判断部、16…出力部、20…ドキュメント格納部、30…分類データ格納部、31…削除データテーブル、32…拡散データテーブル、33…ドキュメントデータテーブル、40…訂正表現格納部、50…ブラックリストURL格納部、60…デマ格納部、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置。
DESCRIPTION OF
Claims (14)
複数のドキュメントを格納するドキュメント格納部と、
前記ドキュメント格納部によって格納された前記複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定する参照関係特定手段と、
前記参照関係特定手段によって特定された参照関係によって示される前記参照元のドキュメントに対して、前記参照先のドキュメントの信憑性に係る特定操作が行われていることを検出する特定操作検出手段と、
前記特定操作検出手段によって検出された特定操作が行われている前記参照元のドキュメントの数である第1の数を前記参照先のドキュメント毎に算出する算出手段と、
前記算出手段によって算出された前記第1の数から前記参照先のドキュメントの信憑性を判断する信憑性判断手段と、
前記信憑性判断手段による判断結果を示す情報を出力する出力手段と、
を備える信憑性解析装置。 A credibility analyzer that analyzes the authenticity of a document,
A document storage unit for storing a plurality of documents;
A reference relationship specifying means for specifying a reference relationship indicating that a reference source document is generated by referring to a reference destination document in the plurality of documents stored by the document storage unit;
Specific operation detecting means for detecting that a specific operation related to the credibility of the reference destination document is performed on the reference source document indicated by the reference relation specified by the reference relation specifying means;
Calculating means for calculating, for each reference destination document, a first number that is the number of the reference source documents on which the specific operation detected by the specific operation detection means is performed;
Credibility determination means for determining the credibility of the referenced document from the first number calculated by the calculation means;
Output means for outputting information indicating a determination result by the credibility determination means;
A credibility analyzer with
前記信憑性判断手段は、前記第1の数及び第2の数から前記参照先のドキュメントの信憑性を判断する、
請求項1に記載の信憑性解析装置。 The calculating means calculates a second number, which is the number of the reference source documents with respect to the reference destination document, for each reference destination document,
The authenticity determining means determines the authenticity of the document referred to from the first number and the second number;
The credibility analyzer according to claim 1.
前記参照関係特定手段は、参照関係の特定を前記ドキュメントに対応付けられた時刻に応じて行う、
請求項1〜12のいずれか一項に記載の信憑性解析装置。 The document is associated with a time,
The reference relationship specifying means specifies the reference relationship according to the time associated with the document;
The credibility analyzer according to any one of claims 1 to 12.
前記ドキュメント格納部によって格納された前記複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定する参照関係特定ステップと、
前記参照関係特定ステップにおいて特定された参照関係によって示される前記参照元のドキュメントに対して、前記参照先のドキュメントの信憑性に係る特定操作が行われていることを検出する特定操作検出ステップと、
前記特定操作検出ステップにおいて検出された特定操作が行われている前記参照元のドキュメントの数である第1の数を前記参照先のドキュメント毎に算出する算出ステップと、
前記算出ステップにおいて算出された前記第1の数から前記参照先のドキュメントの信憑性を判断する信憑性判断ステップと、
前記信憑性判断ステップにおける判断結果を示す情報を出力する出力ステップと、
を含む備える信憑性解析方法。
A credibility analysis method using a credibility analysis device including a document storage unit for storing a plurality of documents for analyzing the credibility of a document,
A reference relationship specifying step for specifying a reference relationship indicating that a reference source document is generated by referring to a reference destination document in the plurality of documents stored by the document storage unit;
A specific operation detecting step for detecting that a specific operation related to the credibility of the reference destination document is performed on the reference source document indicated by the reference relationship specified in the reference relationship specifying step;
A calculation step of calculating, for each reference destination document, a first number that is the number of the reference source documents on which the specific operation detected in the specific operation detection step is performed;
A credibility determination step of determining the credibility of the referenced document from the first number calculated in the calculation step;
An output step of outputting information indicating a determination result in the credibility determination step;
A credibility analysis method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011214941A JP2013077044A (en) | 2011-09-29 | 2011-09-29 | Credibility analysis device and credibility analysis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011214941A JP2013077044A (en) | 2011-09-29 | 2011-09-29 | Credibility analysis device and credibility analysis method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013077044A true JP2013077044A (en) | 2013-04-25 |
Family
ID=48480486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011214941A Withdrawn JP2013077044A (en) | 2011-09-29 | 2011-09-29 | Credibility analysis device and credibility analysis method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013077044A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013077155A (en) * | 2011-09-30 | 2013-04-25 | Kddi Corp | Evaluation server, terminal, information processing system, information processing method and program |
JP2015005057A (en) * | 2013-06-19 | 2015-01-08 | ヤフー株式会社 | Information determination device and information determination method |
-
2011
- 2011-09-29 JP JP2011214941A patent/JP2013077044A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013077155A (en) * | 2011-09-30 | 2013-04-25 | Kddi Corp | Evaluation server, terminal, information processing system, information processing method and program |
JP2015005057A (en) * | 2013-06-19 | 2015-01-08 | ヤフー株式会社 | Information determination device and information determination method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Beskow et al. | Bot-hunter: a tiered approach to detecting & characterizing automated activity on twitter | |
US11019107B1 (en) | Systems and methods for identifying violation conditions from electronic communications | |
Rubin | Deception detection and rumor debunking for social media | |
Calvin et al. | # bully: Uses of hashtags in posts about bullying on Twitter | |
Vidros et al. | Automatic detection of online recruitment frauds: Characteristics, methods, and a public dataset | |
Gharge et al. | An integrated approach for malicious tweets detection using NLP | |
Gupta et al. | Credibility ranking of tweets during high impact events | |
US8849813B1 (en) | Method and system to determine a member profile associated with a reference in a publication | |
US9984427B2 (en) | Data ingestion module for event detection and increased situational awareness | |
Barbier et al. | Provenance data in social media | |
US20130138428A1 (en) | Systems and methods for automatically detecting deception in human communications expressed in digital form | |
US20110320542A1 (en) | Analyzing Social Networking Information | |
Lehmann et al. | Finding news curators in twitter | |
US20110320543A1 (en) | Analyzing News Content Information | |
US20180255010A1 (en) | High confidence digital content treatment | |
US20170277790A1 (en) | Awareness engine | |
US20230362120A1 (en) | System and methods for integrating social network information | |
Mahlangu et al. | A review of automated detection methods for cyberbullying | |
US10269080B2 (en) | Method and apparatus for providing a response to an input post on a social page of a brand | |
CN113836128A (en) | Abnormal data identification method, system, equipment and storage medium | |
EP2778978A1 (en) | Scoring of interrelated message elements | |
Sams et al. | The presence of hyperlinks on social network sites: A case study of Cyworld in Korea | |
US8620918B1 (en) | Contextual text interpretation | |
Saleiro et al. | Popstar at replab 2013: Name ambiguity resolution on twitter | |
US9361198B1 (en) | Detecting compromised resources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20141202 |