JP2013077044A - Credibility analysis device and credibility analysis method - Google Patents

Credibility analysis device and credibility analysis method Download PDF

Info

Publication number
JP2013077044A
JP2013077044A JP2011214941A JP2011214941A JP2013077044A JP 2013077044 A JP2013077044 A JP 2013077044A JP 2011214941 A JP2011214941 A JP 2011214941A JP 2011214941 A JP2011214941 A JP 2011214941A JP 2013077044 A JP2013077044 A JP 2013077044A
Authority
JP
Japan
Prior art keywords
document
credibility
documents
specific operation
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011214941A
Other languages
Japanese (ja)
Inventor
Hayato Akatsuka
隼 赤塚
Hisashi Yamada
尚志 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2011214941A priority Critical patent/JP2013077044A/en
Publication of JP2013077044A publication Critical patent/JP2013077044A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To appropriately determine the credibility of a document.SOLUTION: A credibility analysis device 1 configured as a device for analyzing the credibility of a document includes: a document storage part 20 for storing a plurality of documents; a classification part 11 for specifying a reference relation showing that a document of a reference source has been generated by referring to a document of a reference destination in a plurality of documents, and for detecting that a specific operation relating to the credibility of the document of the reference destination is being performed with respect to the document of the reference source shown by the reference relation; a first number calculation part 14 for calculating the first number as the number of the documents of the reference source to which the specific operation is being performed for each document of the reference destination; a credibility determination part 15 for determining the credibility of the document of the reference destination from the first number; and an output part 16 for outputting the information showing the result of determination.

Description

本発明は、ドキュメントの信憑性を解析する信憑性解析装置及び信憑性解析方法に関する。   The present invention relates to a credibility analysis apparatus and a credibility analysis method for analyzing the credibility of a document.

近年、ミニブログまたはマイクロブログによるコミュニケーションが一般化してきている。マイクロブログとは数十から百数十文字程度で構成される短い文章を投稿するのが特徴であり、ユーザは何気ない一言を投稿し自分の状況を他ユーザとシェアする簡易型ブログとしての活用が目立つ。また自分が興味を持ったニュース記事などURL(Uniform Resource Locator)を付けてコメントを投稿することで他ユーザと情報を共有することも可能なため、ミニブログは友達の近況を得るツールに留まらず、情報収集ツールとしての活用も広く使われている。最近では多くのメディアがTwitterアカウントを活用し、情報を配信することも珍しくなく自分の好みのメディアをフォローする(自分の閲覧リストに登録する)ことで自分の興味のある情報の収集が可能となる。こういった情報は自動で情報を投稿する側から自分に情報がPUSH(送信)される。   In recent years, communication using miniblogs or microblogs has become common. Microblogging is characterized by posting short sentences consisting of tens to hundreds of characters, and users can use it as a simple blog to post casual words and share their situation with other users stand out. You can also share information with other users by posting comments with URLs (Uniform Resource Locators) such as news articles that interest you, so miniblogs are not just a tool to get the status of friends. It is also widely used as an information collection tool. Recently, it is not uncommon for many media to use a Twitter account to distribute information, and it is possible to collect information that interests you by following your favorite media (registering in your browsing list). Become. Such information is automatically pushed (transmitted) from the information posting side to itself.

マイクロブログで有名なTwitterではリツイート、非公式リツイートや、ハッシュタグを付けたツイートの投稿などによってユーザを介することで情報を伝搬させ拡散しやすい性質がある。   Twitter, which is famous for microblogging, has the property that information can be easily propagated and diffused through users via retweets, informal retweets, and posting tweets with hashtags.

リツイートとは、自分のフォロワー(自分を閲覧リストに登録しているユーザ群)に対して情報を共有する時に頻繁に使われる方法である。一般的な傾向によると、より重要な情報を含むツイートは多数のユーザにリツイートされやすい傾向にある。リツイートされた情報は自分のフォロワーに渡り、自分のフォロワーが更にリツイートすることで、情報がユーザを介して伝搬していく。一般的にこのリツイートは公式リツイートと呼ばれることが多い。   Retweeting is a method often used when sharing information with your followers (users who are registered in the browsing list). According to a general trend, tweets containing more important information tend to be retweeted by many users. The retweeted information is passed to the follower, and the follower retweets further, so that the information propagates through the user. In general, this retweet is often called official retweet.

非公式リツイートとは単純にユーザのコメントをリツイートするのでなく、自分のコメントを添えてリツイートすることである。この場合、元の情報に対して自分の意見を添えてリツイートすることが可能なため、追加情報の付与、あるいは情報が誤っている場合の訂正等が可能である。公式リツイートと同様に非公式リツイートは情報を拡散する際によく用いられる手段である。   Informal retweets are not simply retweeting a user's comments, but retweeting with their own comments. In this case, since it is possible to retweet the original information with its own opinion, it is possible to give additional information or to correct if the information is incorrect. Like official retweets, informal retweets are a common means of spreading information.

ハッシュタグとはツイートにタグづける事で特定のトピックに対して情報を共有する機能である。ユーザがTwitter社や第三者が提供する検索を利用し、ハッシュタグを検索することで、そのトピックに関する投稿内容を容易に閲覧することが可能である。ユーザをフォローする以外に特定のハッシュタグをユーザが閲覧することで、特定のトピックについての情報収集が可能となる。   A hash tag is a function for sharing information on a specific topic by tagging a tweet. When the user searches for a hash tag using a search provided by Twitter or a third party, it is possible to easily view the posted content related to the topic. When a user browses a specific hash tag in addition to following the user, information about a specific topic can be collected.

東日本大震災では地震の影響で携帯電話や固定電話といった主要な通信手段が麻痺した。主要な通信インフラが麻痺する中、TwitterやFacebookといったSNS(ソーシャルネットワーキングサービス)が安否確認や情報共有の場としての活躍で一躍注目された。FacebookやTwitterでは自分の友達や家族を(TwitterやFacebookでいうFriends相当である)ユーザ自身のコンタクトリストに登録していることが多いため、SNS上でのコミュニケーションを通して身近な人の安否確認が容易に行えた。情報共有という観点では震災時に被災地の写真の投稿など、マイクロブログ上で被災地の状況を随時報告する人が目立ち、こうした情報を閲覧することで被災地の情報がテレビより、よりリアルタイムに入ることも稀ではなかった。震災時におけるTwitterを活用したコミュニケーションは東日本大震災に限らない。2011年8月に発生した大型ハリケーンであるアイリーンにおいても、Twitterによる、被災情報の共有が目立った。震災時においてTwitterやFacebookといったネットのSNSツールは、現在ではあたり前のコミュニケーションツールの一つとなってなりつつある。   In the Great East Japan Earthquake, major communication means such as mobile phones and landlines were paralyzed due to the earthquake. While the main communication infrastructure is paralyzed, SNS (Social Networking Services) such as Twitter and Facebook have attracted a great deal of attention for their safety and information sharing. In Facebook and Twitter, your friends and family are often registered in your contact list (equivalent to Friends in Twitter and Facebook), so it is easy to check the safety of people around you through SNS communication. I was able to do it. From the viewpoint of information sharing, people who report the status of the disaster-stricken area on microblogs, such as posting photos of the disaster-stricken area at the time of the earthquake, are conspicuous. It was not uncommon to enter. Communication using Twitter at the time of the earthquake is not limited to the Great East Japan Earthquake. In Eileen, a large hurricane that occurred in August 2011, sharing of disaster information by Twitter was conspicuous. At the time of the earthquake disaster, Internet SNS tools such as Twitter and Facebook are now becoming one of the common communication tools.

Twitterを活用した震災時のコミュニケーションという点で、良い面がある一方、情報が伝搬し易い特徴を利用し不確定または偽りの情報を流すことで混乱を招くといった悪い側面もある。例えば東日本大震災直後に、石油工場が爆発し放射能の雨が降る、震災による著名人の死亡説、政策・政党・政権に対する批判等といった根拠のない情報が多くTwitter上に流れ混乱を招いた。こういった信憑性の低い、根拠のない情報は、震災時には特に混乱を招く恐れがあるため、信憑性の低い情報を特定する技術が必要である。   While there is a good aspect in terms of communication at the time of an earthquake disaster utilizing Twitter, there is also a bad aspect that causes inconvenience by flowing uncertain or false information using the characteristics that information is easy to propagate. For example, immediately after the Great East Japan Earthquake, oil factories exploded and radioactive rain fell, celebrity deaths due to the earthquake, criticism of policies, political parties, administrations, etc. . Such low-credibility, unfounded information can be particularly confusing during an earthquake, so a technique to identify low-credibility information is required.

非特許文献1ではツイートにツイートを投稿したユーザの特徴(投稿したツイート数、Friend数、フォロワー数)、投稿したツイートの特徴(文字数、URLを含むか、ハッシュタグを含むか)等の情報から機械学習へのインプットである特徴量を生成し、機械学習を行うことでモデルを生成した。作成したモデルを利用し、ツイートの特徴量を抽出し、モデルへ入力することで、ツイート毎に信用度をスコアとして出すことを可能とした。   In Non-Patent Document 1, from the information such as the characteristics of the user who posted the tweet to the tweet (the number of tweets posted, the number of friends, the number of followers), the characteristics of the posted tweet (including the number of characters, URL, or hash tag) A feature was generated as an input to machine learning, and a model was generated by machine learning. Using the created model, the feature amount of the tweet is extracted and input to the model, so that the credibility can be scored for each tweet.

また特許文献1ではWebページに含まれる一つまたは複数のコメントを単一コメントに分割し、それぞれのコメントが指定された(例えばある会社の製品名等の)キーワードに対して風評表現を行っているコメントを抽出する技術について記載している。コメントに含まれる文字を風評表現辞書とテキストマッチすることで風評表現の有無を特定している。風評表現を行っているコメント一覧を生成することでそのキーワードに対してどういった風評表現コメントがあるか閲覧することが可能である。特許文献2では特許文献1と同様の処理を行うが、時間単位で風評表現を行っているコメント数を集約することで、指定されたキーワードに対して、時間毎に風評表現がどの程度行われているか閲覧することが可能である。   Further, in Patent Document 1, one or more comments included in a Web page are divided into single comments, and a reputation expression is performed on a keyword (for example, a product name of a company) in which each comment is designated. It describes the technology for extracting comments. The presence or absence of reputation expression is specified by text matching the character contained in the comment with the reputation expression dictionary. By generating a list of comments that express reputation, it is possible to view what comments are commented on that keyword. In Patent Document 2, the same processing as Patent Document 1 is performed, but by collecting the number of comments in which reputation expression is performed in units of time, how much reputation expression is performed per hour for the specified keyword. It is possible to browse.

特開2004−70405号公報JP 2004-70405 A 特開2005−63242号公報JP 2005-63242 A

C. Carlos, M. Marcelo,P.Barbara , "Information Credibility on Twitter", WWW 2011C. Carlos, M. Marcelo, P.Barbara, "Information Credibility on Twitter", WWW 2011

しかしながら、非特許文献1、特許文献1及び特許文献2に記載される技術には以下のような問題がある。   However, the techniques described in Non-Patent Document 1, Patent Document 1, and Patent Document 2 have the following problems.

これらの技術における処理は主に単一コメント毎に行われるため抽出精度が低い。特許文献1及び特許文献2では処理がコメント単位の風評表現辞書とのテキストマッチで行っているため風評表現しているコメントの情報抽出精度に問題がある。例えば風評表現辞書に登録されていないワードを利用し風評表現を行っているコメントを抽出する事は可能でない。テキストマッチからの風評表現抽出には限界がある。マイクロブログは数十文字から百数十文字といった短い単位の文章に対して特許文献1の技術を応用する場合、風評を行っているか判断するには文字数を考慮すると情報量が少なすぎる。非特許文献1では、過去のユーザの投稿したツイート数、Friend数、フォロワー数といった統計的なユーザの情報も用いているが他ユーザがツイートに対してどのようなコメントを述べているか解析は行っていない。そのため信憑性の解析は主に単一ツイート単位である。ユーザの反応を利用していないため単一コメントによる処理では精度よく風評表現を含むコメントを特定できない。   Since the processing in these techniques is mainly performed for each single comment, the extraction accuracy is low. In Patent Document 1 and Patent Document 2, since processing is performed by text matching with a comment expression dictionary in comment units, there is a problem in the information extraction accuracy of comments expressed in comments. For example, it is not possible to extract a comment expressing a reputation expression using a word not registered in the reputation expression dictionary. There is a limit in extracting reputational expressions from text matches. In the microblog, when applying the technique of Patent Document 1 to a short unit of text such as several tens to hundreds of characters, the amount of information is too small in order to determine whether or not the reputation is performed. In Non-Patent Document 1, statistical user information such as the number of tweets posted by past users, the number of friends, and the number of followers is also used. Not. Therefore, the analysis of credibility is mainly a single tweet unit. Since the user's reaction is not used, it is not possible to accurately specify a comment including a reputation expression by processing using a single comment.

本発明は、上記の問題点を鑑みてなされたものであり、文章サイズは限定しないが、特に上述したミニブログ等に投稿されるドキュメント(上述したコメントやツイートを含む)の信憑性をより適切に判断することができる信憑性解析装置及び信憑性解析方法を提供することを目的とする。   The present invention has been made in view of the above problems, and the sentence size is not limited. In particular, the credibility of documents (including the comments and tweets described above) posted on the miniblog described above is more appropriate. It is an object of the present invention to provide a credibility analysis apparatus and a credibility analysis method that can be determined in a simple manner.

上記の目的を達成するために、本発明に係る信憑性解析装置は、ドキュメントの信憑性を解析する信憑性解析装置であって、複数のドキュメントを格納するドキュメント格納部と、ドキュメント格納部によって格納された複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定する参照関係特定手段と、参照関係特定手段によって特定された参照関係によって示される参照元のドキュメントに対して、参照先のドキュメントの信憑性に係る特定操作が行われていることを検出する特定操作検出手段と、特定操作検出手段によって検出された特定操作が行われている参照元のドキュメントの数である第1の数を参照先のドキュメント毎に算出する算出手段と、算出手段によって算出された第1の数から参照先のドキュメントの信憑性を判断する信憑性判断手段と、信憑性判断手段による判断結果を示す情報を出力する出力手段と、を備える。   In order to achieve the above object, a credibility analysis apparatus according to the present invention is a credibility analysis apparatus that analyzes the credibility of a document, and is stored by a document storage unit that stores a plurality of documents and a document storage unit. A reference relationship specifying unit for specifying a reference relationship indicating that the reference source document is generated by referring to the reference destination document, and the reference relationship specified by the reference relationship specifying unit Specific operation detecting means for detecting that a specific operation related to the authenticity of the referenced document is performed, and a specific operation detected by the specific operation detecting means. Calculating means for calculating a first number, which is the number of reference source documents, for each reference destination document; It comprises a credibility determination means for determining the authenticity of the referenced document from a first number which is calculated by the means and output means for outputting information indicating a result of determination by the authenticity determination means, a.

本発明に係る信憑性解析装置では、複数のドキュメント間の参照関係と、参照元のドキュメントに対する参照先のドキュメントの信憑性に係る特定操作の数とに基づいて信憑性が判断される。従って、参照元のドキュメントが、参照先のドキュメントに応じてどのように作成されたか、あるいは扱われたか等に基づいて参照先のドキュメントの信憑性が判断される。即ち、参照元のドキュメントを作成したユーザの、参照先のドキュメントに対する反応が反映されて、参照先のドキュメントの信憑性が判断される。従って、本発明に係る信憑性解析装置によれば、ドキュメントの信憑性をより適切に判断することができる。   In the credibility analysis apparatus according to the present invention, the credibility is determined based on the reference relationship between a plurality of documents and the number of specific operations related to the credibility of the reference destination document with respect to the reference source document. Therefore, the credibility of the reference destination document is determined based on how the reference source document was created or handled according to the reference destination document. That is, the credibility of the reference destination document is determined by reflecting the reaction of the user who created the reference source document to the reference destination document. Therefore, according to the credibility analysis apparatus according to the present invention, it is possible to more appropriately determine the credibility of the document.

算出手段は、参照先のドキュメントに対する参照元のドキュメントの数である第2の数を参照先のドキュメント毎に算出し、信憑性判断手段は、第1の数及び第2の数から参照先のドキュメントの信憑性を判断する、こととすることができる。この構成によれば、参照先のドキュメント毎の参照元のドキュメントの数を考慮して信憑性を判断することができるので、ドキュメントの信憑性を更に適切に判断することができる。   The calculation means calculates a second number, which is the number of reference source documents with respect to the reference destination document, for each reference destination document, and the credibility determination means calculates the reference destination from the first number and the second number. Judging the authenticity of the document. According to this configuration, since the credibility can be determined in consideration of the number of reference source documents for each reference document, it is possible to more appropriately determine the credibility of the document.

参照関係は、参照元のドキュメントが参照先のドキュメントの引用又は返信である関係の少なくとも何れかであることとすることができる。また、参照元のドキュメントは、参照先のドキュメントを加工することなく引用したもの、及び参照先のドキュメントを加工することなく引用した以外で参照先のドキュメントと参照関係を有するものの少なくとも何れかであることとすることができる。これらの構成によれば、適切かつ確実にドキュメント間の参照関係を把握することができ、本発明を適切かつ確実に実施することができる。   The reference relationship may be at least one of a relationship in which the reference source document is a citation or a reply of the reference destination document. Further, the reference source document is at least one of a reference document that is cited without processing, and a reference document other than the reference document that is cited without processing. Can be. According to these configurations, the reference relationship between documents can be grasped appropriately and reliably, and the present invention can be implemented appropriately and reliably.

参照先のドキュメントの信憑性に係る特定操作は、参照元のドキュメントを削除することを含むこととすることができる。これらの構成によれば、適切かつ確実に参照元のドキュメントに対する特定操作を把握することができ、本発明を適切かつ確実に実施することができる。   The specific operation related to the authenticity of the reference destination document may include deleting the reference source document. According to these configurations, it is possible to grasp a specific operation for a reference source document appropriately and reliably, and the present invention can be implemented appropriately and reliably.

参照先のドキュメントの信憑性に係る特定操作は、参照元のドキュメントが参照先のドキュメントの内容を訂正するものとして生成されていることを含むこととすることができる。より具体的には、特定操作検出手段は、訂正表現を示す情報を予め記憶しておき、参照元のドキュメントに当該訂正表現が含まれているか否かを判断することによって、当該参照元のドキュメントが参照先のドキュメントの内容を訂正するものとして生成されていることを検出することとすることができる。これら構成によれば、適切かつ確実に参照元のドキュメントに対する特定操作を把握することができ、本発明を適切かつ確実に実施することができる。   The specific operation related to the authenticity of the reference destination document may include that the reference source document is generated as a correction of the content of the reference destination document. More specifically, the specific operation detection unit stores information indicating the corrected expression in advance, and determines whether the corrected expression is included in the reference source document, thereby determining the reference source document. Can be detected as correcting the content of the document to be referred to. According to these configurations, it is possible to grasp the specific operation for the reference source document appropriately and reliably, and the present invention can be implemented appropriately and reliably.

特定操作検出手段は、参照先のドキュメントに訂正表現が含まれているか否かを判断して、当該訂正表現が含まれていると判断した場合には、参照元のドキュメントが当該参照先のドキュメントの内容を訂正するものとして生成されているものとして検出しないこととすることができる。この構成によれば、参照元のドキュメントが参照先のドキュメントの内容を訂正するものであるかを適切に判断することができ、本発明をより適切に実施することができる。   The specific operation detection means determines whether or not the reference document includes a corrected expression. If the specific operation detection unit determines that the corrected expression is included, the reference source document is the reference document. It is possible not to detect that the content is generated as a correction of the content of. According to this configuration, it is possible to appropriately determine whether the reference source document corrects the content of the reference destination document, and the present invention can be more appropriately implemented.

信憑性判断手段は、信憑性が低いと判断したドキュメントに含まれる別のデータへのリンクを示すリンク情報を抽出して、当該リンク情報の少なくとも一部をドキュメントが含んでいるか否かを判断することによってもドキュメントの信憑性を判断することとすることができる。また、信憑性判断手段は、抽出したリンク情報のドメインをドキュメントが含んでいるか否かを判断することによってもドキュメントの信憑性を判断することとすることができる。これらの構成によれば、一旦信憑性が低いと判断されたドキュメントの情報を用いて、効率的にドキュメントの信憑性を判断することができる。   The credibility determination means extracts link information indicating a link to another data included in the document determined to have low credibility, and determines whether or not the document includes at least a part of the link information. It is also possible to determine the authenticity of the document. Further, the credibility determination means can determine the credibility of the document by determining whether or not the document includes the domain of the extracted link information. According to these configurations, it is possible to efficiently determine the credibility of a document using the information of the document once determined to have low credibility.

参照関係特定手段は、ドキュメントのテキスト同士を比較して、当該テキスト同士の一致に基づいて参照関係を特定することとすることができる。この構成によれば、ドキュメント間の参照関係を適切かつ確実に把握することができ、本発明を適切かつ確実に実施することができる。   The reference relationship specifying means can compare the texts of the documents and specify the reference relationship based on the match between the texts. According to this configuration, the reference relationship between documents can be grasped appropriately and reliably, and the present invention can be implemented appropriately and reliably.

参照関係特定手段は、参照元のドキュメントに参照先のドキュメントを示す参照関係情報が付加されているかを判断することによって参照関係を特定すると共に、当該参照関係情報によって参照関係があると特定された参照先のドキュメントに対してのみ、他のドキュメントとのテキスト同士の比較を行うこととすることができる。この構成によれば、信憑性を判断するドキュメントを絞り込むことができ、効率的な処理が可能となる。   The reference relationship specifying unit specifies the reference relationship by determining whether or not the reference relationship information indicating the reference destination document is added to the reference source document, and the reference relationship information is specified as having the reference relationship. It is possible to compare texts with other documents only for the referenced document. According to this configuration, documents for which credibility is determined can be narrowed down, and efficient processing becomes possible.

ドキュメントには、時刻が対応付けられており、参照関係特定手段は、参照関係の特定をドキュメントに対応付けられた時刻に応じて行う、こととすることができる。この構成によれば、時間帯毎のドキュメントの信憑性の判断を行うことができ、また、効率的な処理が可能となる。   The document is associated with a time, and the reference relationship specifying unit can specify the reference relationship according to the time associated with the document. According to this configuration, it is possible to determine the authenticity of the document for each time zone, and it is possible to perform efficient processing.

ところで、本発明は、上記のように信憑性解析装置の発明として記述できる他に、以下のように信憑性解析方法の発明としても記述することができる。これはカテゴリ等が異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。   By the way, the present invention can be described as an invention of a credibility analysis apparatus as described above, and can also be described as an invention of a credibility analysis method as follows. This is substantially the same invention only in different categories and the like, and has the same operations and effects.

即ち、本発明に係る信憑性解析方法は、ドキュメントの信憑性を解析する、複数のドキュメントを格納するドキュメント格納部を備える信憑性解析装置による信憑性解析方法であって、ドキュメント格納部によって格納された複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定する参照関係特定ステップと、参照関係特定ステップにおいて特定された参照関係によって示される参照元のドキュメントに対して、参照先のドキュメントの信憑性に係る特定操作が行われていることを検出する特定操作検出ステップと、特定操作検出ステップにおいて検出された特定操作が行われている参照元のドキュメントの数である第1の数を参照先のドキュメント毎に算出する算出ステップと、算出ステップにおいて算出された第1の数から参照先のドキュメントの信憑性を判断する信憑性判断ステップと、信憑性判断ステップにおける判断結果を示す情報を出力する出力ステップと、を含む。   In other words, a credibility analysis method according to the present invention is a credibility analysis method by a credibility analysis apparatus that includes a document storage unit that stores a plurality of documents, and that is stored by a document storage unit. In a plurality of documents, a reference relationship specifying step for specifying a reference relationship indicating that a reference source document is generated by referring to a reference destination document, and a reference relationship specified in the reference relationship specifying step A specific operation detection step for detecting that a specific operation related to the authenticity of the reference destination document is performed on the indicated reference source document, and the specific operation detected in the specific operation detection step are performed. Calculate the first number, which is the number of referenced documents, for each referenced document A calculating step for determining, a credibility determining step for determining the credibility of the reference document from the first number calculated in the calculating step, and an output step for outputting information indicating a determination result in the credibility determining step. Including.

本発明によれば、参照元のドキュメントを作成したユーザの、参照先のドキュメントに対する信用が反映されて、参照先のドキュメントの信憑性が判断されるため、ドキュメントの信憑性をより適切に判断することができる。   According to the present invention, since the credibility of the reference destination document is determined by reflecting the trust of the user who created the reference source document with respect to the reference destination document, the credibility of the document is more appropriately determined. be able to.

本発明の実施形態に係る信憑性解析装置の機能構成を示す図である。It is a figure which shows the function structure of the reliability analysis apparatus which concerns on embodiment of this invention. 分類データ格納部の削除データテーブルに格納されるデータを示す図である。It is a figure which shows the data stored in the deletion data table of a classification data storage part. 分類データ格納部の拡散データテーブルに格納されるデータを示す図である。It is a figure which shows the data stored in the spreading | diffusion data table of a classification data storage part. 分類データ格納部のドキュメントデータテーブルに格納されるデータを示す図である。It is a figure which shows the data stored in the document data table of a classification data storage part. 訂正表現格納部に格納されるデータを示す図である。It is a figure which shows the data stored in the correction expression storage part. ブラックリストURL格納部に格納されるデータを示す図である。It is a figure which shows the data stored in a black list URL storage part. デマ格納部に格納されるデータを示す図である。It is a figure which shows the data stored in a hoax storage part. 本発明の実施形態に係る信憑性解析装置のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the reliability analysis apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る信憑性解析装置で実行される処理(信憑性解析方法)を示すフローチャートである。It is a flowchart which shows the process (credibility analysis method) performed with the credibility analysis apparatus which concerns on embodiment of this invention. 本発明の実施形態に係る信憑性解析装置で実行される処理(信憑性解析方法)のうちドキュメントの分類処理を示すフローチャートである。It is a flowchart which shows a document classification | category process among the processes (credibility analysis method) performed with the credibility analysis apparatus which concerns on embodiment of this invention.

以下、図面と共に本発明に係る信憑性解析装置及び信憑性解析方法の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。   Hereinafter, embodiments of a credibility analysis apparatus and a credibility analysis method according to the present invention will be described in detail with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted.

図1に本実施形態に係る信憑性解析装置1を示す。信憑性解析装置1は、ドキュメントの信憑性を解析する装置である。具体的には、解析対象となる1つ以上のドキュメントについて信憑性が低いか否か(ドキュメントの内容が信用に値しないものであるか否か)を判断する装置である。解析対象となるドキュメントは、例えば、ユーザによって投稿されてWeb上で公開されるミニブログやマイクロブログで公開されるドキュメントである。本実施形態では、説明を簡潔にするため、具体的な例として適宜マイクロブログの代表であるTwitterを用いる。なお、本実施形態では、解析対象をドキュメントと呼ぶが、ミニブログやマイクロブログのサービスによってはツイートあるいはコメント等とも呼ばれる。なお、解析対象のドキュメントは、必ずしもWeb上で公開されるドキュメントである必要は無い。   FIG. 1 shows a credibility analyzer 1 according to the present embodiment. The authenticity analysis device 1 is a device that analyzes the authenticity of a document. Specifically, it is an apparatus that determines whether or not the credibility of one or more documents to be analyzed is low (whether or not the content of the document is not trustworthy). The document to be analyzed is, for example, a document posted by a user and published on a miniblog or microblog posted on the Web. In this embodiment, in order to simplify the description, Twitter, which is a representative of a microblog, is used as a specific example. In this embodiment, the analysis target is referred to as a document, but depending on the miniblog or microblog service, it is also referred to as a tweet or a comment. The analysis target document does not necessarily need to be a document published on the Web.

Twitterのようなマイクロブログの場合、ドキュメントの引用や返信を行うリツイートや非公式リツイートによって、あるドキュメントが別のドキュメントを参照して生成される参照関係が形成される。本実施形態では、この参照関係を利用してドキュメントの信憑性を解析する。   In the case of a microblog such as Twitter, a referential relationship in which one document is generated by referring to another document is formed by retweet or informal retweet for quoting or replying to a document. In the present embodiment, the authenticity of the document is analyzed using this reference relationship.

Twitterのようなマイクロブログにおいては、上記のリツイートや非公式リツイートによる情報の拡散が可能である。しかしながら、情報の拡散が容易であるため、デマのツイート等の信憑性の低いツイートが容易に拡散されえることがあり、東日本大震災直後には実際にそのようなツイートが拡散された。そのようなツイートに対してデマであると呼び掛ける非公式リツイートや、デマ情報を含むリツイートしてしまったユーザによる自身のリツイートが削除される傾向が見られた。本実施形態では、このようなドキュメントの内容を訂正するドキュメントやドキュメントの削除を、参照元のドキュメントに対して参照先のドキュメントの信憑性に係る特定操作がなされているものとしてドキュメントの信憑性の解析に用いる。なお、特定操作としては、上記の訂正及び削除の何れか一方のみが用いられてもよい。   In microblogs like Twitter, it is possible to spread information by retweets and informal retweets. However, due to the easy diffusion of information, tweets with low credibility such as hoax tweets could be easily spread, and such tweets were actually spread immediately after the Great East Japan Earthquake. There was a tendency for unofficial retweets calling such tweets to be hoaxes, and for their retweets by users who retweeted to include hoax information. In the present embodiment, the document that corrects the content of such a document or the deletion of the document is assumed to be that the specific operation related to the authenticity of the reference destination document is performed on the reference source document. Used for analysis. Note that only one of the correction and deletion described above may be used as the specific operation.

本実施形態においては、参照関係は、参照元のドキュメント(後に投稿されたドキュメント)が参照先のドキュメント(先に投稿されたドキュメント)の引用又は返信である関係の少なくとも何れかである。また、参照元のドキュメントは、参照先のドキュメントを加工することなく引用したもの(Twitterのける公式リツイート相当、あるいはFacebookにおけるLike相当のものである)、及びそれ以外で参照先のドキュメントと参照関係を有するものの少なくとも何れかである。   In the present embodiment, the reference relationship is at least one of a relationship in which a reference source document (a document posted later) is a citation or a reply of a reference destination document (a document posted earlier). In addition, the reference document is a reference document that is quoted without being processed (equivalent to the official retweet in Twitter, or equivalent to Facebook in Facebook), and other than the reference document and the reference relationship It is at least any one of having.

加工することなく引用されたドキュメント、即ち、拡散されたドキュメントは、拡散される数が多いほどユーザが有益と考えているドキュメントであると考えられる。また、ユーザが自分の主張などのコメントを載せたドキュメント、即ち、共有されたドキュメントは、共有される数が多いほどユーザが有益と考えているドキュメントであると考えられる。   Documents that are quoted without processing, that is, spread documents, are considered to be documents that the user finds more useful as the number of spreads increases. In addition, a document on which a comment is posted by the user such as his / her claim, that is, a shared document is considered to be a document that the user thinks is more useful as the number of shared documents increases.

図1に示すように、信憑性解析装置1は、ドキュメントの信憑性の解析処理を行う解析サーバ10と、それぞれ解析に用いるデータを保持するデータベースであるドキュメント格納部20と、分類データ格納部30と、訂正表現格納部40と、ブラックリストURL格納部50と、デマ格納部60とを備えて構成される。信憑性解析装置1は、解析対象となるドキュメントを取得(受信)できるように当該ドキュメントを出力する装置(例えば、マイクロブログのサービスを提供するサーバ)とインターネット等のネットワークを介して接続されている。以下では、まず、各データ格納部20〜60に格納されるデータを説明する。   As shown in FIG. 1, the credibility analysis apparatus 1 includes an analysis server 10 that performs document credibility analysis processing, a document storage unit 20 that is a database that holds data used for analysis, and a classification data storage unit 30. A corrected expression storage unit 40, a blacklist URL storage unit 50, and a hoax storage unit 60. The credibility analysis apparatus 1 is connected to a device (for example, a server providing a microblog service) that outputs a document to be analyzed (acquired) so as to acquire (receive) the document to be analyzed via a network such as the Internet. . Below, the data stored in each data storage part 20-60 are demonstrated first.

ドキュメント格納部20は、予め、信憑性の解析対象となる複数のドキュメントを格納する。ドキュメント格納部20に格納されるドキュメントの取得は、例えば、解析サーバ10が、インターネット経由でマイクロブログのサービスを提供すると共にドキュメントを保存するサーバに対してドキュメントの取得を要求して取得(受信)することとしてもよいし、当該サーバからストリーミングでドキュメントのデータを受信することとしてもよい。ドキュメントは、例えば、ユーザによって生成されたコメント単位のものである。Twitterにおける各ドキュメントは、各ツイートデータ相当のものである。   The document storage unit 20 stores a plurality of documents to be analyzed for credibility in advance. Acquisition of a document stored in the document storage unit 20 is acquired (reception), for example, when the analysis server 10 provides a microblog service via the Internet and requests a server that stores the document to acquire the document. It is also possible to receive document data by streaming from the server. The document is, for example, a comment unit generated by the user. Each document in Twitter corresponds to each tweet data.

ドキュメント格納部20に格納される各ドキュメントのデータは、ドキュメントの内容を示すテキストのデータを含む。このテキストは、例えば、ユーザによって作成された投稿の内容を示すものである。また、ドキュメントのデータには一意に特定するIDが付与されている。このIDは、ドキュメントの取得時に予め付与されていてもよいし、ドキュメントが取得された時点で解析サーバ10によって一意なIDを付与されてもよい。また、ドキュメントのデータには時刻を示すデータが付与されていてもよい。この時刻は、例えば、ドキュメントがユーザによって、ミニブログ等のサーバに投稿(あるいは生成)された時刻である。   The data of each document stored in the document storage unit 20 includes text data indicating the content of the document. This text indicates, for example, the content of a post created by the user. In addition, an ID that uniquely identifies the document data is assigned. This ID may be given in advance when the document is acquired, or a unique ID may be given by the analysis server 10 when the document is acquired. Further, data indicating the time may be added to the document data. This time is, for example, the time when a document is posted (or generated) to a server such as a miniblog by a user.

また、ドキュメントのデータには、参照先のドキュメントを示す参照関係情報、例えば、参照先のドキュメントのIDを示す情報が付与されていてもよい。上述したように、例えば、ドキュメントがリツイートに係るものである場合には、リツイート元(リツイートの参照先)となるツイートを特定する情報が付与されていてもよい。更に、参照先のドキュメントを示す情報には、この参照がどのように行われているかを示す情報、例えば、参照元のドキュメントが加工されずに引用されて生成された拡散データであることを示すフラグが付与されていてもよい。参照先のドキュメントのIDを示す情報、及び拡散データであることを示すフラグは、例えば、参照元のドキュメントが作成、あるいは投稿されたときに当該ドキュメントに付与される。   The document data may be provided with reference relationship information indicating the reference destination document, for example, information indicating the ID of the reference destination document. As described above, for example, when a document relates to retweets, information specifying a tweet that is a retweet source (reference destination of retweets) may be given. Further, the information indicating the reference document indicates information indicating how the reference is performed, for example, the spread data generated by quoting the reference document without being processed. A flag may be given. The information indicating the ID of the reference destination document and the flag indicating the spread data are given to the document when the reference source document is created or posted, for example.

また、削除されたドキュメントのデータには、削除されたことが把握できるように、当該ドキュメントが削除されたものであることを示す削除フラグが付与されていてもよい。この削除は、マイクロブログのサービス等においてユーザが一旦投稿したものを削除することである。また、削除フラグが付与されている場合には、更に削除された時刻を示す情報が付与されていてもよい。削除されたドキュメントのデータについても、マイクロブログのサービスを提供するサーバから、例えば、TwitterのAPIを通して取得可能である。削除フラグは、ドキュメントが削除されたときに付与される。なお、ドキュメントが削除されたことを示すデータ(削除フラグのデータ)は、削除されたドキュメントのテキストとは独立に取得されてもよい。   The deleted document data may be provided with a deletion flag indicating that the document has been deleted so that it can be determined that the document has been deleted. This deletion is to delete what the user has once posted in a microblog service or the like. Moreover, when the deletion flag is given, the information which shows the time deleted further may be given. The deleted document data can also be acquired from a server that provides a microblog service, for example, via Twitter's API. The deletion flag is given when a document is deleted. Note that the data indicating that the document has been deleted (deletion flag data) may be acquired independently of the text of the deleted document.

分類データ格納部30は、ドキュメント格納部20に格納されたドキュメントを分類して格納する。この分類は、後述するように解析サーバ10によって行われ、各データは、解析サーバ10によって分類データ格納部30に格納される。分類データ格納部30は、削除データテーブル31と、拡散データテーブル32と、ドキュメントデータテーブル33とを備える。   The classification data storage unit 30 classifies and stores the documents stored in the document storage unit 20. As will be described later, this classification is performed by the analysis server 10, and each data is stored in the classification data storage unit 30 by the analysis server 10. The classification data storage unit 30 includes a deletion data table 31, a diffusion data table 32, and a document data table 33.

削除データテーブル31は、ドキュメント格納部20に格納されたドキュメントのデータのうち、削除されたドキュメントのデータが格納される。図2に示すように、削除データテーブル31には、削除されたドキュメントのIDと、削除された時刻である削除日時とが対応付けて格納される。   The deleted data table 31 stores deleted document data among the document data stored in the document storage unit 20. As shown in FIG. 2, the deletion data table 31 stores the ID of the deleted document and the deletion date and time corresponding to the deletion time in association with each other.

拡散データテーブル32は、ドキュメント格納部20に格納されたドキュメントのデータのうち、別のドキュメントを拡散した(別のドキュメントを加工せずに引用した)ドキュメントのデータが格納される。このようなドキュメント(拡散データ)は、Twitterのける公式リツイート相当のものであり、FacebookにおけるLike相当のものである。図3に示すように、拡散データテーブル32には、拡散しているドキュメント(参照元のドキュメント)のIDと、投稿された時刻である拡散された日時と、参照先のドキュメントのIDとが対応付けられて格納される。   The diffusion data table 32 stores data of a document obtained by diffusing another document (quoted without processing another document) among the document data stored in the document storage unit 20. Such a document (diffusion data) is equivalent to official retweet in Twitter, and is equivalent to Like in Facebook. As shown in FIG. 3, in the spread data table 32, the ID of the spread document (reference source document), the spread date and time that is the posting time, and the ID of the reference destination document correspond to each other. Attached and stored.

ドキュメントデータテーブル33は、ドキュメント格納部20に格納されたドキュメントのデータのうち、拡散データ(参照元のドキュメント)以外のドキュメントのデータが格納される。また、ドキュメントデータテーブル33には、各ドキュメントに訂正表現が含まれるか否かを示す情報である訂正表現フラグが付与される。図4に示すように、ドキュメントデータテーブル33には、投稿されたドキュメントのIDと、投稿された時刻である投稿日時と、ドキュメントの内容である投稿テキストと、訂正表現フラグとが対応付けられて格納される。訂正表現フラグは、値が“1”である場合にドキュメントに訂正表現が含まれることを示し、値が“0”である場合にドキュメントに訂正表現が含まれないことを示している。但し、訂正表現フラグは必ずしも上記のフォーマットである必要はない。上述した各種のテーブル31〜33は、上述した以外の項目のデータも含んでいてもよい。また、テーブルというフォーマット以外のフォーマットでデータを格納してもよい。   The document data table 33 stores document data other than the spread data (reference source document) among the document data stored in the document storage unit 20. The document data table 33 is given a corrected expression flag that is information indicating whether or not each document includes a corrected expression. As shown in FIG. 4, the document data table 33 is associated with an ID of a posted document, a posting date and time that is the posting time, a posted text that is the content of the document, and a correction expression flag. Stored. The corrected expression flag indicates that the document includes a corrected expression when the value is “1”, and indicates that the document does not include a corrected expression when the value is “0”. However, the correction expression flag is not necessarily in the above format. The various tables 31 to 33 described above may include data of items other than those described above. In addition, data may be stored in a format other than a format called a table.

また、上記の情報は、時刻でデータを細分化しておくこととしてもよい。これにより時間帯毎にデータの処理を行う場合に必要なデータのみを参照することができ処理時間にかかるコストの短縮化が可能になる。   The above information may be obtained by subdividing data by time. As a result, it is possible to refer to only the data necessary when processing the data for each time period, and it is possible to reduce the cost for the processing time.

訂正表現格納部40は、予め訂正表現を示す情報を格納(記憶)する。訂正表現とは、ドキュメントの内容が誤っていることを示す表現である。具体的には、図5に示すように「デマ」、「騙されるな」等のキーワード(テキスト)が格納されている。訂正表現格納部40に格納される訂正表現を示す情報は、予め信憑性解析装置1の管理者等によって入力されている。訂正表現を示す情報は、信憑性の判断に用いられる。   The corrected expression storage unit 40 stores (stores) information indicating the corrected expression in advance. The corrected expression is an expression indicating that the content of the document is incorrect. Specifically, as shown in FIG. 5, keywords (text) such as “doma” and “don't be fooled” are stored. Information indicating the corrected expression stored in the corrected expression storage unit 40 is input in advance by an administrator of the credibility analysis apparatus 1 or the like. Information indicating the corrected expression is used for determination of authenticity.

ブラックリストURL格納部50は、信憑性が低いドキュメントとされたドキュメントに含まれる別のデータへのリンクを示すリンク情報であるURLを格納する。このURLは、後述するように解析サーバ10によってブラックリストURL格納部50に格納される。このURLは、信憑性の判断(の事前処理)に用いられる。   The blacklist URL storage unit 50 stores a URL that is link information indicating a link to another data included in a document that is a document with low credibility. This URL is stored in the blacklist URL storage unit 50 by the analysis server 10 as will be described later. This URL is used for determination (pre-processing) of authenticity.

ドキュメントに含まれるURLが短縮URLである場合、伸長URLに変換して格納することとしてもよい。具体的には、図6に示すようなURLが格納されている。なお、格納されるURLはパラメータ付きのURL、パラメータを省いたURL、ドメイン、又はURLの一部でもよい。マイクロブログ上では、短縮URLで投稿されることが多いため、格納されるURLは短縮URLでも伸長URLでもよい。   When the URL included in the document is a shortened URL, the URL may be converted into an expanded URL and stored. Specifically, a URL as shown in FIG. 6 is stored. The URL to be stored may be a URL with parameters, a URL without parameters, a domain, or a part of a URL. Since the posting is often performed with a shortened URL on a microblog, the stored URL may be a shortened URL or an expanded URL.

デマ格納部60は、後述するように解析サーバ10によって信憑性が低いドキュメントとされたドキュメントを示す情報を格納する。信憑性が低いドキュメントの情報は、信憑性の判断(の事前処理)に用いられる。図7に示すように、デマ格納部60には、信憑性が低いとされたドキュメントのIDと、当該ドキュメントの内容である投稿テキストと、当該ドキュメントが作成(投稿)された時刻である作成日とが対応付けて格納される。上述したデマ格納部60は、上述した以外の項目のデータも含んでいてもよい。   As described later, the hoax storage unit 60 stores information indicating a document that has been determined to be a document with low reliability by the analysis server 10. Information on a document with low credibility is used for determination (pre-processing) of credibility. As illustrated in FIG. 7, the hoax storage unit 60 includes an ID of a document whose reliability is low, a posted text that is the content of the document, and a creation date that is the time when the document is created (posted). Are stored in association with each other. The hoax storage unit 60 described above may include data of items other than those described above.

引き続いて、解析サーバ10の構成について説明する。解析サーバ10は、分類部11と、事前処理部12と、第2の数算出部13と、第1の数算出部14と、信憑性判断部15と、出力部16とを備えて構成される。なお、解析サーバ10は、上記の構成要素以外にも、ドキュメントのデータを取得してドキュメント格納部20に格納する手段等を備えていてもよい。   Subsequently, the configuration of the analysis server 10 will be described. The analysis server 10 includes a classification unit 11, a preprocessing unit 12, a second number calculation unit 13, a first number calculation unit 14, a credibility determination unit 15, and an output unit 16. The The analysis server 10 may include means for acquiring document data and storing it in the document storage unit 20 in addition to the above-described components.

分類部11は、ドキュメント格納部20に格納された解析対象となるドキュメントを読み出して、分類し分類データ格納部30の各テーブル31〜33に格納する手段である。分類部11は、読み出したドキュメント毎に分類処理を行う。まず、分類部11は、ドキュメントが削除されたものか否かを確認する。具体的には例えば、この確認はドキュメントのデータに削除フラグが付与されたものかどうかを判断することによって行われる。分類部11は、ドキュメントが削除されたものであると判断すると、そのドキュメントのIDと、削除された時刻である削除日時とをドキュメントのデータから取得して、それらを対応付けて分類データ格納部30の削除データテーブル31に格納する。   The classification unit 11 is means for reading out the document to be analyzed stored in the document storage unit 20, classifying it, and storing it in the respective tables 31 to 33 of the classification data storage unit 30. The classification unit 11 performs a classification process for each read document. First, the classification unit 11 confirms whether or not a document has been deleted. Specifically, for example, this confirmation is performed by determining whether or not a deletion flag is given to document data. If the classification unit 11 determines that the document has been deleted, the classification unit 11 acquires the document ID and the deletion date and time that is the deletion time from the document data, and associates them with the classification data storage unit. 30 stored in the deletion data table 31.

また、分類部11は、ドキュメントが、参照先のドキュメントを拡散した拡散データであるか否かを確認する。具体的には例えば、この確認はドキュメントのデータに拡散データであることを示すフラグが付与されたものかどうかを判断することによって行われる。分類部11は、ドキュメントが拡散データであると判断すると、そのドキュメントのIDと、投稿された時刻である拡散された日時と、参照先のドキュメントのIDとをドキュメントのデータから取得して、それらを対応付けて分類データ格納部30の拡散データテーブル32に格納する。   Further, the classification unit 11 confirms whether or not the document is spread data obtained by spreading the reference destination document. Specifically, for example, this confirmation is performed by determining whether a flag indicating that the data is spread data is added to the document data. If the classification unit 11 determines that the document is spread data, the classification unit 11 acquires the ID of the document, the spread date and time that is the posting time, and the ID of the reference document from the document data, and Are stored in the diffusion data table 32 of the classification data storage unit 30 in association with each other.

なお、ドキュメントが拡散データであるかの判断は、ドキュメントのテキスト同士を比較してそれらが完全一致するか否かによって判断することとしてもよい(投稿時刻が早いほうが参照先のドキュメントであり、投稿時刻が遅いほうが参照元のドキュメントである)。   Note that the determination of whether a document is spread data may be made by comparing the texts of the documents and determining whether or not they completely match (the document with the earlier submission time is the reference document, The document with the later time is the source document).

分類部11は、拡散データでないと判断したドキュメントについては、訂正表現格納部40に格納されている訂正表現を示す情報を取得して、当該ドキュメントにそれらの訂正表現が含まれているか否かを判断する。具体的には、ドキュメントのテキストと、訂正表現格納部40に格納されている情報に係る各訂正表現とのテキストマッチをかける。   For a document that is determined not to be spread data, the classification unit 11 acquires information indicating the corrected expression stored in the corrected expression storage unit 40, and determines whether or not those corrected expressions are included in the document. to decide. Specifically, a text match is performed between the text of the document and each corrected expression related to information stored in the corrected expression storage unit 40.

分類部11は、拡散データでないと判断したドキュメントのIDと、投稿された時刻である投稿日時と、ドキュメントの内容である投稿テキストとをドキュメントに含まれるデータから取得して、それらを対応付けて分類データ格納部30のドキュメントデータテーブル33に格納する。また、訂正表現を含むか否かの判断結果に応じた訂正表現フラグ(ドキュメントに訂正表現を含めば“1”、含まなければ“0”)も対応付けてドキュメントデータテーブル33に格納する。   The classification unit 11 acquires the ID of the document that is determined not to be spread data, the posting date and time that is the posting time, and the posting text that is the content of the document from the data included in the document, and associates them with each other The data is stored in the document data table 33 of the classification data storage unit 30. Further, a correction expression flag (“1” if the document includes the corrected expression, “0” if the document does not include the correction expression) corresponding to the determination result of whether or not the correction expression is included is also stored in the document data table 33 in association with it.

上記のように、分類部11は、ドキュメントが拡散データであることを特定しており、ドキュメント格納部20によって格納された複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定する参照関係特定手段(の一機能)である。   As described above, the classification unit 11 specifies that the document is spread data, and the reference source document is generated by referring to the reference destination document among the plurality of documents stored by the document storage unit 20. This is a reference relationship specifying means (one function) for specifying a reference relationship indicating that the information has been processed.

更に、分類部11は、ドキュメントが削除され、あるいは訂正表現を含む、即ち、別のドキュメント(参照先のドキュメント)の内容を訂正するものとして生成された可能性があることを検出する。即ち、分類部11は、ドキュメントに対して、参照先のドキュメントの信憑性に係る特定操作が行われている(可能性がある)ことを検出する特定操作検出手段(の一機能)である。   Furthermore, the classification unit 11 detects that the document may be deleted or include a corrected expression, that is, may be generated as a document that corrects the content of another document (reference destination document). In other words, the classification unit 11 is a specific operation detection unit (one function) that detects that a specific operation related to the credibility of the reference document is performed (possibly) on the document.

分類部11によるドキュメントの分類は、例えば、ドキュメントの信憑性の解析が行われるタイミングで行われる。このタイミングは、例えば、信憑性解析装置1の管理者の操作をトリガとしたタイミングや、予め設定された(例えば、一定時間毎)タイミングである。   The classification of the document by the classification unit 11 is performed, for example, at the timing when the document authenticity is analyzed. This timing is, for example, a timing triggered by the operation of the administrator of the credibility analyzer 1 or a preset timing (for example, every predetermined time).

分類部11は、ドキュメントの信憑性の解析のための分類(即ち、ドキュメント間の参照関係の特定)を、ドキュメントに対応付けられた時刻に応じて行うこととしてもよい。例えば、予め設定した時間帯毎のドキュメントのみを用いて分類を行うこととしてもよい。即ち、予め設定した時間帯毎のドキュメントのみを用いて、ドキュメントの信憑性の解析が行われてもよい。これによって、信憑性の解析に不要な古いデータに対して、後述するテキストマッチング等の処理が不要になる。   The classification unit 11 may perform classification for analyzing document credibility (that is, specifying a reference relationship between documents) according to the time associated with the documents. For example, classification may be performed using only documents for each preset time period. That is, the document credibility analysis may be performed using only a document for each preset time period. As a result, processing such as text matching, which will be described later, is not required for old data that is not required for credibility analysis.

事前処理部12は、信憑性の解析が不要なドキュメントのフィルタリングを行う手段である。ここでいう不要なドキュメントとは、信憑性判断部15による信憑性の判断を行う必要のないドキュメントである。事前処理部12は、過去に信憑性判断部15によって信憑性が低いと判断されたドキュメントのデータを用いて上記のフィルタリングを行う。上記のフィルタリングで、信憑性の解析が不要とされたドキュメントは、過去に信憑性判断部15によって信憑性が低いと判断されたドキュメントと同様に信憑性が低いものであると判断して、それ以降の解析対象外とする。即ち、事前処理部12は、過去の信憑性判断部15による信憑性の判断を用いて、ドキュメントの信憑性を判断する信憑性判断手段(の一機能)である。   The pre-processing unit 12 is a means for filtering a document that does not require credibility analysis. The unnecessary document referred to here is a document that does not require credibility determination by the credibility determination unit 15. The pre-processing unit 12 performs the filtering described above using document data that has been determined to be low in credibility by the credibility determination unit 15 in the past. A document whose credibility analysis is not required by the above filtering is determined to have a low credibility in the same way as a document whose reliability is determined to be low by the credibility determination unit 15 in the past. It is excluded from the subsequent analysis. That is, the pre-processing unit 12 is a credibility determination unit (one function) that determines the credibility of a document using the credibility determination by the past credibility determination unit 15.

具体的には、事前処理部12は、解析対象となりえるドキュメントのデータとして分類データ格納部30のドキュメントデータテーブル33からドキュメントのデータを取得する。事前処理部12は、デマ格納部60に格納されているドキュメントのデータを取得して、解析対象となりえるドキュメントのデータと照合して、解析対象となりえるドキュメントがデマ格納部60に格納されているドキュメントのデータと一致するか否かの照合を行う。この照合は、ドキュメントID同士、又はテキスト同士で行われる。なお、テキスト同士の比較は、完全一致でなく一部の一致でもよい。あるいは、形態素解析を用いて形態素レベルでの照合が行われてもよい。上記の照合で、解析対象となりえるドキュメントがデマ格納部60に格納されているドキュメントのデータと一致すると判断されると、事前処理部12は、当該解析対象となりえるドキュメントは信憑性が低いものと判断して、信憑性判断部15による信憑性の判断は行われない。   Specifically, the pre-processing unit 12 acquires document data from the document data table 33 of the classification data storage unit 30 as document data that can be analyzed. The pre-processing unit 12 acquires the document data stored in the hoax storage unit 60 and collates it with the data of the document that can be analyzed, and the document that can be analyzed is stored in the hoax storage unit 60. Check whether it matches the document data. This collation is performed between document IDs or between texts. The comparison between texts may be a partial match instead of a complete match. Alternatively, matching at the morpheme level may be performed using morpheme analysis. If it is determined by the above collation that the document that can be analyzed matches the data of the document stored in the hoax storage unit 60, the preprocessing unit 12 determines that the document that can be analyzed has low credibility. Thus, the credibility determination unit 15 does not determine the credibility.

また、事前処理部12は、ブラックリストURL格納部50に格納されているURLのデータを取得して、解析対象となりえるドキュメントのデータと照合して、解析対象となりえるドキュメントが当該URLの少なくとも一部を含んでいるかの判断を行う。上記の判断で、解析対象となりえるドキュメントがブラックリストURL格納部50に格納されているURLを含むと判断されると、事前処理部12は、当該解析対象となりえるドキュメントは信憑性が低いものと判断して、信憑性判断部15による信憑性の判断は行われない。   Further, the pre-processing unit 12 acquires the URL data stored in the blacklist URL storage unit 50 and collates it with the data of the document that can be analyzed, and the document that can be analyzed is at least one of the URLs. It is judged whether the part is included. If it is determined in the above determination that the document that can be analyzed includes the URL stored in the blacklist URL storage unit 50, the preprocessing unit 12 determines that the document that can be analyzed has low credibility. Thus, the credibility determination unit 15 does not determine the credibility.

なお、解析対象となりえるドキュメントがURLの少なくとも一部でなく、URL全体を含む場合に、ドキュメントは信憑性が低いものと判断することとしてもよい。また、解析対象となりえるドキュメントがURLのドメインを含む場合に、ドキュメントは信憑性が低いものと判断することとしてもよい。また、比較対象とするURLは、上述したように短縮URL、及び伸長URLの何れか又は両方であってもよい。   Note that if the document that can be analyzed is not at least a part of the URL but includes the entire URL, the document may be determined to have low credibility. Further, when a document that can be analyzed includes a URL domain, it may be determined that the document has low credibility. Further, as described above, the URL to be compared may be either or both of the shortened URL and the decompressed URL.

事前処理部12は、上述した処理によって、信憑性の判断は行われないとされたドキュメント以外の情報を第2の数算出部13と、第1の数算出部14とに通知する。通知されたドキュメントを対象として信憑性の判断が行われる。信憑性の判断は、後述するように、信憑性の判断から除外されなかった解析対象となるドキュメントのうち参照先のドキュメント(別のドキュメントから参照されているドキュメント)に対して行われ、当該参照先のドキュメントと参照関係にある参照元のドキュメントの情報が用いられて行われる。   The pre-processing unit 12 notifies the second number calculation unit 13 and the first number calculation unit 14 of information other than the document for which the determination of credibility is not performed by the above-described processing. The credibility is determined for the notified document. As will be described later, the determination of authenticity is performed on a reference document (a document referenced from another document) among the documents to be analyzed that are not excluded from the determination of authenticity. This is performed by using information of a reference source document having a reference relationship with the previous document.

第2の数算出部13は、解析対象となる参照先のドキュメントに対する参照元のドキュメントの数である第2の数を参照先のドキュメント毎に算出する算出手段(の一機能)である。図1に示すように第2の数算出部13は、拡散件数算出部13aと、共有件数算出部13bとを備える。   The second number calculation unit 13 is a calculation unit (one function) that calculates, for each reference destination document, a second number that is the number of reference source documents with respect to the reference destination document to be analyzed. As shown in FIG. 1, the second number calculating unit 13 includes a diffusion number calculating unit 13a and a shared number calculating unit 13b.

拡散件数算出部13aは、第2の数として、解析対象となる参照先のドキュメントを加工せずに引用した(参照先のドキュメントを拡散した)参照元のドキュメントの数(拡散件数)を算出する。この算出は、解析対象となる参照先のドキュメントのID単位で、分類データ格納部30の拡散データテーブル32を参照して参照元ドキュメントのIDの数を集計することで行うことができる。拡散件数算出部13aは、算出した拡散件数を解析対象となる参照先のドキュメントのIDに対応付けて信憑性判断部15に出力する。   The diffusion number calculation unit 13a calculates, as the second number, the number of reference sources (the number of diffusions) that is cited without processing the reference destination document to be analyzed (the reference destination document is diffused). . This calculation can be performed by referring to the diffusion data table 32 of the classification data storage unit 30 and counting the number of IDs of the reference source document in units of IDs of the reference destination documents to be analyzed. The diffusion number calculation unit 13a outputs the calculated diffusion number to the credibility determination unit 15 in association with the ID of the reference destination document to be analyzed.

共有件数算出部13bは、第2の数として、解析対象となる参照先のドキュメントを加工せずに引用したもの以外で参照関係を有するドキュメント、具体的には例えば、解析対象となる参照先のドキュメントに対して参照元のユーザ自身のコメントを付与して引用(あるいは返信)したドキュメントの数(共有件数)を算出する。これは、参照先のドキュメントの内容を引用して、かつ自分のコメントを載せたドキュメントの数である。Twitterでいう非公式リツイート相当のものである。   The number-of-shares calculation unit 13b uses, as the second number, a document that has a reference relationship other than what is cited without processing the reference destination document to be analyzed, specifically, for example, the reference destination to be analyzed. The number of documents quoted (or replied) with the comments of the referrer's own user attached to the document is calculated (the number of shared documents). This is the number of documents quoting the contents of the referenced document and posting their own comments. It is equivalent to informal retweets in Twitter.

このような参照関係については、拡散したドキュメントのように分類データ格納部30に参照関係を示す情報が格納されていない。そこで、共有件数算出部13bは、図4に示す分類データ格納部30のドキュメントデータテーブル33のデータを用いて、ドキュメント間の参照関係(繋がり)を抽出する。共有件数算出部13bは、ドキュメントデータテーブル33に含まれる解析対象となる参照先のドキュメントのテキストと、当該参照先のドキュメントより後に投稿された他のドキュメントのテキストとを比較する(照合する)。   For such a reference relationship, information indicating the reference relationship is not stored in the classification data storage unit 30 as in the case of a spread document. Therefore, the shared number calculation unit 13b extracts a reference relationship (connection) between documents using data in the document data table 33 of the classification data storage unit 30 illustrated in FIG. The number-of-shares calculation unit 13b compares (collates) the text of the reference destination document to be analyzed included in the document data table 33 with the text of another document posted after the reference destination document.

例えば、参照先のドキュメントのテキストのうち、先頭の文字から予め定めた文字数(例えば、十文字)が、他のドキュメントのテキストに含まれるかテキストマッチで照合する。図4に示すデータの場合、ID“23450”のドキュメントのテキスト「今日は晴れ」を、ID“89012”のドキュメントのテキストが含むため、ID“89012”のドキュメントは、ID“23450”のドキュメントを引用先のドキュメントとしている(非公式リツイートしている)と判断される。なお、テキストの照合箇所は必ずしも先頭の文字からでなくてもよく、参照関係が判断しえる文字列の一致(テキスト同士の少なくとも一部同士の一致)が判断されればよい。   For example, in a text of a reference destination document, a predetermined number of characters (for example, ten characters) from the first character is included in the text of another document or collated by text matching. In the case of the data shown in FIG. 4, since the text “Today is sunny” of the document with ID “23450” and the text of the document with ID “89012” are included, the document with ID “89012” includes the document with ID “23450”. It is determined that the document is cited (unofficially retweeted). It should be noted that the text collation location does not necessarily have to be from the first character, and it is only necessary to determine the matching of the character strings (the matching of at least some of the texts) from which the reference relationship can be determined.

また、加工せずに引用されて拡散されたドキュメント以外でも、拡散されたドキュメントと同様に、引用関係等の参照関係を有する参照元のドキュメントのデータに参照先のドキュメントを示す参照関係情報が付加されている場合には、参照関係情報を用いて参照関係を判断することとしてもよい。   In addition to documents that have been quoted and diffused without processing, reference relationship information indicating the reference destination document is added to the data of the reference source document having a reference relationship such as a citation relationship, as with the diffused document. If it is, the reference relationship may be determined using the reference relationship information.

共有件数算出部13bは、上記のように解析対象となる参照先のドキュメント毎に上記の参照関係を判断して、参照関係があると判断された参照元ドキュメントの数を集計して共有件数とする。上記のように、共有件数の算出においては、共有件数算出部13bは、ドキュメント間の参照関係の特定も行っており、参照元のドキュメントと参照先のドキュメントとの間の参照関係を特定する参照関係特定手段(の一機能)でもある。共有件数算出部13bは、算出した共有件数を解析対象となる参照先のドキュメントのIDに対応付けて信憑性判断部15に出力する。   The number-of-shares calculation unit 13b determines the above reference relationship for each reference document to be analyzed as described above, and totals the number of reference source documents determined to have a reference relationship, To do. As described above, in the calculation of the number of sharing cases, the sharing number calculation unit 13b also specifies the reference relationship between documents, and the reference for specifying the reference relationship between the reference source document and the reference destination document. It is also a relationship specifying means (one function). The number-of-shares calculation unit 13b outputs the calculated number of shares to the credibility determination unit 15 in association with the ID of the reference destination document to be analyzed.

上記のように全てのドキュメントについてテキスト同士の比較で参照関係を特定する場合、非常に処理時間がかかる。そこで、解析対象となる参照先のドキュメントの絞り込みを行って処理時間の短縮化を可能にすることができる。   As described above, when a reference relationship is specified by comparing texts for all documents, it takes a very long processing time. Therefore, the processing time can be shortened by narrowing down the reference documents to be analyzed.

具体的には、共有件数算出部13bは、分類データ格納部30の拡散データテーブル32に参照先ドキュメントのIDとしてIDが格納されているドキュメントのみを解析対象となる参照先のドキュメントとする。即ち、別のドキュメントに参照先のドキュメントを示す参照関係情報としてIDが付加されているドキュメントである別のユーザによって拡散されたドキュメントについてのみ解析対象とする(処理を行う)。   Specifically, the sharing number calculation unit 13b sets only the document whose ID is stored as the ID of the reference destination document in the diffusion data table 32 of the classification data storage unit 30 as the reference destination document to be analyzed. That is, only a document spread by another user, which is a document in which an ID is added as reference relation information indicating a reference destination document to another document, is analyzed (processed).

また、参照関係情報によって示される別のドキュメントから参照先のドキュメントの数が一定以上のドキュメントのみを解析対象とすることとしてもよい。このように、拡散されたドキュメントのみを解析対象とすれば、処理対象とするドキュメントの数を削減でき処理コストを削減することができると共にユーザからの注目度の高いドキュメントに絞り信憑性解析を行うことができる。これにより、リアルタイムな処理が可能となる。   Alternatively, only documents with a certain number of reference destination documents from another document indicated by the reference relationship information may be analyzed. As described above, if only the diffused document is set as the analysis target, the number of documents to be processed can be reduced, the processing cost can be reduced, and the reliability analysis is performed by narrowing down to a document having a high degree of attention from the user. be able to. Thereby, real-time processing becomes possible.

第1の数算出部14は、解析対象となる(参照先の)ドキュメント毎に、特定操作が行われている参照元のドキュメントの数である第1の数を算出する算出手段(の一機能)である。図1に示すように第1の数算出部14は、訂正件数算出部14aと、削除件数算出部14bとを備える。   The first number calculation unit 14 is a calculation unit (one function) that calculates a first number that is the number of reference source documents for which a specific operation is performed for each document to be analyzed (reference destination). ). As shown in FIG. 1, the first number calculation unit 14 includes a correction number calculation unit 14a and a deletion number calculation unit 14b.

訂正件数算出部14aは、第1の数として、解析対象となる参照先のドキュメントに対して、その内容の訂正を行う参照元のドキュメントの数(訂正件数)を算出する。訂正件数算出部14aは、上記の第2の数算出部13と同様に参照先のドキュメントと参照元のドキュメントとの参照関係を特定する(この参照関係は、第2の数算出部13による処理結果によるものが用いられてもよい)。訂正件数算出部14aは、参照先のドキュメント毎に参照関係がある参照元のドキュメントから、分類データ格納部30のドキュメントデータテーブル33の訂正表現フラグを参照して訂正表現を含む参照元のドキュメントの数を訂正件数として集計する。訂正件数算出部14aは、算出した訂正件数を解析対象となる参照先のドキュメントのIDに対応付けて信憑性判断部15に出力する。   The correction number calculation unit 14a calculates, as the first number, the number of reference source documents (correction number) for correcting the contents of the reference target document to be analyzed. The correction number calculation unit 14a specifies the reference relationship between the reference destination document and the reference source document in the same manner as the second number calculation unit 13 (this reference relationship is processed by the second number calculation unit 13). The result may be used). The number-of-corrections calculation unit 14a refers to the correction expression flag of the document data table 33 of the classification data storage unit 30 from the reference source document that has a reference relationship for each reference destination document, and determines the reference source document including the correction expression. The number is counted as the number of corrections. The number-of-corrections calculation unit 14 a outputs the calculated number of corrections to the credibility determination unit 15 in association with the ID of the reference destination document to be analyzed.

また、訂正件数算出部14aは、以下のような処理を行うこととしてもよい。訂正件数算出部14aは、分類データ格納部30のドキュメントデータテーブル33の訂正表現フラグを参照して、解析対象となる参照先のドキュメントに訂正表現を含むか否かを判断する。もし、参照先のドキュメントに訂正表現を含む場合、訂正件数は共有件数と同等の値になってしまう。その場合、訂正件数を用いた信憑性解析は適切ではない。このため、訂正件数算出部14aは、解析対象となる参照先のドキュメントに訂正表現を含むと判断した場合には、参照元のドキュメントが参照先のドキュメントの内容を訂正するものとして生成されているものとして検出せず、訂正件数を算出しない。   The correction number calculation unit 14a may perform the following processing. The number-of-corrections calculation unit 14a refers to the correction expression flag in the document data table 33 of the classification data storage unit 30, and determines whether or not the reference document to be analyzed includes a correction expression. If the reference document includes a corrected expression, the number of corrections is equivalent to the number of sharing cases. In that case, credibility analysis using the number of corrections is not appropriate. For this reason, when the correction number calculation unit 14a determines that the reference target document to be analyzed includes a corrected expression, the reference source document is generated as correcting the contents of the reference target document. It is not detected as a thing, and the number of corrections is not calculated.

削除件数算出部14bは、第1の数として、解析対象となる参照先のドキュメントと参照関係がある参照元のドキュメントであって、その内容の訂正を行う参照元のドキュメントの数(削除件数)を算出する。削除件数算出部14bは、上記の第2の数算出部13と同様に参照先のドキュメントと参照元のドキュメントとの参照関係を特定する(この参照関係は、第2の数算出部13による処理結果によるものが用いられてもよい)。削除件数算出部14bは、参照先のドキュメント毎に参照関係がある参照元のドキュメントから、分類データ格納部30の削除データテーブル31を参照して削除された参照元のドキュメントの数を削除件数として集計する。この削除件数は、参照先ドキュメントを拡散した参照元ドキュメント(公式リツイート)に対する数(拡散件数に対する削除件数)、それ以外の参照元ドキュメント(非公式リツイート)に対する数(共有件数に対する削除件数)それぞれ、及びそれらの和を算出することとしてもよい。削除件数算出部14bは、算出した削除件数を解析対象となる参照先のドキュメントのIDに対応付けて信憑性判断部15に出力する。   The number-of-deletions-calculation section 14b has, as a first number, the number of reference-source documents that have a reference relationship with the reference-target document to be analyzed and whose contents are corrected (the number of deletions). Is calculated. The deletion number calculation unit 14b specifies the reference relationship between the reference destination document and the reference source document in the same manner as the second number calculation unit 13 (this reference relationship is processed by the second number calculation unit 13). The result may be used). The number-of-deletions-calculation unit 14b uses the number of reference-source documents deleted by referring to the deletion data table 31 of the classification data storage unit 30 from the reference-source documents having a reference relationship for each reference-destination document as the number of deletions Tally. The number of deletions is the number of reference documents (official retweets) that diffused the referenced document (the number of deletions for the number of diffusions), the number of other reference documents (unofficial retweets) (the number of deletions for the number of shares), It is also possible to calculate the sum of them. The deletion number calculation unit 14b outputs the calculated deletion number to the credibility determination unit 15 in association with the ID of the reference destination document to be analyzed.

上記のように、訂正件数あるいは削除件数の算出においては、訂正件数算出部14a及び削除件数算出部14bは、ドキュメント間の参照関係の特定も行っており、参照元のドキュメントと参照先のドキュメントとの間の参照関係を特定する参照関係特定手段(の一機能)でもある。   As described above, in calculating the number of corrections or the number of deletions, the correction number calculation unit 14a and the deletion number calculation unit 14b also specify the reference relationship between documents, and the reference source document and the reference destination document It is also a reference relationship specifying means (one function) for specifying the reference relationship between the two.

なお、共有件数算出部13b、訂正件数算出部14a及び削除件数算出部14bによって使用される参照関係については、共有件数、訂正件数及び削除件数が算出される前に予めドキュメントデータテーブル33が参照して特定して、(例えば、図示しない共有ドキュメント格納部等に)格納しておいてもよい。これにより以降の処理をスムーズに行うことができる。即ち、Twitterでいう、ツイート間のリツイート関係情報を予め抽出しておき、以降の処理に応用する。また、このデータは、分類データ格納部30に格納されるデータと同様に時間帯毎のデータとしてもよい。   Note that the reference relationship used by the sharing number calculation unit 13b, the correction number calculation unit 14a, and the deletion number calculation unit 14b is referred to in advance by the document data table 33 before the sharing number, correction number, and deletion number are calculated. May be specified and stored (for example, in a shared document storage unit (not shown)). As a result, the subsequent processing can be performed smoothly. That is, retweet-related information between tweets, which is referred to as Twitter, is extracted in advance and applied to subsequent processing. In addition, this data may be data for each time zone, similar to the data stored in the classification data storage unit 30.

信憑性判断部15は、第1の数算出部14によって算出された第1の数と、第2の数算出部13によって算出された第2の数とから、解析対象となる参照先のドキュメントの信憑性を判断する信憑性判断手段である。具体的には、信憑性判断部15は、信憑性を判断するための式と閾値とを予め記憶しておき、それに基づいて判断を行う。   The credibility determination unit 15 uses the first number calculated by the first number calculation unit 14 and the second number calculated by the second number calculation unit 13 as a reference destination document to be analyzed. It is a credibility judgment means for judging the credibility of the. Specifically, the credibility determination unit 15 stores in advance an expression and a threshold value for determining credibility, and makes a determination based on the formula.

具体的には、参照先のドキュメントに訂正表現が含まれない場合には、以下の4つの式の何れか又は全てを用いて判断する。信憑性判断部15は、以下の式の関係を満たすものを信憑性が低いドキュメントと判断する(以下についても同様である)。
訂正件数/拡散件数>α
削除件数/拡散件数>β
訂正件数/共有件数>θ
削除件数/共有件数>π
ここで、α、β、θ、πは予め設定された閾値である。また、削除件数は、式に応じて拡散件数に対する削除件数、共有件数に対する削除件数の何れかが用いられてもよい(以下についても同様である)。
Specifically, if the corrected document is not included in the reference destination document, the determination is made using any or all of the following four expressions. The authenticity determination unit 15 determines that a document satisfying the relationship of the following expression is a document with low authenticity (the same applies to the following).
Corrections / Diffusions> α
Number of deletions / spreads> β
Number of corrections / shares> θ
Number of deleted / shared items> π
Here, α, β, θ, and π are preset threshold values. As the number of deletions, either the number of deletions with respect to the number of diffusions or the number of deletions with respect to the number of sharing may be used according to the formula (the same applies to the following).

また、上述したように参照先のドキュメントに訂正表現が含まれる場合には、訂正件数は算出されないので、以下の2つの式の何れか又は全てを用いて判断する。
削除件数/拡散件数>γ
削除件数/共有件数>χ
ここで、γ、χは予め設定された閾値である。
Further, as described above, when the corrected document is included in the reference destination document, the number of corrections is not calculated, and therefore determination is made using either or all of the following two expressions.
Number of deletions / spreads> γ
Number of deleted / shared items> χ
Here, γ and χ are preset threshold values.

上記の判断基準は、拡散件数、共有件数を用いたものであったが、それらが用いられない判断基準としてもよい(両方を用いてもよい)。具体的には、参照先のドキュメントに訂正表現が含まれない場合には、以下の2つの式の何れか又は全てを用いて判断する。
訂正件数>α´
削除件数>β´
参照先のドキュメントに訂正表現が含まれる場合には、以下の式を用いて判断する。
削除件数>γ´
ここで、α´、β´、γ´は予め設定された閾値である。
Although the above-mentioned judgment criteria are those using the number of diffusion cases and the number of sharing cases, they may be judgment criteria in which they are not used (both may be used). Specifically, if the corrected document is not included in the reference destination document, the determination is made using either or all of the following two expressions.
Number of corrections> α '
Number of deletions> β '
When the corrected document is included in the reference document, it is determined using the following formula.
Number of deletions> γ '
Here, α ′, β ′, and γ ′ are preset threshold values.

信憑性判断部15は、解析対象となる参照先のドキュメントの判断結果を出力部16に出力する。   The credibility determination unit 15 outputs the determination result of the reference document to be analyzed to the output unit 16.

出力部16は、信憑性判断部15による判断結果を示す情報を出力する出力手段である。具体的には、出力部16は、信憑性が低いと判断されたドキュメントの情報をデマ格納部60に格納する。具体的には、図7に示すように信憑性が低いと判断されたドキュメントのIDと、当該ドキュメントのテキストと、当該ドキュメントの作成日(投稿された時刻)とを対応付けてデマ格納部60に格納する。   The output unit 16 is an output unit that outputs information indicating the determination result by the credibility determination unit 15. Specifically, the output unit 16 stores in the hoax storage unit 60 information on a document determined to have low credibility. Specifically, as illustrated in FIG. 7, the hoax storage unit 60 associates the ID of a document determined to have low credibility, the text of the document, and the creation date (posted time) of the document. To store.

また、出力部16は、信憑性が低いと判断されたドキュメントにURLが含まれるか否かを判断して、URLが含まれていた場合には、そのURLを図6に示すようにブラックリストURL格納部50に格納する。なお、URLは、一定の数以上、信憑性が低いと判断されたドキュメントに含まれていた場合、即ち、信憑性が低いと判断されたドキュメントに頻繁に出現した場合にブラックリストURL格納部50に格納することとしてもよい。また、上述したようにURLのドメイン、パラメータなしのURL、短縮URL及び伸長URL等が、ブラックリストURL格納部50に格納されえる。   Further, the output unit 16 determines whether or not the document that is determined to have low credibility includes a URL. If the URL is included, the output unit 16 displays the URL in a blacklist as illustrated in FIG. It is stored in the URL storage unit 50. Note that when the URL is included in a document determined to have low credibility for a certain number or more, that is, when it frequently appears in a document determined to have low credibility, the blacklist URL storage unit 50 It is good also as storing in. Further, as described above, URL domains, URLs without parameters, shortened URLs, decompressed URLs, and the like can be stored in the blacklist URL storage unit 50.

このようなURLを有するサイトとして、虚報新聞(http://kyoko-np.net/)等の嘘の情報をベースとしたニュースサイト等があり、Twitter上ではこのサイトの情報が頻繁にデマ情報として流れることがある。URLが付いたツイートで情報が共有されるため一見、真実のように思えるが実際のサイトの中身は嘘の情報が集まっているため、このようなサイトを特定することは重要である。   As a site having such a URL, there is a news site based on false information such as a fictional newspaper (http://kyoko-np.net/), and the information on this site is frequently used on Twitter. May flow as. At first glance, it seems to be true because the information is shared by the tweet with the URL, but it is important to identify such a site because the contents of the actual site are gathered with lie information.

あるいは、出力部16は、信憑性解析装置1が備えるディスプレイに表示することによって信憑性解析装置1の管理者が確認できるように表示出力する。以上が、信憑性解析装置1の機能構成である。   Alternatively, the output unit 16 outputs the display so that the administrator of the credibility analysis device 1 can confirm by displaying on the display included in the credibility analysis device 1. The functional configuration of the credibility analysis apparatus 1 has been described above.

図8に信憑性解析装置1のハードウェア構成を示す。図8に示すように信憑性解析装置1は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述した信憑性解析装置1の機能が発揮される。以上が、信憑性解析装置1の構成である。   FIG. 8 shows a hardware configuration of the credibility analysis apparatus 1. As shown in FIG. 8, the reliability analysis apparatus 1 includes a CPU (Central Processing Unit) 101, a RAM (Random Access Memory) 102 and a ROM (Read Only Memory) 103, which are main storage devices, a communication module 104 for performing communication, In addition, the computer includes a computer including hardware such as an auxiliary storage device 105 such as a hard disk. The functions of the credibility analysis apparatus 1 described above are exhibited when these components are operated by a program or the like. The above is the configuration of the credibility analysis apparatus 1.

引き続いて、図9及び図10のフローチャートを用いて、本実施形態に係る信憑性解析装置1で実行される処理である信憑性解析方法を説明する。なお、本処理は、例えば、信憑性解析装置1の管理者による操作とトリガとして、あるいは一定時間毎の定期的な処理として行われる。   Subsequently, a credibility analysis method that is a process executed by the credibility analysis apparatus 1 according to the present embodiment will be described with reference to flowcharts of FIGS. 9 and 10. This process is performed, for example, as an operation and a trigger by the administrator of the credibility analysis apparatus 1 or as a regular process at regular intervals.

まず、解析サーバ10によって、解析対象となる複数のドキュメントが取得されてドキュメント格納部20に格納される(S01)。続いて、分類部11によって、ドキュメント格納部20に格納されたドキュメントが分類されて、分類データ格納部30に格納される。ドキュメントの分類について、図10のフローチャートを用いて説明する。   First, the analysis server 10 acquires a plurality of documents to be analyzed and stores them in the document storage unit 20 (S01). Subsequently, the document stored in the document storage unit 20 is classified by the classification unit 11 and stored in the classification data storage unit 30. Document classification will be described with reference to the flowchart of FIG.

まず、ドキュメントのデータに削除フラグが付与されたものかが確認される(S201、特定操作検出ステップ)。ドキュメントが削除されたものであると判断されると、当該ドキュメントに係る情報が分類データ格納部30の削除データテーブル31に格納される(S202、特定操作検出ステップ)。この場合、ここでドキュメントの分類は終了する。なお、上記の処理は、削除フラグに係るドキュメントのデータが、削除されたドキュメントのテキストとは独立に取得される場合を前提としている。この場合、削除されたドキュメントのテキストに係る情報は、既に拡散データテーブル32又はドキュメントデータテーブル33に格納されている。削除されたドキュメントのテキストと削除フラグとが含まれる一つのデータとして取得される場合には、S202の処理の後、S203以降の処理を行うこととしてもよい。S201においてドキュメントが削除されたものであると判断されなかった場合、引き続いて、ドキュメントのデータに拡散データであることを示すフラグが付与されたものかが確認される(S203、参照関係特定ステップ)。ドキュメントが拡散データであると判断されると、当該ドキュメントに係る情報が分類データ格納部30の拡散データテーブル32に格納される(S204、参照関係特定ステップ)。この場合、以上で分類の処理は終了する。   First, it is confirmed whether or not a deletion flag is given to document data (S201, specific operation detection step). If it is determined that the document has been deleted, information relating to the document is stored in the deletion data table 31 of the classification data storage unit 30 (S202, specific operation detection step). In this case, the document classification ends here. The above processing is based on the assumption that the document data related to the deletion flag is acquired independently of the deleted document text. In this case, information related to the text of the deleted document is already stored in the diffusion data table 32 or the document data table 33. When acquired as one data including the text of the deleted document and the deletion flag, the processing after S203 may be performed after the processing of S202. If it is not determined in step S201 that the document has been deleted, it is subsequently checked whether the document data has been given a flag indicating that it is spread data (step S203, reference relationship specifying step). . When it is determined that the document is spread data, information related to the document is stored in the spread data table 32 of the classification data storage unit 30 (S204, reference relationship specifying step). In this case, the classification process ends here.

S203においてドキュメントが拡散データであると判断されなかった場合、当該ドキュメントに訂正表現を含むか否かの判断がなされる(S205、特定操作検出ステップ)。続いて、当該ドキュメントのデータが、訂正表現を含むか否かのフラグと共に、分類データ格納部30のドキュメントデータテーブル33に格納される(S206、参照関係特定ステップ)。以上で分類の処理は、終了する。信憑性の解析に用いるドキュメント全てについて上記の分類を行う。   If it is not determined in S203 that the document is spread data, it is determined whether or not the document includes a corrected expression (S205, specific operation detection step). Subsequently, the document data is stored in the document data table 33 of the classification data storage unit 30 together with a flag indicating whether or not the corrected expression is included (S206, reference relationship specifying step). This completes the classification process. The above classification is performed for all documents used for authenticity analysis.

上記の分類が終了すると、続いて、事前処理部12によって解析対象のドキュメントの絞り込みが行われる(図9のS03、信憑性判断ステップ)。具体的には、分類データ格納部30のドキュメントデータテーブル33に格納されているドキュメントのデータが、デマ格納部60に格納されているドキュメントのデータ、及びブラックリストURL格納部50に格納されているURLのデータと照合されて、ドキュメントデータテーブル33に格納されているドキュメントが信憑性が低いものでないかが判断される。ドキュメントが信憑性が低いものであると判断されると、そのドキュメントについては以降の処理には用いられない。以降の処理では、上記の判断でドキュメントが信憑性が低いものであると判断されなかったドキュメントが解析の対象とされる。   When the above classification is completed, the pre-processing unit 12 narrows down the documents to be analyzed (S03 in FIG. 9, credibility determination step). Specifically, the document data stored in the document data table 33 of the classification data storage unit 30 is stored in the document data stored in the hoax storage unit 60 and the black list URL storage unit 50. By comparing with the URL data, it is determined whether or not the document stored in the document data table 33 has low credibility. If it is determined that the document has low credibility, the document is not used for further processing. In the subsequent processing, a document for which it has not been determined that the document has low credibility as a result of the above determination is taken as an analysis target.

引き続いて、第2の数算出部13によって、参照先のドキュメントとなっているドキュメントについて、当該ドキュメント毎に第2の数として拡散件数と共有件数とが算出される(S04、第2の数算出ステップ、参照関係特定ステップ)。また、第1の数算出部14によって、参照先のドキュメントとなっているドキュメントについて、当該ドキュメント毎に第1の数として訂正件数と削除件数とが算出される(S05、第1の数算出ステップ、参照関係特定ステップ)。なお、上述したように、ここで参照先のドキュメントとされるのは、拡散されたドキュメントのみとしてテキストの比較による参照関係を特定する処理を減らすこととしてもよい。   Subsequently, for the document that is the reference destination document, the second number calculation unit 13 calculates the number of diffusion cases and the number of sharing cases as the second number for each document (S04, second number calculation). Step, reference relationship identification step). The first number calculation unit 14 calculates the number of corrections and the number of deletions as the first number for each document as a reference destination document (S05, first number calculation step). , Reference relationship identification step). Note that, as described above, the document to be referred to here may be only the spread document, and the processing for specifying the reference relationship by comparing the text may be reduced.

引き続いて、信憑性判断部15によって、上記のように算出された第1の数及び第2の数を用いて参照先のドキュメントについて、信憑性の判断が行われる(S06、信憑性判断ステップ)。信憑性の判断結果は、出力部16によって出力される(S07、出力ステップ)。具体的には、信憑性が低いとされたドキュメントのデータが用いられて、デマ格納部60に当該ドキュメントの情報が蓄積され、また、ブラックリストURL格納部50の情報が更新される。以上が、本実施形態に係る信憑性解析装置1で実行される処理である信憑性解析方法である。   Subsequently, the credibility determination unit 15 determines the credibility of the referenced document using the first number and the second number calculated as described above (S06, credibility determination step). . The determination result of credibility is output by the output unit 16 (S07, output step). Specifically, data of a document that is determined to have low credibility is used, information on the document is accumulated in the hoax storage unit 60, and information in the blacklist URL storage unit 50 is updated. The above is the credibility analysis method that is the process executed by the credibility analysis apparatus 1 according to the present embodiment.

上述したように本実施形態によれば、複数のドキュメント間の参照関係と、参照元のドキュメントに対する参照先のドキュメントの信憑性に係る特定操作の数とに基づいて信憑性が判断される。従って、参照元のドキュメントが、参照先のドキュメントに応じてどのように作成されたか、あるいは扱われたか等に基づいて参照先のドキュメントの信憑性が判断される。   As described above, according to the present embodiment, the credibility is determined based on the reference relationship between a plurality of documents and the number of specific operations related to the credibility of the reference destination document with respect to the reference source document. Therefore, the credibility of the reference destination document is determined based on how the reference source document was created or handled according to the reference destination document.

具体的には、参照元のドキュメントを作成(投稿)するユーザは、参照先のドキュメントがデマである等の信憑性の低いものであると考えた場合、参照先のドキュメントによるデマで他のユーザが惑わされないように、参照元のドキュメントで当該参照先のドキュメントを訂正したり、参照元のドキュメントを削除したりする。このように、本実施形態によれば、参照元のドキュメントを作成したユーザの、参照先のドキュメントに対する反応が反映されて、参照先のドキュメントの信憑性が判断される。従って、本実施形態によれば、ドキュメントの信憑性をより適切に判断することができる。   Specifically, when a user who creates (posts) a reference source document thinks that the reference destination document has low credibility, such as a hoax, other users can use the hoax by the reference destination document. The reference document is corrected in the reference source document or the reference source document is deleted so as not to be confused. As described above, according to the present embodiment, the response of the user who created the reference source document to the reference destination document is reflected, and the credibility of the reference destination document is determined. Therefore, according to the present embodiment, it is possible to more appropriately determine the authenticity of the document.

また、信憑性の判断は、第1の数である訂正件数や削除件数のみからおこなわれてもよいが、第2の数である拡散件数や共有件数を用いて行うこととしてもよい。この構成によれば、参照先のドキュメント毎の参照元のドキュメントの数を考慮して信憑性を判断することができるので、ドキュメントの信憑性を更に適切に判断することができる。より具体的には、訂正や削除されている割合によって、信憑性をより適切に判断することができる。   The determination of credibility may be performed only from the number of corrections and deletions that are the first number, but may be performed using the number of diffusions and the number of sharings that is the second number. According to this configuration, since the credibility can be determined in consideration of the number of reference source documents for each reference document, it is possible to more appropriately determine the credibility of the document. More specifically, the credibility can be more appropriately determined based on the ratio of correction or deletion.

また、本実施形態にように参照関係は、引用や返信、また、加工せずにした引用(拡散、Twitterにおける公式リツイート相当のもの)やそれ以外(Twitterにおける非公式リツイート相当のもの)等としてもよい。これらの構成によれば、適切かつ確実にドキュメント間の参照関係を把握することができ、本発明を適切かつ確実に実施することができる。但し、上記以外でも把握しえる参照関係があれば、任意のものがもちいられてもよい。   In addition, as in this embodiment, the reference relationship is quoted or replied, quoted without processing (diffusion, equivalent to official retweet in Twitter), or other (equivalent to informal retweet in Twitter), etc. Also good. According to these configurations, the reference relationship between documents can be grasped appropriately and reliably, and the present invention can be implemented appropriately and reliably. However, as long as there is a reference relationship that can be grasped other than the above, an arbitrary one may be used.

また、参照先のドキュメントの信憑性に係る特定操作は、本実施形態のように訂正や削除を用いることができる。これらの構成によれば、適切かつ確実に参照元のドキュメントに対する特定操作を把握することができ、本発明を適切かつ確実に実施することができる。但し、上記以外でも把握しえる、ドキュメントに対する信憑性に係る特定操作があれば、任意のものがもちいられてもよい。   Further, the specific operation related to the authenticity of the reference document can be corrected or deleted as in the present embodiment. According to these configurations, it is possible to grasp a specific operation for a reference source document appropriately and reliably, and the present invention can be implemented appropriately and reliably. However, as long as there is a specific operation related to the credibility of the document that can be grasped other than the above, an arbitrary one may be used.

また、訂正の場合は、本実施形態のように参照先のドキュメント自体に訂正表現を含む場合を考慮すれば、参照元のドキュメントが参照先のドキュメントの内容を訂正するものであるかを適切に判断することができ、より適切な信憑性の判断が可能になる。   Further, in the case of correction, considering the case where the reference document itself includes a correction expression as in this embodiment, it is appropriately determined whether the reference source document corrects the content of the reference destination document. This makes it possible to judge more appropriate credibility.

また、本実施形態における事前処理部12の処理のように、一旦信憑性が低いと判断されたドキュメントの情報を用いて解析対象のドキュメントを絞り込むこととすれば、効率的にドキュメントの信憑性を判断することができる。   Further, if the document to be analyzed is narrowed down using the information of the document once determined to be low as in the processing of the pre-processing unit 12 in the present embodiment, the reliability of the document is efficiently improved. Judgment can be made.

また、ドキュメントに対応付けられた時刻に応じてドキュメントの処理対象を決定することすれば、時間帯毎の時間帯毎のドキュメントの信憑性の判断を行うことができ、また、効率的な処理が可能となりリアルタイムな信憑性解析が可能となる。   Also, by determining the document processing target according to the time associated with the document, it is possible to determine the credibility of the document for each time zone, and for efficient processing. Real time credibility analysis becomes possible.

1…信憑性解析装置、10…解析サーバ、11…分類部、12…事前処理部、13…第2の数算出部、13a…拡散件数算出部、13b…共有件数算出部、14第1の数算出部、14a…訂正件数算出部、14b…削除件数算出部、15…信憑性判断部、16…出力部、20…ドキュメント格納部、30…分類データ格納部、31…削除データテーブル、32…拡散データテーブル、33…ドキュメントデータテーブル、40…訂正表現格納部、50…ブラックリストURL格納部、60…デマ格納部、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置。
DESCRIPTION OF SYMBOLS 1 ... Reliability analysis apparatus, 10 ... Analysis server, 11 ... Classification part, 12 ... Pre-processing part, 13 ... 2nd number calculation part, 13a ... Diffusion number calculation part, 13b ... Shared number calculation part, 14 1st Number calculation unit, 14a ... Correction number calculation unit, 14b ... Deletion number calculation unit, 15 ... Reliability determination unit, 16 ... Output unit, 20 ... Document storage unit, 30 ... Classification data storage unit, 31 ... Delete data table, 32 ... diffusion data table, 33 ... document data table, 40 ... correction expression storage section, 50 ... blacklist URL storage section, 60 ... hoax storage section, 101 ... CPU, 102 ... RAM, 103 ... ROM, 104 ... communication module, 105 ... Auxiliary storage device.

Claims (14)

ドキュメントの信憑性を解析する信憑性解析装置であって、
複数のドキュメントを格納するドキュメント格納部と、
前記ドキュメント格納部によって格納された前記複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定する参照関係特定手段と、
前記参照関係特定手段によって特定された参照関係によって示される前記参照元のドキュメントに対して、前記参照先のドキュメントの信憑性に係る特定操作が行われていることを検出する特定操作検出手段と、
前記特定操作検出手段によって検出された特定操作が行われている前記参照元のドキュメントの数である第1の数を前記参照先のドキュメント毎に算出する算出手段と、
前記算出手段によって算出された前記第1の数から前記参照先のドキュメントの信憑性を判断する信憑性判断手段と、
前記信憑性判断手段による判断結果を示す情報を出力する出力手段と、
を備える信憑性解析装置。
A credibility analyzer that analyzes the authenticity of a document,
A document storage unit for storing a plurality of documents;
A reference relationship specifying means for specifying a reference relationship indicating that a reference source document is generated by referring to a reference destination document in the plurality of documents stored by the document storage unit;
Specific operation detecting means for detecting that a specific operation related to the credibility of the reference destination document is performed on the reference source document indicated by the reference relation specified by the reference relation specifying means;
Calculating means for calculating, for each reference destination document, a first number that is the number of the reference source documents on which the specific operation detected by the specific operation detection means is performed;
Credibility determination means for determining the credibility of the referenced document from the first number calculated by the calculation means;
Output means for outputting information indicating a determination result by the credibility determination means;
A credibility analyzer with
前記算出手段は、前記参照先のドキュメントに対する前記参照元のドキュメントの数である第2の数を前記参照先のドキュメント毎に算出し、
前記信憑性判断手段は、前記第1の数及び第2の数から前記参照先のドキュメントの信憑性を判断する、
請求項1に記載の信憑性解析装置。
The calculating means calculates a second number, which is the number of the reference source documents with respect to the reference destination document, for each reference destination document,
The authenticity determining means determines the authenticity of the document referred to from the first number and the second number;
The credibility analyzer according to claim 1.
前記参照関係は、参照元のドキュメントが参照先のドキュメントの引用又は返信である関係の少なくとも何れかである請求項1又は2に記載の信憑性解析装置。   The credibility analysis apparatus according to claim 1, wherein the reference relationship is at least one of a relationship in which a reference source document is a citation or a reply of a reference destination document. 前記参照元のドキュメントは、前記参照先のドキュメントを加工することなく引用したもの、及び参照先のドキュメントを加工することなく引用した以外で前記参照先のドキュメントと参照関係を有するものの少なくとも何れかである請求項3に記載の信憑性解析装置。   The reference source document is at least one of those cited without processing the reference destination document and those having a reference relationship with the reference destination document other than quoting the reference destination document without processing. The credibility analyzer according to claim 3. 前記参照先のドキュメントの信憑性に係る特定操作は、前記参照元のドキュメントを削除することを含む請求項1〜4のいずれか一項に記載の信憑性解析装置。   The credibility analysis apparatus according to claim 1, wherein the specific operation related to the credibility of the reference destination document includes deleting the reference source document. 前記参照先のドキュメントの信憑性に係る特定操作は、前記参照元のドキュメントが前記参照先のドキュメントの内容を訂正するものとして生成されていることを含む請求項1〜5のいずれか一項に記載の信憑性解析装置。   The specific operation related to the authenticity of the reference destination document includes that the reference source document is generated as correcting the content of the reference destination document. The credibility analyzer described. 前記特定操作検出手段は、訂正表現を示す情報を予め記憶しておき、前記参照元のドキュメントに当該訂正表現が含まれているか否かを判断することによって、当該参照元のドキュメントが前記参照先のドキュメントの内容を訂正するものとして生成されていることを検出する請求項6に記載の信憑性解析装置。   The specific operation detection unit stores information indicating a corrected expression in advance, and determines whether the reference source document includes the corrected expression by determining whether the reference source document includes the corrected expression. The credibility analysis apparatus according to claim 6, wherein the credibility analysis apparatus detects that the document is generated to correct the content of the document. 前記特定操作検出手段は、前記参照先のドキュメントに前記訂正表現が含まれているか否かを判断して、当該訂正表現が含まれていると判断した場合には、前記参照元のドキュメントが当該参照先のドキュメントの内容を訂正するものとして生成されているものとして検出しない請求項7に記載の信憑性解析装置。   The specific operation detecting means determines whether or not the corrected expression is included in the reference destination document, and when determining that the corrected expression is included, the reference source document is The credibility analysis apparatus according to claim 7, wherein the credibility analysis apparatus does not detect that the content of the reference destination document is generated as being corrected. 前記信憑性判断手段は、信憑性が低いと判断したドキュメントに含まれる別のデータへのリンクを示すリンク情報を抽出して、当該リンク情報の少なくとも一部をドキュメントが含んでいるか否かを判断することによってもドキュメントの信憑性を判断する請求項1〜8のいずれか一項に記載の信憑性解析装置。   The credibility determination means extracts link information indicating a link to another data included in the document determined to have low credibility, and determines whether or not the document includes at least a part of the link information. The credibility analysis apparatus according to any one of claims 1 to 8, wherein the credibility of the document is also determined by performing the process. 前記信憑性判断手段は、抽出したリンク情報のドメインをドキュメントが含んでいるか否かを判断することによってもドキュメントの信憑性を判断する請求項9に記載の信憑性解析装置。   The credibility analysis apparatus according to claim 9, wherein the credibility determination unit determines the credibility of a document also by determining whether or not the document includes a domain of the extracted link information. 前記参照関係特定手段は、前記ドキュメントのテキスト同士を比較して、当該テキスト同士の一致に基づいて前記参照関係を特定する請求項1〜10のいずれか一項に記載の信憑性解析装置。   The credibility analysis apparatus according to any one of claims 1 to 10, wherein the reference relationship specifying unit compares the texts of the documents and specifies the reference relationship based on a match between the texts. 前記参照関係特定手段は、前記参照元のドキュメントに前記参照先のドキュメントを示す参照関係情報が付加されているかを判断することによって前記参照関係を特定すると共に、当該参照関係情報によって参照関係があると特定された参照先のドキュメントに対してのみ、他のドキュメントとのテキスト同士の比較を行う請求項11に記載の信憑性解析装置。   The reference relationship specifying means specifies the reference relationship by determining whether or not the reference relationship information indicating the reference destination document is added to the reference source document, and there is a reference relationship based on the reference relationship information. The credibility analysis apparatus according to claim 11, wherein the texts are compared with other documents only for the reference destination document identified as. 前記ドキュメントには、時刻が対応付けられており、
前記参照関係特定手段は、参照関係の特定を前記ドキュメントに対応付けられた時刻に応じて行う、
請求項1〜12のいずれか一項に記載の信憑性解析装置。
The document is associated with a time,
The reference relationship specifying means specifies the reference relationship according to the time associated with the document;
The credibility analyzer according to any one of claims 1 to 12.
ドキュメントの信憑性を解析する、複数のドキュメントを格納するドキュメント格納部を備える信憑性解析装置による信憑性解析方法であって、
前記ドキュメント格納部によって格納された前記複数のドキュメントにおける、参照元のドキュメントが参照先のドキュメントを参照して生成されたものであることを示す参照関係を特定する参照関係特定ステップと、
前記参照関係特定ステップにおいて特定された参照関係によって示される前記参照元のドキュメントに対して、前記参照先のドキュメントの信憑性に係る特定操作が行われていることを検出する特定操作検出ステップと、
前記特定操作検出ステップにおいて検出された特定操作が行われている前記参照元のドキュメントの数である第1の数を前記参照先のドキュメント毎に算出する算出ステップと、
前記算出ステップにおいて算出された前記第1の数から前記参照先のドキュメントの信憑性を判断する信憑性判断ステップと、
前記信憑性判断ステップにおける判断結果を示す情報を出力する出力ステップと、
を含む備える信憑性解析方法。
A credibility analysis method using a credibility analysis device including a document storage unit for storing a plurality of documents for analyzing the credibility of a document,
A reference relationship specifying step for specifying a reference relationship indicating that a reference source document is generated by referring to a reference destination document in the plurality of documents stored by the document storage unit;
A specific operation detecting step for detecting that a specific operation related to the credibility of the reference destination document is performed on the reference source document indicated by the reference relationship specified in the reference relationship specifying step;
A calculation step of calculating, for each reference destination document, a first number that is the number of the reference source documents on which the specific operation detected in the specific operation detection step is performed;
A credibility determination step of determining the credibility of the referenced document from the first number calculated in the calculation step;
An output step of outputting information indicating a determination result in the credibility determination step;
A credibility analysis method comprising:
JP2011214941A 2011-09-29 2011-09-29 Credibility analysis device and credibility analysis method Withdrawn JP2013077044A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011214941A JP2013077044A (en) 2011-09-29 2011-09-29 Credibility analysis device and credibility analysis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011214941A JP2013077044A (en) 2011-09-29 2011-09-29 Credibility analysis device and credibility analysis method

Publications (1)

Publication Number Publication Date
JP2013077044A true JP2013077044A (en) 2013-04-25

Family

ID=48480486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011214941A Withdrawn JP2013077044A (en) 2011-09-29 2011-09-29 Credibility analysis device and credibility analysis method

Country Status (1)

Country Link
JP (1) JP2013077044A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013077155A (en) * 2011-09-30 2013-04-25 Kddi Corp Evaluation server, terminal, information processing system, information processing method and program
JP2015005057A (en) * 2013-06-19 2015-01-08 ヤフー株式会社 Information determination device and information determination method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013077155A (en) * 2011-09-30 2013-04-25 Kddi Corp Evaluation server, terminal, information processing system, information processing method and program
JP2015005057A (en) * 2013-06-19 2015-01-08 ヤフー株式会社 Information determination device and information determination method

Similar Documents

Publication Publication Date Title
Beskow et al. Bot-hunter: a tiered approach to detecting & characterizing automated activity on twitter
US11019107B1 (en) Systems and methods for identifying violation conditions from electronic communications
Rubin Deception detection and rumor debunking for social media
Calvin et al. # bully: Uses of hashtags in posts about bullying on Twitter
Vidros et al. Automatic detection of online recruitment frauds: Characteristics, methods, and a public dataset
Gharge et al. An integrated approach for malicious tweets detection using NLP
Gupta et al. Credibility ranking of tweets during high impact events
US8849813B1 (en) Method and system to determine a member profile associated with a reference in a publication
US9984427B2 (en) Data ingestion module for event detection and increased situational awareness
Barbier et al. Provenance data in social media
US20130138428A1 (en) Systems and methods for automatically detecting deception in human communications expressed in digital form
US20110320542A1 (en) Analyzing Social Networking Information
Lehmann et al. Finding news curators in twitter
US20110320543A1 (en) Analyzing News Content Information
US20180255010A1 (en) High confidence digital content treatment
US20170277790A1 (en) Awareness engine
US20230362120A1 (en) System and methods for integrating social network information
Mahlangu et al. A review of automated detection methods for cyberbullying
US10269080B2 (en) Method and apparatus for providing a response to an input post on a social page of a brand
CN113836128A (en) Abnormal data identification method, system, equipment and storage medium
EP2778978A1 (en) Scoring of interrelated message elements
Sams et al. The presence of hyperlinks on social network sites: A case study of Cyworld in Korea
US8620918B1 (en) Contextual text interpretation
Saleiro et al. Popstar at replab 2013: Name ambiguity resolution on twitter
US9361198B1 (en) Detecting compromised resources

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20141202