JP2016099685A - Information reliability determination system, information reliability determination method, and information reliability determination program - Google Patents
Information reliability determination system, information reliability determination method, and information reliability determination program Download PDFInfo
- Publication number
- JP2016099685A JP2016099685A JP2014234089A JP2014234089A JP2016099685A JP 2016099685 A JP2016099685 A JP 2016099685A JP 2014234089 A JP2014234089 A JP 2014234089A JP 2014234089 A JP2014234089 A JP 2014234089A JP 2016099685 A JP2016099685 A JP 2016099685A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- document
- author
- credibility
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、電子文書(以下、文書と省略する。)における情報の信憑性を判定する技術に関する。 The present invention relates to a technique for determining the authenticity of information in an electronic document (hereinafter abbreviated as a document).
周知のようにSNS(social networking service)の普及によって誰もが容易に情報を発信することが可能となったため、情報の信憑性が確認されないまま情報が流布され、デマの拡散などの風評被害の社会問題が生じている。 As is well known, the spread of SNS (social networking service) has made it possible for anyone to easily transmit information, so that information can be disseminated without confirming the authenticity of information, resulting in reputational damage such as the spread of hoaxes. Social problems are occurring.
この問題に対しては、情報の信憑性を自動的に判別し、ユーザに提示できれば、その解決に貢献することができる。この信憑性判定の手法としては、非特許文献1が公知となっている。
If this problem can be automatically determined and presented to the user, it can contribute to the solution.
非特許文献1には、投稿文書の長さ・URLの有無・ネガポジ表現などの投稿文書に基づく特徴量や、アカウント作成日・総投稿数・友人数などの著者に基づく特徴量、トレンドにもとづく特徴量・情報伝播にもとづく特徴量などを利用して信憑性を判定することが記載されている。
In Non-Patent
しかしながら、非特許文献1の手法では、以下に示す情報の信憑性を判定する重要な要素が考慮されていないため、判定精度が低下するおそれがある。
However, the method disclosed in
(1)すなわち、非特許文献1では、専門性(著者トピック)に関する特徴量が考慮されていない。したがって、信憑性判定にあたって投稿文書の話題に詳しい人と、そうでない人とを区別することができない。
(1) That is, Non-Patent
(2)また、投稿文書の話題(文書トピック)に関する特徴量が考慮されておらず、信用できる話題と疑ってかかるべき話題との区別もできない。 (2) Moreover, the feature quantity regarding the topic (document topic) of the posted document is not taken into consideration, and it is impossible to distinguish between a topic that can be trusted and a topic that should be suspected.
(3)さらに専門性と投稿文書の話題との類似性に関する特徴量が考慮されておらず、詳しい人がその話題に関して投稿したのか、あるいは詳しくない人が偶然にその話題に関して投稿したのかも区別できない。 (3) In addition, it does not take into account the features related to the similarity between the expertise and the topic of the posted document, and whether a detailed person posted about the topic or whether a non-detailed person accidentally posted about the topic is also distinguished. Can not.
本発明は、このような従来の問題を解決するためになされ、従来の特徴量に新たな特徴量を加えて信憑性の判定精度を高めることを解決課題としている。 The present invention has been made to solve such a conventional problem, and an object of the present invention is to increase the reliability determination accuracy by adding a new feature amount to the conventional feature amount.
本発明の情報信憑性判定システムは、過去文書群の著者特性を示す著者トピックを保存する第1データベースを参照し、入力文書に該当する著者トピックがあれば該著者トピックを抽出する著者トピック抽出部と、過去文書群の単語特性を示す単語トピックを保存する第2データベースから入力文書に含まれる単語の単語トピックを取得し、入力文書の特性を示す文書トピックを抽出する文書トピック抽出部と、前記著者トピックと前記文書トピックとの類似度を加味した特徴量を入力文書に付与する特徴量付与部と、過去文書に付与された前記特徴量と教師データとを用いた機械学習で構築された信憑性判定器を保存する第3データベースと、第3データベースの信憑性判定器と入力文書に付与された前記特徴量とを用いて該入力文書の信憑性を判定する信憑性判定部と、を備える。 An information credibility determination system according to the present invention refers to a first database that stores an author topic indicating author characteristics of a past document group, and if there is an author topic corresponding to an input document, an author topic extraction unit extracts the author topic. A document topic extraction unit that acquires a word topic of a word included in an input document from a second database that stores a word topic indicating a word characteristic of a past document group, and extracts a document topic indicating a characteristic of the input document; A credibility constructed by machine learning using a feature value adding unit that gives an input document a feature value taking into account the similarity between the author topic and the document topic, and the feature value and teacher data given to the past document A third database that stores the sex determination unit, a credibility determination unit of the third database, and the feature value given to the input document. And a credibility determination unit determines sex.
本発明の情報信憑性判定方法は、過去文書群の著者特性を示す著者トピックを保存する第1データベースを参照し、入力文書に該当する著者トピックがあれば該著者トピックを抽出する著者トピック抽出ステップと、過去文書群の単語特性を示す単語トピックを保存する第2データベースから入力文書に含まれる単語の単語トピックを取得し、入力文書の特性を示す文書トピックを抽出する文書トピック抽出ステップと、前記著者トピックと前記文書トピックとの類似度を加味した特徴量を入力文書に付与する特徴量付与ステップと、過去文書に付与された前記特徴量と教師データとに基づく機械学習で構築された信憑性判定器を保存する第3データベースと、入力文書に付与された前記特徴量とを用いて該入力文書の信憑性を判定する信憑性判定ステップと、を有する。 The information credibility determination method of the present invention refers to a first database that stores an author topic indicating author characteristics of a past document group, and extracts an author topic if there is an author topic corresponding to the input document. A document topic extraction step of acquiring a word topic of a word included in the input document from a second database that stores a word topic indicating the word characteristics of the past document group, and extracting a document topic indicating the characteristics of the input document; Authenticity built by machine learning based on the feature value adding step that adds to the input document a feature value that takes into account the similarity between the author topic and the document topic, and the feature value and teacher data assigned to the past document A credential for determining the authenticity of the input document using the third database for storing the determiner and the feature value given to the input document. It has a determination step.
前記特徴量付与部と前記特徴量付与ステップにおいては、前記著者トピックと前記文書トピックとを加味した特徴量を入力文書に付与してもよい。また、前記著者トピック、前記文書トピック、前記著者トピックと前記文書トピックとの類似度を加味した特徴量を入力文書に付与してもよい。 In the feature amount assigning unit and the feature amount assigning step, a feature amount in consideration of the author topic and the document topic may be assigned to the input document. Further, the input document may be provided with a feature value that takes into account the author topic, the document topic, and the similarity between the author topic and the document topic.
なお、本発明は、前記システムとしてコンピュータを機能させるプログラムの態様としてもよい。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。 In addition, this invention is good also as an aspect of the program which makes a computer function as said system. This program can be provided through a network or a recording medium.
本発明によれば、従来の特徴量に新たな特徴量が加えられるため、信憑性の判定精度を高めることができる。 According to the present invention, since a new feature amount is added to the conventional feature amount, it is possible to improve the reliability determination accuracy.
以下、本発明の実施形態に係る情報信憑性判定システムを説明する。このシステムは、著者の特性(著者トピック)と、文書の特性(文書トピック)と、該両特性の類似度を従来の特徴量に追加し、該特徴量を用いて識別器(信憑性判定器)を構築する。したがって、新たな投稿文書があれば、同様に特徴量を抽出し、前記識別器にかけて信憑性を判定する。 Hereinafter, an information credibility determination system according to an embodiment of the present invention will be described. This system adds the characteristics of an author (author topic), the characteristics of a document (document topic), and the similarity of both characteristics to a conventional feature quantity, and uses the feature quantity to identify a classifier (credibility determination unit). ) Build. Therefore, if there is a new posted document, the feature amount is extracted in the same manner, and the authenticity is determined by the classifier.
≪システム構成≫
図1および図2に基づき前記情報信憑性判定システムの構成例を説明する。このシステムは、あらかじめ信憑性判定器を構築する図1の信憑性判定器構築装置1と、該信憑性判定器構築装置1の構築した信憑性判定器により投稿文書の信憑性を判定する信憑性判定装置2とを有している。
<< System configuration >>
A configuration example of the information credibility determination system will be described with reference to FIGS. 1 and 2. This system includes a credibility determiner
この両装置1,2は、それぞれコンピュータにより構成されている。ただし、それぞれの装置1,2を単一のコンピュータで構成する必要は無く、複数のコンピュータで構成してもよく、また両装置1,2を同じコンピュータで構成してもよい。
Both the
具体的には信憑性判定器構築装置1は、図1に示すように、トピック抽出部101,文書トピック抽出部102,類似度算出部103,特徴量付与部104,構築部105,特徴量抽出部106,投稿文書DB107,著者トピックDB108,単語トピックDB109,教師DB110,信憑性判定器DB111を構成部とする。
Specifically, as shown in FIG. 1, the credibility determiner
また、信憑性判定装置2は、類似度算出部103,特徴量付与部104,特徴量抽出部106,著者トピック抽出部201,信憑性判定部202,著者トピックDB108,単語トピックDB109,信憑性判定器DB111,信憑性DB206を構成部とする。
Further, the
したがって、前記両装置1,2は、構成部102〜104,106,108,109,111をお互いに共通して備えた装置構成からなる。また、前記各DB110,107〜109,111,206は、コンピュータの記憶装置(RAMやROMなどの主記憶装置,ハードディスクドライブ装置やソリッドステートドライブ装置などの補助記憶装置)に構築されている。
Therefore, both the
まず、信憑性判定器構築装置1の処理を概略説明すれば、トピック抽出部101は、過去の投稿文書を保存した投稿文書DB107の保存データを入力として著者トピックと単語トピックとを抽出する。この抽出結果を著者トピックDB108と単語トピックDB109にそれぞれ保存する。
First, the process of the credibility determination
文書トピック抽出部102は、あらかじめ人手によって信憑性の有無が付与された過去の投稿文書(教師データ)を教師DB110から取得する。ここで取得した教師データに含まれる単語が持つ単語トピックを単語トピックDB109から取得し、取得した単語トピックを用いて文書トピックを抽出する。
The document
類似度算出部103は、著者トピックDB108に保存された著者トピックと、抽出した文書トピックとの類似度を算出する。特徴量抽出部106は、教師DB110の教師データから特徴量を抽出する。
The
特徴量付与部104は、特徴量抽出部106の抽出した特徴量に新たな特徴量として、著者トピック・文書トピック・該両トピックの類似度を付与する。構築部105は、特徴量付与部104の処理後の特徴量と、教師データに付与された信憑性の有無を示すラベルとから信憑性判定器を構築し、信憑性判定器DB111に保存する。
The feature
つぎに信憑性判定装置2の処理を概略説明すれば、著者トピック抽出部201は信憑性を判定したい投稿文書203を入力とし、その著者の著者トピックを著者トピックDB108から取得する。その際、その著者が著者トピックDB108に存在しない場合は、インターネット205を経由してウェブサイト204から投稿文書203と同じ著者の過去の投稿文書を取得する。
Next, the process of the
ここで取得した過去の投稿文書に含まれる単語の単語トピックを単語トピックDB109から取得し、取得した単語トピックを用いて入力された投稿文書の著者トピックを算出する。このとき過去の投稿文書が得られなければ、あらかじめ定められた初期値を著者トピックとして用いる。 The word topic of the word included in the past posted document acquired here is acquired from the word topic DB 109, and the author topic of the posted document input using the acquired word topic is calculated. At this time, if a past posted document cannot be obtained, a predetermined initial value is used as the author topic.
文書トピック抽出部102は、投稿文書203に含まれる単語が持つ単語トピックを単語トピックDB109から取得し、取得した単語トピックを用いて文書トピックを抽出する。類似度算出部103は、抽出した著者トピックと文書トピックとの類似度を算出する。特徴量抽出部106は、投稿文書203から特徴量を抽出する。
The document
特徴量付与部104は、特徴量抽出部106の抽出した特徴量に新たな特徴量として、著者トピック・文書トピック・両トピックの類似度を付与する。信憑性判定部202は、信憑性判定器DB111の信憑性判定器と、特徴量付与部104の処理後の特徴量とを用いて投稿文書203の信憑性を判定し、判定結果を信憑性DB206に保存する。
The feature
≪信憑性判定器構築装置1の処理内容≫
図3に基づき信憑性判定器構築装置1の処理内容(処理手順)を説明する。図3中のS101〜S104はトピック抽出部101の処理を示し、S105,S106は文書トピック抽出部102の処理を示している。
≪Processing content of authenticity determination
The processing content (processing procedure) of the credibility determination
また、S107は類似度算出部103の処理を示し、S108は特徴量抽出部106の処理を示し、S109は特徴量付与部104の処理を示し、S110,S111は構築部105の処理を示している。
S107 indicates the processing of the
S101:まず、処理が開始されると投稿文書DB107にアクセスし、該DB107に保存されたすべての投稿文書を取得する。
S101: First, when processing is started, the posted
表1は投稿文書DBのデータ構造例を示している。ここでは各投稿文書は、文書を識別できるユニークなIDの文書IDと、該投稿文書を記述したと著者を識別できるユニークなIDの著者IDと、投稿日時とペアに保存されている。なお、これら以外のメタ情報を併せて保存してもよい。 Table 1 shows an example of the data structure of the posted document DB. Here, each posted document is stored in a pair with a document ID of a unique ID that can identify the document, an author ID of a unique ID that can identify the author when the posted document is described, and a posting date and time. Meta information other than these may be stored together.
S102:S101で取得した投稿文書群から著者トピックと単語トピックとを抽出する。ここでは一例として機械学習の教師なし学習の「Latent Dirichlet Allocation(LDA)」(非特許文献2参照)を利用した抽出方法を説明する。 S102: An author topic and a word topic are extracted from the posted document group acquired in S101. Here, as an example, an extraction method using “Lent Dirichlet Allocation (LDA)” (see Non-Patent Document 2) of unsupervised learning of machine learning will be described.
まず、著者ごとに投稿文書が1つになるように投稿文書を連結する。ここでは著者ごとに複数の投稿文書を一つの投稿文書として連結するため、「著者数=投稿文書数D」の関係が成立する。 First, the posted documents are linked so that there is one posted document for each author. Here, since a plurality of posted documents are linked as one posted document for each author, the relationship “number of authors = number of posted documents D” is established.
つぎに非特許文献3の「MeCab」などの形態素解析器を用いて連結した投稿文書を形態素解析し、あらかじめ人手によって定められた品詞の形態素(単語)の出現頻度をカウントする。 Next, morphological analysis is performed on post documents linked using a morphological analyzer such as “MeCab” of Non-Patent Document 3, and the frequency of appearance of morphemes (words) of parts of speech predetermined in advance is counted.
このとき単語は、前記定められた品詞をそのまま用いてもよく、基幹表現に変換して用いてもよい。また、あらかじめ人手によってストップワードを設定し、それに含まれる単語を除外してもよく、出現頻度があらかじめ人手によって定められた一定数を下回る場合は、その単語を除外してもよい。 At this time, as the word, the predetermined part of speech may be used as it is, or may be converted into a basic expression and used. In addition, a stop word may be set manually in advance, and the words included in the stop word may be excluded. If the appearance frequency falls below a predetermined number determined in advance by hand, the word may be excluded.
こうして得られた単語出現頻度と著者の関係を行列に表現し、それを「LDA」の入力とすると、著者トピック「θdt」および単語トピック「θwt」は式(1)(2)のように得られる。 When the relationship between the word appearance frequency and the author obtained in this way is expressed in a matrix and is used as an input for “LDA”, the author topic “θ dt ” and the word topic “θ wt ” are expressed by equations (1) and (2). Is obtained.
ここで「d∈D」は投稿文書を示し、「w∈W」は単語を示し、「t∈T」はトピックを示し、「α」および「β」は予め定められたハイパーパラメータを示している。また、「Cdt DT」は現在着目している単語(前記定められた品詞の形態素)「w」が持つトピック「t」を除き、連結された投稿文書「d」に含まれる単語が持つトピックの出現回数をカウントしたものを示している。 Here, “d∈D” indicates a posted document, “w∈W” indicates a word, “t∈T” indicates a topic, “α” and “β” indicate predetermined hyperparameters. Yes. “C dt DT ” is a topic that a word included in the concatenated posted document “d” has, except for the topic “t” that the currently focused word (the morpheme of the determined part of speech) “w” has. The number of occurrences of is counted.
トピックの数「|T|」は、人手によってあらかじめ定めるものとする。また、「|W|」は、連結された投稿文書に含まれる単語の種類数なので、自動的に求めることができる。 The number of topics “| T |” is determined in advance by hand. Also, “| W |” can be automatically obtained because it is the number of types of words included in the linked posted documents.
ただし、著者トピック「θdt」および単語トピック「θwt」は、行列分解により求められるので、著者単位に処理することはできない。すなわち、入力として与えられた投稿文書集合「D」や、それに含まれる単語集合「W」に応じて後述の表2,表3のような確率分布が一度に求められる。 However, the author topic “θ dt ” and the word topic “θ wt ” are obtained by matrix decomposition and cannot be processed in units of authors. That is, probability distributions as shown in Tables 2 and 3 to be described later are obtained at a time according to the posted document set “D” given as input and the word set “W” included therein.
なお、「NMF(Non−negative Matrix Factorization)」など「LDA」以外の教師なし学習や、「Naive Bayes」や「Support Vector Machine(SVM)」などの教師あり学習を用いてもよい。ただし、教師あり学習を用いる場合は、人手によってあらかじめ政治、経済などのトピックを具体的に定め、それらのラベルが付与された過去の投稿文書を用意する必要がある。 Note that unsupervised learning other than “LDA” such as “NMF (Non-negative Matrix Factorization)” or supervised learning such as “Native Bayes” or “Support Vector Machine (SVM)” may be used. However, when using supervised learning, it is necessary to manually define topics such as politics and economy in advance by hand and prepare past posted documents to which those labels have been assigned.
S103,S104:S102の式(1)で算出した著者トピック「θdt」を著者トピックDB108に保存する(S103)。また、S102の式(2)で算出した単語トピック「θwt」を単語トピックDB109に保存する(S104)。 S103, S104: The author topic “θ dt ” calculated by the equation (1) of S102 is stored in the author topic DB 108 (S103). Further, the word topic “θ wt ” calculated by the equation (2) in S102 is stored in the word topic DB 109 (S104).
表2は、著者トピックDB108のデータ構造例を示している。ここでは著者を識別できるユニークなIDの著者ID毎にトピック数「|T|」に応じた個数のトピック確率が保存されている。
Table 2 shows an example of the data structure of the
表3は、単語トピックDB109のデータ構造例を示している。ここでは単語を識別できるユニークなIDの単語ID毎に該単語IDが示す単語と、トピック数「|T|」に応じた個数のトピック確率とが保存されている。
Table 3 shows an example of the data structure of the
S105:教師DB110から教師データを取得する。
S105: Obtain teacher data from the
表4は、教師DB110のデータ構造例を示している。この教師DB110には、表1に示す投稿文書DB107のデータ構造に加えて、人手によって予め付与された信憑性の有無を示すラベルが保存されている。
Table 4 shows an example of the data structure of the
ここでは「1」は「信憑性あり」を示し、「0」は「信憑性無し」を示している。ただし、「0」また「1」の表示には限定されず、順序変数や連続変数となる値でもよい。 Here, “1” indicates “with credibility” and “0” indicates “without credibility”. However, the display is not limited to “0” or “1”, and may be an order variable or a continuous variable.
S106:S105で取得した教師データと、単語トピックDB109に保存された単語トピックとを用いて、文書トピックを算出する。文書トピック「Ψdt」は、式(3)により求められる。
S106: A document topic is calculated using the teacher data acquired in S105 and the word topic stored in the
ここで「w∈Wd」は入力された投稿文書に含まれる単語数を示している。ここで「Wd」が空集合でなければ、入力された投稿文書に出現した単語が持つ単語トピックの総和を取り、それをトピックでの総和で除算することで正規化し、文書トピックを求める。 Here, “w∈W d ” indicates the number of words included in the input posted document. Here, if “W d ” is not an empty set, the sum of word topics held by words appearing in the input posted document is taken and normalized by dividing the sum by the sum of topics to obtain a document topic.
この文書トピックは、著者トピックと同様にT個の確率変数を持つ確率分布となっている。すなわち、1文書1トピックではなく、各文書が複数のトピック確率を持つ(例:政治0.5,経済0.2,...など)。文書トピックは教師データ毎に算出することができる。 Similar to the author topic, this document topic has a probability distribution having T random variables. That is, each document has a plurality of topic probabilities instead of one topic per document (eg, political 0.5, economy 0.2,..., Etc.). The document topic can be calculated for each teacher data.
なお、「Wd」が空集合であれば、単語トピックから文書トピックを求めることができないので、一様分布のトピック確率を持つとする。 If “W d ” is an empty set, a document topic cannot be obtained from a word topic, and it is assumed that the topic probabilities have a uniform distribution.
S107:著者トピックと文書トピックとの類似度を算出する。ここでは一例として「Jensen−Shannon Divergence(JSD)」を用いた類似度の算出方法を説明する。 S107: The similarity between the author topic and the document topic is calculated. Here, a similarity calculation method using “Jensen-Shannon Divergence (JSD)” will be described as an example.
「JSD」は2つの確率分布の差を測る尺度を示し、式(6)の「Kullback_Leibler Divergence(KLD)」を用いて、式(5)のように定義される。「KLD」は引数の順番によって値が変わるのに対し、そうならないように定義したのが「JSD」である。 “JSD” indicates a scale for measuring a difference between two probability distributions, and is defined as Equation (5) by using “Kullback_Leibler Divergence (KLD)” of Equation (6). The value of “KLD” changes depending on the order of the arguments, whereas “JSD” is defined so that it does not.
「JSD」は[0,1]の値域を持ち、2つの確率分布が似ているほど「0」に近い値を取る。したがって、類似度「S」は式(4)のように「1」から「JSD」を減算した値として求めることができる。なお、著者トピックと文書トピックは、表2および表4に示すように、T個の確率変数を持つ確率分布なため、「JSD」によって両トピックの差を測ると、その値はスカラーとなる。 “JSD” has a value range of [0, 1], and takes a value closer to “0” as two probability distributions are more similar. Therefore, the similarity “S” can be obtained as a value obtained by subtracting “JSD” from “1” as in Expression (4). Since the author topic and the document topic are probability distributions having T random variables as shown in Table 2 and Table 4, when the difference between the two topics is measured by “JSD”, the value is a scalar.
もっとも、「JSD」の代わりに「KLD」を用いたり、類似度を「Cosine Similarity」などを用いたりして求めてもよい。また、確率分布同士を比較するのではなく、確率分布の中から確率値の高い順に「K(0<K<T)」個のトピックを選出し、それらの類似度を求めてもよい。さらに確率分布同士の自乗誤差を求めてもよい。 However, “KLD” may be used instead of “JSD”, or the degree of similarity may be obtained by using “Cosine Similarity” or the like. Instead of comparing probability distributions, “K (0 <K <T)” topics may be selected from the probability distributions in descending order of probability values, and their similarity may be obtained. Further, a square error between probability distributions may be obtained.
S108:教師DB110から教師データを取得し、特徴量を抽出する。この特徴量は、信憑性の有無に応じて変化することが予想される計量可能な変数を用いて、教師データをベクトル表現化したものとする。
S108: Teacher data is acquired from the
表4の「文書ID=4,5」の教師データに基づき処理例を説明すれば、「文書ID=4」の教師データはURLが記述され、投稿文書長が67文字からなる。一方、「文書ID=5」の教師データは「URL」は記述されていなく、投稿文書長が63文字からなる。 A processing example will be described based on the teacher data of “Document ID = 4, 5” in Table 4. The teacher data of “Document ID = 4” describes a URL and has a posted document length of 67 characters. On the other hand, “URL” is not described in the teacher data of “document ID = 5”, and the posted document length is 63 characters.
したがって、両教師データを「URL」の有無と投稿文書長という2つの変数でベクトル表現すると、「d4=(1,67)」と「d5=(0,63)」と表され、これが特徴量となる。 Therefore, when both teacher data are expressed as vectors with two variables, the presence / absence of “URL” and the posted document length, “d 4 = (1, 67)” and “d 5 = (0, 63)” are represented. This is a feature value.
ただし、前記両変数以外にも投稿文書長・URLの有無・ネガポジ表現などの投稿文書にもとづく特徴量、あるいはアカウント作成日・総投稿数・友人数などの著者にもとづく特徴量やトレンドにもとづく特徴量、情報伝播にもとづく特徴量など様々なものを用いることができるものとする。言い換えれば、信憑性の有無に応じて変化することが予想され、計量可能であればどんな変数を用いてもよい。 However, in addition to the above variables, features based on the submitted document length, presence / absence of URL, negative / positive expression, etc., or feature based on the author such as account creation date, total number of posts, number of friends, etc. It is assumed that various things such as quantity and feature quantity based on information propagation can be used. In other words, it is expected to change depending on the presence or absence of credibility, and any variable can be used as long as it can be measured.
S109:著者トピックAT「θdt」・文書トピックDT「Ψdt」・類似度S「S(θdt,Ψdt)」を新たな特徴量として元の特徴量、即ちS108で求めた特徴量に付与する。 S109: The author topic AT “θ dt ”, the document topic DT “Ψ dt ”, and the similarity S “S (θ dt , Ψ dt )” are used as the new feature values to obtain the original feature values, that is, the feature values obtained in S108. Give.
前述の「文書ID=4,5」の教師データ例に基づき説明すれば、元の特徴量「d4=(1,67)」と「d5=(0,63)」とは、それぞれ「d4=(1,67,ATd4,DTd4,S(θ4t,Ψ4t)」と「d5=(0,63,ATd5,DTd5,S(θ5t,Ψ5t)」とに新しく置き換わる。これにより特徴量の次元数は、「2」から「2|T|+3」へ増加する。 To explain based on the teacher data example of “document ID = 4, 5”, the original feature amount “d 4 = (1, 67)” and “d 5 = (0, 63)” are respectively “ d 4 = (1, 67, AT d4 , DT d4 , S (θ 4t , Ψ 4t ) ”and“ d 5 = (0, 63, AT d5 , DT d5 , S (θ 5t , Ψ 5t ) ”. As a result, the number of dimensions of the feature amount increases from “2” to “2 | T | +3”.
S110,S111:機械学習の教師あり学習を用いて、S109の処理後の特徴量と教師DB110に保存された教師データの信憑性を示すラベルとから信憑性判定器を構築する(S110)。ここでは「Naive Bayes」や「Support Vector Machine(SVM)」など、どのような教師あり学習を用いてもよいものとする。学習の結果、構築された信憑性判定器を信憑性判定器DB111に保存し、処理を終了する。
S110, S111: Using machine learning supervised learning, a credibility determiner is constructed from the feature value after the processing of S109 and a label indicating the credibility of the teacher data stored in the teacher DB 110 (S110). In this case, any supervised learning such as “Native Bayes” or “Support Vector Machine (SVM)” may be used. As a result of learning, the constructed credibility determiner is stored in the
≪信憑性判定装置2の処理内容≫
図4に基づき信憑性判定装置2の処理内容(処理手順)を説明する。ここではユーザは、ユーザ所有の端末(スマートフォン,PC)からネットワーク経由(インターネット205経由でよい。)で信憑性を判定したい文書203を信憑性判定装置2に投稿する。この投稿文書203の入力を信憑性判定装置2が受け付けると、その信憑性判定の処理が開始される。
<< Processing content of
The processing content (processing procedure) of the
なお、図4中、S201〜S206は著者トピック抽出部201の処理を示し、S207は文書トピック抽出部102の処理を示し、S208は類似度算出部103の処理を示し、S209は特徴量抽出部106の処理を示し、S210は特徴量付与部104の処理を示し、S211,S212は信憑性判定部202の処理を示している。
In FIG. 4, S201 to S206 indicate processing of the author
S201:処理が開始されると、受け付けた投稿文書203の著者が、著者トピックDB108に存在するか否かを確認する。確認の結果、存在する場合はS202に進む一方、存在しない場合はS203に進む。
S201: When the process is started, it is confirmed whether or not the author of the accepted posted
S202:著者トピックDB108から該当する著者トピックを取得し、S207に進む。
S202: The corresponding author topic is acquired from the
S203,S204:インターネットを経由して投稿文書203と同じ著者の過去の投稿文書をウェブサイトから取得できるか否かを確認する(S203)。確認の結果、取得できなければS206に進む一方、取得できればS204に進む。S204では、インターネット205を経由してS203で確認した過去の投稿文書をウェブサイトから取得し、S205に進む。
S203, S204: It is confirmed whether a past posted document of the same author as the posted
S205:S204で取得した過去の投稿文書すべてに含まれる単語集合と、単語トピックDB109に保存された単語トピックとを用いて、式(3)により文書トピックを算出する。ここで算出された値を著者トピックとし、S207に進む。
S205: Using the word set included in all past posted documents acquired in S204 and the word topic stored in the
S206:あらかじめ定められた方法で著者トピックを初期化する。例えば、一様分布を用いる。この場合には著者トピックとして、著者トピックDB108に保存された全著者の著者トピックの平均値を用いてS207に進む。なお、著者トピックとして他の手段を用いてもよいものとする。
S206: The author topic is initialized by a predetermined method. For example, a uniform distribution is used. In this case, the process proceeds to S207 using the average value of the author topics of all authors stored in the
S207:投稿文書203に含まれる単語集合と、単語トピックDB109に保存された単語トピック確率とを用いて、式(3)により文書トピックを算出する。
S207: Using the word set included in the posted
S208:著者トピックと文書トピックを用いて、式(4)により類似度を算出する。 S208: Using the author topic and the document topic, the similarity is calculated by equation (4).
S209:投稿文書203から特徴量を抽出する。このS209の処理は、入力データが異なるだけで、S108と同様な処理を実行する。
S209: Feature values are extracted from the posted
S210:S202/S205/S206の著者トピックと、S207の文書トピックと、S208の類似度とを新たな特徴量として元の特徴量(S209の特徴量)に付与する。ここでは入力データが異なるだけで、S109と同様な処理を実行する。 S210: The author topic in S202 / S205 / S206, the document topic in S207, and the similarity in S208 are added to the original feature (feature in S209) as a new feature. Here, only the input data is different, and processing similar to S109 is executed.
S211,S212:信憑性判定器DB111に保存された信憑性判定器と、S210の特徴量とを用いて投稿文書203の信憑性を判定する(S211)。この判定処理は、S110で信憑性判定器を構築する際に使用した教師あり学習に依存する。判定結果は、信憑性DB206に保存される(S212)。
S211, S212: The credibility of the posted
表5は、信憑性DB206のデータ構造例を示している。ここでは文書を識別できるユニークなIDの文書ID毎に投稿文書の著者を識別可能なユニークなIDの著者IDと、投稿日時と、信憑性の有無と、信憑性判定の確信度とが保存されている。ここで確信度は、S211で信憑性を判定した際の教師あり学習における分類確率を用いる。なお、これら以外のメタデータを保存してもよいものとする。
Table 5 shows an example of the data structure of the
このような本実施形態の前記情報信憑性判定システムによれば、投稿文書の信憑性判定にあたって、従来の特徴量に新たな特徴量が加えられているため、信憑性の判定精度を高めることができる。 According to the information credibility determination system of the present embodiment as described above, since a new feature amount is added to the conventional feature amount in the determination of the credibility of the posted document, it is possible to improve the determination accuracy of the credibility. it can.
(1)すなわち、信憑性判定にあたって専門性(著者トピック)に関する特徴量を考慮しないと、投稿文書の話題に詳しい人とそうでない人を区別できず信憑性の判定精度が低下するおそれがあった。 (1) In other words, if the characteristic amount related to expertise (author topic) is not taken into account in determining credibility, it is impossible to distinguish between those who are familiar with the topic of the submitted document and those who are not, and there is a risk that the accuracy of credibility determination will decrease. .
そこで、前記情報信憑性判定システムでは、S109,S210にて過去の投稿文書から得た著者トピックを新たな特徴量として加えることとした。これにより信憑性判定にあたって専門性が考慮され(S110,S211)、判定精度の向上が可能となった。 Therefore, in the information credibility determination system, the author topic obtained from the past posted document is added as a new feature amount in S109 and S210. As a result, expertise is taken into account in the determination of authenticity (S110, S211), and the determination accuracy can be improved.
(2)また、投稿文書の話題(文書トピック)に関する特徴量が考慮されていないと、信用できる話題と疑ってかかるべき話題の区別ができず、信憑性の判断精度が低下するおそれがあった。 (2) In addition, if the feature amount related to the topic (document topic) of the posted document is not taken into consideration, it is not possible to distinguish between a topic that can be trusted and a topic that should be suspected, and there is a possibility that the accuracy of determination of authenticity may be lowered. .
そこで、前記情報信憑性判定システムでは、S109,S210にて文書トピックを新たな特徴量として加えることとした。これにより信憑性判定にあたって投稿文書の話題が考慮され(S110,S211)、判定精度の向上が可能となった。 Therefore, in the information credibility determination system, the document topic is added as a new feature amount in S109 and S210. As a result, the topic of the posted document is taken into consideration when determining the authenticity (S110, S211), and the determination accuracy can be improved.
(3)さらに専門性と投稿文書の話題との類似性に関する特徴量が考慮されていないと、詳しい人がその話題に関して投稿したのか、あるいは詳しくない人がたまたまその話題に関して投稿したのかを区別できないため、信憑性の判定精度が低下するおそれがあった。 (3) Furthermore, if the feature quantity related to the similarity between the expertise and the topic of the submitted document is not taken into account, it cannot be distinguished whether a detailed person has posted about the topic or a non-detailed person has happened to post about the topic. For this reason, there is a possibility that the determination accuracy of credibility may be lowered.
そこで前記情報信憑性判定システムでは、S107,S208にて著者トピックと文書トピックの類似度を算出し、さらにS109,S210にて新たな特徴量として加えることとした。これにより信憑性判定にあたって専門性と投稿文書の話題との類似性が考慮され(S110,S211)、判定精度の向上が可能となった。 Therefore, in the information credibility determination system, the similarity between the author topic and the document topic is calculated in S107 and S208, and further added as a new feature amount in S109 and S210. As a result, the similarity between the specialty and the topic of the posted document is taken into account when determining the authenticity (S110, S211), and the determination accuracy can be improved.
≪プログラム等≫
本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で応用・変形して実施することができる。例えばS109,S210において著者トピック・文書トピック・類似度のすべてを新たな特徴量として追加する必要はなく、著者トピックと文書トピックとの追加でもよく、あるいは類似度のみの追加でもよい。この場合には、追加する特徴量に応じて前記(1)〜(3)の効果が得られる。
≪Programs≫
The present invention is not limited to the above-described embodiments, and can be applied and modified within the scope of the claims. For example, in S109 and S210, it is not necessary to add all of the author topic / document topic / similarity as new feature amounts, and the author topic and document topic may be added, or only the similarity may be added. In this case, the effects (1) to (3) can be obtained according to the feature amount to be added.
また、本発明は、前記情報信憑性判定システム(信憑性判定器構築装置1,信憑性判定装置2)の各構成部101〜111,201,202,206の一部もしくは全部として、コンピュータを機能させる情報信憑性判定プログラムとして構成することもできる。このプログラムによれば、S101〜S111,S201〜S212の一部あるいは全部をコンピュータに実行させることが可能となる。
The present invention also functions as a computer as a part or all of each
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。 The program can be provided through a network such as a website or e-mail. The program is stored in a recording medium such as a CD-ROM, DVD-ROM, CD-R, CD-RW, DVD-R, DVD-RW, MO, HDD, BD-ROM, BD-R, or BD-RE. It is also possible to record, save and distribute. This recording medium is read using a recording medium driving device, and the program code itself realizes the processing of the above embodiment, so that the recording medium also constitutes the present invention.
1…信憑性判定器構築装置
2…信憑性判定装置
101…トピック抽出部
102…文書トピック抽出部
103…類似度算出部
104…特徴量付与部
105…構築部
106…特徴量抽出部
107…投稿文書DB
108…著者トピックDB(第1データベース)
109…単語トピックDB(第2データベース)
110…教師DB
111…信憑性判定器DB(第3データベース)
201…著者トピック抽出部
202…信憑性判定部
203…投稿文書(入力文書)
204…ウェブサイト
205…インターネット
206…信憑性DB
DESCRIPTION OF
108… Author topic DB (first database)
109 ... Word topic DB (second database)
110 ... Teacher DB
111 ... authenticity determination unit DB (third database)
201: Author
204 ...
Claims (7)
過去文書群の単語特性を示す単語トピックを保存する第2データベースから入力文書に含まれる単語の単語トピックを取得し、入力文書の特性を示す文書トピックを抽出する文書トピック抽出部と、
前記著者トピックと前記文書トピックとの類似度を加味した特徴量を入力文書に付与する特徴量付与部と、
過去文書に付与された前記特徴量と教師データとを用いた機械学習で構築された信憑性判定器を保存する第3データベースと、
第3データベースの信憑性判定器と入力文書に付与された前記特徴量とを用いて該入力文書の信憑性を判定する信憑性判定部と、
を備えることを特徴とする情報信憑性判定システム。 An author topic extraction unit that refers to a first database that stores an author topic indicating author characteristics of past document groups and extracts the author topic if there is an author topic corresponding to the input document;
A document topic extraction unit that acquires a word topic of a word included in an input document from a second database that stores a word topic indicating a word characteristic of a past document group, and extracts a document topic indicating a characteristic of the input document;
A feature amount assigning unit that assigns to the input document a feature amount that takes into account the similarity between the author topic and the document topic;
A third database for storing a credibility determiner constructed by machine learning using the feature amount and teacher data assigned to a past document;
A credibility determination unit that determines the credibility of the input document using the credibility determination unit of the third database and the feature value given to the input document;
An information credibility determination system comprising:
過去文書群の単語特性を示す単語トピックを保存する第2データベースから入力文書に含まれる単語の単語トピックを取得し、入力文書の特性を示す文書トピックを抽出する文書トピック抽出部と、
前記著者トピックと前記文書トピックとを加味した特徴量を入力文書に付与する特徴量付与部と、
過去文書に付与された前記特徴量と教師データとを用いた機械学習で構築された信憑性判定器を保存する第3データベースと、
第3データベースの信憑性判定器と入力文書に付与された前記特徴量とを用いて該入力文書の信憑性を判定する信憑性判定部と、
を備えることを特徴とする情報信憑性判定システム。 An author topic extraction unit that refers to a first database that stores an author topic indicating author characteristics of past document groups and extracts the author topic if there is an author topic corresponding to the input document;
A document topic extraction unit that acquires a word topic of a word included in an input document from a second database that stores a word topic indicating a word characteristic of a past document group, and extracts a document topic indicating a characteristic of the input document;
A feature amount assigning unit for giving an input document a feature amount in consideration of the author topic and the document topic;
A third database for storing a credibility determiner constructed by machine learning using the feature amount and teacher data assigned to a past document;
A credibility determination unit that determines the credibility of the input document using the credibility determination unit of the third database and the feature value given to the input document;
An information credibility determination system comprising:
入力文書の著者トピックが第1データベースに存在すれば該著者トピックを抽出する一方、存在しなければウェブサイト経由で入力文書と同じ著者の過去文書を取得して著者トピックを抽出する著者トピック抽出部と、
第2データベースから入力文書に含まれる単語の単語トピックを取得し、入力文書の特性を示す文書トピックを抽出する文書トピック抽出部と、
前記著者トピック、前記文書トピック、前記著者トピックと前記文書トピックとの類似度を加味した特徴量を入力文書に付与する特徴量付与部と、
過去文書に付与された前記特徴量と教師データとを用いた機械学習で構築された信憑性判定器を格納する第3データベースと、
第3データベースの信憑性判定器と入力文書に付与された前記特徴量とを用いて該入力文書の信憑性を判定する信憑性判定部と、
を備えることを特徴とする情報信憑性判定システム。 An information credibility determination system comprising: a first database storing an author topic indicating an author characteristic of a past document group; and a second database storing a word topic indicating a word characteristic of the past document group,
If the author topic of the input document exists in the first database, the author topic extraction unit extracts the author topic, and if not, acquires the past document of the same author as the input document via the website and extracts the author topic. When,
A document topic extraction unit that acquires a word topic of a word included in the input document from the second database, and extracts a document topic indicating characteristics of the input document;
A feature amount assigning unit that assigns to the input document a feature amount that takes into account the similarity between the author topic, the document topic, and the author topic and the document topic;
A third database for storing a credibility determiner constructed by machine learning using the feature amount and teacher data given to a past document;
A credibility determination unit that determines the credibility of the input document using the credibility determination unit of the third database and the feature value given to the input document;
An information credibility determination system comprising:
過去文書群の著者特性を示す著者トピックを保存する第1データベースを参照し、入力文書に該当する著者トピックがあれば該著者トピックを抽出する著者トピック抽出ステップと、
過去文書群の単語特性を示す単語トピックを保存する第2データベースから入力文書に含まれる単語の単語トピックを取得し、入力文書の特性を示す文書トピックを抽出する文書トピック抽出ステップと、
前記著者トピックと前記文書トピックとの類似度を加味した特徴量を入力文書に付与する特徴量付与ステップと、
過去文書に付与された前記特徴量と教師データとに基づく機械学習で構築された信憑性判定器を保存する第3データベースと、入力文書に付与された前記特徴量とを用いて該入力文書の信憑性を判定する信憑性判定ステップと、
を有することを特徴とする情報信憑性判定方法。 An information credibility determination method for determining the authenticity of an input document by a computer,
An author topic extraction step of referring to a first database storing an author topic indicating author characteristics of past document groups and extracting the author topic if there is an author topic corresponding to the input document;
A document topic extracting step of acquiring a word topic of a word included in the input document from the second database for storing a word topic indicating the word characteristic of the past document group, and extracting a document topic indicating the characteristic of the input document;
A feature amount assigning step for giving an input document a feature amount that takes into account the degree of similarity between the author topic and the document topic;
A third database that stores a credibility determiner constructed by machine learning based on the feature amount and teacher data assigned to the past document, and the feature amount assigned to the input document is used for the input document. A credibility determination step for determining credibility;
An information credibility determination method characterized by comprising:
過去文書群の著者特性を示す著者トピックを保存する第1データベースを参照し、入力文書に該当する著者トピックがあれば該著者トピックを抽出する著者トピック抽出ステップと、
過去文書群の単語特性を示す単語トピックを保存する第2データベースから入力文書に含まれる単語の単語トピックを取得し、入力文書の特性を示す文書トピックを抽出する文書トピック抽出ステップと、
前記著者トピックと前記文書トピックとを加味した特徴量を入力文書に付与する特徴量付与ステップと、
過去文書に付与された前記特徴量と教師データとに基づく機械学習で構築された信憑性判定器を保存する第3データベースと、入力文書に付与された前記特徴量とを用いて該入力文書の信憑性を判定する信憑性判定ステップと、
を有することを特徴とする情報信憑性判定方法。 An information credibility determination method for determining the authenticity of an input document by a computer,
An author topic extraction step of referring to a first database storing an author topic indicating author characteristics of past document groups and extracting the author topic if there is an author topic corresponding to the input document;
A document topic extracting step of acquiring a word topic of a word included in the input document from the second database for storing a word topic indicating the word characteristic of the past document group, and extracting a document topic indicating the characteristic of the input document;
A feature amount assigning step for assigning an input document with a feature amount that takes into account the author topic and the document topic;
A third database that stores a credibility determiner constructed by machine learning based on the feature amount and teacher data assigned to the past document, and the feature amount assigned to the input document is used for the input document. A credibility determination step for determining credibility;
An information credibility determination method characterized by comprising:
過去文書の集合から抽出された著者トピックを格納する第1データベースと、過去文書の集合から取得された単語トピックを格納する第2データベースと、を利用して入力文書の信憑性を判定する情報信憑性判定方法であって、
入力文書の著者トピックが第1データベースに存在すれば該著者トピックを抽出する一方、存在しなければウェブサイト経由で入力文書と同じ著者の過去文書を取得して著者トピックを抽出する著者トピック抽出ステップと、
第2データベースから入力文書に含まれる単語の単語トピックを取得し、入力文書の特性を示す文書トピックを抽出する文書トピック抽出部と、
前記著者トピック、前記文書トピック、前記著者トピックと前記文書トピックとの類似度を加味した特徴量を入力文書に付与する特徴量付与ステップと、
過去文書に付与された前記特徴量と教師データとに基づく機械学習で構築された信憑性判定器を保存する第3データベースと、入力文書に付与された前記特徴量とを用いて該入力文書の信憑性を判定する信憑性判定ステップと、
を有することを特徴とする情報信憑性判定方法。 Computer
An information credential that determines the authenticity of an input document using a first database that stores author topics extracted from a set of past documents and a second database that stores word topics acquired from a set of past documents. A sex determination method,
If the author topic of the input document exists in the first database, the author topic is extracted. On the other hand, if the author topic does not exist, the past topic of the same author as the input document is obtained via the website and the author topic is extracted. When,
A document topic extraction unit that acquires a word topic of a word included in the input document from the second database, and extracts a document topic indicating characteristics of the input document;
A feature amount assigning step for assigning to the input document a feature amount taking into account the similarity between the author topic, the document topic, and the author topic and the document topic;
A third database that stores a credibility determiner constructed by machine learning based on the feature amount and teacher data assigned to the past document, and the feature amount assigned to the input document is used for the input document. A credibility determination step for determining credibility;
An information credibility determination method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014234089A JP6321529B2 (en) | 2014-11-19 | 2014-11-19 | Information credibility judgment system, information credibility judgment method, information credibility judgment program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014234089A JP6321529B2 (en) | 2014-11-19 | 2014-11-19 | Information credibility judgment system, information credibility judgment method, information credibility judgment program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016099685A true JP2016099685A (en) | 2016-05-30 |
JP6321529B2 JP6321529B2 (en) | 2018-05-09 |
Family
ID=56077925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014234089A Active JP6321529B2 (en) | 2014-11-19 | 2014-11-19 | Information credibility judgment system, information credibility judgment method, information credibility judgment program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6321529B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020508518A (en) * | 2017-02-21 | 2020-03-19 | ソニー・インタラクティブエンタテインメント エルエルシー | How to determine the authenticity of news |
JP2021026551A (en) * | 2019-08-06 | 2021-02-22 | Fringe81株式会社 | Post management server and post management system |
JP2023001164A (en) * | 2017-03-29 | 2023-01-04 | シンクサイト株式会社 | Measurement system |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014134944A (en) * | 2013-01-10 | 2014-07-24 | Tokyo Denki Univ | Information determination device, information determination method, and program |
-
2014
- 2014-11-19 JP JP2014234089A patent/JP6321529B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014134944A (en) * | 2013-01-10 | 2014-07-24 | Tokyo Denki Univ | Information determination device, information determination method, and program |
Non-Patent Citations (3)
Title |
---|
HONG, LIANGJIE AND DAVISON, BRIAN. D.: "Empirical Study of Topic Modeling in Twitter", PROCEEDINGS OF THE FIRST WORKSHOP ON SOCIAL MEDIA ANALYTICS (SOMA 2010), JPN7017003019, 25 July 2010 (2010-07-25), pages 80 - 88 * |
WAGNER, CLAUDIA ET AL.: "It's not in their tweets: Modeling topical expertise of Twitter users", 2012 INTERNATIONAL CONFERENCE ON SOCIAL COMPUTING AND 2012 INTERNATIONAL CONFERENCE ON PRIVACY, SECU, JPN6017035713, 3 September 2012 (2012-09-03), pages 91 - 100 * |
白井 匡人,他: ""LDAを用いた著者推定"", 第3回データ工学と情報マネジメントに関するフォーラム 論文集 [ONLINE], JPN6017035708, 27 July 2011 (2011-07-27) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020508518A (en) * | 2017-02-21 | 2020-03-19 | ソニー・インタラクティブエンタテインメント エルエルシー | How to determine the authenticity of news |
JP2021073621A (en) * | 2017-02-21 | 2021-05-13 | ソニー・インタラクティブエンタテインメント エルエルシー | Method for determining news veracity |
JP7206304B2 (en) | 2017-02-21 | 2023-01-17 | ソニー・インタラクティブエンタテインメント エルエルシー | How to identify the authenticity of news |
US12072943B2 (en) | 2017-02-21 | 2024-08-27 | Sony Interactive Entertainment LLC | Marking falsities in online news |
JP2023001164A (en) * | 2017-03-29 | 2023-01-04 | シンクサイト株式会社 | Measurement system |
JP7428994B2 (en) | 2017-03-29 | 2024-02-07 | シンクサイト株式会社 | measurement system |
JP2021026551A (en) * | 2019-08-06 | 2021-02-22 | Fringe81株式会社 | Post management server and post management system |
Also Published As
Publication number | Publication date |
---|---|
JP6321529B2 (en) | 2018-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mostafa | Clustering halal food consumers: A Twitter sentiment analysis | |
Aljarah et al. | Intelligent detection of hate speech in Arabic social network: A machine learning approach | |
US10504192B2 (en) | Systems and methods for influence of a user on content shared via an encoded uniform resource locator (URL) link | |
US11907274B2 (en) | Hyper-graph learner for natural language comprehension | |
US10810499B2 (en) | Method and apparatus for recommending social media information | |
Cohen et al. | Redundancy-aware topic modeling for patient record notes | |
US9111211B2 (en) | Systems and methods for relevance scoring of a digital resource | |
US10637826B1 (en) | Policy compliance verification using semantic distance and nearest neighbor search of labeled content | |
JP5990284B2 (en) | Spam detection system and method using character histogram | |
US9009256B1 (en) | Extraction and classification of user generated content | |
US9128896B2 (en) | Systems and methods for identifying phrases in digital content that are trending | |
US20130159298A1 (en) | System and method providing search results based on user interaction with content | |
US20110302103A1 (en) | Popularity prediction of user-generated content | |
Bashari et al. | Influential post identification on Instagram through caption and hashtag analysis | |
US9996504B2 (en) | System and method for classifying text sentiment classes based on past examples | |
US9524526B2 (en) | Disambiguating authors in social media communications | |
US10565311B2 (en) | Method for updating a knowledge base of a sentiment analysis system | |
US11086830B2 (en) | System and method for identifying duplicate document submission on a publishing platform | |
CN110569349A (en) | Big data-based method, system, equipment and storage medium for pushing articles for education | |
CN113934941A (en) | User recommendation system and method based on multi-dimensional information | |
JP6321529B2 (en) | Information credibility judgment system, information credibility judgment method, information credibility judgment program | |
US20180096436A1 (en) | Computing System for Automatically Obtaining Age Data in a Social Data Network | |
Kapočiūtė-Dzikienė et al. | Authorship attribution of internet comments with thousand candidate authors | |
JP6145064B2 (en) | Document set analysis device, document set analysis method, document set analysis program | |
Bobicev et al. | Can anonymous posters on medical forums be reidentified? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170919 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180403 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180405 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6321529 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |