JP6321529B2 - 情報信憑性判定システム、情報信憑性判定方法、情報信憑性判定プログラム - Google Patents

情報信憑性判定システム、情報信憑性判定方法、情報信憑性判定プログラム Download PDF

Info

Publication number
JP6321529B2
JP6321529B2 JP2014234089A JP2014234089A JP6321529B2 JP 6321529 B2 JP6321529 B2 JP 6321529B2 JP 2014234089 A JP2014234089 A JP 2014234089A JP 2014234089 A JP2014234089 A JP 2014234089A JP 6321529 B2 JP6321529 B2 JP 6321529B2
Authority
JP
Japan
Prior art keywords
topic
document
author
credibility
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014234089A
Other languages
English (en)
Other versions
JP2016099685A (ja
Inventor
伊藤 淳
淳 伊藤
浩之 戸田
浩之 戸田
義昌 小池
義昌 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014234089A priority Critical patent/JP6321529B2/ja
Publication of JP2016099685A publication Critical patent/JP2016099685A/ja
Application granted granted Critical
Publication of JP6321529B2 publication Critical patent/JP6321529B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子文書(以下、文書と省略する。)における情報の信憑性を判定する技術に関する。
周知のようにSNS(social networking service)の普及によって誰もが容易に情報を発信することが可能となったため、情報の信憑性が確認されないまま情報が流布され、デマの拡散などの風評被害の社会問題が生じている。
この問題に対しては、情報の信憑性を自動的に判別し、ユーザに提示できれば、その解決に貢献することができる。この信憑性判定の手法としては、非特許文献1が公知となっている。
非特許文献1には、投稿文書の長さ・URLの有無・ネガポジ表現などの投稿文書に基づく特徴量や、アカウント作成日・総投稿数・友人数などの著者に基づく特徴量、トレンドにもとづく特徴量・情報伝播にもとづく特徴量などを利用して信憑性を判定することが記載されている。
Carlos Castillo, Marcelo Mendoza and Barbara Poblete, "Information Credibility on Twitter", in Proceedings of WWW, pp. 675-684, 2011. David M. Blei, Andrew Y. Ng and Michael I. Jordan, "Latent Dirichlet Allocation", The Journal of Machine Learning Research, Vol. 3, pp. 993-1022, 2003. "MeCab:Yet Another Part-of-Speech and Morphological Analyzer MECab(和布蕪)とは"・[Online],[平成26年11月9日検索],インターネット<URFL: https://code.google.com/p/mecab/>
しかしながら、非特許文献1の手法では、以下に示す情報の信憑性を判定する重要な要素が考慮されていないため、判定精度が低下するおそれがある。
(1)すなわち、非特許文献1では、専門性(著者トピック)に関する特徴量が考慮されていない。したがって、信憑性判定にあたって投稿文書の話題に詳しい人と、そうでない人とを区別することができない。
(2)また、投稿文書の話題(文書トピック)に関する特徴量が考慮されておらず、信用できる話題と疑ってかかるべき話題との区別もできない。
(3)さらに専門性と投稿文書の話題との類似性に関する特徴量が考慮されておらず、詳しい人がその話題に関して投稿したのか、あるいは詳しくない人が偶然にその話題に関して投稿したのかも区別できない。
本発明は、このような従来の問題を解決するためになされ、従来の特徴量に新たな特徴量を加えて信憑性の判定精度を高めることを解決課題としている。
本発明の情報信憑性判定システムは、過去文書群の著者特性を示す著者トピックを保存する第1データベースを参照し、入力文書に該当する著者トピックがあれば該著者トピックを抽出する著者トピック抽出部と、過去文書群の単語特性を示す単語トピックを保存する第2データベースから入力文書に含まれる単語の単語トピックを取得し、入力文書の特性を示す文書トピックを抽出する文書トピック抽出部と、前記著者トピックと前記文書トピックとの類似度を加味した特徴量を入力文書に付与する特徴量付与部と、過去文書に付与された前記特徴量と教師データとを用いた機械学習で構築された信憑性判定器を保存する第3データベースと、第3データベースの信憑性判定器と入力文書に付与された前記特徴量とを用いて該入力文書の信憑性を判定する信憑性判定部と、を備える。
本発明の情報信憑性判定方法は、過去文書群の著者特性を示す著者トピックを保存する第1データベースを参照し、入力文書に該当する著者トピックがあれば該著者トピックを抽出する著者トピック抽出ステップと、過去文書群の単語特性を示す単語トピックを保存する第2データベースから入力文書に含まれる単語の単語トピックを取得し、入力文書の特性を示す文書トピックを抽出する文書トピック抽出ステップと、前記著者トピックと前記文書トピックとの類似度を加味した特徴量を入力文書に付与する特徴量付与ステップと、過去文書に付与された前記特徴量と教師データとに基づく機械学習で構築された信憑性判定器を保存する第3データベースと、入力文書に付与された前記特徴量とを用いて該入力文書の信憑性を判定する信憑性判定ステップと、を有する。
前記特徴量付与部と前記特徴量付与ステップにおいては、前記著者トピックと前記文書トピックとを加味した特徴量を入力文書に付与してもよい。また、前記著者トピック、前記文書トピック、前記著者トピックと前記文書トピックとの類似度を加味した特徴量を入力文書に付与してもよい。
なお、本発明は、前記システムとしてコンピュータを機能させるプログラムの態様としてもよい。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。
本発明によれば、従来の特徴量に新たな特徴量が加えられるため、信憑性の判定精度を高めることができる。
本発明の実施形態に係る情報信憑性判定システムの信憑性判定器構築装置の構成図。 同 信憑性判定装置の構成図。 同 信憑性判定器構築装置の処理内容を示すフローチャート。 同 信憑性判定装置の処理内容を示すフローチャート。
以下、本発明の実施形態に係る情報信憑性判定システムを説明する。このシステムは、著者の特性(著者トピック)と、文書の特性(文書トピック)と、該両特性の類似度を従来の特徴量に追加し、該特徴量を用いて識別器(信憑性判定器)を構築する。したがって、新たな投稿文書があれば、同様に特徴量を抽出し、前記識別器にかけて信憑性を判定する。
≪システム構成≫
図1および図2に基づき前記情報信憑性判定システムの構成例を説明する。このシステムは、あらかじめ信憑性判定器を構築する図1の信憑性判定器構築装置1と、該信憑性判定器構築装置1の構築した信憑性判定器により投稿文書の信憑性を判定する信憑性判定装置2とを有している。
この両装置1,2は、それぞれコンピュータにより構成されている。ただし、それぞれの装置1,2を単一のコンピュータで構成する必要は無く、複数のコンピュータで構成してもよく、また両装置1,2を同じコンピュータで構成してもよい。
具体的には信憑性判定器構築装置1は、図1に示すように、トピック抽出部101,文書トピック抽出部102,類似度算出部103,特徴量付与部104,構築部105,特徴量抽出部106,投稿文書DB107,著者トピックDB108,単語トピックDB109,教師DB110,信憑性判定器DB111を構成部とする。
また、信憑性判定装置2は、類似度算出部103,特徴量付与部104,特徴量抽出部106,著者トピック抽出部201,信憑性判定部202,著者トピックDB108,単語トピックDB109,信憑性判定器DB111,信憑性DB206を構成部とする。
したがって、前記両装置1,2は、構成部102〜104,106,108,109,111をお互いに共通して備えた装置構成からなる。また、前記各DB110,107〜109,111,206は、コンピュータの記憶装置(RAMやROMなどの主記憶装置,ハードディスクドライブ装置やソリッドステートドライブ装置などの補助記憶装置)に構築されている。
まず、信憑性判定器構築装置1の処理を概略説明すれば、トピック抽出部101は、過去の投稿文書を保存した投稿文書DB107の保存データを入力として著者トピックと単語トピックとを抽出する。この抽出結果を著者トピックDB108と単語トピックDB109にそれぞれ保存する。
文書トピック抽出部102は、あらかじめ人手によって信憑性の有無が付与された過去の投稿文書(教師データ)を教師DB110から取得する。ここで取得した教師データに含まれる単語が持つ単語トピックを単語トピックDB109から取得し、取得した単語トピックを用いて文書トピックを抽出する。
類似度算出部103は、著者トピックDB108に保存された著者トピックと、抽出した文書トピックとの類似度を算出する。特徴量抽出部106は、教師DB110の教師データから特徴量を抽出する。
特徴量付与部104は、特徴量抽出部106の抽出した特徴量に新たな特徴量として、著者トピック・文書トピック・該両トピックの類似度を付与する。構築部105は、特徴量付与部104の処理後の特徴量と、教師データに付与された信憑性の有無を示すラベルとから信憑性判定器を構築し、信憑性判定器DB111に保存する。
つぎに信憑性判定装置2の処理を概略説明すれば、著者トピック抽出部201は信憑性を判定したい投稿文書203を入力とし、その著者の著者トピックを著者トピックDB108から取得する。その際、その著者が著者トピックDB108に存在しない場合は、インターネット205を経由してウェブサイト204から投稿文書203と同じ著者の過去の投稿文書を取得する。
ここで取得した過去の投稿文書に含まれる単語の単語トピックを単語トピックDB109から取得し、取得した単語トピックを用いて入力された投稿文書の著者トピックを算出する。このとき過去の投稿文書が得られなければ、あらかじめ定められた初期値を著者トピックとして用いる。
文書トピック抽出部102は、投稿文書203に含まれる単語が持つ単語トピックを単語トピックDB109から取得し、取得した単語トピックを用いて文書トピックを抽出する。類似度算出部103は、抽出した著者トピックと文書トピックとの類似度を算出する。特徴量抽出部106は、投稿文書203から特徴量を抽出する。
特徴量付与部104は、特徴量抽出部106の抽出した特徴量に新たな特徴量として、著者トピック・文書トピック・両トピックの類似度を付与する。信憑性判定部202は、信憑性判定器DB111の信憑性判定器と、特徴量付与部104の処理後の特徴量とを用いて投稿文書203の信憑性を判定し、判定結果を信憑性DB206に保存する。
≪信憑性判定器構築装置1の処理内容≫
図3に基づき信憑性判定器構築装置1の処理内容(処理手順)を説明する。図3中のS101〜S104はトピック抽出部101の処理を示し、S105,S106は文書トピック抽出部102の処理を示している。
また、S107は類似度算出部103の処理を示し、S108は特徴量抽出部106の処理を示し、S109は特徴量付与部104の処理を示し、S110,S111は構築部105の処理を示している。
S101:まず、処理が開始されると投稿文書DB107にアクセスし、該DB107に保存されたすべての投稿文書を取得する。
Figure 0006321529
表1は投稿文書DBのデータ構造例を示している。ここでは各投稿文書は、文書を識別できるユニークなIDの文書IDと、該投稿文書を記述したと著者を識別できるユニークなIDの著者IDと、投稿日時とペアに保存されている。なお、これら以外のメタ情報を併せて保存してもよい。
S102:S101で取得した投稿文書群から著者トピックと単語トピックとを抽出する。ここでは一例として機械学習の教師なし学習の「Latent Dirichlet Allocation(LDA)」(非特許文献2参照)を利用した抽出方法を説明する。
まず、著者ごとに投稿文書が1つになるように投稿文書を連結する。ここでは著者ごとに複数の投稿文書を一つの投稿文書として連結するため、「著者数=投稿文書数D」の関係が成立する。
つぎに非特許文献3の「MeCab」などの形態素解析器を用いて連結した投稿文書を形態素解析し、あらかじめ人手によって定められた品詞の形態素(単語)の出現頻度をカウントする。
このとき単語は、前記定められた品詞をそのまま用いてもよく、基幹表現に変換して用いてもよい。また、あらかじめ人手によってストップワードを設定し、それに含まれる単語を除外してもよく、出現頻度があらかじめ人手によって定められた一定数を下回る場合は、その単語を除外してもよい。
こうして得られた単語出現頻度と著者の関係を行列に表現し、それを「LDA」の入力とすると、著者トピック「θdt」および単語トピック「θwt」は式(1)(2)のように得られる。
Figure 0006321529
Figure 0006321529
ここで「d∈D」は投稿文書を示し、「w∈W」は単語を示し、「t∈T」はトピックを示し、「α」および「β」は予め定められたハイパーパラメータを示している。また、「Cdt DT」は現在着目している単語(前記定められた品詞の形態素)「w」が持つトピック「t」を除き、連結された投稿文書「d」に含まれる単語が持つトピックの出現回数をカウントしたものを示している。
トピックの数「|T|」は、人手によってあらかじめ定めるものとする。また、「|W|」は、連結された投稿文書に含まれる単語の種類数なので、自動的に求めることができる。
ただし、著者トピック「θdt」および単語トピック「θwt」は、行列分解により求められるので、著者単位に処理することはできない。すなわち、入力として与えられた投稿文書集合「D」や、それに含まれる単語集合「W」に応じて後述の表2,表3のような確率分布が一度に求められる。
なお、「NMF(Non−negative Matrix Factorization)」など「LDA」以外の教師なし学習や、「Naive Bayes」や「Support Vector Machine(SVM)」などの教師あり学習を用いてもよい。ただし、教師あり学習を用いる場合は、人手によってあらかじめ政治、経済などのトピックを具体的に定め、それらのラベルが付与された過去の投稿文書を用意する必要がある。
S103,S104:S102の式(1)で算出した著者トピック「θdt」を著者トピックDB108に保存する(S103)。また、S102の式(2)で算出した単語トピック「θwt」を単語トピックDB109に保存する(S104)。
Figure 0006321529
表2は、著者トピックDB108のデータ構造例を示している。ここでは著者を識別できるユニークなIDの著者ID毎にトピック数「|T|」に応じた個数のトピック確率が保存されている。
Figure 0006321529
表3は、単語トピックDB109のデータ構造例を示している。ここでは単語を識別できるユニークなIDの単語ID毎に該単語IDが示す単語と、トピック数「|T|」に応じた個数のトピック確率とが保存されている。
S105:教師DB110から教師データを取得する。
Figure 0006321529
表4は、教師DB110のデータ構造例を示している。この教師DB110には、表1に示す投稿文書DB107のデータ構造に加えて、人手によって予め付与された信憑性の有無を示すラベルが保存されている。
ここでは「1」は「信憑性あり」を示し、「0」は「信憑性無し」を示している。ただし、「0」また「1」の表示には限定されず、順序変数や連続変数となる値でもよい。
S106:S105で取得した教師データと、単語トピックDB109に保存された単語トピックとを用いて、文書トピックを算出する。文書トピック「Ψdt」は、式(3)により求められる。
Figure 0006321529
ここで「w∈Wd」は入力された投稿文書に含まれる単語数を示している。ここで「Wd」が空集合でなければ、入力された投稿文書に出現した単語が持つ単語トピックの総和を取り、それをトピックでの総和で除算することで正規化し、文書トピックを求める。
この文書トピックは、著者トピックと同様にT個の確率変数を持つ確率分布となっている。すなわち、1文書1トピックではなく、各文書が複数のトピック確率を持つ(例:政治0.5,経済0.2,...など)。文書トピックは教師データ毎に算出することができる。
なお、「Wd」が空集合であれば、単語トピックから文書トピックを求めることができないので、一様分布のトピック確率を持つとする。
S107:著者トピックと文書トピックとの類似度を算出する。ここでは一例として「Jensen−Shannon Divergence(JSD)」を用いた類似度の算出方法を説明する。
Figure 0006321529
Figure 0006321529
Figure 0006321529
「JSD」は2つの確率分布の差を測る尺度を示し、式(6)の「Kullback_Leibler Divergence(KLD)」を用いて、式(5)のように定義される。「KLD」は引数の順番によって値が変わるのに対し、そうならないように定義したのが「JSD」である。
「JSD」は[0,1]の値域を持ち、2つの確率分布が似ているほど「0」に近い値を取る。したがって、類似度「S」は式(4)のように「1」から「JSD」を減算した値として求めることができる。なお、著者トピックと文書トピックは、表2および表4に示すように、T個の確率変数を持つ確率分布なため、「JSD」によって両トピックの差を測ると、その値はスカラーとなる。
もっとも、「JSD」の代わりに「KLD」を用いたり、類似度を「Cosine Similarity」などを用いたりして求めてもよい。また、確率分布同士を比較するのではなく、確率分布の中から確率値の高い順に「K(0<K<T)」個のトピックを選出し、それらの類似度を求めてもよい。さらに確率分布同士の自乗誤差を求めてもよい。
S108:教師DB110から教師データを取得し、特徴量を抽出する。この特徴量は、信憑性の有無に応じて変化することが予想される計量可能な変数を用いて、教師データをベクトル表現化したものとする。
表4の「文書ID=4,5」の教師データに基づき処理例を説明すれば、「文書ID=4」の教師データはURLが記述され、投稿文書長が67文字からなる。一方、「文書ID=5」の教師データは「URL」は記述されていなく、投稿文書長が63文字からなる。
したがって、両教師データを「URL」の有無と投稿文書長という2つの変数でベクトル表現すると、「d4=(1,67)」と「d5=(0,63)」と表され、これが特徴量となる。
ただし、前記両変数以外にも投稿文書長・URLの有無・ネガポジ表現などの投稿文書にもとづく特徴量、あるいはアカウント作成日・総投稿数・友人数などの著者にもとづく特徴量やトレンドにもとづく特徴量、情報伝播にもとづく特徴量など様々なものを用いることができるものとする。言い換えれば、信憑性の有無に応じて変化することが予想され、計量可能であればどんな変数を用いてもよい。
S109:著者トピックAT「θdt」・文書トピックDT「Ψdt」・類似度S「S(θdt,Ψdt)」を新たな特徴量として元の特徴量、即ちS108で求めた特徴量に付与する。
前述の「文書ID=4,5」の教師データ例に基づき説明すれば、元の特徴量「d4=(1,67)」と「d5=(0,63)」とは、それぞれ「d4=(1,67,ATd4,DTd4,S(θ4t,Ψ4t)」と「d5=(0,63,ATd5,DTd5,S(θ5t,Ψ5t)」とに新しく置き換わる。これにより特徴量の次元数は、「2」から「2|T|+3」へ増加する。
S110,S111:機械学習の教師あり学習を用いて、S109の処理後の特徴量と教師DB110に保存された教師データの信憑性を示すラベルとから信憑性判定器を構築する(S110)。ここでは「Naive Bayes」や「Support Vector Machine(SVM)」など、どのような教師あり学習を用いてもよいものとする。学習の結果、構築された信憑性判定器を信憑性判定器DB111に保存し、処理を終了する。
≪信憑性判定装置2の処理内容≫
図4に基づき信憑性判定装置2の処理内容(処理手順)を説明する。ここではユーザは、ユーザ所有の端末(スマートフォン,PC)からネットワーク経由(インターネット205経由でよい。)で信憑性を判定したい文書203を信憑性判定装置2に投稿する。この投稿文書203の入力を信憑性判定装置2が受け付けると、その信憑性判定の処理が開始される。
なお、図4中、S201〜S206は著者トピック抽出部201の処理を示し、S207は文書トピック抽出部102の処理を示し、S208は類似度算出部103の処理を示し、S209は特徴量抽出部106の処理を示し、S210は特徴量付与部104の処理を示し、S211,S212は信憑性判定部202の処理を示している。
S201:処理が開始されると、受け付けた投稿文書203の著者が、著者トピックDB108に存在するか否かを確認する。確認の結果、存在する場合はS202に進む一方、存在しない場合はS203に進む。
S202:著者トピックDB108から該当する著者トピックを取得し、S207に進む。
S203,S204:インターネットを経由して投稿文書203と同じ著者の過去の投稿文書をウェブサイトから取得できるか否かを確認する(S203)。確認の結果、取得できなければS206に進む一方、取得できればS204に進む。S204では、インターネット205を経由してS203で確認した過去の投稿文書をウェブサイトから取得し、S205に進む。
S205:S204で取得した過去の投稿文書すべてに含まれる単語集合と、単語トピックDB109に保存された単語トピックとを用いて、式(3)により文書トピックを算出する。ここで算出された値を著者トピックとし、S207に進む。
S206:あらかじめ定められた方法で著者トピックを初期化する。例えば、一様分布を用いる。この場合には著者トピックとして、著者トピックDB108に保存された全著者の著者トピックの平均値を用いてS207に進む。なお、著者トピックとして他の手段を用いてもよいものとする。
S207:投稿文書203に含まれる単語集合と、単語トピックDB109に保存された単語トピック確率とを用いて、式(3)により文書トピックを算出する。
S208:著者トピックと文書トピックを用いて、式(4)により類似度を算出する。
S209:投稿文書203から特徴量を抽出する。このS209の処理は、入力データが異なるだけで、S108と同様な処理を実行する。
S210:S202/S205/S206の著者トピックと、S207の文書トピックと、S208の類似度とを新たな特徴量として元の特徴量(S209の特徴量)に付与する。ここでは入力データが異なるだけで、S109と同様な処理を実行する。
S211,S212:信憑性判定器DB111に保存された信憑性判定器と、S210の特徴量とを用いて投稿文書203の信憑性を判定する(S211)。この判定処理は、S110で信憑性判定器を構築する際に使用した教師あり学習に依存する。判定結果は、信憑性DB206に保存される(S212)。
Figure 0006321529
表5は、信憑性DB206のデータ構造例を示している。ここでは文書を識別できるユニークなIDの文書ID毎に投稿文書の著者を識別可能なユニークなIDの著者IDと、投稿日時と、信憑性の有無と、信憑性判定の確信度とが保存されている。ここで確信度は、S211で信憑性を判定した際の教師あり学習における分類確率を用いる。なお、これら以外のメタデータを保存してもよいものとする。
このような本実施形態の前記情報信憑性判定システムによれば、投稿文書の信憑性判定にあたって、従来の特徴量に新たな特徴量が加えられているため、信憑性の判定精度を高めることができる。
(1)すなわち、信憑性判定にあたって専門性(著者トピック)に関する特徴量を考慮しないと、投稿文書の話題に詳しい人とそうでない人を区別できず信憑性の判定精度が低下するおそれがあった。
そこで、前記情報信憑性判定システムでは、S109,S210にて過去の投稿文書から得た著者トピックを新たな特徴量として加えることとした。これにより信憑性判定にあたって専門性が考慮され(S110,S211)、判定精度の向上が可能となった。
(2)また、投稿文書の話題(文書トピック)に関する特徴量が考慮されていないと、信用できる話題と疑ってかかるべき話題の区別ができず、信憑性の判断精度が低下するおそれがあった。
そこで、前記情報信憑性判定システムでは、S109,S210にて文書トピックを新たな特徴量として加えることとした。これにより信憑性判定にあたって投稿文書の話題が考慮され(S110,S211)、判定精度の向上が可能となった。
(3)さらに専門性と投稿文書の話題との類似性に関する特徴量が考慮されていないと、詳しい人がその話題に関して投稿したのか、あるいは詳しくない人がたまたまその話題に関して投稿したのかを区別できないため、信憑性の判定精度が低下するおそれがあった。
そこで前記情報信憑性判定システムでは、S107,S208にて著者トピックと文書トピックの類似度を算出し、さらにS109,S210にて新たな特徴量として加えることとした。これにより信憑性判定にあたって専門性と投稿文書の話題との類似性が考慮され(S110,S211)、判定精度の向上が可能となった。
≪プログラム等≫
本発明は、上記実施形態に限定されるものではなく、各請求項に記載された範囲内で応用・変形して実施することができる。例えばS109,S210において著者トピック・文書トピック・類似度のすべてを新たな特徴量として追加する必要はなく、著者トピックと文書トピックとの追加でもよく、あるいは類似度のみの追加でもよい。この場合には、追加する特徴量に応じて前記(1)〜(3)の効果が得られる。
また、本発明は、前記情報信憑性判定システム(信憑性判定器構築装置1,信憑性判定装置2)の各構成部101〜111,201,202,206の一部もしくは全部として、コンピュータを機能させる情報信憑性判定プログラムとして構成することもできる。このプログラムによれば、S101〜S111,S201〜S212の一部あるいは全部をコンピュータに実行させることが可能となる。
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
1…信憑性判定器構築装置
2…信憑性判定装置
101…トピック抽出部
102…文書トピック抽出部
103…類似度算出部
104…特徴量付与部
105…構築部
106…特徴量抽出部
107…投稿文書DB
108…著者トピックDB(第1データベース)
109…単語トピックDB(第2データベース)
110…教師DB
111…信憑性判定器DB(第3データベース)
201…著者トピック抽出部
202…信憑性判定部
203…投稿文書(入力文書)
204…ウェブサイト
205…インターネット
206…信憑性DB

Claims (5)

  1. 過去文書群を元にした著者の特性を示す著者トピックを保存する第1データベースを参照し、入力文書著者トピックが存在すれば該著者トピックを抽出する著者トピック抽出部と、
    過去文書群の単語特性を示す単語トピックを保存する第2データベースから入力文書に含まれる単語の単語トピックを取得し、入力文書の特性を示す文書トピックを抽出する文書トピック抽出部と、
    前記著者トピックと前記文書トピックとの類似度を加味した特徴量を入力文書に付与する特徴量付与部と、
    過去文書に付与された前記特徴量と教師データとを用いた機械学習で構築された信憑性判定器を保存する第3データベースと、
    第3データベースの信憑性判定器と入力文書に付与された前記特徴量とを用いて該入力文書の信憑性を判定する信憑性判定部と、
    を備えることを特徴とする情報信憑性判定システム。
  2. 過去文書群を元にした著者の特性を示す著者トピックを格納する第1データベースと、過去文書群の単語特性を示す単語トピックを格納する第2データベースと、を備えた情報信憑性判定システムであって、
    入力文書の著者トピックが第1データベースに存在すれば該著者トピックを抽出する一方、存在しなければウェブサイト経由で入力文書と同じ著者の過去文書を取得して著者トピックを抽出する著者トピック抽出部と、
    第2データベースから入力文書に含まれる単語の単語トピックを取得し、入力文書の特性を示す文書トピックを抽出する文書トピック抽出部と、
    前記著者トピック、前記文書トピック、前記著者トピックと前記文書トピックとの類似度を加味した特徴量を入力文書に付与する特徴量付与部と、
    過去文書に付与された前記特徴量と教師データとを用いた機械学習で構築された信憑性判定器を格納する第3データベースと、
    第3データベースの信憑性判定器と入力文書に付与された前記特徴量とを用いて該入力文書の信憑性を判定する信憑性判定部と、
    を備えることを特徴とする情報信憑性判定システム。
  3. コンピュータにより入力文書の信憑性を判定する情報信憑性判定方法であって、
    過去文書群を元にした著者の特性を示す著者トピックを保存する第1データベースを参照し、入力文書著者トピックが存在すれば該著者トピックを抽出する著者トピック抽出ステップと、
    過去文書群の単語特性を示す単語トピックを保存する第2データベースから入力文書に含まれる単語の単語トピックを取得し、入力文書の特性を示す文書トピックを抽出する文書トピック抽出ステップと、
    前記著者トピックと前記文書トピックとの類似度を加味した特徴量を入力文書に付与する特徴量付与ステップと、
    過去文書に付与された前記特徴量と教師データとに基づく機械学習で構築された信憑性判定器を保存する第3データベースと、入力文書に付与された前記特徴量とを用いて該入力文書の信憑性を判定する信憑性判定ステップと、
    を有することを特徴とする情報信憑性判定方法。
  4. コンピュータが、
    過去文書群を元にした著者の特性を示す著者トピックを格納する第1データベースと、過去文書の集合から取得された単語トピックを格納する第2データベースと、を利用して入力文書の信憑性を判定する情報信憑性判定方法であって、
    入力文書の著者トピックが第1データベースに存在すれば該著者トピックを抽出する一方、存在しなければウェブサイト経由で入力文書と同じ著者の過去文書を取得して著者トピックを抽出する著者トピック抽出ステップと、
    第2データベースから入力文書に含まれる単語の単語トピックを取得し、入力文書の特性を示す文書トピックを抽出する文書トピック抽出ステップと、
    前記著者トピック、前記文書トピック、前記著者トピックと前記文書トピックとの類似度を加味した特徴量を入力文書に付与する特徴量付与ステップと、
    過去文書に付与された前記特徴量と教師データとに基づく機械学習で構築された信憑性判定器を保存する第3データベースと、入力文書に付与された前記特徴量とを用いて該入力文書の信憑性を判定する信憑性判定ステップと、
    を有することを特徴とする情報信憑性判定方法。
  5. 請求項1または2記載の情報信憑性判定システムとして、コンピュータを機能させることを特徴とする情報信憑性判定プログラム。
JP2014234089A 2014-11-19 2014-11-19 情報信憑性判定システム、情報信憑性判定方法、情報信憑性判定プログラム Active JP6321529B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014234089A JP6321529B2 (ja) 2014-11-19 2014-11-19 情報信憑性判定システム、情報信憑性判定方法、情報信憑性判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014234089A JP6321529B2 (ja) 2014-11-19 2014-11-19 情報信憑性判定システム、情報信憑性判定方法、情報信憑性判定プログラム

Publications (2)

Publication Number Publication Date
JP2016099685A JP2016099685A (ja) 2016-05-30
JP6321529B2 true JP6321529B2 (ja) 2018-05-09

Family

ID=56077925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014234089A Active JP6321529B2 (ja) 2014-11-19 2014-11-19 情報信憑性判定システム、情報信憑性判定方法、情報信憑性判定プログラム

Country Status (1)

Country Link
JP (1) JP6321529B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018156641A1 (en) 2017-02-21 2018-08-30 Sony Interactive Entertainment LLC Method for determining news veracity
JP7173494B2 (ja) * 2017-03-29 2022-11-16 シンクサイト株式会社 学習結果出力装置及び学習結果出力プログラム
JP2021026551A (ja) * 2019-08-06 2021-02-22 Fringe81株式会社 投稿管理サーバ、及び投稿管理システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014134944A (ja) * 2013-01-10 2014-07-24 Tokyo Denki Univ 情報判定装置、情報判定方法、およびプログラム

Also Published As

Publication number Publication date
JP2016099685A (ja) 2016-05-30

Similar Documents

Publication Publication Date Title
Mostafa Clustering halal food consumers: A Twitter sentiment analysis
Aljarah et al. Intelligent detection of hate speech in Arabic social network: A machine learning approach
Baly et al. Predicting factuality of reporting and bias of news media sources
US10504192B2 (en) Systems and methods for influence of a user on content shared via an encoded uniform resource locator (URL) link
JP5990284B2 (ja) キャラクター・ヒストグラムを用いるスパム検出のシステムおよび方法
Kestemont et al. Cross-genre authorship verification using unmasking
US9111211B2 (en) Systems and methods for relevance scoring of a digital resource
Cohen et al. Redundancy-aware topic modeling for patient record notes
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
US9128896B2 (en) Systems and methods for identifying phrases in digital content that are trending
US9009256B1 (en) Extraction and classification of user generated content
US9183293B2 (en) Systems and methods for scalable topic detection in social media
US20130159506A1 (en) Systems and methods for trending and relevance of phrases for a user
US9996504B2 (en) System and method for classifying text sentiment classes based on past examples
US10565311B2 (en) Method for updating a knowledge base of a sentiment analysis system
CN110569349A (zh) 基于大数据的患教文章推送方法、系统、设备及存储介质
Shah et al. Machine learning based approach for detection of cyberbullying tweets
US20200034343A1 (en) System and method for identifyingt duplicate document submission on a publishing platform
CN113934941A (zh) 一种基于多维度信息的用户推荐系统及方法
JP6321529B2 (ja) 情報信憑性判定システム、情報信憑性判定方法、情報信憑性判定プログラム
Alharbi et al. Enhancing topic clustering for Arabic security news based on k‐means and topic modelling
Torshizi et al. Automatic Twitter rumor detection based on LSTM classifier
US20180096436A1 (en) Computing System for Automatically Obtaining Age Data in a Social Data Network
US10339559B2 (en) Associating social comments with individual assets used in a campaign
CN113205426A (zh) 一种预测社交媒体内容的热度等级的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180405

R150 Certificate of patent or registration of utility model

Ref document number: 6321529

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150