JP2008165598A - 風評情報抽出装置及び風評情報抽出方法 - Google Patents
風評情報抽出装置及び風評情報抽出方法 Download PDFInfo
- Publication number
- JP2008165598A JP2008165598A JP2006356020A JP2006356020A JP2008165598A JP 2008165598 A JP2008165598 A JP 2008165598A JP 2006356020 A JP2006356020 A JP 2006356020A JP 2006356020 A JP2006356020 A JP 2006356020A JP 2008165598 A JP2008165598 A JP 2008165598A
- Authority
- JP
- Japan
- Prior art keywords
- data
- information
- reputation
- related information
- reputation information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 ネットワーク上のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集手段100と、
該収集データに含まれる文字列を抽出して、該文字列に基づいて該収集データが風評情報か否かの判定結果を得る風評情報判定手段、風評情報と判定された風評情報データと、その風評情報データの著作者、又は該風評情報データのコンテンツ、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該風評情報データのファイル情報の少なくともいずれかが関連する関連情報データをネットワーク上のサーバ装置、又は予め蓄積した関連情報データベースから抽出する関連情報データ抽出手段110と、風評情報データと、該関連情報データとを同時に出力する出力手段103とを備える。
【選択図】 図1
Description
しかも非常に多数のウェブサイトが存在するために、これを発見することすら難しい状況にある。
実際、企業イメージの破壊や、特定個人への攻撃などがすでにインターネット上で行われており、大きな社会問題ともなっている。
特に、中小企業や個人にとって、その発見はほとんど不可能である。
まず、特許文献1の技術は、インターネット上のWebページを取得・蓄積し、蓄積されたWebページを解析してブロック単位に分割し、このブロック単位ごとに所定のキーワードを含むか否かを判定して、キーワードを含む場合に前記所定のキーワードごとの風評情報を抽出する。さらに、各風評情報ごとの重み付けを行った上で、自社製品名と他社製品名のWebページ上の出現状況などに基づいて風評情報の重要度を算出することを提案している。
このような、風評情報か否かの判定に役立つような情報が従来の方法では抽出できなかった。
請求項1に記載の発明は、所定の対象に対してネットワーク上で公開されている風評情報を抽出するコンピュータを用いた風評情報抽出装置であって、ネットワーク上の単数又は複数のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集手段と、該収集データに含まれる文字列を抽出して、該文字列に基づいて該収集データが風評情報か否かの判定結果を得る風評情報判定手段と、該風評情報と判定された収集データである風評情報データと、該風評情報データの著作者、又は該風評情報データのコンテンツ、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該風評情報データのファイル情報の少なくともいずれかが関連する関連情報データをネットワーク上のサーバ装置、又は予め蓄積した関連情報データベースから抽出する関連情報データ抽出手段と該風評情報データと、該関連情報データとを同時に出力する出力手段とを備えたことを特徴とする。
すなわち、請求項11に記載の発明は、所定の対象に対してネットワーク上で公開されている風評情報を抽出するコンピュータを用いた風評情報抽出方法であって、コンピュータのデータ収集手段が、ネットワーク上の単数又は複数のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集ステップ、コンピュータの風評情報判定手段が、該収集データに含まれる文字列を抽出して、該文字列に基づいて該収集データが風評情報か否かの判定結果を得る風評情報判定ステップ、コンピュータの関連情報データ抽出手段が、該風評情報と判定された収集データである風評情報データと、該風評情報データの著作者、又は該風評情報データのコンテンツ、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該風評情報データのファイル情報の少なくともいずれかが関連する関連情報データをネットワーク上のサーバ装置、又は予め蓄積した関連情報データベースから抽出する関連情報データ抽出ステップ、コンピュータの出力手段が、該風評情報データと、該関連情報データとを同時に出力する出力ステップを含むことを特徴とする。
関連情報評価手段が、前記風評情報と判定された収集データである風評情報データと、前記関連情報データ抽出手段から出力された関連情報データとを該関連情報評価手段に入力して、該機械学習モジュール部による判定結果を得、出力手段が、該判定結果に基づいて、該風評情報データと、該関連情報データとを出力することを特徴とする。
すなわち、本発明によれば、風評情報と共に関連情報を抽出することができるので、ユーザは抽出された風評情報が正しいか否かを容易に知ることができ、風評情報のみを的確に把握することができる。また、クラスタリング処理、要約処理を行うことにより、簡便にそれらの情報を認識することができる。
また、テキストデータの取得などのためにデータの取得入力手段としてインターネット等のネットワークと接続するネットワークアダプタ(14)を備える。
そして、公知のプログラミング言語によって記載されたプログラムがCPU(10)及びそれと連動するハードウェアを動作させて、以下に説述する各部(100)〜(103)(110)の機能が実現される。
まず、データ収集部は、インターネット(21)などのネットワーク上に多数設置されているサーバ装置(20)から、各サーバ装置で公開されているデータを受信する。(データ収集ステップ:S1)
具体的には、ウェブサーバAにおいて公開されているテキストデータ(例えばa1.txtという名前のテキストデータ)や、HTML(HyperTextMarkup Language)などで記述された表示書式を含むデータ(例えばa2.htmlという名前のデータ)を受信する。
本発明で行うデータの収集は、検索エンジンなどで用いられる任意の方法で実施することができる。
収集されたデータはデータ記憶手段であるハードディスク(13)に格納される。
このとき、ハードディスク(13)に素性テーブルを備えておき、素性抽出部(101)はそこで定義された素性を抽出する。
通常、素性は単語、その品詞などの形で与えられるが、本発明の素性テーブルには、素性の抽出に必要な形態素辞書なども格納する。
まず、素性テーブル(131)の中で、定義される素性を表1に示す。
このように対象を特定する場合には、該対象を含むかどうかは風評情報を抽出する前提となるものであるから、含まないデータは機械学習判定を行うことなく除外してもよい。
これにより、ルールベースの場合には定義された語句そのもの以外では抽出することができなかったのに対して、本発明方法では、含まれる語句の組み合わせから風評情報の可能性のあるものを抽出することができるようになる。
もっとも、機械学習判定を用いる本発明によれば、風評の内容も複数の語句が素性として抽出され、例えば「損失を出した」だけであれば風評情報である可能性が0.5であると判定される一方、「報道によると」「損失を出した」が抽出される場合には可能性が0.1、「噂によると」「損失を出した」「らしいよ」が抽出される場合には可能性が0.9というように、ルールベースでは得られない緻密な判定が行える。
例示のように、bbsなどの単語が含まれている場合には、それがネットワーク上の掲示板であることを示唆し、公的な情報でない可能性が高い。また”~”(チルダ)が含まれる場合には、個人の開設するホームページである可能性があり、これも風評情報か否かの判定に用いる素性として適当である。
このような特性を利用し、本発明では形態素解析をしたときに辞書に登録されていないために解析ができなかった結果から未知語を判定してその結果を素性として用いることも提案する。
未知語に係る情報を素性として用いることで、例えば「カキコ」(掲示板への書き込みの意味)などの俗語が用いられている情報については当該情報が風評情報である可能性が高いものとして判定に反映される。
ここで、意味クラスとは単語の意味的類似による分類であり、この意味クラスによって分類された分類語彙表が表4のように作られている。
また、IPアドレスや、ファイル情報を情報源信頼度データベースに定義して素性としてもよい。表7には情報源信頼度の例を示す。
なお、本発明では情報源の信頼度を自動的に評価することもできるが、これについては後述する。
本発明では機械学習を用いることによって各素性をそれぞれ適切な重みで評価し、風評情報であるか否かを判定するものである。
機械学習の手法は公知の機械学習モジュールにおける学習過程と、それを用いた解の推定過程とが一体的に成り立つものである。本発明の実施においては学習過程は必ずしも必須ではなくすでに機械学習結果データ(132)を備えていればよいが、このような機械学習の特徴に考慮して、両過程について公知の手法を簡述する。
問題:「彼が話す。」---解「現在」
が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す。」「。」となる。
機械学習部(142)における機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。
p(a|b)=p(a|fmax)
ただし、fmax は以下の数5によって与えられる。
sgn(x)=1(x≧0)
-1(otherwise )
であり、また、各αiは数10と数11の制約のもと数9を最大にする場合のものである。
K(x,y)=(x・y+1)d
C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi>0となるxi は、サポートベクトルと呼ばれ、通常、数8の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
例えば、求める分類が2種類であれば重回帰分析を利用することができる。重回帰分析をコンピュータ上で実行する方法については、非特許文献9に詳しい。
風評情報であるか否かは、上述したように機械学習手法によって「風評情報である」「風評情報ではない」のいずれかで出力される場合もあるし、「風評情報である確率」が出力される場合もある。「風評情報である確率」が大きな順にその確率と共に出力されてもよい。また、確率を示すための書式、例えば、文字色や文字サイズ、あるいは確率を示すマークなどと共に出力されてもよい。
関連情報は、ネットワークアダプタ(14)を介して他のサーバ装置から検索抽出してもよいし、ハードディスク(13)に予め関連情報データベース(DB)を格納しておき、そこから抽出してもよい。ここでは説明の便利のために関連情報DBから抽出することとして記述する。
特定の単語の抽出方法は、後述する固有表現の抽出技術を用いられる他、投稿ページであれば投稿者の表示欄における文字列、ニュースサイトであれば、著作権表示又は会社情報などを用いることができる。あるいは「投稿者:」などのような特定の文字列に続く単語を抽出するようにしてもよい。
このように著作者やコンテンツに基づいて文章を抽出することによって、ニュースの題名に共通の単語を含むものや、筆者が同じもの、掲載先が同じものなどが関連情報として抽出できる。
例えば、「www.nict.go.jp」から風評情報が抽出された場合、同ドメインから収集されるデータを関連情報とすることができる。
本構成によれば、例えば正しい情報を集めたサイトであれば、同列に掲載されている周辺の情報がいずれも正確なものであることから、抽出された風評情報も正しい可能性があることをユーザが認識しうる。
さらに、ユーザーが設定するか、あるいは予め定義されている閾値を用い、該確率が閾値を上回るときに「風評情報である」ことを出力してもよい。
その際、結果と共に、それが公開されているサーバ装置の名称若しくはネットワークアドレス、又はその収集データのファイル情報、の少なくともいずれかを出力する。特に風評情報と判定された根拠となる単語などを出力してもよい。
すなわち、本発明が実行する風評情報の抽出は、企業名や製品名、個人名など固有名詞を用いるものであり、これらを、ユーザが指定したサイトや、ユーザが指定したキーワードを公知の検索エンジンに入力して検索されたサイトに含まれるデータから抽出することができる。
取得したデータから固有名詞を抽出する。なお、本発明で素性に用いるのは固有名詞でなく一般名詞でもよい。
この抽出には、次のような固有表現の抽出技術を用いることでデータから自動的に固有表現を抽出し、それを素性とすることができる。
(1) 機械学習を用いる手法
機械学習を用いて固有表現を抽出する手法がある(例えば、以下の非特許文献10参照)。
日 B-LOCATION
本 I-LOCATION
の O
首 O
相 O
は O
小 B-PERSON
泉 I-PERSON
さ O
ん O
で O
す O
。 O
上記において、B-???は、ハイフン以下の固有表現の種類の始まりを意味するタグである。例えば、 B-LOCATIONは、地名という固有表現の始まりを意味しており、B-PERSONは、人名という固有表現の始まりを意味している。また、I-???は、ハイフン以下の固有表現の種類の始まり以外を意味するタグであり、Oはこれら以外である。従って、例えば、文字「日」は、地名という固有表現の始まりに該当する文字であり、文字「本」までが地名という固有表現である。
日 B-LOCATION
の部分は、
日本-B 名詞-B
などの情報を用いる。日本-B は、日本という単語の先頭を意味し、名詞-Bは、名詞の先頭を意味する。単語や品詞の認定には、例えば前述したChasenによる形態素解析を用いる。上述したChasenは各単語の品詞も推定することができるので、「学校へ行く」を入力すると以下の結果を得る。
へ ヘ へ 助詞-格助詞-一般
行く イク 行く 動詞-自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
表現抽出を行う手法について記載されている。
人手でルールを作って固有表現を取り出すという方法もある。
例えば、
名詞+「さん」だと人名とする
名詞+「首相」だと人名とする
名詞+「株式会社」だと企業名とする
名詞+「町」だと地名とする
名詞+「市」だと地名とする
などである。
すなわち、この場合に素性抽出部(101)、機械学習判定部(102)を設けることなく、図示しない風評情報判定部を設け、ハードディスク(13)内に風評表現データベースを格納しておく。
その1つの例として、データの信頼度を評価する技術を提案する。図6に示すように、本装置(1)のCPU(10)に評価用データ抽出部(104)、評価用素性抽出部(105)、評価用機械学習判定部(106)を備えて、該データの信頼度を判定し、その結果を機械学習判定部(102)において素性として利用する。
本構成では、ハードディスク(13)に評価用データベース(133)を格納しておくか、ネットワーク上の任意のサーバに格納しておく。該評価用データベース(133)には、多数のデータが含まれており、評価用データ抽出部(104)は、データ収集部で収集されたデータと、収集データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該収集データのファイル情報の少なくともいずれかが一致する評価用データを抽出する。(評価用データ抽出工程:S50)
そして、「○川○夫」が含まれる評価用データを、該評価用データベース(133)から抽出する。
そして、これらの素性を用いて、評価用機械学習判定部(106)が、当該評価データについて「信頼できる」「信頼できない」のいずれかか、数値で表現される信頼度として算出する。(評価用機械学習判定工程:S52)
この判定には、評価用に備えた機械学習結果データ(135)を用いるが、同機械学習結果データ(135)についても、上述した機械学習の手法によって生成する。
そのため、本発明では評価用データについて判定された信頼度を、機械学習判定部(102)における素性として入力することで、さらに正確な風評情報か否かの判定に寄与することができる。
まず、データ収集の後、収集されたデータ形態素解析を行ってからそれによって得られた該データを構成する単語群A(本発明において、単語群は単数又は複数の単語を言う。)を、多く含む根拠情報データの抽出方法を説明する。
(数13)
score(D)= Σ ( tf(w,D) * log(N/df(w)))
w ∈W で加算
Wはキーワードの集合、tf(w,D)は収集されたデータでのwの出現回数、df(w)は全文書でWが出現した文書の数、Nは文書の総数
数13に示す式において、score(D) が高い文書データを類似した根拠情報データとして出力する。
本方法は、非特許文献13に記載されている。
(数14)
score(D)= Σ ( tf(w,D)/(tf(w,D) +length/delta) * log(N/df(w)) )
w ∈W で加算
lengthはデータDの長さ、delta はデータの長さの平均、データの長さは、データのバイト数、また、データに含まれる単語数などを使う。
(Okapi の参考文献)
非特許文献14,15に開示されるようなOkapiの式、SMARTの式を用いることもできる。より高度な情報検索の方法として、tf・idf を使うだけの式でなく、これらのOkapiのSMARTの式を用いてもよい。
(数15)
{E(t) + k_af *(RatioC(t) - RatioD(t))} *log(N/df(w))
を使う。
= 0 (それ以外)
RatioC(t) はデータ群Bでのt の出現率
RatioD(t) は記事群Cでのt の出現率
log(N/df(w))を上式でおきかえた式でscore(D)を求めて、その値が大きいものほど単語群Aをより多く含む記事として取り出すものである。
本発明における根拠情報確認ステップ(S6)における1つの処理として、上記のような単語群Aを含む記事を抽出による方法が挙げられる。
記事同士の類似度を定義する。この類似度は、tf・idf や okapiや smartを使うとよい。tf・idf や okapiや smartなどにおける、記事Dとクエリを比較する二つの記事xとyとするとしてよい。そして、x、yの両方に含まれる単語をwとするとよい。
okapi だと tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w))
がその式となる。
(1)データ群Bのうち根拠情報データxと最も類似するデータと、根拠情報データxの類似度をその類似度とする方法
(2)データ群Bのうち根拠情報データxと最も類似しない記事と、根拠情報データxの類似度をその類似度とする方法
(3)データ群Bのすべての記事と根拠情報データxの類似度の平均をその類似度とする方法
他の方法でもよいが、このようにして、データ群Bと根拠情報データxの類似度を求めて、その類似度が大きいものを類似記事として取り出すことができる。
また、根拠情報データを本発明に係る関連情報データベースとすると共に、上記同様の処理を関連情報抽出部(110)において行い、同処理で抽出された、この類似記事を風評・関連情報出力部(103)から出力してもよい。
なお、上述した単語群Aを含む記事を抽出による方法と、ここで説明した類似記事を取り出す方法とを両方実行してそれぞれ記事を抽出してもよい。
類似度が数値で算出される場合には、その類似度をp倍(p<1)した値よりも大きい類似度の文書が根拠情報データにある場合、当該収集データは根拠のあるものとする。
この言い換えは、類似度を求める両方の文を言い換えても良い。
上記において関連情報の抽出はCPU(10)の関連情報抽出部(110)が、風評情報と判定された収集データについて、その著作者、コンテンツ、格納されるサーバ装置の名称若しくはネットワークアドレス、ファイル情報などに基づいて関連情報を抽出する構成である。
本発明では、さらに関連情報の抽出自体に機械学習モデルを用いて関連情報として抽出する妥当性を判断することもできる。
そして予め関連情報評価部に含む機械学習モジュールでは次のようにして機械学習を行い、その結果を機械学習結果データとしてハードディスクに格納しておく。
関連情報データが本当に関連情報データとして妥当か否かを人手によって判定し、その結果を学習用の出力データとする。
そして、機械学習における素性として、入力データの風評情報データを構成する単語列と、関連情報データを構成する単語列と共に、関連情報類似度とを用いる。
機械学習モジュールにおける機械学習の方法は上述した様々な方法のいずれかを用いることができ、このときの判定結果は、「妥当である」「妥当でない」と出力される場合と、妥当である確率が出力される場合がある。前者の場合には「妥当である」関連情報データを出力すればよく、後者の場合には所定の閾値を超える確率の場合に出力すればよい。
本発明の関連情報抽出部(110)において次のように抽出処理を行うこともできる。
すなわち、CPU(10)に図示しない関連情報類似度算出部を備え、該関連情報類似度算出部では上述した通りの記事の類似度の算出処理を行う。
そして、データ収集部(100)で収集されて風評情報と判定された風評情報データと、ネットワーク上又はハードディスクの関連情報DBから抽出する記事の類似度を算出する。
本発明ではさらに、CPU(10)に上記言い換えの技術を備えた単語列置換部(図示しない)と上記関連情報類似度算出部を設けて、該単語列置換部において関連情報DB等から抽出された記事に含まれる単語列を順次置換しながら、風評情報データとの類似度を
関連情報類似度算出部で算出する。そして、常に類似度が高まるように単語列を置換していき、もっとも類似度が高くなるときの類似度が所定の閾値を超えたときに関連情報データとして抽出することもできる。
その1つは、クラスタリング処理により、機械学習判定部(102)で風評情報と判定された複数の風評情報を、関連する風評情報同士をまとめて出力することである。
本発明では、CPU(10)における風評・関連情報出力部(103)が、クラスタリング処理手段としても作用し、以下の処理を行うことができる。
クラスタリングにはさまざまな方法がある。一般的なものを以下に記述する。
最も近い成員同士をくっつけていき、クラスターを作る。クラスターとクラスター同士
も(クラスターと成員同士も)、最も近いクラスター同士をくっつける。
クラスター間の距離の定義は様々あるので以下に説明する。
距離の中で最も小さいものをその距離とする方法
・クラスターAとクラスターBの距離を、クラスターAの成員とクラスターBの成員の
距離の中で最も大きいものをその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員とクラスターB
の成員の距離の平均をその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員の位置の平均を
そのクラスターの位置とし、すべてのクラスターBの成員の位置の平均をそのクラスター
の位置とし、その位置同士の距離の平均をその距離とする方法
(数16)
W = Σ Σ (x(i,j) - ave _x(i)) ^ 2
^は指数を意味する。
Σは i=1からi=g までの加算
二つ目の
Σは j=1からj=niまでの加算
x(i,j)は i番目のクラスターの j番目の成員の位置
ave _x(i)は i番目のクラスターのすべての成員の位置の平均
クラスター同士をくっつけていくと、Wの値が増加するが、ウォード法では、Wの値が
なるべく大きくならないようにクラスター同士をくっつけていく。
語のベクトルの要素の値を、単語の頻度やその単語のtf・idf (すなわち、tf(w,D) * log(N/df(w))) 、その単語のOkapi の式 (すなわち、 tf(w,D)/(tf(w,D)+length/delta)*log(N/df(w))) としたベクトルを作成し、それをその成員の位置とする。
以下、トップダウンのクラスタリング(非階層クラスタリング)の方法を説明する。
ある成員をとる。次にその成員と最も離れた成員をとる。これら成員をそれぞれのクラスターの中心とする。それぞれのクラスター中心と、成員の距離の最小値を、各成員の距離として、その距離が最も大きい成員をあらたなクラスターの中心とする。これを繰り返す。あらかじめ定めた数のクラスターになったときに、繰り返しをやめる。また、クラスター間の距離があらかじめ定めた数以下になると繰り返しをやめる。また、クラスターの良さをAIC情報量基準などで評価してその値を利用して繰り返しをやめる方法もある。各成員は、最も近いクラスター中心の成員となる。
あらかじめ定めた個数k個にクラスタリングすることを考える。k個成員をランダムに選ぶ、それをクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。クラスター内の各成員の平均をそれぞれのクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。また、クラスター内の各成員の平均をそれぞれのクラスターの中心とする。これらを繰り返す。そして、クラスターの中心が移動しなくなると繰り返しをやめる。又は、あらかじめ定めた回数だけ繰り返してやめる。その最終的なクラスター中心のときのクラスター中心を使ってクラスターを求める。各成員は最も近いクラスター中心の成員となる。
クラスタリングに類似する文書分類の方法として、あらかじめ分類先毎に単数又は複数の単語群を定義しておき、入力された情報に該単語群が含まれるか否かにより分類先に分類する方法がある。該文書分類方法についても本発明ではクラスタリングに含まれる。
入力された情報の中で複数の分類先の単語群が含まれる場合には、含まれる数が多い単語群の分類先に分類してもよいし、各単語群に重みの値をつけておき、その重みが大きい単語群の分類先に分類するようにしてもよい。
風評情報は、類似の情報が複数抽出されることが多く、複数の風評情報がランダムに出力されてしまうと、どの風評情報が本当に問題があるのかがわかりにくい問題がある。
本発明において風評・関連情報出力部(103)でクラスタリング処理をすることにより、モニタ(12)などで類似の風評情報ごとに表示させることができるので、例えば誤った情報が集中している場合なども迅速的確に把握可能である。
すなわち、風評・関連情報出力部(103)は、風評情報と判定されたデータの、日次、週次、月次ごとに判定件数をカウントして、判定件数データを作成する。例えば、図10に示すような週次発表データが作成される。
なお、並べ順は平均値、最頻値、中央値のいずれかによって並べてもよいし、それらを用いた計算方法も任意である。
バブルチャートとは、一般に、ある事象を示す(円)を2つの軸を持つ図上に配置した図のことを言う。図12に示すバブルチャートでは、円の大きさが判定件数の度合いを示している。
そこで、本発明では次の要約処理により、出力される風評・関連情報をわかりやすく提示することができる。要約の処理は、CPU(10)に設けた図示しない要約処理部によって行う。
すなわち、特許文献3の方法によれば、要約装置として、文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段と、解データの問題である文章および要約結果から、例えば要約結果の文のなめらかさを示す情報および要約結果が文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出する。
もちろん、ここで用いる機械学習方法はシンプルベイズ法に限らず、k近傍法、決定リスト法、最大エントロピー法、サポートベクトルマシン法、ニューラルネットワーク法などいかなるモデルを用いても良い。
例えば、文書の位置、タイトルの単語を含んでいる個数、その文に出現する単語のtfidfの値のそれぞれの情報を用いて、各文のスコアを求め、そのスコアの大きいものを要約結果とする方法がある。
また、一般にタイトルの単語は重要なため、タイトルの単語を多く含む文を抽出してその文を要約結果とすることができる。
より単純に、文書の第一文など、最初の方を要約文としてもよい。
さらに、このように抽出された外国語の風評情報を、公知の機械翻訳処理装置又は機械翻訳プログラムに入力することによって日本語に翻訳し、出力させてもよい。
まず、次の通りの教師データを用意する。
[教師データ1]
書き込み:「..銀行が倒産する」
発信者:信頼できる
文字:黒
背景:白
特許論文新聞の根拠:なし
風評でない(正しい情報)
[教師データ2]
書き込み:「..銀行が倒産する」
発信者:信頼できるか不明
文字:黒
背景:白
特許論文新聞の根拠:あり
風評でない(正しい情報)
[教師データ3]
書き込み:「..銀行が倒産する」
発信者:信頼できるか不明
文字:赤
背景:黒
特許論文新聞の根拠:なし
風評である(正しくない情報)
[教師データ4]
書き込み:「..銀行がもうかっている」
発信者:信頼できるか不明
文字:黒
背景:白
特許論文新聞の根拠:なし
風評でない(正しいかどうか不明だが)
[教師データ1]
書き込みにあった単語など:「銀行」
書き込みにあった単語など:「倒産する」
発信者:信頼できる
文字:黒
背景:白
特許論文新聞の根拠:なし
[教師データ2]
書き込みにあった単語など:「銀行」
書き込みにあった単語など:「倒産する」
発信者:信頼できるか不明
文字:黒
背景:白
特許論文新聞の根拠:あり
[教師データ3]
書き込みにあった単語など:「銀行」
書き込みにあった単語など:「倒産する」
発信者:信頼できるか不明
文字:赤
背景:黒
特許論文新聞の根拠:なし
[教師データ4]
書き込みにあった単語など:「銀行」
書き込みにあった単語など:「もうかっている」
発信者:信頼できるか不明
文字:黒
背景:白
特許論文新聞の根拠:なし
となる。
発信者:信頼できる
や
特許論文の根拠:あり
のときは、風評情報でないことや、
「倒産する」という語があって
文字:赤
背景:黒
の場合
風評の可能性が高いなどが学習される。
[収集データ1の素性]
書き込み:「..会社が倒産する」
発信者:信頼できるか不明
文字:赤
背景:黒
特許論文新聞の根拠:なし
このとき、
「倒産する」という語があって
文字:赤
背景:黒
の場合、風評の可能性が高いという学習結果から、風評情報であると判定され、出力される。
10 CPU
11 キーボード・マウス
12 モニタ
13 ハードディスク
14 ネットワークアダプタ
100 データ収集部
101 素性抽出部
102 機械学習判定部
103 風評・関連情報出力部
131 素性テーブル
132 機械学習結果データ
Claims (21)
- 所定の対象に対してネットワーク上で公開されている風評情報を抽出するコンピュータを用いた風評情報抽出装置であって、
ネットワーク上の単数又は複数のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集手段と、
該収集データに含まれる文字列を抽出して、該文字列に基づいて該収集データが風評情報か否かの判定結果を得る風評情報判定手段と、
該風評情報と判定された収集データである風評情報データと、該風評情報データの著作者、又は該風評情報データのコンテンツ、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該風評情報データのファイル情報の少なくともいずれかが関連する関連情報データをネットワーク上のサーバ装置、又は予め蓄積した関連情報データベースから抽出する関連情報データ抽出手段と
該風評情報データと、該関連情報データとを同時に出力する出力手段と
を備えた
ことを特徴とする風評情報抽出装置。 - 前記風評情報抽出装置が、
前記風評情報データ又は前記関連情報データの少なくともいずれか(以下、評価対象データと呼ぶ。)についての信頼度を評価するデータ信頼度評価手段を備え、
該データ信頼度値評価手段は、
該評価対象データの信頼性を高める因子である積極因子と、該評価対象データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶部と、
該因子を素性として、該評価対象データから抽出する評価用素性抽出部と、
単数又は複数の素性を入力すると、学習結果記憶部に格納された機械学習結果データを参照して、該評価対象データの信頼度に応じた分類を行う所定の機械学習モジュールを備えた評価用機械学習判定部と
を備えて、該評価用素性抽出部が抽出した素性を該評価用機械学習判定部に入力して得られる該評価対象データの信頼度を出力する構成であって、
前記出力手段が、該評価対象データと共に該信頼度を出力する
ことを特徴とする請求項1に記載の風評情報抽出装置。 - 前記風評情報抽出装置が、根拠情報確認手段を備え、
該根拠情報確認手段が、
信頼できる情報を公開しているサーバ装置の名称若しくはネットワークアドレス、又は該信頼できる情報のファイル情報の少なくともいずれかの根拠情報源を定義した根拠情報データベースと、
該根拠情報データベースに定義される根拠情報源から公開されているデータを取得し、前記収集データと話題が類似する類似データが含まれているか否かを判定する類似判定部と
を備え、
前記出力手段が、
該類似データが含まれているときには、その類似データを前記関連情報として出力する
ことを特徴とする請求項1又は2に記載の風評情報抽出装置。 - 前記風評情報抽出装置が、関連情報類似度算出手段と、関連情報評価手段とを備え、
該関連情報評価手段が、
予め複数の学習用風評情報データと、複数の学習用関連情報データとを入力、各学習用関連情報データが関連情報データとして出力すべき最適な関連情報データか否かを予め判定した判定結果を出力、とする学習用データ群を用い、
該関連情報類似度算出手段が、該学習用風評情報データ及び該学習用関連情報データの関連情報類似度を算出すると共に、
機械学習における素性に、該学習用風評情報データを構成する単語列と、該学習用関連情報データを構成する単語列と、該関連情報類似度とを用いて予め機械学習した機械学習結果データを有する機械学習モジュール部を備え、
前記風評情報と判定された収集データである風評情報データと、前記関連情報データ抽出手段から出力された関連情報データとを該関連情報評価手段に入力して、該機械学習モジュール部による判定結果を得、
該判定結果に基づいて、
該風評情報データと、該関連情報データとを出力手段から出力する
ことを特徴とする請求項1ないし3のいずれかに記載の風評情報抽出装置。 - 前記風評情報抽出装置が、関連情報類似度算出手段を備え、
該関連情報類似度算出手段が該関連情報データと、前記風評情報データとの類似度を算出し、その類似度に応じて該関連情報データを抽出する
ことを特徴とする請求項1ないし4のいずれかに記載の風評情報抽出装置。 - 前記風評情報抽出装置が、関連情報類似度算出手段と、単語列置換手段とを備え、
前記関連情報データ抽出手段から出力された関連情報データに含まれる単語列を該単語列置換手段により順次置換すると同時に、該関連情報類似度算出手段が該関連情報データと、前記風評情報データとの類似度を算出し、その類似度に応じて該関連情報データを抽出する
ことを特徴とする請求項1ないし4のいずれかに記載の風評情報抽出装置。 - 前記風評情報抽出装置が、クラスタリング処理手段を備え、
該クラスタリング処理手段が、
前記風評情報データ又は前記関連情報データの少なくともいずれかについて、
当該いずれかのデータに含まれる著作者又はコンテンツを、所定のクラスタリング式に従ってクラスタリング処理すると共に、
前記出力手段が、
該クラスタリングされた状態の該風評情報データ又は該関連情報データの少なくともいずれか
を出力する
ことを特徴とする請求項1ないし6のいずれかに記載の風評情報抽出装置。 - 前記風評情報抽出装置が、テキスト要約処理手段を備え、
該テキスト要約処理手段が、
前記風評情報データ又は前記関連情報データの少なくともいずれかについて、
当該いずれかのデータに含まれるテキストコンテンツを、要約処理すると共に、
前記出力手段が、
該要約された状態の該風評情報データ又は該関連情報データの少なくともいずれか
を出力する
ことを特徴とする請求項1ないし7のいずれかに記載の風評情報抽出装置。 - 前記風評情報抽出装置が、前記素性に風評情報を判定する対象である判定対象名詞を含む構成であって、
該判定対象名詞を、ネットワーク上の所定のサーバ装置又は、ユーザが指定したキーワードに基づいて所定の情報検索サーバ装置により抽出されたサーバ装置における情報から抽出する判定対象名詞抽出手段を備える
ことを特徴とする請求項1ないし8のいずれかに記載の風評情報抽出装置。 - 前記風評情報抽出装置が、機械翻訳処理手段を備え、
該機械翻訳処理手段において、前記素性、前記収集データ、風評情報データの少なくともいずれかを機械翻訳することにより、他言語で記載された風評情報を抽出する
ことを特徴とする請求項1ないし9のいずれかに記載の風評情報抽出装置。 - 所定の対象に対してネットワーク上で公開されている風評情報を抽出するコンピュータを用いた風評情報抽出方法であって、
コンピュータのデータ収集手段が、ネットワーク上の単数又は複数のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集ステップ、
コンピュータの風評情報判定手段が、該収集データに含まれる文字列を抽出して、該文字列に基づいて該収集データが風評情報か否かの判定結果を得る風評情報判定ステップ、
コンピュータの関連情報データ抽出手段が、該風評情報と判定された収集データである風評情報データと、該風評情報データの著作者、又は該風評情報データのコンテンツ、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該風評情報データのファイル情報の少なくともいずれかが関連する関連情報データをネットワーク上のサーバ装置、又は予め蓄積した関連情報データベースから抽出する関連情報データ抽出ステップ、
コンピュータの出力手段が、該風評情報データと、該関連情報データとを同時に出力する出力ステップ
を含むことを特徴とする風評情報抽出方法。 - 前記風評情報抽出方法において、前記関連情報データ抽出ステップの後に、
前記風評情報データ又は前記関連情報データの少なくともいずれか(以下、評価対象データと呼ぶ。)についての信頼度を評価するコンピュータのデータ信頼度評価手段を備え、
データ信頼度評価手段における評価用素性抽出部が、該評価対象データの信頼性を高める因子である積極因子と、該評価対象データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶処理工程、
データ信頼度評価手段における評価用素性抽出部が、該因子を素性として、該評価対象データから抽出する評価用素性抽出処理工程、
データ信頼度評価手段における評価用機械学習判定部が、単数又は複数の素性を入力すると、学習結果記憶部に格納された機械学習結果データを参照して、該評価対象データの信頼度に応じた分類を行う所定の機械学習モジュールを備えた評価用機械学習判定処理工程、
を含み、該評価用素性抽出部が抽出した素性を該評価用機械学習判定部に入力して得られる該評価対象データの信頼度を出力する構成であって、
前記出力ステップにおいて、該評価対象データと共に該信頼度を出力する
ことを特徴とする請求項11に記載の風評情報抽出方法。 - 前記風評情報抽出方法の前記データ収集ステップの後に、根拠情報確認ステップを有し、
コンピュータの根拠情報確認手段に、信頼できる情報を公開しているサーバ装置の名称若しくはネットワークアドレス、又は該信頼できる情報のファイル情報の少なくともいずれかの根拠情報源を定義した根拠情報データベースを備えておき、
根拠情報確認手段の類似判定部が、該根拠情報データベースに定義される根拠情報源から公開されているデータを取得し、前記収集データと話題が類似する類似データが含まれているか否かを判定する類似判定処理工程
を含み、
前記出力ステップにおいて、
該類似データが含まれているときには、その類似データを前記関連情報として出力する
ことを特徴とする請求項11又は12に記載の風評情報抽出方法。 - 前記風評情報抽出方法において、
予め複数の学習用風評情報データと、複数の学習用関連情報データとを入力、各学習用関連情報データが関連情報データとして出力すべき最適な関連情報データか否かを予め判定した判定結果を出力、とする学習用データ群を用い、
コンピュータの関連情報類似度算出手段が、該学習用風評情報データ及び該学習用関連情報データの関連情報類似度を算出し、
機械学習における素性に、該学習用風評情報データを構成する単語列と、該学習用関連情報データを構成する単語列と、該関連情報類似度とを用いて予め機械学習した機械学習結果データを有する機械学習モジュール部をコンピュータの関連情報評価手段に備えておき、
該関連情報評価手段が、
前記風評情報と判定された収集データである風評情報データと、前記関連情報データ抽出手段から出力された関連情報データとを該関連情報評価手段に入力して、該機械学習モジュール部による判定結果を得、
出力手段が、
該判定結果に基づいて、
該風評情報データと、該関連情報データとを出力する
ことを特徴とする請求項11ないし13のいずれかに記載の風評情報抽出方法。 - 前記関連情報データ抽出ステップにおいて、
コンピュータの関連情報類似度算出手段が、関連情報データベースから抽出された該関連情報データと、前記風評情報データとの類似度を算出し、その類似度に応じて該関連情報データを抽出する
ことを特徴とする請求項11ないし14のいずれかに記載の風評情報抽出方法。 - 前記関連情報データ抽出ステップにおいて、
コンピュータの単語列置換手段が、前記関連情報データ抽出手段から出力された関連情報データに含まれる単語列を順次置換すると同時に、
コンピュータの関連情報類似度算出手段が、該関連情報データと、前記風評情報データとの類似度を算出し、その類似度に応じて該関連情報データを抽出する
ことを特徴とする請求項11ないし14のいずれかに記載の風評情報抽出方法。 - 前記風評情報抽出方法において、
コンピュータのクラスタリング処理手段が、
前記風評情報データ又は前記関連情報データの少なくともいずれかについて、
当該いずれかのデータに含まれる著作者又はコンテンツを、所定のクラスタリング式に従ってクラスタリング処理するクラスタリング処理ステップを含み、
前記出力ステップにおいて、
該クラスタリングされた状態の該風評情報データ又は該関連情報データの少なくともいずれか
を出力する
ことを特徴とする請求項11ないし16のいずれかに記載の風評情報抽出方法。 - 前記風評情報抽出方法において、
コンピュータのテキスト要約処理手段が、
前記風評情報データ又は前記関連情報データの少なくともいずれかについて、
当該いずれかのデータに含まれるテキストコンテンツを、要約処理するテキスト要約処理ステップを含み、
前記出力ステップにおいて、
該要約された状態の該風評情報データ又は該関連情報データの少なくともいずれか
を出力する
ことを特徴とする請求項11ないし17のいずれかに記載の風評情報抽出方法。 - 前記風評情報抽出方法において、
前記素性に風評情報を判定する対象である判定対象名詞を含む構成であって、前記素性抽出ステップの前に、
コンピュータの判定対象名詞抽出手段が、該判定対象名詞を、ネットワーク上の所定のサーバ装置又は、ユーザが指定したキーワードに基づいて所定の情報検索サーバ装置により抽出されたサーバ装置における情報から抽出する
ことを特徴とする請求項11ないし18のいずれかに記載の風評情報抽出方法。 - 前記風評情報抽出方法において、
コンピュータの機械翻訳処理手段が、前記素性、前記収集データ、風評情報データの少なくともいずれかを機械翻訳することにより、他言語で記載された風評情報を抽出する
ことを特徴とする請求項11ないし19のいずれかに記載の風評情報抽出方法。 - 所定の対象に対してネットワーク上で公開されている風評情報を抽出するようにコンピュータを動作させる風評情報抽出プログラムであって、
コンピュータのデータ収集手段が、ネットワーク上の単数又は複数のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集ステップ、
コンピュータの風評情報判定手段が、該収集データに含まれる文字列を抽出して、該文字列に基づいて該収集データが風評情報か否かの判定結果を得る風評情報判定ステップ、
コンピュータの関連情報データ抽出手段が、該風評情報と判定された収集データである風評情報データと、該風評情報データの著作者、又は該風評情報データのコンテンツ、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該風評情報データのファイル情報の少なくともいずれかが関連する関連情報データをネットワーク上のサーバ装置、又は予め蓄積した関連情報データベースから抽出する関連情報データ抽出ステップ、
コンピュータの出力手段が、該風評情報データと、該関連情報データとを同時に出力する出力ステップ
を含む風評情報抽出方法を実行処理させる風評情報抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006356020A JP5008024B2 (ja) | 2006-12-28 | 2006-12-28 | 風評情報抽出装置及び風評情報抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006356020A JP5008024B2 (ja) | 2006-12-28 | 2006-12-28 | 風評情報抽出装置及び風評情報抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008165598A true JP2008165598A (ja) | 2008-07-17 |
JP5008024B2 JP5008024B2 (ja) | 2012-08-22 |
Family
ID=39694981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006356020A Expired - Fee Related JP5008024B2 (ja) | 2006-12-28 | 2006-12-28 | 風評情報抽出装置及び風評情報抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5008024B2 (ja) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011204106A (ja) * | 2010-03-26 | 2011-10-13 | Nomura Research Institute Ltd | リスク情報生成システム及びプログラム |
JP2013077155A (ja) * | 2011-09-30 | 2013-04-25 | Kddi Corp | 評価サーバ、端末装置、情報処理システム、情報処理方法およびプログラム |
JP2015118430A (ja) * | 2013-12-17 | 2015-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 評価の分析を支援する装置及び方法 |
US9705837B2 (en) | 2011-12-19 | 2017-07-11 | International Business Machines Corporation | Method, computer program and computer for detecting trends in social media |
KR20190019589A (ko) * | 2017-08-18 | 2019-02-27 | 주식회사 포스코아이씨티 | 팩트체크 시스템 및 방법 |
CN110990683A (zh) * | 2019-11-29 | 2020-04-10 | 重庆邮电大学 | 一种基于地域与情感特征的微博谣言集成识别方法及装置 |
KR20200064943A (ko) * | 2018-11-29 | 2020-06-08 | 고려대학교 산학협력단 | 한국어 문법 변환 기반 가짜 뉴스 탐지 서버 및 그 방법 |
KR20200071821A (ko) * | 2018-11-30 | 2020-06-22 | 고려대학교 산학협력단 | 신경망 상의 문법 변형을 이용한 가짜뉴스 탐색 방법, 이를 수행하기 위한 기록매체 및 장치 |
KR20200075083A (ko) * | 2018-12-10 | 2020-06-26 | 주식회사 누아 | 문장 간의 사실 관계 비교 방법 |
KR20200084436A (ko) * | 2018-12-26 | 2020-07-13 | 주식회사 와이즈넛 | 텍스트 문서에서 각 문장 간의 일관성 분석 장치 및 그 방법 |
KR20200106231A (ko) * | 2019-02-22 | 2020-09-14 | 글로벌사이버대학교 산학협력단 | 정성적 가짜 뉴스 판단 시스템, 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 |
KR20200108937A (ko) * | 2019-03-04 | 2020-09-22 | 글로벌사이버대학교 산학협력단 | 가짜 뉴스 판단 시스템, 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 |
CN112035670A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于图像情感倾向的多模态谣言检测方法 |
KR20210003324A (ko) * | 2019-07-01 | 2021-01-12 | 글로벌사이버대학교 산학협력단 | 인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 가짜 뉴스 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 |
KR20210006098A (ko) * | 2019-07-08 | 2021-01-18 | 네이버 주식회사 | 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템 |
KR102228737B1 (ko) * | 2020-06-17 | 2021-03-17 | 주식회사 푸시뉴스 | Ai를 이용한 가짜뉴스 판독 방법 및 장치 |
KR20210059544A (ko) * | 2019-11-15 | 2021-05-25 | 고려대학교 산학협력단 | 자동화 기반의 가짜 뉴스 탐지 장치 및 방법 |
CN113377959A (zh) * | 2021-07-07 | 2021-09-10 | 江南大学 | 基于元学习及深度学习的少样本社交媒体谣言检测方法 |
CN117556830A (zh) * | 2024-01-11 | 2024-02-13 | 四川大学 | 基于潜在热点话题与传播过程的谣言检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003046764A1 (fr) * | 2001-11-26 | 2003-06-05 | Fujitsu Limited | Procede et appareil d'analyse d'informations |
JP2004070405A (ja) * | 2002-08-01 | 2004-03-04 | Mitsubishi Electric Corp | Webページの風評情報抽出装置 |
JP2004280569A (ja) * | 2003-03-17 | 2004-10-07 | Mitsubishi Electric Corp | 情報監視装置 |
JP2006227965A (ja) * | 2005-02-18 | 2006-08-31 | Dainippon Printing Co Ltd | トレンド予測装置およびトレンド予測方法 |
-
2006
- 2006-12-28 JP JP2006356020A patent/JP5008024B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003046764A1 (fr) * | 2001-11-26 | 2003-06-05 | Fujitsu Limited | Procede et appareil d'analyse d'informations |
JP2004070405A (ja) * | 2002-08-01 | 2004-03-04 | Mitsubishi Electric Corp | Webページの風評情報抽出装置 |
JP2004280569A (ja) * | 2003-03-17 | 2004-10-07 | Mitsubishi Electric Corp | 情報監視装置 |
JP2006227965A (ja) * | 2005-02-18 | 2006-08-31 | Dainippon Printing Co Ltd | トレンド予測装置およびトレンド予測方法 |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011204106A (ja) * | 2010-03-26 | 2011-10-13 | Nomura Research Institute Ltd | リスク情報生成システム及びプログラム |
JP2013077155A (ja) * | 2011-09-30 | 2013-04-25 | Kddi Corp | 評価サーバ、端末装置、情報処理システム、情報処理方法およびプログラム |
US9705837B2 (en) | 2011-12-19 | 2017-07-11 | International Business Machines Corporation | Method, computer program and computer for detecting trends in social media |
JP2015118430A (ja) * | 2013-12-17 | 2015-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 評価の分析を支援する装置及び方法 |
US10185915B2 (en) | 2013-12-17 | 2019-01-22 | International Business Machines Corporation | Analysis of evaluations from internet media |
KR20190019589A (ko) * | 2017-08-18 | 2019-02-27 | 주식회사 포스코아이씨티 | 팩트체크 시스템 및 방법 |
KR101972660B1 (ko) * | 2017-08-18 | 2019-04-25 | 주식회사 포스코아이씨티 | 팩트체크 시스템 및 방법 |
KR102426599B1 (ko) | 2018-11-29 | 2022-07-29 | 고려대학교 산학협력단 | 한국어 문법 변환 기반 가짜 뉴스 탐지 서버 및 그 방법 |
KR20200064943A (ko) * | 2018-11-29 | 2020-06-08 | 고려대학교 산학협력단 | 한국어 문법 변환 기반 가짜 뉴스 탐지 서버 및 그 방법 |
KR102131641B1 (ko) | 2018-11-30 | 2020-07-08 | 고려대학교 산학협력단 | 신경망 상의 문법 변형을 이용한 가짜뉴스 탐색 방법, 이를 수행하기 위한 기록매체 및 장치 |
KR20200071821A (ko) * | 2018-11-30 | 2020-06-22 | 고려대학교 산학협력단 | 신경망 상의 문법 변형을 이용한 가짜뉴스 탐색 방법, 이를 수행하기 위한 기록매체 및 장치 |
KR102170084B1 (ko) | 2018-12-10 | 2020-10-27 | 주식회사 누아 | 문장 간의 사실 관계 비교 방법 |
KR20200075083A (ko) * | 2018-12-10 | 2020-06-26 | 주식회사 누아 | 문장 간의 사실 관계 비교 방법 |
KR20200084436A (ko) * | 2018-12-26 | 2020-07-13 | 주식회사 와이즈넛 | 텍스트 문서에서 각 문장 간의 일관성 분석 장치 및 그 방법 |
KR102168504B1 (ko) | 2018-12-26 | 2020-10-21 | 주식회사 와이즈넛 | 텍스트 문서에서 각 문장 간의 일관성 분석 장치 및 그 방법 |
KR20200106231A (ko) * | 2019-02-22 | 2020-09-14 | 글로벌사이버대학교 산학협력단 | 정성적 가짜 뉴스 판단 시스템, 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 |
KR102242317B1 (ko) * | 2019-02-22 | 2021-04-21 | 글로벌사이버대학교 산학협력단 | 정성적 가짜 뉴스 판단 시스템, 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 |
KR102180329B1 (ko) * | 2019-03-04 | 2020-11-19 | 글로벌사이버대학교 산학협력단 | 가짜 뉴스 판단 시스템 |
KR20200108937A (ko) * | 2019-03-04 | 2020-09-22 | 글로벌사이버대학교 산학협력단 | 가짜 뉴스 판단 시스템, 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 |
KR20210003324A (ko) * | 2019-07-01 | 2021-01-12 | 글로벌사이버대학교 산학협력단 | 인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 가짜 뉴스 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 |
KR102301969B1 (ko) * | 2019-07-01 | 2021-09-16 | 글로벌사이버대학교 산학협력단 | 인문사회 요소를 활용한 가짜 뉴스 판단 시스템, 가짜 뉴스 판단 방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 |
KR102315068B1 (ko) | 2019-07-08 | 2021-10-20 | 네이버 주식회사 | 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템 |
KR20210006098A (ko) * | 2019-07-08 | 2021-01-18 | 네이버 주식회사 | 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템 |
KR20210059544A (ko) * | 2019-11-15 | 2021-05-25 | 고려대학교 산학협력단 | 자동화 기반의 가짜 뉴스 탐지 장치 및 방법 |
KR102340542B1 (ko) | 2019-11-15 | 2021-12-20 | 고려대학교 산학협력단 | 자동화 기반의 가짜 뉴스 탐지 장치 및 방법 |
CN110990683A (zh) * | 2019-11-29 | 2020-04-10 | 重庆邮电大学 | 一种基于地域与情感特征的微博谣言集成识别方法及装置 |
KR102228737B1 (ko) * | 2020-06-17 | 2021-03-17 | 주식회사 푸시뉴스 | Ai를 이용한 가짜뉴스 판독 방법 및 장치 |
WO2021256884A1 (ko) * | 2020-06-17 | 2021-12-23 | 주식회사 푸시뉴스 | Ai를 이용한 가짜뉴스 판독 방법 및 장치 |
CN112035670A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于图像情感倾向的多模态谣言检测方法 |
CN113377959A (zh) * | 2021-07-07 | 2021-09-10 | 江南大学 | 基于元学习及深度学习的少样本社交媒体谣言检测方法 |
CN113377959B (zh) * | 2021-07-07 | 2022-12-09 | 江南大学 | 基于元学习及深度学习的少样本社交媒体谣言检测方法 |
CN117556830A (zh) * | 2024-01-11 | 2024-02-13 | 四川大学 | 基于潜在热点话题与传播过程的谣言检测方法 |
CN117556830B (zh) * | 2024-01-11 | 2024-04-19 | 四川大学 | 基于潜在热点话题与传播过程的谣言检测方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5008024B2 (ja) | 2012-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5008024B2 (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
JP4911599B2 (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
Alzahrani et al. | Understanding plagiarism linguistic patterns, textual features, and detection methods | |
Agarwal et al. | Sentiment analysis of twitter data | |
Tang et al. | Email data cleaning | |
Oh et al. | Why-question answering using intra-and inter-sentential causal relations | |
US7877383B2 (en) | Ranking and accessing definitions of terms | |
Zanasi | Text mining and its applications to intelligence, CRM and knowledge management | |
TWI536181B (zh) | 在多語文本中的語言識別 | |
Zhang et al. | Narrative text classification for automatic key phrase extraction in web document corpora | |
Tsui et al. | A concept–relationship acquisition and inference approach for hierarchical taxonomy construction from tags | |
US20090327264A1 (en) | Topics in Relevance Ranking Model for Web Search | |
Abbasi et al. | Stylometric identification in electronic markets: Scalability and robustness | |
Fujii | Modeling anchor text and classifying queries to enhance web document retrieval | |
Jagadeesh et al. | Sentence extraction based single document summarization | |
Alami et al. | Hybrid method for text summarization based on statistical and semantic treatment | |
Boese | Stereotyping the web: genre classification of web documents | |
Potthast | Technologies for reusing text from the web | |
Garg et al. | Maulik: A plagiarism detection tool for hindi documents | |
Xu et al. | Using SVM to extract acronyms from text | |
Venčkauskas et al. | Problems of authorship identification of the national language electronic discourse | |
Saghayan et al. | Exploring the impact of machine translation on fake news detection: A case study on persian tweets about covid-19 | |
Rasheed et al. | Building a text collection for Urdu information retrieval | |
Walas et al. | Named entity recognition in a Polish question answering system | |
Bae et al. | Improving question retrieval in community question answering service using dependency relations and question classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070109 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070220 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070221 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20091221 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091222 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20091222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120228 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120522 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120523 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150608 Year of fee payment: 3 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |