JP2008165599A - 風評情報抽出装置及び風評情報抽出方法 - Google Patents
風評情報抽出装置及び風評情報抽出方法 Download PDFInfo
- Publication number
- JP2008165599A JP2008165599A JP2006356021A JP2006356021A JP2008165599A JP 2008165599 A JP2008165599 A JP 2008165599A JP 2006356021 A JP2006356021 A JP 2006356021A JP 2006356021 A JP2006356021 A JP 2006356021A JP 2008165599 A JP2008165599 A JP 2008165599A
- Authority
- JP
- Japan
- Prior art keywords
- data
- information
- evaluation
- feature
- reputation information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】 所定の対象に対してネットワーク上で公開されている風評情報を抽出するコンピュータを用いた風評情報抽出装置であって、ネットワーク上のサーバ装置から公開されているデータを収集するデータ収集手段100と、素性となる単語の集合を含む素性テーブルを参照して、該収集データから素性を抽出する素性抽出手段101と、素性を入力して当該対象に対する風評情報か否かを判定する機械学習判定手段102とを備え、該素性抽出手段が抽出した素性を該機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得ると共に、風評情報と判定された収集データに係る情報を出力する風評情報出力手段103を備える。
【選択図】 図1
Description
しかも非常に多数のウェブサイトが存在するために、これを発見することすら難しい状況にある。
実際、企業イメージの破壊や、特定個人への攻撃などがすでにインターネット上で行われており、大きな社会問題ともなっている。
特に、中小企業や個人にとって、その発見はほとんど不可能である。
まず、特許文献1の技術は、インターネット上のWebページを取得・蓄積し、蓄積されたWebページを解析してブロック単位に分割し、このブロック単位ごとに所定のキーワードを含むか否かを判定して、キーワードを含む場合に前記所定のキーワードごとの風評情報を抽出する。さらに、各風評情報ごとの重み付けを行った上で、自社製品名と他社製品名のWebページ上の出現状況などに基づいて風評情報の重要度を算出することを提案している。
この方法では、予め定義したネガティブ表現の単語が現れれば抽出できるが、少しでも表現が変われば抽出できない。風評情報が多様な表現方法で発信されていることを考慮すれば、このような従来技術で的確に風評情報を抽出することは難しい。
請求項1に記載の発明は、所定の対象に対してネットワーク上で公開されている風評情報を抽出するコンピュータを用いた風評情報抽出装置であって、ネットワーク上の単数又は複数のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集手段と、少なくとも素性となる単語又は単語の集合を含む素性テーブルを格納した素性テーブル記憶手段と、該素性テーブルを参照して、該収集データから素性を抽出する素性抽出手段と、単数又は複数の素性を入力すると、学習結果記憶手段に格納された機械学習結果データを参照して、所定の対象に対する風評情報か否かを判定する所定の機械学習モジュールを備えた機械学習判定手段とを備えて、該素性抽出手段が抽出した素性を該機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得ると共に、風評情報と判定された収集データの少なくとも一部、又はそれが公開されているサーバ装置の名称若しくはネットワークアドレス、又はその収集データのファイル情報、の少なくともいずれかを出力する風評情報出力手段を備えたことを特徴とする。
すなわち、ネットワーク上でデータを公開するサーバ装置又は、該データのファイル情報に対して、信頼度を数値で評価するコンピュータを用いたデータ信頼度値評価装置であって、該データと、該データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出手段と、該データの信頼性を高める因子である積極因子と、該データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶手段と、該因子を素性として、該評価用データから抽出する評価用素性抽出手段と、単数又は複数の素性を入力すると、学習結果記憶手段に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う所定の機械学習モジュールを備えた評価用機械学習判定手段とを備えて、該評価用素性抽出手段が抽出した素性を該評価用機械学習判定手段に入力して得られた評価用データの分類結果を、該データの信頼度として出力することを特徴とする。
すなわち、請求項9に記載の発明は、所定の対象に対してネットワーク上で公開されている風評情報を抽出するコンピュータを用いた風評情報抽出方法であって、コンピュータのデータ収集手段が、ネットワーク上の単数又は複数のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集ステップ、少なくとも素性となる単語又は単語の集合を含む素性テーブルを格納した素性テーブル記憶手段を備えておき、コンピュータの素性抽出手段が、該素性テーブルを参照して、該収集データから素性を抽出する素性抽出ステップ、所定の機械学習モジュールを備えたコンピュータの機械学習判定手段が、抽出された素性を用い、学習結果記憶手段に格納された機械学習結果データを参照して、所定の対象に対する風評情報か否かを判定する機械学習判定ステップ、コンピュータの風評情報出力手段が、風評情報と判定された収集データの少なくとも一部、又はそれが公開されているサーバ装置の名称若しくはネットワークアドレス、又はその収集データのファイル情報、の少なくともいずれかを出力する風評情報出力ステップを含むことを特徴とする。
すなわち請求項16に記載の発明は、ネットワーク上でデータを公開するサーバ装置又は、該データのファイル情報に対して、信頼度を数値で評価するコンピュータを用いたデータ信頼度値評価方法であって、コンピュータの評価用データ抽出手段が、該データと、該データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出ステップ、該データの信頼性を高める因子である積極因子と、該データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶手段を備えておき、コンピュータの評価用素性抽出手段が、該因子を素性として、該評価用データから抽出する評価用素性抽出ステップ、所定の機械学習モジュールを備えたコンピュータの評価用機械学習判定手段が、単数又は複数の素性を入力すると、学習結果記憶手段に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う評価用機械学習判定ステップを含み、該評価用素性抽出手段が抽出した素性を該評価用機械学習判定手段に入力して得られた評価用データの分類結果を、該データの信頼度として出力することを特徴とする。
さらに、請求項18に記載の通り、前記情報信頼度値評価方法をコンピュータで実行処理させる情報信頼度値評価プログラムとして提供してもよい。
すなわち、本発明によれば、様々な素性を用いて風評情報を抽出することができるので、人手では不可能な複雑な要素を加味して風評情報か否か判定することができる。
またコンピュータを用いることでネットワーク上で流通する膨大な情報から迅速かつ網羅的に風評情報を探索することができるので、風評情報による被害を最小限に抑えることができる。
また、テキストデータの取得などのためにデータの取得入力手段としてインターネット等のネットワークと接続するネットワークアダプタ(14)を備える。
そして、公知のプログラミング言語によって記載されたプログラムがCPU(10)及びそれと連動するハードウェアを動作させて、以下に説述する各部(100)〜(103)の機能が実現される。
まず、データ収集部は、インターネット(21)などのネットワーク上に多数設置されているサーバ装置(20)から、各サーバ装置で公開されているデータを受信する。(データ収集ステップ:S1)
具体的には、ウェブサーバAにおいて公開されているテキストデータ(例えばa1.txtという名前のテキストデータ)や、HTML(HyperTextMarkup Language)などで記述された表示書式を含むデータ(例えばa2.htmlという名前のデータ)を受信する。
本発明で行うデータの収集は、検索エンジンなどで用いられる任意の方法で実施することができる。
収集されたデータはデータ記憶手段であるハードディスク(13)に格納される。
このとき、ハードディスク(13)に素性テーブルを備えておき、素性抽出部(101)はそこで定義された素性を抽出する。
通常、素性は単語、その品詞などの形で与えられるが、本発明の素性テーブルには、素性の抽出に必要な形態素辞書なども格納する。
まず、素性テーブル(131)の中で、定義される素性を表1に示す。
このように対象を特定する場合には、該対象を含むかどうかは風評情報を抽出する前提となるものであるから、含まないデータは機械学習判定を行うことなく除外してもよい。
これにより、ルールベースの場合には定義された語句そのもの以外では抽出することができなかったのに対して、本発明方法では、含まれる語句の組み合わせから風評情報の可能性のあるものを抽出することができるようになる。
もっとも、機械学習判定を用いる本発明によれば、風評の内容も複数の語句が素性として抽出され、例えば「損失を出した」だけであれば風評情報である可能性が0.5であると判定される一方、「報道によると」「損失を出した」が抽出される場合には可能性が0.1、「噂によると」「損失を出した」「らしいよ」が抽出される場合には可能性が0.9というように、ルールベースでは得られない緻密な判定が行える。
例示のように、bbsなどの単語が含まれている場合には、それがネットワーク上の掲示板であることを示唆し、公的な情報でない可能性が高い。また”~”(チルダ)が含まれる場合には、個人の開設するホームページである可能性があり、これも風評情報か否かの判定に用いる素性として適当である。
このような特性を利用し、本発明では形態素解析をしたときに辞書に登録されていないために解析ができなかった結果から未知語を判定してその結果を素性として用いることも提案する。
未知語に係る情報を素性として用いることで、例えば「カキコ」(掲示板への書き込みの意味)などの俗語が用いられている情報については当該情報が風評情報である可能性が高いものとして判定に反映される。
ここで、意味クラスとは単語の意味的類似による分類であり、この意味クラスによって分類された分類語彙表が表4のように作られている。
また、IPアドレスや、ファイル情報を情報源信頼度データベースに定義して素性としてもよい。表7には情報源信頼度の例を示す。
なお、本発明では情報源の信頼度を自動的に評価することもできるが、これについては後述する。
本発明では機械学習を用いることによって各素性をそれぞれ適切な重みで評価し、風評情報であるか否かを判定するものである。
機械学習の手法は公知の機械学習モジュールにおける学習過程と、それを用いた解の推定過程とが一体的に成り立つものである。本発明の実施においては学習過程は必ずしも必須ではなくすでに機械学習結果データ(132)を備えていればよいが、このような機械学習の特徴に考慮して、両過程について公知の手法を簡述する。
問題:「彼が話す。」---解「現在」
が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す。」「。」となる。
機械学習部(142)における機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。
p(a|b)=p(a|fmax )
ただし、fmax は以下の数5によって与えられる。
sgn(x)=1(x≧0)
-1(otherwise )
であり、また、各αiは数10と数11の制約のもと数9を最大にする場合のものである。
K(x,y)=(x・y+1)d
C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi>0となるxiは、サポートベクトルと呼ばれ、通常、数8の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
例えば、求める分類が2種類であれば重回帰分析を利用することができる。重回帰分析をコンピュータ上で実行する方法については、非特許文献9に詳しい。
風評情報であるか否かは、上述したように機械学習手法によって「風評情報である」「風評情報ではない」のいずれかで出力される場合もあるし、「風評情報である確率」が出力される場合もある。「風評情報である確率」が大きな順にその確率と共に出力されてもよい。また、確率を示すための書式、例えば、文字色や文字サイズ、あるいは確率を示すマークなどと共に出力されてもよい。
さらに、ユーザーが設定するか、あるいは予め定義されている閾値を用い、該確率が閾値を上回るときに「風評情報である」ことを出力してもよい。
その際、結果と共に、収集されたデータの少なくとも一部、又はそれが公開されているサーバ装置の名称若しくはネットワークアドレス、又はその収集データのファイル情報、の少なくともいずれかを出力する。特に風評情報と判定された根拠となる単語などを出力してもよい。
すなわち、本発明が実行する風評情報の抽出は、企業名や製品名、個人名など固有名詞を用いるものであり、これらを、ユーザが指定したサイトや、ユーザが指定したキーワードを公知の検索エンジンに入力して検索されたサイトに含まれるデータから抽出することができる。
取得したデータから固有名詞を抽出する。なお、本発明で素性に用いるのは固有名詞でなく一般名詞でもよい。
この抽出には、次のような固有表現の抽出技術を用いることでデータから自動的に固有表現を抽出し、それを素性とすることができる。
(1) 機械学習を用いる手法
機械学習を用いて固有表現を抽出する手法がある(例えば、以下の非特許文献10参照)。
日 B-LOCATION
本 I-LOCATION
の O
首 O
相 O
は O
小 B-PERSON
泉 I-PERSON
さ O
ん O
で O
す O
。 O
上記において、B-???は、ハイフン以下の固有表現の種類の始まりを意味するタグである。例えば、 B-LOCATIONは、地名という固有表現の始まりを意味しており、B-PERSONは、人名という固有表現の始まりを意味している。また、I-???は、ハイフン以下の固有表現の種類の始まり以外を意味するタグであり、Oはこれら以外である。従って、例えば、文字「日」は、地名という固有表現の始まりに該当する文字であり、文字「本」までが地名という固有表現である。
日 B-LOCATION
の部分は、
日本-B 名詞-B
などの情報を用いる。日本-B は、日本という単語の先頭を意味し、名詞-Bは、名詞の先頭を意味する。単語や品詞の認定には、例えば前述したChasenによる形態素解析を用いる。上述したChasenは各単語の品詞も推定することができるので、「学校へ行く」を入力すると以下の結果を得る。
へ ヘ へ 助詞-格助詞-一般
行く イク 行く 動詞-自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
表現抽出を行う手法について記載されている。
人手でルールを作って固有表現を取り出すという方法もある。
例えば、
名詞+「さん」だと人名とする
名詞+「首相」だと人名とする
名詞+「株式会社」だと企業名とする
名詞+「町」だと地名とする
名詞+「市」だと地名とする
などである。
その1つの例として、データの信頼度を評価する技術を提案する。図6に示すように、本装置(1)のCPU(10)に評価用データ抽出部(104)、評価用素性抽出部(105)、評価用機械学習判定部(106)を備えて、該データの信頼度を判定し、その結果を機械学習判定部(102)において素性として利用する。
本構成では、ハードディスク(13)に評価用データベース(133)を格納しておくか、ネットワーク上の任意のサーバに格納しておく。該評価用データベース(133)には、多数のデータが含まれており、評価用データ抽出部(104)は、データ収集部で収集されたデータと、収集データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該収集データのファイル情報の少なくともいずれかが一致する評価用データを抽出する。(評価用データ抽出工程:S50)
そして、「○川○夫」が含まれる評価用データを、該評価用データベース(133)から抽出する。
そして、これらの素性を用いて、評価用機械学習判定部(106)が、当該評価データについて「信頼できる」「信頼できない」のいずれかか、数値で表現される信頼度として算出する。(評価用機械学習判定工程:S52)
この判定には、評価用に備えた機械学習結果データ(135)を用いるが、同機械学習結果データ(135)についても、上述した機械学習の手法によって生成する。
そのため、本発明では評価用データについて判定された信頼度を、機械学習判定部(102)における素性として入力することで、さらに正確な風評情報か否かの判定に寄与することができる。
まず、データ収集の後、収集されたデータ形態素解析を行ってからそれによって得られた該データを構成する単語群Aを、多く含む根拠情報データの抽出方法を説明する。
(数13)
score(D)= Σ ( tf(w,D) * log(N/df(w)) )
w ∈W で加算
Wはキーワードの集合、tf(w,D)は収集されたデータでのwの出現回数、df(w)は全文書でWが出現した文書の数、Nは文書の総数
数13に示す式において、score(D) が高い文書データを類似した根拠情報データとして出力する。
本方法は、非特許文献13に記載されている。
(数14)
score(D)= Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)) )
w ∈W で加算
lengthはデータDの長さ、delta はデータの長さの平均、データの長さは、データのバイト数、また、データに含まれる単語数などを使う。
(Okapi の参考文献)
非特許文献14,15に開示されるようなOkapiの式、SMARTの式を用いることもできる。より高度な情報検索の方法として、tf・idf を使うだけの式でなく、これらのOkapiのSMARTの式を用いてもよい。
(数15)
{E(t) + k_af * (RatioC(t) - RatioD(t))}*log(N/df(w))
を使う。
= 0 (それ以外)
RatioC(t) はデータ群Bでのt の出現率
RatioD(t) は記事群Cでのt の出現率
log(N/df(w))を上式でおきかえた式でscore(D)を求めて、その値が大きいものほど単語群Aをより多く含む記事として取り出すものである。
本発明における根拠情報確認ステップ(S6)における1つの処理として、上記のような単語群Aを含む記事を抽出による方法が挙げられる。
記事同士の類似度を定義する。この類似度は、tf・idf や okapiや smartを使うとよい。tf・idf や okapiや smartなどにおける、記事Dとクエリを比較する二つの記事xとyとするとしてよい。そして、x、yの両方に含まれる単語をwとするとよい。
okapi だと tf(w,D)/(tf(w,D) + length/delta)* log(N/df(w))
がその式となる。
(1)データ群Bのうち根拠情報データxと最も類似するデータと、根拠情報データxの類似度をその類似度とする方法
(2)データ群Bのうち根拠情報データxと最も類似しない記事と、根拠情報データxの類似度をその類似度とする方法
(3)データ群Bのすべての記事と根拠情報データxの類似度の平均をその類似度とする方法
他の方法でもよいが、このようにして、データ群Bと根拠情報データxの類似度を求めて、その類似度が大きいものを類似記事として取り出すことができる。
さらに、上述した単語群Aを含む記事を抽出による方法と、ここで説明した類似記事を取り出す方法とを両方実行してそれぞれ記事を抽出してもよい。
類似度が数値で算出される場合には、その類似度をp倍(p<1)した値よりも大きい類似度の文書が根拠情報データにある場合、当該収集データは根拠のあるものとする。
この言い換えは、類似度を求める両方の文を言い換えても良い。
上記において関連情報の抽出はCPU(10)の関連情報抽出部(110)が、風評情報と判定された収集データについて、その著作者、コンテンツ、格納されるサーバ装置の名称若しくはネットワークアドレス、ファイル情報などに基づいて関連情報を抽出する構成である。
本発明では、さらに関連情報の抽出自体に機械学習モデルを用いて関連情報として抽出する妥当性を判断することもできる。
そして予め関連情報評価部に含む機械学習モジュールでは次のようにして機械学習を行い、その結果を機械学習結果データとしてハードディスクに格納しておく。
関連情報データが本当に関連情報データとして妥当か否かを人手によって判定し、その結果を学習用の出力データとする。
そして、機械学習における素性として、入力データの風評情報データを構成する単語列と、関連情報データを構成する単語列と共に、関連情報類似度とを用いる。
機械学習モジュールにおける機械学習の方法は上述した様々な方法のいずれかを用いることができ、このときの判定結果は、「妥当である」「妥当でない」と出力される場合と、妥当である確率が出力される場合がある。前者の場合には「妥当である」関連情報データを出力すればよく、後者の場合には所定の閾値を超える確率の場合に出力すればよい。
本発明の関連情報抽出部(110)において次のように抽出処理を行うこともできる。
すなわち、CPU(10)に図示しない関連情報類似度算出部を備え、該関連情報類似度算出部では上述した通りの記事の類似度の算出処理を行う。
そして、データ収集部(100)で収集されて風評情報と判定された風評情報データと、ネットワーク上又はハードディスクの関連情報DBから抽出する記事の類似度を算出する。
本発明ではさらに、CPU(10)に上記言い換えの技術を備えた単語列置換部(図示しない)と上記関連情報類似度算出部を設けて、該単語列置換部において関連情報DB等から抽出された記事に含まれる単語列を順次置換しながら、風評情報データとの類似度を
関連情報類似度算出部で算出する。そして、常に類似度が高まるように単語列を置換していき、もっとも類似度が高くなるときの類似度が所定の閾値を超えたときに関連情報データとして抽出することもできる。
その1つは、クラスタリング処理により、機械学習判定部(102)で風評情報と判定された複数の風評情報を、関連する風評情報同士をまとめて出力することである。
クラスタリングにはさまざまな方法がある。一般的なものを以下に記述する。
最も近い成員同士をくっつけていき、クラスターを作る。クラスターとクラスター同士
も(クラスターと成員同士も)、最も近いクラスター同士をくっつける。
クラスター間の距離の定義は様々あるので以下に説明する。
距離の中で最も小さいものをその距離とする方法
・クラスターAとクラスターBの距離を、クラスターAの成員とクラスターBの成員の
距離の中で最も大きいものをその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員とクラスターB
の成員の距離の平均をその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員の位置の平均を
そのクラスターの位置とし、すべてのクラスターBの成員の位置の平均をそのクラスター
の位置とし、その位置同士の距離の平均をその距離とする方法
(数16)
W = ΣΣ (x(i,j) - ave _x(i)) ^ 2
^は指数を意味する。
Σは i=1からi=g までの加算
二つ目の
Σは j=1からj=niまでの加算
x(i,j)は i番目のクラスターの j番目の成員の位置
ave _x(i)は i番目のクラスターのすべての成員の位置の平均
クラスター同士をくっつけていくと、Wの値が増加するが、ウォード法では、Wの値が
なるべく大きくならないようにクラスター同士をくっつけていく。
語のベクトルの要素の値を、単語の頻度やその単語のtf・idf (すなわち、tf(w,D) * log(N/df(w))) 、その単語のOkapi の式 (すなわち、tf(w,D)/(tf(w,D)+length/delta)*log(N/df(w))) としたベクトルを作成し、それをその成員の位置とする。
以下、トップダウンのクラスタリング(非階層クラスタリング)の方法を説明する。
ある成員をとる。次にその成員と最も離れた成員をとる。これら成員をそれぞれのクラスターの中心とする。それぞれのクラスター中心と、成員の距離の最小値を、各成員の距離として、その距離が最も大きい成員をあらたなクラスターの中心とする。これを繰り返す。あらかじめ定めた数のクラスターになったときに、繰り返しをやめる。また、クラスター間の距離があらかじめ定めた数以下になると繰り返しをやめる。また、クラスターの良さをAIC情報量基準などで評価してその値を利用して繰り返しをやめる方法もある。各成員は、最も近いクラスター中心の成員となる。
あらかじめ定めた個数k個にクラスタリングすることを考える。k個成員をランダムに選ぶ、それをクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。クラスター内の各成員の平均をそれぞれのクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。また、クラスター内の各成員の平均をそれぞれのクラスターの中心とする。これらを繰り返す。そして、クラスターの中心が移動しなくなると繰り返しをやめる。又は、あらかじめ定めた回数だけ繰り返してやめる。その最終的なクラスター中心のときのクラスター中心を使ってクラスターを求める。各成員は最も近いクラスター中心の成員となる。
クラスタリングに類似する文書分類の方法として、あらかじめ分類先毎に単数又は複数の単語群を定義しておき、入力された情報に該単語群が含まれるか否かにより分類先に分類する方法がある。該文書分類方法についても本発明ではクラスタリングに含まれる。
入力された情報の中で複数の分類先の単語群が含まれる場合には、含まれる数が多い単語群の分類先に分類してもよいし、各単語群に重みの値をつけておき、その重みが大きい単語群の分類先に分類するようにしてもよい。
風評情報は、類似の情報が複数抽出されることが多く、複数の風評情報がランダムに出力されてしまうと、どの風評情報が本当に問題があるのかがわかりにくい問題がある。
本発明において風評情報出力部(103)でクラスタリング処理をすることにより、モニタ(12)などで類似の風評情報ごとに表示させることができるので、例えば誤った情報が集中している場合なども迅速的確に把握可能である。
すなわち、風評情報出力部(103)は、風評情報と判定されたデータの、日次、週次、月次ごとに判定件数をカウントして、判定件数データを作成する。例えば、図10に示すような週次発表データが作成される。
なお、並べ順は平均値、最頻値、中央値のいずれかによって並べてもよいし、それらを用いた計算方法も任意である。
バブルチャートとは、一般に、ある事象を示す(円)を2つの軸を持つ図上に配置した図のことを言う。図12に示すバブルチャートでは、円の大きさが判定件数の度合いを示している。
そこで、本発明では次の要約処理により、出力される風評情報をわかりやすく提示することができる。
すなわち、特許文献2の方法によれば、要約装置として、文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段と、解データの問題である文章および要約結果から、例えば要約結果の文のなめらかさを示す情報および要約結果が文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出する。
もちろん、ここで用いる機械学習方法はシンプルベイズ法に限らず、k近傍法、決定リスト法、最大エントロピー法、サポートベクトルマシン法、ニューラルネットワーク法などいかなるモデルを用いても良い。
例えば、文書の位置、タイトルの単語を含んでいる個数、その文に出現する単語のtfidfの値 のそれぞれの情報を用いて、各文のスコアを求め、そのスコアの大きいものを要約結果とする方法がある。
また、一般にタイトルの単語は重要なため、タイトルの単語を多く含む文を抽出してその文を要約結果とすることができる。
より単純に、文書の第一文など、最初の方を要約文としてもよい。
さらに、このように抽出された外国語の風評情報を、公知の機械翻訳処理装置又は機械翻訳プログラムに入力することによって日本語に翻訳し、出力させてもよい。
まず、次の通りの教師データを用意する。
[教師データ1]
書き込み:「..銀行が倒産する」
発信者:信頼できる
文字:黒
背景:白
特許論文新聞の根拠:なし
風評でない(正しい情報)
[教師データ2]
書き込み:「..銀行が倒産する」
発信者:信頼できるか不明
文字:黒
背景:白
特許論文新聞の根拠:あり
風評でない(正しい情報)
[教師データ3]
書き込み:「..銀行が倒産する」
発信者:信頼できるか不明
文字:赤
背景:黒
特許論文新聞の根拠:なし
風評である(正しくない情報)
[教師データ4]
書き込み:「..銀行がもうかっている」
発信者:信頼できるか不明
文字:黒
背景:白
特許論文新聞の根拠:なし
風評でない(正しいかどうか不明だが)
[教師データ1]
書き込みにあった単語など:「銀行」
書き込みにあった単語など:「倒産する」
発信者:信頼できる
文字:黒
背景:白
特許論文新聞の根拠:なし
[教師データ2]
書き込みにあった単語など:「銀行」
書き込みにあった単語など:「倒産する」
発信者:信頼できるか不明
文字:黒
背景:白
特許論文新聞の根拠:あり
[教師データ3]
書き込みにあった単語など:「銀行」
書き込みにあった単語など:「倒産する」
発信者:信頼できるか不明
文字:赤
背景:黒
特許論文新聞の根拠:なし
[教師データ4]
書き込みにあった単語など:「銀行」
書き込みにあった単語など:「もうかっている」
発信者:信頼できるか不明
文字:黒
背景:白
特許論文新聞の根拠:なし
となる。
発信者:信頼できる
や
特許論文の根拠:あり
のときは、風評情報でないことや、
「倒産する」という語があって
文字:赤
背景:黒
の場合
風評の可能性が高いなどが学習される。
[収集データ1の素性]
書き込み:「..会社が倒産する」
発信者:信頼できるか不明
文字:赤
背景:黒
特許論文新聞の根拠:なし
このとき、
「倒産する」という語があって
文字:赤
背景:黒
の場合、風評の可能性が高いという学習結果から、風評情報であると判定され、出力される。
10 CPU
11 キーボード・マウス
12 モニタ
13 ハードディスク
14 ネットワークアダプタ
100 データ収集部
101 素性抽出部
102 機械学習判定部
103 風評情報出力部
131 素性テーブル
132 機械学習結果データ
Claims (24)
- 所定の対象に対してネットワーク上で公開されている風評情報を抽出するコンピュータを用いた風評情報抽出装置であって、
ネットワーク上の単数又は複数のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集手段と、
少なくとも素性となる単語又は単語の集合を含む素性テーブルを格納した素性テーブル記憶手段と、
該素性テーブルを参照して、該収集データから素性を抽出する素性抽出手段と、
単数又は複数の素性を入力すると、学習結果記憶手段に格納された機械学習結果データを参照して、所定の対象に対する風評情報か否かを判定する所定の機械学習モジュールを備えた機械学習判定手段と
を備えて、該素性抽出手段が抽出した素性を該機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得ると共に、
風評情報と判定された収集データの少なくとも一部、又はそれが公開されているサーバ装置の名称若しくはネットワークアドレス、又はその収集データのファイル情報、の少なくともいずれかを出力する風評情報出力手段
を備えたことを特徴とする風評情報抽出装置。 - 前記素性テーブル記憶手段において、
前記ネットワーク上でデータが公開される時の表示書式に係わる書式設定情報を素性として素性テーブルに含むと共に、
前記素性抽出手段が、
該素性テーブルを参照して、前記収集データからそれに付与された書式設定情報を抽出する
ことを特徴とする請求項1に記載の風評情報抽出装置。 - 前記風評情報抽出装置に、
単語の意味を、符号を用いて意味クラスとして分類し、複数の単語に対してそれぞれの意味クラスを付与した分類語彙テーブルを有し、該意味クラスを素性として素性テーブルに含むと共に、
前記素性抽出手段が、
該素性テーブルを参照して、前記収集データからそれに含まれる単語の意味クラスを抽出する
ことを特徴とする請求項1又は2に記載の風評情報抽出装置。 - 前記風評情報抽出装置に、
前記ネットワーク上のサーバ装置の名称若しくはネットワークアドレス、又はその前記収集データのファイル情報に対して、そこで公開される情報の信頼度を数値で表す情報源信頼度データベースを有し、該信頼度を素性として素性テーブルに含むと共に、
前記素性抽出手段が、
該素性テーブルを参照して、該収集データに係る信頼度の数値を抽出する
ことを特徴とする請求項1ないし3のいずれかに記載の風評情報抽出装置。 - 前記風評情報抽出装置が、データ信頼度値評価手段を備え、
該データ信頼度値評価手段は、
前記収集データと、該収集データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該収集データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出部と、
該収集データの信頼性を高める因子である積極因子と、該収集データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶部と、
該因子を素性として、該評価用データから抽出する評価用素性抽出部と、
単数又は複数の素性を入力すると、学習結果記憶部に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う所定の機械学習モジュールを備えた評価用機械学習判定部と
を備えて、該評価用素性抽出部が抽出した素性を該評価用機械学習判定部に入力して得られた評価用データの分類結果を、該収集データの信頼度として出力する構成であって、
該収集データの信頼度値を、前記素性抽出手段が抽出した素性と共に、前記機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得る
ことを特徴とする請求項1ないし4のいずれかに記載の風評情報抽出装置。 - 前記風評情報抽出装置が、前記素性に風評情報を判定する対象である判定対象名詞を含む構成であって、
該判定対象名詞を、ネットワーク上の所定のサーバ装置又は、ユーザが指定したキーワードに基づいて所定の情報検索サーバ装置により抽出されたサーバ装置における情報から抽出する判定対象名詞抽出手段を備える
ことを特徴とする請求項1ないし5のいずれかに記載の風評情報抽出装置。 - 前記風評情報抽出装置が、根拠情報確認手段を備え、
該根拠情報確認手段が、
信頼できる情報を公開しているサーバ装置の名称若しくはネットワークアドレス、又は該信頼できる情報のファイル情報の少なくともいずれかの根拠情報源を定義した根拠情報データベースと、
該根拠情報データベースに定義される根拠情報源から公開されているデータを取得し、前記収集データと話題が類似する類似データが含まれているか否かを判定する類似判定部と
を備え、
該類似判定部における判定結果を、前記素性抽出手段が抽出した素性と共に、前記機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得る
ことを特徴とする請求項1ないし6のいずれかに記載の風評情報抽出装置。 - 前記風評情報抽出装置が、クラスタリング処理手段を備え、
該クラスタリング処理手段が、
前記風評情報データに含まれる著作者又はコンテンツを、所定のクラスタリング式に従ってクラスタリング処理すると共に、
前記出力手段が、
該クラスタリングされた状態の該風評情報データを出力する
ことを特徴とする請求項1ないし7のいずれかに記載の風評情報抽出装置。 - 前記風評情報抽出装置が、テキスト要約処理手段を備え、
該テキスト要約処理手段が、
前記風評情報データに含まれるテキストコンテンツを、要約処理すると共に、
前記出力手段が、
該要約された状態の該風評情報データを出力する
ことを特徴とする請求項1ないし8のいずれかに記載の風評情報抽出装置。 - 前記風評情報抽出装置が、機械翻訳処理手段を備え、
該機械翻訳処理手段において、前記素性、前記収集データ、風評情報データの少なくともいずれかを機械翻訳することにより、他言語で記載された風評情報を抽出する
ことを特徴とする請求項1ないし9のいずれかに記載の風評情報抽出装置。 - ネットワーク上でデータを公開するサーバ装置又は、該データのファイル情報に対して、信頼度を数値で評価するコンピュータを用いたデータ信頼度値評価装置であって、
該データと、該データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出手段と、
該データの信頼性を高める因子である積極因子と、該データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶手段と、
該因子を素性として、該評価用データから抽出する評価用素性抽出手段と、
単数又は複数の素性を入力すると、学習結果記憶手段に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う所定の機械学習モジュールを備えた評価用機械学習判定手段と
を備えて、該評価用素性抽出手段が抽出した素性を該評価用機械学習判定手段に入力して得られた評価用データの分類結果を、該データの信頼度として出力する
ことを特徴とする情報信頼度値評価装置。 - 所定の対象に対してネットワーク上で公開されている風評情報を抽出するコンピュータを用いた風評情報抽出方法であって、
コンピュータのデータ収集手段が、ネットワーク上の単数又は複数のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集ステップ、
少なくとも素性となる単語又は単語の集合を含む素性テーブルを格納した素性テーブル記憶手段を備えておき、
コンピュータの素性抽出手段が、該素性テーブルを参照して、該収集データから素性を抽出する素性抽出ステップ、
所定の機械学習モジュールを備えたコンピュータの機械学習判定手段が、抽出された素性を用い、学習結果記憶手段に格納された機械学習結果データを参照して、所定の対象に対する風評情報か否かを判定する機械学習判定ステップ、
コンピュータの風評情報出力手段が、風評情報と判定された収集データの少なくとも一部、又はそれが公開されているサーバ装置の名称若しくはネットワークアドレス、又はその収集データのファイル情報、の少なくともいずれかを出力する風評情報出力ステップ
を含むことを特徴とする風評情報抽出方法。 - 前記素性テーブル記憶手段において、
前記ネットワーク上でデータが公開される時の表示書式に係わる書式設定情報を素性として素性テーブルに含むと共に、
前記素性抽出ステップにおいて、前記素性抽出手段が、
該素性テーブルを参照して、前記収集データからそれに付与された書式設定情報を抽出する
ことを特徴とする請求項12に記載の風評情報抽出方法。 - 単語の意味を、符号を用いて意味クラスとして分類し、複数の単語に対してそれぞれの意味クラスを付与した分類語彙テーブルを有し、該意味クラスを素性として素性テーブルに含むと共に、
前記素性抽出ステップにおいて、前記素性抽出手段が、
該素性テーブルを参照して、前記収集データからそれに含まれる単語の意味クラスを抽出する
ことを特徴とする請求項12又は13に記載の風評情報抽出方法。 - 前記ネットワーク上のサーバ装置の名称若しくはネットワークアドレス、又はその前記収集データのファイル情報に対して、そこで公開される情報の信頼度を数値で表す情報源信頼度データベースを有し、該信頼度を素性として素性テーブルに含むと共に、
前記素性抽出ステップにおいて、前記素性抽出手段が、
該素性テーブルを参照して、該収集データに係る信頼度の数値を抽出する
ことを特徴とする請求項12ないし14のいずれかに記載の風評情報抽出方法。 - 前記風評情報抽出方法の前記データ収集ステップの後、前記機械学習判定ステップの前のいずれかの時点において、データ信頼度評価ステップを有し、
該データ信頼度評価ステップにおいて、
コンピュータのデータ信頼度値評価手段における評価用データ抽出部が、前記収集データと、該収集データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該収集データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出処理工程、
該収集データの信頼性を高める因子である積極因子と、該収集データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶部を備えておき、
データ信頼度値評価手段における評価用素性抽出部が、該因子を素性として、該評価用データから抽出する評価用素性抽出処理工程、
データ信頼度値評価手段における所定の機械学習モジュールを備えた評価用機械学習判定部が、該評価用素性抽出処理工程で抽出された素性を用い、学習結果記憶部に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う評価用機械学習判定処理工程、
を含んで評価用データの分類結果を、該収集データの信頼度として出力すると共に、
該機械学習判定ステップにおいて、該収集データの信頼度値を、前記素性抽出手段が抽出した素性と共に、前記機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得る
ことを特徴とする請求項12ないし15のいずれかに記載の風評情報抽出方法。 - 前記風評情報抽出方法において、
前記素性に風評情報を判定する対象である判定対象名詞を含む構成であって、前記素性抽出ステップの前に、
コンピュータの判定対象名詞抽出手段が、該判定対象名詞を、ネットワーク上の所定のサーバ装置又は、ユーザが指定したキーワードに基づいて所定の情報検索サーバ装置により抽出されたサーバ装置における情報から抽出する
ことを特徴とする請求項12ないし16のいずれかに記載の風評情報抽出方法。 - 前記風評情報抽出方法の前記データ収集ステップの後、前記機械学習判定ステップの前のいずれかの時点において、根拠情報確認ステップを有し、
コンピュータの根拠情報確認手段には、
信頼できる情報を公開しているサーバ装置の名称若しくはネットワークアドレス、又は該信頼できる情報のファイル情報の少なくともいずれかの根拠情報源を定義した根拠情報データベースを備えておき、
該根拠情報確認手段の類似判定部が、該根拠情報データベースに定義される根拠情報源から公開されているデータを取得し、前記収集データと話題が類似する類似データが含まれているか否かを判定する類似判定処理工程を含み、
該機械学習判定ステップにおいて、該類似判定部における判定結果を、前記素性抽出手段が抽出した素性と共に、前記機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得る
ことを特徴とする請求項13ないし18のいずれかに記載の風評情報抽出方法。 - 前記風評情報抽出方法において、
コンピュータのクラスタリング処理手段が、
前記風評情報データ又は前記関連情報データの少なくともいずれかについて、
当該いずれかのデータに含まれる著作者又はコンテンツを、所定のクラスタリング式に従ってクラスタリング処理するクラスタリング処理ステップを含み、
前記出力ステップにおいて、
該クラスタリングされた状態の該風評情報データ又は該関連情報データの少なくともいずれか
を出力する
ことを特徴とする請求項13ないし18のいずれかに記載の風評情報抽出方法。 - 前記風評情報抽出方法において、
コンピュータのテキスト要約処理手段が、
前記風評情報データに含まれるテキストコンテンツを、要約処理するテキスト要約処理ステップを含み、
前記出力ステップにおいて、
該要約された状態の該風評情報データを出力する
ことを特徴とする請求項13ないし19のいずれかに記載の風評情報抽出方法。 - 前記風評情報抽出方法において、
コンピュータの機械翻訳処理手段が、前記素性、前記収集データ、風評情報データの少なくともいずれかを機械翻訳することにより、他言語で記載された風評情報を抽出する
ことを特徴とする請求項13ないし20のいずれかに記載の風評情報抽出方法。 - ネットワーク上でデータを公開するサーバ装置又は、該データのファイル情報に対して、信頼度を数値で評価するコンピュータを用いたデータ信頼度値評価方法であって、
コンピュータの評価用データ抽出手段が、該データと、該データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出ステップ、
該データの信頼性を高める因子である積極因子と、該データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶手段を備えておき、
コンピュータの評価用素性抽出手段が、該因子を素性として、該評価用データから抽出する評価用素性抽出ステップ、
所定の機械学習モジュールを備えたコンピュータの評価用機械学習判定手段が、単数又は複数の素性を入力すると、学習結果記憶手段に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う評価用機械学習判定ステップ
を含み、該評価用素性抽出手段が抽出した素性を該評価用機械学習判定手段に入力して得られた評価用データの分類結果を、該データの信頼度として出力する
ことを特徴とする情報信頼度値評価方法。 - 所定の対象に対してネットワーク上で公開されている風評情報を抽出するようにコンピュータを動作させる風評情報抽出プログラムであって、
コンピュータのデータ収集手段が、ネットワーク上の単数又は複数のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集ステップ、
少なくとも素性となる単語又は単語の集合を含む素性テーブルを格納した素性テーブル記憶手段を備えておき、
コンピュータの素性抽出手段が、該素性テーブルを参照して、該収集データから素性を抽出する素性抽出ステップ、
所定の機械学習モジュールを備えたコンピュータの機械学習判定手段が、抽出された素性を用い、学習結果記憶手段に格納された機械学習結果データを参照して、所定の対象に対する風評情報か否かを判定する機械学習判定ステップ、
コンピュータの風評情報出力手段が、風評情報と判定された収集データの少なくとも一部、又はそれが公開されているサーバ装置の名称若しくはネットワークアドレス、又はその収集データのファイル情報、の少なくともいずれかを出力する風評情報出力ステップ
を含む風評情報抽出方法を実行処理させる
ことを特徴とする風評情報抽出プログラム。 - ネットワーク上でデータを公開するサーバ装置又は、該データのファイル情報に対して、信頼度を数値で評価するようにコンピュータを動作させるデータ信頼度値評価プログラムであって、
コンピュータの評価用データ抽出手段が、該データと、該データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出ステップ、
該データの信頼性を高める因子である積極因子と、該データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶手段を備えておき、
コンピュータの評価用素性抽出手段が、該因子を素性として、該評価用データから抽出する評価用素性抽出ステップ、
所定の機械学習モジュールを備えたコンピュータの評価用機械学習判定手段が、単数又は複数の素性を入力すると、学習結果記憶手段に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う評価用機械学習判定ステップ
を含み、該評価用素性抽出手段が抽出した素性を該評価用機械学習判定手段に入力して得られた評価用データの分類結果を、該データの信頼度として出力する情報信頼度値評価方法を実行処理させる
ことを特徴とする情報信頼度値評価プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006356021A JP4911599B2 (ja) | 2006-12-28 | 2006-12-28 | 風評情報抽出装置及び風評情報抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006356021A JP4911599B2 (ja) | 2006-12-28 | 2006-12-28 | 風評情報抽出装置及び風評情報抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008165599A true JP2008165599A (ja) | 2008-07-17 |
JP4911599B2 JP4911599B2 (ja) | 2012-04-04 |
Family
ID=39694982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006356021A Expired - Fee Related JP4911599B2 (ja) | 2006-12-28 | 2006-12-28 | 風評情報抽出装置及び風評情報抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4911599B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010024184A1 (ja) * | 2008-08-26 | 2010-03-04 | 日本電気株式会社 | 風評情報検出システム、風評情報検出方法及びプログラム |
JP2010218075A (ja) * | 2009-03-16 | 2010-09-30 | Yahoo Japan Corp | 情報評価装置及び情報評価方法 |
JP2010262638A (ja) * | 2009-04-30 | 2010-11-18 | Nhn Corp | 代表者の信頼度を用いた検索結果順位化装置および方法 |
US9575959B2 (en) | 2013-10-03 | 2017-02-21 | International Business Machines Corporation | Detecting dangerous expressions based on a theme |
JP2019057266A (ja) * | 2017-09-20 | 2019-04-11 | ヤフー株式会社 | 生成装置、学習装置、生成方法、学習方法、生成プログラム、学習プログラム、及びモデル |
CN109800955A (zh) * | 2018-12-24 | 2019-05-24 | 永城煤电控股集团有限公司 | 煤层底板突水危险性评价计算方法 |
KR20190059449A (ko) * | 2017-11-23 | 2019-05-31 | 지속가능발전소 주식회사 | Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법 |
KR20190110084A (ko) * | 2019-09-20 | 2019-09-27 | 지속가능발전소 주식회사 | Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법 |
KR102166390B1 (ko) * | 2019-12-16 | 2020-10-15 | (주)에이펙스 이에스씨 | 비정형 데이터의 모델링 방법 및 시스템 |
CN112231562A (zh) * | 2020-10-15 | 2021-01-15 | 北京工商大学 | 一种网络谣言识别方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004070405A (ja) * | 2002-08-01 | 2004-03-04 | Mitsubishi Electric Corp | Webページの風評情報抽出装置 |
JP2004280569A (ja) * | 2003-03-17 | 2004-10-07 | Mitsubishi Electric Corp | 情報監視装置 |
JP2005063242A (ja) * | 2003-08-15 | 2005-03-10 | Nippon Telegr & Teleph Corp <Ntt> | 情報解析システム及び方法 |
JP2006227965A (ja) * | 2005-02-18 | 2006-08-31 | Dainippon Printing Co Ltd | トレンド予測装置およびトレンド予測方法 |
-
2006
- 2006-12-28 JP JP2006356021A patent/JP4911599B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004070405A (ja) * | 2002-08-01 | 2004-03-04 | Mitsubishi Electric Corp | Webページの風評情報抽出装置 |
JP2004280569A (ja) * | 2003-03-17 | 2004-10-07 | Mitsubishi Electric Corp | 情報監視装置 |
JP2005063242A (ja) * | 2003-08-15 | 2005-03-10 | Nippon Telegr & Teleph Corp <Ntt> | 情報解析システム及び方法 |
JP2006227965A (ja) * | 2005-02-18 | 2006-08-31 | Dainippon Printing Co Ltd | トレンド予測装置およびトレンド予測方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010024184A1 (ja) * | 2008-08-26 | 2010-03-04 | 日本電気株式会社 | 風評情報検出システム、風評情報検出方法及びプログラム |
JP2010218075A (ja) * | 2009-03-16 | 2010-09-30 | Yahoo Japan Corp | 情報評価装置及び情報評価方法 |
JP2010262638A (ja) * | 2009-04-30 | 2010-11-18 | Nhn Corp | 代表者の信頼度を用いた検索結果順位化装置および方法 |
US9575959B2 (en) | 2013-10-03 | 2017-02-21 | International Business Machines Corporation | Detecting dangerous expressions based on a theme |
US10275447B2 (en) | 2013-10-03 | 2019-04-30 | International Business Machines Corporation | Detecting dangerous expressions based on a theme |
US11010552B2 (en) | 2013-10-03 | 2021-05-18 | International Business Machines Corporation | Detecting expressions learned based on a theme and on word correlation and co-occurence |
JP2019057266A (ja) * | 2017-09-20 | 2019-04-11 | ヤフー株式会社 | 生成装置、学習装置、生成方法、学習方法、生成プログラム、学習プログラム、及びモデル |
JP2021504789A (ja) * | 2017-11-23 | 2021-02-15 | アイエスディー インコーポレーテッド | Esg基盤の企業評価遂行装置及びその作動方法 |
KR20190059449A (ko) * | 2017-11-23 | 2019-05-31 | 지속가능발전소 주식회사 | Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법 |
KR102026304B1 (ko) * | 2017-11-23 | 2019-09-30 | 지속가능발전소 주식회사 | Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법 |
JP7090936B2 (ja) | 2017-11-23 | 2022-06-27 | アイエスディー インコーポレーテッド | Esg基盤の企業評価遂行装置及びその作動方法 |
CN109800955A (zh) * | 2018-12-24 | 2019-05-24 | 永城煤电控股集团有限公司 | 煤层底板突水危险性评价计算方法 |
KR20190110084A (ko) * | 2019-09-20 | 2019-09-27 | 지속가능발전소 주식회사 | Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법 |
KR102105319B1 (ko) * | 2019-09-20 | 2020-04-28 | 지속가능발전소 주식회사 | Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법 |
KR102166390B1 (ko) * | 2019-12-16 | 2020-10-15 | (주)에이펙스 이에스씨 | 비정형 데이터의 모델링 방법 및 시스템 |
CN112231562A (zh) * | 2020-10-15 | 2021-01-15 | 北京工商大学 | 一种网络谣言识别方法及系统 |
CN112231562B (zh) * | 2020-10-15 | 2023-07-14 | 北京工商大学 | 一种网络谣言识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP4911599B2 (ja) | 2012-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5008024B2 (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
JP4911599B2 (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
Alzahrani et al. | Understanding plagiarism linguistic patterns, textual features, and detection methods | |
Agarwal et al. | Sentiment analysis of twitter data | |
Tang et al. | Email data cleaning | |
Oh et al. | Why-question answering using intra-and inter-sentential causal relations | |
US7269544B2 (en) | System and method for identifying special word usage in a document | |
US7877383B2 (en) | Ranking and accessing definitions of terms | |
US9092524B2 (en) | Topics in relevance ranking model for web search | |
Zanasi | Text mining and its applications to intelligence, CRM and knowledge management | |
Zhang et al. | Narrative text classification for automatic key phrase extraction in web document corpora | |
Tsui et al. | A concept–relationship acquisition and inference approach for hierarchical taxonomy construction from tags | |
Abbasi et al. | Stylometric identification in electronic markets: Scalability and robustness | |
Fujii | Modeling anchor text and classifying queries to enhance web document retrieval | |
Jagadeesh et al. | Sentence extraction based single document summarization | |
Alami et al. | Hybrid method for text summarization based on statistical and semantic treatment | |
Basha et al. | Evaluating the impact of feature selection on overall performance of sentiment analysis | |
Boese | Stereotyping the web: genre classification of web documents | |
Potthast | Technologies for reusing text from the web | |
Xu et al. | Using SVM to extract acronyms from text | |
Venčkauskas et al. | Problems of authorship identification of the national language electronic discourse | |
Rasheed et al. | Building a text collection for Urdu information retrieval | |
Bae et al. | Improving question retrieval in community question answering service using dependency relations and question classification | |
Lipka | Modeling Non-Standard Text Classification Tasks | |
Mason | An n-gram based approach to the automatic classification of web pages by genre |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070220 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070221 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20091221 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091222 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20091222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111108 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120110 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120112 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4911599 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150127 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |