JP2008165599A

JP2008165599A - 風評情報抽出装置及び風評情報抽出方法

Info

Publication number: JP2008165599A
Application number: JP2006356021A
Authority: JP
Inventors: Maki Murata; 真樹村田; Koichi Doi; 晃一土井; Masahiro Matsuoka; 雅裕松岡
Original assignee: PHARMA SECURITY CONSULTING KK; National Institute of Information and Communications Technology
Current assignee: PHARMA SECURITY CONSULTING KK; National Institute of Information and Communications Technology
Priority date: 2006-12-28
Filing date: 2006-12-28
Publication date: 2008-07-17
Anticipated expiration: 2026-12-28
Also published as: JP4911599B2

Abstract

【課題】ネットワーク上で公開される情報から風評情報であるか否かを効果的に判定する技術、特にその判定に寄与する複数の素性を複合的に利用して判定する技術を提供すること。
【解決手段】所定の対象に対してネットワーク上で公開されている風評情報を抽出するコンピュータを用いた風評情報抽出装置であって、ネットワーク上のサーバ装置から公開されているデータを収集するデータ収集手段１００と、素性となる単語の集合を含む素性テーブルを参照して、該収集データから素性を抽出する素性抽出手段１０１と、素性を入力して当該対象に対する風評情報か否かを判定する機械学習判定手段１０２とを備え、該素性抽出手段が抽出した素性を該機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得ると共に、風評情報と判定された収集データに係る情報を出力する風評情報出力手段１０３を備える。
【選択図】図１

Description

本発明は所定の対象に対してネットワーク上で公開されている風評情報を抽出するコンピュータを用いた風評情報抽出方法とその装置に関する。

インターネットの普及により従来のようなマスメディアや書籍と異なり、個人でも容易に情報発信が行えるようになった。これに伴って多様な意見表明がなされるようになった反面、不確実な情報や、名誉を毀損するような情報（以下、風評情報と呼ぶ）も簡単に発信されてしまう。
しかも非常に多数のウェブサイトが存在するために、これを発見することすら難しい状況にある。

一方、このような風評情報を流された者にとって、その影響は深刻である。例えば、あるユーザが製品の欠陥についてインターネット上の掲示板やホームページに書き込んだ時、その欠陥がユーザの勘違いであったとしても、読者にとっては当該製品についてあたかも真実であるかのように印象づけられてしまう。

特に、インターネットでは情報検索が簡単に行えることから、ある製品を購入しようとする者がその製品について調べたときに、風評情報が流されていることは企業の経済活動にとって重大な障害を及ぼす。
実際、企業イメージの破壊や、特定個人への攻撃などがすでにインターネット上で行われており、大きな社会問題ともなっている。

この問題への対処方法としては、手作業で自己に関係する記事を検索し、不適当なものを見つけ出すことが必要である。しかし、インターネットでの掲示は日々刻々なされており、リアルタイムでの発見はきわめて難しい。早急に発見しなければ、不適切な情報が多数の読者に晒されてしまい、失われた信用を回復することはより困難になる。

この点、従来の手作業による方法では、発見に膨大な手間とコストがかかり、ごく著名なウェブサイトにおける監視が行える程度で、その他で氾濫する情報については事実上黙認せざるを得ない状況にあるともいえる。
特に、中小企業や個人にとって、その発見はほとんど不可能である。

このような風評情報を自動的に発見する方法としては、次にあげられる技術が開示されている。
まず、特許文献１の技術は、インターネット上のＷｅｂページを取得・蓄積し、蓄積されたＷｅｂページを解析してブロック単位に分割し、このブロック単位ごとに所定のキーワードを含むか否かを判定して、キーワードを含む場合に前記所定のキーワードごとの風評情報を抽出する。さらに、各風評情報ごとの重み付けを行った上で、自社製品名と他社製品名のＷｅｂページ上の出現状況などに基づいて風評情報の重要度を算出することを提案している。

次に、特許文献２の技術は、利用者コンピュータからキーワードを含むレポート出力要求を解析サーバへ送信すると、解析サーバは、ネガティブ表現の単語を取得して、キーワードに相当する格納した単語と、取得したネガティブ表現の単語とが同時に出現している、１以上の文章情報をデータベースに照会する。解析サーバは、データベースから照会結果を取得し、それを表やグラフなどの形式に整えた解析レポートを作成するものである。

特開2004-70405号公報特開2005-63242号公報

上記従来技術のいずれにおいても、例えば企業名などのキーワードと、風評情報となる単語が認められると、風評情報であるとして抽出することを特徴としている。例えば、Ａ製品名と「欠陥」などの文字が共に現れたときに、そのサイトを抽出するというルールベースの抽出方法をとっている。
この方法では、予め定義したネガティブ表現の単語が現れれば抽出できるが、少しでも表現が変われば抽出できない。風評情報が多様な表現方法で発信されていることを考慮すれば、このような従来技術で的確に風評情報を抽出することは難しい。

洩れなく抽出しようとすれば、非常に多数の単語を登録しなければならず、その場合には風評情報でない情報も多数抽出される問題が生じ、結局手作業で抽出するのとほとんどかわらない手間がかかってしまう。

また、「欠陥」という表現があっても、実際にメーカーがリコールをする場合など、それが真実であれば風評情報ではなく、従来技術では、このような事実に基づく情報を有効に除外することができない。

本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、ネットワーク上で公開される情報から風評情報であるか否かを効果的に判定する技術、特にその判定に寄与する複数の素性を複合的に利用して判定する技術を提供することを目的とする。

本発明は、上記の課題を解決するために、次のような風評情報抽出装置を提供する。
請求項１に記載の発明は、所定の対象に対してネットワーク上で公開されている風評情報を抽出するコンピュータを用いた風評情報抽出装置であって、ネットワーク上の単数又は複数のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集手段と、少なくとも素性となる単語又は単語の集合を含む素性テーブルを格納した素性テーブル記憶手段と、該素性テーブルを参照して、該収集データから素性を抽出する素性抽出手段と、単数又は複数の素性を入力すると、学習結果記憶手段に格納された機械学習結果データを参照して、所定の対象に対する風評情報か否かを判定する所定の機械学習モジュールを備えた機械学習判定手段とを備えて、該素性抽出手段が抽出した素性を該機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得ると共に、風評情報と判定された収集データの少なくとも一部、又はそれが公開されているサーバ装置の名称若しくはネットワークアドレス、又はその収集データのファイル情報、の少なくともいずれかを出力する風評情報出力手段を備えたことを特徴とする。

請求項２に記載の発明は、前記素性テーブル記憶手段において、前記ネットワーク上でデータが公開される時の表示書式に係わる書式設定情報を素性として素性テーブルに含むと共に、前記素性抽出手段が、該素性テーブルを参照して、前記収集データからそれに付与された書式設定情報を抽出することを特徴とする。

請求項３に記載の発明は、前記風評情報抽出装置に、単語の意味を、符号を用いて意味クラスとして分類し、複数の単語に対してそれぞれの意味クラスを付与した分類語彙テーブルを有し、該意味クラスを素性として素性テーブルに含むと共に、前記素性抽出手段が、該素性テーブルを参照して、前記収集データからそれに含まれる単語の意味クラスを抽出することを特徴とする。

請求項４に記載の発明は、風評情報抽出装置に、前記ネットワーク上のサーバ装置の名称若しくはネットワークアドレス、又はその前記収集データのファイル情報に対して、そこで公開される情報の信頼度を数値で表す情報源信頼度データベースを有し、該信頼度を素性として素性テーブルに含むと共に、前記素性抽出手段が、該素性テーブルを参照して、該収集データに係る信頼度の数値を抽出することを特徴とする。

請求項５に記載の発明は、風評情報抽出装置が、データ信頼度値評価手段を備え、該データ信頼度値評価手段は、前記収集データと、該収集データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該収集データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出部と、該収集データの信頼性を高める因子である積極因子と、該収集データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶部と、該因子を素性として、該評価用データから抽出する評価用素性抽出部と、単数又は複数の素性を入力すると、学習結果記憶部に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う所定の機械学習モジュールを備えた評価用機械学習判定部とを備えて、該評価用素性抽出部が抽出した素性を該評価用機械学習判定部に入力して得られた評価用データの分類結果を、該収集データの信頼度として出力する構成であって該収集データの信頼度値を、前記素性抽出手段が抽出した素性と共に、前記機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得ることを特徴とする。

請求項６に記載の発明は、前記風評情報抽出装置が、前記素性に風評情報を判定する対象である判定対象名詞を含む構成であって、該判定対象名詞を、ネットワーク上の所定のサーバ装置又は、ユーザが指定したキーワードに基づいて所定の情報検索サーバ装置により抽出されたサーバ装置における情報から抽出する判定対象名詞抽出手段を備えることを特徴とする。

請求項７に記載の発明は、前記風評情報抽出装置が、根拠情報確認手段を備え、該根拠情報確認手段が、信頼できる情報を公開しているサーバ装置の名称若しくはネットワークアドレス、又は該信頼できる情報のファイル情報の少なくともいずれかの根拠情報源を定義した根拠情報データベースと、該根拠情報データベースに定義される根拠情報源から公開されているデータを取得し、前記収集データと話題が類似する類似データが含まれているか否かを判定する類似判定部とを備え、該類似判定部における判定結果を、前記素性抽出手段が抽出した素性と共に、前記機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得ることを特徴とする。

請求項８に記載の発明は、情報信頼度値評価装置を提供することもできる。
すなわち、ネットワーク上でデータを公開するサーバ装置又は、該データのファイル情報に対して、信頼度を数値で評価するコンピュータを用いたデータ信頼度値評価装置であって、該データと、該データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出手段と、該データの信頼性を高める因子である積極因子と、該データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶手段と、該因子を素性として、該評価用データから抽出する評価用素性抽出手段と、単数又は複数の素性を入力すると、学習結果記憶手段に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う所定の機械学習モジュールを備えた評価用機械学習判定手段とを備えて、該評価用素性抽出手段が抽出した素性を該評価用機械学習判定手段に入力して得られた評価用データの分類結果を、該データの信頼度として出力することを特徴とする。

また、本発明は、次のような風評情報抽出方法を提供することもできる。
すなわち、請求項９に記載の発明は、所定の対象に対してネットワーク上で公開されている風評情報を抽出するコンピュータを用いた風評情報抽出方法であって、コンピュータのデータ収集手段が、ネットワーク上の単数又は複数のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集ステップ、少なくとも素性となる単語又は単語の集合を含む素性テーブルを格納した素性テーブル記憶手段を備えておき、コンピュータの素性抽出手段が、該素性テーブルを参照して、該収集データから素性を抽出する素性抽出ステップ、所定の機械学習モジュールを備えたコンピュータの機械学習判定手段が、抽出された素性を用い、学習結果記憶手段に格納された機械学習結果データを参照して、所定の対象に対する風評情報か否かを判定する機械学習判定ステップ、コンピュータの風評情報出力手段が、風評情報と判定された収集データの少なくとも一部、又はそれが公開されているサーバ装置の名称若しくはネットワークアドレス、又はその収集データのファイル情報、の少なくともいずれかを出力する風評情報出力ステップを含むことを特徴とする。

また、請求項１０に記載の発明は、前記素性テーブル記憶手段において、前記ネットワーク上でデータが公開される時の表示書式に係わる書式設定情報を素性として素性テーブルに含むと共に、前記素性抽出ステップにおいて、前記素性抽出手段が、該素性テーブルを参照して、前記収集データからそれに付与された書式設定情報を抽出することを特徴とする。

請求項１１に記載の発明は、単語の意味を、符号を用いて意味クラスとして分類し、複数の単語に対してそれぞれの意味クラスを付与した分類語彙テーブルを有し、該意味クラスを素性として素性テーブルに含むと共に、前記素性抽出ステップにおいて、前記素性抽出手段が、該素性テーブルを参照して、前記収集データからそれに含まれる単語の意味クラスを抽出することを特徴とする。

請求項１２に記載の発明は、前記ネットワーク上のサーバ装置の名称若しくはネットワークアドレス、又はその前記収集データのファイル情報に対して、そこで公開される情報の信頼度を数値で表す情報源信頼度データベースを有し、該信頼度を素性として素性テーブルに含むと共に、前記素性抽出ステップにおいて、前記素性抽出手段が、該素性テーブルを参照して、該収集データに係る信頼度の数値を抽出することを特徴とする。

請求項１３に記載の発明は、前記風評情報抽出方法の前記データ収集ステップの後、前記機械学習判定ステップの前のいずれかの時点において、データ信頼度評価ステップを有し、該データ信頼度評価ステップにおいて、コンピュータのデータ信頼度値評価手段における評価用データ抽出部が、前記収集データと、該収集データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該収集データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出処理工程、該収集データの信頼性を高める因子である積極因子と、該収集データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶部を備えておき、データ信頼度値評価手段における評価用素性抽出部が、該因子を素性として、該評価用データから抽出する評価用素性抽出処理工程、データ信頼度値評価手段における所定の機械学習モジュールを備えた評価用機械学習判定部が、該評価用素性抽出処理工程で抽出された素性を用い、学習結果記憶部に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う評価用機械学習判定処理工程、を含んで評価用データの分類結果を、該収集データの信頼度として出力すると共に、該機械学習判定ステップにおいて、該収集データの信頼度値を、前記素性抽出手段が抽出した素性と共に、前記機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得ることを特徴とする。

請求項１４に記載の発明は、上記の風評情報抽出方法において、前記素性に風評情報を判定する対象である判定対象名詞を含む構成であって、前記素性抽出ステップの前に、コンピュータの判定対象名詞抽出手段が、該判定対象名詞を、ネットワーク上の所定のサーバ装置又は、ユーザが指定したキーワードに基づいて所定の情報検索サーバ装置により抽出されたサーバ装置における情報から抽出することを特徴とする。

請求項１５に記載の発明は、前記風評情報抽出方法の前記データ収集ステップの後、前記機械学習判定ステップの前のいずれかの時点において、根拠情報確認ステップを有し、コンピュータの根拠情報確認手段には、信頼できる情報を公開しているサーバ装置の名称若しくはネットワークアドレス、又は該信頼できる情報のファイル情報の少なくともいずれかの根拠情報源を定義した根拠情報データベースを備えておき、該根拠情報確認手段の類似判定部が、該根拠情報データベースに定義される根拠情報源から公開されているデータを取得し、前記収集データと話題が類似する類似データが含まれているか否かを判定する類似判定処理工程を含み、該機械学習判定ステップにおいて、該類似判定部における判定結果を、前記素性抽出手段が抽出した素性と共に、前記機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得ることを特徴とする。

本発明は情報信頼度値評価方法を提供することもできる。
すなわち請求項１６に記載の発明は、ネットワーク上でデータを公開するサーバ装置又は、該データのファイル情報に対して、信頼度を数値で評価するコンピュータを用いたデータ信頼度値評価方法であって、コンピュータの評価用データ抽出手段が、該データと、該データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出ステップ、該データの信頼性を高める因子である積極因子と、該データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶手段を備えておき、コンピュータの評価用素性抽出手段が、該因子を素性として、該評価用データから抽出する評価用素性抽出ステップ、所定の機械学習モジュールを備えたコンピュータの評価用機械学習判定手段が、単数又は複数の素性を入力すると、学習結果記憶手段に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う評価用機械学習判定ステップを含み、該評価用素性抽出手段が抽出した素性を該評価用機械学習判定手段に入力して得られた評価用データの分類結果を、該データの信頼度として出力することを特徴とする。

また、請求項１７に記載の通り、前記風評情報抽出方法をコンピュータで実行処理させる風評情報抽出プログラムとして提供してもよい。
さらに、請求項１８に記載の通り、前記情報信頼度値評価方法をコンピュータで実行処理させる情報信頼度値評価プログラムとして提供してもよい。

本発明は、上記構成を備えることにより次のような効果を奏する。
すなわち、本発明によれば、様々な素性を用いて風評情報を抽出することができるので、人手では不可能な複雑な要素を加味して風評情報か否か判定することができる。
またコンピュータを用いることでネットワーク上で流通する膨大な情報から迅速かつ網羅的に風評情報を探索することができるので、風評情報による被害を最小限に抑えることができる。

以下、本発明の実施形態を、図面に示す実施例を基に説明する。なお、実施形態は下記に限定されるものではない。

図１は本発明のに係る風評情報抽出装置(１)（以下、本装置と呼ぶ）の全体構成図である。本発明は公知のパーソナルコンピュータにより容易に実現することが可能であり、演算処理や機械学習、テキスト処理などを司るＣＰＵ（１０）によって本発明の各ステップを実行処理する。ＣＰＵ（１０）は周知のようにメモリ（図示しない）と協働して動作し、キーボードやマウス（１１）などの入力手段の他、出力結果を表示するモニタ（１２）、ハードディスク等の外部記憶装置（１３）などを備えている。
また、テキストデータの取得などのためにデータの取得入力手段としてインターネット等のネットワークと接続するネットワークアダプタ（１４）を備える。

そして、ＣＰＵ（１０）にはデータ収集部（１００）、素性抽出部（１０１）、機械学習判定部（１０２）、風評情報出力部（１０３）が設けられている。
そして、公知のプログラミング言語によって記載されたプログラムがＣＰＵ（１０）及びそれと連動するハードウェアを動作させて、以下に説述する各部（１００）〜（１０３）の機能が実現される。

以下、図２に示す処理フローチャートを用いて、本発明の各処理を詳細に説述する。
まず、データ収集部は、インターネット（２１）などのネットワーク上に多数設置されているサーバ装置（２０）から、各サーバ装置で公開されているデータを受信する。（データ収集ステップ：Ｓ１）
具体的には、ウェブサーバＡにおいて公開されているテキストデータ（例えばa1.txtという名前のテキストデータ）や、ＨＴＭＬ（HyperTextMarkup Language）などで記述された表示書式を含むデータ（例えばa2.htmlという名前のデータ）を受信する。

周知のように、インターネット上に公開されているデータは自動巡回ロボットエンジンを用いて大量のデータを収集することが可能であり、例えばハイパーリンクを辿って順に取得していく方法が行われている。予め、所定のサーバを指定し、ディレクトリ構造に従って順に取得していく方法でもよい。
本発明で行うデータの収集は、検索エンジンなどで用いられる任意の方法で実施することができる。
収集されたデータはデータ記憶手段であるハードディスク（１３）に格納される。

次に、素性抽出部（１０１）が、後述する機械学習判定部（１０２）において風評情報であるか否かを判定するのに用いる素性を収集されたデータから抽出する。（素性抽出ステップ：Ｓ２）
このとき、ハードディスク（１３）に素性テーブルを備えておき、素性抽出部（１０１）はそこで定義された素性を抽出する。

例えば、素性としてはどのような単語又は単語の集合（以下、一括して単語と言う。）を含んでいるかという情報、あるいは単語を含むか否かの情報を用いる。
通常、素性は単語、その品詞などの形で与えられるが、本発明の素性テーブルには、素性の抽出に必要な形態素辞書なども格納する。

本発明で用いる素性を例示する。なお、本発明で用いる素性は以下に限定されるものではない。
まず、素性テーブル（１３１）の中で、定義される素性を表１に示す。

単語又は単語の集合素性は、本発明で最低限用いる必要のある素性であり、表２に示すようにいくつかの種類がある。これらを収集されたデータを形態素解析することで抽出する。形態素解析は周知の形態素解析モジュールであるChasen（非特許文献１）などを用いることで容易に実施できる。

http://chasen.naist.jp/

Chasenを用いることで、解析された形態素について品詞情報、形態素生起コスト、発音情報、活用型を指定する活用型情報、活用形を指定する活用形情報、見出し語の原形(基本形)を指定する原形情報、その他の付加情報(意味情報)、複合語情報なども取得できる。

上記において対象の名称が最も重要であり、風評情報の対象となる単語を素性とする。すなわち、風評情報を抽出する対象として、ユーザが「情報通信研究機構」と指定したときには、素性抽出部（１０１）が形態素解析結果に基づいて同語が含まれているか否かを検出する。
このように対象を特定する場合には、該対象を含むかどうかは風評情報を抽出する前提となるものであるから、含まないデータは機械学習判定を行うことなく除外してもよい。

ただし、風評情報は必ずしもフルネーム、正式名称で記載されるとは限らないから、例えば素性として「情報」「通信」「研究」「機構」のうち３つが含まれている場合には風評情報である可能性も否めないから、これらを素性として機械学習判定に用いてもよい。
これにより、ルールベースの場合には定義された語句そのもの以外では抽出することができなかったのに対して、本発明方法では、含まれる語句の組み合わせから風評情報の可能性のあるものを抽出することができるようになる。

次に風評の内容は、具体的な風評の中身をなすものであり、「損失を出した」など、ルールベースでもネガティブ表現として定義されるような語句である。
もっとも、機械学習判定を用いる本発明によれば、風評の内容も複数の語句が素性として抽出され、例えば「損失を出した」だけであれば風評情報である可能性が０．５であると判定される一方、「報道によると」「損失を出した」が抽出される場合には可能性が０．１、「噂によると」「損失を出した」「らしいよ」が抽出される場合には可能性が０．９というように、ルールベースでは得られない緻密な判定が行える。

その他の素性としては、情報の信頼性の判断に役立つ符号や、単語を用いることもできる。例示のように顔文字（アスキー文字の組み合わせによって顔の表情を表現する符号）が含まれている場合には、その情報がプレスリリースやニュースサイトのような公式の情報ではないことを示唆するし、また「アングラ」のようにウェブサイトの種類、属性を示す単語や、「しやがった」などのように個人的な感情で書かれたことを示唆する単語も素性として用いることができる。

さらに、抽出されるデータが格納されていたサーバの名称（機器に付与された名称や、ドメイン名、ホスト名など）や、ファイル情報（ファイル名、ディレクトリ名、拡張子など）を素性として用いることもできる。
例示のように、bbsなどの単語が含まれている場合には、それがネットワーク上の掲示板であることを示唆し、公的な情報でない可能性が高い。また”~”（チルダ）が含まれる場合には、個人の開設するホームページである可能性があり、これも風評情報か否かの判定に用いる素性として適当である。

また、公式の文書に対する形態素解析では一般に未知語が生じる割合は相対的に低く、逆に風評情報を含むような情報では俗語、特にインターネット上で最近多用されるようになった新しい表現がみられることが多い。
このような特性を利用し、本発明では形態素解析をしたときに辞書に登録されていないために解析ができなかった結果から未知語を判定してその結果を素性として用いることも提案する。

この場合、未知語が含まれているか否かを素性としてもよいし、未知語が占める割合（全単語のうち何％かなど）を素性としてもよい。
未知語に係る情報を素性として用いることで、例えば「カキコ」（掲示板への書き込みの意味）などの俗語が用いられている情報については当該情報が風評情報である可能性が高いものとして判定に反映される。

次に、本発明では書式設定情報を素性として用いることもできる。具体例を表３に示す。

書式設定情報は、例えばＨＴＭＬにおけるタグで指定された書式を素性とするものである。ここで、背景が黒で文字色が赤の情報の場合、一般的にこのような配色のウェブページは公式の情報を発信するウェブサイトでない場合が多く、このような書式設定情報を素性として用いることでも風評情報の的確な抽出に寄与する。

また、素性として意味クラスを用いることもできる。
ここで、意味クラスとは単語の意味的類似による分類であり、この意味クラスによって分類された分類語彙表が表４のように作られている。

本発明では素性テーブル（１３１）に該分類語彙表を格納しておく。分類語彙表は、一般に、単語を意味に基づいて整理した表であり、各単語に対して分類番号という数字が付与されている。この10桁の分類番号は、7レベルの階層構造を示しており、上位5レベルは分類番号の最初の5桁で表現され、6レベル目は次の2桁、最下層のレベルは最後の3桁で表現されている。

このような分類語彙表を用いることで、類似の意味を有する単語を分類番号の上位の桁で限定することで一括して抽出することができる。すなわち、素性抽出部（１０１）では分類語彙表に基づいて形態素解析された単語について分類番号を照会し、その分類番号を素性として抽出する。このとき分類番号の上位５桁、又は７桁を素性とすることで類似の意味をもつ単語を幅広く網羅することができる。

本発明で用いる意味クラスの素性の例を表５に示す。

本発明で用いる素性としては、表６に示すような情報源信頼度データベースに基づく信頼度の値でもよい。ここでも素性テーブル（１３１）に該データベースを格納しておき、素性抽出部（１０１）が該データベースを参照して信頼度を抽出する。

具体的には、収集されたデータのサーバ装置のドメイン名を素性抽出部が抽出し、情報源信頼度データベースを参照してその信頼度値を機械学習判定部（１０２）で用いる。例えば、収集されたデータのドメイン名が、ｗww.asahi.comである場合、著名なニュースサイトが情報源である場合には、それが通常であれば風評である可能性が高い情報であろうとも、真実の報道であり、風評情報とは言えない。このように予め信頼のできる情報源信頼度データベースを備え、そこで定義された信頼度値を素性とすることで正確な風評情報抽出に寄与する。
また、ＩＰアドレスや、ファイル情報を情報源信頼度データベースに定義して素性としてもよい。表７には情報源信頼度の例を示す。
なお、本発明では情報源の信頼度を自動的に評価することもできるが、これについては後述する。

本発明は、以上に説述した様々な素性を用いることを特徴とする。このような素性は１つ１つだけでは風評情報と確実に認識できるものではないから、従来のルールベースの風評情報抽出ではこれらの素性を加味した判断を行うことはできなかった。
本発明では機械学習を用いることによって各素性をそれぞれ適切な重みで評価し、風評情報であるか否かを判定するものである。

本発明では、上記のように機械学習した結果をハードディスク（１３）の機械学習結果データ（１３２）として格納しておき、機械学習判定部（１０２）における判定に用いる。
機械学習の手法は公知の機械学習モジュールにおける学習過程と、それを用いた解の推定過程とが一体的に成り立つものである。本発明の実施においては学習過程は必ずしも必須ではなくすでに機械学習結果データ（１３２）を備えていればよいが、このような機械学習の特徴に考慮して、両過程について公知の手法を簡述する。

機械学習の手法は、問題-解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である(例えば、下記の非特許文献２〜非特許文献文献４参照)。

村田真樹,機械学習に基づく言語処理,龍谷大学理工学部.招待講演.2004.http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳,村田真樹,馬青,内元清貴,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ,2001年. SENSEVAL2J辞書タスクでのCRLの取り組み,村田真樹,内山将夫,内元清貴,馬青,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会NLC2001-40 ,2001年.

どういう問題のときに、という、問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)が必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、
問題:「彼が話す。」---解「現在」
が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す。」「。」となる。

すなわち、機械学習の手法は、素性の集合-解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。

図３は機械学習処理を実行する際の装置の構成図である。ＣＰＵ（１０）において、機械学習判定部（１０２）で処理する前段として、解−素性対抽出部（１４１）と、機械学習部（１４２）を備える。ここで機械学習処理は、図４のように分散したテキストデータをどのように分類するのか、その分類結果（解）を得る。
機械学習部（１４２）における機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。

k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって分類先(解)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、１から９の間の奇数を用いる。

シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。

シンプルベイズ法において、文脈bで分類aを出力する確率は、以下の数１で与えられる。

ただし、ここで文脈bは、あらかじめ設定しておいた素性f_j (∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(f_i|a)は、それぞれ教師データから推定された確率であって、分類aの出現確率、分類aのときに素性f_iを持つ確率を意味する。P(f_i|a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、数２の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スームージングを行う。ここでは、以下の数３を用いてスームージングを行ったものを用いる。

ただし、freq(f_i,a)は、素性f_iを持ちかつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。

決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。

決定リスト方法では、あらかじめ設定しておいた素性f_j( ∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は以下の数４によって与えられる。

（数４)
p(a|b)=p(a|fmax )
ただし、fmax は以下の数５によって与えられる。

また、P(a_i|f_j)(ここでPはpの上部にチルダ)は、素性f_jを文脈に持つ場合の分類a_iの出現の割合である。

最大エントロピー法は、あらかじめ設定しておいた素性f_j (1≦j≦k)の集合をFとするとき、以下所定の条件式（数６)を満足しながらエントロピーを意味する数７を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。

ただし、A、Bは分類と文脈の集合を意味し、g_j(a,b)は文脈bに素性f_jがあって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(a_i|f_j)(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。

数６は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化(確率分布の平滑化) を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の非特許文献５および非特許文献６に記載されている。

Eric Sven Ristad, Maximum Entropy Modeling for NaturalLanguage,(ACL/EACL Tutorial Program, Madrid, 1997 Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta,(http://www.mnemonic.com/software/memt,1998) ) サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。

図５にサポートベクトルマシン法のマージン最大化の概念を示す。図５において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図５（Ａ）は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、図５（Ｂ）は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。

このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔(マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図５（Ｂ）に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。

基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張(カーネル関数の導入) がなされたものが用いられる。

この拡張された方法は、以下の識別関数（数８)を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。

ただし、xは識別したい事例の文脈(素性の集合) を、x_iとy_j (i=1,...,l,y_j∈{1,-1})は学習データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
-1(otherwise )
であり、また、各α_iは数１０と数１１の制約のもと数９を最大にする場合のものである。

また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。

（数１２）
K(x,y)=(x・y+1)d

C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、α_i>0となるx_iは、サポートベクトルと呼ばれ、通常、数８の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。

なお、拡張されたサポートベクトルマシン法の詳細については、以下の非特許文献７および非特許文献８に記載されている。

Nello Cristianini and John Shawe-Taylor, An Introduction to SupportVector Machines and other kernel-based learning methods,(Cambridge UniversityPress,2000) Taku Kudoh, Tinysvm:Support Vectormachines,(http://chasen.org/~taku/software/TinySVM/,2002年)

サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。

ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n-1)/2個)を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n-1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。

ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その候補の分類先は、aと推定する。

そして機械学習判定部（１０２）が推定する、風評情報かどうかについての、どのような解(分類先)になりやすいかの度合いの求め方は、機械学習部（１４２）が機械学習の手法として用いる様々な方法によって異なる。

例えば、本発明の実施の形態において、機械学習部（１４２）が、機械学習の手法としてk近傍法を用いる場合、機械学習部（１４２）は、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として機械学習結果データ（１３２）に記憶しておく。

そして、機械学習判定部（１０２）は、素性抽出部（１０１）が抽出したデータについて、機械学習結果データ（１３２）において定義された風評情報であるか否かの確率と、素性とを参照して、そのデータが風評情報である可能性が高い順にk個の素性を機械学習結果データ（１３２）の事例から選択し、選択したk個の素性での多数決によって風評情報か否かという分類先を、解として推定する。すなわち、機械学習判定部（１０２）では、抽出された各データに対して、どのような解(分類先)になりやすいかの度合いを、選択したk個の素性での多数決の票数、ここでは「風評情報である」という分類が獲得した票数とする。

また、機械学習手法として、シンプルベイズ法を用いる場合には、機械学習部（１４２）は、教師データの事例について、前記事例の解と素性の集合との組を学習結果情報として機械学習結果データ（１３２）に記憶する。そして、機械学習判定部（１０２）は、データ収集部（１００）がデータを抽出したときに、機械学習結果データ（１３２）の学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて素性抽出部（１０１）で取得した素性の集合について、風評情報であるか否かに係わる各分類になる確率を算出して、その確率の値が最も大きい分類を、そのデータについての素性の分類(解)と推定する。すなわち、機械学習判定部（１０２）では、抽出されたデータについての素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「風評情報である」という分類になる確率とする。

また、機械学習手法として決定リスト法を用いる場合には、機械学習部（１４２）は、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを機械学習結果データ（１３２）に記憶する。そして、データ収集部（１００）がデータを抽出したときに、機械学習判定部（１０２）は、機械学習結果データ（１３２）のリストの優先順位の高い順に、抽出された表現対の候補の素性と規則の素性とを比較し、素性が一致した規則の分類先をその候補の分類先(解)として推定する。すなわち、機械学習判定部（１０２）では、抽出されたデータについてその素性の集合の場合にある解となりやすさの度合いを、所定の優先順位またはそれに相当する数値、尺度、ここでは「風評情報である」という分類になる確率のリストにおける優先順位とする。

また、機械学習手法として最大エントロピー法を使用する場合には、機械学習部（１４２）は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて機械学習結果データ（１３２）に記憶する。そして、データ収集部（１００）がデータを抽出したときに、機械学習判定部（１０２）は、機械学習結果データ（１３２）の確率分布を利用して、抽出されたデータについてその素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその候補の解と推定する。すなわち、機械学習判定部（１０２）では、抽出されたデータについてその素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「風評情報である」という分類になる確率とする。

また、機械学習手法としてサポートベクトルマシン法を使用する場合には、機械学習部（１４２）は、教師データ（１４０）の事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて機械学習結果データ（１３２）に記憶する。そしてデータ収集部（１００）がデータを抽出したときに、機械学習判定部（１０２）は、機械学習結果データ（１３２）の超平面を利用して、抽出されたデータについての素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その候補の解と推定する。すなわち、機械学習判定部（１０２）では、抽出されたデータについてその素性の集合の場合にある解となりやすさの度合いを、分離平面からの正例(風評情報であるデータ)の空間への距離の大きさとする。より詳しくは、風評情報であるデータを正例、風評情報ではないデータを負例とする場合に、分離平面に対して正例側の空間に位置するデータが「風評情報であるデータ」と判断され、その事例の分離平面からの距離をそのデータの風評情報である度合いとする。

さらに、本発明では機械学習の手法として、公知のニューラルネットワークによる方法、重回帰分析による方法を用いることもできる。
例えば、求める分類が２種類であれば重回帰分析を利用することができる。重回帰分析をコンピュータ上で実行する方法については、非特許文献９に詳しい。

「Excelで学ぶ時系列分析と予測」３章,オーム社

重回帰分析の場合は、素性の数だけ説明変数xを用意し、素性のありなしを、その説明変数xの値を1,0で表現する。目的変数（被説明変数）は、ある分類の場合を値１、他の分類の場合を値0として求めればよい。

以上に説述した通り、本発明は公知の任意の機械学習手法を備えた機械学習モジュール（図３）により機械学習結果データ（１５３）を生成した上で、機械学習判定部（１０２）が、風評情報であるか否かを的確に判定する。（機械学習判定ステップ：Ｓ３）
風評情報であるか否かは、上述したように機械学習手法によって「風評情報である」「風評情報ではない」のいずれかで出力される場合もあるし、「風評情報である確率」が出力される場合もある。「風評情報である確率」が大きな順にその確率と共に出力されてもよい。また、確率を示すための書式、例えば、文字色や文字サイズ、あるいは確率を示すマークなどと共に出力されてもよい。

風評情報出力部（１０３）からは、「風評情報である」「風評情報ではない」のいずれかを風評情報として出力（風評情報出力ステップ：Ｓ４）してもよいし、風評情報である確率をそのまま出力してもよい。
さらに、ユーザーが設定するか、あるいは予め定義されている閾値を用い、該確率が閾値を上回るときに「風評情報である」ことを出力してもよい。

出力方法としては、モニタ（１２）から表示する他、ネットワークアダプタ（１４）から別の端末装置に向けて結果を送信する方法、ハードディスク（１３）内に風評情報抽出データベースとして格納する方法でもよい。
その際、結果と共に、収集されたデータの少なくとも一部、又はそれが公開されているサーバ装置の名称若しくはネットワークアドレス、又はその収集データのファイル情報、の少なくともいずれかを出力する。特に風評情報と判定された根拠となる単語などを出力してもよい。

上記において、素性の１つとして対象の名称を用いたが、このような対象の名称は必ずしもユーザが指定したものではなく、自動的に定義することもできる。
すなわち、本発明が実行する風評情報の抽出は、企業名や製品名、個人名など固有名詞を用いるものであり、これらを、ユーザが指定したサイトや、ユーザが指定したキーワードを公知の検索エンジンに入力して検索されたサイトに含まれるデータから抽出することができる。

このために、本発明のＣＰＵ（１０）に図示しない判定対象名詞抽出部を備えて、予めハードディスクに格納したサイト情報に基づいてネットワークアダプタ（１４）を介して指定されたサイトからデータを取得する。あるいは、ユーザからキーボード（１１）を介してキーワードを受理し、該キーワードを、ハードディスクに格納された検索サイト情報に基づいて当該検索サイトに出力すると共に、該検索サイトからのサイト検索結果を得、そのサイトからデータを取得する。
取得したデータから固有名詞を抽出する。なお、本発明で素性に用いるのは固有名詞でなく一般名詞でもよい。
この抽出には、次のような固有表現の抽出技術を用いることでデータから自動的に固有表現を抽出し、それを素性とすることができる。

以下に、固有表現抽出の一般的な手法の例について説明する。
(1) 機械学習を用いる手法
機械学習を用いて固有表現を抽出する手法がある(例えば、以下の非特許文献１０参照)。

浅原正幸,松本裕治,日本語固有表現抽出における冗長的な形態素解析の利用情報処理学会自然言語処理研究会 NL153-7 2002年

まず、例えば、「日本の首相は小泉さんです。」という文を、各文字に分割し、分割した文字について、以下のように、B-LOCATION、 I-LOCATION等の正解タグを付与することによって、正解を設定する。以下の一列目は、分割された各文字であり、各文字の正解タグは二列目である。

日 B-LOCATION
本 I-LOCATION
の O
首 O
相 O
は O
小 B-PERSON
泉 I-PERSON
さ O
ん O
で O
す O
。 O

上記において、B-???は、ハイフン以下の固有表現の種類の始まりを意味するタグである。例えば、 B-LOCATIONは、地名という固有表現の始まりを意味しており、B-PERSONは、人名という固有表現の始まりを意味している。また、I-???は、ハイフン以下の固有表現の種類の始まり以外を意味するタグであり、Oはこれら以外である。従って、例えば、文字「日」は、地名という固有表現の始まりに該当する文字であり、文字「本」までが地名という固有表現である。

このように、各文字の正解を設定しておき、このようなデータから学習し、新しいデータでこの正解を推定し、この正解のタグから、各固有表現の始まりと、どこまでがその固有表現かを認識して、固有表現を推定する。

この各文字に設定された正解のデータから学習するときには、システムによってさまざまな情報を素性という形で利用する。例えば、
日 B-LOCATION
の部分は、
日本-B 名詞-B
などの情報を用いる。日本-B は、日本という単語の先頭を意味し、名詞-Bは、名詞の先頭を意味する。単語や品詞の認定には、例えば前述したChasenによる形態素解析を用いる。上述したChasenは各単語の品詞も推定することができるので、「学校へ行く」を入力すると以下の結果を得る。

学校ガッコウ学校名詞-一般
へヘへ助詞-格助詞-一般
行くイク行く動詞-自立五段・カ行促音便基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。

なお、例えば、上記の非特許文献１０では、素性として、入力文を構成する文字の、文字自体(例えば、「小」という文字)、字種(例えば、ひらがなやカタカナ等)、品詞情報、タグ情報(例えば、「B-PERSON」等)を利用している。

これら素性を利用して学習する。タグを推定する文字やその周辺の文字にどういう素性が出現するかを調べ、どういう素性が出現しているときにどういうタグになりやすいかを学習し、その学習結果を利用して新しいデータでのタグの推定を行なう。機械学習には、例えばサポートベクトルマシンを用いる。

固有表現抽出には、上記の手法の他にも種々の手法がある。例えば、最大エントロピーモデルと書き換え規則を用いて固有表現を抽出する手法がある(非特許文献１１参照)。

内元清貴,馬青,村田真樹,小作浩美,内山将夫,井佐原均,最大エントロピーモデルと書き換え規則に基づく固有表現抽出,言語処理学会誌, Vol.7, No.2, 2000年

また、例えば、以下の非特許文献１２に、サポートベクトルマシンを用いて日本語固有
表現抽出を行う手法について記載されている。

山田寛康,工藤拓,松本裕治,Support Vector Machineを用いた日本語固有表現抽出,情報処理学会論文誌, Vol.43,No.1", 2002年

(2)作成したルールを用いる手法
人手でルールを作って固有表現を取り出すという方法もある。
例えば、
名詞+「さん」だと人名とする
名詞+「首相」だと人名とする
名詞+「株式会社」だと企業名とする
名詞+「町」だと地名とする
名詞+「市」だと地名とする
などである。

以上の方法によって固有表現を抽出し、抽出された表現のうち、例えば人名や企業名などを素性抽出部（１０１）において抽出することができる。

本発明は上記の特徴に加えて、データ収集部（１００）で収集されたデータと関連のあるデータを抽出することを特徴とする。
その１つの例として、データの信頼度を評価する技術を提案する。図６に示すように、本装置（１）のＣＰＵ（１０）に評価用データ抽出部（１０４）、評価用素性抽出部（１０５）、評価用機械学習判定部（１０６）を備えて、該データの信頼度を判定し、その結果を機械学習判定部（１０２）において素性として利用する。

図７には、本実施例に係るデータ信頼度評価ステップ（Ｓ５）を含む処理フローチャートである。
本構成では、ハードディスク（１３）に評価用データベース（１３３）を格納しておくか、ネットワーク上の任意のサーバに格納しておく。該評価用データベース（１３３）には、多数のデータが含まれており、評価用データ抽出部（１０４）は、データ収集部で収集されたデータと、収集データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該収集データのファイル情報の少なくともいずれかが一致する評価用データを抽出する。（評価用データ抽出工程：Ｓ５０）

すなわち、まず評価用データ抽出部が、収集されたデータからその作成者を探索する。探索には、例えば「文責：○川○夫」のように著作者が明示されている場合に、「○川○夫」を抽出する。あるいはＨＴＭＬに含まれる非表示の著作者情報などを抽出してもよい。
そして、「○川○夫」が含まれる評価用データを、該評価用データベース（１３３）から抽出する。

なお、著作者の他に格納されるサーバ装置の名称若しくはネットワークアドレス、又は該収集データのファイル情報が一致するものを評価用データとしてもよい。例えば、収集されたデータが、www.nhk.or.jpというドメインから収集されたデータであった場合、同じドメインから公開されていた評価用データを抽出する。

そして、表８に示すような評価因子テーブル（１３４）をハードディスク（１３）に格納する。

評価因子は上記に限られるものではないが、例えば、「××株式会社代表取締役○川○夫」という表現が評価用データに含まれるとき、この著作者の勤務先は「××株式会社」であること、役職は「代表取締役」であることが抽出される。著作については、評価用データとして図書館データベースを用いることで、「○川○夫」の著作があればそれを検出することもできる。（仮に同姓同名の他人であっても、本発明はこれをもって確定的に信頼できるという評価がされるわけではないので、重大な問題にはならない。）

また、抽出された評価用データが、どのような話題のものであるのか、後述する要約技術などによって抽出することもできる。さらに、評価用データにおける不適当な単語（前記した顔文字や、感情的な表現など）を抽出することもできる。

このような評価因子を、評価用素性抽出部（１０５）が、機械学習における素性として評価データから抽出する。（評価用素性抽出工程：Ｓ５１）
そして、これらの素性を用いて、評価用機械学習判定部（１０６）が、当該評価データについて「信頼できる」「信頼できない」のいずれかか、数値で表現される信頼度として算出する。（評価用機械学習判定工程：Ｓ５２）
この判定には、評価用に備えた機械学習結果データ（１３５）を用いるが、同機械学習結果データ（１３５）についても、上述した機械学習の手法によって生成する。

以上の構成によれば、データ収集部（１００）が収集したデータに関して、評価用データを抽出しその信頼度を評価することができる。一般的に、ある著作者や、あるウェブサイトの発信する情報が信頼性が高い場合、他で公開している情報についても信頼性は高いと考えられる。
そのため、本発明では評価用データについて判定された信頼度を、機械学習判定部（１０２）における素性として入力することで、さらに正確な風評情報か否かの判定に寄与することができる。

また、本発明では、機械学習判定部（１０２）に素性として入力せずに、又は入力すると共に、風評情報出力部（１０３）からの出力時に、関連情報として出力することもできる。

以上の方法は、評価データを抽出してその信頼度を風評情報の判定に利用するものであるが、これをさらに進めて、ごく信頼のできる根拠情報に同様の記載があるか否かを確認する技術を提供することもできる。

図８は、本技術に係わる構成であり、本装置（１）のＣＰＵ（１０）に、データ収集部（１００）で収集されたデータと類似する情報が、予めハードディスク（１３）に格納した根拠情報データベース（１３６）に含まれる根拠情報源に存在するか否かを判定する。

根拠情報データベース（１３６）には表９に示すように根拠情報となりうるサーバ装置の名称若しくはネットワークアドレス、又は該信頼できる情報のファイル情報の少なくともいずれかが格納されている。

図９に示すように、本実施例ではデータ収集ステップ（Ｓ１）の後に、根拠情報確認ステップ（Ｓ６）を実行し、その中で類似判定部（１０７）が類似判定工程（Ｓ６１）を実行処理する。根拠情報データベース（１３６）に含まれるファイル情報や、ドメイン名、サイト名前などに従って、類似判定部（１０７）が各根拠情報源からデータを取得すると共に、その中に収集されたデータと話題が共通の情報が含まれているか否かを判定していく。

ここで、類似判定を行う方法としては、次のような類似文書の検索技術を用いることができる。
まず、データ収集の後、収集されたデータ形態素解析を行ってからそれによって得られた該データを構成する単語群Ａを、多く含む根拠情報データの抽出方法を説明する。

(1) 基本的な方法 (TF・IDF 法) の説明
（数１３)
score(D)= Σ ( tf(w,D) * log(N/df(w)) )
w ∈W で加算
Wはキーワードの集合、tf(w,D)は収集されたデータでのwの出現回数、df(w)は全文書でWが出現した文書の数、Nは文書の総数
数１３に示す式において、score(D) が高い文書データを類似した根拠情報データとして出力する。

(2)Robertson らの Okapi weightingの説明
本方法は、非特許文献１３に記載されている。

村田真樹,馬青,内元清貴,小作浩美,内山将夫,井佐原均"位置情報と分野情報を用いた情報検索"自然言語処理(言語処理学会誌) 2000年 4月,7巻,2 号, p.141 〜 p.160 該非特許文献１３における数１４が性能がよいことが知られている。そして、Σで積を取る前の tf 項とidf 項の積が Okapiのウェイティング法になって、この値を単語の重みに使う。

Okapi の式なら
（数１４）
score(D)= Σ ( tf(w,D)/(tf(w,D) + length/delta) * log(N/df(w)) )
w ∈W で加算

lengthはデータＤの長さ、delta はデータの長さの平均、データの長さは、データのバイト数、また、データに含まれる単語数などを使う。

さらに、以下の情報検索を行うこともできる。
(Okapi の参考文献)
非特許文献１４，１５に開示されるようなOkapiの式、SMARTの式を用いることもできる。より高度な情報検索の方法として、tf・idf を使うだけの式でなく、これらのOkapiのSMARTの式を用いてもよい。

S. E. Robertson, S. Walker, S. Jones, M. M. Hancock-Beaulieu,and M. Gatford Okapi at TREC-3,TREC-3, 1994年 Amit Singhal AT&T at TREC-6, TREC-6, 1997 年

これらの方法では、tf・idf だけでなく、記事の長さなども利用して、より高精度な情報検索を行うことができる。

今回の、単語群Ａをより多く含む記事の抽出方法では、さらに、Rocchio'sformula （非特許文献１６）を使うことができる。

J. J. Rocchio,Relevance feedback in information retrieval,The SMARTretrieval System, Edited by G. Salton,Prentice Hall, Inc.,page 313-323, 1971年

この方法は、log(N/df(w))のかわりに、
（数１５）
{E(t) + k_af * (RatioC(t) - RatioD(t))}*log(N/df(w))
を使う。

E(t) = 1 (元の検索にあったキーワード)
= 0 (それ以外)
RatioC(t) はデータ群Ｂでのt の出現率
RatioD(t) は記事群Cでのt の出現率
log(N/df(w))を上式でおきかえた式でscore(D)を求めて、その値が大きいものほど単語群Aをより多く含む記事として取り出すものである。

score(D)のΣの加算の際に足す単語wの集合Wは、元のキーワードと、単語群Aの両方とする。ただし、元のキーワードと、単語群Aは重ならないようにする。

また、他の方法として、score(D)のΣの加算の際に足す。単語wの集合Wは、単語群Ａのみとする。ただし、元のキーワードと、単語群Ａは重ならないようにする。

ここでは roccio の式で複雑な方法をとったが、単純に、単語群Aの単語の出現回数の和が大きいものほど、単語群Aをより多く含む記事として取り出すようにしてもよいし、また、単語群Aの出現の異なりの大きいものほど、単語群Aをより多く含む記事として取り出すようにしてもよい。

以上の方法により、単語群Aを含む記事を取り出すことができ、これを根拠情報データとして抽出することができる。
本発明における根拠情報確認ステップ（Ｓ６）における１つの処理として、上記のような単語群Ａを含む記事を抽出による方法が挙げられる。

次に、根拠情報確認ステップ（Ｓ６）における別な手法として、収集されたデータ群Bの類似記事を抽出する方法を説明する。
記事同士の類似度を定義する。この類似度は、tf・idf や okapiや smartを使うとよい。tf・idf や okapiや smartなどにおける、記事Dとクエリを比較する二つの記事xとyとするとしてよい。そして、x、yの両方に含まれる単語をwとするとよい。

各単語を次元と、各単語のスコアを要素とするベクトルを作成し、記事xのベクトルを記事xに含まれる単語を使ってベクトル(vector _x)にし、また、記事yのベクトルを記事yに含まれる単語を使ってベクトル(vector_y)にし、それらベクトルの余弦(cos(vector _x,vector_y)) の値を記事の類似度としてもよい。各単語のスコアの算出には、tf・idf やokapiやsmart を用いるとよい。

それらの式のΣの後ろの部分の式がスコアの算出の式となる。その式の値が各単語のスコアとなる。

tf・idf だと tf(w,D) * log(N/df(w))
okapi だと tf(w,D)/(tf(w,D) + length/delta)* log(N/df(w))
がその式となる。

また、単語群Ａをより多く含む記事の抽出においてもこのベクトルの余弦(cos(vector_x,vector_y)) の値を求め、この値が大きい記事ほど単語群Ａをより多く含む記事と判断してもよい。この場合は、単語群Aに含まれる単語を使ってベクトル(vector_x)にし、記事に含まれる単語を使ってベクトル(vector _y)にして求める。

データ群Ｂと根拠情報データｘの類似度には、次の方法などがある。
（１）データ群Ｂのうち根拠情報データxと最も類似するデータと、根拠情報データxの類似度をその類似度とする方法
（２）データ群Ｂのうち根拠情報データxと最も類似しない記事と、根拠情報データxの類似度をその類似度とする方法
（３）データ群Ｂのすべての記事と根拠情報データxの類似度の平均をその類似度とする方法
他の方法でもよいが、このようにして、データ群Ｂと根拠情報データxの類似度を求めて、その類似度が大きいものを類似記事として取り出すことができる。

なお、他の方法としては、データ群Ｂに偏って出現する単語を先の方法で取り出し、そして、その単語も利用して、Rocchio's formula に基づく Score(D) を計算し、Score(D)の大きいものを類似データとして取り出してもよい。

この方法により、類似記事を取り出すことができ、本発明ではこれを根拠情報データとして抽出してもよい。
さらに、上述した単語群Ａを含む記事を抽出による方法と、ここで説明した類似記事を取り出す方法とを両方実行してそれぞれ記事を抽出してもよい。

以上のような類似文書の抽出技術を用いて、本発明における類似判定部（１０７）は類似度を判定し、類似する文書があるか否かについてを素性として機械学習判定部（１０２）に入力する。
類似度が数値で算出される場合には、その類似度をp倍(p<1)した値よりも大きい類似度の文書が根拠情報データにある場合、当該収集データは根拠のあるものとする。

ここで、単語群Ａを含む記事を抽出による方法の場合には、正規化が必要になる。正規化としては、入力のキーワード群とまったく同じキーワード群の文書があると仮定し、その文書のスコアを算出する。そしてそのスコアで、類似度を割ることにより、正規化した類似度を算出することができる。なお、正規化の方法は任意である。

また、非特許文献１７に開示される言い換え技術を用いて、類似判定を行うこともできる。本方法では、まず同義語の言い換えの変形規則をたくさん用意し、これを用いて文章の言い換えを行う。類似度の大きくなる言い換えを行っていき、最も類似度の高くなった文同士で類似度を求める。類似度は、例えばある文章に含まれる複数のキーワードとその周辺に出現するパターンが、他方の文章でどれだけ抽出されるか、その総数をスコアとして算出することができるが、これに限らず周知の方法によって類似度は算出することができる。
この言い換えは、類似度を求める両方の文を言い換えても良い。

このように言い換えを行ってから類似度を求める方が、文同士が似た状態になるため、より正確に文同士の類似度を算出することができる。

村田真樹，井佐原均、「言い換えの統一的モデル -尺度に基づく変形の利用」、自然言語処理、11巻，5号，p.113-133,言語処理学会、2004年10月

（関連情報の抽出に機械学習を用いる方法）
上記において関連情報の抽出はＣＰＵ（１０）の関連情報抽出部（１１０）が、風評情報と判定された収集データについて、その著作者、コンテンツ、格納されるサーバ装置の名称若しくはネットワークアドレス、ファイル情報などに基づいて関連情報を抽出する構成である。
本発明では、さらに関連情報の抽出自体に機械学習モデルを用いて関連情報として抽出する妥当性を判断することもできる。

ＣＰＵ（１０）には上記の記事の類似度を算出する手法を備えた関連情報類似度算出部（図示しない）と、機械学習モデルにより関連情報としての妥当性を評価する関連情報評価部（図示しない）とを設ける。
そして予め関連情報評価部に含む機械学習モジュールでは次のようにして機械学習を行い、その結果を機械学習結果データとしてハードディスクに格納しておく。

機械学習のために、データ収集部（１００）で収集された風評情報データと、関連情報抽出部（１１０）で収集された関連情報データを大量に用意し、これを機械学習モジュールに入力する学習用の入力データとする。
関連情報データが本当に関連情報データとして妥当か否かを人手によって判定し、その結果を学習用の出力データとする。

同時に、関連情報類似度算出部において、学習用風評情報データ及び該学習用関連情報データの関連情報類似度を算出する。この類似度の算出方法は上記の通りであり、類似度として類似する、しないの２値の結果でもよいし、類似の度合いを示す数値でもよい。
そして、機械学習における素性として、入力データの風評情報データを構成する単語列と、関連情報データを構成する単語列と共に、関連情報類似度とを用いる。

このような関連情報評価部を備え、関連情報抽出部（１１０）で抽出された関連情報データと、そのときの風評情報データとを入力して該関連情報データが妥当か否かを判定する。判定結果に応じて関連情報として風評・関連情報出力部（１０３）から出力する。
機械学習モジュールにおける機械学習の方法は上述した様々な方法のいずれかを用いることができ、このときの判定結果は、「妥当である」「妥当でない」と出力される場合と、妥当である確率が出力される場合がある。前者の場合には「妥当である」関連情報データを出力すればよく、後者の場合には所定の閾値を超える確率の場合に出力すればよい。

（関連情報データを類似度により抽出する方法）
本発明の関連情報抽出部（１１０）において次のように抽出処理を行うこともできる。
すなわち、ＣＰＵ（１０）に図示しない関連情報類似度算出部を備え、該関連情報類似度算出部では上述した通りの記事の類似度の算出処理を行う。
そして、データ収集部（１００）で収集されて風評情報と判定された風評情報データと、ネットワーク上又はハードディスクの関連情報ＤＢから抽出する記事の類似度を算出する。

関連情報類似度算出部で算出された類似度に応じて、例えば類似度が所定の閾値を超えたものについて関連情報として抽出することができる。

（言い換えを行った上で、類似度により抽出する方法）
本発明ではさらに、ＣＰＵ（１０）に上記言い換えの技術を備えた単語列置換部（図示しない）と上記関連情報類似度算出部を設けて、該単語列置換部において関連情報ＤＢ等から抽出された記事に含まれる単語列を順次置換しながら、風評情報データとの類似度を
関連情報類似度算出部で算出する。そして、常に類似度が高まるように単語列を置換していき、もっとも類似度が高くなるときの類似度が所定の閾値を超えたときに関連情報データとして抽出することもできる。

本発明では、風評情報出力部（１０３）における出力処理についても、次のような技術を提供することができる。
その１つは、クラスタリング処理により、機械学習判定部（１０２）で風評情報と判定された複数の風評情報を、関連する風評情報同士をまとめて出力することである。

（Ａ）クラスタリングの説明
クラスタリングにはさまざまな方法がある。一般的なものを以下に記述する。

(階層クラスタリング(ボトムアップクラスタリング)の説明)
最も近い成員同士をくっつけていき、クラスターを作る。クラスターとクラスター同士
も(クラスターと成員同士も)、最も近いクラスター同士をくっつける。
クラスター間の距離の定義は様々あるので以下に説明する。

・クラスターAとクラスターBの距離を、クラスターAの成員とクラスターBの成員の
距離の中で最も小さいものをその距離とする方法
・クラスターAとクラスターBの距離を、クラスターAの成員とクラスターBの成員の
距離の中で最も大きいものをその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員とクラスターB
の成員の距離の平均をその距離とする方法
・クラスターAとクラスターBの距離を、すべてのクラスターAの成員の位置の平均を
そのクラスターの位置とし、すべてのクラスターBの成員の位置の平均をそのクラスター
の位置とし、その位置同士の距離の平均をその距離とする方法

・ウォード法と呼ばれる方法もある。以下、ウォード法の説明をする。
（数１６）
W = ΣΣ (x(i,j) - ave _x(i)) ^ 2
^は指数を意味する。

一つ目の
Σは i=1からi=g までの加算
二つ目の
Σは j=1からj=niまでの加算
x(i,j)は i番目のクラスターの j番目の成員の位置
ave _x(i)は i番目のクラスターのすべての成員の位置の平均
クラスター同士をくっつけていくと、Wの値が増加するが、ウォード法では、Wの値が
なるべく大きくならないようにクラスター同士をくっつけていく。

成員の位置は、記事から単語を取り出し、その単語の種類をベクトルの次元とし、各単
語のベクトルの要素の値を、単語の頻度やその単語のtf・idf (すなわち、tf(w,D) * log(N/df(w))) 、その単語のOkapi の式 (すなわち、tf(w,D)/(tf(w,D)+length/delta)*log(N/df(w))) としたベクトルを作成し、それをその成員の位置とする。

(トップダウンクラスタリング(非階層クラスタリング)の説明)
以下、トップダウンのクラスタリング(非階層クラスタリング)の方法を説明する。

(最大距離アルゴリズムの説明)
ある成員をとる。次にその成員と最も離れた成員をとる。これら成員をそれぞれのクラスターの中心とする。それぞれのクラスター中心と、成員の距離の最小値を、各成員の距離として、その距離が最も大きい成員をあらたなクラスターの中心とする。これを繰り返す。あらかじめ定めた数のクラスターになったときに、繰り返しをやめる。また、クラスター間の距離があらかじめ定めた数以下になると繰り返しをやめる。また、クラスターの良さをAIC情報量基準などで評価してその値を利用して繰り返しをやめる方法もある。各成員は、最も近いクラスター中心の成員となる。

(K平均法の説明)
あらかじめ定めた個数k個にクラスタリングすることを考える。k個成員をランダムに選ぶ、それをクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。クラスター内の各成員の平均をそれぞれのクラスターの中心とする。各成員は最も近いクラスター中心の成員となる。また、クラスター内の各成員の平均をそれぞれのクラスターの中心とする。これらを繰り返す。そして、クラスターの中心が移動しなくなると繰り返しをやめる。又は、あらかじめ定めた回数だけ繰り返してやめる。その最終的なクラスター中心のときのクラスター中心を使ってクラスターを求める。各成員は最も近いクラスター中心の成員となる。

（単語群によるクラスタリング）
クラスタリングに類似する文書分類の方法として、あらかじめ分類先毎に単数又は複数の単語群を定義しておき、入力された情報に該単語群が含まれるか否かにより分類先に分類する方法がある。該文書分類方法についても本発明ではクラスタリングに含まれる。
入力された情報の中で複数の分類先の単語群が含まれる場合には、含まれる数が多い単語群の分類先に分類してもよいし、各単語群に重みの値をつけておき、その重みが大きい単語群の分類先に分類するようにしてもよい。

このようにして、クラスタリングをする。クラスタリングの方法は、これら以外にも様々な方法が公知であるので、それらを利用してもよい。
風評情報は、類似の情報が複数抽出されることが多く、複数の風評情報がランダムに出力されてしまうと、どの風評情報が本当に問題があるのかがわかりにくい問題がある。
本発明において風評情報出力部（１０３）でクラスタリング処理をすることにより、モニタ（１２）などで類似の風評情報ごとに表示させることができるので、例えば誤った情報が集中している場合なども迅速的確に把握可能である。

本発明では、風評情報出力部（１０３）において出力する際の表示態様を次のように変化させることもできる。
すなわち、風評情報出力部（１０３）は、風評情報と判定されたデータの、日次、週次、月次ごとに判定件数をカウントして、判定件数データを作成する。例えば、図１０に示すような週次発表データが作成される。

図１０に示す週次発表データは、例えば、上記でクラスタリング処理された風評情報１については、第３週次に1件、第４週次に5件、第６週次に10件、第７週次に1件の判定件数があり、風評情報２については、第1週次に5件、第2週次に3件、第3週次に10件、第8週次に1件の文書発表があり、風評情報３については、第4週次に2件、第7週次に4件、第8週次に12件、第9週次に5件、第10週次に13件の判定件数があることを示している。

風評情報出力部（１０３）は、上記定期発表データを等高線データに変換し、変換後の等高線データを表示データとする構成をとることもできる。図１１のように、発表件数を等高線で表し、高さに応じて色を濃く表示することができる。

モニタ（１２）で、風評情報出力部（１０３）によって作成された表示データを画面表示する。モニタ（１２）は、例えば図１１に示すように、各風評情報の各週次における文書の発表件数のデータが等高線表示される画面を表示する。発表件数の度合いによって等高線の表示色が異なっている。例えば、８〜１０件の発表件数に対応する等高線の表示色は一番濃い色で表示される。

図１１の表示順序は、各文書発表の件数において、週次の平均値と最頻値と中央値を求め、その平均値の小さい順に表示している。このように並べることで早い時期に発表が集中している分類から表示することができるので、風評情報や関連情報がどのように発表されていったのか、視覚的に認識することができる。
なお、並べ順は平均値、最頻値、中央値のいずれかによって並べてもよいし、それらを用いた計算方法も任意である。

等高線のグラフ表示においては、複数の折れ線グラフを使った表示や、各分類毎に１つの折れ線グラフを使った表示を行ってもよい。

なお、モニタ（１２）は、例えば、図１２に示すように、各風評情報の各週次におけるデータ判定件数をバブルチャートとして画面表示する構成を採ることもできる。
バブルチャートとは、一般に、ある事象を示す(円)を2つの軸を持つ図上に配置した図のことを言う。図１２に示すバブルチャートでは、円の大きさが判定件数の度合いを示している。

本発明で風評情報を出力する際に、要約処理を行ってから出力することもできる。すなわち、風評情報を長文のまま出力しても、ユーザがどのような内容であるかを把握するには時間を要し、大量の風評情報をチェックするには不適当である。
そこで、本発明では次の要約処理により、出力される風評情報をわかりやすく提示することができる。

まず、要約処理は公知の様々な手法が知られているが、例えば本発明者らによる特許文献２及び特許文献３の方法に開示される要約手法を用いることができる。
すなわち、特許文献２の方法によれば、要約装置として、文章およびその要約結果である問題と前記要約結果に対する評価を示す複数の分類先である解との組からなる解データを記憶する解データ記憶手段と、解データの問題である文章および要約結果から、例えば要約結果の文のなめらかさを示す情報および要約結果が文章の内容を表示しているかどうかを示す情報を含む所定の情報を素性として抽出する。

そして、その解と素性の集合との組を生成する解?素性対抽出手段と、解と前記素性の集合との組を学習結果として学習結果記憶手段に記憶する機械学習手段と、解−素性対抽出手段により抽出される情報を素性とし、入力されたテキストから前記素性の集合を抽出する素性抽出手段と、学習結果である前記解と前記素性の集合との組をもとに、ベイズの定理にもとづいて前記素性抽出手段から得た前記テキストの素性の集合の場合の各分類になる確率を求め、前記確率の値が最も大きい分類を、求める推定解とする評価推定手段とを備える。

また、特許文献３に記載の方法は、機械学習法によりテキストを自動要約する処理で用いる解データを編集する解データ編集処理装置であって、テキストの要約結果を表示装置に表示する要約表示処理手段と、前記要約結果に対する評価の入力を受け付けて前記要約結果の評価とする評価付与処理手段と、前記テキストおよび前記要約結果を問題とし前記評価を解とする解データを出力する解データ出力処理手段とを備える。

特許第3682529号特開2003-248676号

以上にあげた方法は、いずれも公知の要約方法に対して、それを評価し、又はその結果をフィードバックすることにより機械学習の精度の向上を図るものであり、これによって効果的な要約方法に寄与する。
もちろん、ここで用いる機械学習方法はシンプルベイズ法に限らず、k近傍法、決定リスト法、最大エントロピー法、サポートベクトルマシン法、ニューラルネットワーク法などいかなるモデルを用いても良い。

なお、本発明における要約処理は、機械学習による方法に限らず、公知の任意の要約方法を用いることができる。
例えば、文書の位置、タイトルの単語を含んでいる個数、その文に出現する単語のtfidfの値のそれぞれの情報を用いて、各文のスコアを求め、そのスコアの大きいものを要約結果とする方法がある。
また、一般にタイトルの単語は重要なため、タイトルの単語を多く含む文を抽出してその文を要約結果とすることができる。
より単純に、文書の第一文など、最初の方を要約文としてもよい。

さらに、本発明ではデータ収集部（１００）において外国語のデータを収集することもできる。そして、風評の対象となる単語や、風評の内容を示す単語、その他の素性について、先に翻訳部において機械翻訳した後、素性抽出部（１０１）では翻訳された素性を収集されたデータから抽出する。

機械翻訳については、公知の機械翻訳方法により高精度な翻訳をしてもよいが、ハードディスクに外国語辞書を登載して、単に外国語辞書を参照して単語を逐語翻訳するだけでもよい。

本発明が対象とするデータは日本語に限られず、機械学習などの各処理もすべて任意の外国語を対象として行うことで、外国語の風評情報を抽出することができる。
さらに、このように抽出された外国語の風評情報を、公知の機械翻訳処理装置又は機械翻訳プログラムに入力することによって日本語に翻訳し、出力させてもよい。

本発明は以上のような構成により、次のような風評情報の判定を行うことができる。その実験例を示す。
まず、次の通りの教師データを用意する。

［教師データ１］

書き込み：「．．銀行が倒産する」
発信者：信頼できる
文字：黒
背景：白
特許論文新聞の根拠：なし
風評でない(正しい情報)

［教師データ２］

書き込み：「．．銀行が倒産する」
発信者：信頼できるか不明
文字：黒
背景：白
特許論文新聞の根拠：あり
風評でない(正しい情報)

［教師データ３］

書き込み：「．．銀行が倒産する」
発信者：信頼できるか不明
文字：赤
背景：黒
特許論文新聞の根拠：なし
風評である(正しくない情報)

［教師データ４］

書き込み：「．．銀行がもうかっている」
発信者：信頼できるか不明
文字：黒
背景：白
特許論文新聞の根拠：なし
風評でない(正しいかどうか不明だが)

以上の教師データから、素性を取り出す

［教師データ１］

書き込みにあった単語など：「銀行」
書き込みにあった単語など：「倒産する」
発信者：信頼できる
文字：黒
背景：白
特許論文新聞の根拠：なし

［教師データ２］

書き込みにあった単語など：「銀行」
書き込みにあった単語など：「倒産する」
発信者：信頼できるか不明
文字：黒
背景：白
特許論文新聞の根拠：あり

［教師データ３］

書き込みにあった単語など：「銀行」
書き込みにあった単語など：「倒産する」
発信者：信頼できるか不明
文字：赤
背景：黒
特許論文新聞の根拠：なし

［教師データ４］

書き込みにあった単語など：「銀行」
書き込みにあった単語など：「もうかっている」
発信者：信頼できるか不明
文字：黒
背景：白
特許論文新聞の根拠：なし

となる。

機械学習モジュール（図３）の機械学習部は、これらの情報からどういう素性のときに風評情報で、どういう素性のときに風評情報でないかを学習する。その結果、

発信者：信頼できる
や
特許論文の根拠：あり
のときは、風評情報でないことや、

「倒産する」という語があって
文字：赤
背景：黒
の場合
風評の可能性が高いなどが学習される。

このような学習結果が、機械学習結果データに格納された後、機械学習判定部が判定処理を行う。そこで、データ収集部により収集されたデータの素性が次の通りであったとする。

[収集データ１の素性]

書き込み：「．．会社が倒産する」
発信者：信頼できるか不明
文字：赤
背景：黒
特許論文新聞の根拠：なし

このとき、
「倒産する」という語があって
文字：赤
背景：黒
の場合、風評の可能性が高いという学習結果から、風評情報であると判定され、出力される。

本発明の風評情報抽出装置の全体構成図である。本発明の風評情報抽出方法の処理フローチャートである。本発明における機械学習モジュールの構成図である。機械学習処理におけるテキストの分類の概念を説明する説明図である。サポートベクトルマシンによるマージンの概念を説明する説明図である。本発明によるデータ信頼度を評価する手段の構成図である。本発明によるデータ信頼度を評価する方法の処理フローチャートである。本発明による根拠情報確認手段の構成図である。本発明による根拠情報確認方法の処理フローチャートである。本発明によるモニタからの出力態様（１）を示す図である。本発明によるモニタからの出力態様（２）を示す図である。本発明によるモニタからの出力態様（３）を示す図である。

符号の説明

１風評情報抽出装置
１０ＣＰＵ
１１キーボード・マウス
１２モニタ
１３ハードディスク
１４ネットワークアダプタ
１００データ収集部
１０１素性抽出部
１０２機械学習判定部
１０３風評情報出力部
１３１素性テーブル
１３２機械学習結果データ

Claims

所定の対象に対してネットワーク上で公開されている風評情報を抽出するコンピュータを用いた風評情報抽出装置であって、
ネットワーク上の単数又は複数のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集手段と、
少なくとも素性となる単語又は単語の集合を含む素性テーブルを格納した素性テーブル記憶手段と、
該素性テーブルを参照して、該収集データから素性を抽出する素性抽出手段と、
単数又は複数の素性を入力すると、学習結果記憶手段に格納された機械学習結果データを参照して、所定の対象に対する風評情報か否かを判定する所定の機械学習モジュールを備えた機械学習判定手段と
を備えて、該素性抽出手段が抽出した素性を該機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得ると共に、
風評情報と判定された収集データの少なくとも一部、又はそれが公開されているサーバ装置の名称若しくはネットワークアドレス、又はその収集データのファイル情報、の少なくともいずれかを出力する風評情報出力手段
を備えたことを特徴とする風評情報抽出装置。
前記素性テーブル記憶手段において、
前記ネットワーク上でデータが公開される時の表示書式に係わる書式設定情報を素性として素性テーブルに含むと共に、
前記素性抽出手段が、
該素性テーブルを参照して、前記収集データからそれに付与された書式設定情報を抽出する
ことを特徴とする請求項１に記載の風評情報抽出装置。
前記風評情報抽出装置に、
単語の意味を、符号を用いて意味クラスとして分類し、複数の単語に対してそれぞれの意味クラスを付与した分類語彙テーブルを有し、該意味クラスを素性として素性テーブルに含むと共に、
前記素性抽出手段が、
該素性テーブルを参照して、前記収集データからそれに含まれる単語の意味クラスを抽出する
ことを特徴とする請求項１又は２に記載の風評情報抽出装置。
前記風評情報抽出装置に、
前記ネットワーク上のサーバ装置の名称若しくはネットワークアドレス、又はその前記収集データのファイル情報に対して、そこで公開される情報の信頼度を数値で表す情報源信頼度データベースを有し、該信頼度を素性として素性テーブルに含むと共に、
前記素性抽出手段が、
該素性テーブルを参照して、該収集データに係る信頼度の数値を抽出する
ことを特徴とする請求項１ないし３のいずれかに記載の風評情報抽出装置。
前記風評情報抽出装置が、データ信頼度値評価手段を備え、
該データ信頼度値評価手段は、
前記収集データと、該収集データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該収集データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出部と、
該収集データの信頼性を高める因子である積極因子と、該収集データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶部と、
該因子を素性として、該評価用データから抽出する評価用素性抽出部と、
単数又は複数の素性を入力すると、学習結果記憶部に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う所定の機械学習モジュールを備えた評価用機械学習判定部と
を備えて、該評価用素性抽出部が抽出した素性を該評価用機械学習判定部に入力して得られた評価用データの分類結果を、該収集データの信頼度として出力する構成であって、
該収集データの信頼度値を、前記素性抽出手段が抽出した素性と共に、前記機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得る
ことを特徴とする請求項１ないし４のいずれかに記載の風評情報抽出装置。
前記風評情報抽出装置が、前記素性に風評情報を判定する対象である判定対象名詞を含む構成であって、
該判定対象名詞を、ネットワーク上の所定のサーバ装置又は、ユーザが指定したキーワードに基づいて所定の情報検索サーバ装置により抽出されたサーバ装置における情報から抽出する判定対象名詞抽出手段を備える
ことを特徴とする請求項１ないし５のいずれかに記載の風評情報抽出装置。
前記風評情報抽出装置が、根拠情報確認手段を備え、
該根拠情報確認手段が、
信頼できる情報を公開しているサーバ装置の名称若しくはネットワークアドレス、又は該信頼できる情報のファイル情報の少なくともいずれかの根拠情報源を定義した根拠情報データベースと、
該根拠情報データベースに定義される根拠情報源から公開されているデータを取得し、前記収集データと話題が類似する類似データが含まれているか否かを判定する類似判定部と
を備え、
該類似判定部における判定結果を、前記素性抽出手段が抽出した素性と共に、前記機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得る
ことを特徴とする請求項１ないし６のいずれかに記載の風評情報抽出装置。
前記風評情報抽出装置が、クラスタリング処理手段を備え、
該クラスタリング処理手段が、
前記風評情報データに含まれる著作者又はコンテンツを、所定のクラスタリング式に従ってクラスタリング処理すると共に、
前記出力手段が、
該クラスタリングされた状態の該風評情報データを出力する
ことを特徴とする請求項１ないし７のいずれかに記載の風評情報抽出装置。
前記風評情報抽出装置が、テキスト要約処理手段を備え、
該テキスト要約処理手段が、
前記風評情報データに含まれるテキストコンテンツを、要約処理すると共に、
前記出力手段が、
該要約された状態の該風評情報データを出力する
ことを特徴とする請求項１ないし８のいずれかに記載の風評情報抽出装置。
前記風評情報抽出装置が、機械翻訳処理手段を備え、
該機械翻訳処理手段において、前記素性、前記収集データ、風評情報データの少なくともいずれかを機械翻訳することにより、他言語で記載された風評情報を抽出する
ことを特徴とする請求項１ないし９のいずれかに記載の風評情報抽出装置。
ネットワーク上でデータを公開するサーバ装置又は、該データのファイル情報に対して、信頼度を数値で評価するコンピュータを用いたデータ信頼度値評価装置であって、
該データと、該データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出手段と、
該データの信頼性を高める因子である積極因子と、該データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶手段と、
該因子を素性として、該評価用データから抽出する評価用素性抽出手段と、
単数又は複数の素性を入力すると、学習結果記憶手段に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う所定の機械学習モジュールを備えた評価用機械学習判定手段と
を備えて、該評価用素性抽出手段が抽出した素性を該評価用機械学習判定手段に入力して得られた評価用データの分類結果を、該データの信頼度として出力する
ことを特徴とする情報信頼度値評価装置。
所定の対象に対してネットワーク上で公開されている風評情報を抽出するコンピュータを用いた風評情報抽出方法であって、
コンピュータのデータ収集手段が、ネットワーク上の単数又は複数のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集ステップ、
少なくとも素性となる単語又は単語の集合を含む素性テーブルを格納した素性テーブル記憶手段を備えておき、
コンピュータの素性抽出手段が、該素性テーブルを参照して、該収集データから素性を抽出する素性抽出ステップ、
所定の機械学習モジュールを備えたコンピュータの機械学習判定手段が、抽出された素性を用い、学習結果記憶手段に格納された機械学習結果データを参照して、所定の対象に対する風評情報か否かを判定する機械学習判定ステップ、
コンピュータの風評情報出力手段が、風評情報と判定された収集データの少なくとも一部、又はそれが公開されているサーバ装置の名称若しくはネットワークアドレス、又はその収集データのファイル情報、の少なくともいずれかを出力する風評情報出力ステップ
を含むことを特徴とする風評情報抽出方法。
前記素性テーブル記憶手段において、
前記ネットワーク上でデータが公開される時の表示書式に係わる書式設定情報を素性として素性テーブルに含むと共に、
前記素性抽出ステップにおいて、前記素性抽出手段が、
該素性テーブルを参照して、前記収集データからそれに付与された書式設定情報を抽出する
ことを特徴とする請求項１２に記載の風評情報抽出方法。
単語の意味を、符号を用いて意味クラスとして分類し、複数の単語に対してそれぞれの意味クラスを付与した分類語彙テーブルを有し、該意味クラスを素性として素性テーブルに含むと共に、
前記素性抽出ステップにおいて、前記素性抽出手段が、
該素性テーブルを参照して、前記収集データからそれに含まれる単語の意味クラスを抽出する
ことを特徴とする請求項１２又は１３に記載の風評情報抽出方法。
前記ネットワーク上のサーバ装置の名称若しくはネットワークアドレス、又はその前記収集データのファイル情報に対して、そこで公開される情報の信頼度を数値で表す情報源信頼度データベースを有し、該信頼度を素性として素性テーブルに含むと共に、
前記素性抽出ステップにおいて、前記素性抽出手段が、
該素性テーブルを参照して、該収集データに係る信頼度の数値を抽出する
ことを特徴とする請求項１２ないし１４のいずれかに記載の風評情報抽出方法。
前記風評情報抽出方法の前記データ収集ステップの後、前記機械学習判定ステップの前のいずれかの時点において、データ信頼度評価ステップを有し、
該データ信頼度評価ステップにおいて、
コンピュータのデータ信頼度値評価手段における評価用データ抽出部が、前記収集データと、該収集データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該収集データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出処理工程、
該収集データの信頼性を高める因子である積極因子と、該収集データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶部を備えておき、
データ信頼度値評価手段における評価用素性抽出部が、該因子を素性として、該評価用データから抽出する評価用素性抽出処理工程、
データ信頼度値評価手段における所定の機械学習モジュールを備えた評価用機械学習判定部が、該評価用素性抽出処理工程で抽出された素性を用い、学習結果記憶部に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う評価用機械学習判定処理工程、
を含んで評価用データの分類結果を、該収集データの信頼度として出力すると共に、
該機械学習判定ステップにおいて、該収集データの信頼度値を、前記素性抽出手段が抽出した素性と共に、前記機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得る
ことを特徴とする請求項１２ないし１５のいずれかに記載の風評情報抽出方法。
前記風評情報抽出方法において、
前記素性に風評情報を判定する対象である判定対象名詞を含む構成であって、前記素性抽出ステップの前に、
コンピュータの判定対象名詞抽出手段が、該判定対象名詞を、ネットワーク上の所定のサーバ装置又は、ユーザが指定したキーワードに基づいて所定の情報検索サーバ装置により抽出されたサーバ装置における情報から抽出する
ことを特徴とする請求項１２ないし１６のいずれかに記載の風評情報抽出方法。
前記風評情報抽出方法の前記データ収集ステップの後、前記機械学習判定ステップの前のいずれかの時点において、根拠情報確認ステップを有し、
コンピュータの根拠情報確認手段には、
信頼できる情報を公開しているサーバ装置の名称若しくはネットワークアドレス、又は該信頼できる情報のファイル情報の少なくともいずれかの根拠情報源を定義した根拠情報データベースを備えておき、
該根拠情報確認手段の類似判定部が、該根拠情報データベースに定義される根拠情報源から公開されているデータを取得し、前記収集データと話題が類似する類似データが含まれているか否かを判定する類似判定処理工程を含み、
該機械学習判定ステップにおいて、該類似判定部における判定結果を、前記素性抽出手段が抽出した素性と共に、前記機械学習判定手段に入力し、その収集データに対する風評情報か否かの判定結果を得る
ことを特徴とする請求項１３ないし１８のいずれかに記載の風評情報抽出方法。
前記風評情報抽出方法において、
コンピュータのクラスタリング処理手段が、
前記風評情報データ又は前記関連情報データの少なくともいずれかについて、
当該いずれかのデータに含まれる著作者又はコンテンツを、所定のクラスタリング式に従ってクラスタリング処理するクラスタリング処理ステップを含み、
前記出力ステップにおいて、
該クラスタリングされた状態の該風評情報データ又は該関連情報データの少なくともいずれか
を出力する
ことを特徴とする請求項１３ないし１８のいずれかに記載の風評情報抽出方法。
前記風評情報抽出方法において、
コンピュータのテキスト要約処理手段が、
前記風評情報データに含まれるテキストコンテンツを、要約処理するテキスト要約処理ステップを含み、
前記出力ステップにおいて、
該要約された状態の該風評情報データを出力する
ことを特徴とする請求項１３ないし１９のいずれかに記載の風評情報抽出方法。
前記風評情報抽出方法において、
コンピュータの機械翻訳処理手段が、前記素性、前記収集データ、風評情報データの少なくともいずれかを機械翻訳することにより、他言語で記載された風評情報を抽出する
ことを特徴とする請求項１３ないし２０のいずれかに記載の風評情報抽出方法。
ネットワーク上でデータを公開するサーバ装置又は、該データのファイル情報に対して、信頼度を数値で評価するコンピュータを用いたデータ信頼度値評価方法であって、
コンピュータの評価用データ抽出手段が、該データと、該データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出ステップ、
該データの信頼性を高める因子である積極因子と、該データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶手段を備えておき、
コンピュータの評価用素性抽出手段が、該因子を素性として、該評価用データから抽出する評価用素性抽出ステップ、
所定の機械学習モジュールを備えたコンピュータの評価用機械学習判定手段が、単数又は複数の素性を入力すると、学習結果記憶手段に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う評価用機械学習判定ステップ
を含み、該評価用素性抽出手段が抽出した素性を該評価用機械学習判定手段に入力して得られた評価用データの分類結果を、該データの信頼度として出力する
ことを特徴とする情報信頼度値評価方法。
所定の対象に対してネットワーク上で公開されている風評情報を抽出するようにコンピュータを動作させる風評情報抽出プログラムであって、
コンピュータのデータ収集手段が、ネットワーク上の単数又は複数のサーバ装置から公開されているデータを受信して収集データ記憶手段に各々収集データとして格納するデータ収集ステップ、
少なくとも素性となる単語又は単語の集合を含む素性テーブルを格納した素性テーブル記憶手段を備えておき、
コンピュータの素性抽出手段が、該素性テーブルを参照して、該収集データから素性を抽出する素性抽出ステップ、
所定の機械学習モジュールを備えたコンピュータの機械学習判定手段が、抽出された素性を用い、学習結果記憶手段に格納された機械学習結果データを参照して、所定の対象に対する風評情報か否かを判定する機械学習判定ステップ、
コンピュータの風評情報出力手段が、風評情報と判定された収集データの少なくとも一部、又はそれが公開されているサーバ装置の名称若しくはネットワークアドレス、又はその収集データのファイル情報、の少なくともいずれかを出力する風評情報出力ステップ
を含む風評情報抽出方法を実行処理させる
ことを特徴とする風評情報抽出プログラム。
ネットワーク上でデータを公開するサーバ装置又は、該データのファイル情報に対して、信頼度を数値で評価するようにコンピュータを動作させるデータ信頼度値評価プログラムであって、
コンピュータの評価用データ抽出手段が、該データと、該データの著作者、又は格納されるサーバ装置の名称若しくはネットワークアドレス、又は該データのファイル情報の少なくともいずれかが一致する評価用データをネットワーク上のサーバ装置、又は予め蓄積した評価用データベースから抽出する評価用データ抽出ステップ、
該データの信頼性を高める因子である積極因子と、該データの信頼性を低める因子である消極因子との少なくともいずれかの因子を格納する評価因子テーブル記憶手段を備えておき、
コンピュータの評価用素性抽出手段が、該因子を素性として、該評価用データから抽出する評価用素性抽出ステップ、
所定の機械学習モジュールを備えたコンピュータの評価用機械学習判定手段が、単数又は複数の素性を入力すると、学習結果記憶手段に格納された機械学習結果データを参照して、該評価用データの信頼度に応じた分類を行う評価用機械学習判定ステップ
を含み、該評価用素性抽出手段が抽出した素性を該評価用機械学習判定手段に入力して得られた評価用データの分類結果を、該データの信頼度として出力する情報信頼度値評価方法を実行処理させる
ことを特徴とする情報信頼度値評価プログラム。