JP2004070405A - Webページの風評情報抽出装置 - Google Patents

Webページの風評情報抽出装置 Download PDF

Info

Publication number
JP2004070405A
JP2004070405A JP2002224741A JP2002224741A JP2004070405A JP 2004070405 A JP2004070405 A JP 2004070405A JP 2002224741 A JP2002224741 A JP 2002224741A JP 2002224741 A JP2002224741 A JP 2002224741A JP 2004070405 A JP2004070405 A JP 2004070405A
Authority
JP
Japan
Prior art keywords
web page
evaluation
reputation
web
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002224741A
Other languages
English (en)
Inventor
Takeshi Higuchi
樋口 毅
Hitoshi Kamasaka
釜坂 等
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2002224741A priority Critical patent/JP2004070405A/ja
Publication of JP2004070405A publication Critical patent/JP2004070405A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】インターネット上のWebページから風評情報を精度よく抽出する。
【解決手段】インターネット上のWebページを取得・蓄積し、蓄積されたWebページを解析してブロック単位に分割し、このブロック単位ごとに所定のキーワードを含むか否かを判定して、キーワードを含む場合に前記所定のキーワードごとの風評情報を抽出し、各風評情報ごとの重み付けを行った上で、自社製品名と他社製品名のWebページ上の出現状況などに基づいて風評情報の重要度を算出する。
【選択図】     図1

Description

【0001】
【発明の属する技術分野】
この発明はインターネット上のWebページの風評情報抽出技術に関するものである。
【0002】
【従来の技術】
近年、インターネットの普及に伴い、Webページに代表される電子情報を容易に入手できるようになっているが、この電子情報の総量は非常に大きく、また今後も加速度的に増加していくことが一般に予想されている。これら膨大な量の電子情報の中からユーザが知りたい情報を検索するための手段として、Google(http://www.google.com)等の検索エンジンなどが知られている。これら検索エンジンによれば、ある製品に関する情報を抽出することは可能であるが、その情報が製品を批評しているものか、あるいは宣伝を行っているものか、といった分類までは行わない。したがって製品の評価情報を得るためには、結果的に検索エンジンにより得られたページの内容を人間が確認しなくてはならないという問題がある。
【0003】
このような問題を解決する従来技術として、例えば特開2001−155021による方法がある。図21は本従来技術の構成を示す図である。図において、1011は全体の処理の制御を行う制御部であって、1012は通信ネットワーク1004から情報を取得する情報取得部である。また1013は情報取得部1012が取得した情報を解析して単純文字列によるページに変換する情報解析部であって、1015は単純文字列によるページから批評表現を抽出する批評表現抽出部である。1018は単純文字列によるページに批評表現が存在する場合に類似度を計算する類似度算出部であって、1019は単純文字列によるページと計算した類似度を編集する計算結果編集部、1020は計算結果編集部1019の編集結果を出力する出力部である。
【0004】
次に本従来技術の動作について説明する。図22は本従来技術の動作を示すフローチャートである。ステップC1において、制御部1011は情報取得部1012にアクセスして、ステップC2において、情報取得部1012から一つの電子情報としてのページ(Webページ)が入力されると、ステップC3において、書式解析部1013はこのページ(Webページ)を通常の文書のページに変換した後、批評表現抽出部1015へ送出する。ステップC4において、批評表現抽出部1015はこの通常の文書のページから批評表現を抽出する。
【0005】
ステップC5において批評表現抽出部1015は、該当ページに批評表現が存在するか否かを判定し、存在しなければ(C5:N)、このページを破棄して、ステップC1に戻り、次のページの取得を開始する。該当ページに批評表現が存在すれば(C5:Y)、ステップC6において類似度算出部1018は、ユーザや検索依頼者が指定する消費者や世間の批評を調査する対象となる各テーマの発生数や発生の重要度を示す類似度を得る。そして、ステップC7において、該当ページと類似度とを記憶保持する。
【0006】
ステップC2において、取得対象の全部のページに対する批評表現の判定処理、及び批評表現が含まれるページの類似度算出処理が終了すると、ステップC8において記憶した全てのページと類似度とを検索結果編集部1019へ送出する。そして、ステップC9において、その編集された検索結果を出力部1020へ送出する。
【0007】
【発明が解決しようとする課題】
しかしながら、上述した方法においても以下のような問題がある。すなわち、批評表現を含むページのみを対象としているため、そのテーマとは異なる視点の評価を行うためには、別に検索を行う必要がある。また所定のURL(Universal Resource Location)を指定して周期的な収集を行うため、指定したURL外の情報を取得することができず、特に新規Webサイト上の情報を取得することができない。さらに、HTMLタグをすべて除去して単純文字列に変換しており、HTMLによる構造情報を用いていないため、本当にその製品の批評情報か否かを正確に判断できない場合がある。またすべてのテーマに一つの批評辞書を適用するため、テーマによっては批評表現にならないものも批評表現と判断してしまう場合がある。
【0008】
本発明は、Webページ間のリンクを辿って電子情報の収集を行うことにより、新規Webサイト上の情報をも取得することができ、電子情報の蓄積を行うことにより、過去の情報との比較も可能である。また新規Webサイトの検出、過去の情報との比較を組み合わせることによって、新規、削除、変更の情報をあわせて通知、表示することができる。また、Webページの構造に基づいて、風評表現を抽出することから、精度の高い評価情報の抽出が可能である。また、カテゴリごとに辞書を保有する構成とし、それぞれのカテゴリごとに良い、悪いの分類を行っていることから、製品ごとの評価の精度を向上することができる。なおここで風評表現とは、良い・悪いなどの批評表現及びユーザの関心や興味を示す表現を含むものであり、評価の対象は製品に限らず世の中の事件や人物なども含まれる。
【0009】
【課題を解決するための手段】
本発明は、インターネット上のWebページを取得するWebページ収集手段と、前記Webページ収集手段によって取得したWebページを蓄積するWebページ蓄積手段と、前記Webページ蓄積手段により蓄積されたWebページから所定のキーワードを含む処理対象Webページを選択するWebページ選択手段と、前記処理対象Webページをその構造に従ってブロックに分割するWebページ解析手段と、前記所定のキーワードに対応する風評表現を前記ブロックから抽出しこの風評表現に基づく前記処理対象Webページの評価分類結果を生成する評価分類手段と、前記評価分類結果を出力する出力手段とを備えたものである。
【0010】
また本発明は、前記Webページ収集手段が、一のWebページが有する他のWebページへのリンク情報を辿ることによりインターネット上のWebページを順次取得するものである。
【0011】
また本発明は、前記Webページ収集手段が、所定のWebページのURLを指定することによりこのWebページを除外してインターネット上のWebページを取得する構成とされたものである。
【0012】
また本発明は、前記Webページ収集手段が、所定の周期ごとにインターネット上のWebページを取得し、前記Webページ選択手段は、前記周期ごとにWebページを選択する構成とされたものである。
【0013】
また本発明は、前記Webページ選択手段が、前記Webページ蓄積手段により同一時期に蓄積されたWebページの集合と、前記Webページ蓄積手段により前記時期とは異なる時期に蓄積Webページの集合とを比較照合し、この両時期間において新たに追加されたWebページと削除されたWebページと内容が変更されたWebページの中から所定のキーワードを含むWebページを選択する構成とされたものである。
【0014】
また本発明は、前記Webページ選択手段が、さらに前記所定のキーワードに対応する同義語を含むWebページを選択する構成とされたものである。
【0015】
また本発明は、前記Webページ解析手段が、ブロックの開始を識別するHTMLタグとブロックの終了を識別するHTMLタグとブロックの区切りとなるHTMLタグとから成るブロック化制御リストを備え、このブロック化制御リストに基づいて前記処理対象Webページをブロック化する構成とされたものである。
【0016】
また本発明は、前記評価分類手段が、前記所定のキーワード毎に対応する複数の風評表現を記憶する風評表現リストを備え、この風評表現リストの各風評表現を前記ブロックから抽出する構成とされたものである。
【0017】
また本発明は、前記風評表現リストが、前記所定のキーワードに対して良い評価を行っていることを表す風評表現と悪い評価を行っていることを表す風評表現とを記憶し、前記評価分類手段が、前記処理対象Webページを良い評価を行っているWebページと悪い評価を行っているWebページとに分類する構成とされたものである。
【0018】
また本発明は、前記Webページ選択手段が、自社製品名と他社製品名とを前記所定のキーワードとし、前記評価分類手段が、前記所定のキーワードのうち前記他社製品名のみが出現する前記ブロックを検出して自社製品に関する所定の風評情報に基づく前記処理対象Webページの評価分類結果を生成する構成とされたものである。
【0019】
また本発明は、前記評価分類手段が、前記Webページにおける自社製品名と他社製品名の出現位置を検出して前記処理対象Webページが自社製品に関する所定の風評情報に基づく前記処理対象Webページの評価分類結果を生成する構成とされたものである。
【0020】
また本発明は、前記評価分類手段が、前記処理対象Webページに対して前記Webページ蓄積手段が蓄積しているWebページから張られているリンクの数を算出し、前記リンクの数に基づいて前記処理対象Webページの評価分類結果の重要度を算出する構成とされたものである。
【0021】
また本発明は、前記風評表現リストが、前記複数の風評表現とともに各風評表現の重み付けを記憶し、前記評価分類手段が、前記各風評表現の重み付けに基づいて前記処理対象Webページの評価分類結果の重要度を算出する構成とされたものである。
【0022】
また本発明は、前記評価分類手段が、商用Web検索エンジンを用いて所定のキーワードにより検索した結果のランキング情報に基づいて前記処理対象Webページの評価分類結果の重要度を算出する構成とされたものである。
【0023】
また本発明は、前記出力手段が、ユーザに前記評価分類結果を通知する通知手段と、前記評価分類結果を有するWebページへのリンクを含むWeb参照可能な画面を生成する表示手段とを備える構成とされたものである。
【0024】
【発明の実施の形態】
実施の形態1.
図1は本発明の実施の形態1を示す構成図である。図において、1は本発明に係るWebページの風評情報抽出装置であって、2はユーザとの間で通信を行う通信手段であり、3はインターネット上のWebページを収集するWebページ収集手段である。4はWebページ収集手段3によって収集されたWebページを蓄積するWebページ蓄積手段であって、5は所定のキーワード群を含むWebページを抽出するキーワード分類手段であり、6はキーワード分類手段5によって抽出されたキーワードを含むWebページに対しHTMLタグ情報に基づいてブロック化するWebページ解析手段である。7はWebページ解析手段6によってブロック化された各ブロックの内容を評価する評価分類手段であり、8は評価分析手段7によって分類されたページ群のページ数や、各ページ群に頻出する語句の抽出などを行い、それぞれのページを分類する分析手段であって、9は分類手段8によって得られた情報を通知先に分類する通知手段である。10は分析手段8によって得られた情報と評価分類手段7で得られた情報をユーザに表示する表示手段であって、11はWebページ蓄積手段3によって収集されたWebページを格納するWebページ格納部である。Webページ格納部11は、格納しているWebページを時期を指定して取り出すことや最新のWebページを取り出すことを可能とするために、収集したタイミング毎にWebページを格納するものである。
【0025】
12は通信手段2によって得られたユーザからの情報や、収集実績等、ユーザごとの情報を格納するユーザ制御リストである。またユーザ制御リスト12に記載されている通知先に基づいて、通知手段9は通知を行う。13はユーザから指定されたキーワードが別の表現を有する場合にその表現を格納するキーワード対応リストである。製品には、一般的な名称の他に型番等が存在するため、キーワード対応リスト13は、そのどちらが表記されていても検索できるようにするものである。キーワード対応リスト13に格納されているキーワードとユーザ制御リスト12に格納されているキーワードに基づいて、キーワード分類手段5はWebページ格納部11に格納されている最新のWebページから、Webページを抽出する。
【0026】
14はWebページ解析手段6がWebページをブロック部に分割する際に使用するタグの一覧を格納するブロック化制御リストである。WebページはHTML等の構造化文書で記載されており、タグとは、Webページの構造を定義するための情報である。15は風評表現とその重み付け情報を格納する風評表現リストである。風評表現リスト15は、検索対象となるWebページのカテゴリ間で共通に使用することのできる悪い風評表現と、良い風評表現、各カテゴリごとの悪い風評表現と、良い風評表現を有している。風評表現を、悪い批評表現と良い批評表現に分けることにより、そのWebページが単純な批評ページである、という判断だけではなく、良い批評あるいは悪い批評を行っているWebページであるか否かまで判断することが可能となる。また、風評表現リスト15は、カテゴリごとに風評表現リストを持つこととしている。これは、例えば「暖まる」という語句はクーラーボックスにとっては悪い表現であるが、ファンヒーターにとっては良い表現であるといったように、カテゴリによって異なる批評表現が用いられることに対応するものである。16はユーザとの間の通信やWebページの収集を行うインターネットであり、17はユーザが使用する端末である。
【0027】
次に本実施の形態における処理について説明する。図9は本実施の形態のうち、Webページ収集とWebページの蓄積の処理を示すフローチャートである。ステップS101においてWebページ収集手段3は、Webページの収集を行う。ステップS102においてWebページ蓄積手段4は、Webページ収集手段によって収集されたWebページのURLとその内容をWebページ格納部11に格納する。Webページ格納部11は、過去に収集したWebページ群をすべて世代管理により蓄積している。
【0028】
ステップS103においてWebページ収集手段3は、収集すべきWebページが存在するかどうかをチェックする。これはすでに収集したWebページに他のWebページへのリンクが含まれているか否か及びそのリンク先のWebページをすでに収集したか否かによって判断する。まだ未収集のWebページが存在する場合には、ステップS101より再度収集処理を繰り返す。またそのようなWebページが存在しない場合には、終了する。
【0029】
次に本実施の形態におけるキーワードごとの分類処理について説明する。図10はキーワードごとの分類処理を示すフローチャートである。ユーザから通知手段2を介してある製品についての分析依頼があると、キーワード分類手段5は、Webページ格納部11から最新のWebページ群を取り出して、Webページの読み込みを行う。ステップS111においてキーワード分類手段5は、Webページ格納部11に読み込むべきWebページが存在するかどうかをチェックする。Webページ格納部11に未処理のWebページが存在する場合には、ステップS112を実行する。また未処理のWebページが存在していない場合は処理を終了する。
【0030】
次にステップS112においてキーワード分類手段5は、Webページ格納部11からWebページの読み込みを行う。ステップS113において、キーワード分類手段5は、現在読み込んでいるWebページにユーザ制御リスト12に格納されているキーワード、並びにそのキーワードに対応する語句がキーワード対応リスト13に格納されていればそのキーワードがWebページに含まれているか否かを判定する。
【0031】
ここで図2はユーザ制御リスト12の例である。12−1はユーザを識別するために用いるユーザIDである。本実施の形態では、各ユーザを5桁の数値で表現しているが、ユーザを識別できる情報でさえあれば、他の表現方法を用いることもできる。12−2はユーザが検索を希望するキーワードである。キーワード12−2は各レコードごとに複数個指定することが可能である。12−3はユーザが検索を希望する製品種別などのカテゴリである。12−4はWebページの収集対象となるURLを指定する収集URLである。収集URL12−4を指定すると、そのURLのWebサイトのみからWebページを収集する。またこのURLは複数指定することが可能である。さらにこのURLを空白とすることも可能で、その場合にはアクセスしたサイトのリンクを辿って次のサイトにアクセスすることにより、可能な限り多くのWebページを収集する。12−5はWebページを収集する必要のないWebサイトのURLを指定する非収集URLである。収集する必要のないURLが存在しない場合には、ここは例えば空白となる。12−6は定期的に抽出結果を通知するための通知周期である。通知周期12−6に指定した周期毎に情報の抽出、分析を行い、ユーザに通知が行われる。周期的に行う必要がない場合は、ここは例えば空白となる。12−7は通知手段9が通知を行った日時を記録する前回通知日時である。キーワード分類手段5は、この前回通知日時12−7と通知周期12−6の内容を参照し、次に評価、分析を行う時期を求めて、その時期が来たら、分析作業を開始する。まだ、一度も通知していなければ、ここは例えば空白となる。12−8は、ユーザが過去の情報を分析する必要がある場合に指定する過去比較日時である。キーワード分類手段5は、この内容を参照し、Webページ格納部11からその時期に最も近い時期の情報を取り出し、分析作業を開始する。過去の情報の分析依頼がなければ、ここは例えば空白となる。12−9は抽出結果の通知先である。
【0032】
ステップS113においてキーワード分類手段5は、ユーザ制御リスト12に格納されているキーワード、並びにそのキーワードに対応する語句がキーワード対応リスト13に格納されていれば、現在読み込んでいるWebページにそのキーワードが含まれているかどうかを調べる。ここで図3はキーワード対応リスト13の例である。13−1はユーザが指定したキーワード名である。ただし、対応するキーワードが存在しない場合にはここには記載されない。13−2はキーワード名13−1の代替表現となる同義語である。Webページ中にキーワード名13−1の代わりの表現として用いられる表現が格納される。また同義語13−2は複数指定することも可能である。キーワードを含んでいなければ、ステップ111に戻る(S113:No)。キーワードを含んでいれば、ステップ114を実行する(S113:Yes)。
【0033】
ステップS114においてキーワード分類手段5は、現在読み込んでいるWebページが含むキーワードに応じて、Webページの分類を行う。図12にステップS114による分類結果の例を示す。なお、例えばキーワード1がキーワード対応リスト13に含まれており、かつキーワード1の同義語がWebページに存在する場合は、このWebページはキーワード1を含んでいるものとみなす。
【0034】
次にWebページの抽出及び分析処理について説明する。図11は、Webページの抽出及び分析処理を示したフローチャートである。ステップS121においてWebページ解析手段6は、キーワード分類手段5によって分類されたWebページを順に読み込む。ステップS122においてWebページ解析手段6は、読み込んだWebページをブロック化制御リスト14の内容にしたがってブロック化を行う。このブロック化は入れ子構造も意識したタグの対応付けを行い、各ブロックの内容を取り出すものである。
【0035】
図4はブロック化制御リスト14の例である。14−1はHTML文書のブロック開始を識別する開始タグである。また14−2はHTML文書のブロック終了位置を識別する終了タグである。HTMLタグには、例えば<TABLE>と</TABLE>のように開始タグと終了タグとが対になるものと、<HR>のように他のタグとは対にならず、単独で出現するものがある。そこで、単独で存在するタグを表現する場合には、開始タグ14−1と終了タグ14−2の双方にそのタグ文字列を設定することとして、開始タグと終了タグの対ではないことが分かるようにする。
【0036】
ステップS123において評価分類手段7は、Webページ解析手段6によってブロック化された各ブロックの内容を順に読み込み、ブロックごとにキーワードと風評表現を検索する。ここで、検索対象であるブロック内にキーワードと風評表現の両方が含まれている場合にのみ、そのキーワードに関する風評表現を含んだページと判断する。例えば、キーワードとして××を設定し、風評表現リスト15に「悪い」が設定されていた場合に、図13に示したWebページをそのブロック構造を考慮せずに評価すると、このページは両方のキーワードを含んでいるため、××に関して悪い評価を行っているページと判断されることになる。しかし図13のWebページは××に関する評価を含むページではなく、また横線で区切られているため、人間の目によれば××に関しては何の評価も行っていないページだということが理解できるものである。本実施の形態は、ブロック化制御リスト14において横線を表す<HR>を定義し、これに基づいてブロック化を行うことで、××を含んだブロックには風評表現が含まれていないと判断できる。図14は、図13のページのHTMLソースである。ここからも明らかなように、「XX」を含む行と「悪い」を含む行は<HR>によって隔てられている。評価分類手段7はこのようにタグによりHTMLソースをブロックに分類して、ブロック毎にキーワードと風評表現リストを評価するものである。
【0037】
ステップS124においてすべてのブロックについての検索が完了したかどうかを判定する。すべてのブロックについての検索が完了している場合(ステップS124:Yes)は、S125を実行する。また完了していない場合は、S123を実行する。
【0038】
ステップS125において評価分類手段7は、すべてのブロックの検索結果を評価し、分類を行う。例えば、キーワードとして自社の製品と他社の製品を全部で5つ並べてある状態で、あるブロックに自社以外の4つの他社の製品については記載されているが、自社の製品については何も記載されていないページがある場合には、自社の製品についてのみ取り上げられていないという観点から自社の製品について悪い評価を行っているページと判断することが可能である。また、テーブル構造の際、自社の製品が一番左にあれば(<TABLE>〜</TABLE>によるブロック内で最初に出現した場合)自社製品について良い評価を行っているページとし、一番右にあれば(<TABLE>〜</TABLE>によるブロック内で最後に出現した場合)悪い評価のページであるなどの判断も可能である。
【0039】
ステップS126において評価分類手段7は、分類を行いながら同時に重要度の評価も行う。ここで重要度とは、例えばページの被リンク数や、そのページをリンクしているページの被リンク数、キーワードの重み付けの点数、検索エンジンのランキングなどのいずれかの情報に基づいて、あるいはこれらの組み合わせることにより決定される。図15は評価分類手段7の分類結果である。ここではキーワード1がキーワード対応リスト13に含まれており、その同義語がWebページに含まれている場合には、キーワード1が含まれているものとみなしている。また図15においてURLとともに表記されている数値は、重要度を表す値である。
【0040】
ここで本実施の形態では、風評表現をすべてのページ共通の悪い批評表現、すべてのページ共通の良い批評表現、あるカテゴリのページ共通の悪い批評表現、あるカテゴリのページ共通の良い批評表現に分類して保持することとする。図5はすべてのページに共通に使用可能な悪い風評表現のリストの例を示すものである。例えば「不良」や「悪い」といった語は、カテゴリによっては良い意味に用いられる、というようなことは考えられないので、すべてのページに共通に使用可能な悪い風評表現に分類できる。また図6はすべてのページに共通に使用可能な良い風評表現のリストの例を示すものである。例えば「よい」や「素晴らしい」といった語は、カテゴリによっては悪い意味に用いられる、というようなことは考えられない。また図7はあるカテゴリのページに共通に使用可能な悪い風評表現のリストの例を示すものである。また図8はあるカテゴリのページに共通に使用可能な良い風評表現のリストの例を示すものである。図5から図8において15−1が風評表現であって、15−2はその表現がどれくらい重要かを表わす重み付けである。これを指定することにより、同じように悪い表現を含んでいるページであっても、その内容の重要度が異なる場合であっても対応できるようになっている。
【0041】
ステップS127において評価分類手段7は、すべてのWebページの評価が完了したかどうかを判定する。すべて完了している場合(S127:Yes)は、S128を実行する。また評価が完了していない場合(S127:No)は、ステップS121を実行する。
【0042】
ステップS128において分析手段8は、評価分類手段7が分類した結果に基づいてページ数や重要度を評価する。ここでは、例えば各分類のページ数の集計や、キーワード1だけに視点を絞ったページ数の集計、全体のページ数やキーワードでマッチした件数との関係などを行う。また、重要度に応じた表示の際のソートや重要度がある閾値以上のページ数なども分析する。さらに、各分類に分類されたページに語句の出現頻度から、需要者がどんな項目に興味を持っているかを判断することもできる。例えば、検索に携帯電話の製品をキーワードとして並べた場合、A社の良い評価のページには音質という語句が頻出しており、B社の良い評価のページには画質という語句が頻出しているといったことがわかれば、A社の携帯電話は音質に関して良い評価を受けており、B社の携帯電話は画質に関して良い評価を受けているといったことがわかる。このような内容の抽出も行う。
【0043】
ステップS129において通知手段9は、ユーザ制御リスト12に記載されている通知先12−9に分析手段8による分析結果を通知する。図16に通知される分析結果の例を示す。またステップS130において表示手段10は、Webによる閲覧が可能な形式で詳細情報を出力し、さらに各分類結果にこれらのページへのリンクを貼る。以上よりユーザは通知手段9による通知から分析結果を知ることができ、通知から分析結果の詳細情報を参照することができ、さらにWebを介して詳細情報を参照し、必要に応じて各Webページを確認することができる。
【0044】
以上のように本実施の形態では、ブロック単位でキーワードの抽出を行うことにより、ブロック構造を考慮しないキーワードに基づくWebページ評価手法に比べて精度の高い評価を行うことができる。
【0045】
またWebページ内のリンクを辿って他のWebページを順次取得することにより、リンクを介してアクセス可能なすべてのWebページを評価することができ、さらに新しく出現したWebサイト上のWebページを評価対象とすることもできる一方で、指定したURLによるWebサイトのみを評価対象としたり、特定のURLを評価の対象から除外することもできる。
【0046】
またWebページの収集、蓄積を行うので、ユーザの分析要求が発生してから分析結果を出力するまでの処理を高速に実行することができる。またユーザ制御リスト12においてユーザに対応した分析を行うための情報を保持することとしたので、パーソナライズの実現が可能である。
【0047】
またキーワードごとに同義語を持たせることとしたので、同義語を含むWebページをそのキーワードを含むWebページと判断することで、多様な風評表現に対応することができる一方で、キーワードの出現頻度を精度よく算出することができる。
【0048】
また風評表現リストをカテゴリごとに分け、それぞれに良い表現、悪い表現を定義できるようにしたので、単にキーワードに対する批評を含むページという判断のみでなく、良い評価を行っているページか悪い評価を行っているページかを判断することが可能であり、またあるカテゴリでは悪い評価となる語(例.エアコンに対する「暖まる」など)が別のカテゴリでは良い評価となる語(ファンヒーターに対する「暖まる」など)である場合にも、精度よい評価が可能である。
【0049】
また重要度や出現頻度の算出を行うこととしたので、そのページのキーワードに対する評価の厳しさを知る指標とすることができ、また他社製品との比較や自社の強み、弱みなどを知る手がかりを得ることができる。
【0050】
実施の形態2.
実施の形態1は、ユーザからの要求があった場合に、その内容について評価、分析を行う例であったのに対し、本実施の形態は、周期的に評価、分析を行う。この際、最新のWebページ群に対する処理は実施形態1と同じであるため、実施形態1にはない比較処理の部分についてのみ説明する。
【0051】
図18はこの発明の実施の形態2を示す構成図である。図において、21は前回調査の評価結果と比較を行うWebページ比較手段である。Webページ比較手段21は、前回調査においてキーワード分類手段5によって得られたキーワードを含むWebページ群と、今回の調査においてキーワード分類手段5によって得られたキーワードを含むWebページ群の内容を比較し、今回新規に出現したWebページ、あるいは内容に変更があり、キーワードを新規に含むようになったWebページ、前回はあったが今回削除された、あるいは前回はキーワードを含んでいたが内容に変更があり、キーワードを含む部分が削除されたWebページ、ともにキーワードを含んでいるが内容が変更になったWebページを抽出するものである。なお本実施の形態において、実施形態1と同じ符号を付している構成要素については実施形態1と同じであるため、説明を省略する。
【0052】
次に、本実施の形態における処理について説明する。まず周期的に行う評価・分析処理について説明する。図19は、周期的に行う評価・分析処理を示すフローチャートである。ステップS201においてキーワード分類手段5は、ユーザ制御リスト12の前回通知日時12−7と通知周期12−6の内容から、通知しなければならないユーザが存在することを認識すると、最新のWebページ群に対して実施形態1で説明した分析処理をを行う。ステップS202においてWebページ比較手段21は、前回のキーワードを含んだページと今回のキーワードを含んだページを比較し、変化があったWebページを取り出して、そのWebページ群に対して実施形態1の分析までの処理を開始する。ステップS203において、通知手段9は、今回の分析結果と差分に対する分析結果とをユーザに通知する。
【0053】
次に、Webページ比較手段21の比較処理について説明する。図20は周期的な評価・分析処理における、その期間内の変化分を求めるためにWebページの選択を行う処理のフローチャートである。ステップS211において、Webページ比較手段21は、前回通知時のキーワードを含んだWebページの一覧を読み込む。続いてステップS212において、今回評価・分析を行うキーワードを含んだWebページの一覧を読み込む。ステップS213において前回と今回のWebページの一覧を比較し、今回のWebページ一覧にしか存在しないWebページを新規Webページとして抽出する。ここで抽出されるWebページには、この周期の間に新規に現れたWebページ、あるいはWebページとしては以前から存在していたが、内容の変更によって指定したキーワードを新たに含むこととなったWebページが含まれる。
【0054】
次に、ステップS214において前回と今回のWebページの一覧を比較し、前回のWebページ一覧にしか存在しないWebページを削除されたWebページとして抽出する。ここで抽出されるWebページには、この周期の間に削除されたWebページ、あるいはWebページとしては現在も存在しているが、内容の変更によって指定したキーワードを含まないこととなったWebページが含まれる。
【0055】
最後に、ステップS215において前回と今回のWebページの一覧を比較し、双方の一覧に存在するWebページのうち、変更があったWebページを抽出する。この中には、キーワードを含んだまま変更があったWebページが含まれる。
【0056】
なお上述した前回調査との差分を求める方法と同様に、数周期前の調査と現在の周期との調査の差分を求めることも可能である。この場合には、指定された時期のWebページの評価・分析を実施し、さらに今回のWebページの評価・分析を実施した上で、その比較処理を実現することができる。
【0057】
以上のように本実施の形態では、評価対象となるWebページの収集、蓄積を行っているため、過去の情報に遡って評価・分析を行うことができる。また周期的に調査・分析を行うこととしたので、その製品が現在において話題になっているのか、あるいは、すでに落ち着いてしまったものであるかといった分析を行うこともできる。
【0058】
【発明の効果】
本発明によるWebページの風評情報抽出装置は、収集したWebページを蓄積しているため、ユーザの要求が発生してからWebページの評価を出力するまでの処理を高速に実行することができ、またWebページの構造に基づいて評価情報を抽出するため、精度の高い評価情報を提供することができる。
【0059】
また本発明によるWebページの風評情報抽出装置は、一のWebページが有する他のWebページへのリンク情報を辿ることによりインターネット上のWebページを順次取得する構成としたので、新規に追加されたWebサイト上のWebページを取得することができる。
【0060】
また本発明によるWebページの風評情報抽出装置は、所定のURLを指定することによってこのURLによるWebページの取得を除外する構成としたので、不必要なWebページの取得を抑制することができる。
【0061】
また本発明によるWebページの風評情報抽出装置は、所定の周期ごとにインターネット上のWebページを取得し、また評価・分類についても所定の周期ごとに行う構成とされたので、ユーザは最新の評価情報を短時間を取得できる。
【0062】
また本発明によるWebページの風評情報抽出装置は、複数の時期に収集されたWebページの差分によって、この間に新規に追加されたWebページや削除されたWebページ、内容が変更されたWebページの評価・分類を行う構成とされたので、ユーザはインターネット上の評価情報の変動を知得することができる。
【0063】
また本発明によるWebページの風評情報抽出装置は、所定のキーワードに加えてその同義語に基づいてWebページを選択する構成としたので、製品名だけでなく型番などによって表記されている風評情報を精度よく解析することができる。
【0064】
また本発明によるWebページの風評情報抽出装置は、HTMLタグに基づいてWebページの構造を解析する構成としたので、単純テキスト検索では風評情報とみなされるWebページを風評情報とはみなさないため、誤認識を防止して精度の高い評価情報の抽出を行うことができる。
【0065】
また本発明によるWebページの風評情報抽出装置は、所定のキーワード毎に複数の風評情報を記憶する構成としたので、それぞれのキーワードに対して多角的な評価情報抽出を行うことができる。
【0066】
また本発明によるWebページの風評情報抽出装置は、所定のキーワードに対して良い評価を行っていることを表す風評表現と悪い評価を行っていることを表す風評表現とを記憶し、Webページを良い評価を行っているWebページと悪い評価を行っているWebページとに分類する構成としたので、ユーザはWebページの内容を確認することなく各製品の評価情報の内容を知ることができる。
【0067】
また本発明によるWebページの風評情報抽出装置は、自社製品名と同時に他社製品名をもキーワードとしてWebページを選択し、他社製品名のみがWebページに出現する場合にこのWebページを自社製品に関して悪い評価を行っているWebページに分類する構成としたので、自社製品名がWebページに出現しなくても自社製品の相対的な評価を取得することができる。
【0068】
また本発明によるWebページの風評情報抽出装置は、Webページにおける自社製品名と他社製品名の出現位置に基づいてこのWebページが自社製品に関して良い評価と悪い評価を行っているWebページに分類する構成としたので、自社製品に関する風評が明示的にWebページに記載されていなくても自社製品の相対的な評価を取得することができる。
【0069】
また本発明によるWebページの風評情報抽出装置は、Webページに対して張られているリンクの数を算出し、このリンク数に基づいて重要度を算出する構成としたので、特に重視すべき評価情報を知得することができる。
【0070】
また本発明によるWebページの風評情報抽出装置は、風評表現とともに各風評表現の重み付けを記憶し、この重み付けに基づいてWebページの評価分類結果の重要度を算出する構成としたので、特に重視すべき評価情報を知得することができる。
【0071】
また本発明によるWebページの風評情報抽出装置は、商用Web検索エンジンを用いて所定のキーワードにより検索した結果のランキング情報に基づいてWebページの評価分類結果の重要度を算出する構成としたので、特に重視すべき評価情報を知得することができる。
【0072】
また本発明によるWebページの風評情報抽出装置は、ユーザに評価分類結果を通知する通知手段と、評価分類結果を有するWebページへのリンクを含むWeb参照可能な画面を生成する表示手段とを備えたので、評価分類結果が算出されたごとにユーザはその結果を知得することができ、かつ必要に応じてWebページの内容を確認することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1の構成図である。
【図2】本発明の実施の形態1のユーザ制御リストを示す図である。
【図3】本発明の実施の形態1のキーワード対応リストを示す図である。
【図4】本発明の実施の形態1のブロック化制御リストを示す図である。
【図5】本発明の実施の形態1の風評表現リストを示す図である。
【図6】本発明の実施の形態1の風評表現リストを示す図である。
【図7】本発明の実施の形態1の風評表現リストを示す図である。
【図8】本発明の実施の形態1の風評表現リストを示す図である。
【図9】本発明の実施の形態1のWebページの収集・蓄積処理のフローチャートである。
【図10】本発明の実施の形態1のキーワードごとの分類処理のフローチャートである。
【図11】本発明の実施の形態1のWebページの抽出・分析処理のフローチャートである。
【図12】本発明の実施の形態1のキーワード分類手段の分類例を示す図である。
【図13】本発明の実施の形態1においてブロック化が必要なWebページを示す図である。
【図14】本発明の実施の形態1におけるWebページのソースを示す図である。
【図15】本発明の実施の形態1における評価分類手段の分類例を示す図である。
【図16】本発明の実施の形態1における通知結果を示す図である。
【図17】本発明の実施の形態1における処理結果を示す図である。
【図18】本発明の実施の形態2の構成図である。
【図19】本発明の実施の形態2全体の処理のフローチャートである。
【図20】本発明の実施の形態2の比較処理のフローチャートである。
【図21】従来例の概略を示す構成図である。
【図22】従来例の制御部の処理のフローチャートである
【符号の説明】
1:Webページの製品情報抽出装置 2:通信手段
3:Webページ収集手段 4:Webページ蓄積手段
5:キーワード分析手段 6:Webページ解析手段 7:評価分類手段
8:分析手段 9:通知手段 10:表示手段 11:Webページ格納部
12:ユーザ制御リスト 12−1:ユーザID 12−2:キーワード
12−3:カテゴリ 12−4:収集URL 12−5:非収集URL
12−6:通知周期 12−7:前回通知日時 12−8:過去比較日時
12−9:通知先
13:キーワード対応リスト 13−1:キーワード名 13−2:同義語
14:ブロック化制御リスト 14−1:開始タグ 14−2:終了タグ
15:風評表現リスト 15−1:表現 15−2:重み
16:インターネット 17:ユーザ端末 21:Webページ比較手段

Claims (15)

  1. インターネット上のWebページを取得するWebページ収集手段と、
    前記Webページ収集手段によって取得したWebページを蓄積するWebページ蓄積手段と、
    前記Webページ蓄積手段により蓄積されたWebページから所定のキーワードを含む処理対象Webページを選択するWebページ選択手段と、
    前記処理対象Webページをその構造に従ってブロックに分割するWebページ解析手段と、
    前記所定のキーワードに対応する風評表現を前記ブロックから抽出しこの風評表現に基づく前記処理対象Webページの評価分類結果を生成する評価分類手段と、
    前記評価分類結果を出力する出力手段とを備えることを特徴とするWebぺージの風評情報抽出装置。
  2. 前記Webページ収集手段は、一のWebページが有する他のWebページへのリンク情報を辿ることによりインターネット上のWebページを順次取得する構成とされたことを特徴とする請求項1に記載されたWebページの風評情報抽出装置。
  3. 前記Webページ収集手段は、所定のWebページのURLを指定することによりこのWebページを除外してインターネット上のWebページを取得する構成とされたことを特徴とする請求項1に記載されたWebページの風評情報抽出装置。
  4. 前記Webページ収集手段は、所定の周期ごとにインターネット上のWebページを取得し、
    前記Webページ選択手段は、前記周期ごとにWebページを選択する構成とされたことを特徴とする請求項1乃至3のいずれか一に記載されたWebページの風評情報抽出装置。
  5. 前記Webページ選択手段は、前記Webページ蓄積手段により同一時期に蓄積されたWebページの集合と、前記Webページ蓄積手段により前記時期とは異なる時期に蓄積Webページの集合とを比較照合し、この両時期間において新たに追加されたWebページと削除されたWebページと内容が変更されたWebページの中から所定のキーワードを含むWebページを選択する構成とされたことを特徴とする請求項4に記載されたWebページの風評情報抽出装置。
  6. 前記Webページ選択手段は、さらに前記所定のキーワードに対応する同義語を含むWebページを選択する構成とされたことを特徴とする請求項1乃至5のいずれか一に記載されたWebページの風評情報抽出装置。
  7. 前記Webページ解析手段は、ブロックの開始を識別するHTMLタグとブロックの終了を識別するHTMLタグとブロックの区切りとなるHTMLタグとから成るブロック化制御リストを備え、このブロック化制御リストに基づいて前記処理対象Webページをブロック化する構成とされたことを特徴とする請求項1乃至6のいずれか一に記載されたWebページの風評情報抽出装置。
  8. 前記評価分類手段は、前記所定のキーワード毎に対応する複数の風評表現を記憶する風評表現リストを備え、この風評表現リストの各風評表現を前記ブロックから抽出する構成とされたことを特徴とする請求項1乃至7のいずれか一に記載されたWebページの風評情報抽出装置。
  9. 前記風評表現リストは、前記所定のキーワードに対して良い評価を行っていることを表す風評表現と悪い評価を行っていることを表す風評表現とを記憶し、前記評価分類手段は、前記処理対象Webページを良い評価を行っているWebページと悪い評価を行っているWebページとに分類する構成とされたことを特徴とする請求項8に記載されたWebページの風評情報抽出装置。
  10. 前記Webページ選択手段は、自社製品名と他社製品名とを前記所定のキーワードとし、
    前記評価分類手段は、前記所定のキーワードのうち前記他社製品名のみが出現する前記ブロックを検出して自社製品に関する所定の風評情報に基づく前記処理対象Webページの評価分類結果を生成する構成とされたことを特徴とする請求項1乃至9のいずれか一に記載されたWebページの風評情報抽出装置。
  11. 前記評価分類手段は、前記Webページにおける自社製品名と他社製品名の出現位置を検出して前記処理対象Webページが自社製品に関する所定の風評情報に基づく前記処理対象Webページの評価分類結果を生成する構成とされたことを特徴とする請求項10に記載されたWebページの風評情報抽出装置。
  12. 前記評価分類手段は、前記処理対象Webページに対して前記Webページ蓄積手段が蓄積しているWebページから張られているリンクの数を算出し、前記リンクの数に基づいて前記処理対象Webページの評価分類結果の重要度を算出する構成とされたことを特徴とする請求項1乃至11のいずれか一に記載されたWebページの風評情報抽出装置。
  13. 前記風評表現リストは、前記複数の風評表現とともに各風評表現の重み付けを記憶し、前記評価分類手段は、前記各風評表現の重み付けに基づいて前記処理対象Webページの評価分類結果の重要度を算出する構成とされたことを特徴とする請求項8に記載されたWebページの風評情報抽出装置。
  14. 前記評価分類手段は、商用Web検索エンジンを用いて所定のキーワードにより検索した結果のランキング情報に基づいて前記処理対象Webページの評価分類結果の重要度を算出する構成とされたことを特徴とする請求項1乃至13のいずれか一に記載されたWebページの風評情報抽出装置。
  15. 前記出力手段は、ユーザに前記評価分類結果を通知する通知手段と、前記評価分類結果を有するWebページへのリンクを含むWeb参照可能な画面を生成する表示手段とを備える構成とされたことを特徴とする請求項1乃至14のいずれか一に記載されたWebページの風評情報抽出装置。
JP2002224741A 2002-08-01 2002-08-01 Webページの風評情報抽出装置 Pending JP2004070405A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002224741A JP2004070405A (ja) 2002-08-01 2002-08-01 Webページの風評情報抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002224741A JP2004070405A (ja) 2002-08-01 2002-08-01 Webページの風評情報抽出装置

Publications (1)

Publication Number Publication Date
JP2004070405A true JP2004070405A (ja) 2004-03-04

Family

ID=32012619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002224741A Pending JP2004070405A (ja) 2002-08-01 2002-08-01 Webページの風評情報抽出装置

Country Status (1)

Country Link
JP (1) JP2004070405A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165284A (ja) * 2006-12-27 2008-07-17 Nec Corp 風説監視システム、風説監視方法及びプログラム
JP2008165599A (ja) * 2006-12-28 2008-07-17 National Institute Of Information & Communication Technology 風評情報抽出装置及び風評情報抽出方法
JP2008165598A (ja) * 2006-12-28 2008-07-17 National Institute Of Information & Communication Technology 風評情報抽出装置及び風評情報抽出方法
WO2010024184A1 (ja) * 2008-08-26 2010-03-04 日本電気株式会社 風評情報検出システム、風評情報検出方法及びプログラム
JP2011524054A (ja) * 2008-06-09 2011-08-25 ブライトエッジ テクノロジーズ インク. オンラインリファレンスの収集および採点
US8584007B2 (en) 2009-01-19 2013-11-12 Sony Corporation Information processing method, information processing apparatus, and program
JP2014502753A (ja) * 2010-12-22 2014-02-03 ペキン・ユニヴァーシティ・ファウンダー・グループ・カンパニー・リミテッド ウェブページ情報の検出方法及びシステム
KR101680485B1 (ko) * 2015-08-25 2016-11-28 정걸종 인터넷 명예훼손 방지 시스템, 서버 및 방법
KR20190019589A (ko) * 2017-08-18 2019-02-27 주식회사 포스코아이씨티 팩트체크 시스템 및 방법
CN109543103A (zh) * 2018-11-14 2019-03-29 深圳市中易科技有限责任公司 一种基于分布式数据收集的方法
JP2020035126A (ja) * 2018-08-29 2020-03-05 Zホールディングス株式会社 ブランド辞書作成装置、商品等評価装置、ブランド辞書作成方法及びプログラム。
CN112417258A (zh) * 2020-12-02 2021-02-26 深圳市罗湖医院集团 健康知识搜索引擎中谣言信息的粉碎方法、平台及终端

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008165284A (ja) * 2006-12-27 2008-07-17 Nec Corp 風説監視システム、風説監視方法及びプログラム
JP2008165599A (ja) * 2006-12-28 2008-07-17 National Institute Of Information & Communication Technology 風評情報抽出装置及び風評情報抽出方法
JP2008165598A (ja) * 2006-12-28 2008-07-17 National Institute Of Information & Communication Technology 風評情報抽出装置及び風評情報抽出方法
US8620892B2 (en) 2008-06-09 2013-12-31 Brightedge Technologies, Inc. Collecting and scoring online references
JP2011524054A (ja) * 2008-06-09 2011-08-25 ブライトエッジ テクノロジーズ インク. オンラインリファレンスの収集および採点
WO2010024184A1 (ja) * 2008-08-26 2010-03-04 日本電気株式会社 風評情報検出システム、風評情報検出方法及びプログラム
US8584007B2 (en) 2009-01-19 2013-11-12 Sony Corporation Information processing method, information processing apparatus, and program
JP2014502753A (ja) * 2010-12-22 2014-02-03 ペキン・ユニヴァーシティ・ファウンダー・グループ・カンパニー・リミテッド ウェブページ情報の検出方法及びシステム
US9519718B2 (en) 2010-12-22 2016-12-13 Peking University Founder Group Co., Ltd. Webpage information detection method and system
KR101680485B1 (ko) * 2015-08-25 2016-11-28 정걸종 인터넷 명예훼손 방지 시스템, 서버 및 방법
KR20190019589A (ko) * 2017-08-18 2019-02-27 주식회사 포스코아이씨티 팩트체크 시스템 및 방법
KR101972660B1 (ko) 2017-08-18 2019-04-25 주식회사 포스코아이씨티 팩트체크 시스템 및 방법
JP2020035126A (ja) * 2018-08-29 2020-03-05 Zホールディングス株式会社 ブランド辞書作成装置、商品等評価装置、ブランド辞書作成方法及びプログラム。
CN109543103A (zh) * 2018-11-14 2019-03-29 深圳市中易科技有限责任公司 一种基于分布式数据收集的方法
CN112417258A (zh) * 2020-12-02 2021-02-26 深圳市罗湖医院集团 健康知识搜索引擎中谣言信息的粉碎方法、平台及终端

Similar Documents

Publication Publication Date Title
KR101078864B1 (ko) 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
US6567800B1 (en) System and method for searching information stored on a network
US7707201B2 (en) Systems and methods for managing and using multiple concept networks for assisted search processing
CN107577759A (zh) 用户评论自动推荐方法
US20080270376A1 (en) Web spam page classification using query-dependent data
JP2015191655A (ja) 推奨ページを生成するための方法及び装置
CN103955529A (zh) 一种互联网信息搜索聚合呈现方法
JP2004005668A (ja) 膨大な異種ドキュメント集合内のドキュメントについて信頼度の等級付け、推定、分類を行うシステムおよび方法
KR101355945B1 (ko) 온라인 문맥기반 광고 장치 및 방법
JP2005085285A5 (ja)
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
WO2009031759A1 (en) Method and system for generating search collection of query
JP2004070405A (ja) Webページの風評情報抽出装置
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
TW201415254A (zh) 語意標註建議方法及其系統
JP2002351916A (ja) Web情報検索装置、web情報検索方法及びその方法をコンピュータに実行させるプログラム
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
JP2007256992A (ja) コンテンツ特定方法及び装置
JP2005107688A (ja) 情報表示方法及びシステム及び情報表示プログラム
JP4428850B2 (ja) 情報検索装置及び情報検索方法
JP5349032B2 (ja) 情報選別装置
JP2003150624A (ja) 情報抽出装置および情報抽出方法
JP4759600B2 (ja) 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体
KR101120040B1 (ko) 연관 질의어 추천 장치 및 방법
JP2003208447A (ja) 文書検索装置、文書検索方法、文書検索プログラム及び文書検索プログラムを記録した媒体

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20040707