JP2006244305A - クチコミ情報判定方法及び装置及びプログラム - Google Patents

クチコミ情報判定方法及び装置及びプログラム Download PDF

Info

Publication number
JP2006244305A
JP2006244305A JP2005061390A JP2005061390A JP2006244305A JP 2006244305 A JP2006244305 A JP 2006244305A JP 2005061390 A JP2005061390 A JP 2005061390A JP 2005061390 A JP2005061390 A JP 2005061390A JP 2006244305 A JP2006244305 A JP 2006244305A
Authority
JP
Japan
Prior art keywords
expression
experience
word
mouth
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005061390A
Other languages
English (en)
Other versions
JP4293145B2 (ja
Inventor
Yoshiyo Ikeda
佳代 池田
Masakatsu Okubo
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005061390A priority Critical patent/JP4293145B2/ja
Publication of JP2006244305A publication Critical patent/JP2006244305A/ja
Application granted granted Critical
Publication of JP4293145B2 publication Critical patent/JP4293145B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 分野や対象物を限定せず、あらゆる種類の情報が混在するような状況の中から、体験表現や評価表現の有無を利用して、ある物事に関する体験談や利用した感想、苦情などが書かれている「ユーザの声、つまりクチコミ情報」を見分けて、判定する。
【解決手段】 本発明は、評価表現記憶手段を参照して、入力されたテキストに該評価表現が記述されているか否かを判定し体験表現記憶手段を参照して、入力されたテキストに、該体験表現が記述されているかを判定し、評価表現が記述されていると判定され、かつ、体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数によりクチコミか否かを判定する。
【選択図】 図1

Description

本発明は、クチコミ情報判定方法及び装置及びプログラムに係り、特に、インターネットのような、あらゆる種類の情報が混在するような状況の中から、その情報に含まれる文章を解析し、ある物事に関する体験談や利用した感想、苦情などが書かれている「ユーザの声、つまりクチコミ情報」を見分けて判定することができる、体験表現を利用したクチコミ情報判定方法及び装置及びプログラムに関する。
近年、ホテルや旅行、電化製品など様々な事柄に関して、多くの人々がインターネット上で個人の意見を公開している。この公開場所は、ショッピングサイト自身が運営しているような様々な人の意見が集まる掲示板や、個人の意見をまとめたWeblogや個人のホームページのような場所等がある。こういったユーザの声は、ユーザの声や評判(以下、クチコミ情報と記す)としてマーケティングや商品開発、商品の購入検討などの支援として利用価値が高い。
現在、クチコミ情報の分析として、ある特定の商品や情報収集先(URLなど)を限定し、文章中からその対象となる物事に依存した記述表現を抽出する以下のような技術が提案されている。
第1の技術として、ユーザが入力した商品名と予め辞書として用意した評価表現を近接演算する方法を用いて、インターネットのWebページから意見を抽出する技術がある(例えば、非特許文献1参照)。ここで用いる評価表現とは、物事に対する人の評価を示す表現であり、その辞書は、予め作成した商品カテゴリ毎に用意するものである。この商品カテゴリとは、例えば「書籍」「コンピュータ」「車」等がある。
一方、第2の技術として、インターネット検索においては、あるキーワードに関わる企業などのオフィシャルページやショッピングサイト、クチコミ情報など様々なWebページが区別なく、しばしば膨大に出力される。こういった膨大な情報から利用者の欲する情報へナビゲーションするために、出力結果を分析する方法が提案されている。その方法は、検索エンジンで収集したWebページの文書内を解析し、その文書から人名・地名などの特徴的な固有表現を抽出し、それを検索結果に対するインデックスとしてユーザに提示するという、Webページを分類する技術である(例えば、非特許文献2参照)。
また、第3の技術として、検索結果のURLをもとに、そのコンテンツのタイプ分類をするための提案がある。検索結果で出力されたWebページAのリンク(URL)を含むようなWebページBを分析する。Bの中でAのリンクが埋め込まれている周辺の情報(アンカーテキスト)を解析して、もとのWebコンテンツの形式推定を行う技術である。ユーザは、情報検索時に検索の目的に応じて、コンテンツの機能:「Webコンテンツそのものを得ることで目的を満たす」「Webコンテンツが示す書籍、セミナー等の案内情報によって目的を満たす」等の選択をする必要がある。ここでのコンテンツのタイプとは、「論文」「解説記事」「ニュース」「掲示板」「日記」「サイト」「リンク集」「ガイド」である(例えば、非特許文献3参照)。
また、上記の第1の技術や第3の技術を利用する場合は、文章の形態素解析を行う必要がある。形態素解析の技術としては、語の共起を用いて同形語の読み分けを行う日本語形態素解析システムである。語の共起は人にとって識別しやすいため、間違えにくく、確実にシステムの精度を上げることができる(例えば、非特許文献4参照)。
立石健二他、「インターネットからの評判情報検索」、情報処理学会研究報告、2001-NL-144, pp.75-82, 2001 戸田浩之他、「特徴的な固有表現を用いたラベル指向ナビゲーション手法の提案」、情報処理学会研究報告、Vol.2004-no.45, 2004-FI-75, pp.99-106 川前徳章他、「Webコンテンツの機能に着目した検索結果の構造化に関する提案」、人口知能学会研究会 SGI-SWO-A303-10 渕武志他、「保守性を考慮した日本語形態素解析システム」、情報処理学会自然言語処理研究会報告、117-09, vol.1997-no.004, pp.59-66
本明細書では、「クチコミ情報」を次のように定義する。クチコミ情報は、ある対象となる物事(例えば、ディジタルビデオカメラ、ホテル、レストラン、テレビドラマ、俳優、英会話教室、観光地、事件、等)に関しての情報であり、その対象となる物事を何らかの形で体験・経験した人が、その体験談や経験した感想などの意見を記述したものである。例えば、「最近、渋谷に新しくできた○○レストランへ行ってみた。○○レストランは、うわさのカルボナーラが非常に美味しかった。」という文章からは、「行ってみた」という体験と「美味しかった」という意見が入っていることから、○○レストランに対するクチコミ情報といえる。こういったクチコミ情報は、企業において商品開発や商品改良の参考とすることができ、また、一般のユーザが見たときには、購入や旅行先等、選定する際の検討に役立つ有益な情報となる。
ある文章がクチコミ情報かどうかを判定するとき、上記の従来の第1〜第3の方法では、次のような問題がある。
第1の技術では、評判情報として次の2種類を区別なく扱っている。
1)他の人の体験やレポート、マシンスペックなど提示された条件で、書き手が予想・判断した意見・評価:
(例)「商品Aは、スペックの割には安い」、「Bでは、最近スリが増加していて、治安が悪い」
2)実際に対象となる物事を体験した人の意見・評価(本発明におけるクチコミ情報の定義と同義)
(例)「商品Aを使ってみたら、ディスプレイが暗かった」、「Bへ行ってみたら、街中はそれほど治安が悪くなかった」
しかし、商品購入や旅行先の検討、ダイエット方法の選択など、実際の利用シーンでは、実体験に基づく意見の方が、より重視されることが多いと考えられる。また、第1の技術では、ある特定の商品カテゴリとそれに合わせた辞書を事前に作成しておく必要がある。現在、インターネット上でも様々な物事に関しての意見が公開されているため、それに合わせた全ての辞書を作成することは、非常にコストがかさんでしまう問題がある。
また、第2の技術では、人名や会社名など固有表現で分類しているため、クチコミ情報を判定することはできない。
また、第3の技術では、掲示板や日記というタイプでは分類はできるが、その中に部分的に含まれている「クチコミ情報」という観点での分類は行っていない。
また、前述したクチコミ情報の定義を満たしている情報であっても、ある一個人の意見のみであると、その個人の見解の偏りがクチコミ情報の中に生じている問題もある。しかしながら、閲覧者は、筆者がどのような嗜好を持った人物であるかは不明なため、閲覧者にとっての参考情報になるか否かを判断することが難しい。
本発明は上記の点に鑑みなされたもので、分野や対象物を限定せず、インターネットのような、あらゆる種類の情報が混在するような状況の中から、その情報に含まれる文章を解析し、体験表現や評価表現の有無を利用して、ある物事に関する体験談や利用した感想、苦情などが書かれている「ユーザの声、つまりクチコミ情報」を見分けて、判定することが可能なクチコミ情報判定方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理構成図である。
本発明(請求項1)は、入力されたテキストからある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定装置であって、
物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段20と、
物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段21と、
入力されたテキストに、評価表現記憶手段20を参照して、物事の良し悪しを評価するような語句である評価表現が記述されているか否かを判定し、判定結果をデータ記憶手段501に格納する評価表現検査手段520と、
入力されたテキストに、体験表現記憶手段21を参照して、物事を利用もしくは体験・経験したことを表すような語句である体験表現が記述されているかを判定し、判定結果をデータ記憶手段501に格納する体験表現検査手段530と、
データ記憶手段501の情報を読み出して、評価表現検査手段520で評価表現が記述されていると判定され、かつ、体験表現検査手段530で体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数によりクチコミか否かを判定するクチコミ判定手段540と、を有する。
本発明(請求項2)は、入力されたテキストの中、もしくはWebページの構造の中からある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定装置であって、
物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段と、
物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段と、
入力されたテキストの中、もしくはWebページの構造の中に、1つ以上の文で構成された本文と該本文の筆者名やニックネームを含む名前もしくは記号、本文を記述した日付情報の組、もしくは、該本文、該名前または記号の組が繰り返し出現するかどうかを検査する複数筆者検査手段と、
評価表現記憶手段を参照して、本文の中に、物事の良し悪しを評価するような語句である評価表現が記述されているか否かを判定し、判定結果をデータ記憶手段に格納する評価表現検査手段と、
体験表現記憶手段を参照して、本文の中に物事を利用もしくは体験・経験したことを表すような語句である体験表現が記述されているかを判定し、判定結果をデータ記憶手段に格納する体験表現検査手段と、
データ記憶手段から判定結果を読み出して、評価表現検査手段で評価表現が記述されていると判定され、かつ、体験表現検査手段で体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数によりクチコミか否かを判定するクチコミ判定手段と、を有する。
本発明(請求項3)は、入力されたテキストからある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定装置であって、
物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段と、
物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段と、
評価表現記憶手段を参照して、入力されたテキストに、物事の良し悪しを評価するような語句である評価表現が記述されているか否かを判定し、判定結果をデータ記憶手段に格納する評価表現検査手段と、
体験表現記憶手段を参照して、入力されたテキストに、物事を利用もしくは体験・経験したことを表すような語句である体験表現が記述されているかを判定し、判定結果をデータ記憶手段に格納する体験表現検査手段と、
データ記憶手段から判定結果を読み出して、評価表現検査手段で評価表現が記述されていると判定され、かつ、体験表現検査手段で体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数により、入力されたテキスト全体のうちのクチコミ情報が占める比率であるクチコミ率を算出するクチコミ率算出手段と、を有する。
本発明(請求項4)は、入力されたテキストの中、もしくはWebページの構造の中からある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定装置であって、
物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段と、
物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段と、
入力されたテキストの中、もしくはWebページの構造の中に、1つ以上の文で構成された本文と該本文の筆者名やニックネームを含む名前もしくは記号、本文を記述した日付情報の組、もしくは、該本文、該名前または記号の組が繰り返し出現するかどうかを検査する複数筆者検査手段と、
評価表現記憶手段を参照して、本文の中に、物事の良し悪しを評価するような語句である評価表現が記述されているか否かを判定し、判定結果をデータ記憶手段に格納する評価表現検査手段と、
体験表現記憶手段を参照して、本文中に物事を利用もしくは体験・経験したことを表すような語句である体験表現が記述されているかを判定し、判定結果をデータ記憶手段に格納する体験表現検査手段と、
データ記憶手段から判定結果を読み出して、評価表現検査手段で評価表現が記述されていると判定され、かつ、体験表現検査手段で体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数により、入力されたテキストまたはWebページの全体のうちの、クチコミ情報が占める比率であるクチコミ率を算出するクチコミ率算出手段と、を有する。
図2は、本発明の原理を説明するための図である。
本発明(請求項5)は、入力されたテキストからある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定方法において、
物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段を参照して、入力されたテキストに該評価表現が記述されているか否かを判定し、判定結果をデータ記憶手段に格納する評価表現検査ステップ(ステップ1)と、
物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段を参照して、入力されたテキストに、該体験表現が記述されているかを判定し、判定結果をデータ記憶手段に格納する体験表現検査ステップ(ステップ2)と、
データ記憶手段から判定結果を読み出して、評価表現検査ステップで評価表現が記述されていると判定され、かつ、体験表現検査ステップで体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数によりクチコミか否かを判定するクチコミ判定ステップ(ステップ3)と、を行う。
本発明(請求項6)は、入力されたテキストの中、もしくはWebページの構造の中からある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定方法において、
入力されたテキストの中、もしくはWebページの構造の中に、1つ以上の文で構成された本文と該本文の筆者名やニックネームを含む名前もしくは記号、本文を記述した日付情報の組、もしくは、該本文、該名前または記号の組が繰り返し出現するかどうかを検査する複数筆者検査ステップと、
物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段を参照して、本文の中に、該評価表現が記述されているか否かを判定し、判定結果をデータ記憶手段に格納する評価表現検査ステップと、
物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段を参照して、本文の中に該体験表現が記述されているかを判定し、判定結果をデータ記憶手段に格納する体験表現検査ステップと、
データ記憶手段から判定結果を読み出して、評価表現検査ステップで評価表現が記述されていると判定され、かつ、体験表現検査ステップで体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数によりクチコミか否かを判定するクチコミ判定ステップと、を行う。
本発明(請求項7)は、入力されたテキストからある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定方法において、
物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段を参照して、入力されたテキストに該評価表現が記述されているか否かを判定し、判定結果をデータ記憶手段に格納する評価表現検査ステップと、
物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段を参照して、入力されたテキストに、該体験表現が記述されているかを判定し、判定結果をデータ記憶手段に格納する体験表現検査ステップと、
データ記憶手段から判定結果を読み出して、評価表現検査ステップで評価表現が記述されていると判定され、かつ、体験表現検査ステップで体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数により、入力されたテキストの全体のうちのクチコミ情報が占める比率であるクチコミ率を計算するクチコミ率算出ステップと、を行う。
本発明(請求項8)は、入力されたテキストの中、もしくはWebページの構造の中からある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定方法において、
入力されたテキストの中、もしくはWebページの構造の中に、1つ以上の文で構成された本文と該本文の筆者名やニックネームを含む名前もしくは記号、本文を記述した日付情報の組、もしくは、該本文、該名前または記号の組が繰り返し出現するかどうかを検査する複数筆者検査ステップと、
物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段を参照して、本文の中に該評価表現が記述されているか否かを判定し、判定結果をデータ記憶手段に格納する評価表現検査ステップと、
物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段を参照して、本文の中に該体験表現が記述されているかを判定し、判定結果をデータ記憶手段に格納する体験表現検査ステップと、
データ記憶手段から判定結果を読み出して、評価表現検査ステップで評価表現が記述されていると判定され、かつ、体験表現検査ステップで体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数により、入力されたテキストまたはWebページの全体のうちの、クチコミ情報が占める比率であるクチコミ率を算出するクチコミ率算出ステップと、を行う。
本発明(請求項9)は、入力されたテキストの中、もしくはWebページの構造の中からある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定プログラムであって、
物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段と、
物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段と、を備えたコンピュータに、請求項5乃至8記載のクチコミ情報判定方法を実現するための処理を実行させるプログラムである。
本発明(請求項10)は、入力されたテキストの中、もしくはWebページの構造の中からある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定プログラムを格納した記憶媒体であって、
物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段と、
物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段と、を備えたコンピュータに、請求項5乃至8記載のクチコミ情報判定方法を実現するための処理を実行させるプログラムを格納した記憶媒体である。
クチコミ情報は、ある対象となる物事(例えば、ディジタルビデオカメラ、ホテル、レストラン、テレビドラマ、俳優、英会話教室、観光地、事件、等)に関しての情報であり、その対象となる物事を何らかの形で体験・経験した人が、その体験談や経験した感想などの意見を記述したものである。例えば、「最近、渋谷に新しくできた○○レストランへ行ってみた。○○レストランは、うわさのカルボナーラが非常に美味しかった。」という文章からは、「行ってみた」という体験と「美味しかった」という意見が入っていることから、○○レストランに対するクチコミ情報といえる。このようにクチコミ情報は、対象となる物事とともに、上記に述べたような体験表現(例:行ってみた)やそれを評価している評価表現(例:美味しかった)を含んでいるものといえる。また、クチコミ情報は、あらゆる物事に関して記述されているため、分野や対象物に依存せず判定できることが望ましい。
本発明によれば、今まで利用されることのなかった体験表現の有無の検査を用いることで、前述の発明が解決しようとする課題の欄で挙げた2種類の評判情報を区別し、クチコミ情報「利用者の体験・経験による意見が書き込まれている情報」かどうかを判断することができる。この体験表現は、クチコミ情報の対象となる物事に依存しない。評価表現と体験表現の両者が記述されているかどうかを確認することで、対象となる物事が何であるかに関わらず、クチコミ情報かどうかを判断することができる。
また、上記に加えて、ある対象となる物事について、複数の人のクチコミ情報が集まっているようなWebページもしくは、テキストをクチコミ情報として判定することもできる。通常、クチコミ情報を閲覧する場合、ある個人の1つのクチコミ情報のみを見て満足することは少なく、複数のクチコミ情報を参照し、多面的な情報を得ることが多い。つまり、先に述べた効果によって、閲覧者が一度に複数の人の意見を見ることができ、複数のクチコミ情報ページを参照する手間も省くことができる。この判定方法においては、筆者を特定するような名前やニックネームなどを示す「名前」と1文以上で構成された「本文」の2つの情報、もしくは、これに加えてその情報が公開された「日付情報」の3つの情報を一人分の情報として判断している。日付情報や名前を追加することにより、情報の信頼性が高まり、また情報の新しさを知ることができる。また、これにより、先に述べた一個人の見解の偏りがクチコミ情報の中に生じている問題も回避することができる。
以下、図面と共に本発明の実施の形態を説明する。
以下では、「クチコミ情報」を、ある対象となる物事(例えば、ディジタルビデオカメラ、ホテル、レストラン、テレビドラマ、俳優、英会話教室、観光地、事件、等)に関しての情報であり、その対象となる物事を何らかの形で体験・経験した人が、その体験談や経験した感想などの意見を記述したものと定義し、テキストもしくはWebページなどの入力があったときに、それがクチコミ情報かどうかを判定する装置を「クチコミ判定装置」として説明する。
図3は、本発明の一実施の形態における概要を説明するための図である。
クチコミ判定装置にテキストやWebページが入力されると、
1)A「筆者の名前」とB「1つ以上の文で構成される本文」とC「日付」を1つのクチコミセットとし、このA,B,Cからなるセットまたは、A,Bからなるセットが繰り返されているかを判定する。
2)1)でクチコミセットと判定された中から本文と判断された文章のまとまりを抽出する。
3)2)で抽出された本文(テキスト)に評価表現が記述されているかを検査する。
4)本文(テキスト)に体験表現が記述されているかを検査する。
5)上記の3)と4)の結果からクチコミ情報かどうかを判定し、判定結果を出力する。
図4は、本発明の一実施の形態におけるクチコミ情報判定装置の構成を示す。
同図に示すクチコミ判定装置は、コンピュータ10と、このコンピュータ10にネットワーク40を介して接続される評価表現記憶部20と体験表現記憶部21から構成される。
コンピュータ10は、RAM,ROM、磁気ディスク等からなるメモリ等で構成されるデータ記憶部501、CPU、ディスプレイによる表示部11、及びマウスやキーボードなどからなる指示入力部12から構成されており、CPUが実行するソフトウェアプログラムによって実現される複数筆者検査処理部500、本文抽出処理部510、評価表現検査処理部520、体験表現検査処理部530、クチコミ情報判定処理部540を有する。
データ記憶部501は、複数筆者検査処理部500、本文抽出処理部510、評価表現検査処理部520、体験表現検査処理部530、クチコミ情報判定処理部540によってデータの格納や読み出しが行われる。
評価表現記憶部20には、物事に対して、良いイメージや悪いイメージを表すような語句が格納されている。良いイメージの例としては、「良い、美しい、美味しい、面白い、楽しい、心地よい、便利、華やか、豊富、気に入る」などがあげられる。また、悪いイメージの例としては、「悪い、汚い、まずい、面白くない、つまらない、不便、うるさい、くさい、ろこつ、最悪、困難」などが挙げられる。これらは主に形容詞、形容動詞、名詞等が当てはまる。
体験表現記憶部21には、物事を体験・経験したことを表すような語句が格納されている。例えば、「行ってみた、試した、実行した、感じた、実感した、チャレンジした」などがあげられる。これらは、主に動詞の過去形「〜た」「〜した」「〜してみた」「〜したことがある」等が当てはまる。体験表現記憶部21では、体験表現に該当する語句{実感した、チャレンジした、等}が格納されていることもあれば、表現形態{してみた、したことがある、等}や形態素解析した後の品詞の組み合わせのルール{動詞語幹+動詞活用語尾+動詞接尾辞+動詞語幹の連用「みる」+動詞接尾辞の終止「ました」等}、またはそれらの混合された情報が格納されている場合もある。体験表現の例を図5に示す。
図6は、本発明の一実施の形態におけるクチコミ情報判定処理の概要動作のフローチャートである。
ステップ100) 複数筆者検査処理:
複数筆者検査処理部500にテキストまたは、Webページが入力されると、当該テキストもしくはWebページの構造の中に、1つ以上の文で構成された本文と、本文の筆者名やニックネームなどを示す名前もしくは記号、本文を記述した日付情報の3つの情報、または、本文と名前もしくは記号の2つの情報が繰り返し出現するかどうかを検査し、その結果をデータ記憶部501に格納する。
図7は、本発明の一実施の形態におけるクチコミ情報入力の例を示す。同図(A)は、Webページ(htmlファイル)の例であり、同図(B)は、テキストの例である。入力される文書と本文、文章、文の関係は図8に示すように、筆者名、日付、1つ以上の文で構成された本文が1セットとなる。
ステップ200) 本文抽出処理:
本文抽出処理部510において、データ記憶部501からステップ100での3つの情報が繰り返し出現する情報を読み出してその中から本文を抽出し、データ記憶部501に格納する。
ステップ300) 評価表現検査処理:
評価表現検査処理部520は、データ記憶部501からステップ200において抽出された本文を読み出して、その中に評価表現が記述されているかを評価表現記憶部20を参照することにより検査し、その結果をデータ記憶部501に格納する。
ステップ400) 体験表現検査処理:
体験表現検査処理部530は、データ記憶部501からステップ200において抽出された本文を読み出して、その中に体験表現が記述されているかを体験表現記憶部21を参照することにより検査し、その結果をデータ記憶部501に格納する。
ステップ500) クチコミ判定処理:
クチコミ情報判定処理部540は、データ記憶部501からステップ300、ステップ400における検査結果を読み出して、評価表現と体験表現が記述されており、所定のクチコミ判定関数によってクチコミか否かを判定する、または、クチコミ率を判定する。
[第1の実施の形態]
本実施の形態では、入力文書がクチコミ情報か否かを判定し、s番目の本文にクチコミ表現があるか否かの判定を行う例を示す。本実施の形態では、クチコミ表現のあり/なしが出力される。
最初に、第1の実施の形態における複数筆者検査処理(ステップ100)について説明する。
図9は、本発明の第1の実施の形態におけるクチコミ情報入力html構造の例を示す。
複数筆者検査処理部500では、図3に示すように、A「筆者の名前」とB「1つ以上の文で構成される本文」とC「日付」を1つのクチコミセットとし、その繰り返しがあるかどうかを判断する。但し、C「日付」は、必ずしも必要ではなく、AとBでクチコミセットを形成することも可能である。ここで、A,B,Cもしくは、A,Bが出現する順序は問わないものとする。以下では、A,B,Cの3つが存在する場合の例を説明する。出現順序は、A→B→C、B→C→A、C→A→B、A→C→B、B→A→C、C→B→Aのいずれでもよい。しかし、繰り返し出現するのは1つの形式のみとする。例えば、A→B→Cの繰り返しであれば、C→B→Aが途中で出現したら、異なる形式が出現したということになり、繰り返しは終了したとみなされる。繰り返しの判定は、種々あるが、ここでは、AまたはCを探すことからスタートする。図7や図8は、A→C→Bの例である。
図10は、本発明の第1の実施の形態における複数筆者検査処理のフローチャートであり、名前からスタートする例を示す。
ステップ101) 複数筆者検査処理部500は、入力されたhtmlファイル、テキストファイル、または、テキスト等から筆者の名前だと特定できるような文字列を探す。このとき特定できるような文字列は様々であるが、例えば「名前、投稿者、by、ニックネーム」などの文字列とセットで筆者の名前もしくは筆者を特定するような記号が記述されていることがある。
ステップ102) 複数筆者検査処理部500は、ステップ101で特定した名前の前後において、日付があるかどうかを検査する。
日付は、例えば、2004年12月20日を示すときに、「2004.12.20、2004/12/20、04.12.20、2004 12 20、Dec.20,2004」など様々な記述方法がある。また、「日付、投稿日、質問日、」などの文字列と共に日付が記述されている場合や、時間と共に日付が記述されている場合もある。但し、日付は、必ずしも必要ではないため、本ステップを省略することもできる。
名前の前後両者において、日付がある場合、図9のように入力がhtmlファイルであった場合は、タグ構造を確認し、名前と同じタグで囲まれている方を採用する方法がある。このとき、図9では、htmlの<table>タグでクチコミセットが区切られている。また、最も名前の情報から近い方(名前を示す文字列から日付を示す文字列までの全文字数が少ない方)を採用する方法などもある。
ステップ103) ステップ101で採取した名前とステップ102で採取した日付と一緒に1つ以上の文で構成される本文(=クチコミセット)があるかどうかを検査する。
図7のようにステップ101で「名前:Keiko」、ステップ102で「投稿日:2004.12.20」という記述が見つかった場合は、これと共に1つ以上の文で構成される本文があるかどうかを検査する。但し、ステップ102を省略した場合は、クチコミセットは、ステップ101で採取した名前と1つ以上の文で構成される本文の2つの情報で形成される。よって、ここでの検査は、前述の2つの情報のセットがあるかどうかを検査することになる。
ステップ104) ステップ103で取得したクチコミセットの順序構造が繰り返し出現するかどうかを検査する。
図7のように「名前: 」と「投稿日:yyyy.mm.dd」という記述と共に1つ以上の文で構成される本文がある場合は、そのクチコミセットの構造が繰り返し2つ以上あるかどうかを検査する。ここで、yyyyは年号(例:2004)、mmは月(例:12)、ddは日(例:20)を表す。但し、ステップ102の処理を省略した場合は、日付を示す「投稿日:yyyy.mm,dd」を除いたクチコミセットの繰り返しが2つ以上存在するかどうかを検査すればよい。
本文とみなせるような1文以上の文章のまとまりが複数点在する場合、例えば、図9のように入力がhtmlファイルであった場合は、タグ構造を確認し、名前や日付と同じタグで区切られている文章のまとまりを本文として採用する方法がある。また、最も名前や日付から近い文章のまとまりを採用する方法、もしくは、最も長い文章のまとまりの候補を本文として採用する方法などがある。
ステップ105) ステップ104でクチコミセットが、繰り返し出現する場合、ステップ104で取得したクチコミセットの繰り返し数を算出する。ここで、クチコミセットのデータそれぞれと、クチコミセットの数をデータ記憶部501に格納する。
ステップ106) データ記憶部501に格納されているクチコミセットの名前のそれぞれを比較し、それが複数種類存在するかどうかを検査する。図7のような場合、名前に該当するのは「Keiko」「温泉大好き」「秘密」の3つである。このとき、3つとも同一でないため、「名前は複数種類存在する」と判定される。
つまり、入力が複数筆者によって書かれたものかどうかを判定する。当該判定は、クチコミセットが繰り返し出現し、それらの名前が2種類以上存在するときに、複数筆者であると判定される。このステップ106は、省略することもできる。但し、ステップ106を省略した場合は、クチコミセットが繰り返し出現していれば、複数筆者であると判定される。このとき、出力情報(複数筆者であるか否か、複数筆者である場合はそれぞれのクチコミセットとその数)は、データ記憶部501に格納する。
上記では、名前からスタートした場合の例を示したが、C「日付」からスタートした場合も上記に述べたステップ101とステップ102の順序が入れ替わる程度である。最初に日付を探し、次に日付の前後から名前を探すというステップを踏むことになる。但し、Cを省略したクチコミセットを利用する場合には、Cからスタートする処理は適用できない。
次に、本文抽出部510におけるステップ200の本文抽出処理について説明する。
図11は、本発明の第1の実施の形態における本文抽出処理のフローチャートである。
ステップ201) 本文抽出部510は、複数筆者検査処理部500で取得されたデータ記憶部501に格納されているクチコミセットの各本文と本文の数S(S>0)を読み出し、HTMLタグ等の記号があるかを判定する。ない場合はステップ203に移行する。
ステップ202) 各本文について、文章以外であるHTMLタグ等の不要な記号を除去する。
ステップ203) sに1を代入する。ここでsは本文のカウントである。
ステップ204) sがSより大きければ処理を終了する。
ステップ205) s番目の本文をデータ記憶部501に格納する。
ステップ206) sに1を加算してステップ204に移行する。
上記のように、本文抽出部510は、本文と判断された文章のまとまりを抽出し、データ記憶部501に格納しておく。本文の蓄積・出力形式は、上記の例に限定されることなく、選択可能であるが、統一した形式で実行される。
なお、ステップ201においてHTMLタグが入っていない場合には、当該処理は不要である。
次に、評価表現検査処理部520におけるステップ300の評価表現検査処理について説明する。
図12は、本発明の第1の実施の形態における評価表現検査処理のフローチャートである。以下の処理では、予め形態素解析処理を行うとされているものとする。
ステップ301) データ記憶部501から各クチコミセットの本文と本文の数Sが入力される。
ステップ302) 評価表現検査処理部520は、sに1を代入する。
ステップ303) s>S(本文の数)であれば、処理を終了する。
ステップ304) 評価表現検査処理部520は、s番目の本文について形態素解析を行う。形態素解析において、評価表現に該当するような名詞や形容詞、形容動詞、連体詞等の特定の品詞を抽出する。
ステップ305) 形態素解析結果と評価表現記憶部20に格納されている評価表現とを照合し、合致する表現があるか否かを判定する。なお、活用する品詞が検査対象となるときは、記述されている語句を原形に戻した後に検査する方が効率的である。
ステップ306) 合致する表現がある場合には、ステップ307に移行し、ない場合には、ステップ308に移行する。
ステップ307) 「s番目の本文に評価表現あり」と判定し、判定結果(評価表現あり)をデータ記憶部501に格納し、ステップ309に移行する。
ステップ308) 「s番目の本文に評価表現なし」と判定し、判定結果(評価表現なし)をデータ記憶部501に格納し、ステップ309に移行する。
ステップ309) sに1を加算しステップ303に移行する。
上記の処理の結果、データ記憶部501に出力されるのは、各本文中の評価表現の有無である。
なお、上記では、予め形態素解析処理を実施することが決定されている場合の例を示しているが、もし、形態素解析処理を実施しない場合には、ステップ304とステップ305の代わりに、s番目の本文と評価表現記憶部20に格納されている評価表現について文字列マッチングにより照合し、合致する表現があるかを調べる。
次に、体験表現検査処理部530におけるステップ400の体験表現検査処理について説明する。
図13は、本発明の第1の実施の形態における体験表現検査処理のフローチャートである。以下の処理では、予め形態素解析処理を行うとされているものとする。
ステップ401) 体験表現検査処理部530に、データ記憶部501から各クチコミセットの本文と本文の数Sが入力される。
ステップ402) 1をsに代入する。
ステップ403) s>Sとなった場合には処理を終了する。
ステップ404) s番目の本文に対して形態素解析を行う。形態素解析では、体験表現に該当するような名詞、形容詞、形容動詞等の特定の品詞を抽出することが望ましい。
ステップ405) 形態素解析結果と体験表現記憶部21に格納されている体験表現を照合し、合致する表現があるかを調べる。なお、活用する品詞が検査対象となるときは、記述されている語句を原型に戻した後に検査する方が効率的である。また、体験表現は、動詞の過去形であることが多いため、「行ってみた」「試してみました」等の終止形の「た」「しました」が付属する動詞に注目する方法もある。
ステップ406) 合致する表現がある場合はステップ407に移行し、ない場合にはステップ408に移行する。
ステップ407) 「s番目の本文に体験表現あり」と判定し、その結果(体験表現あり)をデータ記憶部501に格納し、ステップ409に移行する。
ステップ408) 「s番目の本文に体験表現なし」と判定し、その結果(体験表現なし)をデータ記憶部501に格納する。
ステップ409) sに1を加算し、ステップ403に移行する。
上記の処理でデータ記憶部501に出力されるのは、各本文中の体験表現の有無である。
なお、上記では、予め形態素解析処理を実施することが決定されている場合の例を示しているが、もし、形態素解析処理を実施しない場合には、ステップ404とステップ405の代わりに、s番目の本文と体験表現記憶部21に格納されている評価表現について文字列マッチングにより照合し、合致する表現があるかを調べる。
なお、上記の評価表現検査処理(ステップ300)と、体験表現検査処理(ステップ400)の処理に前後関係はないため、同時に実施することも、どちらか先に実行することも可能である。
また、評価表現検査処理部520と体験表現検査処理部530で両者共形態素解析を行う場合は、処理を高速化するために、両者の処理を実行する前に形態素解析を行うことが望ましい。
上記の図12、図13で示した一連の流れを例を用いて示す。
図14は、本発明の第1の実施の形態における形態素解析結果の例を示す。同図に示す形態素解析結果の例は、図7のクチコミ情報入力例にある3つのクチコミセットのうち、1つ目のクチコミセットの本文
「私も昨日…とてもよかったです。」
を、前述の「渕武志他、「保守性を考慮した日本語形態素解析システム」、情報処理学会自然言語処理研究会報告、117-09, vol.1997-no.004, pp.59-66」に挙げた形態素解析システムにより、形態素解析した結果を示している。この結果例では、形態素解析により「切り出された語」とその語が分類された「品詞」とその語の「読み」、その語の「原形」がスペース区切りで示されている。例えば、「私」は、「名詞の代名詞」という品詞に分類され、「ワタシ」という読みで、原形が「私」である。
その後、評価表現検査処理部520において、上記で原形として出力された語と評価表現記憶部20に格納されている評価表現と照合する。図14のような評価表現記憶部20の例がある場合、「良い」が一致する。
体験表現検査処理部530においては、体験表現記憶部21に格納されている体験表現と形態素解析結果を照合する。図14のような体験表現記憶部21の例があった場合、動詞の過去形が体験表現記憶部21に格納されているという特徴から、動詞として形態素解析された語に着目する。図14の形態素解析結果例で、動詞に関わるのは、「動詞語幹、動詞活用語尾、動詞接尾辞、動詞語幹の連用、動詞接尾辞の終止」の「行ってみました」である。「行ってみました」は、過去形であり、また、「行ってみた」の丁寧な表現であるので、同一のものと見なされることから、体験表現記憶部21の例に格納されている「行ってみた」と一致する。
次に、クチコミ情報判定処理部540におけるステップ500のクチコミ情報判定処理について説明する。
図15は、本発明の第1の実施の形態におけるクチコミ情報判定処理のフローチャートである。
ステップ501) クチコミ情報判定処理部540は、データ記憶部501から、各本文の数S、各本文に含まれる体験表現のあり/なし、各本文に含まれる評価表現のあり/なしを読み込む。ここでは、図16に示すようなデータが読み込まれたものとする。
ステップ502) sに1を代入し、kに0を代入する。ここで、sは文書数のカウントであり、kはクチコミ表現と判定された情報セット数である。
ステップ503) s>Sであればステップ507に移行する。
ステップ504) s番目の本文にクチコミ表現があるかを判定し、ない場合にはステップ506に移行する。
ステップ505) ステップ504においてクチコミ表現がある場合は、kに1を加算する。
ステップ506) sに1を加算し、ステップ503に移行する。
ステップ507) k/S≧X(Xは事前に設定した閾値)である場合はステップ508に移行し、そうでない場合はステップ509に移行する。
ステップ508) 入力文書がクチコミ情報であると判定する。
ステップ509) 入力文書がクチコミ情報でないと判定する。
次に、上記のステップ504の処理について詳細に説明する。
図17は、本発明の第1の実施の形態におけるクチコミ表現の有無の判定のフローチャートである。
ステップ5041) データ記憶部501(例えば、図16の例)から読み出した、s番目の本文に評価表現と体験表現の両方があるか判定し、両方ある場合には、ステップ5042に移行し、ない場合にはステップ5043に移行する。
ステップ5042) s番目の本文には「クチコミ表現があり」と判定する。
ステップ5043) s番目の本文には「クチコミ表現なし」と判定する。
なお、上記の第1の実施の形態における図10に示す複数筆者検査処理及び、図11に示す本文抽出処理は省略することも可能である。
[第2の実施の形態]
本実施の形態でも、第1の実施の形態と同様に、入力文書がクチコミ情報か否かを判定し、s番目の本文にクチコミ表現があるか否かの判定を行う例を示す。
本実施の形態では、複数筆者検査処理については、前述の第1の実施の形態と同様の動作であるため、説明を省略する。なお、複数筆者検査処理を行うか否かは任意であり、省略することも可能である。
図18は、本発明の第2の実施の形態における本文抽出のフローチャートである。同図において、図11と同一の動作については同一のステップ番号を付し、その説明を省略する。
ステップ204において、s>Sであるかを判定し、s≦Sであれば、s番目の本文に含まれる文章数N(s)を検出し、N(s)をデータ記憶部501に格納する(N(s)>0)(ステップ221)。以降の処理については図11と同様である。但し、データ記憶部501に出力されるのは、各クチコミセットの本文に加えて、本文それぞれに含まれる文章数N(1),…,N(S)が出力される。
次に、本実施の形態における評価表現検査処理について説明する。
図19は、本発明の第2の実施の形態における評価表現検査処理のフローチャートである。
ステップ321) データ記憶部501から各クチコミセットの本文と本文の数Sが評価表現検査処理部520に入力される。
ステップ322) 評価表現検査処理部520は、1をsに代入する。
ステップ323) s>Sであれば処理を終了する。
ステップ324) s番目の本文に対して形態素解析を行う。
ステップ325) 形態素解析結果と評価表現記憶部20に格納されている評価表現を照合し、合致する表現と、合致する表現の数h(s)を調べる。
ステップ326) ステップ325において評価表現記憶部20に合致する表現があり、合致する表現の数h(s)>0である場合には、ステップ327に移行し、そうでない場合には、ステップ328に移行する。
ステップ327) 「s番目に本文に評価表現あり」と判定し、合致した表現と、合致した表現の数h(s)をデータ記憶部501に格納し、ステップ329に移行する。
なお、合致する表現をデータ記憶部501に格納することは必須ではなく、出力をする場合や、ある特定の表現のみ重みを加算する場合等に必要となる。
ステップ328) 「s番目に本文に評価表現なし」と判定し、判定結果(評価表現なし)をデータ記憶部501に格納する。
ステップ329) sに1を加算し、ステップ323に移行する。
上記の処理において、データ記憶部501に出力されるのは、各本文中の評価表現の有無、評価表現がある本文中の評価表現、及び、評価表現がある本文中の評価表現の数h(s)である。
なお、上記では、予め形態素解析処理を実施することが決定されている場合の例を示しているが、もし、形態素解析処理を実施しない場合には、ステップ324とステップ325の代わりに、s番目の本文と評価表現記憶部20に格納されている評価表現について文字列マッチングにより照合し、合致する表現があるかを調べる。
図20は、本発明の第2の実施の形態における体験表現検査処理のフローチャートである。
ステップ421) 体験表現検査処理部530に、データ記憶部501から各クチコミセットの本文と本文の数Sが入力される。
ステップ422) 1をsに代入する。
ステップ423) s>Sとなった場合には処理を終了する。
ステップ424) s番目の本文に対して形態素解析を行う。形態素解析では、体験表現に該当するような名詞、形容詞、形容動詞等の特定の品詞を抽出することが望ましい。
ステップ425) 形態素解析結果と体験表現記憶部21に格納されている体験表現を照合し、合致する表現及び合致する表現の数を調べる。
ステップ426) 合致する表現がある場合(t(s)>0)はステップ427に移行し、ない場合にはステップ428に移行する。
ステップ427) 「s番目の本文に体験表現あり」と判定し、(合致した表現と)合致した表現の数t(s)をデータ記憶部501に格納し、ステップ409に移行する。また、データ記憶部501に格納されるデータとしては、「体験表現あり」の他に、体験表現とその数t(s)を蓄積する。
なお、合致する表現の数をデータ記憶部501に格納することは必須ではなく、出力をする場合や、ある特定の表現のみ重みを加算する場合等に必要となる。
ステップ428) 「s番目の本文に体験表現なし」と判定し、データ記憶部501に格納する。
ステップ429) sに1を加算し、ステップ423に移行する。
当該処理において、データ記憶部501に出力されるのは、図21に示すように、各本文中の体験表現の有無、体験表現がある本文中の体験表現及び、体験表現がある本文中の体験表現の数t(s)である。
なお、上記では、予め形態素解析処理を実施することが決定されている場合の例を示しているが、もし、形態素解析処理を実施しない場合には、ステップ424とステップ425の代わりに、s番目の本文と体験表現記憶部21に格納されている評価表現について文字列マッチングにより照合し、合致する表現があるか、合致する表現がある場合には、その数t(s)を調べる。
また、評価表現検査処理部520と体験表現検査処理部530で両者共、形態素解析を行う場合は、処理を高速化するために、両者の処理を実行する前に形態素解析を行うことが望ましい。
図22は、本発明の第2の実施の形態におけるクチコミ情報判定処理のフローチャートである。
クチコミ判定処理については、前述の第1の実施の形態における図15の動作のステップ501とステップ504以外の処理については同様である。
ステップ501においては、データ記憶部501から
・本文の数:S;
・各本文に含まれる文章の数:N(1),…,N(S);
・各本文に含まれる体験表現とその数:t(1),…,t(S);
・各本文に含まれる評価表現とその数:h(1),…,h(S);
が入力される。
以下に、本実施の形態における、図22におけるステップ504の処理について説明する。
図23は、本発明の第2の実施の形態におけるクチコミ表現の有無の判定のフローチャートである。
ステップ5051) クチコミ情報判定処理部540は、データ記憶部501から読み出したs番目の本文に評価表現と体験表現の両者があるかを判定し、両方ある場合には、ステップ5053に移行し、ない場合にはステップ5043に移行する。
ステップ5052) 各本文に含まれる評価表現の出現数h(s)と体験表現の出現数t(s)とを加算し、その数が各クチコミセットの本文それぞれに含まれる文章の数N(s)で除した数が所定の数Y以上であるかを判定する((h(s)+t(s))/N(s)≧Y)。そうであれば、ステップ5053に移行し、そうでなければステップ5054に移行する。
ステップ5053) s番目の本文には「クチコミ表現あり」と判定する。
ステップ5054) s番目の本文には「クチコミ表現なし」と判定する。
図24に、本実施の形態における出力例を示す。
また、本実施の形態では、
本文の数S;
s番目の本文に含まれる文章の数N(s);
s番目の本文に含まれる体験表現とその数t(s);
s番目の本文に含まれる評価表現とその数h(s);
としたとき、
クチコミ表現あり/なしを判定する式f(H,T)について、評価表現や体験表現全体に重みを付けて計算することもできる。
例えば、評価表現の重みをE,体験表現の重みをGとしたとき、
f(H,T)=(E×h(s)+G×t(s))/N(s) 式(1)
となる。
また、表現全体ではなく、ある特定の語句のみ重みをつけて計算することも可能である。
それぞれの体験表現もしくは、評価表現の出現数は、評価表現検査処理部520や体験表現検査処理部530にて検出されているため、次のような式ができる。
評価表現の出現種類もしくは、評価表現記憶部20にある評価表現の総数:AH;
体験表現の出現種類もしくは、体験表現記憶部21にある体験表現の総数:AT
ある特定の評価表現:nH(0<n<AH);
ある特定の体験表現:mT(0<m<AT);
s番目の本文の中に出現するnHの数:nH(s) (0≦nH(s)≦h(s));
s番目の本文の中に出現するmtの数:mT(s) (0≦mT(s)≦t(s));
ある特定の表現nHにかかる重み:ne;
ある特定の表現nTにかかる重み:ng;
としたとき、
f(H,T)=Σ(ne×nH(s))+Σ(ng×mT(s)) 式(2)
各表現に対する重みがそれぞれ1である場合は、
h(s)=ΣnH(s),
t(s)=ΣmT(s)
となる。つまり、s番目の本文に含まれる評価表現と体験表現の数と等しくなる。
また、s番目の本文に含まれる文章の数N(s)のとき、
f(H,T)={Σ(ne×nH(s))+Σ(ng×mT(s))}÷N(s) 式(3)
で表すこともできる。式(1)、(2)、(3)ともf(H,T)≧Y(Yは予め設定した閾値)であれば入力がクチコミ表現であると判定することができる。
[第3の実施の形態]
本実施の形態でも、第1の実施の形態と同様に、入力文書がクチコミ情報か否かを判定し、s番目の本文にクチコミ表現があるか否かの判定を行う例を示す。
本実施の形態では、複数筆者検査処理については、前述の第1の実施の形態と同様の動作であるため、説明を省略する。なお、複数筆者検査処理を行うか否かは任意であり、省略することも可能である。
図25は、本発明の第3の実施の形態における本文抽出のフローチャートである。同図において、図11と同一の動作については同一のステップ番号を付し、その説明を省略する。
ステップ201〜ステップ204までの処理は、図11と同様であるため、その説明を省略する。
ステップ211) 本文抽出部510は、s番目の本文に含まれる文章数N(s)を検出し、N(s)をデータ記憶部501に格納する(N(s)>0)。
ステップ212) zに1を代入する。但し、zは本文中の文章のカウントである。
ステップ213) z>N(s)であるかを判定し、そうである場合にはステップ2114に移行し、そうでない場合には、ステップ215に移行する。
ステップ214) sに1を加算しステップ204に移行する。
ステップ215) s番目の本文のz番目の文章に含まれる文の数n(s)(z)を検出し、n(s)(z)をデータ記憶部501に格納する(n(s)(z)>0)。
ステップ216) s番目の本文のz番目の文章をデータ記憶部501に格納する。
ステップ217) zに1を加算し、ステップ213に移行する。
上記のフローチャートに示す動作により、データ記憶部501に出力される内容は、各クチコミセットの本文それぞれに含まれる文章、各クチコミセットの本文それぞれに含まれる文章の数N(1),…,N(S)、及び、各クチコミセットの本文それぞれに含まれる文章それぞれに含まれる文の数n(1)(1),…,n(S)(N(S))である。
次に、本実施の形態における評価表現検査処理について説明する。
図26は、本発明の第3の実施の形態における評価表現検査処理のフローチャートである。
ステップ341) 評価表現検査処理部520には、本文の数S、本文に含まれる文章と文章数N(1),…,N(S)が入力される。
ステップ342) sに1を代入し、zに0を代入する。ここで、sは本文の数、zは文章の数である。
ステップ343) sがSより大きければ処理を終了する。
ステップ344) zに1を加算する。
ステップ345) zがN(s)より大きければステップ351に移行する。
ステップ346) s番目の本文のz番目の文章に対して形態素解析を行う。
ステップ347) 形態素解析結果と評価表現記憶部20に格納されている評価表現を照合し、合致する表現と合致する表現の数h(s)(z)を調べる。
ステップ348) 合致する表現があるか(h(s)(z)>0)を判定し、ある場合には、ステップ349に移行し、ない場合にはステップ350に移行する。
ステップ349) 合致する表現と表現の数h(s)(z)をデータ記憶部501に格納し、ステップ344に移行する。なお、合致する表現と表現の数をデータ記憶部501に格納することは必須ではなく、出力をする場合や、ある特定の表現のみ重みを加算する場合等に必要となる。
ステップ350) 合致する表現の数=0をデータ記憶部501に格納し、ステップ344に移行する。
ステップ351) s番目の本文に含まれる文章中に一つでも評価表現が含まれれば、「評価表現あり」とし、含まれなければ「評価表現なし」と判定する。
ステップ352) sに1を加算し、zに0を代入し、ステップ343に移行する。
上記の処理により、データ記憶部501に出力されるのは、各本文中の評価表現の有無、評価表現のある本文中の各文章に含まれる評価表現及び、評価表現がある本文中の各文章に含まれる評価表現の数h(s)(z)である。
なお、上記では、予め形態素解析処理を実施することが決定されている場合の例を示しているが、もし、形態素解析処理を実施しない場合には、ステップ346とステップ347の代わりに、s番目の本文と評価表現記憶部20に格納されている評価表現について文字列マッチングにより照合し、合致する表現、及び評価表現がある本文中の各文章に含まれる評価表現の数h(s)(z)があるかを調べる。
図27は、本発明の第3の実施の形態における体験表現検査処理のフローチャートである。
ステップ441) 体験表現検査処理部530に、本文の数S,本文に含まれる文章と文章数N(1),…,N(S)がデータ記憶部501から入力される。
ステップ442) sに1を代入し、zに0を代入する。ここで、sは本文のカウントであり、zは文章数のカウントである。
ステップ443) s>Sであるかを判定し、そうである場合には処理を終了する。
ステップ444) zに1を加算する。
ステップ445) z>N(s)であるかを判定し、そうである場合には、ステップ451に移行する。
ステップ446) s番目の本文のz番目の文章に対して形態素解析を行う。
ステップ447) 形態素解析結果と体験表現記憶部21に格納されている体験表現を照合し、合致する表現と、合致する表現の数t(s)(z)を調べる。
ステップ448) 合致する表現があるか(t(s)(z)>0)を判定し、ある場合には、ステップ449に移行し、ない場合にはステップ450に移行する。
ステップ449) 合致する表現と合致する表現の数t(s)(z)をデータ記憶部501に格納し、ステップ444に移行する。なお、合致する表現と合致する表現の数をデータ記憶部501に格納することは必須ではなく、出力をする場合や、ある特定の表現のみ重みを加算する場合等に必要となる。
ステップ450) 合致する表現の数(t(s)(z)=0)をデータ記憶部501に格納し、ステップ444に移行する。
ステップ451) s番目の本文に含まれる文章中に1つでも体験表現が含まれてていれば、「体験表現あり」、その体験表現、体験表現の数をデータ記憶部501に格納し、含まれなければ「体験表現なし」と判定し、「体験なし」をデータ記憶部501に格納する。
ステップ452) sに1を加算し、zに0を代入する。
上記の処理の結果、データ記憶部501には、各本文中の体験表現の有無、体験表現がある本文中の各文章に含まれる体験表現、および、体験表現がある本文中の各文章に含まれる体験表現の数t(s)(z)が格納される。
なお、上記では、予め形態素解析処理を実施することが決定されている場合の例を示しているが、もし、形態素解析処理を実施しない場合には、ステップ446とステップ447の代わりに、s番目の本文と体験表現記憶部21に格納されている体験表現について文字列マッチングにより照合し、合致する表現、及び体験表現がある本文中の各文章に含まれる体験表現の数t(s)(z)があるかを調べる。
次に、クチコミ情報判定処理を行う。クチコミ判定処理については、前述の第1の実施の形態における図15のステップ501、ステップ504以外の処理について同様である。
図28は、本発明の第3の実施の形態におけるクチコミ情報判定処理のフローチャートである。ステップ501において、
・本文の数S;
・各本文に含まれる文章の数N(1),…,N(S);
・各本文の各文章に含まれる文の数n(1)(1),…,n(S)(N(S));
・各本文の各文章に含まれる体験表現とその数t(1)(1),…,t(S)(N(S));
・各本文の各文章に含まれる評価表現とその数h(1)(1),…,h(S)(N(S));
が入力される。
以下に、本実施の形態における、図15におけるステップ504の処理について図29を用いて説明する。
図29は、本発明の第3の実施の形態におけるクチコミ表現有無の判定のフローチャートである。
なお、本実施の形態では、図28のステップ501において、クチコミ情報判定処理部540にデータ記憶部501から上記の内容が入力されるものとする。上記の例として例えば、図30に示すような内容が入力される。
以下に、ステップ504の処理について説明する。
ステップ5061) クチコミ情報判定処理部540は、s番目の本文に評価表現と体験表現の両者があるかを判定し、ある場合にはステップ5062に移行し、ない場合には、ステップ5067に移行する。
ステップ5062) zに1を代入する。
ステップ5063) z>N(s)であるかを判定し、そうであればステップ5067に移行し、そうでなければステップ5064に移行する。
ステップ5064) (h(s)(z)+t(s)(z))/n(s)(z)≧Y(但し、Yは予め設定された閾値)であるかを判定し、そうであれば、ステップ5065に移行し、そうでなければステップ5066に移行する。
なお、上記の(h(s)(z)+t(s)(z))/n(s)(z)≧Yの条件の代わりに、h(s)(z)+t(s)(z)≧Yを用いて判定してもよい。
ステップ5065) s番目の本文には「クチコミ表現あり」と判定する。
ステップ5067) s番目の本文には「クチコミ表現なし」と判定する。
上記の処理により前述の図24のような出力が得られる。
また、本実施の形態では、
・本文の数:S;
・各本文に含まれる文章の数:N(1),…,N(S);
・各本文の各文章に含まれる文の数:n(1)(1),…,n(S)(N(S));
・各本文の各文章に含まれる体験表現とその数:t(1)(1),…,t(S)(N(S));
・各本文の各文章に含まれる評価表現とその数:h(1)(1),…,h(S)(N(S));
としたとき、
f(H,T)は、評価表現や体験表現全体に重みを付けて計算することもできる。
例えば、評価表現の重みをE、体験表現の重みをGとしたとき、
f(H,T)=(E×h(s)(z)+G×t(s)(z))/n(s)(z) 式(4)
また、表現全体ではなく、ある特定の語句にのみ重みを付けて計算することも可能である。それぞれの体験表現もしくは評価表現の出現数は、評価表現検査処理部520や体験表現検査処理部530にて検出されているため、次のような式ができる。
評価表現の出現種類もしくは、評価表現記憶部20にある評価表現の総数:AH;
体験表現の出現種類もしくは、体験表現記憶部21にある体験表現の総数:AT;
ある特定の評価表現:nH(0<n<AH);
ある特定の体験表現:mT(0<m<AT);
s番目の本文のある文章zの中に出現するnHの数:nH(s)(z)
(0≦nH(s)(z)≦h(s)(z))
s番目の本文にある文章zの中に出現するmTの数:mT(s)(z)
(0≦mT(s)(z)≦t(s)(z))
ある特定の表現nHにかかる重み:ne;
ある特定の表現nTにかかる重み:ng;
としたとき、
f(H,T)=Σ(ne×nH(s)(z))+Σ(ng×mT(s)(z)) 式(5)
各表現に対する重みがそれぞれ1である場合は、
h(s)(z)=ΣnH(s)(z),
t(s)(z)=ΣmT(s)(z)
となる。つまり、s番目の本文のz番目の文章に含まれる評価表現と体験表現の数と等しくなる。
また、
f(H,T)={Σ(ne×nH(s)(z))+Σ(ng×mT(s)(z))}
÷n(s)(z) 式(6)
で表すこともできる。式(4)(5)(6)、ともf(H,T)≧Y(Yは予め設定した閾値)であれば、入力がクチコミ表現であると判定することができる。
このf(H,T)は、上記の例に限定されることなく、HとTを用いた計算式で表すことができる。
[第4の実施の形態]
本実施の形態は、第1の実施の形態とクチコミ情報判定処理のみが異なる。本実施の形態におけるクチコミ情報判定処理では、入力文書のクチコミ率を求めるものである。他の処理については、第1の実施の形態と同様であるので、以下では、クチコミ情報判定処理のみを説明する。
図31は、本発明の第4の実施の形態におけるクチコミ情報判定処理のフローチャートである。
ステップ701) クチコミ情報判定処理部540に、データ記憶部501から以下の内容が入力される。
・各本文の数S;
・各本文に含まれる体験表現のあり/なし;
・各本文に含まれる評価表現のあり/なし;
ステップ702) sに1を代入し、kに0を代入する。ここで、sは本文のカウントであり、kはクチコミ表現と判定されたクチコミ情報セット数である。
ステップ703) s>Sであればステップ707に移行する。
ステップ704) s番目の本文にクチコミ表現があるかを判定し、ない場合には、ステップ706に移行し、ある場合はステップ705に移行する。本ステップの詳細な処理については、前述の図17の処理を行う。
ステップ705) kに1を加算する。
ステップ706) sに1を加算し、ステップ703に移行する。
ステップ707) 入力文書のクチコミ率を、K/S*100(%)により計算し、出力する。但し、上記のk,Kは、クチコミ表現と判定された情報セット数である。
上記のステップ707について説明する。当該ステップ707は、入力文書全体がクチコミ情報かどうか、もしくは、クチコミ率は何%かを判定する。この判定方法は、次のような関数で表すことができる。
f(K,S)
K:クチコミ表現と判定されたクチコミ情報セット数≧0
S:入力されたクチコミ情報セット数(=本文の数)≧1
例えば、
f(K,S)=K÷Sとし、
f(K,S)は、クチコミ率として次のように表現することができる。
f(K,S)=K÷S×100
本実施の形態では、クチコミ率のみが出力される。
[第5の実施の形態]
本実施の形態は、第2の実施の形態とクチコミ情報判定処理のみが異なる。本実施の形態におけるクチコミ情報判定処理では、入力文書のクチコミ率を求めるものである。他の処理については、第2の実施の形態と同様であるので、以下では、クチコミ情報判定処理のみを説明する。
図32は、本発明の第5の実施の形態におけるクチコミ情報判定処理のフローチャートである。
ステップ801において、
・本文の数:S;
・各本文に含まれる文章の数:N(1),…,N(S);
・各本文に含まれる体験表現とその数:t(1),…,t(S);
・各本文に含まれる評価表現とその数:h(1),…,h(S);
が入力される。
クチコミ情報判定処理においては、前述の第4の実施の形態における図31の処理と同様である。但し、ステップ704において、図23のステップ゜5052に示すクチコミ表現あり/なしを判定するための式((h(s)+t(s))/N(s)≧Y)を用いる。
上記の処理により、本実施の形態では、図33に示すような結果が出力される。
また、本実施の形態において、前述の第2の実施の形態と同様にクチコミ判定処理において、重みを付けることも可能である。
[第6の実施の形態]
本実施の形態では、前述の第3の実施の形態とは、クチコミ情報判定処理において入力文書のクチコミ率を求める点のみが異なる。
図34は、本発明の第6の実施の形態におけるクチコミ判定処理のフローチャートである。同図に示すフローチャートは、前述の第4の実施の形態における図31のフローチャートのステップ701のみが異なり、他の処理については第4の実施の形態と同様であるため、説明を省略する。
ステップ901) クチコミ情報判定処理部540に、データ記憶部501から以下の内容が入力される。
・各本文の数:S;
・各本文に含まれる文章の数:N(1),…,N(S);
・各本文の各文章に含まれる文の数n(1)(1),…,n(S)(N(S));
・各本文の各文章に含まれる体験表現とその数:t(1)(1),…,t(S)(N(S));
・各本文の各文章に含まれる評価表現とその数:h(1)(1),…,h(S)(N(S));
また、本実施の形態では、ステップ704の処理として、前述の第3の実施の形態と同様に図29の処理を行うものであるので、その説明を省略する。
上記の処理の結果、図33に示す結果が出力される。
また、本実施の形態において、前述の第3の実施の形態と同様にクチコミ判定処理において、重みを付けることも可能である。
なお、上記の第1〜第6の実施の形態に示す動作をプログラムとして構築し、評価表現記憶部20、体験表現記憶部21、データ記憶部501を有するコンピュータに実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをクチコミ情報判定装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、ある物事に関するユーザの声や、評判などを判定する技術や、Web検索の分類技術に適用可能である。
本発明の原理構成図である。 本発明の原理を説明するための図である。 本発明の一実施の形態における概要を説明するための図である。 本発明の一実施の形態におけるクチコミ情報判定装置の構成図である。 本発明の一実施の形態における体験表現の例である。 本発明の一実施の形態におけるクチコミ情報判定処理の概要動作のフローチャートである。 本発明の一実施の形態におけるクチコミ情報入力例である。 本発明の一実施の形態における入力文書、本文、文章、文の関係を示す図である。 本発明の第1の実施の形態におけるクチコミ情報入力html構造の例である。 本発明の第1の実施の形態における複数筆者検査処理のフローチャート(名前からスタートする例)である。 本発明の第1の実施の形態における本文抽出処理のフローチャートである。 本発明の第1の実施の形態における評価表現検査処理のフローチャートである。 本発明の第1の実施の形態における体験表現検査処理のフローチャートである。 本発明の第1の実施の形態における形態素解析結果の例である。 本発明の第1の実施の形態におけるクチコミ情報判定処理のフローチャートである。 本発明の第1の実施の形態におけるデータ記憶部のデータ例である。 本発明の第1の実施の形態におけるクチコミ表現の有無の判定のフローチャートである。 本発明の第2の実施の形態における本文抽出処理のフローチャートである。 本発明の第2の実施の形態における評価表現検査処理のフローチャートである。 本発明の第2の実施の形態における体験表現検査処理のフローチャートである。 本発明の第2の実施の形態におけるクチコミ表現の有無の判定のフローチャートである。 本発明の第2の実施の形態におけるクチコミ情報判定処理のフローチャートである。 本発明の第2の実施の形態におけるクチコミ表現の有無の判定のフローチャートである。 本発明の第2の実施の形態における出力例である。 本発明の第3の実施の形態における本文抽出処理のフローチャートである。 本発明の第3の実施の形態における評価表現検査処理のフローチャートである。 本発明の第3の実施の形態における体験表現検査処理のフローチャートである。 本発明の第3の実施の形態におけるクチコミ情報判定処理のフローチャートである。 本発明の第3の実施の形態におけるクチコミ表現有無の判定のフローチャートである。 本発明の第3の実施の形態におけるデータ記憶部のデータ例である。 本発明の第4の実施の形態におけるクチコミ情報判定処理のフローチャートである。 本発明の第5の実施の形態におけるクチコミ情報判定処理のフローチャートである。 本発明の第5の実施の形態における出力例である。 本発明の第6の実施の形態におけるクチコミ情報判定処理のフローチャートである。
符号の説明
10 コンピュータ
11 表示部
12 指示入力部
20 評価表現記憶手段、評価表現記憶部
21 体験表現記憶手段、体験表現記憶部
40 ネットワーク
501 データ記憶手段、データ記憶部
500 複数筆者検査処理部
510 本文抽出処理部
520 評価表現検査手段、評価表現検査部
530 体験表現検査手段、体験表現検査部
540 クチコミ情報判定手段、クチコミ情報判定部

Claims (10)

  1. 入力されたテキストからある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定装置であって、
    物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段と、
    物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段と、
    前記評価表現記憶手段を参照して、入力されたテキストに、物事の良し悪しを評価するような語句である評価表現が記述されているか否かを判定し、判定結果をデータ記憶手段に格納する評価表現検査手段と、
    前記体験表現記憶手段を参照して、前記入力されたテキストに、物事を利用もしくは体験・経験したことを表すような語句である体験表現が記述されているかを判定し、判定結果をデータ記憶手段に格納する体験表現検査手段と、
    前記データ記憶手段の情報を読み出して、前記評価表現検査手段で評価表現が記述されていると判定され、かつ、前記体験表現検査手段で体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数によりクチコミか否かを判定するクチコミ判定手段と、
    を有することを特徴とするクチコミ情報判定装置。
  2. 入力されたテキストの中、もしくはWebページの構造の中からある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定装置であって、
    物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段と、
    物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段と、
    前記入力されたテキストの中、もしくはWebページの構造の中に、1つ以上の文で構成された本文と該本文の筆者名やニックネームを含む名前もしくは記号、本文を記述した日付情報の組、もしくは、該本文、該名前または記号の組が繰り返し出現するかどうかを検査する複数筆者検査手段と、
    前記評価表現記憶手段を参照して、前記本文の中に、物事の良し悪しを評価するような語句である評価表現が記述されているか否かを判定し、判定結果を前記データ記憶手段に格納する評価表現検査手段と、
    前記体験表現記憶手段を参照して、前記本文の中に、物事を利用もしくは体験・経験したことを表すような語句である体験表現が記述されているかを判定し、判定結果を前記データ記憶手段に格納する体験表現検査手段と、
    前記データ記憶手段から判定結果を読み出して、前記評価表現検査手段で評価表現が記述されていると判定され、かつ、前記体験表現検査手段で体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数によりクチコミか否かを判定するクチコミ判定手段と、
    を有することを特徴とするクチコミ情報判定装置。
  3. 入力されたテキストからある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定装置であって、
    物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段と、
    物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段と、
    前記評価表現記憶手段を参照して、入力されたテキストに、物事の良し悪しを評価するような語句である評価表現が記述されているか否かを判定し、判定結果をデータ記憶手段に格納する評価表現検査手段と、
    前記体験表現記憶手段を参照して、前記入力されたテキストに、物事を利用もしくは体験・経験したことを表すような語句である体験表現が記述されているかを判定し、判定結果をデータ記憶手段に格納する体験表現検査手段と、
    前記データ記憶手段から判定結果を読み出して、前記評価表現検査手段で評価表現が記述されていると判定され、かつ、前記体験表現検査手段で体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数により、入力された前記テキストの全体のうち、前記クチコミ情報が占める比率であるクチコミ率を算出するクチコミ率算出手段と、
    を有することを特徴とするクチコミ情報判定装置。
  4. 入力されたテキストの中、もしくはWebページの構造の中からある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定装置であって、
    物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段と、
    物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段と、
    前記入力されたテキストの中、もしくはWebページの構造の中に、1つ以上の文で構成された本文と該本文の筆者名やニックネームを含む名前もしくは記号、本文を記述した日付情報の組、もしくは、該本文、該名前または記号の組が繰り返し出現するかどうかを検査する複数筆者検査手段と、
    前記評価表現記憶手段を参照して、前記本文の中に、物事の良し悪しを評価するような語句である評価表現が記述されているか否かを判定し、判定結果をデータ記憶手段に格納する評価表現検査手段と、
    前記体験表現記憶手段を参照して、前記本文の中に、物事を利用もしくは体験・経験したことを表すような語句である体験表現が記述されているかを判定し、判定結果をデータ記憶手段に格納する体験表現検査手段と、
    前記データ記憶手段から前記判定結果を読み出して、前記評価表現検査手段で評価表現が記述されていると判定され、かつ、前記体験表現検査手段で体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数により、入力された前記テキストまたは前記Webページの全体のうちの前記クチコミ情報が占める比率であるクチコミ率を算出するクチコミ率算出手段と、
    を有することを特徴とするクチコミ情報判定装置。
  5. 入力されたテキストからある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定方法において、
    物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段を参照して、入力されたテキストに該評価表現が記述されているか否かを判定し、判定結果をデータ記憶手段に格納する評価表現検査ステップと、
    物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段を参照して、前記入力されたテキストに、該体験表現が記述されているかを判定し、判定結果をデータ記憶手段に格納する体験表現検査ステップと、
    前記データ記憶手段から前記判定結果を読み出して、前記評価表現検査ステップで評価表現が記述されていると判定され、かつ、前記体験表現検査ステップで体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数によりクチコミか否かを判定するクチコミ判定ステップと、
    を行うことを特徴とするクチコミ情報判定方法。
  6. 入力されたテキストの中、もしくはWebページの構造の中からある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定方法において、
    前記入力されたテキストの中、もしくはWebページの構造の中に、1つ以上の文で構成された本文と該本文の筆者名やニックネームを含む名前もしくは記号、本文を記述した日付情報の組、もしくは、該本文、該名前または記号の組が繰り返し出現するかどうかを検査する複数筆者検査ステップと、
    物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段を参照して、前記本文の中に、該評価表現が記述されているか否かを判定し、判定結果をデータ記憶手段に格納する評価表現検査ステップと、
    物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段を参照して、前記本文の中に、該体験表現が記述されているかを判定し、判定結果をデータ記憶手段に格納する体験表現検査ステップと、
    前記データ記憶手段から前記判定結果を読み出して、前記評価表現検査ステップで評価表現が記述されていると判定され、かつ、前記体験表現検査ステップで体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数によりクチコミか否かを判定するクチコミ判定ステップと、
    を行うことを特徴とするクチコミ情報判定方法。
  7. 入力されたテキストからある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定方法において、
    物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段を参照して、入力されたテキストに該評価表現が記述されているか否かを判定し、判定結果をデータ記憶手段に格納する評価表現検査ステップと、
    物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段を参照して、前記入力されたテキストに、該体験表現が記述されているかを判定し、判定結果をデータ記憶手段に格納する体験表現検査ステップと、
    前記データ記憶手段から前記判定結果を読み出して、前記評価表現検査ステップで評価表現が記述されていると判定され、かつ、前記体験表現検査ステップで体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数により、入力された前記テキストの全体のうちの前記クチコミ情報が占める比率であるクチコミ率を計算するクチコミ率算出ステップと、
    を行うことを特徴とするクチコミ情報判定方法。
  8. 入力されたテキストの中、もしくはWebページの構造の中からある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定方法において、
    前記入力されたテキストの中、もしくはWebページの構造の中に、1つ以上の文で構成された本文と該本文の筆者名やニックネームを含む名前もしくは記号、本文を記述した日付情報の組、もしくは、該本文、該名前または記号の組が繰り返し出現するかどうかを検査する複数筆者検査ステップと、
    物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段を参照して、前記本文の中に、該評価表現が記述されているか否かを判定し、判定結果をデータ記憶手段に格納する評価表現検査ステップと、
    物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段を参照して、前記本文の中に該体験表現が記述されているかを判定し、判定結果をデータ記憶手段に格納する体験表現検査ステップと、
    前記データ記憶手段から前記判定結果を読み出して、前記評価表現検査ステップで評価表現が記述されていると判定され、かつ、前記体験表現検査ステップで体験表現が記述されていると判定された場合に、該評価表現と該体験表現による計算式で表されるクチコミ判定関数により、入力された前記テキストまたは前記Webページの全体のうちの前記クチコミ情報が占める比率であるクチコミ率を算出するクチコミ率算出ステップと、
    を行うことを特徴とするクチコミ情報判定方法。
  9. 入力されたテキストの中、もしくはWebページの構造の中からある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定プログラムであって、
    物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段と、
    物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段と、を備えたコンピュータに、
    前記請求項5乃至8記載のクチコミ情報判定方法を実現するための処理を実行させることを特徴とするクチコミ情報判定プログラム。
  10. 入力されたテキストの中、もしくはWebページの構造の中からある物事に関する体験談や利用した感想、苦情を含むクチコミ情報を判定するクチコミ情報判定プログラムを格納した記憶媒体であって、
    物事の良し悪しを評価するような語句である評価表現を格納する評価表現記憶手段と、
    物事を利用もしくは体験・経験したことを表す語句である体験表現を格納する体験表現記憶手段と、を備えたコンピュータに、
    前記請求項5乃至8記載のクチコミ情報判定方法を実現するための処理を実行させるプログラムを格納したことを特徴とするクチコミ情報判定プログラムを格納した記憶媒体。
JP2005061390A 2005-03-04 2005-03-04 クチコミ情報判定方法及び装置及びプログラム Active JP4293145B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005061390A JP4293145B2 (ja) 2005-03-04 2005-03-04 クチコミ情報判定方法及び装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005061390A JP4293145B2 (ja) 2005-03-04 2005-03-04 クチコミ情報判定方法及び装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2006244305A true JP2006244305A (ja) 2006-09-14
JP4293145B2 JP4293145B2 (ja) 2009-07-08

Family

ID=37050644

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005061390A Active JP4293145B2 (ja) 2005-03-04 2005-03-04 クチコミ情報判定方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4293145B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010152705A (ja) * 2008-12-25 2010-07-08 Dainippon Printing Co Ltd 体験情報検索システム
JP2011519444A (ja) * 2008-03-28 2011-07-07 マイクロソフト コーポレーション ウェブ・ページ上で検出した特徴に基づく広告の自動カスタム化およびレンダリング
JP5070281B2 (ja) * 2007-03-23 2012-11-07 パイオニア株式会社 情報提供システム、情報管理サーバ、情報管理方法、情報管理プログラム及び記憶媒体
WO2013074553A1 (en) * 2011-11-14 2013-05-23 Microsoft Corporation Microblog summarization
WO2013133948A1 (en) * 2012-03-07 2013-09-12 Lantian Zheng Propagating user feedback on shared posts
JP2016212499A (ja) * 2015-04-30 2016-12-15 Kddi株式会社 対話パターン自動生成装置、方法およびプログラム
WO2016199401A1 (ja) * 2015-06-11 2016-12-15 日本電気株式会社 情報処理装置、情報分析装置、情報処理方法、情報分析方法、情報処理プログラム、および情報分析プログラム
CN111079026A (zh) * 2019-11-28 2020-04-28 精硕科技(北京)股份有限公司 一种确定人物印象数据的方法、存储介质和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5070281B2 (ja) * 2007-03-23 2012-11-07 パイオニア株式会社 情報提供システム、情報管理サーバ、情報管理方法、情報管理プログラム及び記憶媒体
JP2011519444A (ja) * 2008-03-28 2011-07-07 マイクロソフト コーポレーション ウェブ・ページ上で検出した特徴に基づく広告の自動カスタム化およびレンダリング
JP2010152705A (ja) * 2008-12-25 2010-07-08 Dainippon Printing Co Ltd 体験情報検索システム
WO2013074553A1 (en) * 2011-11-14 2013-05-23 Microsoft Corporation Microblog summarization
US9152625B2 (en) 2011-11-14 2015-10-06 Microsoft Technology Licensing, Llc Microblog summarization
WO2013133948A1 (en) * 2012-03-07 2013-09-12 Lantian Zheng Propagating user feedback on shared posts
US9355080B2 (en) 2012-03-07 2016-05-31 Google Inc. Propagating user feedback on shared posts
JP2016212499A (ja) * 2015-04-30 2016-12-15 Kddi株式会社 対話パターン自動生成装置、方法およびプログラム
WO2016199401A1 (ja) * 2015-06-11 2016-12-15 日本電気株式会社 情報処理装置、情報分析装置、情報処理方法、情報分析方法、情報処理プログラム、および情報分析プログラム
CN111079026A (zh) * 2019-11-28 2020-04-28 精硕科技(北京)股份有限公司 一种确定人物印象数据的方法、存储介质和装置
CN111079026B (zh) * 2019-11-28 2023-11-24 北京秒针人工智能科技有限公司 一种确定人物印象数据的方法、存储介质和装置

Also Published As

Publication number Publication date
JP4293145B2 (ja) 2009-07-08

Similar Documents

Publication Publication Date Title
Oueslati et al. A review of sentiment analysis research in Arabic language
Kuzman et al. Automatic genre identification: a survey
CN101887414B (zh) 对包含图像符号的文本消息传达的评价自动打分的服务器
Hosseini et al. SentiPers: a sentiment analysis corpus for Persian
JP4293145B2 (ja) クチコミ情報判定方法及び装置及びプログラム
Velldal et al. NoReC: The norwegian review corpus
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
Itani et al. Corpora for sentiment analysis of Arabic text in social media
JPWO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
JP2010211594A (ja) テキスト分析装置および方法、並びにプログラム
Ädel Corpus compilation
Horn et al. Using factual density to measure informativeness of web documents
Kanan et al. Extracting named entities using named entity recognizer and generating topics using latent dirichlet allocation algorithm for arabic news articles
Serigos Applying corpus and computational methods to loanword research: new approaches to Anglicisms in Spanish
Hassel Evaluation of automatic text summarization
Park et al. Web content summarization using social bookmarks: a new approach for social summarization
Itani Sentiment analysis and resources for informal Arabic text on social media
Tariku et al. Sentiment Mining and Aspect Based Summarization of Opinionated Afaan Oromoo News Text
van der Meer et al. A framework for automatic annotation of web pages using the Google rich snippets vocabulary
Litvak et al. Multilingual Text Analysis: Challenges, Models, and Approaches
JP4726683B2 (ja) 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2006286026A (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
Wiebe et al. NRRC summer workshop on multiple-perspective question answering final report
Lin et al. The secret to popular Chinese web novels: A corpus-driven study
Arora et al. Web‐Based News Straining and Summarization Using Machine Learning Enabled Communication Techniques for Large‐Scale 5G Networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090317

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090330

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120417

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4293145

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130417

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140417

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350