JP4573358B2 - 評判情報検索装置、その方法およびプログラム - Google Patents

評判情報検索装置、その方法およびプログラム Download PDF

Info

Publication number
JP4573358B2
JP4573358B2 JP2007076578A JP2007076578A JP4573358B2 JP 4573358 B2 JP4573358 B2 JP 4573358B2 JP 2007076578 A JP2007076578 A JP 2007076578A JP 2007076578 A JP2007076578 A JP 2007076578A JP 4573358 B2 JP4573358 B2 JP 4573358B2
Authority
JP
Japan
Prior art keywords
reputation
expression
reputation expression
information
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007076578A
Other languages
English (en)
Other versions
JP2008234557A (ja
Inventor
義博 松尾
久子 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007076578A priority Critical patent/JP4573358B2/ja
Publication of JP2008234557A publication Critical patent/JP2008234557A/ja
Application granted granted Critical
Publication of JP4573358B2 publication Critical patent/JP4573358B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、自然言語テキストから、ある対象に関する意見や評価等の情報である評判情報を検索する技術に関する。
近年、自然言語テキストから評判情報を検索する、即ち評判情報を抽出し、分類又は選別する技術についての研究が進んでいる。ここで、評判情報を構成する要素としては、評価する対象を表す評価対象表現、評価する対象の仕様(性質や特徴等)やその一部分など(の具体的な評価項目)を表す評価属性、意見や評価そのものを表す評価表現がある(なお、上記以外の要素として、評価を行う人や組織を表す評価者を含む場合もあるが、本発明では省略する。)(非特許文献1参照)。
従来、自然言語テキストから所定の検索語に関連する評判情報を検索するには、非特許文献1に記載されているように、評価表現、評価属性、評価対象表現の関連を自然言語テキストから自動抽出し、所定の検索語に合致する評価対象表現に関連した評判表現(評価属性、評価表現)を出力する方法がある。また、同文献に記載されているように、所定の検索語を評価対象表現とみなし、関連する評判表現を出力する方法がある。
同文献の技術では、入力された自然言語テキストの構文構造などから、評価対象表現や評価表現等の間の関連性を出現頻度等で判定しており、これらの技術を用いると、検索語についての評判情報の一覧を文書から取得することが可能である。
乾 孝司、他「テキストを対象とした評価情報の分析に関する研究動向」自然言語処理、言語処理学会、2006年7月、Vol.13、No.3、pp.201−241
しかし、前述した従来の評判情報の検索技術では、テキストの構文情報等を基に評価対象表現や評価表現等の間の関連性を判定しているため、ブログ等に見られる、構文構造の解析が困難な崩れた言語で記載された文書から精度良く関連性を判定することは困難であった。また出現頻度等で判定する方法でも、多様な表現で評判が記載されたブログ等での関連性の判定は困難であった。
また、抽出された評判を分類する際にも、多様な表現で記述された評判を効率的に分類することは困難であった。
本発明は、上記の問題に鑑みてなされたものであり、自然言語テキストから所定の検索語に関連する評判情報を検索する評判情報検索装置において、自然言語テキストを含む文書から所定の検索語に合致した文書を検索する文書検索部と、検索した文書中から評判表現の侯補である評判表現侯補を抽出する評判表現侯補抽出部と、抽出した評判表現侯補を該評判表現侯補間の類似度に基づいて分類する評判表現分類部とを備えたことにより、評判情報の効率的な分類が可能になる。
また、自然言語テキストから所定の検索語に関連する評判情報を検索する評判情報検索装置において、自然言語テキストを含む文書から所定の検索語に合致した文書を検索する文書検索部と、検索した文書から評判表現の侯補である評判表現侯補を抽出する評判表現侯補抽出部と、抽出した評判表現侯補を該評判表現侯補間の類似度に基づいて選別する評判表現選別部とを備えたことにより、類似する評判情報が文書群中に多数出現する評判情報のみを選別することができ、対象表現に関連した評判情報を効率的に検索することが可能になる。
さらに、自然言語テキストから所定の検索語に関連する評判情報を検索する評判情報検索装置において、自然言語テキストを含む文書から所定の検索語に合致した文書を検索する文書検索部と、検索した文書中から評判表現の侯補である評判表現侯補を抽出する評判表現侯補抽出部と、抽出した評判表現侯補を該評判表現侯補間の類似度に基づいて分類する評判表現分類部と、抽出した評判表現侯補を分類結果に基づいて選別する評判表現選別部とを備えたことにより、評判情報の効率的な分類が可能になるとともに、対象表現に関連した評判情報を効率的に検索することが可能になる。
本発明によれば、評判情報の効率的な分類が可能になる。さらに、対象表現に関連した評判情報を精度良く抽出できるため、効率的に検索することが可能になる。
以下、図面を用いて本発明の実施の形態を説明する。
<第1の実施の形態>
図1は本発明の評判情報検索装置の第1の実施の形態(但し、特許請求の範囲には含まれない。)を示すもので、図中、1は入力文書蓄積部、2は文書検索部、3は検索結果記憶部、4は評判表現候補抽出部、5は評判表現候補記憶部、6は評判表現分類部である。図2は図1の装置による本発明の評判情報検索方法の流れを示すもので、以下、各部の詳細をその動作とともに説明する。
入力文書蓄積部1は、予め図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力された、自然言語テキストデータを含む複数の文書をそれぞれ、一意の識別子(文書ID)と対応させて蓄積・保持している。
文書検索部2は、入力文書蓄積部1に蓄積・保持された複数の文書中から、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力された所定の検索語に合致した文書、即ち当該所定の検索語を含む文書を検索する(s1)。
検索結果記憶部3は、文書検索部2によって検索された検索結果、例えば前述した入力文書蓄積部1中の該当文書に対応する文書IDを記憶する(s2)。
評判表現候補抽出部4は、入力文書蓄積部1に蓄積・保持された複数の文書のうち、検索結果記憶部3に記憶された検索結果、ここでは文書IDに対応する文書中から、例えば非特許文献1に記載の技術を用いて、評判表現の侯補である評判表現侯補を抽出する(s3)。
評判表現候補記憶部5は、評判表現候補抽出部4によって抽出された評判表現侯補を記憶する(s4)。
評判表現分類部6は、評判表現候補記憶部5に記憶された評判表現候補を該評判表現侯補間の類似度に基づいて分類し、出力する(s5)。
なお、前述した装置は、記録媒体もしくは通信回線を介してインストールされたプログラムを実行する周知のコンピュータによって実現することもでき、この際、入力文書蓄積部1、検索結果記憶部3及び評判表現候補記憶部5はコンピュータにおけるハードディスク等の記憶装置によって構成され、また、文書検索部2、評判表現候補抽出部4及び評判表現分類部6はコンピュータにおける演算処理装置(CPU)、メモリ等とともに図2の流れ図に対応するプログラムによって構成される。
<第2の実施の形態>
図3は本発明の評判情報検索装置の第2の実施の形態、ここでは入力文書蓄積部1に蓄積・保持された全ての文書に対して事前に評判表現侯補を抽出するようにした形態(但し、特許請求の範囲には含まれない。)を示すもので、図中、第1の実施の形態と同一構成部分は同一符号をもって表す。即ち、1は入力文書蓄積部、5は評判表現候補記憶部、6は評判表現分類部、7は評判表現候補抽出部、8は評判表現候補蓄積部、9は文書検索部である。図4は図3の装置による本発明の評判情報検索方法の流れを示すもので、以下、各部の詳細をその動作とともに説明する。
評判表現候補抽出部7は、入力文書蓄積部1に蓄積・保持された全ての文書中から、例えば非特許文献1に記載の技術を用いて、評判表現侯補を抽出する(s11)。
評判表現候補蓄積部8は、評判表現候補抽出部7によって抽出された評判表現侯補を、当該評判表現候補を抽出した文書との対応が分かるように記憶、例えば入力文書蓄積部1中の該当文書に対応する文書IDとともに記憶する(s12)。
なお、評判表現候補抽出部7によって抽出された評判表現侯補を、入力文書蓄積部1中に当該評判表現候補を抽出した文書と対応させて記憶させるようにしても良く、この場合、評判表現候補蓄積部8は不要となる。
文書検索部9は、入力文書蓄積部1に蓄積・保持された複数の文書中から、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置等から入力された所定の検索語に合致した文書、即ち当該所定の検索語を含む文書を検索し、該当文書に対応する評判表現候補を評判表現候補蓄積部8から読み出す、即ち検索した文書と文書IDが一致する評判表現候補を評判表現候補蓄積部8から読み出す(s13)。
評判表現候補記憶部5は、文書検索部9によって読み出された評判表現侯補を記憶する(s14)。
評判表現分類部6は、前記同様に、評判表現候補記憶部5に記憶された評判表現候補を該評判表現侯補間の類似度に基づいて分類し、出力する(s5)。
なお、前述した装置は、記録媒体もしくは通信回線を介してインストールされたプログラムを実行する周知のコンピュータによって実現することもでき、この際、入力文書蓄積部1、評判表現候補記憶部5及び評判表現候補蓄積部8はコンピュータにおけるハードディスク等の記憶装置によって構成され、また、評判表現分類部6、評判表現候補抽出部7及び文書検索部9はコンピュータにおける演算処理装置(CPU)、メモリ等とともに図4の流れ図に対応するプログラムによって構成される。
<第3の実施の形態>
図5は本発明の評判情報検索装置の第3の実施の形態、ここでは第1の実施の形態において評判表現侯補を分類する代わりに選別するようにした形態を示すもので、図中、第1の実施の形態と同一構成部分は同一符号をもって表す。即ち、1は入力文書蓄積部、2は文書検索部、3は検索結果記憶部、4は評判表現候補抽出部、5は評判表現候補記憶部、10は評判表現選別部である。図6は図5の装置による本発明の評判情報検索方法の流れを示すもので、以下、各部の詳細をその動作とともに説明する。
入力文書蓄積部1、文書検索部2、検索結果記憶部3、評判表現候補抽出部4及び評判表現候補記憶部5の構成並びに動作は第1の実施の形態の場合と同様である。
評判表現選別部10は、評判表現候補記憶部5に記憶された評判表現候補を該評判表現侯補間の類似度に基づいて選別し、出力する(s21)。
なお、前述した装置は、記録媒体もしくは通信回線を介してインストールされたプログラムを実行する周知のコンピュータによって実現することもでき、この際、入力文書蓄積部1、検索結果記憶部3及び評判表現候補記憶部5はコンピュータにおけるハードディスク等の記憶装置によって構成され、また、文書検索部2、評判表現候補抽出部4及び評判表現選別部10はコンピュータにおける演算処理装置(CPU)、メモリ等とともに図6の流れ図に対応するプログラムによって構成される。
なお、本実施の形態においても、第2の実施の形態の場合と同様、入力文書蓄積部1に蓄積・保持された全ての文書に対して事前に評判表現侯補を抽出するようにしても良い。
<第4の実施の形態>
図7は本発明の評判情報検索装置の第4の実施の形態、ここでは第1の実施の形態において評判表現侯補を分類した後、さらに選別するようにした形態(但し、特許請求の範囲には含まれない。)を示すもので、図中、第1の実施の形態と同一構成部分は同一符号をもって表す。即ち、1は入力文書蓄積部、2は文書検索部、3は検索結果記憶部、4は評判表現候補抽出部、5は評判表現候補記憶部、6は評判表現分類部、11は分類結果記憶部、12は評判表現選別部である。図8は図7の装置による本発明の評判情報検索方法の流れを示すもので、以下、各部の詳細をその動作とともに説明する。
ここで、入力文書蓄積部1、文書検索部2、検索結果記憶部3、評判表現候補抽出部4、評判表現候補記憶部5及び評判表現分類部6の構成並びに動作は第1の実施の形態の場合と同様である。
分類結果記憶部11は、評判表現分類部6によって分類された分類結果を記憶する(s31)。
評判表現選別部12は、分類結果記憶部11に記憶された分類結果に基づいて評判表現候補を選別し、出力する(s32)。
なお、前述した装置は、記録媒体もしくは通信回線を介してインストールされたプログラムを実行する周知のコンピュータによって実現することもでき、この際、入力文書蓄積部1、検索結果記憶部3、評判表現候補記憶部5及び分類結果記憶部11はコンピュータにおけるハードディスク等の記憶装置によって構成され、また、文書検索部2、評判表現候補抽出部4、評判表現分類部6及び評判表現選別部12はコンピュータにおける演算処理装置(CPU)、メモリ等とともに図8の流れ図に対応するプログラムによって構成される。
なお、本実施の形態においても、第2の実施の形態の場合と同様、入力文書蓄積部1に蓄積・保持された全ての文書に対して事前に評判表現侯補を抽出するようにしても良い。
<評判表現分類部の詳細>
図9は第1、第2及び第4の実施の形態における評判表現分類部6の詳細な構成を示すもので、図中、21は単語意味情報データベース(DB)、22は単語意味情報取得部、23は単語意味情報記憶部、24は評判表現意味情報計算部、25は評判表現意味情報記憶部、26は評判表現類似度分類部である。図10は図9の評判表現分類部における動作の流れを示すもので、以下、各部の詳細をその動作とともに説明する。
単語意味情報DB21は、予め言語、ここでは日本語を構成する単語毎にその単語意味情報を蓄積・保持している。ここで、単語意味情報としては、別途抽出した単語共起ベクトル(例えば、北 研二、他「音声言語処理」(森北出版)参照)などを用いることが可能である。
単語意味情報取得部22は、評判表現候補記憶部5に記憶された評判表現候補毎に、単語意味情報DB21を参照して、該評判表現侯補を構成する各単語の意味情報を取得する(s41)。なお、評判表現候補を構成する各単語は、日本語等であれば周知の形態素解析を用いて取得することが可能であり、また、単語同士が空白によって区切られる英語等の言語であれば文書を空白で分割することにより取得することが可能である。また、評判表現侯補抽出部の構成によっては、評判表現侯補の抽出過程で形態素解析を行っている場合もあり、その場合は解析結果を別途記憶しておくことにより、特段の演算を行うことなく構成単語を取得することが可能である。
単語意味情報記憶部23は、単語意味情報取得部22によって取得された評判表現侯補を構成する各単語の単語意味情報を、評判表現候補毎に記憶する(s42)。
評判表現意味情報計算部24は、評判表現候補毎に、単語意味情報記憶部23に記憶された評判表現侯補を構成する各単語の意味情報を組み合わせることにより、該評判表現候補の意味情報を計算する(s43)。なお、組み合わせ方としては、単語の意味情報がベクトルで表現されていれば、ベクトルの線形和をとる、ベクトルの重心をとる、ベクトルの線形和をとったものの長さを正規化する、などが考えられる。また、非特許文献1に記載の、評判表現として評価属性及び評価表現を独立に抽出することが可能な評判表現侯補抽出部であれば、評価属性と評価表現とに異なる重みを与えて、線形和や重心を取得することが考えられる。
評判表現意味情報記憶部25は、単語意味情報計算部24によって計算された評判表現侯補の意味情報を、評判表現候補毎に記憶する(s44)。
評判表現類似度分類部26は、評判表現意味情報記憶部25に記憶された評判表現候補毎の意味情報を用いて評判表現侯補間の類似度を求め、該類似度に基づいて評判表現候補を分類する(s45)。なお、類似度としては、評判表現候補の意味情報を表現するベクトル間のコサイン距離や内積、直交座標上のユークリッド距離を求める方法などが考えられる。また、分類手法としては階層的クラスタリングなどを行うことが可能である。
<評判表現選別部の詳細>
図11は第3の実施の形態における評判表現選別部10の詳細な構成を示すもので、図中、図9と同一構成部分は同一符号をもって表す。即ち、21は単語意味情報データベース(DB)、22は単語意味情報取得部、23は単語意味情報記憶部、24は評判表現意味情報計算部、25は評判表現意味情報記憶部、27は評判表現類似度選別部である。図12は図11の評判表現選別部における動作の流れを示すもので、以下、各部の詳細をその動作とともに説明する。
ここで、単語意味情報DB21、単語意味情報取得部22、単語意味情報記憶部23、評判表現意味情報計算部24及び評判表現意味情報記憶部25の構成並びに動作は図9の場合と同様である。
評判表現類似度選別部27は、評判表現意味情報記憶部25に記憶された評判表現候補毎の意味情報を用いて評判表現候補間の類似度を求め、該類似度に基づいて評判表現候補を選別する(s51)。なお、類似度としては、評判表現類似度分類部26の場合と同様に、評判表現候補の意味情報を表現するベクトル間のコサイン距離や内積、直交座標上のユークリッド距離を用いる方法などが考えられる。そして、各評判表現候補の類似度のスコアとして、例えば最大の類似度を採用(即ち、最も類似した評判表現との距離から算出される類似度を採用)し、類似度上位の評判表現候補のみを選別して出力する。
なお、第4の実施の形態における評判表現選別部12については、評判表現分類部6において既に評判表現候補の意味情報が算出されているため、改めての算出は不要である。評判表現分類部6において階層的クラスタリングを行った結果として、樹形図で表現されるサブクラスタ群が得られた場合、評判表現選別部12では、類似度が上位のサブクラスタのみを選別して出力することにより、分類されかつ選別された評判情報を出力することができる。
以下、具体的な例、ここでは日本語を例に挙げて本装置の動作を詳細に説明する。
<第1及び第2の実施の形態の装置の詳細な動作>
まず、入力文書蓄積部1が図13に示す複数の文書31を蓄積・保持しており、所定の検索語が”X903i”である場合の第1及び第2の実施の形態の装置の動作を説明する。
文書検索部2,9は入力文書蓄積部1に蓄積・保持された複数の文書31から、検索語”X903i”を含む文書を検索する。文書の検索は部分文字列一致でも構わないし、文書の構成単語を形態素解析で抽出して単語インデックスを作っておいても構わない。この例の場合では、文書ID=1,3,…の文書が該当文書として検索される。
第1の実施の形態の装置の場合、評判表現候補抽出部4は、入力文書蓄積部1に蓄積・保持された複数の文書31のうち、文書ID=1,3,…に対応する文書中から評判表現候補を抽出し、評判表現候補記憶部5に記憶する。
一方、第2の実施の形態の装置の場合には、評判表現候補抽出部7により、事前に全ての文書中から評判表現候補が抽出され、図14に示すように、これが文書IDとともに評判表現候補32として評判表現候補蓄積部8または入力文書蓄積部1に蓄積(入力文書蓄積部1の場合は文書31と併せて蓄積)されており、文書検索部9は文書ID=1,3,…に該当する評判表現候補を読み出し、評判表現候補記憶部5に記憶する。
次に、評判表現候補記憶部5に、図15に符号41で示す評判表現候補が記憶されている場合の評判表現分類部6の動作を、図9の各構成要素毎に説明する。
単語意味情報取得部22は、単語意味情報DB21から評判表現侯補41毎の各構成単語42の単語意味情報を取得し、単語意味情報記憶部23に記憶する。なお、構成単語42の取得は上述した通りである。
評判表現意味情報計算部24は、評判表現候補41毎に、各構成単語42の意味情報を組み合わせて評判表現候補41の意味情報を計算し、評判表現意味情報記憶部25に記憶する。組み合わせ方については、例えば、評判表現候補iの構成単語kの単語意味ベクトルをvikとした場合、評判表現候補iの意味情報eiとしては、線形和をとって、
i=Σvik
とすることができる。なお、ベクトルの重心をとったり、線形和をとったものの長さを正規化しても構わないのは上述した通りである。
また、仮に、図16に示すように、評判表現候補として評価属性51及び評価表現52が別個に抽出され、さらにそれらの構成単語53及び54が抽出される場合、評判表現候補iの評価属性の構成単語mの単語意味ベクトルをvim、評判表現候補iの評価表現の構成単語nの単語意味ベクトルをvinとし、それぞれに重みwp,weを与えて、
i=wpΣvim+weΣvin
とすることができる。この場合も、ベクトルの重心をとったり、線形和をとったものの長さを正規化しても構わない。
評判表現類似度分類部26は、得られた評判表現候補iの意味情報ei間の類似度(距離)を求め、該類似度に基づいて評判表現候補を分類する。
例えば、図16において評価属性51のみに着目して分類した場合(wp=1,we=0の場合に相当)、単語意味情報DB21には、「画面、スクリーン、液晶」および「ボタン、キー」の類似度が高いように単語意味ベクトルが記載されていることが期待される。その結果、クラスタリングをすれば、図17の樹形図のような結果が得られる。仮に点線の箇所にクラスタ抽出の閾値を設定すれば、「項番1,2,3,4」、「項番5,6」及び「項番7」の3つのクラスタが得られる。
また、評価表現52のみに着目して分類した場合(wp=0,we=1の場合に相当)には、同様に「項番1(きれい),2(美しい),4(美しい)」及び「項番3(でかい),6(大きい)」のクラスタが得られる。
さらに、両者を組み合わせた場合(例えばwp=1,we=1の場合に相当)には、評価属性と評価表現が共に類似している「項番1,2,4」が最も類似したクラスタとして得られる。
<第3の実施の形態の装置の詳細な動作>
次に、入力文書蓄積部1に蓄積された複数の文書及び所定の検索語が前記と同一である場合の第3の実施の形態の装置の動作を説明する。この場合、評判表現候補抽出部4までの動作は第1の実施の形態の場合と同一であり、また、評判表現選別部10の各構成要素を示す図11における評判表現意味情報計算部24までの動作も図9の場合と同一なので、評判表現類似度選別部27の動作についてのみ説明する。
評判表現類似度選別部27は、得られた評判表現候補iの意味情報ei間の類似度(距離)を求め、該類似度に基づいて評判表現候補を選別する。
例えば、評判表現候補iの意味情報eiと評判表現候補jの意味情報ejとの間の類似度をsim(i,j)とするとき、全ての評判表現候補から評判表現候補iを除いた各評判表現候補を評判表現候補jとしてsim(i,j)をそれぞれ求め、そのうちの最大値を類似度に基づく評判表現候補iのスコア、即ちscore(i)=max(sim(i,j))とし、全ての評判表現候補を評判表現候補iとして前記同様に行って評判表現候補毎のscore(i)を求め、当該score(i)が上位の評判表現候補を選別する。これは、最大の類似度を持つ評判表現との類似度をスコアとして用いたことになる。この時の評判表現類似度選別部27における処理の流れの一例(但し、全評判表現候補数はNとした。)を図18に示す。
また、sim(i,j)の和や平均値、sim(i,j)のべき乗和、指数関数の和、対数の和などを類似度に基づく評判表現候補iのスコアとして用いても良い。また、所定の閾値を超えるsim(i,j)の個数や所定の閾値を超えるsim(i,j)の積算値を評判表現候補iのスコアとすることも考えられる。例えば、指数関数の和であれば、score(i)=Σexp(a*sim(i,j)+b)(但し、a,bは任意の定数)と定義することができ、これは類似した評判表現の多いものを優先するスコア設定となる。同様に、和であればscore(i)=Σsim(i,j)と定義でき、べき乗和であればscore(i)=Σ(sim(i,j)^a(但し、aは任意の定数)と定義できる。また、対数の和であればscore(i)=Σlog(a*sim(i,j)+b)(但し、a,bは任意の定数)となる。さらに、これらのスコアを線形和や積で組み合わせても構わない。
図16の例で評価属性候補にのみ着目した場合には、項番1,2,3,4はそれぞれ”画面””スクリーン””液晶”と、相互に類似した評判表現が存在するためスコアが高くなる。また、項番5,6についても”ボタン”と”キー”が類似しているためスコアが高い。一方、項番7”匂い”については類似した評判が存在しないため、スコアが低くなる。結果として、項番1〜6が選別されて出力され、項番7は除かれる。評価属性候補でなく評価表現候補について着目した場合や、評価属性候補及び評価表現候補を混合した場合も同様に類似度の高いもののみが残される。
一方で、従来技術で単純に頻度でスコアを設定した場合、項番1,2は同一の属性”画面”から選別可能であるものの、その他の評判表現に関しては選別することができない。なお、ここで設定したスコアは中間スコアであって、この後段に、さらに別の観点のスコア、例えば従来技術で抽出した評判表現の抽出確信度などを付加し、組み合わせたスコアで評判表現を最終的に選別しても構わない。
<第4の実施の形態の装置の詳細な動作>
次に、入力文書蓄積部1に蓄積された複数の文書及び所定の検索語が前記と同一である場合の第4の実施の形態の装置の動作を説明する。この場合、評判表現分類部6までの動作は第1の実施の形態の場合と同一であるため、評判表現選別部12の動作についてのみ説明する。
評判表現分類部6によって分類された分類結果として、図17に示すような樹形図が得られ、分類結果記憶部11に記憶されているとする。ここで、評判表現候補iのスコアとして、属しているクラスタの類似度を用いることが考えられる。スコアの閾値として図17の点線の箇所を設定した場合、閾値を超える類似度なのは点線の右側の木となる。従って、項番1,2,3,4が含まれるクラスタと項番5,6が含まれるクラスタとが閾値を超えるため、評判表現選別部12では、分類結果記憶部11から、これらのクラスタを読み出して出力する。一方、項番7については閾値を超えるクラスタが存在しないため、出力されない。評判表現候補iの類似度としては、その他に、評判表現類似度選別部27で例示したスコアや所属するクラスタの大きさ(含まれる評判数)、あるいは、その組み合わせなどが考えられる。
なお、図17では一旦完全な樹形図を生成しているが、階層的クラスタリングでは類似度の高いもの(図の右側)から順にクラスタを生成していくため、設定した閾値に到達した時点でクラスタリングを打ち切って構わない。これは第1または第2の実施の形態の装置でも同様である。
また、上記の説明では類似度の閾値で選別したが、上位q個という選別条件や上位rクラスタという選別条件でも構わない。また、複数のスコアを設定して、それぞれをAND条件やOR条件として用いても構わない。これは第3の実施の形態の装置でも同様である。
本発明の評判情報検索装置の第1の実施の形態を示す構成図 本発明の評判情報検索方法の第1の実施の形態を示す流れ図 本発明の評判情報検索装置の第2の実施の形態を示す構成図 本発明の評判情報検索方法の第2の実施の形態を示す流れ図 本発明の評判情報検索装置の第3の実施の形態を示す構成図 本発明の評判情報検索方法の第3の実施の形態を示す流れ図 本発明の評判情報検索装置の第4の実施の形態を示す構成図 本発明の評判情報検索方法の第4の実施の形態を示す流れ図 評判表現分類部の詳細を示す構成図 評判表現分類部の動作を示す流れ図 評判表現選別部の詳細な構成図 評判表現選別部の動作を示す流れ図 入力文書蓄積部の蓄積内容の一例を示す説明図 評判表現を含めた入力文書蓄積部の蓄積内容の一例を示す説明図 評判表現候補記憶部の記憶内容の一例を示す説明図 評判表現候補記憶部の記憶内容の他の例を示す説明図 分類結果の一例を示す説明図 評判表現類似度選別処理の一例を示す流れ図
符号の説明
1:入力文書蓄積部、2,9:文書検索部、3:検索結果記憶部、4,7:評判表現候補抽出部、5:評判表現候補記憶部、6:評判表現分類部、8:評判表現候補蓄積部、10,12:評判表現選別部、11:分類結果記憶部、21:単語意味情報データベース(DB)、22:単語意味情報取得部、23:単語意味情報記憶部、24:評判表現意味情報計算部、25:評判表現意味情報記憶部、26:評判表現類似度分類部、27:評判表現類似度選別部、31:文書、32,41:評判表現候補、42,53,54:構成単語、51:評価属性、52:評価表現。

Claims (3)

  1. 自然言語テキストから所定の検索語に関連する評判情報を検索する評判情報検索装置において、
    自然言語テキストを含む文書から所定の検索語に合致した文書を検索する文書検索部と、
    検索した文書から、評価する対象の評価項目を表す評価属性、または評価する対象に関する意見もしくは評価そのものを表す評価表現を、評判表現の侯補である評判表現侯補として抽出する評判表現侯補抽出部と、
    前記評判表現候補毎に、当該評判表現侯補を構成する各単語のベクトルで表現された意味情報を取得する単語意味情報取得部と、
    前記評判表現候補毎に、前記取得した評判表現侯補を構成する各単語のベクトルで表現された意味情報の線形和をとって、当該該評判表現候補の意味情報を表すベクトルとする評判表現意味情報計算部と、
    前記評判表現候補毎に、当該評判表現侯補を除いた各評判表現候補の意味情報を表すベクトルと当該評判表現候補の意味情報を表すベクトルとの距離として算出される類似度を求め、当該評判表現候補における類似度の最大値を当該評判表現候補のスコアとし、全ての評判表現候補のうち前記スコアが上位の所定の数の評判表現候補を選別する評判表現類似度選別部とを備えた
    ことを特徴とする評判情報検索装置。
  2. コンピュータを用いて、自然言語テキストから所定の検索語に関連する評判情報を検索する評判情報検索方法において、
    コンピュータに、
    自然言語テキストを含む文書から所定の検索語に合致した文書を検索する文書検索工程と、
    検索した文書から、評価する対象の評価項目を表す評価属性、または評価する対象に関する意見もしくは評価そのものを表す評価表現を、評判表現の侯補である評判表現侯補として抽出する評判表現侯補抽出工程と、
    前記評判表現候補毎に、当該評判表現侯補を構成する各単語のベクトルで表現された意味情報を取得する単語意味情報取得工程と、
    前記評判表現候補毎に、前記取得した評判表現侯補を構成する各単語のベクトルで表現された意味情報の線形和をとって、当該該評判表現候補の意味情報を表すベクトルとする評判表現意味情報計算工程と、
    前記評判表現候補毎に、当該評判表現侯補を除いた各評判表現候補の意味情報を表すベクトルと当該評判表現候補の意味情報を表すベクトルとの距離として算出される類似度を求め、当該評判表現候補における類似度の最大値を当該評判表現候補のスコアとし、全ての評判表現候補のうち前記スコアが上位の所定の数の評判表現候補を選別する評判表現類似度選別工程とを実行させる
    ことを特徴とする評判情報検索方法。
  3. コンピュータに、請求項記載の評判情報検索方法の各工程を実行させるためのプログラム。
JP2007076578A 2007-03-23 2007-03-23 評判情報検索装置、その方法およびプログラム Active JP4573358B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007076578A JP4573358B2 (ja) 2007-03-23 2007-03-23 評判情報検索装置、その方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007076578A JP4573358B2 (ja) 2007-03-23 2007-03-23 評判情報検索装置、その方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2008234557A JP2008234557A (ja) 2008-10-02
JP4573358B2 true JP4573358B2 (ja) 2010-11-04

Family

ID=39907223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007076578A Active JP4573358B2 (ja) 2007-03-23 2007-03-23 評判情報検索装置、その方法およびプログラム

Country Status (1)

Country Link
JP (1) JP4573358B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930438B (zh) * 2009-06-19 2016-08-31 阿里巴巴集团控股有限公司 一种搜索结果生成方法及信息搜索系统
CN108256070B (zh) * 2018-01-17 2022-07-15 北京百度网讯科技有限公司 用于生成信息的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248689A (ja) * 2002-02-26 2003-09-05 Just Syst Corp 選択肢作成装置、選択肢作成方法、及び選択肢作成プログラム
JP2003271609A (ja) * 2002-03-12 2003-09-26 Mitsubishi Electric Corp 情報監視装置及び情報監視方法
JP2006252090A (ja) * 2005-03-10 2006-09-21 Nippon Telegr & Teleph Corp <Ntt> 評判情報取得装置、評判情報取得方法、プログラムおよび記憶媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003248689A (ja) * 2002-02-26 2003-09-05 Just Syst Corp 選択肢作成装置、選択肢作成方法、及び選択肢作成プログラム
JP2003271609A (ja) * 2002-03-12 2003-09-26 Mitsubishi Electric Corp 情報監視装置及び情報監視方法
JP2006252090A (ja) * 2005-03-10 2006-09-21 Nippon Telegr & Teleph Corp <Ntt> 評判情報取得装置、評判情報取得方法、プログラムおよび記憶媒体

Also Published As

Publication number Publication date
JP2008234557A (ja) 2008-10-02

Similar Documents

Publication Publication Date Title
US20040049499A1 (en) Document retrieval system and question answering system
US20130060769A1 (en) System and method for identifying social media interactions
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN109791632B (zh) 场景片段分类器、场景分类器以及记录介质
Krishnaveni et al. Automatic text summarization by local scoring and ranking for improving coherence
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
CN106708929B (zh) 视频节目的搜索方法和装置
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
CN109299221A (zh) 实体抽取和排序方法与装置
JP2014106665A (ja) 文書検索装置、文書検索方法
Khedkar et al. Customer review analytics for business intelligence
CN106570196B (zh) 视频节目的搜索方法和装置
JP4959603B2 (ja) ドキュメントを解析するためのプログラム,装置および方法
CN111339778B (zh) 文本处理方法、装置、存储介质和处理器
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN111133429A (zh) 提取表达以供自然语言处理
JP4573358B2 (ja) 評判情報検索装置、その方法およびプログラム
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP2014102625A (ja) 情報検索システム、プログラム、および方法
JP6260678B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
KR101078978B1 (ko) 문서 분류 시스템

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100128

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100816

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100816

R150 Certificate of patent or registration of utility model

Ref document number: 4573358

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350