JP4726683B2 - 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents

体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP4726683B2
JP4726683B2 JP2006105509A JP2006105509A JP4726683B2 JP 4726683 B2 JP4726683 B2 JP 4726683B2 JP 2006105509 A JP2006105509 A JP 2006105509A JP 2006105509 A JP2006105509 A JP 2006105509A JP 4726683 B2 JP4726683 B2 JP 4726683B2
Authority
JP
Japan
Prior art keywords
experience
expression
phrase
category
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006105509A
Other languages
English (en)
Other versions
JP2007280052A (ja
Inventor
佳代 池田
徹 定方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006105509A priority Critical patent/JP4726683B2/ja
Publication of JP2007280052A publication Critical patent/JP2007280052A/ja
Application granted granted Critical
Publication of JP4726683B2 publication Critical patent/JP4726683B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、インターネットのような、あらゆる種類の情報が混在するような状況の中から、その情報に含まれる文章を解析し、その文章の書き手の体験談を抽出し、提供することができる、体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
当該技術は、Web検索結果の分類などにも適用可能であり、分野や商品などに限定しない。
近年、ホテルや旅行、電化製品など様々な事柄に関して、多くの人々がインターネット上で、個人の意見を公開している。この公開場所は、ショッピングサイト自身が運営しているような様々な人の意見が集まる掲示板や、個人の意見をまとめたWeblogや個人のホームページのような場所等がある。特に、実体験に基づくユーザの声は、クチコミ情報もしくは評判情報としてマーケティングや商品開発、商品の購入検討などの支援として利用価値が高い。
このため、ユーザが実際にある物事を体験したことを記述した情報か否かを判定する技術がある(例えば、非特許文献1参照)。
これは、体験したことを記述する時に現れる記述的特徴である動詞の過去形を体験表現とし、それが記述された文章を体験情報として判定するというものである。体験表現を利用することにより、形容詞を利用した簡易な評判情報の取得方法よりも体験が記述されているより有益な評判情報が取得できる。
また、当該技術のような方法を更に発展させて、ユーザが注目するキーワードに対応する体験表現を用いて、そのキーワードに関連した文書集合を優先順位付けするような体験情報ランキング方法がある。
上記のような技術を利用する場合は、文書の形態素解析を行うことがしばしばある(例えば、非特許文献2参照)。
当該方法は、語の共起を用いて同形語の読み分けを行う日本語形態素解析システムである。語の共起は人にとって識別しやすいため、間違えにくく、確実にシステムの精度を上げることができる。
本件で扱う「体験情報」とは、ユーザが実際にある物事を体験したことを記述した情報を指す。例えば、図11のようなものがある。
図11のA,B,Cは、書き手が実際に体験したこともしくは、継続して体験していることについて「行ってきます」「食事をしています」「行ってきました」のような体験表現を利用して表現している。また、D,Eは、書き手が実際に体験した結果得た、意見や感想を「よかった」「悪かった」のような体験表現を利用して表現している。
体験情報でないものには、図11のF,Gのようなものがある。Fは、マシンが安いという条件を示しているだけで、書き手が体験したものかどうかは特定できない。Gについても、アメニティと料金という条件を示しているだけで、書き手が体験したものかどうは特定できない。
体験情報は、長文にわたるものもあれば、図11の例のように1文で表現されるものもある。
体験情報に特化せずに、ユーザが注目するキーワードについて関係のある情報を探す時は、Web検索(Google(登録商標):http://www.google.com、goo(登録商標):http://www.goo.ne.jp、ヤフー(登録商標):http://search.yahoo.co.jp/など)やブログ検索(goo(登録商標)グログ検索:http://blog.goo.ne.jp/search/search.php、livedoorブログ検索:http://sf.livedoor.com/など)がある。また、文書全体にどんな事が記述されているかを知りたい場合は、要約する方法もある。要約は、要約を行いたい文書が決まっている場合で、検索キーワードが決まっていない場合などに有効な手段である。
池田佳代、他、"体験表現を手がかりにしたBlogの評判情報判定方法の検討"電子情報通信学会、第二種研究会資料、W12-2005-36,2005 渕武志、他、"保守性を考慮した日本語形態素解析システム"、情報処理学会自然言語処理研究会報告、117-09、vol.1997-no.004, pp59-66
何らかの商品を購入検討する場合や旅行先・ホテルの選定などを行う場合、宣伝・広告のような情報よりも、誰かが実際に体験した情報が提供できれば、これらの検討支援として有効である。
また、ある文書があったとき、それを読むことなしに、その文書の筆者がどんな体験をしたのかを簡易に理解することができれば、読者が必要としている体験情報か否かを簡易に判断することもできる。
近年では個人の意見・体験した情報などが記載されるようなWeblogや掲示板などが多く存在している。しかし、これらに記述されている文章は、様々な話題が混ざり合っており、どんな事が書かれているかを把握することは困難である。例えば、アフェリエイトと呼ばれる広告のような内容もあれば、ニュースの引用などもある。また、日常起こった出来事や書き手の趣味が記述されている場合もある。Weblogにおいては、一人の書き手であっても上記のような多岐にわたった内容を複数文書(Webページもしくは、記事やエントリといった単位の場合もある)にわたって記述していることもある。
これらの文書を対象にして、欲しい情報を探す方法として、Web検索やブログ検索があるが、検索キーワードが決まっていない場合は、利用することができない。また、文書全体を要約したとしても、どれが実際に体験した情報かを判断することができない。
前述の非特許文献1のような技術では、体験表現を抽出することはできるが、何に対しての体験なのか、つまり体験の対象を抽出することができなかった。
体験表現を基に文書をランキングするような従来の技術では、1つ以上の複数文書を対象にキーワードを用いて体験情報らしさをランキングすることはできたが、ある文書においてどんな体験が書かれているかをキーワードの入力なしで判断することはできなかった。
本発明は、上記の点に鑑みなされたもので、ある文書が与えられた時に、キーワードなどの入力がなくても、その文書の筆者が何についてどのような体験を記述しているか、体験の対象と体験した事柄を提示することができる体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
図1は、本発明の原理説明図である。
本発明(請求項)は、体験情報抽出装置における体験情報抽出方法であって、
物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、
体験表現検査・抽出手段が、
体験表現と体験の対象となる語句との関係を含む情報が格納されている体験表現辞書記憶手段を参照して、入力文書中に体験表現があるか否かを検査し、体験表現がある場合には、該当する体験表現を抽出し、該体験表現辞書記憶手段から該当する体験表現と該体験表現の体験の対象となる語句を取得し、体験表現記憶手段に記憶する体験表現検査・抽出ステップ(ステップ1)と、
体験キーワード検査手段が、体験表現検査・抽出ステップで体験表現記憶手段に記憶した体験表現と該体験表現に対応する語句を選定する体験キーワード検査ステップ(ステップ2)と、を有し、
体験キーワード検査ステップにおいて、
体験表現記憶手段に記憶されている体験の対象となる語句が入力文書中にある場合は、該当する体験表現と体験の対象となる語句の関係性を判断し、関係性があると判断された体験表現と体験の対象となる語句を出力する。
また、本発明(請求項)は、請求項の体験キーワード検査ステップにおいて、
体験キーワード検査手段が、入力文書中において、該当する体験表現と体験の対象となる語句の各々が、出現する位置から測定された距離が近いほど関係性を表す値を高く算出し、
また、該当する体験表現に重みが与えられている場合は、該重みの値が高いほど関係性を表す値を高く算出し、
関係性を表す値が、事前に設定された閾値よりも高くなった場合に、関係性を持つと判断する
また、本発明(請求項)は、請求項の体験キーワード検査ステップにおいて、
体験キーワード検査手段が、該当する体験表現と体験の対象となる語句の関係性の判断を行う際に、
入力文書中で該当する体験表現と体験の対象となる語句が、該入力文書を係り受け解析した結果、係り受け関係があると見做された場合に関係性があると判断する
本発明(請求項)は、体験情報抽出装置における体験情報抽出方法であって、
物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、
体験表現検査・抽出手段が、
体験表現と体験の対象であって体験の対象となる語句を総称したカテゴリとの関係を含む情報が格納されている体験表現辞書記憶手段を参照して、入力文書中に体験表現があるか否かを検査し、体験表現がある場合には、該当する体験表現を抽出し、該体験表現辞書記憶手段から該当する体験表現と体験の対象となるカテゴリを取得し、体験表現記憶手段に記憶する体験表現検査・抽出ステップと、
体験キーワード検査手段が、体験表現検査・抽出ステップで体験表現記憶手段に記憶した体験表現と体験の対象となるカテゴリや体験の対象となるカテゴリに近い語句を選定する体験キーワード検査ステップと、を有し、
体験キーワード検査ステップにおいて、
体験表現記憶手段に記憶されている体験の対象となるカテゴリに近い語句が入力文書中にあるかどうか検査し、体験の対象となるカテゴリに近い語句がない場合には体験の対象となるカテゴリを出力し、体験の対象となるカテゴリに近い語句がある場合には、該当する体験表現と該体験の対象となるカテゴリに近い語句の関係性を判断し、関係性があると判断された体験表現と体験の対象となるカテゴリに近い語句を出力する
また、本発明(請求項)は、請求項4の体験キーワード検査ステップにおいて、
体験キーワード検査手段は、
入力文書中において、該当する体験表現と体験の対象となるカテゴリに近い語句の各々が、出現する位置から測定された距離が近いほど関係性を表す値を高く算出し、
また、該当する体験表現に重みが与えられている場合は、該重みの値が高いほど関係性を表す値を高く算出し、
関係性を表す値が、事前に設定された閾値よりも高くなった場合に、関係性を持つと判断する。
また、本発明(請求項)は、請求項の体験キーワード検査ステップにおいて、
体験キーワード検査手段は、
該当する体験表現と体験の対象となるカテゴリに近い語句の関係性の判断を行う際に、
入力文書中で該当する体験表現と体験の対象となるカテゴリに近い語句が、該入力文書を係り受け解析した結果、係り受け関係にあると見做された場合関係性があると判断する。
また、本発明(請求項)は、請求項4,5,6のいずれかの体験キーワード検査ステップにおいて、
体験キーワード検査手段は、
体験の対象となるカテゴリに近い語句が入力文書中にあるかどうか検査する際に、
入力文書を形態素解析した結果、該入力文書中に存在する語句に対して該形態素解析により分類されたカテゴリが、体験の対象となるカテゴリと一致する場合に、体験の対象となるカテゴリに近い語句が該入力文書中にあると判断する、
もしくは、語句とその語句が含まれるカテゴリ名が記録されている既存辞書記憶手段がある場合に、入力文書中に存在する語句を、該既存辞書記憶手段の情報と照合させることにより決定されたカテゴリが、体験の対象となるカテゴリと一致する場合に、体験の対象となるカテゴリに近い語句が入力文書中にあると判断する。
図2は、本発明の原理構成図である。
本発明(請求項)は、体験情報抽出装置であって、
体験表現と体験の対象となる語句との関係を含む情報が格納されている体験表現辞書記憶手段21と、
物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、
験表現辞書記憶手段21を参照し、入力文書中に体験表現があるか否かを検査し、体験表現がある場合には、該当する体験表現を抽出し、該体験表現辞書記憶手段21から該当する体験表現と該体験表現の体験の対象となる語句を取得し、体験表現記憶手段に記憶する体験表現検査・抽出手段300と、
体験表現検査・抽出手段300で体験表現記憶手段に記憶した体験表現と該体験表現に対応する語句を選定する体験キーワード検査手段310と、を有し、
体験キーワード検査手段310は、
体験表現記憶手段に記憶されている体験の対象となる語句が入力文書中にある場合は、該当する体験表現と体験の対象となる語句の関係性を判断し、関係性があると判断された体験表現と体験の対象となる語句を出力する手段を含む
また、本発明(請求項)は、請求項8の体験キーワード検査手段310において、
前記入力文書中において、前記該当する体験表現と体験の対象となる語句の各々が、出現する位置から測定された距離が近いほど前記関係性を表す値を高く算出し、
また、前記該当する体験表現に重みが与えられている場合は、該重みの値が高いほど前記関係性を表す値を高く算出し
前記関係性を表す値が、事前に設定された閾値よりも高くなった場合に、関係性を持つと判断する手段を含む
また、本発明(請求項10)は、請求項8の体験キーワード検査手段310において、
該当する体験表現と体験の対象となる語句の関係性の判断を行う際に、
入力文書中で該当する体験表現と体験の対象となる語句が、該入力文書を係り受け解析した結果、係り受け関係があると見做された場合に関係性があると判断する手段を含む
本発明(請求項11)は、体験情報抽出装置であって、
体験表現と体験の対象であって体験の対象となる語句を総称したカテゴリとの関係を含む情報が格納されている体験表現辞書記憶手段21と、
物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、
体験表現辞書記憶手段21を参照して、入力文書中に体験表現があるか否かを検査し、体験表現がある場合には、該当する体験表現を抽出し、該体験表現辞書記憶手段21から該当する体験表現と体験の対象となるカテゴリを取得し、体験表現記憶手段に記憶する体験表現検査・抽出手段300と、
体験表現記憶手段に記憶した体験表現と体験の対象となるカテゴリや体験の対象となるカテゴリに近い語句を選定する体験キーワード検査手段310と、
を有し、
体験キーワード検査手段310は、
体験表現記憶手段に記憶されている体験の対象となるカテゴリに近い語句が入力文書中にあるかどうか検査し、体験の対象となるカテゴリに近い語句がない場合には体験の対象となるカテゴリを出力し、体験の対象となるカテゴリに近い語句がある場合には、該当する体験表現と該体験の対象となるカテゴリに近い語句の関係性を判断し、関係性があると判断された体験表現と体験の対象となるカテゴリに近い語句を出力する手段を含む
また、本発明(請求項12)は、請求項11の体験キーワード検査手段310において、
入力文書中において、該当する体験表現と体験の対象となるカテゴリに近い語句の各々が、出現する位置から測定された距離が近いほど関係性を表す値を高く算出し、
また、該当する体験表現に重みが与えられている場合は、該重みの値が高いほど関係性を表す値を高く算出し、
関係性を表す値が、事前に設定された閾値よりも高くなった場合に、関係性を持つと判断する手段を含む。
また、本発明(請求項13)は、請求項11の体験キーワード検査手段310において、
該当する体験表現と体験の対象となるカテゴリに近い語句の関係性の判断を行う際に、
入力文書中で該当する体験表現と体験の対象となるカテゴリに近い語句が、該入力文書を係り受け解析した結果、係り受け関係にあると見做された場合関係性があると判断する手段を含む
また、本発明(請求項14)は、請求項11,12,13のいずれかの体験キーワード検査手段310において、
体験の対象となるカテゴリに近い語句が入力文書中にあるかどうか検査する際に、
入力文書を形態素解析した結果、該入力文書中に存在する語句に対して該形態素解析により分類されたカテゴリが、体験の対象となるカテゴリと一致する場合に、体験の対象となるカテゴリに近い語句が該入力文書中にあると判断する、
もしくは、語句とその語句が含まれるカテゴリ名が記録されている既存辞書記憶手段がある場合に、入力文書中に存在する語句を、該既存辞書記憶手段の情報と照合させることにより決定されたカテゴリが、体験の対象となるカテゴリと一致する場合に、体験の対象となるカテゴリに近い語句が入力文書中にあると判断する手段を含む。
本発明(請求項15)は、コンピュータを、請求項8乃至14のいずれか1項に記載の体験情報抽出装置の各手段として機能させるための体験情報抽出プログラムである。
本発明(請求項16)は、コンピュータを、請求項8乃至14のいずれか1項に記載の体験情報抽出装置の各手段として機能させるための体験情報抽出プログラムを格納した当該コンピュータ読み取り可能な記録媒体である。

上記のように本発明によれば、キーワードなどの入力がなくても、文書中に書かれている体験表現を探し、それが何についての体験なのかを判定することができるため、その文書の筆者が何についてどのような体験を記述しているか(体験の対象と体験した事柄)を提示することができる。
これは、従来技術に比べて、注目キーワードが不要となるだけでなく、文書が複数あった場合には、体験の対象とその体験した事柄でまとめることで、文書を分類することもできるようになる。
以下、図面と共に本発明の実施の形態を説明する。
ある文書があったときその中から体験(体験表現)とその体験の対象(対応するキーワードもしくはカテゴリ)を抽出し、提示する例を示す。
図3は、本発明の概要を説明するための図であり、図4は、本発明の一実施の形態における体験情報抽出装置の構成を示す。
実施の形態の詳細を以下に示す。
テキスト文書が入力されると、体験情報抽出装置は、体験表現辞書記憶部21に格納されている体験表現が入力文書中に存在するかを調べ、体験表現が存在する場合に、当該体験表現に基づいて体験表現記憶部20を参照して、抽出された体験表現の対象となる体験キーワードもしくはカテゴリを選定する。
図4に示す体験情報抽出装置は、コンピュータ10と、このコンピュータ10にネットワーク40を介して接続される、もしくは、コンピュータ10の中に内蔵されている体験表現記憶部20と体験表現辞書記憶部21で構成されている。
但し、体験表現記憶部20は必須ではなく、代わりにメモリ上に同様の情報を記憶することでも実現できる。
コンピュータ10は、RAM、ROM、磁気ディスク等からなるメモリ、CPU13、ディスプレイによる表示部11、及びマウスやキーボードなどからなる指示入力部12から構成されており、CPU13が実行するソフトウェアプログラムによって実現される体験表現検査・抽出処理部300、体験キーワード検査処理部310を備えている。
図5は、本発明の一実施の形態における体験表現辞書記憶部の例を示す。
例えば、図5のように、体験表現辞書記憶部21は、地名や人物名などの「カテゴリ名」とそのカテゴリに含まれる「語句」とその語句に「関連する体験表現」で構成されている。体験表現は、物事を体験・経験したことを表すような語句が相当する。例えば、「行った」という体験表現が与えられた場合、「行った」の対象となるカテゴリは、「飲食店」、語句では「レストラン、食堂、カフェ、…」となる。ここで、体験表現と共に括弧内に書かれている数字は、それぞれの体験表現の重みであり、「語句」や「カテゴリ」に対してどれだけ関係が深いかの強度を表している。この重みは必須ではない。また、「カテゴリ名」に相当する語句は、「語句」の総称するようなもので、分類辞典などを利用しても良いし、利用目的に合わせて装置を構築する際に適宜作成しても良い。但し、この「カテゴリ名」の欄は必須ではない。また、これら全ての情報は、事前に与えられている。
体験表現においては、図5のように表現そのものが格納されている場合もあれば、品詞の原形「行く、見る、食べる、等」とそれに対応する表現形態{してみた、したことがある、等}が格納されている場合もある。また、品詞の原形{行く、見る、食べる、等}とそれに対応する図6のような形態素解析した後の品詞の組み合わせのルール{動詞語幹+動詞活用語尾+動詞接尾辞+動詞語幹の連用「みる」+動詞接尾辞の終始「ました」、等}が格納されている場合もあれば、上記が混合された情報が格納されている場合もある。
図7は、本発明の一実施の形態における体験表現記憶部の例を示す。同図のように、体験表現記憶部20には、入力文書中に存在する「体験表現」とその体験表現の「対象となるカテゴリ」や「対象となる語句」とがセットになって格納されている。また、必要に応じて入力文書中に該当する体験表現がどこにあるかを示す「アドレス」(入力文書の先頭から数えたバイト数や形態素解析後の形態素数など)を格納しておいてもよい。図5のように体験表現それぞれに重みが与えられている場合は、その重みも体験表現と共に格納される。
体験表現記憶部20には、事前に情報が格納されている場合もあるが、処理を行う過程で、随時情報が格納されたり、削除されたりする場合もある。図7では、入力文書の先頭から数えたバイト数の「アドレス」と「体験表現」、「対象となるカテゴリ」、「対象となる語句」の4つの情報が格納されているが、「体験表現」と「対象となるカテゴリ」または「体験表現」と「対象となる語句」の2組の情報、もしくは、「体験表現」「対象となる語句」「対象となるカテゴリ」の3組の情報が格納されているだけでもよい。該当する体験表現は、必ずしも1つのレコード(ある体験表現とそれに対応したカテゴリや語句)とは限らず、複数レコードになる場合がある。例えば、図7のように体験表現が「行ってみた」の場合は、図5の体験表現辞書記憶部21では、「行ってみた」を含むレコードは2つある。このため、図7の体験表現記憶部20では、2レコードにわたって「行ってみた」の情報が記録されている。
体験表現辞書記憶部21と体験表現記憶部20は、このように構成される装置の基で、以降に説明する処理を実行することで、本発明を実現するように動作する。
入力となるテキストは、例えば、図8の本発明の一実施の形態における入力文書例のようなものがある。出力は、入力文書から抽出した体験表現とその対象となる語句もしくはカテゴリなどである。本実施の形態では、図8の文書を入力とした例を示す。詳細については以降の各処理部に示す。
[1]体験表現検査・抽出処理部300:
体験表現検査・抽出処理部300は、入力文書を基に体験表現を検査抽出する処理を行う。検査・抽出方法はさまざまであるが、本実施の形態では、図9を用いて説明する。
図9は、本発明の一実施の形態における体験表現検査・抽出処理のフローチャートである。
ステップ101) 体験表現辞書記憶部21を参照し、当該体験表現辞書記憶部21に格納されている体験表現が入力文書内に存在するか否かを検査する。
この際、体験表現辞書記憶部21に格納されている体験表現の形式によって、検査方法が異なる。検査方法の代表的な例について以下に説明する。
・表現そのものである場合:文書内のテキストと体験表現辞書記憶部21の体験表現とを文字列の照合により比較することで検査できる。
・品詞の原形+表現形態{してみた、した事がある、等}の場合:文書内のテキストと体験表現辞書記憶部21の表現形態とを文字列の照合により比較し、合致するものがあれば、その合致した表現形態の前に存在する語句の品詞の原形を確認する。その品詞の原形が、体験表現辞書記憶部21にある組み合わせ(品詞の原形+該当する表現形態)と同一であるかどうかを確認することで検査できる。
・品詞の組み合わせのルールの場合:入力文書を形態素解析し、体験表現辞書記憶部21の組み合わせルールと同一の組み合わせがあるかどうかを確認することで検査できる。
体験表現辞書記憶部21には、上記3タイプが混合して格納されている場合もある。その場合には、それぞれの適する方法を用いて検査すればよい。また、上記は代表的な例であるため、必ずしもこの限りではない。例えば、同じ言葉ではあるが、表記の仕方が異なるような口語体や丁寧語、尊敬語などの表記のゆれを事前に統一してから、この体験表現検査・抽出処理部300を利用する場合もあれば、ステップ101の中で表記のゆれを統一する場合もある。また、体験表現辞書記憶部21の内容に関係なく、形態素解析を事前に実施してステップ101を行う方法もある。
ステップ102) ステップ101において該当する体験表現がある場合は、ステップ103へ移行し、ない場合は処理を終了する。
ステップ103) 該当する「体験表現」と体験表現辞書記憶部21において該当する体験表現と対応している「カテゴリ名」や「語句」などを体験表現記憶部20に格納し、終了する。体験表現辞書記憶部21には、必ずしも「体験表現」「カテゴリ名」「語句」の3つの情報が格納されているわけではない。このため、体験表現記憶部20には、体験表現辞書記憶部21に格納されている該当する体験表現に関わる情報を格納する。この際、入力文書中に該当する体験表現がどこにあるかを示す「アドレス」(入力文書の先頭から数えたバイト数や形態素解析後の形態素数など)を体験表現記憶部20に記憶させることもできる。このアドレスを記憶させる代わりに、入力文書中に、該当する体験表現の出現部分にタグや記号などを挿入し、解析の目印に利用することもできる。
該当する体験表現に関係する「カテゴリ」と「語句」は、図5のように複数存在するため、1つの体験表現に対して、図6の体験表現記憶部20の例のように複数レコードにわたってカテゴリや語句が格納される場合もある。
本実施の形態では、体験表現記憶部20に格納する例を示したが、同様にコンピュータのメモリ上に記憶させることでも代用できる。
入力文書は、複数文にわたるものもあるが、入力文書内を全て解析し、含まれる体験表現を検査する。よって含まれる体験表現が複数になる場合もある。この際、表記が同一の体験表現が複数見つかった場合は、重複して記録してもよいが、既に記録されている体験表現のレコードに「アドレス」などの重複しない情報を追加するだけでもよい。アドレスカラム(欄)がない場合は、体験表現記憶部20に出現回数カラム(欄)を設けて、該当する体験表現の出現回数を記録しておく方法でも実現できる。本実施の形態では、入力文書中に含まれる体験表現を一度に検査抽出する例を示したが、体験表現辞書記憶部21に含まれる個々の体験表現が入力文書中に存在するか否かを一つ一つ調べ、見つかったものから順に体験表現記憶部20に格納、もしくはメモリに記憶していくという手順でもよい。
以上を、図8のような入力文書を用いて説明すると、次のようになる。図5のような体験表現辞書記憶部21があったとき、図8のような入力文書と図5の関連する体験表現を比較すると、「行ってみた」「良かった」が合致する。ここで、入力文書では「行ってみました」という体験表現であるが、「行ってみました」は「行ってみた」の丁寧な言葉であるので、同一と見做す。日本語の表記は、様々に存在するため、体験表現のルールとして丁寧語を含めた敬語は、敬語を用いていない表現と同一としてみなすように予め決めておくことが適当である。この「行ってみた」「良かった」を図7のように体験表現記憶部20へ格納するか、メモリ上に記憶させることで処理が終了する。
[2]体験キーワード検査処理部310:
体験キーワード検査処理部310は、体験表現検査・抽出処理部300で検出した体験表現を基に入力文書中に存在する体験の対象(語句もしくはカテゴリ)を検査する。検査方法は、様々であるが、本実施の形態では、図10を用いて説明する。
図10は、本発明の一実施の形態における体験キーワード検査処理のフローチャートである。
ステップ201) 変数kに1を代入する。
ステップ202) 体験表現記憶部20に格納されているk番目の体験表現が対象とするカテゴリや、語句を参照し、コンピュータ10のメモリ(図示せず)上に記憶する。この場合のk番目とは、入力文書中もしくは体験表現記憶部20に出現するk番目の体験表現であり、体験表現記憶部20の中で複数のレコードにわたって格納されていても、表記もしくはアドレスが同一の体験表現は1つとカウントする。但し、入力文書中に複数回出現する体験表現は、別々に処理(カウント)する。例えば、入力文書中に体験表現として、「行った」が3回、「良かった」が1回出現する場合、体験表現の総数Kは4となり、「行った」は3回検査されることになる。
体験表現記憶部20にアドレスが格納されていない場合は、入力文書中において体験表現の出現部分にタグや記号などが挿入されているので、その出現順序をカウントした番号が値する。入力文書中にタグや記号が挿入されていない場合は、体験表現記憶部20に格納されている体験表現をもとに入力文書中から、再度該当する体験表現を探し、発見された体験表現の順番がkに相当し、体験表現がすべて処理された時の体験表現の総数がKとなる。Kについてはステップ210を参照のこと。
また、本実施の形態では、各体験表現毎に体験表現記憶部20を参照し、メモリ上に記憶する処理を繰り返す例を示している、体験表現記憶部20にある情報を全てメモリ上に記憶し、その情報を参照しながら以降に述べる処理を実施する方法でもよい。また、メモリを利用せずに、処理を進める上で、必要な時に体験表現記憶部20を参照する方法でもよい。
ステップ203) k番目に該当する体験表現の対象となる語句がメモリ上にある場合は、ステップ204へ移行し、ない場合は、ステップ212に移行する。ここで、メモリの検査を行うのは、体験表現記憶部20が対象となる語句の情報を持たず、対象となるカテゴリのみの情報を持っている可能性があるためである。
ステップ204) 入力文書中に、該当する語句との文字列の照合による検査を行う。これは、単に文字列を照合させる方法や、入力文書を事前に形態素解析したり、地名や人名などの固有表現を抽出することのできる固有表現抽出器を用いて抽出した結果と照合してもよい。
ステップ205) 入力文書中に該当する語句が存在する場合は、ステップ206へ移行し、ない場合はステップ211へ移行する。
ステップ206) 該当する語句と体験表現との関係性を判断する。関係性を判断する方法は、様々であるが、例えば次に示すような3つの方法を用いることができる。
1) 同一文中に該当する体験表現と該当する語句が存在している場合、CaboCha(http://chasen.org/〜taku/software/cabocha/)のような係り受け解析器を用いて、該当する語句が体験表現に係り受けている場合のみ、関係性を持つと判断する方法:
例えば、該当する語句が「温泉」で該当する体験表現が「行ってみた」の時、「温泉へ行ってみた。」という文は係り受け解析器によると「温泉へ」が「行ってみた」に係ると判定される。これにより、「温泉」という語句は、「行ってみた」と関係性を持つと判断できる。
1つの体験表現に対し、複数の該当する語句がある場合でも、係り受け関係があれば、全て関係性を持つと判断する。
2) 入力文書の中で、ある一定の範囲内(例えば、同一文上、同一段落上、同一文書中、予め設定された語句と体験表現との出現位置をもとにした距離など)に、該当する体験表現と語句が出現すれば、関係性を持つと判断する方法:
予め設定された語句と体験表現との距離は、例えば、体験表現と語句との間のバイト数や形態素数などが相当する。この閾値が無限大もしくは設定なしであれば、同一文書内に出現する、該当する体験表現と語句は関係性を持つことになる。1つの体験表現に対し、複数の該当する語句がある場合、最も距離が近い語句のみを関係性があると判断することもできるし、ある閾値内の距離に存在する語句に限って関係性があると判断することもできる。この閾値の判定の基準については、予め設定しておく。
3) 該当する体験表現と該当する語句の距離が近ければ近いほど関係性が高くなる式を用いて、予め設定されている閾値X以上の値となれば、関係性を持つと判断する方法:
例えば、次のような関係性算出式(F)で表すことができる。
F=(1÷│該当する語句と該当する体験表現の間のバイト数│)×Y
F>Xであれば関係性を持つと判断する。但し、Yは予め設定されている値とするとが、Yが設定されていない場合は、Y=1としてFを算出することができる。
体験表現が重みを持つ場合、例えば、Yは、次のような設定の仕方がある。
Y=(該当する語句に対応する体験表現の重み)
「良かった」という体験表現があったときに、図7では、飲食店カテゴリでの重みは“1”だが、地名・観光地名カテゴリでは、重みが“2”である。このときに、該当する語句が「温泉」であった場合、「温泉」は地名・観光地名カテゴリに入るため、重み“2”が利用されることになる。
例えば、該当する語句が「温泉」で該当する体験表現が「行ってみた」の時、「温泉へ行ってみた。」という文は「温泉」と「行ってみた」の距離は、2バイトとなる。X=1、Y=5のとき、
F=(1÷│2│)×5
=0.5×5=2.5
>1
よって、「温泉」という語句は、「行ってみた」と関係性を持つと判断できる。
1つの体験表現に対し、複数の該当する語句がある場合でも、関係算出式Fの値が、閾値X以上となれば、全ての該当する語句を関係性があると判断する。
ステップ207) ステップ206によって、該当する語句と体験表現に関係性があると判断された場合は、ステップ208へ移行し、関係性がないと判断された場合はステップ211に移行する。
ステップ208) 該当する語句と体験表現を出力する。
ステップ209) 変数kにk+1を代入する。
ステップ210) 変数kが入力文書中に出現する体験表現の総数Kと等しいか、Kよりも小さい場合は、ステップ202へ移行する。k>Kの場合、つまり入力文書中に出現する体験表現全てに対して処理を終えた場合は、処理を終了する。
ステップ211) 該当する体験表現の対象となるカテゴリがメモリ上にある場合は、ステップ212に移行する。ない場合はステップ209に移行する。
ステップ212) 該当する体験表現が属する「対象となるカテゴリ」に近い語句が、入力文書中にあるか否かを検査する。但し、ある一つの体験表現(ここではk番目の体験表現を指す)を処理中にステップ206を通ってステップ211へ進んだ場合は、ステップ206で関係性がないと判断された語句以外を検査対象とする。
対象となるカテゴリに近い語句とは、例えば、次のように選定することができる。
1) カテゴリが地名や人名などの形態素解析器もしくは固有表現抽出器で判定できるような物である場合:
入力文書の中で、該当する体験表現を含んだある一定の範囲(例えば、同一文上、同一段落上、同一文書中、予め設定された語句と体験表現との距離など)を対象に、形態素解析器もしくは固有表現抽出器で解析する。その結果、形態素解析器もしくは固有表現抽出器が、該当するカテゴリと同一カテゴリであると判定した語句を「対象となるカテゴリに近い語句」と判断する方法。予め設定された語句と体験表現との距離とは、例えば、体験表現と語句との間のバイト数や形態素数などが相当する。
1つの体験表現に対し、複数の語句が対象とするカテゴリに相当すると判断された場合、最も距離が近い語句のみを対象となるカテゴリに近い語句として判断することもできるし、ある閾値内の距離に存在する語句に限って判断することもできる。この閾値や判定の基準については、予め設定しておく。
2)辞書がある場合:
予め、ある語句とその語句が含まれるカテゴリ名が記録されているような辞書(既存辞書記憶部)がある場合に、次のことを行う。入力文書中に存在する語句を、その辞書(既存辞書記憶部)と照合させ、辞書中に対応付けられた語句とカテゴリが存在する場合で、かつそのカテゴリが体験表現検査・抽出処理部300において記録された体験の対象となる語句を総称したカテゴリと一致する場合に、入力文書中に存在する語句が体験の対象となる語句を総称したカテゴリに含まれると判断する方法。この場合も上記の1)と同様に予め該当する体験表現を含んだある一定の範囲(例えば、同一文上、同一段落上、同一文書中、予め設定された語句と体験表現との距離など)を対象に、実施することもできる。
ステップ213) 該当する体験表現が属する「対象となるカテゴリ」に近い語句がある場合は、その語句を「体験表現の対象となる語句」とし、ステップ206へ移行する。ない場合は、ステップ214へ移行する。
ステップ214) 該当する体験表現と対象となるカテゴリを出力し、ステップ209に移行する。
このとき、該当する体験表現を含むカテゴリを全て出力してもよいし、例えば、次のような方法を用いて、ふさわしいカテゴリを判定してもよい。
該当する体験表現に重みがある場合:重みの値が一番大きい対象カテゴリを相応しいカテゴリをとして判定する。該当する体験表現に対する対象カテゴリが複数ある場合で、体験表現の重みが同一の場合は、両者を相応しいカテゴリとして判定する。但し、予め設定した閾値Zよりも低い重みの場合は、相応しくないと判定する。
以上のような方法によって、対象となるカテゴリに近い語句もしくは、相応しいカテゴリが判定された場合は、その語句もしくはカテゴリと該当する体験表現を出力する。
以上を、図8のような入力文書を用いて、体験情報検査・抽出処理部300の処理の続きから説明すると、次のようになる。体験情報検査・抽出処理部300の処理によって図7のような体験表現記憶部20が作られたとき、図8のような入力文書を入力として体験キーワード検査処理が行われる。
まず、体験表現記憶部20に格納されている「アドレス」の一番若い番号である「行ってみた」に関わる情報全てをメモリ(図示せず)上に記憶する。図7の通り、本実施の形態では、体験表現各々に対し、その体験の対象となる語句が存在するため、該当する語句を用いて、入力文書中に該当する体験表現の対象となる語句があるか否かを検査する。ここでは、メモリ(図示せず)を参照すると、「行ってみた」の対象となる語句の中に「温泉」という語句が存在し、入力文書中にも「温泉」という語句があることが分かる。この判断は、入力文書内を「温泉」によって文字列の照合を行うことで、語句の照合を確認できる。ここで、該当する語句「温泉」と体験表現「行ってみた」の関係性を判断する。この判断の方法を「入力文書の中で、2文以内に該当する体験表現と語句が出現すれば、関係性を持つと判断する方法」を利用すると設定された場合、「温泉」と「行ってみた」は、同一文中に存在することから、関係性を持つと判断される。そこで、「温泉」「行ってみた」を出力する。
次に、2番目の体験表現「良かった」を基に検査が行われる。図7の体験表現記憶部20にある体験表現「良かった」に関わる全ての情報をメモリ(図示せず)上に記憶する。入力文書と体験表現「良かった」の対象となる語句それぞれについて文字列の照合を行う。その結果、対象となる語句の中で「温泉」が入力文書と合致することがわかる。ここで、該当する語句「温泉」と体験表現「良かった」の関係性を判断する。判断方法は、「行ってみた」を判断した時と同様の方法を使うことにすると、「温泉」と「良かった」は、2文字以内に存在することから両者は関係性を持つと判断される。そこで、「温泉」「よかった」を出力する。
体験表現は、「行ってみた」と「良かった」の2つのみであるため、以上をもって体験キーワード検査処理を終了する。
本実施の形態では、図8のような入力文書があった場合、体験表現検査・抽出処理と体験キーワード検査処理を経て、“体験キーワード「温泉」と体験表現「行ってみた」、体験キーワード「温泉」と体験表現「よかった」”が出力される例を示した。このようにして、該当する語句または、カテゴリと該当する体験表現とを出力することで、この入力文書が「温泉へ行ってその感想としてよかった」という実体験が記述されているだという内容を、文書を読むことなしに提供することができる。
本実施の形態では、単一文書を入力として与えているが、体験表現検査・抽出処理と体験キーワード検査処理を繰り返し行うことで、複数文書に対して適用することができる。また、複数文書において、同一の「対象となる語句」や「カテゴリ」が存在した場合は、それらの文書をまとめることで、同一の事柄に対する体験情報として入力文書を分類することもできる。
また、本実施の形態では、体験表現辞書記憶部21として体験表現にのみ重みを持たせた例を示したが、カテゴリや語句そのものにも重みを持たすことも可能であり、それらを体験キーワード検査処理部310の処理のステップ206で示した関係算出式に利用することも可能である。体験表現やカテゴリ、語句の重みの持たせ方は、事前に持たせておくこと以外に、ユーザの利用要求やサービスに従って重みを変化させることが可能である。例えば、電子機器のみに興味があるユーザへのサービス、もしくは電子機器に焦点を当てたサービスへの適用時には、電子機器に関するカテゴリや語句、それに対応する体験表現に、より重みを加算させ、それ以外のカテゴリや語句、体験表現に対しては、重みを低くさせることなどができる。
本実施の形態では、体験表現記憶部20もしくは、その代わりにメモリ上に同様の情報を記憶する例を示したが、次のような方法でも実現することができる。体験情報検査・抽出処理部300の処理を行わず、直接体験キーワード検査処理部310の処理を実行し、体験表現記憶部20の代わりに、体験表現辞書記憶部21を用いる。この場合、体験キーワード検査処理部310のステップ201の処理の前に、体験情報検査・抽出処理部300のステップ101のような処理“入力文書中に体験表現辞書記憶部21に格納されている体験表現があるか否かを検査”し、入力文書中に存在する体験表現のみについて、体験キーワード検査処理部310のステップ201以降の処理を実施する方法がとれる。
また、本発明は、体験表現検査・抽出処理部300、体験キーワード検査部310の動作をプログラムとして構築し、体験情報抽出装置として利用されるコンピュータにインストールし、実行させる、またはネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD-ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、インターネット上の人々の意見や評価が記述された評判情報を検索する際に利用したり、対象となる物事を購入や利用する時の検討の指標にしたり、収集した評判情報の日付を基に最近の話題となっている物事を分析する技術に適用可能である。
また、情報の信頼性を高くするために、人々の体験情報を探すときに利用することや、これを利用した商品企画やマーケティングなどに適用可能である。
本発明の原理説明図である。 本発明の原理構成図である。 本発明の概要を説明するための図である。 本発明の一実施の形態における体験情報抽出装置の構成図である。 本発明の一実施の形態における体験表現辞書記憶部の例である。 本発明の一実施の形態における体験表現記憶部の例である。 本発明の一実施の形態における体験表現記憶部の例である。 本発明の一実施の形態における入力文書例である。 本発明の一実施の形態における体験表現検査・抽出処理のフローチャートである。 本発明の一実施の形態における体験キーワード検査処理のフローチャートである。 体験情報の例である。
符号の説明
10 コンピュータ
11 表示部
12 指示入力部
13 CPU
20 体験表現記憶手段、体験表現記憶部
21 体験表現辞書記憶手段、体験表現辞書記憶部
300 体験表現検査・抽出手段、体験表現検査・抽出処理部
310 体験キーワード検査手段、体験キーワード検査部

Claims (16)

  1. 体験情報抽出装置における体験情報抽出方法であって、
    物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、
    体験表現検査・抽出手段が、
    体験表現と体験の対象となる語句との関係を含む情報が格納されている体験表現辞書記憶手段を参照して、入力文書中に体験表現があるか否かを検査し、体験表現がある場合には、該当する体験表現を抽出し、該体験表現辞書記憶手段から該当する体験表現と該体験表現の体験の対象となる語句を取得し、体験表現記憶手段に記憶する体験表現検査・抽出ステップと、
    体験キーワード検査手段が、前記体験表現検査・抽出ステップで前記体験表現記憶手段に記憶した前記体験表現と該体験表現に対応する語句を選定する体験キーワード検査ステップと、を有し、
    前記体験キーワード検査ステップにおいて、
    前記体験表現記憶手段に記憶されている体験の対象となる語句が前記入力文書中にある場合は、該当する体験表現と体験の対象となる語句の関係性を判断し、関係性があると判断された体験表現と体験の対象となる語句を出力する
    ことを特徴とする体験情報抽出方法。
  2. 前記体験キーワード検査ステップにおいて、
    前記体験キーワード検査手段は、
    前記入力文書中において、前記該当する体験表現と体験の対象となる語句の各々が、出現する位置から測定された距離が近いほど前記関係性を表す値を高く算出し、
    また、前記該当する体験表現に重みが与えられている場合は、該重みの値が高いほど前記関係性を表す値を高く算出し
    前記関係性を表す値が、事前に設定された閾値よりも高くなった場合に、関係性を持つと判断する、
    請求項記載の体験情報抽出方法。
  3. 前記体験キーワード検査ステップにおいて、
    前記体験キーワード検査手段は、
    前記該当する体験表現と前記体験の対象となる語句の関係性の判断を行う際に、
    前記入力文書中で該当する体験表現と体験の対象となる語句が、該入力文書を係り受け解析した結果、係り受け関係があると見做された場合関係性があると判断する、
    請求項記載の体験情報抽出方法。
  4. 体験情報抽出装置における体験情報抽出方法であって、
    物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、
    体験表現検査・抽出手段が、
    体験表現と体験の対象であって体験の対象となる語句を総称したカテゴリとの関係を含む情報が格納されている体験表現辞書記憶手段を参照して、入力文書中に体験表現があるか否かを検査し、体験表現がある場合には、該当する体験表現を抽出し、該体験表現辞書記憶手段から該当する体験表現と体験の対象となるカテゴリを取得し、体験表現記憶手段に記憶する体験表現検査・抽出ステップと、
    体験キーワード検査手段が、前記体験表現検査・抽出ステップで前記体験表現記憶手段に記憶した前記体験表現と体験の対象となるカテゴリや体験の対象となるカテゴリに近い語句を選定する体験キーワード検査ステップと、を有し、
    前記体験キーワード検査ステップにおいて、
    前記体験表現記憶手段に記憶されている体験の対象となるカテゴリに近い語句が入力文書中にあるかどうか検査し、体験の対象となるカテゴリに近い語句がない場合には体験の対象となるカテゴリを出力し、体験の対象となるカテゴリに近い語句がある場合には、該当する体験表現と該体験の対象となるカテゴリに近い語句の関係性を判断し、関係性があると判断された体験表現と体験の対象となるカテゴリに近い語句を出力する
    ことを特徴とする体験情報抽出方法。
  5. 前記体験キーワード検査ステップにおいて、
    前記体験キーワード検査手段は、
    前記入力文書中において、前記該当する体験表現と体験の対象となるカテゴリに近い語句の各々が、出現する位置から測定された距離が近いほど前記関係性を表す値を高く算出し、
    また、前記該当する体験表現に重みが与えられている場合は、該重みの値が高いほど前記関係性を表す値を高く算出し、
    前記関係性を表す値が、事前に設定された閾値よりも高くなった場合に、関係性を持つと判断する
    請求項記載の体験情報抽出方法。
  6. 前記体験キーワード検査ステップにおいて、
    前記体験キーワード検査手段は、
    前記該当する体験表現と前記体験の対象となるカテゴリに近い語句の関係性の判断を行う際に、
    前記入力文書中で該当する体験表現と体験の対象となるカテゴリに近い語句が、該入力文書を係り受け解析した結果、係り受け関係にあると見做された場合関係性があると判断する
    請求項4記載の体験情報抽出方法。
  7. 前記体験キーワード検査ステップにおいて、
    前記体験キーワード検査手段は、
    体験の対象となるカテゴリに近い語句が前記入力文書中にあるかどうか検査する際に、
    前記入力文書を形態素解析した結果、該入力文書中に存在する語句に対して該形態素解析により分類されたカテゴリが、前記体験の対象となるカテゴリと一致する場合に、体験の対象となるカテゴリに近い語句が該入力文書中にあると判断する、
    もしくは、語句とその語句が含まれるカテゴリ名が記録されている既存辞書記憶手段がある場合に、前記入力文書中に存在する語句を、該既存辞書記憶手段の情報と照合させることにより決定されたカテゴリが、前記体験の対象となるカテゴリと一致する場合に、体験の対象となるカテゴリに近い語句が入力文書中にあると判断する
    請求項4,5,6のいずれか1項に記載の体験情報抽出方法。
  8. 体験情報抽出装置であって、
    体験表現と体験の対象となる語句との関係を含む情報が格納されている体験表現辞書記憶手段と、
    物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、
    前記体験表現辞書記憶手段を参照し、入力文書中に体験表現があるか否かを検査し、体験表現がある場合には、該当する体験表現を抽出し、該体験表現辞書記憶手段から該当する体験表現と該体験表現の体験の対象となる語句を取得し、体験表現記憶手段に記憶する体験表現検査・抽出手段と、
    前記体験表現検査・抽出手段で前記体験表現記憶手段に記憶した前記体験表現と該体験表現に対応する語句を選定する体験キーワード検査手段と、を有し、
    前記体験キーワード検査手段は、
    前記体験表現記憶手段に記憶されている体験の対象となる語句が前記入力文書中にある場合は、該当する体験表現と体験の対象となる語句の関係性を判断し、関係性があると判断された体験表現と体験の対象となる語句を出力する手段を含む
    ことを特徴とする体験情報抽出装置。
  9. 前記体験キーワード検査手段は、
    前記入力文書中において、前記該当する体験表現と体験の対象となる語句の各々が、出現する位置から測定された距離が近いほど前記関係性を表す値を高く算出し、
    また、前記該当する体験表現に重みが与えられている場合は、該重みの値が高いほど前記関係性を表す値を高く算出し
    前記関係性を表す値が、事前に設定された閾値よりも高くなった場合に、関係性を持つと判断する手段を含む、
    請求項記載の体験情報抽出装置。
  10. 前記体験キーワード検査手段は、
    前記該当する体験表現と前記体験の対象となる語句の関係性の判断を行う際に、
    前記入力文書中で該当する体験表現と体験の対象となる語句が、該入力文書を係り受け解析した結果、係り受け関係があると見做された場合関係性があると判断する手段を含む、
    請求項記載の体験情報抽出装置。
  11. 体験情報抽出装置であって、
    体験表現と体験の対象であって体験の対象となる語句を総称したカテゴリとの関係を含む情報が格納されている体験表現辞書記憶手段と、
    物事を利用もしくは体験・経験したことを表すような語句を体験表現とするときに、
    前記体験表現辞書記憶手段を参照して、入力文書中に体験表現があるか否かを検査し、体験表現がある場合には、該当する体験表現を抽出し、該体験表現辞書記憶手段から該当する体験表現と体験の対象となるカテゴリを取得し、体験表現記憶手段に記憶する体験表現検査・抽出手段と、
    前記体験表現記憶手段に記憶した前記体験表現と体験の対象となるカテゴリや体験の対象となるカテゴリに近い語句を選定する体験キーワード検査手段と、
    を有し、
    前記体験キーワード検査手段は、
    前記体験表現記憶手段に記憶されている体験の対象となるカテゴリに近い語句が入力文書中にあるかどうか検査し、体験の対象となるカテゴリに近い語句がない場合には体験の対象となるカテゴリを出力し、体験の対象となるカテゴリに近い語句がある場合には、該当する体験表現と該体験の対象となるカテゴリに近い語句の関係性を判断し、関係性があると判断された体験表現と体験の対象となるカテゴリに近い語句を出力する手段を含む、
    ことを特徴とする体験情報抽出装置。
  12. 前記体験キーワード検査手段は、
    前記入力文書中において、前記該当する体験表現と体験の対象となるカテゴリに近い語句の各々が、出現する位置から測定された距離が近いほど前記関係性を表す値を高く算出し、
    また、前記該当する体験表現に重みが与えられている場合は、該重みの値が高いほど前記関係性を表す値を高く算出し、
    前記関係性を表す値が、事前に設定された閾値よりも高くなった場合に、関係性を持つと判断する手段を含む
    請求項11記載の体験情報抽出装置。
  13. 前記体験キーワード検査手段は、
    前記該当する体験表現と前記体験の対象となるカテゴリに近い語句の関係性の判断を行う際に、
    前記入力文書中で該当する体験表現と体験の対象となるカテゴリに近い語句が、該入力文書を係り受け解析した結果、係り受け関係にあると見做された場合関係性があると判断する手段を含む
    請求項11記載の体験情報抽出装置。
  14. 前記体験キーワード検査手段は、
    体験の対象となるカテゴリに近い語句が前記入力文書中にあるかどうか検査する際に、
    前記入力文書を形態素解析した結果、該入力文書中に存在する語句に対して該形態素解析により分類されたカテゴリが、前記体験の対象となるカテゴリと一致する場合に、体験の対象となるカテゴリに近い語句が該入力文書中にあると判断する、
    もしくは、語句とその語句が含まれるカテゴリ名が記録されている既存辞書記憶手段がある場合に、前記入力文書中に存在する語句を、該既存辞書記憶手段の情報と照合させることにより決定されたカテゴリが、前記体験の対象となるカテゴリと一致する場合に、体験の対象となるカテゴリに近い語句が入力文書中にあると判断する手段を含む
    請求項11,12,13のいずれか1項に記載の体験情報抽出装置。
  15. コンピュータを、
    請求項8乃至14のいずれか1項に記載の体験情報抽出装置の各手段として機能させるための体験情報抽出プログラム。
  16. コンピュータを、
    請求項8乃至14のいずれか1項に記載の体験情報抽出装置の各手段として機能させるための体験情報抽出プログラムを格納した当該コンピュータ読み取り可能な記録媒体。
JP2006105509A 2006-04-06 2006-04-06 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP4726683B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006105509A JP4726683B2 (ja) 2006-04-06 2006-04-06 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006105509A JP4726683B2 (ja) 2006-04-06 2006-04-06 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2007280052A JP2007280052A (ja) 2007-10-25
JP4726683B2 true JP4726683B2 (ja) 2011-07-20

Family

ID=38681439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006105509A Expired - Fee Related JP4726683B2 (ja) 2006-04-06 2006-04-06 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4726683B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5187187B2 (ja) * 2008-12-25 2013-04-24 大日本印刷株式会社 体験情報検索システム
JP5133294B2 (ja) * 2009-04-14 2013-01-30 日本電信電話株式会社 時空間検索装置及び方法及びプログラム
JP6790328B2 (ja) * 2016-04-01 2020-11-25 前田建設工業株式会社 文言追記装置、文言追記方法及び文言追記プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003157271A (ja) * 2001-11-20 2003-05-30 Mitsubishi Electric Corp テキストマイニング装置および方法
JP2004287683A (ja) * 2003-03-20 2004-10-14 Ricoh Co Ltd 評価表現抽出装置、プログラム、記憶媒体及び評価表現抽出方法
JP2005316723A (ja) * 2004-04-28 2005-11-10 Nomura Research Institute Ltd コンテンツマップ作成プログラム及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003157271A (ja) * 2001-11-20 2003-05-30 Mitsubishi Electric Corp テキストマイニング装置および方法
JP2004287683A (ja) * 2003-03-20 2004-10-14 Ricoh Co Ltd 評価表現抽出装置、プログラム、記憶媒体及び評価表現抽出方法
JP2005316723A (ja) * 2004-04-28 2005-11-10 Nomura Research Institute Ltd コンテンツマップ作成プログラム及び方法

Also Published As

Publication number Publication date
JP2007280052A (ja) 2007-10-25

Similar Documents

Publication Publication Date Title
Shaalan et al. NERA: Named entity recognition for Arabic
JP2007527558A (ja) ウェブサイトなどの情報源によるナビゲーション
JPWO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JP5442401B2 (ja) 行動情報抽出システム及び抽出方法
JP4293145B2 (ja) クチコミ情報判定方法及び装置及びプログラム
JP2011108053A (ja) ニュース記事評価システム
JP5151368B2 (ja) 情報処理装置および情報処理プログラム
JP4468294B2 (ja) 体験情報評価装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4726683B2 (ja) 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN111339457A (zh) 用于从网页抽取信息的方法和设备及存储介质
US20120197894A1 (en) Apparatus and method for processing documents to extract expressions and descriptions
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP4539616B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
Khairani et al. Named-entity recognition and optical character recognition for detecting halal food ingredients: Indonesian case study
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2011070541A (ja) ネットマーケティング支援方法及びネットマーケティング支援装置
CN113569044A (zh) 一种基于自然语言处理技术的网页文本内容的分类方法
JP5187187B2 (ja) 体験情報検索システム
JP5614687B2 (ja) 時系列情報とテキスト情報とを含む時系列的テキストデータを解析する情報解析装置
Alginahi Quran search engines: challenges and design requirements
Nelli Textual Data Analysis with NLTK
Al-Abdullatif et al. Using online hotel customer reviews to improve the booking process
JP2008009623A (ja) 体験強度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110412

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110412

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140422

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees