JP3738011B2 - 情報処理装置、情報処理方法、及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法、及び情報処理プログラム Download PDF

Info

Publication number
JP3738011B2
JP3738011B2 JP2003017430A JP2003017430A JP3738011B2 JP 3738011 B2 JP3738011 B2 JP 3738011B2 JP 2003017430 A JP2003017430 A JP 2003017430A JP 2003017430 A JP2003017430 A JP 2003017430A JP 3738011 B2 JP3738011 B2 JP 3738011B2
Authority
JP
Japan
Prior art keywords
word
emotion
function
sentence
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003017430A
Other languages
English (en)
Other versions
JP2003248681A (ja
Inventor
知哲 出口
睦美 岩田
雅子 北浦
敬己 下郡山
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2001355280A external-priority patent/JP3402599B1/ja
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP2003017430A priority Critical patent/JP3738011B2/ja
Publication of JP2003248681A publication Critical patent/JP2003248681A/ja
Application granted granted Critical
Publication of JP3738011B2 publication Critical patent/JP3738011B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は情報処理装置、情報処理方法、及び情報処理プログラムに関し、例えば、文章を解析して処理するものに関する。
【0002】
【従来の技術】
近年、形態素解析や構文解析など、人間が作成した文章をコンピュータが解析して処理する技術が発展してきた。
これら文章解析処理技術は、様々な分野に応用可能な基礎技術である。例えば、情報検索の分野では、ユーザが入力した自然文から検索式を生成し、検索の実行を支援し、また家電製品の分野ではユーザの発話による命令を解析して家電製品をコントロールしたりすることができる。
【0003】
文章を解析処理する技術には、様々な種類のものがあり、例えば、テキストから名詞などの特定の単語を抽出し、分類するものがある。
これは、テキスト中に現れる単語の品詞をベースに解析するものであって、テキストを形態素解析し、その結果テキスト内の名詞や動詞など特定の品詞条件に当てはまるものを抽出するものである。この方法では、複合名詞を扱うこともできる。
また、その他の方法として、例えば、単語の出現頻度を利用したり、共起しやすい単語を抽出するなど、品詞や字面に基づく統計的な手法を用いるものもある。
【0004】
【発明が解決しようとする課題】
しかし、これら従来の技術によるものは、何れもテキストの形態素に着目し、品詞の種類や統計的手法を用いて解析するものであった。
そして、例えば「肌がすべすべしている」とか「朝日が美しい」といったように定性的かつ主観的な評価を含意する表現などの情動性を表す表現を、形態素としてでなく、単語の意味や構文的な構造から認識し、抽出するシステムは存在しなかった。
【0005】
そこで、本発明の目的は、文から情動性を表す表現を自動的に抽出し、情動性の強さを数量化することができる情報処理装置などを提供することである。
【0006】
【課題を解決するための手段】
前記目的を達成するために、請求項1に記載の発明では、分析の対象となっている文章が評価している評価主題に対して情動を表現した語である情動表現語を含む文章を取得する文章取得手段と、前記取得した文章を形態素解析して形態素列を出力する形態素解析手段と、前記出力した形態素列を構文解析する構文解析手段と、前記出力した形態素列を用いて、前記取得した文章において使用されている情動表現語を特定する情動表現語特定手段と、前記特定された情動表現語と、前記構文解析手段で取得した係受け構造を用いて、前記文章から情動的な表現を表している情動表現部分を抽出する抽出手段と、前記特定した情動表現語が情動を表現している、前記評価主題ごとに予め設定された属性を特定する属性特定手段と、前記抽出した情動表現部分と、前記特定した属性を出力する出力手段と、を具備したことを特徴とする情報処理装置を提供する。
請求項2に記載の発明では、分析の対象となっている文章が評価している評価主題に対して情動を表現した語である情動表現語を含む文章を取得する文章取得手段と、前記取得した文章において使用されている情動表現語を特定する情動表現語特定手段と、前記文章において、情動表現語の情動の強さの程度を強めたり、弱めたりなど、情動表現語に作用して情動の強さを変化させる語である機能語を特定する機能語特定手段と、前記文章を形態素解析して形態素列を出力する形態素解析手段と、前記形態素列を構文解析する構文解析手段と、前記構文解析手段による解析結果を用いることにより、前記情動表現語特定手段又は前記機能語特定手段で情動表現語若しくは機能語として特定された語を情動表現語及び機能語の何れでもないと再特定し、又は、前記情動表現語特定手段又は前記機能語特定手段で情動表現語及び機能語のいずれとしても特定されなかった語を情動表現語若しくは機能語として再特定する再特定手段と、前記情動表現語特定手段、又は前記再特定手段で特定された情動表現語を用いて、前記文章から情動的な表現を表している情動表現部分を抽出する抽出手段と、前記抽出した情動表現部分を出力する出力手段と、を具備したことを特徴とする情報処理装置を提供する。
請求項3に記載の発明では、前記情動表現語特定手段で特定した情動表現語が情動を表現している前記評価主題ごとに予め設定された属性から、前記情動表現語が情動を表現している属性を特定する属性特定手段を更に具備し、前記出力手段は、前記抽出手段で抽出した情動表現部分と、前記属性特定手段で特定した属性を出力することを特徴とする請求項2に記載の情報処理装置を提供する。
請求項4に記載の発明では、前記文章において、情動表現語に作用して情動の強さを変化させる語である機能語を特定する機能語特定手段を更に具備し、前記抽出手段は、前記文章のうち、前記情動表現語と当該情動表現語に作用する前記特定した機能語を含む部分を抽出することを特徴とする請求項1に記載の情報処理装置を提供する。
請求項5に記載の発明では、前記出力手段で出力した情動表現部分の情動の強さの程度を数量化する数量化手段を更に具備したことを特徴とする請求項3、又は請求項4に記載の情報処理装置を提供する。
請求項6に記載の発明では、前記抽出した情動表現部分に含まれる情動表現語に数値を対応付ける数値対応付け手段を更に具備し、前記数量化手段は、前記数値対応付け手段で対応付けられた数値を用いて、前記情動表現部分の情動の強さの程度を数量化することを特徴とする請求項5に記載の記載の情報処理装置を提供する。
請求項7に記載の発明では、前記数値対応付け手段で前記情動表現語に対応付けられた数値を変化させる数値変化手段を更に具備したことを特徴とする請求項6に記載の情報処理装置を提供する。
請求項8に記載の発明では、前記数量化した情動の強さの程度を前記出力手段で出力した属性を用いて集計する集計手段と、前記集計した情動の強さの程度を提示する提示手段と、を更に具備したことを特徴とする請求項5、請求項6、又は請求項7に記載の情報処理装置を提供する。
請求項9に記載の発明では、前記抽出した情動表現部分に含まれる情動表現語に作用する機能語に演算方法を対応付ける演算対応付け手段を更に具備し、前記数量化手段は、前記情動表現語に対応付けられた数値を、前記演算対応付け手段で対応付けられた演算方法にて演算を施すことにより、前記情動表現部分の情動の強さの程度を変化させることを特徴とする請求項2から請求項8までのうちの何れか1の請求項に記載の情報処理装置を提供する。
請求項10に記載の発明では、前記情動表現語特定手段が、前記形態素解析手段で出力した形態素列を構成する形態素を情動表現語を記憶した表現語データベースで検索し、前記形態素が前記表現語データベースで検索された場合に当該形態素を情動表現語として特定し、前記機能語特定手段は、前記形態素列を構成する形態素を、機能語を記憶した機能語データベースで検索し、前記形態素が前記機能語データベースで検索された場合に当該形態素を機能語として特定することを特徴とする請求項2から請求項9までのうちの何れか1の請求項に記載の情報処理装置を提供する。
請求項11に記載の発明では、前記属性特定手段が、前記構文解析の結果を用いることにより、前記文章において、前記特定した情動表現語の情動の対象となっている被情動語を特定する被情動語特定手段と、前記特定した被情動語に前記評価主題の属性を対応付ける対応付け手段と、を具備したことを特徴とする請求項1から請求項8までのうちの何れか1の請求項に記載の情報処理装置を提供する。
請求項12に記載の発明では、前記応付け手段が、前記被情動語を、被情動語と属性を対応付けた属性データベースで検索することにより前記被情動語に属性を対応付けることを特徴とする請求項11に記載の情報処理装置を提供する。
請求項13に記載の発明では、前記集計手段で集計した情動の強さの程度を統計処理する統計処理手段を更に具備し、前記提示手段は、前記統計処理された結果を提示することを特徴とする請求項8に記載の情報処理装置を提供する。
請求項14に記載の発明では、前記統計処理手段が、所定の属性に係る情動の強さの程度と、各属性に係る情動の強さの程度の合計値との相関係数を複数の前記評価主題に渡って計算することを特徴とする請求項13に記載の情報処理装置を提供する。
請求項15に記載の発明では、前記統計処理手段が、複数の前記評価主題における情動の強さの程度を相互比較できるように、前記情動の強さの程度を正規化することを特徴とする請求項13、又は請求項14に記載の情報処理装置を提供する。
請求項16に記載の発明では、前記提示手段が、前記集計手段で集計された結果をテーブル又はグラフの少なくとも一方の形式で提示することを特徴とする請求項8、又は請求項13から請求項15までのうちの何れか1の請求項に記載の情報処理装置を提供する。
請求項17に記載の発明では、文章取得手段と、形態素解析手段と、構文解析手段と、情動表現語特定手段と、抽出手段と、属性特定手段と、出力手段と、を備えたコンピュータにおいて、分析の対象となっている文章が評価している評価主題に対して情動を表現した語である情動表現語を含む文章を前記文章取得手段で取得する文章取得ステップと、前記取得した文章を形態素解析して形態素列を前記形態素解析手段で出力する形態素解析ステップと、前記出力した形態素列を前記構文解析手段で構文解析する構文解析ステップと、前記出力した形態素列を用いて、前記取得した文章において使用されている情動表現語を前記情動表現語特定手段で特定する情動表現語特定ステップと、前記特定された情動表現語と、前記構文解析手段で取得した係受け構造を用いて、前記文章から情動的な表現を表している情動表現部分を前記抽出手段で抽出する抽出ステップと、前記特定した情動表現語が情動を表現している、前記評価主題ごとに予め設定された属性を前記属性特定手段で特定する属性特定ステップと、前記抽出した情動表現部分と、前記特定した属性を前記出力手段で出力する出力ステップと、から構成されたことを特徴とする情報処理方法を提供する。
請求項18に記載の発明では、文章取得手段と、情動表現語特定手段と、機能語特定手段と、形態素解析手段と、構文解析手段と、再特定手段と、抽出手段と、出力手段と、を備えたコンピュータにおいて、分析の対象となっている文章が評価している評価主題に対して情動を表現した語である情動表現語を含む文章を前記文章取得手段で取得する文章取得ステップと、前記取得した文章において使用されている情動表現語を前記情動表現語特定手段で特定する情動表現語特定ステップと、前記文章において、情動表現語に作用して情動の強さを変化させる語である機能語を前記機能語特定手段で特定する機能語特定ステップと、前記文章を形態素解析して形態素列を前記形態素解析手段で出力する形態素解析ステップと、前記形態素列を前記構文解析手段で構文解析する構文解析ステップと、前記構文解析手段による解析結果を用いることにより、前記情動表現語特定手段又は前記機能語特定手段で情動表現語若しくは機能語として特定された語を情動表現語及び機能語の何れでもないと前記再特定手段で再特定し、又は、前記情動表現語特定手段又は前記機能語特定手段で情動表現語及び機能語のいずれとしても特定されなかった語を情動表現語若しくは機能語として前記再特定手段で再特定する再特定ステップと、前記情動表現語特定手段、又は前記再特定手段で特定された情動表現語を用いて、前記文章から情動的な表現を表している情動表現部分を前記抽出手段で抽出する抽出ステップと、前記抽出した情動表現部分を前記出力手段で出力する出力ステップと、から構成されたことを特徴とする情報処理方法を提供する。
請求項19に記載の発明では、分析の対象となっている文章が評価している評価主題に対して情動を表現した語である情動表現語を含む文章を取得する文章取得機能と、前記取得した文章を形態素解析して形態素列を出力する形態素解析機能と、前記出力した形態素列を構文解析する構文解析機能と、前記出力した形態素列を用いて、前記取得した文章において使用されている情動表現語を特定する情動表現語特定機能と、前記特定された情動表現語と、前記構文解析機能で取得した係受け構造を用いて、前記文章から情動的な表現を表している情動表現部分を抽出する抽出機能と、前記特定した情動表現語が情動を表現している、前記評価主題ごとに予め設定された属性を特定する属性特定機能と、前記抽出した情動表現部分と、前記特定した属性を出力する出力機能と、をコンピュータで実現する情報処理プログラムを提供する。
請求項20に記載の発明では、分析の対象となっている文章が評価している評価主題に対して情動を表現した語である情動表現語を含む文章を取得する文章取得機能と、前記取得した文章において使用されている情動表現語を特定する情動表現語特定機能と、前記文章において、情動表現語に作用して情動の強さを変化させる語である機能語を特定する機能語特定機能と、前記文章を形態素解析して形態素列を出力する形態素解析機能と、前記形態素列を構文解析する構文解析機能と、前記構文解析機能による解析結果を用いることにより、前記情動表現語特定機能又は前記機能語特定機能で情動表現語若しくは機能語として特定された語を情動表現語及び機能語の何れでもないと再特定し、又は、前記情動表現語特定機能又は前記機能語特定機能で情動表現語及び機能語のいずれとしても特定されなかった語を情動表現語若しくは機能語として再特定する再特定機能と、前記情動表現語特定機能、又は前記再特定機能で特定された情動表現語を用いて、前記文章から情動的な表現を表している情動表現部分を抽出する抽出機能と、前記抽出した情動表現部分を出力する出力機能と、をコンピュータで実現する情報処理プログラムを提供する。
【0007】
【発明の実施の形態】
(第1の実施の形態)
以下、本発明の好適な第1の実施の形態について、図1から図10を参照して詳細に説明する。
本実施の形態では、「この口紅は発色がきれい」といったような、主観的な評価を含む文を処理する。そこで、まずこれら主観的な文を処理する上で使用する用語について説明しておく。
【0008】
(1)情動性
情動性とは、感情の動きや、あるいは好き嫌いなど定性的かつ主観的な表現を含む性質を言う。例えば、「この本は面白い」、「あそこのレストランの料理はうまかった」などの表現は、何れも主観的な表現を含んだ表現であり、情動性を表した表現である。
もっとも、何が情動性を表しているか、あるいは何が主観的であるかは、後述するアフェクトターム辞書22の作り方など、システムの運用方法によって自由に設定することができる。
例えば、「美しい宝石」という表現があった場合、「美しい」は宝石の客観的な属性とも考えられれば、また、表現した者の主観とも考えられる。このような場合も、辞書の作り方などによって広く対処することができる。
【0009】
なお、一般的に主観的な表現が行われた場合、例えば、「この口紅は発色が美しい。(だから好きだ)」といったように、主観的な評価が表現される場合が多い。
そのため、本実施の形態では、情動的な表現のうち、主観的な表現(主観的な評価を含む)を処理する場合を中心として説明することとする。
しかし、このことは、本実施の形態のシステムを、主観的な表現を含む表現を処理するものに限定するものではなく、例えば辞書の設計などにより、「つやつやした肌」の「つやつや」のように、必ずしも主観的でない情動的な表現をも処理の対象とすることができる。
以上に述べたように、本実施の形態では、情動性を厳密に定義することはせずに、主観的な評価を表現した語を中心とした主観的な表現を含む表現を広く情動性を表した表現と考えることにする。このように、情動的な表現とは主観的な表現よりも広い概念である。更に、主観的な評価を含む表現は、主観的な表現に含まれる概念である。
(2)アフェクト表現
アフェクト表現とは、定性的・主観的な表現を含意する表現、即ち情動性を含んだ表現を言う。例えば、「この花はとても美しい」なる表現は花を見た人の主観的な表現を含んだ表現であり、アフェクト表現である。また、換言すればアフェクト表現は、文中で情動を表現している情動表現部分と言うこともできる。更に、情動部分が主観的な表現を表している場合は主観表現部分ということができ、更に情動表現部分が主観的な評価を表している場合は、主観的評価表現部分ということもできる。
【0010】
(3)アフェクトターム
アフェクトタームとは、アフェクト表現の中心を成す情動性を表す1形態素を言う。上記の例では「美しい」から語尾を除いた形容語幹「美し」がアフェクトタームである。換言すれば、アフェクトタームは情動的な表現を表す情動表現語であると言える。また、情動表現語が主観的な表現を表している場合は主観表現語ということができ、更に情動表現語が主観的な評価を表している場合は主観的評価語と言うこともできる。
(4)機能語
機能語とは、強調や程度、あるいは否定などの意味をアフェクトタームに付与する語を言う。そして、機能語はアフェクトタームと結合して1つのアフェクト表現になる。
例えば、「あまりうれしくない」という表現で、「あまり」は程度を表しており、「ない」は否定を表す機能語である。そしてこれらの機能語はアフェクトターム「うれし」と結合して1つのアフェクト表現を構成している。
また、強調を表す機能語としては例えば「とても」、「すごく」などがある。
【0011】
(5)アフェクト性
アフェクト性とは、処理対象の形態素列中の個々の形態素はアフェクトターム、機能語、何れでもない、のうちの何れかに分類されるが、これらのうちの何れに分類されるかという性質をアフェクト性と言う。後述するが本実施の形態のアフェクト表現処理装置1はアフェクトタームと機能語を集めたアフェクトターム辞書をデータベースとして備えており、形態素中の各形態素をこのアフェクトターム辞書で検索することにより、各形態素がアフェクトタームなのか機能語なのかあるいは何れでもないのかを判断することができる。
【0012】
(6)アフェクト情報
アフェクト情報とは、ある形態素に対してアフェクトターム辞書を検索して得られた情報をアフェクト情報と言う。詳しくは後述するが、アフェクト情報としては、例えば、ある形態素が、アフェクトタームなのかあるいは機能語なのかといったような情報や、また、そのアフェクトタームが表す情動が肯定的なものであるのかあるいは否定的なものであるのかといった情報や、更には、情動の強さを数値化した情報などが含まれている。
(7)記事
記事とは、アフェクト表現を抽出するためのひとまとまりの文章を言う。通常は数行から数十行程度の文で、ある商品に対する感想文を1回に書込んだ情報などである。例えば、電子掲示板にある口紅に対する感想文が多数掲載されている場合、個々の感想文が記事である。
このため本実施の形態における記事は新聞記事や専門家の評価記事などよりも広い概念である。
【0013】
(8)評価主題
評価主題とは、分析の対象となっている記事が評価している対象を言う。
例えば、ある香水に対して「においが長持ちする」という記事があった場合、この香水が評価主題である。
本実施の形態では、評価主題として化粧品などの商品を扱うが、評価主題は商品に限定せず、例えば、サービスや組織の評判などの抽象物を評価主題とすることもできる。
なお、本実施の形態では、予め分析用の記事を評価主題ごとに収集しておくが、これに限定するものではなく、記事を評価主題ごとに自動分類するように構成しても良い。
【0014】
(9)評価軸
評価軸とは、評価主題を評価する側面(属性)を分類したものである。これは、評価主題ごとに設定される。
例えば、評価主題が口紅であれば、側面(属性)として、色つや、におい、付け心地、パッケージ、価格などがあり、これらが評価の対象になりうる。
評価主題が自動車の場合は、燃費、乗り心地、操作性、外観、価格、などの属性が考えられる。
(10)軸ターム(被評価語)
軸タームとは、ある表現が評価している直接的な語(通常は名詞)を意味する。例えば、「発色が美しい」という文では、「発色」が軸タームである。このように、軸タームは特定の評価の側面(評価軸)に対する具体的な表現を表す語であって、例えば、口紅に関する、「つや」、「色合い」、「発色」などの軸タームは、評価軸「色つや」に対応するものである。また、「付け心地」、「感触」、「うるおい」などの軸タームは、評価軸「付け心地」に関するものである。
また、例えば、上の例文で、「発色」は「美しい」という情動を表現した語の情動の対象となっている被情動語でもある。このように表現が主観的評価に限定せず広く情動的な表現を表す場合も含めると、軸タームは被情動語であると言うことができる。
【0015】
以上に説明した用語は、例えば以下のように使用することができる。
口紅A(口紅の特定の商品)を評価主題とする記事において、このアフェクト表現「とてもつやつや」は、軸ターム「発色」に対する評価であり、「発色」は口紅の評価において評価軸「色つや」に属する語である。
【0016】
ところで、ある記事がある商品(評価主題)を肯定的に扱っているか、あるいは否定的に扱っているかといったことを判定するのが必ずしも容易でないため、情動性を厳密に定義することが困難なことがある。
例えば、ある記事が評価主題を肯定しているからといって、必ずしも記事の作成者が評価主題を好意的に評価しているとは限らない。
次の例文を考える。「あの女優はとても美しいが、私は好きではない」。女優として美しいことは非常に重要であり、この文は女優としての存在については肯定しているものの、個人的な好みとしては否定的である。
【0017】
そこで、本実施の形態では、「情動性」という言葉の意味をできるだけ広くとらえ、システムが柔軟にカスタマイズできるように解釈した。
そして、「パソコンの仕様・性能」などのように、数値などで定量的に評価できるものに対して、本実施の形態では、定量的でない部分を評価する。例えば、多数の人間のコメントなどを集めることで評価主題を定性的に評価し、更に、情動の強さを数値化する。
更に、その評価の対象となる軸タームを特定し、その軸タームが評価主題のどのような側面を評価しているのかも分析する。
また、定性的な表現の中でも、情動性が表現された比較的主観性の高いものを扱うものとする。
【0018】
図1は、本実施の形態のアフェクト表現処理装置1の論理的な構成を示した図である。この装置のハードウェア的な構成は後に示すが、例えばパーソナルコンピュータ(以下PCと記す)を用いて実現することができる。この場合、PCにアフェクト表現処理プログラムをインストールしておき、このプログラムをCPUで実行することにより、各モジュールはソフトウェア的に構成される。また、各辞書類はデータベースとしてハードディスクなどの記憶装置に格納しておく。
【0019】
アフェクト表現処理装置1は、記事をデータベース化した記事データベース20から記事を読み込む入力部10、入力した記事を形態素解析する形態素解析部11、形態素解析の際に使用する形態素解析辞書21、形態素にアフェクト情報を付与するアフェクト情報付与部12、アフェクトタームと機能語に関する情報を登録してあるアフェクトターム辞書22、アフェクト情報を付与された形態素列を構文解析する構文解析部13、構文解析の際に使用する構文解析辞書23、構文解析された文からアフェクト表現を抽出するアフェクト表現抽出部14、
抽出したアフェクト表現の軸タームを決定する軸ターム決定部16、軸タームに関する情報を登録してある軸ターム辞書24、抽出したアフェクト表現を出力する出力部15などから構成されている。以下に、これら各構成要素の詳細について説明する。
【0020】
図2は、記事データベース20に記憶されている記事データの論理的構成の一例を示した図である。記事データベース20では、評価主題ごとに記事が記憶されている。
図は一例として口紅を評価主題とした場合の記事を収集したものであって、例えば口紅Aに関しては「匂いもないし、変な味もしないです。」といったように、口紅の製品(タイトル)ごとに記事が収集されている。
【0021】
アフェクト表現処理装置1は、記事から自動的に評価主題を特定することは行わないため、評価主題ごとに記事を予め集めておく。これらの記事は例えば商品評価に関するWeb上の電子掲示板のコメントやユーザに対しておこなったアンケート調査などから収集することができる。
本実施の形態では、一例として口紅を評価主題として用いるが、記事の収集はこの他に、例えば、口紅、香水、温泉、レストラン、時計、車などの様々な分野に対して行うことができる。
【0022】
入力部10(図1)は、記事データベース20から記事を検索して読み取り、形態素解析11に出力するモジュールであり、文章取得手段を構成している。
図示しないが、入力部10は、記事データベース20から読み取る分野を設定できるようになっている。例えば、分野として口紅を指定すると、口紅に関する記事が記事データベース20から読み出される。読み出された記事は何れの評価主題(具体的な口紅の商品)に関するものかを特定できるようになっている。
入力部10は、記事データベース20から一文ずつ記事を読み出し、形態素解析部11に出力する。形態素解析部11以下の構成要素は、入力部10から取得した記事を順次処理していく。
【0023】
形態素解析部11は、入力された記事を形態素解析し、形態素列を出力する形態素解析手段である。
形態素とは、文節より更に細かく、語句を自立語と付属語のレベルまで区分したものである。そして、形態素解析とは、文を形態素に分解し、これに品詞などの情報を付与した形態素列を生成することである。
例えば、「あの言葉で元気になった」という文は次のように形態素解析される。「あの(連体詞)/言葉(名詞)/で(助詞)/元気(名詞)/に(助詞)/なった(動詞:なる)」。
形態素解析辞書21には、形態素解析する際に使用するデータが格納されている。
これら、形態素解析の方法、及び形態素解析辞書21は、一般に使用されている公知のものを用いる。
なお、簡単のため、動詞は活用語尾を含んでいるが、動詞語幹と動詞活用語尾を処理する文法もある。
【0024】
アフェクト情報付与部12は、アフェクトターム辞書22を検索しながら形態素列にアフェクト情報を付与する。即ち、情動表現語を特定する情動表現語特定手段を構成している。
まず、アフェクトターム辞書22について説明した後、アフェクト情報付与部12について説明する。
図3は、アフェクトターム辞書22の論理的なデータ構造の一例を示した図である。図の表の1行が1つの語に対する情報を表している。アフェクトターム辞書22には、アフェクトタームの他に機能語も登録されている。
また、文脈によりアフェクトタームになったり機能語になったりする語もあり、このような語は両方を登録しておき、デフォルトがどちらであるかを指定しておく。
【0025】
見出し31には、登録されているアフェクトタームと機能語が記録されている。見出し31には、アフェクトタームと機能語が形態素として記録されているため、活用する語については活用語尾を持たない形で記録してある。図では活用語尾は()に入れてある。
なお、見出し31の「やす(い)」は、例えば「分かりやすい」などのたの自立語(動詞)に意味を添える補助的な語であり、値段などが安いという意味ではない。
また、見出し31の「な(い)」は、例えば「おかしくない」など、用言に否定の意味を添える補助的な語であり、存在しないなどのある/なしを意味するものではない。
【0026】
品詞32は、見出し31の各語の品詞を記録したものである。見出し31と品詞32により語彙が一意的に決まる。従って、形態素解析から得られる語と品詞を検索キーとして見出し31と品詞32を検索することにより、後述するアフェクトターム情報33、機能語情報34、デフォルトアフェクト性35などを得ることができる。
【0027】
アフェクトターム情報33は、極性情報と強度の2つの属性から構成されている。極性は、見出し31の語の情動性の方向を表す属性であり、見出し語31の語が表す情動性が肯定的な場合は+、否定的な場合は−に設定してある。
強度は、情動性の強さを数値で表すパラメータであり、予めシステムの設計者が設定する。数値が大きいほど情動性の強さが大きくなるように設定されている。
これらの、情動性の方向や大きさは、後に、定性的・主観的な文から定量的な情報を得るのに利用することができる。
【0028】
なお、極性が+であるアフェクトタームを、ポジティブなアフェクトタームと呼び、極性が−であるアフェクトタームをネガティブなアフェクトタームと呼ぶこともある。ところで、どのアフェクトタームが+になりまた−になるのかは辞書の作り方に依存するため、アフェクトタームのポジティブ性あるいはネガティブ性は一般的なものではなく、辞書の設計者が決めるものである。
【0029】
機能語情報34は、演算(の種類)と強度の2つの属性から構成されている。これは、アフェクト表現に含まれるアフェクトタームに機能語が作用している場合に、当該アフェクトタームの強度を変更するのに用いられる。即ち、アフェクトタームの強度に対して機能語情報34で設定されている強度を用いて機能語情報34で設定されている演算を施す。
例えば、「とても」という機能語の演算の種類が乗算であり、強度が2であった場合、アフェクトタームの強度に対して「2×」という演算を施すことになる。そこで、単に「面白い」と言う語があった場合、この語のスコアは+2点となるが、「とても面白い」というように機能語が作用している場合、スコアは+2×2=4点となる。
【0030】
デフォルトアフェクト性35は、見出し31の語のアフェクト性のデフォルト値を設定する。
先述したように、1つの語が構文構造次第でアフェクトターム、機能語の何れにもなる場合がある。
例えば、「この本はすごい」といったアフェクト表現があった場合、「すご(い)」は、軸ターム「本」を評価するアフェクトタームである。一方、「この本はすごく面白い」といったアフェクト表現があった場合、「すご(く)」は、アフェクトターム「面白(い)」を強調する機能語である。
そこで、アフェクトターム辞書22は、このような語に対しては、アフェクトタームとしての情報と機能語としての情報を両方保持し、デフォルトとしてどちらの意味で使用するかをデフォルトアフェクト性35で設定している。
後述のアフェクト情報付与の段階では、デフォルトとして設定されている情報を付与するが、必要がある場合は、後の構文解析でアフェクト性を変更する。
このようにアフェクトターム辞書22は、主観的評価語(アフェクトターム)を記憶した表現語データベースと機能語を記憶した機能語データベースの双方を兼ねている。そして、主観的評価語には、情動の強さ、即ち主観の強さの程度を表す数値が関連付けられており、機能語には演算方法が関連付けられている。
【0031】
図1に戻り、アフェクト情報付与部12は、形態素列を構成する各形態素に対応する語を「見出し」と「品詞」を検索キーとしてアフェクトターム辞書22内を検索し、その語がアフェクト辞書22に登録されていればその語に対してアフェクト情報を付与する。この段階で付与されるアフェクト性はデフォルトの情報である。そして、アフェクト情報が付与された形態素列を構文解析部13に出力する。
このデフォルト値として設定された値は、後工程の処理により変更される場合がある。あるいはアフェクト性が取消されて、アフェクトターム、機能語の何れでもないと再判断されたり、アフェクトタームが単独でアフェクト表現になったりする場合もある。更に、当初アフェクト表現でないとされたものが他の語と組合されることによりアフェクト表現になる場合もある。このようにアフェクト表現処理装置1は、アフェクト情報を付与するのみでアフェクト表現を抽出するものではない。
このように、アフェクト情報付与部12は、主観的評価語に数値を対応付ける数値対応付け手段と、機能語に演算方法を対応付ける演算対応付け手段とを構成している。
【0032】
構文解析部13は、形態素リストから文節リストを作成する構文解析手段である。
文節の作成は、基本的に形態素リストにある自立語と付属語をあわせて文節とする。構文解析部13は、一般的に使用されている公知の構文解析エンジンと同様の処理をする他、以下の2つの特有な機能を有している。
(1)アフェクト・アクション処理を行う。
通常、構文解析では、構文木を組み立てていくだけであるが、構文解析部13は、アフェクト情報付与部12で付与されたアフェクト性を状況に応じて変更していく。
なお、本実施の形態では、アフェクト性変更処理の過程は構文解析と同時に行っているが、この処理と構文解析処理を分離することもできる。この場合、他のシステムで使用されている構文解析システムを用いることも可能である。
【0033】
(2)1文の構造が複数の構造に分かれたままであっても、それぞれを構文木として受理する。
通常の構文解析システムは、1文の解析結果として、1つの構文木や1つの意味構造など、1文全体で1つの構造を作成することを目指す。そして、これに失敗した場合は、構文解析自体を失敗と見なす。
しかし、アフェクト表現処理装置1では、インターネット上の電子掲示板に掲載された文など、必ずしも言語的に洗練されていない文や単語の誤用を含んだ文を処理する場合がある。そのため、解析が文末に到達した段階で、1文全体が1つの構造になっていなくても、即ち、複数の構造に分かれたままであっても、それぞれを、構文木として受理する。ただし、その複数の構文木が、1文内のものであることを示すための形態素位置情報などは記憶して関連付けておく。従って1つの構文木になっていなくても、形態素の順序関係などは認識できるようにしておく。
【0034】
以下に、構文解析部13の機能を具体的に説明する。
構文解析部13は、構文解析を行うための文法などが記憶された構文解析辞書23を検索しながら、形態素列を解析して文節を形成していく。構文解析の方法は様々なものが提案されているが、ここでは、一例として2項関係を用いるものを説明する。これは、着目している隣り合った2つの形態素や係受けの構造などを用いて文構造を解析するものである。
【0035】
隣り合った形態素に着目する場合は、形態素解析の結果得られた品詞を検索キーとして文法を検索する。
係受けの構造に着目する場合は、構造名(助詞句、動詞句など)を検索キーとして文法を検索する。
この他に、その後が持つアフェクト性(アフェクトターム、機能語、あるいは何れでもないといった情報)を検索の条件とすることもできる。
【0036】
図4を参照しながら、一例として、例文「私は本を買う」を構文解析する。この例文はアフェクト・アクション処理の必要がない。また、構文解析のための文法として以下の3つが構文解析辞書23に記憶されているものとする。
文法1)名詞+助詞、があれば、名詞を助詞にかけ、助詞句にする。
文法2)助詞句+動詞、があれば、助詞句を動詞にかけ、動詞句にする。
文法3)助詞句+動詞句、があれば、助詞句を動詞句にかけ、動詞句にする。
【0037】
事例文を形態素解析した結果は次のようになる。「私(名詞)/は(助詞)/本(名詞)/を(助詞)/買う(動詞)」。
なお、簡単のため、動詞は活用語尾を含んでいるが、動詞語幹と動詞活用語尾を処理する文法もある。
【0038】
ステップ1:最初の形態素「私」と次の形態素「は」が文法1を満たすので、名詞「私」を助詞「は」にかけ、「私は」を助詞句にする。
ステップ2:「私は」と「本」を条件として構文解析辞書23を検索するが、「助詞句+名詞」という文法が無いので、両者に係受け関係を設定することができない。そこで、最初の係受け構造を無視し、次の2つの形態素名詞「本」と助詞「を」に対して構文解析辞書23を検索すると文法1が見つかる。そこで、「本」を「を」にかけ、「本を」を助詞句にする。
【0039】
ステップ3:次に、最初の2つの構造、即ち助詞句「私は」と助詞句「本を」を構文解析辞書23で検索するが該当する文法は存在しない。そこで、最初の構図を無視し、2つ目の構造である助詞句「本を」と隣り合った動詞「買う」に処理を移行する。この2項の関係を構文解析辞書23で検索すると文法2がマッチする。そこで、「本を」を「買う」にかけて動詞句にする。
ステップ4:隣り合った構造は助詞句「私は」と動詞句「本を買う」である。この条件を構文解析辞書23で検索すると文法3がマッチする。そこで、「私は」を「本を買う」にかけて動詞句とする。このようにして文構造が解析される。
以上の例では、形態素解析の結果の品詞を用いたが、更に、意味素や用言の格パターンなどを利用すると構文解析の精度を高めることができる。
【0040】
ところで、先に述べたように、アフェクト表現処理装置1は、1文が1つの構造にまとまらなくても解析が文末に到達したらそれを解析結果として受理する。
例えば、文法3が無かったとすると、上述したステップ3の構造からステップ4の構造へは移行できない。この場合は、ステップ3の構造を最終形態として受理する。
【0041】
以上の2項関係を用いた構文解析方法は、システムの開発者にとって直感的に分かりやすく、また、2項関係を処理していくため、アフェクトアナライザ独自の機能(例えばアフェクト・アクション機能)を追加しやすい。また、1文の構造が1つにまとまっていない場合に、これを複数の構造として受理するなどの機能の拡張が容易である。
一方、他の構文解析方法として、例えば句構造規則を用いたものがあるが、これは、処理を高速化するため、例えばLRパーサのようにアルゴリズムが複雑であり、その動作を直感的に把握できるものではない。そのため、機能の追加や拡張を行うのは困難である。
なお、LRパーサのLは(Left to Right)を表し、Rは(Rightmost Derivation)を表す。
【0042】
次に、構文解析時にアフェクト・アクション処理を行う場合について説明する。この処理は、構文解析時に現在着目している形態素又は係受けのアフェクト性を変更する処理である。
構文解析で処理中の形態素がアフェクト情報を持っていれば、例えば「すご(い)」のように、この形態素がアフェクトタームと機能語の何れかである場合がある。この形態素にはアフェクト情報付与部12で一時的にデフォルトのアフェクト性が指定されているが、場合によってはこれを変更する必要がある。そして、この変更は、変更方法を文法として構文解析辞書23に記述しておき、これに従って行う。
【0043】
一例として、「この本はすごく面白い」と言う例文を用いて説明する。
この例では、「すご(い)」の活用語尾が連用形であり、「面白い」という用言を修飾して副詞に近い働きを持ち、機能語として作用している。また、この他の程度を表す形容詞も全般的に同様な作用を行う。
ところで、「すご(い)」のアフェクト性のデフォルトはアフェクトタームに設定されている。しかし、上記の例文では、機能語として作用しているため、「すご(い)」のアフェクト性をアフェクトタームから機能語に切替える必要がある。そこで、次の文法4を構文解析辞書23に記述しておく。
文法4)程度形容詞語幹+連用形活用語尾ならば、形容詞句を作ると同時に、アフェクト性をデフォルトのアフェクトタームから機能語に切替える。
構文解析部13は、構文解析辞書23で文法4を検索し、上記「すご(い)」のアフェクト性をアフェクトタームから機能語に切替える。
このように、構文解析部13は、アフェクトタームと機能語を再特定する再特定手段としての機能を持っている。
【0044】
次に、アフェクト・アクション処理の別の例を説明する。
補助用言に「やす(い)」という語がある。この語は、例えば「この本は読みやすい」などと、「やす(い)」の前にアフェクトタームでない用言が連結した場合、全体としてどちらかといえば良い意味を表すことがある。
そこで、デフォルトでは「やす(い)」に極性「+」のアフェクトターム情報が設定されている。
【0045】
ところで、「このパッケージは壊れやすい」という例文について考える。「壊れ(る)」が極性「−」のアフェクトタームであったとする。この場合、補助用言「やす(い)」のアフェクト性は不要となる。また、そのまま残しておくと、後に説明するアフェクト表現抽出の際に、「壊れ(る)」と「やす(い)」が切断されてしまう。従って、「やす(い)」のアフェクト性を削除するか、あるいは機能語に変更しておく必要がある。そのためには、次の文法5を構文解析辞書23に記述しておけば良い。
文法5)2項関係において、文頭側の語がアフェクトタームであり、文末側の語が補助形容詞あるいはアフェクトタームである場合は、後者のアフェクト性を機能語にする。
【0046】
なお、より詳細に述べると、文法5を適用するためには、文頭側の語の活用語尾がアフェクト性を引き継ぐように構成する必要がある。
例えば、「苛立ちやすい」という例文があったとする。そして、「苛立(ち)」がアフェクトタームだとする。これが、活用語尾の「ち」に係ったときに図5に示したように、「ち」がアフェクトタームであるアフェクト性を受け継ぐ。
即ち、「苛立」の部分がアフェクト性を受け継いでいないと、「苛立ち」と「やす」をチェックするときに文法5が働かず、両者がアフェクトタームのまま構文解析が進んでしまう。
【0047】
この他のアフェクト・アクション用の文法としては以下のものが考えられる。
(1)アフェクト性が全くないもの(アフェクトターム辞書22に登録されていないもの)に新たにアフェクト性・アフェクト情報を付与する。
(2)アフェクト性・アフェクト情報が付与されている語からそれらを削除する。
(3)それまで、解析してきた全ての結果からアフェクト性・アフェクト情報を削除する。
【0048】
以上説明した2項関係を用いた構文解析では、前方の形態素(あるいは係受け構造)を後方の形態素(あるいは係受け構造)にかけ、新たにできあがった構造に構造名を付与するように文法を構成したが、2項関係を用いたものは、この他に、例えば、後方を前方にかけるもの、前方又は後方の形態素(あるいは係受け構造)を読み捨てるといったように文法を構成することもできる。
【0049】
アフェクト表現抽出部14(図1)は、構文解析の結果の係受け構造や品詞の並びなどを解析することにより、1つのアフェクトタームを中心にしてアフェクト表現を抽出する。また、アフェクトタームに機能語が組み合わされている場合は、アフェクトタームと機能語を組み合わせた形でアフェクト表現を抽出する。
例えば、例文「とても美しくない」は、アフェクトターム「美し」を中心として抽出したアフェクト表現であって、「美し」と強調の機能語「とても」及び否定の機能語「ない」を組み合わせて1つのアフェクト表現としている。
このように、アフェクト表現抽出部14は、抽出手段と、機能語を特定する機能語特定手段とを構成している。
【0050】
図6は、アフェクト表現抽出部14のより詳細な構成を示したブロック図である。
以下に、例文「発色は美しいがつけるとベタベタしているので他の商品と比べあまりよくない」を用いてアフェクト表現抽出部14の機能について説明する。図7は、この例文を構文解析した結果の一例である。なお、説明の煩雑化を避けるため、用言活用語尾は用言語幹とまとめてある。
【0051】
切取り部41は、構文解析結果を用いて係受け関係にある1本の枝を切取り、接続助詞分離部42に出力する。その結果、次の枝が得られる。「発色は美しいがよくない」、「つけるとしているのでよくない」、「ベタベタしているのでよくない」、「他の商品と比べよくない」、「あまりよくない」。
ここでは、形態素によっては複数の枝で使用される場合もあるが、最終的にはアフェクトタームは重複して用いることはできない。切取り部41の段階では、暫定的に重複を認めて枝を切取る。
【0052】
接続助詞分離部42は、枝切取りの結果から、接続助詞がある部分で分離した枝を作る。これにより、図7で示した以下の▲1▼〜▲5▼の枝が得られる。
▲1▼発色は美しい、
▲2▼つけるとしている、
▲3▼ベタベタしている、
▲4▼他の商品と比べよくない、
▲5▼あまりよくない
例えば、▲1▼は枝「発色は美しいがよくない」の「が」が接続助詞であるため、これを分離して「発色は美しい」としたものである。
【0053】
パターン抽出部43は、(1)アフェクトタームを含まない部分の削除、(2)1つのアフェクトタームを中心とする構造への分解、(3)切断パターンの発見及び切断、(4)アフェクト表現抽出、などの機能を備えている。
(1)アフェクトタームを含まない部分の削除
図7の例文では、波線を付した部分がアフェクトタームであり、下線を付した部分が機能語である。図から明らかなように▲2▼つけるとしている、はアフェクトタームを含まない枝であるので、これを削除する。
【0054】
(2)1つのアフェクトタームを中心とする構造への分解
図7の例文はこれに該当しないが、この段階で、例えば、次のように複数のアフェクトタームと機能語が複雑に並んだパターンの枝が残る可能性がある。
K1+K2+A1+A2+K3+A3+K4、
ただしK1〜K4は機能語であり、A1〜A3はアフェクトタームである。このような場合、この機能は各機能語が何れのアフェクトタームに所属するかを品詞で判断し、アフェクトタームごとの構造に分解する。これによって例えば、K1+K2+A1、A2+K3、A3+K4といったようなA1、A2、A3を中心とする3つの構造に分けることができる。即ち、例えばK3はA2に対する機能語であり、K1はA1に対する機能語であるといったようなことを品詞を用いて判断する。
【0055】
次に、品詞を用いた判断の一例を示す。補助形容詞「ない」は、機能語であるがこれは前の用言を否定するなど、直前の自立語に補助的な意味を添えるため、直前の形態素に結びつく。
例えば、「この美しい本はおもしろくない」なる文では、「ない」が「おもしろく」に所属するため、「美しい」、「おもしろくない」の2つの表現に分解される。また、「この美しくない本はおもしろい」なる文では、「ない」が「美しく」に所属するため、「美しくない」、「おもしろい」の2つの表現に分解される。
【0056】
(3)切断パターンの発見及び切断
この機能は、予め設定されている切断パターンに該当する部分を切断するものである。
切断パターンの1例を示す。機能語と機能語の間に、前方の機能語と係受け関係のないアフェクトタームがあれば、後方の機能語の直前で切断する。
例えば、「美しくもなく面白くもない」という文があったとする。この文を単純に分解すると「美しくもなくない」、「面白くない」という2つアフェクト表現が抽出され、前者は2重否定となる。
ここで、この切断パターンを用いれば前方の「なく」と後方の「ない」の間に語順の上では係受け関係のないアフェクトターム「面白く」が挟まっているため、後方の機能語の直前、即ち、「美しくもなくない」の「ない」の直前で切断し、「美しくもない」と「面白くない」に2つのアフェクト表現を抽出することができる。
なお、「美しくも面白くもない」なる文からは、同様に「美しくない」、「面白くない」といった2つのアフェクト表現が抽出され、この2つの例文の解析結果は同一となる。
【0057】
例文「美しくもなく面白くもない」の場合、厳密な構文解析を行えば並列表現として認識することが可能であり、このようにして2重否定を予め排除しておくこともできる。
しかし、アフェクト表現処理装置1で用いる構文解析エンジンでは、例えばWeb上の電子掲示板に掲載された文などの、洗練されていない誤用が多い文にも対応できるようにするため、甘い解析条件を設定し、可能な限り構文解析を成功させることを目指した。
【0058】
(4)アフェクト表現抽出
この機能は、(1)のアフェクトタームを含まない部分の削除機能により削除された部分の他にアフェクト表現に関係のない部分があった場合これを削除するものである。これにより、次のようなアフェクト表現が抽出される。
▲1▼発色は美しい→美しい、
▲2▼は(1)の機能で既に削除されている、
▲3▼ベタベタしている→ベタベタ、
▲4▼他の商品と比べてよくない→よくない、
▲5▼あまりよくない→あまりよくない
例えば、▲1▼の場合「発色は」はアフェクトタームを含んでいないため、削除され、アフェクトターム「美しい」が抽出される
ただし、アフェクトターム「やす(い)」のように、アフェクトタームが補助用言の場合は、直前の自立語まで遡り、アフェクト表現の一部に組み込むことがある。
【0059】
包含部分削除部44(図6)は、アフェクトターム間の包含関係を判断し、包含される側のアフェクトタームを削除する。
例えば、▲4▼の「よくない」は、▲5▼の「あまりよくない」に包含される。そのため、▲4▼を削除する。この結果、最終的に次のアフェクト表現が抽出される。
▲1▼美しい、
▲2▼(削除)、
▲3▼ベタベタ、
▲4▼(削除)、
▲5▼あまりよくない
【0060】
スコア計算部45は、アフェクト表現ごとにスコアを付与する。アフェクト表現が機能語を持たなければ、アフェクトターム辞書22で当該アフェクトタームに付与されている極性及び強度を単純に付与する。
アフェクトタームが機能語を持つ場合は、アフェクトターム辞書22で当該機能語に付与されている演算及び強度と当該アフェクトの極性及び強度を用いて計算する。
機能語が複数ある場合で、演算が加減算のみあるいは乗除算のみの場合は問題ないが、加減算の乗除算が混在する場合は所定の順序で計算する。計算手順は例えば以下のものが考えられる。
(1)機能語のうちアフェクトタームに近いものから計算する。
(2)前から計算する。
(3)後ろから計算する。
なお、演算は、加減乗除に限定するものではなく、例えば、所定の関数を設定し、これを用いて演算したりなどすることができる。
【0061】
このように、スコア計算部45によって、アフェクト表現ごとにスコアを計算することができる。ところで、先にアフェクトターム辞書22で極性が+であるアフェクトタームをポジティブなアフェクトタームとし、極性が−であるアフェクトタームをネガティブなアフェクトタームとした。
そこでこれに対応してスコアが+になるアフェクト表現をポジティブなアフェクト表現と呼び、スコアが−になるアフェクト表現をネガティブなアフェクト表現と呼ぶことにする。
【0062】
次に、アフェクト表現のスコアの計算例を示す。「とても美しくない」という表現があったとする。そして、アフェクトターム辞書22には、次のような登録がなされているとする。
「とても」・・・強調の機能語(演算=×、強度=2)、
「美しく」・・・アフェクトターム(極性=+、強度=1)、
「ない」・・・否定の機能語(演算=×、強度=−1)、
この場合、「とても/美しく/ない」のスコア=2×1×(−1)=−2となり、アフェクト表現のスコアは−2になる。このため、この表現はネガティブなアフェクト表現である。
【0063】
また、スコアが0となり、ポジティブでもネガティブでもないアフェクト表現も考えられる。例えば、「美しかったかな?」という表現があったとする。また、アフェクトターム辞書22には、「かな」が曖昧な表現であり、弱める意味を持つ機能語(演算=×、強度=0)との登録がなされているとする。
この場合、「美しかったかな?」のスコア=1×0=0となる。
【0064】
この用語ポジティブ/ネガティブは、例えば次のように用いられる。
1文のアフェクト表現のスコアをトータルして「この文はポジティブだ」あるいは「この文はネガティブだ」などと用いる。
1つ又は同じ評価主題をもつ複数の記事のスコアをトータルして、「この口紅Aの付け心地はポジティブなスコアを持つ」あるいは「口紅Cの発色はネガティブなスコアを持つ」などと用いる。
同じ評価主題の異なる記事に対して、「記事1は商品Aに対してポジティブだが、記事2はネガティブだ」というよに記事のスコアに対して用いることもできる。
【0065】
軸ターム辞書24は、軸タームとなる可能性のある語や、これらの語が分類される評価軸などを予め登録したデータベースである。
図8は、口紅用にカスタマイズされた軸ターム辞書24の論理的な構成の1例を示した図である。
軸ターム辞書24は、見出し、品詞、評価軸の3項目から構成されている。
見出しには、評価主題に対して想定される軸タームが登録されている。例えば、口紅に関する軸タームの場合は、口紅のユーザが口紅を評価する際に使用すると思われる語である。例えば「この口紅はつやがある」、「色合いがよい」、「発色がいまひとつ」などの記事を想定した場合、軸タームとして、つや、色合い、発色、・・・などが考えられる。
軸ターム辞書24の品詞は、軸タームの品詞を表し、通常は名詞である。
【0066】
評価軸は、評価主題の評価する側面(属性)を予め設定し、分類したものである。
評価主題がある口紅であるとする。ユーザが口紅を評価する側面として例えば、色つや、におい、付け心地、パッケージ、もち、価格、・・・、などが考えられる。
例えば、「この口紅は、発色が美しい」という文と、「この口紅はデザインが美しい」という文を比較した場合、これらの文が評価している側面は明らかに異なる。前者の文は、色つやに関する側面を評価したものであり、後者はパッケージに関する側面を評価したものと推測される。
そこで、軸ターム「発色」は評価軸「色つや」に、軸ターム「デザイン」は評価軸「パッケージ」に分類することができる。
軸ターム辞書24では、このように評価主題の評価の側面、即ち評価軸を予め設定しておき、個々の軸タームが何れの評価軸に属するかをデータベース化したものである。即ち、軸タームに評価主題の評価される属性を結びつけた評価属性データベースを構成している。
後述する軸ターム決定部16は、見出しと品詞をキーとして軸ターム辞書24を検索し、当該軸タームの評価軸を取得することができる。
【0067】
軸ターム決定部16は、枝中の軸タームを決定し、更にこの軸タームの評価軸を決定する。即ち、軸タームを特定する被情動語特定手段と、特定された被情動語に属性を対応付ける評価属性対応付け手段を構成している。また、対応付け手段で被情動語に属性を対応付けることにより、情動表現語が情動を表現している属性(評価軸)を特定できるため、属性特定手段としての機能も有している。
以降の説明では、「1本の枝」という表現を次の意味に用いることにする。直接の親(1つしかない)をたどれるところまでたどり、また、子供の方(複数ある場合がある)も分岐のうちの1本をたどれるところまでたどり、これを1本の枝と呼ぶことにする。
なお、本実施の形態では、アフェクト表現と同じ枝中にある名詞から軸タームを決定する場合について説明するが、これに限定するものではなく、アフェクト表現が含まれる枝とは別の枝から軸タームを決定する場合もある。
例えば「この香り。昔から大好きなんです。」という文があった場合、2文目にあるアフェクト「大好き」の軸タームは1文目の「香り」りである。このように、アフェクト表現がある文とは異なる文から軸タームを抽出することもある。
【0068】
例えば、図7に示した例文「発色は美しいがつけるとベタベタしているので他の商品と比べあまり良くない」からは、切取り部41と同様にして、以下の5本の枝が得られる。
▲1▼発色は美しいがよくない、
▲2▼つけるとしているのでよくない、
▲3▼ベタベタしていのでよくない、
▲4▼他の商品と比べよくない、
▲5▼あまりよくない
【0069】
軸ターム決定部16は、軸タームを決定する場合においては、アフェクト表現のうち、次の条件を満たす名詞を軸タームとして決定する。
(1)アフェクトタームと同じ枝にある名詞で「名詞+の+アフェクトターム」というパターンを構成し、かつ、当該名詞が軸ターム辞書24に登録されているもの。
例えば、「料理のおいしさ」という文は、上記のパターンを満たしているので、「料理」が軸ターム辞書24に登録されていれば、「料理」が軸タームとなる。
(2)アフェクトタームと同じ枝にある名詞で「アフェクトターム+の+名詞」というパターンを構成し、かつ、当該名詞が軸ターム辞書24に登録されているもの。
例えば、「感動のサービス」という文は、上記のパターンを満たしているので「サービス」が軸ターム辞書24に登録されていれば、「サービス」が軸タームとなる。
以上、軸ターム決定部16が軸タームを決定するパターン(1)及び(2)について説明したが、これらは一例であって、他のパターンを用いて軸タームを決定する場合もある。
【0070】
更に、軸ターム決定部16は、軸タームを決定した後、アフェクト表現における軸タームの評価軸を決定する。
本実施の形態では、主として次の2つの方法で評価軸を決定する。
(1)軸タームとして認定された形態素(ここでは名詞のみとするが、名詞に限定するものではない)が、軸ターム辞書24に登録されていれば、そこに対応する評価軸が記録されているので、これを用いて評価軸を決定する。
(2)アフェクトターム自体がデフォルト評価軸を持っている場合には、その情報を利用する。
ここで、デフォルト評価軸とは、アフェクトターム自体が何を評価する表現なのかという情報をもっている場合、この情報で特定される評価軸のことであり、アフェクトターム辞書22などに登録しておく。
例えば、口紅で「つやつやだ」といえば、通常は評価軸「色つや」のことを意味し、パッケージの見かけが「つやつやだ」などということはほとんど考えられない。このように、アフェクトターム自体が評価軸を与えることができる場合がある。
【0071】
上記(1)のように、軸タームが軸ターム辞書24に登録されている場合は、軸タームをキーとして検索することにより評価軸を得ることができるが、軸タームが軸ターム辞書24に登録されていない場合もありえる。その場合に、(2)の方法で評価軸を得ることができる。
以下に(2)の場合について例を挙げてより詳細に説明する。
【0072】
(例1)「赤が美しい」という表現について考える。
今、「赤」という軸タームは、軸ターム辞書24に登録されていないものと仮定する。通常「美しい」という評価は、多彩な側面を評価するため、「赤」が登録されていない限り、美しいのが「色つや」であると特定することはできない。「赤」も「美しい」も「評価軸」に関する情報をもっていないため、最終的に特定できない。
【0073】
(例2)次に「赤が色鮮やかだ」という表現について考える。
例1と同様に「赤」という軸タームは、軸ターム辞書24に登録されていないものと仮定する。
ここで、「色鮮やか」という形容動詞が、口紅の「色つや」という側面を評価する表現であるということが明白であれば、「赤」も色の分類などを表している、と思われ、この表現として色つやを評価している。即ち、軸ターム「赤」からは評価軸が分からないが、軸タームの「色鮮やか」がデフォルトで指定する属性が利用できる。
【0074】
(例3)「とっとも色鮮やかです」という表現について考える。
ここで、前後の文を見ても「色」とか「発色」のような軸タームが無いものと仮定する。
この場合も、例2とほぼ同様であり、最終的に軸タームは無いものと判断される。しかし、評価している側面(評価軸)は「色つや」であると特定することができる。
即ち、「色鮮やか」は、アフェクト表現自体が「色つや」を評価するに違いない、という情報を保持しており、軸タームの評価軸(属性)がはっきりしない場合、「色つや」をデフォルトで使用する。「美しい」はあまりに多彩すぎて「色つや」とは決められないため、デフォルトの側面を持たず例2のように処理することはできない。
【0075】
軸タームがない場合は、例えば、このように、アフェクトタームのデフォルト評価軸を利用して、そのアフェクト表現がどの評価軸に所属するのかを決定することができる。
また、軸タームが軸ターム辞書24に登録されている場合でも、その評価軸情報を利用する前に、アフェクトターム側のデフォルト評価軸を利用するように構成することもできる。
【0076】
なお、システムのチューニングの観点から、アフェクトターム辞書22は、分野を特定しない汎用辞書と、「口紅」などの特定の分野に特化した特化辞書から構成する場合があるが、この場合はデフォルト評価軸を特化辞書に登録しておく。これは、評価軸という概念はかなり人為的なものであり、従って、どの分野にアフェクト表現処理装置1を応用するかということにより変わってくるためである。
【0077】
出力部15は、アフェクト表現抽出部14が抽出したアフェクト表現とスコア、ポジティブとネガティブの別などを出力する出力手段である。
出力したデータは、記憶装置に記憶され、様々なアプリケーションソフトなどで利用することができる。例えば、アンケート調査の結果から各商品(タイトル)ごとのスコアを算出したりすることができる。
【0078】
図9は、アフェクト表現処理装置1のハードウェアの構成の1例を示した図である。
本実施の形態では、アフェクト表現処理装置1をパーソナルコンピュータを用いて構成した。
アフェクト表現処理装置1は、制御部51に、バスライン58を介して入力装置55、出力装置56、通信制御装置57、記憶装置63、記憶媒体駆動装置60、入出力インターフェース59などが接続して構成されている。
【0079】
制御部51は、CPU53、ROM(Read Only Memory)52、RAM(Random Access Memory)54などから構成されている。
制御部51は、アフェクト表現処理プログラムなどの各種プログラムに従って動作し、各種記事からアフェクト表現を抽出すると共にこれらのスコアを計算したりなどの各種情報処理をする。また、制御部51は、アフェクト表現処理装置1全体を制御したりなどもする。
【0080】
CPU53は、制御部51の中心的なデバイスであって、ROM52や記憶装置63、又は記憶媒体駆動装置60によって駆動される記憶媒体などからプログラムをロードし、プログラムに従って制御部51を制御する。
【0081】
ROM52は、CPU53が各種演算や制御を行うための各種プログラム、データ及びパラメータなどを格納したリードオンリーメモリである。ROM52は、不揮発性のメモリであって、ROM52に供給される電力がゼロの状態でも記憶内容は保持される。また、ROM52は、読み込み専用のメモリであるため、通常はデータの書き込みは行われない。
【0082】
RAM54は、CPU53にワーキングメモリとして使用されるランダムアクセスメモリである。CPU53は、RAM54にプログラムやデータなどを書込んだり消去したりすることができる。本実施の形態では、RAM54には、アフェクト表現の抽出やスコアの計算のエリアを確保可能となっている。
【0083】
入力装置55は、例えばキーボードやマウスなどの入力装置から構成されている。キーボードは、アフェクト表現処理装置1に対して文字や数字などの情報を入力するための装置である。
キーボードは、カナや英文字などを入力するためのキーや数字を入力するためのテンキー、各種機能キー、カーソルキー及びその他のキーによって構成されている。
キーボートは、例えばユーザがアフェクト表現処理装置1にログインするためのログインIDやパスワードを入力したり、あるいはプログラムを操作したりする際に使用する。
【0084】
マウスは、ポインティングデバイスである。GUI(Graphical User Interface)などを用いてアフェクト表現処理装置1を操作する場合、表示装置上に表示されたボタンやアイコンなどをマウスでクリックすることにより、所定の情報の入力を行うことができる。
【0085】
出力装置56は、例えば表示装置、印刷装置などのから構成されている。
表示装置は、例えば例えばCRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ、プラズマディスプレイなどで構成された情報を画面上に提示するための装置である。
表示装置は、キーボードやマウスの入力結果や、プログラムが表示する画面などを表示することができる。
【0086】
印刷装置は、プログラムの実行結果などを紙などの印刷媒体に印刷する装置である。例えばプログラムがエディタの場合は、編集した文を印刷することができ、また、プログラムがデータベースの場合は、データを印刷することができる。印刷装置は、例えば、インクジェットプリンタ、レーザプリンタ、熱転写プリンタ、ドットプリンタなどの各種プリンタ装置によって構成されている。
【0087】
通信制御装置57は、図示しない通信回線を介してアフェクト表現処理装置1をインターネットなどのネットワークに接続するための装置であって、モデム、ターミナルアダプタその他の装置によって構成されている。
通信制御装置57は、例えばインターネットやLAN(Local AreaNetwork)などに接続しており、これらのネットワークに接続したサーバ装置などに対してデータの送受信を行うことができる。
通信制御装置57はCPU53によって制御され、所定のプロトコルに従って送受信を行う。
アフェクト表現処理装置1は、通信制御装置57を介して電子掲示板にアクセスし、記事を収集することができる。
【0088】
記憶装置63は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータを読み書きするための駆動装置によって構成されている。当該記憶媒体として主にハードディスクが使用されるが、その他に、例えば、光磁気ディスク、磁気ディスク、半導体メモリなどの他の読み書き可能な記憶媒体によって構成することも可能である。
【0089】
記憶装置63は、プログラム格納部61とデータ格納部62などの記憶領域が確保されている。
プログラム格納部61には、 アフェクト表現処理プログラム、ブラウザ、アフェクト表現処理装置1を動作させる基本ソフトであるOS(Operating System)、通信制御装置57を制御し、インターネットを介した通信を可能にする通信プログラムなどが格納されている。
データ格納部には、記事データベース20、形態素解析辞書21、アフェクトターム辞書22、構文解析辞書23、その他のデータが格納されている。
【0090】
記憶媒体駆動装置60は、着脱可能な記憶媒体を駆動してデータの読み書きを行うための駆動装置である。着脱可能な記憶媒体としては、例えば、光磁気ディスク、磁気ディスク、磁気テープ、半導体メモリ、データをパンチした紙テープ、CD−ROMなどがある。なお、CD−ROMや紙テープは、読み込みのみ可能である。記憶媒体駆動装置60を介して記憶媒体にバックアップ用のデータを書き出したり、また記憶媒体からアプリケーションソフトをインストールしたりなどできる。
【0091】
入出力インターフェース59は、例えば、シリアルインターフェースやその他の規格のインターフェースにより構成されている。入出力インターフェース59に当該インターフェースに対応した外部機器を接続することにより、アフェクト表現処理装置1の機能を拡張することができる。このような外部機器として例えば、ハードディスクなどの記憶装置、スピーカ、マイクロフォンなどがある。
【0092】
図10は、アフェクト表現処理装置1が記事からアフェクト表現を抽出する手順を示したフローチャートである。
まず、CPU53は、記事データベース20から所定の分野に関する記事を読み込んでRAM54に格納する(ステップ10)。このとき、例えば、口紅、旅館、温泉などの分野は予めユーザが指定してあるものとする。また、分野は階層構造に構成することが可能であり、例えば親分野化粧品に口紅、香水、・・・、などの子分野を設けるように構成してあっても良い。
【0093】
次に、CPU53は、RAM54から記事を読み出し、形態素解析を行い形態素列を生成する(ステップ20)。
次に、CPU53は、アフェクトターム辞書22を参照しながら、各形態素に対応する語がアフェクトターム辞書22に登録されている場合は各形態素にアフェクト情報を付与する(ステップ25)。
次に、CPU53は、アフェクト情報が付与された形態素列を構文解析する(ステップ30)。このとき、CPU53アフェクト・アクション処理を行い、必要があればアフェクト情報を変換する。また、1文から複数の文構造が得られた場合でも、その複数の文構造を解析結果として受理する。
【0094】
次に、CPU53は、構文解析結果を用いてアフェクト表現の抽出を行う(ステップ35)。CPU53は、アフェクト表現抽出の際に、アフェクトタームを含まない部分の削除、1つのアフェクトタームを中心とする構造への分解、切断パターンの発見及び切断、アフェクト表現抽出、などを行う。
次に、CPU53は、抽出したアフェクト表現に対してスコアを計算する。これによって、各アフェクト表現のスコアやポジティブなアフェクト表現なのかあるいはネガティブなアフェクト表現なのかなどの情報が得られる。
【0095】
次に、CPU53は、軸ターム辞書24を参照しながら軸タームの評価軸を決定する(ステップ42)。また、軸タームが軸ターム辞書24にない場合は、デフォルト軸を採用するなどする。
【0096】
次に、CPU53は、解析結果をRAM54あるいは記憶装置63などに出力する。出力データは、抽出したアフェクト表現、当該アフェクト表現のスコア、当該アフェクト表現がポジティブなのかあるいはネガティブなのか、抽出元の記事を特定するデータなどから構成されている。
次に、CPU53は、当該分野に属する全ての記事についてアフェクト表現の抽出を行ったか否かを判断し、行っていない場合は(ステップ50;N)、ステップ10に戻り、次の記事を記事データベース20から読み込んで処理し、全ての記事を処理した場合は(ステップ50;Y)、処理を終える。
【0097】
次に、アフェクト情報抽出装置1の1応用例について説明する。
従来から、Web上で商品の評価(電化製品や化粧品などの具体的な商品の他、映画やホテルなどの観光地の評価なども含む)を行うサイトは多数存在する。しかし、これらの評価方法は大きく次の3つに分類される。
(1)専門家などが予め評価しておくもの。
(2)利用者の投票で順位などを決定するもの。
(3)利用者や専門家などのコメントを記述した記事を一覧するものやこれらのコメントを電子掲示板で計算するもの。
【0098】
これらの方法には、次のような短所がある。
(1)の場合は、サイト作成者側の独断で評価がなされ、利用者の判断は全く反映されない。
(2)の場合は、商品の総合的な判断についての投票が主流であり、商品の様々な側面に対しての詳細な投票はあまりない。
(3)の場合は、記事を詳細に読まなければ、商品についての評価ポイントや評価が高いか低いかが分からない。
【0099】
そこで、電子掲示板などに掲載された記事などをアフェクト表現処理装置1で処理し、アフェクトタームごとのスコアを統計処理して、当該商品の様々な側面に対する多数の人の評価を得ることができる。例えば、分野を口紅とした場合、例えば、口紅Aは、「付け心地」が+20、で「発色」が−1などといったデータを得ることが可能となる。
【0100】
以上第1の実施の形態では、以下の様な効果を得ることができる。
主観的な評価などの情動性を含む表現を記事から自動的に抽出することができる。
情動性の強さを数値化することができる。
公知である通常の構文解析は、1文が、最終的に1つの構造(構文木)になった場合を成功として後続の処理を継続するが、本特許で提案する構文解析は、1文の最終結果が1つの構造までまとまらず、複数の構造のまま残っても成功と見なし、次の処理に進むことができる。
アフェクトタームと機能語の係り関係を判別し、アフェクトタームと機能語をセットとしてアフェクト表現とすることができる。
アフェクトタームの属性である極性と強度、及び機能語の属性である演算と強度を用いてアフェクト表現のスコアを計算することができる。
【0101】
更に、その評価の直接的な対象となっている軸タームを特定し、また特定の分野における場合は、その軸タームが、その文章の主題に対していかなる側面を表しているのかを評価軸を用いて分類することができる。
また、これらの機能を組み合わせることにより、その記事が持つ情動性をスコアとして数値化し、更にその文章の主題の特定の側面に対しても同様に情動性をスコアとして数値化して見せ、あるいは、その情動性と軸タームをリストアップして利用者に提供し、具体的にどのような表現で、主題が評価されているのかを確認したり、その表現によって文章を分類したりする基礎となるシステムを提供することができる。
また、本実施の形態のシステムは基本的なライブラリである。また、ユーザは何らかのアプリケーションソフトを用いることが想定され、その場合は、アプリケーションソフトは、本システムが提供するAPI(Application Programming Interface)により、本システムを呼び出してアフェクト表現抽出などの処理を要求し、結果を得ることができる。
【0102】
本実施の形態では、アフェクトターム辞書22で全ての記事に対応する構成になっているが、これに限定するものではなく、例えば、全ての記事に適応できる汎用アフェクトターム辞書と特定の分野に特化した専用アフェクトターム辞書を用いるように構成することもできる。
本発明の第1の1実施形態について説明したが、本発明は説明した実施形態に限定されるものではなく、各請求項に記載した範囲において各種の変形を行うことが可能である。
【0103】
(第2の実施の形態)
近年、Web上で商品・サービスなどの評価をするサイトが増加し、注目を集めている。
これらのサイトで掲載される消費者の評価・意見(いわゆる口コミ情報)は、客観的かつ具体的に商品・サービスについて消費者の知りたい側面を伝えているため、消費者にとっても有益な情報であり、また、企業にとっても社会的に影響の大きいこれらのサイトからの情報の収集・利用は有益である。
【0104】
ところで、これらのサイトは次のような欠点を有していた。
例えば、専門家が予め行った評価を掲載するものである場合、商品・サービスの評価がサイト作成者側の独断で行われ、利用者の判断は反映されない。
【0105】
また、利用者の投票順位などにより商品・サービスを評価するものは、商品の総合判断について投票するものが主流であり、その商品・サービスのどの側面を評価しているのかが曖昧である。
例えば、飲食店を評価する場合、評価の側面としては、例えば、味、雰囲気、従業員の態度、値段など、それぞれについての評価があってしかるべきであるが、それらが総合されてしまうと、それら各側面に対する評価が分からなくなってしまう。また、投票によるサイトは、スコアを評価者の人数で割るなどの単純な計算方式を用いて順位を決定したり、また、結果の表示も最終的な点数のみを掲載したりなどで、その商品・サービスについての反響の大きさが分かりにくい。
【0106】
また、掲示板形式で利用者や専門家が単にコメントを記述する記事を一覧するサイトでは、文書量が多く、記事を詳細に読まなければ、商品・サービスについての評価ポイントや評価の高低が分かりにくい。
【0107】
そこで、本実施の形態では、一般の消費者や専門家のコメントを自動的に解析し、それを評価軸に分類してスコアを表示することにより、商品・サービスの各側面における評価をユーザが容易に認識できるようにした。
【0108】
図11は、本実施の形態におけるネットワーク構成の1例を示した図である。
クライアント端末装置2、2、2、・・・、は、インターネット3に接続可能に配設された端末装置であって、例えばPCにより構成されている。以降、クライアント端末装置2、2、2、・・・、を特に区別しない場合は単にクライアント端末装置2と記すことにする。
【0109】
クライアント端末装置2は、ブラウザを備えており、インターネット3上に接続されたサーバ装置などから、例えば、HTML(Hypertext Markup Language)形式のファイルを受信し、当該HTMLファイルにて定義されている画面をディスプレイに表示することができる。
また、クライアント端末装置2は、キーボードやマウスなどの入力装置を備えており、画面上の所定のボタンをクリックしたり、所定の空欄に文字を入力するなどして、入力情報をサーバ装置に送信することができる。
【0110】
情報処理サーバ5は、アフェクト表現抽出機能を備えたサーバ装置であって、インターネット3を介してクライアント端末装置2とデータ通信を行うことができる。通信の際には、例えばTCP/IP(Transmission Control Protocl/Internet Protocol)などのプロトコルを用いる。
【0111】
図12は、情報処理サーバ5の論理的構成の1例を示した図である。なお、第1の実施のと同じ構成要素には同じ番号を付して説明する。
アフェクトアナライザエンジン80は、第1の実施の形態の入力部10、形態素解析部11、アフェクト情報付与部12、構文解析部13、アフェクト表現抽出部14、軸決定部16、出力部15から構成されたモジュールである。
アフェクトアナライザエンジン80は、形態素解析辞書21、アフェクトターム辞書22、構文解析辞書23、軸ターム辞書24を参照しながら記事データベース20から取得した記事を解析してアフェクト表現やスコアなどを出力エンジン81に出力する。
【0112】
出力エンジン81は、アフェクト情報データベース87のデータを参照しながらクライアント端末装置2で表示するための画面データをHTMLファイルなどにて作成したり、アフェクトアナライザエンジン80から取得した情報を用いてアフェクト情報データベースを更新したりなどする。
一覧画面データ83は、口紅、香水、温泉、・・・、などの分野ごとにタイトルを表示する一覧画面を表示するデータである。この画面では、例えば口紅を選択すると口紅の銘柄の一覧が表示され、特定の銘柄を選択することができるようになっている。ユーザが特定の銘柄を選択するとこの銘柄に関するタイトル画面が表示される。
【0113】
図13は、一覧画面の1例を示した図である。一覧画面は、情報処理サーバ5がクライアント端末装置2に送信した一覧画面データ83を、クライアント端末装置2がブラウザを用いてディスプレイに表示したものである。
一覧画面は、分野選択エリア120を有している。分野選択エリア120は、例えば、「口紅」、「マスカラ」、「グロス」、「香水」など、化粧品のうち、評価する分野を選択するエリアである。
【0114】
分野設定エリア120は、ドロップダウンメニューとなっており、ユーザは、当該メニューに用意された各分野から所望のものを選択することができる。
ドロップダウンメニューは、マウス操作などでポインタ124を分野設定エリア120の端の三角形が表示された部分をクリックすると、選択候補の分野の一覧が表示され、そのうち、選択したものが入力されるメニューである。
本実施の形態では、一例として化粧品を用いたが、これに限定するものではなく、旅館、温泉、レストランなど評価の対象となるものであれば良い。
【0115】
軸選択エリア121は、分野選択エリア120で選択した分野に属する評価主題を評価するための評価軸を選択するエリアである。軸選択エリア121もドロップダウンメニューになっており、ユーザは、表示された評価軸の一覧の中から所望のものを選択することができる。軸選択エリア121でドロップダウンメニュー機能を使って表示される評価軸の一覧は、分野選択エリア120で選択した分野に応じて変化する。これは、評価主題により、評価軸が異なるためである。
例えば、分野が「口紅」の場合、評価軸は「色つや」、「もち」、「におい」、「付け心地」、・・・、「その他」、「総合」などがある。「総合」は、全ての評価軸におけるスコアを合計した評価軸である。
【0116】
正規化選択エリア122は、表示するデータを正規化するか否かを選択するためのラジオボタンである。
表示するデータを正規化すると、例えば、記事数が多い評価主題と記事数が少ない評価主題のスコアを調節し、相対的に比較できるようにする。
正規化しない場合は、各評価主題のスコアを単純に加算したデータが表示される。
【0117】
実行ボタンは123は、検索を開始するためのボタンであり、ポインタ124を実行ボタンに合わせ、クリックすると作動する。
実行ボタン123が作動すると、クライアント端末装置2から情報処理サーバ5へ、ユーザが選択した分野、及び評価軸、更にデータを正規化するか否かといった情報が送信される。
そして、情報処理サーバ5では、出力エンジン81が、これらのデータを元にアフェクト情報データベース87や記事データベース20を検索し、クライアント端末装置2で表示するためのランキングデータを生成する。生成されたランキングデータは、クライアント端末装置2に送信される。
【0118】
ランキングエリア126では、出力エンジン81が生成したランキングデータが表示される。ランキングエリア126では、分野選択エリア120で選択された分野の商品(タイトル)が軸選択エリア121で選択された評価軸において、スコアが高い順にソートされて表示される。
例えば、分野が「口紅」で、評価軸が「色つや」である場合、各社の口紅で色つやのスコアの高い順に表示される。
【0119】
ランキングエリア126は、ランク欄、タイトル欄、ポイント欄、スコアバー欄などから構成されている。ランク欄には、ランキングが数値により表示され、タイトル欄には、評価主題の商品(タイトル)の名称とメーカーの名称が表示される。ポイント欄には各商品(タイトル)が軸選択エリア121で選択された評価軸に対して取得したスコアが表示される。
スコアには、肯定的な評価に対するポジティブスコア(正の数値で表される)と否定的な評価に対するネガティブスコア(負の数値で表される)があるが、ポイント欄には、これらを加算したものが表示される。
スコアバー欄には、各商品(タイトル)が取得したスコアをポジティブスコアとネガティブスコアが識別可能に表示される。
【0120】
なお、ポイント欄とスコアバー欄に表示される内容は、正規化エリア122での選択により正規化をしたかしないかで異なる。
正規化した場合は、商品ごとの記事の量の差を考慮し、スコアの値を調節したものとなる。
一方、正規化しなかった場合は、商品ごとの記事の量の差を考慮せず、スコアを調節せずに表示する。
【0121】
ランキング内容エリア125には、ランキングに係る分野、評価軸、正規化の有無などが表示される。
ランキングエリア126の右側には、スクロールバー127が設けられており、これをマウスなどで操作することにより、ランキングエリア126をスクロールすることができる。
ランキングエリア126のタイトル欄をマウスでクリックするなどして選択すると、当該商品(タイトル)のタイトル画面に遷移する。
【0122】
図12に戻り、タイトル画面データ84は、一覧画面で選択された銘柄のタイトル画面をクライアント端末装置2で表示するためのデータである。
タイトル画面は、一覧画面で選択した商品(銘柄)の各評価軸ごとのスコアが表示される。
【0123】
図14は、分野が口紅であり、商品が「クワトループ」とした場合のタイトル画面の1例を示したものである。
タイトル画面130は、評価項目欄、ポイント欄、スコアバー欄などから構成されている。
評価項目欄には、各評価軸が表示される。
ポイント欄には、当該商品(タイトル)が、各評価軸に対して取得したポジティブスコアとネガティブスコアを総合したものが表示される。
【0124】
スコアバー欄には、当該商品(タイトル)が、各評価軸に対して取得したポジティブスコアとネガティブスコアの合計値がバーにより識別可能に表示される。
スコア欄とスコアバー欄の表示も、一覧画面の場合と同様にデータの正規化を選択したかあるいは選択しなかったかによって異なる。
この商品については、「色つや」、「価格」については肯定的なアフェクト表現が多く、ポイントがプラスになっており、これらの評価側面に対しては評価が高いことがわかる。
また、「もち」については、否定的なアフェクト表現が多く、ポイントがマイナスになっており、この評価側面に対しては評価が低いことが分かる。
【0125】
図12に戻り、詳細画面データ86は、当該商品の記事の全文を表示するためのデータである。タイトル画面99には、図示しない詳細ボタンが設けられており、これをユーザがマウス操作などにて選択すると、出力エンジン81は、後に説明するアフェクト情報データベース87や記事データベース20などデータを用いて詳細画面データ86を生成する。
そして、このデータは情報サーバ5から当該ユーザが使用しているクライアント端末装置2に送信される。そして、クライアント端末装置2ではCPUがブラウザを用いて詳細画面をディスプレイに表示することができる。
【0126】
図15は、クライアント端末装置2で表示された詳細画面の1例を示した図である。
詳細画面135には、当該商品に関する記事が記事エリア138に全文掲載される。そして、これらの記事には、記事中に出現するポジティブなアフェクトタームとネガティブなアフェクトタームが区別可能に表示される。
図ではポジティブなアフェクトタームに波線を付して表し、ネガティブなアフェクトタームに下線を付して表した。即ち、ポジティブタームが「すご」、「かわい」であり、ネガティブタームが「だめ」、「残念」である。
この他に、ポジティブなアフェクトタームを青色で表し、ネガティブなアフェクトタームを赤色で表すこともできる。
これは、出力エンジン81が、記事を記事データベース20から検索すると共に、その記事で出現するアフェクトタームとそのポジティブ/ネガティブ性などをアフェクト情報データベース87から検索して作成したものである。
【0127】
詳細画面135は、前の記事選択部136と次の記事選択部137を備えており、ユーザがこれらをマウス操作などで選択すると、それぞれ前の記事、又は次の記事が表示される。
また、記事エリア138の下には、アフェクトターム一覧エリア139が設けられている。
このエリアには、当該記事で出現するアフェクトタームの分析結果が表示される。このエリアは、左側が抽出されたアフェクトタームに関する分析結果を表し、右側が当該アフェクト表現が評価している軸タームに関する分析結果を表している。
【0128】
左側の文番号、アフェクト表現、スコアの各項目は、それぞれアフェクト表現が何番目の文にあったか、抽出されたアフェクト表現、アフェクトアナライザエンジン80が割り出した当該アフェクトタームのスコアを表している。
右側の文番号、被評価語、軸種別の各項目は、それぞれ、左側の欄のアフェクトタームが評価する対象が出現する文が何番目の文にあったか、当該アフェクト表現の軸ターム、軸タームあるいはアフェクトタームから判断した評価軸を表している。
例えば、2行目のデータは、アフェクトターム「かわいい」は、「色」という軸タームをもち、スコアが2.0であり、アフェクトターム及び軸タームは1番目の文に含まれることを表している。
【0129】
図12に戻り、アフェクト情報データベース87は、記事を特定する情報、当該記事で出現したアフェクトターム、そのアフェクトの出現位置、アフェクト表現のスコア、アフェクトタームの出現頻度などをデータベース化したものである。これらのデータは出力エンジン81がアフェクトアナライザエンジン80の出力から生成したものである。対象とする記事や商品(タイトル)は後からでも追加可能である。
【0130】
以上の例では、タイトル画面を1タイトルごとに表示したが、複数のタイトルに関するデータを1つの画面に表示し、複数商品を比較できるようにすることもできる。
その場合の画面遷移図を図16に示す。1タイトルごとにタイトル1→タイトル2といったように表示する場合と、例えば、画面を分割してタイトルを3つ程度同時に表示する場合をユーザが一覧画面から選択できるようにする。複数タイトルを表示する場合は、表示するタイトル一覧画面から選択できるようにする。
【0131】
本実施の形態により以下のような効果が得られる。
ある対象(商品やサービスなど)についての意見が述べられた記事が大量にある場合に、第1の実施の形態のアフェクト情報処理装置1を用いて、記事に表された情動性を自動的に解析してスコア化し、記事を読まなくても記事の寄稿者の評価を認識することができる。
【0132】
また、評価軸の設定により、評価主題のもつ様々な側面についてそれぞれ評価を行うことができる。これにより、評価の内容がより詳細化され、対象のどの部分がどのように評価されているのかが明確にわかる。また、これにより、複数の対象格について様々な側面から長所、短所を比較・検討することができる。
更に、対象ごとに評価の分量を可視化したことで、その対象がどの程度の反響を集めたのかが分かる。
【0133】
また、対象ごとにどの程度の意見が集まっているかが分かり、これにより、複数の対象物の比較・検討を容易に行うことができる。
更に、スコアの正規化によって、記事の多少に関わらず複数の評価主題に対する評価を相対的に正しく比較することができる。
また、一般消費者に対しては有益な情報をもたらし、企業側に対してはマーケティングや風評被害の食い止めなどに有用な情報をもたらすことができる。
【0134】
(第3の実施の形態)
第1の実施の形態、及び第2の実施の形態のアフェクトターム辞書20では、各アフェクトタームの属性、即ち極性及び強度は、予め辞書設計者が設定した値に固定されていた。
そのため、固定したまま使用するかあるいは定期的に手作業によってチューニングする必要があった。その意味では、サイト側の設計者の意図した基準の範囲内での評価にとどまる可能性がある。
そこで、第3の実施の形態では、アフェクトタームの属性とユーザの投票結果による評価結果を有機的に結びつけ、これらアフェクトタームの属性を最適化して自動更新するようにした。
【0135】
本実施の形態におけるネットワーク構成は第2の実施の形態と同様であり、クライアント端末装置2、2、2、・・・、がインターネット3を介して情報処理サーバ5に接続可能に配設されている。以降、第2の実施の形態に対応する構成要素には、同じ番号を付して説明する。
【0136】
図17は、情報処理サーバ5の論理的構成の1例を示した図である。なお、第1の実施の形態及び第2の実施と同じ構成要素には同じ番号を付して説明する。
アフェクトアナライザエンジン80の構成は、第2の実施の形態と同様であるので説明を省略する。
アフェクトアナライザエンジン80は、形態素解析辞書21、アフェクトターム辞書22、構文解析辞書23、軸ターム辞書24を参照しながら記事データベース20から取得した記事を解析してアフェクト表現やスコアなどを出力エンジン81に出力する。
第1の実施の形態及び第2の実施の形態との相違点は、アフェクトターム辞書22でアフェクトタームの極性と強度が辞書調整エンジン82により、更新される点である。
【0137】
出力エンジン81は、アフェクト情報データベース87のデータを参照しながらクライアント端末装置2で表示するための画面データをHTMLファイルなどにて作成したり、アフェクトアナライザエンジン80から取得した情報を用いてアフェクト情報データベースを更新したりなどする。
一覧画面データ83は、第2の実施の形態と同様である。例えば分野で「口紅」を選択し、評価軸で「色つや」を選択すると、口紅の一覧が色つやのスコアでランキングされて表示される。そして、特定の商品名をクリックするなどして当該商品を選択することができるようになっている。ユーザが特定の商品を選択するとこの商品に関するタイトル画面が表示される。
【0138】
タイトル画面データ84は、一覧画面で選択された銘柄のタイトル画面をクライアント端末装置2で表示するためのデータである。
タイトル画面は、1分野(同類の評価主題となる1群)の中の1評価主題(1商品など評価の対象になっている物やサービスなど)に関する情報などを表示する画面であって、所定の商品のスコアなどを表示するほか、ユーザの投票を受付ける機能をも有している。
【0139】
図18は、分野が口紅であり、銘柄が「しぐれ」とした場合のタイトル画面の1例を示したものである。タイトル画面99は、情報処理サーバ5がタイトル画面データ84をクライアント端末装置2に送信したものを、クライアント端末装置のCPUがブラウザソフトに従ってディスプレイに表示したものである。
タイトル画面99は、評価エリア95、投票状況エリア96、投票欄97、及び投票ボタン98などから構成されている。
【0140】
評価エリア95は、更に、評価項目、評価ポイント、スコアバーなどから構成されいる。
評価項目は当該商品を評価するための項目が項目別に列挙したものであり、例えば、口紅の場合、「色つや」、「もち」、「におい」、「付け心地」、「価格」、「パッケージ」などから構成されている。
これの項目は予めシステムの設計者が商品に合わせて設定したものである。
ポイントは、記事データベース20に記憶されている当該商品の記事に含まれるアフェクト表現のスコアを合計したものである。例えば、記事に「色つやがよい」といったようなアフェクト表現があった場合、このアフェクト表現のスコアが「色つや」のポイントに加算される。
【0141】
スコアバーは、当該商品が取得したポジティブスコアとネガティブスコアの合計値を各評価項目ごとにバーで表したものである。
ポジティブスコアとはプラスのスコアを意味し、ネガティブスコアとはマイナスのスコアを意味する。
例えば、口紅「しぐれ」の色つやを、ある記事では肯定的に評価してスコアがプラスとなる場合もあれば、他の記事では否定的に評価してスコアがマイナスになる場合もある。
そして、例えばポジティブスコアは青色のバーで表され、ネガティブスコアは赤色のバーで表される。このように、ポジティブスコアとネガティブスコアを識別可能なバーで表示することにより、これらの集計値をビジュアルに表現することができる。そして、ユーザは「しぐれ」の評価を直感的に一瞥で把握することができる。
【0142】
投票エリア97は、評価エリア95の評価項目に対応して、それぞれ「評価する」、「評価しない」、「わからない」の3つの選択枝が設定されている。
投票エリア97は、ユーザが各評価項目に対する自分の評価を入力する欄であり、1つの項目に関して「評価する」、「評価しない」、「わからない」の何れかを選択することができる。デフォルトでは「わからない」が選択状態となっている。
このように、投票は必ずしも当該評価主題(商品など)を良く思った場合だけではなく、悪く思った場合も可能である。即ち、肯定・否定のうち何れでも投票できる。
【0143】
選択は例えばマウスを用いて行うことができる。ユーザがクライアント端末装置2に備えられたマウスを操作するとポインタ100を画面上で移動することができるようになっている。そして、ポインタを投票エリア97の所望の区分に合わせて左ボタンをクリックすると、当該区分を選択状態にすることができる。また、ラジオボタンと同様に、1評価項目について「評価する」、「評価しない」、「わからない」うち何れか1つを選択すると、他の区分の選択が解除されるようになっている。
【0144】
投票ボタン98は、ユーザが投票エリア97で入力した情報を情報サーバ5に送信するためのボタンである。ユーザが投票エリア97で入力を終えた後、投票ボタン98をクリックすると、ユーザが選択した内容を各評価項目ごと特定する投票データが情報サーバ5に送信される。
【0145】
投票状況エリア96は、評価エリア95と同様に、評価項目に対応して、それぞれ「評価する」、「評価しない」、「わからない」の3つの区分が設定されている。
このエリアには、他のユーザの現在時点までの投票状況が表示され、ユーザが投票エリア97で入力する際の参考とすることができる。
これは、出力エンジン81が後に説明する投票結果データベース89から投票結果を検索したものである。
ところで、本実施の形態では、タイトル画面99は、HTMLのフォームで作成したが、これに限定せず例えばアップレットなど、情報サーバ5側にユーザの投票結果を伝達できるものであれば何でも良い。
【0146】
図17に戻り、詳細画面データ86は、当該商品の記事の全文を表示するためのデータである。タイトル画面99には、図示しない詳細ボタンが設けられており、これをユーザがマウス操作などにて選択すると、出力エンジン81は、後に説明するアフェクト情報データベース87や記事データベース20などデータを用いて詳細画面データ86を生成する。
そして、このデータは情報サーバ5から当該ユーザが使用しているクライアント端末装置2に送信される。そして、クライアント端末装置2ではCPUがブラウザを用いて詳細画面をディスプレイに表示することができる。
【0147】
図19は、クライアント端末装置2で表示された詳細画面の1例を示した図である。
詳細画面105には、当該商品に関する記事が記事エリア106に全文掲載される。そして、これらの記事には、記事中に出現するポジティブなアフェクトタームとネガティブなアフェクトタームが区別可能に表示される。図ではポジティブなアフェクトタームに波線を付して表し、ネガティブなアフェクトタームに下線を付して表したが、この他に、ポジティブなアフェクトタームを青色で表し、ネガティブなアフェクトタームを赤色で表すこともできる。
これは、出力エンジン81が、記事を記事データベース20から検索すると共に、その記事で出現するアフェクトタームとそのポジティブ/ネガティブ性などをアフェクト情報データベース87から検索して作成したものである。
詳細画面105は、前の記事選択部106と次の記事選択部107を備えており、ユーザがこれらをマウス操作などで選択すると、それぞれ前の記事、又は次の記事が表示される。
【0148】
図17に戻り、アフェクト情報データベース87は、記事を特定する情報、当該記事で出現したアフェクトターム、そのアフェクトの出現位置、アフェクト表現のスコア、アフェクトタームの出現頻度などをデータベース化したものである。これらのデータは出力エンジン81がアフェクトアナライザエンジン80の出力から生成したものである。対象とする記事や商品(タイトル)は後からでも追加可能である。
【0149】
投票結果取得部88は、ユーザがクライアント端末装置2から送信した投票データを受信し、投票結果データベース89を更新するモジュールである。
投票結果データベース89は、ユーザの投票内容を記憶したデータベースであり、例えば、投票したユーザ、投票対象である商品、各評価項目ごとの投票内容などを特定する情報が記憶されている。
投票データベース89は、出力エンジン81及び辞書調整エンジン82よりアクセス可能である。出力エンジン81には、現時点での投票結果を提供する。
また、辞書調整エンジン82には、アフェクトターム辞書22を更新するための情報を提供する。
【0150】
辞書調整エンジン82は、投票結果データベース89から各ユーザの投票結果を取得し、アフェクトターム辞書22に登録されているアフェクトタームの属性(極性と強度)を最適値に更新するモジュールである。
このように、辞書調節エンジン82は、主観的評価語の主観の強さの程度を表す数値を変化させる数値変化手段を構成している。概要は以下のとおりである。
投票結果と、その投票対象となった商品に対する記事に含まれるアフェクトタームの出現頻度に統計的な処理を施す。そして、評価項目と当該アフェクトタームの相関関係がどの程度あるかを判断し、これを用いてアフェクトタームの極性(肯定/否定の方向性)や強度(重み付け)を自動的に更新する。
【0151】
このように、辞書調整エンジン82は、投票対象となった商品の評価を直接変更せずに、アフェクトタームの属性を変更することにより間接的に商品の評価を調整する。
従って、投票が全商品に対して網羅的かつ平均的になされなかった場合でも、更に、投票が全くなかったり、投票数が少なかった商品に対しても、記事さえあれば評価の調整を行うことが可能である。
【0152】
ここで、アフェクトターム辞書22の調整の必要性について述べておく。アフェクトアナライザ80は、初期状態(投票などによるアフェクトターム辞書22の調整を行う前の状態)では、システム設計者が設定したアフェクトタームの極性及び強度を用いてスコアの計算を行う。
例えば、「古い」という言葉は、一般論として「悪い感情を表している」と判断し、マイナスの極性を予め与える可能性がある。この場合、記事に「古い」という言葉が入っていれば、無条件でその記事のスコアは下がってしまう。逆に「新しい」という言葉にプラスの極性を設定すれば、記事に「新しい」という言葉が入っていれば無条件でスコアは上昇する。
【0153】
しかし、ユーザがこのような極性の設定に合致して対象を考えているかは不明である。例えば、観光地の記事で「古い寺」、「新しいお寺」と言う言葉があったとする。ここで、「古い」と「新しい」に上記のようなアフェクト情報が設定してあると、「古いお寺を見て、歴史的な重みを感じ感動した」という記事には悪いスコアが与えられ、「お寺が新しく、いかにも観光地だという感じがして興ざめした」と言う記事には良いスコアが与えられる。
このような不具合を改善するためにシステムの設計者が分野ごとの詳細な分析を行い、アフェクトターム辞書20をカスタマイズすることはできるが、最終的にはユーザの意見をアフェクトタームの属性に反映させる仕組みが必要である。
そこで、本システムでは、ユーザの投票結果を用いてアフェクトタームの属性を調整することとした。
【0154】
辞書調整エンジン82は、(1)マッピング機能、(2)相関関係計算機能、(3)アフェクト属性変更機能、などの機能を備えている。
(1)マッピング機能は、ある商品(タイトル)に対し、各アフェクトタームごとに投票結果を総計した投票結果マップと、当該商品(タイトル)に関する記事で、各アフェクトタームごとにアフェクトタームの出現頻度(出現回数をトータルしたもの)を集計した出現頻度マップを生成する。
【0155】
(2)相関関係計算機能は、これら2つのマップを用いて、ある1つのアフェクトタームが出現する頻度が実際の投票数及び投票結果(評価する/評価しない/わからない)とどのような相関関係にあるかを計算する。
例えば、(パッケージが)「頑丈」という語句が何回現れても、商品のパッケージに対する(評価するの)投票数が少なければ、パッケージの頑丈さはあまり評価基準にならないと考えられる。
これに対し、(パッケージが)「美しい」という語句の出現頻度が高いほど、パッケージに対する(評価する)投票数が多く、更に(評価しない)投票数が少なければ、パッケージの美しさは、そのパッケージに対する評価に直結すると推測される。
【0156】
(3)アフェクト属性変更機能は、計算された相関関係に基づいて、アフェクトターム辞書22で設定されているアフェクトタームの属性(極性、強度)を更新する。
上記のパッケージの例を引くなら、アフェクトターム「頑丈」の強度を小さくし、「美しい」の強度を強くする。
また、アフェクトターム辞書22において、1つのアフェクトタームに対する属性を評価主題が属する分野ごとに設定し、これらを独立して変化させることもできる。
このように、アフェクトターム辞書22を構成すると、先のアフェクトターム「古い」の極性は、分野が寺の場合プラスとし、分野が生鮮食料品の場合はマイナスとすることができる。
【0157】
なお、上記の場合は商品を総合評価する場合のように、統計処理するのに評価軸を考慮しない場合であるが、同じ単語でも、異なる評価軸ごとに評価するように構成することもできる。
即ち、例えば口紅を例にとると、評価軸「色つや」に対するアフェクトターム「美しい」と、評価軸「パッケージ」に対するアフェクトターム「美しい」を区別する。
この場合、まず、アフェクトタームを1つ固定し、商品(タイトル)と対応する評価軸の投票結果のマップを作成する。アフェクトタームを評価軸ごとに分けて処理しない場合は、総合スコアのみとなる。
更に、アフェクトタームの出現頻度へのマップも作成する。即ち、商品(タイトル)と、その商品に関する記事中のアフェクトタームの出現頻度をマッピングする。この場合、評価軸を考慮して統計処理する場合は、同じアフェクトタームであっても評価軸が異なればカウントしない。なお、評価軸を考慮しない場合はトータルの数でよい。
【0158】
出力エンジン81は、アフェクトタームの属性の更新が調整されると、再度アフェクトスコアを計算し、アフェクト情報データベース87を更新する。アフェクトターム辞書22の更新は、一定間隔あるいは一定の投票回数ごとに行うようになっている。
【0159】
以上に説明したように本実施の形態では、投票結果を直接そのタイトル(商品)のスコアに反映せずに、一旦、アフェクトタームの極性・強度に反映させる。
そのため、投票がないタイトルがあってもスコアの調整がなされる可能性がある。
例えば、タイトルをスコアによってランキングする場合を考える。ユーザは順位の高いものから見ていく傾向があると推測される。その場合、投票の結果を直接スコアに反映させるものであれば、初期状態で順位が低いものに対しては投票すら行われず、永久に上位に上がれないことも考えられる。しかし、投票がなされていないタイトルでも、アフェクトタームの極性・強度を調整することにより間接的にスコアが上がれば、上位にランキングされることもありえる。
【0160】
ところで、記事数が投票数と比較して極端に少ない場合などは、投票結果を直接スコアに反映させるほうが望ましい。そこで、タイトルをランキングするなどする場合は、以下のオプションをユーザに与えるのが望ましい。
▲1▼アフェクトアナライザ80で計算されたスコアにのみ基づきランキング表示を行う。
▲2▼投票結果にのみ基づきランキング表示する。
▲3▼両者に一定の重み付けをし、加重平均をとってランキング表示する。
【0161】
図20は、アフェクトターム辞書22を更新する手順を示したフローチャートである。
まず、情報サーバ5のCPUは、投票結果データベース89を検索し、投票結果マップと出現頻度マップを作成する(ステップ100)。
次に、CPUは、投票結果マップと出現頻度マップを用いて、アフェクトタームと投票結果の相関関係を計算する(ステップ105)。
次に、CPUは、計算した相関関係に基づいて、アフェクトターム辞書22でアフェクトタームの極性・強度を変化させる(ステップ110)。
次に、CPUは、更新されたアフェクトターム辞書22を用いて各商品のスコアなどを再度計算し、アフェクト情報データベース87を更新する。
【0162】
相関関係の計算方法は公知のものが各種あるが、何れを用いても良い。相関関係は、相関の強さを−1から+1までの数値により定量的に表す方法であり、+1に近づくほど正の相関が強く、また−1に近づくほど負の相関関係が強くなる。また、相関関係がない場合は0となる。
【0163】
以上に説明した本実施の形態では以下の効果を得ることができる。
投票によりユーザの意見をくみ上げることができる。そして、ユーザの意見に従ってアフェクトタームの強度・極性を変化させることができる。これにより、アフェクト表現のスコアの精度を高めることができる。
従って、ユーザの意見をより適切に反映した商品の評価情報を提供することができる。
また、投票結果を記事を通して間接的に商品の評価に結びつけることにより、ある商品に対する投票が少なくても記事さえ存在すれば自動的にスコアを計算でき、また、投票か記事の何れか一方が存在すればスコアを提示することができる。
【0164】
(第4の実施の形態)
本実施の形態では、第1及〜第3の実施の形態で説明したアフェクト表現抽出方法を用いて口コミ情報などを分析する評価分析装置を構成した。
第1及び第2の実施の形態で用いたアフェクト表現抽出方法は、各評価軸ごとに評価主題間の比較を行う場合や1つの評価主題の中で長所・短所を知る目的に非常に有効であった。
本実施の形態では、更に、複数の評価軸について複数の評価主題間の相互比較を行う場合や、1つの評価主題内の長所・短所を同時に把握できるようにする。
また、統計学的手法を用い、例えば、消費者が口紅を評価する場合、発色や色つやは重視されるが付け心地は重視されないといった情報や、口紅Aは、色つや以外の評価軸については評価が高いが、色つやの評価が低いために評価ランキングが低くなっているといったような、詳細な分析すべき着目点を容易に把握することもできるようにする。
【0165】
そこで、本実施の形態の評価分析装置は、第1〜第3の実施の形態で説明したアフェクト表現抽出方法と、所定の分野(例えば口紅)に対する評価主題ごと(口紅A、口紅B、・・・など)のスコアを計算する方法とを基本とし、以下の機能を有するように構成した。
(1)総合スコア(各評価軸のスコアの合計値)と各評価軸ごとのスコアの相関係数を計算し、各評価軸のスコアが総合スコアへ与える影響の度合いを分析する。
また、評価主題と評価軸の2次元スコア表をテーブルとして提示し、着目すべき評価軸を見つけるなど分析項目の絞り込みを支援する。
(2)着目すべき評価軸を複数個選択できるようにし、選択された評価軸のスコアと総合スコアを同時にグラフとして提示する。このように、評価主題と評価軸の2次元スコア表のデータを視覚化して比較することにより、着目すべき項目を直感的に絞り込むことができる。
(3)着目した評価主題の評価軸から、その評価主題に対するアフェクト表現を一覧し、具体的な評価内容を提示する。
(4)前項で一覧したアフェクト表現から、記事の原文にリンクを張ることにより、より詳細な内容を提示する。
【0166】
図21は、本実施の形態の評価分析装置201の論理的な構成の1例を示した図である。
評価分析装置201は、アフェクトアナライザ202と評価分析部203から構成されている。
アフェクトアナライザ202は、記事データベース20、アフェクトアナライザエンジン80、形態素解析辞書21、アフェクトターム辞書22、構文解析辞書23、軸ターム辞書24、アフェクト情報データベース87から構成されている。これら、各構成要素の機能は、第2の実施の形態のものと同様である。
なお、アフェクトアナライザエンジン80は、主観的評価表現部分の主観の強さの程度を数量化する数量化手段や、数量化した主観の強さの程度を集計する集計手段としての機能を持っている。
【0167】
解析分析部203は、分析制御部204、相関係数計算部205、計算結果保存部206、画面表示部207などのモジュールから構成されている。
分析制御部204は、アフェクトアナライザ202とのデータ送受信を制御すると共に、相関係数計算部205、計算結果保存部206、画面表示部207を制御し、評価分析部203をシステムとして稼動させる。
【0168】
相関係数計算部205は、アフェクトアナライザ202が計算した各評価軸ごとのスコアを用いて、総合スコアと各評価軸のスコアとの相関関係を計算するモジュールであり、統計処理手段を構成している。
各評価主題ごとの各評価軸ごとのスコアは、分析制御部204がアフェクト情報データベース87から読み出し、相関係数計算部205に送信したものである。なお、総合スコアは相関係数計算部205がアフェクト情報データベース87から読み出した各評価軸ごとのスコアから計算するように構成しても良いし、アフェクトアナライザエンジン80が予め計算してアフェクト情報データベース87に格納するように構成しても良い。
【0169】
相関係数計算部205は、計算した結果をRAMなどに保存し、ユーザからの指示があれば、計算結果保存部206により、RAMに保存した計算結果をハードディスクなどの記憶媒体に格納する。
相関係数とは、2つの量が相関する度合いを例えば、−1から1までの数値によって定量的に表す量である。相関係数が+1に近づくほど正の相関関係が強く、−1に近づくと負の相関関係が強くなる。また、2つの量の間に相関関係が見出せない場合は0となる。
【0170】
総合スコアと、評価軸Aの相関関係を例にとり説明する。まず、各評価主体の総合スコアと評価軸Aにおけるスコアを収集する。そして、評価軸Aのスコアが大きくなるにつれて、総合スコアも大きくなる傾向がある場合、評価軸Aと総合スコアとの相関係数は+1に近い値になり、正の相関関係が認められる。
逆に、評価軸Aのスコアが大きくなるにつれて総合スコアが小さくなる傾向がある場合、相関係数は−1に近い値になり、負の相関関係が認められ。
一方、総合スコアが変化するのに評価軸Aのスコアが一定の場合、相関係数は0に近い値になり、両者に相関関係は認められない。
【0171】
以上の相関関係を、本実施の形態では、次の式4を用いて算出した。なお、これらの式は、総合スコアと、評価軸「色つや」のスコアとの相関関係を算出する式であり、総合スコアと他の評価軸との相関関係も同様の式により算出できる。また、以下の式のΣは当該分野(例えば口紅)の全ての評価主題に渡る加算を意味するものとする。
【0172】
(総合の分散)=Σ(評価主題総合スコア−総合スコアの平均)の2乗/(主題数)・・・・(式1)
(色つやの分散)=Σ(評価主題の色つやのスコア−色つやのスコアの平均)の2乗/(主題数)・・・・(式2)
(総合と色つやの共分散)=Σ(評価主題の総合スコア−総合スコアの平均)×(評価主題の色つやのスコア−色つやのスコアの平均)/(主題数)・・・・・(式3)
(相関係数)=(式3)/{(式1の平方根)×(式2の平方根)}・・・・(式4)
【0173】
このように、総合スコアと、各評価軸との相関係数を計算することにより、評価主題の総合スコアに対して相関の度合いが高い評価軸や逆に相関の度合いが低い評価軸を見つけ出すことができる。これによって、評価主題のどの評価軸が総合スコアに大きな影響を与えているかなどの情報を知ることができる。
なお、相関係数計算部205は、総合スコアと各軸タームとの相関係数をも計算するように構成することもできる。
【0174】
計算結果保存部206は、相関係数計算部205が計算した結果やその他のデータをデータベースに対して読み書きするモジュールである。
計算処理部205が行う計算処理は、時間がかなりかかる場合がある。そのため、1度計算した結果は、計算結果保存部206によって、ハードディスクなどの記憶媒体などに書き出しておき、計算結果を再度利用したい場合などの時は、既に計算済みの結果を読み出して使用すると利便性が向上する。
【0175】
画面表示部207は、相関係数計算部205が計算した結果を、様々な切り口から表現した画面を生成してディスプレイなどに表示するモジュールであり、集計した主観の強さの程度を提示する提示手段としての機能を持っている。
詳細は後述するが、画面表示部207は、評価主題のスコアを評価軸ごと表示する2次元スコア画面、評価主題の評価軸ごとのスコアをグラフ化して表したグラフ画面、記事から抽出したアフェクト表現を一覧したアフェクト表現一覧画面、更には、これらアフェクト表現を抽出する元になった記事の全文を表示する記事画面などを表示する。
これらの画面を生成するためのデータは、アフェクトタームや各評価軸におけるスコアに関するものは分析制御部204がアフェクト情報データベース87から読み出したものであり、相関係数は、相関係数計算部205が算出してRAMに格納したもの、あるいは計算結果保存部206が保存した計算結果を読み出してRAMに格納したものであり、記事に関するものは記事データベース20から読み出したものなどである。
【0176】
図22は、画面表示部207が表示する画面の遷移図である。評価分析装置201を起動すると起動画面として、2次元スコア画面220が表示される。2次元スコア画面220からグラフ画面223あるいはアフェクト表現一覧画面221に遷移することができる。アフェクト表現一覧画面221からは、更に記事画面222に遷移することができる。
【0177】
図23は、2次元スコア画面220の1例を示した図である。
2次元スコア画面220は、データソース名入力欄231、記事フォルダ名入力欄232、ファイル表示欄233、計算ボタン234、保存ボタン235、読込みボタン236、グラフボタン237、テーブルエリア238などから構成されている。
なお、起動直後の状態では、テーブルエリア238は、空欄となっている。
【0178】
データソース名欄231は、評価分析装置201で分析するためのデータソース名を入力する欄である。評価分析装置201では、利用できるデータソース名を予め列挙するためのデータソーステキストファイルを保有している。データソース名欄231は、コンボボックスとなっており、データソーステキストファイルに登録されたデータソースを一覧して選択できるようになっている。なお、キーボードでデータソース名入力欄231にデータソース名を入力しても良い。
【0179】
データソース名欄231でデータソースを設定することにより、例えば口紅などの分析対象に関するデータをアフェクト情報データベース87から検索して取得することができる。
なお、データソーステキストファイルは、評価分析装置201のデータソースを管理する設定ファイルであり、使用可能なデータソースに関する情報が記述されている。そして、1つのデータソースに関しては、例えば、「Kuchibeni,lip」 などのように、データソース名、リソース(記事)ルートフォルダ名の2つのフィールドが1行に記述されている。
【0180】
記事フォルダ名入力欄232は、解析に使用した記事から成る記事群を管理しているフォルダのルートを入力する欄である。この欄に記入された情報から、分析制御部204は、記事データベース20を検索し、ユーザが指定した記事を取得することができる。ルートからの相対的なパスは、データソース欄231で指定したデータソースに記憶されている。
【0181】
計算ボタン234は、データソース名入力欄231で指定したデータソースを用いて総合スコアと各評価軸との相関係数の計算を開始するためのボタンである。このボタンが選択されると分析制御部204は、相関係数計算部205を起動するようになっている。
計算が終了する計算結果はRAMに保存されると共にテーブルエリア238に表示される。
【0182】
保存ボタン235は、相関係数計算部205が出力した計算結果を保存し、後に計算結果を再利用できるようにするボタンである。このボタンが選択されると計算結果保存部206が起動され、RAMに保存されている計算結果が記憶媒体に書込まれる。
計算結果保存部206は、起動すると画面にファイル選択のダイアログを表示し、保存するファイルのファイル名や保存先のフォルダを指定することがでるようになっている。
【0183】
なお、相関係数計算部205が総合スコアと各軸タームとの相関係数を計算した場合は、これも保存することができる。この場合、軸タームが多い場合は、全ての軸タームについての相関係数を保存するのではなく、相関係数の高い順に所定の個数、例えば200個程度を保存するようにしても良い。
また、保存データは、カンマで区切った単純なテキストファイルなので、表計算ソフトウェアなどの各種のアプリケーションで利用することができ、データの詳細を検討したりなどすることができる。
【0184】
読込みボタン236は、保存ボタン235を選択することにより保存したデータを読み込むためのものである。このボタンが選択されると、計算結果保存部206が起動され、画面にファイル選択のダイアログが表示される。このダイアログから読込むファイルを指定すると、計算結果保存部206が、記憶媒体から当該ファイルを読込みRAMに格納する。
そして、RAMの格納された計算結果はテーブルエリア238に表示される。また、読込んだファイルのファイル名はファイル名表示欄233に表示される。
【0185】
このように、テーブルエリア238に表示されている計算結果が、相関係数計算部205が算出してRAMに格納したものであるのか、あるいは、計算結果保存部206が記憶媒体から読取ってRAMに格納したものであるかは、ファイル名表示欄233にファイル名が表示されるか否かにより認識することができる。
また、テーブルエリア238に表示されている結果が何れのものであっても、グラフ画面223、アフェクト表現一覧画面221、記事画面22に表示される画面はほとんど同じである。
【0186】
グラフボタン237は、相関係数の計算結果をグラフとして表示するためのボタンである。詳細は後述するが、テーブルエリア238で比較したい評価軸を選択した後、このボタンを選択すると、各評価主題の総合スコアと選択した評価軸に関するスコアが視覚化される。
【0187】
テーブルエリア238は、各評価主題の評価軸ごとのスコアや各評価軸ごとの相関係数などを2次元テーブルとして表示するエリアである。本実施の形態では一例として口紅を評価主題とした。
評価主題は、総合スコアが高い順にソートされて表示される。なお、評価主題の表示順序はこれに限定するものではなく、例えば、総合スコアの低い順にソートしたり、又は、ある評価軸のスコアに注目し、当該評価軸のスコアを用いてソートするように構成しても良い。また、これらのソート方法のうち、ユーザが所望のものを選択できるようにしても良い。
【0188】
テーブルエリア238は、表形式になっており、1行目には各列の表示内容が表示される。
2行目は、各評価軸ごとの相関係数が表示され、3行目以降は、各評価主題ごとのスコアが表示される。
【0189】
2列目にはタイトルIDが表示される。タイトルIDとは、各評価主題を識別するために、各評価主題に一意に割り当てた数値である。
3列目には記事数が表示される。記事数とは、各評価主題のスコアを計算するに当たって利用した記事の数(ファイル数)のことである。記事の数が多いほどより客観性の高いスコアを得ることが可能となる。
【0190】
4列目以降10列目までには、各評価軸に対するスコアが表示される。本実施の形態では評価主題が口紅であるので、評価軸は「色つや」、「もち」、「におい」、「付け心地」、「価格」、「価格」、「パッケージ」、「その他」などとなる。
11列目には各評価主題の総合スコアが表示される。総合スコアとは、ある評価主題に対して、各評価軸に対するスコアを単純に加算したものである。このスコアが高いほど、評価主題の総合的な評価が高いことになる。
【0191】
テーブルエリア238で相関係数の行をみると、評価軸「色つや」の相関係数が0.78で最も高い。このことからユーザが色つやに対して好意的に感じる商品ほどユーザの評価が高いことが分かる。即ち、口紅のユーザは商品を選択する場合、色つやを最も重視していることがわかる。
「色つや」の次に相関係数が高い評価軸は「におい」であり、その値は0.58である。このことから、ユーザは、色つやの次ににおいを重視していることが分かる。
また、評価軸「パッケージ」に対する相関係数は0.52であり、ユーザはパッケージを少なからず重視していることが分かる。
【0192】
一方、評価軸「付け心地」に対する相関係数は0.28であり、口紅の総合的な評価との相関はそれほど大きいわけではない。一般に、口紅の付け心地は重要な要素であると思われがちであるが、この解析結果からユーザは付け心地をさほど重視しているわけではないことが分かる。
また、評価軸「価格」に対する相関係数は、−0.11となり、小さいながらも総合評価と価格との間に負の相関関係が認められる。これは、口紅の価格を低く設定するとかえってユーザの評価を得られない傾向が若干あることを示している。
【0193】
以上のように、総合スコアと各評価軸のスコアとの相関係数を比較することにより、様々な情報を得ることができる。これにより、口紅のメーカは、新商品を開発する際に、「付け心地」や「もち」よりも「色つや」と「におい」を重視すると良いことが分かる。そして、解析結果は、価格決定やパッケージデザインを行う場合にも参考とすることができる。
また、例えばパッケージに関するアンケートを行うなど、ある評価軸に関する更に細かい評価を行った記事を収集し、そして、より細部に渡った評価軸を設定することにより、どのようなパッケージがユーザに好まれるかといった細かい情報を得ることも可能である。
【0194】
なお、テーブルエリア238に表示されるスコアは正規化されていないが、例えば、チェックボタンをチェックすることによりスコアを正規化するかしないかを選択できるように構成することもできる。
この場合、正規化する方を選択し、計算ボタン234を選択するとテーブルエリア238に正規化されたスコアが表示され、評価主題は正規化された総合スコアが高い順にソートされる。
【0195】
図24は、グラフ画面223の1例を示した図である。
グラフ画面223では、総合スコアとユーザが選択した評価軸におけるスコアが視覚的に表示される。評価軸の選択は、テーブルエリア238で1列目の「におい」などの評価軸の名称をマウス操作でクリックするなどして行うことができる。選択された評価軸は、当該評価軸の列の色が反転する。
この選択した軸をグラフ化する機能は、相関係数を計算した結果、特に着目したい評価軸が現れたときに有用である。
【0196】
例えば、テーブルエリア238に表示された相関係数から、色つやが重要な要素であることが分かる。そのため、色つやについて更に詳しく調べることは重要である。
総合スコアに比べて評価軸「色つや」のスコアが著しく低い場合は、色つやさえ改善すれば人気商品になる可能性がある。
逆に、評価軸「色つや」のスコアが比較的高いのに総合スコアが低い商品は、他の評価軸のスコアを分析することにより、有効な改善策が見出せることが期待できる。
スコアをグラフ化することにより、一瞥でこれらの情報を推測することが可能となる。
【0197】
図の例は、評価軸として「付け心地」と「色つや」を選択した場合を示している。グラフの点線は付け心地、細線は色つや、総合は太線で表示されている。
縦線225、縦線226、縦線227は、それぞれ最低のスコア、スコア0、最高のスコアを示している。
評価主題は、総合スコアの高い順にソートされている。また、評価主題3つごとに横線を引き、グラフを見やすくしている。
なお、テーブルエリア238のスコアが正規化された状態でグラフボタン237を選択すると正規化されたスコアによってグラフが生成され、一方、テーブルエリアのスコアが正規化されていない状態でグラフボタン237を選択すると、正規化されていないスコアによってグラフが生成されるように構成することもできる。
【0198】
図から口紅Bの評価軸「付け心地」のスコアが著しく低いことが分かる。口紅Bの付け心地については、アフェクト表現一覧画面221と記事画面222を用いて、口紅Bの付け心地が具体的にどのように評価されているのか更に詳しく調べることができる。
口紅Bの付け心地に関するアフェクト表現一覧画面221を表示するには、例えば所定の操作により(特定のキーを押すなど)、2次元スコア画面220に戻り、口紅Bの評価軸「付け心地」のスコアが表示されたセル239をマウス操作でクリックするなどして選択すればよい。
【0199】
図25は、口紅Bの評価軸「付け心地」にかんするアフェクト表現一覧画面221の1例を示した図である。
このように、アフェクト表現一覧画面221は、各評価主題の各評価軸に対して生成することができる。
アフェクト表現一覧画面221には、当該評価主題の当該評価軸に関するアフェクト表現、及びそのアフェクト表現のスコア、当該アフェクトタームが記事中で何番目の文に出現したか、当該アフェクトタームに対応する軸ターム、当該軸タームが記事中で何番目の文に出現したか、及び記事のファイル名などが表示される。
これらのデータは分析制御部204がアフェクト情報データベース87から検索したものである。
【0200】
図の例では、記事中に、口紅Bの評価軸「付け心地」に関して、アフェクト表現「うるおっている」があったことが分かる。このアフェクト表現のスコアは2.0であり、当該記事中で2番目の文に出現したことが分かる。このアフェクト表現に対する軸タームは「感じ」であり、この軸タームは当該記事中で2番目の文に出現することが分かる。そして、当該記事のファイル名は、フォルダ「〇〇¥lip」に格納された「1」であることが分かる。
同様に、その他のアフェクト表現として「すごく荒れて」、「かなりかさつき」、・・・、などがあることが分かる。
【0201】
更に、これらのアフェクト表現を抽出した元の記事の全文を記事画面222で見ることができる。これには、アフェクト表現一覧画面221上で、記事を見たいアフェクト表現をマウス操作でクリックするなどして選択すればよい。
すると、当該記事内のテキストが記事画面222で表示される。
このように、アフェクト表現一覧画面221で表示されるアフェクト表現には、そのアフェクト表現を抽出する元となった記事がリンクされている。
【0202】
図26は、アフェクト表現一覧画面221上でアフェクト表現「カサカサ」を選択した場合に表示された記事画面222の1例を示した図である。
これは、2次元テーブル画面220の記事フォルダ名入力欄232で入力された情報を用いて、分析制御部204が記事データベース20から検索したものである。
なお、図示しないがアフェクトタームや軸タームをカラー表示するなどして強調するように構成しても良い。
記事画面222には、当該アフェクト表現を抽出した記事の全文が表示されるため、当該アフェクト表現がどのような文脈で使用されたかとか、当該記事の作成者が当該評価主題に対して抱いている感じなど、より詳細な情報を取得することができる。
【0203】
この記事を読むと、この記事の筆者が口紅Bの色つやに関しては重ね塗りしてでも使用したいほど高く評価している一方、記事の大半を口紅Bが乾燥しやすいことに対する不満にあてるほど大きな不満をもっていることが分かる。そこで、口紅Bが乾燥しにくいように改良すれば、この記事の筆者は口紅Bを非常に高く評価することが予測できる。
このように、アフェクト表現を抽出した元の記事の全文を読むことによって、より詳細な情報を得ることができる。
以上のように、評価分析装置201を用いることにより、着眼点を絞り込んでいって必要な記事だけ読めばよく、大量の記事を全て読むこと必要はなくなる。
更に、グラフなどを用いて容易に着眼点を発見することができる。
【0204】
以上に説明した本実施の形態では以下の効果を得ることができる。
所定の分野における全ての評価主題に対して、アフェクトアナライザ202により計算された総合スコアと各評価軸ごと相関係数を計算することにより、着目すべき評価軸を特定することができる。
また、着目した複数の評価軸や総合スコアを視覚化することにより、特定の評価主題(例えば特定の商品)の着目すべき長所・短所を発見することができる。
更に、着目した評価主題と評価軸を選択し、具体的なアフェクト表現を知ることができる。
加えて、実際のアフェクト表現と当該アフェクト表現が出現した記事にリンクを張って、アフェクト表現を選択することによりリンク先の記事を表示できるようにすることにより詳細な情報(当該アフェクト表現が存在する周囲の文脈など)を必要に応じて確認することができる。
【0205】
評価分析装置201のハードウェア構成は第1の実施の形態のアフェクト表現処理装置1(図9)と同様に構成することができる。
記事データベース20、形態素解析辞書21、アフェクトターム辞書22、構文解析辞書23、軸ターム辞書24、アフェクト情報データベース87、計算結果保存部206が計算結果を保存するデータベースなどは、データ格納部62に格納される。
そして、アフェクトアナライザエンジン80、分析制御部204、相関係数計算部205、計算結果保存部206、画面表示部207などの各モジュールは、プログラム格納部61に格納された評価分析プログラムをCPU53で実行することによりソフトウェア的に実現される。
【0206】
また、2次元スコア画面220、クラブ画面223、アフェクト表現一覧画面221、記事画面222などは、出力装置26を構成するディスプレイに表示し、入力装置55を構成するマウスやキーボードなどを用いて、2次元スコア画面220での評価軸の選択や記事フォルダ名を入力したりなどの各種入力操作を行うことができる。
また、通信制御装置57をインターネットに接続し、クライアント端末装置から評価分析装置201の評価分析機能を利用するように構成することもできる。
この場合、クライアント端末装置のディスプレイ上に2次元スコア画面220、クラブ画面223、アフェクト表現一覧画面221、記事画面222が表示され、ユーザは、クライアント端末装置から評価分析を行うことができる。
【0207】
以上、本発明の第4の実施形態について説明したが、本発明は説明した実施形態に限定されるものではなく、各請求項に記載した範囲において各種の変形を行うことが可能である。
例えば、本実施の形態では、総合スコアと評価軸ごとの相関係数を求める構成としたが、これに限定するものではなく、例えば、軸タームごとに総合スコアとの相関係数を計算するように構成することもできる。
この場合は、例えば軸ターム辞書24の見出しと一致した記事中の語を集計し、これらの語と総合スコアとの相関関係を計算してファイルに保持する。そして、個別の軸タームごとに、グラフ表示、アフェクト表現一覧の表示を行う。
【0208】
また、類義語をまとめて、これらと総合スコアとの相関関係を求めるように構成することもできる。例えば、「香」、「香り」、「かおり」、「におい」、「匂い」、「芳香」などは、ほぼ同じ意味を有しており類義語であるが、「香り」を代表語としてこれらの語を1つの項目として集計する。評価主題に対してこのような項目をいくつか設け、総合スコアとこれらの項目との相関係数を計算し、グラフ表示、アフェクト表現の一覧の表示などを行う。
このように、類義語を用いて分析することにより、より詳細な解析をすることが可能である。類義語が評価する分野に依存する場合、評価軸をより詳細に分類するのに利用することもできる。
更に、類義語を階層構造にすることも可能である。このように、類義語を階層構造にすることにより、最初は大雑把に着目する項目を決定し、必要に応じて着目点を詳細に絞っていくことが可能となる。
【0209】
【発明の効果】
本発明によれば、文から情動性を表す表現を自動的に抽出することができ、更に情動性の強さを数量化することができる。
【図面の簡単な説明】
【図1】第1の実施の形態のアフェクト表現処理装置1の論理的な構成を示した図である。
【図2】記事データベースに記憶されている記事データの論理的構成の一例を示した図である。
【図3】アフェクトターム辞書の論理的なデータ構造の一例を示した図である。
【図4】構文解析の1例を示した図である。
【図5】文法の1適用例を示した図である。
【図6】アフェクト表現抽出部のより詳細な構成を示したブロック図である。
【図7】構文解析した結果の一例を示した図である。
【図8】軸ターム辞書の論理的な構成の1例を示した図である。
【図9】アフェクト表現処理装置のハードウェアの構成の1例を示した図である。
【図10】アフェクト表現処理装置が記事からアフェクト表現を抽出する手順を示したフローチャートである。
【図11】第2の実施の形態におけるネットワーク構成の1例を示した図である
【図12】第2の実施の形態の情報処理サーバの論理的構成の1例を示した図である。
【図13】一覧画面の1例を示した図である。
【図14】タイトル画面の1例を示した図である。
【図15】詳細画面の1例を示した図である。
【図16】画面遷移図の1例を示した図である。
【図17】第3の実施の形態の情報処理サーバの論理的構成の1例を示した図である。
【図18】タイトル画面の1例を示した図である。
【図19】詳細画面の1例を示した図である。
【図20】アフェクトターム辞書を更新する手順を示したフローチャートである。
【図21】第4の実施の形態の評価分析装置の論理的な構成の1例を示した図である。
【図22】画面表示部が表示する画面の遷移図である。
【図23】2次元スコア画面の1例を示した図である。
【図24】グラフ画面の1例を示した図である。
【図25】アフェクト表現一覧画面の1例を示した図である。
【図26】記事画面の1例を示した図である。
【符号の説明】
1 アフェクト情報抽出装置
2 クライアント端末装置
3 インターネット
5 情報処理サーバ
10 入力部
11 形態素解析部
12 アフェクト情報付与部
13 構文解析部
14 アフェクト表現抽出部
15 出力部
20 記事データベース
21 形態素解析辞書
22 アフェクトターム辞書
23 構文解析辞書
24 軸ターム辞書
51 制御部
52 ROM
53 CPU
54 RAM
55 入力装置
56 出力装置
57 通信制御装置
58 バスライン
59 入出力インターフェース
60 記憶媒体駆動装置
61 プログラム格納部
62 データ格納部
63 記憶装置
80 アフェクトアナライザエンジン
81 出力エンジン
82 辞書調節エンジン
83 一覧画面データ
84 タイトル画面データ
86 詳細画面データ
87 アフェクト情報データベース
88 投票結果取得部
89 投票結果データベース
202 アフェクトアナライザ
203 評価分析部
204 分析制御部
205 相関係数計算部
206 計算結果保存部
207 画面表示部

Claims (20)

  1. 分析の対象となっている文章が評価している評価主題に対して情動を表現した語である情動表現語を含む文章を取得する文章取得手段と、
    前記取得した文章を形態素解析して形態素列を出力する形態素解析手段と、
    前記出力した形態素列を構文解析する構文解析手段と、
    前記出力した形態素列を用いて、前記取得した文章において使用されている情動表現語を特定する情動表現語特定手段と、
    前記特定された情動表現語と、前記構文解析手段で取得した係受け構造を用いて、前記文章から情動的な表現を表している情動表現部分を抽出する抽出手段と、
    前記特定した情動表現語が情動を表現している、前記評価主題ごとに予め設定された属性を特定する属性特定手段と、
    前記抽出した情動表現部分と、前記特定した属性を出力する出力手段と、
    を具備したことを特徴とする情報処理装置。
  2. 分析の対象となっている文章が評価している評価主題に対して情動を表現した語である情動表現語を含む文章を取得する文章取得手段と、前記取得した文章において使用されている情動表現語を特定する情動表現語特定手段と、
    前記文章において、情動表現語に作用して情動の強さを変化させる語である機能語を特定する機能語特定手段と、
    前記文章を形態素解析して形態素列を出力する形態素解析手段と、
    前記形態素列を構文解析する構文解析手段と、
    前記構文解析手段による解析結果を用いることにより、前記情動表現語特定手段又は前記機能語特定手段で情動表現語若しくは機能語として特定された語を情動表現語及び機能語の何れでもないと再特定し、又は、前記情動表現語特定手段又は前記機能語特定手段で情動表現語及び機能語のいずれとしても特定されなかった語を情動表現語若しくは機能語として再特定する再特定手段と、
    前記情動表現語特定手段、又は前記再特定手段で特定された情動表現語を用いて、前記文章から情動的な表現を表している情動表現部分を抽出する抽出手段と、
    前記抽出した情動表現部分を出力する出力手段と、
    を具備したことを特徴とする情報処理装置。
  3. 前記情動表現語特定手段で特定した情動表現語が情動を表現している前記評価主題ごとに予め設定された属性から、前記情動表現語が情動を表現している属性を特定する属性特定手段を更に具備し、
    前記出力手段は、前記抽出手段で抽出した情動表現部分と、前記属性特定手段で特定した属性を出力することを特徴とする請求項2に記載の情報処理装置。
  4. 前記文章において、情動表現語に作用して情動の強さを変化させる語である機能語を特定する機能語特定手段を更に具備し、
    前記抽出手段は、前記文章のうち、前記情動表現語と当該情動表現語に作用する前記特定した機能語を含む部分を抽出することを特徴とする請求項1に記載の情報処理装置。
  5. 前記出力手段で出力した情動表現部分の情動の強さの程度を数量化する数量化手段を更に具備したことを特徴とする請求項3、又は請求項4に記載の情報処理装置。
  6. 前記抽出した情動表現部分に含まれる情動表現語に数値を対応付ける数値対応付け手段を更に具備し、
    前記数量化手段は、前記数値対応付け手段で対応付けられた数値を用いて、前記情動表現部分の情動の強さの程度を数量化することを特徴とする請求項5に記載の記載の情報処理装置。
  7. 前記数値対応付け手段で前記情動表現語に対応付けられた数値を変化させる数値変化手段を更に具備したことを特徴とする請求項6に記載の情報処理装置。
  8. 前記数量化した情動の強さの程度を前記出力手段で出力した属性を用いて集計する集計手段と、
    前記集計した情動の強さの程度を提示する提示手段と、
    を更に具備したことを特徴とする請求項5、請求項6、又は請求項7に記載の情報処理装置。
  9. 前記抽出した情動表現部分に含まれる情動表現語に作用する機能語に演算方法を対応付ける演算対応付け手段を更に具備し、
    前記数量化手段は、前記情動表現語に対応付けられた数値を、前記演算対応付け手段で対応付けられた演算方法にて演算を施すことにより、前記情動表現部分の情動の強さの程度を変化させることを特徴とする請求項2から請求項8までのうちの何れか1の請求項に記載の情報処理装置。
  10. 前記情動表現語特定手段は、前記形態素解析手段で出力した形態素列を構成する形態素を情動表現語を記憶した表現語データベースで検索し、前記形態素が前記表現語データベースで検索された場合に当該形態素を情動表現語として特定し、
    前記機能語特定手段は、前記形態素列を構成する形態素を、機能語を記憶した機能語データベースで検索し、前記形態素が前記機能語データベースで検索された場合に当該形態素を機能語として特定することを特徴とする請求項2から請求項9までのうちの何れか1の請求項に記載の情報処理装置。
  11. 前記属性特定手段は、
    前記構文解析の結果を用いることにより、前記文章において、前記特定した情動表現語の情動の対象となっている被情動語を特定する被情動語特定手段と、
    前記特定した被情動語に前記評価主題の属性を対応付ける対応付け手段と、
    を具備したことを特徴とする請求項1から請求項8までのうちの何れか1の請求項に記載の情報処理装置。
  12. 前記応付け手段は、前記被情動語を、被情動語と属性を対応付けた属性データベースで検索することにより前記被情動語に属性を対応付けることを特徴とする請求項11に記載の情報処理装置。
  13. 前記集計手段で集計した情動の強さの程度を統計処理する統計処理手段を更に具備し、
    前記提示手段は、前記統計処理された結果を提示することを特徴とする請求項8に記載の情報処理装置。
  14. 前記統計処理手段は、所定の属性に係る情動の強さの程度と、各属性に係る情動の強さの程度の合計値との相関係数を複数の前記評価主題に渡って計算することを特徴とする請求項13に記載の情報処理装置。
  15. 前記統計処理手段は、複数の前記評価主題における情動の強さの程度を相互比較できるように、前記情動の強さの程度を正規化することを特徴とする請求項13、又は請求項14に記載の情報処理装置。
  16. 前記提示手段は、前記集計手段で集計された結果をテーブル又はグラフの少なくとも一方の形式で提示することを特徴とする請求項8、又は請求項13から請求項15までのうちの何れか1の請求項に記載の情報処理装置。
  17. 文章取得手段と、形態素解析手段と、構文解析手段と、情動表現語特定手段と、抽出手段と、属性特定手段と、出力手段と、を備えたコンピュータにおいて、
    分析の対象となっている文章が評価している評価主題に対して情動を表現した語である情動表現語を含む文章を前記文章取得手段で取得する文章取得ステップと、
    前記取得した文章を形態素解析して形態素列を前記形態素解析手段で出力する形態素解析ステップと、
    前記出力した形態素列を前記構文解析手段で構文解析する構文解析ステップと、
    前記出力した形態素列を用いて、前記取得した文章において使用されている情動表現語を前記情動表現語特定手段で特定する情動表現語特定ステップと、
    前記特定された情動表現語と、前記構文解析手段で取得した係受け構造を用いて、前記文章から情動的な表現を表している情動表現部分を前記抽出手段で抽出する抽出ステップと、
    前記特定した情動表現語が情動を表現している、前記評価主題ごとに予め設定された属性を前記属性特定手段で特定する属性特定ステップと、
    前記抽出した情動表現部分と、前記特定した属性を前記出力手段で出力する出力ステップと、
    から構成されたことを特徴とする情報処理方法。
  18. 文章取得手段と、情動表現語特定手段と、機能語特定手段と、形態素解析手段と、構文解析手段と、再特定手段と、抽出手段と、出力手段と、を備えたコンピュータにおいて、
    分析の対象となっている文章が評価している評価主題に対して情動を表現した語である情動表現語を含む文章を前記文章取得手段で取得する文章取得ステップと、
    前記取得した文章において使用されている情動表現語を前記情動表現語特定手段で特定する情動表現語特定ステップと、
    前記文章において、情動表現語に作用して情動の強さを変化させる語である機能語を前記機能語特定手段で特定する機能語特定ステップと、
    前記文章を形態素解析して形態素列を前記形態素解析手段で出力する形態素解析ステップと、
    前記形態素列を前記構文解析手段で構文解析する構文解析ステップと、
    前記構文解析手段による解析結果を用いることにより、前記情動表現語特定手段又は前記機能語特定手段で情動表現語若しくは機能語として特定された語を情動表現語及び機能語の何れでもないと前記再特定手段で再特定し、又は、前記情動表現語特定手段又は前記機能語特定手段で情動表現語及び機能語のいずれとしても特定されなかった語を情動表現語若しくは機能語として前記再特定手段で再特定する再特定ステップと、
    前記情動表現語特定手段、又は前記再特定手段で特定された情動表現語を用いて、前記文章から情動的な表現を表している情動表現部分を前記抽出手段で抽出する抽出ステップと、
    前記抽出した情動表現部分を前記出力手段で出力する出力ステップと、
    から構成されたことを特徴とする情報処理方法。
  19. 分析の対象となっている文章が評価している評価主題に対して情動を表現した語である情動表現語を含む文章を取得する文章取得機能と、
    前記取得した文章を形態素解析して形態素列を出力する形態素解析機能と、
    前記出力した形態素列を構文解析する構文解析機能と、
    前記出力した形態素列を用いて、前記取得した文章において使用されている情動表現語を特定する情動表現語特定機能と、
    前記特定された情動表現語と、前記構文解析機能で取得した係受け構造を用いて、前記文章から情動的な表現を表している情動表現部分を抽出する抽出機能と、
    前記特定した情動表現語が情動を表現している、前記評価主題ごとに予め設定された属性を特定する属性特定機能と、
    前記抽出した情動表現部分と、前記特定した属性を出力する出力機能と、
    をコンピュータで実現する情報処理プログラム。
  20. 分析の対象となっている文章が評価している評価主題に対して情動を表現した語である情動表現語を含む文章を取得する文章取得機能と、前記取得した文章において使用されている情動表現語を特定する情動表現語特定機能と、
    前記文章において、情動表現語に作用して情動の強さを変化させる語である機能語を特定する機能語特定機能と、
    前記文章を形態素解析して形態素列を出力する形態素解析機能と、
    前記形態素列を構文解析する構文解析機能と、
    前記構文解析機能による解析結果を用いることにより、前記情動表現語特定機能又は前記機能語特定機能で情動表現語若しくは機能語として特定された語を情動表現語及び機能語の何れでもないと再特定し、又は、前記情動表現語特定機能又は前記機能語特定機能で情動表現語及び機能語のいずれとしても特定されなかった語を情動表現語若しくは機能語として再特定する再特定機能と、
    前記情動表現語特定機能、又は前記再特定機能で特定された情動表現語を用いて、前記文章から情動的な表現を表している情動表現部分を抽出する抽出機能と、
    前記抽出した情動表現部分を出力する出力機能と、
    をコンピュータで実現する情報処理プログラム。
JP2003017430A 2001-11-20 2003-01-27 情報処理装置、情報処理方法、及び情報処理プログラム Expired - Fee Related JP3738011B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003017430A JP3738011B2 (ja) 2001-11-20 2003-01-27 情報処理装置、情報処理方法、及び情報処理プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001355280A JP3402599B1 (ja) 2001-11-20 2001-11-20 情報処理装置、情報処理方法、及び情報処理プログラム
JP2003017430A JP3738011B2 (ja) 2001-11-20 2003-01-27 情報処理装置、情報処理方法、及び情報処理プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001355280A Division JP3402599B1 (ja) 2001-11-20 2001-11-20 情報処理装置、情報処理方法、及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2003248681A JP2003248681A (ja) 2003-09-05
JP3738011B2 true JP3738011B2 (ja) 2006-01-25

Family

ID=28672835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003017430A Expired - Fee Related JP3738011B2 (ja) 2001-11-20 2003-01-27 情報処理装置、情報処理方法、及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP3738011B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006190196A (ja) * 2005-01-07 2006-07-20 Ntt Docomo Inc 人物評価装置、及び、人物評価方法
JP2006301718A (ja) * 2005-04-15 2006-11-02 Pioneer Electronic Corp 情報処理装置、情報処理システム、情報処理方法、情報処理プログラム、および、そのプログラムを記録した記録媒体
CN101223571B (zh) * 2005-07-20 2011-05-18 松下电器产业株式会社 音质变化部位确定装置及音质变化部位确定方法
JP2007172179A (ja) * 2005-12-20 2007-07-05 Nec Corp 意見抽出装置、意見抽出方法、および意見抽出プログラム
JP2008033992A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 記憶装置およびその制御方法
JP4854019B2 (ja) * 2006-11-29 2012-01-11 独立行政法人情報通信研究機構 意見収集システム、意見収集方法および意見収集プログラム
JP4426563B2 (ja) 2006-12-25 2010-03-03 大日本印刷株式会社 情報提供システム
JP4359787B2 (ja) 2007-07-02 2009-11-04 ソニー株式会社 情報処理装置、コンテンツの評判検索方法およびコンテンツの評判検索システム
JP5125281B2 (ja) * 2007-07-23 2013-01-23 凸版印刷株式会社 評価結果出力装置、評価結果出力方法、プログラム
EP2237174A4 (en) 2007-12-13 2012-02-15 Dainippon Printing Co Ltd SYSTEM FOR PROVIDING INFORMATION
JP5258532B2 (ja) * 2008-06-10 2013-08-07 ヤフー株式会社 評判指数を出力する方法及び評判指数出力装置
JP5284064B2 (ja) * 2008-12-03 2013-09-11 ヤフー株式会社 商品idサーバ装置、および商品idサーバ装置の制御方法
KR101168312B1 (ko) 2010-02-16 2012-07-25 모젼스랩(주) 가중치를 이용한 응답문 생성장치 및 방법
JPWO2014174797A1 (ja) * 2013-04-23 2017-02-23 日本電気株式会社 情報処理システム、情報処理方法およびプログラム
JP2016194864A (ja) * 2015-04-01 2016-11-17 株式会社イージェーワークス 入力支援装置、入力支援方法及びプログラム
CN108885617B (zh) 2016-03-23 2022-05-31 株式会社野村综合研究所 语句解析系统以及程序
JP7426681B1 (ja) 2023-02-28 2024-02-02 株式会社マイベスト 商品/サービスの選択時にユーザー視点で横断共通な評価を実現する方法

Also Published As

Publication number Publication date
JP2003248681A (ja) 2003-09-05

Similar Documents

Publication Publication Date Title
Wang et al. Extracting and summarizing affective features and responses from online product descriptions and reviews: A Kansei text mining approach
JP3738011B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Görg et al. Combining computational analyses and interactive visualization for document exploration and sensemaking in jigsaw
Kim et al. Mining affective experience for a kansei design study on a recliner
RU2657173C2 (ru) Сентиментный анализ на уровне аспектов с использованием методов машинного обучения
US9489625B2 (en) Rapid development of virtual personal assistant applications
Gamon et al. Pulse: Mining customer opinions from free text
Bauer et al. Quantitive evaluation of Web site content and structure
US7788086B2 (en) Method and apparatus for processing sentiment-bearing text
US7788087B2 (en) System for processing sentiment-bearing text
EP1577797A2 (en) Rendering tables with natural language commands
US20140337814A1 (en) Rapid development of virtual personal assistant applications
US20020059220A1 (en) Intelligent computerized search engine
JP3408528B1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP4796664B1 (ja) 感性分析システム及びプログラム
Hu et al. Mining product features from online reviews
JP2001075966A (ja) データ分析システム
Al Qundus et al. Exploring the impact of short-text complexity and structure on its quality in social media
US20140188456A1 (en) Dictionary Markup System and Method
JP3402599B1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP2004021445A (ja) テキストデータ分析システム、テキストデータ分析方法およびコンピュータプログラム
US20140019464A1 (en) Preference visualization system and censorship system
JP5599073B2 (ja) 感性分析システム及びプログラム
KR20160103470A (ko) 네트워크를 통해 상품에 대한 기존 사용자들의 반응정보를 제공하기 위한 시스템 및 방법
JP5717549B2 (ja) 感性分析システム及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051028

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091104

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101104

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101104

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111104

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees