JP2007018234A

JP2007018234A - 感情表現語句辞書自動生成方法及び装置、並びにテキストに対する感情尺度評価値自動付与方法及び装置

Info

Publication number: JP2007018234A
Application number: JP2005198767A
Authority: JP
Inventors: Tadahiko Kumamoto; 忠彦熊本; Katsumi Tanaka; 克己田中
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2005-07-07
Filing date: 2005-07-07
Publication date: 2007-01-25

Abstract

【課題】テキスト中の感情表現語句について感情尺度評価値を自動的に付与し、感情表現語句辞書を出力すること、及び入力した対象テキストに対する感情尺度評価値を自動的に付与する技術を提供する。
【解決手段】入力部の入力したテキストデータ１５を形態素解析（１１）し、共起確率算出部１２が、所定の対義する１組の感情語のいずれかを含むテキストの数と、テキストに含まれる対象語句が各感情語と同時に出現するテキストの数とをそれぞれ検出する。そして両者の数の比から対象語句の各感情語に対する出現確率を算出し、感情尺度評価値算出部１３が出現確率の比を感情尺度評価値として算出する。この結果得られた対象語句と感情尺度評価値を辞書１６として登録する。
【選択図】図１

Description

本発明はコンピュータにおけるテキストデータの処理方法に関し、より詳しくは、テキストデータに含まれる感情を表現する語句を抽出してその感情尺度評価値を付与する方法及び、テキストデータに感情尺度評価値を付与する方法に関する。

人と人、人と対話システムとのコミュニケーションにおいて、情報発信者（話し手、書き手）から情報受信者（聴き手、読み手）に伝達される情報のうち、「もの」、「行為」、「状態」といった命題や「信念」、「意図」といった情報発信者の命題に対する態度に関しては、例えば非特許文献１に開示される発話行為論や非特許文献２に開示されるプラン認識の枠組みで古くから研究されている。

山梨正明、「発話行為」、大修館書店、東京、1986年 J.F.Allen and C.R.Perrault、「Analyzing Intention in Utterances」 Artificial Inteligence,Vo1.15,pp.143-178,1980年

また、情報発信者の「感情（喜び、悲しみ、嫌悪、期待など）」を推定するための研究（非特許文献３〜６を参照）も近年盛んに行われている。
しかしながら、伝達される情報の中にどのような感情がどの程度含まれているのか、という観点からの研究はまだ少ない．

福井美佳、芝崎靖代、笹氣光一、竹林洋一、「コミュニケーション支援のための個人情報公開システム（PIP）」、情処研報、ヒューマンインタフェース64-8、pp.43-48、1996年倉石英俊、柴田義孝、「個人モデルを用いた表情分析／合成による感情通信システム」、情処研報、マルチメディア通信と分散処理74-14、pp.79-84、1996年松本和幸、黒岩眞吾、任福継、「感情計測システムについて」、信学技報、NLC2003-10、pp.55-60、2003年日本SGI株式会社プレスリリース、http://www.sgi.co.jp/newsroom/press_releases/2004/sep/st.html

また、従来の特許文献としては、テキストに表現される感情やテキストに対して感じるイメージを、簡単かつ高い確度で推定する技術を開示した特許文献７がある。
上記技術では、感性情報を推定する上での手掛かりとなる概念情報を対応づけた辞書データを予め備えることにより文節や文単位等に対して感性情報を推定することができるが、辞書データは予め定義しておかなければならず、コンピュータによる客観的な推定結果が得られるとは言い難い。

特開2005-128711号公報

本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、テキスト中の感情を表現する感情表現語句について所定の感情尺度における感情尺度評価値を自動的に付与し、感情表現語句辞書を出力すること、及び入力した対象テキストに対する感情尺度評価値を自動的に付与する技術の提供をその目的とする。

本発明は、上記の課題を解決するために、次のような感情表現語句辞書自動生成方法及び装置を提供する。
すなわち、請求項１に記載の発明は、入力したテキストデータに含まれる対象語句に対して、１組の対義する意味を有する所定の第１感情語及び第２感情語（以下、感情語と呼ぶ）のいずれの意味に近いかを示す感情尺度評価値を付与し、該対象語句の一部又は全部から感情表現語句の辞書を自動的に生成する方法である。

本発明は、該方法において、入力手段が複数の文章群（単数又は複数の文章の集合）からなるテキストデータを入力する入力ステップ、形態素解析手段が、該テキストデータに対して形態素解析処理を行う形態素解析ステップを処理する。
形態素解析の結果、語句を抽出することが可能になり、共起確率算出手段が、該いずれかの感情語を含む文章群の数、及び文章群を構成する各語句を対象語句として、その対象語句が該いずれかの感情語と同時に出現する文章群の数をそれぞれ検出して、前者の数と後者の数との比から対象語句の第１感情語に対する出現確率Ｐ１と、対象語句の第２感情語に対する出現確率Ｐ２とを算出する共起確率算出ステップが行われる。

さらに、感情尺度評価値算出手段が、該出現確率Ｐ１と該出現確率Ｐ２の比を算出し、それを該感情語の組における感情尺度評価値とする感情尺度評価値算出ステップ、各対象語句について順次共起確率算出ステップと感情尺度評価値算出ステップを行い、辞書出力手段が、当該対象語句の一部又は全部と感情尺度評価値とを対応づけた感情表現語句辞書を出力する辞書出力ステップの各ステップを有する。

請求項２に記載の発明は、上記の出現確率Ｐ１と出現確率Ｐ２の比Ｒを、
Ｒ＝Ｐ１／（Ｐ１＋Ｐ２）
に従って算出することを特徴とする。

請求項３に記載の発明は、上記感情表現語句辞書自動生成方法において、複数の第１感情語及び第２感情語の組における感情尺度毎に感情表現語句辞書を生成することを特徴とする。

請求項４に記載の発明は、上記感情表現語句辞書自動生成方法において、所定の期間又は分野毎に前記文章群が分類される構成であって、感情尺度評価値算出手段が、各期間又は分野ごとに前記出現確率Ｐ１と該出現確率Ｐ２との比を算出すると共に、該比の平均を算出して第１感情語及び第２感情語における感情尺度評価値とすることを特徴とする。

請求項５に記載の発明は、感情表現語句辞書自動生成方法において、感情尺度評価値に対して少なくとも前記感情語の出現回数又は確率に応じた重み付け値を感情表現語句辞書に備えることを特徴とする。

本発明は、上記請求項１ないし５に記載された感情表現語句辞書自動生成方法を備えた装置として提供することもできる。

また、本発明は次のようなテキストに対する感情尺度評価値自動付与方法を提供することもできる。
すなわち、請求項１１に記載の発明は、入力した対象テキストに対して、１組の対義する意味を有する所定の第１感情語及び第２感情語（以下、感情語と呼ぶ）のいずれの意味に近いかを示す感情尺度評価値を付与する方法である。

該方法において、テキスト入力手段が、対象テキストデータを入力するテキスト入力ステップ、形態素解析手段が、該対象テキストデータに対して形態素解析処理を行うテキスト形態素解析ステップ、感情表現語句抽出手段が、該対象テキストデータから感情表現語句辞書データベースに一致する感情表現語句を抽出し、同時にその感情尺度評価値を取得する感情表現語句抽出ステップ、テキスト感情尺度評価値演算手段が、各感情表現語句の感情尺度評価値を用いて所定の計算式により当該対象テキストデータに対する感情尺度評価値を算出するテキスト感情尺度評価値演算ステップ、該テキスト感情尺度評価値出力手段が、算出されたテキスト感情尺度評価値を出力するテキスト感情尺度評価値出力ステップの各ステップを有する。

請求項１２に記載の発明は、上記テキストに対する感情尺度評価値自動付与方法が、上記請求項１ないし５のいずれかにおける感情表現語句辞書自動生成方法により出力された感情表現語句辞書を感情表現語句辞書データベースに備えていることを特徴とする。

請求項１３に記載の発明は、上記テキストに対する感情尺度評価値自動付与方法が、複数の第１感情語及び第２感情語の組における感情尺度毎に感情尺度評価値を算出し付与することを特徴とする。

請求項１４に記載の発明は、上記感情表現語句辞書データベースが、最も第１感情語に近い場合を１、最も第２感情語に近い場合を０とした感情尺度評価値Ｓと共に該感情尺度評価値に対する重みＭを備える構成において、テキストに対する感情尺度評価値Ｏを算出する前記所定の計算式が、
Ｏ＝ΣＳ×｜２Ｓ−１｜×Ｍ／Σ｜２Ｓ−１｜×Ｍ
（但しΣは対象テキストに含まれる全ての感情表現語句に対して行うことを意味する）
であることを特徴とする。

本発明は、上記請求項１１ないし１４に記載されたテキストに対する感情尺度評価値自動付与方法を備えた装置として提供することもできる。

本発明は、上記構成を備えることにより、次のような効果を奏する。
請求項１ないし１０に記載の感情表現語句辞書自動生成方法及び装置によると、テキストに含まれる語句と、感情との対応関係を表す感情表現語句辞書を自動構築することができる。
従来、このような辞書を構築する際に作業者の判断を必要とする方法は、一般に高コストであり、i）テキストを介して伝達される感情には個人差がある、ii）作業者の性格、体調、気分によって判断基準が変動する、iii）辞書の再構築や部分修正といったメンテナンスが容易でない、といった問題を生じていたが、本発明は、自動化することによりこれらを解消することができる。

請求項１１ないし１８に記載のテキストに対する感情尺度評価値自動付与方法及び装置においても、上記感情表現語句辞書を用いることにより、判断基準が安定した好適な推定結果を得ることができる。

また、特に請求項３、８、１３、１７に記載の技術によれば、任意の感情をその程度とともに抽出することができる。
推定可能な感情の種類を限定した方法では、システムの用途が限られてしまう。推定したい感情の種類は、応用分野によっても異なり、その時々の状況によっても異なることから、任意の感情を抽出できる枠組みでの手法の提案が必要とされる。
本発明によれば、それぞれの感情がどの程度伝達されるのかを数値で示すことにより、抽出された複数の感情の中から特徴的な感情を決定することが可能になる。

さらに、本発明によれば感情を推定するための正解データを必要としない、教師なし学習の枠組みが実現できる。従来、テキスト構成要素と感情との対応関係を明示的に示す正解データを人手で作るための方法論（非特許文献８を参照）も論じられているが、上記のような問題が生じるうえ、任意の感情すべてに対し、あらかじめ正解データを用意することはできない。
本発明では、このような問題を解決し、自動化を図ることができる。

古塩貴行、徳久雅人、村上仁一、池原悟、「情緒注釈付き対話コーパスの誤り分析」、第18回人工知能学会講演論文集、N0.2G3-02、pp.1-4、2004年

以下、本発明の実施形態を、図面に示す実施例を基に説明する。なお、実施形態は下記に限定されるものではない。
例えば、本実施例では新聞記事データベース中の記事に現れる単語の感情尺度値と重みを算出する手法、ならびにWebニュースサイトから得られる記事の感情尺度値を決定することを実施例として述べるが、本発明が対象とするテキストには、あらゆる文書を想定することができる。入力の方法も、データベース化されて記憶媒体から取り込まれたテキストや、インターネット等を通じて受信したテキストに限らず、キーボード等から入力されたもの、マイクで入力した音声を音声認識によってテキストに変換したもの、任意の入力方法を用いることができる。

本発明は、語句と感情尺度との対応関係を示す感情表現語句辞書（以下、感情辞書と呼ぶ。）を自動構築することを特徴とする。その際、正解データを必要としない、教師なし学習に基づく手法を提案する。また、Turneyが非特許文献９で提案したように、何らかのヒューリスティックな知識を導入し、辞書の自動構築を実現することにする。

Peter D. Turney、「Thumbs Up or Thumbs Down?」 Semantic Orientation Applied to Unsupervised Classification of Reviews, Proc. of the Conference on Association for Computational Linguistics 2002年

一方、特定の感情尺度を対象とするのでなく、任意の感情尺度を設定できるようにする必要があることから、感情尺度の種類に依存しない手法でなければならない。そこで本発明では、例えば新聞記事データベースを知識源として利用することにし、「感情語ｅを含む記事はその感情語が表す感情を伝達する」という仮定のもと、新聞記事データベースに現れる各単語が感情尺度を構成する２つの感情語のどちらと、より高い確率で共起するか、という観点で手法の設計を行っている点に特徴がある。

（実施例１）
図１は本発明の第１の実施例に係る感情表現語句辞書自動生成装置（１）の全体構成図である。本発明は公知のパーソナルコンピュータにより容易に実現することが可能であり、演算処理やテキスト処理などを司るＣＰＵ（２）によって本発明の各ステップを実行処理する。ＣＰＵ（２）は周知のように図示しないメモリと協働して動作し、キーボード（４）やマウスなどの入力手段の他、出力結果を表示するモニタ（５）、ハードディスク等の外部記憶装置（３）などを備えている。

次に図２に従って、本発明の処理を説明する。
テキスト（１５）をＣＰＵの入力部（１０）で入力する。ここでテキストには新聞記事データベースを用いている。本データベースには、1990年版から2001年版までの記事データが記録されており、これを感情辞書を構築するために用いる。各年版には、17万前後の記事（約200MB）が含まれており、12年間分で200万強の記事が得られた。

なお、後述するように、本実施例では期間や分野による出現語句の変化を好適に評価に反映させるため、各年毎に１つの文章群と定義し、それを複数入力するというように観念している。従って、１９９０年版が１つの文章群であり、それには多数の記事を含み、さらに該記事中には多数の文章が含まれていることになる。もっとも、各記事をそれぞれ文章群と定義してもよいし、例えば１段落を１つの文章群としてもよい。また、文章群はただ１つの文章から構成されてもよい。

本実施例では、感情辞書に登録される語句の感情尺度を測るための感情語として「悲しい」（第１感情語）と「うれしい」（第２感情語）の組、「怒る」（第１感情語）、「喜ぶ」（第２感情語）の組をそれぞれ用いる。各年版における感情語「悲しい」、「うれしい」、「怒る」、「喜ぶ」を含む記事の数は表１のとおりである。

ここでは、説明の便宜のために、感情語として上記の２つを例にしたが、本発明で用いる感情語はこれらに限定されず、１組又は複数組の感情語を用いることができる。第１感情語と第２感情語は対義した意味を有する組合せであり、感情尺度評価値として第１感情語と同等の感情表現と評価される感情表現語句については１、反対に第２感情語と同等な語句は０である。
出力される感情辞書には、採録される語句に対して０から１の間の実数で感情尺度評価値が付与される。

入力されたテキストはまず形態素解析部（１１）で形態素解析処理（２２）が行われる。形態素解析処理は周知の技術を用いることができ、例えば汎用日本語形態素解析システムjuman（非特許文献１０）などが知られている。

黒橋禎夫、長尾真、「日本語形態素解析システムJUMAN version 3.61」http://pine.kuee.kyoto-u.ac.jp/nl-resource/juman.html 1999年

形態素解析処理（２２）によって形態素に分割され、品詞が付与されることにより、テキスト（１５）から語句をそれぞれ抽出することができるようになる。ここで語句とは代表的には単語であるが、本発明は形態素解析に含まれる公知の処理により、複数個の形態素の配列からなる語句を形成することもできる。
本実施例では語句として、普通名詞、サ変名詞、動詞、形容詞、カタカナ（以下、これらを総称して対象語と呼ぶ）を抽出することとする。

次に、本発明では共起確率算出部（１２）がまず、各年版のテキストから第１感情語と共に出現する対象語を全て抽出し、それらが同一の記事内に共に出現する（共起する）記事の数を計数する。
同時に、各年版のテキストから第２感情語と共に出現する対象語を全て抽出し、それらが同一の記事内に共起する記事の数も計数する。

具体的には、ｙ年版に掲載された記事のうち、感情語ｅを含む記事の数をN(y,e)、感情語ｅと対象語ｗを同時に含む記事の数をN(y,e&w)とすると、感情語eが現れたときに、対象語ｗが共起する確率P(y,e,w)は、
（数１）
P(y,e,w)=N(y,e&w)/N(y,e)
と表される。

共起確率算出部（１２）は以上のようにして感情語の組について共起確率をそれぞれ算出する。そして、感情尺度評価値算出部（１３）における処理（２４）に進む。感情尺度評価値は、対象語が感情尺度を構成する２つの感情語のどちらと共起する確率が高いかを示す指標であり、以下のようにして求める。

すなわち、対象語ｗの第１感情語e1に対する出現確率P(y,e1,w)と第２感情語e2に対する出現確率P(y,e2,w)の比R(y,e1,e2,w)を、以下の式で計算することにより、対象語ｗが感情語e1とe2のどちらと共起する確率が高いかを示す指標とする。
（数２）
R(y,e1,e2,w)=P(y,e1,w)/P(y,e1,w)+P(y,e2,w)

但し、分母が０となるときは、便宜的にR(y、e1、e2、w)=0として処理することにする。

本発明の最も簡単な実施形態は、以上のようにして求められた第１感情語に対する対象語の出現確率と、第２感情語に対する同出現確率の比を感情尺度評価値として算出し、出力部（１４）がハードディスク（３）内の感情辞書（１６）として記録する。
以上によると、テキストに含まれる任意の語句について、所定の感情語からなる感情尺度を自動的に付与し、感情表現語句辞書（１６）を形成することができる。なお、以上の処理を繰り返すことで、各対象語に対して複数の種類の感情尺度評価値を付与することができる。

（実施例２）
一方、本実施例では上記出現確率の比が各年度版毎に求められることから、さらに好適な感情尺度を設定するために、各年度版から得た比の平均を用いることを提案する。
すなわち、このR(y,e1,e2,w)=0を各年版ごとに求め、以下の式を用いて平均することにより、対象語ｗの感情尺度「el−e2」における値S(e1、e2、w)を求めている。

数３において、関数T(y,e1,e2,w)を導入することにより、対象語wが出現しなかった年を分母から除外している。これは、語句によっては出現する年が限られており、しかしながら、出現する場合には特定の感情語との結びつきが強いもの(例えばオリンピック関連用語)も見受けられることから、導入されている。

本発明では以上のように文章群毎に比を求めた後、感情尺度評価値算出部（１３）の処理によって数３の演算を行い、対象語wの感情尺度（e1-e2)を算出する。
本発明の第２の実施例としては、以上で得られた感情尺度評価値を出力部（１４）から出力することを特徴とする。

（実施例３）
第３の実施例ではさらに、各感情尺度評価値に対して重みを算出することを提案する。図３は第３の実施例に係る装置の構成図、図４は第３の実施例にかかるフローチャートである。
対象語の中には、出現する年や出現頻度が多いものもあれば、少ないものもある。そこで、感情尺度評価値S(e1,e2,w)に対する重み付け値M(e1,e2,w)を以下のように定義し、対象語ｗと感情語e1,e2とが共起した年数と頻度の総和(12年間分)に応じて、重み付け値が増減するようにした。

数４に示される重み付け値を、各対象語について重み付け値算出部（１７）が算出（２６）する。
以上の処理により、対象語とその感情尺度評価値、重み付け値からなる感情辞書（１６）が生成される。このように構築された感情辞書の一部を表２、表３に示す。表２と表３には、感情尺度「悲しい−うれしい」、「怒る−喜ぶ」に対する値が0.8以上の単語及び0.2以下の単語の中から、重みの大きい上位２単語を各品詞(品詞細分類)ごとに抜き出し、示している。

なお、感情辞書（１６）に登録する対象語は、形態素解析処理（２２）で抽出された全ての対象語ではなく、重み付け値が所定の値以上又は所定の順位以上、例えば上記の通り各品詞の上位２単語のものだけを感情辞書（１６）に登録してもよい。本選択処理は、出力部（１４）で行うことができる。
また、感情尺度評価値がいずれかの感情語に偏っているものだけを登録してもよい。例えば、感情尺度評価値が0.8以上の単語及び0.2以下、すなわち第１感情語側及び第２感情語側のそれぞれ２０％に偏る対象語だけを登録する。
表２及び表３のようにこれらの選択を組み合わせてもよい。

表４は、本実施例で得られた感情辞書に登録されている単語の数、ならびに各単語と感情語との共起頻度の和である。

（実施例４）
本発明の第４の実施例として、上記実施例１〜３によって構築された感情辞書（１６）を用いて、入力されたテキストの感情尺度評価値を付与する技術を提供する。
図５は本技術によるテキストに対する感情尺度評価値自動付与装置（５０）の構成図である。本装置においても公知のパーソナルコンピュータ等によって構成することができ、主要なハードウェア構成は前述した通りである。
図６は本実施例の処理の流れを示している。

まず入力部（５２）において対象テキストを入力（６１）されたら、形態素解析部（５３）において形態素解析（６２）する。
そして、感情表現語句抽出部（５４）は対象テキスト中に含まれる単語（普通名詞、サ変名詞、形容詞、動詞、カタカナ）の種類を調べると共に、ハードディスクに記録された感情辞書（１６）と一致する単語を抽出（６３）する。
同時に、該辞書（１６）から感情尺度評価値S（e1,e2,w)と重み付け値M(e1,e2,w)を取得する。

感情尺度評価値算出部（５５）は、以下の式を用いて記事の感情尺度評価値O（e1,e2,TEXT）を算出（６４）する。

但し|2S−1|は、感情尺度評価値Ｓの値に依存する傾斜配分であり、Ｓの値が0.5（感情尺度評価値の中間値）に近いほど0に近づき、0もしくは1に近いほど1に近づく関数として設計した。

対象テキスト（５１）に現れる単語の多くは、感情尺度と関係のない一般的な単語（感情尺度評価値は0.5に近い値をとる）と予想されるが、このような一般的な単語が評価値Oの平均操作に及ぼす悪影響を取り除くために、以上のような傾斜配分を導入した。

以上の処理により、対象テキストに対する感情尺度評価値を自動的に付与することができる。算出された感情尺度評価値は、出力部（５６）から出力（６５）される。このとき単に数値を出力するだけでなく、感情尺度に用いる感情語と共に出力することで対象テキストの表す感情表現を容易に知ることができる。
あるいは、得られた感情尺度評価値を対象テキストが記録されるデータベース上に記録し、該対象テキストの検索時などに用いることができる。

（評価実験）
本発明で提供する技術の性能を評価するために、Web上のニュースサイトから記事100件を収集し、各記事に対して被験者50人（20代から60代の女性30名、男性20名）が決定した感情尺度評価値と本発明の装置（１）が算出した感情尺度評価値を比較する。
ここで、収集された記事のジャンル別記事故を表５に示す。

まず、被験者に「もし自分がアナウンサーになって、かつ感情を込めて記事を読み上げるとしたら、どのような感情を込めるか？このとき、様々な感情を込めることが予想されるが、そのうち、喜怒哀楽という感情に関しては、どの程度の感情を込めるのか？」という教示を行い、１つの記事に相反する感情が含まれている場合には、メインと思われる方を優先するよう説明した。

被験者は、各記事を順に読み、２つの評価尺度「悲しそうに（5点）←→どちらかといえば悲しそうに（4点）←→中間／どちらともいえない／どちらでもない（3点）⇔どちらかといえばうれしそうに（2点）←→うれしそうに（1点）」と「怒りを込めて（5点）←→どちらかといえば怒った感じで（4点）←→中間／どちらともいえない／どちらでもない（3点）←→どちらかといえば喜びを込めて（2点）←→喜びを込めて（1点）」を用いて５段階評価を行った。

評価結果の例として、評価尺度「悲しそうに−うれしそうに」に関し、最も標準偏差が高かった記事（1.03）とその記事に対する得点の分布を表６に示す。

次に、本発明の第３の実施例の方法により、新聞全文記事データベース（12年間分）から感情辞書（感情尺度「悲しい−うれしい」、「怒る−喜ぶ」）を構築し、第４の実施例の方法で各記事に対する感情尺度評価値を求めた。
そして、この感情尺度評価値と被験者50人が決定した感情尺度評価値とを比較した。但し、提案手法が出力する感情尺度評価値が0.570以上のときを「悲しそうに／どちらかといえば悲しそうに」、「怒りを込めて／どちらかといえば怒った感じで」、0.343以下のときを「どちらかといえばうれしそうに／うれしそうに」、「どちらかといえば喜びを込めて／喜びを込めて」、それ以外のときを「中間／どちらともいえない／どちらでもない」と３段階に設定し、被験者の得点も「5/4点」、「3点」、「2/1点」の３段階評価に変換して、比較した。

両方の感情尺度評価値が一致した数（一致数）とその割合（一致率）、ならびに最多クラス（いずれの感情尺度においても「中間」クラスが最多であった）を常に出力する場合の一致率（チャンス率）、各記事ごとに最多クラス／最少クラスを出力する場合の一致率（最高一致率／最低一致率）を表７にまとめる。
なお、閾値は実験的に設定した。

表７から、感情尺度「怒る−喜ぶ」に対する一致率は、チャンス率に比べ12ポイント高く、単語レベルの出現確率、共起確率を用いた比較的単純な手法にしては、高い性能を得ていることがわかる。一方、感情尺度「悲しい−うれしい」に対する一致率は、チャンス率をわずかに上回っているにすぎず、良好な結果とは言えないが、ユーザの知識や感性（性格やし好、興味など）、状態（気分や体調など）、そして購読環境（場所や時間帯、購読履歴など）に応じた処理により解決することができると考えられる。

本発明の感情表現語句辞書自動生成装置（実施例１、２）の全体構成図である。本発明の感情表現語句辞書自動生成方法（実施例１、２）の流れ図である。本発明の感情表現語句辞書自動生成装置（実施例３）の全体構成図である。本発明の感情表現語句辞書自動生成方法（実施例３）の流れ図である。本発明のテキストに対する感情尺度評価値自動付与装置（実施例４）の全体構成図である。本発明のテキストに対する感情尺度評価値自動付与方法（実施例４）の流れ図である。

符号の説明

１感情表現語句辞書自動生成装置
２ＣＰＵ
３ハードディスク
４キーボード
５モニタ
１０入力部
１１形態素解析部
１２共起確率算出部
１３感情尺度評価値算出部
１４出力部
１５テキストデータ
１６感情表現語句辞書

Claims

入力したテキストデータに含まれる対象語句に対して、１組の対義する意味を有する所定の第１感情語及び第２感情語（以下、感情語と呼ぶ）のいずれの意味に近いかを示す感情尺度評価値を付与し、該対象語句の一部又は全部から感情表現語句の辞書を自動的に生成する方法であって、
入力手段が複数の文章群（単数又は複数の文章の集合）からなるテキストデータを入力する入力ステップ、
形態素解析手段が、該テキストデータに対して形態素解析処理を行う形態素解析ステップ、
共起確率算出手段が、該いずれかの感情語を含む文章群の数、及び文章群を構成する各語句を対象語句として、その対象語句が該いずれかの感情語と同時に出現する文章群の数をそれぞれ検出して、前者の数と後者の数との比から対象語句の第１感情語に対する出現確率Ｐ１と、対象語句の第２感情語に対する出現確率Ｐ２とを算出する共起確率算出ステップ、
感情尺度評価値算出手段が、該出現確率Ｐ１と該出現確率Ｐ２の比を算出し、それを該感情語の組における感情尺度評価値とする感情尺度評価値算出ステップ、
各対象語句について順次共起確率算出ステップと感情尺度評価値算出ステップを行い、辞書出力手段が、当該対象語句の一部又は全部と感情尺度評価値とを対応づけた感情表現語句辞書を出力する辞書出力ステップ
の各ステップを有することを特徴とする感情表現語句辞書自動生成方法。
前記出現確率Ｐ１と出現確率Ｐ２の比Ｒを、
Ｒ＝Ｐ１／（Ｐ１＋Ｐ２）
に従って算出する請求項１に記載の感情表現語句辞書自動生成方法。
前記感情表現語句辞書自動生成方法において、
複数の第１感情語及び第２感情語の組における感情尺度毎に感情表現語句辞書を生成する
ことを特徴とする請求項１又は２に記載の感情表現語句辞書自動生成方法。
前記感情表現語句辞書自動生成方法において、所定の期間又は分野毎に前記文章群が分類される構成であって、
感情尺度評価値算出手段が、
各期間又は分野ごとに前記出現確率Ｐ１と該出現確率Ｐ２との比を算出すると共に、該比の平均を算出して第１感情語及び第２感情語における感情尺度評価値とする
ことを特徴とする請求項１ないし３のいずれかに記載の感情表現語句辞書自動生成方法。
前記感情表現語句辞書自動生成方法において、
前記感情尺度評価値に対して少なくとも前記感情語の出現回数又は確率に応じた重み付け値を感情表現語句辞書に備える
ことを特徴とする請求項１ないし４のいずれかに記載の感情表現語句辞書自動生成方法。
入力したテキストデータに含まれる対象語句に対して、１組の対義する意味を有する所定の第１感情語及び第２感情語（以下、感情語と呼ぶ）のいずれの意味に近いかを示す感情尺度評価値を付与し、該対象語句の一部又は全部から感情表現語句の辞書を自動的に生成する装置であって、
複数の文章群（単数又は複数の文章の集合）からなるテキストデータを入力する入力手段と、
該テキストデータに対して形態素解析処理を行う形態素解析手段と、
該いずれかの感情語を含む文章群の数、及び文章群を構成する各語句を対象語句として、その対象語句が該いずれかの感情語と同時に出現する文章群の数をそれぞれ検出して、前者の数と後者の数との比から対象語句の第１感情語に対する出現確率Ｐ１と、対象語句の第２感情語に対する出現確率Ｐ２とを算出する共起確率算出手段と、
該出現確率Ｐ１と該出現確率Ｐ２の比を算出し、それを該感情語の組における感情尺度評価値とする感情尺度評価値算出手段と、
辞書出力手段が、当該対象語句の一部又は全部と感情尺度評価値とを対応づけた感情表現語句辞書を出力する辞書出力手段と
を備えたことを特徴とする感情表現語句辞書自動生成装置。
前記共起確率算出手段が、
前記出現確率Ｐ１と出現確率Ｐ２の比Ｒを、
Ｒ＝Ｐ１／（Ｐ１＋Ｐ２）
に従って算出する請求項６に記載の感情表現語句辞書自動生成装置。
前記感情表現語句辞書自動生成装置において、
複数の第１感情語及び第２感情語の組における感情尺度毎に感情表現語句辞書を生成する
ことを特徴とする請求項６又は７に記載の感情表現語句辞書自動生成装置。
前記感情表現語句辞書自動生成装置において、所定の期間又は分野毎に前記文章群が分類される構成であって、
感情尺度評価値算出手段が、
各期間又は分野ごとに前記出現確率Ｐ１と該出現確率Ｐ２との比を算出すると共に、該比の平均を算出して第１感情語及び第２感情語における感情尺度評価値とする
ことを特徴とする請求項６ないし８のいずれかに記載の感情表現語句辞書自動生成装置。
前記感情表現語句辞書自動生成装置において、
前記感情尺度評価値に対して少なくとも前記感情語の出現回数又は確率に応じた重み付け値を感情表現語句辞書に備える
ことを特徴とする請求項１ないし４のいずれかに記載の感情表現語句辞書自動生成方法。
入力した対象テキストに対して、１組の対義する意味を有する所定の第１感情語及び第２感情語（以下、感情語と呼ぶ）のいずれの意味に近いかを示す感情尺度評価値を付与する方法であって、
テキスト入力手段が、対象テキストデータを入力するテキスト入力ステップ、
形態素解析手段が、該対象テキストデータに対して形態素解析処理を行うテキスト形態素解析ステップ、
感情表現語句抽出手段が、該対象テキストデータから感情表現語句辞書データベースに一致する感情表現語句を抽出し、同時にその感情尺度評価値を取得する感情表現語句抽出ステップ、
テキスト感情尺度評価値演算手段が、各感情表現語句の感情尺度評価値を用いて所定の計算式により当該対象テキストデータに対する感情尺度評価値を算出するテキスト感情尺度評価値演算ステップ、
該テキスト感情尺度評価値出力手段が、算出されたテキスト感情尺度評価値を出力するテキスト感情尺度評価値出力ステップ
の各ステップを有することを特徴とするテキストに対する感情尺度評価値自動付与方法。
前記テキストに対する感情尺度評価値自動付与方法が、
前記請求項１ないし５のいずれかにおける感情表現語句辞書自動生成方法により出力された感情表現語句辞書を感情表現語句辞書データベースに備えている
ことを特徴とする請求項１１に記載のテキストに対する感情尺度評価値自動付与方法。
前記テキストに対する感情尺度評価値自動付与方法が、
複数の第１感情語及び第２感情語の組における感情尺度毎に感情尺度評価値を算出し付与する
ことを特徴とする請求項１１又は１２に記載のテキストに対する感情尺度評価値自動付与方法。
前記感情表現語句辞書データベースが、最も第１感情語に近い場合を１、最も第２感情語に近い場合を０とした感情尺度評価値Ｓと共に該感情尺度評価値に対する重みＭを備える構成において、
テキストに対する感情尺度評価値Ｏを算出する前記所定の計算式が、
Ｏ＝ΣＳ×｜２Ｓ−１｜×Ｍ／Σ｜２Ｓ−１｜×Ｍ
（但しΣは対象テキストに含まれる全ての感情表現語句に対して行うことを意味する）
であることを特徴とする請求項１１ないし１３のいずれかに記載のテキストに対する感情尺度評価値自動付与方法。
入力した対象テキストに対して、１組の対義する意味を有する所定の第１感情語及び第２感情語（以下、感情語と呼ぶ）のいずれの意味に近いかを示す感情尺度評価値を付与する装置であって、
対象テキストデータを入力するテキスト入力手段と、
該対象テキストデータに対して形態素解析処理を行うテキスト形態素解析手段と、
該対象テキストデータから感情表現語句辞書データベースに一致する感情表現語句を抽出し、同時にその感情尺度評価値を取得する感情表現語句抽出手段と、
各感情表現語句の感情尺度評価値を用いて所定の計算式により当該対象テキストデータに対する感情尺度評価値を算出するテキスト感情尺度評価値演算手段と、
算出されたテキスト感情尺度評価値を出力するテキスト感情尺度評価値出力手段と
を備えたことを特徴とするテキストに対する感情尺度評価値自動付与装置。
前記テキストに対する感情尺度評価値自動付与装置が、
前記請求項６ないし１０のいずれかにおける感情表現語句辞書自動生成装置により出力された感情表現語句辞書を感情表現語句辞書データベースに備えている
ことを特徴とする請求項１５に記載のテキストに対する感情尺度評価値自動付与装置。
前記テキストに対する感情尺度評価値自動付与装置が、
複数の第１感情語及び第２感情語の組における感情尺度毎に感情尺度評価値を算出し付与する
ことを特徴とする請求項１５又は１６に記載のテキストに対する感情尺度評価値自動付与装置。
前記感情表現語句辞書データベースが、最も第１感情語に近い場合を１、最も第２感情語に近い場合を０とした感情尺度評価値Ｓと共に該感情尺度評価値に対する重みＭを備える構成において、
テキストに対する感情尺度評価値Ｏを算出する前記所定の計算式が、
Ｏ＝ΣＳ×｜２Ｓ−１｜×Ｍ／Σ｜２Ｓ−１｜×Ｍ
（但しΣは対象テキストに含まれる全ての感情表現語句に対して行うことを意味する）
であることを特徴とする請求項１５ないし１７のいずれかに記載のテキストに対する感情尺度評価値自動付与装置。