JP2007018234A - 感情表現語句辞書自動生成方法及び装置、並びにテキストに対する感情尺度評価値自動付与方法及び装置 - Google Patents

感情表現語句辞書自動生成方法及び装置、並びにテキストに対する感情尺度評価値自動付与方法及び装置 Download PDF

Info

Publication number
JP2007018234A
JP2007018234A JP2005198767A JP2005198767A JP2007018234A JP 2007018234 A JP2007018234 A JP 2007018234A JP 2005198767 A JP2005198767 A JP 2005198767A JP 2005198767 A JP2005198767 A JP 2005198767A JP 2007018234 A JP2007018234 A JP 2007018234A
Authority
JP
Japan
Prior art keywords
emotion
evaluation value
word
scale evaluation
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005198767A
Other languages
English (en)
Inventor
Tadahiko Kumamoto
忠彦 熊本
Katsumi Tanaka
克己 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2005198767A priority Critical patent/JP2007018234A/ja
Publication of JP2007018234A publication Critical patent/JP2007018234A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 テキスト中の感情表現語句について感情尺度評価値を自動的に付与し、感情表現語句辞書を出力すること、及び入力した対象テキストに対する感情尺度評価値を自動的に付与する技術を提供する。
【解決手段】 入力部の入力したテキストデータ15を形態素解析(11)し、共起確率算出部12が、所定の対義する1組の感情語のいずれかを含むテキストの数と、テキストに含まれる対象語句が各感情語と同時に出現するテキストの数とをそれぞれ検出する。そして両者の数の比から対象語句の各感情語に対する出現確率を算出し、感情尺度評価値算出部13が出現確率の比を感情尺度評価値として算出する。この結果得られた対象語句と感情尺度評価値を辞書16として登録する。
【選択図】 図1

Description

本発明はコンピュータにおけるテキストデータの処理方法に関し、より詳しくは、テキストデータに含まれる感情を表現する語句を抽出してその感情尺度評価値を付与する方法及び、テキストデータに感情尺度評価値を付与する方法に関する。
人と人、人と対話システムとのコミュニケーションにおいて、情報発信者(話し手、書き手)から情報受信者(聴き手、読み手)に伝達される情報のうち、「もの」、「行為」、「状態」といった命題や「信念」、「意図」といった情報発信者の命題に対する態度に関しては、例えば非特許文献1に開示される発話行為論や非特許文献2に開示されるプラン認識の枠組みで古くから研究されている。
山梨正明、「発話行為」、大修館書店、東京、1986年 J.F.Allen and C.R.Perrault、「Analyzing Intention in Utterances」 Artificial Inteligence,Vo1.15,pp.143-178,1980年
また、情報発信者の「感情(喜び、悲しみ、嫌悪、期待など)」を推定するための研究(非特許文献3〜6を参照)も近年盛んに行われている。
しかしながら、伝達される情報の中にどのような感情がどの程度含まれているのか、という観点からの研究はまだ少ない.
福井美佳、芝崎靖代、笹氣光一、竹林洋一、「コミュニケーション支援のための個人情報公開システム(PIP)」、情処研報、ヒューマンインタフェース64-8、pp.43-48、1996年 倉石英俊、柴田義孝、「個人モデルを用いた表情分析/合成による感情通信システム」、情処研報、マルチメディア通信と分散処理74-14、pp.79-84、1996年 松本和幸、黒岩眞吾、任福継、「感情計測システムについて」、信学技報、NLC2003-10、pp.55-60、2003年 日本SGI株式会社プレスリリース、http://www.sgi.co.jp/newsroom/press_releases/2004/sep/st.html
また、従来の特許文献としては、テキストに表現される感情やテキストに対して感じるイメージを、簡単かつ高い確度で推定する技術を開示した特許文献7がある。
上記技術では、感性情報を推定する上での手掛かりとなる概念情報を対応づけた辞書データを予め備えることにより文節や文単位等に対して感性情報を推定することができるが、辞書データは予め定義しておかなければならず、コンピュータによる客観的な推定結果が得られるとは言い難い。
特開2005-128711号公報
本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、テキスト中の感情を表現する感情表現語句について所定の感情尺度における感情尺度評価値を自動的に付与し、感情表現語句辞書を出力すること、及び入力した対象テキストに対する感情尺度評価値を自動的に付与する技術の提供をその目的とする。
本発明は、上記の課題を解決するために、次のような感情表現語句辞書自動生成方法及び装置を提供する。
すなわち、請求項1に記載の発明は、入力したテキストデータに含まれる対象語句に対して、1組の対義する意味を有する所定の第1感情語及び第2感情語(以下、感情語と呼ぶ)のいずれの意味に近いかを示す感情尺度評価値を付与し、該対象語句の一部又は全部から感情表現語句の辞書を自動的に生成する方法である。
本発明は、該方法において、入力手段が複数の文章群(単数又は複数の文章の集合)からなるテキストデータを入力する入力ステップ、形態素解析手段が、該テキストデータに対して形態素解析処理を行う形態素解析ステップを処理する。
形態素解析の結果、語句を抽出することが可能になり、共起確率算出手段が、該いずれかの感情語を含む文章群の数、及び文章群を構成する各語句を対象語句として、その対象語句が該いずれかの感情語と同時に出現する文章群の数をそれぞれ検出して、前者の数と後者の数との比から対象語句の第1感情語に対する出現確率P1と、対象語句の第2感情語に対する出現確率P2とを算出する共起確率算出ステップが行われる。
さらに、感情尺度評価値算出手段が、該出現確率P1と該出現確率P2の比を算出し、それを該感情語の組における感情尺度評価値とする感情尺度評価値算出ステップ、各対象語句について順次共起確率算出ステップと感情尺度評価値算出ステップを行い、辞書出力手段が、当該対象語句の一部又は全部と感情尺度評価値とを対応づけた感情表現語句辞書を出力する辞書出力ステップの各ステップを有する。
請求項2に記載の発明は、上記の出現確率P1と出現確率P2の比Rを、
R=P1/(P1+P2)
に従って算出することを特徴とする。
請求項3に記載の発明は、上記感情表現語句辞書自動生成方法において、複数の第1感情語及び第2感情語の組における感情尺度毎に感情表現語句辞書を生成することを特徴とする。
請求項4に記載の発明は、上記感情表現語句辞書自動生成方法において、所定の期間又は分野毎に前記文章群が分類される構成であって、感情尺度評価値算出手段が、各期間又は分野ごとに前記出現確率P1と該出現確率P2との比を算出すると共に、該比の平均を算出して第1感情語及び第2感情語における感情尺度評価値とすることを特徴とする。
請求項5に記載の発明は、感情表現語句辞書自動生成方法において、感情尺度評価値に対して少なくとも前記感情語の出現回数又は確率に応じた重み付け値を感情表現語句辞書に備えることを特徴とする。
本発明は、上記請求項1ないし5に記載された感情表現語句辞書自動生成方法を備えた装置として提供することもできる。
また、本発明は次のようなテキストに対する感情尺度評価値自動付与方法を提供することもできる。
すなわち、請求項11に記載の発明は、入力した対象テキストに対して、1組の対義する意味を有する所定の第1感情語及び第2感情語(以下、感情語と呼ぶ)のいずれの意味に近いかを示す感情尺度評価値を付与する方法である。
該方法において、テキスト入力手段が、対象テキストデータを入力するテキスト入力ステップ、形態素解析手段が、該対象テキストデータに対して形態素解析処理を行うテキスト形態素解析ステップ、感情表現語句抽出手段が、該対象テキストデータから感情表現語句辞書データベースに一致する感情表現語句を抽出し、同時にその感情尺度評価値を取得する感情表現語句抽出ステップ、テキスト感情尺度評価値演算手段が、各感情表現語句の感情尺度評価値を用いて所定の計算式により当該対象テキストデータに対する感情尺度評価値を算出するテキスト感情尺度評価値演算ステップ、該テキスト感情尺度評価値出力手段が、算出されたテキスト感情尺度評価値を出力するテキスト感情尺度評価値出力ステップの各ステップを有する。
請求項12に記載の発明は、上記テキストに対する感情尺度評価値自動付与方法が、上記請求項1ないし5のいずれかにおける感情表現語句辞書自動生成方法により出力された感情表現語句辞書を感情表現語句辞書データベースに備えていることを特徴とする。
請求項13に記載の発明は、上記テキストに対する感情尺度評価値自動付与方法が、複数の第1感情語及び第2感情語の組における感情尺度毎に感情尺度評価値を算出し付与することを特徴とする。
請求項14に記載の発明は、上記感情表現語句辞書データベースが、最も第1感情語に近い場合を1、最も第2感情語に近い場合を0とした感情尺度評価値Sと共に該感情尺度評価値に対する重みMを備える構成において、テキストに対する感情尺度評価値Oを算出する前記所定の計算式が、
O=ΣS×|2S−1|×M/Σ|2S−1|×M
(但しΣは対象テキストに含まれる全ての感情表現語句に対して行うことを意味する)
であることを特徴とする。
本発明は、上記請求項11ないし14に記載されたテキストに対する感情尺度評価値自動付与方法を備えた装置として提供することもできる。
本発明は、上記構成を備えることにより、次のような効果を奏する。
請求項1ないし10に記載の感情表現語句辞書自動生成方法及び装置によると、テキストに含まれる語句と、感情との対応関係を表す感情表現語句辞書を自動構築することができる。
従来、このような辞書を構築する際に作業者の判断を必要とする方法は、一般に高コストであり、i)テキストを介して伝達される感情には個人差がある、ii)作業者の性格、体調、気分によって判断基準が変動する、iii)辞書の再構築や部分修正といったメンテナンスが容易でない、といった問題を生じていたが、本発明は、自動化することによりこれらを解消することができる。
請求項11ないし18に記載のテキストに対する感情尺度評価値自動付与方法及び装置においても、上記感情表現語句辞書を用いることにより、判断基準が安定した好適な推定結果を得ることができる。
また、特に請求項3、8、13、17に記載の技術によれば、任意の感情をその程度とともに抽出することができる。
推定可能な感情の種類を限定した方法では、システムの用途が限られてしまう。推定したい感情の種類は、応用分野によっても異なり、その時々の状況によっても異なることから、任意の感情を抽出できる枠組みでの手法の提案が必要とされる。
本発明によれば、それぞれの感情がどの程度伝達されるのかを数値で示すことにより、抽出された複数の感情の中から特徴的な感情を決定することが可能になる。
さらに、本発明によれば感情を推定するための正解データを必要としない、教師なし学習の枠組みが実現できる。従来、テキスト構成要素と感情との対応関係を明示的に示す正解データを人手で作るための方法論(非特許文献8を参照)も論じられているが、上記のような問題が生じるうえ、任意の感情すべてに対し、あらかじめ正解データを用意することはできない。
本発明では、このような問題を解決し、自動化を図ることができる。
古塩貴行、徳久雅人、村上仁一、池原悟、「情緒注釈付き対話コーパスの誤り分析」、第18回人工知能学会講演論文集、N0.2G3-02、pp.1-4、2004年
以下、本発明の実施形態を、図面に示す実施例を基に説明する。なお、実施形態は下記に限定されるものではない。
例えば、本実施例では新聞記事データベース中の記事に現れる単語の感情尺度値と重みを算出する手法、ならびにWebニュースサイトから得られる記事の感情尺度値を決定することを実施例として述べるが、本発明が対象とするテキストには、あらゆる文書を想定することができる。入力の方法も、データベース化されて記憶媒体から取り込まれたテキストや、インターネット等を通じて受信したテキストに限らず、キーボード等から入力されたもの、マイクで入力した音声を音声認識によってテキストに変換したもの、任意の入力方法を用いることができる。
本発明は、語句と感情尺度との対応関係を示す感情表現語句辞書(以下、感情辞書と呼ぶ。)を自動構築することを特徴とする。その際、正解データを必要としない、教師なし学習に基づく手法を提案する。また、Turneyが非特許文献9で提案したように、何らかのヒューリスティックな知識を導入し、辞書の自動構築を実現することにする。
Peter D. Turney、「Thumbs Up or Thumbs Down?」 Semantic Orientation Applied to Unsupervised Classification of Reviews, Proc. of the Conference on Association for Computational Linguistics 2002年
一方、特定の感情尺度を対象とするのでなく、任意の感情尺度を設定できるようにする必要があることから、感情尺度の種類に依存しない手法でなければならない。そこで本発明では、例えば新聞記事データベースを知識源として利用することにし、「感情語eを含む記事はその感情語が表す感情を伝達する」という仮定のもと、新聞記事データベースに現れる各単語が感情尺度を構成する2つの感情語のどちらと、より高い確率で共起するか、という観点で手法の設計を行っている点に特徴がある。
(実施例1)
図1は本発明の第1の実施例に係る感情表現語句辞書自動生成装置(1)の全体構成図である。本発明は公知のパーソナルコンピュータにより容易に実現することが可能であり、演算処理やテキスト処理などを司るCPU(2)によって本発明の各ステップを実行処理する。CPU(2)は周知のように図示しないメモリと協働して動作し、キーボード(4)やマウスなどの入力手段の他、出力結果を表示するモニタ(5)、ハードディスク等の外部記憶装置(3)などを備えている。
次に図2に従って、本発明の処理を説明する。
テキスト(15)をCPUの入力部(10)で入力する。ここでテキストには新聞記事データベースを用いている。本データベースには、1990年版から2001年版までの記事データが記録されており、これを感情辞書を構築するために用いる。各年版には、17万前後の記事(約200MB)が含まれており、12年間分で200万強の記事が得られた。
なお、後述するように、本実施例では期間や分野による出現語句の変化を好適に評価に反映させるため、各年毎に1つの文章群と定義し、それを複数入力するというように観念している。従って、1990年版が1つの文章群であり、それには多数の記事を含み、さらに該記事中には多数の文章が含まれていることになる。もっとも、各記事をそれぞれ文章群と定義してもよいし、例えば1段落を1つの文章群としてもよい。また、文章群はただ1つの文章から構成されてもよい。
本実施例では、感情辞書に登録される語句の感情尺度を測るための感情語として「悲しい」(第1感情語)と「うれしい」(第2感情語)の組、「怒る」(第1感情語)、「喜ぶ」(第2感情語)の組をそれぞれ用いる。各年版における感情語「悲しい」、「うれしい」、「怒る」、「喜ぶ」を含む記事の数は表1のとおりである。
Figure 2007018234
ここでは、説明の便宜のために、感情語として上記の2つを例にしたが、本発明で用いる感情語はこれらに限定されず、1組又は複数組の感情語を用いることができる。第1感情語と第2感情語は対義した意味を有する組合せであり、感情尺度評価値として第1感情語と同等の感情表現と評価される感情表現語句については1、反対に第2感情語と同等な語句は0である。
出力される感情辞書には、採録される語句に対して0から1の間の実数で感情尺度評価値が付与される。
入力されたテキストはまず形態素解析部(11)で形態素解析処理(22)が行われる。形態素解析処理は周知の技術を用いることができ、例えば汎用日本語形態素解析システムjuman(非特許文献10)などが知られている。
黒橋禎夫、長尾真、「日本語形態素解析システムJUMAN version 3.61」http://pine.kuee.kyoto-u.ac.jp/nl-resource/juman.html 1999年
形態素解析処理(22)によって形態素に分割され、品詞が付与されることにより、テキスト(15)から語句をそれぞれ抽出することができるようになる。ここで語句とは代表的には単語であるが、本発明は形態素解析に含まれる公知の処理により、複数個の形態素の配列からなる語句を形成することもできる。
本実施例では語句として、普通名詞、サ変名詞、動詞、形容詞、カタカナ(以下、これらを総称して対象語と呼ぶ)を抽出することとする。
次に、本発明では共起確率算出部(12)がまず、各年版のテキストから第1感情語と共に出現する対象語を全て抽出し、それらが同一の記事内に共に出現する(共起する)記事の数を計数する。
同時に、各年版のテキストから第2感情語と共に出現する対象語を全て抽出し、それらが同一の記事内に共起する記事の数も計数する。
具体的には、y年版に掲載された記事のうち、感情語eを含む記事の数をN(y,e)、感情語eと対象語wを同時に含む記事の数をN(y,e&w)とすると、感情語eが現れたときに、対象語wが共起する確率P(y,e,w)は、
(数1)
P(y,e,w)=N(y,e&w)/N(y,e)
と表される。
共起確率算出部(12)は以上のようにして感情語の組について共起確率をそれぞれ算出する。そして、感情尺度評価値算出部(13)における処理(24)に進む。感情尺度評価値は、対象語が感情尺度を構成する2つの感情語のどちらと共起する確率が高いかを示す指標であり、以下のようにして求める。
すなわち、対象語wの第1感情語e1に対する出現確率P(y,e1,w)と第2感情語e2に対する出現確率P(y,e2,w)の比R(y,e1,e2,w)を、以下の式で計算することにより、対象語wが感情語e1とe2のどちらと共起する確率が高いかを示す指標とする。
(数2)
R(y,e1,e2,w)=P(y,e1,w)/P(y,e1,w)+P(y,e2,w)

但し、分母が0となるときは、便宜的にR(y、e1、e2、w)=0として処理することにする。
本発明の最も簡単な実施形態は、以上のようにして求められた第1感情語に対する対象語の出現確率と、第2感情語に対する同出現確率の比を感情尺度評価値として算出し、出力部(14)がハードディスク(3)内の感情辞書(16)として記録する。
以上によると、テキストに含まれる任意の語句について、所定の感情語からなる感情尺度を自動的に付与し、感情表現語句辞書(16)を形成することができる。なお、以上の処理を繰り返すことで、各対象語に対して複数の種類の感情尺度評価値を付与することができる。
(実施例2)
一方、本実施例では上記出現確率の比が各年度版毎に求められることから、さらに好適な感情尺度を設定するために、各年度版から得た比の平均を用いることを提案する。
すなわち、このR(y,e1,e2,w)=0を各年版ごとに求め、以下の式を用いて平均することにより、対象語wの感情尺度「el−e2」における値S(e1、e2、w)を求めている。
Figure 2007018234
数3において、関数T(y,e1,e2,w)を導入することにより、対象語wが出現しなかった年を分母から除外している。これは、語句によっては出現する年が限られており、しかしながら、出現する場合には特定の感情語との結びつきが強いもの(例えばオリンピック関連用語)も見受けられることから、導入されている。
本発明では以上のように文章群毎に比を求めた後、感情尺度評価値算出部(13)の処理によって数3の演算を行い、対象語wの感情尺度(e1-e2)を算出する。
本発明の第2の実施例としては、以上で得られた感情尺度評価値を出力部(14)から出力することを特徴とする。
(実施例3)
第3の実施例ではさらに、各感情尺度評価値に対して重みを算出することを提案する。図3は第3の実施例に係る装置の構成図、図4は第3の実施例にかかるフローチャートである。
対象語の中には、出現する年や出現頻度が多いものもあれば、少ないものもある。そこで、感情尺度評価値S(e1,e2,w)に対する重み付け値M(e1,e2,w)を以下のように定義し、対象語wと感情語e1,e2とが共起した年数と頻度の総和(12年間分)に応じて、重み付け値が増減するようにした。
Figure 2007018234
数4に示される重み付け値を、各対象語について重み付け値算出部(17)が算出(26)する。
以上の処理により、対象語とその感情尺度評価値、重み付け値からなる感情辞書(16)が生成される。このように構築された感情辞書の一部を表2、表3に示す。表2と表3には、感情尺度「悲しい−うれしい」、「怒る−喜ぶ」に対する値が0.8以上の単語及び0.2以下の単語の中から、重みの大きい上位2単語を各品詞(品詞細分類)ごとに抜き出し、示している。
Figure 2007018234
Figure 2007018234
なお、感情辞書(16)に登録する対象語は、形態素解析処理(22)で抽出された全ての対象語ではなく、重み付け値が所定の値以上又は所定の順位以上、例えば上記の通り各品詞の上位2単語のものだけを感情辞書(16)に登録してもよい。本選択処理は、出力部(14)で行うことができる。
また、感情尺度評価値がいずれかの感情語に偏っているものだけを登録してもよい。例えば、感情尺度評価値が0.8以上の単語及び0.2以下、すなわち第1感情語側及び第2感情語側のそれぞれ20%に偏る対象語だけを登録する。
表2及び表3のようにこれらの選択を組み合わせてもよい。
表4は、本実施例で得られた感情辞書に登録されている単語の数、ならびに各単語と感情語との共起頻度の和である。
Figure 2007018234
(実施例4)
本発明の第4の実施例として、上記実施例1〜3によって構築された感情辞書(16)を用いて、入力されたテキストの感情尺度評価値を付与する技術を提供する。
図5は本技術によるテキストに対する感情尺度評価値自動付与装置(50)の構成図である。本装置においても公知のパーソナルコンピュータ等によって構成することができ、主要なハードウェア構成は前述した通りである。
図6は本実施例の処理の流れを示している。
まず入力部(52)において対象テキストを入力(61)されたら、形態素解析部(53)において形態素解析(62)する。
そして、感情表現語句抽出部(54)は対象テキスト中に含まれる単語(普通名詞、サ変名詞、形容詞、動詞、カタカナ)の種類を調べると共に、ハードディスクに記録された感情辞書(16)と一致する単語を抽出(63)する。
同時に、該辞書(16)から感情尺度評価値S(e1,e2,w)と重み付け値M(e1,e2,w)を取得する。
感情尺度評価値算出部(55)は、以下の式を用いて記事の感情尺度評価値O(e1,e2,TEXT)を算出(64)する。
Figure 2007018234
但し|2S−1|は、感情尺度評価値Sの値に依存する傾斜配分であり、Sの値が0.5(感情尺度評価値の中間値)に近いほど0に近づき、0もしくは1に近いほど1に近づく関数として設計した。
対象テキスト(51)に現れる単語の多くは、感情尺度と関係のない一般的な単語(感情尺度評価値は0.5に近い値をとる)と予想されるが、このような一般的な単語が評価値Oの平均操作に及ぼす悪影響を取り除くために、以上のような傾斜配分を導入した。
以上の処理により、対象テキストに対する感情尺度評価値を自動的に付与することができる。算出された感情尺度評価値は、出力部(56)から出力(65)される。このとき単に数値を出力するだけでなく、感情尺度に用いる感情語と共に出力することで対象テキストの表す感情表現を容易に知ることができる。
あるいは、得られた感情尺度評価値を対象テキストが記録されるデータベース上に記録し、該対象テキストの検索時などに用いることができる。
(評価実験)
本発明で提供する技術の性能を評価するために、Web上のニュースサイトから記事100件を収集し、各記事に対して被験者50人(20代から60代の女性30名、男性20名)が決定した感情尺度評価値と本発明の装置(1)が算出した感情尺度評価値を比較する。
ここで、収集された記事のジャンル別記事故を表5に示す。
Figure 2007018234
まず、被験者に「もし自分がアナウンサーになって、かつ感情を込めて記事を読み上げるとしたら、どのような感情を込めるか?このとき、様々な感情を込めることが予想されるが、そのうち、喜怒哀楽という感情に関しては、どの程度の感情を込めるのか?」という教示を行い、1つの記事に相反する感情が含まれている場合には、メインと思われる方を優先するよう説明した。
被験者は、各記事を順に読み、2つの評価尺度「悲しそうに(5点)←→どちらかといえば悲しそうに(4点)←→中間/どちらともいえない/どちらでもない(3点)⇔どちらかといえばうれしそうに(2点)←→うれしそうに(1点)」と「怒りを込めて(5点)←→どちらかといえば怒った感じで(4点)←→中間/どちらともいえない/どちらでもない(3点)←→どちらかといえば喜びを込めて(2点)←→喜びを込めて(1点)」を用いて5段階評価を行った。
評価結果の例として、評価尺度「悲しそうに−うれしそうに」に関し、最も標準偏差が高かった記事(1.03)とその記事に対する得点の分布を表6に示す。


Figure 2007018234
次に、本発明の第3の実施例の方法により、新聞全文記事データベース(12年間分)から感情辞書(感情尺度「悲しい−うれしい」、「怒る−喜ぶ」)を構築し、第4の実施例の方法で各記事に対する感情尺度評価値を求めた。
そして、この感情尺度評価値と被験者50人が決定した感情尺度評価値とを比較した。但し、提案手法が出力する感情尺度評価値が0.570以上のときを「悲しそうに/どちらかといえば悲しそうに」、「怒りを込めて/どちらかといえば怒った感じで」、0.343以下のときを「どちらかといえばうれしそうに/うれしそうに」、「どちらかといえば喜びを込めて/喜びを込めて」、それ以外のときを「中間/どちらともいえない/どちらでもない」と3段階に設定し、被験者の得点も「5/4点」、「3点」、「2/1点」の3段階評価に変換して、比較した。
両方の感情尺度評価値が一致した数(一致数)とその割合(一致率)、ならびに最多クラス(いずれの感情尺度においても「中間」クラスが最多であった)を常に出力する場合の一致率(チャンス率)、各記事ごとに最多クラス/最少クラスを出力する場合の一致率(最高一致率/最低一致率)を表7にまとめる。
なお、閾値は実験的に設定した。
Figure 2007018234
表7から、感情尺度「怒る−喜ぶ」に対する一致率は、チャンス率に比べ12ポイント高く、単語レベルの出現確率、共起確率を用いた比較的単純な手法にしては、高い性能を得ていることがわかる。一方、感情尺度「悲しい−うれしい」に対する一致率は、チャンス率をわずかに上回っているにすぎず、良好な結果とは言えないが、ユーザの知識や感性(性格やし好、興味など)、状態(気分や体調など)、そして購読環境(場所や時間帯、購読履歴など)に応じた処理により解決することができると考えられる。
本発明の感情表現語句辞書自動生成装置(実施例1、2)の全体構成図である。 本発明の感情表現語句辞書自動生成方法(実施例1、2)の流れ図である。 本発明の感情表現語句辞書自動生成装置(実施例3)の全体構成図である。 本発明の感情表現語句辞書自動生成方法(実施例3)の流れ図である。 本発明のテキストに対する感情尺度評価値自動付与装置(実施例4)の全体構成図である。 本発明のテキストに対する感情尺度評価値自動付与方法(実施例4)の流れ図である。
符号の説明
1 感情表現語句辞書自動生成装置
2 CPU
3 ハードディスク
4 キーボード
5 モニタ
10 入力部
11 形態素解析部
12 共起確率算出部
13 感情尺度評価値算出部
14 出力部
15 テキストデータ
16 感情表現語句辞書

Claims (18)

  1. 入力したテキストデータに含まれる対象語句に対して、1組の対義する意味を有する所定の第1感情語及び第2感情語(以下、感情語と呼ぶ)のいずれの意味に近いかを示す感情尺度評価値を付与し、該対象語句の一部又は全部から感情表現語句の辞書を自動的に生成する方法であって、
    入力手段が複数の文章群(単数又は複数の文章の集合)からなるテキストデータを入力する入力ステップ、
    形態素解析手段が、該テキストデータに対して形態素解析処理を行う形態素解析ステップ、
    共起確率算出手段が、該いずれかの感情語を含む文章群の数、及び文章群を構成する各語句を対象語句として、その対象語句が該いずれかの感情語と同時に出現する文章群の数をそれぞれ検出して、前者の数と後者の数との比から対象語句の第1感情語に対する出現確率P1と、対象語句の第2感情語に対する出現確率P2とを算出する共起確率算出ステップ、
    感情尺度評価値算出手段が、該出現確率P1と該出現確率P2の比を算出し、それを該感情語の組における感情尺度評価値とする感情尺度評価値算出ステップ、
    各対象語句について順次共起確率算出ステップと感情尺度評価値算出ステップを行い、辞書出力手段が、当該対象語句の一部又は全部と感情尺度評価値とを対応づけた感情表現語句辞書を出力する辞書出力ステップ
    の各ステップを有することを特徴とする感情表現語句辞書自動生成方法。
  2. 前記出現確率P1と出現確率P2の比Rを、
    R=P1/(P1+P2)
    に従って算出する請求項1に記載の感情表現語句辞書自動生成方法。
  3. 前記感情表現語句辞書自動生成方法において、
    複数の第1感情語及び第2感情語の組における感情尺度毎に感情表現語句辞書を生成する
    ことを特徴とする請求項1又は2に記載の感情表現語句辞書自動生成方法。
  4. 前記感情表現語句辞書自動生成方法において、所定の期間又は分野毎に前記文章群が分類される構成であって、
    感情尺度評価値算出手段が、
    各期間又は分野ごとに前記出現確率P1と該出現確率P2との比を算出すると共に、該比の平均を算出して第1感情語及び第2感情語における感情尺度評価値とする
    ことを特徴とする請求項1ないし3のいずれかに記載の感情表現語句辞書自動生成方法。
  5. 前記感情表現語句辞書自動生成方法において、
    前記感情尺度評価値に対して少なくとも前記感情語の出現回数又は確率に応じた重み付け値を感情表現語句辞書に備える
    ことを特徴とする請求項1ないし4のいずれかに記載の感情表現語句辞書自動生成方法。
  6. 入力したテキストデータに含まれる対象語句に対して、1組の対義する意味を有する所定の第1感情語及び第2感情語(以下、感情語と呼ぶ)のいずれの意味に近いかを示す感情尺度評価値を付与し、該対象語句の一部又は全部から感情表現語句の辞書を自動的に生成する装置であって、
    複数の文章群(単数又は複数の文章の集合)からなるテキストデータを入力する入力手段と、
    該テキストデータに対して形態素解析処理を行う形態素解析手段と、
    該いずれかの感情語を含む文章群の数、及び文章群を構成する各語句を対象語句として、その対象語句が該いずれかの感情語と同時に出現する文章群の数をそれぞれ検出して、前者の数と後者の数との比から対象語句の第1感情語に対する出現確率P1と、対象語句の第2感情語に対する出現確率P2とを算出する共起確率算出手段と、
    該出現確率P1と該出現確率P2の比を算出し、それを該感情語の組における感情尺度評価値とする感情尺度評価値算出手段と、
    辞書出力手段が、当該対象語句の一部又は全部と感情尺度評価値とを対応づけた感情表現語句辞書を出力する辞書出力手段と
    を備えたことを特徴とする感情表現語句辞書自動生成装置。
  7. 前記共起確率算出手段が、
    前記出現確率P1と出現確率P2の比Rを、
    R=P1/(P1+P2)
    に従って算出する請求項6に記載の感情表現語句辞書自動生成装置。
  8. 前記感情表現語句辞書自動生成装置において、
    複数の第1感情語及び第2感情語の組における感情尺度毎に感情表現語句辞書を生成する
    ことを特徴とする請求項6又は7に記載の感情表現語句辞書自動生成装置。
  9. 前記感情表現語句辞書自動生成装置において、所定の期間又は分野毎に前記文章群が分類される構成であって、
    感情尺度評価値算出手段が、
    各期間又は分野ごとに前記出現確率P1と該出現確率P2との比を算出すると共に、該比の平均を算出して第1感情語及び第2感情語における感情尺度評価値とする
    ことを特徴とする請求項6ないし8のいずれかに記載の感情表現語句辞書自動生成装置。
  10. 前記感情表現語句辞書自動生成装置において、
    前記感情尺度評価値に対して少なくとも前記感情語の出現回数又は確率に応じた重み付け値を感情表現語句辞書に備える
    ことを特徴とする請求項1ないし4のいずれかに記載の感情表現語句辞書自動生成方法。
  11. 入力した対象テキストに対して、1組の対義する意味を有する所定の第1感情語及び第2感情語(以下、感情語と呼ぶ)のいずれの意味に近いかを示す感情尺度評価値を付与する方法であって、
    テキスト入力手段が、対象テキストデータを入力するテキスト入力ステップ、
    形態素解析手段が、該対象テキストデータに対して形態素解析処理を行うテキスト形態素解析ステップ、
    感情表現語句抽出手段が、該対象テキストデータから感情表現語句辞書データベースに一致する感情表現語句を抽出し、同時にその感情尺度評価値を取得する感情表現語句抽出ステップ、
    テキスト感情尺度評価値演算手段が、各感情表現語句の感情尺度評価値を用いて所定の計算式により当該対象テキストデータに対する感情尺度評価値を算出するテキスト感情尺度評価値演算ステップ、
    該テキスト感情尺度評価値出力手段が、算出されたテキスト感情尺度評価値を出力するテキスト感情尺度評価値出力ステップ
    の各ステップを有することを特徴とするテキストに対する感情尺度評価値自動付与方法。
  12. 前記テキストに対する感情尺度評価値自動付与方法が、
    前記請求項1ないし5のいずれかにおける感情表現語句辞書自動生成方法により出力された感情表現語句辞書を感情表現語句辞書データベースに備えている
    ことを特徴とする請求項11に記載のテキストに対する感情尺度評価値自動付与方法。
  13. 前記テキストに対する感情尺度評価値自動付与方法が、
    複数の第1感情語及び第2感情語の組における感情尺度毎に感情尺度評価値を算出し付与する
    ことを特徴とする請求項11又は12に記載のテキストに対する感情尺度評価値自動付与方法。
  14. 前記感情表現語句辞書データベースが、最も第1感情語に近い場合を1、最も第2感情語に近い場合を0とした感情尺度評価値Sと共に該感情尺度評価値に対する重みMを備える構成において、
    テキストに対する感情尺度評価値Oを算出する前記所定の計算式が、
    O=ΣS×|2S−1|×M/Σ|2S−1|×M
    (但しΣは対象テキストに含まれる全ての感情表現語句に対して行うことを意味する)
    であることを特徴とする請求項11ないし13のいずれかに記載のテキストに対する感情尺度評価値自動付与方法。
  15. 入力した対象テキストに対して、1組の対義する意味を有する所定の第1感情語及び第2感情語(以下、感情語と呼ぶ)のいずれの意味に近いかを示す感情尺度評価値を付与する装置であって、
    対象テキストデータを入力するテキスト入力手段と、
    該対象テキストデータに対して形態素解析処理を行うテキスト形態素解析手段と、
    該対象テキストデータから感情表現語句辞書データベースに一致する感情表現語句を抽出し、同時にその感情尺度評価値を取得する感情表現語句抽出手段と、
    各感情表現語句の感情尺度評価値を用いて所定の計算式により当該対象テキストデータに対する感情尺度評価値を算出するテキスト感情尺度評価値演算手段と、
    算出されたテキスト感情尺度評価値を出力するテキスト感情尺度評価値出力手段と
    を備えたことを特徴とするテキストに対する感情尺度評価値自動付与装置。
  16. 前記テキストに対する感情尺度評価値自動付与装置が、
    前記請求項6ないし10のいずれかにおける感情表現語句辞書自動生成装置により出力された感情表現語句辞書を感情表現語句辞書データベースに備えている
    ことを特徴とする請求項15に記載のテキストに対する感情尺度評価値自動付与装置。
  17. 前記テキストに対する感情尺度評価値自動付与装置が、
    複数の第1感情語及び第2感情語の組における感情尺度毎に感情尺度評価値を算出し付与する
    ことを特徴とする請求項15又は16に記載のテキストに対する感情尺度評価値自動付与装置。
  18. 前記感情表現語句辞書データベースが、最も第1感情語に近い場合を1、最も第2感情語に近い場合を0とした感情尺度評価値Sと共に該感情尺度評価値に対する重みMを備える構成において、
    テキストに対する感情尺度評価値Oを算出する前記所定の計算式が、
    O=ΣS×|2S−1|×M/Σ|2S−1|×M
    (但しΣは対象テキストに含まれる全ての感情表現語句に対して行うことを意味する)
    であることを特徴とする請求項15ないし17のいずれかに記載のテキストに対する感情尺度評価値自動付与装置。

JP2005198767A 2005-07-07 2005-07-07 感情表現語句辞書自動生成方法及び装置、並びにテキストに対する感情尺度評価値自動付与方法及び装置 Pending JP2007018234A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005198767A JP2007018234A (ja) 2005-07-07 2005-07-07 感情表現語句辞書自動生成方法及び装置、並びにテキストに対する感情尺度評価値自動付与方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005198767A JP2007018234A (ja) 2005-07-07 2005-07-07 感情表現語句辞書自動生成方法及び装置、並びにテキストに対する感情尺度評価値自動付与方法及び装置

Publications (1)

Publication Number Publication Date
JP2007018234A true JP2007018234A (ja) 2007-01-25

Family

ID=37755360

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005198767A Pending JP2007018234A (ja) 2005-07-07 2005-07-07 感情表現語句辞書自動生成方法及び装置、並びにテキストに対する感情尺度評価値自動付与方法及び装置

Country Status (1)

Country Link
JP (1) JP2007018234A (ja)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009015394A (ja) * 2007-06-29 2009-01-22 Toshiba Corp 辞書構築支援装置
JP2011048527A (ja) * 2009-08-26 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 感性情報抽出装置、感性検索装置、その方法およびプログラム
JP2012008874A (ja) * 2010-06-25 2012-01-12 Kddi Corp 画像選定装置、方法及びプログラム
WO2012057560A3 (ko) * 2010-10-28 2012-06-14 (주)엠씨에스로직 지능형 감성단어 확장장치 및 그 확장방법
CN102541839A (zh) * 2010-12-15 2012-07-04 日电(中国)有限公司 基于文本集合的隐性情绪词典建立方法和装置
KR101334196B1 (ko) * 2010-10-28 2013-11-28 (주)아크릴 지능형 감성 추론장치 및 그 추론방법
CN104731770A (zh) * 2015-03-23 2015-06-24 中国科学技术大学苏州研究院 基于规则和统计模型的中文微博情感分析方法
JP2015121858A (ja) * 2013-12-20 2015-07-02 ヤフー株式会社 データ処理装置、及びデータ処理方法
KR101555039B1 (ko) 2013-11-12 2015-09-22 연세대학교 산학협력단 감정 사전 구축 장치 및 감정 사전 구축 방법
JP5905652B1 (ja) * 2015-01-30 2016-04-20 株式会社Ubic データ評価システム、データ評価方法、およびデータ評価プログラム
JP2016110452A (ja) * 2014-12-08 2016-06-20 Kddi株式会社 心理状態を抽出すべき単語の辞書を更新するプログラム、装置及び方法
WO2016125950A1 (ko) * 2015-02-02 2016-08-11 숭실대학교 산학협력단 단어의 감성 수치 추정 방법 및 서버
JP2017084015A (ja) * 2015-10-26 2017-05-18 Kddi株式会社 入力テキストに対する主観的印象と客観点印象とを比較するテキスト印象分析プログラム、装置及び方法
JP2018013997A (ja) * 2016-07-21 2018-01-25 国立大学法人電気通信大学 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
KR101813047B1 (ko) * 2015-06-12 2018-01-30 박기동 감성 및 성향분석 방법
KR20180116779A (ko) * 2017-04-17 2018-10-26 가천대학교 산학협력단 인공 지능 기반 영상 및 음성 인식 영양 평가 방법
CN109947951A (zh) * 2019-03-19 2019-06-28 北京师范大学 一种可自动更新的用于金融文本分析的情感字典构建方法
CN111414755A (zh) * 2020-03-20 2020-07-14 中国计量大学 一种基于细粒度情感字典的网络情绪分析方法
CN112417088A (zh) * 2019-08-19 2021-02-26 武汉渔见晚科技有限责任公司 一种社群内文本价值的评估方法及装置
JP2021064252A (ja) * 2019-10-16 2021-04-22 富士通株式会社 文書処理プログラム、文書処理方法および文書処理装置

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009015394A (ja) * 2007-06-29 2009-01-22 Toshiba Corp 辞書構築支援装置
JP2011048527A (ja) * 2009-08-26 2011-03-10 Nippon Telegr & Teleph Corp <Ntt> 感性情報抽出装置、感性検索装置、その方法およびプログラム
JP2012008874A (ja) * 2010-06-25 2012-01-12 Kddi Corp 画像選定装置、方法及びプログラム
WO2012057560A3 (ko) * 2010-10-28 2012-06-14 (주)엠씨에스로직 지능형 감성단어 확장장치 및 그 확장방법
KR101310929B1 (ko) * 2010-10-28 2013-09-25 (주)아크릴 지능형 감성단어 확장장치 및 그 확장방법
KR101334196B1 (ko) * 2010-10-28 2013-11-28 (주)아크릴 지능형 감성 추론장치 및 그 추론방법
CN102541839A (zh) * 2010-12-15 2012-07-04 日电(中国)有限公司 基于文本集合的隐性情绪词典建立方法和装置
KR101555039B1 (ko) 2013-11-12 2015-09-22 연세대학교 산학협력단 감정 사전 구축 장치 및 감정 사전 구축 방법
JP2015121858A (ja) * 2013-12-20 2015-07-02 ヤフー株式会社 データ処理装置、及びデータ処理方法
JP2016110452A (ja) * 2014-12-08 2016-06-20 Kddi株式会社 心理状態を抽出すべき単語の辞書を更新するプログラム、装置及び方法
WO2016121127A1 (ja) 2015-01-30 2016-08-04 株式会社Ubic データ評価システム、データ評価方法、およびデータ評価プログラム
JP5905652B1 (ja) * 2015-01-30 2016-04-20 株式会社Ubic データ評価システム、データ評価方法、およびデータ評価プログラム
WO2016125950A1 (ko) * 2015-02-02 2016-08-11 숭실대학교 산학협력단 단어의 감성 수치 추정 방법 및 서버
CN104731770A (zh) * 2015-03-23 2015-06-24 中国科学技术大学苏州研究院 基于规则和统计模型的中文微博情感分析方法
KR101813047B1 (ko) * 2015-06-12 2018-01-30 박기동 감성 및 성향분석 방법
JP2017084015A (ja) * 2015-10-26 2017-05-18 Kddi株式会社 入力テキストに対する主観的印象と客観点印象とを比較するテキスト印象分析プログラム、装置及び方法
JP2018013997A (ja) * 2016-07-21 2018-01-25 国立大学法人電気通信大学 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
KR20180116779A (ko) * 2017-04-17 2018-10-26 가천대학교 산학협력단 인공 지능 기반 영상 및 음성 인식 영양 평가 방법
KR101959762B1 (ko) 2017-04-17 2019-07-05 가천대학교 산학협력단 인공 지능 기반 영상 및 음성 인식 영양 평가 방법
CN109947951A (zh) * 2019-03-19 2019-06-28 北京师范大学 一种可自动更新的用于金融文本分析的情感字典构建方法
CN112417088A (zh) * 2019-08-19 2021-02-26 武汉渔见晚科技有限责任公司 一种社群内文本价值的评估方法及装置
CN112417088B (zh) * 2019-08-19 2022-07-05 武汉渔见晚科技有限责任公司 一种社群内文本价值的评估方法及装置
JP2021064252A (ja) * 2019-10-16 2021-04-22 富士通株式会社 文書処理プログラム、文書処理方法および文書処理装置
CN111414755A (zh) * 2020-03-20 2020-07-14 中国计量大学 一种基于细粒度情感字典的网络情绪分析方法

Similar Documents

Publication Publication Date Title
JP2007018234A (ja) 感情表現語句辞書自動生成方法及び装置、並びにテキストに対する感情尺度評価値自動付与方法及び装置
Jiang et al. Investigation of different speech types and emotions for detecting depression using different classifiers
Shah et al. Early depression detection from social network using deep learning techniques
Morales et al. Speech vs. text: A comparative analysis of features for depression detection systems
Erk et al. A structured vector space model for word meaning in context
KR102216768B1 (ko) 심리상담 데이터를 이용한 텍스트 내 감정분석을 위한 시스템 및 방법
JP2009139390A (ja) 情報処理システム、処理方法及びプログラム
Khan Improved multi-lingual sentiment analysis and recognition using deep learning
Pompili et al. Pragmatic aspects of discourse production for the automatic identification of Alzheimer's disease
Walker 20 Variation analysis
JP2013016011A (ja) 同義語辞書生成装置、その方法、及びプログラム
de Velasco et al. Emotion Detection from Speech and Text.
Treviso et al. Evaluating word embeddings for sentence boundary detection in speech transcripts
Frenda et al. Automatic expansion of lexicons for multilingual misogyny detection
Cavalieri et al. Combination of language models for word prediction: An exponential approach
Sarzynska-Wawer et al. Truth or lie: Exploring the language of deception
Ptaszynski et al. A method for automatic estimation of meaning ambiguity of emoticons based on their linguistic expressibility
Bernardi et al. Sentence paraphrase detection: When determiners and word order make the difference
Jarosz et al. The richness of distributional cues to word boundaries in speech to young children
Agrima et al. Emotion recognition from syllabic units using k-nearest-neighbor classification and energy distribution
CN114548694A (zh) 社会化回答式网络心理咨询服务质量评估模型的构建方法
Oh Linguistic complexity and information: Quantitative approaches
Veinović Apparent Personality Analysis based on Aggregation Model
Kafle et al. Fusion Strategy for Prosodic and Lexical Representations of Word Importance.
Yang et al. Detecting Signs of Depression for Using Chatbots–Extraction of the First Person from Japanese