JP6649318B2

JP6649318B2 - 言語情報分析装置および方法

Info

Publication number: JP6649318B2
Application number: JP2017106061A
Authority: JP
Inventors: 正明五十崎
Original assignee: 株式会社ソケッツ
Priority date: 2017-05-30
Filing date: 2017-05-30
Publication date: 2020-02-19
Anticipated expiration: 2037-05-30
Also published as: JP2018200650A

Description

この発明は、発話内容やテキスト等の言語情報から当事者の感情・印象等の主観的な属性・特徴を分析する技術に関する。

ユーザは、ネットワーク上の、公開のコミュニティまたはプライベートなコミュニティにおいて、または、特定または非特定の相手との間で、スマートフォン、タブレット、パソコン等のユーザインタフェースを介して、テキストベースで、または音声ベースで、情報のやり取りを行っている。この際、客観的なデータのみでなく、当事者の感情・印象等の主観的な内容を利用することが望まれる。例えば、お客様と音声ベースでやり取りを行う際に、お客様の感情や商品に対する印象を把握できれば大変便利である。また、ネットワーク上の所定の商品に関するユーザのメッセージを集めていわゆるデータマイニングして商品開発に役立てることも望まれる。

特許文献１（特公平０６−０８２３７７号公報）は、単語単位の感情要素を分類して登録した単語辞書を用いて、入力文の感情要素を分析・表示する技術を開示している。特許文献２（特開２０１５−２１０７００号公報）は、ネットワーク上の商品情報を集め、評価観点に基づいて商品に対する印象を分析することを開示している。特許文献３（特開平０６−１１０９２０号公報）は、形態素列パターンに主観的属性を割り当てたテーブルを用いて主観的特徴を分析・抽出することを開示している。

単語単位、または形態素列パターンという単純な兆候でなく、より複雑な兆候を考慮して、感情や印象等の主観的属性を分析することが望まれる。

なお、本発明は、上述の課題により限定的に理解されるべきでなく、その内容は特許請求の範囲に規定され、以下に実施例を用いて詳細に説明される。

特公平０６−０８２３７７号公報特開２０１５−２１０７００号公報特開平０６−１１０９２０号公報

この発明は上述の事情等を考慮してなされたものであり、複雑な兆候を考慮して、感情や印象等の属性を分析する技術を提供すること、その他を、目的としている。

この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。

この発明によれば、上述の目的を達成するために、言語情報分析装置を：分析対象テキストを入力する入力手段と；上記入力手段から入力された上記分析対象テキストから、単語、および、係り受け関係にある複数の単語からなる単語組を、抽出する抽出手段と；辞書エントリとして登録された、単独の単語および単語組のそれぞれについて予め定められた１または複数の属性カテゴリに関するスコアを記憶する辞書手段と；上記抽出手段により抽出された上記単語および上記単語組を、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組と照合し、照合結果に基づいて、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組の上記予め定められた１または複数の属性カテゴリに関するスコアを選択的に取得して上記入力された分析対象テキストの上記予め定められた１または複数の属性カテゴリに関するスコアを計算するスコア計算手段とを含んで構成している。

この構成においては、単語のみでなく、係り受け関係にある複数の単語からなる単語組を考慮して分析対象テキストを分析しているので、微妙なニュアンスも正確に分析に反映させることができる。

言語情報分析装置は、典型的にはコンピュータシステム（スマートフォン等の携帯端末も含む）で実現される。ネットワークで接続された複数のコンピュータシステムが共同して言語情報分析装置を形成して良い。

分析対象の属性は、後述するように、典型的には、感情の属性や、印象の属性であるけれども、これに限定されず、任意の主観的な属性であって良い。

入力手段は、音声をテキスト化する機能を有してよい。入力手段は、スマートフォン等のユーザインタフェースであってよく、またネットワークを介して種々のソースから一群のテキストを取得するものであって良い。スコア計算手段から出力されるスコアは、種々の態様で出力することが可能である。例えば、コミュニケーション中の相手ユーザの感情・印象等を色彩や、顔のイラスト、音声等で表示して良く、また、ネットワーク上の多数のテキスト群（例えば所定の商品に関するテキスト）全体に対する種々の感情・印象の属性値データとして提示するものでもよい。

この構成において、上記スコア計算手段は、上記抽出手段により抽出され、かつ、上記辞書エントリのいずれかに合致し、さらに、相互に部分的に重複する上記単語または上記単語組がある場合、当該部分的に重複する上記単語または上記単語組のうち、もっとも単語数の大きな単語組についてのみ、スコアを取得し、それ以外の上記単語または上記単語組についてはスコアを取得しなくて良い。例えば、「将来への希望が見えない」というテキストが入力され、「将来｜希望｜見えない」（単語組）、「将来｜見えない」（単語組）、「将来」（単語、一般化して、「単語組」と呼ぶこともある）、「希望」（単語）、「見えない」（単語）が単語または単語組として抽出され、これら単語、単語組が辞書手段に「不安・怖れ」、「希望」等の感情属性カテゴリに関して辞書エントリとして登録されているときには、その中で単語の数が一番大きな「将来｜希望｜見えない」を照合単語組として選択し、それに割り当てられた属性のスコアに基づいてスコア計算を行って良い。代替的には、上位Ｎ番目に単語数の大きな単語組を選択して良く、Ｎを可変できるようにしても良い。

また、この構成において、上記スコア計算手段は、上記抽出手段により抽出され、かつ、同一の属性カテゴリに関して登録されている上記辞書エントリのいずれかに合致し、さらに、部分的に重複する上記単語または上記単語組がある場合、上記同一の属性カテゴリに関しては、当該部分的に重複する上記単語または上記単語組のうち、もっとも単語数の大きな単語組についてのみ、スコアを取得し、それ以外の上記単語または上記単語組についてはスコアを取得しなくて良い。上述の例で、「将来への希望が見えない」というテキストが入力され、「将来｜希望｜見えない」、「将来｜見えない」、「将来」、「希望」、「見えない」が単語または単語組として抽出され、このうちの「将来｜希望｜見えない」、「将来｜見えない」が辞書手段に「不安・怖れ」の感情属性カテゴリに関して辞書エントリとして登録され、「将来」、「希望」が「希望」の感情属性カテゴリに関して辞書エントリとして登録されているときには、「不安・怖れ」の感情属性カテゴリに関しては、その中で単語の数が一番大きな「将来｜希望｜見えない」を照合単語組とし、それに割り当てられた属性のスコアに基づいてスコア計算を行って良い。「希望」の感情属性カテゴリについては、「不安・怖れ」の感情属性カテゴリと独立して、「将来」、「希望」からスコア計算を行って良い。代替的には、上位Ｎ番目に単語数の大きな単語組を選択して良く、Ｎを可変できるようにしても良い。

また、この構成において、上記抽出手段から抽出される上記単語および上記単語組は、名詞、動詞、形容詞、または副詞からなって良いけれども、これに限定されない。名詞、動詞、形容詞、副詞を含む特定の品詞を使用しても良い。名詞、動詞、形容詞に加えて、特定の副詞、接頭詞、感嘆詞を使用するものでも良い。他の任意の態様の品詞の組み合わせを用いて良い。

また、上記入力手段から入力された上記分析対象テキストが動詞および当該動詞に対して否定を意味する品詞を含む場合、当該動詞を否定形に置き換えて単語として良い。

また、上記入力手段から入力された上記分析対象テキストが一連の複数の名詞を含む場合、上記複数の名詞を連結して１つの単語として良い。

また、この構成において、上記属性は、１または複数の感情属性カテゴリまたは１または複数の印象属性カテゴリ（対象に対する印象）であって良く、感情属性カテゴリおよび印象属性カテゴリの組み合わせであって良い。感情属性カテゴリは、覚醒の程度、感情のバランスを２次元の軸で把握するラッセル円環モデルで規定されるものであって良い。また、感情属性カテゴリは、例えば、「昂ぶり・興味・驚き」、「希望」、「幸福・愛情」、「好き・嬉しい・楽しい」、「安らぎ・信頼」、「退屈・うんざり」、「悲しみ・哀しみ」、「嫌い・不愉快」、「苛立ち・怒り」、「不安・怖れ」であって良いけれども、これに限定されない。印象属性カテゴリは、例えば、「直接的好印象」、「認知的好印象」、「情緒的好印象」、「興味・期待」、「直接的悪印象」、「認知的悪印象」、「情緒的悪印象」、「無関心・失望」であって良いけれどもこれに限定されない。

この構成において、上記抽出手段は、形態素解析手段および構文解析手段を含んで良い。

なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品（コンピュータプログラム）もこの発明の技術的な範囲に含まれることも当然である。

この発明の上述の側面および他の側面は特許請求の範囲に記載され、以下、実施例等を用いて詳述される。

この発明によれば、複雑な兆候を考慮して、感情や印象等の属性を分析することができる。

この発明の実施例の属性分析装置を全体的に示す機能ブロック図である。上述実施例の処理を説明するフローチャートである。上述実施例の感情属性カテゴリの例を説明する図である。ラッセル円環モデルを説明する図である。感情属性単語組テーブル例を説明する図である。長い単語組の選択を説明する図である。変形例を説明するフローチャートである。変形例で用いる辞書エントリのＩＤ順に頻度を並べた特徴ベクトルの例を示す図である。印象属性カテゴリの例を説明する図である。印象属性単語組テーブルを説明する図である。サンプル文章１を用いた具体的な処理例を説明する図である。サンプル文章１を用いた具体的な処理例を説明する図である。サンプル文章１を用いた具体的な処理例を説明する図である。サンプル文章１を用いた具体的な処理例を説明する図である。サンプル文章１を用いた具体的な処理例を説明する図である。サンプル文章１を用いた具体的な処理例を説明する図である。サンプル文章１を用いた具体的な処理例を説明する図である。サンプル文章１を用いた具体的な処理例を説明する図である。サンプル文章２を用いた具体的な処理例を説明する図である。サンプル文章２を用いた具体的な処理例を説明する図である。サンプル文章２を用いた具体的な処理例を説明する図である。サンプル文章２を用いた具体的な処理例を説明する図である。サンプル文章２を用いた具体的な処理例を説明する図である。サンプル文章２を用いた具体的な処理例を説明する図である。サンプル文章２を用いた具体的な処理例を説明する図である。

以下、この発明の実施例の属性分析装置について説明する。

図１は、この発明の実施例の属性分析装置１００の構成を示しており、この図において、属性分析装置１００は、入力部１０、単語組抽出部１１、スコア計算部１２、辞書記憶部１３、および出力部１４を含んで構成されている。属性分析装置１００は典型的にはコンピュータシステム２００によって構成される。属性分析装置１００は、例えば、記録媒体２０１に記録されたコンピュータプログラムや通信ネットワーク（図示しない）を介して送信されてくるコンピュータプログラムをコンピュータシステム２００にインストールすることにより実現される。コンピュータシステム２００は、ＣＰＵ、主メモリ、バス、外部メモリ、種々の入出力インタフェース等を有してなり、パーソナルコンピュータ、スマートフォン、情報家電機器等であって良い。

図１の属性分析装置１００は、感情属性を分析するものであるけれども、これに限定されない。この実施例では、例えば、図３に示すような、「昂ぶり・興味・驚き」、「希望」、「幸福・愛情」、「好き・嬉しい・楽しい」、「安らぎ・信頼」、「退屈・うんざり」、「悲しみ・哀しみ」、「嫌い・不愉快」、「苛立ち・怒り」、「不安・怖れ」の１０個の感情属性カテゴリについてスコアを求めて感情属性の分析を行う。図３の１０個の感情属性カテゴリは、図４に示すラッセル（Ｒｕｓｓｅｌｌ）円環モデルに準拠したものであり、ラッセル円環モデルと同様に感情を平面上に適切に表現することができる。ラッセル円環モデルは、「快−不快」、「覚醒−眠気」の２次元で感情を表現するものである。

図１において、入力部１０は、分析対象テキストを入力する。分析対象テキストは１センテンスのテキストまたは複数センテンスからなる１まとまりのテキストであって良い。テキストは、テキストとして直接入力されても良いし、音声ベースの入力をテキストに変換したものでも良い。テキストはネットワークを通じて入力部１０に供給されて良い。入力部１０は分析対象テキストを１センテンスごとに単語組抽出部１１に供給する。なお、１センテンスごとでなく、適宜な単位で、テキストを処理しても良い。

単語組抽出部１１は、テキストが例えば１センテンス入力されるたびに、そのテキスト中に含まれる単語組を抽出するものである。ここで、単語組は、係り受け関係にある複数の単語（形態素ともいう）からなる単語組を厳密には指すけれども、以下では、単一の単語についても１まとめに便宜上単語組と呼ぶことがある。単語組抽出部１１は、形態素解析部１１Ａ、構文解析部１１Ｂ、単語組選択部１１Ｃを含む。形態素解析部１１Ａおよび構文解析部１１Ｂは単語の係り受け関係情報および品詞情報を生成する（図２参照）。単語組選択部１１Ｃは、単語の係り受け関係情報および品詞情報に基づいてテキスト中の単語、および、係り受け関係にある単語からなる単語組から所望のものを選択する。この例では、単語および単語組に含まれる単語を、名詞、動詞、形容詞、または副詞に限定して良い。また、動詞の単語が当該動詞に対して否定を意味する品詞を含む場合、当該動詞を否定形に置き換えたものを１つの単語として扱って良い。例えば、「将来への希望が見えない」というテキストが入力された場合、「将来｜希望｜見えない」、「将来｜見えない」、「将来」、「希望」、「見えない」が単語組として形成される。

スコア計算部１２は、単語組抽出部１１から出力された単語組について、順次に、かつ、適宜に、辞書記憶部１３の感情属性単語組テーブルを表引きして、該当する辞書エントリ（登録単語組）がある場合には、対応する属性カテゴリおよびスコアを取り出し、属性カテゴリごとに累積し、すべての属性カテゴリについてスコアの累積が完了したのち、累積スコアをすべての属性カテゴリにわたって、和が「１」になるように正規化する。その他の手法で正規化を行っても良い。スコア計算部１２は正規化したすべての属性カテゴリのスコアを出力部１４に供給する。複数のセンテンスについてスコアを取得する場合には、各センテンスのスコアを累積したのちに正規化を行って良い。単語組抽出部１１から出力される単語組が辞書記憶部１３の感情属性単語組テーブルにない場合にはスコアは出力されない。

単語組抽出部１１から出力され、部分的に重複する複数の単語組（単語を含む）が辞書記憶部１３の感情属性単語組テーブルの辞書エントリとして登録されている場合がある。例えば、入力部１０が「将来への希望が見えない」というテキストを入力し、単語組抽出部１１が「将来｜希望｜見えない」、「将来｜見えない」、「将来」、「希望」、「見えない」を単語組として出力し、これら単語組が辞書記憶部１３の感情属性単語組テーブルの辞書エントリとして登録されている場合である。この実施例では、部分的に重複する複数の単語組が辞書記憶部１３の感情属性単語組テーブルの辞書エントリとして登録されている場合には、スコア計算部１２は最も単語数が大きな単語組（例えば先の例では「将来｜希望｜見えない」）についてのみ、属性カテゴリおよびスコアを取り出し、その他の単語組（先の例では「将来｜見えない」、「将来」、「希望」、「見えない」）については属性カテゴリおよびスコアを取り出さない。この例では、「将来への希望が見えない」という入力テキストに対して、「不安・怖れ」の感情属性カテゴリ、および「１．０」のスコアが取り出される。これを図６に示す。

なお、形態素解析部１１Ａおよび構文解析部１１Ｂによって取得される単語の係り受け関係情報および品詞情報から生成される単語および単語組は単語数が大きい順に辞書記憶部１３の辞書エントリと照合することが好ましい。このようにして、単語数の大きな単語組が辞書エントリとして登録されている場合には、その部分要素をなす単語組（単語を含む）については表引きをスキップして処理を省略できる。

なお、この例では、単語組抽出部１１から出力される、部分的に重複する単語組が、いずれかの属性カテゴリに関して辞書エントリとして登録されている場合に最大単語数の単語組をスコア計算対象の単語組としているけれども、部分的に重複する単語組が同一の属性カテゴリに関して辞書エントリとして登録されている場合のみ最大単語数の単語組を当該同一の属性カテゴリに関してスコア計算対象の単語組とするように構成しても良い。この場合、先の例では、「不安・怖れ」の感情属性カテゴリについて「将来｜希望｜見えない」がスコア計算対象の単語組として選択され、「希望」の感情属性カテゴリの属する「将来」、「希望」という単語組も選択されないようになっているけれども、当該代替的な例では、「不安・怖れ」の感情属性カテゴリに属する「将来｜希望｜見えない」が選択されるとともに、これと独立して「将来」、「希望」が、「希望」の感情属性カテゴリに関してスコア対象の単語組として選択される。この代替的な例では単語組の選択は感情属性カテゴリごとに行う。さらに、代替的には、上位Ｎ番目に単語数の大きな単語組を選択して良く、Ｎを可変できるようにしても良い。

また、単語組抽出部１１から出力される、部分的に重複する単語組が、所定のグループに含まれる属性カテゴリのいずれかに関して辞書エントリとして登録されている場合に最大単語数の単語組を限定的にスコア計算対象の単語組としてもよい。所定のグループ内の属性カテゴリ以外の属性カテゴリにおいては単語の選択は属性カテゴリごとに独立して行う。

出力部１４は正規化したスコアを受け取って、スコアに応じた出力を行って良い。出力は、音、色、グラフィック、マーク、アニメーション等で表示してよい。また、属性カテゴリのスコアのうち、上位Ｎ番目までの属性カテゴリ、例えば上位１位および２位の属性カテゴリを代表する属性カテゴリとして表示して良い。

図５は、辞書記憶部１３に記憶されている属性単語組テーブルの一例として感情属性単語組テーブルの例を示す。この例では、「幸福・愛情」、「悲しみ・哀しみ」、「嫌い・不愉快」、、「昂ぶり・興味・驚き」、「退屈・うんざり」、「苛立ち・怒り」、「希望」、「安らぎ・信頼」、「好き・嬉しい・楽しい」のそれぞれについて辞書エントリとなる単語組を登録し、これについてスコアを記録するようにしている。例えば、図５の例では、これに限定されないけれども、「幸福・愛情」の感情属性カテゴリについて「永遠｜愛」、「何｜愛す」、「胸｜ときめく」の単語組が登録され、それぞれについて「０．９５２６」、「０．９５２６」、「０．８４２９」が記憶されている。これらスコアは、感情属性カテゴリに対する感情表現の共起確率をベースに準備されたものである。

辞書記憶部１３に記憶されている属性単語組テーブルの登録単語組（キーワードともいう。単独の単語および単語の組み合わせを含む）は、例えば、属性カテゴリごとに用意したコーパスをベースにしてトピックモデルを利用したキーワード（代表語）抽出や、ＴＦ−ＩＤＦを用いたキーワード抽出により属性カテゴリごとの登録単語組を選択して良いけれども、これに限定されない。キーワードを抽出する際には、係り受け関係にある複数の単語（形態素）からなる単語組も１つの単語単位として扱って良い。また、扱う単語として、名詞、動詞、形容詞、または副詞に限定して良い。また、動詞の単語が当該動詞に対して否定を意味する品詞を含む場合、当該動詞を否定形に置き換えたものを１つの単語として扱って良い。

属性単語組テーブルは種々のフォーマットで準備することが可能である。図５の感情属性単語組テーブルの例では、感情属性カテゴリごとに登録単語組（キーワードともいう）を付与し、この登録単語組ごとにスコアを記憶する。また、キーワードは同一の感情属性カテゴリごとに単語組をなす単語の数に応じてソートされて良い。もちろん、その他のフォーマットも利用可能であり、例えば、単語組ごとに各属性カテゴリのそれぞれのスコアを要素として含むベクトルを記憶し、単語組を表引きして当該ベクトルを取り出し、各属性カテゴリのスコアを同時に取得できるようにして良い。なお、スコアがゼロの場合、ベクトルの当該要素の値はゼロである。

図２は、図１の属性分析装置１００の動作を説明するフローチャートである。図２において、入力部１０がテキスト入力を行い（ステップＳ０１）、つぎに単語組抽出部１１が、形態素解析（ステップＳ０２）、構文解析（ステップＳ０３）を行い、さらに、形態素解析および構文解析で取得した係り受け構成情報、および品詞情報から、実現可能な単語組を抽出する（Ｓ０４）。

スコア計算部１２は、単語組抽出部１１から供給される単語組について辞書記憶部１３の単語組テーブルを参照して属性カテゴリごとにスコアを取り出し（ステップＳ０５）、当該スコアを属性カテゴリごとに累積し、最終的な累積値をすべての属性カテゴリに関して正規化して分析対象テキストに対する属性カテゴリごとのスコアを計算する（Ｓ０６）。正規化された属性カテゴリごとのスコアは出力部１４によって出力される（Ｓ０７）。

図２は、処理フローの例にあわせて、具体的な処理内容の例を一例として示しており、この図において、「将来への希望が見えない」というテキストが入力され、これに基づいて、図示のとおりの係り受け構成情報、および、品詞情報が出力され、これに基づいて実現可能な単語組として「将来｜希望｜見えない」、「将来｜見えない」、「将来」、「希望」、「見えない」が出力される。「不安・怖れ」の感情属性カテゴリに着目すると、「将来｜希望｜見えない」（スコア＝１．０）、「将来｜見えない」（スコア＝０．９３８６）が辞書エントリとして登録され（図５）、このうち単語数の大きな、「将来｜希望｜見えない」のみが抽出される。この結果、「不安・怖れ」の感情属性カテゴリのスコアとして「１．０」が累積される。なお、「将来」、「希望」については、「希望」の属性カテゴリに辞書エントリとして登録されているけれども、「将来」、「希望」は、最も単語数が大きな単語組である「将来｜希望｜見えない」に部分的に重複しているので、これらのスコアを無視される。この結果、「不安・怖れ」の感情属性カテゴリについて「１．０」のスコアが累積され、他の感情属性カテゴリのスコアはすべて「０」になる。ベクトルとしては［０，０，０，０，０，１，０，０，０，０］で示される。

なお、上述のとおり、この例では、単語組抽出部１１から出力される、部分的に重複する単語組が、いずれかの属性カテゴリに関して辞書エントリとして登録されている場合に最大単語数の単語組をスコア計算対象の単語組としているけれども、部分的に重複する単語組が同一の属性カテゴリに関して辞書エントリとして登録されている場合のみ最大単語数の単語組を当該同一の属性カテゴリに関してスコア計算対象の単語組とする代替例を採用して良い。この代替例では、「不安・怖れ」の感情属性カテゴリについて「１．０」のスコアが累積され、「希望」の感情属性カテゴリについて「将来」（０．４５）、「希望」（０．４５）が累積されて「「０．９」のスコアが得られ、ベクトルとしては［０，０，０，０，０．４７，０．５３，０，０，０，０］（正規化後）で示される。

つぎに具体的な動作例について説明する。

図１１Ａはサンプル文章１を示し、図１１Ｂはサンプル文書１の構文解析情報および品詞情報を示し、図１１Ｃは抽出された単語組を示す。

上述のとおり、単語組は、名詞、動詞、形容詞、副詞に限定して良いけれども、他の品詞の組み合わせを採用してよい。たとえば、名詞、動詞、形容詞、副詞を含む特定の品詞を使用しても良い。名詞、動詞、形容詞に加えて、特定の副詞、接頭詞、感嘆詞を使用するものでも良い。他の任意の態様の品詞の組み合わせを用いて良い。名詞が連続している場合には１つの名詞として連結させる。動詞に関しては、活用を原形にする。この際、対象となる動詞に対して否定を意味する品詞が含まれている場合には、動詞を否定形に置き換える。なお単語組として組み合わせる単語数には制限はない。組み合わせる単語数が多いと、その単語組の意味する内容が特定される確率は高くなるが、テキスト内に出現する確率は低くなる。

辞書エントリに付き合わされる単語組の属性カテゴリおよびスコアは図１１Ｄに示すようになる。なお、「途方｜暮れる」および「暮れる」（図１１Ｄ）は部分的に重複するので、スコア計算上、単語数の大きい、「途方｜暮れる」のみを参照する。各属性カテゴリのスコアおよび総合スコアの集計結果は図１１Ｅに示すとおりであり、その正規化結果は図１１Ｆのとおりである。入力テキストの感情属性スコアは図１１Ｇのとおりである。また代表的な属性カテゴリとして「不安・怖れ」および「哀しみ」が選択され、ユーザに表示されて良い（図１１Ｈ）。

図１２Ａはサンプル文章２を示し、図１２Ｂはサンプル文書２の構文解析情報および品詞情報を示し、図１２Ｃは抽出された単語組を示す。抽出された単語組のうち、「日々｜繰り返し」に部分的に重複する「日々」、「繰り返し」は無視される。また「将来｜希望｜見えない」に部分的に重複する「将来｜見えない」、「将来」、「希望」、「見えない」も無視される。各属性カテゴリのスコアおよび総合スコアの集計結果は図１２Ｄに示すとおりであり、その正規化結果は図１２Ｅのとおりである。入力テキストの感情属性スコアは図１２Ｆのとおりである。また代表的な属性カテゴリとして「不安・怖れ」および「退屈・うんざい」が選択され、ユーザに表示されて良い（図１２Ｇ）。

つぎに変形例について説明する。図７は変形例の処理例を説明する。この変形例では、当初、辞書記憶部１３の辞書エントリに登録単語組、属性カテゴリが割り当てられているけれども、スコアは割り当てられておらず、学習によりスコアを決定するようになっている。

図７の変形例では、図２の処理例と同様に、分析対象テキスト（学習用テキスト群）を入力し、形態素解析、構文解析を行い、単語組に抽出を行い、単語組リストが生成される（ステップＳ０１、Ｓ０２、Ｓ０３、Ｓ０４）。つぎに単語組リストを辞書記憶部１３の感情属性単語組テーブルに突き合わせて、テキスト群中に、属性カテゴリごとの単語組が何個あるかをカウントして特徴ベクトルを形成する（ステップＳ０８、Ｓ０９）。ここで、特徴ベクトルは、辞書エントリ（登録されている単語組）に任意に付与されたＩＤ順に単語組の検出回数を並べたものである。これを図８に示す。つぎに機械学習を行う（Ｓ１０）。すなわち、複数のテキストに対して、特徴ベクトルと、教師データ（正解となるカテゴリのリスト）を使用して多クラス分類基による機械学習を行う。分類器の例としては、ＳＶＭ，ランダムフォレスト、ディープラーニングを用いて良いけれども、これに限定されない。学習済みモデルに対して図２と同様にして分析対象データの属性分析を行う（Ｓ１１）。この例では、特徴ベクトルを入力して、これを辞書記憶部１３の辞書エントリのＩＤ順に突き合わせて属性カテゴリのスコアを累積して分析結果とすることができる。

つぎに他の変形例について説明する。この変形例では、感情属性でなく印象属性を分析するものである。図９はこの変形例で用いる印象属性カテゴリを示す。図９の例では、直接的好印象−直接的悪印象、および、興味・期待−無関心・失望の２軸で対象に対する印象を表す。図１０は、この変形例の辞書記憶部１３の印象属性単語組テーブルの例を示す。この印象属性単語組テーブルを用いて、先の実施例と同様に入力分析対象テキストに対する属性に関するスコアを算出し、もって、印象属性を分析することができる。なお、図１０の印象属性単語組テーブルを図５の感情属性単語組テーブルとともに用いて、印象属性を感情属性とともに分析しても良い。また、感情属性単語組テーブルおよび印象属性単語組テーブルを切り替えて使用して、感情属性および印象属性を切り替えて分析・出力して良い

以上で実施例の説明を終了する。

なお、この発明は上述の実施例に限定されることなく、その趣旨を逸脱しない範囲で種々変更が可能である。

１０入力部
１１単語組抽出部
１１Ａ形態素解析部
１１Ｂ構文解析部
１１Ｃ単語組選択部
１２スコア計算部
１３辞書記憶部
１４出力部
１００属性分析装置
２００コンピュータシステム
２０１記録媒体

Claims

分析対象テキストを入力する入力手段と、
上記入力手段から入力された上記分析対象テキストから、単語、および、係り受け関係にある複数の単語からなる単語組を、抽出する抽出手段と、
辞書エントリとして登録された、単独の単語および単語組のそれぞれについて予め定められた複数の属性カテゴリに関するスコアを記憶する辞書手段と、
上記抽出手段により抽出された上記単語および上記単語組を、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組と照合し、照合結果に基づいて、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組の上記予め定められた複数の属性カテゴリに関するスコアを所定の規則の下で取得して上記入力された分析対象テキストの上記予め定められた複数の属性カテゴリに関するスコアを計算するスコア計算手段とを有し、
上記所定の規則は、
上記スコア計算手段は、上記抽出手段により抽出され、かつ、同一の属性カテゴリに関して登録されている上記辞書エントリのいずれかに合致し、さらに、部分的に重複する上記単語または上記単語組がある場合、上記同一の属性カテゴリに関しては、当該部分的に重複する上記単語または上記単語組のうち、もっとも単語数の大きな単語組についてのみ、スコアを取得し、それ以外の上記単語または上記単語組についてはスコアを取得しない、
というものであることを特徴とする言語情報分析装置。
上記抽出手段から抽出される上記単語および上記単語組は、名詞、動詞、形容詞、または副詞の単語からなる請求項１記載の言語情報分析装置。
上記入力手段から入力された上記分析対象テキストが動詞および当該動詞に対して否定を意味する品詞を含む場合、当該動詞を否定形に置き換えて単語とする請求項１または２のいずれかに記載の言語情報分析装置。
上記入力手段から入力された上記分析対象テキストが一連の複数の名詞を含む場合、上記複数の名詞を連結して１つの単語とする請求項１〜３のいずれかに記載の言語情報分析装置。
上記属性カテゴリは、複数の感情属性カテゴリまたは複数の印象属性カテゴリである請求項１〜４のいずれかに記載の言語情報分析装置。
上記抽出手段は、形態素解析手段および構文解析手段を含む請求項１〜５のいずれかに記載の言語情報分析装置。
入力手段が分析対象テキストを入力するステップと、
抽出手段が、上記入力手段から入力された上記分析対象テキストから、単語、および、係り受け関係にある複数の単語からなる単語組を、抽出するステップと、
スコア計算手段が、辞書エントリとして登録された、単独の単語および単語組のそれぞれについて予め定められた複数の属性カテゴリに関するスコアを記憶する辞書手段を参照して、上記抽出手段により抽出された上記単語および上記単語組を、上記辞書エントリとして登録された上記単独の単語および上記単語組と照合し、照合結果に基づいて、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組の上記予め定められた複数の属性カテゴリに関するスコアを所定の規則の下で取得し、上記入力された分析対象テキストの上記予め定められた複数の属性カテゴリに関するスコアを計算するステップとを有し、
上記所定の規則は、
上記スコア計算手段は、上記抽出手段により抽出され、かつ、同一の属性カテゴリに関して登録されている上記辞書エントリのいずれかに合致し、さらに、部分的に重複する上記単語または上記単語組がある場合、上記同一の属性カテゴリに関しては、当該部分的に重複する上記単語または上記単語組のうち、もっとも単語数の大きな単語組についてのみ、スコアを取得し、それ以外の上記単語または上記単語組についてはスコアを取得しない、
というものであることを特徴とする言語情報分析方法。
コンピュータを、
入力手段から入力された分析対象テキストから、単語、および、係り受け関係にある複数の単語からなる単語組を、抽出する抽出手段、
辞書エントリとして登録された、単独の単語および単語組のそれぞれについて予め定められた複数の属性カテゴリに関するスコアを記憶する辞書手段、および、
上記抽出手段により抽出された上記単語および上記単語組を、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組と照合し、照合結果に基づいて、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組の上記予め定められた複数の属性カテゴリに関するスコアを所定の規則の下で取得して上記入力された分析対象テキストの上記予め定められた複数の属性カテゴリに関するスコアを計算するスコア計算手段して実行させるために使用されるコンピュータプログラムであって、
上記所定の規則は、
上記スコア計算手段は、上記抽出手段により抽出され、かつ、同一の属性カテゴリに関して登録されている上記辞書エントリのいずれかに合致し、さらに、部分的に重複する上記単語または上記単語組がある場合、上記同一の属性カテゴリに関しては、当該部分的に重複する上記単語または上記単語組のうち、もっとも単語数の大きな単語組についてのみ、スコアを取得し、それ以外の上記単語または上記単語組についてはスコアを取得しない、
というものであることを特徴とするコンピュータプログラム。