JP6649318B2 - 言語情報分析装置および方法 - Google Patents

言語情報分析装置および方法 Download PDF

Info

Publication number
JP6649318B2
JP6649318B2 JP2017106061A JP2017106061A JP6649318B2 JP 6649318 B2 JP6649318 B2 JP 6649318B2 JP 2017106061 A JP2017106061 A JP 2017106061A JP 2017106061 A JP2017106061 A JP 2017106061A JP 6649318 B2 JP6649318 B2 JP 6649318B2
Authority
JP
Japan
Prior art keywords
word
words
dictionary
score
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017106061A
Other languages
English (en)
Other versions
JP2018200650A (ja
Inventor
正明 五十崎
正明 五十崎
Original Assignee
株式会社ソケッツ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソケッツ filed Critical 株式会社ソケッツ
Priority to JP2017106061A priority Critical patent/JP6649318B2/ja
Publication of JP2018200650A publication Critical patent/JP2018200650A/ja
Application granted granted Critical
Publication of JP6649318B2 publication Critical patent/JP6649318B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、発話内容やテキスト等の言語情報から当事者の感情・印象等の主観的な属性・特徴を分析する技術に関する。
ユーザは、ネットワーク上の、公開のコミュニティまたはプライベートなコミュニティにおいて、または、特定または非特定の相手との間で、スマートフォン、タブレット、パソコン等のユーザインタフェースを介して、テキストベースで、または音声ベースで、情報のやり取りを行っている。この際、客観的なデータのみでなく、当事者の感情・印象等の主観的な内容を利用することが望まれる。例えば、お客様と音声ベースでやり取りを行う際に、お客様の感情や商品に対する印象を把握できれば大変便利である。また、ネットワーク上の所定の商品に関するユーザのメッセージを集めていわゆるデータマイニングして商品開発に役立てることも望まれる。
特許文献1(特公平06−082377号公報)は、単語単位の感情要素を分類して登録した単語辞書を用いて、入力文の感情要素を分析・表示する技術を開示している。特許文献2(特開2015−210700号公報)は、ネットワーク上の商品情報を集め、評価観点に基づいて商品に対する印象を分析することを開示している。特許文献3(特開平06−110920号公報)は、形態素列パターンに主観的属性を割り当てたテーブルを用いて主観的特徴を分析・抽出することを開示している。
単語単位、または形態素列パターンという単純な兆候でなく、より複雑な兆候を考慮して、感情や印象等の主観的属性を分析することが望まれる。
なお、本発明は、上述の課題により限定的に理解されるべきでなく、その内容は特許請求の範囲に規定され、以下に実施例を用いて詳細に説明される。
特公平06−082377号公報 特開2015−210700号公報 特開平06−110920号公報
この発明は上述の事情等を考慮してなされたものであり、複雑な兆候を考慮して、感情や印象等の属性を分析する技術を提供すること、その他を、目的としている。
この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。
この発明によれば、上述の目的を達成するために、言語情報分析装置を:分析対象テキストを入力する入力手段と;上記入力手段から入力された上記分析対象テキストから、単語、および、係り受け関係にある複数の単語からなる単語組を、抽出する抽出手段と;辞書エントリとして登録された、単独の単語および単語組のそれぞれについて予め定められた1または複数の属性カテゴリに関するスコアを記憶する辞書手段と;上記抽出手段により抽出された上記単語および上記単語組を、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組と照合し、照合結果に基づいて、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組の上記予め定められた1または複数の属性カテゴリに関するスコアを選択的に取得して上記入力された分析対象テキストの上記予め定められた1または複数の属性カテゴリに関するスコアを計算するスコア計算手段とを含んで構成している。
この構成においては、単語のみでなく、係り受け関係にある複数の単語からなる単語組を考慮して分析対象テキストを分析しているので、微妙なニュアンスも正確に分析に反映させることができる。
言語情報分析装置は、典型的にはコンピュータシステム(スマートフォン等の携帯端末も含む)で実現される。ネットワークで接続された複数のコンピュータシステムが共同して言語情報分析装置を形成して良い。
分析対象の属性は、後述するように、典型的には、感情の属性や、印象の属性であるけれども、これに限定されず、任意の主観的な属性であって良い。
入力手段は、音声をテキスト化する機能を有してよい。入力手段は、スマートフォン等のユーザインタフェースであってよく、またネットワークを介して種々のソースから一群のテキストを取得するものであって良い。スコア計算手段から出力されるスコアは、種々の態様で出力することが可能である。例えば、コミュニケーション中の相手ユーザの感情・印象等を色彩や、顔のイラスト、音声等で表示して良く、また、ネットワーク上の多数のテキスト群(例えば所定の商品に関するテキスト)全体に対する種々の感情・印象の属性値データとして提示するものでもよい。
この構成において、上記スコア計算手段は、上記抽出手段により抽出され、かつ、上記辞書エントリのいずれかに合致し、さらに、相互に部分的に重複する上記単語または上記単語組がある場合、当該部分的に重複する上記単語または上記単語組のうち、もっとも単語数の大きな単語組についてのみ、スコアを取得し、それ以外の上記単語または上記単語組についてはスコアを取得しなくて良い。例えば、「将来への希望が見えない」というテキストが入力され、「将来|希望|見えない」(単語組)、「将来|見えない」(単語組)、「将来」(単語、一般化して、「単語組」と呼ぶこともある)、「希望」(単語)、「見えない」(単語)が単語または単語組として抽出され、これら単語、単語組が辞書手段に「不安・怖れ」、「希望」等の感情属性カテゴリに関して辞書エントリとして登録されているときには、その中で単語の数が一番大きな「将来|希望|見えない」を照合単語組として選択し、それに割り当てられた属性のスコアに基づいてスコア計算を行って良い。代替的には、上位N番目に単語数の大きな単語組を選択して良く、Nを可変できるようにしても良い。
また、この構成において、上記スコア計算手段は、上記抽出手段により抽出され、かつ、同一の属性カテゴリに関して登録されている上記辞書エントリのいずれかに合致し、さらに、部分的に重複する上記単語または上記単語組がある場合、上記同一の属性カテゴリに関しては、当該部分的に重複する上記単語または上記単語組のうち、もっとも単語数の大きな単語組についてのみ、スコアを取得し、それ以外の上記単語または上記単語組についてはスコアを取得しなくて良い。上述の例で、「将来への希望が見えない」というテキストが入力され、「将来|希望|見えない」、「将来|見えない」、「将来」、「希望」、「見えない」が単語または単語組として抽出され、このうちの「将来|希望|見えない」、「将来|見えない」が辞書手段に「不安・怖れ」の感情属性カテゴリに関して辞書エントリとして登録され、「将来」、「希望」が「希望」の感情属性カテゴリに関して辞書エントリとして登録されているときには、「不安・怖れ」の感情属性カテゴリに関しては、その中で単語の数が一番大きな「将来|希望|見えない」を照合単語組とし、それに割り当てられた属性のスコアに基づいてスコア計算を行って良い。「希望」の感情属性カテゴリについては、「不安・怖れ」の感情属性カテゴリと独立して、「将来」、「希望」からスコア計算を行って良い。代替的には、上位N番目に単語数の大きな単語組を選択して良く、Nを可変できるようにしても良い。
また、この構成において、上記抽出手段から抽出される上記単語および上記単語組は、名詞、動詞、形容詞、または副詞からなって良いけれども、これに限定されない。名詞、動詞、形容詞、副詞を含む特定の品詞を使用しても良い。名詞、動詞、形容詞に加えて、特定の副詞、接頭詞、感嘆詞を使用するものでも良い。他の任意の態様の品詞の組み合わせを用いて良い。
また、上記入力手段から入力された上記分析対象テキストが動詞および当該動詞に対して否定を意味する品詞を含む場合、当該動詞を否定形に置き換えて単語として良い。
また、上記入力手段から入力された上記分析対象テキストが一連の複数の名詞を含む場合、上記複数の名詞を連結して1つの単語として良い。
また、この構成において、上記属性は、1または複数の感情属性カテゴリまたは1または複数の印象属性カテゴリ(対象に対する印象)であって良く、感情属性カテゴリおよび印象属性カテゴリの組み合わせであって良い。感情属性カテゴリは、覚醒の程度、感情のバランスを2次元の軸で把握するラッセル円環モデルで規定されるものであって良い。また、感情属性カテゴリは、例えば、「昂ぶり・興味・驚き」、「希望」、「幸福・愛情」、「好き・嬉しい・楽しい」、「安らぎ・信頼」、「退屈・うんざり」、「悲しみ・哀しみ」、「嫌い・不愉快」、「苛立ち・怒り」、「不安・怖れ」であって良いけれども、これに限定されない。印象属性カテゴリは、例えば、「直接的好印象」、「認知的好印象」、「情緒的好印象」、「興味・期待」、「直接的悪印象」、「認知的悪印象」、「情緒的悪印象」、「無関心・失望」であって良いけれどもこれに限定されない。
この構成において、上記抽出手段は、形態素解析手段および構文解析手段を含んで良い。
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品(コンピュータプログラム)もこの発明の技術的な範囲に含まれることも当然である。
この発明の上述の側面および他の側面は特許請求の範囲に記載され、以下、実施例等を用いて詳述される。
この発明によれば、複雑な兆候を考慮して、感情や印象等の属性を分析することができる。
この発明の実施例の属性分析装置を全体的に示す機能ブロック図である。 上述実施例の処理を説明するフローチャートである。 上述実施例の感情属性カテゴリの例を説明する図である。 ラッセル円環モデルを説明する図である。 感情属性単語組テーブル例を説明する図である。 長い単語組の選択を説明する図である。 変形例を説明するフローチャートである。 変形例で用いる辞書エントリのID順に頻度を並べた特徴ベクトルの例を示す図である。 印象属性カテゴリの例を説明する図である。 印象属性単語組テーブルを説明する図である。 サンプル文章1を用いた具体的な処理例を説明する図である。 サンプル文章1を用いた具体的な処理例を説明する図である。 サンプル文章1を用いた具体的な処理例を説明する図である。 サンプル文章1を用いた具体的な処理例を説明する図である。 サンプル文章1を用いた具体的な処理例を説明する図である。 サンプル文章1を用いた具体的な処理例を説明する図である。 サンプル文章1を用いた具体的な処理例を説明する図である。 サンプル文章1を用いた具体的な処理例を説明する図である。 サンプル文章2を用いた具体的な処理例を説明する図である。 サンプル文章2を用いた具体的な処理例を説明する図である。 サンプル文章2を用いた具体的な処理例を説明する図である。 サンプル文章2を用いた具体的な処理例を説明する図である。 サンプル文章2を用いた具体的な処理例を説明する図である。 サンプル文章2を用いた具体的な処理例を説明する図である。 サンプル文章2を用いた具体的な処理例を説明する図である。
以下、この発明の実施例の属性分析装置について説明する。
図1は、この発明の実施例の属性分析装置100の構成を示しており、この図において、属性分析装置100は、入力部10、単語組抽出部11、スコア計算部12、辞書記憶部13、および出力部14を含んで構成されている。属性分析装置100は典型的にはコンピュータシステム200によって構成される。属性分析装置100は、例えば、記録媒体201に記録されたコンピュータプログラムや通信ネットワーク(図示しない)を介して送信されてくるコンピュータプログラムをコンピュータシステム200にインストールすることにより実現される。コンピュータシステム200は、CPU、主メモリ、バス、外部メモリ、種々の入出力インタフェース等を有してなり、パーソナルコンピュータ、スマートフォン、情報家電機器等であって良い。
図1の属性分析装置100は、感情属性を分析するものであるけれども、これに限定されない。この実施例では、例えば、図3に示すような、「昂ぶり・興味・驚き」、「希望」、「幸福・愛情」、「好き・嬉しい・楽しい」、「安らぎ・信頼」、「退屈・うんざり」、「悲しみ・哀しみ」、「嫌い・不愉快」、「苛立ち・怒り」、「不安・怖れ」の10個の感情属性カテゴリについてスコアを求めて感情属性の分析を行う。図3の10個の感情属性カテゴリは、図4に示すラッセル(Russell)円環モデルに準拠したものであり、ラッセル円環モデルと同様に感情を平面上に適切に表現することができる。ラッセル円環モデルは、「快−不快」、「覚醒−眠気」の2次元で感情を表現するものである。
図1において、入力部10は、分析対象テキストを入力する。分析対象テキストは1センテンスのテキストまたは複数センテンスからなる1まとまりのテキストであって良い。テキストは、テキストとして直接入力されても良いし、音声ベースの入力をテキストに変換したものでも良い。テキストはネットワークを通じて入力部10に供給されて良い。入力部10は分析対象テキストを1センテンスごとに単語組抽出部11に供給する。なお、1センテンスごとでなく、適宜な単位で、テキストを処理しても良い。
単語組抽出部11は、テキストが例えば1センテンス入力されるたびに、そのテキスト中に含まれる単語組を抽出するものである。ここで、単語組は、係り受け関係にある複数の単語(形態素ともいう)からなる単語組を厳密には指すけれども、以下では、単一の単語についても1まとめに便宜上単語組と呼ぶことがある。単語組抽出部11は、形態素解析部11A、構文解析部11B、単語組選択部11Cを含む。形態素解析部11Aおよび構文解析部11Bは単語の係り受け関係情報および品詞情報を生成する(図2参照)。単語組選択部11Cは、単語の係り受け関係情報および品詞情報に基づいてテキスト中の単語、および、係り受け関係にある単語からなる単語組から所望のものを選択する。この例では、単語および単語組に含まれる単語を、名詞、動詞、形容詞、または副詞に限定して良い。また、動詞の単語が当該動詞に対して否定を意味する品詞を含む場合、当該動詞を否定形に置き換えたものを1つの単語として扱って良い。例えば、「将来への希望が見えない」というテキストが入力された場合、「将来|希望|見えない」、「将来|見えない」、「将来」、「希望」、「見えない」が単語組として形成される。
スコア計算部12は、単語組抽出部11から出力された単語組について、順次に、かつ、適宜に、辞書記憶部13の感情属性単語組テーブルを表引きして、該当する辞書エントリ(登録単語組)がある場合には、対応する属性カテゴリおよびスコアを取り出し、属性カテゴリごとに累積し、すべての属性カテゴリについてスコアの累積が完了したのち、累積スコアをすべての属性カテゴリにわたって、和が「1」になるように正規化する。その他の手法で正規化を行っても良い。スコア計算部12は正規化したすべての属性カテゴリのスコアを出力部14に供給する。複数のセンテンスについてスコアを取得する場合には、各センテンスのスコアを累積したのちに正規化を行って良い。単語組抽出部11から出力される単語組が辞書記憶部13の感情属性単語組テーブルにない場合にはスコアは出力されない。
単語組抽出部11から出力され、部分的に重複する複数の単語組(単語を含む)が辞書記憶部13の感情属性単語組テーブルの辞書エントリとして登録されている場合がある。例えば、入力部10が「将来への希望が見えない」というテキストを入力し、単語組抽出部11が「将来|希望|見えない」、「将来|見えない」、「将来」、「希望」、「見えない」を単語組として出力し、これら単語組が辞書記憶部13の感情属性単語組テーブルの辞書エントリとして登録されている場合である。この実施例では、部分的に重複する複数の単語組が辞書記憶部13の感情属性単語組テーブルの辞書エントリとして登録されている場合には、スコア計算部12は最も単語数が大きな単語組(例えば先の例では「将来|希望|見えない」)についてのみ、属性カテゴリおよびスコアを取り出し、その他の単語組(先の例では「将来|見えない」、「将来」、「希望」、「見えない」)については属性カテゴリおよびスコアを取り出さない。この例では、「将来への希望が見えない」という入力テキストに対して、「不安・怖れ」の感情属性カテゴリ、および「1.0」のスコアが取り出される。これを図6に示す。
なお、形態素解析部11Aおよび構文解析部11Bによって取得される単語の係り受け関係情報および品詞情報から生成される単語および単語組は単語数が大きい順に辞書記憶部13の辞書エントリと照合することが好ましい。このようにして、単語数の大きな単語組が辞書エントリとして登録されている場合には、その部分要素をなす単語組(単語を含む)については表引きをスキップして処理を省略できる。
なお、この例では、単語組抽出部11から出力される、部分的に重複する単語組が、いずれかの属性カテゴリに関して辞書エントリとして登録されている場合に最大単語数の単語組をスコア計算対象の単語組としているけれども、部分的に重複する単語組が同一の属性カテゴリに関して辞書エントリとして登録されている場合のみ最大単語数の単語組を当該同一の属性カテゴリに関してスコア計算対象の単語組とするように構成しても良い。この場合、先の例では、「不安・怖れ」の感情属性カテゴリについて「将来|希望|見えない」がスコア計算対象の単語組として選択され、「希望」の感情属性カテゴリの属する「将来」、「希望」という単語組も選択されないようになっているけれども、当該代替的な例では、「不安・怖れ」の感情属性カテゴリに属する「将来|希望|見えない」が選択されるとともに、これと独立して「将来」、「希望」が、「希望」の感情属性カテゴリに関してスコア対象の単語組として選択される。この代替的な例では単語組の選択は感情属性カテゴリごとに行う。さらに、代替的には、上位N番目に単語数の大きな単語組を選択して良く、Nを可変できるようにしても良い。
また、単語組抽出部11から出力される、部分的に重複する単語組が、所定のグループに含まれる属性カテゴリのいずれかに関して辞書エントリとして登録されている場合に最大単語数の単語組を限定的にスコア計算対象の単語組としてもよい。所定のグループ内の属性カテゴリ以外の属性カテゴリにおいては単語の選択は属性カテゴリごとに独立して行う。
出力部14は正規化したスコアを受け取って、スコアに応じた出力を行って良い。出力は、音、色、グラフィック、マーク、アニメーション等で表示してよい。また、属性カテゴリのスコアのうち、上位N番目までの属性カテゴリ、例えば上位1位および2位の属性カテゴリを代表する属性カテゴリとして表示して良い。
図5は、辞書記憶部13に記憶されている属性単語組テーブルの一例として感情属性単語組テーブルの例を示す。この例では、「幸福・愛情」、「悲しみ・哀しみ」、「嫌い・不愉快」、、「昂ぶり・興味・驚き」、「退屈・うんざり」、「苛立ち・怒り」、「希望」、「安らぎ・信頼」、「好き・嬉しい・楽しい」のそれぞれについて辞書エントリとなる単語組を登録し、これについてスコアを記録するようにしている。例えば、図5の例では、これに限定されないけれども、「幸福・愛情」の感情属性カテゴリについて「永遠|愛」、「何|愛す」、「胸|ときめく」の単語組が登録され、それぞれについて「0.9526」、「0.9526」、「0.8429」が記憶されている。これらスコアは、感情属性カテゴリに対する感情表現の共起確率をベースに準備されたものである。
辞書記憶部13に記憶されている属性単語組テーブルの登録単語組(キーワードともいう。単独の単語および単語の組み合わせを含む)は、例えば、属性カテゴリごとに用意したコーパスをベースにしてトピックモデルを利用したキーワード(代表語)抽出や、TF−IDFを用いたキーワード抽出により属性カテゴリごとの登録単語組を選択して良いけれども、これに限定されない。キーワードを抽出する際には、係り受け関係にある複数の単語(形態素)からなる単語組も1つの単語単位として扱って良い。また、扱う単語として、名詞、動詞、形容詞、または副詞に限定して良い。また、動詞の単語が当該動詞に対して否定を意味する品詞を含む場合、当該動詞を否定形に置き換えたものを1つの単語として扱って良い。
属性単語組テーブルは種々のフォーマットで準備することが可能である。図5の感情属性単語組テーブルの例では、感情属性カテゴリごとに登録単語組(キーワードともいう)を付与し、この登録単語組ごとにスコアを記憶する。また、キーワードは同一の感情属性カテゴリごとに単語組をなす単語の数に応じてソートされて良い。もちろん、その他のフォーマットも利用可能であり、例えば、単語組ごとに各属性カテゴリのそれぞれのスコアを要素として含むベクトルを記憶し、単語組を表引きして当該ベクトルを取り出し、各属性カテゴリのスコアを同時に取得できるようにして良い。なお、スコアがゼロの場合、ベクトルの当該要素の値はゼロである。
図2は、図1の属性分析装置100の動作を説明するフローチャートである。図2において、入力部10がテキスト入力を行い(ステップS01)、つぎに単語組抽出部11が、形態素解析(ステップS02)、構文解析(ステップS03)を行い、さらに、形態素解析および構文解析で取得した係り受け構成情報、および品詞情報から、実現可能な単語組を抽出する(S04)。
スコア計算部12は、単語組抽出部11から供給される単語組について辞書記憶部13の単語組テーブルを参照して属性カテゴリごとにスコアを取り出し(ステップS05)、当該スコアを属性カテゴリごとに累積し、最終的な累積値をすべての属性カテゴリに関して正規化して分析対象テキストに対する属性カテゴリごとのスコアを計算する(S06)。正規化された属性カテゴリごとのスコアは出力部14によって出力される(S07)。
図2は、処理フローの例にあわせて、具体的な処理内容の例を一例として示しており、この図において、「将来への希望が見えない」というテキストが入力され、これに基づいて、図示のとおりの係り受け構成情報、および、品詞情報が出力され、これに基づいて実現可能な単語組として「将来|希望|見えない」、「将来|見えない」、「将来」、「希望」、「見えない」が出力される。「不安・怖れ」の感情属性カテゴリに着目すると、「将来|希望|見えない」(スコア=1.0)、「将来|見えない」(スコア=0.9386)が辞書エントリとして登録され(図5)、このうち単語数の大きな、「将来|希望|見えない」のみが抽出される。この結果、「不安・怖れ」の感情属性カテゴリのスコアとして「1.0」が累積される。なお、「将来」、「希望」については、「希望」の属性カテゴリに辞書エントリとして登録されているけれども、「将来」、「希望」は、最も単語数が大きな単語組である「将来|希望|見えない」に部分的に重複しているので、これらのスコアを無視される。この結果、「不安・怖れ」の感情属性カテゴリについて「1.0」のスコアが累積され、他の感情属性カテゴリのスコアはすべて「0」になる。ベクトルとしては[0,0,0,0,0,1,0,0,0,0]で示される。
なお、上述のとおり、この例では、単語組抽出部11から出力される、部分的に重複する単語組が、いずれかの属性カテゴリに関して辞書エントリとして登録されている場合に最大単語数の単語組をスコア計算対象の単語組としているけれども、部分的に重複する単語組が同一の属性カテゴリに関して辞書エントリとして登録されている場合のみ最大単語数の単語組を当該同一の属性カテゴリに関してスコア計算対象の単語組とする代替例を採用して良い。この代替例では、「不安・怖れ」の感情属性カテゴリについて「1.0」のスコアが累積され、「希望」の感情属性カテゴリについて「将来」(0.45)、「希望」(0.45)が累積されて「「0.9」のスコアが得られ、ベクトルとしては[0,0,0,0,0.47,0.53,0,0,0,0](正規化後)で示される。
つぎに具体的な動作例について説明する。
図11Aはサンプル文章1を示し、図11Bはサンプル文書1の構文解析情報および品詞情報を示し、図11Cは抽出された単語組を示す。
上述のとおり、単語組は、名詞、動詞、形容詞、副詞に限定して良いけれども、他の品詞の組み合わせを採用してよい。たとえば、名詞、動詞、形容詞、副詞を含む特定の品詞を使用しても良い。名詞、動詞、形容詞に加えて、特定の副詞、接頭詞、感嘆詞を使用するものでも良い。他の任意の態様の品詞の組み合わせを用いて良い。名詞が連続している場合には1つの名詞として連結させる。動詞に関しては、活用を原形にする。この際、対象となる動詞に対して否定を意味する品詞が含まれている場合には、動詞を否定形に置き換える。なお単語組として組み合わせる単語数には制限はない。組み合わせる単語数が多いと、その単語組の意味する内容が特定される確率は高くなるが、テキスト内に出現する確率は低くなる。
辞書エントリに付き合わされる単語組の属性カテゴリおよびスコアは図11Dに示すようになる。なお、「途方|暮れる」および「暮れる」(図11D)は部分的に重複するので、スコア計算上、単語数の大きい、「途方|暮れる」のみを参照する。各属性カテゴリのスコアおよび総合スコアの集計結果は図11Eに示すとおりであり、その正規化結果は図11Fのとおりである。入力テキストの感情属性スコアは図11Gのとおりである。また代表的な属性カテゴリとして「不安・怖れ」および「哀しみ」が選択され、ユーザに表示されて良い(図11H)。
図12Aはサンプル文章2を示し、図12Bはサンプル文書2の構文解析情報および品詞情報を示し、図12Cは抽出された単語組を示す。抽出された単語組のうち、「日々|繰り返し」に部分的に重複する「日々」、「繰り返し」は無視される。また「将来|希望|見えない」に部分的に重複する「将来|見えない」、「将来」、「希望」、「見えない」も無視される。各属性カテゴリのスコアおよび総合スコアの集計結果は図12Dに示すとおりであり、その正規化結果は図12Eのとおりである。入力テキストの感情属性スコアは図12Fのとおりである。また代表的な属性カテゴリとして「不安・怖れ」および「退屈・うんざい」が選択され、ユーザに表示されて良い(図12G)。
つぎに変形例について説明する。図7は変形例の処理例を説明する。この変形例では、当初、辞書記憶部13の辞書エントリに登録単語組、属性カテゴリが割り当てられているけれども、スコアは割り当てられておらず、学習によりスコアを決定するようになっている。
図7の変形例では、図2の処理例と同様に、分析対象テキスト(学習用テキスト群)を入力し、形態素解析、構文解析を行い、単語組に抽出を行い、単語組リストが生成される(ステップS01、S02、S03、S04)。つぎに単語組リストを辞書記憶部13の感情属性単語組テーブルに突き合わせて、テキスト群中に、属性カテゴリごとの単語組が何個あるかをカウントして特徴ベクトルを形成する(ステップS08、S09)。ここで、特徴ベクトルは、辞書エントリ(登録されている単語組)に任意に付与されたID順に単語組の検出回数を並べたものである。これを図8に示す。つぎに機械学習を行う(S10)。すなわち、複数のテキストに対して、特徴ベクトルと、教師データ(正解となるカテゴリのリスト)を使用して多クラス分類基による機械学習を行う。分類器の例としては、SVM,ランダムフォレスト、ディープラーニングを用いて良いけれども、これに限定されない。学習済みモデルに対して図2と同様にして分析対象データの属性分析を行う(S11)。この例では、特徴ベクトルを入力して、これを辞書記憶部13の辞書エントリのID順に突き合わせて属性カテゴリのスコアを累積して分析結果とすることができる。
つぎに他の変形例について説明する。この変形例では、感情属性でなく印象属性を分析するものである。図9はこの変形例で用いる印象属性カテゴリを示す。図9の例では、直接的好印象−直接的悪印象、および、興味・期待−無関心・失望の2軸で対象に対する印象を表す。図10は、この変形例の辞書記憶部13の印象属性単語組テーブルの例を示す。この印象属性単語組テーブルを用いて、先の実施例と同様に入力分析対象テキストに対する属性に関するスコアを算出し、もって、印象属性を分析することができる。なお、図10の印象属性単語組テーブルを図5の感情属性単語組テーブルとともに用いて、印象属性を感情属性とともに分析しても良い。また、感情属性単語組テーブルおよび印象属性単語組テーブルを切り替えて使用して、感情属性および印象属性を切り替えて分析・出力して良い
以上で実施例の説明を終了する。
なお、この発明は上述の実施例に限定されることなく、その趣旨を逸脱しない範囲で種々変更が可能である。
10 入力部
11 単語組抽出部
11A 形態素解析部
11B 構文解析部
11C 単語組選択部
12 スコア計算部
13 辞書記憶部
14 出力部
100 属性分析装置
200 コンピュータシステム
201 記録媒体

Claims (8)

  1. 分析対象テキストを入力する入力手段と、
    上記入力手段から入力された上記分析対象テキストから、単語、および、係り受け関係にある複数の単語からなる単語組を、抽出する抽出手段と、
    辞書エントリとして登録された、単独の単語および単語組のそれぞれについて予め定められた複数の属性カテゴリに関するスコアを記憶する辞書手段と、
    上記抽出手段により抽出された上記単語および上記単語組を、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組と照合し、照合結果に基づいて、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組の上記予め定められた複数の属性カテゴリに関するスコアを所定の規則の下で取得して上記入力された分析対象テキストの上記予め定められた複数の属性カテゴリに関するスコアを計算するスコア計算手段とを有し、
    上記所定の規則は、
    上記スコア計算手段は、上記抽出手段により抽出され、かつ、同一の属性カテゴリに関して登録されている上記辞書エントリのいずれかに合致し、さらに、部分的に重複する上記単語または上記単語組がある場合、上記同一の属性カテゴリに関しては、当該部分的に重複する上記単語または上記単語組のうち、もっとも単語数の大きな単語組についてのみ、スコアを取得し、それ以外の上記単語または上記単語組についてはスコアを取得しない、
    というものであることを特徴とする言語情報分析装置。
  2. 上記抽出手段から抽出される上記単語および上記単語組は、名詞、動詞、形容詞、または副詞の単語からなる請求項記載の言語情報分析装置。
  3. 上記入力手段から入力された上記分析対象テキストが動詞および当該動詞に対して否定を意味する品詞を含む場合、当該動詞を否定形に置き換えて単語とする請求項1または2のいずれかに記載の言語情報分析装置。
  4. 上記入力手段から入力された上記分析対象テキストが一連の複数の名詞を含む場合、上記複数の名詞を連結して1つの単語とする請求項1〜のいずれかに記載の言語情報分析装置。
  5. 上記属性カテゴリは、複数の感情属性カテゴリまたは複数の印象属性カテゴリである請求項1〜のいずれかに記載の言語情報分析装置。
  6. 上記抽出手段は、形態素解析手段および構文解析手段を含む請求項1〜のいずれかに記載の言語情報分析装置。
  7. 入力手段が分析対象テキストを入力するステップと、
    抽出手段が、上記入力手段から入力された上記分析対象テキストから、単語、および、係り受け関係にある複数の単語からなる単語組を、抽出するステップと、
    スコア計算手段が、辞書エントリとして登録された、単独の単語および単語組のそれぞれについて予め定められた複数の属性カテゴリに関するスコアを記憶する辞書手段を参照して、上記抽出手段により抽出された上記単語および上記単語組を、上記辞書エントリとして登録された上記単独の単語および上記単語組と照合し、照合結果に基づいて、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組の上記予め定められた複数の属性カテゴリに関するスコアを所定の規則の下で取得し、上記入力された分析対象テキストの上記予め定められた複数の属性カテゴリに関するスコアを計算するステップとを有し、
    上記所定の規則は、
    上記スコア計算手段は、上記抽出手段により抽出され、かつ、同一の属性カテゴリに関して登録されている上記辞書エントリのいずれかに合致し、さらに、部分的に重複する上記単語または上記単語組がある場合、上記同一の属性カテゴリに関しては、当該部分的に重複する上記単語または上記単語組のうち、もっとも単語数の大きな単語組についてのみ、スコアを取得し、それ以外の上記単語または上記単語組についてはスコアを取得しない、
    というものであることを特徴とする言語情報分析方法。
  8. コンピュータを、
    力手段から入力された分析対象テキストから、単語、および、係り受け関係にある複数の単語からなる単語組を、抽出する抽出手段、
    辞書エントリとして登録された、単独の単語および単語組のそれぞれについて予め定められた複数の属性カテゴリに関するスコアを記憶する辞書手段、および、
    上記抽出手段により抽出された上記単語および上記単語組を、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組と照合し、照合結果に基づいて、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組の上記予め定められた複数の属性カテゴリに関するスコアを所定の規則の下で取得して上記入力された分析対象テキストの上記予め定められた複数の属性カテゴリに関するスコアを計算するスコア計算手段して実行させるために使用されるコンピュータプログラムであって、
    上記所定の規則は、
    上記スコア計算手段は、上記抽出手段により抽出され、かつ、同一の属性カテゴリに関して登録されている上記辞書エントリのいずれかに合致し、さらに、部分的に重複する上記単語または上記単語組がある場合、上記同一の属性カテゴリに関しては、当該部分的に重複する上記単語または上記単語組のうち、もっとも単語数の大きな単語組についてのみ、スコアを取得し、それ以外の上記単語または上記単語組についてはスコアを取得しない、
    というものであることを特徴とするコンピュータプログラム
JP2017106061A 2017-05-30 2017-05-30 言語情報分析装置および方法 Active JP6649318B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017106061A JP6649318B2 (ja) 2017-05-30 2017-05-30 言語情報分析装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017106061A JP6649318B2 (ja) 2017-05-30 2017-05-30 言語情報分析装置および方法

Publications (2)

Publication Number Publication Date
JP2018200650A JP2018200650A (ja) 2018-12-20
JP6649318B2 true JP6649318B2 (ja) 2020-02-19

Family

ID=64668229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017106061A Active JP6649318B2 (ja) 2017-05-30 2017-05-30 言語情報分析装置および方法

Country Status (1)

Country Link
JP (1) JP6649318B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102195246B1 (ko) * 2019-03-15 2020-12-24 숭실대학교산학협력단 음성 신호를 이용한 감정 분류 방법, 이를 수행하기 위한 기록 매체 및 장치
JP7229887B2 (ja) * 2019-09-11 2023-02-28 株式会社日立製作所 文書情報抽出装置、および文書情報抽出方法
KR102443629B1 (ko) * 2020-06-04 2022-09-15 주식회사 웨이커 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 시스템
KR102466428B1 (ko) * 2020-06-04 2022-11-11 주식회사 웨이커 뉴스 긍정도 분석을 위한 인공신경망 학습 모델 및 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005122296A (ja) * 2003-10-14 2005-05-12 Net Agent Kk 文書カテゴリ判定方法及び文書カテゴリ抽出システム
JP6206840B2 (ja) * 2013-06-19 2017-10-04 国立研究開発法人情報通信研究機構 テキストマッチング装置、テキスト分類装置及びそれらのためのコンピュータプログラム
JP2015125570A (ja) * 2013-12-26 2015-07-06 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、及びプログラム

Also Published As

Publication number Publication date
JP2018200650A (ja) 2018-12-20

Similar Documents

Publication Publication Date Title
US10319370B2 (en) System and method for data-driven socially customized models for language generation
US10936664B2 (en) Dialogue system and computer program therefor
WO2019153522A1 (zh) 智能交互方法、电子装置及存储介质
JP6649318B2 (ja) 言語情報分析装置および方法
WO2016051551A1 (ja) 文章生成システム
Griol et al. Combining speech-based and linguistic classifiers to recognize emotion in user spoken utterances
WO2012000043A1 (en) System and method of providing a computer-generated response
Krishnan et al. Emotion detection of tweets using naïve bayes classifier
Reganti et al. Modeling satire in English text for automatic detection
JP6994289B2 (ja) キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法
Alnajjar et al. Talent, Skill and Support. A Method for Automatic Creation of Slogans
KR101677859B1 (ko) 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치
Krommyda et al. Emotion detection in Twitter posts: a rule-based algorithm for annotated data acquisition
JP5872183B2 (ja) 情報処理システム、嗜好可視化システム及び検閲システム並びに嗜好可視化方法
JP2014219872A (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
Dey et al. Emotion extraction from real time chat messenger
Lee et al. Speech2Mindmap: testing the accuracy of unsupervised automatic mindmapping technology with speech recognition
Jain et al. TexEmo: Conveying emotion from text-the study
JP5718406B2 (ja) 発話文生成装置、対話装置、発話文生成方法、対話方法、発話文生成プログラム、及び対話プログラム
JP6821542B2 (ja) 複数種の対話を続けて実施可能な対話制御装置、プログラム及び方法
JP5882241B2 (ja) 質問応答用検索キーワード生成方法、装置、及びプログラム
JP6858721B2 (ja) コンテンツに関する対話を実施可能な対話制御装置、プログラム及び方法
Zhou et al. Using paralinguistic information to disambiguate user intentions for distinguishing phrase structure and sarcasm in spoken dialog systems
Tayal et al. DARNN: Discourse Analysis for Natural languages using RNN and LSTM.
Ahmad et al. Sentiment Analysis Evaluating Net Brand Reputation of Mobile Phones Using Polarity

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200116

R150 Certificate of patent or registration of utility model

Ref document number: 6649318

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250