JP4073459B2 - 文解析装置 - Google Patents

文解析装置 Download PDF

Info

Publication number
JP4073459B2
JP4073459B2 JP2006113674A JP2006113674A JP4073459B2 JP 4073459 B2 JP4073459 B2 JP 4073459B2 JP 2006113674 A JP2006113674 A JP 2006113674A JP 2006113674 A JP2006113674 A JP 2006113674A JP 4073459 B2 JP4073459 B2 JP 4073459B2
Authority
JP
Japan
Prior art keywords
sentence
particle
facial expression
subjective
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006113674A
Other languages
English (en)
Other versions
JP2007286901A (ja
Inventor
光芳 塚原
Original Assignee
光芳 塚原
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 光芳 塚原 filed Critical 光芳 塚原
Priority to JP2006113674A priority Critical patent/JP4073459B2/ja
Publication of JP2007286901A publication Critical patent/JP2007286901A/ja
Application granted granted Critical
Publication of JP4073459B2 publication Critical patent/JP4073459B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、自由記述形式のアンケートやコールセンターによせられる顧客のクレームや意見等、インターネット等を通じて日本語テキストデータとして寄せられる大量の文章群を所定のアルゴリズムによって解析し分類するための文解析装置に関する。
自由記述形式のアンケートやコールセンターによせられる顧客のクレームや意見等、インターネット等を通じて日本語テキストデータとして寄せられる大量の文章群をこのような文書データの内容を人手によって分析するのは非常に手間がかかるため、文書データをコンピュータによって自動的に分析し、全体傾向を知りたいというニーズが大きい。
商品の売上金額のような、数値データの分析に関しては、データマイニングと呼ばれる技術によってすでに活用が進んでいる。しかし、日本語テキストデータは明確な構造をもたず分析が困難なため、日本語テキストデータの活用技術は最近まで情報検索による文書の絞り込みのレベルにとどまっていた。
そこで、日本語テキストデータのより高度な活用を実現するために、いわゆる「テキストマイニング」と呼ばれる技術の開発が進んでいる。インターネットや企業などに蓄積されている大量のテキストデータを活用する手段としてここ数年注目されている(例えば特許文献1参照)。
テキストマイニングは、テキスト処理技術やデータ解析技術を利用してテキストデータを分析し、新しい有益な情報を見つけ出すための技術である。
テキストマイニングには様々な手法が提案されているが、手続きの大きな流れとして、(1)情報の抽出、(2)情報の分析、(3)分析結果の視覚化、の3つの段階に分かれている。
(1)情報の抽出では、テキストデータを形態素解析や構文解析などのテキスト処理技術を用いて解析し、単語や語句などの要素(情報)を抽出する。形態素解析とは、「意味のある最小の単位である『形態素』に分割し、どの品詞に対応するかを求める処理」のことである。その中でも特に、意味のある最小の単位に分割する工程は「分かち書き」と呼ばれている。例えば、「象は、鼻が長いよね。」という文を分かち書きすると、「象は、 鼻が 長い よ
ね。」となる。この分かち書き処理により形態素という単位に分解したあと、キーワードの取捨選択、言わばリストラクチャリングを行なう。例えば、「は」や「が」といった助詞を削除し、「象」や「鼻」といったキーワードを抽出する。
(2)情報の分析では、データ解析技術を用いてテキストデータ全体の傾向や特徴、あるいは(1)で抽出されたキーワード間の相関関係などを分析する。例えば、頻出するキーワードを求めることによってテキストデータの内容の傾向を推定したり、キーワード間の共起性や関連性を分析することによって、今まで気づかなかった関係を発見したりできるようになる。
(3)分析結果の視覚化では、様々な可視化技術を利用し、ネットワーク図や散布図など、人間にとって理解しやすい形で分析結果を提示する。
特開2006−31143 特開2005−84808
しかしながら、これまでのテキストマイニングの手法は、データマイニングの手法を踏襲しただけのものが多かった。ここでは、文章の中に含まれる言葉をキーワードとして一義的、具体的なデータとして捉え、データマイニングと同じような手法でしか分析を行っておらず、その言葉の背後にある顧客の主観的意図等がほとんど分析されていなかった。
これを図1を参照して具体的に説明する。
日本語の特質はものごとを指し示すよりも、ものごとの漂わす情緒や、ものごとのまわりに漂う雰囲気を取り出して見せるのに秀でていると言われているが、図1の(A)及び(B)は文章から受ける雰囲気や情緒が全く異なるにもかかわらず、従来のテキストマイニングの手法によって「名詞、動詞、形容詞」(図中四角で囲われた単語)を抽出すると、両者は全く同じものになってしまう。
すなわち、助詞、助動詞、接続詞、終助詞などの違いによって文章の雰囲気や情緒は異なってくるので、従来の「名詞、動詞、形容詞」だけを抽出して分析する手法ではこの違いを示すことはできなかった。
また、その文章が肯定的(ポジティブ)なものか、否定的(ネガティブ)なものかを、人が文章を読まずに判断することができれば、ランクを分けて分類することが可能となる。
このように、ある文章が、事柄を「どのように」(判断を述べているのか、もしくは状態を述べているのか、又は、主観的か客観的か)述べようとしているのかをタイプ別に分類することによって、その文章が伝えようとしていることの全体傾向を判断することができるので、このような分類が可能な文解析装置が求められている。
本発明は、かかる要請に鑑み為されたものであり、文章の全体傾向の分類が可能な文解析装置を提供することを目的とする。
本発明は、文章の全体傾向の分類が可能な文解析装置に関し、本発明の上記目的は、
日本語テキストデータを文単位に分割し、文単位で切り出すための文切り出し手段と、該切り出された一つの文について形態素に分割し、該分割された各形態素の品詞を決定する形態素解析手段と、前記文の性格タイプを判定する性格タイプ判定手段とを備え、該性格タイプ判定手段は、前記文の中に少なくとも係り助詞又は格助詞「が」のいずれかが含まれており、かつ主観因子が含まれている場合に前記文の性格タイプを「主観的判断文」であると判定し、前記文の中に少なくとも係り助詞又は格助詞「が」のいずれかが含まれており、かつ主観因子が含まれていない場合に前記文の性格タイプを「客観的判断文」であると判定するとともに、
前記文の中に係り助詞及び格助詞「が」のいずれも含まれておらず、かつ主観因子が含まれている場合に前記文の性格タイプを「主観的状態文」であると判定し、前記文の中に係り助詞及び格助詞「が」のいずれも含まれておらず、かつ主観因子も含まれていない場合に前記文の性格タイプを「客観的状態文」であると判定することを特徴とする文解析装置によって達成される。
また、本発明の上記目的は、さらに表情評価手段を備え、該表情評価手段は、前記文の文末から起算して4つの語に対して所定の表情評点を割り当てるとともに、該割り当てられた評点のうち最大の評点を前記文の表情評価として決定することを特徴とする前記文解析装置によって達成される。
さらに、本発明の上記目的は、前記文切り出し手段によって切り出された文を文型パターンとして抽出するための文型パターン抽出手段と、該文型パターン抽出手段によって抽出された文型パターンに基づいて組み合わせパターンごとに分類するためのテキスト分類手段とをさらに備え、前記文を、助詞「は」に導かれる第1パートと、助詞「が」に導かれる第2パートと、前記第1及び第2パート以外の文要素から成る第3パートとに分割してパターン化することを特徴とする前記文解析装置によって効果的に達成される。
本発明に係る文解析装置によれば、人間が文章を読まなくても、日本語テキストデータが「何」を「どのように」伝えようとしているかの全体傾向を知ることができ、コールセンタによせられるユーザの声や、ブログ、メール等の分類が容易となる。
本発明に係る文解析装置を実施するための最良の形態について、図面を参照しつつ詳細に説明する。
図2は本発明に係る文解析装置の概略構成を示すブロック図である。図2において、文解析装置は、インターネット等を介して日本語テキストデータを入力することができるインタフェース機能を備えた入力手段1、入力された文章の中から所定のルールで一文を切り出す文切り出し手段2、切り出された文を形態素解析する、形態素辞書4を備えた形態素解析手段3、切り出された一文の性格タイプを判定する性格タイプ判定手段5、性格タイプを判定するための基礎データ(係り助詞、格助詞A、主観因子)が格納されたデータベース6、その文が肯定的内容(ポジティブ)を表すものか、否定的内容(ネガティブ)を表すものかを判定する表情評価手段7、表情評価を行うための表情評点が格納された評点データベース8、前記切り出された文、性格タイプの判定結果及び表情評価結果などが格納される記憶手段9、切り出された文をパターン化する文型パターン抽出手段10、文型パターン抽出手段10によってパターン化された文を文の構造ごとに分類するテキスト分類手段11、テキスト分類手段11によって分類された文を読み替え辞書13に基づいて分類の変更を行う分類変更手段12、ディスプレイやプリンタなどに文章の解析結果を所定の形式で出力する出力手段14、及び以上の各手段を所定のプログラムを用いて制御する制御手段15を備えている。
次に、上記構成の文解析装置を用いた文の分類方法の手順を、図3のフローチャートに基づいて説明する。
複数の文から成る文章を入力手段1から入力すると、文切り出し手段2が所定のルールに従って、入力された文章を文単位に分割し(ステップS1)、そこから一文を切り出す(ステップS2)。文単位への分割のルールは、例えば、句点「。」で区切られた単位を一つの文としてもよいし、句点「。」で区切られた文の途中に接続詞が含まれていれば、そこを境として分割するようにしてもよい。
このようにして切り出された一文を形態素解析手段3によって形態素に分割し、形態素辞書4を参照して各語の品詞を決定する(ステップS3)。次に、性格タイプ判定手段5がデータベース6を検索して、切り出された文の中に係り助詞又は格助詞Aが含まれているかどうかをチェックする(ステップS4)。なお、「係り助詞」とは、文末の述語を除く種々の語について、強調や疑問・反語などの機能を表す助詞のことであり、図4に代表的な係り助詞の一覧を示す。また、「格助詞」とは、文中の体言(相当句)が他の言葉とかかわりあう統語的(意味的)な関係を示す助詞のことであり、「の・が・を・に・と・へ・より・から・で・にて」等である。格助詞Aとは、その中の「が」のことを指している。
もし、当該文が「係り助詞」または「格助詞A」のうち少なくとも一方を含んでいれば、この文は「判断を述べる文(判断文)」と判定され、さらに、判断文のうち、主観因子を含む文を主観的判断文(ステップS6)、主観因子を含まない文を客観的判断文(ステップS7)と分類する。なお、主観因子とは図5に示すものである。
一方、係り助詞も格助詞Aも含まない文は「状態を述べる文(状態文)」と判定され、さらに、状態文のうち、主観因子を含む文を主観的状態文(ステップS9)、主観因子を含まない文を客観的状態文と分類する(ステップS10)。
次に、表情評価手段7が、当該文に含まれる文末語のうち、文末から起算して4つの語に対してそれぞれ表情評点を割り振る(ステップS11)。具体的には、各語に対する表情評点が予め割り当てられており、これが表情評点データベース8に格納されている。図6はその一部を示すものである。このようにして割り振られた4つの文末語の評点のうち、最大の評点を、その文全体の表情評点とし、表情評価のランク付けを行う(ステップS12)。図7は表情評価のランク付けの一例を示すものであり、評点4がニュートラルで、それよりも評点が小さいものをポジティブ(肯定的)、評点が大きいものをネガティブ(否定的)と評価する。この評価の程度によって採るべき対応の内容、緊急度等が変わってくる。
なお、上記説明において、肯定的(ポジティブ)や否定的(ネガティブ)というのは必ずしも文の形態が肯定文か否定文かを意味しているものではなく、感情表現の仕方がストレートであるか、遠回し的であるかの度合いを示すものである。すなわち、日本語の場合は、ある感情を表現するのに、その感情を表す言葉を直接使用しないで、文の形によってその感情を表現することがある。このため、同じ「ダメ」でも、「本当にダメ」から、「やんわりダメ」まで、いくつかの段階があるので、それを本発明では7段階に分けている。
以上のステップ(S2〜S12)までを、その文章に含まれるすべての文について行う。
以上の処理によって、その文は事柄を「どのように」伝えようとしているかを、人がその文を読まなくても判定することができる。
次に、その文が「何」を伝えようとしているか、すなわち、文のテーマや文脈を予測するために、文型パターン抽出手段10によって文をパターン化し、パターン化された文をテキスト分類手段11によって文の構造ごとに分類したり、分類された文を読み替え辞書13に基づいて分類変更手段12によって分類の変更を行ったりするが、この処理内容については同じ出願人の出願による特許文献2に詳細に記載されており、その技術を利用することが可能であるので、説明は省略する。
実際の文章について本発明に係る文解析装置を用いて解析した場合の例を述べる。文章は、「冷房は入れないで欲しい。車内アナウンスで換気をよびかけることもしない。いまいちどサービスを見直してください。」を題材とする。
まず、文章を文単位に分割すると、「冷房は入れないで欲しい。」(第1文)と、「車内アナウンスで換気をよびかけることもしない。」(第2文)と、「いまいちどサービスを見直してください。」(第3文)との3文に分けられる。
そこで、第1文について形態素解析を行い、形態素に分割する。すなわち、
「冷房 は 入れ ない で 欲しい。」となる。
第1文には係り助詞「は」が含まれており、かつ、主観因子「欲しい」(図5)が含まれているので、「主観的判断文(Type1)」に分類され、4つの文末語(入れ、ない、で、欲しい)の表情評点は図6より、「ない=7、で=1」と割り当てられるから、この第1文の表情評価は全体として評点7、すなわちネガティブ度が一番高い文と分かる。
次に、第2文について形態素解析を行い、形態素に分割する。すなわち、
「車内 アナウンス で 換気 を よびかける こと も し ない。」となる。
第2文には係り助詞「も」が含まれているが、主観因子(図5)は含まれていないので、「客観的判断文(Type2)」に分類され、4つの文末語(こと、も、し、ない)の表情評点は図6より、「も=1、ない=7」と割り当てられるから、この第2文の表情評価は全体として評点7、すなわちネガティブ度が一番高い文と分かる。
次に、第3文について形態素解析を行い、形態素に分割する。すなわち、
「いま いちど サービス を 見直し て ください。」となる。
第3文には係り助詞も格助詞Aも含まれておらず、かつ、主観因子(図5)も含まれていないので、「客観的状態文(Type3)」に分類され、4つの文末語(を、見直し、て、ください)の表情評点は図6より、「を=1、て=1」と割り当てられるから、この第3文の表情評価は全体として評点1、すなわちポジティブ度が一番高い文と分かる。
この実施例の分析結果を一覧表にしたのが図8である。
本発明に係る文解析装置を、例えばコールセンタ等における顧客からの声(日本語テキストデータ)の分析に用い、何万件という文を人間が読むことなく、顧客の傾向を探ることが可能となる。性格タイプごとの対応を、例えば表1のように決めておくことにより、無駄なく迅速な対応をとることができる。
Figure 0004073459
従来技術の問題点を説明するための図である。 本発明に係る文解析装置の概略構成を示すブロック図である。 本発明の文解析装置を用いた文の分類方法の手順を示すフローチャートである。 代表的な係り助詞の一覧を示す図である。 主観因子の一覧を示す図である。 語ごとの表情評点の配点一覧を示す図である。 表情評価のランク付けの一例を示すものである。 実施例の分析結果を一覧表にしたものである。
符号の説明
1 入力手段
2 文切り出し手段
3 形態素解析手段
4 形態素辞書
5 性格タイプ判定手段
6 データベース
7 表情評価手段
8 データベース
9 記憶手段
10 文型パターン抽出手段
11 テキスト分類手段
12 分類変更手段
13 読み替え辞書
14 出力手段
15 制御手段

Claims (3)

  1. 日本語テキストデータを文単位に分割し、文単位で切り出すための文切り出し手段と、
    該切り出された一つの文について形態素に分割し、該分割された各形態素の品詞を決定する形態素解析手段と、
    前記文の性格タイプを判定する性格タイプ判定手段とを備え、該性格タイプ判定手段は、
    前記文の中に少なくとも係り助詞又は格助詞「が」のいずれかが含まれており、かつ主観因子が含まれている場合に前記文の性格タイプを「主観的判断文」であると判定し、
    前記文の中に少なくとも係り助詞又は格助詞「が」のいずれかが含まれており、かつ主観因子が含まれていない場合に前記文の性格タイプを「客観的判断文」であると判定するとともに、
    前記文の中に係り助詞及び格助詞「が」のいずれも含まれておらず、かつ主観因子が含まれている場合に前記文の性格タイプを「主観的状態文」であると判定し、
    前記文の中に係り助詞及び格助詞「が」のいずれも含まれておらず、かつ主観因子も含まれていない場合に前記文の性格タイプを「客観的状態文」であると判定することを特徴とする文解析装置。
  2. さらに表情評価手段を備え、該表情評価手段は、前記文の文末から起算して4つの語に対して所定の表情評点を割り当てるとともに、該割り当てられた評点のうち最大の評点を前記文の表情評価として決定することを特徴とする請求項1に記載の文解析装置。
  3. 前記文切り出し手段によって切り出された文を文型パターンとして抽出するための文型パターン抽出手段と、該文型パターン抽出手段によって抽出された文型パターンに基づいて組み合わせパターンごとに分類するためのテキスト分類手段とをさらに備え、
    前記文を、助詞「は」に導かれる第1パートと、助詞「が」に導かれる第2パートと、前記第1及び第2パート以外の文要素から成る第3パートとに分割してパターン化することを特徴とする請求項2に記載の文解析装置。
JP2006113674A 2006-04-17 2006-04-17 文解析装置 Expired - Fee Related JP4073459B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006113674A JP4073459B2 (ja) 2006-04-17 2006-04-17 文解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006113674A JP4073459B2 (ja) 2006-04-17 2006-04-17 文解析装置

Publications (2)

Publication Number Publication Date
JP2007286901A JP2007286901A (ja) 2007-11-01
JP4073459B2 true JP4073459B2 (ja) 2008-04-09

Family

ID=38758613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006113674A Expired - Fee Related JP4073459B2 (ja) 2006-04-17 2006-04-17 文解析装置

Country Status (1)

Country Link
JP (1) JP4073459B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019023893A1 (en) * 2017-07-31 2019-02-07 Beijing Didi Infinity Technology And Development Co., Ltd. SYSTEM AND METHOD FOR SEGMENTING A PHRASE
CN109147793B (zh) * 2018-08-17 2020-11-10 南京星邺汇捷网络科技有限公司 语音数据的处理方法、装置及系统

Also Published As

Publication number Publication date
JP2007286901A (ja) 2007-11-01

Similar Documents

Publication Publication Date Title
Abu Nada et al. Arabic text summarization using arabert model using extractive text summarization approach
Thavareesan et al. Sentiment analysis in Tamil texts: A study on machine learning techniques and feature representation
Tabassum et al. A survey on text pre-processing & feature extraction techniques in natural language processing
El-Beltagy et al. Combining lexical features and a supervised learning approach for Arabic sentiment analysis
Ghosh et al. Sentiment identification in code-mixed social media text
WO2016051551A1 (ja) 文章生成システム
Egger et al. Natural language processing (NLP): An introduction: making sense of textual data
Hiraga Predicting depression for japanese blog text
Javed et al. Normalization of unstructured and informal text in sentiment analysis
Wijaya et al. Automatic mood classification of Indonesian tweets using linguistic approach
Kolchyna et al. Methodology for twitter sentiment analysis
Venčkauskas et al. Problems of authorship identification of the national language electronic discourse
Akaichi Sentiment classification at the time of the tunisian uprising: machine learning techniques applied to a new corpus for Arabic language
Nama et al. Sentiment analysis of movie reviews: A comparative study between the naive-bayes classifier and a rule-based approach
Imane et al. A set of parameters for automatically annotating a Sentiment Arabic Corpus
Tumsare et al. Opinion mining in natural language processing using sentiwordnet and fuzzy
JP4073459B2 (ja) 文解析装置
Hajbi et al. Natural Language Processing Based Approach to Overcome Arabizi and Code Switching in Social Media Moroccan Dialect
Litvinova et al. Gender Prediction for Authors of Russian Texts Using Regression And Classification Techniques.
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
Hoek et al. Automatic coherence analysis of Dutch: Testing the subjectivity hypothesis on a larger scale
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
Makrynioti et al. Sentiment extraction from tweets: multilingual challenges
Bakliwal et al. Entity centric opinion mining from blogs
JP2007293377A (ja) 主観的ページと非主観的ページを分離する入出力装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110201

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120201

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120201

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130201

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130201

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140201

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees