JP2004164079A

JP2004164079A - データ分析装置及び方法、並びにプログラム

Info

Publication number: JP2004164079A
Application number: JP2002326698A
Authority: JP
Inventors: Makoto Sano; 真佐野
Original assignee: JustSystems Corp
Current assignee: JustSystems Corp
Priority date: 2002-11-11
Filing date: 2002-11-11
Publication date: 2004-06-10
Anticipated expiration: 2022-11-11
Also published as: JP3955522B2

Abstract

【課題】テキストマイニングの手法により顧客などの主観的な情報を捉えて的確なデータ分析を行う。
【解決手段】分析対象となる文書から名詞句を抽出し、抽出した名詞句に対応した主題毎に文書をまとめる（Ｓ１３）。次に、主題毎にデータ分析を行う（Ｓ１４）。データ分析では、主題の名詞句と修飾・被修飾関係にある形容詞句を抽出し、抽出した各形容詞句に与えられた好評・不評のレベル値を集計したアフェクト度を求める評価分析（Ｓ１４−１）と、主題の名詞句と修飾・被修飾関係にある形容詞句がどの程度同一のものに集約されているかを示す評価集約度を求める感性分析（Ｓ１４−２）と、主題の名詞句と修飾・被修飾関係にある動詞句がどの程度同一のものに集約されているかを示す意見集約度を求める機能要求分析（Ｓ１４−３）とを行う。
【選択図】図４

Description

【０００１】
【発明の属する技術分野】
本発明は、テキストマイニングの手法によるデータ分析装置及び方法、並びにプログラムに関する。
【０００２】
【従来の技術】
近年、経営戦略或いはマーケティング戦略を有効に策定するためには、経営やマーケティングにとって必要な現時点までの傾向やパターンなどを導き出し、データ分析を行うことが不可欠となっている。このデータ分析において傾向やパターンなどを導き出す手法として、データマイニングが適用されている。データマイニングにおいて顧客情報を取り扱う場合は、アンケート結果などによる一義的、具体的な事実に基づいた定量的な顧客情報（属性情報）による分析が中心となっている。
【０００３】
例えば、購買履歴からのデータマイニングの適用としては、顧客の年齢、購入日時などの数値情報、購入アイテムに関する属性データを入力データとし、属性データの因果関係をマイニングして、クロスセル・アップセル分析を行うものである。製品開発場面でのデータマイニングの適用としては、ノートＰＣの開発を例とすると、バッテリー駆動時間、ＤＶＤドライブの有無などの属性データの組み合わせ条件から、コンジョイント分析などの手法で知覚品質を評価したりしている。
【０００４】
データマイニングにおける分析では、このように一義的、具体的な事実に基づいた属性情報を分析するものであり、その背後にある顧客の主観的意図は分析対象としていない。このため、例えば、（１）顧客が評価を行った場所、時間、状況などの関わりが考慮されない。（２）どのような考えで顧客が購買行動に至ったのかが分からない。（３）顧客がなぜその状況で商品を購入したか分からない。（４）どのような考えで特定のモデルを高く（低く）評価したかが分からない。等の問題があった。
【０００５】
そこで、上記のデータマイニングのように一義的、具体的な情報を分析するだけでなく、例えば、顧客が文章で回答した結果を分析しようとするテキストマイニングが提唱されている。テキストマイニングで対象とする顧客の回答文などには、顧客の主観的意図が含まれている場合があり、経営やマーケティングにとってより有用な情報が得られることが期待される。
【０００６】
【発明が解決しようとする課題】
しかしながら、これまでのテキストマイニングの手法は、データマイニングの手法を踏襲しただけのものが多かった。ここでは、文章の中に含まれる言葉をキーワードとして一義的、具体的なデータとして捉え、データマイニングと同じような手法でしか分析を行っておらず、その言葉の背後にある顧客の主観的意図がほとんど何も分析されないでいた。
【０００７】
このため、結果として生成される経営分析或いはマーケティング分析用のデータからは、顧客の主観的意図に関する情報が欠落してしまっていた。また、データマイニングの手法を踏襲しただけのテキストマイニングでは、結果として生成されるデータの質もデータマイニングの場合と同程度であり、結果として得られたデータから経営戦略やマーケティング戦略を策定するには、戦略策定者の経験や勘に頼らなければいけない部分が多かった。
【０００８】
本発明は、テキストマイニングの手法により主観的な情報を捉えて的確なデータ分析を行うことができるデータ分析装置及び方法、並びにプログラムを提供することを目的とする。
【０００９】
本発明は、また、経営戦略やマーケティング戦略等の策定が容易となる分析結果を提供することができるデータ分析装置及び方法、並びにプログラムを提供することを目的とする。
【００１０】
【課題を解決するための手段】
上記目的を達成するため、本発明の第１の観点にかかるデータ分析装置は、
分析対象となる文章に含まれ得る名詞句を登録した名詞句辞書と、
前記名詞句辞書に登録された名詞句を修飾し得る修飾語句を、各修飾語句が意味的に好ましいか好ましくないかを示すレベル値と対応付けて登録した修飾語句辞書と、
前記名詞句辞書を参照して、分析対象となる文章から名詞句を抽出する名詞句抽出手段と、
前記修飾語句辞書を参照して、前記名詞句抽出手段が抽出した名詞句を修飾する修飾語句を抽出する修飾語句抽出手段と、
前記修飾語句抽出手段が抽出した修飾語句について前記修飾語句辞書に登録されたレベル値を前記名詞句抽出手段が抽出した名詞句毎に集計して、該集計したレベル値を名詞句毎のアフェクト度として算出するアフェクト度算出手段と、
前記アフェクト度算出手段が算出した名詞句毎のアフェクト度を出力するアフェクト度出力手段と
を備えることを特徴とする。
【００１１】
上記第１の観点にかかるデータ分析装置は、
前記名詞句抽出手段が抽出した各名詞句の前記分析対象となる文章における出現頻度を算出する名詞句頻度算出手段をさらに備えていてもよい。この場合、
前記アフェクト度出力手段は、各名詞句について前記アフェクト度算出手段が算出したアフェクト度と前記名詞句頻度算出手段が算出した出現頻度とを視覚的に関連付けて出力するものとすることができる。
【００１２】
上記第１の観点にかかるデータ分析装置は、
前記修飾語句辞書を参照して、分析対象となる文章において名詞句を修飾する修飾語句を抽出する修飾語句抽出手段と、
前記名詞句辞書を参照して、前記修飾語句抽出手段が抽出した各修飾語句によって修飾される名詞句を抽出する名詞句抽出手段と、
前記名詞句抽出手段による名詞句の抽出結果に基づいて、前記修飾語句抽出手段が抽出した修飾語句が同一の名詞句を修飾している度合いを示す集約度を修飾語句毎に算出する集約度算出手段と、
前記集約度算出手段が算出した修飾語句毎の集約度を出力する集約度出力手段とをさらに備えるものとすることができる。
【００１３】
この場合において、上記第１の観点にかかるデータ分析装置は、
前記修飾語句抽出手段が抽出した各修飾語句の前記分析対象となる文章における出現頻度を算出する修飾語句頻度算出手段をさらに備えていてもよい。そして、
前記集約度出力手段は、各修飾語句について前記集約度算出手段が算出した集約度と前記修飾語句頻度算出手段が算出した出現頻度とを視覚的に関連付けて出力するものとすることができる。
【００１４】
上記目的を達成するため、本発明の第２の観点にかかるデータ分析装置は、
分析対象となる文章に含まれ得る名詞句を登録した名詞句辞書と、
前記名詞句辞書に登録された名詞句を修飾し得る修飾語句を登録した修飾語句辞書と、
前記修飾語句辞書を参照して、分析対象となる文章において名詞句を修飾する修飾語句を抽出する修飾語句抽出手段と、
前記名詞句辞書を参照して、前記修飾語句抽出手段が抽出した各修飾語句によって修飾される名詞句を抽出する名詞句抽出手段と、
前記名詞句抽出手段による名詞句の抽出結果に基づいて、前記修飾語句抽出手段が抽出した修飾語句が同一の名詞句を修飾している度合いを示す集約度を修飾語句毎に算出する集約度算出手段と、
前記集約度算出手段が算出した修飾語句毎の集約度を出力する集約度出力手段と
を備えることを特徴とする。
【００１５】
上記第２の観点にかかるデータ分析装置は、
前記修飾語句抽出手段が抽出した各修飾語句の前記分析対象となる文章における出現頻度を算出する修飾語句頻度算出手段をさらに備えていてもよい。この場合において、
前記集約度出力手段は、各修飾語句について前記集約度算出手段が算出した集約度と前記修飾語句頻度算出手段が算出した出現頻度とを視覚的に関連付けて出力するものとすることができる。
【００１６】
上記第１、第２の観点にかかるデータ分析装置において、
前記分析対象となる文章は、現状に関する記述と、現状に関連した将来の状態に関する記述とを含んでおり、前記現状に関する記述と前記将来の状態に関する記述とが別々に分析対象とされるものであってもよい。
【００１７】
ここで、上記第１、第２の観点にかかるデータ分析装置は、
前記分析対象となる文章の中から現状に関する記述と将来の状態に関する記述とを切り分ける切り分け手段をさらに備えていてもよく、
前記切り分け手段が切り分けた前記現状に関する記述と前記将来の状態に関する記述とが別々に分析対象とされるものとすることができる。
【００１８】
上記目的を達成するため、本発明の第３の観点にかかるデータ分析方法は、
分析対象となる文章に含まれ得る名詞句を登録した名詞句辞書と、前記名詞句辞書に登録された名詞句を修飾し得る修飾語句を、各修飾語句が意味的に好ましいか好ましくないかを示すレベル値と対応付けて登録した修飾語句辞書とを有するコンピュータ装置において、
前記名詞句辞書を参照して、分析対象となる文章から名詞句を抽出し、
前記修飾語句辞書を参照して、前記抽出した名詞句を修飾する修飾語句を抽出し、
前記抽出した修飾語句について前記修飾語句辞書に登録されたレベル値を前記抽出した名詞句毎に集計して、該集計したレベル値を名詞句毎のアフェクト度として算出し、
前記算出した名詞句毎のアフェクト度を出力する
ことを特徴とする。
【００１９】
上記第３の観点にかかるデータ分析方法は、
前記抽出した各名詞句の前記分析対象となる文章における出現頻度をさらに算出するものとすることができる。この場合において、
前記アフェクト度は、前記算出した出現頻度と視覚的に関連付けて、各名詞句毎に出力されるものとすることができる。
【００２０】
上記目的を達成するため、本発明の第４の観点にかかるデータ分析方法は、
分析対象となる文章に含まれ得る名詞句を登録した名詞句辞書と、前記名詞句辞書に登録された名詞句を修飾し得る修飾語句を登録した修飾語句辞書とを有するコンピュータ装置において、
前記修飾語句辞書を参照して、分析対象となる文章において名詞句を修飾する修飾語句を抽出し、
前記名詞句辞書を参照して、前記抽出した各修飾語句によって修飾される名詞句を抽出し、
前記名詞句の抽出結果に基づいて、前記抽出した修飾語句が同一の名詞句を修飾している度合いを示す集約度を修飾語句毎に算出し、
前記算出した修飾語句毎の集約度を出力する
ことを特徴とする。
【００２１】
上記第４の観点にかかるデータ分析方法は、
前記抽出した各修飾語句の前記分析対象となる文章における出現頻度をさらにものとすることができる。この場合において、
前記集約度は、前記算出した出現頻度と視覚的に関連付けて、各修飾語句毎に視覚的に出力されるものとすることができる。
【００２２】
上記目的を達成するため、本発明の第５の観点にかかるプログラムは、
分析対象となる文章に含まれ得る名詞句を登録した名詞句辞書と、前記名詞句辞書に登録された名詞句を修飾し得る修飾語句を、各修飾語句が意味的に好ましいか好ましくないかを示すレベル値と対応付けて登録した修飾語句辞書とを有するコンピュータ装置を、
前記名詞句辞書を参照して、分析対象となる文章から名詞句を抽出する名詞句抽出手段、
前記修飾語句辞書を参照して、前記名詞句抽出手段が抽出した名詞句を修飾する修飾語句を抽出する修飾語句抽出手段、
前記修飾語句抽出手段が抽出した修飾語句について前記修飾語句辞書に登録されたレベル値を前記名詞句抽出手段が抽出した名詞句毎に集計して、該集計したレベル値を名詞句毎のアフェクト度として算出するアフェクト度算出手段、及び、
前記アフェクト度算出手段が算出した名詞句毎のアフェクト度を出力するアフェクト度出力手段
として機能させることを特徴とする。
【００２３】
上記第５の観点にかかるプログラムは、前記コンピュータ装置を、
前記名詞句抽出手段が抽出した各名詞句の前記分析対象となる文章における出現頻度を算出する名詞句頻度算出手段としてさらに機能させるものとすることができる。この場合において、
前記アフェクト度出力手段は、各名詞句について前記アフェクト度算出手段が算出したアフェクト度と前記名詞句頻度算出手段が算出した出現頻度とを視覚的に関連付けて出力するものとすることができる。
【００２４】
上記目的を達成するため、本発明の第６の観点にかかるプログラムは、
分析対象となる文章に含まれ得る名詞句を登録した名詞句辞書と、前記名詞句辞書に登録された名詞句を修飾し得る修飾語句を登録した修飾語句辞書とを有するコンピュータ装置を、
前記修飾語句辞書を参照して、分析対象となる文章において名詞句を修飾する修飾語句を抽出する修飾語句抽出手段、
前記名詞句辞書を参照して、前記修飾語句抽出手段が抽出した各修飾語句によって修飾される名詞句を抽出する名詞句抽出手段、
前記名詞句抽出手段による名詞句の抽出結果に基づいて、前記修飾語句抽出手段が抽出した修飾語句が同一の名詞句を修飾している度合いを示す集約度を修飾語句毎に算出する集約度算出手段、及び、
前記集約度算出手段が算出した修飾語句毎の集約度を出力する集約度出力手段
として機能させることを特徴とする。
【００２５】
上記第６の観点にかかるプログラムは、前記コンピュータ装置を、
前記修飾語句抽出手段が抽出した各修飾語句の前記分析対象となる文章における出現頻度を算出する修飾語句頻度算出手段としてさらに機能させるものであってもよい。この場合において、
前記集約度出力手段は、各修飾語句について前記集約度算出手段が算出した集約度と前記修飾語句頻度算出手段が算出した出現頻度とを視覚的に関連付けて出力するものとすることができる。
【００２６】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態について説明する。
【００２７】
図１は、この実施の形態にかかるデータ分析装置を中心としたシステムの構成を示すブロック図である。このデータ分析装置１は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）３を介して管理部門の社員が利用する端末装置（パーソナルコンピュータやワークステーションなど）２に接続される。さらにゲートウェイ５からインターネット６を介して顧客の端末装置（パーソナルコンピュータや携帯電話機など）４にも接続される。このデータ分析装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、記憶装置１２と、通信装置１３と、ファイル装置１４とを備えている。
【００２８】
ＣＰＵ１１は、記憶装置１２に記憶されたプログラムを実行し、後述するようにテキストマイニングの手法によりデータ分析を行う。記憶装置１２は、主記憶装置及び補助記憶装置を含むものであり、ＣＰＵ１１が実行するプログラムを記憶すると共に、ＣＰＵ１１のワークエリアとして使用される。通信装置１３は、ＬＡＮ３やインターネット６を介して端末装置２、４などと情報を送受信する。
【００２９】
ファイル装置１４は、アンケートファイル１４ａと、知識辞書１４ｂと、分析結果データベース１４ｃとを含んでいる。ファイル装置１４は、物理的には記憶装置１２の補助記憶装置の中に含まれるものではあるが、本発明において重要な役割を有するファイル、データベースを含むものであるため、特に構成を分けて記載している。
【００３０】
アンケートファイル１４ａは、顧客が製品に対して自然言語の文章で入力したアンケート結果のテキストデータを記録したファイルである。このアンケートは、図２に示すような記入フォーム１００に従って端末装置４において記入され、インターネット６を介してデータ分析装置１に送信されて、アンケートファイル１４ａに記録される。
【００３１】
図２の記入フォーム１００は、アンケートの対象とした製品に対して顧客が便利だと感じる点の記入欄（満足記入欄）１０１と、便利な点をさらに延ばすために何を期待するかの記入欄（進展期待記入欄）１０２と、顧客が不便だと感じる点の記入欄（不満記入欄）１０３と、不便な点をどのように改善することを望むかの記入欄（改善期待記入欄）１０４とに分かれている。ここで、記入欄１０１、１０３には現状が、記入欄１０２、１０４には将来あるべき状態が記入されることとなる。
【００３２】
知識辞書１４ｂは、単語辞書と、文法辞書と、品詞辞書とを含んでいる。単語辞書及び文法辞書は、文章を形態素解析し、構文解析するために従来より用いられている辞書と実質的に同じものが適用される。品詞辞書には、単語辞書に登録された文法的な意味での単語が登録されるのではなく、評価の対象となる語句（１語、複数語の連接により１つのまとまった意味をなす句）が登録されている。また、品詞辞書は、名詞、形容詞及び動詞の別に用意されているが、これらは文法的な働きにより分類されているのではなく、意味上名詞的な働きをするか、形容詞的な働きをするか、動詞的な働きをするかによって分類されている。
【００３３】
名詞句辞書は、形容詞句、動詞句によって修飾される名詞句を登録した辞書である。形容詞句辞書及び動詞句辞書は、名詞句を修飾することとなる形容詞句、動詞句をそれぞれ登録した辞書である。ここでの修飾・被修飾関係は、文法的に修飾語・被修飾語となるかどうかまでを要求するのではなく、意味的に係り受けの関係にあればよい。また、修飾語は、被修飾語に前置されているか後置されているかを問わない。特に形容詞句辞書は、後述する評価分析を行うため、図３に示すように形容詞句（表現語及び正規化表現）に対応付けて、その言葉が好ましい評価をするのか好ましくない評価をするのかを示すレベル値を登録している。
【００３４】
分析結果データベース１４ｃは、アンケートファイル１４ａに記録されたアンケートの文章に対して、知識辞書１４ｂを参照して、後述するデータ分析を行った結果を登録するデータベースである。分析結果データベース１４ｃには、データ分析の最終結果として出力される前の段階の解析・分析結果（後述する形態素解析及び構文解析の結果、並びに主題分析の結果）をも登録してもよい。
【００３５】
以下、この実施の形態にかかるデータ分析装置１における処理について説明する。ここでは、テキストマイニングの対象となるアンケートは、既に端末装置４から送られてきて、アンケートファイル１４ａに記録されているが、未だ分析は行われていないものとする。図４は、データ分析装置１における処理を示すフローチャートである。このフローチャートの処理は、端末装置２から処理開始の指示が送られてくることで開始する。
【００３６】
処理が開始すると、ＣＰＵ１１は、まず、知識辞書１４ｂの単語辞書及び文法辞書を参照して、アンケートファイル１４ａに記録されている各アンケートの文章を形態素解析し（ステップＳ１１）、構文解析する（ステップＳ１２）。形態素解析及び構文解析は、従来と同様の手法により行われ、その構文解析結果に基づいて後述する修飾・被修飾関係を把握することが可能となる。
【００３７】
形態素解析及び構文解析を終了すると、ＣＰＵ１１は、次に主題分析を行う（ステップＳ１３）。主題分析では、ＣＰＵ１１は、アンケートファイル１４ａに記録されている各アンケートをサブドキュメント単位に区切り、知識辞書１４ｂの名詞句辞書を参照して、各サブドキュメントから名詞句を抽出する。ＣＰＵ１１は、抽出した各名詞句に対してサブドキュメント中の出現頻度、アンケート全体における分布等の統計情報を求め、この統計情報を利用して各サブドキュメントをベクター表現に変換する。
【００３８】
ＣＰＵ１１は、各サブドキュメントのベクター表現に基づいて、アンケート毎のベクター表現を生成し、アンケート毎のベクター表現の類似度を求め、所定の値を超えるアンケートの文書同士を１つのクラスタとする。ＣＰＵ１１は、各クラスタのベクター表現の類似度を求め、所定の値を超えるクラスタ同士を同じ主題のものとしてまとめていく。なお、１つのアンケートが複数の主題に分類される場合もある。
【００３９】
主題分析が終了すると、ＣＰＵ１１は、主題分析で得られた主題についてデータ分析を行い、アンケートに記載された問題点等を抽出する（ステップＳ１４）。データ分析は、問題点等を抽出する際の切り口となる視点により、評価分析（ステップＳ１４−１）と、感性分析（ステップＳ１４−２）と、機能要求分析（ステップＳ１４−３）とを行う。
【００４０】
このデータ分析は、現状に関する記述（記入フォーム１００の記入欄１０１、１０３に記入された事項）と将来の状態に関する記述（記入フォーム１００の記入欄１０２、１０４に記入された事項）とを分けて行うことができる。ここで、ステップＳ１３の主題分析により分類された主題は、例えば、図５に示すように簡易デンドログラム表示され、この中からオペレータがデータ分析を行いたい主題を選択する。
【００４１】
ステップＳ１４−１の評価分析では、ＣＰＵ１１は、名詞句辞書を参照して、選択された主題の分類に含まれる名詞句を抽出し、名詞句毎の出現度数（頻度）を求める。ＣＰＵ１１は、さらに構文解析結果及び形容詞句辞書を参照して、各名詞句を修飾している形容詞句を抽出し、抽出した形容詞句のレベル値に従って各名詞句のアフェクト度を取得する。アフェクト度の取得についてより詳細に説明すると、名詞句を修飾する形容詞句が抽出されると、知識辞書１４ｂ中の形容詞句辞書に登録された当該形容詞句に対応するレベル値を取得する。このレベル値を次の数式１に従って名詞句毎に集計した結果（マイナスの計算をする場合があり）が、各名詞句のアフェクト度となる。
【００４２】
【数１】
アフェクト度＝Σ（（形容詞句のレベル値）×（被修飾名詞句と形容詞句からなるフレーズの頻度））÷（被修飾名詞句を含むフレーズの頻度）
但し、Σは被修飾名詞句のリデュースにより類型化された形容詞句毎の重み付けレベル値算出結果の合計
【００４３】
なお、リデュースとは、複数の処理対象の中で指定された条件に基づく共通・重複分を集計・集約することをいう。集約の結果、共通・重複部分は唯一の（リデュースされた）ものとなり、共通・重複しない部分は、差分情報として類型化される。例えば、「美しい−色」「綺麗な−色」「すてきな−色」という３つのフレーズ（形容詞句−名詞句）について、被修飾名詞句をリデュースすると、「色−美しい／綺麗な／すてきな」となる。
【００４４】
ステップＳ１４−２の感性分析では、ＣＰＵ１１は、形容詞句辞書を参照して、選択された主題の分類に含まれる形容詞句を抽出し、各形容詞句の出現度数（頻度）を求める。ＣＰＵ１１は、さらに構文解析結果及び名詞句辞書を参照して、各形容詞句が修飾している名詞句がどれだけ固定的であるかを示す評価集約度を取得する。ここで、評価集約度は、次の数式２に従って求められ、同一の形容詞句と修飾・被修飾関係にある名詞句のバリエーションが形容詞句の頻度に比べて少ない場合、その形容詞句の評価集約度が高くなる。
【００４５】
【数２】
評価集約度＝−ｌｏｇ（名詞句の異なり語数／形容詞句の頻度）
但し、名詞句、形容詞句のいずれも修飾・被修飾関係にあるもののみを計数対象とする。
【００４６】
ステップＳ１４−３の機能要求分析では、ＣＰＵ１１は、動詞句辞書を参照して、選択された主題の分類に含まれる名詞句を修飾している動詞句を抽出し、各動詞句の出現頻度（度数）を求める。ＣＰＵ１１は、さらに構文解析結果及び名詞句辞書を参照して、各動詞句が修飾している名詞句がどれだけ固定的であるかを示す意見集約度を取得する。ここで、意見集約度は、次の数式３に従って求められ、同一の動詞句と修飾・被修飾関係にある名詞句のバリエーションが動詞句の頻度に比べて少ない場合、その動詞句の意見集約度が高くなる。
【００４７】
【数３】
意見集約度＝−ｌｏｇ（名詞句の異なり語数／動詞句の頻度）
但し、名詞句、動詞句のいずれも修飾・被修飾関係にあるもののみを計数対象とする。
【００４８】
なお、ステップＳ１４−１の評価分析、ステップＳ１４−２の感性分析、及びステップＳ１４−３の機能要求分析における名詞句、形容詞句或いは動詞句の抽出については、後に詳しく説明するものとする。
【００４９】
選択した主題についてのデータ分析が終了すると、ＣＰＵ１１は、その分析結果を分析結果データベース１４ｃに登録する（ステップＳ１５）。また、ＣＰＵ１１は、その分析結果を処理開始の指示をした端末装置２に対して通信装置１３から送信させ、当該端末装置２の表示装置に表示して出力させる（ステップＳ１６）。これで、データ分析装置１における処理が終了する。なお、分析結果データベース１４ｃに登録された分析結果は、端末装置２から要求することにより、いつでも取り出すことができるようになっている。
【００５０】
次に、ステップＳ１４−１の評価分析、ステップＳ１４−２の感性分析、ステップＳ１４−３の機能要求分析における名詞句、形容詞句、或いは動詞句の抽出について説明する。前述したとおり、ここでの名詞句、形容詞句或いは動詞句の抽出は、アフェクト度、評価集約度、或いは意見集約度の算出の前提となるものである。なお、ここでは、現状に関する記述（記入フォーム１００の記入欄１０１、１０３に記入された事項）を対象としたデータ分析の結果の出力例を示している。
【００５１】
図６は、評価分析における名詞句、形容詞句の抽出を説明する図である。ここでは、反転表示して示すように「単語登録」という名詞句がまず抽出される。次に「単語登録」という名詞句を修飾している形容詞句として、枠囲みして示すように「面倒」という形容詞句が抽出される。この場合において、名詞句「単語登録」の頻度は４、形容詞句「面倒」のレベル値を−１とすると、他に「単語登録」を修飾する形容詞句がないのであれば、アフェクト度は−１と求められることが分かる。
【００５２】
図７は、感性分析における形容詞句、名詞句の抽出を説明する図である。ここでは、反転表示して示すように「正しい」という形容詞句がまず抽出される。次に「正しい」という形容詞句が修飾している名詞句として、枠囲みして示すように「日本語」という名詞句が抽出される。この場合において、形容詞句「正しい」の頻度は４、評価集約度は１と求められることが分かる。
【００５３】
図８は、機能要求分析における動詞句、名詞句の抽出を説明する図である。ここでは、反転表示して示すように「設定」という動詞句がまず抽出される。次に「設定」という動詞句が修飾している名詞句として、枠囲みして示すように「辞書」という名詞句が抽出される。この場合において、動詞句「設定」の頻度は４、意見集約度は１と求められることが分かる。
【００５４】
次に、ステップＳ１４−１の評価分析、ステップＳ１４−２の感性分析、ステップＳ１４−３の機能要求分析の結果の出力例について、具体例を挙げて説明する。ここでも、現状に関する記述（記入フォーム１００の記入欄１０１、１０３に記入された事項）を対象として説明する。
【００５５】
図９は、ステップＳ１４−１の評価分析の結果である各名詞句のアフェクト度の出力例を示す図である。この図において、縦軸が名詞句のアフェクト度、横軸が名詞句の頻度を示している。アフェクト度は、その値がプラスになる場合（評価として好評の場合）、縦軸の正領域（図の上側）に表示され、その値がマイナスになる場合（評価として不評の場合）、縦軸の負領域（図の下側）に表示されるものとなる。
【００５６】
図９を参照すると、例えば、「変換精度」については、頻度が大きく、アフェクト度も高いので、現状の製品でもかなり顧客に満足されていることを視覚的に容易に認識することができる。これに対して、「単語登録」については、頻度が大きくてもアフェクト度がマイナスを示しているので、現状の製品における顧客の不満が大きく、今後の製品開発において改良すべき点であると考えられることを視覚的に容易に認識することができる。
【００５７】
図１０は、ステップＳ１４−２の感性分析の結果である各形容詞句毎の評価集約度の出力例を示す図である。この図において、縦軸が形容詞句の評価集約度、横軸が形容詞句の頻度を示している。図１０を参照すると、例えば、「難しい」や「正しい」については、頻度が大きく、評価集約度も高くなっているので、多くの顧客が同じ製品の同じ点について「難しい」とか「正しい」とか感じていることを視覚的に容易に認識することができる。
【００５８】
図１１は、ステップＳ１４−３の機能要求分析の結果である各動詞句の意見集約度の出力例を示す図である。この図において、縦軸が動詞句の意見集約度、横軸が動詞句の頻度を示している。図１１を参照すると、例えば、「インストール」については、頻度が大きく、意見集約度も高くなっているので、多くの顧客が「インストール」に関する同じ点について同じ要求を持っていることを視覚的に容易に認識することができる。
【００５９】
以上説明したように、この実施の形態にかかるデータ分析装置１では、評価分析において各名詞句に着目し、名詞句毎に抽出した形容詞句のレベル値を集計してアフェクト度を算出している。このアフェクト度は、対応する名詞句の点に対する顧客の評価が好評であるか不評であるかを数値化して示すものである。この名詞句毎のアフェクト度により、製品の様々な点について顧客がどのように評価しているかが即座に分かるようになるので、評価分析の結果を経営戦略やマーケティング戦略などの策定に役立てるのが容易になる。
【００６０】
感性分析においては各形容詞句に着目し、各形容詞句が修飾する名詞句に基づいて評価集約度を算出している。この評価集約度は、対応する形容詞句のような感じ方が、同じ点に集中してなされているのか、それとも様々な点に分散してなされているのかを数値化して示すものである。この形容詞句毎の評価集約度により、同じ感じ方が同じ点に集中してなされているのかどうかが即座に分かるようになるので、感性分析の結果を経営戦略やマーケティング戦略などの策定に役立てるのが容易になる。
【００６１】
機能要求分析においては動詞句に着目し、各動詞句が修飾する名詞句に基づいて意見集約度を算出している。この意見集約度は、対応する動詞句のような要求が、同じ点に集中してなされているのか、それとも様々な点に分散してなされているのかを数値化して示すものである。この動詞句毎の意見集約度により、同じ要求が同じ点に集中してなされているのかどうかが即座に分かるようになるので、機能要求分析の結果を経営戦略やマーケティング戦略などの策定に役立てるのが容易になる。
【００６２】
また、評価分析、感性分析、機能要求分析の結果としてのアフェクト度、評価集約度、意見集約度は、これらをグラフの縦軸とし、対応する語句の頻度を横軸として出力される。このため、多くの顧客が感じていることや要求していることを、視覚表現から容易に把握することができるようになり、データ分析の結果を経営戦略やマーケティング戦略などの策定に役立てるのが容易になる。
【００６３】
さらに、この実施の形態でデータ分析の対象としているアンケートは、記入欄１０１〜１０４を有する記入フォーム１００に従って記載されている。ここで、現状に関する記述は記入欄１０１、１０３に、将来の状態に関する記述は記入欄１０２、１０４に記入されるもので、互いに切り分けられている。このため、現状の問題点などに関する分析と、問題解決後のものとしてユーザが望む状態の分析とを、切り分けて行うことができるので、データ分析の結果を経営戦略やマーケティング戦略などの策定に役立てるのが容易になる。
【００６４】
本発明は、上記の実施の形態に限られず、種々の変形、応用が可能である。以下、本発明に適用可能な上記の実施の形態の変形態様について説明する。
【００６５】
上記の実施の形態では、顧客のアンケートにおいて、図２の記入フォーム１００を用意しておき、現状と将来の状態とを切り分けて記入させるものとしていた。しかしながら、必ずしも現状と将来の状態とが明確に切り分けられてアンケートが記入されているとは限らない。また、図２の記入フォーム１００にとらわれず、自由にアンケートに回答したいと思う顧客も存在し得る。図２の記入フォーム１００のような記入方法によらなければ、そもそも現状と将来の状態とが切り分けられてアンケートが記入されることがない。
【００６６】
そこで、次の４つのいずれかを任意に複合した方法により、現状と将来の状態との切り分けを行ってから、データ分析を行うものとすることができる。図２の記入フォーム１００に従って記入されたアンケートの文章では、現状と将来の状態とが切り分けられたものとして推定するが、最終的に確定するのは、次のような方法で処理を行った後とすることができる。
【００６７】
第１の方法として、文章の時制として現在形または過去形が用いられている部分を現状の記述として判断し、未来形が用いられている部分を将来の状態の記述として判断して、現状と将来の状態とを切り分けることができる。第２の方法として、時間的な先後から通常は現状に関する記述の方が将来の状態に関する記述よりも先に現れるので、記述の先後に従って現状と将来の状態との切り分けを行うことができる。
【００６８】
第３の方法としては、不便な点として記載されたものに着目した場合、ステップＳ１４−１の評価分析で得られたアフェクト度を利用して、アフェクト度の低い部分の記述を現状として把握する。同一の文章内において同一の名詞句についてアフェクト度の高い部分があれば、その部分の記述を将来の状態として把握して、現状と将来の状態とを切り分けることができる。
【００６９】
第４の方法としては、知識辞書１４ｂとして、さらに図１２に示すような辞書を用意しておく。この辞書は、将来の状態を記述するために頻繁に用いられる語句を登録したものである。アンケートの文章のうちで、図１２に示す辞書に登録された語句を含む部分の記述を将来の状態として把握する。同一の文章内において同一の名詞句を有する対応する記載があれば、その部分の記述を現状として把握して、現状と将来の状態とを切り分けることができる。
【００７０】
上記のような方法で現状と将来の状態との切り分けを明確に行って、アンケートの文章を分析することによって、アンケートの対象とした製品に対する顧客の満足・不満と要望とを別々に分かり易く把握できるようになる。これにより、経営戦略やマーケティング戦略を策定する者は、顧客満足度を向上させるための的確な戦略を容易に作成できるようになる。
【００７１】
上記の実施の形態では、データ分析の対象となる文章は、図２の記入フォーム１００に従って記入されたアンケートであり、顧客が自己の端末装置４からデータ分析装置１にアクセスして、アンケートファイル１４ａに記録させるものであった。これに対して、データ分析の対象となる文章は、顧客が自らデータ分析装置１に送ったものだけでなく、インターネット６上のＷｅｂサーバに書き込まれた掲示板や記事などのデータを収集したものであってもよい。このような文章では、現状と将来の状態とが切り分けられていないので、上記した切り分け技術の適用が特に有効となる。
【００７２】
上記の実施の形態では、データ分析装置１は、ＬＡＮ３を介して端末装置２に接続されており、端末装置２からの指示に従ってアンケートファイル１４ａに記録されたアンケートをデータ分析し、その分析結果を指示元の端末装置２に返却するものとしていた。すなわち、クライアント−サーバ構成のシステムにおいて本発明が実現されていた。これに対して、データ分析装置１が入力装置及び表示装置を有するものとして、スタンドアローン型のシステムにおいて本発明が実現されるものとしてもよい。
【００７３】
上記の実施の形態では、データ分析装置１のがアンケートに対してデータ分析するためのプログラムは、記憶装置１２に予め記憶されているものとして説明した。しかしながら、このプログラムをＣＤ−ＲＯＭやＤＶＤ−ＲＯＭなどのコンピュータ読み取り可能な記録媒体に格納して、ハードウェアとは独立して配布するものとしてもよい。また、これらの処理プログラムをインターネット上のＷｅｂサーバ装置が有する固定ディスク装置に格納しておき、インターネットを通じて配信するものとしてもよい。
【００７４】
【発明の効果】
以上説明したように、本発明によれば、テキストマイニングの手法により主観的な情報を容易に捉えて的確なデータ分析を行うことができるようになる。また、その分析結果により、また、経営戦略やマーケティング戦略等の策定が容易になる。
【図面の簡単な説明】
【図１】本発明の実施の形態にかかるデータ分析装置を中心としたのシステムの構成を示すブロック図である。
【図２】アンケートファイルに記録されるアンケートの記入フォームを示す図である。
【図３】知識辞書の例を示す図である。
【図４】本発明の実施の形態にかかるデータ分析装置における処理を示すフローチャートである。
【図５】主題分析により分類された主題の簡易デンドログラム表示の例を示す図である。
【図６】評価分析における名詞句と形容詞句の抽出を説明する図である。
【図７】感性分析における形容詞句と名詞句の抽出を説明する図である。
【図８】機能要求分析における動詞句と名詞句の抽出を説明する図である。
【図９】評価分析の結果である各名詞句のアフェクト度の出力例を示す図である。
【図１０】感性分析の結果である各形容詞句毎の評価集約度の出力例を示す図である。
【図１１】機能要求分析の結果である各動詞句の意見集約度の出力例を示す図である。
【図１２】変形例において、知識辞書として追加される辞書の例を示す図である。
【符号の説明】
１データ分析装置
２端末装置
３ＬＡＮ
４端末装置
５ゲートウェイ
６インターネット
１１ＣＰＵ
１２記憶装置
１３通信装置
１４ファイル装置
１４ａアンケートファイル
１４ｂ知識辞書
１４ｃ分析結果データベース

Claims

分析対象となる文章に含まれ得る名詞句を登録した名詞句辞書と、
前記名詞句辞書に登録された名詞句を修飾し得る修飾語句を、各修飾語句が意味的に好ましいか好ましくないかを示すレベル値と対応付けて登録した修飾語句辞書と、
前記名詞句辞書を参照して、分析対象となる文章から名詞句を抽出する名詞句抽出手段と、
前記修飾語句辞書を参照して、前記名詞句抽出手段が抽出した名詞句を修飾する修飾語句を抽出する修飾語句抽出手段と、
前記修飾語句抽出手段が抽出した修飾語句について前記修飾語句辞書に登録されたレベル値を前記名詞句抽出手段が抽出した名詞句毎に集計して、該集計したレベル値を名詞句毎のアフェクト度として算出するアフェクト度算出手段と、
前記アフェクト度算出手段が算出した名詞句毎のアフェクト度を出力するアフェクト度出力手段と
を備えることを特徴とするデータ分析装置。
前記名詞句抽出手段が抽出した各名詞句の前記分析対象となる文章における出現頻度を算出する名詞句頻度算出手段をさらに備え、
前記アフェクト度出力手段は、各名詞句について前記アフェクト度算出手段が算出したアフェクト度と前記名詞句頻度算出手段が算出した出現頻度とを視覚的に関連付けて出力する
ことを特徴とする請求項１に記載のデータ分析装置。
前記修飾語句辞書を参照して、分析対象となる文章において名詞句を修飾する修飾語句を抽出する修飾語句抽出手段と、
前記名詞句辞書を参照して、前記修飾語句抽出手段が抽出した各修飾語句によって修飾される名詞句を抽出する名詞句抽出手段と、
前記名詞句抽出手段による名詞句の抽出結果に基づいて、前記修飾語句抽出手段が抽出した修飾語句が同一の名詞句を修飾している度合いを示す集約度を修飾語句毎に算出する集約度算出手段と、
前記集約度算出手段が算出した修飾語句毎の集約度を出力する集約度出力手段とをさらに備える
ことを特徴とする請求項１または２に記載のデータ分析装置。
前記修飾語句抽出手段が抽出した各修飾語句の前記分析対象となる文章における出現頻度を算出する修飾語句頻度算出手段をさらに備え、
前記集約度出力手段は、各修飾語句について前記集約度算出手段が算出した集約度と前記修飾語句頻度算出手段が算出した出現頻度とを視覚的に関連付けて出力する
ことを特徴とする請求項３に記載のデータ分析装置。
分析対象となる文章に含まれ得る名詞句を登録した名詞句辞書と、
前記名詞句辞書に登録された名詞句を修飾し得る修飾語句を登録した修飾語句辞書と、
前記修飾語句辞書を参照して、分析対象となる文章において名詞句を修飾する修飾語句を抽出する修飾語句抽出手段と、
前記名詞句辞書を参照して、前記修飾語句抽出手段が抽出した各修飾語句によって修飾される名詞句を抽出する名詞句抽出手段と、
前記名詞句抽出手段による名詞句の抽出結果に基づいて、前記修飾語句抽出手段が抽出した修飾語句が同一の名詞句を修飾している度合いを示す集約度を修飾語句毎に算出する集約度算出手段と、
前記集約度算出手段が算出した修飾語句毎の集約度を出力する集約度出力手段と
を備えることを特徴とするデータ分析装置。
前記修飾語句抽出手段が抽出した各修飾語句の前記分析対象となる文章における出現頻度を算出する修飾語句頻度算出手段をさらに備え、
前記集約度出力手段は、各修飾語句について前記集約度算出手段が算出した集約度と前記修飾語句頻度算出手段が算出した出現頻度とを視覚的に関連付けて出力する
ことを特徴とする請求項５に記載のデータ分析装置。
前記分析対象となる文章は、現状に関する記述と、現状に関連した将来の状態に関する記述とを含んでおり、前記現状に関する記述と前記将来の状態に関する記述とが別々に分析対象とされる
ことを特徴とする請求項１乃至６のいずれか１項に記載のデータ分析装置。
前記分析対象となる文章の中から現状に関する記述と将来の状態に関する記述とを切り分ける切り分け手段をさらに備え、
前記切り分け手段が切り分けた前記現状に関する記述と前記将来の状態に関する記述とが別々に分析対象とされる
ことを特徴とする請求項７に記載のデータ分析装置。
分析対象となる文章に含まれ得る名詞句を登録した名詞句辞書と、前記名詞句辞書に登録された名詞句を修飾し得る修飾語句を、各修飾語句が意味的に好ましいか好ましくないかを示すレベル値と対応付けて登録した修飾語句辞書とを有するコンピュータ装置において、
前記名詞句辞書を参照して、分析対象となる文章から名詞句を抽出し、
前記修飾語句辞書を参照して、前記抽出した名詞句を修飾する修飾語句を抽出し、
前記抽出した修飾語句について前記修飾語句辞書に登録されたレベル値を前記抽出した名詞句毎に集計して、該集計したレベル値を名詞句毎のアフェクト度として算出し、
前記算出した名詞句毎のアフェクト度を出力する
ことを特徴とするデータ分析方法。
分析対象となる文章に含まれ得る名詞句を登録した名詞句辞書と、前記名詞句辞書に登録された名詞句を修飾し得る修飾語句を登録した修飾語句辞書とを有するコンピュータ装置において、
前記修飾語句辞書を参照して、分析対象となる文章において名詞句を修飾する修飾語句を抽出し、
前記名詞句辞書を参照して、前記抽出した各修飾語句によって修飾される名詞句を抽出し、
前記名詞句の抽出結果に基づいて、前記抽出した修飾語句が同一の名詞句を修飾している度合いを示す集約度を修飾語句毎に算出し、
前記算出した修飾語句毎の集約度を出力する
ことを特徴とするデータ分析方法。
分析対象となる文章に含まれ得る名詞句を登録した名詞句辞書と、前記名詞句辞書に登録された名詞句を修飾し得る修飾語句を、各修飾語句が意味的に好ましいか好ましくないかを示すレベル値と対応付けて登録した修飾語句辞書とを有するコンピュータ装置を、
前記名詞句辞書を参照して、分析対象となる文章から名詞句を抽出する名詞句抽出手段、
前記修飾語句辞書を参照して、前記名詞句抽出手段が抽出した名詞句を修飾する修飾語句を抽出する修飾語句抽出手段、
前記修飾語句抽出手段が抽出した修飾語句について前記修飾語句辞書に登録されたレベル値を前記名詞句抽出手段が抽出した名詞句毎に集計して、該集計したレベル値を名詞句毎のアフェクト度として算出するアフェクト度算出手段、及び、
前記アフェクト度算出手段が算出した名詞句毎のアフェクト度を出力するアフェクト度出力手段
として機能させるためのプログラム。
分析対象となる文章に含まれ得る名詞句を登録した名詞句辞書と、前記名詞句辞書に登録された名詞句を修飾し得る修飾語句を登録した修飾語句辞書とを有するコンピュータ装置を、
前記修飾語句辞書を参照して、分析対象となる文章において名詞句を修飾する修飾語句を抽出する修飾語句抽出手段、
前記名詞句辞書を参照して、前記修飾語句抽出手段が抽出した各修飾語句によって修飾される名詞句を抽出する名詞句抽出手段、
前記名詞句抽出手段による名詞句の抽出結果に基づいて、前記修飾語句抽出手段が抽出した修飾語句が同一の名詞句を修飾している度合いを示す集約度を修飾語句毎に算出する集約度算出手段、及び、
前記集約度算出手段が算出した修飾語句毎の集約度を出力する集約度出力手段
として機能させるためのプログラム。