JP2014067099A

JP2014067099A - 文書分析装置およびプログラム

Info

Publication number: JP2014067099A
Application number: JP2012210091A
Authority: JP
Inventors: Yasunari Miyabe; 泰成宮部; Hideki Iwasaki; 秀樹岩崎; Kazuyuki Goto; 和之後藤; Shigeru Matsumoto; 茂松本
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2012-09-24
Filing date: 2012-09-24
Publication date: 2014-04-17
Anticipated expiration: 2032-09-24
Also published as: JP5481543B2

Abstract

【課題】目的変数の要因を自動的に抽出することが可能な文書分析装置およびプログラムを提供することにある。
【解決手段】第１の生成手段は、複数の文書に含まれる属性値に基づいて複数の第１のカテゴリを生成する。第２の生成手段は、複数の文書に含まれる目的変数の値に基づいて複数の第２のカテゴリを生成する。第１の抽出手段は、複数の文書から取得された単語を含む文書であって第１のカテゴリの各々に分類された文書の集合が各第２のカテゴリにおいて統計的に有意に偏って出現している場合に当該単語を抽出する。第２の抽出手段は、第１のカテゴリ毎に算出された第１のリフト値が閾値以上であり、第２のリフト値より大きい場合、当該第１のリフト値が算出された第１のカテゴリに分類された文書に含まれる属性値を抽出する。提示手段は、抽出された単語および属性値を提示する。
【選択図】図２

Description

本発明の実施形態は、電子化された文書群を分析する文書分析装置およびプログラムに関する。

近年では、情報システムの高度化に伴い、例えば特許文献、新聞記事、ウェブページまたは書籍等の電子化された文書（以下、単に文書と表記）を大量に記録し、保存することが可能である。そこで、これらの蓄積された文書群を日々の業務に有効活用していくことが求められている。

文書群の有効活用の具体例としては、例えば膨大な量の新聞記事を分類することで多くの人が利用しやすいように整理する、あるいは、現在研究開発している技術に関係のある特許文献を分類することで自他社の特許群の傾向を分析し、新しい研究開発分野を発見する等が考えられる。

つまり、情報の有効活用の点から、大量の文書を内容等に応じて分類（整理）しておくことが好ましい。

また、このように分類された大量の文書を分析または調査することによって、当該文書の内容の傾向を把握したり、新たな知見を得たりするための技術の開発も行われている。

特開２０１０−０６１３８９号公報

ところで、上記したような大量の文書が例えば評価の観点を有する目的変数に基づいて分類されている場合において、当該評価（事象）の要因を知りたい場合がある。

具体的には、目的変数「成功」および「失敗」のカテゴリに営業販促活動の報告書の文書が分類されている場合、当該カテゴリに分類されている文書から当該営業販促活動が成功するための要因（つまり、目的変数の要因）をテキスト情報と属性情報から、分析することができれば、その後の営業販促活動に有用であると考えられる。

そこで、本発明が解決しようとする課題は、目的変数の要因を自動的に抽出することが可能な文書分析装置およびプログラムを提供することにある。

実施形態に係る文書分析装置は、文書格納手段と、要因単語候補取得手段と、第１の生成手段と、第２の生成手段と、第１の判定手段と、第１の抽出手段と、第１の算出手段と、第２の判定手段と、第２の算出手段と、第３の判定手段と、第２の抽出手段と、提示手段とを具備する。

前記文書格納手段は、複数の単語からなる文字列を含む複数の文書であって、属性および目的変数を有し、当該属性の属性値および当該目的変数の値を含む複数の文書を格納する。

前記要因単語候補取得手段は、前記文書格納手段に格納されている複数の文書に含まれる文字列を解析することによって複数の単語を取得する。

前記第１の生成手段は、前記文書格納手段に格納されている複数の文書に含まれる属性値に基づいて当該複数の文書が分類された複数の第１のカテゴリを生成する。

前記第２の生成手段は、前記文書格納手段に格納されている複数の文書に含まれる目的変数の値に基づいて当該複数の文書が分類された複数の第２のカテゴリを生成する。

前記第１の判定手段は、前記取得された単語毎に、当該単語を含む文書であって前記第１の生成手段によって生成された第１のカテゴリの各々に分類された文書の集合が、前記第２の生成手段によって生成された各第２のカテゴリにおいて統計的に有意に偏って出現しているかを判定する。

前記第１の抽出手段は、前記文書の集合が前記第２の生成手段によって生成された各第２のカテゴリにおいて統計的に有意に偏って出現していると判定された単語を、前記目的変数の要因として抽出する。

前記第１の算出手段は、前記第１の生成手段によって生成された第１のカテゴリ毎に、前記抽出された単語を含む文書、当該第１のカテゴリに分類された文書および前記第２の生成手段によって生成された第２のカテゴリの各々に分類された文書に基づいて、第１のリフト値を算出する。

前記第２の判定手段は、前記算出された第１のリフト値が予め定められた値以上であるかを判定する。

前記第２の算出手段は、前記算出された第１のリフト値が予め定められた値以上であると前記第２の判定手段によって判定された場合、当該第１のリフト値が算出された第１のカテゴリに分類された文書および前記第２の生成手段によって生成された第２のカテゴリに分類された文書に基づいて、第２のリフト値を算出する。

前記第３の判定手段は、前記第１の算出手段によって算出された第１のリフト値が前記第２の算出手段によって算出された第２のリフト値より大きいかを判定する。

前記第２の抽出手段は、前記第１のリフト値が前記第２のリフト値より大きいと前記第３の判定手段によって判定された場合、当該第１のリフト値が算出された第１のカテゴリに分類された文書に含まれる属性値を、前記目的変数の要因として抽出する。

前記提示手段は、前記第１の抽出手段によって抽出された単語および前記第２の抽出手段によって抽出された属性値を提示する。

実施形態に係る文書分析装置のハードウェア構成を示すブロック図。本実施形態に係る文書分析装置１０の主として機能構成を示すブロック図。図２に示す文書格納部１１０に格納されている文書のデータ構造の一例を示す図。カテゴリの階層構造におけるルートのカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。カテゴリの階層構造において図５に示すカテゴリ情報１２２によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。カテゴリの階層構造において図７に示すカテゴリ情報１２４によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。カテゴリの階層構造において図７に示すカテゴリ情報１２４によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す図。本実施形態に係る文書分析装置１０の処理手順を示すフローチャート。カテゴリ表示画面の一例を示す図。ユーザが各種情報を指定する際の画面について説明するための図。要因単語抽出部１４１によって実行される要因単語抽出処理の処理手順を示すフローチャート。要因単語抽出処理における判定処理について説明するための図。組要因抽出部１４２によって実行される組要因抽出処理の処理手順を示すフローチャート。組要因抽出部１４２によって実行される組要因抽出処理の処理手順を示すフローチャート。第１のリフト値の具体例について説明するための図。第２のリフト値の具体例について説明するための図。補助単語抽出処理における判定処理について説明するための図。組要因抽出部１４２によって出力された要因抽出用リストの一例を示す図。２軸マップ可視化部１３２によって実行される抽出結果表示処理の処理手順を示すフローチャート。２軸マップ可視化部１３２によって出力されたｖｉｅｗリストが表示された場合の表示画面の一例を示す図。

以下、図面を参照して、実施形態について説明する。

図１は、本実施形態に係る文書分析装置のハードウェア構成を示すブロック図である。なお、文書分析装置は、当該装置の各機能を実現するためのハードウェア構成、またはハードウェアとソフトウェアとの組み合わせ構成として実現されている。ソフトウェアは、予め記憶媒体またはネットワークからインストールされ、文書分析装置にその機能を実現させるためのプログラムからなる。

図１に示すように、文書分析装置１０は、記憶装置１１、キーボード１２、マウス１３、中央演算装置１４およびディスプレイ１５を備える。

記憶装置１１は、中央演算装置１４から読み出しまたは書き込みが可能な記憶装置であり、例えばＲＡＭ（Random Access Memory）である。記憶装置１１には、予め中央演算装置１４によって実行されるプログラム（文書分析プログラム）が記憶されている。

キーボード１２およびマウス１３は、入力装置であり、例えば文書分析装置１０の操作者（ユーザ）の操作により、データまたは命令からなる各種情報を中央演算装置１４に入力する。

中央演算装置１４は、例えばＣＰＵ（プロセッサ）であり、記憶装置１１に記憶されているプログラムを実行する機能と、キーボード１２またはマウス１３から入力される情報に基づいて各種処理の実行を制御する機能と、実行結果をディスプレイ１５に出力する機能とを有する。

ディスプレイ１５は、表示装置であり、例えば編集中の各アーキテクチャモデルやフィーチャモデル等を表示して可視化する機能を有する。また、ディスプレイ１５は、中央演算装置１４から出力された情報を表示する機能を有する。

なお、文書分析装置１０は、例えば本実施形態に係る文書分析プログラムが適用された計算機によって実現される。

図２は、本実施形態に係る文書分析装置１０の主として機能構成を示すブロック図である。

図２に示すように、文書分析装置１０は、文書格納部１１０、カテゴリ格納部１２０、ユーザインタフェース部１３０および要因抽出部１４０を含む。なお、文書格納部１１０およびカテゴリ格納部１２は、例えば図示しない外部記憶装置等に格納される。また、ユーザインタフェース部１３０および要因抽出部１４０は、文書分析装置１０のコンピュータ（中央演算装置１４）が記憶装置１１に記憶されている文書分析プログラムを実行することにより実現される。

文書格納部１１０には、文書分析装置１０による分析の対象となる複数の文書が格納される。文書格納部１１０に格納されている文書は、複数の単語からなる文字列を含む。また、文書格納部１１０に格納されている文書は、属性および目的変数を有し、当該属性の属性値および当該目的変数の値を含む。

カテゴリ格納部１２０は、文書格納部１１０に格納されている複数の文書が分類されたカテゴリの各々を示すカテゴリ情報（つまり、当該複数の文書の分類結果）が格納される。具体的には、カテゴリ格納部１２０には、例えば文書が有する属性の属性値および目的変数の値に基づいて文書格納部１１０に格納されている複数の文書が分類された結果が格納される。

なお、文書格納部１１０およびカテゴリ格納部１２０は、例えばファイルシステムまたはデータベース等を用いて実現される。

ユーザインタフェース部１３０は、上記したキーボード１２、マウス１３およびディスプレイ１５を用いて実現される機能部であり、例えばユーザの入力情報または指示情報等を受け付ける。ユーザインタフェース部１３０は、カテゴリ表示操作部１３１および２軸マップ可視化部１３２を含む。

カテゴリ表示操作部１３１は、カテゴリ格納部１２０に格納されているカテゴリ情報に基づいて、当該カテゴリ情報によって示されるカテゴリおよび当該カテゴリの階層構造をユーザに対して提示するための画面（以下、カテゴリ表示画面と表記）をディスプレイ１５に表示する。また、カテゴリ表示操作部１３１は、ユーザに対して提示されたカテゴリ表示画面に対するユーザの操作（指定操作）を受け付ける。この場合、ユーザは、カテゴリ表示画面に対して、分析の対象となる文書（集合）、当該文書に含まれる文字列（テキスト）、当該文書が有する目的変数および属性等を指定することができる。

２軸マップ可視化部１３２は、ユーザによって指定された目的変数、後述する要因抽出部１４０によって抽出された単語および属性値に基づいて２軸マップを生成する。２軸マップ可視化部１３２によって生成された２軸マップは、例えばディスプレイ１５に表示される。これにより、２軸マップ可視化部１３２は、要因抽出部１４０によって抽出された単語および属性値をユーザに対して提示する。

要因抽出部１４０は、文書格納部１１０に格納されている文書が有する目的変数の要因となる単語および属性値を抽出するための機能部である。要因抽出部１４０は、要因単語抽出部１４１および組要因抽出部１４２を含む。

要因単語抽出部１４１は、ユーザによって指定された分析の対象となる文書に含まれる文字列を構成する複数の単語の中から、ユーザによって指定された目的変数の要因となる単語を抽出する機能を有する。

要因単語抽出部１４１は、文書格納部１１０に格納されている複数の文書（ユーザによって指定された分析対象となる文書集合）に含まれる文字列（ユーザによって指定されたテキスト）を解析することによって複数の単語を取得する。

要因単語抽出部１４１は、文書格納部１１０に格納されている複数の文書に含まれる属性（ユーザによって指定された属性）の属性値に基づいて当該複数の文書が分類された複数のカテゴリ（第１のカテゴリ）を生成する。以下、ユーザによって指定された属性の属性値に基づいて生成されたカテゴリを属性値のカテゴリと称する。

要因単語抽出部１４１は、文書格納部１１０に格納されている複数の文書に含まれる目的変数（ユーザによって指定された目的変数）の値に基づいて当該複数の文書が分類された複数のカテゴリ（第２のカテゴリ）を生成する。以下、ユーザによって指定された目的変数の値に基づいて生成されたカテゴリを目的変数のカテゴリと称する。

要因単語抽出部１４１は、取得された単語毎に、当該単語を含む文書であって属性値のカテゴリの各々に分類された文書の集合が、各目的変数のカテゴリにおいて統計的に有意に偏って出現しているか否かを判定する。要因単語抽出部１４１は、文書の集合が各目的変数のカテゴリにおいて統計的に有意に偏って出現していると判定された単語を、ユーザによって指定された目的変数の要因として抽出する。

組要因抽出部１４２は、要因単語抽出部１４１によって抽出された単語と組み合わせて目的変数の要因となる属性値を、ユーザによって指定された属性の属性値の中から抽出する機能を有する。

組要因抽出部１４２は、属性値のカテゴリ毎に、要因単語抽出部１４１によって抽出された単語を含む文書、当該属性値のカテゴリに分類された文書および目的変数のカテゴリの各々に分類された文書に基づいて、後述する第１のリフト値を算出する。

また、組要因抽出部１４２は、算出された第１のリフト値が予め定められた値以上である場合、当該第１のリフト値が算出された属性値のカテゴリに分類された文書および目的変数のカテゴリの各々に分類された文書に基づいて、後述する第２のリフト値を算出する。

組要因抽出部１４２は、算出された第１のリフト値が第２のリフト値より大きい場合、当該第１のリフト値が算出された属性値のカテゴリに分類された文書に含まれる属性値（ユーザによって指定された属性の属性値）を、ユーザによって指定された目的変数の要因（要因単語抽出部１４１によって抽出された単語と組み合わせて目的変数の要因となる属性値）として抽出する。

図３は、図２に示す文書格納部１１０に格納されている文書のデータ構造の一例を示す。図２に示すように、文書格納部１１０に格納されている文書は、複数の属性を有する。また、文書格納部１１０に格納されている文書は、当該文書が有する属性毎に属性名および属性値を対応づけて含む。

属性名は、文書の種類に応じて当該文書が有する属性の名称である。属性値は、文書が有する属性の値である。

ここで、図３は、製品に対する営業活動の報告書の文書１１１の一例を示す。図３に示す例では、文書１１１には、当該文書１１１が有する属性の属性名として、文書１１１を識別するための文書番号、当該文書１１１のタイトル、本文、製品に対する営業活動の評価、当該営業活動が行われた製品の種類および当該営業活動の報告書が作成された日（報告日）が含まれている。

また、文書１１１には、例えば属性名「文書番号」に対応づけて属性値「ｄ０１」が含まれている。これによれば、文書１１１を識別するための文書番号が「ｄ０１」であることが示されている。ここでは、属性名「文書番号」（に対応づけられている属性値）について説明したが、文書１１１には、他の属性についても同様に属性名に対応づけて属性値が含まれている。なお、属性名「タイトル」および「本文」に対応づけて文書１１１に含まれる属性値には、複数の単語からなる文字列（テキスト）が含まれている。

また、文書格納部１１０に格納されている文書は、目的変数を有する。目的変数とは、例えば「成功」または「失敗」のような評価の観点を有する属性をいう。上記した図３に示す文書１１１においては、属性名が「評価」である属性が目的変数に該当する。以下、文書格納部１１０に格納されている文書が有する属性のうち、評価の観点を有する属性を目的変数と称し、当該目的変数に対応づけられている属性値を目的変数の値と称する。

ここでは、文書１１１についてのみ説明したが、文書格納部１１０には、例えば製品に対する営業活動の報告書（文書）が複数格納されている。また、文書格納部１１０に格納されている文書は、上記した図３に示す文書１１１が有する属性の全てを有していなくてもよいし、他の属性を有していてもよい。

図４〜図９は、図２に示すカテゴリ格納部１２０に格納されているカテゴリ情報のデータ構造の一例を示す。カテゴリ格納部１２０に格納されているカテゴリ情報は、文書格納部１１０に格納されている文書が分類されたカテゴリを示す。なお、カテゴリ格納部１２０に格納されているカテゴリ情報によって示されるカテゴリは、例えば階層構造を構成する。なお、本実施形態において、文書格納部１１０に格納されている文書が分類されたカテゴリは予め作成され、当該カテゴリを示すカテゴリ情報がカテゴリ格納部１２０に格納されているものとする。また、カテゴリは、例えば文書格納部１１０に格納されている複数の文書をクラスタリングすることによって作成されてもよい。

図４〜図９に示すように、カテゴリ情報には、カテゴリ番号、親カテゴリ番号、カテゴリ名および文書番号が含まれる。なお、図６、図８および図９に示すように、カテゴリ情報には、必要に応じて条件が含まれていても構わない。

カテゴリ番号は、カテゴリを一意に識別するための識別子である。親カテゴリ番号は、階層構造においてカテゴリ番号によって識別されるカテゴリの一階層上位に位置するカテゴリ（親カテゴリ）を識別するためのカテゴリ番号を示す。カテゴリ名は、カテゴリ番号によって識別されるカテゴリの名称を示す。文書番号は、カテゴリ番号によって識別されるカテゴリに分類された文書を識別するための文書番号を示す。また、条件は、カテゴリ番号によって識別されるカテゴリに分類される文書が満たすべき条件を示す。

なお、カテゴリ格納部１２０に格納されているカテゴリ情報は、例えば文書格納部１１０に格納されている文書に含まれる属性名または属性値単位のカテゴリ（つまり、属性名または属性値に対応するカテゴリ）を示す。

図４は、カテゴリの階層構造におけるルートのカテゴリ（以下、ルートカテゴリと表記）を示すカテゴリ情報のデータの構造の一例を示す。

図４に示す例では、カテゴリ情報１２１には、カテゴリ番号「ｃ０１」、親カテゴリ番号「（なし）」、カテゴリ名「（ルート）」および文書番号「（なし）」が含まれている。このカテゴリ情報１２１によれば、カテゴリ番号「ｃ０１」によって識別されるルートカテゴリのカテゴリ名が「（ルート）」であることが示されている。なお、親カテゴリ番号「（なし）」は、階層構造においてカテゴリ番号「ｃ０１」によって識別されるカテゴリ（ルートカテゴリ）の親カテゴリは存在しないことが示されている。また、文書番号「（なし）」は、カテゴリ番号「ｃ０１」によって識別されるルートカテゴリには文書が分類されていないことが示されている。なお、以下に説明するカテゴリ情報に含まれる文書番号「（なし）」についても同様であるため、その説明については省略する。

図５は、カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す。

図５に示す例では、カテゴリ情報１２２には、カテゴリ番号「ｃ０２」、親カテゴリ番号「ｃ０１」カテゴリ名「評価別」および文書番号「（なし）」が含まれている。このカテゴリ情報１２２によれば、カテゴリ番号「ｃ０２」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「ｃ０１」によって識別されるカテゴリ（つまり、ルートカテゴリ）であることが示されている。また、カテゴリ番号「ｃ０２」によって識別されるカテゴリのカテゴリ名が「評価別」であることが示されている。

なお、図５に示すカテゴリ情報１２２は、文書格納部１１０に格納されている文書に含まれる属性名「評価」に対応するカテゴリを示している。

図６は、カテゴリの階層構造において図５に示すカテゴリ情報１２２によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す。

図６に示す例では、カテゴリ情報１２３には、カテゴリ番号「ｃ２１」、親カテゴリ番号「ｃ０２」、カテゴリ名「成功」、文書番号「ｄ０１，ｄ１５，ｄ２３，ｄ３６，…」および条件「評価＝“成功”」が含まれている。このカテゴリ情報１２３によれば、カテゴリ番号「ｃ２１」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「ｃ０２」によって識別されるカテゴリ（つまり、図５に示すカテゴリ情報１２２によって示されるカテゴリ）であることが示されている。また、カテゴリ番号「ｃ２１」によって識別されるカテゴリのカテゴリ名が「成功」であることが示されている。また、カテゴリ番号「ｃ２１」によって識別されるカテゴリには、条件「評価＝“成功”」を満たす文書、つまり、文書番号「ｄ０１」、「ｄ１５」、「ｄ２３」および「ｄ３６」等によって識別される文書が分類されていることが示されている。なお、条件「評価＝“成功”」は、文書が属性名「評価」の属性値として「成功」を含むことを示している。

なお、図６に示すカテゴリ情報１２３は、文書格納部１１０に格納されている文書に含まれる属性値「成功」（つまり、目的変数の値「成功」）に対応するカテゴリを示している。

図７は、カテゴリの階層構造においてルートカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す。

図７に示す例では、カテゴリ情報１２４には、カテゴリ番号「ｃ０３」、親カテゴリ番号「ｃ０１」、カテゴリ名「製品別」および文書番号「（なし）」が含まれている。このカテゴリ情報１２４によれば、カテゴリ番号「ｃ０３」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「ｃ０１」によって識別されるカテゴリ（つまり、ルートカテゴリ）であることが示されている。また、カテゴリ番号「ｃ０３」によって識別されるカテゴリのカテゴリ名が「製品別」であることが示されている。

なお、図７に示すカテゴリ情報１２４は、文書格納部１１０に格納されている文書に含まれる属性名「製品の種類」に対応するカテゴリを示している。

図８は、カテゴリの階層構造において図７に示すカテゴリ情報１２４によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す。

図８に示す例では、カテゴリ情報１２５には、カテゴリ番号「ｃ３１」、親カテゴリ番号「ｃ０３」、カテゴリ名「パソコン」、文書番号「ｄ０７，ｄ２３，ｄ５８，…」および条件「製品の種類＝“パソコン”」が含まれている。このカテゴリ情報１２５によれば、カテゴリ番号「ｃ３１」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「ｃ０３」によって識別されるカテゴリ（つまり、図７に示すカテゴリ情報１２４によって示されるカテゴリ）であることが示されている。また、カテゴリ番号「ｃ３１」によって識別されるカテゴリのカテゴリ名が「パソコン」であることが示されている。また、カテゴリ番号「ｃ３１」によって識別されるカテゴリには、条件「製品の種類＝“パソコン”」を満たす文書、つまり、文書番号「ｄ０７」、「ｄ２３」および「ｄ５８」等によって識別される文書が分類されていることが示されている。なお、条件「製品の種類＝“パソコン”」は、文書が属性名「製品の種類」の属性値として「パソコン」を含むことを示している。

なお、図８に示すカテゴリ情報１２５は、文書格納部１１０に格納されている文書に含まれる属性値「パソコン」に対応するカテゴリを示している。

図９は、カテゴリの階層構造において図７に示すカテゴリ情報１２４によって示されるカテゴリの下位に位置するカテゴリを示すカテゴリ情報のデータ構造の一例を示す。

図９に示す例では、カテゴリ情報１２６には、カテゴリ番号「ｃ３２」、親カテゴリ番号「ｃ０３」、カテゴリ名「カメラ」、文書番号「ｄ１５，ｄ３２，ｄ６９，…」および条件「製品の種類＝“カメラ”」が含まれている。このカテゴリ情報１２６によれば、カテゴリ番号「ｃ３２」によって識別されるカテゴリの親カテゴリが親カテゴリ番号「ｃ０３」によって識別されるカテゴリ（つまり、図７に示すカテゴリ情報１２４によって示されるカテゴリ）であることが示されている。また、カテゴリ番号「ｃ３２」によって識別されるカテゴリのカテゴリ名が「カメラ」であることが示されている。また、カテゴリ番号「ｃ３２」によって識別されるカテゴリには、条件「製品の種類＝“カメラ”」を満たす文書、つまり、文書番号「ｄ１５」、「ｄ３２」および「ｄ６９」等によって識別される文書が分類されていることが示されている。なお、条件「製品の種類＝“カメラ”」は、文書が属性名「製品の種類」の属性値として「カメラ」を含むことを示している。

なお、図９に示すカテゴリ情報１２５は、文書格納部１１０に格納されている文書に含まれる属性値「カメラ」に対応するカテゴリを示している。

次に、図１０のフローチャートを参照して、本実施形態に係る文書分析装置１０の処理手順について説明する。

まず、文書分析装置１０のユーザインタフェース部１３０に含まれるカテゴリ表示操作部１３１は、カテゴリ格納部１２０に格納されているカテゴリ情報に基づいて、階層構造を構成するカテゴリをユーザに対して提示するためのカテゴリ表示画面を表示する（ステップＳ１）。この場合、階層構造を構成するカテゴリは、カテゴリ格納部１２０に格納されているカテゴリ情報に含まれるカテゴリ番号、カテゴリ名および親カテゴリ番号に基づいて表示される。

ここで、図１１は、カテゴリ表示画面の一例を示す。図１１に示すカテゴリ表示画面１５０には、カテゴリ表示領域１５０ａ、タイトル表示領域１５０ｂおよび本文表示領域１５０ｃが設けられている。

カテゴリ表示領域１５０ａには、カテゴリ格納部１２０に格納されているカテゴリ情報によって示されるカテゴリ（のカテゴリ名）が階層構造で表示される。図１１に示す例では、カテゴリ表示領域１５０ａには、ルートカテゴリの子カテゴリ（当該ルートカテゴリの一階層下位に位置するカテゴリ）として、「製品別」カテゴリおよび「評価別」カテゴリが表示されている。更に、カテゴリ表示領域１５０ａには、「製品別」カテゴリの子カテゴリ（当該「製品別」カテゴリの一階層下位に位置するカテゴリ）として、「パソコン」カテゴリ、「カメラ」カテゴリ、「携帯電話」カテゴリおよび「電子レンジ」カテゴリが表示されている。ここで、カテゴリ表示領域１５０ａに表示されている例えば「製品別」カテゴリとはカテゴリ名が「製品別」であるカテゴリであるものとし、他のカテゴリについても同様であるものとする。また、以下の説明においても同様に表記する。

なお、図１１に示すカテゴリ表示領域１５０ａに表示されているカテゴリのうちの「製品別」カテゴリおよび「評価別」カテゴリは、文書格納部１１０に格納されている文書に含まれる属性名「製品の種類」および「評価」に対応するカテゴリである。また、「パソコン」カテゴリ、「カメラ」カテゴリ、「携帯電話」カテゴリおよび「電子レンジ」カテゴリの各々は、属性名が「製品の種類」である属性の属性値「パソコン」、「カメラ」、「携帯電話」および「電子レンジ」に対応するカテゴリである。

また、図１１に示すカテゴリ表示領域１５０ａには表示されていないが、当該カテゴリ表示領域１５０ａにおいてユーザが例えば「評価別」カテゴリを指定すると、属性名が「評価」である属性の属性値「成功」および「失敗」に対応するカテゴリ（つまり、「評価別」カテゴリの子カテゴリ）が表示される。

ここで、ユーザは、カテゴリ表示領域１５０ａに表示されているカテゴリのうちの例えば１つを選択することができる。タイトル表示領域１５０ｂには、カテゴリ表示領域１５０ａに表示されたカテゴリのうち、ユーザによって選択されたカテゴリに分類された文書のタイトル（当該文書に含まれる属性名「タイトル」に対する属性値）の一覧が表示される。図１１に示す例では、カテゴリ表示領域１５０ａに表示されているカテゴリのうち「パソコン」カテゴリが選択され、タイトル表示領域１５０ｂには、当該「パソコン」カテゴリに分類された文書のタイトルの一覧が表示されている。具体的には、タイトル表示領域１５０ｂには、「パソコン」カテゴリに分類された文書のタイトルとして、「ＧＷキャンペーン」、「新年度４月キャッシュバックキャンペーン」、「夏のボーナスキャンペーン」および「冬のボーナスキャンペーン」が表示されている。

また、ユーザは、タイトル表示領域１５０ｂに表示されている文書のタイトルの一覧の中から例えば１つを選択することができる。本文表示領域１５０ｃには、タイトル表示領域１５０ｂに表示された文書のタイトルの一覧の中からユーザによって選択されたタイトルの文書の本文（属性名が「本文」である属性の属性値）が表示される。図１１に示す例では、タイトル表示領域１５０ｂに表示されている文書のタイトルの一覧の中から「新年度４月キャッシュバックキャンペーン」が選択され、本文表示領域１５０ｃには、タイトルが当該「新年度４月キャッシュバックキャンペーン」である文書の本文「今度の新製品のキャンペーンでは、キャッシュバック１万円を検討している。」が表示されている。

再び図１０に戻ると、ユーザは、カテゴリ表示操作部１３１によって表示されたカテゴリ表示画面（図１１に示すような画面）に対して、各種情報を指定する操作を行うことができる。具体的には、ユーザは、文書分析装置１０による分析の対象となる複数の文書（以下、分析対象文書と表記）、要因の抽出の対象となる目的変数、当該目的変数の要因となる単語が抽出されるテキスト、当該目的変数の要因となる属性値が抽出される属性、および当該目的変数の要因として抽出される単語の数（以下、抽出要因数）を指定する操作を行う。

カテゴリ表示操作部１３１は、ユーザによって上記したような各種情報を指定する操作が行われた場合、当該ユーザの指定操作を受け付ける（ステップＳ２）。

ここで、図１２を参照して、ユーザが各種情報を指定する際の画面について説明する。この場合、ユーザは、カテゴリ表示画面１５０のカテゴリ表示領域１５０ａに表示されているカテゴリを指定することによって分析対象文書を指定することができる。なお、図１２に示すように、ユーザが例えばルートカテゴリを指定した場合、分析対象文書には、当該ルートカテゴリの下位に位置する全てのカテゴリに分類されている文書が含まれる。

また、ユーザが各種情報を指定する場合、カテゴリ表示画面１５０には、図１２に示すように指定操作画面１５０ｄが表示される。この指定操作画面１５０ｄには、テキスト指定欄１５０ｅ、目的変数指定欄１５０ｆ、属性指定欄１５０ｇ、抽出要因数指定欄１５０ｈ、実行ボタン１５０ｉおよびキャンセルボタン１５０ｊが設けられている。

テキスト指定欄１５０ｅでは、上記した目的変数の要因となる単語が抽出されるテキスト（文字列）をユーザが指定することができる。テキスト指定欄１５０ｅにおいては、分析対象文書が有する属性であって文字列を含む属性値に対応する属性の属性名（ここでは、「タイトル」および「本文」）が表示されており、当該属性名の中から少なくとも１つをユーザが選択することができる。図１２に示す例では、目的変数の要因となる単語が抽出されるテキストとして「タイトル」および「本文」が指定されている。この場合、属性名が「タイトル」および「本文」である属性の属性値に含まれる文字列（テキスト）が指定されたことになる。

目的変数指定欄１５０ｆでは、上記した要因の抽出の対象となる目的変数（つまり、要因を抽出することを望む目的変数）をユーザが指定することができる。なお、目的変数とは、上記したように評価の観点を有する属性である。ただし、目的変数指定欄１５０ｆにおいては、分析対象文書が有する属性の属性名のうち、上記したテキスト指定欄１５０ｅに表示されている属性名および文書番号以外の属性名（ここでは、「評価」、「製品の種類」および「報告日」）が全て表示されており、当該属性名のうちの１つをユーザが選択することができる。。図１２に示す例では、要因の抽出の対象となる目的変数として「評価」（つまり、属性名が「評価」である属性）が指定されている。

属性指定欄１５０ｇでは、上記した目的変数の要因となる属性値が抽出される属性をユーザが指定することができる。属性指定欄１５０ｇにおいては、分析対象文書が有する属性の属性名のうち、上記したテキスト指定欄１５０ｅに表示されている属性名および文書番号以外の属性名（ここでは、「評価」、「製品の種類」および「報告日」）が表示されており、当該属性名のうちの１つをユーザが選択することができる。図１２に示す例では、目的変数の要因となる属性値が抽出される属性として「製品の種類」（つまり、属性名が「製品の種類」である属性）が指定されている。

抽出要因数指定欄１５０ｈでは、上記した目的変数の要因として抽出される単語の数（抽出要因数）をユーザが指定することができる。抽出要因数指定欄１５０ｈにおいては、抽出要因数として例えば「５」、「１０」、「２０」、「３０」および「４０」が表示されており、当該抽出要因数のうちの１つをユーザが選択することができる。図１２に示す例では、抽出要因数として「５」が指定されている。

上記した各欄１５０ｅ〜１５０ｈの各々において指定操作が行われた後に、指定操作画面１５０ｄに設けられている実行ボタン１５０ｉが例えばマウス１３等を用いて、ユーザによって指定（押下）された場合、後述する要因単語抽出処理が実行される。一方、指定操作画面１５０ｄに設けられているキャンセルボタン１５０ｊがマウス１３等を用いて、ユーザによって指定（押下）された場合、例えば各欄１５０ｅ〜１５０ｈにおいて行われた指定操作が無効となり、図１１に示すカテゴリ表示画面に戻る。

再び図１０に戻ると、カテゴリ表示操作部１３１によってユーザの指定操作が受け付けられると、要因抽出部１４０に含まれる要因単語抽出部１４１は、要因単語抽出処理を実行する（ステップＳ３）。この要因単語抽出処理によれば、ユーザによって指定された分析対象文書の各々のテキスト（文字列）に含まれる複数の単語の中から、ユーザによって指定された目的変数の要因となる単語が抽出される。要因単語抽出処理は、ユーザによって指定された目的変数の各値に基づいて分析対象文書が分類されたカテゴリ（目的変数のカテゴリ）および当該ユーザによって指定された属性の属性値に基づいて分析対象文書が分類されたカテゴリ（属性値のカテゴリ）等に基づいて実行される。なお、要因単語抽出処理の詳細については後述する。

次に、組要因抽出部１４２は、組要因抽出処理を実行する（ステップＳ４）。この組要因抽出処理によれば、要因単語抽出部１４１によって抽出された単語、目的変数のカテゴリおよび属性値のカテゴリに基づいて、当該単語と組み合わせて当該目的変数の要因となる属性値が抽出される。また、組要因抽出処理によれば、要因単語抽出部１４１によって抽出された単語および当該組要因抽出処理によって抽出された属性値を用いて上記した要因単語抽出処理に相当する処理が実行されることによって、要因単語抽出部１４１によって抽出された単語を補助する単語（以下、補助単語と表記）が抽出される。なお、組要因抽出処理の詳細については後述する。

ユーザインタフェース部１３０に含まれる２軸マップ可視化部１３２は、抽出結果表示処理を実行する（ステップＳ５）。この抽出結果表示処理によれば、ユーザによって指定された分析対象文書、要因単語抽出部１４１によって抽出された単語、組要因抽出部１４２によって抽出された属性値および補助単語に基づいて、例えば当該単語、属性値および補助単語を含む２軸マップが生成される。この２軸マップは、ユーザに対して提示される。なお、抽出結果表示処理の詳細については後述する。

次に、図１３のフローチャートを参照して、上述した要因単語抽出処理（図１０に示すステップＳ３の処理）の処理手順について詳細に説明する。なお、要因単語抽出処理は、要因抽出部１４０に含まれる要因単語抽出部１４１によって実行される。

以下、上記したようにユーザによって指定されたテキスト、目的変数および属性を、それぞれ指定テキスト、指定目的変数および指定属性と称する。なお、要因単語抽出処理以降の処理においても同様であるものとする。

まず、要因単語抽出部１４１は、要因単語抽出処理による抽出結果のリストを初期化する（ステップＳ１１）。

次に、要因単語抽出部１４１は、分析対象文書（の各々）に含まれる指定テキストを取得する。要因単語抽出部１４１は、取得された指定テキストを形態素解析する（ステップＳ１２）。要因単語抽出部１４１は、形態素解析結果に基づいて、形態素（以下、単語と表記）の集合を取得する。ここで要因単語抽出部１４１によって取得される単語の集合には、例えば品詞が名詞、動詞および形容詞等の自立語が含まれる。なお、ここで取得された単語は、指定目的変数の要因となる単語の候補である。

要因単語抽出部１４１は、分析対象文書を指定属性の属性値のカテゴリに自動分類する（ステップＳ１３）。この場合、要因単語抽出部１４１は、指定属性の属性値毎に当該属性値のカテゴリを生成し、当該属性値を含む分析対象文書を当該属性値のカテゴリに分類する。具体的には、属性名が「製品の種類」である属性（以下、「製品の種類」属性と表記）が指定属性であるものとすると、当該「製品の種類」属性の属性値として例えば「パソコン」を含む分析対象文書が同一の属性値のカテゴリ（ここでは、属性値「パソコン」のカテゴリ）に分類される。他の属性値のカテゴリ（例えば、属性値「カメラ」のカテゴリ、属性値「携帯電話」のカテゴリ、属性値「電子レンジ」のカテゴリ等）についても同様に分析対象文書が分類される。

なお、上記したように属性値のカテゴリが生成された場合、後述する各種処理のために当該各属性値のカテゴリを示すカテゴリ情報（以下、属性値カテゴリ情報と表記）がカテゴリ格納部１２０に格納される。この属性値カテゴリ情報には属性値のカテゴリに分類された分析対象文書を識別するための文書番号等が含まれており、以下の処理において、各属性値のカテゴリに分類された文書等は、この属性値カテゴリ情報に基づいて特定することができるものとする。

また、要因単語抽出部１４１は、分析対象文書を目的変数のカテゴリに自動分類する（ステップＳ１４）。この場合、要因単語抽出部１４１は、指定目的変数の値毎に目的変数のカテゴリを生成し、当該値を含む分析対象文書を当該目的変数のカテゴリに分類する。具体的には、属性名が「評価」である属性（以下、「評価」属性と表記）が指定目的変数であるものとすると、当該指定目的変数の値（つまり、「評価」属性の属性値）として例えば「成功」を含む分析対象文書が同一の目的変数のカテゴリ（ここでは、目的変数「成功」のカテゴリ）に分類される。他の目的変数のカテゴリ（例えば、目的変数「失敗」のカテゴリ）についても同様に分析対象文書が分類される。

なお、上記したように目的変数のカテゴリが生成された場合、後述する各種処理のために当該各目的変数のカテゴリを示すカテゴリ情報（以下、目的変数カテゴリ情報と表記）がカテゴリ格納部１２０に格納される。この目的変数カテゴリ情報には目的変数のカテゴリに分類された分析対象文書を識別するための文書番号等が含まれており、以下の処理において、各目的変数のカテゴリに分類された文書等は、この目的変数カテゴリ情報に基づいて特定することができるものとする。

次に、要因単語抽出部１４１によって取得された単語の各々について、以下のステップＳ１５〜Ｓ１７の処理が実行される。

この場合、要因単語抽出部１４１は、取得された単語の集合から単語を１つ取得する（ステップＳ１５）。以下、このステップＳ１５において取得された単語を対象単語と称する。

要因単語抽出部１４１は、各属性値のカテゴリに分類された分析対象文書であって対象単語を指定テキスト中に含む分析対象文書（の集合）が各目的変数のカテゴリで統計的に有意に偏って出現しているか否かを判定する（ステップＳ１６）。

ここで、要因単語抽出処理におけるステップＳ１６の判定処理について説明する。図１４は、各属性値のカテゴリに分類された分析対象文書であって対象単語を指定テキスト中に含む分析対象文書の集合と、各目的変数のカテゴリに分類された分析対象文書の集合とをクロス集計した結果の一例を示す。なお、図１４においては、「各属性値（のカテゴリ）∧ポイント」および「目的変数の各値（各目的変数のカテゴリ）」に対応づけられている数値は、当該属性値のカテゴリに分類された分析対象文書であって対象単語「ポイント」を指定テキスト中に含む分析対象文書の集合と当該目的変数のカテゴリに分類された分析対象文書の集合との両方に存在する文書（分析対象文書）の数を表している。

図１４に示す例では、例えば属性値「パソコン」のカテゴリに分類された分析対象文書であって対象単語「ポイント」を指定テキスト中に含む分析対象文書の集合と、目的変数「成功」のカテゴリに分類された分析対象文書の集合との両方に存在する分析対象文書の数（以下、「パソコン∧ポイント」および「成功」の文書数と表記）は２５である。また、属性値「パソコン」のカテゴリに分類された分析対象文書であって対象単語「ポイント」を指定テキスト中に含む分析対象文書の集合と、目的変数「失敗」のカテゴリに分類された分析対象文書の集合との両方に存在する分析対象文書の数（以下、「パソコン∧ポイント」および「失敗」の文書数と表記）は５である。これによれば、「パソコン∧ポイント」および「失敗」の文書数と比較すると、「パソコン∧ポイント」および「成功」の文書数が偏って多いことが示されている。

同様に、例えば属性値「カメラ」のカテゴリに分類された分析対象文書であって対象単語「ポイント」を指定テキスト中に含む分析対象文書の集合と、目的変数「成功」のカテゴリに分類された分析対象文書の集合との両方に存在する分析対象文書の数（以下、「カメラ∧ポイント」および「成功」の文書数と表記）は１３である。また、属性値「カメラ」のカテゴリに分類された分析対象文書であって対象単語「ポイント」を指定テキスト中に含む分析対象文書の集合と、目的変数「失敗」のカテゴリに分類された分析対象文書の集合との両方に存在する分析対象文書の数（以下、「カメラ∧ポイント」および「失敗」の文書数と表記）は１２である。これによれば、「カメラ∧ポイント」および「成功」の文書数と「カメラ∧ポイント」および「失敗」の文書数とで偏りがないことが示されている。

また、例えば属性値「携帯電話」のカテゴリに分類された分析対象文書であって対象単語「ポイント」を指定テキスト中に含む分析対象文書の集合と、目的変数「成功」のカテゴリに分類された分析対象文書の集合との両方に存在する分析対象文書の数（以下、「携帯電話∧ポイント」および「成功」の文書数と表記）は１５である。また、属性値「携帯電話」のカテゴリに分類された分析対象文書であって対象単語「ポイント」を指定テキスト中に含む分析対象文書の集合と、目的変数「失敗」のカテゴリに分類された分析対象文書の集合との両方に存在する分析対象文書の数（以下、「携帯電話∧ポイント」および「失敗」の文書数と表記）は１５である。これによれば、「携帯電話∧ポイント」および「成功」の文書数と「携帯電話∧ポイント」および「失敗」の文書数とで偏りがないことが示されている。

このような２つの集合を組み合わせた出現の偏りを判定する方法として、二元配置分散分析がある。従って、上記した要因単語抽出処理におけるステップＳ１６の判定処理においては、二元配置分散分析を用いる。

以下、二元配置分散分析を用いた判定処理について具体的に説明する。この場合、以下の式（１）に基づいて行間偏差平方和Ｓａが算出される。

次に、以下の式（２）に基づいて行間偏差平方和の自由度φａが算出される。

また、以下の式（３）に基づいて列間偏差平方和Ｓｂが算出される。

次に、以下の式（４）に基づいて列間偏差平方和の自由度φｂが算出される。

更に、以下の式（５）に基づいて総変動の偏差平方和Ｓｔが算出される。

また、以下の式（６）に基づいて総変動の偏差平方和の自由度φｔが算出される。

次に、上記した式（１）、式（３）および式（５）に基づいて算出された行間偏差平方和Ｓａ、列間偏差平方和Ｓｂおよび総変動の偏差平方和Ｓｔを以下の式（７）に当てはめることによって、誤差変動和Ｓｅが算出される。

また、上記した式（２）、式（４）および式（６）に基づいて算出された行間偏差平方和の自由度φａ、列間偏差平方和の自由度φｂおよび総変動の偏差平方和の自由度φｔを以下の式（８）に当てはめることによって、誤差変動和の自由度φｅが算出される。

更に、上記した式（３）および式（４）に基づいて算出された列間偏差平方和Ｓｂおよび当該列間偏差平方和の自由度φｂを以下の式（９）に当てはめることによって、列間の分散Ｖｂが算出される。

また、上記した式（７）および式（８）に基づいて算出された誤差変動和Ｓｅおよび当該誤差変動和の自由度φｅを以下の式（１０）に当てはめることによって、誤差の分散Ｖｅが算出される。

最後に、上記した式（９）および式（１０）に基づいて算出された列間の分散Ｖｂおよび誤差の分散Ｖｅを以下の式（１１）に当てはめることによって、分散比Ｆｂが算出される。

上記した二元配置分散分析を用いた判定処理においては、式（１１）によって算出された分散比Ｆｂが、式（４）によって算出された列間偏差平方和の自由度φｂ、式（８）によって算出された誤差変動和の自由度φｅのＦ分布の値よりも大きければ、単語と属性値（離散値）とを組み合わせた集合は目的変数間で単語の出現確率の偏りが有意である、つまり、各属性値のカテゴリに分類された分析対象文書であって対象単語を指定テキスト中に含む分析対象文書（の集合）が各目的変数のカテゴリで統計的に有意に偏って出現していると判定される。なお、自由度φｂ、自由度φｅのＦ分布の値は、例えば文書分析装置１０において予め用意されているＦ分布表から取得されてもよいし、計算によって算出されても構わない。

上記したように各属性値のカテゴリに分類された分析対象文書であって対象単語を指定テキスト中に含む分析対象文書（の集合）が各目的変数のカテゴリで統計的に有意に偏って出現していると判定された場合（ステップＳ１６のＹＥＳ）、要因単語抽出部１４１は、対象単語を指定目的変数の要因として上記したリストに追加（登録）する（ステップＳ１７）。

一方、各属性値のカテゴリに分類された分析対象文書であって対象単語を指定テキスト中に含む分析対象文書（の集合）が各目的変数のカテゴリで統計的に有意に偏って出現していないと判定された場合（ステップＳ１６のＮＯ）、上記したステップＳ１７の処理は実行されない。

次に、要因単語抽出部１４１は、要因単語抽出部１４１によって取得された全ての単語について上記したステップＳ１５〜Ｓ１７の処理が実行されたか否かを判定する（ステップＳ１８）。

全ての単語について処理が実行されていないと判定された場合（ステップＳ１８のＮＯ）、上記したステップＳ１５に戻って処理が繰り返される。

一方、全ての単語について処理が実行されたと判定された場合（ステップＳ１８のＹＥＳ）、要因単語抽出部１４１は、リストを組要因抽出部１４２に対して出力する。なお、組要因抽出部１４２に対して出力されたリストには、分析対象文書に含まれる指定テキストを形態素解析することによって取得された複数の単語のうち、上記したように指定目的変数の要因となる単語が登録されている。

このように要因単語抽出処理においては、分析対象文書に含まれる指定テキストを形態素解析することによって取得された複数の単語の中から指定目的変数の要因となる単語を抽出することができる。

なお、上述した図１２に示すように各種情報がユーザによって指定された場合には、例えば単語「ポイント」、「キャッシュバック」、「チラシ」、「入口」等が指定目的変数（ここでは、「評価」）の要因となる単語として抽出される。なお、ここでは４つの単語について例示したが、図１２に示す例では抽出要因数として５がユーザによって指定されているため、要因単語抽出処理においては５つの単語が抽出される。

次に、図１５および図１６のフローチャートを参照して、上述した組要因抽出処理（図１０に示すステップＳ４の処理）の処理手順について詳細に説明する。なお、組要因抽出処理は、要因抽出部１４０に含まれる組要因抽出部１４２によって実行される。

組要因抽出処理においては、組要因抽出部１４２は、要因単語抽出部１４１によって出力されたリスト（以下、要因抽出用リストと表記）に登録されている単語の各々について、以下のステップＳ２１〜Ｓ３２の処理を実行する。

この場合、組要因抽出部１４２は、要因抽出用リストに登録されている単語を１つ取得する（ステップＳ２１）。以下、このステップＳ２１において取得された単語を対象単語と称する。

次に、組要因抽出部１４２は、上述した属性値のカテゴリ（指定属性の属性値に基づいて分析対象文書が分類されたカテゴリ）の各々について、以下のステップＳ２２〜Ｓ３１の処理を実行する。

この場合、組要因抽出部１４２は、上記したようにカテゴリ格納部１２０に格納された属性値のカテゴリ（つまり、図１３に示すステップＳ１３において分析対象文書が分類された属性値のカテゴリ）を示す属性値カテゴリ情報を１つ取得する（ステップＳ２２）。以下、このステップＳ２２において取得された属性値カテゴリ情報によって示される属性値のカテゴリを属性値の対象カテゴリと称する。また、属性値の対象カテゴリにおける当該属性値（つまり、属性値の対象カテゴリに分類された分析対象文書に含まれる指定属性の属性値）を対象属性値と称する。

次に、組要因抽出部１４２は、上述した目的変数のカテゴリ（指定目的変数の値に基づいて分析対象文書が分類されたカテゴリ）の各々について、以下のステップＳ２３〜Ｓ２７の処理を実行する。

この場合、組要因抽出部１４２は、上記したようにカテゴリ格納部１２０に格納された目的変数のカテゴリ（つまり、図１３に示すステップＳ１４において分析対象文書が分類された目的変数のカテゴリ）を示す目的変数カテゴリ情報を１つ取得する（ステップＳ２３）。以下、このステップＳ２３において取得された目的変数カテゴリ情報によって示される目的変数のカテゴリを目的変数の対象カテゴリと称する。

次に、組要因抽出部１４２は、目的変数の対象カテゴリおよび属性値の対象カテゴリの両方に分類された分析対象文書であって対象単語を指定テキスト中に含む分析対象文書の数（以下、第１の文書数と表記）と、目的変数の対象カテゴリに分類された文書の数（以下、第２の文書数と表記）と、属性値の対象カテゴリに分類された分析対象文書であって対象単語を指定テキスト中に含む分析対象文書の数（以下、第３の文書数と表記）に基づいて第１のリフト値を算出する（ステップＳ２４）。

第１のリフト値は、データマイニングの際の相関分析の指標の１つであり、例えば２つの事象の関連傾向の比率を表す。第１のリフト値は、上記した第１の文書数を第２の文書数と第３の文書数の積で割った値であり、以下の式（１２）によって算出される。

なお、式（１２）において、Ｃｏは目的変数の対象カテゴリ、Ｃｊは属性値の対象カテゴリ、ｔｉは対象単語を表している。また、｜Ｃｏ∧Ｃｊ∧ｔｉ｜は目的変数の対象カテゴリおよび属性値の対象カテゴリの両方に分類された分析対象文書であって対象単語を指定テキスト中に含む分析対象文書の数（つまり、第１の文書数）、｜Ｃｏ｜は目的変数の対象カテゴリに分類された分析対象文書の数（つまり、第２の文書数）、｜Ｃｊ∧ｔｉ｜は属性値の対象カテゴリに分類された分析対象文書であって対象単語を指定テキスト中に含む分析対象文書の数（つまり、第３の文書数）を表している。

ここで、図１７を参照して、第１のリフト値の具体例について説明する。ここでは、対象単語が「ポイント」であり、属性値の対象カテゴリが属性値「パソコン」のカテゴリであり、目的変数の対象カテゴリが目的変数「成功」のカテゴリであるものとする。また、上記した第１の文書数が２５であり、第２の文書数が３０であり、第３の文書数が１００であるものとする。この場合における第１のリフト値は、２５／（３０＊１００）＝０．００８となる。

組要因抽出部１４２は、算出された第１のリフト値が予め定められた値（以下、閾値と表記）以上であるか否かを判定する（ステップＳ２５）。

第１のリフト値が閾値以上でないと判定された場合（ステップＳ２５のＮＯ）、後述するステップＳ２８の処理が実行される。

一方、第１のリフト値が閾値以上であると判定された場合（ステップＳ２５のＹＥＳ）、組要因抽出部１４２は、目的変数の対象カテゴリおよび属性値の対象カテゴリの両方に分類された分析対象文書の数（以下、第４の文書数と表記）と、目的変数の対象カテゴリに分類された文書の数（以下、第５の文書数と表記）と、属性値の対象カテゴリに分類された分析対象文書の数（以下、第６の文書数と表記）に基づいて第２のリフト値を算出する（ステップＳ２６）。

上記した第１のリフト値が対象単語を組み合わせた後のリフト値であるものとすると、第２のリフト値は、対象単語を組み合わせる前のリフト値であり、第４の文書数を第５の文書数と第６の文書数の積で割った値となる。つまり、第２のリフト値は、以下の式（１３）によって算出される。

なお、式（１３）において、上記したようにＣｏは目的変数の対象カテゴリ、Ｃｊは属性値の対象カテゴリを表している。また、｜Ｃｏ∧Ｃｊ｜は目的変数の対象カテゴリおよび属性値の対象カテゴリの両方に分類された分析対象文書の数（つまり、第４の文書数）、｜Ｃｏ｜は目的変数の対象カテゴリに分類された分析対象文書の数（つまり、第５の文書数）、｜Ｃｊ｜は属性値の対象カテゴリに分類された分析対象文書の数（つまり、第６の文書数）を表している。

ここで、図１８を参照して、第２のリフト値の具体例について説明する。ここでは、対象単語が「ポイント」であり、属性値の対象カテゴリが属性値「パソコン」のカテゴリであり、目的変数の対象カテゴリが目的変数「成功」のカテゴリであるものとする。また、上記した第４の文書数が４５であり、第５の文書数が８５であり、第６の文書数が５００であるものとする。この場合における第２のリフト値は、４５／（８５＊５００）＝０．００１となる。

組要因抽出部１４２は、ステップＳ２４において算出された第１のリフト値がステップＳ２６において算出された第２リフト値より大きいか否かを判定する（ステップＳ２７）。

第１のリフト値が第２のリフト値より小さいと判定された場合（ステップＳ２７のＮＯ）、組要因抽出部１４２は、全ての目的変数のカテゴリについてステップＳ２３〜Ｓ２７の処理が実行されたか否かを判定する（ステップＳ２８）。全ての目的変数のカテゴリについて処理が実行されていないと判定された場合（ステップＳ２８のＮＯ）、上記したステップＳ２３に戻って処理が繰り返される。一方、全ての目的変数のカテゴリについて処理が実行されたと判定された場合（ステップＳ２８のＹＥＳ）、後述するステップＳ３２の処理が実行される。

また、上記したステップＳ２７において第１のリフト値が第２のリフト値より大きいと判定された場合（ステップＳ２７のＹＥＳ）、組要因抽出部１４２は、要因抽出用リストに登録されている対象単語に対象属性値を追加（登録）する（ステップＳ２９）。なお、上記した第１のリフト値および第２のリフト値の具体例を用いて説明すると、上記したように第１のリフト値が０．００８であり、第２のリフト値が０．００１である場合、第１のリフト値が第２のリフト値より大きいため、対象単語「ポイント」に対象属性値「パソコン」が追加される。

次に、組要因抽出部１４２は、対象単語および属性値の対象カテゴリに基づいて、補助単語抽出処理を実行する（ステップＳ３０）。この補助単語抽出処理は前述した要因単語抽出処理と同様の処理であるため、組要因抽出部１４２によって要因単語抽出部１４１が呼び出され、当該要因単語抽出部１４１によって実行される。なお、補助単語抽出処理では、前述した要因単語抽出処理とは異なり、対象単語を指定テキスト中に含む分析対象文書であって属性値の対象カテゴリに分類された分析対象文書（以下、対象分析対象文書と表記）が対象とされる。

ここで、ステップＳ３０において実行される補助単語抽出処理について、前述した図１３を用いて説明する。なお、ここでは前述した図１３と異なる部分について主に述べる。また、補助単語抽出処理は、要因単語抽出部１４１によって実行されるものとして説明する。

まず、図１３に示すステップＳ１の処理が実行される。この場合、補助単語抽出処理による抽出結果のリスト（以下、補助単語用リスト）が初期化される。

次に、要因単語抽出部１４１は、上記した対象分析対象文書に含まれる指定テキストを形態素解析する（ステップＳ１２）。これにより、要因単語抽出部１４１は、形態素解析結果に基づいて単語の集合を取得する。

ここで、補助単語抽出処理において図１３に示すステップＳ１３の処理が実行された場合、対象分析対象文書が有する指定属性の属性値は同一であるため、当該対象分析対象文書の全てが属性値の対象カテゴリに分類される。このため、補助単語抽出処理のいては、このステップＳ１３の処理は省略されても構わない。

また、要因単語抽出部１４１は、対象分析対象文書を目的変数のカテゴリに自動分類する（ステップＳ１４）。

次に、要因単語抽出部１４１によって取得された単語の各々について以下のステップＳ１５〜Ｓ１７の処理が実行される。

この場合、要因単語抽出部１４１は、取得された単語の集合から単語を１つ取得する（ステップＳ１５）。以下、このステップＳ１５において取得された単語を補助単語候補と称する。

要因単語抽出部１４１は、補助単語候補を指定テキスト中に含む対象分析対象文書（の集合）が各目的変数のカテゴリで統計的に有意に偏って出現しているか否かを判定する（ステップＳ１６）。

ここで、補助単語抽出処理におけるステップＳ１６の判定処理について説明する。図１９は、補助単語候補を指定テキスト中に含む対象分析対象文書の集合と、各目的変数のカテゴリに分類された対象分析対象文書の集合とをクロス集計した結果の一例を示す。ここでは、属性値の対象カテゴリにおける当該属性値（つまり、対象属性値）が「パソコン」であり、対象単語が「ポイント」であり、補助単語候補が「永久」であるものとする。

なお、図１９においては、「パソコン∧ポイント∧永久」および「目的変数の各値（各目的変数のカテゴリ）」に対応づけられている数値は、当該補助単語候補「永久」を指定テキスト中に含む対象分析対象文書（属性値「パソコン」のカテゴリに分類された分析対象文書であって対象単語「ポイント」をテキスト中に含む分析対象文書）の集合と当該目的変数のカテゴリに分類された対象分析対象文書の集合との両方に存在する文書の数を表している。

図１９に示す例では、補助単語候補「永久」を指定テキスト中に含む対象分析対象文書の集合と目的変数「成功」のカテゴリに分類された対象分析対象文書の集合との両方に存在する文書の数（以下、「パソコン∧ポイント∧永久」および「成功」の文書数と表記）は２３である。また、補助単語候補「永久」を指定テキスト中に含む対象分析対象文書の集合と目的変数「失敗」のカテゴリに分類された対象分析対象文書の集合との両方に存在する文書の数（以下、「パソコン∧ポイント∧永久」および「失敗」の文書数と表記）は２である。これによれば、「パソコン∧ポイント∧永久」および「失敗」の文書数と比較すると、「パソコン∧ポイント∧永久」および「成功」の文書数が偏って多いことが示されている。

このような集合間の出現確率の偏りの有意性を判定する方法として、一元配置分散分析がある。従って、上記した補助単語抽出処理におけるステップＳ１６の判定処理においては、前述した要因単語抽出処理とは異なり、一元配置分散分析を用いる。

以下、一元配置分散分析を用いた判定処理について具体的に説明する。この場合、以下の式（１４）に基づいて総平方和Ｓｔが算出される。

この式（１４）において、ｄｆ（ｔ，Ｄ）は、対象分析対象文書集合をＤとした場合において、当該文書集合Ｄにおける補助単語候補ｔを指定テキスト中に含む文書の数である。また、式（１４）におけるＣＴは、以下の式（１５）によって定義される。

なお、式（１５）における｜Ｄ｜は、対象分析対象文書の数である。次に、以下の式（１６）に基づいて群間平方和（全体集合に対する目的変数の値毎での出現確率の偏りの平方和）Ｓａが算出される。

この式（１６）において、ａは目的変数のカテゴリの数である。また、目的変数のカテゴリをｏｂＣ１，ｏｂＣ２，…，ｏｂＣａとした場合におけるｄｆ（ｔ，ｏｂＣｉ）は、当該ｏｂＣｉに分類された対象分析対象文書集合における補助単語候補ｔを指定テキスト中に含む文書の数である。また、｜ｏｂＣｉ｜は、当該ｏｂＣｉに分類された対象分析対象文書の数である。

また、以下の式（１７）に基づいて群間平方和の自由度φａが算出される。

次に、上記した式（１４）および式（１６）に基づいて算出された総平方和Ｓｔおよび群間平方和Ｓａを以下の式（１８）に当てはめることによって、誤差変動和Ｓｅが算出される。

また、以下の式（１９）に基づいて誤差変動和の自由度φｅが算出される。

次に、上記した式（１６）および式（１７）に基づいて算出された群間平方和Ｓａおよび当該群間平方和の自由度φａを以下の式（２０）に当てはめることによって、群間の分散Ｖａが算出される。

更に、上記した式（１８）および式（１９）に基づいて算出された誤差変動和Ｓｅおよび当該誤差変動和の自由度φｅを以下の式（２１）に当てはめることによって、誤差の分散Ｖｅが算出される。

最後に、上記した式（２０）および式（２１）に基づいて算出された群間の分散Ｖａおよび誤算の分散Ｖｅを以下の式（２２）に当てはめることによって、分散比Ｆａが算出される。

上記した一元配置分散分析を用いた判定処理においては、式（２２）によって算出された分散比Ｆａが、式（１７）によって算出された群間平方和の自由度φａ、式（１９）によって算出された誤差変動和の自由度φｅのＦ分布の値よりも大きければ、各目的変数のカテゴリ間で、補助単語候補と対象単語および対象属性値との組の出現確率の偏りが有意である、つまり、補助単語候補を指定テキスト中に含む対象分析対象文書（の集合）が各目的変数のカテゴリで統計的に有意に偏って出現していると判定される。なお、自由度φａ、自由度φｅのＦ分布の値は、例えば文書分析装置１０において予め用意されているＦ分布表から取得されてもよいし、計算によって算出されても構わない。

上記したように補助単語候補を指定テキスト中に含む対象分析対象文書（の集合）が各目的変数のカテゴリで統計的に有意に偏って出現していると判定された場合（ステップＳ１６のＹＥＳ）、要因単語抽出部１４１は、対象単語を補助する補助単語として補助単語候補を補助単語用リストに追加（登録）する（ステップＳ１７）。

ステップＳ１７の処理が実行されると、前述した図１３に示すステップＳ１８以降の処理が実行される。

上記したように補助単語抽出処理が実行された場合には、対象分析対象文書の指定テキストを形態素解析することによって取得された単語の中から対象単語を補助する補助単語が抽出される。

再び図１５および図１６に戻ると、組要因抽出部１４２は、補助単語抽出処理によって抽出された補助単語（つまり、補助単語用リストに登録された補助単語）を、上記した対象単語および対象属性値に対応づけて要因抽出用リストに追加（登録）する（ステップＳ３１）。つまり、要因抽出用リストには、対象単語、対象属性値および補助単語の組が登録される。

ステップＳ３１の処理が実行された場合、または上記したステップＳ２８において全ての目的変数のカテゴリについて処理が実行されたと判定された場合、組要因抽出部１４２は、全ての属性値のカテゴリについて上記したステップＳ２２〜Ｓ３１の処理が実行されたか否かを判定する。

全ての属性値のカテゴリについて処理が実行されていないと判定された場合（ステップＳ３２のＮＯ）、上記したステップＳ２２に戻って処理が繰り返される。

一方、全ての属性値のカテゴリについて処理が実行されたと判定された場合（ステップＳ３２のＹＥＳ）、組要因抽出部１４２は、要因抽出用リストに登録されている全ての単語について上記したステップＳ２２〜Ｓ３２の処理が実行されたか否かを判定する（ステップＳ３３）。

全ての単語について処理が実行されていないと判定された場合（ステップＳ３３のＮＯ）、上記したステップＳ２１に戻って処理が繰り返される。

一方、全ての単語について処理が実行されたと判定された場合（ステップＳ３３のＹＥＳ）、組要因抽出部１４２は、要因抽出用リストをユーザインタフェース部１３０（に含まれる２軸マップ可視化部１３２）に対して出力する（ステップＳ３４）。

このように組要因抽出処理においては、要因抽出用リストに登録された単語とともに指定目的変数の要因となる属性値および当該単語を補助する補助単語が抽出される。

ここで、図２０は、組要因抽出部１４２によって出力された要因抽出用リストの一例を示す。

図２０に示すように、要因抽出用リストには、要因単語抽出部１４１によって抽出された単語、当該単語とともに指定目的変数の要因となる属性値および当該単語を補助する補助単語の組が登録されている。

なお、上記した要因単語抽出部１４１によって抽出された１つの単語（つまり、要因抽出用リストに登録されている単語）に対して複数の補助単語が補助単語抽出処理において抽出された場合、当該単語、属性値および当該補助単語の各々の組がそれぞれ要因抽出用リストに登録される。

具体的には、例えば要因単語抽出部１４１によって抽出された単語「ポイント」に対して２つの補助単語「永久」および「倍」が抽出された場合には、図２０に示すように、要因抽出用リストには、単語「ポイント」、属性値「パソコン」、補助単語「永久」の組および単語「ポイント」、属性値「パソコン」、補助単語「倍」の組が登録される。

次に、図２１のフローチャートを参照して、前述した抽出結果表示処理（図１０に示すステップＳ５の処理）の処理手順について説明する。なお、抽出結果表示処理は、ユーザインタフェース部１３０に含まれる２軸マップ可視化部１３２によって実行される。

まず、２軸マップ可視化部１３２は、２軸マップ可視化部１３２の返り値であるｖｉｅｗリストを初期化する（ステップＳ４１）。

次に、２軸マップ可視化部１３２は、組要因抽出部１４２によって出力された要因抽出用リストに登録されている単語、属性値および補助単語の組の各々から、単語および補助単語（つまり、当該単語を補助する単語）のペアと、属性値とを抽出する。以下、単語および補助単語のペアを単語ペアと称する。

２軸マップ可視化部１３２は、抽出された単語ペアおよび属性値を並び替える（ステップＳ４２）。この場合、要因抽出用リストに登録されている単語、属性値および補助単語の組の各々から抽出された複数の単語ペアは、当該単語ペア（つまり、単語および補助単語）を指定テキスト中に含む分析対象文書の数の順に並び替えられる。一方、要因抽出用リストに登録されている単語、属性値および補助単語の組の各々から抽出された複数の属性値は、当該要因抽出用リストにおいて当該属性値に対応づけられている単語の数（ペアとなる単語の数）、つまり、当該属性値とともに指定目的変数の要因となる単語の数の順に並び替えられる。

次に、２軸マップ可視化部１３２は、並び替えられた単語ペア（つまり、要因抽出用リストに登録されている単語ペア）の各々について、例えば当該並び替えられた順に以下のステップＳ４３〜Ｓ４８の処理を実行する。

この場合、２軸マップ可視化部１３２は、並び替えられた単語ペアを１つ取得する（ステップＳ４３）。以下、ステップＳ４３において取得された単語ペアを対象単語ペアと称する。

次に、２軸マップ可視化部１３２は、並び替えられた属性値（つまり、要因抽出用リストに登録されている属性値）のカテゴリの各々について、例えば当該並び替えられた順に以下のステップＳ４４〜Ｓ４７の処理を実行する。

この場合、２軸マップ可視化部１３２は、並び替えられた属性値のカテゴリを示す属性値カテゴリ情報をカテゴリ格納部１２０から１つ取得する（ステップＳ４４）。以下、このステップＳ４３において取得された属性値カテゴリ情報によって示される属性値のカテゴリを属性値の対象カテゴリと称する。また、属性値の対象カテゴリにおける当該属性値（つまり、属性値の対象カテゴリに分類された分析対象文書に含まれる指定属性の属性値）を対象属性値と称する。

２軸マップ可視化部１３２は、対象単語ペア（つまり、単語および補助単語）を指定テキスト中に含む分析対象文書集合および属性値の対象カテゴリに分類された分析対象文書集合の両方に出現する文書集合を特定する（ステップＳ４５）。

２軸マップ可視化部１３２は、目的変数のカテゴリ毎に、特定された文書集合のうち当該目的変数のカテゴリに分類された文書数を特定する（ステップＳ４６）。

２軸マップ可視化部１３２は、特定された文書数を、対象単語ペアおよび対象属性値に対応づけて上記したｖｉｅｗリストに追加（登録）する（ステップＳ４７）。

次に、２軸マップ可視化部１３２は、並び替えられた全ての属性値のカテゴリについて上記したステップＳ４４〜Ｓ４７の処理が実行されたか否かを判定する（ステップＳ４８）。

並び替えられた全ての属性値のカテゴリについて処理が実行されていないと判定された場合（ステップＳ４８のＮＯ）、上記したステップＳ４４に戻って処理が繰り返される。

一方、並び替えられた全ての属性値のカテゴリについて処理が実行されたと判定された場合（ステップＳ４８のＹＥＳ）、２軸マップ可視化部１３２は、並び替えられた全ての単語ペアについて上記したステップＳ４３〜Ｓ４８の処理が実行されたか否かを判定する（ステップＳ４９）。

並び替えられた全ての単語ペアについて処理が実行されていないと判定された場合（ステップＳ４９のＮＯ）、上記したステップＳ４３に戻って処理が繰り返される。

一方、並び替えられた全ての単語ペアについて処理が実行されたと判定された場合（ステップＳ４９のＹＥＳ）、２軸マップ可視化部１３２は、ｖｉｅｗリストを出力する（ステップＳ５０）。これにより、ｖｉｅｗリストの内容は、例えば２軸マップとしてディスプレイ１５に表示される。

ここで、図２２は、２軸マップ可視化部１３２によって出力されたｖｉｅｗリストが表示された場合の表示画面の一例を示す。ここでは、ｖｉｅｗリストの内容が例えば２軸マップの形式で表示されている例について説明する。

図２２に示す表示画面２００においては、縦軸に単語ペア（指定目的変数の要因となる単語および当該単語を補助する補助単語）の一覧が表示され、横軸に属性値（当該単語とともに指定目的変数の要因となる属性値）の一覧が表示されている。図２２に示す例では、表示画面２００の縦軸には、「キャッシュバック半額」、「ポイント永久」、「ポイント倍」、「チラシ配布」および「入口配置」が表示されている。一方、表示画面２００の横軸には、「パソコン」、「テレビ」、「洗濯機」、「冷蔵庫」、「エアコン」が表示されている。なお、この縦軸の単語ペアおよび横軸の属性値の並び順は、上記した図２１に示すステップＳ４２の処理結果に基づくものである。

また、表示画面２００においては、縦軸の単語ペアと横軸の属性値とがクロスした欄に、当該単語ペアを指定テキスト中に含む分析対象文書集合および当該属性値のカテゴリに分類された分析対象文書集合の両方に出現する文書集合のうち各目的変数のカテゴリに分類された分析対象文書の数を円グラフで示している。なお、単語ペアを指定テキスト中に含む分析対象文書集合および属性値のカテゴリに分類された分析対象文書集合の両方に出現する文書集合のうち各目的変数のカテゴリに分類された分析対象文書の数は、上述した図２１に示すステップＳ４７の処理においてｖｉｅｗリストに登録されている。

具体的には、単語ペア「キャッシュバック半額」と属性値「パソコン」とがクロスした欄には、当該「キャッシュバック」および「半額」を指定テキスト中に含む分析対象文書集合および当該属性値「パソコン」のカテゴリに分類された分析対象文書集合の両方に出現する文書集合のうち各目的変数のカテゴリ（ここでは、目的変数「成功」および「失敗」のカテゴリ）に分類された分析対象文書の数が当該数の割合を表す円グラフで表示されている。

なお、図２２に示す例では、単語ペアを指定テキスト中に含む分析対象文書集合および当該属性値のカテゴリに分類された分析対象文書集合の両方に出現する文書集合のうち、目的変数「成功」のカテゴリに分類された分析対象文書の数の割合を斜線部分が表している。

また、図２２に示す表示画面２００において、円グラフに付加されている数値は、目的変数「成功」および「失敗」のカテゴリに分類された分析対象文書の数のうち多い方の数を示している。具体的には、単語ペア「キャッシュバック半額」と属性値「パソコン」とがクロスした欄では、目的変数「成功」のカテゴリに分類された分析対象文書の数として１２０が示されている。

ここでは、目的変数のカテゴリの各々に分類された分析対象文書の数のうち多い方の数が表示されるものとして説明したが、目的変数のカテゴリの各々に分類された分析対象文書の数のうち少ない方の数についても表示してもよいし、例えば各目的変数のカテゴリの各々に分類された分析対象文書の数の割合（％）等を示す数値が表示されてもよい。

ここでは、単語ペア「キャッシュバック半額」および属性値「パソコン」について主に説明したが、他の単語ペアおよび属性値についても同様である。

このような表示画面２００が表示されることによって、ユーザは、単語ペアおよび属性値（ここでは、製品の種類）の組み合わせに対して「成功」または「失敗」が多い（少ない）ということを容易に認識することができる。具体的には、単語ペア「キャッシュバック半額」および属性値「パソコン」の組み合わせについては「成功」の数が多いことから、ユーザは、パソコンの営業活動において半額をキャッシュバックすることが成功の要因になり得ることを認識することができる。

なお、図２２に示す例では、縦軸の単語ペアと横軸の属性値とがクロスした欄に円グラフが表示されるものとして説明したが、上記した当該単語ペアを指定テキスト中に含む分析対象文書集合および当該属性値のカテゴリに分類された分析対象文書集合の両方に出現する文書集合のうち各目的変数のカテゴリに分類された分析対象文書の数はユーザによって容易に認識されるような態様で表示されればよい。

また、図２２に示すように２軸マップが表示される方が好ましいが、例えば単語ペアに含まれる単語（要因単語抽出部１４１によって抽出された単語）および属性値（当該単語とともに指定目的変数の要因となる属性値）のみが表示される構成であっても構わない。例えば単語「キャッシュバック」および属性値「パソコン」が表示された場合には、ユーザは、パソコンの営業活動において「キャッシュバック」の観点が目的変数（成功または失敗）の要因であることを認識することができる。

上記したように本実施形態においては、分析対象文書に含まれる文字列を解析することによって複数の単語を取得し、当該取得された単語毎に、当該単語からなる文字列を含む分析対象文書であって属性値のカテゴリの各々に分類された分析対象文書の集合が、各目的変数のカテゴリにおいて統計的に有意に偏って出現しているかを判定し、当該分析対象文書の集合が各目的変数のカテゴリにおいて統計的に有意に偏って出現していると判定された単語を目的変数の要因として抽出し、属性値のカテゴリ毎に第１のリフト値を算出し、当該第１のリフト値が閾値以上であり、第２のリフト値より大きい場合、当該第１のリフト値が算出された属性値のカテゴリに分類された文書に含まれる属性値を、目的変数の要因として抽出し、当該抽出された単語および属性値を提示する構成により、例えばユーザ自身が様々な属性とキーワードを組み合わせて分析することなく、目的変数の要因を自動的に抽出することが可能となり、ユーザは、当該目的変数の要因（事象に対する要因）を容易に認識することができる。

また、本実施形態においては、上述した補助単語抽出処理において補助単語を抽出して提示する構成により、目的変数の要因として意味がある言語表現をより正確に抽出して提示することができるため、例えば上記したように単語および属性値のみを提示する場合と比較して、ユーザは、より目的変数の要因を的確に認識することが可能となる。具体的には、上記したように単語「キャッシュバック」および属性値「パソコン」が表示された場合には、ユーザは、パソコンの営業活動においてキャッシュバックをすることは考え得るが、どの程度キャッシュバックをすることが成功の要因となるかについては認識することができない。これに対して、上記したように補助単語「半額」が更に提示されることによって、ユーザは、パソコンの営業活動において半額キャッシュバックをすることが成功の要因となることを容易に認識することが可能となる。

また、本実施形態においては、目的変数の要因として抽出された属性値を含む文書の集合および当該目的変数の要因として抽出された単語を含む文書の集合の両方に存在する文書であって、目的変数のカテゴリの各々に分類された文書の数を更に提示する構成により、ユーザは、提示された属性値および単語が要因として影響する目的変数（例えば、成功または失敗）を容易に把握することができる。

なお、上記した実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）光磁気ディスク（ＭＯ）、半導体メモリなどの記憶媒体に格納して頒布することもできる。

また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。

また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワークソフト等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。

更に、本発明における記憶媒体は、コンピュータと独立した媒体に限らず、ＬＡＮやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。

また、記憶媒体は１つに限らず、複数の媒体から本実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であってもよい。

なお、本発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するものであって、パソコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。

また、本発明におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０…文書分析装置、１１…記憶装置、１２…キーボード、１３…マウス、１４…中央演算装置、１５…ディスプレイ、１１０…文書格納部、１２０…カテゴリ格納部、１３０…ユーザインタフェース部、１３１…カテゴリ表示操作部、１３２…２軸マップ可視化部、１４０…要因抽出部、１４１…要因単語抽出部、１４２…組要因抽出部。

前記第１の算出手段は、前記第１の抽出手段によって抽出された単語を含む文書であって前記第１のカテゴリおよび前記第２のカテゴリの両方に分類された文書の数と、当該第２のカテゴリに分類された文書の数と、当該単語からなる文字列を含む文書であって当該第１のカテゴリに分類された文書の数とに基づいて、第１のリフト値を算出する。

前記第２の算出手段は、前記算出された第１のリフト値が予め定められた値以上であると前記第２の判定手段によって判定された場合、前記第１のカテゴリおよび前記第２のカテゴリの両方に分類された文書の数と、当該第１のカテゴリに分類された文書の数と、当該第２のカテゴリに分類された文書の数とに基づいて、第２のリフト値を算出する。

Claims

複数の単語からなる文字列を含む複数の文書であって、属性および目的変数を有し、当該属性の属性値および当該目的変数の値を含む複数の文書を格納する文書格納手段と、
前記文書格納手段に格納されている複数の文書に含まれる文字列を解析することによって複数の単語を取得する要因単語候補取得手段と、
前記文書格納手段に格納されている複数の文書に含まれる属性値に基づいて当該複数の文書が分類された複数の第１のカテゴリを生成する第１の生成手段と、
前記文書格納手段に格納されている複数の文書に含まれる目的変数の値に基づいて当該複数の文書が分類された複数の第２のカテゴリを生成する第２の生成手段と、
前記取得された単語毎に、当該単語を含む文書であって前記第１の生成手段によって生成された第１のカテゴリの各々に分類された文書の集合が、前記第２の生成手段によって生成された各第２のカテゴリにおいて統計的に有意に偏って出現しているかを判定する第１の判定手段と、
前記文書の集合が前記第２の生成手段によって生成された各第２のカテゴリにおいて統計的に有意に偏って出現していると判定された単語を、前記目的変数の要因として抽出する第１の抽出手段と、
前記第１の生成手段によって生成された第１のカテゴリ毎に、前記抽出された単語を含む文書、当該第１のカテゴリに分類された文書および前記第２の生成手段によって生成された第２のカテゴリの各々に分類された文書に基づいて、第１のリフト値を算出する第１の算出手段と、
前記算出された第１のリフト値が予め定められた値以上であるかを判定する第２の判定手段と、
前記算出された第１のリフト値が予め定められた値以上であると前記第２の判定手段によって判定された場合、当該第１のリフト値が算出された第１のカテゴリに分類された文書および前記第２の生成手段によって生成された第２のカテゴリに分類された文書に基づいて、第２のリフト値を算出する第２の算出手段と、
前記第１の算出手段によって算出された第１のリフト値が前記第２の算出手段によって算出された第２のリフト値より大きいかを判定する第３の判定手段と、
前記第１のリフト値が前記第２のリフト値より大きいと前記第３の判定手段によって判定された場合、当該第１のリフト値が算出された第１のカテゴリに分類された文書に含まれる属性値を、前記目的変数の要因として抽出する第２の抽出手段と、
前記第１の抽出手段によって抽出された単語および前記第２の抽出手段によって抽出された属性値を提示する提示手段と
を具備することを特徴とする文書分析装置。
前記第１の抽出手段によって抽出された単語を含む文書であって前記第２の抽出手段によって抽出された属性値を含む文書に含まれる文字列を解析することによって当該文書に含まれる単語を取得する補助単語候補取得手段と、
前記補助単語候補取得手段によって取得された単語毎に、当該単語を含む文書であって前記第２の抽出手段によって抽出された属性値を含む文書の集合が、前記第２の生成手段によって生成された各第２のカテゴリにおいて統計的に有意に偏って出現しているかを判定する第４の判定手段と、
前記文書の集合が前記第２の生成手段によって生成された各第２のカテゴリにおいて統計的に有意に偏って出現していると前記第４の判定手段によって判定された単語を、前記目的変数の要因として抽出する第３の抽出手段と
を更に具備し、
前記提示手段は、前記第３の抽出手段によって抽出された単語を更に提示する
ことを特徴とする請求項１記載の文書分析装置。
前記提示手段は、前記第１の生成手段によって生成された第１のカテゴリに分類された前記第２の抽出手段によって抽出された属性値を含む文書の集合および前記第１の抽出手段によって抽出された単語を含む文書の集合の両方に存在する文書であって、前記第２の生成手段によって生成された第２のカテゴリの各々に分類された文書の数を更に提示することを特徴とする請求項１記載の文書分析装置。
前記第１の判定手段は、前記第１の生成手段によって生成された複数の第１のカテゴリの数と、前記第２の生成手段によって生成された複数の第２のカテゴリの数と、当該第１のカテゴリの各々及び当該第２のカテゴリの各々の両方に分類された文書の数とを用いて分散分析を行うことによって、前記文書の集合が前記第２の生成手段によって生成された各第２のカテゴリにおいて統計的に有意に偏って出現しているかを判定することを特徴とする請求項１記載の文書分析装置。
前記第１の算出手段によって算出された第１のリフト値は、前記第１の抽出手段によって抽出された単語を含む文書であって前記第１のカテゴリおよび前記第２のカテゴリに分類された文書の数を、当該第２のカテゴリに分類された文書の数と当該単語からなる文字列を含む文書であって当該第１のカテゴリに分類された文書の数とを積算した値で除算した値を含み、
前記第２の算出手段によって算出された第２のリフト値は、前記第１のカテゴリおよび前記第２のカテゴリの両方に分類された文書の数を、当該第１のカテゴリに分類された文書の数と当該第２のカテゴリに分類された文書の数とを積算した値で除算した値を含む
ことを特徴とする請求項１記載の文書分析装置。
複数の単語からなる文字列を含む複数の文書であって、属性および目的変数を有し、当該属性の属性値および当該目的変数の値を含む複数の文書を格納する文書格納手段を有する文書分析装置のコンピュータによって実行されるプログラムであって、
前記コンピュータに、
前記文書格納手段に格納されている複数の文書に含まれる文字列を解析することによって複数の単語を取得するステップと、
前記文書格納手段に格納されている複数の文書に含まれる属性値に基づいて当該複数の文書が分類された複数の第１のカテゴリを生成するステップと、
前記文書格納手段に格納されている複数の文書に含まれる目的変数の値に基づいて当該複数の文書が分類された複数の第２のカテゴリを生成するステップと、
前記取得された単語毎に、当該単語を含む文書であって前記生成された第１のカテゴリの各々に分類された文書の集合が、前記生成された各第２のカテゴリにおいて統計的に有意に偏って出現しているかを判定するステップと、
前記文書の集合が前記生成された拡大２のカテゴリにおいて統計的に有意に偏って出現していると判定された単語を、前記目的変数の要因として抽出するステップと、
前記生成された第１のカテゴリ毎に、前記抽出された単語を含む文書、当該第１のカテゴリに分類された文書および前記生成された第２のカテゴリの各々に分類された文書に基づいて、第１のリフト値を算出するステップと、
前記算出された第１のリフト値が予め定められた値以上であるかを判定するステップと、
前記算出された第１のリフト値が予め定められた値以上であると判定された場合、当該第１のリフト値が算出された第１のカテゴリに分類された文書および前記生成された第２のカテゴリに分類された文書に基づいて、第２のリフト値を算出するステップと、
前記算出された第１のリフト値が前記算出された第２のリフト値より大きいかを判定するステップと、
前記第１のリフト値が前記第２のリフト値より大きいと判定された場合、当該第１のリフト値が算出された第１のカテゴリに分類された文書に含まれる属性値を、前記目的変数の要因として抽出するステップと、
前記抽出された単語および前記抽出された属性値を提示するステップと
を実行させるためのプログラム。