JP2012048291A

JP2012048291A - 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム

Info

Publication number: JP2012048291A
Application number: JP2010187144A
Authority: JP
Inventors: Yugo Nishikawa; 侑吾西川; Naoyuki Ito; 直之伊藤; Kazuhisa Ono; 和久大野
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2010-08-24
Filing date: 2010-08-24
Publication date: 2012-03-08
Anticipated expiration: 2030-08-24
Also published as: JP5703629B2

Abstract

【課題】異なる複数の文章に含まれる単語を用いて同義語を検出することが可能であって、汎用性を有し、幅広く同義語を定義することが可能な同義語辞書生成装置等を提供する。
【解決手段】文書解析システム１００は、入力インターフェース１１０を介して取得した各アンケートデータに対して、評価表現を示す評価表現テキストと当該評価テキストが修飾する被修飾語テキストのセットをテキストセットとして抽出しつつ、評価表現テキスト、カテゴリ情報及び被修飾語テキストの出現頻度数に基づいて同義語を定義するようになっている。
【選択図】図１

Description

本発明は、同義語を抽出する検索システムの技術に関する。

近年、パーソナルコンピュータなどの通信端末装置またはインターネットなどのネットワークの発達に伴って、データベースに予め記憶されている複数のデータの中からキーワードなどの所定の検索キーに基づいて、ユーザの所望するデータを検出する検索システム及びデータを解析する解析システムが一般化している。また、最近では、キーワードを用いて当該キーワードを有する文書データの検出またはデータの解析を実行する他に、当該キーワードと完全同一ではないもの、当該キーワードの同義語に一致する文書データも検出するシステムも考案されており、ユーザが所望する文書データを的確に検出すること、及び、データの解析を的確にすることを実現できるようになっている。

このような状況下において、同義語を用いたデータ検索システムまたはデータ解析システムにおいては、検索または解析するためのキーワードに対する同義語を予め定義してグループ化すること（すなわち、辞書化すること）が重要になっている。例えば、従来のデータ検索システムとしては、括弧記号に基づいて同義語を自動抽出するものが知られている（例えば、特許文献１）。具体的には、このデータ検索システムは、所定の文章データに対して形態素解析を実行するとともに、当該文章データに対して開き丸括弧記号「（」を検出し、当該記号を検出した場合に、開き丸括弧直後の品詞によって規定される単語を、当該開き括弧の直前の品詞によって規定される単語における同義語と認定するようになっている。

特開平５−２９８３７１号公報

しかしながら、特許文献１に記載のデータ検索システムにあっては、開き丸括弧の特別な記号に基づいて同義語を検出しており、特別な記号によって対象となる文章内に定義されていなければ同義語として検出することができず、通常の文章の関係性から同義語を抽出することができないので、汎用性に乏しい。また、このデータ検索システムにあっては、同一の文章内に存在しなければ同義語として検出することができないので、異なる他の文章に基づいて同義語を抽出することができないので、幅広く同義語を検出することができない。

本発明は、上記課題を解決するためになされたものであり、その目的は、異なる複数の文章に用いられた単語を用いて同義語を検出することが可能であって、汎用性を有し、幅広く同義語を定義することが可能な同義語辞書生成装置並びにそれを用いたデータ検索装置及びデータ解析装置等を提供することにある。

（１）上記課題を解決するため、本発明の同義語辞書生成装置は、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段と、前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段と、前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、を備える構成を有している。

この構成により、本発明の同義語辞書生成装置は、カテゴリ情報及び出現頻度数を用いて同一のカテゴリにおいて同一の評価表現における被修飾語テキストのセットである単語の組を同義語として定義して同義語辞書を生成することができる。一般的に、共通の文書の内容について同一の評価表現を用いている場合には、当該同一の評価表現が修飾する異なる修飾語テキストは同義語となる。したがって、本発明は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義することができる。この結果、本発明は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を生成することができる。

（２）また、本発明の同義語辞書生成装置は、前記出現頻度数定義手段が、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数の少ない頻度をセット出現頻度数として定義する構成を有している。

この構成により、本発明の同義語辞書生成装置は、被修飾語セットにおける一方の被修飾語テキストの出現頻度数が著しく大きくなった場合であっても、その一方の被修飾語テキストの出現頻度数による影響が大きくなることを防ぐことができるので、他の被修飾語セットと比較して同義語を定義する場合に、その的確性を向上させることができる。

（３）また、本発明の同義語辞書生成装置は、前記文書データが、単一の文章のテキストから形成されている構成を有している。

この構成により、本発明の同義語辞書生成装置は、単一の文章のテキストを入力すれば、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して同義語辞書を生成することができる。

（４）また、本発明の同義語辞書生成装置は、前記文書データが、複数の文章のテキストであって単一のカテゴリ情報から形成されている構成を有している。

この構成により、本発明の同義語辞書生成装置は、単一のカテゴリ情報が付与されていれば複数の文章のテキストであっても、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して同義語辞書を生成することができる。

（５）また、本発明の同義語辞書生成装置は、前記取得手段が、同一主題を有する複数の文書データを外部から取得する構成を有している。

この構成により、本発明の同義語辞書生成装置は、イベント、店舗、施設、商品またはサービスの評価などのアンケート、Ｗｅｂページ、新聞や雑誌の記事または本による、同一の事件、事故または問題などの同一のトピックについて記載された文章、または、同一のジャンルでカテゴライズされた文章などの同一の主題を有する文書の文書データを用いることによって、専門性が高い文章であっても、または、汎用的な文章でない場合であっても、的確に同義語辞書を生成することができる。

（６）上記課題を解決するため、本発明の同義語辞書生成装置は、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段と、前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、予め定められた基準を具備する被修飾語セットに属する被修飾語テキストの組をそれぞれ同義語として定義して同義語辞書を生成する同義語辞書生成手段と、を備える構成を有している。

（７）上記課題を解決するため、本発明のデータ解析装置は、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の学習データを外部から取得する取得手段と、前記学習データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段と、前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、前記定義された同義語毎に前記学習データにおける出現頻度数を同義語出現頻度数として検出する検出手段と、前記検出された同義と出現頻度数と同義語を対応付けて出力する出力手段と、を備える構成を有している。

この構成により、本発明のデータ解析装置は、異なる複数の文章及び異なる複数の文書に属する単語に基づいて定義され、汎用性を有し、かつ、幅広く同義語を定義された同義語辞書を用いてデータ解析を行うことができるので、異なる単語であっても同義語であれば、出現頻度数が種々の単語によって分散せずに単一の単語として的確に出現頻度を算出することができる。通常、学習データから意見抽出を行う場合または内容を分析する場合には、記載された単語の出現頻度に基づいて解析される。したがって、本発明は、単語の表記が異なることによって分散されていた学習データにおける単語の出現頻度を的確に算出することができるとともに解析するデータを用いて同義語辞書を生成するので、学習データから的確に意見抽出を行うこと、または、学習データを的確に分析することができる。

（８）上記課題を解決するため、本発明のデータ検出装置は、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の学習データを外部から取得する取得手段と、前記学習データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段と、前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、前記生成された同義語辞書を用いつつ、ユーザによって入力されたキーワードに基づいて、データベースに記憶された複数の文書データの中から該当する文書データを検出する検出手段と、前記検出した文書データまたは当該文書データに関する情報を提示する提示手段と、を備える構成を有している。

この構成により、本発明のデータ検出装置は、異なる複数の文章及び異なる複数の文書に属する単語に基づいて定義され、汎用性を有し、かつ、幅広く同義語を定義された同義語辞書を用いて文書データの検出を行うことができるので、単語の表記が異なることによって検出できないユーザが所望する文書データをも、的確に検出することができる。

（９）上記課題を解決するため、本発明の同義語辞書生成方法は、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得工程と、前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出工程と、前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計工程と、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成工程と、前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義工程と、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出工程と、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成工程と、を備える構成を有している。

この構成により、本発明の同義語辞書生成方法は、カテゴリ情報及び出現頻度数を用いて同一のカテゴリにおいて同一の評価表現における被修飾語テキストのセットである単語の組を同義語として定義して同義語辞書を生成することができる。一般的に、共通の文書の内容について同一の評価表現を用いている場合には、当該同一の評価表現が修飾する異なる修飾語テキストは同義語となる。したがって、本発明は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義することができる。この結果、本発明は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を生成することができる。

（１０）上記課題を解決するため、本発明の同義語辞書生成プログラムは、コンピュータを、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段、前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段、前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段、前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段、及び、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段、として機能させる構成を有している。

この構成により、本発明の同義語辞書生成プログラムは、カテゴリ情報及び出現頻度数を用いて同一のカテゴリにおいて同一の評価表現における被修飾語テキストのセットである単語の組を同義語として定義して同義語辞書を生成することができる。一般的に、共通の文書の内容について同一の評価表現を用いている場合には、当該同一の評価表現が修飾する異なる修飾語テキストは同義語となる。したがって、本発明は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義することができる。この結果、本発明は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を生成することができる。

本発明の同義語辞書生成装置、同義語辞書生成方法及び同義語辞書生成プログラムは、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義することができる。したがって、本発明は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を生成することができる。

また、本発明のデータ解析装置は、単語の表記が異なることによって分散されていた学習データにおける単語の出現頻度を的確に算出することができるとともに解析するデータを用いて同義語辞書を生成するので、学習データから的確に意見抽出を行うこと、または、学習データを的確に分析することができる。

また、本発明のデータ検出装置は、異なる複数の文章及び異なる複数の文書に属する単語に基づいて定義され、汎用性を有し、かつ、幅広く同義語を定義された同義語辞書を用いて文書データの検出を行うことができるので、単語の表記が異なることによって検出できないユーザが所望する文書データをも、的確に検出することができる。

本発明に係る文書解析システムにおける第１実施形態の構成を示すシステム構成図である。第１実施形態において、取得するアンケートデータとカテゴリ情報について説明するための図である。第１実施形態において、抽出されたテキストセットとカテゴリ情報の関係について説明するための図である。第１実施形態において、被修飾語セットとセット出現頻度数について説明するための図である。第１実施形態において、合算された全カテゴリの被修飾語セットについて説明するための図である。第１実施形態において、データ解析された学習データについて説明するための図である。第１実施形態のデータ解析処理の動作を示すフローチャートである。本発明に係る文書検出システムにおける第２実施形態の構成を示すシステム構成図である。第２実施形態の文書検出処理の動作を示すフローチャートである。

以下、本発明の各実施形態について、図面を参照しながら説明する。以下に説明する実施形態は、アンケートにおける顧客の回答文書（以下、単に「アンケート」という。）を文書データ（学習データ）として用いて当該アンケートの解析を行う文書解析システム、または、複数の文書データの中から該当する文書データを検出する文書検索システムに、本発明の同義語辞書生成装置、データ解析装置及びデータ検出装置などを適用した場合の実施形態である。

＜第１実施形態＞
はじめに、図１〜図７の各図を用いて本発明に係る文書解析システム１００の実施形態について説明する。

［文書解析システムの概要構成］
まず、図１を用いて本実施形態の文書解析システム１００の概要構成について説明する。なお、図１は、本実施形態の文書解析システム１００の構成を示すシステム構成図である。

文書解析システム１００は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）またはサーバ装置など種々の機能を備えたコンピュータ装置である。特に、文書解析システム１００は、共通の文書の内容については同一のカテゴリを示すテゴリ情報を有する各アンケートデータであって、イベント、店舗、施設、商品またはサービスの評価など同一の主題におけるアンケートデータを用いるとともに、当該アンケートデータを学習データとして同義語辞書を生成しつつ、当該学習データのデータ解析を行うようになっている。

文書解析システム１００は、図１に示すように、入力インターフェース１１０、通信インターフェース１２０、データ記憶部１３０、ディスプレイ１７０、当該ディスプレイ１７０を制御する表示制御部１５０及びＲＯＭ／ＲＡＭ１６０の種々のハードウェアとともに、所定の処理を実行するデータ処理部１４０及びシステム全体を管理するシステム管理制御部１８０を有している。そして、文書解析システム１００は、入力インターフェース１１０若しくは通信インターフェース１２０を介して取得した、または、データ記憶部１３０から読み出して取得した各アンケートデータに対して、評価表現を示す評価表現テキストと当該評価テキストが修飾する被修飾語とによって構成されるテキストのセットをテキストセットとして抽出しつつ、評価表現テキスト、カテゴリ情報及び被修飾語テキストの出現頻度に基づいて同義語を定義するようになっている。一般的に、共通の文書の内容について同一の評価表現を用いている場合には、当該同一の評価表現が修飾する異なる修飾語テキストは同義語となる。そこで、本実施形態の文書解析システム１００は、この性質を利用し、同一の評価表現に基づいて生成された被修飾語テキストのセットにおいて所定の条件の具備した場合に、すなわち、評価表現毎にかつカテゴリ毎に集計された各文書データの被修飾語テキストの出現頻度数を集計し、当該集計した出現頻度数が予め定められた基準を具備した場合に、被修飾語セットに属する被修飾語テキストの組をそれぞれ同義語として定義して同義語辞書を生成するようになっている。

また、文書解析システム１００は、定義された同義語を同義語辞書として用いつつ、アンケートデータのデータ解析を実行し、当該アンケートデータからの意見抽出を行うようになっている。具体的には、文書解析システム１００は、同義語を含めて被修飾語テキストに対するアンケートデータ全体における出現頻度数（以下、「同義語出現頻度数」ともいう。）を算出し、当該算出された結果を、アンケートを実行したユーザにおける頻出意見として意見抽出の結果として提示することができるようになっている。

なお、本実施形態における入力インターフェース１１０、通信インターフェース１２０、データ記憶部１３０、ディスプレイ１７０、表示制御部１５０、ＲＯＭ／ＲＡＭ１６０、データ処理部１４０及びシステム管理制御部１８０は、バスＢによって互いに接続されている。

［システム構成］
次に、図１を用いて本実施形態の文書解析システム１００におけるシステム構成の詳細について説明する。

入力インターフェース１１０は、ユーザの操作入力またはアンケートデータのデータ入力に用いられ、キーボード、マウスまたはディスプレイ１７０上に設けられたタッチセンサなどの入力デバイスである。具体的には、入力インターフェース１１０は、解析すべきアンケートデータの入力、及び、アンケートデータにおける解析処理の実行中に後述する各処理を実行するための操作を行う際に用いられるようになっている。

通信インターフェース１２０は、ネットワークＮに接続されており、サーバ装置１０またはデータベース３００などの他の通信装置と通信回線を構築し、種々のデータの授受を行うようになっている。特に、通信インターフェース１２０は、データ処理部１４０と連動してアンケートデータの取得などアンケートデータの解析処理の実行中に必要なデータの授受を行うようになっている。

データ記憶部１３０は、複数のアンケートデータがカテゴリ情報に対応付けて予め記憶可能に形成されている。特に、データ記憶部１３０は、入力インターフェース１１０または通信インターフェース１２０を介して取得したアンケートデータを記憶することが可能になっている。また、データ記憶部１３０には、アンケートデータを解析することによって定義された同義語を同義語辞書データとして記憶される。

ディスプレイ１７０は、例えば、液晶素子、ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）素子またはＣＲＴによって形成された表示装置であり、表示制御部１５０において生成された表示データに基づいて所定の画像を表示するようになっている。特に、ディスプレイ１７０は、アンケートデータの解析処理の実行中に、入力インターフェース１１０と連動しつつ、操作入力の指示及びデータの解析結果などの種々の画像を表示するようになっている。なお、ディスプレイ１７０装置は、他のハードウェアとともに単一の筐体に組み込まれていてもよいし、他のハードウェアと別体に設けられていてもよい。また、例えば、本実施形態のディスプレイ１７０は、本発明の出力手段を構成する。

表示制御部１５０は、システム管理制御部１８０の制御の下またはデータ処理部１４０の制御の下、ディスプレイ１７０に所定の画像を描画させるために必要な描画データを生成するようになっており、生成された描画データを当該ディスプレイ１７０に出力するようになっている。

ＲＯＭ／ＲＡＭ１６０には、文書解析システム１００として機能するための各種の制御プログラムが記録されている。また、このＲＯＭ／ＲＡＭ１６０は、アンケートデータの解析処理の実行中に、取得したアンケートデータの一時的な保存など各種の処理が実行される際のワークエリアとして用いられる。

データ処理部１４０は、上述の各ハードウェアと協働し、アンケートデータの解析処理、すなわち、取得したアンケートデータを解析して同義語を定義しつつ、当該アンケートの集計を行うためのプログラム（以下、「アンケート集計プログラム」という。）を実行する。特に、アンケート集計プログラムによって実行される処理としては、
（１）カテゴリ情報が付与され、テキスト形式の単一の文章データ（以下、「文章テキスト」ともいう。）から構成される複数のアンケートデータ（すなわち、文書データ）を取得する取得処理、
（２）取得されたアンケートデータからカテゴリ情報とともに、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットを抽出し、各被修飾語テキストのカテゴリ毎の出現頻度数を算出する抽出処理、
（４）同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成し、当該被修飾セットとしての出現頻度数をセット出現頻度数として定義するセット出現頻度数定義処理、
（５）同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算するとともに、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する辞書生成処理、及び
（６）生成された同義語辞書を用いて取得した複数のアンケートデータのデータ解析の実行、
の各処理を実行する。

具体的には、データ処理部１４０は、アンケート集計プログラムの実行するために、図１に示すように、データ取得処理部１４１、抽出処理部１４２、出現頻度数定義部１４３、同義語定義部１４４及びデータ解析部１４５を構築する。

なお、本実施形態のデータ処理部１４０の構成及びその動作の詳細については後述する。また、例えば、本実施形態のデータ取得処理部１４１は、本発明の取得手段を構成し、抽出処理部１４２は、本発明の抽出手段及び集計手段を構成する。さらに、例えば、本実施形態の出現頻度数定義部１４３は、本発明の被修飾語セット生成手段及び出現頻度数定義手段を構成し、同義語定義部１４４は、本発明の算出手段及び同義語辞書生成手段を構成するとともに、データ解析部１４５は、本発明の検出手段を構成する。

システム管理制御部１８０は、主に中央演算処理装置（ＣＰＵ）によって構成されるとともに、キー入力ポート、表示制御ポート等の各種入出力ポートを含み、文書解析システム１００の全般的な機能及びアンケート集計プログラムを実行するための全般的な機能を総括的に制御するようになっている。

［データ処理部］
次に、図２〜図６の各図を用いて本実施形態のデータ処理部１４０における各部の構成及び動作について説明する。

なお、図２は、本実施形態において、取得するアンケートデータとカテゴリ情報について説明するための図であり、図３は、本実施形態において、抽出されたテキストセットとカテゴリ情報の関係について説明するための図である。また、図４は、本実施形態において、被修飾語セットとセット出現頻度数について説明するための図であり、図５は、本実施形態において、合算された全カテゴリの被修飾語セットについて説明するための図である。さらに、図６は、本実施形態において、データ解析された学習データについて説明するための図である。

データ取得処理部１４１は、入力インターフェース１１０、ディスプレイ１７０及び表示制御部１５０と連動しつつ、対話型のアプリケーションプログラムに基づいて、各アンケートデータ（すなわち、文章テキスト）を取得するようになっている。特に、データ取得処理部１４１は、入力インターフェース１１０によって操作入力されたカテゴリ情報であるカテゴリフラグの種別の情報（以下、「カテゴリフラグ」という。）とともに、各アンケートデータを取得するようになっている。

例えば、データ取得処理部１４１は、図２に示すように、文章テキスト「レストランの従業員が親切だった」とカテゴリフラグ「３（店員について）」、文章テキスト「入場料が高い」とカテゴリフラグ「２（価格について）」、文章テキスト「店員が親切」とカテゴリフラグ「３（店員について）」、文章テキスト「花がきれい」とカテゴリフラグ「４（庭園について）」及び文章テキスト「値段がちょっと高い」とカテゴリフラグ「２（価格について）」などのアンケートデータとカテゴリ情報を取得するようになっている。なお、取得された各アンケートデータは、カテゴリ情報とともに、入力後に直接アンケート集計プログラムに用いられてもよいし、データ記憶部１３０に一時的に記憶されてもよい。

なお、データ取得処理部１４１は、入力インターフェース１１０からの入力に代えて、カテゴリ情報を有する各アンケートデータを、通信インターフェース１２０を介してサーバ装置１０またはデータベース３００から取得してもよい。また、データ取得処理部１４１は、通信インターフェース１２０によって取得したカテゴリ情報が付与されてないアンケートデータに対して、入力インターフェース１１０からの入力によって当該カテゴリ情報を付与してもよい。

一方、データ取得処理部１４１は、入力インターフェース１１０からの入力及び通信インターフェース１２０による取得に代えて、データ記憶部１３０に記憶された各アンケートデータを読み出すことによって当該各アンケートデータを取得してもよい。また、データ取得処理部１４１は、データ記憶部１３０に代えて、ＣＤ、ＤＶＤ、フラッシュメモリなど図示しない着脱可能な記録媒体から読み出すことによって各アンケートデータを取得するようにしてもよい。

抽出処理部１４２は、取得した各アンケートデータに対してそれぞれ形態素解析及び構文解析を実行して評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットをカテゴリ情報とともに抽出し、カテゴリ情報によって示されるカテゴリ毎に、かつ、同一の評価表現毎に、被修飾語テキストの出現頻度数を集計するようになっている。

具体的には、抽出処理部１４２は、「親切」、「高い」、「きれい」、「やさしい」その他の名詞、形容詞、形容動詞を含む質や量の対象の値を表す表現、または、感情を表す評価表現などの評価表現テキストのリストデータ（以下、「評価表現辞書データ」ともいう。）を備えている。そして、抽出処理部１４２は、この評価表現辞書データに基づいて、入力された文章テキストに対して形態素解析及び構文解析を実行し、文章テキストから当該リストデータにある評価表現テキストと一致する語句（テキスト）を抽出するようになっている。また、抽出処理部１４２は、当該一致したテキストが文章テキスト上において係る語句、すなわち、当該テキストが文章テキスト上において修飾する語句（すなわち、被修飾語テキスト）を検出し、評価表現テキストと被修飾語テキストの組み合わせ（テキストセット）を抽出するようになっている。また、抽出処理部１４２は、抽出したテキストセット毎に、当該各テキストセットに属する被修飾語テキストの出現頻度数を各カテゴリ毎に抽出して当該出現頻度数を集計するようになっている。

例えば、抽出処理部１４２は、図２に示すアンケートデータとカテゴリ情報が取得された場合には、図３（ａ）に示すように、評価表現テキストと被修飾テキストのテキストセット「親切」と「従業員」、「高い」と「入場料」、「親切」と「店員」などを抽出するとともに、それぞれのテキストセットにおけるカテゴリ情報を抽出するようになっている。そして、抽出処理部１４２は、図３（ｂ）に示すように、カテゴリ２（価格について）、カテゴリ３（店員について）及びカテゴリ４（庭園について）のカテゴリフラグ毎に、かつ、「高い」、「安い」、「親切」、「無愛想」、「やさしい」及び「きれい」の各評価表現テキスト毎に、「価格」、「入場料」、「食べ物」などの被修飾語テキストを抽出するとともに、各修飾語テキストの評価表現テキスト毎の出現頻度を抽出し、出現頻度数を集計するようになっている。

なお、抽出処理部１４２は、評価表現テキストとして、複数の形態素から構成される慣用句、例えば、「痒いところに手が届く」及び「目に余る」についても評価表現テキストとして抽出するようになっている。

出現頻度数定義部１４３は、同一カテゴリ毎に、各被修飾語テキストと同一の評価表現を有する他のテキストセットに属する他の被修飾語テキストと対応付けて、２つの被修飾語テキストから構成される被修飾語セットを生成し、当該被修飾セットとしての出現頻度数をセット出現頻度数として定義するようになっている。特に、出現頻度数定義部１４３は、被修飾語セットに属する各被修飾語テキストの共通の出現頻度数を、すなわち、被修飾語セットに属する各被修飾語テキストの少ない方の出現頻度数をセット出現頻度数として定義するようになっている。

例えば、出現頻度数定義部１４３は、図３に示すように、カテゴリ２について同一の評価表現テキスト「高い」について「価格」、「入場料」、「食べ物」のそれぞれのテキストセットが抽出され、出現頻度数がそれぞれ「２０」、「７」及び「２」と集計されている場合には、図４に示すように、「価格」と「入場料」、「価格」と「食べ物」及び「入場料」及び「食べ物」のそれぞれについての組合せの被修飾語セットを生成するようになっている。そして、出現頻度数定義部１４３は、各被修飾語セットに属する被修飾語テキスト（図４に示す被修飾語テキストＡ、Ｂ）の出現頻度「２０」と「７」、「２０」と「２」及び「７」と「２」それぞれを比較し、出現頻度数が少ない「７」、「２」及び「２」を各被修飾語セットのセット出現頻度数として定義するようになっている。すなわち、出現頻度数定義部１４３は、図４に示すように、各カテゴリにおいてそれぞれ被修飾語セットを生成してセット出現頻度数として定義するようになっている。

同義語定義部１４４は、同一の評価表現テキストについての被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算するとともに、当該セット出現頻度数が予め定められた閾値以上またはセット出現頻度数の高い上位３つなどの所定の条件を具備する被修飾語セットを検出する。そして、同義語定義部１４４は、当該検出された被修飾語セットに属する各被修飾語テキストをそれぞれの同義語として定義し、当該定義した同義語のリストを同義語辞書として生成するようになっている。

例えば、同義語定義部１４４は、図５に示すように、「価格」と「料金」、「従業員」と「店員」、「アトラクション」と「乗り物」など、各カテゴリ毎に生成された被修飾語セットにおけるそれぞれの被修飾語テキストＡ、Ｂが同一である同一の被修飾語セットのセット出現頻度数を合算し、所定の条件として閾値が出現頻度数「１００」以上の修飾語セット、「価格」と「料金」、「従業員」と「店員」、「アトラクション」と「乗り物」のそれぞれの被修飾語テキストＡ、Ｂを同義語として定義するようになっている。

データ解析部１４５は、同義語定義部１４４によって生成された同義語辞書を用いて取得した複数のアンケートデータに基づいて、当該アンケートにおけるテキスト（例えば、被修飾語テキスト）の頻度集計などのアンケート解析処理を実行するようになっている。

具体的には、アンケート解析処理として頻出意見の抽出を行う場合には、データ解析部１４５は、図６（ａ）に示す同義語辞書を用いて学習データとして用いたアンケートデータに対して被修飾語テキストの頻度を同義語毎に抽出してディスプレイ１７０などに提示するようになっている。例えば、同義語辞書を用いない場合であって、頻出意見の抽出を行う場合には、図６（ｂ）に示すように、「店員」と「従業員」及び「料金」と「入場料」とが別の被修飾語テキストとして出現頻度が別々に算出される。しかしながら、本実施形態のデータ解析部１４５は、上述の各処理を実行することによって、「料金」と「入場料」及び「店員」と「従業員」の各被修飾語テキストが同義語として定義されるので、図６（ｃ）に示すように、データ解析部１４５は、「料金」及び「店員」の出現頻度数が同義語「入場料」及び「従業員」の出現頻度数と合算されて提示するようになっている。

なお、これにより、データ解析部１４５は、頻出意見の抽出として被修飾語テキストを的確に抽出することができるようになっている。また、アンケート解析処理は、各被修飾語テキスト毎に出現頻度数を算出しつつ、同義語辞書に基づいて算出された各被修飾語テキストの出現頻度数を同義語毎に合算して再集計するようにしてもよい。すなわち、この場合には、アンケート解析処理は、図６（ｂ）の算出を先に実行し、その後に図６（ｃ）の再計算を実行するようにしてもよい。

［データ解析処理］
次に、図７を用いて本実施形態におけるデータ解析処理の動作について説明する。なお、図７は、本実施形態におけるデータ解析処理の動作を示すフローチャートである。

本動作は、入力インターフェース１１０を用いてカテゴリ情報を付与しつつ、複数のアンケートデータを取得する場合について説明する。また、既に、複数のアンケートデータを取得するためのデータ解析プログラムが起動しているものとする。

まず、データ取得処理部１４１が、入力インターフェース１１０を介して、アンケートデータの入力を開始する旨のユーザ指示を検出すると（ステップＳ１０１：ＹＥＳ）、当該入力インターフェース１１０及び表示制御部１５０と連動し、ディスプレイ１７０に種々の表示を行いつつ、ユーザによって入力されたアンケートデータ及びアンケートデータ毎に該当するカテゴリ情報を取得する（ステップＳ１０２）。このとき、データ取得処理部１４１は、対話型のアプリケーションプログラムを実行してアンケートデータ及びそのカテゴリ情報を取得するとともに、データ取得処理部１４１は、データ記憶部１３０に一時的に記憶する。

次いで、抽出処理部１４２は、取得した各アンケートデータに対してそれぞれ形態素解析及び構文解析を実行し（ステップＳ１０３）、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットをカテゴリ情報とともに抽出する（ステップＳ１０４）。

次いで、抽出処理部１４２は、カテゴリ情報によって示されるカテゴリ毎に、かつ、同一の評価表現毎に、被修飾語テキストの出現頻度数を集計するとともに（ステップＳ１０５）、出現頻度数定義部１４３は、同一カテゴリ毎に、被修飾語セットを生成し、当該被修飾セットとしての出現頻度数をセット出現頻度数として定義する（ステップＳ１０６）。

次いで、同義語定義部１４４は、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算するとともに（ステップＳ１０７）、当該セット出現頻度数が予め定められた閾値以上の条件を具備する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストをそれぞれの同義語として定義して同義語辞書を生成する（ステップＳ１０８）。

次いで、データ解析部１４５は、同義語定義部１４４によって生成された同義語辞書を用いて取得した複数のアンケートデータにおけるテキスト（例えば、被修飾語テキスト）の頻度数を集計するアンケート解析処理を実行する（ステップＳ１０９）。

最後に、データ解析部１４５は、アンケートの解析処理における結果をディスプレイ１７０に提示して（ステップＳ１１０）本動作を終了させる。

なお、本動作は、入力インターフェース１１０を用いてカテゴリ情報を付与しつつ、複数のアンケートデータを取得する場合について説明したが、通信インターフェース１２０を介してサーバ装置１０またはデータベース３００から取得する場合には、データ取得処理部１４１が、通信インターフェース１２０と連動して複数のアンケートデータを、カテゴリ情報を付与させつつ、取得する。

［作用効果］
以上、本実施形態の文書解析システム１００は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義した同義語辞書を生成することができる。したがって、本実施形態の文書解析システム１００は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を用いてデータ解析を行うことができる。そして、本実施形態の文書解析システム１００は、文書における単語の表記が異なることによって分散されていた学習データにおける単語の出現頻度を的確に算出することができるので、学習データから的確に意見抽出を行うこと、または、学習データを的確に分析することができる。

また、本実施形態の文書解析システム１００は、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数の少ない頻度をセット出現頻度数として定義しているので、被修飾語セットにおける一方の被修飾語テキストの出現頻度数が著しく大きくなった場合であっても、その一方の被修飾語テキストの出現頻度数による影響が大きくなることを防ぐことができるので他の被修飾語セットと比較する際に、的確に同義語を定義することができる同義語辞書を用いてデータ解析を行うことができる。

すなわち、被修飾語セットにおける一方の被修飾語テキストの出現頻度数が著しく大きい場合に、大きい頻度をセット出現頻度数として定義すると、各被修飾語セットの出現頻度数は全て最も大きい出現頻度数で統一されてしまうこととなる。例えば、図３の例の場合には、評価表現テキスト「高い」についての各被修飾語セットの組み合わせにおける出現頻度数は、全て「２０」となる。そこで、全カテゴリで出現頻度数を合算すると、各被修飾語セットにおける出現頻度数の差が出にくくなり、多くの被修飾語セットの組合せが同義語と定義されてしまう。したがって、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数の少ない頻度をセット出現頻度数として定義することによってこのようなことを防ぐことができる。

また、本実施形態の文書解析システム１００は、単一の文章のテキストを入力すれば、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して生成された同義語辞書を用いてデータ解析を行うことができる。

［変形例］
次に、本実施形態の文書解析システム１００の変形例について説明する。

本実施形態の出現頻度数定義部１４３は、被修飾語セットに属する各被修飾語テキストの少ない方の出現頻度数をセット出現頻度数として定義するようになっているが、双方の出現頻度数の平均、及び、双方のまたは片方の出現頻度数に基づいて所定の関数を用いるなど一定の法則によってセット出現頻度数を定めることができればよい。

また、本実施形態のデータ解析部１４５は、アンケート解析処理の結果をディスプレイ１７０に提示するようになっているが、プリンタなどによって印刷して出力してもよいし、データ記憶部１３０または記録媒体などにデータとして出力してもよい。

また、本実施形態のデータ処理部１４０は、単一の文章から形成されるアンケートデータを用いているが、複数の文章のテキストであって単一のカテゴリ情報から形成されているものであってもよい。この場合は、抽出処理部１４２は、それぞれの文章に応じて形態素解析及び構文解析を行うようになっている。したがって、単一のカテゴリ情報が付与されていれば複数の文章のテキストであっても、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して同義語辞書を生成することができるようになっている。

また、本実施形態においては、同一の主題を有するアンケートデータを文書データとして用いているが、Ｗｅｂページ、新聞や雑誌の記事または本による、同一の事件、事故または問題などの同一のトピックについて記載された文章、または、同一のジャンルでカテゴライズされた文章などの同一の主題を有する文章によって形成されているものであれば、カテゴリ情報を付与することによって同義語辞書を生成することができるようになっている。

＜第２実施形態＞
はじめに、図８及び図９の各図を用いて本発明に係る文書検出システム２００の実施形態について説明する。

本実施形態は、第１実施形態において学習データとして用いたアンケートデータに対してテキストの頻度集計を行う点に代えて、特定のテキスト（例えば、被修飾語テキスト）を有する文書を検出する点に特徴があり、その他の構成は、第１実施形態と同一である。なお、本実施形態において、第１実施形態と同一の部材には同一の符号を付してその説明を省略する。

［文書検出システムの概要構成］
まず、図８を用いて本実施形態の文書検出システム２００の概要構成について説明する。なお、図８は、本実施形態の文書検出システム２００の構成を示すシステム構成図である。

文書解析システム１００は、図８に示すように、入力インターフェース１１０、通信インターフェース１２０、データ記憶部１３０、ディスプレイ１７０、当該ディスプレイ１７０を制御する表示制御部１５０及びＲＯＭ／ＲＡＭ１６０の種々のハードウェアとともに、所定の処理を実行するデータ処理部２４０及びシステム全体を管理するシステム管理制御部１８０を有している。特に、本実施形態のデータ処理部２４０は、アンケート集計プログラムに代えて文書検出処理を実現するためのプログラム（以下、「文書検出プログラム」という。）を実行するために、図８に示すように、データ取得処理部１４１、抽出処理部１４２、出現頻度数定義部１４３、同義語定義部１４４及び文書データ検出部２４１を構築する。

なお、本実施形態における入力インターフェース１１０、通信インターフェース１２０、データ記憶部１３０、ディスプレイ１７０、表示制御部１５０、ＲＯＭ／ＲＡＭ１６０、データ処理部２４０及びシステム管理制御部１８０は、バスＢによって互いに接続されている。また、例えば、本実施形態のディスプレイ１７０は、本発明の提示手段を構成する。

［文書データ検出部］
文書データ検出部２４１は、同義語定義部１４４によって生成された同義語辞書を用いてデータ記憶部１３０またはデータベース３００に予め記憶された文書データの中から該当する文書データを検出してディスプレイ１７０にその検出結果を表示させるようになっている。

具体的には、文書データ検出部２４１は、各文書データが有する各テキストと同義語辞書にリスト化されているテキストとを同義語を含めて比較し、一致するテキストを有する文書データを検出するようになっている。そして、この文書データ検出部２４１は、検出した文書データの内容、データ名または記録されているアドレスなどの文書データに関する情報をディスプレイ１７０に表示させるようになっている。なお、例えば、本実施形態の文書データ検出部２４１は、本発明の検出手段を構成する。

［文書検出処理］
次に、図９を用いて本実施形態における文書検出処理の動作について説明する。なお、図９は、本実施形態における文書検出処理の動作を示すフローチャートである。

本動作は、入力インターフェース１１０を用いてカテゴリ情報を付与しつつ、複数のアンケートデータを取得する場合について説明する。また、既に複数のアンケートデータを取得するための文書検出処理プログラムが起動しているものとする。

まず、データ取得処理部１４１が、入力インターフェース１１０を介して、アンケートデータの入力を開始する旨のユーザ指示を検出すると（ステップＳ２０１：ＹＥＳ）、当該入力インターフェース１１０及び表示制御部１５０と連動し、ディスプレイ１７０に種々の表示を行いつつ、ユーザによって入力されたアンケートデータ及びアンケートデータ毎に該当するカテゴリ情報を取得する（ステップＳ２０２）。このとき、データ取得処理部１４１は、データ記憶部１３０に一時的に記憶する。

次いで、抽出処理部１４２は、取得した各アンケートデータに対してそれぞれ形態素解析及び構文解析を実行し（ステップＳ２０３）、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットをカテゴリ情報とともに抽出する（ステップＳ２０４）。

次いで、抽出処理部１４２は、カテゴリ情報によって示されるカテゴリ毎に、かつ、同一の評価表現毎に、被修飾語テキストの出現頻度数を集計するとともに（ステップＳ２０５）、出現頻度数定義部１４３は、同一カテゴリ毎に、被修飾語セットを生成し、当該被修飾セットとしての出現頻度数をセット出現頻度数として定義する（ステップＳ２０６）。

次いで、同義語定義部１４４は、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算するとともに（ステップＳ２０７）、当該セット出現頻度数が予め定められた閾値以上の条件を具備する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストをそれぞれの同義語として定義して同義語辞書を生成する（ステップＳ２０８）。

次いで、文書データ検出部２４１は、同義語定義部１４４によって生成された同義語辞書を用いてデータ記憶部１３０に予め記憶された複数の文書データが有する各テキストと同義語辞書にリスト化されている各テキストを比較し、一致するテキストを有する文書データを検出する（ステップＳ２０９）。

最後に、文書データ検出部２４１は、検出した文書データの内容、データ名または記録されているアドレスなどの文書データに関する情報をディスプレイ１７０に表示させ（ステップＳ２１０）本動作を終了させる。

［作用効果］
以上、本実施形態の文書検出システム２００は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義した同義語辞書を生成することができる。したがって、本実施形態の文書検出システム２００は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を用いてデータ解析を行うことができる。そして、本実施形態の文書解析システム１００は、文書における単語の表記が異なることによって分散されていた学習データにおける単語の出現頻度を的確に算出することができるので、学習データから的確に意見抽出を行うこと、または、学習データを的確に分析することができる。

また、本実施形態の文書検出システム２００は、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数の少ない頻度をセット出現頻度数として定義しているので、被修飾語セットにおける一方の被修飾語テキストの出現頻度数が著しく大きくなった場合であっても、その一方の被修飾語テキストの出現頻度数による影響が大きくなることを防ぐことができるので、他の被修飾語セットと比較する際に、的確に同義語を定義することができる同義語辞書を用いて文書データの検出を行うことができる。

また、本実施形態の文書検出システム２００は、単一の文章のテキストを入力すれば、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して生成された同義語辞書を用いて文書データの検出を行うことができる。

また、本実施形態のデータ処理部２４０は、単一の文章から形成されるアンケートデータを用いているが、複数の文章のテキストであって単一のカテゴリ情報から形成されているものであってもよい。この場合は、抽出処理部１４２は、それぞれの文章に応じて形態素解析及び構文解析を行うようになっている。したがって、単一のカテゴリ情報が付与されていれば複数の文章のテキストであっても、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して同義語辞書を生成することができるようになっている。

本発明の文書解析システム１００及び文書検出システム２００は、アンケート解析や文書検出など文書データの解析及び文書データの検出のあらゆる分野に適用することができる。

Ｂ … バス
１０ … サーバ装置
１００ … 文書解析システム
１１０ … 入力インターフェース
１２０ … 通信インターフェース
１３０ … データ記憶部
１４０、２４０ … データ処理部
１４１ … データ取得処理部
１４２ … 抽出処理部
１４３ … 出現頻度数定義部
１４４ … 同義語定義部
１４５ … データ解析部
１５０ … 表示制御部
１６０ … ＲＯＭ／ＲＡＭ
１７０ … ディスプレイ
１８０ … システム管理制御部
２００ … 文書検出システム
２４１ … 文書データ検出部
３００ … データベース

Claims

共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段と、
前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、
前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、
前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、
同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、
前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、
を備えることを特徴とする同義語辞書生成装置。
請求項１に記載の同義語辞書生成装置において、
前記出現頻度数定義手段が、各被修飾語セットのそれぞれの被修飾語テキストにおける出現頻度数の少ない頻度をセット出現頻度数として定義する、同義語辞書生成装置。
請求項１または２に記載の同義語辞書生成装置において、
前記文書データが、単一の文章のテキストから形成されている、同義語辞書生成装置。
請求項１乃至３の何れか一項に記載の同義語辞書生成装置において、
前記文書データが、複数の文章のテキストであって単一のカテゴリ情報から形成されている、同義語辞書生成装置。
請求項１乃至４の何れか一項に記載の同義語辞書生成装置において、
前記取得手段が、同一主題を有する複数の文書データを外部から取得する、同義語辞書生成装置。
共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段と、
前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、
予め定められた基準を具備する被修飾語セットに属する被修飾語テキストの組をそれぞれ同義語として定義して同義語辞書を生成する同義語辞書生成手段と、
を備えることを特徴とする同義語辞書生成装置。
共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の学習データを外部から取得する取得手段と、
前記学習データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、
前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、
前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、
同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、
前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、
前記定義された同義語毎に前記学習データにおける出現頻度数を同義語出現頻度数として検出する検出手段と、
前記検出された同義と出現頻度数と同義語を対応付けて出力する出力手段と、
を備えることを特徴とするデータ解析装置。
共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の学習データを外部から取得する取得手段と、
前記学習データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、
前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、
前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、
同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、
前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、
前記生成された同義語辞書を用いつつ、ユーザによって入力されたキーワードに基づいて、データベースに記憶された複数の文書データの中から該当する文書データを検出する検出手段と、
前記検出した文書データまたは当該文書データに関する情報を提示する提示手段と、
を備えることを特徴とするデータ検出装置。
共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得工程と、
前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出工程と、
前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計工程と、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成工程と、
前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義工程と、
同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出工程と、
前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成工程と、
を備えることを特徴とする同義語辞書生成方法。
コンピュータを、
共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段、
前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段、
前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段、
前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段、
同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段、及び
前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段、
として機能させることを特徴とする同義語辞書生成プログラム。