JP2012048291A - 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム - Google Patents

同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム Download PDF

Info

Publication number
JP2012048291A
JP2012048291A JP2010187144A JP2010187144A JP2012048291A JP 2012048291 A JP2012048291 A JP 2012048291A JP 2010187144 A JP2010187144 A JP 2010187144A JP 2010187144 A JP2010187144 A JP 2010187144A JP 2012048291 A JP2012048291 A JP 2012048291A
Authority
JP
Japan
Prior art keywords
modified word
text
modified
evaluation expression
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010187144A
Other languages
English (en)
Other versions
JP5703629B2 (ja
Inventor
Yugo Nishikawa
侑吾 西川
Naoyuki Ito
直之 伊藤
Kazuhisa Ono
和久 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2010187144A priority Critical patent/JP5703629B2/ja
Publication of JP2012048291A publication Critical patent/JP2012048291A/ja
Application granted granted Critical
Publication of JP5703629B2 publication Critical patent/JP5703629B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】異なる複数の文章に含まれる単語を用いて同義語を検出することが可能であって、汎用性を有し、幅広く同義語を定義することが可能な同義語辞書生成装置等を提供する。
【解決手段】文書解析システム100は、入力インターフェース110を介して取得した各アンケートデータに対して、評価表現を示す評価表現テキストと当該評価テキストが修飾する被修飾語テキストのセットをテキストセットとして抽出しつつ、評価表現テキスト、カテゴリ情報及び被修飾語テキストの出現頻度数に基づいて同義語を定義するようになっている。
【選択図】図1

Description

本発明は、同義語を抽出する検索システムの技術に関する。
近年、パーソナルコンピュータなどの通信端末装置またはインターネットなどのネットワークの発達に伴って、データベースに予め記憶されている複数のデータの中からキーワードなどの所定の検索キーに基づいて、ユーザの所望するデータを検出する検索システム及びデータを解析する解析システムが一般化している。また、最近では、キーワードを用いて当該キーワードを有する文書データの検出またはデータの解析を実行する他に、当該キーワードと完全同一ではないもの、当該キーワードの同義語に一致する文書データも検出するシステムも考案されており、ユーザが所望する文書データを的確に検出すること、及び、データの解析を的確にすることを実現できるようになっている。
このような状況下において、同義語を用いたデータ検索システムまたはデータ解析システムにおいては、検索または解析するためのキーワードに対する同義語を予め定義してグループ化すること(すなわち、辞書化すること)が重要になっている。例えば、従来のデータ検索システムとしては、括弧記号に基づいて同義語を自動抽出するものが知られている(例えば、特許文献1)。具体的には、このデータ検索システムは、所定の文章データに対して形態素解析を実行するとともに、当該文章データに対して開き丸括弧記号「(」を検出し、当該記号を検出した場合に、開き丸括弧直後の品詞によって規定される単語を、当該開き括弧の直前の品詞によって規定される単語における同義語と認定するようになっている。
特開平5−298371号公報
しかしながら、特許文献1に記載のデータ検索システムにあっては、開き丸括弧の特別な記号に基づいて同義語を検出しており、特別な記号によって対象となる文章内に定義されていなければ同義語として検出することができず、通常の文章の関係性から同義語を抽出することができないので、汎用性に乏しい。また、このデータ検索システムにあっては、同一の文章内に存在しなければ同義語として検出することができないので、異なる他の文章に基づいて同義語を抽出することができないので、幅広く同義語を検出することができない。
本発明は、上記課題を解決するためになされたものであり、その目的は、異なる複数の文章に用いられた単語を用いて同義語を検出することが可能であって、汎用性を有し、幅広く同義語を定義することが可能な同義語辞書生成装置並びにそれを用いたデータ検索装置及びデータ解析装置等を提供することにある。
(1)上記課題を解決するため、本発明の同義語辞書生成装置は、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段と、前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段と、前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、を備える構成を有している。
この構成により、本発明の同義語辞書生成装置は、カテゴリ情報及び出現頻度数を用いて同一のカテゴリにおいて同一の評価表現における被修飾語テキストのセットである単語の組を同義語として定義して同義語辞書を生成することができる。一般的に、共通の文書の内容について同一の評価表現を用いている場合には、当該同一の評価表現が修飾する異なる修飾語テキストは同義語となる。したがって、本発明は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義することができる。この結果、本発明は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を生成することができる。
(2)また、本発明の同義語辞書生成装置は、前記出現頻度数定義手段が、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数の少ない頻度をセット出現頻度数として定義する構成を有している。
この構成により、本発明の同義語辞書生成装置は、被修飾語セットにおける一方の被修飾語テキストの出現頻度数が著しく大きくなった場合であっても、その一方の被修飾語テキストの出現頻度数による影響が大きくなることを防ぐことができるので、他の被修飾語セットと比較して同義語を定義する場合に、その的確性を向上させることができる。
(3)また、本発明の同義語辞書生成装置は、前記文書データが、単一の文章のテキストから形成されている構成を有している。
この構成により、本発明の同義語辞書生成装置は、単一の文章のテキストを入力すれば、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して同義語辞書を生成することができる。
(4)また、本発明の同義語辞書生成装置は、前記文書データが、複数の文章のテキストであって単一のカテゴリ情報から形成されている構成を有している。
この構成により、本発明の同義語辞書生成装置は、単一のカテゴリ情報が付与されていれば複数の文章のテキストであっても、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して同義語辞書を生成することができる。
(5)また、本発明の同義語辞書生成装置は、前記取得手段が、同一主題を有する複数の文書データを外部から取得する構成を有している。
この構成により、本発明の同義語辞書生成装置は、イベント、店舗、施設、商品またはサービスの評価などのアンケート、Webページ、新聞や雑誌の記事または本による、同一の事件、事故または問題などの同一のトピックについて記載された文章、または、同一のジャンルでカテゴライズされた文章などの同一の主題を有する文書の文書データを用いることによって、専門性が高い文章であっても、または、汎用的な文章でない場合であっても、的確に同義語辞書を生成することができる。
(6)上記課題を解決するため、本発明の同義語辞書生成装置は、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段と、前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、予め定められた基準を具備する被修飾語セットに属する被修飾語テキストの組をそれぞれ同義語として定義して同義語辞書を生成する同義語辞書生成手段と、を備える構成を有している。
この構成により、本発明の同義語辞書生成装置は、カテゴリ情報及び出現頻度数を用いて同一のカテゴリにおいて同一の評価表現における被修飾語テキストのセットである単語の組を同義語として定義して同義語辞書を生成することができる。一般的に、共通の文書の内容について同一の評価表現を用いている場合には、当該同一の評価表現が修飾する異なる修飾語テキストは同義語となる。したがって、本発明は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義することができる。この結果、本発明は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を生成することができる。
(7)上記課題を解決するため、本発明のデータ解析装置は、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の学習データを外部から取得する取得手段と、前記学習データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段と、前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、前記定義された同義語毎に前記学習データにおける出現頻度数を同義語出現頻度数として検出する検出手段と、前記検出された同義と出現頻度数と同義語を対応付けて出力する出力手段と、を備える構成を有している。
この構成により、本発明のデータ解析装置は、異なる複数の文章及び異なる複数の文書に属する単語に基づいて定義され、汎用性を有し、かつ、幅広く同義語を定義された同義語辞書を用いてデータ解析を行うことができるので、異なる単語であっても同義語であれば、出現頻度数が種々の単語によって分散せずに単一の単語として的確に出現頻度を算出することができる。通常、学習データから意見抽出を行う場合または内容を分析する場合には、記載された単語の出現頻度に基づいて解析される。したがって、本発明は、単語の表記が異なることによって分散されていた学習データにおける単語の出現頻度を的確に算出することができるとともに解析するデータを用いて同義語辞書を生成するので、学習データから的確に意見抽出を行うこと、または、学習データを的確に分析することができる。
(8)上記課題を解決するため、本発明のデータ検出装置は、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の学習データを外部から取得する取得手段と、前記学習データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段と、前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、前記生成された同義語辞書を用いつつ、ユーザによって入力されたキーワードに基づいて、データベースに記憶された複数の文書データの中から該当する文書データを検出する検出手段と、前記検出した文書データまたは当該文書データに関する情報を提示する提示手段と、を備える構成を有している。
この構成により、本発明のデータ検出装置は、異なる複数の文章及び異なる複数の文書に属する単語に基づいて定義され、汎用性を有し、かつ、幅広く同義語を定義された同義語辞書を用いて文書データの検出を行うことができるので、単語の表記が異なることによって検出できないユーザが所望する文書データをも、的確に検出することができる。
(9)上記課題を解決するため、本発明の同義語辞書生成方法は、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得工程と、前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出工程と、前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計工程と、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成工程と、前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義工程と、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出工程と、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成工程と、を備える構成を有している。
この構成により、本発明の同義語辞書生成方法は、カテゴリ情報及び出現頻度数を用いて同一のカテゴリにおいて同一の評価表現における被修飾語テキストのセットである単語の組を同義語として定義して同義語辞書を生成することができる。一般的に、共通の文書の内容について同一の評価表現を用いている場合には、当該同一の評価表現が修飾する異なる修飾語テキストは同義語となる。したがって、本発明は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義することができる。この結果、本発明は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を生成することができる。
(10)上記課題を解決するため、本発明の同義語辞書生成プログラムは、コンピュータを、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段、前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段、前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段、前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段、及び、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段、として機能させる構成を有している。
この構成により、本発明の同義語辞書生成プログラムは、カテゴリ情報及び出現頻度数を用いて同一のカテゴリにおいて同一の評価表現における被修飾語テキストのセットである単語の組を同義語として定義して同義語辞書を生成することができる。一般的に、共通の文書の内容について同一の評価表現を用いている場合には、当該同一の評価表現が修飾する異なる修飾語テキストは同義語となる。したがって、本発明は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義することができる。この結果、本発明は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を生成することができる。
本発明の同義語辞書生成装置、同義語辞書生成方法及び同義語辞書生成プログラムは、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義することができる。したがって、本発明は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を生成することができる。
また、本発明のデータ解析装置は、単語の表記が異なることによって分散されていた学習データにおける単語の出現頻度を的確に算出することができるとともに解析するデータを用いて同義語辞書を生成するので、学習データから的確に意見抽出を行うこと、または、学習データを的確に分析することができる。
また、本発明のデータ検出装置は、異なる複数の文章及び異なる複数の文書に属する単語に基づいて定義され、汎用性を有し、かつ、幅広く同義語を定義された同義語辞書を用いて文書データの検出を行うことができるので、単語の表記が異なることによって検出できないユーザが所望する文書データをも、的確に検出することができる。
本発明に係る文書解析システムにおける第1実施形態の構成を示すシステム構成図である。 第1実施形態において、取得するアンケートデータとカテゴリ情報について説明するための図である。 第1実施形態において、抽出されたテキストセットとカテゴリ情報の関係について説明するための図である。 第1実施形態において、被修飾語セットとセット出現頻度数について説明するための図である。 第1実施形態において、合算された全カテゴリの被修飾語セットについて説明するための図である。 第1実施形態において、データ解析された学習データについて説明するための図である。 第1実施形態のデータ解析処理の動作を示すフローチャートである。 本発明に係る文書検出システムにおける第2実施形態の構成を示すシステム構成図である。 第2実施形態の文書検出処理の動作を示すフローチャートである。
以下、本発明の各実施形態について、図面を参照しながら説明する。以下に説明する実施形態は、アンケートにおける顧客の回答文書(以下、単に「アンケート」という。)を文書データ(学習データ)として用いて当該アンケートの解析を行う文書解析システム、または、複数の文書データの中から該当する文書データを検出する文書検索システムに、本発明の同義語辞書生成装置、データ解析装置及びデータ検出装置などを適用した場合の実施形態である。
<第1実施形態>
はじめに、図1〜図7の各図を用いて本発明に係る文書解析システム100の実施形態について説明する。
[文書解析システムの概要構成]
まず、図1を用いて本実施形態の文書解析システム100の概要構成について説明する。なお、図1は、本実施形態の文書解析システム100の構成を示すシステム構成図である。
文書解析システム100は、例えば、PC(Personal Computer)またはサーバ装置など種々の機能を備えたコンピュータ装置である。特に、文書解析システム100は、共通の文書の内容については同一のカテゴリを示すテゴリ情報を有する各アンケートデータであって、イベント、店舗、施設、商品またはサービスの評価など同一の主題におけるアンケートデータを用いるとともに、当該アンケートデータを学習データとして同義語辞書を生成しつつ、当該学習データのデータ解析を行うようになっている。
文書解析システム100は、図1に示すように、入力インターフェース110、通信インターフェース120、データ記憶部130、ディスプレイ170、当該ディスプレイ170を制御する表示制御部150及びROM/RAM160の種々のハードウェアとともに、所定の処理を実行するデータ処理部140及びシステム全体を管理するシステム管理制御部180を有している。そして、文書解析システム100は、入力インターフェース110若しくは通信インターフェース120を介して取得した、または、データ記憶部130から読み出して取得した各アンケートデータに対して、評価表現を示す評価表現テキストと当該評価テキストが修飾する被修飾語とによって構成されるテキストのセットをテキストセットとして抽出しつつ、評価表現テキスト、カテゴリ情報及び被修飾語テキストの出現頻度に基づいて同義語を定義するようになっている。一般的に、共通の文書の内容について同一の評価表現を用いている場合には、当該同一の評価表現が修飾する異なる修飾語テキストは同義語となる。そこで、本実施形態の文書解析システム100は、この性質を利用し、同一の評価表現に基づいて生成された被修飾語テキストのセットにおいて所定の条件の具備した場合に、すなわち、評価表現毎にかつカテゴリ毎に集計された各文書データの被修飾語テキストの出現頻度数を集計し、当該集計した出現頻度数が予め定められた基準を具備した場合に、被修飾語セットに属する被修飾語テキストの組をそれぞれ同義語として定義して同義語辞書を生成するようになっている。
また、文書解析システム100は、定義された同義語を同義語辞書として用いつつ、アンケートデータのデータ解析を実行し、当該アンケートデータからの意見抽出を行うようになっている。具体的には、文書解析システム100は、同義語を含めて被修飾語テキストに対するアンケートデータ全体における出現頻度数(以下、「同義語出現頻度数」ともいう。)を算出し、当該算出された結果を、アンケートを実行したユーザにおける頻出意見として意見抽出の結果として提示することができるようになっている。
なお、本実施形態における入力インターフェース110、通信インターフェース120、データ記憶部130、ディスプレイ170、表示制御部150、ROM/RAM160、データ処理部140及びシステム管理制御部180は、バスBによって互いに接続されている。
[システム構成]
次に、図1を用いて本実施形態の文書解析システム100におけるシステム構成の詳細について説明する。
入力インターフェース110は、ユーザの操作入力またはアンケートデータのデータ入力に用いられ、キーボード、マウスまたはディスプレイ170上に設けられたタッチセンサなどの入力デバイスである。具体的には、入力インターフェース110は、解析すべきアンケートデータの入力、及び、アンケートデータにおける解析処理の実行中に後述する各処理を実行するための操作を行う際に用いられるようになっている。
通信インターフェース120は、ネットワークNに接続されており、サーバ装置10またはデータベース300などの他の通信装置と通信回線を構築し、種々のデータの授受を行うようになっている。特に、通信インターフェース120は、データ処理部140と連動してアンケートデータの取得などアンケートデータの解析処理の実行中に必要なデータの授受を行うようになっている。
データ記憶部130は、複数のアンケートデータがカテゴリ情報に対応付けて予め記憶可能に形成されている。特に、データ記憶部130は、入力インターフェース110または通信インターフェース120を介して取得したアンケートデータを記憶することが可能になっている。また、データ記憶部130には、アンケートデータを解析することによって定義された同義語を同義語辞書データとして記憶される。
ディスプレイ170は、例えば、液晶素子、EL(Electro Luminescence)素子またはCRTによって形成された表示装置であり、表示制御部150において生成された表示データに基づいて所定の画像を表示するようになっている。特に、ディスプレイ170は、アンケートデータの解析処理の実行中に、入力インターフェース110と連動しつつ、操作入力の指示及びデータの解析結果などの種々の画像を表示するようになっている。なお、ディスプレイ170装置は、他のハードウェアとともに単一の筐体に組み込まれていてもよいし、他のハードウェアと別体に設けられていてもよい。また、例えば、本実施形態のディスプレイ170は、本発明の出力手段を構成する。
表示制御部150は、システム管理制御部180の制御の下またはデータ処理部140の制御の下、ディスプレイ170に所定の画像を描画させるために必要な描画データを生成するようになっており、生成された描画データを当該ディスプレイ170に出力するようになっている。
ROM/RAM160には、文書解析システム100として機能するための各種の制御プログラムが記録されている。また、このROM/RAM160は、アンケートデータの解析処理の実行中に、取得したアンケートデータの一時的な保存など各種の処理が実行される際のワークエリアとして用いられる。
データ処理部140は、上述の各ハードウェアと協働し、アンケートデータの解析処理、すなわち、取得したアンケートデータを解析して同義語を定義しつつ、当該アンケートの集計を行うためのプログラム(以下、「アンケート集計プログラム」という。)を実行する。特に、アンケート集計プログラムによって実行される処理としては、
(1)カテゴリ情報が付与され、テキスト形式の単一の文章データ(以下、「文章テキスト」ともいう。)から構成される複数のアンケートデータ(すなわち、文書データ)を取得する取得処理、
(2)取得されたアンケートデータからカテゴリ情報とともに、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットを抽出し、各被修飾語テキストのカテゴリ毎の出現頻度数を算出する抽出処理、
(4)同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成し、当該被修飾セットとしての出現頻度数をセット出現頻度数として定義するセット出現頻度数定義処理、
(5)同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算するとともに、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する辞書生成処理、及び
(6)生成された同義語辞書を用いて取得した複数のアンケートデータのデータ解析の実行、
の各処理を実行する。
具体的には、データ処理部140は、アンケート集計プログラムの実行するために、図1に示すように、データ取得処理部141、抽出処理部142、出現頻度数定義部143、同義語定義部144及びデータ解析部145を構築する。
なお、本実施形態のデータ処理部140の構成及びその動作の詳細については後述する。また、例えば、本実施形態のデータ取得処理部141は、本発明の取得手段を構成し、抽出処理部142は、本発明の抽出手段及び集計手段を構成する。さらに、例えば、本実施形態の出現頻度数定義部143は、本発明の被修飾語セット生成手段及び出現頻度数定義手段を構成し、同義語定義部144は、本発明の算出手段及び同義語辞書生成手段を構成するとともに、データ解析部145は、本発明の検出手段を構成する。
システム管理制御部180は、主に中央演算処理装置(CPU)によって構成されるとともに、キー入力ポート、表示制御ポート等の各種入出力ポートを含み、文書解析システム100の全般的な機能及びアンケート集計プログラムを実行するための全般的な機能を総括的に制御するようになっている。
[データ処理部]
次に、図2〜図6の各図を用いて本実施形態のデータ処理部140における各部の構成及び動作について説明する。
なお、図2は、本実施形態において、取得するアンケートデータとカテゴリ情報について説明するための図であり、図3は、本実施形態において、抽出されたテキストセットとカテゴリ情報の関係について説明するための図である。また、図4は、本実施形態において、被修飾語セットとセット出現頻度数について説明するための図であり、図5は、本実施形態において、合算された全カテゴリの被修飾語セットについて説明するための図である。さらに、図6は、本実施形態において、データ解析された学習データについて説明するための図である。
データ取得処理部141は、入力インターフェース110、ディスプレイ170及び表示制御部150と連動しつつ、対話型のアプリケーションプログラムに基づいて、各アンケートデータ(すなわち、文章テキスト)を取得するようになっている。特に、データ取得処理部141は、入力インターフェース110によって操作入力されたカテゴリ情報であるカテゴリフラグの種別の情報(以下、「カテゴリフラグ」という。)とともに、各アンケートデータを取得するようになっている。
例えば、データ取得処理部141は、図2に示すように、文章テキスト「レストランの従業員が親切だった」とカテゴリフラグ「3(店員について)」、文章テキスト「入場料が高い」とカテゴリフラグ「2(価格について)」、文章テキスト「店員が親切」とカテゴリフラグ「3(店員について)」、文章テキスト「花がきれい」とカテゴリフラグ「4(庭園について)」及び文章テキスト「値段がちょっと高い」とカテゴリフラグ「2(価格について)」などのアンケートデータとカテゴリ情報を取得するようになっている。なお、取得された各アンケートデータは、カテゴリ情報とともに、入力後に直接アンケート集計プログラムに用いられてもよいし、データ記憶部130に一時的に記憶されてもよい。
なお、データ取得処理部141は、入力インターフェース110からの入力に代えて、カテゴリ情報を有する各アンケートデータを、通信インターフェース120を介してサーバ装置10またはデータベース300から取得してもよい。また、データ取得処理部141は、通信インターフェース120によって取得したカテゴリ情報が付与されてないアンケートデータに対して、入力インターフェース110からの入力によって当該カテゴリ情報を付与してもよい。
一方、データ取得処理部141は、入力インターフェース110からの入力及び通信インターフェース120による取得に代えて、データ記憶部130に記憶された各アンケートデータを読み出すことによって当該各アンケートデータを取得してもよい。また、データ取得処理部141は、データ記憶部130に代えて、CD、DVD、フラッシュメモリなど図示しない着脱可能な記録媒体から読み出すことによって各アンケートデータを取得するようにしてもよい。
抽出処理部142は、取得した各アンケートデータに対してそれぞれ形態素解析及び構文解析を実行して評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットをカテゴリ情報とともに抽出し、カテゴリ情報によって示されるカテゴリ毎に、かつ、同一の評価表現毎に、被修飾語テキストの出現頻度数を集計するようになっている。
具体的には、抽出処理部142は、「親切」、「高い」、「きれい」、「やさしい」その他の名詞、形容詞、形容動詞を含む質や量の対象の値を表す表現、または、感情を表す評価表現などの評価表現テキストのリストデータ(以下、「評価表現辞書データ」ともいう。)を備えている。そして、抽出処理部142は、この評価表現辞書データに基づいて、入力された文章テキストに対して形態素解析及び構文解析を実行し、文章テキストから当該リストデータにある評価表現テキストと一致する語句(テキスト)を抽出するようになっている。また、抽出処理部142は、当該一致したテキストが文章テキスト上において係る語句、すなわち、当該テキストが文章テキスト上において修飾する語句(すなわち、被修飾語テキスト)を検出し、評価表現テキストと被修飾語テキストの組み合わせ(テキストセット)を抽出するようになっている。また、抽出処理部142は、抽出したテキストセット毎に、当該各テキストセットに属する被修飾語テキストの出現頻度数を各カテゴリ毎に抽出して当該出現頻度数を集計するようになっている。
例えば、抽出処理部142は、図2に示すアンケートデータとカテゴリ情報が取得された場合には、図3(a)に示すように、評価表現テキストと被修飾テキストのテキストセット「親切」と「従業員」、「高い」と「入場料」、「親切」と「店員」などを抽出するとともに、それぞれのテキストセットにおけるカテゴリ情報を抽出するようになっている。そして、抽出処理部142は、図3(b)に示すように、カテゴリ2(価格について)、カテゴリ3(店員について)及びカテゴリ4(庭園について)のカテゴリフラグ毎に、かつ、「高い」、「安い」、「親切」、「無愛想」、「やさしい」及び「きれい」の各評価表現テキスト毎に、「価格」、「入場料」、「食べ物」などの被修飾語テキストを抽出するとともに、各修飾語テキストの評価表現テキスト毎の出現頻度を抽出し、出現頻度数を集計するようになっている。
なお、抽出処理部142は、評価表現テキストとして、複数の形態素から構成される慣用句、例えば、「痒いところに手が届く」及び「目に余る」についても評価表現テキストとして抽出するようになっている。
出現頻度数定義部143は、同一カテゴリ毎に、各被修飾語テキストと同一の評価表現を有する他のテキストセットに属する他の被修飾語テキストと対応付けて、2つの被修飾語テキストから構成される被修飾語セットを生成し、当該被修飾セットとしての出現頻度数をセット出現頻度数として定義するようになっている。特に、出現頻度数定義部143は、被修飾語セットに属する各被修飾語テキストの共通の出現頻度数を、すなわち、被修飾語セットに属する各被修飾語テキストの少ない方の出現頻度数をセット出現頻度数として定義するようになっている。
例えば、出現頻度数定義部143は、図3に示すように、カテゴリ2について同一の評価表現テキスト「高い」について「価格」、「入場料」、「食べ物」のそれぞれのテキストセットが抽出され、出現頻度数がそれぞれ「20」、「7」及び「2」と集計されている場合には、図4に示すように、「価格」と「入場料」、「価格」と「食べ物」及び「入場料」及び「食べ物」のそれぞれについての組合せの被修飾語セットを生成するようになっている。そして、出現頻度数定義部143は、各被修飾語セットに属する被修飾語テキスト(図4に示す被修飾語テキストA、B)の出現頻度「20」と「7」、「20」と「2」及び「7」と「2」それぞれを比較し、出現頻度数が少ない「7」、「2」及び「2」を各被修飾語セットのセット出現頻度数として定義するようになっている。すなわち、出現頻度数定義部143は、図4に示すように、各カテゴリにおいてそれぞれ被修飾語セットを生成してセット出現頻度数として定義するようになっている。
同義語定義部144は、同一の評価表現テキストについての被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算するとともに、当該セット出現頻度数が予め定められた閾値以上またはセット出現頻度数の高い上位3つなどの所定の条件を具備する被修飾語セットを検出する。そして、同義語定義部144は、当該検出された被修飾語セットに属する各被修飾語テキストをそれぞれの同義語として定義し、当該定義した同義語のリストを同義語辞書として生成するようになっている。
例えば、同義語定義部144は、図5に示すように、「価格」と「料金」、「従業員」と「店員」、「アトラクション」と「乗り物」など、各カテゴリ毎に生成された被修飾語セットにおけるそれぞれの被修飾語テキストA、Bが同一である同一の被修飾語セットのセット出現頻度数を合算し、所定の条件として閾値が出現頻度数「100」以上の修飾語セット、「価格」と「料金」、「従業員」と「店員」、「アトラクション」と「乗り物」のそれぞれの被修飾語テキストA、Bを同義語として定義するようになっている。
データ解析部145は、同義語定義部144によって生成された同義語辞書を用いて取得した複数のアンケートデータに基づいて、当該アンケートにおけるテキスト(例えば、被修飾語テキスト)の頻度集計などのアンケート解析処理を実行するようになっている。
具体的には、アンケート解析処理として頻出意見の抽出を行う場合には、データ解析部145は、図6(a)に示す同義語辞書を用いて学習データとして用いたアンケートデータに対して被修飾語テキストの頻度を同義語毎に抽出してディスプレイ170などに提示するようになっている。例えば、同義語辞書を用いない場合であって、頻出意見の抽出を行う場合には、図6(b)に示すように、「店員」と「従業員」及び「料金」と「入場料」とが別の被修飾語テキストとして出現頻度が別々に算出される。しかしながら、本実施形態のデータ解析部145は、上述の各処理を実行することによって、「料金」と「入場料」及び「店員」と「従業員」の各被修飾語テキストが同義語として定義されるので、図6(c)に示すように、データ解析部145は、「料金」及び「店員」の出現頻度数が同義語「入場料」及び「従業員」の出現頻度数と合算されて提示するようになっている。
なお、これにより、データ解析部145は、頻出意見の抽出として被修飾語テキストを的確に抽出することができるようになっている。また、アンケート解析処理は、各被修飾語テキスト毎に出現頻度数を算出しつつ、同義語辞書に基づいて算出された各被修飾語テキストの出現頻度数を同義語毎に合算して再集計するようにしてもよい。すなわち、この場合には、アンケート解析処理は、図6(b)の算出を先に実行し、その後に図6(c)の再計算を実行するようにしてもよい。
[データ解析処理]
次に、図7を用いて本実施形態におけるデータ解析処理の動作について説明する。なお、図7は、本実施形態におけるデータ解析処理の動作を示すフローチャートである。
本動作は、入力インターフェース110を用いてカテゴリ情報を付与しつつ、複数のアンケートデータを取得する場合について説明する。また、既に、複数のアンケートデータを取得するためのデータ解析プログラムが起動しているものとする。
まず、データ取得処理部141が、入力インターフェース110を介して、アンケートデータの入力を開始する旨のユーザ指示を検出すると(ステップS101:YES)、当該入力インターフェース110及び表示制御部150と連動し、ディスプレイ170に種々の表示を行いつつ、ユーザによって入力されたアンケートデータ及びアンケートデータ毎に該当するカテゴリ情報を取得する(ステップS102)。このとき、データ取得処理部141は、対話型のアプリケーションプログラムを実行してアンケートデータ及びそのカテゴリ情報を取得するとともに、データ取得処理部141は、データ記憶部130に一時的に記憶する。
次いで、抽出処理部142は、取得した各アンケートデータに対してそれぞれ形態素解析及び構文解析を実行し(ステップS103)、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットをカテゴリ情報とともに抽出する(ステップS104)。
次いで、抽出処理部142は、カテゴリ情報によって示されるカテゴリ毎に、かつ、同一の評価表現毎に、被修飾語テキストの出現頻度数を集計するとともに(ステップS105)、出現頻度数定義部143は、同一カテゴリ毎に、被修飾語セットを生成し、当該被修飾セットとしての出現頻度数をセット出現頻度数として定義する(ステップS106)。
次いで、同義語定義部144は、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算するとともに(ステップS107)、当該セット出現頻度数が予め定められた閾値以上の条件を具備する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストをそれぞれの同義語として定義して同義語辞書を生成する(ステップS108)。
次いで、データ解析部145は、同義語定義部144によって生成された同義語辞書を用いて取得した複数のアンケートデータにおけるテキスト(例えば、被修飾語テキスト)の頻度数を集計するアンケート解析処理を実行する(ステップS109)。
最後に、データ解析部145は、アンケートの解析処理における結果をディスプレイ170に提示して(ステップS110)本動作を終了させる。
なお、本動作は、入力インターフェース110を用いてカテゴリ情報を付与しつつ、複数のアンケートデータを取得する場合について説明したが、通信インターフェース120を介してサーバ装置10またはデータベース300から取得する場合には、データ取得処理部141が、通信インターフェース120と連動して複数のアンケートデータを、カテゴリ情報を付与させつつ、取得する。
[作用効果]
以上、本実施形態の文書解析システム100は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義した同義語辞書を生成することができる。したがって、本実施形態の文書解析システム100は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を用いてデータ解析を行うことができる。そして、本実施形態の文書解析システム100は、文書における単語の表記が異なることによって分散されていた学習データにおける単語の出現頻度を的確に算出することができるので、学習データから的確に意見抽出を行うこと、または、学習データを的確に分析することができる。
また、本実施形態の文書解析システム100は、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数の少ない頻度をセット出現頻度数として定義しているので、被修飾語セットにおける一方の被修飾語テキストの出現頻度数が著しく大きくなった場合であっても、その一方の被修飾語テキストの出現頻度数による影響が大きくなることを防ぐことができるので他の被修飾語セットと比較する際に、的確に同義語を定義することができる同義語辞書を用いてデータ解析を行うことができる。
すなわち、被修飾語セットにおける一方の被修飾語テキストの出現頻度数が著しく大きい場合に、大きい頻度をセット出現頻度数として定義すると、各被修飾語セットの出現頻度数は全て最も大きい出現頻度数で統一されてしまうこととなる。例えば、図3の例の場合には、評価表現テキスト「高い」についての各被修飾語セットの組み合わせにおける出現頻度数は、全て「20」となる。そこで、全カテゴリで出現頻度数を合算すると、各被修飾語セットにおける出現頻度数の差が出にくくなり、多くの被修飾語セットの組合せが同義語と定義されてしまう。したがって、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数の少ない頻度をセット出現頻度数として定義することによってこのようなことを防ぐことができる。
また、本実施形態の文書解析システム100は、単一の文章のテキストを入力すれば、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して生成された同義語辞書を用いてデータ解析を行うことができる。
[変形例]
次に、本実施形態の文書解析システム100の変形例について説明する。
本実施形態の出現頻度数定義部143は、被修飾語セットに属する各被修飾語テキストの少ない方の出現頻度数をセット出現頻度数として定義するようになっているが、双方の出現頻度数の平均、及び、双方のまたは片方の出現頻度数に基づいて所定の関数を用いるなど一定の法則によってセット出現頻度数を定めることができればよい。
また、本実施形態のデータ解析部145は、アンケート解析処理の結果をディスプレイ170に提示するようになっているが、プリンタなどによって印刷して出力してもよいし、データ記憶部130または記録媒体などにデータとして出力してもよい。
また、本実施形態のデータ処理部140は、単一の文章から形成されるアンケートデータを用いているが、複数の文章のテキストであって単一のカテゴリ情報から形成されているものであってもよい。この場合は、抽出処理部142は、それぞれの文章に応じて形態素解析及び構文解析を行うようになっている。したがって、単一のカテゴリ情報が付与されていれば複数の文章のテキストであっても、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して同義語辞書を生成することができるようになっている。
また、本実施形態においては、同一の主題を有するアンケートデータを文書データとして用いているが、Webページ、新聞や雑誌の記事または本による、同一の事件、事故または問題などの同一のトピックについて記載された文章、または、同一のジャンルでカテゴライズされた文章などの同一の主題を有する文章によって形成されているものであれば、カテゴリ情報を付与することによって同義語辞書を生成することができるようになっている。
<第2実施形態>
はじめに、図8及び図9の各図を用いて本発明に係る文書検出システム200の実施形態について説明する。
本実施形態は、第1実施形態において学習データとして用いたアンケートデータに対してテキストの頻度集計を行う点に代えて、特定のテキスト(例えば、被修飾語テキスト)を有する文書を検出する点に特徴があり、その他の構成は、第1実施形態と同一である。なお、本実施形態において、第1実施形態と同一の部材には同一の符号を付してその説明を省略する。
[文書検出システムの概要構成]
まず、図8を用いて本実施形態の文書検出システム200の概要構成について説明する。なお、図8は、本実施形態の文書検出システム200の構成を示すシステム構成図である。
文書解析システム100は、図8に示すように、入力インターフェース110、通信インターフェース120、データ記憶部130、ディスプレイ170、当該ディスプレイ170を制御する表示制御部150及びROM/RAM160の種々のハードウェアとともに、所定の処理を実行するデータ処理部240及びシステム全体を管理するシステム管理制御部180を有している。特に、本実施形態のデータ処理部240は、アンケート集計プログラムに代えて文書検出処理を実現するためのプログラム(以下、「文書検出プログラム」という。)を実行するために、図8に示すように、データ取得処理部141、抽出処理部142、出現頻度数定義部143、同義語定義部144及び文書データ検出部241を構築する。
なお、本実施形態における入力インターフェース110、通信インターフェース120、データ記憶部130、ディスプレイ170、表示制御部150、ROM/RAM160、データ処理部240及びシステム管理制御部180は、バスBによって互いに接続されている。また、例えば、本実施形態のディスプレイ170は、本発明の提示手段を構成する。
[文書データ検出部]
文書データ検出部241は、同義語定義部144によって生成された同義語辞書を用いてデータ記憶部130またはデータベース300に予め記憶された文書データの中から該当する文書データを検出してディスプレイ170にその検出結果を表示させるようになっている。
具体的には、文書データ検出部241は、各文書データが有する各テキストと同義語辞書にリスト化されているテキストとを同義語を含めて比較し、一致するテキストを有する文書データを検出するようになっている。そして、この文書データ検出部241は、検出した文書データの内容、データ名または記録されているアドレスなどの文書データに関する情報をディスプレイ170に表示させるようになっている。なお、例えば、本実施形態の文書データ検出部241は、本発明の検出手段を構成する。
[文書検出処理]
次に、図9を用いて本実施形態における文書検出処理の動作について説明する。なお、図9は、本実施形態における文書検出処理の動作を示すフローチャートである。
本動作は、入力インターフェース110を用いてカテゴリ情報を付与しつつ、複数のアンケートデータを取得する場合について説明する。また、既に複数のアンケートデータを取得するための文書検出処理プログラムが起動しているものとする。
まず、データ取得処理部141が、入力インターフェース110を介して、アンケートデータの入力を開始する旨のユーザ指示を検出すると(ステップS201:YES)、当該入力インターフェース110及び表示制御部150と連動し、ディスプレイ170に種々の表示を行いつつ、ユーザによって入力されたアンケートデータ及びアンケートデータ毎に該当するカテゴリ情報を取得する(ステップS202)。このとき、データ取得処理部141は、データ記憶部130に一時的に記憶する。
次いで、抽出処理部142は、取得した各アンケートデータに対してそれぞれ形態素解析及び構文解析を実行し(ステップS203)、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットをカテゴリ情報とともに抽出する(ステップS204)。
次いで、抽出処理部142は、カテゴリ情報によって示されるカテゴリ毎に、かつ、同一の評価表現毎に、被修飾語テキストの出現頻度数を集計するとともに(ステップS205)、出現頻度数定義部143は、同一カテゴリ毎に、被修飾語セットを生成し、当該被修飾セットとしての出現頻度数をセット出現頻度数として定義する(ステップS206)。
次いで、同義語定義部144は、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算するとともに(ステップS207)、当該セット出現頻度数が予め定められた閾値以上の条件を具備する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストをそれぞれの同義語として定義して同義語辞書を生成する(ステップS208)。
次いで、文書データ検出部241は、同義語定義部144によって生成された同義語辞書を用いてデータ記憶部130に予め記憶された複数の文書データが有する各テキストと同義語辞書にリスト化されている各テキストを比較し、一致するテキストを有する文書データを検出する(ステップS209)。
最後に、文書データ検出部241は、検出した文書データの内容、データ名または記録されているアドレスなどの文書データに関する情報をディスプレイ170に表示させ(ステップS210)本動作を終了させる。
なお、本動作は、入力インターフェース110を用いてカテゴリ情報を付与しつつ、複数のアンケートデータを取得する場合について説明したが、通信インターフェース120を介してサーバ装置10またはデータベース300から取得する場合には、データ取得処理部141が、通信インターフェース120と連動して複数のアンケートデータを、カテゴリ情報を付与させつつ、取得する。
[作用効果]
以上、本実施形態の文書検出システム200は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義した同義語辞書を生成することができる。したがって、本実施形態の文書検出システム200は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を用いてデータ解析を行うことができる。そして、本実施形態の文書解析システム100は、文書における単語の表記が異なることによって分散されていた学習データにおける単語の出現頻度を的確に算出することができるので、学習データから的確に意見抽出を行うこと、または、学習データを的確に分析することができる。
また、本実施形態の文書検出システム200は、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数の少ない頻度をセット出現頻度数として定義しているので、被修飾語セットにおける一方の被修飾語テキストの出現頻度数が著しく大きくなった場合であっても、その一方の被修飾語テキストの出現頻度数による影響が大きくなることを防ぐことができるので、他の被修飾語セットと比較する際に、的確に同義語を定義することができる同義語辞書を用いて文書データの検出を行うことができる。
また、本実施形態の文書検出システム200は、単一の文章のテキストを入力すれば、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して生成された同義語辞書を用いて文書データの検出を行うことができる。
[変形例]
次に、本実施形態の文書解析システム100の変形例について説明する。
本実施形態の出現頻度数定義部143は、被修飾語セットに属する各被修飾語テキストの少ない方の出現頻度数をセット出現頻度数として定義するようになっているが、双方の出現頻度数の平均、及び、双方のまたは片方の出現頻度数に基づいて所定の関数を用いるなど一定の法則によってセット出現頻度数を定めることができればよい。
また、本実施形態のデータ解析部145は、アンケート解析処理の結果をディスプレイ170に提示するようになっているが、プリンタなどによって印刷して出力してもよいし、データ記憶部130または記録媒体などにデータとして出力してもよい。
また、本実施形態のデータ処理部240は、単一の文章から形成されるアンケートデータを用いているが、複数の文章のテキストであって単一のカテゴリ情報から形成されているものであってもよい。この場合は、抽出処理部142は、それぞれの文章に応じて形態素解析及び構文解析を行うようになっている。したがって、単一のカテゴリ情報が付与されていれば複数の文章のテキストであっても、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して同義語辞書を生成することができるようになっている。
また、本実施形態においては、同一の主題を有するアンケートデータを文書データとして用いているが、Webページ、新聞や雑誌の記事または本による、同一の事件、事故または問題などの同一のトピックについて記載された文章、または、同一のジャンルでカテゴライズされた文章などの同一の主題を有する文章によって形成されているものであれば、カテゴリ情報を付与することによって同義語辞書を生成することができるようになっている。
本発明の文書解析システム100及び文書検出システム200は、アンケート解析や文書検出など文書データの解析及び文書データの検出のあらゆる分野に適用することができる。
B … バス
10 … サーバ装置
100 … 文書解析システム
110 … 入力インターフェース
120 … 通信インターフェース
130 … データ記憶部
140、240 … データ処理部
141 … データ取得処理部
142 … 抽出処理部
143 … 出現頻度数定義部
144 … 同義語定義部
145 … データ解析部
150 … 表示制御部
160 … ROM/RAM
170 … ディスプレイ
180 … システム管理制御部
200 … 文書検出システム
241 … 文書データ検出部
300 … データベース

Claims (10)

  1. 共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段と、
    前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、
    前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、
    同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、
    前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、
    同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、
    前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、
    を備えることを特徴とする同義語辞書生成装置。
  2. 請求項1に記載の同義語辞書生成装置において、
    前記出現頻度数定義手段が、各被修飾語セットのそれぞれの被修飾語テキストにおける出現頻度数の少ない頻度をセット出現頻度数として定義する、同義語辞書生成装置。
  3. 請求項1または2に記載の同義語辞書生成装置において、
    前記文書データが、単一の文章のテキストから形成されている、同義語辞書生成装置。
  4. 請求項1乃至3の何れか一項に記載の同義語辞書生成装置において、
    前記文書データが、複数の文章のテキストであって単一のカテゴリ情報から形成されている、同義語辞書生成装置。
  5. 請求項1乃至4の何れか一項に記載の同義語辞書生成装置において、
    前記取得手段が、同一主題を有する複数の文書データを外部から取得する、同義語辞書生成装置。
  6. 共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段と、
    前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、
    同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、
    予め定められた基準を具備する被修飾語セットに属する被修飾語テキストの組をそれぞれ同義語として定義して同義語辞書を生成する同義語辞書生成手段と、
    を備えることを特徴とする同義語辞書生成装置。
  7. 共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の学習データを外部から取得する取得手段と、
    前記学習データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、
    前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、
    同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、
    前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、
    同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、
    前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、
    前記定義された同義語毎に前記学習データにおける出現頻度数を同義語出現頻度数として検出する検出手段と、
    前記検出された同義と出現頻度数と同義語を対応付けて出力する出力手段と、
    を備えることを特徴とするデータ解析装置。
  8. 共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の学習データを外部から取得する取得手段と、
    前記学習データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、
    前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、
    同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、
    前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、
    同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、
    前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、
    前記生成された同義語辞書を用いつつ、ユーザによって入力されたキーワードに基づいて、データベースに記憶された複数の文書データの中から該当する文書データを検出する検出手段と、
    前記検出した文書データまたは当該文書データに関する情報を提示する提示手段と、
    を備えることを特徴とするデータ検出装置。
  9. 共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得工程と、
    前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出工程と、
    前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計工程と、
    同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成工程と、
    前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義工程と、
    同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出工程と、
    前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成工程と、
    を備えることを特徴とする同義語辞書生成方法。
  10. コンピュータを、
    共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段、
    前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段、
    前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段、
    同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段、
    前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段、
    同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段、及び
    前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段、
    として機能させることを特徴とする同義語辞書生成プログラム。
JP2010187144A 2010-08-24 2010-08-24 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム Expired - Fee Related JP5703629B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010187144A JP5703629B2 (ja) 2010-08-24 2010-08-24 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010187144A JP5703629B2 (ja) 2010-08-24 2010-08-24 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム

Publications (2)

Publication Number Publication Date
JP2012048291A true JP2012048291A (ja) 2012-03-08
JP5703629B2 JP5703629B2 (ja) 2015-04-22

Family

ID=45903136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010187144A Expired - Fee Related JP5703629B2 (ja) 2010-08-24 2010-08-24 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム

Country Status (1)

Country Link
JP (1) JP5703629B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013147236A1 (ja) * 2012-03-30 2013-10-03 株式会社メディカルリサーチアンドテクノロジー 専門家評価情報管理装置
JP2017033434A (ja) * 2015-08-05 2017-02-09 大日本印刷株式会社 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法
JP2019197364A (ja) * 2018-05-09 2019-11-14 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
WO2020175662A1 (ja) * 2019-02-28 2020-09-03 株式会社ミラボ 辞書作成装置、辞書作成方法及び辞書作成プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08137892A (ja) * 1994-11-14 1996-05-31 Toshiba Corp 文書検索方法及び文書検索装置
JP2003108582A (ja) * 2001-09-27 2003-04-11 Mitsubishi Electric Corp 類義語抽出方法および文書検索装置
JP2004287683A (ja) * 2003-03-20 2004-10-14 Ricoh Co Ltd 評価表現抽出装置、プログラム、記憶媒体及び評価表現抽出方法
JP2005025555A (ja) * 2003-07-03 2005-01-27 Ricoh Co Ltd シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP2007241765A (ja) * 2006-03-09 2007-09-20 Nippon Telegr & Teleph Corp <Ntt> 属性表現獲得方法及び評価表現獲得方法及び装置及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08137892A (ja) * 1994-11-14 1996-05-31 Toshiba Corp 文書検索方法及び文書検索装置
JP2003108582A (ja) * 2001-09-27 2003-04-11 Mitsubishi Electric Corp 類義語抽出方法および文書検索装置
JP2004287683A (ja) * 2003-03-20 2004-10-14 Ricoh Co Ltd 評価表現抽出装置、プログラム、記憶媒体及び評価表現抽出方法
JP2005025555A (ja) * 2003-07-03 2005-01-27 Ricoh Co Ltd シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP2007241765A (ja) * 2006-03-09 2007-09-20 Nippon Telegr & Teleph Corp <Ntt> 属性表現獲得方法及び評価表現獲得方法及び装置及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013147236A1 (ja) * 2012-03-30 2013-10-03 株式会社メディカルリサーチアンドテクノロジー 専門家評価情報管理装置
JP2013228978A (ja) * 2012-03-30 2013-11-07 Mrt Inc 専門家評価情報管理装置
JP2017033434A (ja) * 2015-08-05 2017-02-09 大日本印刷株式会社 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法
JP2019197364A (ja) * 2018-05-09 2019-11-14 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP7143624B2 (ja) 2018-05-09 2022-09-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
WO2020175662A1 (ja) * 2019-02-28 2020-09-03 株式会社ミラボ 辞書作成装置、辞書作成方法及び辞書作成プログラム
JP2020140583A (ja) * 2019-02-28 2020-09-03 株式会社ミラボ 辞書作成装置、辞書作成方法及び辞書作成プログラム
JP7029813B2 (ja) 2019-02-28 2022-03-04 株式会社ミラボ 辞書作成装置、辞書作成方法及び辞書作成プログラム

Also Published As

Publication number Publication date
JP5703629B2 (ja) 2015-04-22

Similar Documents

Publication Publication Date Title
Deng et al. Smart generation system of personalized advertising copy and its application to advertising practice and research
Petz et al. Reprint of: Computational approaches for mining user’s opinions on the Web 2.0
Di Caro et al. Sentiment analysis via dependency parsing
CA3014309A1 (en) Expert knowledge platform
US10474752B2 (en) System and method for slang sentiment classification for opinion mining
US20130191380A1 (en) Methods and systems for determining media value
US20130218914A1 (en) System and method for providing recommendations based on information extracted from reviewers&#39; comments
Bhatia et al. Towards an information type lexicon for privacy policies
Moretti et al. ALCIDE: Extracting and visualising content from large document collections to support humanities studies
Savoy Authorship attribution: A comparative study of three text corpora and three languages
Zhao et al. Creating a fine-grained corpus for chinese sentiment analysis
JP6529133B2 (ja) 複数地域でのトピックの評価を分析する装置、プログラム及び方法
US9224152B2 (en) System and method for intent mining
JP5703629B2 (ja) 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム
Golpar-Rabooki et al. Feature extraction in opinion mining through Persian reviews
Usmani et al. A natural language processing approach to mine online reviews using topic modelling
Luo et al. Entity sentiment analysis in the news: A case study based on negative sentiment smoothing model (nssm)
JP5599073B2 (ja) 感性分析システム及びプログラム
JP2015210700A (ja) 商品に対するユーザの感情分析装置及びプログラム
Fan What makes consumer perception of online review helpfulness: Synthesizing the past to guide future research
Akulick et al. Intent detection through text mining and analysis
Tsai et al. Aspect-category-based sentiment classification with aspect-opinion relation
JP2016162357A (ja) 商品に対するユーザの感情分析装置及びプログラム
KR20090126862A (ko) 자연어 처리를 이용한 감성 정보 분석 시스템 및 방법,자연어 처리를 이용한 감성 정보 분석 방법을 컴퓨터에서실행하기 위한 프로그램을 저장한 기록매체
Walha et al. ETL design toward social network opinion analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140131

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140722

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150209

R150 Certificate of patent or registration of utility model

Ref document number: 5703629

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees