JP5703629B2 - Synonym dictionary generation device, data analysis device, data detection device, synonym dictionary generation method, and synonym dictionary generation program - Google Patents

Synonym dictionary generation device, data analysis device, data detection device, synonym dictionary generation method, and synonym dictionary generation program Download PDF

Info

Publication number
JP5703629B2
JP5703629B2 JP2010187144A JP2010187144A JP5703629B2 JP 5703629 B2 JP5703629 B2 JP 5703629B2 JP 2010187144 A JP2010187144 A JP 2010187144A JP 2010187144 A JP2010187144 A JP 2010187144A JP 5703629 B2 JP5703629 B2 JP 5703629B2
Authority
JP
Japan
Prior art keywords
modified word
text
modified
data
evaluation expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010187144A
Other languages
Japanese (ja)
Other versions
JP2012048291A (en
Inventor
侑吾 西川
侑吾 西川
伊藤 直之
直之 伊藤
和久 大野
和久 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2010187144A priority Critical patent/JP5703629B2/en
Publication of JP2012048291A publication Critical patent/JP2012048291A/en
Application granted granted Critical
Publication of JP5703629B2 publication Critical patent/JP5703629B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、同義語を抽出する検索システムの技術に関する。   The present invention relates to a search system technique for extracting synonyms.

近年、パーソナルコンピュータなどの通信端末装置またはインターネットなどのネットワークの発達に伴って、データベースに予め記憶されている複数のデータの中からキーワードなどの所定の検索キーに基づいて、ユーザの所望するデータを検出する検索システム及びデータを解析する解析システムが一般化している。また、最近では、キーワードを用いて当該キーワードを有する文書データの検出またはデータの解析を実行する他に、当該キーワードと完全同一ではないもの、当該キーワードの同義語に一致する文書データも検出するシステムも考案されており、ユーザが所望する文書データを的確に検出すること、及び、データの解析を的確にすることを実現できるようになっている。   In recent years, with the development of a communication terminal device such as a personal computer or a network such as the Internet, data desired by a user is obtained based on a predetermined search key such as a keyword from a plurality of data stored in advance in a database. Search systems to detect and analysis systems to analyze data have become common. Recently, in addition to detection of document data having the keyword or analysis of data using a keyword, a system for detecting document data that is not completely identical to the keyword and that matches a synonym of the keyword. Has been devised, and it is possible to realize accurate detection of document data desired by a user and accurate analysis of data.

このような状況下において、同義語を用いたデータ検索システムまたはデータ解析システムにおいては、検索または解析するためのキーワードに対する同義語を予め定義してグループ化すること(すなわち、辞書化すること)が重要になっている。例えば、従来のデータ検索システムとしては、括弧記号に基づいて同義語を自動抽出するものが知られている(例えば、特許文献1)。具体的には、このデータ検索システムは、所定の文章データに対して形態素解析を実行するとともに、当該文章データに対して開き丸括弧記号「(」を検出し、当該記号を検出した場合に、開き丸括弧直後の品詞によって規定される単語を、当該開き括弧の直前の品詞によって規定される単語における同義語と認定するようになっている。   Under such circumstances, in a data search system or data analysis system using synonyms, it is possible to pre-define and group synonyms for keywords for search or analysis (that is, to create a dictionary). It has become important. For example, as a conventional data search system, one that automatically extracts synonyms based on parentheses is known (for example, Patent Document 1). Specifically, this data search system performs morphological analysis on predetermined sentence data, detects an open parenthesis symbol “(” for the sentence data, and detects the symbol, The word specified by the part of speech immediately after the opening parenthesis is recognized as a synonym in the word specified by the part of speech immediately before the opening parenthesis.

特開平5−298371号公報Japanese Patent Laid-Open No. 5-298371

しかしながら、特許文献1に記載のデータ検索システムにあっては、開き丸括弧の特別な記号に基づいて同義語を検出しており、特別な記号によって対象となる文章内に定義されていなければ同義語として検出することができず、通常の文章の関係性から同義語を抽出することができないので、汎用性に乏しい。また、このデータ検索システムにあっては、同一の文章内に存在しなければ同義語として検出することができないので、異なる他の文章に基づいて同義語を抽出することができないので、幅広く同義語を検出することができない。   However, in the data search system described in Patent Document 1, a synonym is detected based on a special symbol of an open parenthesis, and is synonymous if it is not defined in a target sentence by a special symbol. It cannot be detected as a word, and a synonym cannot be extracted from the relationship between ordinary sentences, so it is not very versatile. Also, in this data search system, since it cannot be detected as a synonym unless it exists in the same sentence, synonyms cannot be extracted based on other different sentences. Cannot be detected.

本発明は、上記課題を解決するためになされたものであり、その目的は、異なる複数の文章に用いられた単語を用いて同義語を検出することが可能であって、汎用性を有し、幅広く同義語を定義することが可能な同義語辞書生成装置並びにそれを用いたデータ検索装置及びデータ解析装置等を提供することにある。   The present invention has been made to solve the above-described problems, and has an object of being able to detect synonyms using words used in a plurality of different sentences and having versatility. Another object of the present invention is to provide a synonym dictionary generation device capable of defining synonyms widely, a data search device and a data analysis device using the same.

(1)上記課題を解決するため、本発明の同義語辞書生成装置は、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段と、前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段と、前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、を備える構成を有している。   (1) In order to solve the above-described problem, the synonym dictionary generation device of the present invention includes an acquisition unit that externally acquires a plurality of document data to which category information indicating the same category is assigned with respect to the contents of a common document. Extraction means for performing morphological analysis and syntactic analysis on the document data, and extracting an evaluation expression text indicating an evaluation expression and a text set of modified word text modified by the evaluation expression text together with the category information; Totalizing means for totalizing the number of occurrences of the modified word text for each category and for each identical evaluation expression, and other modified objects having the same evaluation expression as each modified word text for each same category A modified word set generating means for generating a modified word set with the word text, and for each of the generated modified word sets, each modified word set Based on each appearance frequency number in the ornament text, the set appearance frequency number defining means for defining the set appearance frequency number and the set appearance frequency number in the modified word set composed of the same modified word text in all categories Calculating means for adding together, and detecting a modified word set having a predetermined condition for the number of set appearance frequencies, and defining each modified word text belonging to the detected modified word set as a synonym And synonym dictionary generating means for generating a synonym dictionary.

この構成により、本発明の同義語辞書生成装置は、カテゴリ情報及び出現頻度数を用いて同一のカテゴリにおいて同一の評価表現における被修飾語テキストのセットである単語の組を同義語として定義して同義語辞書を生成することができる。一般的に、共通の文書の内容について同一の評価表現を用いている場合には、当該同一の評価表現が修飾する異なる修飾語テキストは同義語となる。したがって、本発明は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義することができる。この結果、本発明は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を生成することができる。   With this configuration, the synonym dictionary generation device of the present invention defines a set of words that are sets of modified word texts in the same evaluation expression in the same category as the synonyms using the category information and the frequency of appearance. A synonym dictionary can be generated. Generally, when the same evaluation expression is used for the contents of a common document, different modifier texts modified by the same evaluation expression are synonymous. Therefore, according to the present invention, synonyms can be defined from a plurality of different sentences and words belonging to a plurality of different documents by using the category information. Can also be defined as synonyms in unusual words, such as a specialized word in a specialized field or a specific industry. As a result, the present invention can generate a synonym dictionary that has versatility and in which synonyms are widely defined.

(2)また、本発明の同義語辞書生成装置は、前記出現頻度数定義手段が、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数の少ない頻度をセット出現頻度数として定義する構成を有している。   (2) Further, in the synonym dictionary generation device of the present invention, the appearance frequency number defining means defines a frequency with a small number of appearance frequencies in each modified word text of each modified word set as a set appearance frequency number. It has the composition to do.

この構成により、本発明の同義語辞書生成装置は、被修飾語セットにおける一方の被修飾語テキストの出現頻度数が著しく大きくなった場合であっても、その一方の被修飾語テキストの出現頻度数による影響が大きくなることを防ぐことができるので、他の被修飾語セットと比較して同義語を定義する場合に、その的確性を向上させることができる。   With this configuration, the synonym dictionary generation device of the present invention enables the appearance frequency of one of the modified word texts even when the number of appearance frequencies of one of the modified word texts in the modified word set is significantly increased. Since it is possible to prevent the influence of the number from becoming large, the accuracy can be improved when synonyms are defined in comparison with other modified word sets.

(3)また、本発明の同義語辞書生成装置は、前記文書データが、単一の文章のテキストから形成されている構成を有している。   (3) Moreover, the synonym dictionary production | generation apparatus of this invention has the structure by which the said document data is formed from the text of the single sentence.

この構成により、本発明の同義語辞書生成装置は、単一の文章のテキストを入力すれば、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して同義語辞書を生成することができる。   With this configuration, the synonym dictionary generating apparatus of the present invention can generate a synonym dictionary by inputting text of a single sentence, and therefore detects synonyms from various documents and synonyms A dictionary can be generated.

(4)また、本発明の同義語辞書生成装置は、前記文書データが、複数の文章のテキストであって単一のカテゴリ情報から形成されている構成を有している。   (4) Moreover, the synonym dictionary production | generation apparatus of this invention has the structure by which the said document data is the text of several sentences, and is formed from single category information.

この構成により、本発明の同義語辞書生成装置は、単一のカテゴリ情報が付与されていれば複数の文章のテキストであっても、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して同義語辞書を生成することができる。   With this configuration, the synonym dictionary generation apparatus of the present invention can generate a synonym dictionary even if texts of a plurality of sentences are provided with a single category information. A synonym dictionary can be generated by detecting synonyms from the inside.

(5)また、本発明の同義語辞書生成装置は、前記取得手段が、同一主題を有する複数の文書データを外部から取得する構成を有している。   (5) Moreover, the synonym dictionary production | generation apparatus of this invention has the structure in which the said acquisition means acquires the several document data which have the same subject from the outside.

この構成により、本発明の同義語辞書生成装置は、イベント、店舗、施設、商品またはサービスの評価などのアンケート、Webページ、新聞や雑誌の記事または本による、同一の事件、事故または問題などの同一のトピックについて記載された文章、または、同一のジャンルでカテゴライズされた文章などの同一の主題を有する文書の文書データを用いることによって、専門性が高い文章であっても、または、汎用的な文章でない場合であっても、的確に同義語辞書を生成することができる。   With this configuration, the synonym dictionary generation apparatus of the present invention can be used for the same incident, accident, or problem caused by questionnaires, web pages, newspaper or magazine articles or books, such as evaluation of events, stores, facilities, products or services. By using document data of documents that have the same subject, such as sentences written on the same topic or sentences categorized in the same genre, even highly specialized sentences or general-purpose Even if it is not a sentence, a synonym dictionary can be generated accurately.

(6)上記課題を解決するため、本発明の同義語辞書生成装置は、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段と、前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、予め定められた基準を具備する被修飾語セットに属する被修飾語テキストの組をそれぞれ同義語として定義して同義語辞書を生成する同義語辞書生成手段と、を備える構成を有している。   (6) In order to solve the above-described problem, the synonym dictionary generation device of the present invention includes an acquisition unit that externally acquires a plurality of document data to which category information indicating the same category is assigned with respect to the contents of a common document. Same as the extraction means for performing morphological analysis and syntactic analysis on the document data, and extracting the text set of the evaluation expression text indicating the evaluation expression and the modified word text modified by the evaluation expression text together with the category information Modified word set generation means for generating a modified word set for each modified word text and another modified word text having the same evaluation expression for each category, and a modified word set having a predetermined criterion Synonym dictionary generating means for generating a synonym dictionary by defining each set of modified word text belonging to .

この構成により、本発明の同義語辞書生成装置は、カテゴリ情報及び出現頻度数を用いて同一のカテゴリにおいて同一の評価表現における被修飾語テキストのセットである単語の組を同義語として定義して同義語辞書を生成することができる。一般的に、共通の文書の内容について同一の評価表現を用いている場合には、当該同一の評価表現が修飾する異なる修飾語テキストは同義語となる。したがって、本発明は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義することができる。この結果、本発明は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を生成することができる。   With this configuration, the synonym dictionary generation device of the present invention defines a set of words that are sets of modified word texts in the same evaluation expression in the same category as the synonyms using the category information and the frequency of appearance. A synonym dictionary can be generated. Generally, when the same evaluation expression is used for the contents of a common document, different modifier texts modified by the same evaluation expression are synonymous. Therefore, according to the present invention, synonyms can be defined from a plurality of different sentences and words belonging to a plurality of different documents by using the category information. Can also be defined as synonyms in unusual words, such as a specialized word in a specialized field or a specific industry. As a result, the present invention can generate a synonym dictionary that has versatility and in which synonyms are widely defined.

(7)上記課題を解決するため、本発明のデータ解析装置は、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の学習データを外部から取得する取得手段と、前記学習データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段と、前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、前記定義された同義語毎に前記学習データにおける出現頻度数を同義語出現頻度数として検出する検出手段と、前記検出された同義と出現頻度数と同義語を対応付けて出力する出力手段と、を備える構成を有している。   (7) In order to solve the above-described problem, the data analysis apparatus of the present invention includes an acquisition unit that externally acquires a plurality of learning data to which category information indicating the same category is given for the contents of a common document, Extraction means for performing morphological analysis and syntax analysis on the learning data, and extracting the evaluation expression text indicating the evaluation expression and a text set of the modified word text modified by the evaluation expression text together with the category information; and the category A totaling means for counting the frequency of appearance of the modified word text for each and the same evaluation expression, and another modified word text having the same evaluation expression as each modified word text for the same category A modified word set generating means for generating a modified word set and a modified word set for each of the generated modified word sets Based on each appearance frequency number in the text, the set appearance frequency number defining means for defining the set appearance frequency number and the set appearance frequency number in the modified word set composed of the same modified word text are added up in all categories. Calculating means and detecting a modified word set having a condition in which the set appearance frequency count is predetermined, and defining each modified word text belonging to the detected modified word set as a synonym; Synonym dictionary generating means for generating a synonym dictionary, detecting means for detecting the number of appearance frequencies in the learning data as the synonym appearance frequency number for each of the defined synonyms, and the detected synonym and appearance frequency number And an output means for outputting the synonyms in association with each other.

この構成により、本発明のデータ解析装置は、異なる複数の文章及び異なる複数の文書に属する単語に基づいて定義され、汎用性を有し、かつ、幅広く同義語を定義された同義語辞書を用いてデータ解析を行うことができるので、異なる単語であっても同義語であれば、出現頻度数が種々の単語によって分散せずに単一の単語として的確に出現頻度を算出することができる。通常、学習データから意見抽出を行う場合または内容を分析する場合には、記載された単語の出現頻度に基づいて解析される。したがって、本発明は、単語の表記が異なることによって分散されていた学習データにおける単語の出現頻度を的確に算出することができるとともに解析するデータを用いて同義語辞書を生成するので、学習データから的確に意見抽出を行うこと、または、学習データを的確に分析することができる。   With this configuration, the data analysis apparatus of the present invention uses a synonym dictionary that is defined based on words belonging to different sentences and different documents, has versatility, and has a broad definition of synonyms. Thus, even if different words are synonyms, the appearance frequency can be accurately calculated as a single word without being dispersed by various words. Usually, when opinion extraction is performed from learning data or when content is analyzed, analysis is performed based on the frequency of appearance of written words. Therefore, the present invention can accurately calculate the appearance frequency of words in learning data distributed by different word notation and generates a synonym dictionary using data to be analyzed. It is possible to extract opinions accurately or to analyze learning data accurately.

(8)上記課題を解決するため、本発明のデータ検出装置は、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の学習データを外部から取得する取得手段と、前記学習データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段と、前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、前記生成された同義語辞書を用いつつ、ユーザによって入力されたキーワードに基づいて、データベースに記憶された複数の文書データの中から該当する文書データを検出する検出手段と、前記検出した文書データまたは当該文書データに関する情報を提示する提示手段と、を備える構成を有している。   (8) In order to solve the above-described problem, the data detection apparatus of the present invention includes an acquisition unit that externally acquires a plurality of learning data to which category information indicating the same category is given for the contents of a common document, Extraction means for performing morphological analysis and syntax analysis on the learning data, and extracting the evaluation expression text indicating the evaluation expression and a text set of the modified word text modified by the evaluation expression text together with the category information; and the category A totaling means for counting the frequency of appearance of the modified word text for each and the same evaluation expression, and another modified word text having the same evaluation expression as each modified word text for the same category A modified word set generating means for generating a modified word set and a modified word set for each of the generated modified word sets Based on each appearance frequency number in the text, the set appearance frequency number defining means for defining the set appearance frequency number and the set appearance frequency number in the modified word set composed of the same modified word text are added up in all categories. Calculating means and detecting a modified word set having a condition in which the set appearance frequency count is predetermined, and defining each modified word text belonging to the detected modified word set as a synonym; Synonym dictionary generating means for generating a synonym dictionary, and corresponding document data from among a plurality of document data stored in a database based on a keyword input by a user while using the generated synonym dictionary And a presenting means for presenting the detected document data or information related to the document data. There.

この構成により、本発明のデータ検出装置は、異なる複数の文章及び異なる複数の文書に属する単語に基づいて定義され、汎用性を有し、かつ、幅広く同義語を定義された同義語辞書を用いて文書データの検出を行うことができるので、単語の表記が異なることによって検出できないユーザが所望する文書データをも、的確に検出することができる。   With this configuration, the data detection device of the present invention uses a synonym dictionary that is defined based on words belonging to a plurality of different sentences and different documents, has versatility, and broadly defines synonyms. Therefore, it is possible to accurately detect document data desired by a user who cannot be detected due to different notation of words.

(9)上記課題を解決するため、本発明の同義語辞書生成方法は、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得工程と、前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出工程と、前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計工程と、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成工程と、前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義工程と、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出工程と、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成工程と、を備える構成を有している。   (9) In order to solve the above-described problem, the synonym dictionary generation method of the present invention includes an acquisition step of acquiring a plurality of document data to which category information indicating the same category is added from the outside with respect to the contents of a common document. , An extraction step of performing morphological analysis and syntax analysis on the document data, and extracting an evaluation expression text indicating an evaluation expression and a text set of modified word text modified by the evaluation expression text together with the category information; A totaling step for counting the frequency of appearance of the modified word text for each category and for each identical evaluation expression, and other modified objects having the same evaluation expression as each modified word text for the same category A modified word set generation step for generating a modified word set with the word text, and for each of the generated modified word sets, the respective modified word set Based on each appearance frequency number in the decoration text, the set appearance frequency number defining step for defining the set appearance frequency number, and the set appearance frequency number in the modified word set composed of the same modified word text in all categories Calculating step for adding, and detecting a set of modified words having a condition in which the number of appearance frequencies of the combined set is determined in advance, and defining each modified word text belonging to the detected set of modified words as a synonym And a synonym dictionary generating step for generating a synonym dictionary.

この構成により、本発明の同義語辞書生成方法は、カテゴリ情報及び出現頻度数を用いて同一のカテゴリにおいて同一の評価表現における被修飾語テキストのセットである単語の組を同義語として定義して同義語辞書を生成することができる。一般的に、共通の文書の内容について同一の評価表現を用いている場合には、当該同一の評価表現が修飾する異なる修飾語テキストは同義語となる。したがって、本発明は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義することができる。この結果、本発明は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を生成することができる。   With this configuration, the synonym dictionary generation method of the present invention defines a set of words that are sets of modified word text in the same evaluation expression in the same category as the synonym using the category information and the frequency of appearance. A synonym dictionary can be generated. Generally, when the same evaluation expression is used for the contents of a common document, different modifier texts modified by the same evaluation expression are synonymous. Therefore, according to the present invention, synonyms can be defined from a plurality of different sentences and words belonging to a plurality of different documents by using the category information. Can also be defined as synonyms in unusual words, such as a specialized word in a specialized field or a specific industry. As a result, the present invention can generate a synonym dictionary that has versatility and in which synonyms are widely defined.

(10)上記課題を解決するため、本発明の同義語辞書生成プログラムは、コンピュータを、共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段、前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段、前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段、同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段、前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段、及び、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段、として機能させる構成を有している。   (10) In order to solve the above-described problem, the synonym dictionary generation program of the present invention obtains a plurality of document data to which the category information indicating the same category is given from the outside with respect to the content of the common document. An extracting unit that performs morphological analysis and syntax analysis on the document data, and extracts an evaluation expression text indicating the evaluation expression and a text set of the modified word text modified by the evaluation expression text together with the category information; A counting means for counting the number of appearance frequencies of the modified word text for each category and for the same evaluation expression; another qualified having the same evaluation expression as each modified word text for the same category A modified word set generating means for generating a modified word set with a word text, and for each generated modified word set, each modified word set Set appearance frequency number defining means for defining the set appearance frequency number based on each appearance frequency number in each of the modified word text, and the set appearance frequency number in the modified word set composed of the same modified word text Calculating means for summing up in all categories, and a modifiable word set having a condition in which the sum of set appearance frequency counts is predetermined, and each qualified word text belonging to the detected qualified word set A synonym dictionary generating unit that defines a synonym and generates a synonym dictionary is configured to function.

この構成により、本発明の同義語辞書生成プログラムは、カテゴリ情報及び出現頻度数を用いて同一のカテゴリにおいて同一の評価表現における被修飾語テキストのセットである単語の組を同義語として定義して同義語辞書を生成することができる。一般的に、共通の文書の内容について同一の評価表現を用いている場合には、当該同一の評価表現が修飾する異なる修飾語テキストは同義語となる。したがって、本発明は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義することができる。この結果、本発明は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を生成することができる。   With this configuration, the synonym dictionary generation program of the present invention uses the category information and the frequency of appearance to define as a synonym a set of words that are sets of modified word text in the same evaluation expression in the same category. A synonym dictionary can be generated. Generally, when the same evaluation expression is used for the contents of a common document, different modifier texts modified by the same evaluation expression are synonymous. Therefore, according to the present invention, synonyms can be defined from a plurality of different sentences and words belonging to a plurality of different documents by using the category information. Can also be defined as synonyms in unusual words, such as a specialized word in a specialized field or a specific industry. As a result, the present invention can generate a synonym dictionary that has versatility and in which synonyms are widely defined.

本発明の同義語辞書生成装置、同義語辞書生成方法及び同義語辞書生成プログラムは、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義することができる。したがって、本発明は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を生成することができる。   The synonym dictionary generation device, the synonym dictionary generation method, and the synonym dictionary generation program of the present invention can define synonyms from words belonging to different sentences and different documents by using category information. As long as the category information is given, synonyms can be defined from various documents, and therefore, synonyms can be defined in words that are not common, such as words unique to a specialized field or a specific industry. Therefore, the present invention can generate a synonym dictionary having versatility and in which synonyms are widely defined.

また、本発明のデータ解析装置は、単語の表記が異なることによって分散されていた学習データにおける単語の出現頻度を的確に算出することができるとともに解析するデータを用いて同義語辞書を生成するので、学習データから的確に意見抽出を行うこと、または、学習データを的確に分析することができる。   In addition, since the data analysis apparatus of the present invention can accurately calculate the appearance frequency of words in learning data distributed by different word notations, and generates a synonym dictionary using data to be analyzed. It is possible to extract opinions accurately from learning data, or to analyze learning data accurately.

また、本発明のデータ検出装置は、異なる複数の文章及び異なる複数の文書に属する単語に基づいて定義され、汎用性を有し、かつ、幅広く同義語を定義された同義語辞書を用いて文書データの検出を行うことができるので、単語の表記が異なることによって検出できないユーザが所望する文書データをも、的確に検出することができる。   In addition, the data detection apparatus of the present invention is a document that uses a synonym dictionary that is defined based on words belonging to a plurality of different sentences and a plurality of different documents, has versatility, and broadly defines synonyms. Since data can be detected, it is possible to accurately detect document data desired by a user who cannot be detected due to different word expressions.

本発明に係る文書解析システムにおける第1実施形態の構成を示すシステム構成図である。1 is a system configuration diagram showing a configuration of a first embodiment in a document analysis system according to the present invention. 第1実施形態において、取得するアンケートデータとカテゴリ情報について説明するための図である。In 1st Embodiment, it is a figure for demonstrating the questionnaire data and category information to acquire. 第1実施形態において、抽出されたテキストセットとカテゴリ情報の関係について説明するための図である。In 1st Embodiment, it is a figure for demonstrating the relationship between the extracted text set and category information. 第1実施形態において、被修飾語セットとセット出現頻度数について説明するための図である。In 1st Embodiment, it is a figure for demonstrating a to-be-modified word set and a set appearance frequency number. 第1実施形態において、合算された全カテゴリの被修飾語セットについて説明するための図である。In 1st Embodiment, it is a figure for demonstrating the to-be-modified word set of all the categories totaled. 第1実施形態において、データ解析された学習データについて説明するための図である。In 1st Embodiment, it is a figure for demonstrating the learning data by which the data analysis was carried out. 第1実施形態のデータ解析処理の動作を示すフローチャートである。It is a flowchart which shows the operation | movement of the data analysis process of 1st Embodiment. 本発明に係る文書検出システムにおける第2実施形態の構成を示すシステム構成図である。It is a system configuration figure showing the composition of a 2nd embodiment in the document detection system concerning the present invention. 第2実施形態の文書検出処理の動作を示すフローチャートである。It is a flowchart which shows the operation | movement of the document detection process of 2nd Embodiment.

以下、本発明の各実施形態について、図面を参照しながら説明する。以下に説明する実施形態は、アンケートにおける顧客の回答文書(以下、単に「アンケート」という。)を文書データ(学習データ)として用いて当該アンケートの解析を行う文書解析システム、または、複数の文書データの中から該当する文書データを検出する文書検索システムに、本発明の同義語辞書生成装置、データ解析装置及びデータ検出装置などを適用した場合の実施形態である。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the embodiment described below, a document analysis system for analyzing a questionnaire using a customer's answer document in a questionnaire (hereinafter simply referred to as “questionnaire”) as document data (learning data), or a plurality of document data In the embodiment, the synonym dictionary generation device, the data analysis device, the data detection device, and the like of the present invention are applied to a document search system that detects corresponding document data from the above.

<第1実施形態>
はじめに、図1〜図7の各図を用いて本発明に係る文書解析システム100の実施形態について説明する。
<First Embodiment>
First, an embodiment of a document analysis system 100 according to the present invention will be described with reference to FIGS.

[文書解析システムの概要構成]
まず、図1を用いて本実施形態の文書解析システム100の概要構成について説明する。なお、図1は、本実施形態の文書解析システム100の構成を示すシステム構成図である。
[Overview of document analysis system]
First, a schematic configuration of the document analysis system 100 according to the present embodiment will be described with reference to FIG. FIG. 1 is a system configuration diagram showing the configuration of the document analysis system 100 of the present embodiment.

文書解析システム100は、例えば、PC(Personal Computer)またはサーバ装置など種々の機能を備えたコンピュータ装置である。特に、文書解析システム100は、共通の文書の内容については同一のカテゴリを示すテゴリ情報を有する各アンケートデータであって、イベント、店舗、施設、商品またはサービスの評価など同一の主題におけるアンケートデータを用いるとともに、当該アンケートデータを学習データとして同義語辞書を生成しつつ、当該学習データのデータ解析を行うようになっている。   The document analysis system 100 is a computer device having various functions such as a PC (Personal Computer) or a server device. In particular, the document analysis system 100 includes each piece of questionnaire data having category information indicating the same category for the contents of a common document, and the questionnaire data on the same subject such as evaluation of an event, a store, a facility, a product, or a service. While using the questionnaire data as learning data, a synonym dictionary is generated and data analysis of the learning data is performed.

文書解析システム100は、図1に示すように、入力インターフェース110、通信インターフェース120、データ記憶部130、ディスプレイ170、当該ディスプレイ170を制御する表示制御部150及びROM/RAM160の種々のハードウェアとともに、所定の処理を実行するデータ処理部140及びシステム全体を管理するシステム管理制御部180を有している。そして、文書解析システム100は、入力インターフェース110若しくは通信インターフェース120を介して取得した、または、データ記憶部130から読み出して取得した各アンケートデータに対して、評価表現を示す評価表現テキストと当該評価テキストが修飾する被修飾語とによって構成されるテキストのセットをテキストセットとして抽出しつつ、評価表現テキスト、カテゴリ情報及び被修飾語テキストの出現頻度に基づいて同義語を定義するようになっている。一般的に、共通の文書の内容について同一の評価表現を用いている場合には、当該同一の評価表現が修飾する異なる修飾語テキストは同義語となる。そこで、本実施形態の文書解析システム100は、この性質を利用し、同一の評価表現に基づいて生成された被修飾語テキストのセットにおいて所定の条件の具備した場合に、すなわち、評価表現毎にかつカテゴリ毎に集計された各文書データの被修飾語テキストの出現頻度数を集計し、当該集計した出現頻度数が予め定められた基準を具備した場合に、被修飾語セットに属する被修飾語テキストの組をそれぞれ同義語として定義して同義語辞書を生成するようになっている。   As shown in FIG. 1, the document analysis system 100 includes an input interface 110, a communication interface 120, a data storage unit 130, a display 170, a display control unit 150 that controls the display 170, and various hardware such as a ROM / RAM 160. A data processing unit 140 that executes predetermined processing and a system management control unit 180 that manages the entire system are included. Then, the document analysis system 100 obtains the evaluation expression text indicating the evaluation expression and the evaluation text for each questionnaire data acquired through the input interface 110 or the communication interface 120 or read out from the data storage unit 130. The synonym is defined based on the evaluation expression text, the category information, and the appearance frequency of the modified word text, while extracting a set of texts composed of the modified words modified by as a text set. Generally, when the same evaluation expression is used for the contents of a common document, different modifier texts modified by the same evaluation expression are synonymous. Therefore, the document analysis system 100 according to the present embodiment uses this property, and in the case where a predetermined condition is satisfied in a set of modified word text generated based on the same evaluation expression, that is, for each evaluation expression. In addition, the number of occurrences of the modified word text of each document data totaled for each category is totaled, and the qualified word belonging to the set of qualified words when the total number of appearance frequencies satisfies a predetermined criterion Each text set is defined as a synonym and a synonym dictionary is generated.

また、文書解析システム100は、定義された同義語を同義語辞書として用いつつ、アンケートデータのデータ解析を実行し、当該アンケートデータからの意見抽出を行うようになっている。具体的には、文書解析システム100は、同義語を含めて被修飾語テキストに対するアンケートデータ全体における出現頻度数(以下、「同義語出現頻度数」ともいう。)を算出し、当該算出された結果を、アンケートを実行したユーザにおける頻出意見として意見抽出の結果として提示することができるようになっている。   In addition, the document analysis system 100 performs data analysis of questionnaire data while using the defined synonyms as a synonym dictionary, and extracts opinions from the questionnaire data. Specifically, the document analysis system 100 calculates the number of appearance frequencies (hereinafter, also referred to as “synonym appearance frequency number”) in the questionnaire data for the modified word text including synonyms, and the calculation is performed. The result can be presented as a result of opinion extraction as a frequent opinion of the user who executed the questionnaire.

なお、本実施形態における入力インターフェース110、通信インターフェース120、データ記憶部130、ディスプレイ170、表示制御部150、ROM/RAM160、データ処理部140及びシステム管理制御部180は、バスBによって互いに接続されている。   In this embodiment, the input interface 110, the communication interface 120, the data storage unit 130, the display 170, the display control unit 150, the ROM / RAM 160, the data processing unit 140, and the system management control unit 180 are connected to each other via the bus B. Yes.

[システム構成]
次に、図1を用いて本実施形態の文書解析システム100におけるシステム構成の詳細について説明する。
[System configuration]
Next, the details of the system configuration in the document analysis system 100 of this embodiment will be described with reference to FIG.

入力インターフェース110は、ユーザの操作入力またはアンケートデータのデータ入力に用いられ、キーボード、マウスまたはディスプレイ170上に設けられたタッチセンサなどの入力デバイスである。具体的には、入力インターフェース110は、解析すべきアンケートデータの入力、及び、アンケートデータにおける解析処理の実行中に後述する各処理を実行するための操作を行う際に用いられるようになっている。   The input interface 110 is an input device such as a touch sensor provided on a keyboard, a mouse, or a display 170 and used for user operation input or data input of questionnaire data. Specifically, the input interface 110 is used when inputting questionnaire data to be analyzed and performing operations for executing each process described later during execution of the analysis process on the questionnaire data. .

通信インターフェース120は、ネットワークNに接続されており、サーバ装置10またはデータベース300などの他の通信装置と通信回線を構築し、種々のデータの授受を行うようになっている。特に、通信インターフェース120は、データ処理部140と連動してアンケートデータの取得などアンケートデータの解析処理の実行中に必要なデータの授受を行うようになっている。   The communication interface 120 is connected to the network N, constructs a communication line with other communication devices such as the server device 10 or the database 300, and exchanges various data. In particular, the communication interface 120 is configured to exchange necessary data during execution of a questionnaire data analysis process such as acquisition of questionnaire data in conjunction with the data processing unit 140.

データ記憶部130は、複数のアンケートデータがカテゴリ情報に対応付けて予め記憶可能に形成されている。特に、データ記憶部130は、入力インターフェース110または通信インターフェース120を介して取得したアンケートデータを記憶することが可能になっている。また、データ記憶部130には、アンケートデータを解析することによって定義された同義語を同義語辞書データとして記憶される。   The data storage unit 130 is formed so that a plurality of questionnaire data can be stored in advance in association with category information. In particular, the data storage unit 130 can store questionnaire data acquired via the input interface 110 or the communication interface 120. The data storage unit 130 stores synonyms defined by analyzing the questionnaire data as synonym dictionary data.

ディスプレイ170は、例えば、液晶素子、EL(Electro Luminescence)素子またはCRTによって形成された表示装置であり、表示制御部150において生成された表示データに基づいて所定の画像を表示するようになっている。特に、ディスプレイ170は、アンケートデータの解析処理の実行中に、入力インターフェース110と連動しつつ、操作入力の指示及びデータの解析結果などの種々の画像を表示するようになっている。なお、ディスプレイ170装置は、他のハードウェアとともに単一の筐体に組み込まれていてもよいし、他のハードウェアと別体に設けられていてもよい。また、例えば、本実施形態のディスプレイ170は、本発明の出力手段を構成する。   The display 170 is a display device formed by, for example, a liquid crystal element, an EL (Electro Luminescence) element, or a CRT, and displays a predetermined image based on display data generated by the display control unit 150. . In particular, the display 170 displays various images such as operation input instructions and data analysis results in conjunction with the input interface 110 during execution of the questionnaire data analysis process. Note that the display 170 device may be incorporated in a single casing together with other hardware, or may be provided separately from other hardware. Further, for example, the display 170 of the present embodiment constitutes an output unit of the present invention.

表示制御部150は、システム管理制御部180の制御の下またはデータ処理部140の制御の下、ディスプレイ170に所定の画像を描画させるために必要な描画データを生成するようになっており、生成された描画データを当該ディスプレイ170に出力するようになっている。   The display control unit 150 generates drawing data necessary for drawing a predetermined image on the display 170 under the control of the system management control unit 180 or under the control of the data processing unit 140. The rendered drawing data is output to the display 170.

ROM/RAM160には、文書解析システム100として機能するための各種の制御プログラムが記録されている。また、このROM/RAM160は、アンケートデータの解析処理の実行中に、取得したアンケートデータの一時的な保存など各種の処理が実行される際のワークエリアとして用いられる。   Various control programs for functioning as the document analysis system 100 are recorded in the ROM / RAM 160. The ROM / RAM 160 is used as a work area when various processes such as temporary storage of the acquired questionnaire data are executed during the execution of the analysis process of the questionnaire data.

データ処理部140は、上述の各ハードウェアと協働し、アンケートデータの解析処理、すなわち、取得したアンケートデータを解析して同義語を定義しつつ、当該アンケートの集計を行うためのプログラム(以下、「アンケート集計プログラム」という。)を実行する。特に、アンケート集計プログラムによって実行される処理としては、
(1)カテゴリ情報が付与され、テキスト形式の単一の文章データ(以下、「文章テキスト」ともいう。)から構成される複数のアンケートデータ(すなわち、文書データ)を取得する取得処理、
(2)取得されたアンケートデータからカテゴリ情報とともに、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットを抽出し、各被修飾語テキストのカテゴリ毎の出現頻度数を算出する抽出処理、
(4)同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成し、当該被修飾セットとしての出現頻度数をセット出現頻度数として定義するセット出現頻度数定義処理、
(5)同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算するとともに、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する辞書生成処理、及び
(6)生成された同義語辞書を用いて取得した複数のアンケートデータのデータ解析の実行、
の各処理を実行する。
The data processing unit 140 cooperates with the above-described hardware, and analyzes the questionnaire data, that is, a program for analyzing the acquired questionnaire data and defining the synonyms (hereinafter referred to as the questionnaire) , "Questionnaire totaling program"). In particular, as a process executed by the questionnaire totalization program,
(1) An acquisition process for acquiring a plurality of questionnaire data (that is, document data) that includes category information and is composed of single text data in text format (hereinafter also referred to as “text text”);
(2) From the acquired questionnaire data, together with the category information, an evaluation expression text indicating the evaluation expression and a text set of the modified word text modified by the evaluation expression text are extracted, and the appearance frequency of each modified word text for each category Extraction process to calculate the number,
(4) For each same category, a modified word set is generated for each modified word text and another modified word text having the same evaluation expression, and the appearance frequency number as the modified set is set as the set appearance frequency number. Set appearance frequency count definition processing to define,
(5) A modified word set having the set appearance frequency number in the modified word set composed of the same modified word text added up in all categories, and the combined set appearance frequency number having a predetermined condition. And generating a synonym dictionary by defining each modified word text belonging to the detected modified word set as a synonym, and (6) obtaining using the generated synonym dictionary Data analysis of multiple questionnaire data,
Each process is executed.

具体的には、データ処理部140は、アンケート集計プログラムの実行するために、図1に示すように、データ取得処理部141、抽出処理部142、出現頻度数定義部143、同義語定義部144及びデータ解析部145を構築する。   Specifically, as shown in FIG. 1, the data processing unit 140 executes a questionnaire totalization program, as shown in FIG. 1, a data acquisition processing unit 141, an extraction processing unit 142, an appearance frequency number defining unit 143, and a synonym defining unit 144. And the data analysis unit 145 is constructed.

なお、本実施形態のデータ処理部140の構成及びその動作の詳細については後述する。また、例えば、本実施形態のデータ取得処理部141は、本発明の取得手段を構成し、抽出処理部142は、本発明の抽出手段及び集計手段を構成する。さらに、例えば、本実施形態の出現頻度数定義部143は、本発明の被修飾語セット生成手段及び出現頻度数定義手段を構成し、同義語定義部144は、本発明の算出手段及び同義語辞書生成手段を構成するとともに、データ解析部145は、本発明の検出手段を構成する。   Details of the configuration and operation of the data processing unit 140 of this embodiment will be described later. Further, for example, the data acquisition processing unit 141 of the present embodiment constitutes an acquisition unit of the present invention, and the extraction processing unit 142 constitutes an extraction unit and a tabulation unit of the present invention. Further, for example, the appearance frequency number defining unit 143 of the present embodiment constitutes the modified word set generating unit and the appearance frequency number defining unit of the present invention, and the synonym defining unit 144 is the calculating unit and synonym of the present invention. While constituting the dictionary generation means, the data analysis unit 145 constitutes the detection means of the present invention.

システム管理制御部180は、主に中央演算処理装置(CPU)によって構成されるとともに、キー入力ポート、表示制御ポート等の各種入出力ポートを含み、文書解析システム100の全般的な機能及びアンケート集計プログラムを実行するための全般的な機能を総括的に制御するようになっている。   The system management control unit 180 is mainly composed of a central processing unit (CPU) and includes various input / output ports such as a key input port and a display control port. It is designed to control overall functions for executing programs.

[データ処理部]
次に、図2〜図6の各図を用いて本実施形態のデータ処理部140における各部の構成及び動作について説明する。
[Data processing section]
Next, the configuration and operation of each unit in the data processing unit 140 according to the present embodiment will be described with reference to FIGS.

なお、図2は、本実施形態において、取得するアンケートデータとカテゴリ情報について説明するための図であり、図3は、本実施形態において、抽出されたテキストセットとカテゴリ情報の関係について説明するための図である。また、図4は、本実施形態において、被修飾語セットとセット出現頻度数について説明するための図であり、図5は、本実施形態において、合算された全カテゴリの被修飾語セットについて説明するための図である。さらに、図6は、本実施形態において、データ解析された学習データについて説明するための図である。   2 is a diagram for explaining questionnaire data and category information to be acquired in this embodiment, and FIG. 3 is for explaining the relationship between the extracted text set and category information in this embodiment. FIG. Moreover, FIG. 4 is a figure for demonstrating a to-be-modified word set and the set appearance frequency number in this embodiment, and FIG. 5 demonstrates the to-be-modified word set of all the categories totaled in this embodiment. It is a figure for doing. Furthermore, FIG. 6 is a diagram for explaining learning data subjected to data analysis in the present embodiment.

データ取得処理部141は、入力インターフェース110、ディスプレイ170及び表示制御部150と連動しつつ、対話型のアプリケーションプログラムに基づいて、各アンケートデータ(すなわち、文章テキスト)を取得するようになっている。特に、データ取得処理部141は、入力インターフェース110によって操作入力されたカテゴリ情報であるカテゴリフラグの種別の情報(以下、「カテゴリフラグ」という。)とともに、各アンケートデータを取得するようになっている。   The data acquisition processing unit 141 acquires each questionnaire data (that is, sentence text) based on an interactive application program in cooperation with the input interface 110, the display 170, and the display control unit 150. In particular, the data acquisition processing unit 141 acquires each questionnaire data together with category flag type information (hereinafter referred to as “category flag”) which is category information input through the input interface 110. .

例えば、データ取得処理部141は、図2に示すように、文章テキスト「レストランの従業員が親切だった」とカテゴリフラグ「3(店員について)」、文章テキスト「入場料が高い」とカテゴリフラグ「2(価格について)」、文章テキスト「店員が親切」とカテゴリフラグ「3(店員について)」、文章テキスト「花がきれい」とカテゴリフラグ「4(庭園について)」及び文章テキスト「値段がちょっと高い」とカテゴリフラグ「2(価格について)」などのアンケートデータとカテゴリ情報を取得するようになっている。なお、取得された各アンケートデータは、カテゴリ情報とともに、入力後に直接アンケート集計プログラムに用いられてもよいし、データ記憶部130に一時的に記憶されてもよい。   For example, as shown in FIG. 2, the data acquisition processing unit 141 uses a sentence text “Restaurant employee was kind”, a category flag “3 (about a clerk)”, a sentence text “high admission” and a category flag. “2 (about the price)”, sentence text “the clerk is kind” and category flag “3 (about the clerk)”, sentence text “flower is beautiful” and category flag “4 (about the garden)” and sentence text “price is a little bit” Survey data such as “high” and category flag “2 (about price)” and category information are acquired. In addition, each acquired questionnaire data may be used for a questionnaire totalization program directly after input with category information, or may be temporarily stored in the data storage unit 130.

なお、データ取得処理部141は、入力インターフェース110からの入力に代えて、カテゴリ情報を有する各アンケートデータを、通信インターフェース120を介してサーバ装置10またはデータベース300から取得してもよい。また、データ取得処理部141は、通信インターフェース120によって取得したカテゴリ情報が付与されてないアンケートデータに対して、入力インターフェース110からの入力によって当該カテゴリ情報を付与してもよい。   Note that the data acquisition processing unit 141 may acquire each questionnaire data having category information from the server device 10 or the database 300 via the communication interface 120 instead of the input from the input interface 110. In addition, the data acquisition processing unit 141 may add the category information to the questionnaire data to which the category information acquired by the communication interface 120 is not added by input from the input interface 110.

一方、データ取得処理部141は、入力インターフェース110からの入力及び通信インターフェース120による取得に代えて、データ記憶部130に記憶された各アンケートデータを読み出すことによって当該各アンケートデータを取得してもよい。また、データ取得処理部141は、データ記憶部130に代えて、CD、DVD、フラッシュメモリなど図示しない着脱可能な記録媒体から読み出すことによって各アンケートデータを取得するようにしてもよい。   On the other hand, the data acquisition processing unit 141 may acquire each questionnaire data by reading each questionnaire data stored in the data storage unit 130 instead of input from the input interface 110 and acquisition by the communication interface 120. . The data acquisition processing unit 141 may acquire each questionnaire data by reading from a removable recording medium (not shown) such as a CD, a DVD, or a flash memory instead of the data storage unit 130.

抽出処理部142は、取得した各アンケートデータに対してそれぞれ形態素解析及び構文解析を実行して評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットをカテゴリ情報とともに抽出し、カテゴリ情報によって示されるカテゴリ毎に、かつ、同一の評価表現毎に、被修飾語テキストの出現頻度数を集計するようになっている。   The extraction processing unit 142 performs a morphological analysis and a syntactic analysis on each acquired questionnaire data to show an evaluation expression text indicating an evaluation expression and a text set of the modified word text modified by the evaluation expression text together with category information. The number of appearances of the modified word text is tabulated for each category indicated by the category information and for the same evaluation expression.

具体的には、抽出処理部142は、「親切」、「高い」、「きれい」、「やさしい」その他の名詞、形容詞、形容動詞を含む質や量の対象の値を表す表現、または、感情を表す評価表現などの評価表現テキストのリストデータ(以下、「評価表現辞書データ」ともいう。)を備えている。そして、抽出処理部142は、この評価表現辞書データに基づいて、入力された文章テキストに対して形態素解析及び構文解析を実行し、文章テキストから当該リストデータにある評価表現テキストと一致する語句(テキスト)を抽出するようになっている。また、抽出処理部142は、当該一致したテキストが文章テキスト上において係る語句、すなわち、当該テキストが文章テキスト上において修飾する語句(すなわち、被修飾語テキスト)を検出し、評価表現テキストと被修飾語テキストの組み合わせ(テキストセット)を抽出するようになっている。また、抽出処理部142は、抽出したテキストセット毎に、当該各テキストセットに属する被修飾語テキストの出現頻度数を各カテゴリ毎に抽出して当該出現頻度数を集計するようになっている。   Specifically, the extraction processing unit 142 may express the value of the object of quality or quantity including “kind”, “high”, “clean”, “easy” other nouns, adjectives, adjective verbs, or emotions. Evaluation expression text list data (hereinafter also referred to as “evaluation expression dictionary data”). Then, the extraction processing unit 142 performs morphological analysis and syntax analysis on the input sentence text based on the evaluation expression dictionary data, and matches the evaluation expression text in the list data from the sentence text ( Text). Further, the extraction processing unit 142 detects the phrase that the matched text is on the sentence text, that is, the phrase that the text modifies on the sentence text (that is, the modified word text), and the evaluation expression text and the modified text A combination of word texts (text set) is extracted. For each extracted text set, the extraction processing unit 142 extracts the appearance frequency number of the modified word text belonging to each text set for each category and totals the appearance frequency numbers.

例えば、抽出処理部142は、図2に示すアンケートデータとカテゴリ情報が取得された場合には、図3(a)に示すように、評価表現テキストと被修飾テキストのテキストセット「親切」と「従業員」、「高い」と「入場料」、「親切」と「店員」などを抽出するとともに、それぞれのテキストセットにおけるカテゴリ情報を抽出するようになっている。そして、抽出処理部142は、図3(b)に示すように、カテゴリ2(価格について)、カテゴリ3(店員について)及びカテゴリ4(庭園について)のカテゴリフラグ毎に、かつ、「高い」、「安い」、「親切」、「無愛想」、「やさしい」及び「きれい」の各評価表現テキスト毎に、「価格」、「入場料」、「食べ物」などの被修飾語テキストを抽出するとともに、各修飾語テキストの評価表現テキスト毎の出現頻度を抽出し、出現頻度数を集計するようになっている。   For example, when the questionnaire data and category information shown in FIG. 2 are acquired, the extraction processing unit 142, as shown in FIG. 3A, the text sets “kind” and “ “Employee”, “High” and “Admission”, “Friendly” and “Clerk” are extracted, and category information in each text set is extracted. Then, as shown in FIG. 3 (b), the extraction processing unit 142 sets “high” for each category flag of category 2 (for price), category 3 (for clerk), and category 4 (for garden). For each evaluation expression text of "Cheap", "Friendly", "Unfriendly", "Easy" and "Pretty", we will extract the modifier text such as "Price", "Admission", "Food", etc. The appearance frequency of each modifier text for each evaluation expression text is extracted, and the number of appearance frequencies is totaled.

なお、抽出処理部142は、評価表現テキストとして、複数の形態素から構成される慣用句、例えば、「痒いところに手が届く」及び「目に余る」についても評価表現テキストとして抽出するようになっている。   It should be noted that the extraction processing unit 142 extracts, as evaluation expression text, idioms composed of a plurality of morphemes, for example, “reachable to an ugly place” and “remaining eyes” as evaluation expression text. ing.

出現頻度数定義部143は、同一カテゴリ毎に、各被修飾語テキストと同一の評価表現を有する他のテキストセットに属する他の被修飾語テキストと対応付けて、2つの被修飾語テキストから構成される被修飾語セットを生成し、当該被修飾セットとしての出現頻度数をセット出現頻度数として定義するようになっている。特に、出現頻度数定義部143は、被修飾語セットに属する各被修飾語テキストの共通の出現頻度数を、すなわち、被修飾語セットに属する各被修飾語テキストの少ない方の出現頻度数をセット出現頻度数として定義するようになっている。   The appearance frequency number definition unit 143 is configured of two modified word texts in association with other modified word texts belonging to other text sets having the same evaluation expression as the modified word texts for each same category. The modified word set is generated, and the appearance frequency number as the modified set is defined as the set appearance frequency number. In particular, the appearance frequency number definition unit 143 determines the common appearance frequency number of each modified word text belonging to the modified word set, that is, the smaller appearance frequency number of each modified word text belonging to the modified word set. This is defined as the number of set appearance frequencies.

例えば、出現頻度数定義部143は、図3に示すように、カテゴリ2について同一の評価表現テキスト「高い」について「価格」、「入場料」、「食べ物」のそれぞれのテキストセットが抽出され、出現頻度数がそれぞれ「20」、「7」及び「2」と集計されている場合には、図4に示すように、「価格」と「入場料」、「価格」と「食べ物」及び「入場料」及び「食べ物」のそれぞれについての組合せの被修飾語セットを生成するようになっている。そして、出現頻度数定義部143は、各被修飾語セットに属する被修飾語テキスト(図4に示す被修飾語テキストA、B)の出現頻度「20」と「7」、「20」と「2」及び「7」と「2」それぞれを比較し、出現頻度数が少ない「7」、「2」及び「2」を各被修飾語セットのセット出現頻度数として定義するようになっている。すなわち、出現頻度数定義部143は、図4に示すように、各カテゴリにおいてそれぞれ被修飾語セットを生成してセット出現頻度数として定義するようになっている。   For example, as shown in FIG. 3, the appearance frequency number definition unit 143 extracts the text sets of “price”, “entrance fee”, and “food” for the same evaluation expression text “high” for category 2, When the appearance frequency numbers are respectively counted as “20”, “7”, and “2”, as shown in FIG. 4, “price” and “entrance fee”, “price” and “food”, and “ A combination set of modifiers for each of “entrance fee” and “food” is generated. Then, the appearance frequency count definition unit 143 displays the appearance frequencies “20” and “7”, “20”, and “20” of the modified word text (modified word text A and B shown in FIG. 4) belonging to each modified word set. “2”, “7”, and “2” are compared, and “7”, “2”, and “2”, which have a small number of appearance frequencies, are defined as the number of appearance frequencies of each modified word set. . That is, as shown in FIG. 4, the appearance frequency number definition unit 143 generates a modified word set for each category and defines it as the set appearance frequency number.

同義語定義部144は、同一の評価表現テキストについての被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算するとともに、当該セット出現頻度数が予め定められた閾値以上またはセット出現頻度数の高い上位3つなどの所定の条件を具備する被修飾語セットを検出する。そして、同義語定義部144は、当該検出された被修飾語セットに属する各被修飾語テキストをそれぞれの同義語として定義し、当該定義した同義語のリストを同義語辞書として生成するようになっている。   The synonym definition unit 144 adds the set appearance frequency numbers in the modified word set composed of the modified word texts for the same evaluation expression text in all categories, and the set appearance frequency number is a predetermined threshold value. A modified word set having predetermined conditions such as the top three having the highest number of appearance frequencies or the set is detected. And the synonym definition part 144 defines each to-be-modified word text which belongs to the said to-be-modified word set as a synonym, and produces | generates the list | wrist of the defined synonym as a synonym dictionary. ing.

例えば、同義語定義部144は、図5に示すように、「価格」と「料金」、「従業員」と「店員」、「アトラクション」と「乗り物」など、各カテゴリ毎に生成された被修飾語セットにおけるそれぞれの被修飾語テキストA、Bが同一である同一の被修飾語セットのセット出現頻度数を合算し、所定の条件として閾値が出現頻度数「100」以上の修飾語セット、「価格」と「料金」、「従業員」と「店員」、「アトラクション」と「乗り物」のそれぞれの被修飾語テキストA、Bを同義語として定義するようになっている。   For example, as shown in FIG. 5, the synonym definition unit 144 includes “price” and “fee”, “employee” and “clerk”, “attraction” and “vehicle”, and the like generated for each category. A set of appearance frequencies of the same set of modified words in which each of the modified word texts A and B in the modifier set is the same, and a threshold set having a frequency of appearance frequency “100” or more as a predetermined condition; The modified word texts A and B of “price” and “fee”, “employee” and “store clerk”, “attraction” and “vehicle” are defined as synonyms.

データ解析部145は、同義語定義部144によって生成された同義語辞書を用いて取得した複数のアンケートデータに基づいて、当該アンケートにおけるテキスト(例えば、被修飾語テキスト)の頻度集計などのアンケート解析処理を実行するようになっている。   The data analysis unit 145 performs questionnaire analysis such as frequency counting of texts in the questionnaire (for example, modified word text) based on a plurality of questionnaire data acquired using the synonym dictionary generated by the synonym definition unit 144. Processing is to be executed.

具体的には、アンケート解析処理として頻出意見の抽出を行う場合には、データ解析部145は、図6(a)に示す同義語辞書を用いて学習データとして用いたアンケートデータに対して被修飾語テキストの頻度を同義語毎に抽出してディスプレイ170などに提示するようになっている。例えば、同義語辞書を用いない場合であって、頻出意見の抽出を行う場合には、図6(b)に示すように、「店員」と「従業員」及び「料金」と「入場料」とが別の被修飾語テキストとして出現頻度が別々に算出される。しかしながら、本実施形態のデータ解析部145は、上述の各処理を実行することによって、「料金」と「入場料」及び「店員」と「従業員」の各被修飾語テキストが同義語として定義されるので、図6(c)に示すように、データ解析部145は、「料金」及び「店員」の出現頻度数が同義語「入場料」及び「従業員」の出現頻度数と合算されて提示するようになっている。   Specifically, when frequent opinions are extracted as questionnaire analysis processing, the data analysis unit 145 uses the synonym dictionary shown in FIG. 6A to qualify questionnaire data used as learning data. The frequency of word text is extracted for each synonym and presented on the display 170 or the like. For example, in the case where a synonym dictionary is not used and frequent opinions are extracted, as shown in FIG. 6B, “clerk”, “employee”, “fee”, and “entrance fee” Appearance frequencies are calculated separately as different modifier texts. However, the data analysis unit 145 according to the present embodiment executes the above-described processes, thereby defining the qualifier texts of “fee” and “entrance fee” and “clerk” and “employee” as synonyms. Therefore, as shown in FIG. 6C, the data analysis unit 145 adds the appearance frequency numbers of “fee” and “clerk” to the appearance frequency numbers of the synonyms “admission fee” and “employee”. To be presented.

なお、これにより、データ解析部145は、頻出意見の抽出として被修飾語テキストを的確に抽出することができるようになっている。また、アンケート解析処理は、各被修飾語テキスト毎に出現頻度数を算出しつつ、同義語辞書に基づいて算出された各被修飾語テキストの出現頻度数を同義語毎に合算して再集計するようにしてもよい。すなわち、この場合には、アンケート解析処理は、図6(b)の算出を先に実行し、その後に図6(c)の再計算を実行するようにしてもよい。   As a result, the data analysis unit 145 can accurately extract the modified word text as frequent opinion extraction. In addition, the questionnaire analysis process calculates the frequency of occurrence for each modified word text, and sums up the frequency of occurrence of each modified word text calculated based on the synonym dictionary for each synonym and re-aggregates You may make it do. That is, in this case, in the questionnaire analysis process, the calculation in FIG. 6B may be executed first, and then the recalculation in FIG. 6C may be executed.

[データ解析処理]
次に、図7を用いて本実施形態におけるデータ解析処理の動作について説明する。なお、図7は、本実施形態におけるデータ解析処理の動作を示すフローチャートである。
[Data analysis processing]
Next, the operation of the data analysis process in this embodiment will be described with reference to FIG. FIG. 7 is a flowchart showing the operation of the data analysis process in this embodiment.

本動作は、入力インターフェース110を用いてカテゴリ情報を付与しつつ、複数のアンケートデータを取得する場合について説明する。また、既に、複数のアンケートデータを取得するためのデータ解析プログラムが起動しているものとする。   This operation will be described for a case where a plurality of questionnaire data is acquired while providing category information using the input interface 110. In addition, it is assumed that a data analysis program for acquiring a plurality of questionnaire data has already been activated.

まず、データ取得処理部141が、入力インターフェース110を介して、アンケートデータの入力を開始する旨のユーザ指示を検出すると(ステップS101:YES)、当該入力インターフェース110及び表示制御部150と連動し、ディスプレイ170に種々の表示を行いつつ、ユーザによって入力されたアンケートデータ及びアンケートデータ毎に該当するカテゴリ情報を取得する(ステップS102)。このとき、データ取得処理部141は、対話型のアプリケーションプログラムを実行してアンケートデータ及びそのカテゴリ情報を取得するとともに、データ取得処理部141は、データ記憶部130に一時的に記憶する。   First, when the data acquisition processing unit 141 detects a user instruction to start inputting questionnaire data via the input interface 110 (step S101: YES), the data acquisition processing unit 141 is linked with the input interface 110 and the display control unit 150, While performing various displays on the display 170, the questionnaire data input by the user and the category information corresponding to each questionnaire data are acquired (step S102). At this time, the data acquisition processing unit 141 executes an interactive application program to acquire questionnaire data and its category information, and the data acquisition processing unit 141 temporarily stores it in the data storage unit 130.

次いで、抽出処理部142は、取得した各アンケートデータに対してそれぞれ形態素解析及び構文解析を実行し(ステップS103)、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットをカテゴリ情報とともに抽出する(ステップS104)。   Next, the extraction processing unit 142 performs morphological analysis and syntax analysis on each acquired questionnaire data (step S103), and the evaluation expression text indicating the evaluation expression and the modified word text to be modified by the evaluation expression text, Are extracted together with category information (step S104).

次いで、抽出処理部142は、カテゴリ情報によって示されるカテゴリ毎に、かつ、同一の評価表現毎に、被修飾語テキストの出現頻度数を集計するとともに(ステップS105)、出現頻度数定義部143は、同一カテゴリ毎に、被修飾語セットを生成し、当該被修飾セットとしての出現頻度数をセット出現頻度数として定義する(ステップS106)。   Next, the extraction processing unit 142 counts the appearance frequency number of the modified word text for each category indicated by the category information and for each identical evaluation expression (step S105), and the appearance frequency number definition unit 143 Then, a modified word set is generated for each same category, and the appearance frequency number as the modified set is defined as the set appearance frequency number (step S106).

次いで、同義語定義部144は、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算するとともに(ステップS107)、当該セット出現頻度数が予め定められた閾値以上の条件を具備する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストをそれぞれの同義語として定義して同義語辞書を生成する(ステップS108)。   Next, the synonym definition unit 144 adds the set appearance frequency numbers in the modified word set composed of the same modified word text in all categories (step S107), and the set appearance frequency number is predetermined. A modified word set having a condition equal to or greater than a threshold value is detected, and each modified word text belonging to the detected modified word set is defined as a synonym and a synonym dictionary is generated (step S108).

次いで、データ解析部145は、同義語定義部144によって生成された同義語辞書を用いて取得した複数のアンケートデータにおけるテキスト(例えば、被修飾語テキスト)の頻度数を集計するアンケート解析処理を実行する(ステップS109)。   Next, the data analysis unit 145 executes a questionnaire analysis process that counts the frequency numbers of texts (for example, modified word texts) in a plurality of questionnaire data acquired using the synonym dictionary generated by the synonym definition unit 144. (Step S109).

最後に、データ解析部145は、アンケートの解析処理における結果をディスプレイ170に提示して(ステップS110)本動作を終了させる。   Finally, the data analysis unit 145 presents the result of the questionnaire analysis process on the display 170 (step S110) and ends the operation.

なお、本動作は、入力インターフェース110を用いてカテゴリ情報を付与しつつ、複数のアンケートデータを取得する場合について説明したが、通信インターフェース120を介してサーバ装置10またはデータベース300から取得する場合には、データ取得処理部141が、通信インターフェース120と連動して複数のアンケートデータを、カテゴリ情報を付与させつつ、取得する。   In addition, although this operation | movement demonstrated the case where a some questionnaire data was acquired, providing category information using the input interface 110, when acquiring from the server apparatus 10 or the database 300 via the communication interface 120, it is. The data acquisition processing unit 141 acquires a plurality of questionnaire data while giving category information in conjunction with the communication interface 120.

[作用効果]
以上、本実施形態の文書解析システム100は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義した同義語辞書を生成することができる。したがって、本実施形態の文書解析システム100は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を用いてデータ解析を行うことができる。そして、本実施形態の文書解析システム100は、文書における単語の表記が異なることによって分散されていた学習データにおける単語の出現頻度を的確に算出することができるので、学習データから的確に意見抽出を行うこと、または、学習データを的確に分析することができる。
[Function and effect]
As described above, the document analysis system 100 according to the present embodiment can define synonyms from words belonging to a plurality of different sentences and different documents by using category information. Since synonyms can be defined from the document, a synonym dictionary can be generated that also defines synonyms in unusual words such as words specific to a specialized field or a specific industry. Therefore, the document analysis system 100 according to the present embodiment is versatile and can perform data analysis using a synonym dictionary in which synonyms are widely defined. The document analysis system 100 according to the present embodiment can accurately calculate the appearance frequency of words in learning data that has been distributed due to different notation of words in the document, so that opinions can be accurately extracted from the learning data. Or learning data can be analyzed accurately.

また、本実施形態の文書解析システム100は、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数の少ない頻度をセット出現頻度数として定義しているので、被修飾語セットにおける一方の被修飾語テキストの出現頻度数が著しく大きくなった場合であっても、その一方の被修飾語テキストの出現頻度数による影響が大きくなることを防ぐことができるので他の被修飾語セットと比較する際に、的確に同義語を定義することができる同義語辞書を用いてデータ解析を行うことができる。   In addition, the document analysis system 100 according to the present embodiment defines a frequency with a small appearance frequency number in each modified word text of each modified word set as a set appearance frequency number. Even if the number of occurrences of the modified word text is significantly increased, it is possible to prevent the influence of the appearance frequency number of one of the modified word texts from increasing, so that In comparison, data analysis can be performed using a synonym dictionary that can accurately define synonyms.

すなわち、被修飾語セットにおける一方の被修飾語テキストの出現頻度数が著しく大きい場合に、大きい頻度をセット出現頻度数として定義すると、各被修飾語セットの出現頻度数は全て最も大きい出現頻度数で統一されてしまうこととなる。例えば、図3の例の場合には、評価表現テキスト「高い」についての各被修飾語セットの組み合わせにおける出現頻度数は、全て「20」となる。そこで、全カテゴリで出現頻度数を合算すると、各被修飾語セットにおける出現頻度数の差が出にくくなり、多くの被修飾語セットの組合せが同義語と定義されてしまう。したがって、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数の少ない頻度をセット出現頻度数として定義することによってこのようなことを防ぐことができる。   In other words, if the frequency of occurrence of one of the modified word texts in the modified word set is significantly large, defining the large frequency as the set frequency of occurrence, the frequency of occurrence of each modified word set is the largest frequency of occurrence Will be unified. For example, in the case of the example in FIG. 3, the number of appearance frequencies in the combination of each modified word set for the evaluation expression text “high” is all “20”. Therefore, if the appearance frequency numbers in all categories are added together, it becomes difficult to produce a difference in the appearance frequency numbers in each modified word set, and many combinations of the modified word sets are defined as synonyms. Therefore, such a situation can be prevented by defining a frequency with a small number of appearance frequencies in each modified word text of each modified word set as a set appearance frequency number.

また、本実施形態の文書解析システム100は、単一の文章のテキストを入力すれば、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して生成された同義語辞書を用いてデータ解析を行うことができる。   In addition, the document analysis system 100 according to the present embodiment can generate a synonym dictionary by inputting a single sentence text. Therefore, synonyms generated by detecting synonyms from various documents. Data analysis can be performed using a word dictionary.

[変形例]
次に、本実施形態の文書解析システム100の変形例について説明する。
[Modification]
Next, a modified example of the document analysis system 100 of this embodiment will be described.

本実施形態の出現頻度数定義部143は、被修飾語セットに属する各被修飾語テキストの少ない方の出現頻度数をセット出現頻度数として定義するようになっているが、双方の出現頻度数の平均、及び、双方のまたは片方の出現頻度数に基づいて所定の関数を用いるなど一定の法則によってセット出現頻度数を定めることができればよい。   The appearance frequency number defining unit 143 according to the present embodiment is configured to define the appearance frequency number of each of the modified word texts belonging to the modified word set as the set appearance frequency number. It is only necessary that the set appearance frequency number can be determined by a certain rule such as using a predetermined function based on the average of both and the appearance frequency number of both or one.

また、本実施形態のデータ解析部145は、アンケート解析処理の結果をディスプレイ170に提示するようになっているが、プリンタなどによって印刷して出力してもよいし、データ記憶部130または記録媒体などにデータとして出力してもよい。   Further, the data analysis unit 145 of the present embodiment is configured to present the result of the questionnaire analysis process on the display 170, but may be printed and output by a printer or the like, or the data storage unit 130 or the recording medium It may be output as data.

また、本実施形態のデータ処理部140は、単一の文章から形成されるアンケートデータを用いているが、複数の文章のテキストであって単一のカテゴリ情報から形成されているものであってもよい。この場合は、抽出処理部142は、それぞれの文章に応じて形態素解析及び構文解析を行うようになっている。したがって、単一のカテゴリ情報が付与されていれば複数の文章のテキストであっても、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して同義語辞書を生成することができるようになっている。   The data processing unit 140 of the present embodiment uses questionnaire data formed from a single sentence, but is a text of a plurality of sentences and formed from a single category information. Also good. In this case, the extraction processing unit 142 performs morphological analysis and syntax analysis according to each sentence. Therefore, if a single category information is given, a synonym dictionary can be generated even for texts of multiple sentences, so synonyms can be detected from various documents by detecting synonyms. It can be generated.

また、本実施形態においては、同一の主題を有するアンケートデータを文書データとして用いているが、Webページ、新聞や雑誌の記事または本による、同一の事件、事故または問題などの同一のトピックについて記載された文章、または、同一のジャンルでカテゴライズされた文章などの同一の主題を有する文章によって形成されているものであれば、カテゴリ情報を付与することによって同義語辞書を生成することができるようになっている。   In this embodiment, questionnaire data having the same subject is used as document data. However, the same topic such as the same incident, accident, or problem is described by an article or book of a Web page, newspaper or magazine. So that a synonym dictionary can be generated by adding category information to texts that have the same subject, such as texts that have been categorized in the same genre It has become.

<第2実施形態>
はじめに、図8及び図9の各図を用いて本発明に係る文書検出システム200の実施形態について説明する。
Second Embodiment
First, an embodiment of the document detection system 200 according to the present invention will be described with reference to FIGS. 8 and 9.

本実施形態は、第1実施形態において学習データとして用いたアンケートデータに対してテキストの頻度集計を行う点に代えて、特定のテキスト(例えば、被修飾語テキスト)を有する文書を検出する点に特徴があり、その他の構成は、第1実施形態と同一である。なお、本実施形態において、第1実施形態と同一の部材には同一の符号を付してその説明を省略する。   In the present embodiment, instead of performing the frequency aggregation of the text on the questionnaire data used as the learning data in the first embodiment, a document having a specific text (for example, a modified word text) is detected. There are features and other configurations are the same as those of the first embodiment. In the present embodiment, the same members as those in the first embodiment are denoted by the same reference numerals, and the description thereof is omitted.

[文書検出システムの概要構成]
まず、図8を用いて本実施形態の文書検出システム200の概要構成について説明する。なお、図8は、本実施形態の文書検出システム200の構成を示すシステム構成図である。
[Overview of document detection system]
First, a schematic configuration of the document detection system 200 according to the present embodiment will be described with reference to FIG. FIG. 8 is a system configuration diagram showing the configuration of the document detection system 200 of this embodiment.

文書解析システム100は、図8に示すように、入力インターフェース110、通信インターフェース120、データ記憶部130、ディスプレイ170、当該ディスプレイ170を制御する表示制御部150及びROM/RAM160の種々のハードウェアとともに、所定の処理を実行するデータ処理部240及びシステム全体を管理するシステム管理制御部180を有している。特に、本実施形態のデータ処理部240は、アンケート集計プログラムに代えて文書検出処理を実現するためのプログラム(以下、「文書検出プログラム」という。)を実行するために、図8に示すように、データ取得処理部141、抽出処理部142、出現頻度数定義部143、同義語定義部144及び文書データ検出部241を構築する。   As shown in FIG. 8, the document analysis system 100 includes an input interface 110, a communication interface 120, a data storage unit 130, a display 170, a display control unit 150 for controlling the display 170, and various hardware such as a ROM / RAM 160. A data processing unit 240 that executes predetermined processing and a system management control unit 180 that manages the entire system are included. In particular, as shown in FIG. 8, the data processing unit 240 of the present embodiment executes a program for realizing document detection processing (hereinafter referred to as “document detection program”) instead of the questionnaire totalization program. The data acquisition processing unit 141, the extraction processing unit 142, the appearance frequency number definition unit 143, the synonym definition unit 144, and the document data detection unit 241 are constructed.

なお、本実施形態における入力インターフェース110、通信インターフェース120、データ記憶部130、ディスプレイ170、表示制御部150、ROM/RAM160、データ処理部240及びシステム管理制御部180は、バスBによって互いに接続されている。また、例えば、本実施形態のディスプレイ170は、本発明の提示手段を構成する。   Note that the input interface 110, the communication interface 120, the data storage unit 130, the display 170, the display control unit 150, the ROM / RAM 160, the data processing unit 240, and the system management control unit 180 in this embodiment are connected to each other by a bus B. Yes. Further, for example, the display 170 of the present embodiment constitutes the presenting means of the present invention.

[文書データ検出部]
文書データ検出部241は、同義語定義部144によって生成された同義語辞書を用いてデータ記憶部130またはデータベース300に予め記憶された文書データの中から該当する文書データを検出してディスプレイ170にその検出結果を表示させるようになっている。
[Document data detector]
The document data detection unit 241 detects corresponding document data from the document data stored in advance in the data storage unit 130 or the database 300 using the synonym dictionary generated by the synonym definition unit 144 and displays it on the display 170. The detection result is displayed.

具体的には、文書データ検出部241は、各文書データが有する各テキストと同義語辞書にリスト化されているテキストとを同義語を含めて比較し、一致するテキストを有する文書データを検出するようになっている。そして、この文書データ検出部241は、検出した文書データの内容、データ名または記録されているアドレスなどの文書データに関する情報をディスプレイ170に表示させるようになっている。なお、例えば、本実施形態の文書データ検出部241は、本発明の検出手段を構成する。   Specifically, the document data detection unit 241 compares each text included in each document data with the text listed in the synonym dictionary including synonyms, and detects document data having matching text. It is like that. The document data detection unit 241 displays information on the document data such as the content of the detected document data, the data name, or the recorded address on the display 170. Note that, for example, the document data detection unit 241 of the present embodiment constitutes the detection means of the present invention.

[文書検出処理]
次に、図9を用いて本実施形態における文書検出処理の動作について説明する。なお、図9は、本実施形態における文書検出処理の動作を示すフローチャートである。
[Document detection processing]
Next, the operation of the document detection process in this embodiment will be described with reference to FIG. FIG. 9 is a flowchart showing the operation of the document detection process in this embodiment.

本動作は、入力インターフェース110を用いてカテゴリ情報を付与しつつ、複数のアンケートデータを取得する場合について説明する。また、既に複数のアンケートデータを取得するための文書検出処理プログラムが起動しているものとする。   This operation will be described for a case where a plurality of questionnaire data is acquired while providing category information using the input interface 110. Also, it is assumed that a document detection processing program for acquiring a plurality of questionnaire data has already been started.

まず、データ取得処理部141が、入力インターフェース110を介して、アンケートデータの入力を開始する旨のユーザ指示を検出すると(ステップS201:YES)、当該入力インターフェース110及び表示制御部150と連動し、ディスプレイ170に種々の表示を行いつつ、ユーザによって入力されたアンケートデータ及びアンケートデータ毎に該当するカテゴリ情報を取得する(ステップS202)。このとき、データ取得処理部141は、データ記憶部130に一時的に記憶する。   First, when the data acquisition processing unit 141 detects a user instruction to start inputting questionnaire data via the input interface 110 (step S201: YES), the data acquisition processing unit 141 works in conjunction with the input interface 110 and the display control unit 150, While performing various displays on the display 170, the questionnaire data input by the user and the category information corresponding to each questionnaire data are acquired (step S202). At this time, the data acquisition processing unit 141 temporarily stores the data in the data storage unit 130.

次いで、抽出処理部142は、取得した各アンケートデータに対してそれぞれ形態素解析及び構文解析を実行し(ステップS203)、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットをカテゴリ情報とともに抽出する(ステップS204)。   Next, the extraction processing unit 142 performs morphological analysis and syntax analysis on each acquired questionnaire data (step S203), and the evaluation expression text indicating the evaluation expression, the modified word text to be modified by the evaluation expression text, Are extracted together with category information (step S204).

次いで、抽出処理部142は、カテゴリ情報によって示されるカテゴリ毎に、かつ、同一の評価表現毎に、被修飾語テキストの出現頻度数を集計するとともに(ステップS205)、出現頻度数定義部143は、同一カテゴリ毎に、被修飾語セットを生成し、当該被修飾セットとしての出現頻度数をセット出現頻度数として定義する(ステップS206)。   Next, the extraction processing unit 142 counts the appearance frequency number of the modified word text for each category indicated by the category information and for each identical evaluation expression (step S205), and the appearance frequency number definition unit 143 For each same category, a modified word set is generated, and the appearance frequency number as the modified set is defined as the set appearance frequency number (step S206).

次いで、同義語定義部144は、同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算するとともに(ステップS207)、当該セット出現頻度数が予め定められた閾値以上の条件を具備する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストをそれぞれの同義語として定義して同義語辞書を生成する(ステップS208)。   Next, the synonym definition unit 144 adds the set appearance frequency numbers in the modified word set composed of the same modified word text in all categories (step S207), and the set appearance frequency number is predetermined. A modified word set having a condition equal to or greater than a threshold value is detected, and each modified word text belonging to the detected modified word set is defined as a synonym and a synonym dictionary is generated (step S208).

次いで、文書データ検出部241は、同義語定義部144によって生成された同義語辞書を用いてデータ記憶部130に予め記憶された複数の文書データが有する各テキストと同義語辞書にリスト化されている各テキストを比較し、一致するテキストを有する文書データを検出する(ステップS209)。   Next, the document data detection unit 241 uses the synonym dictionary generated by the synonym definition unit 144 to list each text in the plurality of document data stored in the data storage unit 130 in advance in the synonym dictionary. The existing texts are compared, and the document data having the matching text is detected (step S209).

最後に、文書データ検出部241は、検出した文書データの内容、データ名または記録されているアドレスなどの文書データに関する情報をディスプレイ170に表示させ(ステップS210)本動作を終了させる。   Finally, the document data detection unit 241 displays information on the document data such as the content of the detected document data, the data name, or the recorded address on the display 170 (step S210), and ends the operation.

なお、本動作は、入力インターフェース110を用いてカテゴリ情報を付与しつつ、複数のアンケートデータを取得する場合について説明したが、通信インターフェース120を介してサーバ装置10またはデータベース300から取得する場合には、データ取得処理部141が、通信インターフェース120と連動して複数のアンケートデータを、カテゴリ情報を付与させつつ、取得する。   In addition, although this operation | movement demonstrated the case where a some questionnaire data was acquired, providing category information using the input interface 110, when acquiring from the server apparatus 10 or the database 300 via the communication interface 120, it is. The data acquisition processing unit 141 acquires a plurality of questionnaire data while giving category information in conjunction with the communication interface 120.

[作用効果]
以上、本実施形態の文書検出システム200は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義した同義語辞書を生成することができる。したがって、本実施形態の文書検出システム200は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を用いてデータ解析を行うことができる。そして、本実施形態の文書解析システム100は、文書における単語の表記が異なることによって分散されていた学習データにおける単語の出現頻度を的確に算出することができるので、学習データから的確に意見抽出を行うこと、または、学習データを的確に分析することができる。
[Function and effect]
As described above, the document detection system 200 according to the present embodiment can define synonyms from words belonging to a plurality of different sentences and a plurality of different documents by using category information. Since synonyms can be defined from the document, a synonym dictionary can be generated that also defines synonyms in unusual words such as words specific to a specialized field or a specific industry. Therefore, the document detection system 200 according to the present embodiment is versatile and can perform data analysis using a synonym dictionary in which synonyms are widely defined. The document analysis system 100 according to the present embodiment can accurately calculate the appearance frequency of words in learning data that has been distributed due to different notation of words in the document, so that opinions can be accurately extracted from the learning data. Or learning data can be analyzed accurately.

また、本実施形態の文書検出システム200は、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数の少ない頻度をセット出現頻度数として定義しているので、被修飾語セットにおける一方の被修飾語テキストの出現頻度数が著しく大きくなった場合であっても、その一方の被修飾語テキストの出現頻度数による影響が大きくなることを防ぐことができるので、他の被修飾語セットと比較する際に、的確に同義語を定義することができる同義語辞書を用いて文書データの検出を行うことができる。   In addition, since the document detection system 200 of the present embodiment defines a frequency with a small number of appearance frequencies in each modified word text of each modified word set as a set appearance frequency number, Even if the number of occurrences of the modified word text is significantly increased, it is possible to prevent the influence of the appearance frequency number of one of the modified word texts from increasing, so the other modified word set , The document data can be detected using a synonym dictionary that can accurately define synonyms.

また、本実施形態の文書検出システム200は、単一の文章のテキストを入力すれば、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して生成された同義語辞書を用いて文書データの検出を行うことができる。   In addition, the document detection system 200 according to the present embodiment can generate a synonym dictionary by inputting a single sentence text. Therefore, synonyms generated by detecting synonyms from various documents. Document data can be detected using a word dictionary.

[変形例]
次に、本実施形態の文書解析システム100の変形例について説明する。
[Modification]
Next, a modified example of the document analysis system 100 of this embodiment will be described.

本実施形態の出現頻度数定義部143は、被修飾語セットに属する各被修飾語テキストの少ない方の出現頻度数をセット出現頻度数として定義するようになっているが、双方の出現頻度数の平均、及び、双方のまたは片方の出現頻度数に基づいて所定の関数を用いるなど一定の法則によってセット出現頻度数を定めることができればよい。   The appearance frequency number defining unit 143 according to the present embodiment is configured to define the appearance frequency number of each of the modified word texts belonging to the modified word set as the set appearance frequency number. It is only necessary that the set appearance frequency number can be determined by a certain rule such as using a predetermined function based on the average of both and the appearance frequency number of both or one.

また、本実施形態のデータ解析部145は、アンケート解析処理の結果をディスプレイ170に提示するようになっているが、プリンタなどによって印刷して出力してもよいし、データ記憶部130または記録媒体などにデータとして出力してもよい。   Further, the data analysis unit 145 of the present embodiment is configured to present the result of the questionnaire analysis process on the display 170, but may be printed and output by a printer or the like, or the data storage unit 130 or the recording medium It may be output as data.

また、本実施形態のデータ処理部240は、単一の文章から形成されるアンケートデータを用いているが、複数の文章のテキストであって単一のカテゴリ情報から形成されているものであってもよい。この場合は、抽出処理部142は、それぞれの文章に応じて形態素解析及び構文解析を行うようになっている。したがって、単一のカテゴリ情報が付与されていれば複数の文章のテキストであっても、同義語辞書を生成することができるので、さまざまな文書の中から同義語を検出して同義語辞書を生成することができるようになっている。   In addition, the data processing unit 240 of the present embodiment uses questionnaire data formed from a single sentence, but is a text of a plurality of sentences and formed from a single category information. Also good. In this case, the extraction processing unit 142 performs morphological analysis and syntax analysis according to each sentence. Therefore, if a single category information is given, a synonym dictionary can be generated even for texts of multiple sentences, so synonyms can be detected from various documents by detecting synonyms. It can be generated.

また、本実施形態においては、同一の主題を有するアンケートデータを文書データとして用いているが、Webページ、新聞や雑誌の記事または本による、同一の事件、事故または問題などの同一のトピックについて記載された文章、または、同一のジャンルでカテゴライズされた文章などの同一の主題を有する文章によって形成されているものであれば、カテゴリ情報を付与することによって同義語辞書を生成することができるようになっている。   In this embodiment, questionnaire data having the same subject is used as document data. However, the same topic such as the same incident, accident, or problem is described by an article or book of a Web page, newspaper or magazine. So that a synonym dictionary can be generated by adding category information to texts that have the same subject, such as texts that have been categorized in the same genre It has become.

本発明の文書解析システム100及び文書検出システム200は、アンケート解析や文書検出など文書データの解析及び文書データの検出のあらゆる分野に適用することができる。   The document analysis system 100 and the document detection system 200 of the present invention can be applied to all fields of document data analysis and document data detection such as questionnaire analysis and document detection.

B … バス
10 … サーバ装置
100 … 文書解析システム
110 … 入力インターフェース
120 … 通信インターフェース
130 … データ記憶部
140、240 … データ処理部
141 … データ取得処理部
142 … 抽出処理部
143 … 出現頻度数定義部
144 … 同義語定義部
145 … データ解析部
150 … 表示制御部
160 … ROM/RAM
170 … ディスプレイ
180 … システム管理制御部
200 … 文書検出システム
241 … 文書データ検出部
300 … データベース
B ... Bus 10 ... Server device 100 ... Document analysis system 110 ... Input interface 120 ... Communication interface 130 ... Data storage unit 140, 240 ... Data processing unit 141 ... Data acquisition processing unit 142 ... Extraction processing unit 143 ... Appearance frequency number definition unit 144… synonym definition unit 145… data analysis unit 150… display control unit 160… ROM / RAM
170 ... Display 180 ... System management control unit 200 ... Document detection system 241 ... Document data detection unit 300 ... Database

Claims (8)

共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段と、
前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、
前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、
前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、各被修飾語セットのそれぞれの被修飾語テキストにおける出現頻度数の少ない頻度をセット出現頻度数として定義するセット出現頻度数定義手段と、
同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、
前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、
を備えることを特徴とする同義語辞書生成装置。
With respect to the content of the common document, an acquisition unit that acquires a plurality of document data to which category information indicating the same category is attached from outside,
Extraction means for performing morphological analysis and syntax analysis on the document data, and extracting a text set of an evaluation expression text indicating an evaluation expression and a modified word text modified by the evaluation expression text together with the category information;
Aggregating means for aggregating the number of appearance frequencies of the modified word text for each category and for each identical evaluation expression;
A modified word set generating means for generating a modified word set with each modified word text and another modified word text having the same evaluation expression for each category,
For each generated modified word set, the number of appearance frequencies in each modified word text of each modified word set is low based on the number of appearance frequencies in each modified word text of each modified word set A set appearance frequency number defining means for defining the frequency as a set appearance frequency number;
A calculation means for adding up the number of set appearance frequencies in the modified word set composed of the same modified word text in all categories;
Detecting a modified word set having a condition in which the set appearance frequency number is predetermined, and defining each modified word text belonging to the detected modified word set as a synonym, A synonym dictionary generating means for generating;
A synonym dictionary generation device comprising:
請求項1に記載の同義語辞書生成装置において、
前記文書データが、単一の文章のテキストから形成されている、同義語辞書生成装置。
In the synonym dictionary production | generation apparatus of Claim 1,
The synonym dictionary production | generation apparatus with which the said document data is formed from the text of the single sentence.
請求項1又は2に記載の同義語辞書生成装置において、
前記文書データが、複数の文章のテキストであって単一のカテゴリ情報から形成されている、同義語辞書生成装置。
In the synonym dictionary production | generation apparatus of Claim 1 or 2,
A synonym dictionary generating apparatus, wherein the document data is a text of a plurality of sentences and formed from a single category information.
請求項1乃至3の何れか一項に記載の同義語辞書生成装置において、
前記取得手段が、同一主題を有する複数の文書データを外部から取得する、同義語辞書生成装置。
In the synonym dictionary production | generation apparatus as described in any one of Claims 1 thru | or 3,
The synonym dictionary generation device, wherein the acquisition unit acquires a plurality of document data having the same subject from outside.
共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の学習データを外部から取得する取得手段と、
前記学習データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、
前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、
前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、各被修飾語セットのそれぞれの被修飾語テキストにおける出現頻度数の少ない頻度をセット出現頻度数として定義するセット出現頻度数定義手段と、
同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、
前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、
前記定義された同義語毎に前記学習データにおける出現頻度数を同義語出現頻度数として検出する検出手段と、
前記検出された同義と出現頻度数と同義語を対応付けて出力する出力手段と、
を備えることを特徴とするデータ解析装置。
With respect to the content of the common document, an acquisition means for acquiring a plurality of learning data to which category information indicating the same category is given from outside,
Extraction means for performing morphological analysis and syntax analysis on the learning data, and extracting a text set of an evaluation expression text indicating an evaluation expression and a modified word text modified by the evaluation expression text together with the category information;
Aggregating means for aggregating the number of appearance frequencies of the modified word text for each category and for each identical evaluation expression;
A modified word set generating means for generating a modified word set with each modified word text and another modified word text having the same evaluation expression for each category,
For each generated modified word set, the number of appearance frequencies in each modified word text of each modified word set is low based on the number of appearance frequencies in each modified word text of each modified word set A set appearance frequency number defining means for defining the frequency as a set appearance frequency number;
A calculation means for adding up the number of set appearance frequencies in the modified word set composed of the same modified word text in all categories;
Detecting a modified word set having a condition in which the set appearance frequency number is predetermined, and defining each modified word text belonging to the detected modified word set as a synonym, A synonym dictionary generating means for generating;
Detecting means for detecting an occurrence frequency number in the learning data as a synonym appearance frequency number for each of the defined synonyms;
Output means for associating and outputting the detected synonyms and the number of appearance frequencies and synonyms;
A data analysis apparatus comprising:
共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の学習データを外部から取得する取得手段と、
前記学習データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、
前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、
前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、各被修飾語セットのそれぞれの被修飾語テキストにおける出現頻度数の少ない頻度をセット出現頻度数として定義するセット出現頻度数定義手段と、
同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、
前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、
前記同義語辞書生成手段によって生成された同義語辞書を用い、予め記憶された複数の文書データが有する各テキストと、前記同義語辞書にリスト化されている各テキストとを比較し、一致するテキストを有する文書データを検出する検出手段と、
前記検出した文書データまたは当該文書データに関する情報を提示する提示手段と、
を備えることを特徴とするデータ検出装置。
With respect to the content of the common document, an acquisition means for acquiring a plurality of learning data to which category information indicating the same category is given from outside,
Extraction means for performing morphological analysis and syntax analysis on the learning data, and extracting a text set of an evaluation expression text indicating an evaluation expression and a modified word text modified by the evaluation expression text together with the category information;
Aggregating means for aggregating the number of appearance frequencies of the modified word text for each category and for each identical evaluation expression;
A modified word set generating means for generating a modified word set with each modified word text and another modified word text having the same evaluation expression for each category,
For each generated modified word set, the number of appearance frequencies in each modified word text of each modified word set is low based on the number of appearance frequencies in each modified word text of each modified word set A set appearance frequency number defining means for defining the frequency as a set appearance frequency number;
A calculation means for adding up the number of set appearance frequencies in the modified word set composed of the same modified word text in all categories;
Detecting a modified word set having a condition in which the set appearance frequency number is predetermined, and defining each modified word text belonging to the detected modified word set as a synonym, A synonym dictionary generating means for generating;
Using the synonym dictionary generated by the synonym dictionary generating means, comparing each text included in a plurality of document data stored in advance with each text listed in the synonym dictionary, and matching text Detecting means for detecting document data having
Presenting means for presenting the detected document data or information relating to the document data;
A data detection apparatus comprising:
プログラムされたコンピュータを用いて同義語辞書を生成する同義語辞書生成方法であって、
前記コンピュータにより実行される工程には、
共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得工程と、
前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出工程と、
前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計工程と、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成工程と、
前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、各被修飾語セットのそれぞれの被修飾語テキストにおける出現頻度数の少ない頻度をセット出現頻度数として定義するセット出現頻度数定義工程と、
同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出工程と、
前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成工程と、
が含まれること特徴とする同義語辞書生成方法。
A synonym dictionary generation method for generating a synonym dictionary using a programmed computer,
The steps executed by the computer include
With respect to the content of the common document, an acquisition step of acquiring a plurality of document data to which category information indicating the same category is given from outside,
An extraction step of performing morphological analysis and syntax analysis on the document data, and extracting an evaluation expression text indicating an evaluation expression and a text set of a modified word text modified by the evaluation expression text together with the category information;
For each category and for each same evaluation expression, a counting step for counting the number of appearance frequencies of the modified word text;
For each same category, a modified word set generation step for generating a modified word set with each modified word text and other modified word text having the same evaluation expression;
For each generated modified word set, the number of appearance frequencies in each modified word text of each modified word set is low based on the number of appearance frequencies in each modified word text of each modified word set A set appearance frequency number defining step for defining the frequency as a set appearance frequency number;
A calculation step of summing up the number of set appearance frequencies in the modified word set composed of the same modified word text in all categories;
Detecting a modified word set having a condition in which the set appearance frequency number is predetermined, and defining each modified word text belonging to the detected modified word set as a synonym, A synonym dictionary generation step to generate;
The synonym dictionary generation method characterized by including .
コンピュータを、
共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段、
前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段、
前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段、
前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、各被修飾語セットのそれぞれの被修飾語テキストにおける出現頻度数の少ない頻度をセット出現頻度数として定義するセット出現頻度数定義手段、
同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段、及び
前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段、
として機能させることを特徴とする同義語辞書生成プログラム。
Computer
An acquisition means for acquiring a plurality of document data to which category information indicating the same category is given from the outside with respect to the content of a common document,
Extraction means for performing morphological analysis and syntax analysis on the document data, and extracting together with the category information an evaluation expression text indicating an evaluation expression and a text set of modified word text modified by the evaluation expression text;
A counting means for counting the frequency of appearance of the modified word text for each category and for each same evaluation expression;
A modified word set generating means for generating a modified word set with each modified word text and another modified word text having the same evaluation expression for each category,
For each generated modified word set, the number of appearance frequencies in each modified word text of each modified word set is low based on the number of appearance frequencies in each modified word text of each modified word set Set appearance frequency number defining means for defining the frequency as a set appearance frequency number;
A calculating means for adding up the set appearance frequency numbers in the modified word set composed of the same modified word text in all categories, and a modified word set having a condition in which the combined set appearance frequency number is predetermined. Synonym dictionary generating means for detecting and defining each modified word text belonging to the detected modified word set as a synonym and generating a synonym dictionary;
A synonym dictionary generation program characterized by functioning as
JP2010187144A 2010-08-24 2010-08-24 Synonym dictionary generation device, data analysis device, data detection device, synonym dictionary generation method, and synonym dictionary generation program Expired - Fee Related JP5703629B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010187144A JP5703629B2 (en) 2010-08-24 2010-08-24 Synonym dictionary generation device, data analysis device, data detection device, synonym dictionary generation method, and synonym dictionary generation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010187144A JP5703629B2 (en) 2010-08-24 2010-08-24 Synonym dictionary generation device, data analysis device, data detection device, synonym dictionary generation method, and synonym dictionary generation program

Publications (2)

Publication Number Publication Date
JP2012048291A JP2012048291A (en) 2012-03-08
JP5703629B2 true JP5703629B2 (en) 2015-04-22

Family

ID=45903136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010187144A Expired - Fee Related JP5703629B2 (en) 2010-08-24 2010-08-24 Synonym dictionary generation device, data analysis device, data detection device, synonym dictionary generation method, and synonym dictionary generation program

Country Status (1)

Country Link
JP (1) JP5703629B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5897991B2 (en) * 2012-03-30 2016-04-06 Mrt株式会社 Expert evaluation information management device
JP6551026B2 (en) * 2015-08-05 2019-07-31 大日本印刷株式会社 Candidate word evaluation device, candidate word evaluation system, program, and candidate word evaluation method
JP7143624B2 (en) * 2018-05-09 2022-09-29 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program
JP7029813B2 (en) * 2019-02-28 2022-03-04 株式会社ミラボ Dictionary creation device, dictionary creation method and dictionary creation program

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08137892A (en) * 1994-11-14 1996-05-31 Toshiba Corp Method and device for document retrieval
JP2003108582A (en) * 2001-09-27 2003-04-11 Mitsubishi Electric Corp Synonym extracting method and document retrieving device
JP4361299B2 (en) * 2003-03-20 2009-11-11 株式会社リコー Evaluation expression extraction apparatus, program, and storage medium
JP2005025555A (en) * 2003-07-03 2005-01-27 Ricoh Co Ltd Thesaurus construction system, thesaurus construction method, program for executing the method, and storage medium with the program stored thereon
JP2007241765A (en) * 2006-03-09 2007-09-20 Nippon Telegr & Teleph Corp <Ntt> Method for acquiring attribute expression, and method, device and program for acquiring evaluation expression

Also Published As

Publication number Publication date
JP2012048291A (en) 2012-03-08

Similar Documents

Publication Publication Date Title
Petz et al. Reprint of: Computational approaches for mining user’s opinions on the Web 2.0
US9633007B1 (en) Loose term-centric representation for term classification in aspect-based sentiment analysis
Di Caro et al. Sentiment analysis via dependency parsing
CA3014309A1 (en) Expert knowledge platform
US10474752B2 (en) System and method for slang sentiment classification for opinion mining
Castellanos et al. LCI: a social channel analysis platform for live customer intelligence
Bhatia et al. Towards an information type lexicon for privacy policies
Lloret et al. A novel concept-level approach for ultra-concise opinion summarization
Savoy Authorship attribution: A comparative study of three text corpora and three languages
JP4796664B1 (en) Kansei analysis system and program
Wang et al. Customer-driven product design selection using web based user-generated content
Nair et al. SentiMa-sentiment extraction for Malayalam
Zhao et al. Creating a fine-grained corpus for chinese sentiment analysis
Sun et al. Pre-processing online financial text for sentiment classification: A natural language processing approach
JP2017134787A (en) Device, program, and method for analyzing topic evaluation in multiple areas
Wright Stylistics versus Statistics: A corpus linguistic approach to combining techniques in forensic authorship analysis using Enron emails
JP5703629B2 (en) Synonym dictionary generation device, data analysis device, data detection device, synonym dictionary generation method, and synonym dictionary generation program
Chen et al. Research on credit evaluation model of online store based on SnowNLP
Araslanov et al. Assessing the impact of text preprocessing in sentiment analysis of short social network messages in the Russian language
JP5599073B2 (en) Kansei analysis system and program
Ray et al. Predicting user motivation towards retention of e-services: An NLP-based approach
Akulick et al. Intent detection through text mining and analysis
JP2020067987A (en) Summary creation device, summary creation method, and program
Dini et al. Soma: The smart social customer relationship management tool: Handling semantic variability of emotion analysis with hybrid technologies
Tsai et al. Aspect-category-based sentiment classification with aspect-opinion relation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140131

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140722

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150209

R150 Certificate of patent or registration of utility model

Ref document number: 5703629

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees