JP2012048291A - 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム - Google Patents
同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム Download PDFInfo
- Publication number
- JP2012048291A JP2012048291A JP2010187144A JP2010187144A JP2012048291A JP 2012048291 A JP2012048291 A JP 2012048291A JP 2010187144 A JP2010187144 A JP 2010187144A JP 2010187144 A JP2010187144 A JP 2010187144A JP 2012048291 A JP2012048291 A JP 2012048291A
- Authority
- JP
- Japan
- Prior art keywords
- modified word
- text
- modified
- evaluation expression
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書解析システム100は、入力インターフェース110を介して取得した各アンケートデータに対して、評価表現を示す評価表現テキストと当該評価テキストが修飾する被修飾語テキストのセットをテキストセットとして抽出しつつ、評価表現テキスト、カテゴリ情報及び被修飾語テキストの出現頻度数に基づいて同義語を定義するようになっている。
【選択図】図1
Description
はじめに、図1〜図7の各図を用いて本発明に係る文書解析システム100の実施形態について説明する。
まず、図1を用いて本実施形態の文書解析システム100の概要構成について説明する。なお、図1は、本実施形態の文書解析システム100の構成を示すシステム構成図である。
次に、図1を用いて本実施形態の文書解析システム100におけるシステム構成の詳細について説明する。
(1)カテゴリ情報が付与され、テキスト形式の単一の文章データ(以下、「文章テキスト」ともいう。)から構成される複数のアンケートデータ(すなわち、文書データ)を取得する取得処理、
(2)取得されたアンケートデータからカテゴリ情報とともに、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットを抽出し、各被修飾語テキストのカテゴリ毎の出現頻度数を算出する抽出処理、
(4)同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成し、当該被修飾セットとしての出現頻度数をセット出現頻度数として定義するセット出現頻度数定義処理、
(5)同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算するとともに、前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する辞書生成処理、及び
(6)生成された同義語辞書を用いて取得した複数のアンケートデータのデータ解析の実行、
の各処理を実行する。
次に、図2〜図6の各図を用いて本実施形態のデータ処理部140における各部の構成及び動作について説明する。
次に、図7を用いて本実施形態におけるデータ解析処理の動作について説明する。なお、図7は、本実施形態におけるデータ解析処理の動作を示すフローチャートである。
以上、本実施形態の文書解析システム100は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義した同義語辞書を生成することができる。したがって、本実施形態の文書解析システム100は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を用いてデータ解析を行うことができる。そして、本実施形態の文書解析システム100は、文書における単語の表記が異なることによって分散されていた学習データにおける単語の出現頻度を的確に算出することができるので、学習データから的確に意見抽出を行うこと、または、学習データを的確に分析することができる。
次に、本実施形態の文書解析システム100の変形例について説明する。
はじめに、図8及び図9の各図を用いて本発明に係る文書検出システム200の実施形態について説明する。
まず、図8を用いて本実施形態の文書検出システム200の概要構成について説明する。なお、図8は、本実施形態の文書検出システム200の構成を示すシステム構成図である。
文書データ検出部241は、同義語定義部144によって生成された同義語辞書を用いてデータ記憶部130またはデータベース300に予め記憶された文書データの中から該当する文書データを検出してディスプレイ170にその検出結果を表示させるようになっている。
次に、図9を用いて本実施形態における文書検出処理の動作について説明する。なお、図9は、本実施形態における文書検出処理の動作を示すフローチャートである。
以上、本実施形態の文書検出システム200は、カテゴリ情報を用いることによって異なる複数の文章及び異なる複数の文書に属する単語から同義語を定義することができるとともに、カテゴリ情報さえ付与すれば、さまざまな文書の中から同義語を定義することができるので、専門分野または特定業界の固有の単語などの一般的でない単語における同義語も定義した同義語辞書を生成することができる。したがって、本実施形態の文書検出システム200は、汎用性を有し、かつ、幅広く同義語が定義された同義語辞書を用いてデータ解析を行うことができる。そして、本実施形態の文書解析システム100は、文書における単語の表記が異なることによって分散されていた学習データにおける単語の出現頻度を的確に算出することができるので、学習データから的確に意見抽出を行うこと、または、学習データを的確に分析することができる。
次に、本実施形態の文書解析システム100の変形例について説明する。
10 … サーバ装置
100 … 文書解析システム
110 … 入力インターフェース
120 … 通信インターフェース
130 … データ記憶部
140、240 … データ処理部
141 … データ取得処理部
142 … 抽出処理部
143 … 出現頻度数定義部
144 … 同義語定義部
145 … データ解析部
150 … 表示制御部
160 … ROM/RAM
170 … ディスプレイ
180 … システム管理制御部
200 … 文書検出システム
241 … 文書データ検出部
300 … データベース
Claims (10)
- 共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段と、
前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、
前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、
前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、
同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、
前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、
を備えることを特徴とする同義語辞書生成装置。 - 請求項1に記載の同義語辞書生成装置において、
前記出現頻度数定義手段が、各被修飾語セットのそれぞれの被修飾語テキストにおける出現頻度数の少ない頻度をセット出現頻度数として定義する、同義語辞書生成装置。 - 請求項1または2に記載の同義語辞書生成装置において、
前記文書データが、単一の文章のテキストから形成されている、同義語辞書生成装置。 - 請求項1乃至3の何れか一項に記載の同義語辞書生成装置において、
前記文書データが、複数の文章のテキストであって単一のカテゴリ情報から形成されている、同義語辞書生成装置。 - 請求項1乃至4の何れか一項に記載の同義語辞書生成装置において、
前記取得手段が、同一主題を有する複数の文書データを外部から取得する、同義語辞書生成装置。 - 共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段と、
前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、
予め定められた基準を具備する被修飾語セットに属する被修飾語テキストの組をそれぞれ同義語として定義して同義語辞書を生成する同義語辞書生成手段と、
を備えることを特徴とする同義語辞書生成装置。 - 共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の学習データを外部から取得する取得手段と、
前記学習データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、
前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、
前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、
同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、
前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、
前記定義された同義語毎に前記学習データにおける出現頻度数を同義語出現頻度数として検出する検出手段と、
前記検出された同義と出現頻度数と同義語を対応付けて出力する出力手段と、
を備えることを特徴とするデータ解析装置。 - 共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の学習データを外部から取得する取得手段と、
前記学習データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストとのテキストセットを前記カテゴリ情報とともに抽出する抽出手段と、
前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段と、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段と、
前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段と、
同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段と、
前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段と、
前記生成された同義語辞書を用いつつ、ユーザによって入力されたキーワードに基づいて、データベースに記憶された複数の文書データの中から該当する文書データを検出する検出手段と、
前記検出した文書データまたは当該文書データに関する情報を提示する提示手段と、
を備えることを特徴とするデータ検出装置。 - 共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得工程と、
前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出工程と、
前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計工程と、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成工程と、
前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義工程と、
同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出工程と、
前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成工程と、
を備えることを特徴とする同義語辞書生成方法。 - コンピュータを、
共通の文書の内容については同一のカテゴリを示すカテゴリ情報が付与された複数の文書データを外部から取得する取得手段、
前記文書データに対して形態素解析及び構文解析を実行し、評価表現を示す評価表現テキストと当該評価表現テキストが修飾する被修飾語テキストのテキストセットとを前記カテゴリ情報とともに抽出する抽出手段、
前記カテゴリ毎に、かつ、同一の評価表現毎に、前記被修飾語テキストの出現頻度数を集計する集計手段、
同一カテゴリ毎に、各被修飾語テキストと同一評価表現を有する他の被修飾語テキストとの被修飾語セットを生成する被修飾語セット生成手段、
前記生成された被修飾語セット毎に、各被修飾語セットのそれぞれの被修飾語テキストにおける各出現頻度数に基づいて、セット出現頻度数を定義するセット出現頻度数定義手段、
同一の被修飾語テキストで構成される被修飾語セットにおけるセット出現頻度数を全カテゴリで合算する算出手段、及び
前記合算されたセット出現頻度数が予め定められた条件を有する被修飾語セットを検出し、当該検出された被修飾語セットに属する各被修飾語テキストを同義語として定義して同義語辞書を生成する同義語辞書生成手段、
として機能させることを特徴とする同義語辞書生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010187144A JP5703629B2 (ja) | 2010-08-24 | 2010-08-24 | 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010187144A JP5703629B2 (ja) | 2010-08-24 | 2010-08-24 | 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012048291A true JP2012048291A (ja) | 2012-03-08 |
JP5703629B2 JP5703629B2 (ja) | 2015-04-22 |
Family
ID=45903136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010187144A Expired - Fee Related JP5703629B2 (ja) | 2010-08-24 | 2010-08-24 | 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5703629B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013147236A1 (ja) * | 2012-03-30 | 2013-10-03 | 株式会社メディカルリサーチアンドテクノロジー | 専門家評価情報管理装置 |
JP2017033434A (ja) * | 2015-08-05 | 2017-02-09 | 大日本印刷株式会社 | 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法 |
JP2019197364A (ja) * | 2018-05-09 | 2019-11-14 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
WO2020175662A1 (ja) * | 2019-02-28 | 2020-09-03 | 株式会社ミラボ | 辞書作成装置、辞書作成方法及び辞書作成プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08137892A (ja) * | 1994-11-14 | 1996-05-31 | Toshiba Corp | 文書検索方法及び文書検索装置 |
JP2003108582A (ja) * | 2001-09-27 | 2003-04-11 | Mitsubishi Electric Corp | 類義語抽出方法および文書検索装置 |
JP2004287683A (ja) * | 2003-03-20 | 2004-10-14 | Ricoh Co Ltd | 評価表現抽出装置、プログラム、記憶媒体及び評価表現抽出方法 |
JP2005025555A (ja) * | 2003-07-03 | 2005-01-27 | Ricoh Co Ltd | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 |
JP2007241765A (ja) * | 2006-03-09 | 2007-09-20 | Nippon Telegr & Teleph Corp <Ntt> | 属性表現獲得方法及び評価表現獲得方法及び装置及びプログラム |
-
2010
- 2010-08-24 JP JP2010187144A patent/JP5703629B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08137892A (ja) * | 1994-11-14 | 1996-05-31 | Toshiba Corp | 文書検索方法及び文書検索装置 |
JP2003108582A (ja) * | 2001-09-27 | 2003-04-11 | Mitsubishi Electric Corp | 類義語抽出方法および文書検索装置 |
JP2004287683A (ja) * | 2003-03-20 | 2004-10-14 | Ricoh Co Ltd | 評価表現抽出装置、プログラム、記憶媒体及び評価表現抽出方法 |
JP2005025555A (ja) * | 2003-07-03 | 2005-01-27 | Ricoh Co Ltd | シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体 |
JP2007241765A (ja) * | 2006-03-09 | 2007-09-20 | Nippon Telegr & Teleph Corp <Ntt> | 属性表現獲得方法及び評価表現獲得方法及び装置及びプログラム |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013147236A1 (ja) * | 2012-03-30 | 2013-10-03 | 株式会社メディカルリサーチアンドテクノロジー | 専門家評価情報管理装置 |
JP2013228978A (ja) * | 2012-03-30 | 2013-11-07 | Mrt Inc | 専門家評価情報管理装置 |
JP2017033434A (ja) * | 2015-08-05 | 2017-02-09 | 大日本印刷株式会社 | 候補語評価装置、候補語評価システム、プログラム及び候補語評価方法 |
JP2019197364A (ja) * | 2018-05-09 | 2019-11-14 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP7143624B2 (ja) | 2018-05-09 | 2022-09-29 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
WO2020175662A1 (ja) * | 2019-02-28 | 2020-09-03 | 株式会社ミラボ | 辞書作成装置、辞書作成方法及び辞書作成プログラム |
JP2020140583A (ja) * | 2019-02-28 | 2020-09-03 | 株式会社ミラボ | 辞書作成装置、辞書作成方法及び辞書作成プログラム |
JP7029813B2 (ja) | 2019-02-28 | 2022-03-04 | 株式会社ミラボ | 辞書作成装置、辞書作成方法及び辞書作成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5703629B2 (ja) | 2015-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deng et al. | Smart generation system of personalized advertising copy and its application to advertising practice and research | |
Petz et al. | Reprint of: Computational approaches for mining user’s opinions on the Web 2.0 | |
Di Caro et al. | Sentiment analysis via dependency parsing | |
CA3014309A1 (en) | Expert knowledge platform | |
US10474752B2 (en) | System and method for slang sentiment classification for opinion mining | |
US20130191380A1 (en) | Methods and systems for determining media value | |
US20130218914A1 (en) | System and method for providing recommendations based on information extracted from reviewers' comments | |
Bhatia et al. | Towards an information type lexicon for privacy policies | |
Moretti et al. | ALCIDE: Extracting and visualising content from large document collections to support humanities studies | |
Savoy | Authorship attribution: A comparative study of three text corpora and three languages | |
Zhao et al. | Creating a fine-grained corpus for chinese sentiment analysis | |
JP6529133B2 (ja) | 複数地域でのトピックの評価を分析する装置、プログラム及び方法 | |
US9224152B2 (en) | System and method for intent mining | |
JP5703629B2 (ja) | 同義語辞書生成装置、データ解析装置、データ検出装置、同義語辞書生成方法及び同義語辞書生成プログラム | |
Golpar-Rabooki et al. | Feature extraction in opinion mining through Persian reviews | |
Usmani et al. | A natural language processing approach to mine online reviews using topic modelling | |
Luo et al. | Entity sentiment analysis in the news: A case study based on negative sentiment smoothing model (nssm) | |
JP5599073B2 (ja) | 感性分析システム及びプログラム | |
JP2015210700A (ja) | 商品に対するユーザの感情分析装置及びプログラム | |
Fan | What makes consumer perception of online review helpfulness: Synthesizing the past to guide future research | |
Akulick et al. | Intent detection through text mining and analysis | |
Tsai et al. | Aspect-category-based sentiment classification with aspect-opinion relation | |
JP2016162357A (ja) | 商品に対するユーザの感情分析装置及びプログラム | |
KR20090126862A (ko) | 자연어 처리를 이용한 감성 정보 분석 시스템 및 방법,자연어 처리를 이용한 감성 정보 분석 방법을 컴퓨터에서실행하기 위한 프로그램을 저장한 기록매체 | |
Walha et al. | ETL design toward social network opinion analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140131 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140328 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140722 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150209 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5703629 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |