JP2005115468A - テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム - Google Patents
テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム Download PDFInfo
- Publication number
- JP2005115468A JP2005115468A JP2003345961A JP2003345961A JP2005115468A JP 2005115468 A JP2005115468 A JP 2005115468A JP 2003345961 A JP2003345961 A JP 2003345961A JP 2003345961 A JP2003345961 A JP 2003345961A JP 2005115468 A JP2005115468 A JP 2005115468A
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- information
- text
- document
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005065 mining Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims description 38
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 239000000284 extract Substances 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 abstract description 18
- 230000008569 process Effects 0.000 description 26
- 239000013598 vector Substances 0.000 description 14
- 238000012795 verification Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 210000001015 abdomen Anatomy 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000002349 favourable effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】分析対象テキスト中の情報と抽出すべき情報との対応関係を定義する照合パタンと、分析で必要とする情報を照合パタンと照合してテキストから抽出する情報抽出手段と、抽出した情報を格納する抽出情報格納手段を設け、分析手段は、分析対象文書の属性情報を格納する属性データベースと、分析対象文書が登録された文書索引と、情報抽出手段の抽出情報とを参照して分析結果を得ることで、複数の単語を考慮して自由記述回答を判別する。
【選択図】図1
Description
分析対象文書に付与された属性情報を格納する属性データベースと、テキスト解析手段の結果を用い、分析対象文書の文書索引情報を生成して文書索引に登録する登録手段と、上記属性データベースおよび文書索引を参照して分析結果を得る分析手段とを備えるテキストマイニング装置において、
分析で着目すべきテキストのパタンを記述した照合パタンを用いて分析対象文書をテキスト解析手段で解析した結果から分析で必要とされる情報を抽出する情報抽出手段を有し、
上記分析手段は、属性データベースと文書索引に加え情報抽出手段の抽出情報を参照して分析結果を得るものである。
分析で着目すべきテキストのパタンを記述した照合パタンを用いて分析対象文書をテキスト解析ステップで解析した結果から分析で必要とされる情報を抽出する情報抽出ステップを有し、
上記分析ステップは、属性データベースと文書索引に加え情報抽出ステップの抽出情報を参照して分析結果を得るものである。
テキスト解析ステップの結果を用い、分析対象文書の文書索引情報を生成して文書索引に登録する登録ステップと、
分析対象文書に付与された属性情報を属性データベースに格納する属性情報格納ステップと、
分析で着目すべきテキストのパタンを記述した照合パタンを用いて分析対象文書から分析で必要とされる情報を抽出する情報抽出ステップと、
属性データベースと文書索引及び情報抽出ステップの抽出情報を参照して分析結果を得る分析ステップとをコンピュータに実行させるものである。
また多数の類似表現をカバーすることができ、分析作業に際して同義語辞書構築の手間を削減することが出来るという利点がある。
図1に本発明によるテキストマイニング装置の実施の形態1における構成図を示す。テキスト解析手段101は、文書121に含まれるテキストを解析し、単語に分割して単語間の関係を抽出する。概念辞書作成手段102は、テキスト解析手段101が分割した単語の出現傾向から各単語の概念ベクトルを計算して概念辞書103に格納する。登録手段104は、概念辞書103に登録された概念ベクトルをもとに文書121に含まれるテキストをベクトル情報に変換して文書索引105に登録する。情報抽出手段106は、事前に定義された照合パタン107を参照して、テキスト解析手段101がテキスト解析した結果から分析に必要な情報を抽出して、登録手段104を介して抽出情報索引108に登録する。属性データベース109は、アンケート分析においては性別や年齢などの顧客情報を格納し、また、故障事例分析においては機種名や故障派生日時などの属性情報を格納する。分析手段110は、ユーザの入力した分析入力122を読み込んで、概念辞書103、文書索引105、抽出情報索引108、および、属性データベース109を参照して分析入力122に対応する分析支援のための分析情報123を出力する。
まずステップS201の概念辞書作成処理について説明する。ステップS201においては、まず登録手段104により文書121を読み込み、文書121に含まれるテキストをテキスト解析手段101により単語に分割する。ついで、登録手段104は概念辞書作成手段102を呼び出してテキスト解析手段101により分割した単語の出現傾向(同時に出現する(共起する)単語の頻度)から特異値分解という代数的演算により各単語の概念ベクトルを計算して図3に示すような概念辞書データを作成し、概念辞書103に格納する。
概念ベクトルの計算には、たとえば文献5(「単語の連想関係に基づく情報検索システムInfoMAP、高山他、情報学基礎53-1、1999-3」)に開示された方法を用いる。
また、単語を分割し、単語間の係り受け関係を抽出する方法については多数の公知文献があるので、説明を省略する。
なお、上記では文書索引情報として文書ベクトルの例を述べたが、文書索引情報としては概念辞書103を用いずに、文書中に出現した単語と、その文書とを対応づける対照表であってもよい。
図14は、分析手段110の詳細構成図である。分析条件入力手段1401は、分析作業者が分析入力122の条件を対話的に入力するためのGUI(Graphical User Interface)である。頻度集計手段1402は、分析条件入力手段1401で入力された分析条件に合致する文書や単語の頻度を、概念辞書103、文書索引105、抽出情報索引108、および、属性データベース109を参照して取得する。関連度計算手段1403は、概念辞書103、文書索引105、抽出情報索引108、および、属性データベース109を参照して、分析条件入力手段1401で入力された分析条件の指定により分類された文書集合から合成される概念ベクトルと、分析条件入力手段1401で入力された分析条件で指定されたテキストなどの概念ベクトルとの類似性を計算する。出力手段1404は、上記で得られた頻度および関連度を、分析作業者が傾向を把握しやすい形で整形して、表ないしはグラフの形式で分析情報123を出力する。
102:概念辞書作成手段、
103:概念辞書、
104:登録手段、
105:文書索引、
106:情報抽出手段、
107:照合パタン、
108:抽出情報索引、
109:属性データベース、
110:分析手段、
121:文書、
122:分析入力、
123:分析情報、
501:文節内パタン照合手段、
502:文内パタン照合手段、
503:係り受けパタン照合手段、
1401:分析条件入力手段、
1402:頻度集計手段、
1403:関連度計算手段、
1404:出力手段。
Claims (8)
- 分析対象文書中のテキストを解析して単語間の関係を抽出するテキスト解析手段と、
分析対象文書に付与された属性情報を格納する属性データベースと、テキスト解析手段の結果を用い、分析対象文書の文書索引情報を生成して文書索引に登録する登録手段と、上記属性データベースおよび文書索引を参照して分析結果を得る分析手段とを備えるテキストマイニング装置において、
分析で着目すべきテキストのパタンを記述した照合パタンを用いて分析対象文書をテキスト解析手段で解析した結果から分析で必要とされる情報を抽出する情報抽出手段を有し、
上記分析手段は、属性データベースと文書索引に加え情報抽出手段の抽出情報を参照して分析結果を得ることを特徴とするテキストマイニング装置。 - 上記分析対象文書中のテキストの単語の出現傾向を学習し、類義関係を自動的に取得して概念辞書に格納する概念辞書作成手段をさらに備え、
上記分析手段は、属性データベース、文書索引および情報抽出手段の抽出情報に加え、概念辞書を参照して分析結果を得ることを特徴とする請求項1記載のテキストマイニング装置。 - 上記情報抽出手段が、テキスト解析手段によるテキスト解析結果の文節内の情報を用いて必要な情報を抽出する文節内パタン照合手段を有することを特徴とする請求項1または請求項2記載のテキストマイニング装置。
- 上記情報抽出手段が、テキスト解析手段によるテキスト解析結果の文内の情報を用いて必要な情報を抽出する文内パタン照合手段を有することを特徴とする請求項1乃至3の何れか一項に記載のテキストマイニング装置。
- 上記情報抽出手段が、テキスト解析結果の係り受けの情報を用いて必要な情報を抽出する係り受けパタン照合手段を有することを特徴とする請求項1乃至4の何れか一項に記載のテキストマイニング装置。
- 分析対象文書中のテキストを解析して単語間の関係を抽出するテキスト解析ステップと、分析対象文書に付与された属性情報を属性データベースに格納する属性情報格納ステップと、テキスト解析ステップの結果を用い、分析対象文書の文書索引情報を生成して文書索引に登録する登録ステップと、上記属性データベースおよび文書索引を参照して分析結果を得る分析ステップとを備えるテキストマイニング方法において、
分析で着目すべきテキストのパタンを記述した照合パタンを用いて分析対象文書をテキスト解析ステップで解析した結果から分析で必要とされる情報を抽出する情報抽出ステップを有し、
上記分析ステップは、属性データベースと文書索引に加え情報抽出ステップの抽出情報を参照して分析結果を得ることを特徴とするテキストマイニング方法。 - 上記分析対象文書中のテキストの単語の出現傾向を学習し、類義関係を自動的に取得して概念辞書に格納する概念辞書作成ステップをさらに備え、
上記分析ステップは、属性データベース、文書索引および情報抽出ステップの抽出情報に加え、概念辞書を参照して分析結果を得ることを特徴とする請求項6記載のテキストマイニング方法。 - 分析対象文書中のテキストを解析して単語間の関係を抽出するテキスト解析ステップと、
テキスト解析ステップの結果を用い、分析対象文書の文書索引情報を生成して文書索引に登録する登録ステップと、
分析対象文書に付与された属性情報を属性データベースに格納する属性情報格納ステップと、
分析で着目すべきテキストのパタンを記述した照合パタンを用いて分析対象文書から分析で必要とされる情報を抽出する情報抽出ステップと、
属性データベースと文書索引及び情報抽出ステップの抽出情報を参照して分析結果を得る分析ステップとをコンピュータに実行させることを特徴とするテキストマイニングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003345961A JP4423004B2 (ja) | 2003-10-03 | 2003-10-03 | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003345961A JP4423004B2 (ja) | 2003-10-03 | 2003-10-03 | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005115468A true JP2005115468A (ja) | 2005-04-28 |
JP4423004B2 JP4423004B2 (ja) | 2010-03-03 |
Family
ID=34539075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003345961A Expired - Fee Related JP4423004B2 (ja) | 2003-10-03 | 2003-10-03 | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4423004B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233446A (ja) * | 2006-02-27 | 2007-09-13 | Oki Electric Ind Co Ltd | 同義語対抽出装置及び同義語対抽出方法 |
JP2008071002A (ja) * | 2006-09-13 | 2008-03-27 | C2Cube Inc | 評価出力装置、評価出力方法、およびプログラム |
JP2009015394A (ja) * | 2007-06-29 | 2009-01-22 | Toshiba Corp | 辞書構築支援装置 |
US7698129B2 (en) | 2006-02-23 | 2010-04-13 | Hitachi, Ltd. | Information processor, customer need-analyzing method and program |
JP2011198203A (ja) * | 2010-03-23 | 2011-10-06 | Dainippon Printing Co Ltd | 文書分類装置、文書分類方法、プログラムおよび記憶媒体 |
WO2012137782A1 (ja) * | 2011-04-08 | 2012-10-11 | 株式会社ユニバーサルエンターテインメント | 嗜好可視化システム及び検閲システム |
US9164964B2 (en) | 2012-02-16 | 2015-10-20 | International Business Machines Corporation | Context-aware text document analysis |
JP2020516985A (ja) * | 2017-03-30 | 2020-06-11 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 自然言語ダイアログを用いる対話型テキスト・マイニング方法、装置、プログラム |
US11367025B2 (en) * | 2018-04-26 | 2022-06-21 | Fujitsu Limited | Analysis method, analysis apparatus, and non-transitory computer-readable storage medium for storing program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7450464B2 (ja) | 2020-06-16 | 2024-03-15 | 株式会社クラレ | 水銀吸着材及びその製造方法 |
-
2003
- 2003-10-03 JP JP2003345961A patent/JP4423004B2/ja not_active Expired - Fee Related
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7698129B2 (en) | 2006-02-23 | 2010-04-13 | Hitachi, Ltd. | Information processor, customer need-analyzing method and program |
JP2007233446A (ja) * | 2006-02-27 | 2007-09-13 | Oki Electric Ind Co Ltd | 同義語対抽出装置及び同義語対抽出方法 |
JP2008071002A (ja) * | 2006-09-13 | 2008-03-27 | C2Cube Inc | 評価出力装置、評価出力方法、およびプログラム |
JP2009015394A (ja) * | 2007-06-29 | 2009-01-22 | Toshiba Corp | 辞書構築支援装置 |
JP2011198203A (ja) * | 2010-03-23 | 2011-10-06 | Dainippon Printing Co Ltd | 文書分類装置、文書分類方法、プログラムおよび記憶媒体 |
WO2012137782A1 (ja) * | 2011-04-08 | 2012-10-11 | 株式会社ユニバーサルエンターテインメント | 嗜好可視化システム及び検閲システム |
JP2012221222A (ja) * | 2011-04-08 | 2012-11-12 | Universal Entertainment Corp | 情報処理システム、嗜好可視化システム及び検閲システム並びに嗜好可視化方法 |
US10055487B2 (en) | 2011-04-08 | 2018-08-21 | Universal Entertainment Corporation | Preference visualization system and censorship system |
US9164964B2 (en) | 2012-02-16 | 2015-10-20 | International Business Machines Corporation | Context-aware text document analysis |
JP2020516985A (ja) * | 2017-03-30 | 2020-06-11 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 自然言語ダイアログを用いる対話型テキスト・マイニング方法、装置、プログラム |
JP7038136B2 (ja) | 2017-03-30 | 2022-03-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 自然言語ダイアログを用いる対話型テキスト・マイニング方法、装置、プログラム |
US11367025B2 (en) * | 2018-04-26 | 2022-06-21 | Fujitsu Limited | Analysis method, analysis apparatus, and non-transitory computer-readable storage medium for storing program |
Also Published As
Publication number | Publication date |
---|---|
JP4423004B2 (ja) | 2010-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | A sentence compression based framework to query-focused multi-document summarization | |
US8548805B2 (en) | System and method of semi-supervised learning for spoken language understanding using semantic role labeling | |
Orosz et al. | PurePos 2.0: a hybrid tool for morphological disambiguation | |
Juola et al. | A prototype for authorship attribution studies | |
US20150227505A1 (en) | Word meaning relationship extraction device | |
US20100332217A1 (en) | Method for text improvement via linguistic abstractions | |
US20040059730A1 (en) | Method and system for detecting user intentions in retrieval of hint sentences | |
Griol et al. | Combining speech-based and linguistic classifiers to recognize emotion in user spoken utterances | |
JP4347226B2 (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
JP2012520528A (ja) | 自然言語テキストの自動的意味ラベリングのためのシステム及び方法 | |
Massung et al. | Structural parse tree features for text representation | |
JP4423004B2 (ja) | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム | |
Glass et al. | A naive salience-based method for speaker identification in fiction books | |
Massung et al. | Non-native text analysis: A survey | |
CN113705198A (zh) | 场景图生成方法、装置、电子设备及存储介质 | |
JP2017015874A (ja) | 文章読解支援装置、並びに、注釈データ作成装置、注釈データ作成方法及び注釈データ作成プログラム | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
Demilie et al. | Automated all in one misspelling detection and correction system for Ethiopian languages | |
JP2020119087A (ja) | 文書審査支援方法、文書審査支援装置及びコンピュータプログラム | |
JP3575242B2 (ja) | キーワード抽出装置 | |
JP2008204133A (ja) | 回答検索装置及びコンピュータプログラム | |
JP2006119697A (ja) | 質問応答システム、質疑応答方法および質疑応答プログラム | |
JPH05151261A (ja) | 時制推敲支援システム | |
JP2885489B2 (ja) | 文書内容検索装置 | |
JP2005228033A (ja) | 文書検索装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091201 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091207 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121211 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121211 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131211 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |