JP4595590B2 - テキストマイング方法及びテキストマイニング装置 - Google Patents
テキストマイング方法及びテキストマイニング装置 Download PDFInfo
- Publication number
- JP4595590B2 JP4595590B2 JP2005061292A JP2005061292A JP4595590B2 JP 4595590 B2 JP4595590 B2 JP 4595590B2 JP 2005061292 A JP2005061292 A JP 2005061292A JP 2005061292 A JP2005061292 A JP 2005061292A JP 4595590 B2 JP4595590 B2 JP 4595590B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- attribute value
- frequency
- attribute
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000005065 mining Methods 0.000 title claims description 30
- 238000000034 method Methods 0.000 title claims description 25
- 238000004364 calculation method Methods 0.000 claims description 48
- 150000001875 compounds Chemical class 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 11
- 238000012800 visualization Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 16
- 238000007405 data analysis Methods 0.000 description 3
- 238000011835 investigation Methods 0.000 description 2
- 230000002250 progressing effect Effects 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
図1は、本実施の形態におけるテキストマイニング装置及びその周辺の構成図である。
実施の形態1では、分析対象テキストから抽出した単語及び属性値を2以上に分類して一覧表示するものであるが、本実施の形態は、テキストから抽出した複合語をグループ化して一覧表示するものである。
実施の形態1では、分析対象テキストから抽出した単語又は属性値を2以上に分類して一覧表示をするが、本実施の形態では、一覧表示手段により属性値の比率を表示する。
実施の形態1では、分析対象テキストから抽出した単語又は属性値を2以上に分類して一覧表示するものであるが、本実施の形態は、選択した単語及び属性値の出現頻度をグラフ表示することで可視化する。
101 登録手段
102 単語DB
103 属性データベース
104 単語情報抽出手段
105 属性情報抽出手段
106 第1のメモリ
107 第2のメモリ
108 第1の単語頻度算出手段
109 第1の属性値度算出手段
110 一覧表示手段
111 選択指示手段
112 第2の単語頻度算出手段
113 第2の属性値頻度算出手段
114 カテゴリ辞書
200 複合語グループ化手段
201 複合語一覧表示手段
300 属性値比率計算手段
301 属性値比率一覧表示手段
400 可視化手段
Claims (7)
- 予め指定されたカテゴリに基づいて単語情報抽出手段が第1のメモリからこの指定されたカテゴリに属する単語、この単語の出現頻度及びこの単語の出現位置からなる単語情報を抽出し、単語頻度算出手段がこの指定されたカテゴリ毎に各単語の出現頻度を算出する第1の単語頻度算出ステップと、
属性値情報抽出手段が第2のメモリから各レコードID及びこの各レコードIDに対応し予め指定された属性に属する属性値からなる属性情報を抽出し、属性値頻度算出手段がこの指定された属性毎に各属性値の出現頻度を算出する第1の属性値頻度算出ステップと、
一覧表示手段が上記第1の単語頻度算出ステップにより得たカテゴリ毎の単語及びこの単語毎の出現頻度と、上記第1の属性値頻度算出ステップにより得た属性毎の属性値及びこの属性値毎の出現頻度と、を一覧表示する第1の一覧表示ステップと、
選択指示手段がこの一覧表示された単語の選択を促し、単語を選択させる選択指示ステップと、
単語頻度算出手段がこの選択された単語の出現位置から得られる文番号と選択された単語以外の各単語の出現位置から得られる文番号とから、各カテゴリに属する各単語が上記選択された単語と同一文に出現する頻度を算出する第2の単語頻度算出ステップと、
属性値頻度算出手段がこの選択された単語の出現位置から得られるレコードIDと各属性値のレコードIDとから、各属性における各属性値が上記選択された単語と同一レコードに出現する頻度を算出する第2の属性値頻度算出ステップと、
一覧表示手段が上記第2の単語頻度算出ステップにより得たカテゴリ毎の単語及びこの単語別の出現頻度と、上記第2の属性値頻度算出ステップにより得た上記属性値及びこの属性値別の出現頻度と、を一覧表示する第2の一覧表示ステップとを有し、
前記第2の一覧表示ステップで一覧表示された単語のうち前記選択指示ステップで既に選択された単語が属するカテゴリと同一もしくは異なるカテゴリに属する単語を選択するステップ、前記第2の単語頻度算出ステップ、前記第2の属性値頻度算出ステップ、前記第2の一覧表示ステップ、を繰り返すことを特徴とするテキストマイニング方法。 - 予め指定されたカテゴリに基づいて単語情報抽出手段が第1のメモリからこの指定されたカテゴリに属する単語、この単語の出現頻度及びこの単語の出現位置からなる単語情報を抽出し、単語頻度算出手段がこの指定されたカテゴリ毎に各単語の出現頻度を算出する第1の単語頻度算出ステップと、
属性値情報抽出手段が第2のメモリから各レコードID及びこの各レコードIDに対応し予め指定された属性に属する属性値からなる属性情報を抽出し、属性値頻度算出手段がこの指定された属性毎に各属性値の出現頻度を算出する第1の属性値頻度算出ステップと、
一覧表示手段が上記第1の単語頻度算出ステップにより得たカテゴリ毎の単語及びこの単語毎の出現頻度と、上記第1の属性値頻度算出ステップにより得た属性毎の属性値及びこの属性値毎の出現頻度と、を一覧表示する第1の一覧表示ステップと、
選択指示手段がこの一覧表示された属性値の選択を促し、属性値を選択させる選択指示ステップと、
単語頻度算出手段がこの選択された属性値のレコードIDと各カテゴリにおける各単語の出現位置から得られるレコードIDとに基づいて、各カテゴリにおける各単語が上記選択された属性値と同一のレコードに出現する頻度を算出する第2の単語頻度算出ステップと、
属性値頻度算出手段が上記選択された属性値のレコードIDと同一のレコードIDに対応し、かつ上記選択された属性値が属する属性以外の属性における各属性値の出現する頻度を算出する第2の属性値頻度算出ステップと、
一覧表示手段が上記第2の単語頻度算出ステップにより得たカテゴリ毎の単語及びこの単語別出現頻度と、上記第2の属性値頻度算出ステップにより得た上記属性値及びこの属性値及びこの属性値頻度と、を一覧表示する第2の一覧表示ステップとを有し、
前記第2の一覧表示ステップで一覧表示された属性値のうち前記選択指示ステップで既に選択された属性値が属する属性と同一もしくは異なる属性に属する属性値を選択するステップ、前記第2の単語頻度算出ステップ、前記第2の属性値頻度算出ステップ、前記第2の一覧表示ステップ、を繰り返すことを特徴とするテキストマイニング方法。 - 第2の属性値頻度算出ステップは、属性値比率計算手段が、
属性値毎に、予め指定された属性に属する属性値の出現頻度を分母とし、選択指示ステップにより利用者に選択された単語と同一のレコードに出現する属性値の出現頻度を分子として属性値の比率を算出することを特徴とする請求項1又は2に記載のテキストマイニング方法。 - 第1の一覧表示ステップは、複合語グループ化手段が、
予め指定されたカテゴリに属する単語が複合語である場合には、この複合語の構成要素に基づいてグループ化し、
第1の一覧表示ステップは、複合語一覧表示手段が、
グループ化された内容を一覧表示することを特徴とする請求項1乃至3に記載のテキストマイニング方法。 - 第1の一覧表示ステップは、可視化手段が、
第1の単語頻度算出ステップで出力されるカテゴリ毎の単語の出現頻度と、第1の属性値頻度算出ステップで出力される属性毎の属性値の出現頻度と、をグラフ表示することを特徴とする請求項1乃至4に記載のテキストマイニング方法。 - 利用者により予め指定されたカテゴリに基づいて第1のメモリからこの指定されたカテゴリに属する単語、この単語の出現頻度及びこの単語の出現位置からなる単語情報を抽出する単語情報抽出手段と、
前記単語情報抽出手段で抽出された単語情報から前記指定されたカテゴリ毎に各単語の出現頻度を算出する第1の単語頻度算出手段と、
第2のメモリから各レコードID及びこの各レコードIDに対応し利用者により予め指定された属性に属する属性値からなる属性情報を抽出する属性値情報抽出手段と、
前記属性値情報抽出手段で抽出された属性情報から前記指定された属性毎に各属性値の出現頻度を算出する第1の属性値頻度算出手段と、
上記第1の単語頻度算出手段により得たカテゴリ毎の単語及びこの単語毎の出現頻度と、上記第1の属性値頻度算出手段により得た属性毎の属性値及びこの属性値毎の出現頻度と、を一覧表示する第1の一覧表示手段と、
利用者に対してこの一覧表示された単語の選択を促し、利用者に単語を選択させる選択指示手段と、
この選択された単語の出現位置から得られる文番号と選択された単語以外の各単語の出現位置から得られる文番号とから、この各カテゴリに属する各単語が上記選択された単語と同一文に出現する頻度を算出する第2の単語頻度算出手段と、
上記選択された属性値のレコードIDと同一のレコードIDに対応し、かつ上記選択された属性値が属する属性以外の属性における各属性値の出現する頻度を算出する第2の属性値頻度算出手段と、
上記第2の単語頻度算出手段により得たカテゴリ毎の単語及びこの単語別の出現頻度と、上記第2の属性値頻度算出手段により得た上記属性値及びこの属性値別の出現頻度と、を一覧表示する第2の一覧表示手段とを備え、
前記第2の一覧表示手段で一覧表示された単語のうち前記選択指示手段で既に選択された単語が属するカテゴリと同一もしくは異なるカテゴリに属する単語を選択する処理と、前記第2の単語頻度算出手段による処理と、前記第2の属性値頻度算出手段による処理と、前記第2の一覧表示手段による処理と、を繰り返すことを特徴とするテキストマイニング装置。 - 利用者により予め指定されたカテゴリに基づいて第1のメモリからこの指定されたカテゴリに属する単語、この単語の出現頻度及びこの単語の出現位置からなる単語情報を抽出する単語情報抽出手段と、
前記単語情報抽出手段で抽出された単語情報から前記指定されたカテゴリ毎に各単語の出現頻度を算出する第1の単語頻度算出手段と、
第2のメモリから各レコードID及びこの各レコードIDに対応し利用者により予め指定された属性に属する属性値からなる属性情報を抽出する属性値情報抽出手段と、
前記属性値情報抽出手段で抽出された属性情報から前記指定された属性毎に各属性値の出現頻度を算出する第1の属性値頻度算出手段と、
上記第1の単語頻度算出手段により得たカテゴリ毎の単語及びこの単語毎の出現頻度と、上記第1の属性値頻度算出手段により得た属性毎の属性値及びこの属性値毎の出現頻度と、を一覧表示する第1の一覧表示手段と、
利用者に対してこの一覧表示された属性値の選択を促し、利用者に属性値を選択させる選択指示手段と、
この選択された属性値のレコードIDと各カテゴリにおける各単語の出現位置から得られるレコードIDとに基づいて、各カテゴリにおける各単語が上記選択された属性値と同一のレコードに出現する頻度を算出する第2の単語頻度算出手段と、
上記選択された属性値のレコードIDと同一のレコードIDに対応し、かつ上記選択された属性値が属する属性以外の属性における各属性値の出現する頻度を算出する第2の属性値頻度算出手段と、
上記第2の単語頻度算出手段により得たカテゴリ別の単語及びこの単語別出現頻度と、上記第2の属性値頻度算出手段により得た上記属性値及びこの属性値頻度と、を一覧表示する第2の一覧表示手段とを備え、
前記第2の一覧表示手段で一覧表示された属性値のうち前記選択指示手段で既に選択された属性値が属する属性と同一もしくは異なる属性に属する属性値を選択する処理と、前記第2の単語頻度算出手段による処理と、前記第2の属性値頻度算出手段による処理と、前記第2の一覧表示手段による処理と、を繰り返すことを特徴とするテキストマイニング装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005061292A JP4595590B2 (ja) | 2005-03-04 | 2005-03-04 | テキストマイング方法及びテキストマイニング装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005061292A JP4595590B2 (ja) | 2005-03-04 | 2005-03-04 | テキストマイング方法及びテキストマイニング装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006244298A JP2006244298A (ja) | 2006-09-14 |
JP4595590B2 true JP4595590B2 (ja) | 2010-12-08 |
Family
ID=37050638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005061292A Expired - Fee Related JP4595590B2 (ja) | 2005-03-04 | 2005-03-04 | テキストマイング方法及びテキストマイニング装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4595590B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010061176A (ja) * | 2006-11-22 | 2010-03-18 | Nec Corp | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
JP2009069874A (ja) * | 2007-09-10 | 2009-04-02 | Sharp Corp | コンテンツ検索装置、コンテンツ検索方法、プログラム、および記録媒体 |
JP5963328B2 (ja) | 2014-10-30 | 2016-08-03 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 生成装置、生成方法、およびプログラム |
JP7135399B2 (ja) * | 2018-04-12 | 2022-09-13 | 富士通株式会社 | 特定プログラム、特定方法および情報処理装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001052013A (ja) * | 1999-08-06 | 2001-02-23 | Ricoh Co Ltd | 文書処理装置、文書処理方法および文書処理プログラムを記録した媒体 |
JP2002041547A (ja) * | 2000-07-27 | 2002-02-08 | Ricoh Co Ltd | 情報分析支援装置、システム、方法及び情報分析支援を実行するための記録媒体 |
JP2004246491A (ja) * | 2003-02-12 | 2004-09-02 | Mitsubishi Electric Corp | テキストマイニング装置及びテキストマイニングプログラム |
JP2004334761A (ja) * | 2003-05-12 | 2004-11-25 | Mitsubishi Electric Corp | 自由意見分析システム |
-
2005
- 2005-03-04 JP JP2005061292A patent/JP4595590B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001052013A (ja) * | 1999-08-06 | 2001-02-23 | Ricoh Co Ltd | 文書処理装置、文書処理方法および文書処理プログラムを記録した媒体 |
JP2002041547A (ja) * | 2000-07-27 | 2002-02-08 | Ricoh Co Ltd | 情報分析支援装置、システム、方法及び情報分析支援を実行するための記録媒体 |
JP2004246491A (ja) * | 2003-02-12 | 2004-09-02 | Mitsubishi Electric Corp | テキストマイニング装置及びテキストマイニングプログラム |
JP2004334761A (ja) * | 2003-05-12 | 2004-11-25 | Mitsubishi Electric Corp | 自由意見分析システム |
Also Published As
Publication number | Publication date |
---|---|
JP2006244298A (ja) | 2006-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11650962B2 (en) | Understanding data in data sets | |
US20200012405A1 (en) | Direct manipulation interface for data analysis | |
US6915308B1 (en) | Method and apparatus for information mining and filtering | |
CN109033260B (zh) | 基于rdf的知识图谱交互式可视化查询方法 | |
US20170052984A1 (en) | Methods and systems for optimizing data in large data sets using relevant metadata | |
US11550853B2 (en) | Using natural language expressions to define data visualization calculations that span across multiple rows of data from a database | |
JP4595590B2 (ja) | テキストマイング方法及びテキストマイニング装置 | |
JP2007304796A (ja) | データベース解析システム及びデータベース解析方法及びプログラム | |
JP2004021445A (ja) | テキストデータ分析システム、テキストデータ分析方法およびコンピュータプログラム | |
Castellani Ribeiro et al. | An urban data profiler | |
US20090228794A1 (en) | Business specification comprehension assistance system and method | |
JP5096850B2 (ja) | 検索結果表示方法、検索結果表示プログラムおよび検索結果表示装置 | |
JPWO2016147220A1 (ja) | テキスト可視化システム、テキスト可視化方法、及び、プログラム | |
JP2013182289A (ja) | 回路設計支援装置、回路設計支援方法、及び回路設計支援用プログラム | |
JP5831625B2 (ja) | 情報分析支援装置、情報分析支援方法、及び情報分析支援プログラム | |
JP2006023968A (ja) | 固有表現抽出方法および装置並びにそれらに用いるプログラム | |
JP2005128872A (ja) | 文書検索システム及び文書検索プログラム | |
JPH0934957A (ja) | ユーザ振る舞いの解析方法及び装置 | |
JP2005190212A (ja) | データベースシステム、データ処理方法及びプログラム | |
JP2009199576A (ja) | 文書解析支援装置、文書解析支援方法、プログラム及び記録媒体 | |
JP2019053764A (ja) | テキスト可視化システム、テキスト可視化方法、及び、プログラム | |
JP2019053763A (ja) | テキスト可視化システム、テキスト可視化方法、及び、プログラム | |
JP2020057272A (ja) | ワークショップ支援システム及びワークショップ支援方法 | |
JP4738787B2 (ja) | プロセス可視化プログラム、プロセス可視化装置およびプロセス可視化方法 | |
US11550805B2 (en) | Compact display of matching results |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100824 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100906 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131001 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |