JP2007199885A - 情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム - Google Patents
情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム Download PDFInfo
- Publication number
- JP2007199885A JP2007199885A JP2006015823A JP2006015823A JP2007199885A JP 2007199885 A JP2007199885 A JP 2007199885A JP 2006015823 A JP2006015823 A JP 2006015823A JP 2006015823 A JP2006015823 A JP 2006015823A JP 2007199885 A JP2007199885 A JP 2007199885A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- ontology
- hierarchy
- concept
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims description 69
- 238000000034 method Methods 0.000 title claims description 28
- 238000000605 extraction Methods 0.000 claims description 47
- 230000008569 process Effects 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 11
- 238000012545 processing Methods 0.000 abstract description 12
- 238000007726 management method Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000013500 data storage Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 230000008520 organization Effects 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 244000205754 Colocasia esculenta Species 0.000 description 2
- 235000006481 Colocasia esculenta Nutrition 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 244000269722 Thea sinensis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】オントロジー格納手段1に、登録編集手段2を用いて階層構造を持つオントロジーを登録し、辞書生成手段20が該オントロジーを参照することにより、概念辞書10および分類辞書13をそれぞれ該オントロジーの特定階層部分から機械的に生成する。入力文書からの情報抽出または分類を行なうプログラムは、概念辞書10および分類辞書13を直接参照して各処理を行なう。
【選択図】図1
Description
を備えたことを特徴とする。
本発明によるオントロジーのデータ構造にあっては、特定の階層範囲が特定の種類の知識を表すように階層化されているため、辞書の記述者にとって記述や理解が容易になると同時に、情報の抽出や分類のための辞書の作成も容易となる。また、こうして作成された辞書を用いて情報の抽出や分類を行うことにより、オントロジーを直接参照する場合に比べて処理の効率を高めることができる。
{分類知識,領域概念知識}>一般概念知識>値制約知識
・分類知識→分類辞書13
・領域概念知識→概念辞書10
・一般概念知識→概念辞書10
・値制約知識→単語辞書7、キー文字列辞書4
2…登録編集手段
3…キー文字列辞書生成手段
4…キー文字列辞書
5…キー文字列検出手段
6…単語辞書生成手段
7…単語辞書
8…単語抽出手段
9…概念辞書生成手段
10…概念辞書
11…概念抽出手段
12…分類辞書生成手段
13…分類辞書
14…分類手段
15…入力文書
16…抽出・分類結果情報
17…抽出情報
20…辞書生成手段
100…情報分析装置
101…メインメモリ
102…CPU
103…データ記憶装置
104…通信装置
105…プログラム
106…入力装置
107…出力装置
200…通信ネットワーク
300…文書蓄積装置
Claims (14)
- 少なくとも三階層以上の階層構造を持つオントロジーを格納するオントロジー格納手段と、
オントロジーを該オントロジー格納手段へ登録または編集する登録編集手段と、
該オントロジーの最上位階層を含む第一の範囲の階層部分から情報抽出または情報分類に用いる第一の辞書を生成し、該オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から情報抽出または情報分類に用いる第二の辞書をさらに生成する辞書生成手段と、
該第一の辞書を格納する第一の辞書格納手段と、
該第二の辞書を格納する第二の辞書格納手段と、
を備えたことを特徴とする情報分析知識管理装置。 - 少なくとも三階層以上の階層構造を持つオントロジーを格納するオントロジー格納手段と、
オントロジーを該オントロジー格納手段へ登録または編集する登録編集手段と、
該オントロジーの最上位階層を含む第一の範囲の階層部分から情報抽出または情報分類に用いる第一の辞書を生成する第一の辞書生成手段と、
該第一の辞書を格納する第一の辞書格納手段と、
該オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から情報抽出または情報分類に用いる第二の辞書を生成する第二の辞書生成手段と、
該第二の辞書を格納する第二の辞書格納手段と、
を備えたことを特徴とする情報分析知識管理装置。 - 前記第一の辞書が、テキスト情報を含む文書から特定の概念に相当する情報を抽出するための概念辞書であることを特徴とする請求項1または2に記載の情報分析知識管理装置。
- 前記第二の辞書が、前記第一の辞書を用いて抽出された情報を1つ以上のカテゴリーに分類するための分類辞書であることを特徴とする請求項1、2または3に記載の情報分析知識管理装置。
- 前記オントロジーのどの部分がどの種類の知識に相当するかを階層単位で指定する階層範囲指定手段をさらに備えたことを特徴とする請求項1乃至4の何れか1項に記載の情報分析知識管理装置。
- 階層構造を持つオントロジーにおいて、
概念の名称の集合からなる階層と、該概念それぞれを分類するカテゴリーの名称の集合からなる階層とで構成される二階層以上の分類知識と、
概念またはカテゴリーの名称の集合からなる階層と、該概念またはカテゴリーそれぞれを構成する要素となる下位概念の名称の集合からなる階層とで構成される二階層以上の概念知識とを含み、
少なくとも該分類知識の最下位階層と該概念知識の最上位階層は共通の階層であることを特徴とするデータ構造。 - 階層構造を持つオントロジーにおいて、
概念またはカテゴリーの名称の集合からなる階層と、該概念またはカテゴリーそれぞれを構成する要素となる下位概念の名称の集合からなる階層とで構成される二階層以上の概念知識と、
入力データから該オントロジーを用いて抽出すべき概念の名称の集合からなる階層と、該データに含まれる値のうち該抽出すべき概念に相当する部分が満たすべき制約からなる階層とで構成される二階層以上の値制約知識とを含み、
少なくとも該概念知識の最下位階層と該値制約知識の最上位階層は共通の階層であることを特徴とするデータ構造。 - 前記概念知識が、特定の専門領域に依存した概念に関する知識を記述した領域概念知識に相当する階層群と、特定の専門領域に依存しない汎用的な概念に関する知識を記述した一般概念知識に相当する階層群とでさらに構成されることを特徴とする請求項6または7に記載のデータ構造。
- ある階層に属する要素とその下位の階層に属する要素との親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも1つ以上を要素として必要とすることを表す第二の属性とを少なくとも有することを特徴とする請求項6または7に記載のデータ構造。
- 少なくとも三階層以上の階層構造を持つオントロジーの最上位階層を含む第一の範囲の階層部分から、特定の概念に相当する情報を文書中から抽出するための概念辞書を生成し、前記オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から、情報を1つ以上のカテゴリーに分類するための分類辞書を生成する辞書生成手段と、
前記第一の辞書を参照して、入力文書から特定の概念に相当する情報を抽出する概念抽出手段と、
前記第二の辞書を参照して、前記第一の辞書を用いて抽出された情報を1つ以上のカテゴリーに分類する分類手段と、
を備えたことを特徴とする情報分析装置。 - 前記オントロジーは、親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも1つ以上を要素として必要とすることを表す第二の属性とを少なくとも有し、
前記辞書生成手段により作成される前記概念辞書には、ある概念が抽出される制約条件として前記親子間の関係を表す属性が設定され、
前記概念抽出手段は、前記概念辞書中の前記第一および第二の属性による制約条件を満足する概念を入力文書から抽出することを特徴とする請求項10記載の情報分析装置。 - コンピュータを用いて辞書を生成する方法であって、
前記コンピュータが、オントロジーのどの部分がどの種類の知識に相当するかを階層単位で指定する階層範囲指定表を参照し、作成対象となる辞書に必要なオントロジーの階層範囲を決定する第1のステップと、
前記コンピュータが、少なくとも三階層以上の階層構造を持ち、かつ、親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも1つ以上を要素として必要とすることを表す第二の属性とを少なくとも有するオントロジーから、前記決定した階層範囲の内容を読み出す第2のステップと、
前記コンピュータが、前記読み出した内容に基づいて、ある概念が抽出される制約条件として前記親子間の関係を表す属性を設定した辞書を生成する第3のステップと、
を含むことを特徴とする辞書生成方法。 - 少なくとも三階層以上の階層構造を持つオントロジーを格納するオントロジー格納手段と、第一の辞書を格納する第一の辞書格納手段と、第二の辞書を格納する第二の辞書格納手段とを備えたコンピュータを、
オントロジーを前記オントロジー格納手段へ登録または編集する登録編集手段と、
前記オントロジーの最上位階層を含む第一の範囲の階層部分から情報抽出または情報分類に用いる第一の辞書を生成し、前記オントロジーの第一の範囲の階層部分と少なくとも一階層を共有する第二の範囲の階層部分から情報抽出または情報分類に用いる第二の辞書をさらに生成する辞書生成手段と、
して機能させるためのプログラム。 - コンピュータに、
オントロジーのどの部分がどの種類の知識に相当するかを階層単位で指定する階層範囲指定表を参照し、作成対象となる辞書に必要なオントロジーの階層範囲を決定する第1の処理と、
少なくとも三階層以上の階層構造を持ち、かつ、親子間の関係を表す属性として、親がその子を必須の要素とすることを表す第一の属性と、親がその子のうち少なくとも1つ以上を要素として必要とすることを表す第二の属性とを少なくとも有するオントロジーから、前記決定した階層範囲の内容を読み出す第2の処理と、
前記コンピュータが、前記読み出した内容に基づいて、ある概念が抽出される制約条件として前記親子間の関係を表す属性を設定した辞書を生成する第3の処理と、
を行わせるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006015823A JP4904828B2 (ja) | 2006-01-25 | 2006-01-25 | 情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006015823A JP4904828B2 (ja) | 2006-01-25 | 2006-01-25 | 情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007199885A true JP2007199885A (ja) | 2007-08-09 |
JP4904828B2 JP4904828B2 (ja) | 2012-03-28 |
Family
ID=38454469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006015823A Expired - Fee Related JP4904828B2 (ja) | 2006-01-25 | 2006-01-25 | 情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4904828B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013002436A1 (ko) * | 2011-06-27 | 2013-01-03 | 한국과학기술정보연구원 | 온톨로지 기반의 문서 분류 방법 및 장치 |
US11531703B2 (en) * | 2019-06-28 | 2022-12-20 | Capital One Services, Llc | Determining data categorizations based on an ontology and a machine-learning model |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1196177A (ja) * | 1997-09-22 | 1999-04-09 | Nippon Telegr & Teleph Corp <Ntt> | 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体 |
JP2000207407A (ja) * | 1999-01-13 | 2000-07-28 | Nippon Telegr & Teleph Corp <Ntt> | 情報抽出方法及び装置及び情報抽出プログラムを格納した記憶媒体 |
JP2001092827A (ja) * | 1999-09-20 | 2001-04-06 | Toshiba Corp | データ管理装置および方法 |
JP2006011739A (ja) * | 2004-06-24 | 2006-01-12 | Internatl Business Mach Corp <Ibm> | オントロジを利用する装置、コンピュータシステムおよびデータ処理方法 |
-
2006
- 2006-01-25 JP JP2006015823A patent/JP4904828B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1196177A (ja) * | 1997-09-22 | 1999-04-09 | Nippon Telegr & Teleph Corp <Ntt> | 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体 |
JP2000207407A (ja) * | 1999-01-13 | 2000-07-28 | Nippon Telegr & Teleph Corp <Ntt> | 情報抽出方法及び装置及び情報抽出プログラムを格納した記憶媒体 |
JP2001092827A (ja) * | 1999-09-20 | 2001-04-06 | Toshiba Corp | データ管理装置および方法 |
JP2006011739A (ja) * | 2004-06-24 | 2006-01-12 | Internatl Business Mach Corp <Ibm> | オントロジを利用する装置、コンピュータシステムおよびデータ処理方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013002436A1 (ko) * | 2011-06-27 | 2013-01-03 | 한국과학기술정보연구원 | 온톨로지 기반의 문서 분류 방법 및 장치 |
US11531703B2 (en) * | 2019-06-28 | 2022-12-20 | Capital One Services, Llc | Determining data categorizations based on an ontology and a machine-learning model |
US12056188B2 (en) | 2019-06-28 | 2024-08-06 | Capital One Services, Llc | Determining data categorizations based on an ontology and a machine-learning model |
Also Published As
Publication number | Publication date |
---|---|
JP4904828B2 (ja) | 2012-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7201299B2 (ja) | コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム | |
JP7289047B2 (ja) | ブロックに基づく文書メタデータの抽出のための方法、コンピュータ・プログラム及びシステム | |
Haentjens Dekker et al. | Computer-supported collation of modern manuscripts: CollateX and the Beckett Digital Manuscript Project | |
US7114123B2 (en) | User controllable data grouping in structural document translation | |
US6502112B1 (en) | Method in a computing system for comparing XMI-based XML documents for identical contents | |
JP4657432B2 (ja) | 階層構造の構造化文書を変換する装置 | |
JP3842577B2 (ja) | 構造化文書検索方法および構造化文書検索装置およびプログラム | |
Laclavík et al. | Email analysis and information extraction for enterprise benefit | |
KR20060070416A (ko) | 워크북을 나타내기 위한 파일 포맷, 방법, 및 컴퓨터프로그램 제품 | |
El Abdouli et al. | Sentiment analysis of moroccan tweets using naive bayes algorithm | |
CN115358200A (zh) | 一种基于SysML元模型的模板化文档自动生成方法 | |
JPH11328218A (ja) | コンテンツ属性情報正規化方法、情報収集・サービス提供システム、属性情報設定装置並びにプログラム格納記録媒体 | |
CN112597410A (zh) | 基于规则配置库对网页内容执行结构化提取的方法及装置 | |
CN114462384A (zh) | 一种面向数字对象建模的元数据自动生成装置 | |
JP2010108208A (ja) | 文書処理装置 | |
JP2006350729A (ja) | アプリケーションソフトウェア構築方法、アプリケーションソフトウェア構築処理プログラム及びアプリケーションソフトウェア構築装置 | |
JP4904828B2 (ja) | 情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム | |
JP2008027431A (ja) | 情報解析装置、情報解析方法、及び情報解析プログラム | |
JP2013218627A (ja) | 構造化文書からの情報抽出方法、装置、及びプログラム | |
JP3842576B2 (ja) | 構造化文書編集方法及び構造化文書編集システム | |
US8719693B2 (en) | Method for storing localized XML document values | |
JP4937709B2 (ja) | 構造化文書生成方法及び装置及びプログラム | |
JP2021101375A (ja) | 辞書構築装置、辞書の生産方法、およびプログラム | |
JP5534523B2 (ja) | 情報処理装置 | |
Vlahovic | Web 2.0 and its Impact on Information Extraction Practices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081212 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090805 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090805 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111213 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111226 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150120 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4904828 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |