JP2007219922A - 意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム - Google Patents
意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム Download PDFInfo
- Publication number
- JP2007219922A JP2007219922A JP2006040812A JP2006040812A JP2007219922A JP 2007219922 A JP2007219922 A JP 2007219922A JP 2006040812 A JP2006040812 A JP 2006040812A JP 2006040812 A JP2006040812 A JP 2006040812A JP 2007219922 A JP2007219922 A JP 2007219922A
- Authority
- JP
- Japan
- Prior art keywords
- data
- document
- semantic
- attribute information
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
【解決手段】本発明の意味情報抽出システムは、文書データD1を入力する入力手段(1)と、前記文書データD1を構成する文書単位とその意味的属性情報とを互いに対応づけた辞書データを参照する参照手段(4)と、前記文書データD1のレイアウト属性情報を前記文書単位ごとに解析する第1の解析手段(2)と、前記文書データD1の意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第2の解析手段(3)と、前記第1の解析手段(2)による解析結果D2と前記第2の解析手段(3)による解析結果D3とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データD4を保存可能(6)に生成する規則生成手段(5)とを有する。
【選択図】図1
Description
(第1の実施の形態)
図1は、本発明による実施の形態として、意味情報抽出システムの構成を示す概略図である。図1に示す意味情報抽出システムは、 文書入力部1と、レイアウト解析部2と、テキスト解析部3と、辞書4と、 規則生成部5と、規則DB6と、規則適応部7とを備えている。
次に、本発明の他の実施の形態を図10に示す。図10に示す第2の実施の形態では、第1の実施の形態の意味情報抽出システムに、デバッガやメンテナンスシステムを連結させた実施の形態である。
さらに、本発明の他の実施の形態を図11に示す。図11に示す第3の実施の形態では、XML(eXtensible Markup Language)を利用したドキュメント処理システムを構成している。
2 レイアウト解析部
3 テキスト解析部
4 辞書
5 規則生成部
6 規則DB
7 規則適応部
8 メンテナンスモジュール辞書エディタ
9 メンテナンスモジュール規則表示エディタ
10 メンテナンスモジュール規則エディタ
11 UIF
12 XMLフォーマッタ
13 XML−DB
14 テキストDB
100 テキスト入力部
110 木構造抽出部
120 木構造表示部
130 アノテーション付与部
140 木構造正規抽出部
150 情報抽出規則記憶部
160 分かち書き表示部
Claims (16)
- 文書データを入力する入力手段と、
前記文書データを構成する文書単位とその意味的属性情報とを互いに対応づけて成る辞書データを参照する参照手段と、
入力された前記文書データのレイアウト属性情報を、前記文書単位ごとに解析する第1の解析手段と、
入力された前記文書データの意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第2の解析手段と、
前記第1の解析手段による解析結果と前記第2の解析手段による解析結果とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する規則生成手段とを有することを特徴とする意味情報抽出システム。 - 生成された前記規則データに基づいて、入力された前記文書データのレイアウト属性情報からその意味的属性情報を前記文書単位ごとに抽出する情報抽出手段をさらに有することを特徴とする請求項1記載の意味情報抽出システム。
- 抽出された前記意味的属性情報をタグ情報として前記文書データ内の対応する前記文書単位に付与するタグ付与手段をさらに有することを特徴とする請求項2記載の意味情報抽出システム。
- 前記文書データは、複数の文書データであり、前記規則生成手段は、前記複数の文書データごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手段であることを特徴とする請求項1記載の意味情報抽出システム。
- 前記文書データは、複数の文書データであり、前記規則生成手段は、前記複数の文書データに共通する前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手段であることを特徴とする請求項1記載の意味情報抽出システム。
- 文書データを入力する入力ステップと、
前記文書データを構成する文書単位とその意味的属性情報とを互いに対応づけて成る辞書データを参照する参照ステップと、
入力された前記文書データのレイアウト属性情報を、前記文書単位ごとに解析する第1の解析ステップと、
入力された前記文書データの意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第2の解析ステップと、
前記第1の解析手段による解析結果と前記第2の解析手段による解析結果とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する規則生成ステップとを有することを特徴とする意味情報抽出方法。 - 生成された前記規則データに基づいて、入力された前記文書データのレイアウト属性情報からその意味的属性情報を前記文書単位ごとに抽出する情報抽出ステップをさらに有することを特徴とする請求項6記載の意味情報抽出方法。
- 抽出された前記意味的属性情報をタグ情報として前記文書データ内の対応する前記文書単位に付与するタグ付与ステップをさらに有することを特徴とする請求項7記載の意味情報抽出方法。
- 前記文書データは、複数の文書データであり、前記規則生成ステップは、前記複数の文書データごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成するステップであることを特徴とする請求項6記載の意味情報抽出方法。
- 前記文書データは、複数の文書データであり、前記規則生成ステップは、前記複数の文書データに共通する前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成するステップであることを特徴とする請求項6記載の意味情報抽出方法。
- 文書データを入力する入力手順と、
前記文書データを構成する文書単位とその意味的属性情報とを互いに対応づけて成る辞書データを参照する参照手順と、
入力された前記文書データのレイアウト属性情報を、前記文書単位ごとに解析する第1の解析手順と、
入力された前記文書データの意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第2の解析手順と、
前記第1の解析手段による解析結果と前記第2の解析手段による解析結果とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する規則生成手順とをコンピュータに実行させることを特徴とする意味情報抽出プログラム。 - 生成された前記規則データに基づいて、入力された前記文書データのレイアウト属性情報からその意味的属性情報を前記文書単位ごとに抽出する情報抽出手順をさらにコンピュータに実行させることを特徴とする請求項11記載の意味情報抽出プログラム。
- 抽出された前記意味的属性情報をタグ情報として前記文書データ内の対応する前記文書単位に付与するタグ付与手順をさらにコンピュータに実行させることを特徴とする請求項12記載の意味情報抽出プログラム。
- 前記文書データは、複数の文書データであり、前記規則生成手順は、前記複数の文書データごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手順であることを特徴とする請求項11記載の意味情報抽出プログラム。
- 前記文書データは、複数の文書データであり、前記規則生成手順は、前記複数の文書データに共通する前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手順であることを特徴とする請求項11記載の意味情報抽出プログラム。
- 請求項1乃至請求項5のいずれか1項記載の意味情報抽出システムを備えたことを特徴とするドキュメント処理システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006040812A JP2007219922A (ja) | 2006-02-17 | 2006-02-17 | 意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006040812A JP2007219922A (ja) | 2006-02-17 | 2006-02-17 | 意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007219922A true JP2007219922A (ja) | 2007-08-30 |
Family
ID=38497143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006040812A Pending JP2007219922A (ja) | 2006-02-17 | 2006-02-17 | 意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007219922A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011013587A1 (ja) * | 2009-07-27 | 2011-02-03 | 株式会社日立ソリューションズ | 文書データ処理装置 |
-
2006
- 2006-02-17 JP JP2006040812A patent/JP2007219922A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011013587A1 (ja) * | 2009-07-27 | 2011-02-03 | 株式会社日立ソリューションズ | 文書データ処理装置 |
JP2011028568A (ja) * | 2009-07-27 | 2011-02-10 | Hitachi Solutions Ltd | 文書データ処理装置 |
US8768941B2 (en) | 2009-07-27 | 2014-07-01 | Hitachi Solutions, Ltd. | Document data processing device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8972854B2 (en) | Graphical creation of a document conversion template | |
Forkel et al. | CLDFBench: Give your cross-linguistic data a lift | |
US20030158723A1 (en) | Syntactic information tagging support system and method | |
US20070186156A1 (en) | Converter-tool for a non-programmer user, to generate a web based application | |
US20140212040A1 (en) | Document Alteration Based on Native Text Analysis and OCR | |
JP3038079B2 (ja) | 自動翻訳装置 | |
Haaf et al. | The dta “base format”: A tei subset for the compilation of a large reference corpus of printed text from multiple sources | |
US11158118B2 (en) | Language model, method and apparatus for interpreting zoning legal text | |
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
Meuschke et al. | A benchmark of pdf information extraction tools using a multi-task and multi-domain evaluation framework for academic documents | |
US11301441B2 (en) | Information processing system and information processing method | |
Arnold et al. | Beyond lexical frequencies: using R for text analysis in the digital humanities | |
JP4317990B2 (ja) | データ変換適性評価方法及びデータ変換装置 | |
JP2010250439A (ja) | 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体 | |
US10896227B2 (en) | Data processing system, data processing method, and data structure | |
JP2007219922A (ja) | 意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム | |
KR102492008B1 (ko) | 회의록 관리 방법 및 장치 | |
WO2022054286A1 (ja) | 言語リソースのデータ構造及びこれを用いた発話理解支援のための装置、方法及びプログラム | |
US20230409620A1 (en) | Non-transitory computer-readable recording medium storing information processing program, information processing method, information processing device, and information processing system | |
JP5102474B2 (ja) | Xmlデータ生成方法及びそのプログラム | |
Reqqass et al. | “AlkhalilDWS”: An Arabic Dictionary Writing System Rich in Lexical Resources | |
Biruli et al. | Development of Parallel Speech Data Repository for Ho Language | |
Chiarcos | Crowdsourcing OLiA Annotation Models the Indirect Way | |
Drude | Prospects for e-grammars and endangered languages corpora | |
CN117725927A (zh) | 用于保险业务的条款文件的识别处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080528 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090612 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090619 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090812 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091105 |