CN102368234A - 一种pdf文档到dwg文档转换的方法 - Google Patents
一种pdf文档到dwg文档转换的方法 Download PDFInfo
- Publication number
- CN102368234A CN102368234A CN2011103058392A CN201110305839A CN102368234A CN 102368234 A CN102368234 A CN 102368234A CN 2011103058392 A CN2011103058392 A CN 2011103058392A CN 201110305839 A CN201110305839 A CN 201110305839A CN 102368234 A CN102368234 A CN 102368234A
- Authority
- CN
- China
- Prior art keywords
- document
- dwg
- documents
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种PDF文档到DWG文档转换的方法,(一)对PDF源文档进行分析和处理,通过文档解析器读取PDF源文档的内容,由规则生成模块将其转换为规则的DWG文档;(二)自动抽取模块:接受规则的DWG文档,得到满足目标并且具有编辑功能的DWG文档。本发明可以对转换后的DWG文件做进一步的操作,从而提高文档自动分类和用户编辑图纸的效率。
Description
技术领域
本发明是一种信息转换方法,属于信息技术类,确切地说,它包括规则生成模块、自动抽取模块的信息抽取系统的方法。
背景技术
随着web技术的发展,越来越多的信息呈现在用户面前。如何对海量的信息资源进行处理,是电子文档管理工作的一项重要内容。为了实现对网络资源的有效开发利用,需要进行信息的分类、检索等操作。所有对信息处理的操作都应该涉及到对文档信息的抽取。文档信息抽取是指从文档中抽取指定的一类信息,并将其形成可编辑化的文档。
发明内容
本发明的目的在于发明一种信息转换方法。
本发明是这样实现的:所述方法包含以下步骤:
步骤一:利用规则生成模块,针对PDF源文档的内容,用户可根据实际情况进行相应的设置;通过文档解析器(print2cad)读取PDF源文档的内容,并将其转换为规则的DWG文档;
步骤二:利用自动抽取模块接受规则的DWG文档,得到满足目标并且具有编辑功能的DWG文档。
本发明可以对转换后的DWG文件做进一步的操作,从而提高文档自动分类和用户编辑图纸的效率。
附图说明
图1为本发明的系统总体框架图:
图2为本发明的系统流程图:
图3为样例PDF文档片段;
图4为样例目标DWG文档;
图中:1为PDF源文档;2为规则生成模块;3规则的DWG文档;4为自动抽取模块;5为目标并且具有编辑功能的DWG文档;6为文档解析器;7为PDF文档库。
以下将结合实施例对本发明进行进一步的描述:
具体实施方式
一、模块的具体设计和实现
1、规则生成模块:
规则生成模块2设计是针对PDF源文档1的内容,用户可根据实际情况进行相应的设置;通过文档解析器(print2cad)6读取PDF源文档的内容,并将其转换为规则的DWG文档3。
本模块的实现有两个关键点:
(一)规则的DWG文档的结构的定义。
对规则的DWG文档结构设计的要求如下:一是它能够描述源文档的格式特征和图形信息,这是自动抽取模块4规则匹配的依据;二是PDF文档到规则的DWG文档的转换最好能够较为容易地进行。
(二)使用PDF文档的解析器(print2cad),生成满足上述要求的目标并且具有编辑功能的DWG文档。
PDF文档解析器(print2cad)6能够将PDF文档转换为规则DWG文档。它们转换后生成的DWG文档基本上都是具有编辑功能的DWG文文件,其中生成的规则的DWG文件中包含了PDF源文档1中大量的图形信息。
2、自动抽取模块:
自动抽取模块4需要做的工作是执行抽取规则DWG文档3。本系统使用Acme CAD Conyerter作为DWG文档执行引擎,由于执行引擎完全支持DWG转换接口,所以它们可以任意替代而不影响应用程序代码。
二、信息抽取系统运行过程
步骤一:针对PDF源文档1的内容,用户可根据实际情况进行相应的设置;通过文档解析器(print2cad)6读取PDF源文档的内容,并将其转换为规则的DWG文档3。规则的DWG文档3是自动抽取模块4输入项。
步骤二:接受规则的DWG文档3,得到满足目标并且具有编辑功能的DWG文档5,如图4。
三、系统的特点
1、规则生成模块2选择DWG格式作为规则DWG文档的信息表现形式,优点表现在以下两个方面:
(一)可以通过DWG文档可以保存PDF源文档1中大量的图形信息,从而可以利用PDF文档中的显示信息有效地完成基于规则的信息抽取。
(二)可以利用Acme CAD Converter的标准化工具完成对规则DWG文档的合法性检验和有效性验证,以及利用Acme CAD Conyerter对规则的DWG文档进行解析,而不需要开发专门工具。
2、在规则生成模块中,选择DWG文件作为抽取规则描述语言。
DWG文档是二进制格式,可以通过文档解析器(print2cad)转为规则的DWG文档,这样可以很方便的实现数据的读写,同时支持它的工具很多,目前已经获得了包括Acme CAD Conyerter等在内的二十多种工具的支持;Acme CAD Conyerter可以浏览不同版本的DWG文件,支持shx字体文件,xref块文件,和光栅文件的导入,支持创建对dwg和dxf文件的关联。完美的支持CAD图形中文字体的显示,易于编辑和修改,而且具有良好的扩展性。
Claims (3)
1.一种PDF文档到DWG文档转换的方法,其特征在于:所述方法包含以下步骤:
步骤一:利用规则生成模块,对PDF源文档(1)进行分析和处理,通过文档解析器(6)读取PDF源文档的内容,并将其转换为规则的DWG文档(3);
步骤二:利用自动抽取模块(4)接受规则的DWG文档(3),得到满足目标DWG文档并且具有编辑功能的DWG文档(6)。
2.根据权利要求1所述的一种PDF文档到DWG文档转换的方法,其特征在于:可以将PDF文档,先经过规则生成模块(2),输出规则DWG文档(3),再进入自动抽取模块(4),输出满足目标并且具有编辑功能DWG文档(5)。
3.根据权利要求1或2所述的一种PDF文档到DWG文档转换的方法,其特征在于:PDF源文档(1)进行分析和处理,通过文档解析器(6)读取PDF源文档(1)的内容,并将其转换为规则的DWG文档(3),接受规则的DWG文档(3),再进入自动抽取模块(4)得到满足目标DWG文档并且具有编辑功能的DWG文档(5)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103058392A CN102368234A (zh) | 2011-09-27 | 2011-09-27 | 一种pdf文档到dwg文档转换的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103058392A CN102368234A (zh) | 2011-09-27 | 2011-09-27 | 一种pdf文档到dwg文档转换的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102368234A true CN102368234A (zh) | 2012-03-07 |
Family
ID=45760799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103058392A Pending CN102368234A (zh) | 2011-09-27 | 2011-09-27 | 一种pdf文档到dwg文档转换的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102368234A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015176563A1 (zh) * | 2014-05-22 | 2015-11-26 | 袁志贤 | 采用广义量测横向关联方式的统一建模方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266595A (zh) * | 2008-05-09 | 2008-09-17 | 北京泰得思达科技发展有限公司 | 一种电子标书的应用系统 |
US20100190511A1 (en) * | 2004-11-17 | 2010-07-29 | Qualcomm Incorporated | Method for ambiguity resolution in location determination |
-
2011
- 2011-09-27 CN CN2011103058392A patent/CN102368234A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100190511A1 (en) * | 2004-11-17 | 2010-07-29 | Qualcomm Incorporated | Method for ambiguity resolution in location determination |
CN101266595A (zh) * | 2008-05-09 | 2008-09-17 | 北京泰得思达科技发展有限公司 | 一种电子标书的应用系统 |
Non-Patent Citations (1)
Title |
---|
宋艳娟等: "基于XSLT的PDF信息抽取技术的研究", 《计算机与数字工程》, vol. 36, no. 5, 20 May 2008 (2008-05-20), pages 156 - 158 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015176563A1 (zh) * | 2014-05-22 | 2015-11-26 | 袁志贤 | 采用广义量测横向关联方式的统一建模方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023506362A (ja) | 文書監査方法、装置、システム、デバイス及び記憶媒体 | |
McCrae et al. | The open linguistics working group: developing the Linguistic Linked Open Data cloud | |
CN100474318C (zh) | 一种自动生成设计bom的系统 | |
CN103793372A (zh) | 从电子文档中的表格结构提取语义关系 | |
CN101976235A (zh) | 基于动态网页的可扩展的Word报告自动生成方法 | |
CN102479248A (zh) | 一种电子文档结构化处理的方法和系统 | |
CN101866331A (zh) | 不同语种xml文档的转换方法及装置 | |
Parsanezhad | A lifecycle approach towards Building Information Management: Technical and procedural implications for the facility management and operations sector | |
Pinilla-De La Cruz et al. | Public-private partnerships (PPPs) in energy: Identifying the key dimensions from two different Bibliometric analyzes | |
CN102368234A (zh) | 一种pdf文档到dwg文档转换的方法 | |
Nairne Schamne et al. | Building information modelling and building sustainability assessment: a review | |
Sun et al. | A machine learning method of predicting behavior vitality using open source data | |
Kim et al. | Multi-cloud Technology Introduction and Research Trends | |
Sánchez et al. | IDSEM, an invoices database of the Spanish electricity market | |
CN113127630A (zh) | 一种电力可视化数据资源管理平台系统 | |
Yang et al. | Design of intelligent module design for humanoid translation robot by combining the deep learning with blockchain technology | |
Sharma | Matlab/simulink model of two-stage, grid connected 50kw solar system | |
CN102591665A (zh) | 一种自定义快速生成页面的方法和系统 | |
Chirumalla et al. | Configurations for second-life operations of electric vehicle batteries: A guiding framework for ecosystem management | |
Soeiro et al. | Building information modelling and building sustainability assessment: a review | |
Löfstedt | E-services for and by citizens: towards e-participation and social systems design for development of local public e-services | |
DAS et al. | A SIMULATION MODEL OF SOLAR PHOTOVOLTAIC AND DIESEL HYBRID ENERGY SYSTEM | |
Hon | Global Capitalism with Chinese Characteristics: Fang Keli's New Confucian Research Project (1896-1995) | |
Babu et al. | SOLAR-WIND HYBRID POWER GENERATION | |
KR20220052135A (ko) | 블록 에디터 기반의 문서 편집을 위한 임포트 블록 삽입 방법, 그를 수행하기 위한 서버 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120307 |