CN112800719A - 一种电子文档结构化方法 - Google Patents
一种电子文档结构化方法 Download PDFInfo
- Publication number
- CN112800719A CN112800719A CN202011578098.0A CN202011578098A CN112800719A CN 112800719 A CN112800719 A CN 112800719A CN 202011578098 A CN202011578098 A CN 202011578098A CN 112800719 A CN112800719 A CN 112800719A
- Authority
- CN
- China
- Prior art keywords
- electronic document
- type
- picture
- content
- electronic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/111—Mathematical or scientific formatting; Subscripts; Superscripts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/114—Pagination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开的电子文档结构化方法,通过识别电子文档的类型,根据该类型,对电子文档的内容进行标注,提高了效率及适用性,避免了垃圾数据的产生。
Description
技术领域
本发明涉及温度采集技术领域,具体涉及一种电子文档结构化方法。
背景技术
目前数据结构化有如下几种方案:
(1)直接在线编辑、手工录入:通过打字、复制粘贴的方式来实现数据的生成和结构化;
(2)通过在word文档中打标记,再经过word解析程序对word文档进行解析,最后对打标记时打的标签进行比对、识别,完成word文档中数据的结构化。
该方案存在以下缺陷:
(1)支持文档格式少,仅支持word文档;
(2)手工在word文档中打标签容易出错,且出错后不能及时发现;
(3)Word文档因格式问题导致内容解析错误(串行、丢失、多内容等)不能及时发现;
(4)若文档中有与标签一致的内容是,会造成word解析程序对内容的误判,导致结果不正确;
(5)只能等word内容解析完成且导入系统之后才能核对解析结果是否正确,且人工核对效率低;
(6)解析结果出问题时,需要调整word文档内容后再次导入,导致系统中垃圾数据越积越多。
发明内容
为解决现有技术的不足,本发明实施例提供了一种电子文档结构化方法,该方法包括以下步骤:
识别电子文档的类型,其中,类型包括word类型、pdf类型、txt类型、jpg类型、png类型、bmp类型、zip类型;
根据所述类型,对所述电子文档的内容进行标注。
优选地,根据所述类型,对所述电子文档的内容进行标注包括:
对Word、txt类型的电子文档,解析所述电子文档并提取所述电子文档中的文本;
对特殊类型的电子文档,采用html标记的方式进行标识,生成所述电子文档的识别结果;
对于pdf类型的电子文档,生成相应的png图片,根据png图片的处理方式处理所述电子文档;
对于仅包含图片的zip类型的电子文档,将所述电子文档解压后,按照图片的方式处理所述电子文档;
对于jpg、png、bmp类型的电子文档,按照图片的方式处理所述电子文档。
优选地,按照图片的方式处理所述电子文档包括:
将所述电子文档作为一页呈现在web界面上并对所述电子文档的结构进行标注,其中,标注的内容包括独立图片、行内图片、公式、清除块、页面拆分。
优选地,在对所述电子文档的结构进行标注之后,所述方法还包括:
根据标注的内容,对图片进行加工,包括:
将独立图片和行内图片中的内容转换为单张图片;
采用公式识别技术识别公式并将所述公式转换为成Latex语言描述的公式;
将独立图片、行内图片、公式、清除块从原始图片中清除;
根据页面拆分标注,将经过清除操作的原始图片一分为二,得到多张图片。
优选地,在得到多张图片之后,所述方法还包括:
分别对所述多张图片进行文本识别,将得到的识别结果标注的内容重新拼接成完整的电子文档识别结果。
优选地,在将得到的识别结果标注的内容重新拼接成完整的电子文档识别结果之后,所述方法还包括:
实时对比所述电子文档识别结果与原始电子文档的内容,如有错误,则对所述电子文档识别结果进行编辑。
优选地,对所述电子文档的结构进行标注包括:
选择一个结构化字段;
在所述电子文档识别结果中拉选内容;
将拉选的内容呈现为已结构化标注的标记并建立拉选的内容已与所述结构化字段之间的关联关系。
本发明实施例提供的电子文档结构化方法具有以下有益效果:
(1)可处理的文档类型多样,适用性强;
(2)识别结果出错时,能够及发现并改正,效率较高;
(3)将对比操作放在导入前,避免了垃圾数据的产生。
附图说明
图1为本发明实施例提供的电子文档结构化方法结构示意图;
图2为本发明实施例提供的电子文档的内容进行标注示意图;
图3为本发明实施例提供的电子文档的结构进行标注示意图。
具体实施方式
以下结合具体实施例对本发明作具体的介绍。
如图1所示,本发明提供的实施例提供的电子文档结构化方法包括以下步骤:
S101,识别电子文档的类型,其中,该类型包括word类型、pdf类型、txt类型、jpg类型、png类型、bmp类型、zip类型;
S102,根据该类型,对电子文档的内容进行标注。
可选地,根据该类型,对电子文档的内容进行标注包括:
对Word、txt类型的电子文档,解析电子文档并提取电子文档中的文本;
对特殊类型的电子文档,采用html标记的方式进行标识,生成电子文档的识别结果,其中,特殊类型的电子文档包括公式、上下标、下划线;
对于pdf类型的电子文档,生成相应的png图片,根据png图片的处理方式处理电子文档;
对于仅包含图片的zip类型的电子文档,将电子文档解压后,按照图片的方式处理所述电子文档;
对于jpg、png、bmp类型的电子文档,按照图片的方式处理电子文档。
可选地,按照图片的方式处理电子文档包括:
将电子文档作为一页呈现在web界面上并对电子文档的结构进行标注,其中,标注的内容包括独立图片、行内图片、公式、清除块、页面拆分。
可选地,在对电子文档的结构进行标注之后,该方法还包括:
根据标注的内容,对图片进行加工,包括:
将独立图片和行内图片中的内容转换为单张图片;
采用公式识别技术识别公式并将该公式转换为成Latex语言描述的公式;
将独立图片、行内图片、公式、清除块从原始图片中清除;
根据页面拆分标注,将经过清除操作的原始图片一分为二,得到多张图片。
可选地,在得到多张图片之后,该方法还包括:
分别对多张图片进行文本识别,将得到的识别结果标注的内容重新拼接成完整的电子文档识别结果。
可选地,在将得到的识别结果标注的内容重新拼接成完整的电子文档识别结果之后,该方法还包括:
实时对比电子文档识别结果与原始电子文档的内容,如有错误,则对电子文档识别结果进行编辑。
可选地,对电子文档的结构进行标注包括:
选择一个结构化字段;
在电子文档识别结果中拉选内容;
将拉选的内容呈现为已结构化标注的标记并建立拉选的内容已与结构化字段之间的关联关系。
本发明实施例提供的电子文档结构化方法,通过识别电子文档的类型,根据该类型,对电子文档的内容进行标注,提高了效率及适用性,避免了垃圾数据的产生。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (7)
1.一种电子文档结构化方法,其特征在于,包括:
识别电子文档的类型,其中,所述类型包括word类型、pdf类型、txt类型、jpg类型、png类型、bmp类型、zip类型;
根据所述类型,对所述电子文档的内容进行标注。
2.根据权利要求1所述的电子文档结构化方法,其特征在于,根据所述类型,对所述电子文档的内容进行标注包括:
对Word、txt类型的电子文档,解析所述电子文档并提取所述电子文档中的文本;
对特殊类型的电子文档,采用html标记的方式进行标识,生成所述电子文档的识别结果;
对于pdf类型的电子文档,生成相应的png图片,根据png图片的处理方式处理所述电子文档;
对于仅包含图片的zip类型的电子文档,将所述电子文档解压后,按照图片的方式处理所述电子文档;
对于jpg、png、bmp类型的电子文档,按照图片的方式处理所述电子文档。
3.根据权利要求2所述的电子文档结构化方法,其特征在于,按照图片的方式处理所述电子文档包括:
将所述电子文档作为一页呈现在web界面上并对所述电子文档的结构进行标注,其中,标注的内容包括独立图片、行内图片、公式、清除块、页面拆分。
4.根据权利要求3所述的电子文档结构化方法,其特征在于,在对所述电子文档的结构进行标注之后,所述方法还包括:
根据标注的内容,对图片进行加工,包括:
将独立图片和行内图片中的内容转换为单张图片;
采用公式识别技术识别公式并将所述公式转换为成Latex语言描述的公式;
将独立图片、行内图片、公式、清除块从原始图片中清除;
根据页面拆分标注,将经过清除操作的原始图片一分为二,得到多张图片。
5.根据权利要求4所述的电子文档结构化方法,其特征在于,在得到多张图片之后,所述方法还包括:
分别对所述多张图片进行文本识别,将得到的识别结果标注的内容重新拼接成完整的电子文档识别结果。
6.根据权利要求5所述的电子文档结构化方法,其特征在于,在将得到的识别结果标注的内容重新拼接成完整的电子文档识别结果之后,所述方法还包括:
实时对比所述电子文档识别结果与原始电子文档的内容,如有错误,则对所述电子文档识别结果进行编辑。
7.根据权利要求3所述的电子文档结构化方法,其特征在于,对所述电子文档的结构进行标注包括:
选择一个结构化字段;
在所述电子文档识别结果中拉选内容;
将拉选的内容呈现为已结构化标注的标记并建立拉选的内容已与所述结构化字段之间的关联关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011578098.0A CN112800719A (zh) | 2020-12-28 | 2020-12-28 | 一种电子文档结构化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011578098.0A CN112800719A (zh) | 2020-12-28 | 2020-12-28 | 一种电子文档结构化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112800719A true CN112800719A (zh) | 2021-05-14 |
Family
ID=75804274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011578098.0A Pending CN112800719A (zh) | 2020-12-28 | 2020-12-28 | 一种电子文档结构化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800719A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190098A (zh) * | 2018-08-15 | 2019-01-11 | 上海唯识律简信息科技有限公司 | 一种基于自然语言处理的文档自动生成方法和系统 |
CN109213870A (zh) * | 2017-06-30 | 2019-01-15 | 埃森哲环球解决方案有限公司 | 文档处理 |
CN111126006A (zh) * | 2019-12-25 | 2020-05-08 | 小船出海教育科技(北京)有限公司 | 导出带MathType公式的Word文档方法、装置、电子设备及存储介质 |
CN111259830A (zh) * | 2020-01-19 | 2020-06-09 | 中国农业科学院农业信息研究所 | 一种海外农业pdf文档内容碎片化方法及系统 |
CN112115111A (zh) * | 2019-06-20 | 2020-12-22 | 上海怀若智能科技有限公司 | 一种基于ocr的文档版本管理方法和系统 |
-
2020
- 2020-12-28 CN CN202011578098.0A patent/CN112800719A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213870A (zh) * | 2017-06-30 | 2019-01-15 | 埃森哲环球解决方案有限公司 | 文档处理 |
CN109190098A (zh) * | 2018-08-15 | 2019-01-11 | 上海唯识律简信息科技有限公司 | 一种基于自然语言处理的文档自动生成方法和系统 |
CN112115111A (zh) * | 2019-06-20 | 2020-12-22 | 上海怀若智能科技有限公司 | 一种基于ocr的文档版本管理方法和系统 |
CN111126006A (zh) * | 2019-12-25 | 2020-05-08 | 小船出海教育科技(北京)有限公司 | 导出带MathType公式的Word文档方法、装置、电子设备及存储介质 |
CN111259830A (zh) * | 2020-01-19 | 2020-06-09 | 中国农业科学院农业信息研究所 | 一种海外农业pdf文档内容碎片化方法及系统 |
Non-Patent Citations (2)
Title |
---|
李正等: "基于版式电子文档的全文检索技术在自然资源部机关政务办公系统中的应用初探", 《国土资源信息化》, no. 02, pages 22 - 26 * |
杨恒宇: "政府电子文档全文数据库建设及检索方法研究", 《现代情报》, vol. 33, no. 10, pages 59 - 62 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6983238B2 (en) | Methods and apparatus for globalizing software | |
CN111930966A (zh) | 一种用于数字政务的智能政策匹配方法及系统 | |
CN112418813B (zh) | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 | |
CN113010638A (zh) | 实体识别模型生成方法及装置、实体提取方法及装置 | |
CN116245177B (zh) | 地理环境知识图谱自动化构建方法及系统、可读存储介质 | |
CN104820962B (zh) | 一种代替人工签名栏的打印水印生成方法 | |
CN117764039A (zh) | 基于大模型的投标文件生成方法、系统、终端及存储介质 | |
US8499235B2 (en) | Method of posting content to a web site | |
CN112800719A (zh) | 一种电子文档结构化方法 | |
CN109582925B (zh) | 一种人机结合的语料标注方法及系统 | |
CN115982272A (zh) | 一种城市大数据管理的数据标注方法、装置及计算机存储介质 | |
CN114398492B (zh) | 一种在数字领域的知识图谱构建方法、终端及介质 | |
TWM590730U (zh) | 基於人工智慧之文件管理系統 | |
CN115130437A (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN111882419B (zh) | 质检文件的方法、装置及服务器 | |
EP4167106A1 (en) | Method and apparatus for data structuring of text | |
CN115630636A (zh) | 文本识别方法及装置 | |
CN112668282B (zh) | 一种设备规程文档格式转换的方法及系统 | |
CN113947510A (zh) | 一种基于文件格式自适应的不动产电子证照管理系统 | |
CN110830851B (zh) | 一种视频文案的制作方法及装置 | |
CN113553852A (zh) | 一种基于神经网络的合同信息提取方法、系统和存储介质 | |
CN118194883B9 (zh) | 基于机器翻译的文献版式还原方法及装置 | |
KR20200102310A (ko) | 전자책 변환 저작 시스템 | |
CN113296773B (zh) | 一种层叠样式表的版权标注方法和标注系统 | |
CN117743573B (zh) | 一种语料自动标注的方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |