CN106484663B - 一种文档内容的提取方法和装置 - Google Patents

一种文档内容的提取方法和装置 Download PDF

Info

Publication number
CN106484663B
CN106484663B CN201610890517.1A CN201610890517A CN106484663B CN 106484663 B CN106484663 B CN 106484663B CN 201610890517 A CN201610890517 A CN 201610890517A CN 106484663 B CN106484663 B CN 106484663B
Authority
CN
China
Prior art keywords
content
format
document
file
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610890517.1A
Other languages
English (en)
Other versions
CN106484663A (zh
Inventor
祝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Media Technology (hunan) Co Ltd
Original Assignee
Digital Media Technology (hunan) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Media Technology (hunan) Co Ltd filed Critical Digital Media Technology (hunan) Co Ltd
Priority to CN201610890517.1A priority Critical patent/CN106484663B/zh
Publication of CN106484663A publication Critical patent/CN106484663A/zh
Application granted granted Critical
Publication of CN106484663B publication Critical patent/CN106484663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例公开了一种文档内容的提取方法和装置。所述方法包括:搜索初始文档中满足设定格式条件的内容,并去除所述内容对应的格式,得到预处理文档;提取预处理文档中的目标内容,并转换形成格式内容文件,给格式内容文件添加标签进行标注,从预处理文档中删除目标内容;提取处理后预处理文档中的剩余内容,保存为文本文件,与格式内容文件存储至初始文档对应的文件夹。本发明实施例解决了现有技术只能提取文档中的特定内容,无法适应于格式多样化的内容问题,通过对文档内容进行分析,充分识别并提取文档中不同格式的内容,最终达到缩减电子系统使用文档的限制,充分利用已有文档中的内容的目的。

Description

一种文档内容的提取方法和装置
技术领域
本发明实施例涉及文档信息处理的技术领域,特别涉及一种文档内容的提取方法和装置。
背景技术
随着教育信息化与在线教育的普及,越来越多的word文档(以下统称文档)通过网络或学校内部系统传播、使用。Word作为客户端的文档编辑程序,文档内容在电子系统中使用时,只能嵌入特定的控件进行展示、编辑,使用方式单一、限制多,无法充分利用到文档中的内容。在线教育企业在题库建设过程中,通常是将文档转换成内容数据,这些转换如果采用人工进行,对于成千上万的文档来说效率是相当低的,怎样通过一种计算机的内容提取方法,将文档转换成标准通用的格式,在提高效率的同时,缩减电子系统使用文档的限制,充分使用文档中的试题内容。
目前虽然有技术手段能够解决该问题,但所采用的技术主要关注文档本身的结构(段落、层级),而非文档内容本身;或需要指定文档模板才能进行有效分析;或加入特殊标记,分析提取文档中的特定内容(表格),无法适应于试题多样化的内容形式。
发明内容
有鉴于此,本发明实施例提供一种文档内容的提取方法和装置,以适应于多样化的文档内容。
第一方面,本发明实施例提供了一种文档内容的提取方法,包括:
搜索初始文档中满足设定格式条件的内容,并去除内容对应的格式,得到预处理文档;
提取预处理文档中的目标内容,并转换形成格式内容文件,给格式内容文件添加标签进行标注,从预处理文档中删除目标内容;
提取处理后预处理文档中的剩余内容,保存为文本文件,与格式内容文件存储至初始文档对应的文件夹。
第二方面,本发明实施例提供了一种文档内容的提取装置,包括:
预处理模块,用于搜索初始文档中满足设定格式条件的内容,并去除内容对应的格式,得到预处理文档;
格式转换模块,用于提取预处理文档中的目标内容,并转换形成格式内容文件,给格式内容文件添加标签进行标注,从预处理文档中删除目标内容;
文本存储模块,用于提取处理后预处理文档中的剩余内容,保存为文本文件,与格式内容文件存储至初始文档对应的文件夹。
由上述技术方案可知,本发明实施例通过对文档内容进行分析,充分识别并提取文档中不同格式的内容,最终达到缩减电子系统使用文档的限制,充分利用已有文档中的内容的目的,并且由于直接对文档内容进行分析,可以适应于多样化的文档内容。
附图说明
图1是本发明实施例一提供的一种文档内容的提取方法流程示意图;
图2是本发明实施例二提供的一种文档内容的提取方法流程示意图;
图3是本发明实施例提供的文档内容的提取方法中的Word文档自有工具使用界面图;
图4是本发明实施例五提供的一种文档内容的提取装置的结构示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种文档内容的提取方法流程示意图。该方法可以由文档内容的提取装置来执行,该装置可以由软件和/或硬件的方式来实现,通常可配置在可提供文档内容提取服务的服务器中。如图1所示,该方法包括:
S110、搜索初始文档中满足设定格式条件的内容,并去除内容对应的格式,得到预处理文档;
初始文档即为用户需要处理的原始文档,初始文档可以是多种格式的文档(如Word文档、PPT文档和PDF文档等)。满足设定格式条件的内容可以根据预设格式从初始文档中搜索得到,满足设定格式条件的内容包括多种格式的内容(如上标内容、下标内容和下划线内容等)。
具体的,初始文档的文档类型优选为Word文档。
用户根据自身需求对要提取的Word文档文件进行选择,上传至可提供文档内容提取服务的服务器,可提供文档内容提取服务的服务器可为云端服务器。上传成功后,服务器从初始文档的全部内容中搜索满足多种设定格式条件的内容,并通过去除内容中的对应格式符得到预处理文档。
S120、提取预处理文档中的目标内容,并转换形成格式内容文件,给格式内容文件添加标签进行标注,从预处理文档中删除目标内容;
目标内容包括初始文档中的表格、公式、域和图片等多种格式的内容。标签与内容文件的格式相对应,用于标注对应格式内容,使转换形成的格式内容文件按原有格式显示。
得到预处理文档后,将预处理文档中表格、公式、域和图片等多种格式的目标内容提取形成格式内容文件,并用与不同格式相对应的标签进行标注,并将目标内容从预处理文档中删除。
S130、提取处理后预处理文档中的剩余内容,保存为文本文件,与格式内容文件存储至初始文档对应的文件夹。
文本文件即txt格式的文件。将提取的处理后的剩余内容保存为文本文件,并与S120中得到的格式内容文件存储在同一文件夹,并打包成压缩文件。
综上所述,根据本实施例的技术方案,解决了现有技术只能提取文档中的特定内容,无法适用于格式多样化的内容问题,通过对文档内容进行分析,充分识别并提取文档中不同格式的内容,最终达到缩减电子系统使用文档的限制,充分利用已有文档中的内容的目的,并且由于直接对文档内容进行分析,可以适应于多样化的文档内容。
实施例二
图2是本发明实施例二提供的一种文档内容的提取方法流程示意图。如图2所示,本实施例在实施例一的基础上进行了优化,在S110之前添加了S210。如图2所示,S210具体为:
S210、将待处理文档复制到临时目录下,得到初始文档,并将初始文档的状态设置为不可见。
待处理文档为服务器接收到由用户所上传的需要处理的文档,当用户发出指令后,服务器会将上传成功的文档复制到临时目录,得到初始文档,并将初始文档的文档状态设置为不可见,避免服务器在对初始文本处理的过程中受到其他操作的影响。
可选的,所述方法还可以在提取处理后预处理文档中的剩余内容之前包括:
删除预处理文档中的预设符号。
预设符号包括响铃符号(\a)、退格符号(\b)、换页符号(\f)、垂直制表符号(\v)和水平制表符号(\t)。
将标注后的目标内容从预处理文档中删除后,剩余内容中还会存在响铃符号(\a)、退格符号(\b)、换页符号(\f)、垂直制表符号(\v)和水平制表符号(\t)等预设符号,这些符号会改变预处理文档中文本内容的格式,因此将预设符号全部删除。
综上所述,根据本实施例的技术方案通过将初始文档的状态设置为不可见,将服务器对初始文档的处理过程处于隐蔽状态,减少了其他操作对文档提取的影响。
实施例三
本实施例在上述实施例的基础上进行了优化,进一步阐述预处理过程中不同的满足设定格式条件的内容的处理方式。
设定格式条件可以包括多种格式。可选的,满足设定格式条件的内容包括上标内容、下标内容和下划线内容;当满足设定格式条件的内容是上标内容、下标内容和下划线内容时,搜索初始文档中满足设定格式条件的内容,并去除所述内容对应的格式包括:
首先,调用Word文档高级搜索工具,在初始文档中搜索满足设定格式条件的内容;
如图3所示,Word文档高级搜索工具为Word文档中自有工具。
其次,确定与满足设定格式条件的内容对应的目标格式符;
每一种设定格式都有对应的目标格式符。示例性的,上标格式对应的格式符为<sup></sup>,下标格式对应的格式符为<sub></sub>,下划线格式内容对应的格式符为<u></u>。
再次,根据目标格式符以及满足设定格式条件的内容构造代替内容;
最后,调用Word文档高级搜索工具,去除满足设定格式条件的内容的格式,并使用代替内容替换满足设定格式条件的内容。
示例性的,搜索到特定下标格式后将文本内容content替换为<sup>content</sup>,删除该格式即可。
可选的,满足设定格式条件的内容包括浮动图片;
当所述方法中满足设定格式条件的内容是浮动图片时,搜索初始文档中满足设定格式条件的内容,并去除内容对应的格式包括:
搜索初始文档中的浮动图片;
将浮动图片转换为嵌入图片。
浮动图片与文字位于同一层,当文档中的内容发生变化时,图片会有移位,进而遮住文字或者被文字覆盖掉。嵌入图片与文字不在同一层上,当文档中的内容发生变化的时候,图片的移位很小,如果是采用锁定的方式插入的话,不管文档内容怎么变化图片都不会产生位移,而浮动式图片是不能锁定的。因此当浮动图片转换为嵌入图片后,图片位置锁定,不会因为文档内容的改变而改变。
具体的,将浮动图片转换为嵌入图片包括:
首先,获取浮动图片的锚点位置信息和浮动图片所在的页码;锚点位置信息包括锚点的横坐标和锚点的纵坐标;
其次,遍历浮动图片,剪切遍历到的当前图片;
文档中会存在多张浮动图片,因此在处理过程中需要遍历初始文档中的全部内容,将全部浮动图片转换为嵌入图片。
再次,根据当前图片所在的页码,遍历该页码上的行,确定与当前图片的锚点的纵坐标对应的行;
再次,在确定的行中遍历该行对应的列,确定与当前图片的锚点的横坐标对应的列;
图片锚点用于标识图片的位置,包括横坐标和纵坐标。在确定文档中图片的位置时,先确定当前图片在文档中的页码,再根据当前图片锚点的纵坐标确定文档中对应的行号,根据当前图片锚点的横坐标确定文档中对应的列号,得到图片位置。
最后,将当前图片粘贴到确定的行和列对应的位置。
将当前图片粘贴到所确定的图片位置,即实现了将浮动图片转换得到嵌入图片。当浮动图片转换为嵌入图片后,图片位置锁定,不会因为文档内容的改变而改变。
可选的,满足设定格式条件的内容包括自动编号和段落标记;
当满足设定格式条件的内容是自动编号和段落标记时,搜索初始文档中满足设定格式条件的内容,并去除内容对应的格式包括:
搜索初始文档中的满足设定格式条件的内容;
将满足设定格式条件的内容替换为对应的目标格式内容。
当设定格式条件的内容为自动编号内容时,搜索初始文档中的自动编号内容,将自动编号内容中的自动编号替换为普通编号,并去除自动编号;当设定格式条件的内容为段落标记内容时,搜索初始文档中的段落标记,并将段落标记替换为换行符。
综上所述,根据本实施例的技术方案根据不同设定格式条件的内容采取不同的处理方式,进而利用已有文档中的内容,提取文档中不同格式的内容,最终达到缩减电子系统使用文档的限制的目的。
实施例四
本实施例在上述实施例的基础上进行了优化,进一步阐述格式转换过程中不同的目标内容的处理方式。
目标内容包括表格;
示例性的,当目标内容是表格时,提取预处理文档中的目标内容,并转换形成格式内容文件,给格式内容文件添加标签进行标注,从初始文档中删除目标内容包括:
首先,遍历预处理文档中的表格;
其次,获取当前表格的格式和内容,当前表格的内容包括单元格内容和单元格位置信息;
其中,当前表格为当前遍历到的表格。
再次,根据单元格位置信息对单元格内容添加单元格格式符;
在对表格内容进行转换时,需先确定表格的中全部单元格的位置和内容,并将每个单元格内容用单元格格式符标识出来。
最后,根据当前表格的格式,将添加了单元格格式符的当前表格的内容转换为格式内容文件,给格式内容文件添加表格标签进行标注,并在预处理文档中删除当前表格的内容和格式。
具体的,单元格格式符为HTML语言中单元格标签。
将用单元格格式符标识的单元格信息转换为格式内容文件,得到可在网页中正常显示的表格内容,然后根据得到的表格位置信息,给格式内容文件添加表格标签进行标注,使表格内容在原有位置显示,最后在去除格式后的初始文档即预处理文档中删除当前表格的内容和格式。
并列的,目标内容包括公式、域和图片;
示例性的,当目标内容是公式、域和图片时,提取预处理文档中的目标内容,并转换形成格式内容文件,给格式内容文件添加标签进行标注,从初始文档中删除目标内容包括:
遍历预处理文档中的目标内容;
获取当前目标内容的位置信息;
将当前目标内容转换为预设图片格式的格式内容文件;
根据位置信息对格式内容文件添加标签进行标注,从预处理文档中删除目标内容。
同理,当对公式、域和图片等目标内容进行处理时,也会先获取目标内容的原有位置,并将目标内容转换为可在网页中正常显示的格式内容文件,并对不同目标内容和目标内容的位置添加不同标签进行标注,使目标内容可以在网页中在原有位置正常显示,最后在预处理文档中删除目标内容。
综上所述,根据本实施例的技术方案对不同目标内容采取不同的处理方式,利用已有文档中的内容,将不同目标内容转换为对应的格式内容文件,进而提取文档中不同格式的内容,最终达到缩减电子系统使用文档的限制的目的。
实施例五
图4是本发明实施例五提供的一种文档内容的提取装置的结构示意图。如图4所示,该装置包括:预处理模块410、格式转换模块420和文本存储模块430。
其中,预处理模块410,用于搜索初始文档中满足设定格式条件的内容,并去除内容对应的格式,得到预处理文档;
格式转换模块420,用于提取预处理文档中的目标内容,并转换形成格式内容文件,给格式内容文件添加标签进行标注,从预处理文档中删除目标内容;
文本存储模块430,用于提取处理后预处理文档中的剩余内容,保存为文本文件,与格式内容文件存储至初始文档对应的文件夹。
进一步的,装置还包括:
状态切换模块,用于搜索初始文档中满足设定格式条件的内容,并去除内容对应的格式,之前,将待处理文档复制到临时目录下,得到初始文档,并将初始文档的状态设置为不可见。
进一步的,初始文档的文档类型为Word文档。
进一步的,满足设定格式条件的内容包括:上标内容、下标内容和下划线内容;
预处理模块410包括:
第一内容搜索单元,用于调用Word文档高级搜索工具,在初始文档中搜索满足设定格式条件的内容;
格式符设定单元,用于确定与满足设定格式条件的内容对应的目标格式符;
内容构造单元,用于根据目标格式符以及满足设定格式条件的内容构造代替内容;
第一内容替换单元,用于调用Word文档高级搜索工具,去除满足设定格式条件的内容的格式,并使用代替内容替换满足设定格式条件的内容。
进一步的,满足设定格式条件的内容包括浮动图片;
预处理模块410包括:
浮动图片搜索单元,用于搜索初始文档中的浮动图片;
图片转换单元,用于将浮动图片转换为嵌入图片。
进一步的,图片转换单元包括:
位置信息获取子单元,用于获取浮动图片的锚点位置信息和浮动图片所在的页码;锚点位置信息包括锚点的横坐标和锚点的纵坐标;
图片获取子单元,用于遍历浮动图片,剪切遍历到的当前图片;
行信息确定子单元,用于根据当前图片所在的页码,遍历该页码上的行,确定与当前图片的锚点的纵坐标对应的行;
列信息确定子单元,用于在确定的行中遍历该行对应的列,确定与当前图片的锚点的横坐标对应的列;
图片放置子单元,将当前图片粘贴到确定的行和列对应的位置。
进一步的,满足设定格式条件的内容包括自动编号和段落标记;
预处理模块410包括:
第二内容搜索单元,用于搜索初始文档中的满足设定格式条件的内容;
第二内容替换单元,用于将满足设定格式条件的内容替换为对应的目标格式内容。
进一步的,目标内容包括表格;
格式转换模块420包括:
表格遍历单元,用于遍历预处理文档中的表格;
表格信息获取单元,用于获取当前表格的格式和内容,当前表格的内容包括单元格内容和单元格位置信息;
格式符添加单元,用于根据单元格位置信息对单元格内容添加单元格格式符;
表格信息替换单元,用于根据当前表格的格式,将添加了单元格格式符的当前表格的内容转换为格式内容文件,给格式内容文件添加表格标签进行标注,并在预处理文档中删除当前表格的内容和格式。
进一步的,目标内容包括公式、域和图片;
格式转换模块420包括:
目标内容遍历单元,用于遍历预处理文档中的目标内容;
位置信息获取单元,用于获取当前目标内容的位置信息;
预设内容转换单元,用于将当前目标内容转换为预设图片格式的格式内容文件;
预设内容标注单元,用于根据位置信息对格式内容文件添加标签进行标注,从预处理文档中删除目标内容。
进一步的,所述装置还包括:
符号删除模块,用于在提取处理后预处理文档中的剩余内容之前,删除预处理文档中的预设符号。
综上所述,根据本实施例的技术方案,解决了现有技术只能提取文档中的特定内容,无法适应于格式多样化的内容问题,通过对文档内容进行分析,充分识别并提取文档中不同格式的内容,最终达到缩减电子系统使用文档的限制,充分利用已有文档中的内容的目的,并且由于直接对文档内容进行分析,可以适应于多样化的文档内容。
本发明实施例所提供的一种文档提取装置可以用于执行本发明实施例所提供的一种文档提取方法,具备相应的功能和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的一种文档提取方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (20)

1.一种文档内容的提取方法,其特征在于,包括:
搜索初始文档中满足设定格式条件的内容,并去除所述内容对应的格式,得到预处理文档;
提取所述预处理文档中的目标内容,并转换形成格式内容文件,依据所述目标内容的位置信息给所述格式内容文件添加标签进行标注,从所述预处理文档中删除所述目标内容;标签与内容文件的格式相对应,用于标注对应格式内容,使转换形成的格式内容文件按原有格式显示;
提取处理后所述预处理文档中的剩余内容,保存为文本文件,与所述格式内容文件存储至所述初始文档对应的文件夹。
2.根据权利要求1所述的方法,其特征在于,搜索初始文档中满足设定格式条件的内容,并去除所述内容对应的格式,之前,还包括:
将待处理文档复制到临时目录下,得到所述初始文档,并将所述初始文档的状态设置为不可见。
3.根据权利要求1或2所述的方法,其特征在于,所述初始文档的文档类型为Word文档。
4.根据权利要求3所述的方法,其特征在于,所述满足设定格式条件的内容包括:上标内容、下标内容和下划线内容;
搜索初始文档中满足设定格式条件的内容,并去除所述内容对应的格式包括:
调用Word文档高级搜索工具,在所述初始文档中搜索满足设定格式条件的内容;
确定与所述满足设定格式条件的内容对应的目标格式符;
根据所述目标格式符以及所述满足设定格式条件的内容构造代替内容;
调用Word文档高级搜索工具,去除所述满足设定格式条件的内容的格式,并使用所述代替内容替换所述满足设定格式条件的内容。
5.根据权利要求3所述的方法,其特征在于,所述满足设定格式条件的内容包括浮动图片;
搜索初始文档中满足设定格式条件的内容,并去除所述内容对应的格式包括:
搜索所述初始文档中的浮动图片;
将所述浮动图片转换为嵌入图片。
6.根据权利要求5所述的方法,其特征在于,将所述浮动图片转换为嵌入图片包括:
获取所述浮动图片的锚点位置信息和所述浮动图片所在的页码;所述锚点位置信息包括锚点的横坐标和锚点的纵坐标;
遍历所述浮动图片,剪切遍历到的当前图片;
根据所述当前图片所在的页码,遍历该页码上的行,确定与所述当前图片的锚点的纵坐标对应的行;
在确定的行中遍历该行对应的列,确定与所述当前图片的锚点的横坐标对应的列;
将所述当前图片粘贴到确定的行和列对应的位置。
7.根据权利要求3所述的方法,其特征在于,所述满足设定格式条件的内容包括自动编号和段落标记;
搜索初始文档中满足设定格式条件的内容,并去除所述内容对应的格式包括:
搜索所述初始文档中的满足设定格式条件的内容;
将所述满足设定格式条件的内容替换为对应的目标格式内容。
8.根据权利要求3所述的方法,其特征在于,所述目标内容包括表格;
提取所述预处理文档中的目标内容,并转换形成格式内容文件,给所述格式内容文件添加标签进行标注,从所述初始文档中删除所述目标内容包括:
遍历所述预处理文档中的表格;
获取当前表格的格式和内容,所述当前表格的内容包括单元格内容和单元格位置信息;
根据所述单元格位置信息对所述单元格内容添加单元格格式符;
根据所述当前表格的格式,将添加了单元格格式符的当前表格的内容转换为格式内容文件,给所述格式内容文件添加表格标签进行标注,并在所述预处理文档中删除所述当前表格的内容和格式。
9.根据权利要求3所述的方法,其特征在于,所述目标内容包括公式、域和图片;
提取所述预处理文档中的目标内容,并转换形成格式内容文件,给所述格式内容文件添加标签进行标注,从所述初始文档中删除所述目标内容包括:
遍历所述预处理文档中的目标内容;
获取当前目标内容的位置信息;
将所述当前目标内容转换为预设图片格式的格式内容文件;
根据所述位置信息对所述格式内容文件添加标签进行标注,从所述预处理文档中删除所述目标内容。
10.根据权利要求3所述的方法,其特征在于,在提取处理后所述预处理文档中的剩余内容之前,还包括:
删除所述预处理文档中的预设符号。
11.一种文档内容提取装置,其特征在于,包括:
预处理模块,用于搜索初始文档中满足设定格式条件的内容,并去除所述内容对应的格式,得到预处理文档;
格式转换模块,用于提取所述预处理文档中的目标内容,并转换形成格式内容文件,依据所述目标内容的位置信息给所述格式内容文件添加标签进行标注,从所述预处理文档中删除所述目标内容;标签与内容文件的格式相对应,用于标注对应格式内容,使转换形成的格式内容文件按原有格式显示;
文本存储模块,用于提取处理后所述预处理文档中的剩余内容,保存为文本文件,与所述格式内容文件存储至所述初始文档对应的文件夹。
12.根据权利要求11所述的装置,其特征在于,还包括:
状态切换模块,用于搜索初始文档中满足设定格式条件的内容,并去除所述内容对应的格式,之前,将待处理文档复制到临时目录下,得到所述初始文档,并将所述初始文档的状态设置为不可见。
13.根据权利要求11或12所述的装置,其特征在于,所述初始文档的文档类型为Word文档。
14.根据权利要求13所述的装置,其特征在于,所述满足设定格式条件的内容包括:上标内容、下标内容和下划线内容;
所述预处理模块包括:
第一内容搜索单元,用于调用Word文档高级搜索工具,在所述初始文档中搜索满足设定格式条件的内容;
格式符设定单元,用于确定与所述满足设定格式条件的内容对应的目标格式符;
内容构造单元,用于根据所述目标格式符以及所述满足设定格式条件的内容构造代替内容;
第一内容替换单元,用于调用Word文档高级搜索工具,去除所述满足设定格式条件的内容的格式,并使用所述代替内容替换所述满足设定格式条件的内容。
15.根据权利要求13所述的装置,其特征在于,所述满足设定格式条件的内容包括浮动图片;
所述预处理模块包括:
浮动图片搜索单元,用于搜索所述初始文档中的浮动图片;
图片转换单元,用于将所述浮动图片转换为嵌入图片。
16.根据权利要求15所述的装置,其特征在于,所述图片转换单元包括:
位置信息获取子单元,用于获取所述浮动图片的锚点位置信息和所述浮动图片所在的页码;所述锚点位置信息包括锚点的横坐标和锚点的纵坐标;
图片获取子单元,用于遍历所述浮动图片,剪切遍历到的当前图片;
行信息确定子单元,用于根据所述当前图片所在的页码,遍历该页码上的行,确定与所述当前图片的锚点的纵坐标对应的行;
列信息确定子单元,用于在确定的行中遍历该行对应的列,确定与所述当前图片的锚点的横坐标对应的列;
图片放置子单元,将所述当前图片粘贴到确定的行和列对应的位置。
17.根据权利要求13所述的装置,其特征在于,所述满足设定格式条件的内容包括自动编号和段落标记;
所述预处理模块包括:
第二内容搜索单元,用于搜索所述初始文档中的满足设定格式条件的内容;
第二内容替换单元,用于将所述满足设定格式条件的内容替换为对应的目标格式内容。
18.根据权利要求13所述的装置,其特征在于,所述目标内容包括表格;
所述格式转换模块包括:
表格遍历单元,用于遍历所述预处理文档中的表格;
表格信息获取单元,用于获取当前表格的格式和内容,所述当前表格的内容包括单元格内容和单元格位置信息;
格式符添加单元,用于根据所述单元格位置信息对所述单元格内容添加单元格格式符;
表格信息替换单元,用于根据所述当前表格的格式,将添加了单元格格式符的当前表格的内容转换为格式内容文件,给所述格式内容文件添加表格标签进行标注,并在所述预处理文档中删除所述当前表格的内容和格式。
19.根据权利要求13所述的装置,其特征在于,所述目标内容包括公式、域和图片;
所述格式转换模块包括:
目标内容遍历单元,用于遍历所述预处理文档中的目标内容;
位置信息获取单元,用于获取当前目标内容的位置信息;
预设内容转换单元,用于将所述当前目标内容转换为预设图片格式的格式内容文件;
预设内容标注单元,用于根据所述位置信息对所述格式内容文件添加标签进行标注,从所述预处理文档中删除所述目标内容。
20.根据权利要求13所述的装置,其特征在于,所述装置还包括:
符号删除模块,用于在提取处理后所述预处理文档中的剩余内容之前,删除所述预处理文档中的预设符号。
CN201610890517.1A 2016-10-12 2016-10-12 一种文档内容的提取方法和装置 Active CN106484663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610890517.1A CN106484663B (zh) 2016-10-12 2016-10-12 一种文档内容的提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610890517.1A CN106484663B (zh) 2016-10-12 2016-10-12 一种文档内容的提取方法和装置

Publications (2)

Publication Number Publication Date
CN106484663A CN106484663A (zh) 2017-03-08
CN106484663B true CN106484663B (zh) 2019-05-03

Family

ID=58270717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610890517.1A Active CN106484663B (zh) 2016-10-12 2016-10-12 一种文档内容的提取方法和装置

Country Status (1)

Country Link
CN (1) CN106484663B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943785B (zh) * 2017-11-06 2021-07-20 广东广业开元科技有限公司 一种基于大数据的pdf文档处理方法及装置
CN107885870B (zh) * 2017-11-24 2019-04-16 北京神州泰岳软件股份有限公司 一种业务文档公式提取方法及装置
CN108595389B (zh) * 2018-04-25 2021-02-26 华中科技大学 一种将Word文档转换为txt纯文本文档的方法
CN108897727B (zh) * 2018-05-23 2021-09-14 平安科技(深圳)有限公司 合同备案方法、装置、计算机设备和存储介质
CN109062874B (zh) * 2018-06-12 2022-03-04 平安科技(深圳)有限公司 财政数据的获取方法、终端设备及介质
CN108920612A (zh) * 2018-06-28 2018-11-30 山东中孚安全技术有限公司 解析doc二进制格式并提取文档中图片的方法及系统
CN109446199B (zh) * 2018-10-19 2020-11-13 天津字节跳动科技有限公司 单元格数据处理方法和装置
CN111597773B (zh) * 2019-02-01 2024-03-12 珠海金山办公软件有限公司 一种压缩处理的方法、装置、计算机存储介质及终端
CN109947996B (zh) * 2019-03-13 2021-02-09 北大方正集团有限公司 文档处理方法和装置
CN111310418A (zh) * 2020-02-25 2020-06-19 深圳市元征科技股份有限公司 一种文本提取方法及其装置
CN111831460B (zh) * 2020-06-30 2023-06-16 江西科技学院 一种文本复制粘贴方法、系统及可读存储介质
TWI765422B (zh) * 2020-11-20 2022-05-21 全友電腦股份有限公司 資料擷取方法、樣板生成方法及非暫態電腦可讀取記錄媒體

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122280A (zh) * 2009-12-17 2011-07-13 北大方正集团有限公司 一种智能提取内容对象的方法及系统
CN102855243A (zh) * 2011-06-28 2013-01-02 北大方正集团有限公司 用于提取文档结构的方法和装置
CN103353878A (zh) * 2013-06-14 2013-10-16 陆昀 将多种格式的文档显示在网页中的方法
CN104156207A (zh) * 2014-07-31 2014-11-19 广州金山网络科技有限公司 一种文档显示方法以及装置
CN105630459A (zh) * 2014-10-25 2016-06-01 上海未达数码科技有限公司 一种将ppt转换为html页面的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122280A (zh) * 2009-12-17 2011-07-13 北大方正集团有限公司 一种智能提取内容对象的方法及系统
CN102855243A (zh) * 2011-06-28 2013-01-02 北大方正集团有限公司 用于提取文档结构的方法和装置
CN103353878A (zh) * 2013-06-14 2013-10-16 陆昀 将多种格式的文档显示在网页中的方法
CN104156207A (zh) * 2014-07-31 2014-11-19 广州金山网络科技有限公司 一种文档显示方法以及装置
CN105630459A (zh) * 2014-10-25 2016-06-01 上海未达数码科技有限公司 一种将ppt转换为html页面的方法

Also Published As

Publication number Publication date
CN106484663A (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN106484663B (zh) 一种文档内容的提取方法和装置
US11151367B2 (en) Image processing apparatus and image processing program
CN105930109B (zh) 一种单据打印的方法、系统及终端
CN101739450B (zh) 对视频中出现的信息进行检索的方法及系统
JP2009122760A (ja) 文書処理装置、文書処理方法及び文書処理プログラム
JP2005135211A (ja) 文書管理方法および文書管理装置
CN101008940B (zh) 自动处理字体缺失的方法与装置
US20210142094A1 (en) Image processing apparatus and image processing program
EP2541433A1 (en) Method and apparatus for realizing electronic bookmarks
US7596270B2 (en) Method of shuffling text in an Asian document image
CN107066438A (zh) 一种文本编辑方法及装置,电子设备
CN104951749A (zh) 图像内容识别装置和方法
CN102591849B (zh) 文档格式转换的方法及装置
US9152354B2 (en) Pull copying using document-file identifiers
CN105045771A (zh) 文档管理装置以及文档管理方法
CN104182479A (zh) 一种处理信息的方法及装置
JP6214581B2 (ja) 文書解析システム、文書解析装置、文書解析方法、及びプログラム
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
US9135517B1 (en) Image based document identification based on obtained and stored document characteristics
CN115630636A (zh) 文本识别方法及装置
CN109543300A (zh) 一种提取版图中的像素器件的方法
CN108960054A (zh) 一种基于图文识别的通关数据生成系统及方法
JP3879810B2 (ja) 読取支援装置
CN112149679A (zh) 一种基于ocr文字识别提取公文要素的方法及装置
JP2017021654A (ja) 文書管理サーバ及びシステム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant