CN108153717A - 一种科技期刊论文word文档的结构化处理方法及装置 - Google Patents

一种科技期刊论文word文档的结构化处理方法及装置 Download PDF

Info

Publication number
CN108153717A
CN108153717A CN201711475050.5A CN201711475050A CN108153717A CN 108153717 A CN108153717 A CN 108153717A CN 201711475050 A CN201711475050 A CN 201711475050A CN 108153717 A CN108153717 A CN 108153717A
Authority
CN
China
Prior art keywords
document
data block
word
word document
papers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711475050.5A
Other languages
English (en)
Inventor
王盛华
周祖胜
尹真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Renhe Huizhi Information Technology Co Ltd
Original Assignee
Beijing Renhe Huizhi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Renhe Huizhi Information Technology Co Ltd filed Critical Beijing Renhe Huizhi Information Technology Co Ltd
Priority to CN201711475050.5A priority Critical patent/CN108153717A/zh
Publication of CN108153717A publication Critical patent/CN108153717A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Abstract

本申请文档处理技术领域,尤其涉及一种科技期刊论文word文档的结构化处理方法及装置,包括:根据待处理的科技期刊论文word文档的文档格式,提取word文档中文档元素;不同文档元素的元素属性不同;根据提取的文档元素的元素属性,将word文档划分为至少一个级别的数据块;其中,每一个级别对应至少一个数据块,且同一级别的数据块之间的元素属性不同;根据每一个数据块的内容信息以及预设的元素属性规则,将划分的至少一个级别的数据块转化为可扩展标记语言XML数据。本申请实现了word文档的结构化处理,减少了用户在使用过程中的工作量,提高了查找效率,便于读者基于结构化的数据与作者进行在线交互。

Description

一种科技期刊论文word文档的结构化处理方法及装置
技术领域
本申请涉及文档处理技术领域,具体而言,涉及一种科技期刊论文word文档的结构化处理方法及装置。
背景技术
随着互联网的快速发展,基于互联网的电子阅读越来越被大众所应用。目前,高校等在将科技期刊论文word文档投稿给电子出版机构后,电子出版机构会将这些科技期刊论文word文档以doc的格式或者docx的格式存储在服务器的数据库中,并为存储的这些科技期刊论文的word文档配置名称关键词,用户可以基于每个科技期刊论文的名称关键词来查询及浏览对应的科技期刊论文的word文档。
基于现有技术的上述存储方式,用户通过名称关键词搜索得到的是整个科技期刊论文的word文档,用户要想基于任意一个word文档中的目标图形或者目标段落与作者进行在线交流,就需要用户浏览整个word文档,并从整个word文档中找到目标图形或者目标段落,这就增加了用户的工作量,降低了用户的查找效率。
发明内容
有鉴于此,本申请实施例的目的在于提供一种科技期刊论文word文档的结构化处理方法及装置,通过将word文档划分为至少一个级别的数据块,并将划分的数据块转化为XML数据,实现了word文档的结构化处理,减少了用户在使用时的工作量,提高了用户的查找效率,便于用户使用。
第一方面,本申请实施例提供了一种科技期刊论文word文档的结构化处理方法,包括:
根据待处理的科技期刊论文word文档的文档格式,提取所述word文档中文档元素;其中,不同文档元素的元素属性不同;
根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块;其中,每一个级别对应至少一个数据块,且同一级别的所述数据块之间的元素属性不同;
根据每一个数据块的内容信息以及预设的元素属性规则,将划分的至少一个级别的数据块转化为XML数据。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述根据待处理的科技期刊论文word文档的文档格式,提取所述word文档中文档元素,包括:
若确定所述待处理的科技期刊论文word文档的文档格式为doc格式,则根据预设的doc格式的文件结构模版提取所述word文档中的文档元素;
若确定所述待处理的科技期刊论文word文档的文档格式为docx格式,则根据预设的docx格式的文件结构模版提取所述word文档中的文档元素。
结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述元素属性包括:元素类型和元素位置;所述根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块,包括:
根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中获取图形元素;
根据所述图形元素的元素位置以及预设图形属性规则,从提取的除所述图形元素之外的剩余文档元素中获取与各个位置的图形元素相关联的图形标签元素;其中,所述图形元素以及所述图形元素相关联的图形标签元素组成图形数据块。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述元素属性包括:元素类型和元素位置;所述根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块,包括:
根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中获取表格元素;
根据所述表格元素的元素位置以及预设表格属性规则,从提取的除所述表格元素之外的剩余文档元素中获取与各个位置的表格元素相关联的表格标签元素;其中,所述表格元素以及所述表格元素相关联的表格标签元素组成表格数据块。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述元素属性包括:元素类型和元素位置;所述根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块,包括:
根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中的公式元素;
根据所述公式元素的元素位置以及预设公式属性规则,从提取的除所述公式元素之外的剩余文档元素中获取与各个位置的公式元素相关联的公式标签元素;其中,所述公式元素以及所述公式元素相关联的公式标签元素组成公式数据块。
结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述元素属性包括:元素类型和元素位置;所述根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块,包括:
根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中获取文本元素;
根据所述文本元素和预设的第一级别文本属性规则,将所述word文档划分为多个第一级别文本数据块;其中,所述第一级别文本数据块包括为:前置文本数据块、主体文本数据块和后置文本数据块;
根据每一个所述第一级别文本数据块对应的预设子级别文本属性规则,分别对每一个所述第一级别文本数据块进行分级处理,得到每一个所述第一级别文本数据块对应的子级别文本数据块。
结合第一方面、第一方面的第一种可能的实施方式至第一方面的第五种可能的实施方式中任一种可能的实施方式,本申请实施例提供了第一方面的第六种可能的实施方式,其中,所述根据每一个数据块的内容信息以及预设的元素属性规则,将划分的至少一个级别的数据块转化为XML数据之后,还包括:
接收来自用户端的查询请求,所述查询请求中携带有查询关键字;
根据所述查询请求携带的查询关键字,从预存的XML数据块中搜索包括所述查询关键字的数据块,将查询的所述数据块发送给所述用户端,以便所述用户端显示所述数据块。
第二方面,本申请实施例还提供了一种科技期刊论文word文档的结构化处理装置,包括:
提取模块,用于根据待处理的科技期刊论文word文档的文档格式,提取所述word文档中文档元素;其中,不同文档元素的元素属性不同;
划分模块,用于根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块;其中,每一个级别对应至少一个数据块,且同一级别的所述数据块之间的元素属性不同;
存储模块,用于根据每一个数据块的内容信息以及预设的元素属性规则,将划分的至少一个级别的数据块转化为XML数据。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述提取模块,具体用于:
若确定所述待处理的科技期刊论文word文档的文档格式为doc格式,则根据预设的doc格式的文件结构模版提取所述word文档中的文档元素;
若确定所述待处理的科技期刊论文word文档的文档格式为docx格式,则根据预设的docx格式的文件结构模版提取所述word文档中的文档元素。
结合第二方面,本申请实施例提供了第二方面的第二种可能的实施方式,其中,所述划分模块,具体用于:
根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中获取图形元素;
根据所述图形元素的元素位置以及预设图形属性规则,从提取的除所述图形元素之外的剩余文档元素中获取与各个位置的图形元素相关联的图形标签元素;其中,所述图形元素以及所述图形元素相关联的图形标签元素组成图形数据块。
本申请实施例提供的一种科技期刊论文word文档的结构化处理方法及装置,通过将word文档划分为至少一个级别的数据块,并将划分的至少一个级别的数据块转化为XML数据,实现了word文档的结构化处理,这样,用户在使用时,能够通过关键词精确定位到关键词匹配的数据块,而无需浏览整个word文档,减少了用户在使用时的工作量,提高了用户的查找效率,便于用户使用。
进一步的,本申请实施例提供的一种科技期刊论文word文档的结构化处理方法及装置,能够提高读者、科研人员精准阅读、引用的效率;转换为标准的XML格式数据,便于读者基于结构化的数据(章、节、段落、图、表、公式等)与作者进行在线交互。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种科技期刊论文word文档的结构化处理方法的流程图。
图2示出了本申请实施例所提供的另一种科技期刊论文word文档的结构化处理方法的流程图。
图3示出了本申请实施例所提供的另一种科技期刊论文word文档的结构化处理方法的流程图。
图4示出了本申请实施例所提供的另一种科技期刊论文word文档的结构化处理方法的流程图。
图5示出了本申请实施例所提供的另一种科技期刊论文word文档的结构化处理方法的流程图。
图6示出了本申请实施例所提供的另一种科技期刊论文word文档的结构化处理方法的流程图。
图7示出了本申请实施例所提供的另一种科技期刊论文word文档的结构化处理方法的应用场景示意图。
图8示出了从word论文中提取出素材文件的示意图。
图9示出了本申请实施例所提供的另一种科技期刊论文word文档的结构化处理装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有技术的word文件是以doc的格式或者docx的格式存储在服务器的数据库中,用户通过名称关键词搜索得到的是整个科技期刊论文的word文档,用户要想基于任意一个word文档中的目标图形或者目标段落与作者进行在线交流,就需要用户浏览整个word文档,并从整个word文档中找到目标图形或者目标段落,这就增加了用户的工作量,降低了用户的查找效率。基于此,本申请实施例提供了一种科技期刊论文word文档的结构化处理方法及装置,能够将word文档的文档格式转换为可扩展标记语言(Extensible MarkupLanguage,XML)格式,使word文档结构化处理更加标准化和精确化,推广性强且能够基于搜索关键词精确定位到搜索关键词所在的数据块,下面通过实施例进行描述。
参考图1,本申请实施例提供了一种科技期刊论文word文档的结构化处理方法,包括:
S101、根据待处理的科技期刊论文word文档的文档格式,提取所述word文档中文档元素;其中,不同文档元素的元素属性不同。
本申请实施例中,科技期刊论文word文档的文档格式包括两种,一种为doc格式,另一种为docx格式。具体实施方式中,doc格式与docx格式的文件结构不同,本申请实施例中,预先存储有可读的doc格式的文件结构模版以及可读的docx格式的文件结构模版,判断待处理的科技期刊论文word文档的文档格式是与可读的doc格式的文件结构模版相同,还是与可读的docx格式的文件结构模版相同。
若待处理的科技期刊论文word文档的文档格式与可读的doc格式的文件结构模版相同,则确定所述word文档的文档格式为doc格式,则根据预设的doc格式的文件结构模版提取所述word文档中的文档元素;
若待处理的科技期刊论文word文档的文档格式与可读的doc格式的文件结构模版相同,则确定所述word文档的文档格式为docx格式,则根据预设的docx格式的文件结构模版提取所述word文档中的文档元素。
其中,word文档中不同的文档元素之间具有不同的元素属性,所述的元素属性可以包括:元素类型和元素位置;若元素类型为文本元素,元素属性还可以为:文字内容、文字颜色、字体大小和字号大小等。若元素类型为图形元素,元素属性还包括:图形大小、图形颜色、图形形状等。若元素类型为表格元素,元素属性还包括:行列数量、跨行跨列信息(如第一列的第一行和第二行的元素内容相同)、表格中每个单元格的元素内容,该元素内容包括元素类型。若元素类型为公式元素,元素属性还包括:公式内容、公式大小、公式格式等。
S102、根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块;其中,每一个级别对应至少一个数据块,且同一级别的所述数据块之间的元素属性不同。
本申请实施例中,根据提取的word文档中文档元素的元素类型和元素位置,将word文档划分为至少一个级别的数据块;其中,划分的同一个级别的数据块为多个,且同一级别的所述数据块之间的数据块之间的元素属性不同。这里,数据块不同,数据块之间的元素属性也不同。
具体实施方式中,将word文档按照文本元素、图形元素、表格元素和公式元素划分为文本数据块、图形数据块、表格数据块和公式数据块。进一步的,将文本数据块划分为前置数据块(即论文元数据部分,具体为摘要部分)、主体数据块(即正文部分)和后置数据块(即参考文献部分);在进一步,将前置数据块划分为:标题(此处的标题指的是整个文档的标题)、摘要、作者、单位、基金和关键词等。将主体数据块划分为:章、节和段落。将后置数据块在细分出每一条参考文献的中英文,并对每一条文献再进行进一步碎片化。
S103、根据每一个数据块的内容信息以及预设的元素属性规则,将划分的至少一个级别的数据块转化为XML数据。
本申请实施例中,预先存储有可扩展标记语言XML格式库,其包括数据块标签信息以及XML标记语言。
对于划分得到的每一个数据块,根据该数据块携带的标签信息从XML格式库中查找匹配的XML标记语言,并通过查找的XML标记语言存储该数据块,当完成所有数据块的存储,即实现将将划分数据块转换为XML格式。
本申请实施例提供的一种科技期刊论文word文档的结构化处理方法,通过将word文档划分为至少一个级别的数据块,并将划分的至少一个级别的数据块转化为XML数据,实现了word文档的结构化处理,这样,用户在使用时,能够通过关键词精确定位到关键词匹配的数据块,而无需浏览整个word文档,减少了用户在使用时的工作量,提高了用户的查找效率,便于用户使用。
进一步的,参考图2,本申请实施例提供的科技期刊论文word文档的结构化处理方法,所述元素属性包括:元素类型和元素位置;所述根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块,包括:
S201、根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中获取图形元素。
本申请实施例中,利用图片处理工具从提取的文档元素中识别图形元素(这些图形元素包括在word文档中绘制的图、Visio图及在word文档中插入的图),并将识别的图形元素分离出来。
S202、根据所述图形元素的元素位置以及预设图形属性规则,从提取的除所述图形元素之外的剩余文档元素中获取与各个位置的图形元素相关联的图形标签元素;其中,所述图形元素以及所述图形元素相关联的图形标签元素组成图形数据块。
本申请实施例中,图形标签元素包括:图题元素和图注元素。具体实施方式中,图题即图形的标题,图注即图形的注释。
这里,每个文档元素的元素属性包括元素位置,因此,在分离出图形元素之后,也获知图形元素的元素位置。这里,预设图形属性规则包括:图题和图注位于图形元素之后、图注位于图题之后、图题的段落格式居中、图题图注中的元素类型、图题图注的字体小于正文字体、图题的格式为“文字‘图’+阿拉伯数字+空格+具体图题内容”等。
基于上述图形元素的元素位置以及上述预设图形属性规则,从提取的除所述图形元素之外的剩余文档元素中获取与各个位置的图形元素相匹配的图题元素和图注元素。
对于获取的图形元素和图形标签元素,根据所述图形标签元素对应的内容信息以及所述预设图形属性规则,将所述图形文档元素和所述图形标签文档元素转换为XML数据。具体为:根据该图形标签元素携带的标签信息从XML格式库中查找与所述标签信息匹配的XML标记语言,并通过查找的XML标记语言存储该图形文档元素和图像标签文档元素。
进一步的,参考图3、图7和图8,本申请实施例提供的科技期刊论文word文档的结构化处理方法,所述元素属性包括:元素类型和元素位置;所述根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块,包括:
S301、根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中获取表格元素。
这里,利用运用表格处理工具,计算word文档中的行列信息和文本信息,包括跨行跨列的情况,然后采用超级文本标记语言(HyperText Markup Language,html)中Table控件还原表格原结构,同时单独分离表格中包含的公式、图形这些文档元素信息。
S302、根据所述表格元素的元素位置以及预设表格属性规则,从提取的除所述表格元素之外的剩余文档元素中获取与各个位置的表格元素相关联的表格标签元素;其中,所述表格元素以及所述表格元素相关联的表格标签元素组成表格数据块。本申请实施例中,表格标签包括:表序号、表题元素和表注元素。这里,表序号即表格的序号、表题即表格的标题,表注即表格中相关内容的注释。
本申请实施例中,所述表格元素包括:行列信息和文本信息。每个文档元素的元素属性包括元素位置,因此,在分离出表格元素之后,也获知表格元素的元素位置。这里,预设表格属性规则包括:表题和表序号位于表格元素之前、表序号位于表题之前等。
基于上述表格元素的文档元素位置以及上述预设表格属性规则,从提取的除所述表格元素之外的剩余文档元素中获取与各个位置的表格元素相匹配的表题元素、表序号元素和表注元素。
这里,对于获取的表格元素和表格标签元素,根据该表格标签元素携带的标签信息从XML格式库中查找匹配的XML标记语言,并通过查找的XML标记语言存储该表格元素和表格标签元素。
进一步的,参考图4、图7和图8,本申请实施例提供的科技期刊论文word文档的结构化处理方法,所述元素属性包括:元素类型和元素位置;所述根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块,包括:
S401、根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中的公式元素。
这里,利用MathType工具将公式元素(即公式元信息)提取出来转换为数学标记语言(Mathematical Markup Language,MathML),其中,MathML格式可被编辑。为了更好的保存公式元素,进一步可以将MathML格式保留wmf(图元文件)格式文件(其中,wmf不可被编辑)。
S402、根据所述公式元素的元素位置以及预设公式属性规则,从提取的除所述公式元素之外的剩余文档元素中获取与各个位置的公式元素相关联的公式标签元素;其中,所述公式元素以及所述公式元素相关联的公式标签元素组成公式数据块。本申请实施例中,公式标签元素包括:公式序号元素和公式注释元素。
这里,首先将公式元素匹配到相应的位置,然后进一步根据预设公式属性规则获取与公式元素相关联的公式序号元素和公式注释元素等。
这里,预设公式属性规则包括:公式序号元素位于公式元素后面且公式序号元素的格式为“位于括号中阿拉伯数字”等,公式注释元素位于公式序号元素等。
对于获取的公式元素和公式标签元素,根据该公式标签元素携带的标签信息从XML格式库中查找匹配的XML标记语言,并通过查找的XML标记语言存储该公式元素和公式标签元素。
进一步的,参考图5、图7和图8,本申请实施例提供的科技期刊论文word文档的结构化处理方法,所述元素属性包括:元素类型和元素位置;所述根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块,包括:
S501、根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中获取文本元素。
这里,根据从word文档中提取的文档元素的文档元素类型,从提取的文档元素中查找文本文档元素,并分离查找的文本文档元素。
S502、根据所述文本元素和预设的第一级别文本属性规则,将所述word文档划分为多个第一级别文本数据块;其中,所述第一级别文本数据块包括为:前置文本数据块、主体文本数据块和后置文本数据块。
这里,文本信息的处理,分为四个小阶段:第一个阶段是将论文整体拆分为前置数据块(即元数据,包括论文题目和摘要)、主体数据块(即正文部分)和后置数据块(即参考文献)三大板块。这三个板块为第一级别数据块。
S503、根据每一个所述第一级别文本数据块对应的预设子级别文本属性规则,分别对每一个所述第一级别文本数据块进行分级处理,得到每一个所述第一级别文本数据块对应的子级别文本数据块。
这里,第二个阶段是将元数据进行细拆分,这个阶段的处理需要有大量的数据训练模式规则,使得匹配更为精准,包括中、英文标题,作者及作者单位,中英文摘要、关键词、基金等。第三个阶段是将正文整体章节化,但有的word中的章节写法不规范,所以也需要用到相关模式去匹配;第四个阶段是将参考文献碎片化,在细分出每一条参考文献的中英文之后,对每一条文献再进行进一步碎片化,这个过程也需要大量数据进行模式训练及拆分规则总结。
本申请实施例提供的科技期刊论文word文档的结构化处理方法,将word文档中拆分的文本、公式、图表、公式的数据,采用模板技术规范输出符合JATS1.1标准格式XML,适用性广。
进一步的,参考图6,在将划分的至少一个级别的数据块转换为XML格式之后,提取出每个数据块中的关键词进行存储,目的是为了方便用户端基于查询关键词搜索到每个论文中包括查询关键词的数据块。具体的,步骤103,所述根据每一个数据块的内容信息以及预设的元素属性规则,将划分的至少一个级别的数据块转化为XML数据之后,还包括:
S601、接收来自用户端的查询请求,所述查询请求中携带有查询关键字。
具体实施方式中,用户在论文网站中输入查询关键字,并点击查询,用户端设备即向服务器发送携带有查询关键字的查询请求。
S602、根据所述查询请求携带的查询关键字,从预存的XML数据块中搜索包括所述查询关键字的数据块,将查询的所述数据块发送给所述用户端,以便所述用户端显示所述数据块。
这里,服务器根据用户端设备发送的查询请求,从数据库中存储的XML数据块中查询与所述查询请求携带的查询关键字匹配的数据块,并显示该数据块。该数据块是根据JATS1.1标准格式所划分出来的,能够精确定位用户查找的目标图形或者目标段落,减少了用户在使用时的工作量,提高了用户的查找效率,便于用户使用。
本申请实施例提供的一种科技期刊论文word文档的结构化处理方法,通过将word文档划分为至少一个级别的数据块,并将划分的至少一个级别的数据块转化为XML数据,实现了word文档的结构化处理,这样,用户在使用时,能够通过关键词精确定位到关键词匹配的数据块,而无需浏览整个word文档,减少了用户在使用时的工作量,提高了用户的查找效率,便于用户使用。
进一步的,本申请实施例提供的一种科技期刊论文word文档的结构化处理方法,能够提高读者、科研人员精准阅读、引用的效率;转换为标准的XML格式数据,便于读者基于结构化的数据(章、节、段落、图、表、公式等)与作者进行在线交互。
本申请实施例提供了一种科技期刊论文word文档的结构化处理装置,参考图9,包括:
提取模块10,用于根据待处理的科技期刊论文word文档的文档格式,提取所述word文档中文档元素;其中,不同文档元素的元素属性不同;
划分模块20,用于根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块;其中,每一个级别对应至少一个数据块,且同一级别的所述数据块之间的元素属性不同;
存储模块30,用于根据每一个数据块的内容信息以及预设的元素属性规则,将划分的至少一个级别的数据块转化为XML数据。
进一步的,提取模块10,具体用于:
若确定所述待处理的科技期刊论文word文档的文档格式为doc格式,则根据预设的doc格式的文件结构模版提取所述word文档中的文档元素;
若确定所述待处理的科技期刊论文word文档的文档格式为docx格式,则根据预设的docx格式的文件结构模版提取所述word文档中的文档元素。
进一步的,所述元素属性包括:元素类型和元素位置;划分模块20,具体用于:
根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中获取图形元素;
根据所述图形元素的元素位置以及预设图形属性规则,从提取的除所述图形元素之外的剩余文档元素中获取与各个位置的图形元素相关联的图形标签元素;其中,所述图形元素以及所述图形元素相关联的图形标签元素组成图形数据块。
进一步的,所述元素属性包括:元素类型和元素位置;划分模块20,具体用于:
根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中获取表格元素;
根据所述表格元素的元素位置以及预设表格属性规则,从提取的除所述表格元素之外的剩余文档元素中获取与各个位置的表格元素相关联的表格标签元素;其中,所述表格元素以及所述表格元素相关联的表格标签元素组成表格数据块。
进一步的,所述元素属性包括:元素类型和元素位置;划分模块20,具体用于:
根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中的公式元素;
根据所述公式元素的元素位置以及预设公式属性规则,从提取的除所述公式元素之外的剩余文档元素中获取与各个位置的公式元素相关联的公式标签元素;其中,所述公式元素以及所述公式元素相关联的公式标签元素组成公式数据块。
进一步的,所述元素属性包括:元素类型和元素位置;划分模块20,具体用于:
根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中获取文本元素;
根据所述文本元素和预设的第一级别文本属性规则,将所述word文档划分为多个第一级别文本数据块;其中,所述第一级别文本数据块包括为:前置文本数据块、主体文本数据块和后置文本数据块;
根据每一个所述第一级别文本数据块对应的预设子级别文本属性规则,分别对每一个所述第一级别文本数据块进行分级处理,得到每一个所述第一级别文本数据块对应的子级别文本数据块。
进一步的,所述装置还包括:
接收模块,用于接收来自用户端的查询请求,所述查询请求中携带有查询关键字;
搜索模块,用于根据所述查询请求携带的查询关键字,从预存的XML数据块中搜索包括所述查询关键字的数据块;
发送模块,用于,将查询的所述数据块发送给所述用户端,以便所述用户端显示所述数据块。
本申请实施例提供的一种科技期刊论文word文档的结构化处理装置,通过将word文档划分为至少一个级别的数据块,并将划分的至少一个级别的数据块转化为XML数据,实现了word文档的结构化处理,这样,用户在使用时,能够通过关键词精确定位到关键词匹配的数据块,而无需浏览整个word文档,减少了用户在使用时的工作量,提高了用户的查找效率,便于用户使用。
进一步的,本申请实施例提供的一种科技期刊论文word文档的结构化处理装置,能够提高读者、科研人员精准阅读、引用的效率;转换为标准的XML格式数据,便于读者基于结构化的数据(章、节、段落、图、表、公式等)与作者进行在线交互。
本申请实施例所提供的科技期刊论文word文档的结构化处理的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种科技期刊论文word文档的结构化处理方法,其特征在于,包括:
根据待处理的科技期刊论文word文档的文档格式,提取所述word文档中文档元素;其中,不同文档元素的元素属性不同;
根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块;其中,每一个级别对应至少一个数据块,且同一级别的所述数据块之间的元素属性不同;
根据每一个数据块的内容信息以及预设的元素属性规则,将划分的至少一个级别的数据块转化为XML数据。
2.根据权利要求1所述的科技期刊论文word文档的结构化处理方法,其特征在于,所述根据待处理的科技期刊论文word文档的文档格式,提取所述word文档中文档元素,包括:
若确定所述待处理的科技期刊论文word文档的文档格式为doc格式,则根据预设的doc格式的文件结构模版提取所述word文档中的文档元素;
若确定所述待处理的科技期刊论文word文档的文档格式为docx格式,则根据预设的docx格式的文件结构模版提取所述word文档中的文档元素。
3.根据权利要求1所述的科技期刊论文word文档的结构化处理方法,其特征在于,所述元素属性包括:元素类型和元素位置;所述根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块,包括:
根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中获取图形元素;
根据所述图形元素的元素位置以及预设图形属性规则,从提取的除所述图形元素之外的剩余文档元素中获取与各个位置的图形元素相关联的图形标签元素;其中,所述图形元素以及所述图形元素相关联的图形标签元素组成图形数据块。
4.根据权利要求1所述的科技期刊论文word文档的结构化处理方法,其特征在于,所述元素属性包括:元素类型和元素位置;所述根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块,包括:
根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中获取表格元素;
根据所述表格元素的元素位置以及预设表格属性规则,从提取的除所述表格元素之外的剩余文档元素中获取与各个位置的表格元素相关联的表格标签元素;其中,所述表格元素以及所述表格元素相关联的表格标签元素组成表格数据块。
5.根据权利要求1所述的科技期刊论文word文档的结构化处理方法,其特征在于,所述元素属性包括:元素类型和元素位置;所述根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块,包括:
根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中的公式元素;
根据所述公式元素的元素位置以及预设公式属性规则,从提取的除所述公式元素之外的剩余文档元素中获取与各个位置的公式元素相关联的公式标签元素;其中,所述公式元素以及所述公式元素相关联的公式标签元素组成公式数据块。
6.根据权利要求1所述的科技期刊论文word文档的结构化处理方法,其特征在于,所述元素属性包括:元素类型和元素位置;所述根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块,包括:
根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中获取文本元素;
根据所述文本元素和预设的第一级别文本属性规则,将所述word文档划分为多个第一级别文本数据块;其中,所述第一级别文本数据块包括为:前置文本数据块、主体文本数据块和后置文本数据块;
根据每一个所述第一级别文本数据块对应的预设子级别文本属性规则,分别对每一个所述第一级别文本数据块进行分级处理,得到每一个所述第一级别文本数据块对应的子级别文本数据块。
7.根据权利要求1-6任一项所述的科技期刊论文word文档的结构化处理方法,其特征在于,所述根据每一个数据块的内容信息以及预设的元素属性规则,将划分的至少一个级别的数据块转化为XML数据之后,还包括:
接收来自用户端的查询请求,所述查询请求中携带有查询关键字;
根据所述查询请求携带的查询关键字,从预存的XML数据块中搜索包括所述查询关键字的数据块,将查询的所述数据块发送给所述用户端,以便所述用户端显示所述数据块。
8.一种科技期刊论文word文档的结构化处理装置,其特征在于,包括:
提取模块,用于根据待处理的科技期刊论文word文档的文档格式,提取所述word文档中文档元素;其中,不同文档元素的元素属性不同;
划分模块,用于根据提取的所述文档元素的元素属性,将所述word文档划分为至少一个级别的数据块;其中,每一个级别对应至少一个数据块,且同一级别的所述数据块之间的元素属性不同;
存储模块,用于根据每一个数据块的内容信息以及预设的元素属性规则,将划分的至少一个级别的数据块转化为XML数据。
9.根据权利要求8所述的科技期刊论文word文档的结构化处理装置,其特征在于,所述提取模块,具体用于:
若确定所述待处理的科技期刊论文word文档的文档格式为doc格式,则根据预设的doc格式的文件结构模版提取所述word文档中的文档元素;
若确定所述待处理的科技期刊论文word文档的文档格式为docx格式,则根据预设的docx格式的文件结构模版提取所述word文档中的文档元素。
10.根据权利要求8所述的科技期刊论文word文档的结构化处理装置,其特征在于,所述划分模块,具体用于:
根据所述word文档中每个文档元素的元素类型,从提取的所述文档元素中获取图形元素;
根据所述图形元素的元素位置以及预设图形属性规则,从提取的除所述图形元素之外的剩余文档元素中获取与各个位置的图形元素相关联的图形标签元素;其中,所述图形元素以及所述图形元素相关联的图形标签元素组成图形数据块。
CN201711475050.5A 2017-12-29 2017-12-29 一种科技期刊论文word文档的结构化处理方法及装置 Pending CN108153717A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711475050.5A CN108153717A (zh) 2017-12-29 2017-12-29 一种科技期刊论文word文档的结构化处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711475050.5A CN108153717A (zh) 2017-12-29 2017-12-29 一种科技期刊论文word文档的结构化处理方法及装置

Publications (1)

Publication Number Publication Date
CN108153717A true CN108153717A (zh) 2018-06-12

Family

ID=62463893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711475050.5A Pending CN108153717A (zh) 2017-12-29 2017-12-29 一种科技期刊论文word文档的结构化处理方法及装置

Country Status (1)

Country Link
CN (1) CN108153717A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086449A (zh) * 2018-08-21 2018-12-25 同方知网数字出版技术股份有限公司 一种基于xml碎片化技术进行文献学习的方法
CN109558379A (zh) * 2018-12-03 2019-04-02 北京中网易企秀科技有限公司 一种数据审核方法及装置
CN109558381A (zh) * 2018-12-03 2019-04-02 北京中网易企秀科技有限公司 一种数据处理方法及装置
CN109582934A (zh) * 2018-12-04 2019-04-05 万兴科技股份有限公司 版式文档的转换方法及装置
CN109783787A (zh) * 2018-12-29 2019-05-21 远光软件股份有限公司 一种结构化文档的生成方法、装置及存储介质
CN109800405A (zh) * 2019-01-24 2019-05-24 北京仁和汇智信息技术有限公司 一种科技论文文档在线校改处理方法及装置
CN110609990A (zh) * 2019-09-06 2019-12-24 趋新科技(北京)有限公司 一种基于人工智能的结构化数据文本编辑方法及系统
CN110781672A (zh) * 2019-10-30 2020-02-11 北京爱学习博乐教育科技有限公司 基于机器智能的题库生产方法及系统
CN111126006A (zh) * 2019-12-25 2020-05-08 小船出海教育科技(北京)有限公司 导出带MathType公式的Word文档方法、装置、电子设备及存储介质
CN111274768A (zh) * 2018-12-04 2020-06-12 北大方正集团有限公司 期刊论文转换为xml数据的方法、装置、设备及存储介质
CN111859863A (zh) * 2020-06-03 2020-10-30 远光软件股份有限公司 一种文档的结构转换方法、装置、存储介质及电子设备
CN112528602A (zh) * 2020-07-28 2021-03-19 浙江明度智控科技有限公司 一种医药文档结构化内容分析方法、系统和存储介质
CN112528593A (zh) * 2020-12-11 2021-03-19 北京百度网讯科技有限公司 文档处理方法、装置、电子设备及存储介质
CN112818206A (zh) * 2021-02-25 2021-05-18 平安消费金融有限公司 一种数据分类方法、装置、终端及存储介质
CN113297425A (zh) * 2021-06-22 2021-08-24 超凡知识产权服务股份有限公司 文档转换方法、装置、服务器及存储介质
CN113657088A (zh) * 2021-08-16 2021-11-16 北京百度网讯科技有限公司 接口文档解析方法、装置、电子设备以及存储介质
CN116702712A (zh) * 2023-08-09 2023-09-05 北京凯锐远景科技有限公司 一种Word任务书转换方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103605A (zh) * 2009-12-18 2011-06-22 北大方正集团有限公司 一种智能提取文档结构的方法及系统
CN104199975A (zh) * 2014-09-23 2014-12-10 中国南方电网有限责任公司 一种基于可配置的word文档结构化提取方法
CN104331390A (zh) * 2014-11-18 2015-02-04 网易(杭州)网络有限公司 一种筛选文本的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102103605A (zh) * 2009-12-18 2011-06-22 北大方正集团有限公司 一种智能提取文档结构的方法及系统
CN104199975A (zh) * 2014-09-23 2014-12-10 中国南方电网有限责任公司 一种基于可配置的word文档结构化提取方法
CN104331390A (zh) * 2014-11-18 2015-02-04 网易(杭州)网络有限公司 一种筛选文本的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王道明: "科技论文转换为NLM XML格式的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086449A (zh) * 2018-08-21 2018-12-25 同方知网数字出版技术股份有限公司 一种基于xml碎片化技术进行文献学习的方法
CN109558379A (zh) * 2018-12-03 2019-04-02 北京中网易企秀科技有限公司 一种数据审核方法及装置
CN109558381A (zh) * 2018-12-03 2019-04-02 北京中网易企秀科技有限公司 一种数据处理方法及装置
CN111274768A (zh) * 2018-12-04 2020-06-12 北大方正集团有限公司 期刊论文转换为xml数据的方法、装置、设备及存储介质
CN109582934A (zh) * 2018-12-04 2019-04-05 万兴科技股份有限公司 版式文档的转换方法及装置
CN109582934B (zh) * 2018-12-04 2023-02-10 万兴科技股份有限公司 版式文档的转换方法及装置
CN111274768B (zh) * 2018-12-04 2022-02-22 北大方正集团有限公司 期刊论文转换为xml数据的方法、装置、设备及存储介质
CN109783787A (zh) * 2018-12-29 2019-05-21 远光软件股份有限公司 一种结构化文档的生成方法、装置及存储介质
CN109800405A (zh) * 2019-01-24 2019-05-24 北京仁和汇智信息技术有限公司 一种科技论文文档在线校改处理方法及装置
CN110609990B (zh) * 2019-09-06 2023-02-07 趋新科技(北京)有限公司 一种基于人工智能的结构化数据文本编辑方法及系统
CN110609990A (zh) * 2019-09-06 2019-12-24 趋新科技(北京)有限公司 一种基于人工智能的结构化数据文本编辑方法及系统
CN110781672B (zh) * 2019-10-30 2024-01-30 北京爱学习博乐教育科技有限公司 基于机器智能的题库生产方法及系统
CN110781672A (zh) * 2019-10-30 2020-02-11 北京爱学习博乐教育科技有限公司 基于机器智能的题库生产方法及系统
CN111126006A (zh) * 2019-12-25 2020-05-08 小船出海教育科技(北京)有限公司 导出带MathType公式的Word文档方法、装置、电子设备及存储介质
CN111859863A (zh) * 2020-06-03 2020-10-30 远光软件股份有限公司 一种文档的结构转换方法、装置、存储介质及电子设备
CN112528602B (zh) * 2020-07-28 2021-05-04 浙江明度智控科技有限公司 一种医药文档结构化内容分析方法、系统和存储介质
CN112528602A (zh) * 2020-07-28 2021-03-19 浙江明度智控科技有限公司 一种医药文档结构化内容分析方法、系统和存储介质
CN112528593A (zh) * 2020-12-11 2021-03-19 北京百度网讯科技有限公司 文档处理方法、装置、电子设备及存储介质
CN112528593B (zh) * 2020-12-11 2023-09-01 北京百度网讯科技有限公司 文档处理方法、装置、电子设备及存储介质
CN112818206A (zh) * 2021-02-25 2021-05-18 平安消费金融有限公司 一种数据分类方法、装置、终端及存储介质
CN113297425A (zh) * 2021-06-22 2021-08-24 超凡知识产权服务股份有限公司 文档转换方法、装置、服务器及存储介质
CN113297425B (zh) * 2021-06-22 2023-09-12 超凡知识产权服务股份有限公司 文档转换方法、装置、服务器及存储介质
CN113657088A (zh) * 2021-08-16 2021-11-16 北京百度网讯科技有限公司 接口文档解析方法、装置、电子设备以及存储介质
CN116702712A (zh) * 2023-08-09 2023-09-05 北京凯锐远景科技有限公司 一种Word任务书转换方法、装置、电子设备及介质
CN116702712B (zh) * 2023-08-09 2023-10-17 北京凯锐远景科技有限公司 一种Word任务书转换方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
CN108153717A (zh) 一种科技期刊论文word文档的结构化处理方法及装置
CN100517315C (zh) 管理和使用计算机生成的文档中的数据
US20080115057A1 (en) High precision data extraction
US9613003B1 (en) Identifying topics in a digital work
US10417267B2 (en) Information processing terminal and method, and information management apparatus and method
US9639518B1 (en) Identifying entities in a digital work
CN101739415A (zh) 一种面向浏览器的网页标注系统
CN108197085A (zh) 一种投稿审稿方法和装置
CN107870915B (zh) 对搜索结果的指示
JPWO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
JP5103051B2 (ja) 情報処理システム及び情報処理方法
US20120046937A1 (en) Semantic classification of variable data campaign information
KR20040104060A (ko) 블로그 컨텐츠의 키워드 분석을 통한 관련 사이트 광고 및링킹 방법
US20110202825A1 (en) System and Method of Annotating Non-modifiable Documents and Managing Annotations
WO2008041367A1 (fr) Dispositif de recherche de document, procédé de recherche de document et programme de recherche de document
Hillesund Reading Books in the Digital Age subsequent to Amazon, Google and the long tail
Liu et al. Main content extraction from web pages based on node characteristics
Kucher et al. Analysis of VINCI 2009-2017 proceedings
CN104572874A (zh) 一种网页信息的抽取方法及装置
CN101685453B (zh) 交互式评注设备,交互式评注系统及其方法
An et al. Neural ctr prediction for native ad
Dutta et al. Structural analysis and regular expressions based noise elimination from web pages for web content mining
CN104462151A (zh) 评估网页发布时间的方法和相关装置
Yamada et al. Mathematical expression retrieval in PDFs from the Web using mathematical term queries
Rajan et al. Architecture of a Semantic WordCloud Visualization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180612