CN111191079A - 一种文档内容获取方法、装置、设备及存储介质 - Google Patents

一种文档内容获取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111191079A
CN111191079A CN201911359206.2A CN201911359206A CN111191079A CN 111191079 A CN111191079 A CN 111191079A CN 201911359206 A CN201911359206 A CN 201911359206A CN 111191079 A CN111191079 A CN 111191079A
Authority
CN
China
Prior art keywords
document
content
target
level
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911359206.2A
Other languages
English (en)
Other versions
CN111191079B (zh
Inventor
马耿彬
郑椿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN201911359206.2A priority Critical patent/CN111191079B/zh
Priority claimed from CN201911359206.2A external-priority patent/CN111191079B/zh
Publication of CN111191079A publication Critical patent/CN111191079A/zh
Application granted granted Critical
Publication of CN111191079B publication Critical patent/CN111191079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing

Abstract

本发明公开了一种文档内容获取方法、装置、设备及存储介质,所述方法包括:将目标格式文档转换成HTML格式文档,HTML格式文档包含内容位置的位置标识;根据位置标识对转换后的文档内容进行分割,得到分割后的多个第一文档;存储多个第一文档及其内容在目标格式文档中的布局位置;当接收用于展示目标第一文档的选择指令时,根据选择指令及其存储信息查找并输出目标第一文档的内容及其对应的布局位置。本发明中,通过位置标识对目标格式文档的内容进行分割,然后按不同的位置标识对分割后的内容进行存储,用户能一并读取到文字、图片、表格等不同形式的内容,且能对不同形式的内容进行选择性读取,增加了文档内容获取的适用场景,提高了办公的便捷性。

Description

一种文档内容获取方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种文档内容获取方法、装置、设备及存储介质。
背景技术
随着计算机技术的发展以及办公软件得到普及和应用,办公软件的文档处理功能在我们的日常办公中发挥着重要的作用。当前,具有文档处理功能的办公软件如word、PDF、wps等等。其中,以word为例,word作为microsoft office软件的重要组成部分,在全世界范围内得到普及和应用,word文档通常可以包含文字、表格、图片不同形式的内容。在某些实际应用场景中,需要读取Word文档中的内容。
目前的技术,只能实现单独读取word文档的文字内容,或是单独读取word文档的表格内容,或是单独读取word文档的图片内容;不能实现同时读取Word文档中不同形式的内容。例如,根据不同的场景,需要读取的内容可能有以下两种:第一种,具有关联关系的文字内容和表格内容,如文字内容是表格内容的说明,第二种,具有关联关系的表格内容和图片内容,如表格内容是图片内容的展示数据,而目前的技术还无法解决这些场景的对文档内容获取的需求,文档中不同形式的内容如何一并读取、选择性读取成为亟待解决的问题。
发明内容
本发明实施例提供一种文档内容获取方法、装置、计算机设备及存储介质,以解决现有技术中文档中不同形式的内容不可一并读取、选择性读取问题。
一种文档内容获取方法,包括:
将目标格式文档转换成HTML格式文档,所述HTML格式文档包含内容位置的位置标识;
根据所述位置标识对所述HTML格式文档的文档内容进行分割,得到分割之后的多个第一文档;
存储所述多个第一文档及所述多个第一文档的文档内容在所述目标格式文档中的布局位置;
当接收到用于展示目标第一文档的选择指令时,根据所述选择指令确定所述目标第一文档的内容的存储信息,及所述目标第一文档在所述目标格式文档中的布局位置的存储信息;
根据所述存储信息查询所述目标第一文档的内容及所述目标第一文档对应的布局位置,并输出所述目标第一文档及所述目标第一文档对应的布局位置。
一种文档内容获取装置,包括:
文档转换模块,用于将目标格式文档转换成HTML格式文档,所述HTML格式文档包含内容位置的位置标识;
分割模块,用于根据所述位置标识对所述HTML格式文档的内容进行分割,得到分割之后的多个第一文档;
存储模块,用于存储所述多个第一文档及所述多个第一文档的内容在所述目标格式文档中的布局位置;
接收模块,用于接收用于展示目标第一文档的选择指令,以便根据所述选择指令确定所述目标第一文档的内容的存储信息,及所述目标第一文档在所述目标格式文档中的布局位置的存储信息;
输出模块,用于根据所述存储信息查询所述目标第一文档的内容及所述目标第一文档对应的布局位置,并输出所述目标第一文档及所述目标第一文档对应的布局位置。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文档内容获取方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文档内容获取方法的步骤。
上述获取文档内容的方法、装置、计算机设备及存储介质,通过位置标识对目标格式文档的内容进行分割,然后按不同的位置标识对分割后的内容进行存储,用户能一并读取到文字、图片、表格等不同形式的内容,且能对不同形式的内容进行选择性读取,增加了获取文档内容的适用场景,提高了办公的便捷性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中文档内容获取方法的一应用环境示意图;
图2是本发明一实施例中文档内容获取方法的流程图;
图3是本发明一实施例中文档内容获取方法步骤S10的实现流程图;
图4是本发明一实施例中文档内容获取方法步骤S20的实现流程图;
图5是本发明一实施例中文档内容获取装置示意图。
图6是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的文档内容获取方法,可应用在如图1的所示应用环境中,其中,客户终端通过网络与服务端进行通信,用户通过客户端对目标格式文档进行格式转换、分割、存储以及选择展示等操作,并将数据信息上传至服务端。客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本发明实施例提供的文档内容获取方法应用于客户端,如图2所示,提供一种文档内容获取方法,以该方法应用在图1中的客户端为例进行说明,包括如下步骤:
S10:将目标格式文档转换成HTML格式文档,HTML格式文档包含内容位置的位置标识。
在本实施例中,在客户端中通过在线编辑器将目标格式文档转换成HTML格式文档,目标格式可以包括但不限定于word格式、wps格式或PDF等,本实施例中目标格式以word格式为例进行说明。
具体地,接收用户输入的选择指令,根据该选择指令导入word文档,通过在线编辑器的交互界面接收输入的word文档的内容,并根据文本、表格、图片等内容在word文档中的布局位置,将word文档以代码的形式转换为HTML格式文档并进行保存,转换后的文档内容、内容布局位置与word文档保持一致。
例如,在一个应用场景中,在线编辑器响应粘贴指令,在线编辑器接收word文档的文本内容和表格内容,在线编辑器保留word文档中文本内容和表格内容的布局位置,其中,布局位置包括布局及位置,布局指文档中内容的布局样式,例如,居中,首行缩进等等;位置指文档中内容所处的行位置,例如,表格的位置为在第一页文档中的第3行至第6行等,或该表格内容的上一行的文字内容是“表1”等。
S20:根据位置标识对HTML格式文档的文档内容进行分割,得到分割之后的多个第一文档。
根据具体的分割规则对所述HTML格式文档的文档内容进行分割。例如,分割规则如下:
若在一个HTML格式文档中可以包含第一级标识,第二级标识,第三级标识等,第二级标识为第一级标识的子级标识,第三级标识为第二级标识的子级标识;而word文档内容标题包含“章”、“节”、“条”,在转换成HTML格式文档后,“章”、“节”、“条”则是对应的位置标识,其对应的标识为第一级标识,第二级标识,第三级标识。
此时,可以将HTML格式文档中的文档内容分割为多个部分,具体的“章”、“节”、“条”,第一级标识为“章”、第二级标识为“节”、第三级标识为“条”。分割完成后,按照用户的特定要求将某部分内容作为第一文档,例如,将第一“章”分割为一个第一文档,则第一文档包含了“第一章”中所有的“节”及每个“节”中所有“条”的内容,文档包含多个“章”则有多个第一文档。
S30:存储多个第一文档及多个第一文档的文档内容在目标格式文档中的布局位置。
根据位置标识对HTML格式文档的文档内容进行分割,得到分割之后的多个第一文档以及多个第一文档的文档内容在目标格式文档的布局位置之后,将多个第一文档及其对应的布局位置进行存储并发送至数据库。例如,以目标格式文档为word文档为例,以“章”作为第一级标识,将HTML格式文档的文档内容进行分割,分割后包含多个“章”则有多个第一文档,此时,将每一个“章”及每一个“章”的整体内容在word文档中的布局位置进行存储并发送至数据库。
S40:当接收到用于展示目标第一文档的选择指令时,根据所述选择指令确定所述目标第一文档的内容的存储信息,及所述目标第一文档在所述目标格式文档中的布局位置的存储信息。
当接收到用于展示目标第一文档的选择指令时,例如,以目标第一文档为“第一章”为例,用户可以通过鼠标勾选“第一章”的内容,此时生成上述用于展示目标第一文档的选择指令,对于客户端而言,该客户端可以接收用于展示“第一章”的选择指令,在客户端接收到用户展示“第一章”的选择指令后,根据该选择指令,查询该“第一章”的内容,以及该“第一章”的内容在word文档中的布局位置在数据库的存储信息。
S50:根据所述存储信息查询所述目标第一文档的内容及所述目标第一文档对应的布局位置,并输出所述目标第一文档及所述目标第一文档对应的布局位置。
根据查询到的“第一章”的在数据库存储信息调用数据库接口,以根据该存储信息从数据库中获取到该“第一章”的内容,以及该“第一章”在word文档中的布局位置,如“第一章”中所有的“节”及每个“节”中的所有“条”的内容及其对应的布局位置,并输出展示该“第一章”中所有的“节”及每个“节”中的所有“条”的内容及其对应的布局位置。
本实施例中,首先将word文档转换成HTML格式文档,利用HTML格式文档的代码可以按照文档的部分内容进行识别,进一步的将HTML格式文档进行分割并存储,从而使得需要读取文档内容时,可以根据选择的部分内容(如目标第一文档)进行读取,该部分内容可以包含不同形式的内容,如文本形式内容、表格形式内容、图片形式内容,相对于现有技术,不需要根据内容的形式进行读取,如每次只能读取文本内容,或只能读取表格内容,或只能读取图片内容等,本实施例中可以根据选择的部分内容进行读取,而非按照不同的形式的内容进行读取且读取到的内容布局样式与目标格式文档相同,增加了文档内容获取的适用场景,提高了办公的便捷性。
在一实施例中,若目标格式文档的内容包含图片,将目标格式文档转换为HTML格式的过程,如图3所示,步骤S10中,即通过在线编辑器将目标格式文档转换成HTML格式文档,文档中包含图片时,具体包括如下步骤:
S101:通过在线编辑器接收输入的目标格式文档的文本内容和/或表格内容,将目标格式文档的文本内容和/或表格内容转换成HTML格式。
接收用户输入的选择指令,根据该选择指令导入word文档,本实施例中的word文档中的内容以包括文本内容、表格内容和图片内容为例进行说明。通过在线编辑器的交互界面接收输入的word文档的文本内容和表格内容,例如,在一个应用场景中,在线编辑器响应粘贴指令,在线编辑器接收word文档的文本内容和表格内容,在线编辑器保留word文档中文本内容和表格内容的布局位置,其中,布局位置包括布局及位置,布局指文档中内容的布局样式,例如,居中,首行缩进等等;位置指文档中内容所处的行位置,例如,表格的位置为在第一页文档中的第3行至第6行等,或该表格内容的上一行的文字内容是“表1”等。
S102:接收图片插入指令,根据图片插入指令接收图片内容,将图片内容转换成HTML格式。
在线编辑器的指定位置,如鼠标的点击位置,接收图片插入指令,根据所述图片插入指令接收所述图片内容具体可以至少包括两种实现方式:1、接收其他网址的图片链接,根据该图片链接在线获取该图片链接对应的图片;2、从本地存储空间获取图片,可以每次获取一张图片,通过多次获取多张图片;或者,也可以一次获取多张图片,若获取了多张图片,对该多张图片的位置、顺序、大小可以进行调整。一种可能实现方式中,该多张图片的位置、顺序、大小可以根据用户输入的拖拽指令在在线编辑器中进行调整;在另一种可能的实现方式中,可以根据用户输入的调整指令进行调整,例如,用户输入每张图片的位置(如居中),顺序(如从上至下),大小(如22*22)等。在另一种可能的实现方式中,在线编辑器可以根据输入的图片的数量,及非图片内容的整体布局自动调整图片的大小,例如,非图片内容较少,则可以根据整个页面的大小及非图片内容的多少自动调整每张图片的大小。
S103:保存文本内容和/或表格内容,及图片内容在目标格式文档中的布局位置。
在线编辑器中保留文本内容和/或表格内容输入时的布局位置,如,在线编辑器响应粘贴指令,保存在word文档中文本内容和/或表格内容的布局位置,按照word文档中图片的位置,在在线编辑器中插入该图片,在线编辑器中保存该图片的布局位置。
进一步的,比对word文档中的内容的布局位置与在线编辑器中内容的布局位置是否一致。以图片内容为例,通过java解析程序解析word中图片内容的位置,解析结果可以指出该图片内容上一行文字内容,以此等效获取到word文档中图片内容所在的位置;获取在线编辑器中图片的位置,如该图片内容上一行文字内容,比对图片内容在word文档中的位置和在在线编辑器中的位置是否一致,若一致,保存在线编辑器的HTML代码格式,即将该word文档转换成HTML格式,将该HTML格式文档保存到数据库中。
本实施例中,将word文档转换成HTML格式文档的过程进一步细化明确,先将word文档中的文本内容、表格内容转化为HTML格式,然后根据word文档的布局位置单独插入图片内容,利用在线编辑器可对图片可编辑的特性,对图片的输入方式、位置、大小、顺序进行选择和调整,增加了目标格式文档转换为THML格式文档的准确性、便捷性和美观性。
在一实施例中,如图4所示,步骤S20中,即根据位置标识对HTML格式文档的内容进行分割,具体包括如下步骤:
S201:根据起始标识从HTML格式文档的起始位置开始进行查找,该位置标识至少包括起始标识、结束标识和X个第一级标识,X为大于或者等于2的正整数;例如,该起始标识可以为“标题”。
S202:截取起始标识和X个第一级标识中的第一个第一级标识之间的文档内容为一个第一文档。
具体地,可以首选判断该文档中是否包含目录,若包含目录,目录的位置在起始标识和第一个第一级标识之间,例如,在起始标识至第一章之间的内容为“头部内容”,截取该“头部内容”并存储至数据库,将文档中的头部内容替换为空,该头部内容中包含目录;若该文档内容中不包含目录,则存储的“头部内容”不包含目录。本实施例中,该第一文档可以理解为“头部内容”。
S203:截取X个第一级标识中每两个相邻的第一级标识之间的文档内容,得到(X-1)个第一文档;
首先,可以通过第一正则表达式匹配所述HTML格式文档中第一级标识的数量,确定X个第一级标识。例如,通过第一正则表达式匹配“章”的数量为3,即在该文档中包括“第一章”、“第二章”和“第三章”。
截取第M个第一级标识和第(M+1)个第一级标识之间的文档内容,得到所述第一文档,所述(M+1)小于或者等于所述X,所述M取遍(X-1)中的任一数值;
在HTML格式文档中将文档内容替换为空。
具体地,若X以3为例进行说明,则M取值为1和2。例如,遍历“章”的个数,截取第一章和第二章之间的文档内容,得到一个第一文档并存储至数据库,然后,将该第一章和第二章之间的内容替换为空;再截取第二章和第三章之间的文档内容,得到第二个第一文档并存储至数据库,然后,将该第二章和第三章之间的内容替换为空。数据库中保存两个第一文档,需要说明的是,为了方便说明,本实施例中的第一级标识的数量仅是示例性说明,并不造成限定性说明。
S204:截取X个第一级标识中的最后一个第一级标识与结束标识之间的文档内容作为一个第一文档。
如截取最后一个第一级标识(如第三章)与结束标识之间的文档内容,该结束标识可以整篇文档的结束标记,截取第三章的文档内容作为一个第一文档并存储到数据库。
本实施例中,根据位置标识对HTML格式文档的文档内容进行分割,分割目标格式文档为起始位置到第一标识、多个第一标识两两之间、最后一个第一标识到结束标识,细化了文档的分割规则,增加了分割内容的粒度,并利用HTML格式文档的代码按照文档的内容布局位置进行识别、上传和保存,为后面的word文档内容分割提供准确的数据来源。
进一步的,在上述实施例的基础上,增细对文档的分割的粒度,针对每一个第一文档,按照第二级标识,将第一文档进行分割,得到至少两个第二文档。
具体地,该位置标识还包括第二级标识,第二级标识为第一级标识的子级标识,每个第一文档中包括N个第二级标识,N为大于或者等于1的整数;该方法还包括:
针对每个第一文档,按照第二级标识进行分割,截取第L个所述第二级标识和第(L+1)个所述第二级标识之间的第二内容,得到第二文档,(L+1)小于或者等于N,L取遍(N-1)中的任一数值;存储第二文档及第二文档的文档内容在目标格式文档中的布局位置。
通过第二正则表达式匹配每个所述第一文档中所述第二级标识的数量,确定N个第二级标识;例如,针对“第一章”,通过第二正则表达式匹配“第一章”中“节”的数量。
截取第L个第二级标识和第(L+1)个第二级标识之间的文档内容,得到所述第二文档,所述(L+1)小于或者等于所述N,所述L取遍(N-1)中的任一数值;例如,表明该“第一章”中包括“节”,N以3为例进行说明,L取值为1和2,则截取第一节和第二节之间的文档内容,得到一个第二文档并存储至数据库,并将该第一节和第二节之间的文档内容替换为空;然后,截取第二节和第三节之间的文档内容,得到第二个第二文档并存储至数据库,然后,将该第二节和第三节之间的文档内容替换为空。
当接收到用于展示目标第二文档的选择指令时,根据选择指令确定所述目标第二文档的内容的存储信息,及目标第二文档在目标格式文档中的布局位置的存储信息,根据所述目标第二文档的内容和布局位置对应的所述存储信息,查询所述目标第二文档的内容及所述目标第二文档对应的布局位置,并输出所述目标第二文档及所述目标第二文档对应的布局位置。
例如,当客户端接收用于展示“第一章”中“第一节”的选择指令时,根据该选择指令查询该“第一章”中“第一节”的内容在数据库的存储信息,以及对应的word文档中的布局位置在的存储信息,根据存储信息调用数据库接口,从数据库中查找“第一章”中“第一节”的所有“条”的内容及其对应的布局位置,并输出展示“第一章”中“第一节”的所有“条”的内容及其对应的布局位置。
本实施例中,通过第二级标识分割文档中的内容,增细了数据的保存粒度,从而可以以较小的粒度输出数据,适用更多的应用场景,例如,某些应用场景下,用户仅需要查看一个“节”的部分数据,则客户端接收用于选择目标第二文档的选择指令,客户端可以根据该选择指令输出目标第二文档。
进一步的,增细数据的分割粒度,还可以根据第三级标识针对每个第二文档进行分割,得到至少两个第三文档。例如,第三级标识为“条”,通过第四正则表达式匹配每个所述第二文档中所述第三级标识的数量,确定Y个第三级标识;例如,针对“第一节”,通过第四正则表达式匹配“第一节”中“条”的数量。截取第K个第三级标识和第(K+1)个第三级标识之间的文档内容,得到所述第三文档,所述(K+1)小于或者等于所述Y,所述K取遍(Y-1)中的任一数值;例如,Y以3为例进行说明,K取值为1和2,则截取第一条和第二条之间的文档内容,得到一个第三文档并存储至数据库,并将该第一条和第二条之间的内容替换为空;然后,截取第二条和第三条之间的文档内容,得到第二个第三文档并存储至数据库,然后,将该第二条和第三条之间的文档内容替换为空。
本实施例中,通过第三级标识分割存储文档中的内容,增细了数据的分割和保存粒度,从而可以以更小的粒度输出数据,适用更多的应用场景,例如,某些应用场景下,用户仅需要查看一个“条”的部分数据,则客户端接收用于选择目标第三文档的选择指令,则客户端可以根据该选择指令输出目标第三文档。
上述实施例详细说明了若一个“章”中包含“节”的情况下,具体的方法步骤,若“章”中未包含“节”,则所述方法还包括:
若所述N为零,则从Q个条款中的开始条款开始遍历,通过第三正则表达式匹配所述第二文档中每条条款;截取所述Q个条款中的每条条款内容并存储;将所述条款内容替换为空。
进一步的,还可以截取第一级标识及与该第一级标识相邻且隶属于该第一级标识的第二级标识之间的文档内容,将该文档内容存储为第四文档。例如,截取“第一章”及在该“第一章”中的“第一节”之间的文档内容作为该章的概述内容并存储;或者,截取第一级标识及与该第一级标识相邻且隶属于该第一级标识的第三级标识之间的文档内容,将该文档内容存储为第五文档。例如,若该“第一章”中没有“节”,则截取“第一章”与“第一条”之间的内容作为该“章”的概述内容并存储。或者,还可以截取第二级标识及与该第二级标识相邻且隶属于该第二级标识的第三级标识之间的文档内容,将该文档内容存储为第六文档。例如,截取“第一节”及在该“第一节”中的“第一条”之间的文档内容作为该节的概述内容并存储。
在上述实施例的基础上,本申请实施例中,还可以按照不同的粒度分割文档,并将分割之后的文档进行存储,从而使得根据不同的应用场景需要读取文档内容时,可以根据文档分割的不同粒度选择的部分内容(如目标第二文档、目标第三文档、目标第四文档等)进行读取,该部分内容可以包含不同形式的内容,如文本形式内容、表格形式内容和图片内容中的至少一个,相对于现有技术,不需要根据内容的形式进行读取,如每次只能读取文本内容,或只能读取表格内容,或只能读取图片内容等,本实施例中可以根据选择的部分内容进行读取,而非按照不同的形式的内容进行读取,增加了文档内容获取的适用场景,提高了办公的便捷性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文档内容获取装置,该文档内容获取装置与上述实施例中文档内容获取方法一一对应。如图5所示,该文档内容获取装置包括文档转换模块、分割模块、存储模块、接收模块和输出模块。各功能模块详细说明如下:
文档转换模块401,用于将目标格式文档转换成HTML格式文档,HTML格式文档包含内容位置的位置标识;
分割模块402,用于根据位置标识对HTML格式文档的文档内容进行分割,得到分割之后的多个第一文档;
存储模块403,用于存储多个第一文档及多个第一文档的文档内容在所述目标格式文档中的布局位置;
接收模块404,用于接收用于展示目标第一文档的选择指令,以便根据选择指令确定目标第一文档的内容的存储信息,及目标第一文档在目标格式文档中的布局位置的存储信息;
输出模块405,用于根据所述存储信息查询所述目标第一文档的内容及所述目标第一文档对应的布局位置,并输出所述目标第一文档及所述目标第一文档对应的布局位置。
在一实施例中,文档转换模块401具体用于:
通过在线编辑器接收目标格式文档的文本内容和/或表格内容,将文本内容和/或表格内容转换成HTML格式;
接收图片插入指令,根据图片插入指令接收图片内容,并将图片内容转换成HTML格式;
保存文本内容和/或表格内容,及图片内容在目标格式文档中的布局位置。
在一实施例中,切割模块402具体用于:
根据位置标识从HTML格式文档的起始位置开始进行查找,位置标识包括起始标识,第一级标识,结束标识等,第一级标识的数量为X,X为大于或等于2的正整数;
截取起始标识和所述X个第一级标识中的第一个第一级标识之间的内容为一个第一文档;
截取X个第一级标识中每两个相邻的第一级标识之间的文档内容,得到(X-1)个第一文档;
截取X个第一级标识中的最后一个第一级标识与结束标识之间的文档内容作为一个第一文档。
关于文档内容获取装置的具体限定可以参见上文中对于文档内容获取方法的限定,在此不再赘述。上述文档内容获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种文档内容获取方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例文档内容获取方法的步骤,或者,处理器执行计算机程序时实现上述实施例中文档内容获取装置的各模块的功能,为避免重复,这里不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例文档内容获取方法的步骤,或者,该计算机程序被处理器执行时实现上述文档内容获取装置中各模块的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文档内容获取方法,其特征在于,包括:
将目标格式文档转换成HTML格式文档,所述HTML格式文档包含内容位置的位置标识;
根据所述位置标识对所述HTML格式文档的文档内容进行分割,得到分割之后的多个第一文档;
存储所述多个第一文档及所述多个第一文档的文档内容在所述目标格式文档中的布局位置;
当接收到用于展示目标第一文档的选择指令时,根据所述选择指令确定所述目标第一文档的内容的存储信息,及所述目标第一文档在所述目标格式文档中的布局位置的存储信息;
根据所述存储信息查询所述目标第一文档的内容及所述目标第一文档对应的布局位置,并输出所述目标第一文档及所述目标第一文档对应的布局位置。
2.如权利要求1所述的文档内容获取方法,其特征在于,可通过在线编辑器将所述目标格式文档转换成所述HTML格式文档。
3.如权利要求2所述的文档内容获取方法,其特征在于,通过所述在线编辑器将所述目标格式文档转换成所述HTML格式文档,包括:
通过所述在线编辑器接收所述目标格式文档的文本内容和/或表格内容,将所述文本内容和/或表格内容转换成所述HTML格式;
接收图片插入指令,根据所述图片插入指令接收图片内容,并将所述图片内容转换成所述HTML格式;
保存所述文本内容和/或表格内容,及所述图片内容在所述目标格式文档中的布局位置。
4.如权利要求1-3任一项所述的文档内容获取方法,其特征在于,所述根据所述位置标识对所述HTML格式文档的文档内容进行分割,得到分割之后的所述多个第一文档,包括:
根据所述位置标识从所述HTML格式文档的起始位置开始进行查找,所述位置标识包括起始标识,第一级标识,结束标识,所述第一级标识的数量为X,所述X为大于或等于2的正整数;
截取所述起始标识和所述X个第一级标识中的第一个第一级标识之间的文档内容为一个第一文档;
截取所述X个第一级标识中每两个相邻的第一级标识之间的文档内容,得到(X-1)个第一文档;
截取所述X个第一级标识中的最后一个第一级标识与结束标识之间的文档内容作为一个第一文档。
5.如权利要求4所述的文档内容获取方法,其特征在于,所述位置标识还包括第二级标识,所述第二级标识为所述第一级标识的子级标识,每个所述第一文档中包括N个所述第二级标识,所述N为大于或者等于1的整数,所述方法还包括:
针对每个所述第一文档,按照所述第二级标识进行分割,截取第L个所述第二级标识和第(L+1)个所述第二级标识之间的第二内容,得到第二文档,所述(L+1)小于或者等于所述N,所述L取遍(N-1)中的任一数值;
存储所述第二文档及所述第二文档的文档内容在所述目标格式文档中的布局位置;
当接收到用于展示目标第二文档的选择指令时,根据所述选择指令确定所述目标第二文档的内容的存储信息,及所述目标第二文档在所述目标格式文档中的布局位置的存储信息;
根据所述目标第二文档的内容和布局位置对应的所述存储信息,查询所述目标第二文档的内容及所述目标第二文档对应的布局位置,并输出所述目标第二文档及所述目标第二文档对应的布局位置。
6.一种文档内容获取装置,其特征在于,包括:
文档转换模块,用于将目标格式文档转换成HTML格式文档,所述HTML格式文档包含内容位置的位置标识;
分割模块,用于根据所述位置标识对所述HTML格式文档的文档内容进行分割,得到分割之后的多个第一文档;
存储模块,用于存储所述多个第一文档及所述多个第一文档的文档内容在所述目标格式文档中的布局位置;
接收模块,用于接收用于展示目标第一文档的选择指令,以便根据所述选择指令确定所述目标第一文档的内容的存储信息,及所述目标第一文档在所述目标格式文档中的布局位置的存储信息;
输出模块,用于根据所述存储信息查询所述目标第一文档的内容及所述目标第一文档对应的布局位置,并输出所述目标第一文档及所述目标第一文档对应的布局位置。
7.如权利要求6所述的文档内容获取装置,其特征在于,所述文档转换模块具体用于:
通过在线编辑器接收所述目标格式文档的文本内容和/或表格内容,将所述文本内容和/或表格内容转换成所述HTML格式;
接收图片插入指令,根据所述图片插入指令接收图片内容,并将所述图片内容转换成所述HTML格式;
保存所述文本内容和/或表格内容,及所述图片内容在所述目标格式文档中的布局位置。
8.如权利要求6所述的文档内容获取装置,其特征在于,所述分割模块具体用于:
根据所述位置标识从所述HTML格式文档的起始位置开始进行查找,所述位置标识包括起始标识,第一级标识,结束标识,所述第一级标识的数量为X,所述X为大于或等于2的正整数;
截取所述起始标识和所述X个第一级标识中的第一个第一级标识之间的文档内容为一个第一文档;
截取所述X个第一级标识中每两个相邻的第一级标识之间的文档内容,得到(X-1)个第一文档;
截取所述X个第一级标识中的最后一个第一级标识与结束标识之间的文档内容作为一个第一文档。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述文档内容获取方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文档内容获取方法的步骤。
CN201911359206.2A 2019-12-25 一种文档内容获取方法、装置、设备及存储介质 Active CN111191079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911359206.2A CN111191079B (zh) 2019-12-25 一种文档内容获取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911359206.2A CN111191079B (zh) 2019-12-25 一种文档内容获取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111191079A true CN111191079A (zh) 2020-05-22
CN111191079B CN111191079B (zh) 2024-05-17

Family

ID=

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036123A (zh) * 2020-08-31 2020-12-04 北京奇虎鸿腾科技有限公司 基于网页页面的pdf生成方法、装置、设备及存储介质
CN113282811A (zh) * 2021-05-27 2021-08-20 广州文石信息科技有限公司 一种mobi文档显示方法、装置及设备
CN113569532A (zh) * 2021-09-22 2021-10-29 北京仁和汇智信息技术有限公司 一种html编辑方法、装置、电子设备及计算机可读存储介质
CN113779937A (zh) * 2021-09-27 2021-12-10 平安资产管理有限责任公司 基于人工智能的文本内容转换方法、装置、设备和介质
CN112036123B (zh) * 2020-08-31 2024-05-10 三六零数字安全科技集团有限公司 基于网页页面的pdf生成方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115543A (ja) * 2003-10-06 2005-04-28 Seiko Epson Corp 構造化文書情報解析方法及び構造化文書情報解析装置ならびにそのプログラム
CN106462555A (zh) * 2014-05-14 2017-02-22 网页云股份有限公司 用于web内容生成的方法和系统
CN108459998A (zh) * 2018-01-25 2018-08-28 广州视源电子科技股份有限公司 文档更新、格式转换方法、装置及设备、可读存储介质
CN110321470A (zh) * 2019-05-23 2019-10-11 平安科技(深圳)有限公司 文档处理方法、装置、计算机设备和存储介质
CN110598189A (zh) * 2019-08-14 2019-12-20 中国平安财产保险股份有限公司 文档处理方法、装置、设备及可读存储介质
US20210274059A1 (en) * 2020-02-28 2021-09-02 Xerox Corporation Methods and systems for handling a document having content marked using one or more identifiers

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005115543A (ja) * 2003-10-06 2005-04-28 Seiko Epson Corp 構造化文書情報解析方法及び構造化文書情報解析装置ならびにそのプログラム
CN106462555A (zh) * 2014-05-14 2017-02-22 网页云股份有限公司 用于web内容生成的方法和系统
CN108459998A (zh) * 2018-01-25 2018-08-28 广州视源电子科技股份有限公司 文档更新、格式转换方法、装置及设备、可读存储介质
CN110321470A (zh) * 2019-05-23 2019-10-11 平安科技(深圳)有限公司 文档处理方法、装置、计算机设备和存储介质
CN110598189A (zh) * 2019-08-14 2019-12-20 中国平安财产保险股份有限公司 文档处理方法、装置、设备及可读存储介质
US20210274059A1 (en) * 2020-02-28 2021-09-02 Xerox Corporation Methods and systems for handling a document having content marked using one or more identifiers

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036123A (zh) * 2020-08-31 2020-12-04 北京奇虎鸿腾科技有限公司 基于网页页面的pdf生成方法、装置、设备及存储介质
CN112036123B (zh) * 2020-08-31 2024-05-10 三六零数字安全科技集团有限公司 基于网页页面的pdf生成方法、装置、设备及存储介质
CN113282811A (zh) * 2021-05-27 2021-08-20 广州文石信息科技有限公司 一种mobi文档显示方法、装置及设备
CN113569532A (zh) * 2021-09-22 2021-10-29 北京仁和汇智信息技术有限公司 一种html编辑方法、装置、电子设备及计算机可读存储介质
CN113569532B (zh) * 2021-09-22 2022-01-25 北京仁和汇智信息技术有限公司 一种html编辑方法、装置、电子设备及计算机可读存储介质
CN113779937A (zh) * 2021-09-27 2021-12-10 平安资产管理有限责任公司 基于人工智能的文本内容转换方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
WO2020186786A1 (zh) 文件处理方法、装置、计算机设备和存储介质
CN109446173A (zh) 日志数据处理方法、装置、计算机设备和存储介质
CN110704521A (zh) 接口数据接入方法及系统
CN108804159B (zh) javascript模块加载方法及其预处理方法、装置和计算机设备
CN110209652A (zh) 数据表迁移方法、装置、计算机设备和存储介质
CN110990390B (zh) 数据协同处理方法、装置、计算机设备和存储介质
CN107832676A (zh) 表格信息换行识别方法、电子设备及计算机可读存储介质
CN109062925A (zh) 自动生成insert语句的方法、装置、计算机设备及存储介质
CN112286934A (zh) 数据库表导入方法、装置、设备及介质
CN108803996B (zh) 图形文件处理方法、装置、计算机设备和存储介质
CN110955608B (zh) 测试数据处理方法、装置、计算机设备和存储介质
CN110580189A (zh) 生成前端页面的方法、装置、计算机设备以及存储介质
CN107844468A (zh) 表格信息跨页识别方法、电子设备及计算机可读存储介质
CN110109712A (zh) 业务组件加载方法、装置、计算机设备和存储介质
CN110275703B (zh) 键值对数据的赋值方法、装置、计算机设备和存储介质
CN114816404A (zh) 动态渲染视图页面的方法、装置、计算机设备及存储介质
CN111208998A (zh) 数据可视化大屏自动布局的方法、装置及存储介质
CN113283228A (zh) 文档生成方法、装置、电子设备及存储介质
CN111046640A (zh) 证明文件动态生成方法及装置
CN109271619B (zh) 邮件样式处理方法、装置、计算机设备及存储介质
CN114510536A (zh) 数据校验方法、装置、计算机设备及存储介质
CN112650529B (zh) 可配置生成移动端app代码的系统及方法
CN110321529B (zh) 框架文字显示方法、装置、计算机设备及存储介质
CN110688400A (zh) 数据处理方法、装置、计算机设备和存储介质
CN111191079B (zh) 一种文档内容获取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant