CN113435178A

CN113435178A - 一种文档解析方法及装置

Info

Publication number: CN113435178A
Application number: CN202110674264.5A
Authority: CN
Inventors: 简仁贤; 郑长钦
Original assignee: Emotibot Technologies Ltd
Current assignee: Emotibot Technologies Ltd
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-09-24

Abstract

本发明公开了一种文档解析方法及装置，方法包括：导入文档；对导入的文档进行解析，解析结果中保留文档的富文本格式；将解析结果保存。本发明对各类格式的文档进行智能解析，保留原有的富文本格式，可进行在线预览和增量编辑操作，并且关联实现了导入内容被存储进了搜索引擎数据库，供后续智能知识库的搜索。

Description

一种文档解析方法及装置

技术领域

本发明涉及智能知识库技术领域，尤其涉及文档解析方法和装置。

背景技术

智能知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群，是针对一个或一些领域问题求解的需要，采用某种或多种知识表示方式在计算机存储装置中存储、组织、管理和使用的互相联系的知识片集合。是基于知识且具有智能性的系统，其由人工智能(AI)和数据库(DB)两项计算机技术的有机结合而促成和发展。

在智能知识库管理和采编过程中，企业中存在的知识信息有多种文件格式存在，例如Word(微软公司的一个文字处理器应用程序)、PDF(可携带文档格式)格式等，不同的文档格式又有不同的软件和使用方式，各文档格式无法兼容，因此对于这些文档，使用者也就无法统一地浏览或编辑。

目前智能知识库管理和采编过程中，一般采用的方式为：将既存文档中文本选择复制、粘贴到编辑器中。首先，假设所有文档格式的软件是否都有复制功能(即：假设不存在功能上的限制)，例如Word和PDF软件里都提供了选中文本并进行复制的功能，但是对于企业里既存的大量文档都手工进行打开、全选、复制、再粘贴到目标编辑器中，必然会浪费大量人工，同时效率很低。

另外，上述编辑保存的知识内容在需要时，要能够方便地被智能知识库搜索到，目前也无法实现。

发明内容

本发明的目的在于提供文档解析方法及装置，兼容不同文档格式，方便使用者进行在线预览和增量编辑操作。

实现上述目的的技术方案是：

本申请提供一种文档解析方法，包括：

导入文档；

对导入的文档进行解析，并在解析结果中保留文档的富文本格式；

将解析结果保存。

在一实施例中，所述对导入的文档进行解析，并在解析结果中保留文档的富文本格式,包括：

当所述文档为Word时，将Word文档解析成XHTML(可扩展超文本标记语言)格式的内容，删除预设的无用标签；

将XHTML格式的内容转化为HTML(一种网页标记语言，用来描述网站页面)格式的内容，并保留文档的富文本格式。

当所述文档为PDF时，将PDF文档解析成HTML格式的内容，并保留文档的富文本格式。

在一实施例中，所述对导入的文档进行解析，并在解析结果中保留文档的富文本格式,还包括：

将所述HTML格式的内容中包含的图片和字体抽取出来并存储为文件；

将所述图片和字体的内容替换为所述文件的链接，并将链接存放在HTML格式的内容中。

在一实施例中，所述方法还包括：

删除HTML格式的内容中的HTML标签，形成纯文本格式的内容。

在一实施例中，所述方法还包括：

对纯文本格式的内容进行分词操作，获得分词结果；

将纯文本格式的内容和分词结果存储到搜索引擎数据库。

在一实施例中，所述无用标签包括：name属性值为"_GoBack"的title标签、name属性值为"_GoBack"的a标签以及满足正则表达式_Toc(.*)匹配规则的标签。

在一实施例中，将所述HTML格式的内容中包含的图片和字体抽取出来并存储为文件，包括：

将所述HTML格式中内容包含的图片或者字体由原来解析出的字符串通过解码写入到字节数组，并通过字节数组转化为字节流，写入到对象存储服务的文件存储路径中保存为文件；

所述的文件存储路径为所述文件的链接，通过固定规则生成。

在一实施例中，所述固定规则是：固定id+/+随机数+时间戳+/+文件名称。

本申请提供一种文档解析装置，包括：

文档导入单元，用于导入文档；

文档解析单元，用于对导入的文档进行解析，并保留文档的富文本格式；

第一存储单元，用于将解析结果保存。

纯文本转化单元，用于将HTML格式的内容转化为去除HTML标签后的纯文本内容；

分词单元，用于将纯文本内容进行分词操作，获得分词结果；

第二存储单元，用于将纯文本内容和分词结果存储到搜索引擎数据库。

本申请上述实施例提供的技术方案，将企业现有存储着知识的各类格式的文档导入并进行智能解析，保留原有的富文本格式，可进行在线预览和增量编辑操作，并且关联实现了导入内容被存储进了搜索引擎数据库，供后续智能知识库的搜索。

附图说明

图1是本申请一实施例提供的文档解析方法的流程图；

图2是本申请另一实施例提供的文档解析方法的流程图；

图3是本申请另一实施例提供的文档解析方法的流程图；

图4是本申请实施例提供的文档解析装置的结构图；

图5是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合附图对本发明作进一步说明。

在智能知识库管理和采编过程中，需要将诸如Word、PDF等格式的既存文档进行编辑保存。因为这些不同格式的文档应用不同的软件，而不同的软件之间又有不同的使用方式。例如：Word文档和PDF文档分别使用的软件为Microsoft Word和Adobe Reader pdf阅读器，两个软件不管是操作界面或者功能方式，都不相同。目前，需要利用不同的软件分别打开对应格式的文档，然后复制、粘贴，使用者无法统一地浏览或编辑。比如，对一篇Word文档，使用者需要利用word软件进行选择文本、复制文本，再粘贴到目标编辑器中。接着，对另一篇PDF文档，使用者要再利用PDF软件进行选择文本、复制文本，再粘贴到目标编辑器中……如此的话，使用者需要不断地手动操作且不断更换软件，需要使用者较为熟练地掌握不同的文档软件，显然费心费力，同时对于使用者的自身能力素质要求极高。

为解决上述问题，需要利用软件程序自动操作替代人员手工操作，并且需要兼容不同文档格式，给使用者提供在线预览和增量编辑的操作空间，有效提高效率。本发明提供了一种文档解析的方法、装置、电子设备及计算机可读存储介质，通过导入或批量导入各个格式的文档并自动解析，转化成可保留其原来的富文本格式，方便使用者能够统一地在线预览和增量编辑。本发明可以通过相应的软件、硬件或软硬结合的方式实现，以下对本发明实施例作详细介绍。

请参阅图1，本实施例提供一种文档解析方法，该方法可以由电子设备执行，电子设备加载有或链接有智能知识库。该方法包括如下步骤：

步骤S101，导入文档。

本实施例中，文档是指包含知识信息的各种文件，其格式多样，例如Word、PDF等格式。企业存储的文档由电子设备从外部设备导入获取，进行解析。

步骤S102，对导入的文档进行解析，并保留文档的富文本格式。

本实施例中，将文档解析成HTML格式的内容，该内容中包含的图片和字体会被单独抽取出来存储在对象存储服务中，并以链接的形式在HTML中存在。解析时，自动保留文档原来的富文本格式，富文本格式是一种方便于不同的设备、系统查看的文本和图形文档格式。因富文本格式的这一特性，所以可以做到后续的在线预览和增量编辑工作。具体举例说明：

对于Word文档，首先将Word文档解析成XHTML格式的内容，然后删除一些预设的无用标签：比如name属性值为"_GoBack"的title标签、name属性值为"_GoBack"的a标签以及满足正则表达式_Toc(.*)匹配规则的标签，再转化成HTML格式的内容，并且保留Word文档本身的富文本格式。

对于PDF文档，PDF文档会被直接解析成HTML格式的内容，并且保留PDF文档本身的富文本格式。

本实施例中，无论Word文档还是PDF文档，解析后获得的HTML格式的内容里面包含图片和字体，将图片和字体抽取出来进行并存储为文件，将所述图片和字体的内容替换为所述文件的链接，并将链接存放在HTML格式的内容中，方便后续在富文本展示时在前端渲染字体样式以及对应位置图片。

本实施例中，将图片和字体抽取出来进行并存储为文件可以采用多种方式，例如：将HTML格式中内容包含的图片或者字体由原来解析出的字符串(Base64编码)通过解码写入到字节数组，并通过字节数组转化为字节流，写入到对象存储服务(例如：minio，minio是一个高性能的对象存储服务)的文件存储路径中保存为文件。文件存储路径即为文件的链接，通过固定规则生成。固定规则是：固定id+/+随机数+时间戳+/+文件名称。例如：345(固定id)/12346(随机数)202103051021(时间戳)/企业员工手册(文件名称)。

步骤S103，将解析结果保存到对象存储服务中。

本实施例中，将上述解析获得的HTML格式的内容保存到对象存储服务中。这样，在进入智能知识库后通过对应文章获得对象存储服务中HTML格式的内容，然后通过前端的富文本编辑器即可实现在线预览和编辑，而无需从头对文本格式进行调整。

通过步骤S101-S103，将文档导入，将不同格式的文档分别解析成HTML格式的内容，并且保留文档本身的富文本格式，将HTML格式的内容保存到对象存储服务中，当需要时，可以通过富文本编辑器即可实现在线预览和编辑，从而兼容不同文档格式。

另外，为关联实现导入的知识内容可被后续智能知识库进行搜索。如图2所示，本发明在上述步骤S101-S103的基础上，还可以包括如下步骤：

步骤S104，将HTML格式的内容转化为去除HTML标签后的纯文本内容。

本实施例中，首先将上述获得的HTML格式的内容中的HTML标签中的内容提取并去除，将HTML格式的内容转化为不包含HTML标签的纯文本内容。

步骤S105，将纯文本内容进行分词操作，获得分词结果。

本实施例中，纯文本内容中包含各种文本，通过对文字进行切词，获得分词结果。例如：将“今天天气很好”可以切分为“今天、天气、很好”。在后续查询时减少搜索引擎分词干预。具体地词语的切分规范可以根据实际情况或者实际需要自行设置。切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》保持一致。

步骤S106，将纯文本内容和分词结果存储到搜索引擎数据库。

本实施例中，去除HTML标签后的纯文本内容以及分词结果都存储到搜索引擎数据库，方便智能知识库搜索。其中，分词结果可以用到后续的文章查重、关键词查询等功能。

经过上述步骤S104-S106，智能知识库可以对导入的知识内容进行智能搜索。

在一实施例中，本发明提供一种文档解析方法，针对名为《企业员工手册》的Word文档、《企业项目简介》PDF文档。整个文档解析流程如图3所示，以兼容Word和PDF格式，使用者可以在线预览和增量编辑，并且后续能够方便地智能知识库搜索。具体包括如下步骤：

步骤S201，导入《企业员工手册》Word文档和《企业项目简介》PDF文档。

步骤S202，对《企业员工手册》Word文档和《企业项目简介》PDF文档进行解析。

本实施例中，将《企业员工手册》Word文档解析成XHTML格式的内容，然后去掉一些无用标签，再转化成《企业员工手册》的HTML格式的内容，保留《企业员工手册》Word文档的富文本格式。图片和字体会被单独抽取出来存储在对象存储服务中，并以链接的形式在HTML中存在。

将《企业项目简介》PDF文档直接解析成《企业项目简介》的HTML格式的内容，并且保留本身的富文本格式。图片和字体会被单独抽取出来存储在对象存储服务中，并以链接的形式在HTML中存在。

步骤S203，将《企业员工手册》和《企业项目简介》各自的HTML格式的内容保存到对象存储服务中。例如，HTML格式的内容保存到minio中。

本实施例中，之后可以通过前端的富文本编辑器对《企业员工手册》和《企业项目简介》实现在线预览和编辑。使用者无需分别使用Word软件和PDF软件进行操作。例如，因为《企业员工手册》的富文本格式得以保留，进入智能知识库后通过“企业员工手册”获取到minio中存储的《企业员工手册》的HTML格式的内容，进行渲染，通过前端的富文本编辑器可以对《企业员工手册》进行二次文档编辑。

步骤S204，将《企业员工手册》和《企业项目简介》各自的HTML格式的内容转化为去除HTML标签后的两个纯文本内容，并暂存。

步骤S205，将步骤S204得到的两个纯文本内容进行分词操作，获得分词结果，并暂存。

本实施例中，《企业员工手册》的纯文本内容中部分内容为“……员工信息包括姓名、岗位、薪资、简历和联系方式……”。《企业项目简介》的纯文本内容中部分内容为“……公司项目信息包括负责人、组成员、预算信息、工期和预计收益……”。将上述部分内容分别进行分词操作，获得分词结果“员工信息、包括、姓名、岗位、薪资、和、联系方式”和“公司、项目信息、包括、负责人、组成员、预算信息、工期、和、预计收益”。

步骤S206，将纯文本内容和分词结果存储到搜索引擎数据库，例如存储到ES，其全称是ElasticSearch，可以理解为一种快速的文本搜索引擎。

例如，本实施例中，第二次上传《企业员工手册》，按上述步骤解析文档并分词后，对ES进行分词查询，得到查询结果并进行词重复率计算，假设《企业员工手册》的词重复率高达93％，超过80％的阈值，判定《企业员工手册》是重复的。

下述为本申请装置实施例，可以用于执行上述文档解析方法实施例。对于本申请装置实施例中未披露的细节，请参照上述的文档解析方法实施例。

请参阅图4，本发明提供一种文档解析装置，包括：文档导入单元301、文档解析单元302、第一存储单元303、纯文本转化单元304、分词单元305和第二存储单元306。

文档导入单元301，用于导入文档。文档的格式多样，例如Word、PDF等格式。

文档解析单元302，用于对导入的文档进行解析，并保留文档的富文本格式。

第一存储单元303，用于将解析结果保存到对象存储服务中。

纯文本转化单元304，用于将HTML格式的内容转化为去除HTML标签后的纯文本内容。

分词单元305，用于将纯文本内容进行分词操作，获得分词结果。

第二存储单元306，用于将纯文本内容和分词结果存储到搜索引擎数据库。

本实施例中，文档解析单元302将文档解析成HTML格式的内容，该内容中包含的图片和字体会被单独抽取出来存储在对象存储服务中，并以链接的形式在HTML中存在。

本实施例中，第一存储单元303将文档解析单元302解析获得的HTML格式的内容保存到对象存储服务中。

本实施例中，纯文本转化单元304将HTML格式的内容中的HTML标签中的内容提取并去除，将HTML格式的内容转化为不包含HTML标签的纯文本内容。

请参阅图5，本发明提供一种电子设备，该电子设备400包括处理器401，以及用于存储处理器401可执行指令的存储器402。其中，处理器401被配置为执行上述任一实施例中的文档解析方法。

处理器401可以是一种集成电路芯片，具有信号处理能力。上述处理器401可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetwordProcessor，NP)等；也可以是处理信号器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件。

存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，只读存储器(Read-only Memory，ROM)，磁存储器，快闪存储器，磁盘或光盘。存储器402中还存储有一个或多个模块，分别借由该一个或多个处理器401执行，以完成上述一实施例中的文档解析方法步骤。

本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器401执行以完成上述任一实施例中的意图模型训练方法。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并列地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本社蜗牛产能各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储其(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅供说明本发明之用，而非对本发明的限制，有关技术领域的技术人员，在不脱离本发明的精神和范围的情况下，还可以作出各种变换或变型，因此所有等同的技术方案也应该属于本发明的范畴，应由各权利要求所限定。

Claims

1.一种文档解析方法，其特征在于，包括：

导入文档；

将解析结果保存。

2.根据权利要求1所述的文档解析方法，其特征在于，所述对导入的文档进行解析，并在解析结果中保留文档的富文本格式,包括：

当所述文档为Word时，将Word文档解析成XHTML格式的内容，删除预设的无用标签；

将XHTML格式的内容转化为HTML格式的内容，并保留文档的富文本格式。

3.根据权利要求1所述的文档解析方法，其特征在于，所述对导入的文档进行解析，并在解析结果中保留文档的富文本格式,包括：

4.根据权利要求2或3所述的文档解析方法，其特征在于，所述对导入的文档进行解析，并在解析结果中保留文档的富文本格式,还包括：

5.根据权利要求4所述的文档解析方法，其特征在于，所述方法还包括：

删除HTML格式的内容中的HTML标签，形成纯文本格式的内容。

6.根据权利要求5所述的文档解析方法，其特征在于，所述方法还包括：

对纯文本格式的内容进行分词操作，获得分词结果；

将纯文本格式的内容和分词结果存储到搜索引擎数据库。

7.根据权利要求3所述的文档解析方法，其特征在于，所述无用标签包括：name属性值为"_GoBack"的title标签、name属性值为"_GoBack"的a标签以及满足正则表达式_Toc(.*)匹配规则的标签。

8.根据权利要求4所述的文档解析方法，其特征在于，将所述HTML格式的内容中包含的图片和字体抽取出来并存储为文件，包括：

9.根据权利要求8所述的文档解析方法，其特征在于，所述固定规则是：固定id+/+随机数+时间戳+/+文件名称。

10.一种文档解析装置，其特征在于，包括：

文档导入单元，用于导入文档；

第一存储单元，用于将解析结果保存。