CN112541359A

CN112541359A - 文档内容识别方法、装置、电子设备及介质

Info

Publication number: CN112541359A
Application number: CN202011359864.4A
Authority: CN
Inventors: 王述; 冯知凡; 柴春光; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-23
Anticipated expiration: 2040-11-27
Also published as: CN112541359B

Abstract

本申请公开了一种文档内容识别方法、装置、电子设备及介质，涉及自然语言处理和知识图谱技术领域。具体实现方案为：通过对文档进行文本提取，得到文本内容，根据配置的属性标签，从文本内容中抽取与属性标签匹配的文本片段，查询知识图谱，从知识图谱包含的知识节点中确定出与文本片段匹配的参考节点后，根据参考节点中的知识内容和文本片段，生成文档的主题内容。由此，通过将知识图谱与文本内容中抽取出来的文本片段进行了关联，丰富了抽取出的文本片段的语义，进而，基于该丰富了语义的文本片段进行文档的主题内容的生成，能够使得生成的主题内容更加准确的表征文档的核心。

Description

文档内容识别方法、装置、电子设备及介质

技术领域

本申请公开了一种文档内容识别方法、装置、电子设备及介质，涉及数据处理技术领域，具体为自然语言处理和知识图谱技术领域。

背景技术

随着时代的发展，文档内容识别技术也从最初的人工整理逐渐演进到目前的基于知识图谱的内容识别，以生成用户关注点并对文档内容进行精细化刻画表达，并大幅度的提升了分发效率。尤其在针对企业的资源进行调研后，发现基于知识图谱的内容理解，对企业资源管理至关重要。

但是，由于企业资源增长速度较快，在对企业文档内容识别时，内部文档管理、信息检索、推荐等场景，会导致信息获取难、不准确等问题。为此，提供一种准确度较高的文档内容识别方法是至关重要的。

发明内容

本申请提供了一种文档内容识别方法、装置、设备以及存储介质。

本申请第一方面实施例提供了一种文档内容识别方法，包括：

对文档进行文本提取，得到文本内容；

根据配置的属性标签，从所述文本内容中抽取与所述属性标签匹配的文本片段；

查询知识图谱，以从所述知识图谱包含的知识节点中确定出与所述文本片段匹配的参考节点；

根据所述参考节点中的知识内容和所述文本片段，生成所述文档的主题内容。

作为本申请实施例的第一种可能的实现方式，所述根据所述参考节点中的知识内容和所述文本片段，生成所述文档的主题内容，包括：

对所述参考节点中的知识内容和所述文本片段进行语义提取，得到第一语义信息；

对所述文档的标题和/或正文进行语义提取，得到第二语义信息；

根据所述第一语义信息和所述第二语义信息之间的语义相似度，确定是否将所述文本片段作为所述文档的主题内容。

作为本申请实施例的第二种可能的实现方式，所述知识图谱中各所述知识节点中包含词条，以及用于描述所述词条的知识内容；所述根据所述参考节点中的知识内容和所述文本片段，生成所述文档的主题内容，包括：

在所述知识图谱中，查询与所述参考节点中的知识内容关联的关联节点；

根据所述文本片段与所述关联节点中的知识内容之间的语义相似度，确定是否将所述关联节点中的词条作为所述文档的主题内容。

作为本申请实施例的第三种可能的实现方式，所述对所述参考节点中的知识内容和所述文本片段进行语义提取，得到第一语义信息，包括：

将所述参考节点中的知识内容和所述文本片段拼接，得到目标文本；

对所述目标文本进行语义提取，得到所述第一语义信息。

作为本申请实施例的第四种可能的实现方式，所述根据配置的属性标签，从所述文本内容中抽取与所述属性标签匹配的文本片段之前，还包括：

响应于用户配置操作，从设定的标签体系中，确定配置的所述属性标签；其中，所述属性标签，用于表征逻辑关系、事件、实体、实体所属类别或实体组成部件中的一个或多个组合。

作为本申请实施例的第五种可能的实现方式，所述根据配置的属性标签，从所述文本内容中抽取与所述属性标签匹配的文本片段，包括：

根据设定的划分粒度，将所述文本内容划分为与所述划分粒度匹配的多个文本单元；

将各所述文本单元输入所述划分粒度对应的抽取模型，以得到与所述属性标签匹配的文本片段；或者，采用与所述属性标签和所述划分粒度对应的抽取策略，对各所述文本单元进行抽取，以得到与所述属性标签匹配的文本片段

本申请第二方面实施例提供了一种文档内容识别装置，包括：

提取模块，用于对文档进行文本提取，得到文本内容；

抽取模块，用于根据配置的属性标签，从所述文本内容中抽取与所述属性标签匹配的文本片段；

查询模块，用于查询知识图谱，以从所述知识图谱包含的知识节点中确定出与所述文本片段匹配的参考节点；

生成模块，用于根据所述参考节点中的知识内容和所述文本片段，生成所述文档的主题内容。

本申请第三方面实施例提出了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面实施例所述的文档内容识别方法。

本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面实施例所述的文档内容识别方法。

本申请第五方面实施例提出了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现第一方面实施例所述的文档内容识别方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例提供的一种文档内容识别方法的流程示意图；

图2为本申请实施例提供的一种用于生成文档的主题内容的子方法的流程示意图；

图3为本申请实施例提供的另一种用于生成文档的主题内容的子方法的流程示意图；

图4为本申请实施例提供的一种知识图谱的示例图；

图5为本申请实施例提出的一种用于抽取得到文本片段的子流程示意图；

图6为本申请实施例提供的另一种用于抽取得到文本片段的子流程示意图；

图7为本申请实施例提供的一种文档内容识别方法的示例图；

图8为本申请实施例提出的文档内容识别装置的结构示意图；

图9是根据本申请实施例的文档内容识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

相关技术中，对文档内容识别主要有文本分类、关键词提取和实体理解等方式，通过对行业文档进行文本分类获取分类标签，对文本文档进行关键词提取获取文档关键词，实体理解获取文档中的实体进而实现文档内容理解。但是，现有的文档内容识别方法无法准确获取到文档的核心内容。

为此，本申请提出了一种文档内容识别方法，通过对文档进行文本提取，得到文本内容，根据配置的属性标签，从文本内容中抽取与属性标签匹配的文本片段，查询知识图谱，从知识图谱包含的知识节点中确定出与文本片段匹配的参考节点后，根据参考节点中的知识内容和文本片段，生成文档的主题内容。由此，通过将知识图谱与文本内容中抽取出来的文本片段进行了关联，丰富了抽取出的文本片段的语义，进而，基于该丰富了语义的文本片段进行文档的主题内容的生成，能够使得生成的主题内容更加准确的表征文档的核心

下面参考附图描述本申请实施例的文档内容识别方法、装置、设备及存储介质。

图1为本申请实施例提供的一种文档内容识别方法的流程示意图。

本申请实施例以该文档内容识别方法被配置于文档内容识别装置中来举例说明，该文档内容识别装置可以应用于任一电子设备中，以使该电子设备可以执行文档内容识别功能。

其中，电子设备可以为个人电脑(Personal Computer，简称PC)、云端设备、移动设备等，移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备、车载设备等具有各种操作系统的硬件设备。

如图1所示，该文档内容识别方法，可以包括以下步骤：

步骤101，对文档进行文本提取，得到文本内容。

本申请中的文档内容识别方法，可以对不同行业的文档内容进行识别，其中，文档不限于企业中的word文档、PDF文档、网页文档、表格票据、图片、扫描件等文档内容。例如，可以对企业中员工的简历进行文本提取。

需要解释的是，可以从企业的管理系统中获取到待识别的文档，也可以获取纸质的待识别文档，对纸质的文档进行扫描得到电子版本的待识别文档，也可以将企业网页作为待识别的文档，等等，对于文档的获取方式，在此不做限定。

本申请实施例中，获取到待识别的文档后，可以对文档进行文本提取，以得到文档对应的文本内容。

作为一种可能的情况，可以采用预先设定的文档解析模板，对文档进行文本提取，以得到文档对应的文本内容。例如，文档为word文档，可以将word文档输入预先设定的文档解析模板，以采用文档解析模板进行文本提取，得到对应的文本内容。

作为另一种可能的情况，还可以采用OCR(Optical Character Recognition，光学字符识别)识别与提取方法对文档进行文本提取，以得到对应的文本内容。

其中，OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

例如，文档为图片时，可以采用OCR文字识别技术对文档进行文本提取，得到对应的文本内容。

作为又一种可能的情况，还可以采用表格内容解析技术对文档中的表格进行文本提取，以得到对应的文本内容。

步骤102，根据配置的属性标签，从文本内容中抽取与属性标签匹配的文本片段。

其中，属性标签，用于表征逻辑关系、事件、实体、实体所属类别或实体组成部件中的一个或多个组合。

本申请实施例中，可以预先构建标签体系，主要包括实体、概念、主题、事件、逻辑关系、实体所属类别或实体组成部件等等。

作为一种可能的实现方式，可以通过用户的配置操作从设定的标签体系中，确定配置的属性标签，以响应于用户配置操作，从设定的标签体系中，确定配置的属性标签。由此，通过自定义配置属性标签，可以通过配置不同维度的属性标签，以从文本内容中抽取与配置的属性标签匹配的文本片段

本申请实施例中，确定用户配置的属性标签后，可以从文本内容中抽取与属性标签匹配的文本片段。

作为一种示例，假设配置的属性标签为逻辑关系和事件，则可以从文本内容中抽取与属性标签为逻辑关系和事件匹配的文本片段。

例如，假设文本内容为“我是A公司的行政人员，我司一名员工，在上班时突发脑梗，送至B医院医治，我们的保单号为012345，联系电话为123456，附件为医院的治疗和最终结果证明。”。根据配置的属性标签，从文本内容中抽取与属性标签匹配的文本片段如下所示：

被保险人：A公司

出险原因：突发脑梗

医院：B医院

时间：上班期间

保单号：012345

联系电话：123456

证明材料：附件

步骤103，查询知识图谱，以从知识图谱包含的知识节点中确定出与文本片段匹配的参考节点。

其中，知识图谱，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱旨在描述真实世界中存在的各种实体或概念及其关系，其构成一张巨大的语义网络图，节点表示实体或概念，边则由属性或关系构成。

本申请中的知识图谱，可以为通用知识图谱，也可以为行业知识图谱，等等，在此不做限定。例如，待识别的文档内容属于医疗行业，则知识图谱可以为医疗行业知识图谱。

其中，参考节点，是指知识图谱包含的知识节点中与文本片段匹配的知识节点。参考节点可以为一个或多个，本申请中对参考节点的个数不做限定。

本申请实施例中，从文本内容中抽取与属性标签匹配的文本片段后，可以查询知识图谱，以从知识图谱包括的知识节点中确定出与文本片段匹配的参考节点。

步骤104，根据参考节点中的知识内容和文本片段，生成文档的主题内容。

本申请中，通过查询知识图谱，从知识图谱包含的知识节点中确定出与文本片段匹配的参考节点后，可以根据参考节点中的知识内容和文本片段，生成文档的主题内容。

作为一种可能的实现方式，从知识图谱包含的知识节点中确定出与文本片段匹配的参考节点后，可以对参考节点中的知识内容和文本片段进行语义提取，以得到第一语义信息，对文档的标题和/或正文进行语义提取，得到第二语义信息，确定第一语义信息和第二语义信息之间的语义相似，则将文本片段作为文档的主题内容。

作为另一种可能的实现方式，从知识图谱包含的知识节点中确定出与文本片段匹配的参考节点后，还可以在知识图谱中，查询与参考节点中的知识内容关联的关联节点，确定文本片段与关联节点中的知识内容之间的语义相似，则将关联节点中的词条作为文档的主题内容。

本申请中的文档内容识别方法，通过对文档进行文本提取，得到文本内容，根据配置的属性标签，从文本内容中抽取与属性标签匹配的文本片段，查询知识图谱，从知识图谱包含的知识节点中确定出与文本片段匹配的参考节点后，根据参考节点中的知识内容和文本片段，生成文档的主题内容。由此，通过将知识图谱与文本内容中抽取出来的文本片段进行了关联，丰富了抽取出的文本片段的语义，进而，基于该丰富了语义的文本片段进行文档的主题内容的生成，能够使得生成的主题内容更加准确的表征文档的核心。

在上述实施例中，根据参考节点中的知识内容和文本片段生成文档的主题内容时，已经提及了根据参考节点中的知识内容和文本片段的语义信息，与文档的标题和/或正文的语义信息，确定文档的主题内容，为了清除说明这一实现方式，下面结合图2进行详细介绍，图2为本申请实施例提供的一种用于生成文档的主题内容的子方法的流程示意图。

如图2所示，上述步骤104可以包括以下步骤：

步骤201，对参考节点中的知识内容和文本片段进行语义提取，得到第一语义信息。

为了便于区分，本申请中将对参考节点中的知识内容和文本片段进行语义提取得到的语义信息，命名为第一语义信息，将对文档的标题和/或正文进行语义提取得到的语义信息，命名为第二语义信息。当然也可以采用其余命名方式，在此不做限定。

作为一种可能的实现方式，可以将参考节点中的知识内容和文本片段进行拼接，得到目标文本。进一步地，可以采用语义提取模型对目标文本进行语义提取，以得到第一语义信息。由此，通过将知识图谱中参考节点的知识内容与文档中抽取的文本片段关联，从而丰富了抽取出的文本片段的语义。

作为另一种可能的实现方式，还可以采用语义提取模型分别对参考节点中的知识内容和文本片段进行语义提取，得到对应的语义信息。进一步地，将参考节点中的知识内容和文本片段对应的语义信息进行拼接，得到第一语义信息。

需要说明的是，本申请中对语义提取的方式不做限定，不限于采用语义提取模型的方式进行语义提取，还可以采用其他可以实现的语义提取方式。

步骤202，对文档的标题和/或正文进行语义提取，得到第二语义信息。

可以理解的是，文档的标题能够表示出文档的主旨和主要内容，因此，可以对文档的标题进行语义提取。

作为一种可能的情况，可以对文档的标题进行语义提取，以得到第二语义信息。

作为另一种可能的情况，还可以对文档的正文进行语义提取，以得到第二语义信息。

作为又一种可能的情况，还可以同时对文档的标题和正文进行语义提取，将提取得到的语义信息，作为第二语义信息。

步骤203，根据第一语义信息和第二语义信息之间的语义相似度，确定是否将文本片段作为文档的主题内容。

本申请实施例中，对参考节点中的知识内容和文本片段进行语义提取得到第一语义信息，以及对文档的标题和/或正文进行语义提取得到第二语义信息后，可以比较第一语义信息和第二语义信息，以确定第一语义信息和第二语义信息之间的语义相似度，以根据语义相似度，确定是否将文本片段作为文档的主题内容。

本申请实施例中，可以将第一语义信息和第二语义信息转化为对应的向量，进而，计算两个向量之间的距离，以确定第一语义信息和第二语义信息之间的语义相似度。

例如，可以采用Bag-of-words模型(词袋模型)将第一语义信息和第二语义信息转化为对应的向量。

在一种可能的情况下，第二语义信息为对文档的标题进行语义提取得到的，确定第一语义信息和第二语义信息之间的语义相似度后，若确定语义相似度大于设定的阈值，则将文本片段作为文档的主题内容；若确定语义相似度较小，小于设定的阈值，则不能将文本片段作为文档的主题内容。

在另一种可能的情况下，第二语义信息为对文档的正文进行语义提取得到的，确定第一语义信息和第二语义信息之间的语义相似度后，若确定语义相似度大于设定的阈值，则将文本片段作为文档的主题内容；若确定语义相似度较小，小于设定的阈值，则不能将文本片段作为文档的主题内容。

在又一种可能的情况下，第二语义信息为对文档的标题和正文进行语义提取得到的，确定第一语义信息和第二语义信息之间的语义相似度后，若确定语义相似度大于设定的阈值，则将文本片段作为文档的主题内容；若确定语义相似度较小，小于设定的阈值，则不能将文本片段作为文档的主题内容。

本申请实施例中，通过对参考节点中的知识内容和文本片段进行语义提取，得到第一语义信息；对文档的标题和/或正文进行语义提取，得到第二语义信息；根据第一语义信息和第二语义信息之间的语义相似度，确定是否将文本片段作为文档的主题内容。由此，根据语义相似度确定是否将文本片段作为文档的主题内容，使得生成的文档的主题内容更加准确，更加符合文档的核心。

在上述实施例中，根据参考节点中的知识内容和文本片段生成文档的主题内容时，还提及了根据知识图谱中与参考节点中的知识内容关联的关联节点中的词条，确定文档的主题内容，为了清除说明这一实现方式，下面结合图3进行详细介绍，图3为本申请实施例提供的另一种用于生成文档的主题内容的子方法的流程示意图。

如图3所示，上述步骤104还可以包括以下步骤：

步骤301，在知识图谱中，查询与参考节点中的知识内容关联的关联节点。

其中，关联节点，是指知识图谱中与参考节点中的知识内容关联的节点。

在一种可能的情况下，知识图谱中各知识节点中包含词条，以及用于描述词条的知识内容。

本申请实施例中，从知识图谱包含的知识节点中确定出与文本片段匹配的参考节点后，进一步地，根据知识图谱中各知识节点中包含的词条以及用于描述词条的知识内容，确定知识图谱中与参考节点中的知识内容关联的关联节点。

作为一种示例，如图4所示，假设参考节点为“C”，查询知识图谱，确定与参考节点C中的知识内容关联的关联节点为“D”。

步骤302，根据文本片段与关联节点中的知识内容之间的语义相似度，确定是否将关联节点中的词条作为文档的主题内容。

本申请实施例中，确定与参考节点中的知识内容关联的关联节点后，可以对关联节点中的知识内容和文本片段进行语义提取，以得到对应的语义信息。进一步地，计算关联节点中的知识内容与文本片段对应的语义信息之间的语义相似度，以根据语义相似度确定是否将关联节点中的词条作为文档的主题内容。

在一种可能的情况下，若文本片段与关联节点中的知识内容之间的语义相似度大于设定的阈值，则将关联节点中的词条作为文档的主题内容。

在另一种可能的情况下，若文本片段与关联节点中的知识内容之间的语义相似度小于设定的阈值，则不将关联节点中的词条作为文档的主题内容。

本申请实施例中，在知识图谱中，查询与参考节点中的知识内容关联的关联节点，根据文本片段与关联节点中的知识内容之间的语义相似度，确定是否将关联节点中的词条作为文档的主题内容。由此，通过在知识图谱中确定与参考节点的知识内容关联的关联节点，进而基于文本片段与关联节点中的知识内容之间的语义相似度，确定文档的主题内容，使得生成的主题内容更加准确表征文档的核心。

在上述实施例的基础上，在步骤102中，从文本内容中抽取与属性标签匹配的文本片段时，可以将文本内容划分为多个文本单元，以对各文本单元进行抽取，得到与属性标签匹配的文本片段。下面结合图5对上述过程进行详细介绍，图5为本申请实施例提出的一种用于抽取得到文本片段的子流程示意图。

如图5所示，上述步骤102，还可以包括以下步骤：

步骤501，根据设定的划分粒度，将文本内容划分为与划分粒度匹配的多个文本单元。

其中，划分粒度，可以包括句子、段落、篇章等等。例如，可以以段落为划分粒度，将文本内容划分为多个段落。

本申请实施例中，确定设定的划分粒度后，可以根据设定的划分粒度，将文本内容划分为与划分粒度匹配的多个文本单元。例如，设定的划分粒度为篇章，可以将文本内容划分为多个篇章。

步骤502，将各文本单元输入划分粒度对应的抽取模型，以得到与属性标签匹配的文本片段。

可以理解的是，设定的划分粒度不同时，对应的抽取模型也并不相同。例如，假设划分粒度为句子，将文本内容划分为多个句子后，可以将各句子输入句子对应的抽取模型，以得到与属性标签匹配的文本片段。

还例如，假设划分粒度为段落，将文本内容划分为多个段落后，可以将各段落输入对应的抽取模型，以得到与属性标签匹配的文本片段。

需要解释的是，句子对应的抽取模型与段落对应的抽取模型并不相同，各抽取模型采用对应的训练样本进行训练得到的，能够准确抽取出与属性标签匹配的文本片段。

本申请中，根据设定的划分粒度，将文本内容划分为与划分粒度匹配的多个文本单元，将各文本单元输入划分粒度对应的抽取模型，以得到与属性标签匹配的文本片段。由于不同划分粒度的文本单元对应的抽取模型是经过训练得到的，从而可以准确地抽取出与属性标签匹配的文本片段。

在上述实施例的基础上，将文本内容划分为多个文本单元后，还可以采用与属性标签和划分粒度对应的抽取策略对文本单元进行抽取，以得到文本片段。下面结合图6进行详细介绍，图6为本申请实施例提供的另一种用于抽取得到文本片段的子流程示意图。

如图6所示，上述步骤102，还可以包括以下步骤：

步骤601，根据设定的划分粒度，将文本内容划分为与划分粒度匹配的多个文本单元。

本申请实施例中，步骤601的实现过程，可以参见上述实施例中步骤101的实现过程，在此不再赘述。

步骤602，采用与属性标签和划分粒度对应的抽取策略，对各文本单元进行抽取，以得到与属性标签匹配的文本片段。

可以理解的是，配置的属性标签和划分粒度不同时，对应的抽取策略并不相同。采用与属性标签和划分粒度对应的抽取策略，对各文本单元进行抽取，以得到与属性标签匹配的文本片段。

例如，假设属性标签为实体，划分粒度为段落，可以采用与实体和段落对应的抽取策略，对各段落进行抽取，得到与实体匹配的文本片段。

本申请中，可以配置不同维度的属性标签，由此，基于属性标签和划分粒度对各文本单元进行抽取，从而可以准确地抽取出与属性标签匹配的文本片段。

作为一种示例，如图7所示，图7为本申请实施例提供的一种文档内容识别方法的示例图。如图7所示，该文档内容识别方法可以包括以下步骤：

步骤701，根据行业内容资源、互联网内容资源以及预置的知识图谱数据，通过标签知识冷启动策略生成标签知识体系。

其中，标签知识冷启动的流程为：基于规则挖掘结合通用模型挖掘的策略进行标签挖掘，对挖掘得到的标签进行聚类和统计筛选出高频中心标签，然后，通过边关系挂接构建标签知识体系。标签知识体系包括通用知识标签和行业知识标签。

步骤702，对输入的文档进行结构解析，以获取不同结构的文本内容。

其中，文本内容可以包括：文章段落内容、表格内容、图像扫描件内容以及图表内容。

步骤703，将文本内容输入到知识要素抽取模块中进行不同维度的要素抽取，以得到文档的实体、主题、侧面、关系和事件。

步骤704，将抽取得到的知识要素数据输入到内容标签理解模块中进行不同维度的内容理解策略，得到不同维度的文本内容知识标签，并进行结构化输出。

步骤705，响应于用户的配置操作，自定义配置属性标签和服务化接口。

本申请中，可以支持词典、模型、策略以及场景任务的自定义配置。还可以通过深度学习框架以及内部的分布式计算框架和模型工厂实现模型的服务化，通过服务化接口支持下游场景任务。

为了实现上述实施例，本申请提出了一种文档内容识别装置。

图8为本申请实施例提出的文档内容识别装置的结构示意图。

如图8所示，该文档内容识别装置800，可以包括：提取模块810、抽取模块820、查询模块830以及生成模块840。

其中，提取模块810，用于对文档进行文本提取，得到文本内容。

抽取模块820，用于根据配置的属性标签，从文本内容中抽取与属性标签匹配的文本片段。

查询模块830，用于查询知识图谱，以从知识图谱包含的知识节点中确定出与文本片段匹配的参考节点。

生成模块840，用于根据参考节点中的知识内容和文本片段，生成文档的主题内容。

作为一种可能的情况，生成模块840，还可以包括：

第一提取单元，用于对参考节点中的知识内容和文本片段进行语义提取，得到第一语义信息；

第二提取单元，用于对文档的标题和/或正文进行语义提取，得到第二语义信息；

确定单元，用于根据第一语义信息和第二语义信息之间的语义相似度，确定是否将文本片段作为文档的主题内容。

作为另一种可能的情况，知识图谱中各知识节点中包含词条，以及用于描述词条的知识内容；生成模块，还可以用于：

在知识图谱中，查询与参考节点中的知识内容关联的关联节点；根据文本片段与关联节点中的知识内容之间的语义相似度，确定是否将关联节点中的词条作为文档的主题内容。

作为另一种可能的情况，第一提取单元，还可以用于：

将参考节点中的知识内容和文本片段拼接，得到目标文本；对目标文本进行语义提取，得到第一语义信息。

作为另一种可能的情况，该文档内容识别装置800，还可以包括：

处理模块，用于响应于用户配置操作，从设定的标签体系中，确定配置的属性标签；其中，属性标签，用于表征逻辑关系、事件、实体、实体所属类别或实体组成部件中的一个或多个组合。

作为另一种可能的情况，抽取模块，还可以用于：

根据设定的划分粒度，将文本内容划分为与划分粒度匹配的多个文本单元；将各文本单元输入划分粒度对应的抽取模型，以得到与属性标签匹配的文本片段；或者，采用与属性标签和划分粒度对应的抽取策略，对各文本单元进行抽取，以得到与属性标签匹配的文本片段。

需要说明的是，前述对文档内容识别方法实施例的解释说明也适用于该文档内容识别装置，此处不再赘述

本申请中的文档内容识别装置，通过对文档进行文本提取，得到文本内容，根据配置的属性标签，从文本内容中抽取与属性标签匹配的文本片段，查询知识图谱，从知识图谱包含的知识节点中确定出与文本片段匹配的参考节点后，根据参考节点中的知识内容和文本片段，生成文档的主题内容。由此，通过将知识图谱与文本内容中抽取出来的文本片段进行了关联，丰富了抽取出的文本片段的语义，进而，基于该丰富了语义的文本片段进行文档的主题内容的生成，能够使得生成的主题内容更加准确的表征文档的核心。

为了实现上述实施例，本申请提出了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例的文档内容识别方法。

为了实现上述实施例，本申请提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述实施例中所述的文档内容识别方法。

为了实现上述实施例，本申请提出了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现第一方面实施例所述的文档内容识别方法。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的文档内容识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的文档内容识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的文档内容识别方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的文档内容识别的方法对应的程序指令/模块(例如，附图8所示的提取模块810、抽取模块820、查询模块830以及生成模块840)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的文档内容识别方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

文档内容识别方法的电子设备还可以包括：输入装903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与文档内容识别的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，通过对文档进行文本提取，得到文本内容，根据配置的属性标签，从文本内容中抽取与属性标签匹配的文本片段，查询知识图谱，从知识图谱包含的知识节点中确定出与文本片段匹配的参考节点后，根据参考节点中的知识内容和文本片段，生成文档的主题内容。由此，通过将知识图谱与文本内容中抽取出来的文本片段进行了关联，丰富了抽取出的文本片段的语义，进而，基于该丰富了语义的文本片段进行文档的主题内容的生成，能够使得生成的主题内容更加准确的表征文档的核心。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种文档内容识别方法，包括：

对文档进行文本提取，得到文本内容；

2.根据权利要求1所述的文档内容识别方法，其中，所述根据所述参考节点中的知识内容和所述文本片段，生成所述文档的主题内容，包括：

3.根据权利要求1所述的文档内容识别方法，其中，所述知识图谱中各所述知识节点中包含词条，以及用于描述所述词条的知识内容；所述根据所述参考节点中的知识内容和所述文本片段，生成所述文档的主题内容，包括：

4.根据权利要求2所述的文档内容识别方法，其中，所述对所述参考节点中的知识内容和所述文本片段进行语义提取，得到第一语义信息，包括：

对所述目标文本进行语义提取，得到所述第一语义信息。

5.根据权利要求1-4任一项所述的文档内容识别方法，其中，所述根据配置的属性标签，从所述文本内容中抽取与所述属性标签匹配的文本片段之前，还包括：

6.根据权利要求1-4任一项所述的文档内容识别方法，其中，所述根据配置的属性标签，从所述文本内容中抽取与所述属性标签匹配的文本片段，包括：

将各所述文本单元输入所述划分粒度对应的抽取模型，以得到与所述属性标签匹配的文本片段；或者，采用与所述属性标签和所述划分粒度对应的抽取策略，对各所述文本单元进行抽取，以得到与所述属性标签匹配的文本片段。

7.一种文档内容识别装置，包括：

提取模块，用于对文档进行文本提取，得到文本内容；

8.根据权利要求7所述的文档内容识别装置，其中，所述生成模块，包括：

第一提取单元，用于对所述参考节点中的知识内容和所述文本片段进行语义提取，得到第一语义信息；

第二提取单元，用于对所述文档的标题和/或正文进行语义提取，得到第二语义信息；

确定单元，用于根据所述第一语义信息和所述第二语义信息之间的语义相似度，确定是否将所述文本片段作为所述文档的主题内容。

9.根据权利要求7所述的文档内容识别装置，其中，所述知识图谱中各所述知识节点中包含词条，以及用于描述所述词条的知识内容；所述生成模块，还用于：

10.根据权利要求8所述的文档内容识别装置，其中，所述第一提取单元，还用于：

对所述目标文本进行语义提取，得到所述第一语义信息。

11.根据权利要求7-10任一项所述的文档内容识别装置，其中，所述装置，还包括：

处理模块，用于响应于用户配置操作，从设定的标签体系中，确定配置的所述属性标签；其中，所述属性标签，用于表征逻辑关系、事件、实体、实体所属类别或实体组成部件中的一个或多个组合。

12.根据权利要求7-10任一项所述的文档内容识别装置，其中，所述抽取模块，还用于：

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的文档内容识别方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的文档内容识别方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的文档内容识别方法。