CN110210038B

CN110210038B - 核心实体确定方法及其系统、服务器和计算机可读介质

Info

Publication number: CN110210038B
Application number: CN201910511841.1A
Authority: CN
Inventors: 王述; 任可欣; 冯知凡; 张扬; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2023-01-10
Anticipated expiration: 2039-06-13
Also published as: CN110210038A

Abstract

本公开提供了一种面向文本文档的核心实体确定方法，包括：确定待处理文本文档中所包含的实体，以作为目标实体；从预定知识图谱中分别抽取出各目标实体的实体边关系和实体属性，并针对每一个目标实体,根据该目标实体的实体边关系和实体属性生成该目标实体对应的语义信息，并基于该目标实体所对应的语义信息生成该目标实体的语义特征；针对每一个目标实体，根据至少该目标实体的语义特征，生成该目标实体的特征向量；针对每一个目标实体，将该目标实体的特征向量输入至预定核心实体分类模型中以得到分类结果，并基于分类结果确定出该目标实体为核心实体或非核心实体。本公开还提供了一种面向文本文档的核心实体确定系统、服务器和计算机可读介质。

Description

核心实体确定方法及其系统、服务器和计算机可读介质

技术领域

本发明涉及大数据处理领域，特别涉及一种核心实体确定方法及其系统、服务器和计算机可读介质。

背景技术

核心实体确定技术(也称为核心实体标注技术)能够从文本资源中提取出文章资源所主要描述的核心实体信息，从而能帮助用户更好的理解网页文本资源或者根据用户的意图推荐更符合用户需求的文本资源。

此前，主要通过文本关键词提取的方法来提取文本文档中能够描述文本文档核心内容的关键词，并将这些关键词作为核心实体，预期这些关键词能够准确地反映其主要内容。然而，在实际应用中发现，现有技术所提取出的关键词并不能很好的对文本文档中的实体进行覆盖，同时无法判断关键词是否为实体以及关键词到实体的链接关系，从而缺失关键词的语义信息，难以满足不同的应用需求。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一，提出了一种核心实体确定方法及其系统、服务器和计算机可读介质。

第一方面，本公开实施例提供了一种面向文本文档的核心实体确定方法，包括：

确定待处理文本文档中所包含的实体，以作为目标实体；

从预定知识图谱中分别抽取出各所述目标实体的实体边关系和实体属性，并针对每一个所述目标实体,根据该目标实体的所述实体边关系和实体属性生成该目标实体对应的语义信息，并基于该目标实体所对应的所述语义信息生成该目标实体的语义特征；

针对每一个所述目标实体，根据至少该目标实体的语义特征，生成该目标实体的特征向量；

针对每一个所述目标实体，将该目标实体的特征向量输入至预定核心实体分类模型中以得到分类结果，并基于所述分类结果确定出该目标实体为核心实体或非核心实体。

在一些实施例中，所述确定待处理文本文档中所包含的实体的步骤包括：

采用预定词提取算法从所述待处理文本文档中提取出提及词；

针对每一个所述提及词，将该提及词与预定知识图谱进行链接，并基于链接结果确定出该提及词为实体或非实体。

在一些实施例中，所述针对每一个所述目标实体,根据至少该目标实体的语义特征，生成该目标实体的特征向量的步骤之前还包括：

采用预定切分算法对所述待处理文本文档进行切分，以得到多个待处理句子；

采用预定文本排序算法对全部所述待处理句子进行排序，并根据排序结果生成各所述待处理句子的句子排序特征；

所述根据至少该目标实体的语义特征，生成该目标实体的特征向量的步骤具体包括：

根据至少该目标实体的语义特征和该目标实体所归属的所述待处理句子的所述句子排序特征，生成该目标实体的特征向量。

针对每一个所述目标实体，采用预定词转换向量算法该目标实体进行转换处理，以生成该目标实体对应的词转换向量；

针对每一个所述目标实体，计算该目标实体的词转换向量与其他各目标实体的词转换向量之间的余弦相似度，并基于计算结果构建出该目标实体所对应的第一余弦相似度向量；

根据至少该目标实体的语义特征和该目标实体所对应的词转换特征，生成该目标实体的特征向量；其中，该目标实体所对应的词转换特征包括：该目标实体对应的词转换向量和该目标实体所对应的第一余弦相似度向量。

针对每一个所述目标实体，从所述预定知识图谱中抽取出该所述目标实体的实体属性，并基于抽取出的实体属性构建出该目标实体所对应的实体转换向量；

针对每一个所述目标实体，计算该目标实体的实体转换向量与其他各目标实体的实体转换向量之间的余弦相似度，并基于计算结果生成该目标实体所对应的第二余弦相似度向量；

根据至少该目标实体的语义特征和该目标实体所对应的实体转换特征，生成该目标实体的特征向量；其中，该目标实体所对应的实体转换特征包括：该目标实体对应的实体转换向量和该目标实体所对应的第二余弦相似度向量。

针对每一个所述待处理句子，采用预定依存句法分析算法对该待处理句子进行分析，以生成该待处理句子所对应的依存句法特征；

根据至少该目标实体的语义特征和该目标实体所归属的所述待处理句子所对应的依存句法特征，生成该目标实体的特征向量。

针对每一个所述目标实体，获取该目标实体在所述待处理文本文档中的统计特征；

根据至少该目标实体的语义特征和该目标实体所对应的统计特征，生成该目标实体的特征向量。

在一些实施例中，所述统计特征包括：该目标实体的词频数值和/或该目标实体的频率-逆文本频率指数值。

在一些实施例中，所述预定核心实体分类模型为XGBoost分类模型。

第二方面，本公开实施例提供了一种面向文本文档的核心实体确定系统，包括：

第一确定模块，用于确定待处理文本文档中所包含的实体，以作为目标实体；

第一抽取模块，从预定知识图谱中分别抽取出各所述目标实体的实体边关系和实体属性，并针对每一个所述目标实体,根据该目标实体的所述实体边关系和实体属性生成该目标实体对应的语义信息，并基于该目标实体所对应的所述语义信息生成该目标实体的语义特征；

第一生成模块，用于针对每一个所述目标实体,根据至少该目标实体的语义特征，生成该目标实体的特征向量；

第二确定模块，用于针对每一个所述目标实体，将该目标实体的特征向量输入至预定核心实体分类模型中以得到分类结果，并基于所述分类结果确定出该目标实体为核心实体或非核心实体。

在一些实施例中，所述第一确定模块包括：

提取单元，用于采用预定词提取算法从所述待处理文本文档中提取出提及词；

链接单元，用于针对每一个所述提及词，将该提及词与预定知识图谱进行链接，并基于链接结果确定出该提及词为实体或非实体。

在一些实施例中，还包括：

切分模块，用于采用预定切分算法对所述待处理文本文档进行切分，以得到多个待处理句子；

排序模块，用于采用预定文本排序算法对全部所述待处理句子进行排序，并根据排序结果生成各所述待处理句子的句子排序特征；

所述第一生成模块具体用于针对每一个所述目标实体，根据至少该目标实体的语义特征和该目标实体所归属的所述待处理句子的所述句子排序特征，生成该目标实体的特征向量。

在一些实施例中，还包括：

转换模块，用于针对每一个所述目标实体，采用预定词转换向量算法该目标实体进行转换处理，以生成该目标实体对应的词转换向量；

第一计算模块，用于针对每一个所述目标实体，计算该目标实体的词转换向量与其他各目标实体的词转换向量之间的余弦相似度，并基于计算结果构建出该目标实体所对应的第一余弦相似度向量；

所述第一生成模块具体用于针对每一个所述目标实体，根据至少该目标实体的语义特征和该目标实体所对应的词转换特征，生成该目标实体的特征向量；其中，该目标实体所对应的词转换特征包括：该目标实体对应的词转换向量和该目标实体所对应的第一余弦相似度向量。

在一些实施例中，还包括：

第二抽取模块，用于针对每一个所述目标实体，从所述预定知识图谱中抽取出该所述目标实体的实体属性，并基于抽取出的实体属性构建出该目标实体所对应的实体转换向量；

第二计算模块，用于针对每一个所述目标实体，计算该目标实体的实体转换向量与其他各目标实体的实体转换向量之间的余弦相似度，并基于计算结果生成该目标实体所对应的第二余弦相似度向量；

所述第一生成模块具体用于针对每一个所述目标实体，根据至少该目标实体的语义特征和该目标实体所对应的实体转换特征，生成该目标实体的特征向量；其中，该目标实体所对应的实体转换特征包括：该目标实体对应的实体转换向量和该目标实体所对应的第二余弦相似度向量。

在一些实施例中，还包括：

分析模块，用于针对每一个所述待处理句子，采用预定依存句法分析算法对该待处理句子进行分析，以生成该待处理句子所对应的依存句法特征；

所述第一生成模块具体用于针对每一个所述目标实体，根据至少该目标实体的语义特征和该目标实体所归属的所述待处理句子所对应的依存句法特征，生成该目标实体的特征向量。

在一些实施例中，还包括：

获取模块，用于针对每一个所述目标实体，获取该目标实体在所述待处理文本文档中的统计特征；

所述第一生成模块具体用于根据至少该目标实体的语义特征和该目标实体所对应的统计特征，生成该目标实体的特征向量。

第三方面，本公开实施例还提供了一种服务器，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前述任一实施例所提供的方法。

第四方面，本公开实施例还提供了一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如前述任一实施例所提供的方法。

本发明具有以下有益效果：

本公开实施例提供了一种核心实体确定方法，可自动、全面的对文本文档中的核心实体进行标注，可便于后续进行文本语义理解、网页推荐、信息流推荐、实体资源解读等操作。

附图说明

图1为本公开实施例提供的一种面向文本文档的核心实体确定方法的流程图；

图2为本公开中步骤S1的一种具体实现流程图；

图3本公开实施例提供的另一种面向文本文档的核心实体确定方法的流程图；

图4本公开实施例提供的又一种面向文本文档的核心实体确定方法的流程图；

图5本公开实施例提供的再一种面向文本文档的核心实体确定方法的流程图；

图6本公开实施例提供的再一种面向文本文档的核心实体确定方法的流程图；

图7本公开实施例提供的再一种面向文本文档的核心实体确定方法的流程图；

图8为本公开实施例提供的一种核心实体确定系统的结构框图；

图9为本公开中第一确定模块的一种结构框图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图对本发明提供的一种核心实体确定方法及其系统、服务器和计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

将理解的是，虽然本文可以使用术语第一、第二等来描述各种元件，但这些元件不应当受限于这些术语。这些术语仅用于区分一个元件和另一元件。因此，在不背离本公开的指教的情况下，下文讨论的第一元件、第一组件或第一部件可称为第二元件、第二组件或第二部件。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

为便于本领域技术人员更清楚的理解本公开的技术方案，下面将本公开中所涉及的部分术语进行详细解释。

本公开中的“实体”(Entity)是指是具有可区别性且独立存在的某种事物；“核心实体”是指文本文档中重要程度相对较高的实体，核心实体能够在一定程度上反映文本文档所表述的主要内容。

另外，本公开的技术方案基于“预定知识图谱”，该预定知识图谱为文本处理领域常用的知识图谱(Knowledge Graph)。其中，知识图谱是一种结构化的语义知识库，用于迅速描述物理世界中的概念及其相互关系；知识图谱一般包含三种元素：实体、关系(Relationship，也称为)和属性(Attribute)；其中，“关系”也可称为“边关系”，用于是连接不同的实体，指代其所连接的实体之间的联系；“属性”与实体连接，“属性”及其所携带的属性值用于描述对应的实体；知识图谱的基本单元为三元组，三元组有如下两种形式“实体-关系-实体”和“实体-属性-属性值”，知识图谱可以看作是三元组集合。

图1为本公开实施例提供的一种面向文本文档的核心实体确定方法的流程图，如图1所示，包括：

步骤S1、确定待处理文本文档中所包含的实体，以作为目标实体。

图2为本公开中步骤S1的一种具体实现流程图，如图2所示，作为本公开中步骤S1的一种可选实现技术方案，步骤S1包括：

步骤S101、采用预定词提取算法从待处理文本文档中提取出提及词。

作为一种可选实现方案，可通过调用自然语言(Natural Language Processing，简称NLP)工具内的命名实体识别组件(预先编辑有预定词提取算法)，来对待处理文本文档进行词提取处理，以得到该待处理文本文档所包含的全部提及(Mention)词。需要说明的是，本公开中的预定词提取算法可采用现有技术中任意的词提取算法。

步骤S102、针对每一个提及词，将该提及词与预定知识图谱进行链接，并基于链接结果确定出该提及词为实体或非实体。

作为一种可选实现方案，可通过调用NLP工具中的实体标注&链接组件分别将各Mention词与预定知识图谱进行链接。其中，将Mention词与预定知识图谱进行链接的目的在于，确定该Mention词是否为实体，以及在确定出该Mention词为实体时进一步确定出Mention词在预定知识图谱内所关联的实体。

以某一个Mention词与预定知识图谱进行链接过程为例，当链接结果为一个空链接(链接结果为Nil)时，则表示该知识图谱内不存在与该Mention词相关联的实体，该Mention词为非实体；当链接结果为一个非空链接时，例如链接结果为“Mention词1”链接“实体1”，则表明待处理文本文档中的“Mention词1”为实体，且该“Mention词1”可映射为预定知识图谱中的“实体1”(预定知识图谱中的“实体1”可表征待处理文本文档中的“Mention词1”)。需要说明的是，将Mention词与预定知识图谱进行链接的具体过程，属于本领域的常规技术，此处不再赘述。

需要说明的是，采用步骤S101和步骤S102来确定待处理文本文档中所包含的实体情况，仅为本公开中的一种可选实施方案，其不会对本公开的技术方案产生限制。在本公开中，还可以采用其他实体提取(确定)算法来确定出待处理文本文档中所包含的实体。

在确定出待处理文本文档中所包含的实体之后，将所确定出的实体作为目标实体。

步骤S2、从预定知识图谱中分别抽取出各目标实体的实体边关系和实体属性，并针对每一个目标实体,根据该目标实体的实体边关系和实体属性生成该目标实体对应的语义信息，并基于该目标实体所对应的语义信息提取出该目标实体的语义特征。

在步骤S2中，针对每一个目标实体，从预定知识图谱中抽取出该目标实体的全部实体边关系和实体属性，并根据该目标实体的实体边关系和实体属性生成该目标实体对应的语义信息。需要说明的是，根据目标实体的实体边关系和实体属性生成目标实体的语义信息的过程属于本领域的常规技术。

在提取出目标实体的语义信息后，采用预定语义特征提取算法对语义信息进行特征提取，以得到该目标实体的语义特征；该目标实体的语义特征可在一定程度上反映出该目标实体的重要程度。

步骤S3、针对每一个目标实体,根据至少该目标实体的语义特征，生成该目标实体的特征向量。

在步骤S3中，针对每一个目标实体根据至少该目标实体的语义特征，生成该目标实体的特征向量。需要说明的是，在本公开中目标实体的特征向量至少包括该目标实体的语义特征，当然还可以包括其他的特征，具体内容可参见后续实施例中的描述。

步骤S4、针对每一个目标实体，将该目标实体的特征向量输入至预定核心实体分类模型中以得到分类结果，并基于分类结果确定出该目标实体为核心实体或非核心实体。

在步骤S4中，预定核心实体分类模型为基于深度学习技术预先训练好的一个二分类模型，在训练该核心实体分类模型的过程中，所选用的正样本为由人工预先标定为核心实体的实体样本。该核心实体分类模型具备根据所输入的目标实体的特征向量来评估该目标实体属于核心实体的概率值(分类结果)的功能。为进一步确定出该目标实体为核心实体或非核心实体，可预先设置一个预定阈值(例如80％，具体取值可根据实际需要进行设定、调整)，并将概率值与预定阈值进行比较；当比较出该概率值大于或等于预定阈值时，则可以确定出目标实体为核心实体，当比较出该概率值小于预定阈值时，则可以确定出该目标实体为非核心实体。

在实际应用中，也可以将用于比较概率值与预定阈值大小的功能模块集成在核心实体分类模型中，此时核心实体分类模型可以直接输出该目标实体为核心实体或非核心实体。

可选地，预定核心实体分类模型为XGBoost分类模型。

需要说明的是，基于机器学习技术根据样本来训练出相应分类模型的过程属于本领域的常规技术，此处不进行详细描述。

本公开提供了一种基于知识图谱的核心实体确定方法，可自动、全面的对文本文档中的核心实体进行标注，可便于后续进行文本语义理解、网页推荐、信息流推荐、实体资源解读等操作。

图3本公开实施例提供的另一种面向文本文档的核心实体确定方法的流程图，如图3所示，图3所示方法不但包括前述实施例中的步骤S1～步骤S4，且在步骤S3之前还包括步骤Sa和步骤Sb，此时步骤S3具体包括步骤S301。对于步骤S1、步骤S2和步骤S4的具体描述，可参见前述实施例中相应内容，下面仅对步骤Sa、步骤Sb以及步骤S301进行详细描述。

步骤Sa、采用预定切分算法对待处理文本文档进行切分，以得到多个待处理句子。

作为一种可选实现方案，可通过调用NLP工具内的分句组件(预先编辑有预定句子分割算法)，来对待处理文本文档进行切分，以得到多个待处理句子。

步骤Sb、采用预定文本排序算法对全部待处理句子进行排序，并根据排序结果生成各待处理句子的句子排序特征。

在步骤Sb中，通过预定文本排序算法(例如TextRank算法)来对全部待处理句子进行排序，得到排序结果；该排序结果为以待处理句子的重要程度由高至低进行排序的序列。针对每一个待处理句子，该待处理句子在排序结果中的位次作为该待处理句子的句子排序特征。

步骤S301、针对每一个目标实体，根据至少该目标实体的语义特征和该目标实体所归属的待处理句子的句子排序特征，生成该目标实体的特征向量。

在步骤S301中，针对每一个目标实体，根据至少该目标实体的语义特征和该目标实体所归属的待处理句子的句子排序特征，生成该目标实体的特征向量。即，在本实施例中，目标实体的特征向量至少包括该目标实体的语义特征和该目标实体所归属的待处理句子的句子排序特征。

对于任意一个目标实体而言，该目标实体而言所归属的待处理句子的重要程度，也可以在一定程度上反映出该目标实体的重要程度。通过从目标实体的不同方面的特征(语义特征和句子排序特征)来评估目标实体是否为核心实体，可有效提升评估结果的准确性。

需要说明的是，本实施例中的步骤Sa和步骤Sb可后于步骤S1和步骤S2执行(图3中所示)，也可先于步骤S1和步骤S2执行，或与步骤S1和步骤S2同步执行，其均属于本公开的保护范围。

图4本公开实施例提供的又一种面向文本文档的核心实体确定方法的流程图，如图4所示，图4所示方法不但包括前述实施例中的步骤S1～步骤S4，且在步骤S3之前还包括步骤Sc和步骤Sd，此时步骤S3具体包括步骤S302。对于步骤S1、步骤S2和步骤S4的具体描述，可参见前述实施例中相应内容，下面仅对步骤Sc、步骤Sd以及步骤S302进行详细描述。

步骤Sc、针对每一个目标实体，采用预定词转换向量算法该目标实体进行转换处理，以生成该目标实体对应的词转换向量。

在步骤Sc中，通过预定词转换向量算法(也称为Word2Vec算法)，来对目标实体进行转换处理，以将目标实体映射为一个词向量，该词向量又称为词转换向量。可选地，预定词转换向量算法包括：连续词袋(Continuous Bag-of-Words，简称CBOW)模型算法或连续跳跃元语(Skip-Gram)算法。

步骤Sd、针对每一个目标实体，计算该目标实体的词转换向量与其他各目标实体的词转换向量之间的余弦相似度，并基于计算结果构建出该目标实体所对应的第一余弦相似度向量。

在本公开中，假定步骤S1提取出的目标实体数量为N，则对于第i个的目标实体的第一余弦相似度向量Ai可表示为：

Ai(w₁，w₂,…，w_m，…，w_N)

第一余弦相似度向量Ai中的第m项w_m表示第i的目标实体与第m个目标实体的词转换向量的余弦相似度，1≤m≤N，且m为整数。

第i个的目标实体的第一余弦相似度向量Ai可表征出第i个的目标实体与其他各目标实体之间的关系。

步骤S302、针对每一个目标实体，根据至少该目标实体的语义特征和该目标实体所对应的词转换特征，生成该目标实体的特征向量；其中，该目标实体所对应的词转换特征包括：该目标实体对应的词转换向量和该目标实体所对应的第一余弦相似度向量。

在步骤S302中，针对每一个目标实体，根据至少该目标实体的语义特征和该目标实体所对应的词转换特征，生成该目标实体的特征向量。即，在本实施例中，目标实体的特征向量至少包括该目标实体的语义特征和该目标实体的词转换特征。

在本实施例中，通过从目标实体的不同方面的特征(语义特征和词转换特征)来评估目标实体是否为核心实体，可有效提升评估结果的准确性。

需要说明的是，本实施例中的步骤Sc和步骤Sd可后于步骤S2执行(图4中所示)，也可先于步骤S2执行，或与步骤S2同步执行，其均属于本公开的保护范围，仅需保证步骤Sc和步骤Sd位于步骤S1和步骤S3之间即可。

图5本公开实施例提供的再一种面向文本文档的核心实体确定方法的流程图，如图5所示，图5所示方法不但包括前述实施例中的步骤S1～步骤S4，且在步骤S3之前还包括步骤Se和步骤Sf，此时步骤S3具体包括步骤S303。对于步骤S1、步骤S2和步骤S4的具体描述，可参见前述实施例中相应内容，下面仅对步骤Se、步骤Sf以及步骤S303进行详细描述。

步骤Se、针对每一个目标实体，从预定知识图谱中抽取出该目标实体的实体属性，并基于抽取出的实体属性构建出该目标实体所对应的实体转换向量。

在步骤Se中，针对每一个目标实体，基于实体转换向量(Entity2Vec)算法，从预定知识图谱中抽取出该目标实体的实体属性(包括与该目标实体所连接的全部属性以及相对应的属性值)，并基于抽取出的实体属性构建出该目标实体所对应的实体转换向量。

作为一种可选方案，假定预定知识图谱中共计有Q个不同属性，则目标实体所对应的实体转换向量可以设为Q维度，每一维对应一个属性。在针对某一个目标实体生成该目标实体所对应的实体转换向量过程中，针对实体转换向量中的每一维，若能够从知识图谱中抽取出目标实体在该维所对应的属性的属性值(目标实体具有相应属性和属性值)，则将该属性值作为该维的取值；若不能够从知识图谱中抽取出该目标实体在该维所对应的属性的属性值(目标实体不具有相应属性和属性值)，则将该维的取值设定为预先设定常数。

当然，本公开中还可以基于其他规则来生成目标实体所对应的实体转换向量。本领域技术人员应该知晓的是，但凡是基于目标实体的实体属性以生成相应实体转换向量的全部技术手段，均适用于本公开的技术方案。在本公开中，仅需保证各目标实体所对应的实体转换向量的格式相同即可。

步骤Sf、针对每一个目标实体，计算该目标实体的实体转换向量与其他各目标实体的实体转换向量之间的余弦相似度，并基于计算结果生成该目标实体所对应的第二余弦相似度向量。

在本公开中，假定步骤S1提取出的目标实体数量为N，则对于第i个的目标实体的第二余弦相似度向量Bi可表示为：

Bi(r₁，r₂,…，r_m，…，r_N)

第二余弦相似度向量Bi中的第m项r_m表示第i的目标实体与第m个目标实体的实体转换向量的余弦相似度，1≤m≤N，且m为整数。

第i个的目标实体的第一余弦相似度向量Bi可表征出第i个的目标实体与其他各目标实体之间的关系。

步骤S303、根据至少该目标实体的语义特征和该目标实体所对应的实体转换特征，生成该目标实体的特征向量；其中，该目标实体所对应的实体转换特征包括：该目标实体对应的实体转换向量和该目标实体所对应的第二余弦相似度向量。

在步骤S303中，针对每一个目标实体，根据至少该目标实体的语义特征和该目标实体所对应的实体转换特征，生成该目标实体的特征向量。即，在本实施例中，目标实体的特征向量至少包括该目标实体的语义特征和该目标实体的实体转换特征。

在本实施例中，通过从目标实体的不同方面的特征(语义特征和实体转换特征)来评估目标实体是否为核心实体，可有效提升评估结果的准确性。

需要说明的是，本实施例中的步骤Se和步骤Sf可后于步骤S2执行(图5中所示)，也可先于步骤S2执行，或与步骤S2同步执行，其均属于本公开的保护范围，仅需保证步骤Se和步骤Sf位于步骤S1和步骤S3之间即可。

图6本公开实施例提供的再一种面向文本文档的核心实体确定方法的流程图，如图6所示，图6所示方法不但包括前述实施例中的步骤S1～步骤S4，且在步骤S3之前还包括步骤Sg和步骤Sh，此时步骤S3具体包括步骤S304。对于步骤S1、步骤S2和步骤S4的具体描述，可参见前述实施例中相应内容，下面仅对步骤Sg、步骤Sh以及步骤S304进行详细描述。

步骤Sg、采用预定切分算法对待处理文本文档进行切分，以得到多个待处理句子。

步骤Sh、针对每一个待处理句子，采用预定依存句法分析算法对该待处理句子进行分析，以生成该待处理句子所对应的依存句法特征。

作为一种可选实现方案，针对每一个待处理句子，可通过调用NLP工具内的依存句法分析组件，来分别对该待处理句子进行分析，分析结果作为待处理句子所对应的依存句法特征。

需要说明的是，本公开中的“依存句法分析”，是指通过一定手段将句子分析成一棵依存句法树，依存句法树用于描述出各个词语之间的依存关系，也即指出了词语之间在句法上的搭配关系，这种搭配关系是和语义相关联的。

步骤S304、针对每一个目标实体，根据至少该目标实体的语义特征和该目标实体所归属的待处理句子所对应的依存句法特征，生成该目标实体的特征向量。

在步骤S304中，针对每一个目标实体，根据至少该目标实体的语义特征和该目标实体所归属的待处理句子的依存句法特征，生成该目标实体的特征向量。即，在本实施例中，目标实体的特征向量至少包括该目标实体的语义特征和该目标实体所归属的待处理句子的依存句法特征。

对于任意一个目标实体而言，该目标实体而言所归属的待处理句子的依存句法特征，也可以在一定程度上反映出该目标实体的重要程度。通过从目标实体的不同方面的特征(语义特征和依存句法特征)来评估目标实体是否为核心实体，可有效提升评估结果的准确性。

需要说明的是，本实施例中的步骤Sg和步骤Sh可后于步骤S1和步骤S2执行(图6中所示)，也可先于步骤S1和步骤S2执行，或与步骤S1和步骤S2同步执行，其均属于本公开的保护范围。

图7本公开实施例提供的再一种面向文本文档的核心实体确定方法的流程图，如图7所示，图7所示方法不但包括前述实施例中的步骤S1～步骤S4，且在步骤S3之前还包括步骤Si，此时步骤S3具体包括步骤S305。对于步骤S1、步骤S2和步骤S4的具体描述，可参见前述实施例中相应内容，下面仅对步骤Si以及步骤S305进行详细描述。

步骤Si、针对每一个目标实体，获取该目标实体在待处理文本文档中的统计特征。

在步骤Si中，基于预定统计算法来获取每个目标实体的统计特征。作为一种可选方案，统计特征包括：该目标实体的词频数值和/或该目标实体的频率-逆文本频率指数(Term Frequency–Inverse Document Frequency，简称TF-IDF)值。

步骤S305、针对每一个目标实体，根据至少该目标实体的语义特征和该目标实体所对应的统计特征，生成该目标实体的特征向量。

在步骤S305中，针对每一个目标实体，根据至少该目标实体的语义特征和该目标实体所对应的统计特征，生成该目标实体的特征向量。即，在本实施例中，目标实体的特征向量至少包括该目标实体的语义特征和该目标实体的统计特征。

在本实施例中，通过从目标实体的不同方面的特征(语义特征和统计特征)来评估目标实体是否为核心实体，可有效提升评估结果的准确性。

需要说明的是，本实施例中的步骤Se和步骤Sf可后于步骤S2执行(图7中所示)，也可先于步骤S2执行，或与步骤S2同步执行，其均属于本公开的保护范围，仅需保证步骤Se和步骤Sf位于步骤S1和步骤S3之间即可。

需要说明的是，上述各实施例仅起到对本公开的技术方案进行示例的作用，并不会对本公开的技术方案产生限制。在本公开中，上述各实施例中的不同步骤之间可以相互组合以构成新技术方案，该组合出的新技术方案也属于本公开的保护范围。

具体地，图3中用于获取的句子排序特征的步骤Sa和步骤Sb、图4中用于获取词转换特征(包括词转换向量和第一余弦相似度向量)的步骤Sc和步骤Sd、图5中用于获取实体转换特征(包括实体转换向量和第二余弦相似度向量)的步骤Se和步骤Sf、图6中用于获取依存句法特征的步骤Sg和步骤Sh、以及图7中用于获取统计特征的步骤Si中的至少两者相互组合，再与上述实施例一中步骤S1～步骤S4进行组合，可构成的新技术方案。

作为一种优选方案，本公开提供的核心实体确定方法不但包括步骤S1～步骤S4，还同时包括上述步骤Sa、步骤Sb、步骤Sc、步骤Sd、步骤Se、步骤Sf、步骤Sg、步骤Sh和步骤Si，此时，在步骤S3之前可获取到语义特征、句子排序特征、词转换特征、实体转换特征、依存句法特征和统计特征。此时，在步骤S3中，针对每一个目标实体，可根据该目标实体的语义特征、句子排序特征、词转换特征、实体转换特征、依存句法特征和统计特征，生成该目标实体的特征向量。此时，通过从目标实体的更多方面的特征(语义特征、句子排序特征、词转换特征、实体转换特征、依存句法特征和统计特征)来评估目标实体是否为核心实体，可有效提升评估结果的准确性。

对于通过上述各实施例的组合以得到的新技术方案，此处不再一一举例描述。

图8为本公开实施例提供的一种核心实体确定系统的结构框图，如图8所示，该核心实体确定系统可用于实现各实施例所提供的核心实体确定方法，该核心实体确定系统包括：第一确定模块1、第一抽取模块2、第一生成模块3和第二确定模块4。

其中，第一确定模块1用于确定待处理文本文档中所包含的实体，以作为目标实体。

第一抽取模块2从预定知识图谱中分别抽取出各目标实体的实体边关系和实体属性，并针对每一个目标实体,根据该目标实体的实体边关系和实体属性生成该目标实体对应的语义信息，并基于该目标实体所对应的语义信息生成该目标实体的语义特征。

第一生成模块3用于针对每一个目标实体,根据至少该目标实体的语义特征，生成该目标实体的特征向量。

第二确定模块4用于针对每一个目标实体，将该目标实体的特征向量输入至预定核心实体分类模型中以得到分类结果，并基于分类结果确定出该目标实体为核心实体或非核心实体。其中，可选地，预定核心实体分类模型为XGBoost分类模型。

图9为本公开中第一确定模块的一种结构框图，如图9所示，第一确定模块1包括：提取单元101和链接单元102。

提取单元101用于采用预定词提取算法从待处理文本文档中提取出提及词。

链接单元101用于针对每一个提及词，将该提及词与预定知识图谱进行链接，并基于链接结果确定出该提及词为实体或非实体。

在一些实施例中，核心实体确定系统还包括：切分模块5和排序模块6。

其中，切分模块5用于采用预定切分算法对待处理文本文档进行切分，以得到多个待处理句子。

排序模块6用于采用预定文本排序算法对全部待处理句子进行排序，并根据排序结果生成各待处理句子的句子排序特征。

此时，第一生成模块3具体用于针对每一个目标实体，根据至少该目标实体的语义特征和该目标实体所归属的待处理句子的句子排序特征，生成该目标实体的特征向量。

在一些实施例中，核心实体确定系统还包括：转换模块7和第一计算模块8。

其中，转换模块7用于针对每一个目标实体，采用预定词转换向量算法该目标实体进行转换处理，以生成该目标实体对应的词转换向量。

第一计算模块8用于针对每一个目标实体，计算该目标实体的词转换向量与其他各目标实体的词转换向量之间的余弦相似度，并基于计算结果构建出该目标实体所对应的第一余弦相似度向量。

此时，第一生成模块3具体用于针对每一个目标实体，根据至少该目标实体的语义特征和该目标实体所对应的词转换特征，生成该目标实体的特征向量；其中，该目标实体所对应的词转换特征包括：该目标实体对应的词转换向量和该目标实体所对应的第一余弦相似度向量。

在一些实施例中，核心实体确定系统还包括：第二抽取模块9和第二计算模块10。

其中，第二抽取模块9用于针对每一个目标实体，从预定知识图谱中抽取出该目标实体的实体属性，并基于抽取出的实体属性构建出该目标实体所对应的实体转换向量。

第二计算模块10用于针对每一个目标实体，计算该目标实体的实体转换向量与其他各目标实体的实体转换向量之间的余弦相似度，并基于计算结果生成该目标实体所对应的第二余弦相似度向量。

此时，第一生成模块3具体用于针对每一个目标实体，根据至少该目标实体的语义特征和该目标实体所对应的实体转换特征，生成该目标实体的特征向量；其中，该目标实体所对应的实体转换特征包括：该目标实体对应的实体转换向量和该目标实体所对应的第二余弦相似度向量。

在一些实施例中，核心实体确定系统还包括：切分模块11和分析模块12。

其中，切分模块11用于采用预定切分算法对待处理文本文档进行切分，以得到多个待处理句子。

分析模块12用于针对每一个待处理句子，采用预定依存句法分析算法对该待处理句子进行分析，以生成该待处理句子所对应的依存句法特征。

此时，第一生成模块3具体用于针对每一个目标实体，根据至少该目标实体的语义特征和该目标实体所归属的待处理句子所对应的依存句法特征，生成该目标实体的特征向量。

在一些实施例中，核心实体确定系统还包括：获取模块13。其中，获取模块13用于针对每一个目标实体，获取该目标实体在待处理文本文档中的统计特征。

此时，第一生成模块3具体用于根据至少该目标实体的语义特征和该目标实体所对应的统计特征，生成该目标实体的特征向量。

可选地，统计特征包括：该目标实体的词频数值和/或该目标实体的频率-逆文本频率指数值。

对于上述各模块、单元的描述，可参见前述关于查询处理方法内对各步骤的描述，此处不在赘述。

本公开实施例还提供了一种服务器，该服务器包括：一个或多个处理器以及存储装置；其中，存储装置上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如前述实施例所提供的核心实体确定方法。

本公开实施例还提供了一计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被执行时实现如前述实施例所提供的核心实体确定方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种面向文本文档的核心实体确定方法，其特征在于，包括：

确定待处理文本文档中所包含的实体，以作为目标实体；

2.根据权利要求1所述的方法，其特征在于，所述确定待处理文本文档中所包含的实体的步骤包括：

3.根据权利要求1所述的方法，其特征在于，所述针对每一个所述目标实体,根据至少该目标实体的语义特征，生成该目标实体的特征向量的步骤之前还包括：

4.根据权利要求1所述的方法，其特征在于，所述针对每一个所述目标实体,根据至少该目标实体的语义特征，生成该目标实体的特征向量的步骤之前还包括：

5.根据权利要求1所述的方法，其特征在于，所述针对每一个所述目标实体,根据至少该目标实体的语义特征，生成该目标实体的特征向量的步骤之前还包括：

6.根据权利要求1所述的方法，其特征在于，所述针对每一个所述目标实体,根据至少该目标实体的语义特征，生成该目标实体的特征向量的步骤之前还包括：

7.根据权利要求1所述的方法，其特征在于，所述针对每一个所述目标实体,根据至少该目标实体的语义特征，生成该目标实体的特征向量的步骤之前还包括：

8.根据权利要求7所述的方法，其特征在于，所述统计特征包括：该目标实体的词频数值和/或该目标实体的频率-逆文本频率指数值。

9.根据权利要求1-8中任一所述的方法，其特征在于，所述预定核心实体分类模型为XGBoost分类模型。

10.一种面向文本文档的核心实体确定系统，其特征在于，包括：

11.根据权利要求10所述的系统，其特征在于，所述第一确定模块包括：

12.根据权利要求10所述的系统，其特征在于，还包括：

13.根据权利要求10所述的系统，其特征在于，还包括：

14.根据权利要求10所述的系统，其特征在于，还包括：

15.根据权利要求10所述的系统，其特征在于，还包括：

16.根据权利要求10所述的系统，其特征在于，还包括：

17.根据权利要求16所述的系统，其特征在于，所述统计特征包括：该目标实体的词频数值和/或该目标实体的频率-逆文本频率指数值。

18.根据权利要求10-17中任一所述的系统，其特征在于，所述预定核心实体分类模型为XGBoost分类模型。

19.一种服务器，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

20.一种计算机可读介质，其特征在于，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。