CN107679194A

CN107679194A - 一种基于文本的实体关系构建方法、装置及设备

Info

Publication number: CN107679194A
Application number: CN201710931659.2A
Authority: CN
Inventors: 蔡巍; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2017-10-09
Filing date: 2017-10-09
Publication date: 2018-02-09
Anticipated expiration: 2037-10-09
Also published as: CN107679194B

Abstract

本申请实施例公开了一种基于文本的实体关系构建方法，如果第一共词网络和第二共词网络存在有共有特征词，即第三特征词集合，那么就说明第一共词网络和第二共词网络之间可能具有联系。而共现关系能够体现特征词之间在语义上的联系，根据第三特征词集合中的各特征词在第一共词网络中与其他特征词之间的共现关系，以及该特征词在所述第二共词网络中与其他特征词之间的共现关系，能够反映第一共词网络和第二共词网络之间在语义上的联系，即第一实体和第二实体在语义上的联系，从而实现第一实体和第二实体之间实体关系的构建。这样，提高了构建实体关系的效率，实现了高效的扩展更多的实体关系的目的。

Description

一种基于文本的实体关系构建方法、装置及设备

技术领域

本申请涉及文本处理领域，尤其涉及一种基于文本的实体关系构建方法、装置及设备。

背景技术

在信息爆炸的年代，知识图谱的需求愈演愈烈。知识图谱的本质上的语义网络，是一种基于图的数据结构。在知识图谱里，每个节点表示现实世界中存在的实体，节点之间相连接的边表示实体与实体之间的关系。通俗的来讲，知识图谱就是把不同种类的信息连接在一起得到的关系网络。知识图谱常应用在搜索领域，通过实体关系呈现满足用户需求的信息。比如说，诸葛亮(实体)和刘备(实体)之间构建了实体关系，如果用户查询的是诸葛亮，那么不仅可以向用户展示关于诸葛亮的内容，还可以根据该实体关系向用户展示关于刘备的内容。

现有技术基于人工来构建实体关系。例如，用户同时输入“诸葛亮”和“刘备”作为关键词来进行检索，那么可以构建“诸葛亮”和“刘备”之间的实体关系。但是这种依赖于人工构建的实体关系是比较有限的，而且效率较低，不适用于目前信息爆炸式增长的环境。因此，如何高效的扩展更多的实体关系是目前需要探索的问题。

发明内容

为了解决现有技术基于人工来构建实体关系带来的构建的实体关系有限且效率低的问题，本申请提供了一种基于文本的实体关系构建方法、装置及设备，以实现高效的扩展更多的实体关系的目的。

第一方面，本申请提供了一种基于文本的实体关系构建方法，所述方法可以包括：

获取第一实体的第一共词网络，所述第一共词网络包括第一特征词集合和所述第一特征词集合中各特征词之间在第一文本语料中的共现关系，所述第一特征词集合来源于涉及所述第一实体的所述第一文本语料；

获取第二实体的第二共词网络，所述第二共词网络包括第二特征词集合和所述第二特征词集合中各特征词之间在第二文本语料中的共现关系，所述第二特征词集合来源于涉及所述第二实体的所述第二文本语料，所述共现关系反映特征词之间共同出现的频率；

根据所述第一特征词集合和所述第二特征词集合的交集得到第三特征词集合；

根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间的共现关系，以及该特征词在所述第二共词网络中与其他特征词之间的共现关系，构建所述第一实体和所述第二实体之间的实体关系。

可选的，所述根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间的共现关系，以及该特征词在所述第二共词网络中与其他特征词之间的共现关系，构建所述第一实体和所述第二实体之间的实体关系包括：

根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间的共现关系，以及该特征词在所述第二共词网络中与其他特征词之间的共现关系，得到所述第一实体和所述第二实体的实体关系值，所述实体关系值反映所述第一实体和所述第二实体构建实体关系的可能性；

若所述实体关系值满足第一预设条件，则构建所述第一实体和所述第二实体之间的实体关系。

可选的，所述根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间的共现关系，以及该特征词在所述第二共词网络中与其他特征词之间的共现关系，得到所述第一实体和所述第二实体的实体关系值包括：

所述根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间建立的共现关系的个数，以及该特征词在所述第二共词网络中与其他特征词之间建立的共现关系的个数，得到该特征词的综合共现值，所述综合共现值综合反映该特征词在所述第一共词网络中的共现关系和在所述第二共词网络中的共现关系；

根据所述第三特征词集合中各特征词的综合共现值，得到所述实体关系值。

可选的，所述根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间建立的共现关系的个数，以及该特征词在所述第二共词网络中与其他特征词之间建立的共现关系的个数，得到该特征词的综合共现值包括：

根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间建立的共现关系的个数以及所述第一特征词集合中特征词的个数，得到第一共现值；

根据该特征词在所述第二共词网络中与其他特征词之间建立的共现关系的个数以及所述第二特征词集合中特征词的个数，得到第二共现值；

依据所述第一共现值和所述第二共现值，得到所述综合共现值。

可选的，所述根据所述第三特征词集合中各特征词的综合共现值，得到所述实体关系值包括：

所述实体关系值为所述第三特征词集合各特征词的综合共现值之和与第四特征词集合中特征词的个数的比值，所述第四特征词集合为所述第一特征词集合和所述第二特征词集合的并集。

可选的，所述获取所述第一共词网络中的特征词集合包括：

获取所述第一文本语料，将所述第一文本语料以句子为单位进行拆分，每个句子均分别以字为单位划分为若干个单元；

计算所述第一文本语料的句子中相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数；

根据所述相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数，得到所述相邻两个单元的互信息和/或信息熵；

若所述相邻两个单元的互信息和/或信息熵满足第二预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第一特征词集合中的特征词。

可选的，所述若所述相邻两个单元的互信息和/或信息熵满足第二预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第一特征词集合中的特征词包括：

若所述相邻两个单元的互信息和/或信息熵满足第二预设条件，则将所述相邻两个单元合并为一个单元，然后返回执行计算所述第一文本语料的句子中相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数的步骤，以进行迭代，直到不再出现新的其互信息和/或信息熵满足第二预设条件的相邻两个单元；

将迭代完成后确定的单元作为特征词形成所述第一特征词集合。

可选的，所述获取所述第二共词网络中的特征词集合包括：

获取所述第二文本语料，将所述第二文本语料以句子为单位进行拆分，每个句子均分别以字为单位划分为若干个单元；

计算所述第二文本语料的句子中相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数；

若所述相邻两个单元的互信息和/或信息熵满足第三预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第二特征词集合中的特征词。

可选的，所述若所述相邻两个单元的互信息和/或信息熵满足第三预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第二特征词集合中的特征词包括：

若所述相邻两个单元的互信息和/或信息熵满足第三预设条件，则将所述相邻两个单元合并为一个单元，然后返回执行计算所述第二文本语料的句子中相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数的步骤，以进行迭代，直到不再出现新的其互信息和/或信息熵满足第三预设条件的相邻两个单元；

将迭代完成后确定的单元作为特征词形成所述第二特征词集合。

可选的，所述获取所述第一共词网络中所述第一特征词集合中各特征词之间在第一文本语料中的共现关系包括：

计算所述第一特征词集合中第一特征词和第二特征词共同出现在所述第一文本语料中的一个句子中的句子个数，以及各自单独出现在所述第一文本语料中一个句子的句子个数，所述第一特征词和所述第二特征词为所述第一特征词集合中的任意两个特征词；

根据所述第一特征词和所述第二特征词共同出现在所述第一文本语料中的一个句子中的句子个数，以及各自单独出现在所述第一文本语料中一个句子的句子个数，计算所述第一特征词和所述第二特征词的互信息；

若所述第一特征词和所述第二特征词的互信息满足第四预设条件，则建立所述第一特征词和所述第二特征词之间的共现关系。

获取所述第一特征词集合中第三特征词和第四特征词共同出现在所述第一文本语料的一个句子中时，与该句子中的其他特征词共同出现在一个句子中的句子个数；

根据所述第三特征词、所述第四特征词和所述其他特征词共同出现在一个句子中的句子个数计算所述第三特征词和所述第四特征词的信息熵；

若所述第三特征词和所述第四特征词的信息熵满足第五预设条件，则建立所述第三特征词和所述第四特征词之间的共现关系。

可选的，所述获取所述第二共词网络中所述第二特征词集合中各特征词之间在第二文本语料中的共现关系包括：

计算所述第二特征词集合中第五特征词和第六特征词共同出现在所述第二文本语料中的一个句子中的句子个数，以及各自单独出现在所述第二文本语料中的一个句子中的句子个数，所述第五特征词和所述第六特征词为所述第二特征词集合中的任意两个特征词；

根据所述第五特征词和所述第六特征词共同出现在所述第二文本语料中的一个句子中的句子个数，以及各自单独出现在所述第二文本语料中的一个句子中的句子个数，计算所述第五特征词和所述第六特征词的互信息；

若所述第五特征词和所述第六特征词的互信息满足第六预设条件，则建立所述第五特征词和所述第六特征词之间的共现关系。

获取所述第二特征词集合中第七特征词和第八特征词共同出现在所述第二文本语料的一个句子中时，与该句子中的其他特征词共同出现在一个句子中的句子个数；

根据所述第七特征词、所述第八特征词和所述其他特征词共同出现在一个句子中的句子个数计算所述第七特征词和所述第八特征词的信息熵；

若所述第七特征词和所述第八特征词的信息熵满足第七预设条件，则建立所述第七特征词和所述第八特征词之间的共现关系。

第二方面，本申请提供了一种基于文本的实体关系构建装置，所述装置可以包括：

第一获取单元，用于获取第一实体的第一共词网络，所述第一共词网络包括第一特征词集合和所述第一特征词集合中各特征词之间在第一文本语料中的共现关系，所述第一特征词集合来源于涉及所述第一实体的所述第一文本语料；

第二获取单元，用于获取第二实体的第二共词网络，所述第二共词网络包括第二特征词集合和所述第二特征词集合中各特征词之间在第二文本语料中的共现关系，所述第二特征词集合来源于涉及所述第二实体的所述第二文本语料，所述共现关系反映特征词之间共同出现的频率；

第三获取单元，用于根据所述第一特征词集合和所述第二特征词集合的交集得到第三特征词集合；

构建单元，用于根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间的共现关系，以及该特征词在所述第二共词网络中与其他特征词之间的共现关系，构建所述第一实体和所述第二实体之间的实体关系。

可选的，构建单元包括：

第四获取单元，用于根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间的共现关系，以及该特征词在所述第二共词网络中与其他特征词之间的共现关系，得到所述第一实体和所述第二实体的实体关系值，所述实体关系值反映所述第一实体和所述第二实体构建实体关系的可能性；

第一构建子单元，用于若所述实体关系值满足第一预设条件，则构建所述第一实体和所述第二实体之间的实体关系。

可选的，所述第四获取单元包括：

第五获子单元，用于所述根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间建立的共现关系的个数，以及该特征词在所述第二共词网络中与其他特征词之间建立的共现关系的个数，得到该特征词的综合共现值，所述综合共现值综合反映该特征词在所述第一共词网络中的共现关系和在所述第二共词网络中的共现关系；

第六获取单元，用于根据所述第三特征词集合中各特征词的综合共现值，得到所述实体关系值。

可选的，所述第五获取单元包括：

第七获取单元，用于根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间建立的共现关系的个数以及所述第一特征词集合中特征词的个数，得到第一共现值；

第八获取单元，用于根据该特征词在所述第二共词网络中与其他特征词之间建立的共现关系的个数以及所述第二特征词集合中特征词的个数，得到第二共现值；

第九获取单元，用于依据所述第一共现值和所述第二共现值，得到所述综合共现值。

可选的，所述第六获取单元包括：

可选的，所述第一获取单元获取所述第一共词网络中的特征词集合包括：

第一获取子单元，用于获取所述第一文本语料；

第一拆分单元，用于将所述第一文本语料以句子为单位进行拆分，每个句子均分别以字为单位划分为若干个单元；

第一计算单元，用于计算所述第一文本语料的句子中相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数；

第二获取子单元，用于根据所述相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数，得到所述相邻两个单元的互信息和/或信息熵；

第一合并单元，用于若所述相邻两个单元的互信息和/或信息熵满足第二预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第一特征词集合中的特征词。

可选的，所述第一合并单元包括：

第一合并子单元，用于若所述相邻两个单元的互信息和/或信息熵满足第二预设条件，则将所述相邻两个单元合并为一个单元；

第一返回单元，用于返回第一计算单元，以进行迭代，直到不再出现新的其互信息和/或信息熵满足第二预设条件的相邻两个单元；

第一形成单元，用于将迭代完成后确定的单元作为特征词形成所述第一特征词集合。

可选的，所述第二获取单元获取所述第二共词网络中的特征词集合包括：

第三获取子单元，用于获取所述第二文本语料；

第二拆分单元，用于将所述第二文本语料以句子为单位进行拆分，每个句子均分别以字为单位划分为若干个单元；

第二计算单元，用于计算所述第二文本语料的句子中相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数；

第四获取子单元，用于根据所述相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数，得到所述相邻两个单元的互信息和/或信息熵；

第二合并单元，用于若所述相邻两个单元的互信息和/或信息熵满足第三预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第二特征词集合中的特征词。

可选的，所述第二合并单元包括：

第二合并子单元，用于若所述相邻两个单元的互信息和/或信息熵满足第二预设条件，则将所述相邻两个单元合并为一个单元；

第二返回单元，用于返回第一计算单元，以进行迭代，直到不再出现新的其互信息和/或信息熵满足第二预设条件的相邻两个单元；

第二形成单元，用于将迭代完成后确定的单元作为特征词形成所述第一特征词集合。

可选的，所述第一获取单元获取所述第一共词网络中所述第一特征词集合中各特征词之间在第一文本语料中的共现关系包括：

第三计算单元，用于计算所述第一特征词集合中第一特征词和第二特征词共同出现在所述第一文本语料中的一个句子中的句子个数，以及各自单独出现在所述第一文本语料中一个句子的句子个数，所述第一特征词和所述第二特征词为所述第一特征词集合中的任意两个特征词；

第四计算单元，用于根据所述第一特征词和所述第二特征词共同出现在所述第一文本语料中的一个句子中的句子个数，以及各自单独出现在所述第一文本语料中一个句子的句子个数，计算所述第一特征词和所述第二特征词的互信息；

第一建立单元，用于若所述第一特征词和所述第二特征词的互信息满足第四预设条件，则建立所述第一特征词和所述第二特征词之间的共现关系。

第十获取单元，用于获取所述第一特征词集合中第三特征词和第四特征词共同出现在所述第一文本语料的一个句子中时，与该句子中的其他特征词共同出现在一个句子中的句子个数；

第五计算单元，用于根据所述第三特征词、所述第四特征词和所述其他特征词共同出现在一个句子中的句子个数计算所述第三特征词和所述第四特征词的信息熵；

第二建立单元，用于若所述第三特征词和所述第四特征词的信息熵满足第五预设条件，则建立所述第三特征词和所述第四特征词之间的共现关系。

可选的，所述第二获取单元获取所述第二共词网络中所述第二特征词集合中各特征词之间在第二文本语料中的共现关系包括：

第六计算单元，用于计算所述第二特征词集合中第五特征词和第六特征词共同出现在所述第二文本语料中的一个句子中的句子个数，以及各自单独出现在所述第二文本语料中的一个句子中的句子个数，所述第五特征词和所述第六特征词为所述第二特征词集合中的任意两个特征词；

第七计算单元，用于根据所述第五特征词和所述第六特征词共同出现在所述第二文本语料中的一个句子中的句子个数，以及各自单独出现在所述第二文本语料中的一个句子中的句子个数，计算所述第五特征词和所述第六特征词的互信息；

第三建立单元，用于若所述第五特征词和所述第六特征词的互信息满足第六预设条件，则建立所述第五特征词和所述第六特征词之间的共现关系。

第十一获取单元，用于获取所述第二特征词集合中第七特征词和第八特征词共同出现在所述第二文本语料的一个句子中时，与该句子中的其他特征词共同出现在一个句子中的句子个数；

第八计算单元，用于根据所述第七特征词、所述第八特征词和所述其他特征词共同出现在一个句子中的句子个数计算所述第七特征词和所述第八特征词的信息熵；

第四建立单元，用于若所述第七特征词和所述第八特征词的信息熵满足第七预设条件，则建立所述第七特征词和所述第八特征词之间的共现关系。

第三方面，本申请提供了一种基于文本的实体关系构建设备，所述设备可以包括：

处理器和存储有程序的存储器；

其中在所述处理器执行所述程序时，执行以下操作：

在本申请实施例中，如果第一共词网络和第二共词网络存在有共有特征词，即第三特征词集合，那么就说明第一共词网络和第二共词网络之间可能具有联系。而共现关系能够体现特征词之间在语义上的联系，根据第三特征词集合中的各特征词在第一共词网络中与其他特征词之间的共现关系，以及该特征词在所述第二共词网络中与其他特征词之间的共现关系，能够反映第一共词网络和第二共词网络之间在语义上的联系，即第一实体和第二实体在语义上的联系，从而实现第一实体和第二实体之间实体关系的构建。本实施例摆脱了现有技术通过人工输入实体的方式来构建实体关系，采用基于文本自动构建实体关系的方式，提高了构建实体关系的效率，实现了高效的扩展更多的实体关系的目的。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种基于文本的实体关系构建方法的流程图；

图2为本申请实施例提供的诸葛亮的第一共词网络示例图；

图3为本申请实施例提供的曹操的第二共词网络示例图；

图4为本申请实施例提供的构建诸葛亮和曹操之间的实体关系的示例图；

图5为本申请实施例提供的构建的多个实体的实体关系的示例图；

图6为本申请实施例提供的构建第一实体和所述第二实体之间的实体关系的方法的流程图；

图7为本申请实施例提供的获取第一共词网络中的特征词集合的方法的流程图；

图8为本申请实施例提供的获取第二共词网络中的特征词集合的方法的流程图；

图9为本申请实施例提供的一种基于文本的实体关系构建装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在对本发明实施例进行详细说明之前，首先对本发明实施例涉及到的概念进行如下解释：

实体，是指客观存在于现实世界中并且可以相互区分的事物。实体可以是具体的人、事、物，也可以是抽象的概念等。

文本语料，是指涉及实体的语言材料，涉及的含义包括提及和相关。提及是指文本语料中出现该实体，相关是指虽然该文本语料中没有出现该实体，但是出现了与该实体相关的特征词，或者说该文本语料讲述的是与该实体相关的内容。例如在一篇讲述专利的文本语料中，虽然全文没有出现“知识产权”的字眼，但是该文本语料与知识产权相关，因为专利是知识产权的其中一个种类。在本申请实施例中，文本语料的语言可以是中文，也可以是英文、日文等，本申请不做具体限定。

特征词，是指文本语料中具有独立含义的字或词。例如“我”“爸”“妈”“国家”、“金融”、“事件”、“nature”、“tree”等等。从词性来讲，特征词可以是名词、动词、形容词等。

共现关系，是指能够反映特征词之间共同出现的频率的关系。若两个特征词共同出现在一个句子中，并且共同出现的句子个数满足一定的条件，则认为这两个特征词具有共现关系。两个特征词共同出现的频率越高，这两个特征词存在语义联系的可能性越大；两个特征词共同出现的频率越低，这两个特征词之间存在语义联系的可能性越小。

共词网络，是由特征词以及特征词之间在文本语料中的共现关系构成的描述实体的网络。一般来说，一个特征词可以作为一个节点，特征词之间的共现关系可以采用连接节点的边来表示。与一个节点直接连接的边的条数即该节点的度值，度值可以反映与作为该节点的特征词具有共现关系的特征词的数量。与该节点直接连接的边的条数越多，越能反映作为该节点的特征词是共词网络中的关键特征词。边在共词网络中的存储方式可以是为每个节点设置ID，例如边e1由的节点1和节点2确定，节点1的ID为ID1，节点2的ID为ID2，通过ID1和ID2确定边e1＝(ID1，ID2)，边e1可以存入边集合E。表现在图中，边可以由两个节点之间的连线表示，参见图2、图3、图4和图5中。

参见图1，该图为本申请实施例提供的一种基于文本的实体关系构建方法的流程图。

本实施例提供的一种基于文本的实体关系构建方法包括如下步骤：

S101、获取第一实体的第一共词网络，所述第一共词网络包括第一特征词集合和所述第一特征词集合中各特征词之间在第一文本语料中的共现关系，所述第一特征词集合来源于涉及所述第一实体的所述第一文本语料。

需要说明的是，第一文本语料可以是一个文本语料，也可以包括多个文本语料。

可以理解的是，由于第一共词网络可以包括第一特征词集合以及第一特征词集合中的各特征词之间在第一文本语料中的共现关系。因此，为了获得第一实体的第一共词网络，需要确定在第一文本语料中的特征词，将所述特征词组成第一特征词集合，以及确定第一特征词集合中的各特征词之间在第一文本语料中的共现关系。确定第一特征词集合以及确定第一特征词集合中的各特征词之间在第一文本语料中的共现关系的具体方法将在后续进行详细介绍。

以《诸葛亮传》作为第一文本语料，诸葛亮作为第一实体，第一特征词集合{军师，将军，天下，病笃，衣食……}为例，根据该第一特征词集合和该第一特征词集合中各特征词之间在第一文本语料中的共现关系可以得到诸葛亮的第一共词网络。所述诸葛亮的第一共词网络如图2所示。

S102、获取第二实体的第二共词网络，所述第二共词网络包括第二特征词集合和所述第二特征词集合中各特征词之间在第二文本语料中的共现关系，所述第二特征词集合来源于涉及所述第二实体的所述第二文本语料；所述共现关系反映特征词之间共同出现的频率。

需要说明的是，第二文本语料可以是一个文本语料，也可以包括多个文本语料。其中，为了使第一特征词集合和第二特征词集合不完全相同，那么，第一文本语料和第二文本语料可以不交叉，也可以交叉但不重叠。

可以理解的是，由于第二共词网络可以包括第二特征词集合以及第二特征词集合中的各特征词之间在第二文本语料中的共现关系。因此，为了获得第二实体的第二共词网络，需要确定在第二文本语料中的特征词，将所述特征词组成第二特征词集合，以及确定第二特征词集合中的各特征词之间在第二文本语料中的共现关系。确定第二特征词集合以及确定第二特征词集合中的各特征词之间在第二文本语料中的共现关系的具体方法将在后续进行详细介绍。

以《曹操传》作为第二文本语料，曹操作为第二实体，第二特征词集合{军师，将军，天下，魏武，魏书……}为例。根据该第二特征词集合和第二特征词集合中各特征词之间在第二文本语料中的共现关系可以得到曹操的第二共词网络。所述曹操的第二共词网络如图3所示。

在本实施例中，S101和S102按先后顺序执行，也可以同时执行，本实施例对此不做限定。

S103、根据所述第一特征词集合和所述第二特征词集合的交集得到第三特征词集合。

若第一实体与第二实体具有相同的特征词，则第一实体与第二实体之间可能存在联系，以便可以根据第一实体与第二实体具有的相同特征词确定第一实体与第二实体的实体关系，因此，构建第一实体与第二实体之间的实体关系之前，可以先获得第一实体与第二实体具有的相同特征词，即第一特征词集合和所述第二特征词集合的交集，从而得到第三特征词集合。

以前述诸葛亮作为第一实体，曹操作为第二实体为例，根据前述获得的第一特征词集合{军师，将军，天下，病笃，衣食……}和第二特征词集合{军师，将军，天下，魏武，魏书……}，得到二者的交集为{军师，将军，天下……}，即得到第三特征词集合{军师，将军，天下……}。

S104、根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间的共现关系，以及该特征词在所述第二共词网络中与其他特征词之间的共现关系，构建所述第一实体和所述第二实体之间的实体关系。

具体的，第三特征词集合中某个特征词在第一共词网络中与其他特征词之间共现关系的个数，体现了该特征词在第一共词网络中的核心程度，即在语义上表示第一实体的程度；该特征词在第二共词网络中与其他特征词之间共现关系的个数，体现了该特征词在第二共词网络中的核心程度，即在语义上表示第二实体的程度。本实施例通过综合考虑第三特征词集合中特征词分别在语义上表达第一实体和第二实体的程度，得到第一实体和第二实体在语义上的关联程度，如果二者在语义上的关联程度足够高，那么就可以构建第一实体和第二实体之间的实体关系。

以前述诸葛亮作为第一实体，曹操作为第二实体、第三特征词集合{军师，将军，天下……}为例，可以构建诸葛亮和曹操之间的实体关系。构建得到的诸葛亮和曹操之间的实体关系可以如图4所示。

当除了第一实体和第二实体，还存在其他多个实体时，例如除了诸葛亮、曹操，还有刘备、孙权等实体时，构建的该多个实体的实体关系如图5所示。

在本实施例中，为了构建第一实体和所述第二实体之间的实体关系，S104具体可以包括：

S601、根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间的共现关系，以及该特征词在所述第二共词网络中与其他特征词之间的共现关系，得到所述第一实体和所述第二实体的实体关系值，所述实体关系值反映所述第一实体和所述第二实体构建实体关系的可能性。

S602、若所述实体关系值满足第一预设条件，则构建所述第一实体和所述第二实体之间的实体关系。

其中，所述实体关系值越大，可以表示第一实体和第二实体构建实体关系的可能性越大；所述实体关系值越小，可以表示第一实体和第二实体构建实体关系的可能性越小。当实体关系值大到一定的程度时，即达到第一预设条件时，可以认为第一实体与第二实体之间可以构建实体关系。其中，所述第一预设条件可以是实体关系值大于或等于第一阈值，所述第一阈值可以根据经验确定。

例如，P(G₁,G₂)≥δ，其中，G₁表示第一实体的第一共词网络，G₂表示第二实体的第二共词网络，P(G₁,G₂)表示实体关系值，δ表示第一阈值。

实体关系值可以由第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间的共现关系，以及该特征词在所述第二共词网络中与其他特征词之间的共现关系来反映，而第三特征词集合中的特征词与第一共词网络的共现关系反映该特征词是第一共词网络中的关键词，该特征词在第二共词网络的共现关系反映该特征词是第二共词网络中的关键词，该特征词既是第一共词网络的关键词又是第二共词网络的关键词可以用该特征词的综合共现值来反映。因此，作为一种得到所述实体关系值的实现方式，可以根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间建立的共现关系的个数，以及该特征词在所述第二共词网络中与其他特征词之间建立的共现关系的个数，得到该特征词的综合共现值，所述综合共现值综合反映该特征词在所述第一共词网络中的共现关系和在所述第二共词网络中的共现关系；根据所述第三特征词集合中各特征词的综合共现值，得到所述实体关系值。例如，可以用如下公式计算所述实体关系值：

其中，P(G₁,G₂)表示实体关系值，S_v表示第三特征词集合中该特征词综合共现值，v∈G₁∩G₂表示v为第三特征词集合中的一个特征词。

在本实施例中综合共现值可以利用第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间建立的共现关系的个数，以及该特征词在所述第二共词网络中与其他特征词之间建立的共现关系的个数得到，例如乘积、求和等。例如，可以利用公式：

S_v＝k_v1·k_v2

其中，S_v表示第三特征词集合中该特征词综合共现值，k_v1表示第三特征词集合中的该特征词在所述第一共词网络中与其他特征词之间建立的共现关系的个数，即表示第三特征词集合中的该特征词在所述第一共词网络中的度值，k_v2表示第三特征词集合中的该特征词在所述第二共词网络中与其他特征词之间建立的共现关系的个数，即表示第三特征词集合中的该特征词在所述第二共词网络中的度值。

第三特征词集合中该特征词综合共现值S_v除了等于k_v1与k_v2的乘积之外，还可以根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间建立的共现关系的个数以及所述第一特征词集合中特征词的个数，得到第一共现值；根据该特征词在所述第二共词网络中与其他特征词之间建立的共现关系的个数以及所述第二特征词集合中特征词的个数，得到第二共现值；依据所述第一共现值和所述第二共现值，得到所述综合共现值。

即S_v可以有如下变形：

其中，S_v1表示第三特征词集合中该特征词的第一共现值，n₁表示第一特征词集合中特征词的个数,S_v2表示第三特征词集合中该特征词的第二共现值，n₂表示第二特征词集合中特征词的个数。

此外，为了使根据不同的共词网络得到的第三特征词集合的实体关系值具有可比性，所述第一实体和第二实体的实体关系值可以为所述第三特征词集合各特征词的综合共现值之和与第四特征词集合中特征词的个数的比值，所述第四特征词集合为所述第一特征词集合和所述第二特征词集合的并集。具体地，可以利用公式：

其中，G₁表示第一实体的第一共词网络，G₂表示第二实体的第二共词网络，P(G₁,G₂)表示第一实体和第二实体的实体关系值，S_v表示第三特征词集合中该特征词综合共现值，表示第四特征词集合中特征词的个数。

传统的构建实体关系的方法依赖于词表进行分词，通过查看文本语料中是否存在词表中出现的词而将该词分出来的，这样，就会使得词表中不存在的词无法被分出来。以“三国杀”为例，如果依赖于词表进行分词的方式会分成“三国”和“杀”，无法将“三国杀”作为一个特征词，因此，分词不准确。本实施例提供了一种获取第一共词网络中的特征词集合的方法，从而保证分词的准确性。

参见图7，示出了本申请实施例中获取第一共词网络中的特征词集合的方法的流程图。获取第一共词网络中的特征词集合的方法可以包括以下步骤：

S701、获取所述第一文本语料，将所述第一文本语料以句子为单位进行拆分，每个句子均分别以字为单位划分为若干个单元。

获取描述第一实体的第一文本语料，例如该第一文本语料可以用T1来表示，可以将第一文本语料T1拆分成若干个句子，即将第一文本语料T1，用句子的集合进行表示，例如，T₁＝{S₁，S₂，...，S_n}，其中S_i表示第一文本语料T1中第i个句子，i＝1，2……n，表示第一文本语料T1拆分成的句子个数，每个句子还可以以字为单元进行划分，即将任何一个句子以字的集合进行表示，例如，S_i＝{c₁，c₂，...，c_m}，其中，C_j表示任何一个句子S_i中第j个单元，j＝1，2……m，表示第i个句子S_i可以拆分成的单元的个数。

S702、计算所述第一文本语料的句子中相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数。

S703、根据所述相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数，得到所述相邻两个单元的互信息和/或信息熵。

在本实施例中，所述互信息(Mutual Information))可以是衡量文本中相邻两个单元相关程度的度量。该相邻两个单元的互信息越大，表示该相邻两个单元的相关程度越高，该相邻两个单元形成一个特征词的可能性越高。

以相邻两个单元为c₁,c₂为例，其计算c₁,c₂互信息的公式如下：

以图2中出现的特征词“事之”为例，“事”作为c₁，“之”作为c₂，如果只是通过词表的形式进行分词，则不能将“事”和“之”进行合并，无法得到特征词“事之”，但是采用互信息的方式进行分词，可以确定MI(c₁，c₂)大于或等于一个阈值，该阈值可以是根据经验预先设定的，并且在同一个语料中，c₁和c₂是一个特征词时的P(c₁c₂)比c₁和c₂不是一个特征词时的P(c₁c₂)大，进而确定“事”和“之”可以合并成一个单元，从而得到特征词“事之”。以“共享单车”为例，“共享”作为c₁，“单车”作为c₂，如果通过词表进行分词，词表中没有“共享单车”，就无法得到该特征词。但是如果采用互信息的方式分词，如果MI(c₁,c₂)大于或等于一个阈值，那么就可以认为“共享”和“单车”可以合并成一个特征词“共享单车”。如果小于该阈值，则认为“共享”和“单车”为两个特征词。

再以一篇文章中频繁出现“他说”为例，“他”作为c₁，“说”作为c₂，如果只是计算P(c₁c₂)则得到的特征词是“他说”，但是“他说”只是出现的较为频繁，并没有实际含义，而采用互信息的方式，则可以考虑到“他”和“说”分别出现的次数P(c₁)和P(c₂)，可以确定此时的P(c₁c₂)比c₁和c₂是一个特征词时的P(c₁c₂)小，进而确定“他”是一个特征词和“说”是一个特征词。

所述信息熵(Informationentropy)可以用来表示文本中一个单元传播或被引用的程度，信息熵越高说明该单元被传播或被引用的程度越高，越有可能被其他单元引用，与相邻的单元形成一个特征词的可能性越高。

以文本中的一个字W为例，a为在W左边与W相邻的单元，b为在W右边与W相邻的单元，为确定字W与a或b形成一个特征词的可能性，可以计算：

其中，H_L(W)表示W的左信息熵，A表示在一个句子中W左边的单元的集合，P(aW|W)表示在W出现的条件下，aW共同出现的句子个数，P(aW|W)＝P(aW)/P(W)，其中，P(aW)表示aW共同出现的句子个数，P(W)表示W出现的句子的个数；H_R(W)表示W的右信息熵，B表示在一个句子中W右边的单元的集合，P(bW|W)表示在W出现的条件下，bW共同出现的句子个数，P(bW|W)＝P(bW)/P(W)，其中，P(bW)表示bW共同出现的句子个数，P(W)表示W出现的句子的个数。

左信息熵越高，表示W越有可能与a合并成一个词形成特征词的可能性越高，右信息熵越高，表示W越有可能与b合并成一个词形成特征词的可能性越高。

S704、若所述相邻两个单元的互信息和/或信息熵满足第二预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第一特征词集合中的特征词。

当MI(c₁,c₂)满足第二预设条件时，所述第二预设条件可以是MI(c₁,c₂)大于等于第二阈值时，所述第二阈值可以根据经验确定的。例如可以是MI(c₁,c₂)≥α，α表示第二阈值，则可以将c₁,c₂合并为一个单元，形成第一特征词集合中的特征词。

由于在第一文本语料中可能存在多组相邻两个单元，并且合并后的单元也会参与后续的判断，因此，要确定每组相邻两个单元是否可以合并成一个单元，将任意一组互信息和/或信息熵满足第二预设条件的相邻两个单元合并成一个单元，形成一个特征词，进而形成第一特征词集合。因此，S704可以包括：若所述相邻两个单元的互信息和/或信息熵满足第二预设条件，则将所述相邻两个单元合并为一个单元，然后返回执行计算所述第一文本语料的句子中相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数的步骤，以进行迭代，直到不再出现新的其互信息和/或信息熵满足第二预设条件的相邻两个单元；将迭代完成后确定的单元作为特征词形成所述第一特征词集合。

以《诸葛亮传》作为第一文本语料，针对第一文本语料拆分的单元中存在“军”和“师”两个单元，根据互信息和/或信息熵满足第二预设条件，可以将“军”和“师”两个单元合并得到单元“军师”。可以将此时形成的单元继续进行判断，直到互信息和/或信息熵不再满足第二预设条件为止，从而确定出第一文本语料中所有的特征词。因此，所述单元在初始时是一个字，随着单元的合并，所述单元可以是词。以《诸葛亮传》作为第一文本语料，诸葛亮作为第一实体为例，若通过上述方法可以得到特征词“军师”、“将军”、“天下”、“病笃”、“衣食”等，从而得到第一特征词集合{军师，将军，天下，病笃，衣食……}。其中，第一特征词集合中的特征词可以是一个字，可以是两个字，也可以是三个字等等。

在获取第一共词网络中的特征词集合后，即获得第一特征词集合后，可以获得第一特征词集合中各特征词之间在第一文本语料中的共现关系，以便可以根据第一特征词集合中各特征词之间在第一文本语料中的共现关系确定第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间的共现关系。获得第一特征词集合中各特征词之间在第一文本语料中的共现关系的方式一种是基于互信息，另一种是基于信息熵。

基于互信息获得第一特征词集合中各特征词之间在第一文本语料中的共现关系的实现方式，可以包括：

计算所述第一特征词集合中第一特征词和第二特征词共同出现在所述第一文本语料中的一个句子中的句子个数，以及各自单独出现在所述第一文本语料中一个句子的句子个数，所述第一特征词和所述第二特征词为所述第一特征词集合中的任意两个特征词。

根据所述第一特征词和所述第二特征词共同出现在所述第一文本语料中的一个句子中的句子个数，以及各自单独出现在所述第一文本语料中一个句子的句子个数，计算所述第一特征词和所述第二特征词的互信息。

例如，第一特征词集合中的第一特征词和所述第二特征词分别为A和B；第一特征词和第二特征词共同出现在所述第一文本语料中的一个句子中的句子个数，可以用P(AB)表示；第一特征词出现在所述第一文本语料中一个句子的句子个数，可以用P(A)表示；第二特征词出现在所述第一文本语料中一个句子的句子个数，可以用P(B)表示。因此，利用上述计算第一特征词和第二特征词的互信息的方法来获得第一特征词和第二特征词在第一文本语料中的共现关系可以用公式表示为：

当MI(A,B)满足第四预设条件时，所述第四预设条件可以是MI(A,B)大于等于第三阈值，所述第三阈值可以是事先根据经验确定的。例如可以是MI(A,B)≥λ，λ表示第三阈值，则可以建立第一特征词A和和第二特征词B的共现关系，即在第一共词网络中，第一特征词A和和第二特征词B之间存在一条边。

基于信息熵获得第一特征词集合中各特征词之间在第一文本语料中的共现关系的实现方式，可以包括：

获取所述第一特征词集合中第三特征词和第四特征词共同出现在所述第一文本语料的一个句子中时，与该句子中的其他特征词共同出现在一个句子中的句子个数。

根据所述第三特征词、所述第四特征词和所述其他特征词共同出现在一个句子中的句子个数计算所述第三特征词和所述第四特征词的信息熵。

例如，第一特征词集合中的第三特征词和所述第四特征词分别为C和D，其他特征词可以用X表示；第三特征词和第四特征词共同出现在所述第一文本语料的一个句子中时，与该句子中的其他特征词共同出现在一个句子中的句子个数，可以用P(CDX)表示。因此，利用上述计算第三特征词和第四特征词的信息熵的方法来获得第三特征词和第四特征词在第一文本语料中的共现关系可以用公式表示为：

其中，H(CD)表示信息熵，X_ij表示与C和D共同出现在第j个句子中第i个其他节点X，n表示与C和D共同出现在同一个句子中其他节点X_ij的个数，j表示C、D和其他节点X_i共同出现在第j个句子中，m表示C、D和其他节点X_ij共同出现在一个句子中的句子的个数。利用上述公式获得第三特征词和第四特征词在第一文本语料中的共现关系时，C和D没有顺序，只要共同出现在一个句子中即可。在初始时每个单元为字，在不断迭代后，单元可以是合并后的词，

当H(CD)满足第五预设条件时，所述第五预设条件可以是H(CD)大于等于第四阈值，所述第四阈值可以是事先根据经验确定的。例如可以是H(CD)≥δ，δ表示第四阈值，则可以建立第三特征词C和第四特征词D的共现关系，即在第一共词网络中，第三特征词C和第四特征词D之间存在一条边。

前述方法可以获得第一特征词集合和所述第一特征词集合中各特征词之间在第一文本语料中的共现关系，因此，可以根据第一特征词集合和所述第一特征词集合中各特征词之间在第一文本语料中的共现关系建立第一共词网络。继续以前述《诸葛亮传》作为第一文本语料，诸葛亮作为第一实体为例，所述诸葛亮的第一共词网络可以参见图2所示。

本实施例提供了一种获取第二共词网络中的特征词集合的方法，参见图8，示出了本申请实施例中获取第二共词网络中的特征词集合的方法的流程图。获取第二共词网络中的特征词集合的方法可以包括以下步骤：

S801、获取所述第二文本语料，将所述第二文本语料以句子为单位进行拆分，每个句子均分别以字为单位划分为若干个单元。

S802、计算所述第二文本语料的句子中相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数。

S803、根据所述相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数，得到所述相邻两个单元的互信息和/或信息熵。

S804、若所述相邻两个单元的互信息和/或信息熵满足第三预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第二特征词集合中的特征词。

由于在第二文本语料中可能存在多组相邻两个单元，因此，要确定每组相邻两个单元是否可以合并成一个单元，将任意一组互信息和/或信息熵满足第三预设条件的相邻两个单元合并成一个单元，形成一个特征词，进而形成第二特征词集合。因此，S804可以包括：若所述相邻两个单元的互信息和/或信息熵满足第三预设条件，则将所述相邻两个单元合并为一个单元，然后返回执行计算所述第二文本语料的句子中相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数的步骤，以进行迭代，直到不再出现新的其互信息和/或信息熵满足第三预设条件的相邻两个单元；将迭代完成后确定的单元作为特征词形成所述第二特征词集合。

在本实施例中，获取第二共词网络中的特征词集合的方法中的各个步骤的详细说明可以依据获取第一共词网络中的特征词集合的方法中的各个步骤的详细说明进行类推，本实施例在此不再赘述。

以《曹操传》作为第二文本语料，曹操作为第二实体为例，若通过上述方法可以得到特征词“军师”、“将军”、“天下”、“魏武”、“魏书”等，从而得到第二特征词集合{军师，将军，天下，魏武，魏书……}。

在获取第二共词网络中的特征词集合后，即获得第二特征词集合后，可以获得第二特征词集合中各特征词之间在第二文本语料中的共现关系，以便可以根据第二特征词集合中各特征词之间在第二文本语料中的共现关系确定第三特征词集合中的各特征词在所述第二共词网络中与其他特征词之间的共现关系。获得第二特征词集合中各特征词之间在第二文本语料中的共现关系的方式一种是基于互信息，另一种是基于信息熵。基于互信息获得第二特征词集合中各特征词之间在第二文本语料中的共现关系的实现方式，可以包括：

计算所述第二特征词集合中第五特征词和第六特征词共同出现在所述第二文本语料中的一个句子中的句子个数，以及各自单独出现在所述第二文本语料中的一个句子中的句子个数，所述第五特征词和所述第六特征词为所述第二特征词集合中的任意两个特征词。

根据所述第五特征词和所述第六特征词共同出现在所述第二文本语料中的一个句子中的句子个数，以及各自单独出现在所述第二文本语料中的一个句子中的句子个数，计算所述第五特征词和所述第六特征词的互信息。

基于信息熵获得第二特征词集合中各特征词之间在第二文本语料中的共现关系的实现方式，可以包括：

获取所述第二特征词集合中第七特征词和第八特征词共同出现在所述第二文本语料的一个句子中时，与该句子中的其他特征词共同出现在一个句子中的句子个数。

根据所述第七特征词、所述第八特征词和所述其他特征词共同出现在一个句子中的句子个数计算所述第七特征词和所述第八特征词的信息熵。

对上述两种获得第二特征词集合中各特征词之间在第二文本语料中的共现关系的实现方式的详细介绍可以分别依据获得第一特征词集合中各特征词之间在第一文本语料中的共现关系的实现方式的详细介绍进行类推，本实施例在此不再赘述。

前述方法可以获得第二特征词集合和所述第二特征词集合中各特征词之间在第二文本语料中的共现关系，因此，可以根据第二特征词集合和所述第二特征词集合中各特征词之间在第二文本语料中的共现关系建立第二共词网络。

继续以前述《曹操传》作为第二文本语料，曹操作为第二实体为例，得到所述曹操的第二共词网络如图3所示。

基于以上实施例提供的一种基于文本的实体关系构建方法，本申请实施例还提供了一种基于文本的实体关系构建装置，下面结合附图来详细说明其工作原理。

参见图9，该图为本申请实施例提供的一种基于文本的实体关系构建装置的结构框图。

本实施例提供的一种基于文本的实体关系构建装置包括：

第一获取单元901，用于获取第一实体的第一共词网络，所述第一共词网络包括第一特征词集合和所述第一特征词集合中各特征词之间在第一文本语料中的共现关系，所述第一特征词集合来源于涉及所述第一实体的所述第一文本语料；

第二获取单元902，用于获取第二实体的第二共词网络，所述第二共词网络包括第二特征词集合和所述第二特征词集合中各特征词之间在第二文本语料中的共现关系，所述第二特征词集合来源于涉及所述第二实体的所述第二文本语料，所述共现关系反映特征词之间共同出现的频率；

第三获取单元903，用于根据所述第一特征词集合和所述第二特征词集合的交集得到第三特征词集合；

构建单元904，用于根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间的共现关系，以及该特征词在所述第二共词网络中与其他特征词之间的共现关系，构建所述第一实体和所述第二实体之间的实体关系。

可选的，构建单元904包括：

第四获取单元，用于根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间的共现关系，以及该特征词在所述第二共词网络中与其他特征词之间的共现关系，得到所述第一实体和第二实体的实体关系值，所述实体关系值反映所述第一实体和所述第二实体构建实体关系的可能性；

可选的，所述第四获取单元包括：

可选的，所述第五获取单元包括：

可选的，所述第六获取单元包括：

可选的，所述第一获取单元901获取所述第一共词网络中的特征词集合包括：

第一获取子单元，用于获取所述第一文本语料，将所述第一文本语料以句子为单位进行拆分，每个句子均分别以字为单位划分为若干个单元；

可选的，所述第一合并单元包括：

可选的，所述第二获取单元902获取所述第一共词网络中的特征词集合包括：

第三获取子单元，用于获取所述第一文本语料，将所述第一文本语料以句子为单位进行拆分，每个句子均分别以字为单位划分为若干个单元；

第二计算单元，用于计算所述第一文本语料的句子中相邻两个单元共同出现在一个句子中的句子个数，以及各自单独出现在一个句子中的句子个数；

第二合并单元，用于若所述相邻两个单元的互信息和/或信息熵满足第二预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第一特征词集合中的特征词。

可选的，所述第二合并单元包括：

可选的，所述第一获取单元901获取所述第一共词网络中所述第一特征词集合中各特征词之间在第一文本语料中的共现关系包括：

可选的，所述第二获取单元902获取所述第二共词网络中所述第二特征词集合中各特征词之间在第二文本语料中的共现关系包括：

基于以上实施例提供的一种基于文本的实体关系构建方法和装置，本申请实施例还提供了一种基于文本的实体关系构建设备，所述设备包括：

处理器和存储有程序的存储器；

其中在所述处理器执行所述程序时，执行以下操作：

当介绍本申请的各种实施例的元件时，冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外，还可以有其它元件。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外，还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于文本的实体关系构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间的共现关系，以及该特征词在所述第二共词网络中与其他特征词之间的共现关系，构建所述第一实体和所述第二实体之间的实体关系包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间的共现关系，以及该特征词在所述第二共词网络中与其他特征词之间的共现关系，得到所述第一实体和所述第二实体的实体关系值包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第三特征词集合中的各特征词在所述第一共词网络中与其他特征词之间建立的共现关系的个数，以及该特征词在所述第二共词网络中与其他特征词之间建立的共现关系的个数，得到该特征词的综合共现值包括：

5.根据权利要求3或4所述的方法，其特征在于，所述根据所述第三特征词集合中各特征词的综合共现值，得到所述实体关系值包括：

6.根据权利要求1所述的方法，其特征在于，所述获取所述第一共词网络中的特征词集合包括：

7.根据权利要求6所述的方法，其特征在于，所述若所述相邻两个单元的互信息和/或信息熵满足第二预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第一特征词集合中的特征词包括：

8.根据权利要求1所述的方法，其特征在于，所述获取所述第二共词网络中的特征词集合包括：

9.根据权利要求8所述的方法，其特征在于，所述若所述相邻两个单元的互信息和/或信息熵满足第三预设条件，则将所述相邻两个单元合并为一个单元，以形成所述第二特征词集合中的特征词包括：

10.根据权利要求1所述的方法，其特征在于，所述获取所述第一共词网络中所述第一特征词集合中各特征词之间在第一文本语料中的共现关系包括：