CN110837732B

CN110837732B - 目标人物间亲密度识别方法、装置、电子设备及存储介质

Info

Publication number: CN110837732B
Application number: CN201911054742.1A
Authority: CN
Inventors: 陈鹏礼; 尚高峰; 杜国强
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2024-01-26
Anticipated expiration: 2039-10-31
Also published as: CN110837732A

Abstract

本发明实施例提供了一种目标人物间亲密度识别方法、装置、电子设备及存储介质，获取待识别的文本数据，分别将文本数据中的各条句子输入预先训练的分类模型，分类模型是一种端到端的能够检测句子中目标人物的亲密度关系的深度学习模型，通过将待识别的文本数据中的各条句子输入分类模型，可以快速地得到各条句子分别对应的至少两个目标人物的亲密度关系，针对一组指定的至少两个目标人物，根据各条句子分别对应的指定的至少两个目标人物的亲密度关系，确定指定的至少两个目标人物间的亲密度，从而提高了识别目标人物之间亲密度的效率。

Description

目标人物间亲密度识别方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种目标人物间亲密度识别方法、装置、电子设备及存储介质。

背景技术

随着互联网的不断发展，互联网中的文本数据也迅速增长，互联网用户需要花费大量的时间从中搜索出符合自己阅读需求的文本内容。

当前的互联网技术中，可以基于互联网用户的阅读需求，向互联网用户推荐感兴趣的文本内容，例如，如果互联网用户对人物A感兴趣，则会将与人物A相关的所有文本内容都推荐给该互联网用户。

然而在实际应用时，当互联网用户阅读到某一个目标人物的时候，有可能会关注与该目标人物亲密的另一个目标人物的信息，因此，如何高效地识别不同的目标人物间的亲密度，为文本内容推荐提供推荐依据，成为亟待解决的技术问题。

发明内容

本发明实施例的目的在于提供一种目标人物间亲密度识别方法、装置、电子设备及存储介质，以提高识别目标人物之间亲密度的效率，具体技术方案如下：

第一方面，本发明实施例提供了一种目标人物间亲密度识别方法，该方法包括：

获取待识别的文本数据，其中，文本数据包括多条句子；

分别将各条句子输入分类模型，得到各条句子分别对应的至少两个目标人物的亲密度关系，其中，分类模型为预先基于样本语料集训练得到的深度学习模型，样本语料集包括多条样本句子以及各条样本句子分别对应的至少两个目标人物的亲密度关系标注信息；

针对一组指定的至少两个目标人物，根据各条句子分别对应的指定的至少两个目标人物的亲密度关系，确定指定的至少两个目标人物间的亲密度。

可选的，针对一组指定的至少两个目标人物，根据各条句子分别对应的指定的至少两个目标人物的亲密度关系，确定指定的至少两个目标人物间的亲密度的步骤，包括：

针对一组指定的至少两个目标人物，识别各条句子分别对应的指定的至少两个目标人物的亲密度关系的关系属性；

统计并根据指定的至少两个目标人物的亲密度关系的各关系属性的句子数目，确定指定的至少两个目标人物间的亲密度。

可选的，关系属性包括正向关系、负向关系和中性关系；亲密度包括权重预测值和关系属性；

统计并根据指定的至少两个目标人物的亲密度关系的各关系属性的句子数目，确定指定的至少两个目标人物间的亲密度的步骤，包括：

统计指定的至少两个目标人物的亲密度关系的关系属性为正向关系的第一句子数目、关系属性为负向关系的第二句子数目，以及关系属性为中性关系的第三句子数目；

计算第一句子数目与第二句子数目的差值，以及第一句子数目、第二句子数目和第三句子数目的总数目；

计算差值与总数目的比值，并将比值作为指定的至少两个目标人物间的亲密度的权重预测值；

根据比值的符号，确定指定的至少两个目标人物间的亲密度的关系属性。

可选的，分类模型的训练方式，包括：

获取样本语料集；

将样本语料集中的各条样本句子作为训练样本，依次输入预设分类模型，对预设分类模型进行训练，得到训练后的分类模型。

可选的，获取样本语料集的步骤，包括：

获取多个待分析的文本数据；

分别将多个待分析的文本数据中的各文本数据分割成多条句子，并对分割后的各条句子分别进行分词处理，得到各条句子中的分词数据；

针对各条句子，判断该条句子中的分词数据是否包括至少两个目标人物的名称，并在该条句子中的分词数据包括至少两个目标人物的名称时，查询预先建立的目标人物关系表，判断至少两个目标人物是否存在亲密度关系；

将分词数据包括至少两个目标人物的名称，且至少两个目标人物存在亲密度关系的句子作为样本句子添加至样本语料集，并获取至少两个目标人物的亲密度关系标注信息添加至样本语料集。

可选的，在将样本语料集中的各条样本句子作为训练样本，依次输入预设分类模型，对预设分类模型进行训练，得到训练后的分类模型的步骤之后，该方法还包括：

获取基于样本语料集的任一组至少两个目标人物间的亲密度权重标注值；

分别将样本语料集中的各条样本句子输入训练后的分类模型，得到样本语料集中各条样本句子分别对应的至少两个目标人物的亲密度关系；

针对任一组至少两个目标人物，根据样本语料集中各条样本句子分别对应的任一组至少两个目标人物的亲密度关系，计算任一组至少两个目标人物间的亲密度权重预测值；

根据亲密度权重标注值及亲密度权重预测值，统计亲密度权重预测值与亲密度权重标注值的差值绝对值小于或等于预设阈值的目标人物组数目；

根据目标人物组数目以及统计的样本语料集中目标人物总组数，计算分类模型的亲密度分类准确率。

第二方面，本发明实施例提供了一种目标人物间亲密度识别装置，该装置包括：

获取模块，用于获取待识别的文本数据，其中，文本数据包括多条句子；

分类模块，用于分别将各条句子输入分类模型，得到各条句子分别对应的至少两个目标人物的亲密度关系，其中，分类模型为预先基于样本语料集训练得到的深度学习模型，样本语料集包括多条样本句子以及各条样本句子分别对应的至少两个目标人物的亲密度关系标注信息；

确定模块，用于针对一组指定的至少两个目标人物，根据各条句子分别对应的指定的至少两个目标人物的亲密度关系，确定指定的至少两个目标人物间的亲密度。

可选的，确定模块，具体用于：

确定模块，具体用于：

可选的，该装置还包括训练模块；

训练模块，用于：

获取样本语料集；

可选的，训练模块，具体用于：

获取多个待分析的文本数据；

可选的，训练模块，还用于：

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的计算机程序时，实现本发明实施例第一方面所提供的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在电子设备上运行时，使得电子设备执行本发明实施例第一方面所提供的方法。

第五方面，本发明实施例提供了一种包含指令的计算机程序产品，当该计算机程序产品在电子设备上运行时，使得电子设备执行本发明实施例第一方面所提供的方法。

本发明实施例提供的一种目标人物间亲密度识别方法、装置、电子设备及存储介质，获取待识别的文本数据，分别将文本数据中的各条句子输入分类模型，得到各条句子分别对应的至少两个目标人物的亲密度关系，针对一组指定的至少两个目标人物，根据各条句子分别对应的指定的至少两个目标人物的亲密度关系，确定指定的至少两个目标人物间的亲密度。分类模型是预先基于样本语料集训练得到的一种端到端的深度学习模型，样本语料集包括多条样本句子以及各条样本句子分别对应的至少两个目标人物的亲密度关系标注信息，因此，分类模型能够检测句子中目标人物的亲密度关系，通过将待识别的文本数据中的各条句子输入分类模型，可以快速地得到各条句子分别对应的至少两个目标人物的亲密度关系，进一步的，针对一组指定的至少两个目标人物，根据各条句子分别对应的指定的至少两个目标人物的亲密度关系，确定出基于待识别的文本数据的指定的至少两个目标人物间的亲密度，从而提高了识别目标人物之间亲密度的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人物来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的目标人物间亲密度识别方法的流程示意图；

图2为本发明实施例的分类模型的结构示意图；

图3为本发明实施例的分类模型的训练流程示意图；

图4为本发明实施例的目标人物间亲密度识别装置的结构示意图；

图5为本发明实施例的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人物在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高识别目标人物之间亲密度的效率，本发明实施例提供了一种目标人物间亲密度识别方法、装置、电子设备及存储介质。下面，首先对本发明实施例所提供的目标人物间亲密度识别方法进行介绍。

本发明实施例所提供的一种目标人物间亲密度识别方法，如图1所示，可以包括如下步骤：

S101，获取待识别的文本数据，其中，文本数据包括多条句子。

待识别的文本数据可以是从互联网上任意抓取的一篇新闻、报道、小说等文章，文本数据中包括了多条句子，这里所说的句子并不是传统意义上的一个句号前的一句话，可以将传统意义的多句话理解为一条句子，也可以将一段或者多段话理解为一条句子。

S102，分别将文本数据中的各条句子输入分类模型，得到各条句子分别对应的至少两个目标人物的亲密度关系，其中，分类模型为预先基于样本语料集训练得到的深度学习模型，样本语料集包括多条样本句子以及多条样本句子中各条样本句子分别对应的至少两个目标人物的亲密度关系标注信息。

在本发明实施例中，分类模型是预先训练得到的一种端到端的深度学习模型，主要由卷积层、池化层、全连接层等网络层组成，分类模型是基于样本语料集训练得到的，能够对一条句子中至少两个目标人物的亲密度关系进行分类检测，输入一条句子，输入的即为这条句子对应的至少两个目标人物的亲密度关系。对于句子p以及目标人物组q，通过分类模型f，可以直接映射出亲密度关系a，分类模型的映射过程可以表示为：f:(p,q)→a。

S103，针对一组指定的至少两个目标人物，根据各条句子分别对应的指定的至少两个目标人物的亲密度关系，确定指定的至少两个目标人物间的亲密度。

在得到每条句子分别对应的至少两个目标人物的亲密度关系后，针对一组指定的至少两个目标人物，可以根据各条句子分别对应的指定的至少两个目标人物的亲密度关系，确定出这一组指定的至少两个目标人物间的亲密度。例如，文本数据中总共有100条句子，分类模型输出的信息中，有40条句子对应有目标人物A和目标人物B的亲密度关系，如果这40条句子中有30条对应的目标人物A和目标人物B的亲密度关系为正向关系，占总条数40条的比例超过预设比例60％，则认为目标人物A和目标人物B之间亲密，且亲密程度可以用权重表示，可以分配0.75；如果这40条句子中只有10条对应的目标人物A和目标人物B的亲密度关系为正向关系，占总条数40条的比例远小于预设比例60％，则认为目标人物A和目标人物B之间不亲密。

应用本发明实施例，通过获取待识别的文本数据，分别将文本数据中的各条句子输入分类模型，得到各条句子分别对应的至少两个目标人物的亲密度关系，针对一组指定的至少两个目标人物，根据各条句子分别对应的指定的至少两个目标人物的亲密度关系，确定指定的至少两个目标人物间的亲密度。分类模型是预先基于样本语料集训练得到的一种端到端的深度学习模型，样本语料集包括多条样本句子以及各条样本句子分别对应的至少两个目标人物的亲密度关系标注信息，因此，分类模型能够检测句子中目标人物的亲密度关系，通过将待识别的文本数据中的各条句子输入分类模型，可以快速地得到各条句子分别对应的至少两个目标人物的亲密度关系，进一步的，针对一组指定的至少两个目标人物，根据各条句子分别对应的指定的至少两个目标人物的亲密度关系，确定出基于待识别的文本数据的指定的至少两个目标人物间的亲密度，从而提高了识别目标人物之间亲密度的效率。

在本发明实施例中，亲密度关系表征了至少两个目标人物之间是否亲密的关系属性，通常情况下，关系属性可以分为正向关系、负向关系和中性关系。正向关系是指至少两个目标人物之间是亲密的，例如，人物A和人物B为夫妻，且夫妻关系恩爱；负向关系是指至少两个目标人物之间是不亲密的，例如，人物A和人物B虽为夫妻，但夫妻关系不合。

如果一条句子中，表征正向关系的描述的数目大于表征负向关系的描述的数目，则这条句子对应的至少两个目标人物的亲密度关系为正向关系；如果一条句子中，表征负向关系的描述的数目大于表征正向关系的描述的数目，则这条句子对应的至少两个目标人物的亲密度关系为负向关系；如果一条句子中，表征正向关系的描述的数目等于表征负向关系的描述的数目，则这条句子对应的至少两个目标人物的亲密度关系为中性关系。针对输入的每一条句子，分类模型可以直接输出这条句子对应的至少两个目标人物的亲密度关系。

可选的，在本发明实施例的一种可实现方式中，分类模型的结构如图2所示，语言模型层作为第一层，在第一层上依次接入卷积层(Conv1D)、池化层(MaxPooling1D)、双向长短期记忆网络层(BLSTM)、注意力层(SeqSelfAttention)、Flatten层和全连接层(Dense)。其中，语言模型层可以采用双向编解码器模型(Bidirectional Encoder Representationfrom Transformers，简称BERT)，BERT通过左、右两侧上下文来预测当前词和通过当前句子预测下一个句子，BERT可以设置为’bert-base-chinese’，即基于中文的BERT，序列长度设置为100，即sequence_length＝100。卷积层和池化层可以为一维的；Flatten层用来将输入“压平”，即把多维的输入一维化，常用在从卷积层到全连接层的过渡。分类模型中还包括激活函数、损失函数、优化器等，激活函数可以使用sotfmax，损失函数可以使用categorical_crossentropy，优化器可以选择Adam。

可选的，在本发明实施例的一种可实现方式中，在确定指定的至少两个目标人物间的亲密度之后，可以基于目标人物间的亲密度，向互联网用户推荐某一个目标人物的信息的同时，还向互联网用户推荐与该目标人物亲密的另一个目标人物的信息。

基于图1所示实施例，在一种可实现的方式中，S103具体可以通过如下步骤实现：

第一步，针对一组指定的至少两个目标人物，识别各条句子分别对应的指定的至少两个目标人物的亲密度关系的关系属性。

第二步，统计并根据指定的至少两个目标人物的亲密度关系的各关系属性的句子数目，确定指定的至少两个目标人物间的亲密度。

针对一组指定的至少两个目标人物，输入的文本数据的所有句子中，对应具有指定的至少两个目标人物的亲密度关系不同，而不同关系属性的句子的多少直接可以反映到最终亲密度的识别结果，例如，表征正向关系的句子越多，则说明指定的至少两个目标人物的亲密度越高，因此，在识别出各条句子分别对应的指定的至少两个目标人物的亲密度关系的关系属性之后，需要对指定的至少两个目标人物的亲密度关系的各关系属性的句子数目进行统计，根据各关系属性的句子的多少，确定指定的至少两个目标人物间的亲密度。

具体的，关系属性包括正向关系、负向关系和中性关系，亲密度包括权重预测值和关系属性。相应的，统计并根据指定的至少两个目标人物的亲密度关系的各关系属性的句子数目，确定指定的至少两个目标人物间的亲密度的步骤，具体可以通过如下步骤实现：

计算差值与总数目的比值，并将比值的数值作为指定的至少两个目标人物间的亲密度的权重预测值，根据比值的符号，确定指定的至少两个目标人物间的亲密度的关系属性。其中，如果比值的符号为正号，则指定的至少两个目标人物间的亲密度的关系属性为正向关系；如果比值的符号为负号，则指定的至少两个目标人物间的亲密度的关系属性为负向关系。

通过统计指定的至少两个目标人物的亲密度关系对应的句子中关系属性为正向关系的句子数目、关系属性为负向关系的句子数目和关系属性为中性关系的句子数目，如果关系属性为正向关系的句子数目大于关系属性为负向关系的句子数目，则可以确定指定的至少两个目标人物间的亲密度的关系属性为正向关系；如果关系属性为正向关系的句子数目小于关系属性为负向关系的句子数目，则可以确定指定的至少两个目标人物间的亲密度的关系属性为负向关系。具体的，可以利用公式(1)计算出表示指定的至少两个目标人物间的亲密度的信息。

其中，positive表示关系属性为正向关系的句子，negative表示关系属性为负向关系的句子，neutral表示关系属性为中性关系的句子，domain为差值与总数目的比值，比值的数值为指定的至少两个目标人物间的亲密度的权重预测值，比值的符号表示指定的至少两个目标人物间的亲密度的关系属性。

以文本数据中总共有100条句子，分类模型输出的信息中，有40条句子对应有目标人物A和目标人物B的亲密度关系为例，如果这40条句子中有30条对应的目标人物A和目标人物B的亲密度关系的关系属性为正向关系，8条对应的目标人物A和目标人物B的亲密度关系的关系属性为负向关系，剩下的2条对应的目标人物A和目标人物B的亲密度关系的关系属性为中性关系，则第一句子数目为30，第二句子数目为8、第三句子数目为2，第一句子数目与第二句子数目的差值为22，第一句子数目、第二句子数目和第三句子数目的总数目为40，则计算得到的差值与总数目的比值为+0.55，则目标人物A和目标人物B的亲密度的权重预测值为0.55，且目标人物A和目标人物B的亲密度的关系属性为正向关系。

再例如，如果上述40条句子中有10条对应的目标人物A和目标人物B的亲密度关系的关系属性为正向关系，25条对应的目标人物A和目标人物B的亲密度关系的关系属性为负向关系，剩下的5条对应的目标人物A和目标人物B的亲密度关系的关系属性为中性关系，则第一句子数目为10，第二句子数目为25、第三句子数目为5，第一句子数目与第二句子数目的差值为-15，第一句子数目、第二句子数目和第三句子数目的总数目为40，则计算得到的差值与总数目的比值为-0.375，则目标人物A和目标人物B的亲密度的权重预测值为0.375，且目标人物A和目标人物B的亲密度的关系属性为负向关系。

如果差值与总数目的比值为正，则亲密度的权重预测值越大，则说明指定的至少两个目标人物之间越亲密；如果差值与总数目的比值为负，则亲密度的权重预测值越大，则说明指定的至少两个目标人物之间就越不亲密。

综上所述的目标人物间亲密度识别方法，分类模型是预先训练得到的，下面对分类模型的训练过程进行详细说明，如图3所示，分类模型的训练过程包括如下步骤：

S301，获取样本语料集。

样本语料集是多条样本句子组成的训练集合，样本语料集中的每条样本句子都表征有至少两个目标人物间的亲密度关系，可以预先基于每条样本句子的描述，对每条样本句子分别对应的至少两个目标人物的亲密度关系进行标注，得到标注信息，例如目标人物A和目标人物B是正向关系、负向关系等标注信息。

样本语料集中的样本句子可以是人工收集的，也可以是从互联网中抓取到多篇文章后筛选出来的。

可选的，S301具体可以为：

获取多个待分析的文本数据；分别将多个待分析的文本数据中的各文本数据分割成多条句子，并对分割后的各条句子分别进行分词处理，得到各条句子中的分词数据；针对所述各条句子，判断该条句子中的分词数据是否包括至少两个目标人物的名称，并在该条句子中的分词数据包括至少两个目标人物的名称时，查询预先建立的目标人物关系表，判断至少两个目标人物是否存在亲密度关系；将分词数据包括至少两个目标人物的名称，且至少两个目标人物存在亲密度关系的句子作为样本句子添加至样本语料集，并获取至少两个目标人物的亲密度关系标注信息添加至样本语料集。

在进行样本语料集的整理之前，可以通过实体识别、人工标注等方式识别出至少两个目标人物之间的关系(例如夫妻、朋友、父子等)，存入目标人物关系表，供下一步识别使用。通过抓取程序抓取互联网中的新闻、报道、小说等文章，作为待分析的文本数据。分析待分析的文本数据，将每篇文本数据分割成句子，对句子进行分词，查询目标人物关系表，如果一条句子中包括一组至少两个目标人物的名称，且这组目标人物在目标人物关系表中有亲密度关系，则这条句子作为样本句子添加至样本语料集，并且，相应的也将获取的这一组目标人物的亲密度关系标注信息添加至样本语料集中。

在添加样本句子至样本语料集时，可以在每条样本句子的结尾追加上这一组目标人物的名称，形如：sentence,starA,starB，调换目标人物间的顺序形成新的样本添加至样本语料集。

S302，将样本语料集中的各条样本句子作为训练样本，依次输入预设分类模型，对预设分类模型进行训练，得到训练后的分类模型。

在获取到完整的样本语料集之后，将样本语料集中的各条样本句子作为训练样本，依次输入预设分类模型，预设分类模型的模型结构可以如图2所示，对预设分类模型进行训练，即可得到训练后的分类模型。对预设分类模型进行训练可以采用传统的后向传播(Back Propagation，简称BP)算法，训练的过程就是基于每一次输入训练样本所得到的模型输出与标称值的比较结果，不断地对分类模型的参数进行调整，直至模型的输出逼近于标称值的过程，这里不再赘述。

在对分类模型进行训练之后，可以对分类模型的效果进行验证。具体的验证过程如下：

第一步，获取基于样本语料集的任一组至少两个目标人物间的亲密度权重标注值。

第二步，分别将样本语料集中的各条样本句子输入训练后的分类模型，得到样本语料集中各条样本句子分别对应的至少两个目标人物的亲密度关系。

第三步，针对任一组至少两个目标人物，根据样本语料集中各条样本句子分别对应的任一组至少两个目标人物的亲密度关系，计算任一组至少两个目标人物间的亲密度权重预测值。

第四步，根据亲密度权重标注值及亲密度权重预测值，统计亲密度权重预测值与亲密度权重标注值的差值绝对值小于或等于预设阈值的目标人物组数目。

第五步，根据目标人物组数目以及统计的样本语料集中目标人物总组数，计算分类模型的亲密度分类准确率。

基于样本语料集，可以对每一组至少两个目标人物间的亲密度进行标注，得到任一组至少两个目标人物间的亲密度权重标注值，基于训练后的分类模型可以计算出样本语料集中各条句子分别对应的至少两个目标人物的亲密度关系，进而可以计算出任一组至少两个目标人物间的亲密度权重预测值，通过亲密度分类准确率(即亲密度权重预测值与亲密度权重标注值的差值绝对值小于或等于预设阈值的目标人物组数目的比例)来验证效果。例如，可以通过公式(2)来验证分类模型的效果。

其中，domain为任一组至少两个目标人物间的亲密度权重预测值，target为任一组至少两个目标人物间的亲密度权重标注值，Count(starpairs)为样本语料集中目标人物总组数。经验证，分类模型的亲密度分类准确率可以达到79.34％，具有较好的分类效果。

相应于上述方法实施例，本发明实施例提供了一种目标人物间亲密度识别装置，如图4所示，该装置可以包括：

获取模块410，用于获取待识别的文本数据，其中，文本数据包括多条句子；

分类模块420，用于分别将各条句子输入分类模型，得到各条句子分别对应的至少两个目标人物的亲密度关系，其中，分类模型为预先基于样本语料集训练得到的深度学习模型，样本语料集包括多条样本句子以及各条样本句子分别对应的至少两个目标人物的亲密度关系标注信息；

确定模块430，用于针对一组指定的至少两个目标人物，根据各条句子分别对应的指定的至少两个目标人物的亲密度关系，确定指定的至少两个目标人物间的亲密度。

可选的，确定模块430，具体可以用于：

可选的，关系属性可以包括正向关系、负向关系和中性关系；亲密度可以包括权重预测值和关系属性；

确定模块430，具体可以用于：

可选的，该装置还可以包括训练模块；

训练模块，用于：

获取样本语料集；

可选的，训练模块在用于获取样本语料集时，具体可以用于：

获取多个待分析的文本数据；

可选的，训练模块，还可以用于：

相应于上述方法实施例，本发明实施例还提供了一种电子设备，如图5所示，包括处理器510、通信接口520、存储器530和通信总线540，其中，处理器510、通信接口520、存储器530通过通信总线540完成相互间的通信，

存储器530，用于存放计算机程序；

处理器510，用于执行存储器530上所存放的计算机程序时，实现本发明实施例所提供的上述目标人物间亲密度识别方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(Non-volatile Memory，简称NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在电子设备上运行时，使得电子设备执行上述实施例中的目标人物间亲密度识别方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当该计算机程序产品在电子设备上运行时，使得电子设备执行上述实施例中的目标人物间亲密度识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，简称DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如数字多功能光盘(Digital Versatile Disc，简称DVD))、或者半导体介质(例如固态硬盘(SolidState Disk，简称SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种目标人物间亲密度识别方法，其特征在于，所述方法包括：

获取待识别的文本数据，所述文本数据包括多条句子；

分别将所述多条句子中的各条句子输入分类模型，得到所述各条句子分别对应的至少两个目标人物的亲密度关系，所述分类模型为预先基于样本语料集训练得到的深度学习模型，所述样本语料集包括多条样本句子以及所述多条样本句子中各条样本句子分别对应的至少两个目标人物的亲密度关系标注信息；其中，所述亲密度关系表征所述至少两个目标人物之间是否亲密的关系属性，所述关系属性分为正向关系、负向关系和中性关系，所述正向关系、负向关系和中性关系用于表征所述至少两个目标人物的感情亲疏；

针对一组指定的至少两个目标人物，根据所述各条句子分别对应的所述指定的至少两个目标人物的亲密度关系，确定所述指定的至少两个目标人物间的亲密度；其中，所述针对一组指定的至少两个目标人物，根据所述各条句子分别对应的所述指定的至少两个目标人物的亲密度关系，确定所述指定的至少两个目标人物间的亲密度，包括：针对一组指定的至少两个目标人物，识别所述各条句子分别对应的所述指定的至少两个目标人物的亲密度关系的关系属性；统计并根据所述指定的至少两个目标人物的亲密度关系的各关系属性的句子数目，确定所述指定的至少两个目标人物间的亲密度。

2.根据权利要求1所述的方法，其特征在于，所述关系属性包括正向关系、负向关系和中性关系；所述亲密度包括权重预测值和关系属性；

所述统计并根据所述指定的至少两个目标人物的亲密度关系的各关系属性的句子数目，确定所述指定的至少两个目标人物间的亲密度，包括：

统计所述指定的至少两个目标人物的亲密度关系的关系属性为正向关系的第一句子数目、关系属性为负向关系的第二句子数目，以及关系属性为中性关系的第三句子数目；

计算所述第一句子数目与所述第二句子数目的差值，以及所述第一句子数目、所述第二句子数目和所述第三句子数目的总数目；

计算所述差值与所述总数目的比值，并将所述比值作为所述指定的至少两个目标人物间的亲密度的权重预测值；

根据所述比值的符号，确定所述指定的至少两个目标人物间的亲密度的关系属性。

3.根据权利要求1所述的方法，其特征在于，所述分类模型的训练方式，包括：

获取样本语料集；

将所述样本语料集中的各条样本句子作为训练样本，依次输入预设分类模型，对所述预设分类模型进行训练，得到训练后的分类模型。

4.根据权利要求3所述的方法，其特征在于，所述获取样本语料集，包括：

获取多个待分析的文本数据；

分别将所述多个待分析的文本数据中的各文本数据分割成多条句子，并对分割后的各条句子分别进行分词处理，得到所述各条句子中的分词数据；

针对所述各条句子，判断该条句子中的分词数据是否包括至少两个目标人物的名称，并在该条句子中的分词数据包括至少两个目标人物的名称时，查询预先建立的目标人物关系表，判断所述至少两个目标人物是否存在亲密度关系；

将分词数据包括至少两个目标人物的名称，且所述至少两个目标人物存在亲密度关系的句子作为样本句子添加至样本语料集，并获取所述至少两个目标人物的亲密度关系标注信息添加至所述样本语料集。

5.根据权利要求3所述的方法，其特征在于，在所述将所述样本语料集中的各条样本句子作为训练样本，依次输入预设分类模型，对所述预设分类模型进行训练，得到训练后的分类模型之后，所述方法还包括：

获取基于所述样本语料集的任一组至少两个目标人物间的亲密度权重标注值；

分别将所述样本语料集中的各条样本句子输入所述训练后的分类模型，得到所述样本语料集中各条样本句子分别对应的至少两个目标人物的亲密度关系；

针对所述任一组至少两个目标人物，根据所述样本语料集中各条样本句子分别对应的所述任一组至少两个目标人物的亲密度关系，计算所述任一组至少两个目标人物间的亲密度权重预测值；

根据所述亲密度权重标注值及所述亲密度权重预测值，统计所述亲密度权重预测值与所述亲密度权重标注值的差值绝对值小于或等于预设阈值的目标人物组数目；

根据所述目标人物组数目以及统计的所述样本语料集中目标人物总组数，计算所述分类模型的亲密度分类准确率。

6.一种目标人物间亲密度识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别的文本数据，所述文本数据包括多条句子；

分类模块，用于分别将所述多条句子中的各条句子输入分类模型，得到所述各条句子分别对应的至少两个目标人物的亲密度关系，所述分类模型为预先基于样本语料集训练得到的深度学习模型，所述样本语料集包括多条样本句子以及所述多条样本句子中各条样本句子分别对应的至少两个目标人物的亲密度关系标注信息；其中，所述亲密度关系表征所述至少两个目标人物之间是否亲密的关系属性，所述关系属性分为正向关系、负向关系和中性关系，所述正向关系、负向关系和中性关系用于表征所述至少两个目标人物的感情亲疏；

确定模块，用于针对一组指定的至少两个目标人物，根据所述各条句子分别对应的所述指定的至少两个目标人物的亲密度关系，确定所述指定的至少两个目标人物间的亲密度；其中，所述确定模块，具体用于：针对一组指定的至少两个目标人物，识别所述各条句子分别对应的所述指定的至少两个目标人物的亲密度关系的关系属性；统计并根据所述指定的至少两个目标人物的亲密度关系的各关系属性的句子数目，确定所述指定的至少两个目标人物间的亲密度。

7.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的计算机程序时，实现权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当指令在电子设备上运行时，使得电子设备执行权利要求1-5任一项所述的方法。