CN110162630A

CN110162630A - 一种文本去重的方法、装置及设备

Info

Publication number: CN110162630A
Application number: CN201910384114.3A
Authority: CN
Inventors: 智绪浩; 庄超; 毕研涛; 魏学峰
Original assignee: Shenzhen Tencent Information Technology Co Ltd
Current assignee: Shenzhen Tencent Information Technology Co Ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-08-23

Abstract

本申请公开了一种文本去重的方法、装置及设备，所述方法包括：基于目标对象反馈的第一反馈文本，确定所述第一反馈文本中的实体关键词和描述关键词；基于文本分类模型，确定所述实体关键词的第一词向量以及所述描述关键词的第二词向量；基于所述第一词向量与所述第二词向量，确定所述第一反馈文本的句向量；计算所述第一反馈文本的句向量与预设文本向量库中第二反馈文本的句向量之间的相似度；基于所述相似度，对所述第一反馈文本进行去重处理。采用本申请提供的技术方案，可以准确计算出目标对象反馈的第一反馈文本与预设文本向量库中第二反馈文本之间的相似度，从而提高文本去重的准确率。

Description

一种文本去重的方法、装置及设备

技术领域

本申请涉及互联网文本分析技术领域，尤其涉及一种文本去重的方法、装置及设备。

背景技术

针对一款新游戏或者一个游戏的新版本，在正式应用之前均会对其进行测试。例如，招募数百名玩家体验游戏并反馈游戏中的缺陷。通常多名玩家对相同问题所采用的表达或描述不同，在后期统计游戏缺陷的时候，需要针对不同的描述找出重复的反馈并提取出来。

现有技术在进行文本去重时，对需要去重的文本进行分词；然后，直接从分词中提取的关键词；接着，计算两个文本的关键词之间的相似度，最后，基于文本的关键词之间的相似度来进行文本去重。上述现有的文本去重方法中，直接以分词后提取的关键词作为计算两个文本相似度的依据，由于关键词信息单一，往往无法准确地表征文本的语义，基于关键词间也就无法准确地计算文本之间的相似度，导致文本去重的效果较差。因此，需要提供一种更有效的文本去重的方法，以改善文本的去重效果。

发明内容

本申请提供了一种文本去重的方法、装置及设备，可以准确计算出目标对象反馈的第一反馈文本与预设文本向量库中第二反馈文本之间的相似度，从而提高文本去重的准确率。

一方面，本申请提供了一种文本去重的方法，所述方法包括：

基于目标对象反馈的第一反馈文本，确定所述第一反馈文本中的实体关键词和描述关键词；

基于文本分类模型，确定所述实体关键词的第一词向量以及所述描述关键词的第二词向量；

基于所述第一词向量与所述第二词向量，确定所述第一反馈文本的句向量；

计算所述第一反馈文本的句向量与预设文本向量库中第二反馈文本的句向量之间的相似度，所述预设文本向量库包括预设的第二反馈文本与句向量的映射关系；

基于所述相似度，对所述第一反馈文本进行去重处理。

另一方面提供了一种文本去重的装置，所述装置包括：

关键词确定模块，用于基于目标对象反馈的第一反馈文本，确定所述第一反馈文本中的实体关键词和描述关键词；

词向量确定模块，用于基于文本分类模型，确定所述实体关键词的第一词向量以及所述描述关键词的第二词向量；

句向量确定模块，用于基于所述第一词向量与所述第二词向量，确定所述第一反馈文本的句向量；

相似度计算模块，用于计算所述第一反馈文本的句向量与预设文本向量库中第二反馈文本的句向量之间的相似度，所述预设文本向量库包括预设的第二反馈文本与句向量的映射关系；

去重处理模块，用于基于所述相似度，对所述第一反馈文本进行去重处理。

另一方面提供了一种文本去重的设备，所述设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的文本去重的方法。

另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的文本去重的方法。

本申请提供的文本去重的方法、装置及设备，具有如下技术效果：

本申请基于目标对象反馈的第一反馈文本，将所述第一反馈文本拆分成实体关键词和描述关键词两个部分，即对第一反馈文本进行了细化分类，从而便于文本分类模型快速准确地确定所述实体关键词的第一词向量以及所述描述关键词的第二词向量；然后基于所述第一词向量与所述第二词向量，从而可以准确地得到所述第一反馈文本的句向量；基于句向量，进一步准确计算第一反馈文本与第二反馈文本的相似度，从而可实现文本准确、高效的去重。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种文本去重系统的示意图；

图2是本申请实施例提供的一种文本去重的方法的流程示意图；

图3是本申请实施例提供的一种基于目标对象反馈的第一反馈文本，确定所述第一反馈文本中的实体关键词和描述关键词的方法的流程示意图；

图4是本申请实施例提供的一种计算所述第一词向量与所述第二词向量的加权平均值的方法的流程示意图；

图5是本申请实施例提供的基于第一反馈文本确定实体关键词和描述关键词的结构示意图；

图6是本申请实施例提供的fastText模型架构示意图；

图7是本申请实施例提供的霍夫曼树结构示意图；

图8是本申请实施例提供的《圣斗士星矢》游戏对应的五个第二反馈文本的标题与相似度的一种显示界面示意图；

图9是本申请实施例提供的《刺激战场》游戏对应的五个第二反馈文本的标题与相似度的一种显示界面示意图；

图10是本申请实施例提供的《刺激战场》游戏对应的五个第二反馈文本的标题与相似度的另一种显示界面示意图；

图11是本申请实施例提供的一种文本去重的装置的结构示意图；

图12是本申请实施例提供的一种加权平均值计算子模块的结构示意图；

图13是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，图1是本申请实施例提供的一种文本去重系统的示意图，如图1所示，该文本去重系统可以至少包括服务器01和客户端02。

具体的，本说明书实施例中，所述服务器01可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群。服务器01可以包括有网络通信单元、处理器和存储器等等。具体的，所述服务器01可以用于进行文本的去重处理。

具体的，本说明书实施例中，所述客户端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如一些服务商提供给用户的网页页面，也可以为该些服务商提供给用户的应用。具体的，所述客户端02可以用于在线查询反馈文本之间的相似度。

以下介绍本申请的一种文本去重的方法，图2是本申请实施例提供的一种文本去重的方法的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，所述方法可以包括：

S201：基于目标对象反馈的第一反馈文本，确定所述第一反馈文本中的实体关键词和描述关键词。

在本说明书实施例中，所述目标对象可以包括用户、客户端，所述客户端可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如一些服务商提供给用户的网页页面，也可以为该些服务商提供给用户的应用。

在本说明书实施例中，所述第一反馈文本可以包括用户针对一个或多个实体对象或虚拟对象的评论、建议，例如所述第一反馈文本可以包括用户针对实体商铺的评论、用户针对应用程序(例如游戏应用程序)的评论或提出的改进建议。所述第一反馈文本可以包括一个或多个句子。

在本说明书实施例中，所述实体关键词可以包括名词、动词；所述描述关键词用于描述所述实体关键词，所述描述关键词可以包括形容词；如图5所示，基于一个第一反馈文本，可以得到一个实体关键词和一个描述关键词；例如第一反馈文本为：“我发现一个bug(故障，漏洞)，任务奖励无法领取”，其对应的实体关键词为“任务奖励”，描述关键词为“无法领取”；

在本说明书实施例中，一个句子中可以包括一个或多个实体关键词，一个实体关键词可以采用一个或多个描述关键词进行描述；因而，第一反馈文本可以包括一个或多个实体关键词，同时包括一个或多个描述关键词。

具体的，在本说明书实施例中，如图3所示，所述基于目标对象反馈的第一反馈文本，确定所述第一反馈文本中的实体关键词和描述关键词可以包括：

S2011：获取所述第一反馈文本中的原始实体关键词和原始描述关键词；

在本说明书实施例中，可以通过预设的关键词库获取所述第一反馈文本中的原始实体关键词和原始描述关键词；

所述获取所述第一反馈文本中的原始实体关键词和原始描述关键词的步骤之前可以包括：

预设关键词库，所述关键词库包括实体关键词库和描述关键词库，所述关键词库用于提取第一反馈文本中的原始实体关键词和原始描述关键词。

在本说明书实施例中，将所述第一反馈文本拆分成实体关键词和描述关键词两个部分，即对第一反馈文本进行了细化分类，从而便于文本分类模型快速、准确地确定所述实体关键词的第一词向量以及所述描述关键词的第二词向量。

S2013：基于预设同义词库，对所述原始实体关键词和所述原始描述关键词进行同义词替换处理，得到所述原始实体关键词对应的标准实体关键词和所述原始描述关键词对应的标准描述关键词；

在本说明书实施例中，所述同义词库用于将不同的关键词进行归一化处理，所述同义词库可以包括如下表1所示的映射关系，所述同义词库可以将关联同义词替换成标准同义词。

表1：同义词库中的映射关系

标准同义词	关联同义词
		无法领取	领取不了，没法领取，领取未发放，领取失败
AK	AKM，AK47

在本说明书实施例中，所述关键词库可以包括同义词库，所述关键词库提取第一反馈文本中的原始实体关键词和原始描述关键词之后，即分别对两种关键词进行同义词替换。

在本说明书实施例中，所述同义词库在计算用户反馈文本相似度之前进行同义词替换，能够很好的将同一概念、同义观点的不同表述归一化，优化了处理的流程，同时也提高了相似度计算的准确率。同义词库的应用可以扩大召回更多不同语言表述的关键词，进一步提高了文本去重的准确率。

S2015：将所述标准实体关键词作为所述实体关键词，将所述标准描述关键词作为所述描述关键词。

在本说明书实施例中，所述步骤S201之前还可以包括：

确定所述目标对象反馈的第一反馈文本。

在本说明书实施例中，可以将预设时间段内的目标对象的反馈文本作为第一反馈文本。

在本说明书实施例中，所述确定所述目标对象反馈的第一反馈文本的步骤之后，所述方法还包括：

对所述第一反馈文本进行数据过滤。

在本说明书实施例中，所述目标对象提供第一反馈文本时，都有一个对应的反馈模板，例如当所述目标对象为游戏玩家时，其反馈模块可以包括游戏中问题出现的时间、问题所在的机型、问题所在的游戏版本等信息；在实际应用中，可以针对该反馈模块进行数据过滤，将第一反馈文本中的无效信息删除，只保留玩家的核心反馈信息(即反馈模板中的信息)。

在本说明书实施例中，通过对所述第一反馈文本进行数据过滤，可以将所述第一反馈文本中的无效信息剔除，从而便于后续快速确定所述第一反馈文本中的实体关键词和描述关键词。

S203：基于文本分类模型，确定所述实体关键词的第一词向量以及所述描述关键词的第二词向量。

在本说明书实施例中，所述文本分类模型用于计算关键词的词向量；所述文本分类模型可以包括word2vec(word to vector，文本向量化)、SVM(Support Vector Machine，支持向量机)，Logistic Regression(逻辑回归)、neural network(神经网络)和fastText模型，fastText是一种Facebook AI Research在16年开源的一个文本分类器，其特点就是fast(快速)。相对于其它文本分类模型，如SVM，Logistic Regression和neural network等模型，fastText在保持分类效果的同时，大大缩短了训练时间。fastText模型输入一个词的序列(一段文本或者一句话)，输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量，特征向量通过线性变换映射到中间层，中间层再映射到标签。fastText将一个词拆分成了subword(子词，字)，用subword的词向量平均作为词向量，这样可以有效地解决未登录词的问题。

本说明书实施例中，fastText模型包含三部分：模型架构、层次Softmax和N-gram特征。Softmax为归一化指数函数，用于将概率值进行归一化处理；常规的Softmax是应用在多分类任务。而在该模型下，分级Softmax实质上将全局多分类问题转变为多个二元分类问题，从而将计算复杂度由O(N)降低到O(logN)；

N-gram是计算机语言学和概率论范畴内的概念，是指给定的一段文本或语音中N个项目(item)的序列。项目(item)可以是音节、字母、单词或碱基对。通常N-grams取自文本或语料库。N＝1时称为unigram，N＝2称为bigram，N＝3称为trigram，以此类推。

如图6所示，fastText模型架构为三层，包括输入层、隐藏层和输出层；其中X1，X2，X3，……，Xn对应为输入层；将输入层中的词和词组构成特征向量，再将特征向量通过线性变换映射到隐藏层，隐藏层通过求解最大似然函数，然后根据每个类别的权重和模型参数构建霍夫曼(Huffman)树，将Huffman树作为输出。

如图7所示，利用关键词的频次构造一颗霍夫曼树，所有的叶子节点为所有的关键词，非叶子节点是内部的参数，则y_j的概率P(yj)计算公式如下：

其中，σ表示sigmod函数，LC表示左孩子，f(m)为特定函数(若m＝true，则f(m)为1，否则f(m)为-1)，θ表示非叶子节点的参数，X表示输入。

可以以1个G的用户反馈文本作为训练文本，训练fastText词向量模型，其中X1，X2，X3，……，Xn表示一个反馈文本中的N-gram向量，每个特征是词向量的平均值，选取的最小subword长度为1，最大subword长度为5，输出的词向量维度为100维。其中的最小subword长度和最大subword长度还可以根据实际情况进行设定。维度代表了词语的特征，特征越多能够更准确的将词与词区分，这里的维度也可以根据实际情况设置，但是维度如果过高，会降低运算效率。

具体的，fastText词向量模型涉及到的技巧为子词级别N-grams特征的引入。对于关键词“海底迷宫”，假设N取值2，则它的bigram有：

“<海”、“海底”、“底迷”、“迷宫”、“宫>”

其中“<”“>”分别表示前缀、后缀。我们可以用这些bigrams表示“海底迷宫”这个关键词，进而可以利用这五个bigrams子词向量的加权平均值来表示“海底迷宫”的词向量。

S205：基于所述第一词向量与所述第二词向量，确定所述第一反馈文本的句向量。

本说明书实施例中，所述基于所述第一词向量与所述第二词向量，确定所述第一反馈文本的句向量可以包括：

S2051：计算所述第一词向量与所述第二词向量的加权平均值；

S2053：将所述加权平均值确定为所述第一反馈文本的句向量。

本说明书实施例中，所述方法还可以包括：

计算所述实体关键词的第一概率权重，所述第一概率权重用于表征所述实体关键词在所述预设文本向量库中出现的概率；

计算所述描述关键词的第二概率权重，所述第二概率权重用于表征所述描述关键词在所述预设文本向量库中出现的概率；

相应的，如图4所示，所述计算所述第一词向量与所述第二词向量的加权平均值可以包括：

S20511：基于所述第一概率权重与所述第一词向量，确定实体关键词的权重词向量；

所述基于所述第一概率权重与所述第一词向量，确定实体关键词的权重词向量可以包括：

计算所述第一词向量与所述第一概率权重的乘积，得到第一乘积；

将所述第一乘积作为所述实体关键词的权重词向量。

S20513：基于所述第二概率权重与所述第二词向量，确定描述关键词的权重词向量；

所述基于所述第二概率权重与所述第二词向量，确定描述关键词的权重词向量可以包括：

计算所述第二词向量与所述第二概率权重的乘积，得到第二乘积；

将所述第二乘积作为所述描述关键词的权重词向量。

在实际应用中，概率权重可以表示为：其中w为关键词，所述关键词包括实体关键词和描述关键词，a为常数，a可以取值1；p(w)为关键词在所述预设文本向量库中出现的概率，若关键词在所述预设文本向量库中出现的概率越高，则该关键词在其对应的反馈文本中的权重越低，其对反馈文本的句向量影响越小；反之，则关键词对反馈文本的句向量影响越大。相应的，所述权重词向量可以表示为：其中，v_w为词向量。

S20515：计算所述实体关键词和所述描述关键词的权重词向量的平均值，得到权重词向量平均值；

S20517：将所述权重词向量平均值作为所述第一词向量与所述第二词向量的加权平均值。

在实际应用中，所述第一词向量与所述第二词向量的加权平均值的计算公式如下：其中，v_s为加权平均值，s为反馈文本中的关键词集合，|s|表示关键词集合的大小，即关键词集合中关键词的个数。

本说明书实施例中，基于关键词在所述预设文本向量库中出现的概率及其对应的词向量，计算得到关键词的权重词向量，并计算所有关键词的权重词向量平均值，从而得到了准确率较高的词向量的加权平均值。

本说明书实施例中，所述方法还可以包括：

确定所述实体关键词的第一类型权重；所述第一类型权重用于表征所述实体关键词的重要程度；

确定所述描述关键词的第二类型权重；所述第二类型权重用于表征所述描述关键词的重要程度；

相应的，所述基于所述第一概率权重与所述第一词向量，确定实体关键词的权重词向量可以包括：

基于所述第一概率权重、所述第一类型权重与所述第一词向量，确定所述实体关键词的权重词向量；

本说明书实施例中，所述基于所述第一概率权重、所述第一类型权重与所述第一词向量，确定所述实体关键词的权重词向量可以包括：

计算所述第一概率权重、所述第一类型权重与所述第一词向量的乘积，得到第三乘积；

将所述第三乘积作为所述实体关键词的权重词向量。

相应的，所述基于所述第二概率权重与所述第二词向量，确定描述关键词的权重词向量可以包括：

基于所述第二概率权重、所述第二类型权重与所述第二词向量，确定所述描述关键词的权重词向量。

本说明书实施例中，所述基于所述第二概率权重、所述第二类型权重与所述第二词向量，确定所述描述关键词的权重词向量可以包括：

计算所述第二概率权重、所述第二类型权重与所述第二词向量的乘积，得到第四乘积；

将所述第四乘积作为所述实体关键词的权重词向量。

在实际应用中，类型权重可以表示为：k(t(w))，其中w为关键词，所述关键词包括实体关键词和描述关键词，t表示关键词的类型，k表示t类型的关键词对应的权重；相应的，所述权重词向量可以表示为：其中，v_w为词向量，为概率权重，k(t(w))为类型权重。相应的，所述第一词向量与所述第二词向量的加权平均值的计算公式如下：其中，v_s为加权平均值，s为反馈文本中的关键词集合，|s|表示关键词集合的大小，即关键词集合中关键词的个数。

本说明书实施例中，分别对关键词设置了概率权重和类型权重，在此基础上，得到了关键词的权重词向量，提高了权重词向量的准确率；基于所述权重词向量，计算的所述第一反馈文本的句向量准确率也相应提高。

S207：计算所述第一反馈文本的句向量与预设文本向量库中第二反馈文本的句向量之间的相似度，所述预设文本向量库包括预设的第二反馈文本与句向量的映射关系。

本说明书实施例中，可以利用余弦相似性距离来计算所述第一反馈文本的句向量与预设文本向量库中第二反馈文本的句向量之间的相似度，计算公式如下：

其中，s₁为第一反馈文本，x为第一反馈文本s₁对应的句向量，s₂为第二反馈文本，y为第二反馈文本s₂对应的句向量，θ表示句向量x与y之间的夹角；其中sim的全称为similarity，含义是相似度。

本说明书实施例中，基于得到的准确率较高的句向量，可以得到准确率高的不同句向量之间的相似度，即得到第一反馈文本与第二反馈文本之间的相似度。

S209：基于所述相似度，对所述第一反馈文本进行去重处理。

本说明书实施例中，所述基于所述相似度，对所述第一反馈文本进行去重处理可以包括：

将与所述预设文本向量库中第二反馈文本的句向量之间的相似度大于等于预设阈值的第一反馈文本确定为重复文本；具体的，所述预设阈值可以根据实际情况进行设定，例如可以将所述预设阈值设置为80％或90％。

删除所述重复文本。

在本说明书实施例中，所述第一反馈文本可以有多个，分别针对每个第一反馈文本进行相似度计算，并将第一反馈文本中的重复文本进行删除处理。

在本说明书实施例中，所述方法还包括：

将与所述预设文本向量库中第二反馈文本的句向量之间的相似度小于所述预设阈值的第一反馈文本确定为非重复文本；

将所述非重复文本存储于所述预设文本向量库中。

在本说明书实施例中，所述预设文本向量库中还可以存储反馈文本与句向量的映射关系。

在本说明书实施例中，所述预设文本向量库中还可以存储反馈文本与其对应的标题的映射关系，同时存储反馈文本的标题与句向量的映射关系。

在一些实施例中，基于所述相似度，对所述第一反馈文本进行去重处理可以结合人工的辅助判断进行。具体的，所述基于所述相似度，对所述第一反馈文本进行去重处理可以包括：

获取所述预设文本向量库中与所述第一反馈文本的句向量的相似度由高到低的前预设数量个句向量；

获取与所述前预设数量个句向量对应的第二反馈文本对应的标题；

将所述第一反馈文本、所述前预设数量个第二反馈文本的标题与相似度的映射关系发送至客户端；

客户端用户基于接收的内容，判断所述第一反馈文本是否为重复文本，并判断所述前预设数量个第二文本中是否存在重复文本；

当客户端用户判断所述第一反馈文本为重复文本时，删除所述重复文本；

当客户端用户判断所述第一反馈文本为非重复文本时，将所述非重复文本存储于所述预设文本向量库中；

当客户端用户判断所述前预设数量个第二文本中存在重复文本时，将其从所述预设文本向量库中召回。

以下结合《圣斗士星矢》、《刺激战场》两款游戏的玩家反馈文本说明人工辅助判断的文本去重方法。

获取所述预设文本向量库中与游戏玩家的第一反馈文本的句向量的相似度由高到低的前五个句向量；

在本说明书实施例中，针对《圣斗士星矢》游戏，获取到所述预设文本向量库中与第一反馈文本的相似度最高的五个第二反馈文本对应的标题和相似度数据；

获取所述五个第二反馈文本对应的标题；

具体的，不同的第二反馈文本可能对应同一个标题；

将所述第一反馈文本、所述五个第二反馈文本的标题与相似度的映射关系发送至客户端；

如图8所示，客户端的显示界面显示《圣斗士星矢》游戏对应的五个第二反馈文本的标题与相似度的映射关系；显示界面中显示了五个第二反馈文本的标题以及第二反馈文本与第一反馈文本相似度；其中的“[界面]进入技能升级或第八感界面后返回会卡死”、“[银河赛]银河用死斗直接卡死”、“[战斗]高帧率高画质下出现非正常抖动”、“[界面]界面中点击各项图标均无效”均为反馈文本对应的标题，其中有两个相同的标题“[界面]进入技能升级或第八感界面后返回会卡死”分别对应两个不同的相似度，可见，点击标题后显示的反馈文本内容不同；

如图9-10所示，客户端的显示界面显示《刺激战场》游戏对应的两个不同第一反馈文本对应的五个第二反馈文本的标题与相似度的映射关系；显示界面中同样显示了五个第二反馈文本的标题以及第二反馈文本与第一反馈文本的相似度；

当用户点击第二反馈文本对应的标题时，即可获取与所述前五个句向量对应的第二反馈文本；

客户端用户基于接收的内容，判断所述第一反馈文本是否为重复文本，并判断所述五个第二文本中是否存在重复文本；

当客户端用户判断所述五个第二文本中存在重复文本时，触发显示界面中的“重复”，即可将其从所述预设文本向量库中召回。

本说明书实施例中，显示界面中的“bug”是指故障，漏洞。

由以上本说明书实施例提供的技术方案可见，本说明书实施例基于目标对象反馈的第一反馈文本，将所述第一反馈文本拆分成实体关键词和描述关键词两个部分，即对第一反馈文本进行了细化分类，从而便于文本分类模型快速准确地确定所述实体关键词的第一词向量以及所述描述关键词的第二词向量；然后基于所述第一词向量与所述第二词向量，从而可以准确地得到所述第一反馈文本的句向量；基于句向量，进一步准确计算第一反馈文本与第二反馈文本的相似度，从而可实现文本准确、高效的去重。

本申请实施例还提供了一种文本去重的装置，如图11所示，所述装置包括：

关键词确定模块1110，可以用于基于目标对象反馈的第一反馈文本，确定所述第一反馈文本中的实体关键词和描述关键词；

词向量确定模块1120，可以用于基于文本分类模型，确定所述实体关键词的第一词向量以及所述描述关键词的第二词向量；

句向量确定模块1130，可以用于基于所述第一词向量与所述第二词向量，确定所述第一反馈文本的句向量；

相似度计算模块1140，可以用于计算所述第一反馈文本的句向量与预设文本向量库中第二反馈文本的句向量之间的相似度，所述预设文本向量库包括预设的第二反馈文本与句向量的映射关系；

去重处理模块1150，可以用于基于所述相似度，对所述第一反馈文本进行去重处理。

在一些实施例中，所述句向量确定模块1130可以包括：

加权平均值计算子模块，用于计算所述第一词向量与所述第二词向量的加权平均值；

句向量确定子模块，用于将所述加权平均值确定为所述第一反馈文本的句向量。

在一些实施例中，所述装置还可以包括：

第一概率权重计算模块，用于计算所述实体关键词的第一概率权重，所述

第一概率权重用于表征所述实体关键词在所述预设文本向量库中出现的概率；

第二概率权重计算模块，用于计算所述描述关键词的第二概率权重，所述第二概率权重用于表征所述描述关键词在所述预设文本向量库中出现的概率；

相应的，如图12所示，所述加权平均值计算子模块可以包括：

第一权重词向量确定单元1210，用于基于所述第一概率权重与所述第一词向量，确定实体关键词的权重词向量；

第二权重词向量确定单元1220，用于基于所述第二概率权重与所述第二词向量，确定描述关键词的权重词向量；

权重词向量平均值确定单元1230，用于计算所述实体关键词和所述描述关键词的权重词向量的平均值，得到权重词向量平均值；

加权平均值确定单元1240，用于将所述权重词向量平均值作为所述第一词向量与所述第二词向量的加权平均值。

在一些实施例中，所述装置还可以包括：

第一类型权重确定模块，用于确定所述实体关键词的第一类型权重；

第二类型权重确定模块，用于确定所述描述关键词的第二类型权重；

相应的，所述第一权重词向量确定单元包括：

第一权重词向量确定子单元，用于基于所述第一概率权重、所述第一类型权重与所述第一词向量，确定所述实体关键词的权重词向量；

所述第二权重词向量确定单元包括：

第二权重词向量确定子单元，用于基于所述第二概率权重、所述第二类型权重与所述第二词向量，确定所述描述关键词的权重词向量。

在一些实施例中，所述关键词确定模块还可以包括：

关键词获取子模块，用于获取所述第一反馈文本中的原始实体关键词和原始描述关键词；

标准关键词获取子模块，用于基于预设同义词库，对所述原始实体关键词和所述原始描述关键词进行同义词替换处理，得到所述原始实体关键词对应的标准实体关键词和所述原始描述关键词对应的标准描述关键词；

关键词确定子模块，用于将所述标准实体关键词作为所述实体关键词，将所述标准描述关键词作为所述描述关键词。

在一些实施例中，所述去重处理模块还可以包括：

重复文本确定子模块，用于将与所述预设文本向量库中第二反馈文本的句向量之间的相似度大于等于预设阈值的第一反馈文本确定为重复文本；

重复文本删除子模块，用于删除所述重复文本。

在一些实施例中，所述装置还可以包括：

非重复文本确定模块，用于将与所述预设文本向量库中第二反馈文本的句向量之间的相似度小于所述预设阈值的第一反馈文本确定为非重复文本；

非重复文本存储模块，用于将所述非重复文本存储于所述预设文本向量库中。

所述的装置实施例中的装置与方法实施例基于同样地发明构思。

本申请实施例提供了一种文本去重的设备，该设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的文本去重的方法。

本申请的实施例还提供了一种存储介质，所述存储介质可设置于终端之中以保存用于实现方法实施例中一种文本去重的方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的文本去重的方法。

可选地，在本说明书实施例中，存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书实施例所述存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本申请实施例所提供的文本去重的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图13是本申请实施例提供的一种文本去重的方法的服务器的硬件结构框图。如图13所示，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central ProcessingUnits，CPU)1310(处理器1310可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1330，一个或一个以上存储应用程序1323或数据1322的存储介质1320(例如一个或一个以上海量存储设备)。其中，存储器1330和存储介质1320可以是短暂存储或持久存储。存储在存储介质1320的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1310可以设置为与存储介质1320通信，在服务器1300上执行存储介质1320中的一系列指令操作。服务器1300还可以包括一个或一个以上电源1360，一个或一个以上有线或无线网络接口1350，一个或一个以上输入输出接口1340，和/或，一个或一个以上操作系统1321，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口1340可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1300的通信供应商提供的无线网络。在一个实例中，输入输出接口1340包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1340可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图13所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器1300还可包括比图13中所示更多或者更少的组件，或者具有与图13所示不同的配置。

由上述本申请提供的文本去重的方法、装置、服务器或存储介质的实施例可见，本申请基于目标对象反馈的第一反馈文本，将所述第一反馈文本拆分成实体关键词和描述关键词两个部分，即对第一反馈文本进行了细化分类，从而便于文本分类模型快速准确地确定所述实体关键词的第一词向量以及所述描述关键词的第二词向量；然后基于所述第一词向量与所述第二词向量，从而可以准确地得到所述第一反馈文本的句向量；基于句向量，进一步准确计算第一反馈文本与第二反馈文本的相似度，从而可实现文本准确、高效的去重。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本去重的方法，其特征在于，所述方法包括：

基于所述相似度，对所述第一反馈文本进行去重处理。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一词向量与所述第二词向量，确定所述第一反馈文本的句向量包括：

计算所述第一词向量与所述第二词向量的加权平均值；

将所述加权平均值确定为所述第一反馈文本的句向量。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

相应的，所述计算所述第一词向量与所述第二词向量的加权平均值包括：

基于所述第一概率权重与所述第一词向量，确定实体关键词的权重词向量；

基于所述第二概率权重与所述第二词向量，确定描述关键词的权重词向量；

计算所述实体关键词和所述描述关键词的权重词向量的平均值，得到权重词向量平均值；

将所述权重词向量平均值作为所述第一词向量与所述第二词向量的加权平均值。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

确定所述实体关键词的第一类型权重；

确定所述描述关键词的第二类型权重；

相应的，所述基于所述第一概率权重与所述第一词向量，确定实体关键词的权重词向量包括：

相应的，所述基于所述第二概率权重与所述第二词向量，确定描述关键词的权重词向量包括：

5.根据权利要求1所述的方法，其特征在于，所述基于目标对象反馈的第一反馈文本，确定所述第一反馈文本中的实体关键词和描述关键词包括：

获取所述第一反馈文本中的原始实体关键词和原始描述关键词；

基于预设同义词库，对所述原始实体关键词和所述原始描述关键词进行同义词替换处理，得到所述原始实体关键词对应的标准实体关键词和所述原始描述关键词对应的标准描述关键词；

将所述标准实体关键词作为所述实体关键词，将所述标准描述关键词作为所述描述关键词。

6.根据权利要求1所述的方法，其特征在于，所述基于所述相似度，对所述第一反馈文本进行去重处理包括：

将与所述预设文本向量库中第二反馈文本的句向量之间的相似度大于等于预设阈值的第一反馈文本确定为重复文本；

删除所述重复文本。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将所述非重复文本存储于所述预设文本向量库中。

8.一种文本去重的装置，其特征在于，所述装置包括：

9.一种文本去重的设备，其特征在于，所述设备包括：处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-7任一所述的文本去重的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-7任一所述的文本去重的方法。