CN106469192A

CN106469192A - 一种文本相关性的确定方法及装置

Info

Publication number: CN106469192A
Application number: CN201610779610.5A
Authority: CN
Inventors: 沈; 沈一; 鲍昕平; 蔡龙军
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2017-03-01
Anticipated expiration: 2036-08-30
Also published as: CN106469192B

Abstract

本发明实施例公开了一种文本相关性的确定方法及装置，预先将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类，并计算每一类的质心向量；所述方法包括：获得待处理目标文本对应的文本向量；根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量，计算所述待处理目标文本与每一类质心的相关度；根据所述相关度，确定所述待处理目标文本与所述目标领域的相关性。应用本发明实施例提供的文本相关性的确定方法及装置，提高了目标文本和目标领域的相关性判定的速度。

Description

一种文本相关性的确定方法及装置

技术领域

本发明涉及互联网应用技术领域，特别涉及一种文本相关性的确定方法及装置。

背景技术

随着Web技术的不断发展，大数据时代已经到来，基于大数据的机器学习已经被应用在医疗、教育、交通、娱乐等众多领域。文本是最常见的数据类型，由若干个词组成，通常来自网络中的电子邮件、短信、微博、论坛的帖子等。目标文本与目标领域的相关性判定，是常见的文本数据处理方式。

以关键词进行文本抓取为例，如搜索与名称为《左耳》的影片相关的影评，可能会获得：“周末去影院看了《左耳》，非常好看”的相关文本、“我左耳朵不舒服，需要找耳科医生看看”的不相关文本。因此，要从结果中剔除相关性很低的噪声文本，现有技术通常采用将待处理的目标文本向量化以后与目标领域的相关文本的向量进行比较，得到目标文本与目标领域的相关度，由于相关文本的数量比较大，逐次比较花费的时间较长。

发明内容

本发明实施例的目的在于提供一种文本相关性的确定方法及装置，以提高目标文本和目标领域的相关性判定的速度。

为达到上述目的，本发明实施例公开了一种文本相关性的确定方法，预先将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类，并计算每一类的质心向量；所述方法包括：

获得待处理目标文本对应的文本向量；

根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量，计算所述待处理目标文本与每一类质心的相关度；

根据所述相关度，确定所述待处理目标文本与所述目标领域的相关性。

优选的，获得针对目标领域的文本样本中每一文本对应的文本向量，包括：

针对所述文本样本中每一文本，采用词嵌入技术，获得该文本对应的文本向量；

获得待处理目标文本对应的文本向量，包括：

针对所述待处理目标文本，采用词嵌入技术，获得该文本对应的文本向量。

优选的，所述将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类，包括：

根据预设聚类算法，将所述文本样本中每一文本对应的文本向量聚类。

优选的，所述根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量，计算所述待处理目标文本与每一类质心的相关度，包括：

根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量，采用余弦相似度算法，计算所述待处理目标文本与每一类质心的相关度。

优选的，所述根据所述相关度，确定所述待处理目标文本与所述目标领域的相关性，包括：

获得所述待处理目标文本与每一类质心的相关度中的最大值；

当所述最大值不小于第一预设阈值时，确定所述待处理目标文本与所述目标领域相关；

当所述最大值不大于第二预设阈值时，确定所述待处理目标文本与所述目标领域不相关；

当所述最大值介于所述第二预设阈值与所述第一预设阈值之间时，利用自编码神经网络对所述待处理目标文本对应的文本向量进行训练；计算训练前的文本向量和训练后的文本向量的均方差；判断所述均方差是否大于第三预设阈值；如果是，确定所述待处理目标文本与所述目标领域相关；如果否，确定所述待处理目标文本与所述目标领域不相关，其中，所述第二预设阈值小于所述第一预设阈值。

优选的，在确定所述待处理目标文本与所述目标领域相关的情况下，所述方法还包括：

将所述待处理目标文本标记为所述目标领域的相关文本。

为达到上述目的，本发明实施例还公开了一种文本相关性的确定装置，所述装置包括：

聚类模块，用于预先将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类，并计算每一类的质心向量；

获得模块，用于获得待处理目标文本对应的文本向量；

计算模块，用于根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量，计算所述待处理目标文本与每一类质心的相关度；

确定模块，用于根据所述相关度，确定所述待处理目标文本与所述目标领域的相关性。

获得待处理目标文本对应的文本向量，包括：

优选的，所述计算模块，具体用于：

优选的，所述确定模块，具体用于：

优选的，所述装置还包括：标记模块，

所述标记模块，用于在确定所述待处理目标文本与所述目标领域相关的情况下，将所述待处理目标文本标记为所述目标领域的相关文本。

由上述的技术方案可见，本发明实施例提供的一种文本相关性的确定方法及装置，预先将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类，并计算每一类的质心向量；所述方法包括：获得待处理目标文本对应的文本向量；根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量，计算所述待处理目标文本与每一类质心的相关度；根据所述相关度，确定所述待处理目标文本与所述目标领域的相关性。

应用本发明实施例提供的技术方案，将目标领域的文本样本对应的向量采用聚类算法聚成若干类并计算对应的质心向量，计算待处理目标文本对应的向量与每一类质心向量相关度，然后根据相关度确定待处理目标文本与目标领域是否相关，避免了将待处理目标文本对应的向量与目标领域的每一个文本样本对应的向量进行相关度的计算，显著减少了计算量。因此，提高了目标文本和目标领域的相关性判定的速度。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文本相关性的确定方法的流程示意图；

图2为本发明实施例提供的一种文本相关性的确定装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有技术问题，本发明实施例提供了一种文本相关性的确定方法及装置，以下分别进行详细说明。

需要说明的是，根据目标领域，可以获得大量的与目标领域相关的文本，即目标领域的文本样本。预先将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类，并计算每一类的质心向量。本领域技术人员可以理解的是，为了减少计算量，将大量的目标领域的文本样本向量化后进行聚类，并计算每一类的质心向量。

具体的，获得针对目标领域的文本样本中每一文本对应的文本向量，可以根据针对所述文本样本中每一文本，采用词嵌入技术，获得该文本对应的文本向量。实际应用中，可以采用词嵌入技术，词嵌入技术考虑到了词的语义信息，如同义词、上下文语意等，而且相比现有技术采用的TF-IDF进行文本向量化还具有文本向量较短的优势。

具体的，将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类，可以根据预设聚类算法，将所述文本样本中每一文本对应的文本向量聚类。预设的聚类算法可以是划分法、层次法，向量聚类为现有技术，本发明实施例在此不做赘述。假设，目标领域的文本样本为100个，根据聚类算法得到聚类数量为5类，得到对应的质心向量也为5个。实际应用中，具体某一类中文本样本的个数是由聚类算法本身决定的，一般情况下，每一类中的文本样本数都是不一样的。本发明实施例给出的目标领域的文本数量和聚类算法仅仅是示例性的，不构成对本发明实施例的限定。

图1为本发明实施例提供的一种文本相关性的确定方法的流程示意图，包括如下步骤：

S101，获得待处理目标文本对应的文本向量。

具体的，获得待处理目标文本对应的文本向量，可以根据针对所述待处理目标文本，采用词嵌入技术，获得该文本对应的文本向量。

S102，根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量，计算所述待处理目标文本与每一类质心的相关度。

具体的，根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量，计算所述待处理目标文本与每一类质心的相关度，可以根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量，采用余弦相似度算法，计算所述待处理目标文本与每一类质心的相关度。

S103，根据所述相关度，确定所述待处理目标文本与所述目标领域的相关性。

具体的，根据所述相关度，确定所述待处理目标文本与所述目标领域的相关性，可以包括：获得所述待处理目标文本与每一类质心的相关度中的最大值；当所述最大值不小于第一预设阈值时，确定所述待处理目标文本与所述目标领域相关；当所述最大值不大于第二预设阈值时，确定所述待处理目标文本与所述目标领域不相关；当所述最大值介于所述第二预设阈值与所述第一预设阈值之间时，利用自编码神经网络对所述待处理目标文本对应的文本向量进行训练；计算训练前的文本向量和训练后的文本向量的均方差；判断所述均方差是否大于第三预设阈值；如果是，确定所述待处理目标文本与所述目标领域相关；如果否，确定所述待处理目标文本与所述目标领域不相关，其中，所述第二预设阈值小于所述第一预设阈值。

具体的，在确定所述待处理目标文本与所述目标领域相关的情况下，还可以将所述待处理目标文本标记为所述目标领域的相关文本。

实际应用中，将待判定是否为目标领域相关的文本称之为待处理目标文本，首先将其向量化。采用的词嵌入技术将目标文本向量化的过程是：将待处理目标文本分成n个词，每个词由一个m维的向量来表示，那么，目标文本将会由这n个m维的向量拼接组成，即每个词对应的m维相加后的向量来表示。文本分词和文本向量化为现有技术，本发明实施例在此不做赘述。

示例性的，判断待处理目标文本“我左耳朵不舒服，需要找耳科医生看看”是否为电影《左耳》的影评，待处理目标文本采用词嵌入进行向量化，获得对应的向量为b。假设，b由三个词组成，每个词用6维的向量表示，则b可以表示为：b＝b₁₀b₁₁b₂₀b₂₁b₃₀b₃₁，实际应用中，词向量的维数通常要达到100-500维，本发明实施例仅仅是示例性的，不构成对本发明的限定；目标领域的文本对应的5个质心向量为：a₁、a₂、a₃、a₄、a₅。

本领域技术人员可以理解的是，经过聚类的质心向量中的每个向量值是所有被聚类的向量对应位置值的平均值。示例性的，对于质心向量a₁，由5个文本向量聚类而成，a₁＝a₁₀a₁₁a₁₂a₁₃a₁₄a₁₅，以a₁₀为例，是进行聚类的5个文本向量对应在a₁₀位置的向量值的平均。计算向量值为现有技术，本发明实施例在此不做赘述。

通过计算目标文本对应的向量与每一类质心向量的相关度，即可反应目标文本与该类质心向量对应的文本的相关度，通常采用的计算方式为余弦相似度算法。示例性的，待处理目标文本的文本向量b与质心向量a₁的相关度为：s＝sim(b，a₁)，其中，余弦相似度算法sim表示两个向量的空间夹角的余弦数值。

本领域技术人员可以理解的是，根据待处理目标文本的文本向量与每一类质心向量的相关度，能够确定目标文本是否与目标领域相关。通常，在所有相关度中取最大值，将其确定为待处理目标文本与目标领域的相关度。假设，第一预设阈值为0.55、第二预设阈值为0.45、第三预设阈值为0.04；根据余弦相似度算法，获得待处理目标文本的文本向量与每一质心的相关度，分别为0.1、0.2、0.3、0.6、0.3、0.4，则待处理目标文本与目标领域的相关度为0.6，因为0.6>0.55，则确定待处理目标文本与目标领域为相关。

若相关度分别为0.3、0.2、0.1、0.4、0.3、0.4，则待处理目标文本与目标领域的相关度为0.4，因为0.4小于第二预设阈值0.45，则确定待处理目标文本与目标领域为不相关。

若相关度分别为0.5、0.2、0.45、0.5、0.3、0.4，则待处理目标文本与目标领域的相关度为0.5，因为0.45<0.5<0.55，将待处理目标文本的文本向量b输入自编码神经网络进行训练，输出训练后向量为b’。示例性的，b、b’对应的向量值分别为：b＝(0.2，0.3，0.1，0.4，0.5，0.1)、b’＝(0.1，0.1，0.1，0.1，0.1，0.1)，获得b、b’的均方差为[(0.2-0.1)²+(0.3-0.1)²+(0.1-0.1)²+(0.4-0.1)²+(0.5-0.1)²+(0.1-0.1)²]/6＝0.05。因为0.05大于第三预设阈值0.04，确定待处理目标文本为目标领域的相关文本。

将确定的相关文本进行标记后，可以将其作为目标领域的文本样本，以此不断的对目标领域的文本样本进行更新，能够提高待处理目标文本与目标领域相关性判定的准确性。

实际应用中，若待处理目标文本确定为目标领域的不相关文本，则将其作为自编码神经网络的训练文本向量。本领域技术人员可以理解的是，自编码神经网络中用来训练输入的文本向量的是一些目标领域的不相关文本对应向量的集合，将这些不相关文本对应的向量作为特征，训练一个自编码神经网络。对于这些不相关文本的对应向量，自编码神经网络学习出编码权重和解码权重，此时输出向量和输入是一致的。如果输入的是不相关文本对应的向量，那么通过两组权重还原后的输出向量和输入向量接近相等，即两个向量的均方差接近0。而均方差越大，说明其还原程度越差，则该文本属于目标领域的相关文本的可能性较大。自编码神经网络为现有技术，本发明实施例在此不做赘述。

可见，应用本发明图1所示的实施例，将目标领域的文本样本对应的向量采用聚类算法聚成若干类并计算对应的质心向量，计算待处理目标文本对应的向量与每一类质心向量相关度，然后根据相关度确定待处理目标文本与目标领域是否相关，避免了将待处理目标文本对应的向量与目标领域的每一个文本样本对应的向量进行相关度的计算，显著减少了计算量。因此，提高了目标文本和目标领域的相关性判定的速度。

图2为本发明实施例提供的一种文本相关性的确定装置的结构示意图，可以包括：聚类模块201、获得模块202、计算模块203、确定模块204。

聚类模块201，用于预先将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类，并计算每一类的质心向量。

具体的，实际应用中，获得针对目标领域的文本样本中每一文本对应的文本向量，可以针对所述文本样本中每一文本，采用词嵌入技术，获得该文本对应的文本向量。

具体的，实际应用中，所述将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类，可以根据预设聚类算法，将所述文本样本中每一文本对应的文本向量聚类。

获得模块202，用于获得待处理目标文本对应的文本向量。

具体的，实际应用中，获得待处理目标文本对应的文本向量，可以针对所述待处理目标文本，采用词嵌入技术，获得该文本对应的文本向量。

计算模块203，用于根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量，计算所述待处理目标文本与每一类质心的相关度。

具体的，实际应用中，所述计算模块203，可以用于：

确定模块204，用于根据所述相关度，确定所述待处理目标文本与所述目标领域的相关性。

具体的，实际应用中，所述确定模块204，可以用于：

具体的，实际应用中，所述装置还可以包括：标记模块(图中未示出)，

标记模块，用于在确定所述待处理目标文本与所述目标领域相关的情况下，将所述待处理目标文本标记为所述目标领域的相关文本。

可见，应用本发明图2所示的实施例，将目标领域的文本样本对应的向量采用聚类算法聚成若干类并计算对应的质心向量，计算待处理目标文本对应的向量与每一类质心向量相关度，然后根据相关度确定待处理目标文本与目标领域是否相关，避免了将待处理目标文本对应的向量与目标领域的每一个文本样本对应的向量进行相关度的计算，显著减少了计算量。因此，提高了目标文本和目标领域的相关性判定的速度。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文本相关性的确定方法，其特征在于，预先将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类，并计算每一类的质心向量；所述方法包括：

获得待处理目标文本对应的文本向量；

2.根据权利要求1所述的方法，其特征在于，获得针对目标领域的文本样本中每一文本对应的文本向量，包括：

获得待处理目标文本对应的文本向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量，计算所述待处理目标文本与每一类质心的相关度，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述相关度，确定所述待处理目标文本与所述目标领域的相关性，包括：

6.根据权利要求5所述的方法，其特征在于，在确定所述待处理目标文本与所述目标领域相关的情况下，所述方法还包括：

将所述待处理目标文本标记为所述目标领域的相关文本。

7.一种文本相关性的确定装置，其特征在于，所述装置包括：

获得模块，用于获得待处理目标文本对应的文本向量；

8.根据权利要7所述的装置，其特征在于，获得针对目标领域的文本样本中每一文本对应的文本向量，包括：

获得待处理目标文本对应的文本向量，包括：

9.根据权利要求7所述的装置，其特征在于，所述将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类，包括：

10.根据权利要求7所述的装置，其特征在于，所述计算模块，具体用于：

11.根据权利要求7至10任一项所述的装置，其特征在于，所述确定模块，具体用于：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：标记模块，