CN111191025B

CN111191025B - 文章相关性的确定方法、装置、可读介质及电子设备

Info

Publication number: CN111191025B
Application number: CN201811360896.9A
Authority: CN
Inventors: 李冰锋; 李彪; 冯晓强; 范欣
Original assignee: Shenzhen Yayue Technology Co ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2023-12-12
Anticipated expiration: 2038-11-15
Also published as: CN111191025A

Abstract

本发明的实施例提供了一种文章相关性的确定方法、装置、可读介质及电子设备。该文章相关性的确定方法包括：获取用于对机器学习模型进行训练的文章数据；提取所述文章数据中各个文章所包含的文本特征和图片特征，根据所述各个文章所包含的文本特征和图片特征生成所述各个文章的特征；根据所述各个文章的特征和所述各个文章之间的相关关系，生成所述机器学习模型的训练样本；基于所述训练样本对所述机器学习模型进行训练，以基于训练后的机器学习模型确定文章之间的相关性。本发明实施例的技术方案能够综合利用文章的文本特征和图片特征来提高文章相关性的计算准确率。

Description

文章相关性的确定方法、装置、可读介质及电子设备

技术领域

本发明涉及计算机及通信技术领域，具体而言，涉及一种文章相关性的确定方法、装置、可读介质及电子设备。

背景技术

文章相关性计算在资讯推荐领域应用广泛，比如可以应用在底层页面相关推荐、新闻专题聚类、新闻APP(Application，应用程序)的列表页个性化推荐等领域。相关技术中在计算文章的相关性时，基本都是采用基于文章文本特征的相关性计算方法，这种方式虽然计算简单，但是存在相关性计算不准确的问题。

发明内容

本发明的实施例提供了一种文章相关性的确定方法、装置、可读介质及电子设备，进而至少在一定程度上可以提高文章相关性的计算准确率。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的一个方面，提供了一种文章相关性的确定方法，包括：获取用于对机器学习模型进行训练的文章数据；提取所述文章数据中各个文章所包含的文本特征和图片特征，根据所述各个文章所包含的文本特征和图片特征生成所述各个文章的特征；根据所述各个文章的特征和所述各个文章之间的相关关系，生成所述机器学习模型的训练样本；基于所述训练样本对所述机器学习模型进行训练，以基于训练后的机器学习模型确定文章之间的相关性。

根据本发明实施例的一个方面，提供了一种文章相关性的确定装置，包括：获取单元，用于获取对机器学习模型进行训练的文章数据；提取单元，用于提取所述文章数据中各个文章所包含的文本特征和图片特征，根据所述各个文章所包含的文本特征和图片特征生成所述各个文章的特征；生成单元，用于根据所述各个文章的特征和所述各个文章之间的相关关系，生成所述机器学习模型的训练样本；处理单元，用于基于所述训练样本对所述机器学习模型进行训练，以基于训练后的机器学习模型确定文章之间的相关性。

在本发明的一些实施例中，基于前述方案，所述提取单元配置为：提取所述各个文章的标题和正文标签，以及所述各个文章中所包含的预定数量个图片的特征；将所述各个文章的标题和正文标签作为所述各个文章所包含的文本特征，并根据所述各个文章中所包含的预定数量个图片的特征生成所述各个文章所包含的图片特征。

在本发明的一些实施例中，基于前述方案，所述提取单元配置为：计算所述各个文章中所包含的预定数量个图片的特征平均值，将所述特征平均值作为所述各个文章所包含的图片特征。

在本发明的一些实施例中，基于前述方案，所述提取单元配置为：对于所包含的图片数量小于所述预定数量的目标文章，将所述目标文章中所包含的所有图片的特征平均值作为所述目标文章所包含的图片特征，或者对所述目标文章中所包含的图片进行复制，以得到所述预定数量个图片。

在本发明的一些实施例中，基于前述方案，所述生成单元配置为：根据所述各个文章之间的相关关系，确定具有相关性的第一文章和第二文章；根据所述第一文章的特征、所述第二文章的特征，以及与所述第一文章不相关的第三文章的特征，生成所述训练样本。

在本发明的一些实施例中，基于前述方案，所述生成单元配置为：根据所述各个文章的点击情况，计算文章之间的相关性得分；将所述相关性得分大于或等于得分阈值的两篇文章作为所述第一文章和所述第二文章。

在本发明的一些实施例中，基于前述方案，所述生成单元基于如下公式计算文章之间的相关性得分：

其中，sim_score表示文章A和文章B之间的相关性得分；click_user_num(A,B)表示既点击过文章A又点击过文章B的用户数量，且click_user_num(A,B)大于或等于设定阈值；click_user_num(A)表示点击文章A的用户数量；click_user_num(B)表示点击文章B的用户数量。

在本发明的一些实施例中，基于前述方案，所述生成单元配置为：根据所述第一文章的特征、所述第二文章的特征和所述第三文章的特征生成特征三元组，将所述特征三元组作为一个所述训练样本。

在本发明的一些实施例中，基于前述方案，所述生成单元还用于：从文章数据中随机选取文章作为所述第三文章；或根据所述各个文章之前的相关关系，确定与所述第一文章不相关的文章作为所述第三文章。

在本发明的一些实施例中，基于前述方案，所述处理单元配置为：通过所述机器学习模型分别生成所述第一文章的特征对应的第一特征向量、所述第二文章的特征对应的第二特征向量、所述第三文章的特征对应的第三特征向量；计算所述第一特征向量与所述第二特征向量之间的相似度，得到第一相似度，并计算所述第一特征向量与所述第三特征向量之间的相似度，得到第二相似度；根据所述第一相似度、所述第二相似度和所述机器学习模型的损失函数调整所述机器学习模型的参数，以使所述损失函数收敛。

在本发明的一些实施例中，基于前述方案，通过以下公式构建所述机器学习模型的损失函数：

Loss＝max{0,cosine(V,V-)-cosine(V,V+)+Margin}

其中，cosine(V,V-)表示具有相关性的两篇文章对应的特征向量V与V-之间的相似度；cosine(V,V+)表示不相关的两篇文章对应的特征向量V与V+之间的相似度；Margin表示参数。

在本发明的一些实施例中，基于前述方案，所述处理单元配置为：提取待处理文章的特征；根据所述待处理文章的特征，基于训练后的机器学习模型生成所述待处理文章的特征向量；计算所述待处理文章的特征向量与已有文章的特征向量之间的相似度，根据所述待处理文章的特征向量与已有文章的特征向量之间的相似度确定文章之间的相关性。

根据本发明实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的文章相关性的确定方法。

根据本发明实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的文章相关性的确定方法。

在本发明的一些实施例所提供的技术方案中，通过提取各个文章所包含的文本特征和图片特征，以根据各个文章所包含的文本特征和图片特征生成各个文章的特征，进而根据各个文章的特征和各个文章之间的相关关系生成训练样本并基于该训练样本对机器学习模型进行训练，使得在确定文章之间的相关性时不仅能够考虑到文章中的文本特征，而且能够考虑到文章中的图片特征，进而能够充分利用文章中的多模态信息(即文本特征和图片特征)来提高文章相关性的计算准确率，避免了仅通过文本特征来确定文章之间的相关性而导致的准确率较低的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图；

图2示意性示出了根据本发明的一个实施例的文章相关性的确定方法的流程图；

图3示意性示出了根据本发明的一个实施例的根据各个文章的特征和各个文章之间的相关关系，生成机器学习模型的训练样本的流程图；

图4示意性示出了根据本发明的一个实施例的基于训练样本对机器学习模型进行训练的流程图；

图5示意性示出了根据本发明的一个实施例的基于训练后的机器学习模型确定文章之间的相关性的流程图；

图6示意性示出了根据本发明的一个实施例的模型训练阶段的流程图；

图7示意性示出了根据本发明的一个实施例的模型训练的框架图；

图8示意性示出了根据本发明的一个实施例的相关性计算阶段的流程图；

图9示出了根据本发明的一个实施例的文章相关性的确定方案的应用场景的效果示意图；

图10示意性示出了根据本发明的一个实施例的文章相关性的确定装置的框图；

图11示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本发明实施例的技术方案的示例性系统架构的示意图。

如图1所示，系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

在本发明的一个实施例中，服务器105可以获取用于对机器学习模型进行训练的文章数据，其中该文章数据可以是用户通过终端设备上传至服务器105的，也可以是服务器105从云端获取到的。当服务器105获取到文章数据之后，可以提取该文章数据中各个文章所包含的文本特征和图片特征，以根据各个文章所包含的文本特征和图片特征生成各个文章的特征，然后根据各个文章的特征和各个文章之间的相关关系，生成机器学习模型的训练样本，进而基于该训练样本对机器学习模型进行训练，以基于训练后的机器学习模型确定文章之间的相关性。

在本发明的一个实施例中，当服务器105确定文章之间的相关性之后，可以将相关联的文章推送至终端设备中，以便于用户进行查看。

需要说明的是，本发明实施例所提供的文章相关性的确定方法一般由服务器105执行，相应地，文章相关性的确定装置一般设置于服务器105中。但是，在本发明的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本发明实施例所提供的文章相关性的确定方案。

以下对本发明实施例的技术方案的实现细节进行详细阐述：

图2示意性示出了根据本发明的一个实施例的文章相关性的确定方法的流程图，该文章相关性的确定方法可以由服务器来执行，该服务器可以是图1中所示的服务器。参照图2所示，该文章相关性的确定方法至少包括步骤S210至步骤S240，详细介绍如下：

在步骤S210中，获取用于对机器学习模型进行训练的文章数据。

在本发明的一个实施例中，用于对机器学习模型进行训练的文章数据可以是大量的真实文章，并且可以包含用户对文章的点击情况。机器学习模型可以是DNN(Deep NeuralNetwork，深度神经网络)模型，也可以是CNN(Convolutional Neural Network，卷积神经网络)模型。

在步骤S220中，提取所述文章数据中各个文章所包含的文本特征和图片特征，根据所述各个文章所包含的文本特征和图片特征生成所述各个文章的特征。

在本发明的一个实施例中，提取文章所包含的文本特征的过程可以是：提取各个文章的标题和正文标签，将各个文章的标题和正文标签作为各个文章所包含的文本特征。

在本发明的一个实施例中，可以通过TF-IDF(Term Frequency–Inverse DocumentFrequency，词频-逆文本频率指数)算法来提取文章中的正文标签，比如提取得分最高的若干个(如6个)标签作为正文标签。

在本发明的一个实施例中，提取文章所包含的图片特征的过程可以包括：提取各个文章中所包含的预定数量个图片的特征，根据各个文章中所包含的预定数量个图片的特征生成所述各个文章所包含的图片特征。

在本发明的一个实施例中，可以计算各个文章中所包含的预定数量个图片的特征平均值，然后将该特征平均值作为各个文章所包含的图片特征。可选地，该预定数量可以是2个、3个等。

在本发明的一个实施例中，从各个文章中提取出的图片可以是文章中按照排版顺序的前几个图片，也可以是从中随机选取的图片。

在本发明的一个实施例中，对于所包含的图片数量小于预定数量的目标文章，将目标文章中所包含的所有图片的特征平均值作为所述目标文章所包含的图片特征，或者对所述目标文章中所包含的图片进行复制，以得到所述预定数量个图片。

继续参照图2所示，在步骤S230中，根据所述各个文章的特征和所述各个文章之间的相关关系，生成所述机器学习模型的训练样本。

在本发明的一个实施例中，如图3所示，步骤S230中根据各个文章的特征和各个文章之间的相关关系，生成机器学习模型的训练样本的过程可以包括如下步骤S310和步骤S320，详细说明如下：

在步骤S310中，根据所述各个文章之间的相关关系，确定具有相关性的第一文章和第二文章。

在本发明的一个实施例中，步骤S310具体可以包括：根据各个文章的点击情况，计算文章之间的相关性得分，然后将相关性得分大于或等于得分阈值的两篇文章作为第一文章和第二文章，即相关性得分大于或等于得分阈值，说明这两篇文章具有相关性。

在本发明的一个实施例中，可以基于如下公式计算文章之间的相关性得分：

继续参照图3所示，在步骤S320中，根据所述第一文章的特征、所述第二文章的特征，以及与所述第一文章不相关的第三文章的特征，生成所述训练样本。

在本发明的一个实施例中，步骤S320中生成训练样本的过程具体包括：根据第一文章的特征、第二文章的特征和第三文章的特征生成特征三元组，将该特征三元组作为一个训练样本。即在本发明的实施例中，在生成训练样本时不仅考虑了具有相关性的文章特征，而且也考虑了不具有相关性的文章特征，进而在通过生成的训练样本对机器学习模型训练之后，机器学习模型的识别结果能够更加准确。

在本发明的一个实施例中，由于文章数据的量较大，因此可以从文章数据中随机选取文章作为第三文章。或者也可以根据各个文章之前的相关关系，确定与第一文章不相关的文章作为第三文章。

继续参照图2所示，在步骤S240中，基于所述训练样本对所述机器学习模型进行训练，以基于训练后的机器学习模型确定文章之间的相关性。

在本发明的一个实施例中，如图4所示，步骤S240中基于训练样本对机器学习模型进行训练的过程，包括如下步骤：

步骤S410，通过所述机器学习模型分别生成所述第一文章的特征对应的第一特征向量、所述第二文章的特征对应的第二特征向量、所述第三文章的特征对应的第三特征向量。

在本发明的一个实施例中，机器学习模型生成文章特征对应的特征向量的过程可以是：将文章的标题和正文标签分别映射为两个特征向量(为便于描述，以下简称标题向量和正文标签向量)，然后将标题向量通过卷积层进行卷积运算，以进行优化处理(如学习到标题向量中的顺序特征)，在经过卷积运算后通过全连接(Fully Connected，FC)层进行非线性优化处理；对于正文标签向量，也可以通过一个全连接层进行非线性优化处理；对于文章的图片特征，可以通过一个全连接层进行降维处理。最后将分别通过全连接层处理后的标题向量、正文标签向量和图片特征向量再输入至一个全连接层中进行融合处理，得到文章特征对应的特征向量。

步骤S420，计算所述第一特征向量与所述第二特征向量之间的相似度，得到第一相似度，并计算所述第一特征向量与所述第三特征向量之间的相似度，得到第二相似度。

在本发明的一个实施例中，可以计算第一特征向量和第二特征向量之间的余弦相似度，以得到第一相似度；也可以计算第一特征向量和第三特征向量之间的余弦相似度，以得到第二相似度。

步骤S430，根据所述第一相似度、所述第二相似度和所述机器学习模型的损失函数调整所述机器学习模型的参数，以使所述损失函数收敛。

在本发明的一个实施例中，可以通过以下公式构建所述机器学习模型的损失函数：

Loss＝max{0,cosine(V,V-)-cosine(V,V+)+Margin}

本发明上述实施例的技术方案使得在确定文章之间的相关性时不仅能够考虑到文章中的文本特征，而且能够考虑到文章中的图片特征，进而能够充分利用文章中的文本特征和图片特征来提高文章相关性的计算准确率，避免了仅通过文本特征来确定文章之间的相关性而导致的准确率较低的问题。

在本发明的一个实施例中，如图5所示，步骤S240中基于训练后的机器学习模型确定文章之间的相关性，可以包括如下步骤：

步骤S510，提取待处理文章的特征。

在本发明的一个实施例中，提取待处理文章的特征可以是提取待处理文章的文本特征(包括摘要和正文标签)和图片特征。

步骤S520，根据所述待处理文章的特征，基于训练后的机器学习模型生成待处理文章的特征向量。

在本发明的一个实施例中，可以将待处理文章的特征输入至训练后的机器学习模型中，以得到待处理文章的特征向量。

步骤S530，计算所述待处理文章的特征向量与已有文章的特征向量之间的相似度，根据所述待处理文章的特征向量与已有文章的特征向量之间的相似度确定文章之间的相关性。

在本发明的一个实施例中，可以计算待处理文章的特征向量与已有文章的特征向量之间的余弦相似度。其中，若根据待处理文章的特征向量与已有文章的特征向量之间的相似度确定文章之间相似时，可以在用户点击其中的某篇文章时，向其推荐其他的文章。

以下以机器学习模型是DNN模型为例，对本发明实施例的文章相关性的确定方案进行详细阐述。

在本发明的一个实施例中，文章相关性的确定方案主要包括模型训练阶段和相关性计算阶段，以下对这两个方面分别进行详细阐述：

模型训练阶段：

如图6所示，模型训练阶段主要包括如下步骤：

步骤S601，训练数据准备。

在本发明的一个实施例中，训练数据对模型的训练效果至关重要。在本发明的实施例中，训练数据来源于海量用户的真实访问行为，即可以基于大量用户的共点击来确定相关文章。为了保证训练数据的准确性，本发明实施例中选择共点击用户至少是N(比如N可以取50)个的两篇文章来进行处理，即两篇文章至少有N个人均点击过，才有可能作为训练样本。

在本发明的一个实施例中，可以通过如下公式1来计算文章之间的相关性得分：

当通过公式1计算得到文章A和文章B之间的相关性得分大于或等于得分阈值(如0.1)时，可以认为文章A和文章B相关，进而将文章A和文章B作为训练数据。

步骤S602，文章特征的提取，即提取文章的文本特征和图片特征。

在本发明的一个实施例中，文章特征的提取主要包括两部分：文本特征和图片特征。其中，文本特征主要是文章标题和正文标签tag；正文标签tag可以是采用TF-IDF算法从正文中提取得分较高的预定数量个(如提取得分较高的前6个)实体标签。

在本发明的一个实施例中，图片特征可以是文章中预定数量个配图的特征，该预定数量个配图可以是文章的前3个配图，如果文章的配图为0，则舍弃这篇文章；如果文章的配图大于0小于3，则为了归一化处理，可以将文章中的配图在逻辑上复制为3个即可。对于获取到的每个配图，可以采用残差网络ResNet50模型提取配图的2048维的基础向量。

步骤S603，DNN模型训练。

在本发明的一个实施例中，可以采用pairwise的方式训练DNN模型，即对文章的文本特征和图片特征进行联合建模，以使DNN模型融合学习其综合的语义向量。

在本发明的一个实施例中，训练样本可以采用<文章特征，正例相关的文章特征，负例文章特征>的三元组形式，DNN模型的训练目标是使某一文章与其相关文章的余弦相似度大于其与负例文章的余弦相似度。其中，文章特征均包含文本特征和图片特征，正例相关的文章可以通过上述公式1计算的相关性得分来确定，负例文章可以是随机选取的。

在本发明的一个实施例中，如图7所示，在对DNN模型进行训练的过程中，需要DNN模型提取文章的特征向量，具体过程如图7中702所示。其中，文本特征通过嵌入层后可以转换成128维的特征向量，如通过查询Embedding(嵌入)表来转换为128维的特征向量。为了处理文章标题的有序性，当文章标题通过嵌入层之后，可以经过CNN层(比如可以进行卷积核数量为3、卷积核大小为4×4、卷积步长为5的卷积处理)进行优化，以学习到文章标题中的顺序特征，在经过CNN层之后，可以通过一个FC层进行非线性优化处理。正文标签通过嵌入层后也可以通过一个FC层进行非线性优化处理。

在本发明的一个实施例中，以选择文章中的3个配图为例，该3个文章配图特征(可以是2048维向量)经过平均层(即mean layer，用于对配图特征进行加权平均处理)之后转换为一个特征向量(如转换成一个2048维的特征向量)，然后经过一个FC层进行降维处理(比如降到128维的特征向量)。

在本发明的一个实施例中，当对文本特征和配图特征进行处理之后，将文本特征和图片特征输入到一个FC层进行融合(在融合时可以对文本特征和图片特征进行加权处理)，最终得到一个特征向量V(该特征向量可以是128维的特征向量)。

在本发明的一个实施例中，可以通过上述方式分别获取到训练样本中文章的特征向量V、其正例文章的特征向量V+和其负例文章的特征向量V-。然后分别计算特征向量V与特征向量V+的余弦相似度得到文章与正例的相关性得分，并计算特征向量V与特征向量V-的余弦相似度得到文章与负例的相关性得分，最后来计算模型的损失函数。在本发明的实施例中，DNN模型的训练目标是文章的融合后的特征向量V与正例文章融合后的特征向量V+的余弦相似度得分cosine(V,V+)要大于特征向量V与负例文章融合后特征向量V-的余弦相似度得分cosine(V,V-)。因此，在本发明的实施例中，DNN模型的损失函数可以如下述公式2所示：

Loss＝max{0,cosine(V,V-)-cosine(V,V+)+Margin} 公式2

其中，cosine(V,V-)表示具有特征向量V与特征向量V-之间的余弦相似度；cosine(V,V+)表示特征向量V与特征向量V+之间的余弦相似度；Margin表示参数，其反应了正负例之间的得分距离，比如可以选择0.2。

相关性计算阶段：

在本发明的一个实施例中，当对DNN模型训练完成之后，可以基于训练得到的DNN模型来计算文章之间的相关性，具体过程如图8所示，包括如下步骤：

步骤S801，预测数据准备。

在本发明的一个实施例中，预测数据可以待确定特征向量的文章，比如新产生的文章数据、待推送的文章数据等。

步骤S802，文章特征的提取，即提取文章的文本特征和图片特征。

步骤S803，DNN模型预测。

在本发明的一个实施例中，可以基于提取到的文章特征，并通过训练后的DNN模型来确定文章的特征向量。其中，训练后的DNN模型确定文章特征向量的过程可以如图7中的流程702所示。

步骤S804，在通过DNN模型预测得到文章的特征向量之后，可以通过计算好的文章向量和DNN模型预测得到的特征向量来计算特征向量之间的余弦相似度。最后根据特征向量之间的余弦相似度来确定具有相关性的文章。

在本发明的一个实施例中，在确定出具有相关性的文章之后，可以在用户点击其中的某篇文章时，向其推荐具有相关性的其他文章。

图6至图8以机器学习模型是DNN模型、训练样本采用<文章特征，正例相关的文章特征，负例文章特征>的三元组形式为例对本发明实施例的技术方案的实现细节进行了阐述。需要说明的是，在本发明的其他实施例中，也可以采用其他的机器学习模型，比如采用CNN模型等。并且，在本发明的其他实施例中，训练样本也可以采用<文章特征，正例相关的文章特征>的二元组形式，在这种情况下，机器学习模型的损失函数需要进行调整，比如将上述公式2中的cosine(V,V-)调整为设定值。

本发明实施例的技术方案能够有效提高计算得到的文章相关性的准确率，具体可以应用到资讯推荐领域，比如可以应用在底层页面相关推荐、新闻专题聚类、新闻APP的列表页个性化推荐等领域。在本发明的一个具体应用场景中，如图9所示，在新闻文章的召回场景中，用于召回的新闻标题及配图如901所示；通过本发明实施例的技术方案确定的具有相关性的文章如902、903和904所示。可见，本发明实施例的技术方案确定出的具有相关性的文章更加准确，进而有利于提高文章的点击量。

以下介绍本发明的装置实施例，可以用于执行本发明上述实施例中的文章相关性的确定方法。对于本发明装置实施例中未披露的细节，请参照本发明上述的文章相关性的确定方法的实施例。

图10示意性示出了根据本发明的一个实施例的文章相关性的确定装置的框图。

参照图10所示，根据本发明的一个实施例的文章相关性的确定装置1000，包括：获取单元1002、提取单元1004、生成单元1006和处理单元1008。

其中，获取单元1002用于获取对机器学习模型进行训练的文章数据；提取单元1004用于提取所述文章数据中各个文章所包含的文本特征和图片特征，根据所述各个文章所包含的文本特征和图片特征生成所述各个文章的特征；生成单元1006用于根据所述各个文章的特征和所述各个文章之间的相关关系，生成所述机器学习模型的训练样本；处理单元1008用于基于所述训练样本对所述机器学习模型进行训练，以基于训练后的机器学习模型确定文章之间的相关性。

在本发明的一个实施例中，提取单元1004配置为：提取所述各个文章的标题和正文标签，以及所述各个文章中所包含的预定数量个图片的特征；将所述各个文章的标题和正文标签作为所述各个文章所包含的文本特征，并根据所述各个文章中所包含的预定数量个图片的特征生成所述各个文章所包含的图片特征。

在本发明的一个实施例中，提取单元1004配置为：计算所述各个文章中所包含的预定数量个图片的特征平均值，将所述特征平均值作为所述各个文章所包含的图片特征。

在本发明的一个实施例中，提取单元1004配置为：对于所包含的图片数量小于所述预定数量的目标文章，将所述目标文章中所包含的所有图片的特征平均值作为所述目标文章所包含的图片特征，或者对所述目标文章中所包含的图片进行复制，以得到所述预定数量个图片。

在本发明的一个实施例中，生成单元1006配置为：根据所述各个文章之间的相关关系，确定具有相关性的第一文章和第二文章；根据所述第一文章的特征、所述第二文章的特征，以及与所述第一文章不相关的第三文章的特征，生成所述训练样本。

在本发明的一个实施例中，生成单元1006配置为：根据所述各个文章的点击情况，计算文章之间的相关性得分；将所述相关性得分大于或等于得分阈值的两篇文章作为所述第一文章和所述第二文章。

在本发明的一个实施例中，生成单元1006配置为基于如下公式计算文章之间的相关性得分：

在本发明的一个实施例中，生成单元1006配置为：根据所述第一文章的特征、所述第二文章的特征和所述第三文章的特征生成特征三元组，将所述特征三元组作为一个所述训练样本。

在本发明的一个实施例中，生成单元1006配置为：从文章数据中随机选取文章作为所述第三文章；或根据所述各个文章之前的相关关系，确定与所述第一文章不相关的文章作为所述第三文章。

在本发明的一个实施例中，处理单元1008配置为：通过所述机器学习模型分别生成所述第一文章的特征对应的第一特征向量、所述第二文章的特征对应的第二特征向量、所述第三文章的特征对应的第三特征向量；计算所述第一特征向量与所述第二特征向量之间的相似度，得到第一相似度，并计算所述第一特征向量与所述第三特征向量之间的相似度，得到第二相似度；根据所述第一相似度、所述第二相似度和所述机器学习模型的损失函数调整所述机器学习模型的参数，以使所述损失函数收敛。

在本发明的一个实施例中，通过以下公式构建所述机器学习模型的损失函数：

Loss＝max{0,cosine(V,V-)-cosine(V,V+)+Margin}

在本发明的一个实施例中，处理单元1008配置为：提取待处理文章的特征；根据所述待处理文章的特征，基于训练后的机器学习模型生成所述待处理文章的特征向量；计算所述待处理文章的特征向量与已有文章的特征向量之间的相似度，根据所述待处理文章的特征向量与已有文章的特征向量之间的相似度确定文章之间的相关性。

需要说明的是，图11示出的电子设备的计算机系统1100仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理单元(Central Processing Unit，CPU)1101，其可以根据存储在只读存储器(Read-Only Memory，ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(Random Access Memory，RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中，还存储有系统操作所需的各种程序和数据。CPU1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input/Output，I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种文章相关性的确定方法，其特征在于，包括：

获取用于对机器学习模型进行训练的文章数据；

提取所述文章数据中各个文章所包含的文本特征和图片特征，根据所述各个文章所包含的文本特征和图片特征生成所述各个文章的特征；

根据所述各个文章的点击情况，计算文章之间的相关性得分；

将所述相关性得分大于或等于得分阈值的两篇文章作为第一文章和第二文章；

根据所述第一文章的特征、所述第二文章的特征，以及与所述第一文章不相关的第三文章的特征，生成训练样本，包括：根据所述第一文章的特征、所述第二文章的特征和所述第三文章的特征生成特征三元组，将所述特征三元组作为一个所述训练样本；

基于所述训练样本对所述机器学习模型进行训练，以基于训练后的机器学习模型确定文章之间的相关性；

所述基于所述训练样本对所述机器学习模型进行训练，包括：

通过所述机器学习模型分别生成所述第一文章的特征对应的第一特征向量、所述第二文章的特征对应的第二特征向量、所述第三文章的特征对应的第三特征向量；

计算所述第一特征向量与所述第二特征向量之间的相似度，得到第一相似度，并计算所述第一特征向量与所述第三特征向量之间的相似度，得到第二相似度；

根据所述第一相似度、所述第二相似度和所述机器学习模型的损失函数调整所述机器学习模型的参数，以使所述损失函数收敛。

2.根据权利要求1所述的文章相关性的确定方法，其特征在于，提取所述文章数据中各个文章所包含的文本特征和图片特征，包括：

提取所述各个文章的标题和正文标签，以及所述各个文章中所包含的预定数量个图片的特征；

将所述各个文章的标题和正文标签作为所述各个文章所包含的文本特征，并根据所述各个文章中所包含的预定数量个图片的特征生成所述各个文章所包含的图片特征。

3.根据权利要求2所述的文章相关性的确定方法，其特征在于，根据所述各个文章中所包含的预定数量个图片的特征生成所述各个文章所包含的图片特征，包括：

计算所述各个文章中所包含的预定数量个图片的特征平均值，将所述特征平均值作为所述各个文章所包含的图片特征。

4.根据权利要求2所述的文章相关性的确定方法，其特征在于，还包括：

对于所包含的图片数量小于所述预定数量的目标文章，将所述目标文章中所包含的所有图片的特征平均值作为所述目标文章所包含的图片特征，或者对所述目标文章中所包含的图片进行复制，以得到所述预定数量个图片。

5.根据权利要求1所述的文章相关性的确定方法，其特征在于，根据所述各个文章的点击情况，基于如下公式计算文章之间的相关性得分：

6.根据权利要求1所述的文章相关性的确定方法，其特征在于，还包括：

从文章数据中随机选取文章作为所述第三文章；或

根据所述各个文章之前的相关关系，确定与所述第一文章不相关的文章作为所述第三文章。

7.根据权利要求1所述的文章相关性的确定方法，其特征在于，通过以下公式构建所述机器学习模型的损失函数：

Loss＝max{0,cosine(V,V-)-cosine(V,V+)+Margin}

8.根据权利要求1至7中任一项所述的文章相关性的确定方法，其特征在于，基于训练后的机器学习模型确定文章之间的相关性，包括：

提取待处理文章的特征；

根据所述待处理文章的特征，基于训练后的机器学习模型生成所述待处理文章的特征向量；

计算所述待处理文章的特征向量与已有文章的特征向量之间的相似度，根据所述待处理文章的特征向量与已有文章的特征向量之间的相似度确定文章之间的相关性。

9.一种文章相关性的确定装置，其特征在于，包括：

获取单元，用于获取对机器学习模型进行训练的文章数据；

提取单元，用于提取所述文章数据中各个文章所包含的文本特征和图片特征，根据所述各个文章所包含的文本特征和图片特征生成所述各个文章的特征；

生成单元，用于根据所述各个文章的点击情况，计算文章之间的相关性得分；将所述相关性得分大于或等于得分阈值的两篇文章作为第一文章和第二文章；根据所述第一文章的特征、所述第二文章的特征，以及与所述第一文章不相关的第三文章的特征，生成训练样本，包括：根据所述第一文章的特征、所述第二文章的特征和所述第三文章的特征生成特征三元组，将所述特征三元组作为一个所述训练样本；

处理单元，用于基于所述训练样本对所述机器学习模型进行训练，以基于训练后的机器学习模型确定文章之间的相关性；

10.根据权利要求9所述的确定装置，其特征在于，所述提取单元配置为：

11.根据权利要求10所述的确定装置，其特征在于，所述提取单元配置为：计算所述各个文章中所包含的预定数量个图片的特征平均值，将所述特征平均值作为所述各个文章所包含的图片特征。

12.根据权利要求10所述的确定装置，其特征在于，所述提取单元配置为：对于所包含的图片数量小于所述预定数量的目标文章，将所述目标文章中所包含的所有图片的特征平均值作为所述目标文章所包含的图片特征，或者对所述目标文章中所包含的图片进行复制，以得到所述预定数量个图片。

13.根据权利要求9所述的确定装置，其特征在于，所述生成单元基于如下公式计算文章之间的相关性得分：

14.根据权利要求9所述的确定装置，其特征在于，所述生成单元还用于：从文章数据中随机选取文章作为所述第三文章；或根据所述各个文章之前的相关关系，确定与所述第一文章不相关的文章作为所述第三文章。

15.根据权利要求9所述的确定装置，其特征在于，通过以下公式构建所述机器学习模型的损失函数：

Loss＝max{0,cosine(V,V-)-cosine(V,V+)+Margin}

16.根据权利要求9-15任一项所述的确定装置，其特征在于，所述处理单元配置为：提取待处理文章的特征；根据所述待处理文章的特征，基于训练后的机器学习模型生成所述待处理文章的特征向量；计算所述待处理文章的特征向量与已有文章的特征向量之间的相似度，根据所述待处理文章的特征向量与已有文章的特征向量之间的相似度确定文章之间的相关性。

17.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的文章相关性的确定方法。

18.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至8中任一项所述的文章相关性的确定方法。