CN108304379B

CN108304379B - 一种文章识别方法、装置及存储介质

Info

Publication number: CN108304379B
Application number: CN201810036311.1A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2020-12-01
Anticipated expiration: 2038-01-15
Also published as: CN108304379A

Abstract

本发明实施例公开了一种文章识别方法、装置及存储介质；本发明实施例采用选取相应的文章作为样本，以构建原始文章识别模型的样本集；然后，获取样本集的样本标题向量以及样本正文向量，并根据样本标题向量以及样本正文向量对原始文章识别模型进行训练，得到训练后文章识别模型；获取待识别文章的标题向量以及正文向量；根据训练后文章识别模型对文章标题向量以及正文向量进行识别，获取标题向量以及正文向量之间的相似度信息；根据相似度信息确定待识别文章是否为标题党文章。该方案可以通过文章识别模型自动识别出标题党文章，在识别过程中无需人工识别，可以提升标题党文章的识别效率。

Description

一种文章识别方法、装置及存储介质

技术领域

本发明涉及通信技术领域，具体涉及一种文章识别方法、装置及存储介质。

背景技术

即时通讯应用中的内容聚合器聚合了即时通讯公众号发送的文章。内容聚合器对应的内容聚合服务器向用户推送文章时，会根据用户订阅的公众号信息、用户兴趣等向用户推送相应的文章。

目前为了吸引读者，一些文章发布者(如公众号主、文章作者等)会给文章添加一些夸大其词、博眼球的、虚假的等标题，这些文章的特点在于标题与文章内容完全无关或联系不大，标题存在虚假性、欺骗性、模糊性等，一般这类文章称为“标题党文章”。

如果标题党文章大量出现的话，会降低文章质量以及用户的文章阅读体验，给内容聚合类产品带来负面的影响。因此，需要对标题当文章进行删除等处理。

目前主要通过人工审核和用户举报方式来对虚假新闻和标题党文章进行识别的，通常主要措施就是删除文章，这样需要消耗大量的人力投入，还需要搭建对应的系统和辅助工具，定期还需要对人员进行培训。因此，目前标题党文章的识别效率比较低并且成本高。

发明内容

本发明实施例提供一种文章识别方法、装置及存储介质，可以提高标题党文章的识别效率以及节省成本。

本发明实施例提供一种文章识别方法，至少包括：

选取相应的文章作为样本，以构建文章识别模型的样本集；

选取相应的文章作为样本，以构建原始文章识别模型的样本集；

获取所述样本集的样本标题向量以及样本正文向量，并根据所述样本标题向量以及样本正文向量对原始文章识别模型进行训练，得到训练后文章识别模型；

获取待识别文章的标题向量以及正文向量；

根据所述训练后文章识别模型，对所述待识别文章的文章标题向量以及正文向量进行识别，获取所述标题向量与所述正文向量之间的相似度信息；

根据所述相似度信息确定所述待识别文章是否为标题党文章。

相应的，本发明实施例还提供一种文章识别装置，至少包括：

样本构建单元，用于选取相应的文章作为样本，以构建原始文章识别模型的样本集；

模型训练单元，用于获取所述样本集的样本标题向量以及样本正文向量，并根据所述本标题向量以及样本正文向量对原始文章识别模型进行训练，得到训练后文章识别模型；

文章向量获取单元，用于获取待识别文章的标题向量以及正文向量；

相似度获取单元，用于根据所述训练后文章识别模型，对所述待识别文章的文章标题向量以及正文向量进行识别，获取所述标题向量与所述正文向量之间的相似度信息；

确定单元，用于根据所述相似度信息确定所述待识别文章是否为标题党文章。

相应的，本发明实施例还提供一种存储介质，所述存储介质存储有指令，所述指令被处理器执行时实现本发明实施例任一提供的方法的步骤。

本发明实施例采用选取相应的文章作为样本，以构建原始文章识别模型的样本集；然后，获取样本集的样本标题向量以及样本正文向量，并根据样本标题向量以及样本正文向量对原始识别模型进行训练，得到训练后文章识别模型；获取待识别文章的标题向量以及正文向量；根据训练后文章识别模型对待识别文章的文章标题向量以及正文向量进行识别，获取标题向量与正文向量之间的相似度信息；根据相似度信息确定待识别文章是否为标题党文章。该方案可以通过文章识别模型自动识别出标题党文章，在识别过程中无需人工识别，可以提升标题党文章的识别效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的文章识别系统的场景示意图；

图1b是本发明实施例提供的文章识别方法的流程示意图；

图2a是本发明实施例提供文章识别系统的另一场景示意图；

图2b是本发明实施例提供的文章识别方法的另一流程示意图；

图3是本发明实施例提供的文章识别系统的架构示意图；

图4a是本发明实施例提供的文章识别装置的第一种结构示意图；

图4b是本发明实施例提供的文章识别装置的第二种结构示意图；

图4c是本发明实施例提供的文章识别装置的第三种结构示意图；

图4d是本发明实施例提供的文章识别装置的第三种结构示意图；

图4e是本发明实施例提供的文章识别装置的第三种结构示意图；

图5是本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种文章识别方法、装置及存储介质。

本发明实施例提供了一种文章识别系统，该系统可以包括本发明实施例所提供的任一种文章识别装置，参见图1a，该文章识别装置具体可以集成在服务器中，如文章识别过滤服务器、内容聚合服务器中。此外，该文章识别系统还可以包括其他的设备，比如用户设备样本存储服务器等等。其中，样本存储服务器用于存储文章识别类型的训练样本；用户设备用于发布文章等。

如图1a所示，当需要对用户设备发布的文章进行识别时，可以由文章识别过滤服务器来选取相应的文章作为样本，以构建原始文章识别模型的样本集；然后，获取样本集的样本标题向量以及样本正文向量，并根据样本标题向量以及样本正文向量对原始识别模型进行训练，得到训练后文章识别模型；获取待识别文章的标题向量以及正文向量；根据训练后文章识别模型，对待识别文章的文章标题向量以及正文向量进行识别，获取标题向量与正文向量之间的相似度信息；根据相似度信息确定待识别文章是否为标题党文章。此外，在确定文章为标题党文章，文章识别过滤服务器还可以对该文章进行过滤，或者提醒用户文章的标题不合适需要修改等反馈。

以下将分别进行详细说明。

本实施例将从文章识别装置的角度进行描述，该文章识别装置具体可以集成在服务器，比如文章识别过滤服务器、内容聚合服务器等设备中。

如图1b所示，该文章识别方法的具体流程可以如下：

101、选取相应的文章作为样本，以构建原始文章识别模型的样本集。

其中，原始文章识别模型可以为机器学习模型。

在实际应用中，可以设置一样本存储服务器用于存储样本文章，比如，可以存储经过人工识别或标注为标题党文章的文章。此时，可以从样本存储服务器中选取相应的文章作为样本。如，选取人工标注的标题党文章作为负样本等等。

本实施例中，为了提升文章识别模型的识别文章的准确性，可以采用正负样本进行训练。比如，在一实施例中，可以选取已知标题党文章作为负样本、选取非标题党文章作为正样本，以构建原始文章识别模型的样本集。也即，样本集包括负样本集合正样本集；步骤“选取相应的文章作为样本，以构建原始文章识别模型的样本集”可以包括：

选取已知的标题党文章作为负样本，得到原始文章识别模型的负样本集

选取非标题党文章作为正样本，得到原始文章识别模型的正样本集。

其中，已知的标题党文章可以为经过人工审核得到的标题党文章，在实际应用中在发布文章之前都会经过人工审核系统对待发布文章进行审核，若经过审核该文章为标题党文章，那么可以将该文章作为文章识别模型的负样本。

在一实施例中，人工审核系统在审核某个文章为标题党文章，可以对该文章进行标注即标识，以标识该文章为标题党文章，然后，将标注后的标题党文章存入样本存储服务器，以便训练文章识别模型。

在一实施例中，为了能够识别出文章为何种类型的标题党文章，还可以选取相应类型的已知标题党文章作为负样本。比如，可以选取标题党文章类型为预设类型的已知标题党文章作为负样本。

其中，标题党文章的标题党文章类型可以根据实际需求来划分，比如，可以根据标题内容与文章正文内容，将标题党文章划分成：

I型标题党文章-标题明显不适，标题内容纯低俗，猎奇或者色情；

II型标题党文章–正文内容与标题内容完全不相关，即文不对题；

III型标题党文章-诱导点击，跳出率高。

或者，也可以基于标题与文章内容的相关程度将标题党文章划分成：夸大型标题党文章、一般标题党文章、虚假标题党文章等等。

其中，标题党文章的类型可以基于用户对标题党文章的阅读行为信息得到。例如，可以通过对标题党文章的阅读完成率、阅读时长、文章篇幅长度等信息进行分析，可以得到标题党文章是否为属于III型标题党文章。

在一实施例中，为了提升文章识别的准确性，还可以从非标题党文章中选取优质文章作为正样本，一般可以通过优质文章衡量信息来衡量一篇文章是否为优质文章。也即，步骤“选取非标题党文章作为正样本”，可以包括：

获取非标题党文章的优质文章衡量信息，优质文章衡量信息包括用户阅读行为信息、文章内容排版信息、以及文章内容调性信息中的至少一种；

根据优质文章衡量信息确定非标题党文章是否为优质文章；

若是，则选取非标题党文章作为正样本。

其中，用户阅读行为信息可以包括：内容点击率、阅读时长、阅读完成率、点赞、收藏、评论、活跃粉丝数、分享数量、文章阅读评论比、评论互动比等。

文章内容排版信息可以包括：图文比例，图片质量(清晰度)，视频质量，文字质量。

文章内容调性信息可以为文章内容本身调性信息，比如，可以包括文章内容是否为经典，精品，还是稀缺类目内容等。

其中，阅读完成率为某个时间段内的文章阅读完成时间的平均值。

具体地，文章阅读完成时间＝Ai/Bi,Ai为在既定分辨率和尺寸的屏幕下文章占用的屏幕数量，即屏数，Bi为一个普通人阅读内容的速度，即每秒阅读的屏幕数量。该Bi基于用于在历史时间内阅读文章的历史记录和阅读文章总时间得到。

以屏幕分辨率和尺寸为依据，主流尺寸有：3.8、4、4.2、4.7、4.8、5.0、5.1、5.2、5.3、5.5、5.7、5.8、6、6.1、6.5、7英寸；分辨率有：640*480、800*480、854*480、800*600、960*540、960*640、960*720、1024*576、1024*600、1024*768、1280*720、1280*768、1280*800、1920*1080、1920*1200、2560*1440)

在现有页面展示布局确定的情况下，一篇文章有多少个字数和多少张数固定规模图片，可以知道文章在各种不同主流机型屏幕下占用的屏数，定义为Ai；然后对应一个普通人阅读内容的速度每秒是Bi屏(具体可以依据一个人在过去一段时间内阅读文章的历史记录和阅读文章总时间，得到一个人阅读习惯的统计数据)，然后对每篇文章端统计上报：

Ci阅读完成时间＝Ai/Bi,通后统计一个时间范围内的所有Ci的平均值，即阅读完成率。

其中，阅读完成率还可以用于衡量用户跳出率，比如当阅读完成率如果低于一个固定阈值，就可以认为用户跳出率很高，标题党概率极大。

其中，文章阅读评论比为某段时间内文章阅读数量与评论数量的比值，定义文章阅读评论比E＝A/B,A为一段时间t内的文章阅读数，B为评论数量。

评论互动比值为评论数量与互动数量的比值，评论互动比值D＝C/B,B为一段时间t内评论数量、C为其他社交互动数量(如点赞，收藏，转发，分享)。

102、获取样本集的样本标题向量以及样本正文向量，并根据样本标题向量以及样本正文向量对原始文章识别模型进行训练，得到训练后文章识别模型。

其中，样本集包括多个样本，每个样本对应样本标题向量以及样本正文向量。

比如，当样本集包括正样本和负样本时，可以获取正样本的样本标题向量以及样本正文向量，获取负样本的样本标题向量以及样本正文向量。

其中，样本标题向量是样本文章的标题对应的词向量，样本的样本正文向量是样本文章的文章正文内容对应的词向量。

本实施例可以基于自然语言处理(NLP)技术将自然语言中词转化成计算机可以理解的向量。比如，可以Word2Vec(词向量)模型或工具获取样本的标题的词向量即样本标题向量，获取样本的正文内容的词向量即样本正文向量。

其中，Word2Vec也叫word embeddings，中文名“词向量”，作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。本质上来说就是一个矩阵分解的模型，简单地说，矩阵刻画了每个词和其上下文的词的集合的相关情况。对这个矩阵进行分解，只取每个词对应在隐含空间的向量。

在本发明实施例中，用Word2Vec来表示相似或意义非常接近的单词。可以使用Word2Vec将标题内或者正文内的词表示成相应的向量。

在一实施例中，当向量为词向量时，可以先获取标题或正文的词，然后，基于此构建相应的词向量。也即，步骤“获取样本集的样本标题向量以及样本正文向量”，可以包括：

获取样本标题的标题词，并根据标题词构建相应的样本标题向量；

获取样本正文的正文词，并根据正文词构建相应的样本正文向量。

比如，可以基于Word2Vec模型将标题词转化成相应的标题词向量，基于Word2Vec模型将正文词转化成相应的正文词向量。

在一实施例中，为了提升文章识别的准确性，在表达向量时还需要考虑到词语在样本集中出现的平率，也即，步骤“获取样本标题的标题词，并根据标题词构建相应的样本标题向量”，包括：

对样本标题进行分词处理，得到若干样本标题词；

获取样本标题词在样本集中出现的频率；

根据样本标题词及其对应的频率构建相应的样本标题向量。

同理，步骤“获取样本正文的正文词，并根据正文词构建相应的样本正文向量”，可以包括：

对样本的正文内容进行分词处理，得到若干样本正文词；

获取样本正文词在样本集中出现的频率

根据样本正文词及其对应的频率构建相应的样本正文向量。

其中，样本标题词对应的频率即词频可以指的是样本标题词在样本集中出现的次数。样本正文词对应的频率即词频可以指的是样本正文词在样本集中出现的次数。

本发明实施例，可以基于TF-IDF(term frequency–inverse documentfrequency，词频-逆向文件频率)算法来获取词语在样本集中出现的频率。比如，基于TF-IDF算法获取标题词、或正文词在样本集中出现的频率。

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。

在一实施例中，可以将样本标题词及其对应的频率作为一个样本标题向量，将样本正文词及其对应的作为一个样本正文向量。

在一实施例中，当样本集包括负样本集和正样本集时，为了能够挖掘出正负样本例的特征，提升识别准确性，可以获取样本标题词或者样本正文词在负样本集中出现的频率，也即获取样本标题词或者样本正文词在已知标题党文章中出现的频率。

此时，本发明实施例方法可以进一步包括：

获取样本标题词在负样本集中出现的频率；

获取样本正文词在负样本集合中出现的频率。

也即，样本标题词的频率包括样本标题词在负样本集中出现的频率；样本正文词的频率包括样本正文词在负样本集中出现的频率。

其中，获取频率的方式可以有多种，比如，可以先对样本集进行特征分析，得到文章(包括标题、正文内容)内词语在负样本集和/或正样本集中出现的频率，然后，形成词语与频率之间的映射关系(即对应关系)。后续在对标题或正文内容进行分词处理后，便可以根据分词处理得到标题词或正文词、以及映射关系，获取标题词或正文词的频率。

例如，可以基于TF-IDF算法如TF-IDF向量分析器对样本集进行分析，能够获取词语在负样本集和/或正样本集中出现的频率，并且可以判断出那些词语在负样本集中出现的频率最大，那些词语在正样本集中出现的频率最大。然后，词语及其对应的频率保存在词频数据库中，以便后续使用。譬如，在对某个样本的标题进行分词后，可以基于分词得到的标题词从词频数据库中获取相应的频率。

在一些实施例中，为了减少计算量，提升文章识别速度，还可以基于频率从词语(如样本标题词或样本正文词)中选取相应词语，如选取频率最大的几个样本标题词，然后，基于选取的词语及其频率构建相应的向量。比如，步骤“根据样本标题词及其对应的频率构建相应的样本标题向量”可以包括：

根据样本标题词的频率从样本标题词中选取相应的目标样本标题词；

根据目标样本标题词及其对应的频率构建相应的标题向量。

例如，基于Word2Vec模型，可以将目标样本标题词及其对应的频率作为一个标题向量。该标题向量可以为一个多维向量。

同样，对于构建正文向量也可采用类似方式，比如，步骤“根据样本正文词及其对应的频率构建相应的样本正文向量”，包括：

根据样本正文词的频率从样本正文词中选取相应的目标样本正文词；

根据目标样本正文词及其对应的频率构建相应的正文向量。

例如，基于Word2Vec模型，可以将目标样本正文词及其对应的频率作为一个正文向量。该正文向量可以为一个多维向量。

由于样本文章的正文内容的词语有很多，如果将每个词语表示成一个多维向量，如基于Word2Vec模型，将每个正文词表示成一个多维向量，那么后续在模型训练以及文章识别时会很复杂，降低文章识别速度。

为简化文章识别，提升效率，本发明实施例可以将每个正文词表示成一个多维向量，然后，在通过向量降维方式将多个向量合并成一个向量。也即，步骤“根据样本正文词及其对应的频率构建相应的样本正文向量”，可以包括：

根据每个样本正文词及其对应的频率构建一个样本正文中间向量，得到多个样本正文中间向量；

对多个样本正文中间向量进行降维处理，得到一个样本正文向量。

比如，可以采用t-分布邻域嵌入算法(t-SNE algorithm)对多个样本正文中间向量进行降维处理，最终得到一个样本正文向量。

t-分布领域嵌入算法(t-SNE,t-distributed Stochastic Neighbor Embedding)是目前一个非常流行的对高维度数据进行降维的算法,由Laurens van der Maaten和Geoffrey Hinton于2008年提出。这个算法已经在机器学习领域。t-分布领域嵌入算法可以有效的将高维度数据转换成二维或三维，然后，进行可视化。

在通过上述方式获取各样本的标题向量以及正文向量后，便可以基于各样本(如正负样本)的标题向量以及正文向量对文章识别模型进行训练，这是一个机器学习的过程。随着，样本集中样本的数量越来越多，文章识别模型的识别率会越来越高。本实施例中，对文章识别模型进行训练是调整模型参数向量的过程。

其中，该文章识别模型可以为机器学习算法模型中一种，比如，决策树、神经网络模型等等。

由于文章标题与正文内容之间的相似度信息是衡量标题党文章的重要信息，因此，文章识别模型的输出可以包括标题向量与正文向量之间的相似度信息。

103、获取待识别文章的标题向量以及正文向量。

其中，获取待识别文章的标题向量以及正文向量的方式与上述获取样本标题向量以及样本正文向量的方式相同。具体地，向量获取方式可以参考上述的描述。

比如，可以对待识别文章的标题内容进行分词，得到标题词，然后，获取标题词在样本集如负样本集中出现的概率，基于标题词以及概率构建相应的标题向量。

同样，对待识别文章的正文内容进行分词，得到正文词，然后，获取正文词在样本集如负样本集中出现的概率，基于正文词以及概率构建相应的正文向量。

在一实施例中，一篇待识别的文章可以配置多个标题，即相同正文内容具有多个不同的标题，此时，可以获取待识别文章的正文内容对应的正文向量、以及每个标题对应的标题向量，此时，可以得到一个正文向量和多个标题向量。后续文章识别时，可以将正文向量与各标题向量组合多次输入到文章识别模型中输出结果，然后，确定在该组合下文章是否为标题党文章。

例如，一个文章配置3个标题时，可以获取正文向量a、标题向量b1(对应标题1)、标题向量b2(对应标题2)、标题向量b3(对应标题3)，分别输入正文向量a+标题向量b1、正文向量a+标题向量b2、正文向量a+标题向量b3到文章识别模型中，得到相似度信息c1(输入为正文向量a+标题向量b1)、相似度信息c2(输入为正文向量a+标题向量b2)、c3相似度信息(输入为正文向量a+标题向量b3)，然后，基于相似度信息确定在配置不同标题下的文章是否为标题党文章，如相似度信息c1确定配置标题1时的文章是否为标题党文章、相似度信息c2确定配置标题2时的文章是否为标题党文章等。

在一实施例中，为了节省资源，还可以在执行步骤103之前，确定待识别文章的标题是否包含预设敏感词如一些禁止词，若是，则直接对该文章进行过滤，或者提醒文章发布者如向发文终端发送提醒信息，以提醒文章发布者修改所述标题。若否，则进一步地执行步骤103利用文章识别模型进行识别。

其中，标题修改可以包括：删除标题、替换标题、修改标题中的敏感词等。

其中，预设敏感词可以根据实际需求设定，比如，一些夸张词汇，比如震惊，不得不，惊呆了，傻眼，亮瞎，必须知道等。

在一实施例中，为了能够提升文章推荐质量，提升用户体验，还可以在文章标题包含敏感关键词，且提醒文章发布者后，如果文章发布者在一定时间内不对标题进行修改，那么可以降低该文章的推荐权重，以减少该文章的推荐。也即，文章识别方法在向发文终端发送提醒信息之后，还可以包括：

检测在预设时间段内是否接收到所述待识别文章的标题修改信息；

若否，则降低所述待识别文章的文章推荐权重。

其中，预设时间段可以根据实际需求设定，可以为1个小时、20分钟等。该预设时间段的时间起点可以为提醒信息发送时间，活着提醒信息发送之后的某一时间。

其中，标题修改信息可以包括：修改后的标题、标题替换信息、标题删除信息等等。

其中，文章推荐权重，为在推荐文章时文章的权重，权重越大推荐的优先级越高，反之权重越小推荐的优先级越低。

104、根据训练后文章识别模型对待识别文章的文章标题向量以及正文向量进行识别，获取标题向量与正文向量之间的相似度信息。

其中，文章标题与正文内容之间的相似度信息可以用于标题向量与正文向量之间的距离来表征。此时，相似度信息包括标题向量以及正文向量之间的距离值。

105、根据相似度信息确定待识别文章是否为标题党文章。

其中，标题党文章是文章的标题与文章正文内容完全无关或者关联不大的文章，标题无法表达正文所代表的内容。本申请实施例中，可以将文章的标题与正文内容表示成标题向量以及正文向量，然后，基于识别模型计算向量之间的相似度信息，从而可以确定文章是否为标题党文章。

在一实施例中，当针对某个类型的标题党文章建立相应识别模型时，可以选取标题党文章类型为预设类型的已知标题党文章作为负样本，利用该负样本对原始文章识别模型训练，在获取待识别文章的标题向量和正文向量之后，可以基于训练后模型输出相似度信息，然后，根据相似度信息确定待识别文章的类型是否为预设类型的标题党文章类型。其中，预设类型可以包括上述的I型标题党文章、II型标题党文章等等。此时，步骤“根据所述相似度信息确定所述待识别文章是否为标题党文章”，包括：

判断负样本的文章类型；

根据所述相似度信息，确定所述待识别文章的类型是否为所述负样本的文章类型，如果是，则确定所述待识别文章为所述文章类型的标题党文章。比如，判断负样本的文章类型为II型标题党文章时，此时，可以根据相似度信息确定待识别文章的类型是否为II型标题党文章，若是，则确定待识别文章为II型标题党文章。

在一实施例中，当相似度信息包括标题向量以及正文向量之间的距离值时，当空间距离大于预设阈值时，确定待识别文章为标题党文章；当距离值小于或等于预设阈值时，确定待识别文章不为标题党文章。

比如，通过训练后文章识别模型对下面几个文章进行识别，结果如下：

文章1：

标题：微信终于有已读功能了！

内容：主要探讨爱情

标题关键词：已读、终于、功能、微信

内容关键词：已读、有空、消息、爱情

距离：0.32/1，属于文不对题。

文章2：

标题：易烊千玺练了背阔肌，身材好到爆炸。

内容：主要介绍健身动作

标题关键词：背阔，千玺，爆炸，身材

内容关键词：背阔，动作，锻炼，划船

距离：0.15/1，属于文不对题。

文章3：

标题：宋仲基和宋慧乔合影，网友却被乔妹的装扮吸睛了，真是美如少女。

内容：主要讲服装搭配

标题关键词：乔妹、宋慧乔、吸睛、宋仲基

内容关键词：烟管、高腰、黑色、小脚

距离：0.30/1，属于文不对题。

在一实施例中，为提升文章识别的准确性，在得到相似度信息还可以结合用户对文章的阅读行为信息来确定文章是否为标题党文章。也即，步骤“根据相似度信息确定待识别文章是否为标题党文章”，可以包括：

获取所示待识别文章对应的用户阅读行为信息；

根据相似度信息以及用户阅读行为信息确定待识别文章是否为标题党文章。

比如，阅读完成率越低于一个固定阈值，就可以认为用户跳出率很高，文章为标题党文章的概率极大。文章阅读评论比E高于某一个阈值、或者评论互动比值D某一阈值，文章为标题党文章概率很大

此外，在一实施例中，还可以根据相似度信息以及用户阅读行为信息针对待识别文章的标题给出相应评价信息或者反馈信息，以便文章发布者可以根据评价信息调整修改标题，使得文章发布者深度地参与到文章分发中，从源头上杜绝标题党文章。

比如，配置该标题的文章为标题党文章的可能性信息。又比如，当文章配置多个标题时给出建议的标题等等。

由上可知，本发明实施例采用选取相应的文章作为样本，以构建原始文章识别模型的样本集；然后，获取样本集的样本标题向量以及样本正文向量，并根据样本标题向量以及样本正文向量对原始识别模型进行训练，得到训练后文章识别模型；获取待识别文章的标题向量以及正文向量；根据训练后文章识别模型，对待识别文章的文章标题向量以及正文向量进行识别，获取标题向量与正文向量之间的相似度信息；根据相似度信息确定待识别文章是否为标题党文章。该方案可以通过文章识别模型自动识别出标题党文章，在识别过程中无需人工识别，可以提升标题党文章的识别效率。

此外，该方案可以将机器学习与人工审核相结合，随着样本累计越来越多，识别模型的识别率将会越来越高，整体效果和效率也会越来高，增加了产品的用户粘性。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

本发明的文章识别装置可以由一个实体或者多个实体来实现，本实施例将以文章识别装置由多个实体来实现为了进行说明，具体地，在本实施例中，将以文章识别装置可以集成在文章识别过滤服务器和标题评价服务器等服务器为例。

如图2a所示，本发明实施例提供了一种文章识别系统，可以包括：样本存储服务器、文章识别过滤服务器、审核服务器、内容中心服务器、标题评价服务器、统计分析服务器以及终端。其中，系统内各设备通过网络连接。

如图2b所示，一种文章方法，具体流程可以如下：

201、文章识别过滤服务器从样本存储服务器获取标注的标题党文章以及优质文章。

其中，样本存储服务器可以从审核服务器中获取经过人工审核并标注为标题党文章的文章，并保存，供文章识别过滤服务器使用。

此外，样本存储服务器还可以保存优质文章。

其中，统计分析服务器从内容中心服务器中获取经过人审核的非标题党文章，以及获取终端上报的非标题党文章的用户阅读行为信息，然后，根据用户阅读行为信息、文章内容排版信息、以及文章内容调性信息中的至少一种信息从非标题党文章中选取相应优质文章并发送至样本存储服务器保存，供文章识别过滤服务器使用。

也即，优质文章主要从用户喜欢，质感和调性来衡量文章内容本身特征。对于用户喜欢，衡量特征包括用户阅读行为信息如内容点击率、时长、阅读完成率、点赞、收藏、评论、活跃粉丝数、分享数量来衡量；对于内容的质感，主要从布局排版来考虑，包括图文比例，图片质量(清晰度)，视频质量，文字质量；还有内容本身的调性比如经典，精品，还是稀缺类目内容。

202、文章识别过滤服务器将标注的标题党文章作为负样本、以及将优质文章作为正样本，得到样本集合。

203、文章识别过滤服务器可以对样本集进行特征分析，得到样本中词语以及词语在样本集出现的频率；并建立词语与频率之间的映射关系。

其中，词语在样本集出现的频率包括词语在负样本和/或正样本集中出现的频率。

例如，可以基于TF-IDF算法如TF-IDF向量分析器对样本集进行分析，能够获取词语在负样本集和/或正样本集中出现的频率，并且可以判断出那些词语在负样本集中出现的频率最大，那些词语在正样本集中出现的频率最大。然后，词语及其对应的频率保存在词频数据库中，以便后续使用。

204、文章识别过滤服务器对样本的标题进行分词处理，基于映射关系和样本标题词获取样本标题词在样本集中出现的频率，以及根据样本标题词及其频率构建相应的标题向量。

比如，可以基于Word2Vec模型，可以将样本标题词及其对应的频率作为一个标题向量。该标题向量可以为一个多维向量。

步骤204和步骤205之间的时序不受序号的限制，可以同时执行，也可以先后执行等。

205、文章识别过滤服务器对样本的正文进行分词处理，基于映射关系和样本正文词获取样本正文词在样本集中出现的频率，以及根据样本正文词及其频率构建相应的正文向量。

具体地，可以获取正样本的样本标题向量以及样本正文向量，获取负样本的样本标题向量以及样本正文向量。

其中，样本的样本标题向量是样本文章的标题对应的词向量，样本的样本正文向量是样本文章的文章正文内容对应的词向量。

本实施例中，对于正文向量的获取，可以根据每个样本正文词及其对应的频率构建一个样本正文中间向量，得到多个样本正文中间向量；

t-分布领域嵌入算法(t-SNE,t-distributed Stochastic Neighbor Embedding)是目前一个非常流行的对高维度数据进行降维的算法。

206、文章识别过滤服务器根据样本的样本标题向量以及样本正文向量对原始文章识别模型进行训练，得到训练后文章识别模型。

其中，该文章识别模型可以为机器学习算法模型中一种，比如，决策树、神经网络模型等等。由于文章标题与正文内容之间的相似度信息是衡量标题党文章的重要信息，因此，原始文章识别模型的输出可以包括标题向量与正文向量之间的相似度信息。

在通过上述方式获取各样本的标题向量以及正文向量后，便可以基于各样本(如正负样本)的标题向量以及正文向量对原始文章识别模型进行训练，这是一个机器学习的过程。随着，样本集中样本的数量越来越多，文章识别模型的识别率会越来越高。本实施例中，对原始文章识别模型进行训练是调整模型参数向量的过程。

207、文章识别过滤服务器获取待识别文章。

比如，文章识别过滤服务器可以从终端直接获取待识别文章，或者从内容中心服务器获取待识别文章。

终端发布文章时，首先将文章发送到审核服务器中审核，如进行文章内容合法性审核以及标题党人工审核等，在审核通过时审核服务器将文章发送给内容中心服务器，由内容中心服务器分发出去。

其中，待识别文章可以具有多个标题，即相同正文内容具有多个不同的标题。

208、文章识别过滤服务器确定待识别文章的标题中是否包含预设禁止词语，若否，则执行步骤209，若是，则执行步骤212。

其中，预设禁止词语可以根据实际需求设定，比如，一些夸张词汇，比如震惊，不得不，惊呆了，傻眼，亮瞎，必须知道等。

该预设禁止词语可以保存在样本存储服务器中。

209、文章识别过滤服务器获取待识别文章的标题向量以及正文向量。

210、文章识别过滤服务器根据训练后文章识别模型对文章标题向量以及正文向量进行识别，获取标题向量以及正文向量之间的相似度信息，并发送给标题评价服务器。

标题党文章是文章的标题与文章正文内容完全无关或者关联不大的文章，标题无法表达正文所代表的内容。本申请实施例中，可以将文章的标题与正文内容表示成标题向量以及正文向量，然后，基于识别模型计算向量之间的相似度信息，从而可以确定文章是否为标题党文章。

211、标题评价服务器从统计分析服务器中获取待识别文章的对应的用户阅读行为信息，根据相似度信息以及用户阅读行为信息确定待识别文章是否为标题党文章以及针对标题给出相应的评价信息。

比如，当文章配置多个标题时给出多各标题的建议或评价信息。

其中，评价信息可以包括配置该标题的文章为标题党文章的可能性信息、可采用的标题等等。

212、文章识别过滤服务器对待识别文章进行过滤，或者提醒文章发布者修改标题。

比如，文章识别过滤服务器可以向发文终端发送提醒信息，以提醒文章发布者修改所述标题。此外，还可以检测在预设时间段内是否接收到待识别文章的标题修改信息，若否，则降低所述待识别文章的文章推荐权重。

本实施例方案可以由系统设定标题敏感关键词，在发文时候当文章标题检测出此类关键词或者标题时候，系统自动发送弹窗提示并劝导自媒体作者取消此标题或者内容，如果发文者如作者不予修改，系统则会降低该文章的推荐权重，减少该文章的推荐。

由上可知，本发明实施例可以将用户对文章内容反馈(如阅读行为信息包括举报，评论等用户互动)及内容本身表现出来的内容质量与人工审核系统相结合自动识别标题党文章，可以提升标题党文章的识别效率。

进一步地，该方案还可以给文章发布者在发文时候提供标题本身的评价及相关反馈数据，可以动态多标题，使用多标题功能；从源头上让文章发布者参与到内容和标题创作和选择当中来，从源头上杜绝标题党文章。

进一步地，该方案可以将机器学习与人工审核相结合，随着样本累计越来越多，识别模型的识别率将会越来越高，整体效果和效率也会越来高，增加了产品的用户粘性。机器如同移动探头负责扫雷，随着“标题模型”积累正负样本得越来越多，价值判断逐步融入到机器的行为当中，机器识别的成功率就会越来越高，整体效果和效率也会越来高，提升产品口碑和增加用户粘性。

在一实施例中，根据上述描述的方法，提供一种文章识别系统，该系统的架构和流程如图3所示。

下面将详细描述图3所示系统中各服务模块的主要功能，具体如下：

一.即时通讯客户端

即时通讯客户端主要安装终端，如手机、平板电脑等。功能如下：

(1)发送和接收文字，图片，视频，音频等内容(即文章内容)及内容的展示；

(2)通过内容获取及推送接口服务器从服务器拉取内容或者内容更新的通知，然后主动向服务器拉取内容，同时通过上行通道，将用户侧用户的各种订阅的兴趣信息保存在订阅关系链服务当作，比如兴趣爱好是娱乐，科技，视频，订阅了体育，篮球或者足球等信息；

(3)向统计服务器上报获取到服务器推送的内容标识和用户操作信息的点击操作行为数据，比如用户阅读行为信息，包括阅读时长，阅读完成时间、评论信息、点击次数，视频内容观看次数及播放过程当作的缓冲停留信息等；

(4)支持同一篇文章采用不同的标题，在上报的统计行为当中也需要做上报的区分，方便统计不同标题效果；

(5)终端用户在发现文章数据标题党，内容标题和内容名不副实，也可以主动上报，上报的内容最终经过人工复核验证之后也成为机器学习样本库的一部分。

二.内容获取及推送接口服务器

(1)C和B相互通讯的接口服务器，供终端访问后端内容和接受内容的推送；

(2)从推荐引擎和订阅引擎获取用户需要内容的索引信息，通常是内容的标题，发布者，摘要，封面图，发布时间，文章对应的ID等；

(3)依据索引信息从内容存储中心获取对应的内容提供给终端，也可以将这些索引信息直接下发给终端，由终端直接从内容存储中心获取对应的内容。

三.内容缓存服务器

(1)对于不能及时下发到终端的内容，临时保存在内容缓存服务器，待C侧用户上线后在推送，通常缓存时间可以定制，一般为48小时；

四.推荐引擎服务器

(1)接受内容中心的原始内容的推送，同时通过统计分析系统收集用户行为和用户的画像数据；

(2)依据内容和用户的行为和画像，在已有的内容中心提供的规范化的内容上采用多种推荐算法比如协同过滤算法，基于相似用户行为的推荐或者基于用户画像的推荐，为每个用户生存一个推荐内容队列；

(3)用户主动刷新拉取内容的时候，通过内容获取和推送接口服务从推荐引擎服务获取推荐的内容信息。

五.文章识别过滤服务器

1)按照上面实施例描述的方法建立标题党文章识别的机器学习模型，从审核系统获取发布的原始内容数据；

(2)从标题标注样本库中持续获取标题党的正例和负例样本，从样本当中对内容标题和正文建立对应的标题模型；

(3)和自动评价标题服务通讯，提供标题党建模的结果。

六.内容存储中心服务器

(1)通常是一组分布范围很广，离C侧用户很久的就近接入服务器，缓存了最新的热门内容，他的内容源来自组织服务器；

(2)他可以直接为终端提供服务也可以为内容获取及推送接口服务

七.内容组装和拼接服务器

(1)从内容中心获取推送的内容，按照内容适合移动端的字体和样式及布局组装内容，同时将内容推送给内容存储中心；

(2)接受图片风格转换服务器同步的转换风格计算后的图片内容，拼装为一个内容不同风格的样式内容文件供最后输出使用。

八.内容中心

(1)接受审核系统审核通过的合法内容；

(2)对内容进行处理和过滤，建立内容分级和质量评估体系，确保提供给推荐引擎推荐的内容是优质的适合曝光的内容；

(3)为文章识别过滤服务器提供原始发布文章的所有数据。

九.审核系统

(1)通常有人工和机器审核想结合，主要是确保推送的内容符合当地法律和政策允许的访问；

(2)审核的内容来自自媒体主动发布和网络爬虫从公共网络上获取的；

(3)按照总体内容过滤和审核策略，对于属于标题党的文章和内容同步到标题样本标注数据库当中，审核系统成为机器学习标注样本数据库很重要的数据来源。

十.自动标题评价服务器

1)读取文章识别过滤服务器输出的相似度信息，以及统计分析系统的用户阅读文章行为信息，并给予相似度信息以及的用户阅读文章行为信息对自媒体作者提供的多种标题进行识别和评价；

(2)结合不同标题文章的用户阅读行为信息如点击上报和时长，完成率数据给自媒体内容发布者提供标题参考建议。

十一.自媒体发布系统

(1)公众号平台当中，运营订阅号自媒体用户发布内容的系统能够；

(2)和自动标题评价服务器通讯，提供作者同一个文章发布多个标题的服务，然后通过自动标题评价服务和修改标题来调整自己文章发布的内容，同时可以试验多组标题，避免标题党是的文章被屏蔽。

十二.内容收集服务器

(1)通常指网络爬虫系统，为了丰富内容来源，主动从互联网上收集和获取咨询内人，同时保留原始内容来源信息，作为推荐过程当作的长尾内容来源的补充；

(2)爬取各个主流APP和门户新闻内容资讯专题，对应文章和内容也是后续标题建模的重要样本。

十三.统计上报接口服务器

和即时通讯终端通讯，接受终端各种信息推到终端之后，用户的访问，浏览信息及操作点击行为流水日志信息的上报；

将上报的统计信息推送给统计分析系统。

十四.统计分析系统

根据统计上报接口服务器推送的日志信息进行统计分析，计算出内容的点击率，达到率，转化率和用户画像及行为特征等基础结果数据；

与推荐引擎服务器通讯，提供基于终端用户消息行为统计信息和用户画像信息进行内容推荐服务；

为文章识别过滤服务器提供优质文章，如标题和正文内容。

十五.标题标注样本库

(1)、和审核系统通讯，保存人工审核提供的所有标题的负样本数据

(2)、和统计分析系统联动，将优质内容的标题和正文作为正例样本保存起来，供标题党识别过滤服务建模使用；

(3)、保存和管理标题当中严格禁止和不允许出现的内容词库，作为标题过滤的第一道门槛。

本发明实施例提供了一套基于机器学习的标题建模方法，来应对标题党，同时保障最终用户看到的内容质量。其核心思想是通过筛选出标题党文章内容的正负样本，建立标题党文章识别的机器模型，还可以对标题进行细致的分类；同时将用户对内容反馈(包括举报，评论等用户互动)及内容本身表现出来的内容质量数据与人工审核标注系统相结合，自动识别标题党和是标题党的程度。

同时给文章发布者如号主在发文时候提供标题本身的评价及相关反馈数据，可以动态多标题，使用多标题功能，可通过收集可量化的数据反馈，解决“取标题拍脑袋，阅读量看运气”的问题。

此外，在发文时候是系统设定标题敏感关键词，当文章标题检测出此类关键词或者标题时候，系统自动发送弹窗提示并劝导自媒体作者取消此标题或者内容，如果作者不予修改，机器则会降低该文章的推荐权重。通过本发明实施例方案，可以充分利用机器智能和人工包括用户的反馈的结合，人工负责建立“标题党模型”，机器如同移动探头负责扫雷，随着“标题模型”积累正负样本得越来越多，价值判断逐步融入到机器的行为当中，机器识别的成功率就会越来越高，整体效果和效率也会越来高。

为了更好地实施以上方法，本发明实施例还提供文章识别装置，如图4a所示，该封面设置装置包括：样本构建单元401、模型训练单元402、文章向量获取单元403、相似度获取单元404和确定单元405，如下：

样本构建单元401，用于选取相应的文章作为样本，以构建原始文章识别模型的样本集；

模型训练单元402，用于获取所述样本集的样本标题向量以及样本正文向量，并根据所述样本标题向量以及样本正文向量对原始文章识别模型进行训练，得到训练后文章识别模型；

文章向量获取单元403，用于获取待识别文章的标题向量以及正文向量；

相似度获取单元404，用于根据所述训练后文章识别模型，对所述待识别文章的文章标题向量以及正文向量进行识别，获取所述标题向量与所述正文向量之间的相似度信息；

确定单元405，用于根据所述相似度信息确定所述待识别文章是否为标题党文章。

在一实施例中，参考图4b，模型训练单元402可以包括：

第一样本向量获取子单元4021，用于获取样本标题的标题词，并根据所述标题词构建相应的样本标题向量；

第二样本向量获取子单元4022，用于获取样本正文的正文词，并根据所述正文词构建相应的样本正文向量；

训练子单元4023，用于根据所述样本标题向量以及样本正文向量对原始文章识别模型进行训练，得到训练后文章识别模型。

在一实施例中，第一样本向量获取子单元4021，用于：

对所述样本标题进行分词处理，得到若干样本标题词；

获取所述样本标题词在所述样本集中出现的频率；

根据所述样本标题词及其对应的频率构建相应的样本标题向量；

所述第二样本向量获取子单元4022，用于：

对所述样本的正文内容进行分词处理，得到若干样本正文词；

获取所述样本正文词在所述样本集中出现的频率

根据所述样本正文词及其对应的频率构建相应的样本正文向量。

在一实施例中，第二样本向量获取子单元4022，用于：

对所述多个样本正文中间向量进行降维处理，得到一个样本正文向量。

在一实施例中，参考图4c，样本构建单元401，可以包括：

负样本构建子单元4011，用于选取已知的标题党文章作为负样本，得到原始文章识别模型的负样本集

正样本构建子单元4012，用于选取非标题党文章作为正样本，得到原始文章识别模型的正样本集；

所述第一样本向量获取子单元4021，具体用于获取所述样本标题词在所述负样本集中出现的频率；

所述第二样本向量获取子单元4022，用于获取所述样本正文词在所述负样本集合中出现的频率。

在一实施例中，负样本构建子单元4011，可以用于选取标题党文章类型为预设类型的已知标题党文章作为负样本；

此时，确定单元405可以用于根据所述相似度信息确定所述待识别文章是否为所述预设类型的标题党文章。

在一实施例中，正样本构建子单元4012，可以用于：

获取非标题党文章的优质文章衡量信息，所述优质文章衡量信息包括用户阅读行为信息、文章内容排版信息、以及文章内容调性信息中的至少一种；

根据所述优质文章衡量信息确定所述非标题党文章是否为优质文章；

若是，则选取所述非标题党文章作为正样本。

在一实施例中，确定单元405，可以用于：

获取所示待识别文章对应的用户阅读行为信息；

根据所述相似度信息以及所述用户阅读行为信息确定所述待识别文章是否为标题党文章。

在一实施例中，所述相似度信息包括所述标题向量以及所述正文向量之间的距离值；确定单元405，可以用于：

当所述距离大于预设阈值时，确定所述待识别文章为标题党文章；

当所述距离值小于或等于预设阈值时，确定所述待识别文章不为标题党文章。

在一实施例中，确定单元405，可以具体用于：

判断负样本的文章类型；

根据所述相似度信息，确定所述待识别文章的类型是否为所述负样本的文章类型，如果是，则确定所述待识别文章为所述文章类型的标题党文章。

在一实施例中，参考图4d，文章识别装置还可以包括：敏感词确定单元406和提醒单元407；

所述敏感词确定单元406，用于在文章向量获取单元403获取待识别文章的标题向量以及正文向量之前，确定待识别文章的标题是否包含预设敏感词；

所述提醒单元407，用于在所述敏感词确定单元406确定标题包含预设敏感词时，向发文终端发送提醒信息，以提醒文章发布者修改所述标题。

在一实施例中，参考图4e，文章识别装置还可以包括：推荐处理单元408；

所述推荐处理单元408，用于在所述提醒单元407向发文终端发送提醒信息之后，检测在预设时间段内是否接收到所述待识别文章的标题修改信息；若否，则降低所述待识别文章的文章推荐权重。

以上各单元的执行的步骤可以参考上述方法实施例的描述。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

该文章识别装置具体可以集成在服务器中，比如可以集成在文章识别过滤服务器中，又比如，在文章识别装置由多个实体实现时，该文章识别装置各单元可以分别集成在文章识别过滤服务器、标题评价服务器等设备中。

由上可知，本发明实施例封面设置装置通过样本构建单元401选取相应的文章作为样本，以构建原始文章识别模型的样本集；然后，由模型训练单元402获取样本集的样本标题向量以及样本正文向量，并根据样本标题向量以及样本正文向量对原始文章识别模型进行训练，得到训练后文章识别模型；由文章向量获取单元403获取待识别文章的标题向量以及正文向量；由相似度获取单元404根据训练后文章识别模型，对待识别文章的文章标题向量以及正文向量进行识别，获取标题向量与正文向量之间的相似度信息；由确定单元405根据相似度信息确定待识别文章是否为标题党文章。该方案可以通过文章识别模型自动识别出标题党文章，在识别过程中无需人工识别，可以提升标题党文章的识别效率。

为了更好地实施以上方法，本发明实施例还提供了一种服务器，该服务器可以为手机、平板电脑等设备。

参考图5，本发明实施例提供了一种服务器500，可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、射频(RadioFrequency，RF)电路503、电源504、输入单元505、以及显示单元506等部件。本领域技术人员可以理解，图5中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。

RF电路503可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器501处理；另外，将涉及上行的数据发送给基站。

服务器还包括给各个部件供电的电源504(比如电池)，优选的，电源可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源504还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元505，该输入单元505可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括显示单元506，该显示单元506可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元508可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。

具体在本实施例中，服务器中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

获取待识别文章的标题向量以及正文向量；

在一些实施例中，当获取所述样本集的样本标题向量以及样本正文向量时，所述处理器501具体执行以下步骤：

获取样本标题的标题词，并根据所述标题词构建相应的样本标题向量；

获取样本正文的正文词，并根据所述正文词构建相应的样本正文向量。

在一些实施例中，当获取样本标题的标题词，并根据所述标题词构建相应的样本标题向量时，所述处理器501具体执行以下步骤：

对所述样本标题进行分词处理，得到若干样本标题词；

获取所述样本标题词在所述样本集中出现的频率；

根据所述样本标题词及其对应的频率构建相应的样本标题向量。

在一些实施例中，当获取样本正文的正文词，并根据所述正文词构建相应的样本正文向量时，所述处理器501具体执行以下步骤：

获取所述样本正文词在所述样本集中出现的频率

在一些实施例中，当根据所述样本正文词及其对应的频率构建相应的样本正文向量时，所述处理器501具体执行以下步骤：

在一些实施例中，，所述处理器501进一步具体执行以下步骤：

选取已知的标题党文章作为负样本，得到文章识别模型的负样本集

选取非标题党文章作为正样本，得到文章识别模型的正样本集；

获取所述样本标题词在所述负样本集中出现的频率；

获取所述样本正文词在所述负样本集合中出现的频率。

在一些实施例中，所述相似度信息包括所述标题向量以及所述正文向量之间的距离值；当根据所述相似度信息确定所述待识别文章是否为标题党文章时，所述处理器501具体执行以下步骤：

当所述距离值大于预设阈值时，确定所述待识别文章为标题党文章；

本发明实施例服务器可以采用选取相应的文章作为样本，以构建原始文章识别模型的样本集；然后，获取样本集的样本标题向量以及样本正文向量，并根据样本的样本标题向量以及样本正文向量对原始文章识别模型进行训练，得到训练后文章识别模型；获取待识别文章的标题向量以及正文向量；根据训练后文章识别模型，对待识别文章的文章标题向量以及正文向量进行识别，获取标题向量与正文向量之间的相似度信息；根据相似度信息确定待识别文章是否为标题党文章。该方案可以通过文章识别模型自动识别出标题党文章，在识别过程中无需人工识别，可以提升标题党文章的识别效率。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

以上对本发明实施例所提供的一种文章识别方法、装置及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文章识别方法，其特征在于，包括：

获取所述样本集的样本标题向量以及样本正文向量，并根据所述样本标题向量以及样本正文向量，训练所述原始文章识别模型获取所述样本标题向量与所述样本正文向量的向量相似度，以调整所述原始文章识别模型的模型参数得到训练后文章识别模型，所述样本标题向量以及样本正文向量为对所述样本集通过自然语言处理技术进行处理得到；

获取待识别文章的标题向量以及正文向量；

2.如权利要求1所述的文章识别方法，其特征在于，获取所述样本集的样本标题向量以及样本正文向量，包括：

3.如权利要求2所述的文章识别方法，其特征在于，获取样本标题的标题词，并根据所述标题词构建相应的样本标题向量，包括：

对所述样本标题进行分词处理，得到若干样本标题词；

获取所述样本标题词在所述样本集中出现的频率；

4.如权利要求3所述的文章识别方法，其特征在于，获取样本正文的正文词，并根据所述正文词构建相应的样本正文向量，包括：

获取所述样本正文词在所述样本集中出现的频率；

5.如权利要求4所述的文章识别方法，其特征在于，根据所述样本正文词及其对应的频率构建相应的样本正文向量，包括：

6.如权利要求4所述的文章识别方法，其特征在于，所述样本集包括负样本集和正样本集；所述方法进一步包括：

选取已知的标题党文章作为负样本，得到原始文章识别模型的负样本集；

选取非标题党文章作为正样本，得到原始文章识别模型的正样本集；

获取所述样本标题词在所述负样本集中出现的频率；

获取所述样本正文词在所述负样本集中出现的频率。

7.如权利要求6所述的文章识别方法，其特征在于，根据所述相似度信息确定所述待识别文章是否为标题党文章，包括：

判断负样本的文章类型；

8.如权利要求6所述的文章识别方法，其特征在于，选取非标题党文章作为正样本，包括：

若是，则选取所述非标题党文章作为正样本。

9.如权利要求1所述的文章识别方法，其特征在于，所述相似度信息包括所述标题向量以及所述正文向量之间的距离值；所述根据所述相似度信息确定所述待识别文章是否为标题党文章，包括：

10.如权利要求1所述的文章识别方法，其特征在于，根据所述相似度信息确定所述待识别文章是否为标题党文章，包括：

获取所述待识别文章对应的用户阅读行为信息；

11.如权利要求1所述的文章识别方法，其特征在于，在获取待识别文章的标题向量以及正文向量之前，所述文章识别方法还包括：

确定待识别文章的标题是否包含预设敏感词，若是，则向发文终端发送提醒信息，以提醒文章发布者修改所述标题。

12.如权利要求11所述的文章识别方法，其特征在于，在向发文终端发送提醒信息之后，所述文章识别方法还包括：

若否，则降低所述待识别文章的文章推荐权重。

13.一种文章识别装置，其特征在于，包括：

模型训练单元，用于获取所述样本集的样本标题向量以及样本正文向量，并根据所述样本标题向量以及样本正文向量，训练所述原始文章识别模型获取所述样本标题向量与所述样本正文向量的向量相似度，以调整所述原始文章识别模型的模型参数得到训练后文章识别模型，所述样本标题向量以及样本正文向量为对所述样本集通过自然语言处理技术进行处理得到；

14.如权利要求13所述的文章识别装置，其特征在于，所述模型训练单元包括：

第一样本向量获取子单元，用于获取样本标题的标题词，并根据所述标题词构建相应的样本标题向量；

第二样本向量获取子单元，用于获取样本正文的正文词，并根据所述正文词构建相应的样本正文向量；

训练子单元，用于根据所述样本标题向量以及样本正文向量对原始文章识别模型进行训练，得到训练后文章识别模型。

15.如权利要求14所述的文章识别装置，其特征在于，所述第一样本向量获取子单元，具体用于：

对所述样本标题进行分词处理，得到若干样本标题词；

获取所述样本标题词在所述样本集中出现的频率；

所述第二样本向量获取子单元，具体用于：

获取所述样本正文词在所述样本集中出现的频率；

16.如权利要求15所述的文章识别装置，其特征在于，所述第二样本向量获取子单元，具体用于：

17.如权利要求15所述的文章识别装置，其特征在于，所述样本集包括负样本集和正样本集；所述样本构建单元，包括：

负样本构建子单元，用于选取已知的标题党文章作为负样本，得到原始文章识别模型的负样本集；

正样本构建子单元，用于选取非标题党文章作为正样本，得到原始文章识别模型的正样本集；

所述第一样本向量获取子单元，具体用于获取所述样本标题词在所述负样本集中出现的频率；

所述第二样本向量获取子单元，具体用于获取所述样本正文词在所述负样本集中出现的频率。

18.如权利要求17所述的文章识别装置，其特征在于，正样本构建子单元，用于：

若是，则选取所述非标题党文章作为正样本。

19.如权利要求13所述的文章识别装置，其特征在于，所述确定单元，用于：

获取所述待识别文章对应的用户阅读行为信息；

20.如权利要求13所述的文章识别装置，其特征在于，还包括：敏感词确定单元和提醒单元；

所述敏感词确定单元，用于在文章向量获取单元获取待识别文章的标题向量以及正文向量之前，确定待识别文章的标题是否包含预设敏感词；

所述提醒单元，用于在所述敏感词确定单元确定标题包含预设敏感词时，向发文终端发送提醒信息，以提醒文章发布者修改所述标题。

21.如权利要求20所述的文章识别装置，其特征在于，还包括：推荐处理单元；

所述推荐处理单元，用于在所述提醒单元向发文终端发送提醒信息之后，检测在预设时间段内是否接收到所述待识别文章的标题修改信息；若否，则降低所述待识别文章的文章推荐权重。

22.一种存储介质，其特征在于，所述存储介质存储有指令，所述指令被处理器执行时实现如权利要求1-12任一项所述方法的步骤。