CN114626356A

CN114626356A - 文章特征生成方法、装置、设备和存储介质

Info

Publication number: CN114626356A
Application number: CN202011422696.9A
Authority: CN
Inventors: 黄义棚; 周宇超; 刘智静; 王皓
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2022-06-14

Abstract

本申请提供了一种文章特征生成方法、装置、设备和存储介质，获得文章的评论；将评论分别输入到至少一种特征评价维度的特征分类器，得到评论分别在各个特征评价维度上的特征类型；针对每种特征评价维度，依据文章已有的至少一条评论以及每条评论分别在各特征评价维度上的特征类型，确定文章在特征评价维度的各特征类型上的评论分布情况；将文章在至少一种特征评价维度上各自的评论分布情况存储为文章的文章特征。本申请的方案可以实现基于文章的评论数据提取文章的文章特征，从而可以扩充用于描述文章画像的文章特征。

Description

文章特征生成方法、装置、设备和存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种文章特征生成方法、装置、设备和存储介质。

背景技术

文章画像是指文章的特征描述。基于文章画像可以实现文章的推荐与召回等操作。

目前，文章的特征主要是通过对文章的内容进行特征提取得到的。如，通过分析文章的主题、分类以及关键词等，确定出文章的特征。然而，文章的内容仅仅从一个方面描述了文章画像，为了能够更为全面的刻画文章画像，还需要从其他方面确定文章的文章特征。

发明内容

有鉴于此，本申请提供了一种文章特征生成方法、装置、设备及存储介质，可以基于文章的评论数据提取文章的文章特征，从而可以扩充用于描述文章画像的文章特征。

为实现上述目的，本申请提供了如下技术方案：

一方面，本申请提供了一种文章特征生成方法，包括：

获得文章的评论；

将所述评论分别输入到至少一种特征评价维度的特征分类器，得到所述评论分别在各个特征评价维度上的特征类型，其中，每种特征评价维度包括多种不同的特征类型，每种特征评价维度的特征分类器为利用标注有该特征评价维度上的特征类型的多个文章评论样本训练得到的；

针对每种特征评价维度，依据所述文章已有的至少一条评论以及每条评论分别在各特征评价维度上的特征类型，确定所述文章在所述特征评价维度的各特征类型上的评论分布情况；

将所述文章在所述至少一种特征评价维度上各自的所述评论分布情况存储为所述文章的文章特征。

在一种可能的实现方式中，所述将所述文章在所述至少一种特征评价维度上各自的所述评论分布情况存储为所述文章的文章特征，包括：

针对每种特征评价维度的每个特征类型，依据所述文章已有的至少一条评论的总数量以及所述文章在所述特征评价维度的所述特征类型上的评论分布情况，确定所述文章在所述特征类型上的评论分布情况对应的置信区间，并将所述置信区间的下限确定为所述文章在所述特征类型上的分布评分；

将所述文章在所述至少一种特征评价维度上各自对应的各特征类型的分布评分存储为所述文章的文章特征。

在又一种可能的实现方式中，将所述文章在所述至少一种特征评价维度上各自对应的各特征类型的分布评分存储为所述文章的文章特征，包括：

针对每个特征评价维度的每个特征类型，将所述文章在所述特征类型上的分布评分进行标准化，得到所述文章在所述特征类型上的标准化分布评分；

将所述文章在所述至少一种特征评价维度上各自对应的各特征类型的标准化分布评分存储为所述文章的文章特征。

又一方面，本申请还提供了一种文章特征生成装置，包括：

评论获得单元，用于获得文章的评论；

评论分析单元，用于将所述评论分别输入到至少一种特征评价维度的特征分类器，得到所述评论分别在各个特征评价维度上的特征类型，其中，每种特征评价维度包括多种不同的特征类型，每种特征评价维度的特征分类器为利用标注有该特征评价维度上的特征类型的多个文章评论样本训练得到的；

分布确定单元，用于针对每种特征评价维度，依据所述文章已有的至少一条评论以及每条评论分别在各特征评价维度上的特征类型，确定所述文章在所述特征评价维度的各特征类型上的评论分布情况；

特征生成单元，用于将所述文章在所述至少一种特征评价维度上各自的所述评论分布情况存储为所述文章的文章特征。

又一方面，本申请还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的文章特征生成方法。

又一方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上任一项所述的文章特征生成方法。

由以上内容可知，本申请在获得文章的评论后，会确定该评论在至少一种特征评价维度上的特征类型。在此基础上，结合文章已有的评论在每种特征评价维度上的特征类型，可以得到文章在每种特征评价维度对应的各特征类型上的评论分布情况，而通过文章在该特征评价维度上对应的评论分布情况可以从用户角度客观反映出文章在该特征评价维度上具有的特征，因此，通过文章在特征评价维度上各特征类型的评论分布情况可以刻画文章的特征，从而实现了结合文章的评论确定文章的特征，从而有利于扩展文章画像中的文章特征。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请所适用的一种系统架构示意图；

图2示出了本申请提供的文章特征生成方法一个实施例的流程示意图；

图3示出了本申请中文章的评论在一种特征评价维度的各特征类型上的分布情况示意图；

图4示出了本申请中分析评论的特征所涉及到的元数据以及特征评价维度；

图5示出了本申请提供的文章特征生成方法又一个实施例的流程示意图；

图6示出了不同文章在某个特征类型上的分布评分与标准化评分的对比示意图；

图7为本申请的文章特征生成方法在一种应用场景中的流程示意图；

图8示出了文章在各特征评价维度的特征类型上的占比分布示意图；

图9示出了本申请的文章特征生成装置的一种组成结构示意图；

图10示出了本申请提供的计算机设备的一种组成结构示意图。

具体实施方式

本申请的方案适用于对文章推荐以及召回等场景中，确定文章的文章画像。在本申请中基于文章的评论来确定描述文章画像的文章特征，从而有利于结合文章内容和文章评论，更为全面和准确的刻画出文章的文章画像。

本申请的方案可以应用于计算机设备，计算机设备可以为文章服务平台中用于文章推送或者召回等文章管理的服务器，也可以是该服务器之外的单台计算机设备，或者是，数据处理平台中的计算机设备。其中，数据处理平台可以为由多台服务器组成的集群或者是云平台等等。

为了便于理解，下面先对本申请的方案所适用的一种场景的系统架构进行介绍。

如图1所示，其示出了本申请所适用的一种系统架构的组成结构示意图。

在图1的系统架构中包括：文章服务平台10以及至少一个客户端20。

其中，文章服务平台10可以为任意能够提供文章访问服务的平台，如，文章服务平台可以为读书平台，论文管理平台或者网络媒体平台等。

在该文章服务平台10中可以包括至少一台服务器101以及至少一台数据处理设备102。

在该场景中，客户端20可以向服务器101发送文章获取请求，如该文章获取请求可以请求访问(如阅读或者浏览等)某篇文章，或者是，请求下载某篇文章。

其中，该服务器101可以接收客户端发送的文章获取请求，并向客户端返回该文章的数据。

同时，服务器可以获得客户端针对该文章所进行的评论。同时，服务器还可以将获得的文章的评论传输给数据处理设备102。

数据处理设备102可以根据获得的文章的各条评论，确定文章的文章特征。

在本申请实施例中，该数据处理设备在处理文章的评论过程中，可以结合人工智能技术进行数据分析。

其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请所采集用的人工智能技术至少可以涉及到自然语言处理和机器学习中的一种或者两种。

其中，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

数据处理设备结合人工智能技术确定文章的文章特征的具体内容后续结合实施例进行详细说明。

可以理解的是，在数据处理设备基于文章的评论确定出文章特征之后，还可以将文章特征传输给服务器，以使得服务器可以结合文章特征进行文章推荐和文章召回等一种或者多种操作。

需要说明的是，本实施例是以数据处理设备在文章服务平台内单独设备的计算设备为例说明。在实际应用中，数据处理设备还可以是文章服务平台之外设置的用于可以为不同平台提供文章特征分析的计算机设备或者数据处理设备中的计算节点。在该种情况下，数据处理设备可以通过网络获得文章服务平台的服务器或者数据库提供的文章的评论数据，并将确定出的文章特征返回给文章服务平台的服务器，其原理类似，在此不再赘述。

在以上基础上，下面结合流程图对本申请的文章特征生成方法进行介绍。

如图2所示，其示出了本申请一种文章特征生成方法一个实施例的流程示意图，本实施例可以应用于计算机设备或者数据处理平台。

本实施例的方法可以包括：

S201，获得文章的评论。

文章的评论是指用户针对该文章所表达的评价内容。文章的评论的具体形式可以为文字、图像或者多帧图片组等的一种或者多种。

如，用户通过浏览器或者应用程序访问文章，并针对文章作为评论。

举例说明，用户通过浏览器展现出文章之后，文章的评论可以为用户在文章对应的特定评论区内输入的文字或者表情符等。例如，文章的评论可以是“这篇文章写得真好”、“这篇文章不符合事实”或者“不喜欢”等等。

相应的，文章的发布平台，如前面提到的文章服务平台等获得用户针对文章输入的评论，并提供给计算机设备或者数据处理平台。

S202，将评论分别输入到至少一种不同特征评价维度的特征分类器，得到评论分别在各个特征评价维度上的特征类型。

在本申请中针对文章的每条评论，均需要从至少一种不同的特征评价维度上分析该评论。其中，每种特征评价维度为评价文章特征的一种维度。每种特征评价维度可以分为多种特征类型，通过分析评论在该特征评价维度上的具体特征类型，可以得到该评论所反映出的文章在该特征评价维度上的特征状况。

如，特征评价维度可以是从文章是否为低质量文章、存在负反馈的情况或者是用户对文章的情感倾向等评价角度设定的评价维度。

相应的，在一种可能的实现方式中，本申请的至少一种特征评价维度可以包括如下任意一种或者多种：

属于分析低质量特征的至少一种特征评价维度；

属于分析情感倾向特征的至少一种特征评价维度；

属于分析负反馈特征的至少一种特征评价维度。

其中，低质量特征是指文章所表现出的属于低质量文章的特征。

可以理解的是，评价文章是否属于低质量文章也可以有多种角度进行分析，因此，分析低质量特征的特征评价维度也可以有多种。如，文章是否为低质量文章可以从文章是否存在或者属于广告、谩骂内容，低俗内容或者骗赞等维度来表现。相应的，针对文章的评论所需分析的低质量特征可以从广告识别、谩骂识别、低俗识别以及骗赞识别等多个特征评价维度来进行分析。

相应的，情感倾向特征可以为评论表达出的情感倾向、对文章的表态倾向以及作为子评论的评论对其父评论的表态倾向等多个特征评价维度分析。其中，情感倾向可以分为：正向、负向和中性。表态倾向可以分为喜欢以及讨厌等倾向。子评论对父评论的表态倾向可以为：子评论针对父评论所表达的喜欢或者讨厌等倾向。

负反馈特征可以作为一种特征评价维度，其可以分包括：是否存在负反馈、对文章的负反馈、对作者的负反馈以及其它负反馈等。

在本申请中针对每种特征评价维度，均预先训练有该特征评价维度对应的特征分类器，该特征分类器用于确定评论属于该特征评价维度下的哪种特征类型。针对每种特征评价维度而言，该特征评价维度的特征分类器可以为利用标注有该特征评价维度上的特征类型的多个文章评论样本训练得到的。其中，文章评论样本为作为训练样本的文章样本的评论，作为样本的文章以及文章的评论均可以有多个。

如，针对情感倾向这一特征评价维度而言，由于情感倾向划分为正向、负向和中性三个特征类型，因此，训练该情感倾向的特征分类器所需的文章评论样本可以包括标注有正向的文章评论样本，标注为负向的文章评论样本以及标注为中性的文章评论样本。

在本申请实施例中，针对每种特征评价维度，该特征分类器可以由神经网络模型或者机器学习模型等训练得到，对此不加限制。作为一种可选方式，为了能够更为准确分析评价在特征评价维度的特征类型，本申请的特征分类模型可以由基于变换器的双向编码表征(Bidirectional Encoder Representations from Transformers，BERT)模型以及分类层构成。该分类层可以实现特征类型的输出，如，该分类层可以由全连接网络和归一化函数softmax层构成。

S203，针对每种特征评价维度，依据文章已有的至少一条评论以及每条评论分别在各特征评价维度上的特征类型，确定文章在特征评价维度的各特征类型上的评论分布情况。

其中，文章已有的至少一条评论为当前已获得的针对该文章所作出的评论。

可以理解的是，针对文章的每条评论，均已通过如上步骤S202确定出该评论在该特征评价维度的各特征类型上的评论分布情况。在此基础上，针对每种特征评价维度，可以统计出文章的至少一条评论在该特征评价维度的各特征类型上的分布情况，即评论分布情况。

可以理解的是，针对任意一种特征评价维度，该评论分布情况可以反映出该文章的评论在该特征评价维度的各特征类型上的评论占比。

在实际应用中，该评论分布情况可以是各个特征类型各自对应的评论占比；也可以是包括：文章的评论的总数量以及每种特征类型上的评论数量，以基于总数量和各个特征类型上的评论数量，反映出相应的评论占比。

如，假设文章一共有1000条评论，针对情感倾向这一特征评价维度，文章对应的属于正向情感倾向的评论有200条，属于负向情感倾向的评论有600，属于中性情感倾向的评论有200条，那么在情感倾向这一特征评价维度上，正向情感倾向的评论占比为0.2，负向情感倾向的占比为0.6，而中性情感倾向的占比为0.2。

S204，将文章在不同特征评价维度上各自的评论分布情况存储为文章的文章特征。

如，可以各个特征评价维度上的评论分布情况作为该文章的文章画像中的一种维度特征进行存储。

可以理解的是，为了使得用户更为直观的看到文章服务平台中各个文章在不同特征评价维度上各自的评论分布情况。本申请还可以针对每种特征评价维度，基于该文章在该特征评价维度的各特征类型上的评论分布情况，构建该特征评价维度对应的评论分布图。

如，仍以情感倾向这一特征评价维度为例说明，在确定出文章的评论在正向、负向和中性上的评论占比后，可以通过如图3所示的饼状图等图形形式展现出文章在该情感倾向的各个特征类型上的占比。由图3可以直观看到文章的评论在正向、中性和负向上的占比以及占比大小关系。

相应的，可以将文章在各个特征评价维度上的评论分布图存储为该文章的文章特征。

作为一种可选方式，本申请还可以基于文章的内容确定文章的内容特征，在此基础上，可以将文章的内容特征以及各个特征评价维度上的评论分布情况均存储为作为描述文章画像的文章特征。

可以理解的是，文章在每种特征评价维度上的评论分布情况，是从文章的评论这一角度分析出的该文章在该特征评价维度上的特征表现，因此，文章在每个特征评价维度上的评论分布情况作为文章的文章特征，可以有效弥补仅仅依据文章内容确定文章特征所导致的文章特征不全面或者不准确这一缺陷。特别是，在文章中图文信息较少的情况下，结合文章的评论可以更为准确得到反映文章质量等特征的信息。

同时，通过基于文章的评论来确定文章的文章特征，可以从用户角度来描述文章的文章特征，使得文章特征综合了文章评论的舆论倾向，更有利于文章服务平台精准的召回一些低质量或者引起用户反感的文章。

可以理解的是，在该步骤S204之后，本申请还可以结合该文章的文章特征，确定该文章是否符合召回条件，如果是，则将该文章进行召回。

可以理解的是，在本实施例中，文章发布之后，可能会不断有用户阅读并评论文章，因此，为了能够及时确定出文章的特征，并能够减少数据处理量，本申请可以在获得文章的评论之后，便从该多种特征评价维度上分析该文章的评论，即执行步骤S102。同时，本申请可以每隔设定时长，如一个小时，可以对当前获得该文章的所有评论进行如上S103和S104的处理，以不断更新文章的文章特征。

可以理解的是，文章的评论的长度以及评论之间的关系也可以作为文章的一种特征表现。相应的，本申请在获得文章的评论之后，还可以获得该文章评论的基础属性信息，该基础属性信息可以评论关联的属性信息，如基础属性信息可以包括评论的长度，评论来源、发表评论的用户以及用户特征等等。

进一步的，针对获得的该评论，本申请还可以依据该评论与该文章已有的其他评论，构建含该评论的评论关系，其中，评论关系至少包括评论的父评论。其中，评论为针对另一条评论所进行的评价，则该评论为该另一条评论的子评论，而该另一条评论为该评论的父评论。如，针对评论A做出了评论B，而针对评论B进行相关评价产生评论C，评论B为评论A的子评论，且评论B是评论C的父评论。

可以理解的是，针对每条评论均构建评论关系，可以得到包含多个评论之间父子关系的评论关系树。针对评论所在的评论关系树以及评论的基础属性，可以为文章召回人员进行文章召回提供更为充分的依据。

可以理解的是，在评价评论的子评论对父评论的表态倾向时，也可以利用不同评论之间的父子关系，来确定评论的父评论。

在该种情况下，本申请还可以将评论的基础属性信息和评论对应的评论关系存储为文章的文章特征。

如图4所示，其示出了本申请对文章的评论所进行的特征分析的类别情况。

由图4可以看出，本申请除了从评论的低质量特征、情感特征和负反馈特征三个大类所涉及到的各种评价特征维度来分析文章的评论外，还会从评论的元数据角度来构建出反映文章特征的评论基础属性以及评论关系树等。

可以理解的是，在实际应用中，不同文章的评论数量的差异较大，而针对评论数据较少的文章和评论数量较多的文章，会发现他们在各个特征评价维度上各自对应的评论占比的分布差异较大。如针对某一种特征评价维度，评论的数量在10以下的文章在该特征评价维度上某个特征类别对应的模型命中量与该文章的评论总量的比例分布在0.0至1.0；而评论数量超过100的文章，这一比例一般不超过0.2，这反映了样本数量的置信度差异。也就是说，由于有些文章的评论数量过少，可能导致不同文章在不同特征维度上的评价分布情况的可比性较差，甚至比对的意义不大。

例如，假设有两篇文章，一篇文章下有1000条评论，其中500条被识别为谩骂评论，第二篇文章下有10条评论，其中5条被识别为谩骂评论。虽然两篇文章的谩骂的评论占比都是0.5，我们可以认为第一篇文章的评论区中漫骂比例较高，戾气很重；但是由于第二篇文章的评论数量较少，我们难以断定第二篇文章的评论区中戾气很重。

可见，评论数量越少，置信区间越宽。

为了更好地衡量用户画像中不同特征评价维度所反映出的分布特征，平滑评论数量带来的影响，本申请还可以针对每种特征评价维度上各特征类型的评论分布情况进行平滑处理。

如图5所示，其示出了本申请一种文章特征生成方法又一个实施例的流程示意图，本实施例的方法可以包括：

S501，获得文章的评论。

S502，将评论分别输入到至少一种特征评价维度的特征分类器，得到评论分别在各个特征评价维度上的特征类型。

其中，每种特征评价维度包括多种不同的特征类型，每种特征评价维度的特征分类器为利用标注有该特征评价维度上的特征类型的多个文章评论样本训练得到的。

S503，针对每种特征评价维度，依据文章已有的至少一条评论以及每条评论分别在各特征评价维度上的特征类型，确定文章在特征评价维度的各特征类型上的评论分布情况。

以上步骤可以参见前面实施例的相关介绍，在此不再赘述。

S504，针对每种特征评价维度的每个特征类型，依据文章已有的至少一条评论的总数量以及文章在特征评价维度的特征类型上的评论分布情况，确定文章在特征类型上的评论分布情况对应的置信区间，并将置信区间的下限确定为文章在特征类型上的分布评分。

在本申请中，确定该置信区间的方式可以有多种，本申请对此不加限制。

在一种可能的实现方式中，为了进一步提高不同文章对应的特征之间的可比性，本申请还可以采用威尔逊区间算法计算该置信区间的下限。

具体的，针对文章的每个特征评价维度的每个特征类型，在确定文章在该特征评价维度的该特征类型上的评论占比之后，可以依据文章已有的至少一条评论的总数量，并利用威尔逊区间算法，计算文章在特征类型的评论占比对应的置信区间的下限，相应的，可以直接将计算出的该置信区间的下限确定为文章在该特征类型上的分布评分。

如，针对一个特征评价维度的特征类型，可以通过如下公式二中威尔逊区间算法的计算公式，计算该特征类型的评论占比对应的置信区间的下限score：

其中，n表示文章的评论的总数量，p表示该文章的评论在该特征类型上的评论占比，z是一个调节修正程度的常量。置信区间的下限为置信区间的最小值。

在本实施例中，可以将文章在不同特征评价维度上各自对应的各特征类型的分布评分存储为文章的文章特征。

可以理解的是，针对每种特征评价维度，通过本实施例将文章在该特征评价维度的每个特征类型上的评论占比转换为分布评分，可使得不同评论数量的文章在该特征类型的评论分布上具有了可比性。

可以理解的是，在实际应用中，针对每个特征评论维度的每个特征类型，文章在该特征类型的分布评分可能会处于0.0到0.2之间，使得不同文章在同一特征评价维度上该特征类型的分布评分的数值差异较小，区分度小。

作为一种可选方式中，为了能够更为直观看出不同文章在同一特征了看行的分布评分的差异性，本申请还可以对该分布评分进行标准化，即具体执行如下步骤S505和S506的操作。

S505，针对每个特征评价维度的每个特征类型，将文章在特征类型上的分布评分进行标准化，得到文章在特征类型上的标准化分布评分。

其中，对分布评分进行标准化的方式可以有多种可能。

在一种可能的实现方式中，本申请可以利用如下公式二，对文章在某个特征类型的分布评分score进行标准化，以得到标准化分布评分score'：

score'＝(score-1)⁵+1 (公式二)；

当然，公式二仅仅是一种标准化公式，在实际应用中，还可以有其他可能。

S506，将文章在不同特征评价维度上各自对应的各特征类型的标准化分布评分存储为文章的文章特征。

为了便于直观的看出对文章的评论某个特征类型下的分布评分进行标准化的好处，可以参见图6。在图6示出了待比对的多篇文章分别在某个特征评价维度的一个特征类型上的分布对比图。横坐标为表征评论分布情况的分数大小，纵坐标为评论数量。

在图6中，白色竖条为标准化前文章在该特征类型上的分布评分，黑色代表标准化分布评分。对比白色竖条和黑色竖条可以看出，黑色竖条分布更加均匀，区别对比更加明显，也就是说，这多篇文章在该特征类型上的标准化分布评分更容易相互区分出区别大小。

为了便于理解，下面以文章召回场景中，结合文章的评分识别出低质量文章这一场景为例说明。为了便于描述，以对文章的评论从低质量特征分析中广告识别这一特征评价维度来确定文章的特征为例说明，并以特征分类器为BERT模型和分类层组成为例说明。

如图7所示，其示出了本申请的文章特征生成方法应用于文章召回场景中的一种流程示意图。同时，本实施例以计算机设备确定出文章的文章特征并提供给文章服务平台的服务器为例。

本实施例可以包括：

S701，获得文章的评论。

S702，针对广告识别这一特征评价维度，将该评论输入用于识别广告的广告特征分类器，得到该评论的广告识别结果。

其中，评论的广告识别结果包括广告和非广告，广告识别结果表示该评论是否评价文章属于广告，如，广告特征分类器输出的广告识别结果为广告，则表示该评论评价文章为广告，如输出的结果为非广告，则表示评论为评价文章不属于广告。

其中，广告特征分类器为利用标注的广告标签的多个文章评论样本和标注有非广告标签的多个文章评论样本训练得到的BERT模型，且该BERT模型连接有全连接网络和归一化函数层。

可以理解的是，在将该评论输入到BERT模型之前，可以按照将评论映射为BRET模型可识别的字符串，该字符串可以为一串序列号。当然，在将评论转换为BRET模型可识别的字符传之前，还可以对评论进行预处理，以处理一些重复字符，或者将格式错误的字符进行映射等。

可以理解的是，本实施例仅仅以广告识别这一特征评价维度为例说明，如果存在情感倾向以及低速识别等等特征评价维度，只需要将该评论分别输入相应的特征分类器，以得到在相应特征评价维度上的特征类别即可，对此不再赘述。

S703，针对广告识别，依据文章已有的多条评论以及每条评论对应的广告识别结果，确定文章的多条评论在广告上的第一占比以及在非广告上的第二占比。

S704，针对广告识别中广告这一特征类别，依据文章已有的评论的总数量以及文章的多条评论在广告上的第一占比，并利用威尔逊区间算法，计算该第一占比对应的置信区间的下限，并将置信区间的下限确定为文章在广告上的第一分布评分。

S705，对第一分布评分进行标准化，得到文章的评论表征文章属于广告的第一标准化分布评分。

S706，针对广告识别中非广告这一特征类别，依据文章已有的评论的总数量以及文章的多条评论在非广告上的第二占比，并利用威尔逊区间算法，计算该第二占比对应的置信区间的下限，并将置信区间的下限确定为文章在非广告上的第二分布评分。

S707，对第二分布评分进行标准化，得到文章的评论表征文章属于非广告的第二标准化分布评分。

S708，将文章的评论表征文章属于广告的第一标准化分布评分以及文章的评论表征文章属于非广告的第二标准化分布评分发送给服务器，以使得服务器在基于该第一标准化评分和第二标准化评分，确定出文章属于广告这一低质量文章的情况下，对该文章进行召回。

可以理解的是，本申请在确定出文章在不同特征评价维度上各自的评论分布情况后，也可以是展现出评分分布情况的展现页面，以使得计算机设备侧的用户可以确定各个文章是否需要被召回等。

为了便于理解，本申请中基于文章不同特征评价维度上各自的评论分布情况进行文章召回的过程，下面结合图8进行说明。图8示出了文章在各特征评价维度的特征类型上的占比分布示意图。

如图8所示，本申请在网络暴力、低速、骗赞、广告、低营养以及负反馈这六个特征评价维度上分别识别了文章中每个评论的具体特征类型，并分析了文章的评论占比。

在图8中每个特征评价维度对应的柱形中，黑色部分属于该特征评价维度中第一特征类型的评论占比，白色部分为具有第二特征类型的评论占比。特征评价维度的第一特征类型为该特征评价维度中表征文章为低质量的特征类型，第二特征类型为特征评价维度中对应的表征文章为高质量的特征类型。

如，以网络暴力为例，具有网络暴力为第一特征类型，不具有网络暴力为第二特征类型。其中，文章的评论中属于表征文章具有网络暴力的评论的评论占比为16.9％，而表征文章不具有网络暴力的评论的评论占比为81.1％。

类似的，低俗这一特征评价维度中，低俗为第一特征类型，非低俗为第二特征类型，由图8中低俗这一特征评价维度对应的柱形可知，文章对应的属于低俗的评论占比为1.2％，而属于非低俗的评论占比为98.8％。对于其余几种特征评价维度特征也类似。

为了避免评论数量过少，影响到文章在不同特征评价维度上的评论占比的可比性。本申请在柱形图的下方还示出了文章在各个特征评价维度上的第一特征类型上的标准化评分。即，针对每种特征评价维度的第一特征类型，结合文章在该第一特征类型上的评论占比，利用威尔逊区间算法，确定出文章在该第一特征类型上的分布评分，并对分布评分进行标准化得到标准化评分。

如图8所示，针对网络暴力这一维度，文章的评论中表征文章具有网络暴力的评论占比为16.9％，而最终对该评论占比进行标准化处理后所得到的标准化评分为81.24。类似的，文章对应的表征文章属于低速文章的评论占比为1.2％，该评论占比对应的标准化评分为7.95，其余几个特征评价维度也类似。

结合图8中各个特征评价维度上在第一特征类型上的标准化评分，可以直观看到这个文章在各个特征评价维度上的表现，结合各个特征评价维度上的标准化评分可以进行文章召回。

如，虽然文章在负反馈上的评论占比仅为29.8％，但是标准化后的评分为96.23，则说明针对该文章的负反馈较高，在此基础上，则可以确定用户对于该文章所呈现出的负反馈较高，可以对该文章进行召回。

对应本申请的一种文章特征生成方法，本申请还提供了一种文章特征生成装置。如图9所示，其示出了本申请一种文章特征生成装置的一种组成结构示意图，该装置可以包括：

评论获得单元901，用于获得文章的评论；

评论分析单元902，用于将该评论分别输入到至少一种特征评价维度的特征分类器，得到评论分别在各个特征评价维度上的特征类型，其中，每种特征评价维度包括多种不同的特征类型，每种特征评价维度的特征分类器为利用标注有该特征评价维度上的特征类型的多个文章评论样本训练得到的；

分布确定单元903，用于针对每种特征评价维度，依据文章已有的至少一条评论以及每条评论分别在各特征评价维度上的特征类型，确定文章在特征评价维度的各特征类型上的评论分布情况；

特征生成单元904，用于将文章在至少一种特征评价维度上各自的评论分布情况存储为文章的文章特征。

在一种可能的实现方式中，特征生成单元，包括：

第一评分确定单元，用于针对每种特征评价维度的每个特征类型，依据该文章已有的至少一条评论的总数量以及该文章在该特征评价维度的该特征类型上的评论分布情况，确定该文章在该特征类型上的评论分布情况对应的置信区间，并将该置信区间的下限确定为该文章在该特征类型上的分布评分；

第一特征生成单元，用于将该文章在该至少一种特征评价维度上各自对应的各特征类型的分布评分存储为该文章的文章特征。

作为一种可选方式，分布确定单元确定的文章在特征评价维度的各特征类型上的评论分布情况为：文章在该特征评价维度的各特征类型上的评论占比；

第一评分确定单元具体为用于针对每种特征评价维度的每个特征类型，依据该文章已有的至少一条评论的总数量，并利用威尔逊区间算法，计算该文章在该特征类型的评论占比对应的置信区间的下限，并将该置信区间的下限确定为该文章在该特征类型上的分布评分。

在又一种可能的实现方式中，该第一特征生成单元，包括：

第二评分确定单元，用于针对每个特征评价维度的每个特征类型，将该文章在该特征类型上的分布评分进行标准化，得到该文章在该特征类型上的标准化分布评分；

第二特征生成单元，用于将该文章在该至少一种特征评价维度上各自对应的各特征类型的标准化分布评分存储为该文章的文章特征。

在又一种可能的实现方式中，特征生成单元，包括：

分布图生成单元，用于针对每种特征评价维度，基于该文章在该特征评价维度的各特征类型上的评论分布情况，构建该特征评价维度对应的评论分布图；

图存储单元，用于将该文章在该至少一种特征评价维度上的评论分布图存储为该文章的文章特征。

在又一种可能的实现方式中，该装置还包括：

属性确定单元，用于在评论获得单元获得评论之后，获得该评论的基础属性信息；

评论关系确定单元，用于依据该评论与该文章已有的其他评论，构建包含该评论的评论关系，该评论关系至少包括该评论的父评论；

属性关系存储单元，用于将该评论的基础属性信息和该评论关系存储为该文章的文章特征。

又一方面，本申请还提供了一种计算机设备，该计算机设备可以为前面提到的独立的计算机设备、文章服务平台中的数据处理设备或者数据处理平台中的计算节点。如图10，其示出了本申请提供的计算机设备的一种组成架构示意图。在图10中，该计算机设备1000可以包括：处理器1001和存储器1002。

可选的，该计算机设备还可以包括：通信接口1003、输入单元1004和显示器1005和通信总线1006。

其中，处理器1001、存储器1002、通信接口1003、输入单元1004和显示器1005均通过通信总线1006完成相互间的通信。

在本申请实施例中，该处理器1001，可以为中央处理器，特定应用集成电路等。

存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上实施例中提到的文章特征生成方法。

在一种可能的实现方式中，该存储器1002可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、以上所提到的程序等；存储数据区可存储根据计算机设备的使用过程中所创建的数据。

该通信接口1003可以为通信模块的接口。

本申请还可以包括输入单元1004，该输入单元可以包括触摸感应单元、键盘等等。

该显示器1005包括显示面板，如触摸显示面板等。

当然，图10所示的计算机设备结构并不构成对本申请实施例中计算机设备的限定，在实际应用中计算机设备可以包括比图10所示的更多或更少的部件，或者组合某些部件。

另一方面，本申请还提供了一种存储介质，该存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上任意一个实施例中的文章特征生成方法。

本申请还提出了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述文章特征生成方法方面或文章特征生成装置方面的各种可选实现方式中所提供方法，具体实现过程可以参照上述相应实施例的描述，不做赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。同时，本说明书中各实施例中记载的特征可以相互替换或者组合，使本领域专业技术人员能够实现或使用本申请。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文章特征生成方法，其特征在于，包括：

获得文章的评论；

2.根据权利要求1所述的方法，其特征在于，所述将所述文章在所述至少一种特征评价维度上各自的所述评论分布情况存储为所述文章的文章特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述文章在所述特征评价维度的各特征类型上的评论分布情况，包括：

确定所述文章在所述特征评价维度的各特征类型上的评论占比；

所述依据所述文章已有的至少一条评论的总数量以及所述文章在所述特征评价维度的所述特征类型上的评论分布情况，确定所述文章在所述特征类型上的评论分布情况对应的置信区间，并将所述置信区间的下限确定为所述文章在所述特征类型上的分布评分，包括：

依据所述文章已有的至少一条评论的总数量，并利用威尔逊区间算法，计算所述文章在所述特征类型的评论占比对应的置信区间的下限，将所述置信区间的下限确定为所述文章在所述特征类型上的分布评分。

4.根据权利要求2或3所述的方法，其特征在于，所述将所述文章在所述至少一种特征评价维度上各自对应的各特征类型的分布评分存储为所述文章的文章特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述文章在所述至少一种特征评价维度上各自的所述评论分布情况存储为所述文章的文章特征，包括：

针对每种特征评价维度，基于所述文章在所述特征评价维度的各特征类型上的评论分布情况，构建所述特征评价维度对应的评论分布图；

将所述文章在所述至少一种特征评价维度上的评论分布图存储为所述文章的文章特征。

6.根据权利要求1所述的方法，其特征在于，在所述获得文章的评论之后，还包括：

获得所述评论的基础属性信息；

依据所述评论与所述文章已有的其他评论，构建包含所述评论的评论关系，所述评论关系至少包括所述评论的父评论；

将所述评论的基础属性信息和所述评论关系存储为所述文章的文章特征。

7.根据权利要求1所述的方法，其特征在于，所述至少一种不同特征评价维度包括如下任意一种或者多种：

属于分析低质量特征的至少一种特征评价维度；

属于分析情感倾向特征的至少一种特征评价维度；

属于分析负反馈特征的至少一种特征评价维度。

8.一种文章特征生成装置，其特征在于，包括：

评论获得单元，用于获得文章的评论；

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-7所述的文章特征生成方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-7所述的文章特征生成方法。