CN111783417A

CN111783417A - 文章内容评分方法和装置

Info

Publication number: CN111783417A
Application number: CN201911233590.1A
Authority: CN
Inventors: 陈希
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-10-16

Abstract

本公开提供一种文章内容评分方法和装置。文章内容评分装置采集用户在具有预设主题的场景内发布的文章；利用第一深度学习模型对文章的内容和场景主题进行评分处理，以得到第一评分结果；提取文章的文本统计特征；提取文章的作者的关联特征；利用第二深度学习模型对文章的文本统计特征和作者的关联特征进行评分处理，以得到第二评分结果；将第一评分结果和第二评分结果进行融合处理，以得到文章的评分结果。本公开在评分过程中通过结合作者的关联信息、以及文章主题与发表场景的主题匹配程度，能够便评分更准确地反映文章的质量。

Description

文章内容评分方法和装置

技术领域

本公开涉及信息处理领域，特别涉及一种文章内容评分方法和装置。

背景技术

内容营销由于有着传播性好，获客成本低等优势被广大商家所重视，相应带来了网络文章的大爆发。在诸如京东的电商微信购物圈中，按照不同主题分为多个圈，例如妈咪圈、吃货圈、音乐圈、摄影圈等，各个圈分别由时尚达人、商家、明星、用户等分享其购物体验。通常对文章进行评分，将优质文章加精置顶，以便起到更好的传播效果。

发明内容

发明人通过研究发现，在相关技术中，仅通过根据文章的词汇特征、文采特征、立意特征和篇章特征对文章进行评分。由于未考虑文章作者对文章传播的影响程度、也未考虑文章主题与所发表场景的主题是否匹配，因此导致文章评分出现较大偏差。

为此，本公开提供一种根据文章作者和文章主题对文章进行评分的方案，以便更准确地反映文章的质量。

根据本公开实施例的第一方面，提供一种文章内容评分方法，包括：采集用户在具有预设主题的场景内发布的文章；利用第一深度学习模型对所述文章的内容和所述场景的主题进行评分处理，以得到第一评分结果；提取所述文章的文本统计特征；提取所述文章的作者的关联特征；利用第二深度学习模型对所述文章的文本统计特征和所述作者的关联特征进行评分处理，以得到第二评分结果；将第一评分结果和第二评分结果进行融合处理，以得到所述文章的评分结果。

在一些实施例中，利用第一深度学习模型对所述文章的内容和所述场景的主题进行评分处理包括：对所述文章的文本进行分词处理，以得到相应的词向量；对所述文章的主题进行分析，以得到所述文章的主题向量；利用第一深度学习模型对所述词向量、所述主题向量和所述场景的主题进行评分处理，以得到所述第一评分结果。

在一些实施例中，对所述文章的主题进行分析包括：利用隐狄利克雷分布模型对所述文章的主题进行分析，以得到所述文章在各主题上的概率值；根据所述文章在各主题上的概率值生成所述文章的主题向量。

在一些实施例中，所述第一深度学习模型包括多个子模型，各子模型的类型互不相同；利用第一深度学习模型对所述词向量、所述主题向量和所述场景的主题进行评分处理包括：将所述词向量、所述主题向量和所述场景的主题输入多个子模型进行评分处理，以便每个子模型输出相应的评分结果；将各子模型输出的评分结果进行融合，以得到所述第一评分结果。

在一些实施例中，所述多个子模型中包括Inception模型、RCNN模型或Fast Text模型中的至少一个。

在一些实施例中，所述文章的文本统计特征包括：所述文章的字数、词数、段落数或图片数中的至少一项。

在一些实施例中，所述作者的关联特征包括所述作者的属性信息，其中所述作者的属性信息包括所述作者的等级、粉丝数、关注数、粉丝数与关注数的差值、或粉丝数与关注数的比值中的至少一项。

在一些实施例中，所述作者的关联特征还包括所述作者的已发表文章评价信息，其中所述作者的已发表文章评价信息包括所述作者已发表文章总数、已发表文章中被添加优质标签的文章总量、被添加优质标签的文章总量在已发表文章中的比例、已发表文章的平均浏览量、单一访客量、平均停留时长、平均点赞量、平均评论数或平均转发量中的至少一项。

在一些实施例中，所述作者的已发表文章评价信息还包括影响评价指标，其中所述影响评价指标与点赞量、评论数和单一访客量相关联。

在一些实施例中，所述作者的关联特征还包括所述作者的趋势特征，所述趋势特征包括所述作者的属性信息或已发表文章评价信息中的至少一项在近T1天内相对于近T2天内的变化量，其中T1<T2。

在一些实施例中，所述第二深度学习模型包括xgboost模型或lightgbm模型。

根据本公开实施例的第二方面，提供一种文章内容评分装置，包括：采集模块，被配置为采集用户在具有预设主题的场景内发布的文章；第一评分处理模块，被配置为利用第一深度学习模型对所述文章的内容和所述场景的主题进行评分处理，以得到第一评分结果；第二评分处理模块，被配置为提取所述文章的文本统计特征，提取所述文章的作者的关联特征，利用第二深度学习模型对所述文章的文本统计特征和所述作者的关联特征进行评分处理，以得到第二评分结果；评分模块，被配置为将第一评分结果和第二评分结果进行融合处理，以得到所述文章的评分结果。

根据本公开实施例的第三方面，提供一种文章内容评分装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上述任一实施例涉及的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一个实施例的文章内容评分方法的流程示意图；

图2为本公开一个实施例的对文章的内容和场景主题进行评分处理的流程示意图；

图3为本公开一个实施例的文章内容评分装置的结构示意图；

图4为本公开另一个实施例的文章内容评分装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1为本公开一个实施例的文章内容评分方法的流程示意图。在一些实施例中，下列的文章内容评分方法步骤由文章内容评分装置执行。

在步骤101，采集用户在具有预设主题的场景内发布的文章。

例如，采集用户在某个主题的购物圈内发布的文章。

在步骤102，利用第一深度学习模型对文章的内容和场景的主题进行评分处理，以得到第一评分结果。

在一些实施例中，通过利用第一深度学习模型对文章的内容和场景的主题进行评分处理包括：对文章的文本进行分词处理，以得到相应的词向量。对文章的主题进行分析，以得到文章的主题向量。利用第一深度学习模型对词向量、主题向量和场景的主题进行评分处理，以得到第一评分结果。

在一些实施例中，通过利用隐狄利克雷分布(Latent Dirichlet allocation，简称：LDA)模型对文章的主题进行分析，以得到文章在各主题上的概率值。根据文章在各主题上的概率值生成文章的主题向量。

例如，利用LDA模型，可将一篇文章的主题表征为：0.1×主题1+0.6×主题2+0.15×主题3+…+0.07×主题20，由此得到一个20维的向量，即[0.1,0.6,0.15,…,0.07]。将该向量作为该文章的主题向量。

在一些实施例中，第一深度学习模型包括多个子模型，各子模型的类型互不相同。通过将词向量、主题向量和场景的主题输入多个子模型进行评分处理，以便每个子模型输出相应的评分结果。将各子模型输出的评分结果进行融合，以得到第一评分结果。

在一些实施例中，多个子模型中包括Inception模型、RCNN模型或Fast Text模型中的至少一个。

这里需要说明的是，Inception模型通过采用并联的多尺度卷积核可以从不同视野获取文本特征，采用叠加的卷积层有利于挖掘更深层次的文本特征。RCNN模型可有效获得文章的上下文特征。Fast Text模型更为简化，可减少过拟合的情况。

图2为本公开一个实施例的对文章的内容和场景的主题进行评分处理的流程示意图。

如图2所示，对文章的文本进行分词处理，以得到相应的词向量。利用LDA模型对文章的主题进行分析，以得到文章的主题向量。将词向量、主题向量和场景的主题输入Inception模型、RCNN模型和Fast Text模型中，将Inception模型、RCNN模型和Fast Text模型输出的评分结果进行融合，以得到第一评分结果。

返回图1。在步骤103，提取文章的文本统计特征，提取文章的作者的关联特征。

在一些实施例中，文章的文本统计特征包括：文章的字数、词数、段落数或图片数中的至少一项。

在一些实施例中，作者的关联特征包括作者的属性信息。作者的属性信息包括作者的等级(例如：普通用户、明星、时尚达人等)、粉丝数、关注数、粉丝数与关注数的差值(净粉丝数)、或粉丝数与关注数的比值(粉丝关注比)中的至少一项。

在一些实施例中，作者的关联特征还包括作者的已发表文章评价信息。作者的已发表文章评价信息包括作者已发表文章总数、已发表文章中被添加优质标签的文章总量(加精总量)、被添加优质标签的文章总量在已发表文章中的比例(加精文章占比)、已发表文章的平均浏览量PV、单一访客量UV、平均停留时长、平均点赞量、平均评论数或平均转发量中的至少一项。

在一些实施例中，作者的已发表文章评价信息还包括影响评价指标。影响评价指标与点赞量、评论数和单一访客量相关联，以评估文章的传播影响程度。

例如，影响评价指标为(点赞量+2×评论数)/(3×单一访客量)。

在一些实施例中，作者的关联特征还包括作者的趋势特征。作者的写作水平并不是一成不变的，会随时间上升或下降。因此通过趋势特征来对作者的写作状态变化进行评估。例如，趋势特征包括作者的属性信息或已发表文章评价信息中的至少一项在近T1天内相对于近T2天内的变化量，其中T1<T2。

例如，可按文章的发表时间对文章进行划分，以得到长周期(全部已发表文章)、中周期(90天发表的文章)和短周期(30天内发表的文章)。通过计算短周期相对于中周期各关联特征的变化量，或者计算中周期相对于长周期各关联特征的变化量，可以确定出作者的变化趋势特征。

在步骤104，利用第二深度学习模型对文章的文本统计特征和作者的关联特征进行评分处理，以得到第二评分结果。

在一些实施例中，第二深度学习模型包括xgboost模型或lightgbm模型。

在步骤105，将第一评分结果和第二评分结果进行融合处理，以得到文章的评分结果。

在一些实施例中，可根据需要给第一评分结果和第二评分结果设置相应的权值。例如，评分结果＝0.4×第一评分结果+0.6×第二评分结果。

在一些实施例中，可利用经人工审核过的文章作为训练数据，给加精文章添加优质标签，由此对第一深度学习模型和第二深度学习模型进行训练。

根据本公开上述实施例提供的文章内容评分方法，在评分过程中通过结合作者的关联信息、以及文章主题与发表场景的主题匹配程度，能够便评分更准确地反映文章的质量。

图3为本公开一个实施例的文章内容评分装置的结构示意图。如图3所示，文章内容评分装置包括采集模块31、第一评分处理模块32、第二评分处理模块33和评分模块34。

采集模块31被配置为采集用户在具有预设主题的场景内发布的文章。

第一评分处理模块32被配置为利用第一深度学习模型对文章的内容和场景的主题进行评分处理，以得到第一评分结果。

在一些实施例中，第一评分处理模块32对文章的文本进行分词处理，以得到相应的词向量。对文章的主题进行分析，以得到文章的主题向量。利用第一深度学习模型对词向量、主题向量和场景的主题进行评分处理，以得到第一评分结果。

在一些实施例中，通过利用LDA模型对文章的主题进行分析，以得到文章在各主题上的概率值。根据文章在各主题上的概率值生成文章的主题向量。

第二评分处理模块33被配置为提取文章的文本统计特征，提取文章的作者的关联特征，利用第二深度学习模型对文章的文本统计特征和作者的关联特征进行评分处理，以得到第二评分结果。

在一些实施例中，作者的已发表文章评价信息还包括影响评价指标。影响评价指标与点赞量、评论数和单一访客量相关联，以评估文章的传播影响程度。例如，影响评价指标为(点赞量+2×评论数)/(3×单一访客量)。

评分模块34被配置为将第一评分结果和第二评分结果进行融合处理，以得到文章的评分结果。

图4为本公开又一个实施例的文章内容评分装置的结构示意图。如图4所示，该装置包括存储器41和处理器42。

存储器41用于存储指令，处理器42耦合到存储器41，处理器42被配置为基于存储器存储的指令执行实现如图1中任一实施例涉及的方法。

如图4所示，该装置还包括通信接口43，用于与其它设备进行信息交互。同时，该装置还包括总线44，处理器42、通信接口43、以及存储器41通过总线44完成相互间的通信。

存储器41可以包含高速RAM存储器，也可还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器41也可以是存储器阵列。存储器41还可能被分块，并且块可按一定的规则组合成虚拟卷。

此外处理器42可以是一个中央处理器CPU，或者可以是专用集成电路ASIC，或是被配置成实施本公开实施例的一个或多个集成电路。

本公开同时还涉及一种计算机可读存储介质，其中计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如图1中任一实施例涉及的方法。

在一些实施例中，在上面所描述的功能单元模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(Programmable Logic Controller，简称：PLC)、数字信号处理器(Digital Signal Processor，简称：DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，简称：ASIC)、现场可编程门阵列(Field-ProgrammableGate Array，简称：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种文章内容评分方法，包括：

采集用户在具有预设主题的场景内发布的文章；

利用第一深度学习模型对所述文章的内容和所述场景的主题进行评分处理，以得到第一评分结果；

提取所述文章的文本统计特征；

提取所述文章的作者的关联特征；

利用第二深度学习模型对所述文章的文本统计特征和所述作者的关联特征进行评分处理，以得到第二评分结果；

将第一评分结果和第二评分结果进行融合处理，以得到所述文章的评分结果。

2.根据权利要求1所述的方法，其中，利用第一深度学习模型对所述文章的内容和所述场景的主题进行评分处理包括：

对所述文章的文本进行分词处理，以得到相应的词向量；

对所述文章的主题进行分析，以得到所述文章的主题向量；

利用第一深度学习模型对所述词向量、所述主题向量和所述场景的主题进行评分处理，以得到所述第一评分结果。

3.根据权利要求2所述的方法，其中，对所述文章的主题进行分析包括：

利用隐狄利克雷分布模型对所述文章的主题进行分析，以得到所述文章在各主题上的概率值；

根据所述文章在各主题上的概率值生成所述文章的主题向量。

4.根据权利要求2所述的方法，其中，所述第一深度学习模型包括多个子模型，各子模型的类型互不相同；

利用第一深度学习模型对所述词向量、所述主题向量和所述场景的主题进行评分处理包括：

将所述词向量、所述主题向量和所述场景的主题输入多个子模型进行评分处理，以便每个子模型输出相应的评分结果；

将各子模型输出的评分结果进行融合，以得到所述第一评分结果。

5.根据权利要求4所述的方法，其中：

所述多个子模型中包括Inception模型、RCNN模型或Fast Text模型中的至少一个。

6.根据权利要求1所述的方法，其中：

所述文章的文本统计特征包括：所述文章的字数、词数、段落数或图片数中的至少一项。

7.根据权利要求1所述的方法，其中：

所述作者的关联特征包括所述作者的属性信息，其中所述作者的属性信息包括所述作者的等级、粉丝数、关注数、粉丝数与关注数的差值、或粉丝数与关注数的比值中的至少一项。

8.根据权利要求7所述的方法，其中：

所述作者的关联特征还包括所述作者的已发表文章评价信息，其中所述作者的已发表文章评价信息包括所述作者已发表文章总数、已发表文章中被添加优质标签的文章总量、被添加优质标签的文章总量在已发表文章中的比例、已发表文章的平均浏览量、单一访客量、平均停留时长、平均点赞量、平均评论数或平均转发量中的至少一项。

9.根据权利要求8所述的方法，其中：

所述作者的已发表文章评价信息还包括影响评价指标，其中所述影响评价指标与点赞量、评论数和单一访客量相关联。

10.根据权利要求8所述的方法，其中：

所述作者的关联特征还包括所述作者的趋势特征，所述趋势特征包括所述作者的属性信息或已发表文章评价信息中的至少一项在近T1天内相对于近T2天内的变化量，其中T1<T2。

11.根据权利要求1所述的方法，其中：

所述第二深度学习模型包括xgboost模型或lightgbm模型。

12.一种文章内容评分装置，包括：

采集模块，被配置为采集用户在具有预设主题的场景内发布的文章；

第一评分处理模块，被配置为利用第一深度学习模型对所述文章的内容和所述场景的主题进行评分处理，以得到第一评分结果；

第二评分处理模块，被配置为提取所述文章的文本统计特征，提取所述文章的作者的关联特征，利用第二深度学习模型对所述文章的文本统计特征和所述作者的关联特征进行评分处理，以得到第二评分结果；

评分模块，被配置为将第一评分结果和第二评分结果进行融合处理，以得到所述文章的评分结果。

13.一种文章内容评分装置，包括：

存储器，被配置为存储指令；

处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如权利要求1-11中任一项的方法。

14.一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如权利要求1-11中任一项的方法。