CN111368075A - 文章质量预测方法、装置、电子设备及存储介质 - Google Patents

文章质量预测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111368075A
CN111368075A CN202010122693.7A CN202010122693A CN111368075A CN 111368075 A CN111368075 A CN 111368075A CN 202010122693 A CN202010122693 A CN 202010122693A CN 111368075 A CN111368075 A CN 111368075A
Authority
CN
China
Prior art keywords
article
sentence
processing
predicted
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010122693.7A
Other languages
English (en)
Inventor
黄炜杰
廖东亮
徐进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010122693.7A priority Critical patent/CN111368075A/zh
Publication of CN111368075A publication Critical patent/CN111368075A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种文章质量预测方法、装置、电子设备及存储介质;方法包括:获取待预测文章的文章侧特征、文章侧特征、作者侧特征以及用户侧特征;对文章侧特征中的文本信息、以及作者侧特征中的文本信息进行转换处理,得到待预测文章的嵌入特征;从文章侧特征中的图像信息、作者侧特征中的画像信息、用户侧特征以及嵌入特征中进行多次差异化地采样;基于多个分类器对多次差异化采样的采样结果进行质量预测处理,得到每个分类器对应待预测文章的质量评分;根据每个分类器的权重,对多个分类器对应待预测文章的质量评分进行融合处理,得到待预测文章的整体质量评分。通过本发明,能够通过不同来源的特征提高预测的文章质量的准确度。

Description

文章质量预测方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术,尤其涉及一种文章质量预测方法、装置、电子设备及存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
文章质量预测系统是人工智能领域的重要应用之一,文章质量预测系统是指确定文章质量好坏的过程。文章质量系统在推荐系统、文本搜索系统等中都有广泛的应用,即文章质量预测系统是这些复杂系统的基础组件。
但是,传统的文章质量预测系统通过文章的文本信息,预测文章的质量,使得预测的文章质量的准确度低。
发明内容
本发明实施例提供一种文章质量预测方法、装置、电子设备及存储介质,能够通过不同来源的特征提高预测的文章质量的准确度。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种文章质量预测方法,包括:
获取待预测文章的多模态特征,所述多模态特征包括文章侧特征、作者侧特征以及用户侧特征;
对所述文章侧特征中的文本信息、以及所述作者侧特征中的文本信息进行分句处理,对分句处理得到的多个句子中的每个句子进行编码,并将每个句子的编码结果进行融合处理,得到所述待预测文章的嵌入特征;
从所述文章侧特征中的图像信息、所述作者侧特征中的画像信息、所述用户侧特征以及所述嵌入特征中进行多次差异化地采样;
基于多个分类器对所述多次差异化采样的采样结果进行质量预测处理,得到每个所述分类器对应所述待预测文章的质量评分,其中每个所述分类器使用的采样结果不同;
根据每个所述分类器的权重,对所述多个分类器对应所述待预测文章的质量评分进行融合处理,得到所述待预测文章的整体质量评分。
本发明实施例提供一种文章质量预测装置,包括:
获取模块,用于获取待预测文章的多模态特征,所述多模态特征包括文章侧特征、作者侧特征以及用户侧特征;
转换模块,用于对所述文章侧特征中的文本信息、以及所述作者侧特征中的文本信息进行分句处理,对分句处理得到的多个句子中的每个句子进行编码,并将每个句子的编码结果进行融合处理,得到所述待预测文章的嵌入特征;
预测模块,用于从所述文章侧特征中的图像信息、所述作者侧特征中的画像信息、所述用户侧特征以及所述嵌入特征中进行多次差异化地采样;基于多个分类器对所述多次差异化采样的采样结果进行质量预测处理,得到每个所述分类器对应所述待预测文章的质量评分,其中每个所述分类器使用的采样结果不同;
融合模块,用于根据每个所述分类器的权重,对所述多个分类器对应所述待预测文章的质量评分进行融合处理,得到所述待预测文章的整体质量评分。
上述技术方案中,所述转换模块还用于针对所述多个句子中的每个句子执行以下处理:对所述句子中的每个词进行隐状态转换处理,得到所述每个词的隐状态;
对所述每个词的隐状态进行注意力处理,得到所述每个词的注意力权重;
基于所述每个词的注意力权重,对所述每个词的隐状态进行加权求和,得到所述句子的编码结果。
上述技术方案中,所述转换模块还用于对所述句子中的每个词进行前向编码处理,得到所述每个词的前向隐向量;
对所述句子中的每个词进行后向编码处理,得到所述每个词的后向隐向量;
将所述前向隐向量以及所述后向隐向量进行拼接处理,得到所述每个词的隐状态。
上述技术方案中,所述转换模块还用于对所述每个词的隐状态以及可学习参数进行双曲正切处理,得到处理结果;
对所述处理结果进行非线性映射处理,得到所述每个词的注意力权重。
上述技术方案中,所述转换模块还用于对所述每个句子的编码结果进行隐状态转换处理,得到所述每个句子的隐状态;
对所述每个句子的隐状态进行注意力处理,得到所述每个句子的注意力权重;
基于所述每个句子的注意力权重,对所述每个句子的隐状态进行加权求和,得到所述待预测文章的嵌入特征。
上述技术方案中,所述转换模块还用于对所述每个句子的编码结果进行前向编码处理,得到所述每个句子的前向隐向量;
对所述每个句子的编码结果进行后向编码处理,得到所述每个句子的后向隐向量;
将所述前向隐向量以及所述后向隐向量进行拼接处理,得到所述每个句子的隐状态。
上述技术方案中,所述转换模块还用于对所述每个句子的隐状态以及可学习参数进行双曲正切处理,得到处理结果;
对所述处理结果进行非线性映射处理,得到所述每个句子的注意力权重。
上述技术方案中,所述预测模块还用于对于所述多个分类器中的任一第j个分类器,执行以下处理:
通过所述第j个分类器对所述文章侧特征中的图像信息、所述作者侧特征中的画像信息、所述用户侧特征以及所述嵌入特征进行差异化采样处理,得到所述第j个分类器的抽取特征;
通过所述第j个分类器对所述第j个分类器的抽取特征进行随机采样处理,得到所述第j个分类器的采样结果;
其中,0<j≤N,N表示所述分类器的总数量,且j、N为自然数。
上述技术方案中,所述装置还包括:
确定模块,用于对于所述多个分类器中的任一第j个分类器,执行以下处理:
通过所述第j个分类器对多个文章样本进行质量预测处理,得到所述第j个分类器对应所述多个文章样本的质量预测结果;
根据所述多个文章样本的标注、以及所述第j个分类器对应所述多个文章样本的质量预测结果,确定所述第j个分类器的误差;
根据所述第j个分类器的误差以及所述多个分类器的误差,确定所述第j个分类器的权重。
上述技术方案中,所述确定模块还用于将所述多个文章样本的标注、与所述第j个分类器对应所述多个文章样本的质量预测结果的方差和的平均值,确定为所述第j个分类器的误差。
上述技术方案中,所述确定模块还用于对所述多个分类器的误差进行降序排序,将前M个分类器的误差确定为1;
确定所述第j个分类器的权重为
Figure BDA0002393465670000041
其中,所述errj表示所述第j个分类器的误差,所述erri表示所述第i个分类器的误差,N表示分类器的总数量。
本发明实施例提供一种用于文章质量预测的电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的文章质量预测方法。
本发明实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的文章质量预测方法。
本发明实施例具有以下有益效果:
通过结合待预测文章中的文章侧特征、作者侧特征以及用户侧特征,从多维度预测文章质量,从而提高预测的文章质量的准确度;通过多个分类器对文章侧特征、作者侧特征以及用户侧特征进行质量预测处理,得到各分类器对应待预测文章的质量评分,并根据各分类器的权重,融合各分类器对应待预测文章的质量评分,从而实现多模态特征的高效融合,提高预测文章质量的鲁棒性。
附图说明
图1是本发明实施例提供的文章质量预测系统10的应用场景示意图;
图2是本发明实施例提供的文章质量预测的电子设备500的结构示意图;
图3-5是本发明实施例提供的文章质量预测方法的流程示意图;
图6是本发明实施例提供的文章推荐入口示意图;
图7是本发明实施例提供的文章推荐主界面的示意图;
图8是本发明实施例提供的文章质量预测方法的流程示意图;
图9是本发明实施例提供的基于多层注意力模型的嵌入特征提取模型的示意图;
图10是本发明实施例提供的基于多模型特征融合的文章质量模型的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)分类器:对数据进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。本发明实施例中的分类器用于对文章进行分类,得到文章的质量评分,例如分类器对文章1进行分类,确定该文章1的质量评分为0.1,则确定该文章1的质量差,后续可以不予采用该文章1。
2)扩充特征:与文章的文章侧特征不同来源的特征,并与文章有关联的特征,例如账号侧特征、用户侧特征等。其中,文章侧特征可以直接表征文章内容的信息,文章侧特征包括文章标题、正文、封面图等文章信息。而扩充特征则不是直接表征文章内容的信息,例如账号侧特征包括文章的作者名称、简介、画像信息等间接表征文章的信息,用户侧特征包括用户对文章的行为反馈(转发、点赞、评论等)等间接表征文章的信息。
3)多模态特征:每一种信息的来源或者形式,都可以称为一种模态。单模态特征为将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量,而多模态特征为通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。本发明实施例中的多模态特征包括文章侧特征、账号侧特征、用户侧特征等多来源(形式)的特征。
本发明实施例提供一种文章质量预测方法、装置、电子设备和存储介质,能够通过不同来源的特征提高预测的文章质量的准确度。下面说明本发明实施例提供的用于文章质量预测的电子设备的示例性应用,本发明实施例提供的用于文章质量预测的电子设备可以是服务器,例如部署在云端的服务器,根据其他设备或者用户提供的待预测文章,对该待预测文章进行一系列处理,确定该待预测文章的整体质量评分,例如,服务器根据其他设备获得待预测文章,对该待预测文章进行转化、质量预测、融合等处理,确定该待预测文章的整体质量评分;也可是笔记本电脑,平板电脑,台式计算机,移动设备(例如,移动电话,个人数字助理)等各种类型的用户终端,例如手持终端,根据用户在手持终端上输入的待预测文章,获得准确的待预测文章的整体质量评分,并显示在手持终端的显示界面上。
作为示例,参见图1,图1是本发明实施例提供的文章质量预测系统10的应用场景示意图,终端200通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合。
终端200可以被用来获取待预测文章,例如,当用户通过输入界面输入待预测文章,输入完成后,终端自动获取用户输入的待预测文章。
在一些实施例中,终端200本地执行本发明实施例提供的文章质量预测方法来完成根据用户输入的待预测文章,得到准确的待预测文章的整体质量评分,例如,在终端200上安装质量预测助手,用户在质量预测助手中,输入待预测文章,终端200根据输入的待预测文章,对该待预测文章进行转化、质量预测、融合等处理,得到准确的待预测文章的整体质量评分,并将待预测文章的整体质量评分显示在终端200的显示界面210上。
在一些实施例中,终端200也可以通过网络300向服务器100发送用户在终端200上输入的待预测文章,并调用服务器100提供的文章质量预测功能,服务器100通过本发明实施例提供的文章质量预测方法获得准确的待预测文章的整体质量评分,例如,在终端200上安装质量预测助手,用户在质量预测助手中,输入待预测文章,终端200通过网络300向服务器100发送待预测文章,服务器100接收到该待预测文章后,对该待预测文章进行转化、质量预测、融合等处理,得到准确的待预测文章的整体质量评分,并将待预测文章的整体质量评分返回至图像质量预测助手,将待预测文章的整体质量评分显示在终端200的显示界面210上,或者,服务器100直接给出待预测文章的整体质量评分。
在一些应用场景中,该文章质量预测系统10可以应用于推荐系统中,即将预测出的待预测文章的整体质量评分应用于推荐应用中,将整体质量评分高的文章保留,以便准确地为用户推荐质量高的文章,例如将整体质量评分超过0.8的文章,保存至数据库,以供后续进行文本推荐,根据用户的偏好,将数据库中质量高的文章推荐给用户,更好地符合用户的偏好需求;该文章质量预测系统10还可以应用于文本搜索系统中,即将预测出的待预测文章的整体质量评分应用于文本搜索应用中,将整体质量评分高的文章保留,以便用户搜索到质量高的文章,例如将整体质量评分超过0.8的文章,保存至数据库,以供后续进行文本搜索,根据用户的搜索信息,将数据库中质量高的文章提供给用户,更好地符合用户的搜索需求。
继续说明本发明实施例提供的文章质量预测的电子设备的结构,文章质量预测的电子设备可以是各种终端,例如手机、电脑等,也可以是如图1示出的服务器100。
参见图2,图2是本发明实施例提供的文章质量预测的电子设备500的结构示意图,图2所示的文章质量预测的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。文章质量预测的电子设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read On ly Memory),易失性存储器可以是随机存取存储器(RAM,Random Access M emory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiF i)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的文章质量预测装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的文章质量预测装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的文章质量预测方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在另一些实施例中,本发明实施例提供的文章质量预测装置可以采用软件方式实现,图2示出了存储在存储器550中的文章质量预测装置555,其可以是程序和插件等形式的软件,并包括一系列的模块,包括获取模块5551、转换模块5552、预测模块5553、融合模块5554、以及确定模块5555;其中,获取模块5551、转换模块5552、预测模块5553、融合模块5554、以及确定模块5555用于实现本发明实施例提供的文章质量预测方法。
根据上文可以理解,本发明实施例提供的文章质量预测方法可以由各种类型的文章质量预测的电子设备实施,例如智能终端和服务器等。
下面结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的文章质量预测方法。参见图3,图3是本发明实施例提供的文章质量预测方法的流程示意图,结合图3示出的步骤进行说明。
在步骤101中,获取待预测文章的文章侧特征,并获取与文章侧特征不同来源的扩充特征。
例如,用户可以在终端的输入界面上输入待预测文章,当输入完成后,终端可以将待预测文章转发至服务器,服务器接收到待预测文章后,可以提取待预测文章的文章侧特征以及扩充特征,以便后续根据该文章侧特征以及扩充特征得到待预测文章的整体质量评分。其中,扩充特征是与文章的文章侧特征不同来源的特征,并与文章有关联的特征,例如账号侧特征、用户侧特征等、即获取待预测文章的多模态特征,多模态特征包括文章侧特征、作者侧特征以及用户侧特征。
在一些实施例中,获取待预测文章的文章侧特征,包括:对待预测文章进行文本维度和图像维度的特征提取处理,将得到的文本信息和图像信息作为待预测文章的文章侧特征。
作为示例,服务器接收到待预测文章后,可以对待预测文章进行文本维度和图像维度的特征提取处理,得到待预测文章的文本信息和图像信息、即直接表征待预测文章内容的信息。其中,文本信息可以包括文章的标题、正文等文本,图像信息包括文章的封面图、插图等图像。
在步骤102中,对文章侧特征中的文本信息、以及扩充特征中的文本信息进行转换处理,得到待预测文章的嵌入特征。
在服务器获取待预测文章的文章侧特征以及扩充特征后,由于文章侧特征以及扩充特征的数据量比较大,直接根据文章侧特征以及扩充特征进行质量预测的计算量比较大,因此,可以先对文章侧特征中的文本信息、以及扩充特征中的文本信息进行转换处理,将待预测文章转化为一维的嵌入特征,以减小后续的计算量。
参见图3,图3是本发明实施例提供的一个可选的流程示意图,在一些实施例中,图3示出步骤102可以通过步骤1021-1023实现。其中,扩充特征包括作者侧特征;在步骤1021中,对文章侧特征中的文本信息、以及作者侧特征中的文本信息进行分词处理,得到待预测文章的词向量;在步骤1022中,对待预测文章的词向量进行聚合处理,得到待预测文章的句子嵌入特征;在步骤1023中,对待预测文章的句子嵌入特征进行融合处理,得到待预测文章的嵌入特征。
为了将待预测文章的文本转换为低维度的特征,可以对文章侧特征中的文本信息、以及作者侧特征中的文本信息进行分句处理,对分句处理得到的多个句子中的每个句子进行编码,并将每个句子的编码结果进行融合处理,得到所述待预测文章的嵌入特征。
作为示例,先将文章侧特征中的标题、正文等文本信息进行分词处理,将作者侧特征中的作者名称、简介等文本信息进行分词处理,从而得到待预测文章的词向量,并对词向量(词粒度信息)进行聚合处理,从而得到待预测文章的每个句子的编码结果、即句子嵌入特征,该句子嵌入特征对应待预测文章的句子信息,最后对待预测文章的句子嵌入特征(句子粒度信息)进行融合处理,从而得到包含文章侧特征、以及作者侧特征的低维度的嵌入特征。
在一些实施例中,对文章侧特征中的文本信息、以及作者侧特征中的文本信息进行分词处理,得到待预测文章的词向量,包括:对文章侧特征中的文本信息、以及作者侧特征中的文本信息进行分句处理,得到对应待预测文章的多个句子;对多个句子进行分词处理,得到多个句子中的多个词。
为了后续能够生成句子嵌入特征,服务器可以先各特征进行分句处理,再进行分词处理,以便后续对句子中的多个词进行聚合处理,得到待预测文章的句子嵌入特征。例如,对文章侧特征中的标题、正文等文本信息进行分句处理,对作者侧特征中的作者名称、简介等文本信息进行分句处理,即以“。”、“?”、“!”等断句符合作为分句的标识,对文章侧特征、作者侧特征进行分句,得到对应待预测文章的多个句子。在服务器得到对应待预测文章的多个句子后,可以再对多个句子进行分词处理,得到句子中的多个词,以便后续对句子中的多个词进行聚合处理,得到待预测文章的句子嵌入特征。
在一些实施例中,对待预测文章的词向量进行聚合处理,得到待预测文章的句子嵌入特征,包括:针对待预测文章中多个句子中的每个句子执行以下处理:对句子中的每个词进行隐状态转换处理,得到每个词的隐状态;对每个词的隐状态进行注意力处理,得到每个词的注意力权重;基于每个词的注意力权重,对每个词的隐状态进行加权求和,得到句子的编码结果。
作为示例,服务器得到预测文章的词向量(每个词)后,可以先将每个词转换为待预测文章中词语的隐状态,以便后续根据每个词的隐状态进行注意力处理,得到每个词的注意力权重,并根据每个词的注意力权重,对每个词的隐状态进行加权求和,从而得到待预测文章的句子嵌入特征,后续可以对待预测文章的句子嵌入特征进行融合处理,得到待预测文章的嵌入特征。
在一些实施例中,对句子中的每个词进行隐状态转换处理,得到每个词的隐状态,包括:对句子中的每个词进行前向编码处理,得到每个词的前向隐向量;对句子中的每个词进行后向编码处理,得到每个词的后向隐向量;将前向隐向量以及后向隐向量进行拼接处理,得到每个词的隐状态。
作为示例,服务器在得到每个词后,将每个词输入至双向长短时记忆网络(BLSTM或BiLSTM,Bidirectional Long Short-term Memory)或者双向门控循环单元(GRU,GateRecurrent Unit)编码器的隐层,并通过编码器的隐层对每个词分别进行前向编码和后向编码处理,从而得到每个词的前向隐向量以及每个词的后向隐向量,并对每个词的前向隐向量以及每个词的后向隐向量进行拼接处理,从而得到每个词的隐状态,其中,每个词的前向隐向量包含待预测文章中词语的前向所有信息,每个词的后向隐向量包含待预测文章中词语的后向所有信息。因此,拼接每个词的前向隐向量以及每个词的后向隐向量后的待预测文章中词语的隐状态包含待预测文章中词语的所有的信息。
其中,可以通过编码器对待预测文章的词向量中的第i向量进行前向编码处理,得到待预测文章的第i前向隐向量;对待预测文章的词向量中的第i向量进行后向编码处理,得到待预测文章的第i后向隐向量;将第i前向隐向量、第i后向隐向量进行拼接处理,得到包含标题的第i隐状态。其中,0<i≤N,且i、N为正整数,N为词向量中向量的总数目。当词向量中有N个向量,则对N个向量按照前向方向进行编码,依次得到在前向方向的N个隐向量,例如对词向量按照前向方向进行编码处理后,得到在前向方向的隐向量为{h1l,h2l,...hil...,hNl},其中,hil表示第i向量在前向方向的第i隐向量。对N个向量按照后向方向进行编码,依次得到在后向方向的N个隐向量,例如对词向量按照后向方向进行编码处理后,得到在后向方向的隐向量为{h1r,h2r,...hir...,hNr},其中,hir表示第i向量在后向方向的第i隐向量。将在前向方向的隐向量为{h1l,h2l,...hil...,hNl}以及在后向方向的隐向量为{h1r,h2r,...hir...,hNr}进行拼接,得到待预测文章中词语的隐状态{[h1l,h1r],[h2l,h2r],...[hil,hir]...,[hNl,hNr]},例如,将第i向量在前向方向的第i隐向量hil、第i向量在后向方向的第i隐向量hir进行拼接处理,得到包含上下文信息的第i编码信息{hil,hir}。为了节约计算过程,由于前向方向的最后一个隐向量包含前向方向的大部分信息、后向方向的最后一个隐向量包含后向方向的大部分信息,因此,可以直接对前向方向的最后一个隐向量以及后向方向的最后一个隐向量进行融合,得到待预测文章中词语的隐状态。
在一些实施例中,对每个词的隐状态进行注意力处理,得到每个词的注意力权重,包括:对每个词的隐状态以及可学习参数进行双曲正切处理,得到处理结果;对处理结果进行非线性映射处理,得到每个词的注意力权重。
承接上述示例,在得到待预测文章中词语的隐状态(每个词的隐状态)后,可以对待预测文章中词语的隐状态以及可学习参数进行双曲正切处理,得到处理结果,并对处理结果进行非线性映射处理,得到待预测文章中词语的注意力权重(每个词的注意力权重),其中,待预测文章中词语的注意力权重的计算公式为ait=soft max(uw Ttanh(Wwhit+bw)),ait表示待预测文章中词语的注意力权重,uw、Ww、bw表示可学习参数、即用于训练的参数,hit表示待预测文章中词语的一个隐状态,softmax函数表示逻辑回归函数、即非线性映射函数。
在一些实施例中,将每个句子的编码结果进行融合处理,得到待预测文章的嵌入特征,包括:对每个句子的编码结果进行隐状态转换处理,得到每个句子的隐状态;对每个句子的隐状态进行注意力处理,得到每个句子的注意力权重;基于每个句子的注意力权重,对每个句子的隐状态进行加权求和,得到待预测文章的嵌入特征。
作为示例,服务器得到待预测文章的句子嵌入特征(句子的编码结果)后,可以先将待预测文章的句子嵌入特征转换为待预测文章中句子的隐状态,以便后续根据待预测文章中句子的隐状态进行注意力处理,得到待预测文章中句子的注意力权重,并根据待预测文章中句子的注意力权重,对待预测文章中句子的隐状态进行加权求和,从而得到待预测文章的嵌入特征,后续可以通过各分类器对文章侧特征中的图像信息、扩充特征以及嵌入特征进行质量预测处理,得到各分类器对应待预测文章的质量评分。
在一些实施例中,对每个句子的编码结果进行隐状态转换处理,得到每个句子的隐状态,包括:对每个句子的编码结果进行前向编码处理,得到每个句子的前向隐向量;对每个句子的编码结果进行后向编码处理,得到每个句子的后向隐向量;将前向隐向量以及后向隐向量进行拼接处理,得到每个句子的隐状态。
作为示例,服务器在得到待预测文章的句子嵌入特征(句子的编码结果)后,将待预测文章的句子嵌入特征可以输入至双向长短时记忆网络(BLSTM或BiLSTM,Bidirectional Long Short-term Memory)或者双向门控循环单元(G RU,Gate RecurrentUnit)编码器的隐层,并通过编码器的隐层对待预测文章的句子嵌入特征分别进行前向编码和后向编码处理,从而得到待预测文章中句子的前向隐向量以及待预测文章中句子的后向隐向量,并对待预测文章中句子的前向隐向量以及待预测文章中句子的后向隐向量进行拼接处理,从而得到待预测文章中句子的隐状态,其中,待预测文章中句子的前向隐向量包含待预测文章中句子的前向所有信息,待预测文章中句子的后向隐向量包含待预测文章中句子的后向所有信息。因此,拼接待预测文章中句子的前向隐向量以及待预测文章中句子的后向隐向量后的待预测文章中句子的隐状态包含待预测文章中句子的所有的信息。
在一些实施例中,对每个句子的隐状态进行注意力处理,得到每个句子的注意力权重,包括:对每个句子的隐状态以及可学习参数进行双曲正切处理,得到处理结果;对处理结果进行非线性映射处理,得到每个句子的注意力权重。
承接上述示例,在得到待预测文章中句子的隐状态后,可以对待预测文章中句子的隐状态以及可学习参数进行双曲正切处理,得到处理结果,并对处理结果进行非线性映射处理,得到待预测文章中句子的注意力权重,其中,待预测文章中句子的注意力权重的计算公式为ait=softmax(ui Ttanh(Wshi+bs)),ait表示待预测文章中句子的注意力权重,ui T、W、bs表示可学习参数、即用于训练的参数,hi表示待预测文章中句子的一个隐状态,softmax函数表示逻辑回归函数、即非线性映射函数。
在步骤103中,通过各分类器对文章侧特征中的图像信息、扩充特征以及嵌入特征进行质量预测处理,得到各分类器对应待预测文章的质量评分。
在服务器得到嵌入特征后,可以对文章侧特征中的图像信息、扩充特征以及嵌入特征进行质量预测处理,得到待预测文章的质量评分,通过融合文本信息以及图像信息,使得得到的待预测文章的质量评分更加准确,并通过多个分类器对待预测文章进行质量预测处理,实现多模态特征的高效融合。
参见图4,图4是本发明实施例提供的一个可选的流程示意图,在一些实施例中,图4示出图3中步骤103可以通过图4示出的步骤1031-1032实现。其中,扩充特征包括作者侧特征和用户侧特征;在步骤1031中,从文章侧特征中的图像信息、作者侧特征中的画像信息、用户侧特征以及嵌入特征中进行多次差异化地采样;在步骤1032中,基于多个分类器对多次差异化采样的采样结果进行质量预测处理,得到每个分类器对应待预测文章的质量评分,其中每个分类器使用的采样结果不同。
作为示例,扩充特征包括作者侧特征和用户侧特征,其中作者侧特征包括作者画像信息,用户侧特征包括用户对待预测文章的行为反馈(点赞、评论等)等表征用户的偏好。可以先通过各分类器对文章侧特征中的图像信息、作者侧特征中的画像信息、用户侧特征以及嵌入特征进行采样处理,得到各分类器的采样特征,以降低处理过程中的噪声,再通过各分类器对各分类器的采样特征进行质量预测处理,以便后续根据各分类器对应待预测文章的质量评分,得到待预测文章的整体质量评分。
在一些实施例中,从文章侧特征中的图像信息、作者侧特征中的画像信息、用户侧特征以及嵌入特征中进行多次差异化地采样,包括:对于多个分类器中的任一第j个分类器,执行以下处理:通过第j个分类器对文章侧特征中的图像信息、作者侧特征中的画像信息、用户侧特征以及嵌入特征进行差异化采样处理,得到第j个分类器的抽取特征;通过第j个分类器对第j个分类器的抽取特征进行随机采样处理,得到第j个分类器的采样结果。
其中,0<j≤N,N表示分类器的总数量,且j、N为自然数。各分类器中的每一个分类器都随机抽取文章侧特征中的图像信息、作者侧特征中的画像信息、用户侧特征以及嵌入特征中的特征,即第j个分类器抽取文章侧特征中的图像信息、作者侧特征中的画像信息、用户侧特征以及嵌入特征中的至少一个特征,并将抽取的特征作为第j个分类器的抽取特征。在服务器得到第j个分类器的抽取特征后,第j个分类器还可以对抽取特征进行随机采样,并将采样得到的特征作为第j个分类器的采样特征(采样结果),以便后续根据采样特征进行质量预测处理,通过随机抽取、随机采样,可以降低处理过程中的噪声,提高质量预测的鲁棒性。
在步骤104中,根据各分类器的权重,对各分类器对应待预测文章的质量评分进行融合处理,得到待预测文章的整体质量评分。
在服务器得到各分类器对应待预测文章的质量评分后,还可以获取对应各分类器的权重,并根据各分类器的权重,融合对应各分类器所对应的待预测文章的质量评分,从而得到准确的待预测文章的整体质量评分,后续可以根据待预测文章的整体质量评分确定待预测文章的质量好坏。
在一些实施例中,根据各分类器的权重,对各分类器对应待预测文章的质量预测结果进行融合处理,得到待预测文章的整体质量评分,包括:根据每个分类器的权重,对多个分类器对应待预测文章的质量评分进行加权求和,得到待预测文章的整体质量评分。
通过多个分类器的加权求和,得到待预测文章中每一维特征的重要性,使得得到的待预测文章的整体质量评分融合了待预测文章中每一维特征,还可以对文章质量进行定量分析。
参见图5,图5是本发明实施例提供的一个可选的流程示意图,在一些实施例中,图5示出图3中,对多个分类器对应待预测文章的质量评分进行加权求和之前,还包括:在步骤105中,对于多个分类器中的任一第j个分类器,执行以下处理:通过第j个分类器对多个文章样本进行质量预测处理,得到第j个分类器对应多个文章样本的质量预测结果;根据多个文章样本的标注、以及第j个分类器对应多个文章样本的质量预测结果,确定第j个分类器的误差;根据第j个分类器的误差以及多个分类器的误差,确定第j个分类器的权重。
为了得到待预测文章的整体质量评分,需要获取各分类器的权重。其中,各分类器的权重是根据文章样本训练得到的,对于任一第j个分类器,可以通过对多个文章样本进行质量预测处理,从而得到第j个分类器对应多个文章样本的质量预测结果,其中质量预测结果可以为0到1之间的数值,约接近1,则说明第j个分类器预测出的待预测文章的质量越好。在得到第j个分类器对应多个文章样本的质量预测结果后,可以根据预先对文章样本的标注、以及第j个分类器对应多个文章样本的质量预测结果,确定第j个分类器的误差,其中标注可以为0(表征文章样本质量差)或1(表征文章样本质量好)。最后,可以根据第j个分类器的误差以及各分类器的误差,确定第j个分类器的权重,即分类器的误差越大,则分类器的权重越小。
在一些实施例中,根据多个文章样本的标注、以及第j个分类器对应多个文章样本的质量预测结果,确定第j个分类器的误差,包括:将多个文章样本的标注、与第j个分类器对应多个文章样本的质量预测结果的方差和的平均值,确定为第j个分类器的误差。
其中,确定第j个分类器的误差并不局限于方差和的平均值这一种数学形式,还可以是其他的数学形式,能够通过确定出的第j个分类器的误差来确定第j个分类器的权重即可,例如将多个文章样本的标注、与第j个分类器对应多个文章样本的质量预测结果的差值的绝对值的平均值,确定为第j个分类器的误差。
在一些实施例中,根据第j个分类器的误差以及多个分类器的误差,确定第j个分类器的权重,包括:对多个分类器的误差进行降序排序,将前M个分类器的误差确定为1;确定第j个分类器的权重为
Figure BDA0002393465670000181
其中,errj表示第j个分类器的误差,erri表示第i个分类器的误差,N表示分类器的总数量。
为了减少冗余的分类器,可以先对各分类器的误差进行降序排序,将前M个分类器的误差确定为1,以去除前M个分类器,不进行后续计算。当然,也可以不去除分类器,直接根据公式
Figure BDA0002393465670000182
确定每个分类器的权重。
至此已经结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的文章质量预测方法,下面继续说明本发明实施例提供的文章质量预测装置555中各个模块配合实现文章质量预测的方案。
获取模块5551,用于获取待预测文章的多模态特征,所述多模态特征包括文章侧特征、作者侧特征以及用户侧特征;转换模块5552,用于对所述文章侧特征中的文本信息、以及所述作者侧特征中的文本信息进行分句处理,对分句处理得到的多个句子中的每个句子进行编码,并将每个句子的编码结果进行融合处理,得到所述待预测文章的嵌入特征;预测模块5553,用于从所述文章侧特征中的图像信息、所述作者侧特征中的画像信息、所述用户侧特征以及所述嵌入特征中进行多次差异化地采样;基于多个分类器对所述多次差异化采样的采样结果进行质量预测处理,得到每个所述分类器对应所述待预测文章的质量评分,其中每个所述分类器使用的采样结果不同;融合模块5554,用于根据每个所述分类器的权重,对所述多个分类器对应所述待预测文章的质量评分进行融合处理,得到所述待预测文章的整体质量评分。
在一些实施例中,所述转换模块5552还用于针对所述多个句子中的每个句子执行以下处理:对所述句子中的每个词进行隐状态转换处理,得到所述每个词的隐状态;对所述每个词的隐状态进行注意力处理,得到所述每个词的注意力权重;基于所述每个词的注意力权重,对所述每个词的隐状态进行加权求和,得到所述句子的编码结果。
在一些实施例中,所述转换模块5552还用于对所述句子中的每个词进行前向编码处理,得到所述每个词的前向隐向量;对所述句子中的每个词进行后向编码处理,得到所述每个词的后向隐向量;将所述前向隐向量以及所述后向隐向量进行拼接处理,得到所述每个词的隐状态。
在一些实施例中,所述转换模块5552还用于对所述每个词的隐状态以及可学习参数进行双曲正切处理,得到处理结果;对所述处理结果进行非线性映射处理,得到所述每个词的注意力权重。
在一些实施例中,所述转换模块5552还用于对所述每个句子的编码结果进行隐状态转换处理,得到所述每个句子的隐状态;对所述每个句子的隐状态进行注意力处理,得到所述每个句子的注意力权重;基于所述每个句子的注意力权重,对所述每个句子的隐状态进行加权求和,得到所述待预测文章的嵌入特征。
在一些实施例中,所述转换模块5552还用于对所述每个句子的编码结果进行前向编码处理,得到所述每个句子的前向隐向量;对所述每个句子的编码结果进行后向编码处理,得到所述每个句子的后向隐向量;将所述前向隐向量以及所述后向隐向量进行拼接处理,得到所述每个句子的隐状态。
在一些实施例中,所述转换模块5552还用于对所述每个句子的隐状态以及可学习参数进行双曲正切处理,得到处理结果;对所述处理结果进行非线性映射处理,得到所述每个句子的注意力权重。
在一些实施例中,所述预测模块5553还用于对于所述多个分类器中的任一第j个分类器,执行以下处理:通过所述第j个分类器对所述文章侧特征中的图像信息、所述作者侧特征中的画像信息、所述用户侧特征以及所述嵌入特征进行差异化采样处理,得到所述第j个分类器的抽取特征;通过所述第j个分类器对所述第j个分类器的抽取特征进行随机采样处理,得到所述第j个分类器的采样结果;其中,0<j≤N,N表示所述分类器的总数量,且j、N为自然数。
在一些实施例中,所述文章质量预测装置555还包括:
确定模块5555,用于对于所述多个分类器中的任一第j个分类器,执行以下处理:通过所述第j个分类器对多个文章样本进行质量预测处理,得到所述第j个分类器对应所述多个文章样本的质量预测结果;根据所述多个文章样本的标注、以及所述第j个分类器对应所述多个文章样本的质量预测结果,确定所述第j个分类器的误差;根据所述第j个分类器的误差以及所述多个分类器的误差,确定所述第j个分类器的权重。
在一些实施例中,所述确定模块5555还用于将所述多个文章样本的标注、与所述第j个分类器对应所述多个文章样本的质量预测结果的方差和的平均值,确定为所述第j个分类器的误差。
在一些实施例中,所述确定模块5555还用于对所述多个分类器的误差进行降序排序,将前M个分类器的误差确定为1;确定所述第j个分类器的权重为
Figure BDA0002393465670000211
其中,所述errj表示所述第j个分类器的误差,所述erri表示所述第i个分类器的误差,N表示分类器的总数量。
本发明实施例还提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的文章质量预测方法,例如,如图3-5示出的文章质量预测方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EEP ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备(包括智能终端和服务器在内的设备)上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
文章质量预测模型是人工智能领域的重要应用之一,文章质量预测模型可以确定某一文章质量好坏。相关技术中,可以利用文章的文本以及封面图信息作为特征,并判断该文章是否具有各类低质问题,没有命中任意低质模型的文章则作为优质文章;还可以利用文章的用户行为反馈信息作为特征,构建机器学习分类模型进行判别文章质量。
然而,相关技术判别文章质量存在以下问题:1)使用文章的封面图、标题、正文等信息训练出来的低质识别模型,只适用于判别文章是否具有低质问题,而实际上,文章的质量不仅取决于是否具有低质问题,还取决于用户对文章的喜好程度等,因此,使用低质识别模型判别文章质量,难以把控文章内容的调性;2)文章质量容易受到多个因素的主观指标影响,在标注过程中容易出现较多偏差,训练数据噪声较大,采用单模型的方法容易对数据产生过拟合,使得模型泛化能力较差;3)仅采用用户反馈信息进行分类容易受到推荐策略的影响,对于精准推荐的文章,将会获得较丰富的后验行为,但是文章质量的预测应该是独立于推荐策略的,同时文章的用户行为反馈极容易受到标题党、低质擦边内容的影响,基于后验行为的分类容易产生误判;4)利用文章的文本信息得到的嵌入特征以及用户的行为反馈是多模态特征(由不同的元素或部分组成),嵌入特征的信息分布更均匀但维度更高,使用单一模型训练容易对某一类特征具有倾向,降低了其他特征的利用率。
为了解决上述问题,本发明实施例提出一种基于多模型融合的文章质量模型以及文章质量预测方法,采用分层注意力文本模型对文章标题及正文、发表者名称及简介等文本信息进行建模,引入用户行为反馈信息、文章作者信息进行决策模型构建,采用多模型融合方法进行特征与多模型(分类器)的融合,提高决策的鲁棒性与准确性,并引入主动学习技术提高样本获取效率。本发明实施例充分利用了文章的多模态特征,并能自适应地进行特征与多模型的权重融合,降低人工调参成本,使得决策模型更具有泛化能力。
本发明实施例采用多层注意力模型对文章的正文、标题、发表者名称、发表者简介等信息进行嵌入特征提取,有效解决对不同部分文本的融合问题,通过注意力机制学习各部分信息的重要性;采用多模型融合来引入用户行为反馈信息,降低人工调参成本,提高特征融合效率以及鲁棒性;采用主动学习技术,有效提高人工标注样本的利用效率;采用多模型的梯度提升决策树模型,提高了模型可解释性,可以通过模型训练结果对推荐场景中的质量影响因素进行定量分析。
本发明实施例的技术方案可应用于文章爆款池挖掘中。如图6所示,图6是本发明实施例提供的文章推荐入口示意图,当用户想要看看文章时,可以点击图6中的“看一看”按钮601,在用户点击“看一看”按钮601后,图6的界面跳转至图7,如图7所示,图7是本发明实施例提供的文章推荐主界面的示意图,用户可以通过滑动图7中的界面的方式浏览自己感兴趣的文章和视频,对于新用户和冷启动用户(没有服务使用记录的用户即冷启动用户),可以采用爆款池中的文章(通过本发明实施例预测出的质量好的文章)进行推荐。
新用户或者冷启动用户对产品的认知比较缺乏,因此文章的优质程度对用户的产品体验以及留存有重要的影响。文章的质量不仅取决于文章文本内容,还取决于其文章热度、作者的传播能力等。然而目前对文章质量的评估主要集中在于是否带有色情低俗、标题党、广告等低质识别上,难以衡量用户对文章的喜好程度。因此,本发明实施例结合文章各维度的信息对文章进行优质甄选,同时考虑了文章自身的文本和图片信息、用户行为反馈、作者信息等,并自适应地进行多模态特征的融合,为新用户或者冷启动用户推荐优质文章。
如图8所示,图8是本发明实施例提供的文章质量预测方法的流程示意图,该文章质量预测方法主要包含两个算法模块,分别是基于多层注意力机制的嵌入特征提取算法以及基于多模型(分类器)特征融合的算法。两个算法模块具体分为训练阶段(利用标注数据训练模型的参数)和应用阶段(利用训练好的模型提供在线服务)。以下具体说明算法流程:
第1步:从待预测文章(例如,MP文章(某公众号平台用户发表的文章))中提取文章侧特征,并提取与文章侧特征来源不同的账号侧、用户侧特征,其中文章侧特征包括正文文本、标题文本、封面图得分;作者侧特征包括作者昵称文本、简介文本、作者画像信息(如账号活跃度、权威度、类目置信度等);用户侧特征包括用户对文章的阅读、转发、评论等用户行为反馈。
第2步:训练基于多层注意力机制的嵌入特征提取模型,采用多层注意力机制,将文章中文章侧特征、作者侧特征(昵称、简介)转换为一维的实数型嵌入特征。
第3步:训练基于多模型特征融合模型,对嵌入特征、作者侧特征、用户侧特征融合,并进行文章质量预测。
第4步:根据主动学习策略对文章样本进行排序,挑选出决策置信度低的文章样本进行人工标注。
下面具体说明基于多层注意力机制的嵌入特征提取算法:
首先制定人工标注标准,对于未命中色情低俗、标题党、广告等低质条件,符合新用户或者冷启动用户调性,预期能被用户接受的内容进行优质标注,根据人工标注将文章区分为优质与非优质两个类别,得到优质与非优质文章各5万篇。具体标注规则如下:
如命中以下任意一条规则,则将文章标注为非优质文章,否则标注为优质文章:1、运势解读、彩票、佛学、移民、宗教、情感、医美、荐股、营销、谣言;2、嘻哈/纹身;3、用代号指代人名的娱乐八卦;4、小众活动、总结稿、演讲稿、大会分析、公告、招聘;5、低俗或擦边内容、语言粗俗内容;6、鸡汤堆砌、图文无关、画质模糊、错别字多;7、严重、模糊标题党;8、标题出现负能量字眼;文章出现竞品分享链接;非中英文内容;标题格式不规范;9、广告、推广文章;10、文章底部链接标题非优质;11、对国家领导人称呼不规范;封面图出现国家领导人头像;12、出现明令封杀的艺人相关详细的个人信息;13、纯视频、音频、图片、对多张图片解读说明过少、或文章字数过少;14、涉及传销;15、宣扬代孕或发布代孕信息和从事代孕服务;16、内容连载类;17、小众、专业领域类。
为了将文字形式的内容输入到分类模型中,首先对待预测文章进行分词,通过嵌入矩阵将分词后的文章标题、正文、作者昵称、简介转化为一维嵌入向量。通过基于多层注意力模型的嵌入特征提取模型,对词粒度的信息进行聚合得到句子嵌入特征,再对句子嵌入特征进行融合得到最终的文章嵌入特征,如图9所示,图9是本发明实施例提供的基于多层注意力模型的嵌入特征提取模型的示意图,嵌入特征最终会作为后续基于多模型特征融合的文章质量模型的输入。其中,本发明实施例中提取的文章嵌入特征,还可以替换为词频-逆文本频率指数(TF-IDF,Term Frequency-Inverse Document Frequency)等统计特征,嵌入特征提取模型可以替换为字符级卷积神经网络(Char-CNN)、快速文本分类(fastText)等浅层文本模型。
基于多层注意力模型的嵌入特征提取模型包括四个部分:1)词序列编码器;2)基于词级的注意力层;3)句子编码器;4)基于句子级的注意力层。整个基于多层注意力模型的嵌入特征提取模型由GRU或者LSTM网络和注意力机制构成,具体的网络结构公式如下:
如图9所示,对于文章标题、正文、作者昵称、作者简介,分别分成句子形式,例如句子1、句子2等,对于第一个双向GRU或者LSTM输入的是每各句子的每个词语wit,其第一个双向GRU或者LSTM的计算公式如下所示:
xit=Wewit,t∈[1,T] (1)
Figure BDA0002393465670000251
其中,xit表示中间向量,
Figure BDA0002393465670000252
表示xit的前向隐向量,
Figure BDA0002393465670000253
表示xit的后向隐向量,hit表示xit的隐状态,T表示某句子中词语的总数量。
对于基于词级的注意力层,其计算公式如下所示:
uit=tanh(Wwhit+bw) (3)
Figure BDA0002393465670000254
si=∑taithit (5)
其中,uit表示hit的隐层表示,ait表示hit经softmax函数处理后的归一化注意力权重,uw、Ww、bw表示可学习参数、即用于训练的参数,si表示第i个句子的句子嵌入特征(向量表示)。
句子级的注意力层与词级的注意力层类似,,其计算公式如下所示:
Figure BDA0002393465670000255
ui=tanh(Wshi+bs) (7)
Figure BDA0002393465670000261
v=∑iaihi (9)
其中,
Figure BDA0002393465670000262
表示si的前向隐向量,
Figure BDA0002393465670000263
表示si的后向隐向量,hi表示si的隐状态,L表示句子的总数量,ui表示hi的隐层表示,ai表示hi经softmax函数处理后的归一化注意力权重,us、Ws、bs表示可学习参数、即用于训练的参数,v表示文章的嵌入特征。
下面具体说明基于多模型特征融合的文章质量模型:
当提取了嵌入特征后,如图8所示,可以对嵌入特征、图像信息、以及作者侧画像特征、以及用户侧特征进行融合,从而提高模型的准确性与鲁棒性。
如图10所示,图10是本发明实施例提供的基于多模型特征融合的文章质量模型的示意图,文章质量模型可以以极端梯度提升(XGBoost,eXtreme Gra dient Boosting)算法作为基础模型,构造多个XGBoost作为基础分类器,每个分类器都对模型参数进行了扰动(将决策树深度、决策树个数、学习率设置为随机值),减少了人工调参的成本;每个XGBoost都对样本集合进行了随机采样,降低了人工标注过程中由于主观性带来的样本噪声的影响;每个XGBoost对嵌入特征、作者侧特征、用户侧特征的选择都是随机的,且同一个特征组内的特征也进行了随机采样,从而保证了特征的自适应融合与有效利用。其中,XGBoost分类器可以替换为Logistic回归(LR)、支持向量机(SVM,Support Vector Machine)、决策树等分类器,
随后利用人工标注的测试集对每个XGBoost模型进行误差计算,误差较大的模型进行剪枝,并将误差作为模型的权重,对模型得分(各XGBoost对应文章的质量评分)进行融合,从而得到最终的文章的整体质量评分。为提高人工标注的效率,可以根据主动学习策略对未标注样本集合进行排序,将文章质量模型预测过程中的非置信样本进行人工标注。其中,文章质量模型还可以采用投票方式进行多模型融合。
如图10所示,下面具体说明基于多模型特征融合的文章质量模型对文章预测的步骤如下:
第1步:随机选择一批文章,根据人工标注规则将每篇文章标注为优质(1)/非优质(0),并提取文章特征(嵌入特征、图像信息、以及作者侧画像特征、以及用户侧特征),得到人工标注文章集合,假设文章总数量为m,特征维度为n;
第2步:设置样本采样比例为k%,特征采样比例为p%,训练N个XGBo ost分类器。对于每个分类器,分别将决策树深度、决策树个数、学习率设置为随机值,随机选择m*k%个样本进行训练,随机选择嵌入特征、图像信息、以及作者侧画像特征、以及用户侧特征这个四个特征组中的1~4个,对于选择的特征组,随机抽取p%的特征进行XGBoost分类器的训练;
第3步:根据训练所得的N个XGBoost分类器,分别对人工标注文章集合进行预测,并计算其误差,针对XGBoost分类器,假设文章i的真实标记为yi,其中,yi=0或1,第j个XGBoost分类器对文章i的预测标记(质量预测结果)为pi,j,pi,j的取值范围为[0,1],则第j个XGBoost分类器的误差为
Figure BDA0002393465670000271
第4步:对XGBoost分类器的误差进行降序排序,将前M个分类器的误差设置为1,对于第j个XGBoost分类器,设置其权重为
Figure BDA0002393465670000272
第5步:对于一篇待预测文章k,若N个分类器的质量预测结果分别为p1,p2,...,pN,则待预测文章K最终的整体预测评分为
Figure BDA0002393465670000273
待预测文章k的置信度为ck=|fk-0.5|,其中,置信度阈值为cH,将置信度低于cH的文章标记为非置信样本,返回进行人工标注,并将标注结果添加到人工标注文章集合,迭代训练从而优化分类器,将置信度不低于cH的文章标记为置信样本。
综上,本发明实施例充分结合了文章侧特征、作者侧特征、用户侧特征,从多维度刻画了文章的信息,实现文章质量的准确评估;采用多模型融合的方法,实现了多模态特征的高效融合,自适应学习不同特征组的权重;多个XGBoost分类器的特征扰动减少了人工调参的成本;多模型融合过程中对样本的随机采样降低了人工标注中样本噪声所带来的影响,同时提高了模型的鲁棒性;多个XGBoost模型的样本权重加权融合后,得到每一维特征的重要性,可对文章质量提供定量分析。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (14)

1.一种文章质量预测方法,其特征在于,所述方法包括:
获取待预测文章的多模态特征,所述多模态特征包括文章侧特征、作者侧特征以及用户侧特征;
对所述文章侧特征中的文本信息、以及所述作者侧特征中的文本信息进行分句处理,对分句处理得到的多个句子中的每个句子进行编码,并将每个句子的编码结果进行融合处理,得到所述待预测文章的嵌入特征;
从所述文章侧特征中的图像信息、所述作者侧特征中的画像信息、所述用户侧特征以及所述嵌入特征中进行多次差异化地采样;
基于多个分类器对所述多次差异化采样的采样结果进行质量预测处理,得到每个所述分类器对应所述待预测文章的质量评分,其中每个所述分类器使用的采样结果不同;
根据每个所述分类器的权重,对所述多个分类器对应所述待预测文章的质量评分进行融合处理,得到所述待预测文章的整体质量评分。
2.根据权利要求1所述的方法,其特征在于,所述对分句处理得到的多个句子中的每个句子进行编码,包括:
针对所述多个句子中的每个句子执行以下处理:对所述句子中的每个词进行隐状态转换处理,得到所述每个词的隐状态;
对所述每个词的隐状态进行注意力处理,得到所述每个词的注意力权重;
基于所述每个词的注意力权重,对所述每个词的隐状态进行加权求和,得到所述句子的编码结果。
3.根据权利要求2所述的方法,其特征在于,所述对所述句子中的每个词进行隐状态转换处理,得到所述每个词的隐状态,包括:
对所述句子中的每个词进行前向编码处理,得到所述每个词的前向隐向量;
对所述句子中的每个词进行后向编码处理,得到所述每个词的后向隐向量;
将所述前向隐向量以及所述后向隐向量进行拼接处理,得到所述每个词的隐状态。
4.根据权利要求2所述的方法,其特征在于,所述对所述每个词的隐状态进行注意力处理,得到所述每个词的注意力权重,包括:
对所述每个词的隐状态以及可学习参数进行双曲正切处理,得到处理结果;
对所述处理结果进行非线性映射处理,得到所述每个词的注意力权重。
5.根据权利要求1所述的方法,其特征在于,所述将每个句子的编码结果进行融合处理,得到所述待预测文章的嵌入特征,包括:
对所述每个句子的编码结果进行隐状态转换处理,得到所述每个句子的隐状态;
对所述每个句子的隐状态进行注意力处理,得到所述每个句子的注意力权重;
基于所述每个句子的注意力权重,对所述每个句子的隐状态进行加权求和,得到所述待预测文章的嵌入特征。
6.根据权利要求5所述的方法,其特征在于,所述对所述每个句子的编码结果进行隐状态转换处理,得到所述每个句子的隐状态,包括:
对所述每个句子的编码结果进行前向编码处理,得到所述每个句子的前向隐向量;
对所述每个句子的编码结果进行后向编码处理,得到所述每个句子的后向隐向量;
将所述前向隐向量以及所述后向隐向量进行拼接处理,得到所述每个句子的隐状态。
7.根据权利要求5所述的方法,其特征在于,所述对所述每个句子的隐状态进行注意力处理,得到所述每个句子的注意力权重,包括:
对所述每个句子的隐状态以及可学习参数进行双曲正切处理,得到处理结果;
对所述处理结果进行非线性映射处理,得到所述每个句子的注意力权重。
8.根据权利要求1所述的方法,其特征在于,所述从所述文章侧特征中的图像信息、所述作者侧特征中的画像信息、所述用户侧特征以及所述嵌入特征中进行多次差异化地采样,包括:
对于所述多个分类器中的任一第j个分类器,执行以下处理:
通过所述第j个分类器对所述文章侧特征中的图像信息、所述作者侧特征中的画像信息、所述用户侧特征以及所述嵌入特征进行差异化采样处理,得到所述第j个分类器的抽取特征;
通过所述第j个分类器对所述第j个分类器的抽取特征进行随机采样处理,得到所述第j个分类器的采样结果;
其中,0<j≤N,N表示所述分类器的总数量,且j、N为自然数。
9.根据权利要求1-8任一所述的方法,其特征在于,所述对所述多个分类器对应所述待预测文章的质量评分进行加权求和之前,所述方法还包括:
对于所述多个分类器中的任一第j个分类器,执行以下处理:
通过所述第j个分类器对多个文章样本进行质量预测处理,得到所述第j个分类器对应所述多个文章样本的质量预测结果;
根据所述多个文章样本的标注、以及所述第j个分类器对应所述多个文章样本的质量预测结果,确定所述第j个分类器的误差;
根据所述第j个分类器的误差以及所述多个分类器的误差,确定所述第j个分类器的权重。
10.根据权利要求9所述的方法,其特征在于,所述根据所述多个文章样本的标注、以及所述第j个分类器对应所述多个文章样本的质量预测结果,确定所述第j个分类器的误差,包括:
将所述多个文章样本的标注、与所述第j个分类器对应所述多个文章样本的质量预测结果的方差和的平均值,确定为所述第j个分类器的误差。
11.根据权利要求9所述的方法,其特征在于,所述根据所述第j个分类器的误差以及所述多个分类器的误差,确定所述第j个分类器的权重,包括:
对所述多个分类器的误差进行降序排序,将前M个分类器的误差确定为1;
确定所述第j个分类器的权重为
Figure FDA0002393465660000041
其中,所述errj表示所述第j个分类器的误差,所述erri表示所述第i个分类器的误差,N表示分类器的总数量。
12.一种文章质量预测装置,其特征在于,所述装置包括:
获取模块,用于获取待预测文章的多模态特征,所述多模态特征包括文章侧特征、作者侧特征以及用户侧特征;
转换模块,用于对所述文章侧特征中的文本信息、以及所述作者侧特征中的文本信息进行分句处理,对分句处理得到的多个句子中的每个句子进行编码,并将每个句子的编码结果进行融合处理,得到所述待预测文章的嵌入特征;
预测模块,用于从所述文章侧特征中的图像信息、所述作者侧特征中的画像信息、所述用户侧特征以及所述嵌入特征中进行多次差异化地采样;基于多个分类器对所述多次差异化采样的采样结果进行质量预测处理,得到每个所述分类器对应所述待预测文章的质量评分,其中每个所述分类器使用的采样结果不同;
融合模块,用于根据每个所述分类器的权重,对所述多个分类器对应所述待预测文章的质量评分进行融合处理,得到所述待预测文章的整体质量评分。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的文章质量预测方法。
14.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至11任一项所述的文章质量预测方法。
CN202010122693.7A 2020-02-27 2020-02-27 文章质量预测方法、装置、电子设备及存储介质 Pending CN111368075A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010122693.7A CN111368075A (zh) 2020-02-27 2020-02-27 文章质量预测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010122693.7A CN111368075A (zh) 2020-02-27 2020-02-27 文章质量预测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111368075A true CN111368075A (zh) 2020-07-03

Family

ID=71206455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010122693.7A Pending CN111368075A (zh) 2020-02-27 2020-02-27 文章质量预测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111368075A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538912A (zh) * 2020-07-07 2020-08-14 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质
CN112131345A (zh) * 2020-09-22 2020-12-25 腾讯科技(深圳)有限公司 文本质量的识别方法、装置、设备及存储介质
CN112579729A (zh) * 2020-12-25 2021-03-30 百度(中国)有限公司 文档质量评价模型的训练方法、装置、电子设备和介质
CN112990939A (zh) * 2020-11-27 2021-06-18 中国银联股份有限公司 用于验证用户数据的方法、装置和计算机可读介质
CN112989074A (zh) * 2021-04-23 2021-06-18 腾讯科技(深圳)有限公司 多媒体信息推荐方法、装置、电子设备及存储介质
CN113407705A (zh) * 2021-06-18 2021-09-17 广东电网有限责任公司广州供电局 一种电力用户画像生成方法、装置、电子设备及存储介质
CN113469214A (zh) * 2021-05-20 2021-10-01 中国科学院自动化研究所 虚假新闻检测方法、装置、电子设备和存储介质
CN113837803A (zh) * 2021-09-24 2021-12-24 深圳闪回科技有限公司 一种基于多模型融合的二手手机回收价格预测算法
CN113971400A (zh) * 2020-07-24 2022-01-25 北京字节跳动网络技术有限公司 一种文本检测方法、装置、电子设备及存储介质
US11386305B2 (en) 2020-11-03 2022-07-12 Institute For Information Industry Device and method for detecting purpose of article
WO2022161470A1 (zh) * 2021-01-29 2022-08-04 腾讯科技(深圳)有限公司 内容的评价方法、装置、设备及介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538912A (zh) * 2020-07-07 2020-08-14 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质
CN113971400A (zh) * 2020-07-24 2022-01-25 北京字节跳动网络技术有限公司 一种文本检测方法、装置、电子设备及存储介质
CN113971400B (zh) * 2020-07-24 2023-07-25 抖音视界有限公司 一种文本检测方法、装置、电子设备及存储介质
CN112131345A (zh) * 2020-09-22 2020-12-25 腾讯科技(深圳)有限公司 文本质量的识别方法、装置、设备及存储介质
CN112131345B (zh) * 2020-09-22 2024-02-06 腾讯科技(深圳)有限公司 文本质量的识别方法、装置、设备及存储介质
TWI778442B (zh) * 2020-11-03 2022-09-21 財團法人資訊工業策進會 偵測文章目的之裝置及方法
US11386305B2 (en) 2020-11-03 2022-07-12 Institute For Information Industry Device and method for detecting purpose of article
CN112990939A (zh) * 2020-11-27 2021-06-18 中国银联股份有限公司 用于验证用户数据的方法、装置和计算机可读介质
CN112579729A (zh) * 2020-12-25 2021-03-30 百度(中国)有限公司 文档质量评价模型的训练方法、装置、电子设备和介质
CN112579729B (zh) * 2020-12-25 2024-05-21 百度(中国)有限公司 文档质量评价模型的训练方法、装置、电子设备和介质
WO2022161470A1 (zh) * 2021-01-29 2022-08-04 腾讯科技(深圳)有限公司 内容的评价方法、装置、设备及介质
CN112989074A (zh) * 2021-04-23 2021-06-18 腾讯科技(深圳)有限公司 多媒体信息推荐方法、装置、电子设备及存储介质
CN113469214A (zh) * 2021-05-20 2021-10-01 中国科学院自动化研究所 虚假新闻检测方法、装置、电子设备和存储介质
CN113407705A (zh) * 2021-06-18 2021-09-17 广东电网有限责任公司广州供电局 一种电力用户画像生成方法、装置、电子设备及存储介质
CN113837803A (zh) * 2021-09-24 2021-12-24 深圳闪回科技有限公司 一种基于多模型融合的二手手机回收价格预测算法

Similar Documents

Publication Publication Date Title
CN111368075A (zh) 文章质量预测方法、装置、电子设备及存储介质
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
US11893071B2 (en) Content recommendation method and apparatus, electronic device, and storage medium
CN110717017B (zh) 一种处理语料的方法
Li et al. Know more say less: Image captioning based on scene graphs
CN111008278B (zh) 内容推荐方法及装置
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN110325986B (zh) 文章处理方法、装置、服务器及存储介质
Song et al. “Is a picture really worth a thousand words?”: A case study on classifying user attributes on Instagram
Guo et al. LD-MAN: Layout-driven multimodal attention network for online news sentiment recognition
US20220237222A1 (en) Information determining method and apparatus, computer device, and storage medium
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN113158023A (zh) 基于混合推荐算法的公共数字生活精准分类服务方法
CN114461804B (zh) 一种基于关键信息与动态路由的文本分类方法、分类器及系统
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
CN114357204B (zh) 媒体信息的处理方法及相关设备
Meddeb et al. Personalized smart learning recommendation system for arabic users in smart campus
Wu et al. Sentimental visual captioning using multimodal transformer
CN115840796A (zh) 一种事件整合方法、装置、设备及计算机可读存储介质
CN113779245A (zh) 一种评论情感原因三元组抽取方法
TWI734085B (zh) 使用意圖偵測集成學習之對話系統及其方法
CN116980665A (zh) 一种视频处理方法、装置、计算机设备、介质及产品
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN114547435A (zh) 内容质量的识别方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221124

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518133

Applicant after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors

Applicant before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TA01 Transfer of patent application right