CN110866119A - 一种文章质量的确定方法、装置、电子设备及存储介质 - Google Patents

一种文章质量的确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110866119A
CN110866119A CN201911110359.3A CN201911110359A CN110866119A CN 110866119 A CN110866119 A CN 110866119A CN 201911110359 A CN201911110359 A CN 201911110359A CN 110866119 A CN110866119 A CN 110866119A
Authority
CN
China
Prior art keywords
word
word vector
determining
quality
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911110359.3A
Other languages
English (en)
Other versions
CN110866119B (zh
Inventor
朱朝悦
衡阵
马连洋
李超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911110359.3A priority Critical patent/CN110866119B/zh
Publication of CN110866119A publication Critical patent/CN110866119A/zh
Application granted granted Critical
Publication of CN110866119B publication Critical patent/CN110866119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文章质量的确定方法、装置、电子设备及存储介质,所述方法包括:获取待评分文章,确定待评分文章中的词对应的词向量序列,将词向量序列输入已训练好的注意力确定模型,确定出词向量序列中每个词向量对应的注意力向量,将词向量和与词向量对应的注意力向量进行拼接,得到带有注意力特征信息的词向量序列,将带有注意力特征信息的词向量序列输入已训练好的质量评分模型,得到待评分文章对应的质量等级集合,其中,质量等级集合中包括多个质量等级以及每个质量等级对应的概率值,根据质量等级集合确定待评分文章的目标质量等级。如此,可以节省文章质量分档工作人员的时间。

Description

一种文章质量的确定方法、装置、电子设备及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种文章质量的确定方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的飞速发展,各行各业产出的相关文章越来越多,音乐主题的,健康主题的,金融主题的,科技主题的,农业主题的文章比比皆是。然而,同一个主题下的文章的质量是五花八门的,这对想要阅读文章的人来说,挑选高质量文章是必要的。这是因为阅读者或者文章使用者的时间是有限的,大家都希望将有限的时间应用在高质量的文章上面,而不是浪费时间在一些质量相抵较低的文章上面。
现有技术中,对文章质量的分档工作还是由人来做,这不仅浪费了大量的时间资源,而且,分档工作人员的数量面对巨量的文章来说,是不值一提的。
发明内容
本申请实施例提供了一种文章质量的确定方法、装置、电子设备及存储介质,节省文章质量分档工作人员的时间。
一方面,本申请实施例提供了一种文章质量的确定方法,该方法包括:
获取待评分文章;
确定待评分文章中的词对应的词向量序列;
将词向量序列输入已训练好的注意力确定模型,确定出词向量序列中每个词向量对应的注意力向量;
将词向量和与词向量对应的注意力向量进行拼接,得到带有注意力特征信息的词向量序列;
将带有注意力特征信息的词向量序列输入已训练好的质量评分模型,得到待评分文章对应的质量等级集合;其中,质量等级集合中包括多个质量等级以及每个质量等级对应的概率值;
根据质量等级集合确定待评分文章的目标质量等级。
另一方面提供了一种文章质量的确定装置,该装置包括:
文章获取模块,用于获取待评分文章;
第一确定模块,用于确定待评分文章中的词对应的词向量序列;
第二确定模块,用于将词向量序列输入已训练好的注意力确定模型,确定出词向量序列中每个词向量对应的注意力向量;
拼接模块,用于将词向量和与词向量对应的注意力向量进行拼接,得到带有注意力特征信息的词向量序列;
集合获取模块,用于将带有注意力特征信息的词向量序列输入已训练好的质量评分模型,得到待评分文章对应的质量等级集合;其中,质量等级集合中包括多个质量等级以及每个质量等级对应的概率值;
第三确定模块,用于根据质量等级集合确定待评分文章的目标质量等级。
另一方面提供了一种电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或该指令集由处理器加载并执行以实现如上述的文章质量的确定方法。
另一方面提供了一种计算机可读存储介质,存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或该指令集由处理器加载并执行以实现如上述的文章质量的确定方法。
本申请实施例提供的文章质量的确定方法、装置、电子设备及存储介质,具有如下技术效果:
获取待评分文章,确定待评分文章中的词对应的词向量序列,将词向量序列输入已训练好的注意力确定模型,确定出词向量序列中每个词向量对应的注意力向量,将词向量和与词向量对应的注意力向量进行拼接,得到带有注意力特征信息的词向量序列,将带有注意力特征信息的词向量序列输入已训练好的质量评分模型,得到待评分文章对应的质量等级集合,其中,质量等级集合中包括多个质量等级以及每个质量等级对应的概率值,根据质量等级集合确定待评分文章的目标质量等级。如此,可以节省文章质量分档工作人员的时间。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种文章质量的确定方法的流程示意图;
图3是本申请实施例提供的一种文章质量的确定方法的流程示意图;
图4是本申请实施例提供的一种训练词向量确定模型的流程示意图;
图5是本申请实施例提供的一种文章质量的确定方法的流程示意图;
图6是本申请实施例提供的一种注意力确定模型的结构示意图;
图7是本申请实施例提供的一种训练质量评分模型的流程示意图;
图8是本申请实施例提供的一种确定每个样本文章对应的历史质量等级的方法的流程示意图;
图9是本申请实施例提供的一种联合模型的结构示意图;
图10是本申请实施例提供的一种文章质量的确定装置的结构示意图;
图11是本申请实施例提供的一种文章质量的确定方法的服务器的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,该示意图包括客户端100和服务器110,其中,服务器110接收到客户端100上传的待评分文章后,可以为该待评分文章进行评判,最终得到该待评分文章的目标质量等级的服务器。
具体的,服务器110获取客户端100发送的一篇待评分文章,确定该待评分文章中的词对应的词向量序列,并将词向量序列输入已训练好的注意力确定模型,确定出词向量序列中每个词向量对应的注意力向量。然后,服务器110可以将词向量和与词向量对应的注意力向量进行拼接,得到带有注意力特征信息的词向量序列。随后,将带有注意力特征信息的词向量序列输入已训练好的质量评分模型,得到待评分文章对应的质量等级集合。其中,该质量等级集合中包括多个质量等级以及每个质量等级对应的概率值。最后,服务器可以根据质量等级集合确定该待评分文章的目标质量等级。
本申请实施例中,图1所示的传输待评分文章的客户端100可以是用户的智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备;其中,智能可穿戴设备可以包括智能手环、智能手表、智能眼镜、智能头盔等。当然,客户端100并不限于上述具有一定实体的电子设备,其还可以为运行于上述电子设备中的软体,例如,客户端100可以为服务商提供给用户的网页页面或应用。
可选的,客户端100可以包括通过数据总线相连的显示屏、存储设备和处理器。其中,显示屏用于显示待评分文章,该显示屏可以是手机或者平板电脑的触摸屏等。该存储设备用于存储待评分文章或者或者其他数据资料等,该存储设备可以是客户端100的内存,也可以是智能媒体卡(smart media card)、安全数字卡(secure digital card)、快闪存储器卡(flash card)等储存设备。所述处理器可以是单核或多核处理器。
本申请实施例中,接收待评分文章的可以是如图1所示的服务器110,还可以是和服务器有同样的功能的其他计算机终端,或者类似的运算设备。进一步的,该服务器110可以替换为一个服务器系统、运算平台或者包含包含多台服务器的服务器集群。
举个例子,该服务器集群包含多台服务器,每台服务器可以承担该整个方案中不同的步骤,比如,第一服务器获取客户端发送的一篇待评分文章,确定该待评分文章中的词对应的词向量序列,并将该词向量序列发送给第二服务器。
第二服务器接收到词向量序列后,可以将词向量序列输入已训练好的注意力确定模型,确定出词向量序列中每个词向量对应的注意力向量,并将词向量和与词向量对应的注意力向量进行拼接,得到带有注意力特征信息的词向量序列。
第三服务器接收到第二服务器发送的带有注意力特征信息的词向量序列后,将其输入已训练好的质量评分模型,得到待评分文章对应的质量等级集合。最后,第三服务器可以根据质量等级集合确定该待评分文章的目标质量等级。
上述的服务器集群中每台服务器可以通过无线链路建立连接关系,还可以通过有线链路建立连接关系,可选的,每台服务器可以放置在同一个机房,还可以放置在不同的机房。
以下介绍本申请一种文章质量的确定方法的具体实施例,图2是本申请实施例提供的一种文章质量的确定方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法可以包括:
S201:获取待评分文章。
本申请实施例中,待评分文章可以是客户端的用户通过客户端上传的,待评分文章可以是该用户撰写的,通过上传该待评分文章,用户可以通过服务器的质量等级反馈使得用户了解自己撰写的文章的质量。
可选的,待评分文章还可以是从网上下载的,通过使用服务器得到该待评分文章的质量等级,从而在使用该待评分文章之前,对整个文章的质量有一个整体的把关。
可选的,待评分文章还可以是服务器所在的企业获得的文章,通过该服务器对待评分文章的质量等级的评判,可以决定该待评分文章将会分配至什么样的客户群体中。
S203:确定待评分文章中的词对应的词向量序列。
本申请实施例中,词向量序列是指排序好的词向量,词向量的排序和待评分文章的中词的前后顺序是相对应的。
一种获取待评分文章中的词向量序列的实施方式中,可以如图3所示,包括:
S2031:服务器可以将该待评分文章进行分割,得到多个语段序列。
一种可选的实施方式中,服务器将待评分文章进行分割,得到多个语段序列可以表示为将该待评分文章依据标点符号的个数划分,每个标点符号前的一段文字就是一个语段。
S2033:将该多个语段序列进行词分割,得到词序列;其中,该词序列中的每个词包括单个词或者词组合;
一种可选的实施方式中,服务器可以将每一个语段进行分割,得到词序列,每个词序列可以包括一个词或者一个词组合。比如“北京欢迎你们的到来”进行分割后可以得到“北京”、“欢迎”、“你们的”和“到来”,可选的,词序列中的每个词可以是“北京”、“欢迎”、“你们的”和“到来”。可选的,词序列的每个词可以是“北京欢迎”、“欢迎你们的”和“你们的到来”,这种分割可以对应于词向量概念设计的Bigram切分。可选的,词序列的每个词可以是“北京欢迎你们的”和“欢迎你们的到来”,这种分割可以对应于词向量概念设计的Trigram切分。
S2035:基于已训练好的词向量确定模型和该词序列确定该词向量序列。
服务器将得到的词向量输入已经训练好的词向量确定模型,从该词向量续联模型的输出端输出词向量序列。
其中,词向量确定模型是一种机器学习模型,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。机器学习可以分为有监督的机器学习,无监督的机器学习和半监督的机器学习。
下面基于一种有监督的机器学习介绍如何训练词向量确定模型,如图4所示,包括:
S401:服务器获取样本数据集合,其中,样本数据集合中包括多个词序列以及每个词序列对应的词向量序列;
S403:服务器对预设模型的参数进行初始化;
S405:服务器基于该预设模型对词序列进行词向量序列预测操作,得到预估词向量序列;
S407:服务器根据词序列对应的词向量序列和预估词向量序列确定损失函数;
S4011:服务器基于损失函数对该预设模型进行模型参量的更新,得到词向量确定模型。
在步骤S4011中,服务器可以基于大量的损失函数对预设模型的模型参量进行更新迭代,直到某一时刻,得到的损失函数在可接受的范围内。
另一种可选的实施例中,服务器可以不需要对待评分文章进行分割,得到多个语段序列,然后对多个语段序列进行词分割,得到词序列。而是将待评分文章直接输入词向量确定模型,可以从词向量确定模型中输出该待评分文章对应的词向量序列。该种情况下,在训练词向量确定模型时,上述的样本数据集合中就不能包含有多个词序列以及每个词序列对应的词向量序列,而应该包含多个样本文章和每个样本文章对应的词向量序列。
本申请实施例中,服务器可以基于Fasttext的模型架构来建立词向量确定模型的构架,这是因为FastText是一个快速的文本分类算法,在保持高精度的情况下加快了训练和测试速度,并且可训练词向量。FastText架构虽然只有1层神经网络,但是效果并不差,而且具备学习和预测速度快的优势,在工业界这点非常重要。FastText比一般的神经网络模型的训练和评估速度可以快几百倍。同时,虽然FastText专注于文本分类,但是FastText训练产生的词向量相对word2vec有一定的优势,FastText适合大型数据,能够在使用标准多核CPU的情况下10分钟内处理超过10亿个词汇,能将训练时间由数天缩短到几秒钟。另外,FastText相比word2vec更考虑了相似性。
本申请实施例中,服务器得到的待评分文章的词向量序列可以如下所示:
A∈Rl×d……公式(1)
A=[x1,x2,x3…xi…xl]T……公式(2)
其中,l表示待评分文章中词的个数,也就是词向量的个数,d表示每个词向量的维度,比如300维。
S205:将词向量序列输入已训练好的注意力确定模型,确定出词向量序列中每个词向量对应的注意力向量。
一种确定出词向量序列中每个词向量对应的注意力向量的实施方式中,可以如图5所示,包括:
S2051:服务器将需要确定注意力向量的词向量当做当前词向量;
假设一篇待评分文章经过词向量确定模型之后,得到包含有1000个词向量的词向量序列,可以以词向量序列中的前5个词向量为例进行阐述如何得到这5个词向量对应的注意力向量。
S2053:服务器利用该注意力确定模型确定出该当前词向量关联的词向量集合以及与该词向量集合对应的权重向量集合;该权重向量集合中的权重向量与该关联词向量集合中的词向量一一对应;
如图6所示,5个词向量输入进已训练好的注意力确定模型,该注意力确定模型是级联结构,服务器利用该注意力确定模型确定出该当前词向量关联的词向量集合以及与该词向量集合对应的权重向量集合,比如,服务器确定出词向量x3关联的词向量集合x1,x2,x4和x5,词向量集合对应的权重向量集合包括词向量x1对应的权重向量a3,1;词向量x2对应的权重向量a3,2;词向量x4对应的权重向量a3,4;词向量x5对应的权重向量a3,5
其中,注意力的权重向量的公式为:
Figure BDA0002272538870000101
Figure BDA0002272538870000102
上述的公式(3)和董事(4)可以通过softmax规范实现。
S2055:服务器根据该权重向量集合和该词向量集合确定该注意力向量。
在一种可选的实施例中,注意力向量的公式为:
gi=∑ai,j*xj……公式(5)
由此可得,词向量x3的注意力向量g3=x1*a3,1+x2*a3,2+x4*a3,4+x5*a3,5。其他的词向量x1,x2,x4和x5相对应的注意力向量都可以基于此种方法得到。
S207:将词向量和与词向量对应的注意力向量进行拼接,得到带有注意力特征信息的词向量序列。
在一种可选的实施例中,如图6最右边的结构所示,服务器将词向量和与词向量对应的注意力向量进行拼接,得到带有注意力特征信息的词向量序列。假设原有的词向量序列中每个词向量的维数为300维,注意力向量的维数为300维,则带有注意力特征信息的词向量序列中每个带有注意力特征信息的词向量的维数为600维。
本申请实施例中,服务器将注意力向量添加至词向量中,得到带有注意力特征信息的词向量序列,也就是在原有的每个词向量在带有本身的信息的情况下,还增加了上下文对该词的影响,也就是注意力。使得整篇文章在训练过程中,更突出频繁出现的关键词面,对后续文章的质量等级评分有重要意义。
S2011:将带有注意力特征信息的词向量序列输入已训练好的质量评分模型,得到待评分文章对应的质量等级集合。其中,质量等级集合中包括多个质量等级以及每个质量等级对应的概率值。
本申请实施例还提供一种质量评分模型的训练方法,如图7所示,包括:
S701:服务器获取样本数据集,样本数据集包括多个样本文章中每个样本文章对应的带有注意力特征信息的词向量序列和每个样本文章对应的历史质量等级;
其中,本申请实施例中的样本数据集中的样本文章可以存储在某个存储区域,该存储区域可以是一个区块链。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
S703:服务器构建预设机器学习模型,将预设机器学习模型确定为当前机器学习模型;
S705:服务器基于当前机器学习模型,对带有注意力特征信息的词向量序列进行质量等级预测操作,确定带有注意力特征信息的词向量序列对应的预测质量等级;
S707:服务器基于带有注意力特征信息的词向量序列对应的预测质量等级和历史质量等级,确定损失值;
S7011:当损失值大于预设阈值时,转至步骤S711;否则转至步骤S713;
S711:服务器基于损失值进行反向传播,对当前机器学习模型进行更新以得到更新后的机器学习模型,将更新后的机器学习模型重新确定为当前机器学习模型;转至步骤S705;
S713:服务器确定损失值小于或等于预设阈值时,将当前机器学习模型确定为质量评分模型。
在一种可选的实施方式中,还包括一种确定每个样本文章对应的历史质量等级的方法,如图8所示,包括:
S801:服务器遍历样本文章;
S803:服务器确定出样本文章的特征信息集合,特征信息集合包括语法评估信息,主题评估信息、错别字评估信息、逻辑词评估信息;
其中,语法评估信息主要针对语法的错误情况,主题评估信息主要针对题目和文章内容的相关情况、错别字评估信息主要针对错别字在整篇样本文章中的出现情况、逻辑词评估信息主要针对整篇文章的这个逻辑结构情况。
S805:服务器确定语法评估信息对应的第一权重,主题评估信息对应的第二权重,错别字评估信息对应的第三权重,逻辑词评估信息对应的第四权重;
S807:服务器根据语法评估信息、第一权重、主题评估信息、第二权重、错别字评估信息、第三权重、逻辑词评估信息和第四权重确定样本文章对应的历史质量等级。
具体的,服务器根据语法评估信息和第一权重得到第一乘积,根据主题评估信息和第二权重得到第二乘积,根据错别字评估信息和第三权重得到第三乘积,根据逻辑词评估信息和第四权重得到第四乘积,根据第一乘积、第二乘积、第三乘积和第四乘积之和确定历史质量等级。可选的,第一权重、第二权重、第三权重和第四权重之和等于一。
可选的,样本文章的历史质量等级可以分为1-10十个等级,或者分为优秀、良好、中等、及格、不及格五个等级。
本申请实施例中,上文的注意力确定模型和质量评分模型可以是两个独立的模型,可以应用在同一台服务器上,还可以应用在不同的服务器上。可选的,上文的注意力确定模型和质量评分模型可以是两个模块,或者说两个层结构,如图9所述的一种联合模型结构图,质量评分模型是一种神经卷积网络模型CNN的一种模型,包括输入层,多个卷积层,多个池化层和全连接层和输出层,而注意力确定模型被表示为注意力机制层,被添加于输入层之后,在卷积层和池化层之前。
一种可选的实施方式中,多个卷积层,多个池化层和全连接层串联连接,且多个卷积层和多个池化层间隔设置。
另一种可选的实施例中,还可以包括多个混合层,内个混合层可以由多条支路并联组成,多个卷积层,多个池化层、多个混合层和全连接层串联连接。
举个例子,假设该联合模型图的结构为输入层,注意力机制层,第一卷积层、第一池化层、第二卷积层、第二池化层……全连接层和输出层,基于上述1000个词向量的词向量序列,输入层接收到该1000个词向量的词向量序列后,将其输入注意力机制层,确定每个词向量的注意力向量,得到带有注意力特征信息的词向量序列。
第一卷积层接收到该带有注意力特征信息的词向量序列,对其进行卷积操作后,输出第一处理后的词向量序列;
第一池化层接收到第一处理后的词向量序列,对该第一处理后的词向量序列进行降维处理,得到第二处理后的词向量序列;
第二卷积层接收到该第二处理后的词向量序列,对其进行卷积操作后,输出第三处理后的词向量序列;
第二池化层接收到第三处理后的词向量序列,对该第一处理后的词向量序列进行降维处理,得到第四处理后的词向量序列;
……
全连接层将接收到的向量经过处理后,得到输出向量。
输出层获取输出向量,输出层包括Softmax分类模块,该分类模块确定待评分文章对应的质量等级集合,其中,质量等级集合中包括多个质量等级以及每个质量等级对应的概率值。
S211:根据质量等级集合确定待评分文章的目标质量等级。
本申请实施例中,假设质量等级集合中包括8、11、10三个质量等级,且8对应的概率值为0.35,11对应的概率值为0.62,10对应的概率值为0.03。则最后服务器确定带评分文章的目标质量等级为11。
综上,本申请涉及技术方案充分结合了FastText和加性注意力机制的优点,构建文章中词与词上下文信息相关的注意力,给予每个词不同的关注度,提升重要关键词的权重,不仅解决了FastText分类模型中信息丢失严重,注意力不集中等问题,同时相对于其他深度学习模型,分类效率上具有较好的提升。通过本技术方案,在信息流平台产品部上可以快速高效、准确地把待评分文章进行质量分类,从高到低对文章进行打分,为下游项目提供文章内容质量参考,更好定制相关的文章处理策略。
本申请实施例还提供了一种文章质量的确定装置,图10是本申请实施例提供的一种文章质量的确定装置的结构示意图,如图10所示,该装置包括:
文章获取模块1001用于获取待评分文章;
第一确定模块1002用于确定所述待评分文章中的词对应的词向量序列;
第二确定模块1003用于将所述词向量序列输入已训练好的注意力确定模型,确定出所述词向量序列中每个词向量对应的注意力向量;
拼接模块1004用于将所述词向量和与所述词向量对应的注意力向量进行拼接,得到带有注意力特征信息的词向量序列;
集合获取模块1005用于将所述带有注意力特征信息的词向量序列输入已训练好的质量评分模型,得到所述待评分文章对应的质量等级集合;其中,所述质量等级集合中包括多个质量等级以及每个质量等级对应的概率值;
第三确定模块1006用于根据所述质量等级集合确定所述待评分文章的目标质量等级。
在一种可选的实施方式中,该装置还包括:
第二确定模块具体用于:将需要确定注意力向量的词向量当做当前词向量;
利用所述注意力确定模型确定出所述当前词向量关联的词向量集合以及与所述词向量集合对应的权重向量集合;所述权重向量集合中的权重向量与所述关联词向量集合中的词向量一一对应;
根据所述权重向量集合和所述词向量集合确定所述注意力向量。
在一种可选的实施方式中,该装置还包括质量评分模型训练模块,用于:
获取样本数据集,所述样本数据集包括多个样本文章中每个样本文章对应的带有注意力特征信息的词向量序列和所述每个样本文章对应的历史质量等级;
构建预设机器学习模型,将所述预设机器学习模型确定为当前机器学习模型;
基于所述当前机器学习模型,对所述带有注意力特征信息的词向量序列进行质量等级预测操作,确定所述带有注意力特征信息的词向量序列对应的预测质量等级;
基于所述带有注意力特征信息的词向量序列对应的预测质量等级和历史质量等级,确定损失值;
当所述损失值大于预设阈值时,基于所述损失值进行反向传播,对所述当前机器学习模型进行更新以得到更新后的机器学习模型,将所述更新后的机器学习模型重新确定为所述当前机器学习模型;重复步骤:基于所述当前机器学习模型,对所述带有注意力特征信息的词向量序列进行质量等级预测操作,确定所述带有注意力特征信息的词向量序列对应的预测质量等级;
当所述损失值小于或等于所述预设阈值时,将所述当前机器学习模型确定为所述质量评分模型。
在一种可选的实施方式中,该装置还包括历史质量等级获取模块,用于:
遍历所述样本文章;
确定出所述样本文章的特征信息集合,所述特征信息集合包括语法评估信息,主题评估信息、错别字评估信息、逻辑词评估信息;
确定所述语法评估信息对应的第一权重,所述主题评估信息对应的第二权重,所述错别字评估信息对应的第三权重,所述逻辑词评估信息对应的第四权重;
根据所述所述语法评估信息、所述第一权重、所述主题评估信息、所述第二权重、所述错别字评估信息、所述第三权重、所述逻辑词评估信息和所述第四权重确定所述样本文章对应的历史质量等级。
在一种可选的实施方式中,该装置还包括:
第一确定模块,用于将所述待评分文章进行分割,得到多个语段序列;将所述多个语段序列进行词分割,得到词序列;所述词序列中的每个词包括单个词或者词组合;基于已训练好的词向量确定模型和所述词序列确定所述词向量序列。
本申请实施例中的装置与方法实施例基于同样地申请构思。
本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图11是本申请实施例提供的一种文章质量的确定方法的服务器的硬件结构框图。如图11所示,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1110(处理器1110可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1130,一个或一个以上存储应用程序1123或数据1122的存储介质1120(例如一个或一个以上海量存储设备)。其中,存储器1130和存储介质1120可以是短暂存储或持久存储。存储在存储介质1120的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1110可以设置为与存储介质1120通信,在服务器1100上执行存储介质1120中的一系列指令操作。服务器1100还可以包括一个或一个以上电源1160,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1140,和/或,一个或一个以上操作系统1121,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1140可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1100的通信供应商提供的无线网络。在一个实例中,输入输出接口1140包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1140可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图11所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1100还可包括比图11中所示更多或者更少的组件,或者具有与图11所示不同的配置。
本申请的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种文章质量的确定方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述文章质量的确定方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本申请提供的文章质量的确定方法、设备或存储介质的实施例可见,本申请中通过获取待评分文章,确定待评分文章中的词对应的词向量序列,将词向量序列输入已训练好的注意力确定模型,确定出词向量序列中每个词向量对应的注意力向量,将词向量和与词向量对应的注意力向量进行拼接,得到带有注意力特征信息的词向量序列,将带有注意力特征信息的词向量序列输入已训练好的质量评分模型,得到待评分文章对应的质量等级集合,其中,质量等级集合中包括多个质量等级以及每个质量等级对应的概率值,根据质量等级集合确定待评分文章的目标质量等级。如此,可以节省文章质量分档工作人员的时间。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文章质量的确定方法,其特征在于,所述方法包括:
获取待评分文章;
确定所述待评分文章中的词对应的词向量序列;
将所述词向量序列输入已训练好的注意力确定模型,确定出所述词向量序列中每个词向量对应的注意力向量;
将所述词向量和与所述词向量对应的注意力向量进行拼接,得到带有注意力特征信息的词向量序列;
将所述带有注意力特征信息的词向量序列输入已训练好的质量评分模型,得到所述待评分文章对应的质量等级集合;其中,所述质量等级集合中包括多个质量等级以及每个质量等级对应的概率值;
根据所述质量等级集合确定所述待评分文章的目标质量等级。
2.根据权利要求1所述的方法,其特征在于,所述确定出所述词向量序列中每个词向量对应的注意力向量,包括:
将需要确定注意力向量的词向量当做当前词向量;
利用所述注意力确定模型确定出所述当前词向量关联的词向量集合以及与所述词向量集合对应的权重向量集合;所述权重向量集合中的权重向量与所述关联词向量集合中的词向量一一对应;
根据所述权重向量集合和所述词向量集合确定所述注意力向量。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括训练得到所述质量评分模型的步骤;
所述训练得到所述质量评分模型包括:
获取样本数据集,所述样本数据集包括多个样本文章中每个样本文章对应的带有注意力特征信息的词向量序列和所述每个样本文章对应的历史质量等级;
构建预设机器学习模型,将所述预设机器学习模型确定为当前机器学习模型;
基于所述当前机器学习模型,对所述带有注意力特征信息的词向量序列进行质量等级预测操作,确定所述带有注意力特征信息的词向量序列对应的预测质量等级;
基于所述带有注意力特征信息的词向量序列对应的预测质量等级和历史质量等级,确定损失值;
当所述损失值大于预设阈值时,基于所述损失值进行反向传播,对所述当前机器学习模型进行更新以得到更新后的机器学习模型,将所述更新后的机器学习模型重新确定为所述当前机器学习模型;重复步骤:基于所述当前机器学习模型,对所述带有注意力特征信息的词向量序列进行质量等级预测操作,确定所述带有注意力特征信息的词向量序列对应的预测质量等级;
当所述损失值小于或等于所述预设阈值时,将所述当前机器学习模型确定为所述质量评分模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括确定所述每个样本文章对应的历史质量等级;
所述确定所述每个样本文章对应的历史质量等级,包括:
遍历所述样本文章;
确定出所述样本文章的特征信息集合,所述特征信息集合包括语法评估信息,主题评估信息、错别字评估信息、逻辑词评估信息;
确定所述语法评估信息对应的第一权重,所述主题评估信息对应的第二权重,所述错别字评估信息对应的第三权重,所述逻辑词评估信息对应的第四权重;
根据所述所述语法评估信息、所述第一权重、所述主题评估信息、所述第二权重、所述错别字评估信息、所述第三权重、所述逻辑词评估信息和所述第四权重确定所述样本文章对应的历史质量等级。
5.根据权利要求1所述的方法,其特征在于,所述确定所述待评分文章中的词对应的词向量序列,包括:
将所述待评分文章进行分割,得到多个语段序列;
将所述多个语段序列进行词分割,得到词序列;所述词序列中的每个词包括单个词或者词组合;
基于已训练好的词向量确定模型和所述词序列确定所述词向量序列。
6.根据权利要求1所述的方法,其特征在于,所述质量评分模型包含多个卷积层,多个池化层和全连接层;
所述多个卷积层,所述多个池化层和所述全连接层串联连接,且所述多个卷积层和所述多个池化层间隔设置。
7.一种文章质量的确定装置,其特征在于,所述装置包括:
文章获取模块,用于获取待评分文章;
第一确定模块,用于确定所述待评分文章中的词对应的词向量序列;
第二确定模块,用于将所述词向量序列输入已训练好的注意力确定模型,确定出所述词向量序列中每个词向量对应的注意力向量;
拼接模块,用于将所述词向量和与所述词向量对应的注意力向量进行拼接,得到带有注意力特征信息的词向量序列;
集合获取模块,用于将所述带有注意力特征信息的词向量序列输入已训练好的质量评分模型,得到所述待评分文章对应的质量等级集合;其中,所述质量等级集合中包括多个质量等级以及每个质量等级对应的概率值;
第三确定模块,用于根据所述质量等级集合确定所述待评分文章的目标质量等级。
8.根据权利要求7所述的装置,其特征在于,所述第二确定模块,具体用于:
将需要确定注意力向量的词向量当做当前词向量;
利用所述注意力确定模型确定出所述当前词向量关联的词向量集合以及与所述词向量集合对应的权重向量集合;所述权重向量集合中的权重向量与所述关联词向量集合中的词向量一一对应;
根据所述权重向量集合和所述词向量集合确定所述注意力向量。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-6任一所述的文章质量的确定方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-7任一所述的文章质量的确定方法。
CN201911110359.3A 2019-11-14 2019-11-14 一种文章质量的确定方法、装置、电子设备及存储介质 Active CN110866119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911110359.3A CN110866119B (zh) 2019-11-14 2019-11-14 一种文章质量的确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911110359.3A CN110866119B (zh) 2019-11-14 2019-11-14 一种文章质量的确定方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110866119A true CN110866119A (zh) 2020-03-06
CN110866119B CN110866119B (zh) 2021-06-15

Family

ID=69654037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911110359.3A Active CN110866119B (zh) 2019-11-14 2019-11-14 一种文章质量的确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110866119B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111737554A (zh) * 2020-06-16 2020-10-02 北京奇艺世纪科技有限公司 评分模型训练方法、电子书评分方法及装置
CN112099739A (zh) * 2020-11-10 2020-12-18 大象慧云信息技术有限公司 一种纸质发票分类批量打印方法及系统
CN112131482A (zh) * 2020-10-10 2020-12-25 腾讯科技(深圳)有限公司 一种时效确定方法和相关装置
CN113051928A (zh) * 2021-03-17 2021-06-29 卓尔智联(武汉)研究院有限公司 一种基于区块链的检测评论方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190258700A1 (en) * 2018-02-22 2019-08-22 Verint Americas Inc. System and method of highlighting influential samples in sequential analysis
CN110263162A (zh) * 2019-06-05 2019-09-20 阿里巴巴集团控股有限公司 卷积神经网络及其进行文本分类的方法、文本分类装置
CN110263350A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机可读存储介质和计算机设备
CN110263349A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 语料评估模型训练方法、装置、存储介质和计算机设备
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190258700A1 (en) * 2018-02-22 2019-08-22 Verint Americas Inc. System and method of highlighting influential samples in sequential analysis
CN110263350A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 模型训练方法、装置、计算机可读存储介质和计算机设备
CN110263349A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 语料评估模型训练方法、装置、存储介质和计算机设备
CN110263162A (zh) * 2019-06-05 2019-09-20 阿里巴巴集团控股有限公司 卷积神经网络及其进行文本分类的方法、文本分类装置
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488931A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111488931B (zh) * 2020-04-10 2023-04-07 腾讯科技(深圳)有限公司 文章质量评估方法、文章推荐方法及其对应的装置
CN111737554A (zh) * 2020-06-16 2020-10-02 北京奇艺世纪科技有限公司 评分模型训练方法、电子书评分方法及装置
CN112131482A (zh) * 2020-10-10 2020-12-25 腾讯科技(深圳)有限公司 一种时效确定方法和相关装置
CN112131482B (zh) * 2020-10-10 2023-12-08 腾讯科技(深圳)有限公司 一种时效确定方法和相关装置
CN112099739A (zh) * 2020-11-10 2020-12-18 大象慧云信息技术有限公司 一种纸质发票分类批量打印方法及系统
CN113051928A (zh) * 2021-03-17 2021-06-29 卓尔智联(武汉)研究院有限公司 一种基于区块链的检测评论方法、装置及电子设备
CN113051928B (zh) * 2021-03-17 2023-08-01 卓尔智联(武汉)研究院有限公司 一种基于区块链的检测评论方法、装置及电子设备

Also Published As

Publication number Publication date
CN110866119B (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN110866119B (zh) 一种文章质量的确定方法、装置、电子设备及存储介质
CN113094200B (zh) 一种应用程序的故障预测方法和装置
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN109471978B (zh) 一种电子资源推荐方法及装置
US11423307B2 (en) Taxonomy construction via graph-based cross-domain knowledge transfer
CN112215008A (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
US11030402B2 (en) Dictionary expansion using neural language models
CN106599194A (zh) 标签确定方法及装置
CN111400504A (zh) 企业关键人的识别方法和装置
CN113822315A (zh) 属性图的处理方法、装置、电子设备及可读存储介质
CN112785005A (zh) 多目标任务的辅助决策方法、装置、计算机设备及介质
US11036996B2 (en) Method and apparatus for determining (raw) video materials for news
CN113128196A (zh) 文本信息处理方法及其装置、存储介质
CN114297338B (zh) 文本匹配方法、装置、存储介质和程序产品
CN112287111B (zh) 一种文本处理方法和相关装置
CN114281984A (zh) 一种风险检测方法、装置、设备及计算机可读存储介质
CN113486659A (zh) 文本匹配方法、装置、计算机设备及存储介质
CN114036921A (zh) 一种政策信息匹配方法和装置
Jeong et al. Discovery of research interests of authors over time using a topic model
CN116957128A (zh) 业务指标预测方法、装置、设备和存储介质
Liu et al. Multimodal learning based approaches for link prediction in social networks
CN111459959B (zh) 用于更新事件集合的方法和装置
CN114138954A (zh) 用户咨询问题推荐方法、系统、计算机设备及存储介质
CN114330296A (zh) 新词发现方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021101

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221125

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518100

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.