CN114385892B - 一种文章等级识别方法、装置、服务器及存储介质 - Google Patents
一种文章等级识别方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN114385892B CN114385892B CN202011139293.3A CN202011139293A CN114385892B CN 114385892 B CN114385892 B CN 114385892B CN 202011139293 A CN202011139293 A CN 202011139293A CN 114385892 B CN114385892 B CN 114385892B
- Authority
- CN
- China
- Prior art keywords
- article
- features
- network
- identified
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000003860 storage Methods 0.000 title claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 57
- 230000008447 perception Effects 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims description 46
- 238000013528 artificial neural network Methods 0.000 claims description 32
- 230000007246 mechanism Effects 0.000 claims description 24
- 230000006399 behavior Effects 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 230000007787 long-term memory Effects 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 abstract description 14
- 238000013135 deep learning Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 10
- 238000004590 computer program Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004040 coloring Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008719 thickening Effects 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000013486 operation strategy Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文章等级识别方法、装置、服务器及存储介质,涉及深度学习技术,该方法包括:获取待识别文章;确定发布所述待识别文章的发布账号,获取所述发布账号对应的元数据信息;所述元数据信息包括所述发布账号的账号信息;由文章等级识别模型的特征提取网络根据所述待识别文章和所述元数据信息,得到所述待识别文章的排版特征、写作特征以及元数据特征;融合所述待识别文章的排版特征、写作特征以及元数据特征,得到文章识别特征;由所述文章等级识别模型的多层感知网络根据所述文章识别特征,预测所述待识别文章的质量等级。本发明提高了对于优质文章的识别效率和定位准确性,并缩短了优质文章被启用进入推荐池分发的时延。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种基于深度学习的文章等级识别方法、装置、服务器及存储介质。
背景技术
在互联网快速发展的时代,随着内容生产的门槛降低,在线文章的质量参差不齐,尽早定位出潜在的优质文章以便过滤掉冷门、低质的文章,对于信息推荐、信息检索以及信息主动推送等应用场景都具有重要意义。
相关技术中,判断在线优质文章的方法很大程度上依赖编辑人员和运营人员的个人经验,或者通过文章发布后的用户关注程度这一后验信息来进行人工筛选,不仅人力耗费量大、效率低,而且不同运营人员对于优质文章理解的标准不同导致优质文章的定位准确性差,增加了优质文章被启用进入推荐池分发的时延。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种文章等级识别方法、装置、服务器及存储介质。所述技术方案如下:
一方面,提供了一种文章等级识别方法,所述方法包括:
获取待识别文章;
确定发布所述待识别文章的发布账号,获取所述发布账号对应的元数据信息;所述元数据信息包括所述发布账号的账号信息;
由文章等级识别模型的特征提取网络根据所述待识别文章和所述元数据信息,得到所述待识别文章的排版特征、写作特征以及元数据特征;
融合所述待识别文章的排版特征、写作特征以及元数据特征,得到文章识别特征;
由所述文章等级识别模型的多层感知网络根据所述文章识别特征,预测所述待识别文章的质量等级。
另一方面,提供了一种文章等级识别装置,所述装置包括:
第一获取模块,用于获取待识别文章;
第一确定模块,用于确定发布所述待识别文章的发布账号,获取所述发布账号对应的元数据信息;所述元数据信息包括所述发布账号的账号信息;
特征提取模块,用于由文章等级识别模型的特征提取网络根据所述待识别文章和所述元数据信息,得到所述待识别文章的排版特征、写作特征以及元数据特征;
第一融合模块,用于融合所述待识别文章的排版特征、写作特征以及元数据特征,得到文章识别特征;
等级预测模块,用于由所述文章等级识别模型的多层感知网络根据所述文章识别特征,预测所述待识别文章的质量等级。
在一个可能的实施方式中,所述特征提取模块包括:
排版特征提取模块,用于将所述待识别文章输入所述特征提取网络的文章结构子网络,由所述文章结构子网络基于所述待识别文章对应的文字序列和图片序列,提取所述待识别文章的排版特征;
写作特征提取模块,用于将所述待识别文章输入所述特征提取网络的文本子网络,由所述文本子网络基于所述待识别文章中的文本信息,提取所述待识别文章的写作特征;
元数据特征提取模块,用于通过所述特征提取网络的元数据子网络对所述元数据信息进行网络嵌入处理,得到所述元数据特征。
在一个可能的实施方式中,所述排版特征提取模块包括:
第二获取模块,用于根据文字以及图片在所述待识别文章中的排列位置,从所述待识别文章中分别获取文字序列和图片序列;
第一提取子模块,用于通过所述文章结构子网络的长短期记忆网络根据所述文字序列和图片序列,提取所述待识别文章的全局特征;
第二提取子模块,用于通过所述文章结构子网络的卷积神经网络根据所述文字序列和图片序列,提取所述待识别文章的局部特征;
第二融合模块,用于融合所述待识别文章的全局特征和局部特征,得到所述待识别文章的排版特征。
在一个可能的实施方式中,所述写作特征提取模块包括:
长文本模块,用于根据所述待识别文章中的文本信息,得到所述待识别文章对应的长文本;
词语特征模块,用于由所述文本子网络的第一神经网络层基于自注意力机制提取所述长文本中各词语的词语特征;
句子特征模块,用于由所述文本子网络的第二神经网络层基于自注意力机制,根据所述长文本中各词语的词语特征得到所述长文本中各句子的句子特征;
文本特征模块,用于由所述文本子网络的第三神经网络层基于自注意力机制,根据所述长文本中各句子的句子特征得到所述长文本的文本特征;将所述长文本的文本特征作为所述待识别文章的写作特征。
在一个可能的实施方式中,所述第一确定模块在获取所述发布账号对应的元数据信息时,具体用于获取所述发布账号的账号信息;确定所述发布账号在预设历史时间段内的发布文章,获取所述发布文章对应的互动行为信息;其中,所述元数据信息包括所述账号信息和所述互动行为信息。
在一个可能的实施方式中,所述第一融合模块包括:
第一输入模块,用于将所述待识别文章的排版特征、写作特征以及元数据特征分别输入至所述文章等级识别模型的多层感知子网络;
第三获取模块,用于获取所述多层感知子网络的隐藏层的输出特征,得到分别与所述排版特征、写作特征以及元数据特征相对应的隐藏排版特征、隐藏写作特征以及隐藏元数据特征;
第三融合模块,用于融合所述隐藏排版特征、隐藏写作特征以及隐藏元数据特征,得到所述文章识别特征。
在一个可能的实施方式中,所述装置还包括训练模块,所述训练模块包括:
模型构建模块,用于构建待训练的文章等级识别模型,所述待训练的文章等级识别模型包括初始特征提取网络和初始多层感知网络;
样本获取模块,用于获取训练样本,所述训练样本包括样本文章和发布所述样本文章的发布账号对应的样本元数据信息;所述训练样本携带有参考质量等级标签;
样本特征提取模块,用于将所述训练样本输入所述初始特征提取网络,得到所述训练样本中样本文章的排版特征、写作特征以及元数据特征;
样本特征融合模块,用于融合所述样本文章的排版特征、写作特征以及元数据特征,得到样本文章识别特征;
参数调整模块,用于将所述样本文章识别特征作为所述初始多层感知网络的输入,得到输出的所述样本文章的训练质量等级;根据所述训练等级与所述参考质量等级标签调整所述初始特征提取网络和初始多层感知网络中的参数,直至满足训练结束条件得到所述文章等级识别模型。
另一方面,提供了一种服务器,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现上述文章等级识别方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的文章等级识别方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的各种可选实现方式中提供的文章等级识别方法。
本发明实施例通过文章等级识别模型的特征提取网络根据待识别文章以及发布该待识别文章的发布账号对应的元数据信息得到该待识别文章的排版特征、写作特征和元数据特征,并对该待识别文章的排版特征、写作特征和元数据特征进行融合,进而通过文章等级识别模型的多层感知网络根据融合后的特征预测该待识别文章的质量等级,不仅实现了对在线文章质量等级的自动定位识别,提高了对于优质文章的识别效率,而且由于排版特征、写作特征以及元数据特征属于待识别文章的先验信息,其相对于后验信息来说更加稳定可靠,从而在提高对于优质文章定位准确性的同时缩短了优质文章被启用进入推荐池分发的时延。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文章等级识别方法的系统架构示意图;
图2是本发明实施例提供的一种文章等级识别方法的流程示意图;
图3是本发明实施例提供的文章等级识别模型的模型结构示意图;
图4是本发明实施例提供的由文章结构子网络基于待识别文章对应的文字序列和图片序列提取该待识别文章的排版特征的一种可选方法的流程示意图;
图5是本发明实施例提供的由文本子网络基于待识别文章中的文本信息提取所述待识别文章的写作特征的一种可选方法的流程示意图;
图6是本发明实施例提供的多层感知网络MLP的结构示意图;
图7是本发明实施例提供的一种文章等级识别装置的结构框图;
图8是本发明实施例提供的一种服务器的硬件结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习的概念源于人工神经网络的研究,含多隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
多层感知器MLP(MLP-Multilayer Perceptron)是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上。
本发明实施例针对相关技术中对于在线优质文章的评判不仅存在人力耗费量大、效率低,而且优质文章的定位准确性差,优质文章被启用进入推荐池分发的时延长等问题,提出了一种基于深度学习的文章等级识别方法,该方法通过文章等级识别模型的特征提取网络根据待识别文章以及发布该待识别文章的发布账号对应的元数据信息得到该待识别文章的排版特征、写作特征和元数据特征,并对该待识别文章的排版特征、写作特征和元数据特征进行融合,进而通过文章等级识别模型的多层感知网络根据融合后的特征预测该待识别文章的质量等级,不仅实现了对在线文章质量等级的自动定位识别,提高了对于优质文章的识别效率,而且由于排版特征、写作特征以及元数据特征属于待识别文章的先验信息,其相对于后验信息来说更加稳定可靠,从而在提高对于优质文章定位准确性的同时缩短了优质文章被启用进入推荐池分发的时延。
请参阅图1,其所示为本发明实施例提供的一种文章等级识别方法的系统架构示意图,下面对图1中涉及的各个服务节点的功能进行介绍。
文章内容生产端,通过与上下行内容接口服务器的通讯获取该服务器的接口地址,然后将文章上传发布至上下行内容接口服务器,该文章内容生产端可以但不限于为移动终端或者后端接口API系统,发布的文章的来源可以是文章内容生产端本地存储的文章,也可以是web发布系统提供的文章。文章的类型可以包括PGC(Professional GeneratedContent)、UGC(User Generated Content)、PUGC(Professional User GeneratedContent)。其中,PGC是指专业生产内容(如视频网站等)或者专家生产内容(如微博等),用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化,也可以称为PPC(Professionally-produced Content);UGC是指用户原创内容,是伴随着以提倡个性化为主要特点的Web2.0概念而兴起的,它并不是某一种具体的业务,而是一种用户使用互联网的新方式,即由原来的以下载为主变成下载和上传并重;PUGC是以UGC形式,产出的相对接近PGC的专业内容。
上下行内容接口服务器,与文章内容生产端直接通讯获取其提交的文章,并确定该文章本身的原始信息,文章本身的原始信息可以包括文章标题、发布者、文章摘要、封面图、发布时间等等,将该文章以及原始信息存储至内容数据库中。
调度中心服务器,负责文章流转的整个调度过程,具体功能可以包括:接收上下行内容接口服务器发送的文章,从内容数据库中获取该文章的相关信息;调度图文重排服务器,对重复入库的文章进行标记和过滤;对机器无法处理的内容,比如政治敏感,安全问题内容需要人工审核的,调用人工审核系统进行人工审核的处理;调用优质图文识别服务器,评估确定每一个文章的优质情况,用于文章的挖掘和标记。
内容数据库,存储所有文章生产者发布的文章以及各文章的相关信息,该相关信息可以包括文件大小、封面图链接、码率、文件格式、标题、发布时间、作者、视频文件大小、视频格式、是否原创的标记或者首发,还可以包括人工审核过程中对文章的分类(例如可以包括一、二、三级别分类和标签信息,比如一篇讲解华为手机的文章,一级分科是科技,二级分类是智能手机,三级分类是国内手机,标签信息是华为mate30)。
图文排重服务器,与调度中心服务器通讯主要包括标题去重,封面图的图片去重,文章内容正文去重,通常是将文章标题和正文向量话,采用哈希及BERT向量,然后计算向量之间的距离比如欧式距离来确定是否重复;另外,图文排重服务器还与优质文章识别服务器通讯,当发现重复相似内容时,选择优质评价度等级更好的文章通过。
人工审核服务系统,可以读取内容数据库中文章本身的原始信息,其通常是一个业务复杂的基于web数据库开发的系统,主要是确保推送的文章符合当地法律和政策,比如对是否涉及色情、赌博和敏感性问题进行一轮初步过滤;审核的内容来自自媒体主动发布的包括用户反馈和举报内容的复核;审核的结果可以通过调度中心服务器写入内容数据库中。
优质文章特征建模服务器,可以执行对待训练的文章等级识别模型的训练过程,其训练用的训练样本可以从内容数据库以及统计分析服务器获取到,该文章等级识别模型为深度学习模型,关于待训练的文章等级识别模型的具体训练过程将在本发明实施例的后续部分中进行详细阐述。
优质文章识别服务器,接受调度中心服务器的调用,可以利用优质文章特征建模服务器训练好的文章等级识别模型对待识别文章进行优质情况的评判;另外,还可以利用训练好的文章等级识别模型为图文排重服务器提供排重类似文章的优质情况的评估,便于应用对应的去重策略,保留更优质的文章。关于利用训练好的文章等级识别模型对待识别文章进行优质情况的评估将在本发明实施例的后续部分进行详细阐述。
统计上报接口服务器,可以接收文章内容消费端的当前网络环境以及用户对信息流中文章的点击操作行为和信息流中文章的曝光数据的上报,并将上报的统计数据结果写入统计分析服务器。
统计分析服务器,接收统计数据结果的上报,为后续的统计分析和挖掘提供数据支撑,该统计数据结果中可以包括文章在预设时间段内的互动行为信息,例如评论数(包括正向评论和负向评论,此处主要为正向评论数)、分享次数、转发次数、点赞次数、收藏次数等等,可以是各互动行为信息的总数和平均数。
内容分发出口服务器,与推荐分发系统通讯,获取推荐分发系统的分发结果,并将该分发结果下发到文章内容消费端以展示在用户的信息流列表中;内容分发出口服务器通常是一组地域上就近部署在文章内容消费端附近的接入服务。
文章内容消费端,可以与上下行内容接口服务器通讯,根据下发的分发结果中文章的索引信息通过上下行内容接口服务器获取文章消费;另外,文章内容消费端还可以包括信息流及用户点击行为和网络环境上报模块,用于收集文章内容消费端的当前网络环境以及用户对信息流中文章的点击操作行为和信息流中文章的曝光数据,并上报给统计上报接口服务器。
需要说明的是,上述图1中各服务器的功能可以由一个服务器独立执行,也可以由多个服务器分别执行,服务器可以是一台独立的服务器,也可以是由多台服务器组成的服务器集群,还可以是云计算平台。
请参阅图2,其所示为本发明实施例提供的一种文章等级识别方法的流程示意图,该方法可以应用于图1系统中的优质文章识别服务器。需要说明的是,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:
S201,获取待识别文章。
其中,待识别文章为需要确定或者更新质量等级的在线文章,该文章的内容可以包括文字、图片、视频等。待识别文章可以来自互联网平台,例如可以是社交网络如微信、QQ中自媒体用户发布的原创内容文章,也可以是专业内容生产者(如视频网站)发布的文章。
质量等级可以通过用于指示文章质量等级的等级标签表征,该等级标签可以根据实际应用中对于文章质量的分级情况来确定,例如,文章质量等级包括优质级别和非优质级别两个等级时,相应的等级标签可以是1表示优质,0表示非优质;如果文章质量等级包括三个以上级别时,相应的等级标签可以是0~n,不同的等级标签可以代表不同的优质程度。
S203,确定发布所述待识别文章的发布账号,获取所述发布账号对应的元数据信息;
其中,所述元数据信息包括所述发布账号的账号信息,账号信息可以包括账号级别,在文章为首次发布的情形下,可以利用已有的账号级别结果作为识别文章等级的一个输出维度,由于文章为首次发布对于该文章的后验数据如用户对该文章的关注程度基本没有,而账号级别是该账号历史文章发布情况的沉淀,将账号级别作为识别文章等级的一个输出维度可以提高对于文章等级识别的准确性。
对于账号级别比如可以包括S-5,A-4,B-3,C-2,D-1五个级别,这个级别可以由平台按照自己的运营策略确定,形成一个头部账号白名单,比如民日报、南方周末、央视新闻等各种权威媒体账都是S级别,以及一些行业内部知名的大号比如陈翔六点半、二更、视觉中国等等原创账号也可以是S级别,另一些账号比如开眼、橘子娱乐、十点读书原创内容,在垂直领域也影响不错可以定位为4级账号等。另外,账号级别也不是一成不变,对于头部大号通常由运营策略确定,对于中部能够快速成长的账号,可以由其原创度、所发布文章在平台的分发情况以及用户投诉和举报反馈来共同确定。
在另一个可能的场景中,待识别文章还可以是在平台中具有一定分发量的文章,在该场景下,为了进一步提高对于待识别文章等级识别的准确性,元数据信息还可以包括互动行为信息,该互动行为信息为待识别文章对应发布账号在预设历史时间段内的发布文章所对应的互动行为信息,例如,互动行为信息可以包括评论数(包括正向评论和负向评论,此处可以主要为正向评论数)、分享次数、转发次数、点赞次数、收藏次数等等。
基于此,在一个可能的实施方式中,步骤S203在获取发布账号对应的元数据信息时可以包括以下:
(1)获取所述发布账号的账号信息,具体可为调用平台维护的账号级别名单,查找该名单中发布账号对应的账号级别以及得到账号信息,若在账号级别名单中未查找到当前发布账号的账号级别,可以采用默认级别作为该发布账号的账号信息,一般默认级别会低于账号级别名单中涉及的账号级别。
(2)确定所述发布账号在预设历史时间段内的发布文章,获取所述发布文章对应的互动行为信息。
元数据信息包括上述的账号信息和互动行为信息。其中,预设历史时间段可以根据实际应用中文章等级更新周期来确定,例如预设历史时间段可以是一周。互动行为信息可以包括评论数(包括正向评论和负向评论,此处可以主要为正向评论数)、分享次数、转发次数、点赞次数、收藏次数,互动行为信息还可以包括各互动行为数的总数以及平均数。
S205,由文章等级识别模型的特征提取网络根据所述待识别文章和所述元数据信息,得到所述待识别文章的排版特征、写作特征以及元数据特征。
实际应用中,优质文章一般排版工整美观、图文并茂、内容聚合、句法和用词高雅,而低质文章一般排版混乱、内容形式单一以及写作逻辑混乱不清,鉴于此,本发明实施例将文章的排版特征和写作特征分别作为识别文章等级的另两个维度来提高文章等级识别的准确性。
其中,排版特征可以包括为以下特征:图文比例(文章中图片数量与纯文字数量之比)、文字格式比例(如文字强调作用的加粗、斜体、上色等元素)、图片清晰度(可以是文章中各个单独图片清晰度值的平均或中位数)、图片规格混乱度、版式美观度等。一般优质文章通常具备合适的图文比例,具有文字强调作用的加粗、斜体、上色等元素,具有清晰的图片,具有统一的图片规格,具有专业的排版规格及漂亮的修饰等。写作特征主要包括文章中的写作逻辑和写作句法。
本发明实施例基于深度学习来实现对于文章等级的准确识别,通过预先训练好的深度学习模型即文章等级识别模型进行特征提取,并基于提取的特征预测待识别文章的等级标签,通过等级标签可以表征文章的优质情况。
请参阅图3,其所示为本发明实施例提供的文章等级识别模型的模型结构示意图,其中,用于实现特征提取的特征提取网络包括文章结构子网络、文本子网络和元数据子网络。文章结构子网络用于提取待识别文章的排版特征,文本子网络用于提取待识别文章的写作特征,元数据子网络用于提取元数据特征。
结合图3的文章等级识别模型,上述步骤S205在实施时可以包括以下步骤:
(1)将待识别文章输入特征提取网络的文章结构子网络,由文章结构子网络基于待识别文章对应的文字序列和图片序列,提取该待识别文章的排版特征。
具体的实施中,由文章结构子网络基于待识别文章对应的文字序列和图片序列,提取该待识别文章的排版特征可以采用图4所示的方法,包括以下步骤:
S401,根据文字以及图片在待识别文章中的排列位置,从待识别文章中分别获取文字序列和图片序列。
本发明实施例中,在从待识别文章中获取文字序列和图片序列时,基于文字以及图片在该待识别文章中的排列位置,从而文字序列中的文字会有主标题、小标题、段落文本的区分,图片序列中图片与文字序列中的文字还会有相对位置关系,另外,该图片序列中还会考虑各图片的大小尺寸。
S403,通过文章结构子网络的长短期记忆网络根据上述文字序列和图片序列,提取该待识别文章的全局特征。
S405,通过所述文章结构子网络的卷积神经网络根据所述文字序列和图片序列,提取所述待识别文章的局部特征。
S407,融合所述待识别文章的全局特征和局部特征,得到所述待识别文章的排版特征。
其中,全局特征可以反映待识别文章的整体特点,局部特征可以反映待识别文章的局部特点。具体的实施可以通过长短期记忆网络(Long Short-Term Memory,LSTM)根据文字序列和图片序列提取全局特征,通过卷积神经网络(Convolutional NeuralNetworks,CNN)根据文字序列和图片序列提取局部特征。其中,LSTM是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。CNN是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一,具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)。
相应的,文章结构子网络中可以包括并列的长短期记忆网络和卷积神经网络,文字序列和图片序列均分别作为长短期记忆网络和卷积神经网络的输入,并在输入至各网络时交替进行。可以理解的,全局特征和局部特征均可以为向量,通过拼接全局特征和局部特征即可以得到待识别文章的排版特征。
(2)将待识别文章输入特征提取网络的文本子网络,由文本子网络基于待识别文章中的文本信息,提取待识别文章的写作特征。
文本子网络可以为基于自注意力机制的分层神经网络,注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征,因而被广泛用于自然语言处理任务,而自注意力机制(Self-Attention)是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。
上述的分层神经网络如图3所示可以包括基于自注意力机制的第一神经网络、基于自注意力机制的第二神经网络和基于自注意力机制的第三神经网络,其中,第一神经网络可以为来自变换器的双向编码器表征量(Bidirectional Encoder RepresentationsfromTransformers,BERT)网络,第二神经网络和第三神经网络可以为Transformer网络。BERT网络结构是基于双向变换器(Transformer)结构的编码器(Encoder),它摒弃了之前常用的自然语言处理深度学习模型结构,采用全attention的构造方法,即transformer结构,双向transformer结构保证了模型能学到上文的信息和下文的信息,通过这种结构的编码器,BERT网络可以学习到文本的语义表示。
基于此,在由文本子网络基于所述待识别文章中的文本信息,提取所述待识别文章的写作特征时可以包括图5中的以下步骤:
S501,根据所述待识别文章中的文本信息,得到所述待识别文章对应的长文本。
此处的长文本包括文章中的所有文本即文字,且不区分标题以及段落文本。考虑到实际应用中对于模型性能的要求,当长文本的长度超过预设长度时可以对该长文本进行截断,从而将该长文本调整为多个子文本。其中,文本的长度可以用文本中字的数量来表征,那么预设长度可以为预设字数量,例如预设字数量可以为1500字,那么当上述的长文本包含的字数量超过1500字时,可以对该长文本进行截断,使得输入至文本子网络的长文本不超过预设长度。
S503,由文本子网络的第一神经网络层基于自注意力机制提取长文本中各词语的词语特征。
S505,由文本子网络的第二神经网络层基于自注意力机制,根据长文本中各词语的词语特征得到所述长文本中各句子的句子特征。
S507,由文本子网络的第三神经网络层基于自注意力机制,根据所述长文本中各句子的句子特征得到所述长文本的文本特征,将所述长文本的文本特征作为所述待识别文章的写作特征。
由于文章是由句子和段落构成,句子又是由词语构成,本发明实施例对于待识别文章的长文本先采用BERT网络将该长文本中的各个词语映射为词语特征,然后结合各词语特征采用Transformer网络得到句子级的句子特征,并进一步结合各句子特征采用Transformer网络得到篇章级的文本特征,从而充分提取了长文本中的写作逻辑和句法特征,将该文本特征作为待识别文章的写作特征,可以提高对待识别文章的文章等级识别的准确性。
(3)通过所述特征提取网络的元数据子网络对所述元数据信息进行网络嵌入处理,得到所述元数据特征。
具体的,如图3所示,元数据子网络可以包括Embedding layer和Transformer网络,通过Embedding layer将元数据信息转换为嵌入向量,进而将该嵌入向量输入至Transformer网络中利用Transformer网络的自注意机制得到该元数据信息的元数据特征。
可以理解的,本发明实施例中的上述排版特征、写作特征以及元数据特征均可以体现为向量形式。
S207,融合所述待识别文章的排版特征、写作特征以及元数据特征,得到文章识别特征。
实际应用中,可以拼接待识别文章的排版特征、写作特征以及元数据特征,具体的拼接顺序可以不受限制,也即可以是排版特征-写作特征-元数据特征顺序拼接,也可以是元数据特征-写作特征-排版特征,还可以是元数据特征-排版特征-写作特征等,拼接后的特征作为文章识别特征。
S209,由所述文章等级识别模型的多层感知网络根据所述文章识别特征,预测所述待识别文章的质量等级。
在一个可能的实施方式中,在步骤S207融合待识别文章的排版特征、写作特征以及元数据特征得到文章识别特征时可以结合多层感知子网络的隐藏层输出,也即文章等级识别模型在特征提取网络与多层感知网络之间还可以包括多层感知子网络,该多层感知子网络用于接收特征提取网络输出的排版特征、写作特征和元数据特征,并进行处理,从而在融合时是对该处理结果即隐藏层输出的融合。
具体的,如图3所示,在文章结构子网络、文本子网络和元数据子网络的输出端均配置一个多层感知子网络,文章结构子网络输出的排版特征作为其对应的多层感知子网络的输入,文本子网络输出的写作特征作为其对应多层感知子网络的输入,元数据子网络输出的元数据特征作为其对应多层感知子网络的输入,对于各多层感知子网络获取的是隐藏层的输出,从而得到隐藏排版特征、隐藏写作特征和隐藏元数据特征,然后对隐藏排版特征、隐藏写作特征和隐藏元数据特征进行拼接处理,将拼接处理后的特征作为文章识别特征。
多层感知网络或者多层感知子网络即为MLP(Multilayer Perceptron),也叫人工神经网络(ANN,Artificial Neural Network),在输入层和输出层之间可以有多个隐藏层,本发明实施例中可以采用只有一个隐藏层的MLP,也即MLP为三层结构,如图6所示,MLP中层与层之间是全连接的,最前层是输入层,中间是隐藏层,最后是输出层。
其中,隐藏层其神经元与输入层是全连接的,假设输入层用向量X表示,则隐藏层的输出就是f(W1X+b1),W1是权重(也叫连接系数),b1是偏置,函数f可以是常用的sigmoid函数或者tanh函数,这里选择sigmoid函数作为激活函数。隐藏层到输出层可以看成是一个类别的逻辑回归,也即softmax回归,所以输出层的输出就是softmax(W2X1+b2),X1表示隐藏层的输出f(W1X+b1)。softmax适用于多分类问题中对每一个类别的概率判断,softmax的函数公式如下:
其中,代表第j类别的概率,总共有k个类别,e表示自然对数的常数,/>表示第j类别的输出值。
本发明实施例中对于每个多层感知子网络输出选择的是隐藏层的向量,该向量是一个K维的低纬稠密向量,例如可以采用512维。各多层感知子网络的输出经过融合后得到用于进行文章等级识别的文章识别特征,该文章识别特征进一步作为多层感知网络的输入,由多层感知网络基于该输入预测待识别文章的质量等级。如图3所示,文章等级识别模型的多层感知网络可以输出表征待识别文章质量等级的等级标签(Label)。以等级标签包括0和1为例,当预测的等级标签为0时表示待识别文章为非优质文章,当预测的等级标签为1时表示待识别文章为优质文章。
当然,实际应用中,等级标签还可以包括更多个等级,多层感知网络还可以输出待识别文章属于各个等级的概率值。
文章等级识别模型中的特征提取网络使得本发明实施例的文章等级识别模型有了强有力的处理离散特征的能力,而MLP又使得文章等级识别模型有强大的非线性拟合能力,二者的配合使用,使得模型的拟合能力大大超越了使用0-1离散特征的逻辑回归(Logistic Regression,LR)模型,有利于提高对于文章等级识别的准确性。
下面对本发明实施例中文章等级识别模型的训练进行介绍,对于文章等级识别模型的训练可以如图1所示由优质文章特征建模服务器执行,也可以由图1中的优质文章识别服务器自行执行,也即优质文章特征建模服务器的功能与优质文章识别服务器的功能可以部署在同一个服务器中。文章等级识别模型的训练过程可以包括以下步骤:
(1)构建待训练的文章等级识别模型,该待训练的文章等级识别模型包括初始特征提取网络和初始多层感知网络。
具体的,该待训练的文章等级识别模型的结构可以参见前述图3所示的模型结构示意图。
(2)获取训练样本,所述训练样本包括样本文章和发布所述样本文章的发布账号对应的样本元数据信息,所述训练样本携带有参考质量等级标签。
其中,样本元数据可以包括账号信息和互动行为信息。参考质量等级标签为专业标注人员对样本文章标注的质量等级,例如可以是标识优质以及非优质的标签,还可以根据实际需要标注更多质量等级的等级标签。
(3)将所述训练样本输入所述初始特征提取网络,得到所述训练样本中样本文章的排版特征、写作特征以及元数据特征。
对于样本文章的排版特征、写作特征以及元数据特征的提取具体细节与模型应用中的预测相类似,可以参见本发明实施例前述图2所示方法实施例中的相关内容,在此不再赘述。
(4)融合所述样本文章的排版特征、写作特征以及元数据特征,得到样本文章识别特征。
对于样本文章的排版特征、写作特征以及元数据特征的融合过程与模型应用中的预测相类似,可以参见本发明实施例前述图2所示方法实施例中的相关内容,在此不再赘述。
(5)将所述样本文章识别特征作为所述初始多层感知网络的输入,得到输出的所述样本文章的训练质量等级。
(6)根据所述训练质量等级与所述参考质量等级标签调整所述初始特征提取网络和初始多层感知网络中的参数,直至满足训练结束条件得到所述文章等级识别模型。
具体的,可以使用预设损失函数基于训练质量等级和参考质量等级标签计算损失值,然后按照最小化该损失值的方向调整初始特征提取网络和初始多层感知网络中的参数直至满足训练结束条件完成文章等级识别模型的训练得到文章等级识别模型。该训练结束条件可以是损失值达到预设损失阈值,还可以是迭代次数达到预设的迭代次数。
其中,预设损失函数可以是交叉熵损失函数,以文章等级识别模型用于预测文章是否为优质文章为例,其预测结果包括优质以及非优质两个质量等级,参考质量等级标签可以包括表征优质的等级标签和表征非优质的等级标签,则预设损失函数可以使用如下所示的二分类交叉熵函数:
其中,C表示损失值;y表示样本文章的参考质量等级标签,优质为1,非优质为0;a表示样本文章的预测质量等级,可以为0-1之间的概率值;n表示用于训练样本的数量。
可以理解的,当样本文章有更多个质量等级时,可以采用多类别交叉熵损失函数(categorical_crossentropy),具体可以根据实际需要来选择不同的损失函数。
由本发明实施例的上述技术方案可见,本发明实施例,不仅实现了对在线文章等级的自动定位识别,提高了对于优质文章的识别效率,而且由于排版特征、写作特征以及元数据特征属于待识别文章的先验信息,其相对于后验信息来说更加稳定可靠,从而在提高对于优质文章定位准确性的同时缩短了优质文章被启用进入推荐池分发的时延。
本发明实施例能够将优质文章特征进行算法模型沉淀,统一量化的标准,并且对优质文章的作者能够进行定向的辅助和加权,好的文章能够获取到更多的流量;同时对内容的运营效率也能够带来很大提升,在推送和专题内容环境,都可以通过文章等级识别模型来控制和保证文章的质量;同时文章生产者在正式发布文章之前还可以基于本发明实施例的文章等级识别方法来确定待发布文章的优质与否,在识别结果为非优质的情况下还可以对待发布文章进行整体修订,从而在文章分发前引导和帮助文章创作者创造更多优质的文章,使整个内容生态进入良性的循环。
与上述几种实施例提供的文章等级识别方法相对应,本发明实施例还提供一种文章等级识别装置,由于本发明实施例提供的文章等级识别装置与上述几种实施例提供的文章等级识别方法相对应,因此前述文章等级识别方法的实施方式也适用于本实施例提供的文章等级识别装置,在本实施例中不再详细描述。
请参阅图7,其所示为本发明实施例提供的一种文章等级识别装置的结构示意图,该装置具有实现上述方法实施例中文章等级识别方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。如图7所示,该装置可以包括:
第一获取模块710,用于获取待识别文章;
第一确定模块720,用于确定发布所述待识别文章的发布账号,获取所述发布账号对应的元数据信息;所述元数据信息包括所述发布账号的账号信息;
特征提取模块730,用于由文章等级识别模型的特征提取网络根据所述待识别文章和所述元数据信息,得到所述待识别文章的排版特征、写作特征以及元数据特征;
第一融合模块740,用于融合所述待识别文章的排版特征、写作特征以及元数据特征,得到文章识别特征;
等级预测模块750,用于由所述文章等级识别模型的多层感知网络根据所述文章识别特征,预测所述待识别文章的质量等级。
在一个可能的实施方式中,特征提取模块730可以包括:
排版特征提取模块,用于将所述待识别文章输入所述特征提取网络的文章结构子网络,由所述文章结构子网络基于所述待识别文章对应的文字序列和图片序列,提取所述待识别文章的排版特征;
写作特征提取模块,用于将所述待识别文章输入所述特征提取网络的文本子网络,由所述文本子网络基于所述待识别文章中的文本信息,提取所述待识别文章的写作特征;
元数据特征提取模块,用于通过所述特征提取网络的元数据子网络对所述元数据信息进行网络嵌入处理,得到所述元数据特征。
在一个可能的实施方式中,排版特征提取模块可以包括:
第二获取模块,用于根据文字以及图片在所述待识别文章中的排列位置,从所述待识别文章中分别获取文字序列和图片序列;
第一提取子模块,用于通过所述文章结构子网络的长短期记忆网络根据所述文字序列和图片序列,提取所述待识别文章的全局特征;
第二提取子模块,用于通过所述文章结构子网络的卷积神经网络根据所述文字序列和图片序列,提取所述待识别文章的局部特征;
第二融合模块,用于融合所述待识别文章的全局特征和局部特征,得到所述待识别文章的排版特征。
在一个可能的实施方式中,写作特征提取模块可以包括:
长文本模块,用于根据所述待识别文章中的文本信息,得到所述待识别文章对应的长文本;
词语特征模块,用于由所述文本子网络的第一神经网络层基于自注意力机制提取所述长文本中各词语的词语特征;
句子特征模块,用于由所述文本子网络的第二神经网络层基于自注意力机制,根据所述长文本中各词语的词语特征得到所述长文本中各句子的句子特征;
文本特征模块,用于由所述文本子网络的第三神经网络层基于自注意力机制,根据所述长文本中各句子的句子特征得到所述长文本的文本特征;将所述长文本的文本特征作为所述待识别文章的写作特征。
在一个可能的实施方式中,第一确定模块720在获取所述发布账号对应的元数据信息时,具体用于获取所述发布账号的账号信息;确定所述发布账号在预设历史时间段内的发布文章,获取所述发布文章对应的互动行为信息;其中,所述元数据信息包括所述账号信息和所述互动行为信息。
在一个可能的实施方式中,第一融合模块740可以包括:
第一输入模块,用于将所述待识别文章的排版特征、写作特征以及元数据特征分别输入至所述文章等级识别模型的多层感知子网络;
第三获取模块,用于获取所述多层感知子网络的隐藏层的输出特征,得到分别与所述排版特征、写作特征以及元数据特征相对应的隐藏排版特征、隐藏写作特征以及隐藏元数据特征;
第三融合模块,用于融合所述隐藏排版特征、隐藏写作特征以及隐藏元数据特征,得到所述文章识别特征。
在一个可能的实施方式中,继续参见图7,该装置还可以包括训练模块760,所述训练模块包括:
模型构建模块,用于构建待训练的文章等级识别模型,所述待训练的文章等级识别模型包括初始特征提取网络和初始多层感知网络;
样本获取模块,用于获取训练样本,所述训练样本包括样本文章和发布所述样本文章的发布账号对应的样本元数据信息;所述训练样本携带有参考质量等级标签;
样本特征提取模块,用于将所述训练样本输入所述初始特征提取网络,得到所述训练样本中样本文章的排版特征、写作特征以及元数据特征;
样本特征融合模块,用于融合所述样本文章的排版特征、写作特征以及元数据特征,得到样本文章识别特征;
参数调整模块,用于将所述样本文章识别特征作为所述初始多层感知网络的输入,得到输出的所述样本文章的训练质量等级;根据所述训练质量等级与所述参考质量等级调整所述初始特征提取网络和初始多层感知网络中的参数,直至满足训练结束条件得到所述文章等级识别模型。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例的文章等级识别装置通过文章等级识别模型的特征提取网络根据待识别文章以及发布该待识别文章的发布账号对应的元数据信息得到该待识别文章的排版特征、写作特征和元数据特征,并对该待识别文章的排版特征、写作特征和元数据特征进行融合,进而通过文章等级识别模型的多层感知网络根据融合后的特征预测该待识别文章的质量等级,不仅实现了对在线文章等级的自动定位识别,提高了对于优质文章的识别效率,而且由于排版特征、写作特征以及元数据特征属于待识别文章的先验信息,其相对于后验信息来说更加稳定可靠,从而在提高对于优质文章定位准确性的同时缩短了优质文章被启用进入推荐池分发的时延。
本发明实施例提供了一种服务器,该服务器包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的文章等级识别方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及文章等级的识别。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图8是本发明实施例提供的运行一种文章等级识别方法的服务器的硬件结构框图,如图8所示,该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)810(处理器810可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器830,一个或一个以上存储应用程序823或数据822的存储介质820(例如一个或一个以上海量存储设备)。其中,存储器830和存储介质820可以是短暂存储或持久存储。存储在存储介质820的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器810可以设置为与存储介质820通信,在服务器800上执行存储介质820中的一系列指令操作。服务器800还可以包括一个或一个以上电源860,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口840,和/或,一个或一个以上操作系统821,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口840可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器800的通信供应商提供的无线网络。在一个实例中,输入输出接口840包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口840可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图8所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器800还可包括比图8中所示更多或者更少的组件,或者具有与图8所示不同的配置。
本发明的实施例还提供了一种计算机可读存储介质,所述存储介质可设置于服务器之中以保存用于实现一种文章等级识别方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的文章等级识别方法。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本发明的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的各种可选实现方式中提供的文章等级识别方法。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种文章等级识别方法,其特征在于,所述方法包括:
获取待识别文章;确定发布所述待识别文章的发布账号,获取所述发布账号对应的元数据信息;所述元数据信息包括所述发布账号的账号信息;
根据文字以及图片在所述待识别文章中的排列位置,从所述待识别文章中分别获取文字序列和图片序列;所述文字序列中的文字存在主标题、小标题、段落文本的区分,所述图片序列中的图片与所述文字序列中的文字存在相对位置关系;
将所述文字序列中的文字和所述图片序列中的图片交替输入至文章等级识别模型中文章结构子网络的长短期记忆网络,提取所述待识别文章的全局特征;以及将所述文字序列的文字和所述图片序列的图片交替输入至所述文章结构子网络的卷积神经网络,提取所述待识别文章的局部特征;融合所述待识别文章的全局特征和局部特征,得到所述待识别文章的排版特征;
将所述待识别文章输入所述文章等级识别模型的文本子网络,根据所述待识别文章中的文本信息,得到所述待识别文章对应的长文本;由所述文本子网络的第一神经网络层基于自注意力机制提取所述长文本中各词语的词语特征;由所述文本子网络的第二神经网络层基于自注意力机制,根据所述长文本中各词语的词语特征得到所述长文本中各句子的句子特征;由所述文本子网络的第三神经网络层基于自注意力机制,根据所述长文本中各句子的句子特征得到所述长文本的文本特征;将所述长文本的文本特征作为所述待识别文章的写作特征;
通过所述文章等级识别模型的元数据子网络对所述元数据信息进行网络嵌入处理,得到元数据特征;
融合所述待识别文章的排版特征、写作特征以及元数据特征,得到文章识别特征;
由所述文章等级识别模型的多层感知网络根据所述文章识别特征,预测所述待识别文章的质量等级。
2.根据权利要求1所述的文章等级识别方法,其特征在于,所述获取所述发布账号对应的元数据信息包括:
获取所述发布账号的账号信息;
确定所述发布账号在预设历史时间段内的发布文章,获取所述发布文章对应的互动行为信息;
其中,所述元数据信息包括所述账号信息和所述互动行为信息。
3.根据权利要求1所述的文章等级识别方法,其特征在于,所述融合所述待识别文章的排版特征、写作特征以及元数据特征,得到文章识别特征包括:
将所述待识别文章的排版特征、写作特征以及元数据特征分别输入至所述文章等级识别模型的多层感知子网络;
获取所述多层感知子网络的隐藏层的输出特征,得到分别与所述排版特征、写作特征以及元数据特征相对应的隐藏排版特征、隐藏写作特征以及隐藏元数据特征;
融合所述隐藏排版特征、隐藏写作特征以及隐藏元数据特征,得到所述文章识别特征。
4.根据权利要求1所述的文章等级识别方法,其特征在于,所述文章等级识别模型的训练过程包括:
构建待训练的文章等级识别模型,所述待训练的文章等级识别模型包括初始特征提取网络和初始多层感知网络;
获取训练样本,所述训练样本包括样本文章和发布所述样本文章的发布账号对应的样本元数据信息;所述训练样本携带有参考质量等级标签;
将所述训练样本输入所述初始特征提取网络,得到所述训练样本中样本文章的排版特征、写作特征以及元数据特征;所述初始特征提取网络包括文章结构子网络、文本子网络和元数据子网络,所述文章结构子网络包括长短期记忆网络和卷积神经网络;
融合所述样本文章的排版特征、写作特征以及元数据特征,得到样本文章识别特征;
将所述样本文章识别特征作为所述初始多层感知网络的输入,得到输出的所述样本文章的训练质量等级;
根据所述训练质量等级与所述参考质量等级标签调整所述初始特征提取网络和初始多层感知网络中的参数,直至满足训练结束条件得到所述文章等级识别模型。
5.一种文章等级识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取待识别文章;
第一确定模块,用于确定发布所述待识别文章的发布账号,获取所述发布账号对应的元数据信息;所述元数据信息包括所述发布账号的账号信息;
特征提取模块,用于根据文字以及图片在所述待识别文章中的排列位置,从所述待识别文章中分别获取文字序列和图片序列;所述文字序列中的文字存在主标题、小标题、段落文本的区分,所述图片序列中的图片与所述文字序列中的文字存在相对位置关系;将所述文字序列中的文字和所述图片序列中的图片交替输入至文章等级识别模型中文章结构子网络的长短期记忆网络,提取所述待识别文章的全局特征;以及将所述文字序列的文字和所述图片序列的图片交替输入至所述文章结构子网络的卷积神经网络,提取所述待识别文章的局部特征;融合所述待识别文章的全局特征和局部特征,得到所述待识别文章的排版特征;根据所述待识别文章中的文本信息,得到所述待识别文章对应的长文本;由所述文本子网络的第一神经网络层基于自注意力机制提取所述长文本中各词语的词语特征;由所述文本子网络的第二神经网络层基于自注意力机制,根据所述长文本中各词语的词语特征得到所述长文本中各句子的句子特征;由所述文本子网络的第三神经网络层基于自注意力机制,根据所述长文本中各句子的句子特征得到所述长文本的文本特征;将所述长文本的文本特征作为所述待识别文章的写作特征;通过所述文章等级识别模型的元数据子网络对所述元数据信息进行网络嵌入处理,得到元数据特征;
第一融合模块,用于融合所述待识别文章的排版特征、写作特征以及元数据特征,得到文章识别特征;
等级预测模块,用于由所述文章等级识别模型的多层感知网络根据所述文章识别特征,预测所述待识别文章的质量等级。
6.一种服务器,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1~4中任一项所述的文章等级识别方法。
7.一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~4任一项所述的文章等级识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011139293.3A CN114385892B (zh) | 2020-10-22 | 2020-10-22 | 一种文章等级识别方法、装置、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011139293.3A CN114385892B (zh) | 2020-10-22 | 2020-10-22 | 一种文章等级识别方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114385892A CN114385892A (zh) | 2022-04-22 |
CN114385892B true CN114385892B (zh) | 2024-04-16 |
Family
ID=81193839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011139293.3A Active CN114385892B (zh) | 2020-10-22 | 2020-10-22 | 一种文章等级识别方法、装置、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114385892B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729473A (zh) * | 2017-10-13 | 2018-02-23 | 东软集团股份有限公司 | 文章推荐方法及其装置 |
CN108304379A (zh) * | 2018-01-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种文章识别方法、装置及存储介质 |
CN111311554A (zh) * | 2020-01-21 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 图文内容的内容质量确定方法、装置、设备及存储介质 |
CN111488931A (zh) * | 2020-04-10 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 文章质量评估方法、文章推荐方法及其对应的装置 |
CN111783417A (zh) * | 2019-12-05 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 文章内容评分方法和装置 |
-
2020
- 2020-10-22 CN CN202011139293.3A patent/CN114385892B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729473A (zh) * | 2017-10-13 | 2018-02-23 | 东软集团股份有限公司 | 文章推荐方法及其装置 |
CN108304379A (zh) * | 2018-01-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种文章识别方法、装置及存储介质 |
CN111783417A (zh) * | 2019-12-05 | 2020-10-16 | 北京沃东天骏信息技术有限公司 | 文章内容评分方法和装置 |
CN111311554A (zh) * | 2020-01-21 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 图文内容的内容质量确定方法、装置、设备及存储介质 |
CN111488931A (zh) * | 2020-04-10 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 文章质量评估方法、文章推荐方法及其对应的装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114385892A (zh) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11861477B2 (en) | Utilizing machine learning models to identify insights in a document | |
CN112749608B (zh) | 视频审核方法、装置、计算机设备和存储介质 | |
CN110196908A (zh) | 数据分类方法、装置、计算机装置及存储介质 | |
CN108038492A (zh) | 一种基于深度学习的感性词向量及情感分类方法 | |
CN112153426B (zh) | 一种内容账号管理方法、装置、计算机设备及存储介质 | |
CN112199608A (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
US10621137B2 (en) | Architecture for predicting network access probability of data files accessible over a computer network | |
CN111625715B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN113392651A (zh) | 训练词权重模型及提取核心词的方法、装置、设备和介质 | |
CN110196945A (zh) | 一种基于LSTM与LeNet融合的微博用户年龄预测方法 | |
CN111723295A (zh) | 一种内容分发方法、装置和存储介质 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN113011126B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN113254649A (zh) | 敏感内容识别模型的训练方法、文本识别方法及相关装置 | |
CN117235264A (zh) | 文本处理方法、装置、设备和计算机可读存储介质 | |
CN114385892B (zh) | 一种文章等级识别方法、装置、服务器及存储介质 | |
CN116797195A (zh) | 工单处理方法、装置、计算机设备和计算机可读存储介质 | |
CN112989054B (zh) | 一种文本处理方法和装置 | |
CN106407271B (zh) | 一种智能客服系统及其智能客服知识库的更新方法 | |
CN111767404B (zh) | 一种事件挖掘方法和装置 | |
CN114580533A (zh) | 特征提取模型的训练方法、装置、设备、介质及程序产品 | |
CN113656560A (zh) | 情感类别的预测方法和装置、存储介质及电子设备 | |
CN113822047A (zh) | 一种文本增强方法、装置、电子设备和存储介质 | |
CN115017417B (zh) | 基于标签智能过滤和推荐的政策匹配方法及系统 | |
Lu et al. | A novel method for Chinese named entity recognition based on character vector |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |