CN112132075A - 图文内容处理方法及介质 - Google Patents

图文内容处理方法及介质 Download PDF

Info

Publication number
CN112132075A
CN112132075A CN202011042702.8A CN202011042702A CN112132075A CN 112132075 A CN112132075 A CN 112132075A CN 202011042702 A CN202011042702 A CN 202011042702A CN 112132075 A CN112132075 A CN 112132075A
Authority
CN
China
Prior art keywords
content
text
image
evaluation result
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011042702.8A
Other languages
English (en)
Other versions
CN112132075B (zh
Inventor
朱灵子
衡阵
马连洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011042702.8A priority Critical patent/CN112132075B/zh
Publication of CN112132075A publication Critical patent/CN112132075A/zh
Application granted granted Critical
Publication of CN112132075B publication Critical patent/CN112132075B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供一种图文内容处理方法及介质,涉及人工智能技术领域。该方法包括:获取待处理图文内容;所述待处理图文内容包括目标文本信息和目标图片;根据所述目标文本信息和所述目标图片的目标形式特征,获得所述待处理图文内容在形式上的先验体验评估结果;根据所述目标文本信息,获得所述待处理图文内容在内容上的内容质量评估结果;根据所述先验体验评估结果和所述内容质量评估结果,获得所述待处理图文内容的质量评估结果,该方法通过分别确定内容和形式上的两个评估结果,并基于两个评估结果获得更为准确的图文内容的质量评估结果。

Description

图文内容处理方法及介质
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能技术领域,提供一种图文内容处理方法及介质。
背景技术
为了实现知识共享,逐渐出现了内容服务平台,内容服务平台支持用户可以在内容服务平台上传或分享图文内容。为了便于各用户在内容服务平台上能够查看到更优质的图文内容,内容服务平台会预先确定图文内容的质量分数,以便于依据图文内容的质量分数为用户推荐更优质的图文内容。
目前,内容服务平台是根据图文内容的特征,确定图文内容的质量分数,但图文内容涉及到的特征较多,如何基于这些特征获得更准确的质量分数是亟需解决的问题。
发明内容
本申请实施例提供一种图文内容处理方法及介质,用于提高图文内容的质量分数的准确性。
一方面,提供了一种图文内容处理方法,包括:
获取待处理图文内容;所述待处理图文内容包括目标文本信息和目标图片;
根据所述目标文本信息和所述目标图片的目标形式特征,获得所述待处理图文内容在形式上的先验体验评估结果;
根据所述目标文本信息,获得所述待处理图文内容在内容上的内容质量评估结果;
根据所述先验体验评估结果和所述内容质量评估结果,获得所述待处理图文内容的质量评估结果。
又一方面,提供一种图文内容处理方法,包括:
获得各图文内容的质量评价结果;其中,所述各图文内容的质量评价结果是通过一方面中任一项所述的方法获得的;
根据所述各图文内容的质量评价结果,从所述各图文内容中确定出目标图文内容,并推荐所述目标图文内容。
本申请实施例提供一种图文内容处理装置,包括:
获取模块,用于获取待处理图文内容;所述待处理图文内容包括目标文本信息和目标图片;
第一获得模块,用于根据所述目标文本信息和所述目标图片的目标形式特征,获得所述待处理图文内容在形式上的先验体验评估结果;
第二获得模块,用于根据所述目标文本信息,获得所述待处理图文内容在内容上的内容质量评估结果;
第三获得模块,用于根据所述先验体验评估结果和所述内容质量评估结果,获得所述待处理图文内容的质量评估结果。
在一种可能的实施例中,所述第一获得模块还用于:
获得所述图文内容的排版特征;
获得所述目标文本信息和所述目标图片之间的匹配程度;所述排版特征和所述匹配程度属于目标形式特征。
在一种可能的实施例中,所述目标形式特征还包括如下的一种或多种:
所述目标图片的图片质量特征;或,
所述目标文本信息的词句特征;或,
发布所述待处理图文内容的账号等级;或,
所述待处理图文内容的标题特征。
在一种可能的实施例中,所述第一获得模块具体用于:
将所述目标形式特征输入梯度提升决策树模型;其中,所述梯度提升决策树模型包括按照层级关系构建的多个学习器,每个学习器为一个节点;
通过所述梯度提升决策树模型的根节点,对所述目标形式特征进行第一次学习,得到第一学习结果;
将所述第一学习结果输入到所述根节点的下一级叶子节点;
以所述下一级叶子节点作为新的根节点继续进行学习,直到所述下一级叶子节点为最小叶子节点,获得所述最小叶子节点的学习结果;
根据所述最小叶子节点的学习结果,获得先验体验评估结果。
在一种可能的实施例中,所述梯度提升决策树模型是通过如下方式训练得到的:
获得第一样本数据;其中,所述第一样本数据包括多个样本图文内容中每个样本图文内容的样本形式特征,以及每个样本图文内容对应的先验体验评估结果标签;
根据多个样本形式特征,进行多轮迭代训练,并在每轮迭代训练中创建一学习器,并利用损失函数拟合上一轮迭代训练结果的残差,通过最小化损失函数拟合本轮创建的学习器;其中,每一轮迭代训练结果的残差是迭代训练输出结果与对应的先验体验评估结果标签确定的;
根据多轮迭代训练中获得的多个学习器,建立各个学习器的层级关系,获得梯度提升决策树模型。
在一种可能的实施例中,所述第二获得模块具体用于:
通过内容质量模型中编码器的各个编码单元,按照目标文本序列的输入顺序,并应用注意力机制,生成每个输入位置对应的编码表示,获得编码表示序列;其中,所述目标文本序列是所述目标文本信息的序列表示结果;
通过所述内容质量模型的全连接层,对所述编码表示序列进行映射,获得内容质量评估结果。
在一种可能的实施例中,所述内容质量模型是通过如下方式训练得到的:
获得第二样本数据;其中,所述第二样本数据包括样本图文内容对应的样本文本序列,以及样本文本序列对应的内容质量评估结果标签;
通过所述各个编码单元,按照所述样本文本序列的输入顺序,并应用注意力机制,生成每个输入位置对应的样本编码表示,获得样本编码表示序列;
通过所述全连接层,对所述样本编码表示序列进行映射,获得预测内容质量评估结果;
基于所述内容质量评估结果标签和所述预测内容质量评估结果,调整所述内容质量模型的模型参数,直到内容质量模型收敛,获得已训练的内容质量模型。
在一种可能的实施例中,第三获得模块具体用于:
根据所述先验体验评估结果和所述内容质量评估结果,通过投票机制,对所述待处理图文内容进行投票处理,获得所述待处理图文内容的质量评估结果。
本申请实施例提供一种图文内容处理装置,包括:
获得模块,用于获得所述各图文内容的质量评价结果;其中,各图文内容的质量评价结果是通过一方面中任一项所述的方法获得的;
确定模块,用于根据所述各图文内容的质量评价结果,从所述各图文内容中确定出目标图文内容,并推荐所述目标图文内容。
本申请实施例提供一种计算机设备,包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如一方面或又一方面中任一项所述的方法。
本申请实施例提供一种存储介质,所述存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如一方面或又一方面中任一项所述的方法。
由于本申请实施例采用上述技术方案,至少具有如下技术效果:
一、本申请实施例分别基于文本信息,确定图文内容在内容上的内容质量评估结果,基于文本信息和图片,确定图文内容在形式上的先验体验评估结果,也就是说,本申请实施例是基于图文内容在不同角度的特征,分别确定图文内容在不同角度对应的评估结果,由于是根据对应角度的特征去获得对应角度上的评估结果,因此能够基于该角度对应的特征对图文内容进行更有针对性的评估,提高各个角度的评估结果的准确性,进而提高确定出的图文内容的质量评估结果的准确性。且,该方法结合图文内容各角度的特征进行评估,获得质量评估结果,使得获得的质量评估结果能更全面地反映了图文内容的各角度的情况,提升最终的质量评估结果的可参考性。
二、相较于有监督的图文优质识别技术,从文本角度进行内容质量判定的方法,本申请实施例中的方案考虑了文本和图片两方面的信息,且考虑了内容和质量两个维度的特征,确定图文内容质量,因此确定出的质量分数更具有参考价值。而本申请实施例中的方案相较于无监督的图文优质识别技术如从文章词法多样性、句法多样性等统计学角度进行内容质量判定的方法,引入文本信息的深度特征确定质量分数,能够提升确定文本特征的相关模型鲁棒性。且,在互联网时代图文并茂的内容场景,文章客观先验体验(例如文章排版、文章配图的清晰度美观度、配图与文章内容的匹配度等)对决定文章的内容质量起着至关重要的作用,而本申请实施例提出的方法考虑内容质量和先验体验,在确定质量分数上的准确率达到94%,使得平台的图文优质内容覆盖率达到16%。在对基于质量分数所识别出来图文优质内容进行推荐加权实验中,将优质内容优先推荐给用户,在业务侧取得了良好的业务效果,能够为用户推荐更优质的图文内容。
附图说明
图1为本申请实施例提供的一种图文内容处理方法的应用场景图;
图2为本申请实施例提供的一种图文内容处理方法的流程图;
图3为本申请实施例提供的GBDT模型的结构示例图;
图4为本申请实施例提供的内容质量模型的结构示例图;
图5为本申请实施例提供的内容质量模型中的多头注意力的结构示例图;
图6为本申请实施例提供的图1中各设备之间的交互示意图一;
图7为本申请实施例提供的一种显示图文内容及质量评估结果的示例图;
图8为本申请实施例提供的图1中各设备之间的交互示意图二;
图9为本申请实施例提供的一种图文内容处理装置的结构示意图一;
图10为本申请实施例提供的一种图文内容处理装置的结构示意图二;
图11为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了更好的理解本申请实施例提供的技术方案,下面将结合说明书附图以及具体的实施方式进行详细的说明。
为了便于本领域技术人员更好地理解本申请的技术方案,下面对本申请涉及的名词进行介绍。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
自然语言处理(Nature Language processing,NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
Transformer模型:Transformer模型是由多个self-attention神经网络层组成的Encoder-Decoder结构的神经网络模型。模型分为编码器(Encoder)和解码器(Decoder)两部分,编码器部分由6个相同编码器叠在一起,解码器部分由6个相同解码器叠在一起,编码器之间不共享参数。同时在词向量表示送入编码器、解码器之前先做位置嵌入(positionalencoding)。Transformer改进了RNN被人诟病的训练慢的缺点,利用自注意力机制实现快速并行,并且机器翻译、机器人问答、知识图谱等技术。可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率。
梯度提升决策树模型(Gradient Boosting Decision Tree,GBDT):是一种迭代的决策树算法,该算法由多棵决策树组成,根据所有树的结论累加起来做最终答案。它是泛化能力较强的算法。
投票机制(voting):是集成学习里面针对分类问题的一种结合策略。基本思想是选择所有机器学习算法当中输出最多的那个类。机器学习分类算法的输出有两种类型:一种是直接输出类标签,另外一种是输出类概率,使用前者进行投票叫做硬投票(Majority/Hard voting),使用后者进行分类叫做软投票(Soft voting)。
图文内容:泛指包括文本信息和至少一个图片的内容,图片可以是视频中的图片或者是动态图片等,除此之外,图文内容还可以包括视频等。图文内容的具体表现形式可以是各类文章等,例如新闻类文章等。该图文内容可以为存储在服务器中的一组图文内容,也可以为该服务器从网络中获取的一组图文内容,例如,该一组图文内容可以为用户通过任一内容服务平台发布到网络中的图文内容,当然,还可以为用户在该服务器中所输入的图文内容,本申请实施例不对图文内容具体来源进行限定。为了便于描述,下文中将需要进行质量评估的图文内容称为待处理图文内容,待处理图文内容中的文本信息称为目标文本信息,待处理图文内容中的图片称为目标图片。
图文先验优质:图文先验优质是从内容本身的角度出发,构造文章质量的合理评价体系,从而帮助推荐侧更好的理解与应用内容中心出库的图文内容。
形式特征:是指图文内容在形式上所呈现的特征,由于图文内容的形式可能包括多个方面的,因此形式特征可能是图文内容一个或多个方面的特征的组合,形式特征的形式可以是向量形式、或矩阵形式或其它。为了便于描述,需要进行评估的待处理图文内容的形式特征称为目标形式特征。形式特征可以包括图文内容的排版特征、文本信息和图片之间的匹配程度、图片的图片质量特征、文本信息的词句特征、发布待处理图文内容的账号等级、待处理图文内容的标题特征中的一种或多种特征,下面对各个特征分别介绍。
排版特征:是指图文内容以特定排版形式呈现后的特征,例如文字间距、段落间距、图文间距、字符颜色。该排版特征可以通过对该图文内容的显示效果图进行特征提取获得,或者可以通过爬取图文内容的前端代码获取。
文本信息和图片之间的匹配程度:是指图文内容中文本信息和图片之间的相符程度,可以通过文本信息和图片之间的特征之间的相似度表示。
图片的图片质量特征:是指图片整体呈现的质量,包括图片的清晰度和图片的美感程度等。
文本信息的词句特征:包括文本信息中的词语特征和文本信息中语句的语句特征,词语特征可以是词语的词法的多样性特征,语句特征可以是句法的多样性特征。
先验体验评估结果:是指对图文内容的形式进行评估得到的评估结果,该评估结果可以是具体的数值,或者优质程度等级,具体的数值例如分数值或小数值等,例如90分,优质程度等级例如优、良、差等。先验体验评估结果是根据图文内容的形式特征进行处理获得的,具体获得方式将在下文中介绍。
内容质量评估结果:是指对图文内容中的文本信息的内容进行评估获得的,用于表示图文内容的文本信息在内容上的评估结果,该评估结果可以是具体的数值。
质量评估结果:是指图文内容在形式和内容上的整体体现结果,可以通过根据先验体验评估结果和内容质量评估结果获得,例如当先验体验评估结果和内容质量评估结果均为具体分数时,可以对先验体验评估结果和内容质量评估结果进行加权,获得质量评估结果。
下面对本申请实施例的设计思想进行介绍。
相关技术中通常是通过一个模型对图文内容各方面的特征进行处理,获得图文内容的质量分数,但图文内容涉及的特征较多,相关技术中的处理方式对模型的依赖性较高,一旦模型训练出的参数倾向于图文内容的某一方面的特征,必将导致确定出的图文内容的质量分数会过度依赖于该方面的特征,进而导致确定出的图文内容的质量分数准确性不高,可参考性较差,即确定出的图文内容的质量分数准确性较低。
为此,本申请实施例提供一种图文内容处理方法,该方法的主要思想是将图文优质内容判断这一复杂场景拆解为两个角度,一个是图文内容的形式角度,另一个为图文内容的内容角度,分别确定图文内容在形式角度上的先验体验评估结果,以及在内容角度上的内容质量评估结果,并根据先验体验评估结果和内容质量评估结果,获得更为客观全面的图文内容的质量评估结果,本申请实施例分别确定内容和形式角度上的两个评估结果,在对内容或形式角度进行评估时,能够基于该角度对应的特征进行更有针对性的评估,使得针对单一角度的评估结果更为准确,进而提高确定出的图文内容的质量评估结果的准确性。且,该方法结合图文内容各方面的特征进行评估,使得质量评估结果更能全面地反映了图文内容的各方面的情况,提升图文内容的质量评估结果可参考性。
基于上述设计思想,下面对本申请实施例的图文内容处理方法的应用场景进行介绍。
请参照图1,为一种图文内容处理方法的应用场景图,该场景包括终端110和内容服务平台120。终端110设置有客户端111,该客户端111泛指能够提供图文内容的客户端,客户端可以是预装在终端110中的客户端、网页版的客户端或设置在第三方应用中的客户端等。图1中是以是哪个终端110为例,实际不限制终端110的数量。内容服务平台120包括服务器121和数据库122,数据库122可以与服务器121单独设置的数据库,或者可以是设置在服务器121中的数据库,另外,不限制数据库122和服务器121的数量。
其中,终端110可以为移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、智能音响、智能手表、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,终端110能够支持任意类型的针对用户的接口(例如可穿戴设备)等。服务器121可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端110以及服务器121可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
下面对服务器121和终端110之间可能的交互过程进行示例。
在第一种可能的场景中:直接由服务器121确定为用户推荐的图文内容。
服务器121可以从网络资源或各个终端110获得图文内容,并存储至数据库122中。服务器121确定终端110请求的图文内容之后,确定图文内容的质量评估结果,并根据图文内容的质量评估结果,确定最终为用户推荐的图文内容,直接将最终为用户推荐的图文内容下发至终端110。
在第二种可能的应用场景中:直接由终端110确定为用户推荐的图文内容。
当终端110请求图文内容时,服务器121确定终端110请求的图文内容之后,确定图文内容的质量评估结果,具体确定方式将在下文中介绍。终端110将图文内容以及图文内容的质量评估结果一并下发至终端110,使得终端根据图文内容的质量评估结果,确定最终为用户展示的图文内容。在下发图文内容时,可以直接下发图文内容,或者下发图文内容的资源标识。
或者,在服务器121将图文内容写入数据库122的同时,服务器121可以确定出各个图文内容的质量评估结果,具体确定方式将在下文中介绍。服务器121将图文内容以及质量评估结果关联存储至数据库122中。当任意终端110需要请求查看相应的图文内容时,内容服务平台120可以确定为该终端110提供相应的图文内容,并将该图文内容以及该图文内容对应的质量评估结果均下发至终端110,终端110可以根据图文内容的质量评估结果确定需要为用户呈现的图文内容。
下面结合图1论述的应用场景,对本申请实施例涉及的图文内容处理方法进行介绍。
请参照图2,表示本申请实施例涉及的图文内容处理方法的流程图,下面结合图2,对本申请实施例涉及的图文内容处理方法进行介绍。
S201,获取待处理图文内容;其中,待处理图文内容包括目标文本信息和目标图片。
待处理图文内容的内容或形式可以参照前文论述的内容,此处不再赘述。待处理图文内容包括目标文本信息和目标图片。服务器121可以从网络资源获取图文内容,或者通过终端110获取用户上传的图文内容,这些获取的图文内容视为待处理图文内容。例如终端110中的客户端111响应于用户的上传操作,获取用户需要上传的图文内容,并将图文内容发送至服务器121。
或者,服务器121周期性或不定时地从数据库122中获得未被处理过的图文内容,将这些图文内容作为待处理图文内容。
待处理图文内容的数量可以是一个或多个,本申请实施例中以介绍确定一个待处理图文内容的质量评估结果进行示例介绍。
S202,确定待处理图文内容在形式上的先验体验评估结果。
服务器121确定先验体验评估结果之前,需要先确定待处理图文内容在形式上的目标形式特征,服务器121根据目标形式特征,确定出先验体验评估结果。其中,目标形式特征包括:排版特征、目标文本信息和目标图片之间的匹配程度、图片质量特征、词句特征、发布待处理图文内容的账号等级和待处理图文内容的标题特征中的一种或多种。下面对服务器121获得各种特征的方式进行示例说明:
A1、针对排版特征,确定排版特征的方式示例如下:
排版特征可以是图文内容在排版上的各种特征组合而成,例如可以是文字间距、段落间距、图文间距和字符颜色中的一种或多种按照预设顺序拼接,从而获得排版特征。
服务器121可以对待处理图文内容对应的显示效果图进行特征提取,获得图文内容的排版特征,提取特征例如提取显示效果图中的图文间距、文本间距等。该显示效果图是指待处理图文内容呈现时的整体效果图。该显示效果图可以是服务器121根据该待处理图文内容的预设排版样式对目标文本信息和目标图片进行渲染得到的,或者可以是服务器121对显示待处理图文内容的页面进行截图获得的,具体不限制显示效果图的获取方式。其中,服务器121可以对显示效果图进行统计分析,获得排版特征,或者服务器121通过排版特征提取模型,对显示效果图进行相应操作,提取显示效果图的排版特征,该排版特征具体可以为该排版特征提取模型提取出的特征矩阵等。排版特征提取模型例如为残差网络(Residual Network,ResNet)、视觉几何网络(Visual Geometry Group Network,VGG)等。
或者,服务器121可以通过待处理图文内容的前端代码,获取待处理图文内容的排版特征。前端代码例如超级文本标记语言(Hyper Text Markup Language,HTML),HTML中会以代码形式记录待处理图文内容的排版特征,因此,服务器121可以直接从HTML中爬取该待处理图文内容的排版特征。
例如排版特征是依次由文字间距、段落间距、图文间距和字符颜色组合而成,文字间距为2倍,段落间距为具体可以表示1倍,图文间距为3倍,字符颜色为黑色,表示为0001,那这些特征组合成的排版特征表示为:{2,1.5,3,0001}。
A2、针对匹配程度,确定目标文本信息和目标图片之间的匹配程度的方式如下:
匹配程度是指目标文本信息与目标图片之间的关联程度,体现了目标图片传达的语义信息是否与文本信息所传达的语义信息相符。由于图文内容中可能包括一个或多个目标图片,而每个目标图片一般是对应文本信息中的部分文本,为了便于描述,每个目标图片对应的那部分文本信息称为文本段,文本段可以进一步理解为目标文本信息中用于表示该目标图片的文本,具体可以根据目标图片和文本信息的相对位置分布,确定出目标图片对应的文本段。
如果图文内容只包括一个目标图片,则直接确定该目标图片与对应的文本段之间匹配程度,该匹配程度即为目标文本信息和目标图片之间的匹配程度。如果图文内容包括多个目标图片,则确定每个目标图片与对应的文本段之间的匹配程度,并根据各个目标图片与对应的文本段之间的匹配程度进行加权求和,或者选择各个匹配程序中最大的匹配程度作为出标文本信息与目标图片之间的匹配程度。下面以确定一个目标图片和对应文本段之间的匹配程度为例,进行介绍:
服务器121确定文本段的序列表示与目标图片的特征矩阵之间的相似度,将相似度作为目标图片和对应文本段之间的匹配程度。
服务器121对文本段进行编码,获得文本段的序列表示,例如可以通过嵌入学习获得序列表示,或者对文本段进行独热编码获得序列表示,或者对嵌入学习后的或独热编码后的序列再进行深度编码,获得文本段的序列表示。深度编码方式有多种,比如可以通过文本编码模型,例如长短期记忆(Long Short-Term Memory,LSTM)。
服务器121对目标图片进行特征提取,获得目标图片的特征矩阵。例如服务器121可以通过一个或多个卷积操作,获得目标图片的特征矩阵,或者可以通过其它网络模型等,获得目标图片的特征矩阵,其它网络模型例如残差网络(Residual Network,ResNet)。
服务器121获得目标图片的特征矩阵,以及文本段的序列表示之后,可以确定序列表示与特征矩阵之间的相似度,将相似度的取值作为匹配程度。相似度例如余弦相似度或欧式距离等。
例如,目标文本信息和目标图片之间的匹配程度为0.9。
A3、针对图片质量特征,确定图片质量特征的方式如下:
图片质量特征的含义可以参照前文论述的内容,此处不再赘述。
服务器121可以对目标图片进行分析,以获得目标图片在多个方面的特征。对这些特征进行拼接得到图片质量特征,例如可以是图片分辨率、图片色彩饱和度、图片亮度一种或多种拼接得到的。
或者,服务器121可以通过图片质量生成模型,获得图片质量特征,图片质量生成模型可以是预训练的模型,或者服务器121根据样本图片和样本图片对应的样本图片质量特征进行训练得到的,图片质量生成模型例如神经图像评价(Neural Image Assessment,NIMA)。
例如,图片质量特征可以为图片分辨率、图片色彩饱和度、图片亮度拼接成的,图片分辨率为300*300,图片色彩饱和度为160,图片亮度为120,因此拼接成的图片质量特征可以表示为{300*300,160,120}。
A4、针对词句特征,确定词句特征的方式如下:
词句特征的内容可以参照前文论述的内容,此处不再赘述。例如服务器121对文本信息中文本进行分词,获得多个词语,统计各个词语的词语类型,将各个词语类型对应的词语的数量确定为词法特征。服务器121可以按照标点符号,将文本信息划分为多个句子,并识别每个句子对应的语法类型,以获得句法特征。
例如,词法特征具体为名词为20个,动词10个,副词8个,句法特征具体为主动句10个,被动句2个,词句特征可以表示为{20,10,8,10,2}。
A5、针对账号等级,确定发布待处理图文内容的账号等级的方式:
该账号等级可以理解为发布待处理图文内容中客户端111所登录的账号等级。如果待处理图文内容是终端110上传的,服务器121在获得待处理图文内容时,还可以获得该待处理图文内容对应的发布者的账号等级。如果待处理图文内容是从网络资源获得的,那么服务器121可能无法获得对应的账号等级。
例如,发布待处理图文内容的账号等级为20。
A6、针对标题特征,确定待处理图文内容的标题特征的方式:
标题特征指的是图文内容中标题所对应的特征,包括但不限于标题长度、标题关键词数量等。
例如,标题为25个字,包括4个关键词,因此标题特征可以表示为{25,4}。
在获得上述A1~A6中一个或多个特征之后,可以将获得的特征进行拼接,从而获得待处理图文内容的目标形式特征。
例如,按照A1~A6从前到后的顺序,依次组合各个特征,从而获得待处理图文内容的目标形式特征为{排版特征、目标文本信息和目标图片之间的匹配程度、图片质量特征、词句特征、发布待处理图文内容的账号等级、待处理图文内容的标题特征}。
在获得目标形式特征之后,可以对目标形式特征进行处理,获得待处理图文内容在形式上的先验体验评估结果。服务器121获得先验体验评估结果的方式有多种,下面进行示例说明:
一:
服务器121可以是对目标形式特征中各个值进行加权求和,加权权重可以是固定的,加权求和,获得待处理图文内容的先验体验评估结果。
例如,排版特征、目标文本信息和目标图片之间的匹配程度、图片质量特征、词句特征、发布待处理图文内容的账号等级、待处理图文内容的标题特征对应的加权权重分别可以为:0.5、0.3、0.1、0.05和0.05。
二:
服务器121通过机器模型,对形式特征进行处理,以获得待处理图文内容的先验体验评估结果。
机器学习模型可以选用各类神经网络模型,例如可以采用梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型,下面以梯度提升决策树模型为例,对服务器121获得先验体验评估结果的方式进行示例说明。
GBDT模型包括多颗决策树,每颗决策树包括多个节点,任意两颗决策树包括的节点数量可以是相同,也可以不同。每个节点可以视为一个学习器。
具体的,服务器121可以将目标形式特征输入至GBDT模型,依次通过GBDT模型中的各层级节点处理,以获得待处理图文内容的先验体验分数。
具体的,服务器121通过GBDT模型的根节点,对目标形式特征进行第一次学习,得到第一学习结果。根节点也就是各个决策树中的最上层的节点,将目标形式特征经过根节点处理之后,获得的学习结果称为第一学习结果。
服务器121将第一学习结果输入到根节点的下一级叶子节点。以下一级叶子节点作为新的根节点继续进行学习,直到下一级叶子节点为最小叶子节点,获得最小叶子节点的学习结果,根据最小叶子节点的学习结果,获得待处理图文内容的先验体验评估结果。服务器121可以对最小叶子节点的学习结果进行加权求和,获得先验体验评估结果。加权求和时,各个最小叶子节点对应的加权权重可以是相同的,或者可以是不同的。
本申请实施例中采用GBDT模型进行处理,由于GBDT模型是综合了多个学习器得到的结果,从而避免某个学习器误差导致结果偏差过大的情况,有利于提高获得的先验体验评估结果的准确性。
例如,请参照图3所示的GBDT模型,该GBDT模型从上到下依次包括根节点、第一级叶子节点、第二级叶子节点……以及最小叶子节点。服务器121将目标形式特征输入至GBDT模型中,通过GBDT模型中的根节点对目标形式特征进行处理,获得第一学习结果,再通过第一级叶子节点对第一学习结果进行处理,以此类推,直到获得最小叶子节点中各个节点的输出结果。
上述的GBDT模型可以是服务器121从网络资源获得的,或者服务器121基于第一样本数据训练得到的。下面对服务器121训练GBDT模型的过程进行示例介绍,该训练过程包括:
步骤1:获取第一样本数据。
第一样本数据包括多个样本图文内容中每个样本图文内容的样本形式特征,以及每个样本图文内容的先验体验评估结果标签。样本图文内容泛指用于训练模型的图文内容,样本图文内容的样本形式特征的获得方式可以参照前文获得目标形式特征的方式,此处不再赘述。先验体验评估结果标签用于表示样本图文内容真实的先验体验评估结果,可以是手动标注的。先验体验评估结果标签的形式可以参照前文论述的先验体验评估结果的形式,此处不再赘述。
步骤2:根据多个样本形式特征,进行多轮迭代训练。
服务器121可以使用一个或多个样本图文内容的样本形式特征以及对应的先验体验评估结果标签进行每轮迭代训练。在每轮迭代训练中创建一学习器,并利用损失函数拟合上一轮迭代训练结果的残差,通过最小化损失函数拟合本轮创建的学习器。其中,每一轮迭代训练结果的残差是迭代训练输出结果与先验体验评估结果标签确定的,例如可以是迭代训练输出结果与先验体验评估结果标签之间的差值表征。每一轮迭代学习可以在达到学习率、或者学习次数达到预设次数、或者每一轮迭代训练结果的残差最小时停止。
作为一种实施例,在每轮训练过程中,可以以学习器的准确率作为该学习器的模型参数。
例如,GBDT模型具体可以利用加法模型与向前分布算法实现学习的优化过程,即是通过迭代得到一系列的弱分类器,通过不同的组合策略得到相应的强学习器。在GBDT的每轮迭代训练中,假设前一迭代训练轮得到的学习器为ft-1(x),对应的损失函数为:L(y,ft-1(x))。因此新一轮迭代训练的目的为确定一个弱分类器ht(x),使得损失函数L(y,ft-1(x)+ht(x))达到最小。具体可以使用梯度提升算法:该算法的思想是利用最速下降的近似方法,即利用损失函数的负梯度在当前学习器的值作为回归问题中提升树算法的残差的近似值。
步骤3:根据多轮迭代训练中获得的多个学习器,获得GBDT模型。
结合不同的组合策略,将多个学习器进行组合,从而获得GBDT模型。
应当说明的是,上述只是对GBDT模型的训练过程进行示例,实际GBDT模型的训练过程可能有多种,并不限于此。
S203,根据目标文本信息,获得待处理图文内容在内容上的内容质量评估结果。
服务器121可以对目标文本信息进行特征提取,以获得目标文本信息的文本特征,并对目标文本信息的文本特征进行操作,获得内容质量评估结果。
具体的,服务器121可以通过嵌入学习获得序列表示,或者对目标文本信息进行独热编码获得序列表示,或者对嵌入学习后的或独热编码后的序列再进行深度编码,例如服务器121可以通过transformers中的编码器对序列表示进行特征提取,获得深度的编码表示,该深度的编码表示又可以称为文本特征。文本特征的形式可以是矩阵、或向量等。
在获得文本特征之后,服务器121可以直接对文本特征进行加权求和,获得内容质量评估分数,或者通过全连接网络,对文本特征进行映射,以获得内容质量评估分数。其中,全连接网络可以包括一层或多层全连接层。
下面以通过内容质量模型对序列表示进行处理,以获得内容质量评估分数进行示例说明。
请参照图4,为一种内容质量模型的结构示意图,该内容质量模型包括编码器410和全连接网络420。编码器410用于对目标文本序列进行特征提取,获得文本特征,全连接网络420用于对文本特征进行全连接操作,以获得内容质量评估结果。全连接网络420具体包括一个或多个全连接层。其中,目标文本序列可以是服务器121通过嵌入学习获得的,或者对目标文本信息进行独热编码获得的。
请继续参照图4,编码器410可以采用transformer模型中的编码器的结构,该编码器410可以包括依次重叠设置的Nx个编码单元,具体Nx可以为6。每一个编码单元结构均相同,但任意两个编码单元的模型参数不共享。
作为一种实施例,在将目标文本序列输入编码单元之前,可以对目标文本序列进行位置嵌入,例如正弦位置嵌入,以正弦位置嵌入的使用可以允许模型外推(extrapolate)至更长的序列长度,这可以增加该模型的应用的范围。
每个编码单元包括两个层结构组成,两个层结构分别是多头注意力(multi-headself-attention mechanism)和全连接前馈网络(fully connected feed-forwardnetwork),每一个编码单元还包括残余连接层和层归一化层。残余连接层将编码器自注意力层的输出与自注意力层的输入进行组合以生成编码器自注意力残余输出,层归一化层将层归一化应用于编码器自注意力残余输出。这两个层在图4中统称为“添加和归一化(Add&Norm)”操作。多头注意力为注意力机制的一种。
其中,多头注意力是通过h个不同的线性变换对Q,K,V进行投影,最后将不同的注意力的输出结果拼接起来,多头注意力的具体结构如图5所示。多头注意力输出的维度是[bsz*seq_len,num_heads*head_size],seq_len是指输入的序列表示的长度,num_heads是指多头注意力中包括的头的数量,head_size是指每个头的尺寸,bsz是指输入的目标文本序列的数量。
作为一种实施例,一些或所有编码单元中还可以包括按位置前馈层(position-wise feed forward layer),按位置前馈层用于实现非线性变化。
具体的,对于每个输入位置,按位置前馈层被配置为接收输入位置处的输入,并将序列表示对应位置上的位置嵌入结果应用于输入位置处的输入以生成输入位置的输出。每个学习的线性变换由激活函数分开,这使得该模型在大型和复杂数据集上也能够更快地被训练。
当编码单元包括残余层和层归一化层时,按位置前馈层接收的输入可以是归一化层的输出。或者当不包括残余层和层归一化层时,按位置前馈层接收的输入可以是编码器自注意力子层的输出。由按位置前馈层应用的变换对于每个输入位置一般是相同的,但是一个编码单元中的不同的按位置前馈层可以应用不同的变换。
经过多个编码单元之后,编码器可以输出更为深度的文本特征,从而获得文本特征,将文本特征再输入至全连接网络420,全连接网络420对文本特征进行映射,映射到特定空间,从而获得内容质量评估结果。映射可以理解为一次或多次加权。
上述内容质量模型可以是服务器121从网络资源获得的,或者可以通过第二样本数据进行训练得到的,下面对服务器121训练第二样本数据得到内容质量模型的过程进行示例说明:
步骤1:获取第二样本数据。
第二样本数据包括样本图文内容对应的样本文本序列,以及样本文本序列对应的内容质量评估结果标签。内容质量评估结果标签的具体形式可以参照前文论述的内容质量评估结果的形式,此处不再赘述。
步骤2:通过各个编码单元,按照样本文本序列的输入顺序,并应用注意力机制,生成每个输入位置对应的样本编码表示。
编码单元处理以生成样本编码表示的内容可以参照前文论述的内容,此处不再赘述。
步骤3:根据样本内容质量评估结果和预测内容质量评估结果,调整内容质量模型的模型参数,直到内容质量模型收敛,获得已训练的内容质量模型。
根据内容质量模型输出的预测内容质量评估结果和内容质量评估结果标签之间的误差,调整内容质量模型的模型参数,直到预测内容质量评估结果和内容质量评估结果标签之间的误差小于阈值,或者模型的学习率达到预设值,或者模型的训练次数达到预设次数,获得已训练的内容质量模型。
作为一种实施例,S202和S203的顺序可以是任意的。
S204,根据先验体验评估结果和内容质量评估结果,获得待处理图文内容的质量评估结果。
如果获得先验体验评估结果和内容质量评估结果的形式均为数值,那么服务器121可以对先验体验评估结果和内容质量评估结果直接进行加权求和,获得待处理图文内容的质量评估结果。
或者,可以通过投票机制,对先验体验评估结果和内容质量评估结果进行投票处理,以获得待处理图文内容的质量评估分数。投票机制的内容可以参照前文论述的内容。例如当先验体验评估结果和内容质量评估结果均为待处理图文内容的优质等级时,服务器121可以通过投票机制,确定待处理图文内容所属的优质等级,从而获得待处理图文内容的最终的优质等级。
在一种可能的实施例中,服务器121获得图文内容的质量评估结果后,可以将图文内容对应的质量评估结果关联存储质数据库122中。服务器121可以将待处理图文内容,以及其对应的质量评估结果发送至终端110,终端110关联显示接收到的待处理图文内容以及对应的质量评估结果。
本申请实施例中分别计算待处理图文内容在形式和内容上的评估结果,并基于两个角度的评估结果,获得更为准确且全面的评估结果,且,使用Transformer中的编码器对目标文本信息进行深度编码,以获得更为深层次的语义特征,从而获得更为准确的内容质量评估结果。且,使用GBDT模型从文章客观先验体检角度分别建模,最终根据两个模型的结果使用投票机制实现图文先验优质内容识别。
下面基于图1论述的第一种可能的应用场景,对本申请实施例涉及的图文内容处理方法进行示例说明。
请参照图6,为一种图文内容处理方法涉及的终端110和服务器121之间的交互示例图,图6所示的方法可以应用于任意的图文内容的推荐场景中,该方法包括:
S601,终端110响应于推荐操作,生成推荐请求。
当用户需要查看图文内容时,可以在终端110中进行推荐操作,例如用户可以在客户端111中进行下拉或上拉操作,该下拉或上拉操作相当于推荐操作,或者客户端111中设置有推荐按键,用户点击该推荐按键,相当于进行了推荐操作。终端110响应于该推荐操作,生成推荐请求。该推荐请求可以携带该用户在客户端111中的账号标识。
S602,终端110将推荐请求发送至服务器121。
服务器121接收到推荐请求后,可以根据推荐请求确定当前需要进行推荐的该用户所对应的账号。
S603,服务器121获得各图文内容的质量评估结果。
服务器121可以是实时地获得各图文内容的质量评估结果,或者从数据库122中获得各图文内容的质量评估结果。其中,确定图文内容的质量评估结果的方式可以参照前文论述的内容,此处不再赘述。
S604,服务器121根据各图文内容的质量评估结果,确定目标图文内容。
服务器121可以将质量评估结果大于或等于阈值的图文内容确定为目标图文内容,或者可以将质量评估结果靠前的N个图文内容确定为目标图文内容,N为大于或等于1的整数。
或者,服务器121可以根据账号标识获取账号对应的用户的用户画像,确定各个图文内容与用户画像的关联度,对图文内容的关联度以及质量评估结果进行加权,获得每个图文内容对应的推荐评价结果,可以将推荐评价结果大于或等于阈值的图文内容确定为目标图文内容,或者可以将推荐评价结果靠前的M个图文内容确定为目标图文内容,M为大于或等于1的整数,这样一来,为用户推荐的目标图文内容不仅质量评价结果较好,且能够最大程度地满足用户的兴趣。
S605,服务器121将目标图文内容发送至终端110。
服务器121发送目标图文内容时,可以直接推送目标图文内容,或者可以推送目标图文内容的资源标识。
S606,终端110显示目标图文内容。
终端110接收目标图文内容后,可以为用户显示目标图文内容,以便于用户能够及时地查看目标图文内容。
S607,服务器121将目标图文内容和内容质量评估结果发送至终端110。
S608,终端110显示目标图文内容及质量评估结果。
终端110接收目标图文内容以及对应的质量评估结果后,可以将目标图文内容与其对应的质量评估结果进行关联显示。
例如,请参照图7,为终端110关联显示的目标图文内容以及对应的质量评估结果的示例图,终端110显示如图7中所示的目标图文内容710,并在目标图文内容中显示该目标图文内容710的质量评估结果720。
应当说明的是,S605~S606、S607~S608为两种情况,在实际执行过程中,可以执行其中的任意一种。
本申请实施例中分别计算待处理图文内容在形式和内容上的评估结果,并基于两个角度的评估结果,获得更为准确且全面的评估结果,且,本申请实施例涉及的图文内容处理方法经测试后确定出的图文内容的质量评估结果的准确率达到94%,优质的图文内容覆盖率达到16%,并且在网页版的客户端以及预装客户端基于该方式确定出的质量评估结果,进行图文内容的推荐加权实验中取得了良好的业务效果,并且通过该方式进行推荐加权后推荐的图文内容,使得网页版的客户端整体优质曝光占比提升1.65%,合计效率提升0.47%,合计点击提升0.41%,人均时长提升0.18%。在预装客户端侧单次点击网页数量(pv)时长提升1.01%,主流TL优质曝光占比提升1.81%。
基于图1论述的第二种可能的应用场景,下面对本申请实施例涉及的图文内容处理方法进行示例介绍:
请参照图8所示的终端110和服务器121之间的交互示意图,该过程包括:
S801,终端110响应于推荐操作,生成获取请求。
推荐操作可以参照图6论述的内容,此处不再赘述,获取请求用于请求获取图文内容的质量评价结果。
S802,终端110将获取请求发送至服务器121。
S803,服务器121获得各图文内容的质量评估结果。
在一种可能的实施例中,S801~S803为可选的步骤,服务器121也可以提前确定好各个图文内容的质量评估结果,并存储至数据库122,终端110可以周期性或不定时地获取数据库122中的图文内容以及对应的质量评估结果。
S804,终端110根据质量评价结果,确定目标图文内容。
终端110确定目标图文内容的方式可以参照前文论述的服务器121确定目标图文内容的内容,此处不再赘述。
S806,终端110显示目标图文内容以及质量评估结果。
与图6所示的交互过程不同的是,图8所示的交互过程中,是由终端110执行确定目标图文内容的过程。图8所示的实施例中分别计算待处理图文内容在形式和内容上的评估结果,并基于两个角度的评估结果,获得更为准确且全面的评估结果,且,本申请实施例涉及的图文内容处理方法经测试后确定出的图文内容的质量评估结果的准确率更高,有利于提升终端110中客户端111的访问量等。
基于同一发明构思,本申请实施例提供一种图文内容处理装置,该图文内容处理装置相当于设置在前文论述的服务器中,请参照图9,该图文内容处理装置900包括:
获取模块910,用于获取待处理图文内容;待处理图文内容包括目标文本信息和目标图片;
第一获得模块920,用于根据目标文本信息和目标图片的目标形式特征,获得待处理图文内容在形式上的先验体验评估结果;
第二获得模块930,用于根据目标文本信息,获得待处理图文内容在内容上的内容质量评估结果;
第三获得模块940,用于根据先验体验评估结果和内容质量评估结果,获得待处理图文内容的质量评估结果。
在一种可能的实施例中,第一获得模块920还用于:
获得图文内容的排版特征;
获得目标文本信息和目标图片之间的匹配程度;排版特征和匹配程度属于目标形式特征。
在一种可能的实施例中,目标形式特征还包括如下的一种或多种:
目标图片的图片质量特征;或,
目标文本信息的词句特征;或,
发布待处理图文内容的账号等级;或,
待处理图文内容的标题特征。
在一种可能的实施例中,第一获得模块920具体用于:
将目标形式特征输入梯度提升决策树模型;其中,梯度提升决策树模型包括按照层级关系构建的多个学习器,每个学习器为一个节点;
通过梯度提升决策树模型的根节点,对目标形式特征进行第一次学习,得到第一学习结果;
将第一学习结果输入到根节点的下一级叶子节点;
以下一级叶子节点作为新的根节点继续进行学习,直到下一级叶子节点为最小叶子节点,获得最小叶子节点的学习结果;
根据最小叶子节点的学习结果,获得先验体验评估结果。
在一种可能的实施例中,梯度提升决策树模型是通过如下方式训练得到的:
获得第一样本数据;其中,第一样本数据包括多个样本图文内容中每个样本图文内容的样本形式特征,以及每个样本图文内容对应的先验体验评估结果标签;
根据多个样本形式特征,进行多轮迭代训练,并在每轮迭代训练中创建一学习器,并利用损失函数拟合上一轮迭代训练结果的残差,通过最小化损失函数拟合本轮创建的学习器;其中,每一轮迭代训练结果的残差是迭代训练输出结果与对应的先验体验评估结果标签确定的;
根据多轮迭代训练中获得的多个学习器,建立各个学习器的层级关系,获得梯度提升决策树模型。
在一种可能的实施例中,第二获得模块930具体用于:
通过内容质量模型中编码器的各个编码单元,按照目标文本序列的输入顺序,并应用注意力机制,生成每个输入位置对应的编码表示,获得编码表示序列;目标文本序列为目标文本信息的序列表示结果;
通过内容质量模型的全连接层,对编码表示序列进行映射,获得内容质量评估结果。
在一种可能的实施例中,内容质量模型是通过如下方式训练得到的:
获得第二样本数据;其中,第二样本数据包括样本图文内容对应的样本文本序列,以及样本文本序列对应的内容质量评估结果标签;
通过各个编码单元,按照样本文本序列的输入顺序,并应用注意力机制,生成每个输入位置对应的样本编码表示,获得样本编码表示序列;
通过全连接层,对样本编码表示序列进行映射,获得预测内容质量评估结果;
基于内容质量评估结果标签和预测内容质量评估结果,调整内容质量模型的模型参数,直到内容质量模型收敛,获得已训练的内容质量模型。
在一种可能的实施例中,第三获得模块940具体用于:
根据先验体验评估结果和内容质量评估结果,通过投票机制,对待处理图文内容进行投票处理,获得待处理图文内容的质量评估结果。
应当说明的是,图9所示的图文内容处理装置900还可以执行前文论述的任一的图文内容处理方法,此处不再赘述。
基于同一发明构思,本申请实施例提供一种图文内容处理装置,该图文内容处理装置相当于设置在前文论述的服务器或终端中,请参照图10,该图文内容处理装置1000包括:
获得模块1010,用于获得各图文内容的质量评价结果;其中,各图文内容的质量评价结果是通过前文任一项的图文内容处理方法获得的;
确定模块1020,用于根据各图文内容的质量评价结果,从各图文内容中确定出目标图文内容,并推荐目标图文内容。
应当说明的是,图10所示的图文内容处理装置1000还可以执行前文论述的任一的图文内容处理方法,此处不再赘述。
基于同一发明构思,本申请实施例提供一种计算机设备1100,请参照图11,该计算机设备包括处理器1101和存储器1102。
处理器1101可以是一个中央处理单元(central processing unit,CPU),或者为数字处理单元等等。本申请实施例中不限定上述存储器1102和处理器1101之间的具体连接介质。本申请实施例在图11中以存储器1102和处理器1101之间通过总线1103连接,总线1103在图11中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线1103可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器1102可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1102也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器1102是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1102可以是上述存储器的组合。
处理器1101,用于调用存储器1102中存储的计算机程序时执行如前文论述的任一的图文内容处理方法,以及还可以用于执行图9或图10的图文内容处理装置的功能,以及还可以用于实现前文终端或服务器的功能。
基于同一发明构思,本申请实施例提供一种存储介质,所述存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行前文论述的任一的图文内容处理方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
基于同一发明构思,本申请实施例提供一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的图文内容处理方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种图文内容处理方法,其特征在于,包括:
获取待处理图文内容;所述待处理图文内容包括目标文本信息和目标图片;
根据所述目标文本信息和所述目标图片的目标形式特征,获得所述待处理图文内容在形式上的先验体验评估结果;
根据所述目标文本信息,获得所述待处理图文内容在内容上的内容质量评估结果;
根据所述先验体验评估结果和所述内容质量评估结果,获得所述待处理图文内容的质量评估结果。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
获得所述待处理图文内容的排版特征;
获得所述目标文本信息和所述目标图片之间的匹配程度;所述排版特征和所述匹配程度属于目标形式特征。
3.如权利要求2所述的方法,其特征在于,所述目标形式特征还包括如下的一种或多种:
所述目标图片的图片质量特征;或,
所述目标文本信息的词句特征;或,
发布所述待处理图文内容的账号等级;或,
所述待处理图文内容的标题特征。
4.如权利要求1~3任一所述的方法,其特征在于,所述根据所述目标文本信息和所述目标图片的目标形式特征,获得所述待处理图文内容在形式上的先验体验评估结果,具体包括:
将所述目标形式特征输入梯度提升决策树模型;其中,所述梯度提升决策树模型包括按照层级关系构建的多个学习器,每个学习器为一个节点;
通过所述梯度提升决策树模型的根节点,对所述目标形式特征进行第一次学习,得到第一学习结果;
将所述第一学习结果输入到所述根节点的下一级叶子节点;
以所述下一级叶子节点作为新的根节点继续进行学习,直到所述下一级叶子节点为最小叶子节点,获得所述最小叶子节点的学习结果;
根据所述最小叶子节点的学习结果,获得先验体验评估结果。
5.如权利要求4所述的方法,其特征在于,所述梯度提升决策树模型是通过如下方式训练得到的:
获得第一样本数据;其中,所述第一样本数据包括多个样本图文内容中每个样本图文内容的样本形式特征,以及每个样本图文内容对应的先验体验评估结果标签;
根据多个样本形式特征,进行多轮迭代训练,并在每轮迭代训练中创建一学习器,并利用损失函数拟合上一轮迭代训练结果的残差,通过最小化损失函数拟合本轮创建的学习器;其中,每一轮迭代训练结果的残差是迭代训练输出结果与对应的先验体验评估结果标签确定的;
根据多轮迭代训练中获得的多个学习器,建立各个学习器的层级关系,获得梯度提升决策树模型。
6.如权利要求1~3任一项所述的方法,其特征在于,所述根据所述目标文本信息,获得所述待处理图文内容在内容上的内容质量评估结果,具体包括:
通过内容质量模型中编码器的各个编码单元,按照目标文本序列的输入顺序,并应用注意力机制,生成每个输入位置对应的编码表示,获得编码表示序列;其中,所述目标文本序列是所述目标文本信息的序列表示结果;
通过所述内容质量模型的全连接层,对所述编码表示序列进行映射,获得内容质量评估结果。
7.如权利要求6所述的方法,其特征在于,所述内容质量模型是通过如下方式训练得到的:
获得第二样本数据;其中,所述第二样本数据包括样本图文内容对应的样本文本序列,以及样本文本序列对应的内容质量评估结果标签;
通过所述各个编码单元,按照所述样本文本序列的输入顺序,并应用注意力机制,生成每个输入位置对应的样本编码表示,获得样本编码表示序列;
通过所述全连接层,对所述样本编码表示序列进行映射,获得预测内容质量评估结果;
基于所述内容质量评估结果标签和所述预测内容质量评估结果,调整所述内容质量模型的模型参数,直到内容质量模型收敛,获得已训练的内容质量模型。
8.如权利要求1~3任一项所述的方法,其特征在于,所述根据所述先验体验评估结果和所述内容质量评估结果,获得所述待处理图文内容的质量评估结果,具体包括:
根据所述先验体验评估结果和所述内容质量评估结果,通过投票机制,对所述待处理图文内容进行投票处理,获得所述待处理图文内容的质量评估结果。
9.一种图文内容处理方法,其特征在于,包括:
获得各图文内容的质量评价结果;其中,所述各图文内容的质量评价结果是通过权利要求1~8中任一项所述的方法获得的;
根据所述各图文内容的质量评价结果,从所述各图文内容中确定出目标图文内容,并推荐所述目标图文内容。
10.一种存储介质,其特征在于,所述存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1~8或9中任一项所述的方法。
CN202011042702.8A 2020-09-28 2020-09-28 图文内容处理方法及介质 Active CN112132075B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011042702.8A CN112132075B (zh) 2020-09-28 2020-09-28 图文内容处理方法及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011042702.8A CN112132075B (zh) 2020-09-28 2020-09-28 图文内容处理方法及介质

Publications (2)

Publication Number Publication Date
CN112132075A true CN112132075A (zh) 2020-12-25
CN112132075B CN112132075B (zh) 2022-07-08

Family

ID=73844360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011042702.8A Active CN112132075B (zh) 2020-09-28 2020-09-28 图文内容处理方法及介质

Country Status (1)

Country Link
CN (1) CN112132075B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537192A (zh) * 2021-06-30 2021-10-22 北京百度网讯科技有限公司 图像检测方法、装置、电子设备及存储介质
CN113822340A (zh) * 2021-08-27 2021-12-21 北京工业大学 一种基于注意力机制的图文情感识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190205939A1 (en) * 2017-12-31 2019-07-04 OneMarket Network LLC Using Machine Learned Visitor Intent Propensity to Greet and Guide a Visitor at a Physical Venue
CN111311554A (zh) * 2020-01-21 2020-06-19 腾讯科技(深圳)有限公司 图文内容的内容质量确定方法、装置、设备及存储介质
CN111310436A (zh) * 2020-02-11 2020-06-19 腾讯科技(深圳)有限公司 基于人工智能的文本处理方法、装置及电子设备
CN111339765A (zh) * 2020-02-18 2020-06-26 腾讯科技(深圳)有限公司 文本质量评估方法、文本推荐方法及装置、介质及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190205939A1 (en) * 2017-12-31 2019-07-04 OneMarket Network LLC Using Machine Learned Visitor Intent Propensity to Greet and Guide a Visitor at a Physical Venue
CN111311554A (zh) * 2020-01-21 2020-06-19 腾讯科技(深圳)有限公司 图文内容的内容质量确定方法、装置、设备及存储介质
CN111310436A (zh) * 2020-02-11 2020-06-19 腾讯科技(深圳)有限公司 基于人工智能的文本处理方法、装置及电子设备
CN111339765A (zh) * 2020-02-18 2020-06-26 腾讯科技(深圳)有限公司 文本质量评估方法、文本推荐方法及装置、介质及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537192A (zh) * 2021-06-30 2021-10-22 北京百度网讯科技有限公司 图像检测方法、装置、电子设备及存储介质
CN113537192B (zh) * 2021-06-30 2024-03-26 北京百度网讯科技有限公司 图像检测方法、装置、电子设备及存储介质
CN113822340A (zh) * 2021-08-27 2021-12-21 北京工业大学 一种基于注意力机制的图文情感识别方法

Also Published As

Publication number Publication date
CN112132075B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
DE102019000433A1 (de) Generieren einer themenbasierten Zusammenfassung eines Textinhalts
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN111680217A (zh) 内容推荐方法、装置、设备及存储介质
US20210042476A1 (en) Intelligent Routing Services and Systems
US11776269B2 (en) Action classification in video clips using attention-based neural networks
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN113705313A (zh) 文本识别方法、装置、设备及介质
CN112132075B (zh) 图文内容处理方法及介质
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
US20230169271A1 (en) System and methods for neural topic modeling using topic attention networks
CN114818691A (zh) 文章内容的评价方法、装置、设备及介质
Huang et al. C-Rnn: a fine-grained language model for image captioning
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
Long et al. Cross-domain personalized image captioning
CN116958738A (zh) 图片识别模型的训练方法和装置、存储介质及电子设备
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
Dehaqi et al. Adversarial image caption generator network
CN113626564B (zh) 一种概念标签生成方法、装置、电子设备和存储介质
CN113421551B (zh) 语音识别方法、装置、计算机可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant