CN110569377B - 一种媒体文件的处理方法和装置 - Google Patents

一种媒体文件的处理方法和装置 Download PDF

Info

Publication number
CN110569377B
CN110569377B CN201910857477.4A CN201910857477A CN110569377B CN 110569377 B CN110569377 B CN 110569377B CN 201910857477 A CN201910857477 A CN 201910857477A CN 110569377 B CN110569377 B CN 110569377B
Authority
CN
China
Prior art keywords
comment
feature
media file
quality
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910857477.4A
Other languages
English (en)
Other versions
CN110569377A (zh
Inventor
黄申
黎功福
徐进
何宗虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910857477.4A priority Critical patent/CN110569377B/zh
Publication of CN110569377A publication Critical patent/CN110569377A/zh
Application granted granted Critical
Publication of CN110569377B publication Critical patent/CN110569377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种媒体文件的处理方法、装置、电子设备及存储介质。其中,所述方法包括:获取媒体文件;加载与所述媒体文件关联的评论数据;对所述评论数据进行特征提取,得到对应的评论统计特征和评论文本特征;对所述评论文本特征进行类别识别,得到对应的评论分类特征;对所述评论分类特征进行情感识别,得到对应的情感极性特征;基于所述评论统计特征、所述评论分类特征以及所述情感极性特征的特征融合,确定所述媒体文件的评论质量评分;基于所述媒体文件的评论质量评分,评估所述媒体文件的质量。通过本发明,能够有效提高对媒体文件的质量进行评估的准确度。

Description

一种媒体文件的处理方法和装置
技术领域
本发明涉及人工智能(AI,Artificial Intelligence)领域中的机器学习技术,尤其涉及一种媒体文件的处理方法、装置、电子设备及存储介质。
背景技术
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。人工智能技术现如今已得到快速发展,并广泛应用于各种行业。
机器学习技术是人工智能的重要应用分支,利用机器学习技术评估整个媒体文件的质量,根据媒体文件的质量进行推荐,在资讯推荐类产品,比如微信看一看中发挥着重要的作用。
然而,相关技术中提供的评估媒体文件的质量的方法,往往只考虑影响媒体文件的质量的片面信息,使得无法准确的评估媒体文件的质量。
发明内容
本发明实施例提供一种媒体文件的处理方法、装置、电子设备及存储介质,能够有效提高对媒体文件的质量进行评估的准确度。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种媒体文件的处理方法,所述方法包括:
获取媒体文件;
加载与所述媒体文件关联的评论数据;
对所述评论数据进行特征提取,得到对应的评论统计特征和评论文本特征;
对所述评论文本特征进行类别识别,得到对应的评论分类特征;
对所述评论分类特征进行情感识别,得到对应的情感极性特征;
基于所述评论统计特征、所述评论分类特征以及所述情感极性特征的特征融合,确定所述媒体文件的评论质量评分;
基于所述媒体文件的评论质量评分,评估所述媒体文件的质量。
本发明实施例还提供一种媒体文件的处理装置,所述装置包括:
获取单元,用于获取媒体文件;
数据加载单元,用于加载与所述媒体文件关联的评论数据;
特征提取单元,用于对所述评论数据进行特征提取,得到对应的评论统计特征和评论文本特征;
类别识别单元,用于对所述评论文本特征进行类别识别,得到对应的评论分类特征;
情感识别单元,用于对所述评论分类特征进行情感识别,得到对应的情感极性特征;
特征融合单元,用于基于所述评论统计特征、所述评论分类特征以及所述情感极性特征的特征融合,确定所述媒体文件的评论质量评分;
质量评估单元,用于基于所述媒体文件的评论质量评分,评估所述媒体文件的质量。
上述方案中,所述类别识别单元,还用于:
基于所述评论文本特征与低质词特征模板的匹配,识别所述评论文本特征属于低质评论;
通过以下方式识别所述评论文本特征中的评价对象:评价对象特征模板和第一神经网络模型,并识别所述评论文本特征属于针对评价对象的水平的评论;
将所述评论文本特征中,除所述低质评论与所述针对评价对象的水平的评论之外的评论,识别为属于其他有效观点评论。
上述方案中,所述类别识别单元,还用于:
基于所述评论文本特征与所述评价对象特征模板的匹配,识别所述评论文本特征中显式出现的评价对象;
通过所述第一神经网络模型,对所述评论文本特征对应的特征向量进行分类处理,得到所述第一神经网络模型输出的所述评论文本特征中隐含评价对象的概率值,当得到的所述概率值大于概率阈值时,识别所述评论文本特征中隐式出现的评价对象。
上述方案中,所述情感识别单元,还用于:
通过第二神经网络模型包括的特征提取器,确定对应所述评论分类特征的字序列特征向量;
通过所述第二神经网络模型包括的转换编码器,对所述字序列特征向量进行语义分析,得到具有深层语义的字序列特征向量;
通过所述第二神经网络模型包括的最大似然函数层,对所述具有深层语义的字序列特征向量进行分类处理,得到所述评论分类特征对应多个情感极性的概率;
将具有最大概率的情感极性类别确定为所述评论分类特征对应的情感极性特征。
上述方案中,所述情感识别单元,还用于:
通过所述特征提取器对所述评论分类特征进行特征提取,得到所述评论分类特征中各个字的特征向量;
基于所述各个字在所述评论分类特征对应的语句中的位置,确定各个字的位置特征向量;
将所述各个字的特征向量以及所述各个字的位置特征向量进行拼接,得到对应所述评论分类特征的字序列特征向量。
上述方案中,所述媒体文件的处理装置还包括:
构建单元,用于构建第一训练样本集合;
第一训练单元,用于基于所述第一训练样本集合,对所述第二神经网络模型中的特征提取器进行预训练,以及对所述第二神经网络模型中的转换编码器进行预训练;
第二训练单元,用于基于所述第一训练样本集合,训练所述第二神经网络模型。
上述方案中,所述第二训练单元,还用于:
初始化所述第二神经网络模型的输入层、中间层和输出层,并初始化包括输入样本、输出结果以及第二神经网络模型参数的损失函数;
在所述第二神经网络模型每次迭代训练过程中执行以下处理:
以所述第一训练样本集合包括的评论分类特征数据样本为所述输入样本,并以所述情感极性类别为所述输出结果,将所述输入样本和所述输出结果代入所述损失函数,以确定所述损失函数取得最小值时对应的第二神经网络模型参数;
基于所确定的第二神经网络模型参数更新所述第二神经网络模型。
上述方案中,所述第二训练单元,还用于:
基于语料数据库对应的学习率,调整所确定的第二神经网络模型参数,得到新的第二神经网络模型参数;
基于所述新的第二神经网络模型参数更新所述第二神经网络模型。
上述方案中,所述特征融合单元,还用于:
分别确定所述评论统计特征、所述评论分类特征以及所述情感极性特征对所述媒体文件的质量的影响程度;
基于所述影响程度,确定对应所述评论统计特征、所述评论分类特征以及所述情感极性特征的权重;
对所述评论统计特征、所述评论分类特征以及所述情感极性特征进行加权求和处理,得到所述媒体文件的评论质量评分。
上述方案中,所述评论分类特征包括:针对评价对象的水平的评论;低质评论;其他有效观点评论时,所述情感识别单元,还用于:
对所述针对评价对象的水平的评论进行情感识别,得到对应所述评价对象的情感极性特征。
上述方案中,所述特征融合单元,还用于:
分别确定所述评论统计特征、所述低质评论、所述其他有效观点评论,以及对应所述评价对象的情感极性特征,对所述媒体文件的质量的影响程度;
基于所述影响程度,确定对应所述评论统计特征、所述低质评论、所述其他有效观点评论,以及对应所述评价对象的情感极性特征的权重;
对所述评论统计特征、所述低质评论、所述其他有效观点评论,以及对应所述评价对象的情感极性特征进行加权求和处理,得到所述媒体文件的评论质量评分。
上述方案中,所述媒体文件的处理装置还包括:
确定单元,用于在所述质量评估单元基于所述媒体文件的评论质量评分,评估所述媒体文件的质量之后,当所述媒体文件的质量符合质量劣质标准时,将所述媒体文件确定为劣质媒体文件;
过滤单元,用于对所述劣质媒体文件进行过滤处理。
上述方案中,所述媒体文件的处理装置还包括:
发送单元,用于将所述媒体文件及对应的所述媒体文件的评论质量评分发送至区块链网络中,以使
所述区块链网络的节点将所述媒体文件及对应的所述媒体文件的评论质量评分填充至新区块,且当对所述新区块取得共识一致时,将所述新区块追加至区块链的尾部。
本发明实施例还提供一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的媒体文件的处理方法。
本发明实施例还提供一种存储介质,存储有可执行指令,所述可执行指令被执行时,用于实现本发明实施例提供的媒体文件的处理方法。
应用本发明上述实施例具有以下有益效果:
应用本发明实施例提供的媒体文件的处理方法、装置、电子设备及存储介质,由于媒体文件的评论内容可作为直接反映媒体文件的质量的重要因素,因此,本发明实施例通过加载与媒体文件关联的评论数据,在对评论数据进行特征提取的过程中,得到评论数据的特征值包括:评论统计特征和评论文本特征,根据评论文本特征得到评论分类特征及情感极性特征,从而能够结合评论统计特征、评论分类特征以及情感极性特征,更加全面和精确的确定媒体文件的评论质量评分,以用来评估媒体文件的质量。
如此,利用评论数据的全面且有效的特征信息对评论数据进行评分,所得到的评分能够更准确、真实的反映媒体文件的质量优劣,进而能够有效提高对媒体文件的质量进行评估的准确度,尤其对评论文本特征较少的媒体文件而言,在实际应用中更加具有应用价值。
附图说明
图1为本发明实施例提供的媒体文件的处理系统10的一个可选的架构示意图;
图2A为本发明实施例提供的电子设备20的一个可选的硬件结构示意图;
图2B为本发明实施例提供的媒体文件的处理装置255的一个可选的组成结构示意图;
图3A至3D为本发明实施例提供的媒体文件的处理方法的一个可选的流程示意图;
图4为本发明实施例提供的文章正文及对应的评论内容的显示示意图;
图5为本发明实施例提供的评论分类标注规则及对应示例的显示示意图;
图6为本发明实施例提供的实施本发明实施例的评论分类识别方法的CNN模型的一个可选的结构示意图;
图7为本发明实施例提供的第二神经网络模型的一个可选的结构示意图;
图8为本发明实施例提供的媒体文件的处理装置255的架构示意图;
图9为本发明实施例提供的区块链网络81中区块链的一个可选的结构示意图;
图10为本发明实施例提供的区块链网络81的功能架构示意图;
图11为本发明实施例提供的媒体文件的处理方法的另一个可选的流程示意图;
图12为本发明实施例提供的微信看一看客户端中呈现推荐文章的显示示意图;
图13为本发明实施例提供的文章质量的评估方法的一个可选的原理结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且本发明实施例所记载的各技术方案之间,可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一”、“第二”等仅仅是用于区别类似的对象,不代表针对对象的特定的顺序或先后次序,可以理解地,“第一”、“第二”等在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在图示或描述的以外的顺序实施。
除非另有定义,本发明实施例所使用的所有的技术和科学术语与属于本发明实施例的技术领域的技术人员通常理解的含义相同。本发明中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本发明。
在对本发明实施例进行进一步详细说明之前,先对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)媒体文件,互联网中可获取的各种形式(如视频、音频、图文等媒体形式)的媒体,例如客户端中呈现的视频文件、包括图文形式的文章(如网络文章或新媒体文章)、新闻等。
2)评论统计特征,表示针对媒体文件的评论的统计数据,例如,媒体文件的评论次数、媒体文件的评论率、媒体文件的评论被点赞次数、媒体文件的评论点赞率、评论是否为精选评论等。
3)媒体文件的评论率,媒体文件的评论次数与曝光量的比值。
4)媒体文件的评论点赞率,媒体文件的评论被点赞次数与曝光量的比值。
5)评论文本特征,表示针对媒体文件的评论的文本内容,包括评论中的文字描述、评论中的表情信息。
6)低质评论,是指对媒体文件进行的“垃圾评论”,例如广告关键词、谩骂词语等,通常对媒体文件的质量没有帮助,是需要进行过滤的。
7)其他有效观点评论,可能会包含各种不同的讨论主题、对象,做出评论的用户的情感也各不相同,通常认为这些评论都是对媒体文件的一种认可和参与,其中,高质量的有效观点评论也能反映媒体文件的优质。本发明实施例中,为了区分方便和清楚,将所有的评论中,除了针对评价对象的水平的评论和低质评论以外的评论,统称为其他有效观点评论。
8)影响程度,表示媒体文件被用户关注(例如点击、评论)时,对媒体文件的质量所产生影响的度量。也可以理解为对媒体文件的质量的贡献程度。
9)用户画像,包括用户兴趣画像和用户基础画像;其中,
用户兴趣画像,是指真实用户的虚拟代表,是建立在一系列属性数据之上的目标用户模型,本文中是指根据用户的历史行为数据抽象出的对应用户的层次化的兴趣模型,用于指示用户的兴趣分类;
用户基础画像,是根据用户的真实性别、年龄、收入情况、常驻登录地等用户基础信息而抽象出的标签化的用户的信息全貌。
10)交易(Transaction),等同于计算机术语“事务”,交易包括了需要提交到区块链网络执行的操作,并非单指商业语境中的交易,鉴于在区块链技术中约定俗成地使用了“交易”这一术语,本发明实施例遵循了这一习惯。
例如,部署(Deploy)交易用于向区块链网络中的节点安装指定的智能合约并准备好被调用;调用(Invoke)交易用于通过调用智能合约在区块链中追加交易的记录,并对区块链的状态数据库进行操作,包括更新操作(包括增加、删除和修改状态数据库中的键值(Key-Value)对)和查询操作(即查询状态数据库中的键值对)。
11)区块链(Block Chain),是由区块(Block)形成的加密的、链式的交易的存储结构。
例如,每个区块的头部既可以包括区块中所有交易的哈希值,同时也包含前一个区块中所有交易的哈希值,从而基于哈希值实现区块中交易的防篡改和防伪造;新产生的交易被填充到区块并经过区块链网络中节点的共识后,会被追加到区块链的尾部从而形成链式的增长。
12)区块链网络(Block Chain Network),通过共识的方式将新区块纳入区块链的一系列的节点的集合。
13)账本(Ledger),是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。
其中,区块链是以文件系统中的文件的形式来记录交易;状态数据库是以不同类型的键(Key)值(Value)对的形式来记录区块链中的交易,用于支持对区块链中交易的快速查询。
14)智能合约(Smart Contracts),也称为链码(Chain Code)或应用代码,部署在区块链网络的节点中的程序,该程序是根据条件而触发执行的,节点执行接收的交易中所调用的智能合约,来对状态数据库的键值对数据进行更新或查询的操作。
15)共识(Consensus),是区块链网络中的一个过程,用于在涉及的多个节点之间对区块中的交易达成一致,达成一致的区块将被追加到区块链的尾部,实现共识的机制包括工作量证明(PoW,Proof of Work)、权益证明(PoS,Proof of Stake)、股份授权证明(DPoS,Delegated Proof-of-Stake)、消逝时间量证明(PoET,Proof of Elapsed Time)等。
本发明实施例提供的媒体文件的处理方法涉及人工智能领域,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
机器学习技术是人工智能的重要应用分支,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。本发明实施例通过机器学习技术可对加载的媒体文件,比如文章关联的大量的评论数据进行分析处理,以确定文章的评论质量评分,进而识别文章的质量优劣,为资讯推荐类产品提供了强有力的技术支持,即通过对文章的质量进行评估,提高了资讯推荐类产品比如微信看一看中展现给用户的文章质量,并最终提高了资讯推荐类产品的口碑和用户活跃度。
下面以媒体文件为文章为例,分析相关技术提供的关于评估媒体文件的质量的方案。
在相关技术的一些方案中,采用文章的标题和正文等静态特征,比如文本或图片特征的方式,来判断文章是否有低质问题。这种评估方法由于只使用了文章的标题和正文等静态特征,可以识别规则明确的低质问题,但是,却难以判断文章的整体质量是否优质。优质文章通常受多方面的因素影响,难以制定明确的规则进行描述。可见,如果将这些静态的特征作为输入,使用基于机器学习的统计方法进行文章的整体质量的识别,会需要大量样本进行学习,从而将耗费大量的标注人力;同时,由于不同的标注人力对质量优劣的主观理解不一致,导致标注中存在的不一致现象也将降低机器学习模型的学习效果;此外,还有可能出现模型难以解释、难以调整和优化的问题。尤其是对于正文文本特征较少的文章,比如纯图片类或纯视频类的文章来说,仅使用静态图文特征将难以把控文章的整体质量。
在相关技术的另一些方案中,采用对文章的阅读数和点赞数等动态数值特征进行加权和组合的方式,来判断文章是否符合读者兴趣,例如,当统计出的文章的阅读数超出阅读数阈值时,则确定该文章符合读者兴趣,也即该文章的质量较高。然而,上述利用文章的动态数值特征进行评估的方法,难以解释文章优质的深层原因,且很容易受标题党、利诱、活动等因素干扰,极有可能将一些只有后验行为但本身质量不高的文章误判为优质,导致评估文章的质量的准确度降低。
在相关技术的另一些方案中,采用正则表达式识别命中关键词表中的关键词的文章评论,作为文章的正负反馈数据,以辅助判断文章的质量的方法。该方法中的关键词表的构造费时费力,且关键词表的覆盖面有限,很容易出现一些关键词的遗漏问题,尤其是没有考虑文章评论的上下文信息,会出现将在不同语境下具有不同含义的关键词误判到同一类中的现象,导致评估文章的质量的准确度降低。
为至少解决相关技术的上述技术问题,本发明实施例提供了一种媒体文件的处理方法、装置、电子设备及存储介质,利用评论数据的全面且有效的特征信息对评论数据进行评分,所得到的评分能够更准确、真实的反映媒体文件的质量优劣,进而能够有效提高对媒体文件的质量进行评估的准确度。
下面说明实施本发明实施例的媒体文件的处理方法的电子设备的示例性应用,本发明实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的终端设备,也可以实施为服务器,比如部署在云端的云服务器。
下面将参考附图对本发明实施例的媒体文件的处理系统的示例性应用进行说明。
参见图1,图1为本发明实施例提供的媒体文件的处理系统10的一个可选的架构示意图,为实现支撑的一个示例性应用,终端100可以被用来采集媒体文件,比如含有评论数据的文章、视频等,在一些示例中,终端100可用于本地执行本发明实施例提供的媒体文件的处理方法,在获取到媒体文件后,加载与媒体文件关联的评论数据,提取并分析评论数据中有助于评估媒体文件的质量的有效信息部分,有效信息包括评论统计特征、评论分类特征以及情感极性特征,并结合评论统计特征、评论分类特征以及情感极性特征,确定媒体文件的评论质量评分,以用来评估媒体文件的质量。当评估出的媒体文件的质量符合质量优质标准时,即媒体文件属于优质媒体文件,将该优质媒体文件通过网络200发送至媒体文件推荐系统300,由媒体文件推荐系统300在接收到用户发起的获取目标媒体文件的请求时,根据发起获取请求的用户对应的用户画像数据,确定该优质媒体文件是否符合用户的兴趣,如果确定符合用户的兴趣,则将该优质媒体文件作为目标媒体文件,并发送至发起获取请求的用户。当评估出的媒体文件的质量符合质量劣质标准时,即媒体文件属于劣质媒体文件,则终端100可对该劣质媒体文件进行过滤处理。
当然,如图1所示,在另一些示例中,终端100也可以通过网络200向服务器400发送采集到的媒体文件,服务器400在接收到终端100上传的媒体文件后,调用服务器400提供的远程评估媒体文件的质量的功能,来执行本发明实施例提供的媒体文件的处理方法,通过加载与媒体文件关联的评论数据,提取并分析评论数据中有助于评估媒体文件的质量的有效信息部分,确定媒体文件的评论质量评分,以用来评估媒体文件的质量。根据媒体文件的质量不同,可将媒体文件分为大致两种类型:优质媒体文件和劣质媒体文件。当识别出媒体文件属于优质媒体文件时,服务器400将媒体文件发送至媒体文件推荐系统300,由媒体文件推荐系统300根据用户画像数据采取推荐策略;当识别出媒体文件属于劣质媒体文件时,则服务器400直接对媒体文件执行过滤处理,并将过滤掉的劣质媒体文件发送至媒体文件拦截数据库500中进行存储。
这里,终端100可以基于各种无线通信方式,或者有线通信方式,通过网络200与服务器400进行连接。其中,网络200可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
终端100可以在图形界面110中显示媒体文件的处理过程中的各种中间结果和最终结果,例如,显示媒体文件的评论质量评分,或者显示评估出的媒体文件的质量优劣的结果。
接下来继续对实施本发明实施例的媒体文件的处理方法的电子设备的硬件结构进行说明。电子设备可以实施为终端设备,还可以实施为如图1示出的服务器400。
参见图2A,图2A为本发明实施例提供的电子设备20的一个可选的硬件结构示意图,可以理解,图2A仅仅示出了电子设备的示例性结构而非全部结构,根据需要可以实施图2A示出的部分结构或全部结构。本发明实施例提供的电子设备20包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。电子设备20中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2A中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的媒体文件的处理装置可以采用软件方式实现,图2A示出了存储在存储器250中的媒体文件的处理装置255,其可以是程序和插件等形式的软件,包括一系列的软件模块,参见图2B,图2B为本发明实施例提供的媒体文件的处理装置255的一个可选的组成结构示意图,例如,媒体文件的处理装置255包括:获取单元2551、数据加载单元2552、特征提取单元2553、类别识别单元2554、情感识别单元2555、特征融合单元2556和质量评估单元2557,这些单元的功能是逻辑上的,因此,根据各软件模块所实现的功能可以进行任意的组合或进一步的拆分。这里,需要说明的是,对于图2B所示的本发明实施例提供的媒体文件的处理装置255中的各个单元的具体功能,将在下文进行说明。
在另一些实施例中,本发明实施例提供的媒体文件的处理装置可以采用硬件方式实现,作为示例,本发明实施例提供的媒体文件的处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的媒体文件的处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
下面将结合本发明实施例提供的电子设备的示例性应用和实施,对本发明实施例提供的媒体文件的处理方法的实现进行说明。
参见图3A,图3A为本发明实施例提供的媒体文件的处理方法的一个可选的流程示意图,根据上文可以理解,本发明实施例提供的媒体文件的处理方法可由服务器实施,也可由终端设备实施。下面以电子设备为服务器为例,即由服务器执行本发明实施例提供的媒体文件的处理方法为例,结合图3A示出的步骤进行说明。
步骤301,获取媒体文件。
在本发明实施例中,服务器获取的媒体文件可由终端设备进行采集并上传的,也就是说,服务器获取媒体文件可采用以下方式实现:接收终端设备通过调用采集装置获取到的媒体文件。
具体来说,服务器获取的媒体文件,可以是由终端设备通过调用自身的采集装置,例如安装于终端设备上的摄像头来采集媒体文件,然后将采集到的媒体文件发送给服务器;也可以是通过调用部署在上述终端设备所处环境中的其他采集装置,例如与上述终端设备处于同一环境下的照相机,由照相机来采集媒体文件,然后将采集到的媒体文件直接发送给服务器,当然,也可以是照相机先发送给终端设备,然后经由终端设备进行转发,将媒体文件发送给服务器。对于服务器选择采用哪种方式获取媒体文件,本发明实施例在此不做限定。
步骤302,加载与所述媒体文件关联的评论数据。
需要说明的是,本发明实施例中服务器获取的媒体文件,为含有评论内容的媒体文件,例如,可以是含有评论内容的文章、视频、新闻等。在一些示例中,服务器可以获取终端设备上报的日志中的媒体文件,并加载日志中的媒体文件相关联的评论数据。
以媒体文件为文章为例,参见图4,图4为本发明实施例提供的文章正文及对应的评论内容的显示示意图,图4的左图显示的是文章正文,图4的右图显示的是针对文章的评论内容(即评论数据)的评论区,在实际应用中,评论区可设置在文章正文的底部,评论区中显示了大量用户对于文章的评论,用户评论的内容可以侧面反映该文章的质量。
步骤303,对所述评论数据进行特征提取,得到对应的评论统计特征和评论文本特征。
这里,评论数据通常包括两个部分:评论文本和评论统计数据,服务器可采用基于深度神经网络的方法对评论数据进行特征提取,以得到评论数据中对应的评论统计特征和评论文本特征。需要指出的是,在实际应用中,评论统计特征和评论文本特征通常可以以特征向量的形式进行表示。
步骤304,对所述评论文本特征进行类别识别,得到对应的评论分类特征。
在本发明实施例中,提出了一种对媒体文件关联的评论文本特征进行分类的分类规则,根据提出的分类规则可预先对评论进行相应的类别标注,参见图5,图5为本发明实施例提供的评论分类标注规则及对应示例的显示示意图,按照对媒体文件的质量的贡献程度或影响程度设计分类规则,将评论分为以下三种类型:针对评价对象的水平的评论;低质评论;其他有效观点评论。下面对上述三种类型的评论进行说明。
针对评价对象的水平的评论,是对媒体文件的质量的直接反馈,其中,评价对象包括以下至少之一:媒体文件的内容;对应媒体文件的作者。举例来说,评论中大量出现“好精辟”、“太经典了”等对媒体文件的内容的水平进行表扬的评价,通常这样的评论对应的媒体文件的质量较高,适合推送给用户;而评论中出现“假新闻”、“垃圾文章”等批评媒体文件的内容,或者媒体文件的作者的水平的评价,通常这样的评论对应的媒体文件的质量很有可能较差,需要进行召回或排序侧的打压或过滤。
低质评论,比如涉及违法的评论,广告或水军等内容,谩骂词语等,这些评论通常是无意义的,且与媒体文件的质量不相关。
其他有效观点评论,体现读者对媒体文件的一种认可和参与,即将所有的评论中,除了针对评价对象的水平的评论和低质评论以外的评论,统称为其他有效观点评论。
在一些实施例中,参见图3B,图3B为本发明实施例提供的媒体文件的处理方法的一个可选的流程示意图,基于图3A,上述步骤304中服务器对评论文本特征进行类别识别,得到对应的评论分类特征,还可以具体通过以下步骤3041至步骤3043来实现,下面将结合各步骤进行说明。
步骤3041,基于评论文本特征与低质词特征模板的匹配,识别评论文本特征属于低质评论。
在一些实施例中,服务器可采用以下方式识别评论文本特征属于低质评论:从评论文本特征中提取至少一个维度的特征,利用所提取的特征与低质词特征模板进行匹配,获得所提取的特征与低质词特征模板的相似度;当得到的相似度超过低质词特征相似度阈值时,确定评论文本特征中存在符合低质词特征模板的低质评论。
这里,低质词特征模板可根据实际需要进行预先设置,低质词特征模板中的低质词可包括电话号码、广告关键词、谩骂词语等。本发明实施例采用基于正则表达式的方法,判断评论文本特征中是否存在满足低质词特征模板的条件的低质词,当存在时,则判断该评论文本特征属于低质评论。
步骤3042,通过以下方式识别评论文本特征中的评价对象:评价对象特征模板和第一神经网络模型,并识别评论文本特征属于针对评价对象的水平的评论。
在一些实施例中,服务器可采用以下方式识别评论文本特征中的评价对象:
基于评论文本特征与评价对象特征模板的匹配,识别评论文本特征中显式出现的评价对象;
通过第一神经网络模型,对评论文本特征对应的特征向量进行分类处理,得到第一神经网络模型输出的评论文本特征中隐含评价对象的概率值,当得到的概率值大于概率阈值时,识别评论文本特征中隐式出现的评价对象。
具体来说,服务器可采用以下方式基于评论文本特征与评价对象特征模板的匹配,识别评论文本特征中显式出现的评价对象:从评论文本特征中提取至少一个维度的特征,利用所提取的特征与评价对象特征模板进行匹配,获得所提取的特征与评价对象特征模板的相似度;当得到的相似度超过评价对象特征相似度阈值时,确定评论文本特征中存在符合评价对象特征模板的评价对象。也就是说,本发明实施例采用基于正则表达式的方式,识别评论中显式出现的“作者”、“文章”等评价对象。
在本发明实施例中,第一神经网络模型可为机器学习中的分类模型,具体地,第一神经网络模型包括以下至少之一:卷积神经网络(CNN,Convolutional Neural Network)模型;循环神经网络(RNN,Recurrent Neural Network)模型;支持向量机(SVM,SupportVector Machine)模型;逻辑回归(LR,Logistic Regression)模型;决策树模型。
下面以第一神经网络模型为CNN模型为例,对实施本发明实施例的评论分类识别方法的CNN模型的结构进行说明。
参见图6,图6为本发明实施例提供的实施本发明实施例的评论分类识别方法的CNN模型的一个可选的结构示意图,作为示例,该CNN模型包括:输入层、若干个中间层及输出层。其中,输入层用于接收待识别的评论文本数据;中间层也可称为隐藏层,图6中示例性示出了5个中间层,包括第一卷积层、第一最大池化层、第二卷积层、第二最大池化层及全连接层,中间层主要用于对待识别的评论文本数据对应的特征向量进行分类处理;输出层用于输出评论文本数据中隐含评价对象的概率值。服务器在接收到上述CNN模型的输出层输出显示的概率值后,将得到的概率值与概率阈值进行比较,当确定概率值大于概率阈值时,则可识别评论文本数据中隐式出现的评价对象。
下面基于图6所示的CNN模型的结构,对识别评论文本数据中隐式出现的评价对象的实现进行说明。
在将评论文本数据输入至输入层之前,先将评论文本数据进行分词处理,然后将分词后的评论文本数据输入至输入层(或称为输入嵌入层),通过查询Lookup table函数,对分词后的评论文本数据中的每个词进行向量化表示,得到词向量序列;接下来,将词向量序列输入至第一卷积层中,经过在滑动窗口上的卷积操作得到评论文本的特征向量表示,将评论文本的特征向量表示输入至第一最大池化层中,使用最大池化的方式对评论文本的特征向量表示进行降采样,得到压缩后的评论文本的特征向量表示,该压缩后的评论文本的特征向量表示具有更大的感受野;基于第二卷积层和第二最大池化层重复上述的卷积操作和降采样操作,进一步压缩评论文本的特征向量表示,提取出有效的评论文本的特征向量表示,将有效的评论文本的特征向量表示输入至全连接层中,经过矩阵运算和归一化指数函数(Softmax)的非线性变换,输出值域为[0,1]的预测值,当预测值大于预先设定的概率阈值,比如0.5时,则识别评论文本数据中隐式出现的评价对象。
在一些实施例中,媒体文件的处理方法还可包括:构建第二训练样本集合;基于所述第二训练样本集合,对所述第一神经网络模型进行训练。
具体来说,可采用以下方式对第一神经网络模型进行训练:初始化第一神经网络模型的输入层、中间层和输出层,并初始化包括输入样本、输出结果以及第一神经网络模型参数的损失函数;在第一神经网络模型每次迭代训练过程中执行以下处理:以第二训练样本集合包括的评论文本数据样本为输入样本,并以评论文本数据中隐含评价对象的概率值为输出结果,将输入样本和输出结果代入损失函数,以确定损失函数取得最小值时对应的第一神经网络模型参数;根据所确定的第一神经网络模型参数更新第一神经网络模型。
在一些实施例中,服务器在识别出评论文本特征中的评价对象之后,可采用以下方式识别评论文本特征属于针对评价对象的水平的评论:从评论文本特征中提取至少一个维度的特征,利用所提取的特征与针对评价对象的评价词特征模板进行匹配,获得所提取的特征与评价词特征模板的相似度;当得到的相似度超过评价词特征相似度阈值时,确定评论文本特征中存在符合评价词特征模板的评价词。由于经过上述步骤识别出评论文本特征中包括针对评价对象的评价词,因此,可以准确的识别评论为针对评价对象的水平的评论。
步骤3043,将评论文本特征中,除低质评论与针对评价对象的水平的评论之外的评论,识别为属于其他有效观点评论。
需要说明的是,由于其他有效观点评论中数据噪音较多,若直接进行分类识别有些困难,因此,本发明实施例采用排除方法进行识别,即先识别出针对评价对象(比如媒体文件的内容或作者)的水平的评论及低质评论,那么,所有的评论数据中剩余的评论就是其他有效观点评论。
在一些实施例中,媒体文件的处理方法还可包括:在对评论文本特征进行类别识别,得到对应的评论分类特征之前,对评论文本特征进行文本预处理。其中,对评论文本特征进行文本预处理包括以下至少之一:特殊符号处理;英文大小写转换;繁简字统一。本发明实施例在分类识别之前对评论文本特征进行文本预处理,可以降低评论文本中数据噪音的干扰,提高识别的准确率。
步骤305,对所述评论分类特征进行情感识别,得到对应的情感极性特征。
在本发明实施例中,情感极性特征用于表示评论分类特征中所表达出来的情感倾向是积极的(即正面的)、消极的(即负面的),还是中性的。例如,情感极性特征可以是三维度的特征,即包括正面、中性及负面情感的三分类特征,当然,情感极性特征也可以是二维度的特征,即通过回归任务对评论分类特征进行情感识别,直接预测评论的正面程度和负面程度,在此不做限定。
在一些实施例中,参见图3C,图3C为本发明实施例提供的媒体文件的处理方法的一个可选的流程示意图,基于图3A,上述步骤305中服务器对评论分类特征进行情感识别,得到对应的情感极性特征,还可以具体通过以下步骤3051至步骤3054来实现,下面将结合各步骤进行说明。
步骤3051,通过第二神经网络模型包括的特征提取器,确定对应评论分类特征的字序列特征向量。
在一些实施例中,服务器可采用以下方式通过第二神经网络模型包括的特征提取器,确定对应评论分类特征的字序列特征向量:
通过特征提取器对评论分类特征进行特征提取,得到评论分类特征中各个字的特征向量;基于各个字在评论分类特征对应的语句中的位置,确定各个字的位置特征向量;将各个字的特征向量以及各个字的位置特征向量进行拼接,得到对应评论分类特征的字序列特征向量。
这里,将各个字的特征向量以及各个字的位置特征向量进行拼接,实际上是将各个字的特征向量以及各个字的位置特征向量执行特征拼接操作,得到基于各个字的特征向量以及各个字的位置特征向量的融合特征,即获得对应评论分类特征的字序列特征向量。
步骤3052,通过第二神经网络模型包括的转换编码器,对字序列特征向量进行语义分析,得到具有深层语义的字序列特征向量。
这里,对字序列特征向量进行语义分析,实际上是对评论分类特征对应的语句中的字与字之间的关系进行学习的过程,通过考虑语句中的上下文信息,学习到更加深层的句子语义表示。
步骤3053,通过第二神经网络模型包括的最大似然函数层,对具有深层语义的字序列特征向量进行分类处理,得到评论分类特征对应多个情感极性的概率。
步骤3054,将具有最大概率的情感极性类别确定为评论分类特征对应的情感极性特征。
这里,通过最大似然函数层对具有深层语义的字序列特征向量进行分类处理,将具有深层语义的字序列特征向量归一化转换到对应每一个情感极性类别的概率,将具有最大概率的情感极性类别确定为评论分类特征对应的情感极性。情感极性类别是根据先验训练样本设定的。
在本发明实施例中,第二神经网络模型是一种基于转换器的双向编码器表征(BERT,Bidirectional Encoder Representations from Transformers)模型的深度神经网络,利用第二神经网络模型对评论分类特征进行情感识别,并使用大规模的电商数据设置一个低学习率,对第二神经网络模型参数进行微调,可以有效降低标注样本和训练模型的成本,且由于词语的表示是基于上下文信息的,因此,预测效果优于使用其他的预训练模型。尤其是利用第二神经网络模型对评论文本进行情感分析,能够解决相关技术中关键词表的构造困难,以及覆盖面有限的问题。
下面对第二神经网络模型的结构进行说明。参见图7,图7为本发明实施例提供的第二神经网络模型的一个可选的结构示意图,作为示例,第二神经网络模型包括:特征提取器、转换编码器及最大似然函数层。特征提取器包括输入嵌入(Input Embedding)层和位置嵌入(Positional Embedding)层,统称为嵌入层;转换编码器的结构包括多头注意力机制(Multi-Head Attention)、添加(Add)和标准(Norm)层、前向反馈(Feed Forward)等,通过引入多头注意力机制,使得从不同表示空间上获取关于句子更多层面的信息,提高模型的特征表达能力。
下面基于图7所示的第二神经网络模型的结构,对评论情感分析的过程的实现进行说明。
首先,将评论分类特征数据输入到嵌入层,通过查询Lookup table函数得到评论分类特征数据中每个字的向量化表示,并使用余弦函数对字在句子中的位置进行计算,得到每个字的位置的向量化表示;然后,将每个字的向量化表示与每个字的位置的向量化表示进行拼接,得到字序列的向量表示;接下来,将字序列的向量表示输入至转换编码器,通过转换编码器学习句子中字和字之间的关系,并且通过叠加层数(如图7中的12层)可学习到更加深层的句子语义表示,即转换编码器将输出为具有深层语义的字序列特征向量;再接下来,提取出具有深层语义的字序列特征向量中首位的字向量作为整个句子的表示,将其输入到最大似然函数层中,通过矩阵运算和非线性变换得到每个情感极性类别对应的值域为[0,1]的预测结果,且各个分类预测值的和为1,将预测值最大的那个分类确定为第二神经网络模型最终预测出的评论的情感类别。
在一些实施例中,媒体文件的处理方法还可包括:构建第一训练样本集合;基于第一训练样本集合,对第二神经网络模型中的特征提取器进行预训练,以及对第二神经网络模型中的转换编码器进行预训练;基于第一训练样本集合,训练第二神经网络模型。
具体来说,可采用以下方式训练第二神经网络模型:初始化第二神经网络模型的输入层、中间层和输出层,并初始化包括输入样本、输出结果以及第二神经网络模型参数的损失函数;在第二神经网络模型每次迭代训练过程中执行以下处理:以第一训练样本集合包括的评论分类特征数据样本为输入样本,并以情感极性类别为输出结果,将输入样本和输出结果代入损失函数,以确定损失函数取得最小值时对应的第二神经网络模型参数;根据所确定的第二神经网络模型参数更新第二神经网络模型。
为了进一步降低标注评论情感的成本,在一些实施例中,就根据所确定的第二神经网络模型参数更新第二神经网络模型来说,可采用以下方式来实现:基于语料数据库对应的学习率,调整所确定的第二神经网络模型参数,得到新的第二神经网络模型参数;基于新的第二神经网络模型参数更新第二神经网络模型。
具体来说,语料数据库包括第一语料数据库和第二语料数据库,第一语料数据库对应的学习率为第一学习率,第二语料数据库对应的学习率为第二学习率,也就是说,本发明实施例先基于第一学习率调整所确定的第二神经网络模型参数,得到第一新的第二神经网络模型参数,然后基于第二学习率调整第一新的第二神经网络模型参数,得到第二新的第二神经网络模型参数,最后基于第二新的第二神经网络模型参数更新第二神经网络模型。这里,第一语料数据库例如可为包含一千万条商品评价的A电商语料数据库,第二语料数据库例如可为包含五千条评论的B语料数据库,这样,先后基于大而模糊的A电商语料数据库,以及小而精准的B语料数据库更新第二神经网络模型,使得更新后的第二神经网络模型的学习能力更强,预测效果更优,进一步降低标注评论情感的成本。
步骤306,基于所述评论统计特征、所述评论分类特征以及所述情感极性特征的特征融合,确定所述媒体文件的评论质量评分。
在一些实施例中,参见图3D,图3D为本发明实施例提供的媒体文件的处理方法的一个可选的流程示意图,基于图3A,上述步骤306中服务器基于评论统计特征、评论分类特征以及情感极性特征的特征融合,确定媒体文件的评论质量评分,还可以具体通过以下步骤3061至步骤3063来实现,下面将结合各步骤进行说明。
步骤3061,分别确定评论统计特征、评论分类特征以及情感极性特征对媒体文件的质量的影响程度。
步骤3062,基于影响程度,确定对应评论统计特征、评论分类特征以及情感极性特征的权重。
这里,影响程度与权重具有正相关的关系,例如,当情感极性特征对媒体文件的质量的影响程度较高时,则分配给对应情感极性特征的权重就较大;当评论统计特征对媒体文件的质量的影响程度较低时,则分配给对应评论统计特征的权重就较小。
步骤3063,对评论统计特征、评论分类特征以及情感极性特征进行加权求和处理,得到媒体文件的评论质量评分。
在另一些实施例中,所述评论分类特征包括:针对评价对象的水平的评论;低质评论;其他有效观点评论;此时,在提取出针对评价对象的水平的评论之后,对这些评论按照正面、中性及负面进行情感分析,从而评估这些评论对于媒体文件的质量影响的评论质量评分。
具体来说,对于服务器对评论分类特征进行情感识别,得到对应的情感极性特征来说,可采用以下方式实现:对针对评价对象的水平的评论进行情感识别,得到对应评价对象的情感极性特征。相应的,对于基于评论统计特征、评论分类特征以及情感极性特征的特征融合,确定媒体文件的评论质量评分而言,可采用以下方式实现:分别确定评论统计特征、低质评论、其他有效观点评论,以及对应评价对象的情感极性特征,对媒体文件的质量的影响程度;基于影响程度,确定对应评论统计特征、低质评论、其他有效观点评论,以及对应评价对象的情感极性特征的权重;对评论统计特征、低质评论、其他有效观点评论,以及对应评价对象的情感极性特征进行加权求和处理,得到媒体文件的评论质量评分。
步骤307,基于所述媒体文件的评论质量评分,评估所述媒体文件的质量。
在本发明实施例中,媒体文件的评论质量评分与媒体文件的质量具有正相关的关系,也就是说,当确定的媒体文件的评论质量评分较高时,则评估出媒体文件的质量较高,即该媒体文件为优质媒体文件,否则为劣质媒体文件。可见,充分和有效的利用可直接反映媒体文件的质量的一个渠道,即评论数据,利用评论数据识别媒体文件的质量,是对目前媒体文件质量评估体系的一个有效补充,尤其是对评论文本特征较少的媒体文件(纯图片或视频的媒体文件)而言,在实际应用中更加具有应用价值。
在一些实施例中,媒体文件的处理方法还可包括:在基于媒体文件的评论质量评分,评估媒体文件的质量之后,当媒体文件的质量符合质量劣质标准时,将媒体文件确定为劣质媒体文件;对劣质媒体文件进行过滤处理。这样,通过对劣质媒体文件进行过滤处理,可以提高推荐系统的推荐效果,提升用户的阅读体验。这里的推荐系统可以包括离线推荐和在线推荐。
在另一些实施例中,媒体文件的处理方法还可包括:在基于媒体文件的评论质量评分,评估媒体文件的质量之后,当媒体文件的质量符合质量优质标准时,将媒体文件确定为优质媒体文件;将优质媒体文件存储到优质媒体文件数据库中,当接收到目标媒体文件的获取请求时,从优质媒体文件数据库中选取预设数量的优质媒体文件作为目标媒体文件,并根据目标媒体文件执行推荐操作。
这里,需要指出的是,在服务器从优质媒体文件数据库中选取预设数量的优质媒体文件时,可先获取发起目标媒体文件的获取请求的目标用户的历史行为数据;基于目标用户的历史行为数据,确定指示目标用户的兴趣分类的用户画像;然后,根据用户画像从优质媒体文件数据库中,加载对应用户画像的多个优质媒体文件,这样,不仅能够保证后续向目标用户推荐的媒体文件符合目标用户的兴趣,而且能够提高推荐媒体文件的多样性,从而提升媒体文件推荐的效率。
为了便于媒体文件及对应的媒体文件的评论质量评分的保存与查询,在一些实施例中,媒体文件的处理方法还可包括:将媒体文件及对应的媒体文件的评论质量评分发送至区块链网络中,以使
区块链网络的节点将媒体文件及对应的媒体文件的评论质量评分填充至新区块,且当对新区块取得共识一致时,将新区块追加至区块链的尾部。
参见图8,图8为本发明实施例提供的媒体文件的处理装置255的架构示意图,包括区块链网络81(示例性示出了共识节点810-1至共识节点810-3)、认证中心82、业务主体83和业务主体84,下面分别进行说明。
区块链网络81的类型是灵活多样的,例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例,任何业务主体的电子设备例如用户终端和服务器,都可以在不需要授权的情况下接入区块链网络81;以联盟链为例,业务主体在获得授权后其下辖的电子设备(例如终端/服务器)可以接入区块链网络81,此时,成为区块链网络81中的客户端节点。
在一些实施例中,客户端节点可以只作为区块链网络81的观察者,即提供支持业务主体发起交易(例如,用于上链存储数据或查询链上数据)的功能,对于区块链网络81中的共识节点810的功能,例如排序功能、共识服务和账本功能等,客户端节点可以缺省或者有选择性(例如,取决于业务主体的具体业务需求)地实施。从而,可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络81中,通过区块链网络81实现数据和业务处理过程的可信和可追溯。
区块链网络81中的共识节点接收来自不同业务主体(例如图8中示出的业务主体83和业务主体84)的客户端节点(例如,图8中示出的归属于业务主体83的客户端节点410、以及归属于业务主体84的客户端节点510)提交的交易,执行交易以更新账本或者查询账本,执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。
例如,客户端节点410/510可以订阅区块链网络81中感兴趣的事件,例如区块链网络81中特定的组织/通道中发生的交易,由共识节点810推送相应的交易通知到客户端节点410/510,从而触发客户端节点410/510中相应的业务逻辑。
下面以多个业务主体接入区块链网络以实现媒体文件及对应的媒体文件的评论质量评分的管理为例,说明区块链网络的示例性应用。
参见图8,管理环节涉及的多个业务主体,如业务主体83可以是媒体文件的处理装置对应的客户端,业务主体84可以是带有播放显示功能的显示系统,从认证中心82进行登记注册获得各自的数字证书,数字证书中包括业务主体的公钥、以及认证中心82对业务主体的公钥和身份信息签署的数字签名,用来与业务主体针对交易的数字签名一起附加到交易中,并被发送到区块链网络,以供区块链网络从交易中取出数字证书和签名,验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息,区块链网络81会根据身份进行验证,例如是否具有发起交易的权限。业务主体下辖的电子设备(例如终端或者服务器)运行的客户端都可以向区块链网络81请求接入而成为客户端节点。
业务主体83的客户端节点410用于获取媒体文件,并加载与媒体文件关联的评论数据;对评论数据进行特征提取,得到对应的评论统计特征和评论文本特征;对评论文本特征进行类别识别,得到对应的评论分类特征;对评论分类特征进行情感识别,得到对应的情感极性特征;基于评论统计特征、评论分类特征以及情感极性特征的特征融合,确定媒体文件的评论质量评分,输出媒体文件的评论质量评分,并将媒体文件及对应的媒体文件的评论质量评分发送至区块链网络81。
其中,将媒体文件及对应的媒体文件的评论质量评分发送至区块链网络81,可以预先在客户端节点410设置业务逻辑,当形成相应的媒体文件的评论质量评分时,客户端节点410将媒体文件及对应的媒体文件的评论质量评分自动发送至区块链网络81,也可以由业务主体83的业务人员在客户端节点410中登录,手动打包媒体文件及对应的媒体文件的评论质量评分,并将其发送至区块链网络81。在发送时,客户端节点410根据媒体文件及对应的媒体文件的评论质量评分生成对应更新操作的交易,在交易中指定了实现更新操作需要调用的智能合约、以及向智能合约传递的参数,交易中还携带了客户端节点410的数字证书、签署的数字签名(例如,使用客户端节点410的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络81中的共识节点810。
区块链网络81中的共识节点810接收到交易时,对交易携带的数字证书和数字签名进行验证,验证成功后,根据交易中携带的业务主体83的身份,确认业务主体83是否是具有交易权限,数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署节点810自己的数字签名(例如,使用节点810-1的私钥对交易的摘要进行加密得到),并继续在区块链网络81中广播。
区块链网络81中的共识节点810接收到验证成功的交易后,将交易填充到新的区块中,并进行广播。区块链网络81中的共识节点810广播新区块时,会对新区块进行共识过程,如果共识成功,则将新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交更新媒体文件及对应的媒体文件的评论质量评分的交易,在状态数据库中添加包括媒体文件及对应的媒体文件的评论质量评分的键值对。
业务主体84的业务人员在客户端节点510中登录,输入媒体文件及对应的媒体文件的评论质量评分的查询请求,客户端节点510根据媒体文件及对应的媒体文件的评论质量评分的查询请求生成对应更新操作/查询操作的交易,在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传递的参数,交易还携带了客户端节点510的数字证书、签署的数字签名(例如,使用客户端节点510的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络81中的共识节点810。
区块链网络81中的共识节点810接收到交易,对交易进行验证、区块填充及共识一致后,将填充的新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交的更新某一媒体文件的评论质量评分的交易,根据媒体文件的评论质量评分更新状态数据库中该媒体文件对应的键值对;对于提交的查询某个媒体文件的评论质量评分的交易,从状态数据库中查询媒体文件的评论质量评分对应的键值对,并返回交易结果。
值得说明的是,在图8中示例性地示出了将媒体文件及对应的媒体文件的评论质量评分直接上链的过程,但在另一些实施例中,对于媒体文件的数据量较大的情况,客户端节点410可将媒体文件的哈希以及相应的媒体文件的评论质量评分的哈希成对上链,将原始的媒体文件及对应的媒体文件的评论质量评分存储于分布式文件系统或数据库。客户端节点510从分布式文件系统或数据库获取到媒体文件及对应的媒体文件的评论质量评分后,可结合区块链网络81中对应的哈希进行校验,从而减少上链操作的工作量。
作为区块链的示例,参见图9,图9为本发明实施例提供的区块链网络81中区块链的一个可选的结构示意图,每个区块的头部既可以包括区块中所有交易的哈希值,同时也包含前一个区块中所有交易的哈希值,新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后,将被追加到区块链的尾部从而形成链式的增长,各区块之间基于哈希值的链式结构,保证了区块中交易的防篡改和防伪造。
下面说明本发明实施例提供的区块链网络的示例性的功能架构,参见图10,图10为本发明实施例提供的区块链网络81的功能架构示意图,包括应用层201、共识层202、网络层203、数据层204和资源层205,下面分别进行说明。
资源层205封装了实现区块链网络81中的各个节点810的计算资源、存储资源和通信资源。
数据层204封装了实现账本的各种数据结构,包括以文件系统中的文件实现的区块链,键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。
网络层203封装了点对点(P2P,Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。
其中,P2P网络协议实现区块链网络81中节点810之间的通信,数据传播机制保证了交易在区块链网络81中的传播,数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现节点810之间传输数据的可靠性;接入认证机制用于根据实际的业务场景对加入区块链网络81的业务主体的身份进行认证,并在认证通过时赋予业务主体接入区块链网络81的权限;业务主体身份管理用于存储允许接入区块链网络81的业务主体的身份、以及权限(例如能够发起的交易的类型)。
共识层202封装了区块链网络81中的节点810对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法,支持共识算法的可插拔。
交易管理用于验证节点810接收到的交易中携带的数字签名,验证业务主体的身份信息,并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息);对于获得接入区块链网络81的授权的业务主体而言,均拥有认证中心颁发的数字证书,业务主体利用自己的数字证书中的私钥对提交的交易进行签名,从而声明自己的合法身份。
账本管理用于维护区块链和状态数据库。对于取得共识的区块,追加到区块链的尾部;执行取得共识的区块中的交易,当交易包括更新操作时更新状态数据库中的键值对,当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作,包括:根据区块向量号(例如交易的哈希值)查询区块;根据区块哈希值查询区块;根据交易向量号查询区块;根据交易向量号查询交易;根据业务主体的账号(向量号)查询业务主体的账号数据;根据通道名称查询通道中的区块链。
应用层201封装了区块链网络能够实现的各种业务,包括交易的溯源、存证和验证等。
采用本发明实施例提供的技术方案,服务器通过加载与媒体文件关联的评论数据,提取并分析评论数据中有助于评估媒体文件的质量的有效信息部分,有效信息包括评论统计特征、评论分类特征以及情感极性特征,利用评论数据的有效信息对评论数据进行评分,所得到的评论质量评分能够更准确、真实的反映媒体文件的质量优劣,进而能够有效提高对媒体文件的质量进行评估的准确度。
下面以媒体文件为文章为例,对本发明实施例提供的媒体文件的处理方法的实现进行说明。
参见图11,图11为本发明实施例提供的媒体文件的处理方法的另一个可选的流程示意图,根据上文可以理解,本发明实施例提供的媒体文件的处理方法可以应用于各种类型的电子设备中,即可由服务器实施,也可由终端设备实施。下面以电子设备为服务器为例,即由服务器执行本发明实施例提供的媒体文件的处理方法为例说明图11示出的步骤。对于下文各步骤的说明中未尽的细节,可以参考上文而理解。
步骤801,服务器获取终端设备上报的日志中的文章,并加载与文章关联的评论数据。
步骤802,对评论数据进行特征提取,得到对应的评论统计数据和评论文本数据。
步骤803,对评论文本数据进行类别识别,得到对应的评论分类特征;评论分类特征包括:针对评价对象的水平的评论;低质评论;其他有效观点评论。
在一些实施例中,服务器可采用以下方式对评论文本数据进行类别识别:基于评论文本数据与低质词特征模板的匹配,识别评论文本数据属于低质评论;
通过以下方式识别评论文本数据中的评价对象:评价对象特征模板和第一神经网络模型,并识别评论文本数据属于针对评价对象的水平的评论;
将评论文本特征中,除低质评论与针对评价对象的水平的评论之外的评论,识别为属于其他有效观点评论。
步骤804,对针对评价对象的水平的评论进行情感识别,得到对应评价对象的情感极性特征。
在一些实施例中,服务器可采用以下方式对针对评价对象的水平的评论进行情感识别:通过第二神经网络模型包括的特征提取器,确定对应针对评价对象的水平的评论的字序列特征向量;
通过第二神经网络模型包括的转换编码器,对字序列特征向量进行语义分析,得到具有深层语义的字序列特征向量;
通过第二神经网络模型包括的最大似然函数层,对具有深层语义的字序列特征向量进行分类处理,得到针对评价对象的水平的评论对应多个情感极性的概率;
将具有最大概率的情感极性类别,确定为针对评价对象的水平的评论对应的情感极性特征。
步骤805,分别确定评论统计特征、低质评论、其他有效观点评论,以及对应评价对象的情感极性特征,对文章的质量的影响程度。
步骤806,基于影响程度,确定对应评论统计特征、低质评论、其他有效观点评论,以及对应评价对象的情感极性特征的权重。
步骤807,对评论统计特征、低质评论、其他有效观点评论,以及对应评价对象的情感极性特征进行加权求和处理,得到文章的评论质量评分。
步骤808,基于文章的评论质量评分,评估文章的质量。
步骤809,当文章的质量符合质量劣质标准时,将文章确定为劣质文章,对劣质文章进行过滤处理。
采用本发明实施例提供的技术方案,服务器通过加载与文章关联的评论数据,提取并分析评论数据中有助于评估文章的质量的有效信息部分,有效信息包括评论统计特征、评论分类特征以及情感极性特征,利用评论数据的有效信息对评论数据进行评分,所得到的评论质量评分能够更准确、真实的反映文章的质量优劣,进而能够有效提高对文章的质量进行评估的准确度;同时,通过对劣质媒体文件进行过滤处理,可以提高推荐系统的推荐效果,提升用户的阅读体验。
下面以媒体文件为文章,以应用场景为文章推荐为例,将说明本发明实施例在一个实际的应用场景中的示例性应用。
实际应用中,在资讯推荐类产品比如微信看一看中,对文章质量的评估直接影响到文章推荐的效率。参见图12,图12为本发明实施例提供的微信看一看客户端中呈现推荐文章的显示示意图,图12中的左图为微信中看一看的主要入口,图12中的右图为点击该入口后,所进入的文章推荐的主界面,用户通过查询并点击右图的主界面中的文章,可以阅读到自己感兴趣的文章。
对于资讯推荐类的产品来说,文章质量的优劣在很大程度上将影响用户的阅读体验。文章的评论内容作为可以直接反映文章的质量的一个重要渠道,由于其数据噪音过多,相关技术中还没有充分、有效的使用文章的评论内容,来评估文章的质量。由于评论主题、对象、属性、情感的多样性,使用统一的模型来分析所有的评论显然是很困难的。因此,在这种场景下,如何提取和分析文章的评论内容中的有效信息,就显得十分关键。
基于此,本发明实施例提出了一套对文章评论的分类规则(如图5所示),并根据该分类规则设计算法提取并分析评论内容中的有效信息,以解决评论内容中数据噪音过多的问题,还提出了一种基于正则表达式和卷积神经网络的方法,对评论文本进行分类,还提出了一种基于BERT预训练模型的深度神经网络的方法,来识别评论文本的情感极性,最终根据文章中所有评论的分类、情感极性以及统计特征,来评估文章质量。通过对文章质量的评估,提高资讯推荐类的产品中展现给用户的文章质量,并最终提高资讯推荐类的产品的口碑和用户活跃度。
下面对上述文章质量的评估方法的实现进行说明。参见图13,图13为本发明实施例提供的文章质量的评估方法的一个可选的原理结构示意图,本发明实施例提供的文章质量的评估方法的过程主要包括以下步骤:
第1步,从终端设备上报的日志中提取文章,并加载与文章关联的评论数据,评论数据包括评论文本数据和评论统计数据(评论统计数据包括:评论次数、评论被点赞数、评论是否为精选评论等)。
第2步,对评论文本数据进行类别识别,分为针对文章水平的评论、针对作者水平的评论、其他有效观点评论和低质评论,具体的评论分类识别方法可参考上文而理解。分类前需要对评论文本数据进行文本预处理,包括特殊符号处理、英文大小写转换以及繁简字统一的操作。
根据图5中的分类规则,可将所有评论分为针对文章水平的评论、针对作者水平的评论、其他有效观点评论和低质评论。由于其他有效观点评论中的数据噪音较多,直接分类较困难,因此,可采用排除法进行识别,即先识别出针对文章或作者水平的评论以及低质评论后,剩下的就是其他有效观点评论。
这里,对低质评论的识别,主要采用基于正则表达式的方法,即判断评论文本数据中满足含有某些模板(如电话号码、广告关键词、谩骂词语)的条件时,则判断出该条评论为低质评论。
对针对文章或作者水平的评论的识别,主要采用基于规则和统计结合的方法。规则是采用正则表达式识别评论文本数据中显式出现的“作者”、“文章”等评价对象,再辅以衔接词的词性等特征来判断;或直接匹配明显的水平评价词,如“文采斐然”等。此外,还结合上文涉及的第一神经网络模型,识别评论文本数据中隐含的评价对象是否为作者或文章。对于第一神经网络模型的结构以及识别方法,可参考上文而理解。
第3步,通过评论情感分析算法,对识别出的针对文章或作者水平的评论,按照正面、中性、负面的维度进行情感分析,得到对应的情感极性,具体的情感分析方法可参考上文而理解。
第4步,将文章中所有评论的分类、情感极性和评论统计数据进行特征融合,计算出文章的评论质量评分,该文章的评论质量评分用于评估文章的质量。
这里,评论情感分析算法采用以BERT预训练模型的深度神经网络模型(即上文的第二神经网络模型),其结构可参考上文的图7所示。该深度神经网络模型训练时,首先,载入BERT预训练模型的参数值,使用BERT预训练模型可以有效降低标注样本和训练模型的成本,且由于BERT预训练模型的建模是基于词语中字与字之间的上下文信息的,表示学习能力更强,其预测效果优于其他的预训练模型。接着,在包含一千万商品评价的亚马逊电商语料上对模型进行训练,设置低学习率对模型的参数值进行初步微调。亚马逊电商语料虽然不是准确的情感分析语料,但是其反映了用户对商品的情感判断,且数据量巨大,因此,可以有效地学习到通用的文本情感特征。最后,再使用根据本业务需要而标注的五千条评论情感样本进行训练,进一步的精调模型的参数值,使其能够完成评论情感分析的任务。这种先后在大而模糊的语料和小而精准的语料上训练模型的方法,进一步降低了标注评论情感的成本。可见,本发明实施例采用以BERT预训练模型的深度神经网络模型(即上文的第二神经网络模型),对识别出的针对文章或作者水平的评论,按照正面、中性、负面的维度进行情感分析,对于文章优质的深层原因的可解释性强。
接下来对本发明实施例提供的媒体文件的处理装置255的软件实现进行说明。以上述实施本发明实施例的媒体文件的处理方法的电子设备20中的存储器250所包括的软件模块为例进行说明,对于下文关于模块的功能说明中未尽的细节,可以参考上文而理解。
获取单元2551,用于获取媒体文件;数据加载单元2552,用于加载与所述媒体文件关联的评论数据;特征提取单元2553,用于对所述评论数据进行特征提取,得到对应的评论统计特征和评论文本特征;类别识别单元2554,用于对所述评论文本特征进行类别识别,得到对应的评论分类特征;情感识别单元2555,用于对所述评论分类特征进行情感识别,得到对应的情感极性特征;特征融合单元2556,用于基于所述评论统计特征、所述评论分类特征以及所述情感极性特征的特征融合,确定所述媒体文件的评论质量评分;质量评估单元2557,用于基于所述媒体文件的评论质量评分,评估所述媒体文件的质量。
在一些实施例中,就类别识别单元对所述评论文本特征进行类别识别,得到对应的评论分类特征来说,可以采用以下方式实现:
基于所述评论文本特征与低质词特征模板的匹配,识别所述评论文本特征属于低质评论;通过以下方式识别所述评论文本特征中的评价对象:评价对象特征模板和第一神经网络模型,并识别所述评论文本特征属于针对评价对象的水平的评论;将所述评论文本特征中,除所述低质评论与所述针对评价对象的水平的评论之外的评论,识别为属于其他有效观点评论。
在一些实施例中,就类别识别单元中识别所述评论文本特征中的评价对象来说,可以采用以下方式实现:
基于所述评论文本特征与所述评价对象特征模板的匹配,识别所述评论文本特征中显式出现的评价对象;通过所述第一神经网络模型,对所述评论文本特征对应的特征向量进行分类处理,得到所述第一神经网络模型输出的所述评论文本特征中隐含评价对象的概率值,当得到的所述概率值大于概率阈值时,识别所述评论文本特征中隐式出现的评价对象。
在一些实施例中,就情感识别单元对所述评论分类特征进行情感识别,得到对应的情感极性特征来说,可以采用以下方式实现:
通过第二神经网络模型包括的特征提取器,确定对应所述评论分类特征的字序列特征向量;通过所述第二神经网络模型包括的转换编码器,对所述字序列特征向量进行语义分析,得到具有深层语义的字序列特征向量;通过所述第二神经网络模型包括的最大似然函数层,对所述具有深层语义的字序列特征向量进行分类处理,得到所述评论分类特征对应多个情感极性的概率;将具有最大概率的情感极性类别确定为所述评论分类特征对应的情感极性特征。
在一些实施例中,就情感识别单元中通过第二神经网络模型包括的特征提取器,确定对应所述评论分类特征的字序列特征向量来说,可以采用以下方式实现:
通过所述特征提取器对所述评论分类特征进行特征提取,得到所述评论分类特征中各个字的特征向量;基于所述各个字在所述评论分类特征对应的语句中的位置,确定各个字的位置特征向量;将所述各个字的特征向量以及所述各个字的位置特征向量进行拼接,得到对应所述评论分类特征的字序列特征向量。
在一些实施例中,媒体文件的处理装置还可包括:
构建单元,用于构建第一训练样本集合;
第一训练单元,用于基于所述第一训练样本集合,对所述第二神经网络模型中的特征提取器进行预训练,以及对所述第二神经网络模型中的转换编码器进行预训练;
第二训练单元,用于基于所述第一训练样本集合,训练所述第二神经网络模型。
在一些实施例中,就第二训练单元基于所述第一训练样本集合,训练所述第二神经网络模型来说,可以采用以下方式实现:
初始化所述第二神经网络模型的输入层、中间层和输出层,并初始化包括输入样本、输出结果以及第二神经网络模型参数的损失函数;
在所述第二神经网络模型每次迭代训练过程中执行以下处理:
以所述第一训练样本集合包括的评论分类特征数据样本为所述输入样本,并以所述情感极性类别为所述输出结果,将所述输入样本和所述输出结果代入所述损失函数,以确定所述损失函数取得最小值时对应的第二神经网络模型参数;
基于所确定的第二神经网络模型参数更新所述第二神经网络模型。
在一些实施例中,就基于所确定的第二神经网络模型参数更新所述第二神经网络模型来说,可以采用以下方式实现:
基于语料数据库对应的学习率,调整所确定的第二神经网络模型参数,得到新的第二神经网络模型参数;
基于所述新的第二神经网络模型参数更新所述第二神经网络模型。
在一些实施例中,就特征融合单元基于所述评论统计特征、所述评论分类特征以及所述情感极性特征的特征融合,确定所述媒体文件的评论质量评分来说,可以采用以下方式实现:
分别确定所述评论统计特征、所述评论分类特征以及所述情感极性特征对所述媒体文件的质量的影响程度;基于所述影响程度,确定对应所述评论统计特征、所述评论分类特征以及所述情感极性特征的权重;对所述评论统计特征、所述评论分类特征以及所述情感极性特征进行加权求和处理,得到所述媒体文件的评论质量评分。
在另一些实施例中,所述评论分类特征包括:针对评价对象的水平的评论;低质评论;其他有效观点评论时,就情感识别单元对所述评论分类特征进行情感识别,得到对应的情感极性特征来说,还可以采用以下方式实现:对所述针对评价对象的水平的评论进行情感识别,得到对应所述评价对象的情感极性特征。
在另一些实施例中,就基于所述评论统计特征、所述评论分类特征以及所述情感极性特征的特征融合,确定所述媒体文件的评论质量评分来说,还可以采用以下方式实现:
分别确定所述评论统计特征、所述低质评论、所述其他有效观点评论,以及对应所述评价对象的情感极性特征,对所述媒体文件的质量的影响程度;基于所述影响程度,确定对应所述评论统计特征、所述低质评论、所述其他有效观点评论,以及对应所述评价对象的情感极性特征的权重;对所述评论统计特征、所述低质评论、所述其他有效观点评论,以及对应所述评价对象的情感极性特征进行加权求和处理,得到所述媒体文件的评论质量评分。
在一些实施例中,媒体文件的处理装置还可包括:
确定单元,用于在所述质量评估单元基于所述媒体文件的评论质量评分,评估所述媒体文件的质量之后,当所述媒体文件的质量符合质量劣质标准时,将所述媒体文件确定为劣质媒体文件;
过滤单元,用于对所述劣质媒体文件进行过滤处理。
在一些实施例中,媒体文件的处理装置还可包括:
发送单元,用于将所述媒体文件及对应的所述媒体文件的评论质量评分发送至区块链网络中,以使
所述区块链网络的节点将所述媒体文件及对应的所述媒体文件的评论质量评分填充至新区块,且当对所述新区块取得共识一致时,将所述新区块追加至区块链的尾部。
本发明实施例还提供了一种存储介质,存储有可执行指令,所述可执行指令被执行时,用于实现本发明实施例提供的媒体文件的处理方法,例如,如图3A至3D、图11及图13示出的方法。
在一些实施例中,存储介质具体可为计算机可读存储介质,例如可以是铁电随机存取存储器(FRAM,ferromagnetic random access memory)、ROM、PROM、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘或只读光盘(CD-ROM,Compact Disc Read-Only Memory)等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,本发明实施例的技术方案具有以下有益效果:
1)利用评论数据的全面且有效的特征信息对评论数据进行评分,所得到的评分能够更准确、真实的反映媒体文件的质量优劣,进而能够有效提高对媒体文件的质量进行评估的准确度,尤其对评论文本特征较少的媒体文件而言,在实际应用中更加具有应用价值。
2)利用第二神经网络模型对评论文本进行情感分析,能够解决相关技术中关键词表的构造困难,以及覆盖面有限的问题。
3)通过对劣质媒体文件进行过滤处理,可以提高推荐系统的推荐效果,提升用户的阅读体验。
4)采用以BERT预训练模型的深度神经网络模型(即上文的第二神经网络模型),对识别出的针对文章或作者水平的评论,按照正面、中性、负面的维度进行情感分析,对于文章优质的深层原因的可解释性强。
5)为资讯推荐类产品提供了强有力的技术支持,即通过对文章的质量进行评估,提高了资讯推荐类产品中展现给用户的文章质量,并最终提高了资讯推荐类产品的口碑和用户活跃度。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (14)

1.一种媒体文件的处理方法,其特征在于,所述方法包括:
获取媒体文件;
加载与所述媒体文件关联的评论数据;
对所述评论数据进行特征提取,得到对应的评论统计特征和评论文本特征;
对所述评论文本特征进行类别识别,得到对应的评论分类特征;
通过第二神经网络模型包括的特征提取器对所述评论分类特征进行特征提取,得到所述评论分类特征中各个字的特征向量;
基于所述各个字在所述评论分类特征对应的语句中的位置,确定各个字的位置特征向量;
将所述各个字的特征向量以及所述各个字的位置特征向量进行拼接,得到对应所述评论分类特征的字序列特征向量;
通过所述第二神经网络模型包括的转换编码器,对所述字序列特征向量进行语义分析,得到具有深层语义的字序列特征向量;
通过所述第二神经网络模型包括的最大似然函数层,对所述具有深层语义的字序列特征向量进行分类处理,得到所述评论分类特征对应多个情感极性的概率;
将具有最大概率的情感极性类别确定为所述评论分类特征对应的情感极性特征;
基于所述评论统计特征、所述评论分类特征以及所述情感极性特征的特征融合,确定所述媒体文件的评论质量评分;
基于所述媒体文件的评论质量评分,评估所述媒体文件的质量。
2.如权利要求1所述的方法,其特征在于,所述对所述评论文本特征进行类别识别,得到对应的评论分类特征,包括:
基于所述评论文本特征与低质词特征模板的匹配,识别所述评论文本特征属于低质评论;
通过以下方式识别所述评论文本特征中的评价对象:评价对象特征模板和第一神经网络模型,并识别所述评论文本特征属于针对评价对象的水平的评论;
将所述评论文本特征中,除所述低质评论与所述针对评价对象的水平的评论之外的评论,识别为属于其他有效观点评论。
3.如权利要求2所述的方法,其特征在于,所述通过以下方式识别所述评论文本特征中的评价对象:评价对象特征模板和第一神经网络模型,包括:
基于所述评论文本特征与所述评价对象特征模板的匹配,识别所述评论文本特征中显式出现的评价对象;
通过所述第一神经网络模型,对所述评论文本特征对应的特征向量进行分类处理,得到所述第一神经网络模型输出的所述评论文本特征中隐含评价对象的概率值,当得到的所述概率值大于概率阈值时,识别所述评论文本特征中隐式出现的评价对象。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
构建第一训练样本集合;
基于所述第一训练样本集合,对所述第二神经网络模型中的特征提取器进行预训练,以及对所述第二神经网络模型中的转换编码器进行预训练;
基于所述第一训练样本集合,训练所述第二神经网络模型。
5.如权利要求4所述的方法,其特征在于,所述基于所述第一训练样本集合,训练所述第二神经网络模型,包括:
初始化所述第二神经网络模型的输入层、中间层和输出层,并初始化包括输入样本、输出结果以及第二神经网络模型参数的损失函数;
在所述第二神经网络模型每次迭代训练过程中执行以下处理:
以所述第一训练样本集合包括的评论分类特征数据样本为所述输入样本,并以所述情感极性类别为所述输出结果,将所述输入样本和所述输出结果代入所述损失函数,以确定所述损失函数取得最小值时对应的第二神经网络模型参数;
基于所确定的第二神经网络模型参数更新所述第二神经网络模型。
6.如权利要求5所述的方法,其特征在于,所述基于所确定的第二神经网络模型参数更新所述第二神经网络模型,包括:
基于语料数据库对应的学习率,调整所确定的第二神经网络模型参数,得到新的第二神经网络模型参数;
基于所述新的第二神经网络模型参数更新所述第二神经网络模型。
7.如权利要求1所述的方法,其特征在于,所述基于所述评论统计特征、所述评论分类特征以及所述情感极性特征的特征融合,确定所述媒体文件的评论质量评分,包括:
分别确定所述评论统计特征、所述评论分类特征以及所述情感极性特征对所述媒体文件的质量的影响程度;
基于所述影响程度,确定对应所述评论统计特征、所述评论分类特征以及所述情感极性特征的权重;
对所述评论统计特征、所述评论分类特征以及所述情感极性特征进行加权求和处理,得到所述媒体文件的评论质量评分。
8.如权利要求1所述的方法,其特征在于,所述评论分类特征包括:针对评价对象的水平的评论;低质评论;其他有效观点评论。
9.如权利要求8所述的方法,其特征在于,所述基于所述评论统计特征、所述评论分类特征以及所述情感极性特征的特征融合,确定所述媒体文件的评论质量评分,包括:
分别确定所述评论统计特征、所述低质评论、所述其他有效观点评论,以及对应所述评价对象的情感极性特征,对所述媒体文件的质量的影响程度;
基于所述影响程度,确定对应所述评论统计特征、所述低质评论、所述其他有效观点评论,以及对应所述评价对象的情感极性特征的权重;
对所述评论统计特征、所述低质评论、所述其他有效观点评论,以及对应所述评价对象的情感极性特征进行加权求和处理,得到所述媒体文件的评论质量评分。
10.如权利要求1所述的方法,其特征在于,所述方法还包括:
在所述基于所述媒体文件的评论质量评分,评估所述媒体文件的质量之后,
当所述媒体文件的质量符合质量劣质标准时,将所述媒体文件确定为劣质媒体文件;
对所述劣质媒体文件进行过滤处理。
11.如权利要求1至10任一项所述的方法,其特征在于,所述方法还包括:
将所述媒体文件及对应的所述媒体文件的评论质量评分发送至区块链网络中,以使
所述区块链网络的节点将所述媒体文件及对应的所述媒体文件的评论质量评分填充至新区块,且当对所述新区块取得共识一致时,将所述新区块追加至区块链的尾部。
12.一种媒体文件的处理装置,其特征在于,所述装置包括:
获取单元,用于获取媒体文件;
数据加载单元,用于加载与所述媒体文件关联的评论数据;
特征提取单元,用于对所述评论数据进行特征提取,得到对应的评论统计特征和评论文本特征;
类别识别单元,用于对所述评论文本特征进行类别识别,得到对应的评论分类特征;
情感识别单元,用于通过第二神经网络模型包括的特征提取器对所述评论分类特征进行特征提取,得到所述评论分类特征中各个字的特征向量;基于所述各个字在所述评论分类特征对应的语句中的位置,确定各个字的位置特征向量;将所述各个字的特征向量以及所述各个字的位置特征向量进行拼接,得到对应所述评论分类特征的字序列特征向量;通过所述第二神经网络模型包括的转换编码器,对所述字序列特征向量进行语义分析,得到具有深层语义的字序列特征向量;通过所述第二神经网络模型包括的最大似然函数层,对所述具有深层语义的字序列特征向量进行分类处理,得到所述评论分类特征对应多个情感极性的概率;将具有最大概率的情感极性类别确定为所述评论分类特征对应的情感极性特征;
特征融合单元,用于基于所述评论统计特征、所述评论分类特征以及所述情感极性特征的特征融合,确定所述媒体文件的评论质量评分;
质量评估单元,用于基于所述媒体文件的评论质量评分,评估所述媒体文件的质量。
13.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的媒体文件的处理方法。
14.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令被执行时用于实现权利要求1至11任一项所述的媒体文件的处理方法。
CN201910857477.4A 2019-09-11 2019-09-11 一种媒体文件的处理方法和装置 Active CN110569377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910857477.4A CN110569377B (zh) 2019-09-11 2019-09-11 一种媒体文件的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910857477.4A CN110569377B (zh) 2019-09-11 2019-09-11 一种媒体文件的处理方法和装置

Publications (2)

Publication Number Publication Date
CN110569377A CN110569377A (zh) 2019-12-13
CN110569377B true CN110569377B (zh) 2021-08-24

Family

ID=68778975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910857477.4A Active CN110569377B (zh) 2019-09-11 2019-09-11 一种媒体文件的处理方法和装置

Country Status (1)

Country Link
CN (1) CN110569377B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989154A (zh) * 2019-12-17 2021-06-18 北京沃东天骏信息技术有限公司 一种短标题生成方法和装置
CN112989839A (zh) * 2019-12-18 2021-06-18 中国科学院声学研究所 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN111126063B (zh) * 2019-12-26 2023-06-20 北京百度网讯科技有限公司 文本质量评估方法及装置
CN110866398B (zh) * 2020-01-07 2020-07-03 腾讯科技(深圳)有限公司 评论文本处理方法、装置、存储介质和计算机设备
CN113468318A (zh) * 2020-03-31 2021-10-01 中国电信股份有限公司 摘要自动生成方法、装置和计算机可读存储介质
CN111538893B (zh) * 2020-04-29 2021-01-05 四川大学 一种从非结构化数据中提取网络安全新词的方法
CN113821626A (zh) * 2020-06-17 2021-12-21 北京瀚海云星科技有限公司 一种神经网络及据多源社交短文本预测ip作品指标的方法
CN113971400B (zh) * 2020-07-24 2023-07-25 抖音视界有限公司 一种文本检测方法、装置、电子设备及存储介质
CN112749291A (zh) * 2020-08-25 2021-05-04 腾讯科技(深圳)有限公司 一种图文匹配的方法和装置
CN114547435A (zh) * 2020-11-24 2022-05-27 腾讯科技(深圳)有限公司 内容质量的识别方法、装置、设备及可读存储介质
CN114969316B (zh) * 2021-02-24 2024-04-26 腾讯科技(深圳)有限公司 一种文本数据处理方法、装置、设备以及介质
CN113705213A (zh) * 2021-03-01 2021-11-26 腾讯科技(深圳)有限公司 错别字识别方法、装置、设备及可读存储介质
CN113010727B (zh) * 2021-03-22 2024-02-02 平安科技(深圳)有限公司 直播平台画像的构建方法、装置、设备及存储介质
CN113761841B (zh) * 2021-04-19 2023-07-25 腾讯科技(深圳)有限公司 将文本数据转换为声学特征的方法
CN113609381B (zh) * 2021-07-13 2023-12-12 杭州网易云音乐科技有限公司 作品推荐方法、装置、介质和计算设备
CN114513687B (zh) * 2022-02-14 2024-02-27 青岛聚看云科技有限公司 服务器及媒资推荐方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统
CN107229608A (zh) * 2016-03-23 2017-10-03 阿里巴巴集团控股有限公司 垃圾评论识别方法和装置
CN109118243A (zh) * 2017-06-26 2019-01-01 阿里巴巴集团控股有限公司 一种产品分享、有用评价识别、推送方法和服务器
CN109657144A (zh) * 2018-12-17 2019-04-19 北京百度网讯科技有限公司 作品的评分方法、装置、存储介质和终端设备
CN109977413A (zh) * 2019-03-29 2019-07-05 南京邮电大学 一种基于改进cnn-lda的情感分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140101247A1 (en) * 2012-10-10 2014-04-10 Salesforce.Com, Inc. Systems and methods for sentiment analysis in an online social network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统
CN107229608A (zh) * 2016-03-23 2017-10-03 阿里巴巴集团控股有限公司 垃圾评论识别方法和装置
CN109118243A (zh) * 2017-06-26 2019-01-01 阿里巴巴集团控股有限公司 一种产品分享、有用评价识别、推送方法和服务器
CN109657144A (zh) * 2018-12-17 2019-04-19 北京百度网讯科技有限公司 作品的评分方法、装置、存储介质和终端设备
CN109977413A (zh) * 2019-03-29 2019-07-05 南京邮电大学 一种基于改进cnn-lda的情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于情感语义特征抽取的在线评论有用性分类算法与应用;张艳丰;《数据分析与知识发现》;20171225;全文 *

Also Published As

Publication number Publication date
CN110569377A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN110569377B (zh) 一种媒体文件的处理方法和装置
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
US20210117417A1 (en) Real-time content analysis and ranking
CN110597963A (zh) 表情问答库的构建方法、表情搜索方法、装置及存储介质
CN112104642B (zh) 一种异常账号确定方法和相关装置
WO2021155691A1 (zh) 用户画像生成方法、装置、存储介质及设备
CN111552797B (zh) 名称预测模型的训练方法、装置、电子设备及存储介质
CN111026858A (zh) 基于项目推荐模型的项目信息处理方法及装置
CN111666400B (zh) 消息获取方法、装置、计算机设备及存储介质
CN112995414B (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
US11886556B2 (en) Systems and methods for providing user validation
CN111552798A (zh) 基于名称预测模型的名称信息处理方法、装置、电子设备
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN111125544A (zh) 用户推荐方法及装置
CN114491093B (zh) 多媒体资源推荐、对象表征网络的生成方法及装置
CN113033209B (zh) 文本关系抽取方法、装置、存储介质及计算机设备
US20220358293A1 (en) Alignment of values and opinions between two distinct entities
CN111552890B (zh) 基于名称预测模型的名称信息处理方法、装置、电子设备
CN113434633A (zh) 基于头像的社交话题推荐方法、装置、设备及存储介质
CN116628236B (zh) 多媒体信息的投放方法、装置、电子设备及存储介质
CN117216361A (zh) 推荐方法、装置、电子设备及计算机可读存储介质
Agarwal Developing an Approach to Evaluate and Observe Sentiments of Tweets
CN116627416A (zh) 页面配置方法、装置、计算机设备及存储介质
Tropnikov The Description of the Structure of Social Identity in the Information Space, Using Automated Data Processing Tools
CN117933260A (zh) 一种文本质量分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221121

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518133

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right