CN113656560A - 情感类别的预测方法和装置、存储介质及电子设备 - Google Patents

情感类别的预测方法和装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113656560A
CN113656560A CN202111213458.1A CN202111213458A CN113656560A CN 113656560 A CN113656560 A CN 113656560A CN 202111213458 A CN202111213458 A CN 202111213458A CN 113656560 A CN113656560 A CN 113656560A
Authority
CN
China
Prior art keywords
group
media information
target
feature vectors
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111213458.1A
Other languages
English (en)
Other versions
CN113656560B (zh
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111213458.1A priority Critical patent/CN113656560B/zh
Publication of CN113656560A publication Critical patent/CN113656560A/zh
Application granted granted Critical
Publication of CN113656560B publication Critical patent/CN113656560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种情感类别的预测方法和装置、存储介质及电子设备,可应用于车载场景。该方法包括:获取一组第一特征向量和一组第二特征向量,一组第一特征向量包括对一组第一元素单元中的每个第一元素单元进行编码所得到的特征向量,一组第一元素单元包括目标文本中的每个第一元素单元,一组第二特征向量包括对一组第二元素单元中的每个第二元素单元进行编码所得到的特征向量,一组第二元素单元包括对目标文本进行分词得到的第二元素单元;根据一组第二元素单元与一组第一元素单元之间的包含关系,对一组第一特征向量与一组第二特征向量进行特征向量融合,得到一组融合特征向量;将一组融合特征向量输入到目标预测模型中,得到预测的情感类别。

Description

情感类别的预测方法和装置、存储介质及电子设备
技术领域
本申请涉及计算机领域,具体而言,涉及一种情感类别的预测方法和装置、存储介质及电子设备。
背景技术
自媒体平台可以以信息流的方式展示用户所生产的媒体信息(例如,文章、视频等),是个体提供信息生产、积累、共享、传播、内容兼具私密性和公开性的信息传播方式。用户在消费媒体信息的同时,可以通过评论、点赞、转发、收藏等行为与这些媒体信息进行互动。
由于用户发表内容的门槛较低,在满足要求的情况下,任何用户在任何时间都可以发表媒体信息,这样会导致用户所生产的媒体信息的质量参差不齐,存在生产低质内容(即,低质量的媒体信息)和严重影响平台生态的行为。可以通过能够预测情感类型的预测模型对于媒体信息对应的文本进行情感类别预测,基于预测的情感类别确定其是否为低质内容。
目前,采用的情感类别预测模型通常是基于细粒度的,例如,基于字粒度的。然而,采用基于细粒度的情感类别的预测方法,由于忽略了字与字之间的关联性,词义的不确定性高,建模复杂度高,无法抽取语义特性,因此,情感类别预测的准确性低。由此可见,相关技术中的情感类别的预测方法,存在由于词义的不确定性高导致的情感类别预测的准确性低的问题。
发明内容
本申请实施例提供了一种情感类别的预测方法和装置、存储介质及电子设备,以至少解决相关技术中的情感类别的预测方法存在由于词义的不确定性高导致的情感类别预测的准确性低的问题。
根据本申请实施例的一个方面,提供了一种情感类别的预测方法,包括:获取一组第一特征向量和一组第二特征向量,其中,所述一组第一特征向量包括对一组第一元素单元中的每个第一元素单元进行编码所得到的特征向量,所述一组第一元素单元包括目标文本中的每个第一元素单元,所述一组第二特征向量包括对一组第二元素单元中的每个第二元素单元进行编码所得到的特征向量,所述一组第二元素单元包括对所述目标文本进行分词所得到的第二元素单元;根据所述一组第一元素单元与所述一组第二元素单元之间的包含关系,对所述一组第一特征向量与所述一组第二特征向量进行特征向量融合,得到一组融合特征向量;将所述一组融合特征向量输入到目标预测模型中,得到目标预测结果,其中,所述目标预测模型用于根据输入的特征向量预测与所述输入的特征向量关联的情感类别,所述目标预测结果用于表示所述目标文本的预测情感类别。
根据本申请实施例的另一个方面,还提供了一种情感类别的预测装置,包括:第一获取单元,用于获取一组第一特征向量和一组第二特征向量,其中,所述一组第一特征向量包括对一组第一元素单元中的每个第一元素单元进行编码所得到的特征向量,所述一组第一元素单元包括目标文本中的每个第一元素单元,所述一组第二特征向量包括对一组第二元素单元中的每个第二元素单元进行编码所得到的特征向量,所述一组第二元素单元包括对所述目标文本进行分词所得到的第二元素单元;融合单元,用于根据所述一组第一元素单元与所述一组第二元素单元之间的包含关系,对所述一组第一特征向量与所述一组第二特征向量进行特征向量融合,得到一组融合特征向量;输入单元,用于将所述一组融合特征向量输入到目标预测模型中,得到目标预测结果,其中,所述目标预测模型用于根据输入的特征向量预测与所述输入的特征向量关联的情感类别,所述目标预测结果用于表示所述目标文本的预测情感类别。
作为一种可选的实施方案,所述融合单元包括:确定模块,用于在所述一组第一元素单元中确定所述一组第二元素单元中的每个第二元素单元所包括的第一元素单元;融合模块,用于将所述每个第二元素单元对应的第二特征向量分别与所述每个第二元素单元所包括的第一元素单元对应的第一特征向量进行特征向量融合,得到对应的融合特征向量。
作为一种可选的实施方案,所述确定模块包括第一确定子模块,所述融合模块包括第一融合子模块,其中,所述第一确定子模块,用于在所述一组第一元素单元中确定所述一组第二元素单元中的第i个第二元素单元所包括的N个第一元素单元,其中,N为自然数,i为自然数;所述第一融合子模块,用于将所述第i个第二元素单元对应的第i个第二特征向量分别与所述N个第一元素单元中的每个第一元素单元对应的第一特征向量进行特征向量融合,得到N个融合特征向量。
作为一种可选的实施方案,所述第一融合子模块包括:相加子单元,用于将所述第i个第二元素单元对应的第i个第二特征向量分别与所述N个第一元素单元中的每个第一元素单元对应的第一特征向量进行相加,得到所述N个融合特征向量;或者,拼接子单元,用于将所述第i个第二元素单元对应的第i个第二特征向量分别与所述N个第一元素单元中的每个第一元素单元对应的第一特征向量进行拼接,得到所述N个融合特征向量。
作为一种可选的实施方案,所述确定模块包括第二确定子模块,所述融合模块包括第二融合子模块,其中,所述第二确定子模块,用于在所述一组第一元素单元中确定所述一组第二元素单元中的第i个第二元素单元所包括的N个第一元素单元,其中,N为自然数,i为自然数;所述第二融合子模块,用于将所述第i个第二元素单元对应的第i个第二特征向量分别与所述N个第一元素单元中的M个第一元素单元对应的第一特征向量进行特征向量融合,得到M个融合特征向量,其中,M小于N。
作为一种可选的实施方案,所述装置还包括:删除单元,用于在将所述一组融合特征向量输入到目标预测模型中,得到目标预测结果之后,在所述预测情感类别为负向情感类别的情况下,删除已发布的目标媒体信息,其中,所述目标文本是从所述目标媒体信息中获取到的文本;或者,调整单元,用于在所述预测情感类别为负向情感类别的情况下,调整已发布的目标媒体信息的展示位置,以使得所述目标媒体信息的曝光量减少,其中,所述目标文本是从所述目标媒体信息中获取到的文本。
作为一种可选的实施方案,所述装置还包括:第二获取单元,用于在所述获取一组第一特征向量和一组第二特征向量之前,获取第一训练样本集,其中,所述第一训练样本集包括从第一媒体信息中获取到的第一媒体文本,所述第一媒体信息是目标媒体信息所属的目标媒体平台中已发布的媒体信息,所述目标文本是从所述目标媒体信息中获取到的媒体文本;第一训练单元,用于使用所述第一训练样本集和所述第一训练样本集的标注信息对初始预测模型进行训练,得到所述目标预测模型,其中,所述第一训练样本集的标注信息用于表示所述第一训练样本集中的训练样本的情感类别。
作为一种可选的实施方案,该装置还包括:第三获取单元,用于在使用所述第一训练样本集和所述第一训练样本集的标注信息对所述初始预测模型进行训练之前,获取与所述第一媒体信息对应的目标互动信息,其中,所述目标互动信息为与所述第一媒体信息进行互动所产生的信息;确定单元,用于根据所述目标互动信息的信息类别,确定与所述第一媒体信息对应的情感类别,其中,与所述第一媒体文本对应的标注信息用于指示与所述第一媒体信息对应的情感类别。
作为一种可选的实施方案,所述第二获取单元包括:获取模块,用于获取一组媒体信息,其中,所述一组媒体信息中包含所述第一媒体信息;去除模块,用于去除所述一组媒体信息中重复的媒体信息、以及所述一组媒体信息中包含的第一元素单元的数量小于或者等于目标数量阈值的媒体信息,得到更新的所述一组媒体信息;清洗模块,用于对所述一组媒体信息的媒体信息执行清洗操作,得到一组媒体文本,其中,所述清洗操作用于将所述一组媒体信息中的媒体信息包含的第一格式的信息更新为第二格式的信息、以及去除所述一组媒体信息中的媒体信息包含的冗余信息,所述第一训练样本集包括所述一组媒体文本。
作为一种可选的实施方案,所述清洗模块包括:执行子模块,用于对所述一组媒体信息中的当前媒体信息执行以下操作,得到与所述当前媒体信息对应的当前媒体文本,其中,所述一组媒体文本包括所述当前媒体文本:对所述一组媒体信息中的当前媒体信息执行以下操作,得到与所述当前媒体信息对应的当前媒体文本,其中,所述一组媒体文本包括所述当前媒体文本:在所述一组媒体信息中的当前媒体信息包含表情符号的情况下,将所述当前媒体信息中的所述表情符号替换为与所述表情符号对应的第一元素单元;在所述当前媒体信息包含繁体字的情况下,将所述当前媒体信息中的所述繁体字替换为与所述繁体字对应的简体字;在所述当前媒体信息包含重复符号的情况下,清理所述当前媒体信息中除了所述重复符号中的第一个符号以外的其他符号;在所述当前媒体信息包含空白符号的情况下,清理所述当前媒体信息中的所述空白符号;在所述当前媒体信息包含的第一元素单元的数量大于目标数量的情况下,从所述当前媒体信息的第一个第一元素单元开始,截取出所述当前媒体信息中所述目标数量的第一元素单元。
作为一种可选的实施方案,所述装置还包括:第四获取单元,用于在所述将所述一组融合特征向量输入到目标预测模型中,得到目标预测结果之后,获取第二训练样本集,其中,所述第二训练样本集包括从第二媒体信息中获取到的第二媒体文本,所述第二媒体信息是目标媒体信息所属的目标媒体平台中已发布的媒体信息,所述目标文本是从所述目标媒体信息中获取到的媒体文本;第二训练单元,用于使用所述第二训练样本集和所述第二训练样本集的标注信息对所述目标预测模型进行训练,得到更新的所述目标预测模型,其中,所述第二训练样本集的标注信息用于表示所述第二训练样本集中的训练样本的情感类别。
作为一种可选的实施方案,所述目标预测模型包含多个卷积层和全连接层;所述第二训练单元包括:训练模块,用于使用所述第二训练样本集和所述第二训练样本集的标注信息对目标卷积层和所述全连接层进行训练,得到更新的所述目标预测模型,其中,所述目标卷积层为所述多个卷积层中与所述全连接层相邻的至少一个卷积层,所述多个卷积层中除了所述目标卷积层以外的其他卷积层的模型参数被冻结。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述情感类别的预测方法。
根据本申请实施例的又一方面,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的情感类别的预测方法。
在本申请实施例中,采用混合粒度的特征向量对文本的情感类别进行预测的方式,通过分别获取输入文本(即,目标文本)细粒度(例如,字粒度,可以是中文的汉字、英文的单词等)的特征向量(即,一组第一特征向量,例如,一组字)、以及粗粒度(例如,词粒度,可以是中文中的词语、短句,也可以是英文中的词组、短语等)的特征向量(即,一组第二特征向量,例如,一组词),并将两者进行特征向量融合,由于粗粒度的第二元素单元是细粒度的一个或多个第一元素单元的组合,可以间接告知预测模型哪些部分是不可分割的一个整体,提升预测模型的语义表征能力,进而提高了词义的确定性;同时,由于在输入到预测模型之前进行了特征向量融合,因此预测模型只需要对融合后的特征向量进行处理,不会额外增加计算量,从而可以达到在不额外增加计算量的同时提高情感类别预测的准确性的技术效果,进而解决了相关技术中的情感类别的预测方法存在由于词义的不确定性高导致的情感类别预测的准确性低的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的情感类别的预测方法的应用环境的示意图;
图2是根据本申请实施例的一种可选的情感类别的预测方法的流程示意图;
图3是根据本申请实施例的一种可选的情感类别的预测方法的示意图;
图4是根据本申请实施例的一种可选的转换器的示意图;
图5是根据本申请实施例的另一种可选的情感类别的预测方法的示意图;
图6是根据本申请实施例的一种可选的删除媒体信息的示意图;
图7是根据本申请实施例的一种可选的下沉媒体信息的示意图;
图8是根据本申请实施例的又一种可选的情感类别的预测方法的示意图;
图9是根据本申请实施例的一种可选的情感类别的预测装置的示意图;
图10是根据本申请实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,为方便理解本申请实施例,下面对本申请中所涉及的部分术语或名词进行解释说明:
1、文章
文章通常是在自媒体平台开通一个公众号后主动编辑发布、并由自媒体平台推荐给用户阅读的,文章中可以包含多种多媒体资源,例如,视频、图片等。
2、视频
自媒体平台推荐给用户阅读的视频一般以Feeds流(又称信息流)的形式提供,可以包括竖版的小视频、横版的短视频等。
3、PGC(Professional Generated Content,专业生产内容)
PGC也称PPC(Professionally-produced Content),是专业生产内容(视频网站)、用户生产内容(User Generated Content,简称为UGC)专家生产内容(Professional UserGenerated Content,简称为PUGC)的互联网术语,用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化。
4、MCN(Multi-Channel Network,多频道网络)
MCN是一种多频道网络的产品形态,将PGC内容联合起来,保障PGC内容的持续输出。
5、Feeds
Feeds(web feed、news feed、syndicated feed等)是一种资料格式,指消息来源,又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源,网站,透过它可以将最新资讯传播给用户。Feeds通常以Timeline(即,时间轴)的方式排列。Timeline是Feed最原始、最直觉、也最基本的展示形式。用户能够订阅网站的先决条件是:网站提供了消息来源。将feed汇流于一处称为聚合(即,aggregation),而用于聚合的软体称为聚合器(即,aggregator)。对最终用户而言,聚合器是专门用来订阅网站的软件,一般也称为RSS(Really SimpleSyndication,简易信息聚合)阅读器、feed阅读器、新闻阅读器等。
6、ML(Machine Learning,机器学习)
ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
7、NLP(Natural Language Processing,自然语言处理)
NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
8、深度学习
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
根据本申请实施例的一个方面,提供了一种情感类别的预测方法,可选地,作为一种可选的实施方式,上述情感类别的预测方法可以但不限于应用于如图1所示的环境中。其中,可以但不限于包括:用户设备102,该用户设备102可以但不限于包括存储器104、处理器106及显示器108,网络110,服务器112。
示例性地,上述情感类别的预测方法的过程可以包括如下步骤:
步骤S102,用户设备102获取待发布的媒体信息,上述媒体信息可以是用户通过操作用户设备102上目标媒体平台的目标应用、目标网站等编辑的媒体信息;
步骤S104-步骤S106,用户设备102通过网络110将待发布的媒体信息发送给服务器112;
步骤S108,服务器112通过数据库114和处理引擎116将待发布的媒体信息进行发布,还从媒体信息中获取对应的文本,并使用预测模型预测该文本的情感类别,得到该文本的预测情感类型;
步骤S110-S114,服务器112通过网络110将预测情感类别发送给用户设备102,用户设备102中的处理器106根据预测情感类别对已发布的媒体信息进行处理,例如,如果是负向情感类别,可以隐藏或者折叠该已发布的媒体信息,又例如,如果是正向情感类别,可以不对该媒体信息进行处理,还可以调整该媒体信息的显示位置,以使得该媒体信息的曝光量增加。
除了图1示出的示例之外,上述步骤可以由用户设备102独立完成,即由用户设备102执行预测文本的情感类别等步骤,从而减轻服务器的处理压力。该用户设备102包括但不限于手持设备(如手机)、笔记本电脑、台式电脑、车载设备等,本申请并不限制用户设备102的实现方式。
可选地,作为一种可选的实施方式,图2是根据本申请实施例的一种可选的情感类别的预测方法的流程示意图,如图2所示,该情感类别的预测方法的流程可以包括以下步骤:
步骤S202,获取一组第一特征向量和一组第二特征向量,其中,一组第一特征向量包括对一组第一元素单元中的每个第一元素单元进行编码所得到的特征向量,一组第一元素单元包括目标文本中的每个第一元素单元,一组第二特征向量包括对一组第二元素单元中的每个第二元素单元进行编码所得到的特征向量,一组第二元素单元包括对目标文本进行分词所得到的第二元素单元。
本实施例中的情感类别的预测方法可以应用到预测文本的情感类别的应用场景,例如,可以是对从媒体信息中获取到的文本进行情感类型预测的场景。上述媒体信息可以是在媒体平台中发布的媒体信息,例如,生产的媒体内容、发布的评价内容等,上述媒体平台可以是自媒体平台,也可以是其他类型的媒体平台。本实施例中对于文本的获取方式不做限定。
可选地,上述情感类别的预测方法可以应用于车载场景,例如,应用到车载地图或者车载智能系统中的其他应用中,在这些车载应用中可以基于用户的授权获取该用户使用这些车载应用的用户数据或者账户数据,并对获取到的数据中的文本信息(可以是媒体信息)进行情感类别的预测,并基于预测的情感类型执行后续的数据处理,例如,查看正向情感类别的地图分布、执行负向情感类别的下沉等。
预测文本的情感类别的预测模型可以有多种,其可以是浅层模型。考虑到不少低质内容非常隐晦,需要考虑上文问语境和提取深层语义信息,而浅层模型表征能力有限,可以采用深层模型,例如,预训练模型(即,预训练语言模型),预训练模型可以是BERT(Bidirectional Encoder Representation from Transformers,基于转换器的双向编码表征)模型。BERT是基于Transformer(转换器)的深度双向语言表征模型,是利用Transformer结构构造出的多层双向的Encoder(编码)网络。BERT的核心是双向Transformer Encoder。Transformer是基于自注意力机制(Self-attention)的深层模型,在包括机器翻译在内的多项NLP任务上均有应用,超过RNN(Recurrent Neural Network,循环神经网络),并且训练速度更快。
预训练模型中使用的token(标记)表征通常都是细粒度的(即,以第一元素单元为粒度),预训练模型一般使用的是单粒度(即,细粒度)的Tokenization(即,标记算法)。第一元素单元可以是具有语言学含义的最小单元,其可以为以下至少之一:字,单词。以第一元素单元为字为例,以字为词法单元进行处理具有以下优点:参数更少,不容易过拟合;不依赖于分词算法,避免边界切分错误;没有严重的稀疏性,一般不会出现未登录词,表征更容易学习。由于忽略了字与字之间的关联,以字作为词法单元是不太完整的。
考虑到语言系统中第二元素单元(其可以是一个或多个第一元素单元的组合)是语言表达的基本单元,可以采用粗粒度的token(即,第二元素单元)表达,这里的第二元素单元可以为以下至少之一:词组或短语(例如,在英文中)、词语或者短句(例如,在中文中),可以统称为词。以第二元素单元为词为例,以词(即,粗粒度的token)为词法单元进行处理具有以下优点:语言表达更加完整,可以使序列变短,处理速度更快;在文本生成任务上,能缓解曝光误差的问题;词义的不确定性更低,降低建模复杂度,能够更好抽取语义特性。
然而,采用粗粒度的token表达会出现未登录词的问题,尤其是对于信息流资讯业务,新词和新的信息很多。由于新出现的低频率的词法单元往往没有足够的训练数据,并且未登录词过多,学习到的表征不够充分,因此,单纯词粒度的token表征更难学习,导致模型和算法的处理效率低,需要的机器资源和成本增加,并且无法保证token切分的准确性,非常依赖分词或者短语切分。
为了兼顾情感类别预测的准确性和处理速度,可以采用混合粒度的预测模型。以预训练模型为例,预训练模型本身可以采用细粒度的token(即,字)切分,在连续的token上基于粗粒度的token(即,词)进行Mask(标注),以提高模型的准确率。例如,对于BERT模型,原始BERT模型只有字序列输入,考虑到词所占的比例,引入词粒度有助于提升例如中文场景中情感类别的预测效果。
在信息流业务场景下,自然语言处理的内容对象以样本形态分为评论、标题、篇章级场景,可以包括短文本和长文本,处理以内容分类(单分类和多分类)及匹配为主。在预测情感类别的场景下,处理的是内容分类,分类可以是文本的情感类别。
在本实施例中,在信息流业务场景下,在信息流语料大规模语料(上述语料可以是去重、清洗后的语料)的基础上,充分考虑不同粒度的编码的优缺点和系统整体的计算量的实用性,提供了一种基于信息流大规模语料的、混合粒度的预训练模型(例如,BERT模型),是一种混合粒度的编码方案。例如,对于评论内容,上述预训练模型可以是混合粒度的预训练评论BERT模型。
以自媒体平台为例,自媒体是由用户主导的信息传播活动,由“点到面”的传播转化为“点到点”的一种对等的传播概念。同时,自媒体也是指为个体提供信息生产、积累、共享、传播内容兼具私密性和公开性的信息传播方式。自媒体平台可以包含媒体内容的内容生产端(例如,PGC或者UGC、MCN或者PUGC的内容生产者)和媒体内容的内容消费端,还可以包含关联的服务器。用户在内容生产端所生产的自媒体内容一般没有既定的核心,可以涉及多方面的内容,高质量的自媒体图文一般会控制在一定长度范围(如,字数范围)内,让其他用户可以通过内容消费端在短时间内流畅阅读完,适合在移动时代的快速阅读和消费。
例如,在如图3所示的网络架构中,内容消费端和内容生产端为用户侧的设备,一个用户的终端设备即可以作为内容生产端进行媒体信息的发布,又可以作为内容消费端进行媒体信息的消费;而上下行接口服务器、内容数据库、内容排重服务器、内容分发出口服务器、调度中心、人工审核系统、线上巡检、混合粒度的BERT模型、文本内容处理与理解服务、文本语料与样本数据库、互动内容数据库、UCG互动业务服务器和统计上报接口服务器为服务端设备,其中的全部或者部分可以位于服务端的同一设备上。基于业务需求,可以应用到不同业务场景时,服务端可以包含比图3中更多或者更少的设备。
在进行媒体信息发布时,内容生产端进行内容发布的过程可以包括以下步骤:
步骤S301,内容生产端向上下行内容接口服务器上传发布内容(即,媒体信息)。
在上传发布内容时,内容生产端可以通过移动端或后端接口API(ApplicationProgramming Interface,应用程序接口)系统提供本地或者拍摄的图文内容、视频或者图集内容,这些都是分发内容的主要内容来源。
通过与上下行内容接口服务器进行通讯,内容生产端可以先获取上传服务器接口地址,然后再上传本地文件,拍摄过程当中本地图文内容可以选择搭配的音乐,滤镜模板和图文的美化功能等等。上下行内容接口服务器可以与内容生产端直接通讯,从前端提交的内容(通常是内容的标题、发布者、摘要、封面图、发布时间、或者是拍摄的图文)可以直接通过该下行内容接口服务器进入服务端。
步骤S302,上下行内容接口服务器向内容数据库写入图文元信息。
上下行内容接口服务器可以把文件存入内容数据库中。此外,上下行内容接口服务器可以将图文内容的元信息(比如,图文文件大小、封面图链接、码率、文件格式、标题、发布时间、作者等信息)写入内容数据库。
步骤S303,内容入调度中心。
上下行内容接口服务器还可以将上传的内容提交给调度中心(即,调度中心服务器),进行后续的内容处理和流转。
步骤S304,调用排重服务。
调度中心可以负责内容流转的整个调度过程,比如,通过上下行内容接口服务器接收入库的内容,然后从内容数据库中获取内容的元信息。调度中心还可以调度人工审核系统和机器处理系统,控制调度的顺序和优先级。此外,调度中心可以通过人工审核系统启用内容分发,然后通过内容分发出口服务器(可以是推荐引擎、搜索引擎、运营等)直接将展示页面提供给终端的内容消费端,也就是,消费端可以获得内容索引信息(即,访问内容的地址信息)。
调度中心服务器对内容的处理可以包括:机器处理和人工审核处理。这里,机器处理可以包括以下至少之一:各种质量判断,比如,低质过滤;内容打标签,比如,分类、标签信息,内容排重。上述处理的结果可以写入到内容数据库中,完全重复一样的内容,避免人工进行重复的二次处理。
在确定发布内容之后,调度中心服务器可以调用内容排重服务器的排重服务,以进行内容排重。
步骤S305,同步到人工审核系统(可选步骤)。
调度中心服务器还可以将发布内容的信息同步到人工审核系统。这里,人工审核系统通常是一个业务复杂的基于web(全球广域网)数据库开发的系统,其可以读取内容数据库中图文内容本身的原始内容,通过人工来对图文内容是否涉及敏感信息进行一轮初步过滤。在人工审核的过程中,可以读取内容数据库当中的元信息,同时人工审核的结果和状态也会回传进入内容数据库。
可选地,在视频内容等发布内容通过机器学习(初步审核,比如,深度学习)的基础上,可以在机器处理的机器上通过人工审核系统对内容进行二次的人工审核处理,通过人机协作,可以对内容进行分类和标签的标注或者确认,提升内容标注的准确性和效率。
步骤S306,读取原始数据。
内容排重服务器可以提供图文、视频和图集的排重服务,其可以从内容数据库读取图文内容本身的原始内容,对图文和图集及视频等原始内容进行向量化,并建立向量的索引,然后通过比较向量之间的距离来确定相似程度,从而进行内容排重。在进行向量化时,可以将图文内容通过BERT或者SIMHASH(局部敏感哈希值的一种)向量化。在进行所有正文排重任务之前,可以先对标题短文本进行排重。
步骤S307,更新元信息。
在进行内容排重之后,如果发布内容不是重复内容,则可以将发布内容的元信息更新到内容数据库中。内容数据库是内容的核心数据库,所有生产者发布内容的元信息可以都保存在这个业务数据库中。更新的发布内容的元信息可以包括内容本身的元信息,例如,文件大小,封面图链接、码率、文件格式、标题、发布时间、作者、视频文件大小、视频格式、是否原创的标记或者首发等。此外,发布内容的元信息还可以包括人工审核过程中对内容的分类,可以包括:一、二、三级别分类和标签信息,比如,一篇讲解手机的文章,一级分科是科技,二级分类是智能手机,三级分类是国内手机,标签信息是手机品牌,手机型号等。
步骤S308,启用内容开始分发。
在对发布内容进行审核之后,如果确定允许发布内容进行发布,调度中心可以与内容分发出口服务器进行交互,启动内容开始发布,即,启动内容的发布。
步骤S309,内容分发消费端。
内容分发出口服务器可以将发布内容分发到内容消费端。
内容消费端可以以Feeds流形式展示内容生产端的生成内容,供用户快速刷新。Feeds流可以看作是一个聚合器,订阅源的是用户关注的人物,内容是用户关注的人物公开发布的动态。当关注的人物的数量足够多并且活跃时,就可以收到不断更新的内容。由于内容的更新是不断向服务器发出请求的结果,因此,时间轴(Timeline)是Feed所遵循的维度。
在信息流业务场景下,在进行内容消费时,如图3所示,内容消费端进行内容消费的过程可以包括以下步骤:
步骤S311,获取索引信息。
内容消费端可以与上下行内容接口服务器通讯,获取访问图文或者视频文件的索引信息。然后下载对应的流媒体文件并且通过本地播放器来播放观看。内容消费端可以将上传和下载过程当中用户播放的行为数据、卡顿、加载时间、播放点击等上报给服务器。
步骤S312,上报UGC互动信息。
内容消费端消费内容的过程中所产生的互动信息(例如,对内容的评论UGC短文本内容,点赞,转发,收藏等互动信息,产生的互动信息可以为UCG互动信息),可以通过统计上报接口服务上报。
步骤S313,写入互动内容数据库。
内容消费端上报的UCG互动信息可以被写入到互动内容数据库。互动内容数据库中可以保存终端用户所产生的原始评论数据,包括:评论所对应内容的唯一标记、发表评论的时间、评论的用户ID,评论的实际内容等。比如,统计上报接口服务器可以接收终端用户产生的评论内容,将内容传给互动内容数据库,互动内容数据库保存了历史上所有的历史评论的文本信息。
步骤S314,获取短文本数据。
UCG互动信息可以作为评论语料与短文本样本数据库的数据源。文本语料与样本数据库可以从互动内容数据库中获取UCG互动信息。文本语料与样本数据库可以从互动内容数据库获取短文本信息。获取的端文本信息可以作为训练BERT模型的语料。
评论业务逻辑可以是通过内容消费端与UGC互动业务服务器进行交互完成的。如图3所示,评论业务逻辑可以包括以下步骤:
步骤S321,UGC互动业务服务器读写评论内容。
UGC互动业务服务器可以与内容消费端进行交互,读取在内容消费端上所发布的评论内容。
步骤S322,UGC互动业务服务器调用文本内容处理与理解服务器的评论治理服务。
UGC互动业务服务器可以调用文本内容处理与理解服务器,对读取的评论内容进行治理。例如,对于短文本内容(比如,消费端实时评论信息)进行质量识别,从而确定该评论内容的质量结果,识别的质量结果可以返回给UGC互动业务服务器。评论内容的质量结果可以有多种,可以包括但不限于:低质量内容,高质量内容等。
此外,UGC互动业务服务器也可以与内容生产端进行交互(图3中未驶出),读取在内容生产端上的发布内容(例如,UGC),并对发布内容进行情感类别预测,从而确定上述发布内容的质量结果。
服务器(例如,上述UGC互动业务服务器)进行情感类别预测所使用的文本可以是从上述的评价内容、发布内容等中获取到的文本,也可以是从其他的媒体信息中获取到的文本。
本实施例中第一元素单元以字为例、第二元素单元以词(例如,词语、词组等)为例说明上述的情感类别的预测方法,对于其他类型的第一元素单元(例如,单词)、以及其他类型的第二元素单元(例如,短语、短句等),本实施例中提供的情感类别的预测方法同样适用。
对于当前待处理的目标文本,服务器可以获取该目标文本中的每个字,得到一组字(一组第一元素单元的示例)。上述一组字可以是该目标文本的字序列,例如,目标文本为“ABC是DE汽车品牌”,则该文本的字序列可以是[A, B, C, 是, D, E, 汽, 车, 品, 牌]。
对于上述一组字,服务器可以对其中的每个字进行编码,得到与每个字对应的第一特征向量(即,字特征向量),从而得到一组第一特征向量。一组第一特征向量包含的第一特征向量的数量与一组字中包含的字的数量可以是相同的。每个字的第一特征向量的维度可以是相同的维度,例如,均为第一维度,例如,每个字可以编码成一个(1,m)维度的特征向量,m为自然数。基于所采用的预测模型的不同,对字进行编码所采用的编码方式、以及编码得到的第一特征向量的维度可以是不同的。本实施例中对此不做限定。
服务器也可以获取对该目标文本中进行分词处理,得到一组词(一组第二元素单元的示例)。对于不同的分词方式,词所表征的含义也可以是不同的。例如,词可以是指中文中的词语、短句,也可以是英文中的词组、短句(比如,“New York”、“ice cream”)等。对于基于短语粒度进行分词的方式,短语可以采用业务领域自定义的短语表,短语表中的短语可以表示这个短语(或者说,这个词)是不可分割的整体。上述一组词可以是该目标文本的词序列,例如,目标文本为“ABC是DE汽车品牌”,则该文本的词序列可以是[ABC, 是, DE, 汽车, 品牌]。
对于上述一组词,服务器可以对其中的每个词进行编码,得到与每个词对应的第二特征向量(即,词特征向量),从而得到一组第二特征向量。一组第二特征向量包含的第二特征向量的数量与一组词中包含的词的数量可以是相同的。每个词的第二特征向量的维度可以是相同的维度,例如,均为第二维度,例如,每个词可以编码成一个(1,n)维度的特征向量,n为自然数。可选地,词的编码最细粒度可以利用字粒度已有的编码,不需要单独训练词向量,从而可以减少词向量的计算程度。
基于所采用的预测模型的不同,对词进行编码所采用的编码方式、以及编码得到的第二特征向量的维度可以是不同的。第一特征向量的维度与第二特征向量的维度可以是相同的(即,m=n),也可以是不同的(即,m≠n)。本实施例中对此不做限定。
例如,对于文本中的每个字,可以将其编码为一个(1, 768)维的特征向量,对于文本中的每个词,也可以将其编码为一个(1, 768)维的特征向量。
步骤S204,根据一组第二元素单元与一组第一元素单元之间的包含关系,对一组第一特征向量与一组第二特征向量进行特征向量融合,得到一组融合特征向量。
如果简单把字粒度和词粒度直接输入(字单独输入,同时词也单独输入),字和词作为两路输入,等同于两个预测模型(比如,两个BERT模型)混合粒度可提升字粒度效果,但计算量翻倍,对于服务器的软硬件需求会大幅增加。为克服上述问题,可以在对第一特征向量与第二特征向量进行特征向量融合。例如,对于预训练模型,由于短语、句子和词最小的组成粒度都是字,可以不单独训练和使用额外的词向量,而是从字粒度向上拓展,将字粒度和词粒度在embedding(嵌入层)阶段融合,这样仅需要做一次Transformer(转换器)编码,无需额外增加系统的计算量。这里,字粒度和词粒度的编码层及融合阶段的语言模型都是使用Transformer结构。
在本实施例中,目标文本的一组词中的每个词可以包含一组字中的至少一个字,例如,目标文本为“ABC是DE汽车品牌”,那么,词“是”对应于一个字“是”,词“汽车”对应于两个字“汽”和“车”。根据一组词语和一组字之间的包含关系,服务器可以对一组第一特征向量与一组第二特征向量进行特征向量融合,得到一组融合特征向量。
在进行特征向量融合时,每个词的第二特征向量可以与其包含的全部字或者部分字的第一特征向量进行融合,上述特征向量融合可以是特征向量的叠加、也可以是特征向量的拼接,还可以是特征向量的替换。上述特征向量的叠加可以是直接叠加,也可以是加权之后的叠加。上述特征向量的拼接可以是直接拼接,也可以是加权之后的拼接。本实施例中对于特征向量融合方式不做限定。
步骤S206,将一组融合特征向量输入到目标预测模型中,得到目标预测结果,其中,目标预测模型用于根据输入的特征向量预测与输入的特征向量关联的情感类别,目标预测结果用于表示目标文本的预测情感类别。
进行情感类别预测使用的可以是目标预测模型,该目标预测模型可以用于根据输入的特征向量预测与输入的特征向量关联的情感类别。目标预测模型可以是使用标注了情感类别的训练样本对初始预测模型进行训练得到的。将一组融合特征向量输入到目标预测模型中,可以得到用于表示目标文本的预测情感类别的目标预测结果。
目标预测模型可以是上述的预训练模型,预训练模型可以包含转换器(即,transformer),服务器可以将一组融合特征向量输入到该转换器,得到该转换器输出的该目标预测结果。这里,预训练模型可以是在信息流业务场景下,基于大规模语料进行训练得到的、混合粒度(即,细粒度和粗粒度混合)的预训练语言模型,例如,BERT模型。
例如,Transformer的网络结构可以由Attention(即,注意力)机制组成,可以是仅由self-Attention和Feed Forward Neural Network(前馈神经网络)组成。如图4所示,Transformer的结构也可以是由encoder(编码器)和decoder(解码器)组成。对于BERT模型,其可以是基于Transformer的、可训练的神经网络,BERT模型可以通过堆叠Transformer的形式进行搭建。通过搭建总共12层的Encoder-Decoder(编码器-解码器,其中,包含6层编码器和6层解码器)。
在得到一组融合特征向量后,服务器可以将一组融合特征向量输入到BERT模型的Transformer中,可以仅做一次Transformer编码,而不增加模型计算量和不降低推理的速度。
通过本申请提供的实施例,获取一组第一特征向量和一组第二特征向量,其中,一组第一特征向量包括对一组第一元素单元中的每个第一元素单元进行编码所得到的特征向量,一组第一元素单元包括目标文本中的每个第一元素单元,一组第二特征向量包括对一组第二元素单元中的每个第二元素单元进行编码所得到的特征向量,一组第二元素单元包括对目标文本进行分词所得到的第二元素单元;根据一组第一元素单元与一组第二元素单元之间的包含关系,对一组第一特征向量与一组第二特征向量进行特征向量融合,得到一组融合特征向量;将一组融合特征向量输入到目标预测模型中,得到目标预测结果,其中,目标预测模型用于根据输入的特征向量预测与输入的特征向量关联的情感类别,目标预测结果用于表示目标文本的预测情感类别,解决了相关技术中的情感类别的预测方法存在由于词义的不确定性高导致的情感类别预测的准确性低的问题,在不额外增加计算量的同时,提高了情感类别预测的准确性。
作为一种可选的实施方案,根据一组第二元素单元与一组第一元素单元之间的包含关系,对一组第一特征向量与一组第二特征向量进行特征向量融合,得到一组融合特征向量,包括:
S1,在一组第一元素单元中确定一组第二元素单元中的每个第二元素单元所包括的第一元素单元;
S2,将每个第二元素单元对应的第二特征向量分别与每个第二元素单元所包括的第一元素单元对应的第一特征向量进行特征向量融合,得到对应的融合特征向量。
在进行特征向量融合时,服务器可以基于一组第二元素单元中的每个第二元素单元进行特征融合。以第一元素单元为字、第二元素单元为词为例,对于一组词中的每个词,服务器可以根据一组词与一组字之间的包含关系,在一组字中确定每个词所包括的字。基于分词规则,每个词可以包含至少一个字,不同的词包含的字是不同的。这里,一组字中的每个字不仅包含其本身,也包括其在一组字中的位置。
对于每个词,服务器可以将每个词对应的第二特征向量与其所包括的字对应的第一特征向量进行特征向量融合,得到对应的融合特征向量。不同词的特征向量融合可以是串行执行的,也可以是并行执行的,还可以是串行执行和并行执行相结合的。可选地,服务器也可以分别完成每个字的第一特征向量与其所属的词的第二特征向量的特征向量融合,从而完成每个词对应的第二特征向量分别与每个词所包括的字对应的第一特征向量进行特征向量融合。在完成全部的特征向量融合之后,可以得到一组融合特征向量。
例如,在完成一个词对应的第二特征向量分别与其所包括的字对应的第一特征向量进行特征向量融合之后,再完成下一个词对应的第二特征向量与其所包括的字对应的第一特征向量进行特征向量融合,直到完成所有词的特征向量融合。例如,可以并行完成多个词(可以是一组词中的全部或者部分词)对应的第二特征向量分别与其所包括的字对应的第一特征向量进行特征向量融合,直到完成所有词的特征向量融合。
通过本申请提供的实施例,基于每个第二元素单元所包括的第一元素单元进行一组第一特征向量与一组第二特征向量之间的特征向量融合,可以提高特征向量融合的便捷性和准确性。
作为一种可选的实施方案,上述一组第一元素单元可以是目标文本的第一元素单元序列,一组第二元素单元为目标文本的第二元素单元向量。一组第一元素单元中的每个第一元素单元的顺序为其在目标文本中的出现顺序,而一组第二元素单元中的每个第二元素单元的顺序为其在目标文本中的出现顺序。
在本实施例中,在一组第一元素单元中确定一组第二元素单元中的每个第二元素单元所包括的第一元素单元可以包括:在一组第一元素单元中确定一组第二元素单元中的第i个第二元素单元所包括的N个第一元素单元。
这里,i为自然数,即,大于或者等于1的整数,而每个第二元素单元包含至少一个第一元素单元,因此,第i个第二元素单元所包括的第一元素单元的数量N为自然数,即,大于或者等于1的整数。对于不同的i,其所包含的第一元素单元的数量可以是相同的,也可以是不同的。
可选地,在进行特征向量融合时,可以将每个第二元素单元对应的第二特征向量分别与每个第二元素单元所包括的所有第一元素单元对应的第一特征向量分别进行特征向量融合。对于上述的第i第二元素单元,该第二元素单元对应于一组第二特征向量中的第i个第二特征向量。服务器可以将第i个第二特征向量分别与N个第一元素单元中的每个第一元素单元对应的第一特征向量进行特征向量融合,得到N个融合特征向量。
以第一元素单元为字、第二元素单元为词为例,由于粗粒度的词(短语)由字构成,在向量融合过程当中为了有效减少计算,可以通过词编码重复的次数来隐含表示其包含几个字,从而间接告诉预测模型那些部分不可分割的一个整体,从而提高融合后的特征向量的语义表征能力。
例如,目标文本为“ABC是DE汽车品牌”,其第4词为“汽车”,该词包含的所有字为“汽”和“车”,可以将“汽车”的第二特征向量分别与“汽”的第一特征向量和“车”的第一特征向量进行特征向量融合。
通过本申请提供的实施例,通过将每个第二元素单元的第二特征向量与该第二元素单元包含的所有第一元素单元的第一特征向量进行特征向量融合,可以有效减少向量融合过程中的计算量,提高融合后的特征向量的语义表征能力。
作为一种可选的实施方式,将第i个第二元素单元对应的第i个第二特征向量分别与N个第一元素单元中的每个第一元素单元对应的第一特征向量进行特征向量融合,得到N个融合特征向量可以包括:将第i个第二元素单元对应的第i个第二特征向量分别与N个第一元素单元中的每个第一元素单元对应的第一特征向量进行相加,得到N个融合特征向量。
以第一元素单元为字、第二元素单元为词为例,在进行特征向量融合时,为了减少向量融合过程中的计算量,服务器可以将第i个第二特征向量与N个字中的每个字对应的第一特征向量进行相加,从而得到N个融合特征向量。
第二特征向量的维度和第一特征向量的维度可以是相同的,也可以是不同的。如果第二特征向量的维度和第一特征向量的维度相同,则可以直接进行两者的相加。如果第二特征向量的维度和第一特征向量的维度不相同,则可以进行向量维度的调整,将两者调整为相同的维度之后相加。本实施例中对此不做限定。
通过本申请提供的实施例,通过将第二特征向量与第一特征向量进行相加,可以减少向量融合过程中的计算量。
作为另一种可选的实施方式,将第i个第二元素单元对应的第i个第二特征向量分别与N个第一元素单元中的每个第一元素单元对应的第一特征向量进行特征向量融合,得到N个融合特征向量可以包括:将第i个第二元素单元对应的第i个第二特征向量分别与N个第一元素单元中的每个第一元素单元对应的第一特征向量进行拼接,得到N个融合特征向量。
同样以第一元素单元为字、第二元素单元为词为例,在进行特征向量融合时,为了提高特征向量融合的适用性,服务器可以将第i个第二特征向量与N个字中的每个字对应的第一特征向量进行拼接,从而得到N个融合特征向量。
上述特征向量的拼接可以是在一个维度方向的扩展,例如,第二特征向量和第一特征向量均为(1, m)维的特征向量,两者拼接之后可以得到(1, 2m)维的特征向量。上述特征向量的拼接可以是在不同维度方向上的叠加,例如,第二特征向量和第一特征向量均为(1, m)维的特征向量,两者拼接之后可以得到(2, m)维的特征向量。本实施例中对此不做限定。
通过本申请提供的实施例,通过将第二特征向量与第一特征向量进行拼接,可以提高特征向量融合的适用性。
作为一种可选的实施方案,上述一组第一元素单元可以是目标文本的第一元素单元序列,一组第二元素单元为目标文本的第二元素单元向量。一组第一元素单元中的每个第一元素单元的顺序为其在目标文本中的出现顺序,而一组第二元素单元中的每个第二元素单元的顺序为其在目标文本中的出现顺序。在本实施例中,在一组第一元素单元中确定一组第二元素单元中的每个第二元素单元所包括的第一元素单元可以包括:在一组第一元素单元中确定一组第二元素单元中的第i个第二元素单元所包括的N个第一元素单元。
这里,i为自然数,即,大于或者等于1的整数,而每个第二元素单元包含至少一个第一元素单元,因此,第i个第二元素单元所包括的第一元素单元的数量N为自然数,即,大于或者等于1的整数。对于不同的i,其所包含的第一元素单元的数量可以是相同的,也可以是不同的。
可选地,在进行特征向量融合时,可以将每个第二元素单元对应的第二特征向量分别与每个第二元素单元所包括的部分第一元素单元对应的第一特征向量分别进行特征向量融合。对于上述的第i第二元素单元,该第二元素单元对应于一组第二特征向量中的第i个第二特征向量。服务器可以将第i个第二特征向量分别与N个第一元素单元中的M个第一元素单元对应的第一特征向量进行特征向量融合,得到M个融合特征向量。
以第一元素单元为字、第二元素单元为词为例,由于粗粒度的词(短语)由字构成,在向量融合过程当中为了有效减少计算,可以将词编码与对应的部分字编码进行融合,上述融合可以指示出每个词所包含的字,例如,指示出每个字的起始位置、结束位置等,从而可以间接告诉预测模型哪些部分不可分割的一个整体,或者,提高预测模型在每个词的起始位置、结束位置等的注意力,从而提高融合后的特征向量的语义表征能力。
例如,目标文本为“ABC是DE汽车品牌”,其第4词为“汽车”,该词包含的所有字为“汽”和“车”,可以将“汽车”的第二特征向量与“汽”的第一特征向量进行特征向量融合。
可选地,在本实施例中,将第i个第二元素单元对应的第i个第二特征向量分别与N个第一元素单元中的M个第一元素单元对应的第一特征向量进行特征向量融合,得到M个融合特征向量可以包括:将第i个第二元素单元对应的第i个第二特征向量分别与M个第一元素单元中的每个第一元素单元对应的第一特征向量进行相加,得到M个融合特征向量。
同样以第一元素单元为字、第二元素单元为词为例,在进行特征向量融合时,为了减少向量融合过程中的计算量,服务器可以将第i个第二特征向量与M个字中的每个字对应的第一特征向量进行相加,从而得到M个融合特征向量。
第二特征向量的维度和第一特征向量的维度可以是相同的,也可以是不同的。如果第二特征向量的维度和第一特征向量的维度相同,则可以直接进行两者的相加。如果第二特征向量的维度和第一特征向量的维度不相同,则可以进行向量维度的调整,将两者调整为相同的维度之后相加。本实施例中对此不做限定。
通过本申请提供的实施例,通过将第二特征向量与第一特征向量进行相加,可以减少向量融合过程中的计算量。
作为另一种可选的实施方式,将第i个第二元素单元对应的第i个第二特征向量分别与N个第一元素单元中的M个第一元素单元对应的第一特征向量进行特征向量融合,得到M个融合特征向量可以包括:将第i个第二元素单元对应的第i个第二特征向量分别与M个第一元素单元中的每个第一元素单元对应的第一特征向量进行拼接,得到M个融合特征向量。
同样以第一元素单元为字、第二元素单元为词为例,在进行特征向量融合时,为了提高特征向量融合的适用性,服务器可以将第i个第二特征向量与M个字中的每个字对应的第一特征向量进行拼接,从而得到M个融合特征向量。
上述特征向量的拼接可以是在一个维度方向的扩展,例如,第二特征向量和第一特征向量均为(1, m)维的特征向量,两者拼接之后可以得到(1, 2m)维的特征向量。上述特征向量的拼接可以是在不同维度方向上的叠加,例如,第二特征向量和第一特征向量均为(1, m)维的特征向量,两者拼接之后可以得到(2, m)维的特征向量。本实施例中对此不做限定。
通过本申请提供的实施例,通过将每个第二元素单元的第二特征向量与该第二元素单元包含的部分第一元素单元的第一特征向量进行特征向量融合,可以有效减少向量融合过程中的计算量,提高融合后的特征向量的语义表征能力。
下面结合可选示例对本申请实施例中的情感类别的预测方法进行解释说明。在本可选示例中,预测模型为预训练语言模型,例如,预训练语言模型为字词混合粒度的BERT模型;目标文本为“ABC是DE汽车品牌”。
在本可选示例中,可以按照词和字混合粒度编码,也就是,把“ABC”、“DE”、“汽车”和“品牌”这些词分别编码后再融入,将字粒度和词粒度在embedding阶段融合,这样仅需要做一次Transformer编码,而不会额外增加系统计算量。
如图4所示,采用细粒度(即,字粒度)的token切分,可以得到目标文本的字序列,
Figure 53385DEST_PATH_IMAGE001
,采用粗粒度(即,词粒度)的token切分,可以得到目标文本的词序列,
Figure 279967DEST_PATH_IMAGE002
。通 过字粒度编码层(Fine-Grained embedding Layer,细粒度的嵌入层),可以按照字粒度对 每个字单独编码,得到一组字特征向量,
Figure 865800DEST_PATH_IMAGE003
;而通过粗粒度编码层(Coarse-Grained embedding Layer,粗粒度的嵌入层),可以按照词粒度对每个词编码,得到对应的一组字特 征向量,
Figure 216622DEST_PATH_IMAGE004
在融合嵌入层(Merge Embedding),将字粒度对应的词重复几次之后和对应的字对应起来进行特征向量融合,比如,“汽”和“车”这两个字属于同一个词“汽车”,所以“汽车”的词特征向量重复两次,重复的次数表示对应的词包含几个字。融合后的一组融合特征向量中包含9个融合特征向量,分别对应于输入的9个字。一组融合特征向量可以被输入到预训练语言模型(PLM Encoder)中,进行情感类别预测。
这里,词(或者短语)由最小粒度的字构成,采用字到词(还可以是短句)从底向上拆解和组合,从字到词到短句到句子都可以作为向量的输入,可以提供更多信息给与预训练语言模型来学习,从而提升模型的特征提取和表达能力,也可以避免未登陆词,直接用字粒度表示,不需要单独的词表和训练单独的词向量。
通过本可选示例,通过混合粒度的编码方式同时输入字序列和词序列乃至拓展到短语,可以提升模型的语义表征能力,解决未登录词过多,学习到的表征不够充分的问题;同时仅做一次Transformer编码,不增加模型计算量和不降低推理的速度,使得信息流内容处理效率和效果得到提升,有效减少标注样本和机器设备资源的投入。
作为一种可选的实施方案,在将一组融合特征向量输入到目标预测模型中,得到目标预测结果之后,上述方法还包括:
S1,在预测情感类别为负向情感类别的情况下,删除已发布的目标媒体信息,其中,目标文本是从目标媒体信息中获取到的文本;或者,
S2,在预测情感类别为负向情感类别的情况下,调整已发布的目标媒体信息的展示位置,以使得目标媒体信息的曝光量减少,其中,目标文本是从目标媒体信息中获取到的文本。
目标文本可以是从目标媒体信息中获取到的文本,这里,媒体信息也可以称为媒体内容,其可以是由目标媒体平台的内容生产者所发布的媒体内容,也可以是内容消费者所发布的媒体内容(例如,评价内容)。服务器可以获取目标媒体信息,并从目标媒体信息中获取到目标文本。获取目标媒体信息的方式可以有多种,可以是直接接收目标媒体信息,也可以是基于接收到的消息(例如,请求消息等),从存储媒体信息的数据库中读取目标媒体信息。
例如,服务器可以接收终端设备发送的信息发布请求,该信息发布请求用于请求发布目标媒体信息。响应该信息发布请求,服务器可以获取目标媒体信息。如果信息发布请求中携带有目标媒体信息,服务器可以直接获取到目标媒体信息。如果信息发布请求中携带有目标媒体信息的标识信息,服务器可以使用该标识信息从数据库中读取到目标媒体信息。
又例如,服务器可以接收终端设备发送的质量评价请求,该质量评价请求用于请求对目标媒体信息进行质量评价。响应质量评价请求,服务器可以获取目标媒体信息。如果质量评价请求中携带有目标媒体信息,服务器可以直接获取到目标媒体信息。如果质量评价请求中携带有目标媒体信息的标识信息,服务器可以使用该标识信息从数据库中读取到目标媒体信息。这里,接收到质量评价请求的时机可以是在目标媒体信息发布之前,也可以是在目标媒体信息发表之后,还可以是在目标媒体信息发布的过程中。
在获取到目标媒体信息之后,服务器可以采用多种方式从目标媒体信息中获取目标文本。例如,服务器可以直接提取目标媒体信息中包含的文本信息,从而得到目标文本。可选地,服务器也可以对目标媒体信息执行清洗操作,得到目标文本。上述清洗操作可以用于目标媒体信息包含的第一格式的信息更新为第二格式的信息、以及去除目标媒体信息包含的冗余信息。上述清洗操作可以包括但不限于以下至少之一的操作:空白符号的清理操作,表情符号、繁体字等的替换操作,重复符号的去重操作,截取操作。
作为一种可选的方式,如果目标媒体信息中包含空白符号,由于空白符号基本没有语义含义,在情感类别预测时对空白符号进行处理的作用不大,因此,在本实施例中,服务器可以清理目标媒体信息中的空白符号。
作为一种可选的方式,当目标媒体信息包含表情符号时,服务器可以将目标媒体信息的表情符号替换为与表情符号对应的第一元素单元(即,替换操作)。例如,可以通过查找表情符号与文字的映射字典,确定与目标媒体信息中的表情符对应的文字,然后将目标媒体信息中的表情符号替换为与其对应的文字。
作为一种可选的方式,当目标媒体信息包含繁体字时,服务器可以将目标媒体信息中的繁体字替换为与繁体字对应的简体字(即,替换操作)。例如,可以通过查找繁体字与简体字的映射字典,确定与目标媒体信息中的繁体字对应的简体字,然后将目标媒体信息中的繁体字替换为与其对应的简体字。
作为一种可选的方式,当目标媒体信息包含重复符号,重复符号可以是多个连续的相同符号,例如,重复的字符、重复的字、重复的词等。服务器可以清理目标媒体信息中除了重复符号中的第一个符号以外的其他符号。例如,服务器可以对目标媒体信息去重,去除其中的重复符号、重复字和重复词,仅保留重复字符的一个字符、重复字的一个字和重复词中的一个词。
作为一种可选的方式,当目标媒体信息包含的第一元素单元的数量大于目标数量(预设的字数阈值),服务器可以从目标媒体信息的第一个第一元素单元开始,截取目标媒体信息中目标数量的第一元素单元(即,截取操作)。例如,可以截取过长的文本,仅保留其前面的目标数量(例如,100个)的字。
可选地,如果对目标媒体信息执行多种清洗操作时,不同清洗操作的优先级可以是:清理操作的优先级高于替换操作,替换操作的优先级高于去重操作,去重操作的优先级高于截取操作。同种类型的清洗操作之间可以没有优先级顺序,也可以具有预先配置的优先级顺序。
通过对目标媒体信息执行上述清洗操作,服务器可以获取到目标文本,采用前述实施例中的情感类别的预测方法确定该目标文本的预测情感类别,并基于该预测情感类别,确定目标媒体信息的质量评价结果。例如,在预测情感类别为正向情感类别的情况下,可以确定目标媒体信息是优质内容,该质量评价结果为正向的评价结果,可以用于指示该目标媒体信息包含正向情感类别的文本。又例如,在预测情感类别为负向情感类别的情况下,可以确定目标媒体信息是低质内容,该质量评价结果为负向的评价结果,可以用于指示该目标媒体信息包含负向情感类别的文本。
目标预测结果可以用于表示目标文本的预测情感类别,即,预测的情感类别。预测情感类别可以是正向情感类别,例如,如果判定目标文本是正能量、优质的,则可以判定其为正向情感类别,又例如,如果判断目标文本是低俗、谩骂、引战、无营养的,则可以判定其为负向情感类别。基于预测的情感类别,服务器可以对与该目标文本对应的媒体信息(或者说,媒体内容)进行处理。与该目标文本对应的媒体信息为目标媒体信息,
该目标媒体信息可以是已发布的媒体信息,也可以是待发布的媒体信息。基于目标媒体信息的发布状态(例如,待发布状态、已发布状态等),可以对该目标媒体信息执行不同的操作。
如果目标媒体信息是待发布的媒体信息,在预测情感类别为正向情感类别的情况下,服务器可以控制该目标媒体信息进行发布,例如,在目标媒体平台上发布;而在预测情感类别为负向情感类别的情况下,服务器可以阻止该目标媒体信息的发布流程。此外,如果预测情感类别为负向情感类别,服务器也可以向该目标媒体信息的发布对象返回提示信息,该提示信息可以用于提示由于目标媒体信息包含负向情感的内容而被阻止发布,还可以用于提示对目标媒体信息进行更改。本实施例中对此不做限定。
为了保证信息交互的及时性,可以先将目标媒体信息发布,例如,发布到目标媒体平台上,然后再基于目标文本的预测情感类别对已发布的目标媒体信息进行处理。在预测情感类别为正向情感类别的情况下,服务器可以不对目标媒体信息执行任何操作。可选地,服务器也可以调整目标媒体信息的展示位置,以使得目标媒体信息的曝光量增加。
在预测情感类别为负向情感类别的情况下,服务器采用多种方式对目标媒体信息进行处理。作为一种可选的实施方式,服务器可以删除已发布的目标媒体信息。上述删除操作可以是由服务器执行的,即,服务器将目标媒体信息从目标媒体平台上删除。可选地,上述删除操作可以是由终端设备执行的,服务器向当前显示有目标媒体信息的终端设备发送删除指令,该删除指令用于指示该终端设备删除已显示的目标媒体信息。终端设备响应接收到的删除指令,执行目标媒体信息的删除操作。上述终端设备可以是发布目标媒体信息的终端设备,也可以是消费该目标媒体信息的终端设备,本实施例中对此不做限定。
作为另一种可选的实施方式,服务器可以调整已发布的目标媒体信息的展示位置,例如,可以将目标媒体内容下沉,以使得目标媒体信息的曝光量减少。上述的调整操作可以是由服务器执行的,即,服务器调整目标媒体信息在目标媒体平台上的展示位置。可选地,上述的调整操作可以是由终端设备执行的,服务器向当前显示有目标媒体信息的终端设备发送调整指令,该调整指令用于指示该终端设备调整目标媒体信息的展示位置。终端设备响应接收到的展示指令,执行目标媒体信息的调整操作。上述终端设备可以是发布目标媒体信息的终端设备,也可以是消费该目标媒体信息的终端设备,本实施例中对此不做限定。
例如,如图3所示,UGC互动业务服务器可以用于识别评论内容(可以是短文本内容)的业务逻辑,对于消费用户实时发布的评论内容进行情感识别,对于低质内容直接删除或者将评论内容在评论区中下沉展示,减少这类低质内容的曝光。
在发表评论内容之后,UCG互动业务服务器可以读取评论内容(用户名为“昵称t”所发表的评价),并调用评论治理服务,确定该评论内容的质量结果。如果该评论内容为低质内容,UCG互动业务服务器可以与内容消费端进行通信,将评论内容的质量结果返回给终端设备(即,内容消费端)。终端设备依据预先确定的策略对评论内容下沉,降低评论内容曝光的机会。如图6所示,用户名为“昵称t”所发表的评价内容被删除。
又例如,在接收到评论内容的质量结果之后,终端设备可以依据预先确定的策略对评论内容下沉,降低评论内容曝光的机会。如图7所示,用户名为“昵称t”所发表的评价内容的显示位置调整到当前未展示的区域内。
通过本申请提供的实施例,通过将判定为低质内容的媒体信息进行删除或者调整展示位置,可以提高媒体信息处理的灵活性,净化网络运行的环境。
作为一种可选的实施方案,在获取一组第一特征向量和一组第二特征向量之前,上述方法还包括:
S1,获取第一训练样本集,其中,第一训练样本集包括从第一媒体信息中获取到的第一媒体文本,第一媒体信息是目标媒体信息所属的目标媒体平台中已发布的媒体信息,目标文本是从目标媒体信息中获取到的媒体文本;
S2,使用第一训练样本集和第一训练样本集的标注信息对初始预测模型进行训练,得到目标预测模型,其中,第一训练样本集的标注信息用于表示第一训练样本集中的训练样本的情感类别。
预测情感类别的目标预测模型可以是使用第一训练样本集对初始预测模型进行训练(或者说,预训练)得到的。在信息流场景下,第一训练样本集中的训练样本可以是纯净的业务语料,以BERT模型等预训练模型为例,预训练模型需要海量纯净的业务语料,语料的质量和规模决定了模型的训练上限。
第一训练样本集中的训练样本可以是从不同的媒体平台(例如,应用、网页、小程序等)中获取到的媒体信息。为了保证训练得到的目标预测模型适用于目标媒体平台,第一训练样本集包括从目标媒体平台的媒体信息(即,第一媒体信息)中获取到的媒体文本(即,第一媒体文本),这里,目标媒体平台为目标媒体信息所属的媒体平台,而目标媒体信息是获取目标文本的媒体信息。
第一训练样本集的每个训练样本均可以通过标注信息标注出其对应的情感类别,对应地,第一训练样本集的标注信息用于表示第一训练样本集中的各个训练样本的情感类别。服务器可以使用该第一训练样本集合以及该第一训练样本集的标注信息对初始预测模型进行训练,得到目标预测模型。
例如,如图8所示,可以为信息流场景构建海量且纯净的信息流语料,包括信息流分发的历史累计的所有文本内容,信息流语料可以是从不同的应用、网页、小程序等各类媒体平台中收集到的,其中,应用1对应的媒体平台是要使用预训练模型的媒体平台。使用收到的海量语料对预训练模型进行训练,得到训练好的预训练模型,训练好的模型可以用来对从应用1的媒体信息中获取到的文本进行情感类别预测。
NLP深度学习任务中通常会使用预训练好的词向量进行网络初始化(而非随机初始化),从而加快网络的收敛速度。基于此,在本实施例中,在进行模型训练时,可以使用预训练好的词向量对初始预测网络进行初始化,得到初始化的初始预测模型。
可以采用与前述类似的方式获取当前训练样本对应第一特征向量和第二特征向量,并将其进行特征向量融合,得到融合特征向量,并将融合特征向量输入到当前预测模型,得到该当前预测模型输出的、当前训练样本的预测情感类别,并基于输出的预测情感类别与当前训练样本的标注情感类别对当前预测模型的模型参数进行调整。对于初始预测模型,可以使用第一训练样本集对其进行多轮训练,直到满足收敛条件。
以BERT模型为例,BERT模型的预训练过程可以包含两个不同的预训练任务,分别是Masked Language Model(掩码语言模型)和Next Sentence Prediction(下一个句子预测)任务,这里的预训练过程可以参考原生BERT模型的预训练过程,在此不做赘述。在本实施例中,可以利用业务场景特有的长文本和短文本的语料数据,利用预训练方式固化隐藏语料知识(固化隐藏语料知识可以是通过预训练任务MLM和NSP来实现的,这里主要提供对应的、清洗合格的语料),使得信息流内容处理效率和效果得到提升,有效减少标注样本和机器设备资源的投入。
通过本申请提供的实施例,从待使用预测模型的媒体平台中收集到的媒体信息中获取媒体文本,并使用包含该媒体样本的训练样本集对于初始预测模型进行训练,得到目标预测模型,可以提高模型对于场景的适用性,提高了情感类别预测的准确性。
作为一种可选的实施方案,获取第一训练样本集包括:
S1,获取一组媒体信息,其中,一组媒体信息中包含第一媒体信息;
S2,去除一组媒体信息中重复的媒体信息、以及一组媒体信息中包含的第一元素单元数小于或者等于目标数量阈值的媒体信息,得到更新的一组媒体信息;
S3,对一组媒体信息的媒体信息执行清洗操作,得到一组媒体文本,其中,清洗操作用于将一组媒体信息中的媒体信息包含的第一格式的信息更新为第二格式的信息、以及去除一组媒体信息中的媒体信息包含的冗余信息,第一训练样本集包括一组媒体文本。
第一训练样本集中可以包含从多个媒体平台的媒体信息中获取到的媒体文本,这里,多个媒体平台的媒体信息为一组媒体信息。多个媒体平台包括上述的目标媒体平台,对应地,一组媒体信息包括上述的第一媒体信息,这是业务相关领域的数据资源。在通用语料基础上加入大量的业务语料进行模型预训练,可以完成领域知识迁移,提高训练得到的预测模型的准确性。
例如,对于短文本语料,在信息流业务场景下,每天有大量的评论内容产生,通过收集过去一段时间业务当中产生的评论数据,经过清洗和处理以后可以得到大量短文本语料,这些短文本语料的特点是:评论样本较短,富含信息较少,口语化,因果关系不明确,多陈述单句。
为了提高模型训练的准确性,可以对收集到的媒体信息进行预处理,得到对应的媒体文本。服务器可以从一组媒体信息中获取到一组媒体文本。一组媒体文本中的一个媒体文本对应于一组媒体信息中的一个媒体信息,而一组媒体文本中包含的媒体文本的数量小于或者等于一组媒体信息中包含的媒体信息的数量。
可选地,在本实施例中,基于用户编辑的格式、媒体平台中发布媒体信息的要求等,在媒体信息中可能会包含有隐藏文字。由于隐藏文字在展示的过程中处于隐藏状态,不会被用户查看到,因此,对包含隐藏文字的文本进行情感类别预测,得到的预测结果存在准确度低的问题。基于此,服务器可以对一组媒体信息中包含隐藏文字的媒体信息执行隐藏文字的去除操作,得到更新后的一组媒体信息。比如,针对篇章级别的长文本,在计算前可以清理其中的隐藏文字,避免干扰,同时可以提高模型训练的准确性。对于前述目标媒体信息,在获取目标文本之前,服务器也可以首先对执行隐藏文字的去除操作,再执行前述获取目标文本的操作,以提高情感类型预测的准确性。
对于一组媒体信息,其中可能包含重复的媒体信息。服务器可以基于媒体信息之间的相似度,确定一组媒体信息中重复的媒体信息。在确定重复的媒体信息时,服务器可以对一组媒体信息中的各个媒体信息进行分词处理,得到各个媒体信息的分词结果。各个媒体信息分词结果可以为一组参考第二元素单元,分词得到的每个参考第二元素单元可以是单个字、词语、短语等。对于一组参考第二元素单元中的每个第二元素单元,可以为其赋予对应的权值。不同参考第二元素单元的权值可以是相同的,也可以是不同的。
以第一元素单元为字、第二元素单元为词为例,对于每个媒体信息,服务器可以计算其分词得到的每个参考词的哈希(hash)值,例如,可以通过哈希函数计算各个参考词的哈希值,得到各个参考词的特征向量,并为各个参考词的特征向量进行加权,即,使用各个参考词的权值对各个参考词的特征向量进行加权,得到各个参考词的加权特征向量。然后,服务器可以将各个参考词的加权特征向量进行合并,得到合并后的特征向量,并对合并后的特征向量进行降维,得到各个媒体信息的特征向量。降维的方式可以是:将合并后的特征向量中大于零的值可以置为1,其他的值可以置为0。各个媒体信息的特征向量可以是各个媒体信息的simhash值(局部敏感哈希值的一种)。
基于各个媒体信息的特征向量之间的相似度(例如,海明距离),服务器可以确定一组媒体信息中重复的媒体信息,可以是:特征向量之间的相似度大于或者等于相似度阈值的媒体信息。对于重复的媒体信息,服务器可以将其从一组媒体信息中去除。去除重复的媒体信息是指:保留重复的媒体信息中的一个,而删除其他的媒体信息。
对于包含的字数小于或者等于目标数量阈值的媒体信息,其所能表征的情感类别有限,为了保证模型训练的准确性,可以去除一组媒体信息中包含的字数小于或者等于第一字数阈值(例如,2个)的媒体信息。例如,对于包含的汉字过少评论,比如,你、是、180cm、呵等,对于单字评论可以直接去除。
在去除重复的媒体信息以及包含的字过少的媒体信息之后,可以得到更新后的一组媒体信息。服务器可以对更新后的一组媒体信息执行清洗操作,得到一组媒体文本,上述清洗操作可以包括但不限于以下至少之一的操作:空白符号的清理操作,表情符号、繁体字等的替换操作,重复符号的去重操作,截取操作。
可选地,在本实施例中,也可以首先对一组媒体信息中的各个媒体信息执行清洗操作,得到一组媒体文本,然后,除一组媒体文本中重复的媒体文本、以及一组媒体文本中包含的字数小于或者等于目标数量阈值的媒体文本,得到更新的一组媒体文本,第一训练样本集包括上述更新的一组媒体文本。
通过本申请提供的实施例,通过对媒体信息组执行去除重复的媒体信息以及包含的第一元素单元过少的媒体信息的操作、以及对媒体信息执行清洗操作,可以获取到纯净的训练样本(即,语料数据),提高模型训练的准确性。
作为一种可选的实施方案,对一组媒体信息的媒体信息执行清洗操作,得到一组媒体文本包括:
S1,对一组媒体信息中的当前媒体信息执行以下操作,得到与当前媒体信息对应的当前媒体文本,其中,一组媒体文本包括当前媒体文本:
S11,在一组媒体信息中的当前媒体信息包含表情符号的情况下,将当前媒体信息中的表情符号替换为与表情符号对应的第一元素单元;
S12,在当前媒体信息包含繁体字的情况下,将当前媒体信息中的繁体字替换为与繁体字对应的简体字;
S13,在当前媒体信息包含重复符号的情况下,清理当前媒体信息中除了重复符号中的第一个符号以外的其他符号;
S14,在当前媒体信息包含空白符号的情况下,清理当前媒体信息中的空白符号;
S15,在当前媒体信息包含的第一元素单元的数量大于目标数量的情况下,从当前媒体信息的第一个第一元素单元开始,截取出当前媒体信息中目标数量的第一元素单元。
在对一组媒体信息的媒体信息执行清洗操作操作时,服务器可以对一组媒体信息中的每个媒体信息分别执行清洗操作。比如,对于当前媒体信息,服务器可以对当前媒体信息执行以下至少之一的清洗操作:空白符号的清理操作,表情符号、繁体字等的替换操作,重复符号的去重操作,截取操作,当前媒体信息可以是一组媒体信息中的任意一个媒体信息。空白符号的清理操作、表情符号、繁体字等的替换操作、重复符号的去重操作、截取操作等与前述实施例中类似,在此不做赘述。
如果对当前媒体信息执行多种清洗操作时,不同清洗操作的优先级可以是:清理操作的优先级高于替换操作,替换操作的优先级高于去重操作,去重操作的优先级高于截取操作。同种类型的清洗操作之间可以没有优先级顺序,也可以具有预先配置的优先级顺序。
通过本申请提供的实施例,通过对媒体信息进行清洗操作,可以减少获取的文本所包含的信息量,提高模型训练的处理效率以及准确性。
作为一种可选的实施方案,在使用第一训练样本和第一训练样本的标注信息对初始预测模型进行训练之前,上述方法还包括:
S1,获取与第一媒体信息对应的目标互动信息,其中,目标互动信息为与第一媒体信息进行互动所产生的信息;
S2,根据目标互动信息的信息类别,确定与第一媒体信息对应的情感类别,其中,与第一媒体文本对应的标注信息用于指示与第一媒体信息对应的情感类别。
第一训练样本可以包含与不同情感类别对应的样本数据,可以包含与负向情感类别对应的样本,比如,包含低俗/谩骂等内容的评论样本,篇章级别的无营养内容等,也可以包含与正向情感类别对应的样本,例如,正能量、旧闻等样本数据,优质文章。第一训练样本的来源可以是人工依据产品标注的样本和消费端的用户举报和反馈后经过复核的少量数据,还可以是线上主动的巡检收集到的标记数据。
可选地,在本实施例中,第一媒体信息可以是基于该第一媒体信息的互动信息进行标注的。这里的互动信息可以用于表示与第一媒体信息的交互操作。在第一媒体信息在目标媒体平台上发布之后,用户可以通过其终端设备查看(即,消费)该第一媒体信息,并通过对该第一媒体信息执行如点赞、转发、收藏、举报等互动操作,产生该第一媒体信息的互动信息,即,目标互动信息。
服务器可以获取该目标互动信息,并根据该目标互动信息的信息类别,确定与第一媒体信息对应的情感类别。例如,服务器可以查找信息类别与情感类别的映射词典,得到与该目标互动信息的信息类别对应的情感类别,查找到的信息类别可以作为与第一媒体信息对应的情感类别,而第一媒体文本对应的标注信息可以用于指示与第一媒体信息对应的情感类别。
例如,如图3所示,统计上报接口服务器可以接收上报上来的内容评论、UGC短文本、点赞、转发、收藏等互动信息,并且写入互动内容数据库,写入的互动内容可以作为后续样本处理和清洗,增强的基础数据来源,基础数据可以是预训练模型的样本数据。结合图3,基于互动信息对语料信息进行标注的方式可以包括以下步骤:
步骤S331,用户举报与反馈及抽检线上。
消费端的用户可以对内容质量进行投诉和反馈(例如,举报),用户的投诉、举报信息可以上报到线上巡检(即,线上巡检服务器),进行内容处理业务样本收集和复核。线上巡检服务器可以与内容消费端通讯,接收消费端用户对评论的投诉和举报,作为收集样本的重要入口,调用人工审核系统对样本进行复核。
步骤S332,推送人工复核样本。
人工审核系统可以和线上巡检服务器进行通讯,接受线上巡检服务的输入,主要用于审核确认消费端用户所反馈的消费内容质量问题具体类型。
步骤S333,写入样本。
样本复核的结果可以写入到文本语料与样本数据库,并且记录好样本的时间戳标记,可以便于后续模型定期微调更新,确保模型不衰退等。文本预料与样本数据库可以保存线上巡检服务器调用人工复核收集到的内容质量样本数据(即,人工复核后的样本)。
通过本申请提供的实施例,基于媒体信息的互动信息确定从该媒体信息中获取的媒体文本的情感类别,可以提升媒体文本(可以是信息流内容)的处理效率和效果,有效减少标注样本和机器设备资源的投入,可以提高媒体文本标注的便捷性。
作为一种可选的实施方案,在将一组融合特征向量输入到目标预测模型中,得到目标预测结果之后,上述方法还包括:
S1,获取第二训练样本集,其中,第二训练样本集包括从第二媒体信息中获取到的第二媒体文本,第二媒体信息是目标媒体信息所属的目标媒体平台中已发布的媒体信息,目标文本是从目标媒体信息中获取到的媒体文本;
S2,使用第二训练样本集和第二训练样本集的标注信息对目标预测模型进行训练,得到更新的目标预测模型,其中,第二训练样本集的标注信息用于表示第二训练样本集中的训练样本的情感类别。
为了确保模型不衰退,可以定期对目标预测模型进行调整。服务器可以获取第二训练样本集,该第二训练样本集包括从上述的目标媒体平台已发布的媒体信息中获取到的第二媒体文本。从媒体信息中获取媒体文本的方式以及获取第二训练样本集的标注信息的方式与前述实施例中获取媒体文本的方式以及获取第一训练样本集的标注信息的方式类似,在此不做赘述。
在得到第二训练样本集以及第二训练样本集的标注信息之后,服务器可以使用第二训练样本集和第二训练样本集的标注信息对目标预测模型进行训练,得到更新的目标预测模型。使用第二训练样本集和第二训练样本集的标注信息对目标预测模型进行训练与使用第一训练样本集和第一训练样本集的标注信息对初始预测模型进行训练的方式类似,在此不做赘述。
通过本申请提供的实施例,通过使用训练样本集及训练样本集的标注信息对已训练好的预测模型进行训练,可以确保模型不衰退,通过提高模型训练的效率。
作为一种可选的实施方案,目标预测模型可以是预训练模型,其可以包含多个卷积层和全连接层。此外,目标预测模型还可以包含如池化层等其他的网络结构。可选地,在本实施例中,使用第二训练样本集和第二训练样本集的标注信息对目标预测模型进行训练,得到更新的目标预测模型,包括:
S1,使用第二训练样本集和第二训练样本集的标注信息对目标卷积层和全连接层进行训练,得到更新的目标预测模型,其中,目标卷积层为多个卷积层中与全连接层相邻的至少一个卷积层,多个卷积层中除了目标卷积层以外的其他卷积层的模型参数被冻结。
在使用第二训练样本集以及第二训练样本集的标注信息对目标预测模型进行训练时,可以对目标预测模型进行微调(Fine-tune),这里,微调是指:冻结预训练模型的部分卷积层(通常是靠近输入的多数卷积层),训练剩下的卷积层(通常是靠近输出的部分卷积层)和全连接层。对于目标预测模型,服务器可以冻结多个卷积层中除了与全连接层相邻的至少一个卷积层以外的其他卷积层,然后对与全连接层相邻的至少一个卷积层以及全连接层进行训练,得到更新的目标预测模型。
例如,把预训练BERT模型作为基础模型,以输出部分(比如最后一层全连接层)再加上一个浅层模型,比如,SVM(Support Vector Machine,支持向量机)或者LR(LogisticRegression,逻辑回归)模型,使用少量的样本进行新的训练,只需要调整少量参数即可,可以充分利用预训练模型已经学习到的能力,这也是预训练模型在信息流业务当中应用的主要方式。
示例性地,如图3所示,文本语料与样本数据库可以对篇章级别及短文本级别的数据进行清洗处理,处理完毕后作为用来进行预训练的样本保存在评论样本数据库当中,给预训练BERT模型提供训练的原始样本数据。此外,还可以使用原始样本数据进行后续定期的模型微调更新,可以以一周作为一个周期,确保线上模型不衰退。
例如,如图3所示,对混合粒度的BERT模型进行模型微调更新的过程可以包括以下步骤:
步骤S341,调用文本内容处理。
文本内容处理与理解服务器在对评论进行治理时,可以调用文本内容处理,对评论内容进行清洗,清洗的评论内容(或者,人工复核之后的样本)可以作为模型预训练及微调更新所使用的语料数据。
步骤S342~S343,调用预训练模型,读取文本语料与样本数据库中的语料数据进行模型预训练。
文本内容处理与理解服务器可以调用预训练模型,读取文本语料与样本数据库中的语料数据构建模型和服务,完成混合粒度预训练BERT模型的预训练。这里,从文本语料与样本数据库及收集到其他平台的数据中可以获取大规模的语料数据,可以作为预训练模型的数据基础。
步骤S344,读取语料数据,进行预训练模型的微调更新。
混合粒度预训练BERT模型可以读取文本语料与样本数据库中的语料数据,读取的语料数据可以包含各种质量样本(例如,包含正向情感类别的文本的语料样本、包含负向情感类别的文本的语料样本)。文本内容处理与理解服务器可以使用读取的语料数据对混合粒度预训练BERT模型的模型参数进行微调,微调后对应的模型服务化。文本内容处理与理解服务器可以和调度中心进行通讯,完成信息流业务当中篇章和标题相关的各种内容质量和理解的处理任务。
通过本申请提供的实施例,通过冻结预测模型的部分卷积层,而仅对全连接层以及靠近全连接层的部分卷积层进行训练,可以充分利用预测模型已学习到的能力,提高模型训练的效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
根据本申请实施例的另一个方面,还提供了一种用于实施上述情感类别的预测方法的情感类别的预测装置。如图9所示,该装置包括:
第一获取单元902,用于获取一组第一特征向量和一组第二特征向量,其中,一组第一特征向量包括对一组第一元素单元中的每个第一元素单元进行编码所得到的特征向量,一组第一元素单元包括目标文本中的每个第一元素单元,一组第二特征向量包括对一组第二元素单元中的每个第二元素单元进行编码所得到的特征向量,一组第二元素单元包括对目标文本进行分词所得到的第二元素单元;
融合单元904,用于根据一组第一元素单元与一组第二元素单元之间的包含关系,对一组第一特征向量与一组第二特征向量进行特征向量融合,得到一组融合特征向量;
输入单元906,用于将一组融合特征向量输入到目标预测模型中,得到目标预测结果,其中,目标预测模型用于根据输入的特征向量预测与输入的特征向量关联的情感类别,目标预测结果用于表示目标文本的预测情感类别。
需要说明的是,该实施例中的第一获取单元902可以用于执行上述步骤S202,该实施例中的融合单元904可以用于执行上述步骤S204,该实施例中的输入单元906可以用于执行上述步骤S206。
通过本申请提供的实施例,获取一组第一特征向量和一组第二特征向量,其中,一组第一特征向量包括对一组第一元素单元中的每个第一元素单元进行编码所得到的特征向量,一组第一元素单元包括目标文本中的每个第一元素单元,一组第二特征向量包括对一组第二元素单元中的每个第二元素单元进行编码所得到的特征向量,一组第二元素单元包括对目标文本进行分词所得到的第二元素单元;根据一组第一元素单元与一组第二元素单元之间的包含关系,对一组第一特征向量与一组第二特征向量进行特征向量融合,得到一组融合特征向量;将一组融合特征向量输入到目标预测模型中,得到目标预测结果,其中,目标预测模型用于根据输入的特征向量预测与输入的特征向量关联的情感类别,目标预测结果用于表示目标文本的预测情感类别,解决了相关技术中的情感类别的预测方法存在由于词义的不确定性高导致的情感类别预测的准确性低的问题,在不额外增加计算量的同时,提高了情感类别预测的准确性。
作为一种可选的实施方案,融合单元904包括:
确定模块,用于在一组第一元素单元中确定一组第二元素单元中的每个第二元素单元所包括的第一元素单元;
融合模块,用于将每个第二元素单元对应的第二特征向量分别与每个第二元素单元所包括的第一元素单元对应的第一特征向量进行特征向量融合,得到对应的融合特征向量。
作为一种可选的实施方案,确定模块包括第一确定子模块,融合模块包括第一融合子模块,其中,
第一确定子模块,用于在一组第一元素单元中确定一组第二元素单元中的第i个第二元素单元所包括的N个第一元素单元,其中,N为自然数,i为自然数;
第一融合子模块,用于将第i个第二元素单元对应的第i个第二特征向量分别与N个第一元素单元中的每个第一元素单元对应的第一特征向量进行特征向量融合,得到N个融合特征向量。
本实施方案的可选示例可以参考上述情感类别的预测方法中所示的示例,本实施方案中在此不再赘述。
作为一种可选的实施方案,第一融合子模块包括:
相加子单元,用于将第i个第二元素单元对应的第i个第二特征向量分别与N个第一元素单元中的每个第一元素单元对应的第一特征向量进行相加,得到N个融合特征向量;或者,
拼接子单元,用于将第i个第二元素单元对应的第i个第二特征向量分别与N个第一元素单元中的每个第一元素单元对应的第一特征向量进行拼接,得到N个融合特征向量。
作为一种可选的实施方案,确定模块包括第二确定子模块,融合模块包括第二融合子模块,其中,
第二确定子模块,用于在一组第一元素单元中确定一组第二元素单元中的第i个第二元素单元所包括的N个第一元素单元,其中,N为自然数,i为自然数;
第二融合子模块,用于将第i个第二元素单元对应的第i个第二特征向量分别与N个第一元素单元中的M个第一元素单元对应的第一特征向量进行特征向量融合,得到M个融合特征向量,其中,M小于N。
本实施方案的可选示例可以参考上述情感类别的预测方法中所示的示例,本实施方案中在此不再赘述。
作为一种可选的实施方案,上述装置还包括:
删除单元,用于在将一组融合特征向量输入到目标预测模型中,得到目标预测结果之后,在预测情感类别为负向情感类别的情况下,删除已发布的目标媒体信息,其中,目标文本是从目标媒体信息中获取到的文本;或者,
调整单元,用于在预测情感类别为负向情感类别的情况下,调整已发布的目标媒体信息的展示位置,以使得目标媒体信息的曝光量减少,其中,目标文本是从目标媒体信息中获取到的文本。
本实施方案的可选示例可以参考上述情感类别的预测方法中所示的示例,本实施方案中在此不再赘述。
作为一种可选的实施方案,上述装置还包括:
第二获取单元,用于在获取一组第一特征向量和一组第二特征向量之前,获取第一训练样本集,其中,第一训练样本集包括从第一媒体信息中获取到的第一媒体文本,第一媒体信息是目标媒体信息所属的目标媒体平台中已发布的媒体信息,目标文本是从目标媒体信息中获取到的媒体文本;
第一训练单元,用于使用第一训练样本集和第一训练样本集的标注信息对初始预测模型进行训练,得到目标预测模型,其中,第一训练样本集的标注信息用于表示第一训练样本集中的训练样本的情感类别。
本实施方案的可选示例可以参考上述情感类别的预测方法中所示的示例,本实施方案中在此不再赘述。
作为一种可选的实施方案,上述装置还包括:
第三获取单元,用于在使用第一训练样本集和第一训练样本集的标注信息对初始预测模型进行训练之前,获取与第一媒体信息对应的目标互动信息,其中,目标互动信息为与第一媒体信息进行互动所产生的信息;
确定单元,用于根据目标互动信息的信息类别,确定与第一媒体信息对应的情感类别,其中,与第一媒体文本对应的标注信息用于指示与第一媒体信息对应的情感类别。
本实施方案的可选示例可以参考上述情感类别的预测方法中所示的示例,本实施方案中在此不再赘述。
作为一种可选的实施方案,第二获取单元包括:
获取模块,用于获取一组媒体信息,其中,一组媒体信息中包含第一媒体信息;
去除模块,用于去除一组媒体信息中重复的媒体信息、以及一组媒体信息中包含的第一元素单元的数量小于或者等于目标数量阈值的媒体信息,得到更新的一组媒体信息;
清洗模块,用于对一组媒体信息的媒体信息执行清洗操作,得到一组媒体文本,其中,清洗操作用于将一组媒体信息中的媒体信息包含的第一格式的信息更新为第二格式的信息、以及去除一组媒体信息中的媒体信息包含的冗余信息,第一训练样本集包括一组媒体文本。
本实施方案的可选示例可以参考上述情感类别的预测方法中所示的示例,本实施方案中在此不再赘述。
作为一种可选的实施方案,清洗模块包括:
执行子模块,用于对一组媒体信息中的当前媒体信息执行以下操作,得到与当前媒体信息对应的当前媒体文本,其中,一组媒体文本包括当前媒体文本:
对一组媒体信息中的当前媒体信息执行以下操作,得到与当前媒体信息对应的当前媒体文本,其中,一组媒体文本包括当前媒体文本:
在一组媒体信息中的当前媒体信息包含表情符号的情况下,将当前媒体信息中的表情符号替换为与表情符号对应的第一元素单元;
在当前媒体信息包含繁体字的情况下,将当前媒体信息中的繁体字替换为与繁体字对应的简体字;
在当前媒体信息包含重复符号的情况下,清理当前媒体信息中除了重复符号中的第一个符号以外的其他符号;
在当前媒体信息包含空白符号的情况下,清理当前媒体信息中的空白符号;
在当前媒体信息包含的第一元素单元的数量大于目标数量的情况下,从当前媒体信息的第一个第一元素单元开始,截取出当前媒体信息中目标数量的第一元素单元。
本实施方案的可选示例可以参考上述情感类别的预测方法中所示的示例,本实施方案中在此不再赘述。
作为一种可选的实施方案,上述装置还包括:
第四获取单元,用于在将一组融合特征向量输入到目标预测模型中,得到目标预测结果之后,获取第二训练样本集,其中,第二训练样本集包括从第二媒体信息中获取到的第二媒体文本,第二媒体信息是目标媒体信息所属的目标媒体平台中已发布的媒体信息,目标文本是从目标媒体信息中获取到的媒体文本;
第二训练单元,用于使用第二训练样本集和第二训练样本集的标注信息对目标预测模型进行训练,得到更新的目标预测模型,其中,第二训练样本集的标注信息用于表示第二训练样本集中的训练样本的情感类别。
本实施方案的可选示例可以参考上述情感类别的预测方法中所示的示例,本实施方案中在此不再赘述。
作为一种可选的实施方案,目标预测模型包含多个卷积层和全连接层;第二训练单元包括:
训练模块,用于使用第二训练样本集和第二训练样本集的标注信息对目标卷积层和全连接层进行训练,得到更新的目标预测模型,其中,目标卷积层为多个卷积层中与全连接层相邻的至少一个卷积层,多个卷积层中除了目标卷积层以外的其他卷积层的模型参数被冻结。
本实施方案的可选示例可以参考上述情感类别的预测方法中所示的示例,本实施方案中在此不再赘述。
根据本申请实施例的又一个方面,还提供了一种用于实施上述情感类别的预测方法的电子设备,如图10所示,该电子设备包括存储器1002和处理器1004,该存储器1002中存储有计算机程序,该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取一组第一特征向量和一组第二特征向量,其中,一组第一特征向量包括对一组第一元素单元中的每个第一元素单元进行编码所得到的特征向量,一组第一元素单元包括目标文本中的每个第一元素单元,一组第二特征向量包括对一组第二元素单元中的每个第二元素单元进行编码所得到的特征向量,一组第二元素单元包括对目标文本进行分词所得到的第二元素单元;
S2,根据一组第一元素单元与一组第二元素单元之间的包含关系,对一组第一特征向量与一组第二特征向量进行特征向量融合,得到一组融合特征向量;
S3,将一组融合特征向量输入到目标预测模型中,得到目标预测结果,其中,目标预测模型用于根据输入的特征向量预测与输入的特征向量关联的情感类别,目标预测结果用于表示目标文本的预测情感类别。
可选地,本领域普通技术人员可以理解,图10所示的结构仅为示意,电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图10其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图10中所示更多或者更少的组件(如网络接口等),或者具有与图10所示不同的配置。
其中,存储器1002可用于存储软件程序以及模块,如本申请实施例中的情感类别的预测方法和装置对应的程序指令/模块,处理器1004通过运行存储在存储器1002内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的情感类别的预测方法。存储器1002可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1002可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。作为一种示例,如图10所示,上述存储器1002中可以但不限于包括上述情感类别的预测装置中的第一获取单元902、融合单元904及输入单元906。此外,还可以包括但不限于上述情感类别的预测装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1006包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1006为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器1008,用于显示媒体信息;和连接总线1100,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(Peer To Peer,简称P2P)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述情感类别的预测方法,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取一组第一特征向量和一组第二特征向量,其中,一组第一特征向量包括对一组第一元素单元中的每个第一元素单元进行编码所得到的特征向量,一组第一元素单元包括目标文本中的每个第一元素单元,一组第二特征向量包括对一组第二元素单元中的每个第二元素单元进行编码所得到的特征向量,一组第二元素单元包括对目标文本进行分词所得到的第二元素单元;
S2,根据一组第一元素单元与一组第二元素单元之间的包含关系,对一组第一特征向量与一组第二特征向量进行特征向量融合,得到一组融合特征向量;
S3,将一组融合特征向量输入到目标预测模型中,得到目标预测结果,其中,目标预测模型用于根据输入的特征向量预测与输入的特征向量关联的情感类别,目标预测结果用于表示目标文本的预测情感类别。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以至少两个单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (15)

1.一种情感类别的预测方法,其特征在于,包括:
获取一组第一特征向量和一组第二特征向量,其中,所述一组第一特征向量包括对一组第一元素单元中的每个第一元素单元进行编码所得到的特征向量,所述一组第一元素单元包括目标文本中的每个第一元素单元,所述一组第二特征向量包括对一组第二元素单元中的每个第二元素单元进行编码所得到的特征向量,所述一组第二元素单元包括对所述目标文本进行分词所得到的第二元素单元;
根据所述一组第一元素单元与所述一组第二元素单元之间的包含关系,对所述一组第一特征向量与所述一组第二特征向量进行特征向量融合,得到一组融合特征向量;
将所述一组融合特征向量输入到目标预测模型中,得到目标预测结果,其中,所述目标预测模型用于根据输入的特征向量预测与所述输入的特征向量关联的情感类别,所述目标预测结果用于表示所述目标文本的预测情感类别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述一组第二元素单元与所述一组第一元素单元之间的包含关系,对所述一组第一特征向量与所述一组第二特征向量进行特征向量融合,得到一组融合特征向量,包括:
在所述一组第一元素单元中确定所述一组第二元素单元中的每个第二元素单元所包括的第一元素单元;
将所述每个第二元素单元对应的第二特征向量分别与所述每个第二元素单元所包括的第一元素单元对应的第一特征向量进行特征向量融合,得到对应的融合特征向量。
3.根据权利要求2所述的方法,其特征在于,
所述在所述一组第一元素单元中确定所述一组第二元素单元中的每个第二元素单元所包括的第一元素单元,包括:在所述一组第一元素单元中确定所述一组第二元素单元中的第i个第二元素单元所包括的N个第一元素单元,其中,N为自然数,i为自然数;
所述将所述每个第二元素单元对应的第二特征向量分别与所述每个第二元素单元所包括的第一元素单元对应的第一特征向量进行特征向量融合,得到对应的融合特征向量,包括:将所述第i个第二元素单元对应的第i个第二特征向量分别与所述N个第一元素单元中的每个第一元素单元对应的第一特征向量进行特征向量融合,得到N个融合特征向量。
4.根据权利要求3所述的方法,其特征在于,所述将所述第i个第二元素单元对应的第i个第二特征向量分别与所述N个第一元素单元中的每个第一元素单元对应的第一特征向量进行特征向量融合,得到N个融合特征向量,包括:
将所述第i个第二元素单元对应的第i个第二特征向量分别与所述N个第一元素单元中的每个第一元素单元对应的第一特征向量进行相加,得到所述N个融合特征向量;或者,
将所述第i个第二元素单元对应的第i个第二特征向量分别与所述N个第一元素单元中的每个第一元素单元对应的第一特征向量进行拼接,得到所述N个融合特征向量。
5.根据权利要求2所述的方法,其特征在于,
所述在所述一组第一元素单元中确定所述一组第二元素单元中的每个第二元素单元所包括的第一元素单元,包括:在所述一组第一元素单元中确定所述一组第二元素单元中的第i个第二元素单元所包括的N个第一元素单元,其中,N为自然数,i为自然数;
所述将所述每个第二元素单元对应的第二特征向量分别与所述每个第二元素单元所包括的第一元素单元对应的第一特征向量进行特征向量融合,得到对应的融合特征向量,包括:将所述第i个第二元素单元对应的第i个第二特征向量分别与所述N个第一元素单元中的M个第一元素单元对应的第一特征向量进行特征向量融合,得到M个融合特征向量,其中,M小于N。
6.根据权利要求1至5中任一项所述的方法,其特征在于,在将所述一组融合特征向量输入到目标预测模型中,得到目标预测结果之后,所述方法还包括:
在所述预测情感类别为负向情感类别的情况下,删除已发布的目标媒体信息,其中,所述目标文本是从所述目标媒体信息中获取到的文本;或者,
在所述预测情感类别为负向情感类别的情况下,调整已发布的目标媒体信息的展示位置,以使得所述目标媒体信息的曝光量减少,其中,所述目标文本是从所述目标媒体信息中获取到的文本。
7.根据权利要求1至5中任一项所述的方法,其特征在于,在所述获取一组第一特征向量和一组第二特征向量之前,所述方法还包括:
获取第一训练样本集,其中,所述第一训练样本集包括从第一媒体信息中获取到的第一媒体文本,所述第一媒体信息是目标媒体信息所属的目标媒体平台中已发布的媒体信息,所述目标文本是从所述目标媒体信息中获取到的媒体文本;
使用所述第一训练样本集和所述第一训练样本集的标注信息对初始预测模型进行训练,得到所述目标预测模型,其中,所述第一训练样本集的标注信息用于表示所述第一训练样本集中的训练样本的情感类别。
8.根据权利要求7所述的方法,其特征在于,在所述使用所述第一训练样本集和所述第一训练样本集的标注信息对所述初始预测模型进行训练之前,所述方法还包括:
获取与所述第一媒体信息对应的目标互动信息,其中,所述目标互动信息为与所述第一媒体信息进行互动所产生的信息;
根据所述目标互动信息的信息类别,确定与所述第一媒体信息对应的情感类别,其中,与所述第一媒体文本对应的标注信息用于指示与所述第一媒体信息对应的情感类别。
9.根据权利要求7所述的方法,其特征在于,所述获取第一训练样本集,包括:
获取一组媒体信息,其中,所述一组媒体信息中包含所述第一媒体信息;
去除所述一组媒体信息中重复的媒体信息、以及所述一组媒体信息中包含的第一元素单元的数量小于或者等于目标数量阈值的媒体信息,得到更新的所述一组媒体信息;
对所述一组媒体信息的媒体信息执行清洗操作,得到一组媒体文本,其中,所述清洗操作用于将所述一组媒体信息中的媒体信息包含的第一格式的信息更新为第二格式的信息、以及去除所述一组媒体信息中的媒体信息包含的冗余信息,所述第一训练样本集包括所述一组媒体文本。
10.根据权利要求9所述的方法,其特征在于,所述对所述一组媒体信息的媒体信息执行清洗操作,得到一组媒体文本,包括:
对所述一组媒体信息中的当前媒体信息执行以下操作,得到与所述当前媒体信息对应的当前媒体文本,其中,所述一组媒体文本包括所述当前媒体文本:
在所述一组媒体信息中的当前媒体信息包含表情符号的情况下,将所述当前媒体信息中的所述表情符号替换为与所述表情符号对应的第一元素单元;
在所述当前媒体信息包含繁体字的情况下,将所述当前媒体信息中的所述繁体字替换为与所述繁体字对应的简体字;
在所述当前媒体信息包含重复符号的情况下,清理所述当前媒体信息中除了所述重复符号中的第一个符号以外的其他符号;
在所述当前媒体信息包含空白符号的情况下,清理所述当前媒体信息中的所述空白符号;
在所述当前媒体信息包含的第一元素单元的数量大于目标数量的情况下,从所述当前媒体信息的第一个第一元素单元开始,截取出所述当前媒体信息中所述目标数量的第一元素单元。
11.根据权利要求1至5中任一项所述的方法,其特征在于,在所述将所述一组融合特征向量输入到目标预测模型中,得到目标预测结果之后,所述方法还包括:
获取第二训练样本集,其中,所述第二训练样本集包括从第二媒体信息中获取到的第二媒体文本,所述第二媒体信息是目标媒体信息所属的目标媒体平台中已发布的媒体信息,所述目标文本是从所述目标媒体信息中获取到的媒体文本;
使用所述第二训练样本集和所述第二训练样本集的标注信息对所述目标预测模型进行训练,得到更新的所述目标预测模型,其中,所述第二训练样本集的标注信息用于表示所述第二训练样本集中的训练样本的情感类别。
12.根据权利要求11所述的方法,其特征在于,所述目标预测模型包含多个卷积层和全连接层;所述使用所述第二训练样本集和所述第二训练样本集的标注信息对所述目标预测模型进行训练,得到更新的所述目标预测模型,包括:
使用所述第二训练样本集和所述第二训练样本集的标注信息对目标卷积层和所述全连接层进行训练,得到更新的所述目标预测模型,其中,所述目标卷积层为所述多个卷积层中与所述全连接层相邻的至少一个卷积层,所述多个卷积层中除了所述目标卷积层以外的其他卷积层的模型参数被冻结。
13.一种情感类别的预测装置,其特征在于,包括:
第一获取单元,用于获取一组第一特征向量和一组第二特征向量,其中,所述一组第一特征向量包括对一组第一元素单元中的每个第一元素单元进行编码所得到的特征向量,所述一组第一元素单元包括目标文本中的每个第一元素单元,所述一组第二特征向量包括对一组第二元素单元中的每个第二元素单元进行编码所得到的特征向量,所述一组第二元素单元包括对所述目标文本进行分词所得到的第二元素单元;
融合单元,用于根据所述一组第一元素单元与所述一组第二元素单元之间的包含关系,对所述一组第一特征向量与所述一组第二特征向量进行特征向量融合,得到一组融合特征向量;
输入单元,用于将所述一组融合特征向量输入到目标预测模型中,得到目标预测结果,其中,所述目标预测模型用于根据输入的特征向量预测与所述输入的特征向量关联的情感类别,所述目标预测结果用于表示所述目标文本的预测情感类别。
14.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至12任一项中所述的方法。
15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至12任一项中所述的方法。
CN202111213458.1A 2021-10-19 2021-10-19 情感类别的预测方法和装置、存储介质及电子设备 Active CN113656560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111213458.1A CN113656560B (zh) 2021-10-19 2021-10-19 情感类别的预测方法和装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111213458.1A CN113656560B (zh) 2021-10-19 2021-10-19 情感类别的预测方法和装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN113656560A true CN113656560A (zh) 2021-11-16
CN113656560B CN113656560B (zh) 2022-02-22

Family

ID=78484240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111213458.1A Active CN113656560B (zh) 2021-10-19 2021-10-19 情感类别的预测方法和装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113656560B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114925660A (zh) * 2022-05-23 2022-08-19 马上消费金融股份有限公司 文本处理模型训练方法及装置、文本处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287323A (zh) * 2019-06-27 2019-09-27 成都冰鉴信息科技有限公司 一种面向目标的情感分类方法
US20200152205A1 (en) * 2018-11-13 2020-05-14 Comcast Cable Communications,Llc Methods and systems for determining a wake word
CN111310470A (zh) * 2020-01-17 2020-06-19 西安交通大学 一种融合字词特征的中文命名实体识别方法
CN113255755A (zh) * 2021-05-18 2021-08-13 北京理工大学 一种基于异质融合网络的多模态情感分类方法
CN113268592A (zh) * 2021-05-06 2021-08-17 天津科技大学 基于多层次交互注意力机制的短文本对象情感分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101987605B1 (ko) * 2018-12-28 2019-06-10 건국대학교 산학협력단 음악 감성 인식 방법 및 장치
CN110059191A (zh) * 2019-05-07 2019-07-26 山东师范大学 一种文本情感分类方法及装置
CN111444709B (zh) * 2020-03-09 2022-08-12 腾讯科技(深圳)有限公司 文本分类方法、装置、存储介质及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200152205A1 (en) * 2018-11-13 2020-05-14 Comcast Cable Communications,Llc Methods and systems for determining a wake word
CN110287323A (zh) * 2019-06-27 2019-09-27 成都冰鉴信息科技有限公司 一种面向目标的情感分类方法
CN111310470A (zh) * 2020-01-17 2020-06-19 西安交通大学 一种融合字词特征的中文命名实体识别方法
CN113268592A (zh) * 2021-05-06 2021-08-17 天津科技大学 基于多层次交互注意力机制的短文本对象情感分类方法
CN113255755A (zh) * 2021-05-18 2021-08-13 北京理工大学 一种基于异质融合网络的多模态情感分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114925660A (zh) * 2022-05-23 2022-08-19 马上消费金融股份有限公司 文本处理模型训练方法及装置、文本处理方法及装置
CN114925660B (zh) * 2022-05-23 2023-07-28 马上消费金融股份有限公司 文本处理模型训练方法及装置、文本处理方法及装置

Also Published As

Publication number Publication date
CN113656560B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
Yang et al. Mining Chinese social media UGC: a big-data framework for analyzing Douban movie reviews
CN112131411A (zh) 一种多媒体资源推荐方法、装置、电子设备及存储介质
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
CN116702737B (zh) 文案生成方法、装置、设备、存储介质及产品
CN111507097A (zh) 一种标题文本处理方法、装置、电子设备及存储介质
CN111723295B (zh) 一种内容分发方法、装置和存储介质
Yang et al. Rits: Real-time interactive text steganography based on automatic dialogue model
CN112231563B (zh) 一种内容推荐方法、装置及存储介质
CN113392331A (zh) 文本处理方法及设备
CN111444357A (zh) 内容信息确定方法、装置、计算机设备及存储介质
CN114996486A (zh) 一种数据推荐方法、装置、服务器以及存储介质
CN113656560B (zh) 情感类别的预测方法和装置、存储介质及电子设备
CN113011126B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN117173497B (zh) 一种图像生成方法、装置、电子设备及存储介质
CN116935170B (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
Chen et al. Sentiment analysis of animated film reviews using intelligent machine learning
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN117011745A (zh) 一种数据处理方法、装置、计算机设备以及可读存储介质
CN114996435A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN115391522A (zh) 一种基于社交平台元数据的文本主题建模方法及系统
CN114547435A (zh) 内容质量的识别方法、装置、设备及可读存储介质
CN111193795B (zh) 信息推送方法及装置、电子设备和计算机可读存储介质
CN114385892B (zh) 一种文章等级识别方法、装置、服务器及存储介质
CN116958997B (zh) 一种基于异质图神经网络的图文摘要方法及系统
CN116894089B (zh) 摘要生成方法、装置、设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40056133

Country of ref document: HK