CN112966173B - 一种用于信息评论的分类操作方法及装置 - Google Patents
一种用于信息评论的分类操作方法及装置 Download PDFInfo
- Publication number
- CN112966173B CN112966173B CN201911286087.2A CN201911286087A CN112966173B CN 112966173 B CN112966173 B CN 112966173B CN 201911286087 A CN201911286087 A CN 201911286087A CN 112966173 B CN112966173 B CN 112966173B
- Authority
- CN
- China
- Prior art keywords
- information
- comment
- comment content
- features
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000004927 fusion Effects 0.000 claims abstract description 68
- 230000000007 visual effect Effects 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 37
- 238000011156 evaluation Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 description 19
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000012552 review Methods 0.000 description 5
- 239000002699 waste material Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开关于一种用于信息评论的分类操作方法及装置,该方法包括:接收用于请求评论分类的分类请求;响应于所述分类请求,对请求进行分类的评论内容及对应的目标信息,分别提取信息特征以及评论特征,其中,所述目标信息为在用户终端界面上显示的可视化信息,所述评论内容为用户基于所述目标信息的反馈;将所述信息特征以及所述评论特征进行特征融合,生成包含信息特征以及评论特征的融合特征;基于所述融合特征,识别所述评论内容与对应的目标信息是否有关联;根据识别结果,确定所述评论内容的类别,并基于所述评论内容所属的类别,对所述评论内容其执行相应的分类操作。
Description
技术领域
本公开涉及计算机领域,尤其涉及一种用于信息评论的分类操作方法及装置。
背景技术
用户在浏览终端界面上的互联网可视化信息(简称信息)时,可以对该信息进行评论,由于互联网具有较为开放的环境,所以用户可以发表各种评论。比如针对用户终端界面上的新闻、图像、视频而言,用户均可以基于信息反馈各种评论。
然而,正是由于开放的互联网环境,导致越来越多用户反馈的评论内容与信息之间缺乏相关性、甚至毫无相关性。比如,用户基于视频信息反馈的评论内容与视频信息分属不同领域,针对博文的评论内容是与博文毫不相关的广告,等。这不仅浪费了用户的时间和精力,也会降低用户体验,还在一定程度上浪费了互联网资源。所以,亟需一种方案,可以对的用户基于信息反馈的评论进行分类操作。
发明内容
本公开提供一种方法及装置,以至少解决相关技术中。
本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种用于信息评论的分类操作方法,包括:
接收用于请求评论分类的分类请求;
响应于所述分类请求,对请求进行分类的评论内容及对应的目标信息,分别提取信息特征以及评论特征,其中,所述目标信息为在用户终端界面上显示的可视化信息,所述评论内容为用户基于所述目标信息的反馈;
将所述信息特征以及所述评论特征进行特征融合,生成包含信息特征以及评论特征的融合特征;
基于所述融合特征,识别所述评论内容与对应的目标信息是否有关联;
根据识别结果,确定所述评论内容的类别,并基于所述评论内容所属的类别,对所述评论内容执行相应的分类操作。
根据本公开实施例的第二方面,提供一种用于信息评论的分类操作装置,包括请求接收单元、特征提取单元、特征融合单元、关联识别单元、以及分类操作单元,其中,
请求接收单元,被配置为执行接收用于请求评论分类的分类请求;
特征提取单元,被配置为执行响应于所述分类请求,对请求进行分类的评论内容及对应的目标信息,分别提取信息特征以及评论特征,其中,所述目标信息为在用户终端界面上显示的可视化信息,所述评论内容为用户基于所述目标信息的反馈;
特征融合单元,被配置为执行将所述信息特征以及所述评论特征进行特征融合,生成包含信息特征以及评论特征的融合特征;
关联识别单元,被配置为执行基于所述融合特征,识别所述评论内容与对应的目标信息是否有关联;
分类操作单元,被配置为执行根据识别结果,确定所述评论内容的类别,并基于所述评论内容所属的类别,对所述评论内容执行相应的分类操作。
根据本公开实施例的第三方面,提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面或第一方面的任一种可能实现方式所述的用于信息评论的分类操作方法。
根据本公开实施例的第四方面,提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面或第一方面的任一种可能实现方式所述的用于信息评论的分类操作方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
可以先对请求分类的评论内容以及对应的目标信息分别进行特征提取,并将分别得到的信息特征和评论特征进行特征融合,生成融合特征。此后可以基于融合特征,识别评论内容与对应的目标信息是否有关联,从而可以根据识别结果,确定评论内容的类别,并对评论内容执行相应的分类操作。由于可以对评论内容和对应的目标信息各自的特征进行提取和融合,并基于融合特征识别两者是否有关联,从而根据识别结果,对评论内容执行分类基于类别的分类操作。也就可以较为方便快捷的对信息的评论进行分类操作。另外也可以在一定程度上提升用户体验,以及减少对互联网资源的浪费。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种用于信息评论的分类操作方法的流程图。
图2是根据一示例性实施例示出的模型训练的示意图。
图3是根据一示例性实施例示出的识别评论内容与对应的目标信息是否有关联的示意图。
图4是根据一示例性实施例示出的一种用于信息评论的分类操作装置的框图。
图5是根据一示例性实施例示出的一种电子设备的框图。
图6是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种用于信息评论的分类操作方法的流程图,该方法可以用于多种终端中,包括以下步骤。
在步骤S11中,接收用于请求评论分类的分类请求。
如前文所述,用户在浏览信息时,可以对该信息进行评论。比如当该信息为新闻信息、或视频信息时,用户可以根据个人看法或想法发表评论,但一些评论内容与信息之间缺乏相关性,实际上对于用户理解信息少有正向作用。然而也确实有一些评论,出于用户对信息的深入理解,或对领域的深入认知,对用户理解信息有积极作用。
可见,对于信息的评论而言,可以有不同的类别。所以本步骤,执行主体可以接收预先生成的用于请求评论分类的分类请求,具体地,可以由显示信息的应用的服务器中的某个功能模块生成该分类请求,并发送给本方法的执行主体。
而生成分类请求的时机,可以是根据预设的时间周期生成,比如每隔1小时生成用于请求评论分类的分类请求,也可以是当出现新的一个或多个评论时,生成该类请求,还可以是当评论数满足预设增长效率时,生成该请求。而作为执行主体,就可以接收该分类请求,并在后续对该请求进行相应。
在实际应用中,一些评论可能由于答疑解惑效果好、价值观正确、搞笑等原因,被网友频繁点赞或回复数量较多,而为了使用户在浏览信息时还能及时了解到网友的想法,通常情况下,可以将点赞数量或回复数量较多的评论,作为热门评论(简称热评),优先显示在信息的评论显示区域中的前列,以使用户能够尽快看到,但正是由于网络的开放性,导致一些热评很可能与信息并不相关。
所以为了能够对目标信息中的特定评论内容进行分类,本步骤中的分类请求可以是针对特定的评论内容。具体地,该特定评论内容可以是根据预设条件进行筛选而得到的,比如该预设条件就可以是回复数量大于特定阈值,也可以是点赞数量高于预设阈值,也即热门评论。当然还可以是距当前时刻3小时内,也即比较新的评论,等。
在步骤S12中,响应于该分类请求,对请求进行分类的评论内容及对应的目标信息,分别提取信息特征以及评论特征。
这里,请求进行分类的评论内容,可以是用户基于目标信息的反馈,而目标信息,则可以是在用户终端界面上显示的可视化信息。
具体地,用户终端可以包括智能手机、平板电脑等移动终端,也可以包括个人电脑等固定终端,用户终端界面可以是用户终端的屏幕显示出的界面。互联网中的各类信息,可以通过不同的应用在用户终端界面内进行显示。比如视频信息,可以通过视频播放应用,在用户终端界面内进行显示。视频播放应用通常会在服务器中建立数据库,用于存储大量的视频信息,而一些视频信息可以用于显示在用户终端界面内,以便用户浏览并反馈评论内容。所以在本实施例中,目标信息可以是用于显示在用户终端界面上的可视化信息,并且也可以是已经有用户反馈评论内容的信息。
比如,在视频播放应用的服务器中,建立有数据库,其中存储有大量的可以显示的短视频信息,而其中的一些短视频信息对应有用户反馈的评论内容,这些短视频信息就可以是目标信息,而对应的用户反馈的评论内容就可以是请求进行分类的评论内容。具体比如,针对视频信息1,用户在浏览过后对其反馈的评论内容A,怎么评论内容A就可以是本步骤中的请求进行分类的评论内容,而视频信息1,就可以是请求进行分类的评论内容及对应的目标信息。
此后,便可以对评论内容,以及对应的目标信息,分别提取信息特征以及评论特征。具体地,可以分别利用适用于目标信息和评论内容的特征提取方式,对目标信息和评论内容分别进行特征提取,从而得到各自的特征。比如,信息可以是视频信息、评论内容可以是文本,那么便可以利用不同的特征提取方式,分别对两者进行特征提取。
可选的,目标信息可以包括视频信息,则本步骤对请求进行分类的评论内容对应的目标信息,提取信息特征的步骤,可以包括:提取视频信息的首帧图像;从该首帧图片中提取图像特征,得到视频信息的信息特征。具体地,由于视频信息中可以包含多个图像帧,不同图像帧表征不同的含义,然而在一种情况下,视频信息中首帧图像可以在一定程度上表征视频信息的含义,比如针对短视频而言,首帧图像可以在一定程度上表征视频信息的主要内容,此时便可以提取首帧图像,并通过预定的图像特征提取方式,提取该图像的特征,从而得到视频信息的信息特征。
在实际应用中,出于对不同视频信息的考虑,也可以针对尾帧、中间帧、或随机的一帧,等。
在实际应用中,通过提取视频信息中的多个图像帧,往往能够更加全面的得到视频信息的特征,所以为了能够得到视频信息中更加全面的信息特征,从而提高分类操作的准确性。则本步骤对请求进行分类的评论内容对应的目标信息,提取信息特征的步骤,可以包括:提取视频信息的多帧图像;从多帧图片中提取图像特征,得到视频信息的信息特征。具体地,多帧图像的提取方式,可以预先设置图像帧数,比如5个图像帧、10个图像帧等,据此可以根据视频信息的时长,平均切分成4个、9个视频区段,并提取每个区段是首尾图像帧。而提取过程,可以根据预设的图像特征提取方式,对每个图像帧进行特征提取,并通过组合的方式,得到视频信息的信息特征。
在实际应用中,不同的信息可以表达不同的主要含义或意义,但通常情况下,是由整个信息中的部分信息进行表达。比如针对新闻信息而言,能够表达新闻含义的字符可能是整篇新闻中的一部分字符,具体比如标题字符、出现次数较多的字符,等;又如针对视频信息而言,能够表达视频含义的图像帧可能是较为重要的一帧或几帧,具体比如渲染较为复杂的图像帧、人脸最多的图像帧、某个人脸的图像帧、或视频信息所有者为对视频信息进行宣传而制定的一个图像帧。
可以理解的,用户反馈的评论内容中,也可以通过关键字符表达出评论内容的主要含义,比如评论内容中的某一个或某几个关键字等。而利用目标信息的含义、以及评论内容的含义,通常能够更加准确地确定出两者是否有关联,也即目标信息的含义和评论内容的含义对于确定两者是否有关联具有较为重要的依据,从而可以较为准确地对信息的评论进行处理。
所以,为了能够从目标信息和评论内容中提取到表达主要含义的特征,从而较为准确地对信息的评论进行分类操作,本步骤对请求进行分类的评论内容及对应的目标信息,分别提取信息特征以及评论特征,可以包括:对请求进行分类的评论内容中的特定内容、及对应的目标信息中的特定信息,分别提取信息特征以及评论特征,这里,特定信息以及特定内容可以用于判断评论内容与对应的目标信息是否有关联。
具体地,可以预先为目标信息和评论内容设置选取特征信息和特征内容的条件。比如针对视频信息而言,用于判断是否有关联的信息,可以是像素点高于特定阈值的图像帧,人脸识别结果大于特定阈值的图像帧、或用户指定的用于宣传的图像帧等;而针对文本而言,可以是出现频次最多个几个关键词,也可以是与网络热词相匹配的关键词,等。对于评论内容而言,可以是与网络热词相匹配的关键词,或名人的姓名、节日名称等关键词。据此,则可以根据预设的选取条件,从请求进行分类的评论内容中以及对应目标信息中,分别选取出特定内容和特定信息,并通过各自对应的特征提取方式,分别得到评论特征和信息特征。
对于特征提取的具体实现方式,针对评论内容而言,大多数可以由字符组成,也即文本评论,所以就可以通过预训练好的LSTM(Long Short-Term Memory,长短期记忆网络),对文本进行处理,在除去输出层后,便可以得到文本的embedding,这里的embedding可以是将离散变量转为连续向量表示的一种方式。
而针对目标信息而言,若为新闻信息,就可以将新闻中的文本,利用上述方式,得到embedding;而针对信息为图像时,则可以先通过预训练后的inception网络(或称GoogLeNet,是一种深度学习结果,inception v1 v2 v3 v4均可),对图像进行处理,在除去输出层后,便可以得到图像的embedding。
可以理解的,若信息或评论中包含多种类型,则可以利用多种特征提取方式,得到特征提取结果,当然,也可以预先设定对哪种类型进行特征提取,比如若需要对信息为视频信息、评论内容为文本这一应用场景时,则可以将视频信息中的视频内单帧图像进行图像特征提取,将评论内容中的文本,进行文本特征提取,从而得到各自的特征提取结果。
当然在实际应用中,且随着计算机技术的进步,也可以通过不同方式,对目标信息和评论内容进行特征提取。
在步骤S13中,将得到的信息特征以及评论特征进行特征融合,生成包含信息特征以及评论特征的融合特征。
目标信息的信息特征,以及评论内容的评论特征,可以分别代表单一特征,通常情况下单一特征由于是从一种特定的信息或评论中提取得到,所以均存在固有缺陷,本实施例中,为了降低单一特征固有缺陷对分类结果的影响,实现特征互补,可以在判断评论内容与对应的目标信息之间是否有关联,从而对评论内容进行分类的过程中,将评论内容和目标信息各自的embedding进行融合,从而得到融合特征。也即通过多模态融合(MultimodalFusion)的方式,将评论与信息相结合,综合判断两者的关系,从而更好地对评论进行分类。
而在实际用中,可以通过拼接的方式,将两个embedding进行拼接融合,得到融合特征的embedding。具体的拼接方式,可以是直接通过收尾相接的方式实现,也可以将各自的embedding进行切分,并将切分后的embedding以指定的顺序进行拼接,等。
在实际应用中,发布评论的用户的信息也可以在一定程度上反应出评论内容的类别。比如用户信息中用户名为系统自动分配字符的用户,随意发布与信息无关的不当评论的概率,要比用户名为修改过的字符的用户要高;又如,用户名中包含不利于网络健康字符的用户,也很有可能发布一些与视频内容无关的评论内容等;还如,用户信息中注册时间与当前时间间隔较短,也很可能会发布一些非法内容等。
所以可选的,为了能够更加准确地对请求进行分类的评论内容进行分类,从而较为准确地对信息执行分类操作,本步骤之前,还可以包括:获取评论内容的用户信息。这里的评论内容可以是请求进行分类的评论内容,而这里的用户信息可以包括用户的一种或多种信息,比如可以获取用户唯一标识中的字符;又如,可以根据用户唯一标识,获取到用户自定义的个人信息、兴趣信息,绑定的电话号码、社交应用号码、头像图像等。
则本步骤将得到的信息特征以及评论特征进行特征融合,可以包括:将得到的信息特征、评论特征以及用户信息进行融合。具体地,可以将获取到的用户信息直接进行特征融合,也可以对用户信息先进行特征提取,得到用户特征,从而将用户特征进行特征融合。比如可以对用户唯一标识中的字符进行特征提取;又如,可以根据用户唯一标识,获取到用户自定义的个人信息、兴趣信息,绑定的电话号码、社交应用号码、头像图像等。从而分别利用特定的特征提取方式,得到对应的特征提取结果。
在步骤S14中,基于生成的融合特征,识别评论内容与对应的目标信息是否有关联。
在目前的计算机领域,神经网络普遍具有较为优秀的学习能力,可以利用精神网络来构建各类模型。具体地,神经网络(Neural Network,NN),或称人工神经网络(Artificial Neural Network,ANN),可以由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自适应系统,也即具备学习功能。而训练神经网络的基础,通常是通过特定方式提取得到的特征,所以在本实施例中,便可以预先根据信息和评论内容分别对应的特征,构建用于模型训练的样本。此后可以将有关联和无关联的信息和评论内容,分别作为正负样本,对模型进行训练。
为了使样本更具有多样化,使训练后的模型可以具有更好的性能,在选择信息和评论内容时,可以将真实存在的信息和该信息对应的用户发布的评论内容作为样本,也可以模拟实际应用场景,将无对应关系的信息和评论内容作为样本。比如,可以获取一个互联网上的已经被发布的新闻信息,并获取该新闻信息对应的一个评论内容,据此则可以将这个新闻信息和为该新闻信息反馈的这个评论内容作为模型训练的样本;也可以由开发人员自行生成一个评论内容,与该新闻信息结合,作为模型训练的样本;又如,可以获取一段已经发布的较短的视频信息,并获取该短视频信息对应的一个评论内容,或者其他短视频信息对应的一个评论内容,据此则可以将这个短视频信息和这两个评论内容,分别作为模型训练的两个样本,等。
对于样本的生成方式,可以类似于前述步骤所述,先对信息和评论内容分别进行特征提取、并将分别得到的提取结果进行融合,生成包含信息特征和评论特征的融合特征,从而可以将融合特征作为模型训练的样本。
在本实施例中,若要对模型进行训练,需要给模型双向的样本,也即正样本和负样本。具体地,正样本,可以是具有关联性的信息与评论内容所对应的融合特征,而负样本,就可以是不具有关联性的信息与评论内容所对应的融合特征。
这里的正样本和负样本,可以是通过人工方式预先设定,比如可以根据开发人员的经验对信息和评论内容之间是否具有相关性进行判断,从而确定出信息和对应的评论内容可以作为正样本还是负样本。
比如,当信息为视频信息时,可以由开发人员先看过视频后,再查看针对该视频信息的评论内容,从而可以分别确定出具有关联性和不具有关联性的评论内容,以便可以在特征提取并得到融合特征后,作为正样本或负样本。
在实际的网络场景中,一些不利于网络健康的评论内容,通常也需要被禁止显示,比如有损于公众利益的、有害于社会价值观的、甚至包含淫秽色情词语的评论内容,可以将这些评论内容定义为非法内容。所以,为了使模型同时具有判断出评论中是否存在非法内容的能力,可选的,负样本可以是不具有关联性的信息与评论、和\或存在非法内容的评论,所对应的融合特征,而正样本便可以是有关联性的信息与评论、并且不存在非法内容的评论。比如,开发人员可以在查看评论内容时,通过自己的认知,确定评论内容中是否存在非法内容,且是否与对应的信息有关联,从而确定可以作为正样本还是负样本。而非法内容便可以至少包括上文的多种举例。
为了使模型具有判断正负的能力,需要大量的正样本和负样本,所以就可以将确定出的多个正样本和多个负样本作为输入,对通过神经网络构建出的模型进行训练。在前文介绍,通过特征融合,可以得到融合特征embedding。则在构建神经网络时,输入层的维度通常需要与融合特征embedding的维度相同。
而具体的训练方式,则可以采用批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic Gradient Descent)以及小批量梯度下降(Mini-Batch GradientDescent)中的至少一种,来最小化交叉熵损失(Cross Entropy Loss),并求解损失函数的梯度,从而逐层更新神经网络的参数。进而使得训练后的模型,具有确定信息和评论内容之间是否有关联的能力。
如图2所示,为模型训练的示意图。以信息为视频信息为例,可以对视频信息和评论内容分别进行特征提取,针对视频信息可以得到单帧图像的特征,针对评论内容可以得到文本特征。据此可以对两特征提取结果通过拼接方式,得到融合特征,实际中还可以加入用户唯一标识,得到用户特征,并一起融合。根据开发人员为视频信息和评论内容预先设定的是否有关联,将融合特征以正样本或负样本作为模型训练的数据输入,从而可以对模型进行训练。
在实际应用中,为了不断强化模型的能力,可以不断根据产生的大量信息和评论,生成正负样本,从而可以对模型进行不断的训练,使判断信息和评论内容之间是否有关联的能力逐渐加强。
则在本步骤中,便可以基于融合特征,利用预先训练好的神经网络模型,识别该目标信息与该目标信息对应的评论内容之间是否有关联。
需要说明的是,在模型训练阶段,和识别目标信息与对应的评论内容是否有关联,对于信息和评论内容的特征提取方式、以及特征融合方式可以一致。比如在模型训练阶段、以及识别是否有关联阶段,均可以通过inception网络对视频信息中的单帧图像进行特征提取,可以通过LSTM对评论内容进行特征提取,并通过首尾拼接的方式,完成特征融合。从而可以较为准确地识别出目标信息与对应的评论内容是否有关联。
进一步地,模型的输出结果可以是一个概率,这个概率可以表明评论内容与目标信息之间的关联程度,比如可以是0到1之间的数值,具体可以预先设置两个阈值p和q(通常可以p>q),当确定出目标信息和评论内容的关联程度大于p时,则可以认为有关联;当关联程度小于q时,则可以认为无关联。当然在实际应用中,也可以预设一个阈值,大于该阈值则认为有关联,否则无关联。
在前文已经介绍,在训练模型时,负样本可以是无关联的目标信息与评论内容、和\或存在非法内容的评论内容所对应的融合特征。若通过这种负样本进行模型训练,则在本步骤中,若得到的数值偏向于负类,则可以认为评论内容与信息之间无关联,和\或评论内容中存在非法内容。所以可选的,基于生成的融合特征,识别评论内容与对应的目标信息是否有关联的步骤,可以包括:基于融合特征,识别评论内容与对应的目标信息是否有关联、和\或该评论内容中是否存在非法内容。
如图3所示,为识别评论内容与对应的目标信息是否有关联的示意图。可以对视频信息和评论内容分别进行特征提取,并生成融合特征,提取的方式和融合的方式可以与训练时相同,实际中还可以加入用户唯一标识,得到用户特征,并一起融合。此后便可以将融合特征作为输入,利用预先训练的模型确定正负类的概率。当偏向于负类时,就可以确定目标信息与对应的评论内容无关联。
在前文已经介绍,信息可以包括视频信息,则可选的,基于生成的融合特征,识别评论内容与对应的目标信息是否有关联的步骤,可以包括:基于生成的融合特征,识别评论内容与对应的视频信息是否有关联。
在模型训练过程中,可以为信息和评论内容之间预先设定是否有关联,比如可以通过人为方式,或者也可以利用训练后的模型,预先设定信息和评论内容是否有关联,并作为样本。而在实际应用中,模型的性能通常是不断完善进步的,在样本不多时,模型的性能可能较差,但当样本足够多时,性能就会得到提升。所以在确定样本时,可以结合训练后的模型以及人为方式,通过人为纠正,也可以使模型在不断训练后,得到性能上的不断提升。
在实际应用中,出于对互联网环境的要求,是否存在非法内容是较为严格的监管要求,所以若评论内容中存在非法内容,便可以采取屏蔽、删除等措施,也就无需再判断是否与对应的目标信息有关联。所以可选的,本步骤基于生成的融合特征,识别评论内容与对应的目标信息是否有关联的步骤,可以包括:对评论内容中是否存在非法内容进行判断;若判断出评论内容中不存在非法内容,则基于该融合特征,识别评论内容与对应的目标信息是否有关联。
具体地,可以先判断评论内容中是否存在非法内容,判断的方式,可以类似于前述介绍,预先训练一个模型,以评论内容中是否存在非法内容,作为正负样本,对模型进行训练,从而可以判断评论内容中存在非法内容。或者通过关键字提取的方式进行判断,进而可以确定是否存在非法内容,若不存在,则可以识别评论内容与对应的目标信息是否有关联。
在步骤S15中,根据识别结果,确定评论内容的类别,并基于评论内容所属的类别,对评论内容执行相应的分类操作。
在前文已经介绍,可以确定出评论内容与对应的目标信息是否有关联,那么本步骤便可以对评论内容进行归类,比如若有关联时则将评论内容确定为第一类,若无关联时则将评论内容确定为第二类。此后,并基于该确定出的类别,对评论内容执行相应的保留、置顶、屏蔽、删除等操作,或者还可以对发布评论内容的用户执行警告、停用等操作。
根据前文介绍,在识别评论内容与对应的目标信息是否有关联时,可以预先设置两个阈值,这两个阈值可以用于指示关联程度。那么在本步骤中,为了能够对不同类别的评论该内容执行相应的分类操作,根据识别结果,确定评论内容的类别,并基于评论内容所属的类别,对评论内容执行相应的分类操作的步骤,可以包括:若识别结果指示评论内容与对应的目标信息的关联程度低于第一预定阈值,则确定评论内容属于禁止显示类别,并禁止该评论内容显示在目标信息的评论显示区域;若识别结果指示评论内容与对应的目标信息的关联程度高于第二预定阈值,则确定评论内容属于置顶类别,并将该评论内容或评论内容所属的评论列表显示在指定位置,这里,指定位置所在的显示区域可以是评论显示区域中具有最高显示优先级的区域。
具体地,第一预定阈值设置较低,那么当评论内容与对应的目标信息的关联程度低于该第一预定阈值时,则可以认为两者有关联的可能性较低,所以对于这种评论内容,则可以禁止显示在目标信息的评论显示区域中,比如可以通过删除、或屏蔽显示的方式达到禁止显示的目的。
在前文已经介绍,目标信息可以有对应的评论显示区域,比如针对新闻信息而言,可以在新闻信息的下方,划分出评论显示区域,针对视频信息而言,也可以有评论显示区域。可以设置第二预定阈值,当评论内容与对应的目标信息的关联程度高于该第二预定阈值时,则可以认为两者有关联的可能性较高,此时便可以保持该评论内容在评论显示区域内的显示状态。
当然在实际应用中,也可以通过提高第二预定阈值的方式,确定出与对应目标信息关联程度较高的评论内容,从而可以将该评论内容或评论内容所属的评论列表显示在指定位置。这里评论列表中可以用于显示评论内容、对应的回复内容、用户头像、用户名称等,所以,若确定出评论内容与对应目标信息关联程度较高时,则可以将包含该评论内容的评论内容的评论列表,一并显示在指定位置。而这里,指定位置所在的显示区域可以是评论显示区域中具有最高显示优先级的区域。比如,最高显示优先级的区域可以是置顶区域,或位置不变的固定区域等。
根据上述实施例可见,可以先对请求分类的评论内容以及对应的目标信息分别进行特征提取,并将分别得到的信息特征和评论特征进行特征融合,生成融合特征。此后可以基于融合特征,识别评论内容与对应的目标信息是否有关联,从而可以根据识别结果,确定评论内容的类别,并对评论内容执行相应的分类操作。由于可以对评论内容和对应的目标信息各自的特征进行提取和融合,并基于融合特征识别两者是否有关联,从而根据识别结果,对评论内容执行分类基于类别的分类操作。也就可以较为方便快捷的对信息的评论进行分类操作。另外也可以在一定程度上提升用户体验,以及减少对互联网资源的浪费。
图4是根据一示例性实施例示出的一种用于信息评论的分类操作装置框图。该装置包括请求接收单元21、特征提取单元22、特征融合单元23、关联识别单元24、以及分类操作单元25,其中,
请求接收单元21,被配置为可以执行接收用于请求评论分类的分类请求;
特征提取单元22,被配置为可以执行响应于所述分类请求,对请求进行分类的评论内容及对应的目标信息,分别提取信息特征以及评论特征,其中,所述目标信息为在用户终端界面上显示的可视化信息,所述评论内容为用户基于所述目标信息的反馈;
特征融合单元23,被配置为可以执行将所述信息特征以及所述评论特征进行特征融合,生成包含信息特征以及评论特征的融合特征;
关联识别单元24,被配置为可以执行基于所述融合特征,识别所述评论内容与对应的目标信息是否有关联;
评论处理单元25,被配置为可以执行根据识别结果,确定所述评论内容的类别,并基于所述评论内容所属的类别,对所述评论内容执行相应的分类操作。
可选的,评论处理单元24,被配置为可以执行
若所述识别结果指示所述评论内容与对应的目标信息的关联程度低于第一预定阈值,则确定所述评论内容属于禁止显示类别,并禁止所述评论内容显示在所述目标信息的评论显示区域;
若所述识别结果指示所述评论内容与对应的目标信息的关联程度高于第二预定阈值,则确定所述评论内容属于置顶类别,并将所述评论内容或所述评论内容所属的评论列表显示在指定位置,其中,所述指定位置所在的显示区域为所述评论显示区域中具有最高显示优先级的区域。
可选的,关联识别单元23,被配置为可以执行
对所述评论内容中是否存在非法内容进行判断;
若判断出所述评论内容中不存在非法内容,则基于所述融合特征,识别所述评论内容与对应的目标信息是否有关联。
可选的,特征提取单元22,被配置为可以执行
提取所述视频信息的首帧图像;
从所述首帧图像中提取图片特征,得到所述视频信息的信息特征。
可选的,该装置还可以包括信息获取单元,被配置为可以执行
将所述信息特征以及所述评论特征进行特征融合的步骤之前,获取发布所述评论内容的用户信息;则
特征融合单元23,被配置为可以执行
将所述信息特征、所述评论特征以及所述用户信息进行融合。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种电子设备的框图。该电子设备可以被提供为一种终端,包括处理器31;
以及用于存储处理器可执行指令的存储器32,
其中,处理器31可以被配置为执行上述可执行指令,以实现上述实施例中描述的用于信息评论的分类操作方法。
本公开还提供了一种包括指令的存储介质,例如包括指令的存储器32,上述指令可由图5的电子设备中的处理器31执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图6是根据一示例性实施例示出的一种服务器的框图。该服务器可以被提供为一种终端,包括处理器41;以及用于存储处理器可执行指令的存储器42,其中,处理器41可以被配置为执行上述可执行指令,以实现上述实施例中描述的用于信息评论的分类操作方法。
本公开还提供了一种计算机程序产品,计算机程序产品在处理器上执行时,实现上述实施例中描述的用于信息评论的分类操作方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种用于信息评论的分类操作方法,其特征在于,包括:
接收用于请求评论分类的分类请求;
响应于所述分类请求,对请求进行分类的评论内容及对应的目标信息,分别提取信息特征以及评论特征,其中,所述目标信息为在用户终端界面上显示的可视化信息,所述评论内容为用户基于所述目标信息的反馈;
将所述信息特征以及所述评论特征进行特征融合,生成包含信息特征以及评论特征的融合特征;
基于所述融合特征,识别所述评论内容与对应的目标信息是否有关联;
根据识别结果,确定所述评论内容的类别,并基于所述评论内容所属的类别,对所述评论内容执行相应的分类操作。
2.根据权利要求1所述的用于信息评论的分类操作方法,其特征在于,所述根据识别结果,确定所述评论内容的类别,并基于所述评论内容所属的类别,对其执行相应的分类操作的步骤包括:
若所述识别结果指示所述评论内容与对应的目标信息的关联程度低于第一预定阈值,则确定所述评论内容属于禁止显示类别,并禁止所述评论内容显示在所述目标信息的评论显示区域;
若所述识别结果指示所述评论内容与对应的目标信息的关联程度高于第二预定阈值,则确定所述评论内容属于置顶类别,并将所述评论内容或所述评论内容所属的评论列表显示在指定位置,其中,所述指定位置所在的显示区域为所述评论显示区域中具有最高显示优先级的区域。
3.根据权利要求1或2所述的用于信息评论的分类操作方法,其特征在于,所述基于所述融合特征,识别所述评论内容与对应的目标信息是否有关联的步骤包括:
对所述评论内容中是否存在非法内容进行判断;
若判断出所述评论内容中不存在非法内容,则基于所述融合特征,识别所述评论内容与对应的目标信息是否有关联。
4.根据权利要求1所述的用于信息评论的分类操作方法,其特征在于,所述目标信息包括视频信息;则
所述对请求进行分类的评论内容对应的目标信息,提取信息特征的步骤包括:
提取所述视频信息的首帧图像;
从所述首帧图像中提取图片特征,得到所述视频信息的信息特征。
5.根据权利要求1所述的用于信息评论的分类操作方法,其特征在于,所述将所述信息特征以及所述评论特征进行特征融合的步骤之前,所述方法还包括:获取发布所述评论内容的用户信息;
所述将所述信息特征以及所述评论特征进行特征融合的步骤包括:将所述信息特征、所述评论特征以及所述用户信息进行融合。
6.一种用于信息评论的分类操作装置,其特征在于,包括:请求接收单元、特征提取单元、特征融合单元、关联识别单元、以及分类操作单元,其中,
请求接收单元,被配置为执行接收用于请求评论分类的分类请求;
特征提取单元,被配置为执行响应于所述分类请求,对请求进行分类的评论内容及对应的目标信息,分别提取信息特征以及评论特征,其中,所述目标信息为在用户终端界面上显示的可视化信息,所述评论内容为用户基于所述目标信息的反馈;
特征融合单元,被配置为执行将所述信息特征以及所述评论特征进行特征融合,生成包含信息特征以及评论特征的融合特征;
关联识别单元,被配置为执行基于所述融合特征,识别所述评论内容与对应的目标信息是否有关联;
分类操作单元,被配置为执行根据识别结果,确定所述评论内容的类别,并基于所述评论内容所属的类别,对所述评论内容执行相应的分类操作。
7.根据权利要求6所述的用于信息评论的分类操作装置,其特征在于,所述分类操作单元,被配置为执行:
若所述识别结果指示所述评论内容与对应的目标信息的关联程度低于第一预定阈值,则确定所述评论内容属于禁止显示类别,并禁止所述评论内容显示在所述目标信息的评论显示区域;
若所述识别结果指示所述评论内容与对应的目标信息的关联程度高于第二预定阈值,则确定所述评论内容属于置顶类别,并将所述评论内容或所述评论内容所属的评论列表显示在指定位置,其中,所述指定位置所在的显示区域为所述评论显示区域中具有最高显示优先级的区域。
8.根据权利要求6或7所述的用于信息评论的分类操作装置,其特征在于,所述关联识别单元,被配置为执行:
对所述评论内容中是否存在非法内容进行判断;
若判断出所述评论内容中不存在非法内容,则基于所述融合特征,识别所述评论内容与对应的目标信息是否有关联。
9.根据权利要求6所述的用于信息评论的分类操作装置,其特征在于,所述目标信息包括视频信息,则
特征提取单元,被配置为执行:
提取所述视频信息的首帧图像;
从所述首帧图像中提取图片特征,得到所述视频信息的信息特征。
10.根据权利要求6所述的用于信息评论的分类操作装置,其特征在于,所述装置还包括信息获取单元,被配置为执行将所述信息特征以及所述评论特征进行特征融合的步骤之前,获取发布所述评论内容的用户信息;则
特征融合单元,被配置为执行:
将所述信息特征、所述评论特征以及所述用户信息进行融合。
11.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一项所述的用于信息评论的分类操作方法。
12.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至5中任一项所述的用于信息评论的分类操作方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911286087.2A CN112966173B (zh) | 2019-12-13 | 2019-12-13 | 一种用于信息评论的分类操作方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911286087.2A CN112966173B (zh) | 2019-12-13 | 2019-12-13 | 一种用于信息评论的分类操作方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966173A CN112966173A (zh) | 2021-06-15 |
CN112966173B true CN112966173B (zh) | 2024-02-27 |
Family
ID=76270821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911286087.2A Active CN112966173B (zh) | 2019-12-13 | 2019-12-13 | 一种用于信息评论的分类操作方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966173B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103226576A (zh) * | 2013-04-01 | 2013-07-31 | 杭州电子科技大学 | 基于语义相似度的垃圾评论过滤方法 |
CN105205043A (zh) * | 2015-08-26 | 2015-12-30 | 苏州大学张家港工业技术研究院 | 一种新闻读者情绪的分类方法与系统 |
CN105893350A (zh) * | 2016-03-31 | 2016-08-24 | 重庆大学 | 一种电子商务中文本评论质量的评价方法与系统 |
CN106951409A (zh) * | 2017-03-17 | 2017-07-14 | 黄淮学院 | 一种网络社交媒体观点倾向性分析系统及方法 |
CN108920665A (zh) * | 2018-07-05 | 2018-11-30 | 北京邮电大学 | 基于网络结构和评论文本的推荐评分方法及装置 |
CN109214412A (zh) * | 2018-07-12 | 2019-01-15 | 北京达佳互联信息技术有限公司 | 一种分类模型的训练方法和装置 |
CN109618236A (zh) * | 2018-12-13 | 2019-04-12 | 连尚(新昌)网络科技有限公司 | 视频评论处理方法和装置 |
CN110069625A (zh) * | 2017-09-22 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 一种内容分类方法、装置及服务器 |
CN110287278A (zh) * | 2019-06-20 | 2019-09-27 | 北京百度网讯科技有限公司 | 评论生成方法、装置、服务器及存储介质 |
-
2019
- 2019-12-13 CN CN201911286087.2A patent/CN112966173B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103226576A (zh) * | 2013-04-01 | 2013-07-31 | 杭州电子科技大学 | 基于语义相似度的垃圾评论过滤方法 |
CN105205043A (zh) * | 2015-08-26 | 2015-12-30 | 苏州大学张家港工业技术研究院 | 一种新闻读者情绪的分类方法与系统 |
CN105893350A (zh) * | 2016-03-31 | 2016-08-24 | 重庆大学 | 一种电子商务中文本评论质量的评价方法与系统 |
CN106951409A (zh) * | 2017-03-17 | 2017-07-14 | 黄淮学院 | 一种网络社交媒体观点倾向性分析系统及方法 |
CN110069625A (zh) * | 2017-09-22 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 一种内容分类方法、装置及服务器 |
CN108920665A (zh) * | 2018-07-05 | 2018-11-30 | 北京邮电大学 | 基于网络结构和评论文本的推荐评分方法及装置 |
CN109214412A (zh) * | 2018-07-12 | 2019-01-15 | 北京达佳互联信息技术有限公司 | 一种分类模型的训练方法和装置 |
CN109618236A (zh) * | 2018-12-13 | 2019-04-12 | 连尚(新昌)网络科技有限公司 | 视频评论处理方法和装置 |
CN110287278A (zh) * | 2019-06-20 | 2019-09-27 | 北京百度网讯科技有限公司 | 评论生成方法、装置、服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112966173A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837579B (zh) | 视频分类方法、装置、计算机以及可读存储介质 | |
CN107346336B (zh) | 基于人工智能的信息处理方法和装置 | |
CN108810642B (zh) | 一种弹幕显示方法、装置及电子设备 | |
CN112015928B (zh) | 多媒体资源的信息提取方法、装置、电子设备及存储介质 | |
CN111314732A (zh) | 确定视频标签的方法、服务器及存储介质 | |
CN112580599B (zh) | 一种视频识别方法、装置及计算机可读存储介质 | |
CN110728370B (zh) | 训练样本的生成方法、装置、服务器及存储介质 | |
CN113038185B (zh) | 弹幕处理方法及装置 | |
CN112199582A (zh) | 一种内容推荐方法、装置、设备及介质 | |
CN112989824A (zh) | 信息推送方法及装置、电子设备及存储介质 | |
CN111581435A (zh) | 一种视频封面图像生成方法、装置、电子设备及存储介质 | |
CN114880458A (zh) | 书籍推荐信息的生成方法、装置、设备及介质 | |
CN113626624B (zh) | 一种资源识别方法和相关装置 | |
CN113051481B (zh) | 内容推荐方法、装置、电子设备和介质 | |
CN116756576B (zh) | 数据处理方法、模型训练方法、电子设备及存储介质 | |
CN110516066B (zh) | 一种文本内容安全防护方法和装置 | |
CN112966173B (zh) | 一种用于信息评论的分类操作方法及装置 | |
CN111324733A (zh) | 内容推荐方法、装置、设备及存储介质 | |
US20220207076A1 (en) | Generative image acquisition | |
CN110163043B (zh) | 面部检测方法、装置、存储介质及电子装置 | |
CN110381339B (zh) | 图片传输方法及装置 | |
CN112115300A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN111859118A (zh) | 一种基于文档目录的智能信息推荐方法及装置 | |
CN116483946B (zh) | 数据处理方法、装置、设备及计算机程序产品 | |
CN113761364B (zh) | 多媒体数据推送方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |