CN117725909A - 一种多维度的评论审核方法、装置、电子设备及存储介质 - Google Patents

一种多维度的评论审核方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117725909A
CN117725909A CN202410179607.4A CN202410179607A CN117725909A CN 117725909 A CN117725909 A CN 117725909A CN 202410179607 A CN202410179607 A CN 202410179607A CN 117725909 A CN117725909 A CN 117725909A
Authority
CN
China
Prior art keywords
comment
audited
review
historical
richness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410179607.4A
Other languages
English (en)
Other versions
CN117725909B (zh
Inventor
赵文
钟岚
廖可欣
陈大胜
黄云
邓剑峰
杨子豪
罗博文
董晓尚
张豪
欧阳�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Daily Network Media Development Co ltd
Original Assignee
Sichuan Daily Network Media Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Daily Network Media Development Co ltd filed Critical Sichuan Daily Network Media Development Co ltd
Priority to CN202410179607.4A priority Critical patent/CN117725909B/zh
Publication of CN117725909A publication Critical patent/CN117725909A/zh
Application granted granted Critical
Publication of CN117725909B publication Critical patent/CN117725909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多维度的评论审核方法、装置、电子设备及存储介质,本发明从多个维度来进行评论审核,其中,重复度是检测待审核评论的新颖性,文本丰富性是检测待审核评论的内容是否单一;情感识别则是检测待审核评论的情感积极性;而时效性则是衡量该待审核评论的发布时效;如此,从前述四个维度来进行评论审核,可量化评论质量,从而保证评论质量的稳定性和优质性,同时,整个过程无需人工参与,因此,可极大地提高评论审核效率,从而使优质评论能够在第一时间发布;基于此,相比于传统技术,本发明可在保证审核质量的可靠性的同时,提高审核效率,非常适用于在评论审核领域的大规模应用与推广。

Description

一种多维度的评论审核方法、装置、电子设备及存储介质
技术领域
本发明属于数据处理技术领域,具体涉及一种多维度的评论审核方法、装置、电子设备及存储介质。
背景技术
目前,用户评论广泛存在于新闻资讯和互联网内容等平台,其在丰富了平台社区互动性的同时,也带来了大量的评论审核工作;其中,在实际应用时,传统的评论审核方式为人工审核,其存在以下不足:人工对于优质评论的定义过于主观,难以形成统一化的、流程化的高效审核流程,且大量的审核工作又会造成审核效率过低,从而使优质评论难以在第一时间发布;基于此,如何提供一种既能够保证评论审核质量的可靠性,又能提高审核效率的评论审核方法,已成为一个亟待解决的问题。
发明内容
本发明的目的是提供一种多维度的评论审核方法、装置、电子设备及存储介质,用以解决现有技术采用人工审核所存在的审核质量低以及效率较低的问题。
为了实现上述目的,本发明采用以下技术方案:
第一方面,提供了一种多维度的评论审核方法,包括:
获取各个待审核评论以及历史评论数据集,其中,所述历史评论数据集中包含有处于各个待审核评论发布前的所有已发布的评论;
基于所述历史评论数据集,对各个待审核评论进行重复度检测处理,以得到各个待审核评论的重复度检测结果;
对各个待审核评论进行文本丰富性检测处理以及时效性检测处理,以分别得到各个待审核评论的文本丰富性检测结果和时效性检测结果;
对各个待审核评论进行情感识别处理,得到情感识别结果;
基于各个待审核评论的重复度检测结果、文本丰富性检测结果、时效性检测结果以及情感识别结果,生成各个待审核评论的审核结果,以便基于各个待审核评论的审核结果,从各个待审核评论中筛选出优质评论。
基于上述公开的内容,本发明从多个维度来进行评论审核,其中,重复度是检测待审核评论的新颖性,文本丰富性是检测待审核评论的内容是否单一;情感识别则是检测待审核评论的情感积极性(如表达的是正面还是负面的情感);而时效性则是衡量该待审核评论的发布时效;如此,从前述四个维度来进行评论审核,可量化评论质量,从而保证评论质量的稳定性和优质性,同时,整个过程无需人工参与,因此,可极大地提高评论审核效率,从而使优质评论能够在第一时间发布;基于此,相比于传统技术,本发明可在保证审核质量的可靠性的同时,提高审核效率,非常适用于在评论审核领域的大规模应用与推广。
在一个可能的设计中,基于所述历史评论数据集,对各个待审核评论进行重复度检测处理,以得到各个待审核评论的重复度检测结果,包括:
对于任一待审核评论,计算出所述任一待审核评论与所述历史评论数据集中每个历史评论之间的编辑距离以及文本相似度;
获取所述任一待审核评论的语义向量,并计算出所述任一待审核评论的语义向量,与各个历史评论的语义向量之间的余弦相似度;
基于所述任一待审核评论与每个历史评论之间的编辑距离和文本相似度,以及所述任一待审核评论的语义向量与各个历史评论的语义向量之间的余弦相似度,确定出所述任一待审核评论的重复度检测结果。
在一个可能的设计中,计算出所述任一待审核评论与所述历史评论数据集中每个历史评论之间的编辑距离,包括:
对于所述历史评论数据集中的任一历史评论,基于所述任一历史评论和所述任一待审核评论,构建出编辑距离矩阵,其中,所述编辑距离矩阵中的行数为k+1,列数为h+1,且k表示所述任一待审核评论的文本长度,h为所述任一历史评论的文本长度;
初始化所述编辑距离矩阵,将所述编辑距离矩阵中第一行元素的值依次设置为0至k,以及将所述编辑距离矩阵中的第一列元素的值依次设置为0至h,以得到初始化矩阵;
以所述初始化矩阵中的第二行为起点,对所述初始化矩阵进行逐行填充处理,以得到填充后的矩阵,其中,对于所述初始化矩阵中第a行第b列的元素,计算出将所述任一待审核评论中前a个字符转换为所述任一历史评论中前b个字符所需的最小代价,并将所述最小代价作为第a行第b列元素的填充值,且2≤a≤k+1,1≤b≤h+1;
将所述填充后的矩阵中的第k+1行第h+1列的元素的值,作为所述任一待审核评论与所述任一历史评论之间的编辑距离。
在一个可能的设计中,对各个待审核评论进行文本丰富性检测处理,以得到各个待审核评论的文本丰富性检测结果,包括:
对于任一待审核评论,基于所述任一待审核评论的字符数量,计算出所述任一待审核评论的文本长度评分;
对所述任一待审核评论进行词语识别处理,得出所述任一待审核评论中属于规定词语的词语数量,并基于所述词语数量,计算出所述任一待审核评论的词汇丰富度;
对所述任一待审核评论进行实体种类识别,得到实体种类数目;
根据所述实体种类数目,计算出所述任一待审核评论的实体丰富度;
基于所述文本长度评分、所述词汇丰富度以及所述实体丰富度,计算出所述任一待审核评论的文本丰富性检测结果。
在一个可能的设计中,基于所述任一待审核评论的字符数量,计算出所述任一待审核评论的文本长度评分,包括:
计算出所述字符数量与最小字符数之间的第一差值,以及计算出最大字符数与最小字符数之间的第二差值,并将所述第一差值与所述第二差值之间的比值,作为所述文本长度评分;
其中,基于所述词语数量,计算出所述任一待审核评论的词汇丰富度,包括:
计算出所述词语数量与最小规定词语数之间的第三差值,以及计算出最大规定词语数与最小规定词语数之间的第四差值;
将所述第三差值与所述第四差值之间的比值,作为所述词汇丰富度。
在一个可能的设计中,对各个待审核评论进行时效性检测处理,以得到各个待审核评论的时效性检测结果,包括:
对于任一待审核评论,计算出所述任一待审核评论与目标对象之间的发布时间差,其中,所述目标对象为所述任一待审核评论对应的评论对象;
按照如下公式(1),将所述发布时间差进行映射处理,得到映射值;
(1);
上述公式(1)中,表示所述映射值,/>表示控制参数,/>表示发布时间差;
将所述映射值,作为所述任一待审核评论的时效性检测结果。
在一个可能的设计中,对各个待审核评论进行情感识别处理,得到情感识别结果,包括:
获取训练后的情感识别模型;
对于任一待审核评论,将所述任一待审核评论输入至所述情感识别模型,以得到所述任一待审核评论的至少一个情感极性映射值;
基于所述至少一个情感极性映射值,得到所述任一待审核评论的情感识别结果。
第二方面,提供了一种多维度的评论审核装置,包括:
数据获取单元,用于获取各个待审核评论以及历史评论数据集,其中,所述历史评论数据集中包含有处于各个待审核评论发布前的所有已发布的评论;
第一检测单元,用于基于所述历史评论数据集,对各个待审核评论进行重复度检测处理,以得到各个待审核评论的重复度检测结果;
第二检测单元,用于对各个待审核评论进行文本丰富性检测处理以及时效性检测处理,以分别得到各个待审核评论的文本丰富性检测结果和时效性检测结果;
第三检测单元,用于对各个待审核评论进行情感识别处理,得到情感识别结果;
审核单元,用于基于各个待审核评论的重复度检测结果、文本丰富性检测结果、时效性检测结果以及情感识别结果,生成各个待审核评论的审核结果,以便基于各个待审核评论的审核结果,从各个待审核评论中筛选出优质评论。
第三方面,提供了另一种多维度的评论审核装置,以装置为电子设备为例,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面或第一方面中任意一种可能设计的所述多维度的评论审核方法。
第四方面,提供了一种存储介质,存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面或第一方面中任意一种可能设计的所述多维度的评论审核方法。
第五方面,提供了一种包含指令的计算机程序产品,当指令在计算机上运行时,使计算机执行如第一方面或第一方面中任意一种可能设计的所述多维度的评论审核方法。
有益效果:
(1)本发明从多个维度来进行评论审核,其中,重复度是检测待审核评论的新颖性,文本丰富性是检测待审核评论的内容是否单一;情感识别则是检测待审核评论的情感积极性(如表达的是正面还是负面的情感);而时效性则是衡量该待审核评论的发布时效;如此,从前述四个维度来进行评论审核,可量化评论质量,从而保证评论质量的稳定性和优质性,同时,整个过程无需人工参与,因此,可极大地提高评论审核效率,从而使优质评论能够在第一时间发布;基于此,相比于传统技术,本发明可在保证审核质量的可靠性的同时,提高审核效率,非常适用于在评论审核领域的大规模应用与推广。
附图说明
图1为本发明实施例提供的多维度的评论审核方法的步骤流程示意图;
图2为本发明实施例提供的多维度的评论审核装置的结构示意图;
图3为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍,显而易见地,下面关于附图结构的描述仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
应当理解,尽管本文可能使用术语第一、第二等等来描述各种单元,但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。
应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况;对于本文中可能出现的术语“/和”,其是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A,单独存在A和B两种情况;另外,对于本文中可能出现的字符“/”,一般表示前后关联对象是一种“或”关系。
实施例:
参见图1所示,本实施例所提供的多维度的评论审核方法,能够从多个维度来量化评论质量,如此,相比于人工主观判断,可保证评论质量的稳定性和优质性;同时,整个过程无需人工参与,可极大地提高评论审核效率;基于此,本方法能够在保证审核质量的可靠性的同时,提高审核效率,从而使优质评论在第一时间发布,所以,非常适用于在评论审核领域的大规模应用与推广;其中,举例本方法可以但不限于在评论审核端侧运行,可选的,评论审核端可以但不限于为个人电脑(personal computer,PC)、平板电脑或智能手机,可以理解的,前述执行主体并不构成对本申请实施例的限定,相应的,本方法的运行步骤可以但不限于如下述步骤S1~S5所示。
S1. 获取各个待审核评论以及历史评论数据集,其中,所述历史评论数据集中包含有处于各个待审核评论发布前的所有已发布的评论;在本实施例中,举例历史评论数据集可以但不限于利用一个或多个发布内容的所有已发布评论来组合得到,而发布内容可以但不限于包括文章、图片、视频等;且各个已发布的评论可通过各种社交平台爬取获得。
在得到历史评论数据集后,即可对各个待审核评论进行质量审核;其中,在本实施例中,是从多样性(即待审核评论与已发布的评论是否重复)、文本丰富性(待审核评论的内容是否单一)、时效性(待审核评论的发布时效)以及情感识别(待审核评论所表达情感的积极性)这四个方面来进行质量审核;可选的,多维度的审核过程如下述步骤S2~S4所示。
S2. 基于所述历史评论数据集,对各个待审核评论进行重复度检测处理,以得到各个待审核评论的重复度检测结果;在本实施例中,重复度检测是检测评论的多样性,即判断待审核评论的内容是否提供新颖的角度,如果已经有时间更早的高度重复的评论,则该评论的多样性不足;其中,举例可以但不限于从编辑距离、文本相似度以及语义相似度三方面来量化待审核评论的多样性;可选的,以任一待审核评论为例,来具体阐述重复度检测过程,可以但不限于如下述步骤S21~S23所示。
S21. 对于任一待审核评论,计算出所述任一待审核评论与所述历史评论数据集中每个历史评论之间的编辑距离以及文本相似度;在具体应用时,由于该任一待审核评论与各个历史评论的编辑距离的计算原理相同,下述以任一历史评论为例,来进行具体阐述;其中,举例可以但不限于采用如下步骤S21a~S21d,来得出任一待审核评论与任一历史评论之间的编辑距离。
S21a. 对于所述历史评论数据集中的任一历史评论,基于所述任一历史评论和所述任一待审核评论,构建出编辑距离矩阵,其中,所述编辑距离矩阵中的行数为k+1,列数为h+1,且k表示所述任一待审核评论的文本长度,h为所述任一历史评论的文本长度;在本实施例中,假设k为3,h为3,那么,编辑距离矩阵则是一个4×4的矩阵;当然,当任一待审核评论和任一历史评论的文本长度不同时,编辑距离矩阵的构建过程与前述举例相同,于此不再赘述。
在构建出编辑距离矩阵后,则可进行矩阵的初始化,如下述步骤S21b所示。
S21b. 初始化所述编辑距离矩阵,将所述编辑距离矩阵中第一行元素的值依次设置为0至k,以及将所述编辑距离矩阵中的第一列元素的值依次设置为0至h,以得到初始化矩阵;在本实施例中,以前述举例为例,第一行元素的值依次为:0,1,2,3,第一列元素的值也依次为0,1,2,3;当然,当任一待审核评论和任一历史评论的文本长度不同时,矩阵的初始化过程与前述举例相同,于此不再赘述。
在完成编辑距离矩阵的初始化后,即可进行编辑距离的计算,如下述步骤S21c和步骤S21d所示。
S21c. 以所述初始化矩阵中的第二行为起点,对所述初始化矩阵进行逐行填充处理,以得到填充后的矩阵,其中,对于所述初始化矩阵中第a行第b列的元素,计算出将所述任一待审核评论中前a个字符转换为所述任一历史评论中前b个字符所需的最小代价,并将所述最小代价作为第a行第b列元素的填充值,且2≤a≤k+1,1≤b≤h+1;在具体实施时,相当于从初始化矩阵中第二行的第一个元素开始填充,然后进行第二行的第二个元素、第三个元素、第四个元素、第三行的第一个元素,直至将初始化矩阵的最后一行最后一列的元素填充完毕为止;同时,将所述任一待审核评论中前a个字符转换为所述任一历史评论中前b个字符所需的最小代价,则是通过插入、删除和/或替换的方式,来进行字符转换,从而得出将任一待审核评论中前a个字符转换为所述任一历史评论中前b个字符所需的最小操作步数;更进一步的,可用状态转移方程来计算出前述最小代价;在本实施例中,利用状态转移方程来求取最小代价,为编辑距离算法中的常用技术,其原理不再赘述。
如此,前述步骤S21c相当于是计算出需要多少编辑操作(插入、删除、替换),才能来将该任一待审核评论转换为所述任一历史评论;因此,在得到填充后的矩阵后,即可基于填充后的矩阵,来得出二者间的编辑距离;其中,编辑距离的具体确定过程如下述步骤S21d所示。
S21d. 将所述填充后的矩阵中的第k+1行第h+1列的元素的值,作为所述任一待审核评论与所述任一历史评论之间的编辑距离;在本实施例中,相当于是将填充后的矩阵中最后一行最后一列的元素的值,作为所述任一待审核评论与所述任一历史评论之间的编辑距离。
由此通过前述步骤S21a~S21d,即可计算出所述任一待审核评论与所述任一历史评论之间的编辑距离;而后,则可计算出二者的文本相似度;其中,文本相似度可以但不限于采用Jaccard相似度来度量;即使用所述任一待审核评论与所述任一历史评论之间的交集字符数(共同存在的字符),除以并集元素数(二者的字符总数),来得出二者间的文本相似度。
在得出前述任一待审核评论与任一历史评论之间的编辑距离和文本相似度后,以相同原理,即可计算出该任一待审核评论与其余历史评论之间的编辑距离和文本相似度;而后,则可计算出该任一待审核评论与各个历史评论间的语义相似度;其中,语义相似度的计算过程可以但不限于如下述步骤S22所示。
S22. 获取所述任一待审核评论的语义向量,并计算出所述任一待审核评论的语义向量,与各个历史评论的语义向量之间的余弦相似度;在具体实施时,举例可以但不限于先获取语义向量模型(所述语义向量模型是以多个样本评论的样本对为输入,各个样本评论的语义向量为输出而训练得到的,且任一样本评论的样本对包括正样本和负样本);然后,获取所述任一待审核评论的样本对;最后,将所述任一待审核评论的样本对输入至所述语义向量模型,以得到所述任一待审核评论的语义向量;可选的,任一样本评论的正样本为基于正样本模板对该任一样本评论进行扩张处理而得到的;同样,任一样板评论的负样本则是基于负样本模板对该任一样本评论进行扩张处理而得到的。
更进一步的,举例语义向量模型的损失函数可以但不限于如下述公式(2)所示。
(2);
上述公式(2)中,表示损失函数,/>为第i个样本评论的语义向量(即模型输出),表示第i个样本评论的正样本的语义向量,/>表示j个样本评论的负样本的语义向量,表示j个样本评论的正样本的语义向量,N表示样本评论的总数量,/>表示相似度函数(可为余弦距离)。
在一个具体的实施方式中,举例语义向量模型可以但不限于采用对比学习SimCLS模型,当然,也可采用其余神经网络模型,在此不限定于前述举例。
在得到前述任一待审核评论的语义向量后,即可计算出该任一待审核评论的语义向量与各个历史评论的语义向量之间的余弦相似度,从而将余弦相似度,作为语义相似度;其中,在本实施例中,为提高计算速度,可先使用milvus向量数据库快速检索初步相似向量;然后,再用余弦相似度计算初步相似向量和该任一待审评论对应语义向量的相似度。
在完成前述三个维度的相似度计算后,即可基于此,来计算出所述任一待审核评论的重复度检测结果;其中,重复度检测结果如下述步骤S23所示。
S23. 基于所述任一待审核评论与每个历史评论之间的编辑距离和文本相似度,以及所述任一待审核评论的语义向量与各个历史评论的语义向量之间的余弦相似度,确定出所述任一待审核评论的重复度检测结果;在具体应用时,是先基于该任一待审核评论与每个历史评论之间的编辑距离和文本相似度,以及该任一待审核评论的语义向量与各个历史评论的语义向量之间的余弦相似度,计算出该任一待审核评论与各个历史评论的重复度评分(可以但不限于采用加权求和的方式计算得到);然后,根据该任一待审核评论与各个历史评论的重复度评分,来得出该任一待审核评论的重复度检测结果。
可选的,可设定阈值,统计出重复度评分小于阈值的历史评论的数量;然后,用统计出的数量除以历史评论总数,来得出重复检测结果,即:重复度评分越小,评论间越不相似,而重复检测结果越小,则说明历史评论中,与该任一待审核评论相似的评论占比越小,该任一待审核评论的多样性越大。
如此基于前述步骤S21~S23,即可计算出各个待审核评论的重复度检测结果;而后,则可对各个待审核评论进行文本丰富性以及时效性检测,如下述步骤S3所示。
S3. 对各个待审核评论进行文本丰富性检测处理以及时效性检测处理,以分别得到各个待审核评论的文本丰富性检测结果和时效性检测结果;在本实施例中,还是以任一待审核评论为例,来阐述文本丰富性检测和时效性检测的具体过程;其中,举例可以但不限于采用如下步骤S31~S35,来得出该任一待审核评论的文本丰富性检测结果。
S31. 对于任一待审核评论,基于所述任一待审核评论的字符数量,计算出所述任一待审核评论的文本长度评分;在具体应用时,可先计算出所述字符数量与最小字符数之间的第一差值,以及计算出最大字符数与最小字符数之间的第二差值;然后,将所述第一差值与所述第二差值之间的比值,作为所述文本长度评分;可选的,最小字符数和最大字符数为预设值。
在得到文本长度评分后,即可进行词汇丰富度计算,如下述步骤S32所示。
S32. 对所述任一待审核评论进行词语识别处理,得出所述任一待审核评论中属于规定词语的词语数量,并基于所述词语数量,计算出所述任一待审核评论的词汇丰富度;在本实施例中,相当于是识别出该任一待审核评论中属于规定词语的数量,然后用属于规定词语的数量,来得出词汇丰富度;具体的,还是先计算出所述词语数量与最小规定词语数之间的第三差值,以及计算出最大规定词语数与最小规定词语数之间的第四差值;最后,将所述第三差值与所述第四差值之间的比值,作为所述词汇丰富度;更进一步的,规定词语预先设置在评论审核端内,且最小规定词语数和最大规定词语数也为预设值,可根据实际使用而具体设定。
完成该任一待审核评论的词汇丰富度的计算后,则可进行实体丰富度的计算;其中,其计算过程可以但不限于如下述步骤S33所示。
S33. 对所述任一待审核评论进行实体种类识别,得到实体种类数目;在本实施例中,较多种类的实体表示评论在讨论的话题上更具广泛性和多样性;因此,可用实体种类来进行评论丰富性的检测;其中,举例可以但不限于使用NER算法来进行实体种类识别;当然,也可使用其余实体种类识别算法,在此不限定于前述举例。
在得到该任一待审核评论的实体种类数后,则可进行实体丰富度的计算,如下述步骤S34所示。
S34. 根据所述实体种类数目,计算出所述任一待审核评论的实体丰富度;在本实施例中,还是先计算出实体种类数减去最小实体种类数的差值,以及最大种类数与最小种类数之间的差值;然后,取二者的比值,来作为实体丰富度。
在基于前述步骤S31~S34,来得出该任一待审核评论的文本长度评分、词汇丰富度以及实体丰富度后,即可从前述三个维度,来量化文本丰富性,其量化过程如下述步骤S35所示。
S35. 基于所述文本长度评分、所述词汇丰富度以及所述实体丰富度,计算出所述任一待审核评论的文本丰富性检测结果;在本实施例中,还是以加权求和的方式来计算出文本丰富度检测结果,即文本丰富性检测结果=α×文本长度评分+β×词汇丰富度+γ×实体丰富度;当然,前述α、β和γ为权重。
由此通过前述步骤S31~S35,即可计算出各个待审核评论的文本丰富性检测结果。
在本实施例中,举例可以但不限于采用如下步骤S36~S38,来计算出该任一待审核评论的时效性检测结果。
S36. 对于任一待审核评论,计算出所述任一待审核评论与目标对象之间的发布时间差,其中,所述目标对象为所述任一待审核评论对应的评论对象;在本实施例中,假设任一待审核评论的评论对象为一篇文章,那么,则是计算任一待审核评论的提交时间与文章发布时间之间的时间差,以将其作为发布时间差;而后,即可将发布时间差映射至0-1范围内的值,来作为时效性检测结果;可选的,映射过程如下述步骤S37所示。
S37. 按照如下公式(1),将所述发布时间差进行映射处理,得到映射值。
(1);
上述公式(1)中,表示所述映射值,/>表示控制参数,/>表示发布时间差。
在得到映射值后,即可将映射值作为时效性检测结果,如下述步骤S38所示。
S38. 将所述映射值,作为所述任一待审核评论的时效性检测结果。
由此通过前述步骤S36~S38,即可计算出各个待审核评论的时效性检测结果。
在基于前述步骤S31~S38,计算出各个待审核评论的文本丰富性检测结果和时效性检测结果后,则可进行情感识别;其中,情感识别过程如下述步骤S4所示。
S4. 对各个待审核评论进行情感识别处理,得到情感识别结果;在具体实施时,还是以任一待审核评论为例来进行阐述;其中,举例可以但不限于先获取训练后的情感识别模型;然后,将所述任一待审核评论输入至所述情感识别模型,来得到所述任一待审核评论的至少一个情感极性映射值;最后,基于所述至少一个情感极性映射值,得到所述任一待审核评论的情感识别结果;可选的,情感识别模型可以但不限于采用BERT、RoBERTa或VADER模型;且情感极性可以但不限于包括个人认同情感极性、家庭认同情感极性和国家认同情感极性;更进一步的,可使用加权求和的方式,来加权求和各个情感极性映射值,从而来得出该任一待审核评论的情感识别结果。
在得到各个待审核评论的重复度检测结果、文本丰富性检测结果、时效性检测结果以及情感识别结果后,即可从前述4个维度,来量化其质量,得到审核结果,如下述步骤S5所示。
S5. 基于各个待审核评论的重复度检测结果、文本丰富性检测结果、时效性检测结果以及情感识别结果,生成各个待审核评论的审核结果,以便基于各个待审核评论的审核结果,从各个待审核评论中筛选出优质评论;在本实施例中,将各个待审核评论的重复度检测结果、文本丰富性检测结果、时效性检测结果以及情感识别结果进行加权求和,即可得到质量审核结果,而后,根据加权求和的结果,即可从各个待审核评论中,筛选出优质评论,从而对优质评论进行优先发布。
由此通过前述步骤S1~S5所详细描述的多维度的评论审核方法,本发明能够从多个维度来量化评论质量,如此,相比于人工主观判断,可保证评论质量的稳定性和优质性;同时,整个过程无需人工参与,可极大地提高评论审核效率;基于此,本方法能够在保证审核质量的可靠性的同时,提高审核效率,从而使优质评论在第一时间发布,所以,非常适用于在评论审核领域的大规模应用与推广。
如图2所示,本实施例第二方面提供了一种实现实施例第一方面中所述的多维度的评论审核方法的硬件装置,包括:
数据获取单元,用于获取各个待审核评论以及历史评论数据集,其中,所述历史评论数据集中包含有处于各个待审核评论发布前的所有已发布的评论。
第一检测单元,用于基于所述历史评论数据集,对各个待审核评论进行重复度检测处理,以得到各个待审核评论的重复度检测结果。
第二检测单元,用于对各个待审核评论进行文本丰富性检测处理以及时效性检测处理,以分别得到各个待审核评论的文本丰富性检测结果和时效性检测结果。
第三检测单元,用于对各个待审核评论进行情感识别处理,得到情感识别结果。
审核单元,用于基于各个待审核评论的重复度检测结果、文本丰富性检测结果、时效性检测结果以及情感识别结果,生成各个待审核评论的审核结果,以便基于各个待审核评论的审核结果,从各个待审核评论中筛选出优质评论。
本实施例提供的装置的工作过程、工作细节和技术效果,可以参见实施例第一方面,于此不再赘述。
如图3所示,本实施例第三方面提供了另一种多维度的评论审核装置,以装置为电子设备为例,包括:依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如实施例第一方面所述的多维度的评论审核方法。
具体举例的,所述存储器可以但不限于包括随机存取存储器(random accessmemory,RAM)、只读存储器(Read Only Memory ,ROM)、闪存(Flash Memory)、先进先出存储器(First Input First Output,FIFO)和/或先进后出存储器(First In Last Out,FILO)等等;具体地,处理器可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现,同时,处理器也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。
在一些实施例中,处理器可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制,例如,所述处理器可以不限于采用型号为STM32F105系列的微处理器、精简指令集计算机(reduced instruction setcomputer,RISC)微处理器、X86等架构处理器或集成嵌入式神经网络处理器(neural-network processing units,NPU)的处理器;所述收发器可以但不限于为无线保真(WIFI)无线收发器、蓝牙无线收发器、通用分组无线服务技术(General Packet Radio Service,GPRS)无线收发器、紫蜂协议(基于IEEE802.15.4标准的低功耗局域网协议,ZigBee)无线收发器、3G收发器、4G收发器和/或5G收发器等。此外,所述装置还可以但不限于包括有电源模块、显示屏和其它必要的部件。
本实施例提供的电子设备的工作过程、工作细节和技术效果,可以参见实施例第一方面,于此不再赘述。
本实施例第四方面提供了一种存储包含有实施例第一方面所述的多维度的评论审核方法的指令的存储介质,即所述存储介质上存储有指令,当所述指令在计算机上运行时,执行如实施例第一方面所述的多维度的评论审核方法。
其中,所述存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
本实施例提供的存储介质的工作过程、工作细节和技术效果,可以参见实施例第一方面,于此不再赘述。
本实施例第五方面提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如实施例第一方面所述的多维度的评论审核方法,其中,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多维度的评论审核方法,其特征在于,包括:
获取各个待审核评论以及历史评论数据集,其中,所述历史评论数据集中包含有处于各个待审核评论发布前的所有已发布的评论;
基于所述历史评论数据集,对各个待审核评论进行重复度检测处理,以得到各个待审核评论的重复度检测结果;
对各个待审核评论进行文本丰富性检测处理以及时效性检测处理,以分别得到各个待审核评论的文本丰富性检测结果和时效性检测结果;
对各个待审核评论进行情感识别处理,得到情感识别结果;
基于各个待审核评论的重复度检测结果、文本丰富性检测结果、时效性检测结果以及情感识别结果,生成各个待审核评论的审核结果,以便基于各个待审核评论的审核结果,从各个待审核评论中筛选出优质评论。
2.根据权利要求1所述的方法,其特征在于,基于所述历史评论数据集,对各个待审核评论进行重复度检测处理,以得到各个待审核评论的重复度检测结果,包括:
对于任一待审核评论,计算出所述任一待审核评论与所述历史评论数据集中每个历史评论之间的编辑距离以及文本相似度;
获取所述任一待审核评论的语义向量,并计算出所述任一待审核评论的语义向量,与各个历史评论的语义向量之间的余弦相似度;
基于所述任一待审核评论与每个历史评论之间的编辑距离和文本相似度,以及所述任一待审核评论的语义向量与各个历史评论的语义向量之间的余弦相似度,确定出所述任一待审核评论的重复度检测结果。
3.根据权利要求2所述的方法,其特征在于,计算出所述任一待审核评论与所述历史评论数据集中每个历史评论之间的编辑距离,包括:
对于所述历史评论数据集中的任一历史评论,基于所述任一历史评论和所述任一待审核评论,构建出编辑距离矩阵,其中,所述编辑距离矩阵中的行数为k+1,列数为h+1,且k表示所述任一待审核评论的文本长度,h为所述任一历史评论的文本长度;
初始化所述编辑距离矩阵,将所述编辑距离矩阵中第一行元素的值依次设置为0至k,以及将所述编辑距离矩阵中的第一列元素的值依次设置为0至h,以得到初始化矩阵;
以所述初始化矩阵中的第二行为起点,对所述初始化矩阵进行逐行填充处理,以得到填充后的矩阵,其中,对于所述初始化矩阵中第a行第b列的元素,计算出将所述任一待审核评论中前a个字符转换为所述任一历史评论中前b个字符所需的最小代价,并将所述最小代价作为第a行第b列元素的填充值,且2≤a≤k+1,1≤b≤h+1;
将所述填充后的矩阵中的第k+1行第h+1列的元素的值,作为所述任一待审核评论与所述任一历史评论之间的编辑距离。
4.根据权利要求1所述的方法,其特征在于,对各个待审核评论进行文本丰富性检测处理,以得到各个待审核评论的文本丰富性检测结果,包括:
对于任一待审核评论,基于所述任一待审核评论的字符数量,计算出所述任一待审核评论的文本长度评分;
对所述任一待审核评论进行词语识别处理,得出所述任一待审核评论中属于规定词语的词语数量,并基于所述词语数量,计算出所述任一待审核评论的词汇丰富度;
对所述任一待审核评论进行实体种类识别,得到实体种类数目;
根据所述实体种类数目,计算出所述任一待审核评论的实体丰富度;
基于所述文本长度评分、所述词汇丰富度以及所述实体丰富度,计算出所述任一待审核评论的文本丰富性检测结果。
5.根据权利要求4所述的方法,其特征在于,基于所述任一待审核评论的字符数量,计算出所述任一待审核评论的文本长度评分,包括:
计算出所述字符数量与最小字符数之间的第一差值,以及计算出最大字符数与最小字符数之间的第二差值,并将所述第一差值与所述第二差值之间的比值,作为所述文本长度评分;
其中,基于所述词语数量,计算出所述任一待审核评论的词汇丰富度,包括:
计算出所述词语数量与最小规定词语数之间的第三差值,以及计算出最大规定词语数与最小规定词语数之间的第四差值;
将所述第三差值与所述第四差值之间的比值,作为所述词汇丰富度。
6.根据权利要求1所述的方法,其特征在于,对各个待审核评论进行时效性检测处理,以得到各个待审核评论的时效性检测结果,包括:
对于任一待审核评论,计算出所述任一待审核评论与目标对象之间的发布时间差,其中,所述目标对象为所述任一待审核评论对应的评论对象;
按照如下公式(1),将所述发布时间差进行映射处理,得到映射值;
(1);
上述公式(1)中,表示所述映射值,/>表示控制参数,/>表示发布时间差;
将所述映射值,作为所述任一待审核评论的时效性检测结果。
7.根据权利要求1所述的方法,其特征在于,对各个待审核评论进行情感识别处理,得到情感识别结果,包括:
获取训练后的情感识别模型;
对于任一待审核评论,将所述任一待审核评论输入至所述情感识别模型,以得到所述任一待审核评论的至少一个情感极性映射值;
基于所述至少一个情感极性映射值,得到所述任一待审核评论的情感识别结果。
8.一种多维度的评论审核装置,其特征在于,包括:
数据获取单元,用于获取各个待审核评论以及历史评论数据集,其中,所述历史评论数据集中包含有处于各个待审核评论发布前的所有已发布的评论;
第一检测单元,用于基于所述历史评论数据集,对各个待审核评论进行重复度检测处理,以得到各个待审核评论的重复度检测结果;
第二检测单元,用于对各个待审核评论进行文本丰富性检测处理以及时效性检测处理,以分别得到各个待审核评论的文本丰富性检测结果和时效性检测结果;
第三检测单元,用于对各个待审核评论进行情感识别处理,得到情感识别结果;
审核单元,用于基于各个待审核评论的重复度检测结果、文本丰富性检测结果、时效性检测结果以及情感识别结果,生成各个待审核评论的审核结果,以便基于各个待审核评论的审核结果,从各个待审核评论中筛选出优质评论。
9.一种电子设备,其特征在于,包括:依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如权利要求1~7任意一项所述的多维度的评论审核方法。
10.一种存储介质,其特征在于,所述存储介质上存储有指令,当所述指令在计算机上运行时,执行如权利要求1~7任意一项所述的多维度的评论审核方法。
CN202410179607.4A 2024-02-18 2024-02-18 一种多维度的评论审核方法、装置、电子设备及存储介质 Active CN117725909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410179607.4A CN117725909B (zh) 2024-02-18 2024-02-18 一种多维度的评论审核方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410179607.4A CN117725909B (zh) 2024-02-18 2024-02-18 一种多维度的评论审核方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN117725909A true CN117725909A (zh) 2024-03-19
CN117725909B CN117725909B (zh) 2024-05-14

Family

ID=90209281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410179607.4A Active CN117725909B (zh) 2024-02-18 2024-02-18 一种多维度的评论审核方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117725909B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020098099A1 (zh) * 2018-11-13 2020-05-22 平安科技(深圳)有限公司 基于语义解析的文本准确率计算方法、装置、计算机设备
WO2020103783A1 (zh) * 2018-11-19 2020-05-28 阿里巴巴集团控股有限公司 地址文本相似度确定方法、地址搜索方法、装置和设备
CN111651590A (zh) * 2019-02-15 2020-09-11 北京京东尚科信息技术有限公司 数据处理方法、装置、电子设备及存储介质
CN111966944A (zh) * 2020-08-17 2020-11-20 中电科大数据研究院有限公司 一种多层级用户评论安全审核的模型构建方法
CN112000779A (zh) * 2020-10-29 2020-11-27 北京值得买科技股份有限公司 一种自动审核评论并打标签系统
CN112231484A (zh) * 2020-11-19 2021-01-15 湖南红网新媒体集团有限公司 一种新闻评论审核方法、系统、装置和存储介质
WO2021114634A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 文本标注方法、设备及存储介质
CN113342972A (zh) * 2021-05-24 2021-09-03 支付宝(杭州)信息技术有限公司 舆情识别模型训练方法、系统以及舆情风险监测方法和系统
CN114218936A (zh) * 2021-09-29 2022-03-22 广东南方新媒体科技有限公司 一种媒体领域的优质评论自动生成算法
CN114265935A (zh) * 2021-12-23 2022-04-01 深圳供电局有限公司 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
EP4057180A1 (en) * 2021-03-09 2022-09-14 Beijing Xiaomi Mobile Software Co., Ltd. Method and system for determining text similarity, storage medium and electronic device

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020098099A1 (zh) * 2018-11-13 2020-05-22 平安科技(深圳)有限公司 基于语义解析的文本准确率计算方法、装置、计算机设备
WO2020103783A1 (zh) * 2018-11-19 2020-05-28 阿里巴巴集团控股有限公司 地址文本相似度确定方法、地址搜索方法、装置和设备
CN111651590A (zh) * 2019-02-15 2020-09-11 北京京东尚科信息技术有限公司 数据处理方法、装置、电子设备及存储介质
WO2021114634A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 文本标注方法、设备及存储介质
CN111966944A (zh) * 2020-08-17 2020-11-20 中电科大数据研究院有限公司 一种多层级用户评论安全审核的模型构建方法
CN112000779A (zh) * 2020-10-29 2020-11-27 北京值得买科技股份有限公司 一种自动审核评论并打标签系统
CN112231484A (zh) * 2020-11-19 2021-01-15 湖南红网新媒体集团有限公司 一种新闻评论审核方法、系统、装置和存储介质
EP4057180A1 (en) * 2021-03-09 2022-09-14 Beijing Xiaomi Mobile Software Co., Ltd. Method and system for determining text similarity, storage medium and electronic device
CN113342972A (zh) * 2021-05-24 2021-09-03 支付宝(杭州)信息技术有限公司 舆情识别模型训练方法、系统以及舆情风险监测方法和系统
CN114218936A (zh) * 2021-09-29 2022-03-22 广东南方新媒体科技有限公司 一种媒体领域的优质评论自动生成算法
CN114265935A (zh) * 2021-12-23 2022-04-01 深圳供电局有限公司 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
夏冰 等: "综合词位置和语义信息的专利文本相似度计算", 《计算机工程与设计》, vol. 39, no. 10, 31 October 2018 (2018-10-31), pages 3087 - 3091 *
邵为希 等: "旅游评论文本分析", 《数学建模及其应用》, vol. 10, no. 4, 31 December 2021 (2021-12-31), pages 43 - 54 *

Also Published As

Publication number Publication date
CN117725909B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
CN109033068A (zh) 基于注意力机制的用于阅读理解的方法、装置和电子设备
CN110378346B (zh) 建立文字识别模型的方法、装置、设备和计算机存储介质
CN116402063B (zh) 多模态讽刺识别方法、装置、设备以及存储介质
CN107578270A (zh) 一种金融标签的构建方法、装置及计算设备
CN110781273B (zh) 文本数据处理方法、装置、电子设备及存储介质
CN107273348B (zh) 一种文本的话题和情感联合检测方法及装置
US11037356B2 (en) System and method for executing non-graphical algorithms on a GPU (graphics processing unit)
CN110555203A (zh) 文本复述方法、装置、服务器及存储介质
CN108959474A (zh) 实体关系提取方法
CN110263328A (zh) 一种学科能力类型标注方法、装置、存储介质及终端设备
CN113688232B (zh) 招标文本分类方法、装置、存储介质及终端
CN113538070B (zh) 用户生命价值周期检测方法、装置和计算机设备
CN109726400A (zh) 实体词识别结果评价方法、装置、设备及实体词提取系统
CN115168592B (zh) 基于方面类别的语句情感分析方法、装置以及设备
CN115392237B (zh) 情感分析模型训练方法、装置、设备及存储介质
CN112951233A (zh) 语音问答方法、装置、电子设备及可读存储介质
CN117421491A (zh) 社交媒体账号运行数据的量化方法、装置及电子设备
CN113722441B (zh) 一种相似文本的生成方法、装置、设备及存储介质
CN113626576A (zh) 远程监督中关系特征抽取方法、装置、终端及存储介质
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN117593083A (zh) 商品图像生成方法、装置、电子设备和存储介质
CN111986259B (zh) 颜文字检测模型的训练、视频数据的审核方法及相关装置
CN112100367A (zh) 一种景区舆情预警方法及装置
CN117725909B (zh) 一种多维度的评论审核方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant