CN112667886A - 不当评论检测方法、装置、设备及介质 - Google Patents

不当评论检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN112667886A
CN112667886A CN202011406434.3A CN202011406434A CN112667886A CN 112667886 A CN112667886 A CN 112667886A CN 202011406434 A CN202011406434 A CN 202011406434A CN 112667886 A CN112667886 A CN 112667886A
Authority
CN
China
Prior art keywords
probability
comment
improper
participle
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011406434.3A
Other languages
English (en)
Inventor
王伟松
张聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Xuehai Education Technology Co ltd
Original Assignee
Zhejiang Xuehai Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Xuehai Education Technology Co ltd filed Critical Zhejiang Xuehai Education Technology Co ltd
Priority to CN202011406434.3A priority Critical patent/CN112667886A/zh
Publication of CN112667886A publication Critical patent/CN112667886A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种不当评论检测方法、装置、电子设备及计算机存储介质,涉及信息处理技术领域,旨在解决不当评论检测存在的效率低和准确率低的问题。该方法包含以下步骤:定期获取评论数据,通过朴素贝叶斯算法,分别计算评论数据中各分词被检测为不当评论的概率进行存储;接收目标评论内容,查询该目标评论内容的各分词对应的概率;根据各分词对应的概率,计算复合概率或平均概率;若复合概率大于或等于预设阈值,或平均概率大于或等于预设阈值,则将目标评论内容判定为不当评论。

Description

不当评论检测方法、装置、设备及介质
技术领域
本发明涉及信息处理技术领域,尤其涉及一种不当评论检测方法、装置、 设备及介质。
背景技术
发表评论是许多互联网应用都具备的功能,比如在文章下发表评论,是用 户抒发感情或表达自己的看法的重要途径。
但由于网络的开放性,人们可以在网站上任意书写评论。而目前人工审核 评论的工作量大,所耗时间长,使得对不当评论的检测效率低下,不能及时、 准确地对不当评论的发表进行限制。
针对目前不当评论检测存在的效率低和准确率低的问题,目前尚未提出有 效的解决方法。
发明内容
本发明实施例提供了一种不当评论检测方法、装置、设备及介质,以至 少解决不当评论检测存在的效率低和准确率低的问题。
第一方面,本发明实施例提供了一种不当评论检测方法,包括以下步骤:
定期获取评论数据加入训练集,其中,所述评论数据包括若干条已预先 标注类别的评论内容,所述类别包括不当评论和正常评论两种;
对所述训练集中的评论内容进行分词处理,通过朴素贝叶斯算法,分别 计算各分词的概率,其中所述概率为分词被检测为不当评论的概率;
将所述各分词以及所述各分词的概率关联存储至数据库;
接收目标评论内容,将所述目标评论内容进行分词处理,得到分词集合;
从所述数据库中查询所述分词集合中各分词对应的概率;
根据所述分词集合中各分词对应的概率,计算所述分词集合的复合概率 或平均概率;
将所述复合概率或所述平均概率与预设阈值进行比对,将所述复合概率 或所述平均概率与预设阈值进行比对,若所述复合概率大于或等于所述预设 阈值,或所述平均概率大于或等于所述预设阈值,则将所述目标评论内容判 定为不当评论。
在其中一些实施例中,所述通过朴素贝叶斯算法,分别计算各分词的概 率,包括:
通过公式p=(p1×p3)/(p1×p3+p2×p4),分别计算各分词被检测为不当评论 的概率;其中P表示分词被检测为不当评论的概率,p1表示所述训练集中不 当评论的基础概率,p2代表所述训练集中正常评论的基础概率,p3代表所述 训练集中不当评论的条件概率,p4代表所述训练集中正常评论的条件概率。
在其中一些实施例中,所述计算所述分词集合的复合概率,包括:
通过以下公式计算所述分词集合的复合概率:
Figure BDA0002814386420000021
其中,P(w1),P(w1)…P(wn)分别表示所述分词集合中各分词对应的 概率。
在其中一些实施例中,所述计算所述分词集合的平均概率,包括:
将所述分词集合中各分词对应的概率求平均值,得到所述分词集合的平 均概率。
在其中一些实施例中,所述将所述目标评论内容判定为不当评论之后, 包括:
检查所述评论内容是否判定正确;
若检查到所述评论内容出现漏判,则将所述评论内容加入所述训练集, 重新计算各分词被检测为不当评论的概率并存储;
若检查到所述评论内容出现误判,则从所述数据库中删除所述分词集合 中的各分词对应的概率。
在其中一些实施例中,所述将将所述各分词以及所述各分词的概率关联 存储至数据库,还包括:
将预先为特定分词设置的干预概率值进行存储。
在其中一些实施例中,所述从所述数据库中查询所述分词集合中各分词 对应的概率,包括:
根据赋值规则,为未查询对应概率的分词指定概率值。
第二方面,本发明实施例提供了一种不当评论检测装置,包括:
数据获取模块,用于定期获取评论数据加入训练集,其中,所述评论数 据包括若干条已预先标注类别的评论内容,所述类别包括不当评论和正常评 论两种;
训练模块,用于对所述训练集中的评论内容进行分词处理,通过朴素贝 叶斯算法,分别计算各分词的概率,其中所述概率为分词被检测为不当评论 的概率,将所述各分词以及所述各分词的概率关联存储至数据库;
检测模块,用于接收目标评论内容,将所述目标评论内容进行分词处理, 得到分词集合,从所述数据库中查询所述分词集合中各分词对应的概率,根 据所述分词集合中各分词对应的概率,计算所述分词集合的复合概率或平均 概率,将所述复合概率或所述平均概率与预设阈值进行比对,将所述复合概 率或所述平均概率与预设阈值进行比对,若所述复合概率大于或等于所述预 设阈值,或所述平均概率大于或等于所述预设阈值,则将所述目标评论内容 判定为不当评论。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器 以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理 器执行所述计算机程序时实现如上述第一方面所述的不当评论检测方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有 计算机程序,该程序被处理器执行时实现如上述第一方面所述的不当评论检 测方法。
相比于现有技术,本发明实施例提供一种不当评论检测方法、装置、设 备及介质,通过定期获取评论数据以不断增加训练集的数据量,使得计算得 到的各分词被检测为不当评论的概率的准确性增加。该计算得到的各分词被 检测为不当评论的概率,可以直接用于检测评论内容是否为不当评论,从而 提高使得不当评论的检测效率和准确率。
本发明的一个或多个实施例的细节在以下附图和描述中提出,以使本发 明的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本发明的一部分, 本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限 定。在附图中:
图1是本发明不当评论检测方法的流程图;
图2是本发明实施例的不当评论检测装置的结构框图;
图3是本发明实施例的电子设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案更加清楚明白,以下结合附图及实施例, 对本发明的进行描述和说明。应当理解,此处所描述的具体实施例仅仅用于 解释本发明,并不用于限定本发明。基于本发明提供的实施例,本领域普通 技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于 本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对 于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据 这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种 开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的 内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上 进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为 本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构 或特性可以包含在本申请的至少一个实施例中。本领域普通技术人员显式地 和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它 实施例相结合。
朴素贝叶斯算法是一种分类算法,其基础思想是:求解在此项条件出现 的情况下各类别出现的概率,而待分类项则属于概率最大的类别。检测评论 内容是否为不当评论的问题,可以理解为将评论内容分位正常评论和不当评 论,属于文本分类问题。而文本分类是以词频特征为判断文本所属类别的问 题。因此本实施例通过朴素贝叶斯算法求取评论内容中各分词的概率,以判 断评论是否属于不当评论。
实施例1
基于上述原理,本实施例提供一种对不当评论检测方法,图1是本发明不 当评论检测方法的流程图,如图1所示,不当评论检测方法,包括以下步骤:
S101、定期获取评论数据加入训练集,该评论数据包括若干条已预先标 注类别的评论内容,上述类别包括不当评论和正常评论两种;
定期获取评论数据加入训练集,是为了增加训练数据量,从而增加囊括 的词语数量,且每获取一次评论数据,均会重新计算一次概率,因此同时增 加数据量和迭代计算,可增加后续计算得到的分词概率的准确性,进而增加 不当评论检测的准确性。
在本实施例中,每周定时采集业务系统中的评论数据,该评论数据被获 取之前,已预先按不当评论和正常评论两个类别被标注。且评论数据加入训 练集后,训练集中的评论内容将按类别存储至本地数据库,以供查询使用。
S102、对训练集中的评论内容进行分词处理,通过朴素贝叶斯算法,分 别计算各分词的概率,其中该分词的概率为分词被检测为不当评论的概率;
分词处理是自然语言处理的常规操作,一般采用分词组件进行文本分词, 目前常规的分词组件包括word分词、jieba分词等,在本实施例中,采用Hanlp 的NLP分词对训练集中的评论内容进行分词,得到训练集中所有评论内容的 分词,其中NLP分词基于9970万字的大型综合语料库,是已知范围内全世 界最大的中文分词语料库,具有较好的分词效果。
朴素贝叶斯算法的常规公式有:
Figure BDA0002814386420000071
P(B|A)为事件A发 生的前提下,事件B发生的概率;P(A|B)表示事件B发生的前提下,事件A 发生的概率,P(B)表示事件B发生的概率,P(A)表示事件A发生的概率, 一般P(B|A)、P(A|B)为后验概率,即条件概率,P(A)、P(B)为基础概率。
本实施例使用朴素贝叶斯算法计算各分词被检测为不当评论的概率,即 以训练集为数据总量,依次以各分词为特征时,计算各分词出现时,各分词 所在的评论内容为不当评论的概率。因训练集中所有评论内容的数量已知, 所有评论内容的分类已知,即训练集中正常评论和不当评论的数量已知,从 而可以计算正常评论的概率和不当评论的概率,即可得到正常评论的基础概 率和不当评论的基础概率,同时也可计算在所有不当评论中各分词出现的概 率,从而得到不当评论的条件概率,同理,也可计算正常评论的条件概率,从而使用朴素贝叶斯算法可以依次计算得到各分词被检测为不当评论的概 率,即上述分词的概率。因此,上述公式还可以变形为
Figure BDA0002814386420000072
其中n表示发生类别的数量,Bi表示第i类B事件, Bj表示第j类的B事件,通过该
Figure BDA0002814386420000073
公式可以求得事件A发生的 概率,即计算出各分词出现在所有类别评论中的总概率。
需要注意的是,一个分词可能出现在正常评论中也可能出现在异常评论 中,所以在计算各分词被检测为不当评论的概率时,需要考虑分词被检测为 正常评论的概率,因此,在本实施例中,通过上述朴素贝叶斯算法,分别计 算各分词的概率,包括:
通过公式p=(p1×p3)/(p1×p3+p2×p4),分别计算各分词被检测为不当评论 的概率;其中P表示分词被检测为不当评论的概率,p1表示所述训练集中不 当评论的基础概率,p2代表所述训练集中正常评论的基础概率,p3代表所述 训练集中不当评论的条件概率,p4代表所述训练集中正常评论的条件概率。
其中,上述公式:p=(p1×p3)/(p1×p3+p2×p4)为朴素贝叶斯算法(公式) 在本实施例应用场景下的转化。
S103、将各分词以及各分词的概率关联存储至数据库;
在本实施例中,采用的数据库为ElasticSearch数据库,Elasticsearch是 一个分布式、高扩展、高实时的搜索与数据分析引擎。使用ElasticSearch数 据库可以方便后续步骤查询各分词的概率。
S104、接收目标评论内容,将目标评论内容进行分词处理,得到分词集 合;
该目标评论内容,可以是用户发表的实时评论内容,用户在前端提交实 时评论内容后,应用服务器会接收该实时评论内容作为目标评论内容,以对 该目标评论是否为不当评论进行检测。
接收当目标评论内容后,基于NLP,对目标评论内容进行分词,得到若 干分词(词语),组成分词集合。
S105、从上述数据库中查询分词集合中各分词对应的概率;
根据分词集合中的各分词,依次查询上述数据库,若查询到与分词匹配 的词语,则将匹配的词语的概率作为该分词对应的概率。
S106、根据分词集合中各分词对应的概率,计算分词集合的复合概率或 平均概率;
通过计算分词集合的复合概率或平均概率,均可以得到目标评论内容被 检测为不当评论的概率,因此在具体地实施例中,可自由选择计算复合概率 或平均概率。
S107、将复合概率或平均概率与预设阈值进行比对,若复合概率大于或 等于预设阈值,或平均概率大于或等于预设阈值,则将所述目标评论内容判 定为不当评论。
在本实施例中,上述预设阈值的取值为0.56,且无论是采用计复合概率 还是平均概率的方式,计算得到复合概率和平均概率均与该预设阈值进行比 对。在其他实施例中,预设阈值的取值也可以根据实际情况设置,在此不作 限定,预设阈值的取值不会影响本实施不当评论检测方法的执行。
本实施例的不当评论检测方法应用服务器,可应用多种业务场景,以对 评论内容进行自动检测,且通过定期获取新的评论数据加入训练集,使得涉 及的分词更多,迭代计算分词被检测为不当评论的概率,使得计算结果更准 确,从而通过计算得到的分词被检测为不当评论的概率,可直接用于检测评 论内容是否属于不当评论,具有较高的检测效率和准确率。
优选地,上述计算分词集合的复合概率,包括:
通过以下公式计算分词集合的复合概率:
Figure BDA0002814386420000091
其中,P(w1),P(w1)…P(wn)分别表示分词集合中各分词对应的概率。
优选地,上述计算分词集合的平均概率,包括:
将所述分词集合中各分词对应的概率求平均值,得到所述分词集合的平 均概率。
在本实施例,通过简单平均法计算分词集合的平均概率。
优选地,将目标评论内容判定为不当评论之后,包括:
检查所述评论内容是否判定正确;
若检查到所述评论内容出现漏判,则将所述评论内容加入所述训练集, 重新计算各分词被检测为不当评论的概率并存储;
若检查到所述评论内容出现误判,则从所述数据库中删除所述分词集合 中的各分词对应的概率。
通过对检测之后的判定结果进行检查,可以避免评论内容出现漏判或误 判的情况,保证不当评论检测的可靠性和准确性。将导致误判的分词对应的 概率从数据库中删除,可进一步地保证数据库中的分词的概率的准确性,从 而使得对不当评论的检测更准确。
在一些实施例中,将目标评论内容判定为不当评论之后,将判定结果反 馈客户端,提示用户该评论内容不能发表。
在一些实施例,将复合概率或平均概率与预设阈值进行比对,若复合概 率或平均概率小于预设阈值,则将目标评论内容判定为正常评论,将该目标 评论保存至数据库,可通过查询数据库对保存的正常评论进行人工审核,标 注出正常评论和非正常评论,作为训练数据。
优选地,将所述各分词以及各分词的概率关联存储至数据库,还包括:
将预先为特定分词设置的干预概率值进行存储。
为了避免计算出的分词的概率存在不准确而导致正常评论被误判,增加 为分词设置概率的功能,对分词的概率进行干预,将预先为分词设置的干预 概率值,与该分词进行关联存储。该分词的干预概率值在查询时,会优先被 读取,若分词没有干预概率值,则继续读取通过朴素贝叶斯算法计算得到的 分词的概率。
优选地,从数据库中查询所述分词集合中各分词对应的概率,包括:
根据赋值规则,为未查询对应概率的分词指定概率值。
针对数据库还没有特定分词对应的概率,但是为了保证后续判定的准确 率,需要为未查询到对应概率的分词指定概率值,一般为了不对判定结果造 成影响,该赋值规则为:将分词的概率值赋值为1。
实施例2
本实施例提供一种不当评论检测装置,该装置用于实现上述实施例及优选 实施例方式,已经进行过说明的不再赘述,如下所使用的术语“模块”、“单 元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施 例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实 现也是可能实现并被构想的。
图2是本发明实施例的不当评论检测装置的结构框图,如图2所示,该装 置包括:
数据获取模块21,用于定期获取评论数据加入训练集,该评论数据包括 若干条已预先标注类别的评论内容,该类别包括不当评论和正常评论两种;
训练模块22,用于对训练集中的评论内容进行分词处理,通过朴素贝叶 斯算法,分别计算各分词的概率,其中分词的概率为分词被检测为不当评论 的概率,将各分词以及各分词的概率关联存储至数据库;
检测模块23,用于接收目标评论内容,将目标评论内容进行分词处理, 得到分词集合,从数据库中查询分词集合中各分词对应的概率,根据分词集 合中各分词对应的概率,计算分词集合的复合概率或平均概率,将复合概率 或平均概率与预设阈值进行比对,若复合概率大于或等于预设阈值,或平均 概率大于或等于预设阈值,则将所述目标评论内容判定为不当评论。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可 以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而 言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任 意组合的形式分别位于不同的处理器中。
实施例3
图3为本发明实施例的一种电子设备的结构示意图,如图3所示,提供了 一种电子设备,该电子设备可以是服务器,其内部结构图可以如图3所示。该 电子设备包括处理器、存储器、输入装置和输出装置;其中该电子设备中处理 器的数量可以是一个或多个,图3中以一个处理器为例;电子设备中的处理器、 存储器、输入装置和输出装置可以通过总线或其他方式连接,图3中以通过总 线连接为例。
存储器作为一种计算机可读存储介质,可以包括高速随机存取存储器、非 易失性存储器等,可用于存储操作系统、软件程序、计算机可执行程序和数据 库,如本发明实施例1的不当评论检测方法对应的程序指令/模块,还可以包括 内存,可用于为操作系统和计算机程序提供运行环境。在一些实例中,存储器 可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络 连接至电子设备。
处理器用于提供计算和控制能力,可以包括中央处理器(CPU),或者特 定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以 被配置成实施本申请实施例的一个或多个集成电路。处理器通过运行存储在存 储器中的计算机可执行程序、软件程序、指令以及模块,从而执行电子设备的 各种功能应用以及数据处理,即实现实施例1的不当评论检测方法。
该电子设备的输出装置可以是液晶显示屏或者电子墨水显示屏,该电子 设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上 设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
该电子设备还可包括网络接口/通信接口,该电子设备的网络接口用于与外 部的终端通过网络连接通信。上述网络的实例包括但不限于互联网、企业内部 网、局域网、移动通信网及其组合。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定, 具体的电子设备可以包括比图中所述更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。
本领域普通技术人员可以理解实现实施例1的不当评论检测方法中的全部 或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序 可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包 括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的 对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失 性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、 电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失 性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明 而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、 同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus) 直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储 器总线动态RAM(RDRAM)等。
实施例4
本发明实施例提供一种包含计算机可执行指令的存储介质,所述计算机可 执行指令在由计算机处理器执行时用于实现不当评论检测方法,该方法包括:
定期获取评论数据加入训练集,该评论数据包括若干条已预先标注类别 的评论内容,上述类别包括不当评论和正常评论两种;
对训练集中的评论内容进行分词处理,通过朴素贝叶斯算法,分别计算 各分词的概率,其中分词的概率为分词被检测为不当评论的概率;
将各分词以及各分词的概率关联存储至数据库;
接收目标评论内容,将目标评论内容进行分词处理,得到分词集合;
从数据库中查询分词集合中各分词对应的概率;
根据分词集合中各分词对应的概率,计算分词集合的复合概率或平均概 率;
将复合概率或所述平均概率与预设阈值进行比对,将复合概率或平均概 率与预设阈值进行比对,若复合概率大于或等于预设阈值,或平均概率大于 或等于预设阈值,则将目标评论内容判定为不当评论。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其 计算机可执行指令不限于如上所述实施例的不当评论检测方法操作,还可以执 行本发明任意实施例所提供的不当评论检测方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到, 本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很 多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上 或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机 软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory, RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实 施例所述的不当评论检测方法。
值得注意的是,上述不当评论检测方法的实施例中,所包括的各个单元和 模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现 相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并 不用于限制本发明的保护范围。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所 属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、 “一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或 复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变 形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的 过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以 还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或 设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接” 等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接, 不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。 “和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和 /或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。 字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语 “第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象 的特定排序。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出 其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发 明权利要求的保护范围之内。

Claims (10)

1.一种不当评论检测方法,其特征在于,包括以下步骤:
定期获取评论数据加入训练集,其中,所述评论数据包括若干条已预先标注类别的评论内容,所述类别包括不当评论和正常评论两种;
对所述训练集中的评论内容进行分词处理,通过朴素贝叶斯算法,分别计算各分词的概率,其中所述概率为分词被检测为不当评论的概率;
将所述各分词以及所述各分词的概率关联存储至数据库;
接收目标评论内容,将所述目标评论内容进行分词处理,得到分词集合;
从所述数据库中查询所述分词集合中各分词对应的概率;
根据所述分词集合中各分词对应的概率,计算所述分词集合的复合概率或平均概率;
将所述复合概率或所述平均概率与预设阈值进行比对,若所述复合概率大于或等于所述预设阈值或所述平均概率大于或等于所述预设阈值,则将所述目标评论内容判定为不当评论。
2.如权利要求1所述的不当评论检测方法,其特征在于,所述通过朴素贝叶斯算法,分别计算各分词的概率,包括:
通过公式p=(p1×p3)/(p1×p3+p2×p4),分别计算各分词被检测为不当评论的概率;其中P表示分词被检测为不当评论的概率,p1表示所述训练集中不当评论的基础概率,p2代表所述训练集中正常评论的基础概率,p3代表所述训练集中不当评论的条件概率,p4代表所述训练集中正常评论的条件概率。
3.如权利要求1所述的不当评论检测方法,其特征在于,所述计算所述分词集合的复合概率,包括:
通过以下公式计算所述分词集合的复合概率:
Figure FDA0002814386410000021
其中,P(w1),P(w1)…P(wn)分别表示所述分词集合中各分词对应的概率。
4.如权利要求1所述的不当评论检测方法,其特征在于,所述计算所述分词集合的平均概率,包括:
将所述分词集合中各分词对应的概率求平均值,得到所述分词集合的平均概率。
5.如权利要求1所述的不当评论检测方法,其特征在于,所述将所述目标评论内容判定为不当评论之后,包括:
检查所述评论内容是否判定正确;
若检查到所述评论内容出现漏判,则将所述评论内容加入所述训练集,重新计算各分词被检测为不当评论的概率并存储;
若检查到所述评论内容出现误判,则从所述数据库中删除所述分词集合中的各分词对应的概率。
6.如权利要求1所述的不当评论检测方法,其特征在于,所述将所述各分词以及所述各分词的概率关联存储至数据库,还包括:
将预先为特定分词设置的干预概率值进行存储。
7.如权利要求1所述的不当评论检测方法,其特征在于,所述从所述数据库中查询所述分词集合中各分词对应的概率,还包括:
根据赋值规则,为未查询对应概率的分词指定概率值。
8.一种不当评论检测装置,其特征在于,包括:
数据获取模块,用于定期获取评论数据加入训练集,其中,所述评论数据包括若干条已预先标注类别的评论内容,所述类别包括不当评论和正常评论两种;
训练模块,用于对所述训练集中的评论内容进行分词处理,通过朴素贝叶斯算法,分别计算各分词的概率,其中所述概率为分词被检测为不当评论的概率,将所述各分词以及所述各分词的概率关联存储至数据库;
检测模块,用于接收目标评论内容,将所述目标评论内容进行分词处理,得到分词集合,从所述数据库中查询所述分词集合中各分词对应的概率,根据所述分词集合中各分词对应的概率,计算所述分词集合的复合概率或平均概率,将所述复合概率或所述平均概率与预设阈值进行比对,将所述复合概率或所述平均概率与预设阈值进行比对,若所述复合概率大于或等于所述预设阈值,或所述平均概率大于或等于所述预设阈值,则将所述目标评论内容判定为不当评论。
9.一种电子设备,包括存储器、处理器以及存储所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的不当评论检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的不当评论检测方法。
CN202011406434.3A 2020-12-02 2020-12-02 不当评论检测方法、装置、设备及介质 Pending CN112667886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011406434.3A CN112667886A (zh) 2020-12-02 2020-12-02 不当评论检测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011406434.3A CN112667886A (zh) 2020-12-02 2020-12-02 不当评论检测方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN112667886A true CN112667886A (zh) 2021-04-16

Family

ID=75401060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011406434.3A Pending CN112667886A (zh) 2020-12-02 2020-12-02 不当评论检测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112667886A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239674A (zh) * 2021-06-15 2021-08-10 中国银行股份有限公司 用户评论管理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092875A (zh) * 2011-11-04 2013-05-08 中国移动通信集团贵州有限公司 一种基于文本的搜索方法及搜索装置
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析系统及方法
CN103778109A (zh) * 2014-02-13 2014-05-07 北京奇艺世纪科技有限公司 一种识别用户评论的方法及装置
CN105488025A (zh) * 2015-11-24 2016-04-13 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092875A (zh) * 2011-11-04 2013-05-08 中国移动通信集团贵州有限公司 一种基于文本的搜索方法及搜索装置
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析系统及方法
CN103778109A (zh) * 2014-02-13 2014-05-07 北京奇艺世纪科技有限公司 一种识别用户评论的方法及装置
CN105488025A (zh) * 2015-11-24 2016-04-13 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239674A (zh) * 2021-06-15 2021-08-10 中国银行股份有限公司 用户评论管理方法及装置

Similar Documents

Publication Publication Date Title
US10243967B2 (en) Method, apparatus and system for detecting fraudulant software promotion
CN109165975B (zh) 标签推荐方法、装置、计算机设备及存储介质
CN108390788B (zh) 用户识别方法、装置及电子设备
CN108376129B (zh) 一种纠错方法及装置
CN107545451B (zh) 一种广告推送方法及装置
CN110363580B (zh) 信息推荐方法、装置、计算机设备及存储介质
CN107885875B (zh) 检索词的同义变换方法、装置及服务器
CN113728321A (zh) 利用训练表的集合来准确预测各种表内的错误
CN112487283A (zh) 训练模型的方法、装置、电子设备及可读存储介质
CN110765760A (zh) 一种法律案件分配方法、装置、存储介质和服务器
CN111488736B (zh) 自学习分词方法、装置、计算机设备和存储介质
CN110555165B (zh) 信息识别方法、装置、计算机设备和存储介质
Wang et al. Empowering truth discovery with multi-truth prediction
CN112667886A (zh) 不当评论检测方法、装置、设备及介质
US20120059786A1 (en) Method and an apparatus for matching data network resources
WO2017036341A1 (en) Random index pattern matching based email relations finder system
CN111651666A (zh) 用户主题推荐方法、装置、计算机设备及存储介质
CN109063015B (zh) 热点内容的提取方法、装置及设备
CN109829043A (zh) 词性确认方法、装置、电子设备及存储介质
CN114169331A (zh) 地址解析方法、装置、计算机设备和存储介质
CN112328752B (zh) 基于搜索内容的课程推荐方法、装置、计算机设备及介质
CN112131435B (zh) 超级节点确定方法、装置、电子设备和存储介质
CN113722484A (zh) 基于深度学习的谣言检测方法、装置、设备及存储介质
CN113868373A (zh) 一种词云生成方法、装置、电子设备及存储介质
CN111259050A (zh) 用户操作轨迹记录方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210416