CN109582788A

CN109582788A - 垃圾评论训练、识别方法、装置、设备及可读存储介质

Info

Publication number: CN109582788A
Application number: CN201811333360.8A
Authority: CN
Inventors: 胡雨佳
Original assignee: Beijing Jingdong Financial Technology Holding Co Ltd
Current assignee: Beijing Jingdong Financial Technology Holding Co Ltd
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2019-04-05

Abstract

本申请公开一种垃圾评论训练、识别方法、装置、设备及可读存储介质。该垃圾评论识别方法包括：加载基于多种场景的垃圾评论识别语料；提取待识别评论文本；根据垃圾评论识别语料，对待识别评论文本进行处理，以获得对应的待识别语料文本；对待识别语料文本进行文本矫正；以及根据经过训练的文本分类网络中的垃圾评论识别模型，对经过文本矫正的待识别语料文本进行识别，以确定待识别评论文本是否为垃圾评论。该垃圾评论识别方法能够提升垃圾评论识别的准确度。

Description

垃圾评论训练、识别方法、装置、设备及可读存储介质

技术领域

本发明涉及计算机应用技术，具体而言，涉及一种垃圾评论识别模型训练方法、垃圾评论识别方法、装置、设备及可读存储介质。

背景技术

随着移动互联网的快速发展与智能终端的广泛应用，人们发表观点和相互交流的方式也随之发生了变化。在智能终端的各类应用(APP) 上，涌现出大批活跃用户，因为使用同一款移动应用而紧密联系在一起，相互沟通使用经验与兴趣爱好，发表原创评论观点。这些评论富含许多有价值的知识信息，但其中也充斥着一些不健康的垃圾内容。因此，如何从海量的评论文本信息中自动识别垃圾内容，减少人工审核的工作负荷，是目前各类移动应用普遍面临的技术问题，也成为自然语言处理领域的研究热点之一。

垃圾评论识别方法可以大致分为基于语料匹配和基于模型训练的两种方式。基于语料匹配的识别方式是将评论文本与已知的垃圾文本样本作进行对比，通过某种匹配标准判决是否为垃圾评论。简单的方法如局部重点关键词的匹配；复杂的方法如相似度判决，其通过评估整体文本间的相似度进行判决。基于模型训练的识别方式利用已有的海量评论文本训练出特定模型，并基于生成的模型进行自动化评估判决。这其中有通过特征工程提取文本重要特征并输入到某种分类模型训练的方法，如SVM、 AdaBoost等，也有通过神经网络模型自动拟合文本特征进而学习训练的方法，如RNN、TextCNN等。

上述各种方法均存在一些问题。如局部重点关键词匹配方法，许多评论文本难以仅从个别词语就能判决是否为垃圾；相似度判决方法虽然具有较高的准确度，但由于需要同每一条垃圾文本做比对，判决效率会随着垃圾文本库的不断扩充而逐渐下降。此外，以上两种方法都是基于语料匹配，对事先准备的敏感词库或垃圾文本库的依赖程度较大，且具体的判决规则需提前明确设定好，对突发性的热点评论可能因更迭不及时而出现批量错判情况。

模型训练方面，在垃圾评论业务场景下，由于文本语言自身的特殊性，特征工程难以囊括文本的大部分信息，特别是对上下文字词的关联性难以把握，模型识别准确度的上界被特征工程的能力所限制；而神经网络模型训练在实际部署中，一些模型的设计相对复杂，且训练耗时相对较长，不适于系统的快速更迭。

此外，由于网络语言的丰富性及用户普遍存在反垃圾识别的文本修正行为，评论内容往往包含许多错杂的噪声数据，理论研究的垃圾评论方法大多将传统预处理后的清洗文本数据直接输入到某种模型进行训练学习，其实际效果也相对大打折扣。

在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明提供一种垃圾评论识别模型训练方法、垃圾评论识别方法、装置、设备及可读存储介质，能够提升垃圾评论识别的准确度。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明的一方面，提供一种垃圾评论识别模型训练方法，包括：加载基于多种场景的垃圾评论识别语料；提取多条评论样本，多条评论样本均具有垃圾属性标签；根据垃圾评论识别语料，对多条评论样本分别进行处理，以获得对应的多条语料样本；以及将多条语料样本输入到文本分类网络中进行训练，以获得垃圾评论识别模型；其中，多条语料样本中的垃圾语料样本为经过文本矫正后的垃圾语料样本，垃圾语料样本为垃圾属性标签标注为是垃圾评论的评论样本所对应的语料样本。

根据本发明的一实施方式，经过文本矫正后的垃圾语料样本包括：删除了垃圾语料样本中与垃圾评论无关部分内容的垃圾语料样本；和/ 或，包括了垃圾语料样本中各垃圾词汇的同义词的语料样本。

根据本发明的一实施方式，多种场景包括：金融财经类场景、专业垃圾场景。

根据本发明的一实施方式，文本分类网络包括：FastText文本分类器。

根据本发明的另一方面，提供一种垃圾评论识别方法，包括：加载基于多种场景的垃圾评论识别语料；提取待识别评论文本；根据垃圾评论识别语料，对待识别评论文本进行处理，以获得对应的待识别语料文本；对待识别语料文本进行文本矫正；以及根据经过训练的文本分类网络中的垃圾评论识别模型，对经过文本矫正的待识别语料文本进行识别，以确定待识别评论文本是否为垃圾评论。

根据本发明的一实施方式，对待识别语料文本进行文本矫正包括：根据垃圾同义类语义表，将待识别语料文本中的垃圾词汇的同义词添加到待识别语料文本中。

根据本发明的一实施方式，对待识别语料文本进行文本矫正还包括：将待识别语料文本与预先设定的垃圾词汇表进行匹配，确定第一矫正辅助结果；和/或，提取待识别语料文本中的数字和/或字符；根据数字和/ 或字符，确定待识别语料文本中是否包含身份属性信息，并根据身份属性信息确定第二矫正辅助结果。

根据本发明的一实施方式，根据经过训练的文本分类网络中的垃圾评论识别模型，对经过文本矫正的待识别语料文本进行识别，以确定待识别评论文本是否为垃圾评论包括：获得经同义词添加后的、待识别语料文本的文本集{T₀,T₁,...T_n}；根据第一矫正辅助结果和/或第二矫正辅助结果，确定T_k的矫正辅助结果I(T_k)；获得垃圾评论识别模型对T_k的评分M(T_k)；根据下述公式，计算T_k的分数估计值：S(T_k)＝max[I(T_k),M(T_k)]；根据下述公式，计算待识别语料文本的评分结果Score(T)： Score(T)＝arg max_k∈[0,n]f[S(T_k)]；以及根据下述公式，确定待识别评论文本的识别结果P(T)：其中，函数f[S(T_k)]为平滑处理函数，K为预设的评分判决阈值。

根据本发明的一实施方式，在根据经过训练的文本分类网络中的垃圾评论识别模型，对经过文本矫正的待识别语料文本进行识别，以确定待识别评论文本是否为垃圾评论之前，还包括：根据上述任一种垃圾评论识别模型训练方法，训练文本分类网络，以得到垃圾评论识别模型。

根据本发明的再一方面，提供一种垃圾评论识别模型训练装置，包括：语料加载模块，用于加载基于多种场景的垃圾评论识别语料；样本提取模块，用于提取多条评论样本，多条评论样本均具有垃圾属性标签；样本处理模块，用于根据垃圾评论识别语料，对多条评论样本分别进行处理，以获得对应的多条语料样本；以及网络训练模块，用于将多条语料样本输入到文本分类网络中进行训练，以获得垃圾评论识别模型；其中，多条语料样本中的垃圾语料样本为经过文本矫正后的垃圾语料样本，垃圾语料样本为垃圾标签标注为是垃圾评论的评论样本所对应的语料样本。

根据本发明的再一方面，提供一种垃圾评论识别装置，包括：语料加载模块，用于加载基于多种场景的垃圾评论识别语料；文本提取模块，用于提取待识别评论文本；文本处理模块，用于根据垃圾评论识别语料，对待识别评论文本进行处理，以获得对应的待识别语料文本；文本矫正模块，用于对待识别语料文本进行文本矫正；以及评论识别模块，用于根据经过训练的文本分类网络中的垃圾评论识别模型，对经过文本矫正的待识别语料文本进行识别，以确定待识别评论文本是否为垃圾评论。

根据本发明的再一方面，提供一种计算机设备，包括：存储器、处理器及存储在存储器中并可在处理器中运行的可执行指令，处理器执行可执行指令时实现如上述任一种垃圾评论识别模型训练方法。

根据本发明的再一方面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，可执行指令被处理器执行时实现如上述任一种垃圾评论识别模型训练方法。

根据本发明的再一方面，提供一种计算机设备，包括：存储器、处理器及存储在存储器中并可在处理器中运行的可执行指令，处理器执行可执行指令时实现如上述任一种垃圾评论识别方法。

根据本发明的再一方面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，可执行指令被处理器执行时实现如上述任一种垃圾评论识别方法。

根据本发明的垃圾评论识别模型训练方法，通过提供多场景的垃圾评论识别语料，并在将评论样本送到文本分类网络中进行训练之前，对评论样本中被标注为垃圾评论的样本进行文本矫正，可以提升垃圾评论识别准确度，实现更好的识别效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

通过参照附图详细描述其示例实施例，本发明的上述和其它目标、特征及优点将变得更加显而易见。

图1是根据一示例性实施方式示出的一种垃圾评论识别模型训练方法的流程图。

图2是根据一示例示出的多种场景的垃圾评论识别语料示意图。

图3是根据一示例性实施方式示出的一种垃圾评论识别方法的流程图。

图4是根据一示例性实施方式示出的另一种垃圾评论识别方法的流程图。

图5是根据一示例性实施方式示出的一种垃圾评论识别模型训练装置的框图。

图6是根据一示例性实施方式示出的一种垃圾评论识别装置的框图。

图7是根据一示例性实施方式示出的一种计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。

图1是根据一示例性实施方式示出的一种垃圾评论识别模型训练方法的流程图。如图1所示，方法10包括：

在步骤S102中，加载基于多种场景的垃圾评论识别语料。

垃圾评论识别语料需要根据实际业务对垃圾评论的定义来做准备。例如，可以包括用户申请发表的涉及广告信息或不健康的评论内容。广告信息包括其他商业宣传、资金体现代理、友商或个人的服务推销等。不健康的评论包括违反国家法律法规或影响论坛和谐交流的评论内容，如政治类、低俗类、人身攻击类等。

图2是根据一示例示出的多种场景的垃圾评论识别语料示意图。在一些实施例中，如图2所示，本发明实施方式的垃圾评论识别模型训练方法加载的多种场景的垃圾评论识别语料可包括：

1)通用场景语料。通用场景语料例如为传统文本分析工具的默认语料部分。

2)敏感词场景语料。敏感词场景语料是传统垃圾评论识别特别加载的语料部分，如上述不健康评论包括的政治类、低俗类、人身攻击类语料等。

3)专业垃圾场景语料。专业垃圾场景语料是为提高模型实际效用而对传统垃圾识别语义环境的补充，例如可以包括上述推广营销类、轻微负面词类、垃圾同义类及噪音类等。其中，推广营销类语料用于重点捕捉评论文本中的推广营销类词汇信息，包括私人借贷、白条提现、兼职代理、友商推荐等；轻微负面类语料用于重点捕捉评论文本中含义负面但不确定属于垃圾文本的词汇信息，如“垃圾”、“傻子”、“装逼”等；垃圾同义类语料用于重点捕捉网络语言常用的且与垃圾判决相关度较大的谐音词汇，类比轻微负面类语料案例，如“辣鸡”、“沙子”、“撞壁”等；噪音类语料用于筛除评论文本中对垃圾鉴别没有实际意义的词汇信息，类似于传统文本分析使用的停用词语料，但需基于业务需求加以调整，确认对评论的垃圾属性判决没有影响。

此外，进一步地，当本发明实施方式提供的垃圾评论识别模型训练方法应用于金融理财专业类客户端的垃圾评论识别时，评论文本的内容有两个特点：一是词汇丰富，二是专业性较强。因此，还需加载金融财经类场景语料，对金融理财专业类语料进行补充，可包括专业词典、术语汇总、股票/基金类名称、平台/友商原创词等。

在步骤S104中，提取多条评论样本。

评论样本的提取旨在基于带垃圾属性标签的样本数据训练生成垃圾评论识别模型。提取来自评论文本数据库的评论样本，并为提取的这些评论样本标注是否为垃圾评论。例如，可以由运营人员通过数据标签系统对已发布的评论文本信息作审核复察，对涉及广告信息或不健康的评论内容，人工予以垃圾标注，也即添加是否为垃圾评论的标签。被标注为垃圾评论的评论将自动从客户端页面删除，且将垃圾属性标签置为1；未被标注为垃圾评论的评论将保留展现在客户端页面，且垃圾属性默认为0，无需人工操作。

在步骤S106中，根据垃圾评论识别语料，对多条评论样本分别进行处理，以获得对应的多条语料样本。

在加载了相关场景的垃圾评论识别语料后，便可对提取的评论样本分别进行处理。例如，可通过采用分词工具对原始文本进行分词，删除标点、数字以及副词、助词等弱词性词汇，剔除属于噪音类语料的词汇，繁简体 /全半角转换等，从而将评论样本中的文本内容转化为适合模型训练分析的语料样本。特别地，由分词工具加载事先细分场景的垃圾评论识别语料，实现了分词的专业场景化，可以很大程度上提升垃圾评论模型训练的有效性。

在步骤S108中，将多条语料样本输入到文本分类网络中进行训练，以获得垃圾评论识别模块。

其中，所述多条语料样本中的垃圾语料样本为经过文本矫正后的垃圾语料样本，垃圾语料样本为垃圾属性标签标注为是垃圾评论的评论样本所对应的语料样本。

现有的垃圾评论识别研究是在上述对评论样本处理的基础上，直接输入某种模型进行训练，具有一定的识别效果。然而，在实际业务场景下，由于网络语言的丰富性及人们普遍存在的反垃圾识别的文本修正行为，经过上述处理的评论样本仍有很多错杂的噪声数据，因此需要在上述处理后，再进行针对性的文本矫正，使鉴别垃圾评论的评论样本更类似于传统的分类模型输入的评论样本，以实现更好的垃圾评论识别效果。

在一些实施例中，所述经过文本矫正后的垃圾语料样本包括：删除了所述垃圾语料样本中与垃圾评论无关部分内容的垃圾语料样本；和/或，包括了所述垃圾语料样本中各垃圾词汇的同义词的语料样本。

相比于传统的文本分类训练样本，针对垃圾评论的识别对局部信息更为敏感，例如：“只要活着，没有什么过不去路，幸福总有一天会敲开你的大门，打开支～宝首页搜索672***，即可领红包”。评论开头为正面性的哲理表述，但句尾出现商业推广信息，因而需要人工判定为垃圾评论。在模型训练过程中，类似这种无关垃圾判决甚至包含积极意义的文本部分，会对模型训练造成一定程度的误导。

上述误导作用会随着训练文本量的扩充而被减弱，但在实际模型训练场景中，无节制扩充文本量需要增加更多的训练样本标注。此外，用户的评论文本与传统文本语料相比，词汇信息非常丰富，且用户往往带着规避垃圾评论识别的思路进行非正规化编辑，因此单纯依赖训练文本量的扩充而减少此类偏差影响，工作量较大且实际效果不理想。因此，在将评论样本用于训练之前，可以人工剔除无关垃圾评论的文本部分，只保留决定其为垃圾评论的文本部分，以降低垃圾文本样本中掺杂的混淆信息。仍以上例为例，片段筛选后的垃圾评论样本为：“打开支～宝首页搜索672***，即可领红包”。

此外，由于网络用语含义的多样性和表达方式的个性化，来自用户的评论文本词汇信息非常丰富，掺杂着各类潮流性语言和规避垃圾评论识别的非正规化语言。在模型训练前，可以对评论样本作同义语料映射处理，并将映射前和映射后的文本都作为训练语料输入到模型中训练。

例如，可以基于准备的垃圾同义类语料，使每个词拥有自己独立的列表，格式如：“本义词：【同义词1，同义词2……】”。可以认为每个本义词与所属列表的同义词语具有类似的含义。在同义词映射过程中，逐一将涉及的同义词转换为本义词。由此形成的新的文本添加到原有的评论样本中。如“垃圾”的同义词列表包括“辣鸡”、“腊鸡”、“laji”、“垃ji”、“la圾”等。也即，经同义语料映射后的评论样本的文本集变为{T₀,T₁,...T_n}，其中T₀为原始评论样本。

值得注意的是，本发明实施方式的目标是从评论文本中识别垃圾评论，因此，同义语料映射只是针对与垃圾判决相关度较大的垃圾词汇作同义映射。经过同义映射后的训练样本量虽有所增加，但对于快速高效的训练网络而言，样本量增加对训练耗时的影响可以忽略。

在一些实施例中，所述文本分类网络包括：FastText文本分类器。完成文本矫正后，将矫正后的评论样本输入到FastText文本分类器中，构建基于文本语料的分布式词向量，并进行垃圾评论文本识别的训练工作。传统意义上，FastText文本分类器一般用于文本分类，本发明实施例将其引入专业性的垃圾评论识别场景中，通过文本矫正将训练样本转为适于 FastText文本分类器分类的语料样本，利用FastText文本分类器在文本分类上快速高效的特性，提升对垃圾评论识别的实际效果。

FastText模型构建的词向量是基于Word2vec的分布式词向量，它通过一个浅层神经网络，获得基于文本语料的低维词向量，不仅可以较好地度量词与词之间的相似性，而且能有效避免传统独热化词向量过度稀疏而造成的维度灾难，目前被工业界广泛使用。FastText模型有三层：输入层、隐含层、输出层，这与Word2Vec类似。不同的是，一般Word2Vec的输入是目标词的上下文，而FastText的输入是文本多个词及N-Gram组合词，这些输入词通过向量构建训练涵盖文本整体信息,由此输出文本标签预测。

此处训练的FastText模型，通过词向量训练学习文本矫正后的字词及上下文关系信息。随着样本规模增大，这些词向量间的关联性越准确，垃圾预测评分也就越准确。将矫正后的文本内容转换为FastText文本训练格式后，模型的训练方法可按其通用的方法进行。FastText训练过程中，具体的迭代次数和向量维度可根据文本数据规模进行调整。

Word2vec是Google公司开放的一款用于训练词向量的算法工具，它通过一个浅层神经网络，获得基于文本语料的低维词向量，不仅可以较好地度量词与词之间的相似性，而且能有效避免传统独热化词向量过度稀疏而造成的维度灾难，目前被工业界广泛使用。

本发明实施方式提供的垃圾评论识别模型训练方法，通过提供多场景的垃圾评论识别语料，并在将评论样本送到文本分类网络中进行训练之前，对评论样本中被标注为垃圾评论的样本进行文本矫正，可以提升垃圾评论识别准确度，实现更好的识别效果。

应清楚地理解，本发明描述了如何形成和使用特定示例，但本发明的原理不限于这些示例的任何细节。相反，基于本发明公开的内容的教导，这些原理能够应用于许多其它实施方式。

图3是根据一示例性实施方式示出的一种垃圾评论识别方法的流程图。如图3所示，方法20包括：

在步骤S202中，加载基于多种场景的垃圾评论识别语料。

该步骤与方法10中的步骤S102相同，在此不再赘述。

在步骤S204中，提取待识别评论文本。

待识别评论文本提取旨在预测每条评论文本的垃圾属性，提取的数据可以来自客户端实时上报的尚未发表的评论文本。在本发明实施方式中，系统基于FastText模型判决结果决定是否予以通过发布。

在步骤S206中，根据所述垃圾评论识别语料，对所述待识别评论文本进行处理，以获得对应的待识别语料文本。

与方法10中的步骤S106相同，可通过采用分词工具对待识别评论文本进行分词，删除标点、数字以及副词、助词等弱词性词汇，剔除属于噪音类语料的词汇，繁简体/全半角转换等，从而将待识别评论文本的内容转化为适合模型训练分析的语料文本。

在步骤S208中，对所述待识别语料文本进行文本矫正。

由于网络用语含义的多样性和表达方式的个性化，来自用户的评论文本词汇信息非常丰富，掺杂着各类潮流性语言和规避垃圾评论识别的非正规化语言。在模型训练前，可以对评论样本作同义语料映射处理，并将映射前和映射后的文本都作为训练语料输入到模型中训练。

因此，在一些实施例中，可根据垃圾同义类语义表，将待识别语料文本中的垃圾词汇的同义词添加到待识别语料文本中。

进一步地，在一些实施例中，对待识别语料文本进行校正还可以包括：将待识别语料文本与预先设定的垃圾词汇表进行匹配，以确定第一矫正辅助结果。如果待识别语料文本包含了垃圾词汇表中的词汇，则确定第一矫正辅助结果为待识别语料文本是垃圾评论；否则，确定第一矫正辅助结果为待识别语料文本不是垃圾评论。

垃圾词汇表匹配即对满足某些条件而必须判为垃圾评论的文本直接进行判决。垃圾词汇表例如包括：政治类、低俗类、攻击诽谤类等限定性敏感词。由于强规则性大于模型判决，此类语料应是严格筛选，宁缺毋滥。

此外，对待识别语料文本进行校正还可以包括：文本正则法，主要提取待识别语料文本中的数字和/或字符，包括汉拼转数字、无意义间隔符剔除和匹配筛选等；根据数字和/或字符，确定待识别语料文本中是否包含身份属性信息，以确定第二矫正辅助结果。如果待识别语料文本中包含身份属性信息，则确定第二矫正辅助结果为待识别语料文本是垃圾评论；否则，确定第二矫正辅助结果为待识别语料文本不是垃圾评论。身份属性信息例如包括：手机号、公众号、激活码、验证码等。

在步骤S210中，根据经过训练的文本分类网络中的垃圾评论识别模型，对经过文本矫正的所述待识别语料文本进行识别，以确定所述待识别评论文本是否为垃圾评论。

该文本分类网络同样可以为FastText文本分类器。在该步骤之前，还可以通过方法10对该FastText文本分类器进行训练，以获得该垃圾评论识别模型。

本发明实施方式提供的垃圾评论识别方法，通过提供多场景的垃圾评论识别语料，并在将评论样本送到文本分类网络中进行训练之前，对评论样本中被标注为垃圾评论的样本进行文本矫正，可以提升垃圾评论识别准确度，实现更好的识别效果。

图4是根据一示例性实施方式示出的另一种垃圾评论识别方法的流程图。如图4所示，方法30包括：

在步骤S302中，加载基于多种场景的垃圾评论识别语料。

在步骤S304中，提取待识别评论文本。

在步骤S306中，根据所述垃圾评论识别语料，对所述待识别评论文本进行处理，以获得对应的待识别语料文本。

上述步骤与方法20中的步骤S202～S206相同，在此不再赘述。

在步骤S308中，根据垃圾同义类语义表，将待识别语料文本中的垃圾词汇的同义词添加到待识别语料文本中，以获得经同义词添加后的、所述待识别语料文本的文本集{T₀,T₁,...T_n}。

其中，T₀为原始评论样本。

在步骤S310中，将待识别语料文本与预先设定的垃圾词汇表进行匹配，确定第一矫正辅助结果。

如果待识别语料文本包含了垃圾词汇表中的词汇，则确定第一矫正辅助结果为待识别语料文本是垃圾评论；否则，确定第一矫正辅助结果为待识别语料文本不是垃圾评论。

在步骤S312中，提取所述待识别语料文本中的数字和/或字符；根据所述数字和/或字符，确定所述待识别语料文本中是否包含身份属性信息，并根据身份属性信息确定第二矫正辅助结果。

如果所述待识别语料文本中包含所述身份属性信息，则确定第二矫正辅助结果为所述待识别语料文本是垃圾评论；否则，确定所述第二矫正辅助结果为所述待识别语料文本不是垃圾评论。

上述身份属性信息例如包括：手机号、公众号、激活码、验证码等。

在步骤S314中，根据评分与第一矫正辅助结果和第二矫正辅助结果，确定T_k的矫正辅助结果I(T_k)。

如果第一矫正辅助结果和第二矫正辅助结果的其中之一被确定为垃圾评论，则矫正辅助结果I(T_k)为垃圾评论，并标记为1，即

在步骤S316中，获得所述垃圾评论识别模型对T_k的评分M(T_k)。

在步骤S318中，根据T_k的矫正辅助结果I(T_k)与T_k的评分M(T_k)，计算T_k的分数估计值S(T_k)。

在一些实施例中，根据下述公式，计算T_k的分数估计值S(T_k)：

S(T_k)＝max[I(T_k),M(T_k)]。

由上述可知，T_k的评分M(T_k)预测分数在0～1之间，而T_k的矫正辅助结果I(T_k)则为0或者1，因此，当矫正辅助结果I(T_k)为0时，分数估计值 S(T_k)的取值取决于评分M(T_k)；而当矫正辅助结果I(T_k)为1时，分数估计值S(T_k)的取值取决于评分矫正辅助结果I(T_k)。

在步骤S320中，根据T_k的分数估计值S(T_k)，计算所述待识别语料文本的评分结果Score(T)：

在一些实施例中，根据下述公式，计算评分结果Score(T)：

Score(T)＝arg max_k∈[0,n]f[S(T_k)]。

其中，函数f[S(T_k)]为平滑处理函数。对于分数估计结果，可根据实际业务规则选择做平滑调整，此部分属于非必选部分，一般视具体业务需求确定，例如对于特定内部的网络宣传链接，平滑调整做零分处理；对于特定的外部竞争舆情，平滑调整做满分处理。

在步骤S322中，根据待识别语料文本的评分结果Score(T)，确定所述待识别评论文本的识别结果P(T)：

在一些实施例中，根据下述公式，确定识别结果P(T)：

其中，1表示垃圾评论，0表示非垃圾评论。K为预设的评分判决阈值。

一般而言，评分判决阈值K例如可以为0.5。当评分结果大于0.5时，判决为垃圾评论(即P(T)＝1)；否则，判决为正常评论(即P(T)＝0)。系统将垃圾判决结果P(T)返回给客户端，客户端根据判决结果确定用户评论是否予以发布。

特别的，评分判决阈值K可根据实际场景做调整，基于实际需求提升或降低判决门槛，如果需要提升垃圾评论的识准率，则调高该阈值；如果需要提升垃圾评论的识全率，则降低该阈值。

此外，业务部署初期也可适当调整评分判决阈值，再基于垃圾判决的错分案例进行模型的快速迭代优化，随着实际识别效果的提高而将判决门槛逐步回归到0.5左右。

本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图5是根据一示例性实施方式示出的一种垃圾评论识别模型训练装置的框图。如图5所示，装置40包括：语料加载模块402、样本提取模块404、样本处理模块406、网络训练模块408。

语料加载模块402用于加载基于多种场景的垃圾评论识别语料。

在一些实施例中，多种场景包括：金融财经类场景、专业垃圾场景。

样本提取模块404用于提取多条评论样本，多条评论样本均具有垃圾属性标签。

样本处理模块406用于根据垃圾评论识别语料，对多条评论样本分别进行处理，以获得对应的多条语料样本。

网络训练模块408用于将多条语料样本输入到文本分类网络中进行训练，以获得垃圾评论识别模型。

其中，多条语料样本中的垃圾语料样本为经过文本矫正后的垃圾语料样本，垃圾语料样本为垃圾标签标注为是垃圾评论的评论样本所对应的语料样本。

在一些实施例中，经过文本矫正后的垃圾语料样本包括：删除了垃圾语料样本中与垃圾评论无关部分内容的垃圾语料样本；和/或，包括了垃圾语料样本中各垃圾词汇的同义词的语料样本。

在一些实施例中，文本分类网络包括：FastText文本分类器。

本发明实施方式提供的垃圾评论识别模型训练装置，通过提供多场景的垃圾评论识别语料，并在将评论样本送到文本分类网络中进行训练之前，对评论样本中被标注为垃圾评论的样本进行文本矫正，可以提升垃圾评论识别准确度，实现更好的识别效果。

图6是根据一示例性实施方式示出的一种垃圾评论识别装置的框图。如图6所示，装置50包括：语料加载模块502、文本提取模块504、文本处理模块506、文本矫正模块508、评论识别模块510。

语料加载模块502用于加载基于多种场景的垃圾评论识别语料。

文本提取模块504用于提取待识别评论文本。

文本处理模块506用于根据所述垃圾评论识别语料，对所述待识别评论文本进行处理，以获得对应的待识别语料文本；

文本矫正模块508用于对所述待识别语料文本进行文本矫正。

在一些实施例中，文本矫正模块508包括：同义语映射子模块，用于根据垃圾同义类语义表，将所述待识别语料文本中的垃圾词汇的同义词添加到所述待识别语料文本中。

在一些实施例中，文本矫正模块508还包括：垃圾词汇匹配子模块和/或文本正则子模块。垃圾词汇匹配子模块用于将所述待识别语料文本与预先设定的垃圾词汇表进行匹配，确定第一矫正辅助结果。文本正则子模块用于提取所述待识别语料文本中的数字和/或字符；根据所述数字和/或字符，确定所述待识别语料文本中是否包含身份属性信息，并根据所述身份属性信息确定第二矫正辅助结果。

评论识别模块510用于根据经过训练的文本分类网络中的垃圾评论识别模型，对经过文本矫正的所述待识别语料文本进行识别，以确定所述待识别评论文本是否为垃圾评论。

在一些实施例中，评论识别模块510包括：文本集获取子模块、辅助结果确定子模块、评分确定子模块、分数估计子模块、评分结果确定子模块及识别结果确定子模块。

文本集获取子模块用于获得经同义词添加后的、所述待识别语料文本的文本集{T₀,T₁,...T_n}。

辅助结果确定子模块用于根据所述第一矫正辅助结果和/或所述第二矫正辅助结果，确定T_k的矫正辅助结果I(T_k)。

评分确定子模块用于获得所述垃圾评论识别模型对T_k的评分M(T_k)。

分数估计子模块用于根据下述公式，计算T_k的分数估计值S(T_k)：

S(T_k)＝max[I(T_k),M(T_k)]。

评分结果确定子模块用于根据下述公式，计算所述待识别语料文本的评分结果Score(T)：

Score(T)＝arg max_k∈[0,n]f[S(T_k)]，其中S(T_k)＝max[I(T_k),M(T_k)]。

函数f[S(T_k)]为平滑处理函数。

识别结果确定子模块用于根据下述公式，确定所述待识别评论文本的识别结果P(T)：

K为预设的评分判决阈值。

本发明实施方式提供的垃圾评论识别装置，通过提供多场景的垃圾评论识别语料，并在将评论样本送到文本分类网络中进行训练之前，对评论样本中被标注为垃圾评论的样本进行文本矫正，可以提升垃圾评论识别准确度，实现更好的识别效果。

需要注意的是，上述附图中所示的框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图7是根据一示例性实施方式示出的一种计算机系统的结构示意图。需要说明的是，图7示出的计算机系统仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、 ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口 805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

加载基于多种场景的垃圾评论识别语料；

提取多条评论样本，所述多条评论样本均具有垃圾属性标签；

根据所述垃圾评论识别语料，对所述多条评论样本分别进行处理，以获得对应的多条语料样本；以及

将所述多条语料样本输入到文本分类网络中进行训练，以获得所述垃圾评论识别模型；

其中，所述多条语料样本中的垃圾语料样本为经过文本矫正后的垃圾语料样本，所述垃圾语料样本为所述垃圾属性标签标注为是垃圾评论的评论样本所对应的语料样本。

或者，上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

加载基于多种场景的垃圾评论识别语料；

提取待识别评论文本；

根据所述垃圾评论识别语料，对所述待识别评论文本进行处理，以获得对应的待识别语料文本；

对所述待识别语料文本进行文本矫正；以及

根据经过训练的文本分类网络中的垃圾评论识别模型，对经过文本矫正的所述待识别语料文本进行识别，以确定所述待识别评论文本是否为垃圾评论。

以上具体地示出和描述了本发明的示例性实施方式。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种垃圾评论识别模型训练方法，其特征在于，包括：

加载基于多种场景的垃圾评论识别语料；

2.根据权利要求1所述的方法，其特征在于，所述经过文本矫正后的垃圾语料样本包括：删除了所述垃圾语料样本中与垃圾评论无关部分内容的垃圾语料样本；和/或，包括了所述垃圾语料样本中各垃圾词汇的同义词的语料样本。

3.根据权利要求1所述的方法，其特征在于，所述多种场景包括：金融财经类场景、专业垃圾场景。

4.根据权利要求1所述的方法，其特征在于，所述文本分类网络包括：FastText文本分类器。

5.一种垃圾评论识别方法，其特征在于，包括：

加载基于多种场景的垃圾评论识别语料；

提取待识别评论文本；

对所述待识别语料文本进行文本矫正；以及

6.根据权利要求5所述的方法，其特征在于，对所述待识别语料文本进行文本矫正包括：

根据垃圾同义类语义表，将所述待识别语料文本中的垃圾词汇的同义词添加到所述待识别语料文本中。

7.根据权利要求6所述的方法，其特征在于，对所述待识别语料文本进行文本矫正还包括：

将所述待识别语料文本与预先设定的垃圾词汇表进行匹配，确定第一矫正辅助结果；和/或，

提取所述待识别语料文本中的数字和/或字符；根据所述数字和/或字符，确定所述待识别语料文本中是否包含身份属性信息，并根据所述身份属性信息确定第二矫正辅助结果。

8.根据权利要求7所述的方法，其特征在于，根据经过训练的文本分类网络中的垃圾评论识别模型，对经过文本矫正的所述待识别语料文本进行识别，以确定所述待识别评论文本是否为垃圾评论包括：

获得经同义词添加后的、所述待识别语料文本的文本集{T₀,T₁,...T_n}；

根据所述第一矫正辅助结果和/或所述第二矫正辅助结果，确定T_k的矫正辅助结果I(T_k)；

获得所述垃圾评论识别模型对T_k的评分M(T_k)；

根据下述公式，计算T_k的分数估计值S(T_k)：

S(T_k)＝max[I(T_k),M(T_k)]；

根据下述公式，计算所述待识别语料文本的评分结果Score(T)：

Score(T)＝arg max_k∈[0,n]f[S(T_k)]；以及

根据下述公式，确定所述待识别评论文本的识别结果P(T)：

其中，函数f[S(T_k)]为平滑处理函数，K为预设的评分判决阈值。

9.根据权利要求5-8任一项所述的方法，其特征在于，在根据经过训练的文本分类网络中的垃圾评论识别模型，对经过文本矫正的所述待识别语料文本进行识别，以确定所述待识别评论文本是否为垃圾评论之前，还包括：根据权利要求1-4任一项所述的方法，训练所述文本分类网络，以得到所述垃圾评论识别模型。

10.一种垃圾评论识别模型训练装置，其特征在于，包括：

语料加载模块，用于加载基于多种场景的垃圾评论识别语料；

样本提取模块，用于提取多条评论样本，所述多条评论样本均具有垃圾属性标签；

样本处理模块，用于根据所述垃圾评论识别语料，对所述多条评论样本分别进行处理，以获得对应的多条语料样本；以及

网络训练模块，用于将所述多条语料样本输入到文本分类网络中进行训练，以获得所述垃圾评论识别模型；

其中，所述多条语料样本中的垃圾语料样本为经过文本矫正后的垃圾语料样本，所述垃圾语料样本为所述垃圾标签标注为是垃圾评论的评论样本所对应的语料样本。

11.一种垃圾评论识别装置，其特征在于，包括：

文本提取模块，用于提取待识别评论文本；

文本处理模块，用于根据所述垃圾评论识别语料，对所述待识别评论文本进行处理，以获得对应的待识别语料文本；

文本矫正模块，用于对所述待识别语料文本进行文本矫正；以及

评论识别模块，用于根据经过训练的文本分类网络中的垃圾评论识别模型，对经过文本矫正的所述待识别语料文本进行识别，以确定所述待识别评论文本是否为垃圾评论。

12.一种计算机设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，其特征在于，所述处理器执行所述可执行指令时实现如权利要求1-4任一项所述的方法。

13.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求1-4任一项所述的方法。

14.一种计算机设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，其特征在于，所述处理器执行所述可执行指令时实现如权利要求5-9任一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求5-9任一项所述的方法。