CN109344388B

CN109344388B - 一种垃圾评论识别方法、装置及计算机可读存储介质

Info

Publication number: CN109344388B
Application number: CN201810873081.4A
Authority: CN
Inventors: 聂自非; 李英斌
Original assignee: China Central TV Station
Current assignee: China Central TV Station
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2023-06-09
Anticipated expiration: 2038-08-02
Also published as: CN109344388A

Abstract

本发明实施例公开了一种垃圾评论识别方法、装置和计算机可读存储介质，该方法包括：获取待识别评论文本信息；将所述待识别评论文本信息转换成评论语音信息，确定所述评论语音信息与评论样本语音信息的语音相似度；根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论。通过将待识别评论文本转换为评论语音信息，并基于评论语音信息与评论样本语音信息的语音相似度来识别垃圾评论，因此，对于采用发音相同或者相似的变形词或者英文词来发布的垃圾评论仍然能够有效识别，从而可以提升垃圾评论识别的效率和准确性，可以高效地过滤语音相似的垃圾评论。

Description

一种垃圾评论识别方法、装置及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种垃圾评论识别方法、装置及计算机可读存储介质。

背景技术

随着互联网的快速发展，人们越来越多地通过网络发布各种言论信息来进行日常的交流，表达自己的观点态度。这样就为一些黑客提供了方便，在正常评论的平台上投放大量的广告、宣传或者辱骂的言语评论，使得用户无法获得有用的信息，也阻碍了用户对有用信息的挖掘。目前，现有的垃圾评论过滤方法有如下两种：

一、人工识别过滤，主要借助于一些防范垃圾评论的工具、如全自动区分计算机和人类的图灵测试(Completely Automated Public Turing Test to Tell Computers andHumans Apart，CAPTCHA)进行图形验证码方式，来过滤大量的机器垃圾邮件，但是对于人为发布的垃圾信息也是无能为力的，需要不断地进行人工维护；

二、自动识别过滤，目前对于垃圾评论的主要识别过滤方式是基于关键词的过滤技术，通过训练找到垃圾评论的显著特征，构建广告词库，然后根据评论与广告词库是否匹配的方式进行过滤。但是这种需要不断地构建和更新广告词库，对人力、物理耗费很大。而且用户的垃圾评论的内容特别是不文明用语或者广告通常不会直接使用不文明用语和广告语，而可能采用发音相似的变形词或者英文词来发布垃圾评论的内容，导致使用常规的构建词库进行垃圾评论识别的方式难以有效过滤。

发明内容

有鉴于此，本发明的主要目的在于提供一种有效识别垃圾评论的垃圾评论识别方法、装置和计算机可读存储介质。

为达到上述目的，本发明的技术方案是这样实现的：

一种垃圾评论识别方法，包括步骤：

获取待识别评论文本信息；

将所述待识别评论文本信息转换成评论语音信息，确定所述评论语音信息与评论样本语音信息的语音相似度；

根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论。

上述方案中，所述确定所述评论语音信息与评论样本语音信息的语音相似度之前，还包括：

基于评论文本样本信息分别构建垃圾评论样本集D₁＝{d1，d₂，..，d_N}和正常评论样本集D₂＝{d₁，d₂，...，d_K}；其中，d_i表示一条评论文本样本信息，d＝{w₁，w₂，...，w_V，}，w_i表示评论文本样本信息中的词，V表示每条评论文本样本信息中词的数量，N表示所述垃圾评论样本集中评论文本样本信息的数量，K表示所述正常评论样本集中评论文本样本信息的数量。

上述方案中，所述所述基于评论文本样本信息分别构建垃圾评论样本集D₁＝{d₁，d₂，...，d_N}和正常评论样本集D₂＝{d₁，d₂，...，d_K}之后，还包括：

将所述垃圾评论样本集D₁＝{d₁，d₂，...，d_N}转换成垃圾评论语音样本集

和将所述正常评论样本集D₂＝{d1，d₂，...，d_K}转换成正常评论语音样本集/>

其中，/>

表示一条评论样本语音信息；

对所述垃圾评论语音样本集

进行训练，得到垃圾评论特征规则模板集M＝{δ₁，δ₂，...，δ_Q}，其中，δ_i表示垃圾评论特征规则模板，Q为生成的垃圾评论特征规则模板的数量。

上述方案中，所述确定所述评论语音信息与评论样本语音信息的语音相似度，包括：

根据音频波形的起伏特征，将所述评论语音信息进行二进制转换得到所述评论语音信息对应的哈希值；

根据所述评论语音信息的哈希值以及特征词库向量，得到所述评论语音信息对应的带权哈希值；

根据所述评论语音信息的带权哈希值，计算所述评论语音信息与所述垃圾评论特征规则模板集M及所述评论语音信息与所述正常评论样本集D₂对应的评论样本语音样本集

之间的距离，根据所述距离确定所述评论语音信息与评论样本语音信息的语音相似度。

上述方案中，所述根据所述评论语音信息的哈希值以及特征词库向量，得到所述评论语音信息对应的带权哈希值，包括：

根据特征词库向量确定所述评论语音信息中的词分别在对应的所述垃圾评论样本集D₁或所述正常评论样本集D₂的重要度，根据所述评论语音信息的各词的哈希值与对应的重要度，得到所述评论语音信息的各词的带权哈希值；

根据所述评论语音信息的各词的带权哈希值，得到所述评论语音信息的带权哈希值。

上述方案中，根据所述评论语音信息的带权哈希值，计算所述评论语音信息与所述垃圾评论特征规则模板集M及所述评论语音信息与所述正常评论样本集D₂对应的评论样本语音样本集

之间的距离，包括：

根据所述评论语音信息的带权哈希值和所述垃圾评论特征规则模板集M中垃圾评论规则模板对应的哈希值，计算所述评论语音信息与所述垃圾评论特征规则模板集M的海明距离

其中，l_i表示所述评论语音信息与对应的垃圾评论特征规则模板之间的距离；

根据所述评论语音信息的带权哈希值和所述正常评论语音样本集D₂的正常评论语音样本对应的哈希值，计算所述评论语音信息与所述正常评论语音样本集

的海明距离/>

其中，l_1i表示所述评论语音信息与对应的正常评论语音样本之间的距离；

根据所述评论语音信息与所述垃圾评论特征规则模板集M的海明距离

和所述评论语音信息与所述正常评论语音样本集/>

的海明距离/>

分别确定所述评论语音信息与所述垃圾评论规则模板集M的距离和所述评论语音信息与所述正常评论语音样本集

的距离。

上述方案中，根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论，具体包括：

根据所述评论语音信息与所述垃圾评论特征规则模板集M的距离及所述评论语音信息与所述正常评论语音样本集

的距离，得到所述评论语音信息的评分；

当所述评论语音信息的评分在设定阈值内，则判定所述评论语音信息对应的评论文本信息为垃圾评论。

上述方案中，所述根据所述评论语音信息的哈希值以及特征词库向量，得到所述评论语音信息对应的带权哈希值之前，还包括步骤：

根据词分别在所述垃圾评论样本集D₁及所述正常评论样本集D₂中的词频和逆文档频率，确定所述词在对应的评论文本样本信息中的重要度；

根据所述词在对应的所述评论文本样本信息中的重要度、以及所述词对应的评论文本样本信息包含在所述垃圾评论样本集D₁或所述正常评论样本集D₂中，确定所述词在对应的所述垃圾评论样本集D₁或所述正常评论样本集D₂的重要度；

根据各词分别在对应的所述垃圾评论样本集D₁或所述正常评论样本集D₂的重要度，分别构建所述垃圾评论样本集D₁的特征词库向量和所述正常评论样本集D₂的特征词库向量。

一种垃圾评论识别装置，包括：

获取模块，用于获取待识别评论文本信息；

转换模块，用于将所述待识别评论文本信息转换成评论语音信息，确定所述评论语音信息与评论样本语音信息的语音相似度；

识别模块，用于根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论。

一种垃圾评论识别装置，所述装置包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，

所述处理器用于运行所述计算机程序时，执行本申请任一实施例所述垃圾评论识别方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现本申请任一实施例所述垃圾识别方法的步骤。

本发明上述实施例所提供的垃圾评论识别方法、装置和计算机可读存储介质，通过将待识别评论文本信息转换成评论语音信息，确定所述评论语音信息与评论样本语音信息的语音相似度；根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论，通过将待识别评论文本转换为语音信息，并基于语音相似度来识别垃圾评论，因此，可以基于评论文本信息转换为语音后对应的语音与垃圾评论的语音是否相同或者近似来自动扩展垃圾评论的词库范围，对于采用发音相同或者相似的变形词或者英文词来发布的垃圾评论仍然能够有效识别，从而可以提升垃圾评论识别的效率和准确性，可以高效地过滤语音相似的垃圾评论。

附图说明

图1为本发明一实施例中垃圾评论识别方法的应用场景示意图；

图2为本发明一实施例中垃圾评论识别方法的流程示意图；

图3为本发明另一实施例中垃圾评论识别方法的流程示意图；

图4为本发明又一实施例中垃圾评论识别方法的流程示意图；

图5为本发明一具体实施例中垃圾评论识别方法的流程示意图；

图6为本发明一实施例中垃圾评论识别装置的结构示意图；

图7为本发明一实施例中垃圾评论识别装置的硬件结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步地详细阐述。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

本发明实施例针对网络媒体平台上用户发布的实时变化又具有一定规律的垃圾评论信息，提出一种基于语音相似度的垃圾评论识别方法、实施垃圾评论识别方法的装置、存储用于实现垃圾评论识别方法的可执行程序的存储介质及包括用于执行实现垃圾评论识别方法的可执行程序的垃圾评论识别装置，来实现对多变的垃圾评论的识别。

如图1所示，为实现本发明实施例提供的垃圾评论识别方法的一个可选的应用场景示意图，包括终端100和服务器200，终端100接收用户输入的预发表的评论文本信息，并将该预发表的评论文本信息发送给服务器200。服务器200获取终端100发送的预发表的评论文本信息作为待识别评论文本信息进行预处理，例如分词处理、去除文字或符号等文本信息。再将预处理后的待识别评论文本信息转换成评论语音信息，确定评论语音信息与评论样本语音信息的语音相似度。最后，服务器200根据语音相似度确定评论语音信息对应的评论文本信息是否为垃圾信息。若是，则过滤所述评论语音信息对应的评论文本信息，否则，允许发布所述评论语音信息对应的评论文本信息。

请参阅图2，为本发明一实施例提供的垃圾评论识别方法的流程示意图，可应用于图1所示的服务器200中，如图2所示，所述方法包括：

步骤101：获取待识别评论文本信息。

评论文本信息是指用户在网络媒体平台上发布的评论信息，评论文本信息由文字或符号等文本信息组成。待识别评论文本信息是指需要对其进行识别以确定是否为垃圾评论的评论文本信息。可选的，服务器获取待识别评论文本信息可以是，服务器获取用户通过终端发送的待发布的评论文本信息、或者服务器获取终端以设置的规则自动生成的待发布的评论文本信息等。

步骤103：将所述待识别评论文本信息转换成评论语音信息，确定所述评论语音信息与评论样本语音信息的语音相似度。

评论样本语音信息是指已标记为垃圾评论或正常评论的语音形式的评论信息。服务器将待识别评论文本信息转换成语音形式的评论语音信息，通过对评论语音信息与评论样本语音信息的语音相似度进行计算，从而确定评论语音信息与评论样本语音信息的语音相似度。作为一可选的实施例，服务器将待识别评论文本信息转换为语音形式的评论语音信息，可以通过调用已知的文本转语音的开放平台API实现。

可选的，请结合参阅图3，服务器将所述待识别评论文本信息转换成语音形式的评论语音信息之前，还包括：步骤102，对待识别评论文本信息进行预处理，得到预处理后的待识别评论文本信息。其中，预处理主要包括：分词处理、去除预设类型词与预设类型符号。其中，分词处理是指将一个汉字序列切分成一个一个单独的词；预设类型词是指预先设置的对于识别评论文本信息是否为垃圾评论或正常评论没有帮助的特定类型的词，如助词、语气词、停用词等；预设类型符号是指预先设置的对于识别评论文本信息是否为垃圾评论或正常评论没有帮助的特定类型的符号，如制表符号、单位符号等。具体的，服务器对用户提交发布的待识别评论文本信息进行分词处理，去除预设类型词与预设类型符号，如去除停用词和单位符号等，得到预处理后的待识别评论文本信息。

步骤105：根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论。

服务器根据评论语音信息与评论样本语音信息的语音相似度，确定与评论语音信息相似度最大或者相似度符合设定范围的评论样本语音信息，根据该相似度最大或者相似度符合设定范围的评论样本语音信息是否为垃圾评论，从而判定当前评论语音信息是否为垃圾评论，也即，判定该评论语音信息所对应的待识别评论文本信息是否为垃圾评论，若是，则过滤所述垃圾评论，也即，过滤该评论语音信息所对应的待识别评论文本信息。在一个可选的实施方式中，相似度可以是评分的方式，通过评分值判断评论语音信息是否为垃圾评论，若是，则过滤当前评论语音信息。

本发明实施例所提供的垃圾评论识别方法，通过将待识别评论文本信息转换成评论语音信息，确定评论语音信息与评论样本语音信息的语音相似度，并根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论，通过将待识别评论文本转换为语音信息，并基于语音相似度来识别垃圾评论，因此，可以基于评论文本信息转换为语音后对应的语音与垃圾评论的语音是否相同或者近似来自动扩展垃圾评论的词库范围，对于采用发音相同或者相似的变形词或者英文词来发布的垃圾评论仍然能够有效识别，从而可以提升垃圾评论识别的效率和准确性，可以高效地过滤语音相似的垃圾评论。

在另一可选的实施例中，请参阅图3，图3为本发明另一可选实施例提供的垃圾评论识别方法的流程示意图，在步骤103，所述确定所述评论语音信息与评论样本语音信息的相似度之前，还包括获取评论样本语音信息的步骤；所述获取评论样本语音信息包括：

步骤201：获取评论文本样本信息；

评论文本样本信息是指已标记的评论文本样本信息，分为垃圾评论和正常评论两大类。标记是确定评论文本信息属于垃圾评论类别还是属于正常评论类别的过程。已标记是指，能够明确评论文本样本信息是属于垃圾评论类别还是属于正常评论类别。可选的，服务器获取评论文本样本信息可以是服务器接收用户输入的已标记为垃圾评论的评论文本信息和已标记为正常评论的评论文本信息、或者服务器获取终端发送的以设置规则进行自动标记并经过确认的垃圾评论的评论文本信息和正常评论的评论文本信息，其中每一条评论文本信息可以由一个或多个词组成。

步骤203：对评论文本样本信息进行预处理，并基于预处理后的评论文本样本信息构建评论样本集；

服务器对评论文本样本信息进行预处理，基于预处理后的评论文本样本信息构建评论样本集。其中，评论样本集可以包括垃圾评论样本集及正常评论样本集。服务器对评论文本样本信息进行预处理，主要包括：对评论文本样本信息进行分词处理、去除预设类型词与预设类型符号。分词处理是指将一个汉字序列切分成一个一个单独的词，本发明实施例中即将评论文本样本信息切分成一个一个单独的词。分词就是将连续的字序按照一定的规范重新组合成词序列的过程。预设类型词是指预先设置的对于识别评论文本信息是否为垃圾评论或正常评论没有帮助的特定类型的词，如助词、语气词、停用词等。预设类型符号预先设置的对于识别评论文本信息是否为垃圾评论或正常评论没有帮助的特定类型的符号，如制表符号、单位符号等。服务器对用户提交发布的待识别评论文本信息进行分词处理，去除预设类型词与预设类型符号，如去除停用词和单位符号等，得到预处理后的评论文本样本信息。

其中，对评论文本样本信息进行分词后，这些词的词性通常可分为垃圾评论倾向性词、正常评论倾向性词、预设类型词与预设类型符号。预设类型词通常又可为中性词或停用词。中性词是指，类似于人名的本身没有属于垃圾或正常倾向性分类的词；停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词。例如，词语“发票”“贷款”“信用卡”更多地出现于垃圾评论中，可判定为垃圾评论倾向性词，词语“开心”“加油”“美好”更多地出现于正常评论中，可判定为正常评论倾向性词，词语“小王”“小李”等人名，可判定为中性词，词语“的”“在”“Web”等可判定为停用词。去除如中性词和停用词的预设类型词与预设类型符号之后，即，对所述评论文本样本信息进行预处理后，评论文本样本信息中主要由垃圾评论倾向性词和正常评论倾向性词组成。

步骤205：将评论样本集中的评论文本样本信息转换成评论样本语音信息。

垃圾评论不仅仅是通过自然语言的形式出现，也可能会通过发音相同或者相似的变形词或者英文词的形式出现。因此，将评论文本样本信息转换成评论样本语音信息，以便能够与待识别评论对应的评论语音信息进行语音相似度的比较。

上述实施例中，服务器通过对评论文本样本信息进行分词处理、去除预设类型词与预设类型符号，并将评论文本样本信息转换为评论样本语音信息，以便将待识别评论文本信息对应的评论语音信息与评论样本语音信息进行相似度计算，便于通过语音相似度判断待识别评论文本信息对应的评论语音信息是否为垃圾信息，从而对于采用发音相同或者相似的变形词或者英文词来发布的垃圾评论仍然能够有效识别，提升垃圾评论识别的效率和准确性，可以高效地过滤语音相似的垃圾评论。

在另一可选的实施例中，步骤103，所述确定所述评论语音信息与评论样本语音信息的语音相似度之前，还包括：

基于评论文本样本信息分别构建垃圾评论样本集D₁＝{d₁，d₂，...，d_N}和正常评论样本集D₂＝{d₁，d₂，...，d_K}；

其中，d_i表示一条评论文本样本信息，d＝{w₁，w₂，...，w_V}，w_i表示评论文本样本信息中的词，V表示每条评论文本样本信息中词的数量，N表示所述垃圾评论样本集中评论文本样本信息的数量，K表示所述正常评论样本集中评论文本样本信息的数量。

评论文本样本信息主要由垃圾评论倾向性词和正常评论倾向性词组成，根据已标记的评论文本样本信息，将包含垃圾评论倾向性词的评论文本样本信息形成垃圾评论样本集D₁＝{d₁，d₂，...，d_N}，将包含正常评论倾向性词的评论文本样本信息形成正常评论样本集D₂＝{d₁，d₂，...，d_K}。d_i表示一条评论文本样本信息，N表示垃圾样本集中垃圾评论样本的数量，K表示正常评论样本集中正常评论的数量。每条评论文本样本信息d_i由多个词w_i组成。

本实施例中，服务器通过基于评论文本样本信息分别构建垃圾评论样本集D₁和正常评论样本集D₂，其中，垃圾评论样本集D₁可主要由垃圾评论倾向性词组成，正常评论样本集D₂可主要由正常评论倾向性词组成，也即评论样本集中的评论文本样本信息分别可主要只由垃圾评论倾向性词和正常评论倾向性词组成，如此，在进行相似度计算时，更加省时、便捷。

在另一可选的实施例中，将所述基于评论文本样本信息分别构建垃圾评论样本集D₁＝{d₁，d₂，...，d_N}和正常评论样本集D₂＝{d₁，d₂，...，d_K}之后，还包括：

和将所述正常评论样本集D₂＝{d₁，d₂，...，d_K}转换成正常评论语音样本集/>

其中，/>

表示一条评论样本语音信息。

具体的，服务器将所述垃圾评论样本集D₁＝{d₁，d₂，...，d_N}和所述正常评论样本集D₂＝{d₁，d₂，...，d_K}转换成垃圾评论语音样本集

和正常评论语音样本集/>

可以是利用第三方工具将评论样本集的文本形式转换成音频形式来实现。例如，服务器可以利用Google TTS将垃圾评论样本集D₁和正常评论样本集D₂转换成垃圾评论语音样本集/>

和正常评论语音样本集/>

TTS意为“文本到语音”，就是电子设备将文字转化为语音的过程。

对所述垃圾评论语音样本集

具体的，由于发布评论的场景的复杂多样性，评论文本信息可能并非完全由自然语言组成，尤其是垃圾评论，垃圾评论的发布者为了能够规避常规的词库匹配的规则，通常会对发布的垃圾评论按照一定的变形规则进行变形，如对发布的垃圾评论中的部分词由发音相似的变形词或者英文词来替代，因此，服务器可以通过将评论文本信息转换为语音形式的评论语音信息，将评论语音信息与垃圾评论语音样本集

进行比较以确定评论语音信息与垃圾评论语音样本集/>

的相似度，从而对于变形后的垃圾评论也可以得到有效识别，扩大垃圾评论的识别范围。进一步的，通过利用发音相同或相似的垃圾评论的变形规则对垃圾评论语音样本集/>

进行训练，以生成垃圾评论特征规则模板集M＝{δ₁，δ₂，...，δ_Q}，其中，δ_i表示垃圾评论特征规则模板，Q为生成的垃圾评论特征规则模板的数量。通过利用发音相同或相似的垃圾评论的变形规则进行训练后得到的垃圾评论特征规则模板集M，可以进一步增强服务器自动扩展垃圾评论的词库范围的能力，使得垃圾评论的识别更加准确和高效。

上述实施例中，服务器通过将评论文本样本信息转换形成评论样本语音信息，以便将待识别评论文本信息对应的评论语音信息与评论样本语音信息进行相似度计算，基于语音相似度进行比较确定待识别评论文本信息是否为垃圾评论，从而扩大了对垃圾评论的识别范围。

在另一可选的实施例中，请结合参阅图4，在步骤103中，确定所述评论语音信息与评论样本语音信息的语音相似度，包括：

步骤1031，根据音频波形的起伏特征，将所述评论语音信息进行二进制转换得到所述评论语音信息对应的哈希值。

具体的，服务器对于每一条评论语音信息

进行二进制转换，得到评论语音信息的哈希值。对评论语音信息/>

进行二进制转换可利用音频波形的起伏特征，当波形的坡度呈向上趋势时，用1表示；呈向下趋势时，用0表示，这样可以用二进制码H_d＝{h₁，h₂，...，h_V}唯一的标识一条评论语音信息/>

其中，h_i表示一位二进制码，例如，评论“中国加油”中的“中国”的哈希值可以用“101101”表示，“加油”的哈希值可以用“101001”表示。

步骤1033，根据所述评论语音信息的哈希值以及特征词库向量，得到所述评论语音信息对应的带权哈希值。

服务器根据所述评论语音信息的哈希值以及特征词库向量，得到所述评论语音信息对应的带权哈希值可以是，服务器对于评论语音信息的哈希值与特征词库向量进行加权相乘，得到评论语音信息的带权哈希值。

可选的，服务器根据所述评论语音信息的哈希值以及特征词库向量，得到所述评论语音信息对应的带权哈希值，包括：

服务器通过计算每一条评论语音信息

中各词的带权哈希值，根据所述各词的带权哈希值得到评论语音信息的带权哈希值。其中，所述评论语音信息/>

中各词的带权哈希值与每个词在对应的评论样本集的重要度有关，即与特征词库向量有关，通过将所述评论语音信息中各词的哈希值分别与对应的重要度，即在对应的特征词库向量的权值进行加权相乘，可以得到所述评论语音信息中各词的带权哈希值，即/>

F为当前词在对应的特征词库向量的权值，H_d为当前词的哈希值；如果遇到哈希值当前位上为1时，则将权值和哈希值正相乘，遇到哈希值当前位上为0时，则将哈希值和权值负相乘。例如，对于评论“中国加油”，词“中国”在正常评论样本集D₁的特征词库向量中对应的权值为0.0038，词“加油”在正常评论样本集D₁的特征词库想两种对应的权值为0.0331，词“中国加油”的特征词库向量的权值为{0.0038，0.0331}，词“中国”的哈希值为“101101”，词“加油”的哈希值为“101001”，则词“中国”的带权哈希值为

词“加油”的带权哈希值为

评论“中国加油”的带权哈希值为101001。通过对所述评论语音信息的各词的带权哈希值进行累加，得到所述评论语音信息的带权哈希值，如果大于0则置为1，否则置为0，从而变成一个|V|维的向量序列串，即为所述评论语音信息的带权哈希值。例如，“中国加油”的序列串为“0.0038+0.0331_0.0038+_0.0331 0.0038+0.0331 0.0038+_0.0331_0.0038+_0.0331 0.0038+0.0331＝0.0369_0.0369 0.0369_0.0293_0.0369 0.0369＝101001”。101101则为评论“中国加油”所对应的评论语音信息

的带权哈希值。

步骤1035，根据所述评论语音信息的带权哈希值，计算所述评论语音信息与所述垃圾评论特征规则模板集M及所述评论语音信息与所述正常评论样本集D₂对应的评论样本语音样本集之间的距离，根据所述距离确定所述评论语音信息与评论样本语音信息的语音相似度。

服务器根据评论语音信息的带权哈希值，计算评论语音信息与垃圾评论特征规则模板集M及评论语音信息的距离以及评论语音信息与正常评论样本集D₂之间的距离，确定评论语音信息与评论样本语音信息的语音相似度，包括：

的海明距离/>

其中，l_1i表示所述评论语音信息与对应的正常评论语音样本之间的距离；/>

和所述评论语音信息与所述正常评论语音样本集/>

的海明距离/>

得到所述评论语音信息与所述垃圾评论规则模板集M的距离和所述评论语音信息与所述正常评论语音样本集/>

的距离。

具体的，海明距离是指两个哈希值对应位上编码不同的位数。将评论语音信息的带权哈希值分别与垃圾评论特征规则模板集M的每一个垃圾评论特征规则模板的哈希值进行计算，得到所述评论语音信息与所述垃圾评论特征规则模板集M的海明距离

及将评论语音信息的带权哈希值分别与正常评论语音样本集的每一个正常评论样本的哈希值进行计算，得到所述评论语音信息与所述正常评论语音样本集

的海明距离/>

其中，垃圾评论特征规则模板集M的每一个垃圾评论特征规则模板的哈希值的计算方式、以及正常评论语音样本集/>

的每条正常评论语音样本的哈希值的计算方式与评论语音信息对应的带权哈希值的计算方式相同，在此不再赘述。

可以理解的，所述评论语音信息与所述垃圾评论特征规则模板集M的海明距离

包括评论语音信息分别每一条垃圾评论特征规则模板之间的哈希值计算结果，也即是由多个值组成。因此，可以利用该海明距离/>

进行平均值计算、取中间值、加权平均值等计算方式，获得所述评论语音信息与所述垃圾评论特征规则模板集M的距离。在一具体实施例中，通过对所述评论语音信息与所述垃圾评论规则模板集M的海明距离

及所述评论语音信息与所述正常评论语音样本集/>

的海明距离

分别取平均值，得到所述评论语音信息与所述垃圾评论规则模板集M的平均距离/>

和所述评论语音信息与所述正常评论语音样本集/>

的平均距离

平均距离/>

的计算公式为/>

平均距离/>

的计算公式为

上述实施例中，服务器根据音频波形的起伏特征，将所述评论语音信息进行二进制转换得到所述评论语音信息对应的哈希值，再根据所述评论语音信息的哈希值以及特征词库向量，得到所述评论语音信息对应的带权哈希值。最后根据所述评论语音信息的带权哈希值，计算所述评论语音信息与所述垃圾评论特征规则模板集M及所述评论语音信息与所述正常评论样本集D₂对应的评论样本语音样本集

之间的距离，根据所述距离确定所述评论语音信息与评论样本语音信息的语音相似度。基于评论语音信息与评论样本语音信息的语音相似度计算，可以基于语音的相同或者近似来自动扩展垃圾评论的词库范围，对于采用发音相同或者相似的变形词或者英文词来发布的垃圾评论仍然能够有效识别，从而可以提升垃圾评论识别的效率和准确性，可以高效地过滤语音相似的垃圾评论。

在一实施例中，步骤105，根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论，具体包括：

根据所述评论语音信息与所述垃圾评论特征规则模板集M的距离及所述评论语音信息与所述正常评论语音样本身

的距离，得到所述评论语音信息的评分；

当所述评论语音信息的评分在设定阈值内，则判定所述评论语音信息所对应的评论文本信息是否为垃圾评论。

服务器根据已计算出的所述评论语音信息与所述垃圾评论特征规则模板集M的平均距离

及所述评论语音信息与所述正常评论语音样本集/>

的平均距离/>

对所述评论语音信息进行评分，其中评分的计算公式可以为/>

根据所述评论确定所述评论语音信息与评论样本语音信息的语音相似度。可选地，可将评论的阈值设定为0.7；如果所述评论语音信息的评分值大于0.7，则判定当前评论语音信息为垃圾评论的概率很大，因此可以判定所述评论语音信息对应的评论文本信息为垃圾评论，并过滤所述评论语音信息对应的评论文本信息。

请再次参阅图4，在步骤1033，根据所述评论语音信息的哈希值以及特征词库向量，得到所述评论语音信息对应的带权哈希值之前，还包括：

步骤301：根据词分别在所述垃圾评论样本集D₁及所述正常评论样本集D₂中的词频和逆文档频率，确定所述词在对应的评论文本样本信息中的重要度。

具体的，词频-逆文档频率(TF-IDF)是一种用于情报检索与文本挖掘的加权技术，用以评估一个词对于一个文件或一个语料库中的一个领域文件集的重要程度。其中，词频是指，语言材料中词的使用频率；逆文档频率又称反文档频率，是文档频率的倒数。字词的重要性随着它在文件中出现的次数，即词频呈正比增加，但同时会随着它在语料库中出现的频率，即逆文档频率成反比下降。

可选的，服务器针对每一条评论文本样本信息，计算该评论文本样本信息中每个词w_i在一条评论文本样本信息中所起到的重要度tf-idf值，每个词w_i的重要度的表达公式为：

其中每个w_i词的词频的表达公式为：/>

表示词w_i在文本文档d_j中出现的次数；逆文档频率/>

其中|D|表示样本语料库中文本文档的总数，|{j：w_i∈d_j}表示所有包含词w_i的评论文本样本信息的数目，为了避免分母为零的情况出现，对逆文档频率的表达公式中的分母采用加1进行平滑处理。通过词频和逆文档频率的计算，确定所述词在对应的评论文本样本信息中的重要度。

步骤303：根据所述词在对应的所述评论文本样本信息中的重要度、以及所述词对应的评论文本样本信息包含在所述垃圾评论样本集或所述正常评论样本集中，确定所述词在对应的所述垃圾评论样本集或所述正常评论样本集的重要度。

具体的，计算得到每个词在对应的评论文本样本信息中的重要度，再根据当前词对应的评论文本样本信息是属于垃圾评论样本集还是属于正常评论样本集确定所述词在垃圾评论样本集或正常评论样本集的重要度。比如：词语“加油”在评论文本样本信息“中国加油”中的重要度为0.0331，并且评论文本样本信息“中国加油”属于正常评论样本集，因此，确定“加油”在正常评论样本集的重要度为0.0331。

步骤305：根据各词分别在对应的所述垃圾评论样本集或所述正常评论样本集的重要度，分别构建所述垃圾评论样本集的特征词库向量和所述正常评论样本集的特征词库向量。

其中，特征词库向量是指每个词在对应的评论样本集的倾向概率。如，垃圾评论倾向性词倾向于垃圾评论样本集的概率或正常评论倾向性词倾向于正常评论样本集的概率。服务器根据垃圾评论倾向性词在垃圾评论样本集的重要度构建垃圾评论样本集的特征词库向量

其中，μ_i为垃圾评论倾向性词在垃圾评论样本集的特征词库向量的重要度，V₁垃圾评论样本集的特征词向量的数量。根据正常评论倾向性词在正常评论样本集的重要程度构建正常评论样本集的特征词库向量/>

其中，μ_i为正常评论倾向性词在正常评论样本集的特征词库向量的重要度，v₂正常评论样本集的特征词向量的数量。以μ₁为词语“中国”、μ₂为词语“加油”为例，词语“中国”的重要度为0.0038，词语“加油”的重要度为0.0331，又因为“中国”“加油”为正常评论倾向性词，因此，构建正常评论样本集的特征词库向量/>

上述实施例中，服务器根据词分别在所述垃圾评论样本集D₁及所述正常评论样本集D₂中的词频和逆文档频率，确定所述词在对应的评论文本样本信息中的重要度，并根据所述词对应的评论文本样本信息是包含在所述垃圾评论样本集D₁或所述正常评论样本集D₂中，相应确定所述词在对应的所述垃圾评论样本集D₁或所述正常评论样本集D₂的重要度，再分别构建所述垃圾评论样本集D₁的特征词库向量和所述正常评论样本集D₂的特征词库向量。以便在计算语音相似度时，基于每个词的重要度进行加权计算，从而更加准确地识别垃圾评论。

请参阅图5，以获取的待识别文本信息为“中国，加油吧！”为例，对本发明实施例提供的垃圾评论识别方法进行如下说明：

S11、获取评论文本样本信息。作为一种可选的方案，该评论文本样本信息可为垃圾评论或正常评论。

S12、对评论文本样本信息进行预处理，并基于预处理后的评论文本样本信息构建评论样本集。作为一种可选方案，对于已标记的评论文本样本信息进行分词处理，然后去除特殊符号和停用词，对于没有垃圾评论倾向词的中性词(如，类似人名、语气词等本身没有属于垃圾或正常的倾向词的分类，这样的词定义为中性词)进行筛选过滤，得到垃圾评论样本集D₁＝{d₁，d₂，...，d_N}和正常评论样本集D₂＝{d₁，d₂，...，d_K}；其中，d_i表示一条评论文本样本信息，d＝{w₁，w₂，...，w_V}，w_i表示评论文本样本信息中的词，V表示每条评论文本样本信息中词的数量，N表示所述垃圾评论样本集中评论文本样本信息的数量，K表示所述正常评论样本集中评论文本样本信息的数量。

S13、将评论样本集中的评论文本样本信息转换成评论样本语音信息。作为一种可选方案，利用Google TTS工具，将垃圾评论样本集D₁和正常评论样本集D₂转换成wav格式的垃圾评论语音样本集

和正常评论样本语音样本集/>

并存储在Redies和SQL Server数据库中。再使用开源工具对垃圾评论语音样本集/>

进行训练，提取得到垃圾评论特征规则模板集M。

S14、分别构建所述垃圾评论样本集的特征词库向量和所述正常评论样本集的特征词库向量。作为一种可选方案，计算垃圾评论样本集D₁和正常评论样本集D₂中每个词w_i在一条评论文本样本信息中所起到的重要度f-idf值，每个词w_i的重要度的表达公式为：

其中每个词w_i的词频表达公式为：/>

表示词w_i在文本文档d_j中出现的次数；逆文档频率/>

S15、获取待识别评论文本信息，将待识别评论文本信息进行预处理。作为一种可选方案，服务器对用户通过终端提交发布的待识别评论文本信息进行分词处理，去除预设类型词与预设类型符号，如去除停用词和单位符号等，得到预处理后的待识别评论文本信息。例如，待识别文本信息为“中国，加油吧！”，其中，特殊符号为：“，、！”，去掉特殊符号后获取待识别文本信息为：“中国加油吧”；其中，停用词为“吧”，去掉停用词后获取待识别文本信息为：“中国加油”。因此，通过预处理后的待识别评论文本信息为“中国加油”。

S16、将预处理后的待识别评论文本信息转换成评论语音信息，确定评论语音信息与评论样本语音信息的语音相似度。

作为一种可选方案，首先，服务器对于每一条评论语音信息

进行二进制转换，得到评论语音信息的哈希值。对评论语音信息进行二进制转换可利用音频波形的起伏特征，当波形的坡度呈向上趋势时，用1表示；呈向下趋势时，用0表示，这样可以用二进制码唯一的标识一条评论语音信息H_d＝{h₁，h₂，...，h_V}，例如评论“中国加油”中的“中国”的哈希值可以用“101101”表示，“加油”的哈希值可以用“101001”表示。

其次，再根据所述评论语音信息的哈希值以及所述特征词库向量，得到所述评论语音信息对应的带权哈希值。通过将所述评论语音信息中各词的哈希值分别与对应的重要度，即在对应的特征词库向量的权值进行加权相乘，可以得到所述评论语音信息中各词的带权哈希值，即

F为当前词在对应的特征词库向量的权值，H_d为当前词的哈希值；如果遇到哈希值当前位上为1时，则将权值和哈希值正相乘，遇到哈希值当前位上为0时，则将哈希值和权值负相乘。例如，对于评论“中国加油”，词“中国”在正常评论样本集的特征词库向量中对应的权值为0.0038，词“加油”在.....如果词“中国加油”的特征词库向量的权值为{0.0038，0.0331}，词“中国”的哈希值为“101101”，词“加油”的哈希值为“101001”，则词“中国”的带权哈希值为

词“加油”的带权哈希值为

评论“中国加油”的带权哈希值为101001。通过对所述评论语音信息的各词的带权哈希值进行累加，得到所述评论语音信息的带权哈希值，如果大于0则置为1，否则置为0，从而变成一个|V|维的向量序列串即为所述评论语音信息的带权哈希值。例如，“中国加油”的序列串为“0.0038+0.0331_0.0038+_0.03310.0038+0.0331 0.0038+_0.0331_0.0038+_0.0331 0.0038+0.0331＝0.0369_0.03690.0369_0.0293_0.0369 0.0369＝101001”。101101则为评论“中国加油”所对应的评论语音信息的带权哈希值。

最后，根据所述评论语音信息的带权哈希值，计算所述评论语音信息与所述垃圾评论特征规则模板集M及所述评论语音信息与所述正常评论样本集D₂对应的评论样本语音样本集

之间的距离，具体包括：根据所述评论语音信息的带权哈希值和所述垃圾评论特征规则模板集M中垃圾评论规则模板对应的哈希值，计算所述评论语音信息与所述垃圾评论特征规则模板集M的海明距离/>

根据所述评论语音信息的带权哈希值和所述正常评论语音样本集的正常评论语音样本对应的哈希值，计算所述评论语音信息与所述正常评论语音样本集/>

的海明距离/>

根据所述评论语音信息与所述垃圾评论特征规则模板集M的海明距离/>

和所述评论语音信息与所述正常评论语音样本集/>

的海明距离/>

的距离。例如，通过对海明距离

及海明距离/>

和所述评论语音信息与所述正常评论语音样本集/>

的平均距离/>

平均距离/>

的计算公式为

平均距离/>

S17、根据语音相似度确定评论语音信息对应的评论文本信息是否为垃圾评论。作为一种可选方案，服务器根据已计算出的所述评论语音信息与所述垃圾评论特征规则模板集M的平均距离

交所述评论语音信息与所述正常评论语音样本集/>

的平均距离

对所述评论语音信息计算评分：/>

根据所述评分确定所述评论语音信息与评论样本语音信息的语音相似度。/>

本发明实施例所提供的垃圾评论识别方法，通过将待识别评论文本转换为语音信息，并基于语音相似度来识别垃圾评论，因此，可以基于语音的相同或者近似来自动扩展垃圾评论的词库范围，对于采用发音相同或者相似的变形词或者英文词来发布的垃圾评论仍然能够有效识别，从而可以提升垃圾评论识别的效率和准确性，可以高效地过滤语音相似的垃圾评论。

请参阅图6，图6是本发明一实施例提供的垃圾评论识别装置的结构示意图，该垃圾评论识别装置包括：获取模块401，用于获取待识别评论文本信息；语音转换模块403，用于所述待识别评论文本信息转换成评论语音信息，确定所述评论语音信息与评论文本样本信息的语音相似度；识别模块405，用于根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论。

本发明实施例所提供的垃圾评论识别装置，通过将待识别评论文本转换为语音信息，并基于语音相似度来识别垃圾评论，因此，可以基于语音的相同或者近似来自动扩展垃圾评论的词库范围，对于采用发音相同或者相似的变形词或者英文词来发布的垃圾评论仍然能够有效识别，从而可以提升垃圾评论识别的效率和准确性，可以高效地过滤语音相似的垃圾评论。在另一可选的实施例中，该垃圾评论识别装置还包括：

样本获取模块，用于获取评论文本样本信息；

样本预处理模块，用于对评论文本样本信息进行预处理，并基于预处理后的评论文本样本信息构建评论样本集；

所述语音转换模块403，还用于将评论样本集中的评论文本样本信息转换成评论样本语音信息。

在另一个可选实施例中，该垃圾评论识别装置还包括：构建单元，用于基于评论文本样本信息分别构建垃圾评论样本集D₁＝{d₁，d₂，...，d_N}和正常评论样本集D₂＝{d₁，d₂，...，d_K}；

其中，d_i表示一条评论文本样本信息，d＝{w₁，w₂，...，w_V}，w_i表示评论文本样本信息中的词，V为每条评论文本样本信息中词的数量，N表示所述垃圾评论样本集中评论文本样本信息的数量，K表示所述正常评论样本集中评论文本样本信息的数量。

上述实施例中，服务器通过基于评论文本样本信息分别构建垃圾评论样本集D₁和正常评论样本集D₂，其中，垃圾评论样本集D₁可主要由垃圾评论倾向性词组成，正常评论样本集D₂可主要由正常评论倾向性词组成，也即评论样本集中的评论文本样本信息可主要只由垃圾评论倾向性词和正常评论倾向性词组成，如此，在进行相似度计算时，更加省时、便捷。

在另一可选实施例中，该垃圾评论识别装置还包括特征训练模块：

所述语音转换模块403，还用于将所述垃圾评论样本集D₁＝{d₁，d₂，...，d_N}转换成垃圾评论语音样本集

和将所述正常评论样本集D₂＝{d₁，d₂，...，d_K}降换成正常评论语音样本集/>

其中，/>

表示一条评论样本语音信息；

所述特征训练模块，用于对所述垃圾评论语音样本集

进行训练，得到垃圾评论特征规则模板集M＝{δ₁，δ₂，...，δ_Q}，其中，δ_i表示垃圾评论特征规则模板，Q为生成的垃圾评论特征规则模板的数量。在一实施例中，所述语音转换模块403包括：哈希值计算单元：用于根据音频波形的起伏特征，将所述评论语音信息进行二进制转换得到所述评论语音信息对应的哈希值；带权哈希值计算单元：用于根据所述评论语音信息的哈希值以及特征词库向量，得到所述评论语音信息对应的带权哈希值；距离计算单元：用于根据所述评论语音信息的带权哈希值，计算所述评论语音信息与所述垃圾评论特征规则模板集M及所述评论语音信息与所述正常评论样本集D₂对应的评论样本语音样本集/>

上述实施例中，服务器根据词分别在所述垃圾评论样本集D₁及所述正常评论样本集D₂中的词频和逆文档频率，确定所述词在对应的评论文本样本信息中的重要度，并根据所述词对应的评论文本样本信息包含在所述垃圾评论样本集或所述正常评论样本集中，确定所述词在对应的所述垃圾评论样本集D₁或所述正常评论样本集D₂的重要度，再分别构建所述垃圾评论样本集D₁的特征词库向量和所述正常评论样本集D₂的特征词库向量。以便在计算语音相似度时，基于每个词的重要度进行加权计算，从而更加准确地识别垃圾评论。

在一实施例中，所述带权哈希值计算单元，具体用于：根据特征词库向量确定所述评论语音信息中的词分别在对应的所述垃圾评论样本集D₁或所述正常评论样本集D₂的重要度，根据所述评论语音信息的各词的哈希值与对应的重要度，得到所述评论语音信息的各词的带权哈希值；

在一实施例中，所述距离计算单元，具体用于：根据所述评论语音信息的带权哈希值和所述垃圾评论特征规则模板集M中垃圾评论规则模板对应的哈希值，计算所述评论语音信息与所述垃圾评论特征规则模板集M的海明距离

的海明距离/>

和所述评论语音信息与所述正常评论语音样本集/>

的海明距离/>

的距离。

在一实施例中，所述识别模块405包括：评分单元，用于根据所述评论语音信息与所述垃圾评论特征规则模板集M的距离及所述评论语音信息与所述正常评论语音样本集

的距离得到所述评论语音信息的评分；判定单元，用于当所述评论语音信息的评分在设定阈值内，则判定所述评论语音信息对应的评论文本信息为垃圾评论。

在一实施例中，该垃圾评论识别装置还包括：

重要度计算模块，用于根据词分别在所述垃圾评论样本集D₁及所述正常评论样本集D₂中的词频和逆文档频率，确定所述词在对应的评论文本样本信息中的重要度；

重要度确定模块，用于根据所述词在对应的所述评论文本样本信息中的重要度、以及所述词对应的评论文本样本信息包含在所述垃圾评论样本集D₁或所述正常评论样本集D₂中，确定所述词在对应的所述垃圾评论样本集D₁或所述正常评论样本集D₂的重要度；

特征词库模块，用于根据各词分别在对应的所述垃圾评论样本集D₁或所述正常评论样本集D₂的重要度，分别构建所述垃圾评论样本集D₁的特征词库向量和所述正常评论样本集D₂的特征词库向量。

本发明实施例所提供的垃圾评论识别装置中，语音转换模块通过将待识别评论文本信息转换成评论语音信息，识别模块确定所述评论语音信息与评论样本语音信息的语音相似度，根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论，通过将待识别评论文本转换为语音信息，并基于语音相似度来识别垃圾评论，因此，可以基于评论文本信息转换为语音后对应的语音与垃圾评论的语音是否相同或者近似来自动扩展垃圾评论的词库范围，对于采用发音相同或者相似的变形词或者英文词来发布的垃圾评论仍然能够有效识别，从而可以提升垃圾评论识别的效率和准确性，可以高效地过滤语音相似的垃圾评论。

需要说明的是：上述实施例提供的垃圾评论识别装置在进行垃圾评论识别时，仅以上述个程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的垃圾评论识别装置与垃圾评论识别方法属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例还提供了一种垃圾评论识别装置，如图7所示，该装置包括至少一个处理器510及用于存储能够在处理器上运行的计算机程序的存储器511，其中，图7中示意的处理器510并非用于指代处理器510的个数为一个，而是仅用于指代处理器510相对其他器件的位置关系，在实际应用中，处理器510的个数为一个或多个；同样，图7中示意的存储器511也是同样的含义，即仅用于指代存储器511相对其他器件的位置关系，在实际应用中，存储器511的个数可以为一个或多个。

其中，所述处理器510用于运行所述计算机程序时，执行如下步骤：

获取待识别评论文本信息。

将所述待识别评论文本信息转换成评论语音信息，确定所述评论语音信息与评论样本语音信息的语音相似度。

在另一可选的实施例中，所述处理器510用于运行所述计算机程序时，执行如下步骤：

获取评论文本样本信息；

对评论文本样本信息进行预处理，并基于预处理后的评论文本样本信息构建评论样本集；

将评论样本集中的评论文本样本信息转换成评论样本语音信息。

在另一可选实施例中，所述处理器510还用于运行所述计算机程序时，所述确定所述评论语音信息与评论样本语音信息的语音相似度之前，执行如下步骤：

基于评论文本样本信息分别构建垃圾评论样本集D₁＝{d₁，d₂，..，d_N}和正常评论样本集D₂＝{d₁，d₂，..，d_K}；其中，d_i表示一条评论文本样本信息，d＝{w₁，w₂，...，w_V}，w_i表示评论文本样本信息中的词，V表示每条评论文本样本信息中词的数量，N表示所述垃圾评论样本集中评论文本样本信息的数量，K表示所述正常评论样本集中评论文本样本信息的数量。

在另一可选实施例中，所述处理器510还用于运行所述计算机程序时，所述基于评论文本样本信息分别构建垃圾评论样本集D₁＝{d₁，d₂，...，d_N}和正常评论样本集D₂＝{d₁，d₂，...，d_K}之后，执行如下步骤：

其中，/>

表示一条评论样本语音信息；

对所述垃圾评论语音样本集

在另一可选实施例中，所述处理器510还用于运行所述计算机程序时，执行如下步骤：

所述确定所述评论语音信息与评论样本语音信息的语音相似度，包括：

根据所述评论语音信息的带权哈希值，计算所述评论语音信息与所述垃圾评论特征规则模板集M及所述评论语音信息与所述正常评论样本集D₂对应的评论样本语音样本集进

所述根据所述评论语音信息的哈希值以及特征词库向量，得到所述评论语音信息对应的带权哈希值，包括：

之间的距离，包括：

的海明距离/>

和所述评论语音信息与所述正常评论语音样本集/>

的海明距离/>

的距离。

根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论，具体包括：

的距离，得到所述评论语音信息的评分；

在另一可选实施例中，所述处理器510还用于运行所述计算机程序时，所述根据所述评论语音信息的哈希值以及特征词库向量，得到所述评论语音信息对应的带权哈希值之前，执行如下步骤：

可选的，该垃圾评论识别装置还包括：至少一个网络接口512。该装置中的各个组件通过总线系统513耦合在一起。可理解，总线系统513用于实现这些组件之间的连接通信。总线系统513除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统513。

其中，存储器511可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器511旨在包括但不限于这些和任意其它适合类型的存储器。

本实施例还提供了一种计算机可读存储介质，例如包括存储有计算机程序的存储器511，上述计算机程序可由垃圾评论识别装置中的处理器510执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程被处理器运行时，执行如下步骤：

获取待识别评论文本信息。

在另一可选的实施例中，所述计算机程序被处理器运行时，所述确定所述评论语音信息与评论样本语音信息的语音相似度之前，执行如下步骤：

基于评论文本样本信息分别构建垃圾评论样本集D₁＝{d₁，d₂，...，d_N}和正常评论样本集D₂＝{d₁，d₂，...，d_K}；其中，d_i表示一条评论文本样本信息，d＝{w₁，w₂，...，w_V}，w_i表示评论文本样本信息中的词，V表示每条评论文本样本信息中词的数量，N表示所述垃圾评论样本集中评论文本样本信息的数量，K表示所述正常评论样本集中评论文本样本信息的数量。

在另一可选实施例中，所述计算机程序被处理器运行时，所述基于评论文本样本信息分别构建垃圾评论样本集D₁＝{d₁，d₂，...，d_N}和正常评论样本集D₂＝{d₁，d₂，...，d_K}之后，执行如下步骤：

其中，/>

表示一条评论样本语音信息；

对所述垃圾评论语音样本集

在一实施例中，所述计算机程序被处理器运行时，执行如下步骤：

根据特征词库向量确定所述评论语音信息中的词分别在对应的所述垃圾评论样本集或所述正常评论样本集的重要度，根据所述评论语音信息的各词的哈希值与对应的重要度，得到所述评论语音信息的各词的带权哈希值；

根据所述评论语音信息的带权哈希值，计算所述评论语音信息与所述垃圾评论特征规则模板M及所述评论语音信息与所述正常评论样本集D₂对应的评论样本语音样本集

之间的距集离，包括：

根据所述评论语音信息的带权哈希值和所述正常评论语音样本集的正常评论语音样本对应的哈希值，计算所述评论语音信息与所述正常评论语音样本集

的海明距离

根据所述评论语音信息与所述垃圾评论特征规则模板集M的海明距离离

和所述评论语音信息与所述正常评论语音样本集/>

的海明距集/>

的距离。

的距离得到所述评论语音信息的评分；

当所述评论语音信息的评分在设定阈值内，则判定所述语音评论信息对应的评论文本信息为垃圾评论。

所述根据所述评论语音信息的哈希值以及特征词库向量，得到所述评论语音信息对应的带权哈希值之前，还包括：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种垃圾评论识别方法，其特征在于，包括：

获取待识别评论文本信息；

根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论；

其中，所述确定所述评论语音信息与评论样本语音信息的语音相似度之前，还包括：

基于评论文本样本信息分别构建垃圾评论样本集D₁＝{d₁，d₂，...，d_N}和正常评论样本集D₂＝{d₁，d₂，...，d_K}；其中，d_i表示一条评论文本样本信息，d＝{w₁，w₂，...，w_V}，w_i表示评论文本样本信息中的词，V表示每条评论文本样本信息中词的数量，N表示所述垃圾评论样本集中评论文本样本信息的数量，K表示所述正常评论样本集中评论文本样本信息的数量；