CN110826323A

CN110826323A - 评论信息有效性检测方法及装置

Info

Publication number: CN110826323A
Application number: CN201911019040.XA
Authority: CN
Inventors: 孙尚勇
Original assignee: New H3C Security Technologies Co Ltd
Current assignee: New H3C Security Technologies Co Ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-02-21
Anticipated expiration: 2039-10-24
Also published as: CN110826323B

Abstract

本申请提供一种评论信息有效性检测方法及装置。其中，评论信息有效性检测方法包括：获取待检测的评论信息，以及获取所述评论信息对应的主题信息；对所述主题信息和所述评论信息分别进行分词处理，得到主题分词集合和评论分词集合；将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量，得到主题词向量集合和评论词向量集合；根据所述主题词向量集合和所述评论词向量集合，计算所述评论信息和所述主题信息之间的相关度；根据所述相关度与预设相关度阈值的比较结果，确定所述评论信息是否有效。本申请可以实现对评论信息有效性的自动化检测，同时具有较高的普适性和准确性。

Description

评论信息有效性检测方法及装置

技术领域

本申请涉及数据处理技术领域，具体涉及一种评论信息有效性检测方法及装置。

背景技术

随着互联网技术的发展，依托于互联网的各项业务得到迅速发展，例如电子商务、电子社区、互联网旅游、应用市场等，伴随这些业务的发展，刷评论行为日益严重。

用户的评论在电子商务等业务中起到至关重要的作用，在网络购物中用户将商品评论作为衡量商品质量的参考资源，因此，出于利益需求，部分商家会刷评论，即雇佣写手为自家商品撰写好评或为竞争对手撰写差评，上述现象对电子商务等业务的生态发展造成了严重的影响，需要对刷出来的无效评论进行检测。

对于海量的商品和业务，其评论量是巨大的，采用人工方式对评论信息进行一一检测并不切实际，因此，需要提供一种自动化的、可准确对评论信息的有效性进行检测的解决方案。

发明内容

本申请的目的是提供一种评论信息有效性检测方法及装置、一种电子设备以及一种计算机可读介质。

本申请第一方面提供一种评论信息有效性检测方法，包括：

获取待检测的评论信息，以及获取所述评论信息对应的主题信息；

对所述主题信息和所述评论信息分别进行分词处理，得到主题分词集合和评论分词集合；

将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量，得到主题词向量集合和评论词向量集合；

根据所述主题词向量集合和所述评论词向量集合，计算所述评论信息和所述主题信息之间的相关度；

根据所述相关度与预设相关度阈值的比较结果，确定所述评论信息是否有效。

本申请第二方面提供一种评论信息有效性检测装置，包括：

主题信息获取模块，用于获取待检测的评论信息，以及获取所述评论信息对应的主题信息；

第一分词处理模块，用于对所述主题信息和所述评论信息分别进行分词处理，得到主题分词集合和评论分词集合；

第一词向量转换模块，用于将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量，得到主题词向量集合和评论词向量集合；

第一相关度计算模块，用于根据所述主题词向量集合和所述评论词向量集合，计算所述评论信息和所述主题信息之间的相关度；

评论有效性判断模块，用于根据所述相关度与预设相关度阈值的比较结果，确定所述评论信息是否有效。

本申请第三方面提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行以实现本申请第一方面所述的方法。

本申请第四方面提供一种计算机可读介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现本申请第一方面所述的方法。

相较于现有技术，本申请实施方式，在对评论信息进行自动化检测时，还获取该评论信息对应的主题信息，然后将所述评论信息和所述主题信息一并进行分词处理、词向量转换等处理后，利用转换后的词向量计算所述评论信息和所述主题信息之间的相关度，最后根据所述相关度与预设相关度阈值的比较结果，确定所述评论信息是否有效，从而可以利用计算机等计算设备对评论信息的有效性进行自动化检测，同时，由于在对评论信息有效性进行检测时，考虑了与主题信息的相关性，因此，可以根据不同的主题信息有针对性地确定评论信息的有效性，具有较高的普适性和准确性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请的一些实施方式所提供的一种评论信息有效性检测方法的流程图；

图2示出了本申请的一些实施方式所提供的一种评论信息有效性检测装置的示意图；

图3示出了本申请的一些实施方式所提供的一种电子设备的示意图；

图4示出了本申请的一些实施方式所提供的一种计算机可读介质的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种评论信息有效性检测方法及装置、一种电子设备以及一种计算机可读介质，下面结合附图进行说明。

请参考图1，其示出了本申请的一些实施方式所提供的一种评论信息有效性检测方法的流程图，如图所示，所述评论信息有效性检测方法，可以包括以下步骤：

步骤S101：获取待检测的评论信息，以及获取所述评论信息对应的主题信息。

其中，所述主题信息可以是所述评论信息所评论的对象的信息，上述评论的对象可以是电商平台的商品，也可以是网络论坛的帖子，还可以是新闻咨询等，相应的，所述主题信息可以包括上述对象的标题、关键词、简要说明或属性参数等信息元素。例如，所述主题信息可以包括商品名称、帖子主题名称、新闻名称等；又如，评论对象往往存在若干个关键词，以便于用户检索，例如一个商品的关键词可以包括“得力、中性笔、0.5mm、办公、签字、水笔、子弹头、笔芯、黑色、学生用”等，则上述主题信息也可以包括上述关键词。

为了便于理解和实施，在本申请实施例的一些变更实施方式中，所述主题信息可以是评论对象的上述标题、关键词、简要说明或属性参数等多种信息元素的集合，以便于在后续步骤中将上述信息元素的集合整体上作为一条主题信息进行处理，即一个对象对应一条主题信息。

步骤S102：对所述主题信息和所述评论信息分别进行分词处理，得到主题分词集合和评论分词集合。

本步骤，可以采用现有技术提供的任意分词算法对所述主题信息和所述评论信息进行分词处理，本申请实施例不做限定。

步骤S103：将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量，得到主题词向量集合和评论词向量集合。

本步骤，可以采用现有技术提供的任意词语转向量算法或数学模型、或者任意词语转向量软件工具实现，本申请实施例不做限定。

例如，在一些实施方式中，可以采用词语转向量模型实现，所述将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量，可以包括：

利用预先训练好的词语转向量模型，将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量。

其中，通过对词语转向量模型进行训练，可以利用训练好的词语转向量模型获得每个分词对应的较优或最优的词向量，利用该词向量，可以提高对评论信息有效性检测的检测准确度。

利用词语转向量模型，可以将一个单词表示为一个向量，而存在相似相关关系的向量距离比较接近，反之则较远，本申请实施方式的目的之一就是训练一个这样的词语转向量模型，可以度量主题信息和评论信息之间的词向量相关性，最终以相关性评估评论是否为有效评论。

在一些实施方式中，上述词语转向量模型可以采用Word2Vec(词向量模型)实现，Word2Vec是将词表征为实数值向量的一种高效的算法模型，其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似。

Word2Vec输出的词向量可以被用来做聚类、找同义词、词性分析等等相关工作，如果换个思路，把词当做特征，那么Word2Vec就可以把特征映射到K维向量空间，可以为文本数据寻求更加深层次的特征表示。

Word2Vec使用的词向量是Distributed Representation(分布式表示)的词向量表示方式(一种由Hinton在1986年提出的低维实数向量表示方式)。其基本思想是通过训练将每个词映射成K维实数向量(K一般为模型中的超参数)，通过词之间的距离(比如余弦相似度、欧氏距离等)来判断它们之间的语义相似度。其采用一个三层的神经网络，输入层-隐层-输出层。其核心的技术是根据词频用Huffman(霍夫曼)编码，使得所有词频相似的词隐藏层激活的内容基本一致，出现频率越高的词语，激活的隐藏层数目越少，这样有效的降低了计算的复杂度，这使得Word2Vec具有高效性，一个优化的单机版本一天可训练上千亿词。

上述三层神经网络本身是对语言模型进行建模，但也同时获得一种单词在向量空间上的表示，而后者是本申请实施方式利用Word2Vec的主要目的。

Word2Vec实际上包括两种不同的方法：Continuous Bag of Words(CBOW)和Skip-gram。CBOW的目标是根据上下文来预测当前词语的概率。Skip-gram刚好相反：根据当前词语来预测上下文的概率。这两种方法都利用人工神经网络作为它们的分类算法。例如，起初，每个词语都是一个随机N维向量。经过训练之后，Word2Vec可以利用CBOW或者Skip-gram的方法获得了每个单词的最优向量，以上为已有算法，本申请实施方式在此不再赘述。

步骤S104：根据所述主题词向量集合和所述评论词向量集合，计算所述评论信息和所述主题信息之间的相关度。

如前所述，向量之间的相似度或者距离，能够反映向量对应的词语之间的相关性，进而能够反映所述评论信息和所述主题信息之间的相关度。因此，本申请实施例，可以基于上述理论，根据所述主题词向量集合和所述评论词向量集合，计算所述评论信息和所述主题信息之间的相关度，其具体实施方式有多种，本申请实施例仅作以下示例性说明，其并不表示对本申请实施方式的限制。

例如，在一些实施方式中，所述根据所述主题词向量集合和所述评论词向量集合，计算所述评论信息和所述主题信息之间的相关度，可以包括：

将所述主题词向量集合中的每个主题词向量与所述评论词向量集合中的每个评论词向量两两进行组合；

计算每个组合中所述主题词向量与所述评论词向量之间的相似度；

根据所有组合对应的所述相似度，计算所述评论信息和所述主题信息之间的相关度。

其中，所述相似度可以根据余弦相似度、欧氏距离等确定，本申请实施例不做限定。

通过上述实施方式，对应于每个组合都有一个相似度，本申请实施例即可根据上述相似度计算所述评论信息和所述主题信息之间的相关度，其计算方式有多种，例如，可以将上述相似度的平均值确定为相关度，也可以将上述相似度的中位数等确定为相关度，本申请实施例不做限定。

例如，在上述实施方式的基础上，在一些变更实施方式中，所述根据所有组合对应的所述相似度，计算所述评论信息和所述主题信息之间的相关度，可以包括：

将每个组合对应的所述相似度求和后除以所述评论词向量集合中所述评论词向量的数量，得到所述评论信息和所述主题信息之间的相关度。

通过本实施方式计算的所述相关度，可以更加准确地反映所述评论信息和所述主题信息之间的相关性，有助于提高后续对所述评论信息进行有效性检验的准确性。

在一些实施方式中，可以采用笛卡尔积算法将所述主题词向量集合中的每个主题词向量与所述评论词向量集合中的每个评论词向量两两进行组合，笛卡尔积的含义为：假设集合A＝{a,b}，集合B＝{0,1,2}，则两个集合的笛卡尔积为{(a,0),(a,1),(a,2),(b,0),(b,1),(b,2)}，例如，如果A表示某学校学生的集合，B表示该学校所有课程的集合，则A与B的笛卡尔积表示所有可能的选课情况。因此，可以通过笛卡尔积将所述主题词向量集合中的每个主题词向量与所述评论词向量集合中的每个评论词向量两两进行组合，本实施方式可以带来组合计算效率高、准确度高的优点。

步骤S105：根据所述相关度与预设相关度阈值的比较结果，确定所述评论信息是否有效。

例如，在一些实施方式中，所述根据所述相关度与预设相关度阈值的比较结果，确定所述评论信息是否有效，可以包括：

判断所述相关度是否小于预设相关度阈值；

若是，则判断所述评论信息无效；

若否，则判断所述评论信息有效。

需要说明的是，以上仅为本申请实施方式的示例性说明，不表示对本申请保护范围的限制，例如，在一些变更实施方式中，对于所述相关度等于预设相关度阈值的情形，可以根据实际需求判断该评论信息有效或无效，本申请实施例不做限定；又如，在另一些变更实施方式中，还可以引入其他判断条件与上述相关度的比较结果相结合来确定所述评论信息是否有效，例如，所述评论信息的字数等，都可以用来辅助判断所述评论信息是否有效，本领域技术人员可以基于上述示例性说明灵活变更实施，其均应在本申请的保护范围之内。

以上，为本申请实施例提供的一种评论信息有效性检测方法的示例性说明，本申请上述实施例提供的评论信息有效性检测方法，在对评论信息进行自动化检测时，还获取该评论信息对应的主题信息，然后将所述评论信息和所述主题信息一并进行分词处理、词向量转换等处理后，利用转换后的词向量计算所述评论信息和所述主题信息之间的相关度，最后根据所述相关度与预设相关度阈值的比较结果，确定所述评论信息是否有效，从而可以利用计算机等计算设备对评论信息的有效性进行自动化检测，同时，由于在对评论信息有效性进行检测时，考虑了与主题信息的相关性，因此，可以根据不同的主题信息有针对性地确定评论信息的有效性，具有较高的普适性和准确性。

在本申请实施例的一些变更实施方式中，所述将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量之前，还可以包括：

采用词性标注算法，确定所述主题分词集合和所述评论分词集合中各分词的词性；

根据确定的所述词性，筛除所述主题分词集合和所述评论分词集合中词性为虚词的分词，得到筛除虚词后的主题分词集合和评论分词集合；

所述将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量，可以包括：

根据筛除虚词后的所述主题分词集合和所述评论分词集合，将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量。

其中，上述词性标注算法为现有算法，此处不再赘述，利用词性标注算法，可以实现对词语词性的分类，例如可以分为实词和虚词，其中，实词是指表示实在意义的词，包括名词、动词、形容词、数词、量词、代词。而虚词是指不表示实在意义而表示语法意义的词，包括副词、介词、连词、助词、叹词、拟声词。通过对分词进行词性标注后，可以去除虚词后将剩下的所有分词留用，作为主题信息、评论信息的描述词。

通过本实施方式，可以将所述主题分词集合和所述评论分词集合中的虚词去除，从而有助于提高后续对评论信息进行有效性检验的准确性。

在本申请实施例的一些变更实施方式中，所述利用预先训练好的词语转向量模型，将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量之前，还可以包括：

获取多条样本主题信息，以及获取每条所述样本主题信息对应的多条有效评论信息；

对每条所述样本主题信息和每条所述有效评论信息分别进行分词处理，得到与所述样本主题信息一一对应的样本主题分词集合、和与所述有效评论信息一一对应的有效评论分词集合；

针对每个所述有效评论分词集合，将所述有效评论分词集合和与该有效评论分词集合对应的样本主题分词集合进行组合，生成训练样本数据；

利用所述训练样本数据对词语转向量模型进行训练，得到训练好的词语转向量模型。

其中，上述有效评论信息是指与样本主题信息相关的、有实际意义的评论信息。

为了提高评论信息有效性检测的准确度，在一些实施方式中，上述有效评论信息和样本主题信息的比例应当在100:1以上。

需要说明的是，在生成训练样本数据时，只需要将有效评论分词集合和与该有效评论分词集合对应的样本主题分词集合进行组合即可，其组合方式可以是将有效评论分词集合与样本主题分词集合进行合并，并将合并得到的分词集合确定为训练样本数据。例如，取10080个评论对象，相应的，有10080条样本主题信息(每条样本主题信息可以是该评论对象的多种信息元素的集合)，则在进行分词处理后，对应有10080个样本主题分词集合；此外，每条样本主题信息对应有500条有效评论信息，在分词处理后，每条有效评论信息对应生成一个有效评论分词集合，所以，每个样本主题分词集合对应有500个有效评论分词集合。将每个有效评论分词集合和与其对应的样本主题分词集合进行合并，例如，将样本主题分词集合A和与其对应的500个有效评论分词集合分别进行合并，将样本主题分词集合B和与其对应的500个有效评论分词集合分别进行合并，……，诸如此类，则生成的组合(即合并得到的分词集合)的数量为为10080*500＝5040000个，即生成5040000条训练样本数据。

在上述实施方式的基础上，在一些变更实施方式中，所述将针对每个所述有效评论分词集合，将所述有效评论分词集合和与该有效评论分词集合对应的样本主题分词集合进行组合，生成训练样本数据之前，还可以包括：

采用词性标注算法，确定所述样本主题分词集合和所述有效评论分词集合中各分词的词性；

根据确定的所述词性，筛除所述样本主题分词集合和所述有效评论分词集合中词性为虚词的分词，得到筛除虚词后的样本主题分词集合和有效评论分词集合；

所述针对每个所述有效评论分词集合，将所述有效评论分词集合和与该有效评论分词集合对应的样本主题分词集合进行组合，生成训练样本数据，可以包括：

根据筛除虚词后的样本主题分词集合和有效评论分词集合，针对每个所述有效评论分词集合，将所述有效评论分词集合和与该有效评论分词集合对应的样本主题分词集合进行组合，生成训练样本数据。

在另一些变更实施方式中，所述利用所述训练样本数据对词语转向量模型进行训练之后，还可以包括：

获取训练过程中产生的、与每条所述训练样本数据对应的样本主题词向量集合和有效评论词向量集合；

根据所述样本主题词向量集合和有效评论词向量集合，计算每条所述样本主题信息和与所述样本主题信息对应的每条有效评论信息之间的相关度；

根据计算得到的每条所述样本主题信息和与所述样本主题信息对应的每条有效评论信息之间的相关度，确定相关度阈值。

本实施方式，可以根据样本主题信息及其对应的有效评论信息确定相关度阈值，因此，利用上述相关度阈值，可以准确根据待检测评论信息及其对应主题信息的相关度，确定待检测的评论信息的有效性。

在上述实施方式的基础上，在一些变更实施方式中，所述根据计算得到的每条所述样本主题信息和与所述样本主题信息对应的每条有效评论信息之间的相关度，确定相关度阈值，可以包括：

将计算得到的每条所述样本主题信息和与所述样本主题信息对应的每条有效评论信息之间的相关度中的最小值，确定为相关度阈值。

在另一些变更实施方式中，所述根据所述样本主题词向量集合和有效评论词向量集合，计算每条所述样本主题信息和与所述样本主题信息对应的每条有效评论信息之间的相关度，可以包括：

针对每条所述训练样本数据对应的样本主题词向量集合和有效评论词向量集合，将所述样本主题词向量集合中的每个样本主题词向量与所述有效评论词向量集合中的每个有效评论词向量两两进行组合；

计算每个组合中所述样本主题词向量与所述有效评论词向量之间的相似度；

根据所有组合对应的所述相似度，计算所述训练样本数据对应的所述样本主题信息和所述有效评论信息之间的相关度。

在上述实施方式的基础上，在一些变更实施方式中，所述根据所有组合对应的所述相似度，计算所述训练样本数据对应的所述样本主题信息和所述有效评论信息之间的相关度，可以包括：

将每个组合对应的所述相似度求和后除以所述有效评论词向量集合中所述有效评论词向量的数量，得到所述训练样本数据对应的所述样本主题信息和所述有效评论信息之间的相关度。

在上述的实施例中，提供了一种评论信息有效性检测方法，与之相对应的，本申请还提供一种评论信息有效性检测装置。本申请实施例提供的评论信息有效性检测装置可以实施上述评论信息有效性检测方法，该评论信息有效性检测装置可以通过软件、硬件或软硬结合的方式来实现。例如，该评论信息有效性检测装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图2，其示出了本申请的一些实施方式所提供的一种评论信息有效性检测装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图2所示，所述评论信息有效性检测装置10，所述装置10可以包括：

主题信息获取模块101，用于获取待检测的评论信息，以及获取所述评论信息对应的主题信息；

第一分词处理模块102，用于对所述主题信息和所述评论信息分别进行分词处理，得到主题分词集合和评论分词集合；

第一词向量转换模块103，用于将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量，得到主题词向量集合和评论词向量集合；

第一相关度计算模块104，用于根据所述主题词向量集合和所述评论词向量集合，计算所述评论信息和所述主题信息之间的相关度；

评论有效性判断模块105，用于根据所述相关度与预设相关度阈值的比较结果，确定所述评论信息是否有效。

在本申请实施例的一些变更实施方式中，所述装置10，还包括：

第一词性标注模块，用于采用词性标注算法，确定所述主题分词集合和所述评论分词集合中各分词的词性；

第一虚词筛选模块，用于根据确定的所述词性，筛除所述主题分词集合和所述评论分词集合中词性为虚词的分词，得到筛除虚词后的主题分词集合和评论分词集合；

所述第一词向量转换模块103，包括：

第一词向量转换单元，用于根据筛除虚词后的所述主题分词集合和所述评论分词集合，将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量。

在本申请实施例的一些变更实施方式中，所述第一相关度计算模块104，包括：

第一词向量组合单元，用于将所述主题词向量集合中的每个主题词向量与所述评论词向量集合中的每个评论词向量两两进行组合；

第一相似度计算单元，用于计算每个组合中所述主题词向量与所述评论词向量之间的相似度；

第一相关度计算单元，用于根据所有组合对应的所述相似度，计算所述评论信息和所述主题信息之间的相关度。

在本申请实施例的一些变更实施方式中，所述第一相关度计算单元，包括：

第一相关度计算子单元，用于将每个组合对应的所述相似度求和后除以所述评论词向量集合中所述评论词向量的数量，得到所述评论信息和所述主题信息之间的相关度。

在本申请实施例的一些变更实施方式中，所述第一词向量转换模块103，包括：

模型转换单元，用于利用预先训练好的词语转向量模型，将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量。

样本信息获取模块，用于获取多条样本主题信息，以及获取每条所述样本主题信息对应的多条有效评论信息；

第二分词处理模块，用于对每条所述样本主题信息和每条所述有效评论信息分别进行分词处理，得到与所述样本主题信息一一对应的样本主题分词集合、和与所述有效评论信息一一对应的有效评论分词集合；

分词组合模块，用于针对每个所述有效评论分词集合，将所述有效评论分词集合和与该有效评论分词集合对应的样本主题分词集合进行组合，生成训练样本数据；

模型训练模块，用于利用所述训练样本数据对词语转向量模型进行训练，得到训练好的词语转向量模型。

第二词性标注模块，用于采用词性标注算法，确定所述样本主题分词集合和所述有效评论分词集合中各分词的词性；

第二虚词筛选模块，用于根据确定的所述词性，筛除所述样本主题分词集合和所述有效评论分词集合中词性为虚词的分词，得到筛除虚词后的样本主题分词集合和有效评论分词集合；

所述分词组合模块，包括：

分词组合单元，用于根据筛除虚词后的样本主题分词集合和有效评论分词集合，针对每个所述有效评论分词集合，将所述有效评论分词集合和与该有效评论分词集合对应的样本主题分词集合进行组合，生成训练样本数据。

训练结果数据获取模块，用于获取训练过程中产生的、与每条所述训练样本数据对应的样本主题词向量集合和有效评论词向量集合；

第二相关度计算模块，用于根据所述样本主题词向量集合和有效评论词向量集合，计算每条所述样本主题信息和与所述样本主题信息对应的每条有效评论信息之间的相关度；

相关度阈值确定模块，用于根据计算得到的每条所述样本主题信息和与所述样本主题信息对应的每条有效评论信息之间的相关度，确定相关度阈值。

在本申请实施例的一些变更实施方式中，所述相关度阈值确定模块，包括：

最小阈值确定单元，用于将计算得到的每条所述样本主题信息和与所述样本主题信息对应的每条有效评论信息之间的相关度中的最小值，确定为相关度阈值。

在本申请实施例的一些变更实施方式中，所述第二相关度计算模块，包括：

第二词向量组合单元，用于针对每条所述训练样本数据对应的样本主题词向量集合和有效评论词向量集合，将所述样本主题词向量集合中的每个样本主题词向量与所述有效评论词向量集合中的每个有效评论词向量两两进行组合；

第二相似度计算单元，用于计算每个组合中所述样本主题词向量与所述有效评论词向量之间的相似度；

第二相关度计算单元，用于根据所有组合对应的所述相似度，计算所述训练样本数据对应的所述样本主题信息和所述有效评论信息之间的相关度。

在本申请实施例的一些变更实施方式中，所述第二相关度计算单元，包括：

第二相关度计算子单元，用于将每个组合对应的所述相似度求和后除以所述有效评论词向量集合中所述有效评论词向量的数量，得到所述训练样本数据对应的所述样本主题信息和所述有效评论信息之间的相关度。

在本申请实施例的一些变更实施方式中，所述评论有效性判断模块105，包括：

相关度比较单元，用于判断所述相关度是否小于预设相关度阈值；

信息无效判断单元，用于若是，则判断所述评论信息无效；

信息有效判断单元，用于若否，则判断所述评论信息有效。

本申请实施例提供的评论信息有效性检测装置10，与本申请前述实施例提供的评论信息有效性检测方法出于相同的发明构思，具有相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的评论信息有效性检测方法对应的电子设备，所述电子设备可以是任意具有数据处理能力的计算设备，例如服务器等，以执行上述评论信息有效性检测方法，本申请实施例不做限定。

请参考图3，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图3所示，所述电子设备20包括：处理器200，存储器201，总线202和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的评论信息有效性检测方法。

其中，存储器201可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述评论信息有效性检测方法可以应用于处理器200中，或者由处理器200实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器200读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的评论信息有效性检测方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的评论信息有效性检测方法对应的计算机可读介质，请参考图4，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的评论信息有效性检测方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的评论信息有效性检测方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些物理端口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims

1.一种评论信息有效性检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量之前，还包括：

所述将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述主题词向量集合和所述评论词向量集合，计算所述评论信息和所述主题信息之间的相关度，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所有组合对应的所述相似度，计算所述评论信息和所述主题信息之间的相关度，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量，包括：

6.根据权利要求5所述的方法，其特征在于，所述利用预先训练好的词语转向量模型，将所述主题分词集合中的各主题分词和所述评论分词集合中的各评论分词均转换为词向量之前，还包括：

7.根据权利要求6所述的方法，其特征在于，所述将针对每个所述有效评论分词集合，将所述有效评论分词集合和与该有效评论分词集合对应的样本主题分词集合进行组合，生成训练样本数据之前，还包括：

所述针对每个所述有效评论分词集合，将所述有效评论分词集合和与该有效评论分词集合对应的样本主题分词集合进行组合，生成训练样本数据，包括：

8.根据权利要求6所述的方法，其特征在于，所述利用所述训练样本数据对词语转向量模型进行训练之后，还包括：

9.根据权利要求8所述的方法，其特征在于，所述根据计算得到的每条所述样本主题信息和与所述样本主题信息对应的每条有效评论信息之间的相关度，确定相关度阈值，包括：

10.根据权利要求8所述的方法，其特征在于，所述根据所述样本主题词向量集合和有效评论词向量集合，计算每条所述样本主题信息和与所述样本主题信息对应的每条有效评论信息之间的相关度，包括：

11.根据权利要求10所述的方法，其特征在于，所述根据所有组合对应的所述相似度，计算所述训练样本数据对应的所述样本主题信息和所述有效评论信息之间的相关度，包括：

12.根据权利要求1所述的方法，其特征在于，所述根据所述相关度与预设相关度阈值的比较结果，确定所述评论信息是否有效，包括：

判断所述相关度是否小于预设相关度阈值；

若是，则判断所述评论信息无效；

若否，则判断所述评论信息有效。

13.一种评论信息有效性检测装置，其特征在于，包括：