CN113282704A

CN113282704A - 一种对评论有用性进行判断和筛选的方法与装置

Info

Publication number: CN113282704A
Application number: CN202110496262.1A
Authority: CN
Inventors: 汤凌燕; 王嫄; 熊聪聪; 刘玉桥; 杨巨成; 赵婷婷; 陈亚瑞; 潘旭冉
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-08-20

Abstract

本发明公开了一种对评论有用性进行判断和筛选的方法与装置，该方法包括：获取多条待判断的评论数据，对待判断的评论数据进行预处理；将每条预处理后的评论数据输入情感分析模型，输出评论情感得分；将每条预处理后的评论数据输入主题分析模型，输出词频总权重和评论主题排序；将每条预处理后的评论数据输入可信度分析模型，输出评论者可信度得分；根据评论情感得分、词频总权重、评论者可信度得分及在评论数据中提取的语义特征进行加权求和，得到评论有用性得分；将评论有用性得分与预设阈值相比较，筛选出高效有用评论。该方法与传统方法相比，可充分考虑评论内部、外部特征，进行更深层次的评论语义分析，实现精确地高效有用评论的判别和筛选。

Description

一种对评论有用性进行判断和筛选的方法与装置

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种对评论有用性进行判断和筛选的方法与装置。

背景技术

当前，人们总是追求更高效、更便捷的生活方式，互联网不仅节约了时间成本，也改变着我们的生活方式。电子商务的快速发展使网络购物已经成为消费者购物的一种重要方式，在线评论作为电子口碑的一种重要形式，成为消费者在购买决策过程中参考的重要依据。面对数量众多的在线评论，如何快速发现对消费者有用的评论，成为许多研究的关注点。评论有用性是指产品评论信息的影响程度，能够帮助评论阅读者快速获取有效信息，评论的有用性越高，对阅读者的决策影响越大。

但是，现有评论有用性的预测方法存在局限性。首先，现有在评论有用性特征的研究学习上未充分考虑评论者网络特征和评论对象特征，多数研究仅考虑了评论属性和评论内容；其次，现有评论语义分析方法相对简单，以构建主题词库和情感词典为主，评论可用性得分仅由词频权重和情感值计算得到，没有进行深层次的评论语义分析，然而评论中所包含的情感倾向对评论有用性起到很关键的作用。

因此，在现有评论有用性预测研究的基础上，如何提供一种既能根据评论内容特征和产品属性特征对评论有用性进行判断，又能根据评论者和阅读者网络特征进行判断和筛选有用性评论的方法与装置，成为本领域技术人员亟需解决的问题。

发明内容

鉴于上述问题，本发明提出了一种至少解决上述部分技术问题的一种对评论有用性进行判断和筛选的方法与装置。该方法既可充分考虑评论内容特征、产品属性特征，又可充分考虑评论者和阅读者特征，将评论者网络特征进行量化计算，并改进词频权重和评论情感值的计算方式，实现更精确地高效有用性评论的判别和筛选。

第一方面，本发明实施例提供一种对评论有用性进行判断和筛选的方法，包括：

获取多条待判断的评论数据，对所述待判断的评论数据进行预处理；

将每条所述预处理后的评论数据输入情感分析模型，输出评论情感得分；

将每条所述预处理后的评论数据输入主题分析模型，输出词频总权重和评论主题排序；

将每条所述预处理后的评论数据输入可信度分析模型，输出评论者可信度得分；

根据所述评论情感得分、词频总权重、评论者可信度得分及在所述评论数据中提取的语义特征，进行加权求和，得到评论有用性得分；

将所述评论有用性得分与预设阈值相比较，判断和筛选出高效有用评论。

进一步地，还包括：

根据阅读者的网络特征，并结合所述评论主题排序，输出基于阅读者特征的高效有用评论排序结果。

进一步地，对待判断的评论数据进行预处理，包括：

对所述待判断的评论数据进行清洗；

对清洗后的所述评论数据进行分词处理；

对分词后的所述评论数据进行词性标注和标点符号标注。

进一步地，所述情感分析模型的训练步骤包括：

构建长短时记忆网络；

将情感分析的训练样本数据输入所述长短时记忆网络进行训练；所述情感分析的训练样本数据由word2vec转换为特征向量；所述情感分析的训练样本数据为带有评论情感得分的标识；所述评论情感得分由词情感极性值和标点符号情感极性值，加权求和获得；所述词情感极性值由评论中各个词与领域情感词典进行余弦相似度匹配计算获得；

判断训练得到的模型是否满足第一预设条件；

当训练得到的模型满足第一预设条件时，确定所述训练得到的模型为情感分析模型。

进一步地，所述主题分析模型的训练步骤包括：

构建卷积神经网络；

将主题分析的训练样本数据输入所述卷积神经网络进行训练；所述主题分析的训练样本数据由word2vec转换为特征向量；所述主题分析的训练样本数据为带有词频总权重和评论主题排序的标识；其中，所述词频总权重由主题权重和词频权重进行加权求和获得；所述词频权重由TF-IDF计算获得；所述主题权重和所述评论主题排序，由LDA统计和提取；

判断训练得到的模型是否满足第二预设条件；

当训练得到的模型满足第二预设条件时，确定所述训练得到的模型为主题分析模型。

进一步地，所述可信度分析模型的训练步骤包括：

构建图形卷积神经网络；

将可信度分析的训练样本数据输入所述图形卷积神经网络进行训练；所述可信度分析的训练样本数据由word2vec转换为特征向量；所述可信度分析的训练样本数据为带有评论者可信度得分的标识；所述评论者可信度得分由专业性得分、信誉排名得分和人口学特征得分，加权求和获得；

判断训练得到的模型是否满足第三预设条件；

当训练得到的模型满足第三预设条件时，确定所述训练得到的模型为情感分析模型。

进一步地，所述评论有用性得分还通过以下方式获得：由评论属性得分、所述评论情感得分、词频总权重和评论者可信度得分，进行加权求和。

第二方面，本发明实施例提供一种对评论有用性进行判断和筛选的装置，包括：

获取及预处理模块，用于获取多条待判断的评论数据，对所述待判断的评论数据进行预处理；

情感分析模块，用于将每条所述预处理后的评论数据输入情感分析模型，输出评论情感得分；

主题分析模块，用于将每条所述预处理后的评论数据输入主题分析模型，输出词频权重和评论主题排序；

可信度分析模块，用于将每条所述预处理后的评论数据输入可信度分析模型，输出评论者可信度得分；

计算模块，用于根据所述评论情感得分、词频总权重、评论者可信度得分及在所述评论数据中提取的语义特征，进行加权求和，得到评论有用性得分；

筛选模块，用于将所述评论有用性得分与预设阈值相比较，判断和筛选出高效有用评论；

排序模块，用于根据阅读者的网络特征，并结合所述评论主题排序，输出基于阅读者特征的高效有用评论排序结果。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例提供一种对评论有用性进行判断和筛选的方法，包括：获取多条待判断的评论数据，对待判断的评论数据进行预处理；将每条预处理后的评论数据输入情感分析模型，输出评论情感得分；将每条预处理后的评论数据输入主题分析模型，输出词频总权重和评论主题排序；将每条预处理后的评论数据输入可信度分析模型，输出评论者可信度得分；根据评论情感得分、词频总权重、评论者可信度得分及在评论数据中提取的语义特征，进行加权求和，得到评论有用性得分；将评论有用性得分与预设阈值相比较，判断和筛选出高效有用评论。该方法与传统方法相比，可充分考虑评论内部特征和评论外部特征，进行更深层次的评论语义分析，实现更精确地高效有用评论的判别和筛选。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的对评论有用性进行判断和筛选的方法流程图；

图2为本发明实施例提供的对评论有用性进行判断和筛选的方法原理流程图；

图3为本发明实施例提供的预处理步骤流程图；

图4为本发明实施例提供的对评论有用性进行判断和筛选的装置框图；

图5为本发明实施例提供的评论有用性影响因素示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种对评论有用性进行判断和筛选的方法，能够帮助评论阅读者快速获取有效信息，增强评论的可信度，进而提高评论的有用性，实现对产品评论的分类、筛选和推荐。

参照图1所示，一种对评论有用性进行判断和筛选的方法，其包括如下步骤：

S1、获取多条待判断的评论数据，对待判断的评论数据进行预处理；

S2、将每条预处理后的评论数据输入情感分析模型，输出评论情感得分；

S3、将每条预处理后的评论数据输入主题分析模型，输出词频总权重和评论主题排序；

S4、将每条预处理后的评论数据输入可信度分析模型，输出评论者可信度得分；

S5、根据评论情感得分、词频总权重、评论者可信度得分及在评论数据中提取的语义特征，进行加权求和，得到评论有用性得分；

S6、将评论有用性得分与预设阈值相比较，判断和筛选出高效有用评论；

S7、根据阅读者的网络特征，并结合评论主题排序，输出基于阅读者特征的高效有用评论排序结果。

可选地，上述步骤S2、S3和S4没有执行顺序的差别，可以同时进行，也可以分别进行，本实施例对其不作限定。

在本实施例中，可以分别根据评论内容特征、产品属性特征和评论者网络特征，生成评论属性得分、评论情感得分、词频总权重和评论者可信度得分，得到评论有用性得分，综合筛选出高效有用评论，最后基于阅读者网络特征，输出基于阅读者特征的高效有用评论排序结果。本实施例提供的对评论有用性进行判断和筛选的方法，可充分考虑评论内部特征和评论外部特征(如：产品性能、产品主题类型、评论者专业性和评论者信誉排名等)，进行更深层次的评论语义分析，将评论中所包含的情感倾向纳入对评论有用性进行评判的考量范围内，为阅读者对评论的处理和利用提供了一种更高效的获取方式。

下面通过具体实施例描述上述所涉及到的模型的训练、到使用过程，参照图2所示，包括：

步骤1：获取评论语料，借助python网络爬虫技术，爬取大量电商平台上的评论语料。

步骤2：对评论语料进行预处理，删除出现乱码等现象的无效评论，并对有效评论语料进行去停用词、去重操作，再利用自然语言处理工具，包括分词工具、词性标注工具和标点符号标注工具，实现快速对评论语料进行分词、对评论语料内各词进行词性标注(包括形容词、副词、动词等)、对各标点符号进行标注(感叹号、顿号、句号等)，得到可用于模型训练的评论文本数据。

其中，上述步骤2中的预处理步骤，参照图3所示，包括：

S11、对评论语料数据进行清洗；

S12、对清洗后的评论语料数据进行分词处理；

S13、对分词后的评论语料数据进行词性标注和标点符号标注。

步骤3：比如对步骤2中的评论文本数据按照比例3:1，划分成训练集和测试集。

步骤4：利用步骤3中得到的训练集训练基于word2vec和领域情感词典的情感分析模型，和测试集用于优化更新网络内部参数，迭代更新后得到最优的情感分析模型。

具体地，上述步骤4中情感分析模型的训练步骤包括：

S21、构建长短时记忆网络；

S22、将情感分析的训练样本数据输入长短时记忆网络进行训练；情感分析的训练样本数据由word2vec转换为特征向量；情感分析的训练样本数据为带有评论情感得分的标识；

S23、判断训练得到的模型是否满足第一预设条件；

S24、当训练得到的模型满足第一预设条件时，确定训练得到的模型为情感分析模型。

其中，步骤S22中，评论情感得分为由词情感极性值和标点符号情感极性值进行加权求和获得。词情感极性值由评论中各个词与领域情感词典进行余弦相似度匹配计算获得。领域情感词典提供领域相关情感词，为计算情感极性值提供必要支持。评论情感得分计算公式为：每条评论的情感得分＝各词的情感极性值求和+各标点符号的情感极性值求和。

具体地，word2vec是用来产生词向量的相关模型，其可以根据给定的情感分析训练样本数据，通过优化后的训练模型快速有效地将情感分析训练样本数据表达成向量形式，即，将自然语言文本转换成矢量数据，为后续的模型训练做准备。

步骤5：利用步骤3中得到的训练集训练基于LDA和TD-IDF的主题分析模型，基于TD-IDF计算每条评论含每个主题的概率，步骤3中的测试集用于优化更新网络内部参数，迭代更新后得到最优的主题分析模型。

具体地，上述步骤5中主题分析模型的训练步骤包括：

S31、构建卷积神经网络；

S32、将主题分析的训练样本数据输入所述卷积神经网络进行训练；所述主题分析的训练样本数据由word2vec转换为特征向量；所述主题分析的训练样本数据为带有词频总权重和评论主题排序的标识；

S33、判断训练得到的模型是否满足第二预设条件；

S34、当训练得到的模型满足第二预设条件时，确定训练得到的模型为主题分析模型。

其中，步骤S32中，由LDA统计和提取评论主题信息，并生成评论主题排序和主题权重；由TF-IDF计算词频权重。词频总权重由主题权重和词频权重进行加权求和获得。

LDA用于统计和提取评论中的产品属性主题词，即统计和提取评论内容中隐含的评论主题信息，包括产品属性特征和评论主题语义特征，并对得到的主题词的重要性进行排序，生成评论主题排序和主题权重。由TF-IDF加权技术计算各词词频权重。

具体地，LDA(Latent DirichletAllocation)是一种文档主题生成模型。LDA是一种非监督机器学习技术，可以用来识别主题分析的训练样本数据中潜藏的评论主题信息。每条主题分析的训练样本数据代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多词所构成的一个概率分布。从而利用LDA模型生成评论主题排序和主题权重。

具体地，TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法，用以评估每个主题词对于一个主题分析的训练样本的重要程度，即计算各词词频权重。

进一步地，由于各个主题词的词频和重要性并不存在相关性，例如：对于网购衣服的评论数据，主题词“美味”和衣服的产品属性主题词相差较大，即便该主题词在评论中词频较高，但对评论有用性的贡献并不大。从而，词频总权重的计算除去考虑各词词频权重，还需考虑到各词重要性权重，即主题权重。可选地，词频总权重计算公式为：词频总权重＝词频权重+主题权重。

步骤6：利用步骤3中得到的训练集训练基于GCN的可信度分析模型，和测试集用于优化更新网络内部参数，迭代更新后得到最优的可信度分析模型。

具体地，上述步骤6中可信度分析模型的训练步骤包括：

S41、构建图形卷积神经网络；

S42、将可信度分析的训练样本数据输入所述图形卷积神经网络进行训练；所述可信度分析的训练样本数据由word2vec转换为特征向量；所述可信度分析的训练样本数据带有评论者可信度得分的标识；

S43、判断训练得到的模型是否满足第三预设条件；

S44、当训练得到的模型满足第三预设条件时，确定训练得到的模型为情感分析模型。

其中，步骤S42中，评论者可信度得分由专业性得分、信誉排名得分和人口学特征得分加权求和获得。首先，需提取评论者的网络特征；网络特征包括：专业性、信誉排名和人口学特征；其次，生成专业性得分、信誉排名得分和人口学特征得分；最后，将三者加权求和，输出评论者可信度得分。

评论者的网络特征在一定程度上影响了评论的有用性，例如：评论者的专业性、信誉排名和个人偏好等，因此有必要将评论者的网络特征纳为评价评论有用性的一个重要指标。

具体地，人口学特征包括：年龄、性别、文化、职业、收入、生活环境等。可选地，评论者可信度得分计算公式为：评论者可信度得分＝专业性得分+信誉排名得分+人口学特征得分。

可选地，上述情感分析模型基于长短时记忆网络和注意力机制构建；主题分析模型基于LDA融合词频的TF-IDF特征构建；可信度分析模型基于图形卷积神经网络构建(GCN，Graph ConvolutionNetwork)。

可选地，上述第一预设条件、第二预设条件和第三预设条件可以相同，比如均为90％；也可以不同，可以根据具体情况设定不同的阈值；本实施例对其不作限定。

步骤7：除了步骤4、步骤5和步骤6中得到的评论情感得分、词频总权重和评论者可信度得分外，还可以考虑评论属性特征，例如：评论有效长度、评论发表时间和评论投票数等。最终对评论有用性进行打分，其计算公式为：评论有用性得分＝评论属性得分+评论情感得分+评论者可信度得分+词总数*词频总权重。为每条评论计算得到一个评论有用性得分，对于评论有用性的强弱判断来说，其分值越高，有用性越强。

步骤8：基于步骤7中已获得的评论有用性得分，首先设定一个用于判断高效有用评论的阈值。若评论的有用性得分分值大于上述预设阈值，则说明该条评论是高效有用评论，且具有高效有用性推荐价值；若评论的有用性得分分值小于或者等于预设阈值，该条评论是低效有用评论，且具有低效有用性推荐价值。

步骤9：对于待判断和筛选的评论数据，分别输入上述各个模型得出相应的结果，并基于步骤5中统计分析得到的评论主题排序结果和步骤8中筛选得到的高效有用评论，再根据输入的评论阅读者网络特征，例如：阅读者个人偏好和人口学特征等，最终输出得到基于阅读者特征的高效有用评论排序结果，用于更高效的有用性评论的用户推荐工作，供阅读者对评论进行处理及利用。

基于同一发明构思，本发明实施例还提供了一种对评论有用性进行判断和筛选的装置，由于该装置所解决问题的原理与前述一种对评论有用性进行判断和筛选的方法相似，因此该装置的实施可以参见前述方法的实施，重复之处不再赘述。

一种对评论有用性进行判断和筛选的装置，参照图4所示，包括：

获取及预处理模块31，用于获取多条待判断的评论数据，对所述待判断的评论数据进行预处理；

情感分析模块32，用于将每条所述预处理后的评论数据输入情感分析模型，输出评论情感得分；

主题分析模块33，用于将每条所述预处理后的评论数据输入主题分析模型，输出词频权重和评论主题排序；

可信度分析模块34，用于将每条所述预处理后的评论数据输入可信度分析模型，输出评论者可信度得分；

计算模块35，用于根据所述评论情感得分、词频总权重、评论者可信度得分及在所述评论数据中提取的语义特征，进行加权求和，得到评论有用性得分；

筛选模块36，用于将所述评论有用性得分与预设阈值相比较，判断和筛选出高效有用评论；

排序模块37，用于根据阅读者的网络特征，并结合所述评论主题排序，输出基于阅读者特征的高效有用评论排序结果。

本实施例提供的一种对评论有用性进行判断和筛选的方法与装置，在现有评论有用性的预测方法之上，做出了创造性改进。参照图5所示，不仅考虑了评论属性和评论内容、词频权重和情感值，即：评论内容特征，还充分考虑了产品的属性特征、评论者的网络特征和阅读者网络特征，进行了更深层次的评论语义分析，改进了词频权重和评论情感值的计算方式，输出了在基于阅读者网络特征的前提下的高效有用评论排序结果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种对评论有用性进行判断和筛选的方法，其特征在于，包括：

2.如权利要求1所述的一种对评论有用性进行判断和筛选的方法，其特征在于，还包括：

3.如权利要求1所述的一种对评论有用性进行判断和筛选的方法，其特征在于，对待判断的评论数据进行预处理，包括：

对所述待判断的评论数据进行清洗；

对清洗后的所述评论数据进行分词处理；

对分词后的所述评论数据进行词性标注和标点符号标注。

4.如权利要求1所述的一种对评论有用性进行判断和筛选的方法，其特征在于，所述情感分析模型的训练步骤包括：

构建长短时记忆网络；

判断训练得到的模型是否满足第一预设条件；

5.如权利要求1所述的一种对评论有用性进行判断和筛选的方法，其特征在于，所述主题分析模型的训练步骤包括：

构建卷积神经网络；

判断训练得到的模型是否满足第二预设条件；

6.如权利要求1所述的一种对评论有用性进行判断和筛选的方法，其特征在于，所述可信度分析模型的训练步骤包括：

构建图形卷积神经网络；

判断训练得到的模型是否满足第三预设条件；

7.如权利要求1所述的一种对评论有用性进行判断和筛选的方法，其特征在于，所述评论有用性得分还通过以下方式获得：由评论属性得分、所述评论情感得分、词频总权重和评论者可信度得分，进行加权求和。

8.一种对评论有用性进行判断和筛选的装置，其特征在于，包括：