CN111444434A

CN111444434A - 一种互联网反馈评论的生成方法及系统

Info

Publication number: CN111444434A
Application number: CN202010323220.3A
Authority: CN
Inventors: 郭庆涛
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-07-24

Abstract

本申请公开了一种互联网反馈评论的生成方法，获取用户的身份信息，将用户身份信息按预设分类关键词进行分类处理，获取用户的评论信息，将评论信息及用户身份信息进行切词得到评论搜索关键词及用户身份信息搜索关键词，将用户身份信息、评论信息与预设类别关键词及用户身份信息搜索关键词、评论搜索关键词进行对比，并将符合此关键词展示于该对应的关键词类别中，将分类后用户身份信息及评论信息进行统计，展示评论面板或其所发布内容的相关位置，根据统计信息可以进行搜索查询得到对应的用户、评论信息及发布内容，本发明回收难度简单，用户都是真实反映，可以保证真实性；由于是对整体用户的大数据分析，而非样本推测整体，分析的准确率高。

Description

一种互联网反馈评论的生成方法及系统

技术领域

本发明涉及数据分析技术领域，特别涉及一种互联网反馈评论的生成方法及系统。

背景技术

随着今年来互联网、一点互联网的发展，营销从以产品为中心逐渐转换到以用户为中心，通过获取品牌的用户反馈及评论，一方面可以找到对于商家可以确定在用户心中的地位，另一方面便于用户更好的，更方便的，更快的了解到用户所感兴趣的东西，因此，如何保证口碑分析的真实性以及用户提现的便利性，提高分析结果的准确率和精确性成为了本领域技术人员的需求解决了问题。

发明内容

本申请提供了一种互联网反馈评论的生成方法及系统，与现有技术相比本发明以用户的互联网评论进行分析的口碑分析方法，用户的一切行为都是其自身偏好的真实反映，可以保证真实性，最后由于是对真实用户的大数据分析，而分样本推测整体，分析的准确率高。

本申请提供了一种互联网反馈评论的生成方法，包括：

获取用户的身份信息；

将所述的用户身份信息按照预设分类关键词进行分类处理；

获取用户在互联网上的评论信息；

将所述的评论信息进行切词得到该类评论信息的评论搜索关键词；

将所述的用户身份信息进行切词得到该类用户身份信息的搜索关键词；

将用户身份信息与预设类别搜索关键词对比，并将符合所述预设类别搜索关键词的用户及评论信息展示于预设类别搜索关键词类别中；

将用户身份信息与用户身份信息搜索关键词进行对比，并将符合所述用户身份信息搜索关键词的用户及评论信息展示于用户身份信息搜索关键词的类别中；

将评论信息与评论信息搜索关键词进行对比，并将符合所述评论信息搜索关键词的用户及评论信息展示于该评论信息搜索关键词的类别中。

将所述的分类后用户身份信息以及评论信息进行统计信息，并将其展示于评论板上或其发布内容的相关位置，并根据统计的信息可以进行搜索查询得到对应的用户、评论信息及发布内容。

优选地，再所述将评论信息进行切词得到该评论信息的评论词语信息之前还包括：

对所述评论信息进行清洗，去除所述评论信息中的杂质。

优选地，所述杂质包括非用户生成内容评论信息。

优选地，所述反馈信息包括所述反馈信息包括根据用户身份信息及评论信息统计反馈用户浏览量、用户点赞量以及用户评论信息量等一类多类。

优选地，所述预设类别关键词包括用户身份信息以及用户身份信息关键词中的任意一项或多项，所述类别包括性别、年龄段、行业、星座、属相、教育程度、国籍/非国籍、所处地区等中的任一类或多类。

优选地，所述对身份信息按照预设分类关键词进行分类处理，包括如下步骤：

步骤A1，构建所述的用户身份信息数据，其过程如下：

其中，X为用户信息的总数据，x₁代表特征年龄段，x₂代表特征性别，x_i代表行业等等，i代表每一个用户的特征数量，m代表做模型分类收集的用户的数量；

步骤A2，根据上述的用户身份信息的数据进行模型选取，其过程如下：

z1＝X*w₁+b₁

z2＝h1*w₂+b₂

其中，X代表用户身份信息总数据，w₁模型第一层的参数，b₁代表模型第一层的偏执，w₂代表模型第二层的参数，b₂代表模型第二层的偏执，z1代表线性变换后的用户身份信息数据，h1代表激活后的用户信息数据转成非线性预测用户身份信息类别，z2,h2与z1,h1相同，只不过把网络层数加深效果会更好；

步骤A3，根据上述模型选用的代价函数表达式如下：

其中，J代表损失，m代表模型分类收集的用户身份信息的数量，h2代表非线性模型预测的用户身份信息类别，y代表用户身份信息的真实类别；

步骤A4，根据上述步骤，对其模型进行训练步骤如下：

其中，m代表模型分类收集的用户身份信息的数量，T相当于对其矩阵进行转置操作，y代表用户身份信息的真实类别，h2代表非线性模型预测的用户身份信息类别，X代表用户身份信息总数据，h1代表激活后的用户信息数据转成非线性预测用户身份信息，dw₁代表反向训练了过程反向传播第一层的参数，db₁代表反向训练了过程反向传播第一层的偏执，dw₂代表反向训练了过程反向传播第二层的参数，db₂代表反向训练了过程反向传播第二层的偏执的参数；

步骤A5，根据上述步骤进行一下参数更新，其步骤如下：

w₁＝w₁-α*dw₁

b₁＝b₁-α*db₁

w₂＝w₂-α*dw₂

b₂＝b₂-α*db₂

其中，dw₁代表反向训练了过程反向传播第一层的参数，db₁代表反向训练了过程反向传播第一层的偏执，dw₂代表反向训练了过程反向传播第二层的参数，db₂代表反向训练了过程反向传播第二层的偏执的参数,α代表学习率，学习率一般初始设置0.01，w₁模型更新后的第一层的参数，b₁代表更新后的模型第一层的偏执，w₂代表更新后的模型第二层的参数，b₂代表更新后的模型第二层的偏执。

一种互联网反馈评论的生成系统，其特征在于，包括用户信息获取模块、评论获取模块、切词模块、分类模块、统计反馈模块及报告制作模块，其中：

所述用户信息获取模块用于获取用户的身份信息；

所述评论获取模块用于获取用户在互联网上的评论信息；

所述切词模块用于将评论信息进行切词得到该类评论信息的评论搜索关键词，用户身份信息进行切词得到该类用户身份信息的搜索关键词；

所述分类模块用于将用户身份信息与预设类别搜索关键词对比，并将符合所述预设类别搜索关键词的用户及评论信息展示于预设类别搜索关键词类别中；将用户身份信息与用户身份信息搜索关键词进行对比，并将符合所述用户身份信息搜索关键词的用户及评论信息展示于用户身份信息搜索关键词的类别中；将评论信息与评论信息搜索关键词进行对比，并将符合所述评论信息搜索关键词的用户及评论信息展示于该评论信息搜索关键词的类别中。

所述统计反馈模块用于将所述的分类后用户身份信息根据浏览量、点赞量以及评论信息量分别进行统计信息将每项占比最多的三个类别的数据展示于评论面板上或其所发布内容的相关位置，并根据统计的信息可以进行搜索查询得到对应的用户、评论信息及发布内容；

所述报告制作模块用于开启关键字的筛选以及搜索功能。

优选地，所述预设类别关键词包括用户身份信息以及用户身份信息关键词中的任意一项或多项，所述类别包括性别、年龄段、行业、星座、属相、教育程度、国籍/非国籍、所处地区等中的任一类或多类；

所述报告制作模板包括关键词筛选及搜索功能，其中：

所述关键词筛选用于基于关键词信息对于用户身份信息、评论信息的显示信息以过滤掉不包含此关键词的用户身份信息及评论信息；

所述搜索功能用于基于关键词信息对于用户身份信息、评论信息的显示以便于更快速的找到用户身份信息及评论信息。

步骤A1，构建所述的用户身份信息数据，其过程如下：

z1＝X*w₁+b₁

z2＝h1*w₂+b₂

步骤A3，根据上述模型选用的代价函数表达式如下：

步骤A4，根据上述步骤，对其模型进行训练步骤如下：

步骤A5，根据上述步骤进行一下参数更新，其步骤如下：

w₁＝w₁-α*dw₁

b₁＝b₁-α*db₁

w₂＝w₂-α*dw₂

b₂＝b₂-α*db₂

此算法模型可以实现对用户身份信息进行分类处理，对用户身份信息进行分类处理不局限于此算法。

综上所述，本申请公开了一种互联网反馈评论的生成方法，获取用户的身份信息，将所述的用户身份信息按照预设分类关键词进行分类处理，获取用户在互联网上的评论信息，将所述的评论信息进行切词得到该类评论信息的评论搜索关键词，将所述的用户身份信息进行切词得到该类用户身份信息的搜索关键词，将用户身份信息与预设类别搜索关键词对比，并将符合所述预设类别搜索关键词的用户及评论信息展示于预设搜索关键词类别中；将用户身份信息与用户身份信息搜索关键词进行对比，并将符合所述用户身份信息搜索关键词的用户及评论信息展示于用户身份信息搜索关键词的类别中；将评论信息与评论信息搜索关键词进行对比，并将符合所述评论信息搜索关键词的用户及评论信息展示于该评论信息搜索关键词的类别中，将所述的分类后用户身份信息以及评论信息进行统计信息，并将其展示于评论板上，并根据统计的信息可以进行搜索查询得到对应的用户身份信息及评论信息。

与现有技术相比本发明以用户的互联网评论进行分析的口碑分析方法，人力成本相对较低、回收难度简单；用户的一切行为都是其自身偏好的真实反映，可以保证真实性；最后由于是对整体用户的大数据分析，而非样本推测整体，分析的准确率高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请公开的一种基于用户行为的数据分析方法的实施例1的流程图；

图2为本申请公开的一种基于用户行为的数据分析方法的实施例2的流程图；

图3为本申请公开的一种基于用户行为的数据分析方法的实施例3的流程图；

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，为本申请公开的一种互联网反馈评论的生成方法的实施例1的流程图，包括：

S101、获取用户在互联网上的身份信息；

S102、将所述的用户身份信息按照预设分类关键词进行分类处理；

S103、获取用户在互联网上的评论信息；

获取用户身份信息采用用户注册的方式进行身份信息的获取及报存，获取评论信息的方法为采用爬虫自动获取，可以采用手写爬虫或采用成熟的爬虫框架，如scrapy等。用户的评论信息的来源包括：

综合社区+垂直频道，该类型网站特点话题涉及广泛，通过子论坛、频道等方式来明确划分出垂直行业；

垂直社区，该网站特点是专注于某一品类(甚至某一品牌)的讨论，如汽车之家(汽车行业)、中关村手机论坛(手机)等；

专业点拼类网站，该网站只收集某一品类的评论数据，不直接售卖该品类商品，如中关村手机点评等；

电商点评区，该网站本身是电商网站，且拥有产品点评区，京东、一号店等均属于此类。

S103、将所述的评论信息进行切词得到该类评论信息的评论搜索关键词，将所述的用户身份信息进行切词得到该类用户身份信息的搜索关键词；

将获得的评论信息进行切词，方法为：将语料按标点符号断句，，针对每一个子句进行切词，汇总统计所有出现的词语频率并保存，建议限定切词后词语长度在2—5个汉字之间；

将所述的用户身份信息进行切词，方法为：根据用户身份信息，针对每一个字句进行切词，汇总统计所有出现的词语频率并保存，建议限定切词后词语长度在2—5个汉字之间。

S104、将用户身份信息与预设类别搜索关键词对比，并将符合所述预设类别搜索关键词的用户及评论信息展示于预设搜索关键词类别中；将用户身份信息与用户身份信息搜索关键词进行对比，并将符合所述用户身份信息搜索关键词的用户及评论信息展示于用户身份信息搜索关键词的类别中；将评论信息与评论信息搜索关键词进行对比，并将符合所述评论信息搜索关键词的用户及评论信息展示于该评论信息搜索关键词的类别中；

将切词结果，即评论搜索关键字、用户身份信息搜索关键字作为其搜索关键词，例如，根据某评论信息中切词后为一万个词语，只要此评论信息中出现了评论搜索关键词一次或多次，就可将此评论信息划此评论信息搜索关键词的类别中。

S105、所述的分类后用户身份信息以及评论信息进行统计信息，并根据统计信息进行反馈搜索；

将所述的分类后用户身份信息根据其用户浏览量，点赞量已经评论信息量进行数据统计，展示与评论面板上；

反馈搜索可以并根据统计的信息可以进行搜索查询得到对应的用户身份信息及评论信息。

综上所述，本申请公开了一种基于互联网反馈评论的生成方法及系统，本申请公开了一种互联网反馈评论的生成方法，获取用户的身份信息，将所述的用户身份信息按照预设分类关键词进行分类处理，获取用户在互联网上的评论信息，将所述的评论信息进行切词得到该类评论信息的评论搜索关键词，将所述的用户身份信息进行切词得到该类用户身份信息的搜索关键词，将用户身份信息与预设类别关键词对比，并将符合所述预设类别关键词的用户及评论信息展示于该对应的关键词类别中，将用户身份信息与用户身份信息搜索关键词进行对比，并将符合所述用户身份信息搜索关键词的用户及评论信息展示于该对应的关键词的类别中，将评论信息与评论信息搜索关键词进行对比，并将符合所述评论信息搜索关键词的用户及评论信息展示于该对应关键词的类别中，将所述的分类后用户身份信息以及评论信息进行统计信息，并将其展示于评论板上或其所对应发布内容的相关位置，并根据统计的信息可以进行搜索查询得到对应的用户、评论信息及发布内容。

如图2所示，为本申请公开的一种基于互联网用户评论的数据分析方法的实施例2的流程图，包括：

S201、获取用户在互联网上的身份信息；

获取用户身份信息的方法用户登录注册时对其用户的身份信息进行保存。

S202、将所述的用户身份信息按照预设分类关键词进行分类处理；

所述预设的类别关键词包括性别、年龄段、行业、星座、属相、教育程度、国籍/非国籍、所处地区等中的任一类或多类；

基于预设的类别将其用户身份信息进行统计并归纳其类别中。

S203、获取用户在互联网上的评论信息；

获取用户评论信息的方法为采用爬虫自动获取，可以采用手写爬虫或采用成熟的爬虫框架，如scrapy等。用户的评论信息的来源包括：

S204、对评论信息进行清洗，去除评论信息中的杂质；

杂质包括非用户生成内容评论信息。

S205、将所述的评论信息进行切词得到该类评论信息的评论搜索关键词，将所述的用户身份信息进行切词得到该类用户身份信息的搜索关键词；

将获得的用户身份信息进行切词，方法为：根据用户身份信息，针对每一个子句进行切词，汇总统计所有出现的词语频率并保存，建议限定切词后词语长度在2—5个汉字之间。

S206、将用户身份信息与预设类别搜索关键词对比，并将符合所述预设类别搜索关键词的用户及评论信息展示于预设搜索关键词类别中；将用户身份信息与用户身份信息搜索关键词进行对比，并将符合所述用户身份信息搜索关键词的用户及评论信息展示于用户身份信息搜索关键词的类别中；将评论信息与评论信息搜索关键词进行对比，并将符合所述评论信息搜索关键词的用户及评论信息展示于该评论信息搜索关键词的类别中；

S207、所述的分类后用户身份信息以及评论信息进行统计信息，将其展示其评论面板上或其所对应发布内容的相关位置，并根据统计的信息可以进行搜索查询得到对应的用户、评论信息及发布内容，根据其搜索关键词可以搜索到与搜索关键词相关的此评论信息以及其用户。

构建评论面板，将所述的分类后用户身份信息根据其用户浏览量，点赞量已经评论信息量进行数据统计，展示与评论面板上或其所对应发布内容的相关位置；

反馈搜索，将其统计的信息，即用户浏览量，用户点赞量以及用户评论信息量对其进行搜索，例如通过搜索浏览量中男性最多的信息可以查询到以下的评论信息、用户、及发布内容等。

在本发明的一个优选实施例中，对用户的身份信息分类的处理，包括如下步骤：

步骤A1，构建所述的用户身份信息数据，其过程如下：

z1＝X*w₁+b₁

z2＝h1*w₂+b₂

步骤A3，根据上述模型选用的代价函数表达式如下：

步骤A4，根据上述步骤，对其模型进行训练步骤如下：

其中，m代表模型分类收集的用户身份信息的数量，T相当于对其矩阵进行转置操作，y代表用户身份信息的真实类别，h2代表非线性模型预测的用户身份信息类别，X代表用户身份信息总数据，h1代表激活后的用户信息数据转成非线性预测用户身份信息，dw₁代表反向训练了过程反向传播第一层的参数，db₁代表反向训练了过程反向传播第一层的偏执，dw₂代表反向训练了过程反向传播第二层的参数，db₂代表反向训练了过程反向传播第二层的偏执；

步骤A5，根据上述步骤进行一下参数更新，其步骤如下：

w₁＝w₁-α*dw₁

b₁＝b₁-α*db₁

w₂＝w₂-α*dw₂

b₂＝b₂-α*db₂

其中，dw₁代表反向训练了过程反向传播第一层的参数，db₁代表反向训练了过程反向传播第一层的偏执，dw₂代表反向训练了过程反向传播第二层的参数，db₂代表反向训练了过程反向传播第二层的偏执,α代表学习率一般初始设置为0.01，w₁模型更新后的第一层的参数，b₁代表更新后的模型第一层的偏执，w₂代表更新后的模型第二层的参数，b₂代表更新后的模型第二层的偏执。

有益效果：利用以上算法采用了深度学习技术，使用神经网络模仿人脑进行参数的训练拟合，可以达到用户身份信息更好的拟合模型；采用交叉熵函数使得预测的用户身份信息类别与真实的用户身份信息类别的误差率更小，可以使机器代替人脑进行分类操作，可以达到同步效果，当用户刚注册身份信息，后天就可以确定出当前信息的类别，解决了实时性能，提高了互联网反馈评论的生成效率，达到与专利主题的契合，为后期深度学习项目打下了良好的基础，此算法模型可以实现对用户身份信息进行分类处理，对用户身份信息进行分类处理不局限于此算法。

如图3所示，为本申请公开的一种基于互联网用户评论的数据分析系统的实施例1的结构示意图，用户信息获取模块101、评论获取模块102、切词模块103、分类模块104、统计反馈模块105及报告制作模块106，其中：

获取用户身份模块101用于获取用户在互联网上的身份信息；

评论获取模块102用于获取用户在互联网上的评论信息；

切词模块103将所述的评论信息进行切词得到该类评论信息的评论搜索关键词，将所述的用户身份信息进行切词得到该类用户身份信息的搜索关键词；

分类模块104用于将用户身份信息与预设类别搜索关键词对比，并将符合所述预设类别搜索关键词的用户及评论信息展示于预设搜索关键词类别中；将用户身份信息与用户身份信息搜索关键词进行对比，并将符合所述用户身份信息搜索关键词的用户及评论信息展示于用户身份信息搜索关键词的类别中；将评论信息与评论信息搜索关键词进行对比，并将符合所述评论信息搜索关键词的用户及评论信息展示于该评论信息搜索关键词的类别中；

统计反馈模块105用于所述的分类后用户身份信息以及评论信息进行统计，并将其展示评论面板上或其所对应发布内容的相关位置；

，根据其搜索关键词可以搜索到与搜索关键词相关的此评论信息以及其用户。

反馈搜索，将其统计的信息，即用户浏览量，用户点赞量以及用户评论信息量对其进行搜索，例如通过搜索浏览量男性最多的信息可以查询到以下的评论信息、用户及发布内容等。

所述报告制作模块106用于开启关键字的筛选以及搜索功能；

综上所述，本申请公开了一种基于互联网反馈评论的生成方法及系统，本申请公开了一种互联网反馈评论的生成方法，获取用户的身份信息，将所述的用户身份信息按照预设分类关键词进行分类处理，获取用户在互联网上的评论信息，将所述的评论信息进行切词得到该类评论信息的评论搜索关键词，将所述的用户身份信息进行切词得到该类用户身份信息的搜索关键词，将用户身份信息与预设类别关键词对比，并将符合所述预设类别关键词的用户及评论信息展示于该对应的关键词类别中，将用户身份信息与用户身份信息搜索关键词进行对比，并将符合所述用户身份信息搜索关键词的用户及评论信息展示于该对应的关键词的类别中，将评论信息与评论信息搜索关键词进行对比，并将符合所述评论信息搜索关键词的用户及评论信息展示于该对应关键词的类别中，将所述的分类后用户身份信息以及评论信息进行统计信息，并将其展示于评论板上或其所对应发布内容的相关位置，可对其统计信息进行搜索得到对于的用户、评论信息及发布内容等。与现有技术相比本发明以用户的互联网评论进行分析的口碑分析方法，由于是自动爬取各网站相应的语料，人力成本相对较低、回收难度简单；用户的一切行为都是其自身偏好的真实反映，可以保证真实性；最后由于是对整体用户的大数据分析，而非样本推测整体，分析的准确率高。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。