CN111444434A - 一种互联网反馈评论的生成方法及系统 - Google Patents

一种互联网反馈评论的生成方法及系统 Download PDF

Info

Publication number
CN111444434A
CN111444434A CN202010323220.3A CN202010323220A CN111444434A CN 111444434 A CN111444434 A CN 111444434A CN 202010323220 A CN202010323220 A CN 202010323220A CN 111444434 A CN111444434 A CN 111444434A
Authority
CN
China
Prior art keywords
information
user
identity information
comment
user identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010323220.3A
Other languages
English (en)
Inventor
郭庆涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010323220.3A priority Critical patent/CN111444434A/zh
Publication of CN111444434A publication Critical patent/CN111444434A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种互联网反馈评论的生成方法,获取用户的身份信息,将用户身份信息按预设分类关键词进行分类处理,获取用户的评论信息,将评论信息及用户身份信息进行切词得到评论搜索关键词及用户身份信息搜索关键词,将用户身份信息、评论信息与预设类别关键词及用户身份信息搜索关键词、评论搜索关键词进行对比,并将符合此关键词展示于该对应的关键词类别中,将分类后用户身份信息及评论信息进行统计,展示评论面板或其所发布内容的相关位置,根据统计信息可以进行搜索查询得到对应的用户、评论信息及发布内容,本发明回收难度简单,用户都是真实反映,可以保证真实性;由于是对整体用户的大数据分析,而非样本推测整体,分析的准确率高。

Description

一种互联网反馈评论的生成方法及系统
技术领域
本发明涉及数据分析技术领域,特别涉及一种互联网反馈评论的生成方法及系统。
背景技术
随着今年来互联网、一点互联网的发展,营销从以产品为中心逐渐转换到以用户为中心,通过获取品牌的用户反馈及评论,一方面可以找到对于商家可以确定在用户心中的地位,另一方面便于用户更好的,更方便的,更快的了解到用户所感兴趣的东西,因此,如何保证口碑分析的真实性以及用户提现的便利性,提高分析结果的准确率和精确性成为了本领域技术人员的需求解决了问题。
发明内容
本申请提供了一种互联网反馈评论的生成方法及系统,与现有技术相比本发明以用户的互联网评论进行分析的口碑分析方法,用户的一切行为都是其自身偏好的真实反映,可以保证真实性,最后由于是对真实用户的大数据分析,而分样本推测整体,分析的准确率高。
本申请提供了一种互联网反馈评论的生成方法,包括:
获取用户的身份信息;
将所述的用户身份信息按照预设分类关键词进行分类处理;
获取用户在互联网上的评论信息;
将所述的评论信息进行切词得到该类评论信息的评论搜索关键词;
将所述的用户身份信息进行切词得到该类用户身份信息的搜索关键词;
将用户身份信息与预设类别搜索关键词对比,并将符合所述预设类别搜索关键词的用户及评论信息展示于预设类别搜索关键词类别中;
将用户身份信息与用户身份信息搜索关键词进行对比,并将符合所述用户身份信息搜索关键词的用户及评论信息展示于用户身份信息搜索关键词的类别中;
将评论信息与评论信息搜索关键词进行对比,并将符合所述评论信息搜索关键词的用户及评论信息展示于该评论信息搜索关键词的类别中。
将所述的分类后用户身份信息以及评论信息进行统计信息,并将其展示于评论板上或其发布内容的相关位置,并根据统计的信息可以进行搜索查询得到对应的用户、评论信息及发布内容。
优选地,再所述将评论信息进行切词得到该评论信息的评论词语信息之前还包括:
对所述评论信息进行清洗,去除所述评论信息中的杂质。
优选地,所述杂质包括非用户生成内容评论信息。
优选地,所述反馈信息包括所述反馈信息包括根据用户身份信息及评论信息统计反馈用户浏览量、用户点赞量以及用户评论信息量等一类多类。
优选地,所述预设类别关键词包括用户身份信息以及用户身份信息关键词中的任意一项或多项,所述类别包括性别、年龄段、行业、星座、属相、教育程度、国籍/非国籍、所处地区等中的任一类或多类。
优选地,所述对身份信息按照预设分类关键词进行分类处理,包括如下步骤:
步骤A1,构建所述的用户身份信息数据,其过程如下:
Figure BDA0002462222020000031
其中,X为用户信息的总数据,x1代表特征年龄段,x2代表特征性别,xi代表行业等等,i代表每一个用户的特征数量,m代表做模型分类收集的用户的数量;
步骤A2,根据上述的用户身份信息的数据进行模型选取,其过程如下:
z1=X*w1+b1
Figure BDA0002462222020000032
z2=h1*w2+b2
Figure BDA0002462222020000033
其中,X代表用户身份信息总数据,w1模型第一层的参数,b1代表模型第一层的偏执,w2代表模型第二层的参数,b2代表模型第二层的偏执,z1代表线性变换后的用户身份信息数据,h1代表激活后的用户信息数据转成非线性预测用户身份信息类别,z2,h2与z1,h1相同,只不过把网络层数加深效果会更好;
步骤A3,根据上述模型选用的代价函数表达式如下:
Figure BDA0002462222020000041
其中,J代表损失,m代表模型分类收集的用户身份信息的数量,h2代表非线性模型预测的用户身份信息类别,y代表用户身份信息的真实类别;
步骤A4,根据上述步骤,对其模型进行训练步骤如下:
Figure BDA0002462222020000042
Figure BDA0002462222020000043
Figure BDA0002462222020000044
Figure BDA0002462222020000045
其中,m代表模型分类收集的用户身份信息的数量,T相当于对其矩阵进行转置操作,y代表用户身份信息的真实类别,h2代表非线性模型预测的用户身份信息类别,X代表用户身份信息总数据,h1代表激活后的用户信息数据转成非线性预测用户身份信息,dw1代表反向训练了过程反向传播第一层的参数,db1代表反向训练了过程反向传播第一层的偏执,dw2代表反向训练了过程反向传播第二层的参数,db2代表反向训练了过程反向传播第二层的偏执的参数;
步骤A5,根据上述步骤进行一下参数更新,其步骤如下:
w1=w1-α*dw1
b1=b1-α*db1
w2=w2-α*dw2
b2=b2-α*db2
其中,dw1代表反向训练了过程反向传播第一层的参数,db1代表反向训练了过程反向传播第一层的偏执,dw2代表反向训练了过程反向传播第二层的参数,db2代表反向训练了过程反向传播第二层的偏执的参数,α代表学习率,学习率一般初始设置0.01,w1模型更新后的第一层的参数,b1代表更新后的模型第一层的偏执,w2代表更新后的模型第二层的参数,b2代表更新后的模型第二层的偏执。
一种互联网反馈评论的生成系统,其特征在于,包括用户信息获取模块、评论获取模块、切词模块、分类模块、统计反馈模块及报告制作模块,其中:
所述用户信息获取模块用于获取用户的身份信息;
所述评论获取模块用于获取用户在互联网上的评论信息;
所述切词模块用于将评论信息进行切词得到该类评论信息的评论搜索关键词,用户身份信息进行切词得到该类用户身份信息的搜索关键词;
所述分类模块用于将用户身份信息与预设类别搜索关键词对比,并将符合所述预设类别搜索关键词的用户及评论信息展示于预设类别搜索关键词类别中;将用户身份信息与用户身份信息搜索关键词进行对比,并将符合所述用户身份信息搜索关键词的用户及评论信息展示于用户身份信息搜索关键词的类别中;将评论信息与评论信息搜索关键词进行对比,并将符合所述评论信息搜索关键词的用户及评论信息展示于该评论信息搜索关键词的类别中。
所述统计反馈模块用于将所述的分类后用户身份信息根据浏览量、点赞量以及评论信息量分别进行统计信息将每项占比最多的三个类别的数据展示于评论面板上或其所发布内容的相关位置,并根据统计的信息可以进行搜索查询得到对应的用户、评论信息及发布内容;
所述报告制作模块用于开启关键字的筛选以及搜索功能。
优选地,所述预设类别关键词包括用户身份信息以及用户身份信息关键词中的任意一项或多项,所述类别包括性别、年龄段、行业、星座、属相、教育程度、国籍/非国籍、所处地区等中的任一类或多类;
所述报告制作模板包括关键词筛选及搜索功能,其中:
所述关键词筛选用于基于关键词信息对于用户身份信息、评论信息的显示信息以过滤掉不包含此关键词的用户身份信息及评论信息;
所述搜索功能用于基于关键词信息对于用户身份信息、评论信息的显示以便于更快速的找到用户身份信息及评论信息。
优选地,所述对身份信息按照预设分类关键词进行分类处理,包括如下步骤:
步骤A1,构建所述的用户身份信息数据,其过程如下:
Figure BDA0002462222020000061
其中,X为用户信息的总数据,x1代表特征年龄段,x2代表特征性别,xi代表行业等等,i代表每一个用户的特征数量,m代表做模型分类收集的用户的数量;
步骤A2,根据上述的用户身份信息的数据进行模型选取,其过程如下:
z1=X*w1+b1
Figure BDA0002462222020000071
z2=h1*w2+b2
Figure BDA0002462222020000072
其中,X代表用户身份信息总数据,w1模型第一层的参数,b1代表模型第一层的偏执,w2代表模型第二层的参数,b2代表模型第二层的偏执,z1代表线性变换后的用户身份信息数据,h1代表激活后的用户信息数据转成非线性预测用户身份信息类别,z2,h2与z1,h1相同,只不过把网络层数加深效果会更好;
步骤A3,根据上述模型选用的代价函数表达式如下:
Figure BDA0002462222020000073
其中,J代表损失,m代表模型分类收集的用户身份信息的数量,h2代表非线性模型预测的用户身份信息类别,y代表用户身份信息的真实类别;
步骤A4,根据上述步骤,对其模型进行训练步骤如下:
Figure BDA0002462222020000074
Figure BDA0002462222020000081
Figure BDA0002462222020000082
Figure BDA0002462222020000083
其中,m代表模型分类收集的用户身份信息的数量,T相当于对其矩阵进行转置操作,y代表用户身份信息的真实类别,h2代表非线性模型预测的用户身份信息类别,X代表用户身份信息总数据,h1代表激活后的用户信息数据转成非线性预测用户身份信息,dw1代表反向训练了过程反向传播第一层的参数,db1代表反向训练了过程反向传播第一层的偏执,dw2代表反向训练了过程反向传播第二层的参数,db2代表反向训练了过程反向传播第二层的偏执的参数;
步骤A5,根据上述步骤进行一下参数更新,其步骤如下:
w1=w1-α*dw1
b1=b1-α*db1
w2=w2-α*dw2
b2=b2-α*db2
其中,dw1代表反向训练了过程反向传播第一层的参数,db1代表反向训练了过程反向传播第一层的偏执,dw2代表反向训练了过程反向传播第二层的参数,db2代表反向训练了过程反向传播第二层的偏执的参数,α代表学习率,学习率一般初始设置0.01,w1模型更新后的第一层的参数,b1代表更新后的模型第一层的偏执,w2代表更新后的模型第二层的参数,b2代表更新后的模型第二层的偏执。
此算法模型可以实现对用户身份信息进行分类处理,对用户身份信息进行分类处理不局限于此算法。
综上所述,本申请公开了一种互联网反馈评论的生成方法,获取用户的身份信息,将所述的用户身份信息按照预设分类关键词进行分类处理,获取用户在互联网上的评论信息,将所述的评论信息进行切词得到该类评论信息的评论搜索关键词,将所述的用户身份信息进行切词得到该类用户身份信息的搜索关键词,将用户身份信息与预设类别搜索关键词对比,并将符合所述预设类别搜索关键词的用户及评论信息展示于预设搜索关键词类别中;将用户身份信息与用户身份信息搜索关键词进行对比,并将符合所述用户身份信息搜索关键词的用户及评论信息展示于用户身份信息搜索关键词的类别中;将评论信息与评论信息搜索关键词进行对比,并将符合所述评论信息搜索关键词的用户及评论信息展示于该评论信息搜索关键词的类别中,将所述的分类后用户身份信息以及评论信息进行统计信息,并将其展示于评论板上,并根据统计的信息可以进行搜索查询得到对应的用户身份信息及评论信息。
与现有技术相比本发明以用户的互联网评论进行分析的口碑分析方法,人力成本相对较低、回收难度简单;用户的一切行为都是其自身偏好的真实反映,可以保证真实性;最后由于是对整体用户的大数据分析,而非样本推测整体,分析的准确率高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请公开的一种基于用户行为的数据分析方法的实施例1的流程图;
图2为本申请公开的一种基于用户行为的数据分析方法的实施例2的流程图;
图3为本申请公开的一种基于用户行为的数据分析方法的实施例3的流程图;
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,为本申请公开的一种互联网反馈评论的生成方法的实施例1的流程图,包括:
S101、获取用户在互联网上的身份信息;
S102、将所述的用户身份信息按照预设分类关键词进行分类处理;
S103、获取用户在互联网上的评论信息;
获取用户身份信息采用用户注册的方式进行身份信息的获取及报存,获取评论信息的方法为采用爬虫自动获取,可以采用手写爬虫或采用成熟的爬虫框架,如scrapy等。用户的评论信息的来源包括:
综合社区+垂直频道,该类型网站特点话题涉及广泛,通过子论坛、频道等方式来明确划分出垂直行业;
垂直社区,该网站特点是专注于某一品类(甚至某一品牌)的讨论,如汽车之家(汽车行业)、中关村手机论坛(手机)等;
专业点拼类网站,该网站只收集某一品类的评论数据,不直接售卖该品类商品,如中关村手机点评等;
电商点评区,该网站本身是电商网站,且拥有产品点评区,京东、一号店等均属于此类。
S103、将所述的评论信息进行切词得到该类评论信息的评论搜索关键词,将所述的用户身份信息进行切词得到该类用户身份信息的搜索关键词;
将获得的评论信息进行切词,方法为:将语料按标点符号断句,,针对每一个子句进行切词,汇总统计所有出现的词语频率并保存,建议限定切词后词语长度在2—5个汉字之间;
将所述的用户身份信息进行切词,方法为:根据用户身份信息,针对每一个字句进行切词,汇总统计所有出现的词语频率并保存,建议限定切词后词语长度在2—5个汉字之间。
S104、将用户身份信息与预设类别搜索关键词对比,并将符合所述预设类别搜索关键词的用户及评论信息展示于预设搜索关键词类别中;将用户身份信息与用户身份信息搜索关键词进行对比,并将符合所述用户身份信息搜索关键词的用户及评论信息展示于用户身份信息搜索关键词的类别中;将评论信息与评论信息搜索关键词进行对比,并将符合所述评论信息搜索关键词的用户及评论信息展示于该评论信息搜索关键词的类别中;
将切词结果,即评论搜索关键字、用户身份信息搜索关键字作为其搜索关键词,例如,根据某评论信息中切词后为一万个词语,只要此评论信息中出现了评论搜索关键词一次或多次,就可将此评论信息划此评论信息搜索关键词的类别中。
S105、所述的分类后用户身份信息以及评论信息进行统计信息,并根据统计信息进行反馈搜索;
将所述的分类后用户身份信息根据其用户浏览量,点赞量已经评论信息量进行数据统计,展示与评论面板上;
反馈搜索可以并根据统计的信息可以进行搜索查询得到对应的用户身份信息及评论信息。
综上所述,本申请公开了一种基于互联网反馈评论的生成方法及系统,本申请公开了一种互联网反馈评论的生成方法,获取用户的身份信息,将所述的用户身份信息按照预设分类关键词进行分类处理,获取用户在互联网上的评论信息,将所述的评论信息进行切词得到该类评论信息的评论搜索关键词,将所述的用户身份信息进行切词得到该类用户身份信息的搜索关键词,将用户身份信息与预设类别关键词对比,并将符合所述预设类别关键词的用户及评论信息展示于该对应的关键词类别中,将用户身份信息与用户身份信息搜索关键词进行对比,并将符合所述用户身份信息搜索关键词的用户及评论信息展示于该对应的关键词的类别中,将评论信息与评论信息搜索关键词进行对比,并将符合所述评论信息搜索关键词的用户及评论信息展示于该对应关键词的类别中,将所述的分类后用户身份信息以及评论信息进行统计信息,并将其展示于评论板上或其所对应发布内容的相关位置,并根据统计的信息可以进行搜索查询得到对应的用户、评论信息及发布内容。
与现有技术相比本发明以用户的互联网评论进行分析的口碑分析方法,人力成本相对较低、回收难度简单;用户的一切行为都是其自身偏好的真实反映,可以保证真实性;最后由于是对整体用户的大数据分析,而非样本推测整体,分析的准确率高。
如图2所示,为本申请公开的一种基于互联网用户评论的数据分析方法的实施例2的流程图,包括:
S201、获取用户在互联网上的身份信息;
获取用户身份信息的方法用户登录注册时对其用户的身份信息进行保存。
S202、将所述的用户身份信息按照预设分类关键词进行分类处理;
所述预设的类别关键词包括性别、年龄段、行业、星座、属相、教育程度、国籍/非国籍、所处地区等中的任一类或多类;
基于预设的类别将其用户身份信息进行统计并归纳其类别中。
S203、获取用户在互联网上的评论信息;
获取用户评论信息的方法为采用爬虫自动获取,可以采用手写爬虫或采用成熟的爬虫框架,如scrapy等。用户的评论信息的来源包括:
综合社区+垂直频道,该类型网站特点话题涉及广泛,通过子论坛、频道等方式来明确划分出垂直行业;
垂直社区,该网站特点是专注于某一品类(甚至某一品牌)的讨论,如汽车之家(汽车行业)、中关村手机论坛(手机)等;
专业点拼类网站,该网站只收集某一品类的评论数据,不直接售卖该品类商品,如中关村手机点评等;
电商点评区,该网站本身是电商网站,且拥有产品点评区,京东、一号店等均属于此类。
S204、对评论信息进行清洗,去除评论信息中的杂质;
杂质包括非用户生成内容评论信息。
S205、将所述的评论信息进行切词得到该类评论信息的评论搜索关键词,将所述的用户身份信息进行切词得到该类用户身份信息的搜索关键词;
将获得的评论信息进行切词,方法为:将语料按标点符号断句,,针对每一个子句进行切词,汇总统计所有出现的词语频率并保存,建议限定切词后词语长度在2—5个汉字之间;
将获得的用户身份信息进行切词,方法为:根据用户身份信息,针对每一个子句进行切词,汇总统计所有出现的词语频率并保存,建议限定切词后词语长度在2—5个汉字之间。
S206、将用户身份信息与预设类别搜索关键词对比,并将符合所述预设类别搜索关键词的用户及评论信息展示于预设搜索关键词类别中;将用户身份信息与用户身份信息搜索关键词进行对比,并将符合所述用户身份信息搜索关键词的用户及评论信息展示于用户身份信息搜索关键词的类别中;将评论信息与评论信息搜索关键词进行对比,并将符合所述评论信息搜索关键词的用户及评论信息展示于该评论信息搜索关键词的类别中;
将切词结果,即评论搜索关键字、用户身份信息搜索关键字作为其搜索关键词,例如,根据某评论信息中切词后为一万个词语,只要此评论信息中出现了评论搜索关键词一次或多次,就可将此评论信息划此评论信息搜索关键词的类别中。
S207、所述的分类后用户身份信息以及评论信息进行统计信息,将其展示其评论面板上或其所对应发布内容的相关位置,并根据统计的信息可以进行搜索查询得到对应的用户、评论信息及发布内容,根据其搜索关键词可以搜索到与搜索关键词相关的此评论信息以及其用户。
构建评论面板,将所述的分类后用户身份信息根据其用户浏览量,点赞量已经评论信息量进行数据统计,展示与评论面板上或其所对应发布内容的相关位置;
反馈搜索,将其统计的信息,即用户浏览量,用户点赞量以及用户评论信息量对其进行搜索,例如通过搜索浏览量中男性最多的信息可以查询到以下的评论信息、用户、及发布内容等。
在本发明的一个优选实施例中,对用户的身份信息分类的处理,包括如下步骤:
步骤A1,构建所述的用户身份信息数据,其过程如下:
Figure BDA0002462222020000161
其中,X为用户信息的总数据,x1代表特征年龄段,x2代表特征性别,xi代表行业等等,i代表每一个用户的特征数量,m代表做模型分类收集的用户的数量;
步骤A2,根据上述的用户身份信息的数据进行模型选取,其过程如下:
z1=X*w1+b1
Figure BDA0002462222020000171
z2=h1*w2+b2
Figure BDA0002462222020000172
其中,X代表用户身份信息总数据,w1模型第一层的参数,b1代表模型第一层的偏执,w2代表模型第二层的参数,b2代表模型第二层的偏执,z1代表线性变换后的用户身份信息数据,h1代表激活后的用户信息数据转成非线性预测用户身份信息类别,z2,h2与z1,h1相同,只不过把网络层数加深效果会更好;
步骤A3,根据上述模型选用的代价函数表达式如下:
Figure BDA0002462222020000173
其中,J代表损失,m代表模型分类收集的用户身份信息的数量,h2代表非线性模型预测的用户身份信息类别,y代表用户身份信息的真实类别;
步骤A4,根据上述步骤,对其模型进行训练步骤如下:
Figure BDA0002462222020000174
Figure BDA0002462222020000175
Figure BDA0002462222020000176
Figure BDA0002462222020000177
其中,m代表模型分类收集的用户身份信息的数量,T相当于对其矩阵进行转置操作,y代表用户身份信息的真实类别,h2代表非线性模型预测的用户身份信息类别,X代表用户身份信息总数据,h1代表激活后的用户信息数据转成非线性预测用户身份信息,dw1代表反向训练了过程反向传播第一层的参数,db1代表反向训练了过程反向传播第一层的偏执,dw2代表反向训练了过程反向传播第二层的参数,db2代表反向训练了过程反向传播第二层的偏执;
步骤A5,根据上述步骤进行一下参数更新,其步骤如下:
w1=w1-α*dw1
b1=b1-α*db1
w2=w2-α*dw2
b2=b2-α*db2
其中,dw1代表反向训练了过程反向传播第一层的参数,db1代表反向训练了过程反向传播第一层的偏执,dw2代表反向训练了过程反向传播第二层的参数,db2代表反向训练了过程反向传播第二层的偏执,α代表学习率一般初始设置为0.01,w1模型更新后的第一层的参数,b1代表更新后的模型第一层的偏执,w2代表更新后的模型第二层的参数,b2代表更新后的模型第二层的偏执。
有益效果:利用以上算法采用了深度学习技术,使用神经网络模仿人脑进行参数的训练拟合,可以达到用户身份信息更好的拟合模型;采用交叉熵函数使得预测的用户身份信息类别与真实的用户身份信息类别的误差率更小,可以使机器代替人脑进行分类操作,可以达到同步效果,当用户刚注册身份信息,后天就可以确定出当前信息的类别,解决了实时性能,提高了互联网反馈评论的生成效率,达到与专利主题的契合,为后期深度学习项目打下了良好的基础,此算法模型可以实现对用户身份信息进行分类处理,对用户身份信息进行分类处理不局限于此算法。
如图3所示,为本申请公开的一种基于互联网用户评论的数据分析系统的实施例1的结构示意图,用户信息获取模块101、评论获取模块102、切词模块103、分类模块104、统计反馈模块105及报告制作模块106,其中:
获取用户身份模块101用于获取用户在互联网上的身份信息;
评论获取模块102用于获取用户在互联网上的评论信息;
获取用户评论信息的方法为采用爬虫自动获取,可以采用手写爬虫或采用成熟的爬虫框架,如scrapy等。用户的评论信息的来源包括:
综合社区+垂直频道,该类型网站特点话题涉及广泛,通过子论坛、频道等方式来明确划分出垂直行业;
垂直社区,该网站特点是专注于某一品类(甚至某一品牌)的讨论,如汽车之家(汽车行业)、中关村手机论坛(手机)等;
专业点拼类网站,该网站只收集某一品类的评论数据,不直接售卖该品类商品,如中关村手机点评等;
电商点评区,该网站本身是电商网站,且拥有产品点评区,京东、一号店等均属于此类。
切词模块103将所述的评论信息进行切词得到该类评论信息的评论搜索关键词,将所述的用户身份信息进行切词得到该类用户身份信息的搜索关键词;
将获得的评论信息进行切词,方法为:将语料按标点符号断句,,针对每一个子句进行切词,汇总统计所有出现的词语频率并保存,建议限定切词后词语长度在2—5个汉字之间;
将所述的用户身份信息进行切词,方法为:根据用户身份信息,针对每一个字句进行切词,汇总统计所有出现的词语频率并保存,建议限定切词后词语长度在2—5个汉字之间。
分类模块104用于将用户身份信息与预设类别搜索关键词对比,并将符合所述预设类别搜索关键词的用户及评论信息展示于预设搜索关键词类别中;将用户身份信息与用户身份信息搜索关键词进行对比,并将符合所述用户身份信息搜索关键词的用户及评论信息展示于用户身份信息搜索关键词的类别中;将评论信息与评论信息搜索关键词进行对比,并将符合所述评论信息搜索关键词的用户及评论信息展示于该评论信息搜索关键词的类别中;
将切词结果,即评论搜索关键字、用户身份信息搜索关键字作为其搜索关键词,例如,根据某评论信息中切词后为一万个词语,只要此评论信息中出现了评论搜索关键词一次或多次,就可将此评论信息划此评论信息搜索关键词的类别中。
统计反馈模块105用于所述的分类后用户身份信息以及评论信息进行统计,并将其展示评论面板上或其所对应发布内容的相关位置;
,根据其搜索关键词可以搜索到与搜索关键词相关的此评论信息以及其用户。
构建评论面板,将所述的分类后用户身份信息根据其用户浏览量,点赞量已经评论信息量进行数据统计,展示与评论面板上或其所对应发布内容的相关位置;
反馈搜索,将其统计的信息,即用户浏览量,用户点赞量以及用户评论信息量对其进行搜索,例如通过搜索浏览量男性最多的信息可以查询到以下的评论信息、用户及发布内容等。
所述报告制作模块106用于开启关键字的筛选以及搜索功能;
综上所述,本申请公开了一种基于互联网反馈评论的生成方法及系统,本申请公开了一种互联网反馈评论的生成方法,获取用户的身份信息,将所述的用户身份信息按照预设分类关键词进行分类处理,获取用户在互联网上的评论信息,将所述的评论信息进行切词得到该类评论信息的评论搜索关键词,将所述的用户身份信息进行切词得到该类用户身份信息的搜索关键词,将用户身份信息与预设类别关键词对比,并将符合所述预设类别关键词的用户及评论信息展示于该对应的关键词类别中,将用户身份信息与用户身份信息搜索关键词进行对比,并将符合所述用户身份信息搜索关键词的用户及评论信息展示于该对应的关键词的类别中,将评论信息与评论信息搜索关键词进行对比,并将符合所述评论信息搜索关键词的用户及评论信息展示于该对应关键词的类别中,将所述的分类后用户身份信息以及评论信息进行统计信息,并将其展示于评论板上或其所对应发布内容的相关位置,可对其统计信息进行搜索得到对于的用户、评论信息及发布内容等。与现有技术相比本发明以用户的互联网评论进行分析的口碑分析方法,由于是自动爬取各网站相应的语料,人力成本相对较低、回收难度简单;用户的一切行为都是其自身偏好的真实反映,可以保证真实性;最后由于是对整体用户的大数据分析,而非样本推测整体,分析的准确率高。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种互联网反馈评论的生成方法,其特征在于,包括:
获取用户的身份信息;
将所述的用户身份信息按照预设分类关键词进行分类处理;
获取用户在互联网上的评论信息;
将所述的评论信息进行切词得到该类评论信息的评论搜索关键词;
将所述的用户身份信息进行切词得到该类用户身份信息的搜索关键词;
将用户身份信息与预设类别搜索关键词对比,并将符合所述预设类别搜索关键词的用户及评论信息展示于预设类别搜索关键词类别中;
将用户身份信息与用户身份信息搜索关键词进行对比,并将符合所述用户身份信息搜索关键词的用户及评论信息展示于用户身份信息搜索关键词的类别中;
将评论信息与评论信息搜索关键词进行对比,并将符合所述评论信息搜索关键词的用户及评论信息展示于该评论信息搜索关键词的类别中;
将所述的分类后用户身份信息以及评论信息进行统计信息,并根据统计信息进行反馈、搜索。
2.如权利要求1所述的方法,其特征在于,在所述将所述评论信息进行切词得到该评论信息的评论词语信息之前还包括:
对所述评论信息进行清洗,去除所述评论信息中的杂质。
3.如权利要求1所述的方法,其特征在于,所述将用户身份信息基于预设的类别关键词分类处理步骤如下:
所述预设的类别关键词包括性别、年龄段、行业、星座、属相、教育程度、国籍/非国籍、所处地区等中的任一类或多类;
基于预设的类别将其用户身份信息进行统计并归纳其类别中。
4.如权利要求2所述的方法,其特征在于,所述杂质包括非用户生成内容评论信息。
5.如权利要求1所述的方法,其特征在于,所述统计信息包括:根据用户身份信息及评论信息统计得到的用户浏览量、用户点赞量以及用户评论信息量等一类或多类。
6.如权利要求1所述的方法,其特征在于:所述对身份信息按照预设分类关键词进行分类处理,包括如下步骤:
步骤A1,构建所述的用户身份信息数据,其过程如下:
Figure FDA0002462222010000021
其中,X为用户信息的总数据,x1代表特征年龄段,x2代表特征性别,xi代表行业等等,i代表每一个用户的特征数量,m代表做模型分类收集的用户的数量;
步骤A2,根据上述的用户身份信息的数据进行模型选取,其过程如下:
z1=X*w1+b1
Figure FDA0002462222010000031
z2=h1*w2+b2
Figure FDA0002462222010000032
其中,X代表用户身份信息总数据,w1模型第一层的参数,b1代表模型第一层的偏执,w2代表模型第二层的参数,b2代表模型第二层的偏执,z1代表线性变换后的用户身份信息数据,h1代表激活后的用户信息数据转成非线性预测用户身份信息类别,z2,h2与z1,h1相同,只不过把网络层数加深效果会更好;
步骤A3,根据上述模型选用的代价函数表达式如下:
Figure FDA0002462222010000033
其中,J代表损失,m代表模型分类收集的用户身份信息的数量,h2代表非线性模型预测的用户身份信息类别,y代表用户身份信息的真实类别;
步骤A4,根据上述步骤,对其模型进行训练步骤如下:
Figure FDA0002462222010000034
Figure FDA0002462222010000035
Figure FDA0002462222010000036
Figure FDA0002462222010000037
其中,m代表模型分类收集的用户身份信息的数量,T相当于对其矩阵进行转置操作,y代表用户身份信息的真实类别,h2代表非线性模型预测的用户身份信息类别,X代表用户身份信息总数据,h1代表激活后的用户信息数据转成非线性预测用户身份信息,dw1代表反向训练了过程反向传播第一层的参数,db1代表反向训练了过程反向传播第一层的偏执,dw2代表反向训练了过程反向传播第二层的参数,db2代表反向训练了过程反向传播第二层的偏执;
步骤A5,根据上述步骤进行一下参数更新,其步骤如下:
w1=w1-α*dw1
b1=b1-α*db1
w2=w2-α*dw2
b2=b2-α*db2
其中,dw1代表反向训练了过程反向传播第一层的参数,db1代表反向训练了过程反向传播第一层的偏执,dw2代表反向训练了过程反向传播第二层的参数,db2代表反向训练了过程反向传播第二层的偏执,α代表学习率一般初始设置为0.01,w1模型更新后的第一层的参数,b1代表更新后的模型第一层的偏执,w2代表更新后的模型第二层的参数,b2代表更新后的模型第二层的偏执。
7.一种互联网反馈评论的生成系统,其特征在于,包括用户信息获取模块、评论获取模块、切词模块、分类模块、统计模块及报告制作模块,其中:
所述用户信息获取模块用于获取用户的身份信息;
所述评论获取模块用于获取用户在互联网上的评论信息;
所述切词模块用于将评论信息进行切词得到该类评论信息的评论搜索关键词,用户身份信息进行切词得到该类用户身份信息的搜索关键词;
所述分类模块用于将用户身份信息与预设类别搜索关键词对比,并将符合所述预设类别搜索关键词的用户及评论信息展示于预设类别搜索关键词类别中;将用户身份信息与用户身份信息搜索关键词进行对比,并将符合所述用户身份信息搜索关键词的用户及评论信息展示于用户身份信息搜索关键词的类别中;将评论信息与评论信息搜索关键词进行对比,并将符合所述评论信息搜索关键词的用户及评论信息展示于该评论信息搜索关键词的类别中。
所述统计模块用于将所述的分类后用户身份信息根据浏览量、点赞量以及评论信息量分别进行统计信息将每项占比最多的三个类别的数据展示于评论面板上或其所发布内容的相关位置,并根据统计的信息可以进行搜索查询得到对应的用户、评论信息及发布内容;
所述报告制作模块用于开启关键字的筛选以及搜索功能。
8.如权利要求6所述的系统,其特征在于,还包括信息计算模块,其中:所述的信息计算模块用于计算所述用户身份信息和评论信息的进行数据计算。
9.如权利要求6所述的系统,其特征在于,还包括信息清洗模块,其中:
所述信息清洗模块用于对所述评论信息进行清洗,去除所述评论信息中的杂质。
10.如权利要求7所述的系统,其特征在于:所述对身份信息按照预设分类关键词进行分类处理,包括如下步骤:
步骤A1,构建所述的用户身份信息数据,其过程如下:
Figure FDA0002462222010000061
其中,X为用户信息的总数据,x1代表特征年龄段,x2代表特征性别,xi代表行业等等,i代表每一个用户的特征数量,m代表做模型分类收集的用户的数量;
步骤A2,根据上述的用户身份信息的数据进行模型选取,其过程如下:
z1=X*w1+b1
Figure FDA0002462222010000062
z2=h1*w2+b2
Figure FDA0002462222010000063
其中,X代表用户身份信息总数据,w1模型第一层的参数,b1代表模型第一层的偏执,w2代表模型第二层的参数,b2代表模型第二层的偏执,z1代表线性变换后的用户身份信息数据,h1代表激活后的用户信息数据转成非线性预测用户身份信息类别,z2,h2与z1,h1相同,只不过把网络层数加深效果会更好;
步骤A3,根据上述模型选用的代价函数表达式如下:
Figure FDA0002462222010000064
其中,J代表损失,m代表模型分类收集的用户身份信息的数量,h2代表非线性模型预测的用户身份信息类别,y代表用户身份信息的真实类别;
步骤A4,根据上述步骤,对其模型进行训练步骤如下:
Figure FDA0002462222010000071
Figure FDA0002462222010000072
Figure FDA0002462222010000073
Figure FDA0002462222010000074
其中,m代表模型分类收集的用户身份信息的数量,T相当于对其矩阵进行转置操作,y代表用户身份信息的真实类别,h2代表非线性模型预测的用户身份信息类别,X代表用户身份信息总数据,h1代表激活后的用户信息数据转成非线性预测用户身份信息,dw1代表反向训练了过程反向传播第一层的参数,db1代表反向训练了过程反向传播第一层的偏执,dw2代表反向训练了过程反向传播第二层的参数,db2代表反向训练了过程反向传播第二层的偏执的参数;
步骤A5,根据上述步骤进行一下参数更新,其步骤如下:
w1=w1-α*dw1
b1=b1-α*db1
w2=w2-α*dw2
b2=b2-α*db2
其中,dw1代表反向训练了过程反向传播第一层的参数,db1代表反向训练了过程反向传播第一层的偏执,dw2代表反向训练了过程反向传播第二层的参数,db2代表反向训练了过程反向传播第二层的偏执的参数,α代表学习率,学习率一般初始设置0.01,w1模型更新后的第一层的参数,b1代表更新后的模型第一层的偏执,w2代表更新后的模型第二层的参数,b2代表更新后的模型第二层的偏执。
CN202010323220.3A 2020-04-22 2020-04-22 一种互联网反馈评论的生成方法及系统 Pending CN111444434A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010323220.3A CN111444434A (zh) 2020-04-22 2020-04-22 一种互联网反馈评论的生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010323220.3A CN111444434A (zh) 2020-04-22 2020-04-22 一种互联网反馈评论的生成方法及系统

Publications (1)

Publication Number Publication Date
CN111444434A true CN111444434A (zh) 2020-07-24

Family

ID=71651887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010323220.3A Pending CN111444434A (zh) 2020-04-22 2020-04-22 一种互联网反馈评论的生成方法及系统

Country Status (1)

Country Link
CN (1) CN111444434A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817265A (zh) * 2022-04-28 2022-07-29 北京辰行科技有限公司 一种利用大数据服务器的金融信息获取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337328A1 (en) * 2013-05-09 2014-11-13 Veooz Labs Private Limited System and method for retrieving and presenting concept centric information in social media networks
CN106294532A (zh) * 2016-05-18 2017-01-04 广东电网有限责任公司信息中心 基于微博情感分析的形象评价算法
CN106878242A (zh) * 2016-06-02 2017-06-20 阿里巴巴集团控股有限公司 一种确定用户身份类别的方法及装置
CN108364199A (zh) * 2018-02-28 2018-08-03 北京搜狐新媒体信息技术有限公司 一种基于互联网用户评论的数据分析方法及系统
CN109101553A (zh) * 2018-07-11 2018-12-28 政采云有限公司 用于购买方非受益方的行业的采购用户评价方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140337328A1 (en) * 2013-05-09 2014-11-13 Veooz Labs Private Limited System and method for retrieving and presenting concept centric information in social media networks
CN106294532A (zh) * 2016-05-18 2017-01-04 广东电网有限责任公司信息中心 基于微博情感分析的形象评价算法
CN106878242A (zh) * 2016-06-02 2017-06-20 阿里巴巴集团控股有限公司 一种确定用户身份类别的方法及装置
CN108364199A (zh) * 2018-02-28 2018-08-03 北京搜狐新媒体信息技术有限公司 一种基于互联网用户评论的数据分析方法及系统
CN109101553A (zh) * 2018-07-11 2018-12-28 政采云有限公司 用于购买方非受益方的行业的采购用户评价方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817265A (zh) * 2022-04-28 2022-07-29 北京辰行科技有限公司 一种利用大数据服务器的金融信息获取方法
CN114817265B (zh) * 2022-04-28 2023-08-18 深圳市领航财富教育科技有限公司 一种利用大数据服务器的金融信息获取方法

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN103678576B (zh) 基于动态语义分析的全文检索系统
CN103678564B (zh) 一种基于数据挖掘的互联网产品调研系统
US9165254B2 (en) Method and system to predict the likelihood of topics
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
US20210056571A1 (en) Determining of summary of user-generated content and recommendation of user-generated content
CN108364199B (zh) 一种基于互联网用户评论的数据分析方法及系统
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
US20110213761A1 (en) Searchable web site discovery and recommendation
CN104933081A (zh) 一种搜索建议提供方法及装置
CN110390052B (zh) 搜索推荐方法、ctr预估模型的训练方法、装置及设备
CN107239564B (zh) 一种基于监督主题模型的文本标签推荐方法
CN103365839A (zh) 一种搜索引擎的推荐搜索方法和装置
CN109388743B (zh) 语言模型的确定方法和装置
CN110888990A (zh) 文本推荐方法、装置、设备及介质
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
CN110147494A (zh) 信息搜索方法、装置,存储介质及电子设备
CN113076735A (zh) 目标信息的获取方法、装置和服务器
CN109948154A (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN112149422A (zh) 一种基于自然语言的企业新闻动态监测方法
CN103942232B (zh) 用于挖掘意图的方法和设备
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN111444434A (zh) 一种互联网反馈评论的生成方法及系统
CN112749238A (zh) 搜索排序方法、装置、电子设备以及计算机可读存储介质
CN111966899A (zh) 搜索排序方法、系统及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20240209

AD01 Patent right deemed abandoned