CN109388715A - 用户数据的分析方法及装置 - Google Patents
用户数据的分析方法及装置 Download PDFInfo
- Publication number
- CN109388715A CN109388715A CN201811251733.7A CN201811251733A CN109388715A CN 109388715 A CN109388715 A CN 109388715A CN 201811251733 A CN201811251733 A CN 201811251733A CN 109388715 A CN109388715 A CN 109388715A
- Authority
- CN
- China
- Prior art keywords
- comment
- data
- user
- classification
- training pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用户数据的分析方法及装置,其中,用户数据分析方法包括:获取多条用户评论数据;将多条用户评论数据与预设置的多个评论类别分别进行匹配操作;根据匹配成功的用户评论数据生成训练模型;将未匹配成功的用户评论数据输入到训练模型,以确定未匹配成功的用户评论数据所属的评论类别;根据所属评论类别的用户评论数据提取待分析的评论文本,以便于分析评论观点倾向。本发明提供的用户数据分析方法计算较简单且不容易出错。
Description
技术领域
本发明公开涉及数据分析领域,具体涉及一种用户数据的分析方法及装置。
背景技术
在O2O(Online To Offline,在线离线/线上到线下)餐饮外卖平台上,有大量餐饮用户对用餐体验进行评论。有关于平台的、物流的以及商户菜品的,有好评与差评,甚至有垃圾信息。这些评论文本都是自然语言,比较难以区分其具体的主题倾向。对这些用户评论进行大数据分析,找到用户的共性评价,对改进平台用户体验,进行针对性的用户营销和回馈,具有非常重要的意义。
目前的对用户评论分析方法主要是基于文本相似度来实现的,通过对每个评论文本分词,并建立其tf-idf(term frequency–inverse documentfrequency,词频-逆文本频率指数)向量,计算每个未匹配文本与标注好观点倾向的目标文本的相似度,找到最相似的观点倾向。
然而,基于文本相似度的用户评论分析方法存在如下问题:
1、需要对文本进行分词,工序繁琐,也容易分错;
2、目标文本分类的tf-idf向量的设计比较困难,相似度计算复杂度较高。
发明内容
有鉴于此,本发明实施例提供一种用户数据的分析方法及装置,以解决现有技术中的用户评论分析方法存在的计算复杂、容易出错的问题。
根据本发明实施例的第一方面,提供一种用户数据的分析方法,该方法包括:获取多条用户评论数据;将多条用户评论数据与预设置的多个评论类别分别进行匹配操作;根据匹配成功的用户评论数据生成训练模型;将未匹配成功的用户评论数据输入到训练模型,以确定未匹配成功的用户评论数据所属的评论类别;根据所属评论类别的用户评论数据提取待分析的评论文本,以便于分析评论观点倾向。
根据本发明实施例的第二方面,提供一种用户数据的分析装置,该装置包括:数据获取单元,用于获取多条用户评论数据;匹配单元,用于将多条用户评论数据与预设置的多个评论类别分别进行匹配操作;训练模型生成单元,用于根据匹配成功的用户评论数据生成训练模型;评论类别确定单元,用于将未匹配成功的用户评论数据输入到训练模型,以确定未匹配成功的用户评论数据所属的评论类别;分析单元,用于根据所属评论类别的用户评论数据提取待分析的评论文本,以便于分析评论观点倾向。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
根据本发明实施例的第四方面,提供一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
本发明实施例通过根据匹配类别成功的用户评论数据生成训练模型,将未匹配成功的用户评论数据直接输入到该训练模型来确定评论类别,之后根据确定评论类别的评论数据提取的待分析评论文本来分析观点倾向,由于无需对评论数据进行分词和建立tf-idf向量,因而相比于现有技术,本发明实施例提供的用户评论分析方法计算较简单且不容易出错。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是根据本发明实施例的用户数据分析方法的流程图;
图2是根据本发明实施例的9类关键词差评类别的示意图;
图3是根据本发明实施例的用户数据分析方法的具体流程图;
图4是根据本发明实施例的用户数据分析装置的结构框图;
图5是根据本发明实施例的训练模型生成单元403的结构框图;
图6是根据本发明实施例的用户数据分析装置的具体结构框图;
图7是根据本发明实施例的最优参数确定单元406的结构框图;
图8是根据本发明实施例的评论类别确定单元404的结构框图;
图9是根据本发明实施例的分析单元405的结构框图;
图10是根据本发明实施例的用户数据分析装置的应用场景图;
图11是根据本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1是根据本发明实施例的用户数据分析方法的流程图,如图1所示,该方法包括:
步骤101,获取多条用户评论数据;
步骤102,将多条用户评论数据与预设置的多个评论类别分别进行匹配操作;
步骤103,根据匹配成功的用户评论数据生成训练模型;
步骤104,将未匹配成功的用户评论数据输入到训练模型,以确定未匹配成功的用户评论数据所属的评论类别;
步骤105,根据所属评论类别的用户评论数据提取待分析的评论文本,以便于分析评论观点倾向。
通过根据匹配类别成功的用户评论数据生成训练模型,将未匹配成功的用户评论数据直接输入到该训练模型来确定评论类别,之后根据确定评论类别的评论数据提取的待分析评论文本来分析观点倾向,由于无需对评论数据进行分词和建立tf-idf向量,因而相比于现有技术,本发明实施例提供的用户评论分析方法计算较简单且不容易出错。
在实际操作中,预设置的多个评论类别包括好评和N个差评类别,其中,N为正整数。优选地,N可以取9。
在一个实例中,评论类别可以用关键词表示,图2示出了9类关键词差评,这些都是需要餐饮O2O平台重点关注的,因而挑选了一些典型关键词,以用于匹配用户评论。如图2所示,9类关键词都是差评,二级分类分别为商家、物流、平台3类关键词,三级分类是具体在各自二级分类领域内的3个小分类。
好评的关键词可以是“非常好”、“非常快”、“给力”、“真好”、“好吃”、“味道好”、“速度快”、“实惠”等。
通过步骤102的匹配操作,可以筛选出10类用户评论数据,但是仍有大部分评论数据未匹配到所属的类别,此时,通过步骤103-步骤104来确定这些未匹配成功的用户评论数据所属的类别。
在步骤103中,根据匹配成功的用户评论数据生成训练模型包括:首先,根据匹配成功的用户评论数据设置目标文本;之后根据目标文本进行模型训练以生成训练模型。
具体而言,根据预定规则分别获取目标文本中所属不同评论类别的用户评论数据来生成训练数据;随后将训练数据输入到学习模型进行模型训练以生成训练模型。
由于目标文本中匹配成功的用户评论数据的各类别数量并不均衡,例如,“口味差”这一类评论的数量是“好评”这类数量的二十分之一。由不同类别评论数量比例构成的训练数据会较大地影响对模型的训练,如果不同类别评论数量比例不巧当,容易引起模型的不稳定。
基于人工抽查,发现所有评论中(包括匹配的与未匹配的)好评与差评(N类加起来)的数量比例约为1:1。
因而,优选地,这里的预定规则可以是获取相同数量的目标文本中所属好评的用户评论数据和所属N个差评类别的用户评论数据,其中,所属N个差评类别的用户评论数据的数量分别相同。即,训练数据中的好评与N类差评的数量比例为1:1,其中,N类差评中的每一类用户评论数据的数量都是相同的。以此作为训练数据,可以防止学习模型的不稳定,从而可以训练出能够稳定输出每个评论属于这N+1类(好评和N类差评)的概率分布的模型。
在实际操作中,学习模型可以为卷积神经网络(textCNN)模型。由于textCNN模型不需要对输入评论文本进行分词,因而简化了自然语言处理的工序。例如评论“你好,这家店的味道太咸了”,传统的分词处理得到的结果是:
“你好这家店的味道太咸了”。
而textCNN只是对每个字和标点符号都视为一个单独的独立单元进行处理,所以对应的结果是:
“你好,这家店的味道太咸了”。
由于textCNN模型较为复杂,参数较多,因而textCNN模型的最优参数组合可以通过启发式搜索方式来确定。textCNN模型的参数主要包括:初始化词向量、卷积核、每种尺寸卷积核的数量、激活函数、drop outrate、池化和正则项系数。
具体地,可以对选择随机参数组合的textCNN模型进行误差测试;然后通过选择误差测试中误差最小的参数组合来作为textCNN模型的最优参数组合。
也就是说,启发式搜索的基本思路是探索每个参数的几种典型取值,从不同的参数组合中,挑选准确率最高(即,误差率最小)的参数组合。
对于上述7个参数,每个参数都有多种选择。例如,初始化词向量包括word2vec和one-hot向量,可以二选一;卷积尺寸有多种整数选择等。本发明实施例通过启发式搜索寻找这些参数的最优组合,具体方法如下:
1.随机选择这些参数的值,计算其在测试集上的误差;
2.随机变动其中一个参数的取值,如果测试集误差降低则保留,否则舍弃该取值;
3.反复迭代第2步,每次仅变动其中一个参数的取值,因为这些参数取值范围有限,如卷积核的数量就是正整数,一般不超过30个。正则项系数为正实数,可以选择0.001、0.01、0.05、0.1、1、10、100、1000等取值进行探索;迭代几步后选择测试集误差最小的参数组合即可。
在具体实施过程中,可以得到textCNN算法的最优参数组合如下:
1.初始化词向量:使用word2vec,而不使用one-hot向量;
2.卷积核的尺寸(正整数):2、3、4、6、8、10同时存在;
3.每种尺寸卷积核的数量(正整数):100;
4.激活函数的选择(relu、sigmoid、tanh等):使用relu函数;
5.drop out rate(0-1之间的小数):0.3;
6.池化的选择(固定窗口池化与1-max池化):1-max池化;
7.正则项系数(正实数):0.05。
在训练模型生成之后,将未匹配成功的用户评论数据输入到训练模型,以确定未匹配成功的用户评论数据所属的评论类别。由于textCNN是一种软分类,最终得到的结果是每个评论属于不同类别的概率分布。
具体而言,将未匹配成功的用户评论数据输入到训练模型,首选可以得到未匹配成功的用户评论数据分别属于多个评论类别的概率;之后,根据概率来确定未匹配成功的用户评论数据所属的评论类别。
在实际操作中,在得到未匹配成功的用户评论数据分别属于多个评论类别的概率之后,先判断该条评论属于差评还是好评,如果“好评”的概率大于50%,则该评论的主类别为好评,否则为差评。如果是差评,则判断该评论所属的具体是哪个小类的差评,具体是把评论所属差评分类中概率最高的类别作为该评论的主类别。
例如,评论“这家店的味道太咸了”可能的概率分布为:
[“好评”:30%,“味道差”:13%,“速度慢”:5%,“退款慢”:2%,…]
由于该评论“这家店的味道太咸了”的好评率为30%小于50%,因而该评论属于差评,基于图2的9个差评分类关键词,该评论属于商家口味这个小类的差评,则商家口味是该评论的主类别。
步骤105中,根据所属评论类别的用户评论数据来分析评论观点倾向包括:根据概率先对所属评论类别的用户评论数据进行排序;再根据排序后的所属评论类别的用户评论数据提取待分析的评论文本,以便于分析评论观点倾向。
例如,可以根据概率大小对所属评论类别的用户评论数据进行排序,然后基于排序前N条用户评论提取待分析的评论文本,据此来分析评论的观点倾向。
图3是根据本发明实施例的用户数据分析方法的具体流程图,如图3所示,该方法包括:
步骤301,获取餐饮平台最近30天的所有用户评论数据,将用户的每条评论视为一个独立文本,所有用户30天的评论是一个语料;
步骤302,基于好评关键词和图2所示的差评关键词,共10类关键词进行匹配操作,匹配成功进行步骤303,否则进行步骤304;
步骤303,关键词匹配成功,筛选出10类用户评论数据的目标文本,之后执行步骤305;
步骤304,大部分评论未匹配成功,未匹配到所属分类,这些评论数据需要通过深度学习模型textCNN进行判断,之后执行步骤306;
步骤305,训练深度学习网络textCNN,textCNN模型是通过训练步骤303筛选出的10类用户评论得到的,通过抽样调整了10类(匹配成功的)训练数据的比例,使得好评(1类)、差评(9类加起来)的数量比例为1:1,其中9类差评中的每一类训练数据占总共训练数据的1/18。以此作为训练数据,训练一个输出每个评论属于这10类的概率分布的神经网络textCNN,具体地textCNN模型的最优参数组合选择可以参见上述的描述;
步骤306,预测未匹配成功的评论的类别概率分布,根据概率确定未匹配成功评论的评论主类别;
步骤307,分析各类评论观点倾向,将主类别相同的所有评论按照主类别概率由高到低排序,分析排序最高的N个评论,了解其观点倾向。
由以上描述可知,通过基于关键词匹配得到的不同评论观点生成的目标文本来得到训练模型textCNN,之后将未匹配成功的评论文本的所有字,包括标点符号都作为特征直接输入到训练模型textCNN,从而可以计算出每个未匹配评论文本对于各个评论观点的概率分布,最后将属于同一观点概率较高的评论数据倒序排序来分析其观点倾向,相对于现有技术,由于直接将词汇原始特征输入到训练模型,而省去分词与统计文本的tf-idf向量的工作,因而使得分析过程更简单,并且,由于应用了textCNN模型,考虑了评论文本上下文的信息,从而提升了分类的准确度。
图4是根据本发明实施例的用户数据分析装置的结构框图,如图4所示,该装置包括:数据获取单元401、匹配单元402、训练模型生成单元403、评论类别确定单元404和分析单元405,其中:
数据获取单元401,用于获取多条用户评论数据;
匹配单元402,用于将多条用户评论数据与预设置的多个评论类别分别进行匹配操作;
训练模型生成单元403,用于根据匹配成功的用户评论数据生成训练模型;
评论类别确定单元404,用于将未匹配成功的用户评论数据输入到训练模型,以确定未匹配成功的用户评论数据所属的评论类别;
分析单元405,用于根据所属评论类别的用户评论数据提取待分析的评论文本,以便于分析评论观点倾向。
本发明实施例通过训练模型生成单元403根据匹配单元402匹配类别成功的用户评论数据生成训练模型,评论类别确定单元404将未匹配成功的用户评论数据直接输入到训练模型来确定评论类别,以及分析单元405根据确定评论类别的评论数据来提取待分析的评论文本,以便于分析观点倾向,由于无需对评论数据进行分词和建立tf-idf向量,因而相比于现有技术,本发明实施例提供的用户评论分析方法计算较简单且不容易出错。
在本发明实施例中,多个评论类别包括:好评和N个差评类别,其中,N为正整数。
如图5所示,上述训练模型生成单元403包括:目标文本设置模块4031和训练模型生成模块4032,其中:目标文本设置模块4031,用于根据匹配成功的用户评论数据设置目标文本;训练模型生成模块4032,用于根据目标文本进行模型训练以生成训练模型。
具体地,训练模型生成模块4032包括:训练数据生成子模块40321和训练模型生成子模块40322,其中:训练数据生成子模块40321,用于根据预定规则分别获取目标文本中所属不同评论类别的用户评论数据,以生成训练数据;训练模型生成子模块40322,用于将训练数据输入到学习模型进行模型训练以生成训练模型。
在实际操作中,基于人工抽查,发现所有评论中(包括匹配的与未匹配的)好评与差评(N类加起来)的数量比例约为1:1。
因而,优选地,这里的预定规则可以是获取相同数量的目标文本中所属好评的用户评论数据和所属N个差评类别的用户评论数据来生成训练数据,其中,所属N个差评类别的用户评论数据的数量分别相同。以此作为训练数据,可以得到稳定的学习模型,从而训练出可以稳定输出每个评论属于这N+1类(好评和N类差评)的概率分布的模型。
优选地,训练模型生成子模块40322所涉及的学习模型可以是textCNN模型。由于textCNN模型不需要对输入评论文本进行分词,因而简化了自然语言处理的工序。
如图6所示,上述装置还包括:最优参数确定单元406,用于通过启发式搜索方式确定textCNN模型的最优参数组合。这里的参数组合包括:初始化词向量、卷积核、每种尺寸卷积核的数量、激活函数、drop outrate、池化和正则项系数。
如图7所示,最优参数确定单元406包括:误差测试模块4061和最优参数确定模块4062,其中:误差测试模块4061,用于对选择随机参数组合的textCNN模型进行误差测试;最优参数确定模块4062,用于选择误差测试中误差最小的参数组合作为textCNN模型的最优参数组合。
也就是说,启发式搜索的基本思路是探索每个参数的几种典型取值,从不同的参数组合中,挑选准确率最高(即,误差率最小)的参数组合。
如图8所示,上述评论类别确定单元404包括:评论类别概率获得模块4041和评论类别确定模块4042,其中:评论类别概率获得模块4041,用于将未匹配成功的用户评论数据输入到训练模型,以得到未匹配成功的用户评论数据分别属于多个评论类别的概率;评论类别确定模块4042,用于根据概率来确定未匹配成功的用户评论数据所属的评论类别。
在实际操作中,通过评论类别概率获得模块4041在得到未匹配成功的用户评论数据分别属于多个评论类别的概率之后,评论类别确定模块4042先判断该条评论属于差评还是好评,如果“好评”的概率大于50%,则确定该评论的主类别为好评,否则为差评。如果是差评,则继续确定该评论所属的具体是哪个小类的差评,具体是把评论所属差评分类中概率最高的类别作为该评论的主类别。
如图9所示,上述分析单元405包括:评论数据排序模块4051和分析模块4052,其中:评论数据排序模块4051,用于根据概率对所属评论类别的用户评论数据进行排序;分析模块4052,用于根据排序后的所属评论类别的用户评论数据提取待分析的评论文本,以便于分析评论观点倾向。
在实际操作中,评论数据排序模块4051可以根据概率大小对所属评论类别的用户评论数据进行排序,之后分析模块4052基于排序前N条用户评论提取待分析的评论文本,据此来分析评论的观点倾向。
图10是根据本发明实施例的用户数据分析装置的应用场景图,如图10所示,数据获取单元401获取多条用户评论数据,评论1、评论2、……、评论N,其中,N为正整数;匹配单元402将这多条用户评论数据与预设置的多个评论类别分别进行匹配操作,其中,评论类别包括好评以及图2所述的9类关键词差评;训练模型生成单元403根据匹配成功的用户评论数据生成训练模型;评论类别确定单元404将未匹配成功的用户评论数据输入到训练模型,以确定未匹配成功的用户评论数据所属的评论类别,如图10所示,其中,所属好评的评论未示出,仅示出所属差评的评论例子,评论a和b属于商家口味类别,评论c属于商家商品贵类别,评论e属于物流超时、催单无效果类别,等。需要说明的是,为了便于描述,这里的a、b、c……l表示各条评论的任意编号,没有任何限制作用。之后,分析单元405根据所属评论类别的用户评论数据提取待分析的评论文本,以此来分析评论观点倾向。
图11是本发明实施例的电子设备的示意图。图11所示的电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器111和存储器112。处理器111和存储器112通过总线113连接。存储器112适于存储处理器111可执行的指令或程序。处理器111可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器111通过执行存储器112所存储的命令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线113将上述多个组件连接在一起,同时将上述组件连接到显示控制器114和显示装置以及输入/输出(I/O)装置115。输入/输出(I/O)装置115可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出(I/O)装置115通过输入/输出(I/O)控制器116与系统相连。
其中,存储器112可以存储软件组件,例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。
综上所述,本发明实施例通过将匹配类别成功的用户评论数据作为目标文本来生成训练模型,将未匹配成功的用户评论数据直接输入到该训练模型来确定评论类别,之后根据确定评论类别的评论数据来分析观点倾向,由于无需对评论数据进行分词和建立tf-idf向量,因而相比于现有技术,本发明实施例提供的用户评论分析方法计算较简单且不容易出错,开发效率有了较大的提升。并且,根据实验效果显示,本发明实施例通过使用textCNN模型,得到每个餐饮平台用户评论所属的目标的软性分类,从而得到每条评论所属的分类的观点倾向,准确率相对于现有技术有了提升。
上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解,流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。
同时,如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实现方式、完全软件实现方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实现方式。此外,本发明的方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质:不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。
用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行;部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本发明实施例公开了A1、一种用户数据的分析方法,其中,所述方法包括:
获取多条用户评论数据;
将所述多条用户评论数据与预设置的多个评论类别分别进行匹配操作;
根据匹配成功的用户评论数据生成训练模型;
将未匹配成功的用户评论数据输入到所述训练模型,以确定所述未匹配成功的用户评论数据所属的评论类别;
根据所属评论类别的用户评论数据提取待分析的评论文本,以便于分析评论观点倾向。
A2、根据权利要求A1所述的用户数据的分析方法,其中,根据匹配成功的用户评论数据生成训练模型包括:
根据所述匹配成功的用户评论数据设置目标文本;
根据所述目标文本进行模型训练以生成所述训练模型。
A3、根据权利要求A2所述的用户数据的分析方法,其中,根据所述目标文本进行模型训练以生成所述训练模型包括:
根据预定规则分别获取所述目标文本中所属不同评论类别的用户评论数据,以生成训练数据;
将所述训练数据输入到学习模型进行模型训练以生成所述训练模型。
A4、根据权利要求A3所述的用户数据的分析方法,其中,所述多个评论类别包括:好评和N个差评类别,其中,N为正整数。
A5、根据权利要求A4所述的用户数据的分析方法,其中,根据预定规则分别获取所述目标文本中所属不同评论类别的用户评论数据包括:
获取相同数量的所述目标文本中所属好评的用户评论数据和所属N个差评类别的用户评论数据,其中,所属N个差评类别的用户评论数据的数量分别相同。
A6、根据权利要求A3所述的用户数据的分析方法,其中,所述学习模型为卷积神经网络模型。
A7、根据权利要求A6所述的用户数据的分析方法,其中,所述方法还包括:
通过启发式搜索方式确定所述卷积神经网络模型的最优参数组合。
A8、根据权利要求A7所述的用户数据的分析方法,其中,通过启发式搜索方式确定所述卷积神经网络模型的最优参数组合包括:
对选择随机参数组合的卷积神经网络模型进行误差测试;
选择误差测试中误差最小的参数组合作为所述卷积神经网络模型的最优参数组合。
A9、根据权利要求A1所述的用户数据的分析方法,其中,将未匹配成功的用户评论数据输入到所述训练模型,以确定所述未匹配成功的用户评论数据所属的评论类别包括:
将未匹配成功的用户评论数据输入到所述训练模型,以得到所述未匹配成功的用户评论数据分别属于所述多个评论类别的概率;
根据所述概率来确定所述未匹配成功的用户评论数据所属的评论类别。
A10、根据权利要求A9所述的用户数据的分析方法,其中,根据所属评论类别的用户评论数据提取待分析的评论文本,以便于分析评论观点倾向包括:
根据所述概率对所属评论类别的用户评论数据进行排序;
根据排序后的所属评论类别的用户评论数据提取待分析的评论文本,以便于分析评论观点倾向。
本发明实施例还公开了B1、一种用户数据的分析装置,其中,所述装置包括:
数据获取单元,用于获取多条用户评论数据;
匹配单元,用于将所述多条用户评论数据与预设置的多个评论类别分别进行匹配操作;
训练模型生成单元,用于根据匹配成功的用户评论数据生成训练模型;
评论类别确定单元,用于将未匹配成功的用户评论数据输入到所述训练模型,以确定所述未匹配成功的用户评论数据所属的评论类别;
分析单元,用于根据所属评论类别的用户评论数据提取待分析的评论文本,以便于分析评论观点倾向。
B2、根据权利要求B1所述的用户数据的分析装置,其中,所述训练模型生成单元包括:
目标文本设置模块,用于根据所述匹配成功的用户评论数据设置目标文本;
训练模型生成模块,用于根据所述目标文本进行模型训练以生成所述训练模型。
B3、根据权利要求B2所述的用户数据的分析装置,其中,所述训练模型生成模块包括:
训练数据生成子模块,用于根据预定规则分别获取所述目标文本中所属不同评论类别的用户评论数据,以生成训练数据;
训练模型生成子模块,用于将所述训练数据输入到学习模型进行模型训练以生成所述训练模型。
B4、根据权利要求B3所述的用户数据的分析装置,其中,所述多个评论类别包括:好评和N个差评类别,其中,N为正整数。
B5、根据权利要求B4所述的用户数据的分析装置,其中,所述训练数据生成子模块具体用于:
获取相同数量的所述目标文本中所属好评的用户评论数据和所属N个差评类别的用户评论数据,以生成训练数据,其中,所属N个差评类别的用户评论数据的数量分别相同。
B6、根据权利要求B3所述的用户数据的分析装置,其中,所述学习模型为卷积神经网络模型。
B7、根据权利要求B6所述的用户数据的分析装置,其中,所述装置还包括:
最优参数确定单元,用于通过启发式搜索方式确定所述卷积神经网络模型的最优参数组合。
B8、根据权利要求B7所述的用户数据的分析装置,其中,所述最优参数确定单元包括:
误差测试模块,用于对选择随机参数组合的卷积神经网络模型进行误差测试;
最优参数确定模块,用于选择误差测试中误差最小的参数组合作为所述卷积神经网络模型的最优参数组合。
B9、根据权利要求B1所述的用户数据的分析装置,其中,所述评论类别确定单元包括:
评论类别概率获得模块,用于将未匹配成功的用户评论数据输入到所述训练模型,以得到所述未匹配成功的用户评论数据分别属于所述多个评论类别的概率;
评论类别确定模块,用于根据所述概率来确定所述未匹配成功的用户评论数据所属的评论类别。
B10、根据权利要求B9所述的用户数据的分析装置,其中,所述分析单元包括:
评论数据排序模块,用于根据所述概率对所属评论类别的用户评论数据进行排序;
分析模块,用于根据排序后的所属评论类别的用户评论数据提取待分析的评论文本,以便于分析评论观点倾向。
本发明实施例还公开了C1、一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如权利要求A1-A10中任一项所述的方法。
本发明实施例还公开了D2、一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求A1-A10中任一项所述的方法。
Claims (10)
1.一种用户数据的分析方法,其特征在于,所述方法包括:
获取多条用户评论数据;
将所述多条用户评论数据与预设置的多个评论类别分别进行匹配操作;
根据匹配成功的用户评论数据生成训练模型;
将未匹配成功的用户评论数据输入到所述训练模型,以确定所述未匹配成功的用户评论数据所属的评论类别;
根据所属评论类别的用户评论数据提取待分析的评论文本,以便于分析评论观点倾向。
2.根据权利要求1所述的用户数据的分析方法,其特征在于,根据匹配成功的用户评论数据生成训练模型包括:
根据所述匹配成功的用户评论数据设置目标文本;
根据所述目标文本进行模型训练以生成所述训练模型。
3.根据权利要求2所述的用户数据的分析方法,其特征在于,根据所述目标文本进行模型训练以生成所述训练模型包括:
根据预定规则分别获取所述目标文本中所属不同评论类别的用户评论数据,以生成训练数据;
将所述训练数据输入到学习模型进行模型训练以生成所述训练模型。
4.根据权利要求3所述的用户数据的分析方法,其特征在于,所述多个评论类别包括:好评和N个差评类别,其中,N为正整数。
5.根据权利要求4所述的用户数据的分析方法,其特征在于,根据预定规则分别获取所述目标文本中所属不同评论类别的用户评论数据包括:
获取相同数量的所述目标文本中所属好评的用户评论数据和所属N个差评类别的用户评论数据,其中,所属N个差评类别的用户评论数据的数量分别相同。
6.一种用户数据的分析装置,其特征在于,所述装置包括:
数据获取单元,用于获取多条用户评论数据;
匹配单元,用于将所述多条用户评论数据与预设置的多个评论类别分别进行匹配操作;
训练模型生成单元,用于根据匹配成功的用户评论数据生成训练模型;
评论类别确定单元,用于将未匹配成功的用户评论数据输入到所述训练模型,以确定所述未匹配成功的用户评论数据所属的评论类别;
分析单元,用于根据所属评论类别的用户评论数据提取待分析的评论文本,以便于分析评论观点倾向。
7.根据权利要求6所述的用户数据的分析装置,其特征在于,所述训练模型生成单元包括:
目标文本设置模块,用于根据所述匹配成功的用户评论数据设置目标文本;
训练模型生成模块,用于根据所述目标文本进行模型训练以生成所述训练模型。
8.根据权利要求7所述的用户数据的分析装置,其特征在于,所述训练模型生成模块包括:
训练数据生成子模块,用于根据预定规则分别获取所述目标文本中所属不同评论类别的用户评论数据,以生成训练数据;
训练模型生成子模块,用于将所述训练数据输入到学习模型进行模型训练以生成所述训练模型。
9.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-5中任一项所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811251733.7A CN109388715A (zh) | 2018-10-25 | 2018-10-25 | 用户数据的分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811251733.7A CN109388715A (zh) | 2018-10-25 | 2018-10-25 | 用户数据的分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109388715A true CN109388715A (zh) | 2019-02-26 |
Family
ID=65427868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811251733.7A Pending CN109388715A (zh) | 2018-10-25 | 2018-10-25 | 用户数据的分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109388715A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688451A (zh) * | 2019-08-15 | 2020-01-14 | 中国平安人寿保险股份有限公司 | 评价信息处理方法、装置、计算机设备及存储介质 |
CN110705251A (zh) * | 2019-10-14 | 2020-01-17 | 支付宝(杭州)信息技术有限公司 | 计算机执行的文本分析方法及装置 |
CN110781307A (zh) * | 2019-11-06 | 2020-02-11 | 北京沃东天骏信息技术有限公司 | 目标物品关键词和标题生成方法、搜索方法以及相关设备 |
CN111353033A (zh) * | 2020-02-27 | 2020-06-30 | 支付宝(杭州)信息技术有限公司 | 一种训练文本相似度模型的方法和系统 |
CN112837091A (zh) * | 2021-01-28 | 2021-05-25 | 邱戴飞 | 基于分类器的信息处理方法、装置及存储介质 |
CN113157872A (zh) * | 2021-05-27 | 2021-07-23 | 东莞心启航联贸网络科技有限公司 | 基于云计算的在线互动话题意图分析方法、服务器及介质 |
CN113641798A (zh) * | 2021-10-12 | 2021-11-12 | 成都晓多科技有限公司 | 一种针对商家的扰乱性评论的识别方法及系统 |
CN113724037A (zh) * | 2021-08-02 | 2021-11-30 | 深圳依时货拉拉科技有限公司 | 非正常订单处理方法、装置、存储介质和计算机设备 |
CN114143571A (zh) * | 2019-03-19 | 2022-03-04 | 广州虎牙信息科技有限公司 | 一种用户处理方法、装置、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及系统 |
CN106339718A (zh) * | 2016-08-18 | 2017-01-18 | 苏州大学 | 一种基于神经网络的分类方法及装置 |
CN107391483A (zh) * | 2017-07-13 | 2017-11-24 | 武汉大学 | 一种基于卷积神经网络的商品评论数据情感分类方法 |
US20180181864A1 (en) * | 2016-12-27 | 2018-06-28 | Texas Instruments Incorporated | Sparsified Training of Convolutional Neural Networks |
CN108614875A (zh) * | 2018-04-26 | 2018-10-02 | 北京邮电大学 | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 |
-
2018
- 2018-10-25 CN CN201811251733.7A patent/CN109388715A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550269A (zh) * | 2015-12-10 | 2016-05-04 | 复旦大学 | 一种有监督学习的产品评论分析方法及系统 |
CN106339718A (zh) * | 2016-08-18 | 2017-01-18 | 苏州大学 | 一种基于神经网络的分类方法及装置 |
US20180181864A1 (en) * | 2016-12-27 | 2018-06-28 | Texas Instruments Incorporated | Sparsified Training of Convolutional Neural Networks |
CN107391483A (zh) * | 2017-07-13 | 2017-11-24 | 武汉大学 | 一种基于卷积神经网络的商品评论数据情感分类方法 |
CN108614875A (zh) * | 2018-04-26 | 2018-10-02 | 北京邮电大学 | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114143571A (zh) * | 2019-03-19 | 2022-03-04 | 广州虎牙信息科技有限公司 | 一种用户处理方法、装置、设备和存储介质 |
CN114143571B (zh) * | 2019-03-19 | 2024-01-19 | 广州虎牙信息科技有限公司 | 一种用户处理方法、装置、设备和存储介质 |
CN110688451A (zh) * | 2019-08-15 | 2020-01-14 | 中国平安人寿保险股份有限公司 | 评价信息处理方法、装置、计算机设备及存储介质 |
CN110705251A (zh) * | 2019-10-14 | 2020-01-17 | 支付宝(杭州)信息技术有限公司 | 计算机执行的文本分析方法及装置 |
CN110705251B (zh) * | 2019-10-14 | 2023-06-16 | 支付宝(杭州)信息技术有限公司 | 计算机执行的文本分析方法及装置 |
CN110781307A (zh) * | 2019-11-06 | 2020-02-11 | 北京沃东天骏信息技术有限公司 | 目标物品关键词和标题生成方法、搜索方法以及相关设备 |
CN111353033A (zh) * | 2020-02-27 | 2020-06-30 | 支付宝(杭州)信息技术有限公司 | 一种训练文本相似度模型的方法和系统 |
CN111353033B (zh) * | 2020-02-27 | 2023-04-07 | 支付宝(杭州)信息技术有限公司 | 一种训练文本相似度模型的方法和系统 |
CN112837091A (zh) * | 2021-01-28 | 2021-05-25 | 邱戴飞 | 基于分类器的信息处理方法、装置及存储介质 |
CN113157872A (zh) * | 2021-05-27 | 2021-07-23 | 东莞心启航联贸网络科技有限公司 | 基于云计算的在线互动话题意图分析方法、服务器及介质 |
CN113724037A (zh) * | 2021-08-02 | 2021-11-30 | 深圳依时货拉拉科技有限公司 | 非正常订单处理方法、装置、存储介质和计算机设备 |
CN113641798B (zh) * | 2021-10-12 | 2022-02-08 | 成都晓多科技有限公司 | 一种针对商家的扰乱性评论的识别方法及系统 |
CN113641798A (zh) * | 2021-10-12 | 2021-11-12 | 成都晓多科技有限公司 | 一种针对商家的扰乱性评论的识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109388715A (zh) | 用户数据的分析方法及装置 | |
CN110427617A (zh) | 推送信息的生成方法及装置 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN108959312A (zh) | 一种多文档摘要生成的方法、装置和终端 | |
Haller et al. | Survey on automated short answer grading with deep learning: from word embeddings to transformers | |
Shah et al. | Sentimental Analysis Using Supervised Learning Algorithms | |
CN103123633A (zh) | 评价参数的生成方法以及基于评价参数的信息搜索方法 | |
Wang et al. | Automatic generation of sentimental texts via mixture adversarial networks | |
Hanunggul et al. | The impact of local attention in lstm for abstractive text summarization | |
CN109710760A (zh) | 短文本的聚类方法、装置、介质及电子设备 | |
Singh et al. | Sentiment analysis of Twitter data using TF-IDF and machine learning techniques | |
CN110516033A (zh) | 一种计算用户偏好的方法和装置 | |
Irissappane et al. | Leveraging GPT-2 for classifying spam reviews with limited labeled data via adversarial training | |
CN113704393A (zh) | 关键词提取方法、装置、设备及介质 | |
CN102339278B (zh) | 信息处理装置和信息处理方法 | |
CN115481219A (zh) | 一种基于语法序列嵌入模型的售电公司评价情感分类方法 | |
Yao et al. | Online deception detection refueled by real world data collection | |
Li et al. | Snowball: Iterative model evolution and confident sample discovery for semi-supervised learning on very small labeled datasets | |
CN109299459B (zh) | 一种单语义监督的词向量训练方法及装置 | |
Li et al. | Interpretable nlg for task-oriented dialogue systems with heterogeneous rendering machines | |
Xie et al. | Differentially private synthetic data via foundation model apis 2: Text | |
Yeo et al. | Sentiment analysis on time-series data using weight priority method on deep learning | |
CN110020195A (zh) | 文章推荐方法及装置、存储介质、电子设备 | |
Jeong et al. | Conversational emotion-cause pair extraction with guided mixture of experts | |
Shama et al. | A meticulous critique on prevailing techniques of aspect-level sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190226 |
|
RJ01 | Rejection of invention patent application after publication |