CN106227720B

CN106227720B - 一种app软件用户评论模式识别方法

Info

Publication number: CN106227720B
Application number: CN201610613664.4A
Authority: CN
Inventors: 姜瑛; 冉猛; 向祺鑫; 李凌宇; 丁家满; 汪海涛; 刘英莉
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2016-08-01
Filing date: 2016-08-01
Publication date: 2019-02-05
Anticipated expiration: 2036-08-01
Also published as: CN106227720A

Abstract

本发明涉及一种APP软件用户评论模式识别方法，属于APP软件用户行为分析领域。本发明首先根据用户对APP软件的评论特征将用户评论信息分为三类；然后通过计算每类用户评论信息的频率来选择需要分析的类别；最后对需要分析对应类户评论信息中分词之后的用户评论信息的词性组合，选出词性组合模板，确定APP软件用户的评论模式。本发明有助于分析APP软件用户侧重于评价APP软件的哪些特征；有助于分析APP软件用户发表评论信息的表达形式；有助于分析APP软件用户行为。

Description

一种APP软件用户评论模式识别方法

技术领域

本发明涉及一种APP软件用户评论模式识别方法，属于APP软件用户行为分析领域。

背景技术

用户评论分析方法在商品领域日趋成熟，多数研究主要使用ICTCLAS作为用户评论信息数据处理的工具，最后通过自然语言处理等方法来对用户评论信息进行分析。例如，扈中凯等人通过对特征词和情感词同时提取，并建立用户兴趣偏好模型，结合用户历史评论数据来改善传统协同过滤推荐算法的推荐准确性；邱云飞等人通过分析用户评论的历史数据，提出一种基于用户行为的产品垃圾评论者检测方法。上述研究针对商品的用户评论的历史数据进行挖掘和分析，来判断用户的偏好和评论的真实性。

目前，面对海量的移动应用，APP软件用户迅速增加，用户评论信息中往往隐含了用户对APP软件特定属性的关注程度等潜在信息。不同的用户对APP软件的评论模式是不同的，即，对APP软件的进行评论的侧重点不同，且用户发表评论的表达习惯也不同。这对APP软件用户行为分析带来了困难，从而影响了用户评价APP软件的质量，因此如何识别APP软件用户评论模式成为一个需要解决的问题。

本发明提出通过根据用户对APP软件的评论特征将用户评论信息分为三类，抽取出每类分词之后的用户评论信息的词性组合模板，并计算用户评论信息的概率等方法来识别该APP软件用户的评论模式，有助于分析APP软件的用户行为。

发明内容

针对上述问题，本发明提供了一种APP软件用户评论模式识别方法，以用于帮助行为分析APP软件用户。

本发明的技术方案是：一种APP软件用户评论模式识别方法，首先根据用户对APP软件的评论特征将用户评论信息分为三类；然后通过计算每类用户评论信息的频率来选择需要分析的类别；最后对需要分析对应类别评论信息中分词之后的用户评论信息的词性组合，选出词性组合模板，确定APP软件用户的评论模式。

所述方法的具体步骤如下：

Step1、输入n条分词之后的APP软件用户评论信息Cut_Comment；

Step2、根据用户对APP软件的评论特征将n条Cut_Comment分为Whole_List、Attribute_List和Other_List三类：

1)初始化数据：i＝1，count_WL＝0，count_AL＝0，count_OL＝0；

2)判断i是否小于或等于n：如果是，则提取Cut_Comment_i中的特征情感词对f_i＝{Wh,Wd,Wa}(i＝1,2,...,n)，Wh表示评论用户关注的APP软件特征词，Wa为修饰特征Wh的情感词，Wd为修饰情感词Wa的副词；否则，执行Step3；

3)判断f_i中Wh是否为空：如果是，则将f_i存入Whole_List中，count_WL++，i++，执行2)；否则，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：如果是，则将f_i存入Whole_List中，count_WL++，i++，执行2)；否则，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：如果是，则将Cut_Comment_i存入Attribute_List中，count_AL++，i++，执行2)；否则，将Cut_Comment_i存入Other_List中，count_OL++，i++，执行2)；

Step3、根据公式P(ci)＝count_ci/n计算每类用户评论信息的频率；式中，P(ci)表示ci类用户评论信息在n条Cut_Comment中出现的频率；count_ci表示ci类Cut_Comment的条数，ci为Whole_List、Attribute_List或Other_List，Whole_List类出现的条数为count_WL，Attribute_List类出现的条数为count_AL，Other_List类出现的条数为count_OL；

如果Whole_List类用户评论信息在n条Cut_Comment中出现的频率最大，则执行步骤Step4；

如果Attribute_List类用户评论信息在n条Cut_Comment中出现的频率最大，则执行步骤Step5；

如果Other_List类用户评论信息在n条Cut_Comment中出现的频率最大，则执行步骤Step6；

(如果出现频率相等的情况，则相等频率对应的步骤都执行)

Step4、对Whole_List中f的词性组合进行处理，词性组合处理过程如下：

1)初始化Whole_List中的数据：j＝1，count_WLN＝0，count_WLP＝0；

2)判断j是否小于或等于count_WL：如果是，则执行3)；否则，执行4)；

3)判断f_j中的Wa是否为网络情感词：如果是，则将f_j对应的词性组合存入Whole_List_Net中，count_WLN++，j++，执行2)；否则将f_j对应的词性组合存入Whole_List_Pub中，count_WLP++，j++，执行2)；

4)输出APP软件用户的评论模式：根据公式P(n)＝count_WLN/count_WL和P(p)＝count_WLP/count_WL分别计算Whole_List_Net和Whole_List_Pub出现的频率P(n)和P(p)，取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合，输出APP软件用户的评论模式{综合类，词性组合}；其中该类用户评论信息的词性组合为：“{[ ]+a_n+[ ]}”或“{[n]+[d]+a|v}”，其中，“a_n”表示网络情感词，n表示名词，d表示副词，a表示形容词，v表示动词；

Step5、对Attribute_List中Cut_Comment的词性组合进行处理，词性组合处理过程如下：

1)去掉Attribute_List中每条Cut_Comment的词，只保留对应的词性；

2)提取词性中的n、v、vn、d和a，其中，vn表示动名词；

3)选取候选词性组合模板集：先将Attribute_List中Cut_Comment的词性组合分为N₁类；再根据公式P(ai)＝count_ai/count_AL计算每种词性组合的频率，并将P(ai)大于或等于阈值1/N₁的词性组合存入候选词性组合模板集中；

式中，N₁表示Attribute_List类用户评论信息中Cut_Comment的词性组合的种类；P(ai)表示第ai类词性组合在count_AL条评论中出现的频率，count_ai表示第ai类词性组合的条数；

4)提取词性组合模板集：如果候选词性组合模板的个数大于或等于2，则计算候选词性组合模板之间的相似度，并将相似度大于阈值0.5的候选词性组合模板进行合并；否则，将候选词性组合模板集作为词性组合模板集；

5)将每条Cut_Comment与每种词性组合模板进行匹配，并记录每种词性组合模板的次数：计算每条Cut_Comment的词性组合与每种词性组合模板的相似度，并将相似度大于阈值0.5的词性组合存入对应的词性组合模板集中，次数加1；

6)输出APP软件用户的评论模式：根据公式P(a)＝count_a/count_AL计算每种词性组合模板出现的频率，取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合，输出APP软件用户的评论模式{属性类，词性组合}；

式中，P(a)表示第a类词性组合模板在count_AL条Cut_Comment中出现的频率，count_a表示第a类词性组合模板的条数；

Step6、对Other_List中Cut_Comment的词性组合进行处理，词性组合处理过程如下：

1)去掉Other_List中每条Cut_Comment的词，只保留对应的词性；

2)提取词性中的n、v、vn、d和a；

3)选取候选词性组合模板集：先将Other_List中Cut_Comment的词性组合为N₂类；再根据公式P(oi)＝count_oi/count_OL计算每种词性组合的频率，并将P(oi)大于或等于阈值1/N₂的词性组合存入候选词性组合模板集中；

式中，N₂表示Other_List类用户评论信息中Cut_Comment的词性组合的种类；P(oi)表示第oi类词性组合在count_OL条评论中出现的频率，conut_oi表示第oi类词性组合的条数；

5)将每条Cut_Comment的词性组合与每种词性组合模板进行匹配，并记录每种词性组合模板的次数：计算每条分词之后的用户评论信息的词性组合与每种词性组合模板的相似度，并将相似度大于阈值0.5的词性组合存入对应的词性组合模板集中，次数加1；

6)输出APP软件用户的评论模式：根据公式P(o)＝count_o/count_OL计算每种词性组合模板出现的频率，取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合，输出APP软件用户的评论模式{其它类，词性组合}；

式中，P(o)表示第o类词性组合模板在count_OL条Cut_Comment中出现的频率，count_o表示第o类词性组合模板的条数。

所述Whole_List表示APP软件综合特征评论，如“很好”，Whole_List_Net表示该类特征评论中的情感词为网络情感词的用户评论，如“坑爹的微信”中的网络情感词为“坑爹”，Whole_List_Pub表示该类特征评论中的情感词不是网络情感词的用户评论，如“微信很好”；Attribute_List表示APP软件属性特征评论，如对“微信”APP软件进行评论：“为什么收不到表情”，其中“表情”为“微信”APP软件的属性特征；Other_List表示APP软件其它类特征评论，如对“微信”APP软件进行评论：“下载太慢了”，其中“下载”为“微信”APP软件的其它类特征。

所述“{[ ]+a_n+[ ]}”表示含有网络情感词的用户评论信息语法结构具有随意性，词性组合具有不确定性，“[ ]”表示可选项且不确定项；“{[n]+[d]+a|v}”表示针对APP软件综合特征的用户评论信息的词性组合具有单一性，“[n]”和“[d]”表示可选项，“a|v”表示“a”或“v”。

本发明使用ICTCLAS 2016作为数据处理的工具，进行用户评论信息的分词及词性标注；基于扈中凯等人对特征词、情感词同时提取的方法，本发明对特征词、副词、情感词进行同时提取，即提取APP软件特征情感词对f。

其中，相似度公式引自(Levenshtein V I.Binary codes capable ofcorrecting dele-tions,insertions,and reversals[C]//Soviet physicsdoklady.1966,10(8):707-710.)。

本发明的有益效果是：

(1)本发明定义并识别APP软件用户的评论特征类别，有助于分析APP软件用户侧重于评价APP软件的哪些特征；

(2)本发明分析APP软件用户评论信息的词性组合，有助于分析APP软件用户发表评论信息的表达形式；

(3)本发明通过识别APP软件用户评论模式，有助于分析APP软件用户行为。

附图说明

图1是本发明的流程图；

图2是图1中步骤S2的具体流程图；

图3是图1中步骤S3的具体流程图；

图4是图1中步骤S4的具体流程图；

图5是图1中步骤S5的具体流程图。

具体实施方式

实施例1：如图1-5所示，一种APP软件用户评论模式识别方法，首先根据用户对APP软件的评论特征将用户评论信息分为三类；然后通过计算每类用户评论信息的频率来选择需要分析的类别；最后对需要分析对应类别评论信息中分词之后的用户评论信息的词性组合，选出词性组合模板，确定APP软件用户的评论模式。

所述方法的具体步骤如下：

Step1、输入n条分词之后的APP软件用户评论信息Cut_Comment；

1)初始化数据：i＝1，count_WL＝0，count_AL＝0，count_OL＝0；

1)初始化Whole_List中的数据：j＝1，count_WLN＝0，count_WLP＝0；

1)去掉Attribute_List中每条Cut_Comment的词，只保留对应的词性；

2)提取词性中的n、v、vn、d和a，其中，vn表示动名词；

1)去掉Other_List中每条Cut_Comment的词，只保留对应的词性；

2)提取词性中的n、v、vn、d和a；

实施例2：如图1-5所示，一种APP软件用户评论模式识别方法，首先根据用户对APP软件的评论特征将用户评论信息分为三类；然后通过计算每类用户评论信息的频率来选择需要分析的类别；最后对需要分析对应类别评论信息中分词之后的用户评论信息的词性组合，选出词性组合模板，确定APP软件用户的评论模式。

实施例3：如图1-5所示，一种APP软件用户评论模式识别方法，

APP软件用户评论如表1所示，

表1

编号	APP软件	用户评论信息	分词之后的用户评论信息
				1	微信	微信非常可爱	微信/n 非常/d 可爱/a
2	微信	非常好	非常/d 好/a
				3	微信	坑爹的微信	坑爹/vn 的/ude1 微信/n
4	微信	视频怎么不支持	视频/n 怎么/ryv 不/d 支持/v
				5	微信	为什么收不到表情	为什么/ryv 收/v 不/d 到/v 表情/n
6	微信	为什么不能接收图片？	为什么/ryv 不/d 能/v 接收/v 图片/n ？/ww
				7	微信	发不了消息	发/v 不/d 了/y 消息/n
8	微信	怎么听不到语音了	怎么/ryv 听/v 不/d 到/v 语音/n 了/y
				9	微信	下载太慢了	下载/v 太/d 慢/a 了/y
10	微信	速度太慢了	速度/n 太/d 慢/a 了/y
				11	微信	下载太慢了，哎。	下载/v 太/d 慢/a 了/y ，/wd 哎/e 。/wj
12	微信	安装不上！！！	安装/v 不/d 上/v ！/wt ！/wt ！/wt
				13	微信	下载费劲嘞	下载/v 费劲/a 嘞/y
14	微信	下载的忙	下载/v 的/ude1 忙/a
				15	微信	现在的版本卡	现在/t 的/ude1 版本/n 卡/v

所述APP软件用户评论模式识别方法的具体步骤如下：

Step1、输入n＝15条Cut_Comment；

本发明使用ICTCLAS 2016作为数据处理的工具，进行用户评论信息的分词及词性标注。

Step2、根据用户对该APP软件的评论特征将用户评论信息分为Whole_List、Attribute_List和Other_List三类：

1)初始化数据：count_WL＝0，count_AL＝0，count_OL＝0；

2)判断i是否小于或等于n：1<15，提取Cut_Comment₁的特征情感词对f₁＝{微信/n,非常/d,可爱/a}；

3)判断f_i中Wh是否为空：f₁中Wh为“微信/n”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₁中Wh为“微信/n”是该APP软件的软件名称，则将f₁存入Whole_List中，Whole_List＝{{微信/n 非常/d 可爱/a}}，count_WL＝1，i＝2，执行2)；

2)判断i是否小于或等于n：2<15，提取Cut_Comment₂的特征情感词对f₂＝{null,非常/d,好/a}；

3)判断f_i中Wh是否为空：f₂中Wh为空，将f₂存入Whole_List中，Whole_List＝{{微信/n 非常/d 可爱/a},{null,非常/d,好/a}}，count_WL＝2，i＝3，执行2)；

2)判断i是否小于或等于n：3<15，提取Cut_Comment₃的特征情感词对f₃＝{微信/n,null,坑爹/vn}；

3)判断f_i中Wh是否为空：f₃中Wh为“微信/n”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₃中Wh为“微信/n”是该APP软件的软件名称，则将f₃存入Whole_List中，Whole_List＝{{微信/n 非常/d 可爱/a},{null,非常/d,好/a},{微信/n,null,坑爹/vn}}，count_WL＝3，i＝4，执行2)；

2)判断i是否小于或等于n：4<15，提取Cut_Comment₄的特征情感词对f₄＝{视频/n,不/d,支持/v}；

3)判断f_i中Wh是否为空：f₄中Wh为“视频/n”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₄中Wh为“视频/n”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₄中Wh为“视频/n”是该APP软件信息特征，则将Cut_Comment₄＝{视频/n 怎么/ryv 不/d 支持/v}存入Attribute_List中，Attribute_List＝{{视频/n 怎么/ryv 不/d 支持/v}}，count_AL＝1，i＝5，执行2)；

2)判断i是否小于或等于n：5<15，提取Cut_Comment₅的特征情感词对f₅＝{表情/n,不/d,收/v到/v}；

3)判断f_i中Wh是否为空：f₅中Wh为“表情/n”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₅中Wh为“表情/n”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₅中Wh为“表情/n”是该APP软件信息特征，则将Cut_Comment₅＝{为什么/ryv 收/v 不/d 到/v 表情/n}存入Attribute_List中，Attribute_List＝{{视频/n 怎么/ryv 不/d 支持/v},{为什么/ryv 收/v 不/d 到/v 表情/n}}，count_AL＝2，i＝6，执行2)；

2)判断i是否小于或等于n：6<15，提取Cut_Comment₆的特征情感词对f₆＝{图片/n,不/d,能/v接收/v}；

3)判断f_i中Wh是否为空：f₆中Wh为“图片/n”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₆中Wh为“图片/n”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₆中Wh为“图片/n”是该APP软件信息特征，则将Cut_Comment₆＝{为什么/ryv 不/d 能/v 接收/v 图片/n ？/ww}存入Attribute_List中，Attribute_List＝{{视频/n 怎么/ryv 不/d 支持/v},{为什么/ryv 收/v 不/d到/v 表情/n},{为什么/ryv 不/d 能/v 接收/v 图片/n ？/ww}}，count_AL＝3，i＝7，执行2)；

2)判断i是否小于或等于n：7<15，提取Cut_Comment₇的特征情感词对f₇＝{消息/n,不/d,发/v}；

3)判断f_i中Wh是否为空：f₇中Wh为“消息/n”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₇中Wh为“消息/n”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₇中Wh为“消息/n”是该APP软件信息特征，则将Cut_Comment₇＝{发/v 不/d 了/y 消息/n}存入Attribute_List中，Attribute_List＝{{视频/n 怎么/ryv 不/d 支持/v},{为什么/ryv 收/v 不/d 到/v 表情/n},{为什么/ryv 不/d 能/v 接收/v 图片/n ？/ww},{发/v 不/d 了/y 消息/n}}，count_AL＝4，i＝8，执行2)；

2)判断i是否小于或等于n：8<15，提取Cut_Comment₈的特征情感词对f₈＝{语音/n,不/d,听/v 到/v}；

3)判断f_i中Wh是否为空：f₈中Wh为“语音/n”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₈中Wh为“语音/n”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₈中Wh为“语音/n”是该APP软件信息特征，则将Cut_Comment₈＝{怎么/ryv 听/v 不/d 到/v 语音/n 了/y}存入Attribute_List中，Attribute_List＝{{视频/n 怎么/ryv 不/d 支持/v},{为什么/ryv 收/v 不/d 到/v表情/n},{为什么/ryv 不/d 能/v 接收/v 图片/n ？/ww},{发/v 不/d 了/y 消息/n},{怎么/ryv 听/v 不/d 到/v 语音/n 了/y}}，count_AL＝5，i＝9，执行2)；

2)判断i是否小于或等于n：9<15，提取Cut_Comment₉的特征情感词对f₉＝{下载/v,太/d,慢/a}；

3)判断f_i中Wh是否为空：f₉中Wh为“下载/v”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₉中Wh为“下载/v”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₉中Wh为“下载/v”不是该APP软件信息特征，则将Cut_Comment₉＝{下载/v 太/d 慢/a 了/y}存入Other_List中，Other_List＝{{下载/v 太/d 慢/a 了/y}}，count_OL＝1，i＝10，执行2)；

2)判断i是否小于或等于n：10<15，提取Cut_Comment₁₀的特征情感词对f₁₀＝{速度/n,太/d,慢/a}；

3)判断f_i中Wh是否为空：f₁₀中Wh为“速度/n”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₁₀中Wh为“速度/n”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₁₀中Wh为“速度/n”不是该APP软件信息特征，则将Cut_Comment₁₀＝{速度/n 太/d 慢/a 了/y}存入Other_List中，Other_List＝{{下载/v 太/d 慢/a 了/y},{速度/n 太/d 慢/a 了/y}}，count_OL＝2，i＝11，执行2)；

2)判断i是否小于或等于n：11<15，提取Cut_Comment₁₁的特征情感词对f₁₁＝{下载/v,太/d,慢/a}；

3)判断f_i中Wh是否为空：f₁₁中Wh为“下载/v”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₁₁中Wh为“下载/v”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₁₁中Wh为“下载/v”不是该APP软件信息特征，则将Cut_Comment₁₁＝{下载/v 太/d 慢/a 了/y，/wd 哎/e。/wj}存入Other_List中，Other_List＝{{下载/v 太/d 慢/a 了/y},{速度/n 太/d 慢/a 了/y},{下载/v 太/d 慢/a 了/y ，/wd 哎/e}}，count_OL＝3，i＝12，执行2)；

2)判断i是否小于或等于n：12<15，提取Cut_Comment₁₂的特征情感词对f₁₂＝{安装/v,不/d,上/v}；

3)判断f_i中Wh是否为空：f₁₂中Wh为“安装/v”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₁₂中Wh为“安装/v”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₁₂中Wh为“安装/v”不是该APP软件信息特征，则将Cut_Comment₁₂＝{安装/v 不/d 上/v ！/wt ！/wt ！/wt}存入Other_List中，Other_List＝{{下载/v 太/d 慢/a 了/y},{速度/n 太/d 慢/a 了/y},{下载/v 太/d 慢/a 了/y，/wd 哎/e},{安装/v 不/d 上/v ！/wt ！/wt ！/wt}}，count_OL＝4，i＝13，执行2)；

2)判断i是否小于或等于n：13<15，提取Cut_Comment₁₃的特征情感词对f₁₃＝{下载/v,null,费劲/a}；

3)判断f_i中Wh是否为空：f₁₃中Wh为“下载/v”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₁₃中Wh为“下载/v”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₁₃中Wh为“下载/v”不是该APP软件信息特征，则将Cut_Comment₁₃＝{下载/v 费劲/a 嘞/y}存入Other_List中，Other_List＝{{下载/v 太/d慢/a 了/y},{速度/n 太/d 慢/a 了/y},{下载/v 太/d 慢/a 了/y，/wd 哎/e},{安装/v 不/d 上/v ！/wt ！/wt ！/wt},{下载/v 费劲/a 嘞/y}}，count_OL＝5，i＝14，执行2)；

2)判断i是否小于或等于n：14<15，提取Cut_Comment₁₄的特征情感词对f₁₄＝{下载/v,null,忙/a}；

3)判断f_i中Wh是否为空：f₁₄中Wh为“下载/v”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₁₄中Wh为“下载/v”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₁₄中Wh为“下载/v”不是该APP软件信息特征，则将Cut_Comment₁₄＝{下载/v 的/ude1 忙/a}存入Other_List中，Other_List＝{{下载/v 太/d 慢/a 了/y},{速度/n 太/d 慢/a 了/y},{下载/v 太/d 慢/a 了/y，/wd 哎/e},{安装/v 不/d 上/v ！/wt ！/wt ！/wt},{下载/v 费劲/a 嘞/y},{下载/v 的/ude1 忙/a}}，count_OL＝6，i＝15，执行2)；

2)判断i是否小于或等于n：15＝15，提取Cut_Comment₁₅的特征情感词对f₁₅＝{版本/n,null,卡/v}；

3)判断f_i中Wh是否为空：f₁₅中Wh为“版本/n”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₁₅中Wh为“版本/n”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₁₅中Wh为“版本/n”不是该APP软件信息特征，则将Cut_Comment₁₅＝{现在/t 的/ude1 版本/n 卡/v}存入Other_List中，Other_List＝{{下载/v 太/d 慢/a 了/y},{速度/n 太/d 慢/a 了/y},{下载/v 太/d 慢/a 了/y，/wd 哎/e},{安装/v 不/d 上/v ！/wt ！/wt ！/wt},{下载/v 费劲/a 嘞/y},{下载/v的/ude1 忙/a},{现在/t 的/ude1 版本/n 卡/v}}，count_OL＝7，i＝16，执行2)；

2)判断i是否小于或等于n：16>15，执行Step3；

本发明基于扈中凯等人对特征词、情感词同时提取的方法，本发明对特征词、副词、情感词进行同时提取，即提取APP软件特征情感词对f。

如下针对Whole_List、Attribute_List和Other_List的词性组合进行处理，

Step3、本实施例中count_WL＝3，先对Whole_List中f的词性组合进行处理：

1)初始化Whole_List中的数据：j＝1，count_WLN＝0，count_WLP＝0；

2)判断j是否小于等于count_WL：1<3，执行3)；

3)判断f_j中的Wa是否为网络情感词：f₁中Wa为“可爱/a”不是网络情感词，则将f₁对应的词性组合{n d a}存入Whole_List_Pub中：{{n d a}}，count_WLP＝1，j＝2，执行2)；

2)判断j是否小于等于count_WL：2<3，执行3)；

3)判断f_j中的Wa是否为网络情感词：f₂中Wa为“好/a”不是网络情感词，则将f₂对应的词性组合{d a}存入Whole_List_Pub中：{{n d a},{d a}}，count_WLP＝2，j＝3，执行2)；

2)判断j是否小于等于count_WL：3＝3，执行3)；

3)判断f_j中的Wa是否为网络情感词：f₃中Wa为“坑爹/vn”是网络情感词，则将f₃对应的词性组合{n vn}存入Whole_List_Net中：{{n vn}}，count_WLN＝1，j＝4，执行2)；

2)判断j是否小于等于count_WL：4>3，执行4)；

4)输出该类用户评论信息的词性组合：本实施例中P(n)＝count_WLN/count_WL＝1/3＝0.33，P(p)＝count_WLP/count_WL＝2/3＝0.67，因此，输出该类用户评论信息的词性组合：{[n]+[d]+a|v}；(其中，词性组合只有{[n]+[d]+a|v}和{[ ]+a_n+[ ]}分别对应Whole_List_Pub和Whole_List_Net；此处对应的是Whole_List_Pub)；输出APP软件用户的评论模式{综合类，{[n]+[d]+a|v}}。

Step4、本实施例中count_AL＝5，则对Attribute_List中Cut_Comment的词性组合进行处理：

1)去掉Attribute_List中Cut_Comment的词，只保留对应的词性：{{n ryv d v},{ryv v d v n},{ryv d v v n ww},{v d y n},{ryv v d v n y}}；

2)提取词性中的n、v、vn、d和a：{{n d v},{v d v n},{d v v n},{v d n},{v d vn}}；

3)选取候选词性组合模板集：本实施例中N₁＝4，分类情况为：{{n d v},{v d vn},{d v v n},{v d n}}；根据公式P(ai)＝count_ai/count_AL计算每种词性组合的频率为：{0.2,0.4,0.2,0.2}，其中，P(2)＝0.4大于阈值0.25，因此，本实施例中的候选词性组合模板集为：{{v d v n}}；

4)提取词性组合模板集：本实施例中候选词性组合模板的个数为1，小于2，因此词性组合模板集为：{{v d v n}}；

5)将每条Cut_Comment的词性组合与每种词性组合模板进行匹配，并记录每种词性组合模板的次数：本实施例中根据(Levenshtein V I.Binary codes capable ofcorrecting dele-tions,insertions,and reversals[C]//Soviet physicsdoklady.1966,10(8):707-710.)文献中相似度公式计算每条词性组合与词性组合模板集中词性组合模板{v d v n}的相似度为：{0.5,1,0.5,0.75,1}，因此，词性组合模板{v d vn}的最终词性组合为：{{v d v n},{v d n}}，次数为3；

6)输出该类用户评论信息的词性组合：本实施例中，P(1)＝3/5＝0.6，因此，输出该类用户评论信息的词性组合：{v+d+v|n+[n]}，输出APP软件用户的评论模式{属性类，{v+d+v|n+[n]}}。

Step5、本实施例中count_OL＝7，对Other_List中Cut_Comment的词性组合进行处理：

1)去掉Other_List中Cut_Comment的词，只保留对应的词性：{{v d a y},{n d ay},{v d a y wd e wj},{v d v wt wt wt},{v a y},{v ude1 a},{t ude1 n v}}；

2)提取词性中的n、v、vn、d和a：{{v d a},{n d a},{v d a},{v d v},{v a},{va},{n v}}；

3)选取候选词性组合模板集：本实施例中N₂＝5，分类情况为：{{v d a},{n d a},{v d v},{v a},{n v}}；根据公式P(oi)＝count_oi/count_OL计算每种词性组合的频率为：{2/7,1/7,1/7,2/7,1/7}，其中，P(1)和P(4)大于阈值0.2，因此本实施例中的候选词性组合模板集为：{{v d a},{v a}}；

4)提取词性组合模板集：本实施例中候选词性组合模板的个数为2，计算候选词性组合模板集中{v d a}和{v a}之间的相似度为0.67，大于阈值0.5，因此，进行合并，词性组合模板集为：{{v[d]a}}；

5)将每条Cut_Comment的词性组合与每种词性组合模板进行匹配，并记录每种词性组合模板的次数：本实施例中计算每条词性组合与词性组合模板集中{v[d]a}的相似度为：{1,0.67,1,0.67,1,1,0.0}，因此，词性组合模板{v d v n}的最终词性组合为：{{v da},{n d a},{v d v},{v a}}，次数为6；

6)输出该类用户评论信息的词性组合：本实施例中，P(1)＝6/7＝0.86，因此，输出该类用户评论信息的词性组合：{v|n+[d]+a|v}；输出APP软件用户的评论模式{其它类，{v|n+[d]+a|v}}；

本实施例中，根据公式P(ci)＝count_ci/n计算每类用户评论信息的频率：P(1)＝3/15＝0.2，P(2)＝5/15＝0.33，P(3)＝7/15＝0.47，因此，输出该APP软件用户的评论模式：{其它类，{v|n+[d]+a|v}}。

实施例4：如图1-5所示，

APP软件用户评论如表2所示，

表2

编号	APP软件	用户评论信息	分词之后的用户评论信息
				1	微信	下载慢	下载/v 慢/a
2	微信	下载费劲嘞	下载/v 费劲/a 嘞/y
				3	微信	下载太慢了	下载/v 太/d 慢/a 了/y
4	微信	安装不上！！！	安装/v 不/d 上/v ！/wt ！/wt ！/wt
				5	微信	速度慢	速度/n 慢/a
6	微信	现在的内存大	现在/t 的/ude1 内存/n 大/a

所述APP软件用户评论模式识别方法的具体步骤如下：

Step1、输入n＝6条Cut_Comment；

1)初始化数据：i＝1，count_WL＝0，count_AL＝0，count_OL＝0；

2)判断i是否小于或等于n：1<6，提取Cut_Comment₁的特征情感词对f₁＝{下载/v,null,慢/a}；

3)判断f_i中Wh是否为空：f₁中Wh为“下载/v”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₁中Wh为“下载/v”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₁中Wh为“下载/v”不是该APP软件信息特征，则将Cut_Comment₁＝{下载/v 慢/a}存入Other_List中，Other_List＝{{下载/v 慢/a}}，count_OL＝1，i＝2，执行2)；

2)判断i是否小于或等于n：2<6，提取Cut_Comment₂的特征情感词对f₂＝{下载/v,null,费劲/a}；

3)判断f_i中Wh是否为空：f₂中Wh为“下载/v”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₂中Wh为“下载/v”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₂中Wh为“下载/v”不是该APP软件信息特征，则将Cut_Comment₂＝{下载/v 费劲/a 嘞/y}存入Other_List中，Other_List＝{{下载/v 慢/a},{下载/v 费劲/a 嘞/y}}，count_OL＝2，i＝3，执行2)；

2)判断i是否小于或等于n：3<6，提取Cut_Comment₃的特征情感词对f₃＝{下载/v,太/d,慢/a}；

3)判断f_i中Wh是否为空：f₃中Wh为“下载/v”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₃中Wh为“下载/v”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₂中Wh为“下载/v”不是该APP软件信息特征，则将Cut_Comment₃＝{下载/v 太/d 慢/a 了/y}存入Other_List中，Other_List＝{{下载/v 慢/a},{下载/v 费劲/a 嘞/y},{下载/v 太/d 慢/a 了/y}}，count_OL＝3，i＝4，执行2)；

2)判断i是否小于或等于n：4<6，提取Cut_Comment₄的特征情感词对f₄＝{安装/v,不/d,上/v}；

3)判断f_i中Wh是否为空：f₄中Wh为“安装/v”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₄中Wh为“安装/v”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₄中Wh为“安装/v”不是该APP软件信息特征，则将Cut_Comment₄＝{安装/v 不/d 上/v ！/wt ！/wt ！/wt}存入Other_List中，Other_List＝{{下载/v 慢/a},{下载/v 费劲/a 嘞/y},{下载/v 太/d 慢/a 了/y},{安装/v 不/d 上/v ！/wt ！/wt ！/wt}}，count_OL＝4，i＝5，执行2)；

2)判断i是否小于或等于n：5<6，提取Cut_Comment₅的特征情感词对f₅＝{速度/n,null,慢/a}；

3)判断f_i中Wh是否为空：f₅中Wh为“速度/n”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₅中Wh为“速度/n”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₅中Wh为“速度/n”不是该APP软件信息特征，则将Cut_Comment₅＝{速度/n 慢/a}存入Other_List中，Other_List＝{{下载/v 慢/a},{下载/v 费劲/a 嘞/y},{下载/v 太/d 慢/a 了/y},{安装/v 不/d 上/v ！/wt ！/wt！/wt},{速度/n 慢/a}}，count_OL＝5，i＝6，执行2)；

2)判断i是否小于或等于n：6＝6，提取Cut_Comment₆的特征情感词对f₆＝{内存/n,null,大/a}；

3)判断f_i中Wh是否为空：f₆中Wh为“内存/n”，执行4)；

4)判断f_i中Wh是否为该APP软件的软件名称：f₆中Wh为“内存/n”不是该APP软件的软件名称，执行5)；

5)判断f_i中Wh是否为该APP软件信息特征：f₆中Wh为“内存/n”不是该APP软件信息特征，则将Cut_Comment₆＝{现在/t 的/ude1 内存/n 大/a}存入Other_List中，Other_List＝{{下载/v 慢/a},{下载/v 费劲/a 嘞/y},{下载/v 太/d 慢/a 了/y},{安装/v 不/d 上/v ！/wt ！/wt ！/wt},{速度/n 慢/a},{现在/t 的/ude1 内存/n 大/a}}，count_OL＝6，i＝7，执行2)；

2)判断i是否小于或等于n：7>6，执行Step3；

Step3、本实施例中count_WL＝0，count_AL＝0，count_OL＝6，则对Other_List中Cut_Comment的词性组合进行处理：

1)去掉Other_List中Cut_Comment中的词，只保留对应的词性：{{v a},{v a y},{v d a y},{v d v wt wt wt},{n a},{t ude1 n a}}；

2)提取词性中的n、v、vn、d和a：{{v a},{v a},{v d a},{v d v},{n a},{n a}}；

3)选取候选词性组合模板集：本实施例中N₂＝4，分类情况为：{{v a},{v d a},{vd v},{n a}}；根据公式P(oi)＝count_oi/count_OL计算每种词性组合的频率为：{0.4,0.2,0.2,0.4}，其中，P(1)和P(4)大于阈值0.25，因此，本实施例中的候选词性组合模板集为：{{v a},{n a}}；

4)提取词性组合模板集：本实施例中候选词性组合模板的个数为2，因此，计算候选词性组合模板集中{v a}和{n a}之间的相似度为0.5，因此，将候选词性组合模板集作为词性组合模板集：{{v a},{n a}}；

5)将每条Cut_Comment的词性组合与每种词性组合模板进行匹配，并记录每种词性组合模板的次数：本实施例中计算每条词性组合与词性组合模板{v a}的相似度为：{1,1,0.67,0.33,0.5,0.5}，与词性组合模板{n a}的相似度为：{0.5,0.5,0.33,0.0,1,1}，因此，词性组合模板{v a}的最终词性组合为：{{v a},{v d a}}，次数为3，词性组合模板{na}的最终词性组合为：{n a}，次数为2；

6)输出该类用户评论信息的词性组合：本实施例中，P(1)＝3/6＝0.5，P(2)＝2/6＝0.33，因此，输出该类用户评论信息的词性组合：{v+[d]+a}；输出APP软件用户的评论模式{其它类，{v+[d]+a}}；

本实施例中，根据公式P(ci)＝count_ci/n计算每类用户评论信息的频率：P(1)＝0/6＝0，P(2)＝0/6＝0，P(3)＝6/6＝1，因此，输出该APP软件用户的评论模式：{其它类，{v+[d]+a}}。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种APP软件用户评论模式识别方法，其特征在于：首先根据用户对APP软件的评论特征将用户评论信息分为三类；然后通过计算每类用户评论信息的频率来选择需要分析的类别；最后对需要分析对应类别评论信息中分词之后的用户评论信息的词性组合，选出词性组合模板，确定APP软件用户的评论模式；

所述方法的具体步骤如下：

Step1、输入n条分词之后的APP软件用户评论信息Cut_Comment；

2.1)初始化数据：i=1，count_WL=0，count_AL=0，count_OL=0；其中，i表示第i条Cut_Comment，count_WL、count_AL、count_OL分别表示APP软件综合特征、属性特征和其它类特征的用户评论信息条数；

2.2)判断i是否小于或等于n：如果是，则提取Cut_Comment_i中的特征情感词对f_i ={Wh,Wd, Wa},i = 1,2, ... ,n ，Wh表示评论用户关注的APP软件特征词，Wa为修饰特征Wh的情感词，Wd为修饰情感词Wa的副词；否则，执行Step3；

2.3)判断f_i中Wh是否为空：如果是，则将f_i存入Whole_List中，count_WL++，i++，执行2.2)；否则，执行2.4)；

2.4)判断f_i中Wh是否为该APP软件的软件名称：如果是，则将f_i存入Whole_List中，count_WL++，i++，执行2.2)；否则，执行2.5)；

2.5)判断f_i中Wh是否为该APP软件信息特征：如果是，则将Cut_Comment_i存入Attribute_List中，count_AL++，i++，执行2.2)；否则，将Cut_Comment_i存入Other_List中，count_OL ++，i++，执行2.2)；

Step3、根据公式P(ci)=count_ci/n计算每类用户评论信息的频率；式中，P(ci)表示ci类用户评论信息在n条Cut_Comment中出现的频率；count_ci表示ci类Cut_Comment的条数，ci为Whole_List、Attribute_List或Other_List，Whole_List类出现的条数为count_WL，Attribute_List类出现的条数为count_AL，Other_List类出现的条数为count_OL；

4.1) 初始化Whole_List中的数据：j=1，count_WLN =0，count_WLP=0；其中，j表示Whole_List类中的第j条用户评论，count_WLN和count_WLP分别表示Whole_List类用户评论信息中使用网络情感词汇和未使用网络情感词汇的评论条数；

4.2)判断j是否小于或等于count_WL：如果是，则执行4.3)；否则，执行4.4)；

4.3)判断f_j中的Wa是否为网络情感词：如果是，则将f_j对应的词性组合存入Whole_List_Net中，count_WLN++，j++，执行4.2)；否则将f_j对应的词性组合存入Whole_List_Pub中，count_WLP ++，j++，执行4.2)；其中，Whole_List_Net和Whole_List_Pub分别表示Whole_List类用户评论信息中使用网络情感词汇和未使用网络情感词汇的词性组合；

4.4) 输出APP软件用户的评论模式：根据公式P(n)=count_WLN/count_WL和P(p)=count_WLP/count_WL分别计算Whole_List_Net和Whole_List_Pub出现的频率P(n)和P(p)，取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合，输出APP软件用户的评论模式{综合类，词性组合}；其中该类用户评论信息的词性组合为：“{[ ]+a_n+[ ]}”或“{[n]+[d]+a|v}”，其中，“a_n”表示网络情感词，n表示名词，d表示副词，a表示形容词，v表示动词；[ ]表示该项为可选项且不确定项；

5.1)去掉Attribute_List中每条Cut_Comment的词，只保留对应的词性；

5.2)提取词性中的n、v、vn、d和a，其中，vn表示动名词；

5.3)选取候选词性组合模板集：先将Attribute_List中Cut_Comment的词性组合分为N₁类；再根据公式P(ai)=count_ai/count_AL计算每种词性组合的频率，并将P(ai)大于或等于阈值1/N₁的词性组合存入候选词性组合模板集中；

5.4)提取词性组合模板集：如果候选词性组合模板的个数大于或等于2，则计算候选词性组合模板之间的相似度，并将相似度大于阈值0.5的候选词性组合模板进行合并；否则，将候选词性组合模板集作为词性组合模板集；

5.5)将每条Cut_Comment与每种词性组合模板进行匹配，并记录每种词性组合模板的次数：计算每条Cut_Comment的词性组合与每种词性组合模板的相似度，并将相似度大于阈值0.5的词性组合存入对应的词性组合模板集中，次数加1；

5.6)输出APP软件用户的评论模式：根据公式P(a)=count_a/count_AL计算每种词性组合模板出现的频率，取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合，输出APP软件用户的评论模式{属性类，词性组合}；

6.1)去掉Other_List中每条Cut_Comment的词，只保留对应的词性；

6.2)提取词性中的n、v、vn、d和a；

6.3)选取候选词性组合模板集：先将Other_List中Cut_Comment的词性组合为N₂类；再根据公式P(oi)=count_oi/count_OL计算每种词性组合的频率，并将P(oi)大于或等于阈值1/N₂的词性组合存入候选词性组合模板集中；

6.4) 提取词性组合模板集：如果候选词性组合模板的个数大于或等于2，则计算候选词性组合模板之间的相似度，并将相似度大于阈值0.5的候选词性组合模板进行合并；否则，将候选词性组合模板集作为词性组合模板集；

6.5)将每条Cut_Comment的词性组合与每种词性组合模板进行匹配，并记录每种词性组合模板的次数：计算每条分词之后的用户评论信息的词性组合与每种词性组合模板的相似度，并将相似度大于阈值0.5的词性组合存入对应的词性组合模板集中，次数加1；

6.6)输出APP软件用户的评论模式：根据公式P(o)=count_o/count_OL计算每种词性组合模板出现的频率，取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合，输出APP软件用户的评论模式{其它类，词性组合}；