CN106227720B - 一种app软件用户评论模式识别方法 - Google Patents
一种app软件用户评论模式识别方法 Download PDFInfo
- Publication number
- CN106227720B CN106227720B CN201610613664.4A CN201610613664A CN106227720B CN 106227720 B CN106227720 B CN 106227720B CN 201610613664 A CN201610613664 A CN 201610613664A CN 106227720 B CN106227720 B CN 106227720B
- Authority
- CN
- China
- Prior art keywords
- speech
- comment
- count
- list
- app software
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Stored Programmes (AREA)
Abstract
本发明涉及一种APP软件用户评论模式识别方法,属于APP软件用户行为分析领域。本发明首先根据用户对APP软件的评论特征将用户评论信息分为三类;然后通过计算每类用户评论信息的频率来选择需要分析的类别;最后对需要分析对应类户评论信息中分词之后的用户评论信息的词性组合,选出词性组合模板,确定APP软件用户的评论模式。本发明有助于分析APP软件用户侧重于评价APP软件的哪些特征;有助于分析APP软件用户发表评论信息的表达形式;有助于分析APP软件用户行为。
Description
技术领域
本发明涉及一种APP软件用户评论模式识别方法,属于APP软件用户行为分析领域。
背景技术
用户评论分析方法在商品领域日趋成熟,多数研究主要使用ICTCLAS作为用户评论信息数据处理的工具,最后通过自然语言处理等方法来对用户评论信息进行分析。例如,扈中凯等人通过对特征词和情感词同时提取,并建立用户兴趣偏好模型,结合用户历史评论数据来改善传统协同过滤推荐算法的推荐准确性;邱云飞等人通过分析用户评论的历史数据,提出一种基于用户行为的产品垃圾评论者检测方法。上述研究针对商品的用户评论的历史数据进行挖掘和分析,来判断用户的偏好和评论的真实性。
目前,面对海量的移动应用,APP软件用户迅速增加,用户评论信息中往往隐含了用户对APP软件特定属性的关注程度等潜在信息。不同的用户对APP软件的评论模式是不同的,即,对APP软件的进行评论的侧重点不同,且用户发表评论的表达习惯也不同。这对APP软件用户行为分析带来了困难,从而影响了用户评价APP软件的质量,因此如何识别APP软件用户评论模式成为一个需要解决的问题。
本发明提出通过根据用户对APP软件的评论特征将用户评论信息分为三类,抽取出每类分词之后的用户评论信息的词性组合模板,并计算用户评论信息的概率等方法来识别该APP软件用户的评论模式,有助于分析APP软件的用户行为。
发明内容
针对上述问题,本发明提供了一种APP软件用户评论模式识别方法,以用于帮助行为分析APP软件用户。
本发明的技术方案是:一种APP软件用户评论模式识别方法,首先根据用户对APP软件的评论特征将用户评论信息分为三类;然后通过计算每类用户评论信息的频率来选择需要分析的类别;最后对需要分析对应类别评论信息中分词之后的用户评论信息的词性组合,选出词性组合模板,确定APP软件用户的评论模式。
所述方法的具体步骤如下:
Step1、输入n条分词之后的APP软件用户评论信息Cut_Comment;
Step2、根据用户对APP软件的评论特征将n条Cut_Comment分为Whole_List、Attribute_List和Other_List三类:
1)初始化数据:i=1,countWL=0,countAL=0,countOL=0;
2)判断i是否小于或等于n:如果是,则提取Cut_Commenti中的特征情感词对fi={Wh,Wd,Wa}(i=1,2,...,n),Wh表示评论用户关注的APP软件特征词,Wa为修饰特征Wh的情感词,Wd为修饰情感词Wa的副词;否则,执行Step3;
3)判断fi中Wh是否为空:如果是,则将fi存入Whole_List中,countWL++,i++,执行2);否则,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:如果是,则将fi存入Whole_List中,countWL++,i++,执行2);否则,执行5);
5)判断fi中Wh是否为该APP软件信息特征:如果是,则将Cut_Commenti存入Attribute_List中,countAL++,i++,执行2);否则,将Cut_Commenti存入Other_List中,countOL++,i++,执行2);
Step3、根据公式P(ci)=countci/n计算每类用户评论信息的频率;式中,P(ci)表示ci类用户评论信息在n条Cut_Comment中出现的频率;countci表示ci类Cut_Comment的条数,ci为Whole_List、Attribute_List或Other_List,Whole_List类出现的条数为countWL,Attribute_List类出现的条数为countAL,Other_List类出现的条数为countOL;
如果Whole_List类用户评论信息在n条Cut_Comment中出现的频率最大,则执行步骤Step4;
如果Attribute_List类用户评论信息在n条Cut_Comment中出现的频率最大,则执行步骤Step5;
如果Other_List类用户评论信息在n条Cut_Comment中出现的频率最大,则执行步骤Step6;
(如果出现频率相等的情况,则相等频率对应的步骤都执行)
Step4、对Whole_List中f的词性组合进行处理,词性组合处理过程如下:
1)初始化Whole_List中的数据:j=1,countWLN=0,countWLP=0;
2)判断j是否小于或等于countWL:如果是,则执行3);否则,执行4);
3)判断fj中的Wa是否为网络情感词:如果是,则将fj对应的词性组合存入Whole_List_Net中,countWLN++,j++,执行2);否则将fj对应的词性组合存入Whole_List_Pub中,countWLP++,j++,执行2);
4)输出APP软件用户的评论模式:根据公式P(n)=countWLN/countWL和P(p)=countWLP/countWL分别计算Whole_List_Net和Whole_List_Pub出现的频率P(n)和P(p),取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合,输出APP软件用户的评论模式{综合类,词性组合};其中该类用户评论信息的词性组合为:“{[ ]+a_n+[ ]}”或“{[n]+[d]+a|v}”,其中,“a_n”表示网络情感词,n表示名词,d表示副词,a表示形容词,v表示动词;
Step5、对Attribute_List中Cut_Comment的词性组合进行处理,词性组合处理过程如下:
1)去掉Attribute_List中每条Cut_Comment的词,只保留对应的词性;
2)提取词性中的n、v、vn、d和a,其中,vn表示动名词;
3)选取候选词性组合模板集:先将Attribute_List中Cut_Comment的词性组合分为N1类;再根据公式P(ai)=countai/countAL计算每种词性组合的频率,并将P(ai)大于或等于阈值1/N1的词性组合存入候选词性组合模板集中;
式中,N1表示Attribute_List类用户评论信息中Cut_Comment的词性组合的种类;P(ai)表示第ai类词性组合在countAL条评论中出现的频率,countai表示第ai类词性组合的条数;
4)提取词性组合模板集:如果候选词性组合模板的个数大于或等于2,则计算候选词性组合模板之间的相似度,并将相似度大于阈值0.5的候选词性组合模板进行合并;否则,将候选词性组合模板集作为词性组合模板集;
5)将每条Cut_Comment与每种词性组合模板进行匹配,并记录每种词性组合模板的次数:计算每条Cut_Comment的词性组合与每种词性组合模板的相似度,并将相似度大于阈值0.5的词性组合存入对应的词性组合模板集中,次数加1;
6)输出APP软件用户的评论模式:根据公式P(a)=counta/countAL计算每种词性组合模板出现的频率,取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合,输出APP软件用户的评论模式{属性类,词性组合};
式中,P(a)表示第a类词性组合模板在countAL条Cut_Comment中出现的频率,counta表示第a类词性组合模板的条数;
Step6、对Other_List中Cut_Comment的词性组合进行处理,词性组合处理过程如下:
1)去掉Other_List中每条Cut_Comment的词,只保留对应的词性;
2)提取词性中的n、v、vn、d和a;
3)选取候选词性组合模板集:先将Other_List中Cut_Comment的词性组合为N2类;再根据公式P(oi)=countoi/countOL计算每种词性组合的频率,并将P(oi)大于或等于阈值1/N2的词性组合存入候选词性组合模板集中;
式中,N2表示Other_List类用户评论信息中Cut_Comment的词性组合的种类;P(oi)表示第oi类词性组合在countOL条评论中出现的频率,conutoi表示第oi类词性组合的条数;
4)提取词性组合模板集:如果候选词性组合模板的个数大于或等于2,则计算候选词性组合模板之间的相似度,并将相似度大于阈值0.5的候选词性组合模板进行合并;否则,将候选词性组合模板集作为词性组合模板集;
5)将每条Cut_Comment的词性组合与每种词性组合模板进行匹配,并记录每种词性组合模板的次数:计算每条分词之后的用户评论信息的词性组合与每种词性组合模板的相似度,并将相似度大于阈值0.5的词性组合存入对应的词性组合模板集中,次数加1;
6)输出APP软件用户的评论模式:根据公式P(o)=counto/countOL计算每种词性组合模板出现的频率,取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合,输出APP软件用户的评论模式{其它类,词性组合};
式中,P(o)表示第o类词性组合模板在countOL条Cut_Comment中出现的频率,counto表示第o类词性组合模板的条数。
所述Whole_List表示APP软件综合特征评论,如“很好”,Whole_List_Net表示该类特征评论中的情感词为网络情感词的用户评论,如“坑爹的微信”中的网络情感词为“坑爹”,Whole_List_Pub表示该类特征评论中的情感词不是网络情感词的用户评论,如“微信很好”;Attribute_List表示APP软件属性特征评论,如对“微信”APP软件进行评论:“为什么收不到表情”,其中“表情”为“微信”APP软件的属性特征;Other_List表示APP软件其它类特征评论,如对“微信”APP软件进行评论:“下载太慢了”,其中“下载”为“微信”APP软件的其它类特征。
所述“{[ ]+a_n+[ ]}”表示含有网络情感词的用户评论信息语法结构具有随意性,词性组合具有不确定性,“[ ]”表示可选项且不确定项;“{[n]+[d]+a|v}”表示针对APP软件综合特征的用户评论信息的词性组合具有单一性,“[n]”和“[d]”表示可选项,“a|v”表示“a”或“v”。
本发明使用ICTCLAS 2016作为数据处理的工具,进行用户评论信息的分词及词性标注;基于扈中凯等人对特征词、情感词同时提取的方法,本发明对特征词、副词、情感词进行同时提取,即提取APP软件特征情感词对f。
其中,相似度公式引自(Levenshtein V I.Binary codes capable ofcorrecting dele-tions,insertions,and reversals[C]//Soviet physicsdoklady.1966,10(8):707-710.)。
本发明的有益效果是:
(1)本发明定义并识别APP软件用户的评论特征类别,有助于分析APP软件用户侧重于评价APP软件的哪些特征;
(2)本发明分析APP软件用户评论信息的词性组合,有助于分析APP软件用户发表评论信息的表达形式;
(3)本发明通过识别APP软件用户评论模式,有助于分析APP软件用户行为。
附图说明
图1是本发明的流程图;
图2是图1中步骤S2的具体流程图;
图3是图1中步骤S3的具体流程图;
图4是图1中步骤S4的具体流程图;
图5是图1中步骤S5的具体流程图。
具体实施方式
实施例1:如图1-5所示,一种APP软件用户评论模式识别方法,首先根据用户对APP软件的评论特征将用户评论信息分为三类;然后通过计算每类用户评论信息的频率来选择需要分析的类别;最后对需要分析对应类别评论信息中分词之后的用户评论信息的词性组合,选出词性组合模板,确定APP软件用户的评论模式。
所述方法的具体步骤如下:
Step1、输入n条分词之后的APP软件用户评论信息Cut_Comment;
Step2、根据用户对APP软件的评论特征将n条Cut_Comment分为Whole_List、Attribute_List和Other_List三类:
1)初始化数据:i=1,countWL=0,countAL=0,countOL=0;
2)判断i是否小于或等于n:如果是,则提取Cut_Commenti中的特征情感词对fi={Wh,Wd,Wa}(i=1,2,...,n),Wh表示评论用户关注的APP软件特征词,Wa为修饰特征Wh的情感词,Wd为修饰情感词Wa的副词;否则,执行Step3;
3)判断fi中Wh是否为空:如果是,则将fi存入Whole_List中,countWL++,i++,执行2);否则,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:如果是,则将fi存入Whole_List中,countWL++,i++,执行2);否则,执行5);
5)判断fi中Wh是否为该APP软件信息特征:如果是,则将Cut_Commenti存入Attribute_List中,countAL++,i++,执行2);否则,将Cut_Commenti存入Other_List中,countOL++,i++,执行2);
Step3、根据公式P(ci)=countci/n计算每类用户评论信息的频率;式中,P(ci)表示ci类用户评论信息在n条Cut_Comment中出现的频率;countci表示ci类Cut_Comment的条数,ci为Whole_List、Attribute_List或Other_List,Whole_List类出现的条数为countWL,Attribute_List类出现的条数为countAL,Other_List类出现的条数为countOL;
如果Whole_List类用户评论信息在n条Cut_Comment中出现的频率最大,则执行步骤Step4;
如果Attribute_List类用户评论信息在n条Cut_Comment中出现的频率最大,则执行步骤Step5;
如果Other_List类用户评论信息在n条Cut_Comment中出现的频率最大,则执行步骤Step6;
Step4、对Whole_List中f的词性组合进行处理,词性组合处理过程如下:
1)初始化Whole_List中的数据:j=1,countWLN=0,countWLP=0;
2)判断j是否小于或等于countWL:如果是,则执行3);否则,执行4);
3)判断fj中的Wa是否为网络情感词:如果是,则将fj对应的词性组合存入Whole_List_Net中,countWLN++,j++,执行2);否则将fj对应的词性组合存入Whole_List_Pub中,countWLP++,j++,执行2);
4)输出APP软件用户的评论模式:根据公式P(n)=countWLN/countWL和P(p)=countWLP/countWL分别计算Whole_List_Net和Whole_List_Pub出现的频率P(n)和P(p),取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合,输出APP软件用户的评论模式{综合类,词性组合};其中该类用户评论信息的词性组合为:“{[ ]+a_n+[ ]}”或“{[n]+[d]+a|v}”,其中,“a_n”表示网络情感词,n表示名词,d表示副词,a表示形容词,v表示动词;
Step5、对Attribute_List中Cut_Comment的词性组合进行处理,词性组合处理过程如下:
1)去掉Attribute_List中每条Cut_Comment的词,只保留对应的词性;
2)提取词性中的n、v、vn、d和a,其中,vn表示动名词;
3)选取候选词性组合模板集:先将Attribute_List中Cut_Comment的词性组合分为N1类;再根据公式P(ai)=countai/countAL计算每种词性组合的频率,并将P(ai)大于或等于阈值1/N1的词性组合存入候选词性组合模板集中;
式中,N1表示Attribute_List类用户评论信息中Cut_Comment的词性组合的种类;P(ai)表示第ai类词性组合在countAL条评论中出现的频率,countai表示第ai类词性组合的条数;
4)提取词性组合模板集:如果候选词性组合模板的个数大于或等于2,则计算候选词性组合模板之间的相似度,并将相似度大于阈值0.5的候选词性组合模板进行合并;否则,将候选词性组合模板集作为词性组合模板集;
5)将每条Cut_Comment与每种词性组合模板进行匹配,并记录每种词性组合模板的次数:计算每条Cut_Comment的词性组合与每种词性组合模板的相似度,并将相似度大于阈值0.5的词性组合存入对应的词性组合模板集中,次数加1;
6)输出APP软件用户的评论模式:根据公式P(a)=counta/countAL计算每种词性组合模板出现的频率,取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合,输出APP软件用户的评论模式{属性类,词性组合};
式中,P(a)表示第a类词性组合模板在countAL条Cut_Comment中出现的频率,counta表示第a类词性组合模板的条数;
Step6、对Other_List中Cut_Comment的词性组合进行处理,词性组合处理过程如下:
1)去掉Other_List中每条Cut_Comment的词,只保留对应的词性;
2)提取词性中的n、v、vn、d和a;
3)选取候选词性组合模板集:先将Other_List中Cut_Comment的词性组合为N2类;再根据公式P(oi)=countoi/countOL计算每种词性组合的频率,并将P(oi)大于或等于阈值1/N2的词性组合存入候选词性组合模板集中;
式中,N2表示Other_List类用户评论信息中Cut_Comment的词性组合的种类;P(oi)表示第oi类词性组合在countOL条评论中出现的频率,conutoi表示第oi类词性组合的条数;
4)提取词性组合模板集:如果候选词性组合模板的个数大于或等于2,则计算候选词性组合模板之间的相似度,并将相似度大于阈值0.5的候选词性组合模板进行合并;否则,将候选词性组合模板集作为词性组合模板集;
5)将每条Cut_Comment的词性组合与每种词性组合模板进行匹配,并记录每种词性组合模板的次数:计算每条分词之后的用户评论信息的词性组合与每种词性组合模板的相似度,并将相似度大于阈值0.5的词性组合存入对应的词性组合模板集中,次数加1;
6)输出APP软件用户的评论模式:根据公式P(o)=counto/countOL计算每种词性组合模板出现的频率,取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合,输出APP软件用户的评论模式{其它类,词性组合};
式中,P(o)表示第o类词性组合模板在countOL条Cut_Comment中出现的频率,counto表示第o类词性组合模板的条数。
实施例2:如图1-5所示,一种APP软件用户评论模式识别方法,首先根据用户对APP软件的评论特征将用户评论信息分为三类;然后通过计算每类用户评论信息的频率来选择需要分析的类别;最后对需要分析对应类别评论信息中分词之后的用户评论信息的词性组合,选出词性组合模板,确定APP软件用户的评论模式。
实施例3:如图1-5所示,一种APP软件用户评论模式识别方法,
APP软件用户评论如表1所示,
表1
编号 | APP软件 | 用户评论信息 | 分词之后的用户评论信息 |
1 | 微信 | 微信非常可爱 | 微信/n 非常/d 可爱/a |
2 | 微信 | 非常好 | 非常/d 好/a |
3 | 微信 | 坑爹的微信 | 坑爹/vn 的/ude1 微信/n |
4 | 微信 | 视频怎么不支持 | 视频/n 怎么/ryv 不/d 支持/v |
5 | 微信 | 为什么收不到表情 | 为什么/ryv 收/v 不/d 到/v 表情/n |
6 | 微信 | 为什么不能接收图片? | 为什么/ryv 不/d 能/v 接收/v 图片/n ?/ww |
7 | 微信 | 发不了消息 | 发/v 不/d 了/y 消息/n |
8 | 微信 | 怎么听不到语音了 | 怎么/ryv 听/v 不/d 到/v 语音/n 了/y |
9 | 微信 | 下载太慢了 | 下载/v 太/d 慢/a 了/y |
10 | 微信 | 速度太慢了 | 速度/n 太/d 慢/a 了/y |
11 | 微信 | 下载太慢了,哎。 | 下载/v 太/d 慢/a 了/y ,/wd 哎/e 。/wj |
12 | 微信 | 安装不上!!! | 安装/v 不/d 上/v !/wt !/wt !/wt |
13 | 微信 | 下载费劲嘞 | 下载/v 费劲/a 嘞/y |
14 | 微信 | 下载的忙 | 下载/v 的/ude1 忙/a |
15 | 微信 | 现在的版本卡 | 现在/t 的/ude1 版本/n 卡/v |
所述APP软件用户评论模式识别方法的具体步骤如下:
Step1、输入n=15条Cut_Comment;
本发明使用ICTCLAS 2016作为数据处理的工具,进行用户评论信息的分词及词性标注。
Step2、根据用户对该APP软件的评论特征将用户评论信息分为Whole_List、Attribute_List和Other_List三类:
1)初始化数据:countWL=0,countAL=0,countOL=0;
2)判断i是否小于或等于n:1<15,提取Cut_Comment1的特征情感词对f1={微信/n,非常/d,可爱/a};
3)判断fi中Wh是否为空:f1中Wh为“微信/n”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f1中Wh为“微信/n”是该APP软件的软件名称,则将f1存入Whole_List中,Whole_List={{微信/n 非常/d 可爱/a}},countWL=1,i=2,执行2);
2)判断i是否小于或等于n:2<15,提取Cut_Comment2的特征情感词对f2={null,非常/d,好/a};
3)判断fi中Wh是否为空:f2中Wh为空,将f2存入Whole_List中,Whole_List={{微信/n 非常/d 可爱/a},{null,非常/d,好/a}},countWL=2,i=3,执行2);
2)判断i是否小于或等于n:3<15,提取Cut_Comment3的特征情感词对f3={微信/n,null,坑爹/vn};
3)判断fi中Wh是否为空:f3中Wh为“微信/n”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f3中Wh为“微信/n”是该APP软件的软件名称,则将f3存入Whole_List中,Whole_List={{微信/n 非常/d 可爱/a},{null,非常/d,好/a},{微信/n,null,坑爹/vn}},countWL=3,i=4,执行2);
2)判断i是否小于或等于n:4<15,提取Cut_Comment4的特征情感词对f4={视频/n,不/d,支持/v};
3)判断fi中Wh是否为空:f4中Wh为“视频/n”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f4中Wh为“视频/n”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f4中Wh为“视频/n”是该APP软件信息特征,则将Cut_Comment4={视频/n 怎么/ryv 不/d 支持/v}存入Attribute_List中,Attribute_List={{视频/n 怎么/ryv 不/d 支持/v}},countAL=1,i=5,执行2);
2)判断i是否小于或等于n:5<15,提取Cut_Comment5的特征情感词对f5={表情/n,不/d,收/v到/v};
3)判断fi中Wh是否为空:f5中Wh为“表情/n”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f5中Wh为“表情/n”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f5中Wh为“表情/n”是该APP软件信息特征,则将Cut_Comment5={为什么/ryv 收/v 不/d 到/v 表情/n}存入Attribute_List中,Attribute_List={{视频/n 怎么/ryv 不/d 支持/v},{为什么/ryv 收/v 不/d 到/v 表情/n}},countAL=2,i=6,执行2);
2)判断i是否小于或等于n:6<15,提取Cut_Comment6的特征情感词对f6={图片/n,不/d,能/v接收/v};
3)判断fi中Wh是否为空:f6中Wh为“图片/n”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f6中Wh为“图片/n”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f6中Wh为“图片/n”是该APP软件信息特征,则将Cut_Comment6={为什么/ryv 不/d 能/v 接收/v 图片/n ?/ww}存入Attribute_List中,Attribute_List={{视频/n 怎么/ryv 不/d 支持/v},{为什么/ryv 收/v 不/d到/v 表情/n},{为什么/ryv 不/d 能/v 接收/v 图片/n ?/ww}},countAL=3,i=7,执行2);
2)判断i是否小于或等于n:7<15,提取Cut_Comment7的特征情感词对f7={消息/n,不/d,发/v};
3)判断fi中Wh是否为空:f7中Wh为“消息/n”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f7中Wh为“消息/n”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f7中Wh为“消息/n”是该APP软件信息特征,则将Cut_Comment7={发/v 不/d 了/y 消息/n}存入Attribute_List中,Attribute_List={{视频/n 怎么/ryv 不/d 支持/v},{为什么/ryv 收/v 不/d 到/v 表情/n},{为什么/ryv 不/d 能/v 接收/v 图片/n ?/ww},{发/v 不/d 了/y 消息/n}},countAL=4,i=8,执行2);
2)判断i是否小于或等于n:8<15,提取Cut_Comment8的特征情感词对f8={语音/n,不/d,听/v 到/v};
3)判断fi中Wh是否为空:f8中Wh为“语音/n”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f8中Wh为“语音/n”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f8中Wh为“语音/n”是该APP软件信息特征,则将Cut_Comment8={怎么/ryv 听/v 不/d 到/v 语音/n 了/y}存入Attribute_List中,Attribute_List={{视频/n 怎么/ryv 不/d 支持/v},{为什么/ryv 收/v 不/d 到/v表情/n},{为什么/ryv 不/d 能/v 接收/v 图片/n ?/ww},{发/v 不/d 了/y 消息/n},{怎么/ryv 听/v 不/d 到/v 语音/n 了/y}},countAL=5,i=9,执行2);
2)判断i是否小于或等于n:9<15,提取Cut_Comment9的特征情感词对f9={下载/v,太/d,慢/a};
3)判断fi中Wh是否为空:f9中Wh为“下载/v”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f9中Wh为“下载/v”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f9中Wh为“下载/v”不是该APP软件信息特征,则将Cut_Comment9={下载/v 太/d 慢/a 了/y}存入Other_List中,Other_List={{下载/v 太/d 慢/a 了/y}},countOL=1,i=10,执行2);
2)判断i是否小于或等于n:10<15,提取Cut_Comment10的特征情感词对f10={速度/n,太/d,慢/a};
3)判断fi中Wh是否为空:f10中Wh为“速度/n”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f10中Wh为“速度/n”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f10中Wh为“速度/n”不是该APP软件信息特征,则将Cut_Comment10={速度/n 太/d 慢/a 了/y}存入Other_List中,Other_List={{下载/v 太/d 慢/a 了/y},{速度/n 太/d 慢/a 了/y}},countOL=2,i=11,执行2);
2)判断i是否小于或等于n:11<15,提取Cut_Comment11的特征情感词对f11={下载/v,太/d,慢/a};
3)判断fi中Wh是否为空:f11中Wh为“下载/v”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f11中Wh为“下载/v”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f11中Wh为“下载/v”不是该APP软件信息特征,则将Cut_Comment11={下载/v 太/d 慢/a 了/y,/wd 哎/e。/wj}存入Other_List中,Other_List={{下载/v 太/d 慢/a 了/y},{速度/n 太/d 慢/a 了/y},{下载/v 太/d 慢/a 了/y ,/wd 哎/e}},countOL=3,i=12,执行2);
2)判断i是否小于或等于n:12<15,提取Cut_Comment12的特征情感词对f12={安装/v,不/d,上/v};
3)判断fi中Wh是否为空:f12中Wh为“安装/v”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f12中Wh为“安装/v”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f12中Wh为“安装/v”不是该APP软件信息特征,则将Cut_Comment12={安装/v 不/d 上/v !/wt !/wt !/wt}存入Other_List中,Other_List={{下载/v 太/d 慢/a 了/y},{速度/n 太/d 慢/a 了/y},{下载/v 太/d 慢/a 了/y,/wd 哎/e},{安装/v 不/d 上/v !/wt !/wt !/wt}},countOL=4,i=13,执行2);
2)判断i是否小于或等于n:13<15,提取Cut_Comment13的特征情感词对f13={下载/v,null,费劲/a};
3)判断fi中Wh是否为空:f13中Wh为“下载/v”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f13中Wh为“下载/v”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f13中Wh为“下载/v”不是该APP软件信息特征,则将Cut_Comment13={下载/v 费劲/a 嘞/y}存入Other_List中,Other_List={{下载/v 太/d慢/a 了/y},{速度/n 太/d 慢/a 了/y},{下载/v 太/d 慢/a 了/y,/wd 哎/e},{安装/v 不/d 上/v !/wt !/wt !/wt},{下载/v 费劲/a 嘞/y}},countOL=5,i=14,执行2);
2)判断i是否小于或等于n:14<15,提取Cut_Comment14的特征情感词对f14={下载/v,null,忙/a};
3)判断fi中Wh是否为空:f14中Wh为“下载/v”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f14中Wh为“下载/v”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f14中Wh为“下载/v”不是该APP软件信息特征,则将Cut_Comment14={下载/v 的/ude1 忙/a}存入Other_List中,Other_List={{下载/v 太/d 慢/a 了/y},{速度/n 太/d 慢/a 了/y},{下载/v 太/d 慢/a 了/y,/wd 哎/e},{安装/v 不/d 上/v !/wt !/wt !/wt},{下载/v 费劲/a 嘞/y},{下载/v 的/ude1 忙/a}},countOL=6,i=15,执行2);
2)判断i是否小于或等于n:15=15,提取Cut_Comment15的特征情感词对f15={版本/n,null,卡/v};
3)判断fi中Wh是否为空:f15中Wh为“版本/n”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f15中Wh为“版本/n”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f15中Wh为“版本/n”不是该APP软件信息特征,则将Cut_Comment15={现在/t 的/ude1 版本/n 卡/v}存入Other_List中,Other_List={{下载/v 太/d 慢/a 了/y},{速度/n 太/d 慢/a 了/y},{下载/v 太/d 慢/a 了/y,/wd 哎/e},{安装/v 不/d 上/v !/wt !/wt !/wt},{下载/v 费劲/a 嘞/y},{下载/v的/ude1 忙/a},{现在/t 的/ude1 版本/n 卡/v}},countOL=7,i=16,执行2);
2)判断i是否小于或等于n:16>15,执行Step3;
本发明基于扈中凯等人对特征词、情感词同时提取的方法,本发明对特征词、副词、情感词进行同时提取,即提取APP软件特征情感词对f。
如下针对Whole_List、Attribute_List和Other_List的词性组合进行处理,
Step3、本实施例中countWL=3,先对Whole_List中f的词性组合进行处理:
1)初始化Whole_List中的数据:j=1,countWLN=0,countWLP=0;
2)判断j是否小于等于countWL:1<3,执行3);
3)判断fj中的Wa是否为网络情感词:f1中Wa为“可爱/a”不是网络情感词,则将f1对应的词性组合{n d a}存入Whole_List_Pub中:{{n d a}},countWLP=1,j=2,执行2);
2)判断j是否小于等于countWL:2<3,执行3);
3)判断fj中的Wa是否为网络情感词:f2中Wa为“好/a”不是网络情感词,则将f2对应的词性组合{d a}存入Whole_List_Pub中:{{n d a},{d a}},countWLP=2,j=3,执行2);
2)判断j是否小于等于countWL:3=3,执行3);
3)判断fj中的Wa是否为网络情感词:f3中Wa为“坑爹/vn”是网络情感词,则将f3对应的词性组合{n vn}存入Whole_List_Net中:{{n vn}},countWLN=1,j=4,执行2);
2)判断j是否小于等于countWL:4>3,执行4);
4)输出该类用户评论信息的词性组合:本实施例中P(n)=countWLN/countWL=1/3=0.33,P(p)=countWLP/countWL=2/3=0.67,因此,输出该类用户评论信息的词性组合:{[n]+[d]+a|v};(其中,词性组合只有{[n]+[d]+a|v}和{[ ]+a_n+[ ]}分别对应Whole_List_Pub和Whole_List_Net;此处对应的是Whole_List_Pub);输出APP软件用户的评论模式{综合类,{[n]+[d]+a|v}}。
Step4、本实施例中countAL=5,则对Attribute_List中Cut_Comment的词性组合进行处理:
1)去掉Attribute_List中Cut_Comment的词,只保留对应的词性:{{n ryv d v},{ryv v d v n},{ryv d v v n ww},{v d y n},{ryv v d v n y}};
2)提取词性中的n、v、vn、d和a:{{n d v},{v d v n},{d v v n},{v d n},{v d vn}};
3)选取候选词性组合模板集:本实施例中N1=4,分类情况为:{{n d v},{v d vn},{d v v n},{v d n}};根据公式P(ai)=countai/countAL计算每种词性组合的频率为:{0.2,0.4,0.2,0.2},其中,P(2)=0.4大于阈值0.25,因此,本实施例中的候选词性组合模板集为:{{v d v n}};
4)提取词性组合模板集:本实施例中候选词性组合模板的个数为1,小于2,因此词性组合模板集为:{{v d v n}};
5)将每条Cut_Comment的词性组合与每种词性组合模板进行匹配,并记录每种词性组合模板的次数:本实施例中根据(Levenshtein V I.Binary codes capable ofcorrecting dele-tions,insertions,and reversals[C]//Soviet physicsdoklady.1966,10(8):707-710.)文献中相似度公式计算每条词性组合与词性组合模板集中词性组合模板{v d v n}的相似度为:{0.5,1,0.5,0.75,1},因此,词性组合模板{v d vn}的最终词性组合为:{{v d v n},{v d n}},次数为3;
6)输出该类用户评论信息的词性组合:本实施例中,P(1)=3/5=0.6,因此,输出该类用户评论信息的词性组合:{v+d+v|n+[n]},输出APP软件用户的评论模式{属性类,{v+d+v|n+[n]}}。
Step5、本实施例中countOL=7,对Other_List中Cut_Comment的词性组合进行处理:
1)去掉Other_List中Cut_Comment的词,只保留对应的词性:{{v d a y},{n d ay},{v d a y wd e wj},{v d v wt wt wt},{v a y},{v ude1 a},{t ude1 n v}};
2)提取词性中的n、v、vn、d和a:{{v d a},{n d a},{v d a},{v d v},{v a},{va},{n v}};
3)选取候选词性组合模板集:本实施例中N2=5,分类情况为:{{v d a},{n d a},{v d v},{v a},{n v}};根据公式P(oi)=countoi/countOL计算每种词性组合的频率为:{2/7,1/7,1/7,2/7,1/7},其中,P(1)和P(4)大于阈值0.2,因此本实施例中的候选词性组合模板集为:{{v d a},{v a}};
4)提取词性组合模板集:本实施例中候选词性组合模板的个数为2,计算候选词性组合模板集中{v d a}和{v a}之间的相似度为0.67,大于阈值0.5,因此,进行合并,词性组合模板集为:{{v[d]a}};
5)将每条Cut_Comment的词性组合与每种词性组合模板进行匹配,并记录每种词性组合模板的次数:本实施例中计算每条词性组合与词性组合模板集中{v[d]a}的相似度为:{1,0.67,1,0.67,1,1,0.0},因此,词性组合模板{v d v n}的最终词性组合为:{{v da},{n d a},{v d v},{v a}},次数为6;
6)输出该类用户评论信息的词性组合:本实施例中,P(1)=6/7=0.86,因此,输出该类用户评论信息的词性组合:{v|n+[d]+a|v};输出APP软件用户的评论模式{其它类,{v|n+[d]+a|v}};
本实施例中,根据公式P(ci)=countci/n计算每类用户评论信息的频率:P(1)=3/15=0.2,P(2)=5/15=0.33,P(3)=7/15=0.47,因此,输出该APP软件用户的评论模式:{其它类,{v|n+[d]+a|v}}。
实施例4:如图1-5所示,
APP软件用户评论如表2所示,
表2
编号 | APP软件 | 用户评论信息 | 分词之后的用户评论信息 |
1 | 微信 | 下载慢 | 下载/v 慢/a |
2 | 微信 | 下载费劲嘞 | 下载/v 费劲/a 嘞/y |
3 | 微信 | 下载太慢了 | 下载/v 太/d 慢/a 了/y |
4 | 微信 | 安装不上!!! | 安装/v 不/d 上/v !/wt !/wt !/wt |
5 | 微信 | 速度慢 | 速度/n 慢/a |
6 | 微信 | 现在的内存大 | 现在/t 的/ude1 内存/n 大/a |
所述APP软件用户评论模式识别方法的具体步骤如下:
Step1、输入n=6条Cut_Comment;
Step2、根据用户对该APP软件的评论特征将用户评论信息分为Whole_List、Attribute_List和Other_List三类:
1)初始化数据:i=1,countWL=0,countAL=0,countOL=0;
2)判断i是否小于或等于n:1<6,提取Cut_Comment1的特征情感词对f1={下载/v,null,慢/a};
3)判断fi中Wh是否为空:f1中Wh为“下载/v”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f1中Wh为“下载/v”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f1中Wh为“下载/v”不是该APP软件信息特征,则将Cut_Comment1={下载/v 慢/a}存入Other_List中,Other_List={{下载/v 慢/a}},countOL=1,i=2,执行2);
2)判断i是否小于或等于n:2<6,提取Cut_Comment2的特征情感词对f2={下载/v,null,费劲/a};
3)判断fi中Wh是否为空:f2中Wh为“下载/v”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f2中Wh为“下载/v”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f2中Wh为“下载/v”不是该APP软件信息特征,则将Cut_Comment2={下载/v 费劲/a 嘞/y}存入Other_List中,Other_List={{下载/v 慢/a},{下载/v 费劲/a 嘞/y}},countOL=2,i=3,执行2);
2)判断i是否小于或等于n:3<6,提取Cut_Comment3的特征情感词对f3={下载/v,太/d,慢/a};
3)判断fi中Wh是否为空:f3中Wh为“下载/v”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f3中Wh为“下载/v”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f2中Wh为“下载/v”不是该APP软件信息特征,则将Cut_Comment3={下载/v 太/d 慢/a 了/y}存入Other_List中,Other_List={{下载/v 慢/a},{下载/v 费劲/a 嘞/y},{下载/v 太/d 慢/a 了/y}},countOL=3,i=4,执行2);
2)判断i是否小于或等于n:4<6,提取Cut_Comment4的特征情感词对f4={安装/v,不/d,上/v};
3)判断fi中Wh是否为空:f4中Wh为“安装/v”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f4中Wh为“安装/v”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f4中Wh为“安装/v”不是该APP软件信息特征,则将Cut_Comment4={安装/v 不/d 上/v !/wt !/wt !/wt}存入Other_List中,Other_List={{下载/v 慢/a},{下载/v 费劲/a 嘞/y},{下载/v 太/d 慢/a 了/y},{安装/v 不/d 上/v !/wt !/wt !/wt}},countOL=4,i=5,执行2);
2)判断i是否小于或等于n:5<6,提取Cut_Comment5的特征情感词对f5={速度/n,null,慢/a};
3)判断fi中Wh是否为空:f5中Wh为“速度/n”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f5中Wh为“速度/n”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f5中Wh为“速度/n”不是该APP软件信息特征,则将Cut_Comment5={速度/n 慢/a}存入Other_List中,Other_List={{下载/v 慢/a},{下载/v 费劲/a 嘞/y},{下载/v 太/d 慢/a 了/y},{安装/v 不/d 上/v !/wt !/wt!/wt},{速度/n 慢/a}},countOL=5,i=6,执行2);
2)判断i是否小于或等于n:6=6,提取Cut_Comment6的特征情感词对f6={内存/n,null,大/a};
3)判断fi中Wh是否为空:f6中Wh为“内存/n”,执行4);
4)判断fi中Wh是否为该APP软件的软件名称:f6中Wh为“内存/n”不是该APP软件的软件名称,执行5);
5)判断fi中Wh是否为该APP软件信息特征:f6中Wh为“内存/n”不是该APP软件信息特征,则将Cut_Comment6={现在/t 的/ude1 内存/n 大/a}存入Other_List中,Other_List={{下载/v 慢/a},{下载/v 费劲/a 嘞/y},{下载/v 太/d 慢/a 了/y},{安装/v 不/d 上/v !/wt !/wt !/wt},{速度/n 慢/a},{现在/t 的/ude1 内存/n 大/a}},countOL=6,i=7,执行2);
2)判断i是否小于或等于n:7>6,执行Step3;
Step3、本实施例中countWL=0,countAL=0,countOL=6,则对Other_List中Cut_Comment的词性组合进行处理:
1)去掉Other_List中Cut_Comment中的词,只保留对应的词性:{{v a},{v a y},{v d a y},{v d v wt wt wt},{n a},{t ude1 n a}};
2)提取词性中的n、v、vn、d和a:{{v a},{v a},{v d a},{v d v},{n a},{n a}};
3)选取候选词性组合模板集:本实施例中N2=4,分类情况为:{{v a},{v d a},{vd v},{n a}};根据公式P(oi)=countoi/countOL计算每种词性组合的频率为:{0.4,0.2,0.2,0.4},其中,P(1)和P(4)大于阈值0.25,因此,本实施例中的候选词性组合模板集为:{{v a},{n a}};
4)提取词性组合模板集:本实施例中候选词性组合模板的个数为2,因此,计算候选词性组合模板集中{v a}和{n a}之间的相似度为0.5,因此,将候选词性组合模板集作为词性组合模板集:{{v a},{n a}};
5)将每条Cut_Comment的词性组合与每种词性组合模板进行匹配,并记录每种词性组合模板的次数:本实施例中计算每条词性组合与词性组合模板{v a}的相似度为:{1,1,0.67,0.33,0.5,0.5},与词性组合模板{n a}的相似度为:{0.5,0.5,0.33,0.0,1,1},因此,词性组合模板{v a}的最终词性组合为:{{v a},{v d a}},次数为3,词性组合模板{na}的最终词性组合为:{n a},次数为2;
6)输出该类用户评论信息的词性组合:本实施例中,P(1)=3/6=0.5,P(2)=2/6=0.33,因此,输出该类用户评论信息的词性组合:{v+[d]+a};输出APP软件用户的评论模式{其它类,{v+[d]+a}};
本实施例中,根据公式P(ci)=countci/n计算每类用户评论信息的频率:P(1)=0/6=0,P(2)=0/6=0,P(3)=6/6=1,因此,输出该APP软件用户的评论模式:{其它类,{v+[d]+a}}。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (1)
1.一种APP软件用户评论模式识别方法,其特征在于:首先根据用户对APP软件的评论特征将用户评论信息分为三类;然后通过计算每类用户评论信息的频率来选择需要分析的类别;最后对需要分析对应类别评论信息中分词之后的用户评论信息的词性组合,选出词性组合模板,确定APP软件用户的评论模式;
所述方法的具体步骤如下:
Step1、输入n条分词之后的APP软件用户评论信息Cut_Comment;
Step2、根据用户对APP软件的评论特征将n条Cut_Comment分为Whole_List、Attribute_List和Other_List三类:
2.1)初始化数据:i=1,countWL=0,countAL=0,countOL=0;其中,i表示第i条Cut_Comment,countWL、countAL、countOL分别表示APP软件综合特征、属性特征和其它类特征的用户评论信息条数;
2.2)判断i是否小于或等于n:如果是,则提取Cut_Commenti中的特征情感词对fi ={Wh,Wd, Wa},i = 1,2, ... ,n ,Wh表示评论用户关注的APP软件特征词,Wa为修饰特征Wh的情感词,Wd为修饰情感词Wa的副词;否则,执行Step3;
2.3)判断fi中Wh是否为空:如果是,则将fi存入Whole_List中,countWL++,i++,执行2.2);否则,执行2.4);
2.4)判断fi中Wh是否为该APP软件的软件名称:如果是,则将fi存入Whole_List中,countWL++,i++,执行2.2);否则,执行2.5);
2.5)判断fi中Wh是否为该APP软件信息特征:如果是,则将Cut_Commenti存入Attribute_List中,countAL++,i++,执行2.2);否则,将Cut_Commenti存入Other_List中,countOL ++,i++,执行2.2);
Step3、根据公式P(ci)=countci/n计算每类用户评论信息的频率;式中,P(ci)表示ci类用户评论信息在n条Cut_Comment中出现的频率;countci表示ci类Cut_Comment的条数,ci为Whole_List、Attribute_List或Other_List,Whole_List类出现的条数为countWL,Attribute_List类出现的条数为countAL,Other_List类出现的条数为countOL;
如果Whole_List类用户评论信息在n条Cut_Comment中出现的频率最大,则执行步骤Step4;
如果Attribute_List类用户评论信息在n条Cut_Comment中出现的频率最大,则执行步骤Step5;
如果Other_List类用户评论信息在n条Cut_Comment中出现的频率最大,则执行步骤Step6;
Step4、对Whole_List中f的词性组合进行处理,词性组合处理过程如下:
4.1) 初始化Whole_List中的数据:j=1,countWLN =0,countWLP=0;其中,j表示Whole_List类中的第j条用户评论,countWLN和countWLP分别表示Whole_List类用户评论信息中使用网络情感词汇和未使用网络情感词汇的评论条数;
4.2)判断j是否小于或等于countWL:如果是,则执行4.3);否则,执行4.4);
4.3)判断fj中的Wa是否为网络情感词:如果是,则将fj对应的词性组合存入Whole_List_Net中,countWLN++,j++,执行4.2);否则将fj对应的词性组合存入Whole_List_Pub中,countWLP ++,j++,执行4.2);其中,Whole_List_Net和Whole_List_Pub分别表示Whole_List类用户评论信息中使用网络情感词汇和未使用网络情感词汇的词性组合;
4.4) 输出APP软件用户的评论模式:根据公式P(n)=countWLN/countWL和P(p)=countWLP/countWL分别计算Whole_List_Net和Whole_List_Pub出现的频率P(n)和P(p),取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合,输出APP软件用户的评论模式{综合类,词性组合};其中该类用户评论信息的词性组合为:“{[ ]+a_n+[ ]}”或“{[n]+[d]+a|v}”,其中,“a_n”表示网络情感词,n表示名词,d表示副词,a表示形容词,v表示动词;[ ]表示该项为可选项且不确定项;
Step5、对Attribute_List中Cut_Comment的词性组合进行处理,词性组合处理过程如下:
5.1)去掉Attribute_List中每条Cut_Comment的词,只保留对应的词性;
5.2)提取词性中的n、v、vn、d和a,其中,vn表示动名词;
5.3)选取候选词性组合模板集:先将Attribute_List中Cut_Comment的词性组合分为N1类;再根据公式P(ai)=countai/countAL计算每种词性组合的频率,并将P(ai)大于或等于阈值1/N1的词性组合存入候选词性组合模板集中;
式中,N1表示Attribute_List类用户评论信息中Cut_Comment的词性组合的种类;P(ai)表示第ai类词性组合在countAL条评论中出现的频率,countai表示第ai类词性组合的条数;
5.4)提取词性组合模板集:如果候选词性组合模板的个数大于或等于2,则计算候选词性组合模板之间的相似度,并将相似度大于阈值0.5的候选词性组合模板进行合并;否则,将候选词性组合模板集作为词性组合模板集;
5.5)将每条Cut_Comment与每种词性组合模板进行匹配,并记录每种词性组合模板的次数:计算每条Cut_Comment的词性组合与每种词性组合模板的相似度,并将相似度大于阈值0.5的词性组合存入对应的词性组合模板集中,次数加1;
5.6)输出APP软件用户的评论模式:根据公式P(a)=counta/countAL计算每种词性组合模板出现的频率,取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合,输出APP软件用户的评论模式{属性类,词性组合};
式中,P(a)表示第a类词性组合模板在countAL条Cut_Comment中出现的频率,counta表示第a类词性组合模板的条数;
Step6、对Other_List中Cut_Comment的词性组合进行处理,词性组合处理过程如下:
6.1)去掉Other_List中每条Cut_Comment的词,只保留对应的词性;
6.2)提取词性中的n、v、vn、d和a;
6.3)选取候选词性组合模板集:先将Other_List中Cut_Comment的词性组合为N2类;再根据公式P(oi)=countoi/countOL计算每种词性组合的频率,并将P(oi)大于或等于阈值1/N2的词性组合存入候选词性组合模板集中;
式中,N2表示Other_List类用户评论信息中Cut_Comment的词性组合的种类;P(oi)表示第oi类词性组合在countOL条评论中出现的频率,conutoi表示第oi类词性组合的条数;
6.4) 提取词性组合模板集:如果候选词性组合模板的个数大于或等于2,则计算候选词性组合模板之间的相似度,并将相似度大于阈值0.5的候选词性组合模板进行合并;否则,将候选词性组合模板集作为词性组合模板集;
6.5)将每条Cut_Comment的词性组合与每种词性组合模板进行匹配,并记录每种词性组合模板的次数:计算每条分词之后的用户评论信息的词性组合与每种词性组合模板的相似度,并将相似度大于阈值0.5的词性组合存入对应的词性组合模板集中,次数加1;
6.6)输出APP软件用户的评论模式:根据公式P(o)=counto/countOL计算每种词性组合模板出现的频率,取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合,输出APP软件用户的评论模式{其它类,词性组合};
式中,P(o)表示第o类词性组合模板在countOL条Cut_Comment中出现的频率,counto表示第o类词性组合模板的条数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610613664.4A CN106227720B (zh) | 2016-08-01 | 2016-08-01 | 一种app软件用户评论模式识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610613664.4A CN106227720B (zh) | 2016-08-01 | 2016-08-01 | 一种app软件用户评论模式识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106227720A CN106227720A (zh) | 2016-12-14 |
CN106227720B true CN106227720B (zh) | 2019-02-05 |
Family
ID=57534921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610613664.4A Active CN106227720B (zh) | 2016-08-01 | 2016-08-01 | 一种app软件用户评论模式识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106227720B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451746A (zh) * | 2017-08-08 | 2017-12-08 | 马萍 | 一种移动护理质量管理控制系统 |
CN109271492A (zh) * | 2018-11-16 | 2019-01-25 | 广东小天才科技有限公司 | 一种语料正则表达式的自动生成方法及系统 |
CN109753651B (zh) * | 2018-12-14 | 2022-05-17 | 昆明理工大学 | 一种针对体现用户意图的app软件用户评论挖掘方法 |
CN110427556B (zh) * | 2019-07-30 | 2022-10-11 | 牡丹江师范学院 | 一种基于文艺学学习的电影推荐方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389329A (zh) * | 2015-09-21 | 2016-03-09 | 中国人民解放军国防科学技术大学 | 一种基于群体评论的开源软件推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7930302B2 (en) * | 2006-11-22 | 2011-04-19 | Intuit Inc. | Method and system for analyzing user-generated content |
-
2016
- 2016-08-01 CN CN201610613664.4A patent/CN106227720B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389329A (zh) * | 2015-09-21 | 2016-03-09 | 中国人民解放军国防科学技术大学 | 一种基于群体评论的开源软件推荐方法 |
Non-Patent Citations (4)
Title |
---|
Method of Consistency Judgment for App Software’s User Comments;Meng Ran et al.;《International Conference of Young Computer Scientists, Engineers and Educators》;20160731;第470-483页 |
What Makes a Good App Description?;He Jiang et al.;《INTERNETWARE 2014》;20141117;第45-53页 |
依存句法模板下的商品特征标签抽取研究;聂卉 等;《现代图书情报技术》;20141231(第12期);第44-47页 |
轻型评论的情感分析研究;张林 等;《软件学报》;20141231;第25卷(第12期);第2790-2807页 |
Also Published As
Publication number | Publication date |
---|---|
CN106227720A (zh) | 2016-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105808526B (zh) | 商品短文本核心词提取方法和装置 | |
CN103268339B (zh) | 微博消息中命名实体识别方法及系统 | |
CN101599071B (zh) | 对话文本主题的自动提取方法 | |
CN109829166B (zh) | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 | |
CN108628833B (zh) | 原创内容摘要确定方法及装置,原创内容推荐方法及装置 | |
CN104281653B (zh) | 一种针对千万级规模微博文本的观点挖掘方法 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN108363725B (zh) | 一种用户评论观点提取和观点标签生成的方法 | |
CN106227720B (zh) | 一种app软件用户评论模式识别方法 | |
CN107193801A (zh) | 一种基于深度信念网络的短文本特征优化及情感分析方法 | |
CN106649742A (zh) | 数据库维护方法和装置 | |
CN108733816A (zh) | 一种微博突发事件检测方法 | |
CN106354818B (zh) | 基于社交媒体的动态用户属性提取方法 | |
CN109255012B (zh) | 机器阅读理解以及减少候选数据集规模的方法、装置 | |
JP5698105B2 (ja) | 対話モデル構築装置、方法、及びプログラム | |
CN110457711B (zh) | 一种基于主题词的社交媒体事件主题识别方法 | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN110956210A (zh) | 一种基于ap聚类的半监督网络水军识别方法及系统 | |
CN105446955A (zh) | 一种自适应的分词方法 | |
CN111091000A (zh) | 一种抽取用户细粒度典型意见数据处理系统及方法 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
Zhao et al. | Sentiment analysis on the online reviews based on hidden Markov model | |
Singh et al. | Sentiment analysis of Twitter data using TF-IDF and machine learning techniques | |
CN102929860A (zh) | 一种基于上下文语境的中文分句情感极性判别方法 | |
CN108536762A (zh) | 一种大批量文本数据自动分析方案 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |