CN105975487B - 一种app软件用户评论有关性判断方法 - Google Patents

一种app软件用户评论有关性判断方法 Download PDF

Info

Publication number
CN105975487B
CN105975487B CN201610264134.3A CN201610264134A CN105975487B CN 105975487 B CN105975487 B CN 105975487B CN 201610264134 A CN201610264134 A CN 201610264134A CN 105975487 B CN105975487 B CN 105975487B
Authority
CN
China
Prior art keywords
comment
present
keywords
pertinence
app software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610264134.3A
Other languages
English (en)
Other versions
CN105975487A (zh
Inventor
姜瑛
向祺鑫
冉猛
李凌宇
丁家满
汪海涛
刘英莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201610264134.3A priority Critical patent/CN105975487B/zh
Publication of CN105975487A publication Critical patent/CN105975487A/zh
Application granted granted Critical
Publication of CN105975487B publication Critical patent/CN105975487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种APP软件用户评论有关性判断方法,属于APP软件用户评价领域。本发明首先提取APP软件每条评论的关键词集;然后计算提取的APP软件每条评论的关键词集对特征库中的有关性概率得分;最后通过判断有关性概率得分是否大于预设阈值的情况来确定APP软件用户评论是否与该APP软件有关。本发明定义并提取APP软件用户评论关键词集,有利于提高判断用户评论有关性的效率;将朴素贝叶斯文本分类方法进行了修改,结合词频统计的方法判断APP软件用户评论有关性概率得分,有助于给用户筛选出有关评论,减少对评论筛选的时间;通过判断APP软件用户评论的有关性,有助于用户评价APP软件的质量。

Description

一种APP软件用户评论有关性判断方法
技术领域
本发明涉及一种APP软件用户评论有关性判断方法,属于APP软件用户评价领域。
背景技术
用户评论在电子商务与微博领域的信息分析日渐成熟。多数对中文评论的研究使用ICTCLAS进行信息处理,最后通过自然语言处理的方法来对处理后的用户评论信息进行分析。例如,杨震等提出一种基于上下文重构的短文本情感极性判别研究;宋友等提出一种基于正则表达式对网络通用文本处理方法。
用户对于应用的选择一定基础上是来自于企业宣传和应用本身的知名度。但是对于某些同种类型或有相似功能的应用,用户更愿意对比各APP间用户们对于应用的评价、描述等来判断哪个应用更好或者更加适合自己。APP软件评价能够节约用户查看应用的其他用户评论、评价等的时间,而且能够更快的告诉用户所关注应用的综合性评价,减少用户对有关信息的筛选。目前对于APP评价,基本只有企业自己进行评测,可能会出现对APP不实的介绍等。APP软件评价是第三方的,有助于对APP提出一个较为客观的介绍和评价。
本发明提出通过提取APP软件用户评论关键词集,计算关键词集对特征库中的有关性概率得分,并根据有关性概率得分判断APP软件用户评论的有关性,有助于用户选择满足需要的APP软件。
发明内容
针对上述问题,本发明提供了一种APP软件用户评论有关性判断方法,以用于帮助用户从大量的APP评论中提取出与该APP软件有关的评论。
本发明的技术方案是:一种APP软件用户评论有关性判断方法,首先提取APP软件每条评论的关键词集;然后计算提取的APP软件每条评论的关键词集对特征库中的有关性概率得分;最后通过判断有关性概率得分是否大于预设阈值的情况来确定APP软件用户评论是否与该APP软件有关。
所述方法的具体步骤如下:
Step1、提取APP软件num条用户评论,以及每条用户评论的评论分词结果集WordResulti={w0/f0,w1/f1,…,wj/fj},评论分词词性集Featurei={f0,f1,…fj};其中wj为词,fj为词性(i=0,1,…,num-1,j=0,1,…,n-1),n为分词以后词的个数;
Step2、根据num条用户评论的WordResulti和Featurei提取每条评论的关键词集Keywordsi
提取Keywordsi方法:找到Featurei中为动词、名词和形容词词性所有的元素下标,并将WordResulti中对应下标所有元素wj/fj存入Keywordsi
Step3、判断current是否小于L,如果是,则执行步骤Step4;否则,执行步骤Step13;其中,总迭代次数index表示每次迭代条数且满足不大于num,初始时的当前迭代次数current=0;
Step4、根据current与L,确定在第current次迭代时,第一条评论所在条数first、最后一条评论所在条数last、i=first;
其中,first=current*index;当current=L-1时,last=num;否则,last=(current+1)*index-1;
Step5、判断i是否小于或等于last,如果是,则执行步骤Step6;否则,执行步骤Step12;
Step6、判断第i条评论的Keywordsi是否为空,如果是,则执行步骤Step11;否则执行步骤Step7;
Step7、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):
当Keywordsi中所有元素wk/fk中fk都为形容词,则将其所有wk存入Testi,否则,对元素wk/fk中fk为动词、名词的元素,将其wk存入Testi,fk存入判断词性集TestFeaturei
Step8、计算第i条评论有关性概率得分score,并将其特征词存入对应的特征库:其中,第i条评论中包含被测词wk的特征库中文本个数Nk(k=0,1,2,…,u-1),文档个数N=4,wk在对应特征库中出现频数为timesk,wk在对应特征库中平均特征频数为m,u为Testi的元素个数;
Step9、判断有关性概率得分score是否大于阈值α,如果是,则执行步骤Step10;否则执行步骤Step11;
Step10、第i条评论有关性标记输出为“有关”,i++,执行步骤Step5:
Step11、第i条评论有关性标记输出为“无关”,i++,执行步骤Step5;
Step12、current++,执行步骤Step3;
Step13、输出“完成所有迭代”。
所述α=1。
本发明的工作原理是:
提取APP软件用户评论关键词集,用于对用户评论信息的内容进行处理并筛选出APP软件用户评论关键词集;
计算贝叶斯与词频的综合概率得分,用于判断用户评论信息中APP软件用户评论关键词集与特征库有关。
本发明使用ICTCLAS 2015作为数据处理工具,进行用户评论的分词及词性标记。
本发明的有益效果是:
(1)本发明定义并提取APP软件用户评论关键词集,有利于提高判断用户评论有关性的效率;
(2)本发明将朴素贝叶斯文本分类方法进行了修改,结合词频统计的方法判断APP软件用户评论有关性概率得分,有助于给用户筛选出有关评论,减少对评论筛选的时间;
(3)本发明通过判断APP软件用户评论的有关性,有助于用户评价APP软件的质量。
附图说明
图1是本发明的流程图;
图2为图1中步骤S1的具体流程;
图3为图1中步骤S2的具体流程;
图4为图1中步骤S8的具体流程;
图5为图1中步骤S9的具体流程。
具体实施方式
实施例1:如图1-5所示,APP软件用户评论如表1所示,
表1
所述APP软件用户评论有关性判断方法的具体步骤如下:
Step1、提取APP软件num条用户评论,以及每条用户评论的评论分词结果集WordResulti={w0/f0,w1/f1,…,wj/fj},评论分词词性集Featurei={f0,f1,…fj},其中wj为词,fj为词性(i=0,1,…,num-1,j=0,1,…,n-1):
本发明利用ICTCLAS 2015作为数据处理的工具,进行用户评论的分词及词性标注。本实施例中对用户评论信息分词结果为:“无意/v中/f。/wj”,提取分词结果集:WordResult0={无意/v,中/f,。/wj},提取评论分词词性集:Feature0={v,f,wj},此时num=1。
Step2、根据num条用户评论的WordResult和Feature提取每条评论的关键词集Keywordsi
提取Keywordsi方法:找到Featurei中为动词、名词和形容词词性所有的元素下标,并将Keywordsi中对应下标所有元素wj/fj存入Keywordsi
本实施例中,Keywords0={无意/v};
Step3、定义每次迭代条数index(index必须满足不大于num),总迭代次数初始化当前迭代次数current=0:
本实施例中,定义index=1,则L=1;
Step4、判断current是否小于L:本实施例中,0<1,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第0次时first=0,last=0,i=0;
Step6、判断i是否小于或等于last:本实施例中,0<=0,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第0条评论的Keywords0不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):
当Keywordsi中所有元素wk/fk中fk都为形容词,则将其所有wk存入Testi,否则,对元素wk/fk中fk为动词、名词的元素,将其wk存入Testi,fk存入判断词性集TestFeaturei:本实施例中,Keywords0={无意/v}中fk有动词,则其Test0={无意},TestFeature0={v},isAllAdjust=false;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
计算第i条评论的贝叶斯与词频的综合概率得分score时,需获取第i条评论中包含被测词wk的特征库中文本个数Nk(k=0,1,2,…,u-1),文档中含形容词特征库,名词特征库,动词特征库,软件简介,其文档个数N=4,wk在对应特征库中出现频数timesk,wk在对应特征库中平均特征频数m,u为Testi的元素个数;根据公式计算score:
将特征词存入对应特征库:若特征词全为形容词,则将其特征词全存入形容词特征词库并增加频数;否则存入对应特征库并增加频数;若特征词在对应特征库中不存在,则先在对应特征库中新增该特征词,并将其频数设置为1:
本实施例中,此时动词特征库中所有动词出现的频数总和为56,动词个数为14,则动词特征库中平均特征频数avgv为56/14=4,则Test0的w0其对应的m=4,N0=1,times0=1,计算第0条评论score=0.9;
Step10、判断score是否大于阈值α,本实施例中,0.9<1,执行步骤Step12;
Step12、第i条评论有关性标记输出为“无关”,i++:本实施例中,第0条评论有关性标记输出为“无关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,1>0,执行步骤Step13;
Step13、current++=1,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,1=1,执行步骤Step14;
Step14、输出“完成所有迭代”。
实施例2:如图1-5所示,
APP软件用户评论如表2所示,
表2
所述APP软件用户评论有关性判断方法的具体步骤如下:
Step1、提取APP软件num条用户评论,以及每条用户评论的评论分词结果集WordResulti={w0/f0,w1/f1,…,wj/fj},评论分词词性集Featurei={f0,f1,…fj},其中wj为词,fj为词性(i=0,1,…,num-1,j=0,1,…,n-1):
本实施例中,WordResult0={哈哈哈/o},提取评论分词词性集:Feature0={o},此时num=1。
Step2、根据num条用户评论的WordResult和Feature提取每条评论的关键词集Keywordsi:本实施例中,Keywords0={};
Step3、定义每次迭代条数index(index必须满足不大于num),总迭代次数初始化当前迭代次数current=0:
本实施例中,定义index=1,则L=1;
Step4、判断current是否小于L:本实施例中,0<1,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第0次时first=0,last=0,i=0;
Step6、判断i是否小于或等于last:本实施例中,0<=0,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第0条评论的Keywords0为空,执行步骤Step12;
Step12、第i条评论有关性标记输出为“无关”,i++:本实施例中,第0条评论有关性标记输出为“无关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,1>0,执行步骤Step13;
Step13、current++=1,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,1=1,执行步骤Step14;
Step14、输出“完成所有迭代”。
实施例3:如图1-5所示,
APP软件用户评论如表3所示,
表3
所述APP软件用户评论有关性判断方法的具体步骤如下:
Step1、提取APP软件num条用户评论,以及每条用户评论的评论分词结果集WordResulti={w0/f0,w1/f1,…,wj/fj},评论分词词性集Featurei={f0,f1,…fj},其中wj为词,fj为词性(i=0,1,…,num-1,j=0,1,…,n-1):
本实施例中,WordResult0={真/d,好/a,用/v},提取评论分词词性集:Feature0={d,a,v},此时num=1。
Step2、根据num条用户评论的WordResult和Feature提取每条评论的关键词集Keywordsi
提取Keywordsi方法:找到Featurei中为动词、名词和形容词词性所有的元素下标,并将Keywordsi中对应下标所有元素wj/fj存入Keywordsi
本实施例中,Keywords0={好/a,用/v};
Step3、定义每次迭代条数index(index必须满足不大于num),总迭代次数初始化当前迭代次数current=0:
本实施例中,定义index=1,则L=1;
Step4、判断current是否小于L:本实施例中,0<1,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第0次时first=0,last=0,i=0;
Step6、判断i是否小于或等于last:本实施例中,0<=0,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第0条评论的Keywords0不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):
当Keywordsi中所有元素wk/fk中fk都为形容词,则将其所有wk存入Testi,否则,对于元素wk/fk中fk为动词、名词的元素,将其wk存入Testi,fk存入判断词性集TestFeaturei:本实施例中,Keywords0={好/a,用/v}中fk有动词,则其Test0={用},TestFeature0={v},isAllAdjust=false;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时动词特征库中平均特征频数avgv为11.125,则Test0的w0其对应的m=11.125,N0=2,times0=16,计算第0条评论score=2.128;
Step10、判断score是否大于阈值α,本实施例中,2.128>1,执行步骤Step11;
Step11、第i条评论有关性标记输出为“有关”,i++:本实施例中,第0条评论有关性标记输出为“有关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,1>0,执行步骤Step13;
Step13、current++=1,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,1=1,执行步骤Step14;
Step14、输出“完成所有迭代”。
实施例4:如图1-5所示,
APP软件用户评论如表4所示,
表4
所述APP软件用户评论有关性判断方法的具体步骤如下:
Step1、提取APP软件num条用户评论,以及每条用户评论的评论分词结果集WordResulti={w0/f0,w1/f1,…,wj/fj},评论分词词性集Featurei={f0,f1,…fj},其中wj为词,fj为词性(i=0,1,…,num-1,j=0,1,…,n-1):
本实施例中,WordResult0={差/a},提取评论分词词性集:Feature0={a},此时num=1。
Step2、根据num条用户评论的WordResult和Feature提取每条评论的关键词集Keywordsi
提取Keywordsi方法:找到Featurei中为动词、名词和形容词词性所有的元素下标,并将Keywordsi中对应下标所有元素wj/fj存入Keywordsi
本实施例中,Keywords0={差/a};
Step3、定义每次迭代条数index(index必须满足不大于num),总迭代次数初始化当前迭代次数current=0:
本实施例中,定义index=1,则L=1;
Step4、判断current是否小于L:本实施例中,0<1,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第0次时first=0,last=0,i=0;
Step6、判断i是否小于或等于last:本实施例中,0<=0,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第0条评论的Keywords0不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):
当Keywordsi中所有元素wk/fk中fk都为形容词,则将其所有wk存入Testi,否则,对元素wk/fk中fk为动词、名词的元素,将其wk存入Testi,fk存入判断词性集TestFeaturei:本实施例中,Keywords0={差/a}中fk只有形容词,则其Test0={差},isAllAdjust=true;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时动词特征库中平均特征频数avgv为11.5,则Test0的w0其对应的m=11.15,N0=1,times0=15,计算第0条评论score=1.791;
Step10、判断score是否大于阈值α,本实施例中,1.791>1,执行步骤Step11;
Step11、第i条评论有关性标记输出为“有关”,i++:本实施例中,第0条评论有关性标记输出为“有关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,1>0,执行步骤Step13;
Step13、current++=1,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,1=1,执行步骤Step14;
Step14、输出“完成所有迭代”。
实施例5:如图1-5所示,
APP软件用户评论如表5所示,
表5
所述APP软件用户评论有关性判断方法的具体步骤如下:
Step1、提取APP软件num条用户评论,以及每条用户评论的评论分词结果集WordResulti={w0/f0,w1/f1,…,wj/fj},评论分词词性集Featurei={f0,f1,…fj},其中wj为词,fj为词性(i=0,1,…,num-1,j=0,1,…,n-1):
本实施例中,WordResult0={为什么/ryv,以前/f,安装/v,的/ude1,了/y,,/wd,现在/t,安装/v,不/d,了/y},Feature0={ryv,f,v,ude1,y,wd,t,v,d,y},WordResult1={不错/a},Feature1={a},此时num=2。
Step2、根据num条用户评论的WordResult和Feature提取每条评论的关键词集Keywordsi
提取Keywordsi方法:找到Featurei中为动词、名词和形容词词性所有的元素下标,并将Keywordsi中对应下标所有元素wj/fj存入Keywordsi
本实施例中,Keywords0={安装/v},Keywords1={不错/a};
Step3、定义每次迭代条数index(index必须满足不大于num),总迭代次数初始化当前迭代次数current=0:
本实施例中,定义index=1,则L=2;
Step4、判断current是否小于L:本实施例中,0<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第0次时first=0,last=0,i=0;
Step6、判断i是否小于或等于last:本实施例中,0<=0,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第0条评论的Keywords0不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test0={安装},TestFeature0={v},isAllAdjust=false;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时动词特征库中平均特征频数avgv为5.571,则Test0的w0其对应的m=5.571,N0=1,times0=34,计算第0条评论score=6.682;
Step10、判断score是否大于阈值α,本实施例中,6.682>1,执行步骤Step11;
Step11、第i条评论有关性标记输出为“有关”,i++:本实施例中,第0条评论有关性标记输出为“有关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,1>0,执行步骤Step13;
Step13、current++=1,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,1<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第1次时first=1,last=1,i=1;
Step6、判断i是否小于或等于last:本实施例中,1<=1,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第1条评论的Keywords1不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test1={不错},isAllAdjust=true;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时形容词特征库中平均特征频数avga为11.25,则Test1的w0其对应的m=11.25,N0=1,times0=19,计算第1条评论score=2.178;
Step10、判断score是否大于阈值α,本实施例中,2.178>1,执行步骤Step11;
Step11、第i条评论有关性标记输出为“有关”,i++:本实施例中,第0条评论有关性标记输出为“有关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,2>1,执行步骤Step13;
Step13、current++=2,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,2=2,执行步骤Step14;
Step14、输出“完成所有迭代”。
实施例6:如图1-5所示,
APP软件用户评论如表6所示,
表6
所述APP软件用户评论有关性判断方法的具体步骤如下:
Step1、提取APP软件num条用户评论,以及每条用户评论的评论分词结果集WordResulti={w0/f0,w1/f1,…,wj/fj},评论分词词性集Featurei={f0,f1,…fj},其中wj为词,fj为词性(i=0,1,…,num-1,j=0,1,…,n-1):
本实施例中,WordResult0={非常/d,不错/a},Feature0={d,a},WordResult1={很/d,好/a};Feature1={d,a},此时num=2。
Step2、根据num条用户评论的WordResult和Feature提取每条评论的关键词集Keywordsi
提取Keywordsi方法:找到Featurei中为动词、名词和形容词词性所有的元素下标,并将Keywordsi中对应下标所有元素wj/fj存入Keywordsi
本实施例中,Keywords0={不错/a},Keywords1={好/a};
Step3、定义每次迭代条数index(index必须满足不大于num),总迭代次数初始化当前迭代次数current=0:
本实施例中,定义index=1,则L=2;
Step4、判断current是否小于L:本实施例中,0<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第0次时first=0,last=0,i=0;
Step6、判断i是否小于或等于last:本实施例中,0<=0,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第0条评论的Keywords0不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test0={不错},isAllAdjust=true;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时动词特征库中平均特征频数avga为12.125,则Test0的w0其对应的m=12.125,N0=1,times0=21,计算第0条评论score=2.214;
Step10、判断score是否大于阈值α,本实施例中,2.214>1,执行步骤Step11;
Step11、第i条评论有关性标记输出为“有关”,i++:本实施例中,第0条评论有关性标记输出为“有关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,1>0,执行步骤Step13;
Step13、current++=1,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,1<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第1次时first=1,last=1,i=1;
Step6、判断i是否小于或等于last:本实施例中,1<=1,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第1条评论的Keywords1不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test1={好},isAllAdjust=true;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时形容词特征库中平均特征频数avga为11.25,则Test1的w0其对应的m=11.25,N0=3,times0=35,计算第1条评论score=3.739;
Step10、判断score是否大于阈值α,本实施例中,3.739>1,执行步骤Step11;
Step11、第i条评论有关性标记输出为“有关”,i++:本实施例中,第0条评论有关性标记输出为“有关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,2>1,执行步骤Step13;
Step13、current++=2,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,2=2,执行步骤Step14;
Step14、输出“完成所有迭代”。
实施例7:如图1-5所示,
APP软件用户评论如表7所示,
表7
所述APP软件用户评论有关性判断方法的具体步骤如下:
Step1、提取APP软件num条用户评论,以及每条用户评论的评论分词结果集WordResulti={w0/f0,w1/f1,…,wj/fj},评论分词词性集Featurei={f0,f1,…fj},其中wj为词,fj为词性(i=0,1,…,num-1,j=0,1,…,n-1):
本实施例中,WordResult0={为什么/ryv,下载/v,了/ule,没有/d,在/p,桌面/n,上/f,出现/v,?/ww},Feature0={ryv,v,ule,d,p,n,f,v,ww},WordResult1={好/a,,/wd,感谢/v,微信/nz,各位/rr,朋友/n},Feature1={a,wd,v,nz,rr,n},此时num=2。
Step2、根据num条用户评论的WordResult和Feature提取每条评论的关键词集Keywordsi
提取Keywordsi方法:找到Featurei中为动词、名词和形容词词性所有的元素下标,并将Keywordsi中对应下标所有元素wj/fj存入Keywordsi
本实施例中,Keywords0={下载/v,桌面/n,出现/v},Keywords1={好/a,感谢/v,微信/nz,朋友/n};
Step3、定义每次迭代条数index(index必须满足不大于num),总迭代次数初始化当前迭代次数current=0:
本实施例中,定义index=1,则L=2;
Step4、判断current是否小于L:本实施例中,0<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第0次时first=0,last=0,i=0;
Step6、判断i是否小于或等于last:本实施例中,0<=0,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第0条评论的Keywords0不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test0={下载,桌面,出现},TestFeature0={v,n,v},isAllAdjust=false;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时动词特征库中平均特征频数avgv为6.343,名词特征库中平均特征频数avgn为3.852,则Test0的w0其对应的m=6.343,N0=1,times0=25;w1对应的m=3.852,N1=1,times1=1;w2对应的m=6.343,N2=1,times2=1,计算第0条评论score=2.958;
Step10、判断score是否大于阈值α,本实施例中,2.958>1,执行步骤Step11;
Step11、第i条评论有关性标记输出为“有关”,i++:本实施例中,第0条评论有关性标记输出为“有关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,1>0,执行步骤Step13;
Step13、current++=1,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,1<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第1次时first=1,last=1,i=1;
Step6、判断i是否小于或等于last:本实施例中,1<=1,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第1条评论的Keywords1不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test1={感谢,微信,朋友},TestFeature1={v,nz,n},isAllAdjust=false;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时动词特征库中平均特征频数avgv为13.25,名词特征库中平均特征频avgn为6.829,则Test1的w0其对应的m=13.25,N0=1,times0=4,w1其对应的m=6.829,N0=2,times0=32,w2其对应的m=6.829,N0=2,times0=4,计算第1条评论score=7.535;
Step10、判断score是否大于阈值α,本实施例中,7.535>1,执行步骤Step11;
Step11、第i条评论有关性标记输出为“有关”,i++:本实施例中,第0条评论有关性标记输出为“有关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,2>1,执行步骤Step13;
Step13、current++=2,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,2=2,执行步骤Step14;
Step14、输出“完成所有迭代”。
实施例8:如图1-5所示,
APP软件用户评论如表8所示,
表8
所述APP软件用户评论有关性判断方法的具体步骤如下:
Step1、提取APP软件num条用户评论,以及每条用户评论的评论分词结果集WordResulti={w0/f0,w1/f1,…,wj/fj},评论分词词性集Featurei={f0,f1,…fj},其中wj为词,fj为词性(i=0,1,…,num-1,j=0,1,…,n-1):
本实施例中,WordResult0={小武/nr2},Feature0={nr2},WordResult1={邬卫忠/nr},Feature1={nr},此时num=2。
Step2、根据num条用户评论的WordResult和Feature提取每条评论的关键词集Keywordsi
提取Keywordsi方法:找到Featurei中为动词、名词和形容词词性所有的元素下标,并将Keywordsi中对应下标所有元素wj/fj存入Keywordsi
本实施例中,Keywords0={小武/nr2},Keywords1={邬卫忠/nr};
Step3、定义每次迭代条数index(index必须满足不大于num),总迭代次数初始化当前迭代次数current=0:
本实施例中,定义index=1,则L=2;
Step4、判断current是否小于L:本实施例中,0<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第0次时first=0,last=0,i=0;
Step6、判断i是否小于或等于last:本实施例中,0<=0,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第0条评论的Keywords0不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test0={小武},TestFeature0={nr2},isAllAdjust=false;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,名词特征库中平均特征频数avgn为4.148,则Test0的w0其对应的m=4.148,N0=1,times0=1,计算第0条评论score=0.882;
Step10、判断score是否大于阈值α,本实施例中,0.882<1,执行步骤Step12;
Step12、第i条评论有关性标记输出为“无关”,i++:本实施例中,第0条评论有关性标记输出为“无关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,1>0,执行步骤Step13;
Step13、current++=1,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,1<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第1次时first=1,last=1,i=1;
Step6、判断i是否小于或等于last:本实施例中,1<=1,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第1条评论的Keywords1不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test1={邬卫忠},TestFeature1={nr},isAllAdjust=false;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时名词特征库中平均特征频avgn为4.296,则Test1的w0其对应的m=4.296,N0=1,times0=1,计算第1条评论score=0.866;
Step10、判断score是否大于阈值α,本实施例中,0.866<1,执行步骤Step12;
Step12、第i条评论有关性标记输出为“无关”,i++:本实施例中,第0条评论有关性标记输出为“无关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,2>1,执行步骤Step13;
Step13、current++=2,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,2=2,执行步骤Step14;
Step14、输出“完成所有迭代”。
实施例9:如图1-5所示,
APP软件用户评论如表9所示,
表9
所述APP软件用户评论有关性判断方法的具体步骤如下:
Step1、提取APP软件num条用户评论,以及每条用户评论的评论分词结果集WordResulti={w0/f0,w1/f1,…,wj/fj},评论分词词性集Featurei={f0,f1,…fj},其中wj为词,fj为词性(i=0,1,…,num-1,j=0,1,…,n-1):
本实施例中,WordResult0={呵呵/o},Feature0={o},WordResult1={哈哈/o,!/wt},Feature1={o,wt},此时num=2。
Step2、根据num条用户评论的WordResult和Feature提取每条评论的关键词集Keywordsi:本实施例中,Keywords0={},Keywords1={};
Step3、定义每次迭代条数index(index必须满足不大于num),总迭代次数初始化当前迭代次数current=0:
本实施例中,定义index=1,则L=2;
Step4、判断current是否小于L:本实施例中,0<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第0次时first=0,last=0,i=0;
Step6、判断i是否小于或等于last:本实施例中,0<=0,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第0条评论的Keywords0为空,执行步骤Step12;
Step12、第i条评论有关性标记输出为“无关”,i++:本实施例中,第0条评论有关性标记输出为“无关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,1>0,执行步骤Step13;
Step13、current++=1,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,1<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第1次时first=1,last=1,i=1;
Step6、判断i是否小于或等于last:本实施例中,1<=1,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第1条评论的Keywords1为空,执行步骤Step12;
Step12、第i条评论有关性标记输出为“无关”,i++:本实施例中,第0条评论有关性标记输出为“无关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,2>1,执行步骤Step13;
Step13、current++=2,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,2=2,执行步骤Step14;
Step14、输出“完成所有迭代”。
实施例10:如图1-5所示,
APP软件用户评论如表10所示,
表10
所述APP软件用户评论有关性判断方法的具体步骤如下:
Step1、提取APP软件num条用户评论,以及每条用户评论的评论分词结果集WordResulti={w0/f0,w1/f1,…,wj/fj},评论分词词性集Featurei={f0,f1,…fj},其中wj为词,fj为词性(i=0,1,…,num-1,j=0,1,…,n-1):
本实施例中,WordResult0={嘻嘻/o},Feature0={o},WordResult1={彭江/nr},Feature1={nr},此时num=2。
Step2、根据num条用户评论的WordResult和Feature提取每条评论的关键词集Keywordsi
提取Keywordsi方法:找到Featurei中为动词、名词和形容词词性所有的元素下标,并将Keywordsi中对应下标所有元素wj/fj存入Keywordsi
本实施例中,Keywords0={},Keywords1={彭江/nr};
Step3、定义每次迭代条数index(index必须满足不大于num),总迭代次数初始化当前迭代次数current=0:
本实施例中,定义index=1,则L=2;
Step4、判断current是否小于L:本实施例中,0<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第0次时first=0,last=0,i=0;
Step6、判断i是否小于或等于last:本实施例中,0<=0,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第0条评论的Keywords0为空,执行步骤Step12;
Step12、第i条评论有关性标记输出为“无关”,i++:本实施例中,第0条评论有关性标记输出为“无关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,1>0,执行步骤Step13;
Step13、current++=1,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,1<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第1次时first=1,last=1,i=1;
Step6、判断i是否小于或等于last:本实施例中,1<=1,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第1条评论的Keywords1不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test1={彭江},TestFeature1={nr},isAllAdjust=false;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时名词特征库中平均特征频avgn为4.819,则Test1的w0其对应的m=4.819,N0=1,times0=1,计算第1条评论score=0.815;
Step10、判断score是否大于阈值α,本实施例中,0.815<1,执行步骤Step12;
Step12、第i条评论有关性标记输出为“无关”,i++:本实施例中,第0条评论有关性标记输出为“无关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,2>1,执行步骤Step13;
Step13、current++=2,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,2=2,执行步骤Step14;
Step14、输出“完成所有迭代”。
实施例11:如图1-5所示,
APP软件用户评论如表11所示,
表11
所述APP软件用户评论有关性判断方法的具体步骤如下:
Step1、提取APP软件num条用户评论,以及每条用户评论的评论分词结果集WordResulti={w0/f0,w1/f1,…,wj/fj},评论分词词性集Featurei={f0,f1,…fj},其中wj为词,fj为词性(i=0,1,…,num-1,j=0,1,…,n-1):
本实施例中,WordResult0={后台/n,运行/vn,就/d,收/v,不/d,到/v,信息/n,提示/v,什么/ry,情况/n,?/ww},Feature0={n,vn,d,v,d,v,n,v,ry,n,ww},WordResult1={爱/v,马仕/nr},Feature1={v,nr},此时num=2。
Step2、根据num条用户评论的WordResult和Feature提取每条评论的关键词集Keywordsi
提取Keywordsi方法:找到Featurei中为动词、名词和形容词词性所有的元素下标,并将Keywordsi中对应下标所有元素wj/fj存入Keywordsi
本实施例中,Keywords0={后台/n,运行/vn,收/v,到/v,信息/n,提示/v,情况/n},Keywords1={爱/v,马仕/nr};
Step3、定义每次迭代条数index(index必须满足不大于num),总迭代次数初始化当前迭代次数current=0:
本实施例中,定义index=1,则L=2;
Step4、判断current是否小于L:本实施例中,0<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第0次时first=0,last=0,i=0;
Step6、判断i是否小于或等于last:本实施例中,0<=0,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第0条评论的Keywords0不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test0={后台,运行,收,到,信息,提示,情况},TestFeature0={n,vn,v,v,n,v,n},isAllAdjust=false;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时动词特征库中平均特征频数avgv为7.314,名词特征库中平均特征频数avgn为4.667,则Test0的w0其对应的m=4.667,N0=1,times0=11;w1对应的m=7.314,N1=1,times1=11;w2对应的m=7.314,N2=2,times2=11;w3对应的m=7.314,N3=1,times3=19;w4对应的m=4.667,N4=1,times4=11,;w5对应的m=7.314,N5=1,times5=11;w6对应的m=4.667,N6=1,times6=11,计算第0条评论score=767.26;
Step10、判断score是否大于阈值α,本实施例中,767.26>1,执行步骤Step11;
Step11、第i条评论有关性标记输出为“有关”,i++:本实施例中,第0条评论有关性标记输出为“有关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,1>0,执行步骤Step13;
Step13、current++=1,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,1<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第1次时first=1,last=1,i=1;
Step6、判断i是否小于或等于last:本实施例中,1<=1,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第1条评论的Keywords1不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test1={爱,马仕},TestFeature1={v,nr},isAllAdjust=false;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时动词特征库中平均特征频数avgv为7.429,名词特征库中平均特征频avgn为4.778,则Test1的w0其对应的m=7.429,N0=1,times0=4,w1其对应的m=4.778,N0=1,times0=1,计算第1条评论score=0.878;
Step10、判断score是否大于阈值α,本实施例中,0.878<1,执行步骤Step12;
Step12、第i条评论有关性标记输出为“无关”,i++:本实施例中,第0条评论有关性标记输出为“无关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,2>1,执行步骤Step13;
Step13、current++=2,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,2=2,执行步骤Step14;
Step14、输出“完成所有迭代”。
实施例12:如图1-5所示,
APP软件用户评论如表12所示,
表12
所述APP软件用户评论有关性判断方法的具体步骤如下:
Step1、提取APP软件num条用户评论,以及每条用户评论的评论分词结果集WordResulti={w0/f0,w1/f1,…,wj/fj},评论分词词性集Featurei={f0,f1,…fj},其中wj为词,fj为词性(i=0,1,…,num-1,j=0,1,…,n-1):
本实施例中,WordResult0={很/d,爱/v},Feature0={d,v},WordResult1={嘎嘎/o},Feature1={o},此时num=2。
Step2、根据num条用户评论的WordResult和Feature提取每条评论的关键词集Keywordsi
提取Keywordsi方法:找到Featurei中为动词、名词和形容词词性所有的元素下标,并将Keywordsi中对应下标所有元素wj/fj存入Keywordsi
本实施例中,Keywords0={爱/v},Keywords1={};
Step3、定义每次迭代条数index(index必须满足不大于num),总迭代次数初始化当前迭代次数current=0:
本实施例中,定义index=1,则L=2;
Step4、判断current是否小于L:本实施例中,0<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第0次时first=0,last=0,i=0;
Step6、判断i是否小于或等于last:本实施例中,0<=0,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第0条评论的Keywords0不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test0={爱},TestFeature0={v},isAllAdjust=false;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时动词特征库中平均特征频数avgv为7.457,则Test0的w0其对应的m=7.457,N0=1,times0=5,计算第0条评论score=1.205;
Step10、判断score是否大于阈值α,本实施例中,1.205>1,执行步骤Step11;
Step11、第i条评论有关性标记输出为“有关”,i++:本实施例中,第0条评论有关性标记输出为“有关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,1>0,执行步骤Step13;
Step13、current++=1,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,1<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第1次时first=1,last=1,i=1;
Step6、判断i是否小于或等于last:本实施例中,1<=1,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第1条评论的Keywords1为空,执行步骤Step12;
Step12、第i条评论有关性标记输出为“无关”,i++:本实施例中,第0条评论有关性标记输出为“无关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,2>1,执行步骤Step13;
Step13、current++=2,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,2=2,执行步骤Step14;
Step14、输出“完成所有迭代”。
实施例13:如图1-5所示,
APP软件用户评论如表13所示,
表13
所述APP软件用户评论有关性判断方法的具体步骤如下:
Step1、提取APP软件num条用户评论,以及每条用户评论的评论分词结果集WordResulti={w0/f0,w1/f1,…,wj/fj},评论分词词性集Featurei={f0,f1,…fj},其中wj为词,fj为词性(i=0,1,…,num-1,j=0,1,…,n-1):
本实施例中,WordResult0={太/d,好/a,了/y,!/wt,我/rr,非常/d,喜欢/vi},Feature0={d,a,y,wt,rr,d,vi},WordResult1={只要/c,东西/n,好/a,,/wd,评价/v,也/d,会/v,高/a,,/wd,良心/n,品牌/n},Feature1={c,n,a,wd,v,d,v,a,wd,n,n},WordResult2={不错/a,,/wd,值得/v,下载/v,!/wt},Feature2={a,wd,v,v,wt},WordResult3={内容/n,丰富/a,,/wd,出乎/v,我/rr,所/usuo,料/v,啊/y,!/wt},Feature3={n,a,wd,v,rr,usuo,v,y,wt},此时num=4。
Step2、根据num条用户评论的WordResult和Feature提取每条评论的关键词集Keywordsi
提取Keywordsi方法:找到Featurei中为动词、名词和形容词词性所有的元素下标,并将WordResulti中对应下标所有元素wj/fj存入Keywordsi
本实施例中,Keywords0={好/a,喜欢/v},Keywords1={东西/n,好/a,评价/v,会/v,高/a,良心/n,品牌/n},Keywords2={不错/a,值得/v,下载/v},Keywords3={内容/n,丰富/a,出乎/v,料/v};
Step3、定义每次迭代条数index(index必须满足不大于num),总迭代次数初始化当前迭代次数current=0:
本实施例中,定义index=2,则L=2;
Step4、判断current是否小于L:本实施例中,0<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第0次时first=0,last=1,i=0;
Step6、判断i是否小于或等于last:本实施例中,0<=1,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第0条评论的Keywords0不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test0={喜欢},TestFeature0={v},isAllAdjust=false,u=1;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时动词特征库中平均特征频数avgv为7.457,则Test0的w0其对应的m=7.457,N0=1,times0=5,u=1,计算第0条评论score=1.205;
Step10、判断score是否大于阈值α,本实施例中,1.205>1,执行步骤Step11;
Step11、第i条评论有关性标记输出为“有关”,i++:本实施例中,第0条评论有关性标记输出为“有关”,i++=1,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,1<=1,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第1条评论的Keywords1不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test1={东西,评价,会,良心,品牌},TestFeature1={n,v,v,n,n},isAllAdjust=false,u=5;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时动词特征库中平均特征频数avgv为7.457,名词特征库中平均特征频数avgn为4.975,Test1的w0其对应的m=4.975,N0=1,times0=20;w1其对应的m=7.457,N1=2,times1=32;w2其对应的m=7.457,N2=2,times2=30;w3其对应的m=4.975,N3=0,times3=0;w4其对应的m=4.975,N4=1,times4=12,u=5,计算第1条评论score=132.9181;
Step10、判断score是否大于阈值α,本实施例中,132.9181>1,执行步骤Step11;
Step11、第i条评论有关性标记输出为“有关”,i++:本实施例中,第0条评论有关性标记输出为“有关”,i++=2,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,2>1,执行步骤Step13;
Step13、current++=1,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,1<2,执行步骤Step5;
Step5、根据current与L,确定在第current次迭代时,第一条评论所在条数first和最后一条评论所在条数last,i=first:本实施例中,第1次时first=2,last=3,i=2;
Step6、判断i是否小于或等于last:本实施例中,2<=3,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第2条评论的Keywords2不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test2={值得,下载},TestFeature2={v,v},isAllAdjust=false,u=2;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时动词特征库中平均特征频数avgv为7.594,则Test2的w0其对应的m=7.594,N0=1,times0=11;w1其对应的m=7.594,N0=2,times0=36,u=2,计算第2条评论score=10.836;
Step10、判断score是否大于阈值α,本实施例中,10.836>1,执行步骤Step11;
Step11、第i条评论有关性标记输出为“有关”,i++:本实施例中,第0条评论有关性标记输出为“有关”,i++=3,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,3<=3,执行步骤Step7;
Step7、判断第i条评论的Keywordsi是否为空:本实施例中,第3条评论的Keywords3不为空,执行步骤Step8;
Step8、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):本实施例中,Test3={内容,出乎,料},TestFeature3={n,v,v},isAllAdjust=false,u=3;
Step9、计算第i条评论得分score,并将其特征词存入对应的特征库:
本实施例中,此时动词特征库中平均特征频数avgv为8.004,名词特征库中平均特征频数avgn为5.100,Test3的w0其对应的m=5.100,N0=2,times0=34;w1其对应的m=8.004,N1=1,times1=4;w2其对应的m=8.004,N2=1,times2=8,u=3,计算第3条评论score=11.657;
Step10、判断score是否大于阈值α,本实施例中,11.657>1,执行步骤Step11;
Step11、第i条评论有关性标记输出为“有关”,i++:本实施例中,第0条评论有关性标记输出为“有关”,i++=4,执行步骤Step6;
Step6、判断i是否小于或等于last:本实施例中,4>3,执行步骤Step13;
Step13、current++=2,执行步骤Step4;
Step4、判断current是否小于L:本实施例中,2=2,执行步骤Step14;
Step14、输出“完成所有迭代”。
词性解释:
n名词,t时间词,s处所词,f方位词,v动词,a形容词,b区别词,z状态词,r代词,m数词,q量词,d副词,p介词,c连词,u助词,e叹词,y语气词,o拟声词,h前缀,x字符串,w标点符号。
实施例14:如图1-5所示,一种APP软件用户评论有关性判断方法,首先提取APP软件每条评论的关键词集;然后计算提取的APP软件每条评论的关键词集对特征库中的有关性概率得分;最后通过判断有关性概率得分是否大于预设阈值的情况来确定APP软件用户评论是否与该APP软件有关。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (2)

1.一种APP软件用户评论有关性判断方法,其特征在于:首先提取APP软件每条评论的关键词集;然后计算提取的APP软件每条评论的关键词集对特征库中的有关性概率得分;最后通过判断有关性概率得分是否大于预设阈值的情况来确定APP软件用户评论是否与该APP软件有关;
所述方法的具体步骤如下:
Step1、提取APP软件num条用户评论,以及每条用户评论的评论分词结果集WordResulti={w0/f0,w1/f1,…,wj/fj},评论分词词性集Featurei={f0,f1,…fj};其中wj为词,fj为词性(i=0,1,…,num-1,j=0,1,…,n-1),n为分词以后词的个数;
Step2、根据num条用户评论的WordResulti和Featurei提取每条评论的关键词集Keywordsi
提取Keywordsi方法:找到Featurei中为动词、名词和形容词词性所有的元素下标,并将WordResulti中对应下标所有元素wj/fj存入Keywordsi
Step3、判断current是否小于L,如果是,则执行步骤Step4;否则,执行步骤Step13;其中,总迭代次数index表示每次迭代条数且满足不大于num,初始时的当前迭代次数current=0;
Step4、根据current与L,确定在第current次迭代时,第一条评论所在条数first、最后一条评论所在条数last、i=first;
其中,first=current*index;当current=L-1时,last=num;否则,last=(current+1)*index-1;
Step5、判断i是否小于或等于last,如果是,则执行步骤Step6;否则,执行步骤Step12;
Step6、判断第i条评论的Keywordsi是否为空,如果是,则执行步骤Step11;否则执行步骤Step7;
Step7、根据第first条评论的Keywordsi提取被测词集Testi={t1,t2,…,tk}(k=0,1,2,…,u-1):
当Keywordsi中所有元素wk/fk中fk都为形容词,则将其所有wk存入Testi,否则,对元素wk/fk中fk为动词、名词的元素,将其wk存入Testi,fk存入判断词性集TestFeaturei
Step8、计算第i条评论有关性概率得分score,并将其特征词存入对应的特征库:其中,第i条评论中包含被测词wk的特征库中文本个数Nk(k=0,1,2,…,u-1),文档个数N=4,wk在对应特征库中出现频数为timesk,wk在对应特征库中平均特征频数为m,u为Testi的元素个数;
Step9、判断有关性概率得分score是否大于阈值α,如果是,则执行步骤Step10;否则执行步骤Step11;
Step10、第i条评论有关性标记输出为“有关”,i++,执行步骤Step5:
Step11、第i条评论有关性标记输出为“无关”,i++,执行步骤Step5;
Step12、current++,执行步骤Step3;
Step13、输出“完成所有迭代”。
2.根据权利要求1所述的APP软件用户评论有关性判断方法,其特征在于:所述α=1。
CN201610264134.3A 2016-04-26 2016-04-26 一种app软件用户评论有关性判断方法 Active CN105975487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610264134.3A CN105975487B (zh) 2016-04-26 2016-04-26 一种app软件用户评论有关性判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610264134.3A CN105975487B (zh) 2016-04-26 2016-04-26 一种app软件用户评论有关性判断方法

Publications (2)

Publication Number Publication Date
CN105975487A CN105975487A (zh) 2016-09-28
CN105975487B true CN105975487B (zh) 2019-07-16

Family

ID=56994002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610264134.3A Active CN105975487B (zh) 2016-04-26 2016-04-26 一种app软件用户评论有关性判断方法

Country Status (1)

Country Link
CN (1) CN105975487B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145186A (zh) * 2018-07-09 2019-01-04 湖北中医药大学 一种移动应用数据处理方法
CN109783807B (zh) * 2018-12-21 2022-10-28 昆明理工大学 一种针对app软件缺陷的用户评论挖掘方法
CN109885771B (zh) * 2019-02-26 2020-06-30 紫光云引擎科技(苏州)有限公司 一种应用软件的筛选方法及服务设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515269A (zh) * 2008-02-20 2009-08-26 中国科学院自动化研究所 实现观点搜索引擎排序的方法
CN102254038A (zh) * 2011-08-11 2011-11-23 武汉安问科技发展有限责任公司 一种分析网络评论相关度的系统及其分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515269A (zh) * 2008-02-20 2009-08-26 中国科学院自动化研究所 实现观点搜索引擎排序的方法
CN102254038A (zh) * 2011-08-11 2011-11-23 武汉安问科技发展有限责任公司 一种分析网络评论相关度的系统及其分析方法

Also Published As

Publication number Publication date
CN105975487A (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
CN104268197B (zh) 一种行业评论数据细粒度情感分析方法
CN104484411B (zh) 一种基于词典的语义知识库的构建方法
CN104699766B (zh) 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
CN102165435B (zh) 使用因特网语料库的自动上下文相关语言产生、校正和增强
CN108009228A (zh) 一种内容标签的设置方法、装置及存储介质
CN103455562A (zh) 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN108268668B (zh) 一种基于话题多样性的文本数据观点摘要挖掘方法
CN105956052A (zh) 一种基于垂直领域的知识图谱的构建方法
CN104881458B (zh) 一种网页主题的标注方法和装置
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN104050556B (zh) 一种垃圾邮件的特征选择方法及其检测方法
CN105335352A (zh) 基于微博情感的实体识别方法
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN108363725A (zh) 一种用户评论观点提取和观点标签生成的方法
CN108280057A (zh) 一种基于blstm的微博谣言检测方法
CN104778283B (zh) 一种基于微博的用户职业分类方法及系统
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN103559174B (zh) 语义情感分类特征值提取方法及系统
CN104281565B (zh) 语义词典构建方法和装置
CN104298732B (zh) 一种面向网络用户的个性化文本排序及推荐方法
CN107944911A (zh) 一种基于文本分析的推荐系统的推荐方法
CN105975487B (zh) 一种app软件用户评论有关性判断方法
CN111191022A (zh) 商品短标题生成方法及装置
CN106156372A (zh) 一种互联网网站的分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant