CN109669968A - 一种基于计量经济学的移动应用评论分析与挖掘方法 - Google Patents

一种基于计量经济学的移动应用评论分析与挖掘方法 Download PDF

Info

Publication number
CN109669968A
CN109669968A CN201811536003.1A CN201811536003A CN109669968A CN 109669968 A CN109669968 A CN 109669968A CN 201811536003 A CN201811536003 A CN 201811536003A CN 109669968 A CN109669968 A CN 109669968A
Authority
CN
China
Prior art keywords
comment
mobile application
econometrics
analysis
confidence level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811536003.1A
Other languages
English (en)
Other versions
CN109669968B (zh
Inventor
郭斌
郭彤
於志文
王柱
王亮
周兴社
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201811536003.1A priority Critical patent/CN109669968B/zh
Publication of CN109669968A publication Critical patent/CN109669968A/zh
Application granted granted Critical
Publication of CN109669968B publication Critical patent/CN109669968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于计量经济学的移动应用评论分析与挖掘方法,涉及融合不同类型用户生成数据并进行分析与挖掘,具体地说,基于用户在移动应用市场上传的海量评论建立计量经济学模型,以此生成有指导意义的用户反馈。该方法不仅能够通过特征提取深入分析用户的实际需求,同时利用计量经济学模型刻画不同因素对于移动应用下载量的影响,能够同时满足不同的用户需求。

Description

一种基于计量经济学的移动应用评论分析与挖掘方法
技术领域
本发明属于数据挖掘领域,具体涉及一种基于计量经济学的移动应用评论分析与挖掘方法。
背景技术
近年来,随着移动互联网的快速发展,智能手机正成为“人-机-物”三元世界互相沟通和融合的门户。与此同时,移动应用的数量也迅速增长,融入了衣食住行各个领域。对于移动应用开发者来说,同类型的产品数量增多,竞争日趋激烈,而应对这一挑战的关键在于推出更加贴近用户关注和需求的产品。面对日益增长的用户评论,非常需要一种高效的分析与挖掘方法来处理海量信息,从而为移动应用开发者提供指导。专利CN106227720A提出了一种APP软件用户评论模式识别方法,该专利基于自然语言处理技术对评论数据进行分析,选择词性组合模板,最终确定软件用户的评论模式。专利CN101667194A提出了一种基于用户评论文本特征的自动摘要方法及其自动摘要系统,该专利基于特征识别和评论分类的结果,计算关键词权重并生成文本评论摘要。然而根据调研发现,各大移动应用市场均公开了下载量信息。上述专利的不足之处在于没有融合其他可用的数据源,比如下载量,简单地基于文本挖掘技术,实现方法过于简单,不能充分地挖掘文本评论中包含的丰富信息,难以满足实际需求。
发明内容
为了克服现有方法不能有效挖掘移动应用评论的不足,本发明提供一种基于计量经济学的移动应用评论分析与挖掘方法。该方法不仅能够通过特征提取深入分析用户的实际需求,同时利用计量经济学模型刻画不同因素对于移动应用下载量的影响,能够同时满足不同的用户需求。
为了实现上述目的,本发明采取的技术方案为:一种基于计量经济学的移动应用评论分析与挖掘方法,包括如下步骤:
S1、将网上下载的数据整理融合并写入数据库;
S2、数据初处理:将数据处理成符合条件的格式;
S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;
S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;
S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;
S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述S1中的数据包括用户评论、各版本发布时间、下载量信息。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述S2数据初处理步骤具体包括以下步骤:
S21:根据文本评论的长度筛选原始评论,降低无意义内容引入的噪声;
S22:同时根据是否包含非法字符过滤异常数据;
S23:利用标点符号或空格符将原始文本评论分割为短句,将结果保存。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述步骤S3的置信度定义为:
其中,conf(asp)代表移动应用特征asp的置信度,conf(pati)代表第i种文本模式pat的置信度(在预处理阶段直接计算得出),n表示相应文本模式的数量;匹配文本模式数量越多的应用特征,其置信度越高;通过计算置信度,得到有效的种子特征集合以便进一步的迭代。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述步骤S5的计量经济学模型为,
其中,log(downloads)t代表在t时刻对移动应用下载量取对数的结果,βi代表第i个移动应用特征的系数,α代表移动应用相关的人工调节参数,εt代表在t时刻的误差项。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述S5中下载量指标需要归一化处理。
本发明具有以下有益效果为,基于移动应用市场公开的多源异构数据,以移动应用的演化作为背景,引入计量经济学模型,弥补了传统文本挖掘方法的不足,有助于移动应用开发者更好地了解用户反馈,进而提高用户满意度。
附图说明
图1为本发明基于计量经济学的移动应用评论分析与挖掘总结流程图。
具体实施方式
下面结合附图来进一步描述本发明的技术方案。
S1、将网上下载的数据整理融合并写入数据库;以视频类移动应用“优酷”为例。编写网络爬虫程序,从移动应用商店抓取用户评论、各版本发布时间、下载量信息,整理融合并写入数据库。
S2、数据初处理:将数据处理成符合条件的格式;
S21:根据文本评论的长度筛选原始评论,降低无意义内容引入的噪声:利用分词工具对文本评论进行分词并过滤停用词。根据文本评论的长度筛选原始用户评论,阈值长度设定为5,降低无意义评论引入的噪声。
S22:同时根据是否包含非法字符过滤异常数据:然后过滤包含非中文字符的异常评论数据,
S23:最后利用标点符号或空格符将原始文本评论分割为短句,将结果保存。
S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;
置信度定义为:
其中,conf(asp)代表移动应用特征asp的置信度,conf(pati)代表第i种文本模式pat的置信度(在预处理阶段直接计算得出),n表示相应文本模式的数量;匹配文本模式数量越多的应用特征,其置信度越高;通过计算置信度,得到有效的种子特征集合以便进一步的迭代。
根据步骤2的结果,借助半监督学习的思路,首先人工选择若干种子特征,初始化3个特征:下载,界面,广告。在迭代过程中,利用自助采样模型BootStrapping计算每一个特征的置信度,将高置信度的特征加入候选特征集合T。其中,候选特征集合T的元素个数的上限设定为10。
S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;
基于S3得到的候选特征集合T,根据是否包含至少一个特征来生成候选评论集R。对于候选评论集R中的每一条评论,利用NLP模型计算其情感倾向,输出-1代表负面,0代表中性,1代表正面,若情感倾向计算结果为0或者-1,则将其添加到用户反馈集合F。其中,用户反馈集合F的元素个数没有上限。
S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;其中下载量指标需要归一化处理。计量经济学模型为,
其中,log(downloads)t代表在t时刻对移动应用下载量取对数的结果,βt代表第i个移动应用特征的系数,α代表移动应用相关的人工调节参数,εt代表在t时刻的误差项。
对于视频类移动应用“优酷”,首先对其下载量指标进行均值归一化处理。然后基于已经得到的候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于“优酷”应用下载量的影响。在模型中具体表现为差异化的权重,进而挖掘具有显著影响效力的因素。
S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。

Claims (7)

1.一种基于计量经济学的移动应用评论分析与挖掘方法,其特征在于:包括如下步骤:
S1、将网上下载的数据整理融合并写入数据库;
S2、数据初处理:将数据处理成符合条件的格式;
S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;
S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;
S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;
S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。
2.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述S1中的数据包括用户评论、各版本发布时间、下载量信息。
3.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述S2数据初处理步骤具体包括以下步骤:
S21:根据文本评论的长度筛选原始评论,降低无意义内容引入的噪声;
S22:同时根据是否包含非法字符过滤异常数据;
S23:利用标点符号或空格符将原始文本评论分割为短句,将结果保存。
4.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述步骤S3的置信度定义为:
其中,conf(asp)代表移动应用特征asp的置信度,conf(pati)代表第i种文本模式pat的置信度(在预处理阶段直接计算得出),n表示相应文本模式的数量;匹配文本模式数量越多的应用特征,其置信度越高;通过计算置信度,得到有效的种子特征集合以便进一步的迭代。
5.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述NLP模型输出-1代表负面,0代表中性,1代表正面,若情感倾向计算结果为0或者-1。
6.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述步骤S5的计量经济学模型为,
其中,log(downloads)t代表在t时刻对移动应用下载量取对数的结果,βi代表第i个移动应用特征的系数,α代表移动应用相关的人工调节参数,εt代表在t时刻的误差项。
7.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述S5中所述下载量指标需要归一化处理。
CN201811536003.1A 2018-12-14 2018-12-14 一种基于计量经济学的移动应用评论分析与挖掘方法 Active CN109669968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811536003.1A CN109669968B (zh) 2018-12-14 2018-12-14 一种基于计量经济学的移动应用评论分析与挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811536003.1A CN109669968B (zh) 2018-12-14 2018-12-14 一种基于计量经济学的移动应用评论分析与挖掘方法

Publications (2)

Publication Number Publication Date
CN109669968A true CN109669968A (zh) 2019-04-23
CN109669968B CN109669968B (zh) 2022-09-23

Family

ID=66143830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811536003.1A Active CN109669968B (zh) 2018-12-14 2018-12-14 一种基于计量经济学的移动应用评论分析与挖掘方法

Country Status (1)

Country Link
CN (1) CN109669968B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统
WO2017051425A1 (en) * 2015-09-23 2017-03-30 Devanathan Giridhari A computer-implemented method and system for analyzing and evaluating user reviews
CN108573411A (zh) * 2018-04-17 2018-09-25 重庆理工大学 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017051425A1 (en) * 2015-09-23 2017-03-30 Devanathan Giridhari A computer-implemented method and system for analyzing and evaluating user reviews
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统
CN108573411A (zh) * 2018-04-17 2018-09-25 重庆理工大学 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘甲学等: "基于情感分析的评论数据用户满意度影响因素研究", 《现代情报》 *
涂海丽等: "基于在线评论的用户需求挖掘模型研究", 《情报学报》 *

Also Published As

Publication number Publication date
CN109669968B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
Correa et al. Chaff from the wheat: Characterization and modeling of deleted questions on stack overflow
Mladenoff LANDIS and forest landscape models
CN106021433B (zh) 一种商品评论数据的口碑分析方法和装置
CN110880019B (zh) 通过无监督域适应训练目标域分类模型的方法
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与系统
CN106970898A (zh) 用于生成文章的方法和装置
CN110196945A (zh) 一种基于LSTM与LeNet融合的微博用户年龄预测方法
CN101799802B (zh) 利用结构信息进行实体关系提取的方法和系统
CN110008309A (zh) 一种短语挖掘方法及装置
CN108132887A (zh) 用户界面校验方法、装置、软件测试系统、终端及介质
CN109828997A (zh) 一种大学生行为数据分析及学业预警方法
CN109558484A (zh) 基于相似度词序矩阵的电力客服工单情感量化分析方法
CN106446022A (zh) 一种基于形式语义推理和深度学习的自然语言知识挖掘方法
CN116595438A (zh) 图片创作方法、装置、设备及存储介质
CN107993636B (zh) 基于递归神经网络的乐谱建模与生成方法
CN110377910A (zh) 一种表格描述的处理方法、装置、设备及存储介质
CN110992198A (zh) 作物病害防治方案推荐方法及装置、系统、设备和介质
CN116523402B (zh) 一种基于多模态数据的网络学习资源质量评估方法及系统
CN112969035A (zh) 一种可视化视频制作方法及制作系统
Li et al. Hierarchical embedding for code search in software Q&A sites
CN109669968A (zh) 一种基于计量经济学的移动应用评论分析与挖掘方法
CN110264311A (zh) 一种基于深度学习的商业推广信息精准推荐方法及系统
CN114610308A (zh) 应用功能布局的调整方法及装置、电子设备、存储介质
CN107256210A (zh) 基于深度语义分析的学生英语写作人工智能系统
CN113869066A (zh) 一种基于农业领域文本的语义理解方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant