CN109669968B - 一种基于计量经济学的移动应用评论分析与挖掘方法 - Google Patents

一种基于计量经济学的移动应用评论分析与挖掘方法 Download PDF

Info

Publication number
CN109669968B
CN109669968B CN201811536003.1A CN201811536003A CN109669968B CN 109669968 B CN109669968 B CN 109669968B CN 201811536003 A CN201811536003 A CN 201811536003A CN 109669968 B CN109669968 B CN 109669968B
Authority
CN
China
Prior art keywords
mobile application
metrology
comment
method based
economics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811536003.1A
Other languages
English (en)
Other versions
CN109669968A (zh
Inventor
郭斌
郭彤
於志文
王柱
王亮
周兴社
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201811536003.1A priority Critical patent/CN109669968B/zh
Publication of CN109669968A publication Critical patent/CN109669968A/zh
Application granted granted Critical
Publication of CN109669968B publication Critical patent/CN109669968B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于计量经济学的移动应用评论分析与挖掘方法,涉及融合不同类型用户生成数据并进行分析与挖掘,具体地说,基于用户在移动应用市场上传的海量评论建立计量经济学模型,以此生成有指导意义的用户反馈。该方法不仅能够通过特征提取深入分析用户的实际需求,同时利用计量经济学模型刻画不同因素对于移动应用下载量的影响,能够同时满足不同的用户需求。

Description

一种基于计量经济学的移动应用评论分析与挖掘方法
技术领域
本发明属于数据挖掘领域,具体涉及一种基于计量经济学的移动应用评论分析与挖掘方法。
背景技术
近年来,随着移动互联网的快速发展,智能手机正成为“人-机-物”三元世界互相沟通和融合的门户。与此同时,移动应用的数量也迅速增长,融入了衣食住行各个领域。对于移动应用开发者来说,同类型的产品数量增多,竞争日趋激烈,而应对这一挑战的关键在于推出更加贴近用户关注和需求的产品。面对日益增长的用户评论,非常需要一种高效的分析与挖掘方法来处理海量信息,从而为移动应用开发者提供指导。专利CN106227720A提出了一种APP软件用户评论模式识别方法,该专利基于自然语言处理技术对评论数据进行分析,选择词性组合模板,最终确定软件用户的评论模式。专利CN101667194A提出了一种基于用户评论文本特征的自动摘要方法及其自动摘要系统,该专利基于特征识别和评论分类的结果,计算关键词权重并生成文本评论摘要。然而根据调研发现,各大移动应用市场均公开了下载量信息。上述专利的不足之处在于没有融合其他可用的数据源,比如下载量,简单地基于文本挖掘技术,实现方法过于简单,不能充分地挖掘文本评论中包含的丰富信息,难以满足实际需求。
发明内容
为了克服现有方法不能有效挖掘移动应用评论的不足,本发明提供一种基于计量经济学的移动应用评论分析与挖掘方法。该方法不仅能够通过特征提取深入分析用户的实际需求,同时利用计量经济学模型刻画不同因素对于移动应用下载量的影响,能够同时满足不同的用户需求。
为了实现上述目的,本发明采取的技术方案为:一种基于计量经济学的移动应用评论分析与挖掘方法,包括如下步骤:
S1、将网上下载的数据整理融合并写入数据库;
S2、数据初处理:将数据处理成符合条件的格式;
S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;
S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;
S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;
S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述S1中的数据包括用户评论、各版本发布时间、下载量信息。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述S2数据初处理步骤具体包括以下步骤:
S21:根据文本评论的长度筛选原始评论,降低无意义内容引入的噪声;
S22:同时根据是否包含非法字符过滤异常数据;
S23:利用标点符号或空格符将原始文本评论分割为短句,将结果保存。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述步骤S3的置信度定义为:
Figure BDA0001906885280000031
其中,conf(asp)代表移动应用特征asp的置信度,conf(pati)代表第i种文本模式pat的置信度(在预处理阶段直接计算得出),n表示相应文本模式的数量;匹配文本模式数量越多的应用特征,其置信度越高;通过计算置信度,得到有效的种子特征集合以便进一步的迭代。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述步骤S5的计量经济学模型为,
Figure BDA0001906885280000032
其中,log(downloads)t代表在t时刻对移动应用下载量取对数的结果,βi代表第i个移动应用特征的系数,α代表移动应用相关的人工调节参数,εt代表在t时刻的误差项。
进一步的,一种基于计量经济学的移动应用评论分析和挖掘方法,所述S5中下载量指标需要归一化处理。
本发明具有以下有益效果为,基于移动应用市场公开的多源异构数据,以移动应用的演化作为背景,引入计量经济学模型,弥补了传统文本挖掘方法的不足,有助于移动应用开发者更好地了解用户反馈,进而提高用户满意度。
附图说明
图1为本发明基于计量经济学的移动应用评论分析与挖掘总结流程图。
具体实施方式
下面结合附图来进一步描述本发明的技术方案。
S1、将网上下载的数据整理融合并写入数据库;以视频类移动应用“优酷”为例。编写网络爬虫程序,从移动应用商店抓取用户评论、各版本发布时间、下载量信息,整理融合并写入数据库。
S2、数据初处理:将数据处理成符合条件的格式;
S21:根据文本评论的长度筛选原始评论,降低无意义内容引入的噪声:利用分词工具对文本评论进行分词并过滤停用词。根据文本评论的长度筛选原始用户评论,阈值长度设定为5,降低无意义评论引入的噪声。
S22:同时根据是否包含非法字符过滤异常数据:然后过滤包含非中文字符的异常评论数据,
S23:最后利用标点符号或空格符将原始文本评论分割为短句,将结果保存。
S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;
置信度定义为:
Figure BDA0001906885280000051
其中,conf(asp)代表移动应用特征asp的置信度,conf(pati)代表第i种文本模式pat的置信度(在预处理阶段直接计算得出),n表示相应文本模式的数量;匹配文本模式数量越多的应用特征,其置信度越高;通过计算置信度,得到有效的种子特征集合以便进一步的迭代。
根据步骤2的结果,借助半监督学习的思路,首先人工选择若干种子特征,初始化3个特征:下载,界面,广告。在迭代过程中,利用自助采样模型BootStrapping计算每一个特征的置信度,将高置信度的特征加入候选特征集合T。其中,候选特征集合T的元素个数的上限设定为10。
S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;
基于S3得到的候选特征集合T,根据是否包含至少一个特征来生成候选评论集R。对于候选评论集R中的每一条评论,利用NLP模型计算其情感倾向,输出-1代表负面,0代表中性,1代表正面,若情感倾向计算结果为0或者-1,则将其添加到用户反馈集合F。其中,用户反馈集合F的元素个数没有上限。
S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;其中下载量指标需要归一化处理。计量经济学模型为,
Figure BDA0001906885280000061
其中,log(downloads)t代表在t时刻对移动应用下载量取对数的结果,βt代表第i个移动应用特征的系数,α代表移动应用相关的人工调节参数,εt代表在t时刻的误差项。
对于视频类移动应用“优酷”,首先对其下载量指标进行均值归一化处理。然后基于已经得到的候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于“优酷”应用下载量的影响。在模型中具体表现为差异化的权重,进而挖掘具有显著影响效力的因素。
S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。

Claims (7)

1.一种基于计量经济学的移动应用评论分析与挖掘方法,其特征在于:包括如下步骤:
S1、将网上下载的数据整理融合并写入数据库;
S2、数据初处理:将数据处理成符合条件的格式;
S3、生成候选特征集合T:根据S2的结果,人工选择若干种子特征,通过自助采样模型BootStrapping自动提取具有高置信度的移动应用特征,生成候选特征集合T;
S4、获取用户反馈集合F:根据S3得到的候选特征集合T,筛选生成候选评论集R;利用NLP模型判断每一条候选评论的情感倾向,若情感倾向计算结果为中性或者负面,将其添加到用户反馈集合F;
S5、基于候选特征集合T和用户反馈集合F构建计量经济学模型,分析不同因素对于下载量的影响,挖掘具有显著影响效力的因素;
S6、融合S3与S4的结果,计算单条评论的影响指数,基于用户反馈集合F生成用户反馈。
2.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述S1中的数据包括用户评论、各版本发布时间、下载量信息。
3.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述S2数据初处理步骤具体包括以下步骤:
S21:根据文本评论的长度筛选原始评论,降低无意义内容引入的噪声;
S22:同时根据是否包含非法字符过滤异常数据;
S23:利用标点符号或空格符将原始文本评论分割为短句,将结果保存。
4.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述步骤S3的置信度定义为:
Figure FDA0001906885270000021
其中,conf(asp)代表移动应用特征asp的置信度,conf(pati)代表第i种文本模式pat的置信度(在预处理阶段直接计算得出),n表示相应文本模式的数量;匹配文本模式数量越多的应用特征,其置信度越高;通过计算置信度,得到有效的种子特征集合以便进一步的迭代。
5.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述NLP模型输出-1代表负面,0代表中性,1代表正面,若情感倾向计算结果为0或者-1。
6.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述步骤S5的计量经济学模型为,
Figure FDA0001906885270000022
其中,log(downloads)t代表在t时刻对移动应用下载量取对数的结果,βi代表第i个移动应用特征的系数,α代表移动应用相关的人工调节参数,εt代表在t时刻的误差项。
7.根据权利要求1所述的一种基于计量经济学的移动应用评论分析和挖掘方法,其特征在于:所述S5中所述下载量指标需要归一化处理。
CN201811536003.1A 2018-12-14 2018-12-14 一种基于计量经济学的移动应用评论分析与挖掘方法 Active CN109669968B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811536003.1A CN109669968B (zh) 2018-12-14 2018-12-14 一种基于计量经济学的移动应用评论分析与挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811536003.1A CN109669968B (zh) 2018-12-14 2018-12-14 一种基于计量经济学的移动应用评论分析与挖掘方法

Publications (2)

Publication Number Publication Date
CN109669968A CN109669968A (zh) 2019-04-23
CN109669968B true CN109669968B (zh) 2022-09-23

Family

ID=66143830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811536003.1A Active CN109669968B (zh) 2018-12-14 2018-12-14 一种基于计量经济学的移动应用评论分析与挖掘方法

Country Status (1)

Country Link
CN (1) CN109669968B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统
WO2017051425A1 (en) * 2015-09-23 2017-03-30 Devanathan Giridhari A computer-implemented method and system for analyzing and evaluating user reviews
CN108573411A (zh) * 2018-04-17 2018-09-25 重庆理工大学 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017051425A1 (en) * 2015-09-23 2017-03-30 Devanathan Giridhari A computer-implemented method and system for analyzing and evaluating user reviews
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统
CN108573411A (zh) * 2018-04-17 2018-09-25 重庆理工大学 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于在线评论的用户需求挖掘模型研究;涂海丽等;《情报学报》;20151024(第10期);全文 *
基于情感分析的评论数据用户满意度影响因素研究;刘甲学等;《现代情报》;20170715(第07期);全文 *

Also Published As

Publication number Publication date
CN109669968A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN107102993B (zh) 一种用户诉求分析方法和装置
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN109522011B (zh) 一种基于编程现场上下文深度感知的代码行推荐方法
CN112270379A (zh) 分类模型的训练方法、样本分类方法、装置和设备
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN111651198B (zh) 代码摘要自动化生成方法及装置
CN110704890A (zh) 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN111462752B (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN108536868A (zh) 社交网络上短文本数据的数据处理方法及应用
CN110851176A (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN106815253B (zh) 一种基于混合数据类型数据的挖掘方法
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN105389303B (zh) 一种异源语料自动融合方法
CN114297440A (zh) 视频自动生成方法、装置、计算机设备及存储介质
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN109669968B (zh) 一种基于计量经济学的移动应用评论分析与挖掘方法
CN104750484B (zh) 一种基于最大熵模型的代码摘要生成方法
CN116166789A (zh) 一种方法命名精准推荐和审查方法
CN116305257A (zh) 隐私信息监测装置和隐私信息监测方法
CN115713349A (zh) 一种小样本评论数据驱动的产品关键用户需求挖掘方法
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant