CN110489758A - 应用程序的价值观计算方法及装置 - Google Patents

应用程序的价值观计算方法及装置 Download PDF

Info

Publication number
CN110489758A
CN110489758A CN201910854317.4A CN201910854317A CN110489758A CN 110489758 A CN110489758 A CN 110489758A CN 201910854317 A CN201910854317 A CN 201910854317A CN 110489758 A CN110489758 A CN 110489758A
Authority
CN
China
Prior art keywords
values
vocabulary
keyword
application program
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910854317.4A
Other languages
English (en)
Other versions
CN110489758B (zh
Inventor
罗伟东
洪晶
陈宇
郭家豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hexun Huagu Information Technology Co Ltd
Original Assignee
Shenzhen Hexun Huagu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Hexun Huagu Information Technology Co Ltd filed Critical Shenzhen Hexun Huagu Information Technology Co Ltd
Priority to CN201910854317.4A priority Critical patent/CN110489758B/zh
Publication of CN110489758A publication Critical patent/CN110489758A/zh
Application granted granted Critical
Publication of CN110489758B publication Critical patent/CN110489758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种应用程序的价值观计算方法及装置,所述方法包括:从应用程序网站中获取应用程序的描述信息和用户的评论信息;通过关键词提取算法,分别从描述信息和评论信息中提取关键词;使用词嵌入Word2vec模型,分别将关键词及预设的价值观词汇转化为带有语义特征的词向量,再通过余弦相似度计算关键词与价值观词汇之间的相似度,构建关键词和价值观词汇的相似度矩阵;根据关键词和价值观词汇的相似度矩阵,通过朴素贝叶斯算法计算出应用程序的价值观的概率,并将应用程序的价值观的概率缩放为价值观分数。本发明采用了一种词嵌入Word2Vec算法,解决了词汇间相似度的衡量问题;基于朴素贝叶斯算法,得到应用程序与价值观类别之间的映射关系。

Description

应用程序的价值观计算方法及装置
技术领域
本发明涉及一种价值观计算方法及装置,尤其是指一种应用程序的价值观计算方法及装置。
背景技术
目前,关于价值观取向的调研分析基本都是通过线上或线下问卷填写进行信息收集的,但无论是线上还是线下,都存在一定弊端,例如在问卷题目的设计上能否保证针对性、合理性,被调查人员能否高质量的完成填写,问卷的涉及区域是否广泛和回收困难等问题。
发明内容
本发明所要解决的技术问题是:提供一种应用程序的价值观计算方法及装置。
为了解决上述技术问题,本发明采用的技术方案为:一种应用程序的价值观计算方法,包括以下步骤,
S10、从应用程序网站中获取应用程序的描述信息和用户的评论信息;
S20、通过关键词提取算法,分别从描述信息和评论信息中提取关键词;
S30、使用词嵌入Word2vec模型,分别将关键词及预设的价值观词汇转化为带有语义特征的词向量,再通过余弦相似度计算关键词与价值观词汇之间的相似度,构建关键词和价值观词汇的相似度矩阵;
S40、根据关键词和价值观词汇的相似度矩阵,通过朴素贝叶斯算法计算出应用程序的价值观的概率,并将应用程序的价值观的概率缩放为价值观分数。
进一步的,所述步骤S20具体包括,
使用TextRank算法,将描述信息中的文本分割成句子后进行词性标注,并构建候选关键词图,利用投票机制对关键词图内的候选关键词进行排序,以获取关键词;
使用文档主题生成模型LDA,对每条评论信息进行词汇分割后,将异常字符及停用词过滤,计算在一个主题中词汇的概率分布以及词汇的映射表,并将词汇的概率分布进行倒序排序,以获取关键词。
进一步的,所述使用TextRank算法,将描述信息中的文本分割成句子后进行词性标注,并构建候选关键词图,利用投票机制对关键词图内的候选关键词进行排序,以获取关键词;具体包括以下具体步骤,
S21、将描述信息中的文本按照完整句子进行分割;
S22、对每个句子进行分词和词性标注,保留指定词性的词汇,作为候选关键词;
S23、构建关键词图G=(V,E),其中,V为节点集,由候选关键词组成;E是边集合,是V×V的子集,采用共现关系构造任两节点之间的边;
S24、根据公式:迭代传播个节点的权重,直至收敛;其中,Vi为集合点,wji为图中任两点Vi,Vj之间边的权重,d为阻尼系数,取值范围为0到1;对于一个给定的点Vi,In(Vi)为指向该点的点集合,Out(Vi)为点Vi指向的点集合;
S25、对节点的权重进行倒序排序,从而得到若干个关键词。
进一步的,使用文档主题生成模型LDA,对每条评论信息进行词汇分割后,将异常字符及停用词过滤,计算在一个主题中词汇的概率分布以及词汇的映射表,并将词汇的概率分布进行倒序排序,以获取关键词,具体包括,
S26、对每条评论信息进行词汇分割,并过滤异常字符及停用词,得到候选关键词;
S27、将文档主题生成模型LDA的主题数量K设置为1,设置超参数α和β,其中,α表示主题分布θ的先验分布参数,β表示词分布Φ的先验分布参数;
S28、基于LDA模型,计算得出主题K下的词概率分布Φ以及词汇的id映射表;
S29、将主题K下的词概率分布Φ进行倒序排序,从而得到若干个关键词。
进一步的,所述步骤S30具体包括,
S31、将价值观列表Lt中的每个价值观词汇Vi (t)∈Lt,通过Word2Vec模型将词汇Vi (t)映射为长度为N的词向量i=1,2,...,n;
S32、将关键词列表中的每个价值观词汇Kj∈W,通过Word2Vec模型将词汇Kj映射为长度为N的词向量Bj,j=1,2,...,m;
S33、通过余弦相似度公式:计算和Bj的相似度
S34、根据和Bj的相似度构建价值观列表Lt和关键词列表W的相似度矩阵M(t),矩阵形状为n×m,其中,
进一步的,所述步骤S40具体包括,
S41、利用朴素贝叶斯算法:
计算得到每个类别的价值观的概率值,其中W为关键词列表,Kj∈W为提取的关键词,j=1,2,...,m,Lt为价值观列表;
S42、对应将每个类别的价值观的概率值缩放至固定范围值,得到每个类别的价值观的分数值;
S43、将价值观分数值进行倒序排序,得到每个类别价值观的排名情况。
一种应用程序的价值观计算装置,包括,
信息获取模块,用于从应用程序网站中获取应用程序的描述信息和用户的评论信息;
关键词提取模块,用于通过关键词提取算法,分别从描述信息和评论信息中提取关键词;
相似度计算模块,用于使用词嵌入Word2vec模型,分别将关键词及预设的价值观词汇转化为带有语义特征的词向量,再通过余弦相似度计算关键词与价值观词汇之间的相似度,构建关键词和价值观词汇的相似度矩阵;
价值观分数计算模块,用于根据关键词和价值观词汇的相似度矩阵,通过朴素贝叶斯算法计算出应用程序的价值观的概率,并将应用程序的价值观的概率缩放为价值观分数。
进一步的,所述关键词提取模块包括,
描述信息的关键词提取模块,用于使用TextRank算法,将描述信息中的文本分割成句子后进行词性标注,并构建候选关键词图,利用投票机制对关键词图内的候选关键词进行排序,以获取关键词;
评论信息的关键词提取模块,用于使用文档主题生成模型LDA,对每条评论信息进行词汇分割后,将异常字符及停用词过滤,计算在一个主题中词汇的概率分布以及词汇的映射表,并将词汇的概率分布进行倒序排序,以获取关键词。
进一步的,所述相似度计算模块具体包括,
价值观词汇映射单元,用于将价值观列表Lt中的每个价值观词汇Vi (t)∈Lt,通过Word2Vec模型将词汇Vi (t)映射为长度为N的词向量i=1,2,...,n;
关键词映射单元,用于将关键词列表中的每个价值观词汇Kj∈W,通过Word2Vec模型将词汇Kj映射为长度为N的词向量Bj,j=1,2,...,m;
词汇相似度计算单元,用于通过余弦相似度公式:计算和Bj的相似度
相似度矩阵构建单元,用于根据和Bj的相似度构建价值观列表Lt和关键词列表W的相似度矩阵M(t),矩阵形状为n×m,其中,
进一步的,所述价值观分数计算模块具体包括,
价值观概率计算单元,用于利用朴素贝叶斯算法:
计算得到每个类别的价值观的概率值,其中W为关键词列表,Kj∈W为提取的关键词,j=1,2,...,m,Lt为价值观列表;
价值观分数值计算单元,用于对应将每个类别的价值观的概率值缩放至固定范围值,得到每个类别的价值观的分数值;
价值观分数排序单元,用于将价值观分数值进行倒序排序,得到每个类别价值观的排名情况。
本发明的技术效果在于:本发明采用了一种词嵌入Word2Vec算法,将词汇转化为带有语义特征的向量,解决了词汇间相似度的衡量问题;其次,本发明基于朴素贝叶斯算法,构建了从应用程序到价值观类别之间的映射关系,最终将结果量化而直观的呈现出来。
附图说明
下面结合附图详述本发明的具体结构。
图1为本发明一具体实施例的应用程序的价值观计算方法流程图;
图2为本发明一具体实施例的应用程序的价值观计算装置模块图。
具体实施方式
为详细说明本发明的技术内容、构造特征、所实现目的及效果,以下结合实施方式并配合附图详予说明。
如图1所示,本发明的一具体实施例为:一种应用程序的价值观计算方法,包括以下步骤,
S10、从应用程序网站中获取应用程序的描述信息和用户的评论信息;
本步骤中,通过爬虫工具抓取应用程序的描述信息和用户的评论信息;以“小米运动”这款APP为例,其包名为“com.xiaomi.hm.health”,描述和评论信息均为从网络获取的真实有效数据;APP的描述为一段长文本信息,部分内容如下所示:“小米运动为你提供精准的运动记录,丰富的健身训练视频,详细的睡眠及运动分析。激励你爱上运动,享受积极健康的生活方式,迎接更加美好的自己。连接多种智能设备,支持小米手环、米动手表青春版......”;
S20、通过关键词提取算法,分别从描述信息和评论信息中提取关键词;
本步骤中,将关键词数量设置为10,针对描述信息的关键词提取,使用TextRank算法提取其中的关键词结果为:[′运动′,′睡眠′,′身体′,′秤′,′贴身′,′科学′,′体脂′,′支持′,′记录′,′智能′];
针对评论信息关键词的提取,APP的评论约1580条,均为不定长度的短文本信息,部分内容如下所示:
[′更新的功能好用,有时候手环......′,
′小米运动的软件好!......′,
′非常准确,很好,值得购买......′,
′运动数据不错和手环一起用效果很好,......′,
将主题数目设置为1,关键词数量设置为10,使用LDA主题模型提取其中的关键词结果为:
[′赞赞′,′连不上′,′运动′,′记录′,′睡眠′,′不上′,′好好′,′同步′,′显示′,′绑定′];
S30、使用词嵌入Word2vec模型,分别将关键词及预设的价值观词汇转化为带有语义特征的词向量,再通过余弦相似度计算关键词与价值观词汇之间的相似度,构建关键词和价值观词汇的相似度矩阵;
本步骤中,中定义了17大价值观类别,每种类别由若干个词汇组成,如表1所示。
表1:价值观类别和词汇表。
通过Word2Vec模型将所有价值观词汇和从应用程序提取的关键词转化为长度为256的词向量,并计算词汇之间的余弦相似度,例如,关键词′运动′和价值观′活力′之间的余弦相似度列表为:
[(′活力*运动′:0.27940),(′健康*运动′:0.28155),(′运动*运动′:1.00000),(′睡眠*运动′:0.41467),(′活跃*运动′:0.28404),(′积极*运动′:0.12958),(′生动*运动′:0.07698),(′记录*运动′:0.07698),(′精神*运动′:0.31328),(′户外*运动′:0.27950)];
依次计算所有关键词与价值观类别间的余弦相似度,构成相似度矩阵,其中,每一种价值观对应了一个相似度矩阵。
S40、根据关键词和价值观词汇的相似度矩阵,通过朴素贝叶斯算法计算出应用程序的价值观的概率,并将应用程序的价值观的概率缩放为价值观分数。
本步骤中,基于朴素贝叶斯公式和价值观矩阵,计算“小米运动”APP在各个价值观类别上的得分,并将分数缩放至[0,100]固定范围内,最后倒序排序得到的示例结果如下所示:
[(′服务′,100.00),(′激情′,99.94),(′活力′,95.00),(′追求′,93.97),(′科技′,73.83),(′定制化′,71.22),(′自然′,70.94),(′质量′,68.47),(′古典′,66.53),(′效率′,64.06),(′刺激′,59.13),(′安逸′,47.62),(′自由′,45.78),(′亲族′,32.66),(′简约′,16.78),(′新潮′,16.78),(′高尚′,0.01)]。
本具体实施例,通过获取应用程序的描述信息,能够获取到应用程序的使用介绍;获取用户对应用程序的评价信息,能够获取用户的使用体验;通过使用词嵌入Word2Vec算法,将词汇转化为带有语义特征的向量,以此衡量出关键词与价值观词汇之间的相似度,再基于朴素贝叶斯算法,构建了从APP到价值观类别之间的映射关系,得到价值观值,将结果量化直观呈现;开发人员能够参考价值观数据,从而更精准地设计出符合对应受众的应用程序;同时,对软件营销人员来说,能够根据计算出来的应用程序价值观分数,直观知道一个应用程序用户的年龄,受教育程度等的分布情况,能够实现更好的精准营销。
进一步的,所述步骤S20具体包括,
使用TextRank算法,将描述信息中的文本分割成句子后进行词性标注,并构建候选关键词图,利用投票机制对关键词图内的候选关键词进行排序,以获取关键词;
使用文档主题生成模型LDA,对每条评论信息进行词汇分割后,将异常字符及停用词过滤,计算在一个主题中词汇的概率分布以及词汇的映射表,并将词汇的概率分布进行倒序排序,以获取关键词。
针对描述信息和用户评论信息,根据这两种不同的信息特点,采用不同的算法模型来提取关键词,能够最大限度提高关键词提取的准确性。
进一步的,所述使用TextRank算法,将描述信息中的文本分割成句子后进行词性标注,并构建候选关键词图,利用投票机制对关键词图内的候选关键词进行排序,以获取关键词;具体包括以下具体步骤,
S21、将描述信息中的文本按照完整句子进行分割;
S22、对每个句子进行分词和词性标注,保留指定词性的词汇,作为候选关键词;
S23、构建关键词图G=(V,E),其中,V为节点集,由候选关键词组成;E是边集合,是V×V的子集,采用共现关系构造任两节点之间的边;
S24、根据公式:迭代传播个节点的权重,直至收敛;其中,Vi为集合点,wji为图中任两点Vi,Vj之间边的权重,d为阻尼系数,取值范围为0到1;对于一个给定的点Vi,In(Vi)为指向该点的点集合,Out(Vi)为点Vi指向的点集合;
S25、对节点的权重进行倒序排序,从而得到若干个关键词。
进一步的,使用文档主题生成模型LDA,对每条评论信息进行词汇分割后,将异常字符及停用词过滤,计算在一个主题中词汇的概率分布以及词汇的映射表,并将词汇的概率分布进行倒序排序,以获取关键词,具体包括,
S26、对每条评论信息进行词汇分割,并过滤异常字符及停用词,得到候选关键词;
S27、将文档主题生成模型LDA的主题数量K设置为1,设置超参数α和β,其中,α表示主题分布θ的先验分布参数,β表示词分布Φ的先验分布参数;
S28、基于LDA模型,计算得出主题K下的词概率分布Φ以及词汇的id映射表;
S29、将主题K下的词概率分布Φ进行倒序排序,从而得到若干个关键词。
进一步的,所述步骤S30具体包括,
S31、将价值观列表Lt中的每个价值观词汇Vi (t)∈Lt,通过Word2Vec模型将词汇Vi (t)映射为长度为N的词向量i=1,2,...,n;
S32、将关键词列表中的每个价值观词汇Kj∈W,通过Word2Vec模型将词汇Kj映射为长度为N的词向量Bj,j=1,2,...,m;
S33、通过余弦相似度公式:计算和Bj的相似度
S34、根据和Bj的相似度构建价值观列表Lt和关键词列表W的相似度矩阵M(t),矩阵形状为n×m,其中,
上述词汇相似度的计算中,设价值观表示为J=[L1,L2,...,Ls],其中Lt∈J是某种价值观类别,由n个词汇构成,设提取的APP关键词列表为W=[K1,K2,...,Km],由m个词汇构成。以某种价值观Lt为例,需要计算词汇列表W与Lt之间的相似度,但是由于两者之间共同词汇较少,直接计算方法不可行。因此使用一种词嵌入Word2vec模型,将词汇转化为带有语义特征的词向量,每个词汇通过Word2Vec模型均可映射为一组固定长度的向量空间,进而计算相似度
进一步的,所述步骤S40具体包括,
S41、利用朴素贝叶斯算法:
计算得到每个类别的价值观的概率值,其中W为关键词列表,Kj∈W为提取的关键词,j=1,2,...,m,Lt为价值观列表;
本步骤中,根据贝叶斯公式,APP属于某种价值观Lt的概率可表示为:
其中,W为APP关键词列表,Kj∈W为提取的关键词,j=1,2,...,m。
根据价值观Lt和APP的相似度矩阵M(t),可计算:
S42、对应将每个类别的价值观的概率值缩放至固定范围值,得到每个类别的价值观的分数值;
S43、将价值观分数值进行倒序排序,得到每个类别价值观的排名情况。
对于每个价值观Lt,t=1,2,...,s,分别计算P(Lt|W)的值,并将分数缩放至一个固定范围,如[0,100],最后进行倒序排序,即可得到最终的价值观分数与排名。
上述应用程序所属价值观概率计算中,基于价值观Lt和APP的相似度矩阵M(t),本发明借鉴朴素贝叶斯算法,计算得出APP属于价值观Lt的概率。朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,它假定给定目标值时属性之间相互条件独立,极大地简化了贝叶斯方法的复杂性。
如图2所示,本发明的另一具体实施例为:一种应用程序的价值观计算装置,用于执行上述的应用程序的价值观计算方法,包括,
信息获取模块10,用于从应用程序网站中获取应用程序的描述信息和用户的评论信息;
关键词提取模块20,用于通过关键词提取算法,分别从描述信息和评论信息中提取关键词;
相似度计算模块30,用于使用词嵌入Word2vec模型,分别将关键词及预设的价值观词汇转化为带有语义特征的词向量,再通过余弦相似度计算关键词与价值观词汇之间的相似度,构建关键词和价值观词汇的相似度矩阵;
价值观分数计算模块40,用于根据关键词和价值观词汇的相似度矩阵,通过朴素贝叶斯算法计算出应用程序的价值观的概率,并将应用程序的价值观的概率缩放为价值观分数。
在一具体实施例中,所述关键词提取模块包括,
描述信息的关键词提取模块,用于使用TextRank算法,将描述信息中的文本分割成句子后进行词性标注,并构建候选关键词图,利用投票机制对关键词图内的候选关键词进行排序,以获取关键词;
评论信息的关键词提取模块,用于使用文档主题生成模型LDA,对每条评论信息进行词汇分割后,将异常字符及停用词过滤,计算在一个主题中词汇的概率分布以及词汇的映射表,并将词汇的概率分布进行倒序排序,以获取关键词。
进一步的,所述描述信息的关键词提取模块具体包括,
文本分割单元,用于将描述信息中的文本按照完整句子进行分割;
候选关键词筛选单元,用于对每个句子进行分词和词性标注,保留指定词性的词汇,作为候选关键词;
关键词图构建单元,用于构建关键词图G=(V,E),其中,V为节点集,由候选关键词组成;E是边集合,是V×V的子集,采用共现关系构造任两节点之间的边;
权重计算单元,用于根据公式:迭代传播个节点的权重,直至收敛;其中,Vi为集合点,wji为图中任两点Vi,Vj之间边的权重,d为阻尼系数,取值范围为0到1;对于一个给定的点Vi,In(Vi)为指向该点的点集合,Out(Vi)为点Vi指向的点集合;
权重排序单元,用于对节点的权重进行倒序排序,从而得到若干个关键词。
进一步的,所述评论信息的关键词提取模块具体包括,
词汇分割单元,用于对每条评论信息进行词汇分割,并过滤异常字符及停用词,得到候选关键词;
模型参数设置单元,用于将文档主题生成模型LDA的主题数量K设置为1,设置超参数α和β,其中,α表示主题分布θ的先验分布参数,β表示词分布Φ的先验分布参数;
词概率计算单元,用于基于LDA模型,计算得出主题K下的词概率分布Φ以及词汇的id映射表;
排序单元,用于将主题K下的词概率分布Φ进行倒序排序,从而得到若干个关键词。
进一步的,所述相似度计算模块具体包括,
价值观词汇映射单元,用于将价值观列表Lt中的每个价值观词汇Vi (t)∈Lt,通过Word2Vec模型将词汇Vi (t)映射为长度为N的词向量i=1,2,...,n;
关键词映射单元,用于将关键词列表中的每个价值观词汇Kj∈W,通过Word2Vec模型将词汇Kj映射为长度为N的词向量Bj,j=1,2,...,m;
词汇相似度计算单元,用于通过余弦相似度公式:计算和Bj的相似度
相似度矩阵构建单元,用于根据和Bj的相似度构建价值观列表Lt和关键词列表W的相似度矩阵M(t),矩阵形状为n×m,其中,
进一步的,所述价值观分数计算模块具体包括,
价值观概率计算单元,用于利用朴素贝叶斯算法:
计算得到每个类别的价值观的概率值,其中W为关键词列表,Kj∈W为提取的关键词,j=1,2,...,m,Lt为价值观列表;
价值观分数值计算单元,用于对应将每个类别的价值观的概率值缩放至固定范围值,得到每个类别的价值观的分数值;
价值观分数排序单元,用于将价值观分数值进行倒序排序,得到每个类别价值观的排名情况。
本发明的装置实施例与方法实施例相对应,可以理解的装置实施例的内容也包含了方法实施例的内容,因此不再对此进行赘述;可以理解的装置实施例中的模块为软件程序模块,用于执行上述方法。
此处第一、第二......只代表其名称的区分,不代表它们的重要程度和位置有什么不同。
此处,上、下、左、右、前、后只代表其相对位置而不表示其绝对位置。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种应用程序的价值观计算方法,其特征在于:包括以下步骤,
S10、从应用程序网站中获取应用程序的描述信息和用户的评论信息;
S20、通过关键词提取算法,分别从描述信息和评论信息中提取关键词;
S30、使用词嵌入Word2vec模型,分别将关键词及预设的价值观词汇转化为带有语义特征的词向量,再通过余弦相似度计算关键词与价值观词汇之间的相似度,构建关键词和价值观词汇的相似度矩阵;
S40、根据关键词和价值观词汇的相似度矩阵,通过朴素贝叶斯算法计算出应用程序的价值观的概率,并将应用程序的价值观的概率缩放为价值观分数。
2.如权利要求1所述的应用程序的价值观计算方法,其特征在于:所述步骤S20具体包括,
使用TextRank算法,将描述信息中的文本分割成句子后进行词性标注,并构建候选关键词图,利用投票机制对关键词图内的候选关键词进行排序,以获取关键词;
使用文档主题生成模型LDA,对每条评论信息进行词汇分割后,将异常字符及停用词过滤,计算在一个主题中词汇的概率分布以及词汇的映射表,并将词汇的概率分布进行倒序排序,以获取关键词。
3.如权利要求2所述的应用程序的价值观计算方法,其特征在于:所述使用TextRank算法,将描述信息中的文本分割成句子后进行词性标注,并构建候选关键词图,利用投票机制对关键词图内的候选关键词进行排序,以获取关键词;具体包括以下具体步骤,
S21、将描述信息中的文本按照完整句子进行分割;
S22、对每个句子进行分词和词性标注,保留指定词性的词汇,作为候选关键词;
S23、构建关键词图G=(V,E),其中,V为节点集,由候选关键词组成;E是边集合,是V×V的子集,采用共现关系构造任两节点之间的边;
S24、根据公式:迭代传播个节点的权重,直至收敛;其中,Vi为集合点,wji为图中任两点Vi,Vj之间边的权重,d为阻尼系数,取值范围为0到1;对于一个给定的点Vi,In(Vi)为指向该点的点集合,Out(Vi)为点Vi指向的点集合;
S25、对节点的权重进行倒序排序,从而得到若干个关键词。
4.如权利要求2所述的应用程序的价值观计算方法,其特征在于:使用文档主题生成模型LDA,对每条评论信息进行词汇分割后,将异常字符及停用词过滤,计算在一个主题中词汇的概率分布以及词汇的映射表,并将词汇的概率分布进行倒序排序,以获取关键词,具体包括,
S26、对每条评论信息进行词汇分割,并过滤异常字符及停用词,得到候选关键词;
S27、将文档主题生成模型LDA的主题数量K设置为1,设置超参数α和β,其中,α表示主题分布θ的先验分布参数,β表示词分布Φ的先验分布参数;
S28、基于LDA模型,计算得出主题K下的词概率分布Φ以及词汇的id映射表;
S29、将主题K下的词概率分布Φ进行倒序排序,从而得到若干个关键词。
5.如权利要求1所述的应用程序的价值观计算方法,其特征在于:所述步骤S30具体包括,
S31、将价值观列表Lt中的每个价值观词汇Vi (t)∈Lt,通过Word2Vec模型将词汇Vi (t)映射为长度为N的词向量
S32、将关键词列表中的每个价值观词汇Kj∈W,通过Word2Vec模型将词汇Kj映射为长度为N的词向量Bj,j=1,2,...,m;
S33、通过余弦相似度公式:计算和Bj的相似度
S34、根据和Bj的相似度构建价值观列表Lt和关键词列表W的相似度矩阵M(t),矩阵形状为n×m,其中,
6.如权利要求5所述的应用程序的价值观计算方法,其特征在于:所述步骤S40具体包括,
S41、利用朴素贝叶斯算法:
计算得到每个类别的价值观的概率值,其中W为关键词列表,Kj∈W为提取的关键词,j=1,2,...,m,Lt为价值观列表;
S42、对应将每个类别的价值观的概率值缩放至固定范围值,得到每个类别的价值观的分数值;
S43、将价值观分数值进行倒序排序,得到每个类别价值观的排名情况。
7.一种应用程序的价值观计算装置,其特征在于:包括,
信息获取模块,用于从应用程序网站中获取应用程序的描述信息和用户的评论信息;
关键词提取模块,用于通过关键词提取算法,分别从描述信息和评论信息中提取关键词;
相似度计算模块,用于使用词嵌入Word2vec模型,分别将关键词及预设的价值观词汇转化为带有语义特征的词向量,再通过余弦相似度计算关键词与价值观词汇之间的相似度,构建关键词和价值观词汇的相似度矩阵;
价值观分数计算模块,用于根据关键词和价值观词汇的相似度矩阵,通过朴素贝叶斯算法计算出应用程序的价值观的概率,并将应用程序的价值观的概率缩放为价值观分数。
8.如权利要求7所述的应用程序的价值观计算装置,其特征在于:所述关键词提取模块包括,
描述信息的关键词提取模块,用于使用TextRank算法,将描述信息中的文本分割成句子后进行词性标注,并构建候选关键词图,利用投票机制对关键词图内的候选关键词进行排序,以获取关键词;
评论信息的关键词提取模块,用于使用文档主题生成模型LDA,对每条评论信息进行词汇分割后,将异常字符及停用词过滤,计算在一个主题中词汇的概率分布以及词汇的映射表,并将词汇的概率分布进行倒序排序,以获取关键词。
9.如权利要求7所述的应用程序的价值观计算装置,其特征在于:所述相似度计算模块具体包括,
价值观词汇映射单元,用于将价值观列表Lt中的每个价值观词汇Vi (t)∈Lt,通过Word2Vec模型将词汇Vi (t)映射为长度为N的词向量
关键词映射单元,用于将关键词列表中的每个价值观词汇Kj∈W,通过Word2Vec模型将词汇Kj映射为长度为N的词向量Bj,j=1,2,...,m;
词汇相似度计算单元,用于通过余弦相似度公式:计算和Bj的相似度
相似度矩阵构建单元,用于根据和Bj的相似度构建价值观列表Lt和关键词列表W的相似度矩阵M(t),矩阵形状为n×m,其中,
10.如权利要求9所述的应用程序的价值观计算装置,其特征在于:所述价值观分数计算模块具体包括,
价值观概率计算单元,用于利用朴素贝叶斯算法:
计算得到每个类别的价值观的概率值,其中W为关键词列表,Kj∈W为提取的关键词,j=1,2,...,m,Lt为价值观列表;
价值观分数值计算单元,用于对应将每个类别的价值观的概率值缩放至固定范围值,得到每个类别的价值观的分数值;
价值观分数排序单元,用于将价值观分数值进行倒序排序,得到每个类别价值观的排名情况。
CN201910854317.4A 2019-09-10 2019-09-10 应用程序的价值观计算方法及装置 Active CN110489758B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910854317.4A CN110489758B (zh) 2019-09-10 2019-09-10 应用程序的价值观计算方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910854317.4A CN110489758B (zh) 2019-09-10 2019-09-10 应用程序的价值观计算方法及装置

Publications (2)

Publication Number Publication Date
CN110489758A true CN110489758A (zh) 2019-11-22
CN110489758B CN110489758B (zh) 2023-04-18

Family

ID=68557219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910854317.4A Active CN110489758B (zh) 2019-09-10 2019-09-10 应用程序的价值观计算方法及装置

Country Status (1)

Country Link
CN (1) CN110489758B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610605A (zh) * 2021-08-10 2021-11-05 深圳新动信息技术有限公司 反向针对用户推荐感兴趣的反向被动搜索的方法及系统
CN115618085A (zh) * 2022-10-21 2023-01-17 华信咨询设计研究院有限公司 一种基于动态标签的接口数据暴露探测方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN106250526A (zh) * 2016-08-05 2016-12-21 浪潮电子信息产业股份有限公司 一种基于内容及用户行为的文本类推荐方法和装置
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device
CN106970910A (zh) * 2017-03-31 2017-07-21 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN107608999A (zh) * 2017-07-17 2018-01-19 南京邮电大学 一种适用于自动问答系统的问句分类方法
CN107657284A (zh) * 2017-10-11 2018-02-02 宁波爱信诺航天信息有限公司 一种基于语义相似性扩展的商品名称分类方法及系统
CN108717459A (zh) * 2018-05-24 2018-10-30 哈尔滨工程大学 一种面向用户评论信息的移动应用缺陷定位方法
CN108830108A (zh) * 2018-06-04 2018-11-16 成都知道创宇信息技术有限公司 一种基于朴素贝叶斯算法的网页内容篡改检测方法
CN108920466A (zh) * 2018-07-27 2018-11-30 杭州电子科技大学 一种基于word2vec和TextRank的科技文本关键词提取方法
US20190005121A1 (en) * 2017-06-29 2019-01-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for pushing information
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
CN109299255A (zh) * 2018-09-12 2019-02-01 东莞数汇大数据有限公司 基于朴素贝叶斯的案件文本分类方法、系统和存储介质
WO2019041521A1 (zh) * 2017-08-29 2019-03-07 平安科技(深圳)有限公司 用户关键词提取装置、方法及计算机可读存储介质
CN109766544A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于lda和词向量的文档关键词抽取方法和装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device
CN106250526A (zh) * 2016-08-05 2016-12-21 浪潮电子信息产业股份有限公司 一种基于内容及用户行为的文本类推荐方法和装置
CN106970910A (zh) * 2017-03-31 2017-07-21 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
US20190005121A1 (en) * 2017-06-29 2019-01-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for pushing information
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
CN107608999A (zh) * 2017-07-17 2018-01-19 南京邮电大学 一种适用于自动问答系统的问句分类方法
WO2019041521A1 (zh) * 2017-08-29 2019-03-07 平安科技(深圳)有限公司 用户关键词提取装置、方法及计算机可读存储介质
CN107657284A (zh) * 2017-10-11 2018-02-02 宁波爱信诺航天信息有限公司 一种基于语义相似性扩展的商品名称分类方法及系统
CN108717459A (zh) * 2018-05-24 2018-10-30 哈尔滨工程大学 一种面向用户评论信息的移动应用缺陷定位方法
CN108830108A (zh) * 2018-06-04 2018-11-16 成都知道创宇信息技术有限公司 一种基于朴素贝叶斯算法的网页内容篡改检测方法
CN108920466A (zh) * 2018-07-27 2018-11-30 杭州电子科技大学 一种基于word2vec和TextRank的科技文本关键词提取方法
CN109299255A (zh) * 2018-09-12 2019-02-01 东莞数汇大数据有限公司 基于朴素贝叶斯的案件文本分类方法、系统和存储介质
CN109766544A (zh) * 2018-12-24 2019-05-17 中国科学院合肥物质科学研究院 基于lda和词向量的文档关键词抽取方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610605A (zh) * 2021-08-10 2021-11-05 深圳新动信息技术有限公司 反向针对用户推荐感兴趣的反向被动搜索的方法及系统
CN115618085A (zh) * 2022-10-21 2023-01-17 华信咨询设计研究院有限公司 一种基于动态标签的接口数据暴露探测方法
CN115618085B (zh) * 2022-10-21 2024-04-05 华信咨询设计研究院有限公司 一种基于动态标签的接口数据暴露探测方法

Also Published As

Publication number Publication date
CN110489758B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111897967A (zh) 一种基于知识图谱和社交媒体的医疗问诊推荐方法
Xian et al. Zero-shot learning—a comprehensive evaluation of the good, the bad and the ugly
Dronkers et al. Explaining access to citizenship in Europe: How citizenship policies affect naturalization rates
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
US20070196804A1 (en) Question-answering system, question-answering method, and question-answering program
CN103869998B (zh) 一种对输入法所产生的候选项进行排序的方法及装置
CN112667799B (zh) 一种基于语言模型和实体匹配的医疗问答系统构建方法
CN110348919A (zh) 物品推荐方法、装置和计算机可读存储介质
CN111524578B (zh) 一种基于电子心理沙盘的心理评估装置、方法及系统
Peng et al. Human–machine dialogue modelling with the fusion of word-and sentence-level emotions
Johnson et al. Measuring the frequency occurrence of handwriting and handprinting characteristics
CN110489758A (zh) 应用程序的价值观计算方法及装置
CN116738066B (zh) 乡村旅游服务推荐方法、装置、电子设备及存储介质
Cui et al. KNET: A general framework for learning word embedding using morphological knowledge
Thomas et al. Reading English-language haiku: processes of meaning construction revealed by eye movements
CN109979568A (zh) 心理健康预警方法、服务器、家属终端与系统
CN109086794A (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
DeLong et al. Offline dominance and zeugmatic similarity normings of variably ambiguous words assessed against a neural language model (BERT)
Harrison et al. Zero-shot recommendations with pre-trained large language models for multimodal nudging
CN109979592A (zh) 心理健康预警方法、用户终端、服务器与系统
Larsen References and citations in automatic indexing and retrieval systems-experiments with the boomerang effect
An et al. Mental health detection from speech signal: A convolution neural networks approach
Hadiana Analysis learners’ preference in e-learning system using Kansei approach
CN110060749A (zh) 基于sev-sdg-cnn的电子病历智能诊断方法
Arunkumar et al. Real-time visual feedback for educative benchmark creation: A human-and-metric-in-the-loop workflow

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant