CN110489758A

CN110489758A - 应用程序的价值观计算方法及装置

Info

Publication number: CN110489758A
Application number: CN201910854317.4A
Authority: CN
Inventors: 罗伟东; 洪晶; 陈宇; 郭家豪
Original assignee: Shenzhen Hexun Huagu Information Technology Co Ltd
Current assignee: Shenzhen Hexun Huagu Information Technology Co Ltd
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2019-11-22
Anticipated expiration: 2039-09-10
Also published as: CN110489758B

Abstract

本发明提供了一种应用程序的价值观计算方法及装置，所述方法包括：从应用程序网站中获取应用程序的描述信息和用户的评论信息；通过关键词提取算法，分别从描述信息和评论信息中提取关键词；使用词嵌入Word2vec模型，分别将关键词及预设的价值观词汇转化为带有语义特征的词向量，再通过余弦相似度计算关键词与价值观词汇之间的相似度，构建关键词和价值观词汇的相似度矩阵；根据关键词和价值观词汇的相似度矩阵，通过朴素贝叶斯算法计算出应用程序的价值观的概率，并将应用程序的价值观的概率缩放为价值观分数。本发明采用了一种词嵌入Word2Vec算法，解决了词汇间相似度的衡量问题；基于朴素贝叶斯算法，得到应用程序与价值观类别之间的映射关系。

Description

应用程序的价值观计算方法及装置

技术领域

本发明涉及一种价值观计算方法及装置，尤其是指一种应用程序的价值观计算方法及装置。

背景技术

目前，关于价值观取向的调研分析基本都是通过线上或线下问卷填写进行信息收集的，但无论是线上还是线下，都存在一定弊端，例如在问卷题目的设计上能否保证针对性、合理性，被调查人员能否高质量的完成填写，问卷的涉及区域是否广泛和回收困难等问题。

发明内容

本发明所要解决的技术问题是：提供一种应用程序的价值观计算方法及装置。

为了解决上述技术问题，本发明采用的技术方案为：一种应用程序的价值观计算方法，包括以下步骤，

S10、从应用程序网站中获取应用程序的描述信息和用户的评论信息；

S20、通过关键词提取算法，分别从描述信息和评论信息中提取关键词；

S30、使用词嵌入Word2vec模型，分别将关键词及预设的价值观词汇转化为带有语义特征的词向量，再通过余弦相似度计算关键词与价值观词汇之间的相似度，构建关键词和价值观词汇的相似度矩阵；

S40、根据关键词和价值观词汇的相似度矩阵，通过朴素贝叶斯算法计算出应用程序的价值观的概率，并将应用程序的价值观的概率缩放为价值观分数。

进一步的，所述步骤S20具体包括，

使用TextRank算法，将描述信息中的文本分割成句子后进行词性标注，并构建候选关键词图,利用投票机制对关键词图内的候选关键词进行排序，以获取关键词；

使用文档主题生成模型LDA，对每条评论信息进行词汇分割后，将异常字符及停用词过滤，计算在一个主题中词汇的概率分布以及词汇的映射表，并将词汇的概率分布进行倒序排序，以获取关键词。

进一步的，所述使用TextRank算法，将描述信息中的文本分割成句子后进行词性标注，并构建候选关键词图，利用投票机制对关键词图内的候选关键词进行排序，以获取关键词；具体包括以下具体步骤，

S21、将描述信息中的文本按照完整句子进行分割；

S22、对每个句子进行分词和词性标注，保留指定词性的词汇，作为候选关键词；

S23、构建关键词图G＝(V，E)，其中，V为节点集，由候选关键词组成；E是边集合，是V×V的子集，采用共现关系构造任两节点之间的边；

S24、根据公式：迭代传播个节点的权重，直至收敛；其中，V_i为集合点，w_ji为图中任两点V_i，V_j之间边的权重，d为阻尼系数，取值范围为0到1；对于一个给定的点V_i，In(V_i)为指向该点的点集合，Out(V_i)为点V_i指向的点集合；

S25、对节点的权重进行倒序排序，从而得到若干个关键词。

进一步的，使用文档主题生成模型LDA，对每条评论信息进行词汇分割后，将异常字符及停用词过滤，计算在一个主题中词汇的概率分布以及词汇的映射表，并将词汇的概率分布进行倒序排序，以获取关键词，具体包括，

S26、对每条评论信息进行词汇分割，并过滤异常字符及停用词，得到候选关键词；

S27、将文档主题生成模型LDA的主题数量K设置为1，设置超参数α和β，其中，α表示主题分布θ的先验分布参数，β表示词分布Φ的先验分布参数；

S28、基于LDA模型，计算得出主题K下的词概率分布Φ以及词汇的id映射表；

S29、将主题K下的词概率分布Φ进行倒序排序，从而得到若干个关键词。

进一步的，所述步骤S30具体包括，

S31、将价值观列表L_t中的每个价值观词汇V_i ^(t)∈L_t，通过Word2Vec模型将词汇V_i ^(t)映射为长度为N的词向量i＝1，2，...，n；

S32、将关键词列表中的每个价值观词汇K_j∈W，通过Word2Vec模型将词汇K_j映射为长度为N的词向量B_j，j＝1，2，...，m；

S33、通过余弦相似度公式：计算和B_j的相似度

S34、根据和B_j的相似度构建价值观列表L_t和关键词列表W的相似度矩阵M^(t)，矩阵形状为n×m，其中，

进一步的，所述步骤S40具体包括，

S41、利用朴素贝叶斯算法：

计算得到每个类别的价值观的概率值，其中W为关键词列表，K_j∈W为提取的关键词，j＝1，2，...，m，L_t为价值观列表；

S42、对应将每个类别的价值观的概率值缩放至固定范围值，得到每个类别的价值观的分数值；

S43、将价值观分数值进行倒序排序，得到每个类别价值观的排名情况。

一种应用程序的价值观计算装置，包括，

信息获取模块，用于从应用程序网站中获取应用程序的描述信息和用户的评论信息；

关键词提取模块，用于通过关键词提取算法，分别从描述信息和评论信息中提取关键词；

相似度计算模块，用于使用词嵌入Word2vec模型，分别将关键词及预设的价值观词汇转化为带有语义特征的词向量，再通过余弦相似度计算关键词与价值观词汇之间的相似度，构建关键词和价值观词汇的相似度矩阵；

价值观分数计算模块，用于根据关键词和价值观词汇的相似度矩阵，通过朴素贝叶斯算法计算出应用程序的价值观的概率，并将应用程序的价值观的概率缩放为价值观分数。

进一步的，所述关键词提取模块包括，

描述信息的关键词提取模块，用于使用TextRank算法，将描述信息中的文本分割成句子后进行词性标注，并构建候选关键词图，利用投票机制对关键词图内的候选关键词进行排序，以获取关键词；

评论信息的关键词提取模块，用于使用文档主题生成模型LDA，对每条评论信息进行词汇分割后，将异常字符及停用词过滤，计算在一个主题中词汇的概率分布以及词汇的映射表，并将词汇的概率分布进行倒序排序，以获取关键词。

进一步的，所述相似度计算模块具体包括，

价值观词汇映射单元，用于将价值观列表L_t中的每个价值观词汇V_i ^(t)∈L_t，通过Word2Vec模型将词汇V_i ^(t)映射为长度为N的词向量i＝1，2，...，n；

关键词映射单元，用于将关键词列表中的每个价值观词汇K_j∈W，通过Word2Vec模型将词汇K_j映射为长度为N的词向量B_j，j＝1，2，...，m；

词汇相似度计算单元，用于通过余弦相似度公式：计算和B_j的相似度

相似度矩阵构建单元，用于根据和B_j的相似度构建价值观列表L_t和关键词列表W的相似度矩阵M^(t)，矩阵形状为n×m，其中，

进一步的，所述价值观分数计算模块具体包括，

价值观概率计算单元，用于利用朴素贝叶斯算法：

价值观分数值计算单元，用于对应将每个类别的价值观的概率值缩放至固定范围值，得到每个类别的价值观的分数值；

价值观分数排序单元，用于将价值观分数值进行倒序排序，得到每个类别价值观的排名情况。

本发明的技术效果在于：本发明采用了一种词嵌入Word2Vec算法，将词汇转化为带有语义特征的向量，解决了词汇间相似度的衡量问题；其次，本发明基于朴素贝叶斯算法，构建了从应用程序到价值观类别之间的映射关系，最终将结果量化而直观的呈现出来。

附图说明

下面结合附图详述本发明的具体结构。

图1为本发明一具体实施例的应用程序的价值观计算方法流程图；

图2为本发明一具体实施例的应用程序的价值观计算装置模块图。

具体实施方式

为详细说明本发明的技术内容、构造特征、所实现目的及效果，以下结合实施方式并配合附图详予说明。

如图1所示，本发明的一具体实施例为：一种应用程序的价值观计算方法，包括以下步骤，

本步骤中，通过爬虫工具抓取应用程序的描述信息和用户的评论信息；以“小米运动”这款APP为例，其包名为“com.xiaomi.hm.health”，描述和评论信息均为从网络获取的真实有效数据；APP的描述为一段长文本信息，部分内容如下所示：“小米运动为你提供精准的运动记录，丰富的健身训练视频，详细的睡眠及运动分析。激励你爱上运动，享受积极健康的生活方式，迎接更加美好的自己。连接多种智能设备，支持小米手环、米动手表青春版......”；

本步骤中，将关键词数量设置为10，针对描述信息的关键词提取，使用TextRank算法提取其中的关键词结果为：[′运动′,′睡眠′,′身体′,′秤′,′贴身′,′科学′,′体脂′,′支持′,′记录′,′智能′]；

针对评论信息关键词的提取，APP的评论约1580条，均为不定长度的短文本信息，部分内容如下所示：

[′更新的功能好用，有时候手环......′,

′小米运动的软件好！......′,

′非常准确，很好，值得购买......′,

′运动数据不错和手环一起用效果很好，......′,

将主题数目设置为1，关键词数量设置为10，使用LDA主题模型提取其中的关键词结果为：

[′赞赞′,′连不上′,′运动′,′记录′,′睡眠′,′不上′,′好好′,′同步′,′显示′,′绑定′]；

本步骤中，中定义了17大价值观类别，每种类别由若干个词汇组成，如表1所示。

表1：价值观类别和词汇表。

通过Word2Vec模型将所有价值观词汇和从应用程序提取的关键词转化为长度为256的词向量，并计算词汇之间的余弦相似度，例如，关键词′运动′和价值观′活力′之间的余弦相似度列表为：

[(′活力*运动′:0.27940),(′健康*运动′:0.28155),(′运动*运动′:1.00000),(′睡眠*运动′:0.41467),(′活跃*运动′:0.28404),(′积极*运动′:0.12958),(′生动*运动′:0.07698),(′记录*运动′:0.07698),(′精神*运动′:0.31328),(′户外*运动′:0.27950)]；

依次计算所有关键词与价值观类别间的余弦相似度，构成相似度矩阵，其中，每一种价值观对应了一个相似度矩阵。

本步骤中，基于朴素贝叶斯公式和价值观矩阵，计算“小米运动”APP在各个价值观类别上的得分，并将分数缩放至[0,100]固定范围内，最后倒序排序得到的示例结果如下所示：

[(′服务′,100.00),(′激情′,99.94),(′活力′,95.00),(′追求′,93.97),(′科技′,73.83),(′定制化′,71.22),(′自然′,70.94),(′质量′,68.47),(′古典′,66.53),(′效率′,64.06),(′刺激′,59.13),(′安逸′,47.62),(′自由′,45.78),(′亲族′,32.66),(′简约′,16.78),(′新潮′,16.78),(′高尚′,0.01)]。

本具体实施例，通过获取应用程序的描述信息，能够获取到应用程序的使用介绍；获取用户对应用程序的评价信息，能够获取用户的使用体验；通过使用词嵌入Word2Vec算法，将词汇转化为带有语义特征的向量，以此衡量出关键词与价值观词汇之间的相似度，再基于朴素贝叶斯算法，构建了从APP到价值观类别之间的映射关系，得到价值观值，将结果量化直观呈现；开发人员能够参考价值观数据，从而更精准地设计出符合对应受众的应用程序；同时，对软件营销人员来说，能够根据计算出来的应用程序价值观分数，直观知道一个应用程序用户的年龄，受教育程度等的分布情况，能够实现更好的精准营销。

进一步的，所述步骤S20具体包括，

使用TextRank算法，将描述信息中的文本分割成句子后进行词性标注，并构建候选关键词图，利用投票机制对关键词图内的候选关键词进行排序，以获取关键词；

针对描述信息和用户评论信息，根据这两种不同的信息特点，采用不同的算法模型来提取关键词，能够最大限度提高关键词提取的准确性。

S21、将描述信息中的文本按照完整句子进行分割；

S25、对节点的权重进行倒序排序，从而得到若干个关键词。

进一步的，所述步骤S30具体包括，

S33、通过余弦相似度公式：计算和B_j的相似度

上述词汇相似度的计算中，设价值观表示为J＝[L₁，L₂，...，L_s]，其中L_t∈J是某种价值观类别，由n个词汇构成，设提取的APP关键词列表为W＝[K₁，K₂，...，K_m]，由m个词汇构成。以某种价值观L_t为例，需要计算词汇列表W与L_t之间的相似度，但是由于两者之间共同词汇较少，直接计算方法不可行。因此使用一种词嵌入Word2vec模型，将词汇转化为带有语义特征的词向量，每个词汇通过Word2Vec模型均可映射为一组固定长度的向量空间，进而计算相似度

进一步的，所述步骤S40具体包括，

S41、利用朴素贝叶斯算法：

本步骤中，根据贝叶斯公式，APP属于某种价值观L_t的概率可表示为：

其中，W为APP关键词列表，K_j∈W为提取的关键词，j＝1，2，...，m。

根据价值观L_t和APP的相似度矩阵M^(t)，可计算：

对于每个价值观L_t，t＝1，2，...，s，分别计算P(L_t|W)的值，并将分数缩放至一个固定范围，如[0，100]，最后进行倒序排序，即可得到最终的价值观分数与排名。

上述应用程序所属价值观概率计算中，基于价值观L_t和APP的相似度矩阵M^(t)，本发明借鉴朴素贝叶斯算法，计算得出APP属于价值观L_t的概率。朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法，它假定给定目标值时属性之间相互条件独立，极大地简化了贝叶斯方法的复杂性。

如图2所示，本发明的另一具体实施例为：一种应用程序的价值观计算装置，用于执行上述的应用程序的价值观计算方法，包括，

信息获取模块10，用于从应用程序网站中获取应用程序的描述信息和用户的评论信息；

关键词提取模块20，用于通过关键词提取算法，分别从描述信息和评论信息中提取关键词；

相似度计算模块30，用于使用词嵌入Word2vec模型，分别将关键词及预设的价值观词汇转化为带有语义特征的词向量，再通过余弦相似度计算关键词与价值观词汇之间的相似度，构建关键词和价值观词汇的相似度矩阵；

价值观分数计算模块40，用于根据关键词和价值观词汇的相似度矩阵，通过朴素贝叶斯算法计算出应用程序的价值观的概率，并将应用程序的价值观的概率缩放为价值观分数。

在一具体实施例中，所述关键词提取模块包括，

进一步的，所述描述信息的关键词提取模块具体包括，

文本分割单元，用于将描述信息中的文本按照完整句子进行分割；

候选关键词筛选单元，用于对每个句子进行分词和词性标注，保留指定词性的词汇，作为候选关键词；

关键词图构建单元，用于构建关键词图G＝(V，E)，其中，V为节点集，由候选关键词组成；E是边集合，是V×V的子集，采用共现关系构造任两节点之间的边；

权重计算单元，用于根据公式：迭代传播个节点的权重，直至收敛；其中，V_i为集合点，w_ji为图中任两点V_i，V_j之间边的权重，d为阻尼系数，取值范围为0到1；对于一个给定的点V_i，In(V_i)为指向该点的点集合，Out(V_i)为点V_i指向的点集合；

权重排序单元，用于对节点的权重进行倒序排序，从而得到若干个关键词。

进一步的，所述评论信息的关键词提取模块具体包括，

词汇分割单元，用于对每条评论信息进行词汇分割，并过滤异常字符及停用词，得到候选关键词；

模型参数设置单元，用于将文档主题生成模型LDA的主题数量K设置为1，设置超参数α和β，其中，α表示主题分布θ的先验分布参数，β表示词分布Φ的先验分布参数；

词概率计算单元，用于基于LDA模型，计算得出主题K下的词概率分布Φ以及词汇的id映射表；

排序单元，用于将主题K下的词概率分布Φ进行倒序排序，从而得到若干个关键词。

进一步的，所述相似度计算模块具体包括，

进一步的，所述价值观分数计算模块具体包括，

价值观概率计算单元，用于利用朴素贝叶斯算法：

本发明的装置实施例与方法实施例相对应，可以理解的装置实施例的内容也包含了方法实施例的内容，因此不再对此进行赘述；可以理解的装置实施例中的模块为软件程序模块，用于执行上述方法。

此处第一、第二......只代表其名称的区分，不代表它们的重要程度和位置有什么不同。

此处，上、下、左、右、前、后只代表其相对位置而不表示其绝对位置。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种应用程序的价值观计算方法，其特征在于：包括以下步骤，

2.如权利要求1所述的应用程序的价值观计算方法，其特征在于：所述步骤S20具体包括，

3.如权利要求2所述的应用程序的价值观计算方法，其特征在于：所述使用TextRank算法，将描述信息中的文本分割成句子后进行词性标注，并构建候选关键词图,利用投票机制对关键词图内的候选关键词进行排序，以获取关键词；具体包括以下具体步骤，

S21、将描述信息中的文本按照完整句子进行分割；

S23、构建关键词图G＝(V,E)，其中，V为节点集，由候选关键词组成；E是边集合，是V×V的子集，采用共现关系构造任两节点之间的边；

S25、对节点的权重进行倒序排序，从而得到若干个关键词。

4.如权利要求2所述的应用程序的价值观计算方法，其特征在于：使用文档主题生成模型LDA，对每条评论信息进行词汇分割后，将异常字符及停用词过滤，计算在一个主题中词汇的概率分布以及词汇的映射表，并将词汇的概率分布进行倒序排序，以获取关键词，具体包括，

5.如权利要求1所述的应用程序的价值观计算方法，其特征在于：所述步骤S30具体包括，

S31、将价值观列表L_t中的每个价值观词汇V_i ^(t)∈L_t，通过Word2Vec模型将词汇V_i ^(t)映射为长度为N的词向量

S33、通过余弦相似度公式：计算和B_j的相似度

6.如权利要求5所述的应用程序的价值观计算方法，其特征在于：所述步骤S40具体包括，

S41、利用朴素贝叶斯算法：

7.一种应用程序的价值观计算装置，其特征在于：包括，

8.如权利要求7所述的应用程序的价值观计算装置，其特征在于：所述关键词提取模块包括，

描述信息的关键词提取模块，用于使用TextRank算法，将描述信息中的文本分割成句子后进行词性标注，并构建候选关键词图,利用投票机制对关键词图内的候选关键词进行排序，以获取关键词；

9.如权利要求7所述的应用程序的价值观计算装置，其特征在于：所述相似度计算模块具体包括，

价值观词汇映射单元，用于将价值观列表L_t中的每个价值观词汇V_i ^(t)∈L_t，通过Word2Vec模型将词汇V_i ^(t)映射为长度为N的词向量

10.如权利要求9所述的应用程序的价值观计算装置，其特征在于：所述价值观分数计算模块具体包括，

价值观概率计算单元，用于利用朴素贝叶斯算法：