CN107451116A

CN107451116A - 一种移动应用内生大数据统计分析方法

Info

Publication number: CN107451116A
Application number: CN201710575488.4A
Authority: CN
Inventors: 任伟; 张耀成
Original assignee: China University of Geosciences
Current assignee: Guizhou Zhaoyang Supply Chain Service Co ltd
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2017-12-08
Anticipated expiration: 2037-07-14
Also published as: CN107451116B

Abstract

本发明公开了一种移动应用内生大数据统计分析方法，其特征在于，包括以下步骤：获取移动应用内生评论数据，通过自然语言处理算法对评论数据进行句法分析和语法分析，并根据分析结果对评论数据进行分割和重组，转换为结构化的评论数据；进行分词处理，查询分词在词典中的类型及不同类型对应的值，计算评论数据的情感值；统计一段时间某个热点信息的评论数据的情感值和评论人数，根据评论数据的评论人数和情感值分别计算变化曲线，根据曲线的斜率变化程度判断热点信息的评论人数和情感值之间的关联程度。本发明能快速高效的处理大量的来自移动应用的数据，并对非结构化的数据进行结构化化处理，得到的统计结果对应用开发人员具有良好的指导意义。

Description

一种移动应用内生大数据统计分析方法

技术领域

本发明涉及移动应用数据分析技术领域，尤其涉及一种移动应用内生大数据统计分析方法。

背景技术

当前随着移动互联网的快速发展，基于移动联网设备的移动应用规模呈现逐渐上升趋势，于此同时产生自移动应用的移动应用内生数据的数据量也快速增长。但是目前少有人对这些数据进行分析处理。我们在这里提出了一种用于针对移动应用内生评论数据的统计分析方法，可以有效的处理与分析来自移动应用的内生数据。

已知的产品方案和公开专利有：

1、一种中文评论分析方法及其系统；

该方法如下：有用户向网站提交评论信息，网站前台向控制中心发送分析请求，控制中心将其传递至分析部件，分析部件对其进行分主题分析，分词服务器进行分词和词性标注，分析部件依次进行句法分析和情感分析，数据中心将分析结论保存至用户评论表中。控制中心能够直接通过主题分析来排除不合格语料，而且分析部件依次对用户评论进行句法分析和情感倾向分析，有效地得出中文评论的情感倾向结论，提高分析系统的准确度，管理员通过浏览倾向性为正的评论，以确定评论是否符合要求。

2、一种有监督学习的产品评论分析方法及系统；

该方法如下：首先通过机器学习训练分类器依次对收集到的用户评论进行产品特征方面的分类；然后对经训练分类器分类过后的评论文本进行情感分析；最后通过综合统计大量评论文本所涉及的产品特征以及对应的情感倾向，总结出用户对于该产品各个特征的量化评价。

3、一种基于实体及特征的评论分析方法；

该方法如下：通过利用自然语言处理相关手段，对评论文本进行处理，得到评论文本的实体树及相关实体的特征。进一步利用评论文本的实体及特征对文本进行信息提取。对于舆情分析，关系提取，倾向性分析等等其他评论分析工作有着推动作用。

4、基于语料的情感词典构建方法；

该方法如下：通过预先获得一部分已知情感倾向的形容词，包括积极的和消极的两种，再利用转折词和否定词，提取并分析未知情感倾向的形容词，不断扩展种子词库，最后做出判断。该方法不需要人工干预，且属于无监督的学习方法，能大大提高工作效率。该方法构造的情感词典，可以用于评论分析，能快速地得到其情感倾向，达到快速分析的目的。

5、一种基于词向量的评论分析方法及系统；

该方法如下：收集用户评论，形成评论语料库；将评论语料库的每条评论转化为维度相同的句向量；设置若干评论类型，根据人工输入的标注为每条评论标注其所属的评论类型；以所述句向量为输入，每条句向量对应的评论类型为输出训练分类器；获取一条新的评论，并将其转化为句向量；将新评论对应的句向量输入到所述分类器中，得到新评论的评论类型。

目前针对评论的统计分析方法有很多种，但方法多是基于单一的机器学习或单一的基于字典的方案，其处理结果具有一种偏差性。针对网络上的评论信息，现在多是针对基于微博的数据进行文本分析以求获取对网络舆论的监控，但是却忽略了在移动互联网时代由移动APP所带来的大量的文本数据信息在网络传播中所起到的巨大作用。

发明内容

本发明要解决的技术问题在于针对现有技术中的统计方法具有一定偏差性，且忽略了在移动互联网时代由移动APP所带来的大量的文本数据信息在网络传播中所起到的巨大作用的缺陷，提供一种移动应用内生大数据统计分析方法。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种移动应用内生大数据统计分析方法，包括以下步骤：

获取移动应用内生评论数据，通过自然语言处理算法对评论数据进行句法分析和语法分析，并根据分析结果对评论数据进行分割和重组，实现非结构化的评论数据转换为结构化的评论数据；

对结构化的评论数据进行分词处理，查询各个分词在词典中的类型及不同类型对应的值，进而计算得到该评论数据的情感值；

统计一段时间某个热点信息的评论数据的情感值和评论人数，根据评论数据的评论人数和情感值分别得到相同时间段内的变化曲线，根据两条变化曲线在同一时刻内的斜率变化程度判断热点信息的评论人数和情感值之间的关联程度。

进一步地，本发明的方法还包括提取评论数据中的新词汇的方法，使用基于词向量的算法计算新词汇的类别和值，并将新词汇加入到现有的词典中；

进一步地，本发明的方法中将非结构化的评论数据转换为结构化的评论数据的方法具体为：

对获取到的评论数据进行分段处理，按照中英文的句号、分号、问号和感叹号将评论数据分割为多段语义内容独立的句子；

对每段句子进行句法分析和语法分析，根据语句之间的依存关系重新提取并组成出新的语句结构；

将新的语句结构进行重组，得到结构化的评论数据；

比较结构化的评论数据与原始的评论数据之间语义上的差距，修复句法分析和语法分析的相关参数；

对所有评论数据循环以上步骤，实现将所有的非结构化的评论数据转换为结构化的评论数据。

进一步地，本发明的方法中将新词汇加入到现有的情感词词典中进行更新的方法具体为：

获取评论数据中含有新词汇的文本，对文本进行分词处理，形成单一文件；

使用word2vec模型训练形成的文件，得到一个词向量模型；

通过词向量模型计算出新词汇与现有词典中词汇的相似度；

获得新词汇与现有词典中相似度最高的词汇的值W，相似度P，则新词汇的值为W’＝W*P。

进一步地，本发明的计算评论数据情感值的方法具体为：

对结构化的评论数据按照中英文的句号、分号、感叹号和问号进行分割，得到分割后的多个句子；

对每个句子按照中英文的逗号和空格进行分割，得到分割后的多个短语；

对分割后的短语进行分词处理，并标注词性；

分析每个分词在词典中所属的类型，包括情感词、否定词、关联词、程度副词和停用词，并查询每个分词在词典中出现的位置和对应的值；

根据分词的类型和值，计算每个短语的情感值；

根据每个短语的情感值，计算每个句子的情感值；

根据每个句子的情感值，计算评论数据的情感值。

进一步地，本发明的计算短语的情感值的方法具体为：

设置初始情感值score＝0，w＝1；

判断一个词是否是停用词，若是则判断下一个词；

判断一个词是否是否定词，若是则设置w＝w*(-1)；

判断一个词是否是程度副词，若是则设置w＝w*该词的程度值

判断一个词是否是情感词，若是则设置score＝score+w*该词的情感值

判断一个词是否是连词若是则设置score＝score_前+socre_后*该连词的值，score_前为该连词前一个词的情感值，socre_后为该连词后一个词的情感值；

最终得到的score值为该短语的情感值。

进一步地，本发明的计算每个句子的情感值的方法具体为：

其中，score_sentence为句子的情感值，score_{opinionsentence}为短语的情感值，L为短语的数量。

进一步地，本发明的计算评论数据的情感值的方法具体为：

其中，score_paragraph为评价数据的情感值，score_sentence为句子的情感值，L为句子的数量。

进一步地，本发明的方法中判断评论数据与热点信息之间的关联程度的方法具体为：

统计一段时间内两个热点信息的评论数据的情感值，并计算这段时间内每天情感值的方差，均值为这短时间内情感值的均值；

统计这段时间内每天评论的人数数量信息；

计算这段时间内不同天之间评论人数上升或下降趋势的倾斜程度，记为：L_i＝arctan((当天评论人数-前一天评论人数)/1)；

计算这段时间内不同天之间评论情感值方差上升或下降趋势的倾斜程度，记为：S_i＝arctan((当天评论情感值方差-前一天评论情感值方差)/1)；

计算两者之间的欧拉距离：

D越大说明评论情感值与评论人数之间的关联程度越小，D越小说明评论情感值与评论人数之间的关联程度越大。

本发明产生的有益效果是：本发明的移动应用内生大数据统计分析方法，该针对移动应用评论数据数据量大，内容灵活，非结构化等特点，设计了一种用于统计分析移动应用内生评论数据的统计分析方法；可以快速高效的处理大量的来自移动应用的数据，并对非结构化的数据进行结构化化处理，得到的统计结果对应用开发人员具有良好的指导意义。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的非结构化评论数据转化结构化评论数据框架图；

图2是本发明实施例的计算评论情感值流程；

图3是本发明实施例的短语情感值计算流程；

图4是本发明实施例的基于斜率的相关性匹配技术流程；

图5是本发明实施例的基于词向量的新词情感值，程度值计算技术。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例的移动应用内生大数据统计分析方法，包括以下步骤：

该方法还包括提取评论数据中的新词汇的方法，使用基于词向量的算法计算新词汇的类别和值，并将新词汇加入到现有的词典中；

该方法中将非结构化的评论数据转换为结构化的评论数据的方法具体为：

将新的语句结构进行重组，得到结构化的评论数据；

该方法中将新词汇加入到现有的情感词词典中进行更新的方法具体为：

使用word2vec模型训练形成的文件，得到一个词向量模型model；

这里word2vec模型通过统计分词后的词语在不同句子中的位置，推测该词汇有可能具有的词性，含义，情感值等并将其转换为一组向量一遍进行进一步的运算。

词向量模型model中包含有所有经word2vec模型训练后的词汇的向量表示形式，通过model模型可以快速的寻找出一个词汇在模型中的向量表示以及与该词汇最相似的词。

通过词向量模型计算出新词汇与现有词典中词汇的相似度；

计算评论数据情感值的方法具体为：

对分割后的短语进行分词处理，并标注词性；

根据分词的类型和值，计算每个短语的情感值；

根据每个短语的情感值，计算每个句子的情感值；

根据每个句子的情感值，计算评论数据的情感值。

计算短语的情感值的方法具体为：

设置初始情感值score＝0，w＝1；

判断一个词是否是停用词，若是则判断下一个词；

判断一个词是否是否定词，若是则设置w＝w*(-1)；

判断一个词是否是程度副词，若是则设置w＝w*该词的程度值

最终得到的score值为该短语的情感值。

计算每个句子的情感值的方法具体为：

计算评论数据的情感值的方法具体为：

该方法中判断评论数据与热点信息之间的关联程度的方法具体为：

统计这段时间内每天评论的人数数量信息；

计算两者之间的欧拉距离：

在本发明的另一个具体实施例中，该方法包括以下内容：

1、面向非结构化评论数据的结构化处理的自然语言处理技术；

通过分析移动应用中的评论数据可以发现，不用用户的评论内容在文法组织上并不完全符合中文的文法结构。即有事会出现缺少或者重复出现一些文法结构。这在中文语法中是错误的，但是并不影响人们阅读这些评论内容。

在处理评论信息时，第一步就是需要将大部分非结构化的评论信息，转换为可以识别的结构化评论信息，为之后快速识别的评论内容做出铺垫。

在这里，我们使用依存句法分析与语法分析。分别对评论中的各个句子做出分析。之后整理这些分析结果分别形成一个新的句子。这个方法包括：

1)对获得的评论数据进行分段处理，按照中英文的句号，分好，问号，感叹号等将评论数据分割为多个语义内容独立的句子；

2)分别对每段句子进行句法分析与语法分析；

3)按照句法分析与语法分析，按照依存关系重新提取出新的语句组成结构；

4)对评论中所有的句子都按照该方法组合形成新的结构信息；

5)观察新的评论内容与原有评论内容在语义上的差距，修复语句分析与语法分析的相关参数；

6)对所有的评论内容进行1-5的操作；

最后，可以将所有的非结构化的评论数据都转换为结构化的评论数据。

2、基于词向量的新词情感值，程度值计算技术；

现有的情感词典，程度词词典，无法完全覆盖一些网络交流中出现的新的流行的词汇。对于一些新的流行词汇，需要重新分析计算所属的类别。可以通过使用基于词向量的方式计算新增词汇的情感值或者程度值。具体步骤如下：

1)获取最新含有新类型词汇的文本内容，并从电子报刊上获取一般性文本内容；

2)对文本进行分词处理，形成单一文件；

3)使用word2vec模型训练形成的文件，得到一个词向量模型model；

4)通过model模型计算出新增网络词汇与原有词典中词汇的相似度；

5)获得新增词汇与原有词典中相似度最高的词汇的值W，相似度P，则新词汇的值为W’＝W*P；

通过该方法可以将所有新增词汇处理完毕并计算对应的值。

3、面向结构化评论数据的情感分析处理技术；

对经过结构化处理的评论数据，需要对其进行情感分析得到评论内容的情感倾向与程度值。通过分析评论内容情感值的变化规律可以了解到移动应用中哪些部分是用户喜欢的，哪些不是。

具体步骤如下；

1)将结构化评论数据按照中英文的句号，分好，感叹号，问号等进行分割

2)对每个句子中，按照中英文的逗号，空格进行分割

3)对分割后的短语，使用jieba分词处理，并标注词性

4)分析短句中各个分词在已知的情感词词典，否定词词典，关联词词典，程度副词词典，停用词词典中出现的地方以及对应的值

5)计算每个短语的情感值

6)计算每个评论的情感值。

在这里计算每个短语情感值的算法如下：

1)设定score＝0,w＝1；

2)判断一个词是否是停用词，若是则判断下一个词；

3)判断一个词是否是否定词，若是则设置w＝w*-1

4)判断一个词是否是程度副词，若是则设置w＝w*该词的程度值

5)判断一个词是否是情感词，若是则设置score＝score+w*该词的情感值；

6)判断一个词是否是连词若是则设置score＝score_前+socre_后*该连词的值。

在计算完一个短语的情感值之后，就可以计算出一个句子的情感值，与评论的情感值，方法如下：

计算一个句子的情感值；

1)按照中英文的逗号与空格分割句子，并按顺序存储。

2)计算每一个短语的情感值；

3)

4)得到一个句子的情感值。

计算一个评论的情感值：

1)计算每一个句子的情感值；

2)

3)得到一个评论的情感值。

此时，得到一批标注好的评论数据。之后使用基于深度学习方案对该数据进行模型构建得到学习模型。方案如下：

1)将结构化评论数据按照中英文的句号，分好，感叹号，问号等进行分割；

2)对每个句子中，按照中英文的逗号，空格进行分割；

3)对分割后的短语，使用jieba分词处理；

4)输入深度学习模型；

5)观察输出结果，参考经过词典计算后的结果，修改模型参数；

6)继续1-5步直至模型结果稳定且与字典方案计算结果一致；

得到深度模型后，即可使用该模型计算一般性的评论内容，但是需要间隔一段时候后重新训练模型以适应新的网络用语出现。

基于热点信息具有大量人员评论这一事实，提出基于评论变化间的斜率变化为基础的相关性匹配技术。方案如下：

1)统计某月的评论数据情感值数据，并计算该月内每天情感值方差信息，均值为该月情感值均值；

2)统计该月每天评论人数数量信息；

3)计算该月内不同天之间评论人数上升或下降趋势的倾斜程度。记为:L_i＝arctan((当天评论人数-前一天评论人数)/1)；

4)计算该月内不同天之间评论情感值方差上升或下降趋势的倾斜程度。记为:S_i＝arctan((当天评论情感值方差-前一天评论情感值方差)/1)

5)分别得到由3,4两个数据，计算他们的欧拉距离。

6)D越大说明两者之间关系越小，D越小两者之间关系越大。依次判断评论情感值变化规律与评论人数或者热点信息之间的关系。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种移动应用内生大数据统计分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的移动应用内生大数据统计分析方法，其特征在于，该方法还包括提取评论数据中的新词汇的方法，使用基于词向量的算法计算新词汇的类别和值，并将新词汇加入到现有的词典中。

3.根据权利要求1所述的移动应用内生大数据统计分析方法，其特征在于，该方法中将非结构化的评论数据转换为结构化的评论数据的方法具体为：

将新的语句结构进行重组，得到结构化的评论数据；

4.根据权利要求2所述的移动应用内生大数据统计分析方法，其特征在于，该方法中将新词汇加入到现有的情感词词典中进行更新的方法具体为：

使用word2vec模型训练形成的文件，得到一个词向量模型；

通过词向量模型计算出新词汇与现有词典中词汇的相似度；

5.根据权利要求1所述的移动应用内生大数据统计分析方法，其特征在于，计算评论数据情感值的方法具体为：

对分割后的短语进行分词处理，并标注词性；

根据分词的类型和值，计算每个短语的情感值；

根据每个短语的情感值，计算每个句子的情感值；

根据每个句子的情感值，计算评论数据的情感值。

6.根据权利要求5所述的移动应用内生大数据统计分析方法，其特征在于，计算短语的情感值的方法具体为：

设置初始情感值score＝0，w＝1；

判断一个词是否是停用词，若是则判断下一个词；

判断一个词是否是否定词，若是则设置w＝w*(-1)；

判断一个词是否是程度副词，若是则设置w＝w*该词的程度值

最终得到的score值为该短语的情感值。

7.根据权利要求5所述的移动应用内生大数据统计分析方法，其特征在于，计算每个句子的情感值的方法具体为：

8.根据权利要求5所述的移动应用内生大数据统计分析方法，其特征在于，计算评论数据的情感值的方法具体为：

9.根据权利要求1所述的移动应用内生大数据统计分析方法，其特征在于，该方法中判断评论数据与热点信息之间的关联程度的方法具体为：

统计这段时间内每天评论的人数数量信息；

计算两者之间的欧拉距离：