CN107169091A

CN107169091A - 一种数据分析方法及装置

Info

Publication number: CN107169091A
Application number: CN201710333980.0A
Authority: CN
Inventors: 宗志远; 卢明樊
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2017-09-15

Abstract

本发明提出一种数据分析方法及装置。一种数据分析方法，包括：获取评论数据；将所述评论数据与报障词典中的评论词进行对比，判断所述评论数据是否是表征产品故障的评论数据；其中，所述报障词典为设定数量的表征产品故障的评论词的集合；如果所述评论数据是表征产品故障的评论数据，则进一步对所述评论数据进行情感分析处理，判断所述评论数据是否是负面评论数据；如果所述评论数据是负面评论数据，则存储所述评论数据。采用上述数据分析方法，能够辨别用户评论数据是否为负面评论数据，从而使得对用户的评论数据进行分析挖掘时，更具有针对性，提高了数据分析效率。

Description

一种数据分析方法及装置

技术领域

本发明涉及数据分析技术领域，尤其涉及一种数据分析方法及装置。

背景技术

对于服务型企业，尤其是互联网企业来说，通过分析用户的评论信息能够及时掌握产品的不足以及了解用户需求。根据用户对产品的评论信息，尤其是用户对产品的负面评论信息对产品进行改进和维护，是提升产品用户体验的最佳途径。

在现有技术中，服务型企业普遍重视对用户评论数据的分析，以便从中发现产品问题。常用的分析方法是：获取用户评论数据，对获取的用户评论数据进行文本挖掘，从中查找得到用户对产品故障的评论信息。在用户对产品故障的评论数据中，有用户对产品故障的正面或中性评论数据，也有用户对产品故障的负面评论数据。其中，对用户对产品故障的负面评论数据进行分析，很容易得到对产品改进有益的信息；相反，对用户的正面或中性评论数据进行分析，很难得到对产品改进有益的信息。而在现有技术中，并没有区分用户评论的属性，对所有的用户评论数据都进行分析，其分析效率较低。

发明内容

基于上述现有技术的缺陷和不足，本发明提出一种数据分析方法及装置，采用该方法及装置，能够辨别用户评论数据是否为负面评论数据，从而使得对用户的评论数据进行分析挖掘时，更具有针对性，提高了数据分析效率。

一种数据分析方法，包括：

获取评论数据；

将所述评论数据与报障词典中的评论词进行对比，判断所述评论数据是否是表征产品故障的评论数据；其中，所述报障词典为设定数量的表征产品故障的评论词的集合；

如果所述评论数据是表征产品故障的评论数据，则进一步对所述评论数据进行情感分析处理，判断所述评论数据是否是负面评论数据；

如果所述评论数据是负面评论数据，则存储所述评论数据。

优选地，所述将所述评论数据与报障词典中的评论词进行对比，判断所述评论数据是否是表征产品故障的评论数据，包括：

对所述评论数据进行分词处理，得到组成所述评论数据的各个分词；

分别将所述组成所述评论数据的各个分词与报障词典中的评论词进行对比；

如果所述组成所述评论数据的各个分词中的任意一个分词，与所述报障词典中的任意一个评论词相同，则判断所述评论数据是表征产品故障的评论数据；

如果所述组成所述评论数据的各个分词中的每一个分词，均与所述报障词典中的每一个评论词不同，则判断所述评论数据不是表征产品故障的评论数据。

优选地，所述对所述评论数据进行分词处理，得到组成所述评论数据的各个分词，包括：

调用中文分词工具包对所述评论数据进行分词处理，得到组成所述评论数据的各个分词。

优选地，所述对所述评论数据进行情感分析处理，判断所述评论数据是否是负面评论数据，包括：

调用设定的情感分析模型，对所述评论数据进行情感分析处理，判断所述评论数据是否是负面评论数据。

优选地，在获取评论数据之后，在将所述评论数据与报障词典中的数据进行对比，判断所述评论数据是否是表征产品故障的评论数据之前，该方法还包括：

对所述评论数据进行审核，判断所述评论数据是否满足设定的审核标准；

如果所述评论数据不满足设定的审核标准，则将所述评论数据删除。

一种数据分析装置，包括：

数据获取单元，用于获取评论数据；

第一处理单元，用于将所述评论数据与报障词典中的评论词进行对比，判断所述评论数据是否是表征产品故障的评论数据；其中，所述报障词典为设定数量的表征产品故障的评论词的集合；

第二处理单元，用于在所述第一处理单元判断所述评论数据是表征产品故障的评论数据时，进一步对所述评论数据进行情感分析处理，判断所述评论数据是否是负面评论数据；

数据处理单元，用于在所述第二处理单元判断所述评论数据是负面评论数据时，存储所述评论数据。

优选地，所述第一处理单元，包括：

分词处理单元，用于对所述评论数据进行分词处理，得到组成所述评论数据的各个分词；

判断处理单元，用于分别将所述组成所述评论数据的各个分词与报障词典中的评论词进行对比；

优选地，所述分词处理单元对所述评论数据进行分词处理，得到组成所述评论数据的各个分词时，具体用于：

优选地，所述第二处理单元对所述评论数据进行情感分析处理，判断所述评论数据是否是负面评论数据时，具体用于：

优选地，该装置还包括：

审核处理单元，用于对所述评论数据进行审核，判断所述评论数据是否满足设定的审核标准；

本发明提出的数据分析方法，包括：获取评论数据；将所述评论数据与报障词典中的评论词进行对比，判断所述评论数据是否是表征产品故障的评论数据；其中，所述报障词典为预先设置的，设定数量的表征产品故障的评论词的集合；如果所述评论数据是表征产品故障的评论数据，则进一步对所述评论数据进行情感分析处理，判断所述评论数据是否是负面评论数据；如果所述评论数据是负面评论数据，则存储所述评论数据。采用上述数据分析方法，能够辨别用户评论数据是否为负面评论数据，从而使得对用户的评论数据进行分析挖掘时，更具有针对性，提高了数据分析效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例提供的一种数据分析方法的流程示意图；

图2是本发明实施例提供的另一种数据分析方法的流程示意图；

图3是本发明实施例提供的一种训练情感学习模型的流程示意图；

图4是本发明实施例提供的另一种数据分析方法的流程示意图；

图5是本发明实施例提供的一种数据分析装置的结构示意图；

图6是本发明实施例提供的另一种数据分析装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种数据分析方法，参见图1所示，该方法包括：

S101、获取评论数据；

具体的，本发明实施例优先从互联网平台内部的评论审核系统获取评论数据。如果互联网平台没有该系统，则直接从评论接收服务器获取评论数据，或者对接第三方社交平台获取评论数据。上述评论可以是用户发送的任意内容的评论信息，具体可以是对于影视内容的评论信息，对于用户言论的评论信息，或者对于设备的评论信息。例如：“表演到位”、“视频太卡”、“说得没错”、“电脑播放流程”等评论信息。

S102、将所述评论数据与报障词典中的评论词进行对比，判断所述评论数据是否是表征产品故障的评论数据；其中，所述报障词典为设定数量的表征产品故障的评论词的集合；

具体的，上述报障词典，实际上为预先构建的与产品故障有关的评论关键词集合。在报障词典中的评论关键词，是针对某一产品来说，比较常见故障的评论关键词。

例如，对于视频播放软件来说，按照本发明实施例技术方案，可以构建对应该视频播放软件的报障词典，其中包含常见故障的评论关键词：不同步|卡飞|网很慢|网太慢|都卡|卡的跟狗一样|太卡|老是卡|网络卡|又卡了|卡住了|卡了|视频卡|卡掉了|网好卡|网速卡|卡一下|很卡|还卡|有点卡|好卡|真卡|那么卡|又卡|这么卡|网卡|卡到不行|卡了|为什么卡|没网络|缓冲中|卡死|网速|都不能看|怎么看不了|不能播放|没声音|为什么错误|出错|慢不想看|不能缓存|播放出错|播放错误|音效差|播放失败|网络好慢|卡吗|卡啊|卡的|卡成这样|卡在了|不卡|就卡|卡卡卡|集不能看|卡呀|有卡了|卡尼玛|卡顿|卡没了|也卡|真尼玛卡|卡翔|更卡|电脑卡|卡成狗|卡一下|卡爆|超级卡|一卡一卡|非常卡|能不卡吗|那麽卡|卡毛线|网不好|卡啊啊啊|真几把卡|好鸡巴卡|别卡|卡的一笔|还卡了|卡吨|烂网|卡了一下|卡起了|卡到爆|老卡|老是卡|卡卡顿顿|各种卡|不要卡|卡你妹|你们卡不|卡屏|卡得|还是卡|弹幕卡|播放都出错|网络不好|版本问题|网络异常|设备问题。

在本发明实施例技术方案中，获取评论数据后，将评论数据与报障词典中的评论关键词进行对比，如果评论数据与报障词典中的任意一个评论关键词相同，则可以认定该评论数据是表征产品故障的评论数据；如果在评论词典中，没有与该评论数据相同的评论关键词，则可以认定该评论数据不是表征产品故障的评论数据。

如果所述评论数据是表征产品故障的评论数据，则执行步骤S103、进一步对所述评论数据进行情感分析处理，判断所述评论数据是否是负面评论数据；

具体的，由于负面评论数据更明确地表达出用户对产品的不满，通过用户的负面评论数据，可以直接地了解产品缺陷。解决用户负面评论数据所表现出的产品问题，能够最快速地提升用户体验。因此，在本发明实施例技术方案中，在确认用户评论数据是表征产品故障的评论数据后，进一步对该评论数据进行情感分析处理，判断该评论数据是否是负面评论数据。

如果所述评论数据是负面评论数据，则执行步骤S104、存储所述评论数据。

具体的，如果确认获取的评论数据是负面评论数据，则将该评论数据进行存储；如果确认获取的评论数据不是负面评论数据，则将该评论数据删除。进一步地，在存储负面评论数据后，可以进一步对负面评论数据进行统计分析处理，或者将存储的负面评论数据发送给相关业务方，由相关业务方进行分析处理。

可选的，在本发明的另一个实施例中，参见图2所示，所述将所述评论数据与报障词典中的评论词进行对比，判断所述评论数据是否是表征产品故障的评论数据，包括：

S202、对所述评论数据进行分词处理，得到组成所述评论数据的各个分词；

具体的，用户对产品的评论可能是短词语，也可能是长句，字数不定。为了便于识别用户评论数据，本发明实施例将获取的用户评论数据进行分词处理，将用户评论数据分成最小词语单元，得到组成该评论数据的各个分词。

S203、分别将所述组成所述评论数据的各个分词与报障词典中的评论词进行对比；

如果所述组成所述评论数据的各个分词中的任意一个分词，与所述报障词典中的任意一个评论词相同，则执行步骤S204、判断所述评论数据是表征产品故障的评论数据；

如果所述组成所述评论数据的各个分词中的每一个分词，均与所述报障词典中的每一个评论词不同，则执行步骤S205、判断所述评论数据不是表征产品故障的评论数据。

具体的，在得到组成用户评论数据的各个分词后，将各个分词与报障词典中的评论词分别进行对比，如果在组成用户评论数据的各个分词中，有任意一个分词与报障词典中的某一个评论词相同，则可以判断该用户评论数据是表征产品故障的评论数据；相反，如果组成用户评论数据的各个分词中的每一个分词均与报障词典中的每一个评论词不同，则可以判断该用户评论数据不是表征产品故障的评论数据。具体的，在对比组成用户评论数据的各个分词与报障词典中的评论词时，可以选取任意一种数据匹配方法。对于组成用户评论数据的分词中的任意一个分词与报障词典中的某一个评论词来说，如果这个分词与这个评论词能够达到设定的匹配度，则认为两者相同；相反，则认为两者不同。

本实施例中的步骤S201、S206、S207分别对应图1所示的方法实施例中的步骤S101、S103、S104，其具体内容请参见对应图1所示的方法实施例的内容，此处不再赘述。

可选的，在本发明的另一个实施例中，所述对所述评论数据进行分词处理，得到组成所述评论数据的各个分词，包括：

具体的，在数据处理领域，已具备成熟的分词工具，选取任意一种分词工具，都可以实现对上述用户评论数据的分词处理。例如，可以采用Python的第三方中文分词工具包jieba对上述评论数据进行分词处理。需要说明的是，在现有技术中，存在多种分词工具，任意一种可以将上述评论数据分解为组成上述评论数据的各个分词的分词工具，都可以被本发明实施例所采用，本发明实施例不做严格限定。在实施本发明实施例技术方案时，将选取的中文分词工具包作为调用程序，进行用户评论数据分词处理时，直接调用选取的中文分词工具包即可。

可选的，在本发明的另一个实施例中，所述对所述评论数据进行情感分析处理，判断所述评论数据是否是负面评论数据，包括：

具体的，上述设定的情感分析模型，为训练成熟的情感分析模型，也就是在人工处理的基础上，事先训练成熟的情感学习模型，该模型能够自动识别输入的用户评论数据的情感正负性。

对上述情感学习模型的训练过程如图3所示。其大体过程是，由人工标注大量(可以根据精确度需求设定数量)评论数据的情感正负性，或者根据第三方提供的情感标注词典，通过特征工程，使情感学习模型进行学习，从而具备识别评论数据情感正负性的能力。具体的，上述情感学习模型目前采用了两种特征工程的方法：(1)基于第三方提供的情感标注词典，统计每条评论中正面词的个数和负面词的个数，作为机器学习的特征维度；(2)基于历史(一周)评论数据，构建评论词词典，结合经典的词袋模型，统计每条评论中这些评论词输出的次数，也作为机器学习的特征维度。对于文本分析，目前主流的机器学习模型都是基于朴素贝叶斯模型的。在本发明实施例中，也采用朴素贝叶斯模型，这是因为评论数据的特征具有极强的稀疏性，这在一定程度上保证了各个特征之间相互独立假设的成立。

在对上述情感学习模型训练成熟后，将其作为本发明实施例技术方案的一个调用程序，在需要对用户评论数据进行情感分析处理时，直接调用该程序即可。进一步的，还可以在线下对上述情感学习模型进行训练，然后通过应用程序编程接口(ApplicationProgramming Interface，API)的方式部署到线上环境，用于对用户评论数据的情感分析处理。

可选的，在本发明的另一个实施例中，参见图4所示，在执行步骤S401、获取评论数据之后，在执行步骤S404、将所述评论数据与报障词典中的数据进行对比，判断所述评论数据是否是表征产品故障的评论数据之前，该方法还包括：

S402、对所述评论数据进行审核，判断所述评论数据是否满足设定的审核标准；

如果所述评论数据不满足设定的审核标准，则执行步骤S403、将所述评论数据删除。

具体的，如果本发明实施例所获取的用户评论数据不是经过审核的用户评论数据，本发明实施例技术方案进一步对获取的用户评论数据进行审核处理，如果审核确认获取的用户评论数据不是满足审核标准的用户评论数据，则将获取的用户评论数据删除。具体的审核标准，可以根据实际需求进行设定。在获取用户评论数据后，对用户评论数据进行审核，可以避免对明显没有分析价值的评论数据进行更进一步的分析处理，从而避免造成工作量的浪费。

本实施例中的步骤S401、S404～S406分别对应图1所示的方法实施例中的步骤S101、S102～S104，其具体内容请参见对应图1所示的方法实施例的内容，此处不再赘述。

本发明实施例还公开了一种数据分析装置，参见图5所示，该装置包括：

数据获取单元501，用于获取评论数据；

第一处理单元502，用于将所述评论数据与报障词典中的评论词进行对比，判断所述评论数据是否是表征产品故障的评论数据；其中，所述报障词典为设定数量的表征产品故障的评论词的集合；

第二处理单元503，用于在所述第一处理单元判断所述评论数据是表征产品故障的评论数据时，进一步对所述评论数据进行情感分析处理，判断所述评论数据是否是负面评论数据；

数据处理单元504，用于在所述第二处理单元判断所述评论数据是负面评论数据时，存储所述评论数据。

具体的，本实施例中各个单元的具体工作内容，请参见对应的方法实施例的内容，此处不再赘述。

本发明提出的数据分析装置，在对用户评论数据进行分析时，首先由数据获取单元501获取评论数据；然后第一处理单元502将所述评论数据与报障词典中的评论词进行对比，判断所述评论数据是否是表征产品故障的评论数据；其中，所述报障词典为预先设置的，设定数量的表征产品故障的评论词的集合；如果所述评论数据是表征产品故障的评论数据，则第二处理单元503进一步对所述评论数据进行情感分析处理，判断所述评论数据是否是负面评论数据；如果所述评论数据是负面评论数据，则数据处理单元504存储所述评论数据。采用上述数据分析装置，能够辨别用户评论数据是否为负面评论数据，从而使得对用户的评论数据进行分析挖掘时，更具有针对性，提高了数据分析效率。

可选的，在本发明的另一个实施例中，参见图6所示，第一处理单元502，包括：

分词处理单元5021，用于对所述评论数据进行分词处理，得到组成所述评论数据的各个分词；

判断处理单元5022，用于分别将所述组成所述评论数据的各个分词与报障词典中的评论词进行对比；

可选的，在本发明的另一个实施例中，分词处理单元5021对所述评论数据进行分词处理，得到组成所述评论数据的各个分词时，具体用于：

具体的，本实施例中分词处理单元5021的具体工作内容，请参见对应的方法实施例的内容，此处不再赘述。

可选的，在本发明的另一个实施例中，第二处理单元503对所述评论数据进行情感分析处理，判断所述评论数据是否是负面评论数据时，具体用于：

具体的，本实施例中第二处理单元503的具体工作内容，请参见对应的方法实施例的内容，此处不再赘述。

可选的，在本发明的另一个实施例中，该装置还包括：

审核处理单元505，用于对所述评论数据进行审核，判断所述评论数据是否满足设定的审核标准；

具体的，本实施例中审核处理单元505的具体工作内容，请参见对应的方法实施例的内容，此处不再赘述。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据分析方法，其特征在于，包括：

获取评论数据；

如果所述评论数据是负面评论数据，则存储所述评论数据。

2.根据权利要求1所述的方法，其特征在于，所述将所述评论数据与报障词典中的评论词进行对比，判断所述评论数据是否是表征产品故障的评论数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述评论数据进行分词处理，得到组成所述评论数据的各个分词，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述评论数据进行情感分析处理，判断所述评论数据是否是负面评论数据，包括：

5.根据权利要求1所述的方法，其特征在于，在获取评论数据之后，在将所述评论数据与报障词典中的数据进行对比，判断所述评论数据是否是表征产品故障的评论数据之前，该方法还包括：

6.一种数据分析装置，其特征在于，包括：

数据获取单元，用于获取评论数据；

7.根据权利要求6所述的装置，其特征在于，所述第一处理单元，包括：

8.根据权利要求7所述的装置，其特征在于，所述分词处理单元对所述评论数据进行分词处理，得到组成所述评论数据的各个分词时，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述第二处理单元对所述评论数据进行情感分析处理，判断所述评论数据是否是负面评论数据时，具体用于：

10.根据权利要求6所述的装置，其特征在于，该装置还包括：