CN107169091A - 一种数据分析方法及装置 - Google Patents

一种数据分析方法及装置 Download PDF

Info

Publication number
CN107169091A
CN107169091A CN201710333980.0A CN201710333980A CN107169091A CN 107169091 A CN107169091 A CN 107169091A CN 201710333980 A CN201710333980 A CN 201710333980A CN 107169091 A CN107169091 A CN 107169091A
Authority
CN
China
Prior art keywords
comment data
data
comment
word
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710333980.0A
Other languages
English (en)
Inventor
宗志远
卢明樊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201710333980.0A priority Critical patent/CN107169091A/zh
Publication of CN107169091A publication Critical patent/CN107169091A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明提出一种数据分析方法及装置。一种数据分析方法,包括:获取评论数据;将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据;其中,所述报障词典为设定数量的表征产品故障的评论词的集合;如果所述评论数据是表征产品故障的评论数据,则进一步对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据;如果所述评论数据是负面评论数据,则存储所述评论数据。采用上述数据分析方法,能够辨别用户评论数据是否为负面评论数据,从而使得对用户的评论数据进行分析挖掘时,更具有针对性,提高了数据分析效率。

Description

一种数据分析方法及装置
技术领域
本发明涉及数据分析技术领域,尤其涉及一种数据分析方法及装置。
背景技术
对于服务型企业,尤其是互联网企业来说,通过分析用户的评论信息能够及时掌握产品的不足以及了解用户需求。根据用户对产品的评论信息,尤其是用户对产品的负面评论信息对产品进行改进和维护,是提升产品用户体验的最佳途径。
在现有技术中,服务型企业普遍重视对用户评论数据的分析,以便从中发现产品问题。常用的分析方法是:获取用户评论数据,对获取的用户评论数据进行文本挖掘,从中查找得到用户对产品故障的评论信息。在用户对产品故障的评论数据中,有用户对产品故障的正面或中性评论数据,也有用户对产品故障的负面评论数据。其中,对用户对产品故障的负面评论数据进行分析,很容易得到对产品改进有益的信息;相反,对用户的正面或中性评论数据进行分析,很难得到对产品改进有益的信息。而在现有技术中,并没有区分用户评论的属性,对所有的用户评论数据都进行分析,其分析效率较低。
发明内容
基于上述现有技术的缺陷和不足,本发明提出一种数据分析方法及装置,采用该方法及装置,能够辨别用户评论数据是否为负面评论数据,从而使得对用户的评论数据进行分析挖掘时,更具有针对性,提高了数据分析效率。
一种数据分析方法,包括:
获取评论数据;
将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据;其中,所述报障词典为设定数量的表征产品故障的评论词的集合;
如果所述评论数据是表征产品故障的评论数据,则进一步对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据;
如果所述评论数据是负面评论数据,则存储所述评论数据。
优选地,所述将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据,包括:
对所述评论数据进行分词处理,得到组成所述评论数据的各个分词;
分别将所述组成所述评论数据的各个分词与报障词典中的评论词进行对比;
如果所述组成所述评论数据的各个分词中的任意一个分词,与所述报障词典中的任意一个评论词相同,则判断所述评论数据是表征产品故障的评论数据;
如果所述组成所述评论数据的各个分词中的每一个分词,均与所述报障词典中的每一个评论词不同,则判断所述评论数据不是表征产品故障的评论数据。
优选地,所述对所述评论数据进行分词处理,得到组成所述评论数据的各个分词,包括:
调用中文分词工具包对所述评论数据进行分词处理,得到组成所述评论数据的各个分词。
优选地,所述对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据,包括:
调用设定的情感分析模型,对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据。
优选地,在获取评论数据之后,在将所述评论数据与报障词典中的数据进行对比,判断所述评论数据是否是表征产品故障的评论数据之前,该方法还包括:
对所述评论数据进行审核,判断所述评论数据是否满足设定的审核标准;
如果所述评论数据不满足设定的审核标准,则将所述评论数据删除。
一种数据分析装置,包括:
数据获取单元,用于获取评论数据;
第一处理单元,用于将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据;其中,所述报障词典为设定数量的表征产品故障的评论词的集合;
第二处理单元,用于在所述第一处理单元判断所述评论数据是表征产品故障的评论数据时,进一步对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据;
数据处理单元,用于在所述第二处理单元判断所述评论数据是负面评论数据时,存储所述评论数据。
优选地,所述第一处理单元,包括:
分词处理单元,用于对所述评论数据进行分词处理,得到组成所述评论数据的各个分词;
判断处理单元,用于分别将所述组成所述评论数据的各个分词与报障词典中的评论词进行对比;
如果所述组成所述评论数据的各个分词中的任意一个分词,与所述报障词典中的任意一个评论词相同,则判断所述评论数据是表征产品故障的评论数据;
如果所述组成所述评论数据的各个分词中的每一个分词,均与所述报障词典中的每一个评论词不同,则判断所述评论数据不是表征产品故障的评论数据。
优选地,所述分词处理单元对所述评论数据进行分词处理,得到组成所述评论数据的各个分词时,具体用于:
调用中文分词工具包对所述评论数据进行分词处理,得到组成所述评论数据的各个分词。
优选地,所述第二处理单元对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据时,具体用于:
调用设定的情感分析模型,对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据。
优选地,该装置还包括:
审核处理单元,用于对所述评论数据进行审核,判断所述评论数据是否满足设定的审核标准;
如果所述评论数据不满足设定的审核标准,则将所述评论数据删除。
本发明提出的数据分析方法,包括:获取评论数据;将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据;其中,所述报障词典为预先设置的,设定数量的表征产品故障的评论词的集合;如果所述评论数据是表征产品故障的评论数据,则进一步对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据;如果所述评论数据是负面评论数据,则存储所述评论数据。采用上述数据分析方法,能够辨别用户评论数据是否为负面评论数据,从而使得对用户的评论数据进行分析挖掘时,更具有针对性,提高了数据分析效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例提供的一种数据分析方法的流程示意图;
图2是本发明实施例提供的另一种数据分析方法的流程示意图;
图3是本发明实施例提供的一种训练情感学习模型的流程示意图;
图4是本发明实施例提供的另一种数据分析方法的流程示意图;
图5是本发明实施例提供的一种数据分析装置的结构示意图;
图6是本发明实施例提供的另一种数据分析装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种数据分析方法,参见图1所示,该方法包括:
S101、获取评论数据;
具体的,本发明实施例优先从互联网平台内部的评论审核系统获取评论数据。如果互联网平台没有该系统,则直接从评论接收服务器获取评论数据,或者对接第三方社交平台获取评论数据。上述评论可以是用户发送的任意内容的评论信息,具体可以是对于影视内容的评论信息,对于用户言论的评论信息,或者对于设备的评论信息。例如:“表演到位”、“视频太卡”、“说得没错”、“电脑播放流程”等评论信息。
S102、将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据;其中,所述报障词典为设定数量的表征产品故障的评论词的集合;
具体的,上述报障词典,实际上为预先构建的与产品故障有关的评论关键词集合。在报障词典中的评论关键词,是针对某一产品来说,比较常见故障的评论关键词。
例如,对于视频播放软件来说,按照本发明实施例技术方案,可以构建对应该视频播放软件的报障词典,其中包含常见故障的评论关键词:不同步|卡飞|网很慢|网太慢|都卡|卡的跟狗一样|太卡|老是卡|网络卡|又卡了|卡住了|卡了|视频卡|卡掉了|网好卡|网速卡|卡一下|很卡|还卡|有点卡|好卡|真卡|那么卡|又卡|这么卡|网卡|卡到不行|卡了|为什么卡|没网络|缓冲中|卡死|网速|都不能看|怎么看不了|不能播放|没声音|为什么错误|出错|慢不想看|不能缓存|播放出错|播放错误|音效差|播放失败|网络好慢|卡吗|卡啊|卡的|卡成这样|卡在了|不卡|就卡|卡卡卡|集不能看|卡呀|有卡了|卡尼玛|卡顿|卡没了|也卡|真尼玛卡|卡翔|更卡|电脑卡|卡成狗|卡一下|卡爆|超级卡|一卡一卡|非常卡|能不卡吗|那麽卡|卡毛线|网不好|卡啊啊啊|真几把卡|好鸡巴卡|别卡|卡的一笔|还卡了|卡吨|烂网|卡了一下|卡起了|卡到爆|老卡|老是卡|卡卡顿顿|各种卡|不要卡|卡你妹|你们卡不|卡屏|卡得|还是卡|弹幕卡|播放都出错|网络不好|版本问题|网络异常|设备问题。
在本发明实施例技术方案中,获取评论数据后,将评论数据与报障词典中的评论关键词进行对比,如果评论数据与报障词典中的任意一个评论关键词相同,则可以认定该评论数据是表征产品故障的评论数据;如果在评论词典中,没有与该评论数据相同的评论关键词,则可以认定该评论数据不是表征产品故障的评论数据。
如果所述评论数据是表征产品故障的评论数据,则执行步骤S103、进一步对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据;
具体的,由于负面评论数据更明确地表达出用户对产品的不满,通过用户的负面评论数据,可以直接地了解产品缺陷。解决用户负面评论数据所表现出的产品问题,能够最快速地提升用户体验。因此,在本发明实施例技术方案中,在确认用户评论数据是表征产品故障的评论数据后,进一步对该评论数据进行情感分析处理,判断该评论数据是否是负面评论数据。
如果所述评论数据是负面评论数据,则执行步骤S104、存储所述评论数据。
具体的,如果确认获取的评论数据是负面评论数据,则将该评论数据进行存储;如果确认获取的评论数据不是负面评论数据,则将该评论数据删除。进一步地,在存储负面评论数据后,可以进一步对负面评论数据进行统计分析处理,或者将存储的负面评论数据发送给相关业务方,由相关业务方进行分析处理。
本发明提出的数据分析方法,包括:获取评论数据;将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据;其中,所述报障词典为预先设置的,设定数量的表征产品故障的评论词的集合;如果所述评论数据是表征产品故障的评论数据,则进一步对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据;如果所述评论数据是负面评论数据,则存储所述评论数据。采用上述数据分析方法,能够辨别用户评论数据是否为负面评论数据,从而使得对用户的评论数据进行分析挖掘时,更具有针对性,提高了数据分析效率。
可选的,在本发明的另一个实施例中,参见图2所示,所述将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据,包括:
S202、对所述评论数据进行分词处理,得到组成所述评论数据的各个分词;
具体的,用户对产品的评论可能是短词语,也可能是长句,字数不定。为了便于识别用户评论数据,本发明实施例将获取的用户评论数据进行分词处理,将用户评论数据分成最小词语单元,得到组成该评论数据的各个分词。
S203、分别将所述组成所述评论数据的各个分词与报障词典中的评论词进行对比;
如果所述组成所述评论数据的各个分词中的任意一个分词,与所述报障词典中的任意一个评论词相同,则执行步骤S204、判断所述评论数据是表征产品故障的评论数据;
如果所述组成所述评论数据的各个分词中的每一个分词,均与所述报障词典中的每一个评论词不同,则执行步骤S205、判断所述评论数据不是表征产品故障的评论数据。
具体的,在得到组成用户评论数据的各个分词后,将各个分词与报障词典中的评论词分别进行对比,如果在组成用户评论数据的各个分词中,有任意一个分词与报障词典中的某一个评论词相同,则可以判断该用户评论数据是表征产品故障的评论数据;相反,如果组成用户评论数据的各个分词中的每一个分词均与报障词典中的每一个评论词不同,则可以判断该用户评论数据不是表征产品故障的评论数据。具体的,在对比组成用户评论数据的各个分词与报障词典中的评论词时,可以选取任意一种数据匹配方法。对于组成用户评论数据的分词中的任意一个分词与报障词典中的某一个评论词来说,如果这个分词与这个评论词能够达到设定的匹配度,则认为两者相同;相反,则认为两者不同。
本实施例中的步骤S201、S206、S207分别对应图1所示的方法实施例中的步骤S101、S103、S104,其具体内容请参见对应图1所示的方法实施例的内容,此处不再赘述。
可选的,在本发明的另一个实施例中,所述对所述评论数据进行分词处理,得到组成所述评论数据的各个分词,包括:
调用中文分词工具包对所述评论数据进行分词处理,得到组成所述评论数据的各个分词。
具体的,在数据处理领域,已具备成熟的分词工具,选取任意一种分词工具,都可以实现对上述用户评论数据的分词处理。例如,可以采用Python的第三方中文分词工具包jieba对上述评论数据进行分词处理。需要说明的是,在现有技术中,存在多种分词工具,任意一种可以将上述评论数据分解为组成上述评论数据的各个分词的分词工具,都可以被本发明实施例所采用,本发明实施例不做严格限定。在实施本发明实施例技术方案时,将选取的中文分词工具包作为调用程序,进行用户评论数据分词处理时,直接调用选取的中文分词工具包即可。
可选的,在本发明的另一个实施例中,所述对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据,包括:
调用设定的情感分析模型,对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据。
具体的,上述设定的情感分析模型,为训练成熟的情感分析模型,也就是在人工处理的基础上,事先训练成熟的情感学习模型,该模型能够自动识别输入的用户评论数据的情感正负性。
对上述情感学习模型的训练过程如图3所示。其大体过程是,由人工标注大量(可以根据精确度需求设定数量)评论数据的情感正负性,或者根据第三方提供的情感标注词典,通过特征工程,使情感学习模型进行学习,从而具备识别评论数据情感正负性的能力。具体的,上述情感学习模型目前采用了两种特征工程的方法:(1)基于第三方提供的情感标注词典,统计每条评论中正面词的个数和负面词的个数,作为机器学习的特征维度;(2)基于历史(一周)评论数据,构建评论词词典,结合经典的词袋模型,统计每条评论中这些评论词输出的次数,也作为机器学习的特征维度。对于文本分析,目前主流的机器学习模型都是基于朴素贝叶斯模型的。在本发明实施例中,也采用朴素贝叶斯模型,这是因为评论数据的特征具有极强的稀疏性,这在一定程度上保证了各个特征之间相互独立假设的成立。
在对上述情感学习模型训练成熟后,将其作为本发明实施例技术方案的一个调用程序,在需要对用户评论数据进行情感分析处理时,直接调用该程序即可。进一步的,还可以在线下对上述情感学习模型进行训练,然后通过应用程序编程接口(ApplicationProgramming Interface,API)的方式部署到线上环境,用于对用户评论数据的情感分析处理。
可选的,在本发明的另一个实施例中,参见图4所示,在执行步骤S401、获取评论数据之后,在执行步骤S404、将所述评论数据与报障词典中的数据进行对比,判断所述评论数据是否是表征产品故障的评论数据之前,该方法还包括:
S402、对所述评论数据进行审核,判断所述评论数据是否满足设定的审核标准;
如果所述评论数据不满足设定的审核标准,则执行步骤S403、将所述评论数据删除。
具体的,如果本发明实施例所获取的用户评论数据不是经过审核的用户评论数据,本发明实施例技术方案进一步对获取的用户评论数据进行审核处理,如果审核确认获取的用户评论数据不是满足审核标准的用户评论数据,则将获取的用户评论数据删除。具体的审核标准,可以根据实际需求进行设定。在获取用户评论数据后,对用户评论数据进行审核,可以避免对明显没有分析价值的评论数据进行更进一步的分析处理,从而避免造成工作量的浪费。
本实施例中的步骤S401、S404~S406分别对应图1所示的方法实施例中的步骤S101、S102~S104,其具体内容请参见对应图1所示的方法实施例的内容,此处不再赘述。
本发明实施例还公开了一种数据分析装置,参见图5所示,该装置包括:
数据获取单元501,用于获取评论数据;
第一处理单元502,用于将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据;其中,所述报障词典为设定数量的表征产品故障的评论词的集合;
第二处理单元503,用于在所述第一处理单元判断所述评论数据是表征产品故障的评论数据时,进一步对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据;
数据处理单元504,用于在所述第二处理单元判断所述评论数据是负面评论数据时,存储所述评论数据。
具体的,本实施例中各个单元的具体工作内容,请参见对应的方法实施例的内容,此处不再赘述。
本发明提出的数据分析装置,在对用户评论数据进行分析时,首先由数据获取单元501获取评论数据;然后第一处理单元502将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据;其中,所述报障词典为预先设置的,设定数量的表征产品故障的评论词的集合;如果所述评论数据是表征产品故障的评论数据,则第二处理单元503进一步对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据;如果所述评论数据是负面评论数据,则数据处理单元504存储所述评论数据。采用上述数据分析装置,能够辨别用户评论数据是否为负面评论数据,从而使得对用户的评论数据进行分析挖掘时,更具有针对性,提高了数据分析效率。
可选的,在本发明的另一个实施例中,参见图6所示,第一处理单元502,包括:
分词处理单元5021,用于对所述评论数据进行分词处理,得到组成所述评论数据的各个分词;
判断处理单元5022,用于分别将所述组成所述评论数据的各个分词与报障词典中的评论词进行对比;
如果所述组成所述评论数据的各个分词中的任意一个分词,与所述报障词典中的任意一个评论词相同,则判断所述评论数据是表征产品故障的评论数据;
如果所述组成所述评论数据的各个分词中的每一个分词,均与所述报障词典中的每一个评论词不同,则判断所述评论数据不是表征产品故障的评论数据。
具体的,本实施例中各个单元的具体工作内容,请参见对应的方法实施例的内容,此处不再赘述。
可选的,在本发明的另一个实施例中,分词处理单元5021对所述评论数据进行分词处理,得到组成所述评论数据的各个分词时,具体用于:
调用中文分词工具包对所述评论数据进行分词处理,得到组成所述评论数据的各个分词。
具体的,本实施例中分词处理单元5021的具体工作内容,请参见对应的方法实施例的内容,此处不再赘述。
可选的,在本发明的另一个实施例中,第二处理单元503对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据时,具体用于:
调用设定的情感分析模型,对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据。
具体的,本实施例中第二处理单元503的具体工作内容,请参见对应的方法实施例的内容,此处不再赘述。
可选的,在本发明的另一个实施例中,该装置还包括:
审核处理单元505,用于对所述评论数据进行审核,判断所述评论数据是否满足设定的审核标准;
如果所述评论数据不满足设定的审核标准,则将所述评论数据删除。
具体的,本实施例中审核处理单元505的具体工作内容,请参见对应的方法实施例的内容,此处不再赘述。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据分析方法,其特征在于,包括:
获取评论数据;
将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据;其中,所述报障词典为设定数量的表征产品故障的评论词的集合;
如果所述评论数据是表征产品故障的评论数据,则进一步对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据;
如果所述评论数据是负面评论数据,则存储所述评论数据。
2.根据权利要求1所述的方法,其特征在于,所述将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据,包括:
对所述评论数据进行分词处理,得到组成所述评论数据的各个分词;
分别将所述组成所述评论数据的各个分词与报障词典中的评论词进行对比;
如果所述组成所述评论数据的各个分词中的任意一个分词,与所述报障词典中的任意一个评论词相同,则判断所述评论数据是表征产品故障的评论数据;
如果所述组成所述评论数据的各个分词中的每一个分词,均与所述报障词典中的每一个评论词不同,则判断所述评论数据不是表征产品故障的评论数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述评论数据进行分词处理,得到组成所述评论数据的各个分词,包括:
调用中文分词工具包对所述评论数据进行分词处理,得到组成所述评论数据的各个分词。
4.根据权利要求1所述的方法,其特征在于,所述对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据,包括:
调用设定的情感分析模型,对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据。
5.根据权利要求1所述的方法,其特征在于,在获取评论数据之后,在将所述评论数据与报障词典中的数据进行对比,判断所述评论数据是否是表征产品故障的评论数据之前,该方法还包括:
对所述评论数据进行审核,判断所述评论数据是否满足设定的审核标准;
如果所述评论数据不满足设定的审核标准,则将所述评论数据删除。
6.一种数据分析装置,其特征在于,包括:
数据获取单元,用于获取评论数据;
第一处理单元,用于将所述评论数据与报障词典中的评论词进行对比,判断所述评论数据是否是表征产品故障的评论数据;其中,所述报障词典为设定数量的表征产品故障的评论词的集合;
第二处理单元,用于在所述第一处理单元判断所述评论数据是表征产品故障的评论数据时,进一步对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据;
数据处理单元,用于在所述第二处理单元判断所述评论数据是负面评论数据时,存储所述评论数据。
7.根据权利要求6所述的装置,其特征在于,所述第一处理单元,包括:
分词处理单元,用于对所述评论数据进行分词处理,得到组成所述评论数据的各个分词;
判断处理单元,用于分别将所述组成所述评论数据的各个分词与报障词典中的评论词进行对比;
如果所述组成所述评论数据的各个分词中的任意一个分词,与所述报障词典中的任意一个评论词相同,则判断所述评论数据是表征产品故障的评论数据;
如果所述组成所述评论数据的各个分词中的每一个分词,均与所述报障词典中的每一个评论词不同,则判断所述评论数据不是表征产品故障的评论数据。
8.根据权利要求7所述的装置,其特征在于,所述分词处理单元对所述评论数据进行分词处理,得到组成所述评论数据的各个分词时,具体用于:
调用中文分词工具包对所述评论数据进行分词处理,得到组成所述评论数据的各个分词。
9.根据权利要求6所述的装置,其特征在于,所述第二处理单元对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据时,具体用于:
调用设定的情感分析模型,对所述评论数据进行情感分析处理,判断所述评论数据是否是负面评论数据。
10.根据权利要求6所述的装置,其特征在于,该装置还包括:
审核处理单元,用于对所述评论数据进行审核,判断所述评论数据是否满足设定的审核标准;
如果所述评论数据不满足设定的审核标准,则将所述评论数据删除。
CN201710333980.0A 2017-05-12 2017-05-12 一种数据分析方法及装置 Pending CN107169091A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710333980.0A CN107169091A (zh) 2017-05-12 2017-05-12 一种数据分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710333980.0A CN107169091A (zh) 2017-05-12 2017-05-12 一种数据分析方法及装置

Publications (1)

Publication Number Publication Date
CN107169091A true CN107169091A (zh) 2017-09-15

Family

ID=59815933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710333980.0A Pending CN107169091A (zh) 2017-05-12 2017-05-12 一种数据分析方法及装置

Country Status (1)

Country Link
CN (1) CN107169091A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108513175A (zh) * 2018-03-29 2018-09-07 网宿科技股份有限公司 一种弹幕信息的处理方法及系统
CN109857842A (zh) * 2018-12-21 2019-06-07 北京奇艺世纪科技有限公司 一种报障文本识别的方法及装置
CN110602483A (zh) * 2019-08-23 2019-12-20 北京奇艺世纪科技有限公司 视频故障确定方法、装置及计算机可读存储介质
WO2020010572A1 (zh) * 2018-07-12 2020-01-16 深圳齐心集团股份有限公司 商品评价中的视频传播系统及其方法
CN111831528A (zh) * 2020-07-17 2020-10-27 浪潮商用机器有限公司 一种计算机系统日志关联方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354183A (zh) * 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统
CN105844424A (zh) * 2016-05-30 2016-08-10 中国计量学院 基于网络评论的产品质量问题发现及风险评估方法
CN106649260A (zh) * 2016-10-19 2017-05-10 中国计量大学 基于评论文本挖掘的产品特征结构树构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354183A (zh) * 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统
CN105844424A (zh) * 2016-05-30 2016-08-10 中国计量学院 基于网络评论的产品质量问题发现及风险评估方法
CN106649260A (zh) * 2016-10-19 2017-05-10 中国计量大学 基于评论文本挖掘的产品特征结构树构建方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108513175A (zh) * 2018-03-29 2018-09-07 网宿科技股份有限公司 一种弹幕信息的处理方法及系统
CN108513175B (zh) * 2018-03-29 2020-05-22 网宿科技股份有限公司 一种弹幕信息的处理方法及系统
WO2020010572A1 (zh) * 2018-07-12 2020-01-16 深圳齐心集团股份有限公司 商品评价中的视频传播系统及其方法
CN109857842A (zh) * 2018-12-21 2019-06-07 北京奇艺世纪科技有限公司 一种报障文本识别的方法及装置
CN109857842B (zh) * 2018-12-21 2021-06-15 北京奇艺世纪科技有限公司 一种报障文本识别的方法及装置
CN110602483A (zh) * 2019-08-23 2019-12-20 北京奇艺世纪科技有限公司 视频故障确定方法、装置及计算机可读存储介质
CN110602483B (zh) * 2019-08-23 2021-05-25 北京奇艺世纪科技有限公司 视频故障确定方法、装置及计算机可读存储介质
CN111831528A (zh) * 2020-07-17 2020-10-27 浪潮商用机器有限公司 一种计算机系统日志关联方法及相关装置

Similar Documents

Publication Publication Date Title
CN107169091A (zh) 一种数据分析方法及装置
US10832002B2 (en) System and method for scoring performance of chatbots
CN103716690B (zh) 多媒体直播举报的方法、终端、服务器及系统
CN110135879B (zh) 基于自然语言处理的客服质量自动评分方法
CN105608942B (zh) 一种作业批改系统及方法
CN110245716A (zh) 样本标注审核方法及装置
CN106033393B (zh) 一种应用程序测试方法及系统以及移动终端
CN107195303A (zh) 语音处理方法及装置
JP5212604B2 (ja) リスク検知システム、リスク検知方法及びそのプログラム
CN104346480B (zh) 信息挖掘方法和装置
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN106919555A (zh) 用于日志流内包含的数据的字段提取的系统和方法
CN103631963B (zh) 一种基于大数据的关键词优化处理方法及装置
CN109684446A (zh) 文本语义相似度计算方法及装置
CN104915359B (zh) 主题标签推荐方法及装置
CN106886567A (zh) 基于语义扩展的微博突发事件检测方法及装置
CN106601257A (zh) 一种声音识别方法、设备和第一电子设备
CN109525587A (zh) 一种数据包的识别方法及装置
CN107748739A (zh) 一种短信文本模版的提取方法及相关装置
CN104778159B (zh) 一种基于词权重进行分词的方法和装置
CN110275938B (zh) 基于非结构化文档的知识提取方法及系统
CN106095948A (zh) 表格的查询方法、装置和设备
CN110209768A (zh) 自动问答的问题处理方法和装置
US20170263256A1 (en) Speech analytics system
CN104023124A (zh) 自动识别和提取短信中姓名的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170915