CN107818153A

CN107818153A - 数据分类方法和装置

Info

Publication number: CN107818153A
Application number: CN201711024483.9A
Authority: CN
Inventors: 王殿胜; 唐红武; 谢世局; 籍焱; 薄满辉; 赵楠
Original assignee: China Travelsky Mobile Technology Co Ltd
Current assignee: China Travelsky Mobile Technology Co Ltd
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2018-03-20
Anticipated expiration: 2037-10-27
Also published as: CN107818153B

Abstract

本发明提供了一种数据分类方法和装置，其中，该方法包括：获取待分类的航班点评数据；对所述点评数据进行分词处理；基于标签核心词匹配对分词处理后的点评数据进行分类，确定所述点评数据所属的类别。通过上述方案解决了现有的数据方法无法对航班点评数据进行准确分类的技术问题，达到了简单高效实现对航班点评数据的精准分类的技术效果。

Description

数据分类方法和装置

技术领域

本发明涉及航空分析技术领域，特别涉及一种数据分类方法和装置。

背景技术

随着互联网技术的不断发展，越来越多的人通过互联网发表产品的使用心得。对于商家而言，互联网上大量的产品信息反映了用户体验、意见等等。如果可以聚合这些信息提供给商家，那么可以促进商家进行市场调研和产品规划，以及进行服务改进。

然而，考虑到产品评论的多样化，评论信息涉及的层面很多，如何对海量的评论信息进行分类，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据分类方法和装置，以达到对航班点评数据进行精准分类的技术效果，该方法包括：

获取待分类的航班点评数据；

对所述点评数据进行分词处理；

基于标签核心词匹配对分词处理后的点评数据进行分类，确定所述点评数据所属的类别。

在一个实施方式中，对所述点评数据进行分词处理包括：

去除所述点评数据中的脏数据；

基于航空服务领域的分词词典，对去除脏数据之后的点评数据进行分词处理。

在一个实施方式中，所述航空服务领域的分词词典是通过统计航班点评文本中的高频词生成的。

在一个实施方式中，类别包括以下至少之一：餐食、空乘、娱乐设施、客舱环境、客舱设施、机上广播、准点情况、值机、机型机龄、行李、机票、候机楼、飞行体验、远机位。

在一个实施方式中，基于标签核心词匹配对分词处理后的点评数据进行分类，包括：

获取在所述点评数据中各类别的核心关键词出现的次数和各类别的标签相关词出现的次数；

将核心关键词出现的次数大于0所对应的类别，或者，标签相关词出现的次数大于等于预设阈值所对应的类别，作为所述点评数据所属的类别。

在一个实施方式中，在基于标签核心词匹配对分词处理后的点评数据进行分类，确定所述点评数据所述的类别之后，所述方法还包括：

在基于标签核心词匹配未确定出所述点评数据所属的类别的情况下，通过分词处理后的点评数据中各个词段的概率，对所述点评数据进行分类。

在一个实施方式中，通过分词处理后的点评数据中各个词段的概率，对所述点评数据进行分类，包括：

通过分词处理后的点评数据中各个词段的概率，按照以下方式对所述点评数据进行分类：

设定所述点评数据中包含有k个词语，其中第k个词语表示为wi，其中，i取值为1到k，则所述点评数据属于类别Cn的概率P为：

其中，p(w_i|C_n)为词wi在类别C_n中的概率；

选取概率最大的类别作为各词段所属的类别。

在一个实施方式中，基于标签核心词匹配对分词处理后的点评数据进行分类，确定所述点评数据所属的类别，包括：

对分词处理后的点评数据匹配情感分析语法规则集合；

根据匹配情感分析语法规则集合之后的结果，定位行业属性词；

在定位的行业属性词属于核心关键词或标签相关词的情况下，根据核心关键词或标签相关词，确定所述点评数据所属的类别。

本发明实施例还提供了一种数据分类装置，以达到对航班点评数据进行精准分类的技术效果，该装置包括：

获取模块，用于获取待分类的航班点评数据；

分词模块，用于对所述点评数据进行分词处理；

分类模块，用于基于标签核心词匹配对分词处理后的点评数据进行分类，确定所述点评数据所属的类别。

在一个实施方式中，所述分词模块包括：

去除单元，用于去除所述点评数据中的脏数据；

分词单元，用于基于航空服务领域的分词词典，对去除脏数据之后的点评数据进行分词处理。

在一个实施方式中，所述分类模块包括：

获取单元，用于获取在所述点评数据中各类别的核心关键词出现的次数和各类别的标签相关词出现的次数；

分类单元，用于将核心关键词出现的次数大于0所对应的类别，或者，标签相关词出现的次数大于等于预设阈值所对应的类别，作为所述点评数据所属的类别。

在一个实施方式中，上述装置还包括：词频划分模块，用于在基于标签核心词匹配对分词处理后的点评数据进行分类，确定所述点评数据所述的类别之后，在基于标签核心词匹配未确定出所述点评数据所属的类别的情况下，通过分词处理后的点评数据中各个词段的概率，对所述点评数据进行分类。

在一个实施方式中，所述词频划分模块具体用于通过分词处理后的点评数据中各个词段的概率，按照以下方式对所述点评数据进行分类：

其中，p(w_i|C_n)为词wi在类别C_n中的概率；

选取概率最大的类别作为各词段所属的类别。

在一个实施方式中，所述分类模块包括：

匹配单元，用于对分词处理后的点评数据匹配情感分析语法规则集合；

定位单元，用于根据匹配情感分析语法规则集合之后的结果，定位行业属性词；

确定单元，用于在定位的行业属性词属于核心关键词或标签相关词的情况下，根据核心关键词或标签相关词，确定所述点评数据所属的类别。

在本发明实施例中，基于标签核心词匹配对航班点评数据进行分类，确定出航班点评数据所属的类别。通过上述方案解决了现有的数据方法无法对航班点评数据进行准确分类的技术问题，达到了简单高效实现对航班点评数据的精准分类的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1是根据本发明实施例的数据分类方法的方法流程图；

图2是根据本发明实施例的数据分类系统的架构图；

图3是根据本发明实施例的基于情感分析的分类算法的模型示意图；

图4是根据本发明实施例的数据分类装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在本说明书中，诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分，而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下，参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个，而可以是元素、部件、或步骤中的一个或多个等。

在本发明实施例的中，提供了一种数据分类方法，如图1所示，可以包括如下步骤：

步骤101：获取待分类的航班点评数据；

为了实现对数据的有效处理，在获取到待分类的航班点评数据之后，可以去除所述点评数据中的脏数据。

具体的，可以是去除其中的无用信息，或者是一些标点等，以减少存储空间。

步骤102：对所述点评数据进行分词处理；

在进行分词的时候，可以是依据专门为航空服务领域设置的分词词典为分词基础的，即将待分类的航班点评数据切割成一个一个的词语，以便于后续处理。为了实现使得分词结果更为准确，可以建立行业分词词典。即可以识别出行业领域中的重要词汇，将这些词汇增加到分词词典汇总。例如“头等舱”等，这个行业还有的词汇。

其中，航空服务领域的分词词典可以是通过统计航班点评文本中的高频词生成的。还可以构建行业属性词和情感词，可以是通过搜集中文情感词以及人工审查方式，构成情感词词典。

步骤103：基于标签核心词匹配对分词处理后的点评数据进行分类，确定所述点评数据所属的类别。

其中，可以将航班点评数据划分为以下类别至少之一：餐食、空乘、娱乐设施、客舱环境、客舱设施、机上广播、准点情况、值机、机型机龄、行李、机票、候机楼、飞行体验、远机位、其他。

具体的，在基于标签核心词匹配对分词处理后的点评数据进行分类的时候，可以包括如下步骤：

S1：获取在所述点评数据中各类别的核心关键词出现的次数和各类别的标签相关词出现的次数；

S2：将核心关键词出现的次数大于0所对应的类别，或者，标签相关词出现的次数大于等于预设阈值所对应的类别，作为所述点评数据所属的类别。

其中，核心关键词要求与类别标签强相关，因此可以人工进行总结。基于对业务的理解以及对评论文本的分析可以较为容易的获取各个类别的核心关键词。在本例中，可以限定每个类别的核心关键词规模在20个以内，因此相应的人工成本并不高，且后续可以很方便地进行删减，优化，维护成本也很低。

其中，标签相关词规模较大，各个类别可能有上百个，可以采用关联规则分析算法，主要是考察与核心关键词频繁共现的词语。这个方法的直观理解是：如果一个词语与某个标签的核心关键词频繁的一起出现，则这个词语很大概率上与该标签相关。因此，可以采用计算互信息的方法求取相关词。标签相关词规模较大，各个类别可能有上百个，可以采用关联规则分析算法，主要是考察与核心关键词频繁共现的词语。这个方法的直观理解是：如果一个词语与某个标签的核心关键词频繁的一起出现，则这个词语很大概率上与该标签相关。因此，可以采用计算互信息的方法求取相关词。

在一个实施方式中，在基于标签核心词匹配对分词处理后的点评数据进行分类，确定所述点评数据所述的类别之后，还可以在基于标签核心词匹配未确定出所述点评数据所属的类别的情况下，通过分词处理后的点评数据中各个词段的概率，对所述点评数据进行分类。

具体的，通过分词处理后的点评数据中各个词段的概率，对所述点评数据进行分类，可以通过分词处理后的点评数据中各个词段的概率，按照以下方式对所述点评数据进行分类：

其中，p(w_i|C_n)为词wi在类别C_n中的概率；

选取概率最大的类别作为各词段所属的类别。

考虑到还可以结合情感词进行类别划分，可以有效提高召回率。为此，基于标签核心词匹配对分词处理后的点评数据进行分类，确定所述点评数据所属的类别，可以包括如下步骤：

S1：对分词处理后的点评数据匹配情感分析语法规则集合；

S2：根据匹配情感分析语法规则集合之后的结果，定位行业属性词；

S3：在定位的行业属性词属于核心关键词或标签相关词的情况下，根据核心关键词或标签相关词，确定所述点评数据所属的类别。

下面结合一个具体实施例对上述数据分类方法进行说明，然而，值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

在本例中提出了一种针对民航领域的航班点评分类方法，以有效提升航空公司对用户反馈信息进行分类与统计的效率。

对于短文本分类，一般采用有监督模型算法和无监督模型算法，其中：

1)有监督模型算法主要包括：SVM、贝叶斯分类器、时间序列模型(隐马尔科夫模型)、神经网络模型、决策树。

2)无监督模型算法包括：LDA(潜在狄利克雷分布)等主题模型、基于词向量的聚类模型，例如：先用word2vector进行特征提取，再利用KMEANS等聚类算法。

然而，上述这些有监督模型算法的短文本分类方式都需要大量的人工标注信息，因此实现起来成本较高。无监督模型人力成本小，但是性能不好。

在本例中，考虑到可以基于特定领域进行短文本分类模型设计，即，可以专门基于航空领域建立分类模型。

在本例中，结合统计模型与语序信息，同时引入行业背景知识，进行分类模型的建立，具体的，可以包括如下方式：

1)结合民航行业领域知识，构建分词词典，情感词典等专业化的领域知识，从而对航班点评数据进行针对性的优化。

2)结合少量的人工知识与行业知识，自动化地构建相关标签词语以及词语-类别概率信息，以实现自动分类，大大降低了人工参与的工作量，同时保证分类有较高的精度。

3)结合中文语法结构信息与情感分析结果，从一定程度上考虑了语序信息，有效地克服了词袋模型的不足。

在本例中，提供了一种数据分类系统，如图2所示，可以包括：标签核心词匹配模块、基于词频的概率模型、情感分析模块、标签模块。由图中标识可以看出标签核心词匹配模块与概率模型之间由虚线相连，表示概率模型模块的部分数据可由核心词匹配模块提供。

在进行模型整合的时候，可以按照以下原则执行：

S1：首先通过标签核心词匹配模块处理经过预处理的数据；

S2：将通过标签核心词匹配模块后的数据，交由情感分析模块处理；

S3：将S1和S2得到的数据进行整合，去除其中重复的标签，如果步骤S1和S2未生成任何标签，则将数据交给概率模型处理。

S4：将S1、S2和S3得到的数据进行整合，生成最终的标签。

具体的，上述步骤可以包括：

S1：数据预处理。

其中，数据可以是航旅纵横APP中用户对航班的点评数据，其中，每条评论可以是1到3句的短文本，字数一般在30字以内。其中，预处理可以是去除非中文字符、然后进行中文分词、去除停用词等操作。

其中，去除非中文字符是为了规范文本，除去不必要的脏数据，减小存储空间。中文分词，主要是考虑到在处理文本时的基本单元是词语，因此可以将句子切割成一个一个的词语，以便于后续处理。在实现的时候，中文分词可以通过开源中文分词工具实现，例如：FUDANNLP。

举例而言，对一下评论数据可以按照如下方式进行分词和词性分析：

原始评论：头等舱嘛，服务很不错的，很准点！

分词结果：头等舱嘛，服务很不错的，很准点！

带词性标注的分词结果：头/序数词等/量词舱/名词嘛/语气词，/标点服务/动词很/副词不错/形谓词的/语气词，/标点很/副词准点/形谓词！/标点

其中，上述的分词结果可以是采用基于词的统计特征，在很多情况下，分词结果并不是很理想，主要原因是在特定的文本领域内，存在一些专有名词，需要将这些词语加入指定的分词词典，才能有效的分词。

举例如下：

原始分词结果：头等舱嘛，服务很不错的，很准点！

加入行业词后分词结果：头等舱嘛，服务很不错的，很准点！

第二个结果是加入行业词“头等舱”后的分词结果。对比可知，在没有加入“头等舱”前，“头等舱”被分成了“头”、“等”、“舱”。加入“头等舱”后，分词结果为“头等舱”，即成功识别了这个行业领域词。类似的还有“中国东方航空公司”，“摆渡车”，“安检口”等。

为了有效的分词，识别出行业领域的重要词汇，可以将这些专业词语加入分词词典，具体的，可以采用人工整理和关联规则分析的方式将专业词语加入分词词典中。

其中，人工整理可以是人工总结行业领域内的专业术语和专有名词。例如：航空公司名称、重要的机场、主要的飞机设备、航空服务专有名词等。

关联规则分析就是基于分词结果，统计那些频繁的、相邻出现的词汇。然后，将这些共现词汇进行整理，通过人工审核再筛选为行业词，是对人工总结的一种重要补充，可以采用Apriori算法作为关联规则算法。

情感分析模块可以根据构建的行业属性词和情感词进行情感分析，其中，在实现的时候，可以是通过在网上搜集到中文情感词以及人工审查，构成本系统的情感词。行业属性词可以是由行业的专有名词以及专业术语构成。例如，可以搜集航班点评文本，然后统计出高频词，再进行人工审核，以筛选出行业属性词。

下面结合一个具体实施例对基于标签核心词匹配的分类算法进行说明：

例如，评论文本为“飞机因机械故障晚点近5小时，飞机上没有电视，座椅偏硬”，那么该评论文本对应的标签就是：准点情况客舱设施娱乐设施。

由此可见，上述评论文本归属于三个类别标签：准点情况客舱设施娱乐设施。然而，基于现有的分类算法，往往无法有效地分析多标签。因为常用的机器学习分类算法都是擅长将样本归为某一个类别。为了有效地解决该问题，在本例中提出了一种基于标签核心词匹配的算法。

具体地，可以将航班点评数据划分为多个类别(例如：15类)，每个类别对应一个标签，可以分别为：

餐食空乘娱乐设施客舱环境客舱设施机上广播准点情况值机机型机龄行李机票候机楼飞行体验远机位其他。

基于上述的类别信息，可以按照如下步骤进行关键词匹配：

S1：载入各个类别的核心关键词和标签相关词；

S2：分词、去除停用词；

S3：给定待处理评论，统计在该评论中，各个类别Cn的核心关键词出现的次数Tn；

S4：统计在该评论中，各个类别Cn的标签相关词出现的次数Rn。

S5：遍历每个类别Cn，如果Tn大于0或者Rn大于阈值p，则输出该类别标签。

该算法的关键就是总结出每个类别中合适的核心关键词和标签相关词，其中，核心关键词是能够明显反应类别属性的词语，一旦评论中包含这些词，则可以判定该评论属于对应的类别。标签相关词则是与该类别标签有一定关系的词语，虽然没有核心关键词相关性强，但也具有一定的参考意义，如果评论中包含较多的这方面的词语，则也可以判定为相关类别。

例如，类别为飞行体验的核心关键词与标签相关词如下：

核心关键词：颠簸耳朵失重感起降触地气流

标签相关词(抽样举例)：降落摇晃

核心关键词要求与类别标签强相关，因此可以人工进行总结。基于对业务的理解以及对评论文本的分析可以较为容易的获取各个类别的核心关键词。在本例中，可以限定每个类别的核心关键词规模在20个以内，因此相应的人工成本并不高，且后续可以很方便地进行删减，优化，维护成本也很低。

其中，标签相关词规模较大，各个类别可能有上百个，可以采用关联规则分析算法，主要是考察与核心关键词频繁共现的词语。这个方法的直观理解是：如果一个词语与某个标签的核心关键词频繁的一起出现，则这个词语很大概率上与该标签相关。因此，可以采用计算互信息的方法求取相关词。

假设词语a为类别Cn的核心关键词，词语b与词语a的互信息为I(a，b)，如果I(a，b)大于指定阈值，则认为b是类别Cn的标签相关词。如果按照上述方法，得出词语b为多个类别的相关词，那么可以取互信息最大的类别作为该词语的相关类别。

通过上述方式建立的模型较为简单，开发效率高，且可以方便地删减类别，较为适合处理标签频繁变化的业务场景。在实现的时候无需人工标注数据，无监督执行，可以大大节省人力成本。

通过实验验证，核心关键词匹配算法可以获得很高的准确率，达到90％，但是召回率较低，只有70％左右，主要是因为核心关键词与相关词只是汉语词汇中的一小部分，在评论语料中，有很多评论并不包含任何的上述词汇，因此无法识别。为了解决这一问题，还可以引入基于词频的分类算法。

基于词频信息的分类算法主要是基于有很多词语虽然无法定义为核心关键词或者标签相关词，但是在概率意义上，仍然可以对标签分类有帮助的原因提出的。可以利用这些词语通过概率进行分类。

假设评论包含了k个词语，w1，w2，...wk。则该评论属于类别Cn的概率P为：

其中，p(w_i|C_n)为词i在类别中的概率。由上述公式1可知，给定评论，通过求取给定文本在各个类别中的后验概率判定类别。后验概率最大的类即为目标类。而求取后验概率的关键在于求取各个词语在各个类别中的概率：

p(w_i|C_n)(公式3)

具体地，可以搜集足够多的带有标签信息的监督数据，然后，统计各个类别中各个词语的频率来计算式。

考虑到获取大量的监督数据较为繁琐，且人工成本较高，在本例中提出了一种基于少量监督数据的半监督生成模型，可以有效地估计上述公式3的概率，可以包括如下步骤：

S1：利用少量监督数据，计算词典中的词语在各个类别的概率p(w_i|C_n)。

S2：利用计算得出的概率p(w_i|C_n)，根据上述公式2重新计算整个样本集中每个样本的类别；

S3：基于步骤S2之后的样本以及类别信息，重新计算p(w_i|C_n)。

S4：重复执行步骤S2和S3，直到收敛，即，直至p(w_i|C_n)的变化幅度小于阈值。

在上例中，每个评论样本为单个子句，即，评论样本中不包含逗号、句号、感叹号等表示语义分割的标点符号，主要是为了控制每个评论样本只隶属于一个类别，否则无法有效地进行概率统计。

举例而言：

评论样本为：飞机因机械故障晚点近5小时，飞机上没有电视，座椅偏硬。

可以将该评论样本划分为三个样本，各对应一个子句：

1)飞机因机械故障晚点近5小时

2)飞机上没有电视

3)座椅偏硬。

通过上述半监督生成模型的方式通过少数的监督信息，经过有限次迭代就可以生成较为准确的词-类别概率。大大降低了人力成本。

上述步骤S1中的少量监督信息，可以按照关键词匹配算法得出。实验结果表示，这种方法可以得到95％的准确率，且召回率接近97％，可以有效提高召回率。

进一步的，考虑到上述的关键词匹配算法、半监督生成模型算法都仅考虑了词频信息，没有考虑词语的顺序信息。在本例中考虑到可以基于语法规则的情感分析，辅助定位用户的评论关注点，从而间接实现分类。

具体地，可以如图3所示，在实现的时候可以按照如下步骤执行：

S1：构建情感词典，行业产品属性词典；

S2：将待测评论文本匹配情感分析语法规则集合；

S3：定位属性词；

S4：如果属性词为某个类别的核心关键词或者相关词，则匹配该类别标签

其中，步骤S2中的语法规则可以包括以下几种：

1)名词+形容词

2)形容词+名词

3)名词+情态动词+动词

4)“没有”+名词。

其中，形容词通常为情感词词典中的词语，名词则为行业属性词。进一步的，还可以通过人工标注信息，以辅助完善语法规则集合。

上述紫红语法规则可以涵盖80％以上的评论句式，在一定程度上利用了语序信息。

结合上述的关键词匹配算法、半监督生成模型算法、基于语法规则的情感分析对评论内容进行分类，可以输出评论所属的类别标签，准确率可以达到97％左右。而且大部分工作只需要少量人工参与，基本上是无监督模型。数据成本和人力成本都很低。

即，在上例中，通过基于类别核心关键词的匹配方法进行短文本分类，适合多分类任务，基于关联规则方法补充分词词典，可以辅助人工总结行业专有名词，通过半监督生成模型构建词语-类别概率矩阵，可以提升召回率，基于情感分析技术辅助定位类别信息，可以有效利用语序信息。

相对于现有的基于LDA主题模型进行短文本分类的方式，本例中的分类方式可以认为是无监督模型。然而LDA是双层贝叶斯模型，相对而言较为复杂，需要文本包含较为丰富的统计信息才能有效建模，且短文本词语较少，容易受噪声干扰，因此基于LDA等主题模型进行建模误差较大。本例中的方式使用较为简单的单层概率生成模型，有效降低了噪音的干扰，且实现简单，同时利用少量监督信息，能够更加贴合业务场景。

基于同一发明构思，本发明实施例中还提供了一种数据分类装置，如下面的实施例所述。由于数据分类装置解决问题的原理与数据分类方法相似，因此数据分类装置的实施可以参见数据分类方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。图4是本发明实施例的数据分类装置的一种结构框图，如图4所示，可以包括：获取模块401、分词模块402和分类模块403，下面对该结构进行说明。

获取模块401，用于获取待分类的航班点评数据；

分词模块402，用于对所述点评数据进行分词处理；

分类模块403，用于基于标签核心词匹配对分词处理后的点评数据进行分类，确定所述点评数据所属的类别。

在一个实施方式中，分词模块402可以包括：去除单元，用于去除所述点评数据中的脏数据；分词单元，用于基于航空服务领域的分词词典，对去除脏数据之后的点评数据进行分词处理。

在一个实施方式中，航空服务领域的分词词典可以是通过统计航班点评文本中的高频词生成的。

在一个实施方式中，类别可以包括但不限于以下至少之一：餐食、空乘、娱乐设施、客舱环境、客舱设施、机上广播、准点情况、值机、机型机龄、行李、机票、候机楼、飞行体验、远机位。

在一个实施方式中，分类模块403可以包括：获取单元，用于获取在所述点评数据中各类别的核心关键词出现的次数和各类别的标签相关词出现的次数；分类单元，用于将核心关键词出现的次数大于0所对应的类别，或者，标签相关词出现的次数大于等于预设阈值所对应的类别，作为所述点评数据所属的类别。

在一个实施方式中，上述数据分类装置还可以包括：词频划分模块，用于在基于标签核心词匹配对分词处理后的点评数据进行分类，确定所述点评数据所述的类别之后，在基于标签核心词匹配未确定出所述点评数据所属的类别的情况下，通过分词处理后的点评数据中各个词段的概率，对所述点评数据进行分类。

在一个实施方式中，词频划分模块具体可以用于通过分词处理后的点评数据中各个词段的概率，按照以下方式对所述点评数据进行分类：

其中，p(w_i|C_n)为词wi在类别C_n中的概率；

选取概率最大的类别作为各词段所属的类别。

在一个实施方式中，分类模块403可以包括：匹配单元，用于对分词处理后的点评数据匹配情感分析语法规则集合；定位单元，用于根据匹配情感分析语法规则集合之后的结果，定位行业属性词；确定单元，用于在定位的行业属性词属于核心关键词或标签相关词的情况下，根据核心关键词或标签相关词，确定所述点评数据所属的类别。

在另外一个实施例中，还提供了一种软件，该软件用于执行上述实施例及优选实施方式中描述的技术方案。

在另外一个实施例中，还提供了一种存储介质，该存储介质中存储有上述软件，该存储介质包括但不限于：光盘、软盘、硬盘、可擦写存储器等。

从以上的描述中，可以看出，本发明实施例实现了如下技术效果：基于标签核心词匹配对航班点评数据进行分类，确定出航班点评数据所属的类别。从而解决了现有的数据方法无法对航班点评数据进行准确分类的技术问题，达到了简单高效实现对航班点评数据的精准分类的技术效果。

显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据分类方法，其特征在于，包括：

获取待分类的航班点评数据；

对所述点评数据进行分词处理；

2.根据权利要求1所述的方法，其特征在于，对所述点评数据进行分词处理包括：

去除所述点评数据中的脏数据；

3.根据权利要求2所述的方法，其特征在于，所述航空服务领域的分词词典是通过统计航班点评文本中的高频词生成的。

4.根据权利要求1所述的方法，其特征在于，类别包括以下至少之一：餐食、空乘、娱乐设施、客舱环境、客舱设施、机上广播、准点情况、值机、机型机龄、行李、机票、候机楼、飞行体验、远机位。

5.根据权利要求1所述的方法，其特征在于，基于标签核心词匹配对分词处理后的点评数据进行分类，包括：

6.根据权利要求1所述的方法，其特征在于，在基于标签核心词匹配对分词处理后的点评数据进行分类，确定所述点评数据所述的类别之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，通过分词处理后的点评数据中各个词段的概率，对所述点评数据进行分类，包括：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>p</mi> <mo>=</mo> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>n</mi> </msub> <mo>|</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>...</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>...</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>/</mo> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>...</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>&Proportional;</mo> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>n</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>...</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mi>p</mi> <mo>(</mo> <mrow> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>...</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>n</mi> </msub> </mrow> <mo>)</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <munderover> <mi>&Pi;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mi>p</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>n</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

<mrow> <mi>m</mi> <mo>=</mo> <munder> <mi>argmax</mi> <mi>n</mi> </munder> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>n</mi> </msub> <mo>|</mo> <msub> <mi>w</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>w</mi> <mn>2</mn> </msub> <mo>...</mo> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中，p(w_i|C_n)为词wi在类别C_n中的概率；

选取概率最大的类别作为各词段所属的类别。

8.根据权利要求1所述的方法，其特征在于，基于标签核心词匹配对分词处理后的点评数据进行分类，确定所述点评数据所属的类别，包括：

对分词处理后的点评数据匹配情感分析语法规则集合；

9.一种数据分类装置，其特征在于，包括：

获取模块，用于获取待分类的航班点评数据；

分词模块，用于对所述点评数据进行分词处理；

10.根据权利要求9所述的装置，其特征在于，所述分词模块包括：

去除单元，用于去除所述点评数据中的脏数据；

11.根据权利要求10所述的装置，其特征在于，所述航空服务领域的分词词典是通过统计航班点评文本中的高频词生成的。

12.根据权利要求9所述的装置，其特征在于，类别包括以下至少之一：餐食、空乘、娱乐设施、客舱环境、客舱设施、机上广播、准点情况、值机、机型机龄、行李、机票、候机楼、飞行体验、远机位。

13.根据权利要求9所述的装置，其特征在于，所述分类模块包括：

14.根据权利要求9所述的装置，其特征在于，还包括：

词频划分模块，用于在基于标签核心词匹配对分词处理后的点评数据进行分类，确定所述点评数据所述的类别之后，在基于标签核心词匹配未确定出所述点评数据所属的类别的情况下，通过分词处理后的点评数据中各个词段的概率，对所述点评数据进行分类。

15.根据权利要求14所述的装置，其特征在于，所述词频划分模块具体用于通过分词处理后的点评数据中各个词段的概率，按照以下方式对所述点评数据进行分类：

其中，p(w_i|C_n)为词wi在类别C_n中的概率；

选取概率最大的类别作为各词段所属的类别。

16.根据权利要求9所述的装置，其特征在于，所述分类模块包括：