CN109271520A

CN109271520A - 数据提取方法、数据提取装置、存储介质和电子设备

Info

Publication number: CN109271520A
Application number: CN201811251741.1A
Authority: CN
Inventors: 龚建
Original assignee: Beijing Xiaodu Information Technology Co Ltd
Current assignee: Beijing Xiaodu Information Technology Co Ltd
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2019-01-25
Anticipated expiration: 2038-10-25
Also published as: CN109271520B

Abstract

公开了一种数据提取方法、数据提取装置、存储介质和电子设备。本发明实施例根据获取的评价数据集合中的多个评价文本，获取评价文本的词频向量，并根据关键词表调整词频向量获取调整后的词频向量，进而对调整后的词频向量进行聚类获取评价文本的聚类概率分布，从而根据评价文本的聚类概率分布提取待分析的评价文本。由此，可以更加准确地分析评价文本的观点倾向，为后续对商品、物流和平台的改进提供数据支持。

Description

数据提取方法、数据提取装置、存储介质和电子设备

技术领域

本发明公开涉及数据分析技术领域，具体涉及一种数据提取方法、数据提取装置、存储介质和电子设备。

背景技术

随着互联网技术的不断发展，O2O平台的用户规模逐渐变得越来越庞大，因此平台中的用户评价数量也在逐渐增长。用户评价大多关于平台本身、物流、商家或商品，甚至包括部分垃圾信息。现有的用户评价分类方法通常通过tf-idf(term frequency-inversedocument frequency，词频-逆文档频率)算法(一种统计加权算法)获取用户评价的词频向量，并需要对词频向量进行降维，进而判断用户评价的类别，因此现有的用户评价分类方法计算量较大，且准确度不高。

发明内容

有鉴于此,本发明实施例提供了一种数据提取方法、数据提取装置、存储介质和电子设备，能够在降低计算量的同时提升用户评价分类的准确性，为后续分析用户评价从而改进商品、物流和平台提供数据支持。

第一方面，本发明实施例提供了一种数据提取方法，所述方法包括：

获取评价数据集合，所述评价数据集合包括多个评价文本；

获取所述评价文本的第一词频向量；

根据关键词表调整所述第一词频向量获取调整后的第二词频向量；

对所述第二词频向量进行聚类获取所述评价文本的聚类概率分布；

根据所述评价文本的聚类概率分布提取待分析的评价文本。

优选地，获取所述评价文本的第一词频向量包括：

根据所述评价数据集合的停用词表获取所述评价文本的第一词频向量。

优选地，根据所述评价数据集合的停用词表获取所述评价文本的第一词频向量包括：

对所述评价文本进行分词，获取第一词表，所述第一词表包括所述评价数据集合的所述评价文本中出现的词语；

根据所述停用词表调整所述第一词表，获取不含停用词的第二词表，所述停用词表包括预定的词语；

根据所述第二词表获取所述评价文本的第一词频向量。

优选地，所述停用词表还包括所述第一词表中频数低于预定阈值的词语。

优选地，根据关键词表调整所述词频向量获取调整后的第二词频向量包括：

对所述关键词表中的词语赋予不同的预定权重；

根据所述权重调整所述第一词频向量，获取所述调整后的第二词频向量。

优选地，对所述第二词频向量进行聚类获取所述评价文本的聚类概率分布包括：

根据预定的主题模型对所述第二词频向量进行聚类，获取所述评价文本的聚类概率分布。

优选地，所述预定的主题模型为隐含狄利克雷分布。

第二方面，本发明实施例提供了一种数据提取装置，所述装置包括：

数据获取单元，用于获取评价数据集合，所述评价数据集合包括多个评价文本；

词频向量获取单元，用于获取所述评价文本的第一词频向量；

词频向量调整单元，用于根据关键词表调整所述第一词频向量获取调整后的第二词频向量；

聚类概率获取单元，用于对所述第二词频向量进行聚类获取所述评价文本的聚类概率分布；

评价文本提取单元，用于根据所述评价文本的聚类概率分布提取待分析的评价文本。

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储计算机程序指令，其中，所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。

第四方面，本发明实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。

本发明实施例根据获取的评价数据集合中的多个评价文本，获取评价文本的词频向量，并根据关键词表调整词频向量获取调整后的词频向量，进而对调整后的词频向量进行聚类获取评价文本的聚类概率分布，从而根据评价文本的聚类概率分布提取待分析的评价文本。由此，可以更加准确地分析评价文本的观点倾向，为后续对商品、物流和平台的改进提供数据支持。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明第一实施例的数据提取方法的流程图；

图2是本发明第一实施例的第一个可选的实现方式中获取评价文本的词频向量的流程图；

图3是本发明第一实施例的第二个可选的实现方式中获取调整后的词频向量的流程图；

图4是本发明第一实施例的方法提取待分析的评价文本的流程图；

图5是本发明第二实施例的数据提取装置的示意图；

图6是本发明实施例的数据提取方法的数据流程图；

图7-图8是本发明实施例的应用场景界面示意图；

图9是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明公开进行描述，但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

对于O2O平台而言，用户评价是改进平台的重要依据，因此对用户评价进行分类从而进行分析是十分有必要的。现有的用户评价分类方法通常通过算法获取用户评价的词频向量，并需要对词频向量进行降维，进而判断用户评价的类别，因此现有的用户评价分类方法计算量较大，且准确度不高。也就是说，现有的用户评价分类方法无法为后续用户评价的分析提供较好的支持。在本发明实施例中，以用户评价为数据为例来进行说明，但是本领域技术人员容易理解，本发明实施例的方法同样适用于其他类型的数据。

图1是本发明第一实施例的数据提取方法的流程图。在本实施例中，以对用户的评价文本的提取过程为例进行说明。如图1所示，本实施例的方法包括如下步骤：

步骤S100，获取评价数据集合，评价数据集合包括多个评价文本。

在本步骤中，获取预定天数的用户的评价文本，将用户的每条评价作为一个评价文本。可以获取预定天数的全部评价文本，也可以随机抽取部分评价文本，并将获取的评价文本作为评价数据集合。

步骤S200，获取评价文本的第一词频向量。

由于频数统计的计算量最小且在后续对聚类的准确度影响较小，因此，本实施例中，第一词频向量为词语的频数的向量。优选地，在本实施例中，可以根据评价数据集合的停用词表分别获取每个评价文本的词频向量。停用词表中包括大量的停用词，根据停用词表获取文本的第一词频向量可以降低后续的计算量，同时降低对聚类的准确度的影响。

步骤S300，根据关键词表调整第一词频向量获取调整后的第二词频向量。

在本实施例中，关键词表是预先设定的。关键词表中的关键词可以分为多类，在本实施例中，可以大致分为两类，包括好评和差评。具体地，差评可以细分为关于商品、物流、平台等的差评，更具体地，还可以更加细化地分类，例如，关于商品的差评可以包括味道、价格和质量等的差评，关于物流的差评可以包括配送时长、服务态度和配送收费等的差评。由此，可以根据关键词的分类调整第一词频向量，进而可以提升后续聚类的准确度。

步骤S400，对第二词频向量进行聚类获取评价文本的聚类概率分布。

在本实施例中，可以通过各种现有的方式对第二词频向量进行聚类，例如分类模型。优选地，可以根据预定的主题模型对第二词频向量进行聚类，获取所述评价文本的聚类概率分布。主题模型是一种无监督的软聚类(也即，模糊聚类)模型，也是用于在文档中发现并抽象主题的统计模型。软聚类是一种采用模糊数学语言对事物按一定要求描述和分类的数学方法，用于将数据集合分为多类或多簇，使得各类之间的数据差别尽可能大、类内之间的数据差别尽可能小。常见的主题模型包括LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)、PLSA(概率潜在语义分析)、Unigram模型等。更具体地，在本实施例中，预定的主题模型为LDA。LDA也被称为三层贝叶斯概率模型，包含词、主题和文档三层结构。LDA的输入为词频向量，输出为聚类概率分布向量(也即，属于某一主题的概率的分布向量)。且LDA无需考虑词频向量中考虑词与词之间的顺序，因此降低了计算的复杂性。在LDA中，可以认为一篇文章的每个词都是通过“以一定的概率选择了某个主题，并从这个主题中以一定概率选择某个词语”得到的。也就是说，LDA模型可以用如下公式表示：

其中，p(词语|文本)为某个评价文本中出现某一词的概率，p(词语|主题)为在某个主题中出现某个词语的概率，p(主题|文本)为在某个评价文本中出现某个主题的概率。LDA会将相似的词语聚类到同一个主题中，例如，“乔布斯”和“苹果”，由此，可以降低某个词语对聚类准确性的影响。同时还可以发现新的关键词，新的关键词可以用于后续有监督的分类模型中。

LDA作为贝叶斯预测模型的一种，同样符合贝叶斯统计预测方法，也即：先验分布+样本＝后验分布。具体地，在LDA中为：Dirichlet+multi＝Dirichlet(也即，狄利克雷先验分布+多项分布＝狄利克雷后验分布)。因此，假定对于任一评价文本，某一主题的先验分布θ＝Dirichlet(α)，也即，Dirichlet(α)为p(主题|文本)的先验分布函数，α为k阶向量，是LDA的超参数，k是LDA的聚类数量(也即，主题数量)，为大于等于1的预定整数；对于任一主题，某一词语的先验分布β＝Dirichlet(η)，也即，Dirichlet(η)为p(词语|主题)的先验分布函数，η为n阶向量，也是LDA的超参数，n为大于等于1的预定整数，是第二词频向量的维数。

由于LDA的超参数α和η较难确定，因此可以通过EM变分推断的方式近似预测。α的变分参数为γ，η的变分参数为φ。优选地，可以通过网格搜索的方法确定超参数α和η及变分参数γ和φ的阈值。设定变分参数γ和φ的阈值可以降低计算量，同时提升聚类的准确性。网格搜索是一种遍历的方式，通过遍历超参数和变分参数阈值的所有可能取值(或形式)挑选出聚类准确度最高的组合。α可以为非对称形式、对称形式等，η可以为对称形式、非对称形式、矩阵形式等，γ的阈值可以为0.0001、0.001、0.01、0.1等，φ的阈值可以为0.001、0.01、0.1等，主题的概率阈值可以为0.001、0.01、0.1等。还可以设定主题的概率阈值，例如，主题的概率阈值设定为0.01，如果某一主题的概率低于0.01时，则不输出该主题的概率。在本实施例中，通过网格搜索的方式确定的超参数、变分参数和主题的概率阈值为：α为非对称形式，η为矩阵形式，γ的阈值为0.001，φ的阈值为0.01，主题的概率阈值为0.01。

设定好模型的超参数、变分参数阈值和主题的概率阈值后，将第二词频向量作为服从多项分布的样本输入LDA后，可以获得服从狄利克雷后验分布的评价文本的聚类概率分布。

步骤S500，根据评价文本的聚类概率分布提取待分析的评价文本。

在本步骤中，可以根据需要按评价文本的聚类概率分布进一步筛选并提取待分析的评价文本。由此，可以根据待分析的评价文本对商品、物流和平台进行更有针对地改进。

图2是本发明第一实施例的第一个可选的实现方式中获取评价文本的词频向量的流程图。如图2所示，在本实施例的第一个可选的实现方式中，步骤S200可以包括如下步骤：

步骤S210，对评价文本进行分词，获取第一词表。

其中，第一词表包括评价数据集合的评价文本中出现的词语。在本实施例中，可以采用各种现有的分词工具、分词算法对评价文本进行分词，例如，Stanford NLP(斯坦福自然语言处理)、ICTCLAS(Institute of Computing Technology,Chinese LexicalAnalysis System，计算技术研究所汉语词汇分析系统)、结巴分词等。将评价文本中的所有词语加入到第一词表中，并去除相同的词语。第一词表可以不考虑词语出现的顺序。

步骤S220，根据停用词表调整所述第一词表，获取不含停用词的第二词表。

其中，停用词表包括预定的词语，例如，“你”、“我”、“的”等无实义的词语。优选地，还可以根据第一词表对评价数据集合中的所有词语进行频数统计，并将频数低于预定阈值的词语加入停用词表中。也即，停用词表还包括第一词表中频数低于预定阈值的词语。对第一词表进行去停用词处理，可以获得不含停用词的第二词表。由此，可以进一步降低词频向量的维数，从而降低计算量。

步骤S230，根据第二词表获取评价文本的第一词频向量。

在本步骤中，根据第二词表分别获取每个评价文本中的词语的频数，并将频数作为每个评价文本的第一词频向量。由此，获得第一词频向量的计算量最小。应理解，也可以先根据第一词表获取评价文本的词频向量，后根据停用词表调整词频向量获取评价文本的第一词频向量。

图3是本发明第一实施例的第二个可选的实现方式中获取调整后的词频向量的流程图。如图3所示，在本实施例的第二个可选的实现方式中，步骤S300可以包括如下步骤：

步骤S310，对关键词表中的词语赋予不同的预定权重。

在本步骤中，可以根据关键词的分类对关键词赋予不同的权重。例如，可以将关于商品味道的差评的权重设定为4，将关于物流配送收费的差评的权重设定为3。同样地，也可以根据需要对关键词表中的词语赋予不同的权重。例如，关键词为“咸”，权重可以设定为2，关键词为“太咸”，权重可以设定为3。

应理解，在LDA中，输入的第二词频向量中每个词频均为整数，因此关键词的权重为整数。在采用其他模型作为分类模型时，第一词频向量和第二词频向量可以为每个词语的频率的向量，关键词的权重也可以为非整数。

步骤S320，根据权重调整第一词频向量，获取调整后的第二词频向量。

对关键词赋予不同的权重后，根据权重调整第一词频向量，能够提升聚类的准确度。例如，在步骤S200中获取的某一评价文本的第一词频向量为[1,1,1,1]，频数对应的词语为“这家”、“店”、“味道”、“太咸”，其中，“太咸”被赋予了2的权重，由此，调整后的第二词频向量为[1,1,1,2]。

图4是本发明第一实施例的方法提取待分析的评价文本的流程图。如图4所示，在本实施例中，步骤S500可以包括如下步骤：

步骤S510，根据聚类概率分布向量对评价文本进行二次聚类，获取评价文本的类别。

在本步骤中，对评价文本进行二次聚类，可以按类别将不同的评价文本汇总在一起进行分析，由此可以为后续商品、物流和平台的改进提供依据。

步骤S520，在不同类别的评价文本中提取待分析的评价文本。

对评价文本进行二次聚类后，可以进一步对评价文本进行筛选，筛选出评价特征较为明显的评价文本，由此可以降低后续对评价文本的分析的复杂度。

在本实施例的第三个可选的实现方式中，可以根据评价文本的聚类概率分布中最大的聚类概率获取所述评价文本的主类别。例如，某个评价文本的聚类概率分布为类别1:60％，类别2:3％，类别3:15％，类别4：12％，则将类别1作为该评价文本的主类别。由此，步骤S520可以包括如下步骤：

步骤S521，对主类别相同的评价文本集合按照主类别对应的聚类概率进行排序。

步骤S522，获取主类别中排序在前n的评价文本作为所述待分析的评价文本。

其中，n为大于等于1的预定整数。在本实施例中，主类别的聚类概率越大，表示评价文本的评价倾向越明显，因此后续对商品、物流和平台的改进能够提供更有价值的依据。对主类别相同的评价文本按聚类概率进行排序并选取排序在前n的评价文本能够筛选出评价倾向较明显的评价文本，由此可以降低对评价文本的分析的复杂度。

在本实施例的第四个可选的实现方式中，还可以通过计算评价文本的聚类概率分布的相对熵对评价文本进行二次聚类。相对熵又可以称为KL散度，是描述两个概率分布差异的一种方法。相对熵可以根据如下公式计算：

D_KL(P||Q)＝∑P(x)log(P(x)/Q(x))

其中，D(P||Q)为评价文本P对评价文本Q的相对熵，P(x)为评价文本P的聚类概率分布，Q(x)为评价文本Q的聚类概率分布。由此，可以判断两个评价文本之间的相似性。应理解，也可以通过欧式距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)、明可夫斯基距离(Minkowski Distance)、余弦相似度(Cosine Similarity)、杰卡德相似度(Jaccard Similarity)、皮尔森相关系数(Pearson Correlation Coefficient)等方式判断评价文本之间的相似度，从而进行二次聚类。

本实施例根据获取的评价数据集合中的多个评价文本，获取评价文本的词频向量，并根据关键词表调整词频向量获取调整后的词频向量，进而对调整后的词频向量进行聚类获取评价文本的聚类概率分布，从而根据评价文本的聚类概率分布提取待分析的评价文本。由此，可以更加准确地分析评价文本的观点倾向，为后续对商品、物流和平台的改进提供数据支持。

图5是本发明第二实施例的数据提取装置的示意图。如图5所示，本实施例的数据提取装置包括数据获取单元51、词频向量获取单元52、词频向量调整单元53、聚类概率获取单元54和评价文本获取单元55。

其中，数据获取单元51用于获取评价数据集合，所述评价数据集合包括多个评价文本。词频向量获取单元52用于获取所述评价文本的第一词频向量。词频向量调整单元53用于根据关键词表调整所述第一词频向量获取调整后的第二词频向量。聚类概率获取单元54用于对所述第二词频向量进行聚类获取所述评价文本的聚类概率分布。评价文本提取单元55用于根据所述评价文本的聚类概率分布提取待分析的评价文本。

进一步地，所述词频向量获取单元52用于根据所述评价数据集合的停用词表获取所述评价文本的第一词频向量。

进一步地，所述词频向量获取单元52包括第一子单元521、第二子单元522和第三子单元523。

其中，第一子单元521用于对所述评价文本进行分词，获取第一词表，所述第一词表包括所述评价数据集合的所述评价文本中出现的词语。第二子单元522用于根据所述停用词表调整所述第一词表，获取不含停用词的第二词表，所述停用词表包括预定的词语。第三子单元523用于根据所述第二词表获取所述评价文本的第一词频向量。

进一步地，所述停用词表还包括所述第一词表中频数低于预定阈值的词语。

进一步地，所述词频向量调整单元53包括权重设定子单元531和向量调整子单元532。

其中，权重设定子单元531用于对所述关键词表中的词语赋予不同的预定权重。向量调整子单元532用于根据所述权重调整所述第一词频向量，获取所述调整后的第二词频向量。

进一步地，所述聚类概率获取单元54用于根据预定的主题模型对所述第二词频向量进行聚类，获取所述评价文本的聚类概率分布。

进一步地，所述预定的主题模型为隐含狄利克雷分布。

进一步地，所述隐含狄利克雷分布中的超参数和变分参数阈值通过遍历的方法确定。

进一步地，评价文本提取单元55包括类别获取子单元551和文本提取子单元552。

其中，类别获取子单元551用于根据所述聚类概率分布向量对所述评价文本进行二次聚类，获取评价文本的类别。文本提取子单元552用于在不同类别的评价文本中提取待分析的评价文本。

进一步地，所述类别获取子单元551包括主类别获取模块。其中，主类别获取模块用于根据所述评价文本的聚类概率分布中最大的聚类概率获取所述评价文本的主类别。

所述文本提取子单元552包括排序模块和文本提取模块。其中，排序模块用于对主类别相同的评价文本集合按照所述主类别对应的聚类概率进行排序。文本提取模块用于获取所述主类别中所述排序在前n的评价文本作为所述待分析的评价文本，所述n为大于等于1的预定整数。

优选地，所述类别获取子单元551包括相对熵计算模块。其中，相对熵计算模块用于计算评价文本的聚类概率分布的相对熵对所述评价文本进行二次聚类。

图6是本发明实施例的数据提取方法的数据流程图。如图6所示，数据的变化如下：

步骤S1000，获取评价数据集合。

具体地，可以获取平台近30天的用户评价数据，将每条评价作为一个评价文本，评价数据集合中包括平台近30天的用户的评价文本。

步骤S2000，根据评价数据集合中的评价文本获得第一词表和停用词表。

具体地，第一词表中包括评价数据集合中出现的所有词语，停用词表包括无实义的词语，还包括第一词表中频数低于预定阈值的词语。

步骤S3000，根据第一词表和停用词表获取评价文本的第一词频向量。

具体地，可以根据停用词表对第一词表进行去停用词的处理获得第二词表，从而根据第二词表分别对每个评价文本进行频数统计，获得每个评价文本的第一词频向量。也可以根据第一词表分别对每个评价文本进行频数统计，获得每个评价文本的词频向量，进而根据停用词表对词频向量进行降维获得第一词频向量。

步骤S4000，根据关键词表调整第一词频向量获取调整后的第二词频向量。

具体地，可以对关键词表中的不同关键词赋予不同的权重，并根据不同的权重对第一词频向量中的频数进行加权，获得调整后的第二词频向量。

步骤S5000，对第二词频向量进行聚类获取评价文本的聚类概率分布。

具体地，可以采用LDA获取评价文本的聚类概率分布。预先设定好LDA中的超参数、变分参数阈值等后，将第二词频向量输入LDA就可以获得对应的评价文本的聚类概率分布，也可以将聚类概率分布视为聚类概率分布向量。

步骤S6000，根据评价文本的聚类概率分布提取待分析的评价文本。

具体地，可以根据聚类概率分布对评价文本进行二次聚类，并根据需要按类别提取待分析的评价文本。

本实施例根据获取评价数据集合，并根据评价数据集合中的多个评价文本获取第一词表和停用词表，从而获取评价文本的词频向量，根据关键词表调整词频向量获取调整后的词频向量，进而对调整后的词频向量进行聚类获取评价文本的聚类概率分布，从而根据评价文本的聚类概率分布提取待分析的评价文本。由此，可以更加准确地分析评价文本的观点倾向，为后续对商品、物流和平台的改进提供数据支持。

图7-图8是本发明实施例的应用场景界面示意图。在本实施例中，数据提取应用被应用于评价文本的提取。如图7所示，在天数设定窗口71输入想要获取用户评论的天数后，数据提取应用就可以开始自动对评价数据集合中的评价文本进行聚类并提取待分析的评价文本。如图8所示，获取的评价数据集合中的评价样本会展示在聚类概率分布展示窗口81中，例如，评价文本“这家店味道一般，菜量还好…”(省略号中的评价内容未作展示)，属于类别1的概率为60％，属于类别2的概率为3％，属于类别3的概率为15％，属于类别4的概率为12％…(省略号中的聚类及对应的概率未作展示)。获取评价数据样本中的全部样本的聚类概率分布后，会在评价文本提取窗口82展示待分析的评价文本，例如评价文本“物流太慢了，等了好久…”(省略号中的评价内容未作展示)。由此，可以更加准确地分析评价文本的观点倾向，为后续对商品、物流和平台的改进提供数据支持。

图9是本发明实施例的电子设备的示意图。图9所示的电子设备为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器91和存储器92。处理器91和存储器92通过总线93连接。存储器92适于存储处理器91可执行的指令或程序。处理器91可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器91通过执行存储器92所存储的命令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线93将上述多个组件连接在一起，同时将上述组件连接到显示控制器94和显示装置以及输入/输出(I/O)装置95。输入/输出(I/O)装置95可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出(I/O)装置95通过输入/输出(I/O)控制器96与系统相连。

其中，存储器92可以存储软件组件，例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明公开的各个方面。应理解，流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

同时，如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实现方式、完全软件实现方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实现方式。此外，本发明公开的方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

用于执行针对本发明公开各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

本发明实施例公开了A1、一种数据提取方法，所述方法包括：

获取评价数据集合，所述评价数据集合包括多个评价文本；

获取所述评价文本的第一词频向量；

根据所述评价文本的聚类概率分布提取待分析的评价文本。

A2、如A1所述的方法中，获取所述评价文本的第一词频向量包括：

A3、如A2所述的方法中，根据所述评价数据集合的停用词表获取所述评价文本的第一词频向量包括：

根据所述第二词表获取所述评价文本的第一词频向量。

A4、如A2所述的方法中，所述停用词表还包括所述第一词表中频数低于预定阈值的词语。

A5、如A1所述的方法中，根据关键词表调整所述词频向量获取调整后的第二词频向量包括：

对所述关键词表中的词语赋予不同的预定权重；

A6、如A1所述的方法中，对所述第二词频向量进行聚类获取所述评价文本的聚类概率分布包括：

A7、如A6所述的方法中，所述预定的主题模型为隐含狄利克雷分布。

A8、如A7所述的方法中，所述隐含狄利克雷分布中的超参数和变分参数阈值通过遍历的方法确定。

A9、如A1所述的方法中，根据所述评价文本的聚类概率分布提取待分析的评价文本包括：

根据聚类概率分布向量对所述评价文本进行二次聚类，获取所述评价文本的类别；

在不同类别的评价文本中提取待分析的评价文本。

A10、如A9所述的方法中，根据聚类概率分布向量对所述评价文本进行二次聚类，获取评价文本的类别包括：

根据所述评价文本的聚类概率分布中最大的聚类概率获取所述评价文本的主类别；

在不同类别的评价文本中提取待分析的评价文本包括：

对主类别相同的评价文本集合按照所述主类别对应的聚类概率进行排序；

获取所述主类别中所述排序在前n的评价文本作为所述待分析的评价文本，所述n为大于等于1的预定整数。

A11、如A9所述的方法中，根据聚类概率分布向量对所述评价文本进行二次聚类包括：

计算评价文本的聚类概率分布的相对熵对所述评价文本进行二次聚类。

本发明实施例还公开了B1、一种数据提取装置，所述装置包括：

B2、如B1所述的装置中，所述词频向量获取单元用于根据所述评价数据集合的停用词表获取所述评价文本的第一词频向量。

B3、如B2所述的装置中，所述词频向量获取单元包括：

第一子单元，用于对所述评价文本进行分词，获取第一词表，所述第一词表包括所述评价数据集合的所述评价文本中出现的词语；

第二子单元，用于根据所述停用词表调整所述第一词表，获取不含停用词的第二词表，所述停用词表包括预定的词语；

第三子单元，用于根据所述第二词表获取所述评价文本的第一词频向量。

B4、如B2所述的装置中，所述停用词表还包括所述第一词表中频数低于预定阈值的词语。

B5、如B1所述的装置中，所述词频向量调整单元包括：

权重设定子单元，用于对所述关键词表中的词语赋予不同的预定权重；

向量调整子单元，用于根据所述权重调整所述第一词频向量，获取所述调整后的第二词频向量。

B6、如B1所述的装置中，所述聚类概率获取单元用于根据预定的主题模型对所述第二词频向量进行聚类，获取所述评价文本的聚类概率分布。

B7、如B6所述的装置中，所述预定的主题模型为隐含狄利克雷分布。

B8、如B7所述的装置中，所述隐含狄利克雷分布中的超参数和变分参数阈值通过遍历的方法确定。

B9、如B1所述的装置中，所述评价文本提取单元包括：

类别获取子单元，用于根据聚类概率分布向量对所述评价文本进行二次聚类，获取所述评价文本的类别；

文本提取子单元，用于在不同类别的评价文本中提取待分析的评价文本。

B10、如B9所述的装置中，所述类别获取子单元包括主类别获取模块，所述主类别获取模块用于根据所述评价文本的聚类概率分布中最大的聚类概率获取所述评价文本的主类别；

所述文本提取子单元包括：

排序模块，用于对主类别相同的评价文本集合按照所述主类别对应的聚类概率进行排序；

文本提取模块，用于获取所述主类别中所述排序在前n的评价文本作为所述待分析的评价文本，所述n为大于等于1的预定整数。

B11、如B9所述的装置中，所述类别获取子单元还包括：

相对熵计算模块，用于计算评价文本的聚类概率分布的相对熵对所述评价文本进行二次聚类。

本发明实施例还公开了C1、一种计算机可读存储介质，其上存储计算机程序指令，其中，所述计算机程序指令在被处理器执行时实现如A1-A11中任一项所述的方法。

本发明实施例还公开了D1、一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如A1-A11中任一项所述的方法。

以上所述仅为本发明公开的优选实施例，并不用于限制本发明公开，对于本领域技术人员而言，本发明公开可以有各种改动和变化。凡在本发明公开的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明公开的保护范围之内。

Claims

1.一种数据提取方法，其特征在于，所述方法包括：

获取评价数据集合，所述评价数据集合包括多个评价文本；

获取所述评价文本的第一词频向量；

根据所述评价文本的聚类概率分布提取待分析的评价文本。

2.根据权利要求1所述的数据提取方法，其特征在于，获取所述评价文本的第一词频向量包括：

3.根据权利要求2所述的数据提取方法，其特征在于，根据所述评价数据集合的停用词表获取所述评价文本的第一词频向量包括：

根据所述第二词表获取所述评价文本的第一词频向量。

4.根据权利要求2所述的数据提取方法，其特征在于，所述停用词表还包括所述第一词表中频数低于预定阈值的词语。

5.根据权利要求1所述的数据提取方法，其特征在于，根据关键词表调整所述词频向量获取调整后的第二词频向量包括：

对所述关键词表中的词语赋予不同的预定权重；

6.根据权利要求1所述的数据提取方法，其特征在于，对所述第二词频向量进行聚类获取所述评价文本的聚类概率分布包括：

7.根据权利要求6所述的数据提取方法，其特征在于，所述预定的主题模型为隐含狄利克雷分布。

8.一种数据提取装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-7中任一项所述的方法。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。