CN111091000A

CN111091000A - 一种抽取用户细粒度典型意见数据处理系统及方法

Info

Publication number: CN111091000A
Application number: CN201911353588.8A
Authority: CN
Inventors: 刘宝强; 肖云飞
Original assignee: Shenzhen Skieer Information Technology Co ltd
Current assignee: Shenzhen Skieer Information Technology Co ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-01

Abstract

本发明属于数据处理技术领域，公开了一种抽取用户细粒度典型意见数据处理系统及方法，对数据进行清洗，过滤掉噪声数据；对清洗后的数据进行分字，分词；使用词嵌入模型训练字向量、词向量表示，生成相应的文件；定义产品常见属性；抽取用户评论中与产品相关的属性；将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示；对文本进行聚类；得到产品不同属性的用户典型意见。本发明抽取出用户评论中与产品相关的属性文本，将相同属性、相同情感倾向的文本尽可能地聚到同一簇中，得到不同属性的用户典型意见。有效地提高了聚类结果的准确性，并使得聚类结果的颗粒度更小，快速得到用户对产品不同属性的典型意见。

Description

一种抽取用户细粒度典型意见数据处理系统及方法

技术领域

本发明属于数据处理技术领域，尤其涉及一种抽取用户细粒度典型意见数据处理系统及方法。

背景技术

目前，最接近的现有技术：随着互联网技术的不断发展，网络购物改变了我们的生活方式，为我们的生活提供了极大的便捷。通常当我们在某一电商平台上买到某一款产品后，会将自己的购物体验以及使用感受发表出来，以表达自己对该产品的观点。而这些观点对于商家以及想要购买该产品的用户而言是非常重要的。商家通过对大量的用户评论进行分析，可以了解用户对该产品的看法，并对用户不满意的点进行改进，以帮助产品的优化。而想要购买该产品的用户，可以参考已经购买过该产品用户的使用体验，辅助决策，决定是否购买该产品。

目前已经有相关技术方法，可以从用户评论中得到用户对该产品的观点。常见方法包括：(1)通过文本多分类的方法，得到用户对该产品的情感倾向以表达用户对此产品的看法。该方法并不能得到用户对该产品某一属性特有的看法，而大多数情况下，对于同一产品不同的属性，用户所持有的观点是不相同的。(2)通过文本多标签多分类的方法，得到用户对该产品不同属性的情感倾向以表达用户对此产品不同属性的看法。该方法并不能得到用户对不同属性观点的具体表述，只能得到不同属性的情感倾向。但很多时候，通过对属性观点表述的具体阅读，可以得到更多的信息。(3)通过对文本数据直接进行聚类，得到用户对该产品的典型意见。由于文本评论中会存在与该产品无关的描述，因此导致聚类的结果不理想；另外，通过对评论直接进行聚类，可以得到用户对该产品的整体观点，但不能得到用户对该产品不同属性的观点。

综上所述，现有技术存在的问题是：现有技术通过对文本数据直接进行聚类导致聚类的结果不理想；另外，通过对评论直接进行聚类，可以得到用户对该产品的整体观点，但不能得到用户对该产品不同属性的观点。

解决上述技术问题的难度：通常聚类结果由两方面来决定：聚类数据、聚类算法。为了准确得到用户细粒度典型意见，需要对聚类数据进行预处理，使得每一个聚类文本，都带有明显的特征。本发明通过命名实体识别的方法，抽取用户评论文本中提及到的产品属性，将一条评论数据拆分成多条数据，让每一条数据，能够完整的表达用户对产品某一属性的意见，并且过滤掉无关信息。另外，为了使聚类算法能够更好的将同一属性同一意见聚类到同一簇中，不同的属性不同意见聚类到不同簇中，需根据聚类数据的特征，对聚类算法进行调整。本发明对聚类的初始中心点进行了自定义并对聚类结果进行了调整，使聚类的结果更加准确。

解决上述技术问题的意义：扩展了聚类方法的应用领域。由于现有聚类方法存在的效果缺陷，使得它只能成为人们进行文本分析时的一种辅助手段，通常先通过聚类方法对数据分布特征进行大致了解，然后再通过自然语言处理技术中别的方法，对不同特征的数据进行处理，得到数据的具体信息。而上述技术问题的解决，扩展了聚类方法的应用领域，通过聚类方法可以直接得到数据的详细信息，即用户对产品不同属性的典型意见。另外，上述技术问题的解决，为抽取用户细粒度典型意见提出了一种全新的简单高效的方法。对于用户细粒度典型意见的抽取目前通常采用多标签分类的方法来实现，但该方法只能得到用户对产品不同属性总体的意见，并不能得到用户意见的具体描述，通过上述技术问题的解决，既可以得到用户对产品不同属性的总体意见，也可以得到该意见的具体描述。

发明内容

针对现有技术存在的问题，本发明提供了一种抽取用户细粒度典型意见数据处理系统及方法。

本发明是这样实现的，一种抽取用户细粒度典型意见数据处理方法，所述抽取用户细粒度典型意见数据处理方法包括以下步骤：

第一步，对数据进行清洗，过滤掉噪声数据；对清洗后的数据进行分字，分词；

第二步，使用词嵌入模型训练字向量、词向量表示，生成相应的文件；定义产品常见属性；

第三步，使用命名实体识别的方法，抽取用户评论中与产品相关的属性；

第四步，将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示；

第五步，以属性向量为特征，对文本进行聚类；得到产品不同属性的用户典型意见。

进一步，所述抽取用户细粒度典型意见数据处理方法数据进行清洗包括：过滤掉与本产品无关的用户评论，水军评论以及用户评论中出现的无意义的符号；对用户评论中出现的标点符号、英文字母，采用统一的书写方式，转换为统一的表述；对于没有任何标点符号分割的较长文本评论，采用textrank的方法，对文本进行分割，人为添加标点符号进行断句。

进一步，所述抽取用户细粒度典型意见数据处理方法对清洗后的数据进行分词过程中，对于专业领域的词汇、网络用语或缩写，出现分词错误，人工构建自定义分词词典；

所述抽取用户细粒度典型意见数据处理方法字或词的向量化表示，使用Word2vec或Glove模型对文本数据进行训练，生成相应的字向量、词向量文件；

进一步，所述抽取用户细粒度典型意见数据处理方法在产品属性定义阶段，通过调研，人工自定义得到与产品相关的常见属性；

所述抽取用户细粒度典型意见数据处理方法采用命名实体识别的方法抽取用户评论中与该产品相关的属性，命名实体识别使用BiLSTM+CRF网络模型，以输入文本字向量和词向量的组合作为特征输入，对模型进行训练，以识别出与产品相关的属性描述。

进一步，所述抽取用户细粒度典型意见数据处理方法将抽取到的属性文本转换为向量前，通过相似度计算，生成同义词典，将属性文本中所有的同义词进行同义词替换，并使用停用词词典过滤掉无实际意义的词语，通过字向量加权求平均值的方法生成属性文本的向量表示。

进一步，所述抽取用户细粒度典型意见数据处理方法以属性向量为特征，使用Kmeans算法对文本进行聚类，在聚类过程中选取聚类初始中心点：(1)对抽取到的属性文本统计所有文本出现的频率；(2)选择出现次数大于一定阈值的属性文本；(3)计算文本之间的相似度，挑选出相似度小于一定阈值的文本向量作为聚类初始中心点。

进一步，所述抽取用户细粒度典型意见数据处理方法聚类结束后中心观点的选取包括：(1)计算每个簇中文本之间的相似度；(2)将簇中相似度较大的文本映射为同一文本，统计每个簇中，所有文本出现的次数；(3)将出现频率最高的文本作为该簇的中心观点；

所述抽取用户细粒度典型意见数据处理方法计算所有簇中每个属性文本与所有中心观点之间的相似度，对相似度小于阈值的属性文本所属的簇进行调整，将其分配到与该簇中心观点相似度较大的簇中，最后抽取每个簇的中心观点，作为用户对该属性的典型意见。

本发明的另一目的在于提供一种实施所述抽取用户细粒度典型意见数据处理方法的抽取用户细粒度典型意见数据处理系统，所述抽取用户细粒度典型意见数据处理系统包括：

数据处理模块，用于对数据进行清洗，过滤掉噪声数据，对清洗后的数据进行分字，分词；

文件定义模块，用于使用词嵌入模型训练字向量、词向量表示，生成相应的文件，定义产品常见属性；

产品属性抽取模块，用于使用命名实体识别的方法，抽取用户评论中与产品相关的属性；

属性文本转换模块，用于将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示；

文本聚类模块，用于以属性向量为特征，对文本进行聚类；得到产品不同属性的用户典型意见。

本发明的另一目的在于提供一种实现所述抽取用户细粒度典型意见数据处理方法的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的抽取用户细粒度典型意见数据处理方法。

综上所述，本发明的优点及积极效果为：本发明先通过命名实体识别抽取出与该产品相关的属性文本，避免了无关文本对分析结果的影响；然后使用Kmeans算法对抽取到的属性文本进行聚类，得到用户对产品不同属性的典型意见。本发明方法既弥补了现有技术的不足，而属性抽取方法与属性聚类方法的相互结合，又克服了这两种方法自身存在的不足，通过可以快速、有效地得到用户细粒度典型意见，以帮助企业更好地进行产品优化。本发明提出了一种基于文本挖掘的用户细粒度典型意见抽取方法，可有效地抽取用户对同一产品不同属性的典型意见。

本发明克服了现有技术的缺陷，提出了一种全新的用户细粒度典型意见抽取方法。通过命名实体识别的方法，得到用户评论中与产品属性相关的描述，过滤掉与产品无关的信息，得到产品细粒度的描述。通过聚类算法，将同一属性的相同观点聚类到同一簇中，以纠正通过命名实体识别方法抽取出的错误属性，提高结果的准确率。对Kmeans聚类中心点的初始化，根据不同簇之间文本相似度尽可能小的原则，采用自定义方法得到初始聚类中心点，提高了聚类结果的准确率。

附图说明

图1是本发明实施例提供的抽取用户细粒度典型意见数据处理系统的结构示意图；

图中：1、数据处理模块；2、文件定义模块；3、产品属性抽取模块；4、属性文本转换模块；5、文本聚类模块。

图2是本发明实施例提供的抽取用户细粒度典型意见数据处理方法的流程图。

图3是本发明实施例提供的抽取用户细粒度典型意见数据处理方法的实现流程图。

图4是本发明实施例提供的将用户评论按照标点符号进行拆分后聚类的结果网络截屏。

图5是本发明实施例提供的使用本发明对用户评论进行聚类的结果网络截屏。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种抽取用户细粒度典型意见数据处理系统及方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的抽取用户细粒度典型意见数据处理系统包括：

数据处理模块1，用于对数据进行清洗，过滤掉噪声数据，对清洗后的数据进行分字，分词。

文件定义模块2，用于使用词嵌入(Word Embeddings)模型训练字向量、词向量表示，生成相应的文件，定义产品常见属性。

产品属性抽取模块3，用于使用命名实体识别的方法，抽取用户评论中与产品相关的属性。

属性文本转换模块4，用于将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示。

文本聚类模块5，用于以属性向量为特征，对文本进行聚类；得到产品不同属性的用户典型意见。

如图2所示，本发明实施例提供的抽取用户细粒度典型意见数据处理方法包括以下步骤：

S201：对数据进行清洗，过滤掉噪声数据；对清洗后的数据进行分字，分词；

S202：使用词嵌入(Word Embeddings)模型训练字向量、词向量表示，生成相应的文件；定义产品常见属性；

S203：使用命名实体识别的方法，抽取用户评论中与产品相关的属性；

S204：将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示；

S205：以属性向量为特征，对文本进行聚类；得到产品不同属性的用户典型意见。

下面结合附图对本发明的技术方案作进一步的描述。

如图3所示，本发明实施例提供的抽取用户细粒度典型意见数据处理方法具体包括以下步骤：

(1)对数据进行清洗，过滤掉噪声数据。

(2)对清洗后的数据进行分字，分词。

(3)使用词嵌入(Word Embeddings)模型训练字向量、词向量表示，并生成相应的文件。

(4)定义产品常见属性。

(5)使用命名实体识别的方法，抽取用户评论中与产品相关的属性。

(6)将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示。

(7)以属性向量为特征，对文本进行聚类。

(8)得到产品不同属性的用户典型意见。

在本发明的优选实施例中，在对数据进行清洗阶段，主要的工作包括：过滤掉与本产品无关的用户评论，水军评论以及用户评论中出现的无意义的符号；对用户评论中出现的标点符号、英文字母，采用统一的书写方式，将其转换为统一的表述；对于没有任何标点符号分割的较长文本评论，采用textrank的方法，对文本进行分割，人为添加标点符号进行断句。

在本发明的优选实施例中，在对清洗后的数据进行分词过程中，对于一些专业领域的词汇、网络用语或缩写，出现分词错误的情况。为了减少这种错误对后续算法结果的影响，人工构建自定义分词词典，提高分词的准确率。

在本发明的优选实施例中，字或词的向量化表示，使用Word2vec或Glove模型对文本数据进行训练，生成相应的字向量、词向量文件。

在本发明的优选实施例中，在产品属性定义阶段，通过调研，人工自定义得到与该产品相关的常见属性。

在本发明的优选实施例中，采用命名实体识别的方法抽取用户评论中与该产品相关的属性。其中命名实体识别使用BiLSTM(Bi-directional Long Short-Term Memory)+CRF网络模型，以输入文本字向量和词向量的组合作为特征输入，对模型进行训练，以识别出与产品相关的属性描述。

在本发明的优选实施例中，将抽取到的属性文本转换为向量前，为了使得聚类过程中同一簇中的属性文本相似度更大，不同簇的属性文本之间相似度更小，通过相似度计算，生成同义词典，将属性文本中所有的同义词进行同义词替换，并使用停用词词典过滤掉无实际意义的词语，最终通过字向量加权求平均值的方法生成属性文本的向量表示。

在本发明的优选实施例中，以属性向量为特征，使用Kmeans算法对文本进行聚类。在聚类过程中通过以下方法选取聚类初始中心点：(1)对抽取到的属性文本统计所有文本出现的频率；(2)选择出现次数大于一定阈值的属性文本；(3)计算文本之间的相似度，挑选出相似度小于一定阈值的文本向量作为聚类初始中心点。

在本发明的优选实施例中，聚类结束后中心观点的选取包括以下几个步骤：(1)计算每个簇中文本之间的相似度；(2)将簇中相似度较大的文本映射为同一文本，统计每个簇中，所有文本出现的次数；(3)将出现频率最高的文本作为该簇的中心观点。另外，要求所选取的中心观点文本字数应该在一定的阈值范围内，以此保证中心观点可以更全面的表述出该簇所表达的观点。

在本发明的优选实施例中，为了使聚类后的结果更加合理，计算所有簇中每个属性文本与所有中心观点之间的相似度，对相似度小于一定阈值的属性文本所属的簇进行调整，将其分配到与该簇中心观点相似度较大的簇中，最后采用方法，抽取每个簇的中心观点，作为用户对该属性的典型意见。

下面结合具体实施例对本发明的技术方案作进一步的描述。

本发明实施例提供的抽取用户细粒度典型意见数据处理方法采集用户对该产品的相关评论，进行数据清洗，去掉噪声数据。噪声数据通常包括：与本产品无关的用户评论，水军评论。如“终于又收到一个包裹，不过还有下一季。我的一个赠品包裹应该还在编剧手里。”，“作为一个四钻买家，经常网购，总有大量的包裹收，总有很多评价要写。但是，总写评价花掉我大量的时间和精力，所以在某段时间里，我懒得去评价或者随便写写，但是又觉得好像对不住辛苦工作的卖家客服，仓管，老板，于是写下此模板。”等无意义的文本。并对用户评论中出现的标点符号、英文字母，采用统一的书写方式，将其转换为统一的表述；对于没有任何标点符号分割的较长文本评论，采用textrank的方法，对文本进行分割，人为添加标点符号进行断句。

对清洗后的数据进行分字，分词；对于一些专业领域的词汇、网络用语或缩写，会出现分词错误的情况。为了减少这种错误对后续算法结果的影响，人工构建自定义分词词典，从而提高分词的准确率。如“颜值党”、“学生党”、“刘海屏”、“水滴屏”等网络用语、专业术语，分词算法通常很难正确的进行分词，因此通过添加自定义词典，提高分词准确率。

使用词嵌入(Word Embeddings)模型训练字向量、词向量表示，并生成相应的文件；常用的词向量生成算法包括：Word2vec、Glove、fastText等。

定义产品常见属性；以手机为例，通常包括拍照、电池、外观、屏幕、网络、价格、机身颜色、屏占比、设计、做工、工艺、操作系统、摄像头等属性。不同产品具有的属性个数通常不同。

使用命名实体识别的方法，抽取用户评论中与产品相关的属性；其中命名实体识别使用BiLSTM(Bi-directional Long Short-Term Memory)+CRF网络模型，以输入文本字向量和词向量的组合作为特征输入，对模型进行训练，以识别出与产品相关的属性描述。以手机为例，抽取到与电池属性相关的描述有：“续航能力非常优秀”、“电池容量不够”、“充电速度特别快”、“快充很给力”、“充电时烫的厉害”、“没有无线充电”等。

通过同义词典将属性文本中出现的同义词进行同义词替换后，将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示；如为了得到“快充很给力”这句话的向量表示，首先获取“快”、“充”、“很”、“给”、“力”每个字的向量表示，然后将所有的字向量进行加和求平均值，得到该句话的向量表示。

以属性向量为特征，对文本进行聚类，并采用自定义方法初始化聚类中心；如聚类结束后，某一簇下出现的文本包括：“充电速度很快”、“充电不需要花费太多时间”、“充电速度不是一般的快”、“充电挺快的”、“充电速度也快”、“充的也快”、“充电挺快”等。

得到产品不同属性的用户典型意见。以上述聚类结果为例，可以得到用户对充电速度很满意。

为了验证本发明的有效性，在相同的数据集下(随机抽取9700条数据)，对比了使用聚类算法直接对用户评论进行聚类与使用本发明中提到的方法对用户评论进行聚类，得到用户细粒度典型意见的效果。由于聚类结果数据量较多，本专利中以“电池耐用”观点为例，展示了不同抽取方法，在得到同一观点时，对应的具体的文本描述，结果如下图所示。其中图四为将用户评论按照标点符号进行拆分后聚类的结果，图五为使用本发明对用户评论进行聚类的结果。

从实验结果中可以看出，对文本进行拆分后，直接进行聚类虽然可以得到用户细粒度典型意见，但聚类的结果不够准确。聚类结果中虽然出现了与“电池耐用”相关的文本描述，但也包含了它的反面意见“耗电很快”，以及别的属性意见“运行速度很快”。而使用本发明对用户评论进行聚类，可以准确得到同一属性同一意见的用户观点，即“待机时间长”、“电池耐用”。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种抽取用户细粒度典型意见数据处理方法，其特征在于，所述抽取用户细粒度典型意见数据处理方法包括以下步骤：

2.如权利要求1所述的抽取用户细粒度典型意见数据处理方法，其特征在于，所述抽取用户细粒度典型意见数据处理方法数据进行清洗包括：过滤掉与本产品无关的用户评论，水军评论以及用户评论中出现的无意义的符号；对用户评论中出现的标点符号、英文字母，采用统一的书写方式，转换为统一的表述；对于没有任何标点符号分割的较长文本评论，采用textrank的方法，对文本进行分割，人为添加标点符号进行断句。

3.如权利要求1所述的抽取用户细粒度典型意见数据处理方法，其特征在于，所述抽取用户细粒度典型意见数据处理方法对清洗后的数据进行分词过程中，对于专业领域的词汇、网络用语或缩写，出现分词错误，人工构建自定义分词词典；

所述抽取用户细粒度典型意见数据处理方法字或词的向量化表示，使用Word2vec或Glove模型对文本数据进行训练，生成相应的字向量、词向量文件。

4.如权利要求1所述的抽取用户细粒度典型意见数据处理方法，其特征在于，所述抽取用户细粒度典型意见数据处理方法在产品属性定义阶段，通过调研，人工自定义得到与产品相关的常见属性；

5.如权利要求1所述的抽取用户细粒度典型意见数据处理方法，其特征在于，所述抽取用户细粒度典型意见数据处理方法将抽取到的属性文本转换为向量前，通过相似度计算，生成同义词典，将属性文本中所有的同义词进行同义词替换，并使用停用词词典过滤掉无实际意义的词语，通过字向量加权求平均值的方法生成属性文本的向量表示。

6.如权利要求1所述的抽取用户细粒度典型意见数据处理方法，其特征在于，所述抽取用户细粒度典型意见数据处理方法以属性向量为特征，使用Kmeans算法对文本进行聚类，在聚类过程中选取聚类初始中心点：(1)对抽取到的属性文本统计所有文本出现的频率；(2)选择出现次数大于一定阈值的属性文本；(3)计算文本之间的相似度，挑选出相似度小于一定阈值的文本向量作为聚类初始中心点。

7.如权利要求1所述的抽取用户细粒度典型意见数据处理方法，其特征在于，所述抽取用户细粒度典型意见数据处理方法聚类结束后中心观点的选取包括：(1)计算每个簇中文本之间的相似度；(2)将簇中相似度较大的文本映射为同一文本，统计每个簇中，所有文本出现的次数；(3)将出现频率最高的文本作为该簇的中心观点；

8.一种实施权利要求1～7任意一项所述抽取用户细粒度典型意见数据处理方法的抽取用户细粒度典型意见数据处理系统，其特征在于，所述抽取用户细粒度典型意见数据处理系统包括：

9.一种实现权利要求1～7任意一项所述抽取用户细粒度典型意见数据处理方法的信息数据处理终端。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1～7任意一项所述的抽取用户细粒度典型意见数据处理方法。