CN111091000A - 一种抽取用户细粒度典型意见数据处理系统及方法 - Google Patents
一种抽取用户细粒度典型意见数据处理系统及方法 Download PDFInfo
- Publication number
- CN111091000A CN111091000A CN201911353588.8A CN201911353588A CN111091000A CN 111091000 A CN111091000 A CN 111091000A CN 201911353588 A CN201911353588 A CN 201911353588A CN 111091000 A CN111091000 A CN 111091000A
- Authority
- CN
- China
- Prior art keywords
- attribute
- user
- typical
- grained
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000012545 processing Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 78
- 238000003672 processing method Methods 0.000 claims abstract description 27
- 238000012935 Averaging Methods 0.000 claims abstract description 12
- 238000001914 filtration Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000004140 cleaning Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 10
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011835 investigation Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 2
- 230000002996 emotional effect Effects 0.000 abstract description 4
- 230000007547 defect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于数据处理技术领域,公开了一种抽取用户细粒度典型意见数据处理系统及方法,对数据进行清洗,过滤掉噪声数据;对清洗后的数据进行分字,分词;使用词嵌入模型训练字向量、词向量表示,生成相应的文件;定义产品常见属性;抽取用户评论中与产品相关的属性;将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示;对文本进行聚类;得到产品不同属性的用户典型意见。本发明抽取出用户评论中与产品相关的属性文本,将相同属性、相同情感倾向的文本尽可能地聚到同一簇中,得到不同属性的用户典型意见。有效地提高了聚类结果的准确性,并使得聚类结果的颗粒度更小,快速得到用户对产品不同属性的典型意见。
Description
技术领域
本发明属于数据处理技术领域,尤其涉及一种抽取用户细粒度典型意见数据处理系统及方法。
背景技术
目前,最接近的现有技术:随着互联网技术的不断发展,网络购物改变了我们的生活方式,为我们的生活提供了极大的便捷。通常当我们在某一电商平台上买到某一款产品后,会将自己的购物体验以及使用感受发表出来,以表达自己对该产品的观点。而这些观点对于商家以及想要购买该产品的用户而言是非常重要的。商家通过对大量的用户评论进行分析,可以了解用户对该产品的看法,并对用户不满意的点进行改进,以帮助产品的优化。而想要购买该产品的用户,可以参考已经购买过该产品用户的使用体验,辅助决策,决定是否购买该产品。
目前已经有相关技术方法,可以从用户评论中得到用户对该产品的观点。常见方法包括:(1)通过文本多分类的方法,得到用户对该产品的情感倾向以表达用户对此产品的看法。该方法并不能得到用户对该产品某一属性特有的看法,而大多数情况下,对于同一产品不同的属性,用户所持有的观点是不相同的。(2)通过文本多标签多分类的方法,得到用户对该产品不同属性的情感倾向以表达用户对此产品不同属性的看法。该方法并不能得到用户对不同属性观点的具体表述,只能得到不同属性的情感倾向。但很多时候,通过对属性观点表述的具体阅读,可以得到更多的信息。(3)通过对文本数据直接进行聚类,得到用户对该产品的典型意见。由于文本评论中会存在与该产品无关的描述,因此导致聚类的结果不理想;另外,通过对评论直接进行聚类,可以得到用户对该产品的整体观点,但不能得到用户对该产品不同属性的观点。
综上所述,现有技术存在的问题是:现有技术通过对文本数据直接进行聚类导致聚类的结果不理想;另外,通过对评论直接进行聚类,可以得到用户对该产品的整体观点,但不能得到用户对该产品不同属性的观点。
解决上述技术问题的难度:通常聚类结果由两方面来决定:聚类数据、聚类算法。为了准确得到用户细粒度典型意见,需要对聚类数据进行预处理,使得每一个聚类文本,都带有明显的特征。本发明通过命名实体识别的方法,抽取用户评论文本中提及到的产品属性,将一条评论数据拆分成多条数据,让每一条数据,能够完整的表达用户对产品某一属性的意见,并且过滤掉无关信息。另外,为了使聚类算法能够更好的将同一属性同一意见聚类到同一簇中,不同的属性不同意见聚类到不同簇中,需根据聚类数据的特征,对聚类算法进行调整。本发明对聚类的初始中心点进行了自定义并对聚类结果进行了调整,使聚类的结果更加准确。
解决上述技术问题的意义:扩展了聚类方法的应用领域。由于现有聚类方法存在的效果缺陷,使得它只能成为人们进行文本分析时的一种辅助手段,通常先通过聚类方法对数据分布特征进行大致了解,然后再通过自然语言处理技术中别的方法,对不同特征的数据进行处理,得到数据的具体信息。而上述技术问题的解决,扩展了聚类方法的应用领域,通过聚类方法可以直接得到数据的详细信息,即用户对产品不同属性的典型意见。另外,上述技术问题的解决,为抽取用户细粒度典型意见提出了一种全新的简单高效的方法。对于用户细粒度典型意见的抽取目前通常采用多标签分类的方法来实现,但该方法只能得到用户对产品不同属性总体的意见,并不能得到用户意见的具体描述,通过上述技术问题的解决,既可以得到用户对产品不同属性的总体意见,也可以得到该意见的具体描述。
发明内容
针对现有技术存在的问题,本发明提供了一种抽取用户细粒度典型意见数据处理系统及方法。
本发明是这样实现的,一种抽取用户细粒度典型意见数据处理方法,所述抽取用户细粒度典型意见数据处理方法包括以下步骤:
第一步,对数据进行清洗,过滤掉噪声数据;对清洗后的数据进行分字,分词;
第二步,使用词嵌入模型训练字向量、词向量表示,生成相应的文件;定义产品常见属性;
第三步,使用命名实体识别的方法,抽取用户评论中与产品相关的属性;
第四步,将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示;
第五步,以属性向量为特征,对文本进行聚类;得到产品不同属性的用户典型意见。
进一步,所述抽取用户细粒度典型意见数据处理方法数据进行清洗包括:过滤掉与本产品无关的用户评论,水军评论以及用户评论中出现的无意义的符号;对用户评论中出现的标点符号、英文字母,采用统一的书写方式,转换为统一的表述;对于没有任何标点符号分割的较长文本评论,采用textrank的方法,对文本进行分割,人为添加标点符号进行断句。
进一步,所述抽取用户细粒度典型意见数据处理方法对清洗后的数据进行分词过程中,对于专业领域的词汇、网络用语或缩写,出现分词错误,人工构建自定义分词词典;
所述抽取用户细粒度典型意见数据处理方法字或词的向量化表示,使用Word2vec或Glove模型对文本数据进行训练,生成相应的字向量、词向量文件;
进一步,所述抽取用户细粒度典型意见数据处理方法在产品属性定义阶段,通过调研,人工自定义得到与产品相关的常见属性;
所述抽取用户细粒度典型意见数据处理方法采用命名实体识别的方法抽取用户评论中与该产品相关的属性,命名实体识别使用BiLSTM+CRF网络模型,以输入文本字向量和词向量的组合作为特征输入,对模型进行训练,以识别出与产品相关的属性描述。
进一步,所述抽取用户细粒度典型意见数据处理方法将抽取到的属性文本转换为向量前,通过相似度计算,生成同义词典,将属性文本中所有的同义词进行同义词替换,并使用停用词词典过滤掉无实际意义的词语,通过字向量加权求平均值的方法生成属性文本的向量表示。
进一步,所述抽取用户细粒度典型意见数据处理方法以属性向量为特征,使用Kmeans算法对文本进行聚类,在聚类过程中选取聚类初始中心点:(1)对抽取到的属性文本统计所有文本出现的频率;(2)选择出现次数大于一定阈值的属性文本;(3)计算文本之间的相似度,挑选出相似度小于一定阈值的文本向量作为聚类初始中心点。
进一步,所述抽取用户细粒度典型意见数据处理方法聚类结束后中心观点的选取包括:(1)计算每个簇中文本之间的相似度;(2)将簇中相似度较大的文本映射为同一文本,统计每个簇中,所有文本出现的次数;(3)将出现频率最高的文本作为该簇的中心观点;
所述抽取用户细粒度典型意见数据处理方法计算所有簇中每个属性文本与所有中心观点之间的相似度,对相似度小于阈值的属性文本所属的簇进行调整,将其分配到与该簇中心观点相似度较大的簇中,最后抽取每个簇的中心观点,作为用户对该属性的典型意见。
本发明的另一目的在于提供一种实施所述抽取用户细粒度典型意见数据处理方法的抽取用户细粒度典型意见数据处理系统,所述抽取用户细粒度典型意见数据处理系统包括:
数据处理模块,用于对数据进行清洗,过滤掉噪声数据,对清洗后的数据进行分字,分词;
文件定义模块,用于使用词嵌入模型训练字向量、词向量表示,生成相应的文件,定义产品常见属性;
产品属性抽取模块,用于使用命名实体识别的方法,抽取用户评论中与产品相关的属性;
属性文本转换模块,用于将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示;
文本聚类模块,用于以属性向量为特征,对文本进行聚类;得到产品不同属性的用户典型意见。
本发明的另一目的在于提供一种实现所述抽取用户细粒度典型意见数据处理方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的抽取用户细粒度典型意见数据处理方法。
综上所述,本发明的优点及积极效果为:本发明先通过命名实体识别抽取出与该产品相关的属性文本,避免了无关文本对分析结果的影响;然后使用Kmeans算法对抽取到的属性文本进行聚类,得到用户对产品不同属性的典型意见。本发明方法既弥补了现有技术的不足,而属性抽取方法与属性聚类方法的相互结合,又克服了这两种方法自身存在的不足,通过可以快速、有效地得到用户细粒度典型意见,以帮助企业更好地进行产品优化。本发明提出了一种基于文本挖掘的用户细粒度典型意见抽取方法,可有效地抽取用户对同一产品不同属性的典型意见。
本发明克服了现有技术的缺陷,提出了一种全新的用户细粒度典型意见抽取方法。通过命名实体识别的方法,得到用户评论中与产品属性相关的描述,过滤掉与产品无关的信息,得到产品细粒度的描述。通过聚类算法,将同一属性的相同观点聚类到同一簇中,以纠正通过命名实体识别方法抽取出的错误属性,提高结果的准确率。对Kmeans聚类中心点的初始化,根据不同簇之间文本相似度尽可能小的原则,采用自定义方法得到初始聚类中心点,提高了聚类结果的准确率。
附图说明
图1是本发明实施例提供的抽取用户细粒度典型意见数据处理系统的结构示意图;
图中:1、数据处理模块;2、文件定义模块;3、产品属性抽取模块;4、属性文本转换模块;5、文本聚类模块。
图2是本发明实施例提供的抽取用户细粒度典型意见数据处理方法的流程图。
图3是本发明实施例提供的抽取用户细粒度典型意见数据处理方法的实现流程图。
图4是本发明实施例提供的将用户评论按照标点符号进行拆分后聚类的结果网络截屏。
图5是本发明实施例提供的使用本发明对用户评论进行聚类的结果网络截屏。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种抽取用户细粒度典型意见数据处理系统及方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的抽取用户细粒度典型意见数据处理系统包括:
数据处理模块1,用于对数据进行清洗,过滤掉噪声数据,对清洗后的数据进行分字,分词。
文件定义模块2,用于使用词嵌入(Word Embeddings)模型训练字向量、词向量表示,生成相应的文件,定义产品常见属性。
产品属性抽取模块3,用于使用命名实体识别的方法,抽取用户评论中与产品相关的属性。
属性文本转换模块4,用于将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示。
文本聚类模块5,用于以属性向量为特征,对文本进行聚类;得到产品不同属性的用户典型意见。
如图2所示,本发明实施例提供的抽取用户细粒度典型意见数据处理方法包括以下步骤:
S201:对数据进行清洗,过滤掉噪声数据;对清洗后的数据进行分字,分词;
S202:使用词嵌入(Word Embeddings)模型训练字向量、词向量表示,生成相应的文件;定义产品常见属性;
S203:使用命名实体识别的方法,抽取用户评论中与产品相关的属性;
S204:将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示;
S205:以属性向量为特征,对文本进行聚类;得到产品不同属性的用户典型意见。
下面结合附图对本发明的技术方案作进一步的描述。
如图3所示,本发明实施例提供的抽取用户细粒度典型意见数据处理方法具体包括以下步骤:
(1)对数据进行清洗,过滤掉噪声数据。
(2)对清洗后的数据进行分字,分词。
(3)使用词嵌入(Word Embeddings)模型训练字向量、词向量表示,并生成相应的文件。
(4)定义产品常见属性。
(5)使用命名实体识别的方法,抽取用户评论中与产品相关的属性。
(6)将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示。
(7)以属性向量为特征,对文本进行聚类。
(8)得到产品不同属性的用户典型意见。
在本发明的优选实施例中,在对数据进行清洗阶段,主要的工作包括:过滤掉与本产品无关的用户评论,水军评论以及用户评论中出现的无意义的符号;对用户评论中出现的标点符号、英文字母,采用统一的书写方式,将其转换为统一的表述;对于没有任何标点符号分割的较长文本评论,采用textrank的方法,对文本进行分割,人为添加标点符号进行断句。
在本发明的优选实施例中,在对清洗后的数据进行分词过程中,对于一些专业领域的词汇、网络用语或缩写,出现分词错误的情况。为了减少这种错误对后续算法结果的影响,人工构建自定义分词词典,提高分词的准确率。
在本发明的优选实施例中,字或词的向量化表示,使用Word2vec或Glove模型对文本数据进行训练,生成相应的字向量、词向量文件。
在本发明的优选实施例中,在产品属性定义阶段,通过调研,人工自定义得到与该产品相关的常见属性。
在本发明的优选实施例中,采用命名实体识别的方法抽取用户评论中与该产品相关的属性。其中命名实体识别使用BiLSTM(Bi-directional Long Short-Term Memory)+CRF网络模型,以输入文本字向量和词向量的组合作为特征输入,对模型进行训练,以识别出与产品相关的属性描述。
在本发明的优选实施例中,将抽取到的属性文本转换为向量前,为了使得聚类过程中同一簇中的属性文本相似度更大,不同簇的属性文本之间相似度更小,通过相似度计算,生成同义词典,将属性文本中所有的同义词进行同义词替换,并使用停用词词典过滤掉无实际意义的词语,最终通过字向量加权求平均值的方法生成属性文本的向量表示。
在本发明的优选实施例中,以属性向量为特征,使用Kmeans算法对文本进行聚类。在聚类过程中通过以下方法选取聚类初始中心点:(1)对抽取到的属性文本统计所有文本出现的频率;(2)选择出现次数大于一定阈值的属性文本;(3)计算文本之间的相似度,挑选出相似度小于一定阈值的文本向量作为聚类初始中心点。
在本发明的优选实施例中,聚类结束后中心观点的选取包括以下几个步骤:(1)计算每个簇中文本之间的相似度;(2)将簇中相似度较大的文本映射为同一文本,统计每个簇中,所有文本出现的次数;(3)将出现频率最高的文本作为该簇的中心观点。另外,要求所选取的中心观点文本字数应该在一定的阈值范围内,以此保证中心观点可以更全面的表述出该簇所表达的观点。
在本发明的优选实施例中,为了使聚类后的结果更加合理,计算所有簇中每个属性文本与所有中心观点之间的相似度,对相似度小于一定阈值的属性文本所属的簇进行调整,将其分配到与该簇中心观点相似度较大的簇中,最后采用方法,抽取每个簇的中心观点,作为用户对该属性的典型意见。
下面结合具体实施例对本发明的技术方案作进一步的描述。
本发明实施例提供的抽取用户细粒度典型意见数据处理方法采集用户对该产品的相关评论,进行数据清洗,去掉噪声数据。噪声数据通常包括:与本产品无关的用户评论,水军评论。如“终于又收到一个包裹,不过还有下一季。我的一个赠品包裹应该还在编剧手里。”,“作为一个四钻买家,经常网购,总有大量的包裹收,总有很多评价要写。但是,总写评价花掉我大量的时间和精力,所以在某段时间里,我懒得去评价或者随便写写,但是又觉得好像对不住辛苦工作的卖家客服,仓管,老板,于是写下此模板。”等无意义的文本。并对用户评论中出现的标点符号、英文字母,采用统一的书写方式,将其转换为统一的表述;对于没有任何标点符号分割的较长文本评论,采用textrank的方法,对文本进行分割,人为添加标点符号进行断句。
对清洗后的数据进行分字,分词;对于一些专业领域的词汇、网络用语或缩写,会出现分词错误的情况。为了减少这种错误对后续算法结果的影响,人工构建自定义分词词典,从而提高分词的准确率。如“颜值党”、“学生党”、“刘海屏”、“水滴屏”等网络用语、专业术语,分词算法通常很难正确的进行分词,因此通过添加自定义词典,提高分词准确率。
使用词嵌入(Word Embeddings)模型训练字向量、词向量表示,并生成相应的文件;常用的词向量生成算法包括:Word2vec、Glove、fastText等。
定义产品常见属性;以手机为例,通常包括拍照、电池、外观、屏幕、网络、价格、机身颜色、屏占比、设计、做工、工艺、操作系统、摄像头等属性。不同产品具有的属性个数通常不同。
使用命名实体识别的方法,抽取用户评论中与产品相关的属性;其中命名实体识别使用BiLSTM(Bi-directional Long Short-Term Memory)+CRF网络模型,以输入文本字向量和词向量的组合作为特征输入,对模型进行训练,以识别出与产品相关的属性描述。以手机为例,抽取到与电池属性相关的描述有:“续航能力非常优秀”、“电池容量不够”、“充电速度特别快”、“快充很给力”、“充电时烫的厉害”、“没有无线充电”等。
通过同义词典将属性文本中出现的同义词进行同义词替换后,将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示;如为了得到“快充很给力”这句话的向量表示,首先获取“快”、“充”、“很”、“给”、“力”每个字的向量表示,然后将所有的字向量进行加和求平均值,得到该句话的向量表示。
以属性向量为特征,对文本进行聚类,并采用自定义方法初始化聚类中心;如聚类结束后,某一簇下出现的文本包括:“充电速度很快”、“充电不需要花费太多时间”、“充电速度不是一般的快”、“充电挺快的”、“充电速度也快”、“充的也快”、“充电挺快”等。
得到产品不同属性的用户典型意见。以上述聚类结果为例,可以得到用户对充电速度很满意。
为了验证本发明的有效性,在相同的数据集下(随机抽取9700条数据),对比了使用聚类算法直接对用户评论进行聚类与使用本发明中提到的方法对用户评论进行聚类,得到用户细粒度典型意见的效果。由于聚类结果数据量较多,本专利中以“电池耐用”观点为例,展示了不同抽取方法,在得到同一观点时,对应的具体的文本描述,结果如下图所示。其中图四为将用户评论按照标点符号进行拆分后聚类的结果,图五为使用本发明对用户评论进行聚类的结果。
从实验结果中可以看出,对文本进行拆分后,直接进行聚类虽然可以得到用户细粒度典型意见,但聚类的结果不够准确。聚类结果中虽然出现了与“电池耐用”相关的文本描述,但也包含了它的反面意见“耗电很快”,以及别的属性意见“运行速度很快”。而使用本发明对用户评论进行聚类,可以准确得到同一属性同一意见的用户观点,即“待机时间长”、“电池耐用”。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种抽取用户细粒度典型意见数据处理方法,其特征在于,所述抽取用户细粒度典型意见数据处理方法包括以下步骤:
第一步,对数据进行清洗,过滤掉噪声数据;对清洗后的数据进行分字,分词;
第二步,使用词嵌入模型训练字向量、词向量表示,生成相应的文件;定义产品常见属性;
第三步,使用命名实体识别的方法,抽取用户评论中与产品相关的属性;
第四步,将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示;
第五步,以属性向量为特征,对文本进行聚类;得到产品不同属性的用户典型意见。
2.如权利要求1所述的抽取用户细粒度典型意见数据处理方法,其特征在于,所述抽取用户细粒度典型意见数据处理方法数据进行清洗包括:过滤掉与本产品无关的用户评论,水军评论以及用户评论中出现的无意义的符号;对用户评论中出现的标点符号、英文字母,采用统一的书写方式,转换为统一的表述;对于没有任何标点符号分割的较长文本评论,采用textrank的方法,对文本进行分割,人为添加标点符号进行断句。
3.如权利要求1所述的抽取用户细粒度典型意见数据处理方法,其特征在于,所述抽取用户细粒度典型意见数据处理方法对清洗后的数据进行分词过程中,对于专业领域的词汇、网络用语或缩写,出现分词错误,人工构建自定义分词词典;
所述抽取用户细粒度典型意见数据处理方法字或词的向量化表示,使用Word2vec或Glove模型对文本数据进行训练,生成相应的字向量、词向量文件。
4.如权利要求1所述的抽取用户细粒度典型意见数据处理方法,其特征在于,所述抽取用户细粒度典型意见数据处理方法在产品属性定义阶段,通过调研,人工自定义得到与产品相关的常见属性;
所述抽取用户细粒度典型意见数据处理方法采用命名实体识别的方法抽取用户评论中与该产品相关的属性,命名实体识别使用BiLSTM+CRF网络模型,以输入文本字向量和词向量的组合作为特征输入,对模型进行训练,以识别出与产品相关的属性描述。
5.如权利要求1所述的抽取用户细粒度典型意见数据处理方法,其特征在于,所述抽取用户细粒度典型意见数据处理方法将抽取到的属性文本转换为向量前,通过相似度计算,生成同义词典,将属性文本中所有的同义词进行同义词替换,并使用停用词词典过滤掉无实际意义的词语,通过字向量加权求平均值的方法生成属性文本的向量表示。
6.如权利要求1所述的抽取用户细粒度典型意见数据处理方法,其特征在于,所述抽取用户细粒度典型意见数据处理方法以属性向量为特征,使用Kmeans算法对文本进行聚类,在聚类过程中选取聚类初始中心点:(1)对抽取到的属性文本统计所有文本出现的频率;(2)选择出现次数大于一定阈值的属性文本;(3)计算文本之间的相似度,挑选出相似度小于一定阈值的文本向量作为聚类初始中心点。
7.如权利要求1所述的抽取用户细粒度典型意见数据处理方法,其特征在于,所述抽取用户细粒度典型意见数据处理方法聚类结束后中心观点的选取包括:(1)计算每个簇中文本之间的相似度;(2)将簇中相似度较大的文本映射为同一文本,统计每个簇中,所有文本出现的次数;(3)将出现频率最高的文本作为该簇的中心观点;
所述抽取用户细粒度典型意见数据处理方法计算所有簇中每个属性文本与所有中心观点之间的相似度,对相似度小于阈值的属性文本所属的簇进行调整,将其分配到与该簇中心观点相似度较大的簇中,最后抽取每个簇的中心观点,作为用户对该属性的典型意见。
8.一种实施权利要求1~7任意一项所述抽取用户细粒度典型意见数据处理方法的抽取用户细粒度典型意见数据处理系统,其特征在于,所述抽取用户细粒度典型意见数据处理系统包括:
数据处理模块,用于对数据进行清洗,过滤掉噪声数据,对清洗后的数据进行分字,分词;
文件定义模块,用于使用词嵌入模型训练字向量、词向量表示,生成相应的文件,定义产品常见属性;
产品属性抽取模块,用于使用命名实体识别的方法,抽取用户评论中与产品相关的属性;
属性文本转换模块,用于将所有抽取到的属性文本采用字向量加权求平均值的方法转换为向量表示;
文本聚类模块,用于以属性向量为特征,对文本进行聚类;得到产品不同属性的用户典型意见。
9.一种实现权利要求1~7任意一项所述抽取用户细粒度典型意见数据处理方法的信息数据处理终端。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1~7任意一项所述的抽取用户细粒度典型意见数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911353588.8A CN111091000A (zh) | 2019-12-24 | 2019-12-24 | 一种抽取用户细粒度典型意见数据处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911353588.8A CN111091000A (zh) | 2019-12-24 | 2019-12-24 | 一种抽取用户细粒度典型意见数据处理系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111091000A true CN111091000A (zh) | 2020-05-01 |
Family
ID=70397133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911353588.8A Pending CN111091000A (zh) | 2019-12-24 | 2019-12-24 | 一种抽取用户细粒度典型意见数据处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091000A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111683294A (zh) * | 2020-05-08 | 2020-09-18 | 华东师范大学 | 一种信息抽取的弹幕评论推荐方法 |
CN113033206A (zh) * | 2021-04-01 | 2021-06-25 | 重庆交通大学 | 一种基于机器阅读理解的桥梁检测领域文本实体识别方法 |
CN113362024A (zh) * | 2021-06-03 | 2021-09-07 | 广州康辰科技有限公司 | 一种基于区块链的应用程序开发多模块协同系统 |
CN113792552A (zh) * | 2021-08-23 | 2021-12-14 | 中国电子科技集团公司第三十研究所 | 一种基于用户产生内容的观点转变指标计算方法 |
CN114064895A (zh) * | 2021-11-16 | 2022-02-18 | 深圳视界信息技术有限公司 | 一种用户新建议实时发现方法、装置、设备及介质 |
CN115034239A (zh) * | 2022-07-06 | 2022-09-09 | 昆明理工大学 | 基于降噪原型序列的汉越神经机器翻译方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207855A (zh) * | 2013-04-12 | 2013-07-17 | 广东工业大学 | 针对产品评论信息的细粒度情感分析系统及方法 |
CN106372208A (zh) * | 2016-09-05 | 2017-02-01 | 东南大学 | 一种基于语句相似度的话题观点聚类方法 |
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN107633007A (zh) * | 2017-08-09 | 2018-01-26 | 五邑大学 | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 |
CN110413780A (zh) * | 2019-07-16 | 2019-11-05 | 合肥工业大学 | 文本情感分析方法、装置、存储介质及电子设备 |
-
2019
- 2019-12-24 CN CN201911353588.8A patent/CN111091000A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207855A (zh) * | 2013-04-12 | 2013-07-17 | 广东工业大学 | 针对产品评论信息的细粒度情感分析系统及方法 |
CN106372208A (zh) * | 2016-09-05 | 2017-02-01 | 东南大学 | 一种基于语句相似度的话题观点聚类方法 |
CN107168945A (zh) * | 2017-04-13 | 2017-09-15 | 广东工业大学 | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 |
CN107633007A (zh) * | 2017-08-09 | 2018-01-26 | 五邑大学 | 一种基于层次化ap聚类的商品评论数据标签化系统和方法 |
CN110413780A (zh) * | 2019-07-16 | 2019-11-05 | 合肥工业大学 | 文本情感分析方法、装置、存储介质及电子设备 |
Non-Patent Citations (3)
Title |
---|
周清清;章成志;: "在线用户评论细粒度属性抽取", no. 05 * |
菅小艳: "《贝叶斯网基础及应用》", 31 May 2019, 武汉大学出版社, pages: 115 - 116 * |
郝志峰;黄浩;蔡瑞初;温雯;: "基于多特征融合与双向RNN的细粒度意见分析", no. 07 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111683294A (zh) * | 2020-05-08 | 2020-09-18 | 华东师范大学 | 一种信息抽取的弹幕评论推荐方法 |
CN111683294B (zh) * | 2020-05-08 | 2021-05-07 | 华东师范大学 | 一种信息抽取的弹幕评论推荐方法 |
CN113033206A (zh) * | 2021-04-01 | 2021-06-25 | 重庆交通大学 | 一种基于机器阅读理解的桥梁检测领域文本实体识别方法 |
CN113362024A (zh) * | 2021-06-03 | 2021-09-07 | 广州康辰科技有限公司 | 一种基于区块链的应用程序开发多模块协同系统 |
CN113792552A (zh) * | 2021-08-23 | 2021-12-14 | 中国电子科技集团公司第三十研究所 | 一种基于用户产生内容的观点转变指标计算方法 |
CN113792552B (zh) * | 2021-08-23 | 2023-05-09 | 中国电子科技集团公司第三十研究所 | 一种基于用户产生内容的观点转变指标计算方法 |
CN114064895A (zh) * | 2021-11-16 | 2022-02-18 | 深圳视界信息技术有限公司 | 一种用户新建议实时发现方法、装置、设备及介质 |
CN114064895B (zh) * | 2021-11-16 | 2023-12-19 | 深圳数阔信息技术有限公司 | 一种用户新建议实时发现方法、装置、设备及介质 |
CN115034239A (zh) * | 2022-07-06 | 2022-09-09 | 昆明理工大学 | 基于降噪原型序列的汉越神经机器翻译方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091000A (zh) | 一种抽取用户细粒度典型意见数据处理系统及方法 | |
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
CN107862027B (zh) | 检索意图识别方法、装置、电子设备及可读存储介质 | |
CN107229610B (zh) | 一种情感数据的分析方法及装置 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN107862087B (zh) | 基于大数据和深度学习的情感分析方法、装置和存储介质 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
US20140032207A1 (en) | Information Classification Based on Product Recognition | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
Zhao et al. | Sentiment analysis on the online reviews based on hidden Markov model | |
CN110633464A (zh) | 一种语义识别方法、装置、介质及电子设备 | |
CN108287848B (zh) | 用于语义解析的方法和系统 | |
CN112632226A (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN113033204A (zh) | 信息实体抽取方法、装置、电子设备和存储介质 | |
CN113626614B (zh) | 资讯文本生成模型的构造方法、装置、设备及存储介质 | |
CN114722176A (zh) | 一种智能答疑的方法、装置、介质及电子设备 | |
Sayeed et al. | BERT: A Review of Applications in Sentiment Analysis | |
CN114118062A (zh) | 客户特征提取方法、装置、电子设备及存储介质 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
CN115659961B (zh) | 用于提取文本观点的方法、装置以及计算机存储介质 | |
CN108763487B (zh) | 一种基于Mean Shift的融合词性和句子信息的词表示方法 | |
CN116070642A (zh) | 一种基于表情嵌入的文本情感分析方法及相关装置 | |
CN115577109A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN107729509A (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 518000 1st floor, building 10, new material port, high tech middle first road, science and Technology Park community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province Applicant after: Shenzhen Shukuo Information Technology Co.,Ltd. Address before: 518000 1st floor, building 10, new material port, high tech middle first road, science and Technology Park community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province Applicant before: SHENZHEN SKIEER INFORMATION TECHNOLOGY CO.,LTD. |