CN111259159A - 数据挖掘方法、装置和计算机可读存储介质 - Google Patents
数据挖掘方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111259159A CN111259159A CN201811453553.7A CN201811453553A CN111259159A CN 111259159 A CN111259159 A CN 111259159A CN 201811453553 A CN201811453553 A CN 201811453553A CN 111259159 A CN111259159 A CN 111259159A
- Authority
- CN
- China
- Prior art keywords
- comment
- sentence
- words
- sentences
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000007418 data mining Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 78
- 238000010801 machine learning Methods 0.000 claims abstract description 50
- 238000005065 mining Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims description 92
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 239000012634 fragment Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 20
- 239000000047 product Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 235000005135 Micromeria juliana Nutrition 0.000 description 1
- 241000246354 Satureja Species 0.000 description 1
- 235000007315 Satureja hortensis Nutrition 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种数据挖掘方法、装置和计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:获取待挖掘的评论语句;利用预先训练的第一机器学习模型,根据待挖掘的评论语句中词语的前后关联关系,将待挖掘的评论语句转换为句向量;将句向量输入预先训练的第二机器学习模型,输出待挖掘的评论语句中关于评论对象的属性词语和该属性词语对应的观点词语。本公开的方案可以提高同义词的识别率,提高在评论数据中挖掘用户观点的准确性。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种数据挖掘方法、装置和计算机可读存储介质。
背景技术
随着互联网的快速发展,数据规模呈指数增长。在大数据时代,数据的采集、加工、存储和结构化数据分析的一整套解决方案日渐成熟。相较于其他数据,用户评论数据往往呈文本式的非结构数据,提高了通过分析用户评论挖掘产品性能的门槛。然而,从用户评论反馈中分析产品优缺点、服务质量好坏对优化产品、服务,有很大的指导意义。
目前较常见的评论观点挖掘方法有基于词表的观点挖掘方法。词表中存储了评论对象的属性和属性对应的观点值,例如,“口感”“香醇”。根据词表对评论语句中的词进行匹配,确定评论语句中关于评论对象的属性和属性对应的观点值。
发明内容
发明人发现:现有的评论观点挖掘方法无法识别同义词。而网络用户评论用语存在多样性,比如,醇香、香醇、醇正等属于同义词,但是现有方法不能全部识别。因此,现有的方法无法准确的对评论中的观点进行挖掘。
本公开所要解决的一个技术问题是:提高在评论数据中挖掘用户观点的准确性。
根据本公开的一些实施例,提供的一种数据挖掘方法,包括:获取待挖掘的评论语句;利用预先训练的第一机器学习模型,根据待挖掘的评论语句中词语的前后关联关系,将待挖掘的评论语句转换为句向量;将句向量输入预先训练的第二机器学习模型,输出待挖掘的评论语句中关于评论对象的属性词语和该属性词语对应的观点词语。
在一些实施例中,利用预先训练的第一机器学习模型,根据待挖掘的评论语句中词语的前后关联关系,将待挖掘的评论语句转换为句向量包括:对待挖掘的评论语句进行分词;将分词输入预先训练的第一机器学习模型,以便根据待挖掘的评论语句中分词的前后关联关系,输出各个分词的词向量;将待挖掘的评论语句中各个分词的词向量相加,得到待挖掘的评论语句的句向量。
在一些实施例中,该方法还包括:获取用于训练的评论语句,用于训练的评论语句被标注了关于评论对象的属性词语和属性词语对应的观点词语;利用预先训练的第一机器学习模型,根据用于训练评论语句中词语的前后关联关系,将用于训练评论语句转换为句向量;利用用于训练的评论语句的句向量对第二机器学习模型进行训练。
在一些实施例中,该方法还包括:根据评论语句的句法结构和各个分词的词性,在评论语句中标注关于评论对象的属性词语和属性词语对应的观点词语,作为用于训练的评论语句。
在一些实施例中,根据评论语句的句法结构句子中和各个分词的词性,在评论语句中标注关于评论对象的属性词语和属性词语对应的观点词语包括:选取句法结构为预设结构的评论语句片段,将评论语句片段中的分词标注为关于评论对象的属性词语和属性词语对应的观点词语;或者从评论语句中确定距离在预设范围内的名词和形容词,将该名词标注为关于评论对象的属性词语,将该形容词标注为属性词语对应的观点词语。
在一些实施例中,该方法还包括:根据评论语句的句法结构和各个分词的词性,确定关于评论对象的候选属性词语和候选属性词语对应的候选观点词语,作为候选词组;根据候选词组在评论语句中的重要性和候选词组中候选属性词语和候选观点词语的相关性中至少一项信息,在评论语句中标注关于评论对象的属性词语和属性词语对应的观点词语,作为用于训练的评论语句。
在一些实施例中,候选词组在评论语句中的重要性是根据候选词组在评论语句中出现的频率、评论语句集合中的评论语句总数量、出现候选词组的评论语句的数量确定的;或者候选词组中候选属性词语和候选观点词语的相关性是根据候选属性词语和候选观点词语在评论语句集合中同时出现在一个评论语句中的概率和候选属性词语,以及候选观点词语分别在评论语句集合中出现的概率确定的。
在一些实施例中,该方法还包括:根据黑名单词表、词语重复度和评论语句的长度中至少一项,对评论语句集合中的评论语句进行过滤,选取过滤后的评论数据作为用于训练的评论数据语句;或者根据评论语句集合中的评论语句的重要性,选取重要性高于阈值的评论语句作为用于训练的评论语句。
在一些实施例中,评论语句的重要性是根据该评论语句的各个分词在评论语句集合中的重要性确定的;分词在评论语句集合中的重要性是根据分词分别在各个评论语句中出现的频率、评论语句集合中的评论语句总数量、出现分词的评论语句的数量确定的;或者分词在评论语句集合中的重要性是根据该分词分别与其他分词共同出现在预设长度的窗口内的次数确定的。
根据本公开的另一些实施例,提供的一种数据挖掘装置,包括:评论获取模块,用于获取待挖掘的评论语句;向量转换模块,用于利用预先训练的第一机器学习模型,根据待挖掘的评论语句中词语的前后关联关系,将待挖掘的评论语句转换为句向量;观点挖掘模块,用于将句向量输入预先训练的第二机器学习模型,输出待挖掘的评论语句中关于评论对象的属性词语和该属性词语对应的观点词语。
在一些实施例中,向量转换模块用于对待挖掘的评论语句进行分词;将分词输入预先训练的第一机器学习模型,以便根据待挖掘的评论语句中分词的前后关联关系,输出各个分词的词向量;将待挖掘的评论语句中各个分词的词向量相加,得到待挖掘的评论语句的句向量。
在一些实施例中,该装置还包括:训练语句获取模块,训练模块;训练样本获取模块用于获取用于训练的评论语句,用于训练的评论语句被标注了关于评论对象的属性词语和属性词语对应的观点词语;向量转换模块用于利用预先训练的第一机器学习模型,根据用于训练评论语句中词语的前后关联关系,将用于训练评论语句转换为句向量;训练模块用于利用用于训练的评论语句的句向量对第二机器学习模型进行训练。
在一些实施例中,该装置还包括:第一训练样本生成模块,用于根据评论语句的句法结构和各个分词的词性,在评论语句中标注关于评论对象的属性词语和属性词语对应的观点词语,作为用于训练的评论语句。
在一些实施例中,第一训练样本生成模块用于选取句法结构为预设结构的评论语句片段,将评论语句片段中的分词标注为关于评论对象的属性词语和属性词语对应的观点词语;或者从评论语句中确定距离在预设范围内的名词和形容词,将该名词标注为关于评论对象的属性词语,将该形容词标注为属性词语对应的观点词语。
在一些实施例中,该装置还包括:第二训练样本生成模块,用于根据评论语句的句法结构和各个分词的词性,确定关于评论对象的候选属性词语和候选属性词语对应的候选观点词语,作为候选词组;根据候选词组在评论语句中的重要性和候选词组中候选属性词语和候选观点词语的相关性中至少一项信息,在评论语句中标注关于评论对象的属性词语和属性词语对应的观点词语,作为用于训练的评论语句。
在一些实施例中,候选词组在评论语句中的重要性是根据候选词组在评论语句中出现的频率、评论语句集合中的评论语句总数量、出现候选词组的评论语句的数量确定的;或者候选词组中候选属性词语和候选观点词语的相关性是根据候选属性词语和候选观点词语在评论语句集合中同时出现在一个评论语句中的概率和候选属性词语,以及候选观点词语分别在评论语句集合中出现的概率确定的。
在一些实施例中,该装置还包括:评论语句过滤模块,用于根据黑名单词表、词语重复度和评论语句的长度中至少一项,对评论语句集合中的评论语句进行过滤,选取过滤后的评论数据作为用于训练的评论数据语句;或者根据评论语句集合中的评论语句的重要性,选取重要性高于阈值的评论语句作为用于训练的评论语句。
在一些实施例中,评论语句的重要性是根据该评论语句的各个分词在评论语句集合中的重要性确定的;分词在评论语句集合中的重要性是根据分词分别在各个评论语句中出现的频率、评论语句集合中的评论语句总数量、出现分词的评论语句的数量确定的;或者分词在评论语句集合中的重要性是根据该分词分别与其他分词共同出现在预设长度的窗口内的次数确定的。
根据本公开的又一些实施例,提供的一种数据挖掘装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行如前述任意实施例的数据挖掘方法。
根据本公开的再一些实施例,提供的一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例的数据挖掘方法。
本公开中通过预先训练的第一机器学习模型根据待挖掘的评论语句中词语的前后关联关系将待挖掘的评论语句转换为句向量。进一步,句向量输入预先训练的第二机器学习模型,则可得到待挖掘的评论语句中关于评论对象的属性词语和该属性词语对应的观点词语。由于词语的前后关联关系能够反映词语的语义,因此,评论语句转换为句向量可以反映评论语句中词语的语义,而语义相似的词语则可以生成相似的向量,进一步,相似的向量可以通过第二机器学习模型被识别出来。因此,本公开的方案可以提高同义词的识别率,提高在评论数据中挖掘用户观点的准确性。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开的一些实施例的数据挖掘方法的流程示意图。
图2示出本公开的另一些实施例的数据挖掘方法的流程示意图。
图3示出本公开的一些实施例的数据挖掘装置的结构示意图。
图4示出本公开的另一些实施例的数据挖掘装置的结构示意图。
图5示出本公开的又一些实施例的数据挖掘装置的结构示意图。
图6示出本公开的再一些实施例的数据挖掘装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
本公开提供一种数据挖掘方法,可以提高在评论数据中挖掘用户观点的准确性。下面结合图1描述本公开数据挖掘方法的一些实施例。
图1为本公开数据挖掘方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤S102~S106。
在步骤S102中,获取待挖掘的评论语句。
例如,从商品的评论区等处获取用户针对商品(即评论对象)的评论语句进行后续的观点挖掘,从而确定用户对商品的观点。
在步骤S104中,利用预先训练的第一机器学习模型,根据待挖掘的评论语句中词语的前后关联关系,将待挖掘的评论语句转换为句向量。
第一机器学习模型例如是word2vec模型或doc2vec模型等。由于词语之间的语义关联性,这些模型可以根据一个词语的上下文生成该词语的词向量,反映词语的语义。因此,同义词可以用相近的词向量进行表示。例如,“酸甜”和“酸酸甜甜”词向量相近。
可以直接利用第一机器学习模型得到句向量,例如doc2vec模型,也可以利用第一机器学习模型得到词向量,再根据词向量得到句向量。在一些实施例中,对待挖掘的评论语句进行分词;将分词输入预先训练的第一机器学习模型,以便根据待挖掘的评论语句中分词的前后关联关系,输出各个分词的词向量;将待挖掘的评论语句中各个分词的词向量相加,得到待挖掘的评论语句的句向量。
在步骤S106中,将句向量输入预先训练的第二机器学习模型,输出待挖掘的评论语句中关于评论对象的属性词语和该属性词语对应的观点词语。
待挖掘的评论语句中关于评论对象的属性词语和该属性词语对应的观点词语,用于表示用户对评论对象的评价。例如,属性词语为“质量”,观点词语为“好”。
第二机器学习模型例如是seq2seq(sequence to sequence,序列到序列)模型。seq2seq模型的输入序列和输出序列可以不等长,并且可以设置输出序列包含的词语的个数,即设置beam size(束尺寸)。seq2seq模型包含编码器(Encoder)和解码器(Decoder)两部分,编码器和解码器都是由RNN(Recurrent Neural Network,循环神经网络)构成。编码器用于输入待挖掘的评论语句的句向量,解码器用于输出关于评论对象的属性词语和该属性词语对应的观点词语。解码器是逐个输出属性词语和观点词语的,并且可以得到每次输出各个词语的概率。
下面以beam size=2描述解码器输出序列中各个词语的过程。(1)解码器输出第一个词语的时候,选择概率最大的两个词语作为当前序列,(2)生成下一个词语的时候,将当前序列分别与词表中的所有词语进行组合,得到新的序列,然后输入解码器,得到解码器输出的各个词语的概率,选取概率最大的两个词语作为当前序列。(3)不断重复步骤(2),直至遇到结束符为止。最终输出两个概率最高的序列。词表中存储的是根据训练样本得到的属性词语和该属性词语对应的观点词语,后续实施例中将描述词表的生成过程。
seq2seq模型属于现有模型,模型内部的具体流程不再赘述。现有的seq2seq模型一般输入的是句子的one-hot向量,无法识别同义词。本公开将第一机器学习模型(例如word2vec或doc2vec等)与seq2seq模型这类深度神经网络模型结合,应用于评论观点挖掘场景,基于大量数据的训练,能够识别同义词,提高评论观点挖掘的准确率。
上述实施例的方法中通过预先训练的第一机器学习模型根据待挖掘的评论语句中词语的前后关联关系将待挖掘的评论语句转换为句向量。进一步,句向量输入预先训练的第二机器学习模型,则可得到待挖掘的评论语句中关于评论对象的属性词语和该属性词语对应的观点词语。由于词语的前后关联关系能够反映词语的语义,因此,评论语句转换为句向量可以反映评论语句中词语的语义,而语义相似的词语则可以生成相似的向量,进一步,相似的向量可以通过第二机器学习模型被识别出来。因此,上述实施例的方案可以提高同义词的识别率,提高在评论数据中挖掘用户观点的准确性。
上述实施例中用到了第一机器学习模型和第二机器学习模型,两个模型需要预先进行训练。通常情况下,训练样本需要人工进行标注。本公开还提出一种自动生成训练样本的方法,下面结合图2进行描述。
图2为本公开数据挖掘方法另一些实施例的流程图。如图2所示,该实施例的方法包括:步骤S202~S214。
在步骤S202中,获取评论语句集合。
评论语句集合中可以包括电子商务平台中热度高的商品的用户评论语句。例如,搜索量排名靠前的商品的评论语句。这些商品的有效的评论语句较多。
在步骤S204中,根据预设过滤规则对评论语句集合中的评论语句进行过滤。
在一些实施例中,根据黑名单词表、词语重复度和评论语句的长度中至少一项,对评论语句集合中的无效评论语句进行过滤。例如,黑名单词表中包含敏感词、非法词等,根据黑名单词表将包含这些词语的评论语句过滤掉。又例如,可以将评论语句中词语重复的次数作为词语重复度,将词语重复次数高于阈值的评论语句过滤掉。这些评论语句中词语重复度过高,信息量少,不利于后续模型的训练。例如,评论语句为“好好好好!”,这样的语句可以被过滤掉。又例如,将评论语句的长度小于长度阈值的评论语句过滤掉。还可以根据实际需求设置其他的过滤规则对评论语句集合中的无效评论语句进行过滤,不限于所举示例。
上述实施例的方法,可以将包含信息量少等不适用于作为训练样本的评论语句进行过滤,提高了模型训练的效果,进一步提高了后续利用模型挖掘评论中观点的准确性。
在步骤S206中,根据评论语句集合中的评论语句的重要性,选取重要性高于阈值的评论语句。
在一些实施例中,评论语句的重要性是根据该评论语句的各个分词在评论语句集合中的重要性确定的,分词在评论语句集合中的重要性是根据分词分别在各个评论语句中出现的频率、评论语句集合中的评论语句总数量、出现分词的评论语句的数量确定的。
例如,可以利用LTP(Language Technology Platform,语言技术平台)对评论语句进行分词。分词在一个评论语句中的重要性可以根据该分词在该评论语句中出现的频率和该分词在评论语句集合中出现的频率确定。分词在该评论语句中出现的频率例如为该分词在该评论语句中出现的次数和评论语句的总分词数的比值。
例如,可以利用TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文件频率)算法计算分词在一个评论语句中的重要性,即分词在一个评论语句中的重要性为该分词在该评论语句的TF-IDF值。分词在一个评论语句的TF-IDF值为分词在该评论语句中出现的频率(TF)与反文档频率(IDF)的乘积。反文档频率(IDF)=log[评论语句总数量/(出现该分词的评论语句的数量+1)]。分词在评论语句集合中的重要性可以是该分词在各个评论语句中的重要性之和。
进一步,评论语句集合中的评论语句的重要性例如为评论语句中各个分词在评论语句集合中的重要性之和。
在一些实施例中,评论语句的重要性是根据该评论语句的各个分词在评论语句集合中的重要性确定的。分词在评论语句集合中的重要性是根据该分词分别与其他分词共同出现在预设长度的窗口内的次数确定的。例如,评论语句的重要性是该评论语句的各个分词在评论语句集合中的重要性之和。
例如,可以利用TextRank(文本排名)算法计算分词在评论语句集合中的重要性。TextRank算法是主要步骤如下。(1)把评论语句进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词。(2)构建分词图G=(V,E),其中V为节点集,由(1)生成的分词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的分词在长度为K的窗口中共现,K表示窗口大小,即最多共现K个分词。(3)根据下述公式,迭代传播各节点的权重,直至收敛。各节点的权重即为各节点分词的重要性。
公式(2)中,WS(Vi)表示节点Vi的权重,WS(Vj)表示节点Vj的权重,i,j,k为正整数,d为阻尼系数,取值为0~1,代表从图中某一特定节点值向其他任意节点的概率。In(Vi)表示指向节点Vi的节点的集合,Out(Vj)表示被节点Vj指向的节点的集合,wji表示节点Vj到Vi之间的边的权重,wjk表示节点Vj到Vk之间的边的权重。例如,一个节点的分词A到另一个节点的分词B之间的边的权重则表示分词A与B共同出现在预设长度(例如K)的窗口内的次数,与分词A和A以外其他分词共同出现在预设长度的窗口内的次数的比值。
在一些实施例中,计算评论语句集合中各个评论语句的TF-IDF值和TextRank值,选取TF-IDF值和TextRank值分别高于对应的阈值的评论语句,或者,选取TF-IDF值和TextRank值的和高于对应的阈值的评论语句。
通过上述实施例的方法可以选取比较重要评论语句作为训练样本,过滤掉质量较低的评论语句。例如“服务满意,送货快,质量好,实用,五星好评”这种系统自带的评论可以被过滤掉。
在步骤S208中,根据评论语句的句法结构和各个分词的词性,在选取的评论语句中标注关于评论对象的属性词语和属性词语对应的观点词语,作为用于训练的评论语句。用于训练的评论语句即为训练样本。
评论语句的句法结构和各个分词的词性例如利用LTP平台进行确定。LTP平台可以将每个评论文本进行分词,并标注出每个词语的词性(例如名词、动词、形容词等),同时可以识别评论语句不同片段的“主谓宾”、“定状补”等句法结构。
在一些实施例中,选取句法结构为预设结构的评论语句片段,将评论语句片段中的分词标注为关于评论对象的属性词语和属性词语对应的观点词语。和/或,从评论语句中确定距离在预设范围内的名词和形容词,将该名词标注为关于评论对象的属性词语,将该形容词标注为属性词语对应的观点词语。
预设结构例如为主谓关系的句法结构。主谓关系的评论语句片段包含名词和形容词组可以作为属性词语和属性词语对应的观点词语。由于属性词语一般都为名词,观点词语一般为形容词,并且观点词语用于修饰属性词语,在文本中关联性较大且距离较近。因此,可以按照标点符号分割评论生成评论片段,设定窗口对应预设范围,对于每个评论片段将窗口范围内的名词和形容词配对,作为属性词语和对应的观点词语。
可以将根据句法结构获得的属性词语和观点词语,以及距离确定的属性词语和观点词语进行合并,扩大属性词语和观点词语的召回率。进一步,获取的属性词语和观点词语可以存入词典。该词典即为步骤S106中用于seq2seq的词典。
通过上述实施例的方法,可以自动标注评论语句的属性词语和观点词语,提高了训练样本的生成效率。
在一些实施例中,步骤S208可以替换为:根据评论语句的句法结构和各个分词的词性,确定关于评论对象的候选属性词语和候选属性词语对应的候选观点词语,作为候选词组;根据候选词组在评论语句中的重要性和候选词组中候选属性词语和候选观点词语的相关性中至少一项信息,在评论语句中标注关于评论对象的属性词语和属性词语对应的观点词语,作为用于训练的评论语句(未在图中示出)。
在一些实施例中,候选词组在评论语句中的重要性是根据候选词组在评论语句中出现的频率、评论语句集合中的评论语句总数量、出现候选词组的评论语句的数量确定的。例如,采用TF-IDF算法计算候选词组在评论语句中的TF-IDF值,作为候选词组在评论语句中的重要性。
在一些实施例中,候选词组中候选属性词语和候选观点词语的相关性是根据候选属性词语和候选观点词语在评论语句集合中同时出现在一个评论语句中的概率,以及候选属性词语和候选观点词语分别在评论语句集合中出现的概率确定的。例如,可以采用PMI(Pointwise Mutual Information,点互信息)算法计算候选词组中候选属性词语和候选观点词语的相关性。PMI算法公式如下。
公式(1)中,a,b分别表示候选词组中候选属性词语和候选观点词语,P(a,b)表示候选属性词语和候选观点词语在评论语句集合中同时出现在一个评论语句中的概率,P(a)和P(b)分别表示候选属性词语和候选观点词语在评论语句集合中出现的概率。
通过上述实施例的方法,可以进一步筛选出比较重要和更加准确的属性词语和属性词语对应的观点词语,提高训练样本的准确性,进一步可以提升模型训练的效果。
在步骤S210中,获取用于训练的评论语句。用于训练的评论语句根据前述步骤中的方法被标注了关于评论对象的属性词语和属性词语对应的观点词语。
在步骤S212中,利用预先训练的第一机器学习模型,根据用于训练评论语句中词语的前后关联关系,将用于训练评论语句转换为句向量。
第一机器学习模型例如为word2vec等模型,也需要进行预先训练,在此不再赘述训练过程。
在步骤S214中,利用用于训练的评论语句的句向量对第二机器学习模型进行训练。
例如,评论语句为“外观非常漂亮”,利用预先训练的第一机器学习模型生成的句向量为“0.14,0.11,0.4……”,标注了属性词语和对应的观点词语组合为“外观漂亮”,这样一条评论语句可以作为训练样本,对第二机器学习模型进行训练。
通过上述实施例的方法,可以提高模型训练的效果,提高模型的准确性,进一步,提高挖掘评论观点的准确性。
本公开还提供一种数据挖掘装置,下面结合图3进行描述。
图3为本公开数据挖掘装置的一些实施例的结构图。如图3所示,该实施例的装置30包括:评论获取模块302,向量转换模块304,观点挖掘模块306。
评论获取模块302,用于获取待挖掘的评论语句。
向量转换模块304,用于利用预先训练的第一机器学习模型,根据待挖掘的评论语句中词语的前后关联关系,将待挖掘的评论语句转换为句向量。
在一些实施例中,向量转换模块304用于对待挖掘的评论语句进行分词;将分词输入预先训练的第一机器学习模型,以便根据待挖掘的评论语句中分词的前后关联关系,输出各个分词的词向量;将待挖掘的评论语句中各个分词的词向量相加,得到待挖掘的评论语句的句向量。
观点挖掘模块306,用于将句向量输入预先训练的第二机器学习模型,输出待挖掘的评论语句中关于评论对象的属性词语和该属性词语对应的观点词语。
下面结合图4描述本公开数据挖掘装置的另一些实施例。
图4为本公开数据挖掘装置的另一些实施例的结构图。如图4所示,该实施例的装置40包括:评论获取模块402,向量转换模块404,观点挖掘模块406分别与评论获取模块302,向量转换模块304,观点挖掘模块306的功能相同或相似;以及训练语句获取模块408,训练模块410。
在一些实施例中,训练样本获取模块408用于获取用于训练的评论语句,用于训练的评论语句被标注了关于评论对象的属性词语和属性词语对应的观点词语。向量转换模块404还用于利用预先训练的第一机器学习模型,根据用于训练评论语句中词语的前后关联关系,将用于训练评论语句转换为句向量。训练模块410用于利用用于训练的评论语句的句向量对第二机器学习模型进行训练。
在一些实施例中,装置40还包括:第一训练样本生成模块412,用于根据评论语句的句法结构和各个分词的词性,在评论语句中标注关于评论对象的属性词语和属性词语对应的观点词语,作为用于训练的评论语句。
进一步,第一训练样本生成模块412用于选取句法结构为预设结构的评论语句片段,将评论语句片段中的分词标注为关于评论对象的属性词语和属性词语对应的观点词语;或者从评论语句中确定距离在预设范围内的名词和形容词,将该名词标注为关于评论对象的属性词语,将该形容词标注为属性词语对应的观点词语。
在一些实施例中,装置40还包括:第二训练样本生成模块414,用于根据评论语句的句法结构和各个分词的词性,确定关于评论对象的候选属性词语和候选属性词语对应的候选观点词语,作为候选词组;根据候选词组在评论语句中的重要性和候选词组中候选属性词语和候选观点词语的相关性中至少一项信息,在评论语句中标注关于评论对象的属性词语和属性词语对应的观点词语,作为用于训练的评论语句。
进一步,候选词组在评论语句中的重要性是根据候选词组在评论语句中出现的频率、评论语句集合中的评论语句总数量、出现候选词组的评论语句的数量确定的;或者候选词组中候选属性词语和候选观点词语的相关性是根据候选属性词语和候选观点词语在评论语句集合中同时出现在一个评论语句中的概率和候选属性词语,以及候选观点词语分别在评论语句集合中出现的概率确定的。
在一些实施例中,装置40还包括:评论语句过滤模块416,用于根据黑名单词表、词语重复度和评论语句的长度中至少一项,对评论语句集合中的评论语句进行过滤,选取过滤后的评论数据作为用于训练的评论数据语句;或者根据评论语句集合中的评论语句的重要性,选取重要性高于阈值的评论语句作为用于训练的评论语句。
进一步,评论语句的重要性是根据该评论语句的各个分词在评论语句集合中的重要性确定的;分词在评论语句集合中的重要性是根据分词分别在各个评论语句中出现的频率、评论语句集合中的评论语句总数量、出现分词的评论语句的数量确定的;或者分词在评论语句集合中的重要性是根据该分词分别与其他分词共同出现在预设长度的窗口内的次数确定的。
本公开的实施例中的数据挖掘装置可各由各种计算设备或计算机系统来实现,下面结合图5以及图6进行描述。
图5为本公开数据挖掘装置的一些实施例的结构图。如图5所示,该实施例的装置50包括:存储器510以及耦接至该存储器510的处理器520,处理器520被配置为基于存储在存储器510中的指令,执行本公开中任意一些实施例中的数据挖掘方法。
其中,存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图6为本公开数据挖掘装置的另一些实施例的结构图。如图6所示,该实施例的装置60包括:存储器610以及处理器620,分别与存储器510以及处理器520类似。还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630,640,650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (20)
1.一种数据挖掘方法,包括:
获取待挖掘的评论语句;
利用预先训练的第一机器学习模型,根据所述待挖掘的评论语句中词语的前后关联关系,将所述待挖掘的评论语句转换为句向量;
将所述句向量输入预先训练的第二机器学习模型,输出所述待挖掘的评论语句中关于评论对象的属性词语和该属性词语对应的观点词语。
2.根据权利要求1所述的数据挖掘方法,其中,
所述利用预先训练的第一机器学习模型,根据所述待挖掘的评论语句中词语的前后关联关系,将所述待挖掘的评论语句转换为句向量包括:
对所述待挖掘的评论语句进行分词;
将分词输入预先训练的第一机器学习模型,以便根据所述待挖掘的评论语句中分词的前后关联关系,输出各个分词的词向量;
将所述待挖掘的评论语句中各个分词的词向量相加,得到所述待挖掘的评论语句的句向量。
3.根据权利要求1所述的数据挖掘方法,还包括:
获取用于训练的评论语句,所述用于训练的评论语句被标注了关于评论对象的属性词语和属性词语对应的观点词语;
利用所述预先训练的第一机器学习模型,根据所述用于训练评论语句中词语的前后关联关系,将所述用于训练评论语句转换为句向量;
利用所述用于训练的评论语句的句向量对所述第二机器学习模型进行训练。
4.根据权利要求3所述的数据挖掘方法,还包括:
根据评论语句的句法结构和各个分词的词性,在评论语句中标注关于评论对象的属性词语和属性词语对应的观点词语,作为用于训练的评论语句。
5.根据权利要求4所述的数据挖掘方法,其中,
所述根据评论语句的句法结构句子中和各个分词的词性,在评论语句中标注关于评论对象的属性词语和属性词语对应的观点词语包括:
选取句法结构为预设结构的评论语句片段,将评论语句片段中的分词标注为关于评论对象的属性词语和属性词语对应的观点词语;或者
从所述评论语句中确定距离在预设范围内的名词和形容词,将该名词标注为关于评论对象的属性词语,将该形容词标注为属性词语对应的观点词语。
6.根据权利要求3所述的数据挖掘方法,还包括:
根据评论语句的句法结构和各个分词的词性,确定关于评论对象的候选属性词语和候选属性词语对应的候选观点词语,作为候选词组;
根据所述候选词组在评论语句中的重要性和所述候选词组中候选属性词语和候选观点词语的相关性中至少一项信息,在评论语句中标注关于评论对象的属性词语和属性词语对应的观点词语,作为用于训练的评论语句。
7.根据权利要求6所述的数据挖掘方法,其中,
所述候选词组在评论语句中的重要性是根据所述候选词组在评论语句中出现的频率、评论语句集合中的评论语句总数量、出现所述候选词组的评论语句的数量确定的;或者
所述候选词组中候选属性词语和候选观点词语的相关性是根据候选属性词语和候选观点词语在评论语句集合中同时出现在一个评论语句中的概率和候选属性词语,以及候选观点词语分别在评论语句集合中出现的概率确定的。
8.根据权利要求3所述的数据挖掘方法,还包括:
根据黑名单词表、词语重复度和评论语句的长度中至少一项,对评论语句集合中的评论语句进行过滤,选取过滤后的评论数据作为用于训练的评论数据语句;或者
根据评论语句集合中的评论语句的重要性,选取重要性高于阈值的评论语句作为用于训练的评论语句。
9.根据权利要求8所述的数据挖掘方法,其中,
所述评论语句的重要性是根据该评论语句的各个分词在评论语句集合中的重要性确定的;
分词在评论语句集合中的重要性是根据所述分词分别在各个评论语句中出现的频率、评论语句集合中的评论语句总数量、出现所述分词的评论语句的数量确定的;或者
分词在评论语句集合中的重要性是根据该分词分别与其他分词共同出现在预设长度的窗口内的次数确定的。
10.一种数据挖掘装置,包括:
评论获取模块,用于获取待挖掘的评论语句;
向量转换模块,用于利用预先训练的第一机器学习模型,根据所述待挖掘的评论语句中词语的前后关联关系,将所述待挖掘的评论语句转换为句向量;
观点挖掘模块,用于将所述句向量输入预先训练的第二机器学习模型,输出所述待挖掘的评论语句中关于评论对象的属性词语和该属性词语对应的观点词语。
11.根据权利要求10所述的数据挖掘装置,其中,
所述向量转换模块用于对所述待挖掘的评论语句进行分词;将分词输入预先训练的第一机器学习模型,以便根据所述待挖掘的评论语句中分词的前后关联关系,输出各个分词的词向量;将所述待挖掘的评论语句中各个分词的词向量相加,得到所述待挖掘的评论语句的句向量。
12.根据权利要求10所述的数据挖掘装置,还包括:训练语句获取模块,训练模块;
所述训练样本获取模块用于获取用于训练的评论语句,所述用于训练的评论语句被标注了关于评论对象的属性词语和属性词语对应的观点词语;
所述向量转换模块还用于利用所述预先训练的第一机器学习模型,根据所述用于训练评论语句中词语的前后关联关系,将所述用于训练评论语句转换为句向量;
所述训练模块用于利用所述用于训练的评论语句的句向量对所述第二机器学习模型进行训练。
13.根据权利要求12所述的数据挖掘装置,还包括:
第一训练样本生成模块,用于根据评论语句的句法结构和各个分词的词性,在评论语句中标注关于评论对象的属性词语和属性词语对应的观点词语,作为用于训练的评论语句。
14.根据权利要求13所述的数据挖掘装置,其中,
所述第一训练样本生成模块用于选取句法结构为预设结构的评论语句片段,将评论语句片段中的分词标注为关于评论对象的属性词语和属性词语对应的观点词语;或者从所述评论语句中确定距离在预设范围内的名词和形容词,将该名词标注为关于评论对象的属性词语,将该形容词标注为属性词语对应的观点词语。
15.根据权利要求12所述的数据挖掘装置,还包括:
第二训练样本生成模块,用于根据评论语句的句法结构和各个分词的词性,确定关于评论对象的候选属性词语和候选属性词语对应的候选观点词语,作为候选词组;根据所述候选词组在评论语句中的重要性和所述候选词组中候选属性词语和候选观点词语的相关性中至少一项信息,在评论语句中标注关于评论对象的属性词语和属性词语对应的观点词语,作为用于训练的评论语句。
16.根据权利要求15所述的数据挖掘装置,其中,
所述候选词组在评论语句中的重要性是根据所述候选词组在评论语句中出现的频率、评论语句集合中的评论语句总数量、出现所述候选词组的评论语句的数量确定的;或者
所述候选词组中候选属性词语和候选观点词语的相关性是根据候选属性词语和候选观点词语在评论语句集合中同时出现在一个评论语句中的概率和候选属性词语,以及候选观点词语分别在评论语句集合中出现的概率确定的。
17.根据权利要求12所述的数据挖掘装置,还包括:
评论语句过滤模块,用于根据黑名单词表、词语重复度和评论语句的长度中至少一项,对评论语句集合中的评论语句进行过滤,选取过滤后的评论数据作为用于训练的评论数据语句;或者根据评论语句集合中的评论语句的重要性,选取重要性高于阈值的评论语句作为用于训练的评论语句。
18.根据权利要求17所述的数据挖掘装置,其中,
所述评论语句的重要性是根据该评论语句的各个分词在评论语句集合中的重要性确定的;
分词在评论语句集合中的重要性是根据所述分词分别在各个评论语句中出现的频率、评论语句集合中的评论语句总数量、出现所述分词的评论语句的数量确定的;或者
分词在评论语句集合中的重要性是根据该分词分别与其他分词共同出现在预设长度的窗口内的次数确定的。
19.一种数据挖掘装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-9任一项所述的数据挖掘方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现权利要求1-9任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811453553.7A CN111259159A (zh) | 2018-11-30 | 2018-11-30 | 数据挖掘方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811453553.7A CN111259159A (zh) | 2018-11-30 | 2018-11-30 | 数据挖掘方法、装置和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111259159A true CN111259159A (zh) | 2020-06-09 |
Family
ID=70946667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811453553.7A Pending CN111259159A (zh) | 2018-11-30 | 2018-11-30 | 数据挖掘方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259159A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782880A (zh) * | 2020-07-10 | 2020-10-16 | 聚好看科技股份有限公司 | 语义泛化方法及显示设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110044112A (ko) * | 2009-10-22 | 2011-04-28 | 건국대학교 산학협력단 | 상품 속성별 리뷰의 마이닝을 위한 패턴 데이터베이스의 반자동적인 구축 방법 |
US20110231448A1 (en) * | 2010-03-22 | 2011-09-22 | International Business Machines Corporation | Device and method for generating opinion pairs having sentiment orientation based impact relations |
CN103399916A (zh) * | 2013-07-31 | 2013-11-20 | 清华大学 | 基于产品特征的互联网评论观点挖掘方法及系统 |
CN108427670A (zh) * | 2018-04-08 | 2018-08-21 | 重庆邮电大学 | 一种基于语境词向量和深度学习的情感分析方法 |
-
2018
- 2018-11-30 CN CN201811453553.7A patent/CN111259159A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110044112A (ko) * | 2009-10-22 | 2011-04-28 | 건국대학교 산학협력단 | 상품 속성별 리뷰의 마이닝을 위한 패턴 데이터베이스의 반자동적인 구축 방법 |
US20110231448A1 (en) * | 2010-03-22 | 2011-09-22 | International Business Machines Corporation | Device and method for generating opinion pairs having sentiment orientation based impact relations |
CN103399916A (zh) * | 2013-07-31 | 2013-11-20 | 清华大学 | 基于产品特征的互联网评论观点挖掘方法及系统 |
CN108427670A (zh) * | 2018-04-08 | 2018-08-21 | 重庆邮电大学 | 一种基于语境词向量和深度学习的情感分析方法 |
Non-Patent Citations (1)
Title |
---|
张焕成;: "基于词向量的手机网评观点句提取方法研究", 信息通信, no. 02 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782880A (zh) * | 2020-07-10 | 2020-10-16 | 聚好看科技股份有限公司 | 语义泛化方法及显示设备 |
CN111782880B (zh) * | 2020-07-10 | 2023-12-15 | 聚好看科技股份有限公司 | 语义泛化方法及显示设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
US11775760B2 (en) | Man-machine conversation method, electronic device, and computer-readable medium | |
Li et al. | Leveraging linguistic structures for named entity recognition with bidirectional recursive neural networks | |
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
CN105095204B (zh) | 同义词的获取方法及装置 | |
WO2017084267A1 (zh) | 一种关键词提取方法和装置 | |
Konstas et al. | Inducing document plans for concept-to-text generation | |
CN110704621A (zh) | 文本处理方法、装置及存储介质和电子设备 | |
CN109325201A (zh) | 实体关系数据的生成方法、装置、设备及存储介质 | |
CN106844348B (zh) | 一种汉语句子功能成分分析方法 | |
CN109614620B (zh) | 一种基于HowNet的图模型词义消歧方法和系统 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN112668319A (zh) | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
CN108959630A (zh) | 一种面向英文无结构文本的人物属性抽取方法 | |
CN116628186B (zh) | 文本摘要生成方法及系统 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
US20050171759A1 (en) | Text generation method and text generation device | |
Arikan et al. | Detecting clitics related orthographic errors in Turkish | |
Selamat | Improved N-grams approach for web page language identification | |
CN111814476A (zh) | 一种实体关系的抽取方法和装置 | |
Vaishnavi et al. | Paraphrase identification in short texts using grammar patterns | |
CN111259159A (zh) | 数据挖掘方法、装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |