CN105447206A - 基于word2vec算法的新评论对象识别方法及系统 - Google Patents

基于word2vec算法的新评论对象识别方法及系统 Download PDF

Info

Publication number
CN105447206A
CN105447206A CN201610009698.2A CN201610009698A CN105447206A CN 105447206 A CN105447206 A CN 105447206A CN 201610009698 A CN201610009698 A CN 201610009698A CN 105447206 A CN105447206 A CN 105447206A
Authority
CN
China
Prior art keywords
word
comment
module
viewpoint
comment object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610009698.2A
Other languages
English (en)
Other versions
CN105447206B (zh
Inventor
吴扬
王平
石增华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhongyi Technology Co Ltd
Original Assignee
Shenzhen Zhongyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongyi Technology Co Ltd filed Critical Shenzhen Zhongyi Technology Co Ltd
Priority to CN201610009698.2A priority Critical patent/CN105447206B/zh
Publication of CN105447206A publication Critical patent/CN105447206A/zh
Application granted granted Critical
Publication of CN105447206B publication Critical patent/CN105447206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于word2vec算法的新评论对象识别方法及系统,该新评论对象识别方法包括数据获取步骤、评论数据处理步骤、计算词向量步骤、观点提取步骤、新评论对象获取步骤、过滤步骤、更新步骤,重复依次执行观点提取步骤、新评论对象获取步骤、过滤步骤、和更新步骤,直到不出现新评论对象或达到迭代次数后,执行观点提取步骤,从而得到最新的观点提取结果。本发明的有益效果是:本发明通过word2vec计算词向量来自动过滤新评论对象识别结果,相对于传统的CRF模型而言,提升了新评论对象发现的准确性,相比于人工维护词典的方法,本发明实施相对简单,具有更高的效率。

Description

基于word2vec算法的新评论对象识别方法及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及基于word2vec算法的新评论对象识别方法及系统。
背景技术
观点挖掘是指从文本中发现带有作者主观情感的内容。一个观点通常包括观点对象、观点情感、观点所有者、发表时间等信息。其中,观点对象词五花八门,并且更新迅速。因此新对象识别技术很有意义。
CRF是条件随机场(ConditionalRandomFields)的简称。最初由Lafferty等人于2001年提出,是一种无向图模型。近年来,CRF模型被广泛应用于各种命名实体识别和新词发现任务中,取得了不错的效果。
在实际生产中,为了提高观点识别的准确性,需要维护相应领域的观点对象词典。对于扩充词典这类任务,新词的准确性至关重要。但CRF模型的新词识别结果是不可预期的。直接使用CRF模型的标注结果无法达到较高的准确性,而对标注结果进行人工过滤的工作量极大,同时也需要过滤者具备一定的相关领域知识。
尤其在电子商务领域,产品的新特点层出不穷,新特点的出现会导致买家关注全新的对象。要提高对当前评论的观点挖掘的准确性,就必须识别这些新评论对象。
CRF(条件随机场)模型是一个监督学习模型,使用CRF模型可以进行命名实体识别、特定领域对象识别等处理,但这些功能的实现都需要依赖正确标注完成的训练集(具体标注格式和训练集格式视不同模板类型而定)。
但对于互联网上不断更新的海量信息,商品评论中会出现很多新观点,在这个领域里不容易维护专业语料库(即使有也容易过时),人工维护语料库需要耗费大量人力,而且人工标注语料效率低下。
发明内容
本发明提供了一种基于word2vec算法的新评论对象识别方法,包括如下步骤:
数据获取步骤,获取网页上的评论数据;
评论数据处理步骤,对评论数据进行分词、词性标注、及去停用词处理从而得到分词结果;
计算词向量步骤,使用word2vec算法,输入分词结果,计算评论数据中每个词的词向量;
观点提取步骤,使用种子词典结合观点提取规则处理评论数据,获得观点提取结果,观点提取结果包括评论对象和评论观点信息;
新评论对象获取步骤,结合评论数据和观点提取结果,使用CRF模型发现新评论对象,并将新评论对象添加到新词候选集中;
过滤步骤,使用词向量和过滤规则对新词候选集中的评论对象进行过滤,形成新词词集;
更新步骤,将新词词集中的评论对象添加到种子词典中,从而更新种子词典;
重复依次执行观点提取步骤、新评论对象获取步骤、过滤步骤、和更新步骤,直到不出现新评论对象或达到迭代次数后,执行观点提取步骤,从而得到最新的观点提取结果。
作为本发明的进一步改进,在所述新评论对象获取步骤中包括如下步骤:
(1).构造训练语料步骤,从观点提取结果中得到评论对象,生成CRF模型的训练语料;
(2).训练集建立步骤,建立交叉验证训练集,并使用交叉验证方法把训练语料分成规定份数,并按规定比例组合成训练集和测试集,然后对训练集和测试集分别进行训练,从而得到CRF模型;
(3).提取步骤,使用CRF模型进行新评论对象提取;
(4).交叉训练判断步骤,判断是否完成交叉训练,如果是,那么执行步骤(5),否则执行步骤(3);
(5).新词候选集生成步骤,生成新词候选集,并将新评论对象添加到新词候选集中。
作为本发明的进一步改进,在所述过滤步骤中包括如下步骤:
A.计算相似度步骤,计算新词候选集中的新评论对象与种子词典中的分类中心词的相似度;
B.处理判断步骤,若相似度高于阈值且新词候选集中的新评论对象不在种子词典内,那么执行步骤C,否则从新词候选集中将该新评论对象删除后再执行步骤C;
C.判断是否完成对新词候选集的过滤,若是,那么执行步骤D,否则执行步骤A;
D.将新词候选集中的评论对象添加到新词词集中。
作为本发明的进一步改进,在所述计算词向量步骤中,Word2vec算法计算评论数据中每个词的词向量使用向量余弦值来度量词语之间的相似性,具体公式如下:
sim i , c = cos ( V i , V c ) = ( v i 1 , v i 2 , ... , v i n ) · ( v c 1 , v c 2 , ... , v c n ) ( v i 1 , v i 2 , ... , v i n ) 2 · ( v c 1 , v c 2 , ... , v c n ) 2 ,
其中Vi=(vi1,vi2,...,vin)表示第i个词的词向量,Vc=(vc1,vc2,...,vcn)表示分类c中心词的词向量,分类中心词取每个分类在评论数据中出现频率最高的词语,由于使用word2vec算法获得的词向量的模为1,上述公式可以简化为:
sim i , c = Σ c Σ i v i · v c .
作为本发明的进一步改进,在所述计算词向量步骤中,对属于每个类别的相似性加上偏移修正,修正后的相似性计算公式如下:
sim i , c = θ c Σ c Σ i v i · v c ,
其中Max(simc)表示与分类c中心词的相似度最大值;
第i个新评论对象的判定函数为:
f i = M a x c m ( θ c Σ c m Σ i n v i · v c ) ,
其中m是分类总数,n是CRF模型得到的新评论对象总数。
本发明还提供了一种基于word2vec算法的新评论对象识别系统,包括:
数据获取模块,用于获取网页上的评论数据;
评论数据处理模块,用于对评论数据进行分词、词性标注、及去停用词处理从而得到分词结果;
计算词向量模块,用于使用word2vec算法,输入分词结果,计算评论数据中每个词的词向量;
观点提取模块,用于使用种子词典结合观点提取规则处理评论数据,获得观点提取结果,观点提取结果包括评论对象和评论观点信息;
新评论对象获取模块,用于结合评论数据和观点提取结果,使用CRF模型发现新评论对象,并将新评论对象添加到新词候选集中;
过滤模块,用于使用词向量和过滤规则对新词候选集中的评论对象进行过滤,形成新词词集;
更新模块,用于将新词词集中的评论对象添加到种子词典中,从而更新种子词典;
重复依次执行观点提取模块、新评论对象获取模块、过滤模块、和更新模块,直到不出现新评论对象或达到迭代次数后,执行观点提取模块,从而得到最新的观点提取结果。
作为本发明的进一步改进,在所述新评论对象获取模块中包括:
构造训练语料模块,用于从观点提取结果中得到评论对象,生成CRF模型的训练语料;
训练集建立模块,用于建立交叉验证训练集,并使用交叉验证方法把训练语料分成规定份数,并按规定比例组合成训练集和测试集,然后对训练集和测试集分别进行训练,从而得到CRF模型;
提取模块,用于使用CRF模型进行新评论对象提取;
交叉训练判断模块,用于判断是否完成交叉训练,如果是,那么执行新词候选集生成模块,否则执行提取模块;
新词候选集生成模块,用于生成新词候选集,并将新评论对象添加到新词候选集中。
作为本发明的进一步改进,在所述过滤模块中包括:
计算相似度模块,计算新词候选集中的新评论对象与种子词典中的分类中心词的相似度;
处理判断模块,若相似度高于阈值且新词候选集中的新评论对象不在种子词典内,那么执行过滤判断模块,否则从新词候选集中将该新评论对象删除后再执行过滤判断模块;
过滤判断模块,用于判断是否完成对新词候选集的过滤,若是,那么执行添加模块,否则执行计算相似度模块;
添加模块,用于将新词候选集中的评论对象添加到新词词集中。
作为本发明的进一步改进,在所述计算词向量模块中,Word2vec算法计算评论数据中每个词的词向量使用向量余弦值来度量词语之间的相似性,具体公式如下:
sim i , c = cos ( V i , V c ) = ( v i 1 , v i 2 , ... , v i n ) · ( v c 1 , v c 2 , ... , v c n ) ( v i 1 , v i 2 , ... , v m · ) 2 · ( v c 1 , v c 2 , ... , v c n ) 2 ,
其中Vi=(vi1,vi2,...,vin)表示第i个词的词向量,Vc=(vc1,vc2,...,vcn)表示分类c中心词的词向量,分类中心词取每个分类在评论数据中出现频率最高的词语,由于使用word2vec算法获得的词向量的模为1,上述公式可以简化为:
sim i , c = Σ c Σ i v i · v c .
作为本发明的进一步改进,在所述计算词向量模块中,对属于每个类别的相似性加上偏移修正,修正后的相似性计算公式如下:
sim i , c = θ c Σ c Σ i v i · v c ,
其中Max(simc)表示与分类c中心词的相似度最大值;
第i个新评论对象的判定函数为:
f i = M a x c m ( θ c Σ c m Σ i n v i · v c ) ,
其中m是分类总数,n是CRF模型得到的新评论对象总数。
本发明的有益效果是:本发明通过word2vec计算词向量来自动过滤新评论对象识别结果,相对于传统的CRF模型而言,提升了新评论对象发现的准确性,相比于人工维护词典的方法,本发明实施相对简单,具有更高的效率。
附图说明
图1是本发明的新评论对象获取步骤流程图;
图2是本发明的过滤步骤流程图。
具体实施方式
本发明公开了一种基于word2vec算法的新评论对象识别方法,包括如下步骤:
数据获取步骤,获取网页上的评论数据,例如可以用爬虫获取网页上的评论数据;
评论数据处理步骤,对评论数据进行分词、词性标注、及去停用词处理从而得到分词结果;
计算词向量步骤,使用word2vec算法,输入分词结果,计算评论数据中每个词的词向量;
观点提取步骤,使用种子词典结合观点提取规则处理评论数据,获得观点提取结果,观点提取结果包括评论对象和评论观点信息;
新评论对象获取步骤,结合评论数据和观点提取结果,使用CRF模型发现新评论对象,并将新评论对象添加到新词候选集中;
过滤步骤,使用词向量和过滤规则对新词候选集中的评论对象进行过滤,形成新词词集;
更新步骤,将新词词集中的评论对象添加到种子词典中,从而更新种子词典;
重复依次执行观点提取步骤、新评论对象获取步骤、过滤步骤、和更新步骤,直到不出现新评论对象或达到迭代次数后,执行观点提取步骤,从而得到最新的观点提取结果。
在评论数据处理步骤中,分词指的是中文分词,即把整段连续的文本按照词语为单位进行切分;词性标注指的是标注每个词语的词性,例如:名词,动词,形容词等;去停用词指的是从分词结果中去除无意义的词,例如:啊,在,如果,以致于等。
首先词性标注要建立在分词的基础上;其次,词性是CRF模型训练集的组成部分,旨在提高CRF模型效果。
去停用词处理提高了word2vec算法的准确性,也减少了观点提取步骤的时间开销。
在观点提取步骤中,观点提取规则是指一些判断观点的规则,例如:把观点看成一个四元组{iPhone6(产品),屏幕(观点对象),大(情感词),[不能有标点符号,间隔不能太大](条件)},也可以是一个三元组{iPhone6(产品),美观(隐含对象的情感词),间隔不能太大(条件)}等,发现规则是对分词、词性标注、去停用词结果的一个匹配过程。
如图1所示,在所述新评论对象获取步骤中包括如下步骤:
S1.构造训练语料步骤,从观点提取结果中得到评论对象,生成CRF模型的训练语料;
S2.训练集建立步骤,建立交叉验证训练集,并使用交叉验证方法把训练语料分成规定份数,并按规定比例组合成训练集和测试集,然后对训练集和测试集分别进行训练,从而得到CRF模型,例如把训练语料分成10份,并按9:1组合成10组训练、测试集;
S3.提取步骤,使用CRF模型进行新评论对象提取;
S4.交叉训练判断步骤,判断是否完成交叉训练,如果是,那么执行步骤S5,否则执行步骤S3;
S5.新词候选集生成步骤,生成新词候选集,并将新评论对象添加到新词候选集中。
在CRF模型训练部分,本发明使用K折交叉验证的方法,即把训练集分成K份,每次取其中K-1份作为训练集,用于训练模型;把剩下的1份作为测试集,用于发现新对象词。为了提高结果的覆盖率,可以重新划分训练集,多次重复交叉验证训练。
如图2所示,在所述过滤步骤中包括如下步骤:
Q1.计算相似度步骤,计算新词候选集中的新评论对象与种子词典中的分类中心词的相似度;
Q2.处理判断步骤,若相似度高于阈值且新词候选集中的新评论对象不在种子词典内,那么执行步骤Q3,否则从新词候选集中将该新评论对象删除后再执行步骤Q3;
Q3.判断是否完成对新词候选集的过滤,若是,那么执行步骤Q4,否则执行步骤Q1;
Q4.将新词候选集中的评论对象添加到新词词集中。
评论数据包括评论对象、评论观点、评论对象类别,评论对象类别是用于区分观点对象的类别,在词典中有标注,每个类别拥有一个类别中心词,类别中心词最能代表属于该类别的对象,最初始的类别数和类别中心词是人为设定的。
CRF模型是一种识别评论文本新观点对象的监督学习方法,评论对象是评论描述内容的载体,如:在“价格便宜”中,“价格”就是评论对象。
词向量是文本分类技术中的一种词的表示方法。
在所述计算词向量步骤中,Word2vec算法能够根据上下文信息,计算评论数据中每个词的词向量使用向量余弦值来度量词语之间的相似性(余弦相似性),具体公式如下:
sim i , c = cos ( V i , V c ) = ( v i 1 , v i 2 , ... , v i n ) · ( v c 1 , v c 2 , ... , v c n ) ( v i 1 , v i 2 , ... , v i n ) 2 · ( v c 1 , v c 2 , ... , v c n ) 2 ,
其中Vi=(vi1,vi2,...,vin)表示第i个词的词向量,Vc=(vc1,vc2,...,vcn)表示分类c中心词的词向量,分类中心词取每个分类在评论数据中出现频率最高的词语,由于使用word2vec算法获得的词向量的模为1,上述公式可以简化为:
sim i , c = Σ c Σ i v i · v c .
但是,仅用上述公式的计算结果作为判定标准还不准确。由于分类中心按词语频率选取,可能存在选定的分类中心词偏离以词向量表示的类别中心。在所述计算词向量步骤中,对属于每个类别的相似性加上偏移修正,修正后的相似性计算公式如下:
sim i , c = θ c Σ c Σ i v i · v c ,
其中Max(simc)表示与分类c中心词的相似度最大值;
第i个新评论对象的判定函数为:
f i = M a x c m ( θ c Σ c m Σ i n v i · v c ) ,
其中m是分类总数,n是CRF模型得到的新评论对象总数。
综上,设定相似性阈值(通常取0.5),再计算新评论对象获取步骤的结果中的每个对象词i的fi值,从中过滤掉函数fi结果小于阈值的词语,即可得到最终的新评论对象词,从而形成新词词集。用新评论对象更新原有的种子词典,完成一次迭代。
与原有的种子词典相比,更新后的种子词典能够更好地适应当前互联网上人们的评论习惯,更准确地提取出评论中的观点,即准确地提取新评论对象。
本发明提出了一种通过较小的种子训练集,使用CRF模型识别评论对象,并使用word2vec算法过滤识别结果的迭代方法。
基于种子训练集的机器学习模型在反复迭代过程中通常会造成模型精度的损失。本发明在模型迭代训练中,加入基于word2vec算法得到的词向量,计算词语的余弦相似性,自动过滤非对象词,确保迭代模型的精度,并在此基础上节约了人力,提高了生成训练集的效率。
下面举例说明:
可以看到更新的种子词典加入了新评论对象“手感”,新模型结果增加了“手感也不错”这一个观点提取结果。
本发明还公开了一种基于word2vec算法的新评论对象识别系统,包括:
数据获取模块,用于获取网页上的评论数据;
评论数据处理模块,用于对评论数据进行分词、词性标注、及去停用词处理从而得到分词结果;
计算词向量模块,用于使用word2vec算法,输入分词结果,计算评论数据中每个词的词向量;
观点提取模块,用于使用种子词典结合观点提取规则处理评论数据,获得观点提取结果,观点提取结果包括评论对象和评论观点信息;
新评论对象获取模块,用于结合评论数据和观点提取结果,使用CRF模型发现新评论对象,并将新评论对象添加到新词候选集中;
过滤模块,用于使用词向量和过滤规则对新词候选集中的评论对象进行过滤,形成新词词集;
更新模块,用于将新词词集中的评论对象添加到种子词典中,从而更新种子词典;
重复依次执行观点提取模块、新评论对象获取模块、过滤模块、和更新模块,直到不出现新评论对象或达到迭代次数后,执行观点提取模块,从而得到最新的观点提取结果。
在所述新评论对象获取模块中包括:
构造训练语料模块,用于从观点提取结果中得到评论对象,生成CRF模型的训练语料;
训练集建立模块,用于建立交叉验证训练集,并使用交叉验证方法把训练语料分成规定份数,并按规定比例组合成训练集和测试集,然后对训练集和测试集分别进行训练,从而得到CRF模型;
提取模块,用于使用CRF模型进行新评论对象提取;
交叉训练判断模块,用于判断是否完成交叉训练,如果是,那么执行新词候选集生成模块,否则执行提取模块;
新词候选集生成模块,用于生成新词候选集,并将新评论对象添加到新词候选集中。
在所述过滤模块中包括:
计算相似度模块,计算新词候选集中的新评论对象与种子词典中的分类中心词的相似度;
处理判断模块,若相似度高于阈值且新词候选集中的新评论对象不在种子词典内,那么执行过滤判断模块,否则从新词候选集中将该新评论对象删除后再执行过滤判断模块;
过滤判断模块,用于判断是否完成对新词候选集的过滤,若是,那么执行添加模块,否则执行计算相似度模块;
添加模块,用于将新词候选集中的评论对象添加到新词词集中。
在所述计算词向量模块中,Word2vec算法计算评论数据中每个词的词向量使用向量余弦值来度量词语之间的相似性,具体公式如下:
sim i , c = cos ( V i , V c ) = ( v i 1 , v i 2 , ... , v i n ) · ( v c 1 , v c 2 , ... , v c n ) ( v i 1 , v i 2 , ... , v i n ) 2 · ( v c 1 , v c 2 , ... , v c n ) 2 ,
其中Vi=(vi1,vi2,...,vin)表示第i个词的词向量,Vc=(vc1,vc2,...,vcn)表示分类c中心词的词向量,分类中心词取每个分类在评论数据中出现频率最高的词语,由于使用word2vec算法获得的词向量的模为1,上述公式可以简化为:
sim i , c = Σ c Σ i v i · v c .
在所述计算词向量模块中,对属于每个类别的相似性加上偏移修正,修正后的相似性计算公式如下:
sim i , c = θ c Σ c Σ i v i · v c ,
其中Max(simc)表示与分类c中心词的相似度最大值;
第i个新评论对象的判定函数为:
f i = M a x c m ( θ c Σ c m Σ i n v i · v c ) ,
其中m是分类总数,n是CRF模型得到的新评论对象总数。
本发明通过word2vec计算词向量来自动过滤新评论对象识别结果,相对于传统的CRF模型而言,提升了新评论对象发现的准确性,相比于人工维护词典的方法,本发明实施相对简单,具有更高的效率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于word2vec算法的新评论对象识别方法,其特征在于,包括如下步骤:
数据获取步骤,获取网页上的评论数据;
评论数据处理步骤,对评论数据进行分词、词性标注、及去停用词处理从而得到分词结果;
计算词向量步骤,使用word2vec算法,输入分词结果,计算评论数据中每个词的词向量;
观点提取步骤,使用种子词典结合观点提取规则处理评论数据,获得观点提取结果,观点提取结果包括评论对象和评论观点信息;
新评论对象获取步骤,结合评论数据和观点提取结果,使用CRF模型发现新评论对象,并将新评论对象添加到新词候选集中;
过滤步骤,使用词向量和过滤规则对新词候选集中的评论对象进行过滤,形成新词词集;
更新步骤,将新词词集中的评论对象添加到种子词典中,从而更新种子词典;
重复依次执行观点提取步骤、新评论对象获取步骤、过滤步骤、和更新步骤,直到不出现新评论对象或达到迭代次数后,执行观点提取步骤,从而得到最新的观点提取结果。
2.根据权利要求1所述的新评论对象识别方法,其特征在于,在所述新评论对象获取步骤中包括如下步骤:
(1).构造训练语料步骤,从观点提取结果中得到评论对象,生成CRF模型的训练语料;
(2).训练集建立步骤,建立交叉验证训练集,并使用交叉验证方法把训练语料分成规定份数,并按规定比例组合成训练集和测试集,然后对训练集和测试集分别进行训练,从而得到CRF模型;
(3).提取步骤,使用CRF模型进行新评论对象提取;
(4).交叉训练判断步骤,判断是否完成交叉训练,如果是,那么执行步骤(5),否则执行步骤(3);
(5).新词候选集生成步骤,生成新词候选集,并将新评论对象添加到新词候选集中。
3.根据权利要求1所述的新评论对象识别方法,其特征在于,在所述过滤步骤中包括如下步骤:
A.计算相似度步骤,计算新词候选集中的新评论对象与种子词典中的分类中心词的相似度;
B.处理判断步骤,若相似度高于阈值且新词候选集中的新评论对象不在种子词典内,那么执行步骤C,否则从新词候选集中将该新评论对象删除后再执行步骤C;
C.判断是否完成对新词候选集的过滤,若是,那么执行步骤D,否则执行步骤A;
D.将新词候选集中的评论对象添加到新词词集中。
4.根据权利要求1所述的新评论对象识别方法,其特征在于,在所述计算词向量步骤中,Word2vec算法计算评论数据中每个词的词向量使用向量余弦值来度量词语之间的相似性,具体公式如下:
sim i , c = cos ( V i , V c ) = ( v i 1 , v i 2 , ... , v i n ) · ( v c 1 , v c 2 , ... , v c n ) ( v i 1 , v i 2 , ... , v i n ) 2 · ( v c 1 , v c 2 , ... , v c n ) 2 ,
其中Vi=(vi1,vi2,...,vin)表示第i个词的词向量,Vc=(vc1,vc2,...,vcn)表示分类c中心词的词向量,分类中心词取每个分类在评论数据中出现频率最高的词语,由于使用word2vec算法获得的词向量的模为1,上述公式可以简化为: sim i , c = Σ c Σ i v i · v c .
5.根据权利要求4所述的新评论对象识别方法,其特征在于,在所述计算词向量步骤中,对属于每个类别的相似性加上偏移修正,修正后的相似性计算公式如下:
sim i , c = θ c Σ c Σ i v i · v c ,
其中Max(simc)表示与分类c中心词的相似度最大值;
第i个新评论对象的判定函数为:
f i = M a x c m ( θ c Σ c m Σ i n v i · v c ) ,
其中m是分类总数,n是CRF模型得到的新评论对象总数。
6.一种基于word2vec算法的新评论对象识别系统,其特征在于,包括:
数据获取模块,用于获取网页上的评论数据;
评论数据处理模块,用于对评论数据进行分词、词性标注、及去停用词处理从而得到分词结果;
计算词向量模块,用于使用word2vec算法,输入分词结果,计算评论数据中每个词的词向量;
观点提取模块,用于使用种子词典结合观点提取规则处理评论数据,获得观点提取结果,观点提取结果包括评论对象和评论观点信息;
新评论对象获取模块,用于结合评论数据和观点提取结果,使用CRF模型发现新评论对象,并将新评论对象添加到新词候选集中;
过滤模块,用于使用词向量和过滤规则对新词候选集中的评论对象进行过滤,形成新词词集;
更新模块,用于将新词词集中的评论对象添加到种子词典中,从而更新种子词典;
重复依次执行观点提取模块、新评论对象获取模块、过滤模块、和更新模块,直到不出现新评论对象或达到迭代次数后,执行观点提取模块,从而得到最新的观点提取结果。
7.根据权利要求6所述的新评论对象识别系统,其特征在于,在所述新评论对象获取模块中包括:
构造训练语料模块,用于从观点提取结果中得到评论对象,生成CRF模型的训练语料;
训练集建立模块,用于建立交叉验证训练集,并使用交叉验证方法把训练语料分成规定份数,并按规定比例组合成训练集和测试集,然后对训练集和测试集分别进行训练,从而得到CRF模型;
提取模块,用于使用CRF模型进行新评论对象提取;
交叉训练判断模块,用于判断是否完成交叉训练,如果是,那么执行新词候选集生成模块,否则执行提取模块;
新词候选集生成模块,用于生成新词候选集,并将新评论对象添加到新词候选集中。
8.根据权利要求6所述的新评论对象识别系统,其特征在于,在所述过滤模块中包括:
计算相似度模块,计算新词候选集中的新评论对象与种子词典中的分类中心词的相似度;
处理判断模块,若相似度高于阈值且新词候选集中的新评论对象不在种子词典内,那么执行过滤判断模块,否则从新词候选集中将该新评论对象删除后再执行过滤判断模块;
过滤判断模块,用于判断是否完成对新词候选集的过滤,若是,那么执行添加模块,否则执行计算相似度模块;
添加模块,用于将新词候选集中的评论对象添加到新词词集中。
9.根据权利要求6所述的新评论对象识别系统,其特征在于,在所述计算词向量模块中,Word2vec算法计算评论数据中每个词的词向量使用向量余弦值来度量词语之间的相似性,具体公式如下:
sim i , c = cos ( V i , V c ) = ( v i 1 , v i 2 , ... , v i n ) · ( v c 1 , v c 2 , ... , v c n ) ( v i 1 , v i 2 , ... , v i n ) 2 · ( v c 1 , v c 2 , ... , v c n ) 2 ,
其中Vi=(vi1,vi2,...,vin)表示第i个词的词向量,Vc=(vc1,vc2,...,vcn)表示分类c中心词的词向量,分类中心词取每个分类在评论数据中出现频率最高的词语,由于使用word2vec算法获得的词向量的模为1,上述公式可以简化为: sim i , c = Σ c Σ i v i · v c .
10.根据权利要求9所述的新评论对象识别系统,其特征在于,在所述计算词向量模块中,对属于每个类别的相似性加上偏移修正,修正后的相似性计算公式如下:
sim i , c = θ c Σ c Σ i v i · v c ,
其中Max(simc)表示与分类c中心词的相似度最大值;
第i个新评论对象的判定函数为:
f i = M a x c m ( θ c Σ c m Σ i n v i · v c ) ,
其中m是分类总数,n是CRF模型得到的新评论对象总数。
CN201610009698.2A 2016-01-05 2016-01-05 基于word2vec算法的新评论对象识别方法及系统 Active CN105447206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610009698.2A CN105447206B (zh) 2016-01-05 2016-01-05 基于word2vec算法的新评论对象识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610009698.2A CN105447206B (zh) 2016-01-05 2016-01-05 基于word2vec算法的新评论对象识别方法及系统

Publications (2)

Publication Number Publication Date
CN105447206A true CN105447206A (zh) 2016-03-30
CN105447206B CN105447206B (zh) 2017-04-05

Family

ID=55557382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610009698.2A Active CN105447206B (zh) 2016-01-05 2016-01-05 基于word2vec算法的新评论对象识别方法及系统

Country Status (1)

Country Link
CN (1) CN105447206B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930358A (zh) * 2016-04-08 2016-09-07 南方电网科学研究院有限责任公司 基于关联度的案例检索方法及其系统
CN106708804A (zh) * 2016-12-27 2017-05-24 努比亚技术有限公司 一种词向量的生成方法和装置
CN107229731A (zh) * 2017-06-08 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN107529070A (zh) * 2016-06-21 2017-12-29 天脉聚源(北京)科技有限公司 一种实现弹幕的方法和系统
CN108170678A (zh) * 2017-12-27 2018-06-15 广州市云润大数据服务有限公司 一种文本实体抽取方法与系统
CN108182174A (zh) * 2017-12-27 2018-06-19 掌阅科技股份有限公司 新词提取方法、电子设备及计算机存储介质
CN108763205A (zh) * 2018-05-21 2018-11-06 阿里巴巴集团控股有限公司 一种品牌别名识别方法、装置及电子设备
CN109145304A (zh) * 2018-09-07 2019-01-04 中山大学 一种基于字的中文观点要素情感分析方法
CN109241529A (zh) * 2018-08-29 2019-01-18 中国联合网络通信集团有限公司 观点标签的确定方法和装置
CN109493977A (zh) * 2018-11-09 2019-03-19 天津新开心生活科技有限公司 文本数据处理方法、装置、电子设备及计算机可读介质
CN109614481A (zh) * 2018-09-29 2019-04-12 阿里巴巴集团控股有限公司 对象识别方法、装置、电子设备及计算机可读存储介质
CN110019681A (zh) * 2017-12-19 2019-07-16 优酷网络技术(北京)有限公司 一种评论内容过滤方法及系统
CN110059179A (zh) * 2019-03-06 2019-07-26 西安理工大学 一种基于深度学习的歌曲文本命名实体识别方法
CN110096705A (zh) * 2019-04-29 2019-08-06 扬州大学 一种无监督的英文句子自动简化算法
US10394959B2 (en) 2017-12-21 2019-08-27 International Business Machines Corporation Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources
CN110309407A (zh) * 2018-03-13 2019-10-08 优酷网络技术(北京)有限公司 观点提取方法及装置
CN110334266A (zh) * 2018-03-13 2019-10-15 优酷网络技术(北京)有限公司 观点提取方法及装置
CN110738046A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 观点抽取方法及装置
CN111737949A (zh) * 2020-07-22 2020-10-02 江西风向标教育科技有限公司 题目内容提取方法、装置、可读存储介质及计算机设备
CN114611486A (zh) * 2022-03-09 2022-06-10 上海弘玑信息技术有限公司 信息抽取引擎的生成方法及装置、电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010138365A1 (en) * 2009-05-28 2010-12-02 Harris Corporation Multimedia system providing database of shared text comment data indexed to video source data and related methods
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010138365A1 (en) * 2009-05-28 2010-12-02 Harris Corporation Multimedia system providing database of shared text comment data indexed to video source data and related methods
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN104573046A (zh) * 2015-01-20 2015-04-29 成都品果科技有限公司 一种基于词向量的评论分析方法及系统
CN104794212A (zh) * 2015-04-27 2015-07-22 清华大学 基于用户评论文本的上下文情感分类方法及分类系统

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930358B (zh) * 2016-04-08 2019-06-04 南方电网科学研究院有限责任公司 基于关联度的案例检索方法及其系统
CN105930358A (zh) * 2016-04-08 2016-09-07 南方电网科学研究院有限责任公司 基于关联度的案例检索方法及其系统
CN107529070A (zh) * 2016-06-21 2017-12-29 天脉聚源(北京)科技有限公司 一种实现弹幕的方法和系统
CN106708804A (zh) * 2016-12-27 2017-05-24 努比亚技术有限公司 一种词向量的生成方法和装置
CN107229731A (zh) * 2017-06-08 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN110019681B (zh) * 2017-12-19 2022-05-17 阿里巴巴(中国)有限公司 一种评论内容过滤方法及系统
CN110019681A (zh) * 2017-12-19 2019-07-16 优酷网络技术(北京)有限公司 一种评论内容过滤方法及系统
US10719665B2 (en) 2017-12-21 2020-07-21 International Business Machines Corporation Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources
US10394959B2 (en) 2017-12-21 2019-08-27 International Business Machines Corporation Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources
CN108182174B (zh) * 2017-12-27 2019-03-26 掌阅科技股份有限公司 新词提取方法、电子设备及计算机存储介质
CN108170678A (zh) * 2017-12-27 2018-06-15 广州市云润大数据服务有限公司 一种文本实体抽取方法与系统
CN108182174A (zh) * 2017-12-27 2018-06-19 掌阅科技股份有限公司 新词提取方法、电子设备及计算机存储介质
CN110334266A (zh) * 2018-03-13 2019-10-15 优酷网络技术(北京)有限公司 观点提取方法及装置
CN110309407A (zh) * 2018-03-13 2019-10-08 优酷网络技术(北京)有限公司 观点提取方法及装置
CN108763205B (zh) * 2018-05-21 2022-05-03 创新先进技术有限公司 一种品牌别名识别方法、装置及电子设备
CN108763205A (zh) * 2018-05-21 2018-11-06 阿里巴巴集团控股有限公司 一种品牌别名识别方法、装置及电子设备
CN110738046B (zh) * 2018-07-03 2023-06-06 百度在线网络技术(北京)有限公司 观点抽取方法及装置
CN110738046A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 观点抽取方法及装置
CN109241529A (zh) * 2018-08-29 2019-01-18 中国联合网络通信集团有限公司 观点标签的确定方法和装置
CN109241529B (zh) * 2018-08-29 2023-05-02 中国联合网络通信集团有限公司 观点标签的确定方法和装置
CN109145304A (zh) * 2018-09-07 2019-01-04 中山大学 一种基于字的中文观点要素情感分析方法
CN109145304B (zh) * 2018-09-07 2022-09-06 中山大学 一种基于字的中文观点要素情感分析方法
CN109614481A (zh) * 2018-09-29 2019-04-12 阿里巴巴集团控股有限公司 对象识别方法、装置、电子设备及计算机可读存储介质
CN109493977B (zh) * 2018-11-09 2020-07-31 天津新开心生活科技有限公司 文本数据处理方法、装置、电子设备及计算机可读介质
CN109493977A (zh) * 2018-11-09 2019-03-19 天津新开心生活科技有限公司 文本数据处理方法、装置、电子设备及计算机可读介质
CN110059179A (zh) * 2019-03-06 2019-07-26 西安理工大学 一种基于深度学习的歌曲文本命名实体识别方法
CN110096705A (zh) * 2019-04-29 2019-08-06 扬州大学 一种无监督的英文句子自动简化算法
CN110096705B (zh) * 2019-04-29 2023-09-08 扬州大学 一种无监督的英文句子自动简化算法
CN111737949A (zh) * 2020-07-22 2020-10-02 江西风向标教育科技有限公司 题目内容提取方法、装置、可读存储介质及计算机设备
CN114611486A (zh) * 2022-03-09 2022-06-10 上海弘玑信息技术有限公司 信息抽取引擎的生成方法及装置、电子设备
CN114611486B (zh) * 2022-03-09 2022-12-16 上海弘玑信息技术有限公司 信息抽取引擎的生成方法及装置、电子设备

Also Published As

Publication number Publication date
CN105447206B (zh) 2017-04-05

Similar Documents

Publication Publication Date Title
CN105447206A (zh) 基于word2vec算法的新评论对象识别方法及系统
CN107133220B (zh) 一种地理学科领域命名实体识别方法
CN106650943B (zh) 基于人工智能的辅助写作方法和装置
CN107861947B (zh) 一种基于跨语言资源的柬语命名实体识别的方法
CN104090890A (zh) 关键词相似度获取方法、装置及服务器
CN103631859A (zh) 一种面向科技项目的评审专家智能推荐方法
CN107527073A (zh) 电子病历中命名实体的识别方法
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN109255027B (zh) 一种电商评论情感分析降噪的方法和装置
CN104809103A (zh) 一种人机对话的语义分析方法及系统
CN108319734A (zh) 一种基于线性组合器的产品特征结构树自动构建方法
CN106897559A (zh) 一种面向多数据源的症状体征类实体识别方法及装置
CN108388660A (zh) 一种改进的电商产品痛点分析方法
CN112908436B (zh) 临床试验数据结构化方法、临床试验推荐方法和装置
CN106257455A (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
CN106407113A (zh) 一种基于Stack Overflow和commit库的bug定位方法
CN109858042A (zh) 一种翻译质量的确定方法及装置
CN104142912A (zh) 一种精确的语料类别标注方法及装置
CN100543735C (zh) 基于文档结构的文档相似性度量方法
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN111091000A (zh) 一种抽取用户细粒度典型意见数据处理系统及方法
CN109947923A (zh) 一种基于词向量的初等数学题型自动提取方法及系统
CN105609116A (zh) 一种语音情感维度区域的自动识别方法
CN112051986A (zh) 基于开源知识的代码搜索推荐装置及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant