CN108363695B - 一种基于双向依赖语法树表征的用户评论属性抽取方法 - Google Patents

一种基于双向依赖语法树表征的用户评论属性抽取方法 Download PDF

Info

Publication number
CN108363695B
CN108363695B CN201810155755.7A CN201810155755A CN108363695B CN 108363695 B CN108363695 B CN 108363695B CN 201810155755 A CN201810155755 A CN 201810155755A CN 108363695 B CN108363695 B CN 108363695B
Authority
CN
China
Prior art keywords
sequence
dependency
word
network
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810155755.7A
Other languages
English (en)
Other versions
CN108363695A (zh
Inventor
李天瑞
罗怀芍
王斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN201810155755.7A priority Critical patent/CN108363695B/zh
Publication of CN108363695A publication Critical patent/CN108363695A/zh
Application granted granted Critical
Publication of CN108363695B publication Critical patent/CN108363695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于双向依赖语法树表征的用户评论属性抽取方法,包括:1)对给定的用户评论文本进行预处理并生成依赖语法树;2)构建双向依赖语法树表征网络抽取词与词之间的依赖特征;3)将依赖特征输入到双向LSTM神经网络中,在依赖特征的基础上抽取词与词之间的序列特征,使依赖特征和序列特征进行有效结合;4)利用线性链条件随机场对结合后的特征进行编码;5)用维特比算法解码得到各个文本的评论属性。本发明有效解决了用户评论属性抽取任务中,如何提取文本语法依赖特征,并将其与序列特征高效结合以实现端到端训练的问题,利用条件随机场对结合后的特征编码并使用维特比算法解码,能够在用户评论属性抽取任务中取得很好的效果。

Description

一种基于双向依赖语法树表征的用户评论属性抽取方法
技术领域
本发明涉及计算机自然语言处理技术领域,尤其涉及一种基于双向依赖语法树表征的用户评论属性抽取方法。
背景技术
现代人的生活越来越离不开互联网。在互联网环境里,人们不断地对人或物表达和抒发着自身的观点和情感。尤其表现在网上购物和餐饮行业,能够对商品和服务进行客观或主观地评价,几乎是每个参与者的诉求,这就导致了大量的用户评论文本的不断产生。如何从巨量的评论数据中挖掘出对商家和用户有用的信息,是评论观点挖掘技术需要应对的问题。过去的研究工作中,无论是对用户的整个评论文本进行情感分类,即积极、消极或中立,还是细粒度地对评论文本中涉及的评论属性抽取、属性对应的情感极性分类等,都有了长足的进步。然而抽取及分类精度却还有极大的提升空间,尤其是细粒度评论观点挖掘技术的提升空间更大。
细粒度评论观点挖掘具体说来涉及4个方面的工作,即用户评论属性抽取,属性评论情感词抽取,属性情感极性分类和评论属性分类。举个例子来说,这个披萨又大又好吃,披萨是需要抽取的用户评论属性,可理解为披萨是披萨店的“属性”;大和好吃是需要抽取的情感词;用户对披萨的情感极性通过情感词表现为积极;披萨属于食物分类。可以看出用户评论属性抽取是细粒度评论观点的核心任务,该任务的抽取准确度在大部分挖掘算法中对后续抽取及分类任务的好坏有决定性作用。目前有关用户评论属性抽取的技术按特征可以分为三类;第一类是应用跨领域的先验知识,如电商领域的抽取规则可以应用到餐饮行业等;第二类是应用语言结构和语法特征,如语法依赖树、短语解析树和词性等;第三类是应用深度学习抽取出的深度特征。这三类技术中,提取深度特征的深度学习近年来取得了突破性的性能优势。
然而大部分现有应用在用户评论属性抽取任务中的深度学习算法,只是停留在对文本序列特征和浅层次依赖特征提取上,对深层次依赖特征提取以及序列特征和依赖特征的融合应用上还存在大量的不足。针对该问题,本发明提出一个新的依赖语法特征抽取方法,将其与序列特征在同一个框架下进行融合,并应用到用户评论属性抽取中,提高该任务的准确率。
发明内容
本发明的目的在于通过设计网络结构增强语法依赖特征的表达,并将该特征与语言序列特征相结合,以提升用户评论属性抽取任务的准确率。
实现本发明目的的技术方案如下:
一种基于双向依赖语法树表征的用户评论属性抽取方法,包括:
步骤1:对特定领域下的用户评论文本进行预处理,再进行分句、分词得到分词序列;最后对分词序列构建语法依赖树;
步骤1.1:对用户评论文本进行预处理;
步骤1.2:利用自然语言处理工具,对预处理后的文本序列进行分句和分词,得到分词序列S={w1,w2,...,wi,...,wN},其中N为矩阵序列长度,wi为组成评论文本的单词;然后对分词序列和对应的标签序列L={t1,t2,...,ti,...,tN}进行统计和编号,构造对应的词汇表V和标签表T={B-AP,I-AP,O},其中B-AP表示评论属性开始词,I-AP表示评论属性中间词,O表示其它非属性单词,其中wi∈V,ti∈T;
步骤1.3:利用自然语言依赖树构建工具,对预处理后的分词序列进行依赖语法树的构建;词与词之间的依赖关系表示为:通过关系
Figure BDA0001581293280000021
分别连接某个父节点p和它的若干孩子节点
Figure BDA0001581293280000022
其中np表示孩子节点的数量,关系连接
Figure BDA0001581293280000023
Figure BDA0001581293280000024
表示语法依赖关系;
步骤2:将词向量输入到依赖语法树中,按自底向上和自顶向下两个方向构建双向依赖语法树表征网络,按单词序列输入顺序拼接两个方向的表征网络输出作为依赖语法特征;
步骤2.1:利用词向量矩阵
Figure BDA0001581293280000025
初始化每个分词序列中的单词,即
Figure BDA0001581293280000026
其中
Figure BDA0001581293280000027
示实数,d是词向量维度,|V|表示词汇表大小;
步骤2.2:构建双向依赖树表征网络,自底向上依赖网络的父节点p和它的孩子集合为
Figure BDA0001581293280000028
通过如下的公式得到自底向上依赖网络的输出
Figure BDA0001581293280000029
Figure BDA00015812932800000210
Figure BDA00015812932800000211
Figure BDA00015812932800000212
Figure BDA00015812932800000213
Figure BDA00015812932800000214
Figure BDA0001581293280000031
其中,
Figure BDA0001581293280000032
Figure BDA0001581293280000033
分别表示输入门,输出门和遗忘门;
Figure BDA0001581293280000034
表示神经元记忆状态;
Figure BDA0001581293280000035
表示隐藏层状态;σ是logistic函数;⊙表示元素逐一乘法;W↑(*)
Figure BDA00015812932800000324
是需要训练的权重矩阵;b↑(*)神经元偏置向量,其中*∈{i,o,f,u};r(k)表示语法关系类型到对应训练参数的映射函数;公式中的p,k,l均是变量下标,替换后变量在神经元中的含义不变,只是对应到不同的对象上;
步骤2.3构建自顶向下依赖网络,其父节点p和它的孩子集合为
Figure BDA0001581293280000038
通过如下的公式得到自顶向下依赖网络的输出
Figure BDA0001581293280000039
Figure BDA00015812932800000310
Figure BDA00015812932800000311
Figure BDA00015812932800000312
Figure BDA00015812932800000313
Figure BDA00015812932800000314
Figure BDA00015812932800000315
其中,
Figure BDA00015812932800000316
Figure BDA00015812932800000317
分别表示输入门,输出门和遗忘门;
Figure BDA00015812932800000318
表示神经元记忆状态;
Figure BDA00015812932800000319
表示隐藏层状态;σ是logistic函数;⊙表示元素逐一乘法;W↓(*)
Figure BDA00015812932800000325
是需要训练的权重矩阵;b↓(*)神经元偏置向量,其中*∈{i,o,f,u};r(k)表示语法关系类型到对应训练参数的映射函数;公式中的p,k,l均是变量下标,替换后变量在神经元中的含义不变,只是对应到不同的对象上;
步骤2.4将各个节点自底向上依赖网络的输出和自顶向下的依赖网络的输出拼接,作为各个节点的最后依赖语法特征,表示为:
Figure BDA00015812932800000322
双向依赖树表征网络中各训练权重大小为d×d,偏置大小为d,
Figure BDA00015812932800000323
大小为2d维向量;步骤3:将依赖语法特征输入双向LSTM神经网络,利用该网络来获取单词序列间的序列特征,实现依赖语法特征和序列特征的隐性融合,包括:
双向LSTM由前向LSTM与后向LSTM单元组成,前向LSTM和后向LSTM的输出分别为
Figure BDA0001581293280000041
Figure BDA0001581293280000042
则双向LSTM的输出由前向输出和后向输出拼接得来,表示为:
Figure BDA0001581293280000043
前向LSTM及后向LSTM,其计算方式均采用以下计算过程:
令第j个神经LSTM单元接收到依赖语法特征
Figure BDA0001581293280000044
前一个LSTM单元的隐藏状态hj-1和神经元状态cj-1,则当前LSTM单元的隐藏状态hj和神经元状态cj的计算公式如下:
Figure BDA0001581293280000045
Figure BDA0001581293280000046
Figure BDA0001581293280000047
Figure BDA0001581293280000048
cj=ij⊙uj+fj⊙cj-1,
hj=oj⊙tanh(cj),
其中,ij,oj,fj分别表示输入门,输出门和遗忘门;权重矩阵W(*)大小是d×2d,U(*)大小是d×d,偏置b(*)大小为d,其中*∈{i,o,f,u};σ是logistic函数;⊙表示元素逐一乘法;
双向LSTM最后的输出向量gj大小为2d;
步骤4:将融合特征输入到条件随机场来生成输入分词序列对应的标注序列,包括:
将融合特征g={g1,g2,...,gj,...,gN}输入条件随机场,令y={y1,y2,...,yj,...,yN}是对应的实际输出标签序列,其中yj∈T;所有可能的标签序列y′的集合表示为
Figure BDA0001581293280000049
则线性链条件随机场概率模型定义为对于给定融合特征g在y′上的条件概率p(y|g;W,b),其具体表达式如下:
Figure BDA00015812932800000410
其中,
Figure BDA00015812932800000411
为势函数,
Figure BDA00015812932800000412
和by′,y分别表示对应于标签对(y',y)的权重向量和偏置;
条件随机场的训练采用极大似然估计,即对于一个训练集合{(gj,yj)},对应的对数似然函数表示为:
Figure BDA0001581293280000051
条件随机场的预测,即用户评论属性标注的目标是找到条件最大的输出序列:
Figure BDA0001581293280000052
预测方法采用维特比算法,预测输出即输入分词序列对应的标注序列;最后根据标注序列中各个标注的含义得到输入文本的用户评论属性。
与现有技术相比,本发明的积极效果是:
一、本发明构建了一种双向依赖语法表征网络,增强了对依赖语法树中依赖语法特征的抽取性能;双向依赖语法表征网络构建在依赖语法树的基础上,与已有的构建在短语解析树上的网络表征模型相比,依赖语法树中各个节点都是单词本身,而短语解析树中非叶子节点表示的是短语依存属性,并非单词;所以本发明中的双向依赖语法表征网络更能直接关注词与词之间的依赖关系,更符合序列标注任务需求;与其它依赖语法表征网络相比,双向依赖语法表征网络采用类似于双向LSTM的门控机制传播,且合并了自底向上和自顶向下的特征输出,展现出更丰富的表征信息。
二、本发明通过中间的双向LSTM网络层,有效地融合地依赖语法特征和文本序列特征;而之前的研究工作中,大多只用到了单一的特征信息;融合特征最终输入到条件随机场中进行端到端的模型训练,进一步提升了用户评论属性的准确性。
附图说明
图1是基于双向依赖语法树表征的用户评论属性抽取方法网络结构图。
图2是用于验证本发明的4个数据集统计情况。
图3是不同方法的实验对比结果。
图4是方法内部各个部件组合的对比结果。
具体实施方式
下面结合附图对本发明的具体实施方式进行进一步说明。
步骤1:对特定领域下的用户评论文本进行预处理,再进行分句、分词,得到分词序列;最后对分词序列构建语法依赖树;
步骤1.1:对用户评论文本进行预处理。
步骤1.2:利用自然语言处理工具,对预处理后的文本序列进行分句和分词,得到分词序列S={w1,w2,...,wi,...,wN},其中N为矩阵序列长度,wi为组成评论文本的单词;然后对分词序列和对应的标签序列L={t1,t2,...,ti,...,tN}进行统计和编号,构造对应的词汇表V和标签表T={B-AP,I-AP,O},其中B-AP表示评论属性开始词,I-AP表示评论属性中间词,O表示其它非属性单词。可以得到wi∈V,ti∈T。
步骤1.3:利用自然语言依赖树构建工具,对预处理后的分词序列进行依赖语法树的构建;词与词之间的依赖关系可以表示为:通过关系
Figure BDA0001581293280000061
分别连接某个父节点p和它的若干孩子节点
Figure BDA0001581293280000062
其中np表示孩子节点的数量,关系连接
Figure BDA0001581293280000063
这里
Figure BDA0001581293280000064
表示语法依赖关系。
步骤2:将词向量输入到依赖语法树中,按自底向上和自顶向下两个方向构建双向依赖语法树表征网络,按单词序列输入顺序拼接两个方向的表征网络输出作为依赖语法特征;
步骤2.1:利用词向量矩阵
Figure BDA0001581293280000065
初始化每个分词序列中的单词,即
Figure BDA0001581293280000066
其中
Figure BDA0001581293280000067
表示实数,d是词向量维度,|V|表示词汇表大小。
步骤2.2:构建双向依赖树表征网络,自底向上依赖网络的父节点p和它的孩子集合为
Figure BDA0001581293280000068
通过如下的公式得到自底向上依赖网络的输出
Figure BDA0001581293280000069
Figure BDA00015812932800000610
Figure BDA00015812932800000611
Figure BDA00015812932800000612
Figure BDA00015812932800000613
Figure BDA00015812932800000614
Figure BDA00015812932800000615
其中,
Figure BDA00015812932800000616
Figure BDA00015812932800000617
分别表示输入门,输出门和遗忘门;
Figure BDA00015812932800000618
表示神经元记忆状态;
Figure BDA00015812932800000619
表示隐藏层状态;σ是logistic函数;⊙表示元素逐一乘法;W↑(*)
Figure BDA00015812932800000620
是需要训练的权重矩阵;b↑(*)神经元偏置向量,其中*∈{i,o,f,u};r(k)表示语法关系类型到对应训练参数的映射函数;公式中的p,k,l均是变量下标,替换后变量在神经元中的含义不变,只是对应到不同的对象上。
步骤2.3构建自顶向下依赖网络,其父节点p和它的孩子集合为
Figure BDA0001581293280000071
通过如下的公式得到自顶向下依赖网络的输出
Figure BDA0001581293280000072
Figure BDA0001581293280000073
Figure BDA0001581293280000074
Figure BDA0001581293280000075
Figure BDA0001581293280000076
Figure BDA0001581293280000077
Figure BDA0001581293280000078
其中,
Figure BDA0001581293280000079
Figure BDA00015812932800000710
分别表示输入门,输出门和遗忘门;
Figure BDA00015812932800000711
表示神经元记忆状态;
Figure BDA00015812932800000712
表示隐藏层状态;σ是logistic函数;⊙表示元素逐一乘法;W↓(*)
Figure BDA00015812932800000716
是需要训练的权重矩阵;b↓(*)神经元偏置向量,其中*∈{i,o,f,u};r(k)表示语法关系类型到对应训练参数的映射函数;公式中的p,k,l均是变量下标,替换后变量在神经元中的含义不变,只是对应到不同的对象上。
最后将各个节点自底向上依赖网络的输出和自顶向下的依赖网络的输出拼接,作为各个节点的最后依赖语法特征,表示为:
Figure BDA00015812932800000715
双向依赖树表征网络中各训练权重大小为d×d,偏置大小为d,最后hwi大小为2d维向量。
步骤3:将依赖语法特征输入双向LSTM(Long Short-Term Memory,长短期记忆网络)神经网络,利用该网络来获取单词序列间的序列特征,实现依赖语法特征和序列特征的隐性融合,具体表现为:
双向LSTM由前向与后向LSTM单元组成,假设前向LSTM和后向LSTM的输出分别为
Figure BDA0001581293280000081
Figure BDA0001581293280000082
则双向LSTM的输出由前向输出和后向输出拼接得来,表示为:
Figure BDA0001581293280000083
不论前向还是后向LSTM,其计算方式均采用以下计算过程:
假设第j个神经LSTM单元接收到依赖语法特征
Figure BDA0001581293280000084
前一个LSTM单元的隐藏状态hj-1和神经元状态cj-1,则当前LSTM单元的隐藏状态hj和神经元状态cj的计算公式如下:
Figure BDA0001581293280000085
Figure BDA0001581293280000086
Figure BDA0001581293280000087
Figure BDA0001581293280000088
cj=ij⊙uj+fj⊙cj-1,
hj=oj⊙tanh(cj),
其中ij,oj,fj分别表示输入门,输出门和遗忘门;权重矩阵W(*)大小是d×2d,U(*)大小是d×d,偏置b(*)大小为d,其中*∈{i,o,f,u};σ是logistic函数;⊙表示元素逐一乘法。
双向LSTM最后的输出向量gj大小为2d。
步骤4:将融合特征输入到条件随机场来生成输入分词序列对应的标注序列,具体形式如下:
将融合特征g={g1,g2,...,gj,...,gN}输入条件随机场,假设y={y1,y2,...,yj,...,yN}是对应的实际输出标签序列,其中yj∈T。所有可能的标签序列y′的集合表示为
Figure BDA0001581293280000089
则线性链条件随机场概率模型定义为对于给定融合特征g在y′上的条件概率p(y|g;W,b)。其具体表达式如下:
Figure BDA00015812932800000810
其中,
Figure BDA00015812932800000811
为势函数,
Figure BDA00015812932800000812
和by′,y分别表示对应于标签对(y',y)的权重向量和偏置。
条件随机场的训练采用极大似然估计,即对于一个训练集合{(gj,yj)},对应的对数似然函数表示为:
Figure BDA0001581293280000091
条件随机场的预测,即用户评论属性标注的目标是找到条件最大的输出序列:
Figure BDA0001581293280000092
预测方法采用维特比算法,预测输出即输入分词序列对应的标注序列。最后根据标注序列中各个标注的含义得到输入文本的用户评论属性。
本发明设计了一个双向依赖语法树表征网络,用来抽取文本的依赖语法特征;将依赖语法特征输入双向LSTM网络层中,使得依赖特征和文本序列特征实现有效融合;最后应用条件随机场将融合的特征转换为对应的标签信息;整个方法采用端到端的训练方式,采用梯度反向传播算法更新网络中的权重及偏置参数,同时微调对应的词向量;优化过程采用的常用的Adam优化器,应用了梯度裁剪及L2正则化技术,同时在实施例中采用了dropout技术防止数据过拟合。
为了验证本发明的有效性,本发明采用SemEval-2014Task4中的笔记本评论(Laptops)和餐馆评论(Restaurants)数据集,SemEval-2015Task12中的餐馆评论(Restaurants)数据集,以及SemEval-2016Task5中的餐馆评论(Restaurants)数据集共4个数据集作为本发明的实例数据并进行试验验证;并使用F1值作为本发明的评估度量,其计算公式如下:
Figure BDA0001581293280000093
其中,precision是精确率,recall是召回率。
4个数据集的统计数据情况如图2所示。在试验中还用到了由Amazon公开的商品评论语料和Yelp公开的餐饮评论语料通过word2vec训练得到的词向量,这两个词向量分别作为笔记本评论数据集和餐馆评论数据集的词向量初始化。
试验一
在4个数据集上对本发明的方法进行对比试验,主要对比方法有四个,分别是:各个数据集当年SemEval挑战的最好成绩(TopSys),LSTM结合条件随机场(LSTM+CRF),双向LSTM结合条件随机场(BiLSTM+CRF),双向LSTM和CNN字符编码结合条件随机场(BiLSTM+CNN+CRF)。相关结果如图3所示。由F1值的定义可知,对比结果中的F1值越高,表示对应的抽取方法越好。可以看出,在4种数据集的实验上,本发明都给出了最好的实验效果。相比LSTM+CRF和BiLSTM+CRF,本发明平均高出4.58%和3.64%的F1值,与BiLSTM+CNN+CRF相比,也平均高出0.93%的F1值。说明了本发明很好的抽取效果。
试验二
在4个数据集上对本发明的方法进行脱离(ablation)试验,即对本发明的各个部分进行拆分后重新组合,舍弃部分结构查看方法的有效性。共有4种方式参与对比,分别是:去掉双向依赖语法表征网络,即(BiLSTM+CRF);去掉自底向上依赖语法表征网络(DownTree+BiLSTM+CRF);去掉自顶向下依赖语法表征网络(UpTree+BiLSTM);保留全部结构(All+BiLSTM+CRF)。相关结果如图4所示。可以看出All+BiLSTM+CRF在4个数据集上均比BiLSTM+CRF有更好的F1值,说明双向依赖语法表征网络能够非常显著地提升抽取的准确度。All+BiLSTM+CRF在3个数据集上优于其它单向的表征网络,说明了双向依赖语法表征网络确实能够增强依赖特征的抽取性能,并在用户评论抽取中表现出独特的优势。

Claims (1)

1.一种基于双向依赖语法树表征的用户评论属性抽取方法,其特征在于,包括:
步骤1:对特定领域下的用户评论文本进行预处理,再进行分句、分词得到分词序列;最后对分词序列构建语法依赖树;
步骤1.1:对用户评论文本进行预处理;
步骤1.2:利用自然语言处理工具,对预处理后的文本序列进行分句和分词,得到分词序列S={w1,w2,...,wi,...,wN},其中N为矩阵序列长度,wi为组成评论文本的单词;然后对分词序列和对应的标签序列L={t1,t2,...,ti,...,tN}进行统计和编号,构造对应的词汇表V和标签表T={B-AP,I-AP,O},其中B-AP表示评论属性开始词,I-AP表示评论属性中间词,O表示其它非属性单词,其中wi∈V,ti∈T;
步骤1.3:利用自然语言依赖树构建工具,对预处理后的分词序列进行依赖语法树的构建;词与词之间的依赖关系表示为:通过关系
Figure FDA0001581293270000011
分别连接某个父节点p和它的若干孩子节点
Figure FDA0001581293270000012
其中np表示孩子节点的数量,关系连接
Figure FDA0001581293270000013
Figure FDA0001581293270000014
表示语法依赖关系;
步骤2:将词向量输入到依赖语法树中,按自底向上和自顶向下两个方向构建双向依赖语法树表征网络,按单词序列输入顺序拼接两个方向的表征网络输出作为依赖语法特征;
步骤2.1:利用词向量矩阵
Figure FDA0001581293270000015
初始化每个分词序列中的单词,即
Figure FDA0001581293270000016
其中
Figure FDA0001581293270000017
表示实数,d是词向量维度,|V|表示词汇表大小;
步骤2.2:构建双向依赖树表征网络,自底向上依赖网络的父节点p和它的孩子集合为
Figure FDA0001581293270000018
通过如下的公式得到自底向上依赖网络的输出
Figure FDA0001581293270000019
Figure FDA00015812932700000110
Figure FDA00015812932700000111
Figure FDA00015812932700000112
Figure FDA00015812932700000113
Figure FDA00015812932700000114
Figure FDA0001581293270000021
其中,
Figure FDA0001581293270000022
Figure FDA0001581293270000023
分别表示输入门,输出门和遗忘门;
Figure FDA0001581293270000024
表示神经元记忆状态;
Figure FDA0001581293270000025
表示隐藏层状态;σ是logistic函数;⊙表示元素逐一乘法;W↑(*)
Figure FDA0001581293270000026
是需要训练的权重矩阵;b↑(*)神经元偏置向量,其中*∈{i,o,f,u};r(k)表示语法关系类型到对应训练参数的映射函数;公式中的p,k,l均是变量下标,替换后变量在神经元中的含义不变,只是对应到不同的对象上;
步骤2.3构建自顶向下依赖网络,其父节点p和它的孩子集合为
Figure FDA0001581293270000027
通过如下的公式得到自顶向下依赖网络的输出
Figure FDA0001581293270000028
Figure FDA0001581293270000029
Figure FDA00015812932700000210
Figure FDA00015812932700000211
Figure FDA00015812932700000212
Figure FDA00015812932700000213
Figure FDA00015812932700000214
其中,
Figure FDA00015812932700000215
Figure FDA00015812932700000216
分别表示输入门,输出门和遗忘门;
Figure FDA00015812932700000217
表示神经元记忆状态;
Figure FDA00015812932700000218
表示隐藏层状态;σ是logistic函数;⊙表示元素逐一乘法;W↓(*)
Figure FDA00015812932700000219
是需要训练的权重矩阵;b↓(*)神经元偏置向量,其中*∈{i,o,f,u};r(k)表示语法关系类型到对应训练参数的映射函数;公式中的p,k,l均是变量下标,替换后变量在神经元中的含义不变,只是对应到不同的对象上;
步骤2.4将各个节点自底向上依赖网络的输出和自顶向下的依赖网络的输出拼接,作为各个节点的最后依赖语法特征,表示为:
Figure FDA00015812932700000220
双向依赖树表征网络中各训练权重大小为d×d,偏置大小为d,
Figure FDA00015812932700000221
大小为2d维向量;
步骤3:将依赖语法特征输入双向LSTM神经网络,利用该网络来获取单词序列间的序列特征,实现依赖语法特征和序列特征的隐性融合,包括:
双向LSTM由前向LSTM与后向LSTM单元组成,前向LSTM和后向LSTM的输出分别为
Figure FDA0001581293270000031
Figure FDA0001581293270000032
则双向LSTM的输出由前向输出和后向输出拼接得来,表示为:
Figure FDA0001581293270000033
前向LSTM及后向LSTM,其计算方式均采用以下计算过程:
令第j个神经LSTM单元接收到依赖语法特征
Figure FDA0001581293270000034
前一个LSTM单元的隐藏状态hj-1和神经元状态cj-1,则当前LSTM单元的隐藏状态hj和神经元状态cj的计算公式如下:
Figure FDA0001581293270000035
Figure FDA0001581293270000036
Figure FDA0001581293270000037
Figure FDA0001581293270000038
cj=ij⊙uj+fj⊙cj-1,
hj=oj⊙tanh(cj),
其中,ij,oj,fj分别表示输入门,输出门和遗忘门;权重矩阵W(*)大小是d×2d,U(*)大小是d×d,偏置b(*)大小为d,其中*∈{i,o,f,u};σ是logistic函数;⊙表示元素逐一乘法;
双向LSTM最后的输出向量gj大小为2d;
步骤4:将融合特征输入到条件随机场来生成输入分词序列对应的标注序列,包括:
将融合特征g={g1,g2,...,gj,...,gN}输入条件随机场,令y={y1,y2,...,yj,...,yN}是对应的实际输出标签序列,其中yj∈T;所有可能的标签序列y′的集合表示为
Figure FDA0001581293270000039
则线性链条件随机场概率模型定义为对于给定融合特征g在y′上的条件概率p(y|g;W,b),其具体表达式如下:
Figure FDA00015812932700000310
其中,
Figure FDA00015812932700000311
为势函数,
Figure FDA00015812932700000312
和by′,y分别表示对应于标签对(y',y)的权重向量和偏置;
条件随机场的训练采用极大似然估计,即对于一个训练集合{(gj,yj)},对应的对数似然函数表示为:
Figure FDA0001581293270000041
条件随机场的预测,即用户评论属性标注的目标是找到条件最大的输出序列:
Figure FDA0001581293270000042
预测方法采用维特比算法,预测输出即输入分词序列对应的标注序列;最后根据标注序列中各个标注的含义得到输入文本的用户评论属性。
CN201810155755.7A 2018-02-23 2018-02-23 一种基于双向依赖语法树表征的用户评论属性抽取方法 Active CN108363695B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810155755.7A CN108363695B (zh) 2018-02-23 2018-02-23 一种基于双向依赖语法树表征的用户评论属性抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810155755.7A CN108363695B (zh) 2018-02-23 2018-02-23 一种基于双向依赖语法树表征的用户评论属性抽取方法

Publications (2)

Publication Number Publication Date
CN108363695A CN108363695A (zh) 2018-08-03
CN108363695B true CN108363695B (zh) 2020-04-24

Family

ID=63002319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810155755.7A Active CN108363695B (zh) 2018-02-23 2018-02-23 一种基于双向依赖语法树表征的用户评论属性抽取方法

Country Status (1)

Country Link
CN (1) CN108363695B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710837B (zh) * 2018-11-30 2024-07-16 平安科技(深圳)有限公司 用户缺失画像的补充方法和相关设备
CN109683946B (zh) * 2018-12-13 2021-12-03 南开大学 一种基于代码克隆技术的用户评论推荐方法
CN109710946A (zh) * 2019-01-15 2019-05-03 福州大学 一种基于依赖解析树的联合论辩挖掘系统及方法
CN109800438B (zh) * 2019-02-01 2020-03-31 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN110363283B (zh) * 2019-06-06 2021-06-22 哈尔滨工业大学(深圳) 基于深度学习的用户属性预测方法及相关装置
CN110472040B (zh) * 2019-06-26 2024-08-20 平安科技(深圳)有限公司 评价信息的提取方法及装置、存储介质、计算机设备
CN110750646B (zh) * 2019-10-16 2022-12-06 乐山师范学院 一种旅店评论文本的属性描述提取方法
CN111597458B (zh) * 2020-04-15 2023-11-17 北京百度网讯科技有限公司 场景元素的抽取方法、装置、设备及存储介质
CN111783474B (zh) * 2020-07-16 2023-04-07 厦门市美亚柏科信息股份有限公司 一种评论文本观点信息处理方法、装置及存储介质
CN112541364A (zh) * 2020-12-03 2021-03-23 昆明理工大学 融合多层次语言特征知识的汉越神经机器翻译的方法
CN112926337B (zh) * 2021-02-05 2022-05-17 昆明理工大学 一种结合重构句法信息的端到端方面级情感分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105810193A (zh) * 2015-01-19 2016-07-27 三星电子株式会社 训练语言模型的方法和设备及识别语言的方法和设备
CN106021227A (zh) * 2016-05-16 2016-10-12 南京大学 一种基于状态转移与神经网络的汉语组块分析方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036464B2 (en) * 2007-09-07 2011-10-11 Satyam Computer Services Limited System and method for automatic segmentation of ASR transcripts
US20170357625A1 (en) * 2016-06-14 2017-12-14 Northrop Grumman Systems Corporation Event extraction from documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105810193A (zh) * 2015-01-19 2016-07-27 三星电子株式会社 训练语言模型的方法和设备及识别语言的方法和设备
CN106021227A (zh) * 2016-05-16 2016-10-12 南京大学 一种基于状态转移与神经网络的汉语组块分析方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep learning for sentiment analysis: successful approaches and future challenges;Duyu Tang 等;《WIREs Data Mining and Knowledge Discovery》;20151023;第5卷(第6期);第292-303页 *
一种面向中文依赖语法的观点挖掘模型;李毅 等;《河北省科学院学报》;20140630;第31卷(第2期);第11-17页 *

Also Published As

Publication number Publication date
CN108363695A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
CN108363695B (zh) 一种基于双向依赖语法树表征的用户评论属性抽取方法
CN107133224B (zh) 一种基于主题词的语言生成方法
Ren et al. Neural networks for deceptive opinion spam detection: An empirical study
CN107291693B (zh) 一种改进词向量模型的语义计算方法
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN112001185A (zh) 一种结合中文句法和图卷积神经网络的情感分类方法
CN111914096A (zh) 基于舆情知识图谱的公共交通乘客满意度评价方法及系统
CN111414476A (zh) 一种基于多任务学习的属性级情感分析方法
CN111797898B (zh) 一种基于深度语义匹配的在线评论自动回复方法
CN112001187A (zh) 一种基于中文句法和图卷积神经网络的情感分类系统
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
CN111274398A (zh) 一种方面级用户产品评论情感分析方法及系统
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN110457480A (zh) 基于交互式注意力机制的细粒度情感分类模型的构建方法
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN112069320B (zh) 一种基于跨度的细粒度情感分析方法
CN115392259B (zh) 一种基于对抗训练融合bert的微博文本情感分析方法及系统
CN110765769A (zh) 一种基于子句特征的实体属性依赖情感分析方法
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN113987167A (zh) 基于依赖感知图卷积网络的方面级情感分类方法及系统
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
Yuan et al. Twitter sentiment analysis with recursive neural networks
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN113535897A (zh) 一种基于句法关系和意见词分布的细粒度情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant