CN110866542A - 一种基于特征可控融合的深度表示学习方法 - Google Patents

一种基于特征可控融合的深度表示学习方法 Download PDF

Info

Publication number
CN110866542A
CN110866542A CN201910989654.4A CN201910989654A CN110866542A CN 110866542 A CN110866542 A CN 110866542A CN 201910989654 A CN201910989654 A CN 201910989654A CN 110866542 A CN110866542 A CN 110866542A
Authority
CN
China
Prior art keywords
word
representation
context
features
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910989654.4A
Other languages
English (en)
Other versions
CN110866542B (zh
Inventor
饶元
冯聪
吴连伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910989654.4A priority Critical patent/CN110866542B/zh
Publication of CN110866542A publication Critical patent/CN110866542A/zh
Application granted granted Critical
Publication of CN110866542B publication Critical patent/CN110866542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于特征可控融合的深度表示学习方法,在基于预训练的多层语言模型中获取单词情境化的嵌入表示的基础上,分别从局部和序列角度获取不同尺度的特征表示,并且提出了使用多头交互线性注意力机制提取上下文摘要实现单词的上下文信息表示。本发明使用预训练的多层语言模型对单词进行嵌入表示,获取了单词更加语境化的表示,解决了以往方法单词嵌入表示不够丰富,无法解决一词多义的问题;本发明提出了上下文摘要,使用多头交互线性注意力计算当前单词在整个句子影响下的特定表示来发现单词之间的差异以辅助评价对象挖掘;最后,本发明使用了门机制进行特征的筛选,为不同特征分配权重,加强了有用特征的影响。

Description

一种基于特征可控融合的深度表示学习方法
【技术领域】
本发明涉及一种多尺度与多类型特征可控融合的产品评价对象挖掘的深度表示学习方法。
【背景技术】
随着互联网的迅速发展,网络购物已经成为人们生活不可或缺的一部分,同时因网络购物而产生的网络产品在线评论数据也呈现指数性增长。这些数据大都是消费者使用产品后的真实感受与客观评价,不仅可以引导或促进其它消费者的购买兴趣,而且也可以帮助产品提供者寻找产品存在的问题与不足,推动产品的设计与服务的优化,这其中蕴含着大量的商业价值。具体地,从消费者角度来说,针对某件产品消费者想要关注的可能是产品的某些属性和特征,例如手机中的续航、分辨率、拍照质量等特征,或者是电脑的性能、故障率以及外观等特征,通过了解其他消费者对于这些属性或特征的观点与评价可以有效地指导消费者筛选产品;从商家角度来说,及时地获取消费者针对产品不同属性或特征的看法可以帮助商家改进产品不足或者确定下一步研发方向。因此,如何从海量产品评论中自动化地挖掘出评论者所评论的评价对象与相关的观点倾向,已成为亟需解决的重要问题。
大多数学者将评价对象挖掘视为序列标注问题。现有方法利用无监督学习、机器学习、深度学习等技术来挖掘评价对象已经获得了一定的成功。这些方法概括起来,大致可分为如下三类:基于统计学和语言规则的方法、基于句法依赖解析的方法以及基于深度语义表示学习的方法。其中,第一类方法主要是利用频繁项集挖掘或者利用手工构造的规则模板进行评价对象挖掘,这类方法虽然取得了一定的效果,但是难以适应灵活多变的句法特征及语义信息,导致召回率普遍不高。第二类方法则是使用句法依赖解析去捕获单词之间的语义关系,然后将这些关系作为条件随机场或者深度神经网络的输入,从而挖掘出单词之间的序列化语义信息特征,但这类方法仍然会受限于句法特征和简单的序列特征,缺乏特征的广度与语义的深度表示能力,同时还会受到句法依赖解析结果的影响。第三类方法是在第二类方法的基础上,使用注意力机制代替句法依赖解析来对评价对象和评价词之间的关系建模,在挖掘深度语义的同时降低了句法解析错误的影响。遗憾的是,上述几类方法都没有考虑到句子的局部特征、序列特征以及上下文特征的使用对评价对象挖掘结果的影响与贡献的差异,如何对不同类型的特征可控地进行筛选和优化,以及如何解决在不同领域下语义差异性等问题,这在很大程度上影响到产品的评价对象挖掘的准确性。
【发明内容】
本发明的目的在于克服上述现有技术的缺点,提供一种基于特征可控融合的深度表示学习方法。
为达到上述目的,本发明采用以下技术方案予以实现:
一种基于特征可控融合的深度表示学习方法,包括以下步骤:
步骤0:利用分词工具将评论数据分为单词序列,并给出对应的标签;
步骤1:给定长度为N的评论数据
Figure BDA0002237830410000021
其中xi代表评论中的一个单词,yi表示该单词对应的标签,且yi∈{B,I,O};对于标签集合{B,I,O},B、I、O分别代表评价对象的开头单词,评价对象的内部单词和非评价对象单词;
步骤2:采用预训练的多层语言模型作为单词嵌入工具,获取单词情境化的嵌入表示;
步骤3:使用BERT作为词嵌入工具,BERT是由多层transformer组成的模型;
步骤4:采用线性加权的方法联合BERT多层transformer输出特征作为单词的嵌入表示,即词语的情境化表示;
步骤5:将生成的单词情境化嵌入作为模型的输入;
步骤6:采用BIGRU算法输入单词嵌入向量,并获取单词初步的语义表示;
步骤7:采用多尺度CNN算法抽取局部特征;
步骤8:将步骤7获取的不同尺度的局部特征进行融合,获取单词的局部特征表示,并使用LayerNorm进行归一化处理,从而获取单词的局部特征表示;
步骤9:使用步骤6生成的单词语义表示作为输入,采用BIGRU抽取更抽象的序列特征;
步骤10:使用多头交互线性注意力机制分别从不同的特征表示角度来提取上下文摘要,所生成的两种不同特征表示的上下文摘要充分利用了上下文特征;
步骤11:获取统一的上下文摘要,对序列特征偏向上下文摘要
Figure BDA0002237830410000031
以及局部特征偏向上下文摘要
Figure BDA0002237830410000032
进行选择性融合;
步骤12:针对步骤11中获取的上下文摘要si,以及步骤7-9中获取的局部特征
Figure BDA0002237830410000034
序列特征
Figure BDA0002237830410000033
使用另外的三个门控制信息的流入;
步骤13:通过步骤12,获取了当前单词的最终表示Hi,进一步,将Hi输入全连接层并使用Softmax激活函数获取最终的预测标签。
本发明进一步的改进在于:
步骤7中,多尺度CNN由三组不同卷积核大小的CNN组成,通过多尺度CNN分别抽取不同尺度的局部特征,其中第一组由一个1*1的卷积网络组成,第二组由一个1*1卷积接3*3卷积组成,第三组由一个1*1卷积接5*5卷积组成。
与现有技术相比,本发明具有以下有益效果:
本发明提出了一种基于多尺度与多类型特征可控融合的评价对象抽取策略,并且在基于预训练的多层语言模型中获取单词情境化的嵌入表示的基础上,分别从局部和序列角度获取不同尺度的特征表示,并且创新性的提出了使用多头交互线性注意力机制提取上下文摘要实现单词的上下文信息表示;同时,进一步采用门控机制对多类型特征进行可控融合,实现了网络评论内容中评价对象的准确挖掘。本发明使用预训练的多层语言模型对单词进行嵌入表示,获取了单词更加语境化的表示,解决了以往方法单词嵌入表示不够丰富,无法解决一词多义的问题;其次,本发明融合了多尺度的特征,从不同的尺度角度去分析单词的信息,扩大了特征的广度,获取了单词更加丰富的特征表示;本发明提出了上下文摘要,使用多头交互线性注意力计算当前单词在整个句子影响下的特定表示来发现单词之间的差异以辅助评价对象挖掘;最后,本发明使用了门机制进行特征的筛选,为不同特征分配权重,加强了有用特征的影响。
【附图说明】
图1为本发明的架构图;
图2为本发明中多尺度卷积网络结构图;
图3为本发明中多头交互线性注意力机制结构图;
图4为本发明中特征选择融合模块结构图,其中gε
Figure BDA0002237830410000041
是上下文摘要控制门,
Figure BDA0002237830410000042
分别是最终表示融合门;
图5为本发明所用数据标签样例图;
图6为本发明实验性能图;
图7为本发明组件分离性能图。
【具体实施方式】
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,不是全部的实施例,而并非要限制本发明公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要的混淆本发明公开的概念。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明公开的上下文中,当将一层/元件称作位于另一层/元件“上”时,该层/元件可以直接位于该另一层/元件上,或者它们之间可以存在居中层/元件。另外,如果在一种朝向中一层/元件位于另一层/元件“上”,那么当调转朝向时,该层/元件可以位于该另一层/元件“下”。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明基于特征可控融合的深度表示学习方法,包括以下步骤:
阶段0:数据预处理与标记
步骤0:利用分词工具将将评论数据分为单词序列,并给出每个单词所对应的标签;
步骤1:给定为长度为N的评论数据
Figure BDA0002237830410000061
其中xi代表评论中的一个单词,yi表示该单词对应的标签,且yi∈{B,I,O},其中,B、I、O分别代表评价对象的开头单词,评价对象的内部单词和非评价对象单词;
阶段1:预训练语言嵌入
步骤2:采用预训练的多层语言模型作为单词嵌入工具,相较传统的词嵌入方法可以获取单词情境化的嵌入表示;
步骤3:使用由多层transformer组成的BERT模型作为基础的词嵌入工具,且对于BERT中每一层所生成的嵌入可以表示为:
Figure BDA0002237830410000062
其中,
Figure BDA0002237830410000063
代表句子中第i个单词在第l层所生成的嵌入表示,
Figure BDA0002237830410000064
代表句子中第i个单词在第l-1层所生成的嵌入表示;
步骤4:区别于传统的只采用语言模型最终层隐藏状态来实现单词的嵌入表示,本发明提出了一种线性加权的方法联合BERT多层transformer输出特征作为单词的嵌入表示,即词语的情境化表示:
Figure BDA0002237830410000071
其中,vi是第i个单词的情景化嵌入表示,al是第l层transformer输出表示的权重,s是归一化参数,L表示BERT的层数;
步骤5:将生成的单词情境化嵌入作为模型的输入,执行步骤6;
阶段2:多尺度与多类型特征的联合抽取
步骤6:考虑到评价对象挖掘任务的特殊性,单词的序列特征与局部特征对于准确性用不同的贡献,本发明设计了多尺度于多类型特征联合抽取模块,分别抽取单词的序列特征和不同尺度大小的局部特征。
输入单词嵌入向量,并获取单词初步的语义表示,此步骤采用BIGRU算法实现:
Figure BDA0002237830410000072
其中,
Figure BDA0002237830410000073
Figure BDA0002237830410000074
分别代表BIGRU的前向计算和后向计算过程,
Figure BDA0002237830410000075
代表拼接操作;
步骤7:局部特征抽取,此步骤采用多尺度CNN算法实现,其中多尺度CNN主要由三组不同卷积核大小的CNN组成,通过多尺度CNN分别抽取不同尺度的局部特征,其中第一组由一个1*1的卷积网络组成,第二组由一个1*1卷积接3*3卷积组成,第三组由一个1*1卷积接5*5卷积组成,每组网络中的CNN的卷积计算过程如下:
Figure BDA0002237830410000076
其中,c代表左右卷积窗口的大小,xi+j代表卷积窗口内的单词,wj和bj分别是卷积操作的参数,ReLU代表非线性激活函数;
对于多尺度CNN网络中卷积核大小为3*3和5*5的两组卷积网络,进行残差连接以补充语义信息,残差连接计算过程如下:
Figure BDA0002237830410000081
其中,
Figure BDA0002237830410000082
代表第t组卷积神经网络1<t≤3的输出,
Figure BDA0002237830410000083
表示1*1卷积的输出,
Figure BDA0002237830410000084
代表后两组中卷积核大于1*1的卷积网络输出,且u∈{3,5};
步骤8:局部特征融合,将步骤7获取的不同尺度的局部特征进行融合,使用LayerNorm进行归一化处理,从而获取单词的局部特征表示:
Figure BDA0002237830410000085
其中,
Figure BDA0002237830410000086
分别是三组CNN抽取的不同大小的局部特征,
Figure BDA0002237830410000087
代表拼接操作;
步骤9:序列特征抽取,使用步骤6生成的单词语义表示作为输入,采用BIGRU进一步抽取更抽象的序列特征:
Figure BDA0002237830410000088
其中,
Figure BDA0002237830410000089
代表拼接操作;
步骤7~步骤9提取了单词的局部特征和序列特征,在此基础上,考虑到不同单词在当前上下文影响下的特定表示可以辅助评价对象抽取,进一步抽取不同特征表示偏向的上下文摘要以实现单词的上下文特征表示;
步骤10:考虑到局部特征和序列特征的差异性,本发明创新地使用多头交互线性注意力机制分别从不同的特征表示角度来提取上下文摘要,所生成的两种不同特征表示的上下文摘要充分利用了上下文特征,本发明所提出的多头交互线性注意力机制结构见图3;
进一步,上下文摘要生成的具体过程为:
区别于传统的注意力,本发明采用多头注意力从不同角度计算单词的关注点,从而发现更多单词所关注的特征,所以本发明在延续多头注意力结构的基础上,将常用的自注意力模型替换为交互线性注意力模型;
进一步,为了将多头交互线性注意力所产生的上下文摘要维度控制在合理范围内,对于单头交互线性注意力机制,首先对单词的局部特征表示和序列特征表示进行非线性变换映射到相同维度的特征空间中:
Figure BDA0002237830410000091
Figure BDA0002237830410000092
其中,Wε
Figure BDA0002237830410000093
bε,
Figure BDA0002237830410000094
分别是全连接层的参数;
本发明提出两种上下文摘要生成方法:一是序列特征偏向上下文摘要与局部特征偏向上下文摘要,这两种摘要的计算过程相似,首先介绍序列特征偏向上下文摘要的计算过程。
对于针对评论句中第i个单词,计算过程如下:
首先计算当前单词i的局部特征表示
Figure BDA0002237830410000095
对于句子中不同单词j(1≤j≤N)的序列特征表示
Figure BDA0002237830410000096
的关注度为:
Figure BDA0002237830410000097
其中,Wa和ba分别是线性注意力计算中的参数矩阵和偏置项,tanh是非线性激活函数;
在关注度的基础上归一化注意力得分:
Figure BDA0002237830410000101
Figure BDA0002237830410000102
是当前单词i对于序列中第j个单词的注意力得分,注意力得分越高,上下文摘要的信息更多的来源于第j个单词;
其次,计算当前单词i的单头线性注意力表示:
Figure BDA0002237830410000103
然后,多头交互线性注意力表示可以表示为多个单头上下文摘要表示的拼接结果:
Figure BDA0002237830410000104
其中,
Figure BDA0002237830410000105
表示第k(1≤k≤K)个单头线性注意力产生的表示,K代表多头注意力中头的个数;
对于
Figure BDA0002237830410000106
进行非线性缩放映射到特定维度,并获取序列特征偏向的上下文摘要:
Figure BDA0002237830410000107
其中,Wκ,Wψ,bψ,bκ是两个不同全连接层的参数;
类似的,局部特征偏向的上下文摘要计算过程同上,区别在于使用多头交互线性注意力计算过程是:针对当前句子中单词i的序列特征表示
Figure BDA0002237830410000108
在句子中不同单词j(1≤j≤N)的局部特征表示
Figure BDA0002237830410000109
影响下的上下文摘要表示
Figure BDA00022378304100001010
阶段3:特征可控融合
从阶段2中已经提取了四种不同特征,分别为局部特征
Figure BDA00022378304100001011
序列特征
Figure BDA00022378304100001012
序列特征偏向上下文摘要特征
Figure BDA00022378304100001013
以及局部特征偏向上下文摘要特征
Figure BDA00022378304100001014
考虑到这四种特征在不同场景下,对于评价对象挖掘的贡献度是不同的,本发明使用两种不同的门控机制来实现特征的可控融合,特征可控融合模块结构见图4;
步骤11:首先获取统一的上下文摘要,对序列特征偏向上下文摘要
Figure BDA00022378304100001015
以及局部特征偏向上下文摘要
Figure BDA0002237830410000111
进行选择性融合:
Figure BDA0002237830410000112
其中,Uε
Figure BDA0002237830410000113
为权重矩阵,
Figure BDA0002237830410000114
为偏置项,gε
Figure BDA0002237830410000115
分别是为局部特征偏向和序列特征偏向的上下文摘要的门权重;
为了计算gε
Figure BDA0002237830410000116
本发明使用sigmoid函数来将门权重大小控制在(0-1)之间,计算方法如下:
Figure BDA0002237830410000117
Figure BDA0002237830410000118
其中,Wg1,Wg2,bg1,bg2,分别为权重矩阵和偏置项;
步骤12:针对步骤11中获取的上下文摘要si,以及步骤7-9中获取的局部特征
Figure BDA0002237830410000119
序列特征
Figure BDA00022378304100001110
使用另外的三个门控制信息的流入:
Figure BDA00022378304100001111
其中
Figure BDA00022378304100001112
且每个z的值都大于0,
Figure BDA00022378304100001113
代表矩阵点乘计算,对于每个门权重值z计算过程如下:
Figure BDA00022378304100001114
通过步骤12,获取了当前单词的最终表示Hi
进一步,将Hi输入全连接层并使用Softmax激活函数获取最终的预测标签:
Figure BDA00022378304100001115
其中,Wγ和bγ是全连接层的参数矩阵,
Figure BDA0002237830410000121
代表最终的预测标签;
进一步,在本发明中,评价对象挖掘过程中所有结构的参数都是可微的,所以使用交叉熵损失函数来迭代与更新参数:
Figure BDA0002237830410000122
其中,
Figure BDA0002237830410000123
为单词的真实标签,N代表评论的长度,T代表标签的种类。
本发明的原理:
本发明主要涉及了三个模块:
模块1:利用预训练的多层语言模型对评论中的单词进行语境化嵌入,从而解决了传统预训练语言模型方法无法区分单词的多义特征的问题,使单词表示可以适应当前句子的语境,本发明提出了一种线性加权的方法来实现语言模型多层网络表示的融合,从而获得语义更丰富的单词嵌入表示。
模块2:提出了一种基于多尺度与多特征的特征抽取器,一方面,该特征抽取器使用双向循环神经网络和多尺度卷积神经网络对模块1获得的语境化嵌入表示进行序列特征和局部特征抽取,其中,多尺度卷积网络在图像领域的Inception网络结构的基础上,为适用于自然语言处理而进行了适应性的改进,改进的多尺度卷积网络结构如图2所示。另一方面,抽取器采用多头交互线性注意力机制生成当前单词在整个句子影响下的不同特征偏向的深度语义表示,实现对上下文特征的充分利用,从而辅助评价对象抽取。
模块3:采用两种不同类型的门控机制,实现两种类型的上下文摘要特征与局部特征以及序列特征等不同类型特征的信息融合,并通过筛选与过滤优化策略实现单词最终的深度语义表示生成,从而实现评价对象挖掘的最佳可控优化。本发明的整体架构图见图1,其中,将评价对象挖掘定义为序列标注任务,且采用序列标注任务中常用的BIO标注格式,标签分类样例见图5。为验证本发明的有效性,在SemEval的三个评价对象挖掘标准数据集上进行了试验,对比其他国际顶尖的方法,本发明在三个数据集上都取得了最好的表现,本发明试验性能见图6。为验证本发明中各组件发挥的作用,进行了大量的消融试验,各组件分离性能见图7。本发明为评价对象挖掘提供了新的方法,大幅度提高了评价对象挖掘的准确度。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (2)

1.一种基于特征可控融合的深度表示学习方法,其特征在于,包括以下步骤:
步骤0:利用分词工具将评论数据分为单词序列,并给出对应的标签;
步骤1:给定长度为N的评论数据
Figure FDA0002237830400000011
其中xi代表评论中的一个单词,yi表示该单词对应的标签,且yi∈{B,I,O};对于标签集合{B,I,O},B、I、O分别代表评价对象的开头单词,评价对象的内部单词和非评价对象单词;
步骤2:采用预训练的多层语言模型作为单词嵌入工具,获取单词情境化的嵌入表示;
步骤3:使用BERT作为词嵌入工具,BERT是由多层transformer组成的模型;
步骤4:采用线性加权的方法联合BERT多层transformer输出特征作为单词的嵌入表示,即词语的情境化表示;
步骤5:将生成的单词情境化嵌入作为模型的输入;
步骤6:采用BIGRU算法输入单词嵌入向量,并获取单词初步的语义表示;
步骤7:采用多尺度CNN算法抽取局部特征;
步骤8:将步骤7获取的不同尺度的局部特征进行融合,获取单词的局部特征表示,并使用LayerNorm进行归一化处理,从而获取单词的局部特征表示;
步骤9:使用步骤6生成的单词语义表示作为输入,采用BIGRU抽取更抽象的序列特征;
步骤10:使用多头交互线性注意力机制分别从不同的特征表示角度来提取上下文摘要,所生成的两种不同特征表示的上下文摘要充分利用了上下文特征;
步骤11:获取统一的上下文摘要,对序列特征偏向上下文摘要
Figure FDA0002237830400000021
以及局部特征偏向上下文摘要
Figure FDA0002237830400000022
进行选择性融合;
步骤12:针对步骤11中获取的上下文摘要si,以及步骤7-9中获取的局部特征
Figure FDA0002237830400000023
序列特征
Figure FDA0002237830400000024
使用另外的三个门控制信息的流入;
步骤13:通过步骤12,获取了当前单词的最终表示Hi,进一步,将Hi输入全连接层并使用Softmax激活函数获取最终的预测标签。
2.根据权利要求1所述基于特征可控融合的深度表示学习方法,其特征在于,步骤7中,多尺度CNN由三组不同卷积核大小的CNN组成,通过多尺度CNN分别抽取不同尺度的局部特征,其中第一组由一个1*1的卷积网络组成,第二组由一个1*1卷积接3*3卷积组成,第三组由一个1*1卷积接5*5卷积组成。
CN201910989654.4A 2019-10-17 2019-10-17 一种基于特征可控融合的深度表示学习方法 Active CN110866542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910989654.4A CN110866542B (zh) 2019-10-17 2019-10-17 一种基于特征可控融合的深度表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910989654.4A CN110866542B (zh) 2019-10-17 2019-10-17 一种基于特征可控融合的深度表示学习方法

Publications (2)

Publication Number Publication Date
CN110866542A true CN110866542A (zh) 2020-03-06
CN110866542B CN110866542B (zh) 2021-11-19

Family

ID=69652240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910989654.4A Active CN110866542B (zh) 2019-10-17 2019-10-17 一种基于特征可控融合的深度表示学习方法

Country Status (1)

Country Link
CN (1) CN110866542B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401077A (zh) * 2020-06-02 2020-07-10 腾讯科技(深圳)有限公司 语言模型的处理方法、装置和计算机设备
CN111488734A (zh) * 2020-04-14 2020-08-04 西安交通大学 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN111581401A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于深度相关性匹配的局部引文推荐系统及方法
CN111814468A (zh) * 2020-07-09 2020-10-23 前海企保科技(深圳)有限公司 一种自适应架构语义分布文本理解方法及系统
CN112328797A (zh) * 2020-11-24 2021-02-05 山东师范大学 一种基于神经网络和注意力机制的情感分类方法及系统
CN112733918A (zh) * 2020-12-31 2021-04-30 中南大学 基于注意力机制的图分类方法及化合物毒性预测方法
CN112765353A (zh) * 2021-01-22 2021-05-07 重庆邮电大学 一种基于科研文本的生物医学学科分类方法及装置
CN113033321A (zh) * 2021-03-02 2021-06-25 深圳市安软科技股份有限公司 目标行人属性识别模型的训练方法及行人属性识别方法
CN113377900A (zh) * 2021-05-14 2021-09-10 中国电子科技集团公司第五十四研究所 基于重写和保留显著词的推敲文本摘要方法
CN116826734A (zh) * 2023-07-04 2023-09-29 长江三峡集团实业发展(北京)有限公司 一种基于多输入模型的光伏发电功率预测方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399932A (zh) * 2013-08-06 2013-11-20 武汉大学 一种基于语义社会网络本体分析技术的情境识别方法
CN104008203A (zh) * 2014-06-17 2014-08-27 浙江工商大学 一种融入本体情境的用户兴趣挖掘方法
CN108614815A (zh) * 2018-05-07 2018-10-02 华东师范大学 句子交互方法和装置
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning
CN109948158A (zh) * 2019-03-15 2019-06-28 南京邮电大学 基于环境元嵌入和深度学习的情感倾向性分析方法
CN110210032A (zh) * 2019-05-31 2019-09-06 北京神州泰岳软件股份有限公司 文本处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399932A (zh) * 2013-08-06 2013-11-20 武汉大学 一种基于语义社会网络本体分析技术的情境识别方法
CN104008203A (zh) * 2014-06-17 2014-08-27 浙江工商大学 一种融入本体情境的用户兴趣挖掘方法
US20180329884A1 (en) * 2017-05-12 2018-11-15 Rsvp Technologies Inc. Neural contextual conversation learning
CN108614815A (zh) * 2018-05-07 2018-10-02 华东师范大学 句子交互方法和装置
CN109948158A (zh) * 2019-03-15 2019-06-28 南京邮电大学 基于环境元嵌入和深度学习的情感倾向性分析方法
CN110210032A (zh) * 2019-05-31 2019-09-06 北京神州泰岳软件股份有限公司 文本处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
蔡鑫怡等: "Bert在中文阅读理解问答中的应用方法 ", 《信息与电脑(理论版)》 *
龚泽阳等: "基于深度学习的中英文混合短文本情感分析 ", 《信息与电脑(理论版)》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488734A (zh) * 2020-04-14 2020-08-04 西安交通大学 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN111488734B (zh) * 2020-04-14 2022-02-22 西安交通大学 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN111581401A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于深度相关性匹配的局部引文推荐系统及方法
CN111581401B (zh) * 2020-05-06 2023-04-07 西安交通大学 一种基于深度相关性匹配的局部引文推荐系统及方法
CN111401077A (zh) * 2020-06-02 2020-07-10 腾讯科技(深圳)有限公司 语言模型的处理方法、装置和计算机设备
CN111401077B (zh) * 2020-06-02 2020-09-18 腾讯科技(深圳)有限公司 语言模型的处理方法、装置和计算机设备
CN111814468B (zh) * 2020-07-09 2021-02-26 前海企保科技(深圳)有限公司 一种自适应架构语义分布文本理解方法及系统
CN111814468A (zh) * 2020-07-09 2020-10-23 前海企保科技(深圳)有限公司 一种自适应架构语义分布文本理解方法及系统
CN112328797A (zh) * 2020-11-24 2021-02-05 山东师范大学 一种基于神经网络和注意力机制的情感分类方法及系统
CN112733918A (zh) * 2020-12-31 2021-04-30 中南大学 基于注意力机制的图分类方法及化合物毒性预测方法
CN112733918B (zh) * 2020-12-31 2023-08-29 中南大学 基于注意力机制的图分类方法及化合物毒性预测方法
CN112765353A (zh) * 2021-01-22 2021-05-07 重庆邮电大学 一种基于科研文本的生物医学学科分类方法及装置
CN113033321A (zh) * 2021-03-02 2021-06-25 深圳市安软科技股份有限公司 目标行人属性识别模型的训练方法及行人属性识别方法
CN113377900A (zh) * 2021-05-14 2021-09-10 中国电子科技集团公司第五十四研究所 基于重写和保留显著词的推敲文本摘要方法
CN116826734A (zh) * 2023-07-04 2023-09-29 长江三峡集团实业发展(北京)有限公司 一种基于多输入模型的光伏发电功率预测方法及装置

Also Published As

Publication number Publication date
CN110866542B (zh) 2021-11-19

Similar Documents

Publication Publication Date Title
CN110866542B (zh) 一种基于特征可控融合的深度表示学习方法
Zhou et al. A comprehensive survey on pretrained foundation models: A history from bert to chatgpt
CN111275085B (zh) 基于注意力融合的在线短视频多模态情感识别方法
CN111144448B (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN109902293B (zh) 一种基于局部与全局互注意力机制的文本分类方法
CN110674305B (zh) 一种基于深层特征融合模型的商品信息分类方法
CN111046668A (zh) 多模态文物数据的命名实体识别方法与装置
CN108563624A (zh) 一种基于深度学习的自然语言生成方法
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN111881262A (zh) 基于多通道神经网络的文本情感分析方法
CN109598387A (zh) 基于双向跨模态注意力网络模型的股价预测方法及系统
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN116975776B (zh) 一种基于张量和互信息的多模态数据融合方法和设备
Chen et al. Deep neural networks for multi-class sentiment classification
CN117033602A (zh) 一种多模态的用户心智感知问答模型的构建方法
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质
Parvin et al. Transformer-based local-global guidance for image captioning
CN117765450B (zh) 一种视频语言理解方法、装置、设备及可读存储介质
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN116663566A (zh) 一种基于商品评价的方面级情感分析方法及系统
Wu et al. Sentimental visual captioning using multimodal transformer
CN113268592B (zh) 基于多层次交互注意力机制的短文本对象情感分类方法
CN114399661A (zh) 一种实例感知主干网络训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant