CN112434128A - 基于分层匹配注意力机制的问答文本属性类别分类方法 - Google Patents

基于分层匹配注意力机制的问答文本属性类别分类方法 Download PDF

Info

Publication number
CN112434128A
CN112434128A CN202011286951.1A CN202011286951A CN112434128A CN 112434128 A CN112434128 A CN 112434128A CN 202011286951 A CN202011286951 A CN 202011286951A CN 112434128 A CN112434128 A CN 112434128A
Authority
CN
China
Prior art keywords
question
answer
text
attribute
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011286951.1A
Other languages
English (en)
Inventor
刘木沐
吴含前
姚莉
李露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202011286951.1A priority Critical patent/CN112434128A/zh
Publication of CN112434128A publication Critical patent/CN112434128A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于分层匹配注意力机制的问答文本属性类别分类方法,在构建模型的过程中根据开发集的文本特点设置了循环神经网络的超参数,包括神经网络层数、学习速率、句子个数等首先使用句子切分算法对问答式评论文本中的问题文本和答案文本进行句子切分,并为每条问答式评论文本构建多个(句子,句子)单元。其次,利用问答匹配注意力层对每个(句子,句子)单元进行编码来匹配问题文本和答案文本的各个句子。最后,利用高阶自匹配注意力层来捕捉不同的(句子,句子)单元对于识别属性类别的重要程度。本发训练速度快且预测精度高,具有综合最优结果。

Description

基于分层匹配注意力机制的问答文本属性类别分类方法
技术领域
本技术涉及面向问答式评论文本的属性类别分类方法,具体涉及一种基于分层匹配注意力机制的问答文本属性类别分类方法。
背景技术
近两年,在亚马逊、淘宝、京东等电商平台上出现了一种新型的产品在线评论文本——“问答式评论文本”,通常由问题文本和答案文本两部分组成。例如,在某一条问答式评论文本中,问题文本为“这款手机的待机时间多长?”,答案文本为“电量不耐用,但是外观很好看!”。在这种新的评论形式中,想要购买某种产品的消费者提出相关的问题,购买过该产品的人则可以作出相应的回答。随着问答式评论文本在各大电商平台的涌现,它所具有的一些文本特性激发了研究人员的研究兴趣。一方面,消费者逐渐偏爱于参与并发表问答式评论文本,而非传统的产品评论文本。另一方面,与传统的产品在线评论相比,这种问答式评论文本蕴含的产品信息更加真实、丰富,这样可以在很大程度上避免因刷单而产生的虚假产品信息,从而使得产品评论更为可靠。因此,针对问答式评论文本进行属性级情感分析显得意义重大,它能够更好地帮助商家和消费者作出监管和购买决策。
属性类别分类在面向问答式评论文本的属性级情感分析研究中起到十分重要的作用。在现有的针对传统评论文本进行的属性级情感分析研究中,通常将属性类别分类与属性级情感分类看作是两个独立的任务,而且属性级情感分类任务往往是面向特定属性的,即将标注的属性类别作为已知的信息,对其进行情感极性判断。但是实际上,对于一条新的评论文本而言,属性类别是未知的,应该首先进行属性类别的识别,进而判断相应的情感极性,所以属性类别分类是属性级情感分析研究中必不可少的一部分。而且,属性类别分类的性能直接影响相应的情感极性的判断,一旦属性类别分类错误率较高,将导致属性级情感分类出现根本性的错误。
问答式评论文本的属性类别识别明显比传统的评论文本更有难度,不仅仅是识别出文本所提及的属性类别,更是要识别出问题文本和答案文本同时提及的属性类别,该属性类别才是消费者和商家关注的“有效”属性类别。以数码领域的一条问答式评论文本为例,在问题文本“这款手机运行流畅吗?屏幕分辨率高吗?”中,“运行流畅”与“系统性能”这一属性类别有关,“屏幕分辨率”与“IO”属性类别有关,而在答案文本“运行流畅,而且外观好看!”中,“运行流畅”与“系统性能”属性类别有关,“外观”与“外观”属性类别有关,若进行属性类别分类任务,仅应该识别出问答文本均涉及的“系统性能”这一属性类别,而非将“IO”和“外观”也识别出来。
虽然国内外关于英文产品评论文本的属性类别分类研究起步较早并且已经取得了一些成果,但由于中英文语言的差异性、中文的语言结构和句式特点比英文更加复杂等原因,针对英文产品评论文本的一些方法不能很好地适用于面向中文产品在线评论的属性类别分类研究。而且,现有的面向传统评论文本的属性类别分类方法不能直接用来处理问答文本的属性类别分类。
发明内容
为解决上述问题,本发明针对现有技术的缺乏,本发明提出了一种基于分层匹配注意力机制的问答文本属性类别分类方法,能够较为准确地识别出问答式评论文本中的“有效”属性类别。
技术方案:一种基于分层匹配注意力机制的问答文本属性类别分类方法包括语料标注阶段和属性类别分类模型搭建阶段;其中在属性类别分类模型搭建阶段,首先基于句子切分算法将问题文本和答案文本进行句子切分,其次并为每条问答式评论文本构建多个(句子,句子)单元;
其次,利用问答匹配注意力层对每个(句子,句子)单元进行编码来匹配问题文本和答案文本的各个句子;
最后,利用高阶自匹配注意力层来捕捉不同的(句子,句子)单元对于识别属性类别的重要程度,从而较为准确地识别出问答式评论文本中所涉及的属性类别。
本发明进一步改进在于:其中在语料标注阶段:在对问答文本进行语料标注时需要分别抽取描述语、属性类别及情感极性,在标注过程中应遵循以下三个准则:
(1)当问题中对于属性的情感倾向和答案中的不一致时,情感极性标注以答案中为准;
(2)当问题和答案中出现的描述语是同一属性的不同表述时,描述语标注以问题中为准;
(3)当问题和答案中出现的描述语数量不一致时,抽取描述语的个数以问题中为准,最终生成属性描述语,属性类别,情感极性形式的三元组,从而实现高质量语料库的构建。
本发明进一步改进在于:根据语料特点,设计一种句子切分算法,对问题文本和答案文本进行句子切分,尽可能地让每个句子只包含一个属性类别;主要思想是基于斯坦福大学的CoreNLP工具对问题文本和答案文本进行初步的切分,再利用合并操作对初步的切分结果进行处理。
本发明进一步改进在于:在所述属性类别分类阶段中的神经网络模型的输入文本序列为问答式评论文本中问题句子和答案句子的词向量表示,用于模型的训练,且词向量维度为100;根据开发集调参得到,问题句子和答案句子个数的最佳值为2。
本发明进一步改进在于:所述属性类别分类阶段中的神经网络模型中训练模型参数的方法采用Adagrad算法,其形式如下式所示:
Figure RE-GDA0002886236620000041
r←r+g⊙g
Figure RE-GDA0002886236620000042
θ←θ+Δθ
其中,r为梯度累积变量,r的初始值为0;ε为全局学习率,需要自己设置,δ为小常数,为了数值稳定大约设置为10-7
本发明进一步改进在于:所采用的匹配注意力层包括问答匹配注意力层和高阶自匹配注意力层两部分;
问答匹配注意力层主要基于注意力机制捕捉问题句子和答案句子之间的匹配信息,从而对每个(句子,句子)单元进行编码;
高阶自匹配注意力层主要是基于注意力机制捕捉不同的(句子,句子)单元对于识别某一属性类别的重要程度。
本发明进一步改进在于:基于长短期记忆神经网络模型进行搭建模型;在RNN的基础上,LSTM增加了单元状态和三个门控机制:输入门it、遗忘门ft和输出门ot;其核心是单元状态,作为整个模型的记忆空间,三个门控则负责去除或增加信息到单元状态;在每个LSTM细胞单元中,三个门控将当前时刻的输入、上一时刻的隐层状态以及单元状态的线性变化相加,再以Sigmoid函数激活得到一个[0,1]之间的门限作为输出,并由此通过上一时刻的单元状态ct-1来计算当前时刻的单元状态ct,可用以下公式作形式化地描述:
it=σ(Wi·[ht-1,xt]+bi)
ft=σ(Wf·[ht-1,xt]+bf)
ot=σ(Wo·[ht-1,xt]+bo)
ct=ft⊙ct-1+it⊙tanh(Wc·[ht-1,xt]+bc)
其中,σ表示Sigmoid激活函数,Wi、bi、Wf、bf、Wo和bo分别为输入门、遗忘门、输出门的参数,⊙表示矩阵的点乘操作。xt是t时刻LSTM细胞单元的输入,即词向量表示wt,其相应的隐层向量为hN;最后,单元状态ct经过tanh非线性激活后与输出门点乘,便可得到当前时刻的隐层状态ht,可用如下公式计算得到:
ht=ot⊙tanh(ct)
对于文本分类任务而言,通常将最后时刻的隐向量hN作为文本的最终表示,经过softmax层线性化为一维向量;该向量的长度等于分类的类别数,向量中的各个数值则表示该文本属于各类别的概率,最大值对应的类别即为该文本所属类别的预测值。
在本发明中,选取了淘宝网的“问大家”模块中三个领域的问答式评论文本,即数码领域、美妆领域和箱包领域。据统计,数码领域包含8313条文本,美妆领域包含10003条文本,箱包领域包含 10000条文本。根据文本特点,本发明制定了面向问答式评论文本的属性级语料标注规范,对其进行三元组的标注。最后可用于实验的各领域问答式评论文本数量分别为2427、2927和2876。其次,使用 Gensim工具和淘宝网爬取得32万条问答式评论文本,基于Skip-Gram 模型预训练得到各个词语的分布式词向量表示。其次,未登录词通过使用均匀分布U(-0.01,0.01)随机生成词向量表示,词向量维度和 LSTM隐层维度设为100,batch大小设为32。
在训练过程中,本发明选择交叉熵代价函数作为属性类别分类任务的损失函数。模型参数通过使用Adagrad优化函数进行优化,并使用均匀分布
Figure RE-GDA0002886236620000061
初始化所有的矩阵和向量参数,其中r和c′分别是矩阵的行数和列数。此外,在LSTM层中采用dropout策略以避免过拟合问题。
有益效果:
(1)本发明的基于分层匹配注意力机制的分类方法大大提升了属性类别识别的准确率。
(2)本发明设计句子切分算法,尽可能地使问题文本和答案文本的各个句子只与某一属性类别有关,从而使得本发明的分层匹配注意力机制的分类方法可以较好地捕捉问题文本和答案文本之间相匹配的属性信息,这样识别出的“有效”属性类别具有较强的目的性和较高的准确性。
附图说明
图1是本发明方法流程图;
图2是本发明方法中属性类别分类方法的总体框架图;
图3是本发明方法中问答匹配注意力层的细节图;
图4是本发明方法中高阶自匹配注意力层的细节图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
本发明针对属性类别分类问题构建了基于分层匹配注意力机制的问答文本属性类别分类模型,模型主要识别出是给定的问答式评论文本所涉及的属性类别。
首先,根据文本特点制定了面向问答式评论文本的属性级语料标注规范,并用三元组对其进行标注。面向问答文本的属性级语料标注流程如图3所示,在对问答文本进行标注时需要分别抽取描述语、属性类别及情感极性,最终生成(属性描述语,属性类别,情感极性) 形式的三元组。其中属性描述语是指围绕属性的各个方面进行描述的名词、动名词、形容词或者是副词,并且描述语仅以出现在问题中的为准。属性类别是指产品的各个属性归属的类别,由于每种产品的属性较多,因此将其进行归类。情感极性在本文中是指针对产品的特定属性用户所表达的情感体验。在标注过程中应遵循以下三个准则:(1) 当问题中对于属性的情感倾向和答案中的不一致时,情感极性标注以答案中为准;(2)当问题和答案中出现的描述语是同一属性的不同表述时,描述语标注以问题中为准;(3)当问题和答案中出现的描述语数量不一致时,抽取描述语的个数以问题中为准。标注示例如表1所示。
Figure RE-GDA0002886236620000081
其次,本发明所提出的一种基于分层匹配注意力机制的问答文本属性类别分类方法,模型的构建建立在基于句子切分算法对问题文本和答案文本进行句子切分的基础上,进而将问题文本和答案文本的各个句子进行配对,构建不同的(句子,句子)单元。算法描述如下:
Figure RE-GDA0002886236620000091
再者,本发明所提出的一种基于分层匹配注意力机制的问答文本属性类别分类方法,其核心在于基于分层匹配注意力机制的神经网络模型,主要包括问答匹配注意力层和高阶自匹配注意力层。
问答匹配注意力层主要由词编码层和问答匹配注意力层两部分组成。首先,在词编码层中,对于(Qi,Aj)单元而言,通过LSTM 模型对问题句子Qi和答案句子Aj进行编码,由此获得问题句子Qi的隐状态矩阵
Figure RE-GDA0002886236620000092
和答案句子Aj的隐状态矩阵
Figure RE-GDA0002886236620000093
其次,在问答匹配注意力层中,通过以下公式计算得到
Figure RE-GDA0002886236620000094
Figure RE-GDA0002886236620000095
之间的注意力权重αij,目的是聚焦于问题句子Qi和答案句子Aj与所标注的属性类别有关的词语,从而捕获Qi和Aj之间的匹配信息,进而基于注意力权重和问题句子Qi的隐状态矩阵
Figure RE-GDA0002886236620000096
计算得到(Qi,Aj)单元的(句子,句子)单元向量表示。最后,可以得到一组(句子,句子)单元向量表示集合C={c1,1,…ci,j,…cM,N}。
Figure RE-GDA0002886236620000101
Figure RE-GDA0002886236620000102
Figure RE-GDA0002886236620000103
高阶自匹配注意力层主要包括(句子,句子)单元矩阵表示、高阶自匹配注意力层、全连接层和softmax层。首先,在(句子,句子) 单元矩阵表示中,将集合C={c1,1,…ci,j,…cM,N}中的多个(句子,句子) 单元向量表示拼接成(句子,句子)单元矩阵表示s。其次,在高阶自匹配注意力层中,通过高阶自匹配注意力机制来获得不同的(句子,句子)单元的重要程度向量表示α。并基于得到的高阶自匹配注意力权重计算得到(句子,句子)单元的注意力表示r,其中向量r中的每个值表示各个(句子,句子)单元的重要程度。再者,在全连接层中,通过LSTM模型对原始问题文本Q进行编码,得到其隐状态矩阵,进而将各个(句子,句子)单元的注意力表示r和问题文本Q的最后一层隐向量hl拼接得到问题文本的最终表示
Figure RE-GDA0002886236620000104
最后,在softmax层中,将问题文本的最终表示
Figure RE-GDA0002886236620000105
送入softmax层得到最终的条件概率分布,其中最大的概率值所对应的属性类别即为该问答式评论文本的属性类别预测值。
M=tanh(Ws·(sT·s)+bs)
Figure RE-GDA0002886236620000106
r=s·αT
Figure RE-GDA0002886236620000107
Figure RE-GDA0002886236620000108
(1)数据准备
在本发明中,选取了淘宝网的“问大家”模块中三个领域的问答式评论文本用于实验,即数码领域、美妆领域和箱包领域。考虑到文本分布的不平衡性,剔除了各领域文本数量少于55条的类别,最终数码领域包含2427条文本,美妆领域包含2927条文本,箱包领域包含2876条文本,相应的属性类别数目为7、10和11。
(2)模型训练
在训练过程中,本发明选择交叉熵代价函数作为属性类别分类任务的损失函数。给定一组训练数据
Figure RE-GDA0002886236620000111
和yt,其中
Figure RE-GDA0002886236620000112
表示第t个问题文本,
Figure RE-GDA0002886236620000113
表示相应的答案文本,yt表示问答式评论文本
Figure RE-GDA0002886236620000114
的真实标签。若用函数
Figure RE-GDA0002886236620000115
表示本发明提出的分类模型,其输出为属于各个属性类别的概率向量,则训练过程以最小化损失函数为目标进行:
Figure RE-GDA0002886236620000116
其中,Ns是训练样本的数量,K是分类的属性类别数目,l是L2正则化项。
在上述等式中,模型参数通过使用Adagrad优化函数进行优化,并使用均匀分布
Figure RE-GDA0002886236620000117
初始化所有的矩阵和向量参数,其中r和c′分别是矩阵的行数和列数。此外,在LSTM层中采用dropout策略以避免过拟合问题。
(3)实验结果
为了对本发明所提出的基于分层匹配注意力机制的分类模型进行全面的分析与比较,选择一些基准实验作为对比。此外,采用留出法来比较各分类方法的性能,即将每个属性类别中的70%的数据作为训练集,10%的数据作为验证集,其余20%作为测试集,并根据验证集进行调参。
表2、表3和表4分别为上述方法基于数码领域、美妆领域和箱包领域的数据集并采用相同参数设置的实验结果。从三张表中可以得出以下结论:
首先,在三个领域中,所有的LSTM(Q)方法的性能均明显优于 LSTM(A),这说明问题文本比答案文本包含更多与属性有关的信息,更有助于属性类别分类任务,与语料标注规范一致。同时,LSTM(Q+A) 方法的性能在所有的LSTM方法中显然是最好的,意味着可以利用答案文本中与属性有关的信息来提升属性类别分类任务的性能。
其次,在数码领域,基于注意力机制的LSTM模型 LSTM-Attention的正确率Accuracy和Macro-F1值比LSTM(Q)方法分别提高了3.1%和2.6%。同样地,在美妆领域,LSTM-Attention的正确率Accuracy和Macro-F1值分别提高了0.9%和2.2%。在箱包领域,LSTM-Attention的正确率Accuracy和Macro-F1值分别提高了4.0%和3.7%。这说明注意力机制在处理问答式评论文本的属性类别分类任务方面是非常有效的。
再者,在数码领域,QAMatching Attention方法的Accuracy和 Macro-F1比LSTM(Q)方法分别提高了4.6%和4.8%。同样地,在美妆领域,QAMatching Attention方法的Accuracy和Macro-F1分别提高了2.5%和3.3%。在箱包领域,QA Matching Attention方法的 Accuracy和Macro-F1分别提高了5.1%和9.6%。这说明了捕捉问题句子和答案句子之间的匹配信息对于提升分类性能的重要性。
最后,在各领域中,本发明提出的基于分层匹配注意力机制的分类方法Hierarchical Matching Attention在所有方法中性能是最好的。在数码领域,Hierarchical Matching Attention方法的Accuracy和 Macro-F1比LSTM(Q)方法分别提高了7.7%和11.5%。在美妆领域, Hierarchical Matching Attention方法的Accuracy和Macro-F1分别提高了4.3%和4%。在箱包领域,Hierarchical Matching Attention方法的Accuracy和Macro-F1分别提高了6.7%和10%。这些数据表明,本发明提出的基于分层匹配注意力机制的分类方法可以有效地捕捉问题句子及其与属性类别相匹配的答案句子所组成的(句子,句子) 单元对于属性类别分类任务的重要程度,且性能提升是较为显著的。此外,Hierarchical Matching Attention方法的分类性能优于第3章提出的Multi-Attention方法。
表2数码领域各方法的实验结果
Figure RE-GDA0002886236620000131
表3美妆领域各方法的实验结果
Figure RE-GDA0002886236620000132
Figure RE-GDA0002886236620000141
表4箱包领域各方法的实验结果
Figure RE-GDA0002886236620000142
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

Claims (7)

1.基于分层匹配注意力机制的问答文本属性类别分类方法,其特征在于,该方法包括语料标注阶段和属性类别分类阶段;
其中在所述属性类别分类阶段,首先基于句子切分算法将问题文本和答案文本进行句子切分,其次并为每条问答式评论文本构建多个(句子,句子)单元;
其次,利用问答匹配注意力层对每个(句子,句子)单元进行编码来匹配问题文本和答案文本的各个句子;
最后,利用高阶自匹配注意力层来捕捉不同的(句子,句子)单元对于识别属性类别的重要程度,从而较为准确地识别出问答式评论文本中所涉及的属性类别。
2.根据权利要求1所述的基于分层匹配注意力机制的问答文本属性类别分类方法,其特征在于,其中在语料标注阶段:在对问答文本进行语料标注时需要分别抽取描述语、属性类别及情感极性,在标注过程中应遵循以下三个准则:
(1)当问题中对于属性的情感倾向和答案中的不一致时,情感极性标注以答案中为准;
(2)当问题和答案中出现的描述语是同一属性的不同表述时,描述语标注以问题中为准;
(3)当问题和答案中出现的描述语数量不一致时,抽取描述语的个数以问题中为准,最终生成属性描述语,属性类别,情感极性形式的三元组,从而实现高质量语料库的构建。
3.根据权利要求2所述的基于分层匹配注意力机制的问答文本属性类别分类方法,其特征在于,根据语料特点,设计一种句子切分算法,对问题文本和答案文本进行句子切分,尽可能地让每个句子只包含一个属性类别;主要思想是基于斯坦福大学的CoreNLP工具对问题文本和答案文本进行初步的切分,再利用合并操作对初步的切分结果进行处理。
4.根据权利要求1所述的基于分层匹配注意力机制的问答文本属性类别分类方法,其特征在于,在所述训练模型阶段中的神经网络模型的输入文本序列为问答式评论文本中问题句子和答案句子的词向量表示,用于模型的训练,且词向量维度为100;根据开发集调参得到,问题句子和答案句子个数的最佳值为2。
5.根据权利要求1所述的基于分层匹配注意力机制的问答文本属性类别分类方法,其特征在于,所述属性类别分类阶段的神经网络模型中训练模型参数的方法采用Adagrad算法,其形式如下式所示:
Figure FDA0002782634070000021
r←r+g⊙g
Figure FDA0002782634070000022
θ←θ+Δθ
其中,r为梯度累积变量,r的初始值为0;ε为全局学习率,需要自己设置,δ为小常数,为了数值稳定大约设置为10-7
6.根据权利要求1所述的基于分层匹配注意力机制的问答文本属性类别分类方法,其特征在于,所采用的匹配注意力层包括问答匹配注意力层和高阶自匹配注意力层两部分;
问答匹配注意力层主要基于注意力机制捕捉问题句子和答案句子之间的匹配信息,从而对每个(句子,句子)单元进行编码;
高阶自匹配注意力层主要是基于注意力机制捕捉不同的(句子,句子)单元对于识别某一属性类别的重要程度。
7.根据权利要求6所述的基于分层匹配注意力机制的问答文本属性类别分类方法,其特征在于,基于长短期记忆神经网络模型进行搭建模型;在RNN的基础上,LSTM增加了单元状态和三个门控机制:输入门it、遗忘门ft和输出门ot;其核心是单元状态,作为整个模型的记忆空间,三个门控则负责去除或增加信息到单元状态;在每个LSTM细胞单元中,三个门控将当前时刻的输入、上一时刻的隐层状态以及单元状态的线性变化相加,再以Sigmoid函数激活得到一个[0,1]之间的门限作为输出,并由此通过上一时刻的单元状态ct-1来计算当前时刻的单元状态ct,可用以下公式作形式化地描述:
it=σ(Wi·[ht-1,xt]+bi)
ft=σ(Wf·[ht-1,xt]+bf)
ot=σ(Wo·[ht-1,xt]+bo)
ct=ft⊙ct-1+it⊙tanh(Wc·[ht-1,xt]+bc)
其中,σ表示Sigmoid激活函数,Wi、bi、Wf、bf、Wo和bo分别为输入门、遗忘门、输出门的参数,⊙表示矩阵的点乘操作。xt是t时刻LSTM细胞单元的输入,即词向量表示wt,其相应的隐层向量为hN;最后,单元状态ct经过tanh非线性激活后与输出门点乘,便可得到当前时刻的隐层状态ht,可用如下公式计算得到:
ht=ot⊙tanh(ct)
对于文本分类任务而言,通常将最后时刻的隐向量hN作为文本的最终表示,经过softmax层线性化为一维向量;该向量的长度等于分类的类别数,向量中的各个数值则表示该文本属于各类别的概率,最大值对应的类别即为该文本所属类别的预测值。
CN202011286951.1A 2020-11-17 2020-11-17 基于分层匹配注意力机制的问答文本属性类别分类方法 Pending CN112434128A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011286951.1A CN112434128A (zh) 2020-11-17 2020-11-17 基于分层匹配注意力机制的问答文本属性类别分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011286951.1A CN112434128A (zh) 2020-11-17 2020-11-17 基于分层匹配注意力机制的问答文本属性类别分类方法

Publications (1)

Publication Number Publication Date
CN112434128A true CN112434128A (zh) 2021-03-02

Family

ID=74701148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011286951.1A Pending CN112434128A (zh) 2020-11-17 2020-11-17 基于分层匹配注意力机制的问答文本属性类别分类方法

Country Status (1)

Country Link
CN (1) CN112434128A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641798A (zh) * 2021-10-12 2021-11-12 成都晓多科技有限公司 一种针对商家的扰乱性评论的识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法
US20200334334A1 (en) * 2019-04-18 2020-10-22 Salesforce.Com, Inc. Systems and methods for unifying question answering and text classification via span extraction

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200334334A1 (en) * 2019-04-18 2020-10-22 Salesforce.Com, Inc. Systems and methods for unifying question answering and text classification via span extraction
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HANQIAN WU 等: "Question-answering Aspect Classification with Hierarchical Attention Network", SPRINGER LINK, 31 December 2018 (2018-12-31), pages 1 - 12 *
刘木沐: "面向问答式评论文本的属性类别分类方法研究", 硕士电子期刊, 15 June 2020 (2020-06-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641798A (zh) * 2021-10-12 2021-11-12 成都晓多科技有限公司 一种针对商家的扰乱性评论的识别方法及系统

Similar Documents

Publication Publication Date Title
CN109902293B (zh) 一种基于局部与全局互注意力机制的文本分类方法
Abdullah et al. SEDAT: sentiment and emotion detection in Arabic text using CNN-LSTM deep learning
Wu et al. Video sentiment analysis with bimodal information-augmented multi-head attention
CN112579778B (zh) 基于多层次的特征注意力的方面级情感分类方法
Er et al. Attention pooling-based convolutional neural network for sentence modelling
Wen et al. Dynamic interactive multiview memory network for emotion recognition in conversation
CN110909736B (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
Li et al. Sentiment infomation based model for chinese text sentiment analysis
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
Cheng et al. Sentiment analysis using multi-head attention capsules with multi-channel CNN and bidirectional GRU
CN112287106A (zh) 一种基于双通道混合神经网络的在线评论情感分类方法
Cheng et al. A semi-supervised deep learning image caption model based on Pseudo Label and N-gram
Steur et al. Next-generation neural networks: Capsule networks with routing-by-agreement for text classification
Gouthaman et al. Linguistically-aware attention for reducing the semantic gap in vision-language tasks
He et al. VGSG: Vision-Guided Semantic-Group Network for Text-Based Person Search
Wang et al. Deep Semantics Sorting of Voice-Interaction-Enabled Industrial Control System
He et al. Text Sentiment Analysis of Douban Film Short Comments Based on BERT-CNN-BiLSTM-Att Model
Lakizadeh et al. Text sentiment classification based on separate embedding of aspect and context
Fang et al. Sense-aware bert and multi-task fine-tuning for multimodal sentiment analysis
CN112434128A (zh) 基于分层匹配注意力机制的问答文本属性类别分类方法
Zhou et al. Research on sentiment analysis of chinese e-commerce comments based on deep learning
Li et al. TransExplain: Using neural networks to find suitable explanations for Chinese phrases
He et al. SC-Net: Multimodal metaphor detection using semantic conflicts
Yang et al. Emoji-based Fine-grained Attention Network for Sentiment Analysis in the Microblog Comments
Song Distilling knowledge from user information for document level sentiment classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination