CN109460466A - 一种基于多任务双向长短时记忆网络的隐式句间关系分析方法 - Google Patents
一种基于多任务双向长短时记忆网络的隐式句间关系分析方法 Download PDFInfo
- Publication number
- CN109460466A CN109460466A CN201811098264.XA CN201811098264A CN109460466A CN 109460466 A CN109460466 A CN 109460466A CN 201811098264 A CN201811098264 A CN 201811098264A CN 109460466 A CN109460466 A CN 109460466A
- Authority
- CN
- China
- Prior art keywords
- sentence
- task
- network
- term
- implicit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于多任务双向长短时记忆网络的隐式句间关系分析方法,包括:获取中文篇章级语义关系语料库,包括隐式句间关系语句和显式句间关系语句;采用多任务学习的方法,以隐式句间关系识别任务为主,显式句间关系识别任务为辅,获得模型输入序列;将主任务和辅任务同时输入到至Bi‑LSTM递归神经网络,通过学习获得隐式句间关系识别模型;对所述隐式句间关系识别模型采用融合词嵌入的方法并引入先验知识,充分利用文本特征,获得更好的识别结果。本发明充分利用了隐式句间关系语句和显式句间关系语句在语义等方面的联系,解决了由于隐式句间关系语句没有较好的特征导致隐式句间关系识别效果不好的问题。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种基于多任务双向长短时记忆网络的隐式句间关系分析方法。
背景技术
句子是自然语言处理中除字、词、短语外的一个重要的研究层级。篇章句间关系(Discourse Rela-tion Recognition)的识别是句子层级研究中不可或缺的一个环节。篇章句间关系识别的主要任务是研究一段文本中前后相连的两个论元之间的逻辑关系(例如:比较关系、拓展关系、并列关系和因果关系等)。该任务是自然语言理解的基础研究问题。正确的判断文本句间逻辑关系意味着能够有效的理解文本的语义关系。
隐式句间关系识别的难点在于该任务的语料不存在类似于显式的篇章句间关系中的连接词,缺乏较好的特征。同时,数据集的稀少和样本的分布不均衡也是隐式句间关系识别无法得到很好解决的原因之一。目前,基于深度学习的方法被广泛的应用到自然语言处理问题的解决中。该类方法相较于传统的方法能够大幅度减少特征工程的工作量,在节省人工的同时,也能取得较好的效果。双向长短时记忆神经网络是循环神经网络的一个拓展。循环神经网络能够针对时间序列进行建模,有效的捕捉时间序列上的信息传递特征。它与自然语言文本中词汇的前后顺序关系非常的契合。因此,在很多自然语言处理任务中,循环神经网络都能取得不错的效果。
发明内容
本发明要解决的技术问题是:提供一种基于多任务双向长短时记忆网络的隐式句间关系分析算法,解决隐式句间关系识别是篇章句间关系识别准确率较低的问题。
一种基于多任务双向长短时记忆网络的隐式句间关系分析方法,其特征在于,所述系统包括数据集模块、分词模块和多任务双向长短诗记忆网络学习模块。
数据源模块用于分配训练集与测试集的数据,所述数据源中包括语料的数量,语料中句子的关系分类和训练测试的数量分配。
所述分词模块用于对数据进行分词和词性标注,用于下一步处理。
所述多任务双向长短时记忆网络学习模块将从所述数据源模块与分词模块中获得的分词之后的句子分别训练成不同维度的词向量,再将词性也处理为词向量。词向量拼接之后,输入到双向长短时记忆网络中进行训练学习。模型共有三个双向长短时记忆网络单元,上方和下方的网络单元分别是两个任务独享的网络,用于提取各自任务独有的特征。中间的网络为提取任务通用的特征。最后将结果输出到激活函数层中,并计算最终的损失值。多任务学习的底层权重共享的机制可以充分挖掘隐式句间关系分类和显式句间关系分类之间的关联,增强底层网络的特征提取能力。同时,方案中的融合词嵌入的方法能够充分挖掘文本的自身信息。经过验证,该方法取得较好的识别性能。
本发明的前景是广阔的,本发明可以解决隐式句间关系识别的问题。因此该发明能够有效的提升对话系统、自动问答等系统的性能,对多种自然语言处理任务的解决起到辅助作用。本发明使用的基于多任务双向长短时记忆网络的隐式句间关系分析方法相比于现在的算法优点在于其高准确率和高实用性。
附图说明
图1是本发明一种实施例的模型训练的框架示意图。
具体实施方式
本发明的实施分为模型的训练和模型的使用两个部分。下面根据附图和实施例,对本发明的具体实施方式作进一步详细说明。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是本发明一种实施例的模型训练框架示意图。
该基于多任务学习循环神经网络的隐式句间关系识别模型如图1所示。其中,task1为隐式句间关系识别的任务,task2为显式句间关系识别的任务。模型共有三个Bi-LSTM,上方和下方的网络分别是task1和task2独享的网络,用于提取各自任务独有的特征。中间的网络为提取任务通用的特征。最后将结果输出到softmax层中,并计算最终的损失值。
每个时刻的输入词向量Xt是融合词嵌入,即由两个部分连接而得,代表由Word2vec生成的词向量,代表由词性的词嵌入方法生成词向量。其公式如下所示:
按照该顺序将task1和task2的输入词向量输入到任务独享的双向LSTM中和共享的双向LSTM中。其公式如下所示:
task1和task2均使用交叉熵(Cross Entropy)作为损失函数。同时,设置task1和task2的损失权重为α1和α2,ytrue和ypred分别表示真实值和预测值。其公式如下所示:
task1和task2均使用交叉熵(Cross Entropy)作为损失函数。同时,设置task1和task2的损失权重为α1和α2,ytrue和ypred分别表示真实值和预测值。其公式如下所示:
该网络结构设计旨在使用共享结构进行训练学习到两种任务所共同具有的特征,针对具体任务的网络训练学习到具体的任务的特征。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (5)
1.一种基于多任务双向长短时记忆网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的隐式句间关系分析方法,上述隐式句间关系分析模块包括:
双向长短时记忆神经网络(Bi-LSTM)是循环神经网络(Recurrent Neutral Network,RNN)的一个拓展,LSTM引入记忆块的概念,通过使用门(gate)控制信息的输入、遗忘和输出,从而有效的减轻RNN出现的梯度消失问题;
融合词嵌入用于构建词向量,在模型的输入词向量中不仅加入word2vec的向量表示,同时添加词汇在句子中所对应的词性(Part of Speech,POS)作为一种融合的特征;
多任务学习是多个任务同时进行学习,旨在利用任务之间的关联性,通过共同训练的方式提升模型的性能,同时,多任务学习可以间接的扩大训练语料,对语料较少的任务提供了一种可行的解决方案。
2.根据权利要求1所述的一种基于多任务双向长短时记忆网络的隐式句间关系分析方法,其特征在于LSTM中门(gate)的概念实际上是一层全连接层,它的输入是上一时刻的隐藏单元状态,输出是对应到细胞状态的每一个单元的信息乘数因子,该乘数因子的大小控制着信息的输入、遗忘和输出百分比,门的结构如下所示:
gate(x)=σ(Wx+b)
遗忘门是计算上一个时刻t细胞i的状态到当前时刻细胞状态信息保留的权重,控制了内部细胞状态随时间改变的自环,如公式所示:
输入门是决定这一时刻的输入xt整合加入到当前细胞状态中的权重,如公式所示:
所以,当前时刻t的细胞状态的更新是由上一时刻的状态经过遗忘门后的值与上这一时刻输入经过输入门选择后结果相加得到,如公式所示:
输出门是计算当前的细胞状态ct输出到隐藏层状态ht中权重,如公式所示:
3.根据权利要求1所述的一种基于多任务双向长短时记忆网络的隐式句间关系分析方法,其特征在于融合词嵌入充分利用了文本的信息,从特征工程的角度丰富词向量所表示内容,句子的词性序列在一定程度上反映了句子的句法上的信息,词性可以分为41种,融合词向量的过程为:首先,将41种词性生成词嵌入表示形式;再观通过观察词汇在具体语句中的词性,将词性对应的词向量与word2vec词向量拼接到一起;最后,将这两部分连接在一起作为表示具体词汇的融合词向量。
4.根据权利要求1所述的一种基于多任务双向长短时记忆网络的隐式句间关系分析方法,其特征在于多任务学习深度神经网络在进行训练时,多个任务的网络同时进行损失函数的误差反向传播,通过共享部分的Bi-LSTM隐藏层能够向用于具体任务的Bi-LSTM传递信息,达到底层网络共享特征的作用,同时多种网络结合多任务学习网络也给人启发。
5.根据权利要求1所述的一种基于多任务双向长短时记忆网络的隐式句间关系分析方法,其特征在于,在本发明中,模型的网络结构如图1所示,其中,Task1为隐式句间关系识别的任务,Task2为显式句间关系识别的任务,模型共有三个Bi-LSTM,上方和下方的网络分别是Task1和Task2独享的网络,用于提取各自任务独有的特征,中间的网络为提取任务通用的特征,最后将结果输出到softmax层中,并计算最终的损失值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811098264.XA CN109460466A (zh) | 2018-09-20 | 2018-09-20 | 一种基于多任务双向长短时记忆网络的隐式句间关系分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811098264.XA CN109460466A (zh) | 2018-09-20 | 2018-09-20 | 一种基于多任务双向长短时记忆网络的隐式句间关系分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109460466A true CN109460466A (zh) | 2019-03-12 |
Family
ID=65606808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811098264.XA Pending CN109460466A (zh) | 2018-09-20 | 2018-09-20 | 一种基于多任务双向长短时记忆网络的隐式句间关系分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109460466A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046709A (zh) * | 2019-04-22 | 2019-07-23 | 成都新希望金融信息有限公司 | 一种基于双向lstm的多任务学习模型 |
CN110263159A (zh) * | 2019-05-28 | 2019-09-20 | 电子科技大学 | 一种基于单分类器多任务网络的隐式句间关系分析方法 |
CN110889284A (zh) * | 2019-12-04 | 2020-03-17 | 成都中科云集信息技术有限公司 | 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法 |
CN111428525A (zh) * | 2020-06-15 | 2020-07-17 | 华东交通大学 | 隐式篇章关系识别方法、系统及可读存储介质 |
CN111651974A (zh) * | 2020-06-23 | 2020-09-11 | 北京理工大学 | 一种隐式篇章关系分析方法和系统 |
WO2020215581A1 (zh) * | 2019-04-22 | 2020-10-29 | 平安科技(深圳)有限公司 | 基于双向长短时记忆网络模型的中文编码方法和装置 |
CN112069809A (zh) * | 2020-08-11 | 2020-12-11 | 桂林电子科技大学 | 一种缺失文本生成方法及系统 |
CN113255371A (zh) * | 2021-07-14 | 2021-08-13 | 华东交通大学 | 一种半监督的中英文隐式篇章关系识别方法与系统 |
CN113378547A (zh) * | 2021-06-16 | 2021-09-10 | 武汉大学 | 一种基于gcn的汉语复句隐式关系分析方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649275A (zh) * | 2016-12-28 | 2017-05-10 | 成都数联铭品科技有限公司 | 基于词性信息和卷积神经网络的关系抽取方法 |
CN107168956A (zh) * | 2017-05-26 | 2017-09-15 | 北京理工大学 | 一种基于管道的中文篇章结构分析方法及系统 |
CN107330032A (zh) * | 2017-06-26 | 2017-11-07 | 北京理工大学 | 一种基于递归神经网络的隐式篇章关系分析方法 |
CN108255492A (zh) * | 2016-12-28 | 2018-07-06 | 学校法人早稻田大学 | 并行程序的生成方法以及并行化编译装置 |
-
2018
- 2018-09-20 CN CN201811098264.XA patent/CN109460466A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649275A (zh) * | 2016-12-28 | 2017-05-10 | 成都数联铭品科技有限公司 | 基于词性信息和卷积神经网络的关系抽取方法 |
CN108255492A (zh) * | 2016-12-28 | 2018-07-06 | 学校法人早稻田大学 | 并行程序的生成方法以及并行化编译装置 |
CN107168956A (zh) * | 2017-05-26 | 2017-09-15 | 北京理工大学 | 一种基于管道的中文篇章结构分析方法及系统 |
CN107330032A (zh) * | 2017-06-26 | 2017-11-07 | 北京理工大学 | 一种基于递归神经网络的隐式篇章关系分析方法 |
Non-Patent Citations (3)
Title |
---|
SAMUEL RÖNNQVIST等: "A Recurrent Neural Model with Attention for the Recognition of Chinese Implicit Discourse Relations", 《PROCEEDINGS OF THE 55TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
YANG LIU 等: "Implicit Discourse Relation Classification via Multi-Task Neural Networks", 《PROCEEDINGS OF THE THIRTIETH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE(AAAI-16)》 * |
田文洪 等: "基于多任务双向长短时记忆网络的隐式句间关系分析", 《中文信息学报》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046709A (zh) * | 2019-04-22 | 2019-07-23 | 成都新希望金融信息有限公司 | 一种基于双向lstm的多任务学习模型 |
WO2020215581A1 (zh) * | 2019-04-22 | 2020-10-29 | 平安科技(深圳)有限公司 | 基于双向长短时记忆网络模型的中文编码方法和装置 |
CN110263159B (zh) * | 2019-05-28 | 2022-07-26 | 电子科技大学 | 一种基于单分类器多任务网络的隐式句间关系分析方法 |
CN110263159A (zh) * | 2019-05-28 | 2019-09-20 | 电子科技大学 | 一种基于单分类器多任务网络的隐式句间关系分析方法 |
CN110889284A (zh) * | 2019-12-04 | 2020-03-17 | 成都中科云集信息技术有限公司 | 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法 |
CN110889284B (zh) * | 2019-12-04 | 2023-04-07 | 成都中科云集信息技术有限公司 | 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法 |
CN111428525A (zh) * | 2020-06-15 | 2020-07-17 | 华东交通大学 | 隐式篇章关系识别方法、系统及可读存储介质 |
CN111428525B (zh) * | 2020-06-15 | 2020-09-15 | 华东交通大学 | 隐式篇章关系识别方法、系统及可读存储介质 |
CN111651974A (zh) * | 2020-06-23 | 2020-09-11 | 北京理工大学 | 一种隐式篇章关系分析方法和系统 |
CN111651974B (zh) * | 2020-06-23 | 2022-11-01 | 北京理工大学 | 一种隐式篇章关系分析方法和系统 |
CN112069809B (zh) * | 2020-08-11 | 2022-05-24 | 桂林电子科技大学 | 一种缺失文本生成方法及系统 |
CN112069809A (zh) * | 2020-08-11 | 2020-12-11 | 桂林电子科技大学 | 一种缺失文本生成方法及系统 |
CN113378547A (zh) * | 2021-06-16 | 2021-09-10 | 武汉大学 | 一种基于gcn的汉语复句隐式关系分析方法及装置 |
CN113378547B (zh) * | 2021-06-16 | 2023-07-21 | 武汉大学 | 一种基于gcn的汉语复句隐式关系分析方法及装置 |
CN113255371B (zh) * | 2021-07-14 | 2021-09-24 | 华东交通大学 | 一种半监督的中英文隐式篇章关系识别方法与系统 |
CN113255371A (zh) * | 2021-07-14 | 2021-08-13 | 华东交通大学 | 一种半监督的中英文隐式篇章关系识别方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109460466A (zh) | 一种基于多任务双向长短时记忆网络的隐式句间关系分析方法 | |
CN111767405A (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
Vogel et al. | Learning to follow navigational directions | |
CN108319686A (zh) | 基于受限文本空间的对抗性跨媒体检索方法 | |
CN112613305B (zh) | 基于循环神经网络的中文事件抽取方法 | |
Tong et al. | A novel deep learning method for aircraft landing speed prediction based on cloud-based sensor data | |
CN112084327A (zh) | 在保留语义的同时对稀疏标注的文本文档的分类 | |
CN110851760B (zh) | 在web3D环境融入视觉问答的人机交互系统 | |
CN111813895B (zh) | 一种基于层次注意力机制和门机制的属性级别情感分析方法 | |
CN109710769A (zh) | 一种基于胶囊网络的水军评论检测系统及方法 | |
WO2023137911A1 (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
Guo et al. | Recurrent hierarchical topic-guided RNN for language generation | |
CN109271636B (zh) | 词嵌入模型的训练方法及装置 | |
CN113378547A (zh) | 一种基于gcn的汉语复句隐式关系分析方法及装置 | |
Liang et al. | A double channel CNN-LSTM model for text classification | |
CN112232086A (zh) | 一种语义识别方法、装置、计算机设备及存储介质 | |
CN114153942B (zh) | 一种基于动态注意力机制的事件时序关系抽取方法 | |
Zhu et al. | Learning from interpretable analysis: Attention-based knowledge tracing | |
CN110889284B (zh) | 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法 | |
CN110263159B (zh) | 一种基于单分类器多任务网络的隐式句间关系分析方法 | |
CN112949284A (zh) | 一种基于Transformer模型的文本语义相似度预测方法 | |
Yang et al. | Can short answers to open response questions be auto-graded without a grading rubric? | |
Li et al. | Multi-target stance detection based on GRU-PWV-CNN network model | |
CN114692604A (zh) | 一种基于深度学习的方面级情感分类方法 | |
CN112200268A (zh) | 一种基于编码器-解码器框架的图像描述方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190312 |