CN110598846A - 一种层级递归神经网络解码器及解码方法 - Google Patents

一种层级递归神经网络解码器及解码方法 Download PDF

Info

Publication number
CN110598846A
CN110598846A CN201910754604.8A CN201910754604A CN110598846A CN 110598846 A CN110598846 A CN 110598846A CN 201910754604 A CN201910754604 A CN 201910754604A CN 110598846 A CN110598846 A CN 110598846A
Authority
CN
China
Prior art keywords
layer
decoding
decoding unit
unit
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910754604.8A
Other languages
English (en)
Other versions
CN110598846B (zh
Inventor
张辉
王德庆
梁满庭
郝瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Aeronautics and Astronautics
Original Assignee
Beijing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Aeronautics and Astronautics filed Critical Beijing University of Aeronautics and Astronautics
Priority to CN201910754604.8A priority Critical patent/CN110598846B/zh
Publication of CN110598846A publication Critical patent/CN110598846A/zh
Application granted granted Critical
Publication of CN110598846B publication Critical patent/CN110598846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种层级递归神经网络解码器及解码方法,其中,该解码器根据层级递归神经网络划分层级,在顶层设置一个内部解码单元;在除顶层之外的每个层级均设置一个共轭解码单元;共轭解码单元包括边缘判断分类器、内部解码单元和内部编码单元;其中,边缘判断分类器用于感知所在层级的划分边界;内部编码单元对来自于下一层的输入进行编码,并在到达当前层的层级的划分边界时,向当前层的上一层传递编码信息;内部解码单元根据上一层的输入、内部编码单元下一层的输出以及内部解码器的隐藏状态,对内部解码单元下一层的输出进行预测。该解码器中的可以很好地完成输出“半结构化数据”的任务。

Description

一种层级递归神经网络解码器及解码方法
技术领域
本发明涉及一种层级递归神经网络解码器,同时涉及基于该解码器的解码方法,属于类脑计算技术领域。
背景技术
随着互联网技术和生命科学领域技术的迅猛发展,大量生物医学文献正在呈现出爆炸式的增长态势。而在大数据盛行的今天,生物医学领域的大量非结构化的纯文本数据,也成为了蕴含了人类智慧结晶的巨大矿藏。随着对海量知识挖掘整理的需求日益迫切,构建知识库为最终目标的关系抽取相关技术应运而生。
传统的生物领域关系抽取方法需要预先定义实体关系的分类体系,接着利用各种规则模板进行关系实例识别和关系元组的抽取。然而,由于缺乏足够的依据,对于微生物这样体系并不成熟的细分领域而言,预先定义科学的实体关系类型的难度很大。开放式关系抽取技术作为一种无指导的方法,可以在无须预定义的条件下,实现关系的发现与抽取。这使之成为一种在未成熟细分领域进行关系抽取的首选方法。
近年来,开放式关系抽取方法主要集中于对句法关系树等特征的识别。虽然相较于传统的手工规则,语法规则等方法已有突破,却已达到瓶颈。与此同时,神经网络模型在近几年发展迅猛,在自然语言处理的多个领域获得了突破与成功,这也为开放式关系抽取技术的进一步提供了一种新的方法。
开放式关系抽取任务要求模型具有输出半结构化数据的能力。而目前的神经网络模型多以RNN(无结构化输出),Tree RNN(完全结构化输出)等模型为主。这些模型结构并不能直接适用于开放式关系抽取任务。
发明内容
针对现有技术的不足,本发明所要解决的首要技术问题在于提供一种层级递归神经网络解码器;
本发明所要解决的另一技术问题在于提供一种层级递归神经网络解码方法。
为实现上述发明目的,本发明采用下述的技术方案:
根据本发明实施例的第一方面,提供一种层级递归神经网络解码器,根据层级递归神经网络划分层级,在顶层设置内部解码单元;
在除顶层之外的每个层级均设置共轭解码单元;
所述共轭解码单元包括边缘判断分类器、内部解码单元和内部编码单元;
其中,所述边缘判断分类器用于感知所在层级的划分边界;
所述内部编码单元对来自于下一层的输入进行编码,并在到达当前层的层级的划分边界时,向当前层的上一层传递编码信息;
所述内部解码单元根据上一层的输入、内部编码单元下一层的输出以及内部解码器的隐藏状态,对内部解码单元下一层的输出进行预测。
根据本发明实施例的第二方面,提供一种层级递归神经网络解码方法,包括如下步骤:
层级递归神经网络顶层的内部解码单元对输入进行解码生成语义片段信息;
根据上层解码单元生成的语义片段信息,由内部编码单元逐一生成下一层粒度的语义信息,并将生成的语义信息经由内部编码单元进行再编码,生成再编码信息;
当边缘判断分类器判定内部解码单元处于划分边界时,停止解码,并将再编码信息返回。
其中较优地,t时刻,第l层的内部解码单元的输入包括:来自l-1层的边缘信号、l-1层内部编码单元的输出信号、t-1时刻的内部解码单元的隐藏状态、t-1时刻的内部编码单元的隐藏状态、t时刻l+1层内部解码单元的输出。
其中较优地,当l-1层内部编码单元的输出信号为0时,第l-1层未到达划分边界,第l层保持原有状态,无任何操作。
其中较优地,当l-1层内部编码单元的输出信号为1,l层内部编码单元的输出信号为0时,第l-1层到达划分边界,第l层未到达划分边界,l层的编码单元将l-1层编码单元的输出作为l层解码单元的输入生成新的状态dol,t,并输出到l-1层,l-1层的解码单元以dol,t为l-1层新片段的初始状态;其中,dol,t,为t时刻l层共轭解码单的输出。
其中较优地,当l-1层和l层内部编码单元的输出信号均为1时,l层与l-1层同时到达划分边界;第l层内部编码单元将第l-1层的编码结果作为当前片段的最后一条信息编入内部解码单元的隐藏状态并向上传递,同时丢弃其当前的编码状态;内部解码单元在完成t时刻解码后,丢弃其解码状态,并从(l+1层)获取下一个片段的新的解码信息作为内部解码单元的隐藏状态。
其中较优地,进行优化时基于损失函数,通过梯度下降法进行解码器优化;
其中,所述损失函数是边界判断结果的交叉熵以及生成序列结果的交叉熵。
其中较优地,所述损失函数采用如下公式表示:
其中,yi为生成序列的预测值;yi′为参考序列;为第l层、i时刻生成的边缘信号值,参考值记为CrossEntropyLoss为交叉熵,其中,CrossEntropyLoss(x,z)=∑p(xi)logzi+∑(1-p(xi))log(1-zi);x为预测概率值,z一般为参考值。
本发明提供的层级递归神经网络解码器,包含有边缘判断分类器以及LSTM内部解码单元和LSTM内部编码单元。边缘判断分类器基于上、中、下三层的解码LSTM状态为输入,进行分类。其它两个LSTM单元分别用于自底向上的层级编码以及自顶向下的层级解码,可以很好地完成输出“半结构化数据”的任务。
附图说明
图1为本发明所提供的实施例中,HRNN-CDU解码的流程图;
图2为现有的TreeLSTM解码器的解码流程图;
图3(a)为本发明所提供的实施例中,当l-1层内部编码单元的输出信号为0时的操作情况示意图;
图3(b)为本发明所提供的实施例中,当l-1层内部编码单元的输出信号为1,l层内部编码单元的输出信号为0时,的操作情况示意图;
图3(c)为本发明所提供的实施例中,当l-1层和l层内部编码单元的输出信号均为1时的操作情况示意图;
图4为本发明所提供的实施例中,HRNN-CDU解码的示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。
开放式关系抽取任务要求模型具有输出半结构化数据的能力。而目前的神经网络模型多以无结构化输出的RNN(recursive neural network,递归神经网络)和完全结构化输出的Tree RNN(树形递归神经网络)等模型为主。这些模型结构并不能直接适用于开放式关系抽取任务。而神经网络的诸多方法中,一直以来没有适用于半结构化输出模型。为此,本发明提供一种神经网络模型,能够结合Tree RNN与RNN的特点,实现半结构化数据的输出。实现半结构化数据输出的Decoder神经网络结构,也是进一步实现开放式关系抽取算法的关键。
在描述本发明所提供的层级递归神经网络解码器之前,先介绍一下层级RNN解码器模型的基本假设。在众多神经网络模型中,分层RNN模型的提出,为基于神经网络实现语义建模并进行半结构化出输出提供了最为自然的可能。本发明基于层级RNN模型及其特性,提出了一种以该结构为基础的解码器—共轭解码单元,该模型可基于神经网络的方法,解码输出半结构化数据。将得到的该模型在分词任务以及通用领域的开放式关系抽取任务中进行训练、测试与比较。结果表明该层级递归神经网络解码器在半结构化输出数据预测的方面的具有一定的优越性。
在本发明所提供的实施例中,对层级RNN解码器模型进行基本假设,使其贴近于神经网络的输出特点。在自然语言处理任务中,层级RNN编码器模型假设语义可以按照不同粒度进行划分,如字母、单词、短语以及句子等,应当对形成的不同序列进行分别建模。在层级RNN模型中,针对不同划分粒度的语言序列,有多个与之对应的RNN编码器模型,每个层级设置一个RNN编码器模型。
在按时间序列进行编码的过程中,RNN从粒度较细(较低层)的下层RNN接收,直至到达划分边缘,当处于划分边缘时,该层RNN将编码得到的语义信息作为上层RNN的输入。例如:对于字母级别的RNN编码单元,从单词的起始位置开始,逐一将字母序列进行编码,直至单词结束,而后将字母序列的编码结果作为单词的分布表示,输入至单词级别的RNN编码器中,其本身的建模对象是粗粒度的语言片段;对较低层RNN编码器而言,其本身的编码对象是细粒度的语言片段。
相比较于通常的RNN编码模型,层级RNN解码模型中:解码输出的结果可按照不同粒度进行划分成不同的序列(字母序列、文字序列、单词序列、词组序列、句子序列等)。在解码过程中,解码信息由上层向下层逐步传递和细化。“短语”层级RNN解码单元,依次预测句子中各个“短语”的分布表示,并将其作为“单词”层级的RNN解码单元的输入;单词层级的RNN解码单元则预测这个句子中,各个单词的分布表示,进而预测各个单词。
基于上述对层级RNN解码器模型的基本假设,结合参考Tree RNN decoder的设计,本发明提出了一种基于层级RNN结构的解码单元—共轭解码单元(Conjugate DecoderUnit,简称为CDU)。在此基础上,本发明所提供的层级递归神经网络解码器,首先根据层级递归神经网络划分的层级,在顶层设置一个内部解码单元。在本发明所提供的实施例中,该顶层的内部解码单元为RNN解码器。在除顶层之外的每个层级均设置一个共轭解码单元;该共轭解码单元包含用于感知划分边界的分类器(边缘判断分类器),以及两个执行相反任务的RNN(LSTM)内部解码单元(内部解码器)和内部编码单元(内部编码器)。其中,内部编码单元对来自于下一层的输入进行编码,并在到达当前层的层级的划分边界时,向当前层的上一层传递编码信息;内部解码单元根据上一层的输入以及内部编码单元下一层的输出,对内部解码单元下一层的输出进行预测。在本发明所提供的实施例中,根据层级递归神经网络划分的层级,在每层均设置一个内部解码单元;在除顶层之外的每个层级均设置一个边缘判断分类器和一个内部解码单元。单层CDU的整体解码过程如图1所示。
CDU根据上层解码器生成的语义片段信息,由内部编码单元逐一生成下一层粒度的语义信息,并将生成的语义信息经由内部编码单元进行再编码,生成再编码信息。当边缘判断分类器判定解码器处于边缘状态(bs=1)时,停止解码,并将再编码信息返回。其中内部编码单元的设计来源于图2所示的现有的Tree LSTM结构中LD-lstm的设计,在此便不再赘述了。
在本发明所提供的实施例中,采用层级递归神经网络解码器进行解码时,CDU的具体各个过程细节如下:
边缘判断分类器,该分类器基于状态这一单元的设计是基于HRNN的隐藏状态h在编码过程中有感知边缘的能力。记l层共轭解码单元的边缘判断分类器的输出为bel(boundray estimate),对应判断信号值为bs(boundray signal),单元函数标识为:
bsl=sigmoid(h) (1)
其中,bsl在理论上是由h决定的离散信号量,在这里,为便于求导,用sigmoid函数代替。bsl=1表示l层到达划分边界;bsl=0表示l层未到达划分边界。
负责不断将下层输入逐一编码的LSTM,在本专利时请中称为内部编码单元(InnerEncode Unit),记l层的内部编码单元随时间t传递的隐藏状态为ehl,t(encoder hidden),随时间t传递的记忆状态为ecl,t,在时刻t的输出为eol,t(encoder output),在t时刻的输入为下层编码单元的输出eol-1,t。内部编码单元执行着与HRNN编码器中相同的操作:当下层bsl-1为1时,该内部编单元负责对来自于较低层的输入进行编码,并在编码片段结束(bsl=1)之时(即到达当前层的层级的划分边界时),向更高一层传递其编码信息。内部编码单元的函数形式为
ehl,t,ecl,t=lstm(ehl,t-1,ecl,t-1,bsl-1,t*eol-1,t) (2)
eol,t=bsl,t*ehl,t (3)
另一个LSTM为内部解码单元(Inner Decode Unit),并记该内部解码单元随时间t输入的隐藏状态为dht(decoder hidden),该单元在时刻t的输出的状态为dot(decoderoutput)。内部解码单元负责基于来自下一层的输出it、上一层CDU的输出以及dht生成对下一个低层语言片段的预测。当处于片段边缘时(bst=1),内部解码单元将从较高一层获得新的dht,继续进行解码生成新的语言片段的预测。在本发明所提供的实施例中,将句子解码成三元组对应的词语为例进行说明:第二层CDU的内部解码单元基于第一层CDU的输出以及下一层内部编码单元的输出,以及输入的三元组的隐藏状态生成对下一个底层语言片段的预测,当边缘判断分类器检测到划分边界之后,三元组解码完成。第二层的内部解码单元获取新的三元组的隐藏状态,基于第一层CDU的输出以及下一层内部编码单元的输出,以及新的三元组的隐藏状态生成对下一个底层语言片段的预测,当边缘判断分类器检测到划分边界之后,解码完成。
而在解码阶段,由于是dht本身来源于上层的对本层片段的解码信息,这里认为dht更具有感知判断片段边缘的能力。因此在本发明所提供的实施例中,可以将dht用于判断信号值bst的生成。
整理以上描述,t时刻,第l层解码单元的输入包含如下内容:
1)bsl-1,t,来自下一层的边缘信号;
2)il(亦即:eol-1),来自输入信号,也是下一层内部编码单元的输出信号;
3)dht-1:来自t-1时刻的内部解码器的隐藏态;
4)eht-1:来自t-1时刻的内部编码器的隐藏态;
5)dol+1,t,来自t时刻上层内部解码单元的输出。
共轭解码单元将依据bsl,t和bsl-1,t的值,分别做出不同的操作及输出,如图3(a)~(c)所述。
如图3(a)所示,当bsl-1,t=0时,表明第l-1层未到达其边缘,故第l层仅保持原有状态,无任何操作。
如图3(b)所示,当bsl-1,t=1,bsl,t=0时,表明l-1层到达边缘,而l层未到达边缘,此时,l层的编码单元将l-1层编码单元的输出作为l层解码单元的输入生成新的状态dol,t,并输出到l-1层,l-1层的解码单元以dol,t为l-1层新片段的初始状态。
如图3(c)所示,当bsl-1,t=1,bsl,t=1时,表明l层与l-1层同时到达边缘。第l层CDU的内部编码单元将第l-1层的编码结果作为当前片段的最后一条信息编入内部解码单元的隐藏状态dht并向上传递,同时丢弃其当前的编码状态。解码单元在完成t时刻解码后,同样丢弃其解码状态,并从上层(l+1层)获取下一个片段的新的解码信息作为其内部解码单元的隐藏状态dht
综合所有操作,在本发明所提供的一个实施例中,以三元组为例说明神经网络最终沿时间展开的解码过程,如图4所示。
图4中所示的解码过程发生在编码阶段(未展示)结束之后,且输出目标为多条三元组信息。由此需要设置三层解码器:
1.顶层解码器(l=3),该层解码器为通常的RNN形态的解码单元(一般为lstm),该解码单元用于对编码阶段生成的语义向量进行三元组级别的解码:逐次解码生成下一条三元组语义向量,该向量将被传递至下层(l=2)进行更细语义粒度(短语)的解码,直至解码输出特殊标识<EOS>。
2.元组解码器(l=2),解码单元为CDU,该CDU的内部解码单元将对l=3层解码得到的三元组语义向量进行短语级别的解码:逐次解码生成三元组的主体、关系、客体的短语语义向量,并交由下层(l=1)进一步解码。同时CDU的内部编码单元收集下层各短语的再编码信息,以对整个三元组进行再编码。在当前三元组全部解码结束时(bs2,t=1),对三元组的再编码信息将被向上传递至顶层解码器。
3.短语解码器(l=1),该层解码单元为CDU,该CDU的内部解码单元将对l=2层解码得到的短语语义向量进行单词级别的解码,逐次输出组成短语的各个单词,同时,该CDU的内部编码单元将所有生成的单词进行再编码。在当前短语全部解码结束时(bs1,t=1),对当前短语的再编码信息将被向上传递至(l=2)元组解码器。
在解码阶段的初始时刻(t=0),短语解码层与元组解码层中的bs1,0、bs2,0被强制置1,起始符号‘<SOS>’将被依次编码,传递至顶层。顶部解码单元接收编码阶段(未展示)的语义向量,以及<SOS>的编码信息,生成包含第一条元组(<Barack Obama,is thepresident of,US>)的语义向量,向下逐层传递,并解码生成该三元组的第一个短语的第一个单词:Barack。
在解码阶段的T=1时刻,短语解码与元组解码均未结束(bs1,0=0、bs2,0=0),顶层解码单元与元组解码单元处于图3(a),各状态保持不变向下一时刻传递。而短语解码单元收集t=0时刻生成的Barack的语义信息进行再编码,同时预测生成Obama。
T=2时刻,短语解码单元收集t=1时刻生成的Obama的语义信息,并判断第一条元组的第一个短语解码结束(bs1,0=1),此时短语解码层的CDU处于图3(c),将短语<BarackObama>的再编码信息向上传递。元组解码层的CDU处于图3(b),将收集短语<Barack Obama>的再编码信息,同时生成第一条三元组的第二个短语<is the president of>的语义向量,向下传递交由短语解码层CDU,并解码生成第一条三元组第二个短语的第一个词:is。
T=3~5时刻,与T=1时刻类似。T=6时刻,与T=2时刻类似
T=7时刻,短语解码单元收集t=6时刻生成的单词US的语义信息,并判断第一条元组的第三个短语解码结束(bs1,0=1),此时短语解码层的CDU处于图3(c),将短语<US>的再编码信息向上传递。元组解码层的CDU将收集短语<US>的再编码信息,并判断第一条元组解码结束(bs2,0=1),此时元组解码层的CDU同样处于图3(c),并将三元组<Barack Obama,is the president of,US>的再编码信息向上传递。此时顶部编码单元处于图3(b)的状态,基于t=0时刻解码后的隐藏态以及当前时刻(t=7)时刻接收到的第一条三元组再编码信息,生成第二条三元组<Barack Obama,gave speech to,thousands of people>的语义向量,并向下逐层传递,预测生成第二条三元组第一条短语的第一个词:Barack。
T=8时刻与T=1时刻类似,T=9时刻与T=2时刻类似,T=10~11时刻与T=1时刻类似,T=12时刻与T=2时刻类似,T=13~14与T=1时刻类似,T=15与T=7时刻类似。在T=15处,顶部解码器在接收第二条元组的再编码信息后,生成的“下一条元组”信息的解码结果为特殊字符<EOS>此时认为,全部元组已完成解码。至此,全部解码过程结束。
该层级递归神经网络解码器最终以边界判断结果的交叉熵以及生成序列结果的交叉熵作为损失函数,并基于此损失函数,通过梯度下降法对模型进行优化。若将生成序列的预测值记为yi,参考序列记为yi′,第l层,i时刻生成的边缘信号值为参考值记为则损失函数可表示为:
其中,CrossEntropyLoss为常用损失函数:交叉熵,见公式(5)。
CrossEntropyLoss(x,z)=∑p(xi)logzi+∑(1-p(xi))log(1-zi) (5)
其中,x为预测概率值,z=0或1,一般为参考值。
综上所述,本发明所提供的层级递归神经网络解码器包含有一个边缘判断分类器,以及LSTM内部解码单元和LSTM内部编码单元。边缘判断分类器基于上、中、下三层的解码LSTM状态为输入,进行分类。其它两个LSTM单元分别用于自底向上的层级编码以及自顶向下的层级解码。对输出“要求生成输出为半结构化数据”的任务,包含有分段结构信息的目标序列。而后对这一模型进行了验证。验证结果表明该模型在分段边缘感知上具有一定的能力。
下面对本发明所提供的层级递归神经网络解码器在分词任务中的效果进行检验。
分词任务是中文自然语言处理中的基本任务。该任务要求对于输入的汉字序列根据词义进行划分。本质上也可以视作对输入汉字序列的半结构化处理。
目前,使用序列标注模型是实现分词任务的主流做法。比较有代表性的方式是,D.Cai,et al,2016提出的基于双向LSTM+CRF的序列标注算法,该算法在PKU分词数据集上能够达到95.5%。
本实验选用自然语言建模常用的LSTM作为编码器,选用本专利设计的CDU作为层级RNN结构的解码单元。由于分词任务输出的字符序列已知,因此,本实验在解码阶段会将原句字符序列作为已知输入。而本实验的主要目的是:将在分词任务中着重检验CDU对于结构划分边缘的感知能力。
如上所述,分层解码器是适合于生成带有分段信息的语言序列,而中文分词任务符合这一条件。因此将测试HRNN-CDU模型在分词任务上的表现,作为在一定程度上验证该模型对分段序列结构的预测能力。
本专利选择了北大分词数据集PKU和微软分词数据集MSR这两个学界常用的分词公开数据集。由于该数据集已经有了训练集和测试集之分。
此外,用于训练和测试,在将两个数据集真正作为神经网络的输入之前,还对数据进行了下列预处理:
1)考虑到递归神经网络对长句建模的效果较差,对训练集中的长句,按照逗号,冒号进行切分,使其成为较短的句字。
2)考虑到数字对于关系抽取的结果影响微乎其微,对于句子中出现的年份或者计量数字,如1998、21等,考虑到不影响语义的前提下,本文将其替换为专用标识符:<NUM>,从而将不同数字视为同一个词。
3)删除训练语料中的非常用标点符号,以及其它非法字符。
4)对于目标语句,生成相应的边界信号序列。
对于CDU以及以上的实验数据,我们选用了常用的评价指标:F1值。在本次实验中,该评价指标对应的可以表述为:
准确率(P):P=预测生成的分词边界正确数量/所有分词预测的边界的数量
召回率(R):R=预测生成的分词边界正确数量/所有实际分词边界数量
F1值:
其中分词正确预测的标准可表述为:在CDU中输出bs=1的对应得位置是否为分词的边界,若是,则预测正确,若不是,则预测错误。
在基线的选择上,本文引用了D.Cai等人在2015年至2016年间在PKU、MSR语料上的RNN+BiGram+CRF的分词模型实验结果作为本实验的基线。
基于以上模型设计、数据集以及性能指标,得到表1所示的实验结果:
表1 CDU在分词任务中的表现F1值
模型 PKU MSR
(Cai et al.2016) 95.5 96.5
(Chen et al.2015a) 94.5 95.4
(Chen et al.2015b) 94.8 95.6
CDU 94.3 95.1
其中前三组结果为Cai等人与cheng等人于2015~2016期间的实验结果。第四组(CDU)为基于本专利模型CDU的实验结果。需要指出的是,Cai与Chen等人的模型中,引入了BiGram等特征工程的成果作为输入。
由实验结论对比可以看出,CDU模型在无其它特征工程输入的影响下,但可以认为其能够在分词性能上与主流的分词模型性能达到大致相当的水平。从一定程度上说明了CDU对结构化输出边缘的感知的能力。相较于RNN+BiGram+CRF的模型,采用了encoder-decoder方式的RNN-HRNN-CDU单元在编码与解码过程中,特别是进行边缘判断时,该模型能够综合考虑原句整句的语义信息、附近词语的语义信息,以及附近各个字的语义信息。特别是在解码阶段,低层级的CDU编码单元仅对附近的1~3个字进行建模,实际上起到了类似于变长CRF的作用。
上面对本发明所提供的层级递归神经网络解码器及解码方法进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。

Claims (8)

1.一种层级递归神经网络解码器,其特征在于:
根据层级递归神经网络划分层级,在顶层设置内部解码单元;
在除顶层之外的每个层级均设置共轭解码单元;
所述共轭解码单元包括边缘判断分类器、内部解码单元和内部编码单元;
其中,所述边缘判断分类器用于感知所在层级的划分边界;
所述内部编码单元对来自于下一层的输入进行编码,并在到达当前层的层级的划分边界时,向当前层的上一层传递编码信息;
所述内部解码单元根据上一层的输入、内部编码单元下一层的输出以及内部解码器的隐藏状态,对内部解码单元下一层的输出进行预测。
2.一种层级递归神经网络解码方法,基于权利要求1所述的层级递归神经网络解码器,其特征在于包括如下步骤:
层级递归神经网络顶层的内部解码单元对输入进行解码生成语义片段信息;
根据上层解码单元生成的语义片段信息,由内部编码单元逐一生成下一层粒度的语义信息,并将生成的语义信息经由内部编码单元进行再编码,生成再编码信息;
当边缘判断分类器判定内部解码单元处于划分边界时,停止解码,并将再编码信息返回。
3.如权利要求2所述的层级递归神经网络解码方法,其特征在于:
t时刻,第l层的内部解码单元的输入包括:来自l-1层的边缘信号、l-1层内部编码单元的输出信号、t-1时刻的内部解码单元的隐藏状态、t-1时刻的内部编码单元的隐藏状态、t时刻l+1层内部解码单元的输出。
4.如权利要求3所述的层级递归神经网络解码方法,其特征在于:
当l-1层内部编码单元的输出信号为0时,第l-1层未到达划分边界,第l层保持原有状态,无任何操作。
5.如权利要求3所述的层级递归神经网络解码方法,其特征在于:
当l-1层内部编码单元的输出信号为1,l层内部编码单元的输出信号为0时,第l-1层到达划分边界,第l层未到达划分边界,l层的编码单元将l-1层编码单元的输出作为l层解码单元的输入生成新的状态dol,t,并输出到l-1层,l-1层的解码单元以dol,t为l-1层新片段的初始状态;其中,dol,t,为t时刻l层共轭解码单的输出。
6.如权利要求3所述的层级递归神经网络解码方法,其特征在于:
当l-1层和l层内部编码单元的输出信号均为1时,l层与l-1层同时到达划分边界;第l层内部编码单元将第l-1层的编码结果作为当前片段的最后一条信息编入内部解码单元的隐藏状态并向上传递,同时丢弃其当前的编码状态;内部解码单元在完成t时刻解码后,丢弃其解码状态,并从(l+1层)获取下一个片段的新的解码信息作为内部解码单元的隐藏状态。
7.如权利要求1所述的层级递归神经网络解码方法,其特征在于:
进行优化时基于损失函数,通过梯度下降法进行解码器优化;
其中,所述损失函数是边界判断结果的交叉熵以及生成序列结果的交叉熵。
8.如权利要求7所述的层级递归神经网络解码方法,其特征在于:
所述损失函数采用如下公式表示:
其中,yi为生成序列的预测值;yi′为参考序列;为第l层、i时刻生成的边缘信号值,参考值记为CrossEntropyLoss为交叉熵,其中,CrossEntropyLoss(x,z)=∑p(xi)logzi+∑(1-p(xi))log(1-zi);x为预测概率值,z一般为参考值。
CN201910754604.8A 2019-08-15 2019-08-15 一种层级递归神经网络解码器及解码方法 Active CN110598846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910754604.8A CN110598846B (zh) 2019-08-15 2019-08-15 一种层级递归神经网络解码器及解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910754604.8A CN110598846B (zh) 2019-08-15 2019-08-15 一种层级递归神经网络解码器及解码方法

Publications (2)

Publication Number Publication Date
CN110598846A true CN110598846A (zh) 2019-12-20
CN110598846B CN110598846B (zh) 2022-05-03

Family

ID=68854407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910754604.8A Active CN110598846B (zh) 2019-08-15 2019-08-15 一种层级递归神经网络解码器及解码方法

Country Status (1)

Country Link
CN (1) CN110598846B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4954963A (en) * 1989-03-02 1990-09-04 Texas Instruments Incorporated Neural network and system
CN105893354A (zh) * 2016-05-03 2016-08-24 成都数联铭品科技有限公司 一种基于双向递归神经网络的分词方法
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
US10152970B1 (en) * 2018-02-08 2018-12-11 Capital One Services, Llc Adversarial learning and generation of dialogue responses
US20180357530A1 (en) * 2017-06-13 2018-12-13 Ramot At Tel-Aviv University Ltd. Deep learning decoding of error correcting codes
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN109933789A (zh) * 2019-02-27 2019-06-25 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及系统
CN110019719A (zh) * 2017-12-15 2019-07-16 微软技术许可有限责任公司 基于断言的问答
CN110059698A (zh) * 2019-04-30 2019-07-26 福州大学 用于街景理解的基于边缘稠密重建的语义分割方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4954963A (en) * 1989-03-02 1990-09-04 Texas Instruments Incorporated Neural network and system
CN105893354A (zh) * 2016-05-03 2016-08-24 成都数联铭品科技有限公司 一种基于双向递归神经网络的分词方法
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
US20180357530A1 (en) * 2017-06-13 2018-12-13 Ramot At Tel-Aviv University Ltd. Deep learning decoding of error correcting codes
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN110019719A (zh) * 2017-12-15 2019-07-16 微软技术许可有限责任公司 基于断言的问答
US10152970B1 (en) * 2018-02-08 2018-12-11 Capital One Services, Llc Adversarial learning and generation of dialogue responses
CN109933789A (zh) * 2019-02-27 2019-06-25 中国地质大学(武汉) 一种基于神经网络的司法领域关系抽取方法及系统
CN110059698A (zh) * 2019-04-30 2019-07-26 福州大学 用于街景理解的基于边缘稠密重建的语义分割方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KYUNGHYUN CHO 等: "Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation", 《ARXIV:1406.1078》 *
WEIFAN ZHANG 等: "Modeling Both Coarse-Grained and Fine-Grained Topics in Massive Text Data", 《2015 IEEE FIRST INTERNATIONAL CONFERENCE ON BIG DATA COMPUTING SERVICE AND APPLICATIONS》 *
陈航 等: "一种面向微生物领域的知识库构建方法", 《微电子学与计算机》 *

Also Published As

Publication number Publication date
CN110598846B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN110457688B (zh) 纠错处理方法及装置、存储介质和处理器
US20210149993A1 (en) Pre-trained contextual embedding models for named entity recognition and confidence prediction
US10803387B1 (en) Deep neural architectures for detecting false claims
CN108376131A (zh) 基于seq2seq深度神经网络模型的关键词抽取方法
CN114580382A (zh) 文本纠错方法以及装置
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN112926345B (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN113178193A (zh) 一种基于智能语音芯片的中文自定义唤醒与物联交互方法
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN115617955B (zh) 分级预测模型训练方法、标点符号恢复方法及装置
CN114997288A (zh) 一种设计资源关联方法
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN114580428A (zh) 融合多任务和多标签学习的司法领域深度事件抽取方法
CN109446326A (zh) 基于复制机制的生物医学事件联合抽取方法
Friedrich et al. Entropy in legal language
Chen et al. Improving the prediction of therapist behaviors in addiction counseling by exploiting class confusions
Yu et al. Modeling long-range context for concurrent dialogue acts recognition
Khassanov et al. Enriching rare word representations in neural language models by embedding matrix augmentation
CN117349423A (zh) 一种模板匹配式水利领域知识问答模型
CN110598846B (zh) 一种层级递归神经网络解码器及解码方法
CN110162615A (zh) 一种智能问答方法、装置、电子设备和存储介质
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
CN110472243B (zh) 一种中文拼写检查方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant