CN113609867B - 基于单层网络结构学习上下文信息的方法及系统 - Google Patents

基于单层网络结构学习上下文信息的方法及系统 Download PDF

Info

Publication number
CN113609867B
CN113609867B CN202110978023.XA CN202110978023A CN113609867B CN 113609867 B CN113609867 B CN 113609867B CN 202110978023 A CN202110978023 A CN 202110978023A CN 113609867 B CN113609867 B CN 113609867B
Authority
CN
China
Prior art keywords
context
target word
word
vector
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110978023.XA
Other languages
English (en)
Other versions
CN113609867A (zh
Inventor
卫金茂
朴乘锴
朱亚朋
王宇辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202110978023.XA priority Critical patent/CN113609867B/zh
Publication of CN113609867A publication Critical patent/CN113609867A/zh
Application granted granted Critical
Publication of CN113609867B publication Critical patent/CN113609867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于深度学习领域,提供了一种基于单层网络结构学习上下文信息的方法及系统。其中,该方法包括获取文本信息,并将每个句子分成目标单词、上文和下文这三部分,对目标单词、上文和下文分别进行向量表示;基于目标单词、上文和下文向量表示及第一门控结构,建立目标单词及其上下文之间的关系;基于第二门控结构从目标单词及其上下文之间的关系中提取语义特征,并通过加权形式来形成最终的文本表示;其中,第一门控结构和第二门控结构均包含单词‑上下文注意力机制。

Description

基于单层网络结构学习上下文信息的方法及系统
技术领域
本发明属于深度学习领域,尤其涉及一种基于单层网络结构学习上下文信息的方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在深度学习领域,深层模型可以获取更加充分的上下文信息,但是,在计算资源受限情况下,太深的模型将严重影响计算性能,甚至对模型的可行性产生影响,而浅层模型又难以很好覆盖全部上下文信息,最终导致无法充分学习上下文,影响文本分类的准确率。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于单层网络结构学习上下文信息的方法及系统,其具有在经济计算成本更低的情况下,获得高文本分类准确率的优点。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于单层网络结构学习上下文信息的方法。
一种基于单层网络结构学习上下文信息的方法,其包括:
获取文本信息,并将每个句子分成目标单词、上文和下文这三部分,对目标单词、上文和下文分别进行向量表示;
基于目标单词、上文和下文向量表示及第一门控结构,建立目标单词及其上下文之间的关系;
基于第二门控结构从目标单词及其上下文之间的关系中提取语义特征,并通过加权形式来形成最终的文本表示;其中,第一门控结构和第二门控结构均包含单词-上下文注意力机制。
本发明的第二个方面提供一种基于单层网络结构学习上下文信息的系统。
一种基于单层网络结构学习上下文信息的系统,其包括:
向量表示模块,其用于获取文本信息,并将每个句子分成目标单词、上文和下文这三部分,对目标单词、上文和下文分别进行向量表示;
关系建立模块,其用于基于目标单词、上文和下文向量表示及第一门控结构,建立目标单词及其上下文之间的关系;
文本表示模块,其用于基于第二门控结构从目标单词及其上下文之间的关系中提取语义特征,并通过加权形式来形成最终的文本表示;其中,第一门控结构和第二门控结构均包含单词-上下文注意力机制。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于单层网络结构学习上下文信息的方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于单层网络结构学习上下文信息的方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明的该方法是在目标单词与其上下文向量而不是其相邻单词之间建立语义关系,因此,模型的存储成本随着序列长度线性增长,而不是平方增长。相对的,该模型在时间复杂度方面显著降低,可以节省大量的计算成本。
本发明的该方法具有单层网络结构,能够在一层内充分利用上下文信息,可以有效解决浅层网络会忽略远程关系或截断语义信息的传播,而深层网络导致上下文范围超过序列长度,不必要的信息会干扰模型的问题。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例的基于单层网络结构学习上下文信息方法流程图;
图2为本发明实施例中生成向量表示R的过程;
图3为本发明实施例的采用的基于全局上下文的语义特征信息提取方法的网络结构图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
如图1所示,本实施例提供了一种基于单层网络结构学习上下文信息的方法,其具体包括如下步骤:
步骤1:获取文本信息,并将每个句子分成目标单词、上文和下文这三部分,对目标单词、上文和下文分别进行向量表示。
首先从获取全局上下文语义特征信息的角度出发,定义了一种新的网络结构,生成向量表示R的过程如图2所示,给定一个句子其中每个St,(t∈(1,m)),表示第t个单词的词向量,m是S的长度,n是词向量的维数,我们的目标是生成S的词向量表示公式为:
R={FCSR(S1|S),FCSR(S2|S),...FCSR(Sm|S)}
以St为目标单词,其表示向量Rt通过FCSR(Full-context semantic representation,全局上下文语义表示)生成,首先,分别将St的左右上下文词S1~St-1和St+1~Sm压缩为固定长度的向量。其中,基于全局上下文的语义特征信息提取方法的网络结构如图3所示。
将输入句子分成目标单词及其上下文并获取不同的向量表示,采取基于FOFE(Fixed-size Ordinally Forgetting Encoding,学习不定长序列表示方法)的上下文收集方法将任意数量的上下文词压缩为固定大小的向量表示,公式为:
其中,FOFE(Si,Sj)是句子S从Si到Sj的压缩向量,a是控制历史向量影响的权重。
当获取上下文表示信息时,对于句子S中的每一个单词St,通过构造左上下文和右上下文/>的方式来收集完整范围的上下文信息。公式为:
对于边界情况,将和/>设置为零。
步骤2:基于目标单词、上文和下文向量表示及第一门控结构,建立目标单词及其上下文之间的关系。
通过门控的方式建立目标单词与上下文之间的关系,公式为:
其中表示第t个单词的门控单元,/>代表St的上下文表示。/>和/>代表的是可以训练的参数。/>代表偏置,σ代表激活函数,*代表矩阵乘法。
单词-上下文注意力机制使用目标单词St以及它的上下文向量和/>作为x,y和z。然后如上述公式所示,将输入向量转化为不同的语义空间以生成门。最后,将门控信息加到相应的向量上来计算Ct和/>其中Ct是St在其上下文中的权重,/>是Ct的非线性表示。
如表1所示,首先单词-上下文注意力机制使用目标单词St以及它的上下文向量和/>作为x,y和z,然后将输入向量转化为不同的语义空间以生成门。最后,将门控信息加到相应的向量上来计算Ct和/>
表1
步骤3:基于第二门控结构从目标单词及其上下文之间的关系中提取语义特征,并通过加权形式来形成最终的文本表示;其中,第一门控结构和第二门控结构均包含单词-上下文注意力机制。
第一门控结构和第二门控结构都包含有单词-上下文注意力机制,公式如下:
fa(x,y,z;gx,gy,gz)
ft(v;go)
其中x,y和z是输入向量表示,v是fa的输出。
单词-上下文注意力机制通过学习门控单元gx,gy,gz和go来决定应将哪些信息集成到表示向量当中,表述公式如下所示:
V=fa(x,y,z;gx,gy,gz)=x⊙gx+y⊙gy+z⊙gz
其中⊙表示点乘,对于每个输入向量来说,比如,单词-上下文注意力机制学习一个门控单元/>以逐项乘积加权x中的每个特征。然后将他们相加以生成v和其非线性表示/>直观的讲,单词-上下文注意力机制是一种简洁的方法,它将输入矢量和门控的乘法相加。
获取的这些关系中提取语义特征并通过加权的形式来形成最终的文本表示。公式为:
其中表示控制信息流动的门控单元,/>和/>是可训练的权重和偏置。
最终学习的语义向量可以被表达成如下形式:
Ht为语义特征;为了综合每个特征的贡献,设置/>因此,句子R的最终表示形式为R={Rt,t∈(1,m)}。
如表2所示,获取最终的语义表示的过程为:
表2
单词-上下文注意力机制强调全面关系对目标单词的影响。为了综合每个特征的贡献,我们设置因此,句子R的最终表示形式为R={Rt,t∈(1,m)}。
本实施例通过将每个目标词和它的全面上下文相配合,我们发明的方法被设置为在全局层面上提取语义特征,而无需多层网络结构。最后,我们通过attention层将所有表示向量压缩成固定长度的向量。
实施例二
本实施例提供了一种基于单层网络结构学习上下文信息的系统,其具体包括如下模块:
向量表示模块,其用于获取文本信息,并将每个句子分成目标单词、上文和下文这三部分,对目标单词、上文和下文分别进行向量表示;
关系建立模块,其用于基于目标单词、上文和下文向量表示及第一门控结构,建立目标单词及其上下文之间的关系;
文本表示模块,其用于基于第二门控结构从目标单词及其上下文之间的关系中提取语义特征,并通过加权形式来形成最终的文本表示;其中,第一门控结构和第二门控结构均包含单词-上下文注意力机制。
此处需要说明的是,本实施例中的各个模块,与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于单层网络结构学习上下文信息的方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于单层网络结构学习上下文信息的方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于单层网络结构学习上下文信息的方法,其特征在于,包括:
获取文本信息,并将每个句子分成目标单词、上文和下文这三部分,对目标单词、上文和下文分别进行向量表示;
基于目标单词、上文和下文向量表示及第一门控结构,建立目标单词及其上下文之间的关系;
基于第二门控结构从目标单词及其上下文之间的关系中提取语义特征,并通过加权形式来形成最终的文本表示;其中,第一门控结构和第二门控结构均包含单词-上下文注意力机制;
所述目标单词上文的向量计算方法为:使用FOFE算法将目标单词的上文压缩为第一固定长度的向量;
所述目标单词下文的向量计算方法为:使用FOFE算法将目标单词的下文压缩为第二固定长度的向量;
其中,所述对目标单词、上文和下文分别进行向量表示的具体方法为:采取基于FOFE的上下文收集方法将任意数量的上下文词压缩为固定大小的向量表示,公式为:
其中,FOFE(Si,Sj)是句子S从Si到Sj的压缩向量,a是控制历史向量影响的权重;当获取上下文表示信息时,对于句子S中的每一个单词St,通过构造左上下文和右上下文/>的方式来收集完整范围的上下文信息,公式为:
对于边界情况,将第一个词的左上下文和最后一个词的右上下文/>设置为零。
2.如权利要求1所述的基于单层网络结构学习上下文信息的方法,其特征在于,所述语义特征通过attention层将所有语义特征对应的表示向量通过加权形式压缩成固定长度的向量。
3.如权利要求1所述的基于单层网络结构学习上下文信息的方法,其特征在于,通过FCSR算法生成目标单词的向量表示。
4.一种基于单层网络结构学习上下文信息的系统,其特征在于,包括:
向量表示模块,其用于获取文本信息,并将每个句子分成目标单词、上文和下文这三部分,对目标单词、上文和下文分别进行向量表示;
关系建立模块,其用于基于目标单词、上文和下文向量表示及第一门控结构,建立目标单词及其上下文之间的关系;
文本表示模块,其用于基于第二门控结构从目标单词及其上下文之间的关系中提取语义特征,并通过加权形式来形成最终的文本表示;其中,第一门控结构和第二门控结构均包含单词-上下文注意力机制;
所述目标单词上文的向量计算方法为:使用FOFE算法将目标单词的上文压缩为第一固定长度的向量;
所述目标单词下文的向量计算方法为:使用FOFE算法将目标单词的下文压缩为第二固定长度的向量;
其中,所述对目标单词、上文和下文分别进行向量表示的具体方法为:采取基于FOFE的上下文收集方法将任意数量的上下文词压缩为固定大小的向量表示,公式为:
其中,FOFE(Si,Sj)是句子S从Si到Sj的压缩向量,a是控制历史向量影响的权重;当获取上下文表示信息时,对于句子S中的每一个单词St,通过构造左上下文和右上下文/>的方式来收集完整范围的上下文信息,公式为:
对于边界情况,将第一个词的左上下文和最后一个词的右上下文/>设置为零。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一项所述的基于单层网络结构学习上下文信息的方法中的步骤。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-3中任一项所述的基于单层网络结构学习上下文信息的方法中的步骤。
CN202110978023.XA 2021-08-23 2021-08-23 基于单层网络结构学习上下文信息的方法及系统 Active CN113609867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110978023.XA CN113609867B (zh) 2021-08-23 2021-08-23 基于单层网络结构学习上下文信息的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110978023.XA CN113609867B (zh) 2021-08-23 2021-08-23 基于单层网络结构学习上下文信息的方法及系统

Publications (2)

Publication Number Publication Date
CN113609867A CN113609867A (zh) 2021-11-05
CN113609867B true CN113609867B (zh) 2024-02-02

Family

ID=78341871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110978023.XA Active CN113609867B (zh) 2021-08-23 2021-08-23 基于单层网络结构学习上下文信息的方法及系统

Country Status (1)

Country Link
CN (1) CN113609867B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274357A (zh) * 2020-01-19 2020-06-12 深圳中泓在线股份有限公司 新闻舆情识别方法、设备及存储介质
CN111723207A (zh) * 2020-06-19 2020-09-29 苏州思必驰信息科技有限公司 意图识别方法及系统
CN111914085A (zh) * 2020-06-18 2020-11-10 华南理工大学 文本细粒度情感分类方法、系统、装置及存储介质
CN112163429A (zh) * 2020-09-27 2021-01-01 华南理工大学 结合循环网络及bert的句子相关度获取方法、系统及介质
CN113157919A (zh) * 2021-04-07 2021-07-23 山东师范大学 语句文本方面级情感分类方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274357A (zh) * 2020-01-19 2020-06-12 深圳中泓在线股份有限公司 新闻舆情识别方法、设备及存储介质
CN111914085A (zh) * 2020-06-18 2020-11-10 华南理工大学 文本细粒度情感分类方法、系统、装置及存储介质
CN111723207A (zh) * 2020-06-19 2020-09-29 苏州思必驰信息科技有限公司 意图识别方法及系统
CN112163429A (zh) * 2020-09-27 2021-01-01 华南理工大学 结合循环网络及bert的句子相关度获取方法、系统及介质
CN113157919A (zh) * 2021-04-07 2021-07-23 山东师范大学 语句文本方面级情感分类方法及系统

Also Published As

Publication number Publication date
CN113609867A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN110263324B (zh) 文本处理方法、模型训练方法和装置
Liu et al. Bi-real net: Enhancing the performance of 1-bit cnns with improved representational capability and advanced training algorithm
Donahue et al. Long-term recurrent convolutional networks for visual recognition and description
CN107729311B (zh) 一种融合文本语气的中文文本特征提取方法
CN111951805A (zh) 一种文本数据处理方法及装置
CN112183747A (zh) 神经网络训练的方法、神经网络的压缩方法以及相关设备
Xu et al. Unsupervised out-of-domain detection via pre-trained transformers
Yoo et al. Classification scheme of unstructured text document using TF-IDF and naive bayes classifier
CN113282714B (zh) 一种基于区分性词向量表示的事件检测方法
CN113204611A (zh) 建立阅读理解模型的方法、阅读理解方法及对应装置
EP4361843A1 (en) Neural network searching method and related device
CN115512005A (zh) 一种数据处理方法及其装置
Estevez-Velarde et al. AutoML strategy based on grammatical evolution: A case study about knowledge discovery from text
CN107562729B (zh) 基于神经网络和主题强化的党建文本表示方法
CN115146068A (zh) 关系三元组的抽取方法、装置、设备及存储介质
Lazreg et al. Combining a context aware neural network with a denoising autoencoder for measuring string similarities
CN113220865B (zh) 一种文本相似词汇检索方法、系统、介质及电子设备
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN116385946B (zh) 面向视频的目标片段定位方法、系统、存储介质及设备
CN113609867B (zh) 基于单层网络结构学习上下文信息的方法及系统
CN115495578B (zh) 基于最大熵损失的文本预训练模型后门消除方法、系统及介质
CN109117471A (zh) 一种词语相关度的计算方法及终端
CN112507388B (zh) 基于隐私保护的word2vec模型训练方法、装置及系统
Shah et al. Inferring context from pixels for multimodal image classification
CN110555209A (zh) 训练词向量模型的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant