CN111950281B - 一种基于深度学习和上下文语义的需求实体共指检测方法和装置 - Google Patents

一种基于深度学习和上下文语义的需求实体共指检测方法和装置 Download PDF

Info

Publication number
CN111950281B
CN111950281B CN202010632710.1A CN202010632710A CN111950281B CN 111950281 B CN111950281 B CN 111950281B CN 202010632710 A CN202010632710 A CN 202010632710A CN 111950281 B CN111950281 B CN 111950281B
Authority
CN
China
Prior art keywords
entity
context
entities
word
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010632710.1A
Other languages
English (en)
Other versions
CN111950281A (zh
Inventor
王亚文
石琳
王青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Software of CAS
Original Assignee
Institute of Software of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Software of CAS filed Critical Institute of Software of CAS
Priority to CN202010632710.1A priority Critical patent/CN111950281B/zh
Publication of CN111950281A publication Critical patent/CN111950281A/zh
Application granted granted Critical
Publication of CN111950281B publication Critical patent/CN111950281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习和上下文语义的需求实体共指检测方法和装置。本方法为:1)上下文截取:首先定位实体,然后以该实体为中心根据窗口大小截断文本,将该需求文本作为与该实体相关的上下文;2)构建上下文相似度网络:网络由两部分组成,一部分是用于学习上下文表示的微调BERT模型,另一部分是用于学习实体表示的基于Word2Vec的网络;分别将上下文和实体输入BERT模型和Word2Vec网络,将得到的两种向量表示连接起来;最后使用多层感知器和softmax层来推断预测标签,即两个实体是否为共指实体。本发明能够解决自然语言需求中的实体共指问题,有助于在多个不同领域的利益相关者之间对实体达成共识。

Description

一种基于深度学习和上下文语义的需求实体共指检测方法和 装置
技术领域
本发明属于计算机技术领域,涉及需求工程,自然语言处理等技术,尤其是自然语言处理中的共指消解技术,用于解决需求工程中的实体共指问题。同时针对该场景下需要考虑上下文语义和标注数据不足等问题,提出了一种基于深度学习和上下文语义的需求实体共指检测方案,该方案也可用于解决其他类似领域内实体共指问题。
背景技术
大多数软件需求都是用自然语言描述的,可以灵活地适应任意抽象。在进入开发的后期阶段之前,清楚地编写需求而不产生不一致和歧义是一项具有挑战性但必不可少的任务。不一致是评价自然语言需求质量语言方面的有关原则之一,不一致的产生大多是由于需求分析专家和领域专家专业术语的不同或利益相关者之间来自的领域不同。
特别是,利益相关者可以使用不同的语言表达方式来指代自然语言需求中的同一真实世界中的实体,这种现象定义为“实体共指”。更具体地说,图1给出了实体共指的示例,三个需求中具有相对应的实体:需求1中的“行业相关的术语列表”,需求2中的“金融词汇列表”和需求3中的“金融单词列表”。然而,根据它们的上下文,这三个实体指的是同一件事。实体共指可能导致对实体的误解,从而损害需求的可读性和可理解性。
现有解决文本需求不一致或歧义问题的方案大致有:基于模式的方法使用词性(Part-of-Speech)模板或启发式方法。基于学习的方法使用信息检索(InformationRetrieval)技术,例如潜在语义索引(Latent Semantic Indexing)或无监督的聚类算法。基于相似度的方法包括词嵌入(Word Embeddings)和句法方法(例如,Jaccard距离和Levenstein距离)。然而由于以下挑战,这些方法不能直接用于该场景下的实体共指中:
1.多字实体。在文本需求中,实体更多是名词短语,而不是单个词。如图1所示,示例中的所有实体均由多个词组成。根据工业数据的观察,实体的平均长度为3.52。多字实体很难用字级表示法表示。例如,尽管实体1与实体2和实体3指代相同的实体,但是实体1与其他两个实体的表达方式有很大不同,它们仅共享一个相同的词“列表”。如果简单地使用诸如词嵌入技术之类的逐词相似性方法,则将给出错误的实体共指关系,即实体2和实体3是共指的,而实体1是不同的实体。
2.缺少上下文语义。现有的解决方案缺少句子级别的上下文语义信息,而上下文语义可以为解析实体共指提供额外的信息。在大多数情况下,根据上下文推断两个实体是否共指,即共指实体通常具有相似的上下文。例如,图1中的所有三个需求都具有类似的上下文词,例如“用户”,“在线帮助工具”等,它们表示三个实体是相互关联的。因此,如何在实体表示中融合上下文语义也很重要。
3.标注数据不足。需求中的实体共指检测是特定领域的任务,不能像通用共指检测任务那样直接从大型通用语料库或公共知识库中直接受益。此外,在需求中对共指实体进行标注需要领域专业知识和大量的人工工作,从而导致标注数据不足以进行有效地学习。如何使用有限的标注数据并从在大型通用语料库上训练的预训练模型中受益是另一个挑战。
本发明基于词嵌入技术和微调的BERT模型。
嵌入(Embedding,也称为分布式表示)是一种用于学习诸如单词,句子和图像之类的实体的向量表示的技术,使得类似的实体具有彼此接近的向量表示。一种典型的嵌入技术是词嵌入(Word embedding),将单词表示为固定长度的向量,以便相似的单词在向量空间中彼此靠近。词嵌入基于Harris提出的分布假设,可以根据它们向量之间的关系估计距离并识别语义。
词嵌入通常由以下模型实现:连续词袋(CBOW)和Skip-Gram。这些模型建立了一个捕捉一个单词及其上下文单词之间关系的神经网络,单词的向量表示作为网络的参数,使用文本语料库进行训练。另一个词嵌入模型是GloVe,它是一种用于获取词向量表示的无监督学习算法,通过对来自语料库汇总的全局单词-单词共现统计信息进行训练,使得所得表示形式展示了单词向量空间的有趣线性子结构。
从语料库捕获的信息极大地增加了word embedding对非监督和半监督自然语言处理(NLP)任务的价值。例如,目标词和给定上下文的良好表示形式有助于完成各种任务,包括词义消歧(word sense disambiguation),共指解析(coreference resolution)和命名实体识别(named entity recognition,NER)。在此类任务中使用的上下文表示通常只是相邻单词在目标单词周围窗口中的单个嵌入的简单集合,或者是这些嵌入的(有时是加权的)平均值。同样,一个句子(即单词序列)也可以嵌入为向量。句子嵌入的一种简单方法是,将其视为词袋并将其所有单词向量相加。
BERT(Bidirectional Encoder Representations from Transformers)是一种深层的双向Transformer编码器,其目的是屏蔽语言建模(masked language modeling)和下一句预测任务(next-sentence prediction task),在各种NLP任务中证明是有效的。
BERT框架有两个步骤:1)预训练,通过不同的预训练任务对未标记的数据进行模型训练。2)微调,首先使用预先训练的参数初始化BERT模型,然后使用来自下游任务的标记数据微调所有参数。BERT提供了两种模型大小:BERTBASE(L=12,H=768,A=12,总参数=110M)和BERTLARGE(L=24,H=1024,A=16,总参数=340M,其中,层(即,Transformer块)的数量表示为L,隐藏层的大小(hidden size)表示为H,而自我注意头(self-attentionheads)的数量表示为A。
BERT被设计为在一个符号序列(token sequence)中能够明确表示单个句子和一对句子的结构,以处理各种下游任务。对于输出,符号表示被馈送到用于符号级任务的输出层,而[CLS]表示被馈送到用于分类的输出层。预训练的BERT可以轻松接入特定任务的输入和输出,并端到端微调所有参数,这与预训练相比相对成本低得多。
发明内容
针对现有技术存在的技术问题,本发明的目的在于提出了一种基于深度学习和上下文语义的需求实体共指检测方法和装置,以解决自然语言需求中的实体共指问题,从而有助于在多个不同领域的利益相关者之间对实体达成共识。
本发明的技术方案为:
一种基于深度学习和上下文语义的需求实体共指检测方法,其步骤包括:
给定实体及其相关的需求文本,以该实体为中心根据窗口大小对该需求文本进行上下文截取,获得实体及其相关的上下文;
将不同的实体及其相关的上下文输入上下文相似度网络,通过该上下文相似度网络判断输入的实体是否为共指实体。
进一步的,上下文截取的方法为:给定一个实体及其相关的需求文本,首先定位该实体,然后以该实体为中心根据窗口大小截断文本。实体可能出现在一个句子的不同位置(例如,靠近开头,靠近中间和靠近结尾),因此在截取不同位置的实体时采用不同的处理规则。
进一步的,构建上下文相似度网络方法:网络由两部分组成:一部分是用于学习上下文表示的微调BERT模型,另一部分是用于学习实体表示的基于Word2Vec的网络。其输入为上下文和实体对,输出为两个实体是否为共指实体。分别将上下文和实体输入BERT模型和Word2Vec网络,得到两种向量表示,将该两种向量表示连接起来以整合有关整个上下文句子和单个单词的语义信息;最后使用多层感知器和softmax层来推断预测标签,即两个实体是否为共指实体。
进一步的,用于学习上下文表示的微调BERT模型构建方法:使用具有相对较小模型尺寸的BERTBASE模型,该模型具有12层,隐藏层大小为768,具有12个自我注意头(self-attention heads)。将两个上下文串联在一起,并与特殊的开始符号和分隔符符号一起作为序列对输入模型:([CLS]context1[SEP]context2[SEP])。
进一步的,用于学习实体表示的基于Word2Vec的网络构建方法:以实体对(<entity1,entity2>,从两个<context,entity>对重组得到)作为输入,并生成实体向量表示。使用在223M个符号和2129K词汇的1.3G Wikipedia语料库上预先训练好的300维词嵌入。该词嵌入模型使用带有负采样的Skip-Gram模型以及三个特征(单词特征,n-gram特征和字符特征)进行训练得到。对于<entity1,entity2>对中的每个实体,首先对实体进行分词,然后获得每个单词的词嵌入。然后,使用一个实体中所有单词的嵌入平均值来表示该实体的嵌入(表示为te),因此,实体对可以表示为
Figure BDA0002566325960000041
因为词嵌入的维数是300,所以te的维数是300,而pe的维数是600。此后,将pe输入一个完全连接层中以生成实体向量表示(表示为vt)。
进一步的,上述获得的两种表示进行表示融合的方法:上下文相似网络的两个部分的输出:vctx是上下文对的表示,而vt是实体对的表示,需要融合两种表示形式以获得更好的句子级别和单词级别的语义信息。输出是表示两个实体是否共指的标签。首先,将vctx和vt连接起来
Figure BDA0002566325960000042
然后将vf输入到多层感知器(MLP)。
进一步的,MLP具有三层:
1)全连接层,通过wTvf将vctx和vt融合为一个向量,其中w是学习的参数向量,通过训练能够在vctx和vt之间进行权衡。
2)Dropout层,用于通过随机掩盖某些神经元细胞来避免过度拟合。
3)输出层,将向量转换为二维向量[s1,s2],用来表示两个标签共指或不共指。
MLP的输出是相似性度量[s1,s2],分别代表两个类别(共指或不共指)的分数,其中
Figure BDA0002566325960000043
最后,对该二维向量执行softmax,其计算公式为:
Figure BDA0002566325960000044
然后[s1,s2]可以归一化为概率[p,1-p],其中p∈[0,1],p表示共指的概率,1-p为不共指的概率。
基于同一发明构思,本发明还提供一种采用上述方法的基于深度学习和上下文语义的需求实体共指检测装置,其包括:
上下文截取模块,用于给定实体及其相关的需求文本,以该实体为中心根据窗口大小对该需求文本进行上下文截取,获得实体及其相关的上下文;
上下文相似度网络模块,用于将不同的实体及其相关的上下文输入上下文相似度网络,通过该上下文相似度网络判断输入的实体是否为共指实体。
本发明的有益效果如下:
本发明提出了一种基于深度学习和上下文语义的需求实体共指检测方法,能够有效解决自然语言需求中的实体共指问题,有助于在多个不同领域的利益相关者之间对实体达成共识。
本发明提出了一种更好的对需求文本中的实体进行向量表示的方法,该表示方法同时融合了单词级别的语义信息和句子级别的上下文语义信息,能够很好地对由多个单词组成的实体进行向量表示。
本发明使用了大规模预训练模型BERT模型和词嵌入模型,从而避免了标注数据资源不足的问题。
附图说明
图1为需求工程中实体共指示意图。
图2为本发明的整体流程图。其中,[CLS]是开始符号,[SEP]是分隔符符号,Tok1…Tok N表示上下文1,Tok 1…Tok M表示上下文2,E[cls]表示符号[CLS]的向量表示,E1…En表示Tok 1…Tok N的向量表示,E1…Em表示Tok 1…Tok M的向量表示,E[sep]表示符号[SEP]的向量表示。
图3展示了在10折交叉验证中分别在本发明方法和基线上的实体共指检测方法的性能。
图4展示了本发明方法和其他基准方法在21个项目上的精度((a)图)和召回率((b)图)。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
图2为本发明的整体流程图。给定以自然语言编写的一组需求文本及其相关实体,首先截断它们的相应上下文。然后,建立一个基于语境的相似度分类网络,以预测一对实体在语义上是否等效。网络主要由两部分组成:一是用于对上下文进行编码的深度微调BERT模型,另一个是用于对实体进行编码的基于词向量(Word2Vec)网络。两部分的输出分别是上下文和实体的表示,然后将它们馈送到多层感知器(MLP)中进行相似性分类。最后,根据softmax层产生的概率来推断预测类。
1.上下文截取
上下文是指围绕某个实体的窗口中的相邻单词。此步骤将截断以实体为中心的一个窗口大小内的需求文本,作为与该实体相关的上下文。给定一个实体及其相关的需求文本,首先定位该实体,然后以该实体为中心根据窗口大小截断文本。实体可能出现在一个句子的不同位置(例如,靠近开头,靠近中间和靠近结尾)。因此,根据以下规则处理不同的情况。假设窗口大小为M,实体的长度表示为N,实体之前的文本序列的长度表示为lpre,实体之后的文本序列的长度表示为lsub
(1)如果
Figure BDA0002566325960000061
并且
Figure BDA0002566325960000062
实体之前和之后的文本序列都被长度
Figure BDA0002566325960000063
截断。
(2)如果
Figure BDA0002566325960000064
并且
Figure BDA0002566325960000065
实体之前的文本序列将被长度min(lpre,M-N-lsub)截断,并保留实体之后的所有单词,其中min(·)为取最小值。
(3)如果
Figure BDA0002566325960000066
实体之前的文本序列被长度lpre截断,实体之后的所有的词都保留。
最终截取的上下文是被截断的先前序列(表示为pre),实体本身(entity)和被截断的后续序列(表示为sub)的串联:
Figure BDA0002566325960000067
最后,使用特殊符号[PAD]填充至窗口大小的长度。通过上下文截断,获得了实体及其相关的上下文(<context,entity>)。
2.构建上下文相似度网络
上下文相似度网络使用两对(<context1,entity1>和<context2,entity2>)作为输入,并预测这两对是否是共指的。网络由两部分组成:一种是用于学习上下文表示的微调BERT模型,另一种是用于学习实体表示的基于Word2Vec的网络。将两种表示形式连接起来,以更好地整合有关整个上下文句子和单个单词的语义信息。最后,使用MLP和softmax层来推断预测标签。
(1)微调BERT上下文模型
强大的上下文表示形式有助于衡量上下文的相似性。在许多NLP任务中(例如,实体消歧和实体共指解析),上下文表示通常是上下文单词的单个嵌入的集合(例如,这些嵌入的加权平均值)。这样的方法不包括任何用于优化整个上下文句子整体表示的机制。为了获得良好的上下文表示,使用BERT,它是一个基于微调的双向预训练表示模型。它以一个句子对(<context1,context2>,从两个<context,entity>对重组得到)作为输入,并生成上下文向量表示。由于计算资源有限,使用具有相对较小模型尺寸的BERTBASE模型,该模型具有12层,隐藏层大小为768,具有12个自我注意头(self-attention heads)。在BERT中,输入可以是一对句子,每个句子由128个单词符号表示。将两个上下文串联在一起,并与特殊的开始符号和分隔符符号一起作为序列对输入模型:([CLS]context1[SEP]context2[SEP])。Transformer编码器生成输入对的上下文向量表示(表示为vctx),它是最后一个隐藏层对特殊符号[CLS]的输出。
(2)基于Word2Vec的实体网络
为了捕获实体的单词级信息,还构建了一个基于Word2Vec的网络,以使用词嵌入来学习实体表示。它以实体对(<entity1,entity2>,从两个<context,entity>对重组得到)作为输入,并生成实体向量表示。使用在223M个符号和2129K词汇的1.3G Wikipedia语料库上预先训练好的300维词嵌入。该词嵌入模型使用带有负采样的Skip-Gram模型以及三个特征(单词特征,n-gram特征和字符特征)进行训练得到。对于<entity1,entity2>对中的每个实体,首先对实体进行分词,然后获得每个单词的词嵌入。然后,使用一个实体中所有单词的嵌入平均值来表示该实体的嵌入(表示为te),因此,实体对可以表示为
Figure BDA0002566325960000071
因为词嵌入的维数是300,所以te的维数是300,而pe的维数是600。此后,将pe输入一个完全连接层中以生成实体向量表示(表示为vt)。
(3)表示融合
上下文相似网络的两个部分的输出:vctx是上下文对的表示,而vt是实体对的表示,需要融合两种表示形式以获得更好的句子级别和单词级别的语义信息。输出是表示两个实体是否共指的标签。首先,将vctx和vt连接起来
Figure BDA0002566325960000072
然后将vf输入到多层感知器(MLP)。MLP具有三层:
·全连接层,通过wTvf将vctx和vt融合为一个向量,其中w是学习的参数向量,通过训练能够在vctx和vt之间进行权衡。
·Dropout层,用于通过随机掩盖某些神经元细胞来避免过度拟合。
·输出层,将向量转换为二维向量[s1,s2],用来表示两个标签共指或不共指。
MLP的输出是相似性度量[s1,s2],分别代表两个类别的分数,其中
Figure BDA0002566325960000073
最后,对该二维向量执行softmax,其计算公式为:
Figure BDA0002566325960000081
然后[s1,s2]可以归一化为概率[p,1-p],其中p∈[0,1]。
本发明方法与三种传统方法进行了对比实验,三种传统方法分别为:
词向量(Word2Vec):单词嵌入在单词级别提供了良好的语义表示。但是,在本发明的应用场景中,实体不仅仅是单个单词,而是几个单词。我们使用词嵌入的平均值表示一个实体,然后计算相似度得分用于共指检测。
潜在语义索引(Latent Semantic Indexing,LSI):这是一种基于IR的语义语句级方法,用于将一组文档表示为公共向量空间中的向量。我们建立了一个LSI模型来证明其上下文表示的能力。
编辑距离(Levenstein):这是一种句法相似性度量方法,它通过查找最佳编辑操作的顺序以将一个实体转换为另一个实体,来计算给定实体对相似度的分数。
图3展示了在10折交叉验证中分别在本方法(DEEPCOREF)和基线上的实体共指检测方法的性能。DEEPCOREF平均可以达到96.10%的精度和96.06%的召回率,这远高于其他基准方法。Word2Vec的精度和召回率分别为84.57%和84.21%,LSI为84.12%和84.01%,Levenstein为84.65%和83.46%。此外与基线方法相比,DEEPCOREF盒图的长度相对较短,这进一步表明了性能的稳定性。
图4显示了21个项目上的精度((a)图)和召回率((b)图)。在所有项目中,本方法DEEPCOREF的精度和召回率都比其他基准方法更为稳定以及更高。文本表达风格在不同的项目中是不同的,因此Word2Vec和Levenstein的结果表明,不同项目的性能存在很大差异。这两种方法缺少上下文的句子级信息,因此仅使用实体信息就无法捕获跨项目的上下文语义差异。LSI尽管可以捕获句子上下文语义,但在几个项目中的波动很大。这主要是因为LSI是基于当前训练数据的统计信息构建的,其表示能力不如在大型语料库上预先训练并使用训练数据进行微调的模型。相比之下,DEEPCOREF结果更为稳定,上下文语义的加入获得了更强大的实体向量表示,从而更适合于不同的表达风格。
基于同一发明构思,本发明的另一个实施例提供一种采用本发明方法的基于深度学习和上下文语义的需求实体共指检测装置,其包括:
上下文截取模块,用于给定实体及其相关的需求文本,以该实体为中心根据窗口大小对该需求文本进行上下文截取,获得实体及其相关的上下文;
上下文相似度网络模块,用于将不同的实体及其相关的上下文输入上下文相似度网络,通过该上下文相似度网络判断输入的实体是否为共指实体。
基于同一发明构思,本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
本发明的其它实施方式:
1)本发明的上述实施例是在短文本上评估的,短文本中上下文可以包含足够的语义信息。当应用于长文本时,某些被窗口截断的上下文可能缺少有用的信息,因为这些信息与实体具体太远。调整窗口大小可能会缓解该问题。
2)本发明的上述实施例的数据来自金融领域。当应用于其他领域时,应该标注大约1000个样本,以便对整个模型进行微调以解决领域适应问题。
3)本发明数据中的实体是现成的。在没有实体的情况下应用本发明,首先需要使用成熟的NLP技术提取实体。但是这些工具带来的错误不可避免地需要手动纠正。
4)当本发明应用于其他语言时,需要在相应语言的语料库上对BERT和单词嵌入进行预训练。
以上公开的本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容,本发明的保护范围以权利要求书界定的范围为准。

Claims (9)

1.一种基于深度学习和上下文语义的需求实体共指检测方法,其步骤包括:
给定实体及其相关的需求文本,以该实体为中心根据窗口大小对该需求文本进行上下文截取,获得实体及其相关的上下文;
将不同的实体及其相关的上下文输入上下文相似度网络,通过该上下文相似度网络判断输入的实体是否为共指实体;
所述上下文相似度网络的输入为上下文和实体对,输出为两个实体是否为共指实体;所述上下文相似度网络由两部分组成:一部分是用于学习上下文表示的微调BERT模型,另一部分是用于学习实体表示的基于Word2Vec的网络;分别将上下文和实体输入微调BERT模型和Word2Vec网络,得到两种向量表示,将该两种向量表示连接起来以整合有关整个上下文句子和单个单词的语义信息;最后使用多层感知器和softmax层来推断预测标签,即两个实体是否为共指实体。
2.如权利要求1所述的方法,其特征在于,假设窗口大小为M,实体的长度表示为N,实体之前的文本序列的长度表示为lpre,实体之后的文本序列的长度表示为lsub,则根据以下规则进行所述上下文截取:
1)如果
Figure FDA0004041504310000011
并且
Figure FDA0004041504310000012
实体之前和之后的文本序列都被长度
Figure FDA0004041504310000013
截断;
2)如果
Figure FDA0004041504310000014
并且
Figure FDA0004041504310000015
实体之前的文本序列被长度min(lpre,M-N-lsub)截断,并保留实体之后的所有单词,其中min(·)为取最小值;
3)如果
Figure FDA0004041504310000016
实体之前的文本序列被长度lpre截断,实体之后的所有的词都保留;最终截取的上下文是被截断的先前序列pre,实体entity和被截断的后续序列sub的串联:
Figure FDA0004041504310000017
最后,使用特殊符号[PAD]填充至窗口大小的长度;通过上下文截断,获得实体及其相关的上下文<context,entity>。
3.如权利要求1所述的方法,其特征在于,所述微调BERT模型是一个基于微调的双向预训练表示模型,其以一个句子对<context1,context2>作为输入,并生成上下文向量表示,其中<context1,context2>从两个<context,entity>对重组得到。
4.如权利要求3所述的方法,其特征在于,所述微调BERT模型为BERTBASE模型,该模型具有12层,隐藏层大小为768,具有12个自我注意头;微调BERT模型的输入是一对句子,每个句子由128个单词符号表示,将两个上下文串联在一起,并与特殊的开始符号和分隔符符号一起作为序列对输入微调BERT模型;微调BERT模型中的Transformer编码器生成输入对的上下文向量表示,其是最后一个隐藏层对特殊符号[CLS]的输出。
5.如权利要求1所述的方法,其特征在于,所述基于Word2Vec的网络以实体对<entity1,entity2>作为输入,并生成实体向量表示,其中<entity1,entity2>从两个<context,entity>对重组得到;所述基于Word2Vec的网络的词嵌入模型使用带有负采样的Skip-Gram模型以及三个特征即单词特征,n-gram特征和字符特征进行训练得到;对于<entity1,entity2>对中的每个实体,首先对实体进行分词,然后获得每个单词的词嵌入,然后使用一个实体中所有单词的嵌入平均值来表示该实体的嵌入,然后将两个实体的嵌入进行连接,并输入一个完全连接层中以生成实体向量表示。
6.如权利要求1所述的方法,其特征在于,将所述上下文相似度网络的两个部分的输出即上下文对的表示vctx和实体对的表示vt进行融合,以获得更好的句子级别和单词级别的语义信息,输出是表示两个实体是否共指的标签;所述融合首先将vctx和vt连接起来即得到
Figure FDA0004041504310000021
然后将vf输入到多层感知器MLP;所述MLP具有三层:
全连接层,通过wTvf将vctx和vt融合为一个向量,其中w是学习的参数向量,通过训练能够在vctx和vt之间进行权衡;
Dropout层,用于通过随机掩盖神经元细胞来避免过度拟合;
输出层,将向量转换为二维向量[s1,s2],用来表示两个标签共指或不共指;
所述MLP的输出是相似性度量[s1,s2],分别代表两个类别的分数,其中
Figure FDA0004041504310000022
si为s1或s2,最后对该二维向量执行softmax,其计算公式为:
Figure FDA0004041504310000023
然后将[s1,s2]归一化为概率[p,1-p],其中p∈[0,1],p表示共指的概率,1-p为不共指的概率。
7.一种采用权利要求1~6中任一权利要求所述方法的基于深度学习和上下文语义的需求实体共指检测装置,其特征在于,包括:
上下文截取模块,用于给定实体及其相关的需求文本,以该实体为中心根据窗口大小对该需求文本进行上下文截取,获得实体及其相关的上下文;
上下文相似度网络模块,用于将不同的实体及其相关的上下文输入上下文相似度网络,通过该上下文相似度网络判断输入的实体是否为共指实体。
8.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~6中任一权利要求所述方法的指令。
9.一种计算机可读存储介质,其特征在于,存储一计算机程序,所述计算机程序包括用于执行权利要求1至6中任一权利要求所述方法的指令。
CN202010632710.1A 2020-07-02 2020-07-02 一种基于深度学习和上下文语义的需求实体共指检测方法和装置 Active CN111950281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010632710.1A CN111950281B (zh) 2020-07-02 2020-07-02 一种基于深度学习和上下文语义的需求实体共指检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010632710.1A CN111950281B (zh) 2020-07-02 2020-07-02 一种基于深度学习和上下文语义的需求实体共指检测方法和装置

Publications (2)

Publication Number Publication Date
CN111950281A CN111950281A (zh) 2020-11-17
CN111950281B true CN111950281B (zh) 2023-03-21

Family

ID=73337438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010632710.1A Active CN111950281B (zh) 2020-07-02 2020-07-02 一种基于深度学习和上下文语义的需求实体共指检测方法和装置

Country Status (1)

Country Link
CN (1) CN111950281B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883153B (zh) * 2021-01-28 2023-06-23 北京联合大学 基于信息增强bert的关系分类方法及装置
CN113961669A (zh) * 2021-10-26 2022-01-21 杭州中软安人网络通信股份有限公司 一种预训练语言模型的训练方法、存储介质及服务器

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457950B1 (en) * 2012-11-01 2013-06-04 Digital Reasoning Systems, Inc. System and method for coreference resolution
CN107515851B (zh) * 2016-06-16 2021-09-10 佳能株式会社 用于共指消解、信息提取以及相似文档检索的装置和方法
CN109213995B (zh) * 2018-08-02 2022-11-18 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
US11023681B2 (en) * 2018-09-19 2021-06-01 International Business Machines Corporation Co-reference resolution and entity linking
CN110362682A (zh) * 2019-06-21 2019-10-22 厦门美域中央信息科技有限公司 一种基于统计机器学习算法的实体共指消解方法

Also Published As

Publication number Publication date
CN111950281A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
Niu et al. Multi-modal multi-scale deep learning for large-scale image annotation
Shen et al. Attention-based convolutional neural network for semantic relation extraction
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN108628828B (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
Qiu et al. Adversarial attack and defense technologies in natural language processing: A survey
CN111611810B (zh) 一种多音字读音消歧装置及方法
Jin et al. A novel lexicalized HMM-based learning framework for web opinion mining
Irsoy et al. Bidirectional recursive neural networks for token-level labeling with structure
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
Xian et al. Self-guiding multimodal LSTM—when we do not have a perfect training dataset for image captioning
CN111950281B (zh) 一种基于深度学习和上下文语义的需求实体共指检测方法和装置
CN112287100A (zh) 文本识别方法、拼写纠错方法及语音识别方法
Augustyniak et al. Aspect detection using word and char embeddings with (Bi) LSTM and CRF
CN114881042A (zh) 基于图卷积网络融合句法依存与词性的中文情感分析方法
Gao et al. Generating natural adversarial examples with universal perturbations for text classification
Liu et al. Original semantics-oriented attention and deep fusion network for sentence matching
Singh et al. DeepSpacy-NER: an efficient deep learning model for named entity recognition for Punjabi language
Belay et al. Impacts of homophone normalization on semantic models for amharic
Saifullah et al. Cyberbullying Text Identification based on Deep Learning and Transformer-based Language Models
Ananth et al. Grammatical tagging for the Kannada text documents using hybrid bidirectional long-short term memory model
Khoufi et al. Chunking Arabic texts using conditional random fields
CN114417891A (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
Buoy et al. Joint Khmer word segmentation and part-of-speech tagging using deep learning
Munandar et al. POS-tagging for non-english tweets: An automatic approach:(Study in Bahasa Indonesia)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant