CN112163429B - 结合循环网络及bert的句子相关度获取方法、系统及介质 - Google Patents

结合循环网络及bert的句子相关度获取方法、系统及介质 Download PDF

Info

Publication number
CN112163429B
CN112163429B CN202011031042.3A CN202011031042A CN112163429B CN 112163429 B CN112163429 B CN 112163429B CN 202011031042 A CN202011031042 A CN 202011031042A CN 112163429 B CN112163429 B CN 112163429B
Authority
CN
China
Prior art keywords
sentence
sentences
word vector
bert
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011031042.3A
Other languages
English (en)
Other versions
CN112163429A (zh
Inventor
苏锦钿
潘雪苗
毛冠文
洪晓斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202011031042.3A priority Critical patent/CN112163429B/zh
Publication of CN112163429A publication Critical patent/CN112163429A/zh
Application granted granted Critical
Publication of CN112163429B publication Critical patent/CN112163429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种结合循环网络及BERT的句子相关度获取方法、系统及介质,其中方法包括:对待识别的两个句子进行分词,将句子合并成一个句子对,合并各个单词的位置词向量、单词词向量信息及分段信息作为BERT层的输入;通过BERT层学习句子及句子之间的上下文信息和关系,输出词向量语义序列和全局特征表示;对词向量语义序列进行学习,获得包含目标文本的局部特征表示;利用串联对句子的全局特征表示和局部特征表示进行合并,获得最终语义表示,根据最终语义表示对句子的相关度进行判断,并输出判断结果。本发明利用BERT学习句子间的上下文信息后,提取句子的局部信息,提高了句子相关度判别的精准度,可广泛应用于自然语言处理领域。

Description

结合循环网络及BERT的句子相关度获取方法、系统及介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种结合循环网络及BERT的句子相关度获取方法、系统及介质。
背景技术
句子语义相关度的研究是自然语言处理领域中的一个重要子任务,其主要目的是通过机器学习的方式识别两个句子之间的语义相关程度。在句子相关度方面,目前基于深度学习的工作主要可分为两大方面:一类是通过修改网络模型结构,使模型可以更好地拟合句子语义相关度问题;另一类是学习到一个通用或者唯一的句子编码表示,通过余弦相似度或者全连接层进一步预测语义相似度。第一类方法往往会对某类数据集有较好的效果,但是效果存在瓶颈且无法通用到其他的学习任务中。另一类方法对于预测不同的学习任务很方便,效果一般也不错,但是需要先在大规模语料上训练,同时一个通用的句子表示可能会忽略一个句子的语序或者词汇的小变动,使得对于句子真正的表达含义理解不到位。
早期很多研究人员采用了各种基于特征的表示方式,特别是采用各种经典的神经网络模型,如卷积神经网络CNN、长短期记忆网络LSTM、门控循环单元GRU等。近两年来,预训练语言模型及针对任务进行微调的两阶段模型在多个自然语言处理任务上取得了新的最好结果。特别是生成式预训练GPT和双向预训练语言模型BERT等工作证明了利用大规模无标注文本语料学习通用语言表示,并根据具体任务进行微调的方式是可行的。现有的研究和应用已证明BERT适合用于学习句子中语言单元间的依赖关系,而且BERT中的NSP(NextSentence Prediction)目标可以促使模型同时学习两个句子之间的相邻关系。但目前的研究没有充分地结合卷积神经网络和循环神经网络的优势,也没有考虑句子的局部特征对句子相关度的影响。
术语解释:
BERT:英文全称为:Bidirectional Encoding Representation fromTransformers,中文为基于Transformers的双向编码表示。
SentencePiece:是BERT模型中用于切分句子及单词的一个工具名称。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种结合循环网络及BERT的句子相关度获取方法、系统及介质,利用BERT学习句子对的上下文信息及其关系,接着综合考虑卷积神经网络和循环神经网络的优势,提出基于时间步的卷积运算,在经典的线性变换卷积运算中添加基于时间步的循环计算,从而更好地学习句子的局部特征信息,然后再合并句子对的全局信息及局部信息并得到最终的语义特征表示,最后将结果通过一个全连接网络和一个sigmoid网络进行相关度计算及输出。
本发明所采用的技术方案是:
一种结合循环网络及BERT的句子相关度获取方法,包括以下步骤:
对待识别的两个句子进行预处理,采用SentencePiece对所述句子进行分词,利用特殊标志将所述句子合并成一个句子对,以及将分词后的各个单词转成词汇表中的序号信息,合并各个所述单词的位置词向量、单词词向量信息及分段信息作为BERT层的输入;
通过BERT层学习句子及句子之间的上下文信息和关系,输出词向量语义序列和全局特征表示;
采用卷积循环神经网络对BERT层输出的所述词向量语义序列进行学习,经过基于时间步的卷积运算和循环运算,获得包含目标文本的局部特征表示;
利用串联对所述句子的所述全局特征表示和所述局部特征表示进行合并,获得最终语义表示,根据所述最终语义表示,采用一个全连接网络和一个sigmoid网络对所述句子的相关度进行判断,并输出判断结果。
进一步,所述对待识别的两个句子进行预处理,包括:
对待识别的两个句子进行大小写识别以及编码转换。
进一步,所述特殊标志包括[CLS]和[SEP],所述通过BERT层学习句子及句子之间的上下文信息和关系,输出词向量语义序列和全局特征表示,包括:
采用BERT学习两个所述句子的上下文信息以及两个所述句子之间的关系,输出各个单词的序列词向量信息作为词向量语义序列;
将CLS单元所对应的词向量作为句子对的全局特征语义表示。
进一步,在将所述词向量语义序列输入卷积循环神经网络前,包括以下步骤:
去除所述词向量语义序列中[CLS]所对应的词向量和[SEP]所对应的词向量。
进一步,所述采用卷积循环神经网络对BERT层输出的所述词向量语义序列进行学习,经过基于时间步的卷积运算和循环运算,获得包含目标文本的局部特征表示,包括:
采用一个卷积层对BERT层输出的所述词向量语义序列进行局部n-gram特征提取;
利用双向GRU分别学习各个词所对应的所述n-gram特征,通过最大值池化获得包含目标文本的局部特征表示。
进一步,所述利用串联对所述句子的所述全局特征表示和所述局部特征表示进行合并,获得最终语义表示,包括:
利用串联将[CLS]标志所对应的词向量与包含句子局部特征信息的词向量进行合并,获得包含所述句子的上下文信息、句子对之间关系及句子局部特征信息的词向量,作为两个所述句子的最终语义表示。
进一步,所述句子相关度获取方法通过一个多层神经网络来完成,所述多层神经网络包括输入层、BERT层、卷积循环神经网络层以及输出层。
本发明所采用的另一技术方案是:
一种结合循环网络及BERT的句子相关度获取系统,包括:
输入层,用于对待识别的两个句子进行预处理,采用SentencePiece对所述句子进行分词,利用特殊标志将所述句子合并成一个句子对,以及将分词后的各个单词转成词汇表中的序号信息,合并各个所述单词的位置词向量、单词词向量信息及分段信息作为BERT层的输入;
BERT层,用于通过BERT层学习句子及句子之间的上下文信息和关系,输出词向量语义序列和全局特征表示;
卷积循环神经网络层,用于采用卷积循环神经网络对BERT层输出的所述词向量语义序列进行学习,经过基于时间步的卷积运算和循环运算,获得包含目标文本的局部特征表示;
输出层,用于利用串联对所述句子的所述全局特征表示和所述局部特征表示进行合并,获得最终语义表示,根据所述最终语义表示,采用一个全连接网络和一个sigmoid网络对所述句子的相关度进行判断,并输出判断结果。
本发明所采用的另一技术方案是:
一种结合循环网络及BERT的句子相关度获取系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明通过结合基于预训练语言模型BERT在学习大规模文本的语义知识方面的优势以及卷积循环神经网络在学习句子的局部信息方面的优势,利用BERT及其多层Transformer编码器学习两个句子间的上下文信息及其关系后,再通过循环卷积神经网络进一步提取句子的局部信息,对全局特征表示和局部特征进行串联合并后再判别相似度,提高句子相关度判别的精准度。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本方明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中多层神经网络模型的总体架构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
如图1所示,本实施例提供一种结合循环网络及BERT的句子相关度获取系统,该系统包括一个四层神经网络,四层神经网络分别包括:第一层的输入层、第二层的BERT层、第三层卷积循环神经网络层以及第四层的输出层;
输入层,用于对待识别的两个句子进行预处理,结合SentencePiece分别对两个句子进行分词,接着利用[CLS]和[SEP]等特殊标志将句子合并成一个句子对,同时将分词后的各个单词转成词汇表中的序号信息,并合并各个单词的位置词向量、单词词向量信息及分段信息作为BERT层的输入;
BERT层,用于对于输入的两个句子,分别通过BERT学习句子及句子之间的上下文信息和关系,从而得到了词向量语义序列输出;
卷积循环神经网络层,用于先使用一个卷积层对BERT层的输出序列(去除[CLS]和最后[SEP]所对应的词向量)词向量提取局部n-gram信息,接着利用双向GRU分别学习各个词所对应的n-gram特征,最后通过最大值池化得到包含句子局部特征信息的词向量;
输出层,用于利用串联将[CLS]标志所对应的词向量与包含句子局部特征信息的词向量进行合并,从而得到了包含句子上下文信息、句子对之间关系及句子局部特征信息的词向量,并作为两个句子的最终语义表示。最后,通过一个全连接网络及一个sigmoid网络得到最终的句子相关度结果,并通过均方误差(Mean Squared Error)。
其中,第二层BERT层用于学习两个句子的上下文信息以及与它们之间的关系,一方面输出各个单词的序列词向量信息,另一方面将CLS单元所对应的词向量作为句子对的全局特征语义表示,所述第三层卷积循环网络结合卷积神经网络和循环神经网络的优势学习两个句子的局部特征,并且通过最大值池化得到相应的局部特征表示。
本实施例的系统通过充分结合预训练语言模型BERT在学习句子对的上下文信息及其关系方面的优势以及卷积神经网络和循环神经网络的优势,提出一种结合卷积循环网络及BERT的句子相关度判别方法,首先对两个句子进行预处理,构造相应的句子对并作为BERT的输入;然后,利用BERT学习句子对的上下文信息及其关系,得到目标文本的全局特征表示及各个单词的序列词向量信息;接着,再通过卷积神经网络中的卷积层抽取每一个单词的上下文n-gram信息,然后利用循环神经网络GRU计算各个单词的上下文特征表示,最后利用最大值池化得到相应的句子局部特征表示,形成固定维度的输出;最后通过串联合并策略得到包含全局上下文信息及局部特征信息的特征语义表示,然后利用一个全连接网络和一个sigmoid进行分类输出。可以进一步提高句子相关度判别模型的皮尔逊相关系数(Pearson correlation coefficient)和斯皮尔曼相关系数(Spearson correlationcoefficient),并具有较好的通用性。且在测试的SICK和STS等语料库上都取得了优于经典BERT及之前各相关方法的效果。
本实施例还提供了一种结合卷积循环网络及BERT的句子相关度判别方法,所述方法包括以下步骤:
步骤1、对待识别的两个句子进行预处理,结合SentencePiece分别对两个句子进行分词,接着利用[CLS]和[SEP]等特殊标志将句子合并成一个句子对,同时将分词后的各个单词转成词汇表中的序号信息,并合并各个单词的位置词向量、单词词向量信息及分段信息作为BERT层的输入。
其中,对句子进行预处理,包括分词、大小写识别、编码转换等。[CLS]是在构造BERT输入的时候用于作为句子的开头标志,而[SEP]是用于划分两个句子及作为结束的表示。例如:对于两个句子“我喜欢广州.”和“广州是广东的省会.”,那构造完就是“[CLS]我喜欢广州.[SEP]广州是广东的省会.[SEP]”。BERT所得到的最后一层的[CLS]标志所对应的词向量一般可以当成整个句子的语义表示。
步骤2、对于输入的两个句子,分别通过BERT学习句子及句子之间的上下文信息和关系,从而得到了词向量语义序列输出。
上下文信息即为整个句子的含义。例如,一个句子可能包含两个部分,前后的意思是相反的。因此要学习完整个句子才知道相应的含义。上下文信息的意思就是整个句子的整体含义。句子及句子的关系指两个句子之间的关系,例如两个句子是否相邻?在BERT模型中可以通过相邻句子关系训练目标去学习两个句子之间是否存在一定的关系,例如在同一段文本中出现。
步骤3、使用一个卷积循环神经网络对BERT层中输出的句子序列的词向量进行学习,通过综合利用卷积神经网络和循环神经网络的优势,提出基于时间步的卷积运算和循环运算,最终得到包含目标文本的局部特征表示。
基于时间步为循环神经网络中一个常用的概念。例如,一个句子包含若干个单词,那在学习句子的含义是从左到右或从右到左一个个单词输入,并结合该单词的前文或后文信息进行理解其含义。那么每一步实际上就是输入一个单词,这就称为叫时间步。例如,“我爱中国”可以看成“我”、“爱”和“中国”三个单词构成,那第一个时间步就是输入“我”,第二个时间步就是“爱”,第二个时间步就是“中国”。在本实施例的方法中,由于利用卷积网络先提取了每一个单词的前后若干中单词的信息,因此每一个时间步就是以该单词及其前后的若干个单词作为输入,结合循环神经网络学习该单词在一定范围内的上下文含义(本实施例取前后各2个单词,即4个单词作为其上下文,而不是整个句子)。
步骤4、利用串联对句子的全局特征表示和局部特征表示进行合并,得到最终语义表示,并通过一个全连接网络和一个sigmoid网络对句子的相关度进行判别和输出。输出结果为区间[0,1]的某个值,表示两个句子之间的相关度,其值越大表示越相关,其值越小表示越不相关。其中,上述的串联就是两个向量之间的串联合并;例如向量[1,2,3]和[4,5,6]合并后就是[1,2,3,4,5,6]。
本实施例的方法在一个多层神经网络中完成的,多层神经网络的架构图如图1所示,所述步骤1在第一层输入层中完成;步骤2在第二层BERT层中完成,其中,BERT中各单元词向量的输出维度为768或1024维,并取BERT的最后一层中[CLS]标志所对应的词向量作为句子对的全局特征语义表示;步骤3在第三层卷积循环网络层中完成,其中,卷积层的卷积核为4,并采用valid的卷积方式;循环网络采用双向GRU或LSTM,其激活函数为relu,输出维度为300或384;步骤4在第四层输出层中完成,对于合并策略主要采用串联,最后通过一个神经网络数量为200的全连接网络和神经元为1的sigmoid网络进行相关度计算。模型训练过程中采用均方差作为损失函数,并结合了Adam优化器,其学习率统一为2e-05。为避免过拟合,采用基于Dropout的正则化策略,值统一设置为0.5。
其中,所述第二层BERT层用于学习两个句子的上下文信息及其关系,所述第三层卷积循环网络层通过综合利用卷积神经网络和循环神经网络更好地学习句子的局部特征,并得到相应的词向量表示。所述第四层通过串联合并句子的全局特征和局部特征,得到最终语义表示,并通过全连接网络和sigmoid网络进行相关度计算和输出。
其中,所述步骤1为输入预处理及构造过程,先对句子进行分词、大小写识别和长度补齐或截断等相关操作,并最终构成句子对,然后通过SentencePiece进行分词及编码转换后作为BERT的输入;所述步骤2利用BERT学习句子的上下文信息及其关系后,得到句子的全局特征表示及各个单词的序列词向量信息;所述步骤3通过卷积循环网络进一步学习提取句子的局部特征,形成固定维度的输出;所述步骤4通过串联得到包含全局上下文信息及局部特征信息的最终语义表示,然后利用一个全连接网络和一个sigmoid网络进行相关度计算和输出。
本实施例的方法通过充分结合预训练语言模型BERT在学习句子对的上下文信息及其关系方面的优势以及卷积神经网络和循环神经网络的优势,提出一种结合卷积循环网络及BERT的句子相关度判别方法,首先对两个句子进行预处理,构造相应的句子对并作为BERT的输入;然后,利用BERT学习句子对的上下文信息及其关系,得到目标文本的全局特征表示及各个单词的序列词向量信息;接着,再通过卷积神经网络中的卷积层抽取每一个单词的上下文n-gram信息,然后利用循环神经网络GRU计算各个单词的上下文特征表示,最后利用最大值池化得到相应的句子局部特征表示,形成固定维度的输出;最后通过串联合并策略得到包含全局上下文信息及局部特征信息的特征语义表示,然后利用一个全连接网络和一个sigmoid进行分类输出。可以进一步提高句子相关度判别模型的皮尔逊相关系数(Pearson correlation coefficient)和斯皮尔曼相关系数(Spearson correlationcoefficient),并具有较好的通用性。且在测试的SICK和STS等语料库上都取得了优于经典BERT及之前各相关方法的效果。
本实施例还提供了一种结合循环网络及BERT的句子相关度获取系统,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本实施例的一种结合循环网络及BERT的句子相关度获取系统,可执行本发明方法实施例所提供的一种结合循环网络及BERT的句子相关度获取方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本实施例还提供了一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种结合循环网络及BERT的句子相关度获取方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (6)

1.一种结合循环网络及BERT的句子相关度获取方法,其特征在于,包括以下步骤:
对待识别的两个句子进行预处理,采用SentencePiece对所述句子进行分词,利用特殊标志将所述句子合并成一个句子对,以及将分词后的各个单词转成词汇表中的序号信息,合并各个所述单词的位置词向量、单词词向量信息及分段信息作为BERT层的输入;
通过BERT层学习句子及句子之间的上下文信息和关系,输出词向量语义序列和全局特征表示;
采用卷积循环神经网络对BERT层输出的所述词向量语义序列进行学习,经过基于时间步的卷积运算和循环运算,获得包含目标文本的局部特征表示;利用串联对所述句子的所述全局特征表示和所述局部特征表示进行合并,获得最终语义表示,根据所述最终语义表示,采用一个全连接网络和一个sigmoid网络对所述句子的相关度进行判断,并输出判断结果;
所述特殊标志包括[CLS]和[SEP],所述通过BERT层学习句子及句子之间的上下文信息和关系,输出词向量语义序列和全局特征表示,包括:
采用BERT学习两个所述句子的上下文信息以及两个所述句子之间的关系,输出各个单词的序列词向量信息作为词向量语义序列;
将CLS单元所对应的词向量作为句子对的全局特征语义表示;
在将所述词向量语义序列输入卷积循环神经网络前,包括以下步骤:
去除所述词向量语义序列中[CLS]所对应的词向量和[SEP]所对应的词向量;所述采用卷积循环神经网络对BERT层输出的所述词向量语义序列进行学习,经过基于时间步的卷积运算和循环运算,获得包含目标文本的局部特征表示,包括:
采用一个卷积层对BERT层输出的所述词向量语义序列进行局部n-gram特征提取;
利用双向GRU分别学习各个词所对应的所述n-gram特征,通过最大值池化获得包含目标文本的局部特征表示;
所述利用串联对所述句子的所述全局特征表示和所述局部特征表示进行合并,获得最终语义表示,包括:
利用串联将[CLS]标志所对应的词向量与包含句子局部特征信息的词向量进行合并,获得包含所述句子的上下文信息、句子对之间关系及句子局部特征信息的词向量,作为两个所述句子的最终语义表示。
2.根据权利要求1所述的一种结合循环网络及BERT的句子相关度获取方法,其特征在于,所述对待识别的两个句子进行预处理,包括:
对待识别的两个句子进行大小写识别以及编码转换。
3.根据权利要求1所述的一种结合循环网络及BERT的句子相关度获取方法,其特征在于,所述句子相关度获取方法通过一个多层神经网络来完成,所述多层神经网络包括输入层、BERT层、卷积循环神经网络层以及输出层。
4.一种结合循环网络及BERT的句子相关度获取系统,其特征在于,包括:
输入层,用于对待识别的两个句子进行预处理,采用SentencePiece对所述句子进行分词,利用特殊标志将所述句子合并成一个句子对,以及将分词后的各个单词转成词汇表中的序号信息,合并各个所述单词的位置词向量、单词词向量信息及分段信息作为BERT层的输入;
BERT层,用于通过BERT层学习句子及句子之间的上下文信息和关系,输出词向量语义序列和全局特征表示;
卷积循环神经网络层,用于采用卷积循环神经网络对BERT层输出的所述词向量语义序列进行学习,经过基于时间步的卷积运算和循环运算,获得包含目标文本的局部特征表示;
输出层,用于利用串联对所述句子的所述全局特征表示和所述局部特征表示进行合并,获得最终语义表示,根据所述最终语义表示,采用一个全连接网络和一个sigmoid网络对所述句子的相关度进行判断,并输出判断结果;
所述特殊标志包括[CLS]和[SEP],所述通过BERT层学习句子及句子之间的上下文信息和关系,输出词向量语义序列和全局特征表示,包括:
采用BERT学习两个所述句子的上下文信息以及两个所述句子之间的关系,输出各个单词的序列词向量信息作为词向量语义序列;
将CLS单元所对应的词向量作为句子对的全局特征语义表示;
在将所述词向量语义序列输入卷积循环神经网络前,包括以下步骤:
去除所述词向量语义序列中[CLS]所对应的词向量和[SEP]所对应的词向量;所述采用卷积循环神经网络对BERT层输出的所述词向量语义序列进行学习,经过基于时间步的卷积运算和循环运算,获得包含目标文本的局部特征表示,包括:
采用一个卷积层对BERT层输出的所述词向量语义序列进行局部n-gram特征提取;
利用双向GRU分别学习各个词所对应的所述n-gram特征,通过最大值池化获得包含目标文本的局部特征表示;
所述利用串联对所述句子的所述全局特征表示和所述局部特征表示进行合并,获得最终语义表示,包括:
利用串联将[CLS]标志所对应的词向量与包含句子局部特征信息的词向量进行合并,获得包含所述句子的上下文信息、句子对之间关系及句子局部特征信息的词向量,作为两个所述句子的最终语义表示。
5.一种结合循环网络及BERT的句子相关度获取系统,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-3任一项所述的一种结合循环网络及BERT的句子相关度获取方法。
6.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-3任一项所述方法。
CN202011031042.3A 2020-09-27 2020-09-27 结合循环网络及bert的句子相关度获取方法、系统及介质 Active CN112163429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011031042.3A CN112163429B (zh) 2020-09-27 2020-09-27 结合循环网络及bert的句子相关度获取方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011031042.3A CN112163429B (zh) 2020-09-27 2020-09-27 结合循环网络及bert的句子相关度获取方法、系统及介质

Publications (2)

Publication Number Publication Date
CN112163429A CN112163429A (zh) 2021-01-01
CN112163429B true CN112163429B (zh) 2023-08-29

Family

ID=73863569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011031042.3A Active CN112163429B (zh) 2020-09-27 2020-09-27 结合循环网络及bert的句子相关度获取方法、系统及介质

Country Status (1)

Country Link
CN (1) CN112163429B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032539A (zh) * 2021-03-15 2021-06-25 浙江大学 一种基于预训练神经网络的因果性问答对匹配方法
CN113569553A (zh) * 2021-07-28 2021-10-29 广州芳禾数据有限公司 基于改进Adaboost算法的句子相似性判断方法
CN113657119B (zh) * 2021-08-19 2024-04-30 天津大学 基于预训练语言模型的古今汉语自然语言处理方法
CN113609867B (zh) * 2021-08-23 2024-02-02 南开大学 基于单层网络结构学习上下文信息的方法及系统
CN114358210B (zh) * 2022-01-14 2024-07-02 平安科技(深圳)有限公司 文本相似度计算方法、装置、计算机设备及存储介质
CN114626529B (zh) * 2022-02-25 2024-04-23 华南理工大学 一种自然语言推理微调方法、系统、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN110096711A (zh) * 2019-05-09 2019-08-06 中国科学技术大学 序列全局关注和局部动态关注的自然语言语义匹配方法
CN111339774A (zh) * 2020-02-07 2020-06-26 腾讯科技(深圳)有限公司 文本的实体关系抽取方法和模型训练方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2691214C1 (ru) * 2017-12-13 2019-06-11 Общество с ограниченной ответственностью "Аби Продакшн" Распознавание текста с использованием искусственного интеллекта

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN110096711A (zh) * 2019-05-09 2019-08-06 中国科学技术大学 序列全局关注和局部动态关注的自然语言语义匹配方法
CN111339774A (zh) * 2020-02-07 2020-06-26 腾讯科技(深圳)有限公司 文本的实体关系抽取方法和模型训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Improving BERT-Based Text Classification With Auxiliary Sentence and Domain Knowledge;SHANSHAN YU et.al;《IEEE Access》;第176600-176612页 *

Also Published As

Publication number Publication date
CN112163429A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、系统及介质
CN111444726B (zh) 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及系统
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN107977361B (zh) 基于深度语义信息表示的中文临床医疗实体识别方法
CN112989834B (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN109858041B (zh) 一种半监督学习结合自定义词典的命名实体识别方法
CN110263325B (zh) 中文分词系统
CN111783462A (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN110232192A (zh) 电力术语命名实体识别方法及装置
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN112232053B (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN110197279B (zh) 变换模型训练方法、装置、设备和存储介质
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
CN110598191A (zh) 一种基于神经网络的复杂pdf结构解析方法及装置
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113673254A (zh) 基于相似度保持的知识蒸馏的立场检测方法
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN113836891A (zh) 基于多元标注策略的结构化信息抽取方法和装置
US11966700B2 (en) Neural tagger with deep multi-level model
CN113935308A (zh) 面向地球科学领域的文本摘要自动生成的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant