CN112861546A - 获取文本语义相似值的方法、装置、存储介质及电子设备 - Google Patents
获取文本语义相似值的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN112861546A CN112861546A CN202110210490.8A CN202110210490A CN112861546A CN 112861546 A CN112861546 A CN 112861546A CN 202110210490 A CN202110210490 A CN 202110210490A CN 112861546 A CN112861546 A CN 112861546A
- Authority
- CN
- China
- Prior art keywords
- similarity
- detected
- texts
- value
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 134
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 47
- 239000011159 matrix material Substances 0.000 claims description 47
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 8
- 238000005094 computer simulation Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 abstract description 23
- 208000000044 Amnesia Diseases 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 3
- 208000026139 Memory disease Diseases 0.000 abstract description 2
- 230000006984 memory degeneration Effects 0.000 abstract description 2
- 208000023060 memory loss Diseases 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 17
- 238000003058 natural language processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种获取文本语义相似值的方法,所述方法包括:将至少两个待检测文本及所述至少两个待检测文本之间的相似参数输入到来自变压器的双向编码器表示BERT模型中;基于所述至少两个待检测文本生成查询向量和键值向量对;基于所述查询向量、所述键值向量对和所述相似参数生成点积数据;将所述点积数据经过相似性处理后得到所述至少两个待检测文本之间的相似值。本申请可以在获取至少两个待检测文本之间的相似值时,在不增加训练时长和内存损耗的前提下提高模型效果。
Description
技术领域
本申请涉及自然语言学习技术领域,尤其涉及一种获取文本语义相似值的方法、装置、存储介质及电子设备。
背景技术
变压器的双向解码表示(Bidirectional Encoder Representation fromTransformers,BERT)模型作为目前效果最好的深度语言模型,是未来自然语言处理(Natural Language Process,NLP)研究和工业应用最主流的语言模型之一。为了使BERT模型能够完成本身的遮盖单词(Masked Language Mode,MLM)任务和预测下一句(NextSentence Prediction,NSP)任务之外,还具备其他诸如文本语义相似性任务的功能,通常需要对BERT模型进行微调。在现有技术中,通常通过在BERT模型中加入其他无监督的预训练模型对BERT模型进行微调,例如语义角色预测模型、实体识别模型等,但这些预训练模型会增加BERT模型的训练时间和训练成本。
发明内容
本申请实施例提供了一种获取文本语义相似值的方法、装置、存储介质及电子设备,可以在获取至少两个待检测文本之间的相似值时,在不增加训练时长和内存损耗的前提下提高模型效果。所述技术方案如下:
第一方面,本申请提出一种获取文本语义相似值的方法,包括:
将至少两个待检测文本及所述至少两个待检测文本之间的相似参数输入到来自变压器的双向编码器表示BERT模型中;
基于所述至少两个待检测文本生成查询向量和键值向量对;
基于所述查询向量、所述键值向量对和所述相似参数生成点积数据;
将所述点积数据经过相似性处理后得到所述至少两个待检测文本之间的相似值。
在一个或多个可能的实施方式中,所述至少两个待检测文本之间的相似参数包括:所述至少两个待检测文本对应的相似矩阵;
或用于生成所述相似矩阵的计算模型。
在一个或多个可能的实施方式中,所述基于所述查询向量、所述键值向量对和所述相似参数生成点积数据,包括:
scores=QKT⊙S+MASK;
其中,scores为所述点积数据,Q为所述查询向量,K为所述键值向量对中的第一键值向量,S为所述相似矩阵,MASK为遮盖矩阵。
在一个或多个可能的实施方式中,所述将所述点积数据经过相似性处理后得到所述至少两个待检测文本的相似值,包括:
基于所述点积数据和所述查询向量,对注意函数进行更新后得到更新注意函数;
基于所述更新注意函数和多头自注意模型,将所述查询向量和所述键值向量对投影h次得到h个注意值;
将所述h个注意值进行拼接计算后得到所述相似值。
在一个或多个可能的实施方式中,基于所述点积数据和所述查询向量,对注意函数进行更新后得到更新注意函数,包括:
其中,scores为所述点积数据,Q为所述查询向量,V为所述键值向量对中的第二键值向量,(K,V)为所述键值向量对,Attention(Q,K,V)为更新注意函数。
在一个或多个可能的实施方式中,基于所述更新注意函数和多头自注意模型,将所述查询向量和所述键值向量对投影h次得到h个注意值,包括:
其中,i的取值为1到h之间的自然数,WQ为对应所述查询向量Q的参数矩阵,WK为对应所述第一键值向量K的参数矩阵,WV为对应所述第二键值向量V的参数矩阵。
在一个或多个可能的实施例中,所述对所述h个注意值进行拼接计算后得到所述相似值,包括:
MultiHead(Q,K,V)=Concat(head1,head2,……,headh)WO;
其中,WO为参数矩阵,MultiHead(Q,K,V)为所述相似值。
第二方面,本申请提出一种获取文本语义相似值的装置,所述装置包括:
获取文本模块,用于将至少两个待检测文本及所述至少两个待检测文本之间的相似参数输入BERT模型中;
生成向量模块,用于基于所述至少两个待检测文本生成查询向量和键值向量对;
生成点积模块,用于基于所述查询向量、所述键值向量对和所述相似参数生成点积数据;
相似计算模块,用于将所述点积数据经过相似性处理后得到所述至少两个待检测文本之间的相似值。
第三方面,本申请提出一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如第一方面所述任意一项的方法步骤。
第四方面,本申请提出一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如第一方面所述任意一项的方法步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:利用至少两个待检测文本之间的相似参数,基于BERT模型获取两个待检测文本之间的相似值,极大程度减少BERT模型的训练时间和内存的损耗,避免利用预训练模型对BERT模型进行微调时需要获取大量的预训练模型和预训练数据的困难,提高了BERT模型在执行自然语言处理任务中的表现;基于现有的自然语言处理模型和简单的计算过程获取两个待检测文本的相似值,提高获取大量相似值的获取效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种获取文本语义相似值方法的流程示意图;
图2是本申请实施例提供的一种相似性处理的流程示意图;
图3是本申请实施例提供的一种BERT模型的部分结构示意图;
图4是本申请实施例提供的另一种BERT模型的部分结构示意图
图5是本申请实施例提供的一种获取文本语义相似值装置的结构示意图;
图6是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本申请的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面结合具体的实施例对本申请进行详细说明。
BERT模型,可以理解为应用在自然语言处理领域(Natural Language Process,NLP)中执行各式各样下游任务的语言模型,是通过在海量语料的基础上运行自监督学习方法的特征提取器。本申请提出的获取文本语义相似值的方法用来通过BERT模型进行微调后,利用待检测文本之间的相似参数,进而获取相似值。
在一个实施例中,如图1所示,特提出了一种获取文本语义相似值的方法,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的获取文本语义相似值装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。上述方法可以由具有自然语言处理能力、或搭载了获取文本语义相似值装置或设置有可以执行文本语义相似值的计算机程序的终端设备执行,该终端设备(terminaldevice)包括但不限于移动台(MobileStation,MS)、移动终端设备(MobileTerminal)、移动电话(MobileTelephone)、手机(handset)及便携设备(portableequipment)等,该终端设备可以经无线接入网(RadioAccess Network,RAN)与一个或多个核心网进行通信,例如,终端设备可以是移动电话(或称为“蜂窝”电话)、具有无线通信功能的计算机等,终端设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置或设备。
具体的,该获取文本语义相似值方法包括:
步骤S101、将至少两个待检测文本及至少两个待检测文本之间的相似参数输入到BERT模型中。
待检测文本,可以理解为需要检测相似值的文本,文本指由中文或外文文字组成的能够进行意思表示的文本段,包括句子、段落、文章等任意一种文本量,以及英语、中文、德语等任意一种语言形式。举例来说:三个待检测文本分别是句子“I’m a student”、“I ama student”和“I am a teacher”,本申请提出的获取文本语义相似值的方法用于获取待检测文本“I’m a student”分别与待检测文本“I am a student”、“I am a teacher”的相似值,即相似值有2个;或者获取三个待检测文本两两之间的相似值,即相似值有3个。可以理解的是,相似值包括任意一种表现两个待检测文本之间的相似度的表现形式,例如,待检测文本与其他待检测文本的相似值为30%,或待检测文本与其他待检测文本的相似值为8,相似值满分阈值为50。
至少两个待检测文本之间的相似参数包括:至少两个待检测文本对应的相似矩阵;或用于生成相似矩阵的计算模型。相似参数,指基于先验知识获取的两个待检测文本之间的相似矩阵。举例来说:两个待检测文本分别是句子1“I am a student”和句子2“youare not a teacher”,句子1包括5个单词,句子2包括6个单词;根据先验知识Word Net中的语义关系,计算句子1和句子2中的每一个单词对(W1,W2)的相似性,例如单词对(I,you)的相似性为0.5,单词对(a,a)的相似性为1;基于上述语义关系,构建句子1和句子2的5×6相似矩阵,该相似矩阵即为相似参数;生成相似矩阵的计算模型,即为基于Word Net语义关系数据库建立的计算模型,用于生成两个待检测文本之间的相似矩阵。可以理解的是,本申请对如何得到相似参数以及计算模型不作限定,采用其他计算模型或计算方法获取两个待检测文本之间的相似参数仍然属于本申请的保护范围。
步骤S102、基于至少两个待检测文本生成查询向量和键值向量对。
将至少两个待检测文本进行拼贴后输入到BERT模型中,利用Transformer解析层中的映射关系输出查询向量K和键值向量对(K,V)。举例来说,待检测文本为两个句子,在两个句子的句首分别添加符号[CLS],在句尾分别添加符号[SEP],以及将两个句子拼贴后添加符号[SEP];将拼贴后得到的合成待检测文本输入到BERT模型中的Transformer解析层;Transformer解析层中包括数个编码器-解码器的组合,基于编码器-解码器组合中多次对合成待检测文本进行基于映射关系的输入输出,最后得到三个值,分别是查询向量K和键值向量对(K,V)。
步骤S103、基于查询向量、键值向量对和相似参数生成点积数据。
为使BERT模型更加关注两个待检测文本之间的具有较高相似性的词对,基于查询向量、键值向量对和相似参数生成点积数据,包括:
scores=QKT⊙S+MASK;
其中,scores为点积数据,Q为查询向量,K为键值向量对中的第一键值向量,S为相似矩阵,MASK为遮盖矩阵。
MASK为遮盖矩阵,可以理解为基于遮盖任务(Masked Language Model,MLM)生成的遮盖矩阵,用于在训练的时候在输入矩阵中随机遮盖掉一部分,以使BERT模型通过的上下文预测该部分。上述输入矩阵即查询向量Q、第一键值向量K与相似矩阵S做哈德马积后生成的矩阵。
本申请一些实施例提供的技术方案带来的有益效果至少包括:基于MLM任务对输入矩阵进行随机遮盖后做预测任务,相比传统标准条件语言模型只能left-to-right或right-to-left单向预测目标函数,MLM任务可以从任意方向预测被掩盖的数据,以提高模型对两个待预测文本之间关系的理解以及对词对的学习;相比于微调前的BERT模型直接利用查询向量和键值向量对执行后续任务,本申请中计算了查询向量、键值向量对与相似矩阵的哈德马积值,以使BERT模型更加关注两个待检测文本之间的具有较高相似性的词对,提高获取的两个待检测文本之间的相似值的准确性。
步骤S104、将点积数据经过相似性处理后得到至少两个待检测文本之间的相似值。
如图2所示,图2为本申请实施例提供的一种相似性处理的流程示意图,图2所示步骤用于实现将点积数据经过相似性处理后得到至少两个待检测文本之间的相似值,包括下述步骤:
步骤S1041、基于点积数据和查询向量,对注意函数进行更新后得到更新注意函数。
注意函数,可以理解为基于注意力机制attention的计算函数,注意力机制指一种能让BERT模型对重要信息重点关注并充分学习吸收的技术。
具体地,注意力机制的工作原理为:如图3所示,为本申请实施例提供的一种BERT模型的部分结构示意图,BERT模型是基于传统Seq2Seq模型来建立的,分为编码层encode与解码层decode,在编码层中包括数个编码器encoder,在解码层中包括数个解码器decoder,并均为循环神经网络(Recurrent Neural Network,RNN)或RNN的变体构成;至少一个待检测文本经过拼贴后组成合成待检测文本;在编码阶段,第一个编码器节点输入合成待检测文本的一个单词,下一个编码器节点输入的是下一个单词与前一个编码器节点的隐藏数据hidden state1,最终编码层会输出一个待解码文本context1,隐藏数据hidden state1至少包括第一隐藏数据hidden state1、第二隐藏数据hidden state1;将待解码文本context1输入到解码层decode,第一个解码器节点基于待解码文本中context1的第一个词输出一个翻译后的词,并将该解码器节点的隐藏数据hidden state2和作为待解码文本context1的第二个词作为第二个解码器节点的输入,最终解码层会输出一个翻译文本context2;基于上述过程,BERT模型完成对待检测文本的理解。
然而,当待检测文本的文本量超过阈值,上述过程容易丢失重要信息,因此引入注意力机制attention。如图4所示,为本申请实施例提供的另一种BERT模型的部分结构示意图,待解码文本context1和所有编码器产生的隐藏数据hidden state1发送解码层;在每一个解码器节点进行解码时,基于注意函数在所有隐藏数据hidden state1选择出最合适的隐藏数据输入到该解码器节点中,以此使解码器更关注与该词意思相近的词。具体而言,基于注意函数attention计算所有隐藏数据分别与当前解码器节点的相似度数值,与当前节解码器点的相关性越高的隐藏数据的分数越高。
在本申请中,为了提高注意函数挑选的准确性,基于两个待检测文本的相似矩阵对BERT模型中原有的注意函数进行更新,得到更新注意函数,以使注意函数基于相似矩阵更加关注两个待检测文本之间的相似词对。包括下述公式:
其中,scores为所述点积数据,Q为所述查询向量,V为所述键值向量对中的第二键值向量,(K,V)为所述键值向量对,Attention(Q,K,V)为更新注意函数。
步骤S1042、基于更新注意函数和多头自注意模型,将查询向量和键值向量对投影h次得到h个注意值。
多头自注意模型Multi-Headed Attention,和上述注意力机制attention类似,可以理解为BERT模型的Transformer层用来将其他相关单词的“理解”转换成我们正常理解的单词的一种思路,举例来说:待检测文本为句子“The animal didn't cross the streetbecause it was too tired”,“it”代表的是“animal”还是“street”,对于人来说能很简单的判断出来,但是对于语言模型来说判断具有困难性;而多头自注意模型能够让BERT模型将it和animal联系起来,以此理解待检测文本。
具体而言,多头自注意模型整个过程可以简述为:查询向量Q和键值向量对(K,V)投影h次得到h个注意值,h次也就是所谓的多头,每一次算一个头,且每次查询向量Q和键值向量对(K,V)进行线性变换的矩阵W随着计算更新,包括:
其中,i的取值为1到h之间的自然数,WQ为对应查询向量Q的参数矩阵,WK为对应第一键值向量K的参数矩阵,WV为对应第二键值向量V的参数矩阵。
步骤S1043、对h个注意值进行拼贴计算后得到相似值。
MultiHead(Q,K,V)=Concat(head1,head2,……,headh)WO;
其中,WO为参数矩阵,MultiHead(Q,K,V)为相似值。
综上上述,基于步骤S1041、S1042和S1043实现步骤S104、将点积数据经过相似性处理后得到至少两个待检测文本之间的相似值。基于步骤S101、S102、S103和S104实现获取文本语义相似值。
本申请一些实施例提供的技术方案带来的有益效果至少包括:利用至少两个待检测文本之间的相似参数,基于BERT模型获取两个待检测文本之间的相似值,极大程度减少BERT模型的训练时间和内存的损耗,避免利用预训练模型对BERT模型进行微调时需要获取大量的预训练模型和预训练数据的困难,提高了BERT模型在执行自然语言处理任务中的表现;基于现有的自然语言处理模型和简单的计算过程获取两个待检测文本的相似值,提高获取大量相似值的获取效率。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参见图5,其示出了本申请一个示例性实施例提供的获取文本语义相似值装置的结构示意图。该获取文本语义相似值装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置包括:获取文本模块501、生成向量模块502、生成点积模块503和相似计算模块504。
获取文本模块501,用于将至少两个待检测文本及所述至少两个待检测文本之间的相似参数输入BERT模型中;
生成向量模块502,用于基于所述至少两个待检测文本生成查询向量和键值向量对;
生成点积模块503,用于基于所述查询向量、所述键值向量对和所述相似参数生成点积数据;
相似计算模块504,用于将所述点积数据经过相似性处理后得到所述至少两个待检测文本之间的相似值。
可选的,所述至少两个待检测文本之间的相似参数包括:所述至少两个待检测文本对应的相似矩阵;
或用于生成所述相似矩阵的计算模型。
可选的,所述生成点积数据模块503具体用于通过以下公式生成点积数据:
scores=QKT⊙S+MASK;
其中,scores为所述点积数据,Q为所述查询向量,K为所述键值向量对中的第一键值向量,S为所述相似矩阵,MASK为遮盖矩阵。
可选的,相似计算模块504,包括:
更新单元,用于基于所述点积数据和所述查询向量,对注意函数进行更新后得到更新注意函数;
投影单元,用于基于所述更新注意函数和多头自注意模型,将所述查询向量和所述键值向量对投影h次得到h个注意值;
拼接单元,用于对所述h个注意值进行拼接计算后得到所述相似值。
可选的,所述更新单元具体用于通过以下公式生成更新注意函数:
其中,scores为所述点积数据,Q为所述查询向量,V为所述键值向量对中的第二键值向量,(K,V)为所述键值向量对,Attention(Q,K,V)为所述更新注意函数。
可选的,所述投影模块具体用于通过以下公式将所述查询向量和所述键值向量对投影:
其中,i的取值为1到h之间的自然数,WQ为对应查询向量Q的参数矩阵,WK为对应第一键值向量K的参数矩阵,WV为对应第二键值向量V的参数矩阵。
可选的,所述拼接单元具体用于通过以下公式生成相似值:
MultiHead(Q,K,V)=Concat(head1,head2,……,headh)WO;
其中,WO为参数矩阵,MultiHead(Q,K,V)为所述相似值。
需要说明的是,上述实施例提供的获取文本语义相似值装置在执行获取文本语义相似值方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的获取文本语义相似值装置与获取文本语义相似值方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请利用至少两个待检测文本之间的相似参数,基于BERT模型获取两个待检测文本之间的相似值,极大程度减少BERT模型的训练时间和内存的损耗,避免利用预训练模型对BERT模型进行微调时需要获取大量的预训练模型和预训练数据的困难,提高了BERT模型在执行自然语言处理任务中的表现;基于现有的自然语言处理模型和简单的计算过程获取两个待检测文本的相似值,提高获取大量相似值的获取效率。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图4所示实施例的所述获取文本语义相似值方法,具体执行过程可以参见图1-图4所示实施例的具体说明,在此不进行赘述。
本申请还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图1-图4所示实施例的所述获取文本语义相似值方法,具体执行过程可以参见图1-图4所示实施例的具体说明,在此不进行赘述。
请参见图6,为本申请实施例提供了一种电子设备的结构示意图。如图6所示,所述电子设备600可以包括:至少一个处理器601,至少一个网络接口604,用户接口603,存储器605,至少一个通信总线602。
其中,通信总线602用于实现这些组件之间的连接通信。
其中,用户接口603可以包括显示屏(Display)、摄像头(Camera),可选用户接口603还可以包括标准的有线接口、无线接口。
其中,网络接口604可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器601可以包括一个或者多个处理核心。处理器601利用各种借口和线路连接整个服务器600内的各个部分,通过运行或执行存储在存储器605内的指令、程序、代码集或指令集,以及调用存储在存储器605内的数据,执行服务器600的各种功能和处理数据。可选的,处理器601可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器601可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器601中,单独通过一块芯片进行实现。
其中,存储器605可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器605包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器605可用于存储指令、程序、代码、代码集或指令集。存储器605可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器605可选的还可以是至少一个位于远离前述处理器601的存储装置。如图6所示,作为一种计算机存储介质的存储器605中可以包括操作系统、网络通信模块、用户接口模块以及获取文本语义相似值应用程序。
在图6所示的电子设备600中,用户接口603主要用于为用户提供输入的接口,获取用户输入的数据;而处理器601可以用于调用存储器605中存储的获取文本语义相似值的应用程序,并具体执行以下操作:
将至少两个待检测文本及所述至少两个待检测文本之间的相似参数输入到来自变压器的双向编码器表示BERT模型中;
基于所述至少两个待检测文本生成查询向量和键值向量对;
基于所述查询向量、所述键值向量对和所述相似参数生成点积数据;
将所述点积数据经过相似性处理后得到所述至少两个待检测文本之间的相似值。
在一个可能的实施例中,所述至少两个待检测文本之间的相似参数包括:所述至少两个待检测文本对应的相似矩阵;
或用于生成所述相似矩阵的计算模型。
在一个可能的实施例中,所述处理器601执行所述基于所述查询向量、所述键值向量对和所述相似参数生成点积数据,具体通过以下公式:
scores=QKT⊙S+MASK;
其中,scores为所述点积数据,Q为所述查询向量,K为所述键值向量对中的第一键值向量,S为所述相似矩阵,MASK为遮盖矩阵。
在一个可能的实施例中,所述处理器601执行所述将所述点积数据经过相似性处理后得到所述至少两个待检测文本的相似值,具体执行:
基于所述点积数据和所述查询向量,对注意函数进行更新后得到更新注意函数;
基于所述更新注意函数和多头自注意模型,将所述查询向量和所述键值向量对投影h次得到h个注意值;
对所述h个注意值进行拼接计算后得到所述相似值。
在一个可能的实施例中,所述处理器601执行所述基于所述点积数据和所述查询向量,对注意函数进行更新后得到更新注意函数,具体通过以下公式:
其中,scores为所述点积数据,Q为所述查询向量,V为所述键值向量对中的第二键值向量,(K,V)为所述键值向量对,Attention(Q,K,V)为所述更新注意函数。
在一个可能的实施例中,所述处理器601执行基于所述更新注意函数和多头自注意模型,将所述查询向量和所述键值向量对投影h次得到h个注意值,具体通过以下公式:
其中,i的取值为1到h之间的自然数,WQ为对应查询向量Q的参数矩阵,WK为对应第一键值向量K的参数矩阵,WV为对应第二键值向量V的参数矩阵。
在一个可能的实施例中,所述处理器601执行所述对所述h个注意值进行拼接计算后得到所述相似值,具体通过以下公式:
MultiHead(Q,K,V)=Concat(head1,head2,……,headh)WO;
其中,WO为参数矩阵,MultiHead(Q,K,V)为所述相似值。
本申请利用至少两个待检测文本之间的相似参数,基于BERT模型获取两个待检测文本之间的相似值,极大程度减少BERT模型的训练时间和内存的损耗,避免利用预训练模型对BERT模型进行微调时需要获取大量的预训练模型和预训练数据的困难,提高了BERT模型在执行自然语言处理任务中的表现;基于现有的自然语言处理模型和简单的计算过程获取两个待检测文本的相似值,提高获取大量相似值的获取效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (10)
1.一种获取文本语义相似值的方法,其特征在于,包括:
将至少两个待检测文本及所述至少两个待检测文本之间的相似参数输入到来自变压器的双向编码器表示BERT模型中;
基于所述至少两个待检测文本生成查询向量和键值向量对;
基于所述查询向量、所述键值向量对和所述相似参数生成点积数据;
将所述点积数据经过相似性处理后得到所述至少两个待检测文本之间的相似值。
2.根据权利要求1所述方法,其特征在于,所述至少两个待检测文本之间的相似参数包括:所述至少两个待检测文本对应的相似矩阵;
或用于生成所述相似矩阵的计算模型。
3.根据权利要求2所述方法,其特征在于,所述基于所述查询向量、所述键值向量对和所述相似参数生成点积数据,包括:
scores=QKT⊙S+MASK;
其中,scores为所述点积数据,Q为所述查询向量,K为所述键值向量对中的第一键值向量,S为所述相似矩阵,MASK为遮盖矩阵。
4.根据权利要求2所述方法,其特征在于,所述将所述点积数据经过相似性处理后得到所述至少两个待检测文本的相似值,包括:
基于所述点积数据和所述查询向量,对注意函数进行更新后得到更新注意函数;
基于所述更新注意函数和多头自注意模型,将所述查询向量和所述键值向量对投影h次得到h个注意值;
对所述h个注意值进行拼接计算后得到所述相似值。
7.根据权利要求6所述方法,其特征在于,所述对所述h个注意值进行拼接计算后得到所述相似值,包括:
MultiHead(Q,K,V)=Concat(head1,head2,……,headh)WO;
其中,WO为参数矩阵,MultiHead(Q,K,V)为所述相似值。
8.一种获取文本语义相似值的装置,其特征在于,所述装置包括:
获取文本模块,用于将至少两个待检测文本及所述至少两个待检测文本之间的相似参数输入BERT模型中;
生成向量模块,用于基于所述至少两个待检测文本生成查询向量和键值向量对;
生成点积模块,用于基于所述查询向量、所述键值向量对和所述相似参数生成点积数据;
相似计算模块,用于将所述点积数据经过相似性处理后得到所述至少两个待检测文本之间的相似值。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~7任意一项的方法步骤。
10.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~7任意一项的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110210490.8A CN112861546A (zh) | 2021-02-25 | 2021-02-25 | 获取文本语义相似值的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110210490.8A CN112861546A (zh) | 2021-02-25 | 2021-02-25 | 获取文本语义相似值的方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112861546A true CN112861546A (zh) | 2021-05-28 |
Family
ID=75991425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110210490.8A Pending CN112861546A (zh) | 2021-02-25 | 2021-02-25 | 获取文本语义相似值的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861546A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023185515A1 (zh) * | 2022-03-30 | 2023-10-05 | 北京字节跳动网络技术有限公司 | 特征提取方法、装置、存储介质及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795913A (zh) * | 2019-09-30 | 2020-02-14 | 北京大米科技有限公司 | 一种文本编码方法、装置、存储介质及终端 |
-
2021
- 2021-02-25 CN CN202110210490.8A patent/CN112861546A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795913A (zh) * | 2019-09-30 | 2020-02-14 | 北京大米科技有限公司 | 一种文本编码方法、装置、存储介质及终端 |
Non-Patent Citations (2)
Title |
---|
TINGYU XIA等: "Using Prior Knowledge to Guide BERT’s Attention in Semantic Textual Matching Tasks", 《COMPUTATION AND LANGUAGE》 * |
未知: "2019级硕士夏婷玉在文本相似性任务领域取得进展", 《SAI.JLU.EDU.CN/INFO/1026/1974.HTM》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023185515A1 (zh) * | 2022-03-30 | 2023-10-05 | 北京字节跳动网络技术有限公司 | 特征提取方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109859736B (zh) | 语音合成方法及系统 | |
CN110647636A (zh) | 交互方法、装置、终端设备及存储介质 | |
CN109036371B (zh) | 用于语音合成的音频数据生成方法及系统 | |
CN110990543A (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN110310619A (zh) | 多音字预测方法、装置、设备及计算机可读存储介质 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
CN111401259B (zh) | 模型训练方法、系统、计算机可读介质和电子设备 | |
CN111241820A (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
CN111435592A (zh) | 一种语音识别方法、装置及终端设备 | |
CN112463942A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN110781329A (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN113450758B (zh) | 语音合成方法、装置、设备及介质 | |
CN107291704A (zh) | 处理方法和装置、用于处理的装置 | |
CN112735371A (zh) | 一种基于文本信息生成说话人视频的方法及装置 | |
CN111767694A (zh) | 文本生成方法、装置和计算机可读存储介质 | |
CN117765132A (zh) | 图像生成方法、装置、设备与存储介质 | |
CN114242093A (zh) | 语音音色转换方法、装置、计算机设备和存储介质 | |
CN114400005A (zh) | 语音消息生成方法和装置、计算机设备、存储介质 | |
CN116051688A (zh) | 过渡动画生成方法及装置、计算机可读存储介质、终端 | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN117556027B (zh) | 基于数字人技术的智能交互系统及方法 | |
CN117634459B (zh) | 目标内容生成及模型训练方法、装置、系统、设备及介质 | |
CN113591472A (zh) | 歌词生成方法、歌词生成模型训练方法、装置及电子设备 | |
CN112861546A (zh) | 获取文本语义相似值的方法、装置、存储介质及电子设备 | |
CN111414959B (zh) | 图像识别方法、装置、计算机可读介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210528 |
|
RJ01 | Rejection of invention patent application after publication |