CN113673201A - 一种文本表示向量生成方法、装置、存储介质及电子设备 - Google Patents
一种文本表示向量生成方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN113673201A CN113673201A CN202110800639.8A CN202110800639A CN113673201A CN 113673201 A CN113673201 A CN 113673201A CN 202110800639 A CN202110800639 A CN 202110800639A CN 113673201 A CN113673201 A CN 113673201A
- Authority
- CN
- China
- Prior art keywords
- text
- coding
- sample
- vector
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种文本表示向量生成方法、装置、存储介质及电子设备,涉及信息处理技术领域,旨在高效、优质地生成文本表示向量。所述方法包括:获取待处理文本;将所述待处理文本转换为对应的编码向量;将所述编码向量输入文本表示向量生成模型,得到所述待处理文本对应的表示向量;其中,所述文本表示向量生成模型是对预设模型进行训练得到的,所述文本表示向量生成模型的训练数据至少包括:样本文本对应的编码向量及其增强后的编码向量,其中,基于同一样本文本的两个编码向量互为正样本,基于不同样本文本的两个编码向量互为负样本。
Description
技术领域
本申请涉及信息处理技术领域,特别是涉及一种文本表示向量生成方法、装置、存储介质及电子设备。
背景技术
自然语言处理(NLP)是信息处理技术领域与计算机科学领域中的一个重要方向,它研究如何使计算机既能理解自然语言文本的意义,又能通过自然语言文本来表达给定的意图、思想等,前者称为自然语言理解,后者称为自然语言生成。
文本表示向量学习在NLP领域占据重要地位,许多NLP任务的成功离不开训练优质的句子表示向量。现有的文本表示向量生成方法需要大量的训练样本,且在模型之后需要再进行复杂的计算才能生成文本表示向量,耗费的计算资源多、速度慢。因此,急需一种优质的文本表示向量生成方法。
发明内容
鉴于上述问题,本发明实施例提供了一种文本表示向量生成方法、装置、存储介质及电子设备,以便克服上述问题或者至少部分地解决上述问题。
本发明实施例的第一方面,提供了一种文本表示向量生成方法,所述方法包括:
获取待处理文本;
将所述待处理文本转换为对应的编码向量;
将所述编码向量输入文本表示向量生成模型,得到所述待处理文本对应的表示向量;
其中,所述文本表示向量生成模型是对预设模型进行训练得到的,所述文本表示向量生成模型的训练数据至少包括:样本文本对应的编码向量及其增强后的编码向量,其中,基于同一样本文本的两个编码向量互为正样本,基于不同样本文本的两个编码向量互为负样本。
可选地,所述文本表示向量模型的训练数据至少包括按照以下步骤得到的一条训练数据:
获取一个样本文本,并将该样本文本转换为对应的编码向量;
对所述样本文本对应的编码向量进行增强处理,得到至少一个增强后的编码向量;
将所述样本文本对应的编码向量及其增强后的一个编码向量组成一个编码向量对,得到一条训练数据。
可选地,针对每个样本文本,对该样本文本对应的编码向量进行增强处理,包括以下至少一者:
针对每个样本文本,将该样本文本对应的编码向量中表征各个词语在该样本文本中的位置的序号打乱;
针对每个样本文本,随机删除该样本文本对应的编码向量中的整行元素或整列元素;
针对每个样本文本,随机删除该样本文本对应的编码向量中的至少一个元素。
可选地,所述文本表示向量生成模型的训练方法至少包括以下步骤:
将所述样本文本对应的编码向量及其增强后的编码向量分别输入所述预设模型,得到所述预设模型输出的两个预测表示向量;
根据基于同一样本文本的两个预测表示向量之间的相似度,以及,基于不同样本文本的两个预测表示向量之间的差异度,确定对比学习损失函数值;
以最大化基于同一样本文本的两个预测表示向量之间的相似度,且最大化基于不同样本文本的两个预测表示向量之间的差异度为目标,基于所述对比学习损失函数值对预设模型进行训练。
可选地,所述文本表示向量模型的训练数据还包括按照以下步骤得到的一条训练数据:
获取一个样本文本及其关联文本,所述关联文本携带预先标注的标签,以表征所述关联文本的含义与所述样本文本的含义是否相同;
将所述样本文本及其关联文本分别转换为对应的编码向量;
将所述样本文本及与其含义相同的关联文本各自对应的编码向量组成一个编码向量对,得到一条正样本训练数据;
将所述样本文本及与其含义不同的关联文本各自对应的编码向量组成一个编码向量对,得到一条负样本训练数据。
可选地,所述文本表示向量生成模型的训练过程还包括以下步骤:
将所述样本文本及其关联文本各自对应的编码向量分别输入所述预设模型,得到所述预设模型输出的两个预测表示向量;
根据所述预设模型输出的两个预测表示向量之间的相似度,以及,所述关联文本携带的标签,确定有监督损失函数值;
基于所述有监督损失函数值对预设模型进行训练。
可选地,在确定有监督损失函数值之后,所述方法还包括:
根据所述有监督损失函数值,生成对抗扰动;
将所述对抗扰动添加到该样本文本对应的编码向量上,得到增强后的编码向量。
可选地,在得到所述待处理文本对应的表示向量之后,所述方法还包括:
根据两个待处理文本各自对应的表示向量之间的相似度,确定所述两个待处理文本的语义相似度;或
将所述待处理文本对应的表示向量,与文本库中各个文本各自对应的表示向量比较,以输出所述待处理文本对应的检索结果。
本发明实施例的第二方面,提供了一种文本表示向量生成装置,所述装置包括:
获取模块,用于获取待处理文本;
转换模块,用于将所述待处理文本转换为对应的编码向量;
生成模块,用于将所述编码向量输入文本表示向量生成模型,得到所述待处理文本对应的表示向量;
其中,所述文本表示向量生成模型是对预设模型进行训练得到的,所述文本表示向量生成模型的训练数据至少包括:样本文本对应的编码向量及其增强后的编码向量,其中,基于同一样本文本的两个编码向量互为正样本,基于不同样本文本的两个编码向量互为负样本。
本发明实施例的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被执行时实现本申请实施例公开的所述文本表示向量生成方法的步骤。
本发明实施例的第四方面,提供了一种电子设备,包括:处理器、存储器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请实施例公开的所述的文本表示向量生成方法。
本发明实施例包括以下优点:
本实施例中,可以获取待处理文本;将所述待处理文本转换为对应的编码向量;将所述编码向量输入文本表示向量生成模型,得到所述待处理文本对应的表示向量;其中,所述文本表示向量生成模型是对预设模型进行训练得到的,所述文本表示向量生成模型的训练数据至少包括:样本文本对应的编码向量及其增强后的编码向量,其中,基于同一样本文本的两个编码向量互为正样本,基于不同样本文本的两个编码向量互为负样本。如此,文本表示向量生成模型在训练中,对于每一个编码向量而言,除了互为正样本的一个编码向量,其余所有编码向量都是其负样本,因此,只需少量训练数据即可完成对模型的训练,可以有效节约计算资源。通过训练好的文本表示向量生成模型可以直接生成待处理文本的表示向量,而不需要在文本表示向量生成模型后再进行其它复杂的计算,可以提升生成文本表示向量的效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中一种文本表示向量生成模型的训练方法的步骤流程图;
图2是本发明实施例中预设模型的结构示意图;
图3是本发明实施例中一种文本表示向量生成方法的步骤流程图;
图4是本申请实施例中一种文本表示向量生成装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
为解决相关技术中的文本表示向量生成方法耗费的计算资源多、速度慢等问题,申请人提出:以样本文本对应的编码向量及其增强后的编码向量为训练数据训练一种文本表示向量生成模型,其中,基于同一样本文本的两个编码向量互为正样本,基于不同样本文本的两个编码向量互为负样本,使用训练好的文本表示向量生成模型直接生成文本的表示向量。
为了训练文本表示向量生成模型,需要先获取训练数据,所述文本表示向量模型的训练数据至少包括按照以下步骤得到的一条训练数据:
步骤S110:获取一个样本文本,并将该样本文本转换为对应的编码向量。
为了训练通用的文本表示向量生成模型,则可以直接采用通用的文本数据库中的文本作为样本文本;为了训练特定领域的文本表示向量生成模型,则可以采用该特定领域数据分布中的无标签文本语料库中的文本作为样本文本;将样本文本通过embedding(嵌入表达)操作转换为对应的编码向量。
可以理解的是,在训练好一个通用的文本表示向量生成模型之后,想要获取特定领域的文本表示向量生成模型,只需利用该特定领域的样本文本对通用的文本表示向量生成模型进行再训练,以微调通用的文本表示向量生成模型中的参数,使之转变为特定领域的文本表示向量生成模型。
步骤S120:对所述样本文本对应的编码向量进行增强处理,得到至少一个增强后的编码向量。
在embedding层隐式生成样本文本对应的编码向量的增强后的编码向量,得到该样本文本对应的至少一个增强后的编码向量。
步骤S130:将所述样本文本对应的编码向量及其增强后的一个编码向量组成一个编码向量对,得到一条训练数据。
将一个样本文本对应的编码向量和其增强后的一个编码向量组成一个编码向量对,作为一条训练数据。其中,基于同一个样本文本得到的编码向量和增强后的编码向量互为正样本,基于不同样本文本得到的编码向量互为负样本。
可选地,作为一个实施例,针对每个样本文本,对该样本文本对应的编码向量进行增强处理,包括以下至少一者:
1、针对每个样本文本,将该样本文本对应的编码向量中表征各个词语在该样本文本中的位置的序号打乱;
2、针对每个样本文本,随机删除该样本文本对应的编码向量中的整行元素或整列元素;
3、针对每个样本文本,随机删除该样本文本对应的编码向量中的至少一个元素。
针对每个样本文本,可以采用上述三者中至少一者的方法进行处理。
方法1:打乱样本文本中的词序,具体地:感知到embedding层中每个词的positionids(位置标识),然后将个词的position ids进行shuffle(打乱)操作。
方法2:随机选取样本文本的token(表示),将对应token的embedding整行置为零。或者,随机选取embedding的feature(特征),将选取的feature维度整列置为零。
方法3:随机将样本文本对应的编码向量中的元素置零。
采用本申请实施例的技术方案,可以在embedding层隐式生成样本文本对应的编码向量的增强后的编码向量,从而可以保证样本文本对应的编码向量和其增强后的编码向量语义一致。
在获取到训练数据后,利用训练数据对预设模型进行训练。可选地,参照图1所示,示出了本发明实施例中一种文本表示向量生成模型的训练方法的步骤流程图,如图1所示,该文本表示向量生成模型的训练方法具体可以包括以下步骤:
步骤S210:将所述样本文本对应的编码向量及其增强后的编码向量分别输入所述预设模型,得到所述预设模型输出的两个预测表示向量。
预设模型是一个类似BERT的语言模型,如图2所示,示出了预设模型的结构示意图。预设模型包括数据增强模块、BERT(一种语言表示模型)编码层、平均池化层和损失函数模块。其中,数据增强模块可以用于对样本文本对应的编码向量进行增强;BERT编码层用于对编码向量进行交互计算,平均池化层用于取最后两层或者预设多层内的均值作为每个文本的预测表示向量,损失函数模块用于根据每个文本的预测表示向量建立对比学习损失函数。
输入预设模型的数据是样本文本对应的编码向量及其已经增强后的编码向量,则预设模型的数据增强模块无需再对样本文本对应的编码向量进行增强,而直接通过BERT编码层进行交互计算,和经过平均池化层取均值。
步骤S220:根据基于同一样本文本的两个预测表示向量之间的相似度,以及,基于不同样本文本的两个预测表示向量之间的差异度,确定对比学习损失函数值;
为了优化预设模型的参数,需要计算对比学习损失函数值。具体地,可以通过以下公式建立对比学习损失函数:
其中,Li,j表示对比学习损失函数值;sim()函数为余弦相似度函数;N表示同时输入预设模型的训练数据数量;τ表示计算的难度,一般取0.1;i=1,2,……,N;k=1,2,……,N;j=1,2,……,N;ri、rj、rk分别表示第i、j、k个文本表示向量。
步骤S230:以最大化基于同一样本文本的两个预测表示向量之间的相似度,且最大化基于不同样本文本的两个预测表示向量之间的差异度为目标,基于所述对比学习损失函数值对预设模型进行训练。
建立对比学习损失函数的目的是让输入预设模型的编码向量都能找到与其互为正样本的编码向量。在训练阶段,通过建立对比学习损失函数,可以引导预设模型输出的互为正样本对应的文本表示向量在表示空间中具有尽可能大的相似度,且互为负样本对应的文本表示向量具有尽可能大的差异度。
在训练结果收敛,或达到预设训练次数时,结束训练,得到训练好的预设模型,训练好的预设模型即为文本表示向量生成模型。
采用本发明实施例的技术方案,可以直接通过训练数据对预设模型进行训练,而不需要对训练数据进行标注,可以降低对数据进行标注花费的成本;且对于每一个编码向量而言,除了互为正样本的一个编码向量,其余所有编码向量都是其负样本,因此不需要大量训练数据,即可有效地对预设模型的参数进行优化,实际应用中证明,在仅有1000条训练数据的情况下也能取得较好的训练效果;在BERT编码之后无需再进行其它复杂的计算,因此无论是在训练过程还是使用训练好的文本表示向量时,都可以有效节省计算资源、提升效率;训练数据是由样本文本对应的编码向量及其增强后的编码向量组成的,因此训练好的文本表示向量生成模型输出的结果具有表达的语义准确的优点。
得到训练好的文本表示向量生成模型之后,即可使用文本表示向量生成模型生成文本的表示向量。参照图3所示,示出了本发明实施例中一种文本表示向量生成方法的步骤流程图,如图3所示,该文本表示向量生成方法具体可以包括以下步骤:
步骤S310:获取待处理文本;
步骤S320:将所述待处理文本转换为对应的编码向量;
步骤S330:将所述编码向量输入文本表示向量生成模型,得到所述待处理文本对应的表示向量;其中,所述文本表示向量生成模型是对预设模型进行训练得到的,所述文本表示向量生成模型的训练数据至少包括:样本文本对应的编码向量及其增强后的编码向量,其中,基于同一样本文本的两个编码向量互为正样本,基于不同样本文本的两个编码向量互为负样本。
可以理解的是,在使用训练好的文本表示向量生成模型生成待处理文本的表示向量时,不需要再获取待处理文本的增强后的编码向量,也不需要再计算损失函数,而直接通过BERT编码层对待处理文本的编码向量进行交互计算,然后平均池化层取最后两层或预设多层内的均值作为该待处理文本的文本表示向量,具体地:获取到待处理文本之后,通过embedding操作将其转换为对应的编码向量,将该编码向量输入文本表示向量模型之后,文本表示向量模型的BERT编码层对该编码向量进行交互计算,然后文本表示向量模型的平均池化层取BERT编码层的最后两层或预设多层内的均值作为该待处理文本的文本表示向量。
相应地,训练好的文本表示向量模型的结构相对于预设模型的结构,可以舍弃数据增强模块和损失函数模块。
采用本申请实施例的技术方案,通过文本表示向量生成模型得到待处理文本的表示向量,其中文本表示向量模型中的BERT编码层之后不需要再进行复杂的数据处理,具有计算速度快、节省计算资源的优点;文本表示向量生成模型训是通过样本文本对应的编码向量及其增强后的编码向量训练得到的,具有得到的待处理文本的表示向量的语义表达准确的优点。
上述实施例中公开了一种无监督的文本表示向量生成模型的训练方法,还可以采用一种有监督的文本表示向量生成模型的训练方法。可选地,作为一个实施例,文本表示向量模型的训练数据还包括按照以下步骤得到的一条训练数据:
步骤S410:获取一个样本文本及其关联文本,所述关联文本携带预先标注的标签,以表征所述关联文本的含义与所述样本文本的含义是否相同;
步骤S420:将所述样本文本及其关联文本分别转换为对应的编码向量;
步骤S430:将所述样本文本及与其含义相同的关联文本各自对应的编码向量组成一个编码向量对,得到一条正样本训练数据;
步骤S440:将所述样本文本及与其含义不同的关联文本各自对应的编码向量组成一个编码向量对,得到一条负样本训练数据。
为了有监督地训练文本表示向量生成模型,因此需要先对样本文本的关联文本进行标注,以确定关联文本的含义与样本文本的含义是否相同。通过embedding操作将样本文本和关联文本分别转换为各自对应的编码向量,将样本文本和含义相同的关联文本对应的编码向量组成的编码向量对作为正样本训练数据,将样本文本和含义不同的关联文本对应的编码向量组成的编码向量对作为负样本训练数据。
得到训练数据后,则可以利用训练数据对文本表示向量生成模型进行训练。可选地,作为一个实施例,所述文本表示向量生成模型的训练过程还包括以下步骤:
步骤S510:将所述样本文本及其关联文本各自对应的编码向量分别输入所述预设模型,得到所述预设模型输出的两个预测表示向量;
步骤S520:根据所述预设模型输出的两个预测表示向量之间的相似度,以及,所述关联文本携带的标签,确定有监督损失函数值;
步骤S530:基于所述有监督损失函数值对预设模型进行训练。
本发明实施例中的预设模型和前文所述的预设模型的结构相同,在输入文本的编码向量之后,输出该文本的预测表示向量。根据两个预测表示向量之间的相似度和关联文本携带的标签,确定有监督损失函数值。通过有监督损失函数值引导预设模型的参数进行优化,以使输出的文本表示向量能够准确表达文本的含义。
可选地,作为一个实施例,在确定有监督损失函数值之后,所述方法还包括:
步骤S610:根据所述有监督损失函数值,生成对抗扰动;
步骤S620:将所述对抗扰动添加到该样本文本对应的编码向量上,得到增强后的编码向量。
根据有监督损失函数值,通过梯度反转生成对抗扰动,将对抗扰动调价到样本文本对应的编码向量上,得到增强后的编码向量。其中通过梯度反转生成对抗扰动是指:通过反向传播将损失函数值逐层反向传递,每层网络根据传回来的误差乘以一个负数,使得前后的网络的训练目标相反,实现对抗的效果。
采用本发明实施例的技术方案,通过梯度反转生成对抗扰动,以通过对抗训练优选预设模型的参数,得到的预设模型更加稳定,输出的结果更加准确。如此,通过此种方法训练好的文本表示向量生成模型,可以生成更加准确的文本表示向量。
可选地,本发明实施例中提供的有监督训练预设模型的方法和无监督训练预设模型的方法可以结合使用,同时建立对比学习损失函数和有监督损失函数,通过将对比学习损失函数和有监督损失函数相结合,共同对预设模型中的参数进行优化,从而得到更加优质的文本表示向量模型。
可选地,作为一个实施例,在得到所述待处理文本对应的表示向量之后,所述方法还包括:根据两个待处理文本各自对应的表示向量之间的相似度,确定所述两个待处理文本的语义相似度;或将所述待处理文本对应的表示向量,与文本库中各个文本各自对应的表示向量比较,以输出所述待处理文本对应的检索结果。
在得到待处理文本的表示向量之后,可以根据两个待处理文本的表示向量的相似度,确定该两个待处理文本的语义相似度;如此,在文本查重方面具有重要作用。
或者,将待处理文本对应的表示向量和文本库中各个文本各自对应的表示向量相比,从而召回待处理文本对应的检索结果。
可以理解的是,在得到文本的表示向量之后还具有其他应用场景,本发明在此不再一一列举。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
图4是本发明实施例的一种文本表示向量生成装置的结构示意图,如图4所示,一种文本表示向量生成装置,包括获取模块、转换模块和生成模块,其中:
获取模块,用于获取待处理文本;
转换模块,用于将所述待处理文本转换为对应的编码向量;
生成模块,用于将所述编码向量输入文本表示向量生成模型,得到所述待处理文本对应的表示向量;其中,所述文本表示向量生成模型是对预设模型进行训练得到的,所述文本表示向量生成模型的训练数据至少包括:样本文本对应的编码向量及其增强后的编码向量,其中,基于同一样本文本的两个编码向量互为正样本,基于不同样本文本的两个编码向量互为负样本。
可选地,作为一个实施例,所述文本表示向量模型的训练数据至少包括按照以下步骤得到的一条训练数据:
获取一个样本文本,并将该样本文本转换为对应的编码向量;
对所述样本文本对应的编码向量进行增强处理,得到至少一个增强后的编码向量;
将所述样本文本对应的编码向量及其增强后的一个编码向量组成一个编码向量对,得到一条训练数据。
可选地,作为一个实施例,针对每个样本文本,对该样本文本对应的编码向量进行增强处理,包括以下至少一者:
针对每个样本文本,将该样本文本对应的编码向量中表征各个词语在该样本文本中的位置的序号打乱;
针对每个样本文本,随机删除该样本文本对应的编码向量中的整行元素或整列元素;
针对每个样本文本,随机删除该样本文本对应的编码向量中的至少一个元素。
可选地,作为一个实施例,所述文本表示向量生成模型的训练方法至少包括以下步骤:
将所述样本文本对应的编码向量及其增强后的编码向量分别输入所述预设模型,得到所述预设模型输出的两个预测表示向量;
根据基于同一样本文本的两个预测表示向量之间的相似度,以及,基于不同样本文本的两个预测表示向量之间的差异度,确定对比学习损失函数值;
以最大化基于同一样本文本的两个预测表示向量之间的相似度,且最大化基于不同样本文本的两个预测表示向量之间的差异度为目标,基于所述对比学习损失函数值对预设模型进行训练。
可选地,作为一个实施例,所述文本表示向量模型的训练数据还包括按照以下步骤得到的一条训练数据:
获取一个样本文本及其关联文本,所述关联文本携带预先标注的标签,以表征所述关联文本的含义与所述样本文本的含义是否相同;
将所述样本文本及其关联文本分别转换为对应的编码向量;
将所述样本文本及与其含义相同的关联文本各自对应的编码向量组成一个编码向量对,得到一条正样本训练数据;
将所述样本文本及与其含义不同的关联文本各自对应的编码向量组成一个编码向量对,得到一条负样本训练数据。
可选地,作为一个实施例,所述文本表示向量生成模型的训练过程还包括以下步骤:
将所述样本文本及其关联文本各自对应的编码向量分别输入所述预设模型,得到所述预设模型输出的两个预测表示向量;
根据所述预设模型输出的两个预测表示向量之间的相似度,以及,所述关联文本携带的标签,确定有监督损失函数值;
基于所述有监督损失函数值对预设模型进行训练。
可选地,作为一个实施例,在确定有监督损失函数值之后,所述方法还包括:
根据所述有监督损失函数值,生成对抗扰动;
将所述对抗扰动添加到该样本文本对应的编码向量上,得到增强后的编码向量。
可选地,作为一个实施例,在得到所述待处理文本对应的表示向量之后,所述方法还包括:
根据两个待处理文本各自对应的表示向量之间的相似度,确定所述两个待处理文本的语义相似度;或
将所述待处理文本对应的表示向量,与文本库中各个文本各自对应的表示向量比较,以输出所述待处理文本对应的检索结果。
采用本申请实施例的技术方案,可以对预设模型进行训练,得到训练好的文本表示向量生成模型,其中,训练数据是由样本文本对应的编码向量及其增强后的编码向量组成的,因此训练好的文本表示向量生成模型输出的结果具有表达的语义准确的优点;对于每一个编码向量而言,除了互为正样本的一个编码向量,其余所有编码向量都是其负样本,因此训练过程不需要大量训练数据;文本表示向量具有和预设模型相同的结构,在BERT编码层进行交互计算后不需要再进行复杂的计算,节约了计算资源且有效提升了速度;通过文本表示向量模型可以生成待处理文本的表示向量,从而可以利用待处理文本的表示向量进行多种应用,例如查重、召回相似文本等。
需要说明的是,装置实施例与方法实施例相近,故描述的较为简单,相关之处参见方法实施例即可。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被执行时实现上述任一实施例所述的文本表示向量生成方法。
本发明实施例还提供了一种电子设备,包括:处理器、存储器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例公开的所述的文本表示向量生成方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种文本表示向量生成方法、装置、存储介质及电子设备,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (11)
1.一种文本表示向量生成方法,其特征在于,所述方法包括:
获取待处理文本;
将所述待处理文本转换为对应的编码向量;
将所述编码向量输入文本表示向量生成模型,得到所述待处理文本对应的表示向量;
其中,所述文本表示向量生成模型是对预设模型进行训练得到的,所述文本表示向量生成模型的训练数据至少包括:样本文本对应的编码向量及其增强后的编码向量,其中,基于同一样本文本的两个编码向量互为正样本,基于不同样本文本的两个编码向量互为负样本。
2.根据权利要求1所述的方法,其特征在于,所述文本表示向量模型的训练数据至少包括按照以下步骤得到的一条训练数据:
获取一个样本文本,并将该样本文本转换为对应的编码向量;
对所述样本文本对应的编码向量进行增强处理,得到至少一个增强后的编码向量;
将所述样本文本对应的编码向量及其增强后的一个编码向量组成一个编码向量对,得到一条训练数据。
3.根据权利要求2所述的方法,针对每个样本文本,对该样本文本对应的编码向量进行增强处理,包括以下至少一者:
针对每个样本文本,将该样本文本对应的编码向量中表征各个词语在该样本文本中的位置的序号打乱;
针对每个样本文本,随机删除该样本文本对应的编码向量中的整行元素或整列元素;
针对每个样本文本,随机删除该样本文本对应的编码向量中的至少一个元素。
4.根据权利要求1-3任一所述的方法,其特征在于,所述文本表示向量生成模型的训练方法至少包括以下步骤:
将所述样本文本对应的编码向量及其增强后的编码向量分别输入所述预设模型,得到所述预设模型输出的两个预测表示向量;
根据基于同一样本文本的两个预测表示向量之间的相似度,以及,基于不同样本文本的两个预测表示向量之间的差异度,确定对比学习损失函数值;
以最大化基于同一样本文本的两个预测表示向量之间的相似度,且最大化基于不同样本文本的两个预测表示向量之间的差异度为目标,基于所述对比学习损失函数值对预设模型进行训练。
5.根据权利要求1所述的方法,其特征在于,所述文本表示向量模型的训练数据还包括按照以下步骤得到的一条训练数据:
获取一个样本文本及其关联文本,所述关联文本携带预先标注的标签,以表征所述关联文本的含义与所述样本文本的含义是否相同;
将所述样本文本及其关联文本分别转换为对应的编码向量;
将所述样本文本及与其含义相同的关联文本各自对应的编码向量组成一个编码向量对,得到一条正样本训练数据;
将所述样本文本及与其含义不同的关联文本各自对应的编码向量组成一个编码向量对,得到一条负样本训练数据。
6.根据权利要求5所述的方法,其特征在于,所述文本表示向量生成模型的训练过程还包括以下步骤:
将所述样本文本及其关联文本各自对应的编码向量分别输入所述预设模型,得到所述预设模型输出的两个预测表示向量;
根据所述预设模型输出的两个预测表示向量之间的相似度,以及,所述关联文本携带的标签,确定有监督损失函数值;
基于所述有监督损失函数值对预设模型进行训练。
7.根据权利要求6所述的方法,在确定有监督损失函数值之后,所述方法还包括:
根据所述有监督损失函数值,生成对抗扰动;
将所述对抗扰动添加到该样本文本对应的编码向量上,得到增强后的编码向量。
8.根据权利要求1所述的方法,其特征在于,在得到所述待处理文本对应的表示向量之后,所述方法还包括:
根据两个待处理文本各自对应的表示向量之间的相似度,确定所述两个待处理文本的语义相似度;或
将所述待处理文本对应的表示向量,与文本库中各个文本各自对应的表示向量比较,以输出所述待处理文本对应的检索结果。
9.一种文本表示向量生成装置,其特征在于,所述装置包括:
获取模块,用于获取待处理文本;
转换模块,用于将所述待处理文本转换为对应的编码向量;
生成模块,用于将所述编码向量输入文本表示向量生成模型,得到所述待处理文本对应的表示向量;
其中,所述文本表示向量生成模型是对预设模型进行训练得到的,所述文本表示向量生成模型的训练数据至少包括:样本文本对应的编码向量及其增强后的编码向量,其中,基于同一样本文本的两个编码向量互为正样本,基于不同样本文本的两个编码向量互为负样本。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被执行时实现如权利要求1-8中任一项所述的文本表示向量生成方法。
11.一种电子设备,其特征在于,包括:
处理器、存储器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的文本表示向量生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110800639.8A CN113673201A (zh) | 2021-07-15 | 2021-07-15 | 一种文本表示向量生成方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110800639.8A CN113673201A (zh) | 2021-07-15 | 2021-07-15 | 一种文本表示向量生成方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113673201A true CN113673201A (zh) | 2021-11-19 |
Family
ID=78539229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110800639.8A Withdrawn CN113673201A (zh) | 2021-07-15 | 2021-07-15 | 一种文本表示向量生成方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673201A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114742018A (zh) * | 2022-06-09 | 2022-07-12 | 成都晓多科技有限公司 | 基于对抗训练的对比学习层次编码文本聚类方法及系统 |
CN115017915A (zh) * | 2022-05-30 | 2022-09-06 | 北京三快在线科技有限公司 | 一种模型训练、任务执行的方法及装置 |
CN115862036A (zh) * | 2022-12-14 | 2023-03-28 | 北京瑞莱智慧科技有限公司 | 信息干扰模型训练方法、信息干扰方法、相关装置及介质 |
WO2024074099A1 (zh) * | 2022-10-04 | 2024-04-11 | 阿里巴巴达摩院(杭州)科技有限公司 | 模型训练、文本处理方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110795913A (zh) * | 2019-09-30 | 2020-02-14 | 北京大米科技有限公司 | 一种文本编码方法、装置、存储介质及终端 |
CN111767405A (zh) * | 2020-07-30 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、装置、设备及存储介质 |
CN111783518A (zh) * | 2020-05-14 | 2020-10-16 | 北京三快在线科技有限公司 | 训练样本生成方法、装置、电子设备及可读存储介质 |
CN112085293A (zh) * | 2020-09-18 | 2020-12-15 | 支付宝(杭州)信息技术有限公司 | 训练交互预测模型、预测交互对象的方法及装置 |
CN112307883A (zh) * | 2020-07-31 | 2021-02-02 | 北京京东尚科信息技术有限公司 | 训练方法、装置、电子设备以及计算机可读存储介质 |
CN112365993A (zh) * | 2020-12-03 | 2021-02-12 | 四川长虹电器股份有限公司 | 一种针对少样本公众健康问句的分类方法及系统 |
US20210089724A1 (en) * | 2019-09-25 | 2021-03-25 | Google Llc | Contrastive Pre-Training for Language Tasks |
CN112818118A (zh) * | 2021-01-22 | 2021-05-18 | 大连民族大学 | 基于反向翻译的中文幽默分类模型 |
CN112836012A (zh) * | 2021-01-25 | 2021-05-25 | 中山大学 | 一种基于排序学习的相似患者检索方法 |
CN112990297A (zh) * | 2021-03-10 | 2021-06-18 | 北京智源人工智能研究院 | 多模态预训练模型的训练方法、应用方法及装置 |
-
2021
- 2021-07-15 CN CN202110800639.8A patent/CN113673201A/zh not_active Withdrawn
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210089724A1 (en) * | 2019-09-25 | 2021-03-25 | Google Llc | Contrastive Pre-Training for Language Tasks |
CN110795913A (zh) * | 2019-09-30 | 2020-02-14 | 北京大米科技有限公司 | 一种文本编码方法、装置、存储介质及终端 |
CN111783518A (zh) * | 2020-05-14 | 2020-10-16 | 北京三快在线科技有限公司 | 训练样本生成方法、装置、电子设备及可读存储介质 |
CN111767405A (zh) * | 2020-07-30 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、装置、设备及存储介质 |
CN112307883A (zh) * | 2020-07-31 | 2021-02-02 | 北京京东尚科信息技术有限公司 | 训练方法、装置、电子设备以及计算机可读存储介质 |
CN112085293A (zh) * | 2020-09-18 | 2020-12-15 | 支付宝(杭州)信息技术有限公司 | 训练交互预测模型、预测交互对象的方法及装置 |
CN112365993A (zh) * | 2020-12-03 | 2021-02-12 | 四川长虹电器股份有限公司 | 一种针对少样本公众健康问句的分类方法及系统 |
CN112818118A (zh) * | 2021-01-22 | 2021-05-18 | 大连民族大学 | 基于反向翻译的中文幽默分类模型 |
CN112836012A (zh) * | 2021-01-25 | 2021-05-25 | 中山大学 | 一种基于排序学习的相似患者检索方法 |
CN112990297A (zh) * | 2021-03-10 | 2021-06-18 | 北京智源人工智能研究院 | 多模态预训练模型的训练方法、应用方法及装置 |
Non-Patent Citations (5)
Title |
---|
PENG SU等: "Improving BERT Model Using Contrastive Learning for Biomedical Relation Extraction", 《ARXIV:2104.13913V1》 * |
TING CHEN等: "A Simple Framework for Contrastive Learning of Visual Representations", 《ARXIV:2002.05709V3》 * |
YUANMENG YAN等: "ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer", 《ARXIV:2105.11741V1》 * |
余传明等: "基于深度学习的词汇表示模型对比研究", 《HTTPS://KNS.CNKI.NET/KCMS/DETAIL/10.1478.G2.20200423.1336.012.HTML》 * |
刘佳琦: "基于孪生神经网络与混合神经网络的文本向量化表示研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017915A (zh) * | 2022-05-30 | 2022-09-06 | 北京三快在线科技有限公司 | 一种模型训练、任务执行的方法及装置 |
CN114742018A (zh) * | 2022-06-09 | 2022-07-12 | 成都晓多科技有限公司 | 基于对抗训练的对比学习层次编码文本聚类方法及系统 |
WO2024074099A1 (zh) * | 2022-10-04 | 2024-04-11 | 阿里巴巴达摩院(杭州)科技有限公司 | 模型训练、文本处理方法、装置、设备及存储介质 |
CN115862036A (zh) * | 2022-12-14 | 2023-03-28 | 北京瑞莱智慧科技有限公司 | 信息干扰模型训练方法、信息干扰方法、相关装置及介质 |
CN115862036B (zh) * | 2022-12-14 | 2024-02-23 | 北京瑞莱智慧科技有限公司 | 信息干扰模型训练方法、信息干扰方法、相关装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113673201A (zh) | 一种文本表示向量生成方法、装置、存储介质及电子设备 | |
CN109960810B (zh) | 一种实体对齐方法及装置 | |
CN109582956A (zh) | 应用于句子嵌入的文本表示方法和装置 | |
CN110188158B (zh) | 关键词及话题标签生成方法、装置、介质及电子设备 | |
CN112632314A (zh) | 一种图像检索方法、系统、设备以及介质 | |
CN111291274A (zh) | 一种物品推荐方法、装置、设备及计算机可读存储介质 | |
CN118014086B (zh) | 数据处理方法、装置、设备、存储介质及产品 | |
CN114841335A (zh) | 基于变分蒸馏的多模态联合表示学习方法及系统 | |
Pianzola et al. | Cultural accumulation and improvement in online fan fiction | |
CN113408282B (zh) | 主题模型训练和主题预测方法、装置、设备及存储介质 | |
CN118171149A (zh) | 标签分类方法、装置、设备、存储介质和计算机程序产品 | |
CN117057414B (zh) | 一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及系统 | |
CN116644180A (zh) | 文本匹配模型的训练方法、训练系统和文本标签确定方法 | |
CN112446206A (zh) | 一种菜谱标题的生成方法及装置 | |
CN114003708B (zh) | 基于人工智能的自动问答方法、装置、存储介质及服务器 | |
CN111783453B (zh) | 文本的情感信息处理方法及装置 | |
CN114330367A (zh) | 一种基于句子的语义相似度获得方法、装置以及设备 | |
CN114329005A (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN110209878A (zh) | 视频处理方法、装置、计算机可读介质及电子设备 | |
CN118094016B (zh) | 推荐方法、装置、设备、计算机可读存储介质及程序产品 | |
CN117786234B (zh) | 一种基于两阶段对比学习的多模态资源推荐方法 | |
CN111866608B (zh) | 一种用于教学的视频播放方法、装置和系统 | |
CN117764077A (zh) | 基于提示学习的零样本可解释性立场检测方法、装置 | |
Chaurasia et al. | Enhancing Text Summarization through Parallelization: A TF-IDF Algorithm Approach | |
CN117033704A (zh) | 通过概念先决条件关系识别慕课视频依赖关系方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211119 |