CN114186548B

CN114186548B - 基于人工智能的句子向量生成方法、装置、设备及介质

Info

Publication number: CN114186548B
Application number: CN202111534297.6A
Authority: CN
Inventors: 陈浩
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2023-08-15
Anticipated expiration: 2041-12-15
Also published as: CN114186548A

Abstract

本申请涉及人工智能技术领域，揭示了一种基于人工智能的句子向量生成方法、装置、设备及介质，其中方法包括：将所述目标文本输入句子向量生成模型进行句子向量生成得到目标句子向量；采用获取的多个训练样本对预设的双塔模型进行无监督训练，所述双塔模型包括正模型和负模型，多个所述训练样本是由多个正样本和多个负样本组成，同一个所述正样本中的原始文本和对比文本是相同的文本，同一个所述负样本中的所述原始文本和所述对比文本是不相同的文本；将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型。从而将模型训练的目标转移到句子向量的学习上，有利于训练出能获取到较为泛化的句子向量，提高了句子向量的准确性。

Description

基于人工智能的句子向量生成方法、装置、设备及介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种基于人工智能的句子向量生成方法、装置、设备及介质。

背景技术

随着自然语言处理领域技术逐步运用到现实生活中，句子向量(sentenceembedding)越来越成为学者的研究热点。在不同的研究中，句子向量经常被运用到不同的任务，比如，分类、相似性计算、聚类等任务，准确的句子向量对任务的执行结果的准确性至关重要。

传统的基于Bert(Bidirectional Encoder Representation fromTransformers)模型获取句子向量的方法，主要是将句子输入到预先训练的Bert模型中，将模型最后一层输出的多个词向量计算平均值作为最终的句子向量，该方法简单方便且不用对模型进行微调训练，但是句子向量不是Bert模型预训练的目标，因此通过最后一层得到的句子向量往往没有中间层的词向量效果好，从而导致句子向量的准确性不高。

发明内容

本申请的主要目的为提供一种基于人工智能的句子向量生成方法、装置、设备及介质，旨在解决现有技术采用Bert模型最后一层输出的多个词向量计算平均值作为最终的句子向量，因句子向量不是Bert模型预训练的目标，导致句子向量的准确性不高的技术问题。

为了实现上述发明目的，本申请提出一种基于人工智能的句子向量生成方法，所述方法包括：

获取目标文本；

将所述目标文本输入句子向量生成模型进行句子向量生成；

获取所述句子向量生成模型输出的所述句子向量作为所述目标文本对应的目标句子向量；

其中，所述句子向量生成模型通过如下步骤得到：

采用获取的多个训练样本对预设的双塔模型进行无监督训练，其中，所述双塔模型包括正模型和负模型，多个所述训练样本是由多个正样本和多个负样本组成，同一个所述正样本中的原始文本和对比文本是相同的文本，同一个所述负样本中的所述原始文本和所述对比文本是不相同的文本；

将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型。

进一步的，所述将所述目标文本输入句子向量生成模型进行句子向量生成，得到所述目标文本对应的目标句子向量的步骤之前，还包括：

获取多个所述训练样本；

将所述训练样本的原始文本输入所述双塔模型的所述正模型进行句子向量生成，得到第一句子向量；

将所述训练样本的对比文本输入所述双塔模型的所述负模型进行句子向量生成，得到第二句子向量；

采用所述双塔模型的相似度计算层，计算所述第一句子向量和所述第二句子向量之间的相似度，得到目标相似度；

根据所述目标相似度和所述训练样本的样本标定值训练所述双塔模型，直至达到第一训练目标，将达到所述第一训练目标的所述双塔模型中的所述正模型作为所述句子向量生成模型。

进一步的，所述正模型和所述负模型均采用Bert模型，所述将所述训练样本的原始文本输入所述双塔模型的所述正模型进行句子向量生成，得到第一句子向量的步骤，包括：

将所述训练样本的所述原始文本输入所述正模型，获取所述正模型针对标志位的输出向量作为所述第一句子向量；

所述将所述训练样本的对比文本输入所述双塔模型的所述负模型进行句子向量生成，得到第二句子向量的步骤，包括：

将所述训练样本的所述对比文本输入所述负模型，获取所述负模型针对所述标志位的输出向量作为所述第二句子向量。

进一步的，所述获取多个所述训练样本的步骤，包括：

获取待提取文本集；

从所述待提取文本集中获取一个文本作为待分析文本；

将所述待分析文本作为所述待分析文本对应的所述正样本的所述原始文本和所述对比文本；

将正样本标定值作为所述待分析文本对应的所述正样本的所述样本标定值，将所述正样本作为一个所述训练样本；

从所述待提取文本集中的所述待分析文本以外的各个所述文本中获取一个所述文本作为所述待分析文本对应的负文本；

将所述待分析文本作为所述待分析文本对应的所述负样本的所述原始文本；

将所述负文本作为所述待分析文本对应的所述负样本的所述对比文本；

将负样本标定值作为所述待分析文本对应的所述负样本的所述样本标定值，将所述负样本作为一个所述训练样本；

重复执行所述从所述待提取文本集中的所述待分析文本以外的各个所述文本中获取一个所述文本作为所述待分析文本对应的负文本的步骤，直至迭代次数达到预设次数；

重复执行所述从所述待提取文本集中获取一个文本作为待分析文本的步骤，直至完成所述待提取文本集中的所述文本的获取。

进一步的，所述获取待提取文本集的步骤，包括：

获取初始文本集；

对所述初始文本集中的每个所述文本分别进行预设字符的去除处理和预设停用词的去除处理，得到所述待提取文本集。

获取多个所述训练样本；

从各个所述训练样本中获取数量与预设批次数量相同的所述训练样本作为单批次训练样本集；

将所述单批次训练样本集中的每个所述训练样本对应的原始文本输入所述双塔模型的正模型进行句子向量生成，得到第三句子向量；

将所述单批次训练样本集中的每个所述训练样本对应的对比文本输入所述双塔模型的负模型进行句子向量生成，得到第四句子向量；

采用所述双塔模型的相似度计算层，对同一所述训练样本对应的所述第三句子向量和所述第四句子向量之间进行相似度计算，得到单样本相似度；

根据各个所述单样本相似度和所述单批次训练样本集中的各个所述训练样本各自对应的样本标定值计算目标损失值，根据所述目标损失值更新所述双塔模型的参数；

重复执行所述从各个所述训练样本中获取数量与预设批次数量相同的所述训练样本作为单批次训练样本集的步骤，直至达到第二训练目标，将达到所述第二训练目标的所述双塔模型中的所述正模型作为所述句子向量生成模型。

进一步的，所述根据各个所述单样本相似度和所述单批次训练样本集中的各个所述训练样本各自对应的样本标定值计算目标损失值的步骤，包括：

从各个所述单样本相似度中获取任一个所述单样本相似度作为待分析相似度；

将所述待分析相似度和所述待分析相似度对应的所述样本标定值输入预设损失函数进行损失值计算，得到待分析损失值，其中，所述预设损失函数采用交叉熵损失函数；

重复执行所述从各个所述单样本相似度中获取任一个所述单样本相似度作为待分析相似度的步骤，直至完成从各个所述单样本相似度中的所述单样本相似度的获取；

对各个所述待分析损失值进行平均值计算，得到所述目标损失值。

本申请还提出了一种基于人工智能的句子向量生成装置，所述装置包括：

文本获取模块，用于获取目标文本；

句子向量确定模块，用于将所述目标文本输入句子向量生成模型进行句子向量生成；

目标句子向量确定模块，用于获取所述句子向量生成模型输出的所述句子向量作为所述目标文本对应的目标句子向量；

模型训练模块，用于采用获取的多个训练样本对预设的双塔模型进行无监督训练，其中，所述双塔模型包括正模型和负模型，多个所述训练样本是由多个正样本和多个负样本组成，同一个所述正样本中的原始文本和对比文本是相同的文本，同一个所述负样本中的所述原始文本和所述对比文本是不相同的文本，将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于人工智能的句子向量生成方法、装置、设备及介质，其中方法将所述目标文本输入句子向量生成模型进行句子向量生成；获取所述句子向量生成模型输出的所述句子向量作为所述目标文本对应的目标句子向量；其中，所述句子向量生成模型通过如下步骤得到：采用获取的多个训练样本对预设的双塔模型进行无监督训练，其中，所述双塔模型包括正模型和负模型，多个所述训练样本是由多个正样本和多个负样本组成，同一个所述正样本中的原始文本和对比文本是相同的文本，同一个所述负样本中的所述原始文本和所述对比文本是不相同的文本；将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型。通过采用多个训练样本对双塔模型进行无监督训练，从而将模型训练的目标转移到句子向量的学习上，有利于训练出能获取到较为泛化的句子向量，提高了句子向量的准确性；将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型，有效的过滤掉双塔模型在预训练过程中的无效信息，进一步提高了句子向量的准确性。

附图说明

图1为本申请一实施例的基于人工智能的句子向量生成方法的流程示意图；

图2为本申请一实施例的基于人工智能的句子向量生成装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例中提供一种基于人工智能的句子向量生成方法，所述方法包括：

S1：获取目标文本；

S2：将所述目标文本输入句子向量生成模型进行句子向量生成；

S3：获取所述句子向量生成模型输出的所述句子向量作为所述目标文本对应的目标句子向量；

S4：其中，所述句子向量生成模型通过如下步骤得到：

本实施例通过采用多个训练样本对双塔模型进行无监督训练，从而将模型训练的目标转移到句子向量的学习上，有利于训练出能获取到较为泛化的句子向量，提高了句子向量的准确性；将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型，有效的过滤掉双塔模型在预训练过程中的无效信息，进一步提高了句子向量的准确性。

对于S1，可以从数据库中获取目标文本，也可以从第三方应用系统中获取目标文本，还可以获取用户输入的目标文本。

目标文本，是需要获取句子向量的文本。

对于S3，获取句子向量生成模型输出的句子向量作为所述目标文本对应的目标句子向量。

对于S4，所述训练样本包括：原始文本、对比文本和样本标定值。原始文本、对比文本均来自待提取文本集。样本标定值是对原始文本和对比文本是否为相同文本的标定结果。因此不需要针对训练样本进行句子向量的标定，为实现对双塔模型进行无监督训练提供了基础。

当所述训练样本是正样本时，正样本中的原始文本和对比文本相同，并且正样本中的样本标定值为正样本标定值，正样本标定值表述的是原始文本和对比文本相同。比如，正样本表述为(S_i,S_i,1)，S_i是待提取文本集中第i个文本，第一个S_i是原始文本，第二个S_i是原始文本对比文本，1是正样本标定值，在此举例不做具体限定。

当所述训练样本是负样本时，负样本中的原始文本和对比文本不相同，并且负样本中的样本标定值为负样本标定值，负样本标定值表述的是原始文本和对比文本不相同。比如，负样本表述为(S_i,S_j,0)，S_i是待提取文本集中第i个文本，S_j是待提取文本集中第j个文本，S_i是原始文本，S_j是对比文本，0是负样本标定值，在此举例不做具体限定。

所述双塔模型的正模型和负模型为相同的网络模型。正模型和负模型可以采用可以对文本进行句子向量生成的模型，比如，Bert模型，在此举例不做限定。

可选的，待提取文本集中的文本是基于小说的简介内容得到的文本。

在一个实施例中，上述将所述目标文本输入句子向量生成模型进行句子向量生成，得到所述目标文本对应的目标句子向量的步骤之前，还包括：

S41：获取多个所述训练样本；

S42：将所述训练样本的原始文本输入所述双塔模型的所述正模型进行句子向量生成，得到第一句子向量；

S43：将所述训练样本的对比文本输入所述双塔模型的所述负模型进行句子向量生成，得到第二句子向量；

S44：采用所述双塔模型的相似度计算层，计算所述第一句子向量和所述第二句子向量之间的相似度，得到目标相似度；

S45：根据所述目标相似度和所述训练样本的样本标定值训练所述双塔模型，直至达到第一训练目标，将达到所述第一训练目标的所述双塔模型中的所述正模型作为所述句子向量生成模型。

本实施例通过采用正模型对原始文本生成句子向量，通过负模型对对比文本生成句子向量，计算生成的两个句子向量之间的相似度，根据相似度和训练样本的样本标定值训练双塔模型，最后将正模型作为句子向量生成模型。实现了采用多个训练样本对双塔模型进行无监督训练，从而将模型训练的目标转移到句子向量的学习上，有利于训练出能获取到较为泛化的句子向量，提高了句子向量的准确性；将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型，有效的过滤掉双塔模型在预训练过程中的无效信息，进一步提高了句子向量的准确性。

对于S41，可以从数据库中获取多个所述训练样本，也可以从第三方应用系统中获取多个所述训练样本，还可以获取用户输入的多个所述训练样本。

对于S42，将所述训练样本的原始文本输入所述双塔模型的所述正模型进行句子向量生成，将生成的句子向量作为第一句子向量。

对于S43，将所述训练样本的对比文本输入所述双塔模型的所述负模型进行句子向量生成，将生成的句子向量作为第二句子向量。

对于S44，采用所述双塔模型的相似度计算层，计算所述第一句子向量和所述第二句子向量之间的相似度，将计算得到的相似度作为目标相似度。

可选的，所述相似度计算层采用余弦相似度算法。可以理解的是，所述相似度计算层还可以采用其他可以计算句子向量相似度的算法，在此不做限定。

对于S45，重复执行步骤S42至步骤S45，直至达到第一训练目标。

第一训练目标包括：所述双塔模型的损失值达到第一收敛条件或者所述双塔模型的迭代次数达到第二收敛条件。

所述第一收敛条件是指相邻两次计算所述双塔模型的损失值的大小满足lipschitz条件(利普希茨连续条件)。

所述迭代次数是指所述双塔模型的损失值的计算次数，也就是说，被计算一次，迭代次数增加1。

第二收敛条件是具体数值。

在一个实施例中，上述正模型和所述负模型均采用Bert模型，所述将所述训练样本的原始文本输入所述双塔模型的所述正模型进行句子向量生成，得到第一句子向量的步骤，包括：

S421：将所述训练样本的所述原始文本输入所述正模型，获取所述正模型针对标志位的输出向量作为所述第一句子向量；

S422：将所述训练样本的所述对比文本输入所述负模型，获取所述负模型针对所述标志位的输出向量作为所述第二句子向量。

本实施例通过正模型和所述负模型均采用Bert模型，将Bert模型的标志位的输出向量作为句子向量，从而有利于将模型训练的目标转移到句子向量的学习上，有利于训练出能获取到较为泛化的句子向量，提高了句子向量的准确性；而且正模型始终对原始文本进行句子向量生成，负模型始终对对比文本进行句子向量生成，从而实现将原始文本和对比文本的编码器有效的区分，在模型训练结束将原始文本对应的编码器(也就是正模型)作为句子向量生成模型，可以有效的过滤掉Bert模型预训练过程的无效信息。

对于S421，将所述训练样本的所述原始文本输入所述正模型，获取所述正模型针对标志位的输出向量作为所述第一句子向量，从而使所述正模型的输出目标转移到句子向量。

标志位，表述为[CLS]。

对于S422，将所述训练样本的所述对比文本输入所述负模型，获取所述负模型针对所述标志位的输出向量作为所述第二句子向量，从而使所述负模型的输出目标转移到句子向量。

在一个实施例中，上述获取多个所述训练样本的步骤，包括：

S411：获取待提取文本集；

S412：从所述待提取文本集中获取一个文本作为待分析文本；

S413：将所述待分析文本作为所述待分析文本对应的所述正样本的所述原始文本和所述对比文本；

S414：将正样本标定值作为所述待分析文本对应的所述正样本的所述样本标定值，将所述正样本作为一个所述训练样本；

S415：从所述待提取文本集中的所述待分析文本以外的各个所述文本中获取一个所述文本作为所述待分析文本对应的负文本；

S416：将所述待分析文本作为所述待分析文本对应的所述负样本的所述原始文本；

S417：将所述负文本作为所述待分析文本对应的所述负样本的所述对比文本；

S418：将负样本标定值作为所述待分析文本对应的所述负样本的所述样本标定值，将所述负样本作为一个所述训练样本；

S419：重复执行所述从所述待提取文本集中的所述待分析文本以外的各个所述文本中获取一个所述文本作为所述待分析文本对应的负文本的步骤，直至迭代次数达到预设次数；

S4110：重复执行所述从所述待提取文本集中获取一个文本作为待分析文本的步骤，直至完成所述待提取文本集中的所述文本的获取。

本实施例的训练样本的原始文本、对比文本均来自待提取文本集，正样本中的原始文本和对比文本相同，负样本中的原始文本和对比文本不相同，因此不需要针对训练样本进行句子向量的标定，降低了模型训练的成本，为实现对双塔模型进行无监督训练提供了基础。

对于S411，可以从数据库中获取待提取文本集，也可以从第三方应用系统中获取待提取文本集，还可以获取用户输入的待提取文本集。

待提取文本集中包括多个文本。

对于S412，依次从所述待提取文本集中获取一个文本(未被获取作为待分析文本)，将获取的文本作为待分析文本。

对于S413，将所述待分析文本作为所述待分析文本对应的所述正样本的所述原始文本和所述对比文本，从而使正样本中的原始文本和对比文本相同。

对于S414，将正样本标定值作为所述待分析文本对应的所述正样本的所述样本标定值，将所述正样本作为一个所述训练样本，从而自动化快速的构建了正样本，不需要针对训练样本进行句子向量的标定。

对于S415，依次从所述待提取文本集中的所述待分析文本以外的各个所述文本中获取一个所述文本(也就是未被获取作为当前的所述待分析文本对应的负文本)作为所述待分析文本对应的负文本。

对于S416和S417，将所述待分析文本作为所述待分析文本对应的所述负样本的所述原始文本，将所述负文本作为所述待分析文本对应的所述负样本的所述对比文本，从而使负样本中的原始文本和对比文本不相同。

对于S418，将负样本标定值作为所述待分析文本对应的所述负样本的所述样本标定值，将所述负样本作为一个所述训练样本，从而自动化快速的构建了负样本，不需要针对训练样本进行句子向量的标定。

对于S419，重复执行步骤S415至步骤S419，直至迭代次数达到预设次数。

预设次数小于或等于待提取文本集中的文本数量减1。

对于S4110，重复执行步骤S412至步骤S4110，直至完成所述待提取文本集中的所述文本的获取。

在一个实施例中，上述获取待提取文本集的步骤，包括：

S4111：获取初始文本集；

S4112：对所述初始文本集中的每个所述文本分别进行预设字符的去除处理和预设停用词的去除处理，得到所述待提取文本集。

本实施例对所述初始文本集中的每个所述文本分别进行预设字符的去除处理和预设停用词的去除处理作为待提取文本集，避免无用字符和无用停用词对模型训练造成偏差。

对于S4111，可以从数据库中获取初始文本集，也可以从第三方应用系统中获取初始文本集，还可以获取用户输入的初始文本集。

初始文本集中包括多个文本。

对于S4112，对所述初始文本集中的每个所述文本分别进行预设字符的去除处理，对预设字符的去除处理后的每个文本进行预设停用词的去除处理，将预设停用词的去除处理后的每个文本作为一个待提取文本；将各个待提取文本作为待提取文本集。

预设字符的数量可以为一个，也可以为多个。预设字符包括但不限于：空白字符、多余标点符号。

预设停用词的数量可以为一个，也可以为多个。数量可以为一个，也可以为多个。预设停用词是会对模型训练造成影响的停用词。停用词，是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words(停用词)。

S31：获取多个所述训练样本；

S32：从各个所述训练样本中获取数量与预设批次数量相同的所述训练样本作为单批次训练样本集；

S33：将所述单批次训练样本集中的每个所述训练样本对应的原始文本输入所述双塔模型的正模型进行句子向量生成，得到第三句子向量；

S34：将所述单批次训练样本集中的每个所述训练样本对应的对比文本输入所述双塔模型的负模型进行句子向量生成，得到第四句子向量；

S35：采用所述双塔模型的相似度计算层，对同一所述训练样本对应的所述第三句子向量和所述第四句子向量之间进行相似度计算，得到单样本相似度；

S36：根据各个所述单样本相似度和所述单批次训练样本集中的各个所述训练样本各自对应的样本标定值计算目标损失值，根据所述目标损失值更新所述双塔模型的参数；

S37：重复执行所述从各个所述训练样本中获取数量与预设批次数量相同的所述训练样本作为单批次训练样本集的步骤，直至达到第二训练目标，将达到所述第二训练目标的所述双塔模型中的所述正模型作为所述句子向量生成模型。

本实施例通过采用正模型对原始文本生成句子向量，通过负模型对对比文本生成句子向量，计算生成的两个句子向量之间的相似度，根据相似度和训练样本的样本标定值训练双塔模型，最后将正模型作为句子向量生成模型。实现了采用多个训练样本对双塔模型进行无监督训练，从而将模型训练的目标转移到句子向量的学习上，有利于训练出能获取到较为泛化的句子向量，提高了句子向量的准确性；将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型，有效的过滤掉双塔模型在预训练过程中的无效信息，进一步提高了句子向量的准确性；而且采用预设批次数量确定单批次训练样本集对双塔模型进行无监督训练，实现了批次训练，避免异常训练样本影响模型训练的偏差，提高了模型训练的准确性，进一步提高了句子向量的准确性。

对于S31，可以从数据库中获取多个所述训练样本，也可以从第三方应用系统中获取多个所述训练样本，还可以获取用户输入的多个所述训练样本。

对于S32，从各个所述训练样本中获取数量与预设批次数量相同的所述训练样本，将获取的各个所述训练样本作为单批次训练样本集。也就是说，单批次训练样本集的数量与预设批次数量相同。

可选的，预设批次数量设置为128。可以理解的是，预设批次数量还可以设置为其他数值，比如，64，在此不做限定。

可选的，从各个所述训练样本中随机获取数量与预设批次数量相同的所述训练样本，将获取的各个所述训练样本作为单批次训练样本集。

可选的，从各个所述训练样本中依次获取数量与预设批次数量相同的所述训练样本，将获取的各个所述训练样本作为单批次训练样本集。

对于S33，将所述单批次训练样本集中的每个所述训练样本对应的原始文本输入所述双塔模型的正模型进行句子向量生成，将生成的每个句子向量作为一个第三句子向量。也就是说，第三句子向量的数量和单批次训练样本集中的所述训练样本的数量相同。

对于S34，将所述单批次训练样本集中的每个所述训练样本对应的对比文本输入所述双塔模型的负模型进行句子向量生成，将生成的每个句子向量作为一个第四句子向量。也就是说，第四句子向量的数量和单批次训练样本集中的所述训练样本的数量相同。

对于S35，采用所述双塔模型的相似度计算层，对同一所述训练样本对应的所述第三句子向量和所述第四句子向量之间进行相似度计算，将计算得到的每个相似度作为一个单样本相似度。也就是说，单样本相似度的数量和单批次训练样本集中的所述训练样本的数量相同。

对于S36，根据各个所述单样本相似度和所述单批次训练样本集中的各个所述训练样本各自对应的样本标定值计算目标损失值，从而使目标损失值综合了单批次训练样本集中的各个所述训练样本训练所述双塔模型的损失值，减少了异常训练样本的损失值对目标损失值的影响。

其中，根据所述目标损失值更新所述双塔模型的参数实现的方法步骤在此不做赘述。

对于S37，重复执行步骤S32至步骤S37，直至达到第二训练目标.

第二训练目标包括：所述目标损失值达到第三收敛条件或者所述双塔模型的批量训练次数达到第四收敛条件。

所述第三收敛条件是指相邻两次计算所述目标损失值的大小满足lipschitz条件。

所述批量训练次数是指所述单批次训练样本集的训练次数，也就是说，被一个所述单批次训练样本集训练一次，批量训练次数增加1。

第四收敛条件是具体数值。

可以理解的是，在采用单批次训练样本集对双塔模型进行无监督训练时，模型学习率采用0.005。

在一个实施例中，上述根据各个所述单样本相似度和所述单批次训练样本集中的各个所述训练样本各自对应的样本标定值计算目标损失值的步骤，包括：

S371：从各个所述单样本相似度中获取任一个所述单样本相似度作为待分析相似度；

S372：将所述待分析相似度和所述待分析相似度对应的所述样本标定值输入预设损失函数进行损失值计算，得到待分析损失值，其中，所述预设损失函数采用交叉熵损失函数；

S373：重复执行所述从各个所述单样本相似度中获取任一个所述单样本相似度作为待分析相似度的步骤，直至完成从各个所述单样本相似度中的所述单样本相似度的获取；

S374：对各个所述待分析损失值进行平均值计算，得到所述目标损失值。

本实施例将各个训练样本的损失值进行平均值计算作为目标损失值，有利于减少异常训练样本的损失值对目标损失值的影响，提高了模型训练的准确性，进一步提高了句子向量的准确性。

对于S371，从各个所述单样本相似度中获取任一个所述单样本相似度(未被作为待分析相似度)，将获取的所述单样本相似度作为待分析相似度。

对于S372，将所述待分析相似度和所述待分析相似度对应的所述样本标定值输入预设损失函数进行损失值计算，将计算的的损失值作为待分析损失值。

对于S373，重复执行步骤S371至步骤S373，直至完成从各个所述单样本相似度中的所述单样本相似度的获取。当完成从各个所述单样本相似度中的所述单样本相似度的获取时，意味着完成了所述单批次训练样本集中的每个训练样本对应的损失值的计算。

对于S374，对各个所述待分析损失值进行平均值计算，将计算得到的平均值作为所述目标损失值。

参照图2，本申请还提出了一种基于人工智能的句子向量生成装置，所述装置包括：

文本获取模块100，用于获取目标文本；

句子向量确定模块200，用于将所述目标文本输入句子向量生成模型进行句子向量生成；

目标句子向量确定模块300，用于获取所述句子向量生成模型输出的所述句子向量作为所述目标文本对应的目标句子向量；

模型训练模块400，用于采用获取的多个训练样本对预设的双塔模型进行无监督训练，其中，所述双塔模型包括正模型和负模型，多个所述训练样本是由多个正样本和多个负样本组成，同一个所述正样本中的原始文本和对比文本是相同的文本，同一个所述负样本中的所述原始文本和所述对比文本是不相同的文本，将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存基于人工智能的句子向量生成方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的句子向量生成方法。所述基于人工智能的句子向量生成方法，包括：获取目标文本；将所述目标文本输入句子向量生成模型进行句子向量生成；获取所述句子向量生成模型输出的所述句子向量作为所述目标文本对应的目标句子向量；其中，所述句子向量生成模型通过如下步骤得到：采用获取的多个训练样本对预设的双塔模型进行无监督训练，其中，所述双塔模型包括正模型和负模型，多个所述训练样本是由多个正样本和多个负样本组成，同一个所述正样本中的原始文本和对比文本是相同的文本，同一个所述负样本中的所述原始文本和所述对比文本是不相同的文本；将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种基于人工智能的句子向量生成方法，包括步骤：获取目标文本；将所述目标文本输入句子向量生成模型进行句子向量生成；获取所述句子向量生成模型输出的所述句子向量作为所述目标文本对应的目标句子向量；其中，所述句子向量生成模型通过如下步骤得到：采用获取的多个训练样本对预设的双塔模型进行无监督训练，其中，所述双塔模型包括正模型和负模型，多个所述训练样本是由多个正样本和多个负样本组成，同一个所述正样本中的原始文本和对比文本是相同的文本，同一个所述负样本中的所述原始文本和所述对比文本是不相同的文本；将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型。

上述执行的基于人工智能的句子向量生成方法，通过采用多个训练样本对双塔模型进行无监督训练，从而将模型训练的目标转移到句子向量的学习上，有利于训练出能获取到较为泛化的句子向量，提高了句子向量的准确性；将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型，有效的过滤掉双塔模型在预训练过程中的无效信息，进一步提高了句子向量的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于人工智能的句子向量生成方法，其特征在于，所述方法包括：

获取目标文本；

将所述目标文本输入句子向量生成模型进行句子向量生成；

其中，所述句子向量生成模型通过如下步骤得到：

将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型；

所述将所述目标文本输入句子向量生成模型进行句子向量生成，得到所述目标文本对应的目标句子向量的步骤之前，还包括：

获取多个所述训练样本；

2.根据权利要求1所述的基于人工智能的句子向量生成方法，其特征在于，所述正模型和所述负模型均采用Bert模型，所述将所述训练样本的原始文本输入所述双塔模型的所述正模型进行句子向量生成，得到第一句子向量的步骤，包括：

3.根据权利要求1所述的基于人工智能的句子向量生成方法，其特征在于，所述获取多个所述训练样本的步骤，包括：

获取待提取文本集；

从所述待提取文本集中获取一个文本作为待分析文本；

从所述待提取文本集中的所述待分析文本以外的各个文本中获取一个文本作为所述待分析文本对应的负文本；

重复执行所述从所述待提取文本集中的所述待分析文本以外的各个文本中获取一个文本作为所述待分析文本对应的负文本的步骤，直至迭代次数达到预设次数；

重复执行所述从所述待提取文本集中获取一个文本作为待分析文本的步骤，直至完成所述待提取文本集中的文本的获取。

4.根据权利要求3所述的基于人工智能的句子向量生成方法，其特征在于，所述获取待提取文本集的步骤，包括：

获取初始文本集；

对所述初始文本集中的每个文本分别进行预设字符的去除处理和预设停用词的去除处理，得到所述待提取文本集。

5.根据权利要求1所述的基于人工智能的句子向量生成方法，其特征在于，所述将所述目标文本输入句子向量生成模型进行句子向量生成，得到所述目标文本对应的目标句子向量的步骤之前，还包括：

获取多个所述训练样本；

6.根据权利要求5所述的基于人工智能的句子向量生成方法，其特征在于，所述根据各个所述单样本相似度和所述单批次训练样本集中的各个所述训练样本各自对应的样本标定值计算目标损失值的步骤，包括：

7.一种基于人工智能的句子向量生成装置，其特征在于，所述装置包括：

文本获取模块，用于获取目标文本；

模型训练模块，用于采用获取的多个训练样本对预设的双塔模型进行无监督训练，其中，所述双塔模型包括正模型和负模型，多个所述训练样本是由多个正样本和多个负样本组成，同一个所述正样本中的原始文本和对比文本是相同的文本，同一个所述负样本中的所述原始文本和所述对比文本是不相同的文本，将训练结束的所述双塔模型中的所述正模型作为所述句子向量生成模型；

所述将所述目标文本输入句子向量生成模型进行句子向量生成，得到所述目标文本对应的目标句子向量之前，还包括：

获取多个所述训练样本；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。