CN114386391A

CN114386391A - 基于人工智能的句向量特征提取方法、装置、设备及介质

Info

Publication number: CN114386391A
Application number: CN202210028096.7A
Authority: CN
Inventors: 王健宗; 李泽远
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-04-22
Anticipated expiration: 2042-01-11
Also published as: CN114386391B

Abstract

本申请涉及人工智能技术领域，揭示了一种基于人工智能的句向量特征提取方法、装置、设备及介质，其中方法包括：获取目标文本和与所述目标文本对应的目标语言类型；将所述目标文本输入目标模型进行句向量特征提取，其中，所述目标模型是采用训练文本和MLM训练方法训练Transformer类模型得到的模型，所述训练文本是语义相同并且语言类型不同的多个文本拼接得到的拼接文本；根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，作为目标句向量特征数据。通过MLM训练方法避免了在具有挑战性的环境下可能不具有稳健性的问题，增强了模型内部特征表示的跨语言对齐，提高了特征提取的准确性。

Description

基于人工智能的句向量特征提取方法、装置、设备及介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种基于人工智能的句向量特征提取方法、装置、设备及介质。

背景技术

在多语言机器翻译、多语言情感分析等任务中，经常用到跨语言的特征提取。现有技术采用无监督的机器学习方法训练模型进行跨语言的特征提取，即将多种语言的语料拼接在一起共同训练一个掩码语言模型M-BERT，通过这种方式模型可以学习到这些语言的共同的结构，这种方法虽然简单，但是忽略了不同种语言的嵌入空间不是等距的，导致特征提取的准确性不高，而且无监督方法在具有挑战性的环境下可能不具有稳健性。

发明内容

本申请的主要目的为提供一种基于人工智能的句向量特征提取方法、装置、设备及介质，旨在解决现有技术采用无监督的机器学习方法训练模型进行跨语言的特征提取，特征提取的准确性不高，在具有挑战性的环境下可能不具有稳健性的技术问题。

为了实现上述发明目的，本申请提出一种基于人工智能的句向量特征提取方法，所述方法包括：

获取目标文本和与所述目标文本对应的目标语言类型；

将所述目标文本输入目标模型进行句向量特征提取，其中，所述目标模型是采用训练文本和MLM训练方法训练Transformer类模型得到的模型，所述训练文本是语义相同并且语言类型不同的多个文本拼接得到的拼接文本；

根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，作为目标句向量特征数据。

进一步的，所述根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，作为目标句向量特征数据的步骤，包括：

获取与所述目标模型对应的语言类型与编码层标识映射表；

根据所述目标语言类型，从所述语言类型与编码层标识映射表中获取编码层标识，作为目标编码层标识；

获取所述目标模型中的与所述目标编码层标识对应的编码层输出的所述句向量特征数据，作为所述目标句向量特征数据。

进一步的，所述将所述目标文本输入目标模型进行句向量特征提取的步骤之前，还包括：

获取多个第一训练样本，每个所述第一训练样本是根据平行语料库确定的拼接文本；

采用MLM训练方法，根据多个所述第一训练样本对初始模型进行训练，将训练结束的所述初始模型作为待微调的模型，其中，所述初始模型是Transformer类模型；

获取多个第二训练样本，每个所述第二训练样本是根据单种语言文本集和单语言翻译模型集得到的拼接文本；

采用MLM训练方法，根据多个所述第二训练样本对所述待微调的模型进行训练，将训练结束的所述待微调的模型作为所述目标模型；

获取多个第三训练样本，根据多个所述第三训练样本和所述目标模型，确定所述语言类型与编码层标识映射表。

进一步的，所述获取多个第一训练样本的步骤，包括：

获取平行语料库；

从所述平行语料库中获取语义相同并且语言类型不同的多个第一文本；

将各个所述第一文本进行依次拼接，得到所述第一训练样本。

进一步的，所述获取多个第二训练样本的步骤，包括：

采用所述单语言翻译模型集，对所述单种语言文本集中的每个单种语言文本分别进行翻译，得到多个翻译文本集；

根据所述单种语言文本集和各个所述翻译文本集确定合成语料库；

从所述合成语料库中获取语义相同并且语言类型不同的多个第二文本；

将各个所述第二文本进行依次拼接，得到所述第二训练样本。

进一步的，所述根据多个所述第三训练样本和所述目标模型，确定所述语言类型与编码层标识映射表的步骤，包括：

从多个所述第三训练样本中获取所述第三训练样本作为目标训练样本；

将所述目标训练样本中的文本样本数据输入所述目标模型进行句向量特征提取；

获取所述目标模型的每个编码层输出的待评估的句向量特征数据；

根据各个所述待评估的句向量特征数据和所述目标训练样本分别进行编码效果评估及语言类型与编码层标识关系对确定；

重复执行所述从多个所述第三训练样本中获取所述第三训练样本作为目标训练样本的步骤，直至完成所述第三训练样本的获取；

根据各个所述语言类型与编码层标识关系对确定所述语言类型与编码层标识映射表。

进一步的，所述根据各个所述待评估的句向量特征数据和所述目标训练样本分别进行编码效果评估及语言类型与编码层标识关系对确定的步骤，包括：

分别计算每个所述待评估的句向量特征数据与所述目标训练样本中的句向量特征标定值之间的语义相似度，得到语义相似度集合；

从所述语义相似度集合中获取最大的语义相似度作为目标语义相似度；

将所述目标语义相似度对应的编码层的编码层标识作为待分析的编码层标识；

根据所述目标训练样本中的所述语言类型和所述待分析的编码层标识确定所述语言类型与编码层标识关系对。

本申请还提出了一种基于人工智能的句向量特征提取装置，所述装置包括：

数据获取模块，用于获取目标文本和与所述目标文本对应的目标语言类型；

句向量特征提取模块，用于将所述目标文本输入目标模型进行句向量特征提取，其中，所述目标模型是采用训练文本和MLM训练方法训练Transformer类模型得到的模型，所述训练文本是语义相同并且语言类型不同的多个文本拼接得到的拼接文本；

目标句向量特征数据确定模块，用于根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，作为目标句向量特征数据。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于人工智能的句向量特征提取方法、装置、设备及介质，其中方法通过获取目标文本和与所述目标文本对应的目标语言类型，将所述目标文本输入目标模型进行句向量特征提取，其中，所述目标模型是采用训练文本和MLM训练方法训练Transformer类模型得到的模型，所述训练文本是语义相同并且语言类型不同的多个文本拼接得到的拼接文本，根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，作为目标句向量特征数据，通过采用训练文本和MLM训练方法训练Transformer类模型得到的模型，避免了在具有挑战性的环境下可能不具有稳健性的问题；通过训练文本是语义相同并且语言类型不同的多个文本拼接得到的拼接文本，增强了模型内部特征表示的跨语言对齐，提高了特征提取的准确性；通过根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，实现根据不同的语言类型采用不同的中间层的输出作为目标句向量特征数据，进一步提高了特征提取的准确性。

附图说明

图1为本申请一实施例的基于人工智能的句向量特征提取方法的流程示意图；

图2为本申请一实施例的基于人工智能的句向量特征提取装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例中提供一种基于人工智能的句向量特征提取方法，所述方法包括：

S1：获取目标文本和与所述目标文本对应的目标语言类型；

S2：将所述目标文本输入目标模型进行句向量特征提取，其中，所述目标模型是采用训练文本和MLM训练方法训练Transformer类模型得到的模型，所述训练文本是语义相同并且语言类型不同的多个文本拼接得到的拼接文本；

S3：根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，作为目标句向量特征数据。

本实施例通过获取目标文本和与所述目标文本对应的目标语言类型，将所述目标文本输入目标模型进行句向量特征提取，其中，所述目标模型是采用训练文本和MLM训练方法训练Transformer类模型得到的模型，所述训练文本是语义相同并且语言类型不同的多个文本拼接得到的拼接文本，根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，作为目标句向量特征数据，通过采用训练文本和MLM训练方法训练Transformer类模型得到的模型，避免了在具有挑战性的环境下可能不具有稳健性的问题；通过训练文本是语义相同并且语言类型不同的多个文本拼接得到的拼接文本，增强了模型内部特征表示的跨语言对齐，提高了特征提取的准确性；通过根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，实现根据不同的语言类型采用不同的中间层的输出作为目标句向量特征数据，进一步提高了特征提取的准确性。

对于S1，可以获取用户输入的目标文本和与所述目标文本对应的目标语言类型，也可以从数据库中获取目标文本和与所述目标文本对应的目标语言类型，还可以从第三方应用系统中获取目标文本和与所述目标文本对应的目标语言类型。

目标文本，是需要进行句向量特征提取的文本数据。目标文本中的文字是同一种语言类型。

目标语言类型，是目标文本的语言类型。

语言类型包括但不限于：中文、英文、德文、韩文、日文、法文、西班牙文。

对于S2，将所述目标文本输入目标模型进行句向量特征提取，从而实现准确的跨语言的特征提取，为多语言机器翻译、多语言情感分析等任务提供了支持。

所述目标模型是采用训练文本和MLM训练方法训练Transformer类模型得到的模型，也就是说，所述目标模型是采用Transformer结构的模型。

Transformer结构的模型，也就是基于encoder-decoder结构的模型。Transformer结构的模型包括但不限于：Bert(Bidirectional Encoder Representations fromTransformers)模型。

MLM训练方法，也就是将训练文本的一个词用Mask进行掩码，然后让模型根据上下文的词预测被Mask的词，采用深度学习优化器，根据被Mask的词和预测得到的词计算模型损失及模型优化。

其中，通过MLM训练方法，Transformer中的自注意层能够利用多种语言类型的的上下文信息来丰富单词特征表示，实现了明确的跨语言训练目标，通过该训练目标增强了跨语言空间中的词向量对齐。

所述训练文本是语义相同并且语言类型不同的多个文本拼接得到的拼接文本，也就是说，所述训练文本是采用两个或两个以上的文本拼接得到的拼接文本。比如，所述训练文本为W1W2W3，文本W1、W2、W3的语义相同，文本W1、W2、W3的语言类型不同，在此举例不做具体限定。

对于S3，根据所述目标语言类型确定编码效果最好的编码层标识，然后将所述目标模型中的对所述目标语言类型的编码效果最好的编码层标识对应的编码层输出的句向量特征数据，作为所述目标文本对应的目标句向量特征数据，进一步提高了特征提取的准确性。

目标句向量特征数据，也就是跨语言的特征提取的结果，为多语言机器翻译、多语言情感分析等任务提供了支持。

在一个实施例中，上述根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，作为目标句向量特征数据的步骤，包括：

S31：获取与所述目标模型对应的语言类型与编码层标识映射表；

S32：根据所述目标语言类型，从所述语言类型与编码层标识映射表中获取编码层标识，作为目标编码层标识；

S33：获取所述目标模型中的与所述目标编码层标识对应的编码层输出的所述句向量特征数据，作为所述目标句向量特征数据。

本实施例通过根据目标语言类型语言类型与编码层标识映射表中确定目标编码层标识，从而找到了对所述目标语言类型的编码效果最好的编码层的编码层标识，然后将目标模型中的对所述目标语言类型的编码效果最好的编码层输出的所述句向量特征数据作为所述目标句向量特征数据，进一步提高了特征提取的准确性。

对于S31，可以获取用户输入的与所述目标模型对应的语言类型与编码层标识映射表，也可以从数据库中获取与所述目标模型对应的语言类型与编码层标识映射表，还可以从第三方应用系统中获取与所述目标模型对应的语言类型与编码层标识映射表。

语言类型与编码层标识映射表包括：语言类型和编码层标识，其中，每个语言类型对应一个编码层标识。编码层标识可以是编码层名称、编码层ID等唯一标识目标模型中的一个编码层的数据。

对于S32，将所述目标语言类型在所述语言类型与编码层标识映射表中的语言类型中进行查找，将在所述语言类型与编码层标识映射表中查找的语言类型对应的编码层标识作为目标编码层标识。

也就是说，目标编码层标识是目标模型中的对所述目标语言类型的编码效果最好的编码层对应的编码层标识。

对于S33，获取所述目标模型中的与所述目标编码层标识对应的编码层输出的所述句向量特征数据，从而获取到了目标模型中的对所述目标语言类型的编码效果最好的编码层输出的所述句向量特征数据，将获取到的所述句向量特征数据作为所述目标句向量特征数据，进一步提高了特征提取的准确性。

在一个实施例中，上述将所述目标文本输入目标模型进行句向量特征提取的步骤之前，还包括：

S21：获取多个第一训练样本，每个所述第一训练样本是根据平行语料库确定的拼接文本；

S22：采用MLM训练方法，根据多个所述第一训练样本对初始模型进行训练，将训练结束的所述初始模型作为待微调的模型，其中，所述初始模型是Transformer类模型；

S23：获取多个第二训练样本，每个所述第二训练样本是根据单种语言文本集和单语言翻译模型集得到的拼接文本；

S24：采用MLM训练方法，根据多个所述第二训练样本对所述待微调的模型进行训练，将训练结束的所述待微调的模型作为所述目标模型；

S25：获取多个第三训练样本，根据多个所述第三训练样本和所述目标模型，确定所述语言类型与编码层标识映射表。

本实施例实现了先采用平行语料库确定拼接文本对模型进行初步训练，然后采用单种语言文本集和单语言翻译模型集构建合成语料库，采用合成语料库确定拼接文本对初步训练后的模型进行微调训练，实现了在平行语料库中的语义相同并且语言类型不同的平行语料集比较少的情况下，提高了模型的跨语言泛化能力。

对于S21，可以获取用户输入的多个第一训练样本，也可以从数据库中获取多个第一训练样本，还可以从第三方应用系统中获取多个第一训练样本。

其中，第一训练样本是从平行语料库中获取语义相同并且语言类型不同的文本进行拼接得到的拼接文本。

平行语料库，是现有技术比较成熟的语料库，是原文文本及其平行对应的译语文本构成的双语或多语语料库。平行语料库包括：一个或多个平行语料集，每个平行语料集包括原文文本及其平行对应的译语文本。

对于S22，采用MLM训练方法，根据多个所述第一训练样本对初始模型进行训练的方法步骤在此不做赘述。

训练结束的所述初始模型，是指达到第一预设结束条件的所述初始模型。

第一预设结束条件，是指所述初始模型的损失值达到第一收敛条件或所述初始模型的迭代次数达到第二收敛条件。

第一收敛条件，是指相邻两次计算的所述初始模型的损失值的大小满足lipschitz条件(利普希茨连续条件)。

所述初始模型的迭代次数是指所述初始模型被训练的次数，也就是说，所述初始模型被训练一次，迭代次数增加1。

第二收敛条件，是一个具体数值。

所述初始模型，是采用Transformer结构的模型。

对于S23，可以获取用户输入的多个第二训练样本，也可以从数据库中获取多个第二训练样本，还可以从第三方应用系统中获取多个第二训练样本。

其中，根据单种语言文本集和单语言翻译模型集构建合成语料库，然后从合成语料库中获取语义相同并且语言类型不同的文本进行拼接得到的拼接文本，将得到的拼接文本作为第二训练样本。

单种语言文本集中包括一个或多个单种语言文本。单种语言文本中的文字是同一种语言类型。

单语言翻译模型集中包括一个或多个单语言翻译模型。单语言翻译模型是单向的翻译模型，比如，英语翻译成中文模型、中文翻译成英文模型，在此举例不做具体限定。

对于S24，采用MLM训练方法，根据多个所述第二训练样本对所述待微调的模型进行训练的方法步骤在此不做赘述。

训练结束的所述待微调的模型，是指达到第二预设结束条件的所述待微调的模型。

第二预设结束条件，是指所述待微调的模型的损失值达到第三收敛条件或所述待微调的模型的迭代次数达到第四收敛条件。

第三收敛条件，是指相邻两次计算的所述待微调的模型的损失值的大小满足lipschitz条件(利普希茨连续条件)。

所述待微调的模型的迭代次数是指所述待微调的模型被训练的次数，也就是说，所述待微调的模型被训练一次，迭代次数增加1。

第四收敛条件，是一个具体数值。

对于S25，可以获取用户输入的多个第三训练样本，也可以从数据库中获取多个第三训练样本，还可以从第三方应用系统中获取多个第三训练样本。

第三训练样本包括：文本样本数据、语言类型和句向量特征标定值，其中，语言类型是文本样本数据中的文字的语言类型，句向量特征标定值是对文本样本数据的句向量特征的准确标定结果。

其中，根据每个所述第三训练样本和所述目标模型，确定所述第三训练样本中的语言类型对应的编码效果最好的编码层的编码层标识，然后根据各个所述第三训练样本中的语言类型和编码效果最好的编码层的编码层标识，确定所述语言类型与编码层标识映射表。

在一个实施例中，上述获取多个第一训练样本的步骤，包括：

S211：获取平行语料库；

S212：从所述平行语料库中获取语义相同并且语言类型不同的多个第一文本；

S213：将各个所述第一文本进行依次拼接，得到所述第一训练样本。

本实施例采用了平行语料库确定拼接文本中文第一训练样本，从而得到了语义相同并且语言类型不同的多个文本组成的训练样本，为对模型的预训练提供了支持。

对于S211，可以获取用户输入的平行语料库，也可以从数据库中获取平行语料库，还可以从第三方应用系统中获取平行语料库。

对于S212，从所述平行语料库中获取一个平行语料集，得到语义相同并且语言类型不同的多个第一文本。

对于S213，采用预设拼接顺序，将各个所述第一文本进行依次拼接，将拼接得到的文本作为所述第一训练样本。

在一个实施例中，上述获取多个第二训练样本的步骤，包括：

S231：采用所述单语言翻译模型集，对所述单种语言文本集中的每个单种语言文本分别进行翻译，得到多个翻译文本集；

S232：根据所述单种语言文本集和各个所述翻译文本集确定合成语料库；

S233：从所述合成语料库中获取语义相同并且语言类型不同的多个第二文本；

S234：将各个所述第二文本进行依次拼接，得到所述第二训练样本。

本实施例采用单种语言文本集和单语言翻译模型集构建合成语料库，采用合成语料库确定拼接文本作为第二训练样本，为对初步训练后的模型进行微调训练提供了支持。

对于S231，从所述单种语言文本集中获取一个单种语言文本作为初始文本；采用所述单语言翻译模型集中的每种所述单语言翻译模型，分别对初始文本进行翻译，得到翻译文本集；重复执行所述从所述单种语言文本集中获取一个单种语言文本作为初始文本的步骤，直至完成所述单种语言文本集中的单种语言文本的获取。也就是说，翻译文本集的数量与所述单种语言文本集中的单种语言文本的数量相同。

对于S232，从所述单种语言文本集和各个所述翻译文本集中获取语义相同的文本，将获取的语义相同的各个文本作为一个合成语料集，将所有合成语料集作为合成语料库。

合成语料集中的各个文本语义相同并且语言类型不同。

对于S233，从所述合成语料库中获取一个合成语料集，得到语义相同并且语言类型不同的多个第二文本。

对于S234，采用预设拼接顺序，将各个所述第二文本进行依次拼接，将拼接得到的文本作为所述第二训练样本。

在一个实施例中，上述根据多个所述第三训练样本和所述目标模型，确定所述语言类型与编码层标识映射表的步骤，包括：

S251：从多个所述第三训练样本中获取所述第三训练样本作为目标训练样本；

S252：将所述目标训练样本中的文本样本数据输入所述目标模型进行句向量特征提取；

S253：获取所述目标模型的每个编码层输出的待评估的句向量特征数据；

S254：根据各个所述待评估的句向量特征数据和所述目标训练样本分别进行编码效果评估及语言类型与编码层标识关系对确定；

S255：重复执行所述从多个所述第三训练样本中获取所述第三训练样本作为目标训练样本的步骤，直至完成所述第三训练样本的获取；

S256：根据各个所述语言类型与编码层标识关系对确定所述语言类型与编码层标识映射表。

本实施例根据多个所述第三训练样本和所述目标模型构建语言类型与编码层标识关系对，最后根据各个语言类型与编码层标识关系对确定语言类型与编码层标识映射表，为实现根据不同的语言类型采用不同的中间层的输出作为目标句向量特征数据提供了支持。

对于S251，依次从多个所述第三训练样本中获取一个所述第三训练样本，将获取的所述第三训练样本作为目标训练样本。

对于S252，将所述目标训练样本中的文本样本数据输入所述目标模型进行句向量特征提取，从而实现跨语言的特征提取。

对于S253，获取所述目标模型的每个编码层输出的待评估的句向量特征数据，也就是说，所述目标模型的每个编码层都将输出一个待评估的句向量特征数据。

对于S254，根据各个所述待评估的句向量特征数据和所述目标训练样本分别进行编码效果评估，然后确定编码效果最好编码层的编码层标识，最后根据编码效果最好的编码层标识和所述目标训练样本的语言类型确定语言类型与编码层标识关系对。

对于S255，重复执行步骤S251至步骤S255，直至完成所述第三训练样本的获取。

对于S256，将各个所述语言类型与编码层标识关系对放到一个映射表中，得到待优化的映射表。

待优化的映射表包括：语言类型和编码层标识，每个语言类型对应一个编码层标识。可以理解的是，待优化的映射表中的语言类型可以具有唯一性，也可以不具有唯一性。

其中，将任一语言类型作为待优化的语言类型；从待优化的映射表中获取待优化的语言类型对应的数据，作为映射子表；将映射子表中出现次数最多的编码层标识作为待优化的语言类型对应的待存储的编码层标识；将待优化的语言类型与待存储的编码层标识作为关联数据更新到所述语言类型与编码层标识映射表中。映射子表中的语言类型相同。

在一个实施例中，上述根据各个所述待评估的句向量特征数据和所述目标训练样本分别进行编码效果评估及语言类型与编码层标识关系对确定的步骤，包括：

S2541：分别计算每个所述待评估的句向量特征数据与所述目标训练样本中的句向量特征标定值之间的语义相似度，得到语义相似度集合；

S2542：从所述语义相似度集合中获取最大的语义相似度作为目标语义相似度；

S2543：将所述目标语义相似度对应的编码层的编码层标识作为待分析的编码层标识；

S2544：根据所述目标训练样本中的所述语言类型和所述待分析的编码层标识确定所述语言类型与编码层标识关系对。

本实施例根据语义相似度评估编码效果，然后确定编码效果最好的编码层标识，最后根据编码效果最好的编码层标识和所述目标训练样本的语言类型确定语言类型与编码层标识关系对，为确定语言类型与编码层标识映射表提供了基础。

对于S2541，采用余弦相似度算法，分别计算每个所述待评估的句向量特征数据与所述目标训练样本中的句向量特征标定值之间的语义相似度，将所有语义相似度作为语义相似度集合。也就是说，语义相似度集合中的语义相似度与所述待评估的句向量特征数据一一对应。

可以理解的是，还可以采用其他算法计算每个所述待评估的句向量特征数据与所述目标训练样本中的句向量特征标定值之间的语义相似度，比如，欧式距离算法，在此不做限定。

对于S2542，从所述语义相似度集合中获取最大的语义相似度，将获取的最大的语义相似度作为目标语义相似度，从而找到了针对所述目标训练样本编码效果最好的编码层输出的句向量特征数据对应的语义相似度。

对于S2543，将所述目标语义相似度在所述目标模型中对应的编码层的编码层标识作为待分析的编码层标识，从而找到了针对目标训练样本编码效果最好的编码层对应的编码层标识。

对于S2544，将所述目标训练样本中的所述语言类型和所述待分析的编码层标识作为关联数据，得到语言类型与编码层标识关系对。

参照图2，本申请还提出了一种基于人工智能的句向量特征提取装置，所述装置包括：

数据获取模块100，用于获取目标文本和与所述目标文本对应的目标语言类型；

句向量特征提取模块200，用于将所述目标文本输入目标模型进行句向量特征提取，其中，所述目标模型是采用训练文本和MLM训练方法训练Transformer类模型得到的模型，所述训练文本是语义相同并且语言类型不同的多个文本拼接得到的拼接文本；

目标句向量特征数据确定模块300，用于根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，作为目标句向量特征数据。

在一个实施例中，上述目标句向量特征数据确定模块300包括：映射表获取子模块、目标编码层标识确定子模块和句向量特征数据获取子模块；

所述映射表获取子模块，用于获取与所述目标模型对应的语言类型与编码层标识映射表；

所述目标编码层标识确定子模块，用于根据所述目标语言类型，从所述语言类型与编码层标识映射表中获取编码层标识，作为目标编码层标识；

所述句向量特征数据获取子模块，用于获取所述目标模型中的与所述目标编码层标识对应的编码层输出的所述句向量特征数据，作为所述目标句向量特征数据。

在一个实施例中，上述装置还包括：第一训练模块、第二训练模块和映射表确定模块；

所述第一训练模块，用于获取多个第一训练样本，每个所述第一训练样本是根据平行语料库确定的拼接文本，采用MLM训练方法，根据多个所述第一训练样本对初始模型进行训练，将训练结束的所述初始模型作为待微调的模型，其中，所述初始模型是Transformer类模型；

所述第二训练模块，用于获取多个第二训练样本，每个所述第二训练样本是根据单种语言文本集和单语言翻译模型集得到的拼接文本，采用MLM训练方法，根据多个所述第二训练样本对所述待微调的模型进行训练，将训练结束的所述待微调的模型作为所述目标模型；

所述映射表确定模块，用于获取多个第三训练样本，根据多个所述第三训练样本和所述目标模型，确定所述语言类型与编码层标识映射表。

在一个实施例中，上述第一训练模块包括：第一训练样本确定子模块；

所述第一训练样本确定子模块，用于获取平行语料库，从所述平行语料库中获取语义相同并且语言类型不同的多个第一文本，将各个所述第一文本进行依次拼接，得到所述第一训练样本。

在一个实施例中，上述第二训练模块包括：第二训练样本确定子模块；

所述第二训练样本确定子模块，用于采用所述单语言翻译模型集，对所述单种语言文本集中的每个单种语言文本分别进行翻译，得到多个翻译文本集，根据所述单种语言文本集和各个所述翻译文本集确定合成语料库，从所述合成语料库中获取语义相同并且语言类型不同的多个第二文本，将各个所述第二文本进行依次拼接，得到所述第二训练样本。

在一个实施例中，上述映射表确定模块包括：语言类型与编码层标识关系对确定子模块和语言类型与编码层标识映射表确定子模块；

所述语言类型与编码层标识关系对确定子模块，用于从多个所述第三训练样本中获取所述第三训练样本作为目标训练样本，将所述目标训练样本中的文本样本数据输入所述目标模型进行句向量特征提取，获取所述目标模型的每个编码层输出的待评估的句向量特征数据，根据各个所述待评估的句向量特征数据和所述目标训练样本分别进行编码效果评估及语言类型与编码层标识关系对确定，重复执行所述从多个所述第三训练样本中获取所述第三训练样本作为目标训练样本的步骤，直至完成所述第三训练样本的获取；

所述语言类型与编码层标识映射表确定子模块，用于根据各个所述语言类型与编码层标识关系对确定所述语言类型与编码层标识映射表。

在一个实施例中，上述语言类型与编码层标识关系对确定子模块包括：待分析的编码层标识和语言类型与编码层标识关系对确定单元；

所述待分析的编码层标识确定单元，用于分别计算每个所述待评估的句向量特征数据与所述目标训练样本中的句向量特征标定值之间的语义相似度，得到语义相似度集合，从所述语义相似度集合中获取最大的语义相似度作为目标语义相似度，将所述目标语义相似度对应的编码层的编码层标识作为待分析的编码层标识；

所述语言类型与编码层标识关系对确定单元，用于根据所述目标训练样本中的所述语言类型和所述待分析的编码层标识确定所述语言类型与编码层标识关系对。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存基于人工智能的句向量特征提取方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的句向量特征提取方法。所述基于人工智能的句向量特征提取方法，包括：获取目标文本和与所述目标文本对应的目标语言类型；将所述目标文本输入目标模型进行句向量特征提取，其中，所述目标模型是采用训练文本和MLM训练方法训练Transformer类模型得到的模型，所述训练文本是语义相同并且语言类型不同的多个文本拼接得到的拼接文本；根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，作为目标句向量特征数据。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种基于人工智能的句向量特征提取方法，包括步骤：获取目标文本和与所述目标文本对应的目标语言类型；将所述目标文本输入目标模型进行句向量特征提取，其中，所述目标模型是采用训练文本和MLM训练方法训练Transformer类模型得到的模型，所述训练文本是语义相同并且语言类型不同的多个文本拼接得到的拼接文本；根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，作为目标句向量特征数据。

上述执行的基于人工智能的句向量特征提取方法，本实施例通过获取目标文本和与所述目标文本对应的目标语言类型，将所述目标文本输入目标模型进行句向量特征提取，其中，所述目标模型是采用训练文本和MLM训练方法训练Transformer类模型得到的模型，所述训练文本是语义相同并且语言类型不同的多个文本拼接得到的拼接文本，根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，作为目标句向量特征数据，通过采用训练文本和MLM训练方法训练Transformer类模型得到的模型，避免了在具有挑战性的环境下可能不具有稳健性的问题；通过训练文本是语义相同并且语言类型不同的多个文本拼接得到的拼接文本，增强了模型内部特征表示的跨语言对齐，提高了特征提取的准确性；通过根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，实现根据不同的语言类型采用不同的中间层的输出作为目标句向量特征数据，进一步提高了特征提取的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于人工智能的句向量特征提取方法，其特征在于，所述方法包括：

获取目标文本和与所述目标文本对应的目标语言类型；

2.根据权利要求1所述的基于人工智能的句向量特征提取方法，其特征在于，所述根据所述目标语言类型获取所述目标模型的编码层输出的句向量特征数据，作为目标句向量特征数据的步骤，包括：

获取与所述目标模型对应的语言类型与编码层标识映射表；

3.根据权利要求2所述的基于人工智能的句向量特征提取方法，其特征在于，所述将所述目标文本输入目标模型进行句向量特征提取的步骤之前，还包括：

4.根据权利要求3所述的基于人工智能的句向量特征提取方法，其特征在于，所述获取多个第一训练样本的步骤，包括：

获取平行语料库；

5.根据权利要求3所述的基于人工智能的句向量特征提取方法，其特征在于，所述获取多个第二训练样本的步骤，包括：

6.根据权利要求3所述的基于人工智能的句向量特征提取方法，其特征在于，所述根据多个所述第三训练样本和所述目标模型，确定所述语言类型与编码层标识映射表的步骤，包括：

7.根据权利要求6所述的基于人工智能的句向量特征提取方法，其特征在于，所述根据各个所述待评估的句向量特征数据和所述目标训练样本分别进行编码效果评估及语言类型与编码层标识关系对确定的步骤，包括：

8.一种基于人工智能的句向量特征提取装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。