CN114818960A

CN114818960A - 训练数据生成方法、装置、设备及存储介质

Info

Publication number: CN114818960A
Application number: CN202210504129.0A
Authority: CN
Inventors: 司世景; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-07-29

Abstract

本申请涉及人工智能技术领域，本申请公开了一种训练数据生成方法、装置、设备及存储介质，将待处理图文数据分别处理为对应的特征向量，根据目标图像处理模型进行特征提取处理，确定待处理图像对应的待处理图像特征向量，根据目标语言处理模型进行编码处理，确定待处理文本对应的待处理文本特征向量，以准确提取不同模态的特征向量；将待处理图像特征向量和待处理文本特征向量进行特征融合处理，确定待处理图文数据对应的融合特征向量，并根据待处理图文数据及对应的融合特征向量，从而利用待处理图文数据及不同模态的融合特征向量作为模型训练数据，强化模型训练数据的特征，进而提高所训练模型的准确率。

Description

训练数据生成方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种训练数据生成方法、装置、计算机设备及存储介质。

背景技术

自然语言处理是为了让计算机理解人类的语言，从而更好地实现人与计算之间的交互(如语音助手、消息自动回复、翻译软件等应用与人的交互)。自然语言处理通常包括分词、词性标注、命名训练数据生成和语法分析。命名训练数据生成(Named EntityRecognition,简称NER)是自然语言处理(Natural Language Processing，简称NLP)的一个重要组成部分。命名训练数据生成是指识别文本中具有特定意义的事物名称或者符号的过程，命名实体主要包括人名、地名、机构名、日期、专有名词等。

现有技术中，实体识别模型所使用应用场景多对应的语料库作为模型训练数据，但该模型训练数据对实体识别模型的训练方式较为单一，从而导致训练出的实体识别模型在下游任务时，所识别结果准确率不足。

发明内容

本申请提供一种训练数据生成方法、装置、计算机设备及存储介质，解决了现有技术中模型训练数据单一，所训练出的实体识别模型，在下游任务时识别结果准确率较低的问题。

本申请实施例提供了一种训练数据生成方法，包括：

获取目标应用场景对应的待处理图文数据，所述待处理图文数据包括待处理图像和待处理文本；

采用所述目标应用场景对应的目标图像处理模型，对所述待处理图像进行特征提取处理，获取所述待处理图像对应的待处理图像特征向量；

采用所述目标应用场景对应的目标语言处理模型，对所述待处理文本进行编码处理，获取所述待处理文本对应的待处理文本特征向量；

对所述待处理图像特征向量和所述待处理文本特征向量进行特征融合处理，获取所述待处理图文数据对应的融合特征向量；

根据所述待处理图文数据和所述融合特征向量，获取模型训练数据。

本申请实施例还提供了一种训练数据生成装置，包括：

待处理图文数据获取模块，获取目标应用场景对应的待处理图文数据，所述待处理图文数据包括待处理图像和待处理文本；

待处理图像特征向量获取模块，采用所述目标应用场景对应的目标图像处理模型，对所述待处理图像进行特征提取处理，获取所述待处理图像对应的待处理图像特征向量；

待处理文本特征向量获取模块，采用所述目标应用场景对应的目标语言处理模型，对所述待处理文本进行编码处理，获取所述待处理文本对应的待处理文本特征向量；

融合特征向量获取模块，对所述待处理图像特征向量和所述待处理文本特征向量进行特征融合处理，获取所述待处理图文数据对应的融合特征向量；

模型训练数据获取模块，根据所述待处理图文数据和所述融合特征向量，获取模型训练数据。

本申请实施例还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实现训练数据生成方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述实现训练数据生成方法的步骤。

上述的训练数据生成方法、装置、计算机设备及存储介质，将待处理图文数据分别处理为对应的特征向量，根据目标图像处理模型进行特征提取处理，确定待处理图像对应的待处理图像特征向量，根据目标语言处理模型进行编码处理，确定待处理文本对应的待处理文本特征向量，以准确提取不同模态的特征向量；将待处理图像特征向量和待处理文本特征向量进行特征融合处理，确定待处理图文数据对应的融合特征向量，并根据待处理图文数据及对应的融合特征向量，从而利用待处理图文数据及不同模态的融合特征向量作为模型训练数据，强化模型训练数据的特征，进而提高所训练模型的准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中训练数据生成方法的一应用环境示意图；

图2是本发明一实施例中训练数据生成方法的一流程图；

图3是本发明一实施例中训练数据生成方法的另一流程图；

图4是本发明一实施例中训练数据生成方法的另一流程图；

图5是本发明一实施例中训练数据生成方法的另一流程图；

图6是本发明一实施例中训练数据生成装置的一示意图；

图7是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的训练数据生成方法，可应用在如图1示出的应用环境中。如图1所示，客户端(计算机设备)通过网络与服务器进行通信。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序，客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本发明实施例提供的训练数据生成方法，该训练数据生成方法可应用如图1所示的应用环境中。具体地，该训练数据生成方法应用在训练数据生成系统中，该训练数据生成系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于实现对待处理图文数据进行特征提取和特征融合，以方便对待处理图文数据进行训练数据生成处理，有助于提高训练数据生成的适用性。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在一实施例中，如图2所示，提供一种训练数据生成方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S201：获取目标应用场景对应的待处理图文数据，待处理图文数据包括待处理图像和待处理文本；

S202：采用目标应用场景对应的目标图像处理模型，对待处理图像进行图像特征提取，获取待处理图像特征向量；

S203：采用目标应用场景对应的目标语言处理模型，对待处理文本进行文本特征提取，获取待处理文本特征向量；

S204：对待处理图像特征向量和待处理文本特征向量进行特征融合处理，获取待处理图文数据对应的融合特征向量；

S205：根据待处理图文数据和融合特征向量，获取模型训练数据。

其中，目标应用场景是指本次需要分析的应用场景，具体可以为特定应用程序对应的场景。

其中，待处理图文数据包括待处理图像和待处理文本，该待处理图像和待处理文本为一种实体对应的不同模态的数据，通常某一实体在不同模态具有对应的标识，包括但不限于实体对应图像模态的实体图像，如实体的各状态下的图像数据；实体对应文本模态的实体文本，如实体的各语言的命名数据；实体对应音频模态的实体音频，如实体的各语言的命名读音数据。

作为一示例，步骤S201中，服务器可获取目标应用场景对应的待处理图文数据，此处的目标应用场景可由待处理图文数据中的图文内容确定，也可以为特定应用程序对应的功能确定，例如，APP1为矿业领域APP，则该目标应用场景为矿业领域使用的产品。可理解地，服务器获取目标应用场景对应的待处理图文数据，以便后续进行特征提取，强化待处理图文数据不同模态的特征，从而提高待处理图文数据对应模型训练数据所训练的实体识别模型的准确率。

例如，通过将矿业领域作为目标应用场景，获取将矿业领域某一实体对应图像模态和文本模态的图文数据作为待处理图文数据，通过目标应用场景对应的目标图像处理模型和目标语言处理模型对待处理图文数据进行处理，获取到对应的模型训练数据。目标图像处理模型和目标语言处理模型通过目标应用场景对应的数据进行训练后，用于目标应用场景中特征向量的提取。

其中，目标图像处理模型通过目标应用场景对应的图像数据对其进行预先训练后得出，目标图像处理模型可以但不限于使用图像卷积神经网络构成，利用目标应用场景对应的图像数据进行训练后，从而保证目标应用场景对应的待处理图像进行特征提取的准确率。

作为一示例，步骤S202中，服务器对所获取到的待处理图像进行特征提取处理，通过目标应用场景对应的目标图像处理模型，以获取待处理图像对应的待处理图像特征向量，用于挖掘待处理图像的图像特征，并用于后续的特征融合处理。本示例中，由于待处理图像为目标应用场景对应的图像，采用目标应用场景对应的目标图像处理模型对待处理图像进行特征提取，使得其特征提取过程更具有针对性，进而保障待处理图像特征向量提取的准确性。

其中，目标语言处理模型通过目标应用场景对应的文本数据对其进行预先训练后得出，目标语言处理模型可以但不限于使用BERT模型(BidirectionalEncoderRepresentations from Transformer)，利用目标应用场景对应的文本数据进行训练后，从而保证目标应用场景对应的待处理文本进行特征提取的准确率。

作为一示例，步骤S203中，服务器对所获取到的待处理文本进行编码处理，通过目标应用场景对应的目标语言处理模型，以获取待处理文本对应的待处理文本特征向量，用于挖掘待处理文本的语义特征，并用于后续的特征融合处理。本示例中，由于待处理文本为目标应用场景对应的文本，采用目标应用场景对应的目标文本处理模型对待处理文本进行特征提取，使得其特征提取过程更具有针对性，进而保障待处理文本特征向量提取的准确性。

其中，向量拼接是一种特征融合方法，将某一模态特征向量与其其他模态特征向量进行拼接，从而获得对应的融合特征向量，拼接完后的融合特征向量经常可以用线性映射转换为不同维度进行利用。

作为一示例，步骤S204中，服务器在获取到经过提取到的待处理图像特征向量和待处理文本特征向量后，通过向量融合处理，得到多个模态数据的特征表示，也就是融合后待处理图文数据对应的融合特征向量。在本示例中，通过将图像模态对应的待处理图像特征向量和文本模态对应的待处理文本特征向量，进行一定方式的融合处理，得到具有两种模态之间关联关系的融合特征向量。

作为一示例，步骤S205中，服务器将所获取到待处理图文数据对应的融合特征向量进行整理关联，并将待处理图文数据和融合特征向量作为模型训练数据，训练对应的实体识别模型。本示例中，通过图像模态和文本模态两个模态，生成对应的融合特征向量，强化了融合特征向量所对应的模型训练数据，从而提高了所训练实体识别模型执行下游任务时的准确性。

在本示例中，将获取目标应用场景对应的图像模态和文本模态所对应的待处理图文数据；利用目标应用场景对应的目标图像处理模型对待处理图像进行图像特征提取，再利用目标应用场景对应的目标语言处理模型对待处理文本进行目标特征提取，以保障获取到的待处理图像特征向量和待处理文本特征向量的精确性；再对待处理图像特征向量和待处理文本特征向量进行特征融合处理，使得获取到的整合特征向量更为显著，进而具有不同模态关联性的模型训练数据，用于提高所训练的实体识别模型的精准度。

在一实施例中，如图3所示，步骤S201：获取待处理图文数据之前，训练数据生成方法还包括：

S301：从目标应用场景对应的应用场景图像库中，获取至少两个第一训练图像；

S302：对第一训练图像进行数据增强处理，获取第二训练图像；

S303：对第一训练图像和第二训练图像进行图像特征提取，获取第一图像特征向量和第二图像特征向量；

S304：将第一图像特征向量和第二图像特征向量输入图像处理模型，获取目标应用场景对应的目标图像处理模型。

其中，第一训练图像是用于训练目标图像处理模型的图像。

作为一示例，步骤S301中，服务器根据业务需要，从目标应用场景对应的应用场景图像库中，获取至少两个第一训练图像，用于训练目标应用场景对应的目标图像处理模型。在本示例中，将矿业领域作为目标应用场景，获取目标应用场景的应用场景图像库，应用场景图像库包括矿业领域的实体图像作为第一训练图像。

作为一示例，步骤S302中，服务器对所获得的第一训练图像进行数据增强处理，获取第二训练图像，用于图像处理模型的训练，进而得到目标图像处理模型。其中，第二训练图像可以为至少两个，通过不同的数据增强方式进行获得，以保障目标图像处理模型进行模型训练的数据量，进而保障目标图像处理模型的准确性。

本示例中，可以通过像素变换的数据增强方式，对第一训练图像进行模糊、均衡化、拼接或颜色空间变换等方式，获取第二训练图像；还可以通过空间变换的方式，对第一训练图像进行仿射变换、弹性变换或网格畸变等方式，获取第二训练图像。

作为一示例，步骤S303中，服务器对第一训练图像和第二训练图像进行图像特征提取，获取用于目标图像处理模型进行训练的第一图像特征向量和第二图像特征向量。其中，可以根据第一训练图像和第二训练图像的像素值，通过卷积神经网络进行提取第一图像特征向量和第二图像特征向量。

其中，图像处理模型是用于实现图像处理的神经网络。

作为一示例，步骤S304中，服务器将第一训练图像、第二训练图像、第一图像特征向量和第二图像特征向量输入图像处理模型，通过图像处理模型进行模型训练，更新图像处理模型的参数，以获取目标应用场景对应的目标图像处理模型。例如，图像处理模型对第一图像特征向量和第二图像特征向量进行相似度计算，从而得到第一图像特征向量和第二图像特征向量对应的图像相似度，将图像相似度作为loss用于修改图像处理模型的参数，得到目标应用场景对应的目标图像处理模型。

在本示例中，通过目标应用场景对应的应用场景图像库，获取其中的至少两个第一训练图像，并对所获得的第一训练图像进行数据增强和图像特征提取后，从而对图像处理模型进行训练，以获取在目标应用场景下具有一定准确度的目标图像处理模型，提高后续目标应用场景下的待处理图文数据的处理准确度。

在一实施例中，步骤S303，即对第一训练图像和第二训练图像进行特征提取处理，获取第一图像特征向量和第二图像特征向量，包括：

S3031：对第一训练图像和第二训练图像进行图像特征提取，获取第一原始图像向量和第二原始图像向量；

S3032：对第一原始图像向量和第二原始图像向量进行非线性变换处理，获取第一图像特征向量和第二图像特征向量。

作为一示例，步骤S3031中，服务器获取第一训练图像和第二训练图像所对应的像素值；利用卷积神经网络，对第一训练图像和第二训练图像所对应的一定大小矩阵内的像素值进行处理，即对第一训练图像和第二训练图像所对应的像素矩阵进行处理，获取第一训练图像对应的像素矩阵和第二训练图像对应的像素矩阵；再根据第一训练图像对应的像素矩阵，获取第一原始图像向量，根据第二训练图像对应的像素矩阵，获取第二原始图像向量。

其中，计算机以数字的形式存储图像，通过卷积神经网络中的输入层将图像每个像素中表示为对应的数值，作为表示像素的强度的像素值，而图像是由多个像素组成，像素值转化为一定大小矩阵内的像素值，也就是像素矩阵。像素值具有一定的范围，例如，对于灰度或黑白图像，我们的像素值范围是0到255。

作为一示例，步骤S3032中，服务器将获取到的第一原始图像向量和第二原始图像向量，分别进行非线性变换处理，以获取第一图像特征向量和第二图像特征向量。即对第一原始图像向量进行非线性变换处理，获取第一原始图像对应的第一图像特征向量；对第二原始图像向量进行非线性变换处理，以获取第二原始图像对应的第二图像特征向量。

进一步地，步骤S3032中，服务器将获取到的第一原始图像向量和第二原始图像向量，分别进行非线性变换处理并进行特征值分解，以获取第一图像特征向量和第二图像特征向量。即，服务器先对第一原始图像向量进行非线性变换处理，再对变换后的第一原始图像向量进行特征值分解，以获取第一训练图像对应的第一图像特征向量；先对第二原始图像向量进行非线性变换处理，再对变换后的第二原始图像向量进行特征值分解，以获取第二训练图像对应的第二图像特征向量。其中，特征值分解是将矩阵提取图像特征向量的方法，通过将矩阵分解为由其特征值和特征向量表示的矩阵之积的方法，从而提取特征更为显著的图像特征向量。

在本示例中，利用卷积神经网络对第一训练图像和第二训练图像进行特征提取处理，保证所提取的第一图像特征向量和第二图像特征向量的准确率，以利于后续处理的准确度。

在一实施例中，如图4所示，步骤S201：获取待处理图文数据之前，训练数据生成方法还包括：

S401：从目标应用场景对应的应用场景语料库中，获取至少两个第一训练文本；

S402：对第一训练文本进行数据增强处理，获取第二训练文本；

S403：对第一训练文本和第二训练文本进行文本特征提取，获取第一文本特征向量和第二文本特征向量；

S404：将第一文本特征向量和第二文本特征向量输入语言处理模型，获取目标语言处理模型。

其中，第一训练文本是用于训练目标语言处理模型的文本。作为一示例，步骤S401中，服务器从目标应用场景对应的应用场景语料库中，获取至少两个第一训练文本，用于训练目标应用场景对应的目标语言处理模型。在本示例中，将矿业领域作为应用场景，获取对应的应用场景的应用场景语料库，应用场景语料库包括矿业领域的实体文本作为第一训练文本。

作为一示例，步骤S402中，服务器将所获得的第一训练文本进行数据增强处理，获取第二训练文本，用于语言处理模型的训练，进而得到目标语言处理模型。

在本示例中，可以对第一训练文本通过回译的方式进行数据增强处理，回译就是通过翻译工具将一段文本翻译为另一种语言，再把这翻译的另一种语言再翻译为原来的语言，最后得到一个意思相近但表达方式不同的文本。还可以对第一训练文本通过simCSE模型进行数据增强处理，simCSE模型通过Dropout获取第一训练文本和与它语义相似的第二训练文本。其中，simCSE模型通过Dropout还可以获取到第一训练文本和与它语义相反的第二训练文本。

其中，simCSE模型(Simple Contrastive Learning of Sentence Embeddings)是一种无监督数据的情况下进行对比学习的模型。simCSE模型通过随机采样dropout mask的操作来构造相似样本。具体操作是为在全连接层和注意力求和操作上进行dropout mask操作，模型训练的时候会将一条样本复制两份，由于BERT内部每次dropout时都会随机生成一个不同的dropout mask，所以不需要改变原始的BERT模型，只需要把样本喂给模型两次，就可以得到两个不同dropout mask的结果，这样就得到了相似样本对，将这两条样本放到同一个编码器中就可以得到两个不同的表示向量。

作为一示例，步骤S403中，服务器采用BERT模型，对第一训练文本和第二训练文本进行文本特征提取，获取第一文本特征向量和第二文本特征向量。本示例中，服务器可采用BERT模型，对第一训练文本和第二训练文本进行编码处理，从而获取到第一训练文本对应的具有标签的第一文本特征向量，以及第二训练文本对应的具有标签的第二文本特征向量。其中，使用BERT模型对训练文本进行编码处理，所输出的文本特征向量语义更为精准，包含语义之间对应的关联性。

作为一示例，步骤S404中，服务器将第一文本特征向量和第二文本特征向量输入语言处理模型，通过语言处理模型进行模型训练，更新语言处理模型的参数，以获取目标应用场景对应的目标语言处理模型。本示例中，可采用语言处理模型，对第一文本特征向量和第二文本特征向量进行相似度计算，从而得到第一文本特征向量和第二文本特征向量对应的文本相似度，将文本相似度作为loss用于修改语言处理模型的参数，得到目标语言处理模型。

在本示例中，通过目标应用场景对应的应用场景语料库0，获取其中的至少两个第一训练文本，并利用simCSE模型对第一训练文本的数据增强，获取高质量的第二训练文本，通过编码器BERT处理后，输入语言处理模型进行训练，从而获得具有一定准确度的目标语言处理模型，提高后续目标应用场景下的待处理图文数据的处理准确度。

在一实施例中，步骤S401，即对第一训练文本进行数据增强处理，获取第二训练文本，包括：

S4011：对第一训练文本进行数据增强，获取至少两个增强训练文本；

S4012：对第一训练文本和至少两个增强训练文本进行余弦相似度计算，获取至少两个余弦相似度；

S4013：对至少两个余弦相似度进行筛选处理，获取最大余弦相似度对应的第二训练文本。

作为一示例，步骤S4011中，服务器对所获取的第一训练文本进行数据增强，进而获得用于训练目标语言处理模型的至少两个增强训练文本。在本示例中，通过simCSE模型对第一训练文本进行数据增强处理，simCSE模型可以通过Dropout获取第一训练文本和与它语义相似的增强训练文本，以及和与第一训练文本的语义相反的增强训练文本。

作为一示例，步骤S4012中，服务器对第一训练文本和至少两个增强训练文本进行余弦相似度计算，从而获得至少各增强训练文本与第一训练文本所对应的余弦相似度。其中，相似度用于各确认训练文本与第一训练文本之间的语义关系。

作为一示例，步骤S4013中，服务器对对各训练文本与第一训练文本的余弦相似度进行筛选处理，获取与第一训练文本语义最相近的训练文本，即余弦相似度相似度最大的文本，作为第二训练文本，以用于目标语言处理模型的训练。

在本示例中，通过筛选出simCSE所产生的增强训练文本中的正增强训练文本作为第二训练文本，也就是与第一训练文本语义相近的增强训练文本，以提高第一训练文本和第二训练文本所训练语言处理模型的精度。

在一实施例中，如图5所示，步骤S204，对待处理图像特征向量和待处理文本特征向量进行特征融合处理，获取待处理图文数据对应的融合特征向量，包括：

S501：对待处理图像特征向量和待处理文本特征向量进行乘积运算，获取乘积特征向量；

S502：对待处理图像特征向量和待处理文本特征向量进行差值运算，获取差值特征向量；

S503：对待处理图像特征向量、待处理文本特征向量、乘积特征向量和差值特征向量进行拼接处理，获取待处理图像特征向量和待处理文本特征向量对应的融合特征向量。

作为一示例，步骤S501中，服务器通过将待处理图像特征向量和待处理文本特征向量进行乘积运算，通过获取图像模态对应的待处理图像特征向量和文本模态对应的待处理文本特征向量之间的乘积，以确认两者之间相似度，用于接下来的向量拼接处理。

作为一示例，步骤S502中，服务器对待处理图像特征向量和待处理文本特征向量进行差值运算，通过获取图像模态对应的待处理图像特征向量和文本模态对应的待处理文本特征向量之间的差值，以确认两者之间差异特征所对应的差值特征向量，用于接下来的向量拼接处理。

作为一示例，步骤S503中，服务器对所获取到的待处理图像特征向量、待处理文本特征向量、乘积特征向量和差值特征向量进行拼接处理，以获取待处理图像特征向量和待处理文本特征向量对应的融合特征向量，通过融合特征向量强化待处理图文数据所对应的模型训练数据的特征，提高不同模态数据在模型训练数据中的关联性，从而保证所训练模型用于下游任务时的精确度。

在本示例中，的待处理图像特征向量、待处理文本特征向量、乘积特征向量和差值特征向量拼接处理过程如下：

其中，s为融合特征向量；x_w为待处理文本特征向量；x_p为待处理文本特征向量；

为向量之间的拼接处理(concatenation)，⊙为向量之间的乘积运算，-为向量之间的差值运算。

在本示例中，通过获取待处理图像特征向量和待处理文本特征向量之间的差异和乘积的结果，利用对待处理图像特征向量、待处理文本特征向量、乘积特征向量和差值特征向量进行拼接处理，获得特征更为显著，并具有不同模态关联性的融合特征向量对应的模型训练数据，用于提高所训练的实体识别模型的精准度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种训练数据生成装置，该训练数据生成装置与上述实施例中训练数据生成方法一一对应。如图6所示，该训练数据生成装置包括待处理图文数据获取模块801、待处理图像特征向量获取模块802、待处理文本特征向量获取模块803、融合特征向量获取模块804和模型训练数据获取模块805，各功能模块详细说明如下：

待处理图文数据获取模块801，获取目标应用场景对应的待处理图文数据，待处理图文数据包括待处理图像和待处理文本；

待处理图像特征向量获取模块802，采用目标应用场景对应的目标图像处理模型，对待处理图像进行特征提取处理，获取待处理图像对应的待处理图像特征向量；

待处理文本特征向量获取模块803，采用目标应用场景对应的目标语言处理模型，对待处理文本进行编码处理，获取待处理文本对应的待处理文本特征向量；

融合特征向量获取模块804，对待处理图像特征向量和待处理文本特征向量进行特征融合处理，获取待处理图文数据对应的融合特征向量；

模型训练数据获取模块805，根据待处理图文数据和融合特征向量，获取模型训练数据。

在一实施例中，融合特征向量获取模块804，包括：

乘积特征向量获取单元，对待处理图像特征向量和待处理文本特征向量进行乘积运算，获取乘积特征向量；

差值特征向量获取单元，对待处理图像特征向量和待处理文本特征向量进行差值运算，获取差值特征向量；

融合特征向量获取单元，对待处理图像特征向量、待处理文本特征向量、乘积特征向量和差值特征向量进行拼接处理，获取待处理图像特征向量和待处理文本特征向量对应的融合特征向量。

在一实施例中，提供一种训练数据生成装置，还包括：

第一训练图像获取单元，从目标应用场景对应的应用场景图像库中，获取至少两个第一训练图像；

第二训练图像获取单元，对第一训练图像进行数据增强处理，获取第二训练图像；

图像特征向量获取单元，对第一训练图像和第二训练图像进行特征提取处理，获取第一图像特征向量和第二图像特征向量；

目标图像处理模型获取单元，将第一图像特征向量和第二图像特征向量输入图像处理模型，获取目标图像处理模型。

在一实施例中，图像特征向量获取单元，包括：

原始图像向量获取子单元，对第一训练图像和第二训练图像提取特征向量，获取第一原始图像向量和第二原始图像向量；

图像特征向量获取子单元，对第一原始图像向量和第二原始图像向量进行非线性变换处理，获取第一图像特征向量和第二图像特征向量。

在一实施例中，提供一种训练数据生成装置，还包括：

第一训练文本获取单元，从目标应用场景对应的应用场景语料库中，获取至少两个第一训练文本；

第二训练文本获取单元，对第一训练文本进行数据增强处理，获取第二训练文本；

文本特征向量获取单元，对第一训练文本和第二训练文本进行编码处理，获取第一文本特征向量和第二文本特征向量；

目标语言处理模型获取单元，将第一文本特征向量和第二文本特征向量输入语言处理模型，获取目标语言处理模型。

在一实施例中，第二训练文本获取单元，，包括：

增强训练文本获取子单元，对第一训练文本进行数据增强，获取至少两个增强训练文本；

余弦相似度获取子单元，对第一训练文本和至少两个增强训练文本进行余弦相似度计算，获取至少两个余弦相似度；

第二训练文本获取子单元，对至少两个余弦相似度进行筛选处理，获取最大余弦相似度对应的第二训练文本。

关于训练数据生成装置的具体限定可以参见上文中对于训练数据生成方法的限定，在此不再赘述。上述训练数据生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于执行训练数据生成方法过程中采用或生成的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种训练数据生成方法。

在一实施例中，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中训练数据生成方法，例如图2所示S201-S205，或者图3至图5中所示，为避免重复，这里不再赘述。或者，处理器执行计算机程序时实现训练数据生成装置这一实施例中的各模块/单元的功能，例如图6所示的待处理图文数据获取模块801、待处理图像特征向量获取模块802、待处理文本特征向量获取模块803、融合特征向量获取模块804和模型训练数据获取模块805的功能，为避免重复，这里不再赘述。

在一实施例中，提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中训练数据生成方法，例如图2所示S201-S205，或者图3至图5中所示，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述训练数据生成装置这一实施例中的各模块/单元的功能，例如图6所示的待处理图文数据获取模块801、待处理图像特征向量获取模块802、待处理文本特征向量获取模块803、融合特征向量获取模块804和模型训练数据获取模块805的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种训练数据生成方法，其特征在于，包括：

采用所述目标应用场景对应的目标图像处理模型，对所述待处理图像进行图像特征提取，获取所述待处理图像特征向量；

采用所述目标应用场景对应的目标语言处理模型，对所述待处理文本进行文本特征提取，获取所述待处理文本特征向量；

2.如权利要求1所述的训练数据生成方法，其特征在于，所述对所述待处理图像特征向量和所述待处理文本特征向量进行特征融合处理，获取所述待处理图文数据对应的融合特征向量，包括：

对所述待处理图像特征向量和所述待处理文本特征向量进行乘积运算，获取乘积特征向量；

对所述待处理图像特征向量和所述待处理文本特征向量进行差值运算，获取差值特征向量；

对所述待处理图像特征向量、所述待处理文本特征向量、所述乘积特征向量和所述差值特征向量进行拼接处理，获取所述待处理图像特征向量和所述待处理文本特征向量对应的所述融合特征向量。

3.如权利要求1所述的训练数据生成方法，其特征在于，在所述获取待处理图文数据之前，所述训练数据生成方法还包括：

从所述目标应用场景对应的应用场景图像库中，获取至少两个第一训练图像；

对所述第一训练图像进行数据增强处理，获取第二训练图像；

对所述第一训练图像和所述第二训练图像进行图像特征提取，获取第一图像特征向量和第二图像特征向量；

将所述第一图像特征向量和所述第二图像特征向量输入图像处理模型，获取所述目标应用场景对应的目标图像处理模型。

4.如权利要求3所述的训练数据生成方法，其特征在于，所述对所述第一训练图像和所述第二训练图像进行特征提取处理，获取第一图像特征向量和第二图像特征向量，包括：

对所述第一训练图像和所述第二训练图像进行图像特征提取，获取第一原始图像向量和第二原始图像向量；

对所述第一原始图像向量和所述第二原始图像向量进行非线性变换处理，获取所述第一图像特征向量和所述第二图像特征向量。

5.如权利要求1所述的训练数据生成方法，其特征在于，在所述获取待处理图文数据，所述待处理图文数据包括待处理图像和待处理文本之前，所述训练数据生成方法还包括：

从所述目标应用场景对应的应用场景语料库中，获取至少两个第一训练文本；

对所述第一训练文本进行数据增强处理，获取第二训练文本；

对所述第一训练文本和所述第二训练文本进行编码处理，获取第一文本特征向量和第二文本特征向量；

将所述第一文本特征向量和所述第二文本特征向量输入语言处理模型，获取目标语言处理模型。

6.如权利要求5所述的训练数据生成方法，其特征在于，所述对所述第一训练文本进行数据增强处理，获取第二训练文本，包括：

对所述第一训练文本进行数据增强，获取至少两个增强训练文本；

对所述第一训练文本和所述至少两个增强训练文本进行余弦相似度计算，获取至少两个余弦相似度；

对至少两个所述余弦相似度进行筛选处理，获取最大余弦相似度对应的第二训练文本。

7.一种训练数据生成装置，其特征在于，包括：

8.如权利要求7所述的训练数据生成装置，其特征在于，所述融合特征向量获取模块，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述训练数据生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述训练数据生成方法。