CN110163220A

CN110163220A - 图片特征提取模型训练方法、装置和计算机设备

Info

Publication number: CN110163220A
Application number: CN201910343280.9A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-08-23
Anticipated expiration: 2039-04-26
Also published as: CN110163220B

Abstract

本申请涉及一种图片特征提取模型训练方法、装置和计算机设备，所述方法包括：获取训练样本对及对应的分类标签；所述训练样本对包括文本和相应图片；通过预训练的文本特征提取模型提取所述文本的文本特征；通过待训练的图片特征提取模型提取所述图片的图片特征；将所述文本特征及所述图片特征输入图片分类器，得到预测分类结果；按照所述预测分类结果与所述分类标签的差异，调整所述图片特征提取模型及所述图片分类器的参数并继续训练，直至满足训练停止条件时结束训练。本申请提供的方案可以实现无需依赖图片中描述文本快速准确提取图片语义。

Description

图片特征提取模型训练方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种图片特征提取模型训练方法、装置和计算机设备。

背景技术

随着计算机技术的发展，通过计算机设备来处理各种复杂问题或者和人们进行互动已变得越来越频繁。比如，通过计算机设备来帮助人们理解图片。图片相比文字，可以更加形象地传达出用户所要表达的语义，也更加生动有趣，从而被广泛用于社交互动。通过计算机设备提取图片语义，可以辅助提高用户进行消息回复、图片开发等的效率。

传统方式提取图片语义需要依赖图片中的描述文本，而大量图片并不具备描述文本，使得该类图片的语义难以得到快速准确提取。

发明内容

基于此，有必要针对不具备描述文本的图片难以快速准确提取其语义的技术问题，提供一种图片特征提取方法、装置和计算机设备。

一种图片特征提取模型训练方法，所述方法包括：

获取训练样本对及对应的分类标签；所述训练样本对包括文本和相应图片；

通过预训练的文本特征提取模型提取所述文本的文本特征；

通过待训练的图片特征提取模型提取所述图片的图片特征；

将所述文本特征及所述图片特征输入图片分类器，得到预测分类结果；

按照所述预测分类结果与所述分类标签的差异，调整所述图片特征提取模型及所述图片分类器的参数并继续训练，直至满足训练停止条件时结束训练。

一种图片特征提取模型训练装置，所述装置包括：

样本构建模块，用于获取训练样本对及对应的分类标签；所述训练样本对包括文本和相应图片；

特征提取模块，用于通过预训练的文本特征提取模型提取所述文本的文本特征；通过待训练的图片特征提取模型提取所述图片的图片特征；

图片分类模块，用于将所述文本特征及所述图片特征输入图片分类器，得到预测分类结果；

模型训练模块，用于按照所述预测分类结果与所述分类标签的差异，调整所述图片特征提取模型及所述图片分类器的参数并继续训练，直至满足训练停止条件时结束训练。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述图片特征提取模型训练方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述图片特征提取模型训练方法的步骤。

上述图片特征提取模型训练方法、装置、计算机可读存储介质和计算机设备，通过预训练的文本特征提取模型提取训练样本对中文本的文本特征，可以快速准确的获得文本的语义；将文本特征以及基于待训练的图片特征提取模型提取得到的训练样本对中图片的图片特征一起输入图片分类器进行处理，可以根据得到的预测分类结果与训练样本对对应的分类标签的差异，逐步对图片特征提取模型中的参数进行调整。这样，在参数调整过程中，使得图片特征提取模型既能充分利用图片本身的特征，又能结合训练样本对中文本的语义。在基于图片特征提取模型对图片进行语义理解时，得到了图片特征和文本特征的双重指导，在无需依赖图片中描述文本的前提下，可以大大提高了图片语义信息的准确性。

附图说明

图1为一个实施例中图片特征提取模型训练方法的应用环境图；

图2为一个实施例中图片特征提取模型训练方法的流程示意图；

图3为一个实施例中图片特征提取模型训练方法的流程示意图；

图4为一个实施例中获取训练样本对及对应的分类标签步骤的流程示意图；

图5a为一个实施例中预设语料库中文本会话对的示意图；

图5b为一个实施例中预设语料库中图文会话对的示意图；

图6为一个实施例中图片特征提取模型训练方法的流程示意图；

图7a为一个实施例中基于训练结束后的图片特征提取模型的会话系统的框架示意图；

图7b为一个实施例中基于训练结束后的图片特征提取模型进行图片回复的流程示意图；

图8为一个实施例中图片特征提取模型训练方法的流程示意图；

图9a为另一个实施例中基于训练结束后的图片特征提取模型的会话系统的框架示意图；

图9b为另一个实施例中基于训练结束后的图片特征提取模型进行图片回复的流程示意图；

图10为一个具体的实施例中图片特征提取模型训练方法的流程示意图；

图11为一个实施例中图片特征提取模型训练装置的结构框图；

图12为另一个实施例中图片特征提取模型训练装置的结构框图；

图13为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中图片特征提取模型训练方法的应用环境图。参照图1，该图片特征提取模型训练方法应用于图片特征提取模型训练系统。该图片特征提取模型训练系统包括终端110和服务器120。该图片特征提取模型训练方法可以在终端110或服务器120完成。基于训练结束后的图片特征提取模型提取图片特征也可以在终端110或服务器120完成。当用户进行消息会话或图片开发等时在终端120输入会话文本或检索文本(以下统称输入文本)，基于提取的图片特征可以准确快速查询与输入文本相匹配的图片。终端110可直接获取输入文本，并在终端侧查询图片特征与输入文本相匹配的图片；或者，终端110也可在获取输入文本后将输入文本发送至服务器120，由服务器120查询图片特征与输入文本相匹配的图片。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑和笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种图片特征提取模型训练方法。本实施例主要以该方法应用于上述图1中的计算机设备，如终端110或服务器120来举例说明。参照图2，该图片特征提取模型训练方法具体包括如下步骤：

S202，获取训练样本对及对应的分类标签；训练样本对包括文本和相应图片。

其中，训练样本对可以是从预设语料库中筛选得到的用于训练图片特征提取模型的文本和对应的图片。

在一个实施例中，训练样本对包括的文本是会话文本，训练样本对包括的图片是表情图片。

根据图片特征提取模型的应用场景不同，对应的训练样本对中的文本可以是会话文本或检索文本等。

比如，在消息会话或智能问答场景中，训练样本对中的文本可以是用于回复用户输入的会话文本(简称输入文本)的回复文本，对应的图片可以是用于回复具有相似语义的输入文本的图片。会话文本是指基于社交网络应用或智能问答应用等产生的文本格式的会话消息。回复文本是指用于回复输入文本的会话消息。在图片开发场景中，用户为了参考相似图片寻找开发灵感或避免侵权，常需要进行图片检索，训练样本对中的文本可以是用户输入的检索文本，对应的图片可以是满足检索文本对应检索条件的图片。检索文本是指用于检索某种信息的文本格式的关键词或自然语句等。在其他场景中，用户可以根据自己的理解，人工为图片赋予一定的语义描述信息，训练样本对中的文本也可以是用户针对图片人工赋予的语义描述信息，对应的图片即为被赋予相应语义描述信息的图片。

训练样本对中的图片可以是表情图片。表情图片是指能够在社交网络应用或智能问答应用中代替文字进行消息回复的图片，可以是内置的图片，也可以是第三发开发的图片。表情图片是蕴含有人物表情信息、动物表情信息或其他含义信息，且可能配有描述文本的图片。训练样本对中的图片也可以是应用图标、广告图片或风格艺术图片等，对此不作限制。

分类标签是用于标注训练样本对所属类别的数据。在一个实施例中，计算机设备可以从预设语料库中选择多个训练样本对，将训练样本对进行分类，并为每一类的训练样本对分配分类标签。

在另一个实施例中，计算机设备可以先确定分类标签和相应的标签定义，从而按照分类标签相应的定义，从预设语料库中选择符合该分类标签的定义的部分训练样本对，作为该分类标签相对应的训练样本对。

S204，通过预训练的文本特征提取模型提取文本的文本特征。

其中，文本特征提取模型是经过训练后具有自然语言处理(NLP，naturallanguage processing)能力的语言模型，具体可以是以预设语料库中文本作为训练数据，进行学习训练得到的用于提取文本语义的语言模型。比如 word2vector模型word2vec模型(word to vector，用于产生词向量的模型)、 elmo模型(Embeddings from LanguageModels，文本嵌入模型)、bert模型 (Bidirectional Encoder Representations fromTransformers，双向编码变换模型)等。预训练的文本特征提取模型具有固定的模型结构和模型参数。文本特征是表示文本的语义的特征。文本特征的表现形式可以是向量形式。

具体地，计算机设备对文本进行分词，并将得到的多个分词中的停用词、标点符号等对表征文本语义作用小的词语，从而提高后续文本特征提取的效率。停用词是指文本中出现频率超过预设阈值但实际意义不大的词，如我、的、他等。在一个实施例中，计算机设备还可以对得到的多个分词进行同义词扩展。同义词是指与原始分词含义相同或相近的词语，如原始词语为“真棒”，同义词可为“厉害了”“了不起”“优秀”等。计算机设备将进行上述处理后的分词输入预训练的文本特征提取模型，得到文本特征。

S206，通过待训练的图片特征提取模型提取图片的图片特征。

其中，待训练的图片特征提取模型是由人工神经网络构成的模型。人工神经网络(Artificial Neural Networks，简写为ANNs)，也简称为神经网络(NNs) 或称作连接模型(Connection Model)。人工神经网络可从信息处理角度对人脑神经元网络进行抽象，以建立某种模型，按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。

神经网络模型比如CNN(Convolutional Neural Network，卷积神经网络) 模型、DNN(Deep Neural Network，深度神经网络)模型和RNN(Recurrent Neural Network，循环神经网络)模型等。图片特征提取模型也可以是多种神经网络模型的组合。

其中，卷积神经网络包括卷积层(Convolutional Layer)和池化层(PoolingLayer)。卷积神经网络模型有多种，比如VGG(Visual Geometry Group视觉集合组)网络模型、GoogleNet(谷歌网络)模型或ResNet(能效评估系统)网络模型等。深度神经网络包括输入层、隐含层和输出层，层与层之间是全连接的关系。循环神经网络是一种对序列数据建模的神经网络，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。循环神经网络模型，比如LSTM(Long Short-Term Memory Neural Network，长短时记忆神经网络)模型。

图片特征是表示图片的语义的特征。在本实施例中，图片特征具体可以是计算机设备从图片中提取出的可以表示图片语义的数据，得到图片语义的表示或描述，如向量或符号等。

具体地，计算机设备可提取训练样本对中图片自身的属性特征或者额外赋予的标识特征，将提取得到的图片的属性特征或标识特征输入待训练的图片特征提取模型，得到图片特征。

S208，将文本特征及图片特征输入图片分类器，得到预测分类结果。

其中，图片分类器是具有对图片进行分类的能力的机器学习模型。图片分类器可以是通过卷积神经网络模型、循环神经网络模型、LR(Logistic Regression，逻辑回归算法)、SVM(Support Vector Machine，支持向量机) 模型或GBDT(Gradient BoostingDecision Tree，梯度提升树)等训练得到的模型。待训练的图片特征提取模型与图片分类器分别包含有模型参数。该模型参数作为本实施例中训练图片特征提取模型的初始参数参与到训练中。预测分类结果是在训练过程中，向图片分类器输入文本特征和图片特征之后，由该图片分类器所输出的分类结果。

在一个实施例中，计算机设备可将训练样本对对应的文本特征和图片特征输入到图片分类器后，由该图片分类器判定该训练样本对所属的类别标签，从而将该类别标签作为预测分类结果。

S210，按照预测分类结果与分类标签的差异，调整图片特征提取模型及图片分类器的参数并继续训练，直至满足训练停止条件时结束训练。

其中，训练停止条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数，或者是调整参数后的图片分类器的分类性能指标达到预设指标。

具体地，计算机设备可比较预测分类结果与分类标签的差异，从而朝减少差异的方向，调整图片特征提取模型及图片分类器的参数。如果调整参数后，不满足训练停止条件，则返回步骤S206继续训练，直到满足训练停止条件时结束训练。

在一个实施例中，调整图片特征提取模型和图片分类器的参数可以是局部调整模型参数。具体可保持部分模型参数不变，对另一部分模型参数做调整。

在一个实施例中，预测分类结果与分类标签的差异可以用代价函数来衡量。可以选择交叉熵或均方误差等函数作为代价函数。计算机设备可在代价函数的值小于预先设定的值时结束训练，得到可用于提取图片语义的图片特征提取模型以及用于对训练样本对进行分类的机器学习模型。

在一个实施例中，参考图3，图3示出了一个实施例中图片特征提取模型训练方法的流程示意图。如图3所示，计算机设备可以将文本特征提取模型、图片分类器与待训练的图片特征提取模型相结合，以训练能够提取图片语义的图片特征提取模型。其中，文本特征提取模型是预训练好的具有确定的模型参数的模型。图片分类器可以是待训练的模型参数尚需调整的分类模型，也可以是预训练的具有确定模型参数的分类模型。

如图3所示，可将训练样本对中的文本输入预训练的文本特征提取模型，得到文本对应的文本特征，将训练样本对中的图片输入待训练的图片特征提取模型，得到图片对应的图片特征，将文本特征和图片特征一起输入图片分类器。根据图片分类器输出的预测分类结果与训练样本对对应的样本标签之间的差异，对图片特征提取模型中的参数进行调整，直至训练停止条件时结束训练，得到能够准确提取图片语义的图片特征模型。

值得注意的是，传统方式需要依赖图片中的描述问题提取图片语义，比如emoji2vec算法。但这种方式在图片不具备描述文本时则造成使用局限。一张图片往往可能包含不同的语义，可以对应多种类型的描述，在不同的语境中会有不同的表达效果，而这种方式单纯根据图片中的描述文本提取图片语义，使得提取的图片语义信息有限，往往只能提取出其中一种语义，语义提取效果受限。而本实施例不再依赖图片中的描述文本，而是结合图片丰富的上下文信息，提取图片在不同上下文语境中所表达的语义信息，使得最后得到的图片特征具有丰富的表达能力。

上述图片特征提取模型训练方法，通过预训练的文本特征提取模型提取训练样本对中文本的文本特征，可以快速准确的获得文本的语义；将文本特征以及基于待训练的图片特征提取模型提取得到的训练样本对中图片的图片特征一起输入图片分类器进行处理，可以根据得到的预测分类结果与训练样本对对应的分类标签的差异，逐步对图片特征提取模型中的参数进行调整。这样，在参数调整过程中，使得图片特征提取模型既能充分利用图片本身的特征，又能结合训练样本对中文本的语义。在基于图片特征提取模型对图片进行语义理解时，得到了图片特征和文本特征的双重指导，在无需依赖图片中描述文本的前提下，可以大大提高了图片语义信息的准确性。

在一个实施例中，如图4所示，步骤S202，即获取训练样本对及对应的分类标签的步骤，具体包括：

S402，获取文本会话对和图文会话对；文本会话对包括第一上文文本和下文会话文本；图文会话对包括第二上文文本和下文表情图片。

其中，会话对可以是用户基于社交网络应用或智能问答应用进行多人会话时产生的会话消息。预设语料库中存储了大量会话对。会话对包括上文消息和下文消息。同一会话对中的上文消息与下文消息可以是来自不同用户的会话消息。比如，当三个或三个以上用户在相应会话群组中进行多人会话时，每个用户均可在群组会话页面中发布对其他用户可见的会话消息，从而每则会话消息具有对应的发布主体标识。发布主体标识可以是发布相应会话消息的用户在会话群组中的用户标识，如用户账号、用户手机号等。计算机设备可以根据每个会话消息的对应的用户标识布主体标识将会话消息区分为不同的会话对，并对会话对中的上文消息和下文消息进行区分。同一会话对中的上文消息可以是来自同一用户的会话消息。

会话对可以是文本会话对或图文会话对等。其中，文本会话对中的上文消息及下文消息均为文本。若将上文消息记作第一上文文本Sin，下文消息记作下文会话文本Sout，则文本会话对可以记作<Sin，Sout>。图文会话对中的上文消息为文本，下文消息为图片。若将上文消息记作第二上文文本Sin，下文消息记作下文表情图片Pout，则图文会话对可以记作<Sin，Pout>。

需要说明的是，同一下文会话文本Sout可以用于回复多个第一上文文本 Sin，若将多个第一上文文本Sin的集合记作set(Sin|Sout)或者简记为set_s，则文本会话对可以记作<set_s，Sout>。同样地，同一下文表情图片Pout也可以用于回复多个第二上文文本Sin，若将多个第二上文文本Sin的集合记作 set(Sin|Pout)或者简记为set_p，则图文会话对可以记作<set_p，Pout>。

参考图5a，图5a为一个实施例中预设语料库中文本会话对的示意图。文本会话对<set_s，Sout>包括第一上文文本set(Sin|Sout)和下文会话文本 Sout“过奖，太浮夸了！”。其中，第一上文文本set(Sin|Sout)是由三个上文文本“真心优秀”“顶礼膜拜！我辈楷模！”“厉害了”构成的文本集合。

参考图5b，图5b为一个实施例中预设语料库中图文会话对的示意图。图文会话对<set_s，Pout>包括第二上文文本set(Sin|Pout)和下文表情图片Pout。其中，第二上文文本set(Sin|Pout)是由三个上文文本“哈哈，可喜可贺啊！”、“厉害厉害”、“什么时候才能像你这么优秀”构成的文本集合。

S404，计算第一上文文本及第二上文文本的相似度。

其中，相似度是用于表征第一上文文本与第二上文文本的文本相似程度的数据。第一上文文本与第二上文文本的相似度可以采用余弦距离、TF-IDF(term frequency–inverse document frequency，词频-逆文本频率指数)模型、 word2vec模型、GloVe模型(Global Vectors for Word Representation，全局词向量表示模型)等计算得到。

S406，根据相似度与不同分类标签的相似条件的关系，基于下文会话文本和下文表情图片，分别构造不同分类标签对应的训练样本对。

分类标签是用于标注训练样本对所属类别的数据。根据期望将训练样本对划分类别的数量，对应的存在相同数量的分类标签。每个训练样本对具有对应的分类标签。每种分类标签对应训练样本对中的文本和图片可以是相似度满足相应分类标签的相似条件的第一上文文本和第二上文文本对应的下文会话文本和下文表情图片。不同分类标签具有不同的相似条件。分类标签对应的相似条件是指第一上文文本和第二上文文本的相似度区间。

具体地，计算机设备基于相似度符合分类标签的相似条件的第一上文文本和第二上文文本对应的下文会话文本和下文表情图片构成该分类标签对应的训练样本对。例如，设定三种分类标签A、B和C，三种分类标签对应的相似条件依次可以是0＜相似度＜X、Y1＜相似度＜Y2和Z＜相似度＜1，则相似度小于X 的第一上文文本和第二上文文本对应的下文会话文本和下文表情图片构成分类标签为A的训练样本对；相似度介于Y1和Y2之间的第一上文文本和第二上文文本对应的下文会话文本和下文表情图片构成分类标签为B的训练样本对；相似度大于Z的第一上文文本和第二上文文本对应的下文会话文本和下文表情图片构成分类标签为C的训练样本对。

上述实施例中，基于会话消息构建训练样本对，使得训练样本对具有丰富的语料来源；此外，只有在不同会话对中上文文本的文本相似度达到相似条件，才基于该会话对中的下文会话文本和下文表情图片构建训练样本对，可以保证训练样本对中文本和图片所表达语义的相似性，有利于增加构建得到训练样本对的可靠性，进而有利于提高训练得到的图片特征提取模型的特征提取精度。

在一个实施例中，根据相似度与不同分类标签的相似条件的关系，基于下文会话文本和下文表情图片，分别构造不同分类标签对应的训练样本对，包括：当相似度大于第一阈值时，基于下文会话文本和下文表情图片，构造分类标签为第一标签的训练样本对；当相似度小于第二阈值时，基于下文会话文本和下文表情图片，构造分类标签为第二标签的训练样本对；第一阈值大于或等于第二阈值。

其中，分类标签包括第一标签和第二标签。第一标签是用于标注训练样本对为正样本对的数据，可以是1。第二标签是用于标注训练样本对为负样本对的数据，可以是0。第一标签的相似条件为第一上文文本和第二上文文本的相似度大于第一阈值。第二标签的相似条件为第一上文文本和第二上文文本的相似度小于第二阈值。第一阈值与第二阈值可以是根据对图片特征提取模型的训练经验以及精准度要求自行设定的。容易理解，第一阈值大于或等于第二阈值，且为了提高图片特征提取模型的精准度，可以适当增大第一阈值，适当减小第二阈值。

具体地，计算机设备比较第一上文文本和第二上文文本的相似度是否大于第一阈值。若是，可以认为该第一上文文本对应的下文会话文本，与该第二上文文本对应的下文表情图片具有相似语义。比如，在图5b中下文表情图片对应的第二上文文本出现了[厉害、优秀]等分词，而同样的分词也出现在图5a中下文会话文本“过奖，太浮夸了”所对应的第一上文文本中，所以可以认为图5b 中下文表情图片与图5a中下文会话文本“过奖，太浮夸了”表达了相似的语义。计算机设备基于该下文会话文本Sout和下文表情图片Pout构建分类标签为第一标签的训练样本对，记作正样本对。正样本对可以记作： x＝<Sout,Pout>,y＝True。其中，True表示训练样本对x＝<Sout,Pout>包含的一对文本和图片的语义是相似的。

计算机设备比较第一上文文本和第二上文文本的相似度是否小于第二阈值。若是，可以认为该第一上文文本对应的下文会话文本，与该第二上文文本对应的下文表情图片具有截然不同的语义，计算机设备基于该下文会话文本Sout和下文表情图片Pout构建分类标签为第二标签的训练样本对，记作负样本对。负样本对可以记作：x＝<Sout,Pout>,y＝Flase。其中，Flase表示训练样本对x＝<Sout,Pout>包含的一对文本和图片的语义是不相似的。

需要说明的是，同一表情图片可以有多个相似语义的会话文本，同一个会话文本也可以有多个相似语义的表情图片，从而下文会话文本Sout与下文表情图片Pout可以是多对多的关系。

上述实施例中，由于同一表情图片可以用于回复多个相似语义的会话文本，使得同一表情图片可能存在于不同的训练样本对，从而即便用于构建训练样本对的表情图片数量有限，也可以基于这种多对多的关系构建出丰富的训练样本对，一定程度上可减少图片语料较少时对训练图片特征提取模型造成的局限。

在一个实施例中，计算第一上文文本及第二上文文本的相似度包括：对第一上文文本及第二上文文本分别进行分词处理；统计第一上文文本及第二上文文本包含的分词总数，以及包含的相同分词的数量；根据相同分词的数量与分词总数的比值，得到第一上文文本及第二上文文本的相似度。

其中，分词处理是指将文本序列拆分为多个分词的过程。具体可以采用基于词典的正向最大匹配法、逆向最大匹配法或双向匹配分词法，或者基于统计的HMM(HiddenMarkov Model，隐马尔科夫模型)、CRF(Conditional Random Fields，条件随机场模型)、SVM(Support Vector Machine，支持向量机模型) 等机器学习算法对文本序列进行分词处理。

本实施例将第一上文文本set_s和第二上文文本set_p分别拆分为多个 n_gram。n_gram是一个文本序列中长度为n的子串，即第一上文文本set_s与第二上文文本set_p中分别包含的字符长度为n的分词。其中，1≤n≤N；N是人为设定的数值，N值过大会增大相似度计算量，N值过小会降低相似度计算准确性，因而需综合考虑相似度计算量和准确性设定N值，比如N值可以是2、3 或4等。

具体地，计算机设备可以采用以下公式计算第一上文文本set_s与第二上文文本set_p的相似度Sim(set_s,set_p):

其中，n_gram(set_s)为第一上文文本set_s包含n_gram的数量；n_gram (set_p)为第二上文文本set_p包含n_gram的数量；n_gram(set_s＝set_p) 为第一上文文本set_s和第二上文文本set_p包含公共的n_gram的数量。 n_gram(set_s＝set_p)越大，说明第一上文文本set_s和第二上文文本set_p 的文本相似度越高，从而说明第一上文文本set_s对应的下文会话文本Sout和第二上文文本set_p对应的下文表情图片Pout越相似，进而可以认为该下文会话文本Sout和下文表情图片Pout可以用来回复相似的文本。

上述实施例中，统计第一上文文本与第二上文文本之间在不同字符长度上的重复词频，可提高相似度计算结果准确性。此外，采用较为简单的词频统计逻辑计算第一上文文本与第二上文文本之间的文本相似度，可提高计算效率，进而可提高训练样本对构建效率。

在一个实施例中，通过预训练的文本特征提取模型提取文本的文本特征包括：通过预训练的文本特征提取模型对文本进行处理，得到预设维度的文本特征；通过待训练的图片特征提取模型提取图片的图片特征包括：基于待训练的图片特征提取模型对图片进行处理，得到预设维度的图片特征。

其中，预设维度预是指预先设定的预训练的文本特征提取模型输出特征向量的维度。换言之，不同长度的文本在输入文本特征提取模型后，得到的文本特征的特征维度均为预设值，即特征维度相同。

待训练的图片特征提取模型可以由多个子模型结构组合得到，包括第一子模型和第二子模型。具体地，计算机设备通过第一子模型对表情图片进行处理，得到中间维度的图片特征，通过第二子模型对中间维度的图片特征进行投影变换，得到预设维度的图片特征。

上述实施例中，保证图片特征的特征维度与文本特征的特征维度一致，可以更好的体现出文本特征和图片特征之间的关系，使得学习得到的图片特征与文本特征处于同一空间，从而图片特征可以与文本特征表征相似的语义信息，进而使训练得到的图片特征提取模型提取图片特征的效果更好。

在一个实施例中，将文本特征及图片特征输入图片分类器包括：将预设维度的文本特征及预设维度的图片特征进行拼接，得到图片的综合特征；将综合特征输入图片分类器。

其中，综合特征是指同时融合了文本特征和图片特征两种不同模态的数据。综合特征的表征形式也可以是向量形式。

具体地，计算机设备可以将具有相同维度的文本特征和图片特征映射至同一空间内的数据，再对映射后的数据进行融合处理，得到综合特征。将图片特征和文本特征进行融合的算法具体可采用向量拼接的方式。容易理解，计算机设备也可以基于贝叶斯决策理论的算法、基于稀疏表示理论的算法或基于深度学习理论算法等将图片图片特征和文本特征进行融合，得到综合特征。

计算机设备也可通过循环神经网络对图片图片特征和文本特征做注意力分配处理，也就是attention处理，得到注意力分配权值，也就是注意力权值 (attention value)，再将attention value以文本特征及图片特征结合，得到综合特征。其中，attention处理，可以理解为从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上，忽略大多不重要的信息。聚焦的过程体现在注意力分配权值的计算上，注意力分配权值越大，则越聚焦于其对应的图片特征上。

上述实施例中，将具有相同特征维度的文本特征和图片特征进行拼接，将拼接得到的综合特征输入图片分类器练，可以使图片分类器对训练样本对进行分类时得到图片特征和文本特征的双重指导，可以提高样本分类准确性，进而可以提高基于预测分类结果对图片特征提取模型参数调整的准确性。

在一个实施例中，通过待训练的图片特征提取模型提取图片的图片特征包括：确定图片对应的图片标识；对图片标识进行编码，得到与图片对应的表征向量；将表征向量输入待训练的图片特征提取模型，得到图片特征。

其中，图片标识是能够唯一标识一张图片的信息，具体可以是图片ID，或者携带有图片ID信息的识别码等。图片标识可以是用户人工赋予图片的标示性信息，如对图片的编号。

具体地，计算机设备获取图片对应的图片标识，通过语言模型对图片标识进行编码，将图片标识转换为向量形式，得到图片对应的表征向量。将表征向量作为待训练的图片特征提取模型的输入，通过图片分类器对得到的图片特征与文本特征进行处理，可以使图片特征提取模型学习到图片标识与一个或多个文本的对应关系。

当需要提取新增图片的语义时，计算机设备可以按照上述方式构建包含该新增图片的训练样本对，基于构建的相应训练样本返回步骤S204重新对图片特征提取模型进行训练。新增图片是指在结束训练图片特征提取模型之前采用的训练样本对中未包含的图片。

上述实施例中，直接将图片标识作为输入对图片特征提取模型进行训练，可以简化计算机设备对图片进行预处理的过程，有利于提高模型训练效率。

在一个实施例中，通过待训练的图片特征提取模型提取图片的图片特征包括：提取图片的像素特征；将像素特征输入待训练的图片特征提取模型，得到图片特征。

其中，像素特征是指基于像素点分布表示的图片的颜色、纹理、形状或空间关系等的特征。像素特征可以是基于具有图片处理能力的神经网络模型提取得到。比如，计算机设备可将图片的像素特征输入至ResNet-80等卷积神经网络模型中，通过卷积神经网络的卷积层对图片的像素特征进行卷积处理，提取图片的图片特征。也就是卷积神经网络可通过卷积层对图片的像素特征进行卷积处理后，得到图片的特征图，这里的特征图就是本实施例中的图片特征。

像素特征是图片自身固有的一种特征属性。当需要提取新增图片的语义时，计算机设备可以直接基于训练结束后的图片特征提取模型提取该新增图片的图片特征，而无需重新采集该新增图片的使用案例，并构建新增图片对应的训练样本对，基于该新增训练样本对对图片特征提取模型再次训练。

在上述实施例中，基于图片自身固有的像素特征属性对对图片特征提取模型进行训练，使得训练得到的图片特征提取模型适用于任意新增图片，避免了对模型重新训练的繁琐。

在一个实施例中，上述图片特征提取模型训练方法还包括：通过训练结束后的图片特征提取模型，提取训练样本对中表情图片的图片特征；将提取得到的图片特征与相应表情图片进行关联存储。

其中，关联存储是指建立图片特征与相应图片之间的关联关系，并对这种关联关系进行存储。关联存储的形式可以是将图片特征嵌入相应图片，或者构建用于存储这种关联关系的数据表等，对此不作限制。

具体地，在模型训练阶段，图片特征提取模型的模型结构及模型参数尚不稳定。但在图片特征提取模型训练结束后，包含有特定模型参数和模型结构的图片特征提取模型具有提取图片语义的能力。借助训练结束后的图片特征提取模型可以重新提取训练样本对中每个图片的图片特征。

上述实施例中，对于已有图片，只需基于训练训练结束后的图片特征提取模型进行一次图片特征提取，关联存储的图片特征可以直接反复利用，避免了每次用到某张图片时均需重新提取其图片特征的繁琐，减少图片特征占用的计算资源，同时可提高图片查询效率。

基于上述方法训练得到的图片特征提取模型可以辅助理解图片语义，从而训练结束的图片特征提取模型适用于任意需要提取图片语义的应用。

在一个具体的应用场景中，训练结束的图片特征提取模型适用于社交网络应用。具体地，当用户基于社交网络应用下载了新的表情图片时，社交网络应用可基于训练结束后的图片特征提取模型预先提取每个新增表情图片的图片特征。后续根据第一用户输入的上文会话文本，社交网络应用即可依据预提取的图片特征，向第二用户推送与上文会话文本语义相匹配的表情图片，供用户选取其中一个表情图片回复上文会话文本，提高消息回复效率。

在一个具体的应用场景中，训练结束的图片特征提取模型适用于智能问答应用。具体地，运行有智能问答应用的计算机设备作为虚拟用户对象，可与真实用户进行会话。当真实用户基于智能问答应用下载了新的表情图片时，智能问答应用可基于训练结束后的图片特征提取模型预先提取每个新增表情图片的图片特征。后续根据真实用户输入的上文会话文本，虚拟用户对象即可依据预提取的图片特征在图片库中查找与上文会话文本语义相匹配的表情图片，基于查找到的表情图片回复上文回复文本，相比传统智能问答应用只能进行文本回复，可提高智能问答趣味性。

在一个具体的应用场景中，训练结束的图片特征提取模型适用于页面浏览应用。具体地，页面浏览引用可根据用户输入的检索文本向用户反馈检索结果。为了提高检索结果准确性，页面浏览引用可根据用户输入的检索文本查询满足检索文本对应检索条件的相关资源。若相关资源包含图片，则页面浏览应用可基于训练结束后的图片特征提取模型提取检索到的相关图片的图片特征，并进一步根据图片特征与检索文本的匹配度对检索到的图片进行取舍或排序等优化处理，将优化后的图片与其他相关信息作为最终的检索结果反馈给用户。

在一个具体的应用场景中，训练结束的图片特征提取模型适用于智能识图应用。具体地，智能识图应用可根据拍摄或者从本地读取的图片(记作基础图片)，基于像素特征识别与该图片相似的其他图片(记作相似图片)，并给出这些图片的相关描述信息。为了提高图片识别准确性，智能识图应用可基于训练结束后的图片特征提取模型提取基础图片以及每个相似图片的图片特征，根据图片特征的相似度，对识别出的多个相似图片进行取舍或排序等优化处理，将优化后的图片反馈给用户。容易理解，基于上述方法训练得到的图片特征提取模型还可以适用于其他多种场景，在此不再一一赘述。

在一个实施例中，如图6所示，上述图片特征提取模型训练方法还包括：

S602，获取输入文本。

其中，如上文，本实施例中输入文本是指用户在终端基于社交网络应用或者智能问答应用中输入的上文会话文本。回复文本是指能够回复输入文本的下文会话文本。

参考图7a，图7a示出了一个实施例中基于训练结束后的图片特征提取模型的会话系统的框架示意图。如上文，社交网络应用或智能问答应用可运用训练结束的图片特征提取模型进行图片回复，实现一种新的会话系统。如图7a所示，该新的会话系统包括文本输入模块、文本回复模块、相似图片查询模块、图片库和图片回复模块。其中，文本输入模块用于获取输入文本。

S604，确定输入文本对应的回复文本。

文本回复模块用于确定输入文本对应的回复文本。具体文本回复模块可以从部署的数据库预存储的多个会话文本中，检索与输入文本语义相匹配的会话文本作为回复文本，或者基于预训练的具有文本回复能力的语言模型生成输入文本对应的回复文本。图片库用于存储表情图片，以及基于训练结束的图片特征提取模型提取的每个表情图片的图片特征。

S606，通过预训练的文本特征提取模型提取回复文本的回复文本特征。

相似度图片查询模块用于提取回复文本的文本特征，并计算文本特征与图片库存储的多个图片特征的相似度。其中，回复文本的文本特征可以采用上文的预训练的文本特征提取模型进行提取。

S608，计算回复文本特征与存储的多个表情图片的图片特征之间的相似度。

相似度可以采用预训练的相似度计算模型进行计算。相似度计算模型可以是基于预设语料中同一上文文本对应的下文会话文本和下文表情图片构成的训练样本对训练得到的回归模型。

具体地，计算机设备获取同一上文文本对应的下文会话文本和下文表情图片，通过预训练的文本特征提取模型提取下文会话文本的文本特征；通过训练结束后的图片特征提取网络提取下文表情图片的图片特征，将文本特征及图片特征输入待训练的相似度计算模型，得到参考相似度。计算机设备根据参考相似度与第一预设值的差异，调整相似度计算模型的参数并继续训练，直至满足训练停止条件时结束训练。在另一个实施例中，相似度计算模型也可以是基于与图片特征提取模型相同的训练样本对训练得到。

参考图7b，图7b示出了一个实施例中基于训练结束后的图片特征提取模型进行图片回复的流程示意图。相似度图片查询模块可将回复文本输入文本特征提取模型，将得到的文本特征及图片库中存储的图片特征输入相似度计算模型，得到每个表情图片分别与回复文本的语义相似度。

S610，基于符合相似条件的相似度对应的表情图片，回复输入文本。

图片回复模块用于查询相似度满足预设的相似条件的表情图片，并基于查询到的表情图片回复输入文本。相似条件是指回复文本的文本特征和表情图片的图片特征的相似度阈值。

上述实施例中，借助训练结束后的图片特征提取模型，可以实现图片回复，可以提高消息回复的趣味性。

在一个实施例中，方法还包括：当每个相似度均不符合相似条件时，直接基于回复文本回复输入文本。

为了提高消息回复准确性，可在每个表情图片分别与回复文本的语义相似度均小于预设的相似度阈值时，直接基于回复文本回复输入文本。

在上述实施例中，只有在查询到相似度达到阈值的图片才基于图片回复输入文本，否则直接基于确定的回复文本回复输入文本，可以兼顾回复消息的趣味性和准确性。

在一个实施例中，如图8所示，上述图片特征提取模型训练方法还包括：

S802，获取输入文本。

在一个具体应用场景中，可基于上述方法训练得到的图片特征提取模型辅助进行消息回复或图片检索。

参考图9a，图9a示出了另一个实施例中基于训练结束后的图片特征提取模型的会话系统的框架示意图。如上文，社交网络应用或智能问答应用可运用训练结束的图片特征提取模型进行图片回复，实现另一种新的会话系统。如图9a 所示，该新的会话系统包括文本输入模块、回复类型分类模块、文本回复模块、匹配图片查询模块、图片库和图片回复模块。其中，关于文本输入模块、文本回复模块、图片库及图片回复模块，请参考关于图7a的描述，在此不再赘述。

其中，回复类型包括文本回复和图片回复。回复类型分类模块用于通过预训练的回复类型分类器确定输入文本对应的回复类型。回复类型分类器可以是基于带有回复类型标签的会话文本样本对应初始的分类模型训练得到。初始的分类模型可以是朴素贝叶斯模型、随机森林模型等。

S804，通过预训练的文本特征提取模型提取输入文本的输入文本特征。

匹配图片查询模块用于当回复类型为图片回复时，提取输入文本的文本特征，并计算文本特征与图片库存储的多个图片特征的匹配度。其中，输入文本的文本特征可以采用上文的预训练的文本特征提取模型进行提取。

S806，计算输入文本特征与存储的多个表情图片的图片特征之间的匹配度。

匹配度可以采用预训练的匹配度计算模型进行计算。匹配度计算模型可以是基于预设语料库中图文会话对训练得到的神经网络模型。

具体地，计算机设备获取图文会话对，通过预训练的文本特征提取模型提取图文会话对中上文会话文本的文本特征；通过训练结束后的图片特征提取模型提取图文会话对中下文表情图片的图片特征，将文本特征及图片特征输入待训练的匹配度计算模型，得到参考匹配度；根据按照参考匹配度与第二预设值的差异，调整匹配度计算模型的参数并继续训练，直至满足训练停止条件时结束训练。

参考图9b，图9b示出了一个实施例中基于训练结束后的图片特征提取模型进行图片回复的流程示意图。匹配图片查询模块可将输入文本输入至文本特征提取模型，将得到的文本特征及图片库中存储的图片特征输入匹配度计算模型，得到每个表情图片分别与输入文本的语义匹配度。

S808，将匹配度达到阈值的表情图片确定为输入文本对应的匹配图片。

需要说明的是，上述匹配度计算模型也可以应用于页面浏览应用进行图片检索。本申请提供多种会话系统框架，用户可以根据预设语料库中文本和图片的比例进行选取。比如，当文本语料较多，而图片语料较少时，可以采用图7a 所示的会话系统框架，基于丰富的文本语料不仅可以训练得到精度比较高的文本回复模块，还可以基于文本语料蕴含的信息补充图片的语义信息。当文本语料较少，而图片语料较多时，则可以采用图9a所示的会话系统框架。

如图10所示，在一个具体的实施例中，图片特征提取模型训练方法包括：

S1002，获取文本会话对和图文会话对；文本会话对包括第一上文文本和下文会话文本；图文会话对包括第二上文文本和下文表情图片。

S1004，对第一上文文本及第二上文文本分别进行分词处理。

S1006，统计第一上文文本及第二上文文本包含的分词总数，以及包含的相同分词的数量。

S1008，根据相同分词的数量与分词总数的比值，得到第一上文文本及第二上文文本的相似度。

S1010，当相似度大于第一阈值时，基于下文会话文本和下文表情图片，构造分类标签为第一标签的训练样本对。

S1012，当相似度小于第二阈值时，基于下文会话文本和下文表情图片，构造分类标签为第二标签的训练样本对；第一阈值大于或等于第二阈值；训练样本对包括文本和相应图片。

S1014，通过预训练的文本特征提取模型对文本进行处理，得到预设维度的文本特征。

S1016，提取图片的像素特征。

S1018，将像素特征输入待训练的图片特征提取模型，得到预设维度的图片特征。

S1020，将预设维度的文本特征及预设维度的图片特征进行拼接，得到图片的综合特征。

S1022，将综合特征输入图片分类器，得到预测分类结果。

S1024，按照预测分类结果与分类标签的差异，调整图片特征提取模型及图片分类器的参数并继续训练，直至满足训练停止条件时结束训练。

S1026，通过训练结束后的图片特征提取模型，提取训练样本对中表情图片的图片特征。

S1028，将提取得到的图片特征与相应表情图片进行关联存储。

S1030，获取输入文本。

S1032，确定输入文本对应的回复文本。

S1034，通过预训练的文本特征提取模型提取回复文本的回复文本特征。

S1036，计算回复文本特征与存储的多个表情图片的图片特征之间的相似度。

S1038，基于符合相似条件的相似度对应的表情图片，回复输入文本。

S1040，当每个相似度均不符合相似条件时，直接基于回复文本回复输入文本。

图10为一个实施例中图片特征提取模型训练方法的流程示意图。应该理解的是，虽然图10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图10中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种图片特征提取模型训练装置 1100，该装置包括样本构建模块1102、特征提取模块1104、图片分类模块1106 和模型训练模块1108，其中：

样本构建模块1102，用于获取训练样本对及对应的分类标签；训练样本对包括文本和相应图片。

特征提取模块1104，用于通过预训练的文本特征提取模型提取文本的文本特征；通过待训练的图片特征提取模型提取图片的图片特征。

图片分类模块1106，用于将文本特征及图片特征输入图片分类器，得到预测分类结果。

模型训练模块1108，用于按照预测分类结果与分类标签的差异，调整图片特征提取模型及图片分类器的参数并继续训练，直至满足训练停止条件时结束训练。

在一个实施例中，样本构建模块1102还用于获取文本会话对和图文会话对；文本会话对包括第一上文文本和下文会话文本；图文会话对包括第二上文文本和下文表情图片；计算第一上文文本及第二上文文本的相似度；根据相似度与不同分类标签的相似条件的关系，基于下文会话文本和下文表情图片，分别构造不同分类标签对应的训练样本对。

在一个实施例中，样本构建模块1102还用于当相似度大于第一阈值时，基于下文会话文本和下文表情图片，构造分类标签为第一标签的训练样本对；当相似度小于第二阈值时，基于下文会话文本和下文表情图片，构造分类标签为第二标签的训练样本对；第一阈值大于或等于第二阈值。

在一个实施例中，样本构建模块1102还用于对第一上文文本及第二上文文本分别进行分词处理；统计第一上文文本及第二上文文本包含的分词总数，以及包含的相同分词的数量；根据相同分词的数量与分词总数的比值，得到第一上文文本及第二上文文本的相似度。

在一个实施例中，特征提取模块1104还用于通过预训练的文本特征提取模型对文本进行处理，得到预设维度的文本特征；基于待训练的图片特征提取模型对图片进行处理，得到预设维度的图片特征。

在一个实施例中，图片分类模块1106还用于将预设维度的文本特征及预设维度的图片特征进行拼接，得到图片的综合特征；将综合特征输入图片分类器。

在一个实施例中，特征提取模块1104还用于确定图片对应的图片标识；对图片标识进行编码，得到与图片对应的表征向量；将表征向量输入待训练的图片特征提取模型，得到图片特征。

在一个实施例中，特征提取模块1104还用于提取图片的像素特征；将像素特征输入待训练的图片特征提取模型，得到图片特征。

在一个实施例中，如图12所示，上述图片特征提取模型训练装置还包括特征存储模块1110，用于通过训练结束后的图片特征提取模型，提取训练样本对中表情图片的图片特征；将提取得到的图片特征与相应表情图片进行关联存储。

在一个实施例中，如图12所示，上述图片特征提取模型训练装置还包括图片回复模块1112，用于获取输入文本；确定输入文本对应的回复文本；通过预训练的文本特征提取模型提取回复文本的回复文本特征；计算回复文本特征与存储的多个表情图片的图片特征之间的相似度；基于符合相似条件的相似度对应的表情图片，回复输入文本。

在一个实施例中，图片回复模块1112还用于当每个相似度均不符合相似条件时，直接基于回复文本回复输入文本。

在一个实施例中，图片回复模块1112还用于获取输入文本；通过预训练的文本特征提取模型提取输入文本的输入文本特征；计算输入文本特征与存储的多个表情图片的图片特征之间的匹配度；将匹配度达到阈值的表情图片确定为输入文本对应的匹配图片。

上述图片特征提取模型训练装置1100，通过预训练的文本特征提取模型提取训练样本对中文本的文本特征，可以快速准确的获得文本的语义；将文本特征以及基于待训练的图片特征提取模型提取得到的训练样本对中图片的图片特征一起输入图片分类器进行处理，可以根据得到的预测分类结果与训练样本对对应的分类标签的差异，逐步对图片特征提取模型中的参数进行调整。这样，在参数调整过程中，使得图片特征提取模型既能充分利用图片本身的特征，又能结合训练样本对中文本的语义。在基于图片特征提取模型对图片进行语义理解时，得到了图片特征和文本特征的双重指导，在无需依赖图片中描述文本的前提下，可以大大提高了图片语义信息的准确性。

图13示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图13所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现图片特征提取模型训练方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行图片特征提取模型训练方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的图片特征提取模型训练装置可以实现为一种计算机程序的形式，计算机程序可在如图13所示的计算机设备上运行。计算机设备的存储器中可存储组成该图片特征提取模型训练装置的各个程序模块，比如，图11所示的样本构建模块1102、特征提取模块1104、图片分类模块1106 和模型训练模块1108。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的图片特征提取模型训练方法中的步骤。

例如，图13所示的计算机设备可以通过如图11所示的图片特征提取模型训练装置中的样本构建模块1102执行步骤S202。计算机设备可通过特征提取模块1104执行步骤S204和步骤S206。计算机设备可通过图片分类模块1106执行步骤S208。计算机设备可通过模型训练模块1108执行步骤S210。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述图片特征提取模型训练方法的步骤。此处图片特征提取模型训练方法的步骤可以是上述各个实施例的图片特征提取模型训练方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述图片特征提取模型训练方法的步骤。此处图片特征提取模型训练方法的步骤可以是上述各个实施例的图片特征提取模型训练方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM) 或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态 RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线 (Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图片特征提取模型训练方法，所述方法包括：

通过预训练的文本特征提取模型提取所述文本的文本特征；

通过待训练的图片特征提取模型提取所述图片的图片特征；

2.根据权利要求1所述的方法，其特征在于，所述获取训练样本对及对应的分类标签包括：

获取文本会话对和图文会话对；所述文本会话对包括第一上文文本和下文会话文本；所述图文会话对包括第二上文文本和下文表情图片；

计算所述第一上文文本及所述第二上文文本的相似度；

根据所述相似度与不同分类标签的相似条件的关系，基于所述下文会话文本和所述下文表情图片，分别构造不同分类标签对应的训练样本对。

3.根据权利要求2所述的方法，其特征在于，所述根据所述相似度与不同分类标签的相似条件的关系，基于所述下文会话文本和所述下文表情图片，分别构造不同分类标签对应的训练样本对，包括：

当所述相似度大于第一阈值时，基于所述下文会话文本和所述下文表情图片，构造分类标签为第一标签的训练样本对；

当所述相似度小于第二阈值时，基于所述下文会话文本和所述下文表情图片，构造分类标签为第二标签的训练样本对；所述第一阈值大于或等于所述第二阈值。

4.根据权利要求2所述的方法，其特征在于，所述计算所述第一上文文本及所述第二上文文本的相似度包括：

对所述第一上文文本及所述第二上文文本分别进行分词处理；

统计所述第一上文文本及所述第二上文文本包含的分词总数，以及包含的相同分词的数量；

根据所述相同分词的数量与所述分词总数的比值，得到所述第一上文文本及所述第二上文文本的相似度。

5.根据权利要求1所述的方法，其特征在于，所述通过预训练的文本特征提取模型提取所述文本的文本特征包括：

通过预训练的文本特征提取模型对所述文本进行处理，得到预设维度的文本特征；

所述通过待训练的图片特征提取模型提取所述图片的图片特征包括：

基于待训练的图片特征提取模型对所述图片进行处理，得到所述预设维度的图片特征。

6.根据权利要求5所述的方法，其特征在于，将所述文本特征及所述图片特征输入图片分类器包括：

将所述预设维度的文本特征及所述预设维度的图片特征进行拼接，得到所述图片的综合特征；

将所述综合特征输入图片分类器。

7.根据权利要求1所述的方法，其特征在于，所述通过待训练的图片特征提取模型提取所述图片的图片特征包括：

确定所述图片对应的图片标识；

对所述图片标识进行编码，得到与所述图片对应的表征向量；

将所述表征向量输入待训练的图片特征提取模型，得到图片特征。

8.根据权利要求1所述的方法，其特征在于，所述通过待训练的图片特征提取模型提取所述图片的图片特征包括：

提取所述图片的像素特征；

将所述像素特征输入待训练的图片特征提取模型，得到图片特征。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述训练样本对包括的文本是会话文本，所述训练样本对包括的图片是表情图片。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

通过训练结束后的图片特征提取模型，提取训练样本对中表情图片的图片特征；

将提取得到的图片特征与相应表情图片进行关联存储。

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

获取输入文本；

确定所述输入文本对应的回复文本；

通过所述预训练的文本特征提取模型提取所述回复文本的回复文本特征；

计算所述回复文本特征与存储的多个表情图片的图片特征之间的相似度；

基于符合相似条件的相似度对应的表情图片，回复所述输入文本。

12.根据权利要求10所述的方法，其特征在于，所述方法还包括：

获取输入文本；

通过所述预训练的文本特征提取模型提取所述输入文本的输入文本特征；

计算所述输入文本特征与存储的多个表情图片的图片特征之间的匹配度；

将所述匹配度达到阈值的表情图片确定为所述输入文本对应的匹配图片。

13.一种图片特征提取模型训练装置，其特征在于，所述装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。