CN116051859A - 服务提供方法、设备和存储介质 - Google Patents
服务提供方法、设备和存储介质 Download PDFInfo
- Publication number
- CN116051859A CN116051859A CN202310182949.7A CN202310182949A CN116051859A CN 116051859 A CN116051859 A CN 116051859A CN 202310182949 A CN202310182949 A CN 202310182949A CN 116051859 A CN116051859 A CN 116051859A
- Authority
- CN
- China
- Prior art keywords
- feature extraction
- feature
- extraction model
- mask
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种服务提供方法、设备和存储介质,该方法包括:将至少一种模态的待处理数据输入特征提取模型,以由该模型输出该待处理数据的局部特征和全局特征,最终,可以根据模型输出的不同层级的特征对待处理数据进行处理,以得到处理结果。其中,特征提取模型是利用对比损失和掩码损失进行训练的,前述两种损失具体是根据原始样本和掩码样本各自的局部特征和全局二者计算得到的。上述过程中,利用掩码损失和对比损失训练模型能够同时提高模型对样本中细节信息的提取能力,以及模型对样本中整体信息的提取能力,能够使得特征提取模型有较高的特征提取能力,从而最终保证对不同模态的数据处理的准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种服务提供方法、设备和存储介质。
背景技术
随着人工智能技术的不断发展,深度学习已经可以应用到多种场景中,用以在不同场景中实现分类、图像语义识别、文字语义识别、图像分割等各种下游功能。该下游功能还可以作为一种服务提供给用户。借助深度学习实现上述各下游功能的基本过程是:先对输入数据进行特征提取,以提取出输入数据的不同层次的特征。再利用此提取出的特征实现上述的各种功能。其中,上述提取特征和处理特征可以分别不同的深度学习模型来完成。
可见,模型的特征提取能力可以直接影响下游功能的准确性,因此,如何提高模型的特征提取能力以保证下游功能的准确性就成为一个亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供一种服务提供方法、设备和存储介质,用以提高数据的处理效果,保证下游功能的准确性。
第一方面,本发明实施例提供一种服务提供方法,包括:
获取至少一种模态的待处理数据;
将所述至少一种模态的待处理数据输入特征提取模型,以由所述特征提取模型输出所述待处理数据的局部特征和全局特征;
根据所述局部特征和所述全局特征确定所述待处理数据的处理结果;
其中,所述特征提取模型利用根据训练样本的特征计算出的对比损失和掩码损失进行训练,所述训练样本包括原始样本以及对所述原始样本进行掩码处理得到的掩码样本。
第二方面,本发明实施例提供一种服务提供方法,应用于云服务器,包括:
响应于用户在服务平台触发的输入操作,获取至少一种模态的待处理数据,所述服务平台部署于所述云服务器中;
将所述至少一种模态的待处理数据输入特征提取模型,以由所述特征提取模型输出所述待处理数据的局部特征和全局特征;
根据所述局部特征和所述全局特征确定所述待处理数据的处理结果;
在所述服务平台上展示所述处理结果;
其中,所述特征提取模型利用根据训练样本的特征计算出的对比损失和掩码损失进行训练,所述训练样本包括原始样本以及对所述原始样本进行掩码处理得到的掩码样本,所述训练样本与所述待处理数据的模态相同。
第三方面,本发明实施例提供一种服务提供方法,
获取用户输入的检索关键词,所述检索关键词包括语音模态、文本模态、图像模态中的至少一种模态;
将所述检索关键词输入特征提取模型,以由所述特征提取模型输出所述检索关键词的局部特征和全局特征;
根据所述局部特征和所述全局特征确定所述检索关键词对应的图像;
向所述用户展示所述图像;
其中,用于图像检索的特征提取模型利用根据训练样本的特征计算出的对比损失和掩码损失进行训练,所述训练样本包括原始样本以及对所述原始样本进行掩码处理得到的掩码样本,所述训练样本与所述检索关键词的模态相同。
第四方面,本发明实施例提供一种服务提供方法,包括:
响应于用户的输入,获取原始样本和对所述原始样本进行掩码处理得到的掩码样本;
将原始样本输入特征提取模型,以由所述特征提取模型输出所述原始样本的第一局部特征和第一全局特征;
将掩码样本输入所述特征提取模型,以由所述特征提取模型输出所述掩码样本的第二局部特征和第二全局特征;
根据所述第一全局特征和所述第二全局特征,确定所述特征提取模型的对比损失;
将所述第一局部特征作为所述第二局部特征的监督信息,确定所述特征提取模型的掩码损失;
根据所述掩码损失和所述对比损失,对所述特征提取模型进行训练;
输出所述特征提取模型。
第五方面,本发明实施例提供一种电子设备,包括处理器和存储器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面~第四方面中的任一服务提供方法。该电子设备还可以包括通信接口,用于与其他设备或通信系统通信。
第六方面,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器至少可以实现如第一方面~第四方面中任一方面所述的服务提供方法。
本发明实施例提供的服务提供方法中,将至少一种模态的待处理数据输入特征提取模型,以由该模型输出该待处理数据的局部特征和全局特征,最终,可以根据模型输出的不同层级的特征对待处理数据进行处理,以得到处理结果。其中,特征提取模型是利用对比损失和掩码损失进行训练的,前述两种损失具体是根据训练样本的局部特征和全局二者计算得到的,并且训练样本具体包括原始样本以及对原始样本进行掩码处理得到的掩码样本。
在上述过程中,对至少一种模态的待处理数据进行处理以得到处理结果的过程可以认为是对数据提供的一种服务,实现处理服务的重点在于利用特征提取模型得到待处理数据的全局特征和局部特征。而在进行特征提取模型训练时又同时使用了对比损失和掩码损失,利用掩码损失训练能够提高模型对样本中细节信息的提取能力,利用对比损失训练能够提高模型对样本中整体信息的提取能力,因此,能够使得特征提取模型有较高的特征提取能力,从而最终保证对不同模态的数据处理的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种服务提供方法的流程图;
图2为本发明实施例提供的一种特征提取模型的结构示意图;
图3为本发明实施例提供的一种模型训练方法的流程图;
图4为本发明实施例提供的另一种模型训练方法的流程图;
图5为本发明实施例提供的模型训练方法的示意图;
图6为本发明实施例提供的另一种服务提供方法的流程图;
图7为本发明实施例提供的又一种服务提供方法的流程图;
图8为与图7所示实施例对应的人机交互过程的示意图;
图9为本发明实施例提供的又一种服务提供方法的流程图;
图10为本发明实施例提供的一种特征提取方法的流程图;
图11为本发明实施例提供的一种特征提取模型进行特征提取的示意图;
图12为本发明实施例提供的另一种特征提取模型进行特征提取的示意图;
图13为使用单一模态样本使用本发明实施例提供模型训练方法、服务提供方法的示意图;
图14为使用多模态样本使用本发明实施例提供模型训练方法、供服务提供方法的示意图;
图15为本发明实施例提供的一种电子设备的结构示意图;
图16为本发明实施例提供的另一种电子设备的结构示意图;
图17为本发明实施例提供的又一种电子设备的结构示意图;
图18为本发明实施例提供的又一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地,取决于语境,短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
下面可以结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
图1为本发明实施例提供的一种服务提供方法的流程图。本发明实施例提供的该服务方法可以由具有数据处理能力的处理设备执行,可选地,该处理设备可以是服务器等等,特征提取模型可以部署于该处理设备中。如图1所示,该方法可以包括如下步骤:
S101,获取至少一种模态的待处理数据。
处理设备可以获取至少一种模态的待处理数据,可选地,数据的模态可以是文本、图像、音频中的至少一种,待处理数据的模态与下游功能也即是用户所需的服务有关。
对于图像分类、以图搜文、图像检索、语义识别等服务,其对应的待处理数据通常是单一模态的。以以图搜文服务为例,待处理数据可以包括图像模态。
对于网页中常见的图片验证、语音验证等服务,其对应的待处理数据通常是多模态的。以图片验证服务为例进行说明,图片验证服务即为根据页面中展示的选择要求,对页面中展示的图片进行选择以完成用户验证的服务。选择要求比如可以是“选择下图中的动物”等等。因此,为了确定用户选择的图片是否正确,需要利用特征提取模型提取出的特征理解选择要求的语义以及备选图像的语义,此时,待处理数据可以包括文字或语音模态的选择要求,多种备选图像以及用户选中的图像。
S102,将至少一种模态的待处理数据输入特征提取模型,以由特征提取模型输出待处理数据的局部特征和全局特征。
S103, 根据局部特征和全局特征确定待处理数据的处理结果,其中,特征提取模型利用根据训练样本的特征计算出的对比损失和掩码损失进行训练,训练样本包括原始样本以及对原始样本进行掩码处理得到的掩码样本。
进一步地,处理设备可以将至少一种模态的待处理数据输入特征提取模型,以由该模型提取出待处理数据的局部特征和全局特征。其中,全局特征用于描述待处理数据的整体信息,局部特征用于描述待处理数据细节信息。以图像为例,图像的全局特征包含图形的、纹理特征和形状特征等等,局部特征用于反映图像中的边缘、角点、线、曲线等区域的信息。
其中,特征提取模型可以利用对比损失和掩码损失进行训练,并且这两种损失具体可以是根据训练样本的局部特征和全局特征计算得到的,训练样本具体又可以包括原始样本以及对原始样本进行掩码处理得到的掩码样本。而特征提取模型的具体训练过程可以参见下述相关实施例中的描述,在此不再赘述。
最终,处理设备可以利用模型输出的局部特征和全局特征对待处理数据进行处理,以得到处理结果。
对于根据特征进行数据处理的过程,以图像检索服务为例;待处理数据可以包括用户输入的、文本模态的检索关键词。处理设备可以根据模型提取出的特征确定检索关键词的语义,并根据检索关键词的语义在图像库中检索具有相同语义的图片,检索到的图片可以作为检索结果反馈给用户,该检索结果也即为待处理数据的出处理结果。
以图片验证服务为例:待处理数据可以包括页面中文字或语音模态的选择要求、多张备选图像以及用户在页面中根据选择要求选中的图像。处理设备可以根据模型提取出的特征可以确定选择要求的语义、备选图像的语义以及选中图像的语义。之后,处理设备可以根据语义确定用户选择的图片是否符合选择要求,以最终确定用户是否验证成功,验证结果也即为待处理数据的处理结果。
本实施例中,将至少一种模态的待处理数据输入特征提取模型,以由该模型输出该待处理数据的局部特征和全局特征,最终,可以根据模型输出的不同层级的特征对待处理数据进行处理,以得到处理结果。其中,特征提取模型是利用对比损失和掩码损失进行训练的。
在上述过程中,对至少一种模态的待处理数据进行处理以得到处理结果的过程可以认为是对数据提供的一种处理服务,实现处理服务的重点在于利用特征提取模型得到待处理数据的全局特征和局部特征。而在进行特征提取模型训练时又同时使用了对比损失和掩码损失,利用掩码损失训练能够提高模型对样本中细节信息的提取能力,利用对比损失训练能够提高模型对样本中整体信息的提取能力,因此,能够使得特征提取模型有较高的特征提取能力,从而最终保证对不同模态的数据处理的准确性。
上述实施例中并未限定特征提取模型的具体模型结构,可选地,图2为本发明实施例提供的一种特征提取模型的结构示意图。该模型可以包括输入层、第一提取层和第二提取层,第二提取层可以包括自注意力模块,且模型中的各层具体可以表现为深度学习网络。则基于上述的模型结构,该模型对待处理数据进行特征提取的过程可以为:
将待处理数据划分得到的数据片段输入输入层,则特征提取模型中的第一提取层可以对多个数据片段进行特征提取,以得到该待处理数据的中间特征。然后,中间特征又可以进一步输入第二提取层,以由第二提取层借助自注意力模块,对待处理数据的中间特征进行特征提取,以最终得到待处理数据的局部特征和全局特征。
基于上述实施例中的描述可知,特征提取模型的特征提取能力会直接影响服务质量即下游功能的准确性,则为了提高特征提取模型的特征提取能力,图3为本发明实施例提供的一种模型训练方法的流程图。本发明实施例提供的该模型训练方法可以由具有数据处理能力的训练设备执行,可选地,该训练设备可以是服务器等等,待训练的特征提取模型部署于该训练设备中。训练设备可以与上述各实施例中的处理设备为同一设备。如图3所示,该方法可以包括如下步骤:
S201,将原始样本输入特征提取模型,以由特征提取模型输出原始样本的第一局部特征和第一全局特征。
S202,将掩码样本输入特征提取模型,以由特征提取模型输出掩码样本的第二局部特征和第二全局特征。
在对特征提取模型进行训练之前,可以先获取原始样本并对原始样本进行掩码处理,以得到掩码样本。其中,原始样本即未被处理过的、语义完整的样本,与此相对的,掩码样本是对原始样本进行掩码(Mask)处理后得到的、语义不完整的样本。
可选地,原始样本可以是至少一种模态的数据,比如语音、文本、图像等等。可选地,原始样本还可以具有不同的表现形式,原始样本可以是语义完整的一整段数据,比如可以是一整张图像或者一条语义完整文本、语音等等,原始样本也可以包括能够构成完整语义的多个数据片段,比如一整张图像中的多个图像块、一条文本中或者语音中的多个单词。
当原始样本为完整数据时,对于掩码样本的获取,可选地,可以将原始样本作为整体,对整体中预设比例的部分样本进行掩码处理,以得到掩码样本。
当原始样本为数据片段时,对于原始样本和掩码样本的获取,可选地,训练设备可以先收集历史数据并对历史数据进行划分,由划分得到的多个数据片段构成上述的原始样本。再对多个数据片段中预设比例的部分片段进行掩码处理,以由被掩码的部分片段和多个数据片段中的剩余片段构成掩码样本。
进一步地,训练设备可以将上述任一种表现形式的原始样本和掩码样本分别输入需要训练的特征提取模型中,以由该模型提取出原始样本的第一局部特征和第一全局特征,也提取出掩码样本的第二局部特征和第二全局特征。可选地,任一样本的全局特征或者局部特征都可以包含多个特征。可选地,当任一条原始样本包括多个数据片段时,该条样本的任一个全局特征可以包含多个数据片段中的信息,该条样本的任一个局部特征可以包含一个数据片段的信息。
S203,根据第一全局特征和第二全局特征,确定特征提取模型的对比损失。
S204,将第一局部特征作为第二局部特征的监督信息,确定特征提取模型的掩码损失。
接着,训练设备可以根据特征提取模型输出的两个全局特征,确定该模型的对比损失。同时,由于原始样本没有被掩码,因此,第一局部特征包含第二局部特征中被掩码的信息,则训练设备也可以将第一局部特征作为第二局部特征的监督信息,以确定出模型的又一损失,该损失也可以称为掩码损失。其中,由于原始样本和掩码样本的语义相同,因此,对比损失越小,表明利用特征提取模型提取出的第一全局特征和第二全局特征越相近;掩码损失越小,表明第二局部特征与第一局部特征越相近。也即是对比损失和掩码损失的大小可以反映特征提取模型的特征提取能力。可选地,掩码损失具体可以使用用来产生数据向量的相关模型(Data to Vector,简称,Data2Vec)实现。
S205,根据掩码损失和对比损失,对特征提取模型进行训练。
最终,训练设备可以根据上述得到的掩码损失和对比损失进行模型的训练,也即是调整模型参数。
本实施例中,训练设备将原始样本及其对应的掩码样本可以输入特征提取模型,以由特征提取模型分别提出原始样本和掩码样本各自的全局特征和局部特征。训练设备再利用原始样本和掩码样本各自的全局特征确定特征提取模型的对比损失,利用原始样本和掩码样本各自的局部特征确定特征提取模型的掩码损失。最终,利用两种损失调整特征提取模型的参数,也即是实现对特征提取模型的训练。上述训练过程中,利用掩码损失训练能够提高模型对样本中细节信息的提取能力,利用对比损失训练能够提高模型对样本中整体信息的提取能力,因此,能够使得特征提取模型有较高的特征提取能力。另外,对比损失的使用,还可以改善单独使用掩码损失所产生的特征坍缩问题。
对于上述实施例,需要说明的还有,在按照上述实施例提供的方法训练得到特征提取模型后,使用此模型提取出的特征能够实现背景技术中提及各种下游功能。并且由于在训练特征提取模型时使用的原始样本可以是不同模态的,因此,训练出的特征提取模型同样也支持多种模态数据的输入,此时,背景技术中提及的多种下游功能,则可以具体为图像的分类、分割,可以实现图像、语音或文本的语义识别,也可以实现以图搜文、图像检索等等。可见,特征提取模型支持模态丰富的输入数据,这也大大丰富特征提取模型的适用场景,提高模型的泛化能力。
另外,对于上述提供的模型训练方法所能达到的有益效果,还可以从以下角度理解:
在实际中,根据使用特征提取模型提取出的特征所实现的下游功能不同,可以先利用常规训练方式进行特征提取模型的预训练。之后,一种情况,可以直接使用该预训练的模型提取出的特征实现某些下游功能,比如图像、语音或文字等不同模态数据的分类、以图搜文、图像检索等功能,即无需进一步使用与下游功能对应的样本对特征提取模型进行迁移学习。另一种情况,还可以使用与另一些下游功能对应的样本对预训练的模型进行迁移学习,最终使用完成迁移学习的特征提取模型提取出的特征实现另一些下游功能。另一些下游功能比如可以是不同模态数据的语义分割,语义识别等。
而上述实施例中,训练设备使用对比损失训练模型,这实际上是使用了对比学习的机制进行模型训练,使得训练得到的特征提取模型具有较强的特征提取能力,特征提取模型具有零样本检索能力。则当模型提取出的特征被应用到某些不用迁移学习的下游功能时,即使不进行迁移学习特征提取模型也能够利用自身较强的特征提取能力保证这些下游功能的效果。同时,训练设备还使用掩码损失训练模型,这实际上是借助了掩码机制进行模型训练,使得训练出的特征提取模型还具有较强的迁移学习能力。则当特征提模型取出的特征被应用到另一些需要迁移学习的下游功能时,也能够保证这些下游功能的效果。
上述实施例中已经提及了,在模型训练过程中需要使用局部特征来确定特征提取模型的掩码损失。对于掩码损失的具体计算过程,当原始样本具体表现为语义完整的一整段数据时,可选地,训练设备可以以整个样本为单位进行掩码损失的计算。具体地,可以直接将此原始样本的第一局部特征作为掩码样本的第二局部特征的监督信息,确定特征提取模型的掩码损失。
当原始样本具体表现为多个数据片段时,可选地,训练设备可以以数据片段为单位进行掩码损失的计算。具体地,可以将原始样本中第一数据片段的第一局部特征,作为掩码样本中第二数据片段的第二局部特征的监督信息,确定特征提取模型的掩码损失。其中,第一数据片段为原始样本中的任一数据片段,且第一数据片段在原始样本中的位置和第二数据片段在掩码样本中的位置相同。按照上述方式可以计算出原始样本中各数据片段各自对应的掩码损失,训练设备可以利用多个数据片段各自对应的掩码损失实现模型的训练。
在实际中,输入特征提取模型的原始样本可以包含单一模态,比如是单独的图像、语音、文本等等。则在利用单一模态的原始样本训练出特征提取模型后,使用此模型提取出的特征可以实现上述提及的分类、语义识别等各种下游功能。在实际中,输入特征模型提取模型的原始样本也可以包含多种模态,比如同时包含文本和图像、或者同时输入语音、文本和图像等等。在利用多模态的原始样本训练出特征提取模型后,使用此模型提取出的特征能够实现其他更丰富的下游功能,比如网页中常见的图片验证、语音验证等等。
当原始样本包含多种模态时,可以对图3所示实施例提供模型训练方法进行进一步细化。图4为本发明实施例提供的另一种模型训练方法的流程图。如图4所示,该方法可以包括如下步骤:
S301,将原始样本输入特征提取模型,以由特征提取模型输出原始样本的第一局部特征和第一全局特征。
S302,将掩码样本输入特征提取模型,以由特征提取模型输出掩码样本的第二局部特征和第二全局特征。
由于训练模型使用的任一条原始样本可以包含多种模态,并且同一条原始样本中的多模态样本具有相同的语义,因此,一条原始样本可以认为是一个包含语义相同的多种模态样本的样本组。
以图像和文本两种模态为例,一个原始样本中的图像样本可以显示两个男孩在草地上玩飞盘,则相应的文本样本可以为“两个男孩在草地上玩飞盘”。可选地,文本可以对应于不同语种。此时,将原始样本输入特征提取模型后,该模型可以输出原始样本中不同模态的样本各自的第一局部特征和第一全局特征。类似的,将掩码样本输入特征提取模型后,该模型可以输出掩码样本中不同模态的样本各自的第二局部特征和第二全局特征。
其中,原始样本和掩码样本的获取方式以及不同样本的特征提取过程均可以参见上述图3所示实施例中相关步骤的具体描述,在此不再赘述。
S303,根据原始样本中任一模态的样本的第一全局特征和掩码样本中任一模态的样本的第二全局特征,确定特征提取模型的对比损失。
对于多种模态中的任一模态,训练设备可以根据该任一模态的样本的第一全局特征和该任一模态的样本的第二全局特征,计算此特征模型的对比损失。容易理解的,原始样本包含的不同模态的样本都有各自对一个对应的对比损失。并且该对比损失的大小能够反映第一全局特征和第二全局特征之间是否相近。
S304,将原始样本中任一模态的样本的第一局部特征作为掩码样本中任一模态的样本的第二全局特征的监督信息,确定特征提取模型的掩码损失。
同时,由于原始样本包含完整的语义,因此,训练设备还可以将步骤S301提取出的原始样本中任一模态的样本的第一局部特征,作为步骤S302提取出的掩码样本中任一模态的样本的第二局部特征的监督信息,从而确定特征提取模型的掩码损失。
对于掩码损失的确定,可选地,当原始样本中任一种模态样本具有表现为语义完整的一整段数据时,训练设备可以直接将此任一种模态样本的第一局部特征作为该模态样本对应的掩码样本的第二局部特征的监督信息,确定特征提取模型的掩码损失。可选地,当任一种模态样本具体表现为多个数据片段时,训练设备可以以数据片段为单位进行掩码损失的计算。具体确定过程可以参见上述相关实施例中此描述,在此不再赘述。
并且与步骤S303类似的,原始样本包含的不同模态的样本也都有各自对一个对应的掩码损失。该掩码损失的大小也能够反映第一局部特征和第二局部特征之间是否相近。
S305,根据掩码损失和对比损失,对特征提取模型进行训练。
最终,训练设备可以根据每种模态的样本的掩码损失和对比损失进行特征提取模型的训练。
本实施例中,当原始样本和掩码样本包含多种模态样本时,特征提取模型可以分别提取出多种模态样本各自的局部特征和全局特征,训练设备可以进一步计算出不同模态样本各自对应的对比损失和掩码损失,并根据这些损失进行模型训练。利用对比损失和掩码损失能够分别提高模型的整体信息的提取能力和细节信息的提取能力,因此,能够使得特征提取模型有较高的特征提取能力。并且相比于单一模态的样本,按照本实施例提供方法训练出的特征提取模型具有更广的适用场景。另外,本实施例中未详细描述的内容以及所能达到的技术效果可以参见上述实施例中的描述,在此不再赘述。
在图4所示实施例的基础上,为了进一步提高模型的训练效果,可选地,训练设备还可以先融合掩码样本中多种模态样本各自的第二全局特征,以得到融合全局特征。然后,再利用融合全局特征分别和和原始样本中多种模态的样本各自的第一全局特征,确定特征提取模型的对比损失。为了后续描述清晰、间接可以将步骤S303中的对比损失称为第一类对比损失,将利用融合全局特征得到的对比损失称为第二类对比损失。其中,原始样本包含的每种模态的样本有一个对应的第二类对比损失。
本实施例中,对掩码样本中各种模态样本的全局特征进行融合以得到融合全局特征,此特征中可以同时包含多种模态样本的信息,再利用此信息丰富的融合全局特征和原始样本中各种模态样本的全局特征计算第二类对比损失。利用此第二类对比损失进行模型训练可以使特征提取模型学习更好地学习到原始样本中不同模态样本所包含的信息,也即是实现单模态样本的对齐,也能够提高模型的泛化能力。另外,本实施例中未详细描述的内容以及所能达到的技术效果可以参见上述实施例中的描述,在此不再赘述。
在上述描述的基础上,为了进一步提高模型的训练效果,可选地,训练设备还可以根据原始样本中不同模态样本各自的第一全局特征,确定特征提取模型的对比损失,此对比损失也可以称为第三类对比损失,并利用此第三对比损失进行模型训练。
本实施例中,对于语义相同模态不同的样本,利用此第三类对比损失训练可以使特征提取模型学习到这些样本之间的内在关联关系,也即是实现不同模态样本之间的对齐,提高模型的泛化能力。另外,本实施例中未详细描述的内容以及所能达到的技术效果可以参见上述实施例中的描述,在此不再赘述。
综上所述,对比损失的使用可以改善单独使用掩码损失所产生的特征坍缩问题。并且在此基础上,当原始样本具体包括语义相同、模态不同的样本时,使用第一类对比损失可以提高模型的整体信息的提取能力;使用第二类对比损失可以实现单模态样本的对齐,可以提高模型泛化能力;使用第三类对比损失可以实现不同模态样本之间的对齐,也可以提高模型泛化能力。
可见,上述不同对比损失的使用可以从不同角度提高特征提取模型的训练效果。假设原始样本包括图像模态的样本和文本模态的样本,则上述使用不同损失进行特征提取模型的过程可以结合图5理解。
上述各实施例中提及的服务提供方法可以由处理设备执行,并且处理设备可以具体表现为服务器。更具体来说,服务器可以是云服务器,此时,借助云服务器还可以对外提供不同服务。
则图6为本发明实施例提供的一种服务提供方法的流程图。该方法的执行主体可以为云服务器,该云服务器中还可以部署有服务平台,用户可以通过与此服务平台进行交互使用平台提供的服务,也即是得到数据的处理结果。如图6所示,该方法可以包括如下步骤:
S401,响应于用户在服务平台触发的输入操作,获取至少一种模态的待处理数据,服务平台部署于云服务器中。
S402,将至少一种模态的待处理数据输入特征提取模型,以由特征提取模型输出待处理数据的局部特征和全局特征,其中,特征提取模型利用根据训练样本的特征计算出的对比损失和掩码损失进行训练,训练样本包括原始样本以及对原始样本进行掩码处理得到的掩码样本,训练样本与待处理数据的模态相同。
S403, 根据局部特征和全局特征确定待处理数据的处理结果。
S404, 在服务平台上展示处理结果。
服务平台可以提供用户交互界面,在该界面中用户可以在数据输入区域输入与服务对应的、至少一种模态的待处理数据。云服务器可以借助特征提取模型对待处理数据进行特征提取,并根据提取到的特征确定处理结果。该处理结果可以作为服务结果展示给用户。服务平台可以提供至少一种服务,服务平台的主页提供数据输入区域,服务平台还可以显示处理结果。
另外,本实施例中各步骤的具体实现方式以及所能达到的技术效果可以参见上述实施例中的描述,在此不再赘述。
上述各实施例中提及了多种服务,则对于图像检索服务,图7为本发明实施例提供的一种服务提供方法的流程图。该方法的执行主体可以为处理设备,该处理设备具体可以为云服务器也可以传统服务器。如图7所示,该方法可以包括如下步骤:
S501,获取用户输入的检索关键词,检索关键词包括语音模态、文本模态、图像模态等至少一种模态。
S502,将检索关键词输入特征提取模型,以由特征提取模型输出检索关键词的局部特征和全局特征,其中,用于图像检索的特征提取模型利用根据训练样本的特征计算出的对比损失和掩码损失进行训练,训练样本包括原始样本以及对原始样本进行掩码处理得到的掩码样本,训练样本与检索关键词的模态相同。
S503,根据局部特征和全局特征确定检索关键词对应的图像。
S504,向用户展示图像。
用户想要进行图像检索时,可以向处理设备输入检索关键词。其中,检索关键词可以是至少一种模态。当检索关键词是文字模态或者语音模态时,图像检索服务也即为单模态的图像检索服务,即以文搜图服务;当检索关键词同时包含图像模态和文字模态,或者同时包含图像模态和语音模态时,图像检索服务也即为多模态的图像检索服务。处理设备在获取到用户输入的检索关键词后,则可以利用特征提取模型提取出的全局特征和局部特征实现图像的检索,检索结果可以反馈给用户。
可选地,用户对检索关键词的输入以及检索结果的展示都可以通过处理设备中部署的服务平台实现,即用户可以通过与服务平台进行交互以输入检索关键词,并最终在服务平台上向用户展示检索结果。
可选地,服务平台提供的交互界面可以如图8所示,用户可以在服务平台首页上展示的多种服务中选择图像检索服务,并在对应的数据输入区域输入检索关键词。最终,服务平台提供的检索结果页上展示图像的检索结果。
本实施例中,用户可以通过与服务平台交互的方式实现图像检索,由于特征提取模型能够准确地提取出检索关键词的特征,因此,能够保证图像检索的准确性。另外,本实施例中各步骤的具体实现方式以及所能达到的技术效果可以参见上述实施例中的描述,在此不再赘述。
图1、图6~图8所示的实施例中,借助特征提取模型强大的特征提取能力,能够将各种下游功能作为服务提供给用户。除了上述的各种服务,对于特征提取模型的训练过程,也即是图3~图5所示的模型训练方法,也可以作为一种模型训练服务提供给有训练需求的用户,则图9为本发明实施例提供的一种服务提供方法的流程图。该方法的执行主体可以为服务平台。可选地,此服务平台可以部署于上述各实施例提及的服务器中。如图9所示,该方法可以包括如下步骤:
S601,响应于用户的输入,获取原始样本和对原始样本进行掩码处理得到的掩码样本。
对于有模型训练需求的用户,其可以预先收集原始样本并对原始样本进行掩码处理,以得到掩码样本。之后,用户可以在服务平台上触发输入操作,以将前述得到的原始样本和掩码样本输入服务平台中。
S602, 将原始样本输入特征提取模型,以由特征提取模型输出原始样本的第一局部特征和第一全局特征。
S603,将掩码样本输入特征提取模型,以由特征提取模型输出掩码样本的第二局部特征和第二全局特征,掩码样本是对原始样本进行掩码处理的结果。
S604,根据第一全局特征和第二全局特征,确定特征提取模型的对比损失。
S605, 将第一局部特征作为第二局部特征的监督信息,确定特征提取模型的掩码损失。
S606, 根据掩码损失和对比损失,对特征提取模型进行训练。
上述步骤S602~步骤S606的具体实现过程可以参见图3所示实施例中相关步骤的具体描述,在此不再赘述。
S607, 输出特征提取模型。
最终,服务平台可以向用户输出特征提取模型,具体地,可以是输出特征提取模型的参数。
本实施例中,服务平台在获取到原始样本及其对应的掩码样本后,可以将其输入待训练的特征提取模型,以由特征提取模型分别提出原始样本和掩码样本各自的全局特征和局部特征。服务平台再利用原始样本和掩码样本各自的全局特征确定特征提取模型的对比损失,利用原始样本和掩码样本各自的局部特征确定特征提取模型的掩码损失。最终,利用两种损失调整特征提取模型的参数,也即是实现对特征提取模型的训练。
上述训练过程中,利用掩码损失训练能够提高模型对样本中细节信息的提取能力,利用对比损失训练能够提高模型对样本中整体信息的提取能力,因此,能够使得特征提取模型有较高的特征提取能力。另外,对比损失的使用,还可以改善单独使用掩码损失所产生的特征坍缩问题。
需要说明的有,正如图3~图5中任一实施例中提及的,用户输入的原始样本可以包含至少一种模态的样本,此时,服务平台同样可以也按照上述相关实施例提供的方式使用多种模态的样本训练特征提取模型,在保证模型训练效果的同时,使得特征提取模型也支持不同模态的输入。另外,本实施例中未详细描述的内容以及所能达到的技术效果可以参见上述相关实施例中的描述,在此不再赘述。
承接图2提供的特征提取模型的结构,图10为本发明实施例提供的一种特征提取方法的流程图。在模型训练过程中,特征提取模型可以按照下述流程对训练样本进行特征提取。如图10所示,该方法可以包括如下步骤:
S701,特征提取模型中的第一提取层对原始样本进行特征提取,以得到第一中间特征。
S702, 特征提取模型中的第二提取层借助自注意力模块,对第一中间特征进行特征提取,以得到第一局部特征和第一全局特征。
特征提取模型中的输入层用于接收原始样本和掩码样本,并将其输入至第一提取层。第一提取层可以对原始样本进行特征提取,以得到第一中间特征。接着,借助自注意力模块对第一中间特征进行处理,第二提取层可以进一步对自注意力模块输出的处理结果进行特征提取,以得到第一局部特征和第一全局特征。其中,原始样本和掩码样本可以表现为一整段完整的数据或者多个数据片段。
可选地,对于原始样本中不同模态的样本,第一提取层可以包括适用于图像的多层感知机(Multi-Layer Perception, 简称MLP),也可以称为全连接神经网络、残差网络(ResNets)等卷积神经网络、ViT(Vision Transformer)网络,也可以包括适用于文本的词嵌入(word embedding)算法等等,也可以包括适用于语音的相关算法。可选地,第二提取层可以与与第一提取层相同,即为包括前述提及的、适用于不同模态样本的网络。可选地,第二提取层也可以包括适用于不同模态样本的前馈神经网络(Feed Forward Networks,简称FFN)。
需要说明的有,为了提取出尺度不同的特征,第一提取层可以包括多个网络,经过的网络越多,提取出的特征尺度越小,提取出的特征中低层次信息越少高层次信息越多。类似的,第二提取层也可以包括多个网络。并且每个提取层中的多个网络的类型可以相同或者不同。
S703,特征提取模型中的第一提取层对掩码样本进行特征提取,以得到第二中间特征。
S704, 特征提取模型中的第二特征层借助自注意力模块,对第二中间特征进行特征提取,以得到第二局部特征和第二全局特征。
与上述步骤类似的,特征提取模型中第一提取层和第二提取层还可以对原始样本对应的掩码样本进行特征提取,以得到第二局部特征和第二全局特征。步骤S703~步骤S704的具体实现过程可以上述两步骤中的相关描述,在此不再赘述。本实施例提供的特征提取过程也可以结合图11理解。
并且需要说明的有,特征提取模型可以分别对原始样本和掩码样本进行特征提取,但本实施例中先对原始样本提取特征再对掩码样本提取特征只是一种示意性的特征提取顺序,本发明并不限定两种样本特征提取的先后顺序。
本实施例中,基于图2所示的特征提取模型,该模型可以分别对原始样本和掩码样本进行特征提取,提取出的全局特征和局部特征可以进一步提供给服务器或者服务平台,以由服务器或者服务平台按照上述图3~图5所示实施例或图9所示实施例提供的方法进行训练图2所示的特征提取模型,从而保证训练效果。
可选地,当原始样本包括多种模态的样本时,可以使用不同类型的网络对不同模态的样本进行特征提取。以原始样本包括图像和文本两种模态的样本为例,图11所示的特征提取模型可以相应地变形为图12。
在图12所示的特征提取模型中,适用于图像模态的样本的第一提取层可以提取出原始图像的第一中间特征以及掩码图像的第二中间特征,适用于文本模态的样本的第一提取层可以提取出原始文本的第一中间特征以及掩码样本的第二中间特征。之后,不同第一提取层提取出的结果可以输入特征提取模型的自注意力模块,以由该模块对特征进行处理,以分别得到图像模态的样本对应的第一处理结果和文本模态的样本对应的第二处理结果。接着,第一处理结果可以进一步输入适用于图像模态的样本的第二提取层,以最终提取出原始图像和掩码图像各自的全局特征和局部特征。第二处理结果可以输入至适用于文本模态的样本的第二提取层,以提取原始文本和掩码文本各自的全局特征和局部特征。上述特征提取模型对样本提取特征的过程也可以结合图12理解。
如图12所示,适用于不同模态样本的第二提取层可以共用一个自注意力模块。该模块的共用一方面可以减少模型参数,提高模型的收敛速度;另一方面还可以使不同模态样本的中间特征相互融合,提高模型的训练效果。
本实施例中,当原始样本包括多种模态的样本时,利用图2所示的模型可以输出不同模态的全局特征和局部特征,以供服务器或者服务平台进一步计算用于实现模型训练的损失。并且不同模态的样本共享一个自注意力模块,在提高收敛速度的同时也能够提高训练效果。
可选地,根据实际需求,也可以为不同的第二提取层分别设置对应的自注意力模块,并由该模块处理将处理结果输入至对应的第二提取层中。
下面可以单一模态的样本为例,对上述各实施例提供的模型训练方法和服务提供方法的具体实现过程进行描述。
假设用户想要训练出能够实现图像检索功能的特征提取模型,则服务平台可以响应于用户在服务平台的界面上触发的选择操作,确定该特征提取模型所实现的下游功能为图像检索。接着,响应于用户在界面上触发的输入操作,获取用户输入的文本模态原始样本,后续可以简称为原始文本,同时还可以获取该原始文本对应的掩码样本,后续可以简称为掩码文本。其中,文本中的每个词语都可以认为是一个数据片段。举例来说,任一条包含多个数据片段的原始样本可以为“two boys playing frisbee on the grass”,则对应的掩码文本为“two [mask] playing [mask]on the grass”。
此时,部署有服务平台的服务器获取到的用户输入的原始文本和掩码文本可以以数据片段的形式输入特征提取模型,基于图2所示的模型结构,经过该模型中第一提取层、自注意力模块以及第二提取层的先后处理,该模型可以输出原始文本的第一全局特征和第二局部特征,以及掩码文本的第一全局特征和第二局部特征。之后,服务器可以根据第一全局特征和第二全局特征,确定特征提取模型的对比损失,再将第一局部特征作为第二局部特征的监督信息,确定特征提取模型的掩码损失。其中,掩码损失和对比损失都是越小越好。最终,服务器可以利用前述的掩码损失和对比损失进行模型训练,即调整模型参数至模型收敛。并且使用收敛的特征提取模型提取出的特征可以直接进行以文搜图。
上述使用单模态样本进行模型训练的过程还可以结合图13理解。上述训练过程所能达到的技术效果也可以参见上述相关实施例中的描述,在此不再赘述。
在按照上述过程完成特征提取模型的训练之后,用户还可以使用服务平台按照图8所示的方式实现图像检索。此过程所能达到的技术效果也可以参见上述相关实施例中的描述,在此不再赘述。
下面还可以以多模态的样本为例,对上述各实施例提供的模型训练方法和服务提供方法的具体实现过程进行描述。
假设用户想要训练出能够实现图片验证功能的特征提取模型,则服务平台可以响应于用户在服务平台的界面上触发的选择操作,确定该特征提取模型所实现的下游功能为图片验证。接着,响应于用户在界面上触发的输入操作,获取用户输入的文本模态和图像模态的原始样本,后续可以简称为原始文本和原始图像,还可以获取与该原始图像具有相同语义的图像模态的掩码样本,后续可以简称为掩码图像,同时还可以获取与该原始文本具有相同语义的文本模态的掩码样本,后续可以简称为掩码文本。其中,文本中的每个词语都可以认为是一个数据片段,图像可以被预先划分为图像块,每个图像块都可以认为是一个数据片段。
此时,部署有服务平台的服务器获取到的、具有相同语义的原始文本、原始图像、掩码图像以及掩码文本可以以数据片段的形式输入特征提取模型,基于图7所示的模型结构,经过该模型中第一提取层、共享的自注意力模块以及第二提取层先后处理,该模型可以输出原始文本的第一全局特征和第一局部特征,原始图像的第一全局特征和第一局部特征、掩码图像的第二全局特征和第二局部特征以及掩码文本的第二全局特征和第二局部特征。之后,服务器可以不同模态的样本的全局特征计算出三类对比损失,根据不同模态的样本的局部特征计算出掩码损失。其中,三类对比损失和掩码损失的计算方式可以如图5所示。最终,服务器可以利用前述的掩码损失和三类对比损失进行模型训练,即调整模型参数至模型收敛。并且使用收敛的特征提取模型提取出的特征可以直接进行图片验证。
上述多模态样本进行模型训练的过程还可以结合图14理解。上述训练过程所能达到的技术效果也可以参见上述相关实施例中的描述,在此不再赘述。
在按照上述过程完成特征提取模型的训练之后,用户还可以使用服务平台同样可以按照图8所示的界面先后选中检索结果2和检索结果6以实现图片验证。此过程所能达到的技术效果也可以参见上述相关实施例中的描述,在此不再赘述。
在一个可能的设计中,上述各实施例提供的服务提供方法可以应用在一电子设备中,如图15所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,第一存储器22用于存储支持该电子设备执行上述图1~图5和图10~图12所示实施例中提供的服务提供方法的程序,第一处理器21被配置为用于执行第一存储器22中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:
获取至少一种模态的待处理数据;
将所述至少一种模态的待处理数据输入特征提取模型,以由所述特征提取模型输出所述待处理数据的局部特征和全局特征;
根据所述局部特征和所述全局特征确定所述待处理数据的处理结果;
其中,所述特征提取模型利用根据训练样本的特征计算出的对比损失和掩码损失进行训练,所述训练样本包括原始样本以及对所述原始样本进行掩码处理得到的掩码样本。
可选地,第一处理器21还用于执行前述图1~图5和图10~图12所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第一通信接口23,用于该电子设备与其他设备或通信系统通信。
在一个可能的设计中,上述各实施例提供的服务提供方法可以应用在另一电子设备中,如图16所示,该电子设备可以包括:第二处理器31和第二存储器32。其中,第二存储器32用于存储支持该电子设备执行上述图6所示实施例中提供的服务提供方法的程序,第二处理器31被配置为用于执行存储器32中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第二处理器31执行时能够实现如下步骤:
响应于用户在服务平台触发的输入操作,获取至少一种模态的待处理数据,所述服务平台部署于所述云服务器中;
将所述至少一种模态的待处理数据输入特征提取模型,以由所述特征提取模型输出所述待处理数据的局部特征和全局特征;
根据所述局部特征和所述全局特征确定所述待处理数据的处理结果;
在所述服务平台上展示所述处理结果;
其中,所述特征提取模型利用根据训练样本的特征计算出的对比损失和掩码损失进行训练,所述训练样本包括原始样本以及对所述原始样本进行掩码处理得到的掩码样本,所述训练样本与所述待处理数据的模态相同。
可选地,第二处理器31还用于执行前述图6所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第二通信接口33,用于该电子设备与其他设备或通信系统通信。
在一个可能的设计中,上述各实施例提供的服务提供方法可以应用在另一电子设备中,如图17所示,该电子设备可以包括:第三处理器41和第三存储器42。其中,第三存储器42用于存储支持该电子设备执行上述图7或图8所示实施例中提供的服务提供方法的程序,第三处理器41被配置为用于执行第三存储器42中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第三处理器41执行时能够实现如下步骤:
获取用户输入的检索关键词,所述检索关键词包括语音模态、文本模态、图像模态中的至少一种模态;
将所述检索关键词输入特征提取模型,以由所述特征提取模型输出所述检索关键词的局部特征和全局特征;
根据所述局部特征和所述全局特征确定所述检索关键词对应的图像;
向所述用户展示所述图像;
其中,用于图像检索的特征提取模型利用根据训练样本的特征计算出的对比损失和掩码损失进行训练,所述训练样本包括原始样本以及对所述原始样本进行掩码处理得到的掩码样本,所述训练样本与所述检索关键词的模态相同。
可选地,第三处理器41还用于执行前述图7或图8所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第三通信接口43,用于该电子设备与其他设备或通信系统通信。
在一个可能的设计中,上述各实施例提供的服务提供方法可以应用在又一电子设备中,如图18所示,该电子设备可以包括:第四处理器51和第四存储器52。其中,第四存储器52用于存储支持该电子设备执行上述图9所示实施例中提供的服务提供方法的程序,第四处理器51被配置为用于执行第四存储器52中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第四处理器51执行时能够实现如下步骤:
响应于用户的输入,获取原始样本和对所述原始样本进行掩码处理得到的掩码样本;
将原始样本输入特征提取模型,以由所述特征提取模型输出所述原始样本的第一局部特征和第一全局特征;
将掩码样本输入所述特征提取模型,以由所述特征提取模型输出所述掩码样本的第二局部特征和第二全局特征,所述掩码样本是对所述原始样本进行掩码处理的结果;
根据所述第一全局特征和所述第二全局特征,确定所述特征提取模型的对比损失;
将所述第一局部特征作为所述第二局部特征的监督信息,确定所述特征提取模型的掩码损失;
根据所述掩码损失和所述对比损失,对所述特征提取模型进行训练;
输出所述特征提取模型。
可选地,第四处理器51还用于执行前述图9所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第四通信接口53,用于该电子设备与其他设备或通信系统通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存上述电子设备所用的计算机软件指令,其包含用于执行上述图1~图5和图10~图12所示的服务提供方法所涉及的程序。
另外,本发明实施例提供了另一种计算机存储介质,用于储存上述电子设备所用的计算机软件指令,其包含用于执行上述图6所示的服务提供方法所涉及的程序。
另外,本发明实施例提供了又一种计算机存储介质,用于储存上述电子设备所用的计算机软件指令,其包含用于执行上述图7或图8所示的服务提供方法所涉及的程序。
另外,本发明实施例提供了由一种计算机存储介质,用于储存上述电子设备所用的计算机软件指令,其包含用于执行上述图9所示的服务提供方法所涉及的程序。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (16)
1.一种服务提供方法,其特征在于,包括:
获取至少一种模态的待处理数据;
将所述至少一种模态的待处理数据输入特征提取模型,以由所述特征提取模型输出所述待处理数据的局部特征和全局特征;
根据所述局部特征和所述全局特征确定所述待处理数据的处理结果;
其中,所述特征提取模型利用根据训练样本的特征计算出的对比损失和掩码损失进行训练,所述训练样本包括原始样本以及对所述原始样本进行掩码处理得到的掩码样本。
2.根据权利要求1所述的方法,其特征在于,所述特征提取模型包括第一提取层以及包含自注意力模块的第二提取层;
所述将所述至少一种模态的待处理数据输入特征提取模型,以由所述特征提取模型输出所述待处理数据的特征,包括:
将对所述待处理数据划分得到的多个数据片段输入所述特征提取模型,以由所述第一提取层对所述数据片段进行特征提取,以得到中间特征,所述第二提取层借助所述自注意力模块,对所述中间特征进行特征提取,以得到所述待处理数据的局部特征和全局特征。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述原始样本输入所述特征提取模型,以由所述特征提取模型输出所述原始样本的第一局部特征和第一全局特征;
将所述掩码样本输入所述特征提取模型,以由所述特征提取模型输出所述掩码样本的第二局部特征和第二全局特征;
根据所述第一全局特征和所述第二全局特征,确定所述特征提取模型的对比损失;
将所述第一局部特征作为所述第二局部特征的监督信息,确定所述特征提取模型的掩码损失;
根据所述掩码损失和所述对比损失,对所述特征提取模型进行训练。
4.根据权利要求3所述的方法,其特征在于,所述原始样本和所述掩码样本各自包括多种模态的样本,所述多种模态的样本的语义相同;
所述根据所述第一全局特征和所述第二全局特征,确定所述特征提取模型的对比损失,包括:
根据所述原始样本中任一模态的样本的第一全局特征和所述掩码样本中所述任一模态的样本的第二全局特征,确定所述对比损失;
所述将所述第一局部特征作为所述第二局部特征的监督信息,确定所述特征提取模型的掩码损失,包括:
将所述原始样本中任一模态的样本的第一局部特征作为所述掩码样本中所述任一模态的样本的第二全局特征的监督信息,确定所述掩码损失。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一全局特征和所述第二全局特征,确定所述特征提取模型的对比损失,包括:
融合所述掩码样本中多种模态的样本各自的第二全局特征,以得到融合全局特征;
根据所述融合全局特征和所述原始样本中多种模态的样本各自的第一全局特征,确定所述特征提取模型的对比损失。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
根据所述原始样本中多种模态的样本各自的第一全局特征,确定所述特征提取模型的对比损失。
7.根据权利要求3所述的方法,其特征在于,所述将所述第一局部特征作为所述第二局部特征的监督信息,确定所述特征提取模型的掩码损失,包括:
对历史数据进行划分,以由划分得到的多个数据片段构成所述原始样本;
将所述原始样本中第一数据片段的第一局部特征,作为所述掩码样本中第二数据片段的第二局部特征的监督信息,确定所述特征提取模型的掩码损失;
其中,所述第一数据片段在所述原始样本中的位置和所述第二数据片段在所述掩码样本中的位置相同。
8.根据权利要求3所述的方法,其特征在于,所述特征提取模型输出所述原始样本的第一局部特征和第一全局特征,包括:
所述特征提取模型的第一提取层对所述原始样本进行特征提取,以得到中间特征;
所述特征提取模型的第二提取层借助自注意力模块,对所述中间特征进行特征提取,以得到所述第一局部特征和所述第一全局特征。
9.根据权利要求8所述的方法,其特征在于,所述原始样本包括多种模态的样本,所述多种模态的样本的语义相同;
所述特征提取模型的第一提取层对所述原始样本进行特征提取,包括:
所述特征提取模型中,与所述多种模态中任一种模态对应的第一提取层对所述任一模态的样本进行特征提取。
10.根据权利要求9所述的方法,其特征在于,所述特征提取模型的第二特征层借助自注意力模块,对所述中间特征进行特征提取,包括:
所述特征提取模型中,与所述任一模态对应的第二提取层,借助自注意力模块对所述任一模态的样本的中间特征进行特征提取,不同模态各自对应的第二提取层共享所述特征提取模型中的所述自注意力模块。
11.一种服务提供方法,其特征在于,应用于云服务器,包括:
响应于用户在服务平台触发的输入操作,获取至少一种模态的待处理数据,所述服务平台部署于所述云服务器中;
将所述至少一种模态的待处理数据输入特征提取模型,以由所述特征提取模型输出所述待处理数据的局部特征和全局特征;
根据所述局部特征和所述全局特征确定所述待处理数据的处理结果;
在所述服务平台上展示所述处理结果;
其中,所述特征提取模型利用根据训练样本的特征计算出的对比损失和掩码损失进行训练,所述训练样本包括原始样本以及对所述原始样本进行掩码处理得到的掩码样本,所述训练样本与所述待处理数据的模态相同。
12.一种服务提供方法,其特征在于,包括:
获取用户输入的检索关键词,所述检索关键词包括语音模态、文本模态、图像模态中的至少一种模态;
将所述检索关键词输入特征提取模型,以由所述特征提取模型输出所述检索关键词的局部特征和全局特征;
根据所述局部特征和所述全局特征确定所述检索关键词对应的图像;
向所述用户展示所述图像;
其中,用于图像检索的特征提取模型利用根据训练样本的特征计算出的对比损失和掩码损失进行训练,所述训练样本包括原始样本以及对所述原始样本进行掩码处理得到的掩码样本,所述训练样本与所述检索关键词的模态相同。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
在服务平台上展示提供的多种服务;
响应于所述用户在所服务平台上对图像检索服务的选择,确定所述用于图像检索的特征提取模型;
所述获取用户输入的检索关键词,包括:
响应于所述用户在所述服务平台上触发的输入操作,获取所述检索关键词。
14.一种服务提供方法,其特征在于,包括:
响应于用户的输入,获取原始样本和对所述原始样本进行掩码处理得到的掩码样本;
将原始样本输入特征提取模型,以由所述特征提取模型输出所述原始样本的第一局部特征和第一全局特征;
将掩码样本输入所述特征提取模型,以由所述特征提取模型输出所述掩码样本的第二局部特征和第二全局特征,所述掩码样本是对所述原始样本进行掩码处理的结果;
根据所述第一全局特征和所述第二全局特征,确定所述特征提取模型的对比损失;
将所述第一局部特征作为所述第二局部特征的监督信息,确定所述特征提取模型的掩码损失;
根据所述掩码损失和所述对比损失,对所述特征提取模型进行训练;
输出所述特征提取模型。
15.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1~14中任一项所述的服务提供方法。
16.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1~14中任一项所述的服务提供方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310182949.7A CN116051859B (zh) | 2023-02-21 | 2023-02-21 | 服务提供方法、设备和存储介质 |
PCT/CN2024/074059 WO2024174804A1 (zh) | 2023-02-21 | 2024-01-25 | 服务提供方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310182949.7A CN116051859B (zh) | 2023-02-21 | 2023-02-21 | 服务提供方法、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116051859A true CN116051859A (zh) | 2023-05-02 |
CN116051859B CN116051859B (zh) | 2023-09-08 |
Family
ID=86129684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310182949.7A Active CN116051859B (zh) | 2023-02-21 | 2023-02-21 | 服务提供方法、设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116051859B (zh) |
WO (1) | WO2024174804A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024174804A1 (zh) * | 2023-02-21 | 2024-08-29 | 浙江阿里巴巴机器人有限公司 | 服务提供方法、设备和存储介质 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200265220A1 (en) * | 2019-02-19 | 2020-08-20 | Fujitsu Limited | Apparatus and method for training classification model and apparatus for classifying with classification model |
CN111611790A (zh) * | 2020-04-13 | 2020-09-01 | 华为技术有限公司 | 数据处理的方法与装置 |
CN111950269A (zh) * | 2020-08-21 | 2020-11-17 | 清华大学 | 文本语句处理方法、装置、计算机设备和存储介质 |
CN112949565A (zh) * | 2021-03-25 | 2021-06-11 | 重庆邮电大学 | 基于注意力机制的单样本部分遮挡人脸识别方法及系统 |
CN113032545A (zh) * | 2021-05-29 | 2021-06-25 | 成都晓多科技有限公司 | 基于无监督对话预训练的对话理解与答案配置方法及系统 |
CN114118022A (zh) * | 2021-12-01 | 2022-03-01 | 科大讯飞股份有限公司 | 文本表示方法、装置、电子设备与存储介质 |
CN114186080A (zh) * | 2021-11-21 | 2022-03-15 | 南京理工大学 | 基于语义共享的深度跨模态检索方法及系统 |
US20220148571A1 (en) * | 2020-01-16 | 2022-05-12 | Tencent Technology (Shenzhen) Company Limited | Speech Recognition Method and Apparatus, and Computer-Readable Storage Medium |
US20220180126A1 (en) * | 2020-12-03 | 2022-06-09 | Ping An Technology (Shenzhen) Co., Ltd. | Method, device, and computer program product for self-supervised learning of pixel-wise anatomical embeddings in medical images |
CN114913339A (zh) * | 2022-04-21 | 2022-08-16 | 北京百度网讯科技有限公司 | 特征图提取模型的训练方法和装置 |
CN114973222A (zh) * | 2021-12-20 | 2022-08-30 | 西北工业大学宁波研究院 | 基于显式监督注意力机制的场景文本识别方法 |
CN114996502A (zh) * | 2022-06-23 | 2022-09-02 | 天津理工大学 | 一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备 |
CN115033670A (zh) * | 2022-06-02 | 2022-09-09 | 西安电子科技大学 | 多粒度特征融合的跨模态图文检索方法 |
CN115114480A (zh) * | 2022-04-26 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、可读存储介质及程序产品 |
CN115131638A (zh) * | 2022-05-31 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 视觉文本预训练模型的训练方法、装置、介质和设备 |
CN115186675A (zh) * | 2022-07-13 | 2022-10-14 | 科大讯飞华南人工智能研究院(广州)有限公司 | 语言模型训练及自然语言任务处理方法、装置及相关设备 |
CN115310551A (zh) * | 2022-08-15 | 2022-11-08 | 腾讯科技(武汉)有限公司 | 文本分析模型训练方法、装置、电子设备和存储介质 |
CN115687670A (zh) * | 2023-01-03 | 2023-02-03 | 天津恒达文博科技股份有限公司 | 图像搜索方法、装置、计算机可读存储介质及电子设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097019B (zh) * | 2019-05-10 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置、计算机设备以及存储介质 |
US11804043B2 (en) * | 2021-06-15 | 2023-10-31 | Lemon Inc. | Detecting objects in a video using attention models |
CN113239705B (zh) * | 2021-07-12 | 2021-10-29 | 北京百度网讯科技有限公司 | 语义表示模型的预训练方法、装置、电子设备和存储介质 |
CN114022735B (zh) * | 2021-11-09 | 2023-06-23 | 北京有竹居网络技术有限公司 | 视觉语言预训练模型的训练方法、装置、设备及介质 |
CN114187331B (zh) * | 2021-12-10 | 2024-10-18 | 哈尔滨工程大学 | 一种基于Transformer特征金字塔网络的无监督光流估计方法 |
CN115017358B (zh) * | 2022-08-09 | 2022-11-04 | 南京理工大学 | 一种多模态交互的跨模态检索方法及系统 |
CN116051859B (zh) * | 2023-02-21 | 2023-09-08 | 阿里巴巴(中国)有限公司 | 服务提供方法、设备和存储介质 |
-
2023
- 2023-02-21 CN CN202310182949.7A patent/CN116051859B/zh active Active
-
2024
- 2024-01-25 WO PCT/CN2024/074059 patent/WO2024174804A1/zh unknown
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200265220A1 (en) * | 2019-02-19 | 2020-08-20 | Fujitsu Limited | Apparatus and method for training classification model and apparatus for classifying with classification model |
US20220148571A1 (en) * | 2020-01-16 | 2022-05-12 | Tencent Technology (Shenzhen) Company Limited | Speech Recognition Method and Apparatus, and Computer-Readable Storage Medium |
CN111611790A (zh) * | 2020-04-13 | 2020-09-01 | 华为技术有限公司 | 数据处理的方法与装置 |
CN111950269A (zh) * | 2020-08-21 | 2020-11-17 | 清华大学 | 文本语句处理方法、装置、计算机设备和存储介质 |
US20220180126A1 (en) * | 2020-12-03 | 2022-06-09 | Ping An Technology (Shenzhen) Co., Ltd. | Method, device, and computer program product for self-supervised learning of pixel-wise anatomical embeddings in medical images |
CN112949565A (zh) * | 2021-03-25 | 2021-06-11 | 重庆邮电大学 | 基于注意力机制的单样本部分遮挡人脸识别方法及系统 |
CN113032545A (zh) * | 2021-05-29 | 2021-06-25 | 成都晓多科技有限公司 | 基于无监督对话预训练的对话理解与答案配置方法及系统 |
CN114186080A (zh) * | 2021-11-21 | 2022-03-15 | 南京理工大学 | 基于语义共享的深度跨模态检索方法及系统 |
CN114118022A (zh) * | 2021-12-01 | 2022-03-01 | 科大讯飞股份有限公司 | 文本表示方法、装置、电子设备与存储介质 |
CN114973222A (zh) * | 2021-12-20 | 2022-08-30 | 西北工业大学宁波研究院 | 基于显式监督注意力机制的场景文本识别方法 |
CN114913339A (zh) * | 2022-04-21 | 2022-08-16 | 北京百度网讯科技有限公司 | 特征图提取模型的训练方法和装置 |
CN115114480A (zh) * | 2022-04-26 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、可读存储介质及程序产品 |
CN115131638A (zh) * | 2022-05-31 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 视觉文本预训练模型的训练方法、装置、介质和设备 |
CN115033670A (zh) * | 2022-06-02 | 2022-09-09 | 西安电子科技大学 | 多粒度特征融合的跨模态图文检索方法 |
CN114996502A (zh) * | 2022-06-23 | 2022-09-02 | 天津理工大学 | 一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备 |
CN115186675A (zh) * | 2022-07-13 | 2022-10-14 | 科大讯飞华南人工智能研究院(广州)有限公司 | 语言模型训练及自然语言任务处理方法、装置及相关设备 |
CN115310551A (zh) * | 2022-08-15 | 2022-11-08 | 腾讯科技(武汉)有限公司 | 文本分析模型训练方法、装置、电子设备和存储介质 |
CN115687670A (zh) * | 2023-01-03 | 2023-02-03 | 天津恒达文博科技股份有限公司 | 图像搜索方法、装置、计算机可读存储介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
XUELU FENG等: "Local to Global Feature Learning for Salient Object Detection", 《PATTERN RECOGNITION LETTERS》, pages 81 - 88 * |
张森辉: "基于有序对比学习的零样本事件检测技术", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2023, no. 1, pages 138 - 3833 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024174804A1 (zh) * | 2023-02-21 | 2024-08-29 | 浙江阿里巴巴机器人有限公司 | 服务提供方法、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2024174804A1 (zh) | 2024-08-29 |
CN116051859B (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717017B (zh) | 一种处理语料的方法 | |
CN108959396B (zh) | 机器阅读模型训练方法及装置、问答方法及装置 | |
CN107423398B (zh) | 交互方法、装置、存储介质和计算机设备 | |
CN110209774B (zh) | 处理会话信息的方法、装置及终端设备 | |
CN112487182A (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN112084331A (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
EP3623957A1 (en) | Generation of point of interest copy | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN110909145B (zh) | 针对多任务模型的训练方法及装置 | |
CN112989212B (zh) | 媒体内容推荐方法、装置和设备及计算机存储介质 | |
CN114390217A (zh) | 视频合成方法、装置、计算机设备和存储介质 | |
EP4302234A1 (en) | Cross-modal processing for vision and language | |
CN111709493A (zh) | 对象分类方法、训练方法、装置、设备及存储介质 | |
CN116051859B (zh) | 服务提供方法、设备和存储介质 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN116561570A (zh) | 一种多模态模型的训练方法、装置、设备及可读存储介质 | |
CN115186133A (zh) | 视频生成方法、装置、电子设备及介质 | |
CN113095072B (zh) | 文本处理方法及装置 | |
CN113011320A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN118035945B (zh) | 一种标签识别模型的处理方法和相关装置 | |
CN117789099B (zh) | 视频特征提取方法及装置、存储介质及电子设备 | |
CN113516972B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN114330476A (zh) | 用于媒体内容识别的模型训练方法及媒体内容识别方法 | |
CN114676705A (zh) | 一种对话关系处理方法、计算机及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |