多模态数据处理方法和装置
技术领域
本申请属于人工智能技术领域,具体涉及一种多模态数据处理方法和装置。
背景技术
多模态学习从2010年起成为人工智能的热点之一。模态(Modality)指的是固定类型的信息来源,例如语音信息是一种模态,图像信息是另一种模态,文本信息是第三种模态等。模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当作是两种模态,甚至在两种不同情况下采集到的数据集,也可认为是两种模态。在这种语境下,就可以理解多模态学习是相对于单模态学习的。我们所熟知的语音识别、图像识别、指纹识别等都属于单模态学习的应用,其输入的信息是同类型的;如果机器学习模型的输入来自多个不同类型的信息源,例如输入为淘宝评论(文本)及其配图(图像)的情感分类模型,就属于多模态学习模型。
但是在实现本申请过程中,发明人发现,目前至少存在以下问题:现有技术中,如果想要训练多模态数据处理模型,只能采用同一数据提供方的数据进行训练,如果同时使用多个数据提供方的数据进行训练将导致各个数据提供方之间的数据互相泄露,数据安全难以保证,模型训练效率较低。
发明内容
本申请实施例的目的是提供多模态数据处理方法和装置,能够解决目前的如果想要训练多模态数据处理模型,只能采用同一数据提供方的数据进行训练,如果同时使用多个数据提供方的数据进行训练将导致各个数据提供方之间的数据互相泄露,数据安全难以保证,模型训练效率较低的技术问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种多模态数据处理方法,包括:
终端获取多模态数据;
所述终端通过特征提取算法对所述多模态数据进行特征提取,以获得所述多模态数据的数据特征;
所述终端通过第一转换算法对所述数据特征进行转换,以得到第一数据特征,其中,所述第一转换算法用于将所述多模态数据映射至特定空间;
所述终端将所述多模态数据的所述数据特征、数据标签以及终端id传输至服务端;
服务端通过与所述终端id相对应的第二转换算法对所述第一数据特征进行转换,以得到第二数据特征,其中,所述第二转换算法用于将所述不同的所述特定空间中数据映射至同一空间;
所述服务端以所述第二数据特征作为输入,以所述数据标签作为输出,进行多模态表示学习,以对多模态表示学习算法进行训练,在所述多模态表示学习算法收敛的情况下,完成训练。
进一步地,在所述终端将所述多模态数据的所述数据特征、数据标签以及终端id传输至服务端之前,还包括:
所述终端对所述多模态数据的数据标签进行无损其数学特性的加密;
所述终端将所述多模态数据的所述数据特征、数据标签以及终端id传输至服务端,具体为:
所述终端将所述多模态数据的所述数据特征、加密后的数据标签以及终端id传输至服务端。
进一步地,所述无损其数学特性的加密为同态加密。
进一步地,所述多模态数据的类型包括:语音模态数据、图像模态数据和文本模态数据,所述第一转换算法包括第一语音转换算法、第一图像转换算法和第一文本转换算法,所述终端通过第一转换算法对所述数据特征进行转换,具体为:
所述终端通过第一语音转换算法对语音数据特征进行转换,通过第一图像转换算法对图像数据特征进行转换,通过第一文本转换算法对文本数据特征进行转换。
进一步地,所述第一转换算法与所述第二转换算法不互逆。
第二方面,本申请实施例提供了一种多模态数据处理装置,包括:
获取模块,用于终端获取多模态数据;
提取模块,用于所述终端通过特征提取算法对所述多模态数据进行特征提取,以获得所述多模态数据的数据特征;
第一转换模块,用于所述终端通过第一转换算法对所述数据特征进行转换,以得到第一数据特征,其中,所述第一转换算法用于将所述多模态数据映射至特定空间;
传输模块,用于所述终端将所述多模态数据的所述数据特征、数据标签以及终端id传输至服务端;
第二转换模块,用于服务端通过与所述终端id相对应的第二转换算法对所述第一数据特征进行转换,以得到第二数据特征,其中,所述第二转换算法用于将所述不同的所述特定空间中数据映射至同一空间;
训练模块,用于所述服务端以所述第二数据特征作为输入,以所述数据标签作为输出,进行多模态表示学习,以对多模态表示学习算法进行训练,在所述多模态表示学习算法收敛的情况下,完成训练。
进一步地,多模态数据处理装置还包括:
加密模块,用于所述终端对所述多模态数据的数据标签进行无损其数学特性的加密;
所述传输模块,具体用于所述终端将所述多模态数据的所述数据特征、加密后的数据标签以及终端id传输至服务端。
进一步地,所述无损其数学特性的加密为同态加密。
进一步地,所述多模态数据的类型包括:语音模态数据、图像模态数据和文本模态数据,所述第一转换算法包括第一语音转换算法、第一图像转换算法和第一文本转换算法;
所述第一转换模块,具体用于所述终端通过第一语音转换算法对语音数据特征进行转换,通过第一图像转换算法对图像数据特征进行转换,通过第一文本转换算法对文本数据特征进行转换。
进一步地,所述第一转换算法与所述第二转换算法不互逆。
在本申请实施例中,通过第一转换算法将不同终端的多模态数据映射至各个特定的空间,之后通过第二转换算法将各个特定空间的多模态数据映射至同一空间,之后不同终端提供的多模态数据可以一同进行模型训练,同时各个终端所拥有的第一转换算法不同,彼此之间不受影响,各个终端的多模态数据在处理过程中互不影响,保证了不同终端之间的数据安全性,同时提高了模型训练的效率。
附图说明
图1是本申请实施例提供的一种多模态数据处理方法的流程示意图;
图2是本申请实施例提供的一种数据处理过程示意图;
图3是本申请实施例提供的另一种多模态数据处理方法的流程示意图;
图4是本申请实施例提供的另一种多模态数据处理装置的结构示意图。
附图标记说明:
40-多模态数据处理装置、401-获取模块、402-提取模块、403-第一转换模块、404-传输模块、405-第二转换模块、406-训练模块、407-加密模块。
本发明目的的实现、功能特点及优点将结合实施例、参照附图做进一步说明。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域场景普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的语音处理方法进行详细地说明。
实施例一
参照图1,示出了本申请实施例提供的一种多模态数据处理方法的流程示意图,多模态数据处理方法包括:
S101:终端获取多模态数据。
具体地,终端为数据提供方,进一步地,此处终端可以为多个不同的终端,不同的终端具有不同的终端id,用于识别终端的身份。
具体地,多模态数据的类型可以包括:语音模态数据、图像模态数据和文本模态数据中的至少两种。
更进一步地,不同的终端提供的多模态数据可以具有不同的构成,例如第一终端提供的多模态数据包括语音模态数据和图像模态数据,第二终端提供的多模态数据包括文本模态数据和图像模态数据。
无需第一终端提供的数据与第二终端提供的数据保持相同的构成,从而使得有效的利用更多的多模态数据。
终端可以通过载入数据的方式获取多模态数据,也可以通过现场采集的方式获取多模态数据。
S102:终端通过特征提取算法对多模态数据进行特征提取,以获得多模态数据的数据特征。
其中,特征提取算法预存在终端中,不同的终端在提取特征时可以采用相同的特征提取算法,其中,特征提取算法是现有技术,这里不再赘述。
S103:终端通过第一转换算法对数据特征进行转换,以得到第一数据特征,其中,第一转换算法用于将多模态数据映射至特定空间。
进一步地,多个终端所分配采用的第一转换算法是各自特有的,即每个终端id拥有特有的第一转换算法。
不同终端拥有不同的第一转换算法可以保证各个终端传输的数据之间的独立性,保证各个终端的数据安全性。
可选地,第一转换算法包括第一语音转换算法、第一图像转换算法和第一文本转换算法。
针对多模态数据中的各个模态可以采用不同的转换算法,终端通过第一语音转换算法对语音数据特征进行转换,通过第一图像转换算法对图像数据特征进行转换,通过第一文本转换算法对文本数据特征进行转换。
参照图2,图2示出了一种数据处理过程示意图,图中可以看出,第一终端中的多模态数据经过第一转换算法的处理被映射至第一特定空间,第二终端中的多模态数据经过第一转换算法的处理被映射至第二特定空间。第一终端与第二终端的数据处理彼此独立,互不干扰。
S104:终端将多模态数据的数据特征、数据标签以及终端id传输至服务端。
其中,数据标签用于指示原始数据(即未经处理的多模态数据)的结果,例如,一个对淘宝评论分类的模型,其目的是分辨某个评论是正向(好评)还是负向(差评),此时可以将好评标记为标签1,差评标记为标签0。
S105:服务端通过与终端id相对应的第二转换算法对第一数据特征进行转换,以得到第二数据特征,其中,第二转换算法用于将不同的特定空间中数据映射至同一空间。
应当理解的是,服务端存储有与多个终端id一一对应的多个第二转换算法。
第一终端传输的位于第一特定空间的数据经过与第一终端id对应的第二转换算法,第二终端传输的位于第二特定空间的数据经过与第二终端id对应的第二转换算法,最终两方的数据均被映射至公共空间中,以便后续的模型训练。
S106:服务端以第二数据特征作为输入,以数据标签作为输出,进行多模态表示学习,以对多模态表示学习算法进行训练,在多模态表示学习算法收敛的情况下,完成训练。
这里,以电商平台为例,结合图2具体的介绍本申请实施例提供的多模态数据处理方法。
电商平台甲(第一终端)和电商平台乙(第二终端)两家公司想要在保障数据安全和不泄露用户数据隐私的前提下,用各自的买家评论文本数据(模态1)和买家评论图片数据(模态2)联合训练一个对买家评论进行情感(正面情绪、负面情绪)分类的模型。
电商平台甲和电商平台乙分别作为第一终端和第二终端,注册加入了由服务端提供的联邦学习系统。注册时,系统自动分配给该终端一个ID与ID对应的转换算法,第一转换算法可以包括第一语音转换算法、第一图像转换算法和第一文本转换算法。第一终端的多模态数据包括语音模态数据和图像模态数据,采用第一语音转换算法对语音模态数据进行处理,第一图像转换算法对图像模态数据进行处理,此处第一语音转换算法与第一图像转换算法的作用是将第一终端提供的多模态数据投影到一个共同表达的子空间(第一特定空间)上。第二终端的多模态数据包括文本模态数据和图像模态数据,采用第一文本转换算法对文本模态数据进行处理,第一图像转换算法对图像模态数据进行处理,此处第一文本转换算法与第一图像转换算法的作用是将第二终端提供的多模态数据投影到一个共同表达的子空间(第二特定空间)上。同时系统自动通知服务端新加入的第一终端和第二终端的ID,并分配给服务端两个转换算法(第二转换算法A和第二转换算法B),通过第二转换算法A将第一终端传输的位于第一特定空间的数据映射至公共空间,通过第二转换算法B将第二终端传输的位于第二特定空间的数据同样映射至公共空间,最终两方的数据均被映射至公共空间中,以便后续的模型训练。服务端以数据特征作为输入,以数据标签作为输出,例如将好评标记为标签1,差评标记为标签0,以对买家评论情感分类模型进行训练。
在本申请实施例中,通过第一转换算法将不同终端的多模态数据映射至各个特定的空间,之后通过第二转换算法将各个特定空间的多模态数据映射至同一空间,之后不同终端提供的多模态数据可以一同进行模型训练,同时各个终端所拥有的第一转换算法不同,彼此之间不受影响,各个终端的多模态数据在处理过程中互不影响,保证了不同终端之间的数据安全性,同时提高了模型训练的效率。
实施例二
参照图3,示出了本申请实施例提供的另一种多模态数据处理方法的流程示意图,多模态数据处理方法包括:
S301:终端获取多模态数据;
S302:终端通过特征提取算法对多模态数据进行特征提取,以获得多模态数据的数据特征;
S303:终端通过第一转换算法对数据特征进行转换,以得到第一数据特征,其中,第一转换算法用于将多模态数据映射至特定空间;
S304:终端对多模态数据的数据标签进行无损其数学特性的加密;
具体地,无损其数学特性的加密为同态加密。同态加密方法能够实现密文之间的计算等价于明文之间的计算,即无需解密数据仍能对数据进行计算操作,既能减少解密带来的计算成本,又能在有效保护隐私的情况下进行计算任务。
终端通过对多模态数据进行加密之后传输给服务端,之后服务端对加密处理后的数据进行模型训练,既保护了终端安(数据提供方)的数据隐私,又保证了服务端(模型采集方)对数据的正当使用权,使得数据能够被人工智能从业者全有效地利用。
S305:终端将多模态数据的数据特征、加密后的数据标签以及终端id传输至服务端;
S306:服务端通过与终端id相对应的第二转换算法对第一数据特征进行转换,以得到第二数据特征,其中,第二转换算法用于将不同的特定空间中数据映射至同一空间;
S307:述服务端以第二数据特征作为输入,以数据标签作为输出,进行多模态表示学习,以对多模态表示学习算法进行训练,在多模态表示学习算法收敛的情况下,完成训练。
终端通过对多模态数据进行加密之后传输给服务端,之后服务端对加密处理后的数据进行模型训练,既保护了终端安(数据提供方)的数据隐私,又保证了服务端(模型采集方)对数据的正当使用权,使得数据能够被人工智能从业者全有效地利用。
实施例三
参照图4,示出了本申请实施例提供的一种多模态数据处理装置的结构示意图,多模态数据处理装置40包括:
获取模块401,用于终端获取多模态数据;
提取模块402,用于终端通过特征提取算法对多模态数据进行特征提取,以获得多模态数据的数据特征;
第一转换模块403,用于终端通过第一转换算法对数据特征进行转换,以得到第一数据特征,其中,第一转换算法用于将多模态数据映射至特定空间;
传输模块404,用于终端将多模态数据的数据特征、数据标签以及终端id传输至服务端;
第二转换模块405,用于服务端通过与终端id相对应的第二转换算法对第一数据特征进行转换,以得到第二数据特征,其中,第二转换算法用于将不同的特定空间中数据映射至同一空间;
训练模块406,用于服务端以第二数据特征作为输入,以数据标签作为输出,进行多模态表示学习,以对多模态表示学习算法进行训练,在多模态表示学习算法收敛的情况下,完成训练。
进一步地,多模态数据处理装置40还包括:
加密模块407,用于终端对多模态数据的数据标签进行无损其数学特性的加密;
传输模块404,具体用于终端将多模态数据的数据特征、加密后的数据标签以及终端id传输至服务端。
进一步地,无损其数学特性的加密为同态加密。
进一步地,多模态数据的类型包括:语音模态数据、图像模态数据和文本模态数据,第一转换算法包括第一语音转换算法、第一图像转换算法和第一文本转换算法;
第一转换模块403,具体用于终端通过第一语音转换算法对语音数据特征进行转换,通过第一图像转换算法对图像数据特征进行转换,通过第一文本转换算法对文本数据特征进行转换。
进一步地,第一转换算法与第二转换算法不互逆。
本申请实施例提供的多模态数据处理装置40能够实现上述方法实施例中实现的各个过程,为避免重复,这里不再赘述。
在本申请实施例中,通过第一转换算法将不同终端的多模态数据映射至各个特定的空间,之后通过第二转换算法将各个特定空间的多模态数据映射至同一空间,之后不同终端提供的多模态数据可以一同进行模型训练,同时各个终端所拥有的第一转换算法不同,彼此之间不受影响,各个终端的多模态数据在处理过程中互不影响,保证了不同终端之间的数据安全性,同时提高了模型训练的效率。
本申请实施例中的虚拟装置可以是装置,也可以是终端中的部件、集成电路、或芯片。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域场景技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。