CN114417878B

CN114417878B - 语义识别方法、装置、电子设备及存储介质

Info

Publication number: CN114417878B
Application number: CN202111639537.9A
Authority: CN
Inventors: 李伟; 肖欣延; 刘家辰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2023-04-18
Anticipated expiration: 2041-12-29
Also published as: JP2023002690A; EP4191544A1; US20230114673A1; CN114417878A

Abstract

本公开提供了一种语义识别方法、装置、电子设备及存储介质，涉及计算机技术领域，具体涉及深度学习、自然语言处理等人工智能技术领域，包括：获取第一模态数据和第二模态数据，确定第一模态数据的第一语义表示，并确定第二模态数据的第二语义表示，再确定第一语义表示和第二语义表示之间的关联语义表示，以及根据第一语义表示、第二语义表示，以及关联语义表示识别第一模态数据和第二模态数据之间的目标共享语义，实现基于关联语义表示，对第一语义表示和第二语义表示进行细粒度的关联融合，从而能够识别得到更加准确，丰富的跨模态语义表示，有效地提升语义表示的通用性和泛化性，有效地提升语义识别效果。

Description

语义识别方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及深度学习、自然语言处理等人工智能技术领域，尤其涉及一种语义识别方法、装置、电子设备及存储介质。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

相关技术中，语义识别得到的语义表示缺乏通用性和泛化性，从而导致语义识别的效果不佳。

发明内容

本公开提供了一种语义识别方法、语义识别方法、装置、电子设备、存储介质及计算机程序产品。

根据本公开的第一方面，提供了一种语义识别方法，包括：获取第一模态数据和第二模态数据；确定所述第一模态数据的第一语义表示，并确定所述第二模态数据的第二语义表示；确定所述第一语义表示和所述第二语义表示之间的关联语义表示；以及根据所述第一语义表示、所述第二语义表示，以及所述关联语义表示识别所述第一模态数据和所述第二模态数据之间的目标共享语义

根据本公开的第二方面，提供了一种语义识别方法，包括：获取模块，用于获取第一模态数据和第二模态数据；第一确定模块，用于确定所述第一模态数据的第一语义表示，并确定所述第二模态数据的第二语义表示；第二确定模块，用于确定所述第一语义表示和所述第二语义表示之间的关联语义表示；以及识别模块，用于根据所述第一语义表示、所述第二语义表示，以及所述关联语义表示识别所述第一模态数据和所述第二模态数据之间的目标共享语义。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如本公开第一方面所述的语义识别方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如本公开第一方面所述的语义识别方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如本公开第一方面所述的语义识别方法的步骤。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其他特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图

图4是根据本公开实施例的图文对数据的语义识别方法的流程示意图；

图5根据本公开实施例的文本数据或者图像数据的语义识别方法的流程示意图；

图6是根据本公开实施例的落地语义融合编码器的结构示意图；

图7是根据本公开第四实施例的示意图；

图8是根据本公开第五实施例的示意图；

图9示出了用来实施本公开的实施例的语义识别方法的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开第一实施例的示意图。

其中，需要说明的是，本实施例的语义识别方法的执行主体为语义识别装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。

本公开实施例涉及深度学习、自然语言处理等人工智能技术领域。

其中，人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

自然语言处理是用计算机来处理、理解以及运用人类语言(如中文、英文等)，它是计算机科学与语言学的交叉学科，又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言，人类的思维也就无从谈起，所以自然语言处理体现了人工智能的最高任务与境界，也就是说，只有当计算机具备了处理自然语言的能力时，机器才算实现了真正的智能。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

如图1所示，该语义识别方法，包括：

S101：获取第一模态数据和第二模态数据。

本公开实施例描述的语义识别方法，可以支持对多种数据进行语义识别，该数据可以具体例如为文本数据，图像数据，图文对数据等，相应的，多种数据可以分别具有不同的模态，例如，图像模态，文本模态，语音模态等，对此不做限制。

其中，第一模态数据相应的模态和第二数据对应的模态可以相同或者不相同，对此不做限制。

也即是说，获取第一模态数据和第二模态数据，可以是获取具有相同模态的数据，还可以是获取具有不同模态的第一模态数据和第二模态数据，对此不做限制。

举例而言，获取第一模态数据可以是采用相采集图像数据并将其作为第一模态数据，第一模态数据可以对应图像模态，再采用文本采集装置采集文本数据并将其作为第二模态数据，第二模态数据可以对应文本模态，对此不做限制。

一些实施例中，还可以是在采用相机采集具有图像模态的图像数据，并采用文本采集装置采集具有文本模态的文本数据后，对前述采集得到的文本数据和图像数据进行对齐处理，以得到对齐处理后的第一模态数据和第二模态数据，该对齐处理后的第一模态数据和第二模态数据即可以被称为图文对数据，对此不做限制。

S102：确定第一模态数据的第一语义表示，并确定第二模态数据的第二语义表示。

其中，语义表示可以用于描述模态数据相应的语义信息，该语义表示可以是数据的内容语义表示，上下文语义表示，数据的关键词语义表示等，具体可以例如为数据的图像数据相应的图像特征，文本数据相应的文本特征等，对此不做限制。

其中，与第一模态数据对应的语义表示，即可以被称为第一语义表示，相应的，与第二模态数据相应的语义表示即可以被称为第二语义表示，第一语义表示和第二语义表示可以相同或者不相同，对此不做限制。

一些实施例中，确定第一模态数据的第一语义表示，并确定第二模态数据的第二语义表示，可以是将第一模态数据和第二模态数据分别输入至预先训练好的卷积神经网络(Convolutional Neural Networks，CNN)中，以得到CNN网络输出的与第一模态数据相应的第一语义表示，和与第二模态数据相应的第二语义表示，对此不做限制。

或者，确定第一模态数据的第一语义表示，并确定第二模态数据的第二语义表示，还可以是采用特征提取算法分别对第一模态数据和第二模态数据进行特征提取，以得到与第一模态数据相应的特征，并将该特征作为第一语义表示，和与第二模态数据相应的特征，并将该特征作为第二语义表示，对此不做限制。

S103：确定第一语义表示和第二语义表示之间的关联语义表示。

其中，第一语义表示和第二语义表示之间可以具有一些相关联的语义表示，该语义表示即可以被称为关联语义表示，该关联语义表示可以是，第一语义表示和第二语义表示之间内容相关的语义表示，还可以是第一语义表示和第二语义表示之间上下文相关的语义表示，具体可以例如为第一语义表示和第二语义表示之间相同的语义表示，还可以例如为第一语义表示和第二语义表示之间的相似度满足设定条件的语义表示，对此不做限制。

也即是说，确定第一语义表示和第二语义表示之间的关联语义表示，可以是在确定第一模态数据的第一语义表示，并确定第二模态数据的第二语义表示后，确定第一语义表示和第二语义表示之间的相似度，并将相似度满足设定条件的语义表示，作为第一语义表示和第二语义表示之间的关联语义表示。

举例而言，可以针对第一语义表示和第二语义表示之间的相似度预先设定相应的相似度阈值，并确定第一语义表示和第二语义表示之间的相似度，并在相似度大于相似度阈值时，将第一语义表示和第二语义表示共同作为第一语义表示和第二语义表示之间的关联语义表示，对此不做限制。

或者，确定第一语义表示和第二语义表示之间的关联语义表示，还可以是在确定第一模态数据的第一语义表示，并确定第二模态数据的第二语义表示后，对第一语义表示和第二语义表示进行拆分处理，以得到与第一语义表示和第二语义表示分别对应的多个语义表示，而后可以确定与第一语义表示相应的多个语义表示，和与第二语义表示相应的多个语义表示之间相同的多个语义表示作为关联语义表示，对此不做限制。

举例而言，假设在得到第一语义表示为{今天天气晴，局部地区伴有大风}后，将第一语义表示拆分为{“今天天气晴”和“局部地区伴有大风”}，并将第二语义表示{今天天气晴，温度为12摄氏度}，拆分为{“今天天气晴”和“温度为12摄氏度”}，而后可以将前述分别拆分得到的，第一语义表示和第二语义表示相应的多个语义表示之间，相同的语义表示{今天天气晴}，作为第一语义表示和第二语义表示之间的关联语义表示，对此不做限制。

S104：根据第一语义表示、第二语义表示，以及关联语义表示识别第一模态数据和第二模态数据之间的目标共享语义。

其中，第一模态数据和第二模态数据可以具有一些相同的语义，该语义即可以被称为目标共享语义。

举例而言，假设第一模态数据(例如，图像数据)描述了“一个生日蛋糕上，蜡烛在燃烧”，第二模态数据(例如，文本数据)为“生日蛋糕很好吃”，则可以将第一模态数据和第二模态数据源之间相同的语义“生日蛋糕”作为目标共享语义，对此不做限制。

一些实施例中，根据第一语义表示、第二语义表示，以及关联语义表示识别第一模态数据和第二模态数据之间的目标共享语义，可以是根据关联语义表示对第一语义表示和第二语义表示进行融合处理，以得到融合处理后的语义表示，并将前述得到的语义表示输入至预先训练好的语义解码器中，以得到语义解码器输出的语义信息，并将该语义信息作为第一模态数据和第二模态数据之间的目标共享语义，或者，还可以采用其他任意可能的方式，实现根据第一语义表示、第二语义表示，以及关联语义表示识别第一模态数据和第二模态数据之间的目标共享语义，例如，模型预测的方式，特征解析的方式等，对此不做限制。

本实施例中，通过获取第一模态数据和第二模态数据，确定第一模态数据的第一语义表示，并确定第二模态数据的第二语义表示，再确定第一语义表示和第二语义表示之间的关联语义表示，以及根据第一语义表示、第二语义表示，以及关联语义表示识别第一模态数据和第二模态数据之间的目标共享语义，实现基于关联语义表示，对第一语义表示和第二语义表示进行细粒度的关联融合，从而能够识别得到更加准确，丰富的跨模态语义表示，有效地提升语义表示的通用性和泛化性，有效地提升语义识别效果。

图2是根据本公开第二实施例的示意图。

如图2所示，该语义识别方法，包括：

S201：获取第一模态数据和第二模态数据。

S202：确定第一模态数据的第一语义表示，并确定第二模态数据的第二语义表示。

S203：确定第一语义表示和第二语义表示之间的关联语义表示。

S201-S203的描述说明可以具体参见上述实施例，在此不再赘述。

S204：根据关联语义表示处理第一语义表示，以得到第一目标语义表示。

本公开实施例在确定第一语义表示和第二语义表示之间的关联语义表示后，可以根据关联语义表示对第一语义表示进行处理，以得到相应的语义表示，该语义表示即可以被称为第一目标语义表示。

一些实施例中，根据关联语义表示处理第一语义表示，可以是对关联语义表示和第一语义表示进行拼接处理，并将前述拼接处理后得到的语义表示作为第一目标语义表示，或者，还可以是对关联语义表示和第一语义表示进行匹配处理，并将与关联语义表示相匹配的语义表示作为第一目标语义表示。

当然，也可以采用其他任意可能的方式，实现根据关联语义表示处理第一语义表示，以得到第一目标语义表示，对此不做限制。

可选地，一些实施例中，根据关联语义表示处理第一语义表示，以得到第一目标语义表示，可以是对关联语义表示和第一语义表示进行对齐处理，并将对齐处理得到的第一语义表示作为第一目标语义表示。

也即是说，本公开实施例中，在确定第一语义表示和第二语义表示之间的关联语义表示后，可以对关联语义表示和第一语义表示进行对齐处理，并将前述对齐处理得到的第一语义表示作为第一目标语义表示，由于是对关联语义表示和第一语义表示进行对齐处理，从而可以实现将第一语义表示统一至关联语义表示空间，使得第一目标语义表示可以学习到更多关联语义表示信息，有效地提升第一目标语义表示的通用性，从而能够在后续的语义识别方法的执行过程中，基于第一目标语义表示，便利语义表示的融合过程的执行。

举例而言，对关联语义表示和第一语义表示进行对齐处理，可以是对确定关联语义表示向量和第一语义表示向量，而后对关联语义表示向量和第一语义表示向量进行对齐处理，以得到对齐处理后的表示向量，并将该表示向量作为第一目标语义表示，对此不做限制。

S205：根据关联语义表示处理第二语义表示，以得到第二目标语义表示。

本公开实施例在确定第一语义表示和第二语义表示之间的关联语义表示后，可以根据关联语义表示对第二语义表示进行处理，以得到相应的语义表示，该语义表示即可以被称为第二目标语义表示。

一些实施例中，根据关联语义表示处理第二语义表示，可以是对关联语义表示和第二语义表示进行拼接处理，并将前述拼接处理后得到的语义表示作为第二目标语义表示，或者，还可以是对关联语义表示和第二语义表示进行匹配处理，并将与关联语义表示相匹配的语义表示作为第二目标语义表示。

当然，也可以采用其他任意可能的方式，实现根据关联语义表示处理第二语义表示，以得到第二目标语义表示，对此不做限制。

可选地，一些实施例中，根据关联语义表示处理第二语义表示，以得到第二目标语义表示，可以是对关联语义表示和第二语义表示进行对齐处理，并将对齐处理得到的第二语义表示作为第二目标语义表示。

也即是说，本公开实施例中，在确定第一语义表示和第二语义表示之间的关联语义表示后，可以对关联语义表示和第二语义表示进行对齐处理，并将前述对齐处理得到的第二语义表示作为第二目标语义表示，由于是对关联语义表示和第二语义表示进行对齐处理，从而可以实现将第二语义表示统一至关联语义表示空间，使得第二目标语义表示可以学习到更多关联语义表示信息，有效地提升第二目标语义表示的通用性，从而能够在后续的语义识别方法的执行过程中，基于第二目标语义表示，便利语义表示的融合过程的执行。

举例而言，对关联语义表示和第二语义表示进行对齐处理，可以是对确定关联语义表示向量和第二语义表示向量，而后对关联语义表示向量和第二语义表示向量进行对齐处理，以得到对齐处理后的表示向量，并将该表示向量作为第二目标语义表示，对此不做限制。

S206：根据第一目标语义表示、第二目标语义表示，以及关联语义表示识别第一模态数据和第二模态数据之间的目标共享语义。

本公开实施例在确定第一目标语义表示、第二目标语义表示以及关联语义表示后，可以根据第一目标语义表示、第二目标语义表示，以及关联语义表示识别第一模态数据和第二模态数据之间的目标共享语义，由于是根据关联语义表示分别对第一语义表示和第二语义表示进行处理，从而可以实现将第一语义表示和第二语义表示统一至关联语义表示空间中，得到更加鲁棒的第一目标语义表示和第二目标语义表示，从而能够在基于第一目标语义表示、第二目标语义表示，以及关联语义表示，对第一模态数据和第二模态数据之间的目标共享语义进行识别时，有效地提升目标共享语义的识别效果。

本实施例中，通过获取第一模态数据和第二模态数据，并确定第一模态数据的第一语义表示，并确定第二模态数据的第二语义表示，再确定第一语义表示和第二语义表示之间的关联语义表示，并根据关联语义表示处理第一语义表示，以得到第一目标语义表示，从而可以实现将第一语义表示统一至关联语义表示空间，使得第一目标语义表示可以学习到更多关联语义表示信息，有效地提升第一目标语义表示的通用性，从而能够在后续的语义识别方法的执行过程中，基于第一目标语义表示，便利语义表示的融合过程的执行，并根据关联语义表示处理第二语义表示，以得到第二目标语义表示，从而可以实现将第二语义表示统一至关联语义表示空间，使得第二目标语义表示可以学习到更多关联语义表示信息，有效地提升第二目标语义表示的通用性，从而能够在后续的语义识别方法的执行过程中，基于第二目标语义表示，便利语义表示的融合过程的执行，再根据第一目标语义表示、第二目标语义表示，以及关联语义表示识别第一模态数据和第二模态数据之间的目标共享语义，对第一模态数据和第二模态数据之间的目标共享语义进行识别时，有效地提升目标共享语义的识别效果。

图3是根据本公开第三实施例的示意图。

如图3所示，该语义识别方法，包括：

S301：获取第一模态数据和第二模态数据。

S301的描述说明具体可以参见上述实施例，在此不再赘述。

S302：确定第一模态数据的第一语义表示。

可选地，一些实施例中，确定第一模态数据的第一语义表示，可以是对第一模态数据进行划分，以得到多个图像块，其中，多个图像块分别包括多个图像像素信息，并对多个图像像素信息分别进行语义编码处理，以得到对应多个图像块语义表示，以及将多个图像块语义表示作为第一语义表示，由于是对第一模态数据进行划分处理，从而可以实现将数据量较大的第一模态数据，拆分为更细粒度的图像块，从而能够在对图像块相应的图像像素信息进行语义编码处理时，有效地降低单次语义编码处理的数据处理量，进而能够有效地提升语义编码处理的效率，有效地提升第一模态数据的语义编码效果，有效地提升第一语义表示的准确性和可参考性。

本公开实施例中，第一模态可以具体例如为图像模态，相应的，第一模态数据可以具体例如为图像数据。

本公开实施例中，可以对图像数据进行划分处理，以将图像数据划分为多个图像块，多个图像块可以分别具有多个像素，用于多个图像块相应的多个图像像素进行描述的信息，即可以被称为图像像素信息。

其中，多个图像块可以分别具有相应的语义表示，该语义表示即可以被称为图像块语义表示，该图像块语义表示可以用于描述上下文相关的图像块语义，对此不做限制。

本公开实施例在对第一模态数据进行划分，得到多个图像块后，可以分别对与多个图像块相应的多个图像像素信息进行语义编码处理，以得到对应多个图像块语义表示，并将多个图像块语义表示作为第一语义表示。

举例而言，确定多个图像块语义表示，可以对于第一模态数据V，将其划分为V1，V2，V3，…，Vn等多个图像块，多个图像块可以分别具有相应的多个图像像素信息v₁,…,v_n，而后可以将多个图像像素信息以序列V＝{[CLS],v₁,…,v_n}(特殊符号[CLS]表示序列V的起始符号)的形式输入至预先训练好的视觉编码器(Visual Transformer)中，视觉编码器的多层注意力机制可以对与多个图像块相应的多个图像像素信息进行语义编码处理，以得到对应多个图像块语义表示，并将多个图像块语义表示作为第一语义表示，对此不做限制。

S303：确定第二模态数据的第二语义表示。

可选地，一些实施例中，确定第二模态数据的第二语义表示，可以是对第二模态数据进行划分，以得到多个文本符号，并对多个文本符号分别进行语义编码处理，以得到对应多个文本语义表示，以及将多个文本语义表示作为第二语义表示，由于是对第二模态数据进行划分处理，从而可以实现将数据量较大的第一模态数据，拆分为更细粒度的文本符号，从而能够在对文本符号进行语义编码处理时，有效地降低单次文本语义编码处理的文本数据处理量，进而能够有效地提升语义编码处理的效率，有效地提升第二模态数据的语义编码效果，有效地提升第二语义表示的准确性和可参考性。

本公开实施例中，第二模态可以具体例如为文本模态，相应的，第二模态数据可以具体例如为文本数据，该文本数据可以具体例如为英文文本数据，或者中文文本数据，对此不做限制。

本公开实施例中，可以对文本数据进行划分处理，以将文本数据划分为多个文本符号，多个文本符号可以具体例如为中文文本数据中的词语，汉字，或者还可以例如为英文文本数据中的字母，单词等，对此不做限制。

举例而言，对第二模态数据进行划分，以得到多个文本符号，可以是将文本“我喜欢吃苹果”划分为“我”，“喜欢”，“吃”，“苹果”，并将前述划分得到的“我”，“喜欢”，“吃”，“苹果”作为多个文本符号。

其中，多个文本符号可以分别具有相应的语义表示，该语义表示即可以被称为文本语义表示，该文本语义表示可以用于描述上下文相关的文本语义，对此不做限制。

本公开实施例在对第二模态数据进行划分，得到多个文本符号后，可以分别对与多个文本符号进行语义编码处理，以得到对应多个文本语义表示，以及将多个文本语义表示作为第二语义表示。

举例而言，确定多个文本语义表示，可以对于第二模态数据W，将其划分为t₁,…,t_m等多个文本符号，而后可以将多个文本符号以序列W＝{[CLS],t₁,…,t_m}(特殊符号[CLS]表示序列W的起始符号)的形式输入至预先训练好的文本编码器(Text Transformer)中，文本编码器的多层注意力机制可以对多个文本符号进行语义编码处理，以得到对应多个文本语义表示，并将多个文本语义表示作为第二语义表示，对此不做限制。

S304：根据第一语义表示和第二语义表示，确定初始落地语义表示。

本公开实施例中，为了在语义层面对第一语义表示和第二语义表示进行统一，可以构造一个共享的落地语义词典(Grounded Dictionary)，词典中每个落地语义表示(grounded token)，可以是第一模态数据和第二模态数据语义层面的共享语义表示，也即是说，落地语义词典中可以存在与第一语义表示和第二语义表示相应的落地语义表示(grounded token)，该落地语义表示即可以被称为初始落地语义表示。

一些实施例中，根据第一语义表示和第二语义表示，确定初始落地语义表示，可以是对第一语义表示和第二语义表示进行解析处理，以得到相应的落地语义标识，而后可以根据落地语义标识从落地语义词典中，识别得到与该落地语义标识相应的落地语义表示，并将该落地语义表示作为初始落地语义表示，对此不做限制。

另一些实施例中，根据第一语义表示和第二语义表示，确定初始落地语义，可以是对第一语义表示相应的多个图像块语义表示，和与第二语义表示相应的多个文本语义表示进行聚类计算处理，以得到与第一语义表示和/或第二语义表示相应的初始落地语义表示序列G＝{g₁,…,g_k}。

可选地，一些实施例中，根据第一语义表示和第二语义表示，确定初始落地语义表示，可以是确定第一语义表示和第二语义表示之间的聚类描述信息，并从落地语义词典中确定与聚类描述信息匹配的落地语义表示作为初始落地语义表示，由于是结合落地语义词典，确定初始落地语义表示，从而使得语义识别方法不在局限于图文对数据，即可以基于落地语义词典，实现对图像数据，文本数据等非对齐的图文对数据，来学习联合语义表示，从而使得大规模非对齐的可以被有效利用，从而有效地提升了数据的可用性，有效地提了语义识别方法的适用性，此外由于是结合聚类描述信息，从落地语义词典中确定初始落地语义表示，从而能够有效地提升初始落地语义表示的确定效率，有效地提升初始落地语义表示的准确性。

其中，落地语义词典还可以包括：聚类描述信息，以及与聚类描述信息匹配的落地语义表示。

本公开实施例中，可以支持对第一语义表示和第二语义表示进行聚类处理，以得到相应的聚类结果，相应的，用于对前述聚类结果进行描述的信息，即可以被称为聚类描述信息，该聚类描述信息可以具体例如为聚类标识信息，聚类结果信息等，对此不做限制。

可选地，一些实施例中，确定第一语义表示和第二语义表示之间的聚类描述信息，可以是确定目标图像块语义表示和目标文本语义表示之间的相似度信息，并将相似度信息作为聚类描述信息，由于是确定目标图像块语义表示和目标文本语义表示之间的相似度信息，并将相似度信息作为聚类描述信息，能够有效地提升聚类描述信息的准确性，从而在基于聚类描述信息执行后续的语义识别方法时，使得聚类描述信息可以具有更高的参考价值。

其中，用于对目标图像块语义表示和目标文本语义表示之间的相似度进行描述的信息，即可以被称为相似度信息，该相似度信息可以是，目标图像块语义表示和目标文本语义表示之间的相似度，具体可以例如为目标图像块语义表示和目标文本语义表示之间的欧式距离，目标图像块语义表示和目标文本语义表示之间的向量余弦等，对此不做限制。

其中，目标图像块语义表示属于多个图像块语义表示，目标文本语义表示属于多个文本语义表示，目标图像块语义表示和目标文本语义表示属于聚类得到的相同数据类别。

也即是说，本公开实施例中，可以确定第一语义表示和第二语义表示之间的相似度，例如，可以确定第一语义表示和第二语义表示之间的欧式距离，再将前述确定的欧氏距离作为目标图像块语义表示和目标文本语义表示之间的相似度信息，或者，还可以是确定第一语义表示和第二语义表示之间的向量余弦，并将前述确定的向量余弦作为目标图像块语义表示和目标文本语义表示之间的相似度信息，并将相似度信息作为聚类描述信息，对此不做限制。

本公开实施例在确定第一语义表示和第二语义表示之间的聚类描述信息后，从落地语义词典从确定与该聚类描述信息相匹配的聚类描述信息，而后可以将落地语义词典中与该聚类描述信息匹配的落地语义表示，作为初始落地语义表示，对此不做限制。

S305：对第一语义表示、第二语义表示，以及初始落地语义表示进行融合编码，以得到关联语义表示。

本公开实施例在确定初始落地语义表示后，可以对第一语义表示、第二语义表示，以及初始落地语义表示进行融合编码，以得到关联语义表示，由于是对第一语义表示、第二语义表示以及初始落地语义表示进行融合编码处理，以得到关联语义表示，从而可以实现对第一语义表示和第二语义表示在初始落地语义表示空间进行对齐，初始落地语义表示空间可以较优在语义表示上将不同模态数据之间的语义信息关联起来，从而有效地提升关联语义表示的通用性和可参考性。

本公开实施例中，对第一语义表示、第二语义表示，以及初始落地语义表示进行融合编码，以得到关联语义表示，可以是将第一语义表示、第二语义表示以及初始落地语义表示共同输入预先训练好的编码器中，由编码器对第一语义表示、第二语义表示，以及初始落地语义表示进行融合编码，并输出关联语义表示。

举例而言，如图4所示，图4是根据本公开实施例的图文对数据的语义识别方法的流程示意图，可以将图文对数据中的图像数据输入至视觉编码器中，以得第一语义表示，并将文本数据输入至文本编码器中，以得到第二语义表示，而后可以将第一语义表示、第二语义表示以及落地语义词典中的初始落地语义表示，共同输入预先训练好的落地语义融合编码器中，以得到关联语义表示。

如图5所示，图5根据本公开实施例的文本数据或者图像数据的语义识别方法的流程示意图，可以将图像数据输入至视觉编码器中，以得第一语义表示，而后可以将第一语义表示和落地语义词典中的初始落地语义表示，共同输入预先训练好的落地语义融合编码器中，以得到与图像数据相应的关联语义表示，还可以将文本数据输入至文本编码器中，以得第二语义表示，而后可以将第二语义表示和落地语义词典中的初始落地语义表示，共同输入预先训练好的落地语义融合编码器中，以得到与文本数据相应的关联语义表示。

可选地，一些实施例中，对第一语义表示、第二语义表示，以及初始落地语义表示进行融合编码，以得到关联语义表示，可以是根据相似度信息，确定融合权重信息，并根据融合权重信息对第一语义表示、第二语义表示，以及初始落地语义表示进行融合编码，以得到关联语义表示。

本公开实施例中，相似度信息可以用于对第一模态数据和第二模态数据之间的语义关联程度进行描述，由于第一模态数据和第二模态数据之间的语义关联程度不同，有强相关的，弱相关的甚至不相关的，不同的语义关联程度可以适配不同的语义融合程度，为了针对不同模态数据自适应学习模态间的语义交互，可以根据第一模态数据和第二模态数据之间的语义关联程度，确定第一语义表示、第二语义表示，以及初始落地语义表示的融合权重(该融合权重即可以被称为融合权重信息)，并基于相应权重辅助对第一语义表示、第二语义表示，以及初始落地语义表示进行融合编码，以得到关联语义表示。

本公开实施例中，由于是根据相似度信息确定融合权重信息，而相似度信息可以用于表征不同模态数据之间的语义关联程度，从而在基于相似度信息，确定融合权重信息时，能够实现基于不同模态数据之间的语义关联程度，控制不同语义表示之间的融合程度，有效地避免因融合程度不达标和融合程度过度所带来的问题，保障语义表示融合编码过程的顺利执行，有效地提升同语义表示之间的融合编码效果。

本公开实施例中，如图6所示，图6是根据本公开实施例的落地语义融合编码器的结构示意图，在对第一语义表示、第二语义表示，以及初始落地语义表示进行融合编码，以得到关联语义表示时，可以是根据相似度信息，确定融合权重信息，并根据融合权重信息以初始落地语义表示为桥梁，对第一语义表示、第二语义表示进行交互融合编码，以得到关联语义表示。

S306：根据第一语义表示、第二语义表示，以及关联语义表示识别第一模态数据和第二模态数据之间的目标共享语义。

S306的描述说明可以具体参见上述实施例，在此不再赘述。

本实施例中，通过获取第一模态数据和第二模态数据，并确定第一模态数据的第一语义表示，再确定第二模态数据的第二语义表示，再根据第一语义表示和第二语义表示，确定初始落地语义表示，并对第一语义表示、第二语义表示，以及初始落地语义表示进行融合编码，以得到关联语义表示，从而可以实现对第一语义表示和第二语义表示在初始落地语义表示空间进行对齐，初始落地语义表示空间可以较优在语义表示上将不同模态数据之间的语义信息关联起来，从而有效地提升关联语义表示的通用性和可参考性，并根据第一语义表示、第二语义表示，以及关联语义表示识别第一模态数据和第二模态数据之间的目标共享语义，从而能够有效地提升语义识别效果。

图7是根据本公开第四实施例的示意图。

如图7所示，该语义识别装置70，包括：

获取模块701，用于获取第一模态数据和第二模态数据；

第一确定模块702，用于确定第一模态数据的第一语义表示，并确定第二模态数据的第二语义表示；

第二确定模块703，用于确定第一语义表示和第二语义表示之间的关联语义表示；以及

识别模块704，用于根据第一语义表示、第二语义表示，以及关联语义表示识别第一模态数据和第二模态数据之间的目标共享语义。

在本公开的一些实施例中，如图8所示，图8是根据本公开第五实施例的示意图，该语义识别装置80，包括：获取模块801、第一确定模块802、第二确定模块803、识别模块804，其中，识别模块804，包括：

第一处理子模块8041，用于根据关联语义表示处理第一语义表示，以得到第一目标语义表示；

第二处理子模块8042，用于根据关联语义表示处理第二语义表示，以得到第二目标语义表示；以及

识别子模块8043，用于根据第一目标语义表示、第二目标语义表示，以及关联语义表示识别第一模态数据和第二模态数据之间的目标共享语义。

在本公开的一些实施例中，第一处理子模块8041，具体用于：

对关联语义表示和第一语义表示进行对齐处理，并将对齐处理得到的第一语义表示作为第一目标语义表示；

其中，第二处理子模块，具体用于：

对关联语义表示和第二语义表示进行对齐处理，并将对齐处理得到的第二语义表示作为第二目标语义表示。

在本公开的一些实施例中，第一模态是图像模态；

其中，第一确定模块802，具体用于：

对第一模态数据进行划分，以得到多个图像块，其中，多个图像块分别包括多个图像像素信息；

对多个图像像素信息分别进行语义编码处理，以得到对应多个图像块语义表示；以及

将多个图像块语义表示作为第一语义表示。

在本公开的一些实施例中，第二模态是文本模态；

其中，第一确定模块802，还用于：

对第二模态数据进行划分，以得到多个文本符号；

对多个文本符号分别进行语义编码处理，以得到对应多个文本语义表示；以及

将多个文本语义表示作为第二语义表示。

在本公开的一些实施例中，其中，第二确定模块803，包括：

确定子模块8031，用于根据第一语义表示和第二语义表示，确定初始落地语义表示；

编码子模块8032，用于对第一语义表示、第二语义表示，以及初始落地语义表示进行融合编码，以得到关联语义表示。

在本公开的一些实施例中，其中，确定子模块8031，具体用于：

确定第一语义表示和第二语义表示之间的聚类描述信息；

从落地语义词典中确定与聚类描述信息匹配的落地语义表示作为初始落地语义表示；

其中，落地语义词典包括：聚类描述信息，以及与聚类描述信息匹配的落地语义表示。

确定目标图像块语义表示和目标文本语义表示之间的相似度信息，并将相似度信息作为聚类描述信息；

在本公开的一些实施例中，其中，编码子模块8032，具体用于：

根据相似度信息，确定融合权重信息；

根据融合权重信息对第一语义表示、第二语义表示，以及初始落地语义表示进行融合编码，以得到关联语义表示。

可以理解的是，本实施例附图8中的语义识别装置80与上述实施例中的语义识别装置70，获取模块801与上述实施例中的获取模块701，第一确定模块802与上述实施例中的第一确定模块702，第二确定模块803与上述实施例中的第二确定模块703，识别模块804与上述实施例中的识别模块704，可以具有相同的功能和结构。

需要说明的是，前述对语义识别方法的解释说明也适用于本实施例语义识别装置。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了用来实施本公开的实施例的语义识别方法的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其他适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其他类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如语义识别方法。例如，在一些实施例中，语义识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的语义识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语义识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其他种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网及区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语义识别方法，包括：

获取第一模态数据和第二模态数据；

确定所述第一模态数据的第一语义表示，并确定所述第二模态数据的第二语义表示；

确定所述第一语义表示和所述第二语义表示之间的关联语义表示，其中，所述关联语义表示为所述第一语义表示和所述第二语义表示之间的相似度满足设定条件的语义表示；以及

根据所述第一语义表示、所述第二语义表示，以及所述关联语义表示识别所述第一模态数据和所述第二模态数据之间的目标共享语义；

其中，所述确定所述第一语义表示和所述第二语义表示之间的关联语义表示，包括：

确定所述第一语义表示和所述第二语义表示之间的聚类描述信息；

从落地语义词典中确定与所述聚类描述信息匹配的落地语义表示作为初始落地语义表示；其中，所述落地语义词典包括：所述聚类描述信息，以及与所述聚类描述信息匹配的落地语义表示；

根据所述相似度信息，确定融合权重信息；

根据所述融合权重信息对所述第一语义表示、所述第二语义表示，以及所述初始落地语义表示进行融合编码，以得到所述关联语义表示。

2.根据权利要求1所述的方法，其中，所述根据所述第一语义表示、所述第二语义表示，以及所述关联语义表示识别所述第一模态数据和所述第二模态数据之间的目标共享语义，包括：

根据所述关联语义表示处理所述第一语义表示，以得到第一目标语义表示；

根据所述关联语义表示处理所述第二语义表示，以得到第二目标语义表示；以及

根据所述第一目标语义表示、所述第二目标语义表示，以及所述关联语义表示识别所述第一模态数据和所述第二模态数据之间的目标共享语义。

3.根据权利要求2所述的方法，其中，所述根据所述关联语义表示处理所述第一语义表示，以得到第一目标语义表示，包括：

对所述关联语义表示和所述第一语义表示进行对齐处理，并将对齐处理得到的所述第一语义表示作为所述第一目标语义表示；

其中，所述根据所述关联语义表示处理所述第二语义表示，以得到第二目标语义表示，包括：

对所述关联语义表示和所述第二语义表示进行对齐处理，并将对齐处理得到的所述第二语义表示作为所述第二目标语义表示。

4.根据权利要求1所述的方法，所述第一模态是图像模态；

其中，所述确定所述第一模态数据的第一语义表示，包括：

对所述第一模态数据进行划分，以得到多个图像块，其中，所述多个图像块分别包括多个图像像素信息；

对所述多个图像像素信息分别进行语义编码处理，以得到对应多个图像块语义表示；以及

将所述多个图像块语义表示作为所述第一语义表示。

5.根据权利要求4所述的方法，所述第二模态是文本模态；

其中，所述确定所述第二模态数据的第二语义表示，包括：

对所述第二模态数据进行划分，以得到多个文本符号；

对所述多个文本符号分别进行语义编码处理，以得到对应多个文本语义表示；以及

将所述多个文本语义表示作为所述第二语义表示。

6.根据权利要求1所述的方法，其中，所述确定所述第一语义表示和所述第二语义表示之间的聚类描述信息，包括：

确定目标图像块语义表示和目标文本语义表示之间的相似度信息，并将所述相似度信息作为所述聚类描述信息；

其中，所述目标图像块语义表示属于所述多个图像块语义表示，所述目标文本语义表示属于所述多个文本语义表示，所述目标图像块语义表示和所述目标文本语义表示属于聚类得到的相同数据类别。

7.一种语义识别装置，包括：

获取模块，用于获取第一模态数据和第二模态数据；

第一确定模块，用于确定所述第一模态数据的第一语义表示，并确定所述第二模态数据的第二语义表示；

第二确定模块，用于确定所述第一语义表示和所述第二语义表示之间的关联语义表示，其中，所述关联语义表示为所述第一语义表示和所述第二语义表示之间的相似度满足设定条件的语义表示；以及

识别模块，用于根据所述第一语义表示、所述第二语义表示，以及所述关联语义表示识别所述第一模态数据和所述第二模态数据之间的目标共享语义；

其中，所述第二确定模块，包括：

确定子模块，用于确定所述第一语义表示和所述第二语义表示之间的聚类描述信息；从落地语义词典中确定与所述聚类描述信息匹配的落地语义表示作为初始落地语义表示；其中，所述落地语义词典包括：所述聚类描述信息，以及与所述聚类描述信息匹配的落地语义表示；

编码子模块，用于根据所述相似度信息，确定融合权重信息；根据所述融合权重信息对所述第一语义表示、所述第二语义表示，以及所述初始落地语义表示进行融合编码，以得到所述关联语义表示。

8.根据权利要求7所述的装置，其中，所述识别模块，包括：

第一处理子模块，用于根据所述关联语义表示处理所述第一语义表示，以得到第一目标语义表示；

第二处理子模块，用于根据所述关联语义表示处理所述第二语义表示，以得到第二目标语义表示；以及

识别子模块，用于根据所述第一目标语义表示、所述第二目标语义表示，以及所述关联语义表示识别所述第一模态数据和所述第二模态数据之间的目标共享语义。

9.根据权利要求8所述的装置，其中，所述第一处理子模块，具体用于：

其中，所述第二处理子模块，具体用于：

10.根据权利要求7所述的装置，所述第一模态是图像模态；

其中，所述第一确定模块，具体用于：

将所述多个图像块语义表示作为所述第一语义表示。

11.根据权利要求10所述的装置，所述第二模态是文本模态；

其中，所述第一确定模块，还用于：

对所述第二模态数据进行划分，以得到多个文本符号；

将所述多个文本语义表示作为所述第二语义表示。

12.根据权利要求7所述的装置，其中，所述确定子模块，还用于：

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。