CN116932712A

CN116932712A - 一种多模态输入的交互信息生成方法、装置、设备和介质

Info

Publication number: CN116932712A
Application number: CN202310793842.6A
Authority: CN
Inventors: 孔欧
Original assignee: Shanghai Mdata Information Technology Co ltd
Current assignee: Shanghai Mdata Information Technology Co ltd
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-10-24

Abstract

本发明涉及一种多模态输入的交互信息生成方法、装置、设备和介质，其中方法包括：提取输入的图像中的文字信息和特征，得到图像文本和图像全局特征；提取输入的音频中的文字信息和特征，得到音频文本和音频全局特征；将图像文本和/或音频文本与输入的文本进行串联拼接，形成新的输入文本；对所述新的输入文本进行转换编码，得到文本特征；将图像全局特征和/或音频全局特征与所述文本特征进行求和，得到新特征；将所述新特征进行转换解码，生成对话系统的回复内容。本发明弥补了人工智能对话系统在多模态的短板。

Description

一种多模态输入的交互信息生成方法、装置、设备和介质

技术领域

本发明涉及多模态信息交互技术领域，特别是涉及一种多模态输入的交互信息生成方法、装置、设备和介质。

背景技术

随着人工智能技术的发展，人工智能技术越来越多地用于需要进行聊天交互的场景，比如客户服务、智能聊天和内容生成等。目前人工智能跟用户进行聊天交互主要依赖于自然语言领域的对话系统，使人工智能跟用户进行聊天交互时更加智能，更加主动，使其越来越接近真人和用户的互动效果。

目前常用的人工智能对话系统仅仅通过文本作为载体进行交互，无法将语音或者图像当作对话系统的输入，局限了真实世界的表达。

发明内容

本发明所要解决的技术问题是提供一种多模态输入的交互信息生成方法、装置、设备和介质，弥补了人工智能对话系统在多模态的短板。

本发明解决其技术问题所采用的技术方案是：提供一种多模态输入的交互信息生成方法，包括以下步骤：

提取输入的图像中的文字信息和特征，得到图像文本和图像全局特征；

提取输入的音频中的文字信息和特征，得到音频文本和音频全局特征；

将图像文本和/或音频文本与输入的文本进行串联拼接，形成新的输入文本；

对所述新的输入文本进行转换编码，得到文本特征；

将图像全局特征和/或音频全局特征与所述文本特征进行求和，得到新特征；

将所述新特征进行转换解码，生成对话系统的回复内容。

所述提取输入的图像中的文字信息和特征，得到图像文本和图像全局特征，具体包括：

采用OCR模块识别输入的图像中出现的文字，得到图像文本；

采用VIT模型获取输入的图像的图像全局特征。

所述提取输入的音频中的文字信息和特征，得到音频文本和音频全局特征，具体包括：

采用ASR模块识别出输入的音频中人说话的内容文字，得到音频文本；

采用wav2vec模型获取到输入的音频的音频全局特征。

所述将图像文本和/或音频文本与输入的文本进行串联拼接时，将所述输入的文本放置在所述图像文本和/或所述音频文本的前面。

本发明解决其技术问题所采用的技术方案是：提供一种多模态输入的交互信息生成装置，包括：

图像提取模块，用于提取输入的图像中的文字信息和特征，得到图像文本和图像全局特征；

音频提取模块，用于提取输入的音频中的文字信息和特征，得到音频文本和音频全局特征；

文本融合模块，用于将图像文本和/或音频文本与输入的文本进行串联拼接，形成新的输入文本；

转换编码模块，用于对所述新的输入文本进行转换编码，得到文本特征；

特征融合模块，用于将图像全局特征和/或音频全局特征与所述文本特征进行求和，得到新特征；

转换解码模块，用于将所述新特征进行转换解码，生成对话系统的回复内容。

所述图像提取模块包括：

图像文本提取单元，用于采用OCR模块识别输入的图像中出现的文字，得到图像文本；

图像特征提取单元，用于采用VIT模型获取输入的图像的图像全局特征。

所述音频提取模块包括：

音频文本提取单元，用于采用ASR模块识别出输入的音频中人说话的内容文字，得到音频文本；

音频特征提取单元，用于采用wav2vec模型获取到输入的音频的音频全局特征。

所述文本融合模块将图像文本和/或音频文本与输入的文本进行串联拼接时，将所述输入的文本放置在所述图像文本和/或所述音频文本的前面。

本发明解决其技术问题所采用的技术方案是：提供一种电子设备，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的多模态输入的交互信息生成方法的步骤。

本发明解决其技术问题所采用的技术方案是：提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的多模态输入的交互信息生成方法的步骤。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明可以将多模态的输入转换文本相关信息并与输入文本进行融合形成新的文本，本发明还提取多模态的输入的特征将其与新文本的文本特征进行融合得到新的特征，再基于新的特征生成对应的对话内容，从而弥补了人工智能对话系统在多模态的短板。

附图说明

图1是本发明第一实施方式多模态输入的交互信息生成方法的流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的第一实施方式涉及一种多模态输入的交互信息生成方法，如图1所示，包括以下步骤：

步骤1，提取输入的图像中的文字信息和特征，得到图像文本和图像全局特征。本步骤中，采用OCR模块识别输入的图像中出现的文字，得到图像文本text_image，采用VIT模型获取输入的图像的图像全局特征feature_image。

步骤2，提取输入的音频中的文字信息和特征，得到音频文本和音频全局特征。本步骤中，采用ASR模块识别出输入的音频中人说话的内容文字，得到音频文本text_audio，采用wav2vec模型获取到输入的音频的音频全局特征feature_audio。

步骤3，将图像文本和/或音频文本与输入的文本进行串联拼接，形成新的输入文本。在进行串联拼接时，可以只将图像文本与输入的文本进行串联拼接，也可以只将音频文本与输入的文本进行串联拼接，还可以将图像文本和音频文本一起与输入的文本进行串联拼接。当只将图像文本与输入的文本进行串联拼接时，将输入的文本text放置在前，图像文本text_image放置在后，得到新文本text_new；当只将音频文本与输入的文本进行串联拼接时，将输入的文本text放置在前，音频文本text_audio放置在后，得到新文本text_new；当将图像文本和音频文本一起与输入的文本进行串联拼接时，则将输入的文本text放置在前，图像文本text_image和音频文本text_audio放置在后，得到新文本text_new。

步骤4，对所述新的输入文本进行转换编码，即将新文本text_new经过transformer encoder处理，得到文本特征feature。

步骤5，将图像全局特征feature_image和/或音频全局特征feature_audio与所述文本特征feature进行求和，得到新特征feautre_new。

步骤6，将所述新特征feautre_new进行转换解码，即将新特征feautre_new经过transformerdecoder处理，生成对话系统的回复内容。每一次的对话都会将上一次的多模态输入和回复内容与本次的多模态输入进行合并，从而保留之前的信息。

由此可见，本发明可以将多模态的输入转换文本相关信息并与输入文本进行融合形成新的文本，本发明还提取多模态的输入的特征将其与新文本的文本特征进行融合得到新的特征，再基于新的特征生成对应的对话内容，从而弥补了人工智能对话系统在多模态的短板。

本发明的第二实施方式涉及一种多模态输入的交互信息生成装置，包括：

所述图像提取模块包括：

所述音频提取模块包括：

本发明的第三实施方式涉及一种电子设备，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一实施方式的多模态输入的交互信息生成方法的步骤。

本发明的第四实施方式涉及一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一实施方式的多模态输入的交互信息生成方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多模态输入的交互信息生成方法，其特征在于，包括以下步骤：

对所述新的输入文本进行转换编码，得到文本特征；

将所述新特征进行转换解码，生成对话系统的回复内容。

2.根据权利要求1所述的多模态输入的交互信息生成方法，其特征在于，所述提取输入的图像中的文字信息和特征，得到图像文本和图像全局特征，具体包括：

采用OCR模块识别输入的图像中出现的文字，得到图像文本；

采用VIT模型获取输入的图像的图像全局特征。

3.根据权利要求1所述的多模态输入的交互信息生成方法，其特征在于，所述提取输入的音频中的文字信息和特征，得到音频文本和音频全局特征，具体包括：

采用wav2vec模型获取到输入的音频的音频全局特征。

4.根据权利要求1所述的多模态输入的交互信息生成方法，其特征在于，所述将图像文本和/或音频文本与输入的文本进行串联拼接时，将所述输入的文本放置在所述图像文本和/或所述音频文本的前面。

5.一种多模态输入的交互信息生成装置，其特征在于，包括：

6.根据权利要求5所述的多模态输入的交互信息生成装置，其特征在于，所述图像提取模块包括：

7.根据权利要求5所述的多模态输入的交互信息生成装置，其特征在于，所述音频提取模块包括：

8.根据权利要求5所述的多模态输入的交互信息生成装置，其特征在于，所述文本融合模块将图像文本和/或音频文本与输入的文本进行串联拼接时，将所述输入的文本放置在所述图像文本和/或所述音频文本的前面。

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4中任一所述的多模态输入的交互信息生成方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一所述的多模态输入的交互信息生成方法的步骤。