CN117972160B

CN117972160B - 一种多模态信息处理方法及装置

Info

Publication number: CN117972160B
Application number: CN202410190285.3A
Authority: CN
Inventors: 陈洧; 苏江
Original assignee: DMAI Guangzhou Co Ltd
Current assignee: DMAI Guangzhou Co Ltd
Filing date: 2024-02-21
Publication date: 2024-09-06
Anticipated expiration: 2044-02-21

Abstract

本申请提供了一种多模态信息处理方法及装置，所述方法针对输入的多模态信息，获取至少一种模态的当前输入信息和上下文信息；根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息，将不同模态的信息整合为文本信息；根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，能够结合不同维度的用户意图特征，做出更加全面和精准的决策。

Description

一种多模态信息处理方法及装置

技术领域

本申请涉及自然语言理解技术领域，具体而言，涉及一种多模态信息处理方法及装置。

背景技术

现有的NLU技术主要集中在处理文本数据，利用各种自然语言处理(NLP)技术，如分词、语义分析、意图识别等，来理解和回应用户输入。这些技术通常依赖于大规模的语言数据集和复杂的算法，如深度学习和神经网络模型；多模态输入处理技术涉及对多种类型的输入(如文本、语音、图像)进行处理和分析。跨模态数据整合旨在结合来自不同来源的数据(如文本、语音和图像)以提供更全面的理解和分析。然而，现有技术在处理复杂的跨模态场景时，如将语音和图像数据转换为可被NLU系统理解的格式，面临诸多挑战。

发明内容

有鉴于此，本申请的目的在于提供一种多模态信息处理方法及装置，实现了对用户意图的高度准确识别和响应。

本申请实施例提供的一种多模态信息处理方法，所述方法包括：

获取至少一种模态的当前输入信息和上下文信息；所述当前输入信息的模态包括以下至少之一：文本、语音和图像；

根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息；

根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；

通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图。

在一些实施例中，所述的多模态信息处理方法中，根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息；包括：

将当前输入信息中的文本分解为词和短语，得到第一目标文本信息；

基于语音识别将当前输入信息中的语音转换为标准表达的第二目标文本信息；

基于图像识别从当前输入信息中的图像中提取第一图像特征，并将所述第一图像特征转换为描述图像内容的第三目标文本信息。

在一些实施例中，所述的多模态信息处理方法中，根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；包括：

基于语义处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到用户意图特征中的用户语义特征；所述用户语义特征包括语义内容特征和上下文关系特征，和/或文本中的实体属性、和/或图像中的标签；

基于预先训练好的情感状态识别模型处理所述当前输入信息中的语音和/或图像，得到用户意图特征中的情感状态特征；

基于预先训练好的用户意图识别模型处理所述目标文本信息，得到用户意图特征中的参考意图特征。

在一些实施例中，所述的多模态信息处理方法中，基于语义处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到用户意图特征中的用户语义特征，包括：

对所述目标文本信息和上下文信息进行语义分析，确定语义内容特征和上下文关系特征；

当所述当前输入信息中包括图像时，基于图像识别获取提取所述图像的标签；

当所述当前输入信息中包括文本时，处理文本对应的第一目标文本信息，确定第一目标文本信息中词和短语的实体属性；

基于所述语义内容特征和上下文关系特征、和/或文本属性、和/或图像标签，确定用户语义特征。

在一些实施例中，所述的多模态信息处理方法中，基于预先训练好的情感状态识别模型处理所述当前输入信息中的语音和/或图像，得到用户意图特征中的情感状态特征；包括：

通过情感状态识别模型中的语音情感识别模块提取当前输入信息中语音的语音特征，并分析所述语音特征，确定语音情感状态；

通过情感状态识别模型中的图像情感识别模块提取当前输入信息中图像的第二图像特征，并分析所述图像特征，确定图像情感状态；

融合所述语音情感状态和图像情感状态，结合所述上下文信息，确定用户意图特征中的情感状态特征。

在一些实施例中，所述的多模态信息处理方法中，基于预先训练好的用户意图识别模型处理所述目标文本信息，得到用户意图特征中的参考意图特征，包括：

通过用户意图识别模型中的多种数据库匹配通道将所述目标文本信息和预设的数据库中的数据进行匹配，确定多个匹配结果；

从所述多个匹配结果中筛选出符合预设准确度要求的目标匹配结果；

基于所述目标匹配结果确定第一参考意图特征。

在一些实施例中，所述的多模态信息处理方法中，当所述多个匹配结果均不符合预设准确度要求时，基于预先训练好的意图扩展模型处理所述目标文本信息，确定第二参考意图特征；所述意图扩展模型用于独立扩展所述数据库中的数据，以及基于意图扩展模型的扩展结果更新数据库。

在一些实施例中，所述的多模态信息处理方法中，通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图，包括：

基于所述意图决策模型中配置的不同维度的用户意图特征对应的决策权重，处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图；

其中，不同维度的用户意图特征对应的决策权重不同。

在一些实施例中，所述的多模态信息处理方法中还包括：

获取用户针对所述目标用户意图的多模态的反馈参考信息；

分析所述多模态的反馈参考信息，确定反馈结果；

基于所述反馈结果更新所述意图决策模型。

在一些实施例中，还提供一种多模态信息处理装置，所述装置包括：

获取模块，用于获取至少一种模态的当前输入信息和上下文信息；所述当前输入信息的模态包括以下至少之一：文本、语音和图像；

第一处理模块，用于根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息；

第二处理模块，用于根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；

第三处理模块，用于通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图。

本申请实施例中，提供了一种多模态信息处理方法及装置，所述方法针对输入的多模态信息，获取至少一种模态的当前输入信息和上下文信息；根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息，将不同模态的信息整合为文本信息；根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，能够结合不同维度的用户意图特征，做出更加全面和精准的决策，确定所述当前输入信息的目标用户意图，特别是在处理复杂或多模式数据时表现出优越的判断力；多模式输入处理能够处理和融合文本、语音、图像等多种数据模式，提供全面且丰富的用户交互体验；这种多模式处理使系统能够适应更广泛的应用场景，提高了用户参与度和满意度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所述多模态信息处理方法的流程图；

图2示出了本申请实施例所述根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息的方法流程图；

图3示出了本申请实施例所述得到所述当前输入信息的多个维度的用户意图特征的方法示意图；

图4示出了本申请实施例所述得到用户意图特征中的参考意图特征的方法流程图；

图5示出了本申请实施例所述多模态信息处理装置的结构示意图；

图6示出了本申请实施例所述电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

目前，自然语言理解(NLU)技术主要集中在处理文本数据，利用各种自然语言处理(NLP)技术，如分词、语义分析、意图识别等，来理解和回应用户输入。这些技术通常依赖于大规模的语言数据集和复杂的算法，如深度学习和神经网络模型。

多模态输入处理技术涉及对多种类型的输入(如文本、语音、图像)进行处理和分析。尽管在语音识别和计算机视觉领域已取得显著进展，但将这些不同模态的数据有效整合到一个统一的NLU系统中仍是一个挑战。

跨模态数据整合旨在结合来自不同来源的数据(如文本、语音和图像)以提供更全面的理解和分析。然而，现有技术在处理复杂的跨模态场景时，如将语音和图像数据转换为可被NLU系统理解的格式，面临诸多挑战。

具体的说，模态之间具有不一致性，不同模态的数据(如语音和图像)在结构和表达上存在显著差异，使得整合这些数据变得复杂；现有系统往往难以充分理解和利用跨模态数据中隐含的丰富语义信息。

现有技术在处理大量或复杂的多模态数据时，会面临处理和整合效率低下的问题；数据的融合和分析往往需要高昂的计算资源和复杂的算法，限制了系统的实时响应能力。

现有技术在情感分析和上下文理解方面尚有不足，尤其是在跨模态场景中，这限制了系统在理解用户意图和情感状态方面的准确性和深度。

许多现有的NLU系统针对特定类型的数据或场景进行了优化，缺乏足够的适应性来处理多样化的输入和复杂的交互情境；系统在面对新颖或未预料到的数据类型时，可能无法有效地进行处理和响应。

当前的深度学习模型和算法往往需要大量的训练数据，这在某些应用场景中可能难以获得。这种对大数据的依赖限制了系统在资源受限或数据稀缺环境中的应用。

基于此，本申请实施例中，提供了一种多模态信息处理方法及装置，所述方法针对输入的多模态信息，获取至少一种模态的当前输入信息和上下文信息；根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息，将不同模态的信息整合为文本信息；根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，能够结合不同维度的用户意图特征，做出更加全面和精准的决策，确定所述当前输入信息的目标用户意图，特别是在处理复杂或多模式数据时表现出优越的判断力；多模式输入处理能够处理和融合文本、语音、图像等多种数据模式，提供全面且丰富的用户交互体验；这种多模式处理使系统能够适应更广泛的应用场景，提高了用户参与度和满意度。

请参照图1，图1示出了本申请实施例所述多模态信息处理方法的流程图；如图1所示，所述多模态信息处理方法，包括以下步骤S101-S104：

S101、获取至少一种模态的当前输入信息和上下文信息；所述当前输入信息的模态包括以下至少之一：文本、语音和图像；

S102、根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息；

S103、根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；

S104、通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图。

所述多模态信息处理方法，可以应用于终端设备或服务器，其中，终端设备可以为本地终端设备，当多模态信息处理方法运行于服务器时，该多模态信息处理方法则可以基于云交互系统来实现与执行，其中，云交互系统至少包括服务器和客户端设备(也即终端设备)。

所述多模态信息处理方法应用于多模态信息处理系统，所述多模态信息处理系统在终端设备基于应用程序提供一用户界面，通过来接收用户的输入和展示输出信息；这个用户界面可以是一个网页、一个应用程序界面或者一个多模态交互界面，具体取决于所使用的终端设备。

在所述步骤S101中，获取至少一种模态的当前输入信息和上下文信息；所述当前输入信息的模态包括以下至少之一：文本、语音和图像。

具体的，所述当前输入信息可以为用户直接输入的文字信息，例如“请告诉我明天天气怎么样”；可以为用户的语音指令，例如“请播放我喜欢的音乐”；可以为用户输入的图像信息，比如用户拍摄的图片或选择的图片；例如，用户上传一张花的图片来询问这是什么花；也可以为用户同时输入文本、语音和图像的组合，例如用户在地图应用中输入文本+图像：“我在这里，请问这是哪里”，并上传一张图片以标识自己的位置。或者，用户在厨房烹饪，想要知道如何烹饪某种蔬菜，此时用户提问：“请告诉我如何烹饪这种蔬菜。”并上传该种蔬菜的图像。

所述上下文信息对于多模态信息处理系统中起到了关键的作用，帮助系统更好地理解用户的输入，提供更准确和相关的响应。具体来说，上下文信息包括：历史对话信息、用户个人信息、环境信息、对话状态和进度。

所述历史对话信息，表征在当前输入信息之前和用户的交流历史；历史对话信息可以帮助系统了解用户之前的查询、需求和意图，从而更好地理解当前输入的背景和意图。例如，如果用户之前询问过关于某种商品的信息，那么在后续对话中，系统可以基于之前的查询为用户提供更深入或相关的信息。

用户个人信息，包括用户的年龄、性别、兴趣爱好等。用户个人信息可以帮助系统为用户提供更符合其个人需求的响应；例如，如果用户是一个足球爱好者，那么在聊天中提到足球的话题时，系统可以为用户提供更多相关的信息和建议；或者在聊天中提及旅游安排时，系统可以为用户提供足球相关的信息和建议。

环境信息，指与用户当前所处的环境相关的信息，如地理位置、天气、时间等；环境信息可以影响用户的活动和需求，例如，如果用户在一个下雨的天气中询问附近的商场，系统可以推荐一些离用户较近且提供室内停车场的选择。

对话状态和进度，指对话的当前主题、对话的上下文和对话的进展情况；了解对话的状态和进度可以帮助系统更好地把握用户的意图和需求，以及如何继续对话；例如，如果对话已经确定了某个活动的日期和地点，那么后续的对话可能集中在活动的具体安排或参与者的问题上。

本申请实施例中的上下文信息包括不同模态的上下文信息。

在所述步骤S102中，根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息。

即，不管当前输入信息是什么模式，均将其转换为目标文本信息。

所述目标文本信息为多模式融合的目标文本信息；不同模式的当前输入信息转换为文本信息之后，进行融合处理，得到多模式融合的目标文本信息。所述融合处理包括关联、拼接和组合等。

请参照图2，图2示出了本申请实施例所述根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息的方法流程图：

具体的，根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息；包括以下步骤S201-S203：

S201、将当前输入信息中的文本分解为词和短语，得到第一目标文本信息；

S202、基于语音识别将当前输入信息中的语音转换为标准表达的第二目标文本信息；

S203、基于图像识别从当前输入信息中的图像中提取第一图像特征，并将所述第一图像特征转换为描述图像内容的第三目标文本信息。

将当前输入信息中的文本分解为词和短语，得到第一目标文本信息，具体的，进行预处理：包括去除噪声，如修正拼写、去除无关字符和标点；分词和词性标注：将预处理之后的文本分解为词或短语，得到第一文本信息；标记词或管理的实体属性；向量化：将文本转换为数值向量。

实体属性是指实体的特性或特征，通常用于描述实体的性质、状态或关系；在文本处理中，实体属性通常指的是与实体相关的特征或描述信息；例如：人名、地名、组织机构名、种类等。

例如，"我在地下停车场找了一个车位，将车停在了A区101号停车位”；经过预处理和实体识别后，可以分解为以下实体和对应的属性：

实体：地下停车场；实体属性：地点类型(是一个停车场)；实体：A区101号停车位；实体属性：区域和编号(表示停车位的位置)。

基于语音识别将当前输入信息中的语音转换为标准表达的第二目标文本信息；具体的：

对语音信号进行去噪声和回声消除，提高语音信号的质量，确保文本转换的准确性；通过语音识别，将语音信号转换为文本信息；对转换得到的文本信息进行；口语化文本处理：转换后的文本可能含有非标准表达，需要进一步处理以适应多模式信息处理系统，因为多模式信息处理系统是一种NLU系统，因此，所述标准表达的第二目标文本信息，即为适用NLU系统的第二目标文本信息。

基于图像识别从当前输入信息中的图像中提取第一图像特征，并将所述第一图像特征转换为描述图像内容的第三目标文本信息，具体的，进行对象识别和标注，识别图像中的对象及其属性，将这些信息转换为可以用于NLU的文本描述信息，得到第三目标文本信息。将第三目标文本信息与历史或当前的文本输入相关联，以提供更丰富的上下文信息。

也就是说，对于语音和图像数据，首先使用专门的模型提取关键特征，将这些特征转换为统一的文本格式；将语音转录为第二目标文本信息，将图像特征转换为描述性其内容的第三目标文本信息。

具体的，通过语音识别模型提取语音信号的关键特征，将语音转录为第二目标文本信息；通过图像识别模型提取图像的关键特征，将语音转录为第三目标文本信息。对于语音数据，特征提取通常包括音频的频谱分析、梅尔频率倒谱系数(MFCC)等；对于图像数据，特征提取可能包括颜色、形状、纹理、边缘等。

所述第三目标文本信息可以为描述性文本，也可以为标签文本。

例如，输入的图像中展示了一个场景，包括一个蓝色天空、一些飘浮的白云、一片绿色的草地和一棵大树。可以提取出天空的蓝色、白云的形状和纹理、草地的绿色以及大树的形状和颜色等特征；接下来，进行特征分类或标签化，将这些特征与预定义的类别或标签进行匹配；例如，将天空的蓝色归类为“蓝色天空”，将白云的形状和纹理归类为“白云”，将草地的绿色归类为“草地”，将大树的形状和颜色归类为“大树”；最后，生成描述图像内容的第三目标文本信息；具体的，基于这些分类或标签，将上述特征转换为以下文本：“在一张图片中，我们可以看到蓝色的天空、飘浮的白云、绿色的草地和一棵大树。”

在所述步骤S103中，根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征。

具体的，请参照图3，根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；包括以下步骤S301-S303：

S301、基于语义处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到用户意图特征中的用户语义特征；所述用户语义特征包括语义内容特征和上下文关系特征，和/或文本中的实体属性、和/或图像中的标签；

S302、基于预先训练好的情感状态识别模型处理所述当前输入信息中的语音和/或图像，得到用户意图特征中的情感状态特征；

S303、基于预先训练好的用户意图识别模型处理所述目标文本信息，得到用户意图特征中的参考意图特征。

也就是说，所述多个维度的用户意图特征，包括语义维度的用户语义特征、情感维度的情感状态特征、意图维度的参考意图特征。

具体的，基于语义处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到用户意图特征中的用户语义特征，包括：

也就是说，所述将不同模式的当前输入信息转换后的目标文本进行语义分析，提取关键信息和上下文，分析和理解不同模式的当前输入信息的语义内容和上下文关系，得到语义内容特征和上下文关系特征。

此外，还可以直接通过文本中词和短语的实体属性、图像的标签，来描述语义维度的用户意图。其中，直接使用实体属性、图像的标签作为用户语义特征，在后续的NLU处理步骤中可以简化分析决策的复杂性；实体属性直接描述了词或短语的具体含义，而图像标签提供了关于图像内容的快速摘要，可以快速匹配和分类，从而加速处理速度，使用实体属性和图像标签使得结果更容易被理解和解释，用户可以清楚地看到哪些属性或标签被用于描述意图，增强了系统的透明度和信任度。

本申请实施中，基于预先训练好的情感状态识别模型处理所述当前输入信息中的语音和/或图像，得到用户意图特征中的情感状态特征；包括：

具体的，语音情感识别模块对捕获的语音信号进行预处理，包括去噪、回声消除和增强关键频率成分；然后进行语音特征提取：从语音信号中提取关键语音特征，如音高、能量、语速和语调；之后分析这些语音特征，并识别出语音中的情感状态，如快乐、悲伤、愤怒等。

本申请实施例中的语音转换模型对捕获的语音信号也进行了预处理，进行去噪、回声消除和增强关键频率等处理，因此，语音情感识别模块可以直接使用其预处理结果。

图像情感识别模块提取当前输入信息中图像的第二图像特征，具体的，进行面部特征识别，使用面部识别技术来定位图像中的人脸，并提取面部特征，如眼睛、嘴巴和眉毛的位置和形状；进行表情分析，应用计算机视觉算法来分析面部表情，识别出微表情和其他情感相关的面部动作；情感状态判断：根据面部表情的分析结果，判断图像中人物的情感状态，如快乐、悲伤、愤怒等。

进行数据整合，将语音和图像分析得到的情感数据整合在一起，形成一个综合的情感视图；同时考虑上下文信息，如对话内容、用户历史行为和环境因素，以提高情感判断的准确性。

请参照图4，图4示出了本申请实施例所述得到用户意图特征中的参考意图特征的方法流程图；具体的，基于预先训练好的用户意图识别模型处理所述目标文本信息，得到用户意图特征中的参考意图特征，包括以下步骤S401-S403：

S401、通过用户意图识别模型中的多种数据库匹配通道将所述目标文本信息和预设的数据库中的数据进行匹配，确定多个匹配结果；

S402、从所述多个匹配结果中筛选出符合预设准确度要求的目标匹配结果；

S403、基于所述目标匹配结果确定第一参考意图特征。

在从所述多个匹配结果中筛选出符合预设准确度要求的目标匹配结果时，不同数据库匹配通道的权重不同。

本申请实施例中，当所述多个匹配结果均不符合预设准确度要求时，基于预先训练好的意图扩展模型处理所述目标文本信息，确定第二参考意图特征；所述意图扩展模型用于独立扩展所述数据库中的数据，以及基于意图扩展模型的扩展结果更新数据库。

参考意图特征，即为用户参考意图。

这里，所述数据库包括FAQ数据库和Intent数据库，两者在功能和应用上互为补充。

FAQ数据库主要聚焦于存储和检索常见问题(FAQ)的答案，其目的是为用户提供关于常见问题的快速和准确的解答。用户可以通过关键词搜索或浏览数据库中的问题和答案，以找到他们需要的答案。

Intent数据库则专注于存储和检索用户意图，尤其是在自然语言处理和人工智能领域。Intent通常是指用户对系统提出的请求或指令的总体意图。例如，当用户说“我想听歌”，他们的意图是想要听音乐。Intent数据库会存储这种用户意图，以便系统能够更好地理解用户的需求，并提供相应的服务。

使用自然语言处理技术从用户输入信息对应的目标文本信息中提取关键词和短语，数据库进行匹配，识别出标准问题和用户意图。

所述数据库匹配通道为FAQ/Intent匹配通道，是专门设计来识别用户的常见问题(FAQs)和意图(Intents)的组件。

所述数据库匹配通道的详细技术实现如下：

所述数据库匹配通道包括精准匹配通道、次精准匹配通道、排它性语料检索匹配通道、规则语料检索匹配通道、普通问法与相似问语料语义匹配通道。

使用多种数据库匹配通道可以更准确地识别用户意图，不同的数据库匹配通道对应不同的匹配策略，可以覆盖更多的情况，提高匹配的准确率；多种通道可以互补，一些通道可能更注重细节或特定领域的数据，而其他通道则可能更广泛地覆盖更一般的问法或需求，这样可以确保不会错过任何可能的匹配结果，提供更全面的匹配结果。

使用多种通道可以根据不同的需求或场景进行调整，例如，在某些情况下，可能需要更精确的匹配结果，而在其他情况下，可能需要更广泛的匹配结果，通过调整通道的权重或优先级，可以灵活地满足这些需求。

随着数据库的更新和扩展，多种通道可以更容易地进行扩展和调整，新的通道可以很容易地添加到现有系统中，以适应新的数据或用户需求。

多种通道可以并行工作，提高匹配效率，通过将不同的通道并行处理，可以更快地返回匹配结果，提高系统的响应速度。

通过多种通道的互补，可以减少误匹配的情况，例如，排他性语料检索匹配通道可以排除与特定条件不匹配的结果，而普通问法与相似问语料语义匹配通道则可以找到与目标文本相似的语义匹配结果。

以下说明每种数据库匹配通道的匹配策略的具体实现形式。

精准匹配通道的具体技术实现包括：

关键词提取：利用自然语言处理技术从训练数据集中提取核心关键词和短语。

数据库建立：构建一个关键词到FAQ数据库/Intent数据库的映射数据库，以便快速检索。

查询优化：使用索引和缓存策略提高匹配的速度和效率。

匹配算法：当目标文本信息到达时，系统立即对其进行分析，与关键词数据库中的项进行匹配，如果发现直接对应关系，则认为是精准匹配。

次精准匹配通道的具体技术实现包括：

模糊匹配技术，利用字符串相似度度量来实现次精准匹配。

语义相似度计算：结合词嵌入和语义模型来评估的具体技术实现包括：与现有FAQ/Intent的语义相似度。

置信度评分：为每个潜在匹配分配一个置信度分数，以评估其匹配质量，例如根据语义相似度确定每个潜在匹配的匹配质量。

排它性语料检索匹配通道的具体技术实现包括：

负样本训练：使用带有排它性关键词的负样本训练模型，使其能够识别并排除这些输入。

排它规则集：建立和维护一个排它性关键词和短语的规则集，用于实时过滤用户输入。

动态更新机制：允许系统管理员或自动化学习机制更新排它性规则集，以适应新的排它性用语。

规则语料检索匹配通道的具体技术实现包括：

规则引擎设计：开发一套规则引擎，用于解析和应用复杂的匹配规则。

规则评估和执行：在用户输入信息对应的目标文本信息到来时，按照预定规则对输入进行评估，并执行相应的匹配过程。

普通问法与相似问语料语义匹配通道的具体技术实现包括：

文本向量化：使用认知模型将目标文本信息转换为目标语义向量。

向量库存储：将转换后的语义向量存储在向量库中，以便于快速检索和匹配。

语义相似度计算，即相似度匹配：使用余弦相似度、Jaccard相似度等算法计算用户输入与语料库中问答对的语义相似度。

匹配和排名，最佳匹配选择：根据语义相似度得分，选择最匹配的问答对。或者，置信度评估：为每个匹配问答对分配一个置信度分数，以评估匹配的质量，挑选出置信度分数符合要求的问答对。

本申请实施例中，每个通道的匹配结果对应一准确度分数，所述准确度分数为置信度分数。

单个通道可能给出多个匹配结果，也可能无法给出匹配结果，例如，在普通问法与相似问语料语义匹配通道中，若其规则为：置信度分数大于0.9的问答对为一个匹配结果，那么，当置信度分数大于0.9的问答对有多个时，则给出多个匹配结果，当置信度分数大于0.9的问答对不存在时，则无法给出匹配结果。

从所述多个匹配结果中筛选出符合预设准确度要求的目标匹配结果，每个通道的权重不同，例如，精准匹配通道的权重最高，只要精准匹配通道输出一匹配结果，则将其作为目标匹配结果，不再考虑其他通道的匹配结果。

或者，综合考虑全部通道的匹配结果，选取准确度分数高于预设准确度阈值的目标匹配结果。

或者，综合考虑全部通道的匹配结果，选取准确度分数排序在先的预设数目个目标匹配结果。

在一些实施中，多种数据库匹配通道，为基于用户使用场景所指定的数据库匹配通道；例如，基于用户需求、场景特点，在上述5个通道中，仅仅指定精准匹配通道、规则语料检索匹配通道这两个通道。

第一参考意图特征，即为通过上述数据库匹配通道确定的所有符合要求的意图。

意图扩展模型的技术实现可以采用基于Rasa的NLU分类小模型。

意图扩展模型的作用是能够将本申请实施例所述数据库中的数据(比如问答对)进行泛化，而不仅仅是局限于特定领域或知识库的问题。通过训练和优化，意图扩展模型能够从多个来源和资源中提取和整合相关信息，以提供全面和准确的答案。

通过上述多种数据库匹配通道仍然没有确定用户意图，也有可能是用户的目标文本信息的表达方式和数据库中存储的内容不一致，数据库中其实依然有该目标文本信息的意图。例如用户输入了“手机的电池续航时间多久”这个问题，在数据库中没有识别到匹配的意图；通过意图扩展模型，系统可以分析用户的意图并生成与电池续航时间相关的其他问题，例如“苹果手机的电池容量是多少”或“苹果手机有哪些省电模式”等，这样，通过意图扩展，多模态信息处理系统可以更全面地理解用户对手机电池方面的需求，识别用户意图。

通过意图扩展模型，系统可以自动或半自动地生成新的意图，并进一步在数据库中进行匹配。这样可以弥补原有数据库中表达方式的不足，更好地满足用户的需求，提高用户满意度和系统性能。

在一些实施例中，所述多种数据库匹配通道和意图扩展模型并行运行，只是基于多种数据库匹配通道和意图扩展模型的权重不同，优先从数据库匹配通道的匹配结果中确定参考意图特征。

用户意图识别模型的训练阶段，使用大量的意图示例进行学习，构建了一个全面的向量库(数据库)，每个意图示例都转换成高维向量，存储在向量库中，作为未来匹配的基准；在实时运行阶段，当前输入信息首先被转化为向量形式，然后系统通过比较向量库中的向量来识别意图，提高计算效率。

在所述步骤S104中，通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图。

通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图，包括：

其中，不同维度的用户意图特征对应的决策权重不同。

所述意图决策模型的输入为以下几个维度的用户意图特征：基于语义分析得到的用户语义特征、基于情感状态识别模型得到的情感状态特征、以及包括至少一个参考意图的参考意图特征。

不同维度的用户意图特征具有不同的重要性和影响力，通过为它们分配不同的决策权重，可以更好地平衡和综合各个特征的信息，提高意图识别的准确性和稳定性。

具体而言，意图决策模型会根据具体场景中不同维度的用户意图特征在决策过程中的贡献程度为其分配相应的权重。例如，在一些场景中，基于语义分析得到的用户语义特征可能具有较高的权重，因为这些特征直接反映了用户表达的语义内容；一些场景中，基于情感状态识别模型得到的情感状态特征也可能具有较高权重，因为情感状态对于理解用户的真实意图和需求具有重要的参考价值。

综上所述，基于不同维度的用户意图特征对应的决策权重，处理多个维度的用户意图特征，可以更全面地理解用户的真实需求和意图，提高意图识别的准确性和可靠性。

本申请实施例所述的多模态数据处理方法中采用多种模型，能够处理多种模态的数据，因此，需要多模式训练数据。具体的，在模型训练阶段，使用包含多种模式信息的数据集，以使模型适应多模式的数据处理。

同时，基于实际应用中收集的多模式数据，对认知模型进行持续微调，以提高其在特定应用场景下的表现。

所述多模态信息处理系统不仅仅依赖单一的匹配通道，而是综合所有通道的输出，并通过认知模型进行最终的决策。该决策考虑了单轮对话的直接匹配结果和多轮对话的上下文信息，以确保在各种交互情境中均能提供最准确的意图识别。

自适应学习是多模态信息处理系统不断进步的基础。通过实时分析用户交互数据，系统自动调整其内部匹配机制，包括更新数据库、优化匹配算法和调整意图决策模型、用户意图识别模型、语音处理模型、情感处理模型等等，从而不断提高精准度和响应速度。

本申请实施例所述的多模态信息处理方法还包括：

获取用户针对所述目标用户意图的多模态的反馈参考信息；

分析所述多模态的反馈参考信息，确定反馈结果；

基于所述反馈结果更新所述意图决策模型。

这里，所述用户针对所述目标用户意图的多模态的反馈参考信息，包括：语音反馈信息、文字反馈信息、点击行为、图像反馈信息。

本申请实施例所述的多模态信息处理系统，能够根据不同的交互场景和用户行为动态调整上下文理解策略。

通过对本申请所述多模态信息处理系统进行测试，其准确度、响应时间、情感分析、系统自适应能力和多模态融合效能均有提升。

具体如下：

准确度提升：其中语音识别准确度从传统模型的82％提升至90％；图像识别准确度达到95％以上；意图识别准确度从85％提升至92％；响应时间缩短，平均响应时间：从2.5秒缩短至1.2秒。

情感分析改善：语音情感识别准确度从80％提升至93％；图像情感分析准确度：从82％提升至90％。

系统自适应能力强，通过持续学习，系统在处理新类型查询时的效率提升了30％。

多模态融合效能高，跨模态融合技术提高了数据处理的综合效率25％，在复杂场景下的数据解析准确度提升了20％。

本申请实施例所述的多模态信息处理方法，通过多模式输入处理，能够处理和融合文本、语音、图像等多种数据模式，提供全面且丰富的用户交互体验，使系统能够适应更广泛的应用场景，提高了用户参与度和满意度；具有高精度的意图识别能力，通过结合精准匹配、次精准匹配、排他性匹配和普通问法匹配通道，系统能够高效准确地识别用户的意图，即使在处理模糊或复杂的查询时也能保持高准确率；还有综合决策能力，能够结合来自不同处理维度的多种意图特征，做出更加全面和精准的决策，特别是在处理复杂或多模式数据时表现出优越的判断力；最后通过迭代优化，持续提升多模态信息处理系统性能，在每次迭代中，对模型进行测评，然后根据测评结果选择合适的优化策略，这不仅可以提升模型的性能，还可以使模型更好地适应用户的变化和需求。

基于同一发明构思，本申请实施例中还提供了与多模态信息处理方法对应的多模态信息处理装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述多模态信息处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参照图5，图5示出了本申请实施例所述多模态信息处理装置的结构示意图，具体的，所述装置包括：

获取模块501，用于获取至少一种模态的当前输入信息和上下文信息；所述当前输入信息的模态包括以下至少之一：文本、语音和图像；

第一处理模块502，用于根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息；

第二处理模块503，用于根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；

第三处理模块504，用于通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图。

在一些实施例中，所述的多模态信息处理装置中的第一处理模块，在根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息时，具体用于：

在一些实施例中，所述的多模态信息处理装置中的第二处理模块，在根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征时，具体用于：

在一些实施例中，所述的多模态信息处理装置中的第二处理模块，在基于语义处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到用户意图特征中的用户语义特征时，具体用于：

在一些实施例中，所述的多模态信息处理装置中的第二处理模块，在基于预先训练好的情感状态识别模型处理所述当前输入信息中的语音和/或图像，得到用户意图特征中的情感状态特征时，具体用于：

在一些实施例中，所述的多模态信息处理装置中的第二处理模块，在基于预先训练好的用户意图识别模型处理所述目标文本信息，得到用户意图特征中的参考意图特征时，具体用于：

基于所述目标匹配结果确定第一参考意图特征。

在一些实施例中，所述的多模态信息处理装置中的第二处理模块，还用于：当所述多个匹配结果均不符合预设准确度要求时，基于预先训练好的意图扩展模型处理所述目标文本信息，确定第二参考意图特征；所述意图扩展模型用于独立扩展所述数据库中的数据，以及基于意图扩展模型的扩展结果更新数据库。

在一些实施例中，所述的多模态信息处理装置中的第三处理模块，在通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图时，具体用于：

其中，不同维度的用户意图特征对应的决策权重不同。

在一些实施例中，所述的多模态信息处理装置中还包括：

更新模块，用于：

获取用户针对所述目标用户意图的多模态的反馈参考信息；

分析所述多模态的反馈参考信息，确定反馈结果；

基于所述反馈结果更新所述意图决策模型。

基于同一发明构思，本申请实施例中还提供了与多模态信息处理方法对应的电子设备，由于本申请实施例中的电子设备解决问题的原理与本申请实施例上述多模态信息处理方法相似，因此电子设备的实施可以参见方法的实施，重复之处不再赘述。

请参照图6，图6示出了本申请实施例所述电子设备600的结构示意图；所述电子设备600，包括：处理器602、存储器601和总线，所述存储器601存储有所述处理器602可执行的机器可读指令，当电子设备600运行时，所述处理器602与所述存储器601之间通过总线通信，所述机器可读指令被所述处理器602执行时执行所述的多模态信息处理方法的步骤。

基于同一发明构思，本申请实施例中还提供了与多模态信息处理方法对应的计算机可读存储介质，由于本申请实施例中的计算机可读存储介质解决问题的原理与本申请实施例上述多模态信息处理方法相似，因此计算机可读存储介质的实施可以参见方法的实施，重复之处不再赘述。

本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行所述的多模态信息处理方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，平台服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求。

Claims

1.一种多模态信息处理方法，其特征在于，所述方法包括：

通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图；

根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征；包括：

基于预先训练好的用户意图识别模型处理所述目标文本信息，得到用户意图特征中的参考意图特征；

基于预先训练好的用户意图识别模型处理所述目标文本信息，得到用户意图特征中的参考意图特征，包括：

基于所述目标匹配结果确定第一参考意图特征。

2.根据权利要求1所述的多模态信息处理方法，其特征在于，根据分别和当前输入信息的模态匹配的文本处理方式处理对应模态的当前输入信息，得到当前输入信息对应的目标文本信息；包括：

3.根据权利要求1所述的多模态信息处理方法，其特征在于，基于语义处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到用户意图特征中的用户语义特征，包括：

4.根据权利要求1所述的多模态信息处理方法，其特征在于，基于预先训练好的情感状态识别模型处理所述当前输入信息中的语音和/或图像，得到用户意图特征中的情感状态特征；包括：

5.根据权利要求1所述的多模态信息处理方法，其特征在于，当所述多个匹配结果均不符合预设准确度要求时，基于预先训练好的意图扩展模型处理所述目标文本信息，确定第二参考意图特征；所述意图扩展模型用于独立扩展所述数据库中的数据，以及基于意图扩展模型的扩展结果更新数据库。

6.根据权利要求1所述的多模态信息处理方法，其特征在于，通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图，包括：

其中，不同维度的用户意图特征对应的决策权重不同。

7.根据权利要求1所述的多模态信息处理方法，其特征在于，所述方法还包括：

获取用户针对所述目标用户意图的多模态的反馈参考信息；

分析所述多模态的反馈参考信息，确定反馈结果；

基于所述反馈结果更新所述意图决策模型。

8.一种多模态信息处理装置，其特征在于，所述装置包括：

第三处理模块，用于通过预先训练好的意图决策模型处理所述多个维度的用户意图特征，确定所述当前输入信息的目标用户意图；

所述第二处理模块，在根据不同维度的特征处理方式处理所述当前输入信息、目标文本信息和上下文信息，得到所述当前输入信息的多个维度的用户意图特征时，具体用于：

所述第二处理模块，在基于预先训练好的用户意图识别模型处理所述目标文本信息，得到用户意图特征中的参考意图特征时，具体用于：

基于所述目标匹配结果确定第一参考意图特征。