CN111581470A

CN111581470A - 用于对话系统情景匹配的多模态融合学习分析方法和系统

Info

Publication number: CN111581470A
Application number: CN202010415082.1A
Authority: CN
Inventors: 王钦龙; 沈李斌; 赵迎功; 李波; 吴海华
Original assignee: Shanghai Leyan Information Technology Co ltd
Current assignee: Shanghai Leyan Information Technology Co ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-08-25
Anticipated expiration: 2040-05-15
Also published as: CN111581470B

Abstract

本发明公开了一种用于对话系统情景匹配的多模态融合学习分析方法和系统，能够提高场景匹配率，提升用户体验，更加智能理解用户需求。其技术方案为：本发明处理和理解多源模态信息，分别对图像信息、音频信息和文本信息进行特征抽取得到各自特征的向量化表达，再将这些向量化表达通过注意力机制对不同模态的动态权重进行学习调整，同时对场景定义也进行特征抽取以得到其向量化表达，再将注意力机制加权后的输出向量和场景定义特征抽取后的输出向量，通过全连接层将这两个向量进行进一步的映射以进行转换，实现最终的分类决策动作。

Description

用于对话系统情景匹配的多模态融合学习分析方法和系统

技术领域

本发明涉及人工智能自动对话的技术领域，具体涉及对话系统中有关情景匹配方面的多模态融合学习分析技术。

背景技术

人工智能的技术触角延伸到了现实的很多应用场景中，例如在线客服的应用，用智能客服代替传统人工客服，可大幅度提升客户服务效率，缩短用户等待时间的同时，7x24小时提供专业的客户服务，可弥补人工客服下班后无法正常提供服务的不足。此外，在电话客服系统、智能助手、服务机器人、语音家教机、车机系统、地图导航、智能音箱、语音交互电视盒、全屋智能集成等方面都有普遍性的应用。

现有市场上的对话系统中，经常需要从客户的输入来理解客户真正的意图，从而与预定义的场景进行匹配，但是用户的输入是非常多样的，包含了文本、图片、语音、链接等多种模态或者是其中几种的混合，而现存方法基本都是以文本分析为主，对于图片、语音等信息量更大的部分没有办法有效的处理，因此当遇到多样化的用户输入时，传统的方法在场景匹配率和用户体验方面会有明显的不足。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种用于对话系统情景匹配的多模态融合学习分析方法和系统，能够提高场景匹配率，提升用户体验，更加智能理解用户需求。

本发明的技术方案为：本发明揭示了一种用于对话系统情景匹配的多模态融合学习分析方法，方法包括：

步骤1：对图像信息进行向量化的特征抽取，得到能够表达图像特征的向量；

步骤2：对音频信息进行向量化的特征抽取，得到能够表达音频特征的向量；

步骤3：对文本信息进行向量化的特征抽取，以建立文本信息的稠密向量化表达；

步骤4：对场景定义进行向量化的特征抽取，得到表达场景特征的向量；

步骤5：接收步骤1至3的输出，通过注意力机制对图像、音频、文本的不同模态的动态权重学习调整，合并为更高维度组合抽象的加权后的特征向量供后续决策使用；

步骤6：接收步骤4输出的加权后的特征向量和步骤5输出的场景定义特征抽取后的向量，在卷积神经网络模型的全连接层将该两个向量进行映射转化，以使该两个向量放置到同一个向量空间中；

步骤7：接收步骤6的输出，基于同一个向量空间中的该两个向量，在卷积神经网络模型的softmax层实现分类决策动作。

根据本发明的用于对话系统情景匹配的多模态融合学习分析方法的一实施例，步骤1中对图像信息进行向量化的特征抽取是通过CNN卷积神经网络实现，以不同的感受野获得图像不同层次的抽象特征，作为图像的向量化表达。

根据本发明的用于对话系统情景匹配的多模态融合学习分析方法的一实施例，步骤2中对音频信息进行向量化的特征抽取是以MFCC梅尔频率倒谱系数作为特征抽取器来实现的，获得的13维系数作为音频的向量化表达。

根据本发明的用于对话系统情景匹配的多模态融合学习分析方法的一实施例，步骤3中对文本信息所进行向量化的特征抽取是通过12层的transformer-based的文本特征抽取器实现。

根据本发明的用于对话系统情景匹配的多模态融合学习分析方法的一实施例，步骤4中的场景抽取的特征向量和步骤3的文本抽取的特征向量映射到同一个高维度向量空间中。

本发明揭示了一种用于对话系统情景匹配的多模态融合学习分析系统，系统包括：

图像特征抽取模块，对图像信息进行向量化的特征抽取，得到能够表达图像特征的向量；

音频特征抽取模块，对音频信息进行向量化的特征抽取，得到能够表达音频特征的向量；

文本特征抽取模块，对文本信息进行向量化的特征抽取，以建立文本信息的稠密向量化表达；

场景特征抽取模块，对场景定义进行向量化的特征抽取，得到表达场景特征的向量；

模态加权模块，分别连接图像特征抽取模块、音频特征抽取模块、文本特征抽取模块，通过注意力机制对图像、音频、文本的不同模态的动态权重学习调整，合并为更高维度组合抽象的加权后的特征向量供后续决策使用；

映射转化模块，连接模态加权模块和场景特征抽取模块，在卷积神经网络模型的全连接层将加权后的特征向量和场景定义特征抽取的向量进行映射转化，以使该两个向量放置到同一个向量空间中；

分类决策模块，连接映射转化模块，基于同一个向量空间中的该两个向量，在卷积神经网络模型的softmax层实现分类决策动作。

根据本发明的用于对话系统情景匹配的多模态融合学习分析系统的一实施例，图像特征抽取模块中对图像信息进行向量化的特征抽取是通过CNN卷积神经网络实现，以不同的感受野获得图像不同层次的抽象特征，作为图像的向量化表达。

根据本发明的用于对话系统情景匹配的多模态融合学习分析系统的一实施例，音频特征抽取模块中对音频信息进行向量化的特征抽取是以MFCC梅尔频率倒谱系数作为特征抽取器来实现的，获得的13维系数作为音频的向量化表达。

根据本发明的用于对话系统情景匹配的多模态融合学习分析系统的一实施例，文本特征抽取模块中对文本信息所进行向量化的特征抽取是通过12层的transformer-based的文本特征抽取器实现。

根据本发明的用于对话系统情景匹配的多模态融合学习分析系统的一实施例，文本特征抽取模块的文本抽取的特征向量和场景特征抽取模块的场景抽取的特征向量映射到同一个高维度向量空间中。

本发明对比现有技术有如下的有益效果：本发明处理和理解多源模态信息，分别对图像信息、音频信息和文本信息进行特征抽取得到各自特征的向量化表达，再将这些向量化表达通过注意力机制对不同模态的动态权重进行学习调整，同时对场景定义也进行特征抽取以得到其向量化表达，再将注意力机制加权后的输出向量和场景定义特征抽取后的输出向量，通过全连接层将这两个向量进行进一步的映射以进行转换，实现最终的分类决策动作。相较于现有技术，本发明在面对多种形式的用户输入的对话场景中，能够对其进行更为有效的处理，提高场景匹配率，提升用户体验，也能更加智能的理解用户需求。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了本发明的用于对话系统情景匹配的多模态融合学习分析方法的一实施例的流程图。

图2示出了本发明的用于对话系统情景匹配的多模态融合学习分析系统的一实施例的原理图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

在介绍本发明实施例的方法步骤之前，先对本发明涉及到的一些技术术语进行说明。

模态的定义：每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

多模态融合学习：英文全称Multimodal Fusion Learning，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。相对比较主流的研究方向主要有4个方向，具体包括：

1.多模态表示学习

2.模态转化

3.对齐

4.多模态融合

本发明中的方法属于最后一类，即多模态融合。

多模态融合(Multimodal Fusion)负责联合多个模态的信息，进行目标预测(分类或者回归)，是目前应用最广的方向，它还存在其他常见的别名，例如多源信息融合(Multi-source Information Fusion)、多传感器融合(Multi-sensor Fusion)。

按照融合的层次，可以将多模态融合分为pixel level，feature level和decision level三类，分别对应对原始数据进行融合、对抽象的特征进行融合和对决策结果进行融合。而feature level又可以分为early和late两个大类，代表了融合发生在特征抽取的早期和晚期。当然还有将多种融合层次混合的hybrid方法。

图1示出了本发明的用于对话系统情景匹配的多模态融合学习分析方法的一实施例的流程。请参见图1，本实施例的多模态融合学习分析方法的实施步骤详述如下。

步骤1：对图像信息进行向量化的特征抽取，得到能够表达图像特征的向量。

对图像信息(Image Data)进行向量化的特征抽取是通过CNN(ConvolutionalNeural Network，卷积神经网络)来实现的，以不同的感受野获得图像不同层次的抽象特征，作为图像的向量化表达。

CNN卷积神经网络的完整结构是输入层→卷积层→ReLu层→池化层→全连接层，本实施例的处理是去掉其中的全连接层，只保留了输入层(也就是输入的图片像素化表达方式)→卷积层→ReLu层→池化层，池化层的输出结果就是所谓的向量化的特征提取。

步骤2：对音频信息进行向量化的特征抽取，得到能够表达音频特征的向量。

对音频信息(Audio Data)进行向量化的特征抽取是以MFCC(Mel-FrequencyCepstral Coefficients，梅尔频率倒谱系数)作为特征抽取器来实现的，获得了13维的系数作为其向量化表达。

MFCC的处理通常包括以下的过程：将一段语音信号分解为多个帧；将语音信号预强化，通过一个高通滤波器；进行傅里叶变换，将信号变换至频域；将每个帧获得的频谱通过梅尔滤波器(三角重叠窗口)，得到梅尔刻度；在每个梅尔刻度上提取对数能量；对上面获得的结果进行离散余弦变换，变换到倒频谱域；MFCC就是这个倒频谱图的幅度(amplitudes)，一般使用12个系数，与帧能量叠加得13维的系数。

步骤3：对文本信息进行向量化的特征抽取，以建立文本信息的稠密向量化表达。

对文本信息所进行向量化的特征抽取是通过transformer-based的文本特征抽取器来实现的。

在本实施例中采用层数为12的transformer layer，通过transformer模型来进行向量化的特征抽取。

步骤4：对场景定义进行向量化的特征抽取，得到表达场景特征的向量。

由于场景定义(scenario)通常是文本格式，因此步骤4对场景定义的向量化的特征抽取的处理和步骤3相同，本步骤的目的是把场景和输入的文本映射到同一个高维度向量空间中，在这个空间里才可以进行后续的计算，而抽取的具体过程是一样的。

上述步骤1至4是并行处理。

步骤5：接收步骤1至3的输出，实现了attention layer(注意力机制)来对不同模态的动态权重学习调整，然后合并为一个更高维度组合抽象的特征供后续决策使用。

人类的注意力机制(Attention Mechanism)是从直觉中得到，它是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段。本实施例中所使用的深度学习中的注意力机制借鉴了人类的注意力思维方式，在本实施例的结构设计下，注意力机制会去学习针对于不同的场景，不同的用户输入自动调整各个模态的权重。

举例来说：

1.用户输入的文字意图清晰，比如问现在有什么活动，这个时候文本已经足够表达，那么注意力机制会聚焦更多在文本信息，给与图片和语音较低的权重；

2.用户输入图片，询问图片内容，这个时候注意力机制首先会把图片和文本的权重都提升，语音权重下降；

3.用户先输入文字，再发一段语音解释，这时候注意力机制会把语音和文本的权重提升，图片权重下降；

4.用户虽然输入了图片，但是只是一些无关紧要的内容，这个时候注意力机制会逐渐降低图片的权重。

因为人的表达方式非常多样，所以需要注意力机制从大量数据中学习一个动态的权重，从而摒弃一些无关紧要的内容，聚焦于重点。而供决策使用的特征就是在这种动态权重下做三个部分的加权。模型训练目标依然是分类学习(Classification)，随机梯度下降优化，因此本发明的创新之处在于针对不同场景分配对应的权重。

步骤6：接收步骤4输出的加权后的向量和步骤5输出的场景经过transformerlayer(文本特征抽取层)后的向量，在卷积神经网络模型的全连接层将这两个向量做映射转化，以使两个向量放置到同一个向量空间中。

步骤7：接收步骤6的输出，基于同一个向量空间中的该两个向量，在卷积神经网络模型的softmax层(也即Classification Layer分类层，softmax是做分类的计算方法)实现最终的分类决策动作。

图2示出了本发明的用于对话系统情景匹配的多模态融合学习分析系统的一实施例的原理图。请参见图2，本实施例的系统包括：图像特征抽取模块、音频特征抽取模块、文本特征抽取模块、场景特征抽取模块、模态加权模块、映射转化模块和分类决策模块。

图像特征抽取模块用于对图像信息进行向量化的特征抽取，得到能够表达图像特征的向量。图像特征抽取模块中对图像信息进行向量化的特征抽取是通过CNN卷积神经网络实现，以不同的感受野获得图像不同层次的抽象特征，作为图像的向量化表达。

音频特征抽取模块用于对音频信息进行向量化的特征抽取，得到能够表达音频特征的向量。音频特征抽取模块中对音频信息进行向量化的特征抽取是以MFCC梅尔频率倒谱系数作为特征抽取器来实现的，获得的13维系数作为音频的向量化表达。

文本特征抽取模块用于对文本信息进行向量化的特征抽取，以建立文本信息的稠密向量化表达。文本特征抽取模块中对文本信息所进行向量化的特征抽取是通过12层的transformer-based的文本特征抽取器实现。

场景特征抽取模块用于对场景定义进行向量化的特征抽取，得到表达场景特征的向量。文本特征抽取模块的文本抽取的特征向量和场景特征抽取模块的场景抽取的特征向量映射到同一个高维度向量空间中，两者抽取的具体过程是一样的。

模态加权模块分别连接图像特征抽取模块、音频特征抽取模块、文本特征抽取模块，用于通过注意力机制对图像、音频、文本的不同模态的动态权重学习调整，合并为更高维度组合抽象的加权后的特征向量供后续决策使用。

举例来说：

映射转化模块连接模态加权模块和场景特征抽取模块，用于在卷积神经网络模型的全连接层将加权后的特征向量和场景定义特征抽取的向量进行映射转化，以使该两个向量放置到同一个向量空间中。

分类决策模块连接映射转化模块，用于基于同一个向量空间中的该两个向量，在卷积神经网络模型的softmax层实现分类决策动作。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种用于对话系统情景匹配的多模态融合学习分析方法，其特征在于，方法包括：

2.根据权利要求1所述的用于对话系统情景匹配的多模态融合学习分析方法，其特征在于，步骤1中对图像信息进行向量化的特征抽取是通过CNN卷积神经网络实现，以不同的感受野获得图像不同层次的抽象特征，作为图像的向量化表达。

3.根据权利要求1所述的用于对话系统情景匹配的多模态融合学习分析方法，其特征在于，步骤2中对音频信息进行向量化的特征抽取是以MFCC梅尔频率倒谱系数作为特征抽取器来实现的，获得的13维系数作为音频的向量化表达。

4.根据权利要求1所述的用于对话系统情景匹配的多模态融合学习分析方法，其特征在于，步骤3中对文本信息所进行向量化的特征抽取是通过12层的transformer-based的文本特征抽取器实现。

5.根据权利要求1所述的用于对话系统情景匹配的多模态融合学习分析方法，其特征在于，步骤4中的场景抽取的特征向量和步骤3的文本抽取的特征向量映射到同一个高维度向量空间中。

6.一种用于对话系统情景匹配的多模态融合学习分析系统，其特征在于，系统包括：

7.根据权利要求6所述的用于对话系统情景匹配的多模态融合学习分析系统，其特征在于，图像特征抽取模块中对图像信息进行向量化的特征抽取是通过CNN卷积神经网络实现，以不同的感受野获得图像不同层次的抽象特征，作为图像的向量化表达。

8.根据权利要求6所述的用于对话系统情景匹配的多模态融合学习分析系统，其特征在于，音频特征抽取模块中对音频信息进行向量化的特征抽取是以MFCC梅尔频率倒谱系数作为特征抽取器来实现的，获得的13维系数作为音频的向量化表达。

9.根据权利要求6所述的用于对话系统情景匹配的多模态融合学习分析系统，其特征在于，文本特征抽取模块中对文本信息所进行向量化的特征抽取是通过12层的transformer-based的文本特征抽取器实现。

10.根据权利要求6所述的用于对话系统情景匹配的多模态融合学习分析系统，其特征在于，文本特征抽取模块的文本抽取的特征向量和场景特征抽取模块的场景抽取的特征向量映射到同一个高维度向量空间中。