CN113762319A - 一种多模态信息处理方法、装置、电子设备和存储介质 - Google Patents
一种多模态信息处理方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113762319A CN113762319A CN202110239408.4A CN202110239408A CN113762319A CN 113762319 A CN113762319 A CN 113762319A CN 202110239408 A CN202110239408 A CN 202110239408A CN 113762319 A CN113762319 A CN 113762319A
- Authority
- CN
- China
- Prior art keywords
- modal
- feature
- characteristic
- determining
- weighted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 36
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 97
- 238000000034 method Methods 0.000 claims abstract description 63
- 230000002902 bimodal effect Effects 0.000 claims abstract description 44
- 230000007246 mechanism Effects 0.000 claims abstract description 42
- 238000011176 pooling Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 22
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 20
- 230000002452 interceptive effect Effects 0.000 claims description 19
- 230000000306 recurrent effect Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 17
- 230000004927 fusion Effects 0.000 description 10
- 230000003993 interaction Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 235000013194 Lyophyllum decastes Nutrition 0.000 description 2
- 240000005856 Lyophyllum decastes Species 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种多模态信息处理方法、装置、电子设备和存储介质,所述方法包括:从获取到的多模态信息中提取第一模态特征和第二模态特征;所述第一模态特征和所述第二模态特征为两种不同模态的特征;基于注意力机制,利用所述第二模态特征,对所述第一模态特征进行注意力加权处理,得到第一加权模态特征;对所述第一加权模态特征和所述第二模态特征进行多模态分解双线性池化处理,得到双模态向量;根据所述双模态向量,生成所述多模态信息对应的意图分类结果。
Description
技术领域
本申请涉及计算机技术,涉及但不限于一种多模态信息处理方法、装置、 电子设备和存储介质。
背景技术
相关技术中,多模态信息处理的解决方式主要有:基于单模态语言的分类 或匹配模型的处理方式,如TextCNN(Text Convolutional Neural Networks,利 用卷积神经网络进行文本分类)等;基于单模态图像分类模型的处理方式,如 ResNet(Residual Network,残差网络)等。
多模态信息处理中如果采用单模态(即只使用图像或者文本)方法进行解 决,便浪费了其他模态的信息,得到的意图分类结果的准确率不高。
发明内容
有鉴于此,本申请实施例提供一种多模态信息处理方法、装置、电子设备 和存储介质。
第一方面,本申请实施例提供一种多模态信息处理方法,所述方法包括: 从获取到的多模态信息中提取第一模态特征和第二模态特征;所述第一模态特 征和所述第二模态特征为两种不同模态的特征;基于注意力机制,利用所述第 二模态特征,对所述第一模态特征进行注意力加权处理,得到第一加权模态特 征;对所述第一加权模态特征和所述第二模态特征进行多模态分解双线性池化 处理,得到双模态向量;根据所述双模态向量,生成所述多模态信息对应的意 图分类结果。
第二方面,本申请实施例提供一种多模态信息处理装置,包括:提取模块, 用于从获取到的多模态信息中提取第一模态特征和第二模态特征;所述第一模 态特征和所述第二模态特征为两种不同模态的特征;加权模块,用于基于注意 力机制,利用所述第二模态特征,对所述第一模态特征进行注意力加权处理, 得到第一加权模态特征;池化模块,用于对所述第一加权模态特征和所述第二 模态特征进行多模态分解双线性池化处理,得到双模态向量;第一生成模块, 用于根据所述双模态向量,生成所述多模态信息对应的意图分类结果。
第三方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述 存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实 现本申请实施例任一所述多模态信息处理方法中的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算 机程序,该计算机程序被处理器执行时实现本申请实施例任一所述多模态信息 处理方法中的步骤。
本申请实施例中,通过基于注意力机制,利用第二模态特征,对第一模态 特征进行注意力加权处理,得到第一加权模态特征,再对第一加权模态特征和 第二模态特征进行多模态分解双线性池化处理,得到双模态向量,进而生成意 图分类结果,从而能够使得第一模态特征和第二模态特征进行充分的交互融合, 获得更准确的意图分类结果。
附图说明
图1为本申请实施例一种多模态信息处理方法的流程示意图;
图2为本申请实施例一种基于自上而下注意力机制的神经网络模型的结构 示意图;
图3为本申请实施例一种MFB的结构示意图;
图4为本申请实施例一种多模态信息的示意图;
图5为本申请实施例一种意图分类结果和知识点的匹配关系示意图;
图6为本申请实施例一种意图卡片的示意图;
图7为本申请实施例一种意图分类结果的生成方法示意图;
图8为本申请实施例一种多模态信息处理装置的组成结构示意图;
图9为本申请实施例电子设备的一种硬件实体示意图。
具体实施方式
下面结合附图和实施例对本申请的技术方案进一步详细阐述。
图1为本申请实施例提供的多模态信息处理方法的实现流程示意图,应用 于电子设备,如图1所示,该方法包括:
步骤102:从获取到的多模态信息中提取第一模态特征和第二模态特征; 所述第一模态特征和所述第二模态特征为两种不同模态的特征;
其中,每一种信息的来源或者形式,都可以称为一种模态;多模态信息可 以是由至少两种不同来源或者不同形式的信息组成的信息;所述多模态信息可 以包含图像信息、音频信息和文本信息等信息中的至少两种;对应地,所述第 一模态特征和所述第二模态特征可以是图像特征、音频特征或文本特征等,且 所述第一模态特征和所述第二模态特征是不同模态的特征。
步骤104:基于注意力机制,利用所述第二模态特征,对所述第一模态特 征进行注意力加权处理,得到第一加权模态特征;
其中,在认知科学中,由于信息处理的瓶颈,会选择性地关注所有信息的 一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制。所述注 意力机制可以是自上而下的有意识的注意力(Top Down Attention),称为聚焦 式注意力;聚焦式注意力是指有预定目的、依赖任务的、主动有意识地聚焦于 某一对象的注意力。所述注意力机制还可以是自下而上(Bottom Up Attention) 的无意识的注意力,称为基于显著性的注意力。基于显著性的注意力是由外界 刺激驱动的注意,不需要主动干预,也和任务无关。
所述第一模态特征的数量可以为至少一个;注意力加权处理可以是利用所 述第二模态特征,为每一所述第一模态特征赋予对应的注意力权重,并根据每 一所述第一模态特征的注意力权重,对各第一模态特征进行加权求和处理,得 到第一加权模态特征。
步骤106:对所述第一加权模态特征和所述第二模态特征进行多模态分解 双线性池化处理,得到双模态向量;
其中,多模态双线性池化(Multi-modal Factorized Bilinear Pooling,MFB) 处理可以用于对两个模态的特征进行特征融合;所述双模态向量为第一加权模 态特征和第二模态特征融合后的向量。
步骤108:根据所述双模态向量,生成所述多模态信息对应的意图分类结 果。
其中,可以将双模态向量输入到循环神经网络中,利用所述循环神经网络 对双模态向量进行训练,生成上下文向量;并可以利用上下文向量,生成意图 分类结果;假设多模态信息为用户发送的文本信息和图像信息,在所述文本信 息和图像信息的内容为咨询价保类问题的情况下,意图分类结果可以是“订单 及物流截图”;在所述文本信息的内容为“帮我定个炸鸡送到XX酒店”、图像 信息的内容为炸鸡的图片的情况下,意图分类结果可以是“订餐”。
本申请实施例中,不仅基于注意力机制和第二模态特征,对第一模态特征 进行注意力加权处理,得到第一加权模态特征,还对第一加权模态特征和第二 模态特征进行多模态分解双线性池化处理,得到双模态向量,进而生成意图分 类结果,从而能够使得第一模态特征和第二模态特征的每个点都进行了交互, 融合效果更好。
本申请实施例还提供一种多模态信息处理方法,所述方法包括:
步骤S202:从获取到的多模态信息中提取第一模态特征和第二模态特征; 所述第一模态特征和所述第二模态特征为两种不同模态的特征;
其中,所述第一模态特征和所述第二模态特征均为至少一个;
步骤S204:将至少一个第一模态特征和至少一个第二模态特征映射到第一 空间维度;
其中,假设第一模态特征为M维的特征,第二模态特征为N维的特征,所 述第一空间维度为P维的空间,则可以将M维的第一模态特征和N维的第二 模态特征映射到P维的空间;即所述第一模态特征由M维特征变为P维特征, 所述第二模态特征由N维特征变为P维特征。
针对每一所述第二模态特征,执行如下步骤S206至步骤S210:
步骤S206:在所述第一空间维度下,基于注意力机制,确定每一所述第一 模态特征和所述第二模态特征之间的相关度;
步骤S208:根据每一所述相关度,确定对应第一模态特征的注意力权重;
其中,所述相关度和所述注意力权重可以成正比,即第一模态特征和第二 模态特征的相关度越高,第一模态特征的注意力权重越大。
步骤S210:利用每一所述注意力权重,对各第一模态特征进行加权求和, 得到所述第二模态特征对应的第一加权模态特征。
可以采用步骤S206至步骤S210记载的方法,确定每一第二模态特征对应 的第一加权模态特征。
步骤S212:对每一所述第一加权模态特征和对应第二模态特征进行多模态 分解双线性池化处理,得到双模态向量;
步骤S214:根据每一所述双模态向量,生成所述多模态信息对应的意图分 类结果。
其中,可以对各双模态向量进行处理,得到处理完成的双模态向量,并根 据所述处理完成的双模态向量,生成所述多模态信息对应的意图分类结果。
本申请实施例中,通过第一模态特征和第二模态特征之间的相关度,确定 第一模态特征的注意力权重,从而能够使得注意力权重的确定更准确,使得第 一模态特征和第二模态得到一定程度的融合。
本申请实施例还提供一种多模态信息处理方法,所述方法包括:
步骤S302:从获取到的多模态信息中提取第一模态特征和第二模态特征; 所述第一模态特征和所述第二模态特征为两种不同模态的特征;
其中,所述第一模态特征和所述第二模态特征均为至少一个;
步骤S304:将至少一个第一模态特征和至少一个第二模态特征映射到第一 空间维度;
其中,假设第一模态特征为图像特征,第二模态特征为文本特征,所述注 意力机制为自上而下注意力(Top Down Attention)机制,图2为本申请实施例 一种基于自上而下注意力机制的神经网络模型的结构示意图,参见图2,W可 以表示为全连接层,softmax表示softmax层,可以先将图像特征201和文本特 征202映射到512维的空间维度,再将图像特征和文本特征映射到2048维的空 间维度。
针对每一所述第二模态特征,执行如下步骤S306至步骤S314:
步骤S306:在所述第一空间维度下,基于注意力机制,确定每一所述第一 模态特征对应的第一特征向量和所述第二模态特征对应的第二特征向量;
步骤S308:确定每一所述第一特征向量和所述第二特征向量之间的点积;
步骤S310:根据每一所述点积,确定对应第一模态特征和所述第二模态特 征之间的相关度。
其中,点积和相关度可以成正比,即点积越大,可以认为第一特征向量和 第二特征向量的相关度越大,对应地,第一模态特征和第二模态特征越相似; 参见图2,可以使用softmax层的softmax函数对点积进行归一化处理,得到第 一模态特征和第二模态特征之间的相关度。
步骤S312:根据每一所述相关度,确定对应第一模态特征的注意力权重;
其中,相关度和注意力权重可以呈正比,即相关度越大,可以认为第一模 态特征的注意力权重越大。
步骤S314:利用每一所述注意力权重,对各第一模态特征进行加权求和, 得到所述第二模态特征对应的第一加权模态特征。
其中,参见图2,∑可以表示求和操作,k可以表示第一模态特征的数量, 则可以利用确定出的第一模态特征的注意力权重,对k个第一模态特征进行加 权求和操作,得到第二模态特征对应的第一加权模态特征;同理,可确定出至 少一个第二模态特征中每一第二模态特征对应的第一加权模态特征。
步骤S316:对每一所述第一加权模态特征和对应第二模态特征进行多模态 分解双线性池化处理,得到双模态向量;
步骤S318:根据每一所述双模态向量,生成所述多模态信息对应的意图分 类结果。
本申请实施例中,通过根据第一特征向量和第二特征向量之间的点积,确 定第一模态特征和第二模态特征之间的相关度,从而能够使得相关度的确定更 加准确。
本申请实施例还提供一种多模态信息处理方法,所述方法包括:
步骤S402:从获取到的多模态信息中提取第一模态特征和第二模态特征; 所述第一模态特征和所述第二模态特征为两种不同模态的特征;
其中,所述第一模态特征和所述第二模态特征均为至少一个;
步骤S404:将至少一个第一模态特征和至少一个第二模态特征映射到第一 空间维度;
针对每一所述第二模态特征,执行如下步骤S406至步骤S422:
步骤S406:在所述第一空间维度下,基于注意力机制,确定每一所述第一 模态特征对应的第一特征向量和所述第二模态特征对应的第二特征向量;
步骤S408:确定每一所述第一特征向量和所述第二特征向量之间的点积;
步骤S410:根据每一所述点积,确定对应第一模态特征和所述第二模态特 征之间的相关度。
步骤S412:根据每一所述相关度,确定对应第一模态特征的注意力权重;
步骤S414:利用每一所述注意力权重,对各第一模态特征进行加权求和, 得到所述第二模态特征对应的第一加权模态特征。
步骤S416:将所述第二模态特征和对应的第一加权模态特征映射到第二空 间维度;
其中,假设第一加权模态特征为m维的特征,所述第二模态特征为n维的 特征,则所述第二空间维度的可以为o维的空间维度;图3为本申请实施例一 种MFB的结构示意图,参见图3,假设第一加权模态特征为加权图像特征301, 加权图像特征301可以表示为x∈Rm;第二模态特征为文本特征302,文本特 征302可以表示为y∈Rn,多模态分解式双线性池模型的输出可以表示为 Zi∈R,则Zi的维度可以为o;将所述第一加权模态特征映射到第二空间维度后 可以得到第二空间维度下的第一加权模态特征303,将所述第二模态特征映射到第二空间维度后可以得到第二空间维度下的第二模态特征304。
步骤S418:在所述第二空间维度下,确定所述第一加权模态特征对应的第 三特征向量和第二模态特征对应的第四特征向量;
步骤S420:确定所述第三特征向量和第四特征向量之间的外积;
其中,多模态分解式双线性池模型可以定义为如下公式(1)所示:
其中,wi∈Rmxn是一个映射矩阵,Zi∈R是多模态分解式双线性池模型的 输出,为了得到维度为o的输出,所有映射矩阵w=[w1,...wo]∈Rmxnxo,多模 态分解式双线性池模型可以转换为如下公式(2)所示:
其中,k是因子或因子化矩阵的潜在维度,I表示单位矩阵, ui=[u1,...uk]∈Rmxk,vi=[v1,...vk]∈Rnxk,可以是第三特征向量和第四特征 向量之间的外积305,又可以称为Hadmard(哈达玛积)积或第三特征向量和 第四特征向量的元素方向乘法,要学习的注意力权重为u=[u1,...uk]∈Rmxkxo, v=[v1,...vk]∈Rnxkxo。
步骤S422:对所述外积进行求和池化,得到所述第一加权模态特征对应的 双模态向量;
Z=SumPooling(x1oy1,k) 公式(4);
可以采用步骤S406至步骤S422记载的方法,确定每一第二模态特征对应 的第一加权模态特征,进而确定对应的双模态向量。
步骤S424:根据每一所述双模态向量,生成所述多模态信息对应的意图分 类结果。
本申请实施例中,在利用第二模态特征,对第一模态特征进行注意力加权 处理,得到第一加权模态特征的基础上,通过对第一加权模态特征和第二模态 特征进行多模态分解双线性池化处理,从而能够使得第一模态特征和第二模态 特征的每个点都进行了交互,融合效果更好。
本申请实施例还提供一种多模态信息处理方法,所述方法包括:
步骤S502:从获取到的多模态信息中提取图像特征和文本特征;
步骤S504:基于注意力机制,利用所述文本特征,对所述图像特征进行注 意力加权处理,得到加权图像特征;
步骤S506:对所述加权图像特征和所述文本特征进行多模态分解双线性池 化处理,得到双模态向量;
步骤S508:根据所述双模态向量,生成所述多模态信息对应的意图分类结 果。
本申请实施例中,不仅通过基于注意力机制和文本特征,对图像特征进行 注意力加权处理,得到加权图像特征,还对加权图像模态特征和文本特征进行 多模态分解双线性池化处理,得到双模态向量,进而生成意图分类结果,从而 能够使得图像特征和文本特征的每个点都进行了交互,融合效果更好。
本申请实施例还提供一种多模态信息处理方法,所述方法包括:
步骤S602:利用卷积神经网络,从获取到的多模态信息中提取图像特征;
其中,所述卷积神经网络(Convolutional Neural Networks,CNN)可以是 是一类包含卷积计算且具有深度结构的前馈神经网络,所述卷积神经网络可以 是ResNet(Residual Network,残差网络),还可以是Fast R-CNN(Fast Region-based ConvolutionNeural Networks,基于区域的快速卷积神经网络)等。
步骤S604:利用循环神经网络,从所述多模态信息中提取文本特征。
其中,循环神经网络(Recurrent Neural Network,RNN)是一类以序列数据 为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递 归神经网络;所述循环神经网络可以是GRU(Gate Recurrent Unit,门控循环单 元),还可以是LSTM(LongShort-Term Memory,长短期记忆网络)等。
其中,所述图像特征和所述文本特征均为至少一个;
步骤S606:将至少一个图像特征和至少一个文本特征映射到第一空间维 度;
针对每一所述文本特征,执行如下步骤:
步骤S608:在所述第一空间维度下,基于注意力机制,确定每一所述图像 特征对应的第一特征向量和所述文本特征对应的第二特征向量;
其中,在所述卷积神经网络为ResNet的情况下,所述注意力机制可以是 Top DownAttention机制;在所述卷积神经网络为Fast R-CNN的情况下,所述 注意力机制可以是Bottom Up Attention机制。
步骤S610:确定每一所述第一特征向量和所述第二特征向量之间的点积;
步骤S612:根据每一所述点积,确定对应图像特征和所述文本特征之间的 相关度。
步骤S614:根据每一所述相关度,确定对应图像特征的注意力权重;
步骤S616:利用每一所述注意力权重,对各图像特征进行加权求和,得到 所述文本特征对应的加权图像特征。
步骤S618:将每一所述加权图像特征和对应的所述文本特征映射到第二空 间维度;
步骤S620:在所述第二空间维度下,确定所述加权图像特征对应的第三特 征向量和所述文本特征对应的第四特征向量;
步骤S622:确定所述第三特征向量和所述第四特征向量之间的外积;
步骤S624:对所述外积进行求和池化,得到所述加权图像特征对应的双模 态向量;
步骤S626:根据所述双模态向量,生成所述多模态信息对应的意图分类结 果。
本申请实施例中,不仅通过基于注意力机制和文本特征,对图像特征进行 注意力加权处理,得到加权图像特征,还对加权图像特征和文本特征进行多模 态分解双线性池化处理,得到双模态向量,进而生成意图分类结果,从而能够 使得图像特征和文本特征的每个点都进行了交互,融合效果更好。另外,分别 利用卷积神经网络,从获取到的多模态信息中提取图像特征;利用循环神经网 络,从所述多模态信息中提取文本特征,从而能够使得图像特征和文本特征的 提取更加准确。
本申请实施例还提供一种多模态信息处理方法,所述方法包括:
步骤S702:利用卷积神经网络,从获取到的多模态信息中提取图像特征;
图4为本申请实施例提供的一种多模态信息的示意图,参见图4,假设本 申请实施例的多模态信息处理方法应用于客户401(或称用户)和商户(或称 商家)的对话场景中,客户401在交互界面发来多模态信息,所述多模态信息 包含纯文本信息402“为什么没动静”,以及一张订单及物流的截图403;则可 以利用卷积神经网络,从所述纯文本信息402和订单及物流的截图403中提取 出图像特征,例如订单及物流的截图403中的鞋子的图片中包含的颜色特征、 纹理特征、形状特征和空间关系特征等。
步骤S704:利用循环神经网络,从所述多模态信息中提取文本特征。
其中,可以利用循环神经网络,从所述纯文本信息402中提取出文本特征 “为什”、“什么”、“么没”、“没动”、“动静”等;还可以从订单及物流的截图 403中提取出文本特征“正在”、“出库”、“进入”、“第三方”、“卖家”、“仓库”、 “准备”、“出库”、“催单”、“订单”、“物流”等。
步骤S706:基于注意力机制,利用所述文本特征,对所述图像特征进行注 意力加权处理,得到加权图像特征;
步骤S708:对所述加权图像特征和所述文本特征进行多模态分解双线性池 化处理,得到双模态向量;
步骤S710:根据所述双模态向量,生成所述多模态信息对应的意图分类结 果。
步骤S712:确定与所述意图分类结果匹配的知识点;
步骤S714:根据所述知识点,生成多模态交互文本。
本申请实施例中,通过根据与意图分类结果匹配的知识点,生成多模态交 互文本,从而能够提高多模态交互文本的生成效率和准确度。
本申请实施例还提供一种多模态信息处理方法,所述方法包括:
步骤S802:利用卷积神经网络,从获取到的多模态信息中提取图像特征;
步骤S804:利用循环神经网络,从所述多模态信息中提取文本特征。
步骤S806:基于注意力机制,利用所述文本特征,对所述图像特征进行注 意力加权处理,得到加权图像特征;
步骤S808:对所述加权图像特征和所述文本特征进行多模态分解双线性池 化处理,得到双模态向量;
步骤S810:根据所述双模态向量,生成所述多模态信息对应的意图分类结 果。
步骤S812:确定与所述意图分类结果匹配的至少一个待选知识点;
图5为本申请实施例提供的一种意图分类结果和知识点的匹配关系示意 图,参见图5,可以根据所述多模态信息生成意图分类结果“订单及物流截图” 501;可以将订单及物流截图501看作多模态信息的标签;可以先将所述订单及 物流截图501映射到待选知识点,待选知识点是通过海量数据信息统计和人工 标注得出的意图分类结果对应的最可能的回复知识点。所述待选知识点包括: 查询物流5021、无物流更新5022、什么时间出库5023、退货物流5024、是否 配送5025和无物流记录5026等。
步骤S814:显示所述至少一个待选知识点;
图6为本申请实施例提供的一种意图卡片的示意图,参见图6,可以根据 待选知识点的使用频率在交互界面弹出意图卡片603,所述意图卡片603用于 显示客户601可能的询问意图,所述意图卡片603上可以显示部分或全部的待 选知识点。
步骤S816:根据接收到的指令,从所述至少一个待选知识点中确定出目标 知识点;
其中,所述指令可以是根据所述用户601的点击操作或输入操作生成的待 选知识点的选择指令;假设客户601点击或者输入意图卡片603中的“什么时 间出库”,则商户操作的电子设备602可以将待选知识点“什么时间出库”确定 为与目标知识点。
步骤S818:将所述目标知识点确定为与所述意图分类结果匹配的知识点。
步骤S820:根据所述知识点,生成多模态交互文本。
其中,电子设备可以根据客户601的点击操作,确定与对应待选知识点604 “什么时间出库”匹配的回复内容605,将所述回复内容作为多模态交互文本 显示在交互界面上,以供用户查看。所述待选知识点匹配的回复内容可由商家 根据自身实际情况配置,也可以电子设备根据待选知识点自动配置;在所述待 选知识点为“什么时间出库”的情况下,所述回复内容可以配置为“您好,非 常抱歉~因A地灾情严重,A地快件受到严重影响哦,具体发货时效无法保证 的呢”。
本申请实施例中,可以根据接收到的指令,从待选知识点中确定出目标知 识点,从而能够使得知识点的确定更加灵活。
本申请实施例还提供一种多模态信息处理方法,所述方法包括:
步骤S902:利用卷积神经网络,从获取到的多模态信息中提取图像特征;
步骤S904:利用循环神经网络,从所述多模态信息中提取文本特征。
步骤S906:基于注意力机制,利用所述文本特征,对所述图像特征进行注 意力加权处理,得到加权图像特征;
步骤S908:对所述加权图像特征和所述文本特征进行多模态分解双线性池 化处理,得到双模态向量;
步骤S910:根据所述双模态向量,生成所述多模态信息对应的意图分类结 果。
步骤S912:确定与所述意图分类结果匹配的至少一个待选知识点;
步骤S914:确定每一所述待选知识点在历史时刻被确定为目标知识点的频 率;
其中,所述频率又称所述待选知识点的使用频率。
步骤S916:根据所述频率递减的顺序,对所述至少一个待选知识点进行排 序;
步骤S918:按照排列顺序,显示所述至少一个待选知识点。
其中,可以在所述意图卡片603上可以显示高频回复前三位的待选知识点: 什么时间出库、无物流记录、和无物流更新。
步骤S920:根据接收到的指令,从所述至少一个待选知识点中确定出目标 知识点;
其中,所述指令可以是根据所述用户601的点击操作或输入操作生成的待 选知识点的选择指令。
步骤S922:将所述目标知识点确定为与所述意图分类结果匹配的知识点。
步骤S924:根据所述知识点,生成多模态交互文本。
本申请实施例中,可以根据待选知识点的使用频率,确定所述待选知识点 的显示顺序,从而能够提升用户的交互体验。
本申请实施例还提供一种多模态信息处理方法,所述方法包括:
步骤S1002:利用卷积神经网络,从获取到的多模态信息中提取图像特征;
步骤S1004:利用循环神经网络,从所述多模态信息中提取文本特征。
步骤S1006:基于注意力机制,利用所述文本特征,对所述图像特征进行 注意力加权处理,得到加权图像特征;
步骤S1008:对所述加权图像特征和所述文本特征进行多模态分解双线性 池化处理,得到双模态向量;
步骤S1010:根据所述双模态向量,生成所述多模态信息对应的意图分类 结果。
步骤S1012:确定与所述意图分类结果匹配的至少一个待选知识点;
步骤S1014:确定每一所述待选知识点在历史时刻被确定为目标知识点的 频率;
步骤S1016:将频率最高的待选知识点,确定为与所述意图分类结果匹配 的知识点;
其中,也可以直接将频率最高的待选知识点确定为与所述意图分类结果匹 配的知识点。
步骤S1018:根据所述知识点,生成多模态交互文本。
本申请实施例中,还可以直接将频率最高的待选知识点确定为与所述意图 分类结果匹配的知识点,从而提高了知识点确定的智能性。
多模态应答是指计算机需要针对给定的包含文本和图像的信息进行智能应 答。多模态应答可以称为多模态图像应答,其中,文本是一种模态,图像也是 一种模态,同时包含图像和文本的信息被称之为多模态。与一般基于图像或者 文本分类的应答方式不同,多模态涉及到两种或多种信息流,因此解决起来更 困难,也更有挑战性。多模态信息应答在电商等智能客服中有极高的应用价值, 因为在客服的会话中,用户不仅会发来纯文本信息,还可能包含图像信息,参 见图4,用户发来了纯文本信息“为什么没动静”,以及图像信息,所述图像信 息为订单及物流的截图。而传统的基于图像或文本分类的应答方式无法很好的 解决此类多模态的问题,因此,通过多模态图像应答不仅可以节约人力成本, 并且可以更加快速准确的回答用户的问题。
相关技术中,多模态图像应答的解决方式主要有:基于单模态语言的分类 或匹配模型的应答方式,如TextCNN(Text Convolutional Neural Networks,利 用卷积神经网络进行文本分类)等;基于单模态图像分类模型的应答方式,如 ResNet(Residual Network,残差网络)等;基于Attention(注意力)机制进行 多模态融合的分类应答方式,通常是使用Attention的方式对两种信息进行融合, 如SAN(Stacked Attention Networks,堆叠注意力网络)等模型,SAN是一种 利用双层注意力机制的VQA(Visual Question Answering,视觉问答)网络。
多模态应答中如果采用单模态(即只使用图像或者文本)方法进行解决, 便浪费了其他模态的信息,得到的意图分类结果的准确率不高,而基于attention 机制这类方法使用模态信息的交互,表现要比单模态的方法好一些,但是准确 率仍然欠佳。
同时,依托意图分类结果的回复需要一整套的后处理方法,仅仅回复意图 分类结果会显得答案不够详细,不能很好解决的用户需求。
单模态分类方法表现差的原因是由于多模态信息复杂的信息流,只是用一 种信息无法充分理解上下文信息。参见图4,如果只使用文本信息而不对图像 信息进行理解,客服仅根据文本信息“为什么没动静”,就无法理解用户是说的 是“物流没动静”,就会由于信息理解不充分导致错误的应答。
而通过Attention机制进行多模态信息交互,只对图像特征做了注意力加权, 而文本信息中的文本特征只是在生成图像特征的注意力权重的过程中起作用, 这样融合和交互的程度有限,可能导致文本中的一些重要信息被忽略,导致分 类效果不佳。同时,依托意图分类结果的回复需要一整套的处理方法,仅仅回 复意图分类结果会显得答案不够详细,参见图4,如果只回复“订单及物流截 图”,用户可能就不知所云,不能很好解决的用户问题,交互性也比较差。
本申请实施例提出一种二段式交互方式的多模态应答方法,能够利用了多 种模态信息,并使信息能够充分的交互融合,获得准确的多模态意图分类。同 时为了使回复更加详细,本申请实施例采用基于二段式交互方式的“多模态意 图分类-意图映射”回复方法,从而更好的进行应答。
本申请实施例提供一种多模态应答方法,应用于电子设备,所述方法包括 以下步骤:
步骤S1102:通过多模态信息,生成意图分类结果。
在一个应用场景中,用户咨询价保类的问题,在交互界面发送文本信息“为 什么没动静”,以及图像信息:关于订单信息和物流信息的截图;通过本申请实 施例提供的二段式多模态意图分类方法,可以得到意图分类结果为“订单及物 流截图”。
在整个多模态应答过程中,多模态意图识别是很最重要的一部分,因为用 户的意图分类结果的准确性和接下来的应答质量直接相关。本申请实施例提出 一种二段式的交互多模态意图分类模型来提高意图分类结果质量。
图7为本申请实施例提供的一种意图分类结果的生成方法示意图,参见图 7,首先,可以进行图像特征705和文本特征706的提取;可以通过卷积神经网 络ResNet 703从图像信息701中提取多个图像特征705,通过双层循环神经网 络GRU(Gate Recurrent Unit)704从文本信息702中提取文本特征706。
其次,在多模态交互的第一阶段,可以利用注意力机制(Attention)707 进行多个图像特征和文本特征的融合,得到注意力加权的加权图像特征709。
其中,通过Top down Attention(自上而下的注意力模型)对两种信息(即 图像特征705和文本特征706)进行第一阶段的信息交互,即注意力阶段的融 合,两种模态的信息首先被映射到一个共同的空间维度,接着进行点积融合, 即计算每一图像特征和文本特征之间的点积,并通过softmax函数对每一所述 点积进行归一化处理,得到每一图像特征的注意力权重708;根据每一图像的 注意力权重708,对各图像特征进行加权求和,得到注意力加权的加权图像特 征709。
然而,此时的注意力机制只对图像特征进行加权求和,而文本信息在多模 态对话中也是一个关键的信息,因此,接着,在多模态交互的第二阶段,对注 意力加权的加权图像特征709和文本特征706进行MFB(Multi-modal Factorized Bilinear Pooling,多模态分解式双线性池)处理710得到多模态向量,并根据多 模态向量,生成多模态信息对应的意图分类结果711。
其中,MFB结构对于文本特征和注意力加权后的加权图像特征的每个点都 进行了交互,融合效果更好,MFB结构如图3所示,分别将两种特征(注意力 加权后的加权图像特征和文本特征)映射到更大的空间维度后,然后对注意力 加权后的图像特征和文本特征进行求外积操作,最后作求和池化,这样能够让 两种特征充分融合,并且最大程度保留了第一阶段被“忽视”的文本语义信息, 更有利于多模态分类。
步骤S1104:将所述意图分类结果映射到待选知识点。
其中,待选知识点是通过海量数据信息统计和人工标注得出的分类对应的 最可能的回复知识点。参见图5,与“订单及物流截图”匹配的待选知识点包 括:查询物流、无物流更新、什么时间出库、退货物流、是否配送和无物流记 录。可以根据待选知识点的使用频率在交互界面弹出意图卡片,所述意图卡片 用于显示用户可能的询问意图,所述意图卡片上可以显示高频回复前三位的待 选知识点。用户点击意图卡片中的对应待选知识点,电子设备根据用户的点击 操作,确定与对应待选知识点匹配的回复内容,将所述回复内容作为多模态交 互文本显示在交互界面上,以供用户查看。其中,所述待选知识点匹配的回复 内容可由商家根据自身实际情况配置,在所述待选知识点为“什么时间出库” 的情况下,所述回复内容可以配置为“您好,非常抱歉~因A地灾情严重,A 地快件受到严重影响哦,具体发货时效无法保证的呢”。
表1为本申请实施例提供的二段式交互方式的多模态应答方法,以及单模态 图像分类模型ResNet、堆叠注意力网络模型SAN、自上而下的注意力模型Top down Attention各自的分类准确率Acc、精确率Precision、召回率Recall以及精确 率和召回率的调和平均F1;
表1
模型 | Acc | Precision | 召回率 | F1 |
ResNet | 0.901 | 0.769 | 0.730 | 0.749 |
SAN | 0.889 | 0.747 | 0.700 | 0.716 |
Top down Attention | 0.903 | 0.762 | 0.736 | 0.750 |
二段式交互方式 | 0.927 | 0.766 | 0.782 | 0.766 |
参见表1,本申请实施例提供的二段式交互方式的多模态应答方法在最重 要的两个指标Acc(准确率)和F1(精确率和召回率的调和平均)都达到最优, 从而提高了确定意图分类结果的准确性。
基于前述的实施例,本申请实施例提供一种多模态信息处理装置,该装置 包括所包括的各模块,可以通过电子设备中的处理器来实现;当然也可通过具 体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU,Central Processing Unit)、微处理器(MPU,Microprocessor Unit)、数字信号处理器(DSP, Digital Signal Processing)或现场可编程门阵列(FPGA,Field Programmable Gate Array)等。
图8为本申请实施例多模态信息处理装置的组成结构示意图,如图8所示, 所述装置800包括提取模块801、加权模块802、池化模块803和第一生成模块 804,其中:
提取模块801,用于从获取到的多模态信息中提取第一模态特征和第二模 态特征;所述第一模态特征和所述第二模态特征为两种不同模态的特征;
加权模块802,用于基于注意力机制,利用所述第二模态特征,对所述第 一模态特征进行注意力加权处理,得到第一加权模态特征;
池化模块803,用于对所述第一加权模态特征和所述第二模态特征进行多 模态分解双线性池化处理,得到双模态向量;
第一生成模块804,用于根据所述双模态向量,生成所述多模态信息对应 的意图分类结果。
在一个实施例中,所述第一模态特征和所述第二模态特征均为至少一个时, 所述加权模块802,包括:第一映射子模块,用于将至少一个第一模态特征和 至少一个第二模态特征映射到第一空间维度;第一确定子模块,用于针对每一 所述第二模态特征,在所述第一空间维度下,基于注意力机制,确定每一所述 第一模态特征和所述第二模态特征之间的相关度;第二确定子模块,用于针对 每一所述第二模态特征,根据每一所述相关度,确定对应第一模态特征的注意 力权重;加权子模块,用于针对每一所述第二模态特征,利用每一所述注意力 权重,对各第一模态特征进行加权求和,得到所述第二模态特征对应的第一加权模态特征。
在一个实施例中,所述第一确定子模块,包括:第一确定单元,用于针对 每一所述第二模态特征,确定每一所述第一模态特征对应的第一特征向量和所 述第二模态特征对应的第二特征向量;第二确定单元,用于针对每一所述第二 模态特征,确定每一所述第一特征向量和所述第二特征向量之间的点积;第三 确定单元,用于针对每一所述第二模态特征,根据每一所述点积,确定对应第 一模态特征和所述第二模态特征之间的相关度。
在一个实施例中,所述第一加权模态特征和所述第二模态特征均为至少一 个时,所述池化模块803,包括:第二映射子模块,用于将每一所述第一加权 模态特征和对应的所述第二模态特征映射到第二空间维度;第三确定子模块, 用于在所述第二空间维度下,确定所述第一加权模态特征对应的第三特征向量 和所述第二模态特征对应的第四特征向量;第四确定子模块,用于确定所述第 三特征向量和所述第四特征向量之间的外积;池化子模块,用于对所述外积进 行求和池化,得到所述第一加权模态特征对应的双模态向量。
在一个实施例中,所述第一模态特征包括图像特征,所述第二模态信息包 括文本特征,所述提取模块,包括:第一提取子模块,用于利用卷积神经网络, 从获取到的多模态信息中提取图像特征;第二提取子模块,用于利用循环神经 网络,从所述多模态信息中提取文本特征。
在一个实施例中,所述装置还包括:确定模块,用于确定与所述意图分类 结果匹配的知识点;第二生成模块,用于根据所述知识点,生成多模态交互文 本。
在一个实施例中,所述确定模块,包括:第五确定子模块,用于确定与所 述意图分类结果匹配的至少一个待选知识点;显示子模块,用于显示所述至少 一个待选知识点;第六确定子模块,用于根据接收到的指令,从所述至少一个 待选知识点中确定出目标知识点;第七确定子模块,用于将所述目标知识点确 定为与所述意图分类结果匹配的知识点。
在一个实施例中,所述显示子模块,包括:第四确定单元,用于确定每一 所述待选知识点在历史时刻被确定为目标知识点的频率;排序单元,用于根据 所述频率递减的顺序,对所述至少一个待选知识点进行排序;显示单元,用于 按照排列顺序,显示所述至少一个待选知识点。
在一个实施例中,所述确定模块,包括:第八确定子模块,用于确定与所 述意图分类结果匹配的至少一个待选知识点;第九确定子模块,用于确定每一 所述待选知识点在历史时刻被确定为目标知识点的频率;第十确定子模块,用 于将频率最高的待选知识点,确定为与所述意图分类结果匹配的知识点。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的 多模态信息处理方法,并作为独立的产品销售或使用时,也可以存储在一个计 算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或 者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软 件产品存储在一个存储介质中,包括若干指令用以使得电子设备(可以是手机、 平板电脑、台式机、个人数字助理、数字电话、视频电话、电视机、传感设备 等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括: U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等 各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件 和软件结合。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法 实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照 本申请方法实施例的描述而理解。
对应地,本申请实施例提供一种电子设备,图9为本申请实施例电子设备 的一种硬件实体示意图,如图9所示,该电子设备900的硬件实体包括:包括 存储器901和处理器902,所述存储器901存储有可在处理器902上运行的计 算机程序,所述处理器902执行所述程序时实现上述实施例多模态信息处理方 法中的步骤。
存储器901配置为存储由处理器902可执行的指令和应用,还可以缓存待 处理器902以及电子设备900中各模块待处理或已经处理的数据(例如,图像 数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH) 或随机访问存储器(Random AccessMemory,RAM)实现。
对应地,本申请实施例提供一种计算机可读存储介质,其上存储有计算机 程序,该计算机程序被处理器执行时实现上述实施例中提供的多模态信息处理 方法中的步骤。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施 例的描述是类似的,具有同设备实施例相似的有益效果。对于本申请存储介质 和方法实施例中未披露的技术细节,请参照本申请设备实施例的描述而理解。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例 有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整 个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实 施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或 多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小 并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定, 而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅 为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在 涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置 不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这 种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语 句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或 者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可 以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所 述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式, 如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽 略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦 合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可 以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为 单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可 以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来 实现本实施例方案的目的。另外,在本申请各实施例中的各功能单元可以全部 集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个 或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实 现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可 以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储 介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介 质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者 光盘等各种可以存储程序代码的介质。或者,本申请上述集成的单元如果以软 件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计 算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或 者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软 件产品存储在一个存储介质中,包括若干指令用以使得电子设备(可以是手机、 平板电脑、台式机、个人数字助理、数字电话、视频电话、电视机、传感设备 等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括: 移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可 以任意组合,得到新的方法实施例。本申请所提供的几个产品实施例中所揭 露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。本申请 所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任 意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化 或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所 述权利要求的保护范围为准。
Claims (12)
1.一种多模态信息处理方法,其特征在于,所述方法包括:
从获取到的多模态信息中提取第一模态特征和第二模态特征;所述第一模态特征和所述第二模态特征为两种不同模态的特征;
基于注意力机制,利用所述第二模态特征,对所述第一模态特征进行注意力加权处理,得到第一加权模态特征;
对所述第一加权模态特征和所述第二模态特征进行多模态分解双线性池化处理,得到双模态向量;
根据所述双模态向量,生成所述多模态信息对应的意图分类结果。
2.根据权利要求1所述的方法,其特征在于,所述第一模态特征和所述第二模态特征均为至少一个时,所述基于注意力机制,利用所述第二模态特征,对所述第一模态特征进行注意力加权处理,得到第一加权模态特征,包括:
将至少一个第一模态特征和至少一个第二模态特征映射到第一空间维度;
针对每一所述第二模态特征,执行如下步骤:
在所述第一空间维度下,基于注意力机制,确定每一所述第一模态特征和所述第二模态特征之间的相关度;
根据每一所述相关度,确定对应第一模态特征的注意力权重;
利用每一所述注意力权重,对各第一模态特征进行加权求和,得到所述第二模态特征对应的第一加权模态特征。
3.根据权利要求2所述的方法,其特征在于,所述在所述第一空间维度下,基于注意力机制,确定每一所述第一模态特征和所述第二模态特征之间的相关度,包括:
确定每一所述第一模态特征对应的第一特征向量和所述第二模态特征对应的第二特征向量;
确定每一所述第一特征向量和所述第二特征向量之间的点积;
根据每一所述点积,确定对应第一模态特征和所述第二模态特征之间的相关度。
4.根据权利要求1所述的方法,其特征在于,所述第一加权模态特征和所述第二模态特征均为至少一个时,所述对所述第一加权模态特征和所述第二模态特征进行多模态分解双线性池化处理,得到双模态向量,包括:
将每一所述第一加权模态特征和对应的所述第二模态特征映射到第二空间维度;
在所述第二空间维度下,确定所述第一加权模态特征对应的第三特征向量和所述第二模态特征对应的第四特征向量;
确定所述第三特征向量和所述第四特征向量之间的外积;
对所述外积进行求和池化,得到所述第一加权模态特征对应的双模态向量。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一模态特征包括图像特征,所述第二模态信息包括文本特征,所述从获取到的多模态信息中提取第一模态特征和第二模态特征,包括:
利用卷积神经网络,从获取到的多模态信息中提取图像特征;
利用循环神经网络,从所述多模态信息中提取文本特征。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
确定与所述意图分类结果匹配的知识点;
根据所述知识点,生成多模态交互文本。
7.根据权利要求6所述的方法,其特征在于,所述确定与所述意图分类结果匹配的知识点,包括:
确定与所述意图分类结果匹配的至少一个待选知识点;
显示所述至少一个待选知识点;
根据接收到的指令,从所述至少一个待选知识点中确定出目标知识点;
将所述目标知识点确定为与所述意图分类结果匹配的知识点。
8.根据权利要求7所述的方法,其特征在于,所述显示所述待选知识点,包括:
确定每一所述待选知识点在历史时刻被确定为目标知识点的频率;
根据所述频率递减的顺序,对所述至少一个待选知识点进行排序;
按照排列顺序,显示所述至少一个待选知识点。
9.根据权利要求6所述的方法,其特征在于,所述确定与所述意图分类结果匹配的知识点,包括:
确定与所述意图分类结果匹配的至少一个待选知识点;
确定每一所述待选知识点在历史时刻被确定为目标知识点的频率;
将频率最高的待选知识点,确定为与所述意图分类结果匹配的知识点。
10.一种多模态信息处理装置,其特征在于,所述装置包括:
提取模块,用于从获取到的多模态信息中提取第一模态特征和第二模态特征;所述第一模态特征和所述第二模态特征为两种不同模态的特征;
加权模块,用于基于注意力机制,利用所述第二模态特征,对所述第一模态特征进行注意力加权处理,得到第一加权模态特征;
池化模块,用于对所述第一加权模态特征和所述第二模态特征进行多模态分解双线性池化处理,得到双模态向量;
第一生成模块,用于根据所述双模态向量,生成所述多模态信息对应的意图分类结果。
11.一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至9任一项所述多模态信息处理方法中的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9任一项所述多模态信息处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110239408.4A CN113762319A (zh) | 2021-03-04 | 2021-03-04 | 一种多模态信息处理方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110239408.4A CN113762319A (zh) | 2021-03-04 | 2021-03-04 | 一种多模态信息处理方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113762319A true CN113762319A (zh) | 2021-12-07 |
Family
ID=78786678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110239408.4A Pending CN113762319A (zh) | 2021-03-04 | 2021-03-04 | 一种多模态信息处理方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113762319A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894468A (zh) * | 2024-03-18 | 2024-04-16 | 天津市肿瘤医院(天津医科大学肿瘤医院) | 基于人工智能的乳腺癌复发风险预测系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480206A (zh) * | 2017-07-25 | 2017-12-15 | 杭州电子科技大学 | 一种基于多模态低秩双线性池化的图像内容问答方法 |
CN110209789A (zh) * | 2019-05-29 | 2019-09-06 | 山东大学 | 一种用户注意力引导的多模态对话系统及方法 |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110717024A (zh) * | 2019-10-08 | 2020-01-21 | 苏州派维斯信息科技有限公司 | 基于图像视觉到文本转换的视觉问答问题解决方法 |
CN111737458A (zh) * | 2020-05-21 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 基于注意力机制的意图识别方法、装置、设备及存储介质 |
US20200410012A1 (en) * | 2019-06-28 | 2020-12-31 | Facebook Technologies, Llc | Memory Grounded Conversational Reasoning and Question Answering for Assistant Systems |
CN112257465A (zh) * | 2020-11-03 | 2021-01-22 | 沈阳雅译网络技术有限公司 | 一种基于图像描述生成的多模态机器翻译数据增强方法 |
-
2021
- 2021-03-04 CN CN202110239408.4A patent/CN113762319A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480206A (zh) * | 2017-07-25 | 2017-12-15 | 杭州电子科技大学 | 一种基于多模态低秩双线性池化的图像内容问答方法 |
CN110209789A (zh) * | 2019-05-29 | 2019-09-06 | 山东大学 | 一种用户注意力引导的多模态对话系统及方法 |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
US20200410012A1 (en) * | 2019-06-28 | 2020-12-31 | Facebook Technologies, Llc | Memory Grounded Conversational Reasoning and Question Answering for Assistant Systems |
CN110717024A (zh) * | 2019-10-08 | 2020-01-21 | 苏州派维斯信息科技有限公司 | 基于图像视觉到文本转换的视觉问答问题解决方法 |
CN111737458A (zh) * | 2020-05-21 | 2020-10-02 | 平安国际智慧城市科技股份有限公司 | 基于注意力机制的意图识别方法、装置、设备及存储介质 |
CN112257465A (zh) * | 2020-11-03 | 2021-01-22 | 沈阳雅译网络技术有限公司 | 一种基于图像描述生成的多模态机器翻译数据增强方法 |
Non-Patent Citations (2)
Title |
---|
XIAODAN ZHANG 等: "Beyond Vision: A Multimodal Recurrent Attention Convolutional Neural Network for Unified Image Aesthetic Prediction Tasks", 《IEEE TRANSACTIONS ON MULTIMEDIA》, vol. 23, 6 April 2020 (2020-04-06), pages 611, XP011834226, DOI: 10.1109/TMM.2020.2985526 * |
王军;鹿姝;李云伟;: "融合注意力机制和连接时序分类的多模态手语识别", 信号处理, no. 09, 25 September 2020 (2020-09-25), pages 1429 - 1439 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894468A (zh) * | 2024-03-18 | 2024-04-16 | 天津市肿瘤医院(天津医科大学肿瘤医院) | 基于人工智能的乳腺癌复发风险预测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104962B (zh) | 图像的语义分割方法、装置、电子设备及可读存储介质 | |
CN109522942B (zh) | 一种图像分类方法、装置、终端设备和存储介质 | |
CN109446430B (zh) | 产品推荐的方法、装置、计算机设备及可读存储介质 | |
CN106776673B (zh) | 多媒体文档概括 | |
CN110377740B (zh) | 情感极性分析方法、装置、电子设备及存储介质 | |
US10755447B2 (en) | Makeup identification using deep learning | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN107609888B (zh) | 用于查询和投标词之间的点击率预测的系统和方法 | |
JP7224447B2 (ja) | 符号化方法、装置、機器およびプログラム | |
CN107203558B (zh) | 对象推荐方法和装置、推荐信息处理方法和装置 | |
CN110765294B (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN113657087B (zh) | 信息的匹配方法及装置 | |
CN113434716A (zh) | 一种跨模态信息检索方法和装置 | |
KR20210074246A (ko) | 대상 추천 방법, 신경망 및 그 훈련 방법, 장치 및 매체 | |
CN114912540A (zh) | 迁移学习方法、装置、设备及存储介质 | |
Uddin et al. | An indoor human activity recognition system for smart home using local binary pattern features with hidden markov models | |
CN113762319A (zh) | 一种多模态信息处理方法、装置、电子设备和存储介质 | |
CN112115188B (zh) | 向目标用户展示目标对象序列的方法和装置 | |
CN112862538A (zh) | 预测用户偏好的方法、装置、电子设备和介质 | |
CN116758277A (zh) | 一种目标检测方法、装置及计算机设备 | |
JP6403861B1 (ja) | 提供プログラム、提供装置、および提供方法 | |
CN112766019A (zh) | 一种数据处理方法、信息推荐方法和相关装置 | |
US20240135576A1 (en) | Three-Dimensional Object Detection | |
CN115439922A (zh) | 对象行为识别方法、装置、设备及介质 | |
JP2023545221A (ja) | 顔と手との関連度の検出方法、装置、機器及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |