CN116661603A - 复杂人机交互场景下的多模态融合的用户意图识别方法 - Google Patents
复杂人机交互场景下的多模态融合的用户意图识别方法 Download PDFInfo
- Publication number
- CN116661603A CN116661603A CN202310656368.2A CN202310656368A CN116661603A CN 116661603 A CN116661603 A CN 116661603A CN 202310656368 A CN202310656368 A CN 202310656368A CN 116661603 A CN116661603 A CN 116661603A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- text
- fusion
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 78
- 230000003993 interaction Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000000007 visual effect Effects 0.000 claims abstract description 47
- 238000013528 artificial neural network Methods 0.000 claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 210000005036 nerve Anatomy 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Acoustics & Sound (AREA)
- Oral & Maxillofacial Surgery (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了复杂人机交互场景下的多模态融合的用户意图识别方法,获取语音和视频,利用语音识别模块把语音转换为文本;分别通过预训练模型BERT、Wav2vec 2.0和Faster R‑CNN提取文本特征、语音特征和视觉特征,利用Transformer对特征进行预处理;构建模态特定和模态共用两类编码器,对文本、语音和视频特征进行多模态协同表示学习;针对复杂场景下每种模态可能在不同时刻表现出不同级别的噪声,利用注意力机制和门控神经网络对多模态协同表示进行自适应融合;把融合特征输入全连接神经网络中识别用户的真实意图。本发明可以提高复杂人机交互场景下的用户意图识别的准确率,提升交互机器人的服务质量。
Description
技术领域
本发明涉及人机交互领域,具体涉及复杂人机交互场景下的多模态融合的用户意图识别方法。
背景技术
多模态融合的用户意图识别方法是人机交互领域中的重要研究方向之一。在真实复杂场景下,用户的交互方式多种多样,例如语音、表情、眼神、行为等,因此需要将多种交互模态进行融合,才能更准确地理解用户的意图和需求。
多模态机器学习旨在建立能够处理和关联来自多种模式的信息的模型,是实现多模态融合的用户意图识别的重要方法。多模态表示和融合是多模态机器学习的两个关键任务。由于模态间的异构性,多模态表示学习一直是个难点问题。目前,基于神经网络的联合表示学习方法把所有的模态数据映射到统一的特征空间,得到联合特征表示,容易实现端到端的学习,但需要大量的标注数据。多模态意图数据具有共享和特有的特征,例如说话人的动作、语音和语言具有共同的动机和目标,同时它们又分别具有特有的情感、语气和语义。如何设计一种协同模式,有效学习不同模态的共享和独有特征,不仅可以为后续特征融合奠定良好的基础,而且可以减少对标注数据的依赖。
多模态融合根据融合阶段的不同,可以分为早期融合、晚期融合和混合融合。早期融合是特征层的融合,在融合后的特征上训练分类器;晚期融合是决策层的融合,每个模态数据单独训练一个分类器,然后根据投票、加权和学习等方式对分类器的结果进行融合;混合融合联合了早期融合和晚期融合两种方式,试图同时利用两种融合方式的优点。晚期融合允许不同的模态采用不用的预测模型,使得模型具有灵活性,但忽视了不同模态特征的交互。早期融合使用单一模型进行训练,实现了不同模态特征的交互。在多模态意图识别中,表情、语音和语言之间的交互对意图的识别具有重要作用,所以在特征层次进行融合更加符合多模态意图识别任务。在复杂场景下,语音和视频可能在不同时刻表现出不同级别的噪声,而目前大部分多模态融合方法,把所有的模态特征同等对待,导致对噪声数据敏感。
发明内容
本发明目的:在于提供复杂人机交互场景下的多模态融合的用户意图识别方法,通过多模态协同表示和自适应融合,实现复杂场景下的用户意图识别。在多模态协同表示方面,构建模态特定和模态共用的两类编码器分别学习文本、视频和语音的特有和共享特征的表示,通过样本重构误差、样本内协同误差和样本间协同误差设计表示学习损失函数。在多模态特征融合方面,设计一种基于注意力机制和门控神经网络的自适应的融合方法,利用注意力机制学习模态间的依赖关系,通过门控神经网络得出融合权重。
为实现以上功能,本发明设计复杂人机交互场景下的多模态融合的用户意图识别方法,执行如下步骤S1-步骤S6,完成对用户对话意图的识别:
步骤S1:分别采用语音传感器和视觉传感器获取交互环境的音频和视频;
步骤S2:采用语音识别模块将步骤S1所获取的音频中的用户对话转换为文本;
步骤S3:分别针对步骤S1所获取的音频和视频,通过预训练的Wav2vec2.0模型和FasterR-CNN模型进行特征提取,分别获得对应的语音特征和视觉特征,针对步骤S2所获取的文本,通过预训练的语言模型BERT进行特征提取,获得对应的语义特征;
步骤S4:分别以语音特征、视觉特征、语义特征为输入,构建音频编码器、视频编码器、文本编码器,学习语音特征、视觉特征、语义特征各自的特有特征;并构建多模态共用编码器,学习语音特征、视觉特征、语义特征三者的共享特征;基于语音特征、视觉特征、语义特征的特有特征和共享特征获得多模态协同表示;
步骤S5:针对交互环境中不同时刻存在的不同级别的噪声,采用注意力机制和门控神经网络,对步骤S4所获得的多模态协同表示进行自适应融合,获得多模态融合特征;
步骤S6:将步骤S5所获得的多模态融合特征输入全连接神经网络,完成用户对话意图的识别。
作为本发明的一种优选技术方案:步骤S1中采用主动获取的方式捕获交互环境的音频和视频。
作为本发明的一种优选技术方案:步骤S2中所述的语音识别模块为基于神经网络的端到端模型CTC。
作为本发明的一种优选技术方案:步骤S3的具体步骤如下:
步骤S3.1:把步骤S2所获取的文本T=(w1,w2,...,wn)输入预训练语言模型BERT中,w1,w2,...,wn为文本中的词向量,n为词向量总数,预训练语言模型BERT表示为:
H(l)=LayerNorm(H(l-1)+FeedForward(SelfAttention(H(l-1))))
其中,l表示模型的层数,LayerNorm表示归一化,FeedForward表示前馈,SelfAttention表示自注意力机制,表示模型隐藏层的输出,将H(l)作为语义特征表示ut,初始的H(0)为输入文本的词嵌入H(0)=Embeddings(w1,w2,...,wn),lt为文本序列长度,ht为特征维度;
步骤S3.2:把音频s输入预训练的Wav2vec 2.0模型中,预训练的Wav2vec 2.0模型表示为y=M(Q(F(P(s)),其中P表示预处理操作,F表示特征提取器,Q表示量化器,M表示掩码语言建模的预测任务,y表示预测输出;表示模型隐藏层的输出,将za作为语音特征表示ua,其中la为语音序列长度,ha为特征维度;
步骤S3.3:针对视频的关键帧,利用基于MS COCO数据集预训练的Faster R-CNN模型检测每个关键帧中的人物,得到人物边界框x;使用预训练的TalkNet模型识别各个人物中的说话人,得到说话人边界框B;结合说话人边界框B和由Faster R-CNN提取的人物边界框x,得到视觉特征lv为关键帧的序列长度,hv为每帧的特征维度,视觉特征zv的计算如下式:
zv=AvgPool(RoIAlign(x,B))
其中,RoIAlign表示根据说话人边界框B抽取固定大小的特征图,AvgPool用于将特征图的长宽固定到统一的大小。
作为本发明的一种优选技术方案:步骤S4的具体步骤如下:
步骤S4.1:以语义特征ut、语音特征ua、视觉特征zv为输入,构建多模态共用编码器Ec(u(t,a,v);θc),其中u(t,a,v)为多模态共用编码器的输入,θc为多模态共用编码器参数;将语义特征ut、语音特征ua和视觉特征zv映射到同一个特征空间,分别得到文本、音频和视频的共享特征和/>分别如下式所示:
步骤S4.2:分别以语义特征ut、语音特征ua、视觉特征zv为输入,相应构建文本编码器音频编码器/>视频编码器/>其中/> 为编码器参数,将语义特征ut、语音特征ua、视觉特征zv映射到不同的特征空间,分别得到文本、音频、视频各自的特有特征/>分别如下式所示:
步骤S4.3:基于中心矩差异和正交性,构建样本内协同损失函数如下式:
其中,其中a和b是样本分布的概率分布区间,X和Y是概率区间的随机样本,k为阶数,E(X)是样本X的经验期望向量,Ck(X)为X的k阶样本中心距向量。t,a和v分别为文本,语音和视频的标识,和/>分别为模态m的共享特征和特有特征,||||2是L2范数;
步骤S4.4:构建样本间协同损失函数如下式:
其中,c和p分别为共享特征和特有特征的标识,t,a和v分别为文本,语音和视频的标识,和/>分别表示锚点样本a,正样本i和负样本j的m模态的n特征的表示;
步骤S4.5:基于均方差构建样本重构损失函数如下式:
其中,ut,ua和uv分别为语义特征、语音特征和视觉特征,和/>分别为文本、语音和视频的解码输出特征,||||2是L2范数,W为解码器参数。
作为本发明的一种优选技术方案:步骤S5的具体步骤如下:
步骤S5.1:分别对文本、音频和视频的共享特征和特有特征进行拼接,输入Self-attention模型中分别得到文本、音频和视频单模态融合特征ht,ha和hv;
步骤S5.2:得到各单模态融合特征后,基于Cross-attention模型分别计算文本与视频的关联特征CAt-v和文本与语音的关联特征CAt-a;
步骤S5.3:把CAt-v和CAt-a分别输入视觉门控神经单元和语音门控神经单元,得到视觉特征融合权重Wv和语音特征融合权重Wa,根据权重融合视频单模态融合特征hv、音频单模态融合特征ha和文本单模态融合特征ht,得到最终的多模态融合特征,具体如下式:
h=ht+Wv*hv+Wa*ha
式中,h表示多模态融合特征。
作为本发明的一种优选技术方案:步骤S6中将步骤S5所获得的多模态融合特征h输入全连接神经网络中识别用户的真实对话意图。
有益效果:相对于现有技术,本发明的优点包括:
本发明针对复杂场景下的人机交互,提出一种多模态融合的用户意图识别方法。在初始特征提出方面,分别通过预训练模型BERT、Wav2vec 2.0和Faster R-CNN提升文本特征、语音特征和视觉特征的质量;在多模态协同表示方面,构建模态特定和模态共用的两类编码器,对文本、视频和语音进行多模态协同表示学习,为模态提供一个更加全面的表征视图,提高模型的学习能力;在多模态特征融合方面,设计一种基于注意力机制和门控神经网络的自适应的融合方法,利用注意力机制学习模态间的依赖关系,通过门控神经网络得出融合权重,提高模型对噪声数据的适应能力。从而最终提高复杂人机交互场景下的用户意图识别的准确率,提升交互机器人的服务质量。
附图说明
图1是根据本发明实施例提供的复杂人机交互场景下的多模态融合的用户意图识别方法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
参照图1,本发明实施例提供的复杂人机交互场景下的多模态融合的用户意图识别方法,执行如下步骤S1-步骤S6,完成对用户对话意图的识别:
步骤S1:分别采用麦克风和摄像头以主动获取的方式获取交互环境的音频和视频;
步骤S2:采用基于神经网络的端到端模型CTC(Connectionist TemporalClassification)将步骤S1所获取的音频中的用户对话转换为文本,该模型直接从输入音频中生成文本输出,无需人工提取特征;
步骤S3:分别针对步骤S1所获取的音频和视频,通过预训练的Wav2vec2.0模型和FasterR-CNN模型进行特征提取,分别获得对应的语音特征和视觉特征,针对步骤S2所获取的文本,通过预训练的语言模型BERT进行特征提取,获得对应的语义特征;
步骤S3的具体步骤如下:
步骤S3.1:把步骤S2所获取的文本T=(w1,w2,...,wn)输入预训练语言模型BERT中,w1,w2,...,wn为文本中的词向量,n为词向量总数,预训练语言模型BERT表示为:
H(l)=LayerNorm(H(l-1)+FeedForward(SelfAttention(H(l-1))))
其中,l表示模型的层数,LayerNorm表示归一化,FeedForward表示前馈,SelfAttention表示自注意力机制,表示模型隐藏层的输出,将H(l)作为语义特征表示ut,初始的H(0)为输入文本的词嵌入H(0)=Embeddings(w1,w2,...,wn),lt为文本序列长度,ht为特征维度;
步骤S3.2:把音频s输入预训练的Wav2vec 2.0模型中,预训练的Wav2vec 2.0模型表示为y=M(Q(F(P(s)),其中P表示预处理操作,F表示特征提取器,Q表示量化器,M表示掩码语言建模的预测任务,y表示预测输出;表示模型隐藏层的输出,将za作为语音特征表示ua,其中la为语音序列长度,ha为特征维度;
步骤S3.3:利用场景检测工具区分不同的视觉场景,从而得到关键帧;针对视频的关键帧,利用基于MS COCO数据集预训练的Faster R-CNN模型检测每个关键帧中的人物,得到人物边界框x;考虑到画面中可能存在多个人物的情况,使用预训练的TalkNet模型识别各个人物中的说话人,得到说话人边界框B;结合说话人边界框B和由Faster R-CNN提取的人物边界框x,得到视觉特征 lv为关键帧的序列长度,hv为每帧的特征维度,视觉特征zv的计算如下式:
zv=AvgPool(RoIAlign(x,B))
其中,RoIAlign表示根据说话人边界框B抽取固定大小的特征图,AvgPool用于将特征图的长宽固定到统一的大小。
步骤S4:分别以语音特征、视觉特征、语义特征为输入,构建音频编码器、视频编码器、文本编码器,学习语音特征、视觉特征、语义特征各自的特有特征;并构建多模态共用编码器,学习语音特征、视觉特征、语义特征三者的共享特征;基于语音特征、视觉特征、语义特征的特有特征和共享特征获得多模态协同表示;
步骤S4的具体步骤如下:
步骤S4.1:以语义特征ut、语音特征ua、视觉特征zv为输入,构建多模态共用编码器Ec(u(t,a,v);θc),其中u(t,a,v)为多模态共用编码器的输入,θc为多模态共用编码器参数;将语义特征ut、语音特征ua和视觉特征zv映射到同一个特征空间,分别得到文本、音频和视频的共享特征和/>分别如下式所示:
步骤S4.2:分别以语义特征ut、语音特征ua、视觉特征zv为输入,相应构建文本编码器音频编码器/>视频编码器/>其中/> 为编码器参数,将语义特征ut、语音特征ua、视觉特征zv映射到不同的特征空间,分别得到文本、音频、视频各自的特有特征/>分别如下式所示:
步骤S4.3:基于中心矩差异(Central Moment Discrepancy,CMD)和正交性,构建样本内协同损失函数如下式:
其中,其中a和b是样本分布的概率分布区间,X和Y是概率区间的随机样本,k为阶数,E(X)是样本X的经验期望向量,Ck(X)为X的k阶样本中心距向量。t,a和v分别为文本,语音和视频的标识,和/>分别为模态m的共享特征和特有特征,模态包括文本,语音和视频,||||2是L2范数;
步骤S4.4:构建样本间协同损失函数如下式:
其中,c和p分别为共享特征和特有特征的标识,t,a和v分别为文本,语音和视频的标识,和/>分别表示锚点样本a,正样本i和负样本j的m模态的n特征的表示,其中,模态包括文本,语音和视频,特征包括共享特征和特有特征;
步骤S4.5:基于均方差(MSE)构建样本重构损失函数如下式:
其中,ut,ua和uv分别为语义特征、语音特征和视觉特征,即未经解码器处理的初始特征,和/>分别为文本、语音和视频的解码输出特征,||||2是L2范数,W为解码器参数。
步骤S5:针对交互环境中不同时刻存在的不同级别的噪声,采用注意力机制和门控神经网络,对步骤S4所获得的多模态协同表示进行自适应融合,获得多模态融合特征;
步骤S5的具体步骤如下:
步骤S5.1:分别对文本、音频和视频的共享特征和特有特征进行拼接,输入Self-attention模型中分别得到文本、音频和视频单模态融合特征ht,ha和hv;
步骤S5.2:得到各单模态融合特征后,基于Cross-attention模型分别计算文本与视频的关联特征CAt-v和文本与语音的关联特征CAt-a;
步骤S5.3:把CAt-v和CAt-a分别输入视觉门控神经单元和语音门控神经单元,得到视觉特征融合权重Wv和语音特征融合权重Wa,根据权重融合视频单模态融合特征hv、音频单模态融合特征ha和文本单模态融合特征ht,得到最终的多模态融合特征,具体如下式:
h=ht+Wv*hv+Wa*ha
式中,h表示多模态融合特征。
步骤S6:将步骤S5所获得的多模态融合特征输入全连接神经网络,完成用户对话意图的识别。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (7)
1.复杂人机交互场景下的多模态融合的用户意图识别方法,其特征在于,执行如下步骤S1-步骤S6,完成对用户对话意图的识别:
步骤S1:分别采用语音传感器和视觉传感器获取交互环境的音频和视频;
步骤S2:采用语音识别模块将步骤S1所获取的音频中的用户对话转换为文本;
步骤S3:分别针对步骤S1所获取的音频和视频,通过预训练的Wav2vec2.0模型和FasterR-CNN模型进行特征提取,分别获得对应的语音特征和视觉特征,针对步骤S2所获取的文本,通过预训练的语言模型BERT进行特征提取,获得对应的语义特征;
步骤S4:分别以语音特征、视觉特征、语义特征为输入,构建音频编码器、视频编码器、文本编码器,学习语音特征、视觉特征、语义特征各自的特有特征;并构建多模态共用编码器,学习语音特征、视觉特征、语义特征三者的共享特征;基于语音特征、视觉特征、语义特征的特有特征和共享特征获得多模态协同表示;
步骤S5:针对交互环境中不同时刻存在的不同级别的噪声,采用注意力机制和门控神经网络,对步骤S4所获得的多模态协同表示进行自适应融合,获得多模态融合特征;
步骤S6:将步骤S5所获得的多模态融合特征输入全连接神经网络,完成用户对话意图的识别。
2.根据权利要求1所述的复杂人机交互场景下的多模态融合的用户意图识别方法,其特征在于,步骤S1中采用主动获取的方式捕获交互环境的音频和视频。
3.根据权利要求1所述的复杂人机交互场景下的多模态融合的用户意图识别方法,其特征在于,步骤S2中所述的语音识别模块为基于神经网络的端到端模型CTC。
4.根据权利要求1所述的复杂人机交互场景下的多模态融合的用户意图识别方法,其特征在于,步骤S3的具体步骤如下:
步骤S3.1:把步骤S2所获取的文本T=(w1,w2,...,wn)输入预训练语言模型BERT中,w1,w2,...,wn为文本中的词向量,n为词向量总数,预训练语言模型BERT表示为:
H(l)=LayerNorm(H(l-1)+FeedForward(SelfAttention(H(l-1))))
其中,l表示模型的层数,LayerNorm表示归一化,FeedForward表示前馈,SelfAttention表示自注意力机制,表示模型隐藏层的输出,将H(l)作为语义特征表示ut,初始的H(0)为输入文本的词嵌入H(0)=Embeddings(w1,w2,...,wn),lt为文本序列长度,ht为特征维度;
步骤S3.2:把音频s输入预训练的Wav2vec 2.0模型中,预训练的Wav2vec 2.0模型表示为y=M(Q(F(P(s)),其中P表示预处理操作,F表示特征提取器,Q表示量化器,M表示掩码语言建模的预测任务,y表示预测输出;表示模型隐藏层的输出,将za作为语音特征表示ua,其中la为语音序列长度,ha为特征维度;
步骤S3.3:针对视频的关键帧,利用基于MS COCO数据集预训练的Faster R-CNN模型检测每个关键帧中的人物,得到人物边界框x;使用预训练的TalkNet模型识别各个人物中的说话人,得到说话人边界框B;结合说话人边界框B和由Faster R-CNN提取的人物边界框x,得到视觉特征lv为关键帧的序列长度,hv为每帧的特征维度,视觉特征zv的计算如下式:
zv=AvgPool(RoIAlign(x,B))
其中,RoIAlign表示根据说话人边界框B抽取固定大小的特征图,AvgPool用于将特征图的长宽固定到统一的大小。
5.根据权利要求4所述的复杂人机交互场景下的多模态融合的用户意图识别方法,其特征在于,步骤S4的具体步骤如下:
步骤S4.1:以语义特征ut、语音特征ua、视觉特征zv为输入,构建多模态共用编码器Ec(u(t,a,v);θc),其中u(t,a,v)为多模态共用编码器的输入,θc为多模态共用编码器参数;将语义特征ut、语音特征ua和视觉特征zv映射到同一个特征空间,分别得到文本、音频和视频的共享特征和/>分别如下式所示:
步骤S4.2:分别以语义特征ut、语音特征ua、视觉特征zv为输入,相应构建文本编码器音频编码器/>视频编码器/>其中/> 为编码器参数,将语义特征ut、语音特征ua、视觉特征zv映射到不同的特征空间,分别得到文本、音频、视频各自的特有特征/>分别如下式所示:
步骤S4.3:基于中心矩差异和正交性,构建样本内协同损失函数如下式:
其中,其中a和b是样本分布的概率分布区间,X和Y是概率区间的随机样本,k为阶数,E(X)是样本X的经验期望向量,Ck(X)为X的k阶样本中心距向量。t,a和v分别为文本,语音和视频的标识,和/>分别为模态m的共享特征和特有特征,||||2是L2范数;
步骤S4.4:构建样本间协同损失函数如下式:
其中,c和p分别为共享特征和特有特征的标识,t,a和v分别为文本,语音和视频的标识,和/>分别表示锚点样本a,正样本i和负样本j的m模态的n特征的表示;
步骤S4.5:基于均方差构建样本重构损失函数如下式:
其中,ut,ua和uv分别为语义特征、语音特征和视觉特征,和/>分别为文本、语音和视频的解码输出特征,|| ||2是L2范数,W为解码器参数。
6.根据权利要求5所述的复杂人机交互场景下的多模态融合的用户意图识别方法,其特征在于,步骤S5的具体步骤如下:
步骤S5.1:分别对文本、音频和视频的共享特征和特有特征进行拼接,输入Self-attention模型中分别得到文本、音频和视频单模态融合特征ht,ha和hv;
步骤S5.2:得到各单模态融合特征后,基于Cross-attention模型分别计算文本与视频的关联特征CAt-v和文本与语音的关联特征CAt-a;
步骤S5.3:把CAt-v和CAt-a分别输入视觉门控神经单元和语音门控神经单元,得到视觉特征融合权重Wv和语音特征融合权重Wa,根据权重融合视频单模态融合特征hv、音频单模态融合特征ha和文本单模态融合特征ht,得到最终的多模态融合特征,具体如下式:
h=ht+Wv*hv+Wa*ha
式中,h表示多模态融合特征。
7.根据权利要求6所述的复杂人机交互场景下的多模态融合的用户意图识别方法,其特征在于,步骤S6中将步骤S5所获得的多模态融合特征h输入全连接神经网络中识别用户的真实对话意图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310656368.2A CN116661603A (zh) | 2023-06-02 | 2023-06-02 | 复杂人机交互场景下的多模态融合的用户意图识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310656368.2A CN116661603A (zh) | 2023-06-02 | 2023-06-02 | 复杂人机交互场景下的多模态融合的用户意图识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116661603A true CN116661603A (zh) | 2023-08-29 |
Family
ID=87723904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310656368.2A Pending CN116661603A (zh) | 2023-06-02 | 2023-06-02 | 复杂人机交互场景下的多模态融合的用户意图识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116661603A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117036833A (zh) * | 2023-10-09 | 2023-11-10 | 苏州元脑智能科技有限公司 | 一种视频分类方法、装置、设备和计算机可读存储介质 |
CN117153157A (zh) * | 2023-09-19 | 2023-12-01 | 深圳市麦驰信息技术有限公司 | 一种语意识别的多模态全双工对话方法及系统 |
CN117718969A (zh) * | 2024-01-18 | 2024-03-19 | 浙江孚宝智能科技有限公司 | 基于视觉听觉融合的家用机器人控制系统及其方法 |
CN117727290A (zh) * | 2024-02-18 | 2024-03-19 | 厦门她趣信息技术有限公司 | 一种语音合成方法、装置、设备及可读存储介质 |
CN118133845A (zh) * | 2024-05-08 | 2024-06-04 | 中国人民解放军国防科技大学 | 一种多通道语义理解的融合方法、装置、设备及存储介质 |
CN118553235A (zh) * | 2024-07-30 | 2024-08-27 | 罗普特科技集团股份有限公司 | 一种多模态智能终端的语音识别方法及系统 |
-
2023
- 2023-06-02 CN CN202310656368.2A patent/CN116661603A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153157A (zh) * | 2023-09-19 | 2023-12-01 | 深圳市麦驰信息技术有限公司 | 一种语意识别的多模态全双工对话方法及系统 |
CN117153157B (zh) * | 2023-09-19 | 2024-06-04 | 深圳市麦驰信息技术有限公司 | 一种语意识别的多模态全双工对话方法及系统 |
CN117036833A (zh) * | 2023-10-09 | 2023-11-10 | 苏州元脑智能科技有限公司 | 一种视频分类方法、装置、设备和计算机可读存储介质 |
CN117036833B (zh) * | 2023-10-09 | 2024-02-09 | 苏州元脑智能科技有限公司 | 一种视频分类方法、装置、设备和计算机可读存储介质 |
CN117718969A (zh) * | 2024-01-18 | 2024-03-19 | 浙江孚宝智能科技有限公司 | 基于视觉听觉融合的家用机器人控制系统及其方法 |
CN117718969B (zh) * | 2024-01-18 | 2024-05-31 | 浙江孚宝智能科技有限公司 | 基于视觉听觉融合的家用机器人控制系统及其方法 |
CN117727290A (zh) * | 2024-02-18 | 2024-03-19 | 厦门她趣信息技术有限公司 | 一种语音合成方法、装置、设备及可读存储介质 |
CN118133845A (zh) * | 2024-05-08 | 2024-06-04 | 中国人民解放军国防科技大学 | 一种多通道语义理解的融合方法、装置、设备及存储介质 |
CN118553235A (zh) * | 2024-07-30 | 2024-08-27 | 罗普特科技集团股份有限公司 | 一种多模态智能终端的语音识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116661603A (zh) | 复杂人机交互场景下的多模态融合的用户意图识别方法 | |
CN112651448B (zh) | 一种面向社交平台表情包的多模态情感分析方法 | |
CN110728997B (zh) | 一种基于情景感知的多模态抑郁症检测系统 | |
CN114973062B (zh) | 基于Transformer的多模态情感分析方法 | |
CN111966800B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
CN111967272B (zh) | 基于语义对齐的视觉对话生成系统 | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
CN117079299B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
KR101738142B1 (ko) | 감성 기반의 대화가 가능한 디지털 생명체 생성 시스템 및 그 제어방법 | |
CN116304973A (zh) | 一种基于多模态融合的课堂教学情感识别方法和系统 | |
CN117765981A (zh) | 一种基于语音文本跨模态融合的情感识别方法及系统 | |
Teye et al. | Evaluation of conversational agents: understanding culture, context and environment in emotion detection | |
CN114926716B (zh) | 一种学习参与度识别方法、装置、设备及可读存储介质 | |
CN117251057A (zh) | 一种基于aigc构建ai数智人的方法及系统 | |
CN117892237B (zh) | 一种基于超图神经网络的多模态对话情绪识别方法及系统 | |
CN117271745A (zh) | 一种信息处理方法、装置及计算设备、存储介质 | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
CN117994622A (zh) | 多模态感知融合的情感识别方法和机器人情感交互方法 | |
CN117453880A (zh) | 多模态数据的处理方法、装置、电子设备及存储介质 | |
CN117809679A (zh) | 一种服务器、显示设备及数字人交互方法 | |
CN116959417A (zh) | 对话回合的检测方法、装置、设备、介质、程序产品 | |
Xu | Multimodal Sentiment Analysis Data Sets and Preprocessing | |
CN118093936B (zh) | 视频标签处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |