CN114218488A - 基于多模态特征融合的信息推荐方法、装置及处理器 - Google Patents
基于多模态特征融合的信息推荐方法、装置及处理器 Download PDFInfo
- Publication number
- CN114218488A CN114218488A CN202111547827.0A CN202111547827A CN114218488A CN 114218488 A CN114218488 A CN 114218488A CN 202111547827 A CN202111547827 A CN 202111547827A CN 114218488 A CN114218488 A CN 114218488A
- Authority
- CN
- China
- Prior art keywords
- information
- image
- data
- feature
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims description 37
- 230000006399 behavior Effects 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 10
- 230000008921 facial expression Effects 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 9
- 238000012512 characterization method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims 1
- 230000003068 static effect Effects 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 4
- 230000002411 adverse Effects 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 239000000047 product Substances 0.000 description 59
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种基于多模态特征融合的信息推荐方法、装置及处理器,属于人工智能技术领域。方法包括:获取目标对象的音视频数据及个性化信息;依据音视频数据提取目标对象的多模态特征信息,多模态特征信息包括图像特征信息、语音信号特征信息及文本特征信息;基于多模态特征信息及个性化信息向目标对象推荐对应的目标信息。本申请通过获取用户的音视频数据并依据获取的音视频数据进行多模态特征的提取,基于结合用户的图像特征及语音特征,能够有效加强用户的动态表征能力,从而克服用户的静态属性特征较少导致无法准确识别用户真实意图的不利影响。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种基于多模态特征融合的信息推荐方法、一种基于多模态特征融合的信息推荐装置及一种处理器。
背景技术
目前的信息推荐方式主要是利用用户的静态属性及历史行为,基于大数据和人工智能技术构建的推荐算法模型来实现对用户的信息推荐,例如广告推荐、产品推荐等。但是基于用户的静态属性及历史行为对用户进行信息推荐存在以下问题:当用户的静态属性特征较少及用户的历史行为不丰富时,构建的推荐算法模型所需的样本特征数据较少,无法准确刻画用户的真实购买意图或兴趣点,进而无法准确的为用户进行相关信息的推荐。
发明内容
本申请实施例的目的是提供一种基于多模态特征融合的信息推荐方法、一种基于多模态特征融合的信息推荐装置及一种处理器。
为了实现上述目的,本申请第一方面提供一种基于多模态特征融合的信息推荐方法,包括:
获取目标对象的音视频数据及个性化信息;
依据所述音视频数据提取所述目标对象的多模态特征信息,所述多模态特征信息包括图像特征信息、语音信号特征信息及文本特征信息,所述图像特征信息包括所述目标对象的面部表情特征信息和/或行为特征信息,所述语音信号特征信息包括音调;
获取各信息的属性特征,基于所述多模态特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息。
可选地,依据所述音视频数据提取所述目标对象的多模态特征信息,包括:
提取所述音视频数据的图像帧数据及音频数据;
提取所述图像帧数据的图像特征信息及所述音频数据的语音信号特征信息,并基于对所述音频数据进行语音识别得到对应的文本特征信息;
所述图像特征信息包括所述目标对象的面部表情特征信息和/或行为特征信息,所述语音信号特征信息包括音调、帧能量以及共振峰频率及其带宽。
可选地,提取所述音视频数据的图像帧数据及音频数据,包括:将所述音视频数据分割为N个子音视频数据,提取所述子音视频数据的子图像帧数据及子音频数据;
提取所述图像帧数据的图像特征信息及所述音频数据的语音信号特征信息,并基于对所述音频数据进行语音识别得到对应的文本特征信息,包括:
对所述子图像帧数据及子音频数据进行分帧处理,得到n个图像帧序列及n帧语音信号;
对所述图像帧序列的每一帧图像数据进行特征提取,得到所述图像帧序列的图像特征信息,并提取所述语音信号的语音信号特征;
基于对所述语音信号特征进行语音识别得到所述语音信号对应的文本特征信息。
可选地,对所述子图像帧数据及子音频数据进行分帧处理,得到n个图像帧序列及n帧语音信号,包括:
以设定时间步长作为帧长对所述子音频数据进行分帧处理,得到n帧语音信号;
以所述设定时间步长对所述子图像帧数据进行分帧处理,确定每一帧语音信号对应的子图像帧序列;
针对每一子图像帧序列,选择性提取所述子图像帧序列中的图像数据,得到当前语音信号对应的图像帧序列。
可选地,选择性提取所述子图像帧序列中的图像数据,包括:
从所述子图像帧序列的第一帧图像数据开始,以设定帧间隔依次提取所述子图像帧序列中的图像数据。
可选地,选择性提取所述子图像帧序列中的图像数据,包括:
依次提取所述子图像帧序列中的第一帧图像数据、中间帧图像数据及最后一帧图像数据;
当所述子图像帧序列中的图像数据的数量为奇数时,所述中间帧图像数据为第(m+1)/2帧图像数据;
当所述子图像帧序列中的图像数据的数量为偶数时,所述中间帧图像数据为第m/2帧图像数据;
其中,m为所述子图像帧序列中的图像数据的数量。
可选地,所述个性化信息包括:所述目标对象的行为信息及所述目标对象的画像信息;所述基于所述多模态特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息,包括:
以所述语音信号特征、所述图像特征信息及所述文本特征信息为输入,经多模态预训练模型得到多模态融合特征信息,所述多模态融合特征信息为所述语音信号特征、所述图像特征信息及所述文本特征信息的相互关联的融合表示;
依据所述多模态融合特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息。
可选地,依据所述多模态融合特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息,包括:
将所述多模态融合特征信息、所述目标对象的行为信息及所述目标对象的画像信息进行特征拼接,得到目标对象的表征向量特征;
以所述目标对象的表征向量特征及每一信息的属性特征为输入,经预训练的双塔模型计算所述目标对象的表征向量特征与当前信息的关联度得分,将所有信息的关联度得分由高到低进行排序,以关联度得分前N%的信息作为目标信息。
本申请第二方面提供一种基于多模态特征融合的信息推荐装置,包括:
数据获取模块,被配置为获取目标对象的音视频数据、个性化信息及各信息的属性特征;
特征提取模块,被配置为依据所述音视频数据提取所述目标对象的多模态特征信息,所述多模态特征信息包括图像特征信息、语音信号特征信息及文本特征信息,所述图像特征信息包括所述目标对象的面部表情特征信息和/或行为特征信息,所述语音信号特征信息包括音调;
推荐模块,被配置为基于所述多模态特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息。
本申请第三方面提供一种处理器,被配置成执行上述的基于多模态特征融合的信息推荐方法。
本申请第四方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得所述处理器被配置成执行上述的基于多模态特征融合的信息推荐方法。
本申请第五方面提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述的基于多模态特征融合的信息推荐方法。
通过上述技术方案,本申请通过获取用户的音视频数据并依据获取的音视频数据进行多模态特征的提取,基于结合用户的图像特征及语音特征,能够有效加强用户的动态表征能力,从而克服用户的静态属性特征较少导致无法准确识别用户真实意图的不利影响。
本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本申请实施例,但并不构成对本申请实施例的限制。在附图中:
图1示意性示出了现有的金融产品推荐引擎的结构示意图;
图2示意性示出了本申请实施例的一种基于多模态特征融合的信息推荐方法的方法流程图;
图3示意性示出了本申请实施例的Transformer模型结构示意图;
图4示意性示出了本申请实施例的Transformer编码层结构示意图;
图5示意性示出了本申请实施例的数据融合计算过程示意图;
图6示意性示出了本申请实施例的金融产品推荐逻辑示意图;
图7示意性示出了本申请实施例的一种基于多模态特征融合的信息推荐装置的示意框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解的是,此处所描述的具体实施方式仅用于说明和解释本申请实施例,并不用于限制本申请实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。本申请各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
如图1所示,目前,现有的金融产品推荐引擎通常通过各种机器学习模型从样本数据中分别抽取用户和商品的特征向量,经召回和排序两个阶段后最终生成推荐列表以向用户进行产品推荐。其中,召回阶段为从候选的产品集合中选择用户潜在感兴趣的金融产品列表;排序阶段是对召回阶段生成的产品列表按照相关分数排序后选择分数排序为前N个产品作为最终的结果列表输出。样本数据包括:通过统计计算方式挖掘的用户的静态特征属性如年龄、性别、职业等,访问行为日志如浏览、点击、收藏等,以及第三方数据来源;通过机器学习模型挖掘的数据,例如以标签库形式构建的用户画像数据;通过自然语言处理(NLP)的方法从金融文本数据或者客户评论文本数据来识别用户意图的特征;以及基于模型和统计混合的方式,通过产品描述文本或第三方数据挖掘的金融产品属性数据等。但是,对于金融产品而言,鉴于隐私保护,用户的静态属性特征极少,且用户的线上行为例如相关APP的使用频率通常较低,难以获取推荐算法模型所需的足够样本特征数据。
为了解决上述问题,如图2所示,在本申请一实施例中,提供了一种基于多模态特征融合的信息推荐方法,包括:
S100、获取目标对象的音视频数据及个性化信息;
S200、依据音视频数据提取目标对象的多模态特征信息,多模态特征信息包括图像特征信息、语音信号特征信息及文本特征信息,所述图像特征信息包括所述目标对象的面部表情特征信息和/或行为特征信息,所述语音信号特征信息包括音调;
S300、获取各信息的属性特征,基于多模态特征信息、个性化信息向及各信息的属性特征目标对象推荐对应的目标信息。
如此,本实施例通过获取用户的音视频数据并依据获取的音视频数据进行多模态特征的提取,基于结合用户的图像特征及语音特征,能够有效加强用户的动态表征能力,从而克服用户的静态属性特征较少导致无法准确识别用户真实意图的不利影响。
具体的,在获得用户同意的情况下,可以通过设置在营业厅的摄像头采集用户的音视频数据,或者,营业厅工作人员通过主动开启语音识别设备,获取用户的语音数据,通过摄像头获取用户的视频数据。其中,音视频数据可以是工作人员向用户进行产品推荐时采集的音视频数据,以利于提取用户对相关产品的反应特征。对于采集到的音视频数据,首先分别提取出音视频数据的图像帧数据及音频数据,再对图像帧数据进行图像特征信息的提取,以及对音频数据进行语音信号特征信息的提取,并通过语音识别对音频数据进行转换得到对应的文本特征信息。其中,图像特征信息包括用户的面部表情特征信息和/或行为特征信息,语音信号特征信息包括梅尔频率倒谱系数、音调、帧能量以及共振峰频率及其带宽等,从而得到用户对某一产品的动态表征的多模态特征信息,例如,工作人员向用户推荐产品A时,用户的表情、动作、语调及语义等往往能够反映用户对产品A的偏好程度。通过将用户的表情、动作、语调及语义等特征信息与相关产品进行关联,结合个性化信息如用户身份ID、用户性别、金融产品属性等特征,进而能够对用户的产品偏好进行有效的预测,从而解决用户的静态属性特征及历史行为数据过少的问题。
本实施例中,产品推荐引擎可以基于现有机器学习算法模型如神经网络进行构建,例如,基于BP神经网络或卷积神经网络构建预测模型,将采集到的用户的表情、动作、语调及语义等特征信息进行特征融合,以融合后的融合特征信息作为输入,经预测模型预测用户对对应产品的偏好,再结合用户身份ID、用户性别、金融产品属性等特征信息,向该用户推荐对应的产品信息。可以理解的,在采集用户的多模态特征信息的同时,可以通过人脸识别确定用户的身份ID,以将用户的融合特征信息与用户的身份ID关联,进而通过用户的身份ID获取用户的性别、年龄等属性特征,以进一步确定向用户推荐的产品信息。例如,在一个优选实施例中,当预测模型根据用户的融合特征信息预测用户对产品A感兴趣时,产品推荐引擎根据用户的性别、年龄获取对应的产品信息列表,并计算产品信息列表中的产品与产品A的相似度,获取相似度满足要求的产品信息生成最终的推荐列表。产品推荐引擎及产品信息的推荐规则可以基于现有技术实现,本实施例对推荐引擎模型及产品信息的推荐规则不作具体限定。
本实施例中,提取音视频数据的图像帧数据及音频数据,包括:将音视频数据分割为N个子音视频数据,提取子音视频数据的子图像帧数据及子音频数据;提取图像帧数据的图像特征信息及音频数据的语音信号特征信息,并基于对音频数据进行语音识别得到对应的文本特征信息,包括:
对子图像帧数据及子音频数据进行分帧处理,得到n个图像帧序列及n帧语音信号;对图像帧序列的每一帧图像数据进行特征提取,得到图像帧序列的图像特征信息,并提取语音信号的语音信号特征;基于对语音信号特征进行语音识别得到语音信号对应的文本特征信息。
基于音视频数据提取的各个模态的原始数据需经过对应的特征提取器获取对应的特征向量,例如,图像特征信息可以通过卷积神经网络从图像数据中提取,而文本特征信息可以通过循环神经网络从语音识别转化为文本的数据中提取得到,例如,利用双向长短记忆模型(bi-lstm)对语音信号特征进行提取、进行语音识别,其中,语音信号特征的提取及语音识别均为现有技术。由于不同神经网络结构的深度学习模型映射的特征空间不一致,因此,要对提取到的多模态特征信息进行融合,不能简单地通过前后拼接或者加权累加的连接方式来进行特征融合,为了实现对多模态特征特征信息在细粒度语义级的特征融合,本实施例采用Transformer模型对多模态特征特征信息进行融合。可以理解的,本实施例的Transformer模型可以通过训练样本集对预训练的Transformer模型训练后得到。
由于不同时间段的图像数据和音频数据的对应性不强,甚至可能有完全相反的特征表示,因此,在进行特征信息的提取前,首先将原始的音视频数据分割为N个子音视频数据,对于分割后得到的每一子音视频数据,进行图像数据及音频数据的提取,得到子音视频数据的子图像帧数据及子音频数据,对对子图像帧数据及子音频数据进行分帧处理,使得每一帧语音信号对应一个图像帧序列,例如,确定50ms为一个语音信号的帧长,在同一50ms内,其对应5帧图像,按照时间依次排列形成图像帧序列。对于每帧图像进行特征提取,得到对应的图像特征信息{a1、a2、a3、a4、a5},可以理解的,a1、a2、a3、a4、a5分别为5帧图像的特征向量,该特征向量可以是基于面部表情识别的面部特征向量,也可以是基于行为识别的行为特征向量。同时,分别对每个子音视频数据的每一帧的语音信号进行语音信号特征的提取及将语音信号转化为文本特征信息,从而得到每一帧的图像特征信息、语音信号特征信息及文本特征信息。可以理解的,可以基于现有的图像识别模型对每帧图像进行嵌入式向量特征的提取,得到图像特征信息;同样,也可以基于现有的语音识别模型对每帧语音信号进行嵌入式向量特征的提取,得到语音信号特征信息和/或文本特征信息。
由于每一帧语音信号可能对应较多帧图像,对子图像帧数据及子音频数据进行分帧处理,得到n个图像帧序列及n帧语音信号,包括:
以设定时间步长作为帧长对子音频数据进行分帧处理,得到n帧语音信号;以设定时间步长对子图像帧数据进行分帧处理,确定每一帧语音信号对应的子图像帧序列;针对每一子图像帧序列,选择性提取子图像帧序列中的图像数据,得到当前语音信号对应的图像帧序列。
在每个时间步长内,一帧语音信号可能对应有多帧图像,而每一帧图像之间的图像特性信息差异较小,例如,用户在说话的1分钟内,动作或表情没有变化,每一帧图像提取的图像特征信息差异极小,因此,为了减少数据量,无需对所有帧图像进行提取,仅需按照预设规则选择性提取若干帧图像构成图像帧序列即可。
在一个优选实施例中,选择性提取子图像帧序列中的图像数据,包括:从子图像帧序列的第一帧图像数据开始,以设定帧间隔依次提取子图像帧序列中的图像数据。例如,子图像帧序列包括图像{A1、A2、A3、A4、A5},以2帧为设定帧间隔,则得到的图像帧序列为{A1、A4}。
在另一个优选实施例中,选择性提取子图像帧序列中的图像数据,包括:依次提取子图像帧序列中的第一帧图像数据、中间帧图像数据及最后一帧图像数据;当子图像帧序列中的图像数据的数量为奇数时,中间帧图像数据为第(m+1)/2帧图像数据;当子图像帧序列中的图像数据的数量为偶数时,中间帧图像数据为第m/2帧图像数据;其中,m为子图像帧序列中的图像数据的数量。
例如,若子图像帧序列包括图像{A1、A2、A3、A4、A5、A6、A7},则得到的图像帧序列为{A1、A4、A7};若子图像帧序列包括图像{A1、A2、A3、A4、A5、A6},则得到的图像帧序列为{A1、A3、A6}。可以理解的,当子图像帧序列中的图像数据的数量为偶数时,中间帧图像数据还可以为第(m/2+1)帧的图像数据,以子图像帧序列包括图像{A1、A2、A3、A4、A5、A6}为例,最终得到的图像帧序列为{A1、A4、A6},由于A3、A4帧图像为相邻图像,二者的图像特征信息通常而言差异较小,因此,二者任选其一即可。
本实施例中,个性化信息包括:目标对象的行为信息及目标对象的画像信息,行为信息包括用户的线上行为数据,如用户在APP或官方网站的活跃数据、访问某理财频道的次数或者点击某理财产品的次数等,画像信息为基于用户的画像系统获取的用户标签信息,例如,用户标签信息包括用户基础信息、用户金融信息、用户触达信息等,其中,用户基础信息如用户姓名、年龄、性别、学历、客户归属地等,用户金融信息包括用户等级、是否持有理财产品等,用户触达信息包括用户的电话营销记录及营销活动权益记录等;个性化信息还包括金融产品的属性特征信息,例如金融产品的分类信息、销售信息或者贷款产品的利率信息等;基于多模态特征信息、个性化信息及各信息的属性特征向目标对象推荐对应的目标信息,包括:
以语音信号特征、图像特征信息及文本特征信息为输入,经多模态预训练模型得到多模态融合特征信息,多模态融合特征信息为语音信号特征、图像特征信息及文本特征信息的相互关联的融合表示;依据多模态融合特征信息、个性化信息及各信息的属性特征向目标对象推荐对应的目标信息。
如图3及图4所示所示,本实施例中,多模态预训练模型为Transformer模型,Transformer模型包括3个Transformer编码层,每个Transformer编码层里的multi-headself-attention层包括6个head,语音信号特征及图像特征均为256维度,其中,语音信号特征及图像特征的维度可以在提取语音信号特征及图像特征时设置。基于Transformer模型的多头注意力机制(multi-head self attention)可以建立任意两个模态特征信息之间的关联,具有高度的灵活性。其中,Transformer的层数及head的数量为可根据具体应用预定义的参数,本实施例对其具体取值不做限定。如图5所示,以一帧语音信号对应2帧图像为例,说明Transformer模型的典型融合过程如下:
图5中,audio input1表示为一帧语音信号提取的嵌入式向量特征,即该语音信号对应的语音信号特征信息;video input1和video input2表示该语音信号对应的两帧图像所对应的嵌入式向量,即该两帧图像的图像特征信息,分别对他们加上一些位置信息的变化,进一步进行特征向量抽取,得到语音特征向量的embedd1、图像特征向量的embedd1及图像的embedd2。然后得到的向量分别进入multi-head self attention层,在multi-headself attention层,每个输入分别乘以三个不同的矩阵(模型参数),得到q、k、v三个不同的向量。由于本实施例用了6个head,因此每个输入对应的q、k、v各有6个。以各个输入变换后的第一个head的结果来说明,每个输入进行对应的三个矩阵变化之后,以每一个q和对应位置的每一个k做注意力计算,例如以q1.1和k1.1做注意力计算得到1个注意力值,注意力计算的计算公式为q*k/√d,以得到的注意力值来衡量这两个向量之间的匹配程度,其中,q*k是两个向量的点积,d是q,k的维度。在Transformer模型中,不同的head可以看做关注的角度不一样,6个head可视为从6个不同的角度来分别看待两个不同模态输入向量的匹配关系,这样,Transformer模型就学习到了语音和视频之间不同输入片段的隐藏关系,而不是简单的根据时间片段进行物理相加或者随意的设置权重相加等来进行特征融合。图4中,q1.1和k1.1、k2.1分别相乘得到2个注意力值,实际为语音的每一个输入的每一个head和图像的每个输入的每个对应的head都会去计算注意力值,例如图像的输入有n个,那么q1.1会对应有n个注意力值,通过softmax函数得到n个归一化的概率,以得到的n个归一化后的概率分别乘以对应的v1.1和v2.1,通过加权求和,得到一个向量o1.1,其中,向量o1.1即为第一个输入的语音信号特征信息在multi-head self-attention层的第一个head对应的输出,6个head则对应有6个输出o1.1~o1.6,把得到的6个输出再通过一个矩阵变换(模型参数)就到一个输出output 1,得到的输出output 1再经过和原始输入向量相加和layer标准化(Add&Norm)后,经前馈神经网络(Feed forward层)和残差相加(Add&Norm层)处理后得到input 1在第一个transformer编码层的输出。其中,残差相加(Add)是为了保证向量信息不至于损失过多,保证模态信息的完整;标准化(Norm)是对不同量纲特征的归一化处理。
由于本实施例采用3个Transformer编码层,因此会按照上述过程计算三层,第三层的输出即为表征第一帧语音信号在充分考虑了整个图像序列的匹配信息后的输出,其匹配度是一个概率值,这样语音信号特征信息和图像特征信息的特征就通过Transformer模型自动学习他们融合的概率,而不是简单的直接把图像和语音的特征向量相加来表示多模态信息。可以理解的,Transformer模型的输入可以包括但不限于语音信号特征信息、文本特征信息及图像特征信息。
如图6所示,本实施例中,金融产品的推荐过程为:采集用户的音视频,对采集到的音视频进行切分,对于切分后的音视频进行视频数据与音频数据的提取,以设定时间步长对音频数据及视频数据进行分帧处理,提取每一帧的语音信号特征信息、文本特征信息及对应的图像特征信息,进而将同一时段内的语音信号特征信息、文本特征信息及对应的图像特征信息进行对应,使得特征信息能更准确的反映用户的表征。提取到用户的多模态特征信息后,以同一时段的图像特征信息、语音信号特征信息及文本特征信息作为Transformer模型的输入,经每一Transformer编码层进行任意两个模态特征信息之间的关联度计算后,得到融合后的多模态融合特征信息,将得到的多模态融合特征信息与提取到的用户行为信息、用户画像信息等特征向量进行向量拼接,从而得到用户的表征向量,该表征向量包括了从用户语音、图像及用户画像库汇总挖掘的各种信息,具有充分的表征能力。以得到的用户的表征向量及金融产品的属性信息作为产品推荐引擎的输入,经产品智能推荐引擎生成对应的产品列表,并将产品列表推荐至用户终端进行展示,从而实现金融产品的信息推荐。其中,金融产品的属性信息可以通过预先构建的金融产品属性信息表获取,金融产品属性信息表包括不同的金融产品及其对应的属性信息。产品智能推荐引擎可以采用现有的双塔模型,基于得到的用户的表征向量及金融产品的属性信息计算不同用户对不同金融产品的喜爱度分数,从而得到用户对不同金融产品的喜爱程度列表,再经过过滤等处理,例如某些金融产品仅适用于特定年龄段的用户,则可以根据用户的年龄对金融产品进行筛除后,将过滤后的金融产品按照用户的喜爱程度从高到低进行排序,取喜爱程度前N%的产品生成最终的产品列表。
如图7所示,本申请第二方面提供一种基于多模态特征融合的信息推荐装置,包括:
数据获取模块,被配置为获取目标对象的音视频数据及个性化信息;
特征提取模块,被配置为依据音视频数据提取目标对象的多模态特征信息,多模态特征信息包括图像特征信息、语音信号特征信息及文本特征信息,所述图像特征信息包括所述目标对象的面部表情特征信息和/或行为特征信息,所述语音信号特征信息包括音调;
推荐模块,被配置为基于多模态特征信息及个性化信息向目标对象推荐对应的目标信息。
本申请第三方面提供一种处理器,被配置成执行上述的基于多模态特征融合的信息推荐方法。处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现基于多模态特征融合的信息推荐方法。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请第四方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得处理器被配置成执行上述的基于多模态特征融合的信息推荐方法。
机器可读存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请第五方面提供一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述的基于多模态特征融合的信息推荐方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (12)
1.一种基于多模态特征融合的信息推荐方法,其特征在于,包括:
获取目标对象的音视频数据及个性化信息;
依据所述音视频数据提取所述目标对象的多模态特征信息,所述多模态特征信息包括图像特征信息、语音信号特征信息及文本特征信息,所述图像特征信息包括所述目标对象的面部表情特征信息和/或行为特征信息,所述语音信号特征信息包括音调;
获取各信息的属性特征,基于所述多模态特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息。
2.根据权利要求1所述的基于多模态特征融合的信息推荐方法,其特征在于,依据所述音视频数据提取所述目标对象的多模态特征信息,包括:
提取所述音视频数据的图像帧数据及音频数据;
提取所述图像帧数据的图像特征信息及所述音频数据的语音信号特征信息,并基于对所述音频数据进行语音识别得到对应的文本特征信息;
所述语音信号特征信息还包括帧能量以及共振峰频率及其带宽。
3.根据权利要求2所述的基于多模态特征融合的信息推荐方法,其特征在于,提取所述音视频数据的图像帧数据及音频数据,包括:将所述音视频数据分割为N个子音视频数据,提取所述子音视频数据的子图像帧数据及子音频数据;
提取所述图像帧数据的图像特征信息及所述音频数据的语音信号特征信息,并基于对所述音频数据进行语音识别得到对应的文本特征信息,包括:
对所述子图像帧数据及子音频数据进行分帧处理,得到n个图像帧序列及n帧语音信号;
对所述图像帧序列的每一帧图像数据进行特征提取,得到所述图像帧序列的图像特征信息,并提取所述语音信号的语音信号特征;
基于对所述语音信号特征进行语音识别得到所述语音信号对应的文本特征信息。
4.根据权利要求3所述的基于多模态特征融合的信息推荐方法,其特征在于,对所述子图像帧数据及子音频数据进行分帧处理,得到n个图像帧序列及n帧语音信号,包括:
以设定时间步长作为帧长对所述子音频数据进行分帧处理,得到n帧语音信号;
以所述设定时间步长对所述子图像帧数据进行分帧处理,确定每一帧语音信号对应的子图像帧序列;
针对每一子图像帧序列,选择性提取所述子图像帧序列中的图像数据,得到当前语音信号对应的图像帧序列。
5.根据权利要求4所述的基于多模态特征融合的信息推荐方法,其特征在于,选择性提取所述子图像帧序列中的图像数据,包括:
从所述子图像帧序列的第一帧图像数据开始,以设定帧间隔依次提取所述子图像帧序列中的图像数据。
6.根据权利要求4所述的基于多模态特征融合的信息推荐方法,其特征在于,选择性提取所述子图像帧序列中的图像数据,包括:
依次提取所述子图像帧序列中的第一帧图像数据、中间帧图像数据及最后一帧图像数据;
当所述子图像帧序列中的图像数据的数量为奇数时,所述中间帧图像数据为第(m+1)/2帧图像数据;
当所述子图像帧序列中的图像数据的数量为偶数时,所述中间帧图像数据为第m/2帧图像数据;
其中,m为所述子图像帧序列中的图像数据的数量。
7.根据权利要求4所述的基于多模态特征融合的信息推荐方法,其特征在于,所述个性化信息包括:所述目标对象的行为信息及所述目标对象的画像信息;所述基于所述多模态特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息,包括:
以所述语音信号特征、所述图像特征信息及所述文本特征信息为输入,经多模态预训练模型得到多模态融合特征信息,所述多模态融合特征信息为所述语音信号特征、所述图像特征信息及所述文本特征信息的相互关联的融合表示;
依据所述多模态融合特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息。
8.根据权利要求7所述的基于多模态特征融合的信息推荐方法,其特征在于,依据所述多模态融合特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息,包括:
将所述多模态融合特征信息、所述目标对象的行为信息及所述目标对象的画像信息进行特征拼接,得到目标对象的表征向量特征;
以所述目标对象的表征向量特征及每一信息的属性特征为输入,经预训练的双塔模型计算所述目标对象的表征向量特征与当前信息的关联度得分,将所有信息的关联度得分由高到低进行排序,以关联度得分前N%的信息作为目标信息。
9.一种基于多模态特征融合的信息推荐装置,其特征在于,包括:
数据获取模块,被配置为获取目标对象的音视频数据、个性化信息及各信息的属性特征;
特征提取模块,被配置为依据所述音视频数据提取所述目标对象的多模态特征信息,所述多模态特征信息包括图像特征信息、语音信号特征信息及文本特征信息,所述图像特征信息包括所述目标对象的面部表情特征信息和/或行为特征信息,所述语音信号特征信息包括音调;
推荐模块,被配置为基于所述多模态特征信息、所述个性化信息及各信息的属性特征向所述目标对象推荐对应的目标信息。
10.一种处理器,其特征在于,被配置成执行权利要求1至7中任一项权利要求所述的基于多模态特征融合的信息推荐方法。
11.一种机器可读存储介质,该机器可读存储介质上存储有指令,其特征在于,该指令在被处理器执行时使得所述处理器被配置成执行权利要求1至7中任一项权利要求所述的基于多模态特征融合的信息推荐方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现权利要求1至7中任一项权利要求所述的基于多模态特征融合的信息推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111547827.0A CN114218488A (zh) | 2021-12-16 | 2021-12-16 | 基于多模态特征融合的信息推荐方法、装置及处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111547827.0A CN114218488A (zh) | 2021-12-16 | 2021-12-16 | 基于多模态特征融合的信息推荐方法、装置及处理器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114218488A true CN114218488A (zh) | 2022-03-22 |
Family
ID=80703361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111547827.0A Pending CN114218488A (zh) | 2021-12-16 | 2021-12-16 | 基于多模态特征融合的信息推荐方法、装置及处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114218488A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115022732A (zh) * | 2022-05-25 | 2022-09-06 | 阿里巴巴(中国)有限公司 | 视频生成方法、装置、设备及介质 |
CN115396728A (zh) * | 2022-08-18 | 2022-11-25 | 维沃移动通信有限公司 | 视频播放倍速的确定方法、装置、电子设备及介质 |
CN116205664A (zh) * | 2023-04-28 | 2023-06-02 | 成都新希望金融信息有限公司 | 一种中介欺诈识别方法、装置、电子设备及存储介质 |
CN116739704A (zh) * | 2023-06-07 | 2023-09-12 | 北京海上升科技有限公司 | 基于人工智能的电商平台兴趣分析式商品推荐方法及系统 |
-
2021
- 2021-12-16 CN CN202111547827.0A patent/CN114218488A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115022732A (zh) * | 2022-05-25 | 2022-09-06 | 阿里巴巴(中国)有限公司 | 视频生成方法、装置、设备及介质 |
CN115022732B (zh) * | 2022-05-25 | 2023-11-03 | 阿里巴巴(中国)有限公司 | 视频生成方法、装置、设备及介质 |
CN115396728A (zh) * | 2022-08-18 | 2022-11-25 | 维沃移动通信有限公司 | 视频播放倍速的确定方法、装置、电子设备及介质 |
CN116205664A (zh) * | 2023-04-28 | 2023-06-02 | 成都新希望金融信息有限公司 | 一种中介欺诈识别方法、装置、电子设备及存储介质 |
CN116739704A (zh) * | 2023-06-07 | 2023-09-12 | 北京海上升科技有限公司 | 基于人工智能的电商平台兴趣分析式商品推荐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509465B (zh) | 一种视频数据的推荐方法、装置和服务器 | |
CN112346567B (zh) | 基于ai的虚拟交互模型生成方法、装置及计算机设备 | |
CN114218488A (zh) | 基于多模态特征融合的信息推荐方法、装置及处理器 | |
US11381651B2 (en) | Interpretable user modeling from unstructured user data | |
CN110364146B (zh) | 语音识别方法、装置、语音识别设备及存储介质 | |
CN111783873B (zh) | 基于增量朴素贝叶斯模型的用户画像方法及装置 | |
CN112989212B (zh) | 媒体内容推荐方法、装置和设备及计算机存储介质 | |
EP3743925A1 (en) | Interactive systems and methods | |
CN111930914A (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
Tian et al. | Sequential deep learning for disaster-related video classification | |
CN114625858A (zh) | 一种基于神经网络的政务问答智能回复方法及装置 | |
CN115269836A (zh) | 意图识别方法及装置 | |
Yordanova et al. | Automatic detection of everyday social behaviours and environments from verbatim transcripts of daily conversations | |
CN109727091A (zh) | 基于对话机器人的产品推荐方法、装置、介质及服务器 | |
CN114202402A (zh) | 行为特征预测方法及装置 | |
CN117352132A (zh) | 心理辅导方法、装置、设备及存储介质 | |
Yu et al. | Speaking style based apparent personality recognition | |
CN115129829A (zh) | 问答计算方法、服务器及存储介质 | |
CN117349402A (zh) | 一种基于机器阅读理解的情绪原因对识别方法及系统 | |
CN115169472A (zh) | 针对多媒体数据的音乐匹配方法、装置和计算机设备 | |
CN109918486B (zh) | 智能客服的语料构建方法、装置、计算机设备及存储介质 | |
CN115905584B (zh) | 一种视频拆分方法及装置 | |
CN117708340B (zh) | 标签文本的确定方法、模型训练及调整方法、设备和介质 | |
KR102624634B1 (ko) | 자가학습 기반 인공지능을 이용한 비대면 설문조사에서 중도이탈 응답 대체 시스템 | |
KR102624636B1 (ko) | 자체 피드백 기반의 설문지 생성 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |