CN114218380A - 基于多模态的冷链配载用户画像标签抽取方法及装置 - Google Patents

基于多模态的冷链配载用户画像标签抽取方法及装置 Download PDF

Info

Publication number
CN114218380A
CN114218380A CN202111471016.7A CN202111471016A CN114218380A CN 114218380 A CN114218380 A CN 114218380A CN 202111471016 A CN202111471016 A CN 202111471016A CN 114218380 A CN114218380 A CN 114218380A
Authority
CN
China
Prior art keywords
bimodal
feature
text
feature vector
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111471016.7A
Other languages
English (en)
Other versions
CN114218380B (zh
Inventor
李翔
张宁
谢乾
朱全银
高尚兵
马甲林
王媛媛
丁行硕
束玮
张豪杰
丁婧娴
张曼
费晶茹
洪玉昆
杨秋实
徐伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202111471016.7A priority Critical patent/CN114218380B/zh
Publication of CN114218380A publication Critical patent/CN114218380A/zh
Application granted granted Critical
Publication of CN114218380B publication Critical patent/CN114218380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态的冷链配载用户画像标签抽取方法及装置,将带标签的文本集作为BERT模型的输入,并利用长短期记忆网络进一步提取特征;使用YOLO提取图片特征,将提取的双模态特征使用激活函数tanh与其他模态嵌入的关联表示进行补充,并将补充过后的双模态特征向量进行拼接,将其与双模态条件向量进行矩阵相乘,结果作为Softmax函数输入得到双模态交互注意力矩阵;将双模态交互注意力矩阵与被补充过的双模态特征拼接,将其作为全连接层的输入得到模态间交互特征和模态内部特征,最后输入至Softmax进行分类。本发明利用多模态特征融合算法对不同模态的用户特征合并融合,建立起不同模态间的交互关系,减少了抽取的噪声。

Description

基于多模态的冷链配载用户画像标签抽取方法及装置
技术领域
本发明涉及用户画像和多模态融合技术领域,具体涉及一种基于多模态的冷链配载用户画像标签抽取方法及装置。
背景技术
近年来,用户画像已成为世界各国研究的特点,正日益引起业界、学术界的广泛关注,更重要的是,它还是众多应用的关键技术之一。
在现有的用户画像建模技术中,对如何融合多个数据源或模态,以便获得更精确的用户画像的研究相当有限,并且存在如下不足:1、部分用户画像研究工作仅就单一的模态进行研究,难以全面地刻画其特征;2、简单易行的整合方法是在信息输入时直接将多种模态特征向量进行拼接,但是这种方法忽略了不同模态特征的语义差异,没有建立起不同模态间的交互关系,并且存在较大噪声干扰。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于多模态的冷链配载用户画像标签抽取方法及装置,利用多模态特征融合算法对不同模态的用户特征合并融合,建立起不同模态间的交互关系,减少了用户画像标签抽取的噪声。
技术方案:本发明提供了一种基于多模态的冷链配载用户画像标签抽取方法,包括如下步骤:
步骤1:输入原始的冷链配载数据集D1,对数据集进行去重、去空,清洗后得到样本集D2;
步骤2:使用K-means对样本集D2进行聚类,得到N个聚类点簇,进而将聚类后的样本集D2打上标签;
步骤3:将带标签的文本样本集作为BERT模型的输入,得到特征向量T1,将得到的特征向量T1传入长短期记忆网络进一步提取特征,得到文本特征向量T2;
步骤4:使用YOLO提取冷链配载图的特征R1,并使用激活函数将其转为特征向量,将提取的双模态特征向量使用激活函数tanh与其他模态嵌入的关联表示进行补充,同时,将被补充过后的文本特征向量与图片特征向量进行拼接得到双模态特征向量,然后将补充后的双模态条件向量进行矩阵相乘,得到跨模态联合矩阵,最后使用Softmax函数得到双模态交互注意力矩阵Bim;
步骤5:将双模态交互注意力矩阵Bim与被补充过的双模态特征向量拼接,将其作为全连接层的输入得到双模态特征表示,最后输入至Softmax进行分类,最终获得模型的标签抽取。
进一步地,所述步骤3具体方法为:
步骤3.1:通过处理步骤2中打上标签的样本集D4,将待处理文本内容dc固定为统一长度Lmax
步骤3.2:定义循环变量i,且i赋初值为1;
步骤3.3:如果i≤len(T)则跳转到步骤3.4,否则跳转到步骤3.7;
步骤3.4:定义len(Ti)为文本中第i个文本信息的长度,如果len(Ti)+2≤Lmax则补0后跳转下一步,否则截取文本前Lmax个单位,跳转下一步;
步骤3.5:建立预训练模型BERT,将样本集传入BERT模型中,获取文本的特征向量T1;
步骤3.6:i=i+1,跳转到步骤3.3;
步骤3.7:结束循环,输出全部特征向量序列T1={T1,T2,...,Td,…,Tlen(T)}。
步骤3.8:构建长短期记忆网络,传入特征向量序列T1;
步骤3.9:定义循环变量j和最大时刻M,且j赋初值为1;
步骤3.10:如果j≤M则跳转到步骤3.11,否则跳转到步骤3.13;
步骤3.11:使用长短期记忆网络计算当前时刻的输出结果为ht
步骤3.12:j=j+1,跳转到步骤3.10;
步骤3.13:结束循环,得到全部时刻的输出向量T2={h1,h2,...,ht,...,hM}。
进一步地,所述步骤4的具体方法为:
步骤4.1:将步骤2中经过预处理后的图片数据作为YOLO模型的输入;
步骤4.2:得到提取后的图片数据的特征R1;
步骤4.3:将得到的特征R1映射到其语义空间中,得到图片特征向量R2R2=tanh(WtR1+bR1),其中,Wt为激活函数tanh的权重,bR1为激活函数tanh的偏置;
步骤4.4:将文本特征向量T2和图片特征向量R2交互,使用激活函数tanh进行转换表示补充;
步骤4.5:T2经R2补充过后得到T3,计算公式为T3=tanh(UT2T2+WrtUT2T2),UT2为隐藏文本对应的转换矩阵,Wrt为相应两模态的映射的权重矩阵;
步骤4.6:R2经T2补充过后得到R3,计算公式为R3=tanh(UR2R2+WrtUR2R2),UR2为隐藏关系对应的转换矩阵;
步骤4.7:将文本特征向量T3和图片特征向量R3进行拼接,并通过一个全连接层捕捉模态间交互特征F1,即
Figure BDA0003392209940000033
W1为激活函数ReLU的权重,b1为激活函数ReLU的偏置;
步骤4.8:将交互特征F1在激活函数Sigmoid的作用下生成条件向量S,计算公式为S=Sigmoid(F1);
步骤4.9:将条件向量S与交互后的T3结合得到文本条件向量N1,计算公式为N1=T3⊙S;
步骤4.10:将条件向量S与交互后的R3结合得到图片条件向量N2,计算公式为N2=R3⊙S;
步骤4.11:将两种模态的条件向量N1和N2进行矩阵乘法计算,得到跨模态联合矩阵O,计算公式为O=N1·N2;
步骤4.12:如果循环变量k≤单模态特征维度u,跳转到下一步,否则跳转到步骤4.15;
步骤4.13:使用Softmax函数计算出跨模态联合矩阵的概率a,计算公式为
Figure BDA0003392209940000031
步骤4.14:k=k+1,跳转到步骤4.12;
步骤4.15:将双模态交互特征F1乘概率a,得到双模态交互注意力矩阵Bim,计算公式为Bim=a·F1。
进一步地,所述步骤5具体方法为:
步骤5.1:将得到的双模态交互注意力矩阵Bim与被补充过的文本特征T3和被补充过的图片特征R3拼接,即
Figure BDA0003392209940000032
步骤5.2:使用全连接层整合得到的双模态融合特征C1,计算公式为F2=ReLU(WRC1+bR),其中,F2∈Ru×d,F2为双模态特征表示,WR为激活函数ReLU的权重,bR为激活函数ReLU的偏置;
步骤5.3:将双模态特征表示F2输入至Softmax进行分类,得到最终分类结果C2;
步骤5.4:将分类结果C2作为最终标签抽取的结果,完成冷链配载用户画像的标签抽取。
进一步地,所述步骤1中的具体方法为:
步骤1.1:定义Data为单个待清洗数据,定义id,content分别为数据的序号和内容,并且满足关系Data={id,content};
步骤1.2:定义D1为待清洗数据集,D1={Data1,Data2,...,Dataa,...,Datalen(D1)},Dataa为D1中第a个待清洗信息数据,其中,len(D1)为D1中数据数量,变量a∈[1,len(D1)];
步骤1.3:数据集D1中的数据进行去重和去空操作;
步骤1.4:得到清洗后的数据集D2={D1,D2,...,Db,...,Dlen(D2)},Db为D2中第b个待处理信息数据,其中,len(D2)为D2中数量,变量b∈[1,len(D2)]。
进一步地,所述步骤2中的具体方法为:
步骤2.1:定义D2={D1,D2,…,Db,…,Dlen(D2)}为待聚类冷链配载数据集,Db为D2中第b个待处理信息数据;
步骤2.2:使用K-means对数据集D2进行聚类,得到N个聚类点簇;
步骤2.3:定义D3为聚类后的冷链配载数据集,D3={data1,data2,data3,…,dataN},其中dataN为第N个冷链配载点簇数据集;
步骤2.4:将数据集D3中的N个冷链配载点簇为冷链配载数据集打上标签得到样本集D4,D4={d1,d2,d3,…,dc,…,dN},其中dc={label,datac}。
本发明还公开一种基于多模态的冷链配载用户画像标签抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现上述基于多模态的冷链配载用户画像标签抽取方法。
有益效果:
1、本发明将用户画像建模技术中仅对单一模态研究拓展到多模态特征融合,可以通过两种模态一起提取特征,挖掘不同模态样本之间的关系,分析和处理不同模态数据的模型来为用户画像提供更多的有效信息,以便更加全面地抽取用户特征,获得更精确的用户画像。
2、本发明前期在提取文本特征和图片特征时使用BERT模型及YOLO算法,可以做到准确且快速的提取文本与图片的特征向量;首先,在特征融合前,进行各模态之间第一次相互交互补充,分别补充与其他转换过的模态嵌入的关联表示,其中包含与其他模态对应的交互信息,使得不同模态的特征产生深入交互,交互后得到的特征表示不仅包含来自其他模态特征的融合信息,但每种表示仍然有独特的聚焦点。例如,T3主要是文本表示,同时包含附加的图片特征信息,有助于各模态融合彼此的互补信息。
3、本发明进行各模态之间第二次交互,使用条件向量约束每个模态内部的相似程度,将两种模态的条件向量进行矩阵乘法计算,得到跨模态联合矩阵,这种做法可以强化与模态间重要交互特征的关联,弱化与次要交互特征的关联,深度探索不同模态之间的交互性。
4、本发明采用一种全局自注意力机制对得到的双模态交互注意力矩阵的融合信息进行筛选,这种做法可以减少其特征维度,大大减少模型的空间复杂度,最后得到信息过滤后的双模态交互注意力矩阵。
附图说明
图1为本发明整体流程图;
图2为本发明BERT模型训练特征向量及LSTM进一步提取文本特征向量流程图;
图3为本发明多模态特征融合流程图;
图4为本发明融合后特征输入至Softmax分类流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明公开了一种基于多模态的冷链配载用户画像标签抽取方法及装置,该基于多模态的冷链配载用户画像标签抽取方法包括如下步骤:
步骤1:输入原始的冷链配载数据集D1,对数据集进行去重、去空,清洗后得到样本集D2:
步骤1.1:定义Data为单个待清洗数据,定义id,content分别为数据的序号和内容,并且满足关系Data={id,content};
步骤1.2:定义D1为待清洗数据集,D1={Data1,Data2,…,Dataa,…,Datalen(D1)},Dataa为D1中第a个待清洗信息数据,其中,len(D1)为D1中数据数量,变量a∈[1,len(D1)];
步骤1.3:数据集D1中的数据进行去重和去空操作;
步骤1.4:得到清洗后的数据集D2={D1,D2,…,Db,…,Dlen(D2)},Db为D2中第b个待处理信息数据,其中,len(D2)为D2中数量,变量b∈[1,len(D2)]。
步骤2:使用K-means对样本集D2进行聚类,得到N个聚类点簇,进而将聚类后的样本集D2打上标签:
步骤2.1:使用K-means对数据集D2进行聚类,得到N个聚类点簇;
步骤2.2:定义D3为聚类后的冷链配载数据集,D3={data1,data2,data3,…,dataN},其中dataN为第N个冷链配载点簇数据集;
步骤2.3:将数据集D3中的N个冷链配载点簇为冷链配载数据集打上标签得到样本集D4,D4={d1,d2,d3,…,dc,…,dN},其中dc={label,datac}。
步骤3:将带标签的文本样本集D4作为BERT模型的输入,得到特征向量T1,将得到的特征向量传入长短期记忆网络进一步提取特征,具体的如图2所示:
步骤3.1:通过处理样本集D4,将待处理文本内容dc固定为统一长度Lmax
步骤3.2:定义循环变量i,且i赋初值为1;
步骤3.3:如果i≤len(T)则跳转到步骤3.4,否则跳转到步骤3.7;
步骤3.4:定义len(Ti)为文本中第i个文本信息的长度,如果len(Ti)+2≤Lmax则补0后跳转下一步,否则截取文本前Lmax个单位,跳转下一步;
步骤3.5:建立预训练模型BERT,将样本集传入BERT模型中,获取文本的特征向量T1;
步骤3.6:i=i+1,跳转到步骤3.3;
步骤3.7:结束循环,输出全部特征向量序列T1={T1,T2,...,Td,…,Tlen(T)};
步骤3.8:构建长短期记忆网络,传入特征向量序列T1;
步骤3.9:定义循环变量j和最大时刻M,且j赋初值为1;
步骤3.10:如果j≤M则跳转到步骤3.11,否则跳转到步骤3.13;
步骤3.11:使用长短期记忆网络计算当前时刻的输出结果为ht
步骤3.12:j=j+1,跳转到步骤3.10;
步骤3.13:结束循环,得到全部时刻的输出向量T2={h1,h2,...,ht,...,hM}。
步骤4:使用YOLO提取冷链配载图的特征R1,并使用激活函数将其转为特征向量,将提取的双模态特征向量使用激活函数tanh与其他模态嵌入的关联表示进行补充,同时,将被补充过后的文本特征向量与图片特征向量进行拼接得到双模态特征向量,然后将补充后的双模态条件向量进行矩阵相乘,得到跨模态联合矩阵,最后使用Softmax函数得到双模态交互注意力矩阵Bim,具体的如图3所示:
步骤4.1:将预处理后的图片数据作为YOLO模型的输入;
步骤4.2:得到提取后的图片数据的特征R1;
步骤4.3:将得到的特征R1映射到其语义空间中,得到图片的特征向量,计算公式为R2=tanh(WtR1+bR1),其中,Wt为激活函数tanh的权重,bR1为激活函数tanh的偏置;
步骤4.4:将文本特征向量T2和图片特征向量R2交互,使用激活函数tanh进行转换表示补充;
步骤4.5:T2经R2补充过后得到T3,计算公式为T3=tanh(UT2T2+WrtUT2T2),UT2为隐藏文本对应的转换矩阵,Wrt为相应两模态的映射的权重矩阵;
步骤4.6:R2经T2补充过后得到R3,计算公式为R3=tanh(UR2R2+WrtUR2R2),UR2为隐藏关系对应的转换矩阵;
步骤4.7:将文本特征向量T3和图片特征向量R3进行拼接,并通过一个全连接层捕捉模态间交互特征F1,即F1=ReLU(W1(T3⊕R3)+b1),W1为激活函数ReLU的权重,b1为激活函数ReLU的偏置;
步骤4.8:将交互特征F1在激活函数Sigmoid的作用下生成条件向量S,用于约束每个模态内部的相似程度,计算公式为S=Sigmoid(F1);
步骤4.9:将条件向量S与交互后的T3结合得到文本条件向量N1,计算公式为N1=T3⊙S;
步骤4.10:将条件向量S与交互后的R3结合得到图片条件向量N2,计算公式为N2=R3⊙S;
步骤4.11:将两种模态的条件向量N1和N2进行矩阵乘法计算,得到跨模态联合矩阵O,计算公式为O=N1·N2;
步骤4.12:如果循环变量k≤单模态特征维度u,跳转到下一步,否则跳转到步骤4.15;
步骤4.13:使用Softmax函数计算出跨模态联合矩阵的概率a,计算公式为
Figure BDA0003392209940000071
步骤4.14:k=k+1,跳转到步骤4.12;
步骤4.15:将双模态交互特征F1乘概率a,得到双模态交互注意力矩阵Bim,以提升权重方式来强化信息比重,计算公式为Bim=a·F1。
步骤5:将双模态交互注意力矩阵Bim与被补充过的双模态特征拼接,将其作为全连接层的输入得到双模态特征表示,最后输入至Softmax进行分类,最终获得模型最终的标签抽取,具体的如图4所示:
步骤5.1:将得到的双模态交互注意力矩阵与被补充过的文本特征T3和图片特征R3拼接,即
Figure BDA0003392209940000072
步骤5.2:使用全连接层整合得到的双模态融合特征C1,计算公式为F2=ReLU(WRC1+bR),其中,F2∈Ru×d,F2为模态间交互特征,WR为激活函数ReLU的权重,bR为激活函数ReLU的偏置;
步骤5.3:将F2输入至Softmax进行分类,计算公式为C2=Softmax(F2);
步骤5.4:将分类结果作为最终标签抽取的结果,完成冷链配载用户画像的标签抽取;
步骤5.5:将模型保存封装,作为多模态用户画像的标签抽取方法。
上述实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于多模态的冷链配载用户画像标签抽取方法,其特征在于,包括如下步骤:
步骤1:输入原始的冷链配载数据集D1,对数据集进行去重、去空,清洗后得到样本集D2;
步骤2:使用K-means对样本集D2进行聚类,得到N个聚类点簇,进而将聚类后的样本集D2打上标签;
步骤3:将带标签的文本样本集作为BERT模型的输入,得到特征向量T1,将得到的特征向量T1传入长短期记忆网络进一步提取特征,得到文本特征向量T2;
步骤4:使用YOLO提取冷链配载图的特征R1,并使用激活函数将其转为特征向量,将提取的双模态特征向量使用激活函数tanh与其他模态嵌入的关联表示进行补充,同时,将被补充过后的文本特征向量与图片特征向量进行拼接得到双模态特征向量,然后将补充后的双模态条件向量进行矩阵相乘,得到跨模态联合矩阵,最后使用Softmax函数得到双模态交互注意力矩阵Bim;
步骤5:将双模态交互注意力矩阵Bim与被补充过的双模态特征向量拼接,将其作为全连接层的输入得到双模态特征表示,最后输入至Softmax进行分类,最终获得模型的标签抽取。
2.根据权利要求1所述的基于多模态的冷链配载用户画像标签抽取方法,其特征在于,所述步骤3具体方法为:
步骤3.1:通过处理步骤2中打上标签的样本集D4,将待处理文本内容dc固定为统一长度Lmax
步骤3.2:定义循环变量i,且i赋初值为1;
步骤3.3:如果i≤len(T)则跳转到步骤3.4,否则跳转到步骤3.7;
步骤3.4:定义len(Ti)为文本中第i个文本信息的长度,如果len(Ti)+2≤Lmax则补0后跳转下一步,否则截取文本前Lmax个单位,跳转下一步;
步骤3.5:建立预训练模型BERT,将样本集传入BERT模型中,获取文本的特征向量T1;
步骤3.6:i=i+1,跳转到步骤3.3;
步骤3.7:结束循环,输出全部特征向量序列T1={T1,T2,...,Td,…,Tlen(T)}。
步骤3.8:构建长短期记忆网络,传入特征向量序列T1;
步骤3.9:定义循环变量j和最大时刻M,且j赋初值为1;
步骤3.10:如果j≤M则跳转到步骤3.11,否则跳转到步骤3.13;
步骤3.11:使用长短期记忆网络计算当前时刻的输出结果为ht
步骤3.12:j=j+1,跳转到步骤3.10;
步骤3.13:结束循环,得到全部时刻的输出向量T2={h1,h2,...,ht,...,hM}。
3.根据权利要求1所述的基于多模态的冷链配载用户画像标签抽取方法,其特征在于,所述步骤4的具体方法为:
步骤4.1:将步骤2中经过预处理后的图片数据作为YOLO模型的输入;
步骤4.2:得到提取后的图片数据的特征R1;
步骤4.3:将得到的特征R1映射到其语义空间中,得到图片特征向量R2R2=tanh(WtR1+bR1),其中,Wt为激活函数tanh的权重,bR1为激活函数tanh的偏置;
步骤4.4:将文本特征向量T2和图片特征向量R2交互,使用激活函数tanh进行转换表示补充;
步骤4.5:T2经R2补充过后得到T3,计算公式为T3=tanh(UT2T2+WrtUT2T2),UT2为隐藏文本对应的转换矩阵,Wrt为相应两模态的映射的权重矩阵;
步骤4.6:R2经T2补充过后得到R3,计算公式为R3=tanh(UR2R2+WrtUR2R2),UR2为隐藏关系对应的转换矩阵;
步骤4.7:将文本特征向量T3和图片特征向量R3进行拼接,并通过一个全连接层捕捉模态间交互特征F1,即F1=ReLU(W1(T3⊕R3)+b1),W1为激活函数ReLU的权重,b1为激活函数ReLU的偏置;
步骤4.8:将交互特征F1在激活函数Sigmoid的作用下生成条件向量S,计算公式为S=Sigmoid(F1);
步骤4.9:将条件向量S与交互后的T3结合得到文本条件向量N1,计算公式为N1=T3⊙S;
步骤4.10:将条件向量S与交互后的R3结合得到图片条件向量N2,计算公式为N2=R3⊙S;
步骤4.11:将两种模态的条件向量N1和N2进行矩阵乘法计算,得到跨模态联合矩阵O,计算公式为O=N1·N2;
步骤4.12:如果循环变量k≤单模态特征维度u,跳转到下一步,否则跳转到步骤4.15;
步骤4.13:使用Softmax函数计算出跨模态联合矩阵的概率a,计算公式为
Figure FDA0003392209930000031
步骤4.14:k=k+1,跳转到步骤4.12;
步骤4.15:将双模态交互特征F1乘概率a,得到双模态交互注意力矩阵Bim,计算公式为Bim=a·F1。
4.根据权利要求3所述的基于多模态的冷链配载用户画像标签抽取方法,其特征在于,所述步骤5具体方法为:
步骤5.1:将得到的双模态交互注意力矩阵Bim与被补充过的文本特征T3和被补充过的图片特征R3拼接,即C1=Bim⊕T3⊕R3;
步骤5.2:使用全连接层整合得到的双模态融合特征C1,计算公式为F2=ReLU(WRC1+bR),其中,F2∈Ru×d,F2为双模态特征表示,WR为激活函数ReLU的权重,bR为激活函数ReLU的偏置;
步骤5.3:将双模态特征表示F2输入至Softmax进行分类,得到最终分类结果C2;
步骤5.4:将分类结果C2作为最终标签抽取的结果,完成冷链配载用户画像的标签抽取。
5.一种基于多模态的冷链配载用户画像标签抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1-4任一项所述的基于多模态的冷链配载用户画像标签抽取方法。
CN202111471016.7A 2021-12-03 2021-12-03 基于多模态的冷链配载用户画像标签抽取方法及装置 Active CN114218380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111471016.7A CN114218380B (zh) 2021-12-03 2021-12-03 基于多模态的冷链配载用户画像标签抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111471016.7A CN114218380B (zh) 2021-12-03 2021-12-03 基于多模态的冷链配载用户画像标签抽取方法及装置

Publications (2)

Publication Number Publication Date
CN114218380A true CN114218380A (zh) 2022-03-22
CN114218380B CN114218380B (zh) 2022-07-29

Family

ID=80699671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111471016.7A Active CN114218380B (zh) 2021-12-03 2021-12-03 基于多模态的冷链配载用户画像标签抽取方法及装置

Country Status (1)

Country Link
CN (1) CN114218380B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970775A (zh) * 2022-07-29 2022-08-30 国家国防科技工业局军工项目审核中心 基于聚类的军工集团人员信息标签化方法
CN115600945A (zh) * 2022-09-07 2023-01-13 淮阴工学院(Cn) 基于多粒度的冷链配载用户画像构建方法及装置
CN117292443A (zh) * 2023-09-25 2023-12-26 杭州名光微电子科技有限公司 一种融合人脸和掌静脉的多模态识别系统及其方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190057778A1 (en) * 2017-08-16 2019-02-21 The Johns Hopkins University Abnormal Tissue Detection Via Modal Upstream Data Fusion
WO2020042597A1 (zh) * 2018-08-31 2020-03-05 深圳大学 一种跨模态检索方法及系统
US20200279156A1 (en) * 2017-10-09 2020-09-03 Intel Corporation Feature fusion for multi-modal machine learning analysis
CN112069408A (zh) * 2020-06-15 2020-12-11 北京理工大学 一种融合关系抽取的推荐系统及方法
CN112101028A (zh) * 2020-08-17 2020-12-18 淮阴工学院 一种多特征双向门控领域专家实体抽取方法及系统
US20210081671A1 (en) * 2019-09-12 2021-03-18 Beijing Xiaomi Mobile Software Co., Ltd. Video processing method and device, and storage medium
CN112580332A (zh) * 2020-11-19 2021-03-30 淮阴工学院 一种基于标签分层延深建模的企业画像方法
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型
CN112800875A (zh) * 2021-01-14 2021-05-14 北京理工大学 一种混合特征融合和决策融合的多模态情感识别方法
CN112860888A (zh) * 2021-01-26 2021-05-28 中山大学 一种基于注意力机制的双模态情感分析方法
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法
CN113051914A (zh) * 2021-04-09 2021-06-29 淮阴工学院 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113095357A (zh) * 2021-03-04 2021-07-09 山东大学 基于注意力机制与gmn的多模态情感识别方法及系统
WO2021164199A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN113343974A (zh) * 2021-07-06 2021-09-03 国网天津市电力公司 考虑模态间语义距离度量的多模态融合分类优化方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190057778A1 (en) * 2017-08-16 2019-02-21 The Johns Hopkins University Abnormal Tissue Detection Via Modal Upstream Data Fusion
US20200279156A1 (en) * 2017-10-09 2020-09-03 Intel Corporation Feature fusion for multi-modal machine learning analysis
WO2020042597A1 (zh) * 2018-08-31 2020-03-05 深圳大学 一种跨模态检索方法及系统
US20210081671A1 (en) * 2019-09-12 2021-03-18 Beijing Xiaomi Mobile Software Co., Ltd. Video processing method and device, and storage medium
WO2021164199A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN112069408A (zh) * 2020-06-15 2020-12-11 北京理工大学 一种融合关系抽取的推荐系统及方法
CN112101028A (zh) * 2020-08-17 2020-12-18 淮阴工学院 一种多特征双向门控领域专家实体抽取方法及系统
CN112580332A (zh) * 2020-11-19 2021-03-30 淮阴工学院 一种基于标签分层延深建模的企业画像方法
CN112732916A (zh) * 2021-01-11 2021-04-30 河北工业大学 一种基于bert的多特征融合模糊文本分类模型
CN112800875A (zh) * 2021-01-14 2021-05-14 北京理工大学 一种混合特征融合和决策融合的多模态情感识别方法
CN112860888A (zh) * 2021-01-26 2021-05-28 中山大学 一种基于注意力机制的双模态情感分析方法
CN113095357A (zh) * 2021-03-04 2021-07-09 山东大学 基于注意力机制与gmn的多模态情感识别方法及系统
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法
CN113051914A (zh) * 2021-04-09 2021-06-29 淮阴工学院 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113343974A (zh) * 2021-07-06 2021-09-03 国网天津市电力公司 考虑模态间语义距离度量的多模态融合分类优化方法

Non-Patent Citations (14)

* Cited by examiner, † Cited by third party
Title
JINGBIN WANG ET AL.: "Supervised Cross-Modal Factor Analysis for Multiple Modal Data Classification", 《2015 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN, AND CYBERNETICS》 *
JINGBIN WANG ET AL.: "Supervised Cross-Modal Factor Analysis for Multiple Modal Data Classification", 《2015 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS, MAN, AND CYBERNETICS》, 14 January 2016 (2016-01-14), pages 1882 - 1888 *
SONG BAOLIN ET AL: "A Bimodal Biometric Verification System Based on Deep Learning", 《INTERNATIONAL CONFERENCE ON VIDEO AND IMAGE PROCESSING (ICVIP)》 *
SONG BAOLIN ET AL: "A Bimodal Biometric Verification System Based on Deep Learning", 《INTERNATIONAL CONFERENCE ON VIDEO AND IMAGE PROCESSING (ICVIP)》, 1 January 2017 (2017-01-01), pages 89 - 93 *
SREYASEE DAS BHATTACHARJEE ET AL.: "Multimodal, Context-Aware, Feature Representation Learning for Classification and Localization", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)》 *
SREYASEE DAS BHATTACHARJEE ET AL.: "Multimodal, Context-Aware, Feature Representation Learning for Classification and Localization", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)》, 24 February 2020 (2020-02-24), pages 1034 - 1039 *
刘心惠等: "基于联合模型的多标签文本分类研究", 《计算机工程与应用》, vol. 56, no. 14, 31 July 2020 (2020-07-31), pages 111 - 117 *
包广斌 等: "面向多模态情感分析的双模态交互注意力", 《计算机科学与探索》, 5 August 2021 (2021-08-05), pages 1 - 11 *
吴晓雨等: "多模态特征融合与多任务学习的特种视频分类", 《光学精密工程》 *
吴晓雨等: "多模态特征融合与多任务学习的特种视频分类", 《光学精密工程》, no. 05, 13 May 2020 (2020-05-13), pages 1177 - 1186 *
张壮 等: "基于多模态融合技术的用户画像方法", 《北京大学学报(自然科学版)》, 29 February 2020 (2020-02-29), pages 105 - 111 *
张壮等: "基于多模态融合技术的用户画像方法", 《北京大学学报(自然科学版)》 *
张壮等: "基于多模态融合技术的用户画像方法", 《北京大学学报(自然科学版)》, no. 01, 26 September 2019 (2019-09-26), pages 105 - 111 *
郝志峰等: "基于多特征融合与双向RNN的细粒度意见分析", 《计算机工程》, vol. 44, no. 07, 15 July 2018 (2018-07-15), pages 199 - 204 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970775A (zh) * 2022-07-29 2022-08-30 国家国防科技工业局军工项目审核中心 基于聚类的军工集团人员信息标签化方法
CN115600945A (zh) * 2022-09-07 2023-01-13 淮阴工学院(Cn) 基于多粒度的冷链配载用户画像构建方法及装置
CN117292443A (zh) * 2023-09-25 2023-12-26 杭州名光微电子科技有限公司 一种融合人脸和掌静脉的多模态识别系统及其方法
CN117292443B (zh) * 2023-09-25 2024-06-07 杭州名光微电子科技有限公司 一种融合人脸和掌静脉的多模态识别系统及其方法

Also Published As

Publication number Publication date
CN114218380B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN114218380B (zh) 基于多模态的冷链配载用户画像标签抽取方法及装置
CN113761936B (zh) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
KR102532152B1 (ko) 멀티 모달 콘텐츠 처리 방법, 장치, 기기 및 저장 매체
CN110489395B (zh) 自动获取多源异构数据知识的方法
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
CN110569359B (zh) 识别模型的训练及应用方法、装置、计算设备及存储介质
CN110516530A (zh) 一种基于非对齐多视图特征增强的图像描述方法
Zhang et al. A survey on machine learning techniques for auto labeling of video, audio, and text data
CN111522936B (zh) 一种包含情感的智能客服对话回复生成方法、装置及电子设备
WO2024045641A1 (zh) 图像标注方法及装置
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113035311A (zh) 一种基于多模态注意力机制的医学图像报告自动生成方法
KR20220047228A (ko) 이미지 분류 모델 생성 방법 및 장치, 전자 기기, 저장 매체, 컴퓨터 프로그램, 노변 장치 및 클라우드 제어 플랫폼
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
Li et al. Intention understanding in human–robot interaction based on visual-NLP semantics
CN113128237A (zh) 一种服务资源的语义表征模型构建方法
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN115130591A (zh) 一种基于交叉监督的多模态数据分类方法及装置
He et al. Deep learning in natural language generation from images
US8214310B2 (en) Cross descriptor learning system, method and program product therefor
CN114913590A (zh) 一种数据的情感识别方法、装置、设备及可读存储介质
CN117635275B (zh) 基于大数据的智能电商运营商品管理平台及方法
CN114676705B (zh) 一种对话关系处理方法、计算机及可读存储介质
Dahikar et al. Sketch captioning using LSTM and BiLSTM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230508

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 223400 8th floor, Anton building, 10 Haian Road, Lianshui, Huaian, Jiangsu

Patentee before: HUAIYIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right