CN116737996A - 基于多编码器的多模态视频检索方法、装置、设备及介质 - Google Patents

基于多编码器的多模态视频检索方法、装置、设备及介质 Download PDF

Info

Publication number
CN116737996A
CN116737996A CN202310708762.6A CN202310708762A CN116737996A CN 116737996 A CN116737996 A CN 116737996A CN 202310708762 A CN202310708762 A CN 202310708762A CN 116737996 A CN116737996 A CN 116737996A
Authority
CN
China
Prior art keywords
feature
video
vector
text
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310708762.6A
Other languages
English (en)
Inventor
唐小初
苏童
舒畅
陈又新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310708762.6A priority Critical patent/CN116737996A/zh
Publication of CN116737996A publication Critical patent/CN116737996A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及视频检索技术,揭露了一种基于多编码器的多模态视频检索方法,可用于医疗教育视频的检索。所述方法包括:获取待检索视频,对所述待检索视频进行特征提取,得到多个模态特征;将多个所述模态特征进行特征维度对齐处理,得到对齐的特征序列;将所述对齐的特征序列进行池化处理,得到待检索视频的索引向量;获取查询文本,对所述查询文本进行向量计算,得到文本特征向量;将所述文本特征向量与所述待检测视频的索引向量进行相似度计算,根据相似度计算结果得到视频检索结果。本发明还提出一种基于多编码器的多模态视频检索装置、设备以及介质。本发明可以提高医疗教育等视频检索的准确率。

Description

基于多编码器的多模态视频检索方法、装置、设备及介质
技术领域
本发明涉及视频检索技术领域,尤其涉及一种基于多编码器的多模态视频检索方法、装置、设备及介质。
背景技术
当前,随着科学技术水平的发展,医疗教育视频逐渐出现在各大视频平台,在生活中给人们提供医疗帮助,医疗教育视频不仅能够捕获动态事件而且能够同时提供图像、声音、动作等信息,灵活性高,包含的医疗信息内容丰富。当用户在线寻找自己感兴趣的医疗教育视频内容时,大多数是通过输入几个关键词或一段简单的文字描述,以此来寻找自己想要的内容,因此如何有效地通过文字检索、访问庞大的医疗视频资源成为一个亟待解决问题。
传统的检索方式主要通过人工对视频进行标记,再根据内容打上合适的标题标签或内容描述,但是这种标题标签或内容描述信息无法完整概括视频内容,甚至在某些时候会出现信息缺失的情况,如视频作者自己并未添加描述信息,或者视频内容来自于网络其他来源,这种依赖“硬标签”的检索方式并不能精确地完成检索任务。综上所述,现有技术中存在医疗教育视频检索准确率较低的问题。
发明内容
本发明提供一种基于多编码器的多模态视频检索方法、装置、设备及介质,其主要目的在于解决医疗教育视频检索准确率较低的问题。
为实现上述目的,本发明提供的一种基于多编码器的多模态视频检索方法,包括:
获取待检索视频,对所述待检索视频进行特征提取,得到多个模态特征;
将多个所述模态特征进行特征维度对齐处理,得到对齐的特征序列;
将所述对齐的特征序列进行池化处理,得到待检索视频的索引向量;
获取查询文本,对所述查询文本进行向量计算,得到文本特征向量;
将所述文本特征向量与所述待检测视频的索引向量进行相似度计算,根据相似度计算结果得到视频检索结果。
可选地,所述将多个所述模态特征进行特征维度对齐处理,得到对齐的特征序列,包括:
对多个所述模态特征进行特征维度调整,得到固定维度的模态特征;
对所述固定维度的模态特征进行随机抽取,得到多个连续特征序列;
分别将多个所述连续特征序列的长度与预设的固定长度进行比较,得到长度比较结果;
根据所述长度比较结果对多个所述连续特征序列进行特征填充,得到对齐的特征序列。
可选地,所述对所述待检索视频进行特征提取,得到多个模态特征,包括:
对所述待检索视频进行实体识别,得到多类模态信息;
分别对多类所述模态信息进行特征计算,得到多个模态特征。
可选地,所述将所述对齐的特征序列进行池化处理,得到待检索视频的索引向量,包括:
将所述对齐的特征序列输入到预设的序列编码器中进行下采样处理,得到多个低维特征序列;
计算多个所述低维特征序列中的元素均值,得到平均池化特征序列;
对所述对齐的特征序列与所述平均池化特征序列进行求和计算,得到多个单一特征向量;
将多个所述单一特征向量进行向量拼接,得到待检索视频的索引向量。
可选地,所述对所述查询文本进行向量计算,得到文本特征向量,包括:
将所述查询文本输入到预设的文本编码器中进行特征编码,得到文本特征编码向量;
将所述文本特征编码向量进行维度对齐,得到文本特征向量。
可选地,所述将所述查询文本输入到预设的文本编码器中进行特征编码,得到文本特征编码向量,包括:
将所述查询文本进行向量嵌入,得到文本嵌入向量;
将所述文本嵌入向量进行随机掩码,得到文本特征编码向量。
可选地,所述将所述文本特征向量与所述待检测视频的索引向量进行相似度计算,包括:
利用下式进行相似度计算:
其中,表示为所述文本特征向量;/>表示为所述待检测视频的索引向量;/>表示为所述文本特征向量以及所述待检测视频的索引向量的相似度计算结果。
为了解决上述问题,本发明还提供一种基于多编码器的多模态视频检索装置,所述装置包括:
特征提取模块,用于获取待检索视频,对所述待检索视频进行特征提取,得到多个模态特征;
维度对齐模块,用于将多个所述模态特征进行特征维度对齐处理,得到对齐的特征序列;
池化处理模块,用于将所述对齐的特征序列进行池化处理,得到待检索视频的索引向量;
文本向量计算模块,用于获取查询文本,对所述查询文本进行向量计算,得到文本特征向量;
相似度计算模块,用于将所述文本特征向量与所述待检测视频的索引向量进行相似度计算,根据相似度计算结果得到视频检索结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的基于多编码器的多模态视频检索方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于多编码器的多模态视频检索方法。
本发明实施例将多个模态特征进行特征维度对齐处理,得到对齐的特征序列,让全局具有固定特征维度的模态特征,提高了特征提取的准确率;将对齐的特征序列进行池化处理,得到待检索视频的索引向量,能降低特征序列的维度,便于同文本特征向量进行相似度计算;根据用户所输入的查询文本,将文本特征向量与待检测视频的索引向量进行相似度计算,根据相似度计算结果自动地匹配相关度较高的视频,完成了视频的自动化索引及检索,提高了视频检索流程的效率。因此本发明提出的基于多编码器的多模态视频检索方法、装置、电子设备及计算机可读存储介质,可以解决进行医疗教育视频检索时准确率较低的问题。
附图说明
图1为本发明一实施例提供的基于多编码器的多模态视频检索方法的流程示意图;
图2为本发明一实施例提供的所述将多个所述模态特征进行特征维度对齐处理,得到对齐的特征序列的流程示意图;
图3为本发明一实施例提供的所述将所述对齐的特征序列进行池化处理,得到待检索视频的索引向量的流程示意图;
图4为本发明一实施例提供的基于多编码器的多模态视频检索装置的功能模块图;
图5为本发明一实施例提供的实现所述基于多编码器的多模态视频检索方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于多编码器的多模态视频检索方法。所述基于多编码器的多模态视频检索方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于多编码器的多模态视频检索方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的基于多编码器的多模态视频检索方法的流程示意图。在本实施例中,所述基于多编码器的多模态视频检索方法包括:
S1、获取待检索视频,对所述待检索视频进行特征提取,得到多个模态特征;
本发明实施例中,所述待检索视频是由视频创作者上传的原始医疗教育视频。
本发明实施例中,所述对所述待检索视频进行特征提取,得到多个模态特征,包括:
对所述待检索视频进行实体识别,得到多类模态信息;
分别对多类所述模态信息进行特征计算,得到多个模态特征。
本发明实施例中,实体识别是从所述待检索视频中识别出实体,并为之添加相应的标注信息,该标注信息及为模态信息;所述模态信息包括静态医疗图像信息、动态时序类信息、医疗物体类别信息以及医疗音频信息;所述静态医疗图像信息可以为电子化的个人健康记录,包括病历、心电图、医学影像等。
本发明一可选实施例中,对于静态图像信息,可以采用现有的在ImageNet(计算机视觉系统识别)上训练的ResNet网络(残差神经网络)提取RGB(彩色图像)特征,该残差神经网络在残差单元中增加了跳跃映射,将所述残差神经网络中的输入层结果与输出层结果直接进行相加,并且补充卷积过程中损失的特征信息,使得到的模态特征更加准确。
本发明一可选实施例中,对于医疗物体类别信息,可以采用Place365预训练的SENet(Squeeze-and-Excitation Networks,压缩和激励网络)网络来提取医疗场景信息;Place365是Places2图像数据集的一个最新子集可用于以医疗场景和医疗环境为应用内容的视觉认知任务,SENet网络进行特征提取首先是进行Squeeze(维度压缩)操作,根据所述医疗物体类别信息的空间维度来进行特征压缩,将每个二维特征通道变成一个实数;其次是进行Excitation操作(激活操作),通过激活函数将所述实数进行激活处理,最后输出每个所述二维特征通道的数值为[0,1],所述数值就是每个所述二维通道的权重系数,将所述权重系数与所物体类别信息进行乘积计算,即得到新的通道信息,作为下一部分的输入使用;最后是进行Reweight操作(加权操作),利用所述二维通道将Excitation操作输出的权重加权到所述模态信息上,完成医疗场景信息的提取;所述医疗场景信息可以为医院信息、门诊信息等。
本发明一可选实施例中,对于动态时序信息,可以采用I3D(Interactive threedimensions)模型提取视频时序特征,所述I3D模型以最新的医疗图片分类模型为基础结构,将医疗视频图片的卷积分类的卷积核与池化核扩展为3D,从而可以从医疗视频中对物体的行为及动作进行判断;对于所述待检索视频中的医疗音频部分,可以利用VGGish网络(音频数据训练神经网络模型)采样医疗音频并提取特征;而对于所述待检索视频中的字幕部分,则可以用BERT(Bidirectional Encoder Representation from Transformers,语言表征预训练模型)进行医疗文本特征信息提取。
S2、将多个所述模态特征进行特征维度对齐处理,得到对齐的特征序列;
请参阅图2所示,本发明实施例中,所述将多个所述模态特征进行特征维度对齐处理,得到对齐的特征序列,包括:
S21、对多个所述模态特征进行特征维度调整,得到固定维度的模态特征;
S22、对所述固定维度的模态特征进行随机抽取,得到多个连续特征序列;
S23、分别将多个所述连续特征序列的长度与预设的固定长度进行比较,得到长度比较结果;
S24、根据所述长度比较结果对多个所述连续特征序列进行特征填充,得到对齐的特征序列。
本发明实施例中,由于不同模态的特征序列长度可能不同,为了对多个所述模态特征进行特征融合,所述固定长度的特征序列是对所述模态特征的固定特征序列长度的同一设定,长度可以设定为128;当所述长度比较结果为所述连续特征序列的长度小于所述固定长度,则在所述连续特征序列的最后填充全为0的特征。
本发明实施例中,特征维度调整可以利用预设的MLP(多层感知机)模块进行特征维度调整,将多个所述模态特征的维度调整成一个固定的对齐特征维度,本发明中这个对齐特征维度可以为1024,例如,所述待检索视频的医疗图像模态特征维度为2048,而与相关医疗的所述待检索视频的字幕文本模态特征维度为768,则所述多层感知机会将所述图像模态特征维度及所述字幕文本模态特征维度全部调整至1024。
S3、将所述对齐的特征序列进行池化处理,得到待检索视频的索引向量;
请参阅图3所示,本发明实施例中,所述将所述对齐的特征序列进行池化处理,得到待检索视频的索引向量,包括:
S31、将所述对齐的特征序列输入到预设的序列编码器中进行下采样处理,得到多个低维特征序列;
S32、计算多个所述低维特征序列中的元素均值,得到平均池化特征序列;
S33、对所述对齐的特征序列与所述平均池化特征序列进行求和计算,得到多个单一特征向量;
S34、将多个所述单一特征向量进行向量拼接,得到待检索视频的索引向量。
本发明实施例中,所述序列编码器将输入的所述对齐的特征序列并行传递,并且利用向量嵌入添加位置信息,所述位置信息是为了保证所述序列编码器能完整识别所述对齐的特征序列,从而保证所述对齐的特征序列之间的连续性,然后利用所述序列编码器的多头注意力层输出多个特征向量并将这些特征向量归一化,得到多个所述低维特征序列。
本发明实施例中,下采样处理是一个降低特征维度的过程,通过将所述对齐的特征序列进行下采样处理从而减少计算量,防止过拟合;本发明中的池化处理采用平均池化的方法,与卷积层类似,池化层的运算符由一个固定形状的窗口(池化窗口)组成,所述池化窗口根据步幅大小在输入的所有区域上滑动并且遍历每个位置计算出元素均值,得到平均池化特征序列;所述单一特征向量是一个一维的特征向量,向量拼接是将所述单一特征向量依次首尾相接,最终得到多个所述模态特征融合在一起的全局统一特征向量,即为所述模态特征对应的待检索视频的索引向量;将所述待检索视频的索引向量保存在一个数据库中,得到医疗视频索引库,便于后续对所述待检索视频进行匹配检索;所述医疗视频索引库采用数字医疗的方法,将医疗健康信息以数字格式存储在数据库中,提高匹配检索的效率。
S4、获取查询文本,对所述查询文本进行向量计算,得到文本特征向量;
本发明实施例中,所述查询文本可以是用户在医疗视频软件上检索自己感兴趣的与医疗相关视频内容所输入的文字描述或关键词,例如,疗效、传染病、用药及发热等关键词,或者是医疗电子记录,例如,病理、心电图、医学影像等一系列具备保存备查价值的电子化记录。
本发明实施例中,所述对所述查询文本进行向量计算,得到文本特征向量,包括:
将所述查询文本输入到预设的文本编码器中进行特征编码,得到文本特征编码向量;
将所述文本特征编码向量进行维度对齐,得到文本特征向量。
本发明实施例中,所述文本编码器可以利用BERT模型,所述BERT模型是一个自编码的医疗语言模型,采用无监督学习的方式,不需要人工标注就可以低成本地完成医疗语料训练的模型;维度对齐的目的是为了将所述文本特征编码向量与所述待检索视频的索引向量具有同样的维度,便于后续的相似度计算。
本发明实施例中,所述将所述查询文本输入到预设的文本编码器中进行特征编码,得到文本特征编码向量,包括:
将所述查询文本进行向量嵌入,得到文本嵌入向量;
将所述文本嵌入向量进行随机掩码,得到文本特征编码向量。
本发明实施例中,向量嵌入包括三部分:token embeddings(标记向量嵌入)、segmentation embeddings(分类向量嵌入)以及position embeddings(位置向量嵌入),所述文本嵌入向量是由这三个嵌入部分相加而成;随机掩码是对所述文本嵌入向量用15%的概率进行随机选取,选取出来的文本嵌入向量以80%的概率替换成所述分类向量,得到所述文本特征编码向量。
S5、将所述文本特征向量与所述待检测视频的索引向量进行相似度计算,根据相似度计算结果得到视频检索结果。
本发明实施例中,所述将所述文本特征向量与所述待检测视频的索引向量进行相似度计算,包括:
利用下式进行相似度计算:
其中,表示为所述文本特征向量;/>表示为所述待检测视频的索引向量;/>表示为所述文本特征向量以及所述待检测视频的索引向量的相似度计算结果。
本发明实施例中,相似度计算采用余弦相似度计算法,相似度计算的取值范围在[0~1];当所述文本特征向量与所述待检测视频的索引向量的相似度计算结果大于0.8时,则认为所述文本特征向量与所述待检测视频的索引向量是相似的,所述索引向量对应的待检测视频即为所述视频检索结果,将在用户搜索的医疗视频软件上进行展示,展示的内容具体可以为医疗健康知识、药物使用知识等,实现数字问诊。
本发明提出了一种基于多编码器的多模态视频检索方法,将多个模态特征进行特征维度对齐处理,得到对齐的特征序列,让全局具有固定特征维度的模态特征,提高了特征提取的准确率;将对齐的特征序列进行池化处理,得到待检索视频的索引向量,能降低特征序列的维度,便于同文本特征向量进行相似度计算;根据用户所输入的查询文本,将文本特征向量与待检测视频的索引向量进行相似度计算,根据相似度计算结果自动地匹配相关度较高的视频,完成了视频的自动化索引及检索,提高了视频检索流程的效率。因此本发明提出的基于多编码器的多模态视频检索方法,可以解决医疗教育视频检索准确率低的问题。
如图4所示,是本发明一实施例提供的基于多编码器的多模态视频检索装置的功能模块图。
本发明所述基于多编码器的多模态视频检索装置100可以安装于电子设备中。根据实现的功能,所述基于多编码器的多模态视频检索装置100可以包括特征提取模块101、维度对齐模块102、池化处理模块103、文本向量计算模块104及相似度计算模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述特征提取模块101,用于获取待检索视频,对所述待检索视频进行特征提取,得到多个模态特征;
所述维度对齐模块102,用于将多个所述模态特征进行特征维度对齐处理,得到对齐的特征序列;
所述池化处理模块103,用于将所述对齐的特征序列进行池化处理,得到待检索视频的索引向量;
所述文本向量计算模块104,用于获取查询文本,对所述查询文本进行向量计算,得到文本特征向量;
所述相似度计算模块105,用于将所述文本特征向量与所述待检测视频的索引向量进行相似度计算,根据相似度计算结果得到视频检索结果。
详细地,本发明实施例中所述基于多编码器的多模态视频检索装置100中所述的各模块在使用时采用与附图中所述的基于多编码器的多模态视频检索方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本发明一实施例提供的实现基于多编码器的多模态视频检索方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于多编码器的多模态视频检索程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing Unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于多编码器的多模态视频检索程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于多编码器的多模态视频检索程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于多编码器的多模态视频检索程序是多个指令的组合,在所述处理器10中运行时,可以实现:
获取待检索视频,对所述待检索视频进行特征提取,得到多个模态特征;
将多个所述模态特征进行特征维度对齐处理,得到对齐的特征序列;
将所述对齐的特征序列进行池化处理,得到待检索视频的索引向量;
获取查询文本,对所述查询文本进行向量计算,得到文本特征向量;
将所述文本特征向量与所述待检测视频的索引向量进行相似度计算,根据相似度计算结果得到视频检索结果。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取待检索视频,对所述待检索视频进行特征提取,得到多个模态特征;
将多个所述模态特征进行特征维度对齐处理,得到对齐的特征序列;
将所述对齐的特征序列进行池化处理,得到待检索视频的索引向量;
获取查询文本,对所述查询文本进行向量计算,得到文本特征向量;
将所述文本特征向量与所述待检测视频的索引向量进行相似度计算,根据相似度计算结果得到视频检索结果。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于多编码器的多模态视频检索方法,其特征在于,所述方法包括:
获取待检索视频,对所述待检索视频进行特征提取,得到多个模态特征;
将多个所述模态特征进行特征维度对齐处理,得到对齐的特征序列;
将所述对齐的特征序列进行池化处理,得到待检索视频的索引向量;
获取查询文本,对所述查询文本进行向量计算,得到文本特征向量;
将所述文本特征向量与所述待检测视频的索引向量进行相似度计算,根据相似度计算结果得到视频检索结果。
2.如权利要求1所述的基于多编码器的多模态视频检索方法,其特征在于,所述将多个所述模态特征进行特征维度对齐处理,得到对齐的特征序列,包括:
对多个所述模态特征进行特征维度调整,得到固定维度的模态特征;
对所述固定维度的模态特征进行随机抽取,得到多个连续特征序列;
分别将多个所述连续特征序列的长度与预设的固定长度进行比较,得到长度比较结果;
根据所述长度比较结果对多个所述连续特征序列进行特征填充,得到对齐的特征序列。
3.如权利要求1所述的基于多编码器的多模态视频检索方法,其特征在于,所述对所述待检索视频进行特征提取,得到多个模态特征,包括:
对所述待检索视频进行实体识别,得到多类模态信息;
分别对多类所述模态信息进行特征计算,得到多个模态特征。
4.如权利要求1所述的基于多编码器的多模态视频检索方法,其特征在于,所述将所述对齐的特征序列进行池化处理,得到待检索视频的索引向量,包括:
将所述对齐的特征序列输入到预设的序列编码器中进行下采样处理,得到多个低维特征序列;
计算多个所述低维特征序列中的元素均值,得到平均池化特征序列;
对所述对齐的特征序列与所述平均池化特征序列进行求和计算,得到多个单一特征向量;
将多个所述单一特征向量进行向量拼接,得到待检索视频的索引向量。
5.如权利要求1所述的基于多编码器的多模态视频检索方法,其特征在于,所述对所述查询文本进行向量计算,得到文本特征向量,包括:
将所述查询文本输入到预设的文本编码器中进行特征编码,得到文本特征编码向量;
将所述文本特征编码向量进行维度对齐,得到文本特征向量。
6.如权利要求5所述的基于多编码器的多模态视频检索方法,其特征在于,所述将所述查询文本输入到预设的文本编码器中进行特征编码,得到文本特征编码向量,包括:
将所述查询文本进行向量嵌入,得到文本嵌入向量;
将所述文本嵌入向量进行随机掩码,得到文本特征编码向量。
7.如权利要求1至6中任一项所述的基于多编码器的多模态视频检索方法,其特征在于,所述将所述文本特征向量与所述待检测视频的索引向量进行相似度计算,包括:
利用下式进行相似度计算:
其中,表示为所述文本特征向量;/>表示为所述待检测视频的索引向量;表示为所述文本特征向量以及所述待检测视频的索引向量的相似度计算结果。
8.一种基于多编码器的多模态视频检索装置,其特征在于,所述装置包括:
特征提取模块,用于获取待检索视频,对所述待检索视频进行特征提取,得到多个模态特征;
维度对齐模块,用于将多个所述模态特征进行特征维度对齐处理,得到对齐的特征序列;
池化处理模块,用于将所述对齐的特征序列进行池化处理,得到待检索视频的索引向量;
文本向量计算模块,用于获取查询文本,对所述查询文本进行向量计算,得到文本特征向量;
相似度计算模块,用于将所述文本特征向量与所述待检测视频的索引向量进行相似度计算,根据相似度计算结果得到视频检索结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的基于多编码器的多模态视频检索方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于多编码器的多模态视频检索方法。
CN202310708762.6A 2023-06-14 2023-06-14 基于多编码器的多模态视频检索方法、装置、设备及介质 Pending CN116737996A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310708762.6A CN116737996A (zh) 2023-06-14 2023-06-14 基于多编码器的多模态视频检索方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310708762.6A CN116737996A (zh) 2023-06-14 2023-06-14 基于多编码器的多模态视频检索方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116737996A true CN116737996A (zh) 2023-09-12

Family

ID=87905727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310708762.6A Pending CN116737996A (zh) 2023-06-14 2023-06-14 基于多编码器的多模态视频检索方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116737996A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118585671A (zh) * 2024-08-02 2024-09-03 北京小米移动软件有限公司 视频检索方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118585671A (zh) * 2024-08-02 2024-09-03 北京小米移动软件有限公司 视频检索方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109388807B (zh) 电子病历命名实体识别的方法、装置及存储介质
US20190272451A1 (en) Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media
WO2021139191A1 (zh) 数据标注的方法以及数据标注的装置
CN110503076B (zh) 基于人工智能的视频分类方法、装置、设备和介质
WO2023029512A1 (zh) 基于知识图谱的医疗问题解答方法、装置、设备及介质
CN110390033A (zh) 图像分类模型的训练方法、装置、电子设备及存储介质
JP2017062781A (ja) 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知
CN111078940B (zh) 图像处理方法、装置、计算机存储介质及电子设备
CN113572981B (zh) 视频配乐方法及装置、电子设备、存储介质
CN113378970B (zh) 语句相似性检测方法、装置、电子设备及存储介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN114550070A (zh) 视频片段的识别方法、装置、设备以及存储介质
CN116720497B (zh) 一种基于语义分析的电网文档关联性层级分析方法及系统
CN112151187B (zh) 信息查询方法、装置、计算机设备和存储介质
CN116628263A (zh) 基于多模态的视频检索方法、装置、电子设备及存储介质
CN116737996A (zh) 基于多编码器的多模态视频检索方法、装置、设备及介质
CN114416939A (zh) 智能问答方法、装置、设备及存储介质
CN115238670A (zh) 信息文本抽取方法、装置、设备及存储介质
CN114519397A (zh) 基于对比学习的实体链接模型的训练方法、装置、设备
CN116644208A (zh) 视频检索方法、装置、电子设备及计算机可读存储介质
CN115409041B (zh) 一种非结构化数据提取方法、装置、设备及存储介质
CN116719904A (zh) 基于图文结合的信息查询方法、装置、设备及存储介质
CN116740078A (zh) 图像分割处理方法、装置、设备以及介质
CN111797856A (zh) 建模方法、装置、存储介质及电子设备
CN115952317A (zh) 视频处理方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination