CN117640947A - 视频图像的编码方法、物品检索方法、电子设备、介质 - Google Patents

视频图像的编码方法、物品检索方法、电子设备、介质 Download PDF

Info

Publication number
CN117640947A
CN117640947A CN202410094709.6A CN202410094709A CN117640947A CN 117640947 A CN117640947 A CN 117640947A CN 202410094709 A CN202410094709 A CN 202410094709A CN 117640947 A CN117640947 A CN 117640947A
Authority
CN
China
Prior art keywords
image
video source
source file
coding
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410094709.6A
Other languages
English (en)
Other versions
CN117640947B (zh
Inventor
严磊
王芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lingke Hangzhou Network Technology Co ltd
Original Assignee
Lingke Hangzhou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lingke Hangzhou Network Technology Co ltd filed Critical Lingke Hangzhou Network Technology Co ltd
Priority to CN202410094709.6A priority Critical patent/CN117640947B/zh
Publication of CN117640947A publication Critical patent/CN117640947A/zh
Application granted granted Critical
Publication of CN117640947B publication Critical patent/CN117640947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种视频图像的编码方法,其中,所述编码方法包括:获取视频源文件;利用设定编码模型对所述视频源文件的每帧图像进行编码,得到图像编码;其中,所述设定编码模型为基于ViT的编码模型,在所述设定编码模型中,自注意力层的输出由以下公式:;将每帧图像的时间信息添加至所述图像编码中,得到所述视频源文件的时序图像表征。本发明还提供一种物品检索方法、一种电子设备和一种计算机可读介质。

Description

视频图像的编码方法、物品检索方法、电子设备、介质
技术领域
本发明涉及视频处理领域,具体地,涉及一种视频图像的编码方法、一种物品检索方法、一种电子设备和一种计算机可读介质。
背景技术
随着互联网技术的发展,视频技术也得到了长足的进步。例如,希望在视频文件中得到特定目标时,就需要利用神经网络模型对视频源文件进行编码、并对目标图像进行编码,然后根据相似度计算来确定目标图像所在的位置。
如何对视频源文件进行合理的编码、以提高检索匹配的准确度,是本领域一直所追求的。
发明内容
本发明旨在一定程度上解决相关技术中的技术问题之一。为此,本发明提供了一种视频图像的编码方法、一种物品检索方法、一种电子设备和一种计算机可读介质。通过所述视频图像的编码方法对所述视频源文件进行编码后,有利于提高后续物品检索的准确度。
作为本发明的第一个方面,提供一种视频图像的编码方法,其中,所述编码方法包括:
获取视频源文件;
利用设定编码模型对所述视频源文件的每帧图像进行编码,得到图像编码;其中,所述设定编码模型为基于ViT的编码模型,在所述设定编码模型中,自注意力层的输出由以下公式(1)表示;
将每帧图像的时间信息添加至所述图像编码中,得到所述视频源文件的时序图像表征;
(1)
其中,ys,t为第t帧图像中第s个token的自注意力层的输出;
表示第t-n帧图像中的key向量矩阵至第t帧图像中的key向量矩阵堆叠后的矩阵,n≥1;
表示第t-n帧图像中的value向量矩阵至第t帧图像中的value向量矩阵堆叠后的矩阵。
可选地,n=2。
可选地,所述编码方法还包括:
对所述视频源文件进行语音识别,得到携带有时间戳的字幕文本;
将字幕划分为端点时间有重叠的多个窗口;
利用基于转换器结构的编码模型对每个窗口的文本用进行网络编码,得到多个文本编码序列;
对多个所述文本编码序列进行总结得到多个段落,并为得到的段落添加段落标签;
将添加有段落标签的多个文本编码序列与所述时间戳结合,得到时序文本表征;
根据时间顺序所述时序文本表征与所述时序图像表征进行对齐。
可选地,所述编码方法还包括:
接收设定的物品名称;
对所述物品名称进行文本编码,得到多个物品名称编码;
计算所述物品名称编码与所述段落标签之间的相似度;
根据计算获得的相似度,将所述物品名称编码插入相应的文本编码序列中,其中,在插入有物品名称编码的段落中,段落标签与被插入的物品名称编码之间的相似度不低于第一预设值;
确定各个物品名称所对应的段落在所述视频源文件中的开始时间和结束时间。
作为本发明的第二个方面,提供一种物品检索方法,其中,所述物品检索方法包括:
接收检索指令,所述检索指令包括图片和/或文字;
对所述检索指令进行编码,得到指令编码;
将所述指令编码与视频源文件的编码文件进行匹配,其中,所述视频源文件的编码文件至少包括携带有每帧图像的时间信息的时序图像表征,其中,所述时序图像表征为根据本发明第一个方面所述的编码方法所获得;
将与所述指令编码之间相似度超过第二预设值的图像编码所在的位置作为所述检索指令所对应的目标物品出现的位置。
可选地,所述视频源文件的编码文件还包括插入有物品名称编码的文本编码序列,所述物品检索方法还包括:
将与所述指令编码之间相似度超过第二预设值的物品名称编码所对应的段落在所述视频源文件中的开始时间和结束时间作为所述目标物品出现的位置。
可选地,所述物品检索方法还包括:
将所述视频源文件中出现所述目标物品的部分作为目标视频,输出所述目标视频。
可选地,在所述物品检索请求包括图片的情况下,所述物品检索方法还包括:
生成目标框,并利用所述目标框框选出所述目标视频上与所述物品检索请求相匹配的物品。
作为本发明的第三个方面,提供一种电子设备,包括:
一个或多个处理器;存储器,其上存储有一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据本发明第一个方面和/或第二个方面所述的方法。
作为本发明的第四个方面,提供一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现根据本发明第一个方面和/或第二个方面所述的方法。
与单张图像相比,视频文件的特点在于,相邻帧图像的内容是连续的。在本发明实施例所提供的编码方法中,编码模型为在ViT模型基础上进行修改得到的改良模型(即,上文中所述的设定编码模型)。在所述设定编码模型中,自注意力层的输出与和当前帧图像相关,也就是说,在利用所述设定编码模型进行编码时,捕捉了相邻帧之间的图像信息。因此,利用本发明实施例所提供的编码方法编码获得的时序图像表征能够更真实地体现视频源文件的特点。相应地,在进行物品检索、目标识别等匹配动作时,可以使得匹配结果更加准确。
附图说明
下面结合附图对本发明作进一步说明:
图1为本发明所提供的视频图像的编码方法的一种实施方式的流程图;
图2是本发明所提供的视频图像的编码方法的另一种实施方式中,步骤S140至步骤S190的流程图;
图3是本发明所提供的视频图像的编码方法的还一种实施方式中,步骤S1010至步骤S1040的流程图;
图4是本发明所提供的物品检索方法的一种实施方式的流程图;
图5是本发明所提供的物品检索方法的另一种实施方式的流程图;
图6是本发明所提供的电子设备的一种实施方式的模块示意图;
图7是本发明所提供的计算机可读介质的模块示意图。
附图标记说明
101:处理器102:存储器
103: I/O接口104:总线
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。基于实施方式中的实施例,旨在用于解释本发明,而不能理解为对本发明的限制。
在本说明书中引用的“一个实施例”或“实例”或“例子”意指结合实施例本身描述的特定特征、结构或特性可被包括在本发明公开的至少一个实施例中。短语“在一个实施例中”在说明书中的各位置的出现不必都是指同一个实施例。
作为本发明的第一个方面,提供一种视频图像的编码方法,其中,如图1所示,所述编码方法包括:
在步骤S110中,获取视频源文件;
在步骤S120中,利用设定编码模型对所述视频源文件的每帧图像进行编码,得到图像编码;其中,所述设定编码模型为基于ViT的编码模型,在所述设定编码模型中,自注意力层的输出由以下公式(1)表示;
在步骤S130中,将每帧图像的时间信息添加至所述图像编码中,得到所述视频源文件的时序图像表征。
(1)
其中,ys,t为第t帧图像中第s个token的自注意力层的输出;
表示第t-n帧图像中的key向量矩阵至第t帧图像中的key向量矩阵key向量矩阵堆叠(stacking)后的矩阵,n≥1;
表示第t-n帧图像中的value向量矩阵至第t帧图像中的value向量矩阵堆叠后的矩阵。
与单张图像相比,视频文件的特点在于,相邻帧图像的内容是连续的。在本发明实施例所提供的编码方法中,编码模型为在ViT模型基础上进行修改得到的改良模型(即,上文中所述的设定编码模型)。在所述设定编码模型中,自注意力层的输出与和当前帧图像(即,公式(1)中的第t帧图像)相关,也就是说,在利用所述设定编码模型进行编码时,不仅获取了当前帧图像的信息,还捕捉了相邻帧之间的图像信息,从而获得了更多的特征。因此,利用本发明实施例所提供的编码方法编码获得的时序图像表征能够更真实地体现视频源文件的特点。相应地,在进行物品检索、目标识别等匹配动作时,可以使得匹配结果更加准确。
在本发明实施例中,对视频源文件的具体类型不做特殊的限定。作为一种可选实施方式,视频源文件可以为电商直播时产生的视频文件。这类视频文件对为多种商品进行讲解的视频。因此,视频文件中会存在“多重图像”和/或“多重文本”的问题。在本发明实施例所提供的技术方案中,在利用所述设定编码模型进行编码时,不仅获取了当前帧图像的信息,还捕捉了相邻帧之间的图像信息,从而获得了更多的特征可以消除“多重图像”和/或“多重文本”所造成的干扰。
本发明实施例所提供的编码方法尤其适用于对电商直播产生的视频源文件进行编码。
在本发明实施例中,对n的具体取值不做特殊的限定,n的取值越多、则获得的时序图像表征能够更准确地体现视频源文件。相应地,为了提高计算效率,可选地,n=2。
相应地,公式(1)可以被具体表示为:
其中,表示第t-2帧图像中的key向量矩阵、第t-1帧图像中的key向量矩阵、以及第t帧图像中的key向量矩阵堆叠(stacking)后的矩阵;
表示第t-2帧图像中的value向量矩阵、第t-1帧图像中的value向量矩阵、第t帧图像中的value向量矩阵堆叠后的矩阵。
如上文中所述,在对视频源文件进行编码后,获得的编码文件用于目标识别、物品检索等场景。为了使得编码文件更适用于后续的目标识别、物品检索等场景,可选地,如图2所示,所述编码方法还包括:
在步骤S140中,对所述视频源文件进行语音识别,得到携带有时间戳的字幕文本;
在步骤S150中,将字幕划分为端点时间有重叠的多个窗口;
在步骤S160中,利用基于转换器结构(transformer)的编码模型对每个窗口的文本用进行网络编码,得到多个文本编码序列;
在步骤S170中,对多个所述文本编码序列进行总结得到多个段落,并为得到的段落添加段落标签;
在步骤S180中,将添加有段落标签的多个文本编码序列与所述时间戳结合,得到时序文本表征;
在步骤S190中,根据时间顺序所述时序文本表征与所述时序图像表征进行对齐。
本发明实施例所提供的视频源文件可以为电商直播时产生的视频文件,通常,该视频源文件为针对物品(例如,商品)的讲解文件,因此,视频源文件的字幕文本中会包括物品名称。因语音识别获得的字幕文件携带有时间戳,因此,通过字幕文本可以相对精确地确定物品出现的时间。
在本发明实施例中,从视频源文件中提取音频文件,并完成自动语音识别(ASR,Automatic Speech Recognition)处理,得到所述携带有时间戳的字幕文本。可选地,从所述视频源中所提取的音频文件可以是双声道音频文件。
对于电商直播而言,“时间段”与“物品”相对应的现象。例如,视频源文件的第一个小时对应的是物品A、视频源文件的第2个小时对应的是物品B等等。通过对文本编码序列进行分段,该段落可以与视频源的“时间段”相对应,段落标签可以与“物品”相对应。
对每帧图像进行编码、获得时序图像表征后,再将时序图像表征、以及时序文本表征对齐,对齐后的时序图像表征、以及时序文本表征能够更进准地反映物品在视频源文件中出现的时间,更加有利于后续的检索。
如上文中所述,transformer结构的网络编码,能够对每个滑窗的文本进行编码,滑窗所对应的序列中的每个token被分配一个二进制标签来标记是否为新段落的开始。
如上文中所述,所述视频源文件为电商直播过程中所产生的视频文件。在视频源文件中展现的产品情况比较庞杂,例如,视频源文件中可能包含了多个商品的概况、或者商品的一部分图像、再或者,拆除包装后的商品的图像。
对于讲解人员而言,通常会明确地提出商品(或者物品)名称。因此,通过步骤S150和步骤S190,将时间顺序所述时序文本表征与所述时序图像表征进行对齐,可以更准确地确定商品(或者物品)在视频源文件中出现的位置。
本发明实施例所提供的技术方案,相当于在跨多模态对比学习中使用了跨粒度的多文本和图像对对齐,利用这样的蒸馏方式,可以把多视频和文本对交叉的细粒度跨模态相似性转移到基于全局视频和文本表征的粗粒度相似性。
为了使得视频源文件的编码文件更适于后续的物品检索场景,可选地,如图3所示,所述编码方法还包括:
在步骤S1010中,接收设定的物品名称;
在步骤S1020中,对所述物品名称进行文本编码,得到多个物品名称编码;
在步骤S1030中,计算所述物品名称编码与所述段落标签之间的相似度;
在步骤S1040中,根据计算获得的相似度,将所述物品名称编码插入相应的文本编码序列中,其中,在插入有物品名称编码的段落中,段落标签与被插入的物品名称编码之间的相似度不低于第一预设值;
在步骤S1050中,确定各个物品名称所对应的段落在所述视频源文件中的开始时间和结束时间。
如上文中所述,在视频源文件中展现的产品情况比较庞杂,“物品名称”是较为精确的信息。将精确的“物品名称”编码后,插入到视频源文件的编码文件中,从而更加有利于后续检索的进行。
换言之,在本发明中,文本编码包括两部分:字幕文本编码、以及子句层级的主题编码。可以利用预序列完整的语言模型实现字幕文本编码。
因电商商品标题中包含搜索优化去趋势词,所述主题中的信息并非完全与物品(或者商品)图片对齐,因此,可以在对主题进行编码时,引入子句建模,利用注意力遮盖(attention mask)来保留关键词的特征的同时、消除不相关单词间的相互作用。
作为一种可选实施方式,可以采用Grounding DINO对主题进行编码。
作为本发明的第二个方面,提供一种物品检索方法,其中,如图4所示,所述物品检索方法包括:
在步骤S210中,接收检索指令,所述检索指令包括图片和/或文字;
在步骤S220中,对所述检索指令进行编码,得到指令编码;
在步骤S230中,将所述指令编码与视频源文件的编码文件进行匹配,其中,所述视频源文件的编码文件至少包括携带有每帧图像的时间信息的时序图像表征,其中,所述时序图像表征为根据本发明第一个方面所提供的编码方法所获得;
在步骤S240中,将与所述指令编码之间相似度超过第二预设值的图像编码所在的位置作为所述检索指令所对应的目标物品出现的位置。
如上文中所述,在本发明实施例所提供的编码方法中,编码模型为在ViT模型基础上进行修改得到的改良模型(即,上文中所述的设定编码模型)。在所述设定编码模型中,自注意力层的输出与和当前帧图像(即,公式(1)中的第t帧图像)相关,也就是说,在利用所述设定编码模型进行编码时,捕捉了相邻帧之间的图像信息。因此,利用本发明实施例所提供的编码方法编码获得的时序图像表征能够更真实地体现视频源文件的特点。相应地,在进行物品检索、目标识别等匹配动作时,可以使得匹配结果更加准确。
作为一种可选实施方式,所述视频源文件的编码文件还包括插入有物品名称编码的文本编码序列。相应地,如图5所示,所述物品检索方法还包括:
在步骤S250中,将与所述指令编码之间相似度超过第二预设值的物品名称编码所对应的段落在所述视频源文件中的开始时间和结束时间作为所述目标物品出现的位置。
在本发明实施例中,可以同时进行步骤S240、以及步骤S250,还可以先进行步骤S240后进行步骤S250,也可以先进行步骤S250后进行步骤S240。
作为一种可选实施方式,所述物品检索方法还包括:
在步骤S260中,将所述视频源文件中出现所述目标物品的部分作为目标视频,输出所述目标视频。
通过步骤S260输出的目标视频,可以用作商品的切片广告。
为了更加便于操作者判断输出的目标视频是否与检索请求相匹配,可选地,在所述物品检索请求包括图片的情况下,所述物品检索方法还包括:
在步骤S270中,生成目标框,并利用所述目标框框选出所述目标视频上与所述物品检索请求相匹配的物品。
作为本发明的第二个方面,提供一种电子设备,其中,如图6所示,该电子设备包括:
一个或多个处理器101;
存储器102,其上存储有一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器101执行,使得所述一个或多个处理器101实现根据本发明第一个方面和/或第二个方面所提供的方法。
所述物料信息采集工控机还可以包括一个或多个I/O接口103,连接在处理器101与存储器102之间,配置为实现处理器101与存储器102的信息交互。
其中,处理器101为具有数据处理能力的器件,其包括但不限于中央处理器(CPU)等;存储器102为具有数据存储能力的器件,其包括但不限于随机存取存储器(RAM,更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH);I/O接口(读写接口)连接在处理器与存储器间,能实现处理器与存储器的信息交互,其包括但不限于数据总线(Bus)等。
在一些实施例中,处理器101、存储器102和I/O接口103通过总线104相互连接,进而与计算设备的其它组件连接。
作为本发明的第三个方面,提供一种计算机可读介质,如图7所示,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现根据本发明第一个方面和/或第二个方面所提供的方法。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。据此,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可实现上述任意一项实施例的方法。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM (PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)以及存储器总线动态RAM(RDRAM)等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。

Claims (10)

1.一种视频图像的编码方法,其特征在于,所述编码方法包括:
获取视频源文件;
利用设定编码模型对所述视频源文件的每帧图像进行编码,得到图像编码;其中,所述设定编码模型为基于ViT的编码模型,在所述设定编码模型中,自注意力层的输出由以下公式(1)表示;
将每帧图像的时间信息添加至所述图像编码中,得到所述视频源文件的时序图像表征;
(1)
其中,ys,t为第t帧图像中第s个token的自注意力层的输出;
表示第t-n帧图像中的key向量矩阵至第t帧图像中的key向量矩阵堆叠后的矩阵,n≥1;
表示第t-n帧图像中的value向量矩阵至第t帧图像中的value向量矩阵堆叠后的矩阵。
2.根据权利要求1所述的编码方法,其特征在于,n=2。
3.根据权利要求1或2所述的编码方法,其特征在于,所述编码方法还包括:
对所述视频源文件进行语音识别,得到携带有时间戳的字幕文本;
将字幕划分为端点时间有重叠的多个窗口;
利用基于转换器结构的编码模型对每个窗口的文本用进行网络编码,得到多个文本编码序列;
对多个所述文本编码序列进行总结得到多个段落,并为得到的段落添加段落标签;
将添加有段落标签的多个文本编码序列与所述时间戳结合,得到时序文本表征;
根据时间顺序所述时序文本表征与所述时序图像表征进行对齐。
4.根据权利要求3所述的编码方法,其特征在于,所述编码方法还包括:
接收设定的物品名称;
对所述物品名称进行文本编码,得到多个物品名称编码;
计算所述物品名称编码与所述段落标签之间的相似度;
根据计算获得的相似度,将所述物品名称编码插入相应的文本编码序列中,其中,在插入有物品名称编码的段落中,段落标签与被插入的物品名称编码之间的相似度不低于第一预设值;
确定各个物品名称所对应的段落在所述视频源文件中的开始时间和结束时间。
5.一种物品检索方法,其特征在于,所述物品检索方法包括:
接收检索指令,所述检索指令包括图片和/或文字;
对所述检索指令进行编码,得到指令编码;
将所述指令编码与视频源文件的编码文件进行匹配,其中,所述视频源文件的编码文件至少包括携带有每帧图像的时间信息的时序图像表征,其中,所述时序图像表征为根据权利要求1至4中任意一项所述的编码方法所获得;
将与所述指令编码之间相似度超过第二预设值的图像编码所在的位置作为所述检索指令所对应的目标物品出现的位置。
6.根据权利要求5所述的物品检索方法,其特征在于,所述视频源文件的编码文件还包括插入有物品名称编码的文本编码序列,所述物品检索方法还包括:
将与所述指令编码之间相似度超过第二预设值的物品名称编码所对应的段落在所述视频源文件中的开始时间和结束时间作为所述目标物品出现的位置。
7.根据权利要求5或6所述的物品检索方法,其特征在于,所述物品检索方法还包括:
将所述视频源文件中出现所述目标物品的部分作为目标视频,输出所述目标视频。
8.根据权利要求7所述的物品检索方法,其特征在于,在所述物品检索请求包括图片的情况下,所述物品检索方法还包括:
生成目标框,并利用所述目标框框选出所述目标视频上与所述物品检索请求相匹配的物品。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;存储器,其上存储有一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1至8中任意一项所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1至8中任意一项所述的方法。
CN202410094709.6A 2024-01-24 2024-01-24 视频图像的编码方法、物品检索方法、电子设备、介质 Active CN117640947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410094709.6A CN117640947B (zh) 2024-01-24 2024-01-24 视频图像的编码方法、物品检索方法、电子设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410094709.6A CN117640947B (zh) 2024-01-24 2024-01-24 视频图像的编码方法、物品检索方法、电子设备、介质

Publications (2)

Publication Number Publication Date
CN117640947A true CN117640947A (zh) 2024-03-01
CN117640947B CN117640947B (zh) 2024-05-10

Family

ID=90035859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410094709.6A Active CN117640947B (zh) 2024-01-24 2024-01-24 视频图像的编码方法、物品检索方法、电子设备、介质

Country Status (1)

Country Link
CN (1) CN117640947B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050198575A1 (en) * 2002-04-15 2005-09-08 Tiecheng Liu Methods for selecting a subsequence of video frames from a sequence of video frames
CN111385642A (zh) * 2018-12-29 2020-07-07 阿里巴巴集团控股有限公司 媒体信息的处理方法、装置、服务器、设备及存储介质
CN112633290A (zh) * 2021-03-04 2021-04-09 北京世纪好未来教育科技有限公司 文本识别方法、电子设备及计算机可读介质
CN113641859A (zh) * 2021-10-18 2021-11-12 阿里巴巴达摩院(杭州)科技有限公司 脚本生成方法、系统、计算机存储介质及计算机程序产品
CN114842404A (zh) * 2022-05-31 2022-08-02 上海商汤智能科技有限公司 时序动作提名的生成方法及装置、电子设备和存储介质
CN115035440A (zh) * 2022-05-31 2022-09-09 上海商汤智能科技有限公司 时序动作提名的生成方法及装置、电子设备和存储介质
US20230046066A1 (en) * 2021-05-25 2023-02-16 Samsung Electronics Co., Ltd. Method and apparatus for video recognition
CN116168394A (zh) * 2023-02-28 2023-05-26 新东方教育科技集团有限公司 图像文本识别方法和装置
CN116595220A (zh) * 2023-04-19 2023-08-15 深圳大学 一种图像提取模型构建、图像查询和视频生成方法、装置
CN117251821A (zh) * 2023-09-13 2023-12-19 山东大学 一种视频-语言理解方法及系统
CN117251791A (zh) * 2023-11-08 2023-12-19 天津大学 基于图的全局语义感知的多模态反讽检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050198575A1 (en) * 2002-04-15 2005-09-08 Tiecheng Liu Methods for selecting a subsequence of video frames from a sequence of video frames
CN111385642A (zh) * 2018-12-29 2020-07-07 阿里巴巴集团控股有限公司 媒体信息的处理方法、装置、服务器、设备及存储介质
CN112633290A (zh) * 2021-03-04 2021-04-09 北京世纪好未来教育科技有限公司 文本识别方法、电子设备及计算机可读介质
US20230046066A1 (en) * 2021-05-25 2023-02-16 Samsung Electronics Co., Ltd. Method and apparatus for video recognition
CN113641859A (zh) * 2021-10-18 2021-11-12 阿里巴巴达摩院(杭州)科技有限公司 脚本生成方法、系统、计算机存储介质及计算机程序产品
CN114842404A (zh) * 2022-05-31 2022-08-02 上海商汤智能科技有限公司 时序动作提名的生成方法及装置、电子设备和存储介质
CN115035440A (zh) * 2022-05-31 2022-09-09 上海商汤智能科技有限公司 时序动作提名的生成方法及装置、电子设备和存储介质
CN116168394A (zh) * 2023-02-28 2023-05-26 新东方教育科技集团有限公司 图像文本识别方法和装置
CN116595220A (zh) * 2023-04-19 2023-08-15 深圳大学 一种图像提取模型构建、图像查询和视频生成方法、装置
CN117251821A (zh) * 2023-09-13 2023-12-19 山东大学 一种视频-语言理解方法及系统
CN117251791A (zh) * 2023-11-08 2023-12-19 天津大学 基于图的全局语义感知的多模态反讽检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RYAN GRAINGER: "PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers", 2023 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), 22 August 2023 (2023-08-22) *
雷永升: "基于改进双流视觉Transformer的行为识别模型", 计算机科学, 11 October 2023 (2023-10-11) *
马彦卓;常义林;杨海涛;: "应用于视频编码的实时多测度联合突变场景切换检测算法", 光子学报, no. 06, 15 June 2010 (2010-06-15) *

Also Published As

Publication number Publication date
CN117640947B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
CN110837579B (zh) 视频分类方法、装置、计算机以及可读存储介质
CN111191078B (zh) 基于视频信息处理模型的视频信息处理方法及装置
CN111324769B (zh) 视频信息处理模型的训练方法、视频信息处理方法及装置
CN112163122A (zh) 确定目标视频的标签的方法、装置、计算设备及存储介质
CN112364204B (zh) 视频搜索方法、装置、计算机设备及存储介质
CN111767461A (zh) 数据处理方法及装置
CN110968775A (zh) 商品属性生成模型的训练方法及生成、搜索方法和系统
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN116975340A (zh) 信息检索方法、装置、设备、程序产品及存储介质
CN114596432A (zh) 基于前景区域对应模板特征的视觉跟踪方法及系统
CN117640947B (zh) 视频图像的编码方法、物品检索方法、电子设备、介质
CN117093600A (zh) 搜索提示词的生成方法、装置、电子设备及存储介质
CN117131155A (zh) 多类目识别方法、装置、电子设备及储存介质
CN116229313A (zh) 标签构建模型的生成方法、装置、电子设备和存储介质
CN116521938A (zh) 视频数据检索方法、装置、计算机设备及计算机存储介质
CN112861580A (zh) 基于视频信息处理模型的视频信息处理方法及装置
CN113766311B (zh) 用于确定视频中的视频段数的方法及装置
CN116977887A (zh) 视频时效分类模型训练方法和视频时效分类方法
CN115858860A (zh) 一种视频检测方法、装置、电子设备和存储介质
CN115204366A (zh) 模型生成方法、装置、计算机设备和存储介质
CN114817586A (zh) 目标对象的分类方法、装置、电子设备和存储介质
CN114821424A (zh) 视频分析方法、视频分析装置、计算机设备、存储介质
CN117877017B (zh) 一种基于直播带货视频的商品识别方法及装置
CN112733529B (zh) 文本纠错方法和装置
Harish et al. Shot-level semantic reward-based self-attentional network for unsupervised video summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Yan Lei

Inventor before: Yan Lei

Inventor before: Wang Fang

CB03 Change of inventor or designer information