CN108419094B - 视频处理方法、视频检索方法、装置、介质及服务器 - Google Patents

视频处理方法、视频检索方法、装置、介质及服务器 Download PDF

Info

Publication number
CN108419094B
CN108419094B CN201810179638.4A CN201810179638A CN108419094B CN 108419094 B CN108419094 B CN 108419094B CN 201810179638 A CN201810179638 A CN 201810179638A CN 108419094 B CN108419094 B CN 108419094B
Authority
CN
China
Prior art keywords
video
decoder
decoding
reconstructor
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810179638.4A
Other languages
English (en)
Other versions
CN108419094A (zh
Inventor
王柏瑞
马林
刘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201910848343.6A priority Critical patent/CN110475129B/zh
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810179638.4A priority patent/CN108419094B/zh
Publication of CN108419094A publication Critical patent/CN108419094A/zh
Priority to PCT/CN2019/075534 priority patent/WO2019169996A1/zh
Priority to EP19763983.4A priority patent/EP3764276A4/en
Priority to US16/893,174 priority patent/US11368705B2/en
Priority to US16/893,154 priority patent/US20200304822A1/en
Application granted granted Critical
Publication of CN108419094B publication Critical patent/CN108419094B/zh
Priority to US17/746,763 priority patent/US11934454B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明实施例公开了一种视频处理方法、视频检索方法、装置、介质及服务器,利用从视频内容与自然语句之间的双向信息,通过对原始视频进行编解码处理,既能够得到自然语句,又可获取原始视频的视频特征及解码阶段的隐藏状态来重构目标视频,基于目标视频与原始视频之间的差异性对视频处理系统的框架进行优化;这样通过获取视频内容与自然语句之间的双向信息来约束自然语句的生成过程,有利于提升自然语句的描述准确率,优化视频内容理解服务的质量。

Description

视频处理方法、视频检索方法、装置、介质及服务器
技术领域
本发明涉及互联网技术领域,具体涉及视频处理技术领域,尤其涉及一种视频处理方法、一种视频处理装置、一种视频检索方法、一种视频检索装置、一种计算机存储介质以及一种服务器。
背景技术
为了方便快速了解视频的主要内容,视频内容理解服务应运而生。视频内容理解服务是将视频内容转换为采用一个自然语句来进行描述的服务。衡量视频内容理解服务的质量优劣的一个重要因素,即是用于描述视频内容的自然语句的描述准确率。现有技术中,视频处理流程一般分为编码阶段及解码阶段,编码阶段:由编码器对原始视频的每一帧进行特征提取;解码阶段:由解码器根据提取的视频特征预测出用于描述该视频内容的自然语句。通过现有技术的方案虽然实现了视频内容理解服务;但是,其仅获得用于描述视频内容的自然语句,却并未关注如何提升自然语句对视频内容的描述准确率,这就无法保证视频内容理解服务的质量。
发明内容
本发明实施例提供一种视频处理方法、视频检索方法、装置、介质及服务器,能够优化自然语句的生成过程以提升描述准确率,提升视频内容理解服务的质量。
一方面,本发明实施例提供了一种视频处理方法,所述方法应用于视频处理系统中,所述视频处理系统包括编码器、解码器及重构器,所述方法包括:
通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态;
根据所述解码阶段的隐藏状态重构出目标视频的视频特征;
获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性;
根据所述差异性对所述解码器和/或所述重构器进行优化。
另一方面,本发明实施例提供了一种视频检索方法,所述视频处理系统包括编码器、解码器及重构器,所述方法包括:
接收视频检索请求,所述视频检索请求携带检索关键信息;
从视频数据库中查找与所述检索关键信息相匹配的自然语句,所述视频数据库中包括至少一个视频类别,每个视频类别下的至少一个视频,以及各视频对应的自然语句,其中,所述各视频对应的自然语句采用所述视频处理系统预测得到;
获取所述相匹配的自然语句对应的匹配视频,并输出所述匹配视频。
再一方面,本发明实施例提供了一种视频处理装置,所述装置应用于视频处理系统中,所述视频处理系统包括编码器、解码器及重构器,所述装置包括:
处理单元,用于通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态;
重构单元,用于根据所述解码阶段的隐藏状态重构出目标视频的视频特征;
差异获取单元,用于获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性;
优化单元,用于根据所述差异性对所述解码器和/或所述重构器进行优化。
再一方面,本发明实施例提供一种视频检索装置,应用于视频处理系统中,所述视频处理系统包括编码器、解码器及重构器,所述装置包括:
接收单元,用于接收视频检索请求,所述视频检索请求携带检索关键信息;
检索单元,用于从视频数据库中查找与所述检索关键信息相匹配的自然语句,所述视频数据库中包括至少一个视频类别,每个视频类别下的至少一个视频,以及各视频对应的自然语句,其中,所述各视频对应的自然语句采用所述视频处理系统预测得到;
获取单元,用于获取所述相匹配的自然语句对应的匹配视频;
输出单元,用于输出所述匹配视频。
再一方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质应用于视频处理系统中,所述视频处理系统包括编码器、解码器及重构器,所述计算机存储介质存储有一条或一条以上第一指令,所述一条或一条以上第一指令适于由处理器加载并执行如下步骤:
通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态;
根据所述解码阶段的隐藏状态重构出目标视频的视频特征;
获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性;
根据所述差异性对所述解码器和/或所述重构器进行优化;
或者,所述计算机存储介质存储有一条或一条以上第二指令,所述一条或一条以上第二指令适于由处理器加载并执行如下步骤:
接收视频检索请求,所述视频检索请求携带检索关键信息;
从视频数据库中查找与所述检索关键信息相匹配的自然语句,所述视频数据库中包括至少一个视频类别,每个视频类别下的至少一个视频,以及各视频对应的自然语句,其中,所述各视频对应的自然语句采用所述视频处理系统预测得到;
获取所述相匹配的自然语句对应的匹配视频,并输出所述匹配视频。
再一方面,本发明实施例提供了一种服务器,所述服务器包括视频处理系统,所述视频处理系统包括编码器、解码器及重构器,所述服务器还包括:
处理器,适于实现一条或一条以上指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或一条以上第一指令,所述一条或一条以上第一指令适于由所述处理器加载并执行如下步骤:
通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态;
根据所述解码阶段的隐藏状态重构出目标视频的视频特征;
获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性;
根据所述差异性对所述解码器和/或所述重构器进行优化;
或者,所述计算机存储介质存储有一条或一条以上第二指令,所述一条或一条以上第二指令适于由处理器加载并执行如下步骤:
接收视频检索请求,所述视频检索请求携带检索关键信息;
从视频数据库中查找与所述检索关键信息相匹配的自然语句,所述视频数据库中包括至少一个视频类别,每个视频类别下的至少一个视频,以及各视频对应的自然语句,其中,所述各视频对应的自然语句采用所述视频处理系统预测得到;
获取所述相匹配的自然语句对应的匹配视频,并输出所述匹配视频。
本发明实施例利用了从视频内容与自然语句之间的双向信息,通过对原始视频进行编解码处理,既能够得到自然语句,又可获取原始视频的视频特征及解码阶段的隐藏状态来重构目标视频,基于目标视频与原始视频之间的差异性对视频处理系统的框架进行优化;这样通过获取视频内容与自然语句之间的双向信息来约束自然语句的生成过程,有利于提升自然语句的描述准确率,优化视频内容理解服务的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有的视频处理系统的框架结构示意图;
图2为本发明实施例的视频处理系统的框架结构示意图;
图3为本发明实施例提供的一种视频处理方法的流程图;
图4为本发明实施例提供的另一种视频处理方法的流程图;
图5为本发明实施例提供的再一种视频处理方法的流程图;
图6为本发明实施例提供的一种视频处理装置的结构示意图;
图7为本发明实施例提供的一种视频检索方法的流程图;
图8a为本发明实施例提供的一种视频类网站的页面示意图;
图8b为本发明实施例提供的一种视频类网站的视频检索界面示意图;
图8c为本发明实施例提供的一种视频类网站的检索结果界面示意图;
图9为本发明实施例提供的一种视频检索装置的结构示意图;
图10为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
为了方便快速了解视频的主要内容,视频内容理解服务应运而生。所谓视频内容理解服务是指通过对视频进行包括提取视频的特征、理解视频内容等一系列的编解码处理,最后生成用于描述视频内容的自然语句。换句话说,视频内容理解服务是将视频内容转换为采用一个自然语句来进行描述的服务。视频内容理解服务可以应用于多种互联网场景中,例如:视频内容理解服务可以应用于视频类网站的分类场景中,基于视频的自然语句描述来对视频进行分类;再如:视频内容理解服务还可以应用于视频类网站的检索场景中,基于视频的自然语句描述来对视频进行检索;还可与语音检索系统相结合,通过将视频的自然语句转换为语音输出以用于辅助视觉障碍者进行视频检索;等等。
衡量视频内容理解服务的质量优劣的一个重要因素,即是用于描述视频内容的自然语句的描述准确率。如果自然语句的描述准确率越高,表明自然语句所表达的内容与视频内容的匹配度越高,那么视频内容理解服务质量越优质,用户使用体验越佳;反之,自然语句的描述准确率越低,表明自然语句所表达的内容与视频内容的匹配度越低,那么视频内容理解服务质量越劣质,用户使用体验越差。现有技术采用图1所示的视频处理系统来实现视频内容理解服务;请参见图1,该视频处理系统的框架结构主要由编码器和解码器组成,相应地,现有的视频处理流程分为两个阶段,包括编码阶段及解码阶段;编码阶段:由编码器对原始视频的每一帧进行特征提取;解码阶段:通过诸如平均特征机制、注意力机制等方式对所提取的帧特征进行变换,再由解码器依据变换后的视频特征预测出用于描述该视频内容的自然语句。从上述的视频处理方案可以看出,现有技术中解码器是利用编码器输出的视频特征来进行自然语句的生成,这利用的是视频与自然语言之间的前向信息,即从视频内容到自然语句的信息;但是,现有技术忽略了视频与自然语言之间的后向信息,即从自然语句到视频内容的信息,也就是说,现有技术仅仅获得了用于描述视频内容的自然语句,但由于忽略了视频与自然语言之间的后向信息,导致该自然语句可能会由于忽略了视频内容的部分语义而使影响其对视频内容的描述准确率,从而影响了视频内容理解服务的质量。
基于此,本发明实施例提出这样一种视频处理的系统构想:既利用从视频内容到自然语句的前向信息,同时利用自然语句到视频内容的后向信息,通过双向信息的考虑提升自然语句对视频内容的描述准确率,从而优化视频内容理解服务的质量。具体原理如下:既然原始视频的内容经过一系列处理能够生成用于描述该原始视频的内容的自然语句,那么反过来,所生成的自然语句经过一系列处理也应当能够还原出原始视频的内容;如果还原出来的内容与原始视频的内容差异性较小(如小于预设阈值),表明所生成的自然语句对原始视频的内容描述较为准确,否则,表明所生成的自然语句对原始视频的内容描述不够准确。基于此原理,本发明实施例提出的视频处理系统在现有技术的基础上引入用于重构还原视频内容的重构器,请一并参见图2,本发明实施例的视频处理系统包括编码器、解码器以及重构器。需要特别说明的是,本发明后续实施例中,原始视频是指原始输入至编码器的待描述视频;目标视频是指由重构器根据解码得到的自然语句重构还原出来的输入视频。基于图2所示的视频处理系统,本发明实施例的视频处理流程主要分为四个阶段,包括编码阶段、解码阶段、重构阶段及优化阶段;具体如下:
一、编码阶段:
将原始视频输入至编码器中,由编码器对原始视频的每一帧进行特征提取,得到帧特征序列。一般地,编码器可以基于卷积神经网络(Convolutional Neural Network,CNN)来进行特征提取,本发明实施例以卷积神经网络Inception-V4为例,对于一个包含m(m为正整数)帧的原始视频,编码器利用卷积神经网络Inception-V4可提取到每一帧的特征vi,该特征vi为一个1536维度的特征向量;那么最终可获得帧特征序列V={v1,v2......vm}。
二、解码阶段:
在获得原始视频的帧特征序列V之后,可通过平均特征机制、注意力机制等方式对帧特征序列进行变换,再将变换得到的视频特征输入至解码器中,由解码器依据该视频特征预测多个解码时刻的单词,并按照时序将各解码时刻的单词进行合并生成用于描述原始视频的内容的自然语句。其中,平均特征机制是指按照求取平均特征的方法对帧特征序列进行整合变换。本发明实施例中,基于平均特征机制对上述的帧特征序列V进行整合,整合后的视频特征可表述为下述式(1):
Figure BDA0001588382720000061
其中,注意力机制(Attention Mechamism),又可称作注意力模型(AttentionModol)被广泛应用于自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,并且对深度学习任务具有极大的提升作用。注意力机制可分为空间注意力机制和时间注意力机制,在视频的编解码处理框架中尤以时间注意力机制应用较为广泛。具体实现中,在编码器框架内引入注意力机制对源序列进行加权变换,或在解码器框架内引入注意力机制对目标序列进行加权变换,均可有效提高序列对序列的自然方式下的系统表现。本发明实施例中,基于时间注意力机制对上述的帧特征序列V进行整合,整合后的视频特征可表述为下述式(2):
Figure BDA0001588382720000071
上述式(2)中,αi表示帧特征vi的动态权重,上述式(2)可知,时间注意力机制为每一个帧特征分配一个权重,整合特征为所有帧特征进行加权求和得到。
一般地,解码器可以递归神经网络(Recurrent Neural Network,RNN)来进行自然语句的预测,本发明实施例以长短期记忆单元(Long Short-Term Memory,LSTM)的循环神经网络(以下简称LSTM网络)为例,同时以通过时间注意力机制对帧特征序列进行变换为例进行说明。设解码器生成用于描述原始视频的内容的自然语句表示为S,该自然语句S的长度为n(n为正整数),该n的取值可以根据实际需要进行设定,例如:设定n=30,表示自然语句S的长度为30个单词长度;再如:设定n=25,表示自然语句S的长度为25个单词长度。由于自然语句S的长度为n,表示解码器在解码阶段总共进行n次解码处理,每次解码处理需要预测一个单词;即解码器在解码时刻t1预测得到单词s1,在解码时刻t2预测得到单词s2,以此类推,在解码时刻tn预测得到单词sn。也就是说,解码阶段中,解码器在任意解码时刻tk(k为正整数,且1≤k≤n)预测得到单词sk,那么,解码器预测得到的自然语句S={s1,s2,...sk,..,sn}。在此情况下,本发明实施例的解码阶段的具体处理流程如下:
为了捕获原始视频中的全局时间信息,解码器每进行一次单词的预测,就利用时间注意力机制对帧特征序列V进行一次整合,具体的整合处理参见上述式(2)。但需要特别说明的是,在本发明实施例的解码阶段,时间注意力在当前解码时刻为每一帧分配权重时,还需要考虑解码器的LSTM网络上一解码时刻的隐藏状态这一因素,这会使得每一解码时刻进行整合所获得的整合特征可能是不同的,因此上述式(2)可以变换表述为如下式(3):
Figure BDA0001588382720000081
上述式(3)中,
Figure BDA0001588382720000082
表示在任意解码时刻tk得到的整合特征;
Figure BDA0001588382720000083
表示在解码时刻tk为帧特征vi分配的动态权重。每一解码时刻得到的整合特征会输入至解码器,由解码器根据所输入的整合特征在每一解码时刻预测单词,解码器预测单词的过程可以参见如下式(4):
Figure BDA0001588382720000084
其中,sk∈S={s1,s2,...sk...,sn}表示自然语句S中的第k个单词;s<k表示自然语句S中已经预测得到的部分单词;θ表示解码器的处理参数;P()表示当前解码时刻预测得到的单词sk的概率;exp()表示指数函数;hk表示解码器的LSTM网络的第k个隐藏状态;f()表示解码器的LSTM网络的激活函数。由上述式(4)可知,解码阶段中,解码器能够预测出任一解码时刻tk的单词sk的概率,同时得到解码器的LSTM网络在任一解码时刻tk的隐藏状态hk,进而得到解码阶段的隐藏状态序列H={h1,h2,...hk,...hn}。
三、重构阶段:
将解码阶段的隐藏状态序列H通过平均特征机制或注意力机制等方式进行变换,将变换后的隐藏状态输入至重构器中,由重构器依据变换后的隐藏状态重构出目标视频的特征。
本发明实施例中,重构器可以基于深度神经网络来对输入视频的特征进行重构,此处的深度神经网络可包括但不限于:卷积神经网络、循环神经网络、深度神经网络等等。以LSTM网络为例,将解码阶段的隐藏状态序列H作为重构器的LSTM网络的输入,可重构出目标视频的全局特征和/或局部特征。此处的全局特征是指由所有视频帧共同反映的特征,局部特征是指一个一个的帧特征。
一种实施方式:重构目标视频的全局特征。
首先,为了重构出目标视频的全局特征,重构器要充分考虑解码阶段的所有解码时刻的隐藏状态,对应于解码阶段解码器所进行的n次解码处理,在重构阶段重构器需要进行n次重构处理;设重构时刻为tj,其中j为正整数,且1≤j≤n。可见,重构时刻tj与解码时刻tk一一相对应,此处的对应关系是指:利用解码时刻t1的隐藏状态h1,可重构出目标视频在重构时刻t1的全局特征;利用解码时刻t2的隐藏状态h2,可重构出目标视频在重构时刻t2的全局特征;同理,利用解码时刻tn的隐藏状态hn,可重构出目标视频在重构时刻tn的全局特征。上述可知,利用任意解码时刻tk的隐藏状态hk,可重构出目标视频在重构时刻tj的全局特征,此时j和k取值相同。本发明实施例可基于平均特征机制对解码阶段的隐藏状态序列H进行整合,可得到解码器预测出的自然语句的全局表达信息如下式(5):
Figure BDA0001588382720000091
式(5)中,φ(H)表示解码器的各解码时刻的隐藏状态的平均特征。
其次,将φ(H)、当前重构时刻tj对应的解码阶段的隐藏状态hj以及重构器在上一重构时刻tj-1的隐藏状态zj-1作为重构器的LSTM网络的输入,会得到重构器的当前重构时刻tj的隐藏状态zj。此过程可以参见如下式(6):
Figure BDA0001588382720000092
上式(6)中,
Figure BDA0001588382720000093
Figure BDA0001588382720000094
分别称为输入门、遗忘门、记忆门和输出门;tanh()是双曲正切函数;σ是神经网络常见的激活函数sigmoid函数;zj不仅表示重构器在当前重构时刻tj的隐藏状态,同时还表示重构器在当前重构时刻tj重构出来的目标视频的全局特征。
另一种实施方式:重构目标视频的局部特征。
首先,重构器需要重构出一个包含m(m为正整数)帧的目标视频中的每一个视频帧的特征,也就是说,在重构目标视频的局部特征时,重构器需要进行m次的重构处理,此时,设重构时刻为tj,j为正整数且1≤j≤m。设重构器在重构时刻t1重构得到帧特征z1,在重构时刻t2重构得到帧特征z2,以此类推,在重构时刻tm重构得到帧特征zm。基于时间注意力机制对解码阶段的隐藏状态序列进行变换,此变换的过程具体为:在每个重构时刻,重构器每进行一次帧特征的重构处理,就利用时间注意力机制对解码器的隐藏状态序列进行一次变换。这个过程可发掘出解码器所预测得到的自然语句的局部表达信息,即得到当前重构时刻tj的文本信息
Figure BDA0001588382720000109
Figure BDA0001588382720000102
其次,将
Figure BDA0001588382720000103
及重构器上一重构时刻tj-1的隐藏状态zj-1作为重构器的LSTM网络的输入,会得到重构器的当前重构时刻tj的隐藏状态zj,该过程可以表示为如下式(8):
Figure BDA0001588382720000104
上述式(8)中,
Figure BDA0001588382720000105
不仅表示重构器在当前重构时刻tj的隐藏状态,同时还表示重构器在当前重构时刻tj重构出来的目标视频的一个帧特征。
四、优化阶段:
将目标视频的特征与原始输入的原始视频的特征进行比对,如果二者差异较小(小于预设阈值),那么表明解码器所生成的自然语句对原始视频的视频内容的描述较为准确;反之,如果二者差异较大(大于预设阈值),那么表明解码器所生成的自然语句对原始视频的视频内容的描述不够准确,在这种情况下,可以基于二者之间的差异性去优化训练解码器和/或重构器的处理参数,使得二者差异性逐渐减小,这个过程就是利用了自然语言到视频内容的后向信息来约束解码器对自然语句的生成。随着不断优化,视频处理系统的整体框架网络趋于稳定,所生成的自然语句对视频内容的描述也就更为准确。
一种实施方式中,利用原始视频的全局特征和目标视频的全局特征之间的欧氏距离构建重构器的全局损失函数
Figure BDA0001588382720000106
表示为:
Figure BDA0001588382720000107
上述(9)中,Z表示重构出的输入视频的全局特征序列,Z={z1,z2,...zn};
Figure BDA0001588382720000108
表示求取欧氏距离。
另一种实施方式中,利用重构器目标视频的视频帧特征与原始视频中的帧特征之间的平均欧氏距离构建得到重构器的局部损失函数
Figure BDA0001588382720000111
表示为:
Figure BDA0001588382720000112
由于整个视频处理系统的差异函数是由解码器的损失函数和重构器的损失函数两部分构成,那么综合上述重构器的损失函数,可得到整个视频处理系统的差异函数的表达式如下:
Figure BDA0001588382720000113
上述式(11)中,θrec表示重构器的处理参数;λ为经验参数,用于平衡重构器的损失对整个视频处理系统的影响,且λ的值可根据实际经验设定。根据经验在重构目标视频的全局特征时,上述式(11)中Lrec(V,Z;θrec)替换为式(9)且λ的值可设置为0.2;在重构目标视频的局部特征时,上述式(11)中Lrec(V,Z;θrec)替换为式(10)且λ的值可设置为0.1。
综上可知,上式(11)反映了原始视频的特征与目标视频的特征之间的差异性,优化阶段的作用就是通过对视频处理系统的整体框架网络进行优化训练,不断减小式(11)所反映的差异性,从而约束自然语句的生成,使得自然语句的描述准确率更高。由式(11)可知,差异性主要是受解码器的处理参数θ和重构器的处理参数θrec影响的,优化阶段的过程就是基于上式(11)的差异函数对解码器的处理参数和/或重构码器的处理参数进行训练,使得式(11)的结果小于预设阈值,以减小差异性。
可以理解的是,根据式(11)可知,在优化训练过程中解码器的优化目标为:
Figure BDA0001588382720000114
本发明实施例既利用了从视频内容到自然语句的前向信息,对原始视频进行编解码处理得到自然语句;同时利用了自然语句到视频内容的后向信息,通过获取原始视频的视频特征及解码阶段的隐藏状态来重构目标视频,基于目标视频与原始视频之间的差异性对视频处理系统的框架进行优化;这样通过获取视频内容与自然语句之间的双向信息来约束自然语句的生成过程,有利于提升自然语句的描述准确率,优化视频内容理解服务的质量。
基于上述描述,本发明实施例提供了一种视频处理方法,该方法可以应用于图2所示的视频处理系统中,请参见图3,该方法可包括以下步骤S101-S104。
S101,通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态。
S102,根据所述解码阶段的隐藏状态重构出目标视频的视频特征。
S103,获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性。
S104,根据所述差异性对解码器和/或重构器进行优化。
本发明实施例既利用了从视频内容到自然语句的前向信息,对原始视频进行编解码处理得到自然语句;同时利用了自然语句到视频内容的后向信息,通过获取原始视频的视频特征及解码阶段的隐藏状态来重构目标视频,基于目标视频与原始视频之间的差异性对视频处理系统的框架进行优化;这样通过获取视频内容与自然语句之间的双向信息来约束自然语句的生成过程,有利于提升自然语句的描述准确率,优化视频内容理解服务的质量。
本发明实施例提供了另一种视频处理方法,该方法可以应用于图2所示的视频处理系统中,请参见图4,该方法可包括以下步骤S201-S211。
S201,调用所述编码器提取所述原始视频的帧特征。
S202,按照所述原始视频的视频帧的时序对提取到的帧特征进行合并,生成所述原始视频的帧特征序列。
S203,获取所述解码器在多个解码时刻的隐藏状态。
该步骤S203可包括以下步骤s11-s13:
s11,在每个解码时刻,基于平均特征机制或时间注意力机制对所述原始视频的帧特征序列中的各帧特征进行整合,得到整合特征。
s12,调用所述解码器对所述整合特征进行解码处理以预测出单词。
s13,获取所述解码器在每个解码时刻的隐藏状态。
其中,各解码时刻预测出的单词按照各解码时刻的时序合并形成用于描述所述原始视频的自然语句。
S204,按照解码时刻的时序对获取到的多个解码时刻的隐藏状态进行合并,得到解码阶段的隐藏状态序列。
S205,将平均特征机制作用于所述解码阶段的隐藏状态序列,得到所述自然语句的全局表达信息。
S206,调用所述重构器根据所述自然语句的全局表达信息及所述解码阶段的隐藏状态序列重构出目标视频的全局特征。
S207,计算所述目标视频的全局特征与所述原始视频的帧特征序列之间的第一欧氏距离。
S208,根据所述第一欧氏距离构建所述重构器的全局损失函数。
S209,获取所述解码器的损失函数。
S210,根据所述解码器的损失函数及所述重构器的全局损失函数构建全局差异函数,所述全局差异函数用于描述所述目标视频与所述原始视频之间的全局特征差异性。
S211,根据所述差异性对所述解码器的处理参数进行优化更新;和/或根据所述差异性对所述重构器的处理参数进行优化更新。
本发明实施例既利用了从视频内容到自然语句的前向信息,对原始视频进行编解码处理得到自然语句;同时利用了自然语句到视频内容的后向信息,通过获取原始视频的视频特征及解码阶段的隐藏状态来重构目标视频,基于目标视频与原始视频之间的差异性对视频处理系统的框架进行优化;这样通过获取视频内容与自然语句之间的双向信息来约束自然语句的生成过程,有利于提升自然语句的描述准确率,优化视频内容理解服务的质量。
本发明实施例提供了再一种视频处理方法,该方法可以应用于图2所示的视频处理系统中,请参见图5,该方法可包括以下步骤S301-S311。
S301,调用所述编码器提取所述原始视频的帧特征。
S302,按照所述原始视频的视频帧的时序对提取到的帧特征进行合并,生成所述原始视频的帧特征序列。
S303,获取所述解码器在多个解码时刻的隐藏状态。
S304,按照解码时刻的时序对获取到的多个解码时刻的隐藏状态进行合并,得到解码阶段的隐藏状态序列。
S305,将时间注意力机制作用于所述解码器在各解码时刻的隐藏状态,得到所述自然语句的局部表达信息。
S306,调用所述重构器根据所述自然语句的局部表达信息及所述解码器在各解码时刻的隐藏状态重构出输入视频的局部特征。
S307,计算所述目标视频的局部特征与所述原始视频的帧特征之间的第二欧氏距离。
S308,根据所述第二欧氏距离构建所述重构器的局部损失函数。
S309,获取所述解码器的损失函数。
S310,根据所述解码器的损失函数及所述重构器的局部损失函数构建局部差异函数,所述局部差异函数用于描述所述目标视频的视频帧与所述原始视频的视频帧之间的差异性。
S311,根据所述差异性对所述解码器的处理参数进行优化更新;和/或根据所述差异性对所述重构器的处理参数进行优化更新。
本发明实施例既利用了从视频内容到自然语句的前向信息,对原始视频进行编解码处理得到自然语句;同时利用了自然语句到视频内容的后向信息,通过获取原始视频的视频特征及解码阶段的隐藏状态来重构目标视频,基于目标视频与原始视频之间的差异性对视频处理系统的框架进行优化;这样通过获取视频内容与自然语句之间的双向信息来约束自然语句的生成过程,有利于提升自然语句的描述准确率,优化视频内容理解服务的质量。
基于上述视频处理系统及视频处理方法实施例的描述,本发明实施例还公开了一种视频处理装置,该视频处理装置可以是运行于服务器中的一个计算机程序(包括程序代码),该视频处理装置可以被应用于图3-图5所示实施例的视频处理方法中,以用于执行视频处理方法中的步骤。请参见图6,该视频处理装置运行如下单元:
处理单元101,用于通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态。
重构单元102,用于根据所述解码阶段的隐藏状态重构出目标视频的视频特征。
差异获取单元103,用于获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性。
优化单元104,用于根据所述差异性对所述解码器和/或所述重构器进行优化。
一种实施方式中,所述处理单元101具体用于:
调用所述编码器提取所述原始视频的帧特征;
按照所述原始视频的视频帧的时序对提取到的帧特征进行合并,生成所述原始视频的帧特征序列;
获取所述解码器在多个解码时刻的隐藏状态;
按照解码时刻的时序对获取到的多个解码时刻的隐藏状态进行合并,得到解码阶段的隐藏状态序列。
另一种实施方式中,所述处理单元101具体用于:
在每个解码时刻,基于平均特征机制或时间注意力机制对所述原始视频的帧特征序列中的各帧特征进行整合,得到整合特征;
调用所述解码器对所述整合特征进行解码处理以预测出单词;
获取所述解码器在每个解码时刻的隐藏状态;
其中,各解码时刻预测出的单词按照各解码时刻的时序合并形成用于描述所述原始视频的自然语句。
再一种实施方式中,所述重构单元102具体用于:
将平均特征机制作用于所述解码阶段的隐藏状态序列,得到所述自然语句的全局表达信息;
调用所述重构器根据所述自然语句的全局表达信息及所述解码阶段的隐藏状态序列重构出目标视频的全局特征。
再一种实施方式中,所述差异获取单元103具体用于:
计算所述目标视频的全局特征与所述原始视频的帧特征序列之间的第一欧氏距离;
根据所述第一欧氏距离构建所述重构器的全局损失函数;
获取所述解码器的损失函数;
根据所述解码器的损失函数及所述重构器的全局损失函数构建全局差异函数,所述全局差异函数用于描述所述目标视频与所述原始视频之间的全局特征差异性。
再一种实施方式中,所述重构单元102具体用于:
将时间注意力机制作用于所述解码器在各解码时刻的隐藏状态,得到所述自然语句的局部表达信息;
调用所述重构器根据所述自然语句的局部表达信息及所述解码器在各解码时刻的隐藏状态重构出输入视频的局部特征。
再一种实施方式中,所述差异获取单元103具体用于:
计算所述目标视频的局部特征与所述原始视频的帧特征之间的第二欧氏距离;
根据所述第二欧氏距离构建所述重构器的局部损失函数;
获取所述解码器的损失函数;
根据所述解码器的损失函数及所述重构器的局部损失函数构建局部差异函数,所述局部差异函数用于描述所述目标视频的视频帧与所述原始视频的视频帧之间的差异性。
再一种实施方式中,所述优化单元104具体用于:
根据所述差异性对所述解码器的处理参数进行优化更新;和/或
根据所述差异性对所述重构器的处理参数进行优化更新。
根据本发明的一个实施例,图3所示的视频处理方法涉及的步骤S101-S104可以是由图6所示的视频处理装置中的各个单元来执行的。例如,图3中所示的步骤S101、S102、S103、S104可以分别由图6中所示的处理单元101、重构单元102、差异获取单元103、优化单元104来执行。
根据本发明的一个实施例,图4所示的视频处理方法涉及的步骤S201-S211可以是由图6所示的视频处理装置中的各个单元来执行的。例如,图4中所示的步骤S201-S204、S205-S206、S207-S210、S211可以分别由图6中所示的处理单元101、重构单元102、差异获取单元103、优化单元104来执行。
根据本发明的一个实施例,图5所示的视频处理方法涉及的步骤S201-S211可以是由图6所示的视频处理装置中的各个单元来执行的。例如,图5中所示的步骤S301-S304、S305-S306、S307-S310、S311可以分别由图6中所示的处理单元101、重构单元102、差异获取单元103、优化单元104来执行。
根据本发明的另一个实施例,图6所示的视频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,视频处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
本发明实施例既利用了从视频内容到自然语句的前向信息,对原始视频进行编解码处理得到自然语句;同时利用了自然语句到视频内容的后向信息,通过获取原始视频的视频特征及解码阶段的隐藏状态来重构目标视频,基于目标视频与原始视频之间的差异性对视频处理系统的框架进行优化;这样通过获取视频内容与自然语句之间的双向信息来约束自然语句的生成过程,有利于提升自然语句的描述准确率,优化视频内容理解服务的质量。
基于上述视频处理系统、视频处理方法及视频处理装置实施例的描述,本发明实施例还公开了一种视频检索方法,请参见图7,该方法可包括以下步骤S401-S404。
S401,接收视频检索请求,所述视频检索请求携带检索关键信息。
实际应用中,图2所示的视频处理系统可以部署在视频类网站的后台服务器中,该视频处理系统能够为视频类网站中的所有视频预测生成描述准确率较高的自然语句,从而为视频类网站提供优质的视频内容理解服务(如视频检索服务)。具体实现中,视频类网站可以提供视频检索入口,请参见图8a,视频类网站设有视频检索快捷按键(图8a所示的虚线框部分),当该视频检索快捷按键被触发(如点击、选择)时,会进入图8b所示的视频检索界面,该视频检索界面包括输入接口,用户可以在该输入接口中输入检索关键信息,并点击“搜索”按键从而发起视频检索请求,该视频检索请求携带用户所输入的检索关键信息,那么,视频类网站前端(如浏览器客户端)则会将该视频检索请求发送至后台服务器,由后台服务器基于图2所示的视频处理系统为该用户提供视频检索服务。需要说明的是,再请参见图8b,视频检索界面中的输入接口可以包括文本输入接口及语音输入接口,通过文本输入接口所输入的检索关键信息为检索文本,例如:检索文本为关键词“吐槽”、“奔跑”等字符;通过语音输入接口所输入的检索关键信息为检索音频,例如:检索音频为用户上传的待检索视频中出现的一段语音,或录制的用户语音等音频。
S402,从视频数据库中查找与所述检索关键信息相匹配的自然语句。
视频数据库收录了视频类网站内的所有视频,具体地,所述视频数据库中包括至少一个视频类别,每个视频类别下的至少一个视频,以及各视频对应的自然语句,其中,所述各视频对应的自然语句采用所述视频处理系统预测得到。视频数据库可以表示为如下表:
表一:视频数据库
视频 视频类别 自然语句
Video-1 电视剧 自然语句一
Video-2 电影 自然语句二
Video-3 综艺 自然语句三
需要说明的是,视频类别可以是视频类网站根据各种属性进行设置的,例如:可根据内容属性设置如表一所示的视频类别,也可以根据地域属性设置大陆、港台、欧美、日韩等视频类别,等等;每一种视频类别会包含标签集合,标签集合中可收录多个标签,这些标签可以来源于该视频类别下的视频的内容标签、后台人工设置的标签,或者用户的点评标签等等。视频数据库可以依据各视频的自然语句来对视频进行分类,具体地,视频的自然语句是由多个单词按序组成的,那么,视频的自然语句可以采用单词集合表示,例如:Video-1对应的自然语句一可以表示为{单词1,单词2,…单词n}。由于每一个视频类别也会有对应的标签集合,通过计算视频的自然语句对应单词集合与视频类别的标签集合之间的匹配度,从而实现对视频的分类。
如前述,检索关键信息可以包括检索文本或检索音频。一种实施方式中,若检索关键信息为检索文本,该检索文本实际上也可以表示为一个关键词集合,可表示为{关键词1,关键词2…关键词n},例如:检索文本包括“吐槽”、“奔跑”这两个字符,那么其对应的关键词集合为{吐槽,奔跑}。这时可分别计算该关键词集合与表一所示的各视频的自然语句对应单词集合之间的相似度,如果该关键词集合与某自然语句对应的单词集合之间的相似度大于预设阈值,则表明二者匹配,否则不匹配。这样,就可以从视频数据库中查找到与所述检索关键信息相匹配的一个或多个自然语句。
另一种实施方式中,若检索关键信息为检索音频,那么为了方便后续处理,可以首先采用音频转文本技术,将检索音频转换为检索文本,再依据上述实施方式中的匹配方法,从视频数据库中查找到与所述检索关键信息相匹配的一个或多个自然语句。本实施方式可用于辅助视觉障碍者进行视频检索,提升视频类网站的视频检索功能的智能性及实用性。
S403,获取所述相匹配的自然语句对应的匹配视频。
S404,输出所述匹配视频。
步骤S403-S404中,举例来说,设检索关键信息与自然语句一之间的相似度大于预设阈值,并且检索关键信息与自然语句二之间的相似度也大于预设阈值,那么该检索关键信息与自然语句一相匹配,同时与自然语句二相匹配,那么根据上述表一可获得匹配视频包括Video-1和Video-2;进一步可参见图8c所示的检索结果界面,在该检索结果界面中显示匹配视频Video-1和Video-2。可以理解的是,匹配视频的数量可以为一个或多个,在输出所述匹配视频时,可以按照匹配视频的自然语句与检索关键信息之间的相似度由高至低的顺序进行输出,也可以按照随机顺序输出。
本发明实施例基于优化的视频处理系统的框架能够为视频预测出准确率较高的自然语句,根据该自然语句获得满足视频检索需求的匹配视频,从而为用户提供优质的视频检索服务,提升了视频处理系统的智能性和实用性。
基于上述实施例所示的视频检索方法,本发明实施例还提供了一种视频检索装置,该视频检索装置可以是运行于服务器中的一个计算机程序(包括程序代码),该视频检索装置可以被应用于图7所示实施例的视频检索方法中,以用于执行视频检索方法中的步骤。请参见图9,该视频检索装置运行如下单元:
接收单元201,用于接收视频检索请求,所述视频检索请求携带检索关键信息。
检索单元202,用于从视频数据库中查找与所述检索关键信息相匹配的自然语句,所述视频数据库中包括至少一个视频类别,每个视频类别下的至少一个视频,以及各视频对应的自然语句,其中,所述各视频对应的自然语句采用所述视频处理系统预测得到。
获取单元203,用于获取所述相匹配的自然语句对应的匹配视频。
输出单元204,用于输出所述匹配视频。
根据本发明的一个实施例,图7所示的视频检索方法涉及的步骤S401-S404可以是由图9所示的视频检索装置中的各个单元来执行的。例如,图7中所示的步骤S401、S402、S403、S404可以分别由图9中所示的接收单元201、检索单元202、获取单元203、输出单元204来执行。
根据本发明的另一个实施例,图9所示的视频检索装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,视频检索装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
本发明实施例基于优化的视频处理系统的框架能够为视频预测出准确率较高的自然语句,根据该自然语句获得满足视频检索需求的匹配视频,从而为用户提供优质的视频检索服务,提升了视频处理系统的智能性和实用性。
基于上述实施例所示视频处理系统、视频处理方法及视频检索方法,本发明实施例还提供了一种服务器,该服务器可以是视频类网站的后台服务器。请参见图10,该服务器的内部结构至少包括图2所示的视频处理系统,即包括编码器、解码器及重构器,进一步,该服务器的内部还包括处理器、通信接口及计算机存储介质。其中,服务器内的处理器、通信接口及计算机存储介质可通过总线或其他方式连接,在本发明实施例所示图10中以通过总线连接为例。
通信接口是实现服务器与外部设备(如终端设备)之间进行交互和信息交换的媒介。处理器(或称CPU(Central Processing Unit,中央处理器))是服务器的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例的一种实施方式中,所述的处理器用于控制视频处理系统对原始视频进行编解码处理,重构目标视频,获取目标视频与原始视频之间的差异性,以及根据差异性对视频处理系统的框架进行优化;等等。本发明实施例的另一种实施方式中,所述处理器用于根据视频检索请求中携带的检索关键信息,从视频数据库中查找相匹配的自然语句;获得并输出匹配的自然语句对应的匹配视频;等等。计算机存储介质(Memory)是服务器中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括服务器的内置存储介质,当然也可以包括服务器所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了服务器的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,所述计算机存储介质存储有一条或一条以上第一指令,处理器加载并执行计算机存储介质中存放的一条或一条以上第一指令,以实现上述图3-5所示方法流程中的相应步骤;具体实现中,计算机存储介质中的一条或一条以上第一指令由处理器加载并执行如下步骤:
通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态;
根据所述解码阶段的隐藏状态重构出目标视频的视频特征;
获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性;
根据所述差异性对所述解码器和/或所述重构器进行优化。
一种实施方式中,所述处理器加载计算机存储介质中的一条或一条以上第一指令执行所述通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态的步骤的过程中,具体执行如下步骤:
调用所述编码器提取所述原始视频的帧特征;
按照所述原始视频的视频帧的时序对提取到的帧特征进行合并,生成所述原始视频的帧特征序列;
获取所述解码器在多个解码时刻的隐藏状态;
按照解码时刻的时序对获取到的多个解码时刻的隐藏状态进行合并,得到解码阶段的隐藏状态序列。
另一种实施方式中,所述处理器加载计算机存储介质中的一条或一条以上第一指令执行所述获取所述解码器在多个解码时刻的隐藏状态的步骤的过程中,具体执行如下步骤:
在每个解码时刻,基于平均特征机制或时间注意力机制对所述原始视频的帧特征序列中的各帧特征进行整合,得到整合特征;
调用所述解码器对所述整合特征进行解码处理以预测出单词;
获取所述解码器在每个解码时刻的隐藏状态;
其中,各解码时刻预测出的单词按照各解码时刻的时序合并形成用于描述所述原始视频的自然语句。
再一种实施方式中,所述处理器加载计算机存储介质中的一条或一条以上第一指令执行所述根据所述解码阶段的隐藏状态重构出目标视频的视频特征的步骤的过程中,具体执行如下步骤:
将平均特征机制作用于所述解码阶段的隐藏状态序列,得到所述自然语句的全局表达信息;
调用所述重构器根据所述自然语句的全局表达信息及所述解码阶段的隐藏状态序列重构出目标视频的全局特征。
再一种实施方式中,所述处理器加载计算机存储介质中的一条或一条以上第一指令执行所述获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性的步骤的过程中,具体执行如下步骤:
计算所述目标视频的全局特征与所述原始视频的帧特征序列之间的第一欧氏距离;
根据所述第一欧氏距离构建所述重构器的全局损失函数;
获取所述解码器的损失函数;
根据所述解码器的损失函数及所述重构器的全局损失函数构建全局差异函数,所述全局差异函数用于描述所述目标视频与所述原始视频之间的全局特征差异性。
再一种实施方式中,所述处理器加载计算机存储介质中的一条或一条以上第一指令执行所述根据所述解码阶段的隐藏状态重构出目标视频的视频特征的步骤的过程中,具体执行如下步骤:
将时间注意力机制作用于所述解码器在各解码时刻的隐藏状态,得到所述自然语句的局部表达信息;
调用所述重构器根据所述自然语句的局部表达信息及所述解码器在各解码时刻的隐藏状态重构出输入视频的局部特征。
再一种实施方式中,所述处理器加载计算机存储介质中的一条或一条以上第一指令执行所述获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性的步骤的过程中,具体执行如下步骤:
计算所述目标视频的局部特征与所述原始视频的帧特征之间的第二欧氏距离;
根据所述第二欧氏距离构建所述重构器的局部损失函数;
获取所述解码器的损失函数;
根据所述解码器的损失函数及所述重构器的局部损失函数构建局部差异函数,所述局部差异函数用于描述所述目标视频的视频帧与所述原始视频的视频帧之间的差异性。
再一种实施方式中,所述处理器加载计算机存储介质中的一条或一条以上第一指令执行所述根据所述差异性对所述解码器和/或所述重构器进行优化的步骤的中,具体执行如下步骤:
根据所述差异性对所述解码器的处理参数进行优化更新;和/或
根据所述差异性对所述重构器的处理参数进行优化更新。
本实施例既利用了从视频内容到自然语句的前向信息,对原始视频进行编解码处理得到自然语句;同时利用了自然语句到视频内容的后向信息,通过获取原始视频的视频特征及解码阶段的隐藏状态来重构目标视频,基于目标视频与原始视频之间的差异性对视频处理系统的框架进行优化;这样通过获取视频内容与自然语句之间的双向信息来约束自然语句的生成过程,有利于提升自然语句的描述准确率,优化视频内容理解服务的质量。
在另一个实施例中,所述计算机存储介质存储有一条或一条以上第二指令,处理器加载并执行计算机存储介质中存放的一条或一条以上第二指令,以实现上述图7所示方法流程中的相应步骤;具体实现中,计算机存储介质中的一条或一条以上第二指令由处理器加载并执行如下步骤:
接收视频检索请求,所述视频检索请求携带检索关键信息;
从视频数据库中查找与所述检索关键信息相匹配的自然语句,所述视频数据库中包括至少一个视频类别,每个视频类别下的至少一个视频,以及各视频对应的自然语句,其中,所述各视频对应的自然语句采用所述视频处理系统预测得到;
获取所述相匹配的自然语句对应的匹配视频,并输出所述匹配视频。
一种实施方式中,所述检索关键信息包括检索文本或检索音频;若所述检索关键信息为检索音频,则所述处理器加载计算机存储介质中的一条或一条以上第二指令执行从视频数据库中查找与所述检索关键信息相匹配的自然语句的步骤之前,还执行如下步骤:将所述检索音频转换为检索文本。
本实施例基于优化的视频处理系统的框架能够为视频预测出准确率较高的自然语句,根据该自然语句获得满足视频检索需求的匹配视频,从而为用户提供优质的视频检索服务,提升了视频处理系统的智能性和实用性。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (14)

1.一种视频处理方法,应用于视频处理系统中,所述视频处理系统包括编码器及解码器,其特征在于,所述视频处理系统还包括重构器,所述方法包括:
通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态;
根据所述解码阶段的隐藏状态重构出目标视频的视频特征;
获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性;
根据所述差异性对所述解码器和/或所述重构器进行优化;
其中,所述编解码处理包括编码阶段的处理和解码阶段的处理;所述编码阶段的处理包括采用所述编码器对所述原始视频进行特征提取的处理;所述解码阶段的处理包括采用所述解码器根据所述编码器提取的所述原始视频的视频特征预测用于描述所述原始视频的视频内容的自然语句的处理;所述重构器用于在重构阶段根据所述解码阶段的隐藏状态重构出所述目标视频的视频特征。
2.如权利要求1所述的方法,其特征在于,所述通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态,包括:
调用所述编码器提取所述原始视频的帧特征;
按照所述原始视频的视频帧的时序对提取到的帧特征进行合并,生成所述原始视频的帧特征序列;
获取所述解码器在多个解码时刻的隐藏状态;
按照解码时刻的时序对获取到的多个解码时刻的隐藏状态进行合并,得到解码阶段的隐藏状态序列。
3.如权利要求2所述的方法,其特征在于,所述获取所述解码器在多个解码时刻的隐藏状态,包括:
在每个解码时刻,基于平均特征机制或时间注意力机制对所述原始视频的帧特征序列中的各帧特征进行整合,得到整合特征;
调用所述解码器对所述整合特征进行解码处理以预测出单词;
获取所述解码器在每个解码时刻的隐藏状态;
其中,各解码时刻预测出的单词按照各解码时刻的时序合并形成用于描述所述原始视频的自然语句。
4.如权利要求3所述的方法,其特征在于,所述根据所述解码阶段的隐藏状态重构出目标视频的视频特征,包括:
将平均特征机制作用于所述解码阶段的隐藏状态序列,得到所述自然语句的全局表达信息;
调用所述重构器根据所述自然语句的全局表达信息及所述解码阶段的隐藏状态序列重构出目标视频的全局特征。
5.如权利要求4所述的方法,其特征在于,所述获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性,包括:
计算所述目标视频的全局特征与所述原始视频的帧特征序列之间的第一欧氏距离;
根据所述第一欧氏距离构建所述重构器的全局损失函数;
获取所述解码器的损失函数;
根据所述解码器的损失函数及所述重构器的全局损失函数构建全局差异函数,所述全局差异函数用于描述所述目标视频与所述原始视频之间的全局特征差异性。
6.如权利要求3所述的方法,其特征在于,所述根据所述解码阶段的隐藏状态重构出目标视频的视频特征,包括:
将时间注意力机制作用于所述解码器在各解码时刻的隐藏状态,得到所述自然语句的局部表达信息;
调用所述重构器根据所述自然语句的局部表达信息及所述解码器在各解码时刻的隐藏状态重构出输入视频的局部特征。
7.如权利要求6所述的方法,其特征在于,所述获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性,包括:
计算所述目标视频的局部特征与所述原始视频的帧特征之间的第二欧氏距离;
根据所述第二欧氏距离构建所述重构器的局部损失函数;
获取所述解码器的损失函数;
根据所述解码器的损失函数及所述重构器的局部损失函数构建局部差异函数,所述局部差异函数用于描述所述目标视频的视频帧与所述原始视频的视频帧之间的差异性。
8.如权利要求1-7任一项所述的方法,其特征在于,所述根据所述差异性对所述解码器和/或所述重构器进行优化,包括:
根据所述差异性对所述解码器的处理参数进行优化更新;和/或
根据所述差异性对所述重构器的处理参数进行优化更新。
9.一种视频检索方法,应用于视频处理系统中,所述视频处理系统包括编码器及解码器,其特征在于,所述视频处理系统还包括重构器,所述视频处理系统中的所述解码器和所述重构器是采用如权利要求1-8任一项所述的视频处理方法进行优化后得到的;所述视频检索方法包括:
接收视频检索请求,所述视频检索请求携带检索关键信息;
从视频数据库中查找与所述检索关键信息相匹配的自然语句,所述视频数据库中包括至少一个视频类别,每个视频类别下的至少一个视频,以及各视频对应的自然语句,其中,所述各视频对应的自然语句采用所述视频处理系统预测得到;
获取所述相匹配的自然语句对应的匹配视频,并输出所述匹配视频。
10.如权利要求9所述的视频检索方法,其特征在于,所述检索关键信息包括检索文本或检索音频;
若所述检索关键信息为检索音频,则从视频数据库中查找与所述检索关键信息相匹配的自然语句之前,还包括:将所述检索音频转换为检索文本。
11.一种视频处理装置,应用于视频处理系统中,所述视频处理系统包括编码器及解码器,其特征在于,所述视频处理系统还包括重构器,所述装置包括:
处理单元,用于通过对原始视频进行编解码处理,获取所述原始视频的视频特征及解码阶段的隐藏状态;
重构单元,用于根据所述解码阶段的隐藏状态重构出目标视频的视频特征;
差异获取单元,用于获取所述目标视频的视频特征与所述原始视频的视频特征之间的差异性;
优化单元,用于根据所述差异性对所述解码器和/或所述重构器进行优化;
其中,所述编解码处理包括编码阶段的处理和解码阶段的处理;所述编码阶段的处理包括采用所述编码器对所述原始视频进行特征提取的处理;所述解码阶段的处理包括采用所述解码器根据所述编码器提取的所述原始视频的视频特征预测用于描述所述原始视频的视频内容的自然语句的处理;所述重构器用于在重构阶段根据所述解码阶段的隐藏状态重构出所述目标视频的视频特征。
12.一种视频检索装置,应用于视频处理系统中,所述视频处理系统包括编码器及解码器,其特征在于,所述视频处理系统还包括重构器,所述视频处理系统中的所述解码器和所述重构器是采用如权利要求1-8任一项所述的视频处理方法进行优化后得到的;所述视频检索装置包括:
接收单元,用于接收视频检索请求,所述视频检索请求携带检索关键信息;
检索单元,用于从视频数据库中查找与所述检索关键信息相匹配的自然语句,所述视频数据库中包括至少一个视频类别,每个视频类别下的至少一个视频,以及各视频对应的自然语句,其中,所述各视频对应的自然语句采用所述视频处理系统预测得到;
获取单元,用于获取所述相匹配的自然语句对应的匹配视频;
输出单元,用于输出所述匹配视频。
13.一种计算机存储介质,应用于视频处理系统中,所述视频处理系统包括编码器及解码器,其特征在于,所述视频处理系统还包括重构器,所述计算机存储介质存储有一条或多条第一指令,所述一条或多条第一指令适于由处理器加载并执行如权利要求1-8任一项所述的视频处理方法;或者,所述计算机存储介质存储有一条或多条第二指令,所述一条或多条第二指令适于由处理器加载并执行如权利要求9或10所述的视频检索方法。
14.一种服务器,所述服务器包括视频处理系统,所述视频处理系统包括编码器及解码器,其特征在于,所述视频处理系统还包括重构器,所述服务器还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条第一指令,所述一条或多条第一指令适于由所述处理器加载并执行如权利要求1-8任一项所述的视频处理方法,或者,所述计算机存储介质存储有一条或多条第二指令,所述一条多条第二指令适于由所述处理器加载并执行如权利要求9或10所述的视频检索方法。
CN201810179638.4A 2018-03-05 2018-03-05 视频处理方法、视频检索方法、装置、介质及服务器 Active CN108419094B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201810179638.4A CN108419094B (zh) 2018-03-05 2018-03-05 视频处理方法、视频检索方法、装置、介质及服务器
CN201910848343.6A CN110475129B (zh) 2018-03-05 2018-03-05 视频处理方法、介质及服务器
PCT/CN2019/075534 WO2019169996A1 (zh) 2018-03-05 2019-02-20 视频处理、视频检索方法、装置、存储介质及服务器
EP19763983.4A EP3764276A4 (en) 2018-03-05 2019-02-20 VIDEO PROCESSING PROCESS AND APPARATUS, VIDEO RECOVERY PROCESS AND APPARATUS, INFORMATION MEDIA AND SERVER
US16/893,174 US11368705B2 (en) 2018-03-05 2020-06-04 Video feature extraction and video content understanding method, apparatus, storage medium and server
US16/893,154 US20200304822A1 (en) 2018-03-05 2020-06-04 Video processing method and apparatus, video retrieval method and apparatus, storage medium, and server
US17/746,763 US11934454B2 (en) 2018-03-05 2022-05-17 Video processing method and apparatus, video retrieval method and apparatus, storage medium, and server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810179638.4A CN108419094B (zh) 2018-03-05 2018-03-05 视频处理方法、视频检索方法、装置、介质及服务器

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910848343.6A Division CN110475129B (zh) 2018-03-05 2018-03-05 视频处理方法、介质及服务器

Publications (2)

Publication Number Publication Date
CN108419094A CN108419094A (zh) 2018-08-17
CN108419094B true CN108419094B (zh) 2021-01-29

Family

ID=63130125

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201810179638.4A Active CN108419094B (zh) 2018-03-05 2018-03-05 视频处理方法、视频检索方法、装置、介质及服务器
CN201910848343.6A Active CN110475129B (zh) 2018-03-05 2018-03-05 视频处理方法、介质及服务器

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201910848343.6A Active CN110475129B (zh) 2018-03-05 2018-03-05 视频处理方法、介质及服务器

Country Status (4)

Country Link
US (3) US11368705B2 (zh)
EP (1) EP3764276A4 (zh)
CN (2) CN108419094B (zh)
WO (1) WO2019169996A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108419094B (zh) 2018-03-05 2021-01-29 腾讯科技(深圳)有限公司 视频处理方法、视频检索方法、装置、介质及服务器
CN109275027A (zh) * 2018-09-26 2019-01-25 Tcl海外电子(惠州)有限公司 视频的语音输出方法、电子播放设备及存储介质
CN109711280B (zh) * 2018-12-10 2020-10-16 北京工业大学 一种基于ST-Unet的视频异常检测方法
CN109961041B (zh) * 2019-03-21 2021-03-23 腾讯科技(深圳)有限公司 一种视频识别方法、装置及存储介质
CN109874029B (zh) 2019-04-22 2021-02-12 腾讯科技(深圳)有限公司 视频描述生成方法、装置、设备及存储介质
CN110826475B (zh) * 2019-11-01 2022-10-04 北京齐尔布莱特科技有限公司 一种检测近重复视频的方法、装置及计算设备
CN111198966B (zh) * 2019-12-22 2023-09-26 同济大学 基于多智能体边界感知网络的自然语言视频片段检索方法
US20220036174A1 (en) * 2020-07-30 2022-02-03 Dell Products L.P. Machine learning hyper tuning
CN112528883A (zh) * 2020-12-15 2021-03-19 杭州义顺科技有限公司 一种基于反思网络的教学场景视频描述生成方法
CN112738647B (zh) * 2020-12-28 2022-04-01 中山大学 一种基于多层级编码-解码器的视频描述方法及系统
CN113326739B (zh) * 2021-05-07 2022-08-09 山东大学 基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质
CN114612826A (zh) * 2022-03-09 2022-06-10 平安科技(深圳)有限公司 视频和文本相似度确定方法、装置、电子设备、存储介质
CN116958759A (zh) * 2022-04-12 2023-10-27 中兴通讯股份有限公司 图像处理方法、装置、设备、存储介质和程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473555A (zh) * 2013-08-26 2013-12-25 中国科学院自动化研究所 基于多视角多示例学习的恐怖视频场景识别方法
WO2014043340A1 (en) * 2012-09-13 2014-03-20 General Electric Company System and method for generating semantic annotations
US8874584B1 (en) * 2010-02-24 2014-10-28 Hrl Laboratories, Llc Hierarchical video search and recognition system
CN105654054A (zh) * 2015-12-30 2016-06-08 上海颐本信息科技有限公司 基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法
CN106845411A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于深度学习和概率图模型的视频描述生成方法
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN107391646A (zh) * 2017-07-13 2017-11-24 清华大学 一种视频图像的语义信息提取方法及装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO327155B1 (no) * 2005-10-19 2009-05-04 Fast Search & Transfer Asa Fremgangsmåte for å vise videodata innenfor resultatpresentasjoner i systemer for aksessering og søking av informasjon
US8781231B1 (en) * 2009-08-25 2014-07-15 Google Inc. Content-based image ranking
US20140328570A1 (en) * 2013-01-09 2014-11-06 Sri International Identifying, describing, and sharing salient events in images and videos
CN104185089B (zh) * 2013-05-23 2018-02-16 三星电子(中国)研发中心 视频概要生成方法及服务器、客户端
CN104113789B (zh) * 2014-07-10 2017-04-12 杭州电子科技大学 一种基于深度学习的视频摘要在线生成方法
US10395118B2 (en) * 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
US9807473B2 (en) * 2015-11-20 2017-10-31 Microsoft Technology Licensing, Llc Jointly modeling embedding and translation to bridge video and language
US11409791B2 (en) * 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
CN106331711B (zh) * 2016-08-26 2019-07-05 北京工业大学 一种基于网络特征与视频特征的动态码率控制方法
CN106503055B (zh) * 2016-09-27 2019-06-04 天津大学 一种从结构化文本到图像描述的生成方法
GB2555431A (en) * 2016-10-27 2018-05-02 Nokia Technologies Oy A method for analysing media content
US10198671B1 (en) * 2016-11-10 2019-02-05 Snap Inc. Dense captioning with joint interference and visual context
CN106934352A (zh) * 2017-02-28 2017-07-07 华南理工大学 一种基于双路分形网络和lstm的视频描述方法
CN107038221B (zh) * 2017-03-22 2020-11-17 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN110892723B (zh) * 2017-07-06 2024-04-12 三星电子株式会社 用于编码或解码图像的方法和装置
CN107484017B (zh) * 2017-07-25 2020-05-26 天津大学 基于注意力模型的有监督视频摘要生成方法
CN107609586A (zh) * 2017-09-08 2018-01-19 深圳市唯特视科技有限公司 一种基于自我监督的视觉表征学习方法
US20190273510A1 (en) * 2018-03-01 2019-09-05 Crowdstrike, Inc. Classification of source data by neural network processing
CN108419094B (zh) * 2018-03-05 2021-01-29 腾讯科技(深圳)有限公司 视频处理方法、视频检索方法、装置、介质及服务器
US11601644B2 (en) * 2018-12-11 2023-03-07 Google Llc Image and video coding using machine learning prediction coding models
US10999606B2 (en) * 2019-01-08 2021-05-04 Intel Corporation Method and system of neural network loop filtering for video coding

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8874584B1 (en) * 2010-02-24 2014-10-28 Hrl Laboratories, Llc Hierarchical video search and recognition system
WO2014043340A1 (en) * 2012-09-13 2014-03-20 General Electric Company System and method for generating semantic annotations
CN103473555A (zh) * 2013-08-26 2013-12-25 中国科学院自动化研究所 基于多视角多示例学习的恐怖视频场景识别方法
CN105654054A (zh) * 2015-12-30 2016-06-08 上海颐本信息科技有限公司 基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法
CN106845411A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于深度学习和概率图模型的视频描述生成方法
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN107391646A (zh) * 2017-07-13 2017-11-24 清华大学 一种视频图像的语义信息提取方法及装置

Also Published As

Publication number Publication date
US11368705B2 (en) 2022-06-21
CN110475129A (zh) 2019-11-19
US11934454B2 (en) 2024-03-19
EP3764276A4 (en) 2022-01-05
US20220279202A1 (en) 2022-09-01
EP3764276A1 (en) 2021-01-13
US20200304822A1 (en) 2020-09-24
WO2019169996A1 (zh) 2019-09-12
US20200304796A1 (en) 2020-09-24
CN110475129B (zh) 2021-05-28
CN108419094A (zh) 2018-08-17

Similar Documents

Publication Publication Date Title
CN108419094B (zh) 视频处理方法、视频检索方法、装置、介质及服务器
US10885344B2 (en) Method and apparatus for generating video
JP7179183B2 (ja) ビデオキャプションの生成方法、装置、デバイスおよびコンピュータプログラム
US11544474B2 (en) Generation of text from structured data
US20180357225A1 (en) Method for generating chatting data based on artificial intelligence, computer device and computer-readable storage medium
US10878247B2 (en) Method and apparatus for generating information
WO2022199504A1 (zh) 内容识别方法、装置、计算机设备和存储介质
EP3885966B1 (en) Method and device for generating natural language description information
CN110839173A (zh) 一种音乐匹配方法、装置、终端及存储介质
US11355097B2 (en) Sample-efficient adaptive text-to-speech
CN112989212B (zh) 媒体内容推荐方法、装置和设备及计算机存储介质
CN109885723A (zh) 一种视频动态缩略图的生成方法、模型训练的方法及装置
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
CN114373028A (zh) 生成图片的方法及装置、电子设备
US10910014B2 (en) Method and apparatus for generating video
CN113761933A (zh) 检索方法、装置、电子设备及可读存储介质
CN110717316B (zh) 字幕对话流的主题分割方法及装置
CN113569094A (zh) 视频推荐方法、装置、电子设备及存储介质
WO2023276251A1 (en) Artificial intelligence system for sequence-to-sequence processing with dual causal and non-causal restricted self-attention adapted for streaming applications
CN115019137A (zh) 一种多尺度双流注意力视频语言事件预测的方法及装置
CN110209878B (zh) 视频处理方法、装置、计算机可读介质及电子设备
KR102624074B1 (ko) 비디오 표현 학습 장치 및 방법
CN113377986B (zh) 图像检索方法和装置
CN116956950A (zh) 机器翻译方法、装置、设备、介质及程序产品
CN117131853A (zh) 文本相似度确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant