CN112261491A - 视频时序标注方法、装置、电子设备及存储介质 - Google Patents

视频时序标注方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112261491A
CN112261491A CN202011526967.5A CN202011526967A CN112261491A CN 112261491 A CN112261491 A CN 112261491A CN 202011526967 A CN202011526967 A CN 202011526967A CN 112261491 A CN112261491 A CN 112261491A
Authority
CN
China
Prior art keywords
video
network
trained
time sequence
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011526967.5A
Other languages
English (en)
Other versions
CN112261491B (zh
Inventor
高艳珺
陈昕
王华彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202011526967.5A priority Critical patent/CN112261491B/zh
Publication of CN112261491A publication Critical patent/CN112261491A/zh
Application granted granted Critical
Publication of CN112261491B publication Critical patent/CN112261491B/zh
Priority to EP21887878.3A priority patent/EP4047944A4/en
Priority to PCT/CN2021/114059 priority patent/WO2022134634A1/zh
Priority to US17/842,654 priority patent/US11651591B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种视频时序标注方法、装置、电子设备及存储介质,涉及机器学习技术领域。方法包括:获取待标注的视频文件和待查询的文本信息;将视频文件和待查询的文本信息输入至时序标注模型的时序标注网络,得到待查询的文本信息匹配的视频段;通过时序标注模型的特征提取网络获取待查询的文本信息匹配的视频段的视频特征;将待查询的文本信息匹配的视频段的视频特征输入至时序标注模型的视觉文本翻译网络,得到视频文件中标注的视频段的文本信息;通过时序标注模型输出待查询的文本信息匹配的视频段和视频文件中标注的视频段的文本信息。通过本方案,能够确定标注得到的视频段以及该视频段对应的文本信息,提高了视频标注结果的多样性。

Description

视频时序标注方法、装置、电子设备及存储介质
技术领域
本公开涉及机器学习技术领域,特别涉及一种视频时序标注方法、装置、电子设备及存储介质。
背景技术
视频时序标注是进行视频处理、模式识别等任务时的一个重要过程。视频时序标注是指通过对视频文件进行识别,从视频文件中预测出与文本特征匹配的起始时间和终止时间,根据该起始时间和终止时间对该视频文件进行标注,得到与该文本特征匹配的视频段。
相关技术中,在进行视频时序标注时,一般只通过时序标注模型对视频文件进行标注,得到该视频文件中目标文本信息对应的视频段。
上述相关技术中,通过时序标注模型,对视频文件进行视频时序标注,只能得到对应的视频段,标注内容单一。
发明内容
本公开实施例提供了一种视频时序标注方法、装置、电子设备及存储介质,能够丰富时序标注模型的输出结果。所述技术方案如下。
根据本公开实施例的一方面,提供了一种视频时序标注方法,所述方法包括:
获取待标注的视频文件和待查询的文本信息;
将所述视频文件和所述待查询的文本信息输入至时序标注模型的时序标注网络,得到所述待查询的文本信息匹配的视频段;
将所述待查询的文本信息匹配的视频段输入至所述时序标注模型的特征提取网络,得到所述待查询的文本信息匹配的视频段的视频特征;
将所述待查询的文本信息匹配的视频段的视频特征输入至所述时序标注模型的视觉文本翻译网络,得到所述视频文件中标注的视频段的文本信息;
通过所述时序标注模型输出所述待查询的文本信息匹配的视频段和所述视频文件中标注的视频段的文本信息。
在一些实施例中,所述将所述视频文件和所述待查询的文本信息输入至时序标注模型的时序标注网络,得到所述待查询的文本信息匹配的视频段,包括:
通过所述时序标注模型的时序标注网络,分别对所述视频文件和所述待查询的文本信息进行特征提取,得到所述视频文件的视频特征和所述待查询的文本信息的文本特征;
从所述视频文件的视频特征中确定与所述待查询的文本信息的文本特征匹配的视频特征;
将所述待查询的文本信息的文本特征匹配的视频特征对应的视频段,确定为所述待查询的文本信息匹配的视频段。
在一些实施例中,所述时序标注模型的训练方法包括:
确定待训练的时序标注模型,所述待训练的时序标注模型包括待训练的时序标注网络、待训练的特征提取网络和待训练的视觉文本翻译网络;
将视频样本输入至所述待训练的时序标注网络,得到待训练的时序标注网络标注的视频段;
基于所述待训练的时序标注网络标注的视频段和所述视频样本中标注的视频段,确定所述待训练的时序标注网络的时序标注损失参数;
基于所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息,确定所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息之间的第一相似度参数和所述待训练的时序标注网络标注的视频段的视频特征;
基于所述待训练的时序标注网络标注的视频段的视频特征和所述视频样本中标注的文本信息,确定所述待训练的视觉文本翻译网络的翻译质量参数,所述翻译质量参数用于表征视觉文本翻译网络将视频特征翻译为文本信息的质量;
基于所述时序标注损失参数、所述第一相似度参数和所述翻译质量参数对所述待训练的时序标注模型进行参数调整,得到所述时序标注模型。
在一些实施例中,所述基于所述待训练的时序标注网络标注的视频段和所述视频样本中标注的视频段,确定所述待训练的时序标注网络的时序标注损失参数,包括:
确定所述待训练的时序标注网络标注的视频段在所述视频样本中的起始时间和终止时间,以及,确定所述视频样本中标注的视频段在所述视频样本中的起始时间和终止时间;
将所述待训练的时序标注网络标注的视频段在所述视频样本中的起始时间和终止时间,以及所述视频样本中标注的视频段在所述视频样本中的起始时间和终止时间输入至时序标注损失函数,得到所述时序标注损失参数。
在一些实施例中,所述基于所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息,确定所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息之间的第一相似度参数和所述待训练的时序标注网络标注的视频段的视频特征,包括:
将所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息输入至待训练的特征提取网络,得到所述待训练的时序标注网络标注的视频段的视频特征和所述视频样本中标注的文本信息的文本特征;
确定所述待训练的时序标注网络标注的视频段的视频特征和所述视频样本中标注的文本信息的文本特征之间的余弦相似度,得到所述第一相似度参数。
在一些实施例中,所述基于所述待训练的时序标注网络标注的视频段的视频特征和所述视频样本中标注的文本信息,确定所述待训练的视觉文本翻译网络的翻译质量参数,包括:
将所述待训练的时序标注网络标注的视频段的视频特征输入至所述待训练的视觉文本翻译网络,得到视频样本的文本信息;
确定所述视频样本的文本信息与所述视频样本中标注的文本信息之间的第二相似度参数;
将所述第二相似度参数确定为所述翻译质量参数。
在一些实施例中,所述基于所述时序标注损失参数、所述第一相似度参数和所述翻译质量参数对所述待训练的时序标注模型进行参数调整,得到所述时序标注模型,包括:
基于所述时序标注损失参数、所述第一相似度参数和所述翻译质量参数,对所述待训练的时序标注网络、特征提取网络和视觉文本翻译网络的网络参数进行调整,直到所述时序标注损失参数小于第一预设阈值,且所述相似度参数大于第二预设阈值,且所述翻译质量参数大于第三预设阈值,完成模型训练,得到所述时序标注模型。
根据本公开实施例的另一方面,提供了一种视频时序标注装置,所述装置包括:
获取单元,被配置为执行获取待标注的视频文件和待查询的文本信息;
时序标注单元,被配置为执行将所述视频文件和所述待查询的文本信息输入至时序标注模型的时序标注网络,得到所述待查询的文本信息匹配的视频段;
特征提取单元,被配置为执行将所述待查询的文本信息匹配的视频段输入至所述时序标注模型的特征提取网络,得到所述待查询的文本信息匹配的视频段的视频特征;
视觉文本翻译单元,被配置为执行将所述待查询的文本信息匹配的视频段的视频特征输入至所述时序标注模型的视觉文本翻译网络,得到所述视频文件中标注的视频段的文本信息;
输出单元,被配置为执行通过所述时序标注模型输出所述待查询的文本信息匹配的视频段和所述视频文件中标注的视频段的文本信息。
在一些实施例中,所述时序标注单元包括:
特征提取子单元,被配置为执行通过所述时序标注模型的时序标注网络,分别对所述视频文件和所述待查询的文本信息进行特征提取,得到所述视频文件的视频特征和所述待查询的文本信息的文本特征;
第一确定子单元,被配置为执行从所述视频文件的视频特征中确定与所述待查询的文本信息的文本特征匹配的视频特征;
第二确定子单元,被配置为执行将所述待查询的文本信息的文本特征匹配的视频特征对应的视频段,确定为所述待查询的文本信息匹配的视频段。
在一些实施例中,所述装置还包括:
第一确定单元,被配置为执行确定待训练的时序标注模型,所述待训练的时序标注模型包括待训练的时序标注网络、待训练的特征提取网络和待训练的视觉文本翻译网络;
所述时序标注单元,还被配置为执行将视频样本输入至所述待训练的时序标注网络,得到待训练的时序标注网络标注的视频段;
第二确定单元,被配置为执行基于所述待训练的时序标注网络标注的视频段和所述视频样本中标注的视频段,确定所述待训练的时序标注网络的时序标注损失参数;
第三确定单元,被配置为执行基于所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息,确定所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息之间的第一相似度参数和所述待训练的时序标注网络标注的视频段的视频特征;
第四确定单元,被配置为执行基于所述待训练的时序标注网络标注的视频段的视频特征和所述视频样本中标注的文本信息,确定所述待训练的视觉文本翻译网络的翻译质量参数,所述翻译质量参数用于表征视觉文本翻译网络将视频特征翻译为文本信息的质量;
参数调整单元,被配置为执行基于所述时序标注损失参数、所述第一相似度参数和所述翻译质量参数对所述待训练的时序标注模型进行参数调整,得到所述时序标注模型。
在一些实施例中,所述第二确定单元包括:
第三确定子单元,被配置为执行确定所述待训练的时序标注网络标注的视频段在所述视频样本中的起始时间和终止时间,以及,确定所述视频样本中标注的视频段在所述视频样本中的起始时间和终止时间;
损失参数确定子单元,被配置为执行将所述待训练的时序标注网络标注的视频段在所述视频样本中的起始时间和终止时间,以及所述视频样本中标注的视频段在所述视频样本中的起始时间和终止时间输入至时序标注损失函数,得到所述时序标注损失参数。
在一些实施例中,所述第三确定单元包括:
所述特征提取单元,被配置为执行将所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息输入至待训练的特征提取网络,得到所述待训练的时序标注网络标注的视频段的视频特征和所述视频样本中标注的文本信息的文本特征;
第一相似度确定子单元,被配置为执行确定所述待训练的时序标注网络标注的视频段的视频特征和所述视频样本中标注的文本信息的文本特征之间的余弦相似度,得到所述第一相似度参数。
在一些实施例中,所述第四确定单元包括:
所述视觉文本翻译单元,被配置为执行将所述待训练的时序标注网络标注的视频段的视频特征输入至所述待训练的视觉文本翻译网络,得到视频样本的文本信息;
第二相似度确定子单元,被配置为执行确定所述视频样本的文本信息与所述视频样本中标注的文本信息之间的第二相似度参数;
第四确定子单元,被配置为执行将所述第二相似度参数确定为所述翻译质量参数。
在一些实施例中,所述参数调整单元,被配置为执行基于所述时序标注损失参数、所述第一相似度参数和所述翻译质量参数,对所述待训练的时序标注网络、特征提取网络和视觉文本翻译网络的网络参数进行调整,直到所述时序标注损失参数小于第一预设阈值,且所述相似度参数大于第二预设阈值,且所述翻译质量参数大于第三预设阈值,完成模型训练,得到所述时序标注模型。
根据本公开实施例的另一方面,提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述任一可能的实现方式所述的视频时序标注方法。
根据本公开实施例的另一方面,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一可能的实现方式所述的视频时序标注方法。
根据本公开实施例的另一方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现如本公开实施例所述的视频时序标注方法的指令。
在本公开实施例中,通过在时序标注模型中结合时序标注网络、特征提取网络和视觉文本翻译网络,在对视频文件进行时序标注的过程中,能够通过时序标注网络确定视频文件中与待查询的文本信息对应的视频段,通过特征提取网络对该视频段进行特征提取,通过视觉文本翻译网络对提取的视频特征进行视觉文本翻译,得到该视频段的文本信息,使得在标注待标注的视频文件的过程中,能够得到标注的视频段以及该视频段对应的文本信息,从而实现通过一个时序标注模型,就能得到视频文件的多种输出结果,提高了视频标注结果的多样性。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还能够根据这些附图获得其他的附图。
图1为根据一示例性实施例提供的一种视频时序标注方法流程图;
图2为根据一示例性实施例提供的一种视频时序标注方法流程图;
图3为根据一示例性实施例提供的一种视频时序标注方法流程图;
图4为根据一示例性实施例提供的一种视频时序标注方法流程图;
图5为根据一示例性实施例提供的一种视频时序标注方法流程图;
图6是根据一示例性实施例提供的一种视频时序标注装置的框图;
图7是根据一示例性实施例提供的一种终端的结构示意图;
图8是根据一示例性实施例提供的一种终端的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
随着机器学习技术的发展,视频时序标注的应用场景越来越广泛。例如,视频时序标注应用在视频处理、模式识别等场景中。在一些实施例中,通过视频时序标注来对原视频文件进行剪辑,得到与目标文本信息匹配的视频段。例如,在剪辑视频的过程中,电子设备接收用户输入的待查询的文本信息,根据该待查询的文本信息对视频文件中的视频内容进行识别,将识别到的视频段剪辑出来,得到剪辑完成的视频段。在另一些实施例中,通过视频时序标注来对原视频文件进行识别,得到与待查询的文本信息匹配的视频文件。例如,在进行视频搜索时,电子设备接收用户输入的待查询的文本信息,根据该待查询的文本信息对多个视频文件进行搜索,得到包含与该待查询的文本信息匹配的视频段的视频文件,反馈该视频文件。
相关技术中,在进行视频时序标注时,时序标注模型一般只有时序标注的功能。因此,在通过时序标注模型进行视频时序标注时,一般只能得到单一的视频标注结果,即视频段。这样视频文件的视频标注结果单一。
相应的,在对视频文件进行视频时序标注之前,需要对待训练的时序标注模型进行模型训练,得到训练完成的时序标注模型。相关技术中,在对时序标注模型进行模型训练时,将视频样本输入至待训练的时序标注模型,基于视频样本通过待训练的时序标注模型产生的时序标注损失参数对待训练的时序标注模型进行参数调整,直到完成模型训练,得到时序标注模型。这样模型训练的过程中,只将时序标注损失参数作为衡量时序标注模型是否训练完成的标准,使得模型训练的训练指标交为单一,当训练过程中出现特征提取不准确等问题时,造成文本特征与视频文件的特征匹配度出现错误,导致训练得到的时序标注模型不准确。
在本公开实施例中,通过在时序标注模型中结合时序标注网络、特征提取网络和视觉文本翻译网络,在对视频文件进行时序标注的过程中,能够通过时序标注网络确定视频文件中与待查询的文本信息对应的视频段,通过特征提取网络对该视频段进行特征提取,通过视觉文本翻译网络对提取的视频特征进行视觉文本翻译,得到该视频段的文本信息,使得在标注待标注的视频文件的过程中,能够得到标注的视频段以及该视频段对应的文本信息,从而实现通过一个时序标注模型,就能得到视频文件的多种输出结果,提高了视频标注结果的多样性。
并且,通过在训练时序标注模型的过程中,对时序标注模型中的时序标注网络、特征提取网络和视觉文本翻译网络共同进行训练,从而丰富了训练时序标注模型的训练参数,进而提高了时序标注模型进行视频时序标注的准确率。
图1为根据一示例性实施例提供的一种视频时序标注方法流程图。如图1所示,该方法包括以下步骤。
在步骤101中,获取待标注的视频文件和待查询的文本信息。
在步骤102中,将该视频文件和该待查询的文本信息输入至时序标注模型的时序标注网络,得到该待查询的文本信息匹配的视频段。
在步骤103中,将该待查询的文本信息匹配的视频段输入至该时序标注模型的特征提取网络,得到该待查询的文本信息匹配的视频段的视频特征。
在步骤104中,将该待查询的文本信息匹配的视频段的视频特征输入至该时序标注模型的视觉文本翻译网络,得到该视频文件标注的视频段的文本信息。
在步骤105中,通过该时序标注模型输出该待查询的文本信息匹配的视频段和该视频文件中标注的视频段的文本信息。
在一些实施例中,该将该视频文件和该待查询的文本信息输入至时序标注模型的时序标注网络,得到该待查询的文本信息匹配的视频段,包括:
通过该时序标注模型的时序标注网络,分别对该视频文件和该待查询的文本信息进行特征提取,得到该视频文件的视频特征和该待查询的文本信息的文本特征;
从该视频文件的视频特征中确定与该待查询的文本信息的文本特征匹配的视频特征;
将该待查询的文本信息的文本特征匹配的视频特征对应的视频段,确定为该待查询的文本信息匹配的视频段。
在一些实施例中,该时序标注模型的训练方法包括:
确定待训练的时序标注模型,该待训练的时序标注模型包括待训练的时序标注网络、待训练的特征提取网络和待训练的视觉文本翻译网络;
将视频样本输入至该待训练的时序标注网络,得到待训练的时序标注网络标注的视频段;
基于该待训练的时序标注网络标注的视频段和该视频样本中标注的视频段,确定该待训练的时序标注网络的时序标注损失参数;
基于该待训练的时序标注网络标注的视频段和该视频样本中标注的文本信息,确定该待训练的时序标注网络标注的视频段和该视频样本中标注的文本信息之间的第一相似度参数和该待训练的时序标注网络标注的视频段的视频特征;
基于该待训练的时序标注网络标注的视频段的视频特征和该视频样本中标注的文本信息,确定该待训练的视觉文本翻译网络的翻译质量参数,该翻译质量参数用于表征视觉文本翻译网络将视频特征翻译为文本信息的质量;
基于该时序标注损失参数、该第一相似度参数和该翻译质量参数对该待训练的时序标注模型进行参数调整,得到该时序标注模型。
在一些实施例中,该基于该待训练的时序标注网络标注的视频段和该视频样本中标注的视频段,确定该待训练的时序标注网络的时序标注损失参数,包括:
确定该待训练的时序标注网络标注的视频段在该视频样本中的起始时间和终止时间,以及,确定该视频样本中标注的视频段在该视频样本中的起始时间和终止时间;
将该待训练的时序标注网络标注的视频段在该视频样本中的起始时间和终止时间,以及该视频样本中标注的视频段在该视频样本中的起始时间和终止时间输入至时序标注损失函数,得到该时序标注损失参数。
在一些实施例中,该基于该待训练的时序标注网络标注的视频段和该视频样本中标注的文本信息,确定该待训练的时序标注网络标注的视频段和该视频样本中标注的文本信息之间的第一相似度参数和该待训练的时序标注网络标注的视频段的视频特征,包括:
将该待训练的时序标注网络标注的视频段和该视频样本中标注的文本信息输入至待训练的特征提取网络,得到该待训练的时序标注网络标注的视频段的视频特征和该视频样本中标注的文本信息的文本特征;
确定该待训练的时序标注网络标注的视频段的视频特征和该视频样本中标注的文本信息的文本特征之间的余弦相似度,得到该第一相似度参数。
在一些实施例中,该基于该待训练的时序标注网络标注的视频段的视频特征和该视频样本中标注的文本信息,确定该待训练的视觉文本翻译网络的翻译质量参数,包括:
将该待训练的时序标注网络标注的视频段的视频特征输入至该待训练的视觉文本翻译网络,得到视频样本的文本信息;
确定该视频样本的文本信息与该视频样本中标注的文本信息之间的第二相似度参数;
将该第二相似度参数确定为该翻译质量参数。
在一些实施例中,该基于该时序标注损失参数、该第一相似度参数和该翻译质量参数对该待训练的时序标注模型进行参数调整,得到该时序标注模型,包括:
基于该时序标注损失参数、该第一相似度参数和该翻译质量参数,对该待训练的时序标注网络、特征提取网络和视觉文本翻译网络的网络参数进行调整,直到该时序标注损失参数小于第一预设阈值,且该相似度参数大于第二预设阈值,且该翻译质量参数大于第三预设阈值,完成模型训练,得到该时序标注模型。
在本公开实施例中,通过在时序标注模型中结合时序标注网络、特征提取网络和视觉文本翻译网络,在对视频文件进行时序标注的过程中,能够通过时序标注网络确定视频文件中与待查询的文本信息对应的视频段,通过特征提取网络对该视频段进行特征提取,通过视觉文本翻译网络对提取的视频特征进行视觉文本翻译,得到该视频段的文本信息,使得在标注待标注的视频文件的过程中,能够得到标注的视频段以及该视频段对应的文本信息,从而实现通过一个时序标注模型,就能得到视频文件的多种输出结果,提高了视频标注结果的多样性。
在通过时序标注模型对待标注的视频文件进行标注之前,需要对待训练的时序标注模型进行模型训练,得到该时序标注模型。图2为根据一示例性实施例提供的一种视频时序标注方法流程图。在本实施例中,以对待训练的时序标注模型进行模型训练为例进行说明。如图2所示,该方法包括以下步骤。
在步骤201中,确定待训练的时序标注模型。
其中,该待训练的时序标注模型包括待训练的时序标注网络、待训练的特征提取网络和待训练的视觉文本翻译网络。
在本步骤中,确定该待训练的时序标注模型的结构。例如,确定待训练的时序标注网络、待训练的特征提取网络和待训练的视觉文本翻译网络的网络结构,以及待训练的时序标注网络、待训练的特征提取网络和待训练的视觉文本翻译网络之间的连接结构。
在一些实施例中,将待训练的时序标注模型中待训练的时序标注网络、待训练的特征提取网络和待训练的视觉文本翻译网络构建为流水线式的模型训练架构。参见图3,将待训练的时序标注网络的输出作为待训练的特征提取网络的输入,将待训练的特征提取网络的输出作为待训练的视觉文本翻译网络的输入。从而待训练的时序标注网络得到输出结果后,能够直接将输出结果输入至待训练的特征提取网络中,待训练的特征提取网络得到输出结果后,能够直接将输出结果输入至待训练的视觉文本翻译网络中。
在本实现方式中,通过将待训练的时序标注模型中待训练的时序标注网络、待训练的特征提取网络和待训练的视觉文本翻译网络构建为流水线式的模型训练架构,使得能够直接将前一网络的输出作为后一网络的输入,从而多个待训练的网络能够同步进行训练,简化了模型训练的过程,提高了模型训练的准确性。
需要说明的一点是,该待训练的时序标注网络、待训练的特征提取网络和待训练的视觉文本翻译网络为开发人员设计的任一结构的网络,在本公开实施例中,对该待训练的时序标注网络、待训练的特征提取网络和待训练的视觉文本翻译网络的结构不作具体限定。
在步骤202中,将视频样本输入至该待训练的时序标注网络,得到待训练的时序标注网络标注的视频段。
其中,该视频样本为标注了视频段的视频样本,该视频样本还标注了视频段匹配的文本信息。在一些实施例中,视频样本中标注有视频段的起始时间和终止时间,该起始时间和中止时间之间的视频段为视频样本中标注的视频段。需要说明的一点是,该视频样本中标注的文本信息为词语、关键字、描述文本、图像、视频文件等。在本公开实施例中,对该标注的文本信息不作具体限定。
在本步骤中,将视频样本输入至待训练的时序标注网络中,通过待训练的时序标注网络对该视频样本进行标注,得到该时序标注网络预测的视频段。其中,该待训练的时序标注网络预测的视频段为待训练的时序标注网络预测的与视频样本中标注的文本信息匹配的视频段。
在本步骤中,待训练的时序标注网络对视频样本进行特征提取,将提取出的视频特征与样本视频中标注的文本信息的文本特征进行对比,从而获取到预测到的视频段。该过程通过以下步骤(1)-(3)实现,包括。
(1)通过该待训练的时序标注模型的待训练的时序标注网络,分别对该视频样本和该视频样本中标注的文本信息进行特征提取,得到该视频样本的视频特征和该视频样本中标注的文本信息的文本特征。
其中,该视频样本的视频特征和该视频样本中标注的文本信息的文本特征为任一类型的特征。例如,该视频样本的视频特征和该视频样本中标注的文本信息的文本特征均为向量特征等。
在本步骤中,通过待训练的时序标注网络分别对视频样本和视频样本中标注的文本信息进行特征提取,得到该视频样本的视频特征和该视频样本中标注的文本信息的文本特征。
(2)从该视频样本的视频特征中确定与该标注的文本信息的文本特征匹配的视频特征。
在本步骤中,将该标注的文本信息的文本特征与视频样本的视频特征逐一进行特征对比,得到该标注的文本信息的文本特征匹配的视频特征。其中,文本特征与视频特征匹配指文本特征与视频特征相同或者相似。
在一些实施例中,分别确定标注的文本信息的文本特征与视频样本的视频特征的相似度,将相似度最高的视频特征,确定为与该标注的文本信息的文本特征匹配的视频特征。其中,该标注的文本信息的文本特征与视频样本的视频特征的相似度为任一类型的相似度。例如,该相似度为余弦相似度等。
(3)将该标注的文本信息的文本特征匹配的视频特征对应的视频段,确定为该标注的文本信息匹配的视频段。
在本步骤中,确定该标注的文本信息的文本特征匹配的视频特征在视频样本中的起始时间和终止时间,将该起始时间和终止时间之间的视频内容确定为该标注的文本信息匹配的视频段。
在本实现方式中,通过时序标注模型中的时序标注网络对视频样本和文本信息进行特征提取,从而在训练时序标注网络的过程中通过特征提取网络与时序标注网络进行相互约束,从而在同一训练过程中训练两个网络,提高了模型的训练的效率,并且,提高了时序标注网络和特征提取网络的适配度,进而将提高了时序标注模型的准确度。
在步骤203中,基于该待训练的时序标注网络标注的视频段和该视频样本中标注的视频段,确定该待训练的时序标注网络的时序标注损失参数。
其中,该时序标注损失参数为时序标注模型对视频样本进行时序标注时产生的时序标注损失参数。该时序标注损失参数基于时序标注损失函数生成。
在一些实施例中,分别确定时序标注网络标注的视频段和该视频样本中标注的视频段的视频特征,将时序标注网络标注的视频段的视频特征和视频样本中标注的视频段的视频特征输入至时序标注损失函数中,时序标注损失函数基于两个视频段的视频特征确定该时序标注损失参数。
在一些实施例中,确定时序标注网络的视频段的起始时间和终止时间,以及,确定视频样本中标注的视频段的起始时间和终止时间;基于两个视频段的起始时间和终止时间,通过时序标注损失函数确定该时序标注损失参数。该过程通过以下步骤(4)-(6)实现,包括。
(4)确定该待训练的时序标注网络标注的视频段在该视频样本中的起始时间和终止时间。
在本步骤中,确定该待训练的时序标注网络标注的视频段,确定该视频段在视频样本中对应的起始时间和终端时间。
在一些实施例中,通过待训练的时序标注网络标注视频段的过程中,会对视频段进行标注,记录标注的视频段的起始时间和终止时间。在本步骤中,直接调用该标注的视频段的起始时间和终止时间。
(5)确定该视频样本中标注的视频段在该视频样本中的起始时间和终止时间。
在本步骤中,确定该视频样本中标注的视频段在视频样本中的起始时间和终止时间。
在一些实施例中,视频样本通过记录标注的视频段的起始时间和终止时间,基于在视频样本中的标注的起始时间和终止时间确定该视频样本中标注的视频段,在本步骤中,直接获取该视频样本中标注的起始时间和终止时间。
需要说明的一点是,这本公开实施例中,对获取两个视频段的起始时间和终止时间的先后顺序不作具体限定。
(6)将该待训练的时序标注网络标注的视频段在该视频样本中的起始时间和终止时间,以及该视频样本中标注的视频段在该视频样本中的起始时间和终止时间输入至时序标注损失函数,得到该时序标注损失参数。
在本步骤中,将两段视频段的起始时间和终端时间作为时序标注损失函数的变量值,基于该两段视频段的起始时间和终止时间,根据两个起始时间和终止时间之间的差异,确定该时序标注损失参数。
在本实现方式中,通过确定时序标注网络标注的视频段与样本视频中标注的视频段对应的起始时间和终止时间是否匹配,来调整时序标注网络的网络参数,提高了模型的训练效率和准确度。
在步骤204中,基于该待训练的时序标注网络标注的视频段和该视频样本中标注的文本信息,确定该待训练的时序标注网络标注的视频段和该视频样本中标注的文本信息之间的第一相似度参数和该待训练的时序标注网络标注的视频段的视频特征。
其中,该第一相似度参数为视频样本中标注的文本信息的文本特征与待训练的时序标注网络标注的视频段的视频特征之间的相似度。该相似度根据任一相似度确定方式确定。在一些实施例中,该视频特征和文本特征均为特征向量,则该相似度为基于余弦相似度算法确定的相似度。相应的,该过程通过以下步骤(7)-(8)实现,包括。
(7)将该待训练的时序标注网络标注的视频段和该视频样本中标注的文本信息输入至待训练的特征提取网络,得到该待训练的时序标注网络标注的视频段的视频特征和该视频样本中标注的文本信息的文本特征。
通过待训练的特征提取网络分别对时序标注网络标注的视频段的视频特征和该视频样本中标注的文本信息的文本特征。其中,在本公开实施例中,对时序标注网络标注的视频段进行特征提取的过程与对样本视频中标注的文本信息的特征提取的过程的先后顺序不作具体限定。
(8)确定该待训练的时序标注网络标注的视频段的视频特征和该视频样本中标注的文本信息的文本特征之间的余弦相似度,得到该第一相似度参数。
在本步骤中,通过余弦相似度算法确定视频特征和文本特征之间的余弦相似度,得到该第一相似度参数。
在本实现方式中,通过时序标注模型中的特征提取网络提取视频段的视频特征和视频样本中标注的文本信息的文本特征,进而得到二者的相似度,使得在对时序标注模型进行模型训练的过程中能够将特征提取网络和时序标注网络同时进行模型训练,进而提高时序标注模型的训练效率和准确性。
在步骤205中,基于该待训练的时序标注网络标注的视频段的视频特征和该视频样本中标注的文本信息,确定该待训练的视觉文本翻译网络的翻译质量参数。
其中,该翻译质量参数用于表征视觉文本翻译网络将视频特征翻译为文本信息的质量。
将提取的视频段的视频特征翻译为用于描述该视频段的文本信息,基于该翻译的文本信息和该视频样本中标注的文本信息的相似度,将该相似度确定为该视觉文本翻译网络的翻译质量参数。其中,该相似度越高,视觉文本翻译网络的翻译质量参数越高。
在本步骤中,将视频特征输入至待训练的视觉文本翻译网络中,通过视觉文本翻译网络将该视频特征翻译为文本信息,基于翻译的文本信息和翻译质量参数,该过程通过以下步骤(9)-(11)实现,包括。
(9)将该待训练的时序标注网络标注的视频段的视频特征输入至该待训练的视觉文本翻译网络,得到视频样本的文本信息。
在本步骤中,通过视觉文本翻译网络将视频特征成文本信息,得到对该视频样本的视频段进行翻译的文本信息。
(10)确定该视频样本的文本信息与该视频样本中标注的文本信息之间的第二相似度参数。
在本步骤中,对该视频样本翻译的文本信息与视频样本中标注的文本信息进行文本特征提取,得到该翻译的文本信息和视频样本中标注的文本信息的文本特征,确定两个文本特征之间的相似度。其中,该相似度根据任一相似度确定方式确定。例如,基于余弦相似度算法确定该文本特征之间的相似度,将该相似度确定为第二相似度参数。
(11)将该第二相似度参数确定为该翻译质量参数。
在本实现方式中,通过时序标注模型中的视觉文本翻译网络对视频段的视频特征进行翻译,根据翻译得到的视频段的文本信息和视频样本中标注的文本信息之间的相似度,使得在对时序标注模型进行模型训练的过程中能够将视觉文本翻译网络和时序标注网络同时进行模型训练,进而提高时序标注模型的训练效率和准确性。
在步骤206中,基于该时序标注损失参数、该第一相似度参数和该翻译质量参数对该待训练的时序标注模型进行参数调整,得到该时序标注模型。
在一些实施例中,该时序标注模型中的特征提取网络和视觉文本翻译网络为事先训练好的网络模型,则在本步骤中,通过该时序标注损失参数、该第一相似度参数和该翻译质量参数对该待训练的时序标注模型中的时序标注网络进行参数调整,得到该时序标注模型。
在一些实施例中,同时对该时序标注参数中的时序标注网络、特征提取网络和视觉文本翻译网络进行参数调整,该过程为:基于该时序标注损失参数、该第一相似度参数和该翻译质量参数,对该待训练的时序标注网络、特征提取网络和视觉文本翻译网络的网络参数进行调整,直到该时序标注损失参数小于第一预设阈值,且该相似度参数大于第二预设阈值,且该翻译质量参数大于第三预设阈值,完成模型训练,得到该时序标注模型。
其中,该第一预设阈值、第二预设阈值和第三预设阈值根据需要进行设置,在本公开实施例中,对该第一预设阈值、第二预设阈值和第三预设阈值不作具体限定。
在本实现方式中,通过多种参数分别对时序标注模型中的多种网络同时进行模型训练,从而在训练时序标注网络的过程中使不同的网络之间能够相互约束,从而在同一训练过程中训练多个网络,提高了模型的训练的效率,并且,提高了时序标注模型中各个网络的适配度。
需要说明的一点是,待训练的时序标注网络、待训练的特征提取网络和待训练的视觉文本翻译网络还能够分别进行模型训练,之后直接将训练完成的时序标注网络、特征提取网络和视觉文本翻译网络构建为时序标注模型即可。
在本实施例中,通过在训练时序标注模型的过程中,引入其他网络输出的参数,根据时序标注模型中多种网络的训练参数对时序标注模型进行模型训练,从而丰富了训练时序标注模型的训练参数,进而提高了时序标注模型进行视频时序标注的准确率。
另外,通过在时序标注模型中结合时序标注网络、特征提取网络和视觉文本翻译网络,在对视频文件进行时序标注的过程中,能够通过时序标注网络确定视频文件中与待查询的文本信息对应的视频段,通过特征提取网络对该视频段进行特征提取,通过视觉文本翻译网络对提取的视频特征进行视觉文本翻译,得到该视频段的文本信息,使得在标注待标注的视频文件的过程中,能够得到标注的视频段以及该视频段对应的文本信息,从而实现通过一个时序标注模型,就能得到视频文件的多种输出结果,提高了视频标注结果的多样性。
在完成模型训练后,能够基于训练完成的时序标注模型对待标注的视频进行时序标注。参见图4,图4为根据一示例性实施例提供的一种视频时序标注方法流程图。在本实施例中,以通过时序标注模型对视频文件进行时序标注为例进行说明。如图4所示,该方法包括以下步骤。
在步骤401中,获取待标注的视频文件和待查询的文本信息。
其中,该待查询的文本信息与视频样本中标注的文本信息相似,在此不再赘述。
该待标注的视频文件为用户上传的视频文件,或者,该视频文件为数据库中的视频文件。在本公开实施例中,对该视频文件不作具体限定。例如,该视频文件为需要进行剪辑的视频文件,则该待查询文本信息为对剪辑视频是保留的视频内容的要求、相应的,接收用户输入该视频文件,以及,对该视频文件进行剪辑的内容要求,基于该内容要求对该视频文件进行时序标注。又例如,该视频文件为查询数据库中的视频文件,接收用户输入的待查询的文本信息,根据该文本信息对数据库中的视频文件进行时序标注,从而确定待查询的文本信息匹配的视频文件。
在步骤402中,通过该时序标注模型的时序标注网络,分别对该视频文件和该待查询的文本信息进行特征提取,得到该视频文件的视频特征和该待查询的文本信息的文本特征。
本步骤与步骤202中的步骤(1)相似,在此不再赘述。
在步骤403中,从该视频文件的视频特征中确定与该待查询的文本信息的文本特征匹配的视频特征。
本步骤与步骤202中的步骤(2)相似,在此不再赘述。
在步骤404中,将该待查询的文本信息的文本特征匹配的视频特征对应的视频段,确定为该待查询的文本信息匹配的视频段。
本步骤与步骤202中的步骤(3)相似,在此不再赘述。
在步骤405中,将该待查询的文本信息匹配的视频段输入至该时序标注模型的特征提取网络,得到该待查询的文本信息匹配的视频段的视频特征。
本步骤与步骤204中的步骤(7)中确定待训练的时序标注网络标注的视频段的视频特征的过程相似,在此不再赘述。
在步骤406中,将该待查询的文本信息匹配的视频段的视频特征输入至该时序标注模型的视觉文本翻译网络,得到该视频文件中标注的视频段的文本信息。
本步骤与步骤205中的步骤(9)相似,在此不再赘述。
在步骤407中,通过该时序标注模型输出该待查询的文本信息匹配的视频段和该视频文件中标注的文本信息。
在本步骤中,参见图5该时序标注模型分别根据多个网络的输出结果,输出待查询的文本信息匹配的视频段和该视频段的文本信息。
需要说明的一点是,该时序标注模型中的时序标注网络、特征提取网络和视觉文本翻译网络还能够单独使用。在本公开实施例中,对该时序标注模型中的网络的使用方式不作具体限定。例如,在训练完成后,能够单独调用时序标注网络对视频文件进行时序标注。或者,调用特征提取网络对视频文件或文本文件进行特征提取。或者,调用视觉文本翻译网络对视频特征进行翻译,得到视频文件对应的文本信息等。
在本公开实施例中,通过在时序标注模型中结合时序标注网络、特征提取网络和视觉文本翻译网络,在对视频文件进行时序标注的过程中,能够通过时序标注网络确定视频文件中与待查询的文本信息对应的视频段,通过特征提取网络对该视频段进行特征提取,通过视觉文本翻译网络对提取的视频特征进行视觉文本翻译,得到该视频段的文本信息,使得在标注待标注的视频文件的过程中,能够得到标注的视频段以及该视频段对应的文本信息,从而实现通过一个时序标注模型,就能得到视频文件的多种输出结果,提高了视频标注结果的多样性。
图6是根据一示例性实施例提供的一种视频时序标注装置的框图。参见图6,装置包括:
获取单元601,被配置为执行获取待标注的视频文件和待查询的文本信息;
时序标注单元602,被配置为执行将该视频文件和该待查询的文本信息输入至时序标注模型的时序标注网络,得到该待查询的文本信息匹配的视频段;
特征提取单元603,被配置为执行将该待查询的文本信息匹配的视频段输入至该时序标注模型的特征提取网络,得到该待查询的文本信息匹配的视频段的视频特征;
视觉文本翻译单元604,被配置为执行将该待查询的文本信息匹配的视频段的视频特征输入至该时序标注模型的视觉文本翻译网络,得到该视频文件中标注的视频段的文本信息;
输出单元605,被配置为执行通过该时序标注模型输出该待查询的文本信息匹配的视频段和该视频文件中标注的视频段的文本信息。
在一些实施例中,该时序标注单元602包括:
特征提取子单元,被配置为执行通过该时序标注模型的时序标注网络,分别对该视频文件和该待查询的文本信息进行特征提取,得到该视频文件的视频特征和该待查询的文本信息的文本特征;
第一确定子单元,被配置为执行从该视频文件的视频特征中确定与该待查询的文本信息的文本特征匹配的视频特征;
第二确定子单元,被配置为执行将该待查询的文本信息的文本特征匹配的视频特征对应的视频段,确定为该待查询的文本信息匹配的视频段。
在一些实施例中,该装置还包括:
第一确定单元,被配置为执行确定待训练的时序标注模型,该待训练的时序标注模型包括待训练的时序标注网络、待训练的特征提取网络和待训练的视觉文本翻译网络;
该时序标注单元602,还被配置为执行将视频样本输入至该待训练的时序标注网络,得到待训练的时序标注网络标注的视频段;
第二确定单元,被配置为执行基于该待训练的时序标注网络标注的视频段和该视频样本中标注的视频段,确定该待训练的时序标注网络的时序标注损失参数;
第三确定单元,被配置为执行基于该待训练的时序标注网络标注的视频段和该视频样本中标注的文本信息,确定该待训练的时序标注网络标注的视频段和该视频样本中标注的文本信息之间的第一相似度参数和该待训练的时序标注网络标注的视频段的视频特征;
第四确定单元,被配置为执行基于该待训练的时序标注网络标注的视频段的视频特征和该视频样本中标注的文本信息,确定该待训练的视觉文本翻译网络的翻译质量参数,该翻译质量参数用于表征视觉文本翻译网络将视频特征翻译为文本信息的质量;
参数调整单元,被配置为执行基于该时序标注损失参数、该第一相似度参数和该翻译质量参数对该待训练的时序标注模型进行参数调整,得到该时序标注模型。
在一些实施例中,该第二确定单元包括:
第三确定子单元,被配置为执行确定该待训练的时序标注网络标注的视频段在该视频样本中的起始时间和终止时间,以及,确定该视频样本中标注的视频段在该视频样本中的起始时间和终止时间;
损失参数确定子单元,被配置为执行将该待训练的时序标注网络标注的视频段在该视频样本中的起始时间和终止时间,以及该视频样本中标注的视频段在该视频样本中的起始时间和终止时间输入至时序标注损失函数,得到该时序标注损失参数。
在一些实施例中,该第三确定单元包括:
该特征提取单元603,被配置为执行将该待训练的时序标注网络标注的视频段和该视频样本中标注的文本信息输入至待训练的特征提取网络,得到该待训练的时序标注网络标注的视频段的视频特征和该视频样本中标注的文本信息的文本特征;
第一相似度确定子单元,被配置为执行确定该待训练的时序标注网络标注的视频段的视频特征和该视频样本中标注的文本信息的文本特征之间的余弦相似度,得到该第一相似度参数。
在一些实施例中,该第四确定单元包括:
该视觉文本翻译单元604,被配置为执行将该待训练的时序标注网络标注的视频段的视频特征输入至该待训练的视觉文本翻译网络,得到视频样本的文本信息;
第二相似度确定子单元,被配置为执行确定该视频样本的文本信息与该视频样本中标注的文本信息之间的第二相似度参数;
第四确定子单元,被配置为执行将该第二相似度参数确定为该翻译质量参数。
在一些实施例中,该参数调整单元,被配置为执行基于该时序标注损失参数、该第一相似度参数和该翻译质量参数,对该待训练的时序标注网络、特征提取网络和视觉文本翻译网络的网络参数进行调整,直到该时序标注损失参数小于第一预设阈值,且该相似度参数大于第二预设阈值,且该翻译质量参数大于第三预设阈值,完成模型训练,得到该时序标注模型。
在本公开实施例中,通过在时序标注模型中结合时序标注网络、特征提取网络和视觉文本翻译网络,在对视频文件进行时序标注的过程中,能够通过时序标注网络确定视频文件中与待查询的文本信息对应的视频段,通过特征提取网络对该视频段进行特征提取,通过视觉文本翻译网络对提取的视频特征进行视觉文本翻译,得到该视频段的文本信息,使得在标注待标注的视频文件的过程中,能够得到标注的视频段以及该视频段对应的文本信息,从而实现通过一个时序标注模型,就能得到视频文件的多种输出结果,提高了视频标注结果的多样性。
需要说明的是:上述实施例提供的视频时序标注装置在视频时序标注时,仅以上述各功能模块的划分进行举例说明,实际应用中,能够根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的视频时序标注装置与视频时序标注方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
电子设备为终端或服务器。在一些实施例中,电子设备为用于提供本公开所提供的视频时序标注方法的终端。图7示出了本公开一个示例性实施例提供的终端700的结构框图。在一些实施例中,该终端700是便携式移动终端,比如:智能手机、平板电脑、MP3(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端700包括有:处理器701和存储器702。
在一些实施例中,处理器701包括一个或多个处理核心,比如4核心处理器、8核心处理器等。在一些实施例中,处理器701采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(ProgrammableLogic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。在一些实施例中,处理器701也包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701集成有GPU(GraphicsProcessing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
在一些实施例中,存储器702包括一个或多个计算机可读存储介质,该计算机可读存储介质是非暂态的。存储器702还包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本公开中方法实施例提供的视频时序标注方法。
在一些实施例中,终端700还可选包括有:外围设备接口703和至少一个外围设备。在一些实施例中,处理器701、存储器702和外围设备接口703之间通过总线或信号线相连。各个外围设备通过总线、信号线或电路板与外围设备接口703相连。可选地,外围设备包括:射频电路704、显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。
外围设备接口703可被用于将I/O(Input /Output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。在一些实施例中,射频电路704通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路704还包括NFC(Near Field Communication,近距离无线通信)有关的电路,本公开对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。在一些实施例中,该UI包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。在一些实施例中,该触摸信号作为控制信号输入至处理器701进行处理。此时,显示屏705还用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705为一个,设置在终端700的前面板;在另一些实施例中,显示屏705为至少两个,分别设置在终端700的不同表面或呈折叠设计;在另一些实施例中,显示屏705是柔性显示屏,设置在终端700的弯曲表面上或折叠面上。甚至,显示屏705还设置成非矩形的不规则图形,也即异形屏。在一些实施例中显示屏705采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还包括闪光灯。闪光灯是单色温闪光灯,或者,是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,用于不同色温下的光线补偿。
在一些实施例中,音频电路707包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。在一些实施例中,出于立体声采集或降噪的目的,麦克风为多个,分别设置在终端700的不同部位。在一些实施例中,麦克风还是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。在一些实施例中,扬声器是传统的薄膜扬声器,或者,是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅能够将电信号转换为人类可听见的声波,也能够将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还包括耳机插孔。
定位组件708用于定位终端700的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。在一些实施例中,定位组件708是基于美国的GPS(Global Positioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源709用于为终端700中的各个组件进行供电。在一些实施例中,电源709是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还用于支持快充技术。
在一些实施例中,终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。
在一些实施例中,加速度传感器711检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711用于检测重力加速度在三个坐标轴上的分量。在一些实施例中,处理器701根据加速度传感器711采集的重力加速度信号,控制显示屏705以横向视图或纵向视图进行用户界面的显示。在一些实施例中,加速度传感器711还用于游戏或者用户的运动数据的采集。
在一些实施例中,陀螺仪传感器712检测终端700的机体方向及转动角度,陀螺仪传感器712与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据,能够实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
在一些实施例中,压力传感器713设置在终端700的侧边框和/或显示屏705的下层。当压力传感器713设置在终端700的侧边框时,能够检测用户对终端700的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时,由处理器701根据用户对显示屏705的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器714用于采集用户的指纹,由处理器701根据指纹传感器714采集到的指纹识别用户的身份,或者,由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器701授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。在一些实施例中,指纹传感器714被设置在终端700的正面、背面或侧面。在一些实施例中,当终端700上设置有物理按键或厂商Logo时,指纹传感器714与物理按键或厂商Logo集成在一起。
光学传感器715用于采集环境光强度。在一个实施例中,处理器701根据光学传感器715采集的环境光强度,控制显示屏705的显示亮度。具体地,当环境光强度较高时,调高显示屏705的显示亮度;当环境光强度较低时,调低显示屏705的显示亮度。在另一个实施例中,处理器701还根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
接近传感器716,也称距离传感器,通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时,由处理器701控制显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时,由处理器701控制显示屏705从息屏状态切换为亮屏状态。
本领域技术人员能够理解,图7中示出的结构并不构成对终端700的限定,能够包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在一些实施例中,电子设备为用于提供本公开所提供的视频时序标注方法的服务器。图8示出了本公开一个示例性实施例提供的服务器800的结构框图。在一些实施例中,该服务器800可因配置或性能不同而产生比较大的差异,包括一个或一个以上处理器(central processing units,CPU)801和一个或一个以上的存储器802,其中,所述存储器801中存储有至少一条指令,所述至少一条指令由所述处理器801加载并执行以实现上述各个方法实施例提供的目标对象的检索方法。当然,在一些实施例中,该服务器800还具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器800还包括其他用于实现设备功能的部件,在此不做赘述。
本公开实施例还提供了一种计算机可读存储介质,当该计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-7中任一项该的视频时序标注方法。
本公开实施例还提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现本方法实施例中所述视频时序标注方法中所执行的指令。
本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成,也能够通过程序来指令相关的硬件完成,程序能存储于一种计算机可读存储介质中,上述提到的存储介质是只读存储器、磁盘或光盘等。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中执行了详细描述,此处将不做详细阐述说明。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且能够在不脱离其范围执行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (17)

1.一种视频时序标注方法,其特征在于,所述方法包括:
获取待标注的视频文件和待查询的文本信息;
将所述视频文件和所述待查询的文本信息输入至时序标注模型的时序标注网络,得到所述待查询的文本信息匹配的视频段;
将所述待查询的文本信息匹配的视频段输入至所述时序标注模型的特征提取网络,得到所述待查询的文本信息匹配的视频段的视频特征;
将所述待查询的文本信息匹配的视频段的视频特征输入至所述时序标注模型的视觉文本翻译网络,得到所述视频文件中标注的视频段的文本信息;
通过所述时序标注模型输出所述待查询的文本信息匹配的视频段和所述视频文件中标注的视频段的文本信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述视频文件和所述待查询的文本信息输入至时序标注模型的时序标注网络,得到所述待查询的文本信息匹配的视频段,包括:
通过所述时序标注模型的时序标注网络,分别对所述视频文件和所述待查询的文本信息进行特征提取,得到所述视频文件的视频特征和所述待查询的文本信息的文本特征;
从所述视频文件的视频特征中确定与所述待查询的文本信息的文本特征匹配的视频特征;
将所述待查询的文本信息的文本特征匹配的视频特征对应的视频段,确定为所述待查询的文本信息匹配的视频段。
3.根据权利要求1所述的方法,其特征在于,所述时序标注模型的训练方法包括:
确定待训练的时序标注模型,所述待训练的时序标注模型包括待训练的时序标注网络、待训练的特征提取网络和待训练的视觉文本翻译网络;
将视频样本输入至所述待训练的时序标注网络,得到待训练的时序标注网络标注的视频段;
基于所述待训练的时序标注网络标注的视频段和所述视频样本中标注的视频段,确定所述待训练的时序标注网络的时序标注损失参数;
基于所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息,确定所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息之间的第一相似度参数和所述待训练的时序标注网络标注的视频段的视频特征;
基于所述待训练的时序标注网络标注的视频段的视频特征和所述视频样本中标注的文本信息,确定所述待训练的视觉文本翻译网络的翻译质量参数,所述翻译质量参数用于表征视觉文本翻译网络将视频特征翻译为文本信息的质量;
基于所述时序标注损失参数、所述第一相似度参数和所述翻译质量参数对所述待训练的时序标注模型进行参数调整,得到所述时序标注模型。
4.根据权利要求3所述的方法,其特征在于,所述基于所述待训练的时序标注网络标注的视频段和所述视频样本中标注的视频段,确定所述待训练的时序标注网络的时序标注损失参数,包括:
确定所述待训练的时序标注网络标注的视频段在所述视频样本中的起始时间和终止时间,以及,确定所述视频样本中标注的视频段在所述视频样本中的起始时间和终止时间;
将所述待训练的时序标注网络标注的视频段在所述视频样本中的起始时间和终止时间,以及所述视频样本中标注的视频段在所述视频样本中的起始时间和终止时间输入至时序标注损失函数,得到所述时序标注损失参数。
5.根据权利要求3所述的方法,其特征在于,所述基于所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息,确定所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息之间的第一相似度参数和所述待训练的时序标注网络标注的视频段的视频特征,包括:
将所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息输入至待训练的特征提取网络,得到所述待训练的时序标注网络标注的视频段的视频特征和所述视频样本中标注的文本信息的文本特征;
确定所述待训练的时序标注网络标注的视频段的视频特征和所述视频样本中标注的文本信息的文本特征之间的余弦相似度,得到所述第一相似度参数。
6.根据权利要求3所述的方法,其特征在于,所述基于所述待训练的时序标注网络标注的视频段的视频特征和所述视频样本中标注的文本信息,确定所述待训练的视觉文本翻译网络的翻译质量参数,包括:
将所述待训练的时序标注网络标注的视频段的视频特征输入至所述待训练的视觉文本翻译网络,得到视频样本的文本信息;
确定所述视频样本的文本信息与所述视频样本中标注的文本信息之间的第二相似度参数;
将所述第二相似度参数确定为所述翻译质量参数。
7.根据权利要求3所述的方法,其特征在于,所述基于所述时序标注损失参数、所述第一相似度参数和所述翻译质量参数对所述待训练的时序标注模型进行参数调整,得到所述时序标注模型,包括:
基于所述时序标注损失参数、所述第一相似度参数和所述翻译质量参数,对所述待训练的时序标注网络、特征提取网络和视觉文本翻译网络的网络参数进行调整,直到所述时序标注损失参数小于第一预设阈值,且所述相似度参数大于第二预设阈值,且所述翻译质量参数大于第三预设阈值,完成模型训练,得到所述时序标注模型。
8.一种视频时序标注装置,其特征在于,所述装置包括:
获取单元,被配置为执行获取待标注的视频文件和待查询的文本信息;
时序标注单元,被配置为执行将所述视频文件和所述待查询的文本信息输入至时序标注模型的时序标注网络,得到所述待查询的文本信息匹配的视频段;
特征提取单元,被配置为执行将所述待查询的文本信息匹配的视频段输入至所述时序标注模型的特征提取网络,得到所述待查询的文本信息匹配的视频段的视频特征;
视觉文本翻译单元,被配置为执行将所述待查询的文本信息匹配的视频段的视频特征输入至所述时序标注模型的视觉文本翻译网络,得到所述视频文件中标注的视频段的文本信息;
输出单元,被配置为执行通过所述时序标注模型输出所述待查询的文本信息匹配的视频段和所述视频文件中标注的视频段的文本信息。
9.根据权利要求8所述的装置,其特征在于,所述时序标注单元包括:
特征提取子单元,被配置为执行通过所述时序标注模型的时序标注网络,分别对所述视频文件和所述待查询的文本信息进行特征提取,得到所述视频文件的视频特征和所述待查询的文本信息的文本特征;
第一确定子单元,被配置为执行从所述视频文件的视频特征中确定与所述待查询的文本信息的文本特征匹配的视频特征;
第二确定子单元,被配置为执行将所述待查询的文本信息的文本特征匹配的视频特征对应的视频段,确定为所述待查询的文本信息匹配的视频段。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第一确定单元,被配置为执行确定待训练的时序标注模型,所述待训练的时序标注模型包括待训练的时序标注网络、待训练的特征提取网络和待训练的视觉文本翻译网络;
所述时序标注单元,还被配置为执行将视频样本输入至所述待训练的时序标注网络,得到待训练的时序标注网络标注的视频段;
第二确定单元,被配置为执行基于所述待训练的时序标注网络标注的视频段和所述视频样本中标注的视频段,确定所述待训练的时序标注网络的时序标注损失参数;
第三确定单元,被配置为执行基于所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息,确定所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息之间的第一相似度参数和所述待训练的时序标注网络标注的视频段的视频特征;
第四确定单元,被配置为执行基于所述待训练的时序标注网络标注的视频段的视频特征和所述视频样本中标注的文本信息,确定所述待训练的视觉文本翻译网络的翻译质量参数,所述翻译质量参数用于表征视觉文本翻译网络将视频特征翻译为文本信息的质量;
参数调整单元,被配置为执行基于所述时序标注损失参数、所述第一相似度参数和所述翻译质量参数对所述待训练的时序标注模型进行参数调整,得到所述时序标注模型。
11.根据权利要求10所述的装置,其特征在于,所述第二确定单元包括:
第三确定子单元,被配置为执行确定所述待训练的时序标注网络标注的视频段在所述视频样本中的起始时间和终止时间,以及,确定所述视频样本中标注的视频段在所述视频样本中的起始时间和终止时间;
损失参数确定子单元,被配置为执行将所述待训练的时序标注网络标注的视频段在所述视频样本中的起始时间和终止时间,以及所述视频样本中标注的视频段在所述视频样本中的起始时间和终止时间输入至时序标注损失函数,得到所述时序标注损失参数。
12.根据权利要求10所述的装置,其特征在于,所述第三确定单元包括:
所述特征提取单元,被配置为执行将所述待训练的时序标注网络标注的视频段和所述视频样本中标注的文本信息输入至待训练的特征提取网络,得到所述待训练的时序标注网络标注的视频段的视频特征和所述视频样本中标注的文本信息的文本特征;
第一相似度确定子单元,被配置为执行确定所述待训练的时序标注网络标注的视频段的视频特征和所述视频样本中标注的文本信息的文本特征之间的余弦相似度,得到所述第一相似度参数。
13.根据权利要求10所述的装置,其特征在于,所述第四确定单元包括:
所述视觉文本翻译单元,被配置为执行将所述待训练的时序标注网络标注的视频段的视频特征输入至所述待训练的视觉文本翻译网络,得到视频样本的文本信息;
第二相似度确定子单元,被配置为执行确定所述视频样本的文本信息与所述视频样本中标注的文本信息之间的第二相似度参数;
第四确定子单元,被配置为执行将所述第二相似度参数确定为所述翻译质量参数。
14.根据权利要求10所述的装置,其特征在于,所述参数调整单元,被配置为执行基于所述时序标注损失参数、所述第一相似度参数和所述翻译质量参数,对所述待训练的时序标注网络、特征提取网络和视觉文本翻译网络的网络参数进行调整,直到所述时序标注损失参数小于第一预设阈值,且所述相似度参数大于第二预设阈值,且所述翻译质量参数大于第三预设阈值,完成模型训练,得到所述时序标注模型。
15.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-7中任一项所述的视频时序标注方法。
16.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-7中任一项所述的视频时序标注方法。
17.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-7中任一项所述的视频时序标注方法。
CN202011526967.5A 2020-12-22 2020-12-22 视频时序标注方法、装置、电子设备及存储介质 Active CN112261491B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202011526967.5A CN112261491B (zh) 2020-12-22 2020-12-22 视频时序标注方法、装置、电子设备及存储介质
EP21887878.3A EP4047944A4 (en) 2020-12-22 2021-08-23 VIDEO PROCESSING METHOD AND ELECTRONIC DEVICE
PCT/CN2021/114059 WO2022134634A1 (zh) 2020-12-22 2021-08-23 视频处理方法及电子设备
US17/842,654 US11651591B2 (en) 2020-12-22 2022-06-16 Video timing labeling method, electronic device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011526967.5A CN112261491B (zh) 2020-12-22 2020-12-22 视频时序标注方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112261491A true CN112261491A (zh) 2021-01-22
CN112261491B CN112261491B (zh) 2021-04-16

Family

ID=74225296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011526967.5A Active CN112261491B (zh) 2020-12-22 2020-12-22 视频时序标注方法、装置、电子设备及存储介质

Country Status (4)

Country Link
US (1) US11651591B2 (zh)
EP (1) EP4047944A4 (zh)
CN (1) CN112261491B (zh)
WO (1) WO2022134634A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553858A (zh) * 2021-07-29 2021-10-26 北京达佳互联信息技术有限公司 文本向量表征模型的训练和文本聚类
CN113590881A (zh) * 2021-08-09 2021-11-02 北京达佳互联信息技术有限公司 视频片段检索方法、视频片段检索模型的训练方法及装置
WO2022134634A1 (zh) * 2020-12-22 2022-06-30 北京达佳互联信息技术有限公司 视频处理方法及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258188A1 (en) * 2010-04-16 2011-10-20 Abdalmageed Wael Semantic Segmentation and Tagging Engine
WO2018040059A1 (en) * 2016-09-02 2018-03-08 Microsoft Technology Licensing, Llc Clip content categorization
CN109905772A (zh) * 2019-03-12 2019-06-18 腾讯科技(深圳)有限公司 视频片段查询方法、装置、计算机设备及存储介质
CN110751224A (zh) * 2019-10-25 2020-02-04 Oppo广东移动通信有限公司 视频分类模型的训练方法、视频分类方法、装置及设备
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及系统
CN111950393A (zh) * 2020-07-24 2020-11-17 杭州电子科技大学 一种基于边界搜索智能体的时序动作片段分割方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030076413A1 (en) * 2001-10-23 2003-04-24 Takeo Kanade System and method for obtaining video of multiple moving fixation points within a dynamic scene
US20070106685A1 (en) * 2005-11-09 2007-05-10 Podzinger Corp. Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same
US8005356B2 (en) * 2007-02-13 2011-08-23 Media Global Links Co., Ltd. Video transmission system of a ring network
US20120207207A1 (en) * 2011-02-10 2012-08-16 Ofer Peer Method, system and associated modules for transmission of complimenting frames
US9602738B2 (en) * 2011-11-23 2017-03-21 Avigilon Fortress Corporation Automatic event detection, text generation, and use thereof
US9064170B2 (en) * 2012-01-11 2015-06-23 Nokia Technologies Oy Method, apparatus and computer program product for estimating image parameters
US9129158B1 (en) * 2012-03-05 2015-09-08 Hrl Laboratories, Llc Method and system for embedding visual intelligence
ES2907510T3 (es) * 2012-05-14 2022-04-25 V Nova Int Ltd Descomposición de datos residuales durante la codificación, decodificación y reconstrucción de señales en una jerarquía escalonada
US9154761B2 (en) * 2013-08-19 2015-10-06 Google Inc. Content-based video segmentation
US9807291B1 (en) * 2014-01-29 2017-10-31 Google Inc. Augmented video processing
US9848132B2 (en) * 2015-11-24 2017-12-19 Gopro, Inc. Multi-camera time synchronization
CN105677735B (zh) * 2015-12-30 2020-04-21 腾讯科技(深圳)有限公司 一种视频搜索方法及装置
US10229719B1 (en) * 2016-05-09 2019-03-12 Gopro, Inc. Systems and methods for generating highlights for a video
GB2558582A (en) * 2017-01-06 2018-07-18 Nokia Technologies Oy Method and apparatus for automatic video summarisation
US10979761B2 (en) * 2018-03-14 2021-04-13 Huawei Technologies Co., Ltd. Intelligent video interaction method
CN110321958B (zh) * 2019-07-08 2022-03-08 北京字节跳动网络技术有限公司 神经网络模型的训练方法、视频相似度确定方法
JP2022545179A (ja) * 2019-08-08 2022-10-26 デジェロ ラブス インコーポレイテッド データパケット通信を管理するためのシステムおよび方法
CN111222500B (zh) * 2020-04-24 2020-08-04 腾讯科技(深圳)有限公司 一种标签提取方法及装置
US11128832B1 (en) * 2020-08-03 2021-09-21 Shmelka Klein Rule-based surveillance video retention system
CN112101329B (zh) * 2020-11-19 2021-03-30 腾讯科技(深圳)有限公司 一种基于视频的文本识别方法、模型训练的方法及装置
CN112261491B (zh) * 2020-12-22 2021-04-16 北京达佳互联信息技术有限公司 视频时序标注方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258188A1 (en) * 2010-04-16 2011-10-20 Abdalmageed Wael Semantic Segmentation and Tagging Engine
WO2018040059A1 (en) * 2016-09-02 2018-03-08 Microsoft Technology Licensing, Llc Clip content categorization
CN109905772A (zh) * 2019-03-12 2019-06-18 腾讯科技(深圳)有限公司 视频片段查询方法、装置、计算机设备及存储介质
CN110751224A (zh) * 2019-10-25 2020-02-04 Oppo广东移动通信有限公司 视频分类模型的训练方法、视频分类方法、装置及设备
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及系统
CN111950393A (zh) * 2020-07-24 2020-11-17 杭州电子科技大学 一种基于边界搜索智能体的时序动作片段分割方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022134634A1 (zh) * 2020-12-22 2022-06-30 北京达佳互联信息技术有限公司 视频处理方法及电子设备
US11651591B2 (en) 2020-12-22 2023-05-16 Beijing Dajia Internet Information Technology Co., Ltd. Video timing labeling method, electronic device and storage medium
CN113553858A (zh) * 2021-07-29 2021-10-26 北京达佳互联信息技术有限公司 文本向量表征模型的训练和文本聚类
CN113553858B (zh) * 2021-07-29 2023-10-10 北京达佳互联信息技术有限公司 文本向量表征模型的训练和文本聚类
CN113590881A (zh) * 2021-08-09 2021-11-02 北京达佳互联信息技术有限公司 视频片段检索方法、视频片段检索模型的训练方法及装置
CN113590881B (zh) * 2021-08-09 2024-03-19 北京达佳互联信息技术有限公司 视频片段检索方法、视频片段检索模型的训练方法及装置

Also Published As

Publication number Publication date
US11651591B2 (en) 2023-05-16
WO2022134634A1 (zh) 2022-06-30
US20220327827A1 (en) 2022-10-13
EP4047944A4 (en) 2023-06-14
CN112261491B (zh) 2021-04-16
EP4047944A1 (en) 2022-08-24

Similar Documents

Publication Publication Date Title
CN109379643B (zh) 视频合成方法、装置、终端及存储介质
CN112261491B (zh) 视频时序标注方法、装置、电子设备及存储介质
CN110650379B (zh) 视频摘要生成方法、装置、电子设备及存储介质
CN111382624A (zh) 动作识别方法、装置、设备及可读存储介质
CN111127509B (zh) 目标跟踪方法、装置和计算机可读存储介质
CN109922356B (zh) 视频推荐方法、装置和计算机可读存储介质
CN112052897B (zh) 多媒体数据拍摄方法、装置、终端、服务器及存储介质
CN108132790B (zh) 检测无用代码的方法、装置及计算机存储介质
CN109547843B (zh) 对音视频进行处理的方法和装置
CN109102811B (zh) 音频指纹的生成方法、装置及存储介质
CN113918767A (zh) 视频片段定位方法、装置、设备及存储介质
CN112148899A (zh) 多媒体推荐方法、装置、设备及存储介质
CN110705614A (zh) 模型训练方法、装置、电子设备及存储介质
CN109961802B (zh) 音质比较方法、装置、电子设备及存储介质
CN109547847B (zh) 添加视频信息的方法、装置及计算机可读存储介质
CN110991445A (zh) 竖排文字识别方法、装置、设备及介质
CN110263695B (zh) 人脸部位的位置获取方法、装置、电子设备及存储介质
CN110992954A (zh) 语音识别的方法、装置、设备及存储介质
CN111611414A (zh) 车辆检索方法、装置及存储介质
CN111753606A (zh) 一种智能模型的升级方法及装置
CN113361376B (zh) 获取视频封面的方法、装置、计算机设备及可读存储介质
CN113593521B (zh) 语音合成方法、装置、设备及可读存储介质
CN113724739B (zh) 检索音频和训练声学模型的方法、终端及存储介质
CN111063372B (zh) 确定音高特征的方法、装置、设备及存储介质
CN115221888A (zh) 实体提及的识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant