CN117009578A - 视频数据的标注方法、装置、电子设备及存储介质 - Google Patents

视频数据的标注方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117009578A
CN117009578A CN202211425748.7A CN202211425748A CN117009578A CN 117009578 A CN117009578 A CN 117009578A CN 202211425748 A CN202211425748 A CN 202211425748A CN 117009578 A CN117009578 A CN 117009578A
Authority
CN
China
Prior art keywords
video
text
tag
features
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211425748.7A
Other languages
English (en)
Inventor
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211425748.7A priority Critical patent/CN117009578A/zh
Publication of CN117009578A publication Critical patent/CN117009578A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/743Browsing; Visualisation therefor a collection of video files or sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种视频数据的标注方法、装置、电子设备及存储介质;方法包括:获取视频发布主体所发布的视频数据,其中,视频数据包括视频帧序列、视频文本、视频帧序列的至少一个视频标签;对至少一个视频标签进行特征提取处理,得到视频标签特征;对视频帧序列以及视频文本进行特征提取处理,得到视频内容特征;获取视频标签特征与视频内容特征之间的相似度,并将相似度作为视频数据与至少一个视频标签之间的匹配程度;将匹配程度小于匹配程度阈值的视频标签作为目标视频标签,更新视频数据中的目标视频标签。通过本申请,能够提升视频数据的标注处理的准确性。

Description

视频数据的标注方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术,尤其涉及一种视频数据的标注方法、装置、电子设备及存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
用户在社交平台发布视频形式的用户原创内容(User created Content,UCG)时,通常会使用话题标签(hashtag)对视频数据进行标注,推荐系统可以基于话题标签获取视频内容,并将视频内容推荐给其他观看视频的用户。用户对视频进行标注的主观性较强,容易出现话题标签与视频内容无关等问题,进而,当推荐系统根据话题标签召回视频数据、或基于话题标签调用视频数据进行推荐时,会出现推荐内容不符用户需求的情况,导致推荐效果下降。
相关技术针对如何提升视频数据的标注处理的准确性暂无较好的解决方案。
发明内容
本申请实施例提供一种视频数据的标注方法、装置、电子设备及计算机可读存储介质、计算机程序产品,能够提升视频数据的标注处理的准确性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种视频数据的标注方法,包括:
获取视频发布主体所发布的视频数据,其中,所述视频数据包括视频帧序列、视频文本、所述视频帧序列的至少一个视频标签;
对所述至少一个视频标签进行特征提取处理,得到视频标签特征;
对所述视频帧序列以及所述视频文本进行特征提取处理,得到视频内容特征;
获取所述视频标签特征与所述视频内容特征之间的相似度,并将所述相似度作为所述视频数据与所述至少一个视频标签之间的匹配程度;
将所述匹配程度小于匹配程度阈值的视频标签作为目标视频标签,更新所述视频数据中的所述目标视频标签。
本申请实施例提供一种视频数据的标注装置,包括:
数据获取模块,配置为获取视频发布主体所发布的视频数据,其中,所述视频数据包括视频帧序列、视频文本、所述视频帧序列的至少一个视频标签;
特征提取模块,配置为对所述至少一个视频标签进行特征提取处理,得到视频标签特征;
所述特征提取模块,配置为对所述视频帧序列以及所述视频文本进行特征提取处理,得到视频内容特征;
特征匹配模块,配置为获取所述视频标签特征与所述视频内容特征之间的相似度,并将所述相似度作为所述视频数据与所述至少一个视频标签之间的匹配程度;
标签更新模块,配置为将所述匹配程度小于匹配程度阈值的视频标签作为目标视频标签,更新所述视频数据中的所述目标视频标签。
本申请实施例提供一种电子设备,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的视频数据的标注方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于引起处理器执行时,实现本申请实施例提供的视频数据的标注方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,所述计算机程序或计算机可执行指令被处理器执行时实现本申请实施例提供的视频数据的标注方法。
本申请实施例具有以下有益效果:
通过将视频帧序列与视频文本共同进行特征提取,将不同模态的特征融合为视频内容特征,特征获取更全面,提升了获取视频内容的特征的准确性;通过获取视频内容特征与视频标签特征的相似度,提升了确定视频内容与视频标签匹配程度的准确性。对匹配程度不符合匹配程度阈值的目标视频标签进行更新,更新后的视频标签与视频内容的匹配程度更好,有利于提升视频数据被推荐的准确性。
附图说明
图1是本申请实施例提供的视频数据的标注方法的应用模式示意图;
图2A是本申请实施例提供的服务器的结构示意图;
图2B是本申请实施例提供的多模态分类模型的结构示意图;
图3A至图3H是本申请实施例提供的视频数据的标注方法的流程示意图;
图4是本申请实施例提供的视频数据的标注方法的流程示意图;
图5A是本申请实施例提供的多模态分类模型的结构示意图;
图5B是本申请实施例提供的多模态分类模型提取视频内容特征的过程示意图;
图6A是本申请实施例提供的获取视频文本的过程示意图;
图6B至图6D是本申请实施例提供的人机交互界面的示意图;
图7是本申请实施例提供的视频数据的标注方法的流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
需要指出,在本申请实施例中,涉及到用户信息、用户反馈数据等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)模态(Modality),每一种信息的来源或者形式,都可以称为一种模态。例如,信息的媒介有语音、图像、文字等;信息的来源有多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。
2)光学字符识别(Optical Character Recognition,OCR),光学字符识别是指电子设备(例如扫描仪或数码相机)检测字符,然后用字符识别方法将形状翻译成计算机文字的过程;
3)局部聚合描述子向量(Vector of Locally Aggregated Descriptors,VLAD),是一种编码方法,被广泛应用到计算机视觉的许多课题中,例如图像检索和场景识别。
4)话题标签(hashtag),直译为哈希标签,又称井字标签或者话题标签,用户原创内容中加入话题标签,表征该条用户原创内容加入话题标签对应的话题讨论。
5)卷积神经网络(Convolutional Neural Networks,CNN),是一类包含卷积计算且具有深度结构的前馈神经网络(Feed forward Neural Networks,FNN),是深度学习(Deep Learning)的代表算法之一。卷积神经网络具有表征学习(RepresentationLearning)能力,能够按其阶层结构对输入图像进行平移不变分类(Shift-invariantClassification)。
6)快速区域卷积神经网络(Faster Region Convolutional Neural Networks,Faster R-CNN),是两阶段目标检测模型中的典型代表,通过深度卷积网络提取图像的特征,并对图像中的感兴趣区域进行定位、分类。
7)词到向量(word to vector,w2v)模型,用于将词汇转换为向量的词向量模型。原理是针对一段文本,以每个词汇为单位进行特征提取处理,将每个词汇映射为一个向量。
本申请实施例提供一种视频数据的标注方法、视频数据的标注装置、电子设备和计算机可读存储介质及计算机程序产品,能够提升视频数据的标注处理的准确性。
下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)、车载终端等各种类型的用户终端,也可以实施为服务器。下面,将说明设备实施为服务器时示例性应用。
参考图1,图1是本申请实施例提供的视频数据的标注方法的应用模式示意图;示例的,涉及推荐服务器200、网络300、数据库500及终端设备400-1、终端设备400-2。终端设备400-1、终端设备400-2通过网络300连接推荐服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
示例的,推荐服务器200可以是视频平台的服务器,第一用户是在视频平台发布视频数据的创作者,第二用户是使用视频平台观看推荐视频的观看者,基于上述举例进行解释说明,视频发布主体可以是第一用户所使用的用于登录视频平台的账号,数据库500可以是视频平台的数据库,存储有视频平台中用户发布的各种内容。
第一用户通过终端设备400-1发布用户原创内容(视频数据),用户原创内容中包括视频帧序列、视频文本(视频标题、视频帧所包括的文字)、视频标签,推荐服务器200对视频数据进行处理,确定视频标签与视频内容(视频帧序列、视频文本)是否匹配,当视频标签与视频内容不匹配时,对视频标签进行更新,并将更新后的视频标签发送给终端设备400-1,以使第一用户观看到修改后的视频标签。推荐服务器200将修改了视频标签的视频数据存储到视频平台数据库500中。当第二用户对终端设备400-2执行视频刷新操作时,终端设备400-2向推荐服务器200发送推荐请求,推荐服务器200可以从数据库500中提取根据重新标注的视频标签,以确定推荐请求所需的视频数据,向终端设备400-2发送更准确的推荐内容,提升视频推荐效果。
本申请实施例可以通过自然语言处理(Nature Language Processing,NLP)实现,自然语音处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例可以通过区块链技术实现,可以将本申请实施例得到的更新后的视频数据上传到区块链中存储,通过共识算法保证更新后的视频数据的可靠性。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
本申请实施例可以通过数据库技术实现,数据库(Database),简而言之可视为电子化的文件柜存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
数据库管理系统(Database Management System,DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible Markup Language,即可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如结构化查询语言(Structured Query Language,SQL)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
本申请实施例,还可以通过云技术实现,云技术(Cloud Technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,将来每个物品都有可能存在自己的哈希编码识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,推荐服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。电子设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例中不做限制。
参见图2A,图2A是本申请实施例提供的服务器的结构示意图,图2A所示的推荐服务器200包括:至少一个处理器410、存储器450、至少一个网络接口420。推荐服务器200中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2A中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本申请实施例提供的视频数据的标注装置可以采用软件方式实现,图2A示出了存储在存储器450中的视频数据的标注装置455,其可以是程序和插件等形式的软件,包括以下软件模块:数据获取模块4551、特征提取模块4552、特征匹配模块4553、标签更新模块4554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
将结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的视频数据的标注方法。
参见图3A,图3A是本申请实施例提供的视频数据的标注方法的流程示意图,将服务器作为执行主体,将结合图3A示出的步骤进行说明。
在步骤301中,获取视频发布主体所发布的视频数据。
示例的,视频发布主体可以是用户所使用的终端设备,参考图1,视频发布主体是终端设备400-1。假设推荐服务器200是短视频平台的服务器,用户可以通过终端设备400-1编辑相应的视频数据(例如:附带文本的短视频),并将视频数据发送至推荐服务器200,也即,在短视频平台发布短视频。
示例的,视频发布主体也可以是账号,例如:短视频平台中的视频号。视频号所发布的视频数据可以是真实用户编辑发布的,也可以是人工智能自动编辑发布的。
示例的,视频数据包括视频帧序列、视频文本、视频帧序列的至少一个视频标签。
视频帧序列包括:视频所包括多个视频帧图像、视频的音频数据;视频文本包括视频帧序列携带的文本(可以通过文本提取处理获取)、视频标题、视频发布主体发布视频数据时编辑的用于解释说明视频帧序列的说明文本。
视频标签又称话题标签。视频标签可以表征为以下文字形式:#标签内容#。
在一些实施例中,参考图3B,图3B是本申请实施例提供的视频数据的标注方法的流程示意图,步骤301可以通过以下步骤3011至步骤3012实现,以下具体说明。
在步骤3011中,获取视频发布主体所发布的视频帧序列、视频帧序列对应的视频标签。
示例的,视频数据包括视频帧序列,视频帧序列由音频数据、多个视频帧图像组成。视频帧图像中可以包括字幕、音频数据中可以包括语音,可以从视频帧图像、音频数据中提取文本内容。
参考图6B,图6B是本申请实施例提供的人机交互界面的示意图;图6B展示了终端设备的人机交互界面中显示的视频发布主体所发布的视频数据,其中,视频帧图像610是视频帧序列中的一个视频帧图像的示意图。“#家常菜#”等使用井字符号标注的文本,是视频帧序列对应的视频标签。可以提取井字符号标注的每个文本作为视频序列对应的视频标签。
在步骤3012中,对视频帧序列进行以下至少一种文本提取处理,将文本提取处理的结果、以及视频帧序列的说明文本作为视频文本。
示例的,文本提取处理的类型包括光学字符识别以及自动语音识别。视频帧序列的说明文本是视频发布主体在发布视频数据时,针对视频帧序列编辑的文本内容,例如:视频标题、视频配文等。继续参考图6B,“口袋饼太好吃了”是用于解释说明视频帧序列的视频说明文本609。
文本提取处理1、提取视频帧序列对应的音频数据,对音频数据进行语音识别,得到视频帧序列对应的配音文本。参考图6A,图6A是本申请实施例提供的获取视频文本的过程示意图;音频数据606是视频序列对应的音频数据的音频幅度示意图,通过对音频数据进行语音识别处理,可以得到识别处理结果607,也即视频帧序列对应的配音文本,将视频帧序列对应的配音文本添加到视频文本中。
文本提取处理2、对视频帧序列中每个视频帧图像进行字符识别,得到每个视频帧图像所包括的字幕文本。继续参考图6A,视频帧序列605是视频帧序列的示意图,视频帧序列605包括多张视频帧图像,视频帧图像中存在文本601、文本602、文本603、文本604等字幕文本,可以通过光学字符识别处理获取上述字幕文本(识别处理结果608),并将识别处理结果作为添加到视频文本中。
本申请实施例中,通过多种方式获取视频数据对应的视频文本,使得视频文本内容更丰富,可以提升提取视频内容特征的准确性,进而提升匹配视频标签与视频内容的准确性,便于对视频标签进行更新。
继续参考图3A,在步骤302中,对至少一个视频标签进行特征提取处理,得到视频标签特征。
示例的,视频标签的本质是文本,可以将至少一个视频标签作为一整段文本进行不同维度的特征提取处理。
在一些实施例中,参考图3C,图3C是本申请实施例提供的视频数据的标注方法的流程示意图,步骤302可以通过以下步骤3021至步骤3024实现,以下具体说明。
在步骤3021中,对至少一个视频标签中每个词汇进行特征提取处理,得到至少一个视频标签的词汇嵌入向量。
示例的,将至少一个视频标签作为一整段文本,以词汇为单位进行特征提取处理,将每个词汇转换为一个词汇嵌入向量(word embedding),得到至少一个视频标签对应的多个词汇嵌入向量。将视频标签转换为词汇嵌入向量可以通过word2vec模型(word tovector)实现。
在步骤3022中,对至少一个视频标签中每个段落进行特征提取处理,得到至少一个视频标签的段落嵌入向量。
示例的,文本中的段落(segment)可以通过文本中的分隔符号确定,分隔符号的类型可以是句号、井字符号等。针对视频标签,分隔符号可以是井字符号,则一个视频标签是一个段落,将至少一个视频标签作为一整段文本,以视频标签为单位进行特征提取处理,将每个视频标签转换为一个段落嵌入向量(segment embedding)。
在步骤3023中,对每个词汇在至少一个视频标签中的位置进行特征提取处理,得到至少一个视频标签的位置嵌入向量。
示例的,词向量记录了每一个词汇的词信息,而没有记录这些词汇在文本中出现的位置信息,位置是指文本中每个字符的位置,以词汇的位置信息作为单位,提取位置信息的特征,得到位置嵌入向量(position embedding)。
在步骤3024中,对词汇嵌入向量、段落嵌入向量、位置嵌入向量进行组合处理,得到视频标签特征。
示例的,将词汇嵌入向量、段落嵌入向量、位置嵌入向量分别作为一个维度的子向量,将每个维度的子向量组合为三层结构向量的视频标签特征。
本申请实施例中,将视频标签作为文本内容,并从不同的维度对视频标签进行特征提取处理,提升了获取视频标签的特征的准确性。
在一些实施例中,可以对视频标签特征进行多个层次的转换处理(Transformer)以及平均池化处理(average pooling),处理后的视频标签特征便于与视频内容特征进行对齐,能够提升获取特征之间相似度的准确性。
继续参考图3A,在步骤303中,对视频帧序列以及视频文本进行特征提取处理,得到视频内容特征。
示例的,步骤303与步骤302可以是同时执行的。
示例的,视频文本是文本内容,对视频文本进行特征提取的原理与提取视频标签特征的原理相同。对视频帧序列通过对视频帧图像进行特征提取实现。将视频帧序列的特征与视频文本的特征结合,可以得到视频内容特征。
在一些实施例中,参考图3D,图3D是本申请实施例提供的视频数据的标注方法的流程示意图,步骤303可以通过以下步骤3031至步骤3034实现,以下具体说明。
在步骤3031中,对视频帧序列进行视频特征提取处理,得到视频帧特征。
示例的,参考上文针对视频标签进行的特征提取处理,视频帧序列也可以是从不同的维度进行特征提取处理,维度的类型包括:视频帧序列中的每个视频帧图像的图像特征向量(对应于词汇嵌入向量的维度)、视频帧序列中的视频帧图像的视频流向量(对应于段落嵌入向量的维度)、视频帧序列中每个视频帧图像的位置嵌入向量(对应于每个词汇的位置嵌入向量的维度)。
在一些实施例中,参考图3E,图3E是本申请实施例提供的视频数据的标注方法的流程示意图,步骤3031可以通过以下步骤30311至步骤30314实现,以下具体说明。
在步骤30311中,对视频帧序列中每个视频帧图像进行图像特征提取处理,得到视频帧序列的图像特征向量。
示例的,图像特征提取处理可以通过神经网络模型实现,例如:快速区域卷积神经网络(Faster R-CNN,Faster Region Convolutional Neural Networks)、Inception-V4等用于提取图像中感兴趣区域的特征的神经网络模型。
在步骤30312中,对视频帧序列中每个视频帧图像进行特征聚合处理,得到视频帧序列的视频流向量。
示例的,特征聚合处理,也即对每个视频帧图像的图像特征向量进行特征聚合,将多个视频帧图像的特征聚合为一个视频流向量。特征聚合处理可以通过局部聚合描述子向量(Vector of Locally Aggregated Descriptors,VLAD)技术实现。
在步骤30313中,对每个视频帧图像在视频帧序列中的位置进行特征提取处理,得到视频帧序列的位置嵌入向量。
示例的,图像特征向量记录了每一个视频帧图像的图像信息,而没有记录这些视频帧图像在视频帧序列中出现的位置信息,位置是指视频帧序列中每个视频帧图像的位置,以视频帧图像的位置信息作为单位,提取位置信息的特征,得到位置嵌入向量(position embedding)。
在步骤30314中,对图像特征向量与视频流向量、位置嵌入向量进行组合处理,得到视频帧特征。
示例的,将图像特征向量、视频流向量、位置嵌入向量分别作为一个维度的子向量,将每个维度的子向量组合为三层结构向量的视频帧特征。
本申请实施例中,从不同的维度对视频帧序列进行特征提取处理,提升了表征视频帧序列的特征的准确性,提升了获取视频内容特征的准确性。
继续参考图3D,在步骤3032中,对视频文本进行文本特征提取处理,得到视频文本特征。
示例的,视频文本与视频标签的本质均为文本,视频文本的文本特征提取处理,与针对视频标签的特征提取处理的原理基本相同。
在一些实施例中,参考图3F,图3F是本申请实施例提供的视频数据的标注方法的流程示意图,步骤3032可以通过以下步骤30321至步骤30324实现,以下具体说明。
在步骤30321中,对视频文本中每个词汇进行特征提取处理,得到视频文本的词汇嵌入向量。
示例的,视频文本与视频标签的本质均为文本,步骤30321至步骤30324的原理与步骤3021至步骤3024相同。
在步骤30322中,对视频文本中每个段落进行特征提取处理,得到视频文本的段落嵌入向量。
示例的,针对视频文本,可以将句号作为段落的分隔符号,每个段落也即视频文本中的每个句子。对视频文本中的句子为单位进行特征提取处理,得到视频文本的段落嵌入向量。
在步骤30323中,对每个词汇在视频文本中的位置进行特征提取处理,得到视频文本的位置嵌入向量。
示例的,词向量记录了每一个词汇的词信息,而没有记录这些词汇在文本中出现的位置信息,位置是指文本中每个字符的位置,以词汇的位置信息作为单位,提取位置信息的特征,得到位置嵌入向量(position embedding)。
在步骤30324中,对词汇嵌入向量、段落嵌入向量、位置嵌入向量进行组合处理,得到视频文本特征。
示例的,将词汇嵌入向量、段落嵌入向量、位置嵌入向量分别作为一个维度的子向量,将每个维度的子向量组合为三层结构向量的视频文本特征。
本申请实施例中,从不同的维度对视频文本进行特征提取处理,提升了获取视频文本的特征的准确性。
继续参考图3D,在步骤3033中,对视频文本特征以及视频帧特征进行拼接处理,得到拼接特征。
示例的,视频文本特征以及视频帧特征分别标注为三层结构向量,将三层结构向量中的每个维度的向量依次进行拼接处理,则得到拼接特征。例如:将视频帧序列中的每个视频帧图像的图像特征向量T1与词汇嵌入向量W1组合,得到拼接子向量[T1,W1]。
以此类推,拼接视频帧序列中的视频帧图像的视频流向量、段落嵌入向量,得到拼接子向量;拼接视频帧序列中每个视频帧图像的位置嵌入向量、每个词汇的位置嵌入向量,得到拼接子向量。将每个拼接子向量根据对应的维度进行组合,得到拼接特征。
在步骤3034中,对拼接特征进行多个层次的转换处理,对转换处理的结果进行平均池化处理,得到视频内容特征。
示例的,转换处理也即通过多个层次的转换器层(Transformer)作为编码器进行编码处理,并将转换处理的结果进行平均池化处理(average pooling),得到视频内容特征。
继续参考图3A,在步骤304中,获取视频标签特征与视频内容特征之间的相似度,并将相似度作为视频数据与至少一个视频标签之间的匹配程度。
视频标签特征与视频内容特征以特征向量的形式表征;在一些实施例中,步骤304可以通过以下方式实现:获取视频标签特征与视频内容特征之间的余弦相似度,并将余弦相似度作为视频数据与至少一个视频标签之间的匹配程度。
示例的,余弦相似度是通过测量两个向量的夹角的余弦值来度量它们之间的相似度。获取视频标签特征与视频内容特征分别对应的特征向量之间的夹角的余弦值,则可以得到视频标签特征与视频内容特征的余弦相似度。
在步骤305中,将匹配程度小于匹配程度阈值的视频标签作为目标视频标签,更新视频数据中的目标视频标签。
示例的,匹配程度阈值可以根据应用场景的需求,通过实验确定。当匹配程度小于匹配程度阈值时,说明视频标签的内容与视频数据的内容存在差异,需要对视频标签进行修改。
示例的,更新视频数据中的目标视频标签的方式的类型包括删除目标视频标签以及替换目标视频标签。
在一些实施例中,步骤305可以通过以下方式实现:通过以下任意一种方式对目标视频标签进行更新:
方式1、删除目标视频标签;参考图
方式2、获取视频文本中的关键词,并将关键词作为新视频标签,以替换目标视频标签。
在一些实施例中,参考图3G,图3G是本申请实施例提供的视频数据的标注方法的流程示意图,获取视频文本中的关键词可以通过以下步骤3051至步骤3054,以下具体说明。
在步骤3051中,获取视频文本中的每个词汇的词频。
示例的,词频是以下参数之间的比值:词汇在视频文本中的出现次数、视频文本的词汇总数量。
示例的,词汇i的词频tfi可表示为以下公式(1):
以上式子中,ni是该词汇i在文件中的出现次数,而分母∑kni则是在文件中所有词汇的出现次数之和,也即视频文本的词汇总数量。
在步骤3052中,获取视频文本中的每个词汇的逆文档率。
示例的,逆文档率是以下参数之间的商的对数:语料库中包括词汇的文本的数量、语料库的总文本数量。语料库可以是推荐服务器对应的短视频平台的文本的集合。词汇i的逆文档率idfi可以表征为以下公式(2):
其中,{j:ti∈di}是语料库中包括词汇的文本的数量,|D|是语料库的总文本数量。
在步骤3053中,将每个词汇对应的词频与逆文档率进行相乘处理,得到每个词汇的词频逆文档率。
示例的,词汇i的词频逆文档率=tfi*idfi
在步骤3054中,根据每个词频逆文档率对每个词汇进行降序排序处理,将降序排序结果中头部的词汇作为关键词。
示例的,词频逆文档率越高,则词汇在当前文本的出现频率越高,且在语料库中的出现频率越低,说明词汇能够表征当前文本的特征,且在语料库中与其他文本存在区别度,可以将词汇作为关键词。
本申请实施例将视频文本中词频逆文档率较高的词汇作为关键词,并以关键词替换视频标签,提升了视频标签与视频内容的匹配程度,进而提升了召回视频数据的准确性、推荐视频数据的推荐效果,节约了推荐服务器的计算资源。
在一些实施例中,在步骤301之后可以对视频文本执行以下处理至少之一:
1、删除视频文本中的干扰词。
示例的,干扰词的类型包括:主语、水印以及语气词。
2、删除视频文本中出现频率达到出现频率上限值的词汇。
示例的,出现频率上限值可以是视频帧序列中视频帧图像的数量,例如:视频帧序列包括20000帧,出现频率上限值是20000次,每帧中均出现了文本“@XXX”,XXX指代名称,说明“@XXX”是视频中标注的水印,从视频文本中删除“@XXX”。
本申请实施例中,通过删除视频文本中的干扰词汇,避免了视频文本中混入干扰内容,进而提升了获取视频文本特征、获取视频中的关键词的准确性。
在一些实施例中,视频标签特征、视频内容特征以及相似度是通过调用多模态分类模型获取的。参考图2B,图2B是本申请实施例提供的多模态分类模型的结构示意图;多模态分类模型201B包括特征提取模块210B(对应于图2A的特征提取模块4552)以及特征匹配模块220B(对应于图2A的特征匹配模块4553)。特征提取模块210B包括特征提取层202B、特征转换层203B、平均池化层204B。特征提取模块210B中的特征提取层202B用于执行特征提取处理;特征转换层203B用于执行上文中针对视频帧特征、视频文本特征的转换处理;平均池化层204B用于执行平均池化处理。特征匹配模块220B用于执行获取相似度的处理。
在一些实施例中,参考图3H,图3H是本申请实施例提供的视频数据的标注方法的流程示意图,步骤301之前,可以通过以下步骤306至步骤308训练多模态分类模型,以下具体说明。
在步骤306中,获取用于作为训练样本的样本视频数据。
示例的,样本视频数据包括:视频帧序列、视频文本、视频帧序列的至少一个视频标签,视频数据与至少一个视频标签之间的实际匹配程度。样本视频数据可以是从短视频平台中抓取的已经标注了视频标签,且通过视频推荐验证过标签的准确性的视频数据。
在步骤307中,基于样本视频数据调用多模态分类模型进行预测处理,得到以下参数的预测匹配程度:样本视频的内容与至少一个视频标签。
示例的,样本视频的内容包括:视频帧序列、视频文本;多模态分类模型的结构如上文所示,预测处理包括特征提取处理(特征提取、特征转换以及平均池化)、以及获取匹配程度的处理。
在步骤308中,基于实际匹配程度与预测匹配程度之间的差异,对多模态分类模型的参数进行更新处理。
示例的,基于实际匹配程度与预测匹配程度之间的差异,确定多模态分类模型进行特征提取处理得到的特征与实际特征之间的差异,通过反向传播的方式,对多模态分类模型的特征提取模块、特征匹配模块分别进行参数更新,以使多模态分类模型输出的结果与实际匹配程度相符。
本申请实施例中,通过对多模态分类模型进行训练,提升多模态分类模型获取匹配程度的准确性,进而提升对视频数据的标签更新的准确性,节约了计算资源。
在一些实施例中,参考图4,图4是本申请实施例提供的视频数据的标注方法的流程示意图。将结合图1中的终端设备400-1、终端设备400-2、推荐服务器200进行解释说明。
终端设备400-1执行步骤401,发送视频数据至推荐服务器200。
示例的,用户通过终端设备400-1编辑视频数据,并将视频数据发送给短视频平台的推荐服务器200。
推荐服务器200执行步骤402,对视频数据的视频标签进行更新。
示例的,推荐服务器200通过本申请实施例提供的视频数据的标注方法,对视频数据的视频标签进行更新。
示例的,参考图6C,图6C是本申请实施例提供的人机交互界面的示意图;图6C展示了人机交互界面中显示的更新视频标签之前的视频数据,视频帧图像614是视频中的一帧图像的示意图,视频帧图像包括字幕文本“冰球项目会场响起了熟悉的乐曲”,经过对视频文本中每个词汇的词频逆文档率进行获取,确定“冰球”是视频数据的关键词611。视频数据说明文本612的内容为“印在骨子里的节奏!”,当前的视频标签613的内容为“为XX队点赞”。视频标签613与视频数据的相关内容的匹配程度不高,进而导致视频数据不能准确地被召回或者被推荐。推荐服务器200可以从视频文本中获取关键词,以关键词替代原有的视频标签,或者将关键词添加到视频标签中。
推荐服务器200执行步骤403,发送更新后的视频数据至终端设备400-1。
示例的,推荐服务器200将更新后的视频数据同步至终端设备400-1。
终端设备400-1执行步骤404,显示更新后的视频数据。
示例的,参考图6D,图6D是本申请实施例提供的人机交互界面的示意图;图6D展示了人机交互界面中显示的更新视频标签之后的视频数据,从视频文本中获取到了关键词“体育”、“冰球”,将关键词“体育”、“冰球”作为新增视频标签615,显示在人机交互界面中。
终端设备400-2执行步骤405,发送推荐请求至推荐服务器200。
示例的,当用户使用终端设备400-2执行刷新短视频的操作时,终端设备400-2向推荐服务器200发送推荐请求。
推荐服务器200执行步骤406,发送推荐内容至终端设备400-2。
示例的,推荐服务器200基于推荐请求在短视频平台的数据库中对视频数据的标签进行检索,数据库存储有标签更新后的视频数据。推荐服务器200召回与推荐请求匹配的视频标签对应的视频数据,并对视频数据与推荐请求之间的匹配程度进行降序排序,将降序排序结果中的TOPN个视频数据作为推荐内容,将推荐内容发送给终端设备400-2。
终端设备400-2执行步骤407,显示推荐内容。
示例的,终端设备400-2接收到推荐内容后,将显示推荐内容。
本申请实施例中,通过将视频帧序列与视频文本共同进行特征提取,将多模态的特征融合为视频内容特征,提升了获取视频内容的特征的准确性,通过获取视频内容特征与视频标签特征的相似度,提升了确定视频内容与视频标签匹配程度的准确性。对视频标签进行更新,使得视频标签与视频内容的匹配程度更好,有利于提升视频数据被推荐的准确性。
下面,将说明本申请实施例视频数据的标注方法在一个实际的应用场景中的示例性应用。
随着即时通信软件产品的不断升级,除了以图文为主的传统自媒体公众号平台之外,也提供了供个人用户随时分享短内容的即时通信软件视频号。其产品风格更像社交媒体平台,但主要内容表达方式却不是文字内容而是侧重视频结合文字,例如:用户可以在通信软件产品中发布短视频与搭配短视频的文字内容。为了改善信息环境以及对信息按照话题进行分组,用户可以在发布的用户原创内容中添加话题标签,话题标签可以表征为以下形式:#标签内容#。
相关技术中,即时通信软件视频号标题中的视频标签,是用户在上传视频时人工给视频打的标签。视频标签在目前的召回系统中发挥着重要的作用。但人工标签存在极大的主观性,很多标签与视频的相关性较低,标签作弊/蹭热点情况严重,标签整体质量不高,造成线上误召回。
现有基于视频号文本信息分类模型打标签中存在的只考虑文本内容未考虑视频号帧内容、分类标签漏标严重,不宜更新等问题。相关技术将视频数据的标注视作传统的文本分类任务,存在如下几个问题:
(1)视频数据的主要内容信息存在于视频帧内容中,视频标题和视频标签等文本内容难以全面表达。
(2)相关技术的视频标签短小,粒度不均匀,信息含量较少且难以准确表征。
(3)用户生成内容的视频标签很短甚至缺失、无意义现象严重。
本申请实施例引入了多模态因素,通过多模态分类模型对视频特征进行特征提取;基于视频内容特征确定新的视频标签,对视频数据的标签进行更新,提升标签的准确性;能够从视频帧中提取文本信息补充视频标签。本申请实施例,将视频数据的全文本信息(视频标签、视频标题以及视频帧中的文本内容)结合视频帧图像,通过多模态分类模型给视频打标签,即通过输入标签、视频多模态数据,输出匹配程度的方式来替代现有传统分类模型,增强了鲁棒性;模型结构优化后可以随时适应新标签,实时性更高。
参考图7,图7是本申请实施例提供的视频数据的标注方法的一个可选的流程示意图。以图1中的推荐服务器200为执行主体,对图7中的步骤701至步骤707进行解释说明。
在步骤701中,获取终端设备发送的视频数据,并对视频数据的视频帧序列进行文本提取处理,将文本提取处理的结果以及视频数据的标题作为视频文本。
示例的,视频数据是多模态数据,涉及的模态的类型包括文本、图像以及音频。视频数据可以是服务器从视频平台的数据库中抓取的,或者,用户通过终端设备发送到服务器的视频数据。文本提取处理也即,针对视频帧图像进行光学字符识别处理,得到文本内容。
在步骤702中,对视频文本中的干扰词、以及出现频率大于出现频率上限的词汇进行删除处理,得到优化后的视频文本。
示例的,针对视频文本需要进行优化处理,考虑到原始光学字符识别文本内容较多,噪音较大等问题,本申请实施例主要对光学字符识别文本内容做去噪及提取关键词优化,即上述多模态输入中的光学字符识别部分只对其关键词进行编码输入。
示例的,去噪可以通以下方式实现:删除文本中的停用词,此处的停用词的类型包括:主语(例如:“你”,“我”,“他”)、语气词、助词(例如:了)、水印词等。
确定水印词的方式包括以下两种:
(1)将所有视频数据名和知名媒体平台名(互联网公开词典)作为水印词。
(2)获取视频帧中出现频率大于特定阈值的词汇。
即统计当前视频帧序列中的全部视频帧的光学字符识别结果中,不同文本片段的出现次数tf,如果某个片段的出现次数tf除以总帧数大于特定阈值K。例如:水印在视频帧序列中的每一帧中出现。
在步骤702之后,同步执行步骤703以及步骤704,以下先对步骤703进行解释说明。
在步骤703中,对视频标签进行多个层次的特征提取处理,得到视频标签特征。
示例的,相关技术双塔模型存在不同模态特征交互太弱,模型表达能力有限的问题,本申请实施例最终引入基于转换器(Transformer)的单流模型,在模型最底层就进行模态特征的交互,本申请实施例的多模态分类模型的结构上参考了基于转换器的双向编码器(Bidirectional Encoder Representations from Transformer,BERT),本申请实施例使用堆叠的转换器层作为编码器进行编码,将文本和图像信息通过注意力机制层(特征提取层)进行融合对齐。
参考图5A,图5A是本申请实施例提供的多模态分类模型的结构示意图;多模态分类模型的输入包括文本和图像两种模态信息,特征提取层501A对于文本模态信息(包括视频号视频标签标注、标题及视频帧中的文本内容),通过word2vec模型(用于产生词向量的模型)将文本转化为词汇嵌入向量(word embedding,也即文本的“token embedding”)、段落嵌入向量(segment embedding)和位置嵌入向量(position embedding),上述三种向量组成三层向量。生成视频标签对应的三层向量,以及视频标题及视频帧中的文本(视频帧中的文本可以通过光学字符识别获取)对应的三层向量。
针对视频标签的三层向量,使用12层的转换器模块502A以及平均池化操作(平均池化层503A用于执行average pooling处理),得到视频标签向量表征。
在步骤704中,对优化后的视频文本进行多个层次的特征提取处理,得到视频文本特征,对视频帧序列进行多个层次的特征提取处理,得到视频帧特征。
参考图5B,图5B是本申请实施例提供的多模态分类模型提取视频内容特征的过程示意图;特征提取层501A对于图像模态信息来说,通过快速区域卷积神经网络算法将图像也转化为和文本一样的三层嵌入向量,图像的“token嵌入向量”是使用Inception-V4算法提取视频帧兴趣图像区域的特征,段落嵌入向量则使用基于局部聚合描述子向量算法得到其视频流向量表示。
在步骤704之后执行步骤705。
在步骤705中,对视频帧特征以及视频文本特征进行合并处理,得到三维特征向量的视频内容特征。
示例的,继续参考图5A,对文本与视频的三层向量进行拼接,并使用12层的转换器模块502A,得到文本向量和视频帧之间的交互向量,对交互向量执行平均池化操作(平均池化层504A)获得整体的视频数据内容的向量表征。
在步骤705之后执行步骤706。在步骤703之后,当步骤705执行完毕时,执行步骤706。
在步骤706中,获取视频标签特征与视频内容特征之间的余弦相似度,并将相似度作为视频数据与视频标签之间的匹配程度。
计算视频数据内容的向量表征与视频标签向量表征之间的余弦相似度,将相似度作为该视频标签和视频数据内容的匹配度,与相关技术中的双塔模型类似,根据匹配度与匹配度阈值之间的大小关系,判定该视频标签是否可以作为视频数据的标签。
在步骤707中,当匹配程度小于匹配程度阈值时,从优化后的视频文本中获取关键词,基于关键词更新视频数据的视频标签。
示例的,当匹配程度小于匹配程度阈值时,表征视频内容与视频标签不匹配时,可以删除标签中不匹配的内容,并添加关键词作为视频标签。
示例的,关键词提取可以通过以下方式实现:将词频逆向文件频率(TermFrequency Inverse Document Frequency,TF-IDF)大于阈值的词汇作为关键词,或者获取TFIDF降序排序的头部的多个词汇作为关键词。
词频逆向文件频率,也即词频与逆向文件频率的乘积。词频表示词条在文档中出现的频率。用以评估词汇对于一个文件集、或一个语料库中的其中一份文件的重要程度。词汇的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。词频逆向文件频率越高,表征某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
逆向文件频率表征,如果包含词条t的文档越少,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照逆向文件频率公式得到的逆向文件频率的值会小,就说明该词条t类别区分能力不强。
在一份给定的文件里,词频(Term Frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(Term Count)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)对于在某一特定文件里的词语来说,词汇i的词频tfi可表示为以下公式(1):
以上式子中,ni是该词在文件中的出现次数,而分母∑kni则是在文件中所有词汇的出现次数之和。
逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。某一特定词语i的IDF,可以由总文件数目|D|除以包含该词语的文件的数目{j:ti∈di},再将得到的商取对数得到,表示为以下公式(2):
其中,|D|:语料库中的文件总数,包含词语的文件数目(即的文件数目)如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用1+{j:ti∈di}作为分母。
示例的,通过本申请实施例给视频号打上更准确的标签后,该标签可以用来更多取代视频标签用做视频号搜索或推荐召回、拓展视频号消费体验。参考图6C,图6C是本申请实施例提供的人机交互界面的示意图;图6C展示了人机交互界面中显示的更新视频标签之前的视频数据,视频帧图像614是视频中的一帧图像的示意图,视频帧图像包括字幕文本“冰球项目会场响起了熟悉的乐曲”,经过对视频文本中每个词汇的词频逆文档率进行获取,确定“冰球”是视频数据的关键词611。视频数据说明文本612的内容为“印在骨子里的节奏!”,当前的视频标签613的内容为“为XX队点赞”。视频标签613与视频数据的相关内容的匹配程度不高,进而导致视频数据不能准确地被召回或者被推荐。推荐服务器200可以从视频文本中获取关键词,以关键词替代原有的视频标签,或者将关键词添加到视频标签中。可知,视频文本和视频标签中都没有出现冰球关键词,如果使用相关技术基于文本分类的视频号打标签方法,该视频数据无法召回。
参考图6D,图6D是本申请实施例提供的人机交互界面的示意图;图6D展示了人机交互界面中显示的更新视频标签之后的视频数据,从视频文本中获取到了关键词“体育”、“冰球”,将关键词“体育”、“冰球”作为新增视频标签615,显示在人机交互界面中。使用本申请实施例视频数据的标注,由于视频帧中存在中有冰球相关的图像、且光学字符识别出现冰球相关文本信息,可以识别出视频数据的内容与“冰球”标签的匹配度大于特定阈值,可以打上“冰球”标签用以搜索、推荐召回。
本申请实施例能够实现以下效果:通过将视频帧序列与视频文本共同进行特征提取,将多模态的特征融合为视频内容特征,提升了获取视频内容的特征的准确性,通过获取视频内容特征与视频标签特征的相似度,提升了确定视频内容与视频标签匹配程度的准确性。对视频标签进行更新,使得视频标签与视频内容的匹配程度更好,有利于提升视频数据被推荐的准确性、提升视频数据被召回的准确性,节约推荐服务器的计算资源。
下面继续说明本申请实施例提供的视频数据的标注装置455的实施为软件模块的示例性结构,在一些实施例中,如图2A所示,存储在存储器450的视频数据的标注装置455中的软件模块可以包括:数据获取模块4551,配置为获取视频发布主体所发布的视频数据,其中,视频数据包括视频帧序列、视频文本、视频帧序列的至少一个视频标签;特征提取模块4552,配置为对至少一个视频标签进行特征提取处理,得到视频标签特征;特征提取模块4552,配置为对视频帧序列以及视频文本进行特征提取处理,得到视频内容特征;特征匹配模块4553,配置为获取视频标签特征与视频内容特征之间的相似度,并将相似度作为视频数据与至少一个视频标签之间的匹配程度;标签更新模块4554,配置为将匹配程度小于匹配程度阈值的视频标签作为目标视频标签,更新视频数据中的目标视频标签。
在一些实施例中,特征提取模块4552,配置为对视频帧序列进行视频特征提取处理,得到视频帧特征;对视频文本进行文本特征提取处理,得到视频文本特征;对视频文本特征以及视频帧特征进行拼接处理,得到拼接特征;对拼接特征进行多个层次的转换处理,对转换处理的结果进行平均池化处理,得到视频内容特征。
在一些实施例中,特征提取模块4552,配置为对视频帧序列中每个视频帧图像进行图像特征提取处理,得到视频帧序列的图像特征向量;对视频帧序列中每个视频帧图像进行特征聚合处理,得到视频帧序列的视频流向量;对图像特征向量与视频流向量、位置嵌入向量进行组合处理,得到视频帧特征。
在一些实施例中,特征提取模块4552,配置为对视频文本中每个词汇进行特征提取处理,得到视频文本的词汇嵌入向量;对视频文本中每个段落进行特征提取处理,得到视频文本的段落嵌入向量;对每个词汇在视频文本中的位置进行特征提取处理,得到视频文本的位置嵌入向量;对词汇嵌入向量、段落嵌入向量、位置嵌入向量进行组合处理,得到视频文本特征。
在一些实施例中,数据获取模块4551,配置为获取视频发布主体所发布的视频帧序列、视频帧序列对应的视频标签;对视频帧序列进行以下至少一种文本提取处理,将文本提取处理的结果、以及视频帧序列的说明文本作为视频文本:提取视频帧序列对应的音频数据,对音频数据进行语音识别,得到视频帧序列对应的配音文本;对视频帧序列中每个视频帧图像进行字符识别,得到每个视频帧图像所包括的字幕文本。
在一些实施例中,特征提取模块4552,配置为对至少一个视频标签中每个词汇进行特征提取处理,得到至少一个视频标签的词汇嵌入向量;对至少一个视频标签中每个段落进行特征提取处理,得到至少一个视频标签的段落嵌入向量;对每个词汇在至少一个视频标签中的位置进行特征提取处理,得到至少一个视频标签的位置嵌入向量;对词汇嵌入向量、段落嵌入向量、位置嵌入向量进行组合处理,得到视频标签特征。
在一些实施例中,标签更新模块4554,配置为通过以下任意一种方式对目标视频标签进行更新:删除目标视频标签;获取视频文本中的关键词,并将关键词作为新视频标签,以替换目标视频标签。
在一些实施例中,标签更新模块4554,配置为获取视频文本中的每个词汇的词频,其中,词频是以下参数之间的比值:词汇在视频文本中的出现次数、视频文本的词汇总数量;获取视频文本中的每个词汇的逆文档率,其中,逆文档率是以下参数之间的商的对数:语料库中包括词汇的文本的数量、语料库的总文本数量;将每个词汇对应的词频与逆文档率进行相乘处理,得到每个词汇的词频逆文档率;根据每个词频逆文档率对每个词汇进行降序排序处理,将降序排序结果中头部的词汇作为关键词。
在一些实施例中,数据获取模块4551,配置为获取视频发布主体所发布的视频数据之后,对视频文本执行以下处理至少之一:删除视频文本中的干扰词,其中,干扰词的类型包括:主语、水印以及语气词;删除视频文本中出现频率达到出现频率上限值的词汇。
在一些实施例中,视频标签特征、视频内容特征以及相似度是通过调用多模态分类模型获取的;多模态分类模型包括特征提取模块4552以及特征匹配模块4553,其中,特征提取模块4553用于执行特征提取处理,特征匹配模块4553用于执行获取相似度的处理。
在一些实施例中,数据获取模块4551,配置为获取视频发布主体所发布的视频数据之前,通过以下方式训练多模态分类模型;获取用于作为训练样本的样本视频数据,其中,样本视频数据包括:视频帧序列、视频文本、视频帧序列的至少一个视频标签,视频数据与至少一个视频标签之间的实际匹配程度;基于样本视频数据调用多模态分类模型进行预测处理,得到以下参数的预测匹配程度:样本视频的内容与至少一个视频标签,其中,样本视频的内容包括:视频帧序列、视频文本;基于实际匹配程度与预测匹配程度之间的差异,对多模态分类模型的参数进行更新处理。
在一些实施例中,视频标签特征与视频内容特征以特征向量的形式表征;特征匹配模块4553,配置为获取视频标签特征与视频内容特征之间的余弦相似度,并将余弦相似度作为视频数据与至少一个视频标签之间的匹配程度。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该计算机设备执行本申请实施例上述的视频数据的标注方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的视频数据的标注方法,例如,如图3A示出的视频数据的标注方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,通过本申请实施例通过将视频帧序列与视频文本共同进行特征提取,将多模态的特征融合为视频内容特征,提升了获取视频内容的特征的准确性,通过获取视频内容特征与视频标签特征的相似度,提升了确定视频内容与视频标签匹配程度的准确性。对视频标签进行更新,使得视频标签与视频内容的匹配程度更好,有利于提升视频数据被推荐的准确性。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (16)

1.一种视频数据的处理方法,其特征在于,所述方法包括:
获取视频发布主体所发布的视频数据,其中,所述视频数据包括视频帧序列、视频文本、所述视频帧序列的至少一个视频标签;
对所述至少一个视频标签进行特征提取处理,得到视频标签特征;
对所述视频帧序列以及所述视频文本进行特征提取处理,得到视频内容特征;
获取所述视频标签特征与所述视频内容特征之间的相似度,并将所述相似度作为所述视频数据与所述至少一个视频标签之间的匹配程度;
将所述匹配程度小于匹配程度阈值的视频标签作为目标视频标签,更新所述视频数据中的所述目标视频标签。
2.根据权利要求1所述的方法,其特征在于,所述对所述视频帧序列以及所述视频文本进行特征提取处理,得到视频内容特征,包括:
对所述视频帧序列进行视频特征提取处理,得到视频帧特征;
对所述视频文本进行文本特征提取处理,得到视频文本特征;
对所述视频文本特征以及所述视频帧特征进行拼接处理,得到拼接特征;
对所述拼接特征进行多个层次的转换处理,对所述转换处理的结果进行平均池化处理,得到视频内容特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述视频帧序列进行视频特征提取处理,得到视频帧特征,包括:
对所述视频帧序列中每个视频帧图像进行图像特征提取处理,得到所述视频帧序列的图像特征向量;
对所述视频帧序列中每个所述视频帧图像进行特征聚合处理,得到所述视频帧序列的视频流向量;
对每个所述视频帧图像在所述视频帧序列中的位置进行特征提取处理,得到所述视频帧序列的位置嵌入向量;
对所述图像特征向量与所述视频流向量、所述位置嵌入向量进行组合处理,得到视频帧特征。
4.根据权利要求2所述的方法,其特征在于,所述对所述视频文本进行文本特征提取处理,得到视频文本特征,包括:
对所述视频文本中每个词汇进行特征提取处理,得到所述视频文本的词汇嵌入向量;
对所述视频文本中每个段落进行特征提取处理,得到所述视频文本的段落嵌入向量;
对每个所述词汇在所述视频文本中的位置进行特征提取处理,得到所述视频文本的位置嵌入向量;
对所述词汇嵌入向量、所述段落嵌入向量、所述位置嵌入向量进行组合处理,得到所述视频文本特征。
5.根据权利要求1所述的方法,其特征在于,所述获取视频发布主体所发布的视频数据,包括:
获取所述视频发布主体所发布的视频帧序列、所述视频帧序列对应的视频标签;
对所述视频帧序列进行以下至少一种文本提取处理,将所述文本提取处理的结果、以及所述视频帧序列的说明文本作为视频文本:
提取所述视频帧序列对应的音频数据,对所述音频数据进行语音识别,得到视频帧序列对应的配音文本;
对视频帧序列中每个视频帧图像进行字符识别,得到每个所述视频帧图像所包括的字幕文本。
6.根据权利要求1所述的方法,其特征在于,所述对所述至少一个视频标签进行特征提取处理,得到视频标签特征,包括:
对所述至少一个视频标签中每个词汇进行特征提取处理,得到所述至少一个视频标签的词汇嵌入向量;
对所述至少一个视频标签中每个段落进行特征提取处理,得到所述至少一个视频标签的段落嵌入向量;
对每个所述词汇在所述至少一个视频标签中的位置进行特征提取处理,得到所述至少一个视频标签的位置嵌入向量;
对所述词汇嵌入向量、所述段落嵌入向量、所述位置嵌入向量进行组合处理,得到视频标签特征。
7.根据权利要求1所述的方法,其特征在于,所述将所述匹配程度小于匹配程度阈值的视频标签作为目标视频标签,更新所述视频数据中的所述目标视频标签,包括:
通过以下任意一种方式对所述目标视频标签进行更新:
删除所述目标视频标签;
获取所述视频文本中的关键词,并将所述关键词作为新视频标签,以替换所述目标视频标签。
8.根据权利要求7所述的方法,其特征在于,所述获取所述视频文本中的关键词,包括:
获取所述视频文本中的每个词汇的词频,其中,所述词频是以下参数之间的比值:所述词汇在所述视频文本中的出现次数、所述视频文本的词汇总数量;
获取所述视频文本中的每个所述词汇的逆文档率,其中,所述逆文档率是以下参数之间的商的对数:语料库中包括所述词汇的文本的数量、所述语料库的总文本数量;
将每个所述词汇对应的词频与逆文档率进行相乘处理,得到每个所述词汇的词频逆文档率;
根据每个所述词频逆文档率对每个所述词汇进行降序排序处理,将降序排序结果中头部的词汇作为关键词。
9.根据权利要求1所述的方法,其特征在于,所述获取视频发布主体所发布的视频数据之后,所述方法还包括:
对所述视频文本执行以下处理至少之一:
删除所述视频文本中的干扰词,其中,所述干扰词的类型包括:主语、水印以及语气词;
删除所述视频文本中出现频率达到出现频率上限值的词汇。
10.根据权利要求1所述的方法,其特征在于,所述视频标签特征、所述视频内容特征以及所述相似度是通过调用多模态分类模型获取的;
所述多模态分类模型包括特征提取模块以及特征匹配模块,其中,所述特征提取模块用于执行所述特征提取处理,所述特征匹配模块用于所述执行获取相似度的处理。
11.根据权利要求10所述的方法,其特征在于,所述获取视频发布主体所发布的视频数据之前,所述方法还包括:
通过以下方式训练所述多模态分类模型;
获取用于作为训练样本的样本视频数据,其中,所述样本视频数据包括:视频帧序列、视频文本、所述视频帧序列的至少一个视频标签,所述视频数据与所述至少一个视频标签之间的实际匹配程度;
基于所述样本视频数据调用所述多模态分类模型进行预测处理,得到以下参数的预测匹配程度:样本视频的内容与所述至少一个视频标签,其中,所述样本视频的内容包括:所述视频帧序列、所述视频文本;
基于所述实际匹配程度与所述预测匹配程度之间的差异,对所述多模态分类模型的参数进行更新处理。
12.根据权利要求1所述的方法,其特征在于,
所述视频标签特征与所述视频内容特征以特征向量的形式表征;
所述获取所述视频标签特征与所述视频内容特征之间的相似度,并将所述相似度作为所述视频数据与所述至少一个视频标签之间的匹配程度,包括:
获取所述视频标签特征与所述视频内容特征之间的余弦相似度,并将所述余弦相似度作为所述视频数据与所述至少一个视频标签之间的匹配程度。
13.一种视频数据的标注装置,其特征在于,所述装置包括:
数据获取模块,配置为获取视频发布主体所发布的视频数据,其中,所述视频数据包括视频帧序列、视频文本、所述视频帧序列的至少一个视频标签;
特征提取模块,配置为对所述至少一个视频标签进行特征提取处理,得到视频标签特征;
所述特征提取模块,配置为对所述视频帧序列以及所述视频文本进行特征提取处理,得到视频内容特征;
特征匹配模块,配置为获取所述视频标签特征与所述视频内容特征之间的相似度,并将所述相似度作为所述视频数据与所述至少一个视频标签之间的匹配程度;
标签更新模块,配置为将所述匹配程度小于匹配程度阈值的视频标签作为目标视频标签,更新所述视频数据中的所述目标视频标签。
14.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现权利要求1至12任一项所述的视频数据的标注方法。
15.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时实现权利要求1至12任一项所述的视频数据的标注方法。
16.一种计算机程序产品,包括计算机程序或计算机可执行指令,其特征在于,所述计算机程序或计算机可执行指令被处理器执行时实现权利要求1至12任一项所述的视频数据的标注方法。
CN202211425748.7A 2022-11-14 2022-11-14 视频数据的标注方法、装置、电子设备及存储介质 Pending CN117009578A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211425748.7A CN117009578A (zh) 2022-11-14 2022-11-14 视频数据的标注方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211425748.7A CN117009578A (zh) 2022-11-14 2022-11-14 视频数据的标注方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117009578A true CN117009578A (zh) 2023-11-07

Family

ID=88571605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211425748.7A Pending CN117009578A (zh) 2022-11-14 2022-11-14 视频数据的标注方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117009578A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573870A (zh) * 2023-11-20 2024-02-20 中国人民解放军国防科技大学 一种多模态数据的文本标签提取方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573870A (zh) * 2023-11-20 2024-02-20 中国人民解放军国防科技大学 一种多模态数据的文本标签提取方法、装置、设备及介质
CN117573870B (zh) * 2023-11-20 2024-05-07 中国人民解放军国防科技大学 一种多模态数据的文本标签提取方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
WO2021190174A1 (zh) 信息确定方法、装置、计算机设备及存储介质
CN113010703B (zh) 一种信息推荐方法、装置、电子设备和存储介质
US20160098645A1 (en) High-precision limited supervision relationship extractor
US20200134398A1 (en) Determining intent from multimodal content embedded in a common geometric space
WO2018045646A1 (zh) 基于人工智能的人机交互方法和装置
CN112231563B (zh) 一种内容推荐方法、装置及存储介质
Gu et al. Ucphrase: Unsupervised context-aware quality phrase tagging
CN112528053A (zh) 多媒体库分类检索管理系统
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
WO2024193538A1 (zh) 视频数据处理方法、装置、设备及可读存储介质
McCrae et al. Multi-modal semantic inconsistency detection in social media news posts
CN117009578A (zh) 视频数据的标注方法、装置、电子设备及存储介质
CN114168715A (zh) 生成目标数据集的方法、装置、设备及存储介质
CN116958997B (zh) 一种基于异质图神经网络的图文摘要方法及系统
CN113407775B (zh) 视频搜索方法、装置及电子设备
CN116956818A (zh) 文本素材的处理方法、装置、电子设备以及存储介质
Khalil et al. Cross-modality representation learning from transformer for hashtag prediction
CN116628232A (zh) 标签确定方法、装置、设备、存储介质及产品
CN114547435B (zh) 内容质量的识别方法、装置、设备及可读存储介质
Zhang Exploration of Cross‐Modal Text Generation Methods in Smart Justice
Turcu et al. Video transcript indexing and retrieval procedure
KR102046224B1 (ko) 개인화된 콘텐츠 제공 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication