CN118075573A - 一种视频标题的生成方法、装置、电子设备及存储介质 - Google Patents

一种视频标题的生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN118075573A
CN118075573A CN202410211764.9A CN202410211764A CN118075573A CN 118075573 A CN118075573 A CN 118075573A CN 202410211764 A CN202410211764 A CN 202410211764A CN 118075573 A CN118075573 A CN 118075573A
Authority
CN
China
Prior art keywords
model
video
target
features
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410211764.9A
Other languages
English (en)
Inventor
邹军军
王智广
林令民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Original Assignee
Douyin Vision Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd filed Critical Douyin Vision Co Ltd
Priority to CN202410211764.9A priority Critical patent/CN118075573A/zh
Publication of CN118075573A publication Critical patent/CN118075573A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及多模态内容处理领域,具体公开了一种视频标题的生成方法、装置、电子设备及存储介质,包括:获取待处理的目标视频;提取所述目标视频对应的目标描述内容;利用标题生成模型识别目标描述内容的语言特征以及场景特征,并基于语言特征以及场景特征生成目标视频的目标视频标题。本申请实施例提供的方法通过识别目标描述内容的语言特征和场景特征,可以更好地理解视频的主题、内容和领域,从而生成更加准确的标题。相比通用大语言模型生成视频标题的方式,本申请生成的视频标题更能与视频内容匹配。另外,基于语言特征和场景特征生成目标视频的目标视频标题可以更好全面的概括视频的关键信息和亮点,提高标题与视频内容的相关性。

Description

一种视频标题的生成方法、装置、电子设备及存储介质
技术领域
本公开涉及多模态内容处理领域,具体涉及一种视频标题的生成方法、装置、电子设备及存储介质。
背景技术
随着社交媒体和资讯视频的流行,人们对于快速了解视频内容的需求越来越强烈。由于标题的字数限制,无法提供足够的信息,因此生成由视频内容概括的标题句可以作为补充,提供更多关键信息和吸引人的内容。
目前通用大语言模型具有强大的文本生成能力,可以根据视频内容生成相关的标题句。通过在大规模通用语料上进行训练,模型学习了丰富的语言知识和语义理解能力,可以从内容中推断相关的背景信息,并生成简明扼要的标题句。
然而,目前通用大语言模型无法根据视频内容创作出合适的标题句,因为在训练过程中并未针对特定领域的视频内容进行训练。且通用大语言模型生成的标题可能会出现在语义上合理,但与视频内容不完全匹配。
发明内容
有鉴于此,本公开实施例提供了一种视频标题的生成方法、装置、电子设备及存储介质,以解决通用大语言模型无法根据视频内容创作出合适的标题句,且通用大语言模型生成的标题可能会出现在语义上合理,但与视频内容不完全匹配的问题。
第一方面,本公开实施例提供了一种视频标题的生成方法,所述方法包括:
获取待处理的目标视频;
提取所述目标视频对应的目标描述内容;
利用标题生成模型识别所述目标描述内容的语言特征以及场景特征,并基于所述语言特征以及场景特征生成所述目标视频的目标视频标题,其中,所述标题生成模型包括第一子模型和第二子模型,所述第一子模型为根据训练好的语言模型,所述第二子模型为所述目标视频对应视频类型对应的神经网络模型,所述第一子模型用于识别语言特征,所述第二子模型用于识别场景特征。
第二方面,本公开实施例提供了一种视频标题的生成装置,所述装置包括:
获取模块,用于获取待处理的目标视频;
提取模块,用于提取所述目标视频对应的目标描述内容;
识别模块,用于利用标题生成模型识别目标描述内容的语言特征以及场景特征,并基于语言特征以及场景特征生成目标视频的目标视频标题,其中,标题生成模型包括第一子模型和第二子模型,第一子模型为根据训练好的语言模型,第二子模型为目标视频对应视频类型对应的神经网络模型,第一子模型用于识别语言特征,第二子模型用于识别场景特征。
第三方面,本公开实施例提供了一种电子设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的方法。
第四方面,本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的方法。
本申请的方法通过识别目标描述内容的语言特征和场景特征,可以更好地理解视频的主题、内容和领域,从而生成更加准确的标题。相比通用大语言模型生成视频标题的方式,本申请生成的视频标题更能与视频内容匹配。另外,基于语言特征和场景特征生成目标视频的目标视频标题可以更好全面的概括视频的关键信息和亮点,提高标题与视频内容的相关性。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开一些实施例的视频标题的生成方法的流程示意图;
图2是根据本公开一些实施例的视频标题的生成方法的流程示意图;
图3是根据本公开一些实施例的标题生成模型的示意图;
图4是根据本公开一些实施例的视频标题的生成过程的示意图;
图5是根据本公开一些实施例的视频标题的生成方法的流程示意图;
图6是根据本公开实施例的视频标题的生成装置的结构框图;
图7是本公开实施例的电子设备的硬件结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
根据本公开实施例,提供了一种视频标题的生成方法、装置、电子设备及存储介质,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种视频标题的生成方法,图1是根据本公开实施例的一种视频标题的生成方法的流程图,如图1所示,该流程包括如下步骤:
第一方面,本公开实施例提供了一种视频标题的生成方法,方法包括:
步骤S101,获取待处理的目标视频。
在本申请实施例中,从可用的数据源中获取目标视频。数据源可以包括在线视频平台、数据库等等。目标视频可以涉及多个视频领域,如体育、经济、烹饪、科技等。具体的,可以访问各种在线视频平台,通过搜索关键词或浏览相关领域的视频分类,可以找到相关领域的视频。或者,查找与某个领域相关的视频数据集。数据集中可能包含特定领域的视频。或者,根据需求收集或录制与某个领域相关的视频。
步骤S102,提取目标视频对应的目标描述内容。
在本申请实施例中,首先对获取到的目标视频进行预处理,可以包括视频格式转换、视频分割、帧提取等。其次对预处理后的目标视频采用进行描述提取,例如:采用语音识别、自然语言处理等方法。具体的,可以使用语音识别技术将视频中的音频转换为文本内容,或者使用视频内容分析技术从视频中提取出关键内容。然后对提取的内容进行数据清洗和整理,去除不必要的标点符号、特殊字符或无使用意义的内容,并进行文本预处理,得到目标描述内容,如大小写转换、去除停用词等。
步骤S103,利用标题生成模型识别目标描述内容的语言特征以及场景特征,并基于语言特征以及场景特征生成目标视频的目标视频标题,其中,标题生成模型包括第一子模型和第二子模型,第一子模型为根据训练好的语言模型,第二子模型为目标视频对应视频类型对应的神经网络模型,第一子模型用于识别语言特征,第二子模型用于识别场景特征。
在本申请实施例中,标题生成模型包括至少一个层级排列的解码层,每个解码层包括:第一子模型中的第一处理单元和第二子模型中的第二处理单元。构建标题生成模型的过程如下:
首先,获取预先训练好的语言模型,并将语言模型作为第一子模型。具体的,语言模型可以理解为是通用大语言模型,通用大语言模型是在大规模语料库上进行训练得到的,能够捕捉到丰富的语义和语言规律。这些模型通常基于深度学习的技术,如BERT、GPT等。可以使用开源的语言模型,如Hugging Face的Transformers库中提供的预训练模型。将预先训练好的通用大语言模型作为第一子模型,可以获得丰富的语言特征,帮助生成更精准和吸引人的目标视频标题。
其次,获取目标视频对应的视频类型。具体的,使用视频内容分析技术,例如图像处理、物体识别、动作识别等,分析视频中的内容。根据视频中出现的物体、人物、场景、动作等特征,可以判断视频所属的类型。例如,如果视频中出现足球场、运动员和比赛动作,则可以确定该视频属于体育类。如果视频在上传或发布时附带有标签或元数据信息,可以通过这些信息来确定视频的类型。这些标签可能是由上传者提供的,也可能是通过自动标注或半自动标注技术生成的。例如,标签中包含“音乐”、“演讲”等关键词,可以判断视频类型为音乐或演讲类。
然后,将视频类型对应的神经网络模型作为第二子模型。具体的,预先训练多个视频类型对应的神经网络模型,例如,可以训练体育、电影、音乐、新闻等不同领域的神经网络模型。然后从多个视频类型对应的神经网络模型中确定目标视频的视频类型对应的神经网络模型,并将该神经网络模型作为第二子模型。
最终,基于第一子模型和第二子模型拼接,得到标题生成模型。具体的,如图2所示,第一子模型包括多个第一处理单元,第二子模型包括多个第二处理单元,每个第一处理单元与每个第二处理单元进行拼接,来构建解码层。
可以理解的,第一子模型可以是通用大语言模型,通用大语言模型可以理解和生成自然语言。在视频标题生成中,通用大语言模型用于生成初始的标题候选项。它们具有强大的语言理解和生成能力,在广泛的语言任务上取得了良好的表现。通用大语言模型可以根据给定的视频描述内容生成多个可能的标题,但可能缺乏对特定任务和领域的专业性。
第二子模型可以理解为是针对某个领域的定制模型,定制模型是根据特定任务和数据集进行训练的模型。在视频标题生成中,定制模型用于对通用大语言模型生成的候选标题进行筛选和改进。定制模型可以根据特定的标准和需求,对标题进行评估和调整,以生成更加符合预期的标题。它可以通过特定的数据集和任务训练来提高对视频标题生成任务的准确性和专业性。
因此,结合使用通用大语言模型和定制模型,可以充分利用通用模型的语言生成能力,再通过定制模型进行细化和优化,从而生成更符合视频内容的标题。这种结合可以在保持语言生成能力的同时,提高生成标题的相关性和质量。
基于此,本申请实施例采用通用的大语言模型识别目标描述内容得到语言特征,语言特征包括:关键词、动作描述、目标特征等等。关键词可以是与目标相关的名词、动词、形容词等。动作描述可以理解为是目标的动作或行为。目标特征可以是目标的外貌、特点或属性。同时可以采用目标视频的视频类型相关的定制模型识别目标描述内容的场景特征,场景特征例如:体育领域相关的场景特征,经济领域相关的场景特征以及科技领域相关的场景特征。体育领域相关的场景特征包括运动类型、球队、运动员等。经济领域相关的场景特征包括经济数据、市场趋势、金融机构等。科技领域相关的场景特征包括新科技产品、创新技术、科学原理等。最终根据得到的语言特征以及场景特征进行融合,得到目标视频的目标视频标题。例如:语言特征中包括:“激情”、“比赛”、“精彩”、“竞技”、“引燃”。场景特征:足球场。融合后的目标视频标题:“精彩竞技引燃足球场”。
本申请实施例提供的方法通过识别目标描述内容的语言特征和场景特征,可以更好地理解视频的主题、内容和领域,从而生成更加准确的标题。相比通用大语言模型生成视频标题的方式,本申请生成的视频标题更能与视频内容匹配。另外,基于语言特征和场景特征生成目标视频的目标视频标题可以更好全面的概括视频的关键信息和亮点,提高标题与视频内容的相关性。
图3是根据本公开实施例的一种视频标题的生成方法的流程图,如图3所示,该流程包括如下步骤:
步骤S201,获取待处理的目标视频。详细说明参见上述实施例对应的相关描述,此处不再赘述。
步骤S202,提取目标视频对应的目标描述内容。详细说明参见上述实施例对应的相关描述,此处不再赘述。
步骤S203,利用标题生成模型识别目标描述内容的语言特征以及场景特征,并基于语言特征以及场景特征生成目标视频的目标视频标题,其中,标题生成模型包括第一子模型和第二子模型,第一子模型为根据训练好的语言模型,第二子模型为目标视频对应视频类型对应的神经网络模型,第一子模型用于识别语言特征,第二子模型用于识别场景特征。
在本申请实施例中,利用标题生成模型识别目标描述内容的语言特征以及场景特征,并基于语言特征以及场景特征生成目标视频的目标视频标题,包括:
步骤A1,将目标描述内容输入至标题生成模型,通过解码层从目标描述内容中提取语言特征以及场景特征,并基于语言特征和场景特征生成目标视频标题。
在本申请实施例中,通过解码层从目标描述内容中提取语言特征以及场景特征,并基于语言特征和场景特征生成目标视频标题,包括以下步骤a201-a204:
步骤a201,通过第一解码层中的第一处理单元从目标描述内容中提取第一语言特征,并通过第一解码层中的第二处理单元从目标描述内容中提取第一场景特征。
步骤a202,将第一语言特征和第一场景特征融合得到第一融合结果,并将第一融合结果传递至第二解码层,第二解码层为第一解码层的下一解码层。
步骤a203,通过第二解码层中的第一处理单元从第一融合结果中提取第二语言特征,并通过第二解码层中的第二处理单元从第一融合结果中提取第二场景特征。
步骤a204,将第二语言特征和第二场景特征融合得到第二融合结果,并将第二融合结果传递至第二解码层的下一解码层,直至得到标题生成模型中最后一个解码层输出的目标视频标题。
在本申请实施例中,如图4所示,第一解码层中的第一处理单元从目标描述内容中提取第一语言特征。这可以通过使用自然语言处理技术,如词嵌入、循环神经网络(RNN)或卷积神经网络(CNN)等方法来实现。该处理单元可以从目标描述内容中提取关键词等语言特征。第一解码层中的第二处理单元从目标描述内容中提取第一场景特征。这可以通过使用领域专属的定制模型提取,第一场景特征包括:特定领域相关知识、相关词汇等等。
然后将第一语言特征和第一场景特征融合得到第一融合结果。这可以通过将语言特征与场景特征进行拼接、加权求和、使用注意力机制等方式来实现。融合结果将包含第一语言特征和第一场景特征的综合信息。并将第一融合结果传递至第二解码层。
第二解码层作为第一解码层的下一解码层。这样可以将第一融合结果作为输入,继续进一步提取更高层次的语言特征和场景特征。第二解码层中的第一处理单元从第一融合结果中提取第二语言特征。这可以采用类似的自然语言处理技术,如RNN或CNN,进一步提取更抽象的语言特征。第二解码层中的第二处理单元从第一融合结果中提取第二场景特征。第一场景特征包括:特定领域相关知识、相关词汇等等。
再将第二语言特征和第二场景特征融合得到第二融合结果。同样,可以使用拼接、加权求和、注意力机制等方法将两个特征融合起来,得到综合的语言特征和场景特征。将第二融合结果传递至标题生成模型的下一解码层。这样可以逐步提取更高层次的特征并生成最终的目标视频标题。
通过上述过程,利用不同解码层从目标描述内容中提取并融合语言特征和场景特征,最终得到标题生成模型中最后一个解码层的输出,即目标视频的标题。这种层次化、多步骤的处理可以更好地捕捉和表达视频的关键信息,提升生成标题的准确性和质量。
在本申请实施例中,如图5所示,方法还包括以下步骤S301-S303:
步骤S301,获取预设场景的视频数据,并提取视频数据的描述内容。
具体的,收集与预设场景相关的视频数据。这可以包括从公共视频分享平台、研究数据库、电视节目或其他来源下载或录制相关视频片段。然后对获取到的视频进行预处理,预处理包括视频格式转换、视频分割、帧提取等。对预处理后的目标视频采用进行描述提取,例如:采用语音识别、自然语言处理等方法。具体的,可以使用语音识别技术将视频中的音频转换为文本内容,或者使用视频内容分析技术从视频中提取出关键内容。对提取的内容进行数据清洗和整理,去除不必要的标点符号、特殊字符或无使用意义的内容,并进行文本预处理得到描述内容,如大小写转换、去除停用词等。
步骤S302,获取视频数据对应的标签数据,其中,标签数据用于标注视频数据的视频标题。
具体的,收集视频数据和相应的标签数据。标签数据则可以通过手动创建、从标注数据集中获取或者通过第三方平台进行标注。如果已经有标注数据,可以直接使用。如果没有标注数据,则需要进行手动标注。对于每个视频数据,通过观看视频并理解视频内容,为其分配一个适当的标题。可以将标题与视频数据的文件名、文件路径或其他唯一标识符关联起来。
其中,标签数据可以通过以下方式得到:获取预设场景对应每个视频数据的权重;基于视频数据的权重将每个视频数据的描述内容进行加权拼接,得到视频数据对应的视频标题;将视频标题作为所述标签数据。
举例来说,假设预设场景下有三个相关联的视频数据,分别是视频数据A、视频数据B和视频数据C,它们的权重分别为0.4、0.3和0.3,对应的描述内容为descriptionA、descriptionB和descriptionC。则可以按照权重进行加权拼接,即将0.4×descriptionA+0.3×descriptionB+0.3×descriptionC进行拼接,得到多条相关视频共同的标题。通过权重拼接的方式,可以根据视频的重要性或权重将描述内容进行加权处理,使得生成的标题更准确地反映多个相关视频的主题或关键信息。这样生成的标题可以更全面地描述多个相关视频的内容,提供更好的信息参考。
步骤S303,利用描述内容以及视频标题训练初始模型,并将训练好的初始模型为第二子模型。
具体的,利用描述内容以及视频标题训练初始模型,并将训练好的初始模型为第二子模型,包括以下步骤b1-b4:
步骤b1,基于描述内容构建词序列。
具体的,首先描述内容进行分词,将其拆分为单个的词语或单词。可以使用分词工具、自然语言处理库或预训练的模型来完成分词操作。将分词得到的词语按照顺序组成词序列。可以使用列表或数组数据结构来存储这些词语,并保留它们的顺序关系。
步骤b2,将词序列输入初始模型,通过初始模型根据词序列输出预测词,并确定预测词对应的概率分布。
具体的,将词序列提供给初始模型,并进行推理过程。初始模型将产生一个预测词作为输出,预测词表示在给定词序列的情况下,最可能的下一个词。通过对输出的预测词进行计算,可以获得预测词对应的概率分布。预测词对应的概率分布可以通过对模型的输出进行计算得到。通常,模型会产生一个词汇表大小的概率分布,其中每个词的概率表示在给定输入的情况下,该词是下一个最可能出现的词。可以使用统计方法(如softmax函数)将模型的输出转换成概率分布。
步骤b3,利用概率分布计算初始模型的训练损失。
具体的,利用概率分布计算初始模型的训练损失,包括:从视频标题中提取预测词对应的真实词,并创建真实词对应的独热编码向量;基于独热编码向量以及预测词对应的概率分布计算训练损失。
假设有一个视频标题"美味的意大利面食谱",并且初始模型预测的下一个词为"食谱"。然后从标题中提取出真实的下一个词,即"食谱"。根据标题中的真实词,可以将其转化为独热编码向量。独热编码是一种表示分类变量的方法,在向量中只有一个元素为1,其余元素为0。例如,假设的词汇表大小为10000,可以创建一个长度为10000的向量,其中下标为食谱对应的元素为1,其余元素为0。基于创建的独热编码向量和预测词对应的概率分布计算损失函数。常用的损失函数是交叉熵损失函数,用于比较预测的概率分布与真实的独热编码向量之间的差异。损失函数用于表示预测分布与真实分布之间的差异。
通过计算训练损失,可以得到模型在当前预测词下的预测性能和准确度。通过反向传播算法和优化器,可以更新模型的参数来最小化训练损失,以提升模型的性能和精度。
步骤b4,利用训练损失对初始模型的模型参数进行更新,直至更新后的初始模型满足训练条件,并将满足训练条件的初始模型作为第二子模型。
具体的,使用优化算法(如梯度下降、Adam等)根据梯度信息更新模型参数。参数更新的目标是最小化训练损失。在每次参数更新后,检查初始模型是否满足训练条件。训练条件可以是指定的训练轮数、达到一定的准确率或损失阈值等。如果初始模型不满足训练条件,则继续训练。当初始模型满足训练条件时,即达到了指定的训练轮数或准确率阈值等,可以将这个初始模型视为第二子模型。
本申请通过词序列可以有效地表示描述内容的语义信息,利用模型对给定的词序列进行预测,得到下一个最可能出现的词。这有助于生成符合语义的标题内容。通过计算训练损失,可以了解模型在生成预测词时的准确度,通过训练损失的反向传播和参数更新,可以逐步优化模型的性能,使其更好地匹配给定的描述内容。经过多轮的训练,可以得到满足训练条件的初始模型。
在本实施例中还提供了一种视频标题的生成装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种视频标题的生成装置,如图6所示,包括:
获取模块601,用于获取待处理的目标视频;
提取模块602,用于提取目标视频对应的目标描述内容;
识别模块603,用于利用标题生成模型识别目标描述内容的语言特征以及场景特征,并基于语言特征以及场景特征生成目标视频的目标视频标题,其中,标题生成模型包括第一子模型和第二子模型,第一子模型为根据训练好的语言模型,第二子模型为目标视频对应视频类型对应的神经网络模型,第一子模型用于识别语言特征,第二子模型用于识别场景特征。
在一些可选的实施方式中,识别模块603,包括:
生成单元,用于将目标描述内容输入至标题生成模型,通过解码层从目标描述内容中提取语言特征以及场景特征,并基于语言特征和场景特征生成目标视频标题。
在一些可选的实施方式中,生成单元,用于通过第一解码层中的第一处理单元从目标描述内容中提取第一语言特征,并通过第一解码层中的第二处理单元从目标描述内容中提取第一场景特征;将第一语言特征和第一场景特征融合得到第一融合结果,并将第一融合结果传递至第二解码层,第二解码层为第一解码层的下一解码层;通过第二解码层中的第一处理单元从第一融合结果中提取第二语言特征,并通过第二解码层中的第二处理单元从第一融合结果中提取第二场景特征;将第二语言特征和第二场景特征融合得到第二融合结果,并将第二融合结果传递至第二解码层的下一解码层,直至得到标题生成模型中最后一个解码层输出的目标视频标题。
在一些可选的实施方式中,装置还包括:训练模块,包括:
第一获取单元,用于获取预设场景的视频数据,并提取视频数据的描述内容;
第二获取单元,用于获取视频数据对应的标签数据,其中,标签数据用于标注视频数据的视频标题;
处理单元,用于利用描述内容以及视频标题训练初始模型,并将训练好的初始模型为第二子模型。
在一些可选的实施方式中,处理单元,用于基于描述内容构建词序列;将词序列输入初始模型,通过初始模型根据词序列输出预测词,并确定预测词对应的概率分布;利用概率分布计算初始模型的训练损失;利用训练损失对初始模型的模型参数进行更新,直至更新后的初始模型满足训练条件,并将满足训练条件的初始模型作为第二子模型。
在一些可选的实施方式中,处理单元,用于从视频标题中提取预测词对应的真实词,并创建真实词对应的独热编码向量;基于独热编码向量以及预测词对应的概率分布计算训练损失。
在一些可选的实施方式中,第二获取单元,用于获取预设场景对应每个视频数据的权重;基于视频数据的权重将每个视频数据的描述内容进行加权拼接,得到视频数据对应的视频标题;将视频标题作为标签数据。
请参阅图7,图7是本公开可选实施例提供的一种电子设备的结构示意图,如图7所示,该电子设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据一种小程序落地页的展现的电子设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该电子设备还包括通信接口30,用于该电子设备与其他设备或通信网络通信。
本公开实施例还提供了一种计算机可读存储介质,上述根据本公开实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本公开的实施例,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种视频标题的生成方法,其特征在于,所述方法包括:
获取待处理的目标视频;
提取所述目标视频对应的目标描述内容;
利用标题生成模型识别所述目标描述内容的语言特征以及场景特征,并基于所述语言特征以及场景特征生成所述目标视频的目标视频标题,其中,所述标题生成模型包括第一子模型和第二子模型,所述第一子模型为根据训练好的语言模型,所述第二子模型为所述目标视频对应视频类型对应的神经网络模型,所述第一子模型用于识别语言特征,所述第二子模型用于识别场景特征。
2.根据权利要求1所述的方法,其特征在于,所述标题生成模型包括至少一个层级排列的解码层,每个所述解码层包括:第一子模型中的第一处理单元和第二子模型中的第二处理单元;
所述利用标题生成模型识别所述目标描述内容的语言特征以及场景特征,并基于所述语言特征以及场景特征生成所述目标视频的目标视频标题,包括:
将所述目标描述内容输入至所述标题生成模型,通过所述解码层从所述目标描述内容中提取语言特征以及场景特征,并基于所述语言特征和所述场景特征生成所述目标视频标题。
3.根据权利要求2所述的方法,其特征在于,所述通过所述解码层从所述目标描述内容中提取语言特征以及场景特征,并基于所述语言特征和所述场景特征生成所述目标视频标题,包括:
通过第一解码层中的第一处理单元从所述目标描述内容中提取第一语言特征,并通过第一解码层中的第二处理单元从所述目标描述内容中提取第一场景特征;
将所述第一语言特征和所述第一场景特征融合得到第一融合结果,并将所述第一融合结果传递至第二解码层,所述第二解码层为所述第一解码层的下一解码层;
通过第二解码层中的第一处理单元从所述第一融合结果中提取第二语言特征,并通过第二解码层中的第二处理单元从所述第一融合结果中提取第二场景特征;
将所述第二语言特征和所述第二场景特征融合得到第二融合结果,并将所述第二融合结果传递至所述第二解码层的下一解码层,直至得到所述标题生成模型中最后一个解码层输出的目标视频标题。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取预设场景的视频数据,并提取所述视频数据的描述内容;
获取所述视频数据对应的标签数据,其中,所述标签数据用于标注所述视频数据的视频标题;
利用所述描述内容以及所述视频标题训练初始模型,并将训练好的初始模型为所述第二子模型。
5.根据权利要求4所述的方法,其特征在于,所述利用所述描述内容以及所述视频标题训练初始模型,并将训练好的初始模型为所述第二子模型,包括:
基于所述描述内容构建词序列;
将所述词序列输入所述初始模型,通过所述初始模型根据所述词序列输出预测词,并确定所述预测词对应的概率分布;
利用所述概率分布计算所述初始模型的训练损失;
利用所述训练损失对所述初始模型的模型参数进行更新,直至更新后的初始模型满足训练条件,并将满足所述训练条件的初始模型作为所述第二子模型。
6.根据权利要求5所述的方法,其特征在于,所述利用所述概率分布计算所述初始模型的训练损失,包括:
从所述视频标题中提取所述预测词对应的真实词,并创建所述真实词对应的独热编码向量;
基于所述独热编码向量以及所述预测词对应的概率分布计算所述训练损失。
7.根据权利要求4所述的方法,其特征在于,所述获取所述视频数据对应的标签数据包括:
获取所述预设场景对应每个视频数据的权重;
基于所述视频数据的权重将每个视频数据的描述内容进行加权拼接,得到所述视频数据对应的视频标题;
将所述视频标题作为所述标签数据。
8.一种视频标题的生成装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的目标视频;
提取模块,用于提取所述目标视频对应的目标描述内容;
识别模块,用于利用标题生成模型识别所述目标描述内容的语言特征以及场景特征,并基于所述语言特征以及场景特征生成所述目标视频的目标视频标题,其中,所述标题生成模型包括第一子模型和第二子模型,所述第一子模型为根据训练好的语言模型,所述第二子模型为所述目标视频对应视频类型对应的神经网络模型,所述第一子模型用于识别语言特征,所述第二子模型用于识别场景特征。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的方法。
CN202410211764.9A 2024-02-26 2024-02-26 一种视频标题的生成方法、装置、电子设备及存储介质 Pending CN118075573A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410211764.9A CN118075573A (zh) 2024-02-26 2024-02-26 一种视频标题的生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410211764.9A CN118075573A (zh) 2024-02-26 2024-02-26 一种视频标题的生成方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN118075573A true CN118075573A (zh) 2024-05-24

Family

ID=91098478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410211764.9A Pending CN118075573A (zh) 2024-02-26 2024-02-26 一种视频标题的生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN118075573A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119166902A (zh) * 2024-11-18 2024-12-20 北京多点在线科技有限公司 一种基于知识图谱的短视频优化方法、装置、计算机设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119166902A (zh) * 2024-11-18 2024-12-20 北京多点在线科技有限公司 一种基于知识图谱的短视频优化方法、装置、计算机设备及可读存储介质

Similar Documents

Publication Publication Date Title
JP7142737B2 (ja) マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
US10459995B2 (en) Search engine for processing image search queries in multiple languages
CN109697239B (zh) 用于生成图文信息的方法
CN112163122A (zh) 确定目标视频的标签的方法、装置、计算设备及存储介质
CN110083729B (zh) 一种图像搜索的方法及系统
JP7355865B2 (ja) ビデオ処理方法、装置、デバイスおよび記憶媒体
CN111611436A (zh) 一种标签数据处理方法、装置以及计算机可读存储介质
CN111625715B (zh) 信息提取方法、装置、电子设备及存储介质
CN112015928A (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN117765450B (zh) 一种视频语言理解方法、装置、设备及可读存储介质
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
CN111831924A (zh) 内容推荐方法、装置、设备及可读存储介质
CN118692014B (zh) 视频标签识别方法、装置、设备、介质及产品
CN117011737A (zh) 一种视频分类方法、装置、电子设备和存储介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN113128431A (zh) 视频片段检索方法、装置、介质与电子设备
CN113987274A (zh) 视频语义表示方法、装置、电子设备和存储介质
CN118075573A (zh) 一种视频标题的生成方法、装置、电子设备及存储介质
El-Gayar Automatic generation of image caption based on semantic relation using deep visual attention prediction
Chen et al. Video captioning via sentence augmentation and spatio-temporal attention
CN116304013A (zh) 长文本分类方法、系统、存储介质及设备
CN117746441B (zh) 一种视觉语言理解方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination