CN116468001A

CN116468001A - 视频目录生成、视频播放以及深度学习模型的训练方法

Info

Publication number: CN116468001A
Application number: CN202310233738.1A
Authority: CN
Inventors: 苑霸; 胡知维
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-07-21

Abstract

本公开提供了一种视频目录生成方法，涉及人工智能技术领域，尤其涉及深度学习、计算机视觉、图像处理和视频处理技术领域。具体实现方案为：从目标视频的字幕或语音中确定目标文本数据；对目标文本数据进行段落划分，得到至少一个文本段落；生成文本段落的文本摘要；以及根据至少一个文本段落各自的文本摘要，生成目标视频的目录。本公开还提供了一种深度学习模型的训练方法、视频播放方法、装置、电子设备和存储介质。

Description

视频目录生成、视频播放以及深度学习模型的训练方法

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、计算机视觉、图像处理和视频处理技术领域。更具体地，本公开提供了一种视频目录生成方法、深度学习模型的训练方法、视频播放方法、装置、电子设备和存储介质。

背景技术

视频在内容上往往存在冗余，导致获取视频的主要信息需要花费较长的时间和精力。一般可以通过提取视频摘要的方式来提取视频的主要信息。例如，从视频中提取有意义的片段或部分帧图像来合成新的视频，作为原始视频的视频摘要。

发明内容

本公开提供了一种视频目录生成方法、深度学习模型的训练方法、视频播放方法、装置、设备以及存储介质。

根据第一方面，提供了一种视频目录生成方法，该方法包括：从目标视频的字幕或语音中确定目标文本数据；对目标文本数据进行段落划分，得到至少一个文本段落；生成文本段落的文本摘要；以及根据至少一个文本段落各自的文本摘要，生成目标视频的目录。

根据第二方面，提供了一种深度学习模型的训练方法，该方法包括：将样本拼接数据输入深度学习模型，得到样本拼接数据中每个拼接位置处的输出段落标识，拼接位置处具有标签段落标识，段落标识表示分段和不分段中的之一；根据拼接位置处的输出段落标识和标签段落标识，确定深度学习模型的损失；以及根据损失，调整深度学习模型的参数。

根据第三方面，提供了一种视频播放方法，该方法包括：响应于获取目标视频，相关联地显示目标视频和目标视频的目录，其中，目录包括至少一个文本摘要，至少一个文本摘要与目标视频的至少一个视频节点各自对应，目录是根据视频目录生成方法确定的；以及响应于目录中的文本摘要被点击，跳转到与文本摘要对应的视频节点进行播放。

根据第四方面，提供了一种视频目录生成装置，该装置包括：文本确定模块，用于从目标视频的字幕或语音中确定目标文本数据；段落划分模块，用于对目标文本数据进行段落划分，得到至少一个文本段落；摘要生成模块，用于生成文本段落的文本摘要；以及目录生成模块，用于根据至少一个文本段落各自的文本摘要，生成目标视频的目录。

根据第五方面，提供了一种深度学习模型的训练装置，该装置包括：数据处理模块，用于将样本拼接数据输入深度学习模型，得到样本拼接数据中每个拼接位置处的输出段落标识，拼接位置处具有标签段落标识，段落标识表示分段和不分段中的之一；损失计算模块，用于根据拼接位置处的输出段落标识和标签段落标识，确定深度学习模型的损失；以及调整模块，用于根据损失，调整深度学习模型的参数。

根据第六方面，提供了一种视频播放装置，该装置包括：显示模块，用于响应于获取目标视频，相关联地显示目标视频和目标视频的目录，其中，目录包括至少一个文本摘要，至少一个文本摘要与目标视频的至少一个视频节点各自对应，目录是根据视频目录生成装置确定的；以及播放模块，用于响应于目录中的文本摘要被点击，跳转到与文本摘要对应的视频节点进行播放。

根据第七方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据第八方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

根据第九方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的一个实施例的可以应用视频目录生成方法、深度学习模型的训练方法、视频播放方法中的至少之一的示例性系统架构示意图；

图2是根据本公开的一个实施例的视频目录生成方法的流程图；

图3是根据本公开的一个实施例的视频目录生成方法的示意图；

图4是根据本公开的一个实施例的生成文本摘要的方法示意图；

图5是根据本公开的一个实施例的目标视频和目录相关联的示意图；

图6是根据本公开的一个实施例的视频播放方法的流程图；

图7是根据本公开的一个实施例的深度学习模型的训练方法的流程图；

图8是根据本公开的一个实施例的深度学习模型的训练方法的示意图；

图9是根据本公开的一个实施例的视频目录生成装置的框图；

图10是根据本公开的一个实施例的视频播放装置的框图；

图11是根据本公开的一个实施例的深度学习模型的训练装置的框图；

图12是根据本公开的一个实施例的视频目录生成方法、深度学习模型的训练方法、视频播放方法中的至少之一的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

视频摘要是从视频、图片角度出发来提取视频的主要信息的。例如基于视频中每一帧图像的视觉特征来确定图像之间的差异，根据差异性从视频中选取出关键帧来合成视频摘要。但是关键帧的选取存在计算复杂、对象提取困难等问题，并且视觉特征无法表征视频内容的理解。因此，视频摘要提取信息的能力有限，尤其在复杂场景下，视频摘要并不能很好的获取视频的主要信息。

因此，本公开提供了一种从自然语言角度出发的视频目录生成方法，利用视频中的文本信息，实现核心段落的划分及内容凝练，通过短句总结概括视频中各个片段的主题内容，从而形成视频目录，方便用户快速地理解视频的主要内容。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图1是根据本公开一个实施例的可以应用视频目录生成方法、深度学习模型的训练方法、视频播放方法中的至少之一的示例性系统架构示意图。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105进行交互，以接收或发送消息等。终端设备101、102、103可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机等等。

本公开实施例所提供的视频目录生成方法和深度学习模型的训练方法中的至少之一一般可以由服务器105执行。相应地，本公开实施例所提供的视频目录生成装置和深度学习模型的训练装置一般可以设置于服务器105中。本公开实施例所提供的视频目录生成方法和深度学习模型的训练方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的视频目录生成装置和深度学习模型装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

本公开实施例所提供的视频播放方法一般可以由终端设备101～103执行。相应地，本公开实施例所提供的视频播放装置一般可以设置于终端设备101～103中。

图2是根据本公开的一个实施例的视频目录生成方法的流程图。

如图2所示，该视频目录生成方法200包括操作S210～操作S240。

在操作S210，从目标视频的字幕或语音中确定目标文本数据。

目标视频的目标文本数据来自目标视频的字幕，或者是通过对目标视频的语音进行语音识别得到的。

可以对目标视频进行切帧，得到多个目标图像，针对每个目标图像，通过OCR(Optical Character Recognition，光学字符识别)文本识别提取出该目标图像中的字幕，多个目标图像的字幕组成目标视频的目标文本数据。

或者，在目标视频没有字幕的情况下，可以通过语音识别将目标视频的语音转换为文本，作为目标文本数据。

目标文本数据是整个目标视频的文本数据，目标视频中每个目标图像的文本数据可以称为子文本数据。

在操作S220，对目标文本数据进行段落划分，得到至少一个文本段落。

目标文本数据是整个目标视频的文本数据，对目标文本数据进行段落划分，是从整体上对目标视频进行的语义分割。

对目标文本数据进行段落划分，可以得到至少一个文本段落。每个文本段落对应一个视频片段，文本段落可以包括多个目标图像的子文本数据，每个子文本数据可以是一个语句。

在操作S230，生成文本段落的文本摘要。

针对每个文本段落，如果包括多个语句，可以识别多个语句中的关键句和非关键句。关键语句组成该文本段落的主要内容，接下来，对关键语句组成的主要内容进行内容改写，例如长句变短句，删除修饰词、解释性词语等，使得内容凝练，得到概括性较强的文本摘要，作为该文本段落的主要信息。

在操作S240，根据至少一个文本段落各自的文本摘要，生成目标视频的目录。

每个文本摘要可以作为一个摘要节点，多个文本摘要可以组成目标视频的目录。该目标视频的目录也可以称为目标视频的内容大纲。

由于每个文本段落的文本摘要可以作为与该文本段落对应的视频片段的主要信息，因此目录中多个文本摘要可以组成完整目标视频的主要信息。

由此，从自然语言处理的角度生成目标视频的目录，目录中的多个文本摘要可以分别作为视频中多个片段的主要内容的总结，实现目标视频主要信息的提取。

本公开的实施例通过获取视频的文本数据，对文本数据进行分段，得到多个段落，生成每个段落的摘要，多个段落的摘要组成视频目录，能够从自然语言角度出发提取视频的主要信息，能够便于用户直观、快速地理解视频的主要内容，提高用户获取视频信息的效率。

图3是根据本公开的一个实施例的视频目录生成方法的示意图。

如图3所示，本实施例包括获取目标文本数据的步骤操作S310～操作S330以及生成视频目录的框图示意。

在操作S310，获取目标视频。在目标视频包含字幕的情况下，执行操作S321～操作S322，在目标视频不包含字幕的情况下，执行操作S323。

在操作S321，对目标视频进行切帧，得到多个目标图像。

在操作S322，对目标图像进行文本识别。

在操作S323，对目标视频进行语音识别。

在操作S330，对识别结果进行预处理，得到目标文本数据。

例如，在目标视频包含字幕的情况下，对目标图像进行文本识别，得到每一个目标图像的文本识别结果。对文本识别结果进行筛选、合并等预处理(例如剔除特殊符号、表情符号等内容)，可以得到目标视频的目标文本数据，目标文本数据包括多个目标图像各自的子文本数据。

在目标视频不包含字幕的情况下，对目标视频进行语音识别，得到语音识别结果。对语音识别结果进行筛选、合并等预处理，可以得到目标视频的目标文本数据，目标文本数据按帧进行划分，也可以得到多个目标图像各自的子文本数据。

接下来，针对目标文本数据，可以进行段落划分，例如可以得到段落1、……段落i、……段落m，m为大于1的整数，1<i<m。针对每个段落，可以生成该段落的文本摘要，例如，摘要1、……摘要i、……摘要m。摘要1、……摘要i、……摘要m可以构成目标视频的视频目录。

下面对目标文本数据的段落划分进行具体说明。

对目标文本数据进行段落划分，得到至少一个文本段落包括：确定每相邻两个子文本数据的连接位置处的分段标识，其中，分段标识表示分段和不分段中的之一；以及在分段标识表示分段的连接位置处进行段落划分，得到至少一个文本段落。

段落的划分是对目标文本数据进行的语义分割，因此，可以通过自然语言处理模型对目标文本数据进行语义分割，来实现段落的划分。

例如，可以使用自然语言处理模型识别每相邻两个子文本数据的连接位置处是否出现语义分割，如果该连接位置处的上文和下文出现了语义的分割，那么可以在该连接位置处输出用于表示分段的段落标识。

因此，可以通过训练使得自然语言处理模型在相邻两个子文本数据的连接位置处进行段落分类，例如分类结果为1表示该连接位置处需要分段，分类结果为0表示该连接位置处不需要分段。可以选择在分类结果为1的连接位置处进行段落划分，从而得到多个文本段落。

分段可以包括普通分段和片首分段。在分段标识表示分段的连接位置处进行段落划分，得到至少一个文本段落包括：在分段标识表示普通分段的连接位置处进行段落划分，得到至少一个文本段落。

例如，视频的片首(或开头)往往是介绍语、开场白等，例如“大家好，今天给大家介绍……”等。因此，视频片首的文本数据并非是视频内容的主要信息。

因此，可以训练自然语言处理模型使得模型在与该片首结束的位置对应的文本数据处输出新的分段标识，表示此处是片首分段，由于片首不包含重要信息，可以无需在此处进行分段。因此，自然语言处理模型在每相邻两个子文本数据的连接位置处可以输出不分段(例如0)、普通分段(例如1)和片首分段(例如2)中的之一。

在对经自然语言处理模型处理后的目标文本数据进行段落划分时，可以仅在表示普通分段(例如1)的位置处进行段落划分，便可得到目标文本数据的多个文本段落。

本实施例通过使用自然语言处理模型在每相邻两个子文本数据的连接位置处输出分段标识，根据分段标识进行段落划分，能够从语义角度实现视频文本数据的段落划分，便于视频主要信息的提取。

下面对文本摘要的生成进行具体说明。

图4是根据本公开的一个实施例的生成文本摘要的方法示意图。

文本摘要的生成可以包括关键句识别和内容改写两部分。生成文本段落的文本摘要包括：从文本段落中确定关键语句；以及对关键语句进行内容改写，得到文本摘要。

如图4所示，文本段落可以包括多个语句。例如语句1、语句2、…、语句N，N例如为大于5的整数。N个语句中有些语句可以是包含关键信息的关键语句，有些数据则是解释性的、补充性的非关键语句。因此，可以从文本段落中识别出关键语句和非关键语句，针对关键语句生成文本段落的摘要。

例如，可以使用自然语言处理模型410识别文本段落中的关键语句和非关键语句。该自然语言处理模型410可以是通过使用标注有关键语句和非关键语句的训练文本数据进行训练得到的，使得自然语言处理模型410能够对训练文本中的关键语句和非关键语句标注不同标识，从而使得关键语句和非关键语句能够得到区分。

例如，语句1、语句2、……、语句N输入自然语言处理模型410，自然语言处理模型410可以识别出关键语句包括语句1、语句3、……、语句N，非关键语句可以包括语句2、语句5、……、语句M，M为大于5小于N的整数。

接下来，可以针对关键语句(语句1、语句3、……、语句N)进行内容改写，生成文本摘要。对关键语句进行内容改写，得到文本摘要包括：确定关键语句中的关键词；以及根据关键词生成文本摘要。

例如，可以使用自然语言处理模型420对关键语句进行内容改写，得到文本摘要。自然语言处理模型420可以是通过使用标注有关键词和非关键词的训练文本数据进行训练得到的，使得自然语言处理模型420具备识别关键词和非关键词的能力。将关键语句输入自然语言处理模型420，能够得到关键语句中的关键词和非关键词。内容改写包括删除关键语句中的非关键词，保留关键语句中的关键词，还可以将关键词进行拼接，并作适应性调整，例如调整语序等，使得语序通顺。关键语句经内容改写后的，可以得到文本摘要430。

例如，关键语句(语句1、语句3、……、语句N)输入自然语言处理模型420，得到各关键语句中的关键词组成的文本摘要。

表1是根据本公开的一个实施例的文本段落和文本摘要示例。

表1的文本段落可以来自美食教程类的目标视频。针对每个段落，段落中每相邻两个子文本数据是用“#”号分割的。段落中的多个语句包括关键句(例如，第一步把剪碎的银耳放在装有冷水的盆中、浸泡2个小时以上即可切忌不能用热水)和非关键句(例如，否则会造成营养物质的流失、对了如果是冬天的话就多泡几个小时)。

与段落对应的文本摘要是对关键句进行改写得到的。例如，提取关键句“第一步把剪碎的银耳放在装有冷水的盆中、浸泡2个小时以上即可切忌不能用热水”中的关键词，得到关键词“银耳”、“放在”、“冷水”、“浸泡2个小时”等，将关键词进行拼接，并适应性调整，得到文本摘要“银耳放在冷水中，浸泡2个小时”。

本实施例通过关键句识别和内容改写，可以使得得到文本段落的核心内容凝练，总结出文本段落的文本摘要。

得到文本摘要后，可以将文本摘要组成目标视频的目录，接下来，可以将目标视频和目录进行关联。将目标视频和目录进行关联包括确定目标视频中与至少一个文本摘要各自对应的至少一个视频节点；以及在目标视频中标记视频节点。确定目标视频中与至少一个文本摘要各自对应的至少一个视频节点包括：针对每个文本摘要，确定与文本摘要对应的文本段落中的起始子文本数据；以及将与起始子文本数据对应的目标图像的位置确定为与文本摘要对应的视频节点。

例如，针对每个文本摘要，该文本摘要所属于的文本段落对应一个视频片段，该文本摘要可以作为该视频片段的主要内容的文字总结。该视频片段的起始位置，可以作为与文本摘要对应的视频节点。

文本段落包括多个子文本数据，该多个子文本数据对应多个目标图像，那么与该多个子文本数据中起始的子文本数据对应的目标图像即可以作为视频片段的起始位置，即与文本摘要对应的视频节点。

图5是根据本公开的一个实施例的目标视频和目录相关联的示意图。

如图5所示，目标视频510包括多个视频节点，例如视频节点511、视频节点512，等等。目录520包括多个摘要节点，例如摘要1、XXX是什么意思？摘要2、XXX步骤一，等等。

目标视频510中的多个视频节点和目录520中的多个摘要节点是各自对应的。例如，视频节点511与摘要节点1相对应，视频节点511到视频节点512的视频片段可以对应一个文本段落，该文本段落的文本摘要为摘要节点1，即摘要节点1是视频节点1到视频节点2之间的视频片段的文字总结。

用户通过查看摘要节点1的文字总结可以更加快速、直观地获得视频节点511到视频节点512之间的视频内容的主要信息。通过点击目录中感兴趣的摘要节点，可以直接跳转到视频510中相应的视频节点进行播放，使得用户更加快速的获取自己感兴趣的内容。

图6是根据本公开的一个实施例的视频播放方法的流程图。

如图6所示，该视频播放方法600包括操作S610～操作S620。

在操作S610，响应于获取目标视频，相关联地显示目标视频和目标视频的目录。

在操作S620，响应于目录中的文本摘要被点击，跳转到与文本摘要对应的视频节点进行播放。

例如，在获取到目标视频之后，在目标视频下方展示目标视频的目录，目录中包括多个摘要节点，每个摘要节点对应目标视频中的一个视频节点。每个摘要节点是以对应视频节点为起始的视频片段的摘要总结，包含了该视频片段的主要信息。

在用户点击任一摘要节点的情况下，目标视频可以自动跳转到与该被点击的摘要节点对应的视频节点开始播放，使得用户更加快速的获取视频重要信息。

图7是根据本公开的一个实施例的深度学习模型的训练方法的流程图。

如图7所示，该深度学习模型的训练方法700包括操作S710～操作S730。

在操作S710，将样本拼接数据输入深度学习模型，得到样本拼接数据中每个拼接位置处的输出段落标识。

在操作S720，根据拼接位置处的输出段落标识和标签段落标识，确定深度学习模型的损失。

在操作S730，根据损失，调整深度学习模型的参数。

深度学习模型可以是用于对文本数据进行分段的自然语言处理模型。例如，可以采用RoBERTa(A Robustly Optimized BERT Pretraining Approach，基于架构的鲁棒优化的BERT预训练方法)架构，RoBERTa架构的自然语言处理模型能够有效提取上下文信息。

RoBERTa架构包括分别用于语言掩蔽(Mask)任务和用于预测下一句的任务的两个结构。本实施例可以删除用于预测下一句的任务的结构，仅保留用于Mask任务的结构。在预训练时进行Mask任务的训练。

RoBERTa架构包括Self-Attention模块，Self-Attention模块的输入长度有限(例如128)。考虑到视频文本数据的长度较长，Self-Attention模块无法满足输入长度要求，因此，本实施将RoBERTa架构的Self-Attention模块替换为Longformer的Self-Attention模块，Longformer的Self-Attention模块可以扩充模型输入的长度。此外，还可以适应性修改RoBERTa的超参数，超参数包括bacth size和学习率等。

接下来，针对结构改进后的RoBERTa模型，可以进行语言掩蔽任务的预训练，使得模型具有提取语义特征的能力。例如，可以使用来自样本视频的字幕作为预训练数据，进行语言掩蔽任务的预训练，得到预训练模型。

接下来，使用预训练模型作为本实施例的深度学习模型进行分段任务的训练。例如，可以将样本视频中每一个样本图像的字幕(文本数据)进行拼接，得到样本拼接数据。在样本拼接数据每相邻两个样本图像的字幕的拼接位置处标注有标签段落标识，标签段落标识为0表示不分段，标签段落标识为1表示分段。将样本拼接数据输入深度学习模型，深度学习模型在每相邻两个样本图像的字幕的拼接位置处进行段落标识的分类，例如分类结果包括不分段和分段，输出段落标识为0表示不分段，输出段落标识为1表示分段。

例如，视频的片首(或开头)往往是介绍语、开场白等，因此，视频片首的字幕并非是视频的主要信息。因此，可以在样本拼接数据中视频片首的字幕结束位置处标注表示片首分段的标签段落标识(例如2)，该片首分段的标识表示此处是片首分段，可以不在此处进行段落划分。类似地，深度学习模型在每相邻两个样本图像的字幕的拼接位置处进行段落标识的三分类，例如分类结果包括不分段、普通分段和片首分段，输出段落标识为0表示不分段，输出段落标识为1表示普通分段，输出段落标识为2表示片首分段。

例如，在样本拼接数据中每个字的位置处均可以标注有标识，例如在除每相邻两个样本图像的字幕的拼接位置处以外的每个字的位置处标注有表示其他的标签段落标识(例如3)。类似地，深度学习模型也可以在样本拼接数据中每个字的位置处进行段落标识的四分类，例如分类结果包括不分段、普通分段、片首分段和其他，输出段落标识为0表示不分段，输出段落标识为1表示普通分段，输出段落标识为2表示片首分段，输出段落标识为3表示其他。

接下来，可以根据输出段落标识和标签段落标识之间的差异(例如交叉熵、均方差等)，计算深度学习模型的损失，将损失反向传播，使模型的参数进行梯度下降，得到更新的深度学习模型。使用更新的深度学习模型重复上述训练过程，直至模型收敛，得到经训练的深度学习模型。

需要说明的是，可以仅根据每相邻两个样本图像的字幕的拼接位置处的输出段落标识和标签段落标识之间的差异计算损失，忽略其他位置的差异，使得模型具备句子级别的标注能力，即句子级别的段落划分能力。

本实施例通过在每相邻两个样本图像的文本数据的拼接位置处进行段落标识的分类，使得模型具备句子级别的段落划分能力，进而能够提高文本数据分段的效率和准确率。

样本拼接数据的获取包括从样本视频的字幕或语音中确定样本文本数据，所述样本文本数据包括多个样本图像各自的子文本数据；将所述多个样本图像各自的子文本数据进行拼接，得到所述样本拼接数据。

图8是根据本公开的一个实施例的深度学习模型的训练方法的示意图。

如图8所示，样本文本数据801来自样本视频的字幕或语音。样本视频包括多个样本图像，每个样本图像的子文本数据包括多个字，子文本数据经特征提取，可以得到多个字各自的特征(Token)。

例如，第1个子文本数据经特征提取，得到Token₁、Token₂、……。第2个子文本数据经特征提取，得到Token_j、……，j为大于2的整数。每相邻两个子文本数据之间用一个拼接特征Special Token(SEP)连接，从而得到样本拼接数据802。

例如，第1个子文本数据和第2个子文本数据之间用[SEP]₁连接。第2个子文本数据和第3个子文本数据之间用[SEP]₂连接。以此类推，可以得到多个拼接特征SEP，例如可以得到k个拼接特征SEP，分别是[SEP]₁、[SEP]₂、……、[SEP]_k，k为大于2的整数。

将上述样本拼接数据802输入深度学习模型810，对每个拼接特征SEP进行上下文语义信息的提取，进而得到每个拼接特征的输出结果803。例如，输出结果803包括输出段落标识1、……、输出段落标识k。

根据输出段落标识1、……、输出段落标识k与对应的标签段落标识之间的差异，可以计算深度学习模型810的损失804。将损失804进行反向传播，调整深度学习模型810的参数，可以优化深度学习模型810。重复上述训练过程，便可以得到经训练的深度学习模型810。

本实施例在每相邻两个样本图像的文本数据的拼接位置处进行段落标识的分类，使得模型具备句子级别的段落划分能力，进而能够提高文本数据分段的效率和准确率。

图9是根据本公开的一个实施例的视频目录生成装置的框图。

如图9所示，该视频目录生成装置900包括文本确定模块901、段落划分模块902、摘要生成模块903和目录生成模块904。

文本确定模块901用于从目标视频的字幕或语音中确定目标文本数据。

段落划分模块902用于对目标文本数据进行段落划分，得到至少一个文本段落。

摘要生成模块903用于生成文本段落的文本摘要。

目录生成模块904用于根据至少一个文本段落各自的文本摘要，生成目标视频的目录。

目标文本数据包括多个目标图像各自的子文本数据。段落划分模块902包括标识确定单元和段落划分单元。

标识确定单元用于确定每相邻两个子文本数据的连接位置处的分段标识，其中，分段标识表示分段和不分段中的之一。

段落划分单元用于在分段标识表示分段的连接位置处进行段落划分，得到至少一个文本段落。

分段包括普通分段和片首分段。段落划分单元用于在分段标识表示普通分段的连接位置处进行段落划分，得到至少一个文本段落。

文本确定模块包括视频划分单元、文本提取单元和文本确定单元。

视频划分单元用于对目标视频进行划分，得到多个目标图像。

文本提取单元用于针对每个目标图像，从目标图像的字幕或语音中提取文本内容，得到子文本数据。

文本确定单元用于根据多个目标图像各自的子文本数据，确定视频的目标文本数据。

视频目录生成装置900还包括节点确定模块和节点标记模块。

节点确定模块用于确定目标视频中与至少一个文本摘要各自对应的至少一个视频节点。

节点标记模块用于在目标视频中标记视频节点。

节点确定模块包括起始位置确定单元和节点确定单元。

起始位置确定单元用于确定与文本摘要对应的文本段落中的起始子文本数据。

节点确定单元用于将与起始子文本数据对应的目标图像的位置确定为与文本摘要对应的视频节点。

摘要生成模块903包括关键句确定单元和内容改写单元。

关键句确定单元用于从文本段落中确定关键语句。

内容改写单元用于对关键语句进行内容改写，得到文本摘要。

内容改写单元包括关键词确定子单元和摘要生成子单元。

关键词确定子单元用于确定所述关键语句中的关键词。

摘要生成子单元用于根据所述关键词生成所述文本摘要。

图10是根据本公开的一个实施例的视频播放装置的框图。

如图10所示，该视频播放装置1000包括显示模块1001和播放模块1002。

显示模块1001用于响应于获取目标视频，相关联地显示目标视频和目标视频的目录，其中，目录包括至少一个文本摘要，至少一个文本摘要与目标视频的至少一个视频节点各自对应，目录是根据视频目录生成装置确定的。

播放模块1002用于响应于目录中的文本摘要被点击，跳转到与文本摘要对应的视频节点进行播放。

图11是根据本公开的一个实施例的深度学习模型的训练装置的框图。

如图11所示，该深度学习模型的训练装置1100包括数据处理模块1101、损失计算模块1102和调整模块1103。

数据处理模块1101用于将样本拼接数据输入深度学习模型，得到样本拼接数据中每个拼接位置处的输出段落标识，拼接位置处具有标签段落标识，段落标识表示分段和不分段中的之一。

损失计算模块1102用于根据拼接位置处的输出段落标识和标签段落标识，确定深度学习模型的损失。

调整模块1103用于根据损失，调整深度学习模型的参数。

深度学习模型的训练装置1100还包括样本获取模块和样本拼接模块。

样本获取模块用于从样本视频的字幕或语音中确定样本文本数据，样本文本数据包括多个样本图像各自的子文本数据。

样本拼接模块用于将多个样本图像各自的子文本数据进行拼接，得到样本拼接数据。

根据本公开的实施例，分段包括普通分段和片首分段，段落标识表示不分段、普通分段和片首分段中的之一。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如视频目录生成方法、深度学习模型的训练方法、视频播放方法中的至少之一。例如，在一些实施例中，视频目录生成方法、深度学习模型的训练方法、视频播放方法中的至少之一可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的视频目录生成方法、深度学习模型的训练方法、视频播放方法中的至少之一的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频目录生成方法、深度学习模型的训练方法、视频播放方法中的至少之一。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括；局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频目录生成方法，包括：

从目标视频的字幕或语音中确定目标文本数据；

对所述目标文本数据进行段落划分，得到至少一个文本段落；

生成所述文本段落的文本摘要；以及

根据所述至少一个文本段落各自的文本摘要，生成所述目标视频的目录。

2.根据权利要求1所述的方法，其中，所述目标文本数据包括多个目标图像各自的子文本数据；所述对所述目标文本数据进行段落划分，得到至少一个文本段落包括：

确定每相邻两个子文本数据的连接位置处的分段标识，其中，所述分段标识表示分段和不分段中的之一；以及

在所述分段标识表示分段的连接位置处进行段落划分，得到所述至少一个文本段落。

3.根据权利要求2所述的方法，其中，所述分段包括普通分段和片首分段；所述在所述分段标识表示分段的连接位置处进行段落划分，得到所述至少一个文本段落包括：

在所述分段标识表示普通分段的连接位置处进行段落划分，得到所述至少一个文本段落。

4.根据权利要求2所述的方法，其中，所述从目标视频的字幕或语音中确定目标文本数据包括：

对所述目标视频进行划分，得到所述多个目标图像；

针对每个目标图像，从所述目标图像的字幕或语音中提取文本内容，得到所述子文本数据；以及

根据所述多个目标图像各自的子文本数据，确定所述视频的目标文本数据。

5.根据权利要求2所述的方法，还包括：

确定所述目标视频中与所述至少一个文本摘要各自对应的至少一个视频节点；以及

在所述目标视频中标记所述视频节点。

6.根据权利要求5所述的方法，其中，所述确定所述目标视频中与所述至少一个文本摘要各自对应的至少一个视频节点包括：针对每个文本摘要，

确定与所述文本摘要对应的文本段落中的起始子文本数据；以及

将与所述起始子文本数据对应的目标图像的位置确定为与所述文本摘要对应的视频节点。

7.根据权利要求1至6中任一项所述的方法，其中，所述生成所述文本段落的文本摘要包括：

从所述文本段落中确定关键语句；以及

对所述关键语句进行内容改写，得到所述文本摘要。

8.根据权利要求7所述的方法，其中，所述对所述关键语句进行内容改写，得到所述文本摘要包括：

确定所述关键语句中的关键词；以及

根据所述关键词生成所述文本摘要。

9.一种深度学习模型的训练方法，包括：

将样本拼接数据输入深度学习模型，得到所述样本拼接数据中每个拼接位置处的输出段落标识，所述拼接位置处具有标签段落标识，所述段落标识表示分段和不分段中的之一；

根据所述拼接位置处的输出段落标识和标签段落标识，确定所述深度学习模型的损失；以及

根据所述损失，调整所述深度学习模型的参数。

10.根据权利要求9所述的方法，还包括：

从样本视频的字幕或语音中确定样本文本数据，所述样本文本数据包括多个样本图像各自的子文本数据；

将所述多个样本图像各自的子文本数据进行拼接，得到所述样本拼接数据。

11.根据权利要求9或10所述的方法，其中，所述分段包括普通分段和片首分段，所述段落标识表示不分段、普通分段和片首分段中的之一。

12.一种视频播放方法，包括：

响应于获取目标视频，相关联地显示所述目标视频和所述目标视频的目录，其中，所述目录包括至少一个文本摘要，所述至少一个文本摘要与所述目标视频的至少一个视频节点各自对应，所述目录是根据权利要求1至8中任一项所述的方法确定的；以及

响应于所述目录中的文本摘要被点击，跳转到与所述文本摘要对应的视频节点进行播放。

13.一种视频目录生成装置，包括：

文本确定模块，用于从目标视频的字幕或语音中确定目标文本数据；

段落划分模块，用于对所述目标文本数据进行段落划分，得到至少一个文本段落；

摘要生成模块，用于生成所述文本段落的文本摘要；以及

目录生成模块，用于根据所述至少一个文本段落各自的文本摘要，生成所述目标视频的目录。

14.根据权利要求13所述的装置，其中，所述目标文本数据包括多个目标图像各自的子文本数据；所述段落划分模块包括：

标识确定单元，用于确定每相邻两个子文本数据的连接位置处的分段标识，其中，所述分段标识表示分段和不分段中的之一；以及

段落划分单元，用于在所述分段标识表示分段的连接位置处进行段落划分，得到所述至少一个文本段落。

15.根据权利要求14所述的装置，其中，所述分段包括普通分段和片首分段；所述段落划分单元，用于在所述分段标识表示普通分段的连接位置处进行段落划分，得到所述至少一个文本段落。

16.根据权利要求14所述的装置，其中，所述文本确定模块包括：

视频划分单元，用于对所述目标视频进行划分，得到所述多个目标图像；

文本提取单元，用于针对每个目标图像，从所述目标图像的字幕或语音中提取文本内容，得到所述子文本数据；以及

文本确定单元，用于根据所述多个目标图像各自的子文本数据，确定所述视频的目标文本数据。

17.根据权利要求14所述的装置，还包括：

节点确定模块，用于确定所述目标视频中与所述至少一个文本摘要各自对应的至少一个视频节点；以及

节点标记模块，用于在所述目标视频中标记所述视频节点。

18.根据权利要求17所述的装置，其中，所述节点确定模块包括：

起始位置确定单元，用于确定与所述文本摘要对应的文本段落中的起始子文本数据；以及

节点确定单元，用于将与所述起始子文本数据对应的目标图像的位置确定为与所述文本摘要对应的视频节点。

19.根据权利要求13至18中任一项所述的装置，其中，所述摘要生成模块包括：

关键句确定单元，用于从所述文本段落中确定关键语句；以及

内容改写单元，用于对所述关键语句进行内容改写，得到所述文本摘要。

20.根据权利要求19所述的装置，其中，所述内容改写单元包括：

关键词确定子单元，用于确定所述关键语句中的关键词；以及

摘要生成子单元，用于根据所述关键词生成所述文本摘要。

21.一种深度学习模型的训练装置，包括：

数据处理模块，用于将样本拼接数据输入深度学习模型，得到所述样本拼接数据中每个拼接位置处的输出段落标识，所述拼接位置处具有标签段落标识，所述段落标识表示分段和不分段中的之一；

损失计算模块，用于根据所述拼接位置处的输出段落标识和标签段落标识，确定所述深度学习模型的损失；以及

调整模块，用于根据所述损失，调整所述深度学习模型的参数。

22.根据权利要求21所述的装置，还包括：

样本获取模块，用于从样本视频的字幕或语音中确定样本文本数据，所述样本文本数据包括多个样本图像各自的子文本数据；

样本拼接模块，用于将所述多个样本图像各自的子文本数据进行拼接，得到所述样本拼接数据。

23.根据权利要求21或22所述的装置，其中，所述分段包括普通分段和片首分段，所述段落标识表示不分段、普通分段和片首分段中的之一。

24.一种视频播放装置，包括：

显示模块，用于响应于获取目标视频，相关联地显示所述目标视频和所述目标视频的目录，其中，所述目录包括至少一个文本摘要，所述至少一个文本摘要与所述目标视频的至少一个视频节点各自对应，所述目录是根据权利要求13至20中任一项所述的装置确定的；以及

播放模块，用于响应于所述目录中的文本摘要被点击，跳转到与所述文本摘要对应的视频节点进行播放。

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至12中任一项所述的方法。

27.一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据权利要求1至12中任一项所述的方法。