CN116017036A

CN116017036A - 一种音视频分析方法、装置、计算机设备以及存储介质

Info

Publication number: CN116017036A
Application number: CN202211690921.6A
Authority: CN
Inventors: 尹天舒
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-04-25

Abstract

本公开提供了一种音视频分析方法、装置、计算机设备以及存储介质，其中，该方法包括：获取待分析音视频数据；确定所述待分析音视频数据中的目标音频帧，并确定所述待分析音视频数据中的目标视频帧；其中，所述目标音频帧以及目标视频帧用于指示所述待分析音视频数据中预设内容所处的区域；在所述目标音频帧与所述目标视频帧中确定目标点位帧，以基于所述目标视频帧确定所述预设内容的起止位置。

Description

一种音视频分析方法、装置、计算机设备以及存储介质

技术领域

本公开涉及多媒体技术领域，具体而言，涉及一种音视频分析方法、装置、计算机设备以及存储介质。

背景技术

随着视频网络的发展，通过互联网观看视频节目的网民越来越多，通常在这些视频节目中可以包括实质内容和非实质内容，例如，在该视频节目为电影时，实质内容可以为剧情等内容，非实质内容可以为片头、片尾、花絮等内容。

在视频管理平台针对该视频节目进行管理，或者用户通过应用程序观看该视频节目时，均存在对该视频节目的实质内容以及非实质内容进行区分的需求，然而，在现有的针对非实质内容进行识别的方案中，通常是通过标注人员手动在视频节目中标注出非实质内容的起始点位，从而导致人力成本较高，识别效率较低。

发明内容

本公开实施例至少提供一种音视频分析方法、装置、计算机设备以及存储介质。

第一方面，本公开实施例提供了一种音视频分析方法，其特征在于，包括：

获取待分析音视频数据；

确定所述待分析音视频数据中的目标音频帧，并确定所述待分析音视频数据中的目标视频帧；其中，所述目标音频帧以及目标视频帧用于指示所述待分析音视频数据中预设内容所处的区域；

在所述目标音频帧与所述目标视频帧中确定目标点位帧，以基于所述目标视频帧确定所述预设内容的起止位置。

一种可选的实施方式中，所述在所述目标音频帧与所述目标视频帧中确定目标点位帧，包括：

在所述目标视频帧中包括第一视频帧的情况下，在所述目标音频帧与所述目标视频帧中确定基准点位帧；其中，所述第一视频帧为所述待分析音视频数据中视频场景过度时对应的视频帧；

确定所述基准点位帧在所述待分析音视频数据中所处的第一数据区域；

将所述第一视频帧与所述第一数据区域进行匹配，并基于匹配结果，在所述第一视频帧与所述基准点位帧中确定目标点位帧。

一种可选的实施方式中，所述基于匹配结果，在所述第一视频帧与所述基准点位帧中确定目标点位帧，包括：

基于所述匹配结果，确定所述第一视频帧是否处于所述第一数据区域中；

在所述第一视频帧未处于所述第一数据区域中的情况下，将所述基准点位帧确定为所述目标点位帧；

在所述第一视频帧处于所述第一数据区域中的情况下，将所述第一视频帧确定为所述目标点位帧。

一种可选的实施方式中，所述在所述目标音频帧与所述目标视频帧中确定基准点位帧，包括：

在所述目标视频帧中包括第二视频帧的情况下，确定所述第二视频帧在所述待分析音视频数据中所处的第二数据区域；其中，所述第二视频帧用于指示包括关键内容的视频帧；

在所述目标音频帧未处于所述第二数据区域中的情况下，将所述第二视频帧确定为所述基准点位帧；

在所述目标音频帧处于所述第二数据区域中的情况下，将所述目标音频帧确定为所述基准点位帧。

一种可选的实施方式中，所述在所述目标音频帧与所述目标视频帧中5确定基准点位帧，包括：

在所述目标视频帧中包括第三视频帧的情况下，确定所述第三视频帧与所述目标音频帧的位置关系；其中，所述第三视频帧用于指示包括预设类型内容的视频帧；

基于所述位置关系，在所述目标视频帧与所述第三视频帧中确定基准0点位帧。

一种可选的实施方式中，所述确定所述待分析音视频数据中的目标视频帧，包括：

对所述待分析音视频数据中的视频数据进行抽帧处理，得到所述视频数据对应的视频帧合集；

5确定所述视频帧合集中像素值不满足预设条件的第一视频帧，并基于所述第一视频帧确定所述目标视频帧；其中，所述第一视频帧为所述待分析音视频数据中视频场景过度时对应的视频帧。

一种可选的实施方式中，所述确定所述待分析音视频数据中的目标音频帧，包括：

0确定所述待分析音视频数据中的音频数据，并确定所述音频数据中的至少一段待确认音频片段；

基于每段所述待确认音频片段在所述音频数据中的播放顺序，并基于所述播放顺序确定目标音频片段；

根据所述目标音频片段确定目标音频帧。

5第二方面，本公开实施例还提供一种音视频分析装置，包括：

获取单元，用于获取待分析音视频数据；

第一确定单元，用于确定所述待分析音视频数据中的目标音频帧，并确定所述待分析音视频数据中的目标视频帧；其中，所述目标音频帧以及目标视频帧用于指示所述待分析音视频数据中预设内容所处的区域；

第二确定单元，用于在所述目标音频帧与所述目标视频帧中确定目标点位帧，以基于所述目标视频帧确定所述预设内容的起止位置。

第三方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

本公开实施例提供的音视频分析方法、装置、计算机设备以及存储介质。在本公开实施例中，首先可以获取待分析音视频数据，并对该待分析音视频数据进行分析，以确定该待分析音视频数据中的目标音频帧以及目标视频帧，其中，该目标音频帧以及目标视频帧可以用于指示待分析音视频数据中预设内容所处的区域，这里，该预设内容可以为上述非实质内容。接下来，可以在该目标音频帧以及目标视频帧中确定目标点位帧，以基于该目标点位帧定位出该预设内容的起止位置，从而降低了对于人力资源的依赖，并提搞了针对待分析音视频数据进行标注的标注效率。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种音视频分析方法的流程图；

图2示出了本公开实施例所提供的片尾字幕对应的一帧画面帧的示意图；

图3示出了本公开实施例所提供的另一种音视频分析方法的流程图；

图4示出了本公开实施例所提供的一种音视频分析装置的示意图；

图5示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

基于上述研究，本公开提供了一种音视频分析方法、装置、计算机设备以及存储介质。在本公开实施例中，首先可以获取待分析音视频数据，并对该待分析音视频数据进行分析，以确定该待分析音视频数据中的目标音频帧以及目标视频帧，其中，该目标音频帧以及目标视频帧可以用于指示待分析音视频数据中预设内容所处的区域，这里，该预设内容可以为上述非实质内容。接下来，可以在该目标音频帧以及目标视频帧中确定目标点位帧，以基于该目标点位帧定位出该预设内容的起止位置，从而降低了对于人力资源的依赖，并提搞了针对待分析音视频数据进行标注的标注效率。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种音视频分析方法进行详细介绍，本公开实施例所提供的音视频分析方法的执行主体一般为具有一定计算能力的计算机设备。在一些可能的实现方式中，该音视频分析方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

本公开所提供的音视频分析方法中，上述计算机设备中可以安装上述视频管理平台，该视频管理平台可以基于确定出的视频节目中预设内容的起止位置，对该视频节目进行个性化管理，例如，在该预设内容为影视节目的片尾时，该个性化管理可以为：在用户观看时智能跳过片尾，确定用户的观看进度是否为片尾，基于该片尾的起止位置投放该影视节目的关联内容，如同类型影视节目推荐，下一集跳转，推广等。

参见图1所示，为本公开实施例提供的一种音视频分析方法的流程图，所述方法包括步骤S101～S105，其中：

S101：获取待分析音视频数据。

在本公开实施例中，首先可以通过上述视频管理平台获取视频节目，并在该视频节目中确定待分析音视频数据，这里，可以按照预设比例在视频节目中进行截取，从而到的待分析音视频数据，以减少对该视频节目进行标注时的运算量。

具体的，在对该视频节目进行截取时，可以基于想要识别的内容所处的区域进行预估，并根据预估结果进行截取，例如，若想要识别的内容为上述非实质内容中的片尾，那么，针对该片尾进行预估，确定出的预设比例可以为20％，进行截取时可以为针对上述视频节目的后20％的音视频部分进行截取，从而得到上述待分析音视频数据。

S103：确定所述待分析音视频数据中的目标音频帧，并确定所述待分析音视频数据中的目标视频帧；其中，所述目标音频帧以及目标视频帧用于指示所述待分析音视频数据中预设内容所处的区域。

在本公开实施例中，首先可以对待分析音视频数据进行拆分，得到音频数据以及视频数据，并分别针对音频数据的音频帧以及视频数据的视频帧进行分析，从而得到目标音频帧以及目标视频帧。这里，该目标音频帧以及目标视频帧中的内容可以用于指示上述预设内容的起止特征。例如，在预设内容为影视视频的片尾时，目标视频帧中的内容可以为片尾关键字，片尾字幕以及片尾转场时的固定内容，目标音频中的内容可以为片尾曲等。

在确定上述音频数据中的目标音频帧时，首先可以通过音频分类算法对每秒产生的音频帧进行分析，从而确定出每秒产生的音频帧的音频类别，以基于该音频类别确定出为预设音频类别的多个音频帧，其中，预设音频类别可以包括：男声唱歌、女声唱歌、BGM(background music，背景音乐)等。接下来，可以确定这多个音频帧是否为连续音频帧，且连续时间为预设连续时间，若是，就可以基于这多个音频帧确定为目标音频帧，例如，将这多个音频帧中的第一帧音频帧作为目标音频帧，其中，该连续时间可以用于过滤掉非片尾曲的音频，例如，该连续时间可以设置为4s。

在确定上述视频数据中的目标视频帧时，可以通过抽帧处理的方式，得到该视频数据对应的视频帧合集，其中，该抽帧处理的方式可以为秒级抽帧，即每秒在视频数据中抽固定帧数的视频帧，从而得到该视频帧合集，以进一步减少设备的运算量。例如，若视频数据的长度为20分钟，每秒的帧数为24帧，那么，在抽帧处理时，可以抽取每秒对应的24帧中的第一帧视频帧，从而得到视频帧合集。

在确定出上述视频帧合集之后，可以对该视频帧合集中每帧视频帧的内容进行识别，以得到包括用于指示上述预设内容的起止特征的目标视频帧，具体确定该目标视频帧的过程如下所述，此处不再赘述。

S105：在所述目标音频帧与所述目标视频帧中确定目标点位帧，以基于所述目标点位帧确定所述预设内容的起止位置。

在本公开实施例中，可以基于确定出的目标音频帧以及目标视频帧进行置信度分析，从而确定出满足置信度条件的目标点位帧，例如，该置信度条件可以为将置信度最高的目标音频帧或者目标视频帧确定为目标点位帧，其中，确定出的目标点位帧为预设内容的起止位置的可能性最高，具体确定目标音频帧以及目标视频帧的置信度的方式如下所述，此处不再赘述。

应理解的是，起止位置可以包括上述待分析音视频数据的起始位置以及终止位置，在确定该起止位置时，首先可以确定目标点位帧在待分析音视频数据中对应的播放时间节点，并将该播放时间节点确定为预设内容的起止位置，其中，该时间节点可以精确到秒级或者毫秒级。

通过上述描述可知，在本公开实施例中，首先可以获取待分析音视频数据，并对该待分析音视频数据进行分析，以确定该待分析音视频数据中的目标音频帧以及目标视频帧，其中，该目标音频帧以及目标视频帧可以用于指示待分析音视频数据中预设内容所处的区域，这里，该预设内容可以为上述非实质内容。接下来，可以在该目标音频帧以及目标视频帧中确定目标点位帧，以基于该目标点位帧定位出该预设内容的起止位置，从而降低了对于人力资源的依赖，并提搞了针对待分析音视频数据进行标注的标注效率。

在一个可选的实施方式中，上述步骤S103，确定所述待分析音视频数据中的目标音频帧，具体包括如下过程：

S1031：确定所述待分析音视频数据中的音频数据，并确定所述音频数据中的至少一段待确认音频片段。

在本公开实施例中，首先可以通过预设的音频接口获取待分析音视频数据中的音频数据，然后，可以通过上述音频分类算法对该音频数据进行分析，以确定出该音频数据中为预设音频类型的多个音频帧，接下来，可以确定这多个音频帧中连续时间为预设连续时间的连续音频帧，并将该连续音频帧确定为上述待确认音频片段，具体确定该连续音频帧的方式如上述图1所对应的实施方式所述，此处不再赘述。

S1032：基于每段所述待确认音频片段在所述音频数据中的播放顺序，并基于所述播放顺序确定目标音频片段。

在本公开实施例中，可以基于每段待确认音频片段在音频数据中的播放顺序进行分析，并按照预设的筛选方式，基于该播放顺序对待确认音频片段进行筛选。这里，该筛选方式可以为基于想要确定的上述起止位置确定的，例如，在想要确定的为预设内容的起始位置时，筛选方式可以为将播放顺序为首先播放的待确认音频片段确定为目标音频片段，在想要确定的为预设内容过的终止位置时，筛选方式可以为将播放顺序为最后播放的待确认音频片段确定为目标音频片段。

S1033：根据所述目标音频片段确定目标音频帧。

在本公开实施例中，首先可以基于想要确定的预设内容的起止位置，确定目标音频节点，并将该目标音频节点对应的音频帧确定为目标音频帧。例如，在想要确定的为预设内容的起始位置时，目标音频节点可以为目标音频帧的第一秒，在想要确定的为预设内容的终止位置时，目标音频节点可以为目标音频帧的最后一秒。

基于此，在本公开实施例中，在音频数据中待确认音频片段为至少一段时，可以基于待确认音频片段在音频数据中的播放顺序确定目标音频片段，以基于该目标音频片段确定出目标音频帧，从而尽量减少了与预设内容不相关的音频片段的干扰，提高了确定出的目标音频帧的准确率。

在一个可选的实施方式中，上述步骤S103，确定所述待分析音视频数据中的目标视频帧，具体包括如下过程：

S1034：对所述待分析音视频数据中的视频数据进行抽帧处理，得到所述视频数据对应的视频帧合集。

在本公开实施例中，由上述图1所对应的实施例可知，抽帧处理可以为的方式可以为秒级抽帧，即每秒在视频数据中抽固定帧数的视频帧，从而得到该视频帧合集。基于此，可以选用能够实现该秒级抽帧的工具来实现对视频数据的抽帧处理，例如，ffmpeg(一种视频处理工具)。

具体进行抽帧处理时，可以按照固定间隔在视频帧中抽取固定帧数的视频帧，例如，该固定间隔可以为每秒中的第一帧，每秒中的最后一帧等，固定帧数可以为一帧或者多帧，本公开对此不作具体限定。

S1035：确定所述视频帧合集中像素值不满足预设条件的第一视频帧，并基于所述第一视频帧确定所述目标视频帧；其中，所述第一视频帧为所述待分析音视频数据中视频场景过度时对应的视频帧。

在本公开实施例中，可以在视频帧合集中确定出目标视频帧，其中，该目标视频帧可以包括多种类型，例如，第一视频帧、第二视频帧以及第三视频帧。具体确定该目标视频帧的方式如下所述：

方式一：确定视频帧合集中的第一视频帧，并将该第一视频帧确定为目标视频帧。

在本公开实施例中，第一视频帧为待分析音视频数据中进行视频场景过度时对应的视频帧。应理解的是，在影视作品中，在片尾或者片头往往会进行转场(即视频场景过度)，以将片头切换到正片，或者从正片切换到片尾。在进行转场时对应的视频帧往往画面内容固定，例如，黑屏。在黑屏时，视频帧中各像素点的像素值往往近似于0(像素点的像素值为0时该像素点的颜色为黑色)。

基于此，可以预先设定预设条件，以基于该预设条件筛选出黑屏时对应的第一视频帧。具体的，首先可以确定出视频帧中像素值低于预设像素值的像素点所占的比例，并将比例大于预设比例的视频帧确定为不满足预设条件的第一视频帧。

由于像素点的像素值为0时，该像素点对应的颜色为黑色，那么预设像素值可以为接近0，例如10，同时，由于视频帧中低于预设像素值的像素点所占的比例越大，该视频帧中的画面就越接近于黑屏，因此，该预设比例可以为接近100％，例如，95％。

应理解的是，在进行转场时对应的视频帧除了黑屏外还可以为其他表现方式，例如，画面切换。因此，在确定第一视频帧时，还可以识别视频数据中画面切换的节点，具体的，由于进行画面切换时，相邻的视频帧中内容差异较大，这就导致了相邻视频帧在进行渲染时各像素点的像素值可能也发生较大的变化。

基于此，在确定转场对应的视频帧时，可以分析相邻视频帧之间各像素点的像素值差异，并将像素值差异超过差异阈值的相邻视频帧确定为转场时对应的视频帧。接下来，可以将转场对应的相邻视频帧中的最后一帧视频帧确定为第一视频帧。

方式二：确定视频帧合集中的第二视频帧，并将该第二视频帧确定为目标视频帧。

在本公开实施例中，第二视频帧可以用于指示视频数据中包括关键内容的视频帧，其中，该关键内容可以基于预设内容的内容特征确定，例如，在预设内容为影视作品的片尾时，该关键内容可以为上述片尾关键字。具体的，在上述待分析音视频数据为影视作品时，该片尾关键字可以为“导演”、“演员表”等。

基于此，在确定视频帧合集中的第二视频帧时，可以对该视频帧合集中的视频帧进行文本检测以及识别处理，并将识别到的文本和上述关键内容中的关键字进行匹配，以得到包括该关键字的第二视频帧。

方式三：确定视频帧合集中的第三视频帧，并将该第三视频帧确定为目标视频帧。

在本公开实施例中，未在上述视频帧合集中检测到上述第二视频帧时，可以在该视频帧合集中针对第三视频帧进行检测，这里，第三视频帧可以用于指示视频数据中包括预设类型内容的视频帧，其中，在预设内容为影视作品的片尾时，该预设类型内容可以为上述片尾字幕。

应理解的是，上述片尾字幕通常为滚动字幕，如图2所示为该片尾字幕对应的一帧画面帧的示意图，可以按照为滚动字幕设置的滚动速度，确定下一帧中所展示的片尾字幕的内容，从而实现片尾字幕的滚动展示。

基于此，在确定上述第三视频帧的过程中，首先可以对视频合集中视频帧内的文本框进行识别，其中，该文本框中包括识别到的文本内容。在识别到该文本框后，可以获取该视频帧之后n帧的视频帧，以确定该n帧的视频帧中是否包括相同的文本框。

在确定出视频帧与之后n帧的视频帧中包括相同的文本框之后，可以基于该相同文本框的位置，确定该相同文本框在之后n帧的视频帧中的位移方向以及位移距离。接下来，可以确定该位移方向以及位移距离是否满足预设位移要求，并在满足位移要求的情况下，将这n+1帧视频帧确定为包括上述片尾字幕的视频帧，并将其中的第一帧视频帧确定为第三视频帧。具体的，可以将相同文本框的位移方向为水平移动或者竖直移动，位移距离超过20px的n+1帧视频帧确定为包括片尾字幕的视频帧。

在本公开实施例中，可以通过多种方式确定目标视频帧，其中，每种方式可以对应至少一种的预设内容起止位置的特征，从而提高了基于该目标视频帧确定出的目标视频帧所指示的预设内容的起止位置的准确性。

在一个可选的实施方式中，上述步骤S105，在所述目标音频帧与所述目标视频帧中确定目标点位帧，具体包括如下过程：

S1051：在所述目标视频帧中包括第一视频帧的情况下，在所述目标音频帧与所述目标视频帧中确定基准点位帧；其中，所述第一视频帧为所述待分析音视频数据中视频场景过度时对应的视频帧。

在本公开实施例中，由上可知，在影视作品中，在片尾或者片头往往会进行转场(即视频场景过度)，以将片头切换到正片，或者从正片切换到片尾。在进行转场时对应的视频帧即为第一视频帧，因此，该第一视频帧为预设内容的起止位置的可能性较大。

基于此，首先可以针对上述视频数据中的第一视频帧进行识别，具体识别该第一视频帧的方式如上述步骤S103对应的实施例所述，此处不再赘述。

同时，考虑到该第一视频帧为预设内容的起止位置的可能性较大，而不是一定为起止位置，因此可以通过基准点位帧对该第一视频帧是否为用于指示预设内容的起止位置的目标视频帧进行验证。

具体的，在识别到该第一视频帧的情况下，可以在目标音频帧与目标视频帧中确定基准点位帧，该基准点位帧可以用于与第一视频帧的位置进行比较，从而基于比较结果确定出目标视频帧，以提高该目标视频帧的置信度。

在本公开实施例中，基准点位帧可以为基于目标音频帧与上述第二视频帧或者第三视频帧的位置关系确定出的，在目标视频帧中包括第二视频帧或者第三视频帧时，确定基准点位帧的方式如下所述，此处不再赘述。另外，若目标视频帧中不包括第二视频帧以及第三视频帧，可以将该目标音频帧直接确定为基准点位帧。

S1052：确定所述基准点位帧在所述待分析音视频数据中所处的第一数据区域。

S1053：将所述第一视频帧与所述第一数据区域进行匹配，并基于匹配结果，在所述第一视频帧与所述基准点位帧中确定目标点位帧。

在本公开实施例中，首先确定该基准点位帧在待分析音视频数据中所处的第一数据区域，具体的，首先可以确定该基准点位帧对应的区域划分方式，并基于该区域划分方式确定基准点位帧在待分析音视频数据中所处的第一数据区域。例如，该区域划分方式可以用于指示将基准点位帧前后30s确定为该基准点位帧在待分析音视频数据中所处的第一数据区域。

应理解的是，在基准点位帧的类型不同时，该基准点位帧对应的区域划分方式可以是不同的，例如，在该基准点位帧为目标音频帧时，区域划分方式可以为：将基准点位帧前后60s确定为该基准点位帧在待分析音视频数据中所处的第一数据区域。在该基准点位帧为目标视频帧时，区域划分方式可以为：将基准点位帧前后30s确定为该基准点位帧在待分析音视频数据中所处的第一数据区域。

在确定出基准点位帧在待分析音视频数据中所处的第一数据区域之后，可以将该第一视频帧与该第一数据区域进行匹配，得到匹配结果，该匹配结果可以用于指示第一视频帧是否处于第一数据区域中，具体基于匹配结果，在第一视频帧与基准点位帧中确定目标点位帧的方式如下所述，此处不再赘述。

在本公开实施例中，由于第一视频帧为预设内容的起止位置的可能性较大，因此，在目标视频帧中包括第一视频帧时，可以确定基准点位帧，并基于基准点位帧对该第一视频帧进行验证，并基于验证结果确定目标点位帧，从而提高确定出的目标点位帧的置信度。

在一个可选的实施方式中，上述步骤S1053，基于匹配结果，在所述第一视频帧与所述基准点位帧中确定目标点位帧，具体包括如下过程：

(1)、基于所述匹配结果，确定所述第一视频帧是否处于所述第一数据区域中；

(2)、在所述第一视频帧未处于所述第一数据区域中的情况下，将所述基准点位帧确定为所述目标点位帧；

(3)、在所述第一视频帧处于所述第一数据区域中的情况下，将所述第一视频帧确定为所述目标点位帧。

在本公开实施例中，首先可以基于匹配结果，确定第一视频是否处于第一数据区域中，具体包括以下几种情况：

情况一：第一视频帧未处于第一数据区域中。

在本公开实施例中，在上述待分析音视频数据为影视作品时，预设内容为片尾时，由于不同类型影视作品片尾展示的内容以及展示的方式不同，因此，第一视频帧与基准点位帧之间的时间间隔也可能存在差异。

在一种可选的实施方式中，第一视频帧可以位于第一数据区域之前，此时，该第一视频帧之后与基准点位帧之间还可能存在实质内容，此时，可以将基准点位帧确定为用于指示片尾的起始位置的目标点位帧。

在另一种可选的实施方式中，在第一视频帧位于第一数据区域之后时，该第一视频帧与基准点位帧之间展示的片尾内容可能较长，例如，该片尾内容可以为影视作品的花絮，此时，若仍将该第一视频帧确定为目标点位帧，则会导致基于目标点位帧确定出的片尾的起始位置存在偏差。因此，可以将基准点位帧确定为用于指示片尾的起始位置的目标点位帧。

情况二：第一视频帧处于第一数据区域中。

在本公开实施例中，在上述待分析音视频数据为影视作品时，预设内容为片尾时，若第一视频帧处于第一数据区域中，则说明该第一视频帧与第一数据区域的时间间隔较小，同时，由于该第一视频帧为片尾的起止位置的可能性较大，因此，可以将该第一视频帧确定为目标点位帧。

基于此，在本公开实施例中，由于第一视频帧为预设内容的起止位置的可能性较大，因此，可以确定该第一视频帧是否处于上述第一视频帧中，以基于确定出的结果，确定目标点位帧是第一视频帧还是基准点位帧，从而提高确定出的目标点位帧的置信度。

在一个可选的实施方式中，上述步骤S1051，在所述目标音频帧与所述目标视频帧中确定基准点位帧，具体包括如下过程：

(1)、在所述目标视频帧中包括第二视频帧的情况下，确定所述第二视频帧在所述待分析音视频数据中所处的第二数据区域；其中，所述第二视频帧用于指示包括关键内容的视频帧；

(2)、在所述目标音频帧未处于所述第二数据区域中的情况下，将所述第二视频帧确定为所述基准点位帧；

(3)、在所述目标音频帧处于所述第二数据区域中的情况下，将所述目标音频帧确定为所述基准点位帧。

在本公开实施例中，由于第二视频帧为预设内容的起止位置的可能性大于第三视频帧，并且小于目标音频帧，因此，在目标视频帧中包括第二视频帧的情况下，可以通过该第二视频帧对目标音频帧进行验证。具体实施时，首先可以确定第二视频帧在待分析音频数据中所处的第二数据区域，其中，该第二数据区域可以为该第二视频帧的前后n秒，例如，2秒。

接下来，可以确定上述目标音频帧是否处于第二数据区域中，具体包括以下几种情况：

情况一：目标音频帧未处于第二数据区域中。

在本公开实施例中，考虑到在部分影视作品中，用于指示片尾曲的目标音频帧和用于指示演职员表的第二视频帧并不是同步播放的，例如，在剧情还未结束时播放片尾曲，或者播放片尾曲的时机滞后于展示演职员表。此时，就会导致目标音频帧未处于第二数据区域中，在这种情况下，第二视频帧更能精准体现出片尾的起止位置，因此，在目标音频帧未处于第二数据区域中时，可以将第二视频帧确定为上述基准点位帧，

情况二：目标音频帧处于第二数据区域中。

在本公开实施例中，在目标音频帧处于第二数据区域中时，可以认为片尾曲与演职员表的播放时同步的，此时，由于第二视频帧为预设内容的起止位置的可能性小于目标音频帧，因此，可以将目标音频帧确定为上述基准点位帧。

基于此，在本公开实施例中，考虑到第二视频帧为预设内容的起止位置的可能性大于第三视频帧，并且小于目标音频帧，因此，可以通过该第二视频帧对目标音频帧进行验证，从而在第二视频帧以及目标音频帧中确定出基准点位帧，提高确定出的基准点位帧的置信度。

(1)、在所述目标视频帧中包括第三视频帧的情况下，确定所述第三视频帧与所述目标音频帧的位置关系；其中，所述第三视频帧用于指示包括预设类型内容的视频帧；

(2)、基于所述位置关系，在所述目标视频帧与所述第三视频帧中确定基准点位帧。

在一种可选的实施方式中，在目标视频帧中包括第三视频帧的情况下，由于该第三视频帧为预设内容起止位置的可能性小于目标音频帧，因此，可以直接将目标音频帧确定为基准点位帧。

在另一种可选的实施方式中，在目标视频帧中包括第三视频帧的情况下，可以确定第三视频帧与目标音频帧在待分析音视频数据中的位置关系，以基于该位置关系确定出基准点位帧。

具体的，在目标音频帧与第三视频帧的位置关系为不重叠，且需要确定预设内容的起始位置的情况下，可以将目标音频帧与第三视频帧中位置关系在待分析音视频数据中对应的播放顺序较早的帧确定为基准点位帧。

在目标音频帧与第三视频帧的位置关系重叠的情况下，由于第三视频帧为预设内容起止位置的可能性小于目标音频帧，因此，可以将目标音频帧确定为基准点位帧。

在本公开实施例中，考虑到第三视频帧为预设内容的起止位置的可能性小于目标音频帧，因此，可以基于第三视频帧与目标音频帧的位置关系，在该第三视频帧与目标音频帧中确定出基准点位帧，从而提高确定出的基准点位帧的置信度。

参见如图3所示，为本公开实施例提供的另一种音视频分析方法的流程图，所述方法包括步骤S301～S308，其中：

S301：获取待分析音视频数据。

S302：对待分析音视频数据进行抽帧处理，得到上述视频帧合集。

S303：确定待分析音视频数据中的音频数据，以基于该音频数据确定出目标音频帧。

在本公开实施例中，确定目标音频数据的方式如上述步骤S103对应的的实施例所述，此处不再赘述。

S304：基于上述视频帧合集，确定出第二视频帧以及第三视频帧。

S305：确定出待分析音视频数据中进行视频场景过度时对应的第一视频帧。

在本公开实施例中，确定第一视频帧的方式如上述步骤S103对应的实施例所述，此处不再赘述。

S306：确定视频帧合集中包括关键内容的第二视频帧。

在本公开实施例中，确定第二视频帧的方式如上述步骤S103对应的实施例所述，此处不再赘述。

S307：确定视频帧合集中包括预设类型内容的第三视频帧。

在本公开实施例中，确定第三视频帧的方式如上述步骤S103对应的实施例所述，此处不再赘述。

S308：基于预设处理逻辑，在上述目标视频帧以及目标音频帧中确定出目标点位帧。

在本公开实施例中，基于该预设处理逻辑确定目标点位帧的方式如上述步骤S105对应的实施例所述，此处不再赘述。

综上，在本公开实施例中，首先可以获取待分析音视频数据，并对该待分析音视频数据进行分析，以确定该待分析音视频数据中的目标音频帧以及目标视频帧，其中，该目标音频帧以及目标视频帧可以用于指示待分析音视频数据中预设内容所处的区域，这里，该预设内容可以为上述非实质内容。接下来，可以在该目标音频帧以及目标视频帧中确定目标点位帧，以基于该目标点位帧定位出该预设内容的起止位置，从而降低了对于人力资源的依赖，并提搞了针对待分析音视频数据进行标注的标注效率。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与音视频分析方法对应的音视频分析装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述音视频分析方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图4所示，为本公开实施例提供的一种音视频分析装置的示意图，所述装置包括：获取单元41、第一确定单元42、第二确定单元43；其中，

获取单元41，用于获取待分析音视频数据；

第一确定单元42，用于确定所述待分析音视频数据中的目标音频帧，并确定所述待分析音视频数据中的目标视频帧；其中，所述目标音频帧以及目标视频帧用于指示所述待分析音视频数据中预设内容所处的区域；

第二确定单元43，用于在所述目标音频帧与所述目标视频帧中确定目标点位帧，以基于所述目标视频帧确定所述预设内容的起止位置。

在本公开实施例中，首先可以获取待分析音视频数据，并对该待分析音视频数据进行分析，以确定该待分析音视频数据中的目标音频帧以及目标视频帧，其中，该目标音频帧以及目标视频帧可以用于指示待分析音视频数据中预设内容所处的区域，这里，该预设内容可以为上述非实质内容。接下来，可以在该目标音频帧以及目标视频帧中确定目标点位帧，以基于该目标点位帧定位出该预设内容的起止位置，从而降低了对于人力资源的依赖，并提搞了针对待分析音视频数据进行标注的标注效率。

一种可能的实施方式中，第二确定单元43，还用于：

基于所述位置关系，在所述目标视频帧与所述第三视频帧中确定基准点位帧。

一种可能的实施方式中，第一确定单元42，还用于：

确定所述视频帧合集中像素值不满足预设条件的第一视频帧，并基于所述第一视频帧确定所述目标视频帧；其中，所述第一视频帧为所述待分析音视频数据中视频场景过度时对应的视频帧。

一种可能的实施方式中，第一确定单元42，还用于：

确定所述待分析音视频数据中的音频数据，并确定所述音频数据中的至少一段待确认音频片段；

根据所述目标音频片段确定目标音频帧。

关于装置中的各单元的处理流程、以及各单元之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图1中的音视频分析方法，本公开实施例还提供了一种计算机设备500，如图5所示，为本公开实施例提供的计算机设备500结构示意图，包括：

处理器51、存储器52、和总线53；存储器52用于存储执行指令，包括内存521和外部存储器522；这里的内存521也称内存储器，用于暂时存放处理器51中的运算数据，以及与硬盘等外部存储器522交换的数据，处理器51通过内存521与外部存储器522进行数据交换，当所述计算机设备500运行时，所述处理器51与所述存储器52之间通过总线53通信，使得所述处理器51执行以下指令：

获取待分析音视频数据；

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的音视频分析方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的音视频分析方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种音视频分析方法，其特征在于，包括：

获取待分析音视频数据；

2.根据权利要求1所述的方法，其特征在于，所述在所述目标音频帧与所述目标视频帧中确定目标点位帧，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于匹配结果，在所述第一视频帧与所述基准点位帧中确定目标点位帧，包括：

4.根据权利要求2所述的方法，其特征在于，所述在所述目标音频帧与所述目标视频帧中确定基准点位帧，包括：

5.根据权利要求2所述的方法，其特征在于，所述在所述目标音频帧与所述目标视频帧中确定基准点位帧，包括：

6.根据权利要求1所述的方法，其特征在于，所述确定所述待分析音视频数据中的目标视频帧，包括：

7.根据权利要求1所述的方法，其特征在于，所述确定所述待分析音视频数据中的目标音频帧，包括：

根据所述目标音频片段确定目标音频帧。

8.一种音视频分析装置，其特征在于，包括：

获取单元，用于获取待分析音视频数据；

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任意一项所述的音视频分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任意一项所述的音视频分析方法的步骤。