CN114579806B

CN114579806B - 视频检测方法、存储介质和处理器

Info

Publication number: CN114579806B
Application number: CN202210447867.6A
Authority: CN
Inventors: 王强; 张严浩; 郑赟; 潘攀
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-08-09
Anticipated expiration: 2042-04-27
Also published as: CN114579806A

Abstract

本发明公开了一种视频检测方法、存储介质和处理器。其中，该方法包括：获取视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。本发明解决了对视频进行检测的效率低的技术问题。

Description

视频检测方法、存储介质和处理器

技术领域

本发明涉及计算机领域，具体而言，涉及一种视频检测方法、存储介质和处理器。

背景技术

目前，在对视频进行检测时，通常是设计检测算法对视频中的片段进行检测，在相关技术中采用离散域表示方法对视频进行检测，但是该方法过于粗略，存在严重的漏检和误检，从而导致对视频进行检测的效率低的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频检测方法、存储介质和处理器，以至少解决对视频进行检测的效率低的技术问题。

根据本发明实施例的一个方面，提供了一种视频检测方法，包括：获取视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。

根据本发明实施例的另一个方面，还提供了另一种视频检测方法。该方法可以包括：响应作用于操作界面上的输入指令，在操作界面上显示视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；响应作用于操作界面上的检测指令，在操作界面上显示视频的视频检测结果，其中，视频检测结果用于表示至少一个目标视频特征在视频中对应的视频片段为展示目标行为的视频片段，目标视频特征与文本信息的文本特征序列中对应的文本特征之间的匹配度超过匹配阈值。

根据本发明实施例的另一个方面，还提供了另一种视频检测方法。该方法可以包括：从视频平台获取视频；获取与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段；将展示目标行为的视频片段返回至视频平台。

根据本发明实施例的另一个方面，还提供了另一种视频检测方法。该方法可以包括：通过调用第一接口获取视频和与视频关联的文本信息，其中，第一接口包括第一参数，第一参数的参数值为视频和与视频关联的文本信息，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段；通过调用第二接口输出展示目标行为的视频片段，其中，第二接口包括第二参数，第二参数的值为展示目标行为的视频片段。

根据本发明实施例的另一个方面，还提供了一种视频渲染方法。该方法可以包括：在虚拟现实VR设备或增强现实AR设备的呈现画面上展示视频；调取与视频关联的文本信息，其中，文本信息用于描述VR设备或AR设备感测到的目标行为的行为信息；将视频中提取到的视频特征序列和文本信息中提取到的文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；在视频特征序列中确定匹配度超过匹配阈值的至少一个目标视频特征，其中，目标视频特征在视频中对应的视频片段为与目标行为匹配的视频片段；将与目标行为匹配的视频片段进行渲染，得到目标视频片段；驱动VR设备或AR设备展示目标视频片段。

根据本发明实施例的另一个方面，还提供了一种视频检测装置。该装置可以包括：第一获取单元，用于获取视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；第一提取单元，用于从视频中提取视频特征序列，且从文本信息中提取文本特征序列；第一匹配单元，用于将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；第一确定单元，用于基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；第二确定单元，用于将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。

根据本发明实施例的另一个方面，还提供了另一种视频检测装置。该装置可以包括：第一显示单元，用于响应作用于操作界面上的输入指令，在操作界面上显示视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；第二显示单元，用于响应作用于操作界面上的检测指令，在操作界面上显示视频的视频检测结果，其中，视频检测结果用于表示至少一个目标视频特征在视频中对应的视频片段为展示目标行为的视频片段，目标视频特征与文本信息的文本特征序列中对应的文本特征之间的匹配度超过匹配阈值。

根据本发明实施例的另一个方面，还提供了另一种视频检测装置。该装置可以包括：第二获取单元，用于从视频平台获取视频；第三获取单元，用于获取与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；第二提取单元，用于从视频中提取视频特征序列，且从文本信息中提取文本特征序列；第二匹配单元，用于将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；第三确定单元，用于基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；第四确定单元，用于将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段；返回单元，用于将展示目标行为的视频片段返回至视频平台。

根据本发明实施例的另一个方面，还提供了另一种视频检测装置。该装置可以包括：第四获取单元，用于通过调用第一接口获取视频和与视频关联的文本信息，其中，第一接口包括第一参数，第一参数的参数值为视频和与视频关联的文本信息，文本信息用于描述目标行为的行为信息；第三提取单元，用于从视频中提取视频特征序列，且从文本信息中提取文本特征序列；第三匹配单元，用于将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；第五确定单元，用于基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；第六确定单元，用于将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段；输出单元，用于通过调用第二接口输出展示目标行为的视频片段，其中，第二接口包括第二参数，第二参数的值为展示目标行为的视频片段。

根据本发明实施例的另一个方面，还提供了一种视频渲染装置。该装置可以包括：展示单元，用于在虚拟现实VR设备或增强现实AR设备的呈现画面上展示视频；调取单元，用于调取与视频关联的文本信息，其中，文本信息用于描述VR设备或AR设备感测到的目标行为的行为信息；匹配单元，用于将视频中提取到的视频特征序列和文本信息中提取到的文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；第七确定单元，用于在视频特征序列中确定匹配度超过匹配阈值的至少一个目标视频特征，其中，目标视频特征在视频中对应的视频片段为与目标行为匹配的视频片段；渲染单元，用于将与目标行为匹配的视频片段进行渲染，得到目标视频片段；驱动单元，用于驱动VR设备或AR设备展示目标视频片段。

根据本发明实施例的另一方面，还提供了一种视频检测系统，包括：处理器；存储器，与处理器相连接，用于为处理器提供处理以下处理步骤的指令：获取视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任意一项的视频检测方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，在程序运行时执行上述任意一项的视频检测方法。

在本发明实施例中，获取视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。也就是说，本发明通过将提取到的视频特征序列和文本特征序列进行匹配，得到匹配结果，根据匹配结果确定在视频中对应的视频片段，通过无参数的交互方式，降低特征序列的学习难度，从而达到了提高对视频进行检测的效率的技术效果，解决了对视频进行检测的效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种视频检测方法的虚拟现实设备的硬件结构框图；

图2是根据本发明实施例的一种视频检测方法的计算环境的结构框图；

图3是根据本发明实施例的一种视频检测方法的流程图；

图4是根据本发明实施例的另一种视频检测方法的流程图；

图5是根据本发明实施例的另一种视频检测方法的流程图；

图6是根据本发明实施例的另一种视频检测方法的流程图；

图6（a）是根据本发明实施例的一种视频渲染结果的示意图；

图7是根据相关技术中的一种视频检测方法的示意图；

图8是根据相关技术中的另一种视频检测方法的示意图；

图9是根据相关技术中的另一种视频检测方法的示意图；

图10是根据本发明实施例中的一种视频检测方法的示意图；

图11是根据本发明实施例中的一种分组密集匹配的跨模态交互模型的示意图；

图12是根据本发明实施例的一种视频检测方法的服务网格的结构框图；

图13是根据本发明实施例的一种视频检测装置的示意图；

图14是根据本发明实施例的另一种视频检测装置的示意图；

图15是根据本发明实施例的另一种视频检测装置的示意图；

图16是根据本发明实施例的另一种视频检测装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释；

神经网络，具有复杂参数的，进行分布式并行信息处理的算法数学模型，可以用于特征提取，特征计算等；

深度学习，具有高层数的人工神经网络结构，可以用来实现智能图像检测、分类等功能；

视频检索，可以理解为从视频中搜索有用或者需要的资料；

跨模态检索，可以为利用一种模态数据作为查询对象来检索具有相似意思的另一种模态数据内容，用于实现不同模态数据之间的检索，比如，使用图像检索文本，文本检索图像或视频等。

实施例1

根据本发明实施例，还提供了一种视频检测方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种视频检测方法的虚拟现实设备的硬件环境的示意图。如图1所示，虚拟现实设备104与终端106相连接，终端106与服务器102通过网络进行连接，上述虚拟现实设备104并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等，上述终端106并不限定于PC、手机、平板电脑等，服务器102可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网。

可选地，该实施例的虚拟现实设备104包括：存储器、处理器和传输装置。存储器用于存储应用程序，该应用程序可以用于执行：获取视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段，从而解决了对视频进行检测的效率低的技术问题，达到了提高对视频进行检测的效率的目的。

该实施例的终端可以用于执行在虚拟现实VR（Virtual Reality，简称为VR）设备或增强现实AR（Augmented Reality，简称为AR）设备的呈现画面上展示视频；调取与视频关联的文本信息，将视频中提取到的视频特征序列和文本信息中提取到的文本特征序列进行特征匹配，得到匹配结果，在视频特征序列中确定匹配度超过匹配阈值的至少一个目标视频特征，将与目标行为匹配的视频片段进行渲染，得到目标视频片段，并向虚拟现实设备104发送目标视频片段，虚拟现实设备104在接收到目标视频片段之后在目标投放位置显示出来。

可选地，该实施例的虚拟现实设备104带有的眼球追踪的头戴式显示器（HeadMount Display，简称为HMD）与眼球追踪模块与上述实施例中的作用相同，也即，HMD头显中的屏幕，用于显示实时的画面，HMD中的眼球追踪模块，用于获取用户眼球的实时运动轨迹。该实施例的终端通过跟踪系统获取用户在真实三维空间的位置信息与运动信息，并计算出用户头部在虚拟三维空间中的三维坐标，以及用户在虚拟三维空间中的视野朝向。

图1示出的硬件结构框图，不仅可以作为上述AR/VR设备（或移动设备）的示例性框图，还可以作为上述服务器的示例性框图，一种可选实施例中，图2是根据本发明实施例的一种视频检测方法的计算环境的结构框图，图2以框图示出了使用上述图1所示的AR/VR设备（或移动设备）作为计算环境201中计算节点的一种实施例。图2是根据本发明实施例的一种视频检测方法的计算环境的结构框图，如图2所示，计算环境201包括运行在分布式网络上的多个（图中采用210-1，210-2，…,来示出）计算节点（如服务器）。每个计算节点都包含本地处理和内存资源，终端用户202可以在计算环境201中远程运行应用程序或存储数据。应用程序可以作为计算环境301中的多个服务220-1,220-2,220-3和220-4进行提供，分别代表服务“A”，“D”，“E”和“H”。

终端用户202可以通过客户端上的web浏览器或其他软件应用程序提供和访问服务，在一些实施例中，可以将终端用户202的供应和/或请求提供给入口网关230。入口网关230可以包括一个相应的代理来处理针对服务220（计算环境201中提供的一个或多个服务）的供应和/或请求。

服务220是根据计算环境201支持的各种虚拟化技术来提供或部署的。在一些实施例中，可以根据基于虚拟机（VM）的虚拟化、基于容器的虚拟化和/或类似的方式提供服务220。基于虚拟机的虚拟化可以是通过初始化虚拟机来模拟真实的计算机，在不直接接触任何实际硬件资源的情况下执行程序和应用程序。在虚拟机虚拟化机器的同时，根据基于容器的虚拟化，可以启动容器来虚拟化整个操作系统（OS），以便多个工作负载可以在单个操作系统实例上运行。

在基于容器虚拟化的一个实施例中，服务220的若干容器可以被组装成一个POD（例如，Kubernetes POD）。举例来说，如图2所示，服务220-2可以配备一个或多个POD 240-1,240-2，…，240-N（统称为POD 240）。每个POD 240可以包括代理245和一个或多个容器242-1,242-2，…，242-M（统称为容器242）。POD 240中一个或多个容器242处理与服务的一个或多个相应功能相关的请求，代理245通常控制与服务相关的网络功能，如路由、负载均衡等。其他服务220也可以陪陪类似于POD 240的POD。

在操作过程中，执行来自终端用户202的用户请求可能需要调用计算环境201中的一个或多个服务220，执行一个服务220的一个或多个功能坑你需要调用另一个服务220的一个或多个功能。如图2所示，服务“A”220-1从入口网关230接收终端用户202的用户请求，服务“A”220-1可以调用服务“D”220-2，服务“D”220-2可以请求服务“E”220-3执行一个或多个功能。

上述的计算环境可以是云计算环境，资源的分配由云服务提供上管理，允许功能的开发无需考虑实现、调整或扩展服务器。该计算环境允许开发人员在不构建或维护复杂基础设施的情况下执行响应事件的代码。服务可以被分割完成一组可以自动独立伸缩的功能，而不是扩展单个硬件设备来处理潜在的负载。

在上述所示的运行环境下，本发明提供了如图3所示的视频检测方法。需要说明的是，该实施例的视频检测方法可以由图1所示实施例的移动终端执行。

图3是根据本发明实施例一的视频检测方法的流程图，如图3所示，该方法可以包括以下步骤：

步骤S302，获取视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息。

在本发明上述步骤S302提供的技术方案中，获取视频和与视频关联的文本信息，其中，视频可以为通过用于播放视频的平台中获取到视频片段，比如，可以为通过直播、短视频和视频播放软件等平台上获取到的片段，文本信息可以包括因素、字、词、句子、段落、文章等任意长度的文本，可以用于描述目标行为的行为信息，比如，可以为指定视频中目标指定动作行为、视频动作等信息；行为信息可以包括：目标数量、动作等视频中存在的信息。

可选地，视频可以为实时拍摄的视频，也可以为从网络中获取的视频，比如，可以从视频播放平台获取到视频，可以由用户终端提供与视频关联的文本信息，以实现获取与视频关联的文本信息的目的。

需要说明的是，上述视频和与视频关联的文本信息的获取来源仅为举例，基于上述举例进行适当变化也可以适用于本发明，此处并不对视频和与视频关联的文本信息做具体限定，其中，视频也可以为连续帧的图像集合，后续对视频的处理也可以为对图像集合中各帧视频的处理。

步骤S304，从视频中提取视频特征序列，且从文本信息中提取文本特征序列。

在本发明上述步骤S304提供的技术方案中，可以利用神经网络从视频中提取视频特征序列，且从文本信息中提取文本特征序列，其中，视频特征序列包括处理视频中每一帧视频中的信息，可以包括视频中的物品，字符等信息，此处不做具体限定；文本特征序列可以为通过对文本特征进行提取得到的序列。

可选地，视频特征序列可以为每一帧视频图像的视频特征组合而成的序列，可以利用卷积神经网络提取视频每一帧的视频特征组合而成的序列，比如，可以利用卷积神经网络提取视频的每一帧图像的视频特征，基于提取到的每一帧图像的视频特征得到视频特征序列，其中，视频特征可以包括图像中的信息。比如，视频中内容可以为一些人们准备喝水的内容，多帧视频可以拆分为“一些”、“人们”、“准备”、“喝水”，则得到“一些”、“人们”、“准备”、“喝水”的视频特征序列，此处仅作举例，不做具体限定。

可选地，文本特征序列可以为利用卷积神经网络对文本信息进行提取与处理，将提取到的特征进行组合之后得到的特征序列，比如，获取到文本信息之后，利用卷积神经网络提取文本信息中的特征，可以对文本信息通过分词、多音字分析、词性分析等进行特征提取得到文本特征序列，比如，可以对“一些人们准备吃饭”这句话进行分词处理，得到“一些”、“人们”、“准备”、“吃饭”的文本特征序列，此处仅作举例，不做具体限定。

需要说明的是，用于提取卷积神经网络特征的卷积神经网络有多种，根据实际情况进行选择，在此不做具体限定；同时，只要是可以从视频中提取视频特征序列和从文本信息中提取文本特征序列的方式，都应该属于本发明的保护范围内。

步骤S306，将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度。

在本发明上述步骤S306提供的技术方案中，将视频特征序列和文本特征序列进行特征匹配，得到多个匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度，可以用多种形式表示为匹配程度，比如，可以用数字、汉字等形式表示视频特征序列和文本特征序列的匹配程度。

举例而言，视频特征序列可以为对视频中内容的特征的提取组成的，一段视频可有多帧图像，可以提取多帧视频，获取到视频的视频特征序列包括：用于“一些”的特征、用于表示“人们”的特征、用于表示“准备”的特征、用于表示“喝水”的特征、用于表示“许多”的特征、用于表示“人们”的特征、用于表示“准备”的特征、用于表示“喝水”的特征和用于表示“一些”的特征、用于表示“人们”的特征、用于表示“准备”的特征、用于表示“吃饭”的特征；可以从服务器中获取文本信息，提取文本信息的文本特征序列，提取到文本特征序列为用于表示“许多”的特征、用于表示“人们”的特征、用于表示“准备”的特征、用于表示“喝水”的特征，将多个视频特征序列和文本特征序列进行特征匹配，匹配过程可以为同时进行，也可以为先后进行，可以为在线进行的，也可以为离线进行的，可选地，将“一些”、“人们”、“准备”、“喝水”、“许多”、“人们”、“准备”、“喝水”和“一些”、“人们”、“准备”、“吃饭”与“许多”、“人们”、“准备”、“喝水”的特征进行匹配，得到匹配结果。

步骤S308，基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征。

在本发明上述步骤S308提供的技术方案中，根据实际需求设定匹配阈值，在多个匹配结果中，将匹配度超过匹配阈值的视频特征，确定为目标视频特征，由于超过目标阈值的可能为多个视频特征，因而可以得到至少一个目标视频特征，其中，目标阈值可以根据实际需要的精准程度进行设定。

举例而言，设定目标阈值为50%，将获取到的视频特征序列中用于表示“吃水果”、“喝水”和“吃饭””的视频特征和获取到的文本信息的特征“喝水”进行匹配，匹配结果分别为0%、100%、0%，由于只有第二的匹配度超过了50%，则将“喝水”确定为目标视频特征。

步骤S310，将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。

在本发明上述步骤S310提供的技术方案中，确定至少一个目标视频特征，在视频中确定与目标视频特征对应的视频片段，得到展示目标行为的视频片段。

通过本发明上述步骤S302至步骤S310，获取视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。也就是说，本发明实施例通过将提取到的视频特征序列和文本特征序列进行匹配，得到匹配结果，根据匹配结果确定视频在视频中对应的视频片段，通过无参数的交互方式，降低特征序列的学习难度，从而达到了提高对视频进行检测的效率的技术效果，解决了对视频进行检测的效率低的技术问题。

下面对该实施例的上述方法进行进一步地介绍。

作为一种可选的实施方式，步骤S306，将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，包括：对视频特征序列中任意一个视频特征对应的第一语义信息和文本特征序列对应的第二语义信息进行匹配，得到匹配结果。

在该实施例中，通过对视频特征序列中任意一个视频特征对应的第一语义信息和文本特征序列对应的第二语义信息进行匹配，得到匹配结果，其中，语义信息可以为特征序列中的可以表示语义的词语。可选地，将视频特征序列和文本特征序列中每个特征进行匹配，在本实施例中，视频特征序列和文本特征序列可以为由词语组成的特征序列，则将视频特征序列和文本特征序列中的每个词语进行匹配。

作为一种可选的实施方式，对视频特征序列中任意一个视频特征对应的第一语义信息和文本特征序列对应的第二语义信息进行匹配，得到匹配结果，包括：对第一语义信息中的词语和第二语义信息中的词语进行匹配，得到匹配结果。

在该实施例中，将视频特征对应的第一语义信息中的词语和文本特征序列对应的第二语义信息中的词语进行匹配，得到匹配结果。

可选地，将获取视频特征序列和文本特征序列，其中，视频特征序列和文本信息特征序列可以为由词语构成的序列，获取到视频特征序列中至少一个视频特征对应的第二语义信息对应的词语和文本特征序列对应的第二语义信息中的词语进行匹配，得到匹配结果。

作为一种可选的实施方式，从视频中提取视频特征序列，包括：从视频中提取出视频特征张量，其中，视频特征张量用于表示视频特征序列。

在该实施例中，从视频中提取视频特征序列，生成序列化的特征，得到特征张量，其中，视频特征张量可以用于表示视频特征序列，可以为序列化，且存在一定顺序的特征集合，比如，可以为将视频的特征按照时间顺序进行排序，以确定视频特征序列。

在相关技术中，通常是将视频压缩为单一的特征向量，上述方法虽然具有较好的计算效率，但是由于视频具有复杂的时序元素，如果将视频压缩为单一的向量，会影响视频确定的准确性，会存在漏召回和误排序的问题，影响视频的剪辑等任务的处理，本发明实施例通过获取序列化的特征，以解决由于单一特征存在的漏检问题。

作为一种可选的实施方式，从视频中提取出视频特征张量，包括：至少基于视频的语义元素生成视频特征张量，其中，视频的语义元素用于确定视频的视频片段的语义信息。

在该实施例中，基于视频的语义元素生成视频特征张量，其中，视频的语义元素用于确定视频的视频片段的语义信息，语义元素可以为词语长度。

可选地，可以将视频的时序和词语长度保留，生成视频特征张量。

作为一种可选的实施方式，步骤S304，从文本信息中提取出文本特征序列，包括：从文本信息中提取出文本特征张量，其中，文本特征张量用于表示文本特征序列。

在该实施例中，从文本信息中提取文本特征序列，生成序列化的特征，得到文本特征张量，其中，文本特征张量可以用于表示文本特征序列，可以为序列化，存在一定顺序的特征集合，比如，可以为将文本信息的时序保留，确定文本特征序列。

作为一种可选的实施方式，从文本信息中提取出文本特征张量，包括：至少基于文本信息的语义元素生成文本特征张量，其中，文本信息的语义元素用于确定文本信息的语义信息。

在该实施例中，基于文本信息的语义元素生成文本特征张量，其中，文本的语义元素用于确定文本信息中的语义信息，语义元素可以为词语长度。

可选地，可以将文本信息的时序和词语长度保留，基于文本信息的时序和词语长度，生成文本特征张量。

作为一种可选的实施方式，基于视频特征序列确定预测文本信息，其中，预测文本信息用于表示预测的与视频特征序列对应的视频片段中的行为信息相匹配的文本；获取预测文本信息与文本信息之间的差异信息；基于差异信息调整特征提取模型，其中，特征提取模型用于从视频中提取出视频特征序列。

在该实施例中，可以将视频的时序和词语长度保留，确定视频特征序列，基于视频特征序列确定预测文本信息，将预测的文本信息与文本信息之间进行对比，获取预测文本信息与文本信息之间的差异信息，基于差异信息对特征提取模型进行迭代优化，其中，差异信息可以为预测文本域文本信息之间不同的地方，可以为由于特征提取模型的概念感知损失导致的。

可选地，利用预测文本信息与文本信息之间的差异不断的对特征提取模型进行迭代优化，以实现通过特征提取模型可以基于视频特征序列确定准确率高的、与文本信息更吻合的预测文本信息。

可选地，可以通过生成模型用来引导视频网络的学习，以获取视频的特征，并将视频特征生成预测的语义信息进行描述，其中，生成模型可以用于获取视频的特征，在生成模型中可以通过增加对于名词和动词的约束，使得视频特征学习与语法句式无关的表述，以实现准确的得到视频对应的特征。

可选地，在通过文本信息预测文本时，可以确定自适应权重，比如，对于文本信息中的非名词/非动词的权重可以为1，比如，对于文本信息中的名词和动词的权重可以为2，通过增加对于名词和动词的限定，使视频特征学习语法句式无关的表示，从而使生成模型输出的预测文本信息更加稳定。

在本发明实施例中，本发明获取视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。也就是说，本发明通过将提取到的视频特征序列和文本特征序列进行匹配，得到匹配结果，根据匹配结果确定视频在视频中对应的视频片段，通过无参数的交互方式，降低特征序列的学习难度，从而达到了提高对视频进行检测的效率的技术效果，解决了对视频进行检测的效率低的技术问题。

本发明实施例还提供了另一种视频检测方法。

图4是根据本发明实施例的另一种视频检测方法的流程图。如图4所示，该方法可以包括以下步骤。

步骤S402，响应作用于操作界面上的输入指令，在操作界面上显示视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息。

在本发明上述步骤S402提供的技术方案中，在操作界面上输入指令，可以通过点击组件等方式在操作界面上输入指令，此处仅为举例，不对触发方式做具体限定，响应作用于操作界面上的输入指令，在操作界面上显示视频和与视频关联的文本信息，其中，操作界面可以为可移动终端的显示界面，文本信息可以为因素、字、词、句子、段落、文章等任意长度的文本，可以用于描述目标行为的行为信息，比如，可以为指定视频中目标指定动作行为、视频动作等信息，文本信息可以为已知的与视频中某一段内容所展示的信息关联的文本信息。

可选地，可以在操作界面上选择要使用的视频，其中，视频可以为从实时拍摄的视频中选取的视频，也可以为从网络中获取的视频，比如，可以从视频播放平台获取到视频并将视频上传至移动终端、服务器等设备终端进行存储，在操作界面选择终端、服务器等设备终端中的视频并将视频显示在操作界面上。

可选地，可以在操作界面上输入要匹配的文本信息，其中，文本信息可以为用户需要匹配的文本信息，可以在操作界面中有输入文本的空间，将文本信息输入操作界面，以将输入的文本信息显示在操作界面上。

需要说明的是，上述视频和与视频关联的文本信息的获取来源仅为举例，基于上述举例进行适当变化也可以适用于本发明实施例，此处并不对视频和与视频关联的文本信息做具体限定，其中，视频也可以为连续帧的图像集合，后续对视频的处理也可以为对图像集合中各帧视频的处理。

步骤S404，响应作用于操作界面上的检测指令，在操作界面上显示视频的视频检测结果，其中，视频检测结果用于表示至少一个目标视频特征在视频中对应的视频片段为展示目标行为的视频片段，目标视频特征与文本信息的文本特征序列中对应的文本特征之间的匹配度超过匹配阈值。

在本发明上述步骤S404提供的技术方案中，选择操作界面上的检测指令，响应作用于操作界面上的检测指令，对视频和文本信息的匹配度进行检测，其中，视频检测结果用于表示视频和文本信息的匹配程度，可以用于表示至少一个目标视频特征在视频中对应的视频片段为展示目标行为的视频片段，目标视频特征与文本信息的文本特征序列中对应的文本特征之间的匹配度超过匹配阈值。

可选地，在操作界面上存在检测指令，可以通过点击检测指令的控件，对显示的视频和文本信息的匹配度进行检测，当视频中某一段视频特征与文本信息的文本特征序列中对应的文本特征之间的匹配度超过匹配阈值，则将该段视频确定为目标视频，从而得到匹配结果，并显示在操作界面上，比如，可以将匹配度超过匹配阈值的视频显示在操作界面上，并可以在视频旁边的任意位置显示视频特征与文本信息的匹配度。

可选地，由于不超过匹配阈值的条件为一个匹配范围，因而可以在视频中确定至少一段目标视频，可以通过用户查看等方式，在至少一段视频中确定视频中至少一个目标视频特征在视频中对应的视频片段为展示目标行为的视频片段，从而得到需要使用的视频。

需要说明的是，上述视频和与视频关联的文本信息的显示状态仅为举例，基于上述举例进行适当变化也可以适用于本发明实施例，此处并不对视频和与视频关联的文本信息做具体限定。

通过本发明上述步骤S402至步骤S404，响应作用于操作界面上的输入指令，在操作界面上显示视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；响应作用于操作界面上的检测指令，在操作界面上显示视频的视频检测结果，其中，视频检测结果用于表示至少一个目标视频特征在视频中对应的视频片段为展示目标行为的视频片段，目标视频特征与文本信息的文本特征序列中对应的文本特征之间的匹配度超过匹配阈值。也就是说，本发明通过将提取到的视频特征序列和文本特征序列进行匹配，得到匹配结果，根据匹配结果确定视频在视频中对应的视频片段，通过无参数的交互方式，降低特征序列的学习难度，从而达到了提高对视频进行检测的效率的技术效果，解决了对视频进行检测的效率低的技术问题。

本发明实施例还提供了另一种视频检测方法。

图5是根据本发明实施例的另一种视频检测方法的流程图。如图5所示，该方法可以包括以下步骤。

步骤S502，从视频平台获取视频。

在本发明上述步骤S502提供的技术方案中，可以从视频平台获取视频，其中视频平台可以为段视频平台、视频播放平台等，比如，可以为移动终端的可以播放视频的软件等，此处不对视频平台做具体限定，只要是可以播放或存储视频的平台都应该在本实施例的保护范围之内。

步骤S504，获取与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息。

在本发明上述步骤S504提供的技术方案中，获取与视频关联的文本信息，此处不对获取文本信息的方式做具体限定，比如，可以为用户根据实际需求确定的文本信息，其中，文本信息可以为因素、字、词、句子、段落、文章等任意长度的文本，可以用于描述目标行为的行为信息，比如，可以为指定视频中目标指定动作行为、视频动作等信息。

步骤S506，从视频中提取视频特征序列，且从文本信息中提取文本特征序列。

步骤S508，将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度。

步骤S510，基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征。

步骤S512，将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。

步骤S514，将展示目标行为的视频片段返回至视频平台。

在本发明上述步骤S514提供的技术方案中，将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段，将展示目标行为的视频片段返回至视频平台。

在本发明实施例中，从视频平台获取视频；获取与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段；将展示目标行为的视频片段返回至视频平台。也就是说，本发明通过将提取到的视频特征序列和文本特征序列进行匹配，得到匹配结果，根据匹配结果确定视频在视频中对应的视频片段，通过无参数的交互方式，降低特征序列的学习难度，从而达到了提高对视频进行检测的效率的技术效果，解决了对视频进行检测的效率低的技术问题。

本发明实施例还提供了另一种视频检测方法。

图6是根据本发明实施例的另一种视频检测方法的流程图。如图6所示，该方法可以包括以下步骤。

步骤S602，通过调用第一接口获取视频和与视频关联的文本信息，其中，第一接口包括第一参数，第一参数的参数值为视频和与视频关联的文本信息，文本信息用于描述目标行为的行为信息。

在本发明上述步骤S602提供的技术方案中，第一接口可以是服务器与客户端之间进行数据交互的接口。客户端可以将视频和与视频关联的文本信息传入第一接口，作为第一接口的一个第一参数，实现获取视频和与视频关联的文本信息的目的，其中，文本信息用于描述目标行为的行为信息。

步骤S604，从视频中提取视频特征序列，且从文本信息中提取文本特征序列。

步骤S606，将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度。

步骤S608，基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征。

步骤S610，将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。

步骤S612，通过调用第二接口输出展示目标行为的视频片段，其中，第二接口包括第二参数，第二参数的值为展示目标行为的视频片段。

在本发明上述步骤S612提供的技术方案中，第二接口可以是服务器与客户端之间进行数据交互的接口，服务器可以通过调用第二接口，使得终端设备依次输出展示目标行为的视频片段，作为第二接口的一个参数，实现将输出展示目标行为的视频片段下发至客户端的目的。

可选地，视频平台通过调用第二接口输出展示目标行为的视频片段，其中，第二接口用于将视频检测的结果通过互联网部署及接入系统中，从而输出展示目标行为的视频片段。

在本发明实施例中，通过调用第一接口获取视频和与视频关联的文本信息，其中，第一接口包括第一参数，第一参数的参数值为视频和与视频关联的文本信息，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段；通过调用第二接口输出展示目标行为的视频片段，其中，第二接口包括第二参数，第二参数的值为展示目标行为的视频片段。也就是说，本发明通过将提取到的视频特征序列和文本特征序列进行匹配，得到匹配结果，根据匹配结果确定视频在视频中对应的视频片段，通过无参数的交互方式，降低特征序列的学习难度，从而达到了提高对视频进行检测的效率的技术效果，解决了对视频进行检测的效率低的技术问题。

本发明实施例还提供了一种可以应用于VR设备、AR设备等虚拟现实场景下的视频渲染方法。

可选地，在本实施例中，上述视频渲染方法可以应用于由服务器、虚拟现实设备所构成的硬件环境中。在虚拟现实设备或增强现实设备的呈现画面上展示视频，服务器可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网，上述虚拟现实设备并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等。

可选地，虚拟现实设备包括：存储器、处理器和传输装置。存储器用于存储应用程序，该应用程序可以用于执行：在虚拟现实设备或增强现实设备的呈现画面上展示视频；调取与视频关联的文本信息，其中，文本信息用于描述VR设备或AR设备感测到的目标行为的行为信息；将视频中提取到的视频特征序列和文本信息中提取到的文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；在视频特征序列中确定匹配度超过匹配阈值的至少一个目标视频特征，其中，目标视频特征在视频中对应的视频片段为与目标行为匹配的视频片段；将与目标行为匹配的视频片段进行渲染，得到目标视频片段；驱动VR设备或AR设备展示目标视频片段。

需要说明的是，该实施例的上述应用在VR设备或AR设备中的视频检测方法可以包括图3所示实施例的方法，以实现驱动VR设备或AR设备展示目标视频片段的目的。

可选地，该实施例的处理器可以通过传输装置调用上述存储器存储的应用程序以执行上述步骤。传输装置可以通过网络接收服务器发送的媒体文件，也可以用于上述处理器与存储器之间的数据传输。

可选地，在虚拟现实设备中，带有眼球追踪的头戴式显示器，该HMD中的屏幕，用于显示展示的视频画面，HMD中的眼球追踪模块，用于获取用户眼球的实时运动轨迹，跟踪系统，用于追踪用户在真实三维空间的位置信息与运动信息，计算处理单元，用于从跟踪系统中获取用户的实时位置与运动信息，并计算出用户头部在虚拟三维空间中的三维坐标，以及用户在虚拟三维空间中的视野朝向等。

在本发明实施例中，虚拟现实设备可以与终端相连接，终端与服务器通过网络进行连接，上述虚拟现实设备并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等，上述终端并不限定于PC、手机、平板电脑等，服务器可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网。

图6（a）是根据本发明实施例的一种视频渲染结果的示意图，如图6（a）所示，在虚拟现实VR设备或增强现实AR设备的呈现画面上展示视频，调取可以描述VR设备或AR设备感测到的目标行为的行为信息的文本信息，获取展示视频的视频特征序列，如图6（a）所示的视频的特征序列可以用于表示：“戴着、菱形耳环、女人、侧脸”，同时，从文本信息中提取文本特征序列，提取到的文本特征序列可以为“戴着、菱形耳环、女人、侧脸”，将提取到的任意一个视频特征依次与文本特征序列中对应的文本特征进行匹配，得到视频特征序列和文本特征序列的匹配结果，在多个匹配结果中，将匹配度超过匹配阈值的至少一个视频特征，确定为目标视频特征，由于超过目标阈值的可能为多个视频特征，因而可以得到至少一个目标视频特征，其中，目标阈值可以根据实际需要的精准程度进行设定。

可选地，确定至少一个目标视频特征，在视频中确定与目标视频特征对应的视频片段，将与目标行为匹配的视频片段进行渲染，得到展示目标行为的视频片段，驱动VR设备或AR设备展示目标视频片段。

本发明通过将提取到的视频特征序列和文本特征序列进行匹配，得到匹配结果，根据匹配结果确定视频在视频中对应的视频片段，通过无参数的交互方式，降低特征序列的学习难度，从而达到了提高对视频进行检测的效率的技术效果，解决了对视频进行检测的效率低的技术问题。

实施例2

下面对该实施例的上述方法的优选实施方式进行进一步介绍，具体以一种基于密集分组相关的视频检索的方法进行说明。

目前，在直播，短视频，视频播放等视频平台中，通常需要通过设计算法对视频进行检测，以得到视频中指定动作行为发生的片段，该算法通常需要设计复杂模型对视频片段进行精确地检测。

在相关技术中，图7是根据相关技术中的一种视频检测方法的示意图，如图7所示，该方法利用文本编码器701对文本信息进行处理得到文本信息的文本特征序列，利用视频编码器702对视频进行处理得到视频的视频特征序列，采用单特征向量的交互方式（SingleVector Interaction），只通过简单的内积进行特征向量间的交互，该方法存在精度低的问题。

在另一种相关技术中，图8是根据相关技术中的另一种视频检测方法的示意图，如图8所示，该方法利用文本编码器801对文本信息进行处理得到文本信息的文本特征序列，利用视频编码器802对视频进行处理得到视频的视频特征序列，采用特征向量交叉转换的交互方式（Cross transformer Interaction）建模，利用转换模型（transformer）进行交叉编码，融合不同模态的输入，该方法虽然提高了检测的准确率，但是存在计算效率低的问题。

在另一种相关技术中，图9是根据相关技术中的另一种视频检测方法的示意图，如图9所示，该方法利用文本编码器901对文本信息进行处理得到文本信息的文本特征序列，利用视频编码器902对视频进行处理得到视频的视频特征序列，通过分层交互的形式，利用网络的同层的分别进行内积交互，最后进行融合，该方法虽然也提高了检测的准确率，但是也仍存在计算效率低的问题。

为解决上述问题，本实施例提出了一种分组密集匹配的跨模态交互机制（DenseGroup Interaction），这种形式可以作为当前内积表示方法的统一框架，图10是根据本发明实施例中的一种视频检测方法的示意图，如图10所示，利用文本编码器1001对文本信息进行处理得到文本信息的文本特征序列，利用视频编码器1002对视频进行处理得到视频的视频特征序列，通过确定视频特征序列和文本特征序列的匹配度，确定寻找的视频。

图11是根据本发明实施例中的一种分组密集匹配的跨模态交互模型的示意图，如图11所示，在该实施例中，将视频和文本特征的时序和词语长度保留，经过文本编码器1101和视频编码器1102的处理，生成两个特征张量，其中，特征张量用于表示特征序列。

可选地，基于分组密集匹配的跨模态交互，利用生成模型1103生成对视频中文本进行预测得到的预测文本信息，其中，在生成模型生成预测文本信息的过程中会存在概念生成性损失，使预测文本信息与文本信息不完全一致，其中，生成模型用来引导视频网络的学习，可以给定视频特征，生成模型预测视频的文本信息，设计自适应权重，比如，对于非名词/非动词权重为1，对于，名词和动词权重为2，通过增加对于名词和动词的限定，使视频特征学习语法句式无关的表示，从而使生成模型输出的预测文本信息更加稳定。

可选地，将预测文本信息和文本信息进行匹配，得到匹配结果，从而确定目标视频在视频中对应的视频片段，通过无参数的交互方式，降低特征网络的学习难度，从而提高模型的处理效率。

可选地，相关技术中将视频和文本都压缩为单一的特征向量，该方法虽然具有较好的计算效率，但是由于视频具有复杂的语义元素以及时序元素，因而，压缩到单一向量容易影响视频的精确召回，造成严重的漏召回和误排序，影响后续的视频剪辑等任务的进程。

本发明实施例中通过序列化的特征以及密集的交互，将离散表示方法延伸至连续域，解决单一特征表示的漏检问题，从而解决精细片段的漏检问题，提出一种高精度的视频动作定位网络，通过充分利用神经网络进行迭代优化，以提升算法的检测精度，通过分组解耦特征组之间的重叠，显著提升算法的召回。

在本发明实施例中提出一种基于分组密集交互的视频检索方法，该方法通过分组密集交互方式和生成模型的语义引导方法，在降低特征网络的学习耦合的同时，可以增加视频网络对于概念性词语的感知能力，对于短时片段的召回有显著提升，从而达到了提高对视频进行检测的效率的技术效果，解决了对视频进行检测的效率低的技术问题。

另一种可选实施例中，图12以框图示出了使用上述图1所示的AR/VR设备（或移动设备）作为服务网格的一种实施例。图12是根据本发明实施例的一种视频检测方法的服务网格的结构框图，如图12所示，该服务网格1200主要用于方便多个微服务之间进行安全和可靠的通信，微服务是指将应用程序分解为多个较小的服务或者实例，并分布在不同的集群/机器上运行。

如图12所示，微服务可以包括应用服务实例A和应用服务实例B，应用服务实例A和应用服务实例B形成服务网格1200的功能应用层。在一种实施方式中，应用服务实例A以容器/进程1208的形式运行在机器/工作负载容器组1204（POD），应用服务实例B以容器/进程1210的形式运行在机器/工作负载容器组1206（POD）。

在一种实施方式中，应用服务实例A可以是商品查询服务，应用服务实例B可以是商品下单服务。

如图12所示，应用服务实例A和网格代理（sidecar）1203共存于机器工作负载容器组1214，应用服务实例B和网格代理1205共存于机器工作负载容器1214。网格代理1203和网格代理1205形成服务网格1200的数据平面层（data plane）。其中，网格代理1203和网格代理1205分别以容器/进程1204，容器/进程1204可以接收请求1212，以用于进行商品查询服务，网格代理1203和1205的形式在运行，并且网格代理1203和应用服务实例A之间可以双向通信，网格代理1205和应用服务实例B之间可以双向通信。此外，网格代理1203和网格代理1205之间还可以双向通信。

在一种实施方式中，应用服务实例A的所有流量都通过网格代理1203被路由到合适的目的地，应用服务实例B的所有网络流量都通过网格代理1205被路由到合适的目的地。需要说明的是，在此提及的网络流量包括但不限于超文本传输协议（Hyper Text TransferProtocol，简称为HTTP）,表述性状态传递（Representational State Transfer,简称为REST）,高性能、通用的开源框架（gRPC）,开源的内存中的数据结构存储系统（Redis）等形式。

在一种实施方式中，可以通过为服务网格1200中的代理（Envoy）编写自定义的过滤器（Filter）来实现扩展数据平面层的功能，服务网格代理配置可以是为了使服务网格正确地代理服务流量，实现服务互通和服务治理。网格代理1203和网格代理1205可以被配置成执行至少如下功能中的一种：服务发现（service discovery），健康检查（healthchecking），路由（Routing），负载均衡（Load Balancing），认证和授权（authenticationand authorization），以及可观测性（observability）。

如图12所示，该服务网格1200还包括控制平面层。其中，控制平面层可以是由一组在一个专用的命名空间中运行的服务，在机器/工作负载容器组（machine/Pod）1202中由托管控制面组件1201来托管这些服务。如图12所示，托管控制面组件1201与网格代理1203和网格代理1205进行双向通信。托管控制面组件1201被配置成执行一些控制管理的功能。例如，托管控制面组件1201接收网格代理1203和网格代理1205传送的遥测数据，可以进一步对这些遥测数据做聚合。这些服务，托管控制面组件1201还可以提供面向用户的应用程序接口（API），以便较容易地操纵网络行为，以及向网格代理1203和网格代理1205提供配置数据等。需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限定，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的视频检测方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例的方法。

实施例3

根据本发明实施例，还提供了一种用于实施上述图3所示的视频检测方法的视频检测装置。

图13是根据本发明实施例的一种视频检测装置的示意图。如图13所示，该视频检测装置1300可以包括：第一获取单元1302、第一提取单元1304、第一匹配单元1306、第一确定单元1308和第二确定单元1310。

第一获取单元1302，用于获取视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息。

第一提取单元1304，用于从视频中提取视频特征序列，且从文本信息中提取文本特征序列。

第一匹配单元1306，用于将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度。

第一确定单元1308，用于基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征。

第二确定单元1310，用于将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。

此处需要说明的是，上述第一获取单元1302、第一提取单元1304、第一匹配单元1306、第一确定单元1308和第二确定单元1310对应于实施例1中的步骤S302至步骤S310，五个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的AR/VR设备中。

根据本发明实施例，还提供了一种用于实施上述图4所示的视频检测方法的视频检测装置。

图14是根据本发明实施例的另一种视频检测装置的示意图。如图14所示，该视频检测装置1400可以包括：第一显示单元1402和第二显示单元1404。

第一显示单元1402，用于响应作用于操作界面上的输入指令，在操作界面上显示视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息。

第二显示单元1404，用于响应作用于操作界面上的检测指令，在操作界面上显示视频的视频检测结果，其中，视频检测结果用于表示至少一个目标视频特征在视频中对应的视频片段为展示目标行为的视频片段，目标视频特征与文本信息的文本特征序列中对应的文本特征之间的匹配度超过匹配阈值

此处需要说明的是，上述第一显示单元1402和第二显示单元1404对应于实施例1中的步骤S402至步骤S404，两个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的AR/VR设备中。

根据本发明实施例，还提供了一种用于实施上述图5所示的视频检测方法的视频检测装置。

图15是根据本发明实施例的另一种视频检测装置的示意图。如图15所示，该视频检测装置1500可以包括：第二获取单元1502、第三获取单元1504、第二提取单元1506、第二匹配单元1508、第三确定单元1510、第四确定单元1512和返回单元1514。

第二获取单元1502，用于从视频平台获取视频；

第三获取单元1504，获取与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息。

第二提取单元1506，用于从视频中提取视频特征序列，且从文本信息中提取文本特征序列。

第二匹配单元1508，用于将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度。

第三确定单元1510，用于基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征。

第四确定单元1512，用于将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。

返回单元1514，用于将展示目标行为的视频片段返回至视频平台。

此处需要说明的是，上述第二获取单元1502、第三获取单元1504、第二提取单元1506、第二匹配单元1508、第三确定单元1510、第四确定单元1512和返回单元1514对应于实施例1中的步骤S502至步骤S514，七个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的AR/VR设备中。

根据本发明实施例，还提供了一种用于实施上述图6所示的视频检测方法的视频检测装置。

图16是根据本发明实施例的另一种视频检测装置的示意图。如图16所示，该视频检测装置1600可以包括：第四获取单元1602、第三提取单元1604、第三匹配单元1606、第五确定单元1608、第六确定单元1610和输出单元1612。

第四获取单元1602，用于通过调用第一接口获取视频和与视频关联的文本信息，其中，第一接口包括第一参数，第一参数的参数值为视频和与视频关联的文本信息，文本信息用于描述目标行为的行为信息。

第三提取单元1604，用于从视频中提取视频特征序列，且从文本信息中提取文本特征序列。

第三匹配单元1606，用于将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度。

第五确定单元1608，用于基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征。

第六确定单元1610，用于将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。

输出单元1612，用于通过调用第二接口输出展示目标行为的视频片段，其中，第二接口包括第二参数，第二参数的值为展示目标行为的视频片段。

此处需要说明的是，上述第四获取单元1602、第三提取单元1604、第三匹配单元1606、第五确定单元1608、第六确定单元1610和输出单元1612对应于实施例1中的步骤S602至步骤S612，六个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的AR/VR设备中。

根据本发明实施例，还提供了一种用于实施视频渲染方法的视频渲染装置。该视频渲染装置可以包括：展示单元、匹配单元、第七确定单元、渲染单元和驱动单元。

展示单元，用于在虚拟现实VR设备或增强现实AR设备的呈现画面上展示视频；调取单元，用于调取与视频关联的文本信息，其中，文本信息用于描述VR设备或AR设备感测到的目标行为的行为信息。

匹配单元，用于将视频中提取到的视频特征序列和文本信息中提取到的文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度。

第七确定单元，用于在视频特征序列中确定匹配度超过匹配阈值的至少一个目标视频特征，其中，目标视频特征在视频中对应的视频片段与目标行为匹配的视频片段。

渲染单元，用于将与目标行为匹配的视频片段进行渲染，得到目标视频片段。

驱动单元，用于驱动VR设备或AR设备展示目标视频片段。

此处需要说明的是，上述展示单元、匹配单元、第七确定单元、渲染单元和驱动单元对应于实施例1中的视频渲染方法对应的步骤，五个单元与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在实施例一提供的AR/VR设备中。

在该实施例中，通过将提取到的视频特征序列和文本特征序列进行匹配，得到匹配结果，根据匹配结果确定视频在视频中对应的视频片段，通过无参数的交互方式，降低特征序列的学习难度，从而达到了提高对视频进行检测的效率的技术效果，解决了对视频进行检测的效率低的技术问题。

实施例4

本发明的实施例可以提供一种视频检测系统，该视频检测系统可以包括服务器、客户端，该AR/VR设备可以是AR/VR设备群中的任意一个AR/VR设备。可选地，该视频检测设备包括：处理器；存储器，与处理器相连接，用于为处理器提供处理以下处理步骤的指令：获取视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。

在本发明实施例中，通过服务器获取视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。也就是说，本发明通过将提取到的视频特征序列和文本特征序列进行匹配，得到匹配结果，根据匹配结果确定视频在视频中对应的视频片段，通过无参数的交互方式，降低特征序列的学习难度，从而达到了提高对视频进行检测的效率的技术效果，解决了对视频进行检测的效率低的技术问题。

实施例5

本发明的实施例可以提供一种AR/VR设备，该AR/VR设备可以是AR/VR设备群中的任意一个AR/VR设备。可选地，在本实施例中，上述AR/VR设备也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述AR/VR设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述AR/VR设备可以执行应用程序的资源配置方法中以下步骤的程序代码：获取视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。

可选地，上述处理器还可以执行如下步骤的程序代码：对视频特征序列中任意一个视频特征对应的第一语义信息和文本特征序列对应的第二语义信息进行匹配，得到匹配结果。

可选地，上述处理器还可以执行如下步骤的程序代码：对第一语义信息中的词语和第二语义信息中的词语进行匹配，得到匹配结果。

可选地，上述处理器还可以执行如下步骤的程序代码：从视频中提取出视频特征张量，其中，视频特征张量用于表示视频特征序列。

可选地，上述处理器还可以执行如下步骤的程序代码：至少基于视频的语义元素生成视频特征张量，其中，视频的语义元素用于确定视频的视频片段的语义信息。

可选地，上述处理器还可以执行如下步骤的程序代码：从文本信息中提取出文本特征张量，其中，文本特征张量用于表示文本特征序列。

可选地，上述处理器还可以执行如下步骤的程序代码：至少基于文本信息的语义元素生成文本特征张量，其中，文本信息的语义元素用于确定文本信息的语义信息。

可选地，上述处理器还可以执行如下步骤的程序代码：基于视频特征序列确定预测文本信息，其中，预测文本信息用于表示预测的与视频特征序列对应的视频片段中的行为信息相匹配的文本；获取预测文本信息与文本信息之间的差异信息；基于差异信息调整特征提取模型，其中，特征提取模型用于从视频中提取出视频特征序列。

作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：响应作用于操作界面上的输入指令，在操作界面上显示视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；响应作用于操作界面上的检测指令，在操作界面上显示视频的视频检测结果，其中，视频检测结果用于表示至少一个目标视频特征在视频中对应的视频片段为展示目标行为的视频片段，目标视频特征与文本信息的文本特征序列中对应的文本特征之间的匹配度超过匹配阈值。

作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：从视频平台获取视频；获取与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段；将展示目标行为的视频片段返回至视频平台。

作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：通过调用第一接口获取视频和与视频关联的文本信息，其中，第一接口包括第一参数，第一参数的参数值为视频和与视频关联的文本信息，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段；通过调用第二接口输出展示目标行为的视频片段，其中，第二接口包括第二参数，第二参数的值为展示目标行为的视频片段。

作为一种可选的示例，处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：在虚拟现实VR设备或增强现实AR设备的呈现画面上展示视频；调取与视频关联的文本信息，其中，文本信息用于描述VR设备或AR设备感测到的目标行为的行为信息；将视频中提取到的视频特征序列和文本信息中提取到的文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；在视频特征序列中确定匹配度超过匹配阈值的至少一个目标视频特征，其中，目标视频特征在视频中对应的视频片段为与目标行为匹配的视频片段；将与目标行为匹配的视频片段进行渲染，得到目标视频片段；驱动VR设备或AR设备展示目标视频片段。

本发明实施例，提供了一种视频检测方法，通过将提取到的视频特征序列和文本特征序列进行匹配，得到匹配结果，根据匹配结果确定视频在视频中对应的视频片段，通过无参数的交互方式，降低特征序列的学习难度，从而达到了提高对视频进行检测的效率的技术效果，解决了对视频进行检测的效率低的技术问题。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-OnlyMemory，ROM）、随机存取器（RandomAccess Memory，RAM）、磁盘或光盘等。

实施例6

本发明的实施例还提供了一种计算机可读存储介质。可选地，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例一所提供的视频检测方法所执行的程序代码。

可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中AR/VR设备群中的任意一个AR/VR设备中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，上述计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：对视频特征序列中任意一个视频特征对应的第一语义信息和文本特征序列对应的第二语义信息进行匹配，得到匹配结果。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：对第一语义信息中的词语和第二语义信息中的词语进行匹配，得到匹配结果。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：从视频中提取出视频特征张量，其中，视频特征张量用于表示视频特征序列。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：至少基于视频的语义元素生成视频特征张量，其中，视频的语义元素用于确定视频的视频片段的语义信息。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：从文本信息中提取出文本特征张量，其中，文本特征张量用于表示文本特征序列。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：至少基于文本信息的语义元素生成文本特征张量，其中，文本信息的语义元素用于确定文本信息的语义信息。

可选地，上述计算机可读存储介质还可以执行如下步骤的程序代码：基于视频特征序列确定预测文本信息，其中，预测文本信息用于表示预测的与视频特征序列对应的视频片段中的行为信息相匹配的文本；获取预测文本信息与文本信息之间的差异信息；基于差异信息调整特征提取模型，其中，特征提取模型用于从视频中提取出视频特征序列。

作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：响应作用于操作界面上的输入指令，在操作界面上显示视频和与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；响应作用于操作界面上的检测指令，在操作界面上显示视频的视频检测结果，其中，视频检测结果用于表示至少一个目标视频特征在视频中对应的视频片段为展示目标行为的视频片段，目标视频特征与文本信息的文本特征序列中对应的文本特征之间的匹配度超过匹配阈值。

作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：从视频平台获取视频；获取与视频关联的文本信息，其中，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段；将展示目标行为的视频片段返回至视频平台。

作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：通过调用第一接口获取视频和与视频关联的文本信息，其中，第一接口包括第一参数，第一参数的参数值为视频和与视频关联的文本信息，文本信息用于描述目标行为的行为信息；从视频中提取视频特征序列，且从文本信息中提取文本特征序列；将视频特征序列和文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；基于匹配结果，在视频特征序列中确定匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；将至少一个目标视频特征在视频中对应的视频片段，确定为展示目标行为的视频片段；通过调用第二接口输出展示目标行为的视频片段，其中，第二接口包括第二参数，第二参数的值为展示目标行为的视频片段。

作为一种可选的示例，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：在虚拟现实VR设备或增强现实AR设备的呈现画面上展示视频；调取与视频关联的文本信息，其中，文本信息用于描述VR设备或AR设备感测到的目标行为的行为信息；将视频中提取到的视频特征序列和文本信息中提取到的文本特征序列进行特征匹配，得到匹配结果，其中，匹配结果用于表示视频特征序列中任意一个视频特征依次与文本特征序列中对应的文本特征之间的匹配度；在视频特征序列中确定匹配度超过匹配阈值的至少一个目标视频特征，其中，目标视频特征在视频中对应的视频片段为与目标行为匹配的视频片段；将与目标行为匹配的视频片段进行渲染，得到目标视频片段；驱动VR设备或AR设备展示目标视频片段。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本发明所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频检测方法，其特征在于，包括：

获取视频和与所述视频关联的文本信息，其中，所述文本信息用于描述目标行为的行为信息；

从所述视频中提取视频特征序列，且从所述文本信息中提取文本特征序列；

将所述视频特征序列和所述文本特征序列进行特征匹配，得到匹配结果，其中，所述匹配结果用于表示所述视频特征序列中任意一个视频特征依次与所述文本特征序列中对应的文本特征之间的匹配度；

基于所述匹配结果，在所述视频特征序列中确定所述匹配度超过匹配阈值的目标视频特征，得到至少一个目标视频特征；

将所述至少一个目标视频特征在所述视频中对应的视频片段，确定为展示所述目标行为的视频片段；

其中，从所述视频中提取视频特征序列，包括：基于特征提取模型从所述视频中提取出所述视频特征序列，其中，所述特征提取模型为基于预测文本信息与所述文本信息之间的差异信息调整，所述预测文本信息用于表示预测的与所述视频特征序列对应的视频片段中的行为信息相匹配的文本。

2.根据权利要求1所述的方法，其特征在于，将所述视频特征序列和所述文本特征序列进行特征匹配，得到匹配结果，包括：

对所述视频特征序列中任意一个视频特征对应的第一语义信息和所述文本特征序列对应的第二语义信息进行匹配，得到所述匹配结果。

3.根据权利要求2所述的方法，其特征在于，对所述视频特征序列中任意一个视频特征对应的第一语义信息和所述文本特征序列对应的第二语义信息进行匹配，得到所述匹配结果，包括：

对所述第一语义信息中的词语和所述第二语义信息中的词语进行匹配，得到所述匹配结果。

4.根据权利要求1所述的方法，其特征在于，从所述视频中提取视频特征序列，包括：

从所述视频中提取出视频特征张量，其中，所述视频特征张量用于表示所述视频特征序列。

5.根据权利要求4所述的方法，其特征在于，从所述视频中提取出视频特征张量，包括：

至少基于所述视频的语义元素生成所述视频特征张量，其中，所述视频的语义元素用于确定所述视频的视频片段的语义信息。

6.根据权利要求1所述的方法，其特征在于，从所述文本信息中提取出文本特征序列，包括：

从所述文本信息中提取出文本特征张量，其中，所述文本特征张量用于表示所述文本特征序列。

7.根据权利要求6所述的方法，其特征在于，从所述文本信息中提取出文本特征张量，包括：

至少基于所述文本信息的语义元素生成所述文本特征张量，其中，所述文本信息的语义元素用于确定所述文本信息的语义信息。

8.根据权利要求1至7中任意一项所述的方法，其特征在于，所述方法还包括：

基于所述视频特征序列确定所述预测文本信息。

9.一种视频检测方法，其特征在于，包括：

响应作用于操作界面上的输入指令，在所述操作界面上显示视频和与所述视频关联的文本信息，其中，所述文本信息用于描述目标行为的行为信息；

响应作用于所述操作界面上的检测指令，在所述操作界面上显示所述视频的视频检测结果，其中，所述视频检测结果用于表示至少一个目标视频特征在所述视频中对应的视频片段为展示所述目标行为的视频片段，所述目标视频特征的视频特征序列与所述文本信息的文本特征序列中对应的文本特征之间的匹配度超过匹配阈值，所述视频特征序列从所述视频中进行提取得到，所述文本特征序列从所述文本信息中进行提取得到；

10.一种视频检测方法，其特征在于，包括：

从视频平台获取视频；

获取与所述视频关联的文本信息，其中，所述文本信息用于描述目标行为的行为信息；

将展示所述目标行为的视频片段返回至所述视频平台；

11.一种视频检测方法，其特征在于，包括：

通过调用第一接口获取视频和与所述视频关联的文本信息，其中，所述第一接口包括第一参数，所述第一参数的参数值为所述视频和与所述视频关联的文本信息，所述文本信息用于描述目标行为的行为信息；

通过调用第二接口输出展示所述目标行为的视频片段，其中，所述第二接口包括第二参数，所述第二参数的值为展示所述目标行为的视频片段；

12.一种视频渲染方法，其特征在于，包括：

在虚拟现实VR设备或增强现实AR设备的呈现画面上展示视频；

调取与所述视频关联的文本信息，其中，所述文本信息用于描述所述VR设备或所述AR设备感测到的目标行为的行为信息；

将所述视频中提取到的视频特征序列和所述文本信息中提取到的文本特征序列进行特征匹配，得到匹配结果，其中，所述匹配结果用于表示所述视频特征序列中任意一个视频特征依次与所述文本特征序列中对应的文本特征之间的匹配度；

在所述视频特征序列中确定所述匹配度超过匹配阈值的至少一个目标视频特征，其中，所述目标视频特征在所述视频中对应的视频片段为与所述目标行为匹配的视频片段；

将与所述目标行为匹配的视频片段进行渲染，得到目标视频片段；

驱动所述VR设备或所述AR设备展示所述目标视频片段；

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序被处理器运行时控制所述计算机可读存储介质所在设备执行权利要求1至12中任意一项所述的方法。

14.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至12中任意一项所述的方法。