CN113672764A

CN113672764A - 视频数据检索方法、装置、设备、介质及产品

Info

Publication number: CN113672764A
Application number: CN202111033509.2A
Authority: CN
Inventors: 李俊彦
Original assignee: Hisense Electronic Technology Wuhan Co ltd
Current assignee: Hisense Electronic Technology Wuhan Co ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-11-19

Abstract

本发明实施例提供一种视频数据检索方法、装置、设备、介质及产品，该方法通过预先在视频信息数据库中存储包括目标视频片段信息在内的多个视频片段信息，目标视频片段信息具有视频数据标识和图片相关特征。图片相关特征与用户语音信息相匹配。在接收到终端设备发送的用户语音信息后，可以根据用户语音信息以及语义相关信息直接从预设的视频信息数据库中搜索出匹配的目标视频片段信息。然后向终端设备发送目标视频片段信息，以指示终端设备根据该目标视频片段信息播放对应的目标视频片段，实现对视频内容检索的支持，从而解决了目前的检索方式仅支持视频整体检索如检索某一集视频，并不能较好的支持视频内容检索的问题。

Description

视频数据检索方法、装置、设备、介质及产品

技术领域

本发明实施例涉及显示技术领域，尤其涉及一种视频数据检索方法、装置、设备、介质及产品。

背景技术

随着科技的不断发展，终端设备如智能电视、智能屏越来越智能化。用户可以通过语音的方式控制终端设备执行特定的功能，比如用户可以通过语音控制终端设备搜索想观看的视频，并播放该视频。具体的，首先由终端设备识别用户的语音，并将语音信息发送至云端服务器，由云端服务器根据语音信息进行识别和处理，以确定用户需求的视频数据信息，并将该视频数据的信息反馈至终端设备，以使终端设备播放对应的视频。

然而，目前的检索方式仅支持视频整体检索如检索某一集视频，并不能较好的支持视频内容检索。

发明内容

本发明提供一种视频数据检索方法、装置、设备、介质及产品，用以解决目前的检索方式仅支持视频整体检索如检索某一集视频，并不能较好的支持视频内容检索的问题。

第一方面，本发明实施例提供一种视频数据检索方法，包括：

接收终端设备发送的用户语音信息；

确定所述用户语音信息对应的语义相关信息；

根据所述用户语音信息和所述语义相关信息在预设的视频信息数据库中搜索出匹配的目标视频片段信息；所述预设的视频信息数据库存储有包括所述目标视频片段信息在内的多个视频片段信息，各视频片段信息是根据对应的最终视频片段图片的图片相关特征和所属的视频数据标识生成的，所述最终视频片段图片是属于预设情节类型的视频片段图片；

向终端设备发送所述目标视频片段信息，所述目标视频片段信息用于指示终端设备播放对应的目标视频片段。

本申请中一些实施例中，所述语义相关信息包括用户语音信息的分词信息和核心实体信息；

所述确定所述用户语音信息对应的语义相关信息，包括：

对所述用户语音信息进行分词处理，以确定对应的分词信息；

对所述用户语音信息进行命名实体识别，以确定对应的核心实体信息。

本申请中一些实施例中，所述根据所述用户语音信息和所述语义相关信息在预设的视频信息数据库中搜索出匹配的目标视频片段信息，包括：

根据所述分词信息和所述核心实体信息在预设的视频信息数据库中搜索出匹配的至少一个候选视频片段信息；

将所述用户语音信息和各候选视频片段信息进行语义相似度计算，以确定用户语音信息与各候选视频片段信息之间的相似度；

将相似度大于预设相似阈值的候选视频片段信息确定为目标视频片段信息。

本申请中一些实施例中，所述根据所述用户语音信息和所述语义相关信息在预设的视频信息数据库中搜索出匹配的目标视频片段信息之前，还包括：

获取待处理的视频数据和对应的视频数据标识；

按照预设的抽取去重策略对所述目标视频数据进行抽取去重处理，以生成抽取去重后的多个初始视频片段图片；

根据训练至收敛的卷积神经网络和所述初始视频片段图片确定最终视频片段图片；

将所述最终视频片段图片的图片相关特征和所属的视频数据标识确定为视频数据对应的视频片段信息，并将视频数据对应的视频片段信息存储在预设的视频信息数据库中，所述图片相关特征包括图片所属预设情节类别及在视频数据中所属视频时间。

本申请中一些实施例中，所述根据训练至收敛的卷积神经网络和所述初始视频片段图片确定最终视频片段图片，包括：

将所述初始视频片段图片输入训练至收敛的卷积神经网络，以输出初始视频片段图片对应的所属情节类别和所属情节类别对应的概率数值；

判断所述初始视频片段图片所属情节类别对应的概率数值是否大于预设概率阈值；

若确定初始视频片段图片所属情节类别对应的概率数值大于预设概率阈值，则将该初始视频片段图片确定为最终视频片段图片。

本申请中一些实施例中，所述按照预设的抽取去重策略对所述目标视频数据进行抽取去重处理，以生成抽取去重后的多个初始视频片段图片，包括：

按照预设的抽取策略对所述目标视频数据进行抽取，以生成多个抽取后的视频片段图片；

对各抽取后的视频片段图片进行去重处理，以确定去重后的初始视频片段图片。

本申请中一些实施例中，所述对各抽取后的视频片段图片进行去重处理，以确定去重后的初始视频片段图片，包括：

将各所述抽取后的视频片段图片按照所属视频时间进行排序，以生成排序后的视频片段图片；

对排序后的视频片段图片分别进行平均哈希处理，以确定各所述抽取后的视频片段图片对应的平均哈希向量；

根据各所述抽取后的视频片段图片对应的平均哈希向量确定抽取后的视频片段图片之间的汉明距离，并根据所述汉明距离，对各抽取后的视频片段图片进行去重处理，以确定去重后的初始视频片段图片。

本申请中一些实施例中，所述根据各所述抽取后的视频片段图片对应的平均哈希向量确定抽取后的视频片段图片之间的汉明距离，并根据所述汉明距离，对各抽取后的视频片段图片进行去重处理，以确定去重后的初始视频片段图片，包括：

循环执行以下操作，以确定去重后的初始视频片段图片：

确定当前抽取后的视频片段图片对应的平均哈希向量与其他剩余的抽取后的视频片段图片对应的平均哈希向量之间的汉明距离；

删除汉明距离小于预设距离阈值所对应的其他剩余的抽取后的视频片段图片，将下一抽取后的视频片段图片确定为当前抽取后的视频片段图片。

确定排序首位和第二位的视频片段图片的向量之间的汉明距离是否小于预设距离阈值；

若确定排序首位和第二位的视频片段图片的向量之间的汉明距离小于预设距离阈值，则删除第二位视频片段图片；将第三位视频片段图片确定为第二位视频片段图片，并执行所述确定排序首位和第二位的视频片段图片的向量之间的汉明距离是否小于预设距离阈值的步骤；

若确定排序首位和第二位的视频片段图片的向量之间的汉明距离大于或等于预设距离阈值，则将首位视频片段图片和第二位视频片段图片确定为初始视频片段图片；将第二位视频片段图片确定为首位视频片段图片，第三位视频片段图片确定为第二位视频片段图片，并执行所述确定排序首位和第二位的视频片段图片的向量之间的汉明距离是否小于预设距离阈值的步骤。

本发明实施例第二方面提供一种视频数据检索装置，包括：

接收模块，用于接收终端设备发送的用户语音信息；

确定模块，用于确定所述用户语音信息对应的语义相关信息；

搜索模块，用于根据所述用户语音信息和所述语义相关信息在预设的视频信息数据库中搜索出匹配的目标视频片段信息；所述预设的视频信息数据库存储有包括所述目标视频片段信息在内的多个视频片段信息，各视频片段信息是根据对应的最终视频片段图片的图片相关特征和所属的视频数据标识生成的，所述最终视频片段图片是属于预设情节类型的视频片段图片；

发送模块，用于向终端设备发送所述目标视频片段信息，所述目标视频片段信息用于指示终端设备播放对应的目标视频片段。

第三方面，本发明实施例提供一种电子设备，包括：存储器，处理器；

存储器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为由所述处理器执行第一方面任一项所述的视频数据检索方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现第一方面任一项所述的视频数据检索方法。

第五方面，本发明实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面任一项所述的视频数据检索方法。

本发明实施例提供的一种视频数据检索方法、装置、设备、介质及产品，该方法通过预先在视频信息数据库中存储包括目标视频片段信息在内的多个视频片段信息，目标视频片段信息具有视频数据标识和图片相关特征。图片相关特征与用户语音信息相匹配。在接收到终端设备发送的用户语音信息后，可以根据用户语音信息以及语义相关信息直接从预设的视频信息数据库中搜索出匹配的目标视频片段信息。然后向终端设备发送所述目标视频片段信息，以指示终端设备根据该目标视频片段信息播放对应的目标视频片段，实现对视频内容检索的支持，从而解决了目前的检索方式仅支持视频整体检索如检索某一集视频，并不能较好的支持视频内容检索的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据一些实施例的终端设备与服务器之间场景的示意图；

图2中示例性示出了根据一些实施例的视频数据检索方法的流程示意图；

图3中示例性示出了根据一些实施例的视频数据检索方法的流程示意图；

图4中示例性示出了根据一些实施例的构建视频信息数据库的流程示意图；

图5中示例性示出了根据一些实施例的构建视频信息数据库的流程示意图；

图6中示例性示出了根据一些实施例的卷积神经网络的结构示意图；

图7中示例性示出了根据一些实施例的视频数据检索装置的结构示意图；

图8中示例性示出了根据一些实施例的电子设备的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

为了清楚理解本申请的技术方案，首先对现有技术的方案进行详细介绍。目前，多数的终端设备，如智能电视、智能屏都能支持语音查询视频功能，比如用户可以通过语音控制终端设备查询影视剧集视频。当前主要查询方式为用户朝终端设备说出想要观看的视频名称，然后终端设备将包括视频名称的用户语音信息发送至云端服务器，由云端服务器对用户语音信息进行识别，并匹配出对应的视频名称。最终由终端设备接收云端服务器发送的视频名称，从而显示该视频。由于目前的检索方式仅支持视频整体检索如检索某一集视频，并不能较好的支持视频内容检索。

所以针对现有技术中目前的检索方式仅支持视频整体检索如检索某一集视频，并不能较好的支持视频内容检索的问题，发明人在研究中发现，为了解决该问题，如果在用户发出需求后，再对视频内容进行检索，需要的资源较大且容易出现搜索错误的问题。发明人想到可以预先对用户需求的视频数据中的视频内容进行标注，形成包含有各种视频片段相关参数如视频片段所属的预设情节类型、视频数据标识等的视频片段信息，并将视频片段信息存放在视频信息数据库中。由于视频片段信息是预先对视频内容分析得到，精确度较高，且在检索时，可以直接根据用户语音信息从视频信息数据库中检索到对应的视频片段信息，实现对视频内容检索支持。

具体的，在接收到终端设备发送的用户语音信息后，可以根据用户语音信息以及语义相关信息直接从预设的视频信息数据库中搜索出匹配的目标视频片段信息。在搜索到匹配的目标视频片段信息后，向终端设备发送目标视频片段信息，以指示终端设备根据该目标视频片段信息播放对应的目标视频片段，从而实现对视频内容检索的支持，解决了目前的检索方式仅支持视频整体检索如检索某一集视频，并不能较好的支持视频内容检索的问题。

发明人基于上述的创造性发现，提出了本申请的技术方案。

下面对本发明实施例提供的视频数据检索方法的应用场景进行介绍。如图1所示，其中，10为电子设备，20为终端设备。本发明实施例提供的视频数据检索方法对应的应用场景的网络架构中包括：电子设备10和终端设备20。电子设备10可以是云端服务器。

本申请中电子设备10与终端设备20通过多种通信方式进行数据通信。可允许终端设备20通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。电子设备10可以向终端设备20提供各种内容和互动。示例性的，终端设备20与电子设备10可以通过发送和接收信息，以及接收软件程序更新。电子设备10可以是一个服务器集群，也可以是多个服务器集群，可以包括一类或多类服务器。

终端设备20设置有声音采集器，如麦克风，可以用于接收用户的声音。示例性的，包括用户发出控制终端设备20的控制指令的语音信号，或采集环境声音，用于识别环境场景类型，使得终端设备20可以自适应环境噪声。同时，终端设备20可以较精确的识别用户语音，并转成语音信息。

电子设备10中存储有包括目标视频片段信息在内的多个视频片段信息，各视频片段信息是根据对应的最终视频片段图片的图片相关特征和所属的视频数据标识生成的，最终视频片段图片是属于预设情节类型的视频片段图片。同时，也可以由其他的电子设备存储，本实施例仅以电子设备10中存储频片段信息进行举例说明。当终端设备20识别到用户发出的用户语音后，将其转换成用户语音信息，并发送至电子设备10。电子设备10确定用户语音信息对应的语义相关信息，并根据用户语音信息和语义相关信息在预设的视频信息数据库中搜索出匹配的目标视频片段信息。然后，电子设备10将搜索出的目标视频片段信息反馈回终端设备20，以指示终端设备20播放对应的目标视频片段。终端设备20在接收到目标视频片段信息后可以根据目标视频片段信息查找到对应的视频，并确定播放时间，从而播放出用户需求的视频片段。

下面结合说明书附图对本发明实施例进行介绍。

图2中示例性示出了根据一些实施例的视频数据检索方法的流程示意图，如图2所示，本实施例中，本发明实施例的执行主体为视频数据检索装置，该视频数据检索装置可以集成在电子设备中，电子设备可以是服务器。则本实施例提供的视频数据检索方法包括以下几个步骤：

步骤S101，接收终端设备发送的用户语音信息。

在一些实施例中，用户在需要搜索视频或播放希望观看的视频时，可以通过语音的方式，对终端设备说出想观看的视频。示例性的，用户可以说出请播放某电影，某是电影的名称，用户也可以说请播放某电影中跳舞情节等。此时，终端设备在识别到用户的语音后会将语音转换为用户语音信息，并发送至视频数据检索装置。

步骤S102，确定用户语音信息对应的语义相关信息。

在一些实施例中，由于语音的复杂性，用户语音信息一般包含多种词语，比如动词包括请播放、观看、切换等，名词包括电影名称、情节名称等。因而，需要对用户语音信息进行识别，从而确定其对应的语义相关信息。

语义相关信息可以包括用户语音信息对应的分词信息、核心实体信息等，核心实体信息是指用户发出的语音中核心部分的实体词信息。

示例性的，用户说出请放某影片跳舞的剧情，则某影片跳舞是核心实体信息，分词信息为请放、某影片、跳舞、的、剧情。

步骤S103，根据用户语音信息和语义相关信息在预设的视频信息数据库中搜索出匹配的目标视频片段信息。其中，预设的视频信息数据库存储有包括目标视频片段信息在内的多个视频片段信息，各视频片段信息是根据对应的最终视频片段图片的图片相关特征和所属的视频数据标识生成的，最终视频片段图片是属于预设情节类型的视频片段图片。

在一些实施例中，目标视频片段信息是预先通过离线手段，将视频数据的帧图片进行一定规则的抽取并去重，然后，判断生成的图片中是否符合预设情节类型，若符合预设情节类型，则将其确定为最终视频片段图片。最终视频片段图片的图片相关特征是指最终视频片段图片所属的预设情节类型，以及在视频数据中所在的时间。

由于各视频片段信息包含最终视频片段图片的图片相关特征和所属的视频数据标识，用户在发出检索或播放需求时，通过确定出的语义相关信息，可以与图片相关特征和所属的视频数据标识匹配。

示例性的，用户说出请放某影片打斗的剧情，某影片与视频数据标识匹配，打斗与图片相关特征相匹配。从而在用户发出检索或播放需求时，从预设的视频信息数据库中快速的搜索出匹配的目标视频片段信息，提高检索的效率。

步骤S104，向终端设备发送目标视频片段信息，目标视频片段信息用于指示终端设备播放对应的目标视频片段。

在一些实施例中，终端设备在接收到目标视频片段信息后，对目标视频片段信息进行解析可以获得需要播放的视频数据标识和播放视频数据内容的时间。

本发明实施例提供的一种视频数据检索方法，通过预先在视频信息数据库中存储包括目标视频片段信息在内的多个视频片段信息，目标视频片段信息具有视频数据标识和图片相关特征。图片相关特征与用户语音信息相匹配。在接收到终端设备发送的用户语音信息后，可以根据用户语音信息以及语义相关信息直接从预设的视频信息数据库中搜索出匹配的目标视频片段信息。然后向终端设备发送目标视频片段信息，以指示终端设备根据该目标视频片段信息播放对应的目标视频片段，实现对视频内容检索的支持，从而解决了目前的检索方式仅支持视频整体检索如检索某一集视频，并不能较好的支持视频内容检索的问题。

图3中示例性示出了根据一些实施例的视频数据检索方法的流程示意图，如图3所示，本实施例提供的视频数据检索方法，是在本发明上一实施例提供的视频数据检索方法的基础上，对各个步骤进行了进一步的细化。则本实施例提供的视频数据检索方法包括以下步骤。

步骤S201，接收终端设备发送的用户语音信息。

在一些实施例中，步骤201的实现方式与本发明上一实施例中的步骤101的实现方式类似，在此不再一一赘述。

步骤S202，对用户语音信息进行分词处理，以确定对应的分词信息。

在一些实施例中，词是最小的能够独立活动的有意义的语言成分，分词是自然语言处理第一步也是核心的技术。区别于英文每个词通过空格或者标点符号分割开，中文中很难对词的边界进行界定。目前主流的分词为基于规则，统计，理解三大类。本实施例中采用基于规则的分词，以词库为依据，使用正向最大匹配算法，进行分词。该分词方式，分词效率较高。

示例性的，用户说出请放某影片吃饭的剧情，则分词信息为请放、某影片、吃饭、的、剧情。

步骤S203，对用户语音信息进行命名实体识别，以确定对应的核心实体信息。

在一些实施例中，命名实体识别(英文全称为：Named Entity Recognition，英文简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。NER是深度查询理解(英文全称为：Deep Query Understanding，英文简称为：DQU)的底层基础信号，主要应用于搜索召回、用户意图识别、实体链接等环节。通过命名实体识别技术可以精确的确定用户语音信息中的核心实体信息，比如人名、视频名称、地名、专有名词等。

步骤S204，根据分词信息和核心实体信息在预设的视频信息数据库中搜索出匹配的至少一个候选视频片段信息。

在一些实施例中，检索技术主要使用目前成熟的倒排索引技术和语义检索技术。倒排索引(Inverted Index)也叫反向索引，有反向索引必有正向索引。通俗地来讲，正向索引是通过关键词找需要索引的数据，反向索引则是通过需要索引的数据找关键词。一般情况下，每个关键词后会存放包含该词的文档编号，利用这个数据结构能快速的找到包含某一个词的所有文档。最后再把所有的文档进行求交集，就得到了我们所需要的文档结合。

在一些实施例中，由于视频信息数据库中存储的视频片段信息较多，包含相同分词信息和核心实体信息的特征的视频片段信息至少是1个，常有的情况是2个以上。因而，需要确定出匹配的至少一个候选视频片段信息，然后对候选视频片段信息作进一步的判断。

步骤S205，将用户语音信息和各候选视频片段信息进行语义相似度计算，以确定用户语音信息与各候选视频片段信息之间的相似度。

在一些实施例中，候选视频片段信息包含图片相关特征，图片相关特征包含预设情节类型，而用户语音信息中包含的情节类型可能由于语言的复杂程度，造成与候选视频片段信息中的预设情节类型之间的偏差。示例性的，候选视频片段信息包含的拥抱的情节类型，用户可能会说请播放相拥的剧情，相拥与拥抱语义相似，但不是同一个词语。如果不进行语义相似度计算，可能会造成搜索不到用户需求的视频数据的问题。

通过，将用户语音信息和各候选视频片段信息进行语义相似度计算可以进一步确定用户语音信息与各候选视频片段信息之间的匹配程度，降低搜索不到用户需求的视频数据的风险。

示例性的，可以采用基于注意力机制的交互式匹配模型(英文简称为：ESIM，英文全称为：Enhanced LSTM for Natural Language Inference)，来计算相似度，提高计算相似度的精确性和效率。

步骤S206，将相似度大于预设相似阈值的候选视频片段信息确定为目标视频片段信息。

在一些实施例中，相似度大于预设相似阈值则表示候选视频片段信息与用户语音信息匹配度很高，可以将其确定为目标视频片段信息。

步骤S207，向终端设备发送目标视频片段信息，目标视频片段信息用于指示终端设备播放对应的目标视频片段。

在一些实施例中，步骤207的实现方式与本发明上一实施例中的步骤104的实现方式类似，在此不再一一赘述。

为了更好的说明本发明实施例的视频数据检索方法，下面将结合图4和图5详细描述构建视频信息数据库的流程。

如图4和图5所示，具体流程包括如下步骤：

步骤S301，获取待处理的视频数据和对应的视频数据标识。

在一些实施例中，可以针对每个待处理的视频数据进行排序，从而优先处理排序在首位的视频数据。

示例性的，比如可以将当前热门影视、热门短视频等等视频数据，并按照预设的视频存储格式进行存储，具体视频存储格式为视频数据标识.文件格式，视频数据标识可以为视频名称+集数。存储的视频数据作为待处理的视频数据按照排序的顺序进行处理。

步骤S302，按照预设的抽取去重策略对目标视频数据进行抽取去重处理，以生成抽取去重后的多个初始视频片段图片。

在一些实施例中，抽取去重策略包括抽取和去重两个步骤，这两个步骤是确定视频片段信息中的预设情节类型的基础。

这两个步骤中，抽取步骤可以按照预设的抽取策略对目标视频数据进行抽取，以生成多个抽取后的视频片段图片。去重步骤可以对各抽取后的视频片段图片进行去重处理，以确定去重后的初始视频片段图片。

抽取策略可以是对视频数据按照等时间间隔抽取，也可以去掉视频数据的片头片段和片尾片段，然后再按照等时间间隔抽取，比如某视频数据总时长为45分钟，正片开始时间为2分30秒和正片结束时间43分21秒，则我们只裁剪2分30秒至43分21秒之间的信息。

去重的方式有多种，本实施例中，采用了平均哈希处理方式进行去重。去重的方案具体为：

将各抽取后的视频片段图片按照所属视频时间进行排序，以生成排序后的视频片段图片。

对排序后的视频片段图片分别进行平均哈希处理，以确定各抽取后的视频片段图片对应的平均哈希向量。

根据各抽取后的视频片段图片对应的平均哈希向量确定抽取后的视频片段图片之间的汉明距离，并根据汉明距离，对各抽取后的视频片段图片进行去重处理，以确定去重后的初始视频片段图片。

在一些实施例中，平均哈希处理主要过程为：

缩小尺寸：这样做会去除图片的细节，只保留结构、明暗等基本信息，目的是统一图片大小，保证后续图片都有相同长度的哈希值，方便距离计算。一般是基本都将尺寸缩小为8*8，64个像素点。

灰度化处理：将图片全部转换为统一的灰度图。

计算像素均值：计算像素的灰度平均值。

哈希值计算：将每个像素的灰度，与平均值进行比较。大于或等于平均值，记为1，小于平均值，记为0，由此生成二进制数组的平均哈希向量。

汉明距离是指相同长度的二进制数组的两个平均哈希向量之间，若需要使两个变成相同的平均哈希向量，需要替换其中的多少个二进制字符。比如平均哈希向量a为000111，而平均哈希向量b为000100，则两者之间的汉明距离为2。

通过平均哈希处理和汉明距离计算可以提高相似度的计算效率，同时，占用的内存较小。

在一些实施例中，抽取后的视频片段图片之间的汉明距离的计算方式有多种，本实施例示例性的提供两种计算方式。

其一，循环执行以下操作，以确定去重后的初始视频片段图片：

确定当前抽取后的视频片段图片对应的平均哈希向量与其他剩余的抽取后的视频片段图片对应的平均哈希向量之间的汉明距离。

该计算方式针对每个抽取后的视频片段图片都与其他剩余的抽取后的视频片段图片计算汉明距离。比如抽取后的视频片段图片有a、b、c，则可以以a、b或c为当前抽取后的视频片段图片。假设a为当前抽取后的视频片段图片，则先计算ab汉明距离、ac汉明距离，若ab之间汉明距离小于预设距离阈值，则删除b图片。以b或c为当前抽取后的视频片段图片的计算方式同理，在此不再赘述。

其二，确定排序首位和第二位的视频片段图片的向量之间的汉明距离是否小于预设距离阈值。

若确定排序首位和第二位的视频片段图片的向量之间的汉明距离小于预设距离阈值，则删除第二位视频片段图片。将第三位视频片段图片确定为第二位视频片段图片，并执行确定排序首位和第二位的视频片段图片的向量之间的汉明距离是否小于预设距离阈值的步骤。

若确定排序首位和第二位的视频片段图片的向量之间的汉明距离大于或等于预设距离阈值，则将首位视频片段图片和第二位视频片段图片确定为初始视频片段图片。将第二位视频片段图片确定为首位视频片段图片，第三位视频片段图片确定为第二位视频片段图片，并执行确定排序首位和第二位的视频片段图片的向量之间的汉明距离是否小于预设距离阈值的步骤。

该计算方式是从排序首位的视频片段图片开始计算，由于当前影视视频中部分镜头持续时间较长，保留排在前面的图片即可，这种计算方式更为贴近实际的应用场景。

示例性的，抽取后的视频片段图片有a、b、c，则先计算ab的汉明距离，若ab之间汉明距离小于预设距离阈值，则删除b图片，再计算ac的汉明距离。若ab之间汉明距离大于或等于预设距离阈值，则保留a和b抽取后的视频片段图片，并计算bc的汉明距离。

步骤S303，根据训练至收敛的卷积神经网络和初始视频片段图片确定最终视频片段图片。

卷积神经网络如图6所示，卷积神经网络(英文全称为Convolutional NeuralNetworks，英文简称为：CNN)包括多个层。

a)输入层，输入图片数据，其在计算机内部一般存储为三维数据，即图中input层。

b)卷积层，其主要功能是对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量，类似于一个前馈神经网络的神经元。卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连，区域的大小取决于卷积核的大小，在文献中被称为“感受野(receptive field)”，其含义可类比视觉皮层细胞的感受野。卷积核在工作时，会有规律地扫过输入特征，在感受野内对输入特征做矩阵元素乘法求和并叠加偏差量。即图中的conv层。

c)池化层，在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数，其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。即图中的S层。

d)全连接层，卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层。全连接层位于卷积神经网络隐含层的最后部分，并只向其它全连接层传递信号。特征图在全连接层中会失去空间拓扑结构，被展开为向量并通过激励函数。即图中的full层。

e)输出层，输出层的上游通常是全连接层，这一步主要是输出需要预测的分类结果。即图中的output层。

步骤S303具体可以分为四个步骤，即步骤S3031-步骤S3034。

步骤S3031，将初始视频片段图片输入训练至收敛的卷积神经网络，以输出初始视频片段图片对应的所属情节类别和所属情节类别对应的概率数值。

步骤S3032，判断初始视频片段图片所属情节类别对应的概率数值是否大于预设概率阈值。若是，则执行步骤S3033，若否，则执行步骤S3034。

步骤S3033，将该初始视频片段图片确定为最终视频片段图片。

步骤S3034，删除该初始视频片段图片。

在一些实施例中，卷积神经网络被训练成只会判断初始视频片段图片是否具有预设的情节类别，若具有预设的情节类别，则输出初始视频片段图片对应的所属情节类别和所属情节类别对应的概率数值。预设的情节类别，可以根据实际需求进行设置，比如针对热门的影视剧视频，可以针对高潮的情节设置特定情节类别。

若初始视频片段图片所属情节类别对应的概率数值是否大于预设概率阈值则代表该初始视频片段图片是处于剧情情节时刻的图片。例如我们设定分类阈值为0.85，则若输出某初始视频片段图片为视频标识_亲吻#0.934#SEP#风景#0.832##SEP##赛车#0.32.jpg会被处理为视频标识__亲吻#0.934.jpg。

步骤S304，将最终视频片段图片的图片相关特征和所属的视频数据标识确定为视频数据对应的视频片段信息，并将视频数据对应的视频片段信息存储在预设的视频信息数据库中，图片相关特征包括图片所属预设情节类别及在视频数据中所属视频时间。

图7中示例性示出了根据一些实施例的视频数据检索装置的结构示意图，如图7所示，本实施例中，该视频数据检索装置400包括：

接收模块401，用于接收终端设备发送的用户语音信息。

确定模块402，用于确定用户语音信息对应的语义相关信息。

搜索模块403，用于根据用户语音信息和语义相关信息在预设的视频信息数据库中搜索出匹配的目标视频片段信息。预设的视频信息数据库存储有包括目标视频片段信息在内的多个视频片段信息，各视频片段信息是根据对应的最终视频片段图片的图片相关特征和所属的视频数据标识生成的，最终视频片段图片是属于预设情节类型的视频片段图片。

发送模块404，用于向终端设备发送目标视频片段信息，目标视频片段信息用于指示终端设备播放对应的目标视频片段。

本实施例提供的视频数据检索装置可以执行图2所示方法实施例的技术方案，其实现原理和技术效果与图2所示方法实施例类似，在此不再一一赘述。

同时，本发明提供的视频数据检索装置在上一实施例提供的视频数据检索装置的基础上，对视频数据检索装置400进行了进一步的细化。

在一些实施例中，语义相关信息包括用户语音信息的分词信息和核心实体信息。

确定模块402具体用于：

对用户语音信息进行分词处理，以确定对应的分词信息。

对用户语音信息进行命名实体识别，以确定对应的核心实体信息。

在一些实施例中，搜索模块403具体用于：

根据分词信息和核心实体信息在预设的视频信息数据库中搜索出匹配的至少一个候选视频片段信息。

将用户语音信息和各候选视频片段信息进行语义相似度计算，以确定用户语音信息与各候选视频片段信息之间的相似度。

在一些实施例中，视频数据检索装置还包括：

数据库构建模块，用于获取待处理的视频数据和对应的视频数据标识。按照预设的抽取去重策略对目标视频数据进行抽取去重处理，以生成抽取去重后的多个初始视频片段图片。根据训练至收敛的卷积神经网络和初始视频片段图片确定最终视频片段图片。将最终视频片段图片的图片相关特征和所属的视频数据标识确定为视频数据对应的视频片段信息，并将视频数据对应的视频片段信息存储在预设的视频信息数据库中，图片相关特征包括图片所属预设情节类别及在视频数据中所属视频时间。

在一些实施例中，数据库构建模块在根据训练至收敛的卷积神经网络和初始视频片段图片确定最终视频片段图片时，具体用于：

将初始视频片段图片输入训练至收敛的卷积神经网络，以输出初始视频片段图片对应的所属情节类别和所属情节类别对应的概率数值。

判断初始视频片段图片所属情节类别对应的概率数值是否大于预设概率阈值。

在一些实施例中，数据库构建模块在按照预设的抽取去重策略对目标视频数据进行抽取去重处理，以生成抽取去重后的多个初始视频片段图片时，具体用于：

按照预设的抽取策略对目标视频数据进行抽取，以生成多个抽取后的视频片段图片。

在一些实施例中，数据库构建模块在对各抽取后的视频片段图片进行去重处理，以确定去重后的初始视频片段图片时，具体用于：

在一些实施例中，数据库构建模块在根据各抽取后的视频片段图片对应的平均哈希向量确定抽取后的视频片段图片之间的汉明距离，并根据汉明距离，对各抽取后的视频片段图片进行去重处理，以确定去重后的初始视频片段图片时，具体用于：

循环执行以下操作，以确定去重后的初始视频片段图片：

确定排序首位和第二位的视频片段图片的向量之间的汉明距离是否小于预设距离阈值。

本实施例提供的视频数据检索装置可以执行图2-图6所示方法实施例的技术方案，其实现原理和技术效果与图2-图6所示方法实施例类似，在此不再一一赘述。

根据本发明的实施例，本发明还提供了一种电子设备、一种计算机可读存储介质和一种计算机程序产品。

如图8所示，图8中示例性示出了根据一些实施例的电子设备的结构示意图。电子设备旨在各种形式适用于服务器使用的数字计算机等设备，诸如，膝上型计算机、个人数字助理、和其它适合的计算机。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图8所示，该电子设备包括：处理器501、存储器502。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理。

存储器502即为本发明所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本发明所提供的视频数据检索方法。本发明的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本发明所提供的视频数据检索方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本发明实施例中的视频数据检索方法对应的程序指令/模块(例如，附图7所示的接收模块401、确定模块402、搜索模块403和发送模块404)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的视频数据检索方法。

同时，本实施例还提供一种计算机产品，当该计算机产品中的指令由电子设备的处理器执行时，使得电子设备能够执行上述各实施例的视频数据检索方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制。尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种视频数据检索方法，其特征在于，包括：

接收终端设备发送的用户语音信息；

确定所述用户语音信息对应的语义相关信息；

2.根据权利要求1所述的方法，其特征在于，所述语义相关信息包括用户语音信息的分词信息和核心实体信息；

所述确定所述用户语音信息对应的语义相关信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述用户语音信息和所述语义相关信息在预设的视频信息数据库中搜索出匹配的目标视频片段信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述用户语音信息和所述语义相关信息在预设的视频信息数据库中搜索出匹配的目标视频片段信息之前，还包括：

获取待处理的视频数据和对应的视频数据标识；

5.根据权利要求4所述的方法，其特征在于，所述根据训练至收敛的卷积神经网络和所述初始视频片段图片确定最终视频片段图片，包括：

6.根据权利要求4所述的方法，其特征在于，所述按照预设的抽取去重策略对所述目标视频数据进行抽取去重处理，以生成抽取去重后的多个初始视频片段图片，包括：

7.根据权利要求6所述的方法，其特征在于，所述对各抽取后的视频片段图片进行去重处理，以确定去重后的初始视频片段图片，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据各所述抽取后的视频片段图片对应的平均哈希向量确定抽取后的视频片段图片之间的汉明距离，并根据所述汉明距离，对各抽取后的视频片段图片进行去重处理，以确定去重后的初始视频片段图片，包括：

循环执行以下操作，以确定去重后的初始视频片段图片：

9.根据权利要求7所述的方法，其特征在于，所述根据各所述抽取后的视频片段图片对应的平均哈希向量确定抽取后的视频片段图片之间的汉明距离，并根据所述汉明距离，对各抽取后的视频片段图片进行去重处理，以确定去重后的初始视频片段图片，包括：

10.一种视频数据检索装置，其特征在于，包括：

接收模块，用于接收终端设备发送的用户语音信息；

11.一种电子设备，其特征在于，包括：存储器，处理器；

存储器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为由所述处理器执行如权利要求1至9任一项所述的视频数据检索方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至9任一项所述的视频数据检索方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至9任一项所述的视频数据检索方法。