CN107071542A

CN107071542A - 视频片段播放方法及装置

Info

Publication number: CN107071542A
Application number: CN201710254362.7A
Authority: CN
Inventors: 王飞; 李静; 程高飞; 侯在鹏; 董文林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2017-04-18
Filing date: 2017-04-18
Publication date: 2017-08-18
Anticipated expiration: 2037-04-18
Also published as: CN107071542B

Abstract

本发明提出一种视频片段播放方法及装置，其中，方法包括：获取用户发送的语音搜索信息，解析语音搜索信息获取对应的文本信息；应用预先训练的深度神经网络模型从文本信息中提取搜索领域、搜索意图和搜索意图满足条件；若根据搜索意图获知用户查询视频片段，则查询预设的与搜索领域对应的标签库，获取与搜索意图满足条件匹配成功的视频标签；根据预存的与视频标签对应的视频播放参数，向用户播放与视频标签对应的目标视频片段。由此，通过语音搜索能够准确跳转到目标视频片段，操作简单便捷，节省时间，以及用户可以快速了解整个视频的情节发展，方便用户使用，满足用户需求。

Description

视频片段播放方法及装置

技术领域

本发明涉及视频播放技术领域，尤其涉及一种视频片段播放方法及装置。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中，人工智能最重要的方面就是语音识别技术。

目前，用户通过电视观看视频时根据实际应用需求，需要跳转到特定的情节或者镜头，一般可以通过遥控器的快进/快退按键，反复定位，直到电视上出现目标片段；还可以记住目标片段的时间，通过时间定位到目标片段。

然而，上述方式，在用户不知道目标片段的具体时间时，需要反复跳转才能锁定目标片段，操作繁琐，耗时比较长；另外，对于用户没有观看过的视频，只能从头到尾全部看完才能了解到整体情节发展，不方便用户使用。

发明内容

本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种视频片段播放方法，该方法通过语音搜索能够准确跳转到目标视频片段，操作简单便捷，节省时间，以及用户可以快速了解整个视频的情节发展，方便用户使用，满足用户需求。

本发明的第二个目的在于提出一种视频片段播放装置。

本发明的第三个目的在于提出另一种视频片段播放装置。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种视频片段播放方法，包括：

获取用户发送的语音搜索信息，解析所述语音搜索信息获取对应的文本信息；

应用预先训练的深度神经网络模型从所述文本信息中提取搜索领域、搜索意图和搜索意图满足条件；

若根据所述搜索意图获知所述用户查询视频片段，则查询预设的与所述搜索领域对应的标签库，获取与所述搜索意图满足条件匹配成功的视频标签；

根据预存的与所述视频标签对应的视频播放参数，向所述用户播放与所述视频标签对应的目标视频片段。

本发明实施例的视频片段播放方法，通过用户发送的语音搜索信息获取对应的文本信息，接着应用预先训练的深度神经网络模型从文本信息中提取搜索领域、搜索意图和搜索意图满足条件，并在根据搜索意图获知用户查询视频片段时查询预设的与搜索领域对应的标签库，获取与搜索意图满足条件匹配成功的视频标签，最后根据预存的与视频标签对应的视频播放参数，向用户播放与视频标签对应的目标视频片段。由此，通过语音搜索能够准确跳转到目标视频片段，操作简单便捷，节省时间，以及用户可以快速了解整个视频的情节发展，方便用户使用，满足用户需求。

为达上述目的，本发明第二方面实施例提出了一种视频片段播放装置，包括：

第一获取模块，用于获取用户发送的语音搜索信息；

第一解析模块，用于解析所述语音搜索信息获取对应的文本信息；

提取模块，用于应用预先训练的深度神经网络模型从所述文本信息中提取搜索领域、搜索意图和搜索意图满足条件；

处理模块，用于在根据所述搜索意图获知所述用户查询视频片段时，查询预设的与所述搜索领域对应的标签库，获取与所述搜索意图满足条件匹配成功的视频标签；

播放模块，用于根据预存的与所述视频标签对应的视频播放参数，向所述用户播放与所述视频标签对应的目标视频片段。

本发明实施例的视频片段播放装置，通过用户发送的语音搜索信息获取对应的文本信息，接着应用预先训练的深度神经网络模型从文本信息中提取搜索领域、搜索意图和搜索意图满足条件，并在根据搜索意图获知用户查询视频片段时查询预设的与搜索领域对应的标签库，获取与搜索意图满足条件匹配成功的视频标签，最后根据预存的与视频标签对应的视频播放参数，向用户播放与视频标签对应的目标视频片段。由此，通过语音搜索能够准确跳转到目标视频片段，操作简单便捷，节省时间，以及用户可以快速了解整个视频的情节发展，方便用户使用，满足用户需求。

为达上述目的，本发明第三方面实施例提出了另一种视频片段播放装置，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为：获取用户发送的语音搜索信息，解析所述语音搜索信息获取对应的文本信息；应用预先训练的深度神经网络模型从所述文本信息中提取搜索领域、搜索意图和搜索意图满足条件；若根据所述搜索意图获知所述用户查询视频片段，则查询预设的与所述搜索领域对应的标签库，获取与所述搜索意图满足条件匹配成功的视频标签；根据预存的与所述视频标签对应的视频播放参数，向所述用户播放与所述视频标签对应的目标视频片段。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由服务器端的处理器被执行时，使得服务器端能够执行一种视频片段播放方法，所述方法包括：获取用户发送的语音搜索信息，解析所述语音搜索信息获取对应的文本信息；应用预先训练的深度神经网络模型从所述文本信息中提取搜索领域、搜索意图和搜索意图满足条件；若根据所述搜索意图获知所述用户查询视频片段，则查询预设的与所述搜索领域对应的标签库，获取与所述搜索意图满足条件匹配成功的视频标签；根据预存的与所述视频标签对应的视频播放参数，向所述用户播放与所述视频标签对应的目标视频片段。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种视频片段播放方法，所述方法包括：获取用户发送的语音搜索信息，解析所述语音搜索信息获取对应的文本信息；应用预先训练的深度神经网络模型从所述文本信息中提取搜索领域、搜索意图和搜索意图满足条件；若根据所述搜索意图获知所述用户查询视频片段，则查询预设的与所述搜索领域对应的标签库，获取与所述搜索意图满足条件匹配成功的视频标签；根据预存的与所述视频标签对应的视频播放参数，向所述用户播放与所述视频标签对应的目标视频片段。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的视频片段播放方法的流程图；

图2是根据本发明一个实施例的语音识别的流程图；

图3是根据本发明一个实施例的语音输入控制视频片段播放的示意图；

图4是根据本发明一个实施例的训练深度神经网络模型的流程图；

图5是根据本发明一个实施例的生成深度神经网络模型的模型参数的示意图；

图6是根据本发明一个实施例的人工标注标签库的流程图；

图7是根据本发明一个实施例的人工标注的示意图；

图8是根据本发明一个实施例的视频片段播放方法的流程交互图；

图9是根据本发明一个实施例的视频片段播放装置的结构示意图；

图10是根据本发明另一个实施例的视频片段播放装置的结构示意图；

图11是根据本发明又一个实施例的视频片段播放装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的视频片段播放方法及装置。

目前，在很多种应用场景中，用户需要跳转到特定的情节或者镜头。

作为一种可能实现的场景，用户观看视频(常见于推理、烧脑类视频)时错过某个关键镜头或者是没看懂，需要倒退到特定片段重点观看。

作为另一种可能实现的场景，用户观看视频时觉得某些片段格外精彩，值得反复欣赏，比如“泰坦尼克号”中JACK和ROSE相拥在甲板上的镜头等等。

作为又一种可能实现的场景，用户需要在时间有限的情况下观看视频，常常需要抓住重点视频片段进行观看。

相关技术中，通过遥控器的快进/快退按键，反复定位，直到电视上出现目标片段，操作繁琐，耗时比较长，对于用户没有观看过的视频，只能从头到尾全部看完才能了解到整体情节发展，不方便用户使用。

为了解决上述问题，本发明通过语音搜索能够准确直接跳转到目标视频片段，操作简单便捷，节省时间，以及用户可以快速了解整个视频的情节发展，方便用户使用，满足用户需求。具体如下：

图1是根据本发明一个实施例的视频片段播放方法的流程图。该视频片段播放方法包括以下步骤：

步骤101，获取用户发送的语音搜索信息，解析语音搜索信息获取对应的文本信息。

实际应用中，可以通过遥控器、耳机等外置设备、或者是电视、电脑等播放设备中的语音采集装置获取用户的语音搜索信息，接着对语音搜索信息进行解析获取对应的文本信息。

作为一种示例，通过遥控器获取用户发送的语音搜索信息为“给我跳转到JACK和ROSE相拥的镜头”，进而遥控器将语音搜索信息发送给电视，电视在收到语音搜索信息后发送给服务器，服务器通过相关算法等方式对语音搜索信息进行解析得到文本信息“给我跳转到JACK和ROSE相拥的镜头”。

需要说明的是，在获取用户发送的语音搜索信息的过程中，不同的采集设备性能其获取的语音搜索信息效果不同，比如声音源到设备距离的远近，设备支持单麦克风还是麦克风阵列等对语音搜索信息的效果都有影响。

可以理解的是，设备的性能越高，声音源到设备的距离越短，采用有效的麦克风阵列，获取的用户发送的语音搜索信息更容易识别，比如对于远场(大于5米)识别使用麦克风阵列的性能大大优于但麦克风性能。

具体地，解析语音搜索信息获取对应的文本信息的方式有很多种，可以根据实际应用需要进行选择设置，举例说明如下：

第一种示例，通过对语音搜索信息进行回声消除处理和降噪处理提取音频特征，接着应用解码器中预设的声学模型将音频特征转换成对应的音节，最后应用解码器中预设的语言模型和发音词典将音节转换成对应的文本信息。

为了本领域人员更加清楚上述过程，下面结合图2具体描述如下：

图2是根据本发明一个实施例的语音识别的流程图。如图2所示，对语音搜索信息进行处理，进行特征提取放在特定的解码器上进行解码得到识别结果。从图2中可以看到，在解码器解码的过程中，使用到声学模型、语言模型和发音词典。声学模型的主要作用是将音频特征转换成音节，语音模型的主要作用是将音节转换成文本，发音词典提供了一个从音节到文本信息的映射表，即通过音节就能到查找到对应的文本信息。

需要说明的是，在一些特定场景中获取的语音搜索信息不能够直接识别，或者识别后的效果不是特别好，比如在免提或者会议等应用场景下，扬声器的声音会多次反馈到麦克风，麦克风采集到的语音搜索信息中存在声学回声，可以通过回声消除(AcousticEcho Cancellation，AEC)算法进行回声消除；或者是特定环境(比如行驶的车辆)采集的语音搜索信息中会有特定的噪音，需要通过声音降噪(Noise Suppression，NS)算法消除环境噪音。

作为一种示例，用X表示输入的语音搜索信息，W代表文本信息，语音识别过程的求解为：进而经过转换为：

由此，在语音识别过程中，需要求出最大的P(X/W)和P(W)，其中，可以通过声学模型求解最大的P(X/W)，通过语音模型求解最大的P(W)。

第二种示例，应用语音文本转换器，直接对语音搜索信息进行处理，获取其对应的文本信息。

步骤102，应用预先训练的深度神经网络模型从文本信息中提取搜索领域、搜索意图和搜索意图满足条件。

步骤103，若根据搜索意图获知用户查询视频片段，则查询预设的与搜索领域对应的标签库，获取与搜索意图满足条件匹配成功的视频标签。

可以理解的是，自然语言搜索语义理解的输出一般表示为搜索领域、搜索意图和搜索意图满足条件。由此，需要应用训练好的深度神经模型对获取的文本信息进行处理，提取相对应的搜索领域、搜索意图和搜索意图满足条件。

进而，预先设置好每个搜索领域对应的一个标签库，在根据搜索意图获知用户查询视频片段后，可以根据搜索领域查询其对应的标签库，最后获取与搜索意图满足条件匹配成功的视频标签。

作为一种示例，文本信息为“给我跳转到JACK和ROSE相拥的镜头”，应用预先训练的深度神经网络模型对文本信息进行处理，获得搜索领域：泰坦尼克号；搜索意图：跳转；搜索意图满足条件：JACK和ROSE相拥。

进而，根据搜索意图跳转，可以获取用户查询视频片段，由此，根据搜索领域泰坦尼克号查找其对应的标签库，从中获取与搜索意图满足条件JACK和ROSE相拥匹配成功的视频标签。

步骤104，根据预存的与视频标签对应的视频播放参数，向用户播放与视频标签对应的目标视频片段。

具体地，根据预存的与视频标签对应的视频播放参数，向用户播放与视频标签对应的目标视频片段的方式有很多种，举例说明如下：

第一种示例，将视频播放参数发送给用户的应用客户端，以使应用客户端根据视频播放参数从本地获取与视频标签对应的目标视频片段进行播放。

第二种示例，根据视频播放参数从服务器获取与视频标签对应的目标视频片段，将目标视频片段发送给与用户对应的设备浏览器进行播放。

具体地，预先存储有与视频标签对应的视频播放参数，即每一个视频标签对应一个视频播放参数。继续以上述例子为例说明，在获取与搜索意图满足条件JACK和ROSE相拥匹配成功的视频标签后，根据视频标签查找对应的视频播放参数比如为“跳转到时间52分12秒”，从而可以将该视频播放参数发送给用户的应用客户端或者服务器进行播放相对应的目标视频片段。

作为一种场景实现，如图3所示，用户观看视频的过程中，发现当前情节与之前某个情节关联度比较高，想要直接跳转到对应情节观看。只需要语音输入“跳到警匪枪战画面”，经过语音识别和意图解析后，针对解析结果将带标签的视频片段进行检索,找到具有警匪枪战的片段,将时间点返回给客户端,客户端的播放器就能直接跳转到该时间点进行播放,完成用户的需求满足。

综上所述，本发明实施例的视频片段播放方法，通过用户发送的语音搜索信息获取对应的文本信息，接着应用预先训练的深度神经网络模型从文本信息中提取搜索领域、搜索意图和搜索意图满足条件，并在根据搜索意图获知用户查询视频片段时查询预设的与搜索领域对应的标签库，获取与搜索意图满足条件匹配成功的视频标签，最后根据预存的与视频标签对应的视频播放参数，向用户播放与视频标签对应的目标视频片段。由此，通过语音搜索能够准确跳转到目标视频片段，操作简单便捷，节省时间，以及用户可以快速了解整个视频的情节发展，方便用户使用，满足用户需求。

图4是根据本发明一个实施例的训练深度神经网络模型的流程图。如图4所示，在步骤102之前，还包括：

步骤201，获取用户标注的样本集合和应用平台的大数据集合。

步骤202，应用预设的深度神经网络模型训练用户标注的样本集合和应用平台的大数据集合生成深度神经网络模型的模型参数。

具体地，可以采用深度神经网络模型将用户标注的样本集合和应用平台的大数据集合(比如百度大数据)相结合生成深度神经网络模型的模型参数。具体地，如图5所示，将用户标注(小样本)输入机器学习(深度神经网络模型)进行处理获取搜索领域和搜索意图，将应用平台(比如百度)的大数据集合和用户词表通过通用特征建模、通用知识建模和领域知识输入机器学习(深度神经网络模型)进行处理，获取搜索领域、搜索意图和搜索意图满足条件。

由此，可以根据用户需求自动化的学习，以及根据不同应用需求提供少量的标注数据就可以，另外引入应用平台的大数据集合使得小数据的学习效果更佳，进一步满足用户需求。

图6是根据本发明一个实施例的人工标注标签库的流程图。如图6所示，在步骤103之前，还包括：

步骤301，接收不同用户在观看视频的过程中发送的语音标注信息。

步骤302，解析语音标注信息获取对应的文本标注信息，从文本标注信息中提取视频标签。

步骤303，从观看视频中获取与视频标签对应的视频播放参数，并将视频标签与对应的视频播放参数存储在与观看视频类型对应的标签库中。

具体地，每个用户都可以自定义标签库，同时可以查看别人对视频的标注。可以将一部电影视频拆解为若干个镜头，通过海量的用户标记行为，对每个镜头或者画面进行统一化标注。如图7所示，当用户在看到某部电影警匪火拼的片段时，可以输入语音标注信息比如“警匪大战开始啦”，服务器通过对语音标注信息进行分析获取对应的文本标注信息后，从文本标注信息中提取视频标签比如“警匪大战”并获取其对应的视频播放参数即时间点进行标注，并将视频标签与对应的视频播放参数存储在与观看视频类型对应的标签库中。

由此，通过收集用户标注信息解决了大量的标注问题，减少人工标注的成本，以及每个用户自定义标签的同时可以参考其他用户给出的标签，更加方便全面快捷地了解剧情发展历程和影片亮点。

图8是根据本发明一个实施例的视频片段播放方法的流程交互图。

参见图8，本实施例包括：遥控器、电视、语音服务器和后台服务器。本实施例通过设备之间的信息交互举例描述本实施例提供的视频片段播放方法的流程的具体应用场景，具体说明如下：

(1)遥控器接收到语音搜索信息，比如“给我跳转到JACK和ROSE相拥的镜头”。

(2)电视收到语音搜索信息后，将其发送给语音服务器。

(3)语音服务器解析语音搜索信息返回文本信息，比如为“给我跳转到JACK和ROSE相拥的镜头”。

(4)电视将文本信息提交给后台服务器，后天服务器应用自然语言处理技术，把文本信息翻译成结构化信息，比如为{domain:film，intent:search_film，slots:{jack&rose相拥}}。

(5)后台服务器将结构化的信息在标签库中查找。

(6)后台服务器将查找后的结果返回给电视，内容为{command：redirect，time：52分15秒}。

(7)电视收到指令后执行时间点跳转，从而可以满足用户需求。

由此，通过语音搜索能够准确跳转到目标视频片段，操作简单便捷，节省时间，以及用户可以快速了解整个视频的情节发展，方便用户使用，满足用户需求。

图9是根据本发明一个实施例的视频片段播放装置的结构示意图。该视频片段播放装置包括：第一获取模块11、第一解析模块12、提取模块13、处理模块14和播放模块15。

其中，第一获取模块11，用于获取用户发送的语音搜索信息。

第一解析模块12，用于解析语音搜索信息获取对应的文本信息。

提取模块13，用于应用预先训练的深度神经网络模型从文本信息中提取搜索领域、搜索意图和搜索意图满足条件。

处理模块14，用于在根据搜索意图获知用户查询视频片段时，查询预设的与搜索领域对应的标签库，获取与搜索意图满足条件匹配成功的视频标签。

播放模块15，用于根据预存的与视频标签对应的视频播放参数，向用户播放与视频标签对应的目标视频片段。

进一步地，解析模块12，具体用于通过对语音搜索信息进行回声消除处理，和/或，降噪处理提取音频特征；应用解码器中预设的声学模型将音频特征转换成对应的音节；应用解码器中预设的语言模型和发音词典将音节转换成对应的文本信息。

进一步地，播放模块15，具体用于将视频播放参数发送给用户的应用客户端，以使应用客户端根据视频播放参数从本地获取与视频标签对应的目标视频片段进行播放；或者；根据视频播放参数从服务器获取与视频标签对应的目标视频片段，将目标视频片段发送给与用户对应的设备浏览器进行播放。

进一步地，在图9的基础上，如图10所示，该视频片段播放装置还包括：第二获取模块16、生成模块17、接收模块18、第二解析模块19和存储模块110。

其中，第二获取模块16，用于获取用户标注的样本集合和应用平台的大数据集合。

生成模块17，用于应用预设的深度神经网络模型训练用户标注的样本集合和应用平台的大数据集合生成深度神经网络模型的模型参数。

接收模块18，用于接收不同用户在观看视频的过程中发送的语音标注信息。

第二解析模块19，用于解析语音标注信息获取对应的文本标注信息，从文本标注信息中提取视频标签。

存储模块20，用于从观看视频中获取与视频标签对应的视频播放参数，并将视频标签与对应的视频播放参数存储在与观看视频类型对应的标签库中。

综上所述，本发明实施例的视频片段播放装置，通过用户发送的语音搜索信息获取对应的文本信息，接着应用预先训练的深度神经网络模型从文本信息中提取搜索领域、搜索意图和搜索意图满足条件，并在根据搜索意图获知用户查询视频片段时查询预设的与搜索领域对应的标签库，获取与搜索意图满足条件匹配成功的视频标签，最后根据预存的与视频标签对应的视频播放参数，向用户播放与视频标签对应的目标视频片段。由此，通过语音搜索能够准确跳转到目标视频片段，操作简单便捷，节省时间，以及用户可以快速了解整个视频的情节发展，方便用户使用，满足用户需求。

图11为本发明实施例提供的又一种视频片段播放装置的结构示意图。该视频片段播放装置包括：

存储器21、处理器22及存储在存储器21上并可在处理器22上运行的计算机程序。

处理器22执行所述程序时实现上述实施例中提供的视频片段播放方法。

进一步地，视频片段播放装置还包括：

通信接口23，用于存储器21和处理器22之间的通信。

存储器21，用于存放可在处理器22上运行的计算机程序。

存储器21可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

处理器22，用于执行所述程序时实现上述实施例所述的视频片段播放方法。

如果存储器21、处理器22和通信接口23独立实现，则通信接口21、存储器21和处理器22可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器21、处理器22及通信接口23，集成在一块芯片上实现，则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。

处理器22可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种视频片段播放方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述解析所述语音搜索信息获取对应的文本信息，包括：

通过对所述语音搜索信息进行回声消除处理，和/或，降噪处理提取音频特征；

应用解码器中预设的声学模型将所述音频特征转换成对应的音节；

应用所述解码器中预设的语言模型和发音词典将所述音节转换成对应的文本信息。

3.如权利要求1所述的方法，其特征在于，在所述应用预先训练的深度神经网络模型从所述文本信息中提取搜索领域、搜索意图和搜索意图满足条件之前，还包括：

获取用户标注的样本集合和应用平台的大数据集合；

应用预设的深度神经网络模型训练所述用户标注的样本集合和应用平台的大数据集合生成所述深度神经网络模型的模型参数。

4.如权利要求1所述的方法，其特征在于，在所述查询预设的与所述搜索领域对应的标签库，获取与所述搜索意图满足条件匹配成功的视频标签之前，还包括：

接收不同用户在观看视频的过程中发送的语音标注信息；

解析所述语音标注信息获取对应的文本标注信息，从所述文本标注信息中提取视频标签；

从所述观看视频中获取与所述视频标签对应的视频播放参数，并将所述视频标签与对应的视频播放参数存储在与观看视频类型对应的标签库中。

5.如权利要求1-4任一所述的方法，其特征在于，所述根据预存的与所述视频标签对应的视频播放参数，向所述用户播放与所述视频标签对应的目标视频片段，包括：

将所述视频播放参数发送给所述用户的应用客户端，以使所述应用客户端根据所述视频播放参数从本地获取与所述视频标签对应的目标视频片段进行播放；

或者；

根据所述视频播放参数从服务器获取与所述视频标签对应的目标视频片段，将所述目标视频片段发送给与所述用户对应的设备浏览器进行播放。

6.一种视频片段播放装置，其特征在于，包括：

第一获取模块，用于获取用户发送的语音搜索信息；

7.如权利要求6所述的装置，其特征在于，所述解析模块具体用于：

8.如权利要求6所述的装置，其特征在于，还包括：

第二获取模块，用于获取用户标注的样本集合和应用平台的大数据集合；

生成模块，用于应用预设的深度神经网络模型训练所述用户标注的样本集合和应用平台的大数据集合生成所述深度神经网络模型的模型参数。

9.如权利要求6所述的装置，其特征在于，还包括：

接收模块，用于接收不同用户在观看视频的过程中发送的语音标注信息；

第二解析模块，用于解析所述语音标注信息获取对应的文本标注信息，从所述文本标注信息中提取视频标签；

存储模块，用于从所述观看视频中获取与所述视频标签对应的视频播放参数，并将所述视频标签与对应的视频播放参数存储在与观看视频类型对应的标签库中。

10.如权利要求6-9任一所述的装置，其特征在于，所述播放模块具体用于：

或者；

11.一种视频片段播放装置，其特征在于，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的视频片段播放方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的视频片段播放方法。