CN108347646B

CN108347646B - 多媒体内容播放方法和装置

Info

Publication number: CN108347646B
Application number: CN201810231476.4A
Authority: CN
Inventors: 武薇; 王加锋; 罗俊楠; 姜征浩; 李静; 刘悦; 王飞; 张岩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2019-07-02
Anticipated expiration: 2038-03-20
Also published as: TW201941618A; CN108347646A; JP6634470B2; US20190295543A1; EP3543998B1; US10643612B2; JP2019165422A; EP3543998A1; KR102023842B1; TWI667916B

Abstract

本申请实施例公开了多媒体内容播放方法和装置。该方法的一具体实施方式包括：响应于检测到用户根据呈现的当前多媒体内容的引导信息发出的语音信号，对语音信号进行识别得到对应的语音信息；将语音信息与已获取的引导信息对应的模板信息进行匹配；响应于确定语音信息与引导信息对应的模板信息匹配成功，生成执行跳过播放当前多媒体内容的操作的命令。该实施方式实现了多媒体内容获取效率的提升。

Description

多媒体内容播放方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及互联网技术领域，尤其涉及多媒体内容播放方法和装置。

背景技术

随着计算机技术的发展和用户对于多样化的内容获取方式的需求的增长，产生了越来越多的多媒体内容。通常智能电子设备可以根据用户选择来播放网络中的多媒体内容，或者可以主动向用户推送一些多媒体内容，又或者可以将主动推送的多媒体内容与用户选择的多媒体内容组合为多媒体内容集合，依次播放集合中的多媒体内容。

目前的多媒体内容播放服务中，通常会在播放用户选择的多媒体内容之前播放一些推送的多媒体内容。如果用户对推送的多媒体内容不感兴趣，需要等待推送的多媒体内容播放结束，而在等待过程中用户通常不会关注推送的多媒体内容，或者用户可以购买跳过播放的服务直接跳过播放推送的多媒体内容，导致推送的多媒体内容的信息不能快速有效地传递给用户。

发明内容

本申请实施例提出了多媒体内容播放方法和装置。

第一方面，本申请实施例提供了一种多媒体内容播放方法，包括：响应于检测到用户根据呈现的当前多媒体内容的引导信息发出的语音信号，对语音信号进行识别得到对应的语音信息；将语音信息与已获取的引导信息对应的模板信息进行匹配；响应于确定语音信息与引导信息对应的模板信息匹配成功，生成执行跳过播放当前多媒体内容的操作的命令。

在一些实施例中，上述方法还包括：获取当前多媒体内容的播放配置信息，播放配置信息包括当前多媒体内容的引导信息、引导信息的呈现方式信息以及与引导信息对应的模板信息。

在一些实施例中，上述引导信息用于引导用户发出跳过播放当前多媒体内容的语音指令，上述模板信息包括模板指令；上述对语音信号进行识别得到对应的语音信息，包括：将语音信号转换为对应的用户指令文本；上述将语音信息与已获取的引导信息对应的模板信息进行匹配，包括：将用户指令文本与已获取的引导信息对应的模板指令进行语义匹配。

在一些实施例中，上述引导信息和引导信息对应的模板信息包括按照如下方式确定的引导信息和模板信息：基于预设多媒体内容库对当前多媒体内容进行解析，提取多媒体内容所包含的关键语句；将关键语句确定为模板信息；获取为关键语句配置的对应的引导信息。

在一些实施例中，上述预设多媒体内容库包括具有关键内容标识的多条多媒体内容；基于预设多媒体内容库对当前多媒体内容进行解析，提取多媒体内容所包含的关键语句，包括：从当前多媒体内容的文本内容中提取出多个候选语句；确定预设多媒体内容库中与当前多媒体内容具有相同的关键内容标识的多媒体内容为当前多媒体内容的关联多媒体内容；确定预设多媒体内容库中与当前多媒体内容具有不同的关键内容标识的多媒体内容为当前多媒体内容的非关联多媒体内容；确定包含每个候选语句关联多媒体内容的数量和包含每个候选语句的非关联多媒体内容的数量；根据包含各候选语句的关联多媒体内容的数量和非关联多媒体内容的数量，从候选语句中确定出当前多媒体内容的关键语句。

在一些实施例中，上述响应于检测到用户根据呈现的当前多媒体内容的引导信息发出的语音信号，对语音信号进行识别得到对应的语音信息，包括：响应于检测到用户根据引导信息发出的语音信号，对语音信号的合法性进行验证；响应于语音信号的合法性验证通过，对语音信号进行语音识别得到对应的语音信息。

在一些实施例中，上述响应于检测到用户根据引导信息发出的语音信号，对语音信号的合法性进行验证，包括：响应于检测到用户根据引导信息发出的语音信号，获取用户观看当前多媒体内容所使用的播放设备和用户账户的安全认证信息；对播放设备的安全认证信息和用户账户的安全认证信息进行认证；响应于播放设备的安全认证信息和用户账户的安全认证信息均通过认证，确定语音信号的合法性验证通过。

在一些实施例中，上述方法还包括：响应于确定语音信息与引导信息对应的模板信息匹配成功，生成用于提示用户成功跳过当前播放的多媒体内容的第一提示信息。

在一些实施例中，上述方法还包括：响应于确定语音信息与引导信息对应的模板信息匹配失败，生成用于提示用户未成功跳过当前播放的多媒体内容的第二提示信息。

第二方面，本申请实施例提供了一种多媒体内容播放装置，包括：识别单元，用于响应于检测到用户根据呈现的当前多媒体内容的引导信息发出的语音信号，对语音信号进行识别得到对应的语音信息；匹配单元，用于将语音信息与已获取的引导信息对应的模板信息进行匹配；生成单元，用于响应于确定语音信息与引导信息对应的模板信息匹配成功，生成执行跳过播放当前多媒体内容的操作的命令。

在一些实施例中，上述装置还包括：获取单元，用于获取当前多媒体内容的播放配置信息，播放配置信息包括当前多媒体内容的引导信息、引导信息的呈现方式信息以及与引导信息对应的模板信息。

在一些实施例中，上述引导信息用于引导用户发出跳过播放当前多媒体内容的语音指令，上述模板信息包括模板指令；上述识别单元进一步用于按照如下方式对语音信号进行识别得到对应的语音信息：将语音信号转换为对应的用户指令文本；上述匹配单元进一步用于按照如下方式将语音信息与已获取的引导信息对应的模板信息进行匹配：将用户指令文本与已获取的引导信息对应的模板指令进行语义匹配。

在一些实施例中，上述预设多媒体内容库包括具有关键内容标识的多条多媒体内容；作为模板信息的关键语句是按照如下方式提取的：从当前多媒体内容的文本内容中提取出多个候选语句；确定预设多媒体内容库中与当前多媒体内容具有相同的关键内容标识的多媒体内容为当前多媒体内容的关联多媒体内容；确定预设多媒体内容库中与当前多媒体内容具有不同的关键内容标识的多媒体内容为当前多媒体内容的非关联多媒体内容；确定包含每个候选语句关联多媒体内容的数量和包含每个候选语句的非关联多媒体内容的数量；根据包含各候选语句的关联多媒体内容的数量和非关联多媒体内容的数量，从候选语句中确定出当前多媒体内容的关键语句。

在一些实施例中，上述识别单元进一步用于按照如下方式对语音信号进行语音识别得到对应的语音信息：响应于检测到用户根据引导信息发出的语音信号，对语音信号的合法性进行验证；响应于语音信号的合法性验证通过，对语音信号进行语音识别得到对应的语音信息。

在一些实施例中，上述识别单元进一步用于按照如下方式对语音信号的合法性进行验证：响应于检测到用户根据引导信息发出的语音信号，获取用户观看当前多媒体内容所使用的播放设备和用户账户的安全认证信息；对播放设备的安全认证信息和用户账户的安全认证信息进行认证；响应于播放设备的安全认证信息和用户账户的安全认证信息均通过认证，确定语音信号的合法性验证通过。

在一些实施例中，上述装置还包括：第一提示单元，用于响应于确定语音信息与引导信息对应的模板信息匹配成功，生成用于提示用户成功跳过当前播放的多媒体内容的第一提示信息。

在一些实施例中，上述装置还包括：第二提示单元，用于响应于确定语音信息与引导信息对应的模板信息匹配失败，生成用于提示用户未成功跳过当前播放的多媒体内容的第二提示信息。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面提供的多媒体内容播放方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现第一方面提供的多媒体内容播放方法。

本申请上述实施例的多媒体内容播放方法和装置，通过响应于检测到用户根据呈现的当前多媒体内容的引导信息发出的语音信号，对语音信号进行识别得到对应的语音信息；然后将语音信息与已获取的引导信息对应的模板信息进行匹配；之后响应于确定语音信息与引导信息对应的模板信息匹配成功，生成执行跳过播放当前多媒体内容的操作的命令，实现了多媒体内容获取效率的提升。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的多媒体内容播放方法的一个实施例的流程图；

图3是根据本申请的多媒体内容播放方法的一个应用场景的示意图；

图4是根据本申请的多媒体内容播放方法的另一个实施例的流程图；

图5是根据本申请的多媒体内容播放装置的一个结构示意图；

图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的多媒体内容播放方法或多媒体内容播放装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104、以及服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端设备101、102、103通过网络104与服务器105互，以接收或发送消息等。终端设备101、102、103上可以安装有各种多媒体播放类应用，例如视频播放客户端、音频播放客户端、图片浏览器、文字阅读器等等。

终端设备101、102、103可以是具有显示器并支持互联网访问的各种电子设备，包括但不限于智能手机、平板电脑、智能手表、笔记本电脑、膝上便携型电脑、电子书阅读器等。

服务器105可以是为多媒体内容播放服务提供支持的多媒体内容播放服务器，多媒体内容播放服务器可以接收终端设备101、102、103发出的多媒体内容播放请求，并对多媒体播放内容请求进行解析，根据解析结果查找相应的多媒体内容，将查找到的多媒体内容返回给终端设备101、102、103。

需要说明的是，本申请实施例所提供的多媒体内容播放方法可以由终端设备101、102、103或服务器105执行，相应地，多媒体内容播放装置可以设置于终端设备101、102、103或服务器105中。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络、服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络、服务器。

继续参考图2，其示出了根据本申请的多媒体内容播放方法的一个实施例的流程200。该多媒体内容播放方法，包括以下步骤：

步骤201，响应于检测到用户根据呈现的当前多媒体内容的引导信息发出的语音信号，对语音信号进行识别得到对应的语音信息。

在本实施例中，多媒体内容播放方法的执行主体(例如图1所示的终端设备101、102、103或者服务器105)可以检测是否接收到用户发出的语音信号，并判断该语音信号是否为根据呈现的当前多媒体内容的引导信息发出的。其中，引导信息可以用于引导用户执行特定操作的信息。当前多媒体内容即当前播放的多媒体内容。多媒体内容可以包括但不限于：视频、音频、图片、文字。具体地，上述执行主体可以在播放当前多媒体内容的界面中呈现引导信息，并在引导信息的呈现过程中持续检测是否接收到用户发出的语音信号。例如引导信息可以呈现5秒，则可以在引导信息呈现的5秒之内持续检测用户是否发出语音信号。

当上述执行主体为播放当前多媒体内容的客户端时，客户端可以在呈现当前多媒体的引导信息之后，通过音频输入接口捕获用户发出的语音信号。客户端也可以捕获到用户发出的语音信号之后，立即将用户的语音信号上报至提供多媒体内容播放服务的服务端。当上述执行主体为用于提供多媒体内容播放服务的服务端时，服务端可以检测是否从播放当前多媒体内容的客户端接收到用户发出的语音信号。

在检测到上述用户根据呈现的当前多媒体内容的引导信息发出的语音信号之后，可以对语音信号进行解析，识别出语音信号对应的语音信息。在这里，语音信息可以包括：用于表征语音信号的声音特征的信息和/或用于表征语音信号所包含的语义的信息。

在一种具体的实现方式中，可以将用户发出的语音信号输入已训练的语音信息识别模型，得到对应的语音信息。在这里，语音信息识别模型可以是基于预设的样本语音信号及样本语音信号对应的语音信息的标记结果，采用机器学习方法训练得出的。在实践中，可以标记样本语音信号的语音信息识别结果，利用待训练的语音信息识别模型预测样本语音信号对应的语音信息，之后根据语音信息识别模型的预测结果与样本语音信号的标记结果之间的差异迭代调整待训练的语音信息识别模型的参数，在语音信息识别模型的预测结果与样本语音信号的标记结果之间的差异满足预设条件时停止迭代，得到训练好的语音信息识别模型。

在另一种具体的实现方式中，可以采用预先构建的语义模型对用户发出的语音信号进行识别，该语义模型可以表征切分语音帧后的语音信号与对应的语义信息之间的关系，可以基于对大数据量的样本语句的语义分析构建。上述执行主体可以利用语义模型直接解析得出语音信号对应的语义信息，以及利用已有的音频特征提取方法从语音信号中提取出语音信号的声音特征，作为语音信号的识别结果。

上述执行主体可以在本地执行语音信号的识别操作，也可以将检测到的语音信号上报至语音服务器，例如可以以二进制流形式上报语音服务器，然后接收语音服务器对二进制语音流的语音识别结果。对用户发出的语音信号的识别结果即为对应的语音信息。

上述引导信息可以是预先为多媒体内容配置的。在实践中，每条多媒体内容可以配置多个引导信息，上述执行主体可以预先获取多媒体内容的引导信息并在多媒体内容播放时呈现。

在实际场景中，当用户在观看播放的多媒体内容时，可以在播放界面呈现预先配置的引导信息，该引导信息用于告知用户发出相应的语音指令即可跳过播放的当前多媒体内容。例如，可以在播放某一视频片段时在播放界面提示用户“说出XXX就可以跳过本视频”。用户在接收到该引导信息后，可以发出相应的语音信号来请求跳过播放当前视频片段。或者，当用户在收听新闻时，可以通过音频输出接口向用户播报当前播放的新闻的音频引导信息，用户在收听到引导信息之后可以发出语音信号，播放视频或音频的设备可以检测用户的语音信号，并可以将语音信号发送至服务端来转换为对应的语音信息。

在本实施例的一些可选的实现方式中，上述引导信息可以用于引导用户发出跳过播放所述当前多媒体内容的语音指令，上述模板信息可以包括模板指令，模板指令可以用于指示执行跳过播放当前多媒体内容的操作。这时，可以通过如下方式对语音信息进行识别得到对应的语音信息：将语音信号转换为对应的用户指令文本。具体来说，可以通过如下方式对语音信号进行识别：首先对语音信号的波形进行声学特征提取和语音状态切分，得到语音信号的声学特征和语音状态切分结果，然后基于声学模型对语音状态切分结果进行估计，具体可以将语音状态切分结果与声学模型中各音素进行匹配，之后利用语言模型将声学模型的匹配得出的音素组合为符合语法结构的识别结果。

步骤202，将语音信息与已获取的引导信息对应的模板信息进行匹配。

每条引导信息都配置有相应的模板信息。在本实施例中，可以将识别出的语音信息与引导信息对应的模板信息进行匹配。在这里，可以直接计算语音信息和模板信息之间的匹配度，也可以将语音信息所包含的语义与模板信息的语义相匹配，还可以将语音信息所包含的声音特征信息与模板信息所包含的声音特征信息进行匹配。

在本实施例的一些可选的实现方式中，模板信息可以包括模板指令，模板指令用于指示执行跳过播放当前多媒体内容的操作。同时，步骤201呈现的引导信息用于引导用户发出跳过播放所述当前多媒体内容的语音指令，且在步骤201中通过将语音信号转换为对应的用户指令文本来实现语音信号的识别。这时，可以将用户指令文本与已获取的所述引导信息对应的模板指令进行语义匹配，来实现语音信息与已获取的引导信息对应的模板信息的匹配。在这里，模板指令可以是预先配置的文本指令。可以通过将用户指令文本与已获取的引导信息对应的模板指令进行语义匹配来判断是否满足跳过播放当前多媒体内容的条件。

可以采用多种方式对用户指令文本和已获取的引导信息对应的模板指令进行语义匹配。一种可选的匹配方式为直接对用户指令文本与上述引导信息对应的模板指令进行文本内容的匹配，当匹配度超过预设的匹配度阈值时可以确定二者的语义一致，即用户指令文本与引导信息对应的模板指令的语义匹配成功，否则可以确定二者的语义匹配失败。另一种可选的匹配方式可以为采用自然语言处理的方式对二者的语义进行匹配，具体可以对步骤201识别得出的用户指令文本和已获取的当前多媒体内容的引导信息对应的模板指令进行语义解析，判断二者的语义是否匹配。

具体来说，在采用自然语言处理的方式对上述用户指令文本与上述模板指令进行语义匹配时，可以首先对用户指令文本和模板指令切词，采用语言模型将用户指令文本和模板指令转换为向量，利用转换后的向量计算用户指令文本和模板指令之间的相似度。也可以采用已训练的深度神经网络计算用户指令文本与模板指令的匹配度。该已训练的深度神经网络可以是基于已标记语义匹配结果的样本文本对训练得出的。

步骤203，响应于确定语音信息与引导信息对应的模板信息的语义匹配成功，生成执行跳过播放当前多媒体内容的操作的命令。

若步骤202中用户的语音信号对应的语音信息与引导信息对应的模板信息匹配成功，可以确定满足跳过播放当前多媒体内容的条件，上述执行主体可以生成执行跳过播放当前多媒体内容的命令。当上述执行主体是提供多媒体内容播放服务的服务端时，该执行主体可以将生成的命令发送至播放当前多媒体内容的客户端。当上述执行主体是播放多媒体内容的客户端时，上述执行主体可以生成执行跳过播放当前多媒体内容的命令并执行该命令，从而跳过播放当前多媒体内容。

在实践中，执行跳过播放当前多媒体内容的操作可以是将播放节点切换到当前多媒体内容的结尾处，或者切换至下一条多媒体内容的起始播放点进行播放，也可以是继续播放当前多媒体内容预设时间之后(例如3秒之后)将播放节点切换至下一条多媒体内容的起始播放点。

本申请上述实施例的多媒体内容播放方法，通过响应于检测到用户根据呈现的当前多媒体内容的引导信息发出的语音信号，对语音信号进行识别得到对应的语音信息；然后将语音信息与已获取的引导信息对应的模板信息进行匹配；之后响应于确定语音信息与引导信息对应的模板信息匹配成功，生成执行跳过播放当前多媒体内容的操作的命令，实现了多媒体内容获取效率的提升。

在一些实施例中，上述多媒体内容播放方法还可以包括：获取当前多媒体内容的播放配置信息，播放配置信息包括当前多媒体内容的引导信息、引导信息的呈现方式信息以及与引导信息对应的模板信息。在这里，播放配置信息可以是在多媒体内容创建时配置好的信息。多媒体内容的创建者可以为多媒体内容配置播放配置信息。可选地，创建者可以为多媒体内容配置多条引导信息、并配置各条引导信息的呈现方式信息以及与各条引导信息分别对应的模板信息。引导信息可以例如为包括问题和答案的问答式引导语，或者可以例如为告知用户通过阅读某一语句可跳过播放当前多媒体内容的陈述式引导语。引导信息的呈现方式信息可以是用于描述引导信息的呈现方式的信息，可以包括引导信息的呈现时间点、呈现时长、呈现次数、重复呈现的时间间隔(例如每隔20秒呈现一次)、在播放界面中的呈现位置、展示样式(例如以悬浮窗口方式展示)等信息。在播放当前多媒体内容时，可以根据当前多媒体内容的标识获取对应的播放配置信息。

在一个示例性的场景中，用户选择播放某一视频之后，视频服务器可以将广告插入至用户选择的视频之前进行播放。可以为每条广告配置多条引导信息，并配置每条引导语的呈现方式及对应的模板信息。其中引导信息可以是文字、图片、视频或音频，呈现方式可以例如为机器人举牌式、文字滚动式、持续呈现5秒、每隔10秒呈现一次等。当用户根据引导信息发出语音指令，并且该语音指令与该条广告中当前呈现的引导信息对应的模板信息匹配时，可以跳过当前广告的播放。

在上述实施例的一些可选的实现方式中，上述引导信息和引导信息对应的模板信息可以是按照如下方式确定的：基于预设多媒体内容库对当前多媒体内容进行解析，提取多媒体内容所包含的关键语句；将关键语句确定为模板信息；获取为关键语句配置的对应的引导信息。

预设多媒体内容库可以包括多条多媒体内容，例如在实践中预设多媒体内容库可以为包含多条广告的广告库。可以对预设多媒体内容库中的多媒体内容进行解析，分析多媒体内容的关键内容，并采用基于主题模型或基于文本内容的分析方法提取出每条多媒体内容所包含的关键语句。该关键语句可以作为多媒体内容所提供的核心信息，可以是多媒体内容所包含的文本内容中信息最丰富、且最能将其所代表的多媒体内容与预设多媒体内容库中的其他多媒体内容所包含的信息区分开的语句。还可以计算多媒体内容所包含的每个语句的信息熵、并结合与预设多媒体内容库中其他多媒体内容的关键语句之间的差异度或相似度进行当前多媒体内容的关键语句的选择。

进一步可选地，上述预设多媒体内容库可以包括具有预设关键内容标识的多条多媒体内容。关键内容标识可以是用于表征多媒体内容中的核心内容的标签，可以是预先配置的。举例来说，视频广告类的多媒体内容的关键内容标识可以是视频广告中的品牌名称。上述执行主体可以按照如下方式提取多媒体内容所包含的关键语句：从当前多媒体内容的文本内容中提取出多个候选语句，确定预设多媒体内容库中与当前多媒体内容具有相同的关键内容标识的多媒体内容为当前多媒体内容的关联多媒体内容，确定预设多媒体内容库中与当前多媒体内容具有不同的关键内容标识的多媒体内容为当前多媒体内容的非关联多媒体内容，确定包含每个候选语句关联多媒体内容的数量和包含每个候选语句的非关联多媒体内容的数量，最后根据包含各候选语句的关联多媒体内容的数量和非关联多媒体内容的数量，从候选语句中确定出当前多媒体内容的关键语句。

具体来说，在对目标多媒体内容提取关键语句时，可以首先从目标多媒体中提取出多个候选语句，例如可以简单地将目标多媒体内容的文本内容切分为多个候选语句。可以将预设多媒体内容库中的多媒体内容按照与目标多媒体的内容的关键内容标识是否一致，来将预设多媒体内容库中的多媒体内容划分为关联多媒体内容和非关联多媒体内容。之后可以统计包含每个候选语句的关联多媒体内容的数量和非关联多媒体内容的数量。对每个候选语句，包含该候选语句的关联多媒体内容的数量越大、包含该候选语句的非关联多媒体内容的数量越小，则该候选语句被确定为目标多媒体内容的关键语句的概率越大。在具体的实现中，可以将包含该候选语句的关联多媒体内容的数量与包含该候选语句的非关联多媒体内容的数量之差作为候选语句的重要度指数，依据重要度指数对各候选语句进行降序排序，排序第一位的候选语句即为目标多媒体内容的关键语句。

作为示例，在提取视频广告的关键语句时，可以将视频广告中信息熵大于预设信息熵阈值的语句作为候选语句。然后可以统计广告库中同品牌的视频广告中包含各候选语句的视频广告的第一数量，统计不同品牌的视频广告中包含各候选语句的视频广告的第二数量，然后计算每个候选语句的第一数量和第二数量之差，第一数量和第二数量之差最大的候选语句作为提取出的关键语句。

之后，可以将提取出的关键语句作为当前多媒体内容的模板信息，然后可以获取为该模板信息配置的对应的引导信息。也就是说，可以将提取出的关键语句作为可跳过播放当前多媒体内容的模板信息，然后可以根据该模板信息的内容配置引导语，生成该模板信息对应的引导信息。例如当提取出的关键语句为某一品牌的口号时，可以为其配置引导信息为“我们的口号是什么”。

通过上述关键语句的提取方法，可以从多媒体内容中提取出可将具有不同关键内容标识的多媒体内容区分开的关键语句，这样提升了关键语句的区分能力，进而在通过引导用户发出与该关键语句匹配的语音指令时，可以提升用户识记该多媒体内容的关键信息的效率，同时可以帮助用户更好地将该多媒体内容与其他多媒体内容区分。

在上述实施例的一些可选的实现方式中，多媒体内容播放方法还可以包括：响应于确定用户指令文本与引导信息对应的模板信息匹配成功，生成用于提示用户成功跳过当前播放的多媒体内容的第一提示信息。该第一提示信息可以具有预先配置的展示方式，展示方式可以例如包括播放界面的预设位置展示，预设展示时长、预设字体等。当播放多媒体内容的客户端获取到第一提示信息后，可以按照预先配置的展示方式展示第一提示信息，以告知用户成功跳过当前播放的多媒体内容。

在上述实施例的一些可选的实现方式中，多媒体内容播放方法还可以包括：响应于确定用户指令文本与引导信息对应的模板信息匹配失败，生成用于提示用户未成功跳过当前播放的多媒体内容的第二提示信息。在用户指令文本与上述模板信息匹配失败时，可以生成第二提示信息。第二提示信息也可以具有预先设定的展示方式，则在播放多媒体内容的客户端获取到第二提示信息后，可以按照其相应的展示方式展示第二提示信息。可选地，第二提示信息还可以包含用于提示用户重新输入语音信号来触发跳过播放操作的内容。

可选地，上述第一提示信息、第二提示信息以及第一提示信息和第二提示信息的展示方式都可以是预先设置、并包含于多媒体内容的播放配置信息中的。这样，可以通过上述获取多媒体内容的播放配置信息的操作获取第一提示信息、第二提示信息以及第一提示信息和第二提示信息的展示方式。在用户指令文本与上述模板信息匹配成功或匹配失败时，从已获取的播放配置信息中提取出相应的第一提示信息或第二提示信息。

通过上述第一提示信息和/或第二提示信息，可以进一步增强用户在交互过程中的沉浸感，有利于提升用户对当前多媒体内容的关注度。

请参考图3，其示出了根据本申请的多媒体内容播放方法的一个应用场景的示意图。

如图3所示，终端设备A在播放视频时，视频界面中可以呈现用于提示用户可通过“说出本视频中的产品的品牌标语即可跳过该段视频”的引导语，用户观看到视频中的引导语后，可以按照引导语说出产品名称，终端设备A可以检测到用户发出的语音信号B，通过语音识别解析出用户所说的品牌标语，然后与预先获取的视频的模板信息——即视频中的产品的品牌标语进行匹配，若匹配成功，则可以生成并向用户推送“即将跳过本视频”的第一提示信息。

在图3的场景中，若用户所说的品牌标语与视频中的产品的品牌标语匹配不成功，还可以生成并向用户推送“您的表述不正确，请再试一次哦”的第二提示信息。

继续参考图4，其示出了根据本申请的多媒体内容播放方法的另一个实施例的流程图。如图4，本实施例的多媒体内容播放方法的流程400，包括以下步骤：

步骤401，响应于检测到用户根据呈现的当前多媒体内容的引导信息发出的语音信号，对语音信号的合法性进行验证。

在本实施例中，多媒体内容播放方法的执行主体(例如图1所示的终端设备101、102、103或者服务器105)可以检测是否接收到用户发出的语音信号，并判断该语音信号是否为根据呈现的当前多媒体内容的引导信息发出的。其中，引导信息可以是文字、语音等形式的用于引导用户发出跳过播放当前多媒体内容的语音指令的信息。在确定语音信号是根据引导信息发出的之后，可以通过多种方式对语音信号和合法性进行验证。

在一种具体的实现方式中，可以校验语音信号的强度是否超过预设的强度阈值，从而判断语音信号是否由正在观看当前多媒体内容的用户发出，同时可以判断语音信号强度是否足够大，进而确保语音识别结果的准确性。当语音信号的强度低于预设的强度阈值时，可以确定语音信号的合法性验证未通过。

在本实施例的一些可选的实现方式中，可以采用如下方式对上述语音信号的合法性进行验证：响应于检测到用户根据引导信息发出的语音信号，获取用户观看当前多媒体内容所使用的播放设备和用户账户的安全认证信息；对播放设备的安全认证信息和用户账户的安全认证信息进行认证；响应于播放设备的安全认证信息和用户账户的安全认证信息均通过认证，确定语音信号的合法性验证通过。

具体地，可以通过用户登录时提交的用户账户的安全认证信息来执行对用户身份的安全验证。用户登录用户账户后获取访问令牌(Access Token)，该访问令牌即为用户账户的安全认证信息。提供多媒体内容播放服务的服务端或者播放多媒体内容的客户端通过该访问令牌可校验用户的身份，从而校验语音信号的合法性。播放设备的安全地址可以包括播放设备的网络地址、设备ID、播放设备与提供多媒体内容播放服务的服务端之间的进行安全认证的ssl(Secure socket layer，安全套接层)证书等，可以通过校验播放设备的网络地址、设备ID、ssl证书来对播放设备的安全性进行验证，从而校验播放设备接收的语音信号的安全性。这样可以保证客户端和服务端之间的双向校验，防止服务端后台被劫持后无法播放多媒体内容，提升用户交互操作的安全性。

播放设备的安全认证信息和用户账户的安全认证信息均通过认证之后，可以确定语音信号通过合法性验证；若播放设备的安全认证信息和用户账户的安全认证信息中的至少一个未通过验证，则可以确定语音信号未通过合法性验证。这时，上述执行主体可以屏蔽不合法的语音信号，不执行后续的语音识别等操作。

步骤402，响应于语音信号的合法性验证通过，对语音信号进行语音识别得到对应的语音信息。

在本实施例中，在语音信号的合法性验证通过之后，可以采用语音对语音信号进行特征提取，并基于提取的特征进行语义等的识别，得到对应的语音信息。

步骤403，将语音信息与已获取的引导信息对应的模板信息进行匹配。

在这里，模板信息可以是预先配置的信息。在本实施例中，可以通过将用户的语音信号对应的语音信息与已获取的引导信息对应的模板信息进行匹配来判断是否满足跳过播放当前多媒体内容的条件。

步骤404，响应于确定语音信息与引导信息对应的模板信息匹配成功，生成执行跳过播放当前多媒体内容的操作的命令。

若步骤403中语音信息与引导信息对应的模板信息匹配成功，可以确定满足跳过播放当前多媒体内容的条件，上述执行主体可以生成执行跳过播放当前多媒体内容的命令。当上述执行主体是提供多媒体内容播放服务的服务端时，该执行主体可以将生成的命令发送至播放当前多媒体内容的客户端。当上述执行主体是播放多媒体内容的客户端时，上述执行主体可以生成执行跳过播放当前多媒体内容的命令并跳过播放当前多媒体内容。

需要说明的是，上述多媒体播放方法的流程400中的步骤402中对语音信号进行识别得到对应的语音信息的操作、步骤403、步骤404分别与前述实施例中步骤201、步骤202、步骤203的具体实现方式相同，上文针对步骤201、步骤202、步骤203的描述也适用于对步骤402中对语音信号进行语音识别得到对应的用户指令文本的操作、步骤403、步骤404。

此外，上文针对图2所示的多媒体内容播放方法的实施例的各可选实现方式也可以应用于图4所示的多媒体内容播放方法的实施例，此处不再赘述。

本申请上述实施例提供的播放多媒体内容的方法流程400，在图2所示实施例的基础上增加了对用户的语音信号的合法性进行验证的步骤，由此提升了播放多媒体内容过程中对用户交互操作的安全防护性能。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种多媒体内容播放装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的多媒体内容播放装置500包括：识别单元501、匹配单元502以及生成单元503。识别单元501可以用于响应于检测到用户根据呈现的当前多媒体内容的引导信息发出的语音信号，对语音信号进行识别得到对应的语音信息；匹配单元502可以用于将语音信息与已获取的引导信息对应的模板信息进行匹配；生成单元503可以用于响应于确定语音信息与引导信息对应的模板信息匹配成功，生成执行跳过播放当前多媒体内容的操作的命令。

在本实施例中，识别单元501可以检测是否接收到用户发出的语音信号，并判断该语音信号是否为根据呈现的当前多媒体内容的引导信息发出的。在检测到上述用户根据呈现的当前多媒体内容的引导信息发出的语音信号之后，可以对语音信号进行解析，识别出语音信号对应的语音信息。语音信息可以包括用于表征语音信号的声音特征的信息和/或用于表征语音信号所包含的语义的信息。

匹配单元502可以采用多种方式对识别单元501得出的语音信息和已获取的引导信息对应的模板信息进行匹配。例如可以直接对语音信息与上述引导信息对应的模板信息进行文本内容的匹配，当匹配度超过预设的匹配度阈值时可以确定二者的语义匹配成功。又例如可以采用自然语言处理方法对文本形式或转换为特征向量表示的语音信息和已获取的引导信息对应的模板信息的语义进行匹配。

生成单元503可以在匹配单元502确定匹配成功时确定满足跳过播放当前多媒体内容的条件，进而生成执行跳过播放当前多媒体内容的操作的命令。

在一些可选的实现方式中，装置500还可以包括：获取单元，用于获取当前多媒体内容的播放配置信息，播放配置信息包括当前多媒体内容的引导信息、引导信息的呈现方式信息以及与引导信息对应的模板信息。

在一些可选的实现方式中，上述引导信息可以用于引导用户发出跳过播放所述当前多媒体内容的语音指令，上述模板信息可以包括模板指令，上述识别单元501可以进一步用于按照如下方式对语音信号进行识别得到对应的语音信息：将语音信号转换为对应的用户指令文本；上述匹配单元502可以进一步用于按照如下方式将语音信息与已获取的引导信息对应的模板信息进行匹配：将用户指令文本与已获取的引导信息对应的模板指令进行语义匹配。

在一些可选实现方式中，上述引导信息和引导信息对应的模板信息可以包括按照如下方式确定的引导信息和模板信息：基于预设多媒体内容库对当前多媒体内容进行解析，提取多媒体内容所包含的关键语句；将关键语句确定为模板信息；获取为关键语句配置的对应的引导信息。

在进一步的可选实现方式中，预设多媒体内容库包括具有关键内容标识的多条多媒体内容；作为模板信息的关键语句可以是按照如下方式提取的：从当前多媒体内容的文本内容中提取出多个候选语句；确定预设多媒体内容库中与当前多媒体内容具有相同的关键内容标识的多媒体内容为当前多媒体内容的关联多媒体内容；确定预设多媒体内容库中与当前多媒体内容具有不同的关键内容标识的多媒体内容为当前多媒体内容的非关联多媒体内容；确定包含每个候选语句关联多媒体内容的数量和包含每个候选语句的非关联多媒体内容的数量；根据包含各候选语句的关联多媒体内容的数量和非关联多媒体内容的数量，从候选语句中确定出当前多媒体内容的关键语句。

在一些可选的实现方式中，上述识别单元501可以进一步用于按照如下方式对语音信号进行语音识别得到对应的语音信息：响应于检测到用户根据引导信息发出的语音信号，对语音信号的合法性进行验证；响应于语音信号的合法性验证通过，对语音信号进行语音识别得到对应的语音信息。

在一些可选的实现方式中，上述识别单元501可以进一步用于按照如下方式对语音信号的合法性进行验证：响应于检测到用户根据引导信息发出的语音信号，获取用户观看当前多媒体内容所使用的播放设备和用户账户的安全认证信息；对播放设备的安全认证信息和用户账户的安全认证信息进行认证；响应于播放设备的安全认证信息和用户账户的安全认证信息均通过认证，确定语音信号的合法性验证通过。

在一些可选的实现方式中，装置500还可以包括：第一提示单元，用于响应于确定语音信息与引导信息对应的模板信息匹配成功，生成用于提示用户成功跳过当前播放的多媒体内容的第一提示信息。

在一些可选的实现方式中，装置500还可以包括：第二提示单元，用于响应于确定语音信息与引导信息对应的模板信息匹配失败，生成用于提示用户未成功跳过当前播放的多媒体内容的第二提示信息。

装置500中记载的诸单元与参考图2和图4描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置500及其中包含的单元，在此不再赘述。

本申请上述实施例的多媒体内容播放装置，通过识别单元响应于检测到用户根据呈现的当前多媒体内容的引导信息发出的语音信号，对语音信号进行识别得到对应的语音信息；匹配单元将语音信息与已获取的引导信息对应的模板信息进行匹配；生成单元响应于确定语音信息与引导信息对应的模板信息匹配成功，生成执行跳过播放当前多媒体内容的操作的命令，实现了多媒体内容获取效率的提升。

下面参考图6，其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央生成单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央生成单元(CPU)601执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括识别单元、匹配单元和生成单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，识别单元还可以被描述为“响应于检测到用户根据呈现的当前多媒体内容的引导信息发出的语音信号，对语音信号进行识别得到对应的语音信息的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：响应于检测到用户根据呈现的当前多媒体内容的引导信息发出的语音信号，对语音信号进行识别得到对应的语音信息；将语音信息与已获取的引导信息对应的模板信息进行匹配；响应于确定语音信息与引导信息对应的模板信息匹配成功，生成执行跳过播放当前多媒体内容的操作的命令。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种多媒体内容播放方法，包括：

响应于检测到用户根据呈现的当前多媒体内容的引导信息发出的语音信号，对所述语音信号进行识别得到对应的语音信息；

将所述语音信息与已获取的所述引导信息对应的模板信息进行匹配；

响应于确定所述语音信息与所述引导信息对应的模板信息匹配成功，生成执行跳过播放当前多媒体内容的操作的命令；

其中，所述引导信息和所述引导信息对应的模板信息包括按照如下方式确定的引导信息和模板信息：

基于预设多媒体内容库对所述当前多媒体内容进行解析，提取所述多媒体内容所包含的关键语句；

将所述关键语句确定为所述模板信息；

获取为所述关键语句配置的对应的引导信息。

2.根据权利要求1所述的方法，其中，所述方法还包括：

获取当前多媒体内容的播放配置信息，所述播放配置信息包括所述当前多媒体内容的引导信息、所述引导信息的呈现方式信息以及与所述引导信息对应的模板信息。

3.根据权利要求1所述的方法，其中，所述引导信息用于引导用户发出跳过播放所述当前多媒体内容的语音指令，所述模板信息包括模板指令；

所述对所述语音信号进行识别得到对应的语音信息，包括：

将所述语音信号转换为对应的用户指令文本；

所述将所述语音信息与已获取的所述引导信息对应的模板信息进行匹配，包括：

将所述用户指令文本与已获取的所述引导信息对应的模板指令进行语义匹配。

4.根据权利要求1所述的方法，其中，所述预设多媒体内容库包括具有关键内容标识的多条多媒体内容；

所述基于预设多媒体内容库对所述当前多媒体内容进行解析，提取所述多媒体内容所包含的关键语句，包括：

从所述当前多媒体内容的文本内容中提取出多个候选语句；

确定预设多媒体内容库中与所述当前多媒体内容具有相同的关键内容标识的多媒体内容为所述当前多媒体内容的关联多媒体内容；

确定预设多媒体内容库中与所述当前多媒体内容具有不同的关键内容标识的多媒体内容为所述当前多媒体内容的非关联多媒体内容；

确定包含每个候选语句关联多媒体内容的数量和包含每个候选语句的非关联多媒体内容的数量；

根据包含各候选语句的关联多媒体内容的数量和非关联多媒体内容的数量，从候选语句中确定出所述当前多媒体内容的关键语句。

5.根据权利要求1所述的方法，其中，所述响应于检测到用户根据呈现的当前多媒体内容的引导信息发出的语音信号，对所述语音信号进行识别得到对应的语音信息，包括：

响应于检测到用户根据所述引导信息发出的语音信号，对所述语音信号的合法性进行验证；

响应于所述语音信号的合法性验证通过，对所述语音信号进行语音识别得到对应的语音信息。

6.根据权利要求5所述的方法，其中，所述响应于检测到用户根据所述引导信息发出的语音信号，对所述语音信号的合法性进行验证，包括：

响应于检测到用户根据所述引导信息发出的语音信号，获取用户观看所述当前多媒体内容所使用的播放设备和用户账户的安全认证信息；

对所述播放设备的安全认证信息和所述用户账户的安全认证信息进行认证；

响应于所述播放设备的安全认证信息和所述用户账户的安全认证信息均通过认证，确定所述语音信号的合法性验证通过。

7.根据权利要求1所述的方法，其中，所述方法还包括：

响应于确定所述语音信息与所述引导信息对应的模板信息匹配成功，生成用于提示用户成功跳过当前播放的多媒体内容的第一提示信息。

8.根据权利要求1-7任一项所述的方法，其中，所述方法还包括：

响应于确定所述语音信息与所述引导信息对应的模板信息匹配失败，生成用于提示用户未成功跳过当前播放的多媒体内容的第二提示信息。

9.一种多媒体内容播放装置，包括：

识别单元，用于响应于检测到用户根据呈现的当前多媒体内容的引导信息发出的语音信号，对所述语音信号进行识别得到对应的语音信息；

匹配单元，用于将所述语音信息与已获取的所述引导信息对应的模板信息进行匹配；

生成单元，用于响应于确定所述语音信息与引导信息对应的模板信息匹配成功，生成执行跳过播放当前多媒体内容的操作的命令；

将所述关键语句确定为所述模板信息；

获取为所述关键语句配置的对应的引导信息。

10.根据权利要求9所述的装置，其中，所述装置还包括：

获取单元，用于获取当前多媒体内容的播放配置信息，所述播放配置信息包括所述当前多媒体内容的引导信息、所述引导信息的呈现方式信息以及与所述引导信息对应的模板信息。

11.根据权利要求9所述的装置，其中，所述引导信息用于引导用户发出跳过播放所述当前多媒体内容的语音指令，所述模板信息包括模板指令；

所述识别单元进一步用于按照如下方式对所述语音信号进行识别得到对应的语音信息：

将所述语音信号转换为对应的用户指令文本；

所述匹配单元进一步用于按照如下方式将所述语音信息与已获取的所述引导信息对应的模板信息进行匹配：

12.根据权利要求9所述的装置，其中，所述预设多媒体内容库包括具有关键内容标识的多条多媒体内容；

作为所述模板信息的关键语句是按照如下方式提取的：

从所述当前多媒体内容的文本内容中提取出多个候选语句；

13.根据权利要求9所述的装置，其中，所述识别单元进一步用于按照如下方式对所述语音信号进行语音识别得到对应的语音信息：

14.根据权利要求13所述的装置，其中，所述识别单元进一步用于按照如下方式对所述语音信号的合法性进行验证：

15.根据权利要求9所述的装置，其中，所述装置还包括：

第一提示单元，用于响应于确定所述语音信息与所述引导信息对应的模板信息匹配成功，生成用于提示用户成功跳过当前播放的多媒体内容的第一提示信息。

16.根据权利要求9-15任一项所述的装置，其中，所述装置还包括：

第二提示单元，用于响应于确定所述语音信息与所述引导信息对应的模板信息匹配失败，生成用于提示用户未成功跳过当前播放的多媒体内容的第二提示信息。

17.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

18.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。