CN111261157A

CN111261157A - 一种短视频的控制方法、装置、设备及存储介质

Info

Publication number: CN111261157A
Application number: CN202010005467.0A
Authority: CN
Inventors: 刘奇; 张钰; 祝伊军
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2020-06-09

Abstract

本发明公开了一种短视频的控制方法、装置、设备及存储介质。短视频的控制方法包括：对第一语音信息进行语音识别获得文本信息；根据文本信息确定用户针对短视频的控制意图；根据控制意图确定操作指令；对短视频执行操作指令。根据语音信息就可以获取到用户针对短视频的控制意图，并根据控制意图确定操作指令，并对短视频执行操作指令，从而根据语音信息就可以实现对短视频的操控，使得适用短视频应用程序的终端设备更加广泛，短视频控制更加便捷，从而提高了用户的体验效果。

Description

一种短视频的控制方法、装置、设备及存储介质

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种短视频的控制方法、装置、设备及存储介质。

背景技术

随着互联网及新媒体技术的快速发展，短视频平台因其内容短、平、快的特性，用户可以通过终端的应用程序对短视频进行控制，其中，控制方式包括观看、点赞、评论甚至购物等。

发明人在实现本发明的过程中，发现现有技术存在如下缺陷：目前针对短视频的操控主要依赖于用户的手动操作，但是适用短视频应用程序的终端设备会有一定的局限性，例如，用户在电视上使用短视频应用程序时，会无法进行点赞、评论等操作；并且针对手机上的短视频应用程序，在采用手动操作时，如果用户双手进行其他动作操作，也无法完成对短视频的操控，从而降低了用户的体验效果。

发明内容

本发明实施例提供一种短视频的控制方法、装置、设备及存储介质，以实现对短视频的便捷控制。

第一方面，本发明实施例提供了一种短视频的控制方法，包括：

对第一语音信息进行语音识别获得文本信息；

根据文本信息确定用户针对短视频的控制意图；

根据控制意图确定操作指令；

对短视频执行操作指令。

第二方面，本发明实施例还提供了一种短视频的控制装置，包括：

文本信息获取模块，用于对第一语音信息进行语音识别获得文本信息；

控制意图确定模块，用于根据文本信息确定用户针对短视频的控制意图；

操作指令确定模块，用于根据控制意图确定操作指令；

操作指令执行模块，用于对短视频执行操作指令。

第三方面，本发明实施例还提供了一种设备，设备包括：一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现短视频的控制方法。

第四方面，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现短视频的控制方法。

本发明实施例提供了一种短视频的控制方法、装置、设备及存储介质，根据语音信息就可以获取到用户针对短视频的控制意图，并根据控制意图确定操作指令，并对短视频执行操作指令，从而根据语音信息就可以实现对短视频的操控，使得适用短视频应用程序的终端设备更加广泛，短视频控制更加便捷，从而提高了用户的体验效果。

附图说明

结合附图并参考以下具体实施方式，本发明各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1是本发明实施例一提供的短视频的控制方法的流程图；

图2是本发明实施例二提供的短视频的控制方法的流程图；

图3是本发明实施例三提供的短视频的控制装置结构示意图；

图4是本发明实施例四提供的设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

应当理解，本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。

实施例一

图1是本发明实施例提供的短视频的控制方法的流程图，本实施例可适用于对短视频进行操控，该方法可以由本发明实施例提供的短视频的控制装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在设备中。本发明实施例的方法具体包括：

步骤101，对第一语音信息进行语音识别获得文本信息。

可选的，对第一语音信息进行语音识别获得文本信息之前，还包括：获取第二语音信息；对第二语音信息进行检测，并根据检测结果确定第二语音信息中包含唤醒词，其中，唤醒词用于指示进入短视频语音控制。

具体的说，本实施方式中，在对短视频进行语音控制之前，需要确定获取到第二语音信息，并对第二语音信息进行检测，在确定第二语音信息中包含唤醒词的情况下，则开启短视频语音控制程序，本实施方式中的唤醒词可以是：短视频应用程序、短视频应用开启或短视频应用程序进入，当然，本实施方式中仅是举例进行说明，而并不限定唤醒词的具体内容，只要能够实现进入短视频语音控制的应用环境都是在本申请的保护范围内的，本申请实施方式中并不进行限定。

其中，在确定第二语音信息中包含唤醒词的情况下，才能获取到用户的第一语音信息，第一语音信息是用于确定针对短视频的控制意图的。而在确定第二语音信息中未包含唤醒词的情况下，则不开启短视频语音控制的应用环境，相应的也就不会获取用户的第一语音信息，以及相关处理操作，从而降低了设备的能耗。

具体的说，在确定获取到用户的第一语音信息时，会对第一语音信息进行语音识别，即将第一语音信息转换成文本信息，关于语音识别的具体原理并不是本申请的重点，因此，本实施方式中不再进行赘述。

步骤102，根据文本信息确定用户针对短视频的控制意图。

可选的，根据文本信息确定用户针对短视频的控制意图，可以包括：对文本信息进行关键词提取获得提取结果；根据提取结果查询控制意图配置列表获得用户针对短视频的控制意图，其中，控制意图配置列表中保存了关键词和控制意图的对应关系。

可选的，提取结果包括：提取到关键词和未提取到关键词；根据提取结果查询控制意图配置列表获得用户针对短视频的控制意图，可以包括：在确定提取结果包含未提取到关键词时，发出报警提示；或者，在确定提取结果包含提取到关键词时，获取关键词；根据关键词查询控制意图配置列表获得用户针对短视频的控制意图。

可选的，控制意图包含第一类意图和第二类意图，其中，第一类意图：包括：短视频播放控制、短视频收藏、短视频点赞或短视频关注，所述第二类意图包括：打开评论和打开购物车。

具体的说，本实施方式中，对文本信息进行关键词提取获得提取结果，在确定文本信息中不包含关键词的情况下，则确定提取结果为未提取到关键词，并在确定未提取到关键词时，发出报警提示，报警提示具体可以是“听不懂您的意思，请换句说法”。在确定提取到关键词时，则提取结果为提取到关键词，并获取所提取的关键词，本实施方式中的关键词可以是提前所设定的，例如，包括：播放、收藏、点赞、关注打开评论或者打开购物车，当然，本实施方式中仅是举例进行说明，而并不限定关键词的具体类型。根据文本信息中所提取的关键词查询控制意图配置列表，获得用户针对短视频的控制意图，其中，控制意图配置列表中保存了关键词和控制意图的对应关系。控制意图配置列表如下表1所示：

表1

关键词	控制意图
		播放	短视频播放控制
收藏	短视频收藏
		点赞	短视频点赞
关注	关注短视频作者
		打开评论	打开短视频评论
打开购物车	打开短视频应用购物车

例如，提取的关键词为播放，则根据“播放”查询如表1所示的控制意图配置列表，获得用户针对短视频的控制意图为“短视频播放控制”，表示用户需要打开当前的短视频进行观看。

步骤103，根据控制意图确定操作指令。

具体的说，在根据文本信息确定用户针对短视频的控制意图之后，可以进一步根据控制意图确定执行指令，并且提前设定了每一个控制意图所对应的执行指令，例如，控制意图“短视频播放控制”对应的为执行指令1；控制意图“短视频收藏”对应的为执行指令2；控制意图“短视频收藏”对应的为执行指令3，；控制意图“短视频点赞”对应的为执行指令4；控制意图“关注短视频作者”对应的为执行指令5；控制意图“打开短视频评论”对应的为执行指令6；控制意图“打开短视频应用购物车”对应的为执行指令6。并且每一个不同的执行指令分别对应不同的编码程序，运行该执行指令指令对应的编码程序，就可以实现对应的控制意图。当然，本申请实施方式中仅是举例进行说明，而并不限定执行指令的具体类型，只要执行指令的操作结果与用户的控制意图对应，都是在本申请的保护范围内，本申请实施方式中不再进行赘述。

步骤104，对短视频执行操作指令。

可选的，对短视频执行操作指令之后，还可以包括：在确定控制意图包括第一类意图时，结束短视频语音控制；在确定控制意图包括第二类意图时，则不结束短视频语音控制，并进入新一轮语音识别确定第三类意图。

可选的，控制意图还包括第三类意图，其中，所述第三类意图包括：继续浏览评论、退出评论、退出购物车或选择商品。

具体的说，在对短视频执行操作指令之后，如果确定执行指令对应的是第一类意图，则执行完对应的操作指令之后，直接结束短视频语音控制，即结束本轮对话，例如，控制意图为短视频播放控制，则在执行完执行指令1后，不再接收用户的语音信息，结束短视频语音控制，本轮对话结束。如果确定执行指令对应的是第二类意图，则执行完对应的操作指令之后，不结束短视频语音控制，即进入新一轮语音识别确定第三类意图，例如，控制意图为打开短视频评论，则在执行完执行指令6后，不结束对话，继续接收用户的语音信息，对继续接收的语音信息进行识别，如果确定意图为继续浏览评论，则执行对应的操作指令。

实施例二

图2是本发明实施例提供的短视频的控制方法的流程图，本实施方式在对短视频执行操作指令后，进一步增加了对执行结果进行检测的步骤。

步骤201，对第一语音信息进行语音识别获得文本信息。

步骤202，根据文本信息确定用户针对短视频的控制意图。

步骤203，根据控制意图确定操作指令。

步骤204，对短视频执行操作指令。

步骤205，对执行结果进行检测。

具体的说，本实施方式中在对短视频执行操作指令后，还可对执行结果进行检测，如果确定检测结果异常，则重新执行上述步骤202至204。

例如，在根据文本信息确定用户针对短视频的控制意图为“短视频播放控制”，而根据控制意图确定出操作指令，并对短视频执行操作指令之后，发现短视频并没有播放，则说明根据文本信息确定控制意图的过程出现错误，或者根据控制意图确定出的操作指令不准确，或者终端设备出现故障，通过对执行结果进行检测，可以确定出现故障的原因，并及时进行程序调整或设备维修，从而提高短视频语音控制的准确性。

本发明实施例提供了一种短视频的控制方法、装置、设备及存储介质，根据语音信息就可以获取到用户针对短视频的控制意图，并根据控制意图确定操作指令，并对短视频执行操作指令，从而根据语音信息就可以实现对短视频的操控，使得适用短视频应用程序的终端设备更加广泛，短视频控制更加便捷，从而提高了用户的体验效果。通过对还行结果进行检测，可以进一步提高短视频语音控制的准确性。

实施例三

图3是本发明实施例提供的短视频的控制装置的结构示意图。如图3所示该装置可采用软件和/或硬件的方式实现，并一般可集成在设备中。如图3所示，装置包括：文本信息获取模块301、控制意图确定模块302、操作指令确定模块303和操作指令执行模块304。

其中，文本信息获取模块301，用于对第一语音信息进行语音识别获得文本信息；控制意图确定模块302，用于根据文本信息确定用户针对短视频的控制意图；操作指令确定模块303，用于根据控制意图确定操作指令；操作指令执行模块304，用于对短视频执行操作指令。

本发明实施例提供的短视频的控制装置，与上述各实施例提供的短视频的控制方法属于同一发明构思，未在本发明实施例中详尽描述的技术细节可参见上述各实施例，并且本发明实施例与上述各实施例具有相同的有益效果。

实施例四

图4是本发明实施例提供的一种设备的结构示意图。图4示出了适用于用来实现本发明实施方式的示例性设备412的框图。图4显示的设备412仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，设备412以通用计算设备的形式出现。设备412的组件可以包括但不限于：一个或者多个处理器416，存储器428，连接不同系统组件(包括存储器428和处理器416)的总线418.

总线418表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备412访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器428用于存储指令。存储器428可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)430和/或高速缓存存储器432。设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储器428可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块442的程序/实用工具440，可以存储在例如存储器428中，这样的程序模块442包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。

设备412也可以与一个或多个外部设备414(例如键盘、指向设备、显示器424等)通信，还可与一个或者多个使得用户能与该设备412交互的设备通信，和/或与使得该设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且，设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器420通过总线418与设备412的其它模块通信。应当明白，尽管图4中未示出，可以结合设备412使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器416通过运行存储在存储器428中的指令，从而执行各种功能应用以及数据处理，例如执行以下操作：对第一语音信息进行语音识别获得文本信息；根据文本信息确定用户针对短视频的控制意图；根据控制意图确定操作指令；对短视频执行操作指令。

实施例五

本发明实施例五提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任一实施例所提供的方法。

也即：对第一语音信息进行语音识别获得文本信息；根据文本信息确定用户针对短视频的控制意图；根据控制意图确定操作指令；对短视频执行操作指令。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种短视频的控制方法，其特征在于，包括：

对第一语音信息进行语音识别获得文本信息；

根据所述文本信息确定用户针对短视频的控制意图；

根据所述控制意图确定操作指令；

对所述短视频执行所述操作指令。

2.根据权利要求1所述的方法，其特征在于，所述根据所述文本信息确定用户针对短视频的控制意图，包括：

对所述文本信息进行关键词提取获得提取结果；

根据所述提取结果查询控制意图配置列表获得用户针对短视频的控制意图，其中，所述控制意图配置列表中保存了关键词和控制意图的对应关系。

3.根据权利要求2所述的方法，其特征在于，所述提取结果包括：提取到关键词和未提取到关键词；

所述根据所述提取结果查询控制意图配置列表获得用户针对短视频的控制意图，包括：

在确定所述提取结果包含所述未提取到关键词时，发出报警提示；或者，

在确定所述提取结果包含提取到关键词时，获取关键词；

根据所述关键词查询控制意图配置列表获得用户针对短视频的控制意图。

4.根据权利要求3所述的方法，其特征在于，所述控制意图包含第一类意图和第二类意图，其中，所述第一类意图：包括：短视频播放控制、短视频收藏、短视频点赞或关注短视频作者，所述第二类意图包括：打开短视频评论和打开短视频应用购物车。

5.根据权利要求4所述的方法，其特征在于，所述对第一语音信息进行语音识别获得文本信息之前，还包括：

获取第二语音信息；

对所述第二语音信息进行检测，并根据检测结果确定所述第二语音信息中包含唤醒词，其中，所述唤醒词用于指示进入短视频语音控制。

6.根据权利要求5所述的方法，其特征在于，所述控制意图还包括第三类意图，其中，所述第三类意图包括：

继续浏览评论、退出评论、退出购物车或选择商品。

7.根据权利要求6所述的方法，其特征在于，所述对所述短视频执行所述操作指令之后，还包括：

在确定所述控制意图包括所述第一类意图时，结束所述短视频语音控制；

在确定所述控制意图包括所述第二类意图时，则不结束所述短视频语音控制，并进入新一轮语音识别确定所述第三类意图。

8.一种短视频的控制装置，其特征在于，包括：

控制意图确定模块，用于根据所述文本信息确定用户针对短视频的控制意图；

操作指令确定模块，用于根据所述控制意图确定操作指令；

操作指令执行模块，用于对短视频执行所述操作指令。

9.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。