CN111833903B

CN111833903B - 一种执行操作任务的方法及装置

Info

Publication number: CN111833903B
Application number: CN201910324095.5A
Authority: CN
Inventors: 黄伟铭
Original assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Guangzhou Kingsoft Mobile Technology Co Ltd
Current assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Guangzhou Kingsoft Mobile Technology Co Ltd
Priority date: 2019-04-22
Filing date: 2019-04-22
Publication date: 2024-06-18
Anticipated expiration: 2039-04-22
Also published as: CN111833903A

Abstract

本申请实施例提供了一种执行操作任务的方法及装置，涉及计算机技术领域，所述方法包括：当电子设备接收到对应目标文档的语音朗读指令时，播放所述目标文档对应的音频数据。当电子设备检测到外界音频信号时，确定所述外界音频信号的第一音频特征。根据第二音频特征和操作任务的对应关系，电子设备确定所述第一音频特征对应的第一操作任务。电子设备执行所述第一操作任务。采用本申请可以实现用户在使用电子设备对文章进行语音朗读时，通过声音控制电子设备，使操作电子设备的流畅度大大提升，用户体验大大提升。

Description

一种执行操作任务的方法及装置

技术领域

本申请涉及信号处理技术领域，特别是涉及一种执行操作任务的方法及装置。

背景技术

目前，终端通常具有检测音频信号以及具有播放音频信号功能的终端，用户可以在终端中安装具有语音朗读功能的应用程序，以便通过电子设备对文章进行语音朗读。

用户在使用语音朗读功能时，往往有暂停语音朗读的需求，此时，用户需要在电子设备中手动输入暂停指令来暂停语音朗读。如果用户在语音朗读时听到一段触动心弦的文字，并且想给这段内容加批注，还要手动对电子设备输入批注指令，才能添加批注。

用户在电子设备中手动输入指令来控制语音朗读的方法过于繁琐，因此，用户既不能实现连贯的操作，也不能及时输入暂停、批注等指令，导致用户体验较差。

发明内容

本申请实施例的目的在于提供一种执行操作任务的方法及装置，以方便对电子设备的控制。具体技术方案如下：

第一方面，提供了一种执行操作任务的方法，所述方法应用于电子设备，所述方法包括：

当接收到对应目标文档的语音朗读指令时，播放所述目标文档对应的音频数据；

当检测到外界音频信号时，确定所述外界音频信号的第一音频特征；

根据第二音频特征和操作任务的对应关系，确定所述第一音频特征对应的第一操作任务；

执行所述第一操作任务。

可选的，所述当检测到外界音频信号时，确定所述外界音频信号的第一音频特征，包括：

当检测到外界音频信号时，提取所述外界音频信号的第一频率特征和第一声纹特征；

将所述第一频率特征和所述第一声纹特征构成第一音频特征。

可选的，所述根据第二音频特征和操作任务的对应关系，确定所述第一音频特征对应的第一操作任务，包括：

在所述第二音频特征和操作任务的对应关系中，查找所述第一声纹特征；

如果存在所述第一声纹特征，则在所述第二音频特征和操作任务的对应关系中，确定所述第一频率特征对应的第一操作任务。

可选的，所述方法还包括：

当接收到用户输入的音频特征录入指令时，检测所述外界音频信号，并确定所述第二音频特征；

当接收到用户输入的操作任务设置指令时，存储所述第二音频特征与用户输入的操作任务的对应关系。

第二方面，提供了一种执行操作任务的装置，所述装置应用于电子设备，所述装置包括：

播放模块，用于当接收到对应目标文档的语音朗读指令时，播放所述目标文档对应的音频数据；

第一确定模块，用于当检测到外界音频信号时，确定所述外界音频信号的第一音频特征；

第二确定模块，用于根据第二音频特征和操作任务的对应关系，确定所述第一音频特征对应的第一操作任务；

执行模块，用于执行所述第一操作任务。

可选的，所述第一确定模块，具体用于：

可选的，所述第二确定模块，具体用于：

可选的，所述装置还包括：

第三确定模块，用于当接收到用户输入的音频特征录入指令时，检测所述外界音频信号，并确定所述第二音频特征；

存储模块，用于当接收到用户输入的操作任务设置指令时，存储所述第二音频特征与用户输入的操作任务的对应关系。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法步骤。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本申请实施例提供的一种执行操作任务的方法及装置，当电子设备接收到对应目标文档的语音朗读指令时，播放所述目标文档对应的音频数据。当电子设备检测到外界音频信号时，确定所述外界音频信号的第一音频特征。根据第二音频特征和操作任务的对应关系，电子设备确定所述第一音频特征对应的第一操作任务。电子设备执行所述第一操作任务。这样，用户在使用电子设备对文章进行语音朗读时，可以实现通过声音控制电子设备，使操作电子设备的流畅度大大提升，用户体验大大提升。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种执行操作任务的方法流程图；

图2为本申请实施例提供的一种执行操作任务的方法流程图；

图3为本申请实施例提供的一种执行操作任务的装置的结构示意图；

图4为本申请实施例提供的一种执行操作任务的装置的结构示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种执行操作任务的方法，该方法可以应用于具有检测音频信号以及具有播放音频信号功能的电子设备，该电子设备可以为移动终端，例如：手机、平板电脑等。

下面将结合具体实施方式，对本申请实施例提供的一种执行操作任务的方法进行详细的说明，如图1所示，具体步骤如下：

步骤101、当接收到对应目标文档的语音朗读指令时，播放目标文档对应的音频数据。

本申请实施例中，用户可以对电子设备输入语音朗读指令，当电子设备接收到用户输入的语音朗读指令时，可以播放目标文档对应的音频数据。其中，目标文档可以是包含文字信息的文档，例如：小说、作文等，音频数据可以通过电子设备的音频播放部件(比如扬声器)播放。

步骤102、当检测到外界音频信号时，确定外界音频信号的第一音频特征。

其中，音频特征可以包括频率特征和/或声纹特征。频率特征是外界音频信号预设时长内周期性变化的次数，声纹特征是用电声学仪器显示的携带言语信息的声波频谱。

本申请实施例中，当电子设备处于检测外界音频信号状态时，可以通过声音检测部件检测到外界音频信号。当电子设备检测到外界音频信号时，可以通过预先存储的声纹特征识别算法(比如语音信号处理、声纹特征提取、声纹建模、声纹比对、判别决策等)、以及频率特征识别算法处理外界音频信号，提取外界音频信号的频率特征和声纹特征，将频率特征和声纹特征存储在电子设备中。其中，现有技术中的任意用于识别声纹特征的算法、以及用于识别频率特征的算法均可以应用于本申请实施例中，本申请实施例不做限定。

可选的，当电子设备检测到外界音频信号时，确定外界音频信号的第一音频特征，具体步骤可以包括：

步骤一、当检测到外界音频信号时，提取外界音频信号的第一频率特征和第一声纹特征。

本申请实施例中，当电子设备的声音检测部件(比如麦克风)检测到外界音频信号时，会提取外界音频信号中的频率特征以及声纹特征。电子设备可以分别确定外界音频信号的第一频率特征和第一声纹特征。

步骤二、将第一频率特征和第一声纹特征构成第一音频特征。

本申请实施例中，电子设备将外界音频信号的第一频率特征和第一声纹特征组合在一起，构成外界音频信号的第一音频特征，也即外界音频信号的第一音频特征包括第一频率特征和第一声纹特征。

步骤103、根据第二音频特征和操作任务的对应关系，确定第一音频特征对应的第一操作任务。

本申请实施例中，电子设备可以根据第二音频特征和操作任务的对应关系，确定第一音频特征和对应的第一操作任务。当电子设备确定第一音频特征后，电子设备可以在第二音频特征和操作任务的对应关系中，确定与第一音频特征相同的音频特征。如果存在与第一音频特征相同的音频特征，则电子设备可以在音频特征和操作任务的对应关系中，进一步确定第一音频特征对应的第一操作任务。如果不存在与第一音频特征相同的音频特征，则不进行操作。

可选的，电子设备确定第一音频特征后，如果存在与第一音频特征相同的第二音频特征，则电子设备根据该第二音频特征中的频率特征与操作任务的对应关系，以及电子设备播放目标文档对应的音频数据的状态(比如播放状态、暂停状态、停止状态等)，确定第一操作任务。如果不存在与第一音频特征相同的音频特征，则不进行操作。例如，若电子设备处于播放目标文档对应的音频数据的状态，并且电子设备检测到频率特征为1的第一音频特征，则电子设备暂停播放目标文档对应的音频数据，若电子设备处于暂停播放目标文档对应的音频数据的状态，并且电子设备检测到频率特征为1的第一音频特征，则电子设备继续播放目标文档对应的音频数据。

本申请实施例提供一种确定第一音频特征和对应的第一操作任务的示例，但不仅限于这一种，具体步骤可以是：第二音频特征为一种响指声音的音频特征，当电子设备确定第一音频特征后，电子设备可以判断该音频特征是否为预先存储的响指声音信号的音频特征，如果判断结果为是，则确定响指声音信号对应的操作任务，作为第一操作任务。

可选的，对于音频特征包括频率特征和声纹特征的情况，相应的，步骤103的处理过程可以包括以下步骤：

步骤一、在第二音频特征和操作任务的对应关系中，查找所述第一声纹特征。

本申请实施例中，音频特征和操作任务的对应关系可以包括：预设的声纹特征，以及该声纹特征对应的频率特征与操作任务的对应关系。当电子设备确定外界音频信号的第一音频特征后，可以将第一声纹特征与预设的声纹特征进行对比，以判断二者是否相同。如果相同，则说明第二音频特征和操作任务的对应关系中，存在第一声纹特征。

步骤二、如果存在所述第一声纹特征，则在第二音频特征和操作任务的对应关系中，确定所述第一频率特征对应的第一操作任务。

本申请实施例中，当电子设备确定了第一音频特征对应的第二音频特征后，提取第二音频特征中的频率特征。电子设备根据此频率特征与操作任务的对应关系，确定此频率特征对应的操作任务(即第一操作任务)。其中，频率特征与操作任务之间的对应关系并非一一对应，一个频率特征对应一个操作任务，而一个操作任务可以对应多个频率特征。

本申请实施例提供一种对应关系的示例，但不仅限于这一种，具体过程可以为：电子设备中预先存储的操作任务有：1、暂停播放音频信号；2、暂停播放音频信号并执行批注文档指令。当电子设备确定的第一音频特征的频率特征为1时，电子设备暂停播放音频信号，当电子设备确定的第一音频特征的频率特征大于等于2时，电子设备暂停播放音频信号并执行批注文档指令。此示例中，暂停播放音频信号对应第一音频特征的频率特征为1的情况，而暂停播放音频信号并执行批注文档指令对应频率特征为2，以及大于2的所有频率特征的情况。这样，用户在操作时更加灵活，用户体验也会更好。

可选的，本申请实施例还提供了一种建立音频特征与用户输入的操作任务的对应关系的方法，具体步骤可以包括：

步骤一、当接收到用户输入的音频特征录入指令时，检测外界音频信号，并确定第二音频特征。

本申请实施例中，电子设备需要预先存储音频特征，以及存储第二音频特征与操作任务之间的对应关系。当电子设备接收到用户输入的音频特征录入指令时，检测外界音频信号，提取并存储外界音频信号的频率特征和声纹特征，作为该外界音频信号的音频特征。此频率特征和声纹特征构成一个第二音频特征。其中，外界音频信号可以是用户打响指的声音。

本申请实施例提供一种音频特征录入的示例，但不仅限于这一种，具体步骤可以是：本示例中，第二音频特征为一种响指声音的音频特征，在录入此响指声音的音频特征时，电子设备会检测用户的响指声音，并确认响指声音的音频特征。其中，电子设备通过语音信号处理、声纹特征提取、声纹建模、声纹比对、判别决策等方法，确定响指声音的音频特征，响指声音的音频特征包括声纹特征与频率特征。声纹特征是用于区别不同音频特征的特征，频率特征是用于识别一种音频在一个周期时间内重复次数的特征，当电子设备确定了响指声音的音频特征后，将响指声音的音频特征存储在电子设备中。

步骤二、当接收到用户输入的操作任务设置指令时，存储第二音频特征与用户输入的操作任务的对应关系。

本申请实施例中，当接收到用户输入的操作任务设置指令时，提取第二音频特征，根据用户输入的操作任务设置指令，确定第二音频特征与用户输入的操作任务的对应关系并存储。这样，当电子设备再次检测到具有相同音频特征的外界音频信号时，可以将此音频信号匹配对应的操作任务。

本申请实施例提供一种建立第二音频特征与操作任务的对应关系的示例，但不仅限于这一种，具体步骤可以是：本示例中，第二音频特征为一种响指声音的音频特征，以及一种拍手声音的音频特征。在电子设备将响指声音和拍手声音的音频特征存储在电子设备中后，电子设备将响指声音和拍手声音的音频特征中的频率特征与操作任务进行匹配。当电子设备检测到一次响指声音时，执行暂停播放音频指令，当电子设备检测到两次及两次以上响指声音时，执行暂停播放音频指令，并在暂停播放音频的对应字符处执行添加语音批注指令。在电子设备接收到语音批注指令后，执行录音操作，将录制的音频存储在电子设备中，用户可以通过输入调取语音批注指令使电子设备播放录制的音频。当电子设备检测到一次拍手声音时，执行继续播放音频指令，当电子设备检测到两次拍手声音时，执行停止播放音频指令。

步骤104、执行第一操作任务。

本申请实施例中，电子设备确定第一音频特征和对应的第一操作任务后，执行第一操作任务。第一操作任务可以为：暂停播放音频信号、暂停播放音频信号并对文档添加批注、停止并退出播放音频信号、继续播放音频信号等。

本申请实施例提供一种执行第一操作任务的示例，但不仅限于这一种，具体步骤可以是：第二音频特征为一种响指声音的音频特征，当电子设备检测到一次响指声音信号时，电子设备执行暂停播放音频指令或继续播放音频指令，当检测到两次或两次以上响指声音信号时，电子设备执行暂停播放音频指令，并在暂停播放音频的对应字符处执行添加语音批注指令。

如图2所示，本申请实施例还提供一种执行操作任务的具体示例，对于音频特征可以包括频率特征和声纹特征的情况，具体步骤可以包括：

步骤201、在电子设备中预先存储一种响指声音信号的音频特征。

步骤202、当接收到对应目标文档的语音朗读指令时，播放所述目标文档对应的音频数据。

步骤203、检测外界音频信号，确定外界音频信号的第一音频特征。

步骤204、判断第一音频特征是否与预先存储的响指声音信号的音频特征相同。若第一音频特征与预先存储的响指声音信号的音频特征相同，则跳转步骤205，若第一音频特征与预先存储的响指声音信号的音频特征不相同，则跳转步骤203。

步骤205、判断第一音频特征的频率特征的数值。若第一音频特征的频率特征的数值为1，则跳转步骤206，若第一音频特征的频率特征的数值大于等于2，则跳转步骤207。

步骤206、执行暂停播放音频指令。

步骤207、执行暂停播放音频指令，并在暂停播放音频的对应字符处执行添加语音批注指令。

步骤208、判断音频数据是否播放完毕。若未播放完毕，则跳转步骤203。

基于相同的技术构思，本申请实施例还提供了一种执行操作任务的装置，如图3所示，该装置包括：

播放模块301，用于当接收到对应目标文档的语音朗读指令时，播放所述目标文档对应的音频数据；

第一确定模块302，用于当检测到外界音频信号时，确定所述外界音频信号的第一音频特征；

第二确定模块303，用于根据第二音频特征和操作任务的对应关系，确定所述第一音频特征对应的第一操作任务；

执行模块304，用于执行所述第一操作任务。

可选的，所述第一确定模块302，具体用于：

可选的，所述第二确定模块303，具体用于：

可选的，如图4所示，所述装置还包括：

第三确定模块305，用于当接收到用户输入的音频特征录入指令时，检测所述外界音频信号，并确定所述第二音频特征；

存储模块306，用于当接收到用户输入的操作任务设置指令时，存储所述第二音频特征与用户输入的操作任务的对应关系。

本申请实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

执行所述第一操作任务。

可选的，所述方法还包括：

上述网络设备提到的通信总线可以是外设部件互连标准(英文：PeripheralComponent Interconnect，简称：PCI)总线或扩展工业标准结构(英文：Extended IndustryStandard Architecture，简称：EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述网络设备与其他设备之间的通信。

存储器可以包括随机存取存储器(英文：Random Access Memory，简称：RAM)，也可以包括非易失性存储器(英文：Non-Volatile Memory，简称：NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(英文：Central ProcessingUnit，简称：CPU)、网络处理器(英文：Network Processor，简称：NP)等；还可以是数字信号处理器(英文：Digital Signal Processing，简称：DSP)、专用集成电路(英文：ApplicationSpecific Integrated Circuit，简称：ASIC)、现场可编程门阵列(英文：Field-Programmable Gate Array，简称：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

基于相同的技术构思，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述执行操作任务的方法步骤。

基于相同的技术构思，本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述执行操作任务的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种执行操作任务的方法，其特征在于，所述方法包括：

执行所述第一操作任务；

其中，所述根据第二音频特征和操作任务的对应关系，确定所述第一音频特征对应的第一操作任务，包括：

在第二音频特征和操作任务的对应关系中，如果存在与所述第一音频特征相同的第二音频特征，则根据所述第二音频特征中的频率特征与操作任务的对应关系，以及所述目标文档对应的音频数据的播放状态，确定所述第一音频特征对应的第一操作任务；

所述当检测到外界音频信号时，确定所述外界音频信号的第一音频特征，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据第二音频特征和操作任务的对应关系，确定所述第一音频特征对应的第一操作任务，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当接收到用户输入的音频特征录入指令时，检测所述外界音频信号，并确定所述外界音频信号的所述第二音频特征；

4.一种执行操作任务的装置，其特征在于，所述装置包括：

执行模块，用于执行所述第一操作任务；

其中，所述第二确定模块，具体用于在第二音频特征和操作任务的对应关系中，如果存在与所述第一音频特征相同的第二音频特征，则根据所述第二音频特征中的频率特征与操作任务的对应关系，以及所述目标文档对应的音频数据的播放状态，确定所述第一音频特征对应的第一操作任务；

所述第一确定模块，具体用于：当检测到外界音频信号时，提取所述外界音频信号的第一频率特征和第一声纹特征；将所述第一频率特征和所述第一声纹特征构成第一音频特征。

5.根据权利要求4所述的装置，其特征在于，所述第二确定模块，具体用于：

6.根据权利要求4所述的装置，其特征在于，所述装置还包括：

7.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-3任一所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-3任一所述的方法步骤。