CN115148206A

CN115148206A - 语音控制方法、智能终端及存储介质

Info

Publication number: CN115148206A
Application number: CN202210751475.9A
Authority: CN
Inventors: 周凯; 祁崇民
Original assignee: Shenzhen Transsion Holdings Co Ltd
Current assignee: Shenzhen Transsion Holdings Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-10-04

Abstract

本申请提出了一种语音控制方法、智能设备及存储介质，所述方法包括：获取语音信息，确定或生成所述语音信息对应的第一指令和第一内容；从终端的文本中确定或生成与所述第一内容匹配的第二内容；基于所述第二内容执行所述第一指令。本申请使得智能终端操作更加便捷，提升了用户体验。

Description

语音控制方法、智能终端及存储介质

技术领域

本申请涉及数据处理技术领域，具体涉及一种语音控制方法、智能终端及存储介质。

背景技术

随着互联网技术的发展，网络阅读逐渐代替传统的纸质阅读，成为最受用户欢迎的阅读方式，为了提高用户的体验，电子设备可以提供较多的手动的交互功能，例如手动选取电子设备上的文本内容并批注。

在构思及实现本申请过程中，发明人发现至少存在如下问题：在网络阅读时，手动的交互功能的操作效率低下，例如选取文本内容时，需要对文本内容进行逐字确认。

前面的叙述在于提供一般的背景信息，并不一定构成现有技术。

发明内容

针对上述技术问题，本申请提供一种语音控制方法、智能终端及存储介质，使用户可以提升了用户交互体验，操作简单方便。

为解决上述技术问题，本申请提供一种语音控制方法，可应用于智能终端，包括：

S10：获取语音信息，确定或生成所述语音信息对应的第一指令和第一内容；

S20：从终端的文本中确定或生成与所述第一内容匹配的第二内容；

S30：基于所述第二内容执行所述第一指令。

可选地，所述S30步骤包括：选定所述第二内容；接收第二指令，获取第二指令对应的第三内容；根据所述第三内容对选定的所述第二内容添加批注。

可选地，所述S10步骤之后，还包括：在预设区域内设置文本显示框，在所述文本显示框内显示所述第一指令和/或所述第一内容；在S30步骤之后，还包括：删除所述文本显示框内显示的所述第一指令和/或所述第一内容，隐藏所述文本显示框。

可选地，所述S10步骤之后，还包括：根据所述语音信息在所述文本显示框内逐字确定或生成所述第一指令和/或所述第一内容，输出所述第一指令和/或所述第一内容。

可选地，所述S10步骤之前，还包括：在满足预设条件时，以第一显示方式输出悬浮图标；所述预设条件包括以下至少一种：接收语音信息；采集到用户的预设手势；检测到用户对预设区域的点击操作；通过传感器检测预设的传感器数据；所述S30步骤之后还包括：以第二显示方式输出所述悬浮图标。

可选地，所述S30步骤包括：S31：所述第一指令为返回指令时，获取阅读记录；S32：根据所述阅读记录确定或生成待返回页面，或，跳转至所述待返回页面。

可选地，所述S31步骤之前，还包括：确定或生成所述第二内容对应的显示页面；根据所述第二内容对应的显示页面确定或生成阅读记录。

可选地，所述方法包括以下步骤：S100：接收语音信息，确定或生成所述语音信息对应的第一指令和第一内容；S200：从终端的文本中确定或生成与所述第一内容匹配的第二内容；S300：从所述第二内容中确定或生成目标内容，所述语音信息为第二指令时，获取所述语音信息对应的第三内容和预设位置，根据所述第三内容和所述预设位置对所述目标内容添加批注。

本申请还提供一种智能终端，包括：存储器、处理器，其中，所述存储器上存储有语音控制程序，所述语音控制程序被所述处理器执行时实现如上述方法的步骤。

本申请还提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述方法的步骤。

如上所述，本申请的语音控制方法，可应用于智能终端，包括步骤：获取语音信息，确定或生成所述语音信息对应的第一指令和第一内容；从终端的文本中确定或生成与所述第一内容匹配的第二内容；基于所述第二内容执行所述第一指令。通过上述技术方案，可以实现操作更加便捷，提升了用户在阅读过程中的交互体验的功能，解决手动的交互功能的操作效率低下的问题，进而提升了用户体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为实现本申请各个实施例的一种智能终端的硬件结构示意图；

图2为本申请实施例提供的一种通信网络系统架构图；

图3是根据第一实施例示出的语音控制方法的流程示意图；

图4是根据第二实施例示出的语音控制方法的流程示意图；

图5是根据第二实施例示出的语音控制方法的悬浮图标和文本显示框的界面示意图；

图6是根据第三实施例示出的语音控制方法的流程示意图；

图7是根据第四实施例示出的语音控制方法的流程示意图；

图8是根据第五实施例示出的语音控制方法的流程示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素，此外，本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义，也可能具有不同含义，其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。

应当理解，尽管在本文可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本文范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语"如果"可以被解释成为"在……时"或"当……时"或"响应于确定"。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。本申请使用的术语“或”、“和/或”、“包括以下至少一个”等可被解释为包括性的，或意味着任一个或任何组合。例如，“包括以下至少一个：A、B、C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A和B和C”，再如，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A和B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

应该理解的是，虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

需要说明的是，在本文中，采用了诸如S10、S20等步骤代号，其目的是为了更清楚简要地表述相应内容，不构成顺序上的实质性限制，本领域技术人员在具体实施时，可能会先执行S20后执行S10等，但这些均应在本申请的保护范围之内。

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。因此，“模块”、“部件”或者“单元”可以混合地使用。

智能终端可以以各种形式来实施。例如，本申请中描述的智能终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等智能终端，以及诸如数字TV、台式计算机等固定终端。

后续描述中将以智能终端为例进行说明，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本申请的实施方式的构造也能够应用于固定类型的终端。

请参阅图1，其为实现本申请各个实施例的一种智能终端的硬件结构示意图，该智能终端100可以包括：RF(Radio Frequency，射频)单元101、WiFi模块102、音频输出单元103、A/V(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图1中示出的智能终端结构并不构成对智能终端的限定，智能终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图1对智能终端的各个部件进行具体的介绍：

射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将基站的下行信息接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA2000(CodeDivision Multiple Access 2000，码分多址2000)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、TD-SCDMA(Time Division-Synchronous CodeDivision Multiple Access，时分同步码分多址)、FDD-LTE(Frequency DivisionDuplexing-Long Term Evolution，频分双工长期演进)、TDD-LTE(Time DivisionDuplexing-Long Term Evolution，分时双工长期演进)和5G等。

WiFi属于短距离无线传输技术，智能终端通过WiFi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块102，但是可以理解的是，其并不属于智能终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

音频输出单元103可以在智能终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将射频单元101或WiFi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与智能终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。

A/V输入单元104用于接收音频或视频信号。A/V输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或WiFi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

智能终端100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。可选地，光传感器包括环境光传感器及接近传感器，可选地，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在智能终端100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与智能终端的用户设置以及功能控制有关的键信号输入。可选地，用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)，并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。可选地，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，并能接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。可选地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种，具体此处不做限定。

可选地，触控面板1071可覆盖显示面板1061，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中，触控面板1071与显示面板1061是作为两个独立的部件来实现智能终端的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现智能终端的输入和输出功能，具体此处不做限定。

接口单元108用作至少一个外部装置与智能终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到智能终端100内的一个或多个元件或者可以用于在智能终端100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，可选地，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是智能终端的控制中心，利用各种接口和线路连接整个智能终端的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行智能终端的各种功能和处理数据，从而对智能终端进行整体监控。处理器110可包括一个或多个处理单元；优选的，处理器110可集成应用处理器和调制解调处理器，可选地，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

智能终端100还可以包括给各个部件供电的电源111(比如电池)，优选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图1未示出，智能终端100还可以包括蓝牙模块等，在此不再赘述。

为了便于理解本申请实施例，下面对本申请的智能终端所基于的通信网络系统进行描述。

请参阅图2，图2为本申请实施例提供的一种通信网络系统架构图，该通信网络系统为通用移动通信技术的LTE系统，该LTE系统包括依次通讯连接的UE(User Equipment，用户设备)201，E-UTRAN(Evolved UMTS Terrestrial Radio Access Network，演进式UMTS陆地无线接入网)202，EPC(Evolved Packet Core，演进式分组核心网)203和运营商的IP业务204。

可选地，UE201可以是上述终端100，此处不再赘述。

E-UTRAN202包括eNodeB2021和其它eNodeB2022等。可选地，eNodeB2021可以通过回程(backhaul)(例如X2接口)与其它eNodeB2022连接，eNodeB2021连接到EPC203，eNodeB2021可以提供UE201到EPC203的接入。

EPC203可以包括MME(Mobility Management Entity，移动性管理实体)2031，HSS(Home Subscriber Server，归属用户服务器)2032，其它MME2033，SGW(Serving Gate Way，服务网关)2034，PGW(PDN Gate Way，分组数据网络网关)2035和PCRF(Policy andCharging Rules Function，政策和资费功能实体)2036等。可选地，MME2031是处理UE201和EPC203之间信令的控制节点，提供承载和连接管理。HSS2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能，并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过SGW2034进行发送，PGW2035可以提供UE 201的IP地址分配以及其它功能，PCRF2036是业务数据流和IP承载资源的策略与计费控制策略决策点，它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。

IP业务204可以包括因特网、内联网、IMS(IP Multimedia Subsystem，IP多媒体子系统)或其它IP业务等。

虽然上述以LTE系统为例进行了介绍，但本领域技术人员应当知晓，本申请不仅仅适用于LTE系统，也可以适用于其他无线通信系统，例如GSM、CDMA2000、WCDMA、TD-SCDMA以及未来新的网络系统(如5G)等，此处不做限定。

基于上述智能终端硬件结构以及通信网络系统，提出本申请各个实施例。

第一实施例

参照图3，图3为本申请的语音控制方法的第一实施例，所述方法包括以下步骤：

步骤S10，获取语音信息，确定或生成所述语音信息对应的第一指令和第一内容。

本申请可应用于智能终端，可选地，该智能终端可以包括折叠屏或者卷轴屏等柔性屏。可选地，智能终端通过折叠屏或者卷轴屏等大屏，实现电子书籍的阅读，提升阅读体验。

语音信息可以通过智能终端的麦克风或者其他传感器获取。根据获取的语音信息，确定或生成语音信息对应的第一指令和第一内容。可选地，若语音信息中包括指令词，则确定或生成语音信息对应的第一指令和第一内容。可选地，第一指令为定位指令、朗读指令、选取指令、批注指令、复制指令、粘贴指令，搜索指令、选定指令等指令。可选地，第一指令可以通过手势完成，但是十分困难，特别是选取文本时，是由于文字较小，手指拖拉精度不够，用户操作十分麻烦。因此，本申请可以提高用户操作的便捷性。

可选地，在电子书籍的阅读过程中，指令词包括翻页、跳转、定位、选取、复制、批注、搜索、朗读等，指令词不限于此处列出，指令词会作为语音控制的唤醒词，当用户说出这些词时语音控制才会生效。在语音信息中检测到指令词，确定或生成第一指令，并识别第一指令对应的语音信息，确定或生成第一内容。示例性的，语音信息为“今天天气很好，给我朗读一下当前页面的内容”，智能终端在检测到指令词“朗读”，确定或生成第一指令为“朗读”，确定或生成第一内容为“当前页面的内容”。示例性的，语音信息为“将第1页第3段的内容加粗表示”，智能终端在检测到指令词“加粗”，确定或生成第一指令为“标记”，确定或生成第一内容为“第1页第3段的内容”。

可选地，智能终端的麦克风接收到语音信息交给智能系统的内置语音控制系统，由语音控制系统的语音唤醒模块通过模板匹配算法匹配到指令词，判断出这是一条指令；并将该段语音信息交给语音控制系统的语音识别模块，识别出整个语音信息的内容，可选地，同时交互界面显示动画和同步跳出文字；由语音控制系统的解析执行模块将语音信息解析为文字，并执行指令，可选地，同时交互界面动画结束。

步骤S20，从终端的文本中确定或生成与所述第一内容匹配的第二内容。

可选地，第二内容为智能终端的文本内容。从终端的文本中确定或生成与第一内容匹配的第二内容，可选地，当第一指令为定位，第一内容为第33页第2段第1句，第二内容为第33页第2段第1句的具体文本内容。可选地，当第一指令为跳转，第一内容为上一页，当前页数为第3页，第二内容为第2页的具体文本内容。本次指令通过手势也可以完成，但是十分困难，特别是选取文本是由于文字较小，手指拖拉精度不够，用户操作十分麻烦。

步骤S30，基于所述第二内容执行所述第一指令。

可选地，确定或生成第二内容之后，基于第二内容执行第一指令，可选地，第一指令为定位指令，第二内容为电子书籍a的第23页第3段时，智能终端控制从当前页面跳转至第23页第3段，并定位至第23段第3页。可选地，语音信息为“搜索当前页面中太阳这个词语”，第一指令为搜索指令，第一内容为“当前页面的太阳这个词语”，与第一内容匹配的第二内容为当前文本中的“太阳”，对第二内容执行第一指令进行搜索，得到当前文本中各个“太阳”所在的位置。

可选地，语音信息为“翻到下一页”或者“跳转到第10页”或者“跳转到第1章”，对应的第一指令为跳转指令，第二内容为下一页的文本内容，或者第10页的文本内容，或者第1章的文本内容。

可选地，步骤S30还包括：选定所述第二内容；接收第二指令，获取第二指令对应的第三内容；根据所述第三内容对选定的所述第二内容添加批注。可选地，第二指令为定位指令、朗读指令、选取指令、批注指令、复制指令、粘贴指令，搜索指令、选定指令等指令。

可选地，第一指令和第二指令可以组合使用，可选地，定位指令和朗读指令，选取指令和批注指令，复制指令和粘贴指令，搜索指令和选定指令、选取指令和复制指令等等，可以组合使用，此处不作限制。

可选地，文本中某个字用户不认识，可以通过文本位置定位或者选取这段文字，需要说“选取第1段第5句的第4个字”，执行第一指令后选取到这个字，执行第二指令为朗读指令，可以对这个字进行朗读。

可选地，以“选取”和“批注”举例，用户在阅读文章时如果需要对某段文本内容写上批注内容，则可以分两步发出指令：第一步的语音信息可以为“选取第1页第3段内容”，执行第一指令，文本中的第1页第3段内容会呈现被选中状态；第二步的语音信息可以为“批注重点段落”，执行第二指令，于是文本中第1页第3段内容的文字会添加批注内容，可选地，批注内容可以为脚标的形式，链接到用户增加的批注内容。可选地，在输入语音信息的第一步的过程中，交互界面会出现悬浮图标动画以及文本框会显示文字，执行第一指令，然后文章的第1页第3段内容会呈选中状态；在输入语音信息的第二步的过程中，交互界面显示动画，执行第二指令，将第一步中选取的文本内容会加上脚标，链接到用户增加的批注内容。通过用户输入语音信息添加批注内容，省去用户打字，使得操作更加便捷。

在本实施例的技术方案中，获取语音信息，确定或生成语音信息对应的第一指令和第一内容；从终端的文本中确定或生成与第一内容匹配的第二内容；基于第二内容执行第一指令。通过用户输入语音信息执行操作指令，省去用户打字，使得操作更加便捷，提升了用户在阅读过程中的交互体验。

第二实施例

参照图4，图4为本申请的语音控制方法的第二实施例，基于第一实施例，所述步骤S10之后，包括：

步骤S40，在预设区域内设置文本显示框，在所述文本显示框内显示所述第一指令和/或所述第一内容；

在S30步骤之后，还包括：

步骤S50，删除所述文本显示框内显示的所述第一指令和/或所述第一内容，隐藏所述文本显示框。

可选地，在确定或生成语音信息对应的第一指令和第一内容后，在预设区域内设置文本显示框，在文本显示框内显示第一指令和/或第一内容。基于第二内容执行第一指令后，删除文本显示框内显示的第一指令和/或第一内容，隐藏文本显示框。可选地，文本显示框用于显示识别出的文字内容。

可选地，文本显示框可以是以悬浮的方式设置于当前界面之上。可选地，文本显示框可以是显示在终端的文本的预设区域，例如，文本旁边的位置。

可选地，根据所述语音信息在所述文本显示框内逐字确定或生成所述第一指令和/或所述第一内容，输出所述第一指令和/或所述第一内容。以使确定或生成的第一指令和/或第一内容更加直观。

可选地，显示或者隐藏文本显示框对应有不同的动画效果。

可选地，当用户设置语音控制开启时，阅读界面会有一个半透明悬浮图标，如图5(a)所示，可选地，智能终端的显示界面为G，悬浮图标为b。当用户发出指令后，悬浮图标识别到指令会出现旋转动画，图标预设位置会出现文本显示框，例如，如图5(b)所示，预设位置为图标的右边，可选地，智能终端的显示界面为G，悬浮图标为b，文本显示框为c，文本显示框用于显示识别出的文字内容。当用户输入完语音信息后，智能终端开始解析语音信息对应的指令，执行指令。在执行指令全部完成后，文本显示框缩回图标，图标停止旋转。

可选地，以“选取”和“批注”举例，用户在阅读文章时如果需要对某段文本内容写上批注内容，则可以分两步发出指令：第一步的语音信息可以为“选取第1页第3段内容”，交互界面会出现悬浮图标动画以及文本框会显示文字，执行第一指令，文本中的第1页第3段内容会呈现被选中状态；第二步的语音信息可以为“批注重点段落”，交互界面显示动画，执行第二指令，于是文本中第1页第3段内容的文字会添加批注内容，可选地，批注内容可以为脚标的形式，链接到用户增加的批注内容。通过用户输入语音信息添加批注内容，省去用户打字，使得操作更加便捷。

在本实施例的技术方案中，通过设置文本显示框，使得第一指令和第一内容的确定或生成更加直观，避免在用户输入错误指令后，需要等到错误指令执行完毕后才能发现，在输入指令时就能及时发现错误，及时更改指令。

第三实施例

参照图6，图6为本申请的语音控制方法的第三实施例，基于第一或第二实施例，所述步骤S10之前，还包括：

步骤S60，在满足预设条件时，以第一显示方式输出悬浮图标；所述预设条件包括以下至少一种：接收语音信息；采集到用户的预设手势；检测到用户对预设区域的点击操作；通过传感器检测预设的传感器数据；

所述S30步骤之后还包括：

步骤S70，以第二显示方式输出所述悬浮图标。

可选地，在获取语音信息，确定或生成所述语音信息对应的第一指令和第一内容之前，在满足预设条件时，以第一显示方式输出悬浮图标，在基于所述第二内容执行所述第一指令之后，以第二显示方式输出所述悬浮图标。

可选地，在获取语音信息，确定或生成所述语音信息对应的第一指令和第一内容之前，在满足预设条件时，以第一显示方式输出悬浮图标，根据所述第三内容对选定的所述第二内容添加批注后，以第二显示方式输出所述悬浮图标。可选地，第一显示方式与第二显示方式不相同。可选地，第一显示方式为悬浮图标转动的显示方式，第二显示方式为悬浮图标静止的显示方式。

可选地，接收语音信息，以第一显示方式输出悬浮图标，可选地，第一显示方式为预设的动画效果，或者根据语音信息的参数生成的动画效果，可选地，根据语音的音量大小确定悬浮图标的旋转速度，或者确定或生成悬浮图像的波动图像。

可选地，采集到用户的预设手势，以第一显示方式输出悬浮图标，可选地，预设手势可以为ok手势等等。

可选地，检测到用户对预设区域的点击操作，以第一显示方式输出悬浮图标，可选地，用户对文本进行点击操作。

可选地，检测到预设的传感器数据，以第一显示方式输出悬浮图标，可选地，预设传感器数据为人脸信息。

在本实施例的技术方案中，通过第一显示方式和第二显示方式输出悬浮图标，增添了语音控制的趣味性，提升了用户交互体验。

第四实施例

参照图7，图7为本申请的语音控制方法的第四实施例，基于第一至第三中任一实施例，所述S30步骤包括：

步骤S31，所述第一指令为返回指令时，获取阅读记录；

步骤S32，根据所述阅读记录确定或生成待返回页面，或，跳转至所述待返回页面。

可选地，当第一指令为返回指令时，获取阅读记录。可选地，阅读记录包括不同时间段的阅读的文本内容或文本位置。可选地，阅读记录包括上一次阅读的文本内容或文本位置。可选地，阅读记录包括上一次角色或者场景出现的文本内容或文本位置。

根据阅读记录确定或生成所述返回指令对应的待返回页面，或，跳转至待返回页面。可选地，用户的语音信息确定或生成的第一指令为“往前搜索角色a”，执行返回指令，跳转至角色a出现的待返回页面。可选地，当看完角色a出现的待返回页面后，根据用户的语音信息确定或生成的第一指令“继续上次阅读”就会回到之前的段落继续阅读。

可选地，所述S31步骤之前，还包括：确定或生成所述第二内容对应的显示页面；根据所述第二内容对应的显示页面确定或生成阅读记录。可选地，阅读记录包括每次指令对应的显示页面，即阅读记录包括每次第二内容对应的显示界面。

在本实施例的技术方案中，通过获取阅读记录，控制智能终端确定或生成待返回页面，或跳转至待返回页面，简化用户输入的语音信息，提高用户的语音交互体验。

第五实施例

参照图8，图8为本申请的语音控制方法的第五实施例，基于第一至第四中任一实施例，所述方法包括以下步骤：

S100：接收语音信息，确定或生成所述语音信息对应的第一指令和第一内容；

S200：从终端的文本中确定或生成与所述第一内容匹配的第二内容；

S300：从所述第二内容中确定或生成目标内容，所述语音信息为第二指令时，获取所述语音信息对应的第三内容和预设位置，根据所述第三内容和所述预设位置对所述第二内容添加批注。

可选地，本申请应用于智能终端，可选地，该智能终端可以包括折叠屏或者卷轴屏等柔性屏。可选地，智能终端通过折叠屏或者卷轴屏等大屏，实现电子书籍的阅读，提升阅读体验。

可选地，目标内容为第二内容确定或生成的，可选地，第二内容为文本内容的第1段，目标内容为第1段中的重点内容。可选地，目标内容为第二内容的摘要内容或者精选内容。语音信息为第二指令时，获取所述语音信息对应的第三内容和预设位置，根据所述第三内容和所述预设位置对所述第二内容添加批注。

可选地，以“选取”和“批注”举例，用户在阅读文章时如果需要对某段文本内容写上批注内容，则可以分两步发出指令：第一步的语音信息可以为“选取第1页第3段内容”，执行第一指令，文本中的第1页第3段内容会呈现被选中状态；第二步的语音信息可以为“第1段中的终端语句”，根据语音信息对应的第一内容，生成目标内容对应的文本内容，执行第二指令，于是文本中第1页第3段内容的文字会添加批注内容，可选地，批注内容可以为脚标的形式，链接到用户增加的批注内容。

在本实施例的技术方案中，通过批注第二内容对应的目标内容，更加便捷地实现对第二内容中的重点内容进行批注，提升了用户语音交互的体验。

本申请还提供一种智能终端，智能终端包括存储器、处理器，存储器上存储有语音控制程序，语音控制程序被处理器执行时实现上述任一实施例中的语音控制方法的步骤。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有语音控制程序，语音控制程序被处理器执行时实现上述任一实施例中的语音控制方法的步骤。

在本申请提供的智能终端和计算机可读存储介质的实施例中，可以包含任一上述语音控制方法实施例的全部技术特征，说明书拓展和解释内容与上述方法的各实施例基本相同，在此不再做赘述。

本申请实施例还提供一种计算机程序产品，计算机程序产品包括计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行如上各种可能的实施方式中的方法。

本申请实施例还提供一种芯片，包括存储器和处理器，存储器用于存储计算机程序，处理器用于从存储器中调用并运行计算机程序，使得安装有芯片的设备执行如上各种可能的实施方式中的方法。

可以理解，上述场景仅是作为示例，并不构成对于本申请实施例提供的技术方案的应用场景的限定，本申请的技术方案还可应用于其他场景。例如，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例设备中的单元可以根据实际需要进行合并、划分和删减。

在本申请中，对于相同或相似的术语概念、技术方案和/或应用场景描述，一般只在第一次出现时进行详细描述，后面再重复出现时，为了简洁，一般未再重复阐述，在理解本申请技术方案等内容时，对于在后未详细描述的相同或相似的术语概念、技术方案和/或应用场景描述等，可以参考其之前的相关详细描述。

在本申请中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本申请技术方案的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本申请记载的范围。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，被控终端，或者网络设备等)执行本申请每个实施例的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络，或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、存储盘、磁带)、光介质(例如，DVD)，或者半导体介质(例如固态存储盘Solid State Disk(SSD))等。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音控制方法，其特征在于，所述方法包括以下步骤：

S30：基于所述第二内容执行所述第一指令。

2.如权利要求1所述的方法，其特征在于，所述S30步骤包括：

选定所述第二内容；

接收第二指令，获取第二指令对应的第三内容；

根据所述第三内容对选定的所述第二内容添加批注。

3.如权利要求1所述的方法，其特征在于，所述S10步骤之后，还包括：

在预设区域内设置文本显示框，在所述文本显示框内显示所述第一指令和/或所述第一内容；

在S30步骤之后，还包括：

删除所述文本显示框内显示的所述第一指令和/或所述第一内容，隐藏所述文本显示框。

4.如权利要求3所述的方法，其特征在于，所述S10步骤之后，还包括：

根据所述语音信息在所述文本显示框内逐字确定或生成所述第一指令和/或所述第一内容，输出所述第一指令和/或所述第一内容。

5.如权利要求1至4中任一项所述的方法，其特征在于，所述S10步骤之前，还包括：

在满足预设条件时，以第一显示方式输出悬浮图标；

所述预设条件包括以下至少一种：

接收语音信息；

采集到用户的预设手势；

检测到用户对预设区域的点击操作；

通过传感器检测预设的传感器数据；

所述S30步骤之后还包括：

以第二显示方式输出所述悬浮图标。

6.如权利要求1至4中任一项所述的方法，其特征在于，所述S30步骤包括：

S31：所述第一指令为返回指令时，获取阅读记录；

S32：根据所述阅读记录确定或生成待返回页面，或，跳转至所述待返回页面。

7.如权利要求6所述的方法，其特征在于，所述S31步骤之前，还包括：

确定或生成所述第二内容对应的显示页面；

根据所述第二内容对应的显示页面确定或生成阅读记录。

8.一种语音控制方法，其特征在于，所述方法包括以下步骤：

S300：从所述第二内容中确定或生成目标内容，所述语音信息为第二指令时，获取所述语音信息对应的第三内容和预设位置，根据所述第三内容和所述预设位置对所述目标内容添加批注。

9.一种智能终端，其特征在于，所述智能终端包括：存储器、处理器，其中，所述存储器上存储有语音控制程序，所述语音控制程序被所述处理器执行时实现如权利要求1至8中任一项所述的语音控制方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的语音控制方法的步骤。