CN105446489A

CN105446489A - 语音双模控制方法、装置及用户终端

Info

Publication number: CN105446489A
Application number: CN201510900408.9A
Authority: CN
Inventors: 王亚军; 司徒文畅; 王娜; 彭轶; 郑嗣寿; 伏晓丽; 李超; 康伟; 陈一宁; 马泽君
Original assignee: Guangzhou Shenma Mobile Information Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2015-12-08
Filing date: 2015-12-08
Publication date: 2016-03-30
Anticipated expiration: 2035-12-08
Also published as: CN105446489B; RU2664410C2; US10373613B2; RU2016147907A3; RU2016147907A; US20170162196A1

Abstract

本发明实施例提出的语音双模控制方法、装置及用户终端，属于控制技术领域。其中，所述方法包括：监测用户在语音输入界面下是否执行启动操作说判停模式的操作；在监测到用户执行启动操作说判停模式的操作时，判断麦克风是否处于忙碌状态，如果是，则将语音模式从直接说自动判停模式切换为操作说判停模式，其中，在用户执行启动操作说判停模式的操作之前，若麦克风处于忙碌状态，则语音模式为直接说自动判停模式。本发明实施例提供的方案在同时支持“操作说”和“直接说”两种语音输入方式的应用场景下，通过对用户操作行为和麦克风状态的监测，灵活可靠地选择语音模式及完成模式切换，能够较好地适配不同用户的语音输入习惯。

Description

语音双模控制方法、装置及用户终端

技术领域

本发明涉及控制技术领域，具体而言，涉及一种语音双模控制方法、装置及用户终端。

背景技术

随着移动终端的不断普及与发展，使用移动终端访问互联网逐渐成为一种趋势。目前，许多移动终端均支持语音识别功能，现今的语音识别主要包括以下两种实现方式：一种是按住麦克风按钮开始说话，离开麦克风按钮结束说话；另一种是采用VAD(语音活动侦测)自动识别，进入语音输入界面后直接说话。

上述两种语音输入识别方式，分别对应了不同用户的操作习惯，分别适用于不同场景，现今的各浏览器和应用软件往往只支持其中一种实现方式，无法实现在同时支持两种语音输入方式的应用场景下的模式选择和切换。

发明内容

本发明的目的在于提供一种语音双模控制方法、装置及用户终端，以使现有的浏览器和应用软件无法实现操作说和直接说两种语音输入模式的灵活选择和切换的问题得到改善。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种语音双模控制方法，所述方法包括：监测用户在语音输入界面下是否执行启动操作说判停模式的操作；在监测到用户执行启动所述操作说判停模式的操作时，判断麦克风是否处于忙碌状态，如果是，则将语音模式从直接说自动判停模式切换为所述操作说判停模式，其中，在用户执行启动所述操作说判停模式的操作之前，若所述麦克风处于忙碌状态，则所述语音模式为所述直接说自动判停模式。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述监测用户在语音输入界面下是否执行启动所述操作说判停模式的操作，包括：监测用户在语音输入界面下是否执行启动所述操作说判停模式的操作的开始操作；若监测到所述开始操作，则监测用户持续执行所述开始操作的时长，在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述监测用户在语音输入界面下是否执行启动所述操作说判停模式的操作，包括：监测用户在语音输入界面下是否执行启动所述操作说判停模式的操作的开始操作；在监测到所述开始操作时，判断所述麦克风是否处于空闲状态，如果是，则将所述语音模式设置为所述直接说自动判停模式，监测用户持续执行所述开始操作的时长，在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述方法还包括：获取用户在语音输入界面下通过语言表述的信息；监测用户在语音输入界面下执行的结束所述操作说判停模式的操作；当监测到用户执行结束所述操作说判停模式的操作时，判断当前处于所述直接说自动判停模式还是处于所述操作说判停模式，若当前处于所述直接说自动判停模式，则继续获取用户通过语言表述的信息；若当前处于所述操作说判停模式，则停止获取用户通过语言表述的信息。

第二方面，本发明实施例提供了一种语音双模控制方法，所述方法包括：监测用户在语音输入界面下是否执行启动操作说判停模式的操作的开始操作；在监测到所述开始操作时，判断麦克风是否处于空闲状态，如果是，则将语音模式设置为直接说自动判停模式，监测用户持续执行所述开始操作的时长，在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作，将所述语音模式从所述直接说自动判停模式切换为所述操作说判停模式。

第三方面，本发明实施例提供了一种语音双模控制装置，运行于用户终端，所述装置包括：启动操作监测模块，用于监测用户在语音输入界面下是否执行启动操作说判停模式的操作；状态判断模块，用于在所述启动操作监测模块监测到用户执行启动所述操作说判停模式的操作时，判断麦克风是否处于忙碌状态，如果是，则将语音模式从直接说自动判停模式切换为所述操作说判停模式，其中，在用户执行启动所述操作说判停模式的操作之前，若所述麦克风处于忙碌状态，则所述语音模式为所述直接说自动判停模式。

第四方面，本发明实施例提供了一种语音双模控制装置，运行于用户终端，所述装置包括：开始操作监测模块，用于监测用户在语音输入界面下是否执行启动操作说判停模式的操作的开始操作；模式设置及切换模块，用于在所述开始操作监测模块监测到所述开始操作时，判断麦克风是否处于空闲状态，如果是，则将语音模式设置为直接说自动判停模式，使所述开始操作监测模块监测用户持续执行所述开始操作的时长，在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作，将所述语音模式从所述直接说自动判停模式切换为所述操作说判停模式。

第五方面，本发明实施例提供了一种用户终端，包括：麦克风、触控屏幕、存储器以及处理器，所述存储器存储有语音双模控制装置中的模块，所述处理器用于运行存储在所述存储器内的模块。

本发明实施例提供的语音双模控制方法、装置及用户终端，适用于同时支持“操作说”和“直接说”两种语音输入方式的应用场景，通过对用户操作行为和麦克风状态的监测，灵活可靠地选择采用直接说自动判停模式或操作说判停模式或进行模式切换，实现对不同行为习惯用户的语音输入的适配，显著提高了用户语音输入的便利性和灵活性，提高了用户的语音输入体验。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了一种可应用于本发明实施例的用户终端的结构框图；

图2示出了本发明第一实施例提供的一种语音双模控制方法流程示意图；

图3示出了本发明第一实施例提供的另一种语音双模控制方法流程示意图；

图4示出了本发明第一实施例提供的另一种语音双模控制方法流程示意图；

图5示出了本发明实施例提供的一种结束操作说判停模式的控制方法流程示意图；

图6示出了本发明第二实施例提供的一种语音双模控制方法流程示意图；

图7示出了本发明第三实施例提供的一种语音双模控制装置的结构框图；

图8示出了本发明第三实施例提供的另一种语音双模控制装置的结构框图；

图9示出了本发明第三实施例提供的另一种语音双模控制装置的结构框图；

图10示出了本发明第三实施例提供的另一种语音双模控制装置的结构框图；

图11示出了本发明第四实施例提供的一种语音双模控制装置的结构框图；

图12示出了本发明第四实施例提供的另一种语音双模控制装置的结构框图；

图13示出了本发明实施例提供的一种在麦克风空闲状态下启动操作说判停模式的交互界面示意图；

图14示出了本发明实施例提供的一种结束操作说判停模式的交互界面示意图；

图15示出了本发明实施例提供的一种在麦克风忙碌状态下启动操作说判停模式的交互界面示意图；

图16示出了本发明实施例提供的另一种在麦克风空闲状态下启动操作说判停模式的交互界面示意图；

图17示出了本发明实施例提供的另一种结束操作说判停模式的交互界面示意图；

图18示出了本发明实施例提供的另一种在麦克风空闲状态下启动操作说判停模式的交互界面示意图；

图19示出了本发明实施例提供的另一种结束操作说判停模式的交互界面示意图；

图20示出了本发明实施例提供的另一种在麦克风忙碌状态下启动操作说判停模式的交互界面示意图；

图21示出了本发明实施例提供的另一种在麦克风空闲状态下启动操作说判停模式的交互界面示意图；

图22示出了本发明实施例提供的另一种结束操作说判停模式的交互界面示意图；

图23示出了本发明实施例提供的另一种在麦克风忙碌状态下启动操作说判停模式的交互界面示意图。

具体实施方式

本发明实施例所提供的语音双模控制方法及装置可应用于用户终端100中，于本发明实施例中，用户终端100优选为移动终端设备，例如可以包括智能手机、平板电脑、电子书阅读器、膝上型便携计算机、车载电脑、穿戴式移动终端等等。

图1示出了一种可应用于本发明实施例中的用户终端100的结构框图。如图1所示，用户终端100包括存储器102、存储控制器104，一个或多个(图中仅示出一个)处理器106、外设接口108、射频模块110、音频模块112、触控屏幕114等。这些组件通过一条或多条通讯总线/信号线116相互通讯。

存储器102可用于存储软件程序以及模块，如本发明实施例中的语音双模控制方法及装置对应的程序指令/模块，处理器106通过运行存储在存储器102内的软件程序以及模块，从而执行各种功能应用，如本发明实施例提供的语音双模控制方法。

存储器102可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。处理器106以及其他可能的组件对存储器102的访问可在存储控制器104的控制下进行。

外设接口108将各种输入/输出装置耦合至处理器106以及存储器102。在一些实施例中，外设接口108，处理器106以及存储控制器104可以在单个芯片中实现。在其他一些实例中，它们可以分别由独立的芯片实现。

射频模块110用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。

音频模块112向用户提供音频接口，其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。

触控屏幕114在用户终端100与用户之间同时提供一个输出及输入界面。具体地，触控屏幕114向用户显示语音输入状况、网页内容等。

可以理解，图1所示的结构仅为示意，用户终端100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

本发明实施例主要是基于移动应用的场景，提供了一种语音双模控制方式，在用户使用语音输入时，能够更好适配不同用户行为，使得用户既可以直接说话，也可以操作说话，并通过对用户操作行为和麦克风状态的监测，实现两种语音输入模式的灵活选择和切换，提供更为便捷可靠的语音输入服务。

本发明实施例中，根据用户选择的语音输入方式的不同，语音模式主要包括操作说判停模式和直接说自动判停模式。其中，操作说判停模式的判停规则为，监测到与启动操作说判停模式的操作相对的结束操作说判停模式的操作时判停，如监测到手指或电磁笔离开按住说按钮、点击取消选中麦克风按钮、将麦克风按钮滑动回起点等操作时判停，与用户是否进行语言描述无关，以持续按下按住说按钮进行语音输入、离开按住说按钮结束语音输入为例，在该种操作说判停模式下，只要用户持续按下按住说按钮，无论用户是否进行语音输入，均一直处于获取用户通过语言描述的信息的状态。

直接说自动判停模式的判停规则为是在一定时长内持续未监测到用户通过语言描述的信息则判停，与用户是否进行操作无关。

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施例

图2示出了本发明第一实施例提供的一种语音双模控制方法，请参阅图2，本实施例描述的是用户终端中浏览器或应用软件内的语音功能模块如音频模块的控制方法流程，所述方法包括：

步骤S200：监测用户在语音输入界面下是否执行启动操作说判停模式的操作；

用户在搜索界面下，可以选择是否进入语音输入界面。可以定义一个简单的进入语音输入界面的方式，例如：可以定义用户点击屏幕交互界面的“语音输入”按钮即进入语音输入界面，或者用户通过预定义手势例如手势“V”即进入语音输入界面等。当然，也可以设置为默认直接进入语音输入界面。上述只是对进入语音输入界面的具体举例说明，可以理解的是，本发明的具体实施方式并不以此为限。

进入语音输入界面后，无需选择语音输入模式，用户可按自己的使用习惯，直接说话或操作说话。

用户启动操作说判停模式的操作指能够直接触发进入操作说判停模式的操作，用户启动操作说判停模式的操作有多种，将于本实施例后续内容中进行举例说明。

步骤S201：在监测到用户执行启动所述操作说判停模式的操作时，判断麦克风是否处于忙碌状态，如果是，则执行步骤S202：将语音模式从直接说自动判停模式切换为所述操作说判停模式，其中，在用户执行启动所述操作说判停模式的操作之前，若所述麦克风处于忙碌状态，则所述语音模式为所述直接说自动判停模式。如果否，则执行步骤S203：将语音模式设置为操作说判停模式。

于本实施例中，麦克风忙碌状态指麦克风接收用户语言描述时，所处的进行录音的状态，相应地，麦克风空闲状态指没有接收用户语言描述时，所处的未进行录音的状态。为了便于用户识别麦克风所处状态，优选麦克风忙碌状态下，屏幕中部有麦克风录音图标，参阅图14、图15、图17、图19、图20、图22和图23。

判断麦克风是否处于忙碌状态的方式较多，本实施例以其中一种实现方式进行举例说明：用户终端中包括麦克风状态机，麦克风状态机用于获取麦克风状态，用户终端在监测到用户执行启动操作说判停模式的操作时，向麦克风状态机发送麦克风状态获取指令，由麦克风状态机获取麦克风状态。

一般情况下，麦克风处于忙碌状态时，麦克风处于接收用户语言描述，进行录音的状态，此时，语音模式应处于直接说自动判停模式或操作说判停模式。若监测到用户在麦克风忙碌状态下执行启动操作说判停模式的操作，则说明在之前时刻用户并未执行启动操作说判停模式的操作，在未执行启动操作说判停模式的操作前，语音模式不会处于操作说判停模式，因而，在麦克风处于忙碌状态时监测到用户执行启动操作说判停模式的操作，当前语音模式应处于直接说自动判停模式。在直接说自动判停模式下监测到用户执行启动操作说判停模式的操作，可判定用户准备进行语音模式切换，此时，则将语音模式从直接说自动判停模式切换为操作说判停模式，从而实现模式切换，以适配用户的语音输入行为。相应地，若监测到用户执行启动操作说判停模式的操作时麦克风处于空闲状态，则直接进入操作说判停模式。

监测用户在语音输入界面下是否执行启动操作说判停模式的操作的判断方式有多种，于本实施例中提供了以下两种判断方式进行举例说明，可以理解的是，本发明的具体实施方式并不以此为限。

第一种，如图3所示，监测用户在语音输入界面下是否执行启动所述操作说判停模式的操作，包括：

步骤S300：监测用户在语音输入界面下是否执行启动所述操作说判停模式的操作的开始操作；

于本实施例中，用户执行启动操作说判停模式的操作的开始操作有多种实现方式，例如：开始操作为按下按住说话按钮的按下操作，参阅图13、图15；又例如：开始操作为点击选中麦克风按钮的点击操作，参阅图16；又例如：开始操作为从起始位置滑动到终止位置的滑动操作，如从左侧滑动到右侧等。

其中，启动操作说判停模式的操作的开始操作为从起始位置滑动到终止位置的实现方式有多种，例如：为一个手势动作，如用户将手指从屏幕左侧的任意位置滑动到屏幕右侧的任意位置，参阅图21、图23；又例如：屏幕中有麦克风按钮和可供麦克风按钮滑动的滑槽，启动操作说判停模式的操作的开始操作为将麦克风按钮从滑槽中的一个位置拖动到另一位置，参阅图18、图20。

麦克风按钮的展现形式有多种，例如：为麦克风按钮图标，如在一个区域中间设一个麦克风图标，通过长按或选中该麦克风图标即可开始进行语音输入，参阅图16、图17；又例如：为长按按钮，在一个长方形按钮中标注有按住说话的文字等内容，通过长按该按钮即可开始进行语音输入，参阅图13、图15。

实施时，用户若要选择操作说的语音输入方式，会执行启动操作说判停模式的操作，在用户执行启动操作说判停模式的操作时，用户终端监测启动操作说判停模式的操作的开始操作，如点击麦克风按钮、按下长按按钮、拖动麦克风按钮、在屏幕上进行滑动等，在上述过程中，用户的手指或用户操作的电磁笔均会与屏幕或屏幕上的麦克风按钮接触。因而，在应用中，可选择将用户的手指或用户操作的电磁笔点击麦克风按钮、按下长按按钮、拖动麦克风按钮、在屏幕上进行滑动的动作作为待监测的开始操作，也可选择将用户手指或用户操作的电磁笔与屏幕或屏幕上的麦克风按钮的接触动作作为待监测的开始操作。

由上可知，本实施例中，将用户启动操作说判停模式的操作的开始操作作为甄别用户行为的一个节点。

步骤S301：若监测到所述开始操作，则监测用户持续执行所述开始操作的时长，在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作。

本实施例中，监测到开始操作时是指用户启动操作说判停模式的操作从无到有的这一时刻，以使用的按住说操作模式为例，本步骤中的监测到开始操作时是指用户手指按下麦克风按钮的这一刻，在用户手指按下麦克风按钮的这一刻之前，用户未对麦克风按钮进行操作。

考虑到实际应用中可能存在误操作，以用户通过长按麦克风按钮进行语音输入为例，参阅图13，离开麦克风按钮结束语音输入，参阅图14为例，在应用时存在用户瞬态操作麦克风按钮的情况。这种情况下，若在监测出用户执行启动操作说判停模式的操作的开始操作时，如按下麦克风按钮时，即判定监测到用户在语音输入界面下执行启动操作说判停模式的操作，将语音模式设置为操作说判停模式，那么在用户手指离开麦克风按钮时，根据操作说判停模式的判停规则，会判定为结束语音输入，会直接导致无法完整地获取到用户语言描述的信息。

因而，本实施例中，摈弃了现有技术中在监测到用户执行启动操作说判停模式的操作的开始操作时即判定监测到用户在语音输入界面下执行启动操作说判停模式的操作，进而将语音模式设置为操作说判停模式的思维局限，通过监测用户持续执行开始操作的时长，如用户持续按下麦克风按钮的时长来判定是否为误操作，当判断得出用户持续执行开始操作的时长，如持续按下麦克风按钮的时长达到预设阈值，则可判定非误操作，在判定为非误操作时，方判定监测到用户在语音输入界面下执行启动操作说判停模式的操作，此时，再判断麦克风状态，若为忙碌状态，则将语音模式从直接说自动判停模式切换为操作说判停模式；若为空闲状态，则将语音模式设置为操作说判停模式。相对地，若用户持续执行开始操作的时长未达到预设阈值，则判定为误操作，判定为未监测到用户在语音输入界面下执行启动操作说判停模式的操作，不进行语音模式设置和切换。

第二种，如图4所示，所述监测用户在语音输入界面下是否执行启动所述操作说判停模式的操作，包括：

步骤S400：监测用户在语音输入界面下是否执行启动所述操作说判停模式的操作的开始操作；

于本步骤中，用户执行开始操作的实现方式与步骤S300中的实现方式相同，在此不再赘述。

步骤S401：在监测到所述开始操作时，判断所述麦克风是否处于空闲状态，如果是，则执行步骤S402：将所述语音模式设置为所述直接说自动判停模式，步骤S403：监测用户持续执行所述开始操作的时长，在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作。如果否，则执行步骤S404：在持续执行开始操作的时长达到预设阈值时，将语音模式从直接说自动判停模式切换为操作说判停模式。

于本步骤中，对监测到开始操作时的定义与步骤S301中的定义相同，在此不再赘述。

其中，麦克风空闲状态指没有接收用户语言描述时，所处的未进行录音的状态。于本实施例中，优选麦克风空闲状态下，屏幕中无麦克风录音图标。

一般情况下，若麦克风处于空闲状态，当前语音模式则不属于直接说自动判停模式和操作说判停模式中的任何一种模式，在麦克风空闲状态下监测到用户启动操作说判停模式的操作的开始操作则说明用户准备进行语音输入。

基于与步骤S301相同的考虑，由于可能存在用户误操作的情况，本步骤中，在监测到用户执行开始操作，如按下麦克风按钮且麦克风处于空闲状态时，先将语音模式设置为直接说自动判停模式，在直接说自动判停模式下获取用户通过语言描述的信息，如此设置，既可以避免误操作带来的干扰，又可以确保能够完整地获取到用户通过语言描述的信息。

在监测到用户执行开始操作且麦克风处于空闲状态时，将语音模式设置为直接说自动判停模式的同时，监测用户持续执行开始操作的时长，如用户持续按下麦克风按钮的时长来判定是否为误操作，当判断得出用户持续执行开始操作的时长，如持续按下麦克风按钮的时长达到预设阈值，则可判定非误操作，在判定为非误操作时，方判定监测到用户在语音输入界面下执行启动操作说判停模式的操作，此时，再判断麦克风状态，若为忙碌状态，则将语音模式从直接说自动判停模式切换为操作说判停模式；若为空闲状态，则将语音模式设置为操作说判停模式。相对地，若用户持续执行开始操作的时长未达到预设阈值，则判定为误操作，判定为未监测到用户在语音输入界面下执行启动操作说判停模式的操作，不进行语音模式设置和切换。

本实施例中提供的控制方法适用于不同启动操作说判停模式的操作下的应用场景，例如：若启动操作说判停模式的操作的开始操作为按下麦克风按钮的按下操作，那么，启动操作说判停模式的操作为在预设阈值内持续按下麦克风按钮，预设阈值为持续按下麦克风按钮的时长；又例如：若启动操作说判停模式的操作的开始操作为点击选中麦克风按钮的点击操作，那么，启动操作说判停模式的操作为在预设阈值内持续选中麦克风按钮，预设阈值为持续选中麦克风按钮的时长；又例如：若启动操作说判停模式的操作的开始操作为将麦克风按钮从屏幕左侧滑动到屏幕右侧的滑动操作，那么，启动操作说判停模式的操作为在预设阈值内持续保持麦克风按钮位于屏幕右侧，预设阈值为麦克风按钮保持位于屏幕右侧的时长。

在实施时，预设阈值可灵活设置，不同启动操作说判停模式的操作所对应的预设阈值可不同，例如：按下麦克风按钮的操作的持续时长的预设阈值可为1秒；选中麦克风按钮的操作的持续时长的预设阈值可为2秒；滑动麦克风按钮的操作的持续时长的预设阈值可为3秒等。

本实施例中，在将用户启动操作说判停模式的操作的开始操作作为甄别用户行为的一个节点的同时，将用户结束操作说判停模式的操作作为甄别用户行为的另一个节点。

如图5所示，所述方法还包括：

步骤S500：获取用户在语音输入界面下通过语言表述的信息；

用户在语音输入界面进行语音输入时，麦克风处于忙碌状态，在麦克风忙碌状态下，语音模式处于操作说判停模式或直接说自动判停模式，会获取用户在操作说判停模式或直接说自动判停模式下通过语言表述的信息。

步骤S501：监测用户在语音输入界面下执行的结束所述操作说判停模式的操作；

于本实施例中，根据用户执行启动操作说判停模式的操作的开始操作的不同，结束操作说判停模式的操作有多种实现方式，例如：若开始操作为按下按住说话按钮的按下操作，参阅图13，操作说语音输入方式为持续按下按住说话按钮进行语音输入，对应地，结束操作说判停模式的操作为离开按住说话按钮，参阅图14；又例如：若启动操作说判停模式的操作的开始操作为点击选中麦克风按钮的点击操作，参阅图16，操作说语音输入方式为在选中麦克风按钮的情况下进行语音输入，对应地，结束操作说判停模式的操作为点击取消选中麦克风按钮的点击操作，参阅图17；又例如：若启动操作说判停模式的操作的开始操作为从起始位置滑动到终止位置，如从左侧滑动到右侧，操作说语音输入方式为从左侧滑动到右侧之后进行语音输入，对应地，结束操作说判停模式的操作为从终止位置滑动回起始位置，如从右侧滑动回左侧。

其中，启动操作说判停模式的操作的开始操作为从起始位置滑动到终止位置的实现方式有多种，例如：开始操作为一个手势动作，如用户将手指或操作的电磁笔从屏幕左侧的任意位置滑动到屏幕右侧的任意位置，参阅图21，对应地，结束操作说判停模式的操作为用户将手指或电磁笔从屏幕的右侧任意位置滑动回左侧的任意位置，参阅图22。又例如：屏幕中有麦克风按钮和可供麦克风按钮滑动的滑槽，启动操作说判停模式的操作的开始操作为将麦克风按钮从滑槽中的一个位置拖动到另一位置，参阅图18，对应地，结束操作说判停模式的操作为将麦克风按钮拖动回起始位置，参阅图19。

步骤S502：当监测到用户执行结束所述操作说判停模式的操作时，判断当前处于所述直接说自动判停模式还是处于所述操作说判停模式，步骤S503：若当前处于所述直接说自动判停模式，则继续获取用户通过语言表述的信息；步骤S504：若当前处于所述操作说判停模式，则停止获取用户通过语言表述的信息。

于本实施例中，图15、图20、图23描述的是用户在麦克风忙碌状态下执行启动操作说判停模式的操作的开始操作示意图。

需说明的是，本实施例中，用户进入语音输入界面时，在监测到用户语音输入之前，可不设定语音模式，即在未监测到用户语音输入时，语音模式不处于直接说自动判停模式和操作说判停模式中的任何一种，只有在监测到用户语音时，方根据用户是否执行启动操作说判停模式的操作设置语音模式，若监测到语音时，未监测到启动操作说判停模式的操作，则将语音模式设置为直接说自动判停模式；若监测到语音时，监测到启动操作说判停模式的操作，则将语音模式设置为操作说判停模式。

为了防止误操作及确保用户语音信息获取的完整性，另一种方式为在语音输入界面监测到用户语音时，无论用户是否操作麦克风按钮，均会先将语音模式设置为直接说自动判停模式，因而，在实施时，装置亦可进行默认设置，如:在用户进入语音输入界面时，将语音模式默认设置为直接说自动判停模式，再监测用户是否执行启动操作说判停模式的操作的开始操作及持续执行开始操作的时长，时长达到预设阈值方将语音模式从直接说自动判停模式切换为操作说判停模式，否则继续执行直接说自动判停模式。

第一实施例中提出的语音双模控制方法通过两个节点来精准甄别用户当前的语音输入行为，两个节点分别为用户启动操作说判停模式的操作的开始操作和用户结束操作说判停模式的操作，根据监测到不同操作时麦克风所处状态、所属语音输入模式，自动切换为对应的语音输入支持，适配不同用户的语音输入习惯，能够满足不同行为用户的语音使用需求。

第一实施例中提出的语音双模控制方法在监测到用户执行启动操作说判停模式的操作的开始操作时，会先进入直接说自动判停模式，在持续执行开始操作的时长达到预设阈值时，方会将语音模式从直接说自动判停模式切换为操作说判停模式，确保了语音信息获取的完整性，有效避免了因误操作所造成的影响。

第二实施例

图6示出了本发明第二实施例提供的一种语音双模控制方法，请参阅图6，本实施例描述的是用户终端中浏览器或应用软件内的语音功能模块如音频模块的控制方法流程，所述方法包括：

步骤S600：监测用户在语音输入界面下是否执行启动操作说判停模式的操作的开始操作；

于本实施例中，用户执行启动操作说判停模式的操作的开始操作有多种实现方式，例如：开始操作为按下按住说话按钮的按下操作，参阅图13；又例如：开始操作为点击选中麦克风按钮的点击操作，参阅图16；又例如：开始操作为从起始位置滑动到终止位置的滑动操作，如从左侧滑动到右侧等。

由上述可知，本实施例中，将用户启动操作说判停模式的操作的开始操作作为甄别用户行为的一个节点。

步骤S601：在监测到所述开始操作时，判断麦克风是否处于空闲状态，如果是，则执行步骤S602：将语音模式设置为直接说自动判停模式，步骤S603：监测用户持续执行所述开始操作的时长，步骤S604：在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作，将所述语音模式从所述直接说自动判停模式切换为所述操作说判停模式。如果否，则执行步骤S605：在持续执行开始操作的时长达到预设阈值时，将语音模式从直接说自动判停模式切换为操作说判停模式。

监测到开始操作时是指用户启动操作说判停模式的操作从无到有的这一时刻，以使用按住说操作模式为例，本步骤中的监测到开始操作时是指用户手指按下麦克风按钮的这一刻，在用户手指按下麦克风按钮的这一刻之前，用户未对麦克风按钮进行操作。

由于可能存在用户误操作的情况，本步骤中，在监测到用户执行开始操作，如按下麦克风按钮且麦克风处于空闲状态时，先将语音模式设置为直接说自动判停模式，在直接说自动判停模式下获取用户通过语言描述的信息，如此设置，既可以避免误操作带来的干扰，又可以确保能够完整地获取到用户通过语言描述的信息。

在监测到用户执行开始操作且麦克风处于空闲状态时，将语音模式设置为直接说自动判停模式的同时，监测用户持续执行开始操作的时长，如用户持续按下麦克风按钮的时长来判定是否为误操作，当判断得出用户持续执行开始操作的时长，如持续按下麦克风按钮的时长达到预设阈值，则可判定非误操作，在判定为非误操作时，方判定监测到用户在语音输入界面下执行启动操作说判停模式的操作，此时，再将语音模式从直接说自动判停模式切换为操作说判停模式。相对地，若用户持续执行开始操作的时长未达到预设阈值，则判定为误操作，判定为未监测到用户在语音输入界面下执行启动操作说判停模式的操作，不进行语音模式切换。

本实施例中，将用户结束操作说判停模式的操作作为甄别用户行为的另一个节点。

方法还包括：获取用户在语音输入界面下通过语言表述的信息；监测用户在语音输入界面下执行的结束所述操作说判停模式的操作；当监测到用户执行结束所述操作说判停模式的操作时，判断当前处于所述直接说自动判停模式还是处于所述操作说判停模式，若当前处于所述直接说自动判停模式，则继续获取用户通过语言表述的信息；若当前处于所述操作说判停模式，则停止获取用户通过语言表述的信息，参阅图5。

于本实施例中，根据用户执行启动操作说判停模式的操作的开始操作的不同，结束操作说判停模式的操作有多种实现方式，例如：若开始操作为按下按住说话按钮的按下操作，参阅图13，操作说语音输入方式为持续按下按住说话按钮进行语音输入，对应地，结束操作说判停模式的操作为离开按住说话按钮，参阅图14；又例如：若启动操作说判停模式的操作的开始操作为点击选中麦克风按钮的点击操作，参阅图16，操作说语音输入方式为在选中麦克风按钮的情况下进行语音输入，对应地，结束操作说判停模式的操作为点击取消选中麦克风按钮的点击操作，参阅图17；又例如：启动操作说判停模式的操作的开始操作为从起始位置滑动到终止位置，如从左侧滑动到右侧，操作说语音输入方式为从左侧滑动到右侧之后进行语音输入，对应地，结束操作说判停模式的操作为从终止位置滑动回起始位置，如从右侧滑动回左侧。

其中，启动操作说判停模式的操作的开始操作为从起始位置滑动到终止位置的实现方式有多种，例如：开始操作为一个手势动作，如用户将手指或操作的电磁笔从屏幕左侧的任意位置滑动到屏幕右侧的任意位置，参阅图21，对应地，结束操作说判停模式的操作为用户将手指或电磁笔从屏幕的右侧任意位置滑动回左侧的任意位置，参阅图22。又例如：屏幕中有麦克风按钮和可供麦克风按钮滑动的滑槽，启动操作说判停模式的操作的开始操作为将麦克风按钮从滑槽中的一个位置拖动到另一位置，参阅图18，结束操作说判停模式的操作为将麦克风按钮拖动回起始位置，参阅图19。

在应用中，操作说判停模式的判停规则往往是监测到用户执行与启动操作说判停模式的操作的开始操作相对的结束操作说判停模式的操作，如监测到手指或电磁笔离开按住说按钮、点击取消选中麦克风按钮、将麦克风按钮滑动回起点等操作时则判停，与用户是否进行语言描述无关，以按下按住说按钮进行语音输入、离开按住说按钮结束语音输入为例，在该种操作说判停模式下，只要用户持续按下按住说按钮，无论用户是否进行语音输入，均一直处于获取用户通过语言描述的信息的状态。

直接说自动判停模式的判停规则往往是在一定时长内持续未监测到用户通过语言描述的信息则判停，与用户是否进行操作无关。

第二实施例中提出的语音双模控制方法在监测到用户执行启动操作说判停模式的操作的开始操作时，会先进入直接说自动判停模式，在持续执行开始操作的时长达到预设阈值时，方会将语音模式从直接说自动判停模式切换为操作说判停模式，确保了语音信息获取的完整性，有效避免了因误操作所造成的影响。

于本实施例中，进入语音输入界面的方式、触发进入操作说判停模式的操作，开始操作、语音模式设置和切换规则等方法可参考第一实施例中的描述，在此不再赘述。

第三实施例

图7示出了本发明第三实施例提供的一种语音双模控制装置的结构框图，请参阅图7，本实施例描述的装置适用于用户终端中浏览器或应用软件内的语音功能模块如音频模块，该语音双模控制装置支持在语音输入时的直接说自动判停模式和操作说判停模式，本实施例中的装置包括：

启动操作监测模块700，用于监测用户在语音输入界面下是否执行启动操作说判停模式的操作；

状态判断模块701，用于在所述启动操作监测模块700监测到用户执行启动所述操作说判停模式的操作时，判断麦克风是否处于忙碌状态，如果是，则将语音模式从直接说自动判停模式切换为所述操作说判停模式，其中，在用户执行启动所述操作说判停模式的操作之前，若所述麦克风处于忙碌状态，则所述语音模式为所述直接说自动判停模式。

第一种实现方式下，如图8所示，启动操作监测模块700可以包括：

开始操作监测子模块801，用于监测用户在语音输入界面下是否执行启动所述操作说判停模式的操作的开始操作；

启动操作判定子模块802，用于在所述开始操作监测子模块801监测到所述开始操作时，监测用户持续执行所述开始操作的时长，在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作。

第二种实现方式下，如图9所示，启动操作监测模块700可以包括：

开始操作监测子模块803，用于监测用户在语音输入界面下是否执行启动所述操作说判停模式的操作的开始操作；

模式设置及启动操作判定子模块804，用于在所述开始操作监测子模块803监测到所述开始操作时，判断所述麦克风是否处于空闲状态，如果是，则将所述语音模式设置为所述直接说自动判停模式，监测用户持续执行所述开始操作的时长，在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作。

进一步地，如图10所示，该语音双模控制装置还包括：

信息获取模块702，用于获取用户在语音输入界面下通过语言表述的信息；

结束操作监测模块703，用于监测用户在语音输入界面下执行的结束所述操作说判停模式的操作；

模式判断模块704，用于在所述结束操作监测模块703监测到用户执行结束所述操作说判停模式的操作时，判断当前处于所述直接说自动判停模式还是处于所述操作说判停模式，若当前处于所述直接说自动判停模式，则使所述信息获取模块702继续获取用户通过语言表述的信息；若当前处于所述操作说判停模式，则使所述信息获取模块702停止获取用户通过语言表述的信息。

本发明实施例所提供的语音双模控制装置，其实现原理及产生的技术效果和前述方法实施例1相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例1中相应内容。

第四实施例

图11示出了本发明第四实施例提供的一种语音双模控制装置的结构框图，请参阅图11，本实施例描述的装置适用于用户终端中浏览器或应用软件内的语音功能模块如音频模块，该语音双模控制装置支持在语音输入时的直接说自动判停模式和操作说判停模式，本实施例中的装置包括：

开始操作监测模块900，用于监测用户在语音输入界面下是否执行启动操作说判停模式的操作的开始操作；

模式设置及切换模块901，用于在所述开始操作监测模块900监测到所述开始操作时，判断麦克风是否处于空闲状态，如果是，则将语音模式设置为直接说自动判停模式，使所述开始操作监测模块900监测用户持续执行所述开始操作的时长，在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作，将所述语音模式从所述直接说自动判停模式切换为所述操作说判停模式。

进一步地，如图12所示，该语音双模控制装置还包括：

信息获取模块902，用于获取用户在语音输入界面下通过语言表述的信息；

结束操作监测模块903，用于监测用户在语音输入界面下执行的结束所述操作说判停模式的操作；

模式判断模块904，用于在所述结束操作监测模块903监测到用户执行结束所述操作说判停模式的操作时，判断当前处于所述直接说自动判停模式还是处于所述操作说判停模式，若当前处于所述直接说自动判停模式，则使所述信息获取模块902继续获取用户通过语言表述的信息；若当前处于所述操作说判停模式，则使所述信息获取模块902停止获取用户通过语言表述的信息。

本发明实施例所提供的语音双模控制装置，其实现原理及产生的技术效果和前述方法实施例2相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例2中相应内容。

另外，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本发明实施例所提供的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种语音双模控制方法，其特征在于，所述方法包括：

监测用户在语音输入界面下是否执行启动操作说判停模式的操作；

在监测到用户执行启动所述操作说判停模式的操作时，判断麦克风是否处于忙碌状态，如果是，则将语音模式从直接说自动判停模式切换为所述操作说判停模式，其中，在用户执行启动所述操作说判停模式的操作之前，若所述麦克风处于忙碌状态，则所述语音模式为所述直接说自动判停模式。

2.根据权利要求1所述的方法，其特征在于，所述监测用户在语音输入界面下是否执行启动所述操作说判停模式的操作，包括：

监测用户在语音输入界面下是否执行启动所述操作说判停模式的操作的开始操作；

若监测到所述开始操作，则监测用户持续执行所述开始操作的时长，在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作。

3.根据权利要求1所述的方法，其特征在于，所述监测用户在语音输入界面下是否执行启动所述操作说判停模式的操作，包括：

在监测到所述开始操作时，判断所述麦克风是否处于空闲状态，如果是，则将所述语音模式设置为所述直接说自动判停模式，监测用户持续执行所述开始操作的时长，在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取用户在语音输入界面下通过语言表述的信息；

监测用户在语音输入界面下执行的结束所述操作说判停模式的操作；

当监测到用户执行结束所述操作说判停模式的操作时，判断当前处于所述直接说自动判停模式还是处于所述操作说判停模式，若当前处于所述直接说自动判停模式，则继续获取用户通过语言表述的信息；若当前处于所述操作说判停模式，则停止获取用户通过语言表述的信息。

5.一种语音双模控制方法，其特征在于，所述方法包括：

监测用户在语音输入界面下是否执行启动操作说判停模式的操作的开始操作；

在监测到所述开始操作时，判断麦克风是否处于空闲状态，如果是，则将语音模式设置为直接说自动判停模式，监测用户持续执行所述开始操作的时长，在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作，将所述语音模式从所述直接说自动判停模式切换为所述操作说判停模式。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取用户在语音输入界面下通过语言表述的信息；

7.一种语音双模控制装置，运行于用户终端，其特征在于，所述装置包括：

启动操作监测模块，用于监测用户在语音输入界面下是否执行启动操作说判停模式的操作；

状态判断模块，用于在所述启动操作监测模块监测到用户执行启动所述操作说判停模式的操作时，判断麦克风是否处于忙碌状态，如果是，则将语音模式从直接说自动判停模式切换为所述操作说判停模式，其中，在用户执行启动所述操作说判停模式的操作之前，若所述麦克风处于忙碌状态，则所述语音模式为所述直接说自动判停模式。

8.根据权利要求7所述的装置，其特征在于，所述启动操作监测模块包括：

开始操作监测子模块，用于监测用户在语音输入界面下是否执行启动所述操作说判停模式的操作的开始操作；

启动操作判定子模块，用于在所述开始操作监测子模块监测到所述开始操作时，监测用户持续执行所述开始操作的时长，在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作。

9.根据权利要求7所述的装置，其特征在于，所述启动操作监测模块包括：

模式设置及启动操作判定子模块，用于在所述开始操作监测子模块监测到所述开始操作时，判断所述麦克风是否处于空闲状态，如果是，则将所述语音模式设置为所述直接说自动判停模式，监测用户持续执行所述开始操作的时长，在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作。

10.根据权利要求9所述的装置，其特征在于，还包括：

信息获取模块，用于获取用户在语音输入界面下通过语言表述的信息；

结束操作监测模块，用于监测用户在语音输入界面下执行的结束所述操作说判停模式的操作；

模式判断模块，用于在所述结束操作监测模块监测到用户执行结束所述操作说判停模式的操作时，判断当前处于所述直接说自动判停模式还是处于所述操作说判停模式，若当前处于所述直接说自动判停模式，则使所述信息获取模块继续获取用户通过语言表述的信息；若当前处于所述操作说判停模式，则使所述信息获取模块停止获取用户通过语言表述的信息。

11.一种语音双模控制装置，运行于用户终端，其特征在于，所述装置包括：

开始操作监测模块，用于监测用户在语音输入界面下是否执行启动操作说判停模式的操作的开始操作；

模式设置及切换模块，用于在所述开始操作监测模块监测到所述开始操作时，判断麦克风是否处于空闲状态，如果是，则将语音模式设置为直接说自动判停模式，使所述开始操作监测模块监测用户持续执行所述开始操作的时长，在所述时长达到预设阈值时，判定监测到用户在语音输入界面下执行启动所述操作说判停模式的操作，将所述语音模式从所述直接说自动判停模式切换为所述操作说判停模式。

12.根据权利要求11所述的装置，其特征在于，还包括：

13.一种用户终端，其特征在于，包括：麦克风、触控屏幕、存储器以及处理器，所述存储器存储有权利要求7至12任意一项中的语音双模控制装置中的模块，所述处理器用于运行存储在所述存储器内的模块。