CN107785013A

CN107785013A - 语音控制方法及装置

Info

Publication number: CN107785013A
Application number: CN201610718871.6A
Authority: CN
Inventors: 李腾飞
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2016-08-24
Filing date: 2016-08-24
Publication date: 2018-03-09
Also published as: WO2018035986A1; US20190228770A1

Abstract

本发明提供了一种语音控制方法及装置，其中，该方法包括：在通话过程中，检测是否出现第一语音信息；在获取到所述第一语音信息后，采集第二语音信息；根据所述第二语音信息对所述通话过程进行控制。通过本发明，解决了相关技术中在通话过程中不能进行语音控制的技术问题，提供了更优良更方便的通讯体验。

Description

语音控制方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种语音控制方法及装置。

背景技术

随着包含通讯功能电子设备的普及，无线通讯已经成为生活中的常态行为，然而无线通讯质量会受到各种因素的影响，如设备、网络以及环境，有可能导致无线通讯的语音信号音量偏大或者偏小，从而需要用户进行音量调节的操作，也可能需要在通话的同时进行其他处理操作，使通讯行为的体验变差。

相关技术中的可以在通话过程中同时进行其他的处理功能，但需要人工手动进行操作，这种方式不够智能化，其所需的操作在通讯过程中也不够方便，相关技术中的语音控制解决方案也不能实现在通话过程中的控制。

针对相关技术中存在的上述问题，目前尚未发现有效的解决方案。

发明内容

本发明实施例提供了一种语音控制方法及装置，以至少解决相关技术中在通话过程中不能进行语音控制的技术问题。

根据本发明的一个实施例，提供了一种语音控制方法，包括：在通话过程中，检测是否出现第一语音信息；在获取到所述第一语音信息后，采集第二语音信息；根据所述第二语音信息对所述通话过程进行控制。

可选地，在检测是否出现第一语音信息之前，还包括：采集当前通话用户的声纹信息；确定所述当前通话用户的声纹信息与预存的声纹信息匹配。

可选地，根据所述第二语音信息对所述通话过程进行以下控制至少之一：调节受话音量、开启录音、结束录音、调节送话音量、结束当前通话、自定义操作。

可选地，在采集第二语音信息之后，所述方法还包括：判断在预设时间内是否接收到第三语音信息；在判断结果为是时，停止采集所述第二语音信息。

可选地，在判断结果为否时，所述方法包括：指示停止根据所述第二语音信息对所述通话过程进行控制。

根据本发明的另一个实施例，提供了一种语音控制装置，包括：检测模块，用于在通话过程中，检测是否出现第一语音信息；第一采集模块，用于在获取到所述第一语音信息后，采集第二语音信息；控制模块，用于根据所述第二语音信息对所述通话过程进行控制。

可选地，所述装置还包括：第二采集模块，用于在所述检测模块检测是否出现第一语音信息之前，采集当前通话用户的声纹信息；确定模块，用于确定所述当前通话用户的声纹信息与预存的声纹信息匹配。

可选地，所述控制模块用于根据所述第二语音信息对所述通话过程进行以下控制至少之一：调节受话音量、开启录音、结束录音、调节送话音量、结束当前通话、自定义操作。

可选地，所述装置还包括：判断模块，用于在所述第一采集模块采集第二语音信息之后，判断在预设时间内是否接收到第三语音信息；第一处理模块，用于在判断结果为是时，停止采集所述第二语音信息。

可选地，所述装置包括：第二处理模块，用于在所述判断模块判断结果为否时，指示停止根据所述第二语音信息对所述通话过程进行控制。

根据本发明的又一个实施例，还提供了一种存储介质。该存储介质设置为存储用于执行以下步骤的程序代码：

在通话过程中，检测是否出现第一语音信息；

在获取到所述第一语音信息后，采集第二语音信息；

根据所述第二语音信息对所述通话过程进行控制。

通过本发明，在通话过程中，检测是否出现第一语音信息；在获取到所述第一语音信息后，采集第二语音信息；根据所述第二语音信息对所述通话过程进行控制。可以解决相关技术中在通话过程中不能进行语音控制的技术问题，提供更优良更方便的通讯体验。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种语音控制方法的移动终端的硬件结构框图；

图2是根据本发明实施例的语音控制方法的流程图；

图3是根据本发明实施例的语音控制装置的结构框图；

图4为根据本发明本实施例提供的方法的流程示意图；

图5为根据本发明实施例的装置系统交互实施例。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种语音控制方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的语音控制方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端的语音控制方法，图2是根据本发明实施例的语音控制方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，在通话过程中，检测是否出现第一语音信息；

步骤S204，在获取到第一语音信息后，采集第二语音信息；

步骤S206，根据第二语音信息对通话过程进行控制。

通过上述步骤，在通话过程中，检测是否出现第一语音信息；在获取到第一语音信息后，采集第二语音信息；根据第二语音信息对通话过程进行控制。可以解决相关技术中在通话过程中不能进行语音控制的技术问题，提供更优良更方便的通讯体验。

可选地，上述步骤的执行主体为可以通过语音进行人机交互的终端，如手机等，但不限于此。

可选的，在检测是否出现第一语音信息之前，本实施例还包括：

S11，采集当前通话用户的声纹信息；

S12，确定当前通话用户的声纹信息与预存的声纹信息匹配。以此可以确定语音控制的主控用户，在安全级别比较高的场景下，在获取到第一语音信息之后，还可以匹配第一语音信息中的声纹信息是否和预存的声纹信息匹配，在匹配的情况下，在继续执行后续步骤。

可选的，根据第二语音信息对通话过程进行以下控制至少之一：调节受话音量、开启录音、结束录音、调节送话音量、结束当前通话、其他自定义的控制，如，点量屏幕、截屏、打开应用程序等。

可选的，在采集第二语音信息之后，方法还包括：

S21，判断在预设时间内是否接收到第三语音信息；

S22，在判断结果为是时，停止采集第二语音信息。根据之前采集的第二语音信息对通话过程进行控制。在另一个判断分支中，在判断结果为否时，方法包括：指示停止根据第二语音信息对通话过程进行控制。可以继续采集第一语音信息。

可选的，本实施例中的第一语音信息、第二语音信息、第三语音信息可以是设定的特定语句，如第一语音信息可以预设为“HELLO”、“稍等，语音控制”等。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

在本实施例中还提供了一种语音控制装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的语音控制装置的结构框图，如图3所示，该装置包括：

检测模块30，用于在通话过程中，检测是否出现第一语音信息；

第一采集模块32，用于在获取到第一语音信息后，采集第二语音信息；

控制模块34，用于根据第二语音信息对通话过程进行控制。

可选的，本实施例的装置还包括：第二采集模块，用于在检测模块检测是否出现第一语音信息之前，采集当前通话用户的声纹信息；确定模块，用于确定当前通话用户的声纹信息与预存的声纹信息匹配。

可选的，控制模块用于根据第二语音信息对通话过程进行以下控制至少之一：调节受话音量、开启录音、结束录音、调节送话音量、结束当前通话。

可选的，本实施例的装置还包括：判断模块，用于在第一采集模块采集第二语音信息之后，判断在预设时间内是否接收到第三语音信息；第一处理模块，用于在判断结果为是时，停止采集第二语音信息。第二处理模块，用于在判断模块判断结果为否时，指示停止根据第二语音信息对通话过程进行控制。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本实施例为根据本发明的可选实施例，用于结合具体的场景对本申请进行详细说明：

本实施例提供了一种可以在通话过程中进行语音控制的方法和装置,通过检测“语音控制命令开启符”和“语音控制命令结束符”来获取通讯过程中用户的“通话过程语音控制命令”来自动调节通话音量，可以提供更优良更方便的通讯体验。

本实施例描述了一种可以在通话过程中进行语音控制的方法和装置，这种装置主要包括主控子系统，无线信号收发子系统，存储器子系统，语音信号送话子系统，语音信号受话子系统，人机交互接口子系统，语音识别控制子系统。其中主控子系统用于对各信号的处理编码、对设备的各种操作处理以及对无线信号收发、存储器、语音信号送话、语音信号受话、人机交互接口、语音识别控制子系统的统一管理。其中无线信号收发子系统用于发送和接收无线射频信号，完成通讯链接的建立和维持。其中存储器子系统用来存放通讯设备的软件配置、各功能配置参数等数据。其中语音信号送话子系统负责接收用户所发出的语音信号。其中语音信号受话子系统用来向用户传递通讯对方的语音消息。其中人机交互接口子系统完成用户对设备的操作如拨打电话、接听电话等。其中语音识别控制子系统完成声纹设定并通过语音信号送话子系统对用户发出的语音命令进行识别再向主控子系统反馈所需的响应操作。

本实施例描述的一种可以自动调节通话音量的方法包括：预先通过语音信号送话子系统与语音识别控制子系统采集用户声音以获取用户声纹信息，设定与此声纹信息相符合的用户为主控用户，同时设定通话过程中的“语音控制命令开启符”、“语音控制命令结束符”以及“通话过程语音控制命令”为特定语句。其中“语音控制命令开启符”、“语音控制命令结束符”和“通话过程语音控制命令”都可以为多个不同的特定语句，但必须各自独立不相同。其中“通话过程语音控制命令”的响应操作可以是多个预置的功能操作(如调节受话音量、开启录音、调节送话音量等)，也可以是由用户自定义的某种功能操作，且不同响应操作的“通话过程语音控制命令”也必须各自独立不相同。当通讯建立成功后，在通讯过程中，当用户发出“语音控制命令开启符”+“通话过程语音控制命令”+“语音控制命令结束符”，此时语音识别控制子系统检测到“语音控制命令开启符”与“语音控制命令结束符”及其中间的“通话过程语音控制命令”，识别出主控用户的“通话过程语音控制命令”，将所需响应操作上报给主控子系统，再由主控子系统调整控制各子系统，完成“通话过程语音控制命令”对应的响应操作。藉此实现通话过程中语音控制操作的功能。

本实施例提供了一种可以在通话过程中进行语音控制的方法和装置，图4为根据本发明本实施例提供的方法的流程示意图，包括：

步骤1：语音信号送话子系统采集用户声音，将其发送给语音识别控制子系统；

步骤2：语音识别控制子系统根据用户声纹设定主控用户声音，同时引导用户设定“语音控制命令开启符”、“通话过程语音控制命令”和“语音控制命令结束符”；

步骤3：人机交互接口子系统接受用户的通讯请求(包括呼叫或接听)并传送至主控子系统；

步骤4：主控子系统响应用户通讯请求，并控制无线信号收发子系统完成无线通讯的建立与维持；

步骤5：主控子系统读取存储器子系统中的各类配置参数，设置通话过程中的各子系统的工作状态；

步骤6：语音信号送话子系统将接收到的用户声音在发送至通话链路，同时也发送给语音识别控制子系统；

步骤7：语音识别控制子系统根据声纹信息锁定主控用户，检测到主控用户发出“语音控制命令开启符”，开始识别“通话过程语音控制命令”；

步骤8：在默认时间内，如果语音识别控制子系统检测到主控用户发出“语音控制命令结束符”，则识别处理其在“语音控制命令结束符”之前的“通话过程语音控制命令”；若在默认时间内没有检测到主控用户发出的“语音控制命令结束符”，则结束识别“通话过程语音控制命令”且不做响应，继续检测“语音控制命令开启符”；

步骤9：语音识别控制子系统将识别到的“通话过程语音控制命令”所需的响应操作上报至主控子系统；

步骤10：主控子系统调节控制各子系统的工作状态，完成“通话过程语音控制命令”对应的响应操作。

图5为根据本发明实施例的装置系统交互实施例，包括：

主控子系统用于对各信号的处理编码、对设备的各种操作处理以及对无线信号收发、存储器、语音信号送话、语音信号受话、人机交互接口等子系统的统一管理。

无线信号收发子系统用于发送和接收无线射频信号，完成通讯链接的建立和维持。

存储器子系统用来存放通讯设备的软件配置、各类参数等数据。

人机交互接口子系统接收用户对设备的通讯请求处理。

语音信号送话子系统负责接收用户所发出的语音信号。

语音信号受话子系统用来传递通讯对方的语音信号。

语音识别控制子系统完成声纹设定并通过语音信号送话子系统对用户发出的语音命令进行识别再向主控子系统反馈所需的响应操作。

下面结合应用场景对本实施例进行说明：

用户A要通过通讯设备与用户B进行语音通讯，在通讯行为之前，通过语音信号送话子系统发送用户声音至语音识别控制子系统完胜声纹设定，锁定其为主控用户，再根据语音识别控制子系统的引导将“语音控制命令开启符”设置为“稍等，语音控制”；设置“通话过程语音控制命令”为“增大音量”，其响应操作为增大通话音量；设置“通话过程语音控制命令”为“减小音量”，其响应操作为减小通话音量；将“语音控制命令结束符”设置为“执行”。在通讯建立完成开始通话时，主控子系统先读取存储器中的音频输出配置参数，以设置语音信号受话子系统的音量大小。在通话过程中，语音信号送话子系统同时将用户声音内容发送给语音识别控制子系统，当用户A感觉接收到的用户B的声音偏小，听不清楚，此时用户A说：“稍等，语音控制：增大音量，执行。”语音识别控制子系统根据声纹信息确定用户A为主控用户，检测到“稍等，语音控制”这一“语音控制命令开启符”后，开始识别“通话过程语音控制命令”，再检测到“执行”这一“语音控制命令结束符”后，停止识别“通话过程语音控制命令”，在此过程中识别出“增大音量”这一“通话过程语音控制命令”，同时将此语音命令对应的增大通话音量这一所需的响应操作上报给主控子系统，主控子系统调节音频输出配置参数，增大语音信号受话子系统的通话音量，使接收到的用户B的语音信号音量增大；在安静环境中，用户A感觉接收到的用户B的声音偏大，由于会影响旁人或其他原因用户A说：“稍等，语音控制：减小音量，执行。”语音识别控制子系统根据声纹信息确定用户A为主控用户，检测到“稍等，语音控制”这一“语音控制命令开启符”后，开始识别“通话过程语音控制命令”，再检测到“执行”这一“语音控制命令结束符”后，停止识别“通话过程语音控制命令”，在此过程中识别出“减小音量”这一“通话过程语音控制命令”，同时将此语音命令对应的减小通话音量这一所需的响应操作上报给主控子系统，主控子系统调节音频输出配置参数，减小语音信号受话子系统的通话音量，使接收到的用户B的语音信号音量减小；

本实施例通过检测识别用户的语音控制命令，将其所需的响应操作上报至主控子系统，再由主控子系统调节音频输出配置参数，自动的调节受话音量大小，在保证了通讯效果的同时，也优化了使用体验。通过对通话过程中用户的语音信息进行检测和识别，根据识别结果自动完成用户想要进行的控制操作，既保证了通讯质量，也优化了用户使用体验。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：

S1，在通话过程中，检测是否出现第一语音信息；

S2，在获取到第一语音信息后，采集第二语音信息；

S3，根据第二语音信息对通话过程进行控制。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行在通话过程中，检测是否出现第一语音信息；

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行在获取到第一语音信息后，采集第二语音信息；

可选地，在本实施例中，处理器根据存储介质中已存储的程序代码执行根据第二语音信息对通话过程进行控制。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音控制方法，其特征在于，包括：

在通话过程中，检测是否出现第一语音信息；

在获取到所述第一语音信息后，采集第二语音信息；

根据所述第二语音信息对所述通话过程进行控制。

2.根据权利要求1所述的方法，其特征在于，在检测是否出现第一语音信息之前，所述方法还包括：

采集当前通话用户的声纹信息；

确定所述当前通话用户的声纹信息与预存的声纹信息匹配。

3.根据权利要求1所述的方法，其特征在于，根据所述第二语音信息对所述通话过程进行以下控制至少之一：调节受话音量、开启录音、结束录音、调节送话音量、结束当前通话、自定义操作。

4.根据权利要求1所述的方法，其特征在于，在采集第二语音信息之后，所述方法还包括：

判断在预设时间内是否接收到第三语音信息；

在判断结果为是时，停止采集所述第二语音信息。

5.根据权利要求4所述的方法，其特征在于，在判断结果为否时，所述方法包括：

指示停止根据所述第二语音信息对所述通话过程进行控制。

6.一种语音控制装置，其特征在于，包括：

检测模块，用于在通话过程中，检测是否出现第一语音信息；

第一采集模块，用于在获取到所述第一语音信息后，采集第二语音信息；

控制模块，用于根据所述第二语音信息对所述通话过程进行控制。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二采集模块，用于在所述检测模块检测是否出现第一语音信息之前，采集当前通话用户的声纹信息；

确定模块，用于确定所述当前通话用户的声纹信息与预存的声纹信息匹配。

8.根据权利要求6所述的装置，其特征在于，所述控制模块用于根据所述第二语音信息对所述通话过程进行以下控制至少之一：调节受话音量、开启录音、结束录音、调节送话音量、结束当前通话、自定义操作。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

判断模块，用于在所述第一采集模块采集第二语音信息之后，判断在预设时间内是否接收到第三语音信息；

第一处理模块，用于在判断结果为是时，停止采集所述第二语音信息。

10.根据权利要求9所述的装置，其特征在于，所述装置包括：

第二处理模块，用于在所述判断模块判断结果为否时，指示停止根据所述第二语音信息对所述通话过程进行控制。