CN105472092A

CN105472092A - 通话控制方法、装置及移动终端

Info

Publication number: CN105472092A
Application number: CN201410366079.XA
Authority: CN
Inventors: 陶钧; 刘山荣; 王娜
Original assignee: Xiaomi Inc
Current assignee: Beijing Xiaomi Technology Co Ltd; Xiaomi Inc
Priority date: 2014-07-29
Filing date: 2014-07-29
Publication date: 2016-04-06

Abstract

本公开是关于一种通话控制方法、装置及移动终端，该通话控制方法应用于移动终端，该方法中，当检测出移动终端与用户耳边的距离大于预设阈值时，获取听筒传输的声音信号；然后基于对所述声音信号的分析，判断所述声音信号中是否包含语音信号；当所述声音信号中包含所述语音信号时，执行相应的提示操作。通过上述通话控制方法，能够根据从听筒中获取的声音信号，判断对方是否在说话，并在判断得知对方在说话时，执行相应的提示操作，以便提示用户，从而避免用户错过信息。

Description

通话控制方法、装置及移动终端

技术领域

本公开涉及通信技术领域，尤其涉及一种通话控制方法、装置及移动终端。

背景技术

作为一种高科技产物，移动终端为人们的生活和学习带来许多便利。为了满足用户需求，移动终端提供了多种通话模式，如听筒模式、外放模式、蓝牙模式和耳机模式等。

采用听筒模式通话时，对方的声音通过听筒传出。这种情况下，为了听清对方的声音，需要使移动终端贴近用户的耳朵，有时会导致用户的脸部在无意间触碰到移动终端的屏幕。为了防止脸部对屏幕的误触导致移动终端产生误操作，需要根据移动终端与用户耳边的距离，控制屏幕的状态。其中，当移动终端与用户耳边的距离小于预设的阈值时，关闭屏幕，在屏幕关闭状态下，即使触碰到屏幕，移动终端也不会执行任何操作；当移动终端与用户耳边的距离不小于所述阈值时，则开启屏幕，在屏幕开启状态下，移动终端会根据用户对屏幕的触控，执行相应的操作，如挂断电话等。

但是，在通话的过程中，有时需要用户对移动终端进行操作，从而需要把移动终端从耳朵旁移开，以开启屏幕，如果此时对方正在说话，用户可能无法听到，从而错过信息。例如，用户认为通话结束时，会将移动终端从耳朵旁移开，以挂断本次通话，如果在移开移动终端后，对方仍有话要说，用户往往无法听到，从而错过对方提供的信息。

发明内容

为克服相关技术中存在的问题，本公开提供一种通话控制方法、装置及移动终端。

根据本公开实施例的第一方面，提供一种通话控制方法，所述通话控制方法包括：

当检测到移动终端与用户耳边的距离大于预设阈值时，获取听筒传输的声音信号；

基于对所述声音信号的分析，判断所述声音信号中是否包含语音信号；

当所述声音信号中包含所述语音信号时，执行相应的提示操作。

结合第一方面，在第一方面第一种可能的实现方式中，所述基于对所述声音信号的分析，判断所述声音信号中是否包含语音信号的步骤包括：

按照预设时间段对所述声音信号进行分割，获取多帧子信号；

获取所述多帧子信号的特征参数；

基于所述多帧子信号的特征参数，判断所述声音信号中是否包含语音信号。

结合第一方面第一种可能的实现方式，在第一方面第二种可能的实现方式中，所述获取所述多帧子信号的特征参数包括：

获取所述多帧子信号的能量、过零率、倒谱和谱熵中的任意一个或多个参数。

结合第一方面第一种可能的实现方式，或者结合第一方面第二种可能的实现方式，在第一方面第三种可能的实现方式中，所述基于所述多帧子信号的特征参数，判断所述声音信号中是否包含语音信号，包括：

根据前M帧子信号的特征参数，分别获取所述特征参数对应的第一门限值和第二门限值，其中，同一特征参数的第一门限值小于第二门限值，M为大于O的正整数；

将剩余各帧子信号的特征参数分别与对应的第一门限值、第二门限值相比较，当根据比较结果，确定所述剩余各帧子信号中包含有第一目标子信号时，判定所述声音信号中包含语音信号，其中，所述第一目标子信号的特征参数大于所述特征参数对应的第二门限值，并且，所述第一目标子信号之后预设帧数的子信号的特征参数均大于对应的第一门限值。

结合第一方面第一种可能的实现方式，或者结合第一方面第二种可能的实现方式，在第一方面第四种可能的实现方式中，所述基于所述多帧子信号的特征参数，判断所述声音信号中是否包含语音信号，包括：

根据前N帧子信号的特征参数，获取所述特征参数对应的第三门限值，其中，N为大于O的正整数；

将剩余各帧子信号的特征参数与对应的第三门限值相比较，当根据比较结果，确定所述剩余各帧子信号中包含有第二目标子信号时，判定所述声音信号中包含语音信号，其中，所述第二目标子信号的特征参数大于对应的第三门限值，并且，所述第二目标子信号之后预设帧数的子信号的特征参数均大于对应的第三门限值。

结合第一方面，在第一方面第五种可能的实现方式中，所述基于对所述声音信号的分析，判断所述声音信号中是否包含语音信号的步骤包括：

将所述声音信号转换为数字信号；

将所述数字信号与预设的语音模型和/或噪声模型相匹配，并根据匹配程度判断所述声音信号中是否包含语音信号。

结合第一方面，在第一方面第六种可能的实现方式中，所述通话控制方法还包括：

在获取所述听筒传输的声音信号之后，并在对所述声音信号分析之前，对所述声音信号进行滤波，以滤除所述声音信号中的低频噪声。

结合第一方面，或结合第一方面第一种可能的实现方式，或结合第一方面第二种可能的实现方式，或结合第一方面第三种可能的实现方式，或结合第一方面第四种可能的实现方式，或结合第一方面第五种可能的实现方式，或结合第一方面第六种可能的实现方式，在第一方面第七种可能的实现方式中，所述执行相应的提示操作，包括：

产生振动；

和/或，

自动开启扬声器，或者根据接收到的触控操作开启扬声器，以便通过所述扬声器播放所述声音信号。

根据本公开实施例的第二方面，提供一种通话控制装置，所述通话控制装置包括：

声音信号获取模块，用于当检测到移动终端与用户耳边的距离大于预设阈值时，获取听筒传输的声音信号；

声音信号分析模块，用于基于对所述声音信号的分析，判断所述声音信号中是否包含语音信号；

提示模块，用于当所述声音信号中包含所述语音信号时，执行相应的提示操作。

结合第二方面，在第二方面第一种可能的实现方式中，所述声音信号分析模块包括：

分割子模块，用于按照预设时间段对所述声音信号进行分割，获取多帧子信号；

特征参数获取子模块，用于获取所述多帧子信号的特征参数；

判断子模块，用于基于所述多帧子信号的特征参数，判断所述声音信号中是否包含语音信号。

结合第二方面第二种可能的实现方式，在第一方面第二种可能的实现方式中，所述特征参数获取子模块具体用于，获取所述多帧子信号的能量、过零率、倒谱和谱熵中的任意一个或多个参数。

结合第二方面第二种可能的实现方式，或者结合第二方面第二种可能的实现方式，在第二方面第三种可能的实现方式中，所述判断子模块包括：

第一获取单元，用于根据前M帧子信号的特征参数，分别获取所述特征参数对应的第一门限值和第二门限值，其中，同一特征参数的第一门限值小于第二门限值，M为大于O的正整数；

第一判断单元，用于将剩余各帧子信号的特征参数分别与对应的第一门限值、第二门限值相比较，当根据比较结果，确定所述剩余各帧子信号中包含有第一目标子信号时，判定所述声音信号中包含语音信号，其中，所述第一目标子信号的特征参数大于所述特征参数对应的第二门限值，并且，所述第一目标子信号之后预设帧数的子信号的特征参数均大于对应的第一门限值。

结合第二方面第二种可能的实现方式，或者结合第二方面第二种可能的实现方式，在第二方面第四种可能的实现方式中，所述判断子模块包括：

第二获取单元，用于根据前N帧子信号的特征参数，获取所述特征参数对应的第三门限值，其中，N为大于O的正整数；

第二判断单元，用于将剩余各帧子信号的特征参数与对应的第三门限值相比较，当根据比较结果，确定所述剩余各帧子信号中包含有第二目标子信号时，判定所述声音信号中包含语音信号，其中，所述第二目标子信号的特征参数大于对应的第三门限值，并且，所述第二目标子信号之后预设帧数的子信号的特征参数均大于对应的第三门限值。

结合第二方面，在第二方面第五种可能的实现方式中，所述声音信号分析模块包括：

转换单元，用于将所述声音信号转换为数字信号；

匹配单元，用于将所述数字信号与预设的语音模型，和/或，噪声模型相匹配，并根据匹配程度判断所述声音信号中是否包含语音信号。

结合第二方面，在第二方面第六种可能的实现方式中，所述通话控制装置还包括：

滤波模块，用于在获取所述听筒传输的声音信号之后，并在对所述声音信号分析之前，对所述声音信号进行滤波，以滤除所述声音信号中的低频噪声。

结合第二方面，或结合第二方面第一种可能的实现方式，或结合第二方面第二种可能的实现方式，或结合第二方面第三种可能的实现方式，或结合第二方面第四种可能的实现方式，或结合第二方面第五种可能的实现方式，或结合第二方面第六种可能的实现方式，在第二方面第七种可能的实现方式中，所述提示模块包括：

振动单元，用于产生振动；

和/或，

扬声器控制单元，用于自动开启扬声器，或者根据接收到的触控操作开启扬声器，以便通过所述扬声器播放所述声音信号。

根据本公开实施例的第三方面，提供一种移动终端，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

本公开的实施例提供的技术方案可以包括以下有益效果：

通过上述通话控制方法，能够根据从听筒中获取的声音信号，判断对方是否在说话，并在判断得知对方在说话时，执行相应的提示操作，以便提示用户，从而避免用户错过信息。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种通话控制方法的流程图。

图2是根据一示例性实施例示出的一种通话控制方法的应用场景示意图。

图3是根据一示例性实施例示出的一种通话控制方法的应用场景示意图。

图4是根据一示例性实施例示出的一种通话控制方法的流程图。

图5是根据一示例性实施例示出的一种通话控制方法的流程图。

图6是根据一示例性实施例示出的一种通话控制方法的流程图。

图7是根据一示例性实施例示出的一种通话控制方法的流程图。

图8是根据一示例性实施例示出的一种通话控制方法的流程图。

图9是根据一示例性实施例示出的一种通话控制方法的流程图。

图10是根据一示例性实施例示出的一种移动终端的屏幕示意图。

图11是根据一示例性实施例示出的一种通话控制装置的结构示意图。

图12是根据一示例性实施例示出的一种通话控制装置的结构示意图。

图13是根据一示例性实施例示出的一种通话控制装置的结构示意图。

图14是根据一示例性实施例示出的一种通话控制装置的结构示意图。

图15是根据一示例性实施例示出的一种用于终端控制的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种通话控制方法的流程图，如图1所示，所述通话控制方法应用于移动终端中，包括以下步骤：

在步骤S11中，当检测到移动终端与用户耳边的距离大于预设阈值时，获取听筒传输的声音信号。

其中，移动终端与用户耳边的距离通常利用设置在所述移动终端中的距离传感器获取。当所述距离大于预设阈值时，则认为用户已经将移动终端从耳朵旁移开，此时，对方在说话时，用户有可能无法听到，因此需要获取听筒传输的声音信号，以便后续对所述声音信号进行分析。

参见图2和图3所示的场景示意图，其中，图2为用户在接听电话时，用户与移动终端所在的场景示意图，在该场景下，移动终端与用户耳边的距离较近。图3为用户将移动终端从耳边移开，准备对移动终端进行操作(如挂断)时，用户与移动终端所在的场景示意图，在该场景下，移动终端与用户耳边的距离较大。本申请中，预先根据多次实验或经验，预设一个阈值，当移动终端与用户耳边的距离大于该预设阈值时，则说明用户已经将移动终端移开了。

当获取所述声音信号后，在步骤S12中，基于对所述声音信号的分析，判断所述声音信号中是否包含语音信号。

所述声音信号通常包括噪声信号，并在对方说话时，所述声音信号中会包含对方说话时产生的语音信号。其中，语音通常指的是由人的发音器官发出，负载一定的语言意义的载体。

在步骤S13中，当所述声音信号中包含所述语音信号时，执行相应的提示操作。

当根据步骤S12的操作，判断得知所述声音信号中包含所述语音信号时，则说明对方在说话，为了避免用户错过信息，所述移动终端执行相应的提示操作，从而能够对用户起到提示作用。

本公开示例性实施例提供一种通话控制方法，该通话控制方法应用于移动终端，该方法中，首先当检测到移动终端与用户耳边的距离大于预设阈值时，获取听筒传输的声音信号；然后基于对所述声音信号的分析，判断所述声音信号中是否包含语音信号；当所述声音信号中包含所述语音信号时，执行相应的提示操作。

通过上述通话控制方法，能够根据从听筒中获取的声音信号，判断对方是否在说话，并在判断得知对方在说话时，执行相应的提示操作，以便提示用户，从而能够避免用户错过信息。

在步骤S12中，公开了基于对所述声音信号的分析，判断所述声音信号中是否包含语音信号的步骤，在本公开一示例性实施例中，参见图4，所述基于对所述声音信号的分析，判断所述声音信号中是否包含语音信号的步骤包括：

在步骤S121中，按照预设时间段对所述声音信号进行分割，获取多帧子信号。

该步骤指的是对声音信号进行加窗处理。加窗处理的过程中，通过预设时间段，将所述声音信号分割为多帧子信号，每一帧子信号的时长等于所述预设时间段。其中，所述预设时间段的时长由用户根据应用需求，预先设定。例如，所述预设时间段可以为30毫秒，这种情况下，对所述声音信号进行分割，即可获取多帧子信号,且每帧子信号的时长为30毫秒。

在获取所述多帧子信号后，在步骤S122中，获取所述多帧子信号的特征参数。

在步骤S123中，基于所述多帧子信号的特征参数，判断所述声音信号中是否包含语音信号。

在步骤S121至步骤S123中，将声音信号分割为多帧子信号，并通过所述多帧子信号的特征参数，即可确定所述声音信号中是否包含语音信号。

其中，所述获取所述多帧子信号的特征参数包括：获取所述多帧子信号的能量、过零率、倒谱和谱熵中的任意一个或多个参数。

所述声音信号通常包括噪声信号，并在对方说话时，所述声音信号中会包含对方说话时产生的语音信号。其中，噪声信号的能量通常小于语音信号的能量，每帧子信号的能量指的是该帧子信号对应的时域信号平方的积分。

每一帧子信号的过零率表示该帧子信号的波形穿过横轴(即零电平)的次数，过零率能够描述声音信号的频谱特性，用于判断声音信号中是否包含语音信号。

另外，还可以采用倒谱这一参数作为特征参数。倒谱指的是功率谱的对数值的逆傅氏变换，也可称为功率倒频谱。每一帧子信号s(t)的倒谱函数(powercepstrum)通常可通过以下公式获得：

C(q)＝|IF(log(s(f)))|^2。

其中，s(f)是每一帧子信号s(t)的傅里叶变换，IF为逆傅里叶变换，C(q)为倒谱函数，即倒频谱函数。

另外，还可以采用谱熵这一参数作为特征参数。

在求取某一帧子信号的谱熵时，首先需要通过快速傅里叶变换得到该帧子信号的频谱，然后计算各频谱分量在该帧子信号的总能量中所占的比例，将所述比例作为该帧子信号的能量集中在相应频谱分量的概率，其中，计算所述比例的公式如下：

P_{i} = \frac{s (f_{i})}{Σ_{k = 1}^{N} s (f_{k})} .

其中，P_i为一帧子信号中，第i个频谱分量在总能量中所占的比例；s(f_i)为第i个频谱分量；N为该帧子信号中，频谱分量的总个数；s(f_k)为第k个频谱分量。

然后，由于语音信号的绝大部分能量集中在200Hz-3500Hz之间，为了区分语音信号和噪声信号，在获取每个频谱分量在该帧子信号的总能量的比例后，我们把200Hz-3500Hz之外的频率分量置为0，相应的每一帧子信号的谱熵定义如下：

H = - Σ_{k = 1}^{N} p_{k} {\log p}_{k} .

H为一帧子信号的谱熵；N为该帧子信号中，频谱分量的总个数；P_k为一帧子信号中，第k个频谱分量在总能量中所占的比例。通过上式，即可获取每一帧子信号的谱熵。

通过能量、过零率、倒谱和谱熵，通常能够分辨出清音段和浊音段，即分辨出声音信号中是否包含语音信号。因此，在判断声音信号中是否包含语音信号时，可将能量、过零率、倒谱和谱熵中的任意一个或多个参数作为特征参数，并基于所述特征参数对所述声音信号进行分析判断。当然，还可以将其他能够区分语音信号和噪声信号的参数作为特征参数，本申请对此不作限定。

步骤S123中所述的基于所述多帧子信号的特征参数，判断所述声音信号中是否包含语音信号，可以以多种实现方式实现，在其中一种实现方式中，参见图5，包括以下步骤：

在步骤S1231中，根据前M帧子信号的特征参数，分别获取所述特征参数对应的第一门限值和第二门限值，其中，同一特征参数的第一门限值小于第二门限值，M为大于O的正整数。

在示例性实施例中，默认前M帧子信号为噪声信号，其中，M的具体数值可由用户根据经验预先设定。其中，所述特征参数包括：能量、过零率、倒谱和谱熵中的任意一个参数或多个参数。

在步骤S1232中，将剩余各帧子信号的特征参数分别与对应的第一门限值、第二门限值相比较，当根据比较结果，确定所述剩余各帧子信号中包含有第一目标子信号时，判定所述声音信号中包含语音信号，其中，所述第一目标子信号的特征参数大于所述特征参数对应的第二门限值，并且，所述第一目标子信号之后预设帧数的子信号的特征参数均大于对应的第一门限值。

其中，所述剩余各帧子信号指的是分割得到的多帧子信号中第M帧子信号之后的子信号。

在步骤S1231至步骤S1232的操作中，通过对声音信号的特征参数进行分析，判断声音信号中是否包含语音信号。在分析过程中，通常将前M帧子信号假设为噪声信号，然后根据前M帧子信号的特征参数，获取相应的第一门限值和第二门限值。其中，当所述第一门限值小于第二门限值时，可知所述第一门限值对信号的变化较为敏感。

在获取所述第一门限值和第二门限值后，将剩余各帧子信号的所述特征参数分别与其对应的所述第一门限值、第二门限值相比较。当剩余各帧子信号在某一时刻之后的特征参数大于对应的第一门限值时，即该时刻的特征参数超过较低的门限值时，有可能是噪声信号引起的，此时无法确定所述声音信号中是否存在语音信号。当剩余的各帧子信号中，某一帧子信号的特征参数均大于对应的第二门限值，并且该帧子信号之后预设帧数的子信号的特征参数均大于对应的第一门限值时，则将该帧子信号作为第一目标子信号，并判定所述声音信号中包含语音信号，所述第一目标子信号开始的时刻即为所述语音信号开始的时刻。

通过上述设定双门限值的方法，能够基于所述多帧子信号的特征参数，判断出所述声音信号中是否包含语音信号。

在信噪比较大时，通常只采用能量或过零率中的一个参数作为特征参数，并根据步骤SS1231至步骤S1232的操作，基于所述特征参数，判断声音信号中是否包含语音信号。但是，通常周边环境产生的噪声较大，这种情况下，为了提高判断精度，可将能量和过零率两个参数都作为特征参数，通过这两个特征参数判断声音信号中是否包含语音信号。这种情况下，需要第一目标子信号的能量和过零率均大于对应的第二门限值，并且，所述第一目标子信号之后预设帧数的子信号的能量和过零率，也均大于对应的第一门限值。

当然，还可以采用其他参数作为特征参数，或其他多个参数相结合，共同作为特征参数的方案，本申请对此不做限定。

参见图6，为了更好理解本申请，以下将能量作为特征参数，描述本申请的通话控制方法的实施过程：

在步骤S21中，当检测到移动终端与用户耳边的距离大于预设阈值时，获取听筒传输的声音信号。

获取声音信号后，在步骤S22中，按照预设时间段对所述声音信号进行分割，获取多帧子信号。

在步骤S23中，获取所述多帧子信号的能量。

在步骤S24中，根据前M帧子信号的能量，分别获取所述能量对应的第一门限值和第二门限值，其中，所述能量这一特征参数对应的第一门限值小于所述第二门限值，M为大于0的正整数。

在步骤S25中，判断前M帧子信号之后的剩余各帧子信号中，是否存在能量超过第二门限值的子信号，若是，执行步骤S26的操作，若否，则执行步骤S28的操作。

若判断得知，所述剩余各帧子信号中，存在能量超过第二门限值的子信号，在步骤S26中，将所述能量超过第二门限值的子信号作为第一待定目标子信号，判断所述第一待定目标子信号之后预设帧数的子信号的能量是否均大于第一门限值，若是，则执行步骤S27的操作，若否，则执行步骤S28的操作。

在步骤S27中，判定所述声音信号中存在语音信号，执行相应的提示操作，并且，所述第一待定目标子信号为第一目标子信号，所述第一目标子信号开始的时间为语音信号开始的时间。

在步骤S28中，判定所述声音信号中不存在语音信号。

上述示例性实施例的步骤S26中，所述预设帧数可以定为10帧，在实际应用中，还可以将所述预设帧数定为其他帧，本申请对此不做限定。另外，上述示例性实施例中，将能量作为特征参数，另外，还可以选取过零率、倒谱或谱熵，或其他能够区分语音信号和噪声信号的参数作为特征参数，本申请对此不做限定。

另外，为了提高判断的精确性，所述特征参数还可以包括两个以上参数，参见图7，为了更好理解本申请，以下实施例中将倒谱和谱熵共同作为特征参数，描述本申请的通话控制方法的实施过程：

在步骤S31中，当检测到移动终端与用户耳边的距离大于预设阈值时，获取听筒传输的声音信号。

获取声音信号后，在步骤S32中，按照预设时间段对所述声音信号进行分割，获取多帧子信号。

在步骤S33中，获取所述多帧子信号的倒谱和谱熵。

在步骤S34中，根据前M帧子信号的倒谱和谱熵，分别获取所述倒谱对应的的第一门限值和第二门限值，其中所述倒谱对应的第一门限值小于所述倒谱对应的第二门限值，并获取所述谱熵对应的第一门限值和第二门限值，其中所述谱熵对应的第一门限值小于所述谱熵对应的第二门限值，并且M为大于0的正整数。

在步骤S35中，判断前M帧子信号之后的剩余各帧子信号中，是否存在倒谱和谱熵均大于其对应的第二门限值的子信号，若是，执行步骤S36的操作，若否，则执行步骤S38的操作。

若判断得知，所述剩余各帧子信号中，存在倒谱和谱熵均大于其对应的第二门限值的子信号，在步骤S36中，将所述倒谱和谱熵均超过其对应的第二门限值的子信号作为第一待定目标子信号，判断所述第一待定目标子信号之后预设帧数的子信号的倒谱和谱熵是否均大于对应的第一门限值，若是，则执行步骤S37的操作，若否，则执行步骤S38的操作。

在步骤S37中，判定所述声音信号中存在语音信号，执行相应的提示操作，并且，所述第一待定目标子信号为目标子信号，所述目标子信号开始的时间为语音信号开始的时间。

在步骤S38中，判定所述声音信号中不存在语音信号。

上述示例性实施例的步骤S36中，所述预设帧数可以定为10帧，在实际应用中，还可以将所述预设帧数定为其他值，本申请对此不做限定。另外，上述示例性实施例中，将倒谱和谱熵作为特征参数，另外，还可以选取过零率、能量、倒谱和谱熵，或其他能够区分语音信号和噪声信号的两个以上参数的结合作为特征参数，本申请对此不做限定。

经过多次试验，当选取能量为特征参数时，设定能量对应的第一门限值为ETL，第二门限值为ETU，前M帧子信号的能量最大值、最小值分别为EMAX和EMIN，I1＝0.03(EMAX-EMIN)+EMIN，I2＝4EMIN，则所述第一门限值ETL＝min(I1,I2)，所述第二门限值ETU＝5ETL。

当采用过零率作为特征参数时，设定过零率对应的第一门限值为ZTL，第二门限值为ZTU，则ZTL＝min(IF,zc+2fzc)，ZTU＝5ZTL。其中，IF为经验值，一般取25，zc、fzc分别为所述M帧子信号的过零率的均值和标准差。

当采用倒谱作为特征参数时，设定倒谱对应的第一门限值为ED，第二门限值为EDU，前M帧子信号的平均倒谱为TH，则所述第一门限值ED＝1.4TH，所述第二门限值EDU＝2ED。

当采用谱熵作为特征参数时，设定谱熵对应的第一门限值为ZD，第二门限值为ZDU，前M帧子信号的平均谱熵为ZH，则第一门限值ZD＝1.5ZH，第二门限值ZDU＝2ZD。

当然，上述各个特征参数对应的第一门限值和第二门限值还可以按照其他方式设置，本申请对此不作限定。

通过上述示例性实施例，能够将两个以上参数作为特征参数，并对各个特征参数综合考虑，以判断声音信号中是否包含语音信号。

在上述的示例性实施例中，分别介绍了根据一个特征参数，或者两个以上特征参数判断声音信号中是否包含语音信号的方案。另外，还可以采用其他方式，基于所述多帧子信号的特征参数，判断所述声音信号中是否包含语音信号。

在另一种可行的实施方式中，参见图8，所述基于所述多帧子信号的特征参数，判断所述声音信号中是否包含语音信号，包括：

在步骤S1233中，根据前N帧子信号的特征参数，获取所述特征参数对应的第三门限值，其中，N为大于O的正整数。

获取所述第三门限值后，在步骤S1234中，将剩余各帧子信号的特征参数与对应的第三门限值相比较，当根据比较结果，确定所述剩余各帧子信号中包含有第二目标子信号时，判定所述声音信号中包含语音信号，其中，所述第二目标子信号的特征参数大于对应的第三门限值，并且，所述第二目标子信号之后预设帧数的子信号的特征参数均大于对应的第三门限值。

在步骤S1233至步骤S1234公开的示例性实施例中，为特征参数设置了单一门限，即第三门限值，所述第三门限值根据前N帧子信号的特征参数获取。当剩余各帧子信号中，存在某一帧子信号，该帧子信号的特征参数大于其对应的第三门限值，以及该帧子信号之后预设帧数的子信号的特征参数均大于其对应的第三门限值时，则判定该帧子信号为第二目标子信号，所述第二目标子信号为所述语音信号的开始时刻。

该示例性实施例中，所述特征参数可为一个或多个，本申请对此不作限定。

其中，当所述特征参数为倒谱时，设定倒谱对应的第三门限值为ED’，前N帧子信号的平均倒谱为TH’，则所述第三门限值ED’＝1.4TH’；当所述特征参数为谱熵时，设定谱熵对应的第三门限值为ZD’，前N帧子信号的平均倒谱为ZH’，则所述第三门限值ZD’＝1.5ZH’。

当然，所述倒谱和谱熵分别对应的第三门限值还可以设置为其他值，本申请对此不做限定。

上述示例性实施例中，介绍了基于特征参数，判断声音信号中是否包含语音信号的方案，另外，还可以通过其他方式，判断声音信号中是否包含语音信号，在另一种可行的实施方案中，参见图9，所述基于对所述声音信号的分析，判断所述声音信号中是否包含语音信号的步骤包括：

在步骤S124中，将所述声音信号转换为数字信号。

在步骤S125中，将所述数字信号与预设的语音模型和/或噪声模型相匹配，并根据匹配程度判断所述声音信号中是否包含语音信号。

上述示例性实施例中，通过模型匹配的方式判断声音信号中是否包含语音信号。其中，在创建语音模型时，需要预先经过多次试验，分析通话过程中产生的语音信号的特点，据此创建相应的语音模型。另外，在创建噪声模型时，需要预先经过多次试验，分析通话环境中各种可能产生的噪声信号的特点，据此创建相应的噪声模型。

在进行模型匹配时，可将数字信号单独与所述语音模型相匹配，当匹配程度大于第一预设匹配程度时，则判定所述声音信号中包含语音信号；或者，将数字信号单独与所述噪声模型相匹配，当数字信号与噪声模型的匹配程度小于第二预设匹配程度时，则判定所述声音信号中包含语音信号。另外，还可以将所述数字信号同时与语音模型和噪声模型相匹配，这种情况下，当数字信号与语音模型的匹配程度大于第三预设匹配程度，且与噪声模型的匹配程度小于第四预设匹配程度时，判定所述声音信号中包含语音信号。

以上示例性实施例中，分别介绍了根据特征参数和模型匹配，对声音信号进行分析，判断所述声音信号中是否包含语音信号的方案。进一步的，为了提高声音信号的分析精度，本申请另一可行的实施方式中，还可以在步骤S11和步骤S12之间，增加对声音信号进行滤波的操作。这种情况下，所述通话控制方法还包括：

对声音信号进行滤波时，可以采用高通滤波，或者带通滤波等滤波方式，以滤除低频噪声，以便在步骤S12中，对滤除低频噪声的声音信号进行分析时，提高分析精度。

若判断得知声音信号中包含语音信号，则说明对方正在说话，为了避免用户错过信息，需要执行相应的提示操作。其中，所述提示操作包括多种形式。

在其中一种可行的实现方式中，所述执行相应的提示操作包括：

产生振动；

和/或，自动开启扬声器，或者根据接收到的触控操作开启扬声器，以便通过所述扬声器播放所述声音信号。

当判断得知声音信号中包含语音信号时，若移动终端产生振动，则手持移动终端的用户会及时感知到，对用户起到提示作用，当用户需要接听时，则可将移动终端放在耳侧，避免错过信息。

另外，所述提示操作还可以为开启扬声器，使用户直接通过扬声器听到声音信号。为了适用于多种应用场景，用户可预先对移动终端进行设置，从而使移动终端在判断得知声音信号中包含语音信号时，自动开启扬声器，或者，在移动终端的屏幕上显示功能菜单，用户对功能菜单进行触控后，移动终端根据接收到的触控操作决定是否开启扬声器。

例如，参见图10，在所述移动终端的屏幕上，显示“是否开启扬声器”，并提供“是”和“否”两个选择键，当用户触控“是”这一选择键时，则开启扬声器，当用户触控“否”这一选择键时，则不开启扬声器。

图11是根据一示例性实施例示出的一种终端控制装置的示意图。参照图11，该装置包括声音信号获取模块100、声音信号分析模块200和提示模块300。

其中，所述声音信号获取模块100，用于当检测到移动终端与用户耳边的距离大于预设阈值时，获取听筒传输的声音信号；

所述声音信号分析模块200，用于基于对所述声音信号的分析，判断所述声音信号中是否包含语音信号；

所述提示模块300，用于当所述声音信号中包含所述语音信号时，执行相应的提示操作。

在本公开一示例性实施例中，参见图12所示，所述声音信号分析模块200包括：分割子模块201、特征参数获取子模块202和判断子模块203。

其中，所述分割子模块201，用于按照预设时间段对所述声音信号进行分割，获取多帧子信号；

所述特征参数获取子模块202，用于获取所述多帧子信号的特征参数；

所述判断子模块203，用于基于所述多帧子信号的特征参数，判断所述声音信号中是否包含语音信号。

其中，所述特征参数获取子模块202具体用于，获取所述多帧子信号的能量、过零率、倒谱和谱熵中的任意一个或多个参数。

在本公开一示例性实施例中，所述判断子模块203包括：第一获取单元和第一判断单元。

其中，所述第一获取单元，用于根据前M帧子信号的特征参数，分别获取所述特征参数对应的第一门限值和第二门限值，其中，同一特征参数的第一门限值小于第二门限值，M为大于O的正整数；

所述第一判断单元，用于将剩余各帧子信号的特征参数分别与对应的第一门限值、第二门限值相比较，当根据比较结果，确定所述剩余各帧子信号中包含有第一目标子信号时，判定所述声音信号中包含语音信号，其中，所述第一目标子信号的特征参数大于所述特征参数对应的第二门限值，并且，所述第一目标子信号之后预设帧数的子信号的特征参数均大于对应的第一门限值。

在另一种可行的实施方式中，所述判断子模块203包括：第二获取单元和第二判断单元。

其中，所述第二获取单元，用于根据前N帧子信号的特征参数，获取所述特征参数对应的第三门限值，其中，N为大于O的正整数；

所述第二判断单元，用于将剩余各帧子信号的特征参数与对应的第三门限值相比较，当根据比较结果，确定所述剩余各帧子信号中包含有第二目标子信号时，判定所述声音信号中包含语音信号，其中，所述第二目标子信号的特征参数大于对应的第三门限值，并且，所述第二目标子信号之后预设帧数的子信号的特征参数均大于对应的第三门限值。

在本公开一示例性实施例中，参见图13所示,所述声音信号分析模块200包括：转换单元204和匹配单元205。

其中，所述转换单元204，用于将所述声音信号转换为数字信号；

所述匹配单元205，用于将所述数字信号与预设的语音模型和/或噪声模型相匹配，并根据匹配程度判断所述声音信号中是否包含语音信号。

在本公开一示例性实施例中，参见图14所示,所述通话控制装置还包括：滤波模块400。所述滤波模块400，用于在获取所述听筒传输的声音信号之后，并在对所述声音信号分析之前，对所述声音信号进行滤波，以滤除所述声音信号中的低频噪声。

在本公开一示例性实施例中，所述提示模块300可以包括：振动单元，和/或，扬声器控制单元。其中，所述振动单元用于产生振动，所述扬声器控制单元，用于自动开启扬声器，或者根据接收到的触控操作开启扬声器，以便通过所述扬声器播放所述声音信号。

相应的，本申请还公开一种移动终端。在本公开一示例性实施例中，所述移动终端包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

其中，在一个可行的实施方式中，所述基于对所述声音信号的分析，判断所述声音信号中是否包含语音信号的步骤包括：

获取所述多帧子信号的特征参数；

所述获取所述多帧子信号的特征参数包括：

在一个可行的实施方式中，所述基于所述多帧子信号的特征参数，判断所述声音信号中是否包含语音信号，包括：

在另一可行的实施方式中，所述基于对所述声音信号的分析，判断所述声音信号中是否包含语音信号的步骤包括：

将所述声音信号转换为数字信号；

将所述数字信号与预设的语音模型，和/或噪声模型相匹配，并根据匹配程度判断所述声音信号中是否包含语音信号。

另外，所述处理器执行的操作还包括：

在另一可行的实施方式中，所述执行相应的提示操作，包括：

产生振动；

和/或，

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图15是根据一示例性实施例示出的一种用于通话控制的装置800的框图。例如，装置800可以是移动电话，或者具有通话功能的平板设备和个人数字助理等。

参照图15，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按键等。这些按键可包括但不限于：主页按键、音量按键、启动按键和锁定按键。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到装置800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种通话控制方法，所述方法包括：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种通话控制方法，其特征在于，所述通话控制方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于对所述声音信号的分析，判断所述声音信号中是否包含语音信号的步骤包括：

获取所述多帧子信号的特征参数；

3.根据权利要求2所述的方法，其特征在于，所述获取所述多帧子信号的特征参数包括：

4.根据权利要求2或3所述的方法，其特征在于，所述基于所述多帧子信号的特征参数，判断所述声音信号中是否包含语音信号，包括：

5.根据权利要求2或3所述的方法，其特征在于，所述基于所述多帧子信号的特征参数，判断所述声音信号中是否包含语音信号，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于对所述声音信号的分析，判断所述声音信号中是否包含语音信号的步骤包括：

将所述声音信号转换为数字信号；

7.根据权利要求1所述的方法，其特征在于，所述通话控制方法还包括：

8.根据权利要求1至7所述的方法，其特征在于，所述执行相应的提示操作，包括：

产生振动；

和/或，

9.一种通话控制装置，其特征在于，所述通话控制装置包括：

10.根据权利要求9所述的装置，其特征在于，所述声音信号分析模块包括：

11.根据权利要求10所述的装置，其特征在于，所述特征参数获取子模块具体用于，获取所述多帧子信号的能量、过零率、倒谱和谱熵中的任意一个或多个参数。

12.根据权利要求10或11所述的装置，其特征在于，所述判断子模块包括：

13.根据权利要求10或11所述的装置，其特征在于，所述判断子模块包括：

14.根据权利要求9所述的装置，其特征在于，所述声音信号分析模块包括：

转换单元，用于将所述声音信号转换为数字信号；

匹配单元，用于将所述数字信号与预设的语音模型和/或噪声模型相匹配，并根据匹配程度判断所述声音信号中是否包含语音信号。

15.根据权利要求9所述的装置，其特征在于，所述通话控制装置还包括：

16.根据权利要求9至15所述的装置，其特征在于，所述提示模块包括：

振动单元，用于产生振动；

和/或，

17.一种移动终端，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：