CN106486124A

CN106486124A - 一种语音处理的方法及终端

Info

Publication number: CN106486124A
Application number: CN201510543173.2A
Authority: CN
Inventors: 赵孙平
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2015-08-28
Filing date: 2015-08-28
Publication date: 2017-03-08
Also published as: WO2017036175A1

Abstract

本发明提供一种语音处理的方法及终端，该方法包括：采集终端运动的实时数据；根据预定算法对所述实时数据进行处理；将处理后的数据与预设的场景阈值进行比对，来确定所述终端所处的场景；根据所确定的场景选择对应的参数和/或应用进行语音信号处理。通过本发明可以提高语音识别率，提高用户体验。

Description

一种语音处理的方法及终端

技术领域

本发明涉及通信领域，特别是涉及一种语音处理的方法及终端。

背景技术

语音识别功能是下一代UI(User Interface，用户界面)交互的趋势，其识别的准确性是影响用户的第一因素，为了保证识别准确性，硬件设备需要给予语音引擎质量良好的音频文件，方便引擎进行后续的识别计算。

而当前，由于用户使用场景多样，用户与终端之间距离变化因素较快，而音频信号的衰减随距离渐远而迅速衰减，当前的解决方案是在分场景，给予固定的增益，然后有用户在不同场景下选择不同的应用，获取对应的增益及对应的降噪算法，以此保证用户体验。例如，场景A，应用为A1，对应的匹配增益为A2，降噪算法为A3，而场景B时，应用为B1，对应的增益为B2，降噪算法为B3。

当用户在场景B时使用A1应用，则此时增益配置为A2，而降噪算法还是会采用A3，则会导致识别率降低，影响用户体验。

发明内容

本发明要解决的技术问题是提供一种语音处理的方法及终端，以提高语音识别率。

为了解决上述技术问题，本发明提供了一种语音处理的方法，包括：

采集终端运动的实时数据；

根据预定算法对所述实时数据进行处理；

将处理后的数据与预设的场景阈值进行比对，来确定所述终端所处的场景；

根据所确定的场景选择对应的参数和/或应用进行语音信号处理。

进一步地，上述方法还具有下面特点：所述采集终端运动的实时数据，包括：

分别采集终端在空间三个数轴上运动的实时数据。

进一步地，上述方法还具有下面特点：所述根据预定算法对所述实时数据进行处理，包括：

根据所采集的数据分别计算终端在空间三个数轴上在预定时段内的数据平均值；

根据各数轴上的数据平均值分别计算平均方差。

进一步地，上述方法还具有下面特点：所述参数包括：

各场景对应的音频增益和/或降噪算法。

进一步地，上述方法还具有下面特点：所述采集终端运动的实时数据是通过采用以下一种或多种传感器实现的：

重力传感器、加速度传感器、接近传感器。

为了解决上述问题，本发明还提供了一种终端，其中，包括：

采集模块，用于采集所述终端运动的实时数据；

第一处理模块，用于根据预定算法对所述实时数据进行处理；

确定模块，用于将处理后的数据与预设的场景阈值进行比对，来确定所述终端所处的场景；

第二处理模块，用于根据所确定的场景选择对应的参数和/或应用进行语音信号处理。

进一步地，上述终端还具有下面特点：

所述采集模块，具体用于分别采集终端在空间三个数轴上运动的实时数据。

进一步地，上述终端还具有下面特点：

所述第一处理模块，根据预定算法对所述实时数据进行处理包括：根据所采集的数据分别计算终端在空间三个数轴上在预定时段内的数据平均值；根据各数轴上的数据平均值分别计算平均方差。

进一步地，上述终端还具有下面特点：所述第二处理模块选择的参数包括：

各场景对应的音频增益和/或降噪算法。

进一步地，上述终端还具有下面特点：所述采集模块包括以下的一种或多种：

重力传感器、加速度传感器、接近传感器。

综上，本发明提供一种语音处理的方法及终端，可以提高语音识别率，提高用户体验。

附图说明

图1为本发明实施例的终端的示意图；

图2为本发明实施例的一种语音处理的方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

图1为本发明实施例的终端的示意图，如图1所示，本实施例的终端包括：

采集模块，用于采集所述终端运动的实时数据；

在一优选实施例，所述采集模块，具体用于分别采集终端在空间三个数轴上运动的实时数据。

其中，所述采集模块可以包括以下的一种或多种：

重力传感器、加速度传感器、接近传感器、音频采集模块。

所述采集模块可使用终端(例如手机)自有传感器，例如重力传感器、加速度传感器、接近传感器等，也可根据实际使用加入的音频采集模块，采集手机各个传感器的实时数据。

所述第一处理模块将传感器数据进行适当滤波，去除不良毛刺，进行场景匹配。在手机中的数据库中，同时存有各场景所对应的数据范围。

本实施例的终端可以通过已有的传感器模块进行状态监测，判断终端(例如手机)所处的场景，自动调节增益，解决用户在交叉场景中语音识别降低。

本发明实施例提供一种语音处理的方法，通过对于传感器数据采集，然后归类判断终端所处于的场景，通过对于场景判断采用合适的增益调节、降噪算法以及应用，提升用户体验。如图2所示，本实施例的方法包括以下步骤：

步骤11、采集终端运动的实时数据；

步骤12、根据预定算法对所述实时数据进行处理；

步骤13、将处理后的数据与预设的场景阈值进行比对，来确定所述终端所处的场景；

步骤14、根据所确定的场景选择对应的参数和/或应用进行语音信号处理。

以下以三个具体实施例对本发明的方法进行详细的说明：

实施例一、车载模式

由于车载模式时，手机状态比较稳定，可单独采用加速度传感为主要检测对象，手机检测到加速度传感器三轴数值，在i时刻分别为X_i、Y_i、Z_i；

在i时刻计算，从k时刻到i时刻的监测个数K内；加速度传感器各轴的平均值分别为：X'、Y'、Z'

根据各轴数据平均值计算平均方差X_s、Y_s、Z_s

其中，K为数据采样个数(建议值为10-40)；

X_i为i时刻X轴数据(建议i到i+1时刻间隔建议为50ms-200ms)；

X'为k到i时段内X_i的平均值；

计算场景特征值T1：

当X_s＜X_m、Y_s＜Y_m、Z_s＜Z_m同时为真时，此时特征值T1为真(1)，X_m、Y_m、Z_m为该模式对应的场景判断阈值；

T2＝(X_s＜Xm)AND(Y_s＜Ym)AND(Z_s＜Zm)＝1

实施例二、家庭模式

由于家庭模式时，手机状态同样稳定，比如看视频(S11)和手机平放(S12)，仍可单独采用加速度传感为主要检测对象，手机检测到加速度传感器三轴数值，在i时刻分别为X_i、Y_i、Z_i；

根据各轴数据平均值计算平均方差X_s、Y_s、Z_s

K为数据采样个数(建议值为10-40)；

X_i为i时刻X轴数据(建议i到i+1时刻间隔建议为50ms-200ms)；

X'为k到i时段内X_i的平均值；

计算场景特征值T2：

计算X_s＜Xn、Y_s＜Yn、Z_s＜Zn同时为真时，此时特征值T2为真(1)，Xn、Yn、Zn为该模式对应的场景判断阈值，由于在此场景中，手机处于静止状态，所以X_s、Y_s、Z_s应该接近于0，因此，在此判断中，Xn、Yn、Zn值在考虑滤波的情况建议为0或者接近于0。

T2＝(X_s＜Xn)AND(Y_s＜Yn)AND(Z_s＜Zn)＝1

实施例三，手持模式

由于手持模式时，手机状态及不稳定，加速度的3个轴的数据都互相交错，且没有规律，此时可单独调节降噪算法。只有当手持模式打电话时，由于话筒比较近，才需要调节增益参数。所以在手持模式中，需要分两步判断场景a、普通手持，b、手持打电话；

手机检测到加速度传感器三轴数值，在i时刻分别为X_i、Y_i、Z_i；

根据各轴数据平均值计算平均方差X_s、Y_s、Z_s

K为数据采样个数(建议值为10-40)；

X_i为i时刻X轴数据(建议i到i+1时刻间隔建议为50ms-200ms)；

X'为k到i时段内Xi的平均值；

计算场景特征值T3、T4：

在手持中，由于手机姿态变化较大，所以当判断T1特征值不属于场景B、场景C时，则判断为手持普通场景；

T3＝1；

接近传感器输出参数为Mi，Mi有两种状态，接近Y，和非接近N；

当Mi在连续N(5＜N＜20)个采样点中，统计Mi＝Y的个数，若cont(Mi＝Y)>90％

则特征值T4赋值为1，两个特征值同时为真，则此时判断为S14手持打电话场景，并输出场景判定结果

T3AND T4＝1。

通过本实施例的方法可实现以下效果：

1、可识别不同场景，适配不同的场景参数；

2、可识别不同场景，调用不同的应用；

3、不会增加其他硬件，且具备比较好的可扩展性。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

以上仅为本发明的优选实施例，当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种语音处理的方法，包括：

采集终端运动的实时数据；

根据预定算法对所述实时数据进行处理；

2.如权利要求1所述的方法，其特征在于：所述采集终端运动的实时数据，包括：

分别采集终端在空间三个数轴上运动的实时数据。

3.如权利要求2所述的方法，其特征在于：所述根据预定算法对所述实时数据进行处理，包括：

根据各数轴上的数据平均值分别计算平均方差。

4.如权利要求1所述的方法，其特征在于：所述参数包括：

各场景对应的音频增益和/或降噪算法。

5.如权利要求1-4任一项所述的方法，其特征在于：所述采集终端运动的实时数据是通过采用以下一种或多种传感器实现的：

重力传感器、加速度传感器、接近传感器。

6.一种终端，其特征在于，包括：

采集模块，用于采集所述终端运动的实时数据；

7.如权利要求6所述的终端，其特征在于：

8.如权利要求7所述的终端，其特征在于：

9.如权利要求7所述的终端，其特征在于：所述第二处理模块选择的参数包括：

各场景对应的音频增益和/或降噪算法。

10.如权利要求6-9任一项所述的终端，其特征在于：所述采集模块包括以下的一种或多种：

重力传感器、加速度传感器、接近传感器。