CN106486124A - 一种语音处理的方法及终端 - Google Patents

一种语音处理的方法及终端 Download PDF

Info

Publication number
CN106486124A
CN106486124A CN201510543173.2A CN201510543173A CN106486124A CN 106486124 A CN106486124 A CN 106486124A CN 201510543173 A CN201510543173 A CN 201510543173A CN 106486124 A CN106486124 A CN 106486124A
Authority
CN
China
Prior art keywords
terminal
scene
data
real time
time data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510543173.2A
Other languages
English (en)
Inventor
赵孙平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201510543173.2A priority Critical patent/CN106486124A/zh
Priority to PCT/CN2016/081890 priority patent/WO2017036175A1/zh
Publication of CN106486124A publication Critical patent/CN106486124A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

本发明提供一种语音处理的方法及终端,该方法包括:采集终端运动的实时数据;根据预定算法对所述实时数据进行处理;将处理后的数据与预设的场景阈值进行比对,来确定所述终端所处的场景;根据所确定的场景选择对应的参数和/或应用进行语音信号处理。通过本发明可以提高语音识别率,提高用户体验。

Description

一种语音处理的方法及终端
技术领域
本发明涉及通信领域,特别是涉及一种语音处理的方法及终端。
背景技术
语音识别功能是下一代UI(User Interface,用户界面)交互的趋势,其识别的准确性是影响用户的第一因素,为了保证识别准确性,硬件设备需要给予语音引擎质量良好的音频文件,方便引擎进行后续的识别计算。
而当前,由于用户使用场景多样,用户与终端之间距离变化因素较快,而音频信号的衰减随距离渐远而迅速衰减,当前的解决方案是在分场景,给予固定的增益,然后有用户在不同场景下选择不同的应用,获取对应的增益及对应的降噪算法,以此保证用户体验。例如,场景A,应用为A1,对应的匹配增益为A2,降噪算法为A3,而场景B时,应用为B1,对应的增益为B2,降噪算法为B3。
当用户在场景B时使用A1应用,则此时增益配置为A2,而降噪算法还是会采用A3,则会导致识别率降低,影响用户体验。
发明内容
本发明要解决的技术问题是提供一种语音处理的方法及终端,以提高语音识别率。
为了解决上述技术问题,本发明提供了一种语音处理的方法,包括:
采集终端运动的实时数据;
根据预定算法对所述实时数据进行处理;
将处理后的数据与预设的场景阈值进行比对,来确定所述终端所处的场景;
根据所确定的场景选择对应的参数和/或应用进行语音信号处理。
进一步地,上述方法还具有下面特点:所述采集终端运动的实时数据,包括:
分别采集终端在空间三个数轴上运动的实时数据。
进一步地,上述方法还具有下面特点:所述根据预定算法对所述实时数据进行处理,包括:
根据所采集的数据分别计算终端在空间三个数轴上在预定时段内的数据平均值;
根据各数轴上的数据平均值分别计算平均方差。
进一步地,上述方法还具有下面特点:所述参数包括:
各场景对应的音频增益和/或降噪算法。
进一步地,上述方法还具有下面特点:所述采集终端运动的实时数据是通过采用以下一种或多种传感器实现的:
重力传感器、加速度传感器、接近传感器。
为了解决上述问题,本发明还提供了一种终端,其中,包括:
采集模块,用于采集所述终端运动的实时数据;
第一处理模块,用于根据预定算法对所述实时数据进行处理;
确定模块,用于将处理后的数据与预设的场景阈值进行比对,来确定所述终端所处的场景;
第二处理模块,用于根据所确定的场景选择对应的参数和/或应用进行语音信号处理。
进一步地,上述终端还具有下面特点:
所述采集模块,具体用于分别采集终端在空间三个数轴上运动的实时数据。
进一步地,上述终端还具有下面特点:
所述第一处理模块,根据预定算法对所述实时数据进行处理包括:根据所采集的数据分别计算终端在空间三个数轴上在预定时段内的数据平均值;根据各数轴上的数据平均值分别计算平均方差。
进一步地,上述终端还具有下面特点:所述第二处理模块选择的参数包括:
各场景对应的音频增益和/或降噪算法。
进一步地,上述终端还具有下面特点:所述采集模块包括以下的一种或多种:
重力传感器、加速度传感器、接近传感器。
综上,本发明提供一种语音处理的方法及终端,可以提高语音识别率,提高用户体验。
附图说明
图1为本发明实施例的终端的示意图;
图2为本发明实施例的一种语音处理的方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1为本发明实施例的终端的示意图,如图1所示,本实施例的终端包括:
采集模块,用于采集所述终端运动的实时数据;
第一处理模块,用于根据预定算法对所述实时数据进行处理;
确定模块,用于将处理后的数据与预设的场景阈值进行比对,来确定所述终端所处的场景;
第二处理模块,用于根据所确定的场景选择对应的参数和/或应用进行语音信号处理。
在一优选实施例,所述采集模块,具体用于分别采集终端在空间三个数轴上运动的实时数据。
所述第一处理模块,根据预定算法对所述实时数据进行处理包括:根据所采集的数据分别计算终端在空间三个数轴上在预定时段内的数据平均值;根据各数轴上的数据平均值分别计算平均方差。
其中,所述采集模块可以包括以下的一种或多种:
重力传感器、加速度传感器、接近传感器、音频采集模块。
所述采集模块可使用终端(例如手机)自有传感器,例如重力传感器、加速度传感器、接近传感器等,也可根据实际使用加入的音频采集模块,采集手机各个传感器的实时数据。
所述第一处理模块将传感器数据进行适当滤波,去除不良毛刺,进行场景匹配。在手机中的数据库中,同时存有各场景所对应的数据范围。
本实施例的终端可以通过已有的传感器模块进行状态监测,判断终端(例如手机)所处的场景,自动调节增益,解决用户在交叉场景中语音识别降低。
本发明实施例提供一种语音处理的方法,通过对于传感器数据采集,然后归类判断终端所处于的场景,通过对于场景判断采用合适的增益调节、降噪算法以及应用,提升用户体验。如图2所示,本实施例的方法包括以下步骤:
步骤11、采集终端运动的实时数据;
步骤12、根据预定算法对所述实时数据进行处理;
步骤13、将处理后的数据与预设的场景阈值进行比对,来确定所述终端所处的场景;
步骤14、根据所确定的场景选择对应的参数和/或应用进行语音信号处理。
以下以三个具体实施例对本发明的方法进行详细的说明:
实施例一、车载模式
由于车载模式时,手机状态比较稳定,可单独采用加速度传感为主要检测对象,手机检测到加速度传感器三轴数值,在i时刻分别为Xi、Yi、Zi
在i时刻计算,从k时刻到i时刻的监测个数K内;加速度传感器各轴的平均值分别为:X'、Y'、Z'
根据各轴数据平均值计算平均方差Xs、Ys、Zs
其中,K为数据采样个数(建议值为10-40);
Xi为i时刻X轴数据(建议i到i+1时刻间隔建议为50ms-200ms);
X'为k到i时段内Xi的平均值;
计算场景特征值T1:
当Xs<Xm、Ys<Ym、Zs<Zm同时为真时,此时特征值T1为真(1),Xm、Ym、Zm为该模式对应的场景判断阈值;
T2=(Xs<Xm)AND(Ys<Ym)AND(Zs<Zm)=1
实施例二、家庭模式
由于家庭模式时,手机状态同样稳定,比如看视频(S11)和手机平放(S12),仍可单独采用加速度传感为主要检测对象,手机检测到加速度传感器三轴数值,在i时刻分别为Xi、Yi、Zi
在i时刻计算,从k时刻到i时刻的监测个数K内;加速度传感器各轴的平均值分别为:X'、Y'、Z'
根据各轴数据平均值计算平均方差Xs、Ys、Zs
K为数据采样个数(建议值为10-40);
Xi为i时刻X轴数据(建议i到i+1时刻间隔建议为50ms-200ms);
X'为k到i时段内Xi的平均值;
计算场景特征值T2:
计算Xs<Xn、Ys<Yn、Zs<Zn同时为真时,此时特征值T2为真(1),Xn、Yn、Zn为该模式对应的场景判断阈值,由于在此场景中,手机处于静止状态,所以Xs、Ys、Zs应该接近于0,因此,在此判断中,Xn、Yn、Zn值在考虑滤波的情况建议为0或者接近于0。
T2=(Xs<Xn)AND(Ys<Yn)AND(Zs<Zn)=1
实施例三,手持模式
由于手持模式时,手机状态及不稳定,加速度的3个轴的数据都互相交错,且没有规律,此时可单独调节降噪算法。只有当手持模式打电话时,由于话筒比较近,才需要调节增益参数。所以在手持模式中,需要分两步判断场景a、普通手持,b、手持打电话;
手机检测到加速度传感器三轴数值,在i时刻分别为Xi、Yi、Zi
在i时刻计算,从k时刻到i时刻的监测个数K内;加速度传感器各轴的平均值分别为:X'、Y'、Z'
根据各轴数据平均值计算平均方差Xs、Ys、Zs
K为数据采样个数(建议值为10-40);
Xi为i时刻X轴数据(建议i到i+1时刻间隔建议为50ms-200ms);
X'为k到i时段内Xi的平均值;
计算场景特征值T3、T4:
在手持中,由于手机姿态变化较大,所以当判断T1特征值不属于场景B、场景C时,则判断为手持普通场景;
T3=1;
接近传感器输出参数为Mi,Mi有两种状态,接近Y,和非接近N;
当Mi在连续N(5<N<20)个采样点中,统计Mi=Y的个数,若cont(Mi=Y)>90%
则特征值T4赋值为1,两个特征值同时为真,则此时判断为S14手持打电话场景,并输出场景判定结果
T3AND T4=1。
通过本实施例的方法可实现以下效果:
1、可识别不同场景,适配不同的场景参数;
2、可识别不同场景,调用不同的应用;
3、不会增加其他硬件,且具备比较好的可扩展性。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
以上仅为本发明的优选实施例,当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种语音处理的方法,包括:
采集终端运动的实时数据;
根据预定算法对所述实时数据进行处理;
将处理后的数据与预设的场景阈值进行比对,来确定所述终端所处的场景;
根据所确定的场景选择对应的参数和/或应用进行语音信号处理。
2.如权利要求1所述的方法,其特征在于:所述采集终端运动的实时数据,包括:
分别采集终端在空间三个数轴上运动的实时数据。
3.如权利要求2所述的方法,其特征在于:所述根据预定算法对所述实时数据进行处理,包括:
根据所采集的数据分别计算终端在空间三个数轴上在预定时段内的数据平均值;
根据各数轴上的数据平均值分别计算平均方差。
4.如权利要求1所述的方法,其特征在于:所述参数包括:
各场景对应的音频增益和/或降噪算法。
5.如权利要求1-4任一项所述的方法,其特征在于:所述采集终端运动的实时数据是通过采用以下一种或多种传感器实现的:
重力传感器、加速度传感器、接近传感器。
6.一种终端,其特征在于,包括:
采集模块,用于采集所述终端运动的实时数据;
第一处理模块,用于根据预定算法对所述实时数据进行处理;
确定模块,用于将处理后的数据与预设的场景阈值进行比对,来确定所述终端所处的场景;
第二处理模块,用于根据所确定的场景选择对应的参数和/或应用进行语音信号处理。
7.如权利要求6所述的终端,其特征在于:
所述采集模块,具体用于分别采集终端在空间三个数轴上运动的实时数据。
8.如权利要求7所述的终端,其特征在于:
所述第一处理模块,根据预定算法对所述实时数据进行处理包括:根据所采集的数据分别计算终端在空间三个数轴上在预定时段内的数据平均值;根据各数轴上的数据平均值分别计算平均方差。
9.如权利要求7所述的终端,其特征在于:所述第二处理模块选择的参数包括:
各场景对应的音频增益和/或降噪算法。
10.如权利要求6-9任一项所述的终端,其特征在于:所述采集模块包括以下的一种或多种:
重力传感器、加速度传感器、接近传感器。
CN201510543173.2A 2015-08-28 2015-08-28 一种语音处理的方法及终端 Pending CN106486124A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510543173.2A CN106486124A (zh) 2015-08-28 2015-08-28 一种语音处理的方法及终端
PCT/CN2016/081890 WO2017036175A1 (zh) 2015-08-28 2016-05-12 一种语音处理的方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510543173.2A CN106486124A (zh) 2015-08-28 2015-08-28 一种语音处理的方法及终端

Publications (1)

Publication Number Publication Date
CN106486124A true CN106486124A (zh) 2017-03-08

Family

ID=58188405

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510543173.2A Pending CN106486124A (zh) 2015-08-28 2015-08-28 一种语音处理的方法及终端

Country Status (2)

Country Link
CN (1) CN106486124A (zh)
WO (1) WO2017036175A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016996A (zh) * 2017-06-06 2017-08-04 广东小天才科技有限公司 一种音频数据的处理方法及装置
CN108964682A (zh) * 2018-08-02 2018-12-07 北京车联天下信息技术有限公司 收音机降噪方法、降噪装置及电子设备
CN109036445A (zh) * 2017-06-12 2018-12-18 杭州萤石网络有限公司 麦克风mic传感器的音源增益值的调整方法及运动相机
CN109302684A (zh) * 2018-11-07 2019-02-01 麦片科技(深圳)有限公司 终端设备的场景判定方法、云服务器及存储介质
CN111797148A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备
CN114664299A (zh) * 2022-03-04 2022-06-24 歌尔智能科技有限公司 语音采集设备及智能语音系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101370322A (zh) * 2008-09-12 2009-02-18 深圳华为通信技术有限公司 麦克风增益调节的方法及通信设备
CN104036786A (zh) * 2014-06-25 2014-09-10 青岛海信信芯科技有限公司 一种语音降噪的方法及装置
CN104635928A (zh) * 2015-01-30 2015-05-20 上海理工大学 一种具有智能闹钟功能的移动终端
CN104836918A (zh) * 2015-05-28 2015-08-12 惠州Tcl移动通信有限公司 一种移动终端的情景模式自动切换方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103456305B (zh) * 2013-09-16 2016-03-09 东莞宇龙通信科技有限公司 终端和基于多个声音采集单元的语音处理方法
CN103942021B (zh) * 2014-03-24 2018-08-14 华为技术有限公司 内容呈现方法,内容呈现方式的推送方法和智能终端
CN104506707A (zh) * 2014-11-21 2015-04-08 惠州Tcl移动通信有限公司 一种情景感知模式的控制方法及控制系统
CN104539782B (zh) * 2014-12-19 2017-11-24 广东欧珀移动通信有限公司 一种事件提醒方法及其装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101370322A (zh) * 2008-09-12 2009-02-18 深圳华为通信技术有限公司 麦克风增益调节的方法及通信设备
CN104036786A (zh) * 2014-06-25 2014-09-10 青岛海信信芯科技有限公司 一种语音降噪的方法及装置
CN104635928A (zh) * 2015-01-30 2015-05-20 上海理工大学 一种具有智能闹钟功能的移动终端
CN104836918A (zh) * 2015-05-28 2015-08-12 惠州Tcl移动通信有限公司 一种移动终端的情景模式自动切换方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016996A (zh) * 2017-06-06 2017-08-04 广东小天才科技有限公司 一种音频数据的处理方法及装置
CN107016996B (zh) * 2017-06-06 2020-11-10 广东小天才科技有限公司 一种音频数据的处理方法及装置
CN109036445A (zh) * 2017-06-12 2018-12-18 杭州萤石网络有限公司 麦克风mic传感器的音源增益值的调整方法及运动相机
CN108964682A (zh) * 2018-08-02 2018-12-07 北京车联天下信息技术有限公司 收音机降噪方法、降噪装置及电子设备
CN109302684A (zh) * 2018-11-07 2019-02-01 麦片科技(深圳)有限公司 终端设备的场景判定方法、云服务器及存储介质
CN111797148A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备
CN114664299A (zh) * 2022-03-04 2022-06-24 歌尔智能科技有限公司 语音采集设备及智能语音系统

Also Published As

Publication number Publication date
WO2017036175A1 (zh) 2017-03-09

Similar Documents

Publication Publication Date Title
CN106486124A (zh) 一种语音处理的方法及终端
CN106486127A (zh) 一种语音识别参数自动调整的方法、装置及移动终端
CN103632666B (zh) 语音识别方法、语音识别设备和电子设备
CN111508474B (zh) 一种语音打断方法、电子设备及存储装置
CN110970057B (zh) 一种声音处理方法、装置与设备
CN107910013A (zh) 一种语音信号的输出处理方法及装置
CN106601245A (zh) 一种车载智能音频装置及音频处理方法
JP2016520879A (ja) 地方なまりを区別する音声データ認識方法、装置及びサーバ
CN107644643A (zh) 一种语音交互系统及方法
CN206312566U (zh) 一种车载智能音频装置
CN106448696A (zh) 一种基于背景噪声估计自适应高通滤波语音降噪方法
CN105282339B (zh) 一种监测麦克工作状态的方法、装置及移动终端
CN106936991A (zh) 一种自动调节音量的方法及终端
CN111433766A (zh) 用于对时间序列数据进行分类的方法和系统
CN113329372B (zh) 用于车载通话的方法、装置、设备、介质和产品
CN112420079B (zh) 语音端点检测方法和装置、存储介质及电子设备
CN107910002A (zh) 一种人机语音图形交互系统及方法
JP2004199053A (ja) 絶対音量を使用して音声信号を処理する方法
CN105741854A (zh) 一种语音信号的处理方法及终端
US8335332B2 (en) Fully learning classification system and method for hearing aids
CN115665319B (zh) 基于无线耳机的应用控制方法、装置、设备以及存储介质
WO2008088154A1 (en) Apparatus for detecting user and method for detecting user by the same
JP3163109B2 (ja) 多方向同時収音式音声認識方法
CN112164396A (zh) 语音控制方法、装置、电子设备及存储介质
US11322137B2 (en) Video camera

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170308

WD01 Invention patent application deemed withdrawn after publication