CN104751852A

CN104751852A - 一种声音处理的方法和装置

Info

Publication number: CN104751852A
Application number: CN201510124981.5A
Authority: CN
Inventors: 郑战海
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2015-03-20
Filing date: 2015-03-20
Publication date: 2015-07-01
Anticipated expiration: 2035-03-20
Also published as: CN104751852B

Abstract

本发明涉及一种声音处理的方法和装置，包括：声源检测单元、自动识别单元和提取声音单元，所述声源检测单元，用于通过距离检测，判断声音信号采集端前方的预设距离范围内是否存在声源端；所述自动识别单元，用于若存在，则利用语音端点检测方法对收录的声音信号进行声音起始点和声音结束点的自动识别；所述提取声音单元，用于根据所述自动识别的结果，提取出正式声音信号。该声音处理的方法和装置，通过对声音信号采集端前方与发出声源的用户之间的距离值进行检测，判断启动对收录的声音信号进行自动识别和提取的时机，能够在准确的时机自动地对收录的声音信号进行识别提取，不仅减少了识别的工作量，同时也提升了声音识别的准确性。

Description

一种声音处理的方法和装置

技术领域

本发明涉及声音信号降噪技术领域，尤其涉及一种声音处理的方法和装置。

背景技术

当前的智能互动类电子学习设备、如点读机，一般都设置有麦克风(MIC)，以便于与用户之间形成互动学习模式。该麦克风(MIC)通常设置于设备的外壳并在与用户距离相对较近时，可以正常收录用户的应答语音，且其自身具备一定的降噪功能，用以提高语音评测和识别的精度，排除噪声干扰。不过现实情况是，这类产品在嘈杂的环境下、如大卖场或大型超市，依然容易误判，明明无人应答，也照样能够评测出高分。这类情况的发生，不可避免会大大降低用户的体验感和信赖感。

发明内容

本发明的目的在于提出一种声音处理的方法和装置，能够在准确的时机自动地对收录的声音信号进行识别提取，不仅减少了识别的工作量，同时也提升了声音识别的准确性。

为达此目的，本发明采用以下技术方案：

第一方面，提供一种声音处理的方法，包括：

通过距离检测，判断声音信号采集端前方的预设距离范围内是否存在声源端；

若存在，则利用语音端点检测方法对收录的声音信号进行声音起始点和声音结束点的自动识别；

根据所述自动识别的结果，提取出正式声音信号。

其中，所述通过距离检测，包括：利用红外线和/或超声波进行距离检测。

其中，所述判断声音信号采集端前方的预设距离范围内是否存在声源端，包括：

当所述声源端与声音信号采集端前方的距离值处于预设距离范围内，则判断存在声源端；

当所述声源端与声音信号采集端前方的距离值处于预设距离范围外，则判断不存在声源端。

其中，所述根据所述自动识别的结果，提取出正式声音信号，包括：

若自动识别到声音起始点和声音结束点，则将声音起始点和声音结束点之间的声音信号确定为正式声音信号；

或；

若没有自动识别到声音起始点和声音结束点，则将该段时间内收录的声音信号确定为第一声音信号；

在自动识别到声音起始点和声音结束点后，则将声音起始点和声音结束点之间的声音信号确定为第二声音信号；

利用第一声音信号对第二声音信号进行降噪处理，以提取出正式声音信号；

或；

若自动识别到声音起始点、并没有自动识别到声音结束点、且检测到声音信号采集端前方的预设距离范围内不再存在声源端，则停止录音、并把停止录音时对应的声音点标记为声音结束点；

将声音起始点和声音结束点之间的声音信号确定为正式声音信号。

其中，所述声音处理的方法，进一步包括：

若通过距离检测，确定声音信号采集端前方的预设距离范围内不再存在声源端，则取消对收录的声音信号进行声音起始点和声音结束点的自动识别，将此时收录的声音信号作为第一声音信号；

当通过距离检测，再次确定声音信号采集端前方的预设距离范围内存在声源端时，则利用语音端点检测方法对收录的声音信号进行声音起始点和声音结束点的自动识别；

在自动识别到声音起始点和声音结束点后，将声音起始点和声音结束点之间的声音信号确定为第二声音信号；

利用第一声音信号对第二声音信号进行降噪处理，以提取出正式声音信号。

当播放预设指引信息时，若检测到声音信号采集端前方与声源端之间的距离值缩短，则开启话筒收录声音信号或开始对收录的声音信号进行语音端点检测；

利用语音端点检测方法对收录的声音信号进行声音起始点和声音结束点的自动识别，以提取出正式声音信号。

第二方面，提供一种声音处理的装置，包括：

声源检测单元，用于通过距离检测，判断声音信号采集端前方的预设距离范围内是否存在声源端；

自动识别单元，用于若存在，则利用语音端点检测方法对收录的声音信号进行声音起始点和声音结束点的自动识别；

提取声音单元，用于根据所述自动识别的结果，提取出正式声音信号。

其中，所述提取声音单元，具体用于：

或；

其中，所述声音处理的装置还包括第二提取声音单元，所述第二提取声音单元，用于：

其中，所述提取声音单元，还用于：

本发明的有益效果在于：一种声音处理的方法和装置，包括：声源检测单元、自动识别单元和提取声音单元，所述声源检测单元，用于通过距离检测，判断声音信号采集端前方的预设距离范围内是否存在声源端；所述自动识别单元，用于若存在，则利用语音端点检测方法对收录的声音信号进行声音起始点和声音结束点的自动识别；所述提取声音单元，用于根据所述自动识别的结果，提取出正式声音信号。该声音处理的方法和装置，通过对声音信号采集端前方与发出声源的用户之间的距离值进行检测，判断启动对收录的声音信号进行自动识别和提取的时机，能够在准确的时机自动地对收录的声音信号进行识别提取，不仅减少了识别的工作量，同时也提升了声音识别的准确性，有效地进行抗噪音干扰优化。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。

图1是本发明实施例提供的声音处理的方法第一个实施例的方法流程图。

图2是本发明实施例提供的声音处理的方法第一个实施例的设计原理图。

图3是本发明实施例提供的声音处理的方法第二个实施例的方法流程图。

图4是本发明实施例提供的声音处理的装置第一个实施例的结构方框图。

图5是本发明实施例提供的声音处理的装置第二个实施例的结构方框图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其是本发明实施例提供的声音处理的方法第一个实施例的方法流程图。本发明实施例的声音处理的方法，可应用于各种设置了麦克风(MIC)且具备录音功能的终端，比如平板电脑、笔记本电脑、个人电脑、智能手机、穿戴式手表、点读机、学习机等。

该声音处理的方法，包括：

步骤S101、通过距离检测，判断声音信号采集端前方的预设距离范围内是否存在声源端。

声音信号采集端对应于麦克风(MIC)，声源端对应于准备应答的使用者或用户。通过在MIC上安装机械波距离检测端口，能够检测MIC前方一定距离之内是否有用户。该距离即为预设距离范围，其可以根据环境和应用场景的不同进行微调，优选为20、10、5或2米。当机械波距离检测端口在预设距离范围内没有检测到用户时，可以直接判定该次收录的声音信号为噪音，不进行下一步的识别提取，以便防止误识别；当机械波距离检测端口在预设距离范围内检测到有用户时，则可以直接判定该次收录的声音信号为有效声音信号，以便正确的进行下一步识别提取。

步骤S102、若存在，则利用语音端点检测方法对收录的声音信号进行声音起始点和声音结束点的自动识别。

语音端点检测是从一段给定的语音信号中找出语音的起始点和结束点。在语音识别系统中，正确、有效的进行端点检测，不仅可以减少计算量和缩短处理时间，而且能排除无声段的噪声干扰、提高语音识别的正确率。

语音端点检测方法主要包括：双门限检测法、基于自相关极大值的检测法(能量端点检测方法)和基于小波变换的检测法。

双门限检测法结合了短时能量和短时过零率的优点,其精确度和误检率都有进一步的改善。不过，因为在时域范围内数据的很多特征是无法准确决定声音的端点的，所以双门限检测法的误检率还是很高，而且双门限检测法不具备抗噪能力。

基于自相关极大值的检测法(能量端点检测方法)能够准确地检测出语音的端点，将纯高斯噪声段和含语音信号段分辨出来。当信噪比比较高时，运用能量端点检测方法可以分辨出含语音信号段与纯高斯噪声段，如输入信噪比为5dB时。当信噪比降低为-5dB后，此时传统的检测方法已完全失效，而运用此方法仍能有效地检测出含噪语音段的端点。

基于小波变换的检测法检测的声音数据虽然检测的精度很高,但是检测的速度很慢。一个50KB左右的语音数据(大约用户只说了3-5个字),在一台CPU为2.04G的电脑上检测,得到完整的检测结果大约需要5秒钟。如果这段语音数据再大一些的,检测速度会变得更慢。所以这类算法一般在实验室的情况下进行端点检测。

具体的语音端点检测方法可以根据环境和应用场景的不同进行选择，优选为能量端点检测方法。

步骤S103、根据所述自动识别的结果，提取出正式声音信号。

请参考图2，其是本发明实施例提供的声音处理的方法第一个实施例的设计原理图。

图中左侧部分为MIC，图中右侧部分为用户。用户对着MIC说话时，MIC会及时启动，收录用户的声音信号。

本发明实施例提供的声音处理的方法，在外接MIC上增加机械波距离传感器，检测是否有用户在MIC前，辅助提高在嘈杂环境下的语音识别提取精确度，降低识别误差，有效提升用户体验，尤其提高在大卖场类嘈杂的销售环境下的用户体验，提升成交率。

本发明实施例提供的声音处理的方法，通过对声音信号采集端前方与发出声源的用户之间的距离值进行检测，判断启动对收录的声音信号进行自动识别和提取的时机，能够在准确的时机自动地对收录的声音信号进行识别提取，不仅减少了识别的工作量，同时也提升了声音识别的准确性，有效地进行抗噪音干扰优化。

请参考图3，其是本发明实施例提供的声音处理的方法第二个实施例的方法流程图。本发明实施例与声音处理的方法第一个实施例的主要区别在于，对提取正式声音信号的情况进行了具体说明。

该声音处理的方法，包括：

步骤S201、利用红外线和/或超声波进行距离检测；

当声源端与声音信号采集端前方的距离值处于预设距离范围内，则判断存在声源端；

当声源端与声音信号采集端前方的距离值处于预设距离范围外，则判断不存在声源端。

红外线和/或超声波都属于机械波。机械振动在介质中的传播称为机械波(mechanical wave)。机械波的传播需要特定的介质，在不同介质中的传播速度不同。机械波可以是横波或纵波。机械波在传播过程中，每一个质点都只做上下或左右的简谐振动，即质点本身并不随着机械波的传播而前进，也就是说，机械波的一质点运动是沿一水平直线进行的。机械波在传播的过程中，遇到障碍物，机械波会进行反射。

步骤S202、若存在声源端，则利用语音端点检测方法对收录的声音信号进行声音起始点和声音结束点的自动识别。

优选地，若通过距离检测，确定声音信号采集端前方的预设距离范围内不再存在声源端，则取消对收录的声音信号进行声音起始点和声音结束点的自动识别，将此时收录的声音信号作为第一声音信号；

此种情况对应：用户位于MIC前方(此时，检测到MIC前有用户，刚开始利用语音端点检测方法对收录的声音信号进行声音起始点和声音结束点的自动识别)后还没有来得及作答就又离开了MIC前方(此时，检测到MIC前没有用户，则立即取消利用语音端点检测方法对收录的声音信号进行声音起始点和声音结束点的自动识别)，稍待一段时间之后，用户又回到MIC前方正式进行作答(此时，重新检测到MIC前有用户，则又继续开始利用语音端点检测方法对收录的声音信号进行声音起始点和声音结束点的自动识别)。

步骤S203、根据所述自动识别的结果，提取出正式声音信号。

或；

若将本发明实施例提供的声音处理的方法应用于点读机或者学习机，为了给点读机或者学习机后续的发音评测应用提供有效的声音样本，需收录声音信号。

当收录声音后，需启动语音端点检测，以便对声音起始点与声音结束点进行识别，提取出正式声音信号。

当检测到MIC前有用户、且用户正常发声，则自动识别到声音起始点和声音结束点。

当检测到MIC前有用户、但用户没有发出语音信息，则该段时间收录的声音信息自动转变为环境噪音(对应第一声音信号)。该段环境噪音还可以应用于用户正式开始说话以后，在识别提取过程中对收录的声音信号(对应第二声音信号)进行降噪，消除语音环境噪音的干扰，进一步降低环境噪音对正式声音信号的影响。

当检测到MIC前有用户、且用户正常发声、但用户的声音被外界环境的噪音覆盖，无法自动识别到声音结束点(如在嘈杂环境下，因为环境较嘈杂，一直无法判定出声音结束点，而无法结束录音)，若检测到当前用户已经离开MIC前，则自动地强制结束声音结束点的语音端点检测判断，提高提取识别效率。

若将本发明实施例提供的声音处理的方法应用于点读机或者学习机，当播放预设指引信息时，如播放问题或者引读的过程中，有时会发生用户未等到读完就开始抢答或者抢读。这种情况下，若没有及时开启录音，就会造成无法识别。但如果提前开启录音，收录的声音信息又会被正在播放的预设指引信息所干扰，造成误识别。利用本发明实施例提供的声音处理的方法，当在播放问题或者引读过程中，若检测到用户在MIC前、并且在原有状态下有进一步靠近MIC的动作，则提前开启MIC收录声音信号或开始对收录的声音信号进行语音端点检测，提高语音识别和评测在嘈杂环境下的精度。

本发明实施例提供的声音处理的方法，在外接MIC上增加红外距离传感器或者能够检测距离的超声波距离传感器，能够检测到MIC前方是否有人对着说话，并结合端点能量检测方法，对单纯的语音端点能量进行检测，进一步进行抗噪音干扰优化，提升噪音识别的准确性，并且能够检测用户何时开始说话，以便及时进行录音准备，防止抢答问题时无法正确识别的问题发生。

以下为本发明实施例提供的声音处理的装置的实施例。声音处理的装置的实施例与上述的声音处理的方法的实施例属于同一构思，声音处理的装置的实施例中未详尽描述的细节内容，可以参考上述声音处理的方法的实施例。

请参考图4，其是本发明实施例提供的声音处理的装置第一个实施例的结构方框图。

该声音处理的装置，包括：

本发明实施例提供的声音处理的装置，通过对声音信号采集端前方与发出声源的用户之间的距离值进行检测，判断启动对收录的声音信号进行自动识别和提取的时机，能够在准确的时机自动地对收录的声音信号进行识别提取，不仅减少了识别的工作量，同时也提升了声音识别的准确性，有效地进行抗噪音干扰优化。

请参考图5，其是本发明实施例提供的声音处理的装置第二个实施例的结构方框图。本发明实施例与声音处理的装置第一个实施例的主要区别在于，增加了第二提取声音单元。

该声音处理的装置，包括：

其中，所述提取声音单元，具体用于：

或；

其中，所述提取声音单元，还用于：

本发明实施例提供的声音处理的装置，在外接MIC上增加红外距离传感器或者能够检测距离的超声波距离传感器，能够检测到MIC前方是否有人对着说话，并结合端点能量检测方法，对单纯的语音端点能量进行检测，进一步进行抗噪音干扰优化，提升噪音识别的准确性，并且能够检测用户何时开始说话，以便及时进行录音准备，防止抢答问题时无法正确识别的问题发生。

一种声音处理的方法和装置，能够在准确的时机自动地对收录的声音信号进行识别提取，不仅减少了识别的工作量，同时也提升了声音识别的准确性。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括存储器、磁盘或光盘等。

以上内容仅为本发明的较佳实施例，对于本领域的普通技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，本说明书内容不应理解为对本发明的限制。

Claims

1.一种声音处理的方法，其特征在于，包括：

根据所述自动识别的结果，提取出正式声音信号。

2.根据权利要求1所述的声音处理的方法，其特征在于，所述通过距离检测，包括：利用红外线和/或超声波进行距离检测。

3.根据权利要求1所述的声音处理的方法，其特征在于，所述判断声音信号采集端前方的预设距离范围内是否存在声源端，包括：

4.根据权利要求1所述的声音处理的方法，其特征在于，所述根据所述自动识别的结果，提取出正式声音信号，包括：

或；

5.根据权利要求1所述的声音处理的方法，其特征在于，所述声音处理的方法，进一步包括：

6.根据权利要求1所述的声音处理的方法，其特征在于，所述根据所述自动识别的结果，提取出正式声音信号，包括：

7.一种声音处理的装置，其特征在于，包括：

8.根据权利要求7所述的声音处理的装置，其特征在于，所述通过距离检测，包括：利用红外线和/或超声波进行距离检测。

9.根据权利要求7所述的声音处理的装置，其特征在于，所述判断声音信号采集端前方的预设距离范围内是否存在声源端，包括：

10.根据权利要求7所述的声音处理的装置，其特征在于，所述提取声音单元，具体用于：

或；

11.根据权利要求7所述的声音处理的装置，其特征在于，所述声音处理的装置还包括第二提取声音单元，所述第二提取声音单元，用于：

12.根据权利要求7所述的声音处理的装置，其特征在于，所述提取声音单元，还用于：