CN111402880A

CN111402880A - 一种数据处理方法、装置及电子设备

Info

Publication number: CN111402880A
Application number: CN202010214161.6A
Authority: CN
Inventors: 徐培来
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-07-10

Abstract

本申请公开了一种数据处理方法、装置及电子设备，包括：响应于第一用户的第一操作，进入第一状态，所述第一状态为采集语音的准备状态；获取语音信息，并对获取的语音信息进行声纹识别；在所述声纹识别的识别结果表征存在第一声纹和第二声纹的情况下，对所述第二声纹对应的语音信息进行第一处理，以使得后续仅针对所述第一声纹对应的语音信息进行识别处理。所述方法、装置及电子设备，会对采集到的语音信息进行声纹识别，识别出其中与语音控制指令无关的第二声纹，进而确定出对应的干扰语音，并对干扰语音进行去除处理，从而仅对与语音控制指令相关的语音信息进行识别处理，得到准确的识别结果，提升语音助手的任务达成率。

Description

一种数据处理方法、装置及电子设备

技术领域

本申请涉及数据处理技术，更具体的说，是涉及一种数据处理方法、装置及电子设备。

背景技术

目前许多的电子设备都具备语音识别技术，以为用户提供更加方便的语音服务。在语音识别技术应用过程中，语音采集装置接收用户的语音输入，进行ASR(AutomaticSpeech Recognition，自动语音识别)和NLU(Natural Language Understanding，自然语言理解)处理，分析出用户的意图，判断用户的指令，然后执行用户的指令。上述整个处理过程的正确执行，确定为VA(Voice Assistant，语音助手)的任务达成。

当前，语音识别技术的实现，通过VAD(Voice Activity Detection，语音端点检测)算法，判断BoS(Begin ofSpeech，开始讲话)，即语音的起点，以及EoS(End ofSpeech，结束讲话)，即语音的尾点，将BoS与EoS之间的语音片段当做用户语音输入指令所对应的语音数据流完整片段，送入ASR进行语音识别，并把全部ASR结果送入NLU进行意图分析。

但在实际情况中，用户可能处于存在干扰声音的环境中，这样在用户输入语音时，用户身旁其他人的声音、广播、音乐等都可能被语音采集装置获取，这些无关的声音将影响用户输入语音的准确识别和理解，进而影响VA的任务达成率。

发明内容

有鉴于此，本申请提供如下技术方案：

一种数据处理方法，包括：

响应于第一用户的第一操作，进入第一状态，所述第一状态为采集语音的准备状态；

获取语音信息，并对获取的语音信息进行声纹识别；

在所述声纹识别的识别结果表征存在第一声纹和第二声纹的情况下，对所述第二声纹对应的语音信息进行第一处理，以使得后续仅针对所述第一声纹对应的语音信息进行识别处理。

可选的，所述对所述第二声纹对应的语音信息进行第一处理，包括：

对所述第二声纹对应的语音信息进行静音处理或删除处理。

可选的，所述对所述第二声纹对应的语音信息进行静音处理或删除处理，包括：

确定第二声纹在语音信息中的时域位置，将所述时域位置对应的语音信息进行静音处理或删除处理。

可选的，在所述声纹识别的识别结果表征存在第一声纹和第二声纹的前提下，对所述第二声纹对应的语音信息进行第一处理前，还包括：

在所述声纹识别的识别结果表征由第一声纹切换为第二声纹的情况下，触发尾点计时；

若在尾点计时没有达到预设时间阈值的情况下，所述声纹识别结果表征由不同于所述第一声纹的其他声纹切换回所述第一声纹，取消所述尾点计时；

若尾点计时达到预设时间阈值时，所述声纹识别结果表征没有切换回所述第一声纹，触发确定语音尾点。

在尾点计时没有达到预设时间阈值，所述声纹识别结果表征由其他声纹切换回所述第一声纹的情况下，将切换至所述第二声纹前的所述第一声纹的结束时间点与切换回的所述第一声纹的开始时间点之间的语音信息进行静音处理或删除处理。

在尾点计时达到预设时间阈值时，所述声纹识别结果表征没有切换回所述第一声纹的情况下，将所述第一声纹的结束时间点与所述语音尾点之间的语音信息进行静音处理或删除处理。

可选的，还包括：

对所述第一处理后得到的语音信息进行识别处理。

一种数据处理装置，包括：

状态启动模块，用于响应于第一用户的第一操作，进入第一状态，所述第一状态为采集语音的准备状态；

声纹识别模块，用于获取语音信息，并对获取的语音信息进行声纹识别；

第一处理模块，用于在所述声纹识别模块的识别结果表征存在第一声纹和第二声纹的情况下，对所述第二声纹对应的语音信息进行第一处理，以使得后续仅针对所述第一声纹对应的语音信息进行识别处理。

可选的，所述第一处理模块具体用于：

对所述第二声纹对应的语音信息进行静音处理或删除处理。

一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述可执行指令包括：响应于第一用户的第一操作，进入第一状态，所述第一状态为采集语音的准备状态；获取语音信息，并对获取的语音信息进行声纹识别；在所述声纹识别的识别结果表征存在第一声纹和第二声纹的情况下，对所述第二声纹对应的语音信息进行第一处理，以使得后续仅针对所述第一声纹对应的语音信息进行识别处理。

经由上述的技术方案可知，与现有技术相比，本申请实施例公开了一种数据处理方法、装置及电子设备，包括：响应于第一用户的第一操作，进入第一状态，所述第一状态为采集语音的准备状态；获取语音信息，并对获取的语音信息进行声纹识别；在所述声纹识别的识别结果表征存在第一声纹和第二声纹的情况下，对所述第二声纹对应的语音信息进行第一处理，以使得后续仅针对所述第一声纹对应的语音信息进行识别处理。所述方法、装置及电子设备，会对采集到的语音信息进行声纹识别，识别出其中与语音控制指令无关的第二声纹，进而确定出对应的干扰语音，并对干扰语音进行去除处理，从而仅对与语音控制指令相关的语音信息进行识别处理，得到准确的识别结果，提升语音助手的任务达成率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种数据处理方法的流程图；

图2为本申请实施例公开的一个数据处理前的声纹序列示意图；

图3为图2所示声纹序列在数据处理后的示意图；

图4为本发明实施例公开的另一种数据处理方法的流程图；

图5为本申请实施例公开的另一个数据处理前的声纹序列示意图；

图6为本发明实施例公开的又一种数据处理方法的流程图；

图7为本发明实施例公开的一个数据处理装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例公开的一种数据处理方法的流程图，参见图1所示，数据处理方法可以包括：

步骤101：响应于第一用户的第一操作，进入第一状态，所述第一状态为采集语音的准备状态。

本申请实施例公开的数据处理方法可用于任何具有语音功能的电子设备，用于对采集获取到的语音信息进行识别处理，整体上提升目标用户(正在使用前述具有语音功能的电子设备的用户)的语音识别准确率。

其中，第一用户的第一操作可以是用户唤醒电子设备的操作，具体的，可以是第一用户语音输入唤醒词的操作，即用户说出唤醒词。当用户说出唤醒词时，可认为用户具有控制电子设备进行相应操作的意图，这种情况下，设备可进入采集语音的准备状态，以便于及时获取用户的语音信息并识别，帮助用户轻松快捷的控制电子设备。

步骤102：获取语音信息，并对获取的语音信息进行声纹识别。

通常情况下，用户在通过唤醒词唤醒电子设备后，会继续对电子设备发出语音控制指令，例如“将音量放大”，因此，在电子设备进入采集语音的准备状态后，会获取并识别环境中的声音信息，以便于了解用户对电子设备的控制意图。

本申请实施例中，在获取环境中的语音信息的过程中，会实时的对获取的语音信息进行声纹识别，以分析出采集到的语音信息的来源。需要说明的是，声纹是用电声学仪器显示的携带言语信息的声波频谱，具有特定性和稳定性，不同人的声纹具有不同的声纹特征，在很大程度上，一个人的声纹具有唯一的识别性。基于此，本申请实施例对获取的语音信息进行声纹识别，能够很好的判断获取的语音信息的来源是否仅包含一个人，或包含两个人或多个人。

步骤103：在所述声纹识别的识别结果表征存在第一声纹和第二声纹的情况下，对所述第二声纹对应的语音信息进行第一处理，以使得后续仅针对所述第一声纹对应的语音信息进行识别处理。

其中，第一声纹可以为第一用户的声纹，即电子设备使用者的声纹，第二声纹可以单纯指第一用户之外的其他任意一个人的声纹，也可以泛指与第一用户的第一声纹不同的其他任意人的声纹，即，第二声纹可以是一个人的声纹，也可以泛指除上述第一用户之外的多个人的声纹。

在声纹识别结果表征获取的语音信息至少包括两个声纹的情况下，认为获取的语音信息中存在干扰语音，即与第一用户发出的语音控制指令无关的其他语音，这种情况下，需要对获取的语音信息进行处理，将其中的干扰语音去除，以避免该干扰语音对第一用户发出的语音控制指令的识别造成影响，进而影响指令识别，导致用户语音控制操作的失败。

本实施例中，数据处理方法会对采集到的语音信息进行声纹识别，识别出其中与语音控制指令无关的第二声纹，进而确定出对应的干扰语音，并对干扰语音进行去除处理，从而仅对与语音控制指令相关的语音信息进行识别处理，得到准确的识别结果，提升语音助手的任务达成率。

上述实施例中，所述对所述第二声纹对应的语音信息进行第一处理，可以包括：对所述第二声纹对应的语音信息进行静音处理或删除处理。

具体实现中，对所述第二声纹对应的语音信息进行静音处理或删除处理，可以包括：确定第二声纹在语音信息中的时域位置，将所述时域位置对应的语音信息进行静音处理或删除处理。

应用中，若第二声纹与第一声纹穿插存在，则不能够直接将第二声纹存在的语音片段直接删除，因为删除存在第二声纹的语音片段中也包含第一声纹，为了避免包含第一声纹的语音片段被删除，在第二声纹与第一声纹穿插存在的情况下，可以对获取的语音信息中的第二声纹进行静音处理。仅对第二声纹进行静音处理，可以将获取的语音信息中中第二声纹去除，仅保留第一声纹，提升第一声纹对应的语音的识别准确率。

另外一种情况中，第二声纹在获取的语音信息中是与第一声纹分开独立存在的，如图2所示，其中包括三部分声纹，第一部分和第三部分颜色较亮的声纹为用户A的声纹，可理解为第一声纹，其对应的语音信息分别为“打电话给”和“小明的手机号码”，第二部分颜色较暗的声纹为用户B的声纹，可理解为第二声纹，对应的语音信息为“百度搜索”。基于上述三部分声纹的时域位置，按照正常的语音识别处理，识别出的内容为“打电话给百度搜索小明的手机号码”，则语义识别系统将无法准确识别出语音对应的语义，造成第一用户对电子设备语音控制的失败。本申请实施例中，针对这种第二声纹与第一声纹在获取的语音信息中分开独立存在的情况，可以将第二声纹对应的语音信息删除，从而仅保留单独存在第一声纹的语音信息；基于前述内容，删除第二声纹对应的语音信息后的声纹如图3所示。这样的处理即节省了语义识别的工作量，也提升了识别结果的准确率。

图4为本发明实施例公开的另一种数据处理方法的流程图，参见图4所示，数据处理方法可以包括：

步骤401：响应于第一用户的第一操作，进入第一状态，所述第一状态为采集语音的准备状态。

步骤402：获取语音信息，并对获取的语音信息进行声纹识别。

步骤403：在所述声纹识别的识别结果表征由第一声纹切换为第二声纹的情况下，触发尾点计时，进入步骤404或步骤405。

在实际情况中，第一用户在输入语音的过程中，可能会出现短暂停顿或已经说完语音控制指令而停止说话的情况，但过程中可能存在第二声纹干扰输入语音的语音尾点检测。即，在第一用户输入语音控制指令过程中，其中第二用户插入了一小段语音，如图2所示情况；或者第一用户在语音控制指令输入完成后，紧接着第二用户存在语音输入，如图5所示，其中左侧颜色较亮的声纹对应于第一用户的第一声纹，右侧颜色较暗的声纹对应于第二用户的第二声纹。

基于上述情况，为了保证第一用户输入的语音控制指令的完整获取，以及有效的语音控制指令尾点的准确检测，本方法实施例中，采用尾点计时机制进行最终尾点位置的确定。

具体的，在检测到获取的语音信息中由第一声纹切换为第二声纹的情况下，触发尾点计时，在声纹切换到第二声纹后没有再次出现第一声纹的前提下维持尾点计时，后续可以基于尾点计时的长度进一步确定是否到达语音尾点。

步骤404：若在尾点计时没有达到预设时间阈值的情况下，所述声纹识别结果表征由不同于所述第一声纹的其他声纹切换回所述第一声纹，取消所述尾点计时，进入步骤406。

本申请实施例中，预先配置好预设时间阈值，其具体可以通过试验标定获得，该预设时间阈值即系统能够容忍的第一用户在输入语音控制指令过程中的停顿时长极限。若在尾点计时没有达到预设时间阈值的情况下，所述声纹识别结果表征由不同于所述第一声纹的其他声纹切换回所述第一声纹，则认为第一用户在输入语音控制指令过程中存在停顿，停顿后继续进行后续语音的采集识别。

步骤405：若尾点计时达到预设时间阈值时，所述声纹识别结果表征没有切换回所述第一声纹，触发确定语音尾点，进入步骤406。

若尾点计时达到预设时间阈值时，声纹识别结果表征仍然没有切换回所述第一声纹，则说明第一声纹的停止并不是第一用户输入语音的停顿，而是第一用户停止了语音输入，这种情况下，确定触发语音尾点，即使来自于第二用户的第二声纹继续存在，系统也不再继续对环境中的语音信息进行采集。

步骤406：对所述第二声纹对应的语音信息进行第一处理，以使得后续仅针对所述第一声纹对应的语音信息进行识别处理。

本实施例的数据处理方法在实施过程中为了避免第一用户在输入语音控制指令过程中出现停顿触发尾点事件可能导致的最后的语音控制指令输入不完整、或第二用户的声音在第一用户声音之后持续存在而可能导致的无法触发语音尾点事件影响语音检测的实时性的情况，在声纹识别的基础上结合尾点计时策略，对第一用户输入语音控制指令中的停顿具有一定容忍度，且能够避免无效语音的过多采集，及时识别语音尾点，提升有效语音的采集识别的实时性。

基于上述内容，所述对所述第二声纹对应的语音信息进行第一处理，可以包括：在尾点计时没有达到预设时间阈值，所述声纹识别结果表征由其他声纹切换回所述第一声纹的情况下，将切换至所述第二声纹前的所述第一声纹的结束时间点与切换回的所述第一声纹的开始时间点之间的语音信息进行静音处理或删除处理。将前后段第一声纹之间无用的第二声纹删除或静音，避免第二声纹的存在影响第一声纹对应的语音的语义识别结果，能够显著提升系统语音识别的准确率。

基于上述内容，对所述第二声纹对应的语音信息进行第一处理的另一个实现，包括：在尾点计时达到预设时间阈值时，所述声纹识别结果表征没有切换回所述第一声纹的情况下，将所述第一声纹的结束时间点与所述语音尾点之间的语音信息进行静音处理或删除处理。第一声纹结束后，预设时间阈值对应的时长内没有再次出现，确定第一用户已经完成语音控制指令的输入，后续存在的第二声纹均为无用的干扰噪声，这种情况下，直接将第一声纹的结束时间点与语音尾点之间的语音信息进行静音处理或删除处理，剔除第二声纹对第一声纹对应语音的识别干扰。

图6为本发明实施例公开的又一种数据处理方法的流程图，如图6所示，数据处理方法可以包括：

步骤601：响应于第一用户的第一操作，进入第一状态，所述第一状态为采集语音的准备状态。

步骤602：获取语音信息，并对获取的语音信息进行声纹识别。

步骤603：在所述声纹识别的识别结果表征存在第一声纹和第二声纹的情况下，对所述第二声纹对应的语音信息进行第一处理。

步骤604：对所述第一处理后得到的语音信息进行识别处理。

本实施例在对与语音控制指令无关的第二声纹进行第一处理后，继续对第一处理后得到的语音新型进行识别处理，保证了语音识别的实时性，提升了用户的使用体验。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

上述本申请公开的实施例中详细描述了方法，对于本申请的方法可采用多种形式的装置实现，因此本申请还公开了一种装置，下面给出具体的实施例进行详细说明。

图7为本发明实施例公开的一个数据处理装置的结构示意图，如图7所示，数据处理装置70可以包括：

状态启动模块701，用于响应于第一用户的第一操作，进入第一状态，所述第一状态为采集语音的准备状态。

声纹识别模块702，用于获取语音信息，并对获取的语音信息进行声纹识别。

第一处理模块703，用于在所述声纹识别模块的识别结果表征存在第一声纹和第二声纹的情况下，对所述第二声纹对应的语音信息进行第一处理，以使得后续仅针对所述第一声纹对应的语音信息进行识别处理。

本实施例中，数据处理装置会对采集到的语音信息进行声纹识别，识别出其中与语音控制指令无关的第二声纹，进而确定出对应的干扰语音，并对干扰语音进行去除处理，从而仅对与语音控制指令相关的语音信息进行识别处理，得到准确的识别结果，提升语音助手的任务达成率。

其中，第一处理模块可用于对所述第二声纹对应的语音信息进行静音处理或删除处理，具体的，可用于确定第二声纹在语音信息中的时域位置，将所述时域位置对应的语音信息进行静音处理或删除处理。

一些实现中，数据处理装置还可以包括：计时处理模块，用于在所述声纹识别的识别结果表征由第一声纹切换为第二声纹的情况下，触发尾点计时；若在尾点计时没有达到预设时间阈值的情况下，所述声纹识别结果表征由不同于所述第一声纹的其他声纹切换回所述第一声纹，取消所述尾点计时；若尾点计时达到预设时间阈值时，所述声纹识别结果表征没有切换回所述第一声纹，触发确定语音尾点。

其中，对所述第二声纹对应的语音信息进行第一处理，可以包括：在尾点计时没有达到预设时间阈值，所述声纹识别结果表征由其他声纹切换回所述第一声纹的情况下，将切换至所述第二声纹前的所述第一声纹的结束时间点与切换回的所述第一声纹的开始时间点之间的语音信息进行静音处理或删除处理。在尾点计时达到预设时间阈值时，所述声纹识别结果表征没有切换回所述第一声纹的情况下，将所述第一声纹的结束时间点与所述语音尾点之间的语音信息进行静音处理或删除处理。

在其他的实现中，数据处理装置还可以包括：识别处理模块，用于对所述第一处理后得到的语音信息进行识别处理。

上述数据处理装置及其各模块的具体实现，可参见方法实施例中对应部分的内容记载，在此不再重复赘述。

进一步的，本申请实施例还公开了一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

所述电子设备会对采集到的语音信息进行声纹识别，识别出其中与语音控制指令无关的第二声纹，进而确定出对应的干扰语音，并对干扰语音进行去除处理，从而仅对与语音控制指令相关的语音信息进行识别处理，得到准确的识别结果，提升语音助手的任务达成率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，包括：

获取语音信息，并对获取的语音信息进行声纹识别；

2.根据权利要求1所述的数据处理方法，所述对所述第二声纹对应的语音信息进行第一处理，包括：

对所述第二声纹对应的语音信息进行静音处理或删除处理。

3.根据权利要求2所述的数据处理方法，所述对所述第二声纹对应的语音信息进行静音处理或删除处理，包括：

4.根据权利要求1所述的数据处理方法，在所述声纹识别的识别结果表征存在第一声纹和第二声纹的前提下，对所述第二声纹对应的语音信息进行第一处理前，还包括：

5.根据权利要求4所述的数据处理方法，所述对所述第二声纹对应的语音信息进行第一处理，包括：

6.根据权利要求4所述的数据处理方法，所述对所述第二声纹对应的语音信息进行第一处理，包括：

7.根据权利要求1所述的数据处理方法，还包括：

对所述第一处理后得到的语音信息进行识别处理。

8.一种数据处理装置，包括：

9.根据权利要求8所述的数据处理装置，所述第一处理模块具体用于：

对所述第二声纹对应的语音信息进行静音处理或删除处理。

10.一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；