CN110875052A

CN110875052A - 机器人的语音去噪方法、机器人装置以及存储装置

Info

Publication number: CN110875052A
Application number: CN201811013788.4A
Authority: CN
Inventors: 熊友军; 李浩明; 夏严辉; 李利阳; 温品秀
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2020-03-10

Abstract

本申请公开了一种机器人语言去噪的方法、机器人装置以及存储装置，其中方法包括：机器人分别在多个环境状态下播放预设语言片段，并同时获取每个环境状态下的第一声音数据；根据预设语言片段对每个所述第一声音数据进行处理以获得多个环境状态下的环境噪音库；机器人获取当前环境状态下的第二声音数据；利用环境噪音库对第二声音数据进行去噪处理。通过上述方式，本申请提供一种语言去噪的方法、装置以及存储装置，可以通过在不同环境状态的播放、获取、处理来完善得到环境噪音库，并利用环境噪音库来对后面的环境噪音进行去噪处理，由于采用了环境噪音库是采用了已知预设语言片段来获取，因而其环境噪音库具有很强的准确性，从而大大提升了去噪率。

Description

机器人的语音去噪方法、机器人装置以及存储装置

技术领域

本申请涉及去噪领域，特别是涉及一种机器人的语音去噪方法、机器人装置以及存储装置。

背景技术

目前，智能设备与人之间的语言交互越来越频繁，如家用机器人，在与人类进行对话或者接收人类语言信息的时候，由于家用机器人的应用场所相对稳定，且每户家庭所处的环境又有所不同，所以如何提高对特定环境下语音中噪声的处理以提高识别效率，成为目前亟待解决的问题。

发明内容

本申请提供一种机器人的语音去噪方法、机器人装置以及存储装置。能够解决现有技术中去噪率较为低的问题。

本申请采用的一个技术方案是：提供一种收音结束的判断方法，其方法包括：所述机器人分别在多个环境状态下播放预设语言片段，并同时获取每个所述环境状态下的第一声音数据；根据所述预设语言片段对每个所述第一声音数据进行处理以获得所述多个环境状态下的环境噪音库；所述机器人获取当前所述环境状态下的第二声音数据；利用所述环境噪音库对所述第二声音数据进行去噪处理。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种机器人，所述机器人包括存储器及连接所述存储器的处理器；其中，所述处理器分别在多个环境状态下播放预设语言片段，并同时获取每个所述环境状态下的第一声音数据；所述处理器根据所述预设语言片段对每个所述第一声音数据进行处理以获得所述多个环境状态下的环境噪音库；所述处理器获取当前所述环境状态下的第二声音数据；并利用所述环境噪音库对所述第二声音数据进行去噪处理。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种存储装置，包括能实现上述方法的程序文件。

本申请的有益效果是：区别于现有技术，本申请可以通过在不同环境状态的播放、获取、处理来完善得到环境噪音库，并利用环境噪音库来对后面的环境噪音进行去噪处理，由于采用了环境噪音库是采用了已知预设语言片段来获取，因而其环境噪音库具有很强的准确性，从而大大提升了去噪率。

附图说明

图1是本申请机器人的语言去噪方法的第一实施方式的结构示意图；

图2是本申请机器人的语言去噪方法的第二实施方式的结构示意图；

图3是本申请机器人的语言去噪方法的第三实施方式的结构示意图；

图4是本申请机器人装置一实施方式的结构示意框图；

图5是本申请存储装置一实施方式的结构示意图。

实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

请参阅图1，图1是本申请一种机器人的语音去噪方法的第一实施例流程示意图，其具体包括如下步骤：

S11，机器人分别在多个环境状态下播放预设语言片段，并同时获取每个环境状态下的第一声音数据。

对于某些机器人而言，如家庭机器人，由于其在一个特定的环境下进行工作，并经常需要与人类进行沟通，包括接收人类的语音指令、与人类进行对话等等，所以如何准确的识别出人类的语音显得较为重要，由于工作环境的不确定性，其机器人所能接收的声音信息不仅包括人类的语音信息还有环境的噪音信息。

虽然是在一个特定的环境下，但是对于环境下由于空间与时间上的不同，其是具有不同的情况的，如机器人在一个固定的地方，今天的环境噪音可能与明天有所区别，在同一天，不同位置的也对应不同的噪声。

机器人在多个环境状态下播放预设语言片段，是包括机器人在不同的空间或者时间的状态下播放一段预设的语言片段，可以是一句话，也可以是一段话。

在一个具体环境状态中，机器人通过扬声器播放一句话，并同时通过一个麦克风或多个麦克风对当前环境状态下的声音进行采集，从而获取到当前环境状态下的第一声音数据，这里的声音包括了机器人所播放的预设语言片段，也包括了当前环境状态下的环境噪音，其对应的第一声音数据也就包括了预设语言片段数据与环境噪音数据，由于声音本身是一种波，这里的数据也就是声音对应的波的数据。

S12，根据预设语言片段对每个第一声音数据进行处理以获得多个环境状态下的环境噪音库。

在获取到第一声音数据后，由于机器人已知了预设语言片段，所以可通过第一声音数据将预设语言片段所对应的预设语言数据进行剔除，从而获得其当前环境状态的环境噪音数据。

请参阅图2，图2是本申请一种机器人的语音去噪方法的第二实施例的流程示意图，其具体是图1步骤S12的子步骤，具体包括如下步骤：

S121，根据预设语言片段对第一声音数据进行处理，以使得第一声音数据删除与预设语言片段所对应的预设语言数据，以获得环境状态下的环境噪音数据。

由于机器人知道本身所播出的预设语言片段与其所对应的预设语言数据也是明确的，第一声音数据包括了预设语言数据与环境噪音数据，且第一声音数据可以认为是一种波的频域，其包括预设语言片段所对应的波的频域与环境噪音所对应波的频域，通过傅里叶变化的频域算法，可以很清楚的得到环境噪音所对应波的频域，也就是环境噪音数据。

S122，对环境噪音数据进行提取以得到环境噪音数据的声学特征信息。

获取到环境噪音数据后，继续对环境噪音数据进行处理，从而获取到环境噪音的声学特征信息，如音色、频率、振幅以及相位信息等等。

S123，对多个环境状态下所对应的多个环境噪音的声学特征信息进行存储以作为环境噪音库。

将多个声学特征信息进行保存，并作为环境噪音库，上述实施例中，只是简单的对在一个环境状态下如何获得其环境噪音的声学特征信息进行的描述，在具体的实施例中，其需对多个环境状态进行采集与获取，并且逐渐完善其环境噪音库，具体的，在机器人没有进行对话时，可以通过在不同的地方、不同的时间下一直进行采集与获取，也就是一个一直学习的过程，从而可以获得尽可能多的环境噪音的声学特征信息。

S13，机器人获取当前环境状态下的第二声音数据。

在一个应用场景中，当机器人与人类进行对话时，获取当前环境状态下的声音以及其对应的第二声音数据，其中第二声音数据包括了人类声音数据与环境噪音数据。

S14，利用环境噪音库对第二声音数据进行去噪处理。

由于已经完善建立好环境噪音库，则可以利用环境噪音库对第二声音数据进行去噪处理从而获得人类声音数据。

请参阅图3，图3是本申请一种机器人的语音去噪方法的第三实施例的流程示意图，其具体是图1步骤S14的子步骤，具体包括如下步骤：

S141，对第二声音数据进行处理且判断环境噪音库是否存在与第二声音数据中的环境噪音数据相匹配的声学特征信息。

对第二声音数据进行处理，并对其中的环境噪音数据进行一个初步的提取，并获得其初步的声学特征信息，例如可以声学特征信息中的某一个特征，如频率等，将该初步声学特征信息去环境噪音库中进行匹配寻找，判断其环境噪音库是否存在于该声学特征信息相同或者相似度达到一定比例的声学特征信息。

S142，如果存在，则利用环境噪音库中的声学特征信息对第二声音数据中的环境噪音数据进行删除以完成去噪处理。

如果查询到，及该环境噪音库中存在该声学特征信息，则将该声学特征信息提取出来，并如S121的类似方法，对第二声音数据中的环境噪音数据进行删除，从而获得人类的语音数据，从而完成一个去噪的过程。

如果没查询到，即可以进一步对该数据进行常规处理，并保存该环境噪声以完善环境噪声库。

在具体的实施例中，由于机器人在同一个地方，不同天的同一个时段 (如一天的上午)，周围的环境噪声的相似率是比较高的，因此在进行匹配过程中，机器人可以先进行定位了解自身的位置，然后根据位置和时间信息去匹配曾经在相同的位置或附近位置的同一个时段时环境噪音库所收集到的声学特征信息，如果没有找到，然后再去整体的环境噪音库去寻找，这样可以大大提高匹配的准确度，提供命中率与命中时间。

在其他实施例中，环境噪声库也可以直接存储环境噪声数据而非其声学特征信息。

上述实施例中，机器人先进行一个学习与建模的过程，先通过播放预设语言并同时进行声音的采集来获取第一声音数据，由于预设语言数据是已知的，因此可以较为准确与方便的获得第一声音数据中环境噪音数据，并进行提取从而保存为一个环境噪音库，在后续的应用场景中，机器人将获取的含有人类语言数据的第二声音数据进行处理，判断是否在环境噪音库存在于第二声音数据中的环境噪音数据相似或者相同的声学特征信息，并根据该声学特征信息可以准确的去除掉第二声音数据的环境噪音数据，大大提升了整个机器人的去噪率，提高了信噪比。

请参阅图4，图4是本申请机器人的一实施方式结构示意框图。

本实施例提供的可穿戴设备具体包括处理器10以及存储器11，其中，处理器10连接存储器11。

其中，处理器10还可以称为CPU(Central Processing Unit，中央处理单元)。处理器10可能是一种集成电路芯片，具有信号的处理能力。处理器10还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本实施中，处理器10可以用于分别在多个环境状态下播放预设语言片段，并同时获取每个环境状态下的第一声音数据；处理器根据预设语言片段对每个第一声音数据进行处理以获得多个环境状态下的环境噪音库；处理器获取当前环境状态下的第二声音数据；并利用环境噪音库对第二声音数据进行去噪处理。

上述设备的其他模块终端可分别执行上述方法实施例中对应的步骤，故在此不对各模块进行赘述，详细请参阅以上对应步骤的说明。

参阅图3，图3为本申请存储装置一实施方式的结构示意图，有能够实现上述所有方法的指令文件21，该指令文件21可以以软件产品的形式存储在上述存储装置中，同时还是记录各种计算的数据，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，智能机器人，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。

所述指令文件21还具有一定独立性，可以在运行系统、备份系统发生故障时候继续配合处理器10执行相关指令，在升级、引导程序升级以及修复中不会被替换、损坏以及清空。

而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结果或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种机器人的语言去噪方法，其特征在于，所述方法包括：

所述机器人分别在多个环境状态下播放预设语言片段，并同时获取每个所述环境状态下的第一声音数据；

根据所述预设语言片段对每个所述第一声音数据进行处理以获得所述多个环境状态下的环境噪音库；

所述机器人获取当前所述环境状态下的第二声音数据；

利用所述环境噪音库对所述第二声音数据进行去噪处理。

2.根据权利要求1所述的语音去噪方法，其特征在于，所述第一声音数据包括所述预设语言片段所对应的预设语言数据与所述环境状态下的环境噪音数据。

3.根据权利要求2所述的语音去噪方法，其特征在于，所述根据所述预设语言片段对每个所述第一声音数据进行处理以获得所述多个环境状态下的环境噪音库包括：

根据所述预设语言片段对所述第一声音数据进行处理，以使得所述第一声音数据删除与所述预设语言片段所对应的所述预设语言数据，以获得所述环境状态下的环境噪音数据；

对所述环境噪音数据进行提取以得到所述环境噪音数据的声学特征信息；

对所述多个环境状态下所对应的多个所述声学特征信息进行存储以作为所述环境噪音库。

4.根据权利要求3所述的语音去噪方法，其特征在于，所述利用所述环境噪音库对所述第二声音数据进行去噪处理，以获得第二声音数据中的原始语言数据包括：

对所述第二声音数据进行处理且判断所述环境噪音库是否存在与所述第二声音数据中的环境噪音数据相匹配的声学特征信息；

如果存在，则利用所述环境噪音库中的声学特征信息对所述第二声音数据中的所述环境噪音数据进行删除以完成去噪处理。

5.根据权利要求4所述的语音去噪方法，其特征在于，所述声学特征信息包括环境噪音的音色、频率、振幅以及相位信息。

6.一种机器人装置，其特征在于，所述机器人包括存储器及连接所述存储器的处理器；

其中，所述处理器分别在多个环境状态下播放预设语言片段，并同时获取每个所述环境状态下的第一声音数据；所述处理器根据所述预设语言片段对每个所述第一声音数据进行处理以获得所述多个环境状态下的环境噪音库；所述处理器获取当前所述环境状态下的第二声音数据；并利用所述环境噪音库对所述第二声音数据进行去噪处理。

7.根据权利要求6所述的机器人装置，其特征在于，所述第一声音数据包括所述预设语言片段所对应的预设语言数据与所述环境状态下的环境噪音数据。

8.根据权利要求7所述的机器人装置，其特征在于，所述处理器根据所述预设语言片段对每个所述第一声音数据进行处理已获得所述多个环境状态下的环境噪音库包括：

所述处理器根据所述预设语言片段对所述第一声音数据进行处理，以使得所述第一声音数据删除与所述预设语言片段所对应的所述预设语言数据，以获得所述环境状态下的所述环境噪音的环境噪音数据；

9.根据权利要求8所述的机器人装置，其特征在于，所述处理器利用所述环境噪音库对所述第二声音数据进行去噪处理，以获得第二声音数据中的原始语言数据包括：

所述处理器对所述第二声音数据进行处理且判断所述环境噪音库是否存在与所述第二声音数据中的环境噪音数据相匹配的声学特征信息；

如果存在，则所述处理器利用所述环境噪音库中的声学特征信息对所述第二声音数据中的所述环境噪音数据进行删除以完成去噪处理。

10.一种存储装置，其特征在于，存储有能够实现如权利要求1-5中任一项所述方法的程序文件。