CN117995193B

CN117995193B - 一种基于自然语言处理的智能机器人语音交互方法

Info

Publication number: CN117995193B
Application number: CN202410389699.9A
Authority: CN
Inventors: 刘洪彬; 许明远; 姬帅; 张�林; 刘浩然; 陈德鹏
Original assignee: Shandong Tianyi Prefabricated Construction Equipment Research Institute Co ltd
Current assignee: Shandong Tianyi Prefabricated Construction Equipment Research Institute Co ltd
Priority date: 2024-04-02
Filing date: 2024-04-02
Publication date: 2024-06-18
Anticipated expiration: 2044-04-02
Also published as: CN117995193A

Abstract

本发明涉及语音处理技术领域，具体涉及一种基于自然语言处理的智能机器人语音交互方法。本发明首先获取语音交互的所有待处理声帧序列及纯噪声帧，进而在每个交互声帧的语谱频率分块中筛选出疑似含噪分块；分析每个疑似含噪分块的噪声影响度，获取含噪分块；然后获取含噪分块的噪声增益值，根据纯噪声帧及每个交互声帧的灰度信息及含噪分块的噪声增益值，获取每个交互声帧的参考噪声帧，进而对每个待处理声帧序列降噪，进行精准的语音交互。本发明结合人员语音指令的共振峰特征及短时谱特性，分析噪声对不同声帧的不同频率范围的噪声影响度，进而对用于谱减的纯噪声进行精准调整以提高降噪效果，从而提高进行语音交互效果。

Description

一种基于自然语言处理的智能机器人语音交互方法

技术领域

本发明涉及语音处理技术领域，具体涉及一种基于自然语言处理的智能机器人语音交互方法。

背景技术

在建筑施工过程中可利用语音指令控制智能机器人辅助施工，故语音交互能力对于智能机器人在施工现场的应用非常重要。语音交互能力很大程度上取决于自然语言处理过程中对语音指令的精准识别，但在语音交互过程中，施工环境中往往存在较多噪声影响语音交互效果，因此对混合交互语音去噪，以获取精准语音交互指令至关重要。

现有技术中采用谱减法对混合交互语音进行去噪，以降低环境噪声对人员语音指令的影响；利用谱减法对混合交互语音去噪通常是对非交互过程中的一段环境噪声做平均处理进行噪声估计，进而滤除环境噪声；但语音交互数据中人员语音指令随着时间的推移通常会呈现出阶段性的短时谱特征，而噪声也存在一定的短时随机性，噪声对不同声帧的影响程度可能不同，利用单一的噪声估计往往可能导致在不同声帧中无法准确估计或抑制噪声，从而出现噪声残留，影响语音指令的识别与交互效果。

发明内容

为了解决现有频谱法无法准确估计或抑制噪声导致去噪效果不佳进而导致语音交互效果差的技术问题，本发明的目的在于提供一种基于自然语言处理的智能机器人语音交互方法，所采用的技术方案具体如下：

获取语音交互数据的所有交互声帧并获取所有待处理声帧序列；获取与交互声帧的帧长一致的纯噪声帧；

获取每个待处理声帧序列中每个交互声帧的所有语谱频率分块，根据每个交互声帧中语谱频率分块的频率关联情况筛选出所述语谱频率分块中的所有疑似含噪分块；在每个待处理声帧序列中，根据所述疑似含噪分块所属交互声帧与其他邻近交互声帧间，相同频率范围的所述语谱频率分块的语谱差异及频率关联情况差异，结合帧间时序差异，获取每个交互声帧中每个所述疑似含噪分块的噪声影响度；

根据所述噪声影响度在每个待处理声帧序列中筛选出所有含噪分块；在每个待处理声帧序列中，根据每个所述含噪分块的所述噪声影响度及所述含噪分块所属交互声帧的相对受噪水平，结合所述含噪分块所属交互声帧与其他交互声帧间，相同频率范围的所述含噪分块间的灰度信息，得到每个所述含噪分块的噪声增益值；

在每个待处理声帧序列中，根据所述纯噪声帧及每个交互声帧的灰度信息，结合交互声帧中含噪分块的所述噪声增益值，获取每个交互声帧的参考噪声帧；根据所述参考噪声帧对对应待处理声帧序列降噪；

根据降噪结果进行语音交互。

进一步地，所述疑似含噪分块的获取方法包括：

在每个待处理声帧序列的每个所述交互声帧中，根据每个所述语谱频率分块与其他所述语谱频率分块的灰度分布相似情况，获取每个所述语谱频率分块的频率关联度；将所述频率关联度小于预设关联度阈值的所有所述语谱频率分块，作为疑似含噪分块。

进一步地，所述频率关联度的获取方法包括：

获取每个待处理声帧序列中每个所述交互声帧的每个所述语谱频率分块的灰度均值；在每个待处理声帧序列的每个所述交互声帧中，根据每个所述语谱频率分块对应频率范围的最高频率将所有所述语谱频率分块进行降序或者升序排序，得到每个所述语谱频率分块的排序序号，以任一所述语谱频率分块为目标分块；

在所有排序序号小于所述目标分块的所述语谱频率分块的灰度均值与所述目标分块的灰度均值的灰度差异中，将最大灰度差异作为第一灰度差异；在所有排序序号大于所述目标分块的所述语谱频率分块的灰度均值与所述目标分块的灰度均值的灰度差异中，将最大灰度差异作为第二灰度差异；将所述第一灰度差异与所述第二灰度差异的差值绝对值负相关映射并归一化，得到所述目标分块的频率关联度；

其中，当所述目标分块在所述交互声帧的所有所述语谱频率分块中排序序号最低时，将所述第二灰度差异负相关映射并归一化作为所述目标分块的频率关联度；当所述目标分块在所述交互声帧的所有所述语谱频率分块中排序序号最高时，将所述第一灰度差异负相关映射并归一化作为所述目标分块的频率关联度。

进一步地，所述噪声影响度的计算公式包括：

；其中，/>为待处理声帧序列中第/>个交互声帧中第/>个疑似含噪分块的噪声影响度；/>为待处理声帧序列中第/>个交互声帧的预设邻域内交互声帧的总帧数；/>为待处理声帧序列中第/>个交互声帧的预设邻域内，除第/>个交互声帧外的第/>个交互声帧的声帧序号；/>为待处理声帧序列中第/>个交互声帧中第/>个疑似含噪分块的语谱频率分块；/>为第/>个交互声帧中与第/>个交互声帧的第/>个疑似含噪分块的频率范围相同的语谱频率分块；/>为取二维信息熵函数；/>为待处理声帧序列中第/>个交互声帧中第个疑似含噪分块的频率关联度；/>为第/>个交互声帧中与第/>个交互声帧的第/>个疑似含噪分块的频率范围相同的语谱频率分块的频率关联度；/>为待处理声帧序列中第/>个交互声帧与第/>个交互声帧之间的帧间时长；/>为预设第一正常数。

进一步地，所述噪声增益值的计算公式包括：

；其中，/>为待处理声帧序列中第/>个交互声帧中第/>个含噪分块的噪声增益值；/>为标准归一化函数；/>为第/>个交互声帧中第/>个含噪分块内的像素点总数量；/>为待处理声帧序列中第/>个交互声帧相对其他交互声帧的相对受噪水平系数；/>为待处理声帧序列中第/>个交互声帧中第/>个含噪分块的噪声影响度；/>为待处理声帧序列中第/>个交互声帧的第/>个含噪分块中第/>个像素点的灰度值；/>为待处理声帧序列中与第/>个交互声帧的第/>个含噪分块的频率范围相同的所有含噪分块中，第/>个像素点的灰度值的灰度均值；/>为预设第二正常数。

进一步地，所述相对受噪水平系数的获取方法包括：

在每个待处理声帧序列中，获取每个所述交互声帧中所述含噪分块的数量，将每个所述交互声帧中所述含噪分块的数量除以对应待处理声帧序列中所有所述交互声帧中所述含噪分块的数量的所有数量中的最大值进行归一化，得到每个所述交互声帧相对其他交互声帧的相对受噪水平系数。

进一步地，所述参考噪声帧的获取方法包括：

将所述纯噪声帧作为每个待处理声帧序列中每个所述交互声帧的初始参考噪声帧，获取所述纯噪声帧的所有噪声语谱频率分块；

在每个待处理声帧序列的每个所述交互声帧的初始参考噪声帧中，将与对应所述交互声帧中的所述含噪分块的频率范围相同的所述噪声语谱频率分块作为待调整分块；在每个所述待调整分块中，根据所述待调整分块及对应所述含噪分块的相同位置像素点的灰度信息，结合所述含噪分块的所述噪声增益值，对所述待调整分块内每个像素点的灰度值进行调整，获取所述待调整分块内每个像素点的调整灰度值；

将每个所述初始参考噪声帧的所述待调整分块中像素点的灰度值调整为调整灰度值，得到每个待处理声帧序列中每个所述交互声帧的参考噪声帧。

进一步地，所述调整灰度值的计算公式包括：

；其中，/>为待处理声帧序列中第/>个交互声帧的初始参考噪声帧中第/>个待调整分块的第/>个像素点的调整灰度值；/>为待处理声帧序列中第/>个交互声帧的初始参考噪声帧中第/>个待调整分块的第/>个像素点的灰度值；/>为待处理声帧序列中与第/>个交互声帧的初始参考噪声帧中第/>个待调整分块的频率范围相同的含噪分块的总数量；/>为待处理声帧序列中第/>个交互声帧中第/>个含噪分块的噪声增益值；/>为待处理声帧序列中与第/>个交互声帧的初始参考噪声帧中第/>个待调整分块的频率范围相同的所有含噪分块中的第/>个含噪分块中第/>个像素点的灰度值。

进一步地，对所述待处理声帧序列降噪的降噪方法包括：

将每个待处理声帧序列中每个所述交互声帧与对应所述参考噪声帧利用谱减法进行降噪。

进一步地，所述待处理声帧序列的获取方法包括：

在每次与智能机器人的语音交互过程中，将语音交互数据中的首帧交互声帧作为起点，沿交互时序方向获取预设数量帧的交互声帧作为第一个待处理声帧序列，以第一个待处理声帧序列中尾帧的相邻下一帧交互声帧为新的起点，获取第二个待处理声帧序列，直至获取所有待处理声帧序列，每个所述待处理声帧序列的序列长度相同，其中当最后一个待处理声帧序列不足预设数量帧时，在最后一个待处理声帧序列的尾帧后补入空帧直至达到预设数量帧。

本发明具有如下有益效果：

本发明首先获取所有交互声帧及所有待处理声帧序列，并获取纯噪声帧用于后续调整并降噪；然后在获取的每个交互声帧的所有语谱频率分块中，根据语谱频率分块的频率关联情况筛选出所有疑似含噪分块，频率关联情况反映了每个语谱频率分块相对其他不同频率范围的语谱频率分块的共振峰过渡变化情况，根据共振峰变化情况可以判断出可能存在噪声的语谱频率分块；然后在每个待处理声帧序列中，根据疑似含噪分块所属交互声帧与其他邻近交互声帧间，相同频率范围的语谱频率分块的语谱差异及频率关联情况差异，结合帧间时序差异，获取每个交互声帧中每个疑似含噪分块的噪声影响度，进而筛选出所有含噪分块，噪声影响度反映了噪声对短时帧的局部频率范围的干扰，影响程度越大，后续降噪对纯噪声帧的调整越大，频率关联情况差异及帧间时序差异在一定程度上调整了语谱差异的影响权重以更综合准确地获取噪声影响度；然后在待处理声帧序列中，根据每个含噪分块的噪声影响度及含噪分块所属交互声帧的相对受噪水平，结合含噪分块所属交互声帧与其他交互声帧间，相同频率范围的含噪分块间的灰度信息，得到每个含噪分块的噪声增益值，噪声增益值考虑了噪声的短时随机性及整体稳定性特征，及交互声帧的整体受噪影响，准确获取了噪声调整权重，然后结合纯噪声帧及每个交互声帧的灰度信息，获取每个交互声帧的参考噪声帧，参考噪声帧是基于噪声影响度对纯噪声帧调整后的结果，根据参考噪声帧可以更准确的对对应待处理声帧序列降噪，进而进行精准的语音交互。本发明结合人员语音指令的共振峰特征及短时谱特性，分析噪声对不同声帧的不同频率范围的噪声影响度，进而对用于对比谱减的纯噪声进行精准调整以提高降噪效果，从而提高进行语音交互效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于自然语言处理的智能机器人语音交互方法的流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于自然语言处理的智能机器人语音交互方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于自然语言处理的智能机器人语音交互方法的具体方案。

本发明实施例为对语音交互数据降噪以提升交互效果，首先将语音交互数据进行预处理得到待分析声帧序列并获取纯噪声帧，分析每个待分析声帧序列中每个交互声帧受噪声影响情况，并根据受噪声影响情况调整每个交互声帧对应的纯噪声帧，进而利用谱减法对语音交互数据降噪，与智能机器人精准交互。

请参阅图1，其示出了本发明一个实施例提供的一种基于自然语言处理的智能机器人语音交互方法的流程图，该方法包括：

步骤S1，获取语音交互数据的所有交互声帧并获取所有待处理声帧序列；获取与交互声帧的帧长一致的纯噪声帧。

在本发明的一个实施例中，首先通过智能机器人语音交互系统中的音频数据采集模块获取操作人员与智能机器人每次语音交互过程中的语音交互数据，音频数据采集模块中设置有声音传感器，传感器的采样频率为44.1kHz，达到了CD音质标准，并能够将采集到的语音交互数据即交互音频转化为电信号，以便获取易于后续分析的语音信号波形图；然后将语音信号波形图分帧处理，得到语音交互数据的所有交互声帧，其中每个交互声帧的帧长为30ms，使得在较短帧长范围的交互音频中更易于进行频谱分析及处理；然后将所有交互声帧划分为单独的待处理声帧序列以便获取更精准的噪声影响估计。

优选地，在本发明的一个实施例中，待处理声帧序列的获取方法包括：在每次与智能机器人的语音交互过程中，将语音交互数据中的首帧交互声帧作为起点，沿交互时序方向获取预设数量帧的交互声帧作为第一个待处理声帧序列，以第一个待处理声帧序列中尾帧的相邻下一帧交互声帧为新的起点，获取第二个待处理声帧序列，直至获取所有待处理声帧序列，每个待处理声帧序列的序列长度相同，其中当最后一个待处理声帧序列不足预设数量帧时，将最后一个待处理声帧序列中的尾帧后补入空帧直至达到预设数量帧。其中预设数量为10，即每10帧交互声帧为一个待处理声帧序列；由于最后一个待处理声帧序列可能不足10帧，为保证每个待处理声帧序列的可处理性，需将其补入空帧。

为对语音交互数据降噪，还需获取纯噪声数据作为对比估计以去除噪声。本发明实施例通过智能机器人的音频数据采集模块在交互过程前后或交互过程中静默的时间段内，随机选择一段纯噪声音频数据做平均处理，然后截取一帧纯噪声音频数据的信号波形图，将其作为纯噪声帧；为保证后续降噪的实施，纯噪声帧的帧长需与交互声帧的帧长一致。

需要说明的是，语音信号的获取、分帧以及纯噪声帧的获取均是本领域技术人员熟知的现有技术，在此不赘述；在本发明实施例的其他实施例中，实施者也可根据具体实施情况设置其他采样频率、帧长以及待处理声帧序列的序列长度。

步骤S2，获取每个待处理声帧序列中每个交互声帧的所有语谱频率分块，根据每个交互声帧中语谱频率分块的频率关联情况筛选出语谱频率分块中的所有疑似含噪分块；在每个待处理声帧序列中，根据疑似含噪分块所属交互声帧与其他邻近交互声帧间，相同频率范围的语谱频率分块的语谱差异及频率关联情况差异，结合帧间时序差异，获取每个交互声帧中每个疑似含噪分块的噪声影响度。

需要说明的是，由于每个待处理声帧序列的分析及处理方法一致，在此仅以一个待处理声帧序列为分析对象进行表述说明。

人声道结构的共振特性会使得人发出的语音指令对应声音信号中存在一定的共振峰，共振峰是语音信号中特定频率范围内的能量聚集表现，在语谱图中能够被明显观察到；且正常情况下单个声帧内人声相对稳定，通常呈现为低频到高频的过渡变化，即语谱图中的能量也会随频率的过渡变化而变化；而环境噪声会削弱人声的共振峰特征，若某一交互声帧内某频率范围语谱图的共振峰特征相对模糊不清，则认为其受到环境噪声影响；故本发明实施例获取每个待处理声帧序列中每个交互声帧的所有语谱频率分块，根据每个交互声帧中语谱频率分块的频率关联情况筛选出语谱频率分块中的所有疑似含噪分块。

在本发明的一个实施例中，首先将待处理声帧序列中的每个交互声帧进行傅里叶变化得到每个交互声帧的频谱图，然后将频谱图作对数变换后做灰度处理，得到语谱图；其中语谱图的横轴表示时间，纵轴表示频率，灰度表示能量强弱，灰度越高，能量越强；然后将语谱图以频率为依据均匀划分为8个语谱频率分块，实施者可根据具体实施情况设置语谱频率分块的划分数量。获取语谱图及语谱频率分块已是本领域技术人员熟知的现有技术，不再赘述。

优选地，在本发明的一个实施例中，疑似含噪分块的获取方法包括：在每个待处理声帧序列的每个交互声帧中，根据每个语谱频率分块与其他语谱频率分块的灰度分布相似情况，获取每个语谱频率分块的频率关联度；将频率关联度小于预设关联度阈值的所有语谱频率分块，作为疑似含噪分块；频率关联度反映了每个语谱频率分块相对其他不同频率范围上的语谱频率分块的共振峰的过渡变化情况，根据共振峰变化情况可以判断出哪个频率范围的语谱频率分块可能存在噪声，进而便于进行后续的降噪分析及处理。

需要说明的是，在本发明实施例中预设关联度阈值为0.67，在本发明的其他实施例中也可根据具体实施情况设置其他阈值。

在本发明的一个优选实施例中，考虑到不同频率范围的语谱频率分块内的灰度信息侧面反映能量分布即共振峰特征，语谱频率分块的灰度信息与相对高频或低频的语谱频率分块内的灰度信息的差异反映了其能量变化情况；基于此，频率关联度的获取方法包括：获取每个待处理声帧序列中每个交互声帧的每个语谱频率分块的灰度均值；在每个待处理声帧序列的每个交互声帧中，以根据每个语谱频率分块对应频率范围的最高频率将所有语谱频率分块进行降序或者升序排序，得到每个语谱频率分块的排序序号，以任一语谱频率分块为目标分块；在所有排序序号小于目标分块的语谱频率分块的灰度均值与目标分块的灰度均值的灰度差异中，将最大灰度差异作为第一灰度差异；在所有排序序号大于目标分块的语谱频率分块的灰度均值与目标分块的灰度均值的灰度差异中，将最大灰度差异作为第二灰度差异；将第一灰度差异与第二灰度差异的差值绝对值负相关映射并归一化，得到目标分块的频率关联度；其中，当目标分块在交互声帧的所有语谱频率分块中排序序号最低时，将第二灰度差异负相关映射并归一化作为目标分块的频率关联度；当目标分块在交互声帧的所有语谱频率分块中排序序号最高时，将第一灰度差异负相关映射并归一化作为目标分块的频率关联度；频率关联度的计算公式为：

；

其中，为待处理声帧序列中第/>个交互声帧中第/>个目标分块的频率关联度；为以自然常数/>为底数的指数函数；/>为取最大值函数；/>为待处理声帧序列中第/>个交互声帧中第/>个目标分块的灰度均值；/>为排序序号小于目标分块的语谱频率分块的灰度均值；/>为排序序号大于目标分块的语谱频率分块的灰度均值；/>为取绝对值符号。

频率关联度的计算公式中，表示第一灰度差异，/>表示第二灰度差异，第一灰度差异与第二灰度差异的差值绝对值越小，说明目标分块相对其他高频与低频语谱频率分块的过渡变化越相似，越符合人声频率及共振峰的过渡变化特征，其受噪声干扰的可能性越小；通过将其负相关映射到指数函数归一化并调整逻辑关系，使得差值绝对值越小，受噪声干扰的可能性越小，频率关联度越大；需要说明的是，当目标分块为最高频或最低频时，分析其相对低频或高频的频率关联情况即可；在本发明的其他实施例中实施者也可使用其他负相关映射手段如做倒数运算等其他方式获取频率关联度。

由于对于任一交互声帧与邻近多个交互声帧存在阶段性的短时谱特征，随着声调或语速的变化可能导致不同交互声帧的相同频率范围内的语谱频率分块的语谱信息及能量分布存在一定的变化，而噪声通常会在多个连续交互声帧产生影响，且在局部短时帧内噪声的干扰通常是随机的，通过对比邻近交互声帧间的语谱信息差异在一定程度上可以判断出噪声的干扰影响；又考虑到相邻多个声帧之间存在时间差异，对分析结果存在一定影响，且疑似含噪分块所属交互声帧与其他邻近交互声帧间，相同频率范围的语谱频率分块可能是含噪可能性小甚至不含噪的语谱频率分块，二者的语谱信息及能量分布差异本身就很大，影响最终的噪声干扰程度估计；故在每个待处理声帧序列中，根据疑似含噪分块所属交互声帧与其他邻近交互声帧间，相同频率范围的语谱频率分块的语谱差异及频率关联情况差异，结合帧间时序差异，获取每个交互声帧中每个疑似含噪分块的噪声影响度。

在本发明的一个实施例中，为便于分析待处理声帧序列中疑似含噪分块所属交互声帧与其他邻近交互声帧间相同频率范围的语谱频率分块间的差异以评估噪声影响度，首先以每个交互声帧为中心构建预设邻域，其中预设邻域的长度为5，即在交互声帧的两侧各取2个交互声帧构建邻域；其中可能存在部分交互声帧无法构建邻域的情况，则在待处理声帧序列中选取与其时序最近的4个交互声帧构建邻域；实施者也可根据具体情况自行设置。

优选地，在本发明的一个实施例中，由于噪声的随机性可能对不同邻近交互声帧内相同频率范围的语谱信息产生不同的影响，例如当噪声主要集中在高频范围内，对高频语谱频率分块的影响可能较大；通过对比邻近的两个交互声帧在相同频率范围的语谱频率分块的差异可以反映噪声对每个频率范围的影响情况；由于每个语谱频率分块是一个二维图像块，通过二维信息熵可以获取图像块间的分布差异；然后结合交互声帧与邻近交互声帧间的时间差异及频率关联差异综合评估噪声影响情况；噪声影响度的计算公式包括：

；

其中，为待处理声帧序列中第/>个交互声帧中第/>个疑似含噪分块的噪声影响度；/>为待处理声帧序列中第/>个交互声帧的预设邻域内交互声帧的总帧数；/>为待处理声帧序列中第/>个交互声帧的预设邻域内，除第/>个交互声帧外的第/>个交互声帧的声帧序号；/>为待处理声帧序列中第/>个交互声帧中第/>个疑似含噪分块的语谱频率分块；/>为第/>个交互声帧中与第/>个交互声帧的第/>个疑似含噪分块的频率范围相同的语谱频率分块；/>为取二维信息熵函数；/>为待处理声帧序列中第/>个交互声帧中第/>个疑似含噪分块的频率关联度；/>为第/>个交互声帧中与第/>个交互声帧的第/>个疑似含噪分块的频率范围相同的语谱频率分块的频率关联度；/>为待处理声帧序列中第/>个交互声帧与第/>个交互声帧之间的帧间时长；/>为预设第一正常数；其中，预设邻域内交互声帧的总帧数/>取5，由于频率关联度的取值范围是0-1，故预设第一正常数设置为0.01，在尽量不影响计算结果的同时防止分母为零，实施者可自行设置。

噪声影响度的计算公式中，反映了疑似含噪分块与其所属交互声帧的邻近交互声帧内频率范围相同的语谱频率分块间的语谱信息二维信息熵，该熵值越大，说明差值图像分布越混乱，则疑似含噪分块的噪声影响度越大；同时疑似含噪分块相同频率范围的语谱频率分块可能是含噪可能性小甚至不含噪的语谱频率分块，且时序差异越大，二者噪声影响程度差异可能性越大，通过将频率关联度的差异/>与帧间的时间差异相乘后做分母能够一定程度上削弱熵值影响，从而得到准确的噪声影响度。

步骤S3，根据噪声影响度在每个待处理声帧序列中筛选出所有含噪分块；在每个待处理声帧序列中，根据每个含噪分块的噪声影响度及含噪分块所属交互声帧的相对受噪水平，结合含噪分块所属交互声帧与其他邻近交互声帧间，相同频率范围的含噪分块间的灰度信息，得到每个含噪分块的噪声增益值。

获取每个疑似含噪分块的噪声影响度后，便可根据噪声影响度在每个待处理声帧序列中筛选出所有含噪分块，其中噪声影响度阈值设置为0.76，将所有噪声影响度大于0.76的疑似含噪分块作为含噪分块；实施者可根据具体实施情况设置其他阈值。

考虑到若一个交互声帧的整体受噪水平越高，噪声影响的样本越充分，估计噪声的准确性也会提高；又考虑到人声语音指令在短时帧内的变化相对较小，噪声在短时帧内虽然是随机的，但在多个连续帧内则呈现为相对稳定状态或存在一定的规律；当整个待处理声帧序列内交互声帧内相同频率范围的含噪分块内像素点的灰度分布相似性越高，说明整个待处理声帧序列中相同频率范围的含噪分块受噪声的整体影响越一致，即越符合噪声的整体稳定性，对估计噪声分布的准确性越高；故本发明实施例在每个待处理声帧序列中，根据每个含噪分块的噪声影响度及含噪分块所属交互声帧的相对受噪水平，结合含噪分块所属交互声帧与其他邻近交互声帧间，相同频率范围的含噪分块间的灰度信息，得到每个含噪分块的噪声增益值；噪声增益值越大，则对于后续的噪声调整程度越大，在一定程度上可以弥补噪声对人声的语音信息的影响，以提升降噪效果。

优选地，在本发明的一个实施例中，噪声增益值的计算公式包括：

；

其中，为待处理声帧序列中第/>个交互声帧中第/>个含噪分块的噪声增益值；为标准归一化函数；/>为第/>个交互声帧中第/>个含噪分块内的像素点总数量；/>为待处理声帧序列中第/>个交互声帧相对其他交互声帧的相对受噪水平系数；/>为待处理声帧序列中第/>个交互声帧中第/>个含噪分块的噪声影响度；/>为待处理声帧序列中第/>个交互声帧的第/>个含噪分块中第/>个像素点的灰度值；/>为待处理声帧序列中与第/>个交互声帧的第/>个含噪分块的频率范围相同的所有含噪分块中，第/>个像素点的灰度值的灰度均值；/>为预设第二正常数；在本发明实施例中，预设邻域的长度为5，在分析噪声影响度时已说明其构建方法，在此不赘述；预设第二正常数具体取1，在不影响运算结果的同时保证分母不为0，实施者可根据具体实施情况自行设置。

噪声增益值的计算公式中，含噪分块的噪声影响度越高，对应的噪声增益值越大；交互声帧相对其他所有交互声帧的相对受噪水平系数越高，对于噪声的估计越准确；反映了含噪分块与待处理声帧序列中的其他交互声帧中相同频率范围的含噪分块间，某一像素点灰度相对其他相同位置像素点灰度平均水平的差异，灰度差异越小，说明噪声对多个交互声帧内的干扰程度越相似，通过将其做倒数运算调整逻辑关系，然后综合分析所有相同位置像素点的灰度差异，将灰度差异的倒数及相对受噪水平系数通过乘法合并后做归一化处理，得到每个含噪分块的噪声影响度的置信权值，置信度越高，噪声影响度越大，则对应的噪声增益值越大。

需要说明的是，在含噪分块所属交互声帧与其他交互声帧间，存在相同频率范围的语谱频率分块为非含噪分块的可能性，则将噪声增益值的计算公式中灰度差异的倒数均值项取预设正数值，以保证可实施性，在本发明的一个实施例中具体取1，实施者可自行设置。

在本发明的一个优选实施例中，相对受噪水平系数的获取方法包括：

在每个待处理声帧序列中，获取每个交互声帧中含噪分块的数量，将每个交互声帧中含噪分块的数量除以对应待处理声帧序列中所有交互声帧中含噪分块的数量的所有数量中的最大值进行归一化，得到每个交互声帧相对其他所有交互声帧的相对受噪水平系数；在本发明的其他实施例中，实施者也可采用其他归一化方式，也可通过交互声帧中含噪分块对应的噪声影响度评估其相对受噪水平系数，在此不再赘述。

步骤S4，在每个待处理声帧序列中，根据纯噪声帧及每个交互声帧的灰度信息，结合交互声帧中含噪分块的噪声增益值，获取每个交互声帧的参考噪声帧；根据参考噪声帧对对应待处理声帧序列降噪。

获取待处理声帧序列中每个含噪分块的噪声增益值后，便可以在每个待处理声帧序列中，结合纯噪声帧及每个交互声帧的灰度信息，获取每个交互声帧的参考噪声帧。

优选地，在本发明的一个实施例中，参考噪声帧的获取方法包括：将纯噪声帧作为每个待处理声帧序列中每个交互声帧的初始参考噪声帧，获取纯噪声帧的所有噪声语谱频率分块；在每个待处理声帧序列的每个交互声帧的初始参考噪声帧中，将与对应交互声帧中的含噪分块的频率范围相同的噪声语谱频率分块作为待调整分块；在每个待调整分块中，根据待调整分块及对应含噪分块的相同位置像素点的灰度信息，结合含噪分块的噪声增益值，对待调整分块内每个像素点的灰度值进行调整，获取待调整分块内每个像素点的调整灰度值；将每个初始参考噪声帧的待调整分块中像素点的灰度值调整为调整灰度值，得到每个待处理声帧序列中每个交互声帧的参考噪声帧；其中，将待调整分块中像素点的灰度值调整后得到的仍是初始参考噪声帧的语谱图，需将其进行尺度转换还原为频谱图，得到每个初始参考噪声帧的频谱图，即每个交互声帧的参考噪声帧；由于获取语谱图时采用的是对数尺度变换，则将语谱图转化为频谱图时需要进行相应的指数变换，其已是本领域常用的技术手段，在此不赘述。

需要说明的是，在获取参考噪声帧前，需将纯噪声帧进行相应预处理，得到对应的噪声语谱图及噪声语谱频率分块，其中噪声语谱图与交互声帧的语谱图获取方法一致，噪声语谱频率分块与语谱频率分块方法也相同，且噪声语谱频率分块与交互声帧的语谱频率分块的频率范围划分一致，其在实施例中已给出说明且为本领域现有技术，在此不赘述。

调整灰度值的计算公式包括：

；

其中，为待处理声帧序列中第/>个交互声帧的初始参考噪声帧中第/>个待调整分块的第/>个像素点的调整灰度值；/>为待处理声帧序列中第/>个交互声帧的初始参考噪声帧中第/>个待调整分块的第/>个像素点的灰度值；/>为待处理声帧序列中与第/>个交互声帧的初始参考噪声帧中第/>个待调整分块的频率范围相同的含噪分块的总数量；/>为待处理声帧序列中第/>个交互声帧中第/>个含噪分块的噪声增益值；/>为待处理声帧序列中与第/>个交互声帧的初始参考噪声帧中第/>个待调整分块的频率范围相同的所有含噪分块中的第/>个含噪分块中第/>个像素点的灰度值。

调整灰度值的计算公式中，在任意一个交互声帧的初始参考噪声帧中，对于每个待调整分块中任意一个像素点，将待处理声帧序列的所有交互声帧中与待调整分块相同频率范围的所有含噪分块的相同位置的像素点，相对待调整分块中像素点的灰度差值以对应含噪分块的噪声增益值为权重进行加权求均，对待调整分块中像素点的灰度值进行调整；噪声影响度越大，噪声增益值越大，当相同位置像素点的灰度差值的加权均值大于零时，对灰度值进行相应的调高，反之，当灰度差值的加权均值小于零时，对灰度值进行相应的减小，以得到初始参考噪声帧的待调整分块，以便后续精准降噪。

在本发明的一个优选实施例中，获取每个待处理声帧序列中每个交互声帧的参考噪声帧后，将每个待处理声帧序列中每个交互声帧与对应参考噪声帧通过谱减法进行降噪，通过将纯噪声帧根据噪声影响度进行调整，得到调整后的参考噪声帧，进而将参考噪声帧从交互声帧的频谱中减去，得到待处理序列中每个交互声帧降噪后的降噪声帧，更为准确的估计并抑制噪声，提升了降噪效果。谱减法已是本领域技术人员熟知的现有技术，在此不再赘述。

通过对每个待处理声帧序列进行精准去噪，然后将所有待处理序列中所有交互声帧进行帧连接，得到音频数据。

步骤S5，根据降噪结果进行语音交互。

将音频数据传输到智能语音机器人的语音识别模块中，语音识别模块中通常包括Transformer模型，将其通过Transformer模型进行语义识别，从而可以与智能机器人精准交互。

综上所述，本发明实施例首先获取语音交互数据的所有待处理声帧序列及纯噪声帧；获取每个待处理声帧序列中每个交互声帧的所有语谱频率分块，进而筛选出所有疑似含噪分块；在每个待处理声帧序列中，分析每个交互声帧中每个疑似含噪分块的噪声影响度，以筛选出所有含噪分块，然后获取含噪分块的噪声增益值，根据纯噪声帧及每个交互声帧的灰度信息，结合交互声帧中含噪分块的噪声增益值，获取每个交互声帧的参考噪声帧，进而对每个待处理声帧序列降噪，进行精准的语音交互。本发明结合人员语音指令的共振峰特征及短时谱特性，分析噪声对不同声帧的不同频率范围的噪声影响度，进而对用于对比谱减的纯噪声进行精准调整以提高降噪效果，从而提高进行语音交互效果。

一种用于语音交互数据的降噪方法实施例：

在语音交互过程中，其语音采集环境中往往存在较多环境噪声影响语音交互效果。现有技术中采用谱减法对混合交互语音进行去噪，以降低环境噪声对人员语音指令的影响；谱减法通常是对一段纯环境噪声的噪声估计以进行相减滤除环境噪声；但语音交互数据中人员语音指令随着时间的推移通常会呈现出阶段性的短时谱特征，而噪声也存在一定的短时随机性，对不同声帧内的影响程度可能不同，利用单一的噪声估计往往可能导致在不同声帧中无法准确估计或抑制噪声，从而出现噪声残留。本发明提供一种用于语音交互数据的降噪方法，该方法包括以下步骤：

其中，步骤S1-S4在上述一种基于自然语言处理的智能机器人语音交互方法实施例中已给出了详细说明，不再赘述。

本发明首先获取所有交互声帧及所有待处理声帧序列，并获取纯噪声帧用于后续调整并降噪；然后在获取的每个交互声帧的所有语谱频率分块中，根据语谱频率分块的频率关联情况筛选出所有疑似含噪分块，频率关联情况反映了每个语谱频率分块相对其他不同频率范围的语谱频率分块的共振峰过渡变化情况，根据共振峰变化情况可以判断出可能存在噪声的语谱频率分块；然后在每个待处理声帧序列中，根据疑似含噪分块所属交互声帧与其他邻近交互声帧间，相同频率范围的语谱频率分块的语谱差异及频率关联情况差异，结合帧间时序差异，获取每个交互声帧中每个疑似含噪分块的噪声影响度，进而筛选出所有含噪分块，噪声影响度反映了噪声对短时帧的局部频率范围的干扰，影响程度越大，后续降噪对纯噪声帧的调整越大，频率关联情况差异及帧间时序差异在一定程度上调整了语谱差异的影响权重以更综合准确地获取噪声影响度；然后在待处理声帧序列中，根据每个含噪分块的噪声影响度及含噪分块所属交互声帧的相对受噪水平，结合含噪分块所属交互声帧与其他交互声帧间，相同频率范围的含噪分块间的灰度信息，得到每个含噪分块的噪声增益值，噪声增益值考虑了噪声的短时随机性及整体稳定性特征，及交互声帧的整体受噪影响，准确获取了噪声调整权重，然后结合纯噪声帧及每个交互声帧的灰度信息，获取每个交互声帧的参考噪声帧，参考噪声帧是基于噪声影响度对纯噪声帧调整后的结果，根据参考噪声帧可以更准确的对对应待处理声帧序列降噪。本发明结合人员语音指令的共振峰特征及短时谱特性，分析噪声对不同声帧的不同频率范围的噪声影响度，进而对用于对比谱减的纯噪声进行精准调整以提高降噪效果。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种基于自然语言处理的智能机器人语音交互方法，其特征在于，所述方法包括：

根据降噪结果进行语音交互；

所述疑似含噪分块的获取方法包括：

在每个待处理声帧序列的每个所述交互声帧中，根据每个所述语谱频率分块与其他所述语谱频率分块的灰度分布相似情况，获取每个所述语谱频率分块的频率关联度；将所述频率关联度小于预设关联度阈值的所有所述语谱频率分块，作为疑似含噪分块；

所述频率关联度的获取方法包括：

2.根据权利要求1所述的一种基于自然语言处理的智能机器人语音交互方法，其特征在于，所述噪声影响度的计算公式包括：

；其中，/>为待处理声帧序列中第/>个交互声帧中第/>个疑似含噪分块的噪声影响度；/>为待处理声帧序列中第/>个交互声帧的预设邻域内交互声帧的总帧数；/>为待处理声帧序列中第/>个交互声帧的预设邻域内，除第/>个交互声帧外的第/>个交互声帧的声帧序号；/>为待处理声帧序列中第/>个交互声帧中第/>个疑似含噪分块的语谱频率分块；/>为第/>个交互声帧中与第/>个交互声帧的第/>个疑似含噪分块的频率范围相同的语谱频率分块；/>为取二维信息熵函数；/>为待处理声帧序列中第/>个交互声帧中第/>个疑似含噪分块的频率关联度；/>为第/>个交互声帧中与第/>个交互声帧的第/>个疑似含噪分块的频率范围相同的语谱频率分块的频率关联度；/>为待处理声帧序列中第/>个交互声帧与第/>个交互声帧之间的帧间时长；/>为预设第一正常数。

3.根据权利要求1所述的一种基于自然语言处理的智能机器人语音交互方法，其特征在于，所述噪声增益值的计算公式包括：

；其中，/>为待处理声帧序列中第个交互声帧中第/>个含噪分块的噪声增益值；/>为标准归一化函数；/>为第/>个交互声帧中第/>个含噪分块内的像素点总数量；/>为待处理声帧序列中第/>个交互声帧相对其他交互声帧的相对受噪水平系数；/>为待处理声帧序列中第/>个交互声帧中第/>个含噪分块的噪声影响度；/>为待处理声帧序列中第/>个交互声帧的第/>个含噪分块中第/>个像素点的灰度值；/>为待处理声帧序列中与第/>个交互声帧的第/>个含噪分块的频率范围相同的所有含噪分块中，第/>个像素点的灰度值的灰度均值；/>为预设第二正常数。

4.根据权利要求3所述的一种基于自然语言处理的智能机器人语音交互方法，其特征在于，所述相对受噪水平系数的获取方法包括：

5.根据权利要求1所述的一种基于自然语言处理的智能机器人语音交互方法，其特征在于，所述参考噪声帧的获取方法包括：

6.根据权利要求5所述的一种基于自然语言处理的智能机器人语音交互方法，其特征在于，所述调整灰度值的计算公式包括：

7.根据权利要求1所述的一种基于自然语言处理的智能机器人语音交互方法，其特征在于，对所述待处理声帧序列降噪的降噪方法包括：

8.根据权利要求1所述的一种基于自然语言处理的智能机器人语音交互方法，其特征在于，所述待处理声帧序列的获取方法包括：