CN112967731B

CN112967731B - 一种消除语音回声的方法、装置及计算机可读介质

Info

Publication number: CN112967731B
Application number: CN202110536987.9A
Authority: CN
Inventors: 曹亚曦; 许磊
Original assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Current assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-08-03
Anticipated expiration: 2041-05-18
Also published as: CN112967731A

Abstract

本发明公开了一种消除语音回声的方法、装置及计算机可读介质，属于人工智能技术领域。该方法包括：获取待测语音信号序列，待测语音信号序列包括多个连续的语音信号，语音信号中携带语音信号生成的时间点；利用语音回声分类模型对待测语音信号序列进行预测，得到回声起始时间点和回声结束时间点；基于回声起始时间点和回声结束时间点，从待测语音信号序列中移除从回声起始时间点到回声结束时间点的多个语音信号，生成无回声的语音信号序列。由此，能够有效消除语音信号序列中的语音回声；而且，本发明实施例消除语音的方法支持多种语音场景，具有普适性，因此解决了现有技术中采用硬件方式消除回声导致成本高，以及软件方式不具有普适性的问题。

Description

一种消除语音回声的方法、装置及计算机可读介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种消除语音回声的方法、装置及计算机可读介质。

背景技术

语音是云视频会议中非常重要的信息，但是由于网络环境的不确定性，以及物理环境等客观因素，从而导致云视频会议中经常有语音回声异常的情况发生，由此对云视频会议质量和云视频会议平台产生较大的负面影响。回声消除对于提高云视频会议系统的高可用性，以及云视频会议的质量和效率均有很大的益处。

现有的回声解决方案有硬件方面，也有软件层面。例如，一种针对远场语音回声的消除装置；该消除装置包括回声消除装置本体、升降机构和移动旋转机构，虽然该消除装置能够有效消除远场回声，但是硬件的使用会增加回声消除的成本，不能完全被用户所接受。再例如，针对游戏背景音的消除方法，该方法通过回声馈路函数计算回声信号的估计值，但是该方法在实现的过程中需要多个中间的步骤，容易引入潜在的错误，而且在应用领域上主要是涉及游戏背景音的处理，针对云视频会议场景中的语音回声无法实现有效的消除，因此不具有普适性。

发明内容

为了解决上述现有技术存在的问题，本发明实施例提供一种消除语音回声的方法、装置及计算机可读介质，能够有效消除云视频会议中的语音回声，从而提高云视频会议系统的高可用性。

为实现上述目的，根据本发明实施例第一方面，提供一种消除语音回声的方法，该方法包括：获取待测语音信号序列，所述待测语音信号序列包括多个连续的语音信号，所述语音信号中携带语音信号生成的时间点；利用语音回声分类模型对所述待测语音信号序列进行预测，得到回声起始时间点和回声结束时间点；基于所述回声起始时间点和所述回声结束时间点，从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束时间点的多个语音信号，生成无回声的语音信号序列。

可选的，所述回声结束时间点包括多个回声结束的中间时间点以及一个回声结束的终止时间点，其中，任一所述回声结束的中间时间点小于所述回声结束的终止时间点；从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束时间点的多个语音信号，包括：从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束的终止时间点的多个语音信号。

可选的，所述语音回声分类模型通过如下方法获得：获取正常语音信号序列和具有回声标签的语音信号序列，将所述正常语音信号序列作为正例训练样本，将具有回声标签的语音信号序列作为负例训练样本；其中，所述具有回声标签的语音信号序列标记有回声起始时间点标签和回声结束时间点标签；利用多个所述正例训练样本和多个所述负例训练样本进行模型训练，生成语音回声分类模型。

可选的，利用多个所述正例训练样本和多个所述负例训练样本进行模型训练，生成语音回声分类模型，包括：针对多个所述正例训练样本以及多个所述负例训练样本中的任一训练样本：按照特定时间窗口依次将所述训练样本中多个语音信号划分成不同的窗口序列，生成多个窗口序列；针对任一当前窗口序列：根据所述当前窗口序列获取前N个窗口序列的隐藏层信息；对所述当前窗口序列进行编码，生成当前窗口的语音嵌入向量；利用所述语音嵌入向量和所述隐藏层信息进行模型训练；基于多个所述正例训练样本以及多个所述负例训练样本的模型训练结果，生成语音回声分类模型。

可选的，对所述当前窗口序列进行编码，生成当前窗口的语音嵌入向量，包括：获取语音音表，所述音表用于指示音频宽带与音素之间的映射关系；根据所述音表，确定所述当前窗口序列中所有语音信号对应的音素，并对所有音素进行编码，进而学习，生成当前窗口的语音嵌入向量。

可选的，所述音表通过如下方法获得：获取人类语音的音频宽带范围；对所述音频宽带范围内任一音频宽带构建音素，生成音频宽带范围对应的音表。

可选的，所述获取具有回声标签的语音信号序列，包括：获取连续的原始语音信号序列，所述原始语音信号序列包括多个原始语音信号，所述原始语音信号中携带原始语音信号生成的时间点；基于所述原始语音信号序列，确定所述原始语音信号序列中回声起始时间点和回声结束时间点；对所述原始语音信号序列中所述回声起始时间点和所述回声结束时间点对应的原始语音信号打标签，得到具有回声标签的语音信号序列。

为实现上述目的，根据本发明实施例第二方面，还提供一种消除语音回声的装置，该装置包括：获取模块，用于获取待测语音信号序列，所述待测语音信号序列包括多个连续的语音信号，所述语音信号中携带语音信号生成的时间点；预测模块，用于利用语音回声分类模型对所述待测语音信号序列进行预测，得到回声起始时间点和回声结束时间点；移除模块，用于基于所述回声起始时间点和所述回声结束时间点，从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束时间点的多个语音信号，生成无回声的语音信号序列。

为实现上述目的，根据本发明实施例第三方面，还提供一种电子设备，该电子设备包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第一方面所述的消除语音回声的方法。

为实现上述目的，根据本发明实施例的第四方面，还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的消除语音回声的方法。

与现有技术相比，本发明实施例提供的消除语音回声的方法，该方法通过获取待测语音信号序列，所述待测语音信号序列包括多个连续的语音信号，所述语音信号中携带语音信号生成的时间点；并利用语音回声分类模型对所述待测语音信号序列进行预测，得到回声起始时间点和回声结束时间点；之后基于所述回声起始时间点和所述回声结束时间点，从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束时间点的多个语音信号，生成无回声的语音信号序列。由此，能够有效消除语音信号序列中的语音回声；而且，本发明实施例消除语音回声的方法从软件层面对语音回声进行消除，支持多种语音场景，因此具有普适性，解决了现有技术中采用硬件方式消除回声导致成本高，以及软件方式不具有普适性的问题。

需要理解的是，本发明的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明一实施例消除语音回声的示意性流程图；

图2为本发明另一实施例中语音回声分类模型的示意性流程图；

图3为本发明再一实施例中语音回声分类模型的示意性流程图；

图4为本发明又一实施例中语音回声分类模型的示意性流程图；

图5为本发明一实施例中语音信号序列的示意性框图；

图6为本发明一实施例中消除语音回声装置的示意性框图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，本发明一实施例消除语音回声的示意性流程图。一种消除语音回声的方法，包括如下步骤：S101，获取待测语音信号序列，所述待测语音信号序列包括多个连续的语音信号，所述语音信号中携带语音信号生成的时间点；S102，利用语音回声分类模型对所述待测语音信号序列进行预测，得到回声起始时间点和回声结束时间点；S103，基于所述回声起始时间点和所述回声结束时间点，从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束时间点的多个语音信号，生成无回声的语音信号序列。

在S101中，对于待测语音信号序列的来源不作限定，待测语音信号序列可以是从会议室的云视频会议场景中获取的，也可以是从其他应用场景中获取的，譬如操场的广播场景中获取的等等。

在这里，待测语音信号序列可以是正常语音信号序列，也可以是具有回声的语音信号序列。

在S102中，当语音回声分类模型输出“NO”结果时,则确定待测语音信号序列为正常语音信号序列，不含有回声。当语音回声分类模型输出回声起始时间点和回声结束时间点时，则确定待测语音信号序列为具有回声的语音信号序列。例如，待测语音信号序列对应的内容是：知识就是力量；语音回声对应的内容是“就是力量”，利用语音回声分类模型对待测语音信号序列进行预测，生成回声起始时间点和回声结束时间点，回声起始时间点对应的语音信号表示为“就”，回声结束时间点对应的语音信号表示为“量”。回声结束时间点可以有一个，也可以有多个。当在比较狭小的空间产生的回声，回声结束时间点可能只有一个；当在比较空旷的空间产生的回声，回声结束时间点包括多个回声结束的中间时间点以及一个回声结束的终止时间点，其中，任一回声结束的中间时间点小于回声结束的终止时间点。

语音回声分类模型是利用算法对训练样本进行预先训练而获得的。例如将正常语音信号序列作为正例训练样本，将具有回声标签的语音信号序列作为负例训练样本，利用算法对多个正例训练样本和多个负例训练样本进行模型训练得到语音回声分类模型。

在这里，回声起始时间点和回声结束时间点均是指生成回声语音信号的时间点。

由此，通过语音回声分类模型对待测语音信号序列进行预测，能够快速准确地确定回声起始时间点和回声结束时间点，从而有利于语音回声的消除，进而实现了从软件层面实时消除语音回声的目的。

在S103中，由于待测语音信号序列中每个语音信号均携带有语音信号生成的时间点，因此能够基于回声起始时间点和回声结束时间点，从待测语音信号序列中移除从回声起始时间点到回声结束时间点的多个语音信号，从而得到无回声的语音信号序列。

回声结束时间点包括多个回声结束的中间时间点以及一个回声结束的终止时间点，其中，任一回声结束的中间时间点小于回声结束的终止时间点；从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束时间点的多个语音信号，包括：从待测语音信号序列中移除从回声起始时间点到回声结束的终止时间点的多个语音信号。

本发明实施例提供的消除语音回声的方法，该方法通过获取待测语音信号序列，所述待测语音信号序列包括多个连续的语音信号，所述语音信号中携带语音信号生成的时间点；并利用语音回声分类模型对所述待测语音信号序列进行预测，生成回声起始时间点和回声结束时间点；之后基于所述回声起始时间点和所述回声结束时间点，从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束时间点的多个语音信号，生成无回声的语音信号序列。由此，能够有效消除语音信号序列中的语音回声；而且，本发明实施例消除语音回声的方法从软件层面对语音回声进行消除，支持多种语音场景，具有普适性，因此解决了现有技术中采用硬件方式消除回声导致成本高，以及软件方式不具有普适性的问题。

本发明实施例提供的消除语音回声的方法可以应用于多种场景，当本发明实施例消除语音回声的方法应用于云视频会议时，能够提高云视频会议的质量以及云视频会议系统的高可用性。

图5为本发明一实施例中语音信号序列的示意性框图。

例如在比较空旷的空间，语音信号序列对应的内容是：知识就是力量；语音回声对应的内容是“就是力量”，回声起始时间点对应的语音信号表示为“就”，回声结束时间点对应的语音信号表示为“量”。表示为“量”的语音信号对应的回声结束时间点包括et₁、et₂、et₃、_、et_{4。。。。。。}et_n，、et；其中et₁、et₂、et₃、et_{4。。。。。。。}et_n，均是回声结束的中间时间点，而et是回声结束的终止时间点，表示“就”的语音信号对应的回声起始时间点st。

本如图2所示，本发明一实施例中语音回声分类模型的示意性流程图。本实施例是在图1实施例的基础上进一步优化得到的。一种语音回声分类模型的训练方法，包括如下步骤：S201，获取正常语音信号序列和具有回声标签的语音信号序列，将正常语音信号序列作为正例训练样本，将具有回声标签的语音信号序列作为负例训练样本；其中，具有回声标签的语音信号序列标记有回声起始时间点标签和回声结束时间点标签；S202，利用多个正例训练样本和多个负例训练样本进行模型训练，生成语音回声分类模型。

在S201中，获取具有回声标签的语音信号序列，包括：获取连续的原始语音信号序列，原始语音信号序列包括多个原始语音信号，原始语音信号中携带原始语音信号生成的时间点；基于原始语音信号序列，确定原始语音信号序列中回声起始时间点和回声结束时间点；对原始语音信号序列中回声起始时间点和回声结束时间点对应的原始语音信号打标签，得到具有回声标签的语音信号序列。

由此，本发明实施例通过对原始语音信号序列中的回声起始时间点和回声结束时间点进行打标签，得到具有回声标签的语音信号序列；之后利用多个具有回声标签的语音信号序列和多个正常语音信号序列进行模型训练，从而得到语音回声分类模型，进而能够对待测语音信号序列的回声起始时间点和回声结束时间点进行准确预测。

如图3所示，本发明再一实施例中语音回声分类模型的示意性流程图；本实施例是在图2实施例的基础上进一步优化得到的。一种语音回声分类模型的训练方法，包括如下步骤：S301，获取正常语音信号序列和具有回声标签的语音信号序列，将正常语音信号序列作为正例训练样本，将具有回声标签的语音信号序列作为负例训练样本；其中，具有回声标签的语音信号序列标记有回声起始时间点标签和回声结束时间点标签；S302，针对多个正例训练样本以及多个负例训练样本中的任一训练样本：按照特定时间窗口依次将训练样本中多个语音信号划分成不同的窗口序列，生成多个窗口序列；S303，针对任一当前窗口序列：根据当前窗口序列获取前N个窗口序列的隐藏层信息；对当前窗口序列进行编码，生成当前窗口的语音嵌入向量；利用语音嵌入向量和隐藏层信息进行模型训练；S304，基于多个正例训练样本以及多个负例训练样本的模型训练结果，生成语音回声分类模型。

其中，步骤S301具体实现过程与S201具体实现过程相类似，这里不再做重复赘述。

在S302至S304中，正常语音信号序列和具有回声标签的语音信号序列均具有对应的序列时长，特定时间窗口小于序列时长。在进行模型训练时，采用长短期记忆神经网络（LSTM）或基于注意力机制的Transformer及其变种等进行建模，同时利用回溯法回溯前N个窗口序列隐藏层信息加入到当前时间窗口训练中，捕捉回声起始时间点和回声结束时间点。为此，利用长短期记忆人工神经网络并结合回溯法，能够在预测时充分发挥注意力机制的优势。

注意力机制就是在预测当前窗口序列时，看到之前窗口序列的隐藏层信息，这就能进一步确认是否是起始点。例如原句“知识就是力量”，回声“就是力量”，前一个“就”就会给后一个“就”提供可靠支撑。

在S303中，利用算法将当前窗口序列转换成文本信息，利用Embedding对文本信息进行编码，生成当前窗口的语音嵌入向量。前N个窗口序列是指位于当前窗口序列之前的所有窗口序列。前N个窗口序列中的任一窗口序列具有对应的隐藏层信息。

需要说明的是，这里的算法均是自然语言处理中常规的算法。隐藏层信息是指对窗口序列进行编码后通过深度学习获得的信息。

由此通过对训练样本中的多个语音信号划分时间窗口，能够减少系统编码的计算量，从而能够利用语音回声分类模型对语音信号序列中的语音回声实现实时预测；通过划分时间窗口的方式将回溯法和LSTM或Transformer等语言模型相结合，能够充分发挥语音模型的优势以更好的捕捉语音信号序列中的回声起始时间点和回声结束时间点，从而提高语音回声分类模型预测的准确性。

如图4所示，本发明又一实施例中语音回声分类模型的示意性流程图；本实施例是在图3实施例的基础上进一步优化得到的。一种语音回声分类模型的训练方法，包括如下步骤：S401，获取正常语音信号序列和具有回声标签的语音信号序列，将正常语音信号序列作为正例训练样本，将具有回声标签的语音信号序列作为负例训练样本；其中，具有回声标签的语音信号序列标记有回声起始时间点标签和回声结束时间点标签；S402，针对多个正例训练样本以及多个负例训练样本中的任一训练样本：按照特定时间窗口依次将训练样本中多个语音信号划分成不同的窗口序列，生成多个窗口序列；S403，针对任一当前窗口序列：根据当前窗口序列获取前N个窗口序列的隐藏层信息；获取语音音表，音表用于指示音频宽带与音素之间的映射关系；根据音表，确定当前窗口序列中所有语音信号对应的音素，并对所有音素进行编码，进而学习，生成当前窗口的语音嵌入向量；利用语音嵌入向量和所述隐藏层信息进行模型训练；S404，基于多个正例训练样本以及多个负例训练样本的模型训练结果，生成语音回声分类模型。

其中，步骤S401、S402和S404的具体实现过程，与S301、S302和S304的具体实现过程相类似，这里不再做重复赘述。

在S403中，音表通过如下方法获得：获取人类语音的音频宽带范围；对所述音频宽带范围内任一音频宽带构建音素，生成音频宽带范围对应的音表。

由此，通过音表的映射关系确定语音信号序列对应的所有音素，并对所有音素进行编码，从而能够快速编码，进而能够实现利用语音回声分类模型对语音信号序列进行快速预测，提高预测的速度。

在这里，音频宽带是语音信号的一种表现形式，本发明中语音信号均是指音频宽带。

本发明实施例从软件层面消除语音回声，通过将自然语言处理（NLP）技术迁移到语音领域，并利用NLP技术中时序特征捕捉的能力获取语音信号序列中的回声起始时间点和回声结束时间点，消除语音信号序列中的语音回声，并结合云视频会议平台实时阻隔回声，从而能够对语音信号序列中语音回声进行有效消除，进而能够实现实时预测。

应理解，在本发明的各实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在的逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

如图6所示，本发明一实施例中消除语音回声装置的示意性框图。一种消除语音回声的装置，该装置600包括：获取模块601，用于获取待测语音信号序列，所述待测语音信号序列包括多个连续的语音信号，所述语音信号中携带语音信号生成的时间点；预测模块602，用于利用语音回声分类模型对所述待测语音信号序列进行预测，得到回声起始时间点和回声结束时间点；移除模块603，用于基于所述回声起始时间点和所述回声结束时间点，从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束时间点的多个语音信号，生成无回声的语音信号序列。

在可选的实施例中，所述回声结束时间点包括多个回声结束的中间时间点以及一个回声结束的终止时间点，其中，任一所述回声结束的中间时间点小于所述回声结束的终止时间点；所述移除模块包括：从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束的终止时间点的多个语音信号。

在可选的实施例中，所述语音回声分类模型包括：样本模块，用于获取正常语音信号序列和具有回声标签的语音信号序列，将所述正常语音信号序列作为正例训练样本，将具有回声标签的语音信号序列作为负例训练样本；其中，所述具有回声标签的语音信号序列标记有回声起始时间点标签和回声结束时间点标签；训练模块，用于利用多个所述正例训练样本和多个所述负例训练样本进行模型训练，生成语音回声分类模型。

在可选的实施例中，训练模块包括：划分单元，用于针对多个所述正例训练样本以及多个所述负例训练样本中的任一训练样本：按照特定时间窗口依次将所述训练样本中多个语音信号划分成不同的窗口序列，生成多个窗口序列；模型训练单元，用于针对任一当前窗口序列：根据所述当前窗口序列获取前N个窗口序列的隐藏层信息；对所述当前窗口序列进行编码，生成当前窗口的语音嵌入向量；利用所述语音嵌入向量和所述隐藏层信息进行模型训练；生成单元，用于基于多个所述正例训练样本以及多个所述负例训练样本的模型训练结果，生成语音回声分类模型。

在可选的实施例中，模型训练单元包括：获取子单元，用于获取语音音表，所述音表用于指示音频宽带与音素之间的映射关系；确定子单元，用于根据所述音表，确定所述当前窗口序列中所有语音信号对应的音素，并对所有音素进行编码，进而学习，生成当前窗口的语音嵌入向量。

在可选的实施例中，所述音表通过如下方法获得：获取人类语音的音频宽带范围；对所述音频宽带范围内任一音频宽带构建音素，生成音频宽带范围对应的音表。

在可选的实施例中，获取模块包括：获取单元，用于获取连续的原始语音信号序列，所述原始语音信号序列包括多个原始语音信号，所述原始语音信号中携带原始语音信号生成的时间点；确定单元，用于基于所述原始语音信号序列，确定所述原始语音信号序列中回声起始时间点和回声结束时间点；标签单元，用于对所述原始语音信号序列中所述回声起始时间点和所述回声结束时间点对应的原始语音信号打标签，得到具有回声标签的语音信号。

上述测试装置可执行本发明一实施例所提供的消除语音回声的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的消除语音回声的方法。

根据本发明再一实施例，还提供了一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当该一个或多个程序被该一个或多个处理器执行，使得该一个或多个处理器实现本发明上述实施例提供的消除语音回声的方法。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备至少执行如下所示的操作步骤：S101，获取待测语音信号序列，所述待测语音信号序列包括多个连续的语音信号，所述语音信号中携带语音信号生成的时间点；S102，利用语音回声分类模型对所述待测语音信号序列进行预测，得到回声起始时间点和回声结束时间点；S103，基于所述回声起始时间点和所述回声结束时间点，从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束时间点的多个语音信号，生成无回声的语音信号序列。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种消除语音回声的方法，其特征在于，包括：

获取待测语音信号序列，所述待测语音信号序列包括多个连续的语音信号，所述语音信号中携带语音信号生成的时间点；

利用语音回声分类模型对所述待测语音信号序列进行预测，得到回声起始时间点和回声结束时间点；所述语音回声分类模型通过如下方法获得：获取正常语音信号序列和具有回声标签的语音信号序列，将所述正常语音信号序列作为正例训练样本，将具有回声标签的语音信号序列作为负例训练样本；其中，所述具有回声标签的语音信号序列标记有回声起始时间点标签和回声结束时间点标签；利用多个所述正例训练样本和多个所述负例训练样本进行模型训练，生成语音回声分类模型；

基于所述回声起始时间点和所述回声结束时间点，从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束时间点的多个语音信号，生成无回声的语音信号序列。

2.根据权利要求1所述的方法，其特征在于，所述回声结束时间点包括多个回声结束的中间时间点以及一个回声结束的终止时间点，其中，任一所述回声结束的中间时间点小于所述回声结束的终止时间点；从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束时间点的多个语音信号，包括：

从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束的终止时间点的多个语音信号。

3.根据权利要求1所述的方法，其特征在于，利用多个所述正例训练样本和多个所述负例训练样本进行模型训练，生成语音回声分类模型，包括：

针对多个所述正例训练样本以及多个所述负例训练样本中的任一训练样本：按照特定时间窗口依次将所述训练样本中多个语音信号划分成不同的窗口序列，生成多个窗口序列；

针对任一当前窗口序列：根据所述当前窗口序列获取前N个窗口序列的隐藏层信息；对所述当前窗口序列进行编码，生成当前窗口的语音嵌入向量；利用所述语音嵌入向量和所述隐藏层信息进行模型训练；

基于多个所述正例训练样本以及多个所述负例训练样本的模型训练结果，生成语音回声分类模型。

4.根据权利要求3所述的方法，其特征在于，对所述当前窗口序列进行编码，生成当前窗口的语音嵌入向量，包括：

获取语音音表，所述语音音表用于指示音频宽带与音素之间的映射关系；

根据所述语音音表，确定所述当前窗口序列中所有语音信号对应的音素，并对所有音素进行编码，进而学习，生成当前窗口的语音嵌入向量。

5.根据权利要求4所述的方法，其特征在于，所述语音音表通过如下方法获得：

获取人类语音的音频宽带范围；

对所述音频宽带范围内任一音频宽带构建音素，生成音频宽带范围对应的语音音表。

6.根据权利要求1所述的方法，其特征在于，所述获取具有回声标签的语音信号序列，包括：

获取连续的原始语音信号序列，所述原始语音信号序列包括多个原始语音信号，所述原始语音信号中携带原始语音信号生成的时间点；

基于所述原始语音信号序列，确定所述原始语音信号序列中回声起始时间点和回声结束时间点；

对所述原始语音信号序列中所述回声起始时间点和所述回声结束时间点对应的原始语音信号打标签，得到具有回声标签的语音信号序列。

7.一种消除语音回声的装置，其特征在于，包括：

获取模块，用于获取待测语音信号序列，所述待测语音信号序列包括多个连续的语音信号，所述语音信号中携带语音信号生成的时间点；

预测模块，用于利用语音回声分类模型对所述待测语音信号序列进行预测，得到回声起始时间点和回声结束时间点；所述语音回声分类模型通过如下方法获得：获取正常语音信号序列和具有回声标签的语音信号序列，将所述正常语音信号序列作为正例训练样本，将具有回声标签的语音信号序列作为负例训练样本；其中，所述具有回声标签的语音信号序列标记有回声起始时间点标签和回声结束时间点标签；利用多个所述正例训练样本和多个所述负例训练样本进行模型训练，生成语音回声分类模型；

移除模块，用于基于所述回声起始时间点和所述回声结束时间点，从所述待测语音信号序列中移除从所述回声起始时间点到所述回声结束时间点的多个语音信号，生成无回声的语音信号序列。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现根据权利要求1-6中任一所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法。