CN112289338B - 信号处理方法及装置、计算机设备以及可读存储介质 - Google Patents

信号处理方法及装置、计算机设备以及可读存储介质 Download PDF

Info

Publication number
CN112289338B
CN112289338B CN202011105225.5A CN202011105225A CN112289338B CN 112289338 B CN112289338 B CN 112289338B CN 202011105225 A CN202011105225 A CN 202011105225A CN 112289338 B CN112289338 B CN 112289338B
Authority
CN
China
Prior art keywords
global
signal
processing
data
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011105225.5A
Other languages
English (en)
Other versions
CN112289338A (zh
Inventor
王珺
林永业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011105225.5A priority Critical patent/CN112289338B/zh
Publication of CN112289338A publication Critical patent/CN112289338A/zh
Application granted granted Critical
Publication of CN112289338B publication Critical patent/CN112289338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请实施例公开了一种信号处理方法及装置、计算机设备以及可读存储介质,该方法使用人工智能技术处理初始信号得到与短期依赖参数和多头全局依赖参数相关的信号分离特征,然后直接使用该信号分离特征对应的分离参数对初始信号进行分离得到源信号,整个过程不需要基于声音样本处理初始信号,解决了当前语音分离技术需要采集声音样本的技术问题,降低了分离成本;本申请基于人工智能处理初始信号时,在对输入信号的局部结构进行建模以获取短期依赖参数的同时,又利用多头自注意机制捕获全局依赖以获取多头全局依赖参数,进而基于短期依赖参数和多头全局依赖参数输出信号分离特征,提高了对超长序列信号建模的能力。

Description

信号处理方法及装置、计算机设备以及可读存储介质
技术领域
本申请涉及语音处理领域,具体涉及一种信号处理方法及装置、计算机设备以及可读存储介质。
背景技术
随着人工智能技术的发展,基于计算机语音技术的语音识别功能,例如单通道语音分离技术等在声音分离领域所占的比重越来越大。单通道语音分离是指从一个多来源(包括人、动物、车辆、自然等)声音的混合语音中分离出每一个纯净声音,是信号处理领域的一个重要分支。
在当前技术中,在进行语音分离之前需要采集某人、某动物的声音样本,然后基于声音样本从混合语音中分离出该声音样本对应的纯净声音;该方式需要预先采集声音样本,针对无法采用声音样本的场景,则无法进行声音分离。
申请内容
本申请实施例提供一种信号处理方法及装置、计算机设备以及可读存储介质,以至少解决当前语音分离技术需要采集声音样本的技术问题。
为解决上述技术问题,本申请实施例提供以下技术方案:
本申请实施例提供一种信号处理方法,其包括:
对初始信号进行分块及拼接处理,得到所述初始信号对应的待分析数据,所述初始信号由来自不同信号源的源信号混合形成;
使用全局关注局部建模网络块堆栈处理所述待分析数据,得到短期依赖参数和多头全局依赖参数,并根据所述短期依赖参数和多头全局依赖参数生成所述初始信号的信号分离特征;
对所述初始信号的信号分离特征进行特征转换,得到所述源信号对应的分离参数;
根据所述源信号对应的分离参数对所述初始信号进行分离,得到所述初始信号内的源信号。
本申请实施例提供一种信号处理装置,其包括:
编码模块,用于对初始信号进行分块及拼接处理,得到所述初始信号对应的待分析数据,所述初始信号由来自不同信号源的源信号混合形成;
处理模块,用于使用全局关注局部建模网络块堆栈处理所述待分析数据,得到短期依赖参数和多头全局依赖参数,并根据所述短期依赖参数和多头全局依赖参数生成所述初始信号的信号分离特征;
转换模块,用于对所述初始信号的信号分离特征进行特征转换,得到所述源信号对应的分离参数;
解码模块,用于根据所述源信号对应的分离参数对所述初始信号进行分离,得到所述初始信号内的源信号。
本申请实施例提供一种计算机设备,其包括处理器和存储器,存储器存储有多条指令,指令适于处理器进行加载,以执行上述方法中的步骤。
本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行上述方法中的步骤。
本申请实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法中的步骤。
本申请实施例提供了一种信号处理方法及装置、计算机设备以及可读存储介质,该方法首先对初始信号进行分块及拼接处理,得到待分析数据,然后使用全局关注局部建模网络块堆栈处理所述待分析数据,得到短期依赖参数和多头全局依赖参数,并根据所述短期依赖参数和多头全局依赖参数生成所述初始信号的信号分离特征,之后对所述初始信号的信号分离特征进行特征转换,得到所述源信号对应的分离参数,最后根据所述源信号对应的分离参数对所述初始信号进行分离,得到所述初始信号内的源信号;由于该方法是使用人工智能技术处理初始信号得到与短期依赖参数和多头全局依赖参数相关的信号分离特征,然后直接使用该信号分离特征对应的分离参数对初始信号进行分离得到源信号,整个过程不需要基于声音样本处理初始信号,解决了当前语音分离技术需要采集声音样本的技术问题,降低了分离成本;进一步的,本申请基于人工智能处理初始信号时,在对输入信号的局部结构进行建模以获取短期依赖参数的同时,又利用多头自注意机制捕获全局依赖以获取多头全局依赖参数,进而基于短期依赖参数和多头全局依赖参数输出信号分离特征,提高了对超长序列信号建模的能力,提高了典型的超长序列信号例如语音的分离性能,增强了用户的使用体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的信号处理系统的组网示意图。
图2是本申请实施例提供的信号处理方法的第一种流程示意图。
图3是本申请实施例提供的信号处理方法的第二种流程示意图。
图4是本申请实施例提供的信号处理方法的第三种流程示意图。
图5是本申请实施例提供的信号处理装置的结构示意图。
图6是本申请实施例提供的计算机设备的结构示意图。
图7a至图7d是本申请实施例涉及的模型示意图。
图8是本申请实施例涉及的混合声音示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,初始信号可以包括视频流、音频流等数据,这些数据由来自不同声源(即本申请中的信号源)的声音混合形成;对应的,信号处理可以包括将这些不同声源的声音从混合声音(即初始信号)中分离出来的过程,以得到各声源所发出的声音。本申请提供的信号处理方法可以应用到包括智能音箱、智能电视、在线语音识别系统、远程音视频会议系统、智能语音助手、同声传译、数字人等多个项目和产品应用中,可在复杂的具有高度可变性的真实声学环境中显著地改善人类听觉的可懂度以及机器自动语音识别系统的准确率,从而提升用户体验。也可以应用到包括对环境中的动物叫声进行分类,以检测动物的生存状态。
在本申请实施例中,某模型、某网络或者某模块表示相同的对象,模块是由模型或者网络对应的算法实现的。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。在本申请中,人工智能技术主要用于实现声音识别和分离。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一,本申请实施例则是为了实现计算机的听功能,可在复杂的具有高度可变性的真实声学环境中显著地改善人类听觉的可懂度以及机器自动语音识别系统的准确率,从而提升用户体验。
请参阅图1,图1为本申请实施例所提供的信号处理系统的场景示意图,该系统可以包括用户侧设备以及服务侧设备,用户侧设备与服务侧设备通过各种网关组成的互联网等方式连接,不再赘述,其中,用户侧设备包括多个终端11,服务侧设备包括多个服务器12;其中:
终端11包括但不局限于手机、平板等便携终端,以及电脑、查询机、广告机等固定终端,是用户可以使用并操作的服务端口,在本申请中,终端为平台用户提供段长等参数的设置、为常规用户提供初始信号的上传以及处理结果的展示等各种功能;为便于下文说明,将终端11定义为平台终端11a和用户终端11b,平台终端11a用于设置模型参数等,而用户终端11b则用于上传初始信号以及处理结果的展示等;
服务器12为用户提供各种业务服务,包括处理服务器12a、训练服务器12b等,其中,训练服务器12b用于模型训练等服务,处理服务器12a用于接收来自终端的处理请求,返回处理结果等。
在本申请中,处理服务器12a用于对初始信号进行分块及拼接处理,得到待分析数据,然后使用全局关注局部建模网络块堆栈处理所述待分析数据,得到短期依赖参数和多头全局依赖参数,并根据所述短期依赖参数和多头全局依赖参数生成所述初始信号的信号分离特征,之后对所述初始信号的信号分离特征进行特征转换,得到所述源信号对应的分离参数,最后根据所述源信号对应的分离参数对所述初始信号进行分离,得到所述初始信号内的源信号;由于该方法是使用人工智能技术处理初始信号得到与短期依赖参数和多头全局依赖参数相关的信号分离特征,然后直接使用该信号分离特征对应的分离参数对初始信号进行分离得到源信号,整个过程不需要基于声音样本处理初始信号,解决了当前语音分离技术需要采集声音样本的技术问题,降低了分离成本。
需要说明的是,图1所示的系统场景示意图仅仅是一个示例,本申请实施例描述的服务器以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
图2是本申请实施例提供的信号处理方法的第一种流程示意图,请参阅图2,该信号处理方法包括以下步骤:
201:训练服务器12b进行模型训练。
在一种实施例中,需要进行训练的模型可以包括分离网络。如图7a所示,分离网络包括编码网络71、处理网络72、转换网络73以及解码网络74;其中,编码网络71用于对初始信号进行编码处理,处理网络72用于对编码网络71输出的数据进行分块拼接处理,得到所述初始信号对应的待分析数据,使用训练后的全局关注局部建模网络块堆栈处理所述待分析数据,得到所述初始信号的信号分离特征,转换网络73用于对所述初始信号的信号分离特征进行特征转换,得到所述源信号对应的分离参数,解码网络74用于根据所述源信号对应的分离参数对所述初始信号进行分离,得到所述初始信号内的源信号。
分离网络作为一个整体,可以设置在处理服务器12a中,以便处理服务器12a处理混合信号,得到混合信号内的源信号。
在一种实施例中,训练服务器12b先进行分离网络的模型训练,以便处理服务器12a调用模型分离混合信号,本步骤包括:训练服务器12b根据后台人员的操作构建初始网络;生成训练数据、验证数据以及评估数据;基于训练数据、验证数据以及评估数据对所述初始网络进行训练,具体参见下文描述。
在一种实施例中,可以针对不同的信号源训练不同的网络,以便于针对不同信号源提供更好的分离网络。
在一种实施例中,可以仅针对处理网络72进行训练,其他网络采用当前已经成熟的网络以及对应的函数参数,以降低训练成本;具体的训练过程将在下文进行描述。
202:处理服务器12a获取待处理的初始信号。
在一种实施例中,用户在需要对某些初始信号,例如森林中的鸟鸣声、会议录音等多个信号源混合的混合声音进行分离时,使用终端将这些初始信号发送至处理服务器,处理服务器即可获取得到这些待处理的初始信号。
在本步骤之后,还包括:解析所述初始信号,得到各信号源的声音类型;从多个预设的训练后的分离网络中,选择所述声音类型对应的分离网络。在一种实施例中,本申请为动物声音、机械设备声音、人声等分别设置了不同的分离网络,这样在获取到初始信号之后,仅需要使用分类模型对初始信号进行简单的分类即可确定信号源的声音类型是动物声音还是人声等,之后调用对应的分离网络即可执行后续步骤。
203:处理服务器12a对初始信号进行分块及拼接处理,得到所述初始信号对应的待分析数据,所述初始信号由来自不同信号源的源信号混合形成。
在一种实施例中,本步骤包括:对所述初始信号进行信号转换,得到所述初始信号的特征向量;根据预设数据块长度以及预设组合重叠长度,将所述初始信号的特征向量分割为信号数据块;对所述信号数据块进行连接组合,得到所述待分析数据。
在一种实施例中,对所述信号数据块进行连接组合,得到所述待分析数据的步骤,包括:根据所述预设组合重叠长度,对信号数据块进行组合,得到组合信号数据块;对所述组合信号数据块进行打包处理,得到所述待分析数据。
例如,在下文实施例中,本申请以音频帧为基础单位初始信号进行处理,得到待分析数据,请参见下文实施例。
204:处理服务器12a使用全局关注局部建模网络块堆栈处理所述待分析数据,得到短期依赖参数和多头全局依赖参数,并根据所述短期依赖参数和多头全局依赖参数生成所述初始信号的信号分离特征。
在一种实施例中,全局关注局部建模网络块堆栈包括N个全局关注局部建模网络块,此时,本步骤包括:使用第1个全局关注局部建模网络块处理所述待分析数据,得到第2个全局关注局部建模网络块的输入数据;使用第n个全局关注局部建模网络块处理输入数据,得到第n+1个全局关注局部建模网络块的输入数据;使用第N个全局关注局部建模网络块处理输入数据,得到所述初始信号的信号分离特征;其中,N为正整数,n属于1至N中的任意一个。本实施例通过N个全局关注局部建模网络块对数据进行特征提取,保证了特征提取的准确性。
在一种实施例中,所述全局关注局部建模网络块包括局部建模网络和多个串联的全局注意网络;此时,所述使用第n个全局关注局部建模网络块处理输入数据,得到第n+1个全局关注局部建模网络块的输入数据的步骤,包括:使用所述局部建模网络处理所述输入数据,得到所述短期依赖参数;对所述短期依赖参数进行处理,得到全局注意网络的全局输入参数;使用所述多个串联的全局注意网络处理所述全局输入参数,得到所述多头全局依赖参数;根据所述短期依赖参数和所述多头全局依赖参数,得到所述第n+1个全局关注局部建模网络块的输入数据。
在一种实施例中,局部建模网络可以包括递归网络或者上下文模型网络等,此时,所述使用所述局部建模网络处理输入数据,得到所述短期依赖参数的步骤,包括:使用双向递归层或者上下文特征提取层处理所述输入数据,得到第一中间数据;使用线性层处理所述第一中间数据,得到第二中间数据;使用组归一化层处理所述第二中间数据,得到所述短期依赖参数。
在一种实施例中,所述对所述短期依赖参数进行处理,得到全局注意网络的全局输入参数的步骤,包括:对所述短期依赖参数进行层归一化处理,得到第三中间数据;拼接所述第三中间数据与所述输入数据,得到第四中间数据;对所述第四中间数据进行层归一化处理,得到第五中间数据;拼接所述第五中间数据和位置编码数据,得到所述全局输入参数。
在一种实施例中,所述全局关注局部建模网络块包括L个串联的全局注意网络;此时,所述使用所述多个串联的全局注意网络处理所述全局输入参数,得到所述多头全局依赖参数的步骤,包括:使用第1个全局注意网络处理所述全局输入参数,得到第2个全局注意网络的输入数据;使用第l个全局注意网络处理输入数据,得到第l+1个全局注意网络的输入数据;使用第L个全局注意网络处理输入数据,得到全局输出参数;使用组归一化层处理所述全局输出参数,得到所述多头全局依赖参数;其中,L为正整数,l属于1至L中的任意一个。
在一种实施例中,所述使用第l个全局注意网络处理输入数据,得到第l+1个全局注意网络的输入数据的步骤,包括:将输入数据映射至多个询问和键值对矩阵,得到多个第六中间数据;分别对多个第六中间数据进行指数归一化处理,得到多个第七中间数据;对多个第七中间数据进行注意力处理,得到第八中间数据;对所述第八中间数据进行舍弃处理,得到第九中间数据;拼接所述第九中间数据和所述输入数据,得到第十中间数据;对所述第十中间数据进行层归一化处理,得到所述第l+1个全局注意网络的输入数据。
在一种实施例中,为了降低计算复杂度,可以进行降维处理,此时,在将输入数据映射至多个询问和键值对矩阵的步骤之前,还包括:对所述输入数据进行正向降维映射处理;对应的,在得到所述第l+1个全局注意网络的输入数据之后,还包括:对所述第l+1个全局注意网络的输入数据进行反向降维映射处理。
在一种实施例中,所述根据所述短期依赖参数和所述多头全局依赖参数,得到所述第n+1个全局关注局部建模网络块的输入数据的步骤,包括:拼接所述短期依赖参数和所述多头全局依赖参数,得到所述第n+1个全局关注局部建模网络块的输入数据。
205:处理服务器12a对所述初始信号的信号分离特征进行特征转换,得到所述源信号对应的分离参数。
本步骤主要是进行特征转换,以生成分离信号时所需要的分离模板。
206:处理服务器12a根据所述源信号对应的分离参数对所述初始信号进行分离,得到所述初始信号内的源信号。
本步骤是基于分离模板对初始信号进行分离,可以基于解码器实现,将在下文进行描述。
本实施例提供了一种信号处理方法,该方法基于语音技术等人工智能技术,并引入了局部建模和多头全局注意力机制模型,分别从全局尺度和局部尺度处理初始信号得到对应的分离模板,提高了对超长序列信号建模的能力,提高了典型的超长序列信号例如语音的分离性能,增强了用户的使用体验。
在实际应用场景中,初始信号可以是单独的音频信号,也可以是携带音频内容的视频信号,若初始信号为音频信号,则可以直接执行本申请,若初始信号为视频信号,则将视频信号进行分离处理得到音频信号之后执行本申请;固本申请可以运用到所有的需要对语音进行分离的场景。为便于下文说明,直接以初始信号为音频信号为例进行说明。
本申请涉及的分离网络需要进行训练、验证以及分离效果的对比,为了交底成本的实现这些功能,本申请利用现有的双扬声器混合音频数据集WSJ0-2mix(该数据集的构建可以参考J.R.Hershey,Z.Chen,J.Le Roux,and S.Watanabe,“Deep clustering:Discriminative embeddings for segmentation and separation,”inProc.ICASSP.IEEE,2016,pp.31–35的描述,本申请不再赘述),该数据集是从LDC WSJ0数据集(该数据集可以参考J.Garofalo,D.David Graff,D.Paul,and D.Pallett,“Continuousspeech recognition(csr-i)wall street journal(wsj0)news,complete.linguisticdata consortium,philadelphia(1993).”)生成的,用作单通道多扬声器语音分离的基准。WSJ0-2mix包括30小时的训练集(用于对分离网络进行训练)、10小时的验证集(用于验证分离网络的分离效果)和5小时的评估数据(用于进行不同分离网络之间分离效果的对比),通过随机组合来自不同扬声器的语音,以8khz的采样频率模拟混合音频(即初始信号),随机信噪比(SNR or S/N)在0db到5db之间。
针对图7a所示的分离网络,本申请提供了一种具体的如图7b所示的分离网络,在该分离网络中:编码器Encoder(即编码网络71)-解码器Decoder(即解码网络74)可以采用当前成熟的神经网络,例如采用Y.Luo and N.Mesgarani在“Tasnet:time-domain audioseparation network for real-time,single-channel speech separation,”inProc.ICASSP.IEEE,2018,pp.696–700.或者在“Conv-tasnet:Surpassing ideal time–frequency magnitude masking for speech separation,”IEEE/ACM transactions onaudio,speech,and language processing,vol.27,no.8,pp.1256–1266,2019中提供的网络模型;处理网络72中的分割网络Segmentation可以采用当前成熟的神经网络,例如采用Y.Luo,Z.Chen,and T.Yoshioka在“Dual-path rnn:efficient long sequence modelingfor time-domain single-channel speech separation,”arXiv preprint arXiv:1910.06379,2019中提供的网络模型。
为了使得本申请得以实施,本申请可以在8台NVIDIA Tesla M40 GPU设备上进行模型训练以及验证等的。本申请沿用Dual-path rnn:efficient long sequence modelingfor time-domain single-channel speech separation中提供的训练协议,采用4秒段(单个音频段长度为4秒)用于训练以最小化编码器-解码器的SI-SNR(尺度不变信噪比)损失。为了进行优化,本申请可以使用初始学习率为1e-3、权重衰减率为1e-6的Adam(参见D.P.Kingma and J.Ba,“Adam:A method for stochastic optimization,”arXivpreprint arXiv:1412.6980,2014.)优化器。每两个周期的学习率以0.96的速度呈指数衰减,如果在连续10个时期内没有观察到更低的验证损失,则认为训练是收敛的。本申请采用裁剪方法保证梯度的最大l2范数小于5,同时一个在线的mixup(参见H.Zhang,M.Cisse,Y.N.Dauphin,and D.Lopez-Paz,“mixup:Beyond empirical risk minimization,”6thInternational Conference on Learning Representations(ICLR),2018)技术被用作一个数据增强技术来增强本申请实现的模型,但是与现有mixup(参见H.Zhang,M.Cisse,Y.N.Dauphin,and D.Lopez-Paz,“mixup:Beyond empirical risk minimization,”6thInternational Conference on Learning Representations(ICLR),2018)中的实现不同,本申请在训练期间随机混合声音源而不是数据样本(参见M.W.Lam,J.Wang,D.Su,andD.Yu,“Mixup-breakdown:a consistency training method for improvinggeneralization of speech separation models,”Proc.ICASSP,2020),以探索更大的数据空间,所有模型均根据尺度不变信噪比改善(SI-SNRi)(参见J.Le Roux,S.Wisdom,H.Erdogan,and J.R.Hershey,“Sdr–half-baked or well done?”in ICASSP 2019-2019IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2019,pp.626–630)进行评估。
现结合图7b至图7d对本申请的分离网络进行具体的说明。本申请提供的分离网络执行以下步骤:
数据编码:
如图7b所示,该分离网络包括编码器Encoder(即图7a中的编码网络71)、分割网络Segmentation、全局关注局部建模网络块堆栈GALR Blocks(其与分割网络Segmentation实现图7a中的处理网络72的功能)、掩模估计网络Mask Estimation(即图7a中的转换网络73)以及解码器Decoder(即图7a中的解码网络74)等。
现基于图7b,对本申请的分离流程进行描述。
如图7b所示,编码器Encoder的输入数据Wavrform(一种音频格式,即上文中的初始信号)是一种混合信号,该混合信号可以为I个半重叠帧,表示为其中,M代表窗长。类似于短时傅立叶变换(STFT),本申请通过编码器Encoder利用一维门控卷积层将每个帧xi转换为D维特征向量/>
在等式(1)中,*代表1D卷积操作,包含D个向量(编码器的基函数),每个向量长度为M,ReLU(·)表示现有编码器网络中用来保证非负性的校正线性单位函数。
其中,每个帧xi对应的D维特征向量做为图7b中的编码器的输出数据Frames。
数据分割:
编码器的输出数据Frames作为分割网络的信号输入分割网络将/>分成长度为K的S个长度半重叠段,相邻段之间有一半重叠,第一段和最后段用零填充,以创建个等长的段,其中,/>其中s=1,...,S;之后,这些段被拼接打包成3D张量(即图7b中的Segments,作为上文中的待分析数据),表示为/>K是一个影响段数的超参数,可以用来控制局部的细粒度,可以采用现有分割网络Segmentation的参数值,针对该超参数,下文也将给出建议取值。
至此,通过编码器和分割网络完成对初始信号的编码(将Wavrform格式的初始数据编码为帧数据Frames)、分块(将帧数据Frames分为长度为K的S个长度半重叠段)以及拼接(将长度为K的S个长度半重叠段拼接打包成3D张量Segments)处理得到待分析数据输入至GALR Blocks,在其他实施例中,可以不存在初始信号的编码这一步骤。
数据处理:
该步骤是本申请的核心内容,每个GALR块都包含两个建模视角,第一个建模视角负责以递归的方式对输入信号的局部结构进行建模,第二个建模视角旨在利用多头自注意机制捕获全局依赖。现结合图7c和图7d进行详细说明。
如图7c所示,全局关注局部建模网络块堆栈GALR Blocks包括N个GALR块,该堆栈通过交替的局部和全局序列建模来分离混合信号,以提高分离效果。每个GALR块输出一个三维张量,其维数与其输入数据的维数相同。
如图7c所示,GALR Blocks包括N个GALR块,第n个GALR块(n=1,...,N)的输入标记为其中:第1个GALR块的输入数据为Q(1)=Q(即分割网络输出的3D张量Q),第1个GALR块的输出为第2个GALR块的输入数据,依次类推,第N个GALR块的输出数据即为图7b中的源张量Source Tensor(即上文中的所述初始信号的信号分离特征),作为掩模估计网络Mask Estimation的输入数据。
GALR块由两个计算阶段组成,分别对应于段内处理和段间处理,分别称为局部模型处理和全局注意模型处理。
具体的,如图7d所示,本申请提供的GALR块包括一个局部递归网络和L个串联的全局注意网络Attention Layers,每个Attention Layers包括多头自注意层Multi-HeadSelf Attention、舍弃层Dropout(可以参考Dropout:A Simple Way to Prevent NeuralNetworks from Overfitting等)、拼接层、以及层归一化层LayerNorm。在其他实施例中,局部模型可以替换为其它类型的上下文建模模型,例如,卷积模型等,以捕获小时间尺度上序列信号的依赖关系。
局部模型处理:
本实施例采用局部递归网络对分割后输入序列的局部信息进行建模。为了在每个段内建立这种短期依赖关系的模型,采用了个隐藏节点的双向LSTM(Long Short-TermMemory,长短期记忆网络,是一种时间递归神经网络):
其中是第s个分块对应的局部序列,/>表示Bi-LSTM层的输出,/>构成一个线性层Linear,GroupNorm层(组归一化,Group Normalization,用于对维度进行分组处理),/>依次经过Bi-LSTM层、线性层Linear以及组归一化层GroupNorm处理之后得到/>作为局部递归网络的输出,即上文中的短期依赖参数。具体的,Q(n)(即上文中的待分析数据)经过Bi-LSTM层(即上文中的双向递归层)进行特征提取等处理得到第一中间数据之后经过线性层Linear对第一中间数据/>进行线性处理得到第二中间数据/>最后使用组归一化层GroupNorm对第二中间数据/>进行分组聚合等处理得到短期依赖参数L(n)
然后,该局部递归模型的输出(即短期依赖参数)经过层归一化(LayerNorm)操作等处理,该操作与GALR块的输入有一个残差连接:
全局注意模型处理:
由于先前引入的局部递归模型负责捕获局部性,剩下的就是对全局信息进行建模。因此,本申请在局部递归模型的基础上建立一个全局关注的模型来捕获长期依赖关系。在本申请中,多头注意机制由于三个原因特别成为完美的契合点,本申请可以通过改变分割窗口的长度来控制序列的长度,因此注意模型的固有记忆问题变得不那么困难,其次,在RNNs中,不需要一个接一个地存储数据段,而是直接对数据段之间的全局依赖关系进行建模,最后,考虑到输入是由不同来源组成的,在整个序列上使用多个注意方案(也称为头部)是明智的。基于此,本申请提供的全局注意力模型能够学习将注意力放在不同的说话者身上,这类似于人类在概念上如何在其他说话者在场的情况下集中于一个说话者的讲话,如图8所示。图8给出了目标段上的混合信号的多头自关注的示例,混合信号上方的两个曲线显示了每个段内平均的两个选定头的softmax值。
在本申请中,在应用注意机制之前,局部递归模型的输出首先经过
其中,LND(·)表示层归一化只对D个特征进行,P代表位置编码矩阵,由图7d中的位置编码器Positional Encoding根据每个分段的空间位置生成,用于表示每个分段s的绝对位置和相对位置,可以参考A.Vaswani,N.Shazeer,N.Parmar,J.Uszkoreit,L.Jones,A.N.Gomez,Kaiser,and I.Polosukhin等发表的“Attention is all you need,”inAdvances in neural information processing systems,2017,pp.5998–6008。
G(n)即上文中的全局输入参数,其获取方式具体为:对所述短期依赖参数L(n)进行层归一化处理,得到第三中间数据LN(L(n));拼接所述第三中间数据LN(L(n))与所述输入数据Q(n).,得到第四中间数据对所述第四中间数据/>进行层归一化处理,得到第五中间数据/>拼接所述第五中间数据/>和位置编码数据P,得到所述全局输入参数/>
本申请使用(n,l)表示在第l个注意层计算的中间变量,其中l=1,...,L,其中,G(n,1)=G(n)
为了全局建模,本申请考虑所有片段的帧序列,即为了创建J(例如8等)个自关注头,将/>线性映射到I个不同的query,key,value矩阵(即上文中的询问和键值对矩阵):/> 其中k=1,...,K;j=1,...,J。
由于在片段大小内形成的序列之间具有高度相关性,本申请对所有K个序列进行相同的线性映射,也就是然后计算得到注意(attention)机制:
其中,Softmax(·)矩阵可以用来理解序列元素之间的自我注意(self-attention)机制。
之后,使用连接形式的仿射变换组合在J个头部计算的注意矩阵:
其中,是头权重矩阵。
计算出的注意力输出被连接回一个3D张量,即考虑到注意力输出,参考“Attention is all you need”中提供的Transformer model,采用子层连接,此时有:
G(n,l+1)=LN(G(n,l)+Dropout(A(n,l))) (7)
其中Dropout(·)表示dropout正则化(可以参考N.Srivastava,G.Hinton,A.Krizhevsky,I.Sutskever,and R.Salakhutdinov,等提供的“Dropout:a simple way toprevent neural networks from overfitting,”The journal of machine learningresearch,vol.15,no.1,pp.1929–1958,2014.)操作。
在本实施例中,使用第l个全局注意网络处理输入数据,得到第l+1个全局注意网络的输入数据的步骤,包括:将输入数据映射至多个询问和键值对矩阵得到多个第六中间数据/>分别对多个第六中间数据进行指数归一化处理,得到多个第七中间数据/>对多个第七中间数据/>进行注意力处理,得到第八中间数据/>对基于所述第八中间数据/>连接得到A(n,l)进行舍弃处理Dropout(·),得到第九中间数据Dropout(A(n,l));拼接所述第九中间数据Dropout(A(n,l))和所述输入数据G(n,l),得到第十中间数据G(n,l)+Dropout(A(n,l));对所述第十中间数据G(n,l)+Dropout(A(n,l))进行层归一化处理,得到所述第l+1个全局注意网络的输入数据G(n,l+1)
经过L个注意层,得到局注意模型的输出
最后,第n个GALR块输出局部模型输出和全局模型输出之间的残差和:
它定义了N个GALR块之间的递归关系,作为上文中的GLAR块的输出数据。
低维分段表示处理:
本申请提供的GALR架构所消耗的运行时成本随着段大小K成比例地增加,而减小窗口长度对于提高分离性能至关重要。基于此,本申请全局注意模型设计了一个降低维度的处理,以减少内存和浮点操作。
在等式(5)和等式(6)中,注意机制被重复K次,由于跨片段序列之间的高度相关性,可以用较少的序列数来近似全局依赖性。本申请使用沿D和S轴的2D卷积来将K维序列转换为的Q维序列,其中Q<K。在数学上,本申请只需要分别将式(4)和式(8)重写为:
其中,(Q<K),分别表示正向和反向低维映射的参数,式(9)对应上文中的在将输入数据映射至多个询问和键值对矩阵的步骤之前,对所述输入数据进行正向降维映射处理的机制,式(10)对应上文中的在得到所述第l+1个全局注意网络的输入数据之后,对所述第l+1个全局注意网络的输入数据进行反向降维映射处理的机制。
在N个连续的GALR块之后,本申请得到了有利于源分离的C个混合信号的表示,之后使用二维卷积层将该三维表示转换为C个三维张量,即图7b中的C个源张量SourceTensor,C的取值不大于J的取值。
信号重建处理:
本申请首先使用“Dual-path rnn:efficient long sequence modeling fortime-domain single-channel speech separation”中描述的重叠添加方法,分别将C个3D张量转换回一个矩阵其中c=1,...,C。
之后,采用一个波束形成过程(可以参考Y.Luo,E.Ceolini,C.Han,S.-C.Liu,andN.Mesgarani,“Fasnet:Low-latency adaptive beamforming for multi-microphoneaudio processing,”arXiv preprint arXiv:1909.13387,2019.),将两个1D选通卷积层应用于每个矩阵
其中,⊙表示元素相乘,σ(·)表示Sigmoid函数,和/>是一维门控卷积中的两个参数矩阵。Tanh和Sigmoid函数在这里充当波束形成滤波器。
由于要为每个源生成掩码矩阵,最后一步是使用弹性线性掩码函数:
其中,是学习掩码的一维卷积,Mc表示每个源对应的掩码(即上文中的源信号对应的分离参数)。
最后,通过解码器将第c个估计掩模被应用回最初编码的混合以重建源c(即上文中的初始信号内的源信号):
其中,是一个包含基信号的矩阵,每个列对应一个1D滤波器,/>表示在混合信号中每个源c对应的信号,即图7b中的Separated Signals(即上文中的初始信号内的源信号)。/>
至此,本申请完成混合信号的分离。
现针对本申请提供的分离网络与现有分离网络进行对比分析。
当前双路径递归神经网络(DPRNNs)(可以参考Y.Luo,Z.Chen,and T.Yoshioka,“Dual-path rnn:efficient long sequence modeling for time-domain single-channel speech separation,”arXiv preprint arXiv:1910.06379,2019)处理数据的步骤包括:分段阶段将顺序输入分割成块,并连接它们形成一个三维张量。块与块之间可以有也可以没有重叠,在DPRNN的具体实现中,块重叠率设置为50%,每个DPRNN块组成在不同维度上由循环连接的两个神经网络的集合。首先在块内将双向神经网络应用于单个块并行处理本地信息。然后,块间RNN被跨块应用,以捕获全局依赖关系。多个块可以叠加以增加网络的总深度。(C)通过对块的输出执行重叠叠加(overlap-add),将最后一个DPRNN块的3-D输出转换回序列。
根据观察分析(可以参考U.Khandelwal,H.He,P.Qi,and D.Jurafsky,“Sharpnearby,fuzzy far away:How neural language models use context,”arXiv preprintarXiv:1805.04623,2018),RNN,甚至是LSTM(可以参考F.A.Gers,J.Schmidhuber,andF.Cummins,“Learning to forget:Continual prediction with lstm,”1999)或GRU(可以参考J.Chung,C.Gulcehre,K.Cho,and Y.Bengio,“Empirical evaluation of gatedrecurrent neural networks on sequence modeling,”arXiv preprint arXiv:1412.3555,2014),由于顺序的处理上下文,对附近的元素比远处的元素更敏感。此外,最近的一项研究(可以参考M.Ravanelli,P.Brakel,M.Omologo,and Y.Bengio,“Light gatedrecurrent units for speech recognition,”IEEE Transactions on Emerging Topicsin Computational Intelligence,vol.2,no.2,pp.92–102,2018)发现,移除GRU中的重置门可以获得更好的识别性能,这反过来指示RNN可能只擅长利用附近的元素。因此,RNN是否是对全局序列进行建模的合适候选者值得怀疑。
本申请采用了一种超长序列信号分割机制,将信号序列分为全局尺度和局部尺度,分别对应于段间和段内处理。然而,如上所述,由于RNN或者是LSTM或GRU均是按序地处理上下文,对附近的元素比远处的元素更敏感。与用于段间和段内处理的RNNs不同,本申请认为全局和局部序列建模应该采用不同的建模视角。
为了弥补RNNs的局限性,更好地利用参数,本申请利用了注意机制(可以参考A.Vaswani,N.Shazeer,N.Parmar,J.Uszkoreit,L.Jones,A.N.Gomez,Kaiser,andI.Polosukhin,“Attention is all you need,”in Advances in neural informationprocessing systems,2017,pp.5998–6008),最近它在序列建模中的卓越性能引起了人们的广泛关注。在一种实施例中,本申请为TasNet设计了一个紧凑而有效的模型,即全局注意局部递归(GALR)网络,它比以前的工作需要更少的参数,同时获得了更好的分离性能和显著的减少运行时内存。特别是,GALR在信号分割的基础上,递归处理分割信号,然后全局地应用多头自注意力,以结合了递归模型和注意模型的优点。
图7c以及图7d显示了GALR网络的内部机制,其主要处理组件是一堆GALR块。实际上,每个GALR块包含两个建模视角。第一个建模视角负责以递归的方式对输入信号的局部结构进行建模;第二个建模视角旨在利用多头自注意机制捕获全局依赖,具有功能参见上文描述。
现针对本申请的训练过程涉及的参数设置、与其他已有网络的性能比较结果进行说明。
表1
表1为本申请提供的GALR模型和当前DPRNN模型(即Dual-path rnn:efficientlong sequence modeling for time-domain single-channel speech separation)在不同参数配置下,对WSJ-mix数据集的测试结果对比。
如表1所示,本申请将隐藏节点的数目(H)固定为128,而滤波器的数目(D)、窗口长度(M)和段大小(K)与现有DPRNN模型有所不同。由表1可知本申请提供的GALR模型的测试结果,包括SI-SNRi(尺度不变信噪比改善)、Memory(记忆力)以及FLOPS(每秒-浮点运算次数)等,均优于当前DPRNN模型的测试结果。
Approach Local Bi-LSTM Local Attention
Global Bi-LSTM 15.9 12.3
Global Attention 16.5 14.6
表2
表2为WSJ0-2mix中LSTM和注意模型在不同建模方案下的性能。本申请进行了一个实验来研究本申请提出的GALR架构是否是局部和全局序列建模中递归和注意模型的最佳排列。
由于双向LSTM在语音分离中的广泛应用,本申请将其作为递归模型。以WSJ0-2mix为验证工具,从4种TasNet(Time-domain Audio Separation Network,单通道实时语音分离网络)系统中得到4个显著的SI-SNRi得分,如表2所示。从结果来看,有两个发现:在局部建模中,递归模型优于注意模型;在全局建模中,注意模型虽然规模较小,但优于递归模型。即本申请提供的GALR网络(表2的左下角)在四种架构中表现最好。
进一步的,关于TasNet的架构,本申请将GALR网络的结果与当前DPRNNs(即Dual-path rnn:efficient long sequence modeling for time-domain single-channelspeech separation)进行了比较。本申请采用与其相同的窗口长度和段大小配置复现了这个实验。
结果见表1,在PyTorch(可以参考A.Paszke,S.Gross,S.Chintala,G.Chanan,E.Yang,Z.DeVito,Z.Lin,A.Desmaison,L.Antiga,and A.Lerer,“Automaticdifferentiation in PyTorch,”in NIPS Autodiff Workshop,2017.)中,本申请使用8个GPU代替1个GPU进行模型训练,发现GALR和DPRNN的收敛性能恶化。由于缩短窗口长度的巨大计算成本,使用单个GPU进行模型训练是不切实际的,为了进行公平的部分比较,本申请报告了在相同的8-GPU训练条件下GALR的性能,尽管在使用较少GPU的情况下,SI-SNRi可以进一步提高。作为参考,在D=128,M=16,K=200,Q=32的情况下,当用2个gpu训练GALR时,本申请获得了17.2的Si-SNRi。
除SI-SNRi外,本申请还分析了处理1s混合输入的每个模型的运行时成本,用GPU测量的内存和用第三方模块近似的每秒浮点运算(FLOPS)表示模型效率。从结果可以看出,在相同的窗长和段长配置下,与DPRNN具有可比模型尺寸的较大GALR始终显示出优于DPRNN的SI-SNRi性能。更重要的是,较小的GALR获得了可比的或更好的分离性能,但只需要57.3%的参数,减少了36.1%的运行时内存和49.4%的计算操作。
本申请能应用到包括智能音箱、智能电视、在线语音识别系统、远程音视频会议系统、智能语音助手、同声传译、数字人等多个项目和产品应用中,可在复杂的具有高度可变性的真实声学环境中显著地改善人类听觉的可懂度以及机器自动语音识别系统的准确率,从而提升用户体验。
图3是本申请实施例提供的信号处理方法的第二种流程示意图,本实施例主要是针对分离网络在离线场景下的运用。请参阅图3,该信号处理方法包括以下步骤:
301:终端上传离线混合信号。
在一种实施例中,本步骤可以为:动物园的管理者使用终端将某段时间通过拾音器采集到的动物声音相关的音频数据上传到处理服务器。
302:处理服务器确定混合信号中信号源的源类型。
在一种实施例中,本步骤可以为:处理服务器基于内置的分类模型,确定信号源的源类型为动物。
303:处理服务器从训练服务器调用源类型对应的分离网络。
在一种实施例中,本步骤可以为:处理服务器基于源类型的标识(例如名称动物、编号02等)从训练服务器调用对应的分离网络。
304:处理服务器使用分离网络处理混合信号得到各信号源对应的信号。
在一种实施例中,本步骤可以为:处理服务器对混合信号进行分块拼接处理,得到所述初始信号对应的待分析数据,使用训练后的全局关注局部建模网络块堆栈处理所述待分析数据,得到所述初始信号的信号分离特征,对所述初始信号的信号分离特征进行特征转换,得到所述源信号对应的分离参数,根据所述源信号对应的分离参数对所述混合信号进行分离,得到和信号源对应的源信号。在本实施例中,得到的信号源的源信号记为每个动物的叫声。
具体过程可以参考上文基于图7a至图7d的描述。
305:处理服务器向终端发送分离结果。
在一种实施例中,本步骤可以为:处理服务器将混合信号中每个动物的叫声作为分离结果发送至终端,以供动物园的管理者确定在该时间段内,哪些动物发出了怎么样的声音,进而进行动物健康状态的分析。
图4是本申请实施例提供的信号处理方法的第三种流程示意图,本实施例主要是针对分离网络在实时场景下的运用,在该场景中,处理服务器与会议服务器进行组合,以实现实时声音分离及识别。请参阅图4,该信号处理方法包括以下步骤:
401:多个终端接入会议服务器。
在一种实施例中,本步骤可以为:在需要进行网络会议时,多个参与者使用不同的终端接入会议服务器,进行视频会话。
402:会议服务器采集实时视频并传输至处理服务器。
在一种实施例中,本步骤可以为:会议服务器实时的将会议内容对应的视频发送至处理服务器。
403:处理服务器确定混合信号中信号源的源类型。
在一种实施例中,本步骤可以为:处理服务器首先将视频中的音频数据分离出来,得到混合信号,然后基于内置的分类模型,确定信号源的源类型为人物。
404:处理服务器从训练服务器调用源类型对应的分离网络。
在一种实施例中,本步骤可以为:处理服务器基于源类型的标识(例如名称人物、编号01等)从训练服务器调用对应的分离网络。
405:处理服务器使用分离网络处理混合信号得到各信号源对应的信号。
在一种实施例中,本步骤可以为:处理服务器对混合信号进行分块拼接处理,得到所述混合信号对应的待分析数据,使用训练后的全局关注局部建模网络块堆栈处理所述待分析数据,得到所述初始信号的信号分离特征,对所述初始信号的信号分离特征进行特征转换,得到所述源信号对应的分离参数,根据所述源信号对应的分离参数对所述混合信号进行分离,得到和信号源对应的源信号。在本实施例中,得到的信号源的源信号记为每个会议参与者的说话。
具体过程可以参考上文基于图7a至图7d的描述。
406:处理服务器进行分离结果的标注。
在一种实施例中,本步骤可以为:处理服务器首先将每个人物的说话内容识别为文本,之后处理服务器采用九宫格等方式展示会议参与者的头像,并将每个参与者对应的文本格式的说明内容实时展示在头像下方,生成实时的处理结果。
407:处理服务器向会议服务器发送处理结果。
在一种实施例中,本步骤可以为:处理服务器将处理结果发送至会议服务器。
408:会议服务器向终端推送处理结果。
在一种实施例中,本步骤可以为:会议服务器向终端推送处理结果,以供终端在会议界面上以文本的方式展示每个参与者的发言内容,便于用户在多发言者的场景下可以准确的了解各发言者的发言内容。
相应的,图5是本申请实施例提供的信号处理装置的结构示意图,请参阅图5,该信号处理包括以下模块:
训练模块501,用于进行模型训练,以得到训练后的模型;
编码模块502,用于对初始信号进行分块及拼接处理,得到所述初始信号对应的待分析数据,所述初始信号由来自不同信号源的源信号混合形成;
处理模块503,用于使用全局关注局部建模网络块堆栈处理所述待分析数据,得到短期依赖参数和多头全局依赖参数,并根据所述短期依赖参数和多头全局依赖参数生成所述初始信号的信号分离特征;
转换模块504,用于对所述初始信号的信号分离特征进行特征转换,得到所述源信号对应的分离参数;
解码模块505,用于根据所述源信号对应的分离参数对所述初始信号进行分离,得到所述初始信号内的源信号。
在一种实施例中,处理模块503用于:使用第1个全局关注局部建模网络块处理所述待分析数据,得到第2个全局关注局部建模网络块的输入数据;使用第n个全局关注局部建模网络块处理输入数据,得到第n+1个全局关注局部建模网络块的输入数据;使用第N个全局关注局部建模网络块处理输入数据,得到所述初始信号的信号分离特征;其中,N为正整数,n属于N。
在一种实施例中,处理模块503用于:使用所述局部建模网络处理所述输入数据,得到所述短期依赖参数;对所述短期依赖参数进行处理,得到全局注意网络的全局输入参数;使用所述多个串联的全局注意网络处理所述全局输入参数,得到所述多头全局依赖参数;根据所述短期依赖参数和所述多头全局依赖参数,得到所述第n+1个全局关注局部建模网络块的输入数据。
在一种实施例中,处理模块503用于:使用双向递归层处理所述待分析数据,得到第一中间数据;使用线性层处理所述第一中间数据,得到第二中间数据;使用组归一化层处理所述第二中间数据,得到所述短期依赖参数。
在一种实施例中,处理模块503用于:对所述短期依赖参数进行层归一化处理,得到第三中间数据;拼接所述第三中间数据与所述输入数据,得到第四中间数据;对所述第四中间数据进行层归一化处理,得到第五中间数据;拼接所述第五中间数据和位置编码数据,得到所述全局输入参数。
在一种实施例中,处理模块503用于:使用第1个全局注意网络处理所述全局输入参数,得到第2个全局注意网络的输入数据;使用第l个全局注意网络处理输入数据,得到第l+1个全局注意网络的输入数据;使用第L个全局注意网络处理输入数据,得到全局输出参数;使用组归一化层处理所述全局输出参数,得到所述多头全局依赖参数;其中,L为正整数,l属于L。
在一种实施例中,处理模块503用于:将输入数据映射至多个询问和键值对矩阵,得到多个第六中间数据;分别对多个第六中间数据进行指数归一化处理,得到多个第七中间数据;对多个第七中间数据进行注意力处理,得到第八中间数据;对所述第八中间数据进行舍弃处理,得到第九中间数据;拼接所述第九中间数据和所述输入数据,得到第十中间数据;对所述第十中间数据进行层归一化处理,得到所述第l+1个全局注意网络的输入数据。
在一种实施例中,处理模块503用于:在将输入数据映射至多个询问和键值对矩阵的步骤之前,对所述输入数据进行正向降维映射处理;在得到所述第l+1个全局注意网络的输入数据之后,对所述第l+1个全局注意网络的输入数据进行反向降维映射处理。
在一种实施例中,处理模块503用于:拼接所述短期依赖参数和所述多头全局依赖参数,得到所述第n+1个全局关注局部建模网络块的输入数据。
在一种实施例中,编码模块502用于:对所述初始信号进行信号转换,得到所述初始信号的特征向量;
根据预设数据块长度以及预设组合重叠长度,将所述初始信号的特征向量分割为信号数据块;
对所述信号数据块进行连接组合,得到所述待分析数据。
在一种实施例中,编码模块502用于:根据所述预设组合重叠长度,对信号数据块进行组合,得到组合信号数据块;对所述组合信号数据块进行打包处理,得到所述待分析数据。
在一种实施例中,编码模块502用于:解析所述初始信号,得到各信号源的声音类型;从多个预设的训练后的分离网络中,选择所述声音类型对应的分离网络;所述分离网络包括编码网络、所述全局关注局部建模网络块堆栈、转换网络以及解码网络。
相应的,本申请实施例还提供一种计算机设备,该计算机设备包括服务器或者终端等。
如图6所示,该计算机设备可以包括射频(RF,Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi,Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解,图6中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路601可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器608处理;另外,将涉及上行的数据发送给基站。存储器602可用于存储软件程序以及模块,处理器608通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。输入单元603可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
显示单元604可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。
计算机设备还可包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。音频电路606包括扬声器,传声器可提供用户与计算机设备之间的音频接口。
WiFi属于短距离无线传输技术,计算机设备通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块607,但是可以理解的是,其并不属于计算机设备的必须构成,完全可以根据需要在不改变申请的本质的范围内而省略。
处理器608是计算机设备的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行计算机设备的各种功能和处理数据,从而对手机进行整体监测。
计算机设备还包括给各个部件供电的电源609(比如电池),优选的,电源可以通过电源管理系统与处理器608逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,计算机设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,计算机设备中的处理器608会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器608来运行存储在存储器602中的应用程序,从而实现以下功能:
对初始信号进行分块及拼接处理,得到所述初始信号对应的待分析数据,所述初始信号由来自不同信号源的源信号混合形成;
使用全局关注局部建模网络块堆栈处理所述待分析数据,得到短期依赖参数和多头全局依赖参数,并根据所述短期依赖参数和多头全局依赖参数生成所述初始信号的信号分离特征;
对所述初始信号的信号分离特征进行特征转换,得到所述源信号对应的分离参数;
根据所述源信号对应的分离参数对所述初始信号进行分离,得到所述初始信号内的源信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文的详细描述,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以实现以下功能:
对初始信号进行分块及拼接处理,得到所述初始信号对应的待分析数据,所述初始信号由来自不同信号源的源信号混合形成;
使用全局关注局部建模网络块堆栈处理所述待分析数据,得到短期依赖参数和多头全局依赖参数,并根据所述短期依赖参数和多头全局依赖参数生成所述初始信号的信号分离特征;
对所述初始信号的信号分离特征进行特征转换,得到所述源信号对应的分离参数;
根据所述源信号对应的分离参数对所述初始信号进行分离,得到所述初始信号内的源信号。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种方法中的步骤,因此,可以实现本申请实施例所提供的任一种方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
同时,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。例如,实现以下功能:
对初始信号进行分块及拼接处理,得到所述初始信号对应的待分析数据,所述初始信号由来自不同信号源的源信号混合形成;
使用全局关注局部建模网络块堆栈处理所述待分析数据,得到短期依赖参数和多头全局依赖参数,并根据所述短期依赖参数和多头全局依赖参数生成所述初始信号的信号分离特征;
对所述初始信号的信号分离特征进行特征转换,得到所述源信号对应的分离参数;
根据所述源信号对应的分离参数对所述初始信号进行分离,得到所述初始信号内的源信号。
以上对本申请实施例所提供的一种信号处理方法及装置、计算机设备以及可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (12)

1.一种信号处理方法,其特征在于,包括:
对初始信号进行分块及拼接处理,得到所述初始信号对应的待分析数据,所述初始信号由来自不同信号源的源信号混合形成;
使用全局关注局部建模网络块堆栈处理所述待分析数据,得到短期依赖参数和多头全局依赖参数,并根据所述短期依赖参数和多头全局依赖参数生成所述初始信号的信号分离特征;
对所述初始信号的信号分离特征进行特征转换,得到所述源信号对应的分离参数;
根据所述源信号对应的分离参数对所述初始信号进行分离,得到所述初始信号内的源信号;
其中,所述全局关注局部建模网络块堆栈包括N个全局关注局部建模网络块,所述全局关注局部建模网络块包括局部建模网络和多个串联的全局注意网络,则所述使用全局关注局部建模网络块堆栈处理所述待分析数据,得到短期依赖参数和多头全局依赖参数,并根据所述短期依赖参数和多头全局依赖参数生成所述初始信号的信号分离特征,具体包括:
使用第n个所述局部建模网络处理输入数据,得到所述短期依赖参数;对所述短期依赖参数进行处理,得到全局注意网络的全局输入参数;使用所述多个串联的全局注意网络处理所述全局输入参数,得到所述多头全局依赖参数;根据所述短期依赖参数和所述多头全局依赖参数,得到第n+1个全局关注局部建模网络块的输入数据;使用第N个全局关注局部建模网络块处理输入数据,得到所述初始信号的信号分离特征;所述n为1时,所述输入数据为所述待分析数据;
其中,所述对所述短期依赖参数进行处理,得到全局注意网络的全局输入参数的步骤,包括:对所述短期依赖参数进行层归一化处理,得到第三中间数据;拼接所述第三中间数据与所述输入数据,得到第四中间数据;对所述第四中间数据进行层归一化处理,得到第五中间数据;拼接所述第五中间数据和位置编码数据,得到所述全局输入参数。
2.根据权利要求1所述的信号处理方法,其特征在于,所述使用所述局部建模网络处理输入数据,得到所述短期依赖参数的步骤,包括:
使用双向递归层处理所述待分析数据,得到第一中间数据;
使用线性层处理所述第一中间数据,得到第二中间数据;
使用组归一化层处理所述第二中间数据,得到所述短期依赖参数。
3.根据权利要求1所述的信号处理方法,其特征在于,所述全局关注局部建模网络块包括L个串联的全局注意网络;所述使用所述多个串联的全局注意网络处理所述全局输入参数,得到所述多头全局依赖参数的步骤,包括:
使用第1个全局注意网络处理所述全局输入参数,得到第2个全局注意网络的输入数据;
使用第l个全局注意网络处理输入数据,得到第l+1个全局注意网络的输入数据;
使用第L个全局注意网络处理输入数据,得到全局输出参数;
使用组归一化层处理所述全局输出参数,得到所述多头全局依赖参数。
4.根据权利要求3所述的信号处理方法,其特征在于,所述使用第l个全局注意网络处理输入数据,得到第l+1个全局注意网络的输入数据的步骤,包括:
将输入数据映射至多个询问和键值对矩阵,得到多个第六中间数据;
分别对多个第六中间数据进行指数归一化处理,得到多个第七中间数据;
对多个第七中间数据进行注意力处理,得到第八中间数据;
对所述第八中间数据进行舍弃处理,得到第九中间数据;
拼接所述第九中间数据和所述输入数据,得到第十中间数据;
对所述第十中间数据进行层归一化处理,得到所述第l+1个全局注意网络的输入数据。
5.根据权利要求4所述的信号处理方法,其特征在于:
在将输入数据映射至多个询问和键值对矩阵的步骤之前,还包括:对所述输入数据进行正向降维映射处理;
在得到所述第l+1个全局注意网络的输入数据之后,还包括:对所述第l+1个全局注意网络的输入数据进行反向降维映射处理。
6.根据权利要求1所述的信号处理方法,其特征在于,所述根据所述短期依赖参数和所述多头全局依赖参数,得到所述第n+1个全局关注局部建模网络块的输入数据的步骤,包括:
拼接所述短期依赖参数和所述多头全局依赖参数,得到所述第n+1个全局关注局部建模网络块的输入数据。
7.根据权利要求1所述的信号处理方法,其特征在于,所述对初始信号进行分块拼接处理,得到所述初始信号对应的待分析数据的步骤,包括:
对所述初始信号进行信号转换,得到所述初始信号的特征向量;
根据预设数据块长度以及预设组合重叠长度,将所述初始信号的特征向量分割为信号数据块;
对所述信号数据块进行连接组合,得到所述待分析数据。
8.根据权利要求7所述的信号处理方法,其特征在于,所述对所述信号数据块进行连接组合,得到所述待分析数据的步骤,包括:
根据所述预设组合重叠长度,对信号数据块进行组合,得到组合信号数据块;
对所述组合信号数据块进行打包处理,得到所述待分析数据。
9.根据权利要求1至8任一项所述的信号处理方法,其特征在于,在所述对初始信号进行分块拼接处理的步骤之前,还包括:
解析所述初始信号,得到各信号源的声音类型;
从多个预设的训练后的分离网络中,选择所述声音类型对应的分离网络;所述分离网络包括编码网络、所述全局关注局部建模网络块堆栈、转换网络以及解码网络。
10.一种信号处理装置,其特征在于,包括:
编码模块,用于对初始信号进行分块及拼接处理,得到所述初始信号对应的待分析数据,所述初始信号由来自不同信号源的源信号混合形成;
处理模块,用于使用全局关注局部建模网络块堆栈处理所述待分析数据,得到短期依赖参数和多头全局依赖参数,并根据所述短期依赖参数和多头全局依赖参数生成所述初始信号的信号分离特征;
转换模块,用于对所述初始信号的信号分离特征进行特征转换,得到所述源信号对应的分离参数;
解码模块,用于根据所述源信号对应的分离参数对所述初始信号进行分离,得到所述初始信号内的源信号;
所述全局关注局部建模网络块堆栈包括N个全局关注局部建模网络块,所述全局关注局部建模网络块包括局部建模网络和多个串联的全局注意网络,则:
所述处理模块,具体用于使用第n个所述局部建模网络处理输入数据,得到所述短期依赖参数;对所述短期依赖参数进行处理,得到全局注意网络的全局输入参数;使用所述多个串联的全局注意网络处理所述全局输入参数,得到所述多头全局依赖参数;根据所述短期依赖参数和所述多头全局依赖参数,得到第n+1个全局关注局部建模网络块的输入数据,使用第N个全局关注局部建模网络块处理输入数据,得到所述初始信号的信号分离特征;所述n为1时,所述输入数据为所述待分析数据;其中,所述对所述短期依赖参数进行处理,得到全局注意网络的全局输入参数的步骤,包括:对所述短期依赖参数进行层归一化处理,得到第三中间数据;拼接所述第三中间数据与所述输入数据,得到第四中间数据;对所述第四中间数据进行层归一化处理,得到第五中间数据;拼接所述第五中间数据和位置编码数据,得到所述全局输入参数。
11.一种计算机设备,其特征在于,包括存储器,处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行程序时实现如权利要求1至9任一项所述方法中的步骤。
12.一种计算机可读存储介质,其特征在于,存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述方法中的步骤。
CN202011105225.5A 2020-10-15 2020-10-15 信号处理方法及装置、计算机设备以及可读存储介质 Active CN112289338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011105225.5A CN112289338B (zh) 2020-10-15 2020-10-15 信号处理方法及装置、计算机设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011105225.5A CN112289338B (zh) 2020-10-15 2020-10-15 信号处理方法及装置、计算机设备以及可读存储介质

Publications (2)

Publication Number Publication Date
CN112289338A CN112289338A (zh) 2021-01-29
CN112289338B true CN112289338B (zh) 2024-03-12

Family

ID=74497022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011105225.5A Active CN112289338B (zh) 2020-10-15 2020-10-15 信号处理方法及装置、计算机设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN112289338B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581487B (zh) * 2021-08-02 2022-11-25 北京易航远智科技有限公司 行人轨迹预测方法、装置、电子设备及计算机程序产品
CN113835065B (zh) * 2021-09-01 2024-05-17 深圳壹秘科技有限公司 基于深度学习的声源方向确定方法、装置、设备及介质
CN113782034A (zh) * 2021-09-27 2021-12-10 镁佳(北京)科技有限公司 一种音频识别方法、装置及电子设备
CN113889085A (zh) * 2021-11-22 2022-01-04 北京百度网讯科技有限公司 语音识别方法、装置、设备、存储介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321810A (zh) * 2019-06-14 2019-10-11 华南师范大学 单通道信号双路分离方法、装置、存储介质及处理器
WO2019198265A1 (en) * 2018-04-13 2019-10-17 Mitsubishi Electric Corporation Speech recognition system and method using speech recognition system
CN110459238A (zh) * 2019-04-12 2019-11-15 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN111370032A (zh) * 2020-02-20 2020-07-03 厦门快商通科技股份有限公司 语音分离方法、系统、移动终端及存储介质
CN111429938A (zh) * 2020-03-06 2020-07-17 江苏大学 一种单通道语音分离方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019198265A1 (en) * 2018-04-13 2019-10-17 Mitsubishi Electric Corporation Speech recognition system and method using speech recognition system
CN110459238A (zh) * 2019-04-12 2019-11-15 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN110321810A (zh) * 2019-06-14 2019-10-11 华南师范大学 单通道信号双路分离方法、装置、存储介质及处理器
CN111370032A (zh) * 2020-02-20 2020-07-03 厦门快商通科技股份有限公司 语音分离方法、系统、移动终端及存储介质
CN111429938A (zh) * 2020-03-06 2020-07-17 江苏大学 一种单通道语音分离方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Conv-TasNet: Surpassing Ideal Time–Frequency Magnitude Masking for Speech Separation;Yi Luo et al.;IEEE/ACM Transaction on Audio,Speech,and Language Processing;第1256-1266页 *
Dropout:A Simple Way to Prevent Neural Networks from Overfitting;Nitish Srivastava et al.;journal of machine learning research;第1929-1958页 *
Yi Luo et al..Dual-Path RNN: Efficient Long Sequence Modeling for Time-Domain Single-Channel Speech Separation.ICASSP 2020-2022 IEEE international conference on acoustics,speech and signal processing.2020,第46-50页. *

Also Published As

Publication number Publication date
CN112289338A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112289338B (zh) 信号处理方法及装置、计算机设备以及可读存储介质
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN110136731B (zh) 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN111179961B (zh) 音频信号处理方法、装置、电子设备及存储介质
Avila et al. Feature pooling of modulation spectrum features for improved speech emotion recognition in the wild
CN110503971A (zh) 用于语音处理的基于神经网络的时频掩模估计和波束形成
Liu et al. Contrastive self-supervised representation learning for sensing signals from the time-frequency perspective
CN113516990A (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
CN114783459B (zh) 一种语音分离方法、装置、电子设备和存储介质
Zhang et al. Learning audio sequence representations for acoustic event classification
Gao A two-channel attention mechanism-based MobileNetV2 and bidirectional long short memory network for multi-modal dimension dance emotion recognition
Kim et al. WaveNODE: A continuous normalizing flow for speech synthesis
Shams et al. Ssamba: Self-supervised audio representation learning with mamba state space model
Raj et al. Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients
Hu et al. Speech emotion recognition based on attention mcnn combined with gender information
CN114360491B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN116110423A (zh) 一种融合双通道注意力机制的多模态视听分离方法及系统
Zhang et al. Learning audio sequence representations for acoustic event classification
CN117373468A (zh) 远场语音增强处理方法、装置、计算机设备和存储介质
CN117063229A (zh) 交互语音信号处理方法、相关设备及系统
CN114023350A (zh) 基于浅层特征重激活和多阶段混合注意力的声源分离方法
CN116982111A (zh) 音频特征补偿方法、音频识别方法及相关产品
CN114495974B (zh) 音频信号处理方法
Yu Mobile Communication Voice Enhancement Under Convolutional Neural Networks and the Internet of Things.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40037367

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant