CN112669864A - 基于存算一体的智能语音降噪装置、语音输入设备、系统 - Google Patents

基于存算一体的智能语音降噪装置、语音输入设备、系统 Download PDF

Info

Publication number
CN112669864A
CN112669864A CN201910979945.5A CN201910979945A CN112669864A CN 112669864 A CN112669864 A CN 112669864A CN 201910979945 A CN201910979945 A CN 201910979945A CN 112669864 A CN112669864 A CN 112669864A
Authority
CN
China
Prior art keywords
noise reduction
voice
module
noise
flash memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910979945.5A
Other languages
English (en)
Inventor
王绍迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Witinmem Technology Co ltd
Original Assignee
Beijing Witinmem Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Witinmem Technology Co ltd filed Critical Beijing Witinmem Technology Co ltd
Priority to CN201910979945.5A priority Critical patent/CN112669864A/zh
Publication of CN112669864A publication Critical patent/CN112669864A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明提供一种基于存算一体的智能语音降噪装置、语音输入设备以及电子系统,该基于存算一体的智能语音降噪装置包括:用于接收待处理的带噪语音的预处理模块、与该预处理模块连接的降噪模块以及与该预处理模块、该降噪模块连接的重建模块;该预处理模块将该待处理的带噪语音转换为频域信号;该降噪模块基于存算一体架构,对该频域信号的幅度谱进行降噪处理得到降噪后幅度谱;该重建模块根据该频域信号的相位谱以及该降噪后幅度谱进行信号重建得到降噪后语音;该降噪模块中预存深度学习降噪模型,其中,通过利用存算一体技术实现深度学习降噪模型进行智能语音降噪,扩展性好,硬件简单,能够直接应用到资源受限的离线终端场景。

Description

基于存算一体的智能语音降噪装置、语音输入设备、系统
技术领域
本发明涉及语音处理技术领域,尤其涉及一种基于存算一体的智能语音降噪装置、语音输入设备、系统。
背景技术
人工智能(Artificial Intelligence,AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
随着人工智能的快速发展,智能语音识别技术应用广泛,例如:智能手机、无线耳机、智能机器人、车载设备等电子设备或系统中,均需要采用智能语音识别技术准确识别使用者输入的语音。但是,由于环境噪声和其他设备信号的干扰,输入语音中含有噪声,影响了语音识别的准确度。
传统的语音降噪方法通常基于统计模型的贝叶斯估计、谱减法等,这些方法的资源开销较大,硬件复杂,难以直接应用到资源受限的离线终端场景。
发明内容
针对现有技术中的问题,本发明提供一种基于存算一体的智能语音降噪装置、语音输入设备以及电子系统,能够至少部分地解决现有技术中存在的问题。
为了实现上述目的,本发明采用如下技术方案:
第一方面,提供一种基于存算一体的智能语音降噪装置,包括:用于接收待处理的带噪语音的预处理模块、与该预处理模块连接的降噪模块以及与该预处理模块、该降噪模块连接的重建模块;
该预处理模块将该待处理的带噪语音转换为频域信号;
该降噪模块基于存算一体架构,对该频域信号的幅度谱进行降噪处理得到降噪后幅度谱;
该重建模块根据该频域信号的相位谱以及该降噪后幅度谱进行信号重建得到降噪后语音;
其中,该降噪模块中预存深度学习降噪模型。
进一步地,该降噪模块的工作模式包括:处理模式以及编程模式;
该降噪模块在处理模式下对该频域信号的幅度谱进行降噪处理得到降噪后幅度谱,在编程模式下更新该深度学习降噪模型。
进一步地,该降噪模块包括:顺序连接的滤波电路、闪存处理阵列、模数转换模块以及后处理模块。
进一步地,该闪存处理阵列包括多个阵列排布的闪存单元,该闪存单元为阈值电压可调的可编程半导体器件。
进一步地,该闪存处理阵列包括多个阵列排布的闪存单元,该闪存单元包括:用于存储长时数据且阈值电压可调的可编程半导体器件以及用于存储临时数据的模拟电容单元,该可编程半导体器件与该模拟电容单元并联连接。
进一步地,该降噪模块还包括:编程电路,用于调控该闪存单元中存储的数据,以更新深度学习降噪模型的神经网络参数。
进一步地,该预处理模块包括:加窗单元以及傅里叶变换单元;
该加窗单元用于对该待处理的带噪语音进行加窗;
该傅里叶变换单元用于对加窗后的带噪语音转换为该频域信号。
进一步地,该重建模块包括:功率谱补偿单元以及反向傅里叶变换单元;
该功率谱补偿单元用于对该降噪后幅度谱进行补偿;
该反向傅里叶变换单元用于对补偿后的幅度谱以及该频域信号的相位谱进行反向傅里叶变换得到降噪后语音。
第二方面,提供一种语音输入设备,包括:语音采集装置以及与该语音采集装置连接的如上述的基于存算一体的智能语音降噪装置;
该语音采集装置用于采集语音信号,该智能语音降噪装置用于对该语音信号进行降噪处理。
第三方面,提供一种电子系统,包括如上述的基于存算一体的智能语音降噪装置。
本发明提供的基于存算一体的智能语音降噪装置、语音输入设备以及电子系统,该基于存算一体的智能语音降噪装置包括:用于接收待处理的带噪语音的预处理模块、与该预处理模块连接的降噪模块以及与该预处理模块、该降噪模块连接的重建模块;该预处理模块将该待处理的带噪语音转换为频域信号;该降噪模块基于存算一体架构,对该频域信号的幅度谱进行降噪处理得到降噪后幅度谱;该重建模块根据该频域信号的相位谱以及该降噪后幅度谱进行信号重建得到降噪后语音;该降噪模块中预存深度学习降噪模型,其中,通过利用存算一体技术实现深度学习降噪模型进行智能语音降噪,扩展性好,硬件简单,能够直接应用到资源受限的离线终端场景。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了本发明实施例提供的基于存算一体的智能语音降噪装置的结构框图;
图2示出了本发明实施例提供的基于存算一体的智能语音降噪装置中的降噪模块的结构框图;
图3示出了本发明实施例中闪存处理阵列的电路图;
图4示出了本发明实施例中深度学习降噪模型的结构图;
图5示出了本发明实施例中滤波电路的电路图;
图6示出了本发明实施例中另一种闪存处理阵列中闪存单元的电路图;
图7示出了本发明实施例中预处理模块的具体结构图;
图8示出了本发明实施例中重建模块的具体结构图;
图9示出了本发明实施例中语音输入设备的结构框图;
图10示出了本发明实施例提供的电子系统的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1示出了本发明实施例提供的基于存算一体的智能语音降噪装置;如图1所示,该基于存算一体的智能语音降噪装置设置在语音输入设备以及语音处理设备之间或者集成在电子设备的语音输入设备之后,包括:用于接收待处理的带噪语音的预处理模块1、与预处理模块1连接的降噪模块2以及与预处理模块1、降噪模块2连接的重建模块3;
预处理模块1将待处理的带噪语音转换为频域信号;
降噪模块2基于存算一体架构,对频域信号的幅度谱进行降噪处理得到降噪后幅度谱;
重建模块3根据频域信号的相位谱以及降噪后幅度谱进行信号重建得到降噪后语音;
其中,降噪模块中预存深度学习降噪模型。
值得说明的是,降噪模块2的工作模式包括:处理模式以及编程模式;降噪模块在处理模式下对频域信号的幅度谱进行降噪处理得到降噪后幅度谱,在编程模式下更新深度学习降噪模型。
经过深度学习降噪模型处理后输出分离的语音幅度谱和噪声幅度谱。
其中,该待处理的带噪语音可为麦克风、骨导传感器、声音传感器等语音信号采集装置所采集得到,值得说明的是,麦克风识别的声音是所处环境中的音频信号,包括了环境噪声等,模拟语音信号的噪声明显较多,在对模拟语音信号进行识别前,先对模拟语音信号进行去噪,以减少信号噪声,进而提高语音的清晰度,以提高语音识别的准确度。另外,该骨导传感器可以设置在入耳式耳机上,能够精确采集用户是否发出声音。
本发明实施例提供的基于存算一体的智能语音降噪装置,能够利用体积小巧、运算速度快、成本低的降噪模块,基于智能学习降噪模型对语音进行降噪处理,利于设备体积的小型化,不需将语音去噪过程放在服务器中实现,也不需要进行噪声估计等繁杂操作,不依赖于通信网络,降低处理延迟,提高用户体验,扩展性好,硬件简单,能够直接应用到资源受限的离线终端场景,适于AI降噪应用场景。
另外,由于降噪模块是基于非易失性存储器件对语音进行处理,因此,即使掉电,数据也不会丢失,有效提高了语音输入的可靠性。
其中,该智能语音降噪装置可以用于处理人声检测、关键词唤醒、命令识别、语音识别、声纹识别和语音合成等场合的语音输入降噪处理。如基于用户语音中的关键词唤醒电子设备以节省电子设备的待机功耗,具体地,可用于导航仪、车载控制终端、智能家居、可穿戴设备、政务平台、手机、运营商平台、金融、教育、物流、酒店、地产、智能坐席服务、智能机器人等中。
降噪模块可以是单独设置的芯片,也可以设置在移动设备、平板电脑、笔记本电脑和台式计算机等电子设备中。在一些实施例中,移动设备可以包括智能家居装置、可穿戴式设备、虚拟现实装置、增强实境装置、移动电话、个人数字助理、游戏设备、导航装置、销售点POS机等或类似或上述举例的任意组合。在一些实施例中,智能家居装置可以包括智能照明装置、智能电器的控制装置、智能监测装置、智能电视、智能摄影机、对讲机等或类似或上述举例的任意组合。在一些实施例中,可穿戴式设备可以包括智能手环、智能鞋袜、智能眼镜、智能头盔、智能手表、智能衣物、智能背包、智能配饰等或类似或上述举例的任意组合。在一些实施例中,虚拟现实装置和/或增强实境装置可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强实境头盔、增强实境眼镜、增强实境眼罩等或类似或上述举例的任意组合。例如,虚拟现实装置和/或增强实境装置可以包括谷歌眼镜、虚拟现实眼镜、全息透镜、虚拟现实头盔等。
图2示出了本发明实施例提供的基于存算一体的智能语音降噪装置中的降噪模块的结构框图;如图2所示,该降噪模块包括:输入接口10、与输入接口10连接的滤波电路20、输入端与滤波电路20连接的多路分配器30、与多路分配器30输出端连接的闪存处理阵列40、输入端连接闪存处理阵列40的多路选择器50、连接该多路选择器输出端的模数转换模块60、连接模数转换模块60的后处理模块70、连接后处理模块70的多路分配器80、连接在多路分配器80的两个输出端上的输出接口90、寄存器100以及连接各个电路模块的控制模块110;
值得说明的是,该闪存处理阵列40可以包括用于分别执行不同模拟向量-矩阵乘法运算的多个闪存处理子阵列401~40n
其中,多个闪存处理子阵列401~40n可为结构相同的闪存处理子阵列,也可以根据实际应用需求,将各个闪存处理子阵列的结构设置为不同,比如各个闪存处理子阵列的行数和列数可以根据实际应用需求进行设置,本发明实施例对此不作限制。
其中,该寄存器100的输入端连接多路分配器80,输出端连接多路分配器30的输入端,该多路分配器30的多个输出端分别连接至闪存处理阵列40所包括的多个闪存处理子阵列401~40n,多个闪存处理子阵列401~40n的输出端分别连接多路选择器50的多个输入端。
输入接口10用于接收频域信号的幅度谱;滤波电路60对频域信号的幅度谱进行滤波,以滤除频域信号的幅度谱中的环境噪声等,多路分配器用于选择性将该滤波电路的输出信号和该寄存器100的输出信号之一输至多个闪存处理子阵列中的一个或多个,闪存处理子阵列用于对接收的信号进行处理,处理后的信号通过多路选择器50输至模数转换模块60进行模数转换,经后处理模块70进一步运算后传至多路分配器80,多路分配器80选择性将接收的信号传至输出接口90进行输出,或作为中间数据传输至寄存器100,经寄存器100传至多虑分配器30,参与下一轮运算。
在一个可选的实施例中,该闪存处理阵列20包括多个阵列排布的闪存单元,可将多个闪存单元划分成上述的闪存处理子阵列,闪存单元为阈值电压可调的可编程半导体器件,用于在处理模式下对接收的数据进行神经网络运算,在编程模式下进行数据编程以调整神经网络模型参数。其中,由于可编程半导体器件的阈值电压可调,即每个可编程半导体器件的跨导可调,相当于每个可编程半导体器件中存储一个可变的模拟权重数据,闪存处理阵列中的多个可编程半导体器件形成模拟数据阵列,且阵列中的每个数据均可自由调节,根据欧姆定律与基尔霍夫定律可知,每个可编程半导体器件的输出电流等于输入模拟数据乘以模拟权重数据,多个可编程半导体器件的输出电流等于每个可编程半导体器件输出电流的和值,进而直接在闪存处理阵列中实现各种计算。
在一个可选的实施例中,该后处理模块70包括用于分别实现不同算术运算的多个可编程算术运算单元701~70n
可编程算术运算单元采用硬件实现,用于执行特定的算术运算。
其中,算术运算包括:乘法运算、加法运算、减法运算、除法运算、移位运算、激活函数、取最大值、取最小值、取平均值、池化等中的一种或几种的组合。
该控制模块110根据配置信息和有限状态机信息对多路分配器30、闪存处理阵列40、多路选择器50、可编程算术运算模块70以及多路分配器80进行组合配置,以使降噪模块实现多种运算,如复杂的神经网络运算。
其中,可以根据实际应用需求,通过编译工具,得到配置信息与有限状态机信息。
其中,配置信息通常是静态的,比如指定参与任务的各个模块的状态,各个单元的配置大小;配置信息通常保存在存储器中,等任务运行之前进行调度。而有限状态机信息通常是动态的,在任务运行时,控制实际任务运行时的时序与状态。
具体地,该控制模块110根据配置信息对该多个闪存处理子阵列和多个可编程算术运算单元进行组合配置,选择投入工作的闪存处理子阵列和可编程算术运算单元,并对闪存处理子阵列与可编程算术运算单元的组合配对方式进行控制以实现特定运算。
可以理解的是,多个可编程算术运算单元中每个可编程算术运算单元可以实现某一种或几种算术运算,多个可编程算术运算单元可以排列组合出多种复合运算,与多个闪存处理子阵列配合,能够实现多种组合配置,进而实现复杂的运算功能。
控制模块110将该闪存处理阵列40划分为多个闪存处理子阵列401~40n,并控制多个闪存处理子阵列401~40n的工作时序,控制各可编程算术运算单元对应的选择器的工作状态,使多个可编程算术运算单元实现任意组合运算参与工作,控制多路分配器30、多路选择器50以及多路分配器80的开合状态。
通过输入接口输入的频域信号的幅度谱经该滤波电路20滤波后,通过多路分配器(DEMUX)30选择性连接该多个闪存处理子阵列(401~40n)中的一个或部分,进行语音特征提取等处理。控制模块110连接该多路分配器30,以根据配置信息控制该多路分配器30,进而选择哪些闪存处理子阵列参与工作。
该多个闪存处理子阵列(401~40n)的输出端通过一多路选择器50连接该模数转换模块60。该控制模块110连接该多路选择器50,根据配置信息控制该多路选择器50,进而选择哪一闪存处理子阵列的输出连接该模数转换模块60的输入端,即将上述的参与工作的闪存处理子阵列的输出连接至该模数转换模块60的输入端。
该可编程算术运算模块70的输入端连接该模数转换模块60的输出端。
该可编程算术运算模块70的多个该可编程算术运算单元701~70n串行连接,每个该可编程算术运算单元均包括:多路分配器、算术运算子单元以及多路选择器。
可编程算术运算单元中的多路分配器的输入端连接上一可编程算术运算单元或该模数转换模块60,其中一个输出端连接该算术运算子单元,该算术运算子单元的输出端以及该多路分配器另一个输出端通过可编程算术运算单元中的多路选择器连接下一可编程算术运算单元或多路分配器80,另外,可编程算术运算单元中的该多路分配器以及该多路选择器的控制端均连接该控制模块。
具体地,第一可编程算术运算单元中的多路分配器的输入端连接该模数转换模块60的输出端,其中一个输出端连接该第一可编程算术运算单元中的算术运算子单元的输入端,另一个输出端和该算术运算子单元的输出端通过该可编程算术运算单元中的多路选择器连接第二可编程算术运算单元的输入端。
第二可编程算术运算单元中的多路分配器的输入端连接该第一可编程算术运算单元的输出端,其中一个输出端连接该第二可编程算术运算单元中的算术运算子单元的输入端,另一个输出端和该算术运算子单元的输出端通过该可编程算术运算单元中的多路选择器连接第三可编程算术运算单元的输入端。依此类推,直到第n可编程算术运算单元,该第n可编程算术运算单元中的多路分配器的输入端连接第n-1可编程算术运算单元的输出端,其中一个输出端连接该第n可编程算术运算单元中的算术运算子单元的输入端,另一个输出端和该算术运算子单元的输出端通过该可编程算术运算单元的多路选择器连接多路分配器80的输入端。
控制模块连接各可编程算术运算单元中的该多路分配器和该多路选择器,根据配置信息控制各可编程算术运算单元中的该多路分配器和该多路选择器,以选择该可编程算术运算单元中的算术运算子单元是否参与运算,以此实现多个可编程算术运算单元的排列组合配置,实现不同的复杂运算,灵活配置了算术运算功能。
在一个可选的实施例中,每个该可编程算术运算子单元均可以包括多个并排设置的算术运算器,例如乘法器、加法器、减法器、除法器、移位器、激活函数器、取最大值运算器、取最小值运算器、取平均值运算器、池化器中的一种或几种,各算术运算器之间并联,输入端分别连接至对应的多路分配器的输出端,输出端分别连接至对应的多路选择器的输入端。
多路分配器80的两个输出端分别连接该输出接口90的输入端和该寄存器100的输入端。该控制模块连接该多路分配器80,根据配置信息控制该多路分配器80的工作状态,以选择将该后处理模块70的输出结果输至输出接口90还是寄存器100,当选择将该输出结果输至寄存器100时,意味着将对该输出结果进行新一轮的运算处理。
在一个可选的实施例中,每个该闪存处理子阵列均采用采用源极耦合、漏极求和的拓扑结构,参见图3,包括阵列布置的多个可编程半导体器件(也称闪存单元)。
其中,每一列的所有可编程半导体器件的源极均连接至同一模拟电压输入端,多列可编程半导体器件对应连接多个模拟电压输入端;每一列的所有可编程半导体器件的漏极均连接至同一个模拟电流输出端,多列可编程半导体器件对应连接多个模拟电流输出端;每一行的所有可编程半导体器件的栅极均连接至同一偏置电压输入端,多行可编程半导体器件对应连接多个偏置电压输入端;其中,每个该可编程半导体器件的阈值电压均可调节。
在另一个可选的实施例中,每个该闪存处理子阵列均包括阵列布置的多个可编程半导体器件;每一行的所有可编程半导体器件的栅极均连接至同一模拟电压输入端,多行可编程半导体器件对应连接多个模拟电压输入端;每一列的所有可编程半导体器件的漏极均连接至同一第一端,多列可编程半导体器件对应连接多个第一端;每一列的所有可编程半导体器件的源极均连接至同一第二端,多列可编程半导体器件对应连接多个第二端;每个该可编程半导体器件的阈值电压均可调节;其中,该第一端为偏置电压输入端,该第二端为模拟电流输出端,实现栅极耦合、源极求和的拓扑结构;或者,该第一端为模拟电流输出端,该第二端为偏置电压输入端,实现栅极耦合、漏极求和的拓扑结构。
在一个可选的实施例中,该降噪模块还可以包括:编程电路。
该编程电路连接闪存处理阵列中每一个可编程半导体器件的源极、栅极和/或衬底,用于调控可编程半导体器件的阈值电压。
其中,所述编程电路包括:用于产生编程电压或者擦除电压的电压产生电路以及用于将所述编程电压加载至选定的可编程半导体器件的电压控制电路。
具体地,编程电路利用热电子注入效应,根据可编程半导体器件阈值电压需求数据,向可编程半导体器件的源极施加高电压,将沟道电子加速到高速,以增加可编程半导体器件的阈值电压。
并且,编程电路利用隧穿效应,根据可编程半导体器件阈值电压需求数据,向可编程半导体器件的栅极或衬底施加高电压,从而减少可编程半导体器件的阈值电压。
另外,控制模块连接该编程电路,用于根据配置信息控制该编程电路,以对该闪存处理阵列中存储的权重进行调节。
在一个可选的实施例中,该降噪模块还可以包括:行列译码器。
该行列译码器连接该闪存处理阵列以及该控制模块,用于在该控制模块的控制下对该闪存处理阵列进行行列译码。
在一个可选的实施例中,可编程半导体器件可以采用浮栅晶体管实现。
其中,该闪存处理阵列包括:NOR型闪存处理阵列和NAND型闪存处理阵列,当然,本发明不以此为限。
为了使本领域技术人员更好地理解本发明,结合图4所示深度学习降噪模型,对利用降噪模块对语音信号采集设备所采集的待处理的带噪语音进行神经网络去噪的场景。
该深度学习降噪模型用于实现对待处理的带噪语音P进行去噪,该深度学习降噪模型包含:输入层、多个隐藏层以及输出层,每一层包括多个神经元,每层神经元主要实现向量-矩阵乘法运算,而各层神经元之间通过一定算术运算进行连接。
值得说明的是,深度学习降噪模型的训练通常在服务器端完成,在训练模型时,因为已经有对应带噪声的语音的纯净语音作为监督,所以能够区分出语音频谱与噪声频谱。利用样本数据训练后,降噪模块直接预存已经训练合格的深度学习降噪模型,以便利用该深度学习降噪模型进行去噪处理;其中,训练过程采用带噪声的语音作为学习样本,将与带噪声的语音对应的纯净语音作为标签,对深度学习降噪模型进行训练,得到能够区分噪声与纯净语音的神经网络参数。
在图4所示的模型中,绝大多数运算为向量矩阵乘加运算,如果采用传统的芯片来实现,会带来巨大的运算开销,并带来响应延迟。为了提高用户体验,本发明实施例采用降噪模块来实现向量矩阵乘加运算方案,能够降低运算开销以及响应延迟。
针对该深度学习降噪模型,该降噪模块的工作流程如下:
控制模块获取配置信息与有限状态机信息,该配置信息和有限状态机信息包含R个周期的配置信息与有限状态机信息,R个周期对应于神经网络R层神经元的运算(比如卷积、池化等),每个周期对应一层神经元的运算。每个周期的配置信息均包含:闪存处理子阵列的配置信息、可编程算术运算单元的配置信息、多路分配器30的配置信息、多路选择器50的配置信息、多路分配器80的配置信息等。控制模块根据该配置信息将闪存处理阵列划分为R个闪存处理子阵列,每个闪存处理子阵列对应一个周期,即每个闪存处理子阵列实现神经网络一层的运算,然后控制模块根据有限状态机信息控制各个电路模块的工作时序。
输入接口接收频域信号的幅度谱P,并传输至过滤电路20进行过滤;
控制模块根据第一周期的配置信息与有限状态机信息控制该多路分配器30,使滤波电路与对应深度学习降噪模型第一层的闪存处理子阵列1连通,控制该闪存处理阵列后端的多路选择器50,使该闪存处理子阵列1与模数转换模块60连通,控制可编程算术运算模块70的各可编程算术运算单元的选择器以及二选一选择器,实现对闪存处理子阵列1的输出结果转为数字信号后,进行对应于深度学习降噪模型第一层的算术运算1,并控制多路分配器80,以将该算术运算1的运算结果输至寄存器100,进而输至多路分配器30的输入端,以进行第二周期的运算处理;
然后由控制模块控制多路分配器30,以将该寄存器的输出输至对应深度学习降噪模型第二层的闪存处理子阵列2,控制该闪存处理阵列后端的多路选择器50,使该闪存处理子阵列2与模数转换模块60连通,控制可编程算术运算模块70的各可编程算术运算单元的选择器以及二选一选择器,实现对闪存处理子阵列2的输出结果转为数字信号后,进行对应于深度学习降噪模型第一层的算术运算2,并控制多路分配器80,以将该算术运算2的运算结果输至寄存器100,进而输至多路分配器30的输入端,以进行第三周期的运算处理,以此类推,指导进行最后一个后期的运算处理,并在后处理模块得到最后一个周期的运算结果后,通过控制多路分配器将该运算结果输至输出接口90进行输出。
另外,本领域技术人员可以理解的是,根据实际应用需求生成配置信息时,可以根据预先设置的指令-架构对应关系表实现。
值得说明的是,根据实际应用需求生成配置信息时,可知道需要投入的闪存处理子阵列的数量以及各个闪存处理子阵列的规模,此时,可根据实际应用需求获取闪存处理阵列的划分指令,然后根据该划分指令将该闪存处理阵列划分为多个闪存处理子阵列,对应多种矩阵乘法运算规模。
本领域技术人员可以理解的是,应用本发明实施例进行多个周期运算时,可以在每个周期对该周期对应的闪存处理子阵列进行编程,也可以在进行各周期运算之前,根据编程指令对各个闪存处理子阵列统一进行编程。
在一个可选的实施例中,参见图5,该滤波电路60可以包括:电阻R1~R4、电容C1和电容C2以及放大器A,电阻R1的一端作为输入端,用于接收输入信号,另一端连接电阻R2一端以及电容C1一端,电容C1另一端接地,电阻R2另一端连接电容C2一端以及放大器的正输入端,电容C2的另一端接地,电阻R3一端接地,另一端连接放大器的负输入端,电阻R4一端连接放大器的负输入端,另一端连接放大器的输出端。
值得说明的是,上述滤波电路的精度高,通过采用该滤波电路,能够进一步提高模拟语音信号的精度,利于后续处理。
在一个可选的实施例中,该降噪模块还可以包括读取电路,用于读取闪存处理阵列中各可编程半导体器件中存储的数据,用于权重调节时作为参考。
在一个可选的实施例中,该降噪模块中的闪存处理阵列包括多个阵列排布的闪存单元,参见图6,该闪存单元包括:用于存储长时数据的可编程半导体器件F0以及用于存储临时数据的模拟电容单元T1,可编程半导体器件F0与模拟电容单元T1并联连接。
其中,该可编程半导体器件的阈值电压可调,可以采用浮栅晶体管实现,比如:SONOS型浮栅晶体管(floating-gate transistor)、分裂式浮栅晶体管(Split-gatefloating-gate transistor)或电荷式浮栅晶体管(Charge-trapping floating-gatetransistor),包括但不限于此,所有闪存中采用的闪存晶体管器件均属于本发明实施例的保护范围。
该可编程半导体器件F0的栅极连接字线WL、漏极连接位线BL、源极连接源线SL。
其中,通过在可编程半导体器件F0上并联一个模拟电容单元T1,当需要对可编程半导体器件F0进行擦写时,将需要增加或减少的电压值(相当于短时数据)施加在模拟电容单元上,即调整模拟电容单元的电压。所述闪存单元的输出电流为该可编程半导体器件F0的输出电流与模拟电容单元T1的输出电流之和,因此,通过调整模拟电容单元的电压即可实现闪存单元输出电流(即权重)调节的目的,当模拟电容单元的擦写次数达到预设次数(比如10次、50次、100次、300次等,本发明实施例对此不作限制)或预设电压(电压值在0.01V~2V的范围内,比如:0.05V、0.1V、0.5V、0.8V、1V,本发明实施例对此不作限制)时,再将模拟电容单元的电压(相当于其存储的数据)转存至可编程半导体器件F0,以此减少可编程半导体器件F0的擦写次数,避免可编程半导体器件F0的老化。
在一个可选的实施例中,该闪存单元的模拟电容单元T1包括:输出晶体管N0、充电晶体管P0、放电晶体管Q0以及电容C0
其中,输出晶体管N0的漏极连接可编程半导体器件F0的漏极,源极连接可编程半导体器件F0的源极,栅极连接电容C0的一端;
充电晶体管P0的源极连接高电压,栅极连接第一控制电压Set,漏极连接电容C0的另一端;
放电晶体管Q0的源极连接低电压,栅极连接第二控制电压Reset,漏极连接电容C0的另一端。
其中,充电晶体管P0采用PMOS晶体管实现,该PMOS晶体管在负电压时导通;放电晶体管Q0采用NMOS晶体管实现,该NMOS晶体管在正电压时导通。
当需要增加闪存单元的权重(即输出电流)时,可以通过将第一控制电压Set和第二控制电压Reset设置为低,通过充电晶体管P0给电容C0充电,使电容C0的电压升高,进而增加了输出晶体管N0的栅极电压,输出晶体管N0的输出电流是其栅极电压的函数,以此增大了输出晶体管N0的输出电流,进而增大了模拟电容单元T1的输出电流,最终增加了闪存单元的权重。
当需要减少闪存单元的权重(即输出电流)时,可以通过将第一控制电压Set和第二控制电压Reset设置为高,通过放电晶体管Q0给电容C0放电,使电容C0的电压升降低,进而降低了输出晶体管N0的栅极电压,输出晶体管N0的输出电流是其栅极电压的函数,以此减小了输出晶体管N0的输出电流,进而减小了模拟电容单元T1的输出电流,最终减小了闪存单元的权重。
综上所述,本发明实施例中,通过调整模拟电容单元T1的电压即可实现闪存单元输出电流调节的目的,当模拟电容单元T1的擦写次数达到预设次数或预设电压时,再将模拟电容单元T1的电压(相当于其存储的数据)转存至可编程半导体器件F0,以此减少可编程半导体器件F0的擦写次数,避免可编程半导体器件F0的老化。
在一个可选的实施例中,该降噪模块该包括编程电路,该编程电路连接该闪存单元,用于调控所述闪存单元中存储的数据,实现对深度学习降噪模型参数进行更新。具体实现方案可以参考上述描述,在此不再赘述。
在一些实施例中,该深度学习降噪模型可为感知器、卷积神经网络、解卷积网络、深度卷积逆向图网络、生成式对抗网络、循环神经网络、长短期记忆网络、Hopfield网络、玻尔兹曼机网络、受限玻尔兹曼机网络、支持向量机、深度置信网络、深度自动编码器等。用户可以基于实际需求,构建相应的深度学习降噪模型。
在一些实施例中,在服务器端,待深度学习模型确定后,可以进一步对深度学习模型进行训练和测试,确定深度学习模型的参数,然后将训练合格的深度学习模型的权重通过编程电路写入闪存处理阵列中。
由于降噪模块采用的是非易失性存储器件阵列执行运算,掉电时,保存的数据和功能不会丢失,无需重复写入所述深度学习网络参数。但是,当深度学习网络的参数需要调整时,只需将调整后的参数数据重新烧写入降噪模块即可,以实现对深度学习网络参数的调整。
在一个可选的实施例中,参见图7,该基于存算一体的智能语音降噪装置的预处理模块包括:加窗单元1a以及傅里叶变换单元1b。
加窗单元1a用于对待处理的带噪语音进行加窗;傅里叶变换单元1b用于对加窗后的带噪语音转换为频域信号。
值得说明的是,该加窗(也可称为平滑)单元1a以及傅里叶变换单元1b均采用数字电路实现,加窗可以采用带通滤波器实现,可以理解为在时域上选取一个周期。
在一个可选的实施例中,参见图8,重建模块包括:功率谱补偿单元3a以及反向傅里叶变换单元3b。
值得说明的是,该功率谱补偿单元3a以及反向傅里叶变换单元3b均采用数字电路实现。
功率谱补偿单元3a用于对降噪后幅度谱进行补偿;反向傅里叶变换单元用于对补偿后的幅度谱以及频域信号的相位谱进行反向傅里叶变换得到降噪后语音。
具体地,功率谱补偿的主要作用是基于降噪模块输出的语音幅度谱与噪声幅度谱的相对大小,对语音幅度谱进行补偿,可采用下述公式实现:
Figure BDA0002234857330000151
Figure BDA0002234857330000152
其中,
Figure BDA0002234857330000153
表示语音幅度谱;
Figure BDA0002234857330000154
表示噪声幅度谱;zt(f)表示总功率谱;
Figure BDA0002234857330000155
其中,
Figure BDA0002234857330000156
表示语音功率谱,
Figure BDA0002234857330000157
表示噪声功率谱,
其中,通过采用上述方式对降噪后幅度谱进行补偿,能够提高去噪后语音的清晰度。
值得说明的是,降噪模块可以采用基于存算一体架构的单独的芯片(即图2所示芯片架构及其外围电路)实现,即降噪模块采用norflash存算一体芯片实现,而预处理模块以及重建模块可以是两个单独的芯片,也可以是集成在MCU中实现;还有另一种实现方式是将该基于存算一体结构的降噪模块与预处理模块以及重建模块集成在一个芯片上实现,本发明实施例对此不作限制。
图9示出了本发明实施例中语音输入设备的结构框图。如图9所示,该语音输入设备包括:语音采集装置SS1以及与语音采集装置连接的如上所述的基于存算一体的智能语音降噪装置SS2。
其中,语音采集装置用于采集语音信号,智能语音降噪装置用于对语音信号进行降噪处理。
具体地,该语音采集装置可为麦克风、骨导传感器、声音传感器等。
值得说明的是,该语音输入设备可作为电子设备或电子系统外接的语音输入使用。
另外,该语音采集装置与智能语音降噪装置之间可以通过有线网络传输信号,也可以通过无线网络传输信号。网络可以包括布设于电路板上的信号传输线形成的信号传输网络、电缆网络、有线网络、光纤网络、远程通信网络、内部网络、互联网、局域网络LAN、广域网络WAN、无线局域网络WLAN、城域网MAN、公共开关电话网络PSTN、蓝牙网络、无线个域网、近场通信NFC网络、全球行动通信系统GSM网络、码分多址CDMA网络、时分多址TDMA网络、通用分组无线服务GPRS网络、增强数据速率GSM演进EDGE网络、宽带码分多址接入WCDMA网络、高速下行分组接入HSDPA网络、长期演进LTE网络、用户数据报协议UDP网络、传输控制协议/互联网协议TCP/IP网络、短信息服务SMS网络、无线应用协议WAP网络、超宽带UWB网络、红外线等中的一种,或类似或其任意组合。
图10示出了本发明实施例提供的电子系统的结构框图。如图10所示,该电子系统可包括如上所述的基于存算一体的智能语音降噪装置SS2以及电子系统本身用于实现电子系统功能的其他电子模块SS3,即在该电子系统中集成了上述的基于存算一体的智能语音降噪装置SS2。
值得说明的是,该电子系统可为导航仪、车载控制终端、可穿戴设备、手机、、智能机器人、平板电脑、笔记本电脑、台式计算机、虚拟现实装置、增强实境装置、游戏设备、销售点POS机、工厂生产线设备等或类似或上述举例的任意组合。
应该注意的是,上述仅出于说明性目的而提供,并不旨在限制本申请的范围。对于本领域技术人员而言,在本申请内容的指导下,可作出多种变形和修改。然而,变形和修改不会背离本申请的范围。
上文已对基本概念做了描述,显然,对于阅读此申请后的本领域的普通技术人员来说,上述发明披露仅作为示例,并不构成对本申请的限制。虽然此处并未明确说明,但本领域的普通技术人员可以进行各种变更、改良和修改。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。例如,术语“一实施例”,“一些实施例”和/或“一些实施例”意味着结合一些实施例描述的特定特征,结构或特性包括在本申请的至少一个实施例中。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或以上实施例中的某些特征、结构或特性可以进行适当的组合。
此外,本领域的普通技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的制程、机器、产品或物质的组合,或对其任何新的和有用的改良。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可以表现为位于一个或以上计算机可读介质中的计算机产品,所述产品包括计算机可读程序编码。
计算机可读信号介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。这种传播信号可以采用多种形式中的任何一种,包括电磁,光学等,或其任何合适的组合。计算机可读信号介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读信号介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质、或任何上述介质的组合。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或以上发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。

Claims (10)

1.一种基于存算一体的智能语音降噪装置,其特征在于,包括:用于接收待处理的带噪语音的预处理模块、与所述预处理模块连接的降噪模块以及与所述预处理模块、所述降噪模块连接的重建模块;
所述预处理模块将所述待处理的带噪语音转换为频域信号;
所述降噪模块基于存算一体架构,对所述频域信号的幅度谱进行降噪处理得到降噪后幅度谱;
所述重建模块根据所述频域信号的相位谱以及所述降噪后幅度谱进行信号重建得到降噪后语音;
其中,所述降噪模块中预存深度学习降噪模型。
2.根据权利要求1所述的基于存算一体的智能语音降噪装置,其特征在于,所述降噪模块的工作模式包括:处理模式以及编程模式;
所述降噪模块在处理模式下对所述频域信号的幅度谱进行降噪处理得到降噪后幅度谱,在编程模式下更新所述深度学习降噪模型。
3.根据权利要求1所述的基于存算一体的智能语音降噪装置,其特征在于,所述降噪模块包括:顺序连接的滤波电路、闪存处理阵列、模数转换模块以及后处理模块。
4.根据权利要求3所述的基于存算一体的智能语音降噪装置,其特征在于,所述闪存处理阵列包括多个阵列排布的闪存单元,所述闪存单元为阈值电压可调的可编程半导体器件。
5.根据权利要求3所述的基于存算一体的智能语音降噪装置,其特征在于,所述闪存处理阵列包括多个阵列排布的闪存单元,所述闪存单元包括:用于存储长时数据且阈值电压可调的可编程半导体器件以及用于存储临时数据的模拟电容单元,所述可编程半导体器件与所述模拟电容单元并联连接。
6.根据权利要求4或5任一项所述的基于存算一体的智能语音降噪装置,其特征在于,所述降噪模块还包括:编程电路,用于调控所述闪存单元中存储的数据,以更新深度学习降噪模型的神经网络参数。
7.根据权利要求1所述的基于存算一体的智能语音降噪装置,其特征在于,所述预处理模块包括:加窗单元以及傅里叶变换单元;
所述加窗单元用于对所述待处理的带噪语音进行加窗;
所述傅里叶变换单元用于对加窗后的带噪语音转换为所述频域信号。
8.根据权利要求1所述的基于存算一体的智能语音降噪装置,其特征在于,所述重建模块包括:功率谱补偿单元以及反向傅里叶变换单元;
所述功率谱补偿单元用于对所述降噪后幅度谱进行补偿;
所述反向傅里叶变换单元用于对补偿后的幅度谱以及所述频域信号的相位谱进行反向傅里叶变换得到降噪后语音。
9.一种语音输入设备,其特征在于,包括:语音采集装置以及与所述语音采集装置连接的如权利要求1至8任一项所述的基于存算一体的智能语音降噪装置;
所述语音采集装置用于采集语音信号,所述智能语音降噪装置用于对所述语音信号进行降噪处理。
10.一种电子系统,其特征在于,包括如权利要求1至8任一项所述的基于存算一体的智能语音降噪装置。
CN201910979945.5A 2019-10-15 2019-10-15 基于存算一体的智能语音降噪装置、语音输入设备、系统 Pending CN112669864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910979945.5A CN112669864A (zh) 2019-10-15 2019-10-15 基于存算一体的智能语音降噪装置、语音输入设备、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910979945.5A CN112669864A (zh) 2019-10-15 2019-10-15 基于存算一体的智能语音降噪装置、语音输入设备、系统

Publications (1)

Publication Number Publication Date
CN112669864A true CN112669864A (zh) 2021-04-16

Family

ID=75400365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910979945.5A Pending CN112669864A (zh) 2019-10-15 2019-10-15 基于存算一体的智能语音降噪装置、语音输入设备、系统

Country Status (1)

Country Link
CN (1) CN112669864A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992232A (zh) * 2021-04-28 2021-06-18 中科院微电子研究所南京智能技术研究院 一种多位正负单比特存内计算单元、阵列及装置
CN113378109A (zh) * 2021-04-22 2021-09-10 浙江大学 一种基于存内计算的混合基快速傅里叶变换计算电路
WO2023272631A1 (zh) * 2021-06-30 2023-01-05 深圳市汇顶科技股份有限公司 音频信号的降噪方法、音频信号处理装置及电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378109A (zh) * 2021-04-22 2021-09-10 浙江大学 一种基于存内计算的混合基快速傅里叶变换计算电路
CN113378109B (zh) * 2021-04-22 2023-09-12 浙江大学 一种基于存内计算的混合基快速傅里叶变换计算电路
CN112992232A (zh) * 2021-04-28 2021-06-18 中科院微电子研究所南京智能技术研究院 一种多位正负单比特存内计算单元、阵列及装置
WO2023272631A1 (zh) * 2021-06-30 2023-01-05 深圳市汇顶科技股份有限公司 音频信号的降噪方法、音频信号处理装置及电子设备
US11711649B2 (en) 2021-06-30 2023-07-25 Shenzhen GOODIX Technology Co., Ltd. Method for audio signal noise cancellation, apparatus for audio signal processing, and electronic device

Similar Documents

Publication Publication Date Title
CN112669864A (zh) 基于存算一体的智能语音降噪装置、语音输入设备、系统
CN108960419B (zh) 用于使用知识桥的学生-教师迁移学习网络的装置和方法
CN107703486B (zh) 一种基于卷积神经网络cnn的声源定位方法
CN110808063A (zh) 一种语音处理方法、装置和用于处理语音的装置
CN211699712U (zh) 基于存算一体的智能语音降噪装置、语音输入设备、系统
CN209182823U (zh) 一种数模混合存算一体芯片以及用于神经网络的运算装置
CN111312273A (zh) 混响消除方法、装置、计算机设备和存储介质
CN113436643A (zh) 语音增强模型的训练及应用方法、装置、设备及存储介质
Furnon et al. DNN-based mask estimation for distributed speech enhancement in spatially unconstrained microphone arrays
CN110400571A (zh) 音频处理方法、装置、存储介质及电子设备
CN111611197A (zh) 可软件定义的存算一体芯片的运算控制方法和装置
CN112420073B (zh) 语音信号处理方法、装置、电子设备和存储介质
KR20200025889A (ko) 영상 복원 장치 및 방법
CN109616115B (zh) 一种语音处理芯片、系统与方法
CN114121029A (zh) 语音增强模型的训练方法和装置以及语音增强方法和装置
Cui et al. Multi-objective based multi-channel speech enhancement with BiLSTM network
CN112614504A (zh) 单声道语音降噪方法、系统、设备及可读存储介质
CN113241092A (zh) 基于双注意力机制和多阶段混合卷积网络声源分离方法
CN112749784B (zh) 一种计算设备及神经网络的加速方法
CN112599132A (zh) 基于存算一体芯片的语音处理装置、方法以及电子设备
Schlottmann et al. Vector matrix multiplier on field programmable analog array
Südholt et al. Pruning deep neural network models of guitar distortion effects
Tsou et al. Memory augmented neural network for source separation
CN108510996B (zh) 一种快速迭代自适应滤波方法
Hasler et al. Analog floating-gate, on-chip auditory sensing system interfaces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: Room 213-175, 2nd Floor, Building 1, No. 180 Kecheng Street, Qiaosi Street, Linping District, Hangzhou City, Zhejiang Province, 311100

Applicant after: Hangzhou Zhicun Computing Technology Co.,Ltd.

Address before: 1707 shining building, 35 Xueyuan Road, Haidian District, Beijing 100083

Applicant before: BEIJING WITINMEM TECHNOLOGY Co.,Ltd.

Country or region before: China

CB02 Change of applicant information