CN111916097A - 用于语音增强的高斯加权自注意力的方法和系统 - Google Patents

用于语音增强的高斯加权自注意力的方法和系统 Download PDF

Info

Publication number
CN111916097A
CN111916097A CN202010380972.3A CN202010380972A CN111916097A CN 111916097 A CN111916097 A CN 111916097A CN 202010380972 A CN202010380972 A CN 202010380972A CN 111916097 A CN111916097 A CN 111916097A
Authority
CN
China
Prior art keywords
matrix
gaussian weighting
fractional
generated
gaussian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010380972.3A
Other languages
English (en)
Inventor
金在英
穆斯塔法·艾尔可哈米
李正元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN111916097A publication Critical patent/CN111916097A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Telephone Function (AREA)

Abstract

在此提供了一种用于语音增强的高斯加权自注意力的方法和系统。根据一个实施例,所述方法包括:接收输入噪声信号;基于接收到的输入噪声信号来生成分数矩阵;和将高斯加权函数应用于生成的分数矩阵。

Description

用于语音增强的高斯加权自注意力的方法和系统
本申请基于并要求于2019年5月8日提交并被分配序列号62/844,954的美国临时专利申请和于2019年10月2日提交并被分配序列号16/591,117的美国专利申请的优先权,所述专利申请的全部内容通过引用包含于此。
技术领域
本公开总体上涉及一种语音处理系统。具体地,本公开涉及一种用于提供用于语音增强的具有高斯加权自注意力(Gaussian weighted self-attention)的变换器的系统和方法。
背景技术
变换器使用自注意力在整个输入序列上并行地计算逐符号相关性,逐符号相关性用于预测目标与相邻上下文符号之间的相似性比率。预测的比率由柔性最大(softmax)函数进行归一化,并且用于组合用于下一层输出的输入上下文符号。
与循环网络(诸如,长短期记忆(LSTM)或门控循环单元(GRU))相比,变换器可被配置为并行化操作,但是对于具有相同的路径长度的所有上下文符号也是透明的。路径长度是针对操作进行遍历(traverse)的步骤数,并且路径长度越短,它们之间的学习依赖性变得越容易。典型的循环模型需要与其符号距离成比例的路径长度。相反,变换器在整个上下文符号上具有恒定的路径长度,这是变换器中的优势之一。
通过呈现技术性能的状态,变换器最近已经在许多神经语言编程(NLP)任务上替换了循环网络(例如,LSTM、GRU)。然而,还没有报告变换器在语音或图像降噪问题上表现出性能。主要问题是语音降噪问题不同于典型的NLP任务,并且变换器中的等路径长度注意力模型与语音信号的物理特性不兼容。例如,噪声或信号相关性随着两个相关分量之间的距离变大而减小。因此,自注意力可意外地与位于远处的上下文具有高相关性。
发明内容
根据一个实施例,一种方法包括:接收输入噪声信号;基于接收到的输入噪声信号来生成分数矩阵;和将高斯加权函数应用于生成的分数矩阵。
根据一个实施例,一种系统包括:存储器和处理器,处理器被配置为:接收输入噪声信号;基于接收到的输入噪声信号来生成分数矩阵;和将高斯加权函数应用于生成的分数矩阵。
附图说明
从下面的结合附图的详细描述,本公开的特定实施例的以上和其它方面、特征和优点将更加明显,其中:
图1示出根据实施例的用于语音增强的高斯加权自注意力的方法的流程图;
图2示出根据实施例的用于语音增强的高斯加权自注意力的系统的示图;以及
图3示出根据一个实施例的网络环境中的电子装置的框图。
具体实施方式
在下文中,参照附图详细描述本公开的实施例。应注意,尽管相同的元件在不同的附图中示出,但是相同的元件将由相同的参考标号指定。在下面的描述中,具体细节(诸如,详细的配置和组件)仅被提供以帮助对本公开的实施例的总体理解。因此,本领域技术人员应清楚,在不脱离本公开的范围的情况下,可进行在此描述的实施例的各种改变和修改。另外,为了清楚和简明,省略了对公知的功能和构造的描述。以下描述的术语是考虑到本公开中的功能而定义的术语,并且可根据用户、用户的意图和/或习惯而不同。因此,术语的定义应基于贯穿本说明书的内容来确定。
本公开可具有各种修改和各种实施例,以下参照附图详细描述其中的实施例。然而,应理解,本公开不限于这些实施例,而是包括在本公开的范围内的所有修改、等同物和替换物。
尽管包括序数(诸如,第一、第二等)的术语可用于描述各种元件,但是结构元件不受这些术语限制。这些术语仅用于将一个元件与另一元件区分开。例如,在不脱离本公开的范围的情况下,第一结构元件可被称为第二结构元件。类似地,第二结构元件也可被称为第一结构元件。如在此使用的,术语“和/或”包括一个或多个相关项的任何组合和所有组合。
在此使用的术语仅用于描述本公开的各种实施例,而不意在限制本公开。除非上下文另外清楚地指示,否则单数形式意在包括复数形式。在本公开中,应理解,术语“包括”或“具有”指示存在特征、数量、步骤、操作、结构元件、部件或它们的组合,并且不排除存在或可能添加一个或多个其它特征、数量、步骤、操作、结构元件、部件或它们的组合。
除非不同地定义,否则在此使用的所有术语具有与本公开所属领域的技术人员理解的含义相同的含义。除非在本公开中清楚地定义,否则术语(诸如在通用字典中定义的术语)将被解释为具有与在相关技术领域的上下文含义相同的含义,并且将不被解释为具有理想化或过于形式化的含义。
根据一个实施例的电子装置可以是各种类型的电子装置之一。例如,电子装置可包括便携式通信装置(例如,智能电话)、计算机、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置或家用电器。根据公开的一个实施例,电子装置不限于以上描述的电子装置。
本公开中使用的术语不意在限制本公开,而是意在包括对应实施例的各种改变、等同物或替换物。关于附图的描述,相似的参考标号可用于表示相似的或相关的元件。除非相关上下文另外清楚地指示,否则与项目对应的名词的单数形式可包括一个或多个事物。如在此使用的,如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”的这样的短语中的每个可包括与短语中的对应短语中一起枚举的项目的所有可能的组合。如在此使用的,诸如“第1”、“第2”、“第一”以及“第二”的术语可用于将对应组件与另一组件区分开,而不意在在其它方面(例如,重要性或顺序)限制组件。意图是,如果元件(例如,第一元件)在具有或没有术语“可操作地”或“通信地”的情况下被称为“与”另一元件(例如,第二元件)“结合”、“结合到”另一元件、“与”另一元件“连接”、或“连接到”另一元件,则指示该元件可直接(例如,有线地)、无线地或经由第三元件与另一元件结合。
如在此使用的,术语“模块”可包括以硬件、软件或固件实现的单元,并且可与其它术语(例如,“逻辑”、“逻辑块”、“部件”或“电路”)互换使用。模块可以是适于执行一个或多个功能的单个集成组件或者是它的最小单元或部件。例如,根据一个实施例,可以以专用集成电路(ASIC)的形式来实现模块。
在一个实施例中,本系统和方法提供用于语音去噪的高斯加权自注意力。对于自注意力,在应用柔性最大(softmax)函数之后使用查询(query)和键(或关键字、关键词,key)相关性来生成注意力权重。
图1示出根据实施例的用于语音增强的高斯加权自注意力的方法的流程图100。在102,系统接收输入噪声信号。
图2示出根据实施例的用于语音增强的高斯加权自注意力的系统的示图。例如,系统200接收输入噪声信号202。
在104,系统基于接收到的输入噪声信号来生成分数矩阵。例如。系统200通过三个单独的批量矩阵乘法运算204、206和208来处理输入噪声信号202,三个单独的批量矩阵乘法运算204、206和208分别接收用于与输入噪声信号202进行乘法运算的可训练参数WQ、WK、WV。V表示值矩阵,K表示键矩阵(key matrix),Q表示查询矩阵(query matrix)。B表示批量大小,S表示序列大小,D表示输入维度。系统200通过各自的重塑(reshape)运算210、212和214来处理参数WQ、WK和WV,重塑运算210、212和214根据注意力头(attention head)H的数量来划分输入维数。系统200将关于WQ参数的重塑运算210的输出和关于WK参数的重塑运算212的输出处理成批量矩阵乘法运算216,批量矩阵乘法运算216产生如等式(1)中的分数矩阵:
Figure BDA0002481962060000041
其中,Qh是查询矩阵,
Figure BDA0002481962060000042
是键矩阵,h是头索引,d是输入维数,Sh是分数矩阵。如在等式(2)、(3)和(4)中那样计算Qh、Kh和Vh
Qh=reshape(WQV) (2)
Kh=reshape(WKV) (3)
Vh=reshape(WVV) (4)
其中,Qh和Kh具有相同的维数(B*H)×S×(D/H),并且“*”表示卷积运算。
在106,系统将高斯加权函数应用于生成的分数矩阵。
例如,系统200将分数矩阵与高斯加权(G.W.)函数218相乘以淡化(fade out)与其到目标帧的距离成比例的分数。高斯加权函数包括高斯加权矩阵,并且高斯加权矩阵可如等式(5)中那样来构造。
Figure BDA0002481962060000051
在此,i,j=1、2、……、S,S是正整数,并且其中,σ是大于0的实数。高斯矩阵的对角线具有最大值,并且对角线的权重从左到右相等地衰减。如等式(6)中,等式(5)中的高斯矩阵与分数矩阵按元素相乘。
Figure BDA0002481962060000052
系统200可如等式(7)中那样应用高斯加权函数,其中,Oi表示应用高斯加权函数的结果或输出。
Oi=(SoftMax(G⊙|Sh|))Vh (7)
等式(7)是高斯矩阵与分数矩阵的绝对值的按元素相乘。对于等式(7),Sh的绝对值被用于softmax输入,并且Sh的符号在softmax输出之后被补偿。这种两步法的原因是:与典型的NLP任务不同,信号估计中的负相关性与正相关性同样重要。应用softmax函数之前的高斯加权使相关性值衰减,而不管相关性值的符号。通过取分数的绝对值,自注意力将仅取决于分数大小。之后,当Vh矩阵被组合时,系统通过与符号矩阵Sign(Sh)相乘来补偿分数的符号。
系统200可如等式(8)中那样应用高斯加权函数。
Oi=(SoftMax(G⊙|Sh|)⊙Sign(Sh))Vh (8)
等式(8)是高斯矩阵与分数矩阵的绝对值的按元素相乘,分数矩阵的符号在应用softmax函数之后被补偿。等式(8)随后不补偿符号。由于Vh、Qh、Kh是可训练矩阵,因此即使没有显式的符号补偿,它们也可找到合适的符号。
系统200可如等式(9)中那样应用高斯加权函数。
Oi=(SoftMax(G⊙Sh))Vh (9)
等式(9)是高斯矩阵与分数矩阵的按元素相乘。等式(9)通过期望分数函数可学习翻转(flip)负号而不采用分数矩阵的绝对函数。等式(7)、(8)和(9)中的每个应用图2中所示的softmax运算220。系统使用softmax运算220的输出和重塑运算214的输出来执行批量矩阵乘法222。系统对批量矩阵乘法222的输出执行重塑运算224。系统使用重塑运算224的输出和WOUT来执行批量矩阵乘法运算226以产生输出228。
可选地,如等式(10)中,高斯加权函数218可在softmax运算220之后被应用。
Figure BDA0002481962060000061
在等式(10)中,因为负相关性将在softmax函数被应用之后被忽略,所以正相关被使用。
图3示出根据一个实施例的网络环境300中的电子装置301的框图。参照图3,网络环境300中的电子装置301可经由第一网络398(例如,短距离无线通信网络)与电子装置302通信,或者经由第二网络399(例如,长距离无线通信网络)与电子装置304或服务器308通信。电子装置301可经由服务器308与电子装置304通信。电子装置301可包括处理器320、存储器330、输入装置350、声音输出装置355、显示装置360、音频模块370、传感器模块376、接口377、触觉模块379、相机模块380、电源管理模块388、电池389、通信模块390、用户识别模块(SIM)396和/或天线模块397。在一个实施例中,可从电子装置301省略组件中的至少一个(例如,显示装置360或相机模块380),或者可将一个或多个其它组件添加到电子装置301。在一个实施例中,组件中的一些组件可被实现为单个集成电路(IC)。例如,传感器模块376(例如,指纹传感器、虹膜传感器或照度传感器)可被嵌入在显示装置360(例如,显示器)中。
处理器320可执行例如软件(例如,程序340)以控制电子装置301的与处理器320连接的至少一个其它组件(例如,硬件组件或软件组件),并且可执行各种数据处理或计算。作为数据处理或计算的至少部分,处理器320可将从另一组件(例如,传感器模块376或通信模块390)接收的命令或数据加载到易失性存储器332中,处理存储在易失性存储器332中的命令或数据,并且将结果数据存储在非易失性存储器334中。处理器320可包括主处理器321(例如,中央处理器(CPU)或应用处理器(AP))和辅助处理器323(例如,图形处理器(GPU)、图像信号处理器(ISP)、传感器集线器处理器或通信处理器(CP)),辅助处理器323可独立于主处理器321操作,或者与主处理器321一起操作。附加地或可选地,辅助处理器323可适于比主处理器321消耗更少的电力,或者执行特定功能。辅助处理器323可被实现为与主处理器321分离,或者被实现为主处理器321的部分。
辅助处理器323可在主处理器321处于非活动(例如,睡眠)状态时代替主处理器321,或者在主处理器321处于活动状态(例如,执行应用)时与主处理器321一起,控制与电子装置301的组件中的至少一个组件(例如,显示装置360、传感器模块376或通信模块390)相关的功能或状态中的至少一些。根据一个实施例,辅助处理器323(例如,图像信号处理器或通信处理器)可被实现为与辅助处理器323功能上相关的另一组件(例如,相机模块380或通信模块390)的部分。
存储器330可存储由电子装置301中的至少一个组件(例如,处理器320或传感器模块376)使用的各种数据。各种数据可包括例如软件(例如,程序340)和针对与其相关的命令的输入数据或输出数据。存储器330可包括易失性存储器332和/或非易失性存储器334。
程序340可作为软件存储在存储器330中,并且可包括例如操作系统(OS)342、中间件344和/或应用346。
输入装置350可从电子装置301的外部(例如,用户)接收将由电子装置301的其它组件(例如,处理器320)使用的命令或数据。输入装置350可包括例如麦克风、鼠标和/或键盘。
声音输出装置355可将声音信号输出到电子装置301的外部。声音输出装置355可包括例如扬声器和/或接收器。扬声器可用于一般目的(诸如,播放多媒体或记录),并且接收器可用于接收来电呼叫。根据一个实施例,接收器可被实现为与扬声器分离,或者作为扬声器的部分来实现。
显示装置360可视觉地向电子装置301的外部(例如,用户)提供信息。显示装置360可包括例如显示器、全息图装置和/或投影仪以及用于控制显示器、全息图装置和投影仪中的对应一个的控制电路。根据一个实施例,显示装置360可包括适于检测触摸的触摸电路,或者适于测量由触摸引起的力的强度的传感器电路(例如,压力传感器)。
音频模块370可将声音转换为电信号,反之亦然。根据一个实施例,音频模块370可经由输入装置350获得声音,或者经由声音输出装置355或者与电子装置301直接(例如,有线地)或无线地连接的外部电子装置302的耳机来输出声音。
传感器模块376可检测电子装置301的操作状态(例如,功率或温度)或电子装置301外部的环境状态(例如,用户的状态),然后生成与检测的状态对应的电信号或数据值。传感器模块376可包括例如姿态传感器、陀螺仪传感器、大气压力传感器、磁传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物计量传感器、温度传感器、湿度传感器和/或照度传感器。
接口377可支持将用于电子装置301与外部电子装置302直接(例如,有线地)或无线地连接的一个或多个特定协议。根据一个实施例,接口377可包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口和/或音频接口。
连接端子378可包括连接器,电子装置301可经由连接器与外部电子装置302物理连接。根据一个实施例,连接端子378可包括例如HDMI连接器、USB连接器、SD卡连接器和/或音频连接器(例如,耳机连接器)。
触觉模块379可将电信号转换为可经由触觉或动觉被用户识别的机械刺激(例如,振动或移动)或电刺激。根据一个实施例,触觉模块379可包括例如电机、压电元件和/或电刺激器。
相机模块380可捕获静止图像或运动图像。根据一个实施例,相机模块380可包括一个或多个镜头、图像传感器、图像信号处理器和/或闪光灯。
电源管理模块388可管理供应给电子装置301的电力。电源管理模块388可被实现为例如电源管理集成电路(PMIC)的至少部分。
电池389可向电子装置301的至少一个组件供应电力。根据一个实施例,电池389可包括例如不可再充电的一次电池、可再充电的二次电池或燃料电池。
通信模块390可支持在电子装置301与外部电子装置(例如,电子装置302、电子装置304或服务器308)之间建立直接(例如,有线)通信信道或无线通信信道,并且支持经由建立的通信信道执行通信。通信模块390可包括可独立于处理器320(例如,AP)进行操作并且支持直接(例如,有线)通信或无线通信的一个或多个通信处理器。根据一个实施例,通信模块390可包括无线通信模块392(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块394(例如,局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的对应的模块可经由第一网络398(例如,短距离通信网络(诸如,蓝牙(BluetoothTM)、无线保真(Wi-Fi)直连或红外数据协会(IrDA)的标准))或第二网络399(例如,长距离通信网络(诸如,蜂窝网络、互联网或计算机网络(例如,LAN或广域网(WAN)))与外部电子装置通信。这些各种类型的通信模块可被实现为单个组件(例如,单个IC),或者可被实现为彼此分离的多个组件(例如,多个IC)。无线通信模块392可使用存储在用户识别模块396中的用户信息(例如,国际移动用户标识(IMSI))来标识和认证通信网络(诸如,第一网络398或第二网络399)中的电子装置301。
天线模块397可向电子装置301的外部(例如,外部电子装置)发送信号或电力,或者从电子装置301的外部(例如,外部电子装置)接收信号或电力。根据一个实施例,天线模块397可包括一个或多个天线,由此,适合于在通信网络(诸如,第一网络398或第二网络399)中使用的通信方案的至少一个天线可例如通过通信模块390(例如,无线通信模块392)被选择。然后,可经由选择的至少一个天线在通信模块390与外部电子装置之间发送或接收信号或电力。
上述组件中的至少一些可经由外设间通信方案(例如,总线、通用输入输出(GPIO)、串行外围接口(SPI)或移动工业处理器接口(MIPI))相互连接并且在它们之间传递信号(例如,命令或数据)。
根据一个实施例,可经由与第二网络399连接的服务器308在电子装置301与外部电子装置304之间发送或接收命令或数据。电子装置302和304中的每个可以是与电子装置301相同类型或不同类型的装置。将在电子装置301处执行的操作的全部或一些可在外部电子装置302、外部电子装置304或外部电子装置308中的一个或多个处执行。例如,如果电子装置301应自动或者响应于来自用户或另一装置的请求来执行功能或服务,则电子装置301可请求一个或多个外部电子装置执行功能或服务的至少部分来代替执行功能或服务,或者除了执行功能或服务之外,电子装置301还可请求一个或多个外部电子装置执行功能或服务的至少部分。接收到请求的一个或多个外部电子装置可执行请求的功能或服务的至少部分或者与请求相关的附加功能或附加服务,并且将执行的结果传送到电子装置301。电子装置301可在对结果进行或不进行进一步处理的情况下提供结果,作为对请求的回复的至少部分。为此,例如,云计算、分布式计算或客户端-服务器计算技术可被使用。
一个实施例可被实现为软件(例如,程序340),软件包括存储在存储介质(例如,内部存储器336或外部存储器338)中的可由机器(例如,电子装置301)读取的一个或多个指令。例如,电子装置301的处理器可调用存储在存储介质中的一个或多个指令中的至少一个指令,并且在处理器的控制下使用或不使用一个或多个其它组件来执行至少一个指令。因此,机器可被操作以根据调用的至少一个指令执行至少一个功能。一个或多个指令可包括由编译器生成的代码或可由解释器执行的代码。机器可读存储介质可以以非暂时性存储介质的形式来提供。术语“非暂时性”指示存储介质是有形装置,并且不包括信号(例如,电磁波),但是这个术语不区分数据被半永久性地存储在存储介质中的情况和数据被临时存储在存储介质中的情况。
根据一个实施例,可在计算机程序产品中包括并提供公开的方法。计算机程序产品可在卖方与买方之间作为产品被交易。计算机程序产品可以以机器可读存储介质(例如,光盘只读存储器(CD-ROM))的形式分发,或者经由应用商店(例如,Play StoreTM)在线分发(例如,下载或上传),或者直接在两个用户装置(例如,智能电话)之间分发。如果在线分发,则计算机程序产品的至少部分可临时生成或至少临时存储在机器可读存储介质(诸如,制造商的服务器、应用商店的服务器或中继服务器的存储器)中。
根据一个实施例,上述组件中的每个组件(例如,模块或程序)可包括单个实体或多个实体。可省略上述组件中的一个或多个,或者可添加一个或多个其它组件。可选地或附加地,多个组件(例如,模块或程序)可被集成到单个组件中。在这种情况下,集成的组件仍然可以以与多个组件中的每个的一个或多个功能在集成之前由多个组件中的对应组件执行的方式相同或相似的方式执行多个组件中的每个的一个或多个功能。可顺序地、并行地、重复地或启发式地执行由模块、程序或另一组件执行的操作,或者可以以不同的顺序执行操作中的一个或多个或省略操作中的一个或多个,或者可添加一个或多个其它操作。
尽管本公开的特定实施例已经在本公开的具体实施方式中被描述,但是在不脱离本公开的范围的情况下,本公开可以以各种形式被修改。因此,本公开的范围不应仅基于描述的实施例来确定,而应基于所附权利要求及其等同物来确定。

Claims (20)

1.一种用于语音增强的高斯加权自注意力的方法,包括:
接收输入噪声信号;
基于接收到的输入噪声信号来生成分数矩阵;和
将高斯加权函数应用于生成的分数矩阵。
2.根据权利要求1所述的方法,其中,分数矩阵基于查询矩阵和键矩阵生成。
3.根据权利要求1所述的方法,其中,将高斯加权函数应用于生成的分数矩阵的步骤包括:将分数矩阵与高斯加权矩阵相乘。
4.根据权利要求1所述的方法,其中,将高斯加权函数应用于生成的分数矩阵的步骤包括:将高斯加权矩阵与分数矩阵的绝对值按元素相乘。
5.根据权利要求4所述的方法,其中,将高斯加权函数应用于生成的分数矩阵的步骤还包括:在将柔性最大函数应用于通过将高斯加权矩阵与分数矩阵的绝对值按元素相乘而产生的输出之后,补偿分数矩阵的符号。
6.根据权利要求1所述的方法,其中,将高斯加权函数应用于生成的分数矩阵的步骤包括:将高斯加权矩阵与分数矩阵按元素相乘。
7.根据权利要求1所述的方法,还包括:将柔性最大运算应用于通过将高斯加权函数应用于生成的分数矩阵而产生的输出。
8.根据权利要求1所述的方法,还包括:在将高斯加权函数应用于生成的分数矩阵之前,将柔性最大函数应用于生成的分数矩阵。
9.根据权利要求1所述的方法,其中,高斯加权函数包括高斯加权矩阵。
10.根据权利要求9所述的方法,其中,高斯加权矩阵是
Figure FDA0002481962050000011
其中,
Figure FDA0002481962050000012
其中,i,j=1、2、……、S,S是正整数,
其中,σ是大于0的实数。
11.一种用于语音增强的高斯加权自注意力的系统,包括:
存储器;和
处理器,被配置为:
接收输入噪声信号,
基于接收到的输入噪声信号来生成分数矩阵,和
将高斯加权函数应用于生成的分数矩阵。
12.根据权利要求11所述的系统,其中,分数矩阵基于查询矩阵和键矩阵生成。
13.根据权利要求11所述的系统,其中,处理器被配置为:通过将分数矩阵与高斯加权矩阵相乘来将高斯加权函数应用于生成的分数矩阵。
14.根据权利要求11所述的系统,其中,处理器被配置为:通过将高斯加权矩阵与分数矩阵的绝对值按元素相乘来将高斯加权函数应用于生成的分数矩阵。
15.根据权利要求14所述的系统,其中,处理器还被配置为:通过在将柔性最大函数应用于通过将高斯加权矩阵与分数矩阵的绝对值按元素相乘而产生的输出之后补偿分数矩阵的符号来将高斯加权函数应用于生成的分数矩阵。
16.根据权利要求11所述的系统,其中,处理器被配置为:通过将高斯加权矩阵与分数矩阵按元素相乘来将高斯加权函数应用于生成的分数矩阵。
17.根据权利要求11所述的系统,其中,处理器还被配置为:将柔性最大运算应用于通过将高斯加权函数应用于生成的分数矩阵而产生的输出。
18.根据权利要求11所述的系统,其中,处理器还被配置为:在将高斯加权函数应用于生成的分数矩阵之前,将柔性最大函数应用于生成的分数矩阵。
19.根据权利要求11所述的系统,其中,高斯加权函数包括高斯加权矩阵。
20.根据权利要求19所述的系统,其中,高斯加权矩阵是
Figure FDA0002481962050000021
其中,
Figure FDA0002481962050000022
其中,i,j=1、2、……、S,S是正整数,
其中,σ是大于0的实数。
CN202010380972.3A 2019-05-08 2020-05-08 用于语音增强的高斯加权自注意力的方法和系统 Pending CN111916097A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962844954P 2019-05-08 2019-05-08
US62/844,954 2019-05-08
US16/591,117 US11195541B2 (en) 2019-05-08 2019-10-02 Transformer with gaussian weighted self-attention for speech enhancement
US16/591,117 2019-10-02

Publications (1)

Publication Number Publication Date
CN111916097A true CN111916097A (zh) 2020-11-10

Family

ID=73047265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010380972.3A Pending CN111916097A (zh) 2019-05-08 2020-05-08 用于语音增强的高斯加权自注意力的方法和系统

Country Status (4)

Country Link
US (2) US11195541B2 (zh)
KR (1) KR102632247B1 (zh)
CN (1) CN111916097A (zh)
TW (1) TW202101430A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820329A (zh) * 2022-07-01 2022-07-29 之江实验室 基于高斯过程大核注意力装置引导的曲面测量方法及装置
CN115602152A (zh) * 2022-12-14 2023-01-13 成都启英泰伦科技有限公司(Cn) 一种基于多阶段注意力网络的语音增强方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11195541B2 (en) * 2019-05-08 2021-12-07 Samsung Electronics Co., Ltd Transformer with gaussian weighted self-attention for speech enhancement

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7523034B2 (en) * 2002-12-13 2009-04-21 International Business Machines Corporation Adaptation of Compound Gaussian Mixture models
US20040181409A1 (en) * 2003-03-11 2004-09-16 Yifan Gong Speech recognition using model parameters dependent on acoustic environment
US8170879B2 (en) * 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
EP1760696B1 (en) * 2005-09-03 2016-02-03 GN ReSound A/S Method and apparatus for improved estimation of non-stationary noise for speech enhancement
US7925502B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Pitch model for noise estimation
US8639502B1 (en) * 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
US10276179B2 (en) * 2017-03-06 2019-04-30 Microsoft Technology Licensing, Llc Speech enhancement with low-order non-negative matrix factorization
US11195541B2 (en) * 2019-05-08 2021-12-07 Samsung Electronics Co., Ltd Transformer with gaussian weighted self-attention for speech enhancement

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820329A (zh) * 2022-07-01 2022-07-29 之江实验室 基于高斯过程大核注意力装置引导的曲面测量方法及装置
CN115602152A (zh) * 2022-12-14 2023-01-13 成都启英泰伦科技有限公司(Cn) 一种基于多阶段注意力网络的语音增强方法
CN115602152B (zh) * 2022-12-14 2023-02-28 成都启英泰伦科技有限公司 一种基于多阶段注意力网络的语音增强方法

Also Published As

Publication number Publication date
US11195541B2 (en) 2021-12-07
US20220093116A1 (en) 2022-03-24
TW202101430A (zh) 2021-01-01
KR102632247B1 (ko) 2024-01-31
US20200357425A1 (en) 2020-11-12
KR20200130647A (ko) 2020-11-19

Similar Documents

Publication Publication Date Title
US20220093116A1 (en) Transformer with gaussian weighted self-attention for speech enhancement
US20200150598A1 (en) Method for processing data using neural network and electronic device for supporting the same
US20200241486A1 (en) Electronic device and method for determining task including plural actions
US11442554B2 (en) Electronic device and method for recommending word in same
US20220138633A1 (en) Method and apparatus for incremental learning
US20220067582A1 (en) Method and apparatus for continual few-shot learning without forgetting
CN113435568A (zh) 计算机实施的用于训练神经网络的方法和电子系统
US20230214713A1 (en) Method and apparatus for communication efficient federated learning with global model compression
CN111211821B (zh) 用于单连接天线阵列的模拟波束成形的系统和方法
US11699070B2 (en) Method and apparatus for providing rotational invariant neural networks
CN111211822A (zh) 特征值分解预编码矩阵指示选择
EP4086746A1 (en) Method and memory device for atomic processing of fused commands
US11929079B2 (en) Electronic device for managing user model and operating method thereof
US11556768B2 (en) Optimization of sparsified neural network layers for semi-digital crossbar architectures
TWI775951B (zh) 非疊代奇異值分解的裝置與方法
US20230410057A1 (en) Electronic device and method for performing operation related to software application for schedule management
US11575453B2 (en) Method and apparatus for providing enhanced reference signal received power estimation
US20230123312A1 (en) Electronic device including neural processing unit supporting different data types and method for controlling the same
EP4343766A1 (en) Electronic device for adjusting driving voltage of volatile memory, and operating method therefor
EP4231201A1 (en) Electronic device that performs calculations on basis of artificial intelligence model, and operating method therefor
US20220092383A1 (en) System and method for post-training quantization of deep neural networks with per-channel quantization mode selection
US11961505B2 (en) Electronic device and method for identifying language level of target
TWI812754B (zh) 進行非迭代性奇異值分解的裝置及方法
US20220004841A1 (en) Electronic device for rearranging kernels of neural network and operating method thereof
US20220343106A1 (en) Electronic device for processing data based on artificial intelligence model and method for operating the same

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination