CN113129922B - 语音信号的处理方法和装置 - Google Patents

语音信号的处理方法和装置 Download PDF

Info

Publication number
CN113129922B
CN113129922B CN202110431392.7A CN202110431392A CN113129922B CN 113129922 B CN113129922 B CN 113129922B CN 202110431392 A CN202110431392 A CN 202110431392A CN 113129922 B CN113129922 B CN 113129922B
Authority
CN
China
Prior art keywords
window
synthesis
length
analysis
convex optimization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110431392.7A
Other languages
English (en)
Other versions
CN113129922A (zh
Inventor
贺玉梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202110431392.7A priority Critical patent/CN113129922B/zh
Publication of CN113129922A publication Critical patent/CN113129922A/zh
Priority to PCT/CN2022/087653 priority patent/WO2022222922A1/zh
Application granted granted Critical
Publication of CN113129922B publication Critical patent/CN113129922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请公开了一种语音信号的处理方法和装置,属于信号处理技术领域。其中,所述语音信号的处理方法包括:选取接收的原始语音信号的分析窗和综合窗;依据预设的重构条件,基于分析窗和综合窗构建凸优化目标函数;其中,将所述综合窗作为待求解目标变量;对所述综合窗增加至少一种凸约束条件;基于所述凸优化目标函数和所述至少一种凸约束条件,对原始语音信号进行凸优化处理,得到重构后的语音信号。

Description

语音信号的处理方法和装置
技术领域
本申请属于信号处理技术领域,具体涉及一种语音信号的处理方法和装置、电子设备和存储介质。
背景技术
在手机通话、录音等语音信号处理领域,由于实际处理的语音是随着时间不断变化的,通常采用短时傅里叶变换(STFT)处理,STFT的应用也可以称为短时傅里叶分析(STFA)。在满足某些约束的条件下,STFA是可逆的,即可以恢复出原始的输入信号(假设未经其他信号处理),这种处理就是短时傅里叶综合(STFS)。STFA/STFS是多种语音信号处理的基础,包括各种语音编码和增强算法。
现有的STFA和STFS方法中,通过重构窗实现完美重构或近似完美重构,例如巴特莱特窗(Bartlett)、汉宁窗(Hann)、海明窗(Hamming)等。若不能实现完美重构或近似完美重构,那么重构后的语音信号中将存在人为干扰,这种干扰通常体现为语音幅度包络的周期调制,这通常是不希望产生的。在手机通话或录音增强中,这会造成增强后的信号质量会下降,影响主客观听觉质量评价。
现有技术的重构窗只能适用于某些特定信号的重构,例如帧长度和窗帧移长度的比例满足特定比例关系的重构窗。对于那些不能满足该比例关系的语音分析系统,则实现重构的效果较差。
发明内容
本申请实施例的目的是提供一种语音信号的处理方法和装置、电子设备和存储介质,能够解决对信号重构的效果较差的问题。
第一方面,本申请实施例提供了一种语音信号的处理方法,包括:
选取接收的原始语音信号的分析窗和综合窗;
依据预设的重构条件,基于所述分析窗和所述综合窗构建凸优化目标函数;其中,将所述综合窗作为待求解目标变量;
对所述综合窗增加至少一种凸约束条件;
基于所述凸优化目标函数和所述至少一种凸约束条件,对所述原始语音信号进行凸优化处理,得到重构后的语音信号。
第二方面,本申请实施例提供了一种语音信号的处理装置,包括:
窗函数选取模块,用于选取接收的原始语音信号的分析窗和综合窗;
凸优化函数构建模块,用于依据预设的重构条件,基于所述分析窗和所述综合窗构建凸优化目标函数;其中,将所述综合窗作为待求解目标变量;
增加条件模块,用于对所述综合窗增加至少一种凸约束条件;
优化处理模块,用于基于所述凸优化目标函数和所述至少一种凸约束条件,对所述原始语音信号进行凸优化处理,得到重构后的语音信号。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
在本申请实施例中,采用了分析窗和综合窗非匹配的设计方法,将综合窗作为待求解目标变量,这样凸优化的求解只在综合窗上进行,分析窗的选择不会对后续信号处理施加不利影响;另外还可以对综合窗附加至少一种凸约束条件,基于凸优化目标函数和至少一种凸约束条件,对原始语音信号进行凸优化处理,得到重构后的语音信号,从而可以对语音信号的重构过程提供更多的控制手段,摆脱了系统框架给定的固定帧长和窗帧移长度的比例约束,促进了语音增强质量的提升。
附图说明
图1是本申请实施例的语音信号的处理方法的流程示意图之一;
图2是本申请具体实例的分析窗、综合窗和凸优化目标函数的示意图之一;
图3是本申请具体实例的重构结果的示意图之一;
图4是本申请实施例的分析窗、综合窗和凸优化目标函数的示意图之二;
图5是本申请具体实例的重构结果的示意图之二;
图6是本申请具体实例的几种重构方法的重构频谱误差;
图7是本申请实施例的语音信号的处理装置的结构示意图;
图8是本申请实施例的电子设备的结构示意图;
图9是本申请实施例的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的语音信号的处理方法和装置、电子设备和存储介质进行详细地说明。
本申请实施例公开了一种语音信号的处理方法,参见图1,包括:
步骤101、选取接收的原始语音信号的分析窗和综合窗。
其中,分析窗wa(n)和综合窗ws(n)需要根据原始语音信号的处理需求而选择,同时给定窗长L和窗帧移1≤R≤L/2。
另外,综合窗ws(n),n=0,1,...,L-1作为待求解的目标变量,强制约束其为左右对称,即ws(n)=ws(L-1-n),那么待求解的目标变量数目减半,表现为ws(n),
Figure GDA0003082623190000041
(
Figure GDA0003082623190000042
表示向上取整)。
本实施例中,分析窗和综合窗的窗长相等。
步骤102、依据预设的重构条件,基于分析窗和综合窗构建凸优化目标函数;其中,将所述综合窗作为待求解目标变量。
本实施例的方法通过在综合窗进行凸优化求解,以实现一种分析窗和综合窗非匹配的设计方法,相比于传统的分析窗和综合窗的匹配设计方法具有更大的灵活性。这样,为了保持STFA中分析窗良好的频谱分离特性,分析窗可以近乎任意选择,这样没有对后续的信号处理施加任何附加的不利影响。
本实施例中,依据预设的重构条件基于乘积wa(n)×ws(n)的目标函数构建凸优化目标函数,使其重叠相加为常数。
具体地,步骤102包括下述步骤121~124:
步骤121、基于所述分析窗的长度和窗帧移,将所述分析窗进行补零到整数倍的窗帧移长度。
其中,整数倍通过分析窗的长度和窗帧移的比值来确定,通过将分析窗的长度和窗帧移的比值向上取整,得到对应的整数倍。
例如,分析窗的长度和窗帧移的比值为1.1,则取值整数倍为2。
步骤122、基于所述综合窗的长度和窗帧移,将所述综合窗进行补零到整数倍的窗帧移长度。
其中,整数倍通过综合窗的长度和窗帧移的比值来确定,通过将综合窗的长度和窗帧移的比值向上取整,得到对应的整数倍。
例如,综合窗的长度和窗帧移的比值为1.4,则取值整数倍为2。
步骤123、基于补零到整数倍的窗帧移长度的分析窗和综合窗、所述分析窗的长度和窗帧移以及所述综合窗的长度和窗帧移,构建中间函数。
具体地,构建的中间函数参见下式(1):
Figure GDA0003082623190000051
其中,s(r)为中间函数;
Figure GDA0003082623190000052
表示向上取整;
r为所述中间函数的自变量,取值范围为[0,R-1];
L表示所述分析窗以及综合窗的长度,R表示窗帧移;
wap(n)表示对输入的分析窗wa(n)补零到M×R长度后的分析窗;
wsp(n)表示对作为目标变量的综合窗ws(n)补零到M×R长度后的综合窗。
步骤124、基于所述中间函数构建所述凸优化目标函数。
具体地,步骤124包括下式(2):
Figure GDA0003082623190000053
其中,r为所述中间函数的自变量,取值范围为[0,R-1];
R表示窗帧移;
ws表示待求解目标变量为综合窗。
步骤103、对所述综合窗增加至少一种凸约束条件。
具体地,凸约束条件包括以下至少一种:
1)综合窗非负,即综合窗ws(n)非负,即ws(n)≥0,
Figure GDA0003082623190000054
2)综合窗的左半边单调递增,右半边单调递减,即
Figure GDA0003082623190000055
从而使综合窗具有钟形轮廓,能减小重构误差。
3)为所述综合窗施加主旁瓣比约束,即下式(3):
|Ws(ω)|≤|Ws(0)|×c(ω),ω∈[θ,π]; (公式3)
其中,c(ω),ω∈[θ,π]即为主旁瓣比约束,凸优化的实现中需要离散化处理。
ws表示作为待求解目标变量的综合窗。
步骤104、基于所述凸优化目标函数和所述至少一种凸约束条件,对所述原始语音信号进行凸优化处理,得到重构后的语音信号。
本实施例中,通过将完美重构条件作为目标函数,将对综合窗的要求作为凸约束条件,设计问题被构造为一个凸优化目标函数,通过一次求解而永久使用,使重构过程具有设计上的最优性。
进一步地,在为接收的原始语音信号选取分析窗和综合窗之后,所述方法还包括:将所述分析窗进行多个移位,得到移位后的分析窗。
步骤102包括:依据预设的重构条件,基于移位后的分析窗和综合窗重新构建凸优化目标函数。
具体地,重新构建的凸优化目标函数为下式(4):
Figure GDA0003082623190000061
其中,x表示分析窗的不同移位量;
λ(x)是对不同移位量x重视程度的加权因子;
ws表示待求解目标变量为综合窗;
sx(r)表示每个不同移位量x对应的中间函数,对于每个位移量x的中间函数参见上述公式(1)。
最终,凸优化问题及其约束条件的具体形式为公式(5)集合:
Figure GDA0003082623190000062
基于所述凸优化目标函数和凸约束条件,对所述语音信号进行凸优化处理,得到重构后的语音信号。
本实施例的语音信号的处理方法,采用了分析窗和综合窗非匹配的设计方法,将综合窗作为待求解目标变量,这样凸优化的求解只在综合窗上进行,分析窗的选择不会对后续信号处理施加不利影响;另外还可以对综合窗附加至少一种凸约束条件,基于凸优化目标函数和至少一种凸约束条件,对原始语音信号进行凸优化处理,得到重构后的语音信号,从而可以对语音信号的重构过程提供更多的控制手段,摆脱了系统框架给定的固定帧长和窗帧移长度的比例约束,促进了语音增强质量的提升。
另外,本实施例的方法的具体优势如下:
1)对于窗帧移R位于1≤R≤L/2的任意整数,都能以高精度实现完美重构,克服了传统窗应用上的不便。
2)本方法是一种分析窗和综合窗非匹配的设计方法,相比匹配设计方法具有更大的灵活性。为了保持STFA中分析窗良好的频谱分离特性,分析窗可以近乎任意选择,这样没有对后续的信号处理施加任何附加的不利影响。
本实施例的凸优化处理在综合窗上进行,除了要求综合窗满足完美重构条件外,还要求具有能减小重构误差的钟形轮廓;此外,还可附加其他约束条件,如对综合窗的频谱施加主旁瓣比约束,以及使其对信号小时移具有适应性(如语音波束形成中,存在小时延),表现出近似完美重构等。
3)本实施例的方法,在手机通话或录音增强中,摆脱了系统框架给定的固定帧长和窗帧移的约束,重构信号中不再有人造干扰,这促进了语音增强质量的提升;另一方面,灵活性的重构窗设计能够促进语音增强系统中诸多其他模块的性能提升,如回声消除、噪声抑制等模块的谱分析变得更自由,可以更多地权衡频谱泄漏和分辨率特性等,这一点同样有利于语音增强系统整体性能的提升。
为了进一步地对本实施例的语音信号的凸优化处理的结果进行示意性的说明,本实施例列举一个具体实例进行说明。
具体实例中,考虑48kHz的录音增强信号处理应用,选取分析窗为汉宁窗(Hann),窗长为1536,帧移为480。
图2~图3为第一种只考虑对综合窗的基本要求的设计结果。可以看到,Hann分析窗(综合窗为矩形窗)时的重构性能很差,会在重构信号中引入周期性的幅度失真调制,降低了录音增强质量,而设计方法实现了完美重构。
其中,图2中的wa为分析窗,ws为综合窗,sqrt(wa*ws)为凸优化目标函数。
图3中,波浪线代表Hann分析窗的重构结果,点状线代表完美重构的结果。由图3中可见,完美重构的结果重构增益接近1的常数。
图4和图5是第二种对综合窗考虑时延适应性和低旁瓣比要求的设计结果。其中,考虑分析窗的时延样本点为从0到30,以5为步长的情形。可以看到设计方法表现出了对分析窗小时延的完美重构特性。
其中,图4中的wa为分析窗,ws为综合窗,sqrt(wa*ws)为凸优化目标函数。
图5中,分别列举了时延样本点为0、5、10、15、20、25、30的重构结果。
最后,对线性调频信号进行简单的时移信号处理,图6给出了几种重构方法的重构频谱误差。显然这些结果与设计预期是相符的。
通过本实施例的方法,可有效缓解传统STFA和STFS方法处理语音信号的局限性,能够对完美重构过程提供更多的控制手段和设计空间,因而可期为移动手机的通话、录音和录像的语音增强信号处理带来性能上的提升。此外,通过凸优化对问题进行建模,使本实施例的方法具有设计上的最优性。
需要说明的是,本申请实施例提供的语音信号的处理方法,执行主体可以为语音信号的处理装置,或者该语音信号的处理装置中的用于执行加载语音信号的处理方法的控制模块。本申请实施例中以语音信号的处理装置执行加载语音信号的处理方法为例,说明本申请实施例提供的语音信号的处理方法。
本申请实施例公开了一种语音信号的处理装置,参见图7,包括:
窗函数选取模块701,用于选取接收的原始语音信号的分析窗和综合窗;
凸优化函数构建模块702,用于依据预设的重构条件,基于所述分析窗和所述综合窗构建凸优化目标函数;其中,将所述综合窗作为待求解目标变量;
增加条件模块703,用于对所述综合窗增加至少一种凸约束条件;
优化处理模块704,用于基于所述凸优化目标函数和所述至少一种凸约束条件,对所述原始语音信号进行凸优化处理,得到重构后的语音信号。
可选地,所述凸优化函数构建模块702,具体用于:
基于所述分析窗的长度和窗帧移,将所述分析窗进行补零到整数倍的窗帧移长度;
基于所述综合窗的长度和窗帧移,将所述综合窗进行补零到整数倍的窗帧移长度;
基于补零到整数倍的窗帧移长度的分析窗和综合窗、所述分析窗的长度和窗帧移以及所述综合窗的长度和窗帧移,构建中间函数;
基于所述中间函数构建所述凸优化目标函数。
可选地,所述凸优化函数构建模块702构建的中间函数,包括下式(6):
Figure GDA0003082623190000091
其中,s(r)为中间函数;
Figure GDA0003082623190000092
表示向上取整;
r为所述中间函数的自变量,取值范围为[0,R-1];
L表示所述分析窗以及综合窗的长度,R表示窗帧移;
wap(n)表示对输入的分析窗wa(n)补零到M×R长度后的分析窗;
wsp(n)表示对作为目标变量的综合窗ws(n)补零到M×R长度后的综合窗;
所述凸优化函数构建模块702基于中间函数构建的凸优化目标函数包括下式(7):
Figure GDA0003082623190000093
其中,r为所述中间函数的自变量,取值范围为[0,R-1];
R表示窗帧移;
ws表示待求解目标变量为综合窗。
可选地,所述凸约束条件包括以下至少一种:
所述综合窗非负;
所述综合窗的左半边单调递增,右半边单调递减;
为所述综合窗施加主旁瓣比约束。
可选地,所述装置还包括:移位模块,用于将所述分析窗进行多个移位,得到移位后的分析窗;
所述凸优化函数构建模块702,具体用于:依据预设的重构条件,基于移位后的分析窗和综合窗重新构建凸优化目标函数。
可选地,所述凸优化函数构建模块702重新构建的凸优化目标函数包括下式(8):
Figure GDA0003082623190000101
其中,x表示分析窗的不同移位量;
λ(x)是对不同移位量x重视程度的加权因子;
ws表示待求解目标变量为综合窗;
sx(r)表示每个不同移位量x对应的中间函数,对于每个位移量x的中间函数包括下式(9):
Figure GDA0003082623190000102
其中,
Figure GDA0003082623190000103
表示向上取整;
r为自变量,取值范围为[0,R-1];
L表示分析窗以及综合窗的长度,R表示窗帧移;
wap(n)表示对输入的分析窗wa(n)补零到M×R长度后的分析窗;
wsp(n)表示对作为目标变量的综合窗ws(n)补零到M×R长度后的综合窗。
本申请实施例中的语音信号的处理装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的语音信号的处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的语音信号的处理装置能够实现图1至图6的方法实施例中拍摄装置实现的各个过程,为避免重复,这里不再赘述。
本申请实施例的语音信号的处理装置,采用了分析窗和综合窗非匹配的设计方法,将综合窗作为待求解目标变量,这样凸优化的求解只在综合窗上进行,分析窗的选择不会对后续信号处理施加不利影响;另外还可以对综合窗附加至少一种凸约束条件,基于凸优化目标函数和至少一种凸约束条件,对原始语音信号进行凸优化处理,得到重构后的语音信号,从而可以对语音信号的重构过程提供更多的控制手段,摆脱了系统框架给定的固定帧长和窗帧移长度的比例约束,促进了语音增强质量的提升。
可选地,如图8所示,本申请实施例还提供一种电子设备800,包括处理器801,存储器802,存储在存储器802上并可在所述处理器801上运行的程序或指令,该程序或指令被处理器801执行时实现上述语音信号的处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图9为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备900包括但不限于:射频单元901、网络模块902、音频输出单元903、输入单元904、传感器905、显示单元906、用户输入单元907、接口单元908、存储器909、以及处理器910等部件。
本领域技术人员可以理解,电子设备900还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器910逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器910,用于:
选取接收的原始语音信号的分析窗和综合窗;
依据预设的重构条件,基于所述分析窗和所述综合窗构建凸优化目标函数;其中,将所述综合窗作为待求解目标变量;
对所述综合窗增加至少一种凸约束条件;
基于所述凸优化目标函数和所述至少一种凸约束条件,对所述原始语音信号进行凸优化处理,得到重构后的语音信号。
本实施例的电子设备,采用了分析窗和综合窗非匹配的设计方法,将综合窗作为待求解目标变量,这样凸优化的求解只在综合窗上进行,分析窗的选择不会对后续信号处理施加不利影响;另外还可以对综合窗附加至少一种凸约束条件,基于凸优化目标函数和至少一种凸约束条件,对原始语音信号进行凸优化处理,得到重构后的语音信号,从而可以对语音信号的重构过程提供更多的控制手段,摆脱了系统框架给定的固定帧长和窗帧移长度的比例约束,促进了语音增强质量的提升。
可选地,处理器910,还用于:
基于所述分析窗的长度和窗帧移,将所述分析窗进行补零到整数倍的窗帧移长度;
基于所述综合窗的长度和窗帧移,将所述综合窗进行补零到整数倍的窗帧移长度;
基于补零到整数倍的窗帧移长度的分析窗和综合窗、所述分析窗的长度和窗帧移以及所述综合窗的长度和窗帧移,构建中间函数;
基于所述中间函数构建所述凸优化目标函数。
可选地,所述凸约束条件包括以下至少一种:
所述综合窗非负;
所述综合窗的左半边单调递增,右半边单调递减;
为所述综合窗施加主旁瓣比约束。
可选地,处理器910,还用于:将所述分析窗进行多个移位,得到移位后的分析窗;
依据预设的重构条件,基于移位后的分析窗和综合窗重新构建凸优化目标函数。
应理解的是,本申请实施例中,输入单元904可以包括图形处理器(GraphicsProcessing Unit,GPU)9041和麦克风9042,图形处理器9041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元906可包括显示面板9061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板9061。用户输入单元907包括触控面板9071以及其他输入设备9072。触控面板9071,也称为触摸屏。触控面板9071可包括触摸检测装置和触摸控制器两个部分。其他输入设备9072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器909可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器910可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器910中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述语音信号的处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述语音信号的处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (8)

1.一种语音信号的处理方法,其特征在于,包括:
选取接收的原始语音信号的分析窗和综合窗;
依据预设的重构条件,基于所述分析窗和所述综合窗构建凸优化目标函数;其中,将所述综合窗作为待求解目标变量;
对所述综合窗增加至少一种凸约束条件;
基于所述凸优化目标函数和所述至少一种凸约束条件,对所述原始语音信号进行凸优化处理,得到重构后的语音信号;
其中,依据预设的重构条件,基于所述分析窗和所述综合窗构建凸优化目标函数,包括:
基于所述分析窗的长度和窗帧移,将所述分析窗进行补零到整数倍的窗帧移长度;
基于所述综合窗的长度和窗帧移,将所述综合窗进行补零到整数倍的窗帧移长度;
基于补零到整数倍的窗帧移长度的分析窗和综合窗、所述分析窗的长度和窗帧移以及所述综合窗的长度和窗帧移,构建中间函数;
基于所述中间函数构建所述凸优化目标函数。
2.根据权利要求1所述的语音信号的处理方法,其特征在于,所述凸约束条件包括以下至少一种:
所述综合窗非负;
所述综合窗的左半边单调递增,右半边单调递减;
为所述综合窗施加主旁瓣比约束。
3.根据权利要求1所述的语音信号的处理方法,其特征在于,在选取接收的原始语音信号的分析窗和综合窗之后,所述方法还包括:
将所述分析窗进行多个移位,得到移位后的分析窗;
依据预设的重构条件,基于分析窗和综合窗构建凸优化目标函数,包括:
依据预设的重构条件,基于移位后的分析窗和综合窗重新构建凸优化目标函数。
4.根据权利要求3所述的语音信号的处理方法,其特征在于,所述重新构建的凸优化目标函数包括:
Figure 60558DEST_PATH_IMAGE001
其中,x表示分析窗的不同移位量;
Figure 899070DEST_PATH_IMAGE002
是对不同移位量x重视程度的加权因子;
Figure 882070DEST_PATH_IMAGE003
表示待求解目标变量为综合窗;
Figure 198651DEST_PATH_IMAGE004
表示每个不同移位量x对应的中间函数,对于每个移位量x的中间函数:
Figure 747444DEST_PATH_IMAGE005
其中,
Figure 38748DEST_PATH_IMAGE006
表示向上取整;
r为自变量,取值范围为[0,R-1];
L表示分析窗以及综合窗的长度,R表示窗帧移;
Figure 774622DEST_PATH_IMAGE007
表示对输入的分析窗
Figure 682843DEST_PATH_IMAGE008
补零到
Figure 820563DEST_PATH_IMAGE009
长度后的分析窗;
Figure 17189DEST_PATH_IMAGE010
表示对作为目标变量的综合窗
Figure 489628DEST_PATH_IMAGE011
补零到
Figure 961060DEST_PATH_IMAGE009
长度后的综合窗。
5.一种语音信号的处理装置,其特征在于,包括:
窗函数选取模块,用于选取接收的原始语音信号的分析窗和综合窗;
凸优化函数构建模块,用于依据预设的重构条件,基于所述分析窗和所述综合窗构建凸优化目标函数;其中,将所述综合窗作为待求解目标变量;
增加条件模块,用于对所述综合窗增加至少一种凸约束条件;
优化处理模块,用于基于所述凸优化目标函数和所述至少一种凸约束条件,对所述原始语音信号进行凸优化处理,得到重构后的语音信号;
其中,所述凸优化函数构建模块,具体用于:
基于所述分析窗的长度和窗帧移,将所述分析窗进行补零到整数倍的窗帧移长度;
基于所述综合窗的长度和窗帧移,将所述综合窗进行补零到整数倍的窗帧移长度;
基于补零到整数倍的窗帧移长度的分析窗和综合窗、所述分析窗的长度和窗帧移以及所述综合窗的长度和窗帧移,构建中间函数;
基于所述中间函数构建所述凸优化目标函数。
6.根据权利要求5所述的语音信号的处理装置,其特征在于,所述凸约束条件包括以下至少一种:
所述综合窗非负;
所述综合窗的左半边单调递增,右半边单调递减;
为所述综合窗施加主旁瓣比约束。
7.根据权利要求5所述的语音信号的处理装置,其特征在于,所述装置还包括:移位模块,用于将所述分析窗进行多个移位,得到移位后的分析窗;
所述凸优化函数构建模块,具体用于:依据预设的重构条件,基于移位后的分析窗和综合窗重新构建凸优化目标函数。
8.根据权利要求7所述的语音信号的处理装置,其特征在于,所述凸优化函数构建模块重新构建的凸优化目标函数包括:
Figure 687708DEST_PATH_IMAGE012
其中,x表示分析窗的不同移位量;
Figure 586394DEST_PATH_IMAGE013
是对不同移位量x重视程度的加权因子;
Figure 546128DEST_PATH_IMAGE014
表示待求解目标变量为综合窗;
Figure 290093DEST_PATH_IMAGE015
表示每个不同移位量x对应的中间函数,对于每个移位量x的中间函数:
Figure 402406DEST_PATH_IMAGE016
其中,
Figure 206414DEST_PATH_IMAGE017
表示向上取整;
r为自变量,取值范围为[0,R-1];
L表示分析窗以及综合窗的长度,R表示窗帧移;
Figure 653445DEST_PATH_IMAGE007
表示对输入的分析窗
Figure 201101DEST_PATH_IMAGE018
补零到
Figure 167920DEST_PATH_IMAGE009
长度后的分析窗;
Figure 408408DEST_PATH_IMAGE019
表示对作为目标变量的综合窗
Figure 80085DEST_PATH_IMAGE020
补零到
Figure 431432DEST_PATH_IMAGE009
长度后的综合窗。
CN202110431392.7A 2021-04-21 2021-04-21 语音信号的处理方法和装置 Active CN113129922B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110431392.7A CN113129922B (zh) 2021-04-21 2021-04-21 语音信号的处理方法和装置
PCT/CN2022/087653 WO2022222922A1 (zh) 2021-04-21 2022-04-19 语音信号的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110431392.7A CN113129922B (zh) 2021-04-21 2021-04-21 语音信号的处理方法和装置

Publications (2)

Publication Number Publication Date
CN113129922A CN113129922A (zh) 2021-07-16
CN113129922B true CN113129922B (zh) 2022-11-08

Family

ID=76778667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110431392.7A Active CN113129922B (zh) 2021-04-21 2021-04-21 语音信号的处理方法和装置

Country Status (2)

Country Link
CN (1) CN113129922B (zh)
WO (1) WO2022222922A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129922B (zh) * 2021-04-21 2022-11-08 维沃移动通信有限公司 语音信号的处理方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999027523A1 (fr) * 1997-11-21 1999-06-03 Sextant Avionique Procede de reconstruction, apres debruitage, de signaux sonores
CN103295577A (zh) * 2013-05-27 2013-09-11 深圳广晟信源技术有限公司 用于音频信号编码的分析窗切换方法和装置
CN109817234A (zh) * 2019-03-06 2019-05-28 哈尔滨工业大学(深圳) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质
CN111383646A (zh) * 2018-12-28 2020-07-07 广州市百果园信息技术有限公司 一种语音信号变换方法、装置、设备和存储介质
CN111653287A (zh) * 2020-06-04 2020-09-11 重庆邮电大学 基于dnn和频带内互相关系数的单通道语音增强算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6303340B2 (ja) * 2013-08-30 2018-04-04 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
CN113129922B (zh) * 2021-04-21 2022-11-08 维沃移动通信有限公司 语音信号的处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999027523A1 (fr) * 1997-11-21 1999-06-03 Sextant Avionique Procede de reconstruction, apres debruitage, de signaux sonores
CN103295577A (zh) * 2013-05-27 2013-09-11 深圳广晟信源技术有限公司 用于音频信号编码的分析窗切换方法和装置
CN111383646A (zh) * 2018-12-28 2020-07-07 广州市百果园信息技术有限公司 一种语音信号变换方法、装置、设备和存储介质
CN109817234A (zh) * 2019-03-06 2019-05-28 哈尔滨工业大学(深圳) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质
CN111653287A (zh) * 2020-06-04 2020-09-11 重庆邮电大学 基于dnn和频带内互相关系数的单通道语音增强算法

Also Published As

Publication number Publication date
WO2022222922A1 (zh) 2022-10-27
CN113129922A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN111341336B (zh) 一种回声消除方法、装置、终端设备及介质
CN111508519B (zh) 一种音频信号人声增强的方法及装置
US20220270638A1 (en) Method and apparatus for processing live stream audio, and electronic device and storage medium
CN110797041B (zh) 语音降噪处理方法、装置、计算机设备及存储介质
CN111402917B (zh) 音频信号处理方法及装置、存储介质
CN107833579B (zh) 噪声消除方法、装置及计算机可读存储介质
CN111429933B (zh) 音频信号的处理方法及装置、存储介质
CN111179960B (zh) 音频信号处理方法及装置、存储介质
EP4254408A1 (en) Speech processing method and apparatus, and apparatus for processing speech
CN111009257B (zh) 一种音频信号处理方法、装置、终端及存储介质
US8498429B2 (en) Acoustic correction apparatus, audio output apparatus, and acoustic correction method
KR20160076059A (ko) 디스플레이장치 및 그 반향 제거방법
US20230298611A1 (en) Speech enhancement
CN113129922B (zh) 语音信号的处理方法和装置
WO2022143522A1 (zh) 音频信号处理方法、装置和电子设备
CN113496706B (zh) 音频处理方法、装置、电子设备及存储介质
CN115273822A (zh) 音频处理方法、装置、电子设备及介质
CN115295024A (zh) 信号处理方法、装置、电子设备及介质
CN102598128A (zh) 信号处理方法、信息处理装置及用于存储信号处理程序的存储介质
CN113823312A (zh) 语音增强模型生成方法和装置、语音增强方法和装置
CN111245490A (zh) 宽带信号提取方法、装置及电子设备
CN114900730B (zh) 延时估计稳态值的获取方法、装置、电子设备和存储介质
CN113281704B (zh) 方位角确定方法、装置、电子设备和介质
CN113395539B (zh) 音频降噪方法、装置、计算机可读介质和电子设备
CN110931038B (zh) 一种语音增强方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant