CN116711007A - 一种语音增强方法和系统 - Google Patents
一种语音增强方法和系统 Download PDFInfo
- Publication number
- CN116711007A CN116711007A CN202180068601.4A CN202180068601A CN116711007A CN 116711007 A CN116711007 A CN 116711007A CN 202180068601 A CN202180068601 A CN 202180068601A CN 116711007 A CN116711007 A CN 116711007A
- Authority
- CN
- China
- Prior art keywords
- signal
- band
- sub
- frequency domain
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 216
- 238000012545 processing Methods 0.000 claims abstract description 320
- 238000005070 sampling Methods 0.000 claims description 107
- 238000003672 processing method Methods 0.000 claims description 54
- 230000002708 enhancing effect Effects 0.000 claims description 37
- 238000012795 verification Methods 0.000 claims description 29
- 230000036961 partial effect Effects 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 11
- 230000001502 supplementing effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 description 27
- 230000009467 reduction Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 14
- 238000001914 filtration Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 230000002829 reductive effect Effects 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 8
- 230000000670 limiting effect Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000009499 grossing Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000003190 augmentative effect Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 description 1
- 241000579895 Chlorostilbon Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种语音增强方法和系统,包括:获取目标语音的第一信号和第二信号(410),第一信号和所述第二信号为目标语音在不同语音采集位置的语音信号;基于第一信号和/或第二信号确定目标语音的目标信噪比(420);基于目标信噪比确定对第一信号和第二信号的处理方式(430);基于确定的处理方式对第一信号和第二信号进行处理,得到目标语音对应的语音增强后的输出语音信号(440)。
Description
本申请涉及计算机技术领域,特别涉及语音增强的处理方法和系统。
随着科技的飞速前进,在通讯、语音采集等技术领域,对语音信号的质量要求越来越高。在进行语音通话和语音信号采集等场景中,会存在环境噪声、他人语音等各种噪声信号干扰,导致采集的目标语音不是干净的语音信号,影响了语音信号的质量,导致听不清语音、通话质量不高等问题。
因此,亟需提供一种语音增强方法和系统。
发明内容
本说明书另一个方面提供一种语音增强方法,包括:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;基于所述第一信号或所述第二信号确定所述目标语音的目标信噪比;基于所述目标信噪比确定对所述第一信号和所述第二信号的处理方式;以及基于确定的所述处理方式对所述第一信号和所述第二信号进行处理,得到所述目标语音对应的语音增强后的输出语音信号。
本说明书另一个方面提供一种语音增强系统,包括:第一语音获取模块,用于获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;信噪比确定模块:用于基于所述第一信号或所述第二信号确定所述目标语音的目标信噪比;信噪比判别模块:用于基于所述目标信噪比确定对所述第一信号和所述第二信号的处理方式;第一增强处理模块,用于基于确定的所述处理方式对所述第一信号和所述第二信号进行处理,得到所述目标语音对应的语音增强后的输出语音信号。
本说明书另一个方面提供另一种语音增强方法,包括:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;采用第一处理方法处理所述第一信号的低频部分和所述第二信号的低频部分,得到对所述目标语音的低频部分进行增强的第一输出语音信号;采用第二处理方法处理所述第一信号的高频部分和所述第二信号的高频部分,得到对所述目标语音的高频部分进行增强的第二输出语音信号;合并所述第一输出语音信号和所述第二输出语音信号, 得到所述目标语音对应的语音增强后的输出语音信号。
本说明书另一个方面提供另一种语音增强系统,包括:第二语音获取模块,用于获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;第二增强处理模块,用于采用第一处理方法处理所述第一信号的低频部分和所述第二信号的低频部分,得到对所述目标语音的低频部分进行增强的第一输出语音信号;采用第二处理方法处理所述第一信号的高频部分和所述第二信号的高频部分,得到对所述目标语音的高频部分进行增强的第二输出语音信号;第二处理输出模块,用于合并所述第一输出语音信号和所述第二输出语音信号,得到所述目标语音对应的语音增强后的输出语音信号。
本说明书一个方面提供另一种语音增强方法,包括:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;对所述第一信号和所述第二信号分别进行降采样,分别得到第一降采样信号和第二降采样信号;处理所述第一降采样信号和所述第二降采样信号,得到所述目标语音对应的增强语音信号;将所述增强语音信号中与第一降采样信号和/或第二降采样信号对应的部分信号进行升采样,得到所述目标语音对应的输出语音信号。
本说明书另一个方面提供另一种语音增强系统,第三语音获取模块,用于获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;第三采样模块,用于对所述第一信号和所述第二信号分别进行降采样,分别得到第一降采样信号和第二降采样信号;第三增强处理模块,用于处理所述第一降采样信号和所述第二降采样信号,得到所述目标语音对应的增强语音信号;第三处理输出模块,用于将所述增强语音信号中与第一降采样信号和/或第二降采样信号对应的部分信号进行升采样,得到所述目标语音对应的输出语音信号。
本说明书另一个方面提供另一种语音增强方法,包括:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;确定所述第一信号对应的至少一个第一子带信号和所述第二信号对应的至少一个第二子带信号;基于所述至少一个第一子带信号和/或所述至少一个第二子带信号确定所述目标语音的至少一个子带目标信噪比;基于所述至少一个子带目标信噪比确定对所述至少一个第一子带信号和所述至少一个第二子带信号的处理方式;以及基于确定的所述处理方式对所述至少一个第一子带信号和所述至少一个第二子带信号进行处理,得到所述目标语音对应的语音增强后的输出语音信号。
本说明书另一个方面提供另一种语音增强系统,包括:第四语音获取模块,用于获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;子带确定模块:用于确定所述第一信号对应的至少一个第一子带信号和所述第二信号对应的至少一个第二子带信号;子带信噪比确定模块:用于基于所述至少一个第一子带信号和/或所述至少一个第二子带信号确定所述目标语音的至少一个子带目标信噪比;子带信噪比判别模块:用于基于所述至少一个子带目标信噪比确定对所述至少一个第一子带信号和所述至少一个第二子带信号的处理方式;第四增强处理模块:用于基于确定的所述处理方式对所述至少一个第一子带信号和所述至少一个第二子带信号进行处理,得到所述目标语音对应的语音增强后的输出语音信号。
本说明书另一个方面提供一种语音增强装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现前述任一种所述语音增强方法。
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的语音增强系统的应用场景示意图;
图2是根据本申请的一些实施例所示的示例性计算设备的示例性硬件和/或软件组件的示意图;
图3是根据本申请的一些实施例所示的示例性移动设备的示例性硬件和/或软件组件的示意图;
图4是根据本说明书一些实施例所示的一种语音增强方法的示例性流程图;
图5是根据本说明书一些实施例所示的另一种语音增强方法的示例性流程图;
图6是根据本说明书一些实施例所示的另一种语音增强方法的示例性流程图;
图7是根据本说明书一些实施例所示的另一种第一处理方法的示例性流程图;
图8是根据本说明书一些实施例所示的另一种语音增强方法的示例性流程图;
图9为根据本说明书一些实施例所示的目标语音对应的原始信号、降噪处理后得到的信号增强频域信号S和增强频域信号SS的示意图;
图10为根据本说明书一些实施例所示的一种语音增强系统的示例性框图;
图11为根据本说明书一些实施例所示的另一种语音增强系统的示例性框图;
图12为根据本说明书一些实施例所示的另一种语音增强系统的示例性框图;
图13为根据本说明书一些实施例所示的另一种语音增强系统的示例性框图。
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本说明书一些实施例所示的语音增强的系统的应用场景示意图。
本说明书的一些实施例所示的语音增强系统100可以应用在各种软件、系统、平台、设备中以实现语音信号的增强处理。例如,可以应用在对各种软件、系统、平台、设备获取的用户语音信号进行语音增强处理,还可以应用在使用设备(如手机、平板、计算机、耳机等)进行语音通话时进行语音增强处理。
在语音通话场景中,会存在环境噪声、他人语音等各种噪声信号干扰,导致采集的目标语音不是干净的语音信号。为了提高语音通话的质量,需要对目标语音进行噪声滤除、语音信号增强等语音增强处理以得到干净的语音信号。本说明书提出一种语音增强的系统和方法,可以实现对例如上述语音通话场景中的目标语音进行语音增 强处理。
如图1所示,语音增强系统100可以包括处理设备110、采集设备120、终端130、存储设备140、网络150。
在一些实施例中,处理设备110可以处理从其他设备或系统组成部分中获得的数据和/或信息。处理设备110可以基于这些数据、信息和/或处理结果执行程序指令,以执行一个或多个本说明书中描述的功能。如,处理设备可以接收目标语音的第一信号和第二信号并进行处理,输出语音增强后的输出语音信号。
在一些实施例中,处理设备110可以是单个的处理设备或者处理设备群组,例如服务器或服务器群组。所述处理设备群组可以是集中式的或分布式的(例如,处理设备110可以是分布式的系统)。在一些实施例中,处理设备110可以是本地的或远程的。例如,处理设备110可以通过网络150访问采集设备120、终端130、存储设备140中的信息和/或数据。再例如,处理设备110可以直接连接到采集设备120、终端130、存储设备140以访问存储的信息和/或数据。在一些实施例中,处理设备110可以在一个云平台上实现。仅作为示例,所述云平台可以包括私有云、公共云、混合云、社区云、分布云、云之间、多重云等或上述举例的任意组合。在一些实施例中,处理设备110可以在与本申请图2所示的计算设备上实现。例如,处理设备110可以在如图2所示的一个计算设备200中的一个或多个部件上实现。
在一些实施例中,处理设备110可以包括处理引擎112。处理引擎112可处理与语音增强有关的数据和/或信息以执行一个或多个本申请中描述的方法或功能。例如,处理引擎112可以获取目标语音、目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音对应的在不同语音采集位置的语音信号。在一些实施例中,处理引擎112可以对第一信号和第二信号分别进行降采样,分别得到第一降采样信号和第二降采样信号;处理所述第一降采样信号和所述第二降采样信号,得到所述目标语音对应的增强语音信号;将增强语音信号中与第一降采样信号和/或第二降采样信号对应的部分信号进行升采样,得到目标语音对应的输出语音信号。在一些实施例中,处理引擎112可以采用第一处理方法处理第一信号的低频部分和第二信号的低频部分,得到对目标语音的低频部分进行增强的第一输出语音信号;采用第二处理方法处理第一信号的高频部分和第二信号的高频部分,得到对目标语音的高频部分进行增强的第二输出语音信号;合并第一输出语音信号和第二输出语音信号,得到目标语音对应的语音增强后的输出语音信号。在一些实施例中,处理引擎112可以基于第一信号或第二信号确定目标 语音的目标信噪比;基于目标信噪比确定对第一信号和第二信号的处理方式;以及基于确定的处理方式对第一信号和第二信号进行处理,得到目标语音对应的语音增强后的输出语音信号。在一些实施例中,处理引擎112可以确定第一信号对应的至少一个第一子带信号和第二信号对应的至少一个第二子带信号;基于至少一个第一子带信号或至少一个第二子带信号确定目标语音的至少一个子带目标信噪比;基于至少一个子带目标信噪比确定对至少一个第一子带信号和至少一个第二子带信号的处理方式;以及基于确定的处理方式对至少一个第一子带信号和至少一个第二子带信号进行处理,得到目标语音对应的语音增强后的输出语音信号。
在一些实施例中,处理引擎112可以包括一个或以上处理引擎(例如,单芯片处理引擎或多芯片处理器)。仅作为示例,处理引擎112可以包括中央处理单元(CPU)、专用集成电路(ASIC)、专用指令集处理器(ASIP)、图像处理单元(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可程序门阵列(FPGA)、可程序逻辑装置(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等或以上任意组合。在一些实施例中,处理引擎112可以集成在采集设备120或终端130中。
在一些实施例中,采集设备120可以用于采集目标语音的语音信号,例如用于采集目标语音的第一信号和第二信号。在一些实施例中,采集设备120可以是单个的采集设备,或者是多个采集设备构成的群组。在一些实施例中,采集设备120可以是包含一个或多个麦克风或其它声音传感器例如120-1、120-2,...,120-n的设备(如手机、耳机、对讲机、平板、计算机等)。例如,采集设备120可以包括至少两个麦克风,所述至少两个麦克风之间相隔一定的距离。当采集设备120对用户语音进行采集时,所述至少两个麦克风可以在不同的位置同时采集来自用户嘴部的声音。所述至少两个麦克风可以包括第一麦克风和第二麦克风。第一麦克风可以位于距离用户嘴部较近的位置,第二麦克风可以位于距离用户嘴部较远的位置,第二麦克风与第一麦克风的连线可以向用户嘴部所在的位置延伸。
采集设备120可以将采集的语音转换为电信号,并发送至处理设备110进行处理。例如,上述第一麦克风和第二麦克风可以将采集得到用户语音分别转化为第一信号和第二信号。处理设备110可以基于第一信号和第二信号实现对语音的增强处理。
在一些实施例中,采集设备120可以通过网络150与处理设备110、终端130、存储设备140进行传输信息和/或数据。在一些实施例中,采集设备120可以直接连接 到处理设备110或存储设备140以传输信息和/或数据。例如,采集设备120和处理设备110可以是同一个电子设备(例如,耳机、眼镜等)上的不同部分,并通过金属导线连接。
在一些实施例中,终端130可以是用户或其它实体使用的终端,例如可以是目标语音对应的声源(人或其它实体)使用的终端,也可以是与目标语音对应的声源(人或其它实体)进行语音通话的其它用户或实体使用的终端。
在一些实施例中,终端130可以包括移动设备130-1、平板电脑130-2、笔记本电脑130-3等或其任意组合。在一些实施例中,移动设备130-1可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、增强现实设备等或其任意组合。在一些实施例中,智能家居设备可以包括智能照明设备、智能电器控制设备、智能监控设备、智能电视、智能摄像机、对讲机等或其任意组合。在一些实施例中,可穿戴设备可以包括智能手镯、智能鞋袜、智能眼镜、智能头盔、智能手表、智能耳机、智能穿着、智能背包、智能配件等或其任意组合。在一些实施例中,智能移动设备可以包括智能电话、个人数字助理(PDA)、游戏设备、导航设备、销售点(POS)等或其任意组合。在一些实施例中,虚拟现实设备和/或增强现实设备可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强型虚拟现实头盔、增强现实眼镜、增强现实眼罩等或其任意组合。
在一些实施例中,终端130可以获取/接收目标语音的语音信号,如第一信号和第二信号。在一些实施例中,终端130可以获取/接收目标语音的语音增强后的输出语音信号。在一些实施例中,终端130可以直接从采集设备120、存储设备140获取/接收目标语音的语音信号,如第一信号和第二信号,或者终端130可以通过网络150从采集设备120、存储设备140获取/接收目标语音的语音信号,如第一信号和第二信号。在一些实施例中,终端130可以直接从处理设备110、存储设备140获取/接收目标语音的语音增强后的输出语音信号,或者终端130可以通过网络150从处理设备110、存储设备140获取/接收目标语音的语音增强后的输出语音信号。
在一些实施例中,终端130可以向处理设备110发送指令,处理设备110可以执行来自终端130指令。例如,终端130可以向处理设备110发送实现目标语音的语音增强方法的一个或多个指令,以令处理设备110执行语音增强方法的一个或多个操作/步骤。
存储设备140可以存储从其他设备或系统组成部分中获得的数据和/或信息。例如,存储设备140可以存储目标语音的语音信号,如第一信号和第二信号,还可以存储 目标语音的语音增强后的输出语音信号。在一些实施例中,存储设备140可以存储从采集设备120获得/获取的数据。在一些实施例中,存储设备140可以存储从处理设备110获得/获取的数据。在一些实施例中,存储设备140可以存储处理设备110用于执行或使用来完成本申请中描述的示例性方法的数据和/或指令。在一些实施例中,存储设备140可以包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。示例性的大容量储存器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带等。示例性的挥发性只读存储器可以包括随机存取内存(RAM)。示例性的RAM可包括动态RAM(DRAM)、双倍速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、闸流体RAM(T-RAM)和零电容RAM(Z-RAM)等。示例性的ROM可以包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(PEROM)、电子可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字通用磁盘ROM等。在一些实施例中,所述存储设备140可以在云平台上实现。仅作为示例,所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。
在一些实施例中,存储设备140可以连接到网络150以与100中的一个或以上组件(例如,处理设备110、采集设备120、终端130)通信。100中的一个或以上组件可以通过网络150访问存储设备140中存储的数据或指令。在一些实施例中,存储设备140可以与100中的一个或以上组件(例如,处理设备110、采集设备120、终端130)直接连接或通信。在一些实施例中,存储设备140可以是处理设备110的一部分。
在一些实施例中,语音增强系统100的一个或以上组件(例如,处理设备110、采集设备120、终端130)可以具有访问存储设备140的许可。在一些实施例中,语音增强系统100的一个或以上组件可以在满足一个或以上条件时读取和/或修改与目标语音相关的信息。
网络150可以促进信息和/或数据的交换。在一些实施例中,语音增强系统100中的一个或以上组件(例如,处理设备110、采集设备120、终端130和存储设备140)可以通过网络150向/从语音增强系统100中的其他组件发送/接收信息和/或数据。例如,处理设备110可以通过网络150从采集设备120或存储设备140获得/获取目标语音的第一信号和第二信号,终端130可以通过网络150从处理设备110或存储设备140获得/获取目标语音的语音增强后的输出语音信号。在一些实施例中,网络150可以为任意形式的有线或无线网络或其任意组合。仅作为示例,网络150可以包括缆线网络、 有线网络、光纤网络、远程通信网络、内部网络、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络、近场通讯(NFC)网络、全球移动通讯系统(GSM)网络、码分多址(CDMA)网络、时分多址(TDMA)网络、通用分组无线服务(GPRS)网络、增强数据速率GSM演进(EDGE)网络、宽带码分多址接入(WCDMA)网络、高速下行分组接入(HSDPA)网络、长期演进(LTE)网络、用户数据报协议(UDP)网络、传输控制协议/互联网协议(TCP/IP)网络、短讯息服务(SMS)网络、无线应用协议(WAP)网络、超宽带(UWB)网络、红外线等或其任意组合。在一些实施例中,语音增强系统100可以包括一个或以上网络接入点。例如,语音增强系统100可以包括有线或无线网络接入点,例如基站和/或无线接入点150-1、150-2、…,语音增强系统100的一个或以上组件可以通过其连接到网络150以交换数据和/或信息。
本领域普通技术人员将理解,当语音增强系统100的元件或组件执行时,组件可以通过电信号和/或电磁信号执行。例如,当采集设备120向处理设备110发送目标语音的第一信号和第二信号时,采集设备120可以生成编码的电信号。然后,采集设备120可以将电信号发送到输出端口。若采集设备120经由有线网络或数据传输线与采集设备120通信,则输出端口可物理连接至电缆,其进一步将电信号传输给采集设备120的输入端口。如果采集设备120经由无线网络与采集设备120通信,则采集设备120的输出端口可以是一个或以上天线,其将电信号转换为电磁信号。在电子设备内,例如采集设备120和/或处理设备110,当处理指令,发出指令和/或执行动作时,指令和/或动作通过电信号进行。例如,当处理设备110从存储介质(例如,存储设备140)检索或保存数据时,它可以将电信号发送到存储介质的读/写设备,其可以在存储介质中读取或写入结构化数据。该结构数据可以通过电子设备的总线,以电信号的形式传输至处理器。此处,电信号可以指一个电信号、一系列电信号和/或至少两个不连续的电信号。
图2是根据本申请的一些实施例所示的示例性计算设备200的示意图。
在一些实施例中,可以在计算设备200上实现处理设备110。如图2所示,计算设备200可以包括存储器210,处理器220,输入/输出(I/O)230和通信端口240。
存储器210可以存储从采集设备120,终端130,存储设备140或系统100的任何其他组件获得的数据/信息。在一些实施例中,存储器210可以包括大量的存储设备,可移动存储设备,易失性读写存储器,只读存储器(ROM)等或其任意组合。例如,大容量存储设备可以包括磁盘,光盘,固态驱动器等。可移动存储设备可以包括闪存驱动 器,软盘,光盘,存储卡,zip磁盘,易失性读写存储器可以包括随机存取存储器(RAM)。RAM可以包括动态RAM(DRAM),双倍速率同步动态RAM(DDR SDRAM),静态RAM(SRAM),晶闸管RAM(T-RAM)和零电容器RAM(Z-RAM)。ROM可以包括掩码ROM(MROM),可编程ROM(PROM),可擦可编程ROM(PEROM),电可擦可编程ROM(EEPROM),光盘ROM(CD-ROM)和在一些实施例中,存储器210可以存储一个或多个程序和/或指令以执行本公开中描述的示例性方法。例如,存储器210可以存储用于处理设备110的程序,用于实现语音增强方法。
处理器220可以根据本文描述的技术执行计算机指令(程序代码)并执行处理设备110的功能。计算机指令可以包括例如例程,程序,对象,组件,信号,数据结构,过程,模块和功能,其执行本文描述的特定功能。例如,处理器220可以处理从采集设备120,终端130,存储设备140和/或系统100的任何其他组件获得的数据。例如,处理器220可以处理从采集设备120获取的目标语音的第一信号和第二信号,以得到语音增强后的输出语音信号。在一些实施例中,可将输出语音信号存储在存储设备140,存储器210等中。在一些实施例中,可通过I/O230将输出语音信号输出给扬声器等播报设备。在一些实施例中,处理器220可以执行从终端130获得的指令。
在一些实施例中,处理器220可以包括一个或多个硬件处理器,例如微控制器,微处理器,精简指令集计算机(RISC),专用集成电路(ASIC),专用指令集处理器(ASIP),中央处理单元(CPU),图形处理单元(GPU),物理处理单元(PPU),微控制器单元,数字信号处理器(DSP),现场可编程门阵列(FPGA),高级RISC机器(ARM),可编程逻辑设备(PLD),能够执行一个或多个功能的任何电路或处理器等,或它们的任意组合。
仅出于说明的目的,在计算设备200中仅描述了一个处理器。然而,应当注意,本公开中的计算设备200也可以包括多个处理器。因此,如本公开中所描述的由一个处理器执行的操作和/或方法步骤也可以由多个处理器联合或分别执行。例如,如果在本公开中,计算设备200的处理器同时执行操作A和操作B,则应当理解,操作A和操作B也可以由计算设备中的两个或更多个不同的处理器联合或分开地执行。例如,第一处理器执行操作A,第二处理器执行操作B,或者第一处理器和第二处理器共同执行操作A和B。
I/O 230可以输入或输出信号,数据和/或信息。在一些实施例中,I/O 230可以使用户能够与处理设备110交互。在一些实施例中,I/O 230可以包括输入设备和输出 设备。示例性输入设备可以包括键盘,鼠标,触摸屏,麦克风等,或其组合。示例性输出设备可以包括显示设备,扬声器,打印机,投影仪等或其组合。示例性显示设备可以包括液晶显示器(LCD),基于发光二极管(LED)的显示器、显示器,平板显示器,曲面屏幕,电视设备,阴极射线管(CRT)等或它们的组合。
通信端口240可以与网络(例如,网络150)连接,以促进数据通信。通信端口240可以在处理设备110与采集设备120,终端130或存储设备140之间建立连接。该连接可以是有线连接,无线连接或两者的组合,以实现数据传输和接收。有线连接可以包括电缆,光缆,电话线等或其任何组合。无线连接可以包括蓝牙,Wi-Fi,WiMax,WLAN,ZigBee,移动网络(例如3G,4G,5G等)等,或其组合。在一些实施例中,通信端口240可以是标准化的通信端口,例如RS232,RS485等。在一些实施例中,通信端口240可以是专门设计的通信端口。例如,可以根据数字成像和医学通信(DICOM)协议来设计通信端口240。
图3是根据本申请的一些实施例所示的可以在其上实现终端130的示例性移动设备300的示例性硬件和/或软件组件的示意图。
如图3所示,移动设备300可以包括通信单元310、显示单元320、图形处理单元(GPU)330、中央处理单元(CPU)340、输入/输出(I/O)350、内存360和存储器370。
中央处理单元(CPU)340可以包括接口电路和类似于处理器220的处理电路。在一些实施例中,任何其他合适的组件,包括但不限于系统总线或控制器(未示出),也可包括在移动设备300内。在一些实施例中,移动操作系统362(例如,IOS
TM、Andro车辆
TM、Windows Phone
TM等)和一个或以上应用程序364可以从存储器370加载到内存360中,以便由中央处理单元(CPU)340执行。应用程序364可以包括浏览器或任何其他合适的移动应用程序,用于从移动设备300上的语音增强系统接收和呈现与目标语音、目标语音的语音增强有关的信息。信号和/或数据的交互可以通过输入/输出设备350实现,并通过网络150提供给处理引擎112和/或语音增强系统100的其他组件。
为了实现上述各种模块、单元及其功能,计算机硬件平台可以用作一个或以上元件(例如,图1中描述的处理设备110的模块)的硬件平台。由于这些硬件元件、操作系统和程序语言是常见的,因此可以假设本领域技术人员熟悉这些技术并且他们能够根据本文中描述的技术提供路线规划中所需的信息。具有用户界面的计算机可以用作个人计算机(PC)或其他类型的工作站或终端设备。在正确编程之后,具有用户界面的计 算机可以用作处理设备如服务器。可以认为本领域技术人员也可以熟悉这种类型的计算机设备的这种结构、程序或一般操作。因此,没有针对附图描述额外的解释。
图4是根据本说明书一些实施例所示的一种语音增强的方法的示例性流程图。
在一些实施例中,方法400可以由处理设备110、处理引擎112、处理器220执行。例如,方法400可以以程序或指令的形式存储在存储设备(例如,存储设备140或处理设备110的存储单元)中,当处理设备110、处理引擎112、处理器220或图10所示的模块执行程序或指令时,可以实现方法400。在一些实施例中,方法400可以利用以下未描述的一个或以上附加操作/步骤,和/或不通过以下所讨论的一个或以上操作/步骤完成。另外,如图4所示的操作/步骤的顺序并非限制性的。
如图4所示,该方法400可以包括:
步骤410,获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号。
具体的,该步骤410可以由第一语音获取模块1010执行。
目标语音可以是目标声源所发出的语音。目标声源可以是用户、机器人(例如自动应答机器人、将人的输入数据如文本、手势等转换为语音信号播报的机器人等)、或者能够发出语音信息的其它生物和设备。
在一些实施例中,目标语音中会掺杂无用或带来干扰的噪声,例如,周围环境产生的噪声或者目标声源外其他声源的声音。示例性的噪声包括加性噪声、白噪声、乘性噪声、或类似的噪声或其任意的组合。加性噪声是指与语音信号无关的独立噪声信号,乘性噪声是指与语音信号成正比的噪声信号,白噪声是指噪声的功率谱为一常数的噪声信号。
目标语音的第一信号或第二信号是指采集设备在接收到目标语音后所生成的电信号,其可以反映目标语音在采集设备所在的位置(也叫做语音采集位置)的信息。对于目标语音,可以由不同的采集设备(例如,不同的麦克风)在不同的语音采集位置获得对应于该目标语音的不同电信号,例如,所述第一信号和第二信号可以是两个位于不同语音采集位置的麦克风分别获取到的语音信号。仅作为示例,两个不同的语音采集位置可以是距离为d且相对于目标声源(如用户的嘴部)距离不同的两个位置。d可以由用户根据实际需求设置,例如,在特定的场景下,d可以被设置为不小于0.5cm,或者不小于1cm。
可以理解的是,第一信号和第二信号的差异取决于目标语音在不同语音采集位 置的强度、信号幅值和相位差异、噪声信号在所述不同语音采集位置的强度、信号幅值和相位差异等。
在一些实施例中,所述第一信号和第二信号可以通过两个采集设备实时采集目标语音得到,例如通过两个麦克风实时采集用户说话获得。可替换地,所述第一信号和第二信号可以对应于一段历史语音信息,其可以通过从存储有该历史语音信息的存储空间中读取获得。
步骤420,基于所述第一信号或所述第二信号确定所述目标语音的目标信噪比。
具体的,该步骤420可以由信噪比确定模块1020执行。
信噪比是指语音信号能量与噪声信号能量的比值,可以称为SNR或S/N(SIGNAL-NOISE RATIO)。信号能量可以是信号功率、基于信号功率得到的其它能量数据。一般来说,信噪比越大,说明混在目标语音里的噪声越小。
在一些实施例中,目标语音的目标信噪比可以是纯净的语音信号(即不含噪声的语音信号)的能量与噪声信号能量的比值,也可以是含有噪声的语音信号的能量与噪声信号能量的比值。
在一些实施例中,可以基于第一信号和第二信号中的任意一个确定目标信噪比。例如,可以基于第一信号的信号数据计算信噪比,并将其作为目标信噪比,或者可以基于第二信号的信号数据计算信噪比,并将其作为目标信噪比。在一些实施例中,也可以基于第一信号和第二信号共同确定目标信噪比,例如可以基于第一信号的信号数据计算得到第一信噪比,基于第二信号的信号数据计算得到第二信噪比,然后基于第一信噪比和第二信噪比共同确定一个最终的信噪比作为目标信噪比。基于第一信噪比和第二信噪比共同确定一个最终的信噪比可以包括对第一信噪比和第二信噪比求平均值、加权求和等方式。
在一些实施例中,基于信号数据确定信噪比可以通过信噪比估计算法确定,例如采用最小值跟踪算法、时间递归平均算法(MCRA)等噪声估计算法计算得到噪声信号值,再基于原始信号值和噪声信号值计算得到信噪比。在一些实施例中,也可以采用训练得到的信噪比估计模型确定信号数据的信噪比。
在一些实施例中,信噪比估计模型可以包括但不限于多层感知机(Multi-Layer Perception,MLP)、决策树(Decision Tree,DT)、深度神经网络(Deep Neural Network,DNN)、支持向量机(Support Vector Machine,SVM)、K最近邻算法(K-Nearest Neighbor,KNN)等任何可以进行特征提取和/或分类的算法或者模型。
在一些实施例中,信噪比估计模型可以通过采用训练样本训练初始模型得到。训练样本可以包括语音信号样本(如获取的至少一个历史语音信号,历史语音信号中掺杂无用或带来干扰的噪声),以及语音信号样本的标签值(如,历史语音信号v1的目标信噪比为0.5,历史语音信号v2的目标信噪比为0.6)。利用模型处理语音信号样本,得到预测的目标信噪比。基于预测的目标信噪比与对应训练样本的标签值构造损失函数,基于损失函数调整模型参数,以减小预测的目标信噪比与标签值之间的差异。例如,可以基于梯度下降法等进行模型参数更新或调整。如此进行多轮迭代训练,当训练的模型满足预设条件时,训练结束,得到训练后的信噪比估计模型。其中,预设条件可以是损失函数结果收敛或小于预设阈值等。
考虑到目标语音及其中的噪声会随着时间变化,本说明书中目标信噪比可以理解为特定时间或时间段内该目标语音的信噪比。为方便描述,可以将目标语音看成是由连续的多帧语音构成,每帧语音分别对应第一信号和第二信号中的一帧数据。在一些实施例中,在对目标语音的第一信号和第二信号进行处理时,可以是对信号的一帧或多帧数据进行处理。在某一时刻,目标语音的目标信噪比是第一信号和/或第二信号在该时刻的帧数据(即当前帧数据)所对应的信噪比。
在一些实施例中,目标语音的目标信噪比可以基于第一信号和/或第二信号的当前帧数据确定。可替代地,目标语音的目标信噪比可以基于第一信号和/或第二信号的当前帧数据之前的一帧或多帧数据确定。可替代地,目标语音的目标信噪比可以基于第一信号和/或第二信号的当前帧数据以及至少一个在所述当前帧数据之前的帧数据共同确定。需要知道的是,这里所说的用于确定目标信噪比的帧数据可以是第一信号和/或第二信号中的原始帧数据,也可以是经过语音增强后的帧数据。例如,在计算当前帧数据所对应的目标信噪比时,信噪比确定模块可以结合第一信号和/或第二信号中未经过语音增强的当前帧数据,以及经过语音增强的一个或多个先前的帧数据来共同确定。
出于说明的目的,可以通过如下方式确定目标语音的在当前时刻对应的目标信噪比:分别获取所述第一信号、所述第二信号的当前帧数据;确定与所述第一信号和所述第二信号的当前帧数据所对应的估计信噪比;基于所述第一信号和所述第二信号的至少一个在所述当前帧数据之前的帧数据,确定所述目标语音的验证信噪比;基于所述验证信噪比和所述估计信噪比确定与所述第一信号和所述第二信号的当前帧数据所对应的所述目标信噪比。
估计信噪比是指基于第一信号和/或第二信号的当前帧数据计算得到的信噪比。 对于当前帧的信号Y,可以对其估计噪声N,计算估计信噪比可以为:
ξ
0=Y/N-1, (1)
在一些实施例中,还可以基于第一信号和/或第二信号的当前帧数据和当前帧数据之前的多帧数据共同计算当前帧数据的估计信噪比。例如,可以基于第一信号和/或第二信号的当前帧数据(第n帧)、当前帧数据之前的多帧数据(第n帧之前的k帧数据,即第n-1帧到第n-k帧),分别计算得到多个帧数据对应的多个估计信噪比,进而对多个信噪比进行平均值计算、加权求和、平滑等方式得到一个最终信噪比,作为当前帧数据的估计信噪比ξ
0。
验证信噪比是指基于第一信号和/或第二信号的至少一个在所述当前帧数据之前的降噪后的帧数据(即当前帧数据之前的帧数据对应的语音增强后的输出语音信号)计算得到的信噪比。例如,可以基于第一信号和/或第二信号的当前帧数据之前的一帧降噪后的帧数据,计算得到一个信噪比作为验证信噪比,对于前一帧的信号Y,其等于干净信号X(如降噪后的帧数据)与噪声信号N之和,基于前一帧降噪后的帧数据计算验证信噪比ξ
1可以为:
ξ
1=Y/(Y-X), (2)
又例如,也可以基于第一信号和/或第二信号的当前帧数据之前的多帧数据分别计算得到对应的多个验证信噪比,在一些实施例中,可以基于多个验证信噪比和估计信噪比确定一个最终信噪比作为目标信噪比。以第一信号和/或第二信号的当前帧数据(第n帧)之前的两帧的帧数据计算验证信噪比ξ
1为例,验证信噪比ξ
1可以为:
ξ
1=aξ
1(n)+(1-a)ξ
1(n-1), (3)
其中,ξ
1(n)为基于第n帧的前一帧数据(即第n-1帧)计算得到的验证信噪比,ξ
1(n-1)为基于第n-1帧的前一帧数据(即第n-2帧)计算得到的验证信噪比。
或者为:
ξ
1=max(ξ
1(n),aξ
1(n-1)), (4)
其中,a为权重系数,可以根据经验或实际需求进行设置。
在一些实施例中,可以对多个验证信噪比进行平均值计算,加权求和等方式得到一个最终信噪比,并将其作为当前帧信号的验证信噪比,在一些实施例中,可以用该验证信噪比与估计信噪比共同确定目标信噪比。在一些实施例中,可以单独用该验证信 噪比或估计信噪比确定目标信噪比。
在一些实施例中,基于验证信噪比和估计信噪比确定与第一信号和第二信号的当前帧数据所对应的目标信噪比,可以是对验证信噪比(可以是多个验证信噪比)和估计信噪比进行平均值计算,加权求和等方式得到一个最终信噪比,并将其作为当前帧数据所对应的目标信噪比。例如,得到验证信噪比ξ
1,估计信噪比ξ
0,目标信噪比ξ为:
ξ=cξ
0+(1-c)ξ
1, (5)
其中,c为权重系数,可以根据经验或实际需求进行设置。
步骤430,基于所述目标信噪比确定对所述第一信号和所述第二信号的处理方式。
具体的,该步骤430可以由信噪比判别模块1030执行。
这里所说的对第一信号和第二信号的处理可以理解为对目标语音中掺杂的噪声进行消除的过程。当目标语音中掺杂的噪声数量不同,即目标信噪比不同时,对噪声消除的方式也会不一样。在一些实施例中,基于所述目标信噪比确定对所述第一信号和所述第二信号处理方式包括:响应于所述目标信噪比小于第一阈值时,采用第一模式处理所述第一信号和所述第二信号;响应于所述目标信噪比大于第二阈值时,采用第二模式处理所述第一信号和所述第二信号。所述第一模式和第二模式是不同的处理方式。在一些实施例中,所述第一模式和所述第二模式会消耗不同数量的计算资源。例如,相比于第二模式,处理设备110会分配给第一模式更多的内存资源,以提高对低信噪比信号的处理速度。
第一阈值和第二阈值可以是固定值。在一些实施例中,第一阈值可以等于第二阈值。在一些实施例中,第一阈值也可以小于第二阈值(例如,第一阈值可以是-5dB,第二阈值可以是10dB)。当第一阈值小于第二阈值时,基于目标信噪比选择处理方式时,可以避免由于目标信噪比在第一阈值或第二阈值附近小范围变化而不停地切换处理方式,可以增强信号处理的稳定性。在一些实施例中,第一阈值小于第二阈值,且第二阈值和第一阈值的差值不小于3dB,4dB,5dB,8dB,10dB,15dB,或20dB。在一些实施例中,第一阈值和第二阈值可以由用户或者语音增强系统100进行调整。例如,当第一阈值和第二阈值被调整为远高于目标信噪比可能的数值时,语音增强系统100会始终以第一模式对信号进行处理。类似地,当第一阈值和第二阈值被调整为远低于目标信噪比可能的数值时,语音增强系统100会始终以第二模式对信号进行处理。
在一些实施例中,还可以响应于所述目标信噪比小于第一阈值时,采用第一模式和第二模式按照预设的第一比例处理所述第一信号和所述第二信号;响应于所述目标信噪比大于第二阈值时,采用第一模式和第二模式按照预设的第二比例处理所述第一信号和所述第二信号。第一模式和第二模式按照预设的比例(第一比例或第二比例)处理所述第一信号和所述第二信号是指对第一信号和第二信号按照比例(第一比例或第二比例)进行划分,对划分得到的不同部分的信号采取对应的处理方式进行处理(例如,第一部分信号采用第一模式处理,第二部分信号采用第二模式处理)。对第一信号和第二信号按照比例进行划分可以是基于信号频率、信号的时间坐标等对信号按照比例划分。在一些实施例中,第一比例可以对应第一模式处理的信号部分多于第二模式处理的信号部分,第二比例可以对应第二模式处理的信号部分多于第一模式处理的信号部分。
步骤440,基于确定的所述处理方式对所述第一信号和所述第二信号进行处理,得到所述目标语音对应的语音增强后的输出语音信号。
具体的,该步骤440可以由第一增强处理模块1040执行。
基于确定的处理方式对第一信号和第二信号进行处理后,可以实现目标语音的语音增强,例如降噪、加强语音信号等效果,处理后得到的语音信号即为目标语音对应的语音增强后的输出语音信号。
在一些实施例中,第一模式可以包括采用delay-sum(延迟求和波束形成),ANF(自适应零点形成),MVDR(最小方差无失真响应波束形成),GSC(广义旁瓣相消器)、差分谱减等方法中的一种或多种的组合对第一信号和第二信号进行处理。对第一信号和第二信号进行处理可以是在时域上对第一信号和第二信号进行处理(例如,利用ANF方法在时域上进行处理),也可以是在频域上对第一信号和第二信号进行处理(例如,利用ANF、delay-sum、MVDR、GSC、频域差分谱减等方法在频域上进行处理)。
以第一模式为采用ANF方法对第一信号和第二信号进行处理为例:第一信号(表示为x(n))为位置靠近目标声源的采集设备所获取的语音信号,第二信号(表示为y(n))为另一个采集设备所获取的语音信号,x(n)和y(n)中语音信号和噪声信号的比例不同。为方便理解,x(n)可以看作主要包含语音信号,y(n)可以看作主要包含噪声信号,利用x(n)和y(n)在时域或频域上的差异进行两路信号的处理,可以达到消除目标语音中噪声的效果。
在一些实施例中,第二模式可以采用波束形成方法(例如自适应零点形成的波束形成方法、GSC、MVDR等)、谱减法、自适应滤波等语音增强方法中的一种或多种 的组合对第一信号和第二信号进行处理。
以第二模式采用自适应零点形成的波束形成方法对第一信号和第二信号进行处理为例,可以通过构建极点位于目标语音方向的第一信号和第二信号的差分输出信号x
s,构建极点位于反方向、零点位于目标语音方向的第一信号和第二信号的差分输出信号x
n,利用自适应滤波的原理,对x
s和x
n进行差分运算,得到目标语音对应的语音增强后的输出语音信号。通过自适应零点形成的波束形成方法,可以实现当语音信号和噪声的角度差大的时候,对噪声进行有效的滤波。在一些实施例中,还可以在采用自适应零点形成的波束形成方法对第一信号和第二信号进行处理后,对得到的信号数据再采用分布概率的后置滤波算法做进一步的噪声滤除处理,以对目标语音附近方向的噪声进行更有效的抑制。
在一些实施例中,第一模式中可以对第一信号和第二信号的低频部分、高频部分分别采用不同的处理方法进行处理。这里所说的低频、高频等只表示频率的大致范围,在不同的应用场景中,可以具有不同的划分方式。例如,可以确定一个分频点,低频表示分频点以下的频率范围,高频表示分频点以上的频率。该分频点可以为人耳可听范围内的任意值,例如,200Hz,500Hz,600Hz,700Hz,800Hz,1000Hz等。
可以理解的是,对于低频部分,第一信号和第二信号的语音信号强度(如信号幅值)差异较大而相位差异较小。在一些实施例中,可以基于频域信息(例如,幅值)对第一信号和第二信号的低频部分进行处理。对于高频部分,第一信号和第二信号的语音信号相位差异较突出而强度差异较小。在一些实施例中,可以基于时域信息(时域信号体现信号的相位信息)对第一信号和第二信号的高频部分进行处理。通过对高频部分和低频部分采用不同的处理方法,可以分别对目标语音的低频部分和高频部分的噪声进行有效消除,从而提高目标语音的语音增强效果。
在一些实施例中,采用第一模式处理第一信号和第二信号可以包括:采用第一处理方法处理所述第一信号的低频部分和所述第二信号的低频部分,得到对所述目标语音的低频部分进行增强的第一输出语音信号;采用第二处理方法处理所述第一信号的高频部分和所述第二信号的高频部分,得到对所述目标语音的高频部分进行增强的第二输出语音信号。
在一些实施例中,可以合并第一输出语音信号和第二输出语音信号,得到目标语音对应的输出语音信号。关于采用第一模式处理第一信号和第二信号的更多内容可以参见图5、图6及其相关内容,此处不再赘述。
在一些实施例中,得到目标语音的输出语音信号后,还可以对输出语音信号进行后置滤波,后置滤波可以采用例如时间递归平均算法(MCRA)、多麦克维纳滤波(MCWF)等方法进行,实现对残留的部分稳态噪声进行进一步的滤波。
图5是根据本说明书一些实施例所示的另一种语音增强的方法的示例性流程图。
在一些实施例中,方法500可以由处理设备110、处理引擎112、处理器220执行。例如,方法500可以以程序或指令的形式存储在存储设备(例如,存储设备140或处理设备110的存储单元)中,当处理设备110、处理引擎112、处理器220或图11所示的模块执行程序或指令时,可以实现方法500。在一些实施例中,方法500可以利用以下未描述的一个或以上附加操作/步骤,和/或不通过以下所讨论的一个或以上操作/步骤完成。另外,如图5所示的操作/步骤的顺序并非限制性的。
如图5所示,该方法500可以包括:
步骤510,获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号。
具体的,该步骤510可以由第二语音获取模块1110执行。
关于获取目标语音的第一信号和第二信号的更多内容可以参见图4中步骤410及其相关说明,此处不再赘述。
步骤520,采用第一处理方法处理所述第一信号的低频部分和所述第二信号的低频部分,得到对所述目标语音的低频部分进行增强的第一输出语音信号;
采用第二处理方法处理所述第一信号的高频部分和所述第二信号的高频部分,得到对所述目标语音的高频部分进行增强的第二输出语音信号。
具体的,该步骤520可以由第二增强处理模块1120执行。
如前所述,第一模式可以对第一信号和第二信号的低频部分、高频部分分别采用不同的处理方法进行处理。在一些实施例中,可以采用第一处理方法处理所述第一信号的低频部分和所述第二信号的低频部分,采用第二处理方法处理所述第一信号的高频部分和所述第二信号的高频部分。
在一些实施例中,采用第一处理方法处理第一信号的低频部分和第二信号的低频部分可以按照图6所示的方法进行,其方法说明可以参见图6及其相关内容。
在一些实施例中,采用第一处理方法处理第一信号的低频部分和第二信号的低频部分,得到对目标语音的低频部分进行增强的第一输出语音信号还可以采用图7所示的方法进行,其方法说明可以参见图7及其相关内容。
在一些实施例中,第二处理方法可以为前述处理方法如delay-sum(延迟求和波束形成)、ANF(自适应零点形成)、MVDR(最小方差无失真响应波束形成)、GSC(广义旁瓣相消器)、差分谱减等方法中的一种或多种的组合。
在一些实施例中,第二处理方法可以包括:获取所述第一信号的高频部分对应的第一高频段信号,和获取所述第二信号的高频部分对应的第二高频段信号;基于所述第一高频段信号和所述第二高频段信号进行差分运算,得到对所述目标语音的高频部分进行增强的所述第二输出语音信号。
在一些实施例中,可以通过高通滤波或其它方法获取信号的高频部分。例如,对第一信号和第二信号进行截止频率为特定频率的高通滤波,得到第一信号和第二信号中信号频率大于或等于该特定频率的部分信号,作为第一信号的第一高频段信号和第二信号的第二高频段信号。
第二输出语音信号是指通过对第一高频段信号和第二高频段信号进行处理,实现了目标语音的高频部分语音增强后得到的语音信号。
基于所述第一高频段信号和所述第二高频段信号进行差分运算,可以是对第一高频段信号和第二高频段信号的信号差值进行运算的各种差分运算方法,例如自适应差分运算方法。通过对第一高频段信号和第二高频段信号进行差分运算,可以实现噪声信号的去除,以及语音信号的增强。
对语音信号进行语音增强处理时,考虑到实际处理需求和处理效率,是基于采样后的信号进行的。在基于第一高频段信号和所述第二高频段信号进行差分运算之前,会对第一高频段信号和第二高频段信号进行采样,基于采样得到的第一高频段信号和第二高频段信号进行后续的差分运算处理。可替代的,也可以在获取第一信号和第二信号,或者获取第一信号的高频部分和获取第二信号的高频部分时,完成采样,则得到的第一高频段信号和第二高频段信号就是经过采样的信号。
在一些实施例中,对第一高频段信号和第二高频段信号进行差分运算可以包括:对第一高频段信号和第二高频段信号分别进行升采样,分别得到升采样后的第一高频段信号和第二高频段信号,即第一升采样信号和第二升采样信号。对第一升采样信号和第二升采样信号进行差分运算,得到对目标语音的高频部分进行增强的第二输出语音信号。
升采样是指对原信号进行插值补充,得到的结果等同于对原信号进行升高采样频率后得到的信号。插值补充是指在原信号的信号点之间,插入若干个信号值为固定值(如0)的信号点。在一些实施例中,升采样的升采样倍数即升采样后信号的采样频率 与原信号的采样频率的比值,可以根据经验或实际需求进行设置。例如,可以对第一信号和第二信号进行5倍的升采样,升采样后第一信号和第二信号的采样频率是原第一高频段信号和原第二高频段信号的采样频率的5倍。
在一些实施例中,上述升采样的过程可以替换为在对第一高频段信号和第二高频段信号进行采样时,采用特定采样频率进行采样,获取得到所述第一信号的高频部分对应的第一高频段信号,和获取所述第二信号的高频部分对应的第二高频段信号。再进一步对采样得到的信号继续进行所述差分运算,得到对目标语音的高频部分进行增强的第二输出语音信号。
特定采样频率可以根据第一信号和第二信号对应的位置距离确定,如采样的采样频率用fs表示,第一信号和第二信号由于语音采集位置的差异,第一信号和第二信号之间存在信号的时延t,
t=d/c, (6)
其中,d为第一信号和第二信号对应的语音采集位置之间的距离。
在进行采样时,两个采样点之间的时间差t1为1/fs。若两个采样点之间的时间差t1大于信号的时延t,则第一信号和第二信号的信号时延被包括在一个采样周期内,出现一个采样周期内第一信号和第二信号的混叠,采样得到的第一信号和第二信号无法进行差分运算。所以,可以令采样频率满足条件t1小于或等于t,即1/fs小于或等于d/c。进一步的,还可以令采样频率满足条件t1小于或等于比t更小的数值,即1/fs小于或等于比(d/c)更小的数值。例如,还可以令采样频率满足条件t1小于或等于1/2t,即1/fs小于或等于1/2(d/c)。进一步的,还可以令采样频率满足条件t1小于或等于1/3t,即1/fs小于或等于1/3(d/c)。进一步的,还可以令采样频率满足条件t1小于或等于1/4t,即1/fs小于或等于1/4(d/c)。
在一些实施例中,对第一高频段信号和第二高频段信号进行差分运算可以包括:基于第一高频段信号(或者第一升采样信号)的第一时序信号、所述第二高频段信号(或者第二升采样信号)中在所述第一时序之前的至少一个时序信号进行差分运算;得到对所述目标语音的高频部分进行增强的所述第二输出语音信号。
时序信号可以是指帧信号或其它单位时间的信号。第一时序信号是指当前进行处理的时序信号(如当前帧数据),第一时序之前的至少一个时序信号是指当前进行处理的时序信号之前的至少一个时间点的时序信号,如第一时序信号为第k帧的帧数据, 之前的至少一个时序信号为第k-i帧的帧数据,i为大于0的整数。
差分运算可以包括:将第一高频段信号和第二高频段信号中,当前帧(如第n帧)的信号数据进行计算差值。例如fm(n)表示第一高频段信号的第n帧信号,rm(n)表示第二高频段信号的第n帧信号,差分运算可以包括:
output(n)=fm(n)-rm(n), (7)
其中,output(n)表示差分运算得到的输出信号数据。
差分运算可以包括:将第二高频段信号中第一时序之前的至少一个时序信号进行合并后得到信号数据,并求该信号数据与第一高频段信号的第一时序信号的差值。以取i为1、2、3的3个第一时序信号之前的时序信号为例,fm为第一高频段信号的信号表示,rm为第二高频段信号的信号表示,差分运算可以包括求第一时序信号即第一高频段信号的第k帧信号fm(k)与将第二高频段信号的第k-1帧信号rm(k-1)、第k-2帧信号rm(k-2)、第k-3帧信号rm(k-3)合并后得到的信号数据的差值。这里的合并可以是对每个信号进行加权求和。
在一些实施例中,在第一时序之前的至少一个时序信号中,每一个时序信号有对应的权重系数,该权重系数称为第二权重系数,可以基于第一高频段信号的第一时序信号、第二高频段信号中在第一时序之前的至少一个时序信号和至少一个时序信号对应的所述第二权重系数进行所述差分运算。例如,可以基于每一个时序信号对应的第二权重系数将第一时序之前的至少一个时序信号进行加权求和,得到一个信号数据,将该信号数据与第一时序信号求差值。第二权重系数可以根据经验或实际需求进行设置。
例如,第一高频段信号的第一时序信号fm(k)对应的第二高频段信号的第一时序之前的至少一个时序信号为rm(k-1)、rm(k-2)、rm(k-3)…rm(k-i),则:
其中,output(k)表示差分运算得到的输出信号数据,n为大于0小于k的整数,w
i表示第k-i帧信号即rm(k-i)对应的第二权重系数。
在一些实施例中,在第一时序之前的至少一个时序信号中,每一个时序信号对应的第二权重系数可以根据当前处理的时序信号即第一时序信号进行确定,第一时序信号不同,则对应的第一时序之前的至少一个时序信号的第二权重系数不同。
在一些实施例中,第一时序信号(如当前帧数据)对应的第二权重系数还可以根据第一高频段信号中第一时序信号之前的一个时序信号(当前帧的前一帧数据)对应 的第二权重系数进行确定。
例如,第一高频段信号的第一时序信号为第k帧信号,表示为fm(k),第二高频段信号中第k帧信号之前的至少i个时序信号的的第二权重系数为w
i(k),第一高频段信号中第一时序信号fm(k)的前一时序信号即第k-1帧信号为fm(k-1),第二高频段信号中第k-1帧信号之前的至少i个时序信号的第二权重系数为w
i(k-1)。
第一高频段信号的第一时序信号即第k帧信号fm(k),对应的第二高频段信号的第一时序之前的至少i个时序信号为rm(k-1)、rm(k-2)、rm(k-3)…rm(k-i),可以构成一个信号矩阵,为[rm(k-1),rm(k-2),rm(k-3)…rm(k-i)],则fm(k)对应的第二权重系数w
i可以确定为:
w
i=w
i(k-1)+A*output(k-1)*[rm(k-1),rm(k-2),rm(k-3)…rm(k-i)]/B, (9)其中,前一时序信号fm(k-1)进行前述差分运算处理,得到的输出信号为output(k-1);A可以根据经验或实际需求设置,例如可以是信号的步长;B可以根据经验或实际需求设置,例如可以是第一时序之前的至少i个时序信号rm(k-1)、rm(k-2)、rm(k-3)…rm(k-i)的能量均方。
在一些实施例中,可以对小于预设参数的第二权重系数进行更新。例如,若第二权重系数值小于0,则将该第二权重系数设为0。
步骤530,合并所述第一输出语音信号和所述第二输出语音信号,得到所述目标语音对应的语音增强后的输出语音信号。
具体的,该步骤530可以由第二处理输出模块1130执行。
在一些实施例中,合并第一输出语音信号和第二输出语音信号可以是将第一输出语音信号和第二输出语音信号进行叠加,得到一个总的信号,将该总的信号作为目标语音对应的语音增强后的输出语音信号。例如,可以将第一输出语音信号与第二输出语音信号中对应的各个信号点进行叠加,得到信号值叠加后的信号点序列,作为目标语音对应的语音增强后的输出语音信号。
图6是根据本说明书一些实施例所示的另一种语音增强的方法的示例性流程图。
在一些实施例中,方法600可以由处理设备110、处理引擎112、处理器220执行。例如,方法600可以以程序或指令的形式存储在存储设备(例如,存储设备140或处理设备110的存储单元)中,当处理设备110、处理引擎112、处理器220或图12所示的模块执行程序或指令时,可以实现方法600。在一些实施例中,方法600可以利用 以下未描述的一个或以上附加操作/步骤,和/或不通过以下所讨论的一个或以上操作/步骤完成。另外,如图6所示的操作/步骤的顺序并非限制性的。
如图6所示,该方法600可以包括:
步骤610,获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号。
具体的,该步骤610可以由第三语音获取模块1210执行。
关于获取目标语音的第一信号和第二信号的具体内容可以参见步骤410及其相关描述,此处不再赘述。
对语音信号进行语音增强处理时,考虑到实际处理需求和处理效率,是基于采样后的信号进行的。在对第一信号和第二信号进行处理之前,会对第一信号和第二信号进行采样,基于采样得到的第一信号和第二信号进行后续的处理。可替代的,也可以在获取第一信号和获取第二信号时,完成采样,则得到的第一信号和第二信号就是经过采样的信号。
步骤620,对所述第一信号和所述第二信号分别进行降采样,分别得到第一降采样信号和第二降采样信号。
具体的,该步骤620可以由第三采样模块1220执行。
对第一信号和第一信号分别进行降采样,分别得到的降采样后的第一信号和第一信号,即为第一降采样信号和第二降采样信号。
降采样是指对原信号进行信号点抽取,得到的结果等同于对原信号进行降低采样频率后得到的信号。信号点抽取是指在原信号的信号点之中,抽取信号点。在一些实施例中,降采样的降采样倍数即降采样后信号的采样频率与原信号的采样频率的比值,可以根据经验或实际需求进行设置。M倍降采样可以是对原信号每隔M个点取一个点保留下来组成新的信号。例如,可以对第一信号和第二信号进行每隔5个点取一个点保留下来,实现5倍的降采样,降采样后第一降采样信号和第二降采样信号的采样频率是原第一信号和第二信号的采样频率的5倍。
在一些实施例中,降采样还可以增加低通滤波器模块,以实现对低频信号的采集,通过低通滤波器,可以避免降采样可能带来的频谱的混叠。
在一些实施例中,降采样的降采样倍数k可以根据经验或实际需求进行设置。例如,k可以为5、10等。
可以理解的是,如果第一信号和第二信号的原信号带宽为f,经过k倍降采样 后,第一降采样信号和第二降采样信号的带宽变为f/k,此时可以将第一降采样信号和第二降采样信号近似看作第一信号和第二信号中频率小于f/k的低频部分。也就是说,通过上述对第一信号和第二信号的降采样,可以近似等效于对第一信号和第二信号进行了截止频率为f/k的低通滤波。
在一些实施例中,可以补充第一降采样信号和第二降采样信号以令其信号长度、采样频率满足预设条件。
在一些实施例中,可以根据对原始信号(即第一信号或第二信号)的估计,将补充信号补充至第一降采样信号和第二降采样信号中的特定位置。可替代地,也可以通过补零的方式补充第一降采样信号和第二降采样信号。补零的位置可以是第一降采样信号和第二降采样信号的末端、中间插值位置等各个位置。
预设条件可以是信号长度大于等于L。L可以根据经验或实际需求设置,例如L可以是原始的第一信号和第二信号的长度,也可以大于原始的第一信号和第二信号的长度。预设条件也可以是信号的采样频率小于或等于f,f可以根据经验或实际需求设置。
通过补充第一降采样信号和第二降采样信号以令其信号长度满足预设条件,在后续对第一降采样信号和第二降采样信号进行语音增强处理时,可以提高信号的频率分辨率。例如,若对第一信号进行k倍降采样后再补充第一降采样信号使得第一降采样信号的长度和第一信号一致,则第一降采样信号的频率分辨率可以提到k倍。通过提高频率分辨率,可以提高信号处理的精度,提升语音增强的效果。
通过补充第一降采样信号和第二降采样信号以令其采样频率满足预设条件,可以满足降低采样频率的条件,以实现降采样取低频信号的效果更理想,进而可以提高信号处理的精度,提升语音增强的效果。
步骤630,处理所述第一降采样信号和所述第二降采样信号,得到所述目标语音对应的增强语音信号。
具体的,该步骤630可以由第三增强处理模块1230执行。
处理第一降采样信号和第二降采样信号包括对第一降采样信号和第二降采样信号进行降噪处理,这样得到的输出信号即为目标语音对应的降噪后的增强语音信号。
在一些实施例中,处理所述第一降采样信号和所述第二降采样信号,得到所述目标语音对应的语音增强后的增强语音信号可以包括:获取所述第一降采样信号的频域信号和所述第二降采样信号的频域信号;处理所述第一降采样信号的频域信号和所述第二降采样信号的频域信号,得到所述目标语音对应的语音增强后的增强频域信号;基于 所述增强频域信号,确定所述增强语音信号。
第一降采样信号的频域信号和第二降采样信号的频域信号可以通过对第一降采样信号和第二降采样信号进行傅里叶变换算法处理得到。这里的第一降采样信号和第二降采样信号可以是上述经过长度补充后的降采样信号。傅里叶变换算法可以采用傅立叶级数、傅立叶变换、离散时域傅立叶变换、离散傅立叶变换、快速傅立叶变换等可用的傅里叶变换算法。
在一些实施例中,处理第一降采样信号的频域信号和第二降采样信号的频域信号,得到目标语音对应的语音增强后的增强频域信号可以包括:基于第一降采样信号的噪声信号和第二降采样信号的噪声信号的差异因子,对第一降采样信号的频域信号和第二降采样信号的频域信号进行差分运算;得到降噪后的所述增强频域信号。
由于语音采集位置的差异,第一信号和第二信号中的噪声信号的信号量有所不同,第一信号和第二信号中的噪声信号的信号量的差异可以用差异因子来表征。
在一些实施例中,差异因子可以用第一降采样信号和第二降采样信号对应帧的信号能量的比值来表示。在一些实施例中,差异因子可以用第一信号中的噪声信号和第二信号中的噪声信号的信号比值来表示。差异因子可以为固定值,也可以根据当前信号进行实时更新。
在一些实施例中,差异因子可以基于语音信号静音时(即不存在语音信号时)的信号检测确定。例如,可以通过VAD检测从声音信号流里识别出语音信号的静音期(即目标声源未发出语音的时期)。在静音期内,由于不存在目标声源的语音,此时两个采集装置获取的第一信号和第二信号中仅含有噪声成分。此时,两个采集装置获取的噪声信号的信号量的差异因子可以直接通过第一信号和第二信号的差异反映出来。VAD检测是指语音活动检测(Voice Activity Detection,VAD),又称语音端点检测、语音边界检测,可以得出目标声源未发出语音的静音区间。在一些实施例中,当检测到有语音信号时,差异因子可以不进行更新,即,此时可以近似认为当前时刻第一(降采样)信号和第二(降采样)信号中的噪声信号的信号量分别和此前静音区间内的第一(降采样)信号和第二(降采样)信号中的噪声信号的信号量相同。当没有检测到语音信号时即为静音期时,可以实时地根据此时的信号更新差异因子。
在一些实施例中,用第一降采样信号和第二降采样信号的信号能量的比值来表示差异因子时,可以先对第一降采样信号和第二降采样信号的当前帧数据进行平滑处理。在一些实施例中,可以基于第一降采样信号的当前帧数据以及前一帧或多帧的帧数据之 前的平滑参数,对第一降采样信号的当前帧数据做平滑处理,以及基于第二降采样信号的当前帧数据以及前一帧或多帧的帧数据之前的平滑参数,对第二降采样信号的当前帧数据做平滑处理。平滑处理后的第一降采样信号的当前帧数据和平滑处理后的第二降采样信号的当前帧数据之间的比值可以作为差异因子。例如:
Y1(n)=G*Y1(n-1)+(1-G)abs(sig1), (10)
Y2(n)=G*Y2(n-1)+(1-G)abs(sig2), (11)
α=(Y1(n)/Y2(n))
2, (12)
其中,第一降采样信号的频域信号为sig1,第二降采样信号的频域信号为sig2,α是差异因子,Y1(n)是对第一降采样信号的当前帧数据做平滑处理后得到的信号数据,Y2(n)是对第二降采样信号的当前帧数据做平滑处理后得到的信号数据,G是帧数据之间的平滑参数。在一些实施例中,可以根据当前信号进行更新差异因子。
在一些实施例中,基于第一降采样信号的噪声信号和第二降采样信号的噪声信号的差异因子,对第一降采样信号的频域信号和第二降采样信号的频域信号进行差分运算得到降噪后的增强频域信号,可以是:基于差异因子,对第一降采样信号的频域信号和第二降采样信号的频域信号求差值,并将输出结果作为降噪后的增强频域信号。例如,第一降采样信号的频域信号为sig1,第二降采样信号的频域信号为sig2,sig1的信号能量可以表示为abs(sig1)
2,sig2的信号能量可以表示为abs(sig2)
2,α是差异因子,降噪后的增强频域信号S为:
S=abs(sig1)
2-αabs(sig2)
2。 (13)
在一些实施例中,可以将所述第一降采样信号的频域信号和所述第二降采样信号的频域信号进行差分运算得到的信号作为第一级降噪后的初步增强频域信号。并可以基于初步增强频域信号、第一降采样信号的频域信号和第二降采样信号的频域信号进一步进行差分运算,得到降噪后的增强频域信号。
继续以前述对所述第一降采样信号的频域信号和所述第二降采样信号的频域信号进行差分运算得到的语音信号S为例,S即作为初步增强频域信号,可以对S和abs(sig2)
2进一步求差值,得到一个输出数据R_N,如:
R_N=abs(sig2)
2-S, (14)
再对R_N和abs(sig1)
2进一步求差值,得到一个输出数据作为降噪后的增强频域信号SS,如:
SS=abs(sig1)
2-R_N。 (15)
图9为目标语音对应的原始信号、降噪处理后得到的初步增强频域信号S、增强频域信号SS的示意图。原始信号经过第一级降噪处理后得到的初步增强频域信号S中滤除了大部分的噪声信号,进一步进行差分运算得到的增强频域信号SS继续进一步滤除了残余的部分噪声信号,并在初步增强频域信号S基础上增强了语音信号。
在一些实施例中,所述初步增强频域信号、所述第一降采样信号的频域信号或所述第二降采样信号的频域信号对应有第一权重系数。
在一些实施例中,对S和abs(sig2)
2进一步求差值时,S可以对应有第一权重系数。如:
R_N=abs(sig2)
2-hS, (16)
其中,h为第一权重系数,第一权重系数可以为固定值,也可以基于当前所处理信号的语音存在概率进行实时更新。
在一些实施例中,在对R_N和abs(sig1)
2进一步求差值时,R_N可以对应有第一权重系数。如:再对R_N和abs(sig1)
2进一步求差值,得到一个输出数据作为降噪后的增强频域信号SS,为:
SS=abs(sig1)
2-jR_N。 (17)
其中,j为第一权重系数,第一权重系数可以为固定值,也可以基于当前所处理信号的语音存在概率进行实时更新。语音存在概率是指信号数据中语音数据存在的概率,在一些实施例中,可以表示为当前信号(当前帧信号)的功率与功率最小值的比值,功率最小值可以是针对目标语音确定的功率最小值。
在一些实施例中,得到降噪后的增强频域信号后,可以对增强频域信号中,信号值小于预设参数的信号点的信号值进行更新。预设参数可以根据经验或实际需求进行设置,例如可以为0、0.01等。当增强频域信号的信号点的信号值小于预设参数时,可以将信号点的信号值更新为预设参数值。如:
SS_final=max(SS_final,μ), (18)
其中,SS_final是增强频域信号中信号点的信号值,μ是预设参数。
通过对信号值进行更新,可以避免处理得到的增强频域信号出现极小值,加强了语音增强的效果。
基于所述增强频域信号,确定所述增强语音信号可以是将增强频域信号直接作为增强语音信号,也可以根据实际需求将增强频域信号从频域信号转换为时域信号,并将转换后的时域信号作为增强语音信号。频域信号转换为时域信号可以通过前述傅里叶变换的逆变换得到。
步骤640,将所述增强语音信号中与第一降采样信号和/或第二降采样信号对应的部分信号进行升采样,得到所述目标语音对应的输出语音信号。
具体的,该步骤640可以由第三处理输出模块1240执行。
将增强语音信号中与第一降采样信号和/或第二降采样信号对应的部分信号进行升采样是指将增强语音信号中与第一降采样信号和/或第二降采样信号中非补充部分对应的部分进行升采样。升采样的倍数可以基于实际需求进行设置。例如升采样的倍数可以等于第一降采样信号和第二降采样信号的降采样倍数,这样,将增强语音信号中对应部分进行升采样后的信号长度与第一信号和第二信号的长度一致。
继续以前述将第一信号和第二信号的原信号带宽表示为f,经过k倍降采样,第一降采样信号和第二降采样信号的带宽变为f/k为例,原始的第一信号和第二信号的长度为L,降采样得到的第一降采样信号或第二降采样信号长度变为L/k,增强语音信号中与降采样得到的第一降采样信号或第二降采样信号对应的这部分信号,其信号长度也为L/k,对该部分信号进行k倍的升采样,可以将信号长度还原为L。
可以理解的是,第一信号和第二信号的处理可以是通过对一个或多个帧信号的逐个处理,最后得到的目标语音的输出语音信号即是由各个帧的处理得到的信号所叠加构成的语音信号。
图7是根据本说明书一些实施例所示的另一种第一处理方法的示例性流程图。
在一些实施例中,方法700可以由处理设备110、处理引擎112、处理器220执行。例如,方法700可以以程序或指令的形式存储在存储设备(例如,存储设备140或处理设备110的存储单元)中,当处理设备110、处理引擎112、处理器220或图11所示的模块执行程序或指令时,可以实现方法700。在一些实施例中,方法700可以利用以下未描述的一个或以上附加操作/步骤,和/或不通过以下所讨论的一个或以上操作/步骤完成。另外,如图7所示的操作/步骤的顺序并非限制性的。
如图7所示,该方法700可以包括:
步骤710,获取所述第一信号的低频部分对应的第一低频段信号,和获取所述第二信号的低频部分对应的第二低频段信号。
在一些实施例中,可以通过低通滤波的方式获取第一信号和第二信号的低频部分,也可以通过其它的算法或器件做基于频率的子带划分,得到第一信号和第二信号的低频部分。
在一些实施例中,可以对第一低频段信号和第二低频段信号进行补充以令其信号长度满足预设条件,补充信号的方法可以与前述补充第一降采样信号和第二降采样信号的方法类似,具体内容可以参见步骤620及其相关描述。
步骤720,获取所述第一低频段信号的频域信号和所述第二低频段信号的频域信号。
获取第一低频段信号的频域信号和第二低频段信号的频域信号的方式与方法600中获取第一降采样信号的频域信号和第二降采样信号的频域信号的方法类似,具体内容可以参见步骤630及其相关描述。
步骤730,处理所述第一低频段信号的频域信号和所述第二低频段信号的频域信号,得到所述目标语音对应的增强频域信号。
处理第一低频段信号的频域信号和第二低频段信号的频域信号,得到目标语音对应的语音增强后的增强频域信号,与前述处理第一降采样信号的频域信号和第二降采样信号的频域信号,得到目标语音对应的语音增强后的增强频域信号的方法类似,具体内容可以参见步骤630及其相关描述。
步骤740,基于所述增强频域信号,确定所述目标语音对应的第一输出语音信号。
基于所述增强频域信号,确定所述目标语音对应的第一输出语音信号可以是将增强频域信号直接作为第一输出语音信号,也可以根据实际需求将增强频域信号从频域信号转换为时域信号,并将转换后的时域信号作为第一输出语音信号。频域信号转换为时域信号可以通过前述傅里叶变换的逆变换得到。
图8是根据本说明书一些实施例所示的另一种语音增强的方法的示例性流程图。
在一些实施例中,方法800可以由处理设备110、处理引擎112、处理器220执行。例如,方法800可以以程序或指令的形式存储在存储设备(例如,存储设备140或处理设备110的存储单元)中,当处理设备110、处理引擎112、处理器220或图13所示的模块执行程序或指令时,可以实现方法800。在一些实施例中,方法800可以利用以下未描述的一个或以上附加操作/步骤,和/或不通过以下所讨论的一个或以上操作/步骤完成。另外,如图8所示的操作/步骤的顺序并非限制性的。
如图8所示,该方法800可以包括:
步骤810,获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号。
具体的,该步骤810可以由第四语音获取模块1310执行。
关于获取目标语音的第一信号和第二信号的具体内容可以参见步骤410及其相关描述,此处不再赘述。
步骤820,确定所述第一信号对应的至少一个第一子带信号和所述第二信号对应的至少一个第二子带信号。
具体的,该步骤820可以由子带确定模块1320执行。
在一些实施例中,可以基于信号的频段对第一信号和第二信号进行子带划分,得到第一信号对应的至少一个第一子带信号和第二信号对应的至少一个第二子带信号。例如,子带确定模块可以按照低频、中频或高频的频段类别对信号进行子带划分,或者也可以按照特定的频带宽度(例如,每2kHz作为一个频带)对信号进行子带的划分。在一些实施例中,还可以基于第一信号和第二信号的信号频点进行子带划分。信号频点是指:信号的频率值中小数点之后的数值,例如信号的频率值为72.810,则该信号的信号频点为810。基于信号频点进行子带划分可以是按照特定的信号频点宽度对信号进行子带的划分,例如:信号频点810-830作为一个子带,信号频点600-620作为一个子带。
在一些实施例中,可以通过滤波的方式获取第一信号对应的至少一个第一子带信号和第二信号对应的至少一个第二子带信号,也可以通过其它的算法或器件做子带划分,来得到第一信号对应的至少一个第一子带信号和第二信号对应的至少一个第二子带信号。
可以理解,第一信号对应的至少一个第一子带信号和第二信号对应的至少一个第二子带信号中,基于子带划分规则,第一信号和第二信号的子带是成对的,即第一信号的一个第一子带信号,与第二信号的一个第二子带信号是对应的。
步骤830,基于所述至少一个第一子带信号和所述至少一个第二子带信号确定所述目标语音的至少一个子带目标信噪比。
具体的,该步骤830可以由子带信噪比确定模块1330执行。
基于至少一个第一子带信号和至少一个第二子带信号确定目标语音的至少一个子带目标信噪比是指:对于第一信号的一个第一子带信号和与之对应的第二信号的第二子带信(即一个成对的子带信号),对应确定得到一个子带目标信噪比,通过子带划分 得到的多个第一子带信号和第二子带信号中,对每一个成对的子带信号确定其对应的子带目标信噪比,可以对应得到多个子带目标信噪比。
对于第一信号的一个第一子带信号和与之对应的第二信号的第二子带信号,即一个成对的子带信号,对应确定得到一个子带目标信噪比,可以采用与前述确定与第一信号、第二信号对应的目标信噪比相同的方法,即基于第一信号和/或第二信号确定所述目标语音的目标信噪比得方法,具体内容可以参见步骤410及其相关描述。
步骤840,基于所述至少一个子带目标信噪比确定对所述至少一个第一子带信号和所述至少一个第二子带信号的处理方式。
具体的,该步骤840可以由子带信噪比判别模块1340执行。
基于至少一个子带目标信噪比确定对至少一个第一子带信号和至少一个第二子带信号的处理方式,即是根据子带目标信噪比确定对第一子带信号和第二子带信号的处理方式。
在一些实施例中,可以判断子带目标信噪比是否满足预设条件,进而确定对应的处理方式。在一些实施例中,响应于所述子带目标信噪比小于第一阈值时,采用本说明书中其它地方所描述的第一模式处理所述至少一个第一子带信号和所述至少一个第二子带信号;响应于所述子带目标信噪比大于第二阈值时,采用本说明书中其它地方所描述的第二模式处理所述至少一个第一子带信号和所述至少一个第二子带信号,其中,所述第一阈值小于第二阈值。关于子带目标信噪比的判别、第一阈值、第二阈值、第一模式、第一模式的更多内容可以参见图4及其相关描述。
在一些实施例中,可以采用本说明书中其它地方所描述的第一处理方法处理至少一个第一子带信号和至少一个第二子带信号中属于低频部分的子带信号,得到对所述目标语音的低频部分进行增强的至少一个第一子带输出语音信号。
在一些实施例中,可以采用本说明书中其它地方所描述的第二处理方法处理至少一个第一子带信号和至少一个第二子带信号中属于高频部分的子带信号,得到对所述目标语音的高频部分进行增强的至少一个第二子带输出语音信号。
在一些实施例中,可以合并至少一个第一子带输出语音信号和至少一个第二子带输出语音信号,得到输出语音信号。即,每一对子带信号(包括第一子带信号和对应的第二子带信号)进行处理后得到一个子带输出语音信号,可以将各个子带输出语音信号合并,得到目标语音整体的输出语音信号。
在一些实施例中,也可以在对各个成对的子带信号处理后,将分别得到的各个 子带输出语音信号,分别作为各个子带信号对应的输出语音信号。
在一些实施中,根据需要,也可以选择第一信号和第二信号中,特定子带的信号数据,将对特定子带信号(特定子带的第一子带信号和第二子带信号)处理后得到的子带输出信号作为所需的输出语音信号。
步骤850,基于确定的所述处理方式对所述至少一个第一子带信号和所述至少一个第二子带信号进行处理,得到所述目标语音对应的语音增强后的输出语音信号。
具体的,该步骤850可以由第四增强处理模块1350执行。
在一些实施例中,第一处理方法可以包括:获取至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号;处理所述至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号,得到所述目标语音对应的语音增强后的至少一个子带增强频域信号;基于所述至少一个子带增强频域信号,确定所述至少一个第一子带输出语音信号。
获取第一子带信号的频域信号和第二子带信号的频域信号的方法与前述获取第一降采样信号的频域信号和第二降采样信号的频域信号的方法类似,具体内容可以参见图4及其相关描述。
处理所述至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号,得到所述目标语音对应的语音增强后的至少一个子带增强频域信号,与前述处理第一降采样信号的频域信号和第二降采样信号的频域信号,得到目标语音对应的语音增强后的增强频域信号,基于增强频域信号,确定增强语音信号的方法类似,具体内容可以参见图4、图5、图6及其相关描述。
在一些实施例中,获取至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号可以包括:对所述至少一个第一子带信号和所述至少一个第二子带信号分别进行采样,分别得到至少一个第一采样子带信号和至少一个第二采样子带信号;基于所述至少一个第一采样子带信号和所述至少一个第二采样子带信号,得到所述至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号。
其中,采样可以是指按照一定的采样频率对第一子带信号和第二子带信号进行采样(信号抽取),得到的信号即为第一采样子带信号和第二采样子带信号。
基于所述至少一个第一采样子带信号和所述至少一个第二采样子带信号,得到所述至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号的方法与前述获取第一降采样信号的频域信号和第二降采样信号的频域信号的方法类似,具 体内容可以参见图4及其相关描述。
在一些实施例中,第一处理方法还可以包括:补充所述至少一个第一采样子带信号和所述至少一个第二采样子带信号以令其信号长度满足预设条件。补充信号以满足预设条件的方法与前述补充第一降采样信号和第二降采样信号以令其信号长度满足预设条件的方法类似,具体内容可以参见图4、图5、图6、图7及其相关描述。
在一些实施例中,处理所述至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号,得到所述目标语音对应的语音增强后的至少一个子带增强频域信号可以包括:基于所述至少一个第一子带信号的噪声信号和所述至少一个第二子带信号的噪声信号的差异因子,对所述至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号进行差分运算;得到降噪后的所述至少一个子带增强频域信号。该方法与对第一降采样信号的频域信号和第二降采样信号的频域信号进行差分运算,得到降噪后的所述增强频域信号类似,具体内容可以参见图4、图5、图6、图7及其相关描述。差异因子可以基于所述至少一个第一子带信号和所述至少一个第二子带信号的信号能量确定。该差异因子的确定方法与前述基于第一降采样信号的噪声信号和第二降采样信号的噪声信号确定差异因子类似,具体内容可以参见图4、图5、图6、图7及其相关描述。
在一些实施例中,还可以基于所述至少一个第一子带信号的噪声信号和所述至少一个第二子带信号的噪声信号的差异因子,对所述至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号进行差分运算,将得到至少一个语音信号作为第一级降噪后的至少一个初步子带增强频域信号,该方法与前述对第一降采样信号的频域信号和第二降采样信号的频域信号进行差分运算,将得到的语音信号作为第一级降噪后的初步增强频域信号类似,更多内容可以参见图4、图5、图6、图7及其相关描述。在一些实施例中,可以基于所述至少一个初步子带增强频域信号、所述至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号进行差分运算,得到降噪后的所述至少一个子带增强频域信号。该方法与前述基于初步增强频域信号、第一降采样信号的频域信号和第二降采样信号的频域信号进行差分运算,得到降噪后的增强频域信号类似,具体内容可以参见图4、图5、图6、图7及其相关描述。
在一些实施例中,所述至少一个初步子带增强频域信号、至少一个第一子带信号的频域信号和/或所述至少一个第二子带信号的频域信号对应有第一权重系数,所述第一权重系数基于当前所处理信号的语音存在概率确定。该第一权重系数与前述初步增 强频域信号、所述第一降采样信号的频域信号和/或所述第二降采样信号的频域信号对应的第一权重系数类似,确定方法也与之类似,具体内容可以参见图4、图5、图6、图7及其相关描述。
在一些实施例中,可以基于第一权重系数,对前述至少一个初步子带增强频域信号、至少一个第一子带信号的频域信号和至少一个第二子带信号的频域信号进行差分运算,得到降噪后的所述至少一个子带增强频域信号。基于第一权重系数进行差分运算得到至少一个子带增强频域信号的方法,与前述基于第一权重系数进行差分运算得到增强频域信号的方法类似,具体内容可以参见图4、图5、图6、图7及其相关描述。
在一些实施例中,还可以对所述至少一个子带增强频域信号中,信号值小于预设参数的信号点的信号值进行更新。对信号值进行更新的方法与前述对增强频域信号中,信号值小于预设参数的信号点的信号值进行更新的方法类似,具体内容可以参见图4、图5、图6、图7及其相关描述。
在一些实施例中,第二处理方法可以包括:基于所述至少一个第一子带信号和所述至少一个第二子带信号进行差分运算,得到对所述目标语音的高频部分进行增强的所述至少一个第二子带输出语音信号。该部分方法与前述基于第一高频段信号和第二高频段信号进行差分运算,得到对目标语音的高频部分进行增强的第二输出语音信号类似,具体内容可以参见图4、图5、图6、图7及其相关描述。
在一些实施例中,可以对所述至少一个第一子带信号和所述至少一个第二子带信号分别进行升采样,分别得到至少一个第一升采样信号和至少一个第二升采样信号。该部分方法与前述对第一高频段信号和第二高频段信号分别进行升采样,分别得到第一升采样信号和第二升采样信号类似,具体内容可以参见图2、图3、图4、图5及其相关描述。进一步地,可以对所述至少一个第一升采样信号和所述至少一个第二升采样信号进行差分运算,得到对所述目标语音的高频部分进行增强的所述至少一个第二子带输出语音信号。该部分方法与前述对第一升采样信号和第二升采样信号进行差分运算,得到对目标语音的高频部分进行增强的所述第二输出语音信号类似,具体内容可以参见图4、图5、图6、图7及其相关描述。
在一些实施例中,差分运算可以包括:基于所述第一子带信号的第一时序信号、所述第二子带信号中在所述第一时序之前的至少一个时序信号进行所述差分运算;得到对所述目标语音的高频部分进行增强的所述第二子带输出语音信号。该部分方法可以与前述基于所述第一高频段信号的第一时序信号、所述第二高频段信号中在所述第一时序 之前的至少一个时序信号进行差分运算;得到对所述目标语音的高频部分进行增强的所述第二输出语音信号类似,具体内容可以参见图4、图5、图6、图7及其相关描述。
在一些实施例中,在所述第一时序之前的所述至少一个时序信号中,每一个所述时序信号对应有第二权重系数,基于所述第一信号的所述第一时序信号、所述第二信号中在所述第一时序之前的所述至少一个时序信号和所述至少一个时序信号对应的所述第二权重系数进行所述差分运算。该第二权重系数与前述第二高频段信号中在第一时序之前的至少一个时序信号的第二权重系数作用类似,确定方法与其类似,具体内容可以参见图4、图5、图6、图7及其相关描述。
关于基于所述第一信号的所述第一时序信号、所述第二信号中在所述第一时序之前的所述至少一个时序信号和所述至少一个时序信号对应的所述第二权重系数进行所述差分运算,与前述基于所述第一高频段信号的第一时序信号、第二高频段信号中在第一时序之前的至少一个时序信号和至少一个时序信号的所述第二权重系数进行差分运算类似,具体内容可以参见图4、图5、图6、图7及其相关描述。
在一些实施例中,第二权重系数可以基于所述第一时序信号、所述第一信号中所述第一时序信号的前一时序信号对应的所述第二信号中在所述前一时序之前的至少一个时序信号的第二权重系数确定。该第二权重系数的确定方法与前述基于第一高频段信号中第一时序信号、第一高频段信号中第一时序信号的前一时序信号对应的的第二权重系数确定第一时序信号对应的第二权重系数类似,具体内容可以参见图4、图5、图6、图7及其相关描述。
图10是根据本说明书一些实施例所示的一种语音增强系统的示例性框图。
在一些实施例中,语音增强系统1000可以实现于处理设备110上,其可以包括第一语音获取模块1010、信噪比确定模块1020、信噪比判别模块1030和第一增强处理模块1040。
在一些实施例中,第一语音获取模块1010可以用于获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号。
在一些实施例中,信噪比确定模块1020可以用于基于所述第一信号或所述第二信号确定所述目标语音的目标信噪比。
在一些实施例中,信噪比判别模块1030可以用于基于所述目标信噪比确定对所述第一信号和所述第二信号的处理方式。
在一些实施例中,第一增强处理模块1040可以用于基于确定的所述处理方式对所述第一信号和所述第二信号进行处理,得到所述目标语音对应的语音增强后的输出语音信号。
图11是根据本说明书一些实施例所示的一种语音增强系统的示例性框图。
在一些实施例中,语音增强系统1100可以实现于处理设备110上,其可以包括第二语音获取模块1110、第二增强处理模块1120和第二处理输出模块1130。
在一些实施例中,第二语音获取模块1110可以用于获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号。
在一些实施例中,第二增强处理模块1120可以用于采用第一处理方法处理所述第一信号的低频部分和所述第二信号的低频部分,得到对所述目标语音的低频部分进行增强的第一输出语音信号;采用第二处理方法处理所述第一信号的高频部分和所述第二信号的高频部分,得到对所述目标语音的高频部分进行增强的第二输出语音信号。
在一些实施例中,第二处理输出模块1130可以用于合并所述第一输出语音信号和所述第二输出语音信号,得到所述目标语音对应的语音增强后的输出语音信号。
图12是根据本说明书一些实施例所示的一种语音增强系统的示例性框图。
在一些实施例中,语音增强系统1200可以实现于处理设备110上,其可以包括第三语音获取模块1210、第三采样模块1220、第三增强处理模块1230和第三处理输出模块1240。
在一些实施例中,第三语音获取模块1210可以用于获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号。
在一些实施例中,第三采样模块1220可以用于对所述第一信号和所述第二信号分别进行降采样,分别得到第一降采样信号和第二降采样信号。
在一些实施例中,第三增强处理模块1230可以用于处理所述第一降采样信号和所述第二降采样信号,得到所述目标语音对应的增强语音信号。
在一些实施例中,第三处理输出模块1240可以用于将所述增强语音信号中与第一降采样信号和/或第二降采样信号对应的部分信号进行升采样,得到所述目标语音对应的输出语音信号。
图13是根据本说明书一些实施例所示的一种语音增强系统的示例性框图。
在一些实施例中,语音增强系统1300可以实现于处理设备110上,其可以包括第四语音获取模块1310、子带确定模块1320、子带信噪比确定模块1330、子带信噪比判别模块1340和第四增强处理模块1350。
在一些实施例中,第四语音获取模块1310可以用于获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号。
在一些实施例中,子带确定模块1320可以用于确定所述第一信号对应的至少一个第一子带信号和所述第二信号对应的至少一个第二子带信号。
在一些实施例中,子带信噪比确定模块1330可以用于基于所述至少一个第一子带信号和/或所述至少一个第二子带信号确定所述目标语音的至少一个子带目标信噪比。
在一些实施例中,子带信噪比判别模块1340可以用于基于所述至少一个子带目标信噪比确定对所述至少一个第一子带信号和所述至少一个第二子带信号的处理方式。
在一些实施例中,第四增强处理模块1350可以用于基于确定的所述处理方式对所述至少一个第一子带信号和所述至少一个第二子带信号进行处理,得到所述目标语音对应的语音增强后的输出语音信号。
应当理解,所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于语音增强系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。
本说明书实施例还提供一种语音增强的装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现如下方法:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音对应的在不同的语音采集位置的语音信号;对所述第一信号和所述第二信号分别进行降采样,分别得到第一降采样信号和第二降采样信号;处理所述第一降采样信号和所述第二降采样信号,得到所述目标语音对应的语音增强后的增强语音信号;将所述增强语音信号中与第一降采样信号和/或第二降采样信号对应的部分信号进行升采样,得到所述目标语音对应的输出语音信号。
本说明书实施例还提供一种语音增强的装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现如下方法:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音对应的在不同的语音采集位置的语音信号;采用第一处理方法处理所述第一信号的低频部分和所述第二信号的低频部分,得到对所述目标语音的低频部分进行增强的第一输出语音信号;采用第二处理方法处理所述第一信号的高频部分和所述第二信号的高频部分,得到对所述目标语音的高频部分进行增强的第二输出语音信号;合并所述第一输出语音信号和所述第二输出语音信号,得到所述目标语音对应的语音增强后的输出语音信号。
本说明书实施例还提供一种语音增强的装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现如下方法:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音对应的在不同的语音采集位置的语音信号;基于所述第一信号和/或所述第二信号确定所述目标语音的目标信噪比;基于所述目标信噪比确定对所述第一信号和所述第二信号的处理方式;以及基于确定的所述处理方式对所述第一信号和所述第二信号进行处理,得到所述目标语音对应的语音增强后的输出语音信号。
本说明书实施例还提供一种语音增强的装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现如下方法:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音对应的在不同的语音采集位置的语音信号;确定所述第一信号对应的至少一个第一子带信号和所述第二信号对应的至少一个第二子带信号;基于所述至少一个第一子带信号和/或所述至少一个第二子带信号确定所述目标语音的至 少一个子带目标信噪比;基于所述至少一个子带目标信噪比确定对所述至少一个第一子带信号和所述至少一个第二子带信号的处理方式;以及基于确定的所述处理方式对所述至少一个第一子带信号和所述至少一个第二子带信号进行处理,得到所述目标语音对应的语音增强后的输出语音信号。
本说明书实施例可能带来的有益效果包括但不限于:(1)本说明书中,通过对目标语音的第一信号和第二信号进行降采样并长度补零后做语音增强处理,再进行部分升采样得到最后输出语音信号,实现了低频部分的高频率分辨率增强处理,提高了低频部分的语音增强效果;(2)本说明书中,通过对目标语音的第一信号和第二信号进行高频部分和低频部分分别处理,实现了有效地分别提高低频部分的语音增强效果和高频部分的语音增强效果;(3)本说明书中,基于目标语音的目标信噪比判别,选择对目标语音的第一信号和第二信号的不同处理方法,使得更加精准和有效地根据不同信噪比的信号特点实现目标语音的语音增强,提高了语音增强效果;(4)本说明书中,通过对目标语音的第一信号和第二信号进行子带划分,基于子带信号进行目标语音的语音增强处理,实现了更加有针对性和更精细的语音增强处理,能够提高语音增强的效果。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系 统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实 施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (67)
- 一种语音增强方法,包括:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;基于所述第一信号或所述第二信号确定所述目标语音的目标信噪比;基于所述目标信噪比确定对所述第一信号和所述第二信号的处理方式;以及基于确定的所述处理方式对所述第一信号和所述第二信号进行处理,得到所述目标语音对应的语音增强后的输出语音信号。
- 如权利要求1所述的方法,所述基于所述第一信号或所述第二信号确定所述目标语音的目标信噪比包括:分别获取所述第一信号和所述第二信号的当前帧数据;确定与所述第一信号和所述第二信号的当前帧数据所对应的估计信噪比;基于所述第一信号和所述第二信号的至少一个在所述当前帧数据之前的帧数据,确定所述目标语音的验证信噪比;以及基于所述验证信噪比和所述估计信噪比确定与所述第一信号和所述第二信号的当前帧数据所对应的所述目标信噪比。
- 如权利要求2所述的方法,基于所述第一信号和所述第二信号的至少一个在所述当前帧数据之前的帧数据,确定所述目标语音的验证信噪比;以及基于所述验证信噪比和所述估计信噪比确定与所述第一信号和所述第二信号的当前帧数据所对应的所述目标信噪比包括:获取所述第一信号和所述第二信号的至少一个在所述当前帧数据之前并且经过语音增强的帧数据;确定与所述经过语音增强的帧数据对应的至少一个验证信噪比;以及基于所述至少一个验证信噪比和所述估计信噪比确定与所述第一信号和所述第二信号的当前帧数据所对应的所述目标信噪比。
- 如权利要求1所述的方法,所述基于所述目标信噪比确定对所述第一信号和所述第二信号处理方式包括:响应于所述目标信噪比小于第一阈值时,采用第一模式处理所述第一信号和所述第二信号;以及响应于所述目标信噪比大于第二阈值时,采用第二模式处理所述第一信号和所述第二信号,其中,所述第一阈值小于第二阈值。
- 如权利要求4所述的方法,所述采用第一模式处理所述第一信号和所述第二信号包括:采用第一处理方法处理所述第一信号的低频部分和所述第二信号的低频部分,得到对所述目标语音的低频部分进行增强的第一输出语音信号;采用第二处理方法处理所述第一信号的高频部分和所述第二信号的高频部分,得到对所述目标语音的高频部分进行增强的第二输出语音信号;以及合并所述第一输出语音信号和所述第二输出语音信号得到所述输出语音信号。
- 如权利要求5所述的方法,所述第一处理方法包括:对所述第一信号和所述第二信号分别进行降采样,分别得到第一降采样信号和第二降采样信号;处理所述第一降采样信号和所述第二降采样信号,得到所述目标语音对应的增强语音信号;将所述增强语音信号中与第一降采样信号和第二降采样信号对应的部分信号进行升采样,得到对所述目标语音的低频部分进行增强的所述第一输出语音信号。
- 如权利要求6所述的方法,所述第一处理方法还包括:补充所述第一降采样信号和所述第二降采样信号以令其信号长度、采样频率满足预设条件。
- 如权利要求6所述的方法,所述处理所述第一降采样信号和所述第二降采样信号,得到所述目标语音对应的增强语音信号包括:获取所述第一降采样信号的频域信号和所述第二降采样信号的频域信号;处理所述第一降采样信号的频域信号和所述第二降采样信号的频域信号,得到所述目标语音对应的增强频域信号;基于所述增强频域信号,确定所述增强语音信号。
- 如权利要求8所述的方法,所述处理所述第一降采样信号的频域信号和所述第二降采样信号的频域信号,得到所述目标语音对应的增强频域信号包括:基于所述第一降采样信号的噪声信号和所述第二降采样信号的噪声信号的差异因子,对 所述第一降采样信号的频域信号和所述第二降采样信号的频域信号进行差分运算,得到所述增强频域信号,所述差异因子基于所述第一降采样信号和所述第二降采样信号的信号能量确定。
- 如权利要求8所述的方法,所述处理所述第一降采样信号的频域信号和所述第二降采样信号的频域信号,得到所述目标语音对应的增强频域信号包括:基于所述第一降采样信号的噪声信号和所述第二降采样信号的噪声信号的差异因子,对所述第一降采样信号的频域信号和所述第二降采样信号的频域信号进行差分运算,得到初步增强频域信号;以及基于所述初步增强频域信号、所述第一降采样信号的频域信号和所述第二降采样信号的频域信号进行差分运算,得到所述增强频域信号。
- 如权利要求10所述的方法,所述初步增强频域信号、所述第一降采样信号的频域信号或所述第二降采样信号的频域信号对应有第一权重系数,所述第一权重系数与当前所处理信号的语音存在概率有关。
- 如权利要求5所述的方法,所述第一处理方法包括:获取所述第一信号的低频部分对应的第一低频段信号,和所述第二信号的低频部分对应的第二低频段信号;获取所述第一低频段信号的频域信号和所述第二低频段信号的频域信号;处理所述第一低频段信号的频域信号和所述第二低频段信号的频域信号,得到所述目标语音对应的语音增强后的增强频域信号;基于所述增强频域信号,确定所述目标语音对应的第一输出语音信号。
- 如权利要求12所述的方法,所述第一处理方法还包括:补充所述第一低频段信号和所述第二低频段信号以令其信号长度满足预设条件。
- 如权利要求6-13任一项所述的方法,所述第一处理方法还包括:对所述增强频域信号中,信号值小于预设参数的信号点的信号值进行更新。
- 如权利要求5所述的方法,所述第二处理方法包括:获取所述第一信号的高频部分对应的第一高频段信号,和所述第二信号的高频对应的第二高频段信号;以及基于所述第一高频段信号和所述第二高频段信号进行差分运算,得到对所述目标语音的高频部分进行增强的所述第二输出语音信号。
- 如权利要求15所述的方法,所述基于所述第一高频段信号和所述第二高频段信号进行差分运算包括:对所述第一高频段信号和所述第二高频段信号分别进行升采样,分别得到第一升采样信号和第二升采样信号;以及对所述第一升采样信号和所述第二升采样信号进行差分运算,得到对所述目标语音的高频部分进行增强的所述第二输出语音信号。
- 如权利要求15或16所述的方法,所述差分运算包括:基于所述第一高频段信号的第一时序信号、所述第二高频段信号中在所述第一时序之前的至少一个时序信号进行所述差分运算。
- 如权利要求17所述的方法,在所述第一时序之前的所述至少一个时序信号中,每一个所述时序信号有对应的第二权重系数,所述方法包括:基于所述第一高频段信号的所述第一时序信号、所述第二高频段信号中在所述第一时序之前的所述至少一个时序信号和所述至少一个时序信号对应的所述第二权重系数进行所述差分运算。
- 如权利要求18所述的方法,所述第二权重系数基于所述第一时序信号、所述第一高频段信号中所述第一时序信号的前一时序信号对应的所述第二高频段信号中在所述前一时序之前的至少一个时序信号的第二权重系数确定。
- 一种语音增强系统,包括:第一语音获取模块,用于:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;信噪比确定模块,用于:基于所述第一信号或所述第二信号确定所述目标语音的目标信噪比;信噪比判别模块,用于:基于所述目标信噪比确定对所述第一信号和所述第二信号的处 理方式;以及第一增强处理模块,用于:基于确定的所述处理方式对所述第一信号和所述第二信号进行处理,得到所述目标语音对应的语音增强后的输出语音信号。
- 一种语音增强装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现权利要求1-19任一项所述的方法。
- 一种语音增强方法,包括:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;采用第一处理方法处理所述第一信号的低频部分和所述第二信号的低频部分,得到对所述目标语音的低频部分进行增强的第一输出语音信号;采用第二处理方法处理所述第一信号的高频部分和所述第二信号的高频部分,得到对所述目标语音的高频部分进行增强的第二输出语音信号;合并所述第一输出语音信号和所述第二输出语音信号,得到所述目标语音对应的语音增强后的输出语音信号。
- 如权利要求22所述的方法,所述第一处理方法包括:对所述第一信号和所述第二信号分别进行降采样,分别得到第一降采样信号和第二降采样信号;处理所述第一降采样信号和所述第二降采样信号,得到所述目标语音对应的增强语音信号;将所述增强语音信号中与第一降采样信号和/或第二降采样信号对应的部分信号进行升采样,得到对所述目标语音的低频部分进行增强的所述第一输出语音信号。
- 如权利要求23所述的方法,所述第一处理方法还包括:补充所述第一降采样信号和所述第二降采样信号以令其信号长度、采样频率满足预设条件。
- 如权利要求23所述的方法,所述处理所述第一降采样信号和所述第二降采样信号,得到所述目标语音对应的增强语音信号包括:获取所述第一降采样信号的频域信号和所述第二降采样信号的频域信号;处理所述第一降采样信号的频域信号和所述第二降采样信号的频域信号,得到所述目标语音对应的增强频域信号;基于所述增强频域信号,确定所述增强语音信号。
- 如权利要求25所述的方法,所述处理所述第一降采样信号的频域信号和所述第二降采样信号的频域信号,得到所述目标语音对应的增强频域信号包括:基于所述第一降采样信号的噪声信号和所述第二降采样信号的噪声信号的差异因子,对所述第一降采样信号的频域信号和所述第二降采样信号的频域信号进行差分运算,得到所述增强频域信号,所述差异因子基于所述第一降采样信号和所述第二降采样信号的信号能量确定。
- 如权利要求25所述的方法,所述处理所述第一降采样信号的频域信号和所述第二降采样信号的频域信号,得到所述目标语音对应的增强频域信号包括:基于所述第一降采样信号的噪声信号和所述第二降采样信号的噪声信号的差异因子,对所述第一降采样信号的频域信号和所述第二降采样信号的频域信号进行差分运算,得到初步增强频域信号;以及基于所述初步增强频域信号、所述第一降采样信号的频域信号和所述第二降采样信号的频域信号进行差分运算,得到所述增强频域信号。
- 如权利要求27所述的方法,所述初步增强频域信号、所述第一降采样信号的频域信号或所述第二降采样信号的频域信号对应有第一权重系数,所述第一权重系数与当前所处理信号的语音存在概率有关。
- 如权利要求22所述的方法,所述第一处理方法包括:获取所述第一信号的低频部分对应的第一低频段信号,和所述第二信号的低频部分对应的第二低频段信号;获取所述第一低频段信号的频域信号和所述第二低频段信号的频域信号;处理所述第一低频段信号的频域信号和所述第二低频段信号的频域信号,得到所述目标语音对应的增强频域信号;基于所述增强频域信号,确定所述目标语音对应的第一输出语音信号。
- 如权利要求29所述的方法,所述第一处理方法还包括:补充所述第一低频段信号和所述第二低频段信号以令其信号长度满足预设条件。
- 如权利要求23-30任一项所述的方法,所述第一处理方法还包括:对所述增强频域信号中,信号值小于预设参数的信号点的信号值进行更新。
- 如权利要求22所述的方法,所述第二处理方法包括:获取所述第一信号的高频部分对应的第一高频段信号,和获取所述第二信号的高频对应的第二高频段信号;以及基于所述第一高频段信号和所述第二高频段信号进行差分运算,得到对所述目标语音的高频部分进行增强的所述第二输出语音信号。
- 如权利要求32所述的方法,所述基于所述第一高频段信号和所述第二高频段信号进行差分运算包括:对所述第一高频段信号和所述第二高频段信号分别进行升采样,分别得到第一升采样信号和第二升采样信号;以及对所述第一升采样信号和所述第二升采样信号进行差分运算,得到对所述目标语音的高频部分进行增强的所述第二输出语音信号。
- 如权利要求32或33所述的方法,所述差分运算包括:基于所述第一高频段信号的第一时序信号、所述第二高频段信号中在所述第一时序之前的至少一个时序信号进行所述差分运算。
- 如权利要求34所述的方法,在所述第一时序之前的所述至少一个时序信号中,每一个所述时序信号有对应的第二权重系数,所述方法包括:基于所述第一高频段信号的所述第一时序信号、所述第二高频段信号中在所述第一时序之前的所述至少一个时序信号和所述至少一个时序信号对应的所述第二权重系数进行所述差分运算。
- 如权利要求35所述的方法,所述第二权重系数基于所述第一时序信号、所述第一高频段信号中所述第一时序信号的前一时序信号对应的所述第二高频段信号中在所述前一时序 之前的至少一个时序信号的第二权重系数确定。
- 一种语音增强系统,包括:第二语音获取模块,用于:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;第二增强处理模块,用于:采用第一处理方法处理所述第一信号的低频部分和所述第二信号的低频部分,得到对所述目标语音的低频部分进行增强的第一输出语音信号;采用第二处理方法处理所述第一信号的高频部分和所述第二信号的高频部分,得到对所述目标语音的高频部分进行增强的第二输出语音信号;以及第二处理输出模块,用于:合并所述第一输出语音信号和所述第二输出语音信号,得到所述目标语音对应的语音增强后的输出语音信号。
- 一种语音增强装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现权利要求22-36任一项所述的方法。
- 一种语音增强方法,包括:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;对所述第一信号和所述第二信号分别进行降采样,分别得到第一降采样信号和第二降采样信号;处理所述第一降采样信号和所述第二降采样信号,得到所述目标语音对应的增强语音信号;将所述增强语音信号中与第一降采样信号和第二降采样信号对应的部分信号进行升采样,得到所述目标语音对应的输出语音信号。
- 如权利要求39所述的方法,所述处理所述第一降采样信号和所述第二降采样信号,得到所述目标语音对应的增强语音信号,包括:补充所述第一降采样信号和所述第二降采样信号以令其信号长度、采样频率满足预设条件。
- 如权利要求39所述的方法,所述处理所述第一降采样信号和所述第二降采样信号, 得到所述目标语音对应的增强语音信号包括:获取所述第一降采样信号的频域信号和所述第二降采样信号的频域信号;处理所述第一降采样信号的频域信号和所述第二降采样信号的频域信号,得到所述目标语音对应的增强频域信号;基于所述增强频域信号,确定所述增强语音信号。
- 如权利要求40所述的方法,所述处理所述第一降采样信号的频域信号和所述第二降采样信号的频域信号,得到所述目标语音对应的增强频域信号包括:基于所述第一降采样信号的噪声信号和所述第二降采样信号的噪声信号的差异因子,对所述第一降采样信号的频域信号和所述第二降采样信号的频域信号进行差分运算,得到所述增强频域信号,所述差异因子基于所述第一降采样信号和所述第二降采样信号的信号能量确定。
- 如权利要求41所述的方法,所述处理所述第一降采样信号的频域信号和所述第二降采样信号的频域信号,得到所述目标语音对应的增强频域信号包括:基于所述第一降采样信号的噪声信号和所述第二降采样信号的噪声信号的差异因子,对所述第一降采样信号的频域信号和所述第二降采样信号的频域信号进行差分运算,得到初步增强频域信号;以及基于所述初步增强频域信号、所述第一降采样信号的频域信号和所述第二降采样信号的频域信号进行差分运算,得到所述增强频域信号。
- 如权利要求43所述的方法,所述初步增强频域信号、所述第一降采样信号的频域信号或所述第二降采样信号的频域信号对应有第一权重系数,所述第一权重系数与当前所处理信号的语音存在概率有关。
- 如权利要求40-44任一项所述的方法,还包括:对所述增强频域信号中,信号值小于预设参数的信号点的信号值进行更新。
- 一种语音增强系统,包括:第三语音获取模块,用于:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;第三采样模块,用于:对所述第一信号和所述第二信号分别进行降采样,分别得到第一降采样信号和第二降采样信号;第三增强处理模块,用于:处理所述第一降采样信号和所述第二降采样信号,得到所述目标语音对应的增强语音信号;第三处理输出模块,用于:将所述增强语音信号中与第一降采样信号和/或第二降采样信号对应的部分信号进行升采样,得到所述目标语音对应的输出语音信号。
- 一种语音增强装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现权利要求39-45任一项所述的方法。
- 一种语音增强方法,包括:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;确定所述第一信号对应的至少一个第一子带信号和所述第二信号对应的至少一个第二子带信号;基于所述至少一个第一子带信号或所述至少一个第二子带信号确定所述目标语音的至少一个子带目标信噪比;基于所述至少一个子带目标信噪比确定对所述至少一个第一子带信号和所述至少一个第二子带信号的处理方式;以及基于确定的所述处理方式对所述至少一个第一子带信号和所述至少一个第二子带信号进行处理,得到所述目标语音对应的语音增强后的输出语音信号。
- 如权利要求48所述的方法,所述基于确定的所述处理方式对所述至少一个第一子带信号和所述至少一个第二子带信号进行处理,得到所述目标语音对应的语音增强后的输出语音信号包括:基于确定的所述处理方式对所述至少一个第一子带信号和所述至少一个第二子带信号进行处理,得到所述至少一个第一子带信号和所述至少一个第二子带信号对应的至少一个子带输出语音信号;合并所述至少一个子带输出语音信号,得到所述目标语音对应的语音增强后的所述输出语音信号。
- 如权利要求48所述的方法,所述基于所述至少一个第一子带信号和所述至少一个第二子带信号确定所述目标语音的至少一个子带目标信噪比包括:分别获取所述第一子带信号和所述第二子带信号的当前帧数据;确定与所述第一子带信号和所述第二子带信号的当前帧数据所对应的子带估计信噪比;基于所述第一子带信号和所述第二子带信号的至少一个在所述当前帧数据之前的帧数据,确定所述目标语音的子带验证信噪比;以及基于所述子带验证信噪比和所述子带估计信噪比确定与所述第一子带信号和所述第二子带信号的当前帧数据所对应的所述子带目标信噪比。
- 如权利要求50所述的方法,基于所述第一子带信号和所述第二子带信号的至少一个在所述当前帧数据之前的帧数据,确定所述目标语音的子带验证信噪比;以及获取所述子带验证信噪比和所述子带估计信噪比确定与所述第一子带信号和所述第二子带信号的当前帧数据所对应的所述子带目标信噪比包括:基于所述第一子带信号和所述第二子带信号的至少一个在所述当前帧数据之前并且经过语音增强的帧数据;确定与所述经过语音增强的帧数据对应的至少一个子带验证信噪比;以及基于所述至少一个子带验证信噪比和所述子带估计信噪比确定与所述第一子带信号和所述第二子带信号的当前帧数据所对应的所述子带目标信噪比。
- 如权利要求48所述的方法,所述基于所述至少一个子带目标信噪比确定对所述至少一个第一子带信号和所述至少一个第二子带信号的处理方式包括:响应于所述子带目标信噪比小于第一阈值时,采用第一模式处理所述至少一个第一子带信号和所述至少一个第二子带信号;以及响应于所述子带目标信噪比大于第二阈值时,采用第二模式处理所述至少一个第一子带信号和所述至少一个第二子带信号,其中,所述第一阈值小于第二阈值。
- 如权利要求52所述的方法,所述采用第一模式处理所述至少一个第一子带信号和所述至少一个第二子带信号包括:采用第一处理方法处理所述至少一个第一子带信号和所述至少一个第二子带信号中属于低频部分的子带信号,得到对所述目标语音的低频部分进行增强的至少一个第一子 带输出语音信号;以及采用第二处理方法处理所述至少一个第一子带信号和所述至少一个第二子带信号中属于高频部分的子带信号,得到对所述目标语音的高频部分进行增强的至少一个第二子带输出语音信号;以及合并所述至少一个第一子带输出语音信号和所述至少一个第二子带输出语音信号,得到所述输出语音信号。
- 如权利要求53所述的方法,所述第一处理方法包括:获取至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号;处理所述至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号,得到所述目标语音对应的至少一个子带增强频域信号;以及基于所述至少一个子带增强频域信号,确定所述至少一个第一子带输出语音信号。
- 如权利要求54所述的方法,所述获取至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号包括:对所述至少一个第一子带信号和所述至少一个第二子带信号分别进行采样,分别得到至少一个第一采样子带信号和至少一个第二采样子带信号;以及基于所述至少一个第一采样子带信号和所述至少一个第二采样子带信号,得到所述至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号。
- 如权利要求55所述的方法,所述第一处理方法还包括:补充所述至少一个第一采样子带信号和所述至少一个第二采样子带信号以令其信号长度、采样频率满足预设条件。
- 如权利要求54所述的方法,所述处理所述至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号,得到所述目标语音对应的至少一个子带增强频域信号包括:基于所述至少一个第一子带信号的噪声信号和所述至少一个第二子带信号的噪声信号的差异因子,对所述至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号进行差分运算,得到所述至少一个子带增强频域信号,所述差异因子基于所述至少一个第一子带信号和所述至少一个第二子带信号的信号能量确定。
- 如权利要求54所述的方法,所述处理所述至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号,得到所述目标语音对应的至少一个子带增强频域信号包括:基于所述至少一个第一子带信号的噪声信号和所述至少一个第二子带信号的噪声信号的差异因子,对所述至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号进行差分运算,得到至少一个语音信号作为初步子带增强频域信号;以及基于所述初步子带增强频域信号、所述至少一个第一子带信号的频域信号和所述至少一个第二子带信号的频域信号进行差分运算,得到所述至少一个子带增强频域信号。
- 如权利要求58所述的方法,所述至少一个初步子带增强频域信号、至少一个第一子带信号的频域信号或所述至少一个第二子带信号的频域信号对应有第一权重系数,所述第一权重系数与当前所处理信号的语音存在概率有关。
- 如权利要求54-59任一项所述的方法,所述第一处理方法还包括:对所述至少一个子带增强频域信号中,信号值小于预设参数的信号点的信号值进行更新。
- 如权利要求53所述的方法,所述第二处理方法包括:基于所述至少一个第一子带信号和所述至少一个第二子带信号进行差分运算,得到对所述目标语音的高频部分进行增强的所述至少一个第二子带输出语音信号。
- 如权利要求61所述的方法,所述基于所述至少一个第一子带信号和所述至少一个第二子带信号进行差分运算包括:对所述至少一个第一子带信号和所述至少一个第二子带信号分别进行升采样,分别得到至少一个第一升采样信号和至少一个第二升采样信号;以及对所述至少一个第一升采样信号和所述至少一个第二升采样信号进行差分运算,得到对所述目标语音的高频部分进行增强的所述至少一个第二子带输出语音信号。
- 如权利要求61或62所述的方法,所述差分运算包括:基于所述第一子带信号的第一时序信号、所述第二子带信号中在所述第一时序之前的至少一个时序信号进行所述差分运算。
- 如权利要求63所述的方法,在所述第一时序之前的所述至少一个时序信号中,每一个所述时序信号对应有第二权重系数,所述方法包括:基于所述第一信号的所述第一时序信号、所述第二信号中在所述第一时序之前的所述至少一个时序信号和所述至少一个时序信号对应的所述第二权重系数进行所述差分运算。
- 如权利要求64所述的方法,所述第二权重系数基于所述第一时序信号、所述第一信号中所述第一时序信号的前一时序信号对应的所述第二信号中在所述前一时序之前的至少一个时序信号的第二权重系数确定。
- 一种语音增强系统,包括:第四语音获取模块,用于:获取目标语音的第一信号和第二信号,所述第一信号和所述第二信号为所述目标语音在不同语音采集位置的语音信号;子带确定模块,用于:确定所述第一信号对应的至少一个第一子带信号和所述第二信号对应的至少一个第二子带信号;子带信噪比确定模块,用于:基于所述至少一个第一子带信号或所述至少一个第二子带信号确定所述目标语音的至少一个子带目标信噪比;子带信噪比判别模块,用于:基于所述至少一个子带目标信噪比确定对所述至少一个第一子带信号和所述至少一个第二子带信号的处理方式;以及第四增强处理模块,用于:基于确定的所述处理方式对所述至少一个第一子带信号和所述至少一个第二子带信号进行处理,得到所述目标语音对应的语音增强后的输出语音信号。
- 一种语音增强装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现权利要求48-65任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2021/085039 WO2022205345A1 (zh) | 2021-04-01 | 2021-04-01 | 一种语音增强方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116711007A true CN116711007A (zh) | 2023-09-05 |
Family
ID=83457845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180068601.4A Pending CN116711007A (zh) | 2021-04-01 | 2021-04-01 | 一种语音增强方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230317093A1 (zh) |
CN (1) | CN116711007A (zh) |
TW (1) | TWI818493B (zh) |
WO (1) | WO2022205345A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116904569A (zh) * | 2023-09-13 | 2023-10-20 | 北京齐碳科技有限公司 | 信号处理方法、装置、电子设备、介质和产品 |
CN117278896A (zh) * | 2023-11-23 | 2023-12-22 | 深圳市昂思科技有限公司 | 一种基于双麦克风的语音增强方法、装置及助听设备 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894563B (zh) * | 2010-07-15 | 2013-03-20 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
JP5942388B2 (ja) * | 2011-09-07 | 2016-06-29 | ヤマハ株式会社 | 雑音抑圧用係数設定装置、雑音抑圧装置および雑音抑圧用係数設定方法 |
CN102623016A (zh) * | 2012-03-26 | 2012-08-01 | 华为技术有限公司 | 宽带语音处理方法及装置 |
CN104575511B (zh) * | 2013-10-22 | 2019-05-10 | 陈卓 | 语音增强方法及装置 |
CN104464745A (zh) * | 2014-12-17 | 2015-03-25 | 中航华东光电(上海)有限公司 | 一种双通道语音增强系统及其方法 |
CN107967918A (zh) * | 2016-10-19 | 2018-04-27 | 河南蓝信科技股份有限公司 | 一种增强语音信号清晰度的方法 |
EP3337190B1 (en) * | 2016-12-13 | 2021-03-10 | Oticon A/s | A method of reducing noise in an audio processing device |
CN110310651B (zh) * | 2018-03-25 | 2021-11-19 | 深圳市麦吉通科技有限公司 | 波束形成的自适应语音处理方法、移动终端及存储介质 |
CN109410976B (zh) * | 2018-11-01 | 2022-12-16 | 北京工业大学 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
EP3671741A1 (en) * | 2018-12-21 | 2020-06-24 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Audio processor and method for generating a frequency-enhanced audio signal using pulse processing |
CN110085246A (zh) * | 2019-03-26 | 2019-08-02 | 北京捷通华声科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
CN112116918B (zh) * | 2020-09-27 | 2023-09-22 | 北京声加科技有限公司 | 语音信号增强处理方法和耳机 |
-
2021
- 2021-04-01 WO PCT/CN2021/085039 patent/WO2022205345A1/zh active Application Filing
- 2021-04-01 CN CN202180068601.4A patent/CN116711007A/zh active Pending
-
2022
- 2022-03-31 TW TW111112413A patent/TWI818493B/zh active
-
2023
- 2023-06-07 US US18/330,472 patent/US20230317093A1/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116904569A (zh) * | 2023-09-13 | 2023-10-20 | 北京齐碳科技有限公司 | 信号处理方法、装置、电子设备、介质和产品 |
CN116904569B (zh) * | 2023-09-13 | 2023-12-15 | 北京齐碳科技有限公司 | 信号处理方法、装置、电子设备、介质和产品 |
CN117278896A (zh) * | 2023-11-23 | 2023-12-22 | 深圳市昂思科技有限公司 | 一种基于双麦克风的语音增强方法、装置及助听设备 |
CN117278896B (zh) * | 2023-11-23 | 2024-03-19 | 深圳市昂思科技有限公司 | 一种基于双麦克风的语音增强方法、装置及助听设备 |
Also Published As
Publication number | Publication date |
---|---|
US20230317093A1 (en) | 2023-10-05 |
TW202247141A (zh) | 2022-12-01 |
TWI818493B (zh) | 2023-10-11 |
WO2022205345A1 (zh) | 2022-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11056130B2 (en) | Speech enhancement method and apparatus, device and storage medium | |
ES2678415T3 (es) | Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica | |
US10614788B2 (en) | Two channel headset-based own voice enhancement | |
US9060052B2 (en) | Single channel, binaural and multi-channel dereverberation | |
CN106463106B (zh) | 用于音频接收的风噪声降低 | |
CN103871421B (zh) | 一种基于子带噪声分析的自适应降噪方法与系统 | |
CN111133511B (zh) | 声源分离系统 | |
CA2800208C (en) | A bandwidth extender | |
US10049678B2 (en) | System and method for suppressing transient noise in a multichannel system | |
TWI818493B (zh) | 語音增強方法、系統和裝置 | |
US20130322643A1 (en) | Multi-Microphone Robust Noise Suppression | |
KR20160032138A (ko) | 청각 장면 분석 및 음성 모델링에 기초한 음성 신호 분리 및 합성 | |
US20170092256A1 (en) | Adaptive block matrix using pre-whitening for adaptive beam forming | |
EP3074975B1 (en) | Method of operating a hearing aid system and a hearing aid system | |
JP6135106B2 (ja) | 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム | |
JP6339896B2 (ja) | 雑音抑圧装置および雑音抑圧方法 | |
US20180308503A1 (en) | Real-time single-channel speech enhancement in noisy and time-varying environments | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
RU2616534C2 (ru) | Ослабление шума при передаче аудиосигналов | |
KR102378207B1 (ko) | 오디오 신호들을 정제하는 멀티 오럴 mmse 분석 기술들 | |
CN114363753A (zh) | 耳机的降噪方法、装置、耳机及存储介质 | |
CN116349252A (zh) | 用于处理双耳录音的方法和设备 | |
CN116403594B (zh) | 基于噪声更新因子的语音增强方法和装置 | |
CN116724352A (zh) | 一种语音增强方法和系统 | |
CN115410590A (zh) | 一种语音增强方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |