CN113921026A - 语音增强方法和装置 - Google Patents
语音增强方法和装置 Download PDFInfo
- Publication number
- CN113921026A CN113921026A CN202111368857.5A CN202111368857A CN113921026A CN 113921026 A CN113921026 A CN 113921026A CN 202111368857 A CN202111368857 A CN 202111368857A CN 113921026 A CN113921026 A CN 113921026A
- Authority
- CN
- China
- Prior art keywords
- speech
- input signal
- audio input
- feature
- current audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000004044 response Effects 0.000 claims abstract description 30
- 230000002708 enhancing effect Effects 0.000 claims description 19
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 abstract description 4
- 239000013598 vector Substances 0.000 description 42
- 238000004422 calculation algorithm Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013441 quality evaluation Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 208000032041 Hearing impaired Diseases 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
Abstract
本申请公开了一种语音增强方法和装置。语音增强方法包括:接收具有语音部分和非语音部分的当前音频输入信号;确定所述当前音频输入信号中语音部分的人声特征;确定所述当前音频输入信号的语音质量;评估所述语音质量是否满足预定语音质量要求;以及响应于所述语音质量满足所述预定语音质量要求,用所述人声特征创建或更新参考语音特征,其中所述参考语音特征用于增强音频输入信号中的语音部分。
Description
技术领域
本申请涉及音频处理技术,更具体地,涉及一种语音增强方法和装置。
背景技术
听力辅助设备(又称为“助听器”)被广泛应用于听力障碍患者的听力补偿,其可以将听力障碍患者听不到的声音放大,再利用他们的残余听力,使声音能送到大脑听觉中枢,从而使得患者感觉到声音。
助听器等语音增强装置一般需要采用语音增强技术来放大声音中的语音信号。现有的语音增强技术主要使用单次的语音增强算法,即每有一段声音输入后,助听器就直接运行相关语音增强算法来处理声音输入。为了减少延时,大部分的实时语音增强算法(特别是基于深度学习的算法)都使用特征提取-模型运算的系统设计。但是,有些情况下,输入的声音中的语音信号质量较差,语音增强系统有可能不能提取出足够的特征进行语音增强。如果基于这样的声音特征来进行语音增强,往往难以得到满意的语音增强效果。
因此,有必要提供一种新的语音增强方法来解决现有技术存在的问题。
发明内容
本申请的一个目的在于提供一种能够在语音信号质量较差时改善语音增强效果的语音增强方法、装置与存储介质。
本申请的发明人发现,很多使用语音增强的系统都与使用者熟悉的人有关。例如,语音通话的场景多涉及与家人、同事、朋友之间的通话。因此,如果在语音信号的特征提取时能够加入特征记忆系统,特别是将患者熟悉的人的声音特征提取并记录下来,那么这些提取的特征会有助于语音增强算法更好地提升语音增强效果。例如,在通话设备的使用者与这些熟悉的人通话的过程中,如果已经知悉他们在安静环境下的语音特征,那么当这些人进入嘈杂的环境中并与使用者交谈时,通话设备采用的语音增强算法可以利用之前安静环境下提取的语音特征,这有助于改善语音增强效果。
在本申请的一个方面中,提供了一种语音增强方法,所述方法包括:接收具有语音部分和非语音部分的当前音频输入信号;确定所述当前音频输入信号中语音部分的语音特征;确定所述当前音频输入信号的语音质量;评估所述语音质量是否满足预定语音质量要求;以及响应于所述语音质量满足所述预定语音质量要求,用所述语音特征创建或更新参考语音特征,其中所述参考语音特征用于增强音频输入信号中的语音部分。
在一些实施例中,确定所述当前音频输入信号的语音质量包括:确定所述当前音频输入信号的语音信噪比,所述语音信噪比表示所述语音部分的功率和所述非语音部分的功率的比例。
在一些实施例中,评估所述语音质量是否满足预定语音质量要求包括:将所述语音信噪比与预定语音信噪比阈值进行比较;以及响应于所述语音信噪比大于所述预定语音信噪比阈值,确定所述语音质量满足预定语音质量要求。
在一些实施例中,所述方法还包括:获取预先存储的一个或多个参考语音特征;以及从所述预先存储的一个或多个参考语音特征中检索与所述语音特征相匹配的参考语音特征。
在一些实施例中,所述方法还包括:响应于未检索到与所述语音特征相匹配的参考语音特征,使用所述当前音频输入信号的语音特征创建新的参考语音特征;以及使用所述当前音频输入信号中语音部分的语音特征来增强所述当前音频输入信号中的语音部分。
在一些实施例中,所述方法还包括:将所述当前音频输入信号的时长与预定时长阈值进行比较;响应于所述当前音频输入信号的时长大于所述预定时长阈值,使用所述当前音频输入信号的语音特征创建参考语音特征。
在一些实施例中,所述方法还包括:响应于检索到与所述语音特征相匹配的参考语音特征,将所述当前音频输入信号的语音质量与所述匹配的参考语音特征对应的语音质量进行比较;响应于所述当前音频输入信号的语音质量优于所述匹配的参考语音特征对应的语音质量,使用所述当前音频输入信号的语音特征更新所述匹配的参考语音特征;以及使用所述当前音频输入信号中语音部分的语音特征来增强所述当前音频输入信号中的语音部分。
在一些实施例中,所述方法还包括:响应于所述当前音频输入信号的语音质量不优于所述匹配的参考语音特征对应的语音质量,使用所述当前音频输入信号中语音部分的语音特征以及所述匹配的参考语音特征来增强所述当前音频输入信号中的语音部分。
在一些实施例中,所述方法还包括:响应于未检索到与所述语音特征相匹配的参考语音特征且所述语音质量未满足所述预定语音质量要求,使用所述当前音频输入信号中语音部分的语音特征来增强所述当前音频输入信号中的语音部分。
在一些实施例中,所述方法还包括:响应于检索到与所述语音特征相匹配的参考语音特征且所述语音质量未满足所述预定语音质量要求,使用所述当前音频输入信号中语音部分的语音特征和所述匹配的参考语音特征来增强所述语音特征。
在一些实施例中,所述语音特征包括基音周期或者梅尔倒谱系数。
在一些实施例中,所述确定所述当前音频输入信号中语音部分的语音特征包括:确定所述当前音频输入信号中语音部分的语音增强特征和语音比对特征,其中所述语音增强特征包含比所述语音比对特征更多的特征信息。
在本申请的另一方面,还提供了一种语音增强装置,所述装置包括非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行后执行上述方面的处理步骤。
在本申请的又一方面,还提供了一种非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行后执行上述方面的处理步骤。
以上为本申请的概述,可能有简化、概括和省略细节的情况,因此本领域的技术人员应该认识到,该部分仅是示例说明性的,而不旨在以任何方式限定本申请范围。本概述部分既非旨在确定所要求保护主题的关键特征或必要特征,也非旨在用作为确定所要求保护主题的范围的辅助手段。
附图说明
通过下面说明书和所附的权利要求书并与附图结合,将会更加充分地清楚理解本申请内容的上述和其他特征。可以理解,这些附图仅描绘了本申请内容的若干实施方式,因此不应认为是对本申请内容范围的限定。通过采用附图,本申请内容将会得到更加明确和详细地说明。
图1示出了根据本申请一个实施例的语音增强方法的流程图100;
图2示出了根据本申请某一实施例的语音增强方法的流程图200。
具体实施方式
在下面的详细描述中,参考了构成其一部分的附图。在附图中,类似的符号通常表示类似的组成部分,除非上下文另有说明。详细描述、附图和权利要求书中描述的说明性实施方式并非旨在限定。在不偏离本申请的主题的精神或范围的情况下,可以采用其他实施方式,并且可以做出其他变化。可以理解,可以对本申请中一般性描述的、在附图中图解说明的本申请内容的各个方面进行多种不同构成的配置、替换、组合,设计,而所有这些都明确地构成本申请内容的一部分。
图1示出了根据本申请一个实施例的语音增强方法的流程图100。可以理解,本申请的语音增强方法100可以被用于各种音频设备,并且被实现为耦接到音频设备或集成在音频设备中的语音增强装置。音频设备例如可以是听力辅助设备或者耳机、移动通信终端等具有音频采集和/或音频输出功能的电子设备等。
如图1所示,在步骤101处,由语音增强装置的声音输入接收音频输入信号。例如,该语音增强装置可以被设置或集成在蓝牙耳机、助听器、耳麦等具有麦克风的语音处理设备中,从而这些设备的麦克风可以用于采集环境声音并生成音频输入信号。这些音频输入信号进而可以被提供给语音增强装置的声音输入。在一些其他的例子中,语音增强装置的声音输入也可以通过有线或无线的方式通信耦接到另一语音设备,例如单独的麦克风或话筒,并且从这些语音设备接收音频输入信号。取决于音频输入信号被采集时所处的环境,音频输入信号可以包括由语音组成的语音部分和背景声音组成的非语音部分,并且这两部分的强度比例可能会有所不同。背景声音通常是环境中的一些声音,并且它们可能是不期望被放大或增强的声音;而语音则是由某个或某些人发出的声音,其通常是期望被放大的声音。可以理解,本申请实施例的语音增强方法是为了增强音频输入信号中的语音部分,也即人声。
通常来说,除了常见的声强、响度、音高等语音特征外,不同的人发出的语音具有不同的特点,或者说具有不同的语音特征。因此,语音信号会包括语音特征,这些语音特征可以采用不同的参数来表征。例如,基音周期(pitch)和梅尔频率倒谱系数(Mel-scaleFrequency Cepstral Coefficients,MFCC)通常都可以被作为语音特征用来表征不同人的语音特点。具体地,基音周期反映了声门相邻两次开闭之间的时间间隔或开闭的频率,因此是描述语音激励源的重要特征。声道的形状能准确地表示其产生的音素(phoneme),声道的形状以短时功率谱的包络的形式表现,而MFCC可以表示该包络,因此MFCC也能作为语音特征来区别不同的语音。本领域技术人员可以理解,在此所述的语音特征也可以采用其他适合的特征参数,或者这些特征参数的组合。
相应地,在步骤102处,由语音增强特征提取单元提取并确定音频输入信号中语音部分的语音增强特征。该语音增强特征提取单元可以耦接到声音输入,以接收音频输入信号。
在一些实施例中,可以使用深度学习算法来提取音频输入信号中语音部分的语音增强特征。例如,可以构建并训练神经网络模型,并通过该神经网络模型来提取音频输入信号中语音信号的基音周期和/或MFCC等语音特征。在另一些实施例中,也可以通过其他方式对音频输入信号进行处理来提取语音增强特征。例如,为了提取MFCC系数,原始的音频输入信号可以被高通滤波器预加重处理来提高高频部分,随后经分帧、加窗、快速傅里叶变换处理以得到每帧信号的功率谱;再然后,可以采用梅尔(Mel)滤波、对数能量运算以及离散余弦变换(DCT)处理,从而得到所需的MFCC系数。可以理解,上述关于语音增强特征的提取算法仅仅是示例性的,本领域技术人员可以根据需要提取的语音特征的特点和可用的硬件资源来选择不同的特征提取方式。
可以理解,由语音增强特征提取单元提取的语音增强特征后续将用于语音信号的增强,因此优选地其可以包括较多的特征信息。
仍参考图1,在步骤103处,由语音质量预测单元确定音频输入信号的语音质量。类似地,该语音质量预测单元可以耦接到声音输入,以接收音频输入信号。
正如本申请背景部分所说明的,语音质量对于语音识别也具有显著影响,质量较差的语音信号可能难以被提取出足够的特征来进行语音增强,因此,本申请实施例的语音增强方法还会进一步确定语音信号的质量。
语音质量可以用各种适合的参数来表征。在一个实施例中,可以通过确定音频输入信号的语音信噪比p-SNR来确定语音质量。具体地,语音信噪比表示语音部分的平均功率与非语音部分的平均功率的比例。在一个实施例中,可以使用基于能量的预测方法、基于倒谱的预测方法或者深度学习的方法来预测音频输入信号的语音信噪比p-SNR。
进一步地,可以将音频输入信号的语音信噪比p-SNR与预先设定的语音信噪比阈值t-SNR进行比较,从而评估语音质量。具体地,如果语音信噪比p-SNR超过该预定阈值t-SNR,那么可以认为音频输入信号中包含足够多或足够强的语音部分,其可以满足预定的语音质量要求;否则,则认为音频输入信号不满足预定的语音质量要求。在对语音信噪比是否超过语音信噪比阈值进行判断后,可以进一步对音频输入信号进行操作(例如,读取或存储等),具体参考下文针对步骤105的描述。在一个实施例中,预先设定的语音信噪比阈值t-SNR可以是0.5,但本领域技术人员可以根据实际需求将t-SNR设置为其它数值,例如0.3至0.6,本申请对此不做限制。
可以理解,虽然在步骤103中示例性地通过确定音频输入信号的语音信噪比来确定语音质量,但是在其他的实施例中,也可以使用其他参数来评估和判断语音质量,例如使用语音识别度等参数。此外,在其他实施例中,除了使用语音部分相对于非语音部分的相对强度(语音信噪比)外,还可以通过确定音频输入信号中的语音部分的绝对强度,或者非语音信号的绝对强度来确定音频输入信号的语音质量,本领域技术人员可以根据实际情况进行调整。
正如前述,本申请的发明人发现,在语音增强过程中,如果能够利用已知的语音特征(通常在较为安静或理想的环境中提取得到的)来辅助当前接收的语音信号的语音增强处理,那么语音增强的效果会显著改善。为了能够确定当前的语音信号与哪个已知语音的特征信息对应,语音增强方法100还包括用于提取比对特征的步骤104。
具体地,在步骤104处,由语音比对特征提取单元提取音频输入信号中的语音部分的语音比对特征,以用于在步骤105处与一个或多个预先存储的参考语音特征进行比较。
同样地,类似于步骤102中提取音频输入信号中语音部分的语音增强特征,步骤104中也可以用例如深度学习算法来构建和训练深度神经网络模型,并通过提取基音周期或MFCC、Filter Bank等参数来确定语音部分中的语音比对特征,以用于后续在步骤105中的语音特征比对。在一个实施例中,步骤102处提取的语音增强特征和在步骤104处提取的语音比对特征可以是至少部分地不同的。在某一实施例中,为了节省处理资源,语音比对特征可以具有较少的特征信息,例如少于语音增强特征包括的特征信息。例如,步骤104中提取的语音比对特征可以是说话人识别(Speaker Identification,或称为Voice ID)技术中所使用的语音特征,也即声纹特征;而语音增强特征则可以除了Voice ID之外还包括MFCC、Filter Bank等特征。在另一些实施例中,语音比对特征和语音增强特征具有相同的特征。此外,语音比对特征和语音增强特征也可以具有完全不同的特征。例如,语音增强特征可以是MFCC,而语音比对特征则可以是例如全因子空间(Total Factor Matrix)上映射的向量I-vector(Identity Vector)等。语音增强特征通常不包括向量I-vector。
需要说明的是,虽然图1中示出了两个独立的步骤102(提取用于语音增强算法的语音增强特征)和步骤104(提取用于语音比对的语音比对特征)来提取人声中的特征信息,但是本领域技术人员可以理解,在步骤102处提取的用于语音增强算法的语音增强特征和在步骤104处提取的用于语音比对的语音比对特征也可以是相同的。换句话说,在一些实施例中,步骤102和步骤104可以是同一个步骤,并且语音增强特征提取单元和语音比对特征提取单元也可以是同一个单元。
在一些实施例中,语音比对特征可以被表示为长度为N的向量。该特征向量可以在后续步骤105与数据库中预先存储的参考语音特征的向量进行比对,其中,这两类向量可以具有相同或相似的格式。
具体地,在步骤105中,由语音特征比对单元将步骤104中提取的语音比对特征向量与预先存储的一个或多个参考语音特征向量进行比较。进而,可以根据这两类向量的比较结果来判断语音比对特征向量所代表的人是否是数据库中已知的人。
在一个实施例中,可以采用余弦距离(cos distance)算法等相似度计算算法来比较语音比对特征向量和参考语音特征向量,也即,通过检索的方式匹配出预定数据库中存储的与提取的语音比对特征向量之间距离最短(即,相似度最高)的参考语音特征向量。具体地,余弦距离算法首先会计算待比对的语音比对特征向量和参考语音特征向量之间的余弦值(余弦相似度),其例如由等式(1)表示。
其中,cos(θ)表示两个特征向量的余弦值,A表示待比对的语音比对特征向量,而B表示参考语音特征向量,n是这两个特征向量的维度(是自然数)。然后,通过1-cos(θ)获得余弦距离。
可以理解,在实际应用中,可以将多个参考语音特征向量均分别与语音比对特征向量进行比较,并且将距离最近的参考语音特征向量作为语音比对特征向量的匹配向量,同时将该最小距离设定为d-cos。虽然以上以通过余弦距离为例表示计算两个向量之间的相似度的方法,但是本领域技术人员也可以使用其他适合的相似度计算方法,例如欧几里得距离(Euclidean Distance)等,来计算特征向量的相似度,本申请对此不做限制。
进一步,可以将比较后确定的最小距离d-cos与预先设定的距离阈值t-cos进行比较,其中该预定距离阈值t-cos可以是根据经验或历史数据确定的值,用于判断语音比对特征与参考语音特征是否来源于同一人。在一个实施例中,当最小距离d-cos小于或等于距离阈值t-cos时,这说明语音比对特征与某一个参考语音特征的相似度较高,则可以确定数据库中存在与音频输入信号中的语音信号相匹配的参考语音特征,也即当前接收的音频输入信号中的语音信号的发出者已被记录在已有的数据库中;相反,当最小距离d-cos大于距离阈值t-cos时,这说明语音比对特征与所有参考语音特征的相似度均不足够高,则确定预定的数据库中不存在与音频输入信号中的语音信号相匹配的参考语音特征,也即当前接收的音频输入信号中的语音信号的发出者没有被记录在已有的数据库中。
继续参考图1,步骤105中,由语音质量评估单元对步骤103中确定的语音质量(例如,语音信噪比p-SNR)进行评估,并生成质量评估结果。如之前所述,可以将音频输入信号的语音信噪比p-SNR与预先设定的语音信噪比阈值t-SNR进行比较来评估语音质量。之后,质量评估结果和语音特征比对单元生成的特征比对结果可以被提供给增强特征选取单元来进行后续操作。根据特征比对结果以及语音质量评估结果,步骤105大体可以包括4种不同的情况和处理方式。
在第一种情况下,如果在步骤103中确定的音频输入信号的语音信噪比p-SNR大于预先设定的语音信噪比阈值t-SNR并且在步骤105中确定的最小距离d-cos大于最小距离阈值t-cos(即,p-SNR>t-SNR且d-cos>t-cos),那么可以认为当前的音频输入信号包括了足够强的人声,其语音质量能够满足预定的语音质量要求,并且语音增强装置的数据库中没有足够近似的参考语音特征。这说明输入的当前音频输入信号中可能包含新的人声。在这种情况下,可以在数据库中创建一条新的参考语音特征,用于后续输入的音频输入信号的比对和增强。
在一些实施例中,语音增强装置在其数据库中存储的参考语音特征的存储格式可以为:[时间戳;ID;p-SNR;语音比对特征向量;语音增强特征向量]。其中,时间戳表示该条参考语音特征在数据库中的存储时间;ID表示该条参考语音特征的编号;p-SNR表示该条参考语音特征的语音信噪比;语音比对特征向量表示该条参考语音特征的用于比对的语音特征向量;语音增强特征向量表示该条参考语音特征用于语音增强的语音特征向量。在一些例子中,每一项参考语音特征的存储长度可以是语音比对特征向量长度+语音增强特征向量长度+3(单位是字节,多出的3个字节可以用于存储时间戳、ID和p-SNR的数据)。可以理解,参考语音特征也可以采取其他的存储格式,例如在语音比对特征向量和语音增强特征向量是同一向量时,可以仅包括时间戳、ID、p-SNR和语音比对(增强)特征向量的信息。
继续参考附图1,在第一种情况下,在步骤106中,增强特征选取单元可以将步骤102中提取的语音增强特征选取出来并输入至语音增强算法单元,并且使用该语音增强特征来对音频输入信号进行语音增强。也就是说,由于音频输入信号之前在数据库中没有对应的参考语音特征,并且其本身的语音质量也符合要求,因此步骤102中提取的语音增强特征可以作为语音增强所需的参考语音特征来使用。同时,该语音增强特征也可以被存储在数据库中,以备后续处理时作为参考语音特征。在一个实施例中,语音增强算法单元使用的语音增强算法可以采用神经网络的形式,例如卷积神经网络(CNN)、递归神经网络(RNN)、卷积递归相结合的神经网络(CRN)等。本领域技术人员可以理解,各种基于特征的语音增强算法均可以被使用,本申请对此不作限制。
在第二种情况下,如果在步骤103中确定的音频输入信号的语音信噪比p-SNR大于预先设定的语音信噪比阈值t-SNR并且在步骤105中确定最小距离d-cos小于最小距离阈值t-cos(即,p-SNR>t-SNR,d-cos<t-cos),那么可以认为当前的音频输入信号包括了足够强的人声,并且已有的数据库中也包括了与音频输入信号相似度足够高的参考语音特征。因此,有可能可以使用在数据库中存储的参考语音特征来用于语音增强。
在这种情况下,可以进一步将音频输入信号的p-SNR与数据库中匹配的参考语音特征的p-SNR进行比较。如果音频输入信号的p-SNR小于数据库中匹配的参考语音特征的p-SNR,那么可以认为当前语音输入信号的语音质量劣于匹配的参考语音特征在存储时的语音质量。相应地,在一些实施例中,可以在步骤106中读取匹配的参考语音特征中的语音增强特征,并且结合在步骤102提取的音频输入信号的语音增强特征,用这两个语音增强特征共同地增强当前处理的语音输入信号;在另一些实施例中,也可以仅用在步骤106中读取的数据库中匹配的参与语音特征中的语音增强特征来增强当前处理的语音输入信号。相反,如果音频输入信号的p-SNR大于数据库中匹配的参考语音特征的p-SNR,那么可以认为当前语音输入信号的语音质量优于匹配的参考语音特征在存储时的语音质量。相应地,在步骤105中,可以用当前的音频输入信号的语音特征来更新数据库中匹配的参考语音特征,以用于后续的语音特征匹配和增强。在一些实施例中,附加地或替代地,也可以将当前音频输入信号的时长与预定时长阈值进行比较,并且根据时长比较结果和/或质量评估结果来更新参考语音特征。并且,在步骤106中,增强特征选取单元可以直接使用在步骤102提取的音频输入信号的语音增强特征来增强当前的语音输入信号。之后,在步骤107,增强后的音频输出信号可以被输出,例如通过麦克风播放出来。
在第三种情况下,如果在步骤103中确定音频输入信号的语音信噪比p-SNR小于预先设定的语音信噪比阈值t-SNR并且在步骤105中确定最小距离d-cos大于最小距离阈值t-cos(即,p-SNR<t-SNR,d-cos>t-cos),那么可以认为当前的音频输入信号没有包括足够强的人声,并且已有的数据库中也没有包括足够近似的参考语音特征。在这种情况下,在步骤106中,仅使用在步骤102中提取的音频输入信号的语音增强特征来增强当前的语音输入信号。之后,在步骤107,增强后的音频输出信号可以被输出。
在第四种情况下,如果在步骤103中确定音频输入信号的语音信噪比p-SNR小于预先设定的语音信噪比阈值t-SNR并且在步骤105中确定最小距离d-cos小于最小距离阈值t-cos(即,p-SNR<t-SNR,d-cos<t-cos),那么可以认为当前的音频输入信号没有包括足够强的人声,但是已有的数据库中包括了足够近似的参考语音特征。在这种情况下,在步骤106中,可以读取数据库中匹配的参考语音特征的语音增强特征,并且结合在步骤102提取的音频输入信号中的语音增强特征,用这两个语音增强特征共同地增强当前处理的语音输入信号;在另一些实施例中,也可以仅用在步骤102中提取的音频输入信号的语音增强特征来增强当前的语音输入信号。之后,在步骤107,增强后的音频输出信号可以被输出。
可以看出,基于上述方法,在需要增强语音输入信号中的语音时,可以根据已有数据库中匹配的参考语音特征对当前语音输入信号的语音部分进行增强,而这些匹配的参考语音特征往往是已有的在较为安静的环境下采集得到的。因此,本申请的方法能够有效地改善语音增强效果。
此外,在实际使用过程中,数据库中的参考特征数据还可以随着使用时间的增加而不断地更新,在较为理想的环境下采集的特征数据可以被存储到数据库中,从而数据库中往往能够保存语音质量较高的特征数据。这也进一步提高了后续语音增强的效果。
图2示出了根据本申请某一实施例的语音增强方法的流程图200。可以理解,流程图200中的一个或多个步骤可以采用与图1中所示的方法100中相同或者相似步骤类似的方式实现,并且可以由一处理装置来执行。其中,该处理装置可以是具有语音信号处理能力的电子装置,例如带有处理器的助听设备或者耳机等。
如图2所示,该方法始于步骤201,处理装置可以接收具有语音部分和非语音部分的当前音频输入信号。之后,在步骤202处,处理装置可以确定所述当前音频输入信号中语音部分的语音特征,并且在步骤203处,处理装置可以确定所述当前音频输入信号的语音质量。这样,在步骤204处,处理装置可以评估所述语音质量是否满足预定语音质量要求;然后,在步骤205,响应于步骤204中的评估结果,也即所述语音质量满足所述预定语音质量要求,处理装置可以用所述语音特征创建或更新参考语音特征,其中所述参考语音特征用于增强音频输入信号中的语音部分。
可以看出,通过上述方式,语音特征数据库中存储的参考语音特征就可以被创建或更新,从而随着实际使用时间的增加,使得其中保留质量较优的参考语音特征。
在一些实施例中,在步骤205之后,语音增强方法200还包括利用参考语音特征来对当前输入的音频输入信号进行语音增强处理的步骤。例如,与当前音频输入信号中的语音部分的语音特征匹配的参考语音特征可以被从预先存储的一个或多个参考语音特征中检索出来,从而当前音频输入信号中的语音部分的语音特征与该匹配的参考语音特征中的一个或者两个可以被用来增强当前音频输入信号中的语音部分。特别地,在当前音频输入信号的语音质量不优于匹配的参考语音特征对应的语音质量时,可以利用匹配的参考语音特征来增强当前音频输入信号中的语音部分;或者在当前音频输入信号的语音质量优于匹配的参考语音特征对应的语音质量时,可以在用当前音频输入信号中的语音部分的语音特征更新数据库中匹配的参考语音特征的同时,用更新后的参考语音特征来对当前音频输入信号进行语音增强。
在一些实施例中,本申请还提供了一些计算机程序产品,其包括非暂态计算机可读存储介质。该非暂态计算机可读存储介质包括计算机可执行的代码,用于执行图1或图2所示的方法实施例中的步骤。在一些实施例中,计算机程序产品可以被存储在硬件装置中,例如音频设备中。
本发明的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
应当注意,尽管在上文详细描述中提及了语音增强方法、装置和存储介质的若干步骤或模块,但是这种划分仅仅是示例性的而非强制性的。实际上,根据本申请的实施例,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
本技术领域的一般技术人员可以通过研究说明书、公开的内容及附图和所附的权利要求书,理解和实施对披露的实施方式的其他改变。在权利要求中,措词“包括”不排除其他的元素和步骤,并且措辞“一”、“一个”不排除复数。在本申请的实际应用中,一个零件可能执行权利要求中所引用的多个技术特征的功能。权利要求中的任何附图标记不应理解为对范围的限制。
Claims (22)
1.一种语音增强方法,其特征在于,所述方法包括:
接收具有语音部分和非语音部分的当前音频输入信号;
确定所述当前音频输入信号中语音部分的语音特征;
确定所述当前音频输入信号的语音质量;
评估所述语音质量是否满足预定语音质量要求;以及
响应于所述语音质量满足所述预定语音质量要求,用所述语音特征创建或更新参考语音特征,其中所述参考语音特征用于增强音频输入信号中的语音部分。
2.根据权利要求1所述的方法,其特征在于,其中确定所述当前音频输入信号的语音质量包括:
确定所述当前音频输入信号的语音信噪比,所述语音信噪比表示所述语音部分的功率和所述非语音部分的功率的比例。
3.根据权利要求2所述的方法,其特征在于,其中评估所述语音质量是否满足预定语音质量要求包括:
将所述语音信噪比与预定语音信噪比阈值进行比较;以及
响应于所述语音信噪比大于所述预定语音信噪比阈值,确定所述语音质量满足预定语音质量要求。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取预先存储的一个或多个参考语音特征;以及
从所述预先存储的一个或多个参考语音特征中检索与所述语音特征相匹配的参考语音特征。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
响应于未检索到与所述语音特征相匹配的参考语音特征,使用所述当前音频输入信号的语音特征创建新的参考语音特征;以及
使用所述当前音频输入信号中语音部分的语音特征来增强所述当前音频输入信号中的语音部分。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将所述当前音频输入信号的时长与预定时长阈值进行比较;
响应于所述当前音频输入信号的时长大于所述预定时长阈值,使用所述当前音频输入信号的语音特征创建参考语音特征。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
响应于检索到与所述语音特征相匹配的参考语音特征,将所述当前音频输入信号的语音质量与所述匹配的参考语音特征对应的语音质量进行比较;
响应于所述当前音频输入信号的语音质量优于所述匹配的参考语音特征对应的语音质量,使用所述当前音频输入信号的语音特征更新所述匹配的参考语音特征;以及
使用所述当前音频输入信号中语音部分的语音特征来增强所述当前音频输入信号中的语音部分。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
响应于所述当前音频输入信号的语音质量不优于所述匹配的参考语音特征对应的语音质量,使用所述当前音频输入信号中语音部分的语音特征以及所述匹配的参考语音特征来增强所述当前音频输入信号中的语音部分。
9.根据权利要求4所述的方法,其特征在于,所述方法还包括:
响应于未检索到与所述语音特征相匹配的参考语音特征且所述语音质量未满足所述预定语音质量要求,使用所述当前音频输入信号中语音部分的语音特征来增强所述当前音频输入信号中的语音部分。
10.根据权利要求4所述的方法,其特征在于,所述方法还包括:
响应于检索到与所述语音特征相匹配的参考语音特征且所述语音质量未满足所述预定语音质量要求,使用所述当前音频输入信号中语音部分的语音特征和所述匹配的参考语音特征来增强所述语音特征。
11.根据权利要求1所述的方法,其特征在于,所述语音特征包括基音周期或者梅尔倒谱系数。
12.根据权利要求1所述的方法,其特征在于,所述确定所述当前音频输入信号中语音部分的语音特征包括:
确定所述当前音频输入信号中语音部分的语音增强特征和语音比对特征;
并且其中所述参考语音特征包括参考语音增强特征和参考语音比对特征,所述语音增强特征和所述参考语音增强特征用于增强所述音频输入信号的语音部分,并且所述语音比对特征用于与所述参考语音比对特征进行匹配。
13.一种语音增强装置,其特征在于,所述装置包括非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行后执行下述步骤:
接收具有语音部分和非语音部分的当前音频输入信号;
确定所述当前音频输入信号中语音部分的语音特征;
确定所述当前音频输入信号的语音质量;
评估所述语音质量是否满足预定语音质量要求;以及
响应于所述语音质量满足所述预定语音质量要求,用所述语音特征创建或更新参考语音特征,其中所述参考语音特征用于增强音频输入信号中的语音部分。
14.一种非暂态计算机存储介质,其上存储有一个或多个可执行指令,所述一个或多个可执行指令被处理器执行后执行下述步骤:
接收具有语音部分和非语音部分的当前音频输入信号;
确定所述当前音频输入信号中语音部分的语音特征;
确定所述当前音频输入信号的语音质量;
评估所述语音质量是否满足预定语音质量要求;以及
响应于所述语音质量满足所述预定语音质量要求,用所述语音特征创建或更新参考语音特征,其中所述参考语音特征用于增强音频输入信号中的语音部分。
15.一种语音增强方法,其特征在于,所述方法包括:
接收具有语音部分和非语音部分的当前音频输入信号;
确定所述当前音频输入信号中语音部分的语音特征;
确定所述当前音频输入信号的语音质量;
评估所述语音质量是否满足预定语音质量要求;
从预先存储的一个或多个参考语音特征中检索与所述语音特征相匹配的参考语音特征;以及
响应于所述预定语音质量要求的评估结果和所述一个或多个参考语音特征的匹配结果,使用所述当前音频输入信号中语音部分的语音特征和所述匹配的参考语音特征中的一个或两个来增强所述当前音频输入信号中的语音部分。
16.根据权利要求15所述的方法,其特征在于,所述方法还包括:
响应于所述语音质量满足所述预定语音质量要求并且未检索到与所述语音特征相匹配的参考语音特征,使用所述当前音频输入信号中语音部分的语音特征来增强所述当前音频输入信号中的语音部分,并且使用所述当前音频输入信号的语音特征创建新的参考语音特征。
17.根据权利要求15所述的方法,其特征在于,所述方法还包括:
响应于所述语音质量满足所述预定语音质量要求并且检索到与所述语音特征相匹配的参考语音特征,将所述当前音频输入信号的语音质量与所述匹配的参考语音特征对应的语音质量进行比较;
响应于所述当前音频输入信号的语音质量优于所述匹配的参考语音特征对应的语音质量,使用所述当前音频输入信号的语音特征更新所述匹配的参考语音特征;以及
使用所述当前音频输入信号中语音部分的语音特征来增强所述当前音频输入信号中的语音部分。
18.根据权利要求17所述的方法,其特征在于,所述方法还包括:
响应于所述当前音频输入信号的语音质量不优于所述匹配的参考语音特征对应的语音质量,使用所述当前音频输入信号中语音部分的语音特征以及所述匹配的参考语音特征来增强所述当前音频输入信号中的语音部分。
19.根据权利要求15所述的方法,其特征在于,所述方法还包括:
响应于所述语音质量未满足所述预定语音质量要求以及未检索到与所述语音特征相匹配的参考语音特征,使用所述当前音频输入信号中语音部分的语音特征来增强所述当前音频输入信号中的语音部分。
20.根据权利要求15所述的方法,其特征在于,所述方法还包括:
响应于所述语音质量未满足所述预定语音质量要求且检索到与所述语音特征相匹配的参考语音特征,使用所述当前音频输入信号中语音部分的语音特征和所述匹配的参考语音特征来增强所述语音特征。
21.根据权利要求15所述的方法,其特征在于,所述确定所述当前音频输入信号中语音部分的语音特征包括:
确定所述当前音频输入信号中语音部分的语音增强特征和语音比对特征;
并且其中所述参考语音特征包括参考语音增强特征和参考语音比对特征,所述语音增强特征和所述参考语音增强特征用于增强所述音频输入信号的语音部分,并且所述语音比对特征用于与所述参考语音比对特征进行匹配。
22.一种语音增强方法,其特征在于,所述方法包括:
接收具有语音部分和非语音部分的当前音频输入信号;
确定所述当前音频输入信号中语音部分的语音特征,所述语音特征包括语音增强特征和语音比对特征;
确定所述当前音频输入信号的语音质量;
评估所述语音质量是否满足预定语音质量要求;
获取预先存储的一个或多个参考语音特征,所述参考语音特征包括参考语音增强特征和参考语音比对特征;
基于所述语音比对特征和所述参考语音比对特征的比较,从所述一个或多个参考语音特征中检索与所述语音特征相匹配的参考语音特征;以及
响应于所述预定语音质量要求的评估结果和所述一个或多个参考语音特征的匹配结果,使用所述当前音频输入信号中语音部分的语音增强特征和所述匹配的参考语音特征的参考语音增强特征中的一个或两个来增强所述当前音频输入信号中的语音部分。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111368857.5A CN113921026A (zh) | 2021-11-18 | 2021-11-18 | 语音增强方法和装置 |
PCT/CN2022/128734 WO2023088083A1 (zh) | 2021-11-18 | 2022-10-31 | 语音增强方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111368857.5A CN113921026A (zh) | 2021-11-18 | 2021-11-18 | 语音增强方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113921026A true CN113921026A (zh) | 2022-01-11 |
Family
ID=79247315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111368857.5A Pending CN113921026A (zh) | 2021-11-18 | 2021-11-18 | 语音增强方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113921026A (zh) |
WO (1) | WO2023088083A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023088083A1 (zh) * | 2021-11-18 | 2023-05-25 | 上海又为智能科技有限公司 | 语音增强方法和装置 |
CN116504245A (zh) * | 2023-06-26 | 2023-07-28 | 凯泰铭科技(北京)有限公司 | 一种语音编写规则的方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009118424A2 (en) * | 2009-07-20 | 2009-10-01 | Phonak Ag | Hearing assistance system |
CN109427340A (zh) * | 2017-08-22 | 2019-03-05 | 杭州海康威视数字技术股份有限公司 | 一种语音增强方法、装置及电子设备 |
KR102512614B1 (ko) * | 2018-12-12 | 2023-03-23 | 삼성전자주식회사 | 오디오 개선을 지원하는 전자 장치 및 이를 위한 방법 |
CN109671446B (zh) * | 2019-02-20 | 2020-07-14 | 西华大学 | 一种基于绝对听觉阈值的深度学习语音增强方法 |
CN112201247B (zh) * | 2019-07-08 | 2024-05-03 | 北京地平线机器人技术研发有限公司 | 语音增强方法和装置、电子设备和存储介质 |
CN110473567B (zh) * | 2019-09-06 | 2021-09-14 | 上海又为智能科技有限公司 | 基于深度神经网络的音频处理方法、装置及存储介质 |
CN112289333B (zh) * | 2020-12-25 | 2021-04-13 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法和装置及语音增强方法和装置 |
CN113192528B (zh) * | 2021-04-28 | 2023-05-26 | 云知声智能科技股份有限公司 | 单通道增强语音的处理方法、装置及可读存储介质 |
CN113921026A (zh) * | 2021-11-18 | 2022-01-11 | 上海又为智能科技有限公司 | 语音增强方法和装置 |
-
2021
- 2021-11-18 CN CN202111368857.5A patent/CN113921026A/zh active Pending
-
2022
- 2022-10-31 WO PCT/CN2022/128734 patent/WO2023088083A1/zh unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023088083A1 (zh) * | 2021-11-18 | 2023-05-25 | 上海又为智能科技有限公司 | 语音增强方法和装置 |
CN116504245A (zh) * | 2023-06-26 | 2023-07-28 | 凯泰铭科技(北京)有限公司 | 一种语音编写规则的方法及系统 |
CN116504245B (zh) * | 2023-06-26 | 2023-09-22 | 凯泰铭科技(北京)有限公司 | 一种语音编写规则的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2023088083A1 (zh) | 2023-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
US11488605B2 (en) | Method and apparatus for detecting spoofing conditions | |
CN108305615B (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
US8589167B2 (en) | Speaker liveness detection | |
Stern et al. | Hearing is believing: Biologically inspired methods for robust automatic speech recognition | |
CN108877823B (zh) | 语音增强方法和装置 | |
US20170061978A1 (en) | Real-time method for implementing deep neural network based speech separation | |
WO2023088083A1 (zh) | 语音增强方法和装置 | |
US10825353B2 (en) | Device for enhancement of language processing in autism spectrum disorders through modifying the auditory stream including an acoustic stimulus to reduce an acoustic detail characteristic while preserving a lexicality of the acoustics stimulus | |
JP5051882B2 (ja) | 音声対話装置、音声対話方法及びロボット装置 | |
JP2006079079A (ja) | 分散音声認識システム及びその方法 | |
WO2019233228A1 (zh) | 电子设备及设备控制方法 | |
US20110218803A1 (en) | Method and system for assessing intelligibility of speech represented by a speech signal | |
CN112397083A (zh) | 语音处理方法及相关装置 | |
CN112242149B (zh) | 音频数据的处理方法、装置、耳机及计算机可读存储介质 | |
WO2019228329A1 (zh) | 个人听力装置、外部声音处理装置及相关计算机程序产品 | |
JP2009178783A (ja) | コミュニケーションロボット及びその制御方法 | |
CN112118511A (zh) | 耳机降噪方法、装置、耳机及计算机可读存储介质 | |
Tzudir et al. | Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients | |
KR20210010133A (ko) | 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들 | |
CN117153185B (zh) | 通话处理方法、装置、计算机设备和存储介质 | |
CN110895941A (zh) | 声纹识别方法、装置及存储装置 | |
CN115240689B (zh) | 目标声音确定方法、装置、计算机设备和介质 | |
US20230290356A1 (en) | Hearing aid for cognitive help using speaker recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |