CN108899041A - 语音信号加噪方法、装置及存储介质 - Google Patents

语音信号加噪方法、装置及存储介质 Download PDF

Info

Publication number
CN108899041A
CN108899041A CN201810948033.7A CN201810948033A CN108899041A CN 108899041 A CN108899041 A CN 108899041A CN 201810948033 A CN201810948033 A CN 201810948033A CN 108899041 A CN108899041 A CN 108899041A
Authority
CN
China
Prior art keywords
uproar
signal
making
voice signal
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810948033.7A
Other languages
English (en)
Other versions
CN108899041B (zh
Inventor
李超
朱唯鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810948033.7A priority Critical patent/CN108899041B/zh
Publication of CN108899041A publication Critical patent/CN108899041A/zh
Application granted granted Critical
Publication of CN108899041B publication Critical patent/CN108899041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明实施例提出一种语音信号加噪方法、装置及计算机可读存储介质。其中语音信号加噪方法包括:读取语音信号和噪声信号;产生符合特定分布特性的信噪比;根据所述语音信号的语音活动检测信息、所述噪声信号和所述信噪比计算加噪控制参数;根据所述加噪控制参数和所述噪声信号对语音信号进行加噪处理。本发明实施例改进了加噪控制参数,使加噪方式更加合理,从而使噪声抑制的效果更好,语音识别的性能大大提高。

Description

语音信号加噪方法、装置及存储介质
技术领域
本发明涉及信息技术领域,尤其涉及一种语音信号加噪方法、装置及计算机可读存储介质。
背景技术
语音交互中很重要的一个应用场景就是高噪声情况下的语音识别。在安静情况下,语音识别的准确率已经可以达到97%以上。但是高噪声情况下,人类的听觉系统可以分辨出嘈杂环境中的感兴趣的声音,这个现象叫做“鸡尾酒会效应”。鸡尾酒会效应就是在嘈杂的鸡尾酒会上,还是能够听到感兴趣的目标说话人的声音。
“鸡尾酒会效应”在技术上通常被描述为盲源分离问题,也就是在没有参考信号的情况下,把感兴趣的“前景音”从嘈杂的“背景音”中分离出来。
盲源分离算法的应用场景通常在下面几个方面:
(1)可以将目标说话人的语音从一段多人同时说话的音频中提取出来。例如,客厅里电视正在播放新闻联播,用户想和茶几上智能音箱进行交互。音箱同时接收到了用户的语音请求和新闻联播中主持人的播报。也就是说,同一时刻,两个人在说话,这时需要将用户的语音提取出来。
(2)可以将语音从背景噪声中分离出来。例如,车载环境下的语音识别就属于这种场景。开车的时候,车载信息娱乐产品或者手机的麦克风会接收到各种噪声,如风噪、路噪,鸣笛等,盲源分离算法可以抑制这些环境噪声,只把语音增强取出,送到语音识别系统中。
上面举的例子都是比较理想的情况。盲源分离本身是个回归模型,如果模型性能不理想,就会出现badcase(坏案例)。典型的坏案例有:噪声没有消除干净,语音被损伤了。这个情况最为普遍,也就是在某些时频点,噪声被保留了下来;而在另一些时频点,语音却被消除了。
因此,盲源分离最核心的两个能力是:噪声抑制和不损伤语音。一个好的盲源分离系统,应该能够在尽量少地损伤语音的情况下,把背景噪声抑制到最强程度。
分析了盲源分离算法的上述坏案例可以发现,其中最核心的问题是如何加噪声。当前主要的加噪方式是随机出一个snr(Signal to Noise Ratio,信噪比),按照信噪比计算语音和噪声的能量,然后按照一定的系数加噪。上述加噪的方式比较粗糙。这里有个假设,就是语音文件全部是语音,而噪声文件全部是噪声。待加噪的语音本身可能来自嘈杂的录音环境,它本身就是带噪声的。因此,如果整个语音文件样本不加区分地一起参与计算显然会产生偏差。
发明内容
本发明实施例提供一种语音信号加噪方法、装置及计算机可读存储介质,以至少解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种语音信号加噪方法,包括:读取语音信号和噪声信号;产生符合特定分布特性的信噪比;根据所述语音信号的语音活动检测信息、所述噪声信号和所述信噪比计算加噪控制参数;根据所述加噪控制参数和所述噪声信号对语音信号进行加噪处理。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,根据语音信号的语音活动检测信息和所述信噪比计算加噪控制参数,包括采用以下公式计算加噪控制参数:
其中,a表示加噪控制参数;表示语音信号采样值中有声段y的方差;表示语音信号采样值中无声段v的方差;σn表示噪声信号采样值n的标准差;snr表示信噪比;sqrt表示取平方根。
结合第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,根据计算出的所述加噪控制参数和所述噪声信号对语音信号进行加噪处理,包括采用以下公式对语音信号进行加噪处理:
X=s+a*n
其中,s表示待进行加噪处理的语音信号采样值;X表示加噪处理后的语音信号采样值;n表示噪声信号采样值。
结合第一方面、第一方面的第一种实现方式或第一方面的第二种实现方式,本发明实施例在第一方面的第三种实现方式中,所述特定分布包括高斯分布。
第二方面,本发明实施例提供了一种语音信号加噪装置,包括:信号读取单元,用于读取语音信号和噪声信号;信噪比产生单元,用于产生符合特定分布特性的信噪比;参数计算单元,用于根据所述语音信号的语音活动检测信息、所述噪声信号和所述信噪比计算加噪控制参数;加噪处理单元,用于根据所述加噪控制参数和所述噪声信号对语音信号进行加噪处理。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述参数计算单元还用于采用以下公式计算加噪控制参数:
其中,a表示加噪控制参数;表示语音信号采样值中有声段y的方差;表示语音信号采样值中无声段v的方差;σn表示噪声信号采样值n的标准差;snr表示信噪比;sqrt表示取平方根。
结合第二方面的第一种实现方式,本发明实施例在第二方面的第二种实现方式中,所述加噪处理单元还用于采用以下公式对语音信号进行加噪处理:
X=s+a*n
其中,s表示待进行加噪处理的语音信号采样值;X表示加噪处理后的语音信号采样值;n表示噪声信号采样值。
结合第二方面、第二方面的第一种实现方式或第二方面的第二种实现方式,本发明实施例在第二方面的第三种实现方式中,所述特定分布包括高斯分布。
在一个可能的设计中,语音信号加噪装置的结构中包括处理器和存储器,所述存储器用于存储支持语音信号加噪装置执行上述第一方面中语音信号加噪方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述语音信号加噪装置还可以包括通信接口,用于语音信号加噪装置与其他设备或通信网络通信。
第三方面,本发明实施例提供了一种语音信号加噪装置,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述第一方面中任一所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一所述的方法。
上述技术方案具有如下优点或有益效果:改进了加噪控制参数,使加噪方式更加合理,从而使噪声抑制的效果更好,语音识别的性能大大提高。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明一实施例提供的语音信号加噪方法的系统流程图。
图2为本发明一实施例提供的语音信号加噪方法中的语音信号的语谱图。
图3为本发明一实施例提供的语音信号加噪方法中的语音信号的二值VAD标签的示意图。
图4为本发明另一实施例提供的语音信号加噪方法中的语音信号的有声段和无声段的示意图。
图5为本发明一实施例提供的语音信号加噪装置的结构框图。
图6为本发明又一实施例提供的语音信号加噪装置的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
在传统的加噪方法中,加噪声需要同时读取三个数据:语音信号、噪声信号和加噪控制参数。
将包括语音信号和噪声信号的声音信号进行模数转换,转换成的数字声音信号的数据类型可包括float型(浮点型)或int型(integer,整数类型)。其中,float型的取值范围在-1到1之间;16位量化的int型的取值范围在-32767到32767之间。
加噪控制参数可服从某种特定的信噪比的分布特性,将服从某种特定的分布特性的信噪比作为目标信噪比。有了目标信噪比以后,可根据目标信噪比计算加噪控制参数,加噪控制参数也就是将语音信号和噪声信号混合的系数。其中,信噪比即设备的输出信号的功率与同时输出的噪声功率的比值,常常用分贝数表示。设备的信噪比越高表明它产生的杂音越少。一般来说,信噪比越大,说明混在信号里的噪声越小,声音回放的音质量越高,否则相反。
假设加噪处理后的语音信号采样值为X,则采用以下公式对语音信号进行加噪处理:
X=s+a*n
其中,s表示待进行加噪处理的语音信号采样值(speech);n表示噪声信号采样值(noise);a表示加噪控制参数,也就是noise的增益。
满足当前信噪比的加噪控制参数可根据以下公式计算得出:
其中,a表示加噪控制参数;σs表示语音信号采样值s的标准差;σn表示噪声信号采样值n的标准差;snr表示信噪比。
针对每一句话的语音信号可以随机产生一个信噪比,用来计算这句话的语音信号对应的加噪控制参数a,其中的信噪比可服从高斯分布的分布特性。
从上述公式中可以看到,公式中没有区分语音文件中的有声段和无声段。举个例子:可参见图2所示的语音信号的语谱图。语谱图是语音频谱图,一般是通过处理接收的时域信号得到频谱图。换而言之,语谱图是针对语音数据的频谱分析视图。语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色越深表示该点的语音能量越强,可以用语谱图来表现语音信号的特征。
图3是与图2相对应的语音信号的二值VAD(Voice Activity Detection,语音活动检测)标签图示。语音活动检测又称语音端点检测、语音边界检测或静音抑制。语音活动检测的目的是从声音信号流里识别和消除长时间的静音期,可以达到在不降低业务质量的情况下节省话路资源的作用。如图3所示,二值VAD标签的数据用纵坐标的取值为1和取值为0表示,图像的中间有语音的部分用1表示,图像的两侧没有语音的部分用0表示。
由于待加噪处理的语音信号本身可能来自嘈杂的录音环境,也就是说,它本身就是带噪声的。因此,如果用整个文件一起计算标准差σ,显然会拉低语音信号的功率,使计算结果产生偏差。
有鉴于此,本发明实施例提供了一种更精确的加噪声方法,使用语音活动检测信息来更加精确地进行加噪处理。
图1为本发明一实施例提供的语音信号加噪方法的系统流程图。如图1所示,本发明实施例的语音信号加噪方法包括:步骤S110,读取语音信号和噪声信号;步骤S120,产生符合特定分布特性的信噪比;步骤S130,根据所述语音信号的语音活动检测信息、所述噪声信号和所述信噪比计算加噪控制参数;步骤S140,根据所述加噪控制参数和所述噪声信号对语音信号进行加噪处理。
在一种可能的实施方式中,根据语音信号的语音活动检测信息和所述信噪比计算加噪控制参数,包括采用以下公式(1)计算加噪控制参数:
其中,a表示加噪控制参数;σ表示标准差;σ2表示语音信号采样值的方差,也就是语音信号的功率;n表示噪音文件;y表示语音文件中的语音片段;v表示语音文件中的噪声部分;表示语音信号采样值中有声段y的方差;表示语音信号采样值中无声段v的方差;σn表示噪声信号采样值n的标准差;snr表示信噪比;sqrt表示取平方根。
也就是说,可以表示有声段的功率,而可以表示无声段的功率。图4为本发明另一实施例提供的语音信号加噪方法中的语音信号的有声段和无声段的示意图。图4所示的矩形框区域分别对应于图2和图3所示的语音信号的有声段和无声段。
在公式(1)中,的计算公式为:
其中,s表示语音信号的采样值,i表示采样的时间刻度,L表示语音信号总的时间长度。上述两个公式中的分母分别表示有声段和无声段语音信号中采样样本的计数值,也就是采样样本的总个数。
在一种可能的实施方式中,根据计算出的所述加噪控制参数和所述噪声信号对语音信号进行加噪处理,包括采用以下公式对语音信号进行加噪处理:
X=s+a*n
其中,s表示待进行加噪处理的语音信号采样值;X表示加噪处理后的语音信号采样值;n表示噪声信号采样值。
在一种可能的实施方式中,所述特定分布包括高斯分布。高斯分布又名正态分布,也称常态分布,是连续随机变量概率分布的一种。自然界中大量现象均按正态形式分布,例如能力的高低等都属于正态分布。随机产生符合高斯分布特性的信噪比,会使计算的数据更加真实,接近实际情况。
上述技术方案具有如下优点或有益效果:改进了加噪控制参数,使加噪方式更加合理,从而使噪声抑制的效果更好,语音识别的性能大大提高。
上述技术方案在音频处理的应用场景中具有普遍推广性,可应用于各类智能音箱、智能电视、智能冰箱等商业产品中,还可应用于对话式人工智能系统中。
图5为本发明一实施例提供的语音信号加噪装置的结构框图。如图5所示,本发明实施例的语音信号加噪装置包括:信号读取单元100,用于读取语音信号和噪声信号;信噪比产生单元200,用于产生符合特定分布特性的信噪比;参数计算单元300,用于根据所述语音信号的语音活动检测信息、所述噪声信号和所述信噪比计算加噪控制参数;加噪处理单元400,用于根据所述加噪控制参数和所述噪声信号对语音信号进行加噪处理。
在一种可能的实施方式中,所述参数计算单元300还用于采用以下公式计算加噪控制参数:
其中,a表示加噪控制参数;表示语音信号采样值中有声段y的方差;表示语音信号采样值中无声段v的方差;σn表示噪声信号采样值n的标准差;snr表示信噪比;sqrt表示取平方根。
在一种可能的实施方式中,所述加噪处理单元400还用于采用以下公式对语音信号进行加噪处理:
X=s+a*n
其中,s表示待进行加噪处理的语音信号采样值;X表示加噪处理后的语音信号采样值;n表示噪声信号采样值。
在一种可能的实施方式中,所述特定分布包括高斯分布。
本发明实施例的语音信号加噪装置中各单元的功能可以参见上述方法的相关描述,在此不再赘述。
在一个可能的设计中,语音信号加噪装置的结构中包括处理器和存储器,所述存储器用于存储支持语音信号加噪装置执行上述语音信号加噪方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述语音信号加噪装置还可以包括通信接口,用于语音信号加噪装置与其他设备或通信网络通信。
图6为本发明又一实施例提供的语音信号加噪装置的结构框图。如图6所示,该装置包括:存储器101和处理器102,存储器101内存储有可在处理器102上运行的计算机程序。所述处理器102执行所述计算机程序时实现上述实施例中的语音信号加噪方法。所述存储器101和处理器102的数量可以为一个或多个。
该装置还包括:
通信接口103,用于与外界设备进行通信,进行数据交互传输。
存储器101可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器101、处理器102和通信接口103独立实现,则存储器101、处理器102和通信接口103可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器101、处理器102及通信接口103集成在一块芯片上,则存储器101、处理器102及通信接口103可以通过内部接口完成相互间的通信。
又一方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述语音信号加噪方法中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种语音信号加噪方法,其特征在于,包括:
读取语音信号和噪声信号;
产生符合特定分布特性的信噪比;
根据所述语音信号的语音活动检测信息、所述噪声信号和所述信噪比计算加噪控制参数;
根据所述加噪控制参数和所述噪声信号对语音信号进行加噪处理。
2.根据权利要求1所述的方法,其特征在于,根据语音信号的语音活动检测信息和所述信噪比计算加噪控制参数,包括采用以下公式计算加噪控制参数:
其中,a表示加噪控制参数;表示语音信号采样值中有声段y的方差;表示语音信号采样值中无声段v的方差;σn表示噪声信号采样值n的标准差;snr表示信噪比;sqrt表示取平方根。
3.根据权利要求2所述的方法,其特征在于,根据计算出的所述加噪控制参数和所述噪声信号对语音信号进行加噪处理,包括采用以下公式对语音信号进行加噪处理:
X=s+a*n
其中,s表示待进行加噪处理的语音信号采样值;X表示加噪处理后的语音信号采样值;n表示噪声信号采样值。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述特定分布包括高斯分布。
5.一种语音信号加噪装置,其特征在于,包括:
信号读取单元,用于读取语音信号和噪声信号;
信噪比产生单元,用于产生符合特定分布特性的信噪比;
参数计算单元,用于根据所述语音信号的语音活动检测信息、所述噪声信号和所述信噪比计算加噪控制参数;
加噪处理单元,用于根据所述加噪控制参数和所述噪声信号对语音信号进行加噪处理。
6.根据权利要求5所述的装置,其特征在于,所述参数计算单元还用于采用以下公式计算加噪控制参数:
其中,a表示加噪控制参数;表示语音信号采样值中有声段y的方差;表示语音信号采样值中无声段v的方差;σn表示噪声信号采样值n的标准差;snr表示信噪比;sqrt表示取平方根。
7.根据权利要求6所述的装置,其特征在于,所述加噪处理单元还用于采用以下公式对语音信号进行加噪处理:
X=s+a*n
其中,s表示待进行加噪处理的语音信号采样值;X表示加噪处理后的语音信号采样值;n表示噪声信号采样值。
8.根据权利要求5-7中任一项所述的装置,其特征在于,所述特定分布包括高斯分布。
9.一种语音信号加噪装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的方法。
CN201810948033.7A 2018-08-20 2018-08-20 语音信号加噪方法、装置及存储介质 Active CN108899041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810948033.7A CN108899041B (zh) 2018-08-20 2018-08-20 语音信号加噪方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810948033.7A CN108899041B (zh) 2018-08-20 2018-08-20 语音信号加噪方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN108899041A true CN108899041A (zh) 2018-11-27
CN108899041B CN108899041B (zh) 2019-12-27

Family

ID=64354766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810948033.7A Active CN108899041B (zh) 2018-08-20 2018-08-20 语音信号加噪方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN108899041B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517708A (zh) * 2019-09-02 2019-11-29 平安科技(深圳)有限公司 一种音频处理方法、装置及计算机存储介质
CN110600022A (zh) * 2019-08-12 2019-12-20 平安科技(深圳)有限公司 一种音频处理方法、装置及计算机存储介质
CN110517708B (zh) * 2019-09-02 2024-06-07 平安科技(深圳)有限公司 一种音频处理方法、装置及计算机存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1324146A (zh) * 2000-05-17 2001-11-28 阿尔卡塔尔公司 确定一个信号的信噪比的方法和装置
US20020176190A1 (en) * 2001-05-25 2002-11-28 Infineon Technologies N.A., Inc. View DAC feedback inside analog front circuit
CN1684143A (zh) * 2004-04-14 2005-10-19 华为技术有限公司 一种语音增强的方法
CN101379548A (zh) * 2006-02-10 2009-03-04 艾利森电话股份有限公司 语音检测器和用于语音检测器中抑制子频带的方法
EP2113908A1 (en) * 2008-04-30 2009-11-04 QNX Software Systems (Wavemakers), Inc. Robust downlink speech and noise detector
CN101710490A (zh) * 2009-11-20 2010-05-19 安徽科大讯飞信息科技股份有限公司 语音评测的噪声补偿方法及装置
CN102576528A (zh) * 2009-10-19 2012-07-11 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
CN102968770A (zh) * 2012-11-30 2013-03-13 华为技术有限公司 噪声消除方法及装置
CN103745727A (zh) * 2013-12-25 2014-04-23 南京邮电大学 一种含噪声语音信号压缩感知方法
CN104184910A (zh) * 2014-07-28 2014-12-03 小米科技有限责任公司 一种语音通话的控制方法及装置
GB2548325A (en) * 2016-02-10 2017-09-20 Cedar Audio Ltd Acoustic source seperation systems
CN107276696A (zh) * 2017-05-25 2017-10-20 黑龙江科技大学 一种低信噪比条件下信号检测算法
CN107680609A (zh) * 2017-09-12 2018-02-09 桂林电子科技大学 一种基于噪声功率谱密度的双通道语音增强方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1324146A (zh) * 2000-05-17 2001-11-28 阿尔卡塔尔公司 确定一个信号的信噪比的方法和装置
US20020176190A1 (en) * 2001-05-25 2002-11-28 Infineon Technologies N.A., Inc. View DAC feedback inside analog front circuit
CN1684143A (zh) * 2004-04-14 2005-10-19 华为技术有限公司 一种语音增强的方法
CN101379548A (zh) * 2006-02-10 2009-03-04 艾利森电话股份有限公司 语音检测器和用于语音检测器中抑制子频带的方法
EP2113908A1 (en) * 2008-04-30 2009-11-04 QNX Software Systems (Wavemakers), Inc. Robust downlink speech and noise detector
CN102576528A (zh) * 2009-10-19 2012-07-11 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
CN101710490A (zh) * 2009-11-20 2010-05-19 安徽科大讯飞信息科技股份有限公司 语音评测的噪声补偿方法及装置
CN102968770A (zh) * 2012-11-30 2013-03-13 华为技术有限公司 噪声消除方法及装置
CN103745727A (zh) * 2013-12-25 2014-04-23 南京邮电大学 一种含噪声语音信号压缩感知方法
CN104184910A (zh) * 2014-07-28 2014-12-03 小米科技有限责任公司 一种语音通话的控制方法及装置
GB2548325A (en) * 2016-02-10 2017-09-20 Cedar Audio Ltd Acoustic source seperation systems
CN107276696A (zh) * 2017-05-25 2017-10-20 黑龙江科技大学 一种低信噪比条件下信号检测算法
CN107680609A (zh) * 2017-09-12 2018-02-09 桂林电子科技大学 一种基于噪声功率谱密度的双通道语音增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IEUUIHC: ""Matlab信号上叠加噪声和信噪比的计算"", 《百度文库》 *
成利香: ""基于MATLAB的语音信号加噪处理"", 《软件导刊》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600022A (zh) * 2019-08-12 2019-12-20 平安科技(深圳)有限公司 一种音频处理方法、装置及计算机存储介质
WO2021027132A1 (zh) * 2019-08-12 2021-02-18 平安科技(深圳)有限公司 一种音频处理方法、装置及计算机存储介质
CN110600022B (zh) * 2019-08-12 2024-02-27 平安科技(深圳)有限公司 一种音频处理方法、装置及计算机存储介质
CN110517708A (zh) * 2019-09-02 2019-11-29 平安科技(深圳)有限公司 一种音频处理方法、装置及计算机存储介质
CN110517708B (zh) * 2019-09-02 2024-06-07 平安科技(深圳)有限公司 一种音频处理方法、装置及计算机存储介质

Also Published As

Publication number Publication date
CN108899041B (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
CN106486131B (zh) 一种语音去噪的方法及装置
CN108899044B (zh) 语音信号处理方法及装置
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
CN108899047B (zh) 音频信号的掩蔽阈值估计方法、装置及存储介质
JP4150798B2 (ja) デジタルフィルタリング方法、デジタルフィルタ装置、デジタルフィルタプログラム及びコンピュータで読み取り可能な記録媒体
CN110021307B (zh) 音频校验方法、装置、存储介质及电子设备
CN107610708B (zh) 识别声纹的方法及设备
CN109036460B (zh) 基于多模型神经网络的语音处理方法和装置
CN112185408B (zh) 音频降噪方法、装置、电子设备以及存储介质
CN111798875A (zh) 一种基于三值量化压缩的vad实现方法
CN109300470A (zh) 混音分离方法和混音分离装置
CN108899041A (zh) 语音信号加噪方法、装置及存储介质
CN110197657B (zh) 一种基于余弦相似度的动态音声特征提取方法
CN109741761A (zh) 声音处理方法和装置
CN113327589B (zh) 一种基于姿态传感器的语音活动检测方法
CN115116458A (zh) 语音数据转换方法、装置、计算机设备及存储介质
Chen et al. Background noise reduction design for dual microphone cellular phones: Robust approach
Lu et al. Temporal contrast normalization and edge-preserved smoothing of temporal modulation structures of speech for robust speech recognition
CN106448680B (zh) 一种采用感知听觉场景分析的缺失数据特征说话人识别方法
Win et al. Speech enhancement techniques for noisy speech in real world environments
Soni et al. Comparing front-end enhancement techniques and multiconditioned training for robust automatic speech recognition
CN115767389A (zh) 用于数字助听器的音频信号处理方法和数字助听器
WO2024055751A1 (zh) 音频数据处理方法、装置、设备、存储介质及程序产品
Upadhyay et al. Auditory driven subband speech enhancement for automatic recognition of noisy speech
CN117528328A (zh) 一种耳麦音频降噪处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant