CN110277087A - 一种广播信号预判预处理方法 - Google Patents

一种广播信号预判预处理方法 Download PDF

Info

Publication number
CN110277087A
CN110277087A CN201910595312.4A CN201910595312A CN110277087A CN 110277087 A CN110277087 A CN 110277087A CN 201910595312 A CN201910595312 A CN 201910595312A CN 110277087 A CN110277087 A CN 110277087A
Authority
CN
China
Prior art keywords
voice
time domain
window
med
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910595312.4A
Other languages
English (en)
Other versions
CN110277087B (zh
Inventor
雒瑞森
冯谦
杨文�
卢俊宏
王琛
余勤
龚晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Grand Duke Bo Chuan Information Technology Co Ltd
Sichuan University
Original Assignee
Chengdu Grand Duke Bo Chuan Information Technology Co Ltd
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Grand Duke Bo Chuan Information Technology Co Ltd, Sichuan University filed Critical Chengdu Grand Duke Bo Chuan Information Technology Co Ltd
Priority to CN201910595312.4A priority Critical patent/CN110277087B/zh
Publication of CN110277087A publication Critical patent/CN110277087A/zh
Application granted granted Critical
Publication of CN110277087B publication Critical patent/CN110277087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种广播信号预判预处理方法,包括如下:截取语音段,并分离出含语音段和不含语音段;对含语音段的语音时域序列为进行分帧和加滑动窗口,得到语音时域序列,去除加性噪声,得到去除加性噪声后的语音时域序列;对语音时域序列进行滤波,得到去除冲激性噪声之后的语音时域序列;建立循环网络神经模型,对去除冲激性噪声之后的含语音段进行筛选,筛选出仅含标准中文语音的第一语音片段和既含有标准中文语音又含有背景音乐的第二语音片段;将第二语音片段的背景音乐和标准中文语音进行分离。得到了消除电流杂音、外界环境声音、说话者语气词以及背景音乐的纯广播录音文件,从而提高了进行关键词的识别得到的结果准确率、降低了误识率。

Description

一种广播信号预判预处理方法
技术领域
本发明涉及广播信号处理技术,具体涉及一种广播信号预判预处理方法。
背景技术
无线电电磁频谱管控是经济生产及安全防范中的重要内容,由于无线电广播技术自身的 开放性,所有有发射需求的用户,只需要占据特定的频段,即可通过发射信号进行广播。因 此,时常有出于不同目的用户,在批准发射的频率之外,擅自占据频段进行广播发射(俗称 “黑广播”)。
黑广播主要以售卖假冒伪劣产品居多,严重扰乱经济秩序;或者是扰乱正常电子通讯的 运转;某些情况下甚至会干扰关键性通讯设备(如飞机飞航通讯频段),引发严重的安全隐患。 因此,进行有效的无线电电磁频谱管控,是一件意义重大的课题。传统的无线电电磁频谱管 控,主要是基于人工收听并识别的方法,具有成本高、效率低、操作人员疲劳易引发失误等 缺点;随着人工智能的发展,采用人工智能技术来识别黑广播的方法也开始进入研究,但是, 由于广播通常对音质没有过高要求,所以广播录音通常噪声很大,比如电流杂音、外界环境 声音、说话者语气词等,因此单单对广播录音进行关键词的识别得到的结果准确率很低、误 识率较高。
发明内容
本发明目的在于解决广播录音中噪声大,采用人工智能进行关键词识别时误识率高的问 题,提供了一种广播信号预判预处理方法,通过对语音中的加性噪声、冲激性噪声分别去除, 以及建立循环网络神经模型对语音段进行筛选和分离,得到了消除电流杂音、外界环境声音、 说话者语气词以及背景音乐的纯广播录音文件,从而提高了进行关键词的识别得到的结果准 确率、降低了误识率。
本发明通过下述技术方案实现:
一种广播信号预判预处理方法,包括如下步骤:
步骤一、截取语音段,对其进行粗分段,并分离出含语音段和不含语音段;定义含语音 段的语音时域序列为X(n),舍弃不含语音段;
步骤二、对含语音段的语音时域序列X(n)进行分帧和加滑动窗口,得到语音时域序列Xi(n), 滑动窗口为S(z),读取语音时域序列Xi(n)的波形数据,求出每条语音的最大峰值top、方差 var;对语音时域序列Xi(n)做短时傅里叶变换,得到该含语音段的语音频谱PS,读取该语音 频谱PS中初始静音段的幅度谱平均值作为该含语音段的噪声谱估计Pn,并计算其信噪比:
其中,PS表示含语音段的幅度谱,Pn表示该语音段的噪声谱估计,根据最大峰值top、 方差var和信噪比snr三个参数对该语音段的语音质量进行综合打分,分数用score表示,预 先设定好score的阈值(A,B,C);
当score<A时,跳过步骤三和步骤四;执行步骤五和步骤六;
当A<score<B时,执行步骤三跳过步骤四;执行步骤五和步骤六;
当B<score<C时,执行步骤三、步骤四、步骤五和步骤六;
当score>C时,直接丢弃;
步骤三、去除含语音段中的加性噪声,得到去除加性噪声后的语音时域序列Yi(n);
步骤四、对该含语音段进行滤波去除冲激性噪声;
步骤五、建立循环网络神经模型,对该含语音段进行筛选,筛选出仅含标准中文语音的 第一语音片段和既含有标准中文语音又含有背景音乐的第二语音片段;
步骤六、将第二语音片段的背景音乐和标准中文语音进行分离。
在采用人工智能技术来识别黑广播时,广播录音通常噪声很大,比如电流杂音、外界环 境声音、说话者语气词等,因此单单对广播录音进行关键词的识别得到的结果准确率很低、 误识率较高;所以发明人针对广播录音的以上特性构建了广播信号的语音噪声移除方法:因 为对于一段广播录音,由于其具有不同的状态,含中文普通话、各种噪声等几种不同声音类 别,所以不能一概而论,要在去噪前要先对其进行分段处理,再判定语音段是否含有普通话; 由于我们去噪的目的是进行后续的关键词识别,步骤一的具体操作方式如下:截取语音段, 对其进行分段,并将所有的语音片段输入进已经训练好的基于卷积网络CNN的音频类别分类 器,分离出含普通话语音段和不含普通话语音段,打好标签并输出;因此我们只需要对含普 通话语音段做去噪处理,不含普通话语音段则不做处理;由于分段后一段语音信号整体上看 不是平稳的,但是在局部上可以看作是平稳的,在后期的语音处理中需要输入的是平稳信号, 所以要对整段语音信号分帧,也就是将含普通话语音段切分成很多的小段,每个小段中的信 号可以看成是平稳的,对每个小段进行一定频率的采样,通常为8kHz、16kHz等,再将该小 段中的所有采样点集合成一个观测单位,称为帧,语音去噪的单位就是帧,这里定义该小段 中采样点的个数为N;通常情况下N的值为256或512。由于分帧后帧与帧之间的连续性就 降低了,为了避免相邻两帧的变化过大,因此会让两帧之间有一定的重叠区域;由于分帧后, 每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与原始信号的误差也就越大, 加窗就是为了解决这个问题,使分帧后的信号变得连续,每一帧就会表现出周期函数的特征, 加窗的目的就是一次仅处理窗中的数据,因为实际的语音信号是很长的,我们不能也不必对 非常长的数据进行一次性处理,故而在语音信号处理中采用了加汉明窗的方式,因为加上汉 明窗,只有中间的数据体现出来了,两边的数据信息丢失了,所以在移窗时,移动1/3或1/2 窗,这样被前一帧或二帧丢失的数据又重新得到了体现;接下来针对两种不同广播噪声采取 不同的去噪方法进行去噪处理,针对加性噪声,因为加性噪声与语音之间相互独立,在频域 将噪声的功率谱从带噪语音功率谱中减去,得到纯净语音的幅度谱估计,并借助于带噪语音 的相位经反傅里叶变换恢复出纯净语音信号;针对冲激性噪声噪声,本方法中采用不同的步 骤和不同处理手段单独一对一的进行处理,有效的对冲激性噪声进行了去除,去噪之后可以 得到较为“干净”的录音文件;去噪之后在通过循环网络神经模型筛选出仅含标准中文语音 的第一语音片段和既含有标准中文语音又含有背景音乐的第二语音片段,针对第一语音片段, 便无需做后续处理,可直接进行识别,针对第二语音片段将其中的背景音乐与标准中文语音 进行分离,从而得到了单纯的标准中文语音信号,此时,再对第一语音片段和第二语音片段 的录音做特征提取,提取出来的人声特征没有那么多干扰,能更近似的表达出原本的录音信 息。去除了电流杂音、外界环境声音、说话者语气词等,进而提高了进行关键词的识别得到 的结果准确率、降低了误识率。
进一步的,步骤三中去除加性噪声的过程如下:
步骤3.1、求出整体广播录音的频谱能量的平方|X′(k)|2
步骤3.2、选取一段不含语音段统计出噪声频谱的平方|D(k)|2
步骤3.3、通过如下公式进行迭代谱减:
直到去噪语音功率谱|Y(k)|2不再变化,对其做反傅里叶变换得到去除加性噪声后的语音 时域序列Yi(n)。在迭代谱减法中,该公式会被多次重复,直到最终的频谱不在变化,或达到 指定的迭代上限为止。
进一步的,步骤四中滤波处理的具体过程如下:
步骤4.1、将滑动窗口S(z)沿语音时域序列Yi(n)或Xi(n)方向进行滑动,窗口大小为Z; 初始时z值为0,每移动一次滑动窗口,z值加1,z有最大值Z;
步骤4.2、每次移动后,定义当前窗口内的语音时域序列段为Yi,j(n)或Xi,j(n),对窗口内 语音时域序列段Yi,j(n)或Xi,j(n)求差分序列gi,j(n);i表示在第i帧内,j表示在该帧的第j个 采样点;
步骤4.3、找到各个窗口的差分序列gi,j(n),通过差分序列gi,j(n)找到含有离群点的窗口 并求出这些窗口内的离群点gi,out
步骤4.4、分别对含有离群点窗口中的各个离群点gi,out(n)进行排序,找出离群点中绝对值 最大的点max{gi,out},由该离群点与原语音时域序列对应位置相加,求出其对应窗口中该点的 语音时域序列值Yi,max out(n)或Xi,max out(n),即语音冲激值;
步骤4.5、针对含有离群点的窗口,求出各自窗口内所有点的语音时域序列值Yi,out(n)或 Xi,out(n)并进行排序,求各自窗口内语音时域序列值Yi,out(n)或Xi,out(n)的中位数Yi,med(n)或Xi,med (n),在各自窗口内比较冲激值Yi,max out(n)或Xi,max out(n)与中位数Yi,med(n)或Xi,med的大小;
若语音冲激值Yi,max out(n)或Xi,max out(n)大于中位数Yi,med(n)或Xi,med(n)则中位数Yi,med (n)或Xi,med(n)可靠,用该中位数Yi,med(n)或Xi,med(n)替换该窗口内的中心值;
若语音冲激值Yi,max out(n)或Xi,max out(n)小于中位数Yi,med(n)或Xi,med(n)则中位数Yi,med (n)或Xi,med(n)不可靠,用中位数Yi,med(n)或Xi,med(n)的左临近值Yi,med left(n)或Xi,med left(n) 替换该窗口内的中心值;
得到新的语音时域序列Yi(n)'或Xi(n)'。
传统的中值滤波的做法是在滑动窗口内对中心值和周围的其他所有值进行排序,得到一 个中间值(中位数),以该中位数直接来替换掉原中心值,它是一种非线性的图像平滑法,它 对脉冲干扰级椒盐噪声的抑制效果好,在抑制随机噪声的同时能有效保护边缘少受模糊。但 是如果语音中某一段内出现高密度脉冲干扰,这样在该区域滑动窗口内的中位数会受到污染, 进而导致滤波不够彻底。发明人针对上述问题对传统的中值滤波法进行了改进,通过检测语 音时域序列中的离群点来判断脉冲干扰点存在的位置,再通过比较中位数与脉冲干扰点的能 量值大小来判定中位数是否可靠,当判定中位数受脉冲干扰污染后便舍弃该中位数,用它的 左临近值代替中位数;当判定中位数符合要求时便用来替换该滑动窗口内原中心值。
进一步的,步骤4.3的具体步骤如下:
步骤4.3.1、求出各个窗口内的差分序列gi,j(n)并进行排序组成整体差分序列gi(n),计算 整体差分序列gi(n)的上四分位数Q1、下四分位数Q3和四分位极差Q3-Q1,得到差分序列的 非离群点允许分布的范围为:[Q1-δ(Q3-Q1),Q3+δ(Q3-Q1)],记为Ωi;
步骤4.3.2、判断每个窗口内的差分序列gi,j(n)中各个点的差分序列值gi,j(n)'是否位于差 分序列的非离群点允许分布的范围Ωi内,若超出该范围,则该点离群点gi,out;该筛选过程如 下:
其中,gi,j(n)'表示各点的差分序列值。
通过对差分序列进行排序,得到差分序列的非离群点允许分布的范围,通过判断差分序 列中各元素是否位于非离群点允许分布的范围,进而筛选出超出范围的离群点,方便后续对 中位数的判定。
进一步的,一种广播信号预判预处理方法,还包括步骤4.6:将滑动窗口S(z)沿语音时域 序列Yi(n)'或Xi(n)'方向按语音时间序列进行逐帧移动,并在移动过程中依时间顺序对窗口内 的所有采样点做算术平均值,得到语音时域序列Yi(n)”或Xi(n)”。在对经过步骤4.5处理后得 到的语音时域序列进行分析时,发明人发现在波形图中局部还是会有尖刺,同时语音之间的 音节承接发现不连续的现象,所以发明人根据上述缺陷对滑动窗口内对所有的采样点做算术 平均值,使得到的语音时域序列更加平滑。
进一步的,一种广播信号预判预处理方法,还包括如下步骤:
步骤4.7、将步骤4.6中得到的语音时域序列Yi(n)”或Xi(n)”与步骤三中得到的语音时域 序列Yi(n)或Xi(n)进行对比,求出残差序列Ci(m);
步骤4.8、对残差序列Ci(m)执行步骤四中的滤波处理,得到平滑残差序列Ci(m)”;
步骤4.9、将平滑残差序列Ci(m)”补偿至步骤4.6中得到的语音时域序列Yi(n)”或Xi(n)” 中,得到新的语音时域序列Wi(n)。
由于初始信号有许多冲激性噪声,经过步骤四中的滤波处理后被平滑掉了,故该频段对 应的残差往往很大,所以再将残差进行中位数平滑和线性平滑处理,这样得到一组“正常” “干净”的残差。以此残差序列Ci(m)”去修正步骤4.6得到的语音时域序列,可以的得到更加 接近原值的语音时域序列Wi(n)。
进一步的,步骤五中建筛选的具体方法如下:
步骤5.1、对步骤二和/或步骤四得到的含语音段提取MFCC特征;
步骤5.2、建立含有上述MFCC特征的第一样本文件和第二样本文件,所述第一样本文 件仅含标准中文,所述第二样本信号既含有标准中文有含有背景音乐;
步骤5.3、用第一样本信号和第二样本信号分别对循环网络神经模型进行训练;
步骤5.4、将步骤二和/或步骤四得到的语音时域序列送入循环网络神经模型,得到第一 语音片段和第二语音片段;第一语音片段仅含标准中文,第二语音片段即含有标准中文又含 有背景音乐。
MFCC又称梅尔频率倒谱系数,是基于人耳听觉特性提出来的,它与Hz频率成非线性 对应关系,梅尔频率倒谱系数则是利用它们之间的这种关系,计算得到的Hz频谱特征。MFCC 特征简单地说可以理解为语言信号的能量在不同频率范围的分布,可以表征语音信号的特征。 是在Mel标度频率域内提取出来的倒谱系数,Mel标度描述了人耳频率的非线性特性,它与 频率的关系可以近似表示为:
Mel(f)=2595*lg(1+f/700)
上式中,f为频率,单位为Hz;对于第一样本文件和第二样本文件的制作,发明人随机取一 部分去除冲激性噪声之后的含语音段当作训练集,分为两类语音片段:仅含标准中文语音的 第一样本文件和既含有标准中文语音又含有背景音乐的第二样本文件并人工打好标签,对两 类语音段提取音频MFCC特征,将训练集的特征向量输入循环神经网络进行训练,其具体流 程如下:将仅含标准中文语音的第一样本文件和既含有标准中文语音又含有背景音乐的第二 样本文件的音频MFCC特征及它们各自对应的标签送入循环神经网络模型中训练,设定一定 的迭代步数,利用交叉熵损失函数和Adam优化器不断修正模型,使得循环神经网络网络对 音频预测的标签类型真实标签之间的交叉熵损失函数最小,即训练好了我们的循环神经网络 模型,使得对新送入的音频可以达到较好的预测,判断出新送入的音频是第一类音频,即仅 含标准中文语音;还是第二类音频,即同时含有标准中文语音又含有背景音乐的音频;从而 得到第一语音片段和第二语音片段;第一语音片段仅含标准中文,第二语音片段即含有标准 中文又含有背景音乐。
进一步的,步骤六中对背景音乐和标准中文语音进行分离所采用的方法为非负矩阵分解 法。针对第二语音片段,发明人采用非负矩阵分解法将其中的背景音乐与标准中文语音进行 分离,从而得到了单纯的标准中文语音信号。
进一步的,步骤六的具体步骤如下:
步骤6.1、建立第三样本文件和第四样本文件,所述第三样本文件中仅包含标准中文,所 述第四样本文件中仅包含背景音乐;
步骤6.2、分别对第三样本文件和第四样本文件做快速傅里叶变换,得到第三样本文件和 第四样本文件的幅度谱;
步骤6.3、根据第三样本文件的幅度谱建立时频关系矩阵,定义为目标矩阵Ws;根据第 四样本文件的幅度谱建立时频关系矩阵,定义为目标矩阵Wm;将目标矩阵Ws和Wm联合保 存为联合字典矩阵W:W=[WsWm]
步骤6.4、对第二语音片段进行分帧、加窗,得到第二语音片段的语音时域序列A(n);
步骤6.5、对语音时域序列A(n)做快速傅里叶变换,得到第二语音片段的幅度谱|A(k)|, 用矩阵V来表示其时频关系,行数为该语音帧数,列数为频点数;
步骤6.6、以联合字典矩阵W做为基矩阵,对第二语音片段的时频矩阵V做非负矩阵分 解,即V=WH,也可写作[Vs Vm]=[WsWm]*[Hs Hm],可以得到一个联合编码矩阵H,可知H=[HsHm];
步骤6.7、求取第三样本文件增益函数Gs,即:
步骤6.8、估计标准中文语音的幅度谱:
Vs=Gs*V
步骤6.9、对估计标准中文幅度谱Vs做反傅里叶变换,得到去除背景音乐后的第二语音 片段的语音时域序列A(n)'。
非负矩阵分解法的依据是来源于对整体的感知由对组成整体的部分的感知构成的(纯加 性的),这也符合直观的理解:整体是由部分组成的,因此它在某种意义上抓住了智能数据描 述的本质。非负矩阵分解法的基本思想可以简单描述为:对于任意给定的一个非负矩阵V, 非负矩阵分解法能够寻找到一个非负矩阵W和一个非负矩阵H,使得满足从而 将一个非负的矩阵分解为左右两个非负矩阵的乘积。原始矩阵的列向量是对左矩阵 中所有列向量的加权和,而权重系数就是右矩阵对应列向量的元素,故称W 为基矩阵,H为系数矩阵。非负矩阵分解是利用非负的基矩阵和编码矩阵的 乘积实现对整体非负矩阵的逼近。
本发明与现有技术相比,具有如下的优点和有益效果:
1、提取出来的人声特征没有那么多干扰,能更近似的表达出原本的录音信息,去除了电 流杂音等,进而提高了进行关键词的识别得到的结果准确率、降低了误识率;
2、通过对传统的中值滤波法进行改进,通过比较中位数与脉冲干扰点的能量值大小来判 定中位数是否可靠,当判定中位数受脉冲干扰污染后便舍弃该中位数,用它的左临近值代替 中位数;当判定中位数符合要求时便用来替换该滑动窗口内原中心值,进一步使得语音时域 序列的波形图更加平滑;
3.本方法不但可以提高处理后语音的识别率,还可以增强其人耳可听性,所以可以拓展 于其他语音场景,如智能家居、高铁等的通讯去躁、边防保障中的小语种识别增强等;
4.另外,由于非法广播的利益目的,音乐电台往往不是非法广播,如果能预判出广播以 播放音乐为主,则可直接判为正常广播,所以进行广播类型的预判有助于提高效率和准确率。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不 构成对本发明实施例的限定。在附图中:
图1为本发明的信号处理流程图;
图2为去除加性噪声之间的波形图;
图3为去除加性噪声之后的波形图;
图4为去除加性噪声之间的语谱图;
图5为去除加性噪声之后的语谱图;
图6为去除冲激噪声之前的整体波形图;
图7为去除冲激噪声之后的整体波形图;
图8为去除冲激噪声之前的整体语谱图;
图9为去除冲激噪声之后的整体语谱图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明 作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本 发明的限定。
实施例1
如图1所示,一种广播信号预判预处理方法,包括如下步骤:
步骤一、截取语音段,对其进行粗分段,并分离出含语音段和不含语音段;定义含语音 段的语音时域序列为X(n),舍弃不含语音段;
具体的本实施例中,将待识别的广播音频片段以3-5秒每段的长度切分成若干小段,并 记录分得的总段数,取各个小段的梅尔频谱图载入卷积网络以“语音为主/非语音为主”的标 准进行二分类,分离出含语音段和不含语音段;定义含语音段为X(n),舍弃不含语音段;
步骤二、对含语音段的语音时域序列X(n)进行分帧和加滑动窗口,得到语音时域序列Xi(n), 滑动窗口为S(z),其中z表示该滑动窗口的大小,本实施例中通常取5、7或9;读取语音时 域序列Xi(n)的波形数据,求出每条语音的最大峰值top、方差var;对语音时域序列Xi(n)做 短时傅里叶变换,得到该含语音段的语音频谱PS,读取该语音频谱PS中初始静音段的幅度谱 平均值作为该含语音段的噪声谱估计Pn,并计算其信噪比:
其中,PS表示含语音段的幅度谱,Pn表示该语音段的噪声谱估计,根据最大峰值top、 方差var和信噪比snr三个参数对该语音段的语音质量进行综合打分,分数用score表示,预 先设定好score的阈值(A,B,C);
当score<A时,跳过步骤三和步骤四;执行步骤五和步骤六;
当A<score<B时,执行步骤三跳过步骤四;执行步骤五和步骤六;
当B<score<C时,执行步骤三、步骤四、步骤五和步骤六;
当score>C时,直接丢弃;
步骤三、去除含语音段中的加性噪声,得到去除加性噪声后的语音时域序列Yi(n);
步骤四、对该含语音段进行滤波去除冲激性噪声;
步骤五、建立循环网络神经模型,对该含语音段进行筛选,筛选出仅含标准中文语音的 第一语音片段和既含有标准中文语音又含有背景音乐的第二语音片段;
步骤六、对第二语音片段采用非负矩阵分解法将背景音乐和标准中文语音进行分离。
本实施例中打分的公式如下:
且A、B、C的值分别为3、8、10。
本实施例中,步骤三中去除加性噪声的过程如下:
步骤3.1、求出整体广播录音的频谱能量的平方|X′(k)|2
步骤3.2、选取一段不含语音段统计出噪声频谱的平方|D(k)|2
步骤3.3、通过如下公式进行迭代谱减:
直到去噪语音功率谱|Y(k)|2不再变化,对其做反傅里叶变换得到去除加性噪声后的语音 时域序列Yi(n)。在迭代谱减法中,上述公式会被多次重复,直到最终的频谱不在变化,或达 到指定的迭代上限为止。
本实施例中,步骤四中滤波的具体过程如下:
步骤4.1、将滑动窗口S(z)沿语音时域序列Yi(n)或Xi(n)方向进行滑动,窗口大小为Z; 初始时z值为0,每移动一次滑动窗口,z值加1,z有最大值Z;
步骤4.2、每次移动后,定义当前窗口内的语音时域序列段为Yi,j(n)或Xi,j(n),对窗口内 语音时域序列段Yi,j(n)或Xi,j(n)求差分序列gi,j(n);i表示在第i帧内,j表示在该帧的第j个 采样点;
步骤4.3、找到各个窗口的差分序列gi,j(n),通过差分序列gi,j(n)找到含有离群点的窗口 并求出这些窗口内的离群点gi,out
步骤4.4、分别对含有离群点窗口中的各个离群点gi,out(n)进行排序,找出离群点中绝对值 最大的点max{gi,out},由该离群点与原语音时域序列对应位置相加,求出其对应窗口中该点的 语音时域序列值Yi,max out(n)或Xi,max out(n),即语音冲激值;
步骤4.5、针对含有离群点的窗口,求出各自窗口内所有点的语音时域序列值Yi,out(n)或 Xi,out(n)并进行排序,求各自窗口内语音时域序列值Yi,out(n)或Xi,out(n)的中位数Yi,med(n)或Xi,med (n),在各自窗口内比较冲激值Yi,max out(n)或Xi,max out(n)与中位数Yi,med(n)或Xi,med的大小;
若语音冲激值Yi,max out(n)或Xi,max out(n)大于中位数Yi,med(n)或Xi,med(n)则中位数Yi,med (n)或Xi,med(n)可靠,用该中位数Yi,med(n)或Xi,med(n)替换该窗口内的中心值;
若语音冲激值Yi,max out(n)或Xi,max out(n)小于中位数Yi,med(n)或Xi,med(n)则中位数Yi,med (n)或Xi,med(n)不可靠,用中位数Yi,med(n)或Xi,med(n)的左临近值Yi,med left(n)或Xi,med left(n) 替换该窗口内的中心值;
得到新的语音时域序列Yi(n)'或Xi(n)'。
步骤4.3的具体步骤如下:
步骤4.3.1、求出各个窗口内的差分序列gi,j(n)并进行排序组成整体差分序列gi(n),计算 整体差分序列gi(n)的上四分位数Q1、下四分位数Q3和四分位极差Q3-Q1,得到差分序列的 非离群点允许分布的范围为:[Q1-δ(Q3-Q1),Q3+δ(Q3-Q1)],记为Ωi;
步骤4.3.2、判断每个窗口内的差分序列gi,j(n)中各个点的差分序列值gi,j(n)'是否位于差 分序列的非离群点允许分布的范围Ωi内,若超出该范围,则该点离群点gi,out;该筛选过程如 下:
其中,gi,j(n)'表示各点的差分序列值。
本实施例中,步骤五中建筛选的具体方法如下:
步骤5.1、对步骤二和/或步骤四得到的含语音段提取MFCC特征;
步骤5.2、建立含有上述MFCC特征的第一样本文件和第二样本文件,所述第一样本文 件仅含标准中文,所述第二样本信号既含有标准中文有含有背景音乐;
步骤5.3、用第一样本信号和第二样本信号分别对循环网络神经模型进行训练;
步骤5.4、将步骤二和/或步骤四得到的语音时域序列送入循环网络神经模型,得到第一 语音片段和第二语音片段;第一语音片段仅含标准中文,第二语音片段即含有标准中文又含 有背景音乐。
步骤六的具体步骤如下:
步骤6.1、建立第三样本文件和第四样本文件,所述第三样本文件中仅包含标准中文,所 述第四样本文件中仅包含背景音乐;
步骤6.2、分别对第三样本文件和第四样本文件做快速傅里叶变换,得到第三样本文件和 第四样本文件的幅度谱;
步骤6.3、根据第三样本文件的幅度谱建立时频关系矩阵,定义为目标矩阵Ws;根据第 四样本文件的幅度谱建立时频关系矩阵,定义为目标矩阵Wm;将目标矩阵Ws和Wm联合保 存为联合字典矩阵W:W=[WsWm]
步骤6.4、对第二语音片段进行分帧、加窗,得到第二语音片段的语音时域序列A(n);
步骤6.5、对语音时域序列A(n)做快速傅里叶变换,得到第二语音片段的幅度谱|A(k)|, 用矩阵V来表示其时频关系,行数为该语音帧数,列数为频点数;
步骤6.6、以联合字典矩阵W做为基矩阵,对第二语音片段的时频矩阵V做非负矩阵分 解,即V=WH,也可写作[Vs Vm]=[WsWm]*[Hs Hm],可以得到一个联合编码矩阵H,可知H=[HsHm];
步骤6.7、求取第三样本文件增益函数Gs,即:
步骤6.8、估计标准中文语音的幅度谱:
Vs=Gs*V
步骤6.9、对估计标准中文幅度谱Vs做反傅里叶变换,得到去除背景音乐后的第二语音 片段的语音时域序列A(n)'。
通过上述方法,如图2至图5所示,分别对比处理前后的语音段的波形图和语谱图,迭 代普减前波形图不平滑且带有很多的尖刺;迭代谱减后的波形图明显平滑,且比较接近纯语 音的波形图,观察迭代谱减前的语谱图,发现原始带噪语音频率高,且频率分布比较均匀, 说明语音带有高频时不变噪声,经由迭代谱减法去噪后,频率明显减小,去噪效果显著。
如图6至图9所示,发明人还对比了该语音段去除冲激性噪声前后的语音波形图及整体 语谱图可以看出去噪后高频部分能量减小,说明高频噪声去除效果较好;同时对其中的语音 信息的还原度很高,具有显著的进步。
综上所述,经过上述步骤之后从而可以得到较为“干净”的录音文件;此时,再对干净 的录音做特征提取,提取出来的人声特征没有那么多干扰,能更近似的表达出原本的录音信 息。去除了电流杂音、外界环境声音、说话者语气词等,进而提高了进行关键词的识别得到 的结果准确率、降低了误识率。
实施例2
本实施例相较于实施例1的区别在于,本实施例在步骤四中又增设了如下步骤:
步骤4.7、将步骤4.6中得到的语音时域序列Yi(n)”或Xi(n)”与步骤三中得到的语音时域 序列Yi(n)或Xi(n)进行对比,求出残差序列Ci(m);
步骤4.8、对残差序列Ci(m)执行步骤四中的滤波处理,得到平滑残差序列Ci(m)”;
步骤4.9、将平滑残差序列Ci(m)”补偿至步骤4.6中得到的语音时域序列Yi(n)”或Xi(n)” 中,得到新的语音时域序列Wi(n)。
由于初始信号有许多冲激性噪声,经过步骤四中的滤波处理后被平滑掉了,故该频段对 应的残差往往很大,所以再将残差进行中位数平滑和线性平滑处理,这样得到一组“正常” “干净”的残差。以此残差序列Ci(m)”去修正步骤4.6得到的语音时域序列Yi(n)”或Xi(n)”, 可以的得到更加接近原值的语音时域序列Wi(n)。
本方法,不但可以提高处理后语音的识别率,还可以增强其人耳可听性,所以可以拓展 于其他语音场景,如智能家居、高铁等的通讯去躁、边防保障中的小语种识别增强等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说 明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护 范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本 发明的保护范围之内。

Claims (9)

1.一种广播信号预判预处理方法,其特征在于,包括如下步骤:
步骤一、截取语音段,对其进行粗分段,并分离出含语音段和不含语音段;定义含语音段的语音时域序列为X(n),舍弃不含语音段;
步骤二、对含语音段的语音时域序列X(n)进行分帧和加滑动窗口,得到语音时域序列Xi(n),滑动窗口为S(z),读取语音时域序列Xi(n)的波形数据,求出每条语音的最大峰值top、方差var;对语音时域序列Xi(n)做短时傅里叶变换,得到该含语音段的语音频谱PS,读取该语音频谱PS中初始静音段的幅度谱平均值作为该含语音段的噪声谱估计Pn,并计算其信噪比:
其中,PS表示含语音段的幅度谱,Pn表示该语音段的噪声谱估计,根据最大峰值top、方差var和信噪比snr三个参数对该语音段的语音质量进行综合打分,分数用score表示,预先设定好score的阈值(A,B,C);
当score<A时,跳过步骤三和步骤四;执行步骤五和步骤六;
当A<score<B时,执行步骤三跳过步骤四;执行步骤五和步骤六;
当B<score<C时,执行步骤三、步骤四、步骤五和步骤六;
当score>C时,直接丢弃;
步骤三、去除含语音段中的加性噪声,得到去除加性噪声后的语音时域序列Yi(n);
步骤四、对该含语音段进行滤波去除冲激性噪声;
步骤五、建立循环网络神经模型,对该含语音段进行筛选,筛选出仅含标准中文语音的第一语音片段和既含有标准中文语音又含有背景音乐的第二语音片段;
步骤六、将第二语音片段的背景音乐和标准中文语音进行分离。
2.根据权利要求1所述的一种广播信号预判预处理方法,其特征在于,所述步骤三中去除加性噪声的过程如下:
步骤3.1、求出整体广播录音的频谱能量的平方|X′(k)|2
步骤3.2、选取一段不含语音段统计出噪声频谱的平方|D(k)|2
步骤3.3、通过如下公式进行迭代谱减:
直到去噪语音功率谱|Y(k)|2不再变化,对其做反傅里叶变换得到去除加性噪声后的语音时域序列Yi(n)。
3.根据权利要求1所述的一种广播信号预判预处理方法,其特征在于,所述步骤四中滤波的具体过程如下:
步骤4.1、将滑动窗口S(z)沿语音时域序列Yi(n)或Xi(n)方向进行滑动,窗口大小为Z;初始时z值为0,每移动一次滑动窗口,z值加1,z有最大值Z;
步骤4.2、每次移动后,定义当前窗口内的语音时域序列段为Yi,j(n)或Xi,j(n),对窗口内语音时域序列段Yi,j(n)或Xi,j(n)求差分序列gi,j(n);i表示在第i帧内,j表示在该帧的第j个采样点;
步骤4.3、找到各个窗口的差分序列gi,j(n),通过差分序列gi,j(n)找到含有离群点的窗口并求出这些窗口内的离群点gi,out
步骤4.4、分别对含有离群点窗口中的各个离群点gi,out(n)进行排序,找出离群点中绝对值最大的点max{gi,out},由该离群点与原语音时域序列对应位置相加,求出其对应窗口中该点的语音时域序列值Yi,max out(n)或Xi,max out(n),即语音冲激值;
步骤4.5、针对含有离群点的窗口,求出各自窗口内所有点的语音时域序列值Yi,out(n)或Xi,out(n)并进行排序,求各自窗口内语音时域序列值Yi,out(n)或Xi,out(n)的中位数Yi,med(n)或Xi,med(n),在各自窗口内比较冲激值Yi,max out(n)或Xi,max out(n)与中位数Yi,med(n)或Xi,med的大小;
若语音冲激值Yi,max out(n)或Xi,max out(n)大于中位数Yi,med(n)或Xi,med(n)则中位数Yi,med(n)或Xi,med(n)可靠,用该中位数Yi,med(n)或Xi,med(n)替换该窗口内的中心值;
若语音冲激值Yi,max out(n)或Xi,max out(n)小于中位数Yi,med(n)或Xi,med(n)则中位数Yi,med(n)或Xi,med(n)不可靠,用中位数Yi,med(n)或Xi,med(n)的左临近值Yi,med left(n)或Xi,med left(n)替换该窗口内的中心值;
得到新的语音时域序列Yi(n)'或Xi(n)'。
4.根据权利要求3所述的一种广播信号预判预处理方法,其特征在于,所述步骤4.3的具体步骤如下:
步骤4.3.1、求出各个窗口内的差分序列gi,j(n)并进行排序组成整体差分序列gi(n),计算整体差分序列gi(n)的上四分位数Q1、下四分位数Q3和四分位极差Q3-Q1,得到差分序列的非离群点允许分布的范围为:[Q1-δ(Q3-Q1),Q3+δ(Q3-Q1)],记为Ωi;
步骤4.3.2、判断每个窗口内的差分序列gi,j(n)中各个点的差分序列值gi,j(n)'是否位于差分序列的非离群点允许分布的范围Ωi内,若超出该范围,则该点离群点gi,out;该筛选过程如下:
其中,gi,j(n)'表示各点的差分序列值。
5.根据权利要求3所述的一种广播信号预判预处理方法,其特征在于,还包括步骤4.6:将滑动窗口S(z)沿语音时域序列Yi(n)'或Xi(n)'方向按语音时间序列进行逐帧移动,并在移动过程中依时间顺序对窗口内的所有采样点做算术平均值,得到语音时域序列Yi(n)”或Xi(n)”。
6.根据权利要求5所述的一种广播信号预判预处理方法,其特征在于,还包括如下步骤:
步骤4.7、将步骤4.6中得到的语音时域序列Yi(n)”或Xi(n)”与步骤三中得到的语音时域序列Yi(n)或Xi(n)进行对比,求出残差序列Ci(m);
步骤4.8、对残差序列Ci(m)执行步骤四中的滤波处理,得到平滑残差序列Ci(m)”;
步骤4.9、将平滑残差序列Ci(m)”补偿至步骤4.6中得到的语音时域序列Yi(n)”或Xi(n)”中,得到新的语音时域序列Wi(n)。
7.根据权利要求1所述的一种广播信号预判预处理方法,其特征在于,所述步骤五中筛选的具体方法如下:
步骤5.1、对步骤二和/或步骤四得到的含语音段提取MFCC特征;
步骤5.2、建立含有上述MFCC特征的第一样本文件和第二样本文件,所述第一样本文件仅含标准中文,所述第二样本信号既含有标准中文有含有背景音乐;
步骤5.3、用第一样本信号和第二样本信号分别对循环网络神经模型进行训练;
步骤5.4、将步骤二和/或步骤四得到的语音时域序列送入循环网络神经模型,得到第一语音片段和第二语音片段;第一语音片段仅含标准中文,第二语音片段即含有标准中文又含有背景音乐。
8.根据权利要求7所述的一种广播信号预判预处理方法,其特征在于,所述步骤六中对背景音乐和标准中文语音进行分离所采用的方法为非负矩阵分解法。
9.根据权利要求8所述的一种广播信号预判预处理方法,其特征在于,所述非负矩阵分解法的具体步骤如下:
步骤6.1、建立第三样本文件和第四样本文件,所述第三样本文件中仅包含标准中文,所述第四样本文件中仅包含背景音乐;
步骤6.2、分别对第三样本文件和第四样本文件做快速傅里叶变换,得到第三样本文件和第四样本文件的幅度谱;
步骤6.3、根据第三样本文件的幅度谱建立时频关系矩阵,定义为目标矩阵Ws;根据第四样本文件的幅度谱建立时频关系矩阵,定义为目标矩阵Wm;将目标矩阵Ws和Wm联合保存为联合字典矩阵W:W=[WsWm]
步骤6.4、对第二语音片段进行分帧、加窗,得到第二语音片段的语音时域序列A(n);
步骤6.5、对语音时域序列A(n)做快速傅里叶变换,得到第二语音片段的幅度谱|A(k)|,用矩阵V来表示其时频关系,行数为该语音帧数,列数为频点数;
步骤6.6、以联合字典矩阵W做为基矩阵,对第二语音片段的时频矩阵V做非负矩阵分解,即V=WH,也可写作[Vs Vm]=[WsWm]*[Hs Hm],可以得到一个联合编码矩阵H,可知H=[HsHm];
步骤6.7、求取第三样本文件增益函数Gs,即:
步骤6.8、估计标准中文语音的幅度谱:
Vs=Gs*V
步骤6.9、对估计标准中文幅度谱Vs做反傅里叶变换,得到去除背景音乐后的第二语音片段的语音时域序列A(n)'。
CN201910595312.4A 2019-07-03 2019-07-03 一种广播信号预判预处理方法 Active CN110277087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910595312.4A CN110277087B (zh) 2019-07-03 2019-07-03 一种广播信号预判预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910595312.4A CN110277087B (zh) 2019-07-03 2019-07-03 一种广播信号预判预处理方法

Publications (2)

Publication Number Publication Date
CN110277087A true CN110277087A (zh) 2019-09-24
CN110277087B CN110277087B (zh) 2021-04-23

Family

ID=67962819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910595312.4A Active CN110277087B (zh) 2019-07-03 2019-07-03 一种广播信号预判预处理方法

Country Status (1)

Country Link
CN (1) CN110277087B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028852A (zh) * 2019-11-06 2020-04-17 杭州哲信信息技术有限公司 一种基于cnn的智能呼叫系统中的噪声去除方法
CN111653285A (zh) * 2020-06-01 2020-09-11 北京猿力未来科技有限公司 丢包补偿方法及装置
CN112017675A (zh) * 2020-08-04 2020-12-01 杭州联汇科技股份有限公司 一种基于音频特征检测广播音频信号中单音的方法
CN112543972A (zh) * 2020-01-20 2021-03-23 深圳市大疆创新科技有限公司 音频处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436809A (zh) * 2011-10-21 2012-05-02 东南大学 英语口语机考系统中网络语音识别方法
CN103745727A (zh) * 2013-12-25 2014-04-23 南京邮电大学 一种含噪声语音信号压缩感知方法
CN106486131A (zh) * 2016-10-14 2017-03-08 上海谦问万答吧云计算科技有限公司 一种语音去噪的方法及装置
US20170221502A1 (en) * 2016-02-03 2017-08-03 Google Inc. Globally optimized least-squares post-filtering for speech enhancement
CN108899042A (zh) * 2018-06-25 2018-11-27 天津科技大学 一种基于移动平台的语音降噪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436809A (zh) * 2011-10-21 2012-05-02 东南大学 英语口语机考系统中网络语音识别方法
CN103745727A (zh) * 2013-12-25 2014-04-23 南京邮电大学 一种含噪声语音信号压缩感知方法
US20170221502A1 (en) * 2016-02-03 2017-08-03 Google Inc. Globally optimized least-squares post-filtering for speech enhancement
CN106486131A (zh) * 2016-10-14 2017-03-08 上海谦问万答吧云计算科技有限公司 一种语音去噪的方法及装置
CN108899042A (zh) * 2018-06-25 2018-11-27 天津科技大学 一种基于移动平台的语音降噪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S. PARVEEN,P. GREEN: "Speech enhancement with missing data techniques using recurrent neural networks", 《2004 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》 *
戴亮: "非平稳噪声环境下的语音增强算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028852A (zh) * 2019-11-06 2020-04-17 杭州哲信信息技术有限公司 一种基于cnn的智能呼叫系统中的噪声去除方法
CN112543972A (zh) * 2020-01-20 2021-03-23 深圳市大疆创新科技有限公司 音频处理方法及装置
WO2021146857A1 (zh) * 2020-01-20 2021-07-29 深圳市大疆创新科技有限公司 音频处理方法及装置
CN111653285A (zh) * 2020-06-01 2020-09-11 北京猿力未来科技有限公司 丢包补偿方法及装置
CN111653285B (zh) * 2020-06-01 2023-06-30 北京猿力未来科技有限公司 丢包补偿方法及装置
CN112017675A (zh) * 2020-08-04 2020-12-01 杭州联汇科技股份有限公司 一种基于音频特征检测广播音频信号中单音的方法
CN112017675B (zh) * 2020-08-04 2023-06-27 杭州联汇科技股份有限公司 一种基于音频特征检测广播音频信号中单音的方法

Also Published As

Publication number Publication date
CN110277087B (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及系统
CN110277087A (zh) 一种广播信号预判预处理方法
Cai et al. Sensor network for the monitoring of ecosystem: Bird species recognition
EP2695160B1 (en) Speech syllable/vowel/phone boundary detection using auditory attention cues
KR101269296B1 (ko) 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
Hui et al. Convolutional maxout neural networks for speech separation
Gurbuz et al. Application of affine-invariant Fourier descriptors to lipreading for audio-visual speech recognition
CN110136709A (zh) 语音识别方法及基于语音识别的视频会议系统
CN107564543B (zh) 一种高情感区分度的语音特征提取方法
Mallidi et al. Novel neural network based fusion for multistream ASR
CN108682432B (zh) 语音情感识别装置
CN111429935A (zh) 一种语音话者分离方法和装置
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
Murugappan et al. DWT and MFCC based human emotional speech classification using LDA
McLaren et al. Softsad: Integrated frame-based speech confidence for speaker recognition
CN111489763A (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
Ghaemmaghami et al. Complete-linkage clustering for voice activity detection in audio and visual speech
CN110299133B (zh) 基于关键字判定非法广播的方法
Zheng et al. Spectra restoration of bone-conducted speech via attention-based contextual information and spectro-temporal structure constraint
CN113516987B (zh) 一种说话人识别方法、装置、存储介质及设备
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质
CN111968673A (zh) 一种音频事件检测方法及系统
Kalinli Syllable segmentation of continuous speech using auditory attention cues
Bae et al. A neural text-to-speech model utilizing broadcast data mixed with background music

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant