CN112201265A - 一种基于心理声学模型的lstm语音增强方法 - Google Patents

一种基于心理声学模型的lstm语音增强方法 Download PDF

Info

Publication number
CN112201265A
CN112201265A CN202011418803.0A CN202011418803A CN112201265A CN 112201265 A CN112201265 A CN 112201265A CN 202011418803 A CN202011418803 A CN 202011418803A CN 112201265 A CN112201265 A CN 112201265A
Authority
CN
China
Prior art keywords
signal
voice
lstm
processing
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011418803.0A
Other languages
English (en)
Inventor
万东琴
何云鹏
许兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chipintelli Technology Co Ltd
Original Assignee
Chipintelli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chipintelli Technology Co Ltd filed Critical Chipintelli Technology Co Ltd
Priority to CN202011418803.0A priority Critical patent/CN112201265A/zh
Publication of CN112201265A publication Critical patent/CN112201265A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种基于心理声学模型的LSTM语音增强方法,包括以下步骤:S1.对输入的PCM信号进行VAD处理,判断其是否为语音信号;S2.如是语音信号,对语音信号进行特征处理,得到特征信号;S3.将特征信号经过心理声学模型处理,得到声学特征信号;S4.将声学特征信号经过LSTM网络处理,得到增强语音信号;S5.对增强语音信号做ASR处理,实现语音识别。本发明方案利用心理声学模型对带噪信号进行处理,消除冗余成分,降低网络的数据处理量;同时,相较于全连接的语音增强网络,本发明方案采用的LSTM网络可联系上下文信息,进一步提升语音的增强性能,从而提升语音识别率。

Description

一种基于心理声学模型的LSTM语音增强方法
技术领域
本发明属于语音增强技术领域,涉及语音识别系统中语音信号的增强技术,具体涉及一种基于心理声学模型的LSTM语音增强方法。
背景技术
随着人工智能技术的不断发展,ASR技术的应用也日益广泛,语音识别率的提升是智能语音技术领域的核心。语音增强技术,作为语音识别中的关键一环,一直备受关注。将深度学习(Deep Learning,DL)应用在语音增强领域是近年来的研究热点。譬如,基于全连接网络的语音增强方法,能够有效提升带噪语音信号的信噪比且结构简单。但是单个的全连接网络并未充分利用语音信号帧与帧之间的强相关性,因此采用LSTM可有效利用信号的上下文信息,进一步提升语音信号的增强性能。
同时,由于人耳的感知特性,语音信号很多冗余信息并不能被感知。因此,利用基于人耳感知特性构建的心理声学模型对语音信号进行处理,可有效降低信号中的冗余成分。为后续的基于LSTM的语音增强网络降低数据处理量,为语音识别降低干扰成分,从而提升语音增强的性能,提高语音的识别率。
发明内容
为更好的利用人工智能技术进行语音信号识别,本发明公开了一种基于心理声学模型的LSTM语音增强方法。
本发明所述基于心理声学模型的LSTM语音增强方法,包括以下步骤:
S1.对输入的PCM信号进行VAD处理,判断其是否为语音信号;
S2.如是语音信号,对语音信号进行特征处理,得到特征信号;
S3.将特征信号经过心理声学模型处理,得到声学特征信号;
S4.将声学特征信号经过LSTM网络处理,得到增强语音信号;
S5.对增强语音信号做ASR处理,实现语音识别。
优选的,所述步骤S2具体包括以下步骤:
S201.对输入的PCM语音信号
Figure 420223DEST_PATH_IMAGE001
进行加窗处理,得到
Figure 614313DEST_PATH_IMAGE002
帧长度为
Figure 831711DEST_PATH_IMAGE003
的语音帧信号
Figure 180783DEST_PATH_IMAGE004
,其中,
Figure 805669DEST_PATH_IMAGE005
为窗函数,
Figure 882078DEST_PATH_IMAGE006
为时间索引;
Figure 761172DEST_PATH_IMAGE002
的数量由语音信号长度决定;
S202.对帧长为
Figure 264835DEST_PATH_IMAGE003
的语音帧信号
Figure 580278DEST_PATH_IMAGE004
Figure 194799DEST_PATH_IMAGE003
点的快速傅里叶变换,得到长度为
Figure 115351DEST_PATH_IMAGE003
的频域信号
Figure 524336DEST_PATH_IMAGE007
,其中
Figure 586795DEST_PATH_IMAGE008
为帧索引,
Figure 552477DEST_PATH_IMAGE009
Figure 904699DEST_PATH_IMAGE010
为频率索引,
Figure 297634DEST_PATH_IMAGE011
;
S203.计算长度为
Figure 774621DEST_PATH_IMAGE003
的频域信号
Figure 199786DEST_PATH_IMAGE007
中各个频点
Figure 439137DEST_PATH_IMAGE012
的功率谱:
Figure 455504DEST_PATH_IMAGE013
其中,
Figure 301012DEST_PATH_IMAGE014
Figure 546180DEST_PATH_IMAGE015
为信号的采样频率,
Figure 154884DEST_PATH_IMAGE016
表示取模;
S204.计算频域信号
Figure 607731DEST_PATH_IMAGE007
中前
Figure 623092DEST_PATH_IMAGE017
个点的功率谱
Figure 186797DEST_PATH_IMAGE018
,即频域信号
Figure 650008DEST_PATH_IMAGE007
的功率谱
Figure 304717DEST_PATH_IMAGE019
为:
Figure 56641DEST_PATH_IMAGE020
;N为帧长;
其中,功率谱
Figure 440349DEST_PATH_IMAGE019
即为特征信号。
具体的,所述窗函数
Figure 23646DEST_PATH_IMAGE005
是分段函数,在
Figure 552716DEST_PATH_IMAGE021
时,
Figure 870565DEST_PATH_IMAGE005
为非零值;在
Figure 985195DEST_PATH_IMAGE006
为其他时,
Figure 908151DEST_PATH_IMAGE005
为0。
优选的,所述步骤S3包括以下子步骤:
S301.根据特征信号
Figure 404861DEST_PATH_IMAGE019
计算语音信号的声压级
Figure 131377DEST_PATH_IMAGE022
频率为
Figure 591308DEST_PATH_IMAGE023
的声压级
Figure 883618DEST_PATH_IMAGE024
声压级
Figure 20070DEST_PATH_IMAGE025
其中
Figure 250195DEST_PATH_IMAGE026
为基准声压级;
Figure 497505DEST_PATH_IMAGE010
为频率索引,log为对数符号,
Figure 395054DEST_PATH_IMAGE027
Figure 436828DEST_PATH_IMAGE026
的单位均为
Figure 669095DEST_PATH_IMAGE028
S302.将语音信号的声压级
Figure 267567DEST_PATH_IMAGE022
输入心理声学模型中,计算其全局掩蔽阈值
Figure 200714DEST_PATH_IMAGE029
S303.将声压级低于全局掩蔽阈值的频点所对应的功率谱
Figure 226438DEST_PATH_IMAGE030
置为0,得到声学特征信号。
采用本发明所述基于心理声学模型的LSTM语音增强方法,利用心理声学模型对语音信号进行处理,将人耳不能感知的信号过滤,从而降低网络的输入数据量,提高网络的处理效率;同时,为充分利用语音信号中的上下文信息,本发明采用LSTM网络做语音的增强处理,提高语音信号信噪比,进一步提升语音识别的准确率。
附图说明
图1为本发明所述基于心理声学模型的LSTM语音增强方法一个具体实施方式示意图;
图2为本发明所述LSTM网络的一个具体实施方式结构示意图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述基于心理声学模型的LSTM语音增强方法,包括以下步骤:
S1.对输入的PCM信号进行VAD处理,判断其是否为语音信号;
S2.如是语音信号,对语音信号进行特征处理,得到特征信号;
S3.将特征信号经过心理声学模型处理,得到声学特征信号;
S4.将声学特征信号经过LSTM网络处理,得到增强语音信号;
S5.对增强语音信号做ASR处理,实现语音识别。
步骤S1.对输入的PCM (Pulse Code Modulation, 脉冲编码调制) 信号进行语音活动检测 (Voice Activity Detection, VAD) 处理,判断其是否为语音信号;
其中PCM信号为实时采集的信号,经过VAD处理后,若判断为音频信号则进行后续处理,若不为音频信号则终止。
S2.对判断为音频信号的PCM语音信号进行特征处理,得到特征信号;具体地,在本申请的实施例中所述步骤S2包括以下子步骤:
S201.对输入的PCM语音信号
Figure 38012DEST_PATH_IMAGE001
进行加窗处理:窗函数平滑的在语音信号上滑动,将PCM语音信号
Figure 115208DEST_PATH_IMAGE001
分帧,得到
Figure 439879DEST_PATH_IMAGE002
帧长度为
Figure 105347DEST_PATH_IMAGE003
的语音帧信号
Figure 515468DEST_PATH_IMAGE004
,其中,
Figure 863534DEST_PATH_IMAGE005
为窗函数,
Figure 573870DEST_PATH_IMAGE006
为时间索引;
Figure 393927DEST_PATH_IMAGE002
的数量由语音信号长度决定,最后如不足一帧的会在空缺处补0凑齐一帧。
所述的窗函数
Figure 838815DEST_PATH_IMAGE005
通常是一个分段函数,在
Figure 504151DEST_PATH_IMAGE021
时,
Figure 537835DEST_PATH_IMAGE005
为非零值;在
Figure 528794DEST_PATH_IMAGE006
为其他时,
Figure 398661DEST_PATH_IMAGE005
为0。
S202.对帧长为
Figure 195585DEST_PATH_IMAGE003
的语音帧信号
Figure 349354DEST_PATH_IMAGE004
Figure 996367DEST_PATH_IMAGE003
点的快速傅里叶变换 (FastFourier Transform, FFT) ,得到长度为
Figure 670974DEST_PATH_IMAGE003
的频域信号
Figure 209272DEST_PATH_IMAGE007
,其中
Figure 702701DEST_PATH_IMAGE008
为帧索引,
Figure 35462DEST_PATH_IMAGE009
Figure 519402DEST_PATH_IMAGE010
为频率索引,
Figure 64653DEST_PATH_IMAGE011
;
快速傅里叶变换是离散傅里叶变换 (Discrete Fourier Transform, DFT) 的快速算法,对帧长为
Figure 396277DEST_PATH_IMAGE003
的语音帧信号
Figure 431098DEST_PATH_IMAGE004
Figure 209524DEST_PATH_IMAGE003
点的DFT为:
Figure DEST_PATH_IMAGE031
;---①
所述的FFT就是不断把长序列的DFT分解为几个短序列的DFT,并利用①式中
Figure 964991DEST_PATH_IMAGE032
函数 的周期性和对称性来减少DFT的运算次数,其中
Figure DEST_PATH_IMAGE033
;做
Figure 993864DEST_PATH_IMAGE003
点的快速傅里叶变换后,得到的长度为
Figure 668428DEST_PATH_IMAGE003
的频域信号
Figure 221900DEST_PATH_IMAGE007
是一个除去点
Figure 436850DEST_PATH_IMAGE034
后关于点
Figure DEST_PATH_IMAGE035
成镜像对称的信号。
S203.计算长度为
Figure 477487DEST_PATH_IMAGE003
的频域信号
Figure 125549DEST_PATH_IMAGE007
中各个频点
Figure 963055DEST_PATH_IMAGE012
的功率谱:
Figure 919379DEST_PATH_IMAGE013
其中,
Figure 893151DEST_PATH_IMAGE014
Figure 706255DEST_PATH_IMAGE015
为信号的采样频率,
Figure 765478DEST_PATH_IMAGE016
表示取模;
S204.计算频域信号
Figure 587809DEST_PATH_IMAGE007
中前
Figure 681667DEST_PATH_IMAGE017
个点的功率谱
Figure 665673DEST_PATH_IMAGE018
,即频域信号
Figure 664722DEST_PATH_IMAGE007
的功率谱
Figure 510318DEST_PATH_IMAGE019
为:
Figure 707950DEST_PATH_IMAGE020
;N为帧长;
其中,功率谱
Figure 82430DEST_PATH_IMAGE019
即为特征信号。
S3.将特征信号经过心理声学模型处理,得到声学特征信号;
心理声学模型是一种模拟人耳滤波器的声学模型,将人耳不能感知的信号过滤掉,从而降低处理的数据量;与其他声学模型如基于隐马尔科夫模型等用于语音识别的模型不同,心理声学模型包括绝对掩蔽阈值曲线、临界频带和掩蔽效应等的计算,着重模拟人耳听音过程,而隐马尔科夫模型是着重模拟声带发声过程的声学模型。
具体地,在所述步骤S3可以包括以下子步骤:
S301.根据特征信号
Figure 365513DEST_PATH_IMAGE019
计算语音信号的声压级
Figure 14800DEST_PATH_IMAGE022
频率为
Figure 615675DEST_PATH_IMAGE023
的声压级
Figure 692216DEST_PATH_IMAGE024
声压级
Figure 197015DEST_PATH_IMAGE025
其中
Figure 649993DEST_PATH_IMAGE026
为基准声压级;
Figure 822218DEST_PATH_IMAGE010
为频率索引,log为对数符号,
Figure 69659DEST_PATH_IMAGE027
Figure 265017DEST_PATH_IMAGE026
的单位均为
Figure 770954DEST_PATH_IMAGE028
S302.将语音信号的声压级
Figure 548417DEST_PATH_IMAGE022
输入心理声学模型中,计算其全局掩蔽阈值
Figure 216028DEST_PATH_IMAGE029
S303.将声压级低于全局掩蔽阈值的频点所对应的功率谱
Figure 914993DEST_PATH_IMAGE030
置为0,得到声学特征信号。
例如,在频点
Figure 490200DEST_PATH_IMAGE036
处,计算得到的对应声压级
Figure 591011DEST_PATH_IMAGE037
通过心理声学模型计算得到全局掩蔽阈值曲线在上述频点的对应全局掩蔽阈值:
Figure 429523DEST_PATH_IMAGE038
在频点
Figure 146943DEST_PATH_IMAGE039
等三处,
Figure 734963DEST_PATH_IMAGE040
,故将
Figure 283756DEST_PATH_IMAGE019
中这些
Figure 293169DEST_PATH_IMAGE023
所在的功率谱
Figure 497885DEST_PATH_IMAGE030
置为0,即得到声学特征信号。
S4.将声学特征信号经过长短期记忆网络 (Long Short-Term Memory,LSTM)处理,得到增强语音信号;LSTM网络可进一步提升语音的增强性能。
具体地,在本申请的实施例中所述的LSTM网络为离线训练成熟的网络,LSTM网络在训练过程中,网络的输入信号为经心理声学模型处理后的带噪语音特征信号,目标信号为经心理声学模型处理后的纯净语音特征信号。
纯净语音特征信号是通过纯净语音信号处理得到的,纯净语音信号通常是在安静环境即人耳感知不到环境噪声的环境下采集得到的;所述的带噪语音特征信号是通过带噪语音信号处理得到的,带噪语音信号是在噪声环境即人耳能明显感知到环境噪声的环境下采集得到的。
具体地,如图2所示给出一个现有技术下典型的LSTM网络,在本申请的实施的步骤 S4中所述的LSTM网络输入信号的长度为,输出状态和cell状态的长度均为, 初始化为0;输出状态经过一个全连接网络处理得到LSTM网络的输出信号作为增强语音 信号,其长度为;图2中、、、的下标为LSTM单元的序号,表示实数集,其上 标为表征的向量的维度,表示零集,为LSTM单元的总数,如
Figure 787036DEST_PATH_IMAGE048
表示第1个LSTM单元的输入信号
Figure 590913DEST_PATH_IMAGE049
是一个
Figure 146660DEST_PATH_IMAGE050
维的实数向量,其余以此类推。
其中,全连接网络包括一个输入层、
Figure DEST_PATH_IMAGE051
个隐藏层和一个输出层;其中,
Figure 213842DEST_PATH_IMAGE052
,输入层节点数为
Figure 41989DEST_PATH_IMAGE044
,隐藏层节点数为
Figure 383978DEST_PATH_IMAGE053
,输出层节点数为
Figure 794230DEST_PATH_IMAGE017
S5.对增强语音信号做ASR (Automatic Speech Recognition, 自动化识别)处理处理,实现语音识别。
与传统的语音增强网络相比,本发明方案利用心理声学模型对带噪信号进行处理,消除冗余成分,降低网络的数据处理量;同时,相较于全连接的语音增强网络,本发明方案采用的LSTM网络可联系上下文信息,进一步提升语音的增强性能,从而提升语音识别率。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (4)

1.一种基于心理声学模型的LSTM语音增强方法,其特征在于:包括以下步骤:
S1.对输入的PCM信号进行VAD处理,判断其是否为语音信号;
S2.如是语音信号,对语音信号进行特征处理,得到特征信号;
S3.将特征信号经过心理声学模型处理,得到声学特征信号;
S4.将声学特征信号经过LSTM网络处理,得到增强语音信号;
S5.对增强语音信号做ASR处理,实现语音识别。
2.如权利要求1所述的LSTM语音增强方法,其特征在于,所述步骤S2具体包括以下步骤:
S201.对输入的PCM语音信号
Figure 439528DEST_PATH_IMAGE001
进行加窗处理,得到
Figure 575105DEST_PATH_IMAGE002
帧长度为
Figure 233620DEST_PATH_IMAGE003
的语音帧信号
Figure 399022DEST_PATH_IMAGE004
,其中,
Figure 168395DEST_PATH_IMAGE005
为窗函数,
Figure 735642DEST_PATH_IMAGE006
为时间索引;
Figure 299479DEST_PATH_IMAGE002
的数量由语音信号长度决定;
S202.对帧长为
Figure 404707DEST_PATH_IMAGE003
的语音帧信号
Figure 40087DEST_PATH_IMAGE004
Figure 133945DEST_PATH_IMAGE003
点的快速傅里叶变换,得到长度为
Figure 399842DEST_PATH_IMAGE003
的频域信号
Figure 274257DEST_PATH_IMAGE007
,其中
Figure 651011DEST_PATH_IMAGE008
为帧索引,
Figure 927272DEST_PATH_IMAGE009
Figure 114802DEST_PATH_IMAGE010
为频率索引,
Figure 414196DEST_PATH_IMAGE011
;
S203.计算长度为
Figure 391380DEST_PATH_IMAGE003
的频域信号
Figure 725409DEST_PATH_IMAGE007
中各个频点
Figure 67529DEST_PATH_IMAGE012
的功率谱:
Figure 916536DEST_PATH_IMAGE013
其中,
Figure 618782DEST_PATH_IMAGE014
Figure 72897DEST_PATH_IMAGE015
为信号的采样频率,
Figure 648234DEST_PATH_IMAGE016
表示取模;
S204.计算频域信号
Figure 187800DEST_PATH_IMAGE007
中前
Figure 444469DEST_PATH_IMAGE017
个点的功率谱,即频域信号
Figure 984483DEST_PATH_IMAGE007
的功率谱
Figure 745766DEST_PATH_IMAGE019
为:
Figure 868443DEST_PATH_IMAGE020
;N为帧长;
其中,功率谱
Figure 765991DEST_PATH_IMAGE019
即为特征信号。
3.如权利要求2所述的LSTM语音增强方法,其特征在于,所述窗函数
Figure 886394DEST_PATH_IMAGE005
是分段函数,在
Figure 197290DEST_PATH_IMAGE021
时,
Figure 45029DEST_PATH_IMAGE005
为非零值;在
Figure 62663DEST_PATH_IMAGE006
为其他时,
Figure 416284DEST_PATH_IMAGE005
为0。
4.如权利要求1所述的LSTM语音增强方法,其特征在于,所述步骤S3包括以下子步骤:
S301.根据特征信号
Figure 886580DEST_PATH_IMAGE019
计算语音信号的声压级
Figure 351059DEST_PATH_IMAGE022
频率为
Figure 223201DEST_PATH_IMAGE023
的声压级
Figure 447857DEST_PATH_IMAGE024
声压级
Figure 671028DEST_PATH_IMAGE025
其中
Figure 673619DEST_PATH_IMAGE026
为基准声压级;
Figure 400267DEST_PATH_IMAGE010
为频率索引,log为对数符号,
Figure 95690DEST_PATH_IMAGE027
Figure 540578DEST_PATH_IMAGE026
的单位均为
Figure 533811DEST_PATH_IMAGE028
S302.将语音信号的声压级
Figure 442861DEST_PATH_IMAGE022
输入心理声学模型中,计算其全局掩蔽阈值
Figure 246869DEST_PATH_IMAGE029
S303.将声压级低于全局掩蔽阈值的频点所对应的功率谱
Figure 179053DEST_PATH_IMAGE030
置为0,得到声学特征信号。
CN202011418803.0A 2020-12-07 2020-12-07 一种基于心理声学模型的lstm语音增强方法 Pending CN112201265A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011418803.0A CN112201265A (zh) 2020-12-07 2020-12-07 一种基于心理声学模型的lstm语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011418803.0A CN112201265A (zh) 2020-12-07 2020-12-07 一种基于心理声学模型的lstm语音增强方法

Publications (1)

Publication Number Publication Date
CN112201265A true CN112201265A (zh) 2021-01-08

Family

ID=74034512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011418803.0A Pending CN112201265A (zh) 2020-12-07 2020-12-07 一种基于心理声学模型的lstm语音增强方法

Country Status (1)

Country Link
CN (1) CN112201265A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103531204A (zh) * 2013-10-11 2014-01-22 深港产学研基地 语音增强方法
CN105869652A (zh) * 2015-01-21 2016-08-17 北京大学深圳研究院 心理声学模型计算方法和装置
CN109087669A (zh) * 2018-10-23 2018-12-25 腾讯科技(深圳)有限公司 音频相似度检测方法、装置、存储介质及计算机设备
CN109671446A (zh) * 2019-02-20 2019-04-23 西华大学 一种基于绝对听觉阈值的深度学习语音增强方法
CN109817229A (zh) * 2019-03-14 2019-05-28 西华大学 叠加特征信息辅助的单比特音频压缩传输与重构方法
CN110415686A (zh) * 2019-05-21 2019-11-05 腾讯科技(深圳)有限公司 语音处理方法、装置、介质、电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103531204A (zh) * 2013-10-11 2014-01-22 深港产学研基地 语音增强方法
CN105869652A (zh) * 2015-01-21 2016-08-17 北京大学深圳研究院 心理声学模型计算方法和装置
CN109087669A (zh) * 2018-10-23 2018-12-25 腾讯科技(深圳)有限公司 音频相似度检测方法、装置、存储介质及计算机设备
CN109671446A (zh) * 2019-02-20 2019-04-23 西华大学 一种基于绝对听觉阈值的深度学习语音增强方法
CN109817229A (zh) * 2019-03-14 2019-05-28 西华大学 叠加特征信息辅助的单比特音频压缩传输与重构方法
CN110415686A (zh) * 2019-05-21 2019-11-05 腾讯科技(深圳)有限公司 语音处理方法、装置、介质、电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱丽 等: "心理声学模型在数字音频中的应用", 《电声技术》 *

Similar Documents

Publication Publication Date Title
CN109859767B (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
CN107452389B (zh) 一种通用的单声道实时降噪方法
CN110600018B (zh) 语音识别方法及装置、神经网络训练方法及装置
WO2021042870A1 (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
Tan et al. Real-time speech enhancement using an efficient convolutional recurrent network for dual-microphone mobile phones in close-talk scenarios
CN107329996B (zh) 一种基于模糊神经网络的聊天机器人系统与聊天方法
CN103236260B (zh) 语音识别系统
US20160189730A1 (en) Speech separation method and system
CN108899047B (zh) 音频信号的掩蔽阈值估计方法、装置及存储介质
CN109949821B (zh) 一种利用cnn的u-net结构进行远场语音去混响的方法
Shen et al. Reinforcement learning based speech enhancement for robust speech recognition
CN111292762A (zh) 一种基于深度学习的单通道语音分离方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN111192598A (zh) 一种跳变连接深度神经网络的语音增强方法
CN114203163A (zh) 音频信号处理方法及装置
CN113192504B (zh) 一种基于域适应的无声语音攻击检测方法
CN110660406A (zh) 近距离交谈场景下双麦克风移动电话的实时语音降噪方法
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN112017682A (zh) 一种单通道语音同时降噪和去混响系统
CN111540342A (zh) 一种能量阈值调整方法、装置、设备及介质
CN110268471A (zh) 具有嵌入式降噪的asr的方法和设备
CN111883181A (zh) 音频检测方法、装置、存储介质及电子装置
CN114664288A (zh) 一种语音识别方法、装置、设备及可存储介质
Zhou et al. Environmental sound classification of western black-crowned gibbon habitat based on spectral subtraction and VGG16
CN113327589B (zh) 一种基于姿态传感器的语音活动检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210108

RJ01 Rejection of invention patent application after publication