CN112201265A - 一种基于心理声学模型的lstm语音增强方法 - Google Patents
一种基于心理声学模型的lstm语音增强方法 Download PDFInfo
- Publication number
- CN112201265A CN112201265A CN202011418803.0A CN202011418803A CN112201265A CN 112201265 A CN112201265 A CN 112201265A CN 202011418803 A CN202011418803 A CN 202011418803A CN 112201265 A CN112201265 A CN 112201265A
- Authority
- CN
- China
- Prior art keywords
- signal
- voice
- lstm
- processing
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000001228 spectrum Methods 0.000 claims description 16
- 230000000873 masking effect Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 3
- 230000006870 function Effects 0.000 description 6
- 210000005069 ears Anatomy 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- QVRVXSZKCXFBTE-UHFFFAOYSA-N n-[4-(6,7-dimethoxy-3,4-dihydro-1h-isoquinolin-2-yl)butyl]-2-(2-fluoroethoxy)-5-methylbenzamide Chemical compound C1C=2C=C(OC)C(OC)=CC=2CCN1CCCCNC(=O)C1=CC(C)=CC=C1OCCF QVRVXSZKCXFBTE-UHFFFAOYSA-N 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种基于心理声学模型的LSTM语音增强方法,包括以下步骤:S1.对输入的PCM信号进行VAD处理,判断其是否为语音信号;S2.如是语音信号,对语音信号进行特征处理,得到特征信号;S3.将特征信号经过心理声学模型处理,得到声学特征信号;S4.将声学特征信号经过LSTM网络处理,得到增强语音信号;S5.对增强语音信号做ASR处理,实现语音识别。本发明方案利用心理声学模型对带噪信号进行处理,消除冗余成分,降低网络的数据处理量;同时,相较于全连接的语音增强网络,本发明方案采用的LSTM网络可联系上下文信息,进一步提升语音的增强性能,从而提升语音识别率。
Description
技术领域
本发明属于语音增强技术领域,涉及语音识别系统中语音信号的增强技术,具体涉及一种基于心理声学模型的LSTM语音增强方法。
背景技术
随着人工智能技术的不断发展,ASR技术的应用也日益广泛,语音识别率的提升是智能语音技术领域的核心。语音增强技术,作为语音识别中的关键一环,一直备受关注。将深度学习(Deep Learning,DL)应用在语音增强领域是近年来的研究热点。譬如,基于全连接网络的语音增强方法,能够有效提升带噪语音信号的信噪比且结构简单。但是单个的全连接网络并未充分利用语音信号帧与帧之间的强相关性,因此采用LSTM可有效利用信号的上下文信息,进一步提升语音信号的增强性能。
同时,由于人耳的感知特性,语音信号很多冗余信息并不能被感知。因此,利用基于人耳感知特性构建的心理声学模型对语音信号进行处理,可有效降低信号中的冗余成分。为后续的基于LSTM的语音增强网络降低数据处理量,为语音识别降低干扰成分,从而提升语音增强的性能,提高语音的识别率。
发明内容
为更好的利用人工智能技术进行语音信号识别,本发明公开了一种基于心理声学模型的LSTM语音增强方法。
本发明所述基于心理声学模型的LSTM语音增强方法,包括以下步骤:
S1.对输入的PCM信号进行VAD处理,判断其是否为语音信号;
S2.如是语音信号,对语音信号进行特征处理,得到特征信号;
S3.将特征信号经过心理声学模型处理,得到声学特征信号;
S4.将声学特征信号经过LSTM网络处理,得到增强语音信号;
S5.对增强语音信号做ASR处理,实现语音识别。
优选的,所述步骤S2具体包括以下步骤:
优选的,所述步骤S3包括以下子步骤:
采用本发明所述基于心理声学模型的LSTM语音增强方法,利用心理声学模型对语音信号进行处理,将人耳不能感知的信号过滤,从而降低网络的输入数据量,提高网络的处理效率;同时,为充分利用语音信号中的上下文信息,本发明采用LSTM网络做语音的增强处理,提高语音信号信噪比,进一步提升语音识别的准确率。
附图说明
图1为本发明所述基于心理声学模型的LSTM语音增强方法一个具体实施方式示意图;
图2为本发明所述LSTM网络的一个具体实施方式结构示意图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述基于心理声学模型的LSTM语音增强方法,包括以下步骤:
S1.对输入的PCM信号进行VAD处理,判断其是否为语音信号;
S2.如是语音信号,对语音信号进行特征处理,得到特征信号;
S3.将特征信号经过心理声学模型处理,得到声学特征信号;
S4.将声学特征信号经过LSTM网络处理,得到增强语音信号;
S5.对增强语音信号做ASR处理,实现语音识别。
步骤S1.对输入的PCM (Pulse Code Modulation, 脉冲编码调制) 信号进行语音活动检测 (Voice Activity Detection, VAD) 处理,判断其是否为语音信号;
其中PCM信号为实时采集的信号,经过VAD处理后,若判断为音频信号则进行后续处理,若不为音频信号则终止。
S2.对判断为音频信号的PCM语音信号进行特征处理,得到特征信号;具体地,在本申请的实施例中所述步骤S2包括以下子步骤:
S201.对输入的PCM语音信号进行加窗处理:窗函数平滑的在语音信号上滑动,将PCM语音信号分帧,得到帧长度为的语音帧信号,其中,为窗函数,为时间索引;的数量由语音信号长度决定,最后如不足一帧的会在空缺处补0凑齐一帧。
S3.将特征信号经过心理声学模型处理,得到声学特征信号;
心理声学模型是一种模拟人耳滤波器的声学模型,将人耳不能感知的信号过滤掉,从而降低处理的数据量;与其他声学模型如基于隐马尔科夫模型等用于语音识别的模型不同,心理声学模型包括绝对掩蔽阈值曲线、临界频带和掩蔽效应等的计算,着重模拟人耳听音过程,而隐马尔科夫模型是着重模拟声带发声过程的声学模型。
具体地,在所述步骤S3可以包括以下子步骤:
通过心理声学模型计算得到全局掩蔽阈值曲线在上述频点的对应全局掩蔽阈值:
S4.将声学特征信号经过长短期记忆网络 (Long Short-Term Memory,LSTM)处理,得到增强语音信号;LSTM网络可进一步提升语音的增强性能。
具体地,在本申请的实施例中所述的LSTM网络为离线训练成熟的网络,LSTM网络在训练过程中,网络的输入信号为经心理声学模型处理后的带噪语音特征信号,目标信号为经心理声学模型处理后的纯净语音特征信号。
纯净语音特征信号是通过纯净语音信号处理得到的,纯净语音信号通常是在安静环境即人耳感知不到环境噪声的环境下采集得到的;所述的带噪语音特征信号是通过带噪语音信号处理得到的,带噪语音信号是在噪声环境即人耳能明显感知到环境噪声的环境下采集得到的。
具体地,如图2所示给出一个现有技术下典型的LSTM网络,在本申请的实施的步骤
S4中所述的LSTM网络输入信号的长度为,输出状态和cell状态的长度均为,
初始化为0;输出状态经过一个全连接网络处理得到LSTM网络的输出信号作为增强语音
信号,其长度为;图2中、、、的下标为LSTM单元的序号,表示实数集,其上
标为表征的向量的维度,表示零集,为LSTM单元的总数,如
S5.对增强语音信号做ASR (Automatic Speech Recognition, 自动化识别)处理处理,实现语音识别。
与传统的语音增强网络相比,本发明方案利用心理声学模型对带噪信号进行处理,消除冗余成分,降低网络的数据处理量;同时,相较于全连接的语音增强网络,本发明方案采用的LSTM网络可联系上下文信息,进一步提升语音的增强性能,从而提升语音识别率。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (4)
1.一种基于心理声学模型的LSTM语音增强方法,其特征在于:包括以下步骤:
S1.对输入的PCM信号进行VAD处理,判断其是否为语音信号;
S2.如是语音信号,对语音信号进行特征处理,得到特征信号;
S3.将特征信号经过心理声学模型处理,得到声学特征信号;
S4.将声学特征信号经过LSTM网络处理,得到增强语音信号;
S5.对增强语音信号做ASR处理,实现语音识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011418803.0A CN112201265A (zh) | 2020-12-07 | 2020-12-07 | 一种基于心理声学模型的lstm语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011418803.0A CN112201265A (zh) | 2020-12-07 | 2020-12-07 | 一种基于心理声学模型的lstm语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112201265A true CN112201265A (zh) | 2021-01-08 |
Family
ID=74034512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011418803.0A Pending CN112201265A (zh) | 2020-12-07 | 2020-12-07 | 一种基于心理声学模型的lstm语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112201265A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103531204A (zh) * | 2013-10-11 | 2014-01-22 | 深港产学研基地 | 语音增强方法 |
CN105869652A (zh) * | 2015-01-21 | 2016-08-17 | 北京大学深圳研究院 | 心理声学模型计算方法和装置 |
CN109087669A (zh) * | 2018-10-23 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 音频相似度检测方法、装置、存储介质及计算机设备 |
CN109671446A (zh) * | 2019-02-20 | 2019-04-23 | 西华大学 | 一种基于绝对听觉阈值的深度学习语音增强方法 |
CN109817229A (zh) * | 2019-03-14 | 2019-05-28 | 西华大学 | 叠加特征信息辅助的单比特音频压缩传输与重构方法 |
CN110415686A (zh) * | 2019-05-21 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、介质、电子设备 |
-
2020
- 2020-12-07 CN CN202011418803.0A patent/CN112201265A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103531204A (zh) * | 2013-10-11 | 2014-01-22 | 深港产学研基地 | 语音增强方法 |
CN105869652A (zh) * | 2015-01-21 | 2016-08-17 | 北京大学深圳研究院 | 心理声学模型计算方法和装置 |
CN109087669A (zh) * | 2018-10-23 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 音频相似度检测方法、装置、存储介质及计算机设备 |
CN109671446A (zh) * | 2019-02-20 | 2019-04-23 | 西华大学 | 一种基于绝对听觉阈值的深度学习语音增强方法 |
CN109817229A (zh) * | 2019-03-14 | 2019-05-28 | 西华大学 | 叠加特征信息辅助的单比特音频压缩传输与重构方法 |
CN110415686A (zh) * | 2019-05-21 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、介质、电子设备 |
Non-Patent Citations (1)
Title |
---|
朱丽 等: "心理声学模型在数字音频中的应用", 《电声技术》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109859767B (zh) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 | |
CN107452389B (zh) | 一种通用的单声道实时降噪方法 | |
CN110600018B (zh) | 语音识别方法及装置、神经网络训练方法及装置 | |
WO2021042870A1 (zh) | 语音处理的方法、装置、电子设备及计算机可读存储介质 | |
Tan et al. | Real-time speech enhancement using an efficient convolutional recurrent network for dual-microphone mobile phones in close-talk scenarios | |
CN107329996B (zh) | 一种基于模糊神经网络的聊天机器人系统与聊天方法 | |
CN103236260B (zh) | 语音识别系统 | |
US20160189730A1 (en) | Speech separation method and system | |
CN108899047B (zh) | 音频信号的掩蔽阈值估计方法、装置及存储介质 | |
CN109949821B (zh) | 一种利用cnn的u-net结构进行远场语音去混响的方法 | |
Shen et al. | Reinforcement learning based speech enhancement for robust speech recognition | |
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN111192598A (zh) | 一种跳变连接深度神经网络的语音增强方法 | |
CN114203163A (zh) | 音频信号处理方法及装置 | |
CN113192504B (zh) | 一种基于域适应的无声语音攻击检测方法 | |
CN110660406A (zh) | 近距离交谈场景下双麦克风移动电话的实时语音降噪方法 | |
CN103021405A (zh) | 基于music和调制谱滤波的语音信号动态特征提取方法 | |
CN112017682A (zh) | 一种单通道语音同时降噪和去混响系统 | |
CN111540342A (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN110268471A (zh) | 具有嵌入式降噪的asr的方法和设备 | |
CN111883181A (zh) | 音频检测方法、装置、存储介质及电子装置 | |
CN114664288A (zh) | 一种语音识别方法、装置、设备及可存储介质 | |
Zhou et al. | Environmental sound classification of western black-crowned gibbon habitat based on spectral subtraction and VGG16 | |
CN113327589B (zh) | 一种基于姿态传感器的语音活动检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210108 |
|
RJ01 | Rejection of invention patent application after publication |