CN110047502A - 噪声环境下层级式语音降噪识别方法及系统 - Google Patents
噪声环境下层级式语音降噪识别方法及系统 Download PDFInfo
- Publication number
- CN110047502A CN110047502A CN201910314867.7A CN201910314867A CN110047502A CN 110047502 A CN110047502 A CN 110047502A CN 201910314867 A CN201910314867 A CN 201910314867A CN 110047502 A CN110047502 A CN 110047502A
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- noise
- text
- energy value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000004568 cement Substances 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 16
- 230000009467 reduction Effects 0.000 claims description 18
- 230000002354 daily effect Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 8
- 230000003203 everyday effect Effects 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000011946 reduction process Methods 0.000 abstract description 4
- 238000002360 preparation method Methods 0.000 description 3
- 230000006854 communication Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种噪声环境下层级式语音降噪识别方法及系统,方法包括如下步骤:设置通话常用的文本,并进行文本的录入;使用设置好的文本建立文本数据库;根据文本进行纯净语音和各类噪声的录制;将纯净语音与各类噪声进行线性组合,建立语音数据库;对带噪语音进行端点检测,检测出有效语音的前端点和后端点,提取出有效语音;将有效语音通过层级式方法训练语音增强深度神经网络;有效语音经过语音增强后再提取其声学特征;使用声学特征训练声学模型;使用文本训练语言模型;利用声学模型和语言模型进行搜索得到最佳的识别结果序列。本发明通过对客户的原始语音的降噪处理,能够提高对客户原始语音的识别准确度。
Description
技术领域
本发明涉及语音识别领域,特别涉及一种噪声环境下层级式语音降噪识别方法及系统。
背景技术
目前的语音识别技术发展迅速,在实验室环境下,识别效果已经非常理想了。但是,在应用于客服语音中时,说话人的语音并不是纯净的,往往夹杂着日常生活中常见噪声,包括马路,汽车,飞机,火车,地铁,餐厅,酒吧,风声,雨声,菜市场等。在这种情况下,语音识别的效果会在很大程度上降低。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种通过对客户的原始语音的降噪处理,能够提高对客户原始语音的识别准确度的噪声环境下层级式语音降噪识别方法及系统。
本发明解决其技术问题所采用的技术方案是:构造一种噪声环境下层级式语音降噪识别方法,包括如下步骤:
A)设置通话常用的文本,并进行文本的录入;所述文本至少包含常用字、常用词语和有关货币金额类的量词;
B)使用设置好的所述文本建立文本数据库;
C)根据所述文本进行纯净语音和各类噪声的录制;
D)将所述纯净语音与各类噪声进行线性组合,建立语音数据库;
E)对带噪语音进行端点检测,检测出有效语音的前端点和后端点,提取出有效语音;
F)将所述有效语音通过层级式方法训练语音增强深度神经网络;
G)所述有效语音经过语音增强后再提取其声学特征;
H)使用所述声学特征训练声学模型;
I)使用所述文本训练语言模型;
J)利用所述声学模型和语言模型进行搜索得到最佳的识别结果序列。
在本发明所述的噪声环境下层级式语音降噪识别方法中,所述步骤D)进一步包括:
D1)对任意一句纯净语音与各类常见噪声进行线性组合;
D2)控制各类噪声的幅度的取值;
D3)使所述纯净语音和噪声的组合覆盖事先设定好的日常生活中常见的情况。
在本发明所述的噪声环境下层级式语音降噪识别方法中,所述步骤F)进一步包括:
F1)将带噪语音到纯净语音的映射按照信噪比递增的方式划分为多个阶段,每一个阶段相比前一阶段提升输入语音的信噪比;
F2)将前一个阶段的输出与当前阶段对应信噪比的原始特征输入进行拼接,作为当前阶段的输入;
F3)所述语音增强深度神经网络的所有层都学习比输入具有更高信噪比的带噪中间目标语音和纯净语音;
F4)训练完所述语音增强深度神经网络后,所有的语音都先经过所述语音增强深度神经网络实现降噪。
在本发明所述的噪声环境下层级式语音降噪识别方法中,在检测有效语音的前端点和后端点时,事先设定一个能量值阈值,在语音前面连续x帧的能量值低于所述能量值阈值,接下来的y帧的能量值大于所述能量值阈值,则认为能量值增大的地方就是前端点;若连续的x帧的能量值高于所述能量值阈值,接下来的y帧的能量值低于所述能量值阈值,则认为能量值减少的地方就是后端点;其中,所述x和y均为大于0的整数。
本发明还涉及一种实现上述噪声环境下层级式语音降噪识别方法的系统,包括:
文本设置录入单元:用于设置通话常用的文本,并进行文本的录入;所述文本至少包含常用字、常用词语和有关货币金额类的量词;
文本数据库建立单元:用于使用设置好的所述文本建立文本数据库;
录制单元:用于根据所述文本进行纯净语音和各类噪声的录制;
语音数据库建立单元:用于将所述纯净语音与各类噪声进行线性组合,建立语音数据库;
端点检测单元:用于对带噪语音进行端点检测,检测出有效语音的前端点和后端点,提取出有效语音;
训练单元:用于将所述有效语音通过层级式方法训练语音增强深度神经网络;
声学特征提取单元:用于使所述有效语音经过语音增强后再提取其声学特征;
声学模型训练单元:用于使用所述声学特征训练声学模型;
语言模型训练单元:用于使用所述文本训练语言模型;
识别结果序列搜索单元:用于利用所述声学模型和语言模型进行搜索得到最佳的识别结果序列。
在本发明所述的系统中,所述语音数据库建立单元进一步包括:
线性组合模块:用于对任意一句纯净语音与各类常见噪声进行线性组合;
幅度控制模块:用于控制各类噪声的幅度的取值;
覆盖模块:用于使所述纯净语音和噪声的组合覆盖事先设定好的日常生活中常见的情况。
在本发明所述的系统中,所述训练单元进一步包括:
阶段划分模块:用于将带噪语音到纯净语音的映射按照信噪比递增的方式划分为多个阶段,每一个阶段相比前一阶段提升输入语音的信噪比;
拼接模块:用于将前一个阶段的输出与当前阶段对应信噪比的原始特征输入进行拼接,作为当前阶段的输入;
学习模块:用于使所述语音增强深度神经网络的所有层都学习比输入具有更高信噪比的带噪中间目标语音和纯净语音;
降噪模块:用于在训练完所述语音增强深度神经网络后,所有的语音都先经过所述语音增强深度神经网络实现降噪。
在本发明所述的系统中,在检测有效语音的前端点和后端点时,事先设定一个能量值阈值,在语音前面连续x帧的能量值低于所述能量值阈值,接下来的y帧的能量值大于所述能量值阈值,则认为能量值增大的地方就是前端点;若连续的x帧的能量值高于所述能量值阈值,接下来的y帧的能量值低于所述能量值阈值,则认为能量值减少的地方就是后端点;其中,所述x和y均为大于0的整数。
实施本发明的噪声环境下层级式语音降噪识别方法及系统,具有以下有益效果:由由于录音人员根据设置好的文本进行语音以及日常生活中常见噪声的录制;建立语音数据库;语音数据库覆盖纯净语音与噪声种类及其幅度的各种线性组合;对带噪语音进行端点检测,检测出有效语音的前端点和后端点,提取有效语音;将有效语音通过层级式方法训练语音增强深度神经网络;有效语音经过语音增强后再提取其声学特征;使用声学特征训练声学模型;使用文本训练语言模型;利用声学模型和语言模型进行搜索得到最佳的识别结果序列;在与客户进行电话交流的过程中,客户方不可避免地有着各类常见噪声,因此本发明通过对客户的原始语音的降噪处理,能够提高对客户原始语音的识别准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明噪声环境下层级式语音降噪识别方法及系统一个实施例中方法的流程图;
图2为所述实施例中将纯净语音与各类噪声进行线性组合,建立语音数据库的具体流程图;
图3为所述实施例中将有效语音通过层级式方法训练语音增强深度神经网络的具体流程图;
图4为所述实施例中系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明噪声环境下层级式语音降噪识别方法及系统实施例中,其噪声环境下层级式语音降噪识别方法的流程图如图1所示。图1中,该噪声环境下层级式语音降噪识别方法包括如下步骤:
步骤S01设置通话常用的文本,并进行文本的录入:本步骤中,根据通话中的日常用语设置通话常用的文本,并进行文本的录入,该文本至少包含常用字、常用词语和有关货币金额类的量词等。
步骤S02使用设置好的文本建立文本数据库:本步骤中,使用上述步骤S01中设置好的文本建立文本数据库。
步骤S03根据文本进行纯净语音和各类噪声的录制:本步骤中,录音人员根据设置好的文本进行纯净语音和各类噪声的录制。具体而言,根据准备的文本,通过录音人员进行录制的超过3000小时的纯净语句,纯净语句至少包含常用字、常用词语、有关货币金额类的量词等语句,总计达到3000小时。并且,单一地进行生活中常见噪声的录制,至少包含马路、汽车、风声、雨声等。
步骤S04将纯净语音与各类噪声进行线性组合,建立语音数据库:本步骤中,将纯净语音与各类噪声进行线性组合以覆盖多种情况,不仅对噪声的种类进行变量控制,同时也对噪声的幅度进行控制,然后建立语音数据库。
步骤S05对带噪语音进行端点检测,检测出有效语音的前端点和后端点,提取出有效语音:本步骤中,对带噪语音(含噪声的语音)进行端点检测,检测出有效语音的前端点和后端点,然后提取出有效语音。该有效语音也是带噪声的语音。
值得一提的是,本步骤中,当对有效语音的前端点和后端点进行检测时,事先设定一个能量值阈值,在语音前面连续x帧的能量值低于能量值阈值,接下来的y帧的能量值大于能量值阈值,则认为能量值增大的地方就是前端点;若连续的x帧的能量值高于能量值阈值,接下来的y帧的能量值低于能量值阈值,则认为能量值减少的地方就是后端点;其中,x和y均为大于0的整数。
步骤S06将有效语音通过层级式方法训练语音增强深度神经网络:本步骤中,对于经过端点检测后提取的有效语音,将该有效语音通过层级式方法训练语音增强深度神经网络。
步骤S07有效语音经过语音增强后再提取其声学特征:本步骤中,有效语音经过语音增强后,提取其声学特征mfcc。
步骤S08使用声学特征训练声学模型:本步骤中,使用提取的声学特征mfcc训练声学模型,具体就是基于DNN-HMM对语音的声学特征mfcc的后验概率进行建模。
步骤S09使用文本训练语言模型:本步骤中,使用文本训练语言模型,具体是通过计算最大似然估计构造语言模型。
步骤S10利用声学模型和语言模型进行搜索得到最佳的识别结果序列:本步骤中,具体的,将原始语音经过端点检测、语音增强等预处理后,提取声学特征mfcc输入到声学模型,而后语言模型根据声学模型输出的结果,给出概率最大的文字序列,即得到最佳的识别结果序列。本发明的声环境下层级式语音降噪识别方法通过对客户的原始语音的降噪处理,能够提高对客户原始语音的识别准确度。
对于本实施例而言,上述步骤S04还可进一步细化,其细化后的流程图如图2所示。图2中,上述步骤S04进一步包括如下步骤:
步骤S41对任意一句纯净语音与各类常见噪声进行线性组合:本步骤中,对任意一句纯净语音与各类常见噪声进行线性组合,具体是对每一句纯净语音叠加1至n种常见噪声,n为大于1的整数。
步骤S42控制各类噪声的幅度的取值:本步骤中,若噪声的种类完全相同,但其中有噪声的幅度不同,视为两种不同的情形,通过控制单一噪声的幅度,叠加出更多的情况。
步骤S43使纯净语音和噪声的组合覆盖事先设定好的日常生活中常见的情况:本步骤中,通过上述步骤S41和步骤S42,使纯净语音和噪声的组合覆盖事先设定好的日常生活中常见的情况,也就是使带噪语音覆盖日常生活中的常见情况。
对于本实施例而言,上述步骤S06还可以进一步细化,其细化后的流程图如图3所示。图3中,该步骤S06进一步包括如下步骤:
步骤S61将带噪语音到纯净语音的映射按照信噪比递增的方式划分为多个阶段,每一个阶段相比前一阶段提升输入语音的信噪比:根据语音的时序性特点,选取ConvLSTM作为神经网络结构,该结构将上一层的输出作为下一层的输入,充分利用语音的上下文信息,得到时序关系,其卷积操作也能够提取一定的语音特征,有利于后续的网络学习。本步骤中,将带噪语音到纯净语音的映射按照信噪比递增的方式划分为多个阶段,每一个阶段的输入语音的信噪比都比前一阶段的高,具体而言,就是对于语音增强深度神经网络的每一层来说,低层的输入语音的信噪比都比高层的输入语音的信噪比低。
步骤S62将前一个阶段的输出与当前阶段对应信噪比的原始特征输入进行拼接,作为当前阶段的输入:本步骤中,对于语音增强深度神经网络的每一层而言,当前层的输入为前一层的输出与原始特征输入的拼接,以减少信息的损失。
步骤S63语音增强深度神经网络的所有层都学习比输入具有更高信噪比的带噪中间目标语音和纯净语音:神经网络是以有效带噪语音的特征为输入,以比输入具有更高信噪比的带噪语音为中间学习目标,以纯净语音的特征为最终学习目标。本步骤中,语音增强深度神经网络的所有层都被要求学习比输入具有更高信噪比的带噪中间目标语音和纯净语音。以均方对数损失为损失函数,通过BPTT算法对网络参数进行训练更新。
步骤S64训练完语音增强深度神经网络后,所有的语音都先经过语音增强深度神经网络实现降噪:本步骤中,训练完语音增强深度神经网络后,所有的语音都先经过该语音增强深度神经网络,就能有效地实现降噪。通过上述步骤S61至步骤S64,将有效语音按照信噪比递增的方式分阶段;利用每个阶段的带噪语音通过层级式方法训练一个语音增强深度神经网络。
本实施例还涉及一种实现上述噪声环境下层级式语音降噪识别方法的系统,该系统的结构示意图如图4所示。图4中,该系统包括文本设置录入单元1、文本数据库建立单元2、录制单元3、语音数据库建立单元4、端点检测单元5、训练单元6、声学特征提取单元7、声学模型训练单元8、语言模型训练单元9和识别结果序列搜索单元10。
其中,文本设置录入单元1用于设置通话常用的文本,并进行文本的录入;文本至少包含常用字、常用词语和有关货币金额类的量词;文本数据库建立单元2用于使用设置好的文本建立文本数据库;录制单元3用于根据文本进行纯净语音和各类噪声的录制;语音数据库建立单元4用于将纯净语音与各类噪声进行线性组合,建立语音数据库。
端点检测单元5用于对带噪语音进行端点检测,检测出有效语音的前端点和后端点,提取出有效语音;当对有效语音的前端点和后端点进行检测时,事先设定一个能量值阈值,在语音前面连续x帧的能量值低于能量值阈值,接下来的y帧的能量值大于能量值阈值,则认为能量值增大的地方就是前端点;若连续的x帧的能量值高于能量值阈值,接下来的y帧的能量值低于能量值阈值,则认为能量值减少的地方就是后端点;其中,x和y均为大于0的整数。
训练单元6用于将有效语音通过层级式方法训练语音增强深度神经网络;声学特征提取单元7用于使有效语音经过语音增强后再提取其声学特征mfcc;声学模型训练单元8用于使用声学特征mfcc训练声学模型;语言模型训练单元9用于使用文本训练语言模型;识别结果序列搜索单元10用于利用声学模型和语言模型进行搜索得到最佳的识别结果序列。本发明的系统通过对客户的原始语音的降噪处理,能够提高对客户原始语音的识别准确度。
本实施例中,语音数据库建立单元4进一步包括线性组合模块41、幅度控制模块42和覆盖模块43;其中,线性组合模块41用于对任意一句纯净语音与各类常见噪声进行线性组合;幅度控制模块42用于控制各类噪声的幅度的取值;覆盖模块43用于使纯净语音和噪声的组合覆盖事先设定好的日常生活中常见的情况。
本实施例中,训练单元6进一步包括阶段划分模块61、拼接模块62、学习模块63和降噪模块64;其中,阶段划分模块61用于将带噪语音到纯净语音的映射按照信噪比递增的方式划分为多个阶段,每一个阶段相比前一阶段提升输入语音的信噪比;拼接模块62用于将前一个阶段的输出与当前阶段对应信噪比的原始特征输入进行拼接,作为当前阶段的输入;学习模块63用于使语音增强深度神经网络的所有层都学习比输入具有更高信噪比的带噪中间目标语音和纯净语音;降噪模块64用于在训练完语音增强深度神经网络后,所有的语音都先经过语音增强深度神经网络实现降噪。
总之,本发明根据特定准备的文本,通过录音人员进行录制的超过3000句小时的语句,同时录制生活中常见的单一噪声,使二者线性组合建立语音数据库。首先对每句语音进行端点检测得出有效语音,用有效语音和纯净语音的映射通过层级式方法训练语音增强深度神经网络,继而相应地训练声学模型和语言模型,最后利用所训练的声学模型和语言模型搜索得到最佳的识别结果。本发明能够有效地降低通话过程中常见的日常生活噪声对识别语音的影响,使得对说话人的语音识别更加准确。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种噪声环境下层级式语音降噪识别方法,其特征在于,包括如下步骤:
A)设置通话常用的文本,并进行文本的录入;所述文本至少包含常用字、常用词语和有关货币金额类的量词;
B)使用设置好的所述文本建立文本数据库;
C)根据所述文本进行纯净语音和各类噪声的录制;
D)将所述纯净语音与各类噪声进行线性组合,建立语音数据库;
E)对带噪语音进行端点检测,检测出有效语音的前端点和后端点,提取出有效语音;
F)将所述有效语音通过层级式方法训练语音增强深度神经网络;
G)所述有效语音经过语音增强后再提取其声学特征;
H)使用所述声学特征训练声学模型;
I)使用所述文本训练语言模型;
J)利用所述声学模型和语言模型进行搜索得到最佳的识别结果序列。
2.根据权利要求1所述的噪声环境下层级式语音降噪识别方法,其特征在于,所述步骤D)进一步包括:
D1)对任意一句纯净语音与各类常见噪声进行线性组合;
D2)控制各类噪声的幅度的取值;
D3)使所述纯净语音和噪声的组合覆盖事先设定好的日常生活中常见的情况。
3.根据权利要求1或2所述的噪声环境下层级式语音降噪识别方法,其特征在于,所述步骤F)进一步包括:
F1)将带噪语音到纯净语音的映射按照信噪比递增的方式划分为多个阶段,每一个阶段相比前一阶段提升输入语音的信噪比;
F2)将前一个阶段的输出与当前阶段对应信噪比的原始特征输入进行拼接,作为当前阶段的输入;
F3)所述语音增强深度神经网络的所有层都学习比输入具有更高信噪比的带噪中间目标语音和纯净语音;
F4)训练完所述语音增强深度神经网络后,所有的语音都先经过所述语音增强深度神经网络实现降噪。
4.根据权利要求1所述的噪声环境下层级式语音降噪识别方法,其特征在于,在检测有效语音的前端点和后端点时,事先设定一个能量值阈值,在语音前面连续x帧的能量值低于所述能量值阈值,接下来的y帧的能量值大于所述能量值阈值,则认为能量值增大的地方就是前端点;若连续的x帧的能量值高于所述能量值阈值,接下来的y帧的能量值低于所述能量值阈值,则认为能量值减少的地方就是后端点;其中,所述x和y均为大于0的整数。
5.一种实现如权利要求1所述的噪声环境下层级式语音降噪识别方法的系统,其特征在于,包括:
文本设置录入单元:用于设置通话常用的文本,并进行文本的录入;所述文本至少包含常用字、常用词语和有关货币金额类的量词;
文本数据库建立单元:用于使用设置好的所述文本建立文本数据库;
录制单元:用于根据所述文本进行纯净语音和各类噪声的录制;
语音数据库建立单元:用于将所述纯净语音与各类噪声进行线性组合,建立语音数据库;
端点检测单元:用于对带噪语音进行端点检测,检测出有效语音的前端点和后端点,提取出有效语音;
训练单元:用于将所述有效语音通过层级式方法训练语音增强深度神经网络;
声学特征提取单元:用于使所述有效语音经过语音增强后再提取其声学特征;
声学模型训练单元:用于使用所述声学特征训练声学模型;
语言模型训练单元:用于使用所述文本训练语言模型;
识别结果序列搜索单元:用于利用所述声学模型和语言模型进行搜索得到最佳的识别结果序列。
6.根据权利要求5所述的系统,其特征在于,所述语音数据库建立单元进一步包括:
线性组合模块:用于对任意一句纯净语音与各类常见噪声进行线性组合;
幅度控制模块:用于控制各类噪声的幅度的取值;
覆盖模块:用于使所述纯净语音和噪声的组合覆盖事先设定好的日常生活中常见的情况。
7.根据权利要求5或6所述的系统,其特征在于,所述训练单元进一步包括:
阶段划分模块:用于将带噪语音到纯净语音的映射按照信噪比递增的方式划分为多个阶段,每一个阶段相比前一阶段提升输入语音的信噪比;
拼接模块:用于将前一个阶段的输出与当前阶段对应信噪比的原始特征输入进行拼接,作为当前阶段的输入;
学习模块:用于使所述语音增强深度神经网络的所有层都学习比输入具有更高信噪比的带噪中间目标语音和纯净语音;
降噪模块:用于在训练完所述语音增强深度神经网络后,所有的语音都先经过所述语音增强深度神经网络实现降噪。
8.根据权利要求5所述的系统,其特征在于,在检测有效语音的前端点和后端点时,事先设定一个能量值阈值,在语音前面连续x帧的能量值低于所述能量值阈值,接下来的y帧的能量值大于所述能量值阈值,则认为能量值增大的地方就是前端点;若连续的x帧的能量值高于所述能量值阈值,接下来的y帧的能量值低于所述能量值阈值,则认为能量值减少的地方就是后端点;其中,所述x和y均为大于0的整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910314867.7A CN110047502A (zh) | 2019-04-18 | 2019-04-18 | 噪声环境下层级式语音降噪识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910314867.7A CN110047502A (zh) | 2019-04-18 | 2019-04-18 | 噪声环境下层级式语音降噪识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110047502A true CN110047502A (zh) | 2019-07-23 |
Family
ID=67277812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910314867.7A Pending CN110047502A (zh) | 2019-04-18 | 2019-04-18 | 噪声环境下层级式语音降噪识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110047502A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110875050A (zh) * | 2020-01-17 | 2020-03-10 | 深圳亿智时代科技有限公司 | 用于真实场景的语音数据收集方法、装置、设备及介质 |
CN111081266A (zh) * | 2019-12-18 | 2020-04-28 | 暗物智能科技(广州)有限公司 | 一种训练生成对抗网络、语音增强方法及系统 |
CN111951796A (zh) * | 2020-08-19 | 2020-11-17 | 北京达佳互联信息技术有限公司 | 语音识别方法及装置、电子设备、存储介质 |
CN112992170A (zh) * | 2021-01-29 | 2021-06-18 | 青岛海尔科技有限公司 | 模型训练方法及装置、存储介质及电子装置 |
CN116580708A (zh) * | 2023-05-30 | 2023-08-11 | 中国人民解放军61623部队 | 一种智能语音处理方法和系统 |
CN116778913A (zh) * | 2023-08-25 | 2023-09-19 | 澳克多普有限公司 | 一种增强噪声鲁棒性的语音识别方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967920A (zh) * | 2017-11-23 | 2018-04-27 | 哈尔滨理工大学 | 一种改进的自编码神经网络语音增强算法 |
CN109360554A (zh) * | 2018-12-10 | 2019-02-19 | 广东潮庭集团有限公司 | 一种基于语深度神经网络的语言识别方法 |
CN109378010A (zh) * | 2018-10-29 | 2019-02-22 | 珠海格力电器股份有限公司 | 神经网络模型的训练方法、语音去噪方法及装置 |
CN109410914A (zh) * | 2018-08-28 | 2019-03-01 | 江西师范大学 | 一种赣方言语音和方言点识别方法 |
CN109616100A (zh) * | 2019-01-03 | 2019-04-12 | 百度在线网络技术(北京)有限公司 | 语音识别模型的生成方法及其装置 |
CN110767244A (zh) * | 2018-07-25 | 2020-02-07 | 中国科学技术大学 | 语音增强方法 |
-
2019
- 2019-04-18 CN CN201910314867.7A patent/CN110047502A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967920A (zh) * | 2017-11-23 | 2018-04-27 | 哈尔滨理工大学 | 一种改进的自编码神经网络语音增强算法 |
CN110767244A (zh) * | 2018-07-25 | 2020-02-07 | 中国科学技术大学 | 语音增强方法 |
CN109410914A (zh) * | 2018-08-28 | 2019-03-01 | 江西师范大学 | 一种赣方言语音和方言点识别方法 |
CN109378010A (zh) * | 2018-10-29 | 2019-02-22 | 珠海格力电器股份有限公司 | 神经网络模型的训练方法、语音去噪方法及装置 |
CN109360554A (zh) * | 2018-12-10 | 2019-02-19 | 广东潮庭集团有限公司 | 一种基于语深度神经网络的语言识别方法 |
CN109616100A (zh) * | 2019-01-03 | 2019-04-12 | 百度在线网络技术(北京)有限公司 | 语音识别模型的生成方法及其装置 |
Non-Patent Citations (2)
Title |
---|
SALT0317: "VAD", 《HTTPS://BLOG.CSDN.NET/SALT0317/ARTICLE/DETAILS/89306691》 * |
高天: "复杂环境下基于深度学习的语音信号预处理方法研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111081266A (zh) * | 2019-12-18 | 2020-04-28 | 暗物智能科技(广州)有限公司 | 一种训练生成对抗网络、语音增强方法及系统 |
CN110875050A (zh) * | 2020-01-17 | 2020-03-10 | 深圳亿智时代科技有限公司 | 用于真实场景的语音数据收集方法、装置、设备及介质 |
CN111951796A (zh) * | 2020-08-19 | 2020-11-17 | 北京达佳互联信息技术有限公司 | 语音识别方法及装置、电子设备、存储介质 |
CN111951796B (zh) * | 2020-08-19 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 语音识别方法及装置、电子设备、存储介质 |
CN112992170A (zh) * | 2021-01-29 | 2021-06-18 | 青岛海尔科技有限公司 | 模型训练方法及装置、存储介质及电子装置 |
CN112992170B (zh) * | 2021-01-29 | 2022-10-28 | 青岛海尔科技有限公司 | 模型训练方法及装置、存储介质及电子装置 |
CN116580708A (zh) * | 2023-05-30 | 2023-08-11 | 中国人民解放军61623部队 | 一种智能语音处理方法和系统 |
CN116778913A (zh) * | 2023-08-25 | 2023-09-19 | 澳克多普有限公司 | 一种增强噪声鲁棒性的语音识别方法和系统 |
CN116778913B (zh) * | 2023-08-25 | 2023-10-20 | 澳克多普有限公司 | 一种增强噪声鲁棒性的语音识别方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047502A (zh) | 噪声环境下层级式语音降噪识别方法及系统 | |
CN103928023B (zh) | 一种语音评分方法及系统 | |
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
CN101064104B (zh) | 基于语音转换的情感语音生成方法 | |
CN109036465B (zh) | 语音情感识别方法 | |
CN107146624B (zh) | 一种说话人确认方法及装置 | |
Schuller et al. | Emotion recognition in the noise applying large acoustic feature sets | |
CN101346758B (zh) | 感情识别装置 | |
CN108806667A (zh) | 基于神经网络的语音与情绪的同步识别方法 | |
CN106504768B (zh) | 基于人工智能的电话拨测音频分类方法及装置 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN108899047B (zh) | 音频信号的掩蔽阈值估计方法、装置及存储介质 | |
CN107146601A (zh) | 一种用于说话人识别系统的后端i‑vector增强方法 | |
CN109119072A (zh) | 基于dnn-hmm的民航陆空通话声学模型构建方法 | |
KR20070098094A (ko) | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN109036467A (zh) | 基于tf-lstm的cffd提取方法、语音情感识别方法及系统 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
Maheswari et al. | A hybrid model of neural network approach for speaker independent word recognition | |
Ahsiah et al. | Tajweed checking system to support recitation | |
KR20220090171A (ko) | 음성 인식 장치, 프로그램 및 그것의 학습 제어 방법 | |
Sekkate et al. | Speaker identification for OFDM-based aeronautical communication system | |
CN114944150A (zh) | 一种基于双任务的Conformer陆空通话声学模型构建方法 | |
Wu et al. | Neural network vowel-recognition jointly using voice features and mouth shape image | |
Li | Divination engines: A media history of text prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |