CN108831440A - 一种基于机器学习及深度学习的声纹降噪方法及系统 - Google Patents
一种基于机器学习及深度学习的声纹降噪方法及系统 Download PDFInfo
- Publication number
- CN108831440A CN108831440A CN201810375197.5A CN201810375197A CN108831440A CN 108831440 A CN108831440 A CN 108831440A CN 201810375197 A CN201810375197 A CN 201810375197A CN 108831440 A CN108831440 A CN 108831440A
- Authority
- CN
- China
- Prior art keywords
- voice
- vocal print
- module
- deep learning
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001755 vocal effect Effects 0.000 title claims abstract description 70
- 238000010801 machine learning Methods 0.000 title claims abstract description 53
- 238000013135 deep learning Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 238000013136 deep learning model Methods 0.000 claims abstract description 23
- 230000009467 reduction Effects 0.000 claims abstract description 21
- 238000001914 filtration Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 9
- 239000004568 cement Substances 0.000 claims description 12
- 230000001419 dependent effect Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000011946 reduction process Methods 0.000 claims description 10
- 230000004069 differentiation Effects 0.000 claims description 6
- 241000196324 Embryophyta Species 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000009191 jumping Effects 0.000 claims 4
- 239000000284 extract Substances 0.000 claims 1
- 230000008569 process Effects 0.000 description 6
- 238000013480 data collection Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于机器学习及深度学习的声纹降噪方法及系统。所述方法包括:采集野外地质工作环境下的环境音样品,对深度学习模型进行大量反复训练,获得训练好的深度语音学习模型。获取特定人说话音频,通过深度语音学习模型进行识别,将音频中的环境音过滤,判断过滤后的语音是否合格,得到经过初步筛查的语音,将初步筛查之后的语音与特定人声纹识别模型进行对比提取,进行降噪,判断降噪后的语音是否纯净,对声纹降噪后的语音进行增强,判断语音是否清晰,之后录入到语音输入系统。本发明能够解决野外地学数据采集时各种嘈杂噪声和环境音干扰情况下导致语音不纯,难以被语音文字识别软件准确识别出文字信息的问题,实现用语音文字识别方式的数据采集,提高野外地学数据采集的效率与准确性。
Description
技术领域
本发明属于语音文字识别及声纹降噪领域,涉及到一种基于机器学习及深度学习的声纹降噪方法及系统。
背景技术
地学数据采集过程中的智慧化是建设地学大数据中的一个基础环节,在地质生产的实际过程中占据重要地位。其中地质工作者在野外对地质对象观察和描述的调查数据的采集是重要的组成部分。为了支持地质工作者在野外快速采集观测到的地学数据,以往的地学数据采集系统都很重视数据录入的高效性和便捷性,但传统的文字键盘输入方式在野外条件下,效率低下,可操作性差。为了提高数据输入效率,采用了语音录入和文字识别系统,以期提高数据采集效率。使用中发现在野外使用语音录入系统时,可能存在风声、雨声、动物声等,又或是在钻探现场、采矿场或是油气开采环境下,存在着大量运作的机器噪声,这些噪音跟人声音混合在一起,会大大降低当前语音文字识别系统的文字识别正确率,从而导致当前野外地学数据采集语音录入和文字识别的准确率极低。由于这个问题,使得目前的地学数据采集系统在特殊地质工作环境下的操作效率低,可用性差。
发明内容
针对上述缺点,急需一种尽可能多地去除掉在野外地质工作环境下语音录入时的环境杂音,为提高后期语音文字识别准确率奠定基础的语音录入降噪处理技术。本发明提供了一种基于机器学习及深度学习的声纹降噪方法,用于提野外语音方式采集地学数据时背景噪音大,有效语音难以准确识别的技术难题,包括如下步骤:
S1、获取特定人在野外实地工作环境中对地质现象和地质认识描述的说话音频;
S2、将步骤S1获取的所述说话音频通过机器学习及深度学习模型进行学习,对说话音频中夹杂的环境音进行识别区分;
S3、将步骤S2中得到的识别过的语音进行过滤,剔除掉该语音中不属于所述特定人说话音频的环境音,得到经过初步筛查的语音;
S4、判断初步筛查的语音信噪比是否达到预设的阈值,若否,则跳转步骤S3,若是,则继续步骤S5;
S5、将步骤S4所述语音与该人声纹识别模型进行对比提取,保留与该人声纹识别模型相符合的语音频率及语谱图像,剔除掉与该人声纹识别模型不符合的语音,得到声纹降噪处理的语音;
S6、判断声纹降噪处理后的语音中的人声纹纯净度是否达到预设的阈值,若否,则跳转步骤S5,若是,则继续步骤S7;
S7、对步骤S6所述声纹降噪后的语音进行增强;
S8、判断经过增强的语音清晰度是否达到预设的阈值,若否,则跳转步骤S7,若是则继续S9;
S9、将步骤S8中获得的结果语音输出到语音文字识别系统,完成后续处理。
在本发明基于机器学习及深度学习的声纹降噪方法中,在步骤S1之前还包括建立机器学习及深度学习模型,具体为,获取大量人说话音频的语音,将语音全部都转换成为波谱图并导入到计算机中,对机器学习及深度学习模型进行大量反复训练,机器学习及深度学习识别区分人说话音频中夹杂的环境音,从而获得训练好的机器学习及深度学习模型。
在本发明基于机器学习及深度学习的声纹降噪方法中,在步骤S5之前还包括建立特定说话人的人声纹识别模型,具体为用已有的该特定说话人的声纹建立声纹语谱图,进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型,经过大量该人声纹数据的反复训练,得到一个声纹识别率高的该人的声纹识别模型。
根据本发明的另一方面,本发明为解决其技术问题,提供了一种基于机器学习及深度学习的声纹降噪系统,包含如下模块:
初始化模块,用于获取特定人在野外实地工作环境中对地质现象和地质认识描述的说话音频;
机器学习及深度学习处理识别模块,用于将初始化模块中获取的所述说话音频通过机器学习及深度学习模型分别进行学习,对说话音频中夹杂的环境音进行识别区分;
语音过滤模块,用于将机器学习及深度学习处理识别模块得到的识别过的语音进行过滤,剔除掉该语音中不属于所述特定人说话音频的环境音,得到经过初步筛查的语音;
语音过滤判断模块,用于判断过滤后的语音信噪比是否达到预设的阈值,若否,则跳转语音过滤模块,若是,则继续声纹提取模块;
声纹对比提取模块,用于将过滤判断模块中获得的语音与该人声纹识别模型进行对比提取,保留与该人声纹识别模型相符合的语音频率及语谱图像,剔除掉与该人声纹识别模型不符合的语音,得到声纹降噪处理的语音;
语音纯净度判断模块:用于判断提取的人声纹纯净度是否达到预设的阈值,若否,则跳转声纹提取模块,若是,则进行语音增强模块;
语音增强模块,对声纹提取模块中获得的声纹降噪后的语音进行进一步增强;
语音清晰度判断模块,用于判断提取的人声纹纯净度是否达到预设的阈值,若否,则跳转语音增强模块,若是,则继续语音录入模块;
语音输出模块,将语音增强模块中获得的结果语音输出到语音文字识别系统,完成后续处理。
在本发明基于机器学习及深度学习的声纹降噪系统中,在初始化模块之前还包含:
建立机器学习及深度学习模型,具体为,获取大量人在野外嘈杂环境下的说话音频的语音,将语音全部都转换成为波谱图并导入到计算机中,对机器学习及深度学习模型进行大量反复训练,机器学习及深度学习识别区分人说话音频中夹杂的环境音,从而获得训练好的机器学习及深度学习模型。
在本发明所述基于机器学习及深度学习的声纹降噪系统中,在声纹提取模块之前还包括建立特定说话人的声纹识别模型,具体为用已有的该特定说话人的声纹建立声纹语谱图,进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型,经过大量该人声纹数据的反复训练,得到一个声纹识别率较高的该人声纹识别模型;
本发明采用基于机器学习及深度学习的声纹降噪方法及系统,能够有针对性的解决在特定的多种不同高低信噪比的复杂野外地质环境下,使用普通降噪技术或简单语音降噪算法降噪后降噪率较低的问题,从而为后期的地学数据采集的语音文字识别过程提供良好的先决条件,为降低后期地学数据采集过程中的语音文字识别的难度以及大幅度提升后期通过语音方式地学数据采集过程中的语音文字识别的准确率提供技术保障。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明实施例GMM-UBM建立说话人确认系统声纹建模流程图;
图2为本发明实施例MFCC特征向量提取流程图;
图3为本发明实施例声纹识别模型与录入语音对比流程图;
图4为本发明实施例基于机器学习及深度学习的声纹降噪方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实例,对本发明进行进一步详细说明。
完整流程图参见图1。首先,获取机器学习及深度学习模型,主要分为两个步骤。第一步,建立模型,利用大量获得的野外地学环境下采集的自然环境音以及大量的特定人说话的声音语段建立一个机器学习及深度学习模型;第二步,训练模型,将自然环境及特定人说话音频全部都转换成为波谱图的形式并导入到计算机中,通过大量反复训练,机器学习及深度学习区分环境音和特定人说话的语音波谱图。
其次,建立声纹识别模型。每个人独具一格的声纹可以用语谱图观察出来。获取特定说话人的声音声纹,将该人的声纹先进行特征提取操作,用已有的该特定说话人的声纹建立声纹语谱图,进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型。声纹建模方法分为三种类型,分别为:文本相关、文本无关(GMM-UBM、GMM-SVM、GMM-UBM-LFA、i-vector/PLDA)和文本提示。因为不能决定输入的语音内容,因此选择文本无关类型进行声纹建模,从而得到该人的声纹识别模型。本实施例选取GMM-UBM建立说话人确认系统声纹建模,流程图见图2,输入多个说话人声音和测试语音,通过MFCC特征向量提取,经过大量人声纹数据的反复训练和MAP自适应处理及确认决策,得到一个声纹识别率较高的该人声纹识别模型。其中MFCC特征向量提取过程见图3,具体为输入样本音频,给样本音频预加重、分帧、加窗,将处理好的样本音频做傅里叶变换,进行Mel频率滤波,进行Log对数能量,对样本求倒谱,输出MFCC图像。
在野外使用语音录入系统,通过机器学习及深度学习模型对获取的特定人在野外实地工作环境中对地质现象和地质认识描述的说话音频片段转换为波谱图,并进行识别,针对导入模型中的语音,对语音中的环境杂音进行识别,并且进行剔除环境杂音操作,即剔除掉该语音段中不属于人声的环境音。多次循环处理,判断噪声过滤后的语音是否合格,具体为预先设置信噪比,当达到预设的信噪比时,则继续下一步,没达到则继续进行噪声过滤。
将经过过滤合格后的语音与已经建成的该人声纹识别模型进行对比提取,流程图见图4,将输入的声纹与声纹识别模型进行比对,保留与模型相符合的语音频率以及语谱图像,剔除掉与模型不符合的语音,多次循环处理,判断声纹提取的语音是否纯净,具体为预设声纹纯净度阈值,当语音纯净度达到预设阈值时,分析语音语谱图上是否夹杂有该人声音以外的其他杂音,若还有,继续声纹降噪过程,若无,得到的便是经过声纹降噪处理的语音。
最后,对得到的降噪处理后的语音利用语音增强算法,例如:LMS自适应滤波器、LMS自适应限波器和维纳滤波法等,使已经得到的较为纯净的语音中的特定人说话的语音声音进一步增强与清晰化,判断得到的语音是否清晰,判定条件具体为:如果该段语音的语谱图波伏很小,就将其放大;如果该段语音的语谱图有些地方有重叠,就根据算法分离出一个平衡点,使其在该点清晰化。在该平衡点处分贝和清晰度都能保证声音不会太小,又保证语音不会失真。当得到的语音满足判定条件之后,终止循环,将获得的结果语音输出到语音文字识别系统,完成后续文字识别及存储处理。
根据本发明实施例还包含如下模块:
初始化模块,用于获取特定人在野外实地工作环境中在野外实地工作环境中对地质现象和地质认识描述的说话音频;
机器学习及深度学习处理识别模块,用于将初始化模块中获取的所述说话音频通过机器学习及深度学习模型分别进行学习,对说话音频中夹杂的环境音进行识别区分;
语音过滤模块,用于将机器学习及深度学习处理识别模块得到的识别过的语音进行过滤,剔除掉该语音中不属于人说话音频的环境音,得到经过初步筛查的语音;
语音过滤判断模块,用于判断过滤后的语音信噪比是否达到预设的阈值,若否,则跳转语音过滤模块,若是,则继续声纹提取模块;
声纹对比提取模块,用于将过滤判断模块中获得的语音与该人声纹识别模型进行对比提取,保留与该人声纹识别模型相符合的语音频率及语谱图像,剔除掉与该人声纹识别模型不符合的语音,得到声纹降噪处理的语音;
语音纯净度判断模块:用于判断提取的人声纹纯净度是否达到预设的阈值,若否,则跳转声纹提取模块,若是,则进行语音增强模块;
语音增强模块,对声纹提取模块中获得的声纹降噪后的语音进行进一步增强;
语音清晰度判断模块,用于判断提取的人声纹纯净度是否达到预设的阈值,若否,则跳转语音增强模块,若是,则继续语音录入模块;
语音输出模块,将语音增强模块中获得的结果语音输出到语音文字识别系统,完成后续处理。
在本发明基于机器学习及深度学习的声纹降噪系统中,在初始化模块之前还包含:
建立机器学习及深度学习模型,具体为,获取大量人说话音频的语音,将语音全部都转换成为波谱图并导入到计算机中,对机器学习及深度学习模型进行大量反复训练,机器学习及深度学习识别区分人说话音频中夹杂的环境音,从而获得训练好的机器学习及深度学习模型。
在本发明所述基于机器学习及深度学习的声纹降噪系统中,在声纹提取模块之前还包括建立特定说话人的人声纹识别模型,具体为用已有的该特定说话人的声纹建立声纹语谱图,进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型,经过大量该人声纹数据的反复训练,得到一个声纹识别率较高的该人声纹识别模型;
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出若干改进和变形,这些均属于本发明的保护之内。
Claims (6)
1.一种基于机器学习及深度学习的声纹降噪方法,其特征在于,包括如下步骤:
S1、获取特定人在野外实地工作环境中对地质现象和地质认识描述的说话音频;
S2、将步骤S1获取的所述说话音频通过机器学习及深度学习模型分别进行学习,对说话音频中夹杂的环境音进行识别区分;
S3、将步骤S2中得到的识别过的语音进行过滤,剔除掉该语音中不属于所述特定人说话音频的环境音,得到经过初步筛查的语音;
S4、判断经过初步筛查的语音信噪比是否达到预设的阈值,若否,则跳转步骤S3,若是,则继续步骤S5;
S5、将步骤S4所述语音与该人声纹识别模型进行对比提取,保留与该人声纹识别模型相符合的语音频率及语谱图像,剔除掉与该人声纹识别模型不符合的语音,得到声纹降噪处理的语音;
S6、判断声纹降噪处理后的语音中的人声纹纯净度是否达到预设的阈值,若否,则跳转步骤S5,若是,则继续步骤S7;
S7、对步骤S6所述声纹降噪后的语音进行增强;
S8、判断经过增强的语音清晰度是否达到预设的阈值,若否,则跳转步骤S7,若是则继续S9;
S9、将步骤S8中获得的结果语音输出到语音文字识别系统,完成后续处理。
2.根据权利要求1所述基于机器学习及深度学习的声纹降噪方法,其特征在于,在步骤S1之前还包括建立机器学习及深度学习模型的步骤,具体为,获取大量人在野外嘈杂环境下的说话音频,将音频全部都转换成为波谱图并导入到计算机中,对机器学习及深度学习模型进行大量反复训练,机器学习及深度学习识别区分人说话音频中夹杂的环境音,从而获得训练好的机器学习及深度学习模型。
3.根据权利要求1所述基于机器学习及深度学习的声纹降噪方法,其特征在于,在步骤S5之前还包括建立特定说话人的人声纹识别模型,具体为用已有的该特定说话人的声纹建立声纹语谱图,进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型,经过大量该人声纹数据的反复训练,得到一个声纹识别率高的该人的声纹识别模型。
4.一种基于机器学习及深度学习的声纹降噪系统,其特征在于,包含如下模块:
初始化模块,用于获取特定人在野外实地工作环境中对地质现象和地质认识描述的说话音频;
机器学习及深度学习处理识别模块,用于将初始化模块中获取的所述说话音频通过机器学习及深度学习模型分别进行学习,对说话音频中夹杂的环境音进行识别区分;
语音过滤模块,用于将机器学习及深度学习处理识别模块得到的识别过的语音进行过滤,剔除掉该语音中不属于所述特定人说话音频的环境音,得到经过初步筛查的语音;
语音过滤判断模块,用于判断过滤后的语音信噪比是否达到预设的阈值,若否,则跳转语音过滤模块,若是,则继续声纹提取模块;
声纹对比提取模块,用于将过滤判断模块中获得的语音与该人声纹识别模型进行对比提取,保留与该人声纹识别模型相符合的语音频率及语谱图像,剔除掉与该人声纹识别模型不符合的语音,得到声纹降噪处理的语音;
语音纯净度判断模块:用于判断提取的人声纹纯净度是否达到预设的阈值,若否,则跳转声纹提取模块,若是,则进行语音增强模块;
语音增强模块,对声纹提取模块中获得的声纹降噪后的语音进行进一步增强;
语音清晰度判断模块,用于判断提取的人声纹纯净度是否达到预设的阈值,若否,则跳转语音增强模块,若是,则继续语音录入模块;
语音输出模块,将语音增强模块中获得的结果语音输出到语音文字识别系统,完成后续处理。
5.根据权利要求4所述基于机器学习及深度学习的声纹降噪系统,其特征在于,在初始化模块之前还包含:建立机器学习及深度学习模型模块:用于获取大量人在野外嘈杂环境下的说话音频,将语音全部都转换成为波谱图并导入到计算机中,对机器学习及深度学习模型进行大量反复训练,机器学习及深度学习识别区分人说话音频中夹杂的环境音,从而获得训练好的机器学习及深度学习模型。
6.根据权利要求4所述基于机器学习及深度学习的声纹降噪系统,其特征在于,在声纹提取模块之前还包含:建立声纹识别模型模块,用于建立特定说话人的人声纹识别模型,具体为用已有的该特定说话人的声纹建立声纹语谱图,进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型,经过大量该人声纹数据的反复训练,得到一个声纹识别率高的该人声纹识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810375197.5A CN108831440A (zh) | 2018-04-24 | 2018-04-24 | 一种基于机器学习及深度学习的声纹降噪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810375197.5A CN108831440A (zh) | 2018-04-24 | 2018-04-24 | 一种基于机器学习及深度学习的声纹降噪方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108831440A true CN108831440A (zh) | 2018-11-16 |
Family
ID=64154961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810375197.5A Pending CN108831440A (zh) | 2018-04-24 | 2018-04-24 | 一种基于机器学习及深度学习的声纹降噪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108831440A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584897A (zh) * | 2018-12-28 | 2019-04-05 | 努比亚技术有限公司 | 视频降噪方法、移动终端及计算机可读存储介质 |
CN110875043A (zh) * | 2019-11-11 | 2020-03-10 | 广州国音智能科技有限公司 | 声纹识别方法、装置、移动终端及计算机可读存储介质 |
CN111079446A (zh) * | 2019-12-30 | 2020-04-28 | 北京讯鸟软件有限公司 | 语音数据重构方法、装置及电子设备 |
CN111341307A (zh) * | 2020-03-13 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN111385688A (zh) * | 2018-12-29 | 2020-07-07 | 安克创新科技股份有限公司 | 一种基于深度学习的主动降噪方法、装置及系统 |
CN112002343A (zh) * | 2020-08-18 | 2020-11-27 | 海尔优家智能科技(北京)有限公司 | 语音纯度的识别方法、装置、存储介质及电子装置 |
CN112102854A (zh) * | 2020-09-22 | 2020-12-18 | 福建鸿兴福食品有限公司 | 一种录音过滤方法、装置及计算机可读存储介质 |
CN112201247A (zh) * | 2019-07-08 | 2021-01-08 | 北京地平线机器人技术研发有限公司 | 语音增强方法和装置、电子设备和存储介质 |
WO2021012734A1 (zh) * | 2019-07-25 | 2021-01-28 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN112420063A (zh) * | 2019-08-21 | 2021-02-26 | 华为技术有限公司 | 一种语音增强方法和装置 |
CN113413613A (zh) * | 2021-06-17 | 2021-09-21 | 网易(杭州)网络有限公司 | 一种游戏内语音聊天的优化方法、装置、电子设备及介质 |
CN113490115A (zh) * | 2021-08-13 | 2021-10-08 | 广州市迪声音响有限公司 | 一种基于声纹识别技术的声反馈抑制方法及系统 |
CN113724692A (zh) * | 2021-10-08 | 2021-11-30 | 广东电力信息科技有限公司 | 一种基于声纹特征的电话场景音频获取与抗干扰处理方法 |
CN113888777A (zh) * | 2021-09-08 | 2022-01-04 | 南京金盾公共安全技术研究院有限公司 | 一种基于云端机器学习的声纹开锁方法及装置 |
CN114007157A (zh) * | 2021-10-28 | 2022-02-01 | 中北大学 | 一种智能降噪通信耳机 |
CN115065912A (zh) * | 2022-06-22 | 2022-09-16 | 广州市迪声音响有限公司 | 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置 |
CN115064176A (zh) * | 2022-06-22 | 2022-09-16 | 广州市迪声音响有限公司 | 一种声纹筛系统及方法 |
CN111462760B (zh) * | 2019-01-21 | 2023-09-26 | 阿里巴巴集团控股有限公司 | 声纹识别系统、方法、装置及电子设备 |
CN117648407A (zh) * | 2024-01-26 | 2024-03-05 | 山东管理学院 | 一种体育赛事数据统计方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107068161A (zh) * | 2017-04-14 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音降噪方法、装置和计算机设备 |
CN107945815A (zh) * | 2017-11-27 | 2018-04-20 | 歌尔科技有限公司 | 语音信号降噪方法及设备 |
-
2018
- 2018-04-24 CN CN201810375197.5A patent/CN108831440A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107068161A (zh) * | 2017-04-14 | 2017-08-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音降噪方法、装置和计算机设备 |
CN107945815A (zh) * | 2017-11-27 | 2018-04-20 | 歌尔科技有限公司 | 语音信号降噪方法及设备 |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584897A (zh) * | 2018-12-28 | 2019-04-05 | 努比亚技术有限公司 | 视频降噪方法、移动终端及计算机可读存储介质 |
CN109584897B (zh) * | 2018-12-28 | 2023-11-10 | 西藏瀚灵科技有限公司 | 视频降噪方法、移动终端及计算机可读存储介质 |
CN111385688A (zh) * | 2018-12-29 | 2020-07-07 | 安克创新科技股份有限公司 | 一种基于深度学习的主动降噪方法、装置及系统 |
CN111462760B (zh) * | 2019-01-21 | 2023-09-26 | 阿里巴巴集团控股有限公司 | 声纹识别系统、方法、装置及电子设备 |
CN112201247B (zh) * | 2019-07-08 | 2024-05-03 | 北京地平线机器人技术研发有限公司 | 语音增强方法和装置、电子设备和存储介质 |
CN112201247A (zh) * | 2019-07-08 | 2021-01-08 | 北京地平线机器人技术研发有限公司 | 语音增强方法和装置、电子设备和存储介质 |
WO2021012734A1 (zh) * | 2019-07-25 | 2021-01-28 | 深圳壹账通智能科技有限公司 | 音频分离方法、装置、电子设备及计算机可读存储介质 |
CN112420063A (zh) * | 2019-08-21 | 2021-02-26 | 华为技术有限公司 | 一种语音增强方法和装置 |
CN110875043B (zh) * | 2019-11-11 | 2022-06-17 | 广州国音智能科技有限公司 | 声纹识别方法、装置、移动终端及计算机可读存储介质 |
CN110875043A (zh) * | 2019-11-11 | 2020-03-10 | 广州国音智能科技有限公司 | 声纹识别方法、装置、移动终端及计算机可读存储介质 |
CN111079446A (zh) * | 2019-12-30 | 2020-04-28 | 北京讯鸟软件有限公司 | 语音数据重构方法、装置及电子设备 |
CN111341307A (zh) * | 2020-03-13 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN112002343A (zh) * | 2020-08-18 | 2020-11-27 | 海尔优家智能科技(北京)有限公司 | 语音纯度的识别方法、装置、存储介质及电子装置 |
CN112002343B (zh) * | 2020-08-18 | 2024-01-23 | 海尔优家智能科技(北京)有限公司 | 语音纯度的识别方法、装置、存储介质及电子装置 |
CN112102854A (zh) * | 2020-09-22 | 2020-12-18 | 福建鸿兴福食品有限公司 | 一种录音过滤方法、装置及计算机可读存储介质 |
CN113413613A (zh) * | 2021-06-17 | 2021-09-21 | 网易(杭州)网络有限公司 | 一种游戏内语音聊天的优化方法、装置、电子设备及介质 |
CN113490115A (zh) * | 2021-08-13 | 2021-10-08 | 广州市迪声音响有限公司 | 一种基于声纹识别技术的声反馈抑制方法及系统 |
CN113888777A (zh) * | 2021-09-08 | 2022-01-04 | 南京金盾公共安全技术研究院有限公司 | 一种基于云端机器学习的声纹开锁方法及装置 |
CN113888777B (zh) * | 2021-09-08 | 2023-08-18 | 南京金盾公共安全技术研究院有限公司 | 一种基于云端机器学习的声纹开锁方法及装置 |
CN113724692A (zh) * | 2021-10-08 | 2021-11-30 | 广东电力信息科技有限公司 | 一种基于声纹特征的电话场景音频获取与抗干扰处理方法 |
CN113724692B (zh) * | 2021-10-08 | 2023-07-14 | 广东电力信息科技有限公司 | 一种基于声纹特征的电话场景音频获取与抗干扰处理方法 |
CN114007157A (zh) * | 2021-10-28 | 2022-02-01 | 中北大学 | 一种智能降噪通信耳机 |
CN115064176B (zh) * | 2022-06-22 | 2023-06-16 | 广州市迪声音响有限公司 | 一种声纹筛系统及方法 |
CN115064176A (zh) * | 2022-06-22 | 2022-09-16 | 广州市迪声音响有限公司 | 一种声纹筛系统及方法 |
CN115065912A (zh) * | 2022-06-22 | 2022-09-16 | 广州市迪声音响有限公司 | 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置 |
CN117648407A (zh) * | 2024-01-26 | 2024-03-05 | 山东管理学院 | 一种体育赛事数据统计方法及系统 |
CN117648407B (zh) * | 2024-01-26 | 2024-04-16 | 山东管理学院 | 一种体育赛事数据统计方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108831440A (zh) | 一种基于机器学习及深度学习的声纹降噪方法及系统 | |
CN104732978B (zh) | 基于联合深度学习的文本相关的说话人识别方法 | |
CN108510979B (zh) | 一种混合频率声学识别模型的训练方法及语音识别方法 | |
CN110610708B (zh) | 一种基于布谷鸟搜索算法的声纹识别攻击防御方法 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN108711436A (zh) | 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法 | |
CN105933272A (zh) | 能够防止录音攻击的声纹认证方法、服务器、终端及系统 | |
CN106548775B (zh) | 一种语音识别方法和系统 | |
CN106537493A (zh) | 语音识别系统及方法、客户端设备及云端服务器 | |
CN104103272B (zh) | 语音识别方法、装置和蓝牙耳机 | |
CN101082836A (zh) | 一种整合语音输入和手写输入功能的汉字输入系统 | |
CN110189746B (zh) | 一种应用于地空通信的话音识别方法 | |
CN106023986B (zh) | 一种基于声效模式检测的语音识别方法 | |
CN107464563B (zh) | 一种语音交互玩具 | |
CN111583936A (zh) | 一种智能语音电梯控制方法及装置 | |
CN111986675A (zh) | 语音对话方法、设备及计算机可读存储介质 | |
JP2003330485A (ja) | 音声認識装置、音声認識システム及び音声認識方法 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN111105798B (zh) | 基于语音识别的设备控制方法 | |
CN109544745A (zh) | 一种智能门锁控制方法、装置及系统 | |
Singh et al. | Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition | |
CN109817196B (zh) | 一种噪音消除方法、装置、系统、设备及存储介质 | |
CN111524520A (zh) | 一种基于误差逆向传播神经网络的声纹识别方法 | |
Kaminski et al. | Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models | |
CN109003613A (zh) | 结合空间信息的声纹识别支付信息防伪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181116 |
|
RJ01 | Rejection of invention patent application after publication |