CN114566160A - 语音处理方法、装置、计算机设备、存储介质 - Google Patents
语音处理方法、装置、计算机设备、存储介质 Download PDFInfo
- Publication number
- CN114566160A CN114566160A CN202210194881.XA CN202210194881A CN114566160A CN 114566160 A CN114566160 A CN 114566160A CN 202210194881 A CN202210194881 A CN 202210194881A CN 114566160 A CN114566160 A CN 114566160A
- Authority
- CN
- China
- Prior art keywords
- audio data
- data
- noise
- target
- environmental
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 20
- 230000007613 environmental effect Effects 0.000 claims abstract description 95
- 238000004590 computer program Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 49
- 238000013145 classification model Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 18
- 230000009467 reduction Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请涉及一种语音处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括获取音频数据和所述音频数据被采集位置的图像信息;根据所述图像信息确定所述音频数据对应的场景信息;从噪声库中确定与所述场景信息对应的候选噪声数据,对比所述候选噪声数据与所述音频数据,确定所述音频数据中的目标噪声数据;从所述音频数据中剔除所述目标噪声数据,输出降噪后的音频数据,降低了环境噪声对音频数据的影响,后续对降噪后的音频数据进行语音识别,能够提高语音识别的准确率。
Description
技术领域
本申请涉及计算机应用领域,特别是涉及一种语音处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,出现了语音识别技术。语音识别技术是一项人机交互技术,被广泛地应用于各种各样的生活交互场景中。而近几年深度神经网络在语音识别领域的应用越来越普及,使得语音识别技术变得更加可用。尽管如此,环境噪声等因素对语音识别系统性能的影响仍然很大,降低了语音识别的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种语音处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种语音处理方法。所述方法包括:
获取音频数据和所述音频数据被采集位置的图像信息;
根据所述图像信息确定所述音频数据对应的场景信息;
从噪声库中确定与所述场景信息对应的候选噪声数据,对比所述候选噪声数据与所述音频数据,确定所述音频数据中的目标噪声数据;
从所述音频数据中剔除所述目标噪声数据,输出降噪后的音频数据。
在其中一个实施例中,所述对比所述候选噪声数据与所述音频数据,确定所述音频数据中的目标噪声数据,包括:
将所述音频数据分离,得到语音音频数据和环境音频数据;
对比所述候选噪声数据与所述环境音频数据,确定所述环境音频数据中的目标噪声数据。
在其中一个实施例中,所述对比所述候选噪声数据与所述环境音频数据,确定所述环境音频数据中的目标噪声数据,包括:
计算所述候选噪声数据和环境音频数据的相似度;
将相似度大于或等于相似度阈值的候选噪声数据,确定为所述环境音频数据中的目标噪声数据。
在其中一个实施例中,所述从所述音频数据中剔除所述目标噪声数据,输出降噪后的音频数据,包括:
从所述环境音频数据中剔除所述目标噪声数据;
将剔除所述目标噪声数据的环境音频数据和所述语音音频数据进行合并,输出降噪后的音频数据。
在其中一个实施例中,所述方法还包括:
识别剔除所述目标噪声数据的环境音频数据,得到所述剔除所述目标噪声数据的环境音频数据的伪标签;所述伪标签用于表征所述环境音频数据的噪声类型;
将用于训练噪声分类模型的带标签的训练数据和所述带伪标签的环境音频数据混合得到混合训练数据;
根据所述混合训练数据对所述噪声分类模型进行训练,得到更新后的噪声分类模型。
在其中一个实施例中,所述识别剔除所述目标噪声数据的环境音频数据,得到所述剔除所述目标噪声数据的环境音频数据的伪标签,包括:
将剔除所述目标噪声数据的环境音频数据输入所述噪声分类模型,得到所述剔除所述目标噪声数据的环境音频数据的伪标签。
第二方面,本申请还提供了一种语音处理装置。所述装置包括:
信息获取模块,用于获取音频数据和所述音频数据被采集位置的图像信息;
地点确定模块,用于根据所述图像信息确定所述音频数据对应的场景信息;
噪声确定模块,用于从噪声库中确定与所述场景信息对应的候选噪声数据,对比所述候选噪声数据与音频确定所述音频信息中的目标噪声数据;
输出模块,用于从所述音频数据中剔除所述目标噪声数据,输出降噪后的音频数据。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取音频数据和所述音频数据被采集位置的图像信息;
根据所述图像信息确定所述音频数据对应的场景信息;
从噪声库中确定与所述场景信息对应的候选噪声数据,对比所述候选噪声数据与所述音频数据,确定所述音频数据中的目标噪声数据;
从所述音频数据中剔除所述目标噪声数据,输出降噪后的音频数据。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取音频数据和所述音频数据被采集位置的图像信息;
根据所述图像信息确定所述音频数据对应的场景信息;
从噪声库中确定与所述场景信息对应的候选噪声数据,对比所述候选噪声数据与所述音频数据,确定所述音频数据中的目标噪声数据;
从所述音频数据中剔除所述目标噪声数据,输出降噪后的音频数据。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取音频数据和所述音频数据被采集位置的图像信息;
根据所述图像信息确定所述音频数据对应的场景信息;
从噪声库中确定与所述场景信息对应的候选噪声数据,对比所述候选噪声数据与所述音频数据,确定所述音频数据中的目标噪声数据;
从所述音频数据中剔除所述目标噪声数据,输出降噪后的音频数据。
上述语音处理方法、装置、计算机设备、存储介质和计算机程序产品,通过获取音频数据和所述音频数据被采集位置的图像信息;根据所述图像信息确定所述音频数据对应的场景信息;从噪声库中确定与所述场景信息对应的候选噪声数据,对比所述候选噪声数据与所述音频数据,确定所述音频数据中的目标噪声数据;从所述音频数据中剔除所述目标噪声数据,输出降噪后的音频数据。首先进行音频数据获取和音频数据被采集位置的图像信息获取,确定音频数据对应的场景信息,再从噪声库中查询场景信息对应的候选噪声数据,经过对比确定音频数据中的目标噪声数据,再将目标噪声数据进行剔除,输出降噪后的音频数据,降低了环境噪声对音频数据的影响,后续对降噪后的音频数据进行语音识别,能够提高语音识别的准确率。
附图说明
图1为一个实施例中语音处理方法的应用环境图;
图2为一个实施例中语音处理方法的流程示意图;
图3为一个实施例中语音处理方法的噪音库系统示意图;
图4为一个实施例中语音处理方法的获取伪标签的示意图;
图5为一个实施例中语音处理方法的构建噪音分类模型的训练示意图;
图6为一个实施例中语音处理装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的语音处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104获取终端102中音频数据和所述音频数据被采集位置的图像信息;根据所述图像信息确定所述音频数据对应的场景信息;从噪声库中确定与所述场景信息对应的候选噪声数据,对比所述候选噪声数据与所述音频数据,确定所述音频数据中的目标噪声数据;从所述音频数据中剔除所述目标噪声数据,输出降噪后的音频数据。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
可以理解的是,本申请实施例提供的语音处理方法除了可应用于包含终端与服务器的系统,也可以单独应用于终端或服务器上。
在一个实施例中,如图2所示,提供了一种语音处理方法,以该方法应用于图1中的服务器104或终端102为例进行说明,包括以下步骤:
步骤202,获取音频数据和音频数据被采集位置的图像信息。
其中,音频数据可以是实时采集的声音信号,也可以是采集后存放在存储空间中的声音信号。用户可以通过终端的麦克风等音频输入设备采集用户所处位置的音频数据。该音频数据可包括语音数据和环境声音数据。
图像信息是指音频数据被采集位置的图像信息。用户可以通过终端的摄像机拍摄音频数据被采集时所在位置的图片。
在一个可能的实现方式中,终端的处理器获取麦克风采集的音频数据,以及摄像机拍摄的音频数据被采集时所在位置的图片。
在另一个可能的实现方式中,终端将麦克风采集的音频数据和摄像机拍摄的音频数据被采集时所在位置的图片一起上传到服务器。
步骤204,根据图像信息确定音频数据对应的场景信息。
其中,场景信息是指音频信息被采集时所在位置的场景,例如室内场景,地铁场景、学校场景、火车站场景和餐厅场景等中的一个,但不限于此。
在一个可能的实现方式中,终端的处理器根据获取到的图像信息确定音频数据对应的场景信息。
另一个可能的实现方式中,终端将根据获取到的图像信息确定音频数据对应的场景信息,将音频信息和音频信息对应的场景信息一起上传到服务器。
步骤206,从噪声库中确定与场景信息对应的候选噪声数据,对比候选噪声数据与音频数据,确定音频数据中的目标噪声数据。
其中,预先将采集的噪声数据集按照每个场景对应的噪声数据进行分类,然后按照场景与噪声数据的对应关系存储在噪声库。候选噪声数据是指噪声库中一个场景对应的多种噪声数据。可以根据音频数据与候选噪声数据的相似度确定目标噪声数据。具体地,处理器根据场景信息,在噪声库中查询与该场景信息对应的噪声数据作为候选噪声数据,再将候选噪声数据与音频数据进行相似度对比,根据相似度对比结果确定音频数据中的目标噪声数据。在一个可能的实现方式中,选择相似度大于相似度阈值的候选噪声数据作为目标噪声数据;在另一可能的实现方式中,选择相似度最大的候选噪声数据作为目标噪声数据。
步骤208,从音频数据中剔除目标噪声数据,输出降噪后的音频数据。
其中,降噪是指减少目标噪声对音频数据的影响。
具体地,处理器将目标噪声数据从音频数据中剔除,输出降噪后的音频数据。
上述语音处理方法中,通过获取音频数据和所述音频数据被采集位置的图像信息;根据所述图像信息确定所述音频数据对应的场景信息;从噪声库中确定与所述场景信息对应的候选噪声数据,对比所述候选噪声数据与所述音频数据,确定所述音频数据中的目标噪声数据;从所述音频数据中剔除所述目标噪声数据,输出降噪后的音频数据。首先进行音频数据获取和音频数据被采集位置的图像信息获取,确定音频数据对应的场景信息,再从噪声库中查询场景信息对应的候选噪声数据,经过对比确定音频数据中的目标噪声数据,再将目标噪声数据进行剔除,输出降噪上的音频数据,提高语音识别的准确率。
在一个实施例中,对比候选噪声数据与音频数据,确定音频数据中的目标噪声数据,包括:将音频数据分离,得到语音音频数据和环境音频数据;对比候选噪声数据与环境音频数据,确定环境音频数据中的目标噪声数据。
其中,语音音频数据是用户发出的语音音频信息;环境音频数据是指音频数据被采集时的环境音频信息。
具体地,处理器根据近音轨和远音轨将音频数据分离成语音音频信息和环境音频信息,再对比候选噪声数据和环境音频数据的相似度,确定环境音频数据中的目标噪声数据。
本实施例中,通过将音频数据进行分离成语音音频数据和环境音频数据,从环境的音频数据中确定目标噪声数据,能够提高确定目标噪声数据的准确性。
在一个实施例中,对比候选噪声数据与环境音频数据,确定环境音频数据中的目标噪声数据,包括:计算候选噪声数据和环境音频数据的相似度;将相似度大于或等于相似度阈值的候选噪声数据,确定为环境音频数据中的目标噪声数据。
其中,相似度用于表示候选噪声数据和环境音频数据相似程度,相似度越高则表示候选噪声数据接近环境音频数据,根据波形判断候选噪声数据和环境音频数据的相似度。
具体地,处理器根据候选噪声数据的波形和环境音频数据的波形计算候选噪声数据和环境音频数据的相似度,对比预设的相似度阈值,若候选噪声数据和环境音频数据的相似度大于或等于相似度阈值的候选噪声数据,确定为环境音频数据中的目标噪声数据。若候选噪声数据和环境音频数据的相似度小于相似度阈值的候选噪声数据,不作为环境音频数据中的目标噪声数据。
本实施例中,通过计算相似度,能够提高确定目标噪声数据的准确性。
在一个实施例中,从音频数据中剔除目标噪声数据,输出降噪后的音频数据,包括:从环境音频数据中剔除目标噪声数据;将剔除目标噪声数据的环境音频数据和语音音频数据进行合并,输出降噪后的音频数据。
具体地,处理器根据目标噪声数据的波形将目标噪声数据从环境音频数据中剔除,再将剔除目标噪声数据的环境音频数据行语音音频数据进行合并,输出降噪后的音频数据。
本实施例中,通过剔除目标噪声数据,再将剔除目标噪声数据的环境音频数据和语音音频书进行合并,能够达到降噪的效果。
在一个实施例中,上述语音处理方法,包括:识别剔除所目标噪声数据的环境音频数据,得到剔除目标噪声数据的环境音频数据的伪标签;伪标签用于表征环境音频数据的噪声类型;将用于训练噪声分类模型的带标签的训练数据和带伪标签的环境音频数据混合得到混合训练数据;根据混合训练数据对噪声分类模型进行训练,得到更新后的噪声分类模型。
其中,伪标签是指无标注的噪音数据样本的近似标签,用于模拟人工标注环境音频数据的噪声类型。噪声分类模型是指用于将噪声数据根据场景进行分类的模型。训练数据是指噪音数据挖掘过程中用于训练噪声分类模型的数据,噪声样本数据大、多样化能够构建高质量的噪声分类模型。
具体地,处理器识别剔除目标噪声数据后的环境音频数据,根据剔除目标噪声数据后的环境音频数据确定了剔除目标噪声数据后的环境音频数据的伪标签,将用于训练噪声分类模型的带标签的训练数据和带伪标签的环境音频数据混合得到混合训练数据,根据混合训练数据对噪声分类模型进行训练,得到更新后的噪声分类模型。
本实施例中,通过剔除目标噪声数据后的环境音频数据和用于训练噪声分类模型的带标签的训练数据混合后进行训练得到新的噪声分类模型,能够达到更新噪声数据库的效果。
在一个实施例中,识别剔除目标噪声数据的环境音频数据,得到剔除目标噪声数据的环境音频数据的伪标签,包括:将剔除目标噪声数据的环境音频数据输入噪声分类模型,得到剔除目标噪声数据的环境音频数据的伪标签。
具体地,处理器对剔除目标噪声的环境音频数据进行特征提取,经过卷积核,线性整流函数和最大池化,对特征进行向量变形,再输入噪声分类模型中,经过S型函数计算和池化函数进行计算,得到剔除目标噪声数据的环境音频数据的伪标签。其中特征包括剔除目标噪声数据的环境音频数据的批量数、通道、时间和频率。
本实施例中,通过为标签的获取,能够便于构建噪声分类模型。
为了更好理解本申请实施例提供的语音处理方法,下面结合一个详细实施例,描述语音处理方法的具体步骤:
(1)处理器获取音频数据以及音频数据被采集位置的图像信息;
(2)处理器将音频数据分离成语音音频数据和环境音频数据;
(3)处理器根据音频信息被采集位置的图像信息确定音频信息被采集时所在位置的场景;
(4)处理器根据场景信息,查询噪声库中场景的对应的噪声数据作为候选噪声数据,其中,噪声库系统示意图如图3所示,噪声库是利用场景区分各个场景对应的噪音数据,不同地点对应不同场景,不同场景对应不同的噪音数据;
(5)处理器计算候选噪声数据和环境音频数据的相似度;
(6)处理器将候选噪声数据和环境音频数据的相似度进行对比,将相似度大于或等于相似度阈值的候选噪声数据,确定为环境音频数据中的目标噪声数据。
(7)处理器从环境音频数据中将目标噪声数据进行剔除;
(8)处理器再将剔除目标噪声数据的环境音频数据和语音音频数据进行融合,输出降噪后的音频数据。
(9)处理器将处理器对剔除目标噪声的环境音频数据进行特征提取,其中,特征包括批数量、通道、时间和频率;再经过卷积核,线性整流函数(ReLU)和最大池化,对特征进行向量变形,输入长短时记忆神经网络经过全连接层进行分类,经过S型函数计算和池化函数进行计算,得到剔除目标噪声数据的环境音频数据的伪标签,如图4所示。
(10)处理器将用于训练噪声分类模型的带标签的训练数据和带伪标签的环境音频数据混合得到混合训练数据,根据混合训练数据对噪声分类模型进行训练,得到更新后的噪声分类模型,如图5所示。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的语音处理方法的语音处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个语音处理装置实施例中的具体限定可以参见上文中对于语音处理方法的限定,在此不再赘述。
在一个实施例中,如图6所示,提供了一种语音处理装置,包括:信息获取模块610、场景确定模块620、噪声确定模块630和输出模块640,其中:
信息获取模块610,用于获取音频数据和所述音频数据被采集位置的图像信息;
场景确定模块620,用于根据所述图像信息确定所述音频数据对应的场景信息;
噪声确定模块630,用于从噪声库中确定与所述场景信息对应的候选噪声数据,对比所述候选噪声数据与音频确定所述音频信息中的目标噪声数据;
输出模块640,用于从所述音频数据中剔除所述目标噪声数据,输出降噪后的音频数据。
在一个实施例中,上述语音处理装置包括:分离模块。分离模块用于将所述音频数据分离,得到语音音频数据和环境音频数据;噪声确定模块630用于对比所述候选噪声数据与所述环境音频数据,确定所述环境音频数据中的目标噪声数据。
在一个实施例中,上述语音处理装置包括:计算模块。计算模块用于计算所述候选噪声数据和环境音频数据的相似度;噪声确定模块630用于将相似度大于或等于相似度阈值的候选噪声数据,确定为所述环境音频数据中的目标噪声数据。
在一个实施例中,上述语音处理装置包括:剔除模块。剔除模块用于从所述环境音频数据中剔除所述目标噪声数据;输出模块640用于将剔除所述目标噪声数据的环境音频数据和所述语音音频数据进行合并,输出降噪后的音频数据。
在一个实施例中,上述语音处理装置包括:标签获取模块、混合模块和模型确定模块。标签获取模块用于识别剔除所述目标噪声数据的环境音频数据,得到所述剔除所述目标噪声数据的环境音频数据的伪标签;所述伪标签用于表征所述环境音频数据的噪声类型;混合模块用于将用于训练噪声分类模型的带标签的训练数据和带伪标签的环境音频数据混合得到混合训练数据;模型确定模块用于根据所述混合训练数据对所述噪声分类模型进行训练,得到更新后的噪声分类模型。
在一个实施例中,标签获取模块用于将剔除所述目标噪声数据的环境音频数据输入所述噪声分类模型,得到所述剔除所述目标噪声数据的环境音频数据的伪标签。
上述语音处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音处理方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取音频数据和音频数据被采集位置的图像信息;
根据图像信息确定音频数据对应的场景信息;
从噪声库中确定与场景信息对应的候选噪声数据,对比候选噪声数据与音频数据,确定音频数据中的目标噪声数据;
从音频数据中剔除目标噪声数据,输出降噪后的音频数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将音频数据分离,得到语音音频数据和环境音频数据;
对比候选噪声数据与环境音频数据,确定环境音频数据中的目标噪声数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
计算候选噪声数据和环境音频数据的相似度;
将相似度大于或等于相似度阈值的候选噪声数据,确定为环境音频数据中的目标噪声数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
从环境音频数据中剔除目标噪声数据;
将剔除目标噪声数据的环境音频数据和语音音频数据进行合并,输出降噪后的音频数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
识别剔除目标噪声数据的环境音频数据,得到剔除所述目标噪声数据的环境音频数据的伪标签;伪标签用于表征环境音频数据的噪声类型;
将用于训练噪声分类模型的带标签的训练数据和带伪标签的环境音频数据混合得到混合训练数据;
根据混合训练数据对噪声分类模型进行训练,得到更新后的噪声分类模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将剔除目标噪声数据的环境音频数据输入噪声分类模型,得到剔除目标噪声数据的环境音频数据的伪标签。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取音频数据和音频数据被采集位置的图像信息;
根据图像信息确定音频数据对应的场景信息;
从噪声库中确定与场景信息对应的候选噪声数据,对比候选噪声数据与音频数据,确定音频数据中的目标噪声数据;
从音频数据中剔除目标噪声数据,输出降噪后的音频数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将音频数据分离,得到语音音频数据和环境音频数据;
对比候选噪声数据与环境音频数据,确定环境音频数据中的目标噪声数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
计算候选噪声数据和环境音频数据的相似度;
将相似度大于或等于相似度阈值的候选噪声数据,确定为环境音频数据中的目标噪声数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
从环境音频数据中剔除目标噪声数据;
将剔除目标噪声数据的环境音频数据和语音音频数据进行合并,输出降噪后的音频数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
识别剔除目标噪声数据的环境音频数据,得到剔除所述目标噪声数据的环境音频数据的伪标签;伪标签用于表征环境音频数据的噪声类型;
将用于训练噪声分类模型的带标签的训练数据和带伪标签的环境音频数据混合得到混合训练数据;
根据混合训练数据对噪声分类模型进行训练,得到更新后的噪声分类模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将剔除目标噪声数据的环境音频数据输入噪声分类模型,得到剔除目标噪声数据的环境音频数据的伪标签。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取音频数据和音频数据被采集位置的图像信息;
根据图像信息确定音频数据对应的场景信息;
从噪声库中确定与场景信息对应的候选噪声数据,对比候选噪声数据与音频数据,确定音频数据中的目标噪声数据;
从音频数据中剔除目标噪声数据,输出降噪后的音频数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将音频数据分离,得到语音音频数据和环境音频数据;
对比候选噪声数据与环境音频数据,确定环境音频数据中的目标噪声数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
计算候选噪声数据和环境音频数据的相似度;
将相似度大于或等于相似度阈值的候选噪声数据,确定为环境音频数据中的目标噪声数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
从环境音频数据中剔除目标噪声数据;
将剔除目标噪声数据的环境音频数据和语音音频数据进行合并,输出降噪后的音频数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
识别剔除目标噪声数据的环境音频数据,得到剔除所述目标噪声数据的环境音频数据的伪标签;伪标签用于表征环境音频数据的噪声类型;
将用于训练噪声分类模型的带标签的训练数据和带伪标签的环境音频数据混合得到混合训练数据;
根据混合训练数据对噪声分类模型进行训练,得到更新后的噪声分类模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将剔除目标噪声数据的环境音频数据输入噪声分类模型,得到剔除目标噪声数据的环境音频数据的伪标签。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种语音处理方法,其特征在于,所述方法包括:
获取音频数据和所述音频数据被采集位置的图像信息;
根据所述图像信息确定所述音频数据对应的场景信息;
从噪声库中确定与所述场景信息对应的候选噪声数据,对比所述候选噪声数据与所述音频数据,确定所述音频数据中的目标噪声数据;
从所述音频数据中剔除所述目标噪声数据,输出降噪后的音频数据。
2.根据权利要求1所述的方法,其特征在于,所述对比所述候选噪声数据与所述音频数据,确定所述音频数据中的目标噪声数据,包括:
将所述音频数据分离,得到语音音频数据和环境音频数据;
对比所述候选噪声数据与所述环境音频数据,确定所述环境音频数据中的目标噪声数据。
3.根据权利要求2所述的方法,其特征在于,所述对比所述候选噪声数据与所述环境音频数据,确定所述环境音频数据中的目标噪声数据,包括:
计算所述候选噪声数据和环境音频数据的相似度;
将相似度大于或等于相似度阈值的候选噪声数据,确定为所述环境音频数据中的目标噪声数据。
4.根据权利要求2所述的方法,其特征在于,所述从所述音频数据中剔除所述目标噪声数据,输出降噪后的音频数据,包括:
从所述环境音频数据中剔除所述目标噪声数据;
将剔除所述目标噪声数据的环境音频数据和所述语音音频数据进行合并,输出降噪后的音频数据。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
识别剔除所述目标噪声数据的环境音频数据,得到所述剔除所述目标噪声数据的环境音频数据的伪标签;所述伪标签用于表征所述环境音频数据的噪声类型;
将用于训练噪声分类模型的带标签的训练数据和所述带伪标签的环境音频数据混合得到混合训练数据;
根据所述混合训练数据对所述噪声分类模型进行训练,得到更新后的噪声分类模型。
6.根据权利要求5所述的方法,其特征在于,所述识别剔除所述目标噪声数据的环境音频数据,得到所述剔除所述目标噪声数据的环境音频数据的伪标签,包括:
将剔除所述目标噪声数据的环境音频数据输入所述噪声分类模型,得到所述剔除所述目标噪声数据的环境音频数据的伪标签。
7.一种语音处理装置,其特征在于,所述装置包括:
信息获取模块,用于获取音频数据和所述音频数据被采集位置的图像信息;
场景确定模块,用于根据所述图像信息确定所述音频数据对应的场景信息;
噪声确定模块,用于从噪声库中确定与所述场景信息对应的候选噪声数据,对比所述候选噪声数据与音频确定所述音频信息中的目标噪声数据;
输出模块,用于从所述音频数据中剔除所述目标噪声数据,输出降噪后的音频数据。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210194881.XA CN114566160A (zh) | 2022-03-01 | 2022-03-01 | 语音处理方法、装置、计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210194881.XA CN114566160A (zh) | 2022-03-01 | 2022-03-01 | 语音处理方法、装置、计算机设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114566160A true CN114566160A (zh) | 2022-05-31 |
Family
ID=81715052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210194881.XA Pending CN114566160A (zh) | 2022-03-01 | 2022-03-01 | 语音处理方法、装置、计算机设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114566160A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117537918A (zh) * | 2023-11-30 | 2024-02-09 | 广东普和检测技术有限公司 | 室内噪声检测方法以及相关装置 |
-
2022
- 2022-03-01 CN CN202210194881.XA patent/CN114566160A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117537918A (zh) * | 2023-11-30 | 2024-02-09 | 广东普和检测技术有限公司 | 室内噪声检测方法以及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321958B (zh) | 神经网络模型的训练方法、视频相似度确定方法 | |
CN111428088A (zh) | 视频分类方法、装置及服务器 | |
CN111062871A (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
CN111680678B (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
EP3620982B1 (en) | Sample processing method and device | |
CN114549913B (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
WO2023138188A1 (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
CN115083435B (zh) | 音频数据处理方法、装置、计算机设备和存储介质 | |
CN112989116A (zh) | 一种视频推荐方法、系统及装置 | |
CN114625918A (zh) | 视频推荐方法、装置、设备、存储介质及程序产品 | |
CN113923378B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN114566160A (zh) | 语音处理方法、装置、计算机设备、存储介质 | |
CN114420135A (zh) | 基于注意力机制的声纹识别方法及装置 | |
CN109992679A (zh) | 一种多媒体数据的分类方法及装置 | |
CN111709473A (zh) | 对象特征的聚类方法及装置 | |
CN114155388B (zh) | 一种图像识别方法、装置、计算机设备和存储介质 | |
WO2022141094A1 (zh) | 模型生成方法、图像处理方法、装置及可读存储介质 | |
CN115146103A (zh) | 图像检索方法、装置、计算机设备、存储介质和程序产品 | |
Bak et al. | A 1d cnn-lstm using wav2vec 2.0 for violent scene discrimination | |
CN111460214B (zh) | 分类模型训练方法、音频分类方法、装置、介质及设备 | |
WO2021147084A1 (en) | Systems and methods for emotion recognition in user-generated video(ugv) | |
CN115240656A (zh) | 音频识别模型的训练、音频识别方法、装置和计算机设备 | |
WO2022141092A1 (zh) | 模型生成方法、图像处理方法、装置及可读存储介质 | |
CN114049634B (zh) | 一种图像识别方法、装置、计算机设备和存储介质 | |
CN116433989B (zh) | 特征增强方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |