CN111128243A - 噪声数据获取方法、装置及存储介质 - Google Patents

噪声数据获取方法、装置及存储介质 Download PDF

Info

Publication number
CN111128243A
CN111128243A CN201911354765.4A CN201911354765A CN111128243A CN 111128243 A CN111128243 A CN 111128243A CN 201911354765 A CN201911354765 A CN 201911354765A CN 111128243 A CN111128243 A CN 111128243A
Authority
CN
China
Prior art keywords
data
noise data
noise
audio data
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911354765.4A
Other languages
English (en)
Other versions
CN111128243B (zh
Inventor
王展
胡小鹏
顾振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Keda Technology Co Ltd
Original Assignee
Suzhou Keda Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Keda Technology Co Ltd filed Critical Suzhou Keda Technology Co Ltd
Priority to CN201911354765.4A priority Critical patent/CN111128243B/zh
Publication of CN111128243A publication Critical patent/CN111128243A/zh
Application granted granted Critical
Publication of CN111128243B publication Critical patent/CN111128243B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/765Media network packet handling intermediate
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Abstract

本申请涉及一种噪声数据获取方法、装置及存储介质,属于计算机技术领域,该方法包括:采集音频数据;确定所述音频数据是否包括目标音频数据,所述目标音频数据是除噪声数据之外的音频数据;在所述音频数据未包括所述目标音频数据时确定所述音频数据为所述噪声数据;可以解决人工采集噪声数据的效率较低的问题;由于可以实现噪声数据的自动采集,因此,可以提高噪声数据的采集效率。

Description

噪声数据获取方法、装置及存储介质
技术领域
本申请涉及一种噪声数据获取方法、装置及存储介质,属于计算机技术领域。
背景技术
在通话场景中保证声音的清晰度才能保证通话有效进行。比如:在视频会议场景、语音通话场景等。若通话场景存在噪声,会影响语音的清晰度,降低通话效果。因此,噪声抑制在通话场景中的作用尤为重要。
随着深度学习的发展,基于深度学习的噪声抑制算法广泛使用,例如深度学习噪声抑制(Learning Noise Suppression,RNNoise)等。在使用基于深度学习的噪声抑制算法之前,需要使用大量的噪声数据来训练噪声抑制网络模型。噪声数据的数量越多,对提升噪声抑制网络模型的模型性能越有利。
目前常用的噪声数据的获取方法包括:在各种不同场景人工采集噪声数据。由于噪声数据的采集数量非常大,通过人工采集的效率较低。
发明内容
本申请提供了一种噪声数据获取方法、装置及存储介质,可以解决人工采集噪声数据的效率较低的问题。本申请提供如下技术方案:
第一方面,提供了一种噪声数据获取方法,所述方法包括:
采集音频数据;
确定所述音频数据是否包括目标音频数据,所述目标音频数据是除噪声数据之外的音频数据;
在所述音频数据未包括所述目标音频数据时确定所述音频数据为所述噪声数据。
可选地,所述确定所述音频数据是否包括目标音频数据,包括:
检测所述音频数据是否包括人声;和/或,
检测所述音频数据是否包括音乐。
可选地,所述方法还包括:
确定所述音频数据的最大能量值是否大于或等于能量阈值;
在所述最大能量值大于或等于能量阈值时触发执行所述确定所述音频数据是否包括目标音频数据的步骤。
可选地,所述噪声数据用于训练目标场景中的噪声抑制模型,所述方法还包括:
确定当前是否处于所述目标场景,
在当前处于所述目标场景时触发执行所述采集音频数据的步骤。
可选地,所述在所述音频数据未包括所述目标音频数据时确定所述音频数据为所述噪声数据之后,还包括:
将所述噪声数据发送至服务器,以供所述服务器将所述噪声数据与已存储噪声数据进行匹配;在所述噪声数据与所述已存储噪声数据之间的相似度值小于或等于相似度阈值时存储所述噪声数据。
第二方面,提供了一种噪声数据获取方法,所述方法包括:
接收客户端发送的噪声数据;所述噪声数据是所述客户端采集到音频数据之后,在确定出所述音频数据未包括目标音频数据时发送的;所述目标音频数据是除噪声数据之外的音频数据;
将所述噪声数据与已存储噪声数据进行匹配;
在所述噪声数据与所述已存储噪声数据之间的相似度值小于或等于相似度阈值时存储所述噪声数据。
可选地,所述将所述噪声数据与已存储噪声数据进行匹配,包括:
确定所述噪声数据的哈希值;
将所述噪声数据的哈希值与所述已存储噪声数据的哈希值进行比较。
可选地,所述确定所述噪声数据的哈希值,包括:
对每帧噪声数据进行时频转换,得到每帧噪声数据对应的频域数据;
对所述每帧噪声数据对应的频域数据所构成的矩阵进行离散余弦变换,得到系数矩阵;
对于所述系数矩阵中m×n的二维矩阵,对所述二维矩阵进行二值化处理,得到所述噪声数据的哈希值,所述噪声数据的哈希值为二值化处理后的二维矩阵,所述m和所述n均为正整数。
可选地,所述将所述噪声数据的哈希值与所述已存储噪声数据的哈希值进行比较,包括:
计算噪声数据的哈希值与所述已存储噪声数据的哈希值之间的海明距离,得到所述相似度值。
第三方面,提供了一种噪声数据获取装置,所述装置包括:
音频采集模块,用于采集音频数据;
音频检测模块,用于确定所述音频数据是否包括目标音频数据,所述目标音频数据是除噪声数据之外的音频数据;
音频确定模块,用于在所述音频数据未包括所述目标音频数据时确定所述音频数据为所述噪声数据。
第四方面,提供了一种噪声数据获取装置,所述装置包括:
数据接收模块,用于接收客户端发送的噪声数据;所述噪声数据是所述客户端采集到音频数据之后,在确定出所述音频数据未包括目标音频数据时发送的;,所述目标音频数据是除噪声数据之外的音频数据;
噪声匹配模块,用于将所述噪声数据与已存储噪声数据进行匹配;
噪声存储模块,用于在所述噪声数据与所述已存储噪声数据之间的相似度值小于或等于相似度阈值时存储所述噪声数据。
第五方面,提供一种噪声数据获取装置,所述装置包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现第一方面所述的噪声数据获取方法;或者,实现第二方面所述的噪声数据获取方法。
第六方面,提供一种计算机可读存储介质,所述存储介质中存储有程序,所述程序由所述处理器加载并执行以实现第一方面所述的噪声数据获取方法;或者,实现第二方面所述的噪声数据获取方法。
本申请的有益效果在于:通过采集音频数据;确定音频数据是否包括目标音频数据,目标音频数据是除噪声数据之外的音频数据;在音频数据未包括目标音频数据时确定音频数据为噪声数据;可以解决人工采集噪声数据的效率较低的问题;由于可以实现噪声数据的自动采集,因此,可以提高噪声数据的采集效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
附图说明
图1是本申请一个实施例提供的噪声数据获取系统的结构示意图;
图2是本申请一个实施例提供的噪声数据获取方法的流程图;
图3是本申请另一个实施例提供的噪声数据获取方法的流程图;
图4是本申请一个实施例提供的噪声数据对应的频域数据的二维矩阵示意图;
图5是本申请另一个实施例提供的噪声数据获取方法的流程图;
图6是本申请一个实施例提供的噪声数据获取装置的框图;
图7是本申请一个实施例提供的噪声数据获取装置的框图;
图8是本申请一个实施例提供的噪声数据获取装置的框图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
首先,对本申请涉及的若干名词进行解释。
脉冲编码调制(Pulse Code Modulation,PCM):是数字通信的编码方式之一。主要过程是将话音、图像等模拟信号每隔一定时间进行取样,使其离散化,同时将抽样值按分层单位四舍五入取整量化,同时将抽样值按一组二进制码来表示抽样脉冲的幅值。
离散余弦变换(Discrete Cosine Transform,DCT):主要用于对数据或图像进行压缩,能够将空域的信号转换到频域上,具有良好的去相关性的性能。
海明距离(Hamming distance):在信息编码中,两个合法代码对应位上编码不同的位数称为码距,又称海明距离。举例如下:10101和00110从第一位开始依次有第一位、第四位、第五位不同,则海明距离为3。
图1是本申请一个实施例提供的噪声数据获取系统的结构示意图,如图1所示,该系统至少包括:客户端110和服务器120。
客户端110用于为用户提供语音通话场景。客户端110可以是视频会议客户端等支持语音通话的应用程序,本实施例不对客户端110的实现方式作限定。
可选地,客户端110运行于终端中,该终端可以是视频会议终端、计算机、手机、平板电脑等具有音频采集及播放功能的电子设备,本实施例不对终端的类型作限定。终端中设置有音频采集设备,比如:麦克风组件。
客户端110用于采集音频数据;确定音频数据是否包括目标音频数据;在音频数据未包括目标音频数据时确定音频数据为噪声数据。
其中,目标音频数据是除噪声数据之外的音频数据。比如:目标音频数据是人声、和/或音乐等。可选地,目标音频数据可以由用户设置;或者,默认设置在客户端110中。
客户端110通过有线或者无线的方式与服务器120通信相连。
可选地,客户端110确定出噪声数据之后,将该噪声数据发送至服务器120。
服务器120可以实现为独立的服务器主机;或者,实现为多台服务器主机构成的服务器集群,本实施例不对服务器120的实现方式作限定。
服务器120用于接收客户端110发送的噪声数据;将噪声数据与已存储噪声数据进行匹配;在噪声数据与已存储噪声数据之间的相似度值小于或等于相似度阈值时存储噪声数据。
可选地,客户端110在确定出噪声数据后,也可以将噪声数据与已存储噪声数据进行匹配;在噪声数据与已存储噪声数据之间的相似度值小于或等于相似度阈值时存储噪声数据。
可选地,本申请中,客户端110或者服务器120获取到噪声数据后,使用该噪声数据训练噪声抑制网络模型。噪声抑制网络模型用于识别并筛选音频数据中的噪声。其中,噪声抑制网络模型是基于神经网络模型建立得到的,比如:深度学习噪声抑制(Learning NoiseSuppression,RNNoise)等,本实施例不对噪声抑制网络模型的类型作限定。
可选地,图1中以客户端110的数量为一个为例进行说明,在实际实现时,客户端110的数量可以为多个,本实施例不对客户端110的数量作限定。
图2是本申请一个实施例提供的噪声数据获取方法的流程图,本实施例以该方法应用于图1所示的噪声数据获取系统中为例进行说明。该方法至少包括以下几个步骤:
步骤201,客户端采集音频数据。
在一个示例中,客户端实时采集音频数据。
在另一个示例中,客户端确定当前是否处于目标场景,在当前处于目标场景时采集音频数据。在当前未处于目标场景时再次执行确定当前是否处于目标场景的步骤。
可选地,目标场景包括但不限于:视频会议场景、语音通话场景等,目标场景是指需要进行噪声抑制的场景。
以目标场景为视频会议场景为例,客户端确定当前是否开启视频会议;在开启视频会议(即处于目标场景)时采集音频数据。此时,客户端可以是视频会议客户端;或者,也可以是监听视频会议客户端的其它客户端,本实施例不对客户端的实现方式作限定。
可选地,音频数据可以是PCM数据,
步骤202,客户端确定音频数据是否包括目标音频数据。
其中,目标音频数据是除噪声数据之外的音频数据,比如:人声、音乐等。目标音频数据可以是用户确定的;或者,也可以是客户端中默认设置的。
若目标音频数据是用户确定的,则客户端提供有多种目标音频数据供用户选择,获取用户选择的目标音频数据。目标音频数据即为不视为噪声的音频数据。
示意性地,客户端确定音频数据是否包括目标音频数据,包括:客户端检测音频数据是否包括人声;和/或,检测音频数据是否包括音乐。
其中,客户端可以使用神经网络模型检测人声和音乐;或者,使用语音识别算法识别人声、使用并行处理基因检测器检测音乐等,本实施例不对检测人声和音乐的方式作限定。
在目标音频数据包括人声和音乐时,客户端可以先检测音频数据是否包括人声;在不包括人声时再检测音频数据是否包括音乐;在包括人声时流程结束。在不包括音乐时执行步骤203;在包括音乐时流程结束。或者,客户端可以先检测音频数据是否包括音乐;在不包括音乐时再检测音频数据是否包括人声;在包括音乐时流程结束。在不包括人声时执行步骤203;在包括音人声时流程结束。或者,客户端可以同时检测是否包括音乐和是否包括人声;在包括音乐和人声中的至少一种时流程结束;在不包括音乐和人声时执行步骤203。
由于在音频数据的能量较低时,该音频数据即使不是目标音频数据,可能也无法被用户感知,此时,将该音频数据作为噪声数据来训练噪声抑制模型,并不会提高噪声抑制模型。基于此,客户端可以对能量较低的音频数据进行筛除。可选地,客户端确定音频数据的最大能量值是否大于或等于能量阈值;在最大能量值大于或等于能量阈值时再执行确定音频数据是否包括目标音频数据的步骤。在最大能量值小于能量阈值时流程结束。
能量阈值预设在客户端中,本实施例不对能量阈值的取值作限定。
步骤203,在音频数据未包括目标音频数据时,客户端确定音频数据为噪声数据。
可选地,客户端确定出噪声数据之后,也可以不执行步骤204-207。或者,客户端在确定出噪声数据之后,也可以由客户端执行步骤206和207。
为了更清楚地理解客户端获取噪声数据的过程,参考图3,图3以目标场景为视频会议场景、目标音频数据包括人声和音乐为例进行说明,该过程至少包括步骤31-37:
步骤31,获取视频会议状态;
步骤32,基于视频会议状态确定当前场景是否是视频会议场景;若是,则执行步骤33;若否,则执行步骤31;
步骤33,采集音频数据;
步骤34,获取音频数据的能量值;
步骤35,确定音频数据的能量值是否大于或等于能量阈值;若是,则执行步骤36;若否,对下一音频数据,执行步骤34;
步骤36,检测音频数据是否包括人声;若是,则对下一音频数据,执行步骤34;若否,则执行步骤37;
步骤37,检测音频数据是否包括音乐;若是,则对下一音频数据,执行步骤34;若否,则执行步骤204。
步骤204,客户端将噪声数据发送至服务器。
噪声数据供服务器与已存储噪声数据进行匹配;在噪声数据与已存储噪声数据之间的相似度值小于或等于相似度阈值时存储噪声数据。
步骤205,服务器接收客户端发送的噪声数据。
其中,噪声数据是客户端采集到音频数据之后,在确定出音频数据未包括目标音频数据时发送的;目标音频数据是除噪声数据之外的音频数据。
步骤206,服务器将噪声数据与已存储噪声数据进行匹配。
在一个示例中,服务器可以将噪声数据与已存储噪声数据逐帧进行匹配。
在另一个示例中,服务器将噪声数据与已存储噪声数据进行匹配包括:确定噪声数据的哈希值;将噪声数据的哈希值与已存储噪声数据的哈希值进行比较。
其中,确定噪声数据的哈希值,包括:
1、对每帧噪声数据进行时频转换,得到每帧噪声数据对应的频域数据。
使用快速傅里叶变换(fast Fourier transform,FFT)对每帧噪声数据进行时频转换,假设各帧噪声数据对应的频域数据如图4所示的二维矩阵M1,该二维矩阵的行为以时间轴为顺序的帧ID,列为频率的映射。其中,若音频数据存在对应的频率,则在二维矩阵中映射为1;若音频数据不存在对应的频率,则在二维矩阵中映射为0。
2、对每帧噪声数据对应的频域数据所构成的矩阵进行离散余弦变换,得到系数矩阵。
由于人能够听到的声音频率范围是20Hz~20KHz,因此,只需要提取预设频率范围内的噪声数据进行训练即可。基于此,客户端可以在确定出噪声数据的频域数据之后,对预设频率范围内的频率数据进行离散余弦变换,得到系数矩阵。比如:使用20Hz~20KHz频域范围内的频域数据。
当然,客户端也可以使用全部的频域数据进行离散余弦变换。
3、对于系数矩阵中m×n的二维矩阵,对二维矩阵进行二值化处理,得到噪声数据的哈希值,噪声数据的哈希值为二值化处理后的二维矩阵,m和n均为正整数。
在一个示例中,m×n二维矩阵位于系数矩阵的左上角;当然,m×n二维矩阵也可以是其它位置的二维矩阵,本实施例不对m×n二维矩的获取方式作限定。
对二维矩阵进行二值化处理包括:对于二维矩阵中的每个值,若该值大于系数矩阵的平均值,则二值化为1;若小于或等于系数矩阵的平均值,则二值化为0。
将噪声数据的哈希值与已存储噪声数据的哈希值进行比较,包括:计算噪声数据的哈希值与已存储噪声数据的哈希值之间的海明距离,得到相似度值。
换句话说,客户端将噪声数据的哈希值中的每个元素与已存储噪声数据的哈希值中对应的元素一一进行比较;将相同元素的个数确定为相似度值。
步骤207,在噪声数据与已存储噪声数据之间的相似度值小于或等于相似度阈值时,服务器存储噪声数据。
相似度阈值预设在服务器中,本实施例不对相似度阈值的取值作限定。
为了更清楚地理解服务器获取噪声数据的过程,参考图5,该过程至少包括步骤51-58:
步骤51,获取客户端发送的噪声数据;
步骤52,对噪声数据进行FFT变换;
步骤53,获取预设频率范围内的频域数据;
步骤54,计算频域数据的哈希值;
步骤55,将频域数据的哈希值与已存储噪声数据的哈希值进行比较,得到相似度值;
步骤56,确定相似度值是否小于或等于相似度阈值;若是,则执行步骤57;若否,则执行步骤58;
步骤57,存储噪声数据,流程结束;
步骤58,删除噪声数据。
综上所述,本实施例提供的噪声数据获取方法,通过采集音频数据;确定音频数据是否包括目标音频数据,目标音频数据是除噪声数据之外的音频数据;在音频数据未包括目标音频数据时确定音频数据为噪声数据;可以解决人工采集噪声数据的效率较低的问题;由于可以实现噪声数据的自动采集,因此,可以提高噪声数据的采集效率。
另外,通过在当前处于目标场景时才采集噪声数据,使用该噪声数据训练和/或测试噪声抑制网络模型,可以使得客户端采集到的噪声数据更符合噪声抑制网络模型的使用场景,从而提高噪声抑制网络模型的网络性能。
另外,通过客户端筛选最大能量值大于或等于能量阈值的音频数据;服务器获取预设频率范围内的频域数据,可以使得获取到的噪声数据是人类能够感知的噪声数据,提高噪声数据的有效性。
另外,通过筛除包括人声和音乐的音频数据,可以使得客户端采集到的噪声数据均为用户不期望听到的噪声,提高噪声数据的有效性。
另外,通过将噪声数据与已存储噪声数据进行匹配;筛除与已存储噪声数据的相似度值大于相似度阈值的噪声数据,可以保证噪声数据的多样性,提高通过该噪声数据训练得到的噪声抑制网络模型的性能。
可选地,步骤201-204可单独实现为客户端侧的实施例;步骤205-207可单独实现为服务器侧的实施例。
图6是本申请一个实施例提供的噪声数据获取装置的框图,本实施例以该装置应用于图1所示的噪声数据获取系统中的客户端110为例进行说明。该装置至少包括以下几个模块:音频采集模块610、音频检测模块620和音频确定模块630。
音频采集模块610,用于采集音频数据;
音频检测模块620,用于确定所述音频数据是否包括目标音频数据,所述目标音频数据是除噪声数据之外的音频数据;
音频确定模块630,用于在所述音频数据未包括所述目标音频数据时确定所述音频数据为所述噪声数据。
相关细节参考上述方法实施例。
图7是本申请一个实施例提供的噪声数据获取装置的框图,本实施例以该装置应用于图1所示的噪声数据获取系统中的服务器120为例进行说明。该装置至少包括以下几个模块:数据接收模块710、噪声匹配模块720和噪声存储模块730。
数据接收模块710,用于接收客户端发送的噪声数据;所述噪声数据是所述客户端采集到音频数据之后,在确定出所述音频数据未包括目标音频数据时发送的;所述目标音频数据是除噪声数据之外的音频数据;
噪声匹配模块720,用于将所述噪声数据与已存储噪声数据进行匹配;
噪声存储模块730,用于在所述噪声数据与所述已存储噪声数据之间的相似度值小于或等于相似度阈值时存储所述噪声数据。
相关细节参考上述方法实施例。
需要说明的是:上述实施例中提供的噪声数据获取装置在进行噪声数据获取时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将噪声数据获取装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的噪声数据获取装置与噪声数据获取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图8是本申请一个实施例提供的噪声数据获取装置的框图,该装置可以是包含图1所示的噪声数据获取系统中客户端110的装置;或者,也可以是服务器120。该装置至少包括处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如:4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA
(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的噪声数据获取方法。
在一些实施例中,噪声数据获取装置还可选包括有:外围设备接口和至少一个外围设备。处理器801、存储器802和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地,外围设备包括但不限于:音频采集组件、射频电路、触摸显示屏、音频电路、和电源等。
当然,噪声数据获取装置还可以包括更少或更多的组件,本实施例对此不作限定。
可选地,本申请还提供有一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的噪声数据获取方法。
可选地,本申请还提供有一种计算机产品,该计算机产品包括计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的噪声数据获取方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (13)

1.一种噪声数据获取方法,其特征在于,所述方法包括:
采集音频数据;
确定所述音频数据是否包括目标音频数据,所述目标音频数据是除噪声数据之外的音频数据;
在所述音频数据未包括所述目标音频数据时确定所述音频数据为所述噪声数据。
2.根据权利要求1所述的方法,其特征在于,所述确定所述音频数据是否包括目标音频数据,包括:
检测所述音频数据是否包括人声;和/或,
检测所述音频数据是否包括音乐。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述音频数据的最大能量值是否大于或等于能量阈值;
在所述最大能量值大于或等于能量阈值时触发执行所述确定所述音频数据是否包括目标音频数据的步骤。
4.根据权利要求1至3任一所述的方法,其特征在于,所述噪声数据用于训练目标场景中的噪声抑制模型,所述方法还包括:
确定当前是否处于所述目标场景,
在当前处于所述目标场景时触发执行所述采集音频数据的步骤。
5.根据权利要求1至3任一所述的方法,其特征在于,所述在所述音频数据未包括所述目标音频数据时确定所述音频数据为所述噪声数据之后,还包括:
将所述噪声数据发送至服务器,以供所述服务器将所述噪声数据与已存储噪声数据进行匹配;在所述噪声数据与所述已存储噪声数据之间的相似度值小于或等于相似度阈值时存储所述噪声数据。
6.一种噪声数据获取方法,其特征在于,所述方法包括:
接收客户端发送的噪声数据;所述噪声数据是所述客户端采集到音频数据之后,在确定出所述音频数据未包括目标音频数据时发送的;所述目标音频数据是除噪声数据之外的音频数据;
将所述噪声数据与已存储噪声数据进行匹配;
在所述噪声数据与所述已存储噪声数据之间的相似度值小于或等于相似度阈值时存储所述噪声数据。
7.根据权利要求6所述的方法,其特征在于,所述将所述噪声数据与已存储噪声数据进行匹配,包括:
确定所述噪声数据的哈希值;
将所述噪声数据的哈希值与所述已存储噪声数据的哈希值进行比较。
8.根据权利要求7所述的方法,其特征在于,所述确定所述噪声数据的哈希值,包括:
对每帧噪声数据进行时频转换,得到每帧噪声数据对应的频域数据;
对所述每帧噪声数据对应的频域数据所构成的矩阵进行离散余弦变换,得到系数矩阵;
对于所述系数矩阵中m×n的二维矩阵,对所述二维矩阵进行二值化处理,得到所述噪声数据的哈希值,所述噪声数据的哈希值为二值化处理后的二维矩阵,所述m和所述n均为正整数。
9.根据权利要求7所述的方法,其特征在于,所述将所述噪声数据的哈希值与所述已存储噪声数据的哈希值进行比较,包括:
计算噪声数据的哈希值与所述已存储噪声数据的哈希值之间的海明距离,得到所述相似度值。
10.一种噪声数据获取装置,其特征在于,所述装置包括:
音频采集模块,用于采集音频数据;
音频检测模块,用于确定所述音频数据是否包括目标音频数据,所述目标音频数据是除噪声数据之外的音频数据;
音频确定模块,用于在所述音频数据未包括所述目标音频数据时确定所述音频数据为所述噪声数据。
11.一种噪声数据获取装置,其特征在于,所述装置包括:
数据接收模块,用于接收客户端发送的噪声数据;所述噪声数据是所述客户端采集到音频数据之后,在确定出所述音频数据未包括目标音频数据时发送的;所述目标音频数据是除噪声数据之外的音频数据;
噪声匹配模块,用于将所述噪声数据与已存储噪声数据进行匹配;
噪声存储模块,用于在所述噪声数据与所述已存储噪声数据之间的相似度值小于或等于相似度阈值时存储所述噪声数据。
12.一种噪声数据获取装置,其特征在于,所述装置包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现如权利要求1至5任一项所述的噪声数据获取方法;或者,实现如权利要求6至9任一项所述的噪声数据获取方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有程序,所述程序被处理器执行时用于实现如权利要求1至5任一项所述的噪声数据获取方法;或者,实现如权利要求6至9任一项所述的噪声数据获取方法。
CN201911354765.4A 2019-12-25 2019-12-25 噪声数据获取方法、装置及存储介质 Active CN111128243B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911354765.4A CN111128243B (zh) 2019-12-25 2019-12-25 噪声数据获取方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911354765.4A CN111128243B (zh) 2019-12-25 2019-12-25 噪声数据获取方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111128243A true CN111128243A (zh) 2020-05-08
CN111128243B CN111128243B (zh) 2022-12-06

Family

ID=70503515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911354765.4A Active CN111128243B (zh) 2019-12-25 2019-12-25 噪声数据获取方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111128243B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027743B1 (en) * 2007-10-23 2011-09-27 Adobe Systems Incorporated Adaptive noise reduction
CN103747254A (zh) * 2014-01-27 2014-04-23 深圳大学 一种基于时域感知哈希的视频篡改检测方法和装置
CN106326388A (zh) * 2016-08-17 2017-01-11 乐视控股(北京)有限公司 一种信息处理方法和装置
CN106356071A (zh) * 2016-08-30 2017-01-25 广州市百果园网络科技有限公司 一种噪声检测方法,及装置
CN109257490A (zh) * 2018-08-30 2019-01-22 Oppo广东移动通信有限公司 音频处理方法、装置、穿戴式设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027743B1 (en) * 2007-10-23 2011-09-27 Adobe Systems Incorporated Adaptive noise reduction
CN103747254A (zh) * 2014-01-27 2014-04-23 深圳大学 一种基于时域感知哈希的视频篡改检测方法和装置
CN106326388A (zh) * 2016-08-17 2017-01-11 乐视控股(北京)有限公司 一种信息处理方法和装置
CN106356071A (zh) * 2016-08-30 2017-01-25 广州市百果园网络科技有限公司 一种噪声检测方法,及装置
CN109257490A (zh) * 2018-08-30 2019-01-22 Oppo广东移动通信有限公司 音频处理方法、装置、穿戴式设备及存储介质

Also Published As

Publication number Publication date
CN111128243B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
US11810569B2 (en) Low power integrated circuit to analyze a digitized audio stream
US20190013033A1 (en) Detecting replay attacks in voice-based authentication
CN110111811B (zh) 音频信号检测方法、装置和存储介质
US20230252986A1 (en) Systems and methods for avoiding inadvertently triggering a voice assistant
US8868419B2 (en) Generalizing text content summary from speech content
CN111710344A (zh) 一种信号处理方法、装置、设备及计算机可读存储介质
CN111667843A (zh) 终端设备的语音唤醒方法、系统、电子设备、存储介质
CN111724781A (zh) 音频数据的存储方法、装置、终端及存储介质
CN106708461B (zh) 信息处理方法及电子设备
CN112423019B (zh) 调整音频播放速度的方法、装置、电子设备及存储介质
CN111128243B (zh) 噪声数据获取方法、装置及存储介质
US20160232923A1 (en) Method and system for speech detection
US20130304470A1 (en) Electronic device and method for detecting pornographic audio data
CN108417208B (zh) 一种语音输入方法和装置
CN115277959A (zh) 拾音控制方法、拾音控制装置、电子设备及存储介质
CN113436613A (zh) 语音识别方法、装置、电子设备及存储介质
CN111028860A (zh) 音频数据处理方法、装置、计算机设备以及存储介质
CN110798580A (zh) 远程多方语音会议的噪声去除方法、装置及电子设备
CN112735455A (zh) 声音信息的处理方法和装置
TWI806210B (zh) 聲音浮水印的處理方法及聲音浮水印處理裝置
CN107369442A (zh) 一种语音消息展示方法、装置及电子设备
CN113676593B (zh) 视频录制方法、装置、电子设备及存储介质
CN106202460A (zh) 流媒体文件的推送方法及系统
CN117411988A (zh) 一种音频收音方法、装置及计算机设备
CN114598914A (zh) 一种基于视频的人声分离方法、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant