CN107068161B - 基于人工智能的语音降噪方法、装置和计算机设备 - Google Patents

基于人工智能的语音降噪方法、装置和计算机设备 Download PDF

Info

Publication number
CN107068161B
CN107068161B CN201710245329.8A CN201710245329A CN107068161B CN 107068161 B CN107068161 B CN 107068161B CN 201710245329 A CN201710245329 A CN 201710245329A CN 107068161 B CN107068161 B CN 107068161B
Authority
CN
China
Prior art keywords
voice
noise
point information
sampling point
noise reduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710245329.8A
Other languages
English (en)
Other versions
CN107068161A (zh
Inventor
邹伟
李先刚
崔玮玮
胡静远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710245329.8A priority Critical patent/CN107068161B/zh
Publication of CN107068161A publication Critical patent/CN107068161A/zh
Priority to US15/856,180 priority patent/US10867618B2/en
Application granted granted Critical
Publication of CN107068161B publication Critical patent/CN107068161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Abstract

本申请提出一种基于人工智能的语音降噪方法、装置和计算机设备,上述基于人工智能的语音降噪方法包括:接收待处理的带噪语音;对所述待处理的带噪语音进行预处理,获得预定格式的带噪语音;按照所述预定格式中的采样率对所述预定格式的带噪语音进行采样,获得带噪语音的采样点信息;通过深度学习降噪模型对所述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息;根据所述降噪后的采样点信息,生成干净语音。本申请直接使用采样点信息作为深度学习降噪模型的输入输出,不需要在频谱上进行操作,同时不需要进行噪声估计等繁杂操作,实现简单,并且具有更好的自然度和音质,可以适用于各种噪声类型和环境中。

Description

基于人工智能的语音降噪方法、装置和计算机设备
技术领域
本申请涉及语音处理技术领域,尤其涉及一种基于人工智能的语音降噪方法、装置和计算机设备。
背景技术
随着语音技术的发展,语音识别在日常生活中逐步普及。然而在日常使用的各种场景中,由于存在各种噪声和设备信号的干扰,语音质量和可懂度都会受到影响,并且会带来语音识别系统性能的急剧下降。
现有相关技术中,对语音进行降噪的技术方案主要有:
1、基于谱减的方法,把语音信号从时域转换到频域,再从频谱信号中去除噪声信号的影响;
2、基于滤波器的方法,通过设计特殊的降噪滤波器,减弱噪声信号的影响。
但是,上述方案存在如下的缺点:
1、需要对带噪语音中的噪声进行估计,实现难度较大,效果不理想;
2、现有技术在频谱上操作时容易引起语音信号的信息丢失及失真,影响语音的可懂度和自然度;
3、不同的语音降噪技术只适用于特定的噪声环境和类型,技术推广性较差。
发明内容
本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于人工智能的语音降噪方法。该方法直接使用采样点信息作为深度学习降噪模型的输入输出,不需要在频谱上进行操作,同时不需要进行噪声估计等繁杂操作,实现简单,并且具有更好的自然度和音质,可以适用于各种噪声类型和环境中。
本申请的第二个目的在于提出一种基于人工智能的语音降噪装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种包含计算机可执行指令的存储介质。
为了实现上述目的,本申请第一方面实施例的基于人工智能的语音降噪方法,包括:接收待处理的带噪语音;对所述待处理的带噪语音进行预处理,获得预定格式的带噪语音;按照所述预定格式中的采样率对所述预定格式的带噪语音进行采样,获得带噪语音的采样点信息;通过深度学习降噪模型对所述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息;根据所述降噪后的采样点信息,生成干净语音。
本申请实施例的基于人工智能的语音降噪方法中,接收待处理的带噪语音之后,对上述待处理的带噪语音进行预处理,获得预定格式的带噪语音,然后按照上述预定格式中的采样率对上述预定格式的带噪语音进行采样,获得带噪语音的采样点信息,通过深度学习降噪模型对上述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息,最后根据上述降噪后的采样点信息,生成干净语音,本方法采用的是直接使用采样点信息作为深度学习降噪模型的输入输出,不需要在频谱上进行操作,同时不需要进行噪声估计等繁杂操作,实现简单;并且不会带来“音乐”噪声等失真问题,具有更好的自然度和音质,带来更好的用户体验;另外,深度学习降噪模型通过对大量带噪语音和干净语音的学习,利用深度方法学习到从带噪语音生成干净语音的能力,适用于各种噪声类型和环境中,具有普遍适用性,便于推广。
为了实现上述目的,本申请第二方面实施例的基于人工智能的语音降噪装置,包括:接收模块,用于接收待处理的带噪语音;预处理模块,用于对所述接收模块接收的待处理的带噪语音进行预处理,获得预定格式的带噪语音;采样模块,用于按照所述预定格式中的采样率对所述预处理模块获得的预定格式的带噪语音进行采样,获得带噪语音的采样点信息;降噪模块,用于通过深度学习降噪模型对所述采样模块获得的带噪语音的采样点信息进行降噪,生成降噪后的采样点信息;生成模块,用于根据所述降噪模块生成的降噪后的采样点信息,生成干净语音。
本申请实施例的基于人工智能的语音降噪装置中,接收模块接收待处理的带噪语音之后,预处理模块对上述待处理的带噪语音进行预处理,获得预定格式的带噪语音,然后采样模块按照上述预定格式中的采样率对上述预定格式的带噪语音进行采样,获得带噪语音的采样点信息,降噪模块通过深度学习降噪模型对上述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息,最后生成模块根据上述降噪后的采样点信息,生成干净语音,本装置采用的是直接使用采样点信息作为深度学习降噪模型的输入输出,不需要在频谱上进行操作,同时不需要进行噪声估计等繁杂操作,实现简单;并且不会带来“音乐”噪声等失真问题,具有更好的自然度和音质,带来更好的用户体验;另外,深度学习降噪模型通过对大量带噪语音和干净语音的学习,利用深度方法学习到从带噪语音生成干净语音的能力,适用于各种噪声类型和环境中,具有普遍适用性,便于推广。
为了实现上述目的,本申请第三方面实施例的计算机设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;接收器,用于接收待处理的带噪语音;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的方法。
为了实现上述目的,本申请第四方面实施例提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上所述的方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请基于人工智能的语音降噪方法一个实施例的流程图;
图2为本申请基于人工智能的语音降噪方法另一个实施例的流程图;
图3为本申请基于人工智能的语音降噪方法再一个实施例的流程图;
图4为本申请基于人工智能的语音降噪装置一个实施例的结构示意图;
图5为本申请基于人工智能的语音降噪装置另一个实施例的结构示意图;
图6为本申请计算机设备一个实施例的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
人工智能(Artificial Intelligence;以下简称:AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
图1为本申请基于人工智能的语音降噪方法一个实施例的流程图,如图1所示,上述基于人工智能的语音降噪方法可以包括:
步骤101,接收待处理的带噪语音。
步骤102,对上述待处理的带噪语音进行预处理,获得预定格式的带噪语音。
其中,上述预定格式可以为采样率16000赫兹(即1秒时长的语音有16000个采样点),16位量化,单通道的脉冲编码调制(Pulse Code Modulation;以下简称:PCM)格式。
当然,本实施例对上述预定格式不作限定,可以在具体实现时,根据实现需求和/或系统性能等自行设定。
步骤103,按照上述预定格式中的采样率对上述预定格式的带噪语音进行采样,获得带噪语音的采样点信息。
本实施例中,将待处理的带噪语音处理为预定格式的带噪语音之后,可以按照上述预定格式中的采样率即16000赫兹,对上述预定格式的带噪语音进行采样,获得带噪语音的采样点信息。
步骤104,通过深度学习降噪模型对上述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息。
具体地,在获得带噪语音的采样点信息之后,可以将获得的带噪语音的采样点信息作为深度学习降噪模型的输入,通过深度学习降噪模型对上述带噪语音的采样点信息进行降噪,生成对应时刻的降噪后的采样点信息。
步骤105,根据上述降噪后的采样点信息,生成干净语音。
本实施例中,在深度学习降噪模型生成降噪后的采样点信息之后,就可以根据上述降噪后的采样点信息,生成干净语音。
上述基于人工智能的语音降噪方法中,接收待处理的带噪语音之后,对上述待处理的带噪语音进行预处理,获得预定格式的带噪语音,然后按照上述预定格式中的采样率对上述预定格式的带噪语音进行采样,获得带噪语音的采样点信息,通过深度学习降噪模型对上述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息,最后根据上述降噪后的采样点信息,生成干净语音,本方法采用的是直接使用采样点信息作为深度学习降噪模型的输入输出,不需要在频谱上进行操作,同时不需要进行噪声估计等繁杂操作,实现简单;并且不会带来“音乐”噪声等失真问题,具有更好的自然度和音质,带来更好的用户体验;另外,深度学习降噪模型通过对大量带噪语音和干净语音的学习,利用深度方法学习到从带噪语音生成干净语音的能力,适用于各种噪声类型和环境中,具有普遍适用性,便于推广。
图2为本申请基于人工智能的语音降噪方法另一个实施例的流程图,如图2所示,本申请图1所示实施例中,步骤104之前,还可以包括:
步骤201,训练获得深度学习降噪模型。
图2中以步骤201在步骤101之前执行为例示出,但本实施例并不仅限于此,步骤201可以与步骤101~步骤103先后执行,或者并行执行,本实施例对此不作限定。
图3为本申请基于人工智能的语音降噪方法再一个实施例的流程图,如图3所示,本申请图2所示实施例中步骤201可以包括:
步骤301,收集干净语音和上述干净语音对应的带噪语音。
具体实现时,在收集干净语音和上述干净语音对应的带噪语音的时候,可以先收集干净语音,然后在干净语音中加入噪声(例如:汽车环境的噪声),从而获得上述干净语音对应的带噪语音。
步骤302,对上述干净语音和上述干净语音对应的带噪语音进行预处理,获得预定格式的干净语音和对应的预定格式的带噪语音。
其中,上述预定格式可以为采样率16000赫兹(即1秒时长的语音有16000个采样点),16位量化,单通道的PCM格式。
当然,本实施例对上述预定格式不作限定,可以在具体实现时,根据实现需求和/或系统性能等自行设定。
步骤303,按照预定的长度对上述预定格式的干净语音和对应的预定格式的带噪语音进行切片。
本实施例中,对上述干净语音和上述干净语音对应的带噪语音进行预处理之后,还需要按照预定的长度对上述预定格式的干净语音和对应的预定格式的带噪语音进行切片,将上述预定格式的干净语音和对应的预定格式的带噪语音切分为等长的具有上述预定的长度的语音片段。
其中,上述预定的长度可以在具体实现时,根据实现需求和/或系统性能等自行设定,本实施例对上述预定的长度的长短不作限定,举例来说,上述预定的长度可以为1.25秒。
步骤304,按照上述预定格式中的采样率对切片后的干净语音和对应的切片后的带噪语音分别进行采样,获得干净语音的采样点信息和对应的带噪语音的采样点信息。
本实施例中,对上述预定格式的干净语音和对应的预定格式的带噪语音进行切片之后,就可以按照上述预定格式中的采样率即16000赫兹,对切片后的干净语音和对应的切片后的带噪语音分别进行采样,获得干净语音的采样点信息和对应的带噪语音的采样点信息。
步骤305,将上述带噪语音的采样点信息作为深度学习模型的输入,对应时刻的干净语音的采样点信息作为上述深度学习模型的输出,对上述深度学习模型进行训练,获得深度学习降噪模型。
具体地,获得干净语音的采样点信息和对应的带噪语音的采样点信息之后,可以将上述带噪语音的采样点信息作为深度学习模型的输入,对应时刻的干净语音的采样点信息作为上述深度学习模型的输出,对上述深度学习模型进行训练,即可获得深度学习降噪模型,当然,对上述深度学习模型进行训练的过程还包括模型参数选择及调整等过程,在此不再赘述。
上述基于人工智能的语音降噪方法采用的是直接使用采样点信息作为深度学习降噪模型的输入输出,不需要在频谱上进行操作,同时不需要进行噪声估计等繁杂操作,实现简单;并且不会带来“音乐”噪声等失真问题,具有更好的自然度和音质,带来更好的用户体验;另外,深度学习降噪模型通过对大量带噪语音和干净语音的学习,利用深度方法学习到从带噪语音生成干净语音的能力,适用于各种噪声类型和环境中,具有普遍适用性,便于推广。
图4为本申请基于人工智能的语音降噪装置一个实施例的结构示意图,本实施例中的基于人工智能的语音降噪装置可以实现本申请图1~图3所示实施例提供的方法。如图4所示,上述基于人工智能的语音降噪装置可以包括:接收模块41、预处理模块42、采样模块43、降噪模块44和生成模块45;
其中,接收模块41,用于接收待处理的带噪语音。
预处理模块42,用于对接收模块41接收的待处理的带噪语音进行预处理,获得预定格式的带噪语音;
其中,上述预定格式可以为采样率16000赫兹(即1秒时长的语音有16000个采样点),16位量化,单通道的PCM格式。
当然,本实施例对上述预定格式不作限定,可以在具体实现时,根据实现需求和/或系统性能等自行设定。
采样模块43,用于按照上述预定格式中的采样率对预处理模块42获得的预定格式的带噪语音进行采样,获得带噪语音的采样点信息;本实施例中,将待处理的带噪语音处理为预定格式的带噪语音之后,采样模块43可以按照上述预定格式中的采样率即16000赫兹,对上述预定格式的带噪语音进行采样,获得带噪语音的采样点信息。
降噪模块44,用于通过深度学习降噪模型对采样模块43获得的带噪语音的采样点信息进行降噪,生成降噪后的采样点信息;具体地,在获得带噪语音的采样点信息之后,降噪模块44可以将获得的带噪语音的采样点信息作为深度学习降噪模型的输入,通过深度学习降噪模型对上述带噪语音的采样点信息进行降噪,生成对应时刻的降噪后的采样点信息。
生成模块45,用于根据降噪模块44生成的降噪后的采样点信息,生成干净语音。本实施例中,在深度学习降噪模型生成降噪后的采样点信息之后,生成模块45就可以根据上述降噪后的采样点信息,生成干净语音。
上述基于人工智能的语音降噪装置中,接收模块41接收待处理的带噪语音之后,预处理模块42对上述待处理的带噪语音进行预处理,获得预定格式的带噪语音,然后采样模块43按照上述预定格式中的采样率对上述预定格式的带噪语音进行采样,获得带噪语音的采样点信息,降噪模块44通过深度学习降噪模型对上述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息,最后生成模块45根据上述降噪后的采样点信息,生成干净语音,本装置采用的是直接使用采样点信息作为深度学习降噪模型的输入输出,不需要在频谱上进行操作,同时不需要进行噪声估计等繁杂操作,实现简单;并且不会带来“音乐”噪声等失真问题,具有更好的自然度和音质,带来更好的用户体验;另外,深度学习降噪模型通过对大量带噪语音和干净语音的学习,利用深度方法学习到从带噪语音生成干净语音的能力,适用于各种噪声类型和环境中,具有普遍适用性,便于推广。
图5为本申请基于人工智能的语音降噪装置另一个实施例的结构示意图,与图4所示的基于人工智能的语音降噪装置相比,不同之处在于,图5所示的基于人工智能的语音降噪装置还可以包括:训练模块46;
其中,训练模块46,用于在降噪模块44通过深度学习降噪模型对上述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息之前,训练获得上述深度学习降噪模型。
本实施例中,训练模块46可以包括:收集子模块461、预处理子模块462、切片子模块463、采样子模块464和模型训练子模块465;
其中,收集子模块461,用于收集干净语音和上述干净语音对应的带噪语音;具体实现时,收集子模块461在收集干净语音和上述干净语音对应的带噪语音的时候,可以先收集干净语音,然后在干净语音中加入噪声(例如:汽车环境的噪声),从而获得上述干净语音对应的带噪语音。
预处理子模块462,用于对收集子模块461收集的干净语音和收集子模块461收集的干净语音对应的带噪语音进行预处理,获得预定格式的干净语音和对应的预定格式的带噪语音;其中,上述预定格式可以为采样率16000赫兹(即1秒时长的语音有16000个采样点),16位量化,单通道的PCM格式。
当然,本实施例对上述预定格式不作限定,可以在具体实现时,根据实现需求和/或系统性能等自行设定。
切片子模块463,用于按照预定的长度对预处理子模块462获得的预定格式的干净语音和对应的预定格式的带噪语音进行切片;本实施例中,预处理子模块462对上述干净语音和上述干净语音对应的带噪语音进行预处理之后,切片子模块463还需要按照预定的长度对上述预定格式的干净语音和对应的预定格式的带噪语音进行切片,将上述预定格式的干净语音和对应的预定格式的带噪语音切分为等长的具有上述预定的长度的语音片段。
其中,上述预定的长度可以在具体实现时,根据实现需求和/或系统性能等自行设定,本实施例对上述预定的长度的长短不作限定,举例来说,上述预定的长度可以为1.25秒。
采样子模块464,用于按照上述预定格式中的采样率对切片子模块463切片后的干净语音和对应的切片后的带噪语音分别进行采样,获得干净语音的采样点信息和对应的带噪语音的采样点信息;本实施例中,切片子模块463对上述预定格式的干净语音和对应的预定格式的带噪语音进行切片之后,采样子模块464就可以按照上述预定格式中的采样率即16000赫兹,对切片后的干净语音和对应的切片后的带噪语音分别进行采样,获得干净语音的采样点信息和对应的带噪语音的采样点信息。
模型训练子模块465,用于将上述带噪语音的采样点信息作为深度学习模型的输入,对应时刻的干净语音的采样点信息作为上述深度学习模型的输出,对上述深度学习模型进行训练,获得上述深度学习降噪模型。
具体地,采样子模块464获得干净语音的采样点信息和对应的带噪语音的采样点信息之后,模型训练子模块465可以将上述带噪语音的采样点信息作为深度学习模型的输入,对应时刻的干净语音的采样点信息作为上述深度学习模型的输出,对上述深度学习模型进行训练,即可获得深度学习降噪模型,当然,模型训练子模块465对上述深度学习模型进行训练的过程还包括模型参数选择及调整等过程,在此不再赘述。
上述基于人工智能的语音降噪装置采用的是直接使用采样点信息作为深度学习降噪模型的输入输出,不需要在频谱上进行操作,同时不需要进行噪声估计等繁杂操作,实现简单;并且不会带来“音乐”噪声等失真问题,具有更好的自然度和音质,带来更好的用户体验;另外,深度学习降噪模型通过对大量带噪语音和干净语音的学习,利用深度方法学习到从带噪语音生成干净语音的能力,适用于各种噪声类型和环境中,具有普遍适用性,便于推广。
图6为本申请计算机设备一个实施例的结构示意图,本实施例中的计算机设备可以作为客户端设备,也可以作为服务器实现本申请提供的基于人工智能的语音降噪方法。上述计算机设备可以包括:一个或多个处理器;存储装置,用于存储一个或多个程序;接收器,用于接收待处理的带噪语音;当上述一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本申请提供的基于人工智能的语音降噪方法。
图6示出了适于用来实现本申请实施方式的示例性计算机设备12的框图。图6显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图6中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本申请提供的基于人工智能的语音降噪方法。
本申请实施例还提供一种包含计算机可执行指令的存储介质,上述计算机可执行指令在由计算机处理器执行时用于执行本申请提供的基于人工智能的语音降噪方法。
上述包含计算机可执行指令的存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(Programmable Gate Array;以下简称:PGA),现场可编程门阵列(Field ProgrammableGate Array;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于人工智能的语音降噪方法,其特征在于,包括:
接收待处理的带噪语音;
对所述待处理的带噪语音进行预处理,获得预定格式的带噪语音;
按照所述预定格式中的采样率对所述预定格式的带噪语音进行采样,获得带噪语音的采样点信息;
通过深度学习降噪模型对所述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息;所述深度学习降噪模型直接采用采样点信息作为输入输出,不需要在频谱上进行操作;
根据所述降噪后的采样点信息,生成干净语音。
2.根据权利要求1所述的方法,其特征在于,所述通过深度学习降噪模型对所述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息之前,还包括:
训练获得所述深度学习降噪模型。
3.根据权利要求2所述的方法,其特征在于,所述训练获得所述深度学习降噪模型包括:
收集干净语音和所述干净语音对应的带噪语音;
对所述干净语音和所述干净语音对应的带噪语音进行预处理,获得预定格式的干净语音和对应的预定格式的带噪语音;
按照预定的长度对所述预定格式的干净语音和对应的预定格式的带噪语音进行切片;
按照所述预定格式中的采样率对切片后的干净语音和对应的切片后的带噪语音分别进行采样,获得干净语音的采样点信息和对应的带噪语音的采样点信息;
将所述带噪语音的采样点信息作为深度学习模型的输入,对应时刻的干净语音的采样点信息作为所述深度学习模型的输出,对所述深度学习模型进行训练,获得所述深度学习降噪模型。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述预定格式为采样率16000赫兹,16位量化,单通道的脉冲编码调制格式。
5.一种基于人工智能的语音降噪装置,其特征在于,包括:
接收模块,用于接收待处理的带噪语音;
预处理模块,用于对所述接收模块接收的待处理的带噪语音进行预处理,获得预定格式的带噪语音;
采样模块,用于按照所述预定格式中的采样率对所述预处理模块获得的预定格式的带噪语音进行采样,获得带噪语音的采样点信息;
降噪模块,用于通过深度学习降噪模型对所述采样模块获得的带噪语音的采样点信息进行降噪,生成降噪后的采样点信息;所述深度学习降噪模型直接采用采样点信息作为输入输出,不需要在频谱上进行操作;
生成模块,用于根据所述降噪模块生成的降噪后的采样点信息,生成干净语音。
6.根据权利要求5所述的装置,其特征在于,还包括:
训练模块,用于在所述降噪模块通过深度学习降噪模型对所述带噪语音的采样点信息进行降噪,生成降噪后的采样点信息之前,训练获得所述深度学习降噪模型。
7.根据权利要求6所述的装置,其特征在于,所述训练模块包括:
收集子模块,用于收集干净语音和所述干净语音对应的带噪语音;
预处理子模块,用于对所述收集子模块收集的干净语音和所述收集子模块收集的干净语音对应的带噪语音进行预处理,获得预定格式的干净语音和对应的预定格式的带噪语音;
切片子模块,用于按照预定的长度对所述预处理子模块获得的预定格式的干净语音和对应的预定格式的带噪语音进行切片;
采样子模块,用于按照所述预定格式中的采样率对所述切片子模块切片后的干净语音和对应的切片后的带噪语音分别进行采样,获得干净语音的采样点信息和对应的带噪语音的采样点信息;
模型训练子模块,用于将所述带噪语音的采样点信息作为深度学习模型的输入,对应时刻的干净语音的采样点信息作为所述深度学习模型的输出,对所述深度学习模型进行训练,获得所述深度学习降噪模型。
8.根据权利要求5-7任意一项所述的装置,其特征在于,所述预定格式为采样率16000赫兹,16位量化,单通道的脉冲编码调制格式。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
接收器,用于接收待处理的带噪语音;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-4中任一所述的方法。
CN201710245329.8A 2017-04-14 2017-04-14 基于人工智能的语音降噪方法、装置和计算机设备 Active CN107068161B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710245329.8A CN107068161B (zh) 2017-04-14 2017-04-14 基于人工智能的语音降噪方法、装置和计算机设备
US15/856,180 US10867618B2 (en) 2017-04-14 2017-12-28 Speech noise reduction method and device based on artificial intelligence and computer device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710245329.8A CN107068161B (zh) 2017-04-14 2017-04-14 基于人工智能的语音降噪方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN107068161A CN107068161A (zh) 2017-08-18
CN107068161B true CN107068161B (zh) 2020-07-28

Family

ID=59600268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710245329.8A Active CN107068161B (zh) 2017-04-14 2017-04-14 基于人工智能的语音降噪方法、装置和计算机设备

Country Status (2)

Country Link
US (1) US10867618B2 (zh)
CN (1) CN107068161B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108346433A (zh) * 2017-12-28 2018-07-31 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN108831440A (zh) * 2018-04-24 2018-11-16 中国地质大学(武汉) 一种基于机器学习及深度学习的声纹降噪方法及系统
CN109256150B (zh) * 2018-10-12 2021-11-30 北京创景咨询有限公司 基于机器学习的语音情感识别系统及方法
CN109410935A (zh) * 2018-11-01 2019-03-01 平安科技(深圳)有限公司 一种基于语音识别的目的地搜索方法及装置
CN109817239A (zh) * 2018-12-24 2019-05-28 龙马智芯(珠海横琴)科技有限公司 语音的降噪方法及装置
CN109587362B (zh) * 2018-12-24 2020-06-26 龙马智芯(珠海横琴)科技有限公司 回声抑制的处理方法和装置
CN109584895B (zh) * 2018-12-24 2019-10-25 龙马智芯(珠海横琴)科技有限公司 语音降噪方法及装置
JP7376593B2 (ja) * 2018-12-31 2023-11-08 インテル・コーポレーション 人工知能を利用した安全保障システム
CN109872723A (zh) * 2019-03-19 2019-06-11 深圳睿捷科技服务有限公司 基于人工智能的楼宇信息处理方法及装置
CN110211598A (zh) * 2019-05-17 2019-09-06 北京华控创为南京信息技术有限公司 智能语音降噪通信方法及装置
CN110335616A (zh) * 2019-07-18 2019-10-15 平安科技(深圳)有限公司 语音数据降噪方法、装置、计算机设备和存储介质
CN110933235B (zh) * 2019-11-06 2021-07-27 杭州哲信信息技术有限公司 一种基于机器学习的智能呼叫系统中的噪声识别方法
CN111429930B (zh) * 2020-03-16 2023-02-28 云知声智能科技股份有限公司 一种基于自适应采样率的降噪模型处理方法及系统
CN112053702B (zh) * 2020-09-30 2024-03-19 北京大米科技有限公司 一种语音处理的方法、装置及电子设备
US11397681B2 (en) 2020-12-21 2022-07-26 Aux Mode Inc. Multi-cache based digital output generation
CN113936698B (zh) * 2021-09-26 2023-04-28 度小满科技(北京)有限公司 音频数据的处理方法、装置以及电子设备
US20230419961A1 (en) * 2022-06-27 2023-12-28 The University Of Chicago Analysis of conversational attributes with real time feedback

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0566795A (ja) * 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 雑音抑圧装置とその調整装置
EP0633658A3 (en) * 1993-07-06 1996-01-17 Hughes Aircraft Co Automatic gain control circuit coupled to the transmission and activated by speech.
CN103632680B (zh) * 2012-08-24 2016-08-10 华为技术有限公司 一种语音质量评估方法、网元及系统
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
WO2016022588A1 (en) * 2014-08-04 2016-02-11 Flagler Llc Voice tallying system
US20170061978A1 (en) * 2014-11-07 2017-03-02 Shannon Campbell Real-time method for implementing deep neural network based speech separation
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
CN104952448A (zh) * 2015-05-04 2015-09-30 张爱英 一种双向长短时记忆递归神经网络的特征增强方法及系统
CN105513590A (zh) * 2015-11-23 2016-04-20 百度在线网络技术(北京)有限公司 语音识别的方法和装置
US10741195B2 (en) * 2016-02-15 2020-08-11 Mitsubishi Electric Corporation Sound signal enhancement device
CN108463848B (zh) * 2016-03-23 2019-12-20 谷歌有限责任公司 用于多声道语音识别的自适应音频增强
US10657437B2 (en) * 2016-08-18 2020-05-19 International Business Machines Corporation Training of front-end and back-end neural networks

Also Published As

Publication number Publication date
US10867618B2 (en) 2020-12-15
CN107068161A (zh) 2017-08-18
US20180301158A1 (en) 2018-10-18

Similar Documents

Publication Publication Date Title
CN107068161B (zh) 基于人工智能的语音降噪方法、装置和计算机设备
CN108615535B (zh) 语音增强方法、装置、智能语音设备和计算机设备
CN108335694B (zh) 远场环境噪声处理方法、装置、设备和存储介质
CN105448303A (zh) 语音信号的处理方法和装置
CN112259116B (zh) 一种音频数据的降噪方法、装置、电子设备及存储介质
CN111249727B (zh) 游戏特效生成方法及装置、存储介质、电子设备
CN112309414B (zh) 基于音频编解码的主动降噪方法、耳机及电子设备
CN113192528B (zh) 单通道增强语音的处理方法、装置及可读存储介质
EP4189677B1 (en) Noise reduction using machine learning
CN111739544B (zh) 语音处理方法、装置、电子设备及存储介质
CN112992190B (zh) 音频信号的处理方法、装置、电子设备和存储介质
CN116913258B (zh) 语音信号识别方法、装置、电子设备和计算机可读介质
CN116403594B (zh) 基于噪声更新因子的语音增强方法和装置
CN113674752B (zh) 音频信号的降噪方法、装置、可读介质和电子设备
CN113571080A (zh) 语音增强方法、装置、设备及存储介质
KR20110024969A (ko) 음성신호에서 통계적 모델을 이용한 잡음 제거 장치 및 방법
CN111312223A (zh) 语音分割模型的训练方法、装置和电子设备
WO2022166738A1 (zh) 语音增强方法、装置、设备及存储介质
CN114360572A (zh) 语音去噪方法、装置、电子设备及存储介质
CN114783455A (zh) 用于语音降噪的方法、装置、电子设备和计算机可读介质
CN114333891A (zh) 一种语音处理方法、装置、电子设备和可读介质
CN112542157A (zh) 语音处理方法、装置、电子设备及计算机可读存储介质
CN111444384A (zh) 一种音频关键点确定方法、装置、设备及存储介质
CN117334198B (zh) 语音信号处理方法、装置、电子设备和计算机可读介质
CN110880957B (zh) 声波通信方法及装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant