CN112201270A - 语音噪声的处理方法、装置、计算机设备及存储介质 - Google Patents

语音噪声的处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112201270A
CN112201270A CN202011153509.1A CN202011153509A CN112201270A CN 112201270 A CN112201270 A CN 112201270A CN 202011153509 A CN202011153509 A CN 202011153509A CN 112201270 A CN112201270 A CN 112201270A
Authority
CN
China
Prior art keywords
noise
voice
classification model
sequence
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011153509.1A
Other languages
English (en)
Other versions
CN112201270B (zh
Inventor
罗剑
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011153509.1A priority Critical patent/CN112201270B/zh
Priority to PCT/CN2020/136367 priority patent/WO2021189981A1/zh
Publication of CN112201270A publication Critical patent/CN112201270A/zh
Application granted granted Critical
Publication of CN112201270B publication Critical patent/CN112201270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种语音噪声的处理方法、装置、计算机设备及存储介质,主要在于能够对不同场景下语音噪声的种类进行识别,并根据识别的噪声种类采用适当的降噪处理方式对语音噪声进行处理,以达到最优降噪处理效果。其中方法包括:获取待识别的语音序列;对所述语音序列进行噪音识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别,其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同;基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理。本发明还涉及区块链技术,语音序列以及不同语音噪声对应的最优降噪处理策略存储于区块链中。

Description

语音噪声的处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种语音噪声的处理方法、装置、计算机设备及存储介质。
背景技术
在语音识别技术中,通常需要识别语音序列中的噪声,并对识别的噪声进行降噪处理,以提高后续语音识别的准确率,因此,有效地对语音噪声进行处理十分重要。
目前,在对语音噪声处理的过程中,通常先对语音噪声进行识别,在识别出语音噪声后采用统一的降噪处理方式对语音噪声进行处理。然而,这种方式无法对语音噪声的种类进行识别,不同场景下的语音噪声的种类是不同的,如果均采用相同的降噪处理方式对不同场景下的语音噪声进行处理,所能达到的降噪效果有限,即在不同场景下无法达到最优的降噪效果。
发明内容
本发明提供了一种语音噪声的处理方法、装置、计算机设备及存储介质,主要在于能够对不同场景下语音噪声的种类进行识别,并根据识别的噪声种类采用适当的降噪处理方式对语音噪声进行处理,以达到最优降噪处理效果。
根据本发明的第一个方面,提供一种语音噪声的处理方法,包括:
获取待识别的语音序列;
对所述语音序列进行噪音识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别,其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同;
基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理。
根据本发明的第二个方面,提供一种语音噪声的处理装置,包括:
获取单元,用于获取待识别的语音序列;
确定单元,用于对所述语音序列进行噪声识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别,其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同;
降噪单元,用于基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取待识别的语音序列;
对所述语音序列进行噪音识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别,其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同;
基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取待识别的语音序列;
对所述语音序列进行噪音识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别,其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同;
基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理。
本发明提供的一种语音噪声的处理方法、装置、计算机设备及存储介质,与目前针对不同种类的语音噪声均采用同种降噪策略进行降噪处理的方式相比,本发明能够获取待识别的语音序列;并对所述语音序列进行噪音识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别,其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同;与此同时,基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理,由此通过将噪声分类模型与多个噪声生成模型联合进行训练,从而使得本发明中的噪声分类模型能够对不同场景下语音噪声的种类进行识别,进而能够根据确定的噪声类别,选择最优的降噪处理策略对语音噪声进行处理,能够达到最优的降噪处理效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种语音噪声的处理方法流程图;
图2示出了本发明实施例提供的另一种语音噪声的处理方法流程图;
图3示出了本发明实施例提供的一种语音噪声的处理装置的结构示意图;
图4示出了本发明实施例提供的另一种语音噪声的处理装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,在对语音噪声处理的过程中,通常先对语音噪声进行识别,在识别出语音噪声后采用统一的降噪处理方式对语音噪声进行处理。然而,这种方式无法对语音噪声的种类进行识别,不同场景下的语音噪声的种类是不同的,如果均采用相同的降噪处理方式对不同场景下的语音噪声进行处理,所能达到的降噪效果有限,即在不同场景下无法达到最优的降噪效果。
为了解决上述问题,本发明实施例提供了一种语音噪声的处理方法,如图1所示,所述方法包括:
101、获取待识别的语音序列。
其中,待识别的语音序列为从某场景下获取的用户语音序列,例如,待识别的语音序列为在街道旁采集的一段用户语音序列,或者从工厂中采集的一段用户语音序列,该待识别的语音序列中可能会包含语音噪声,也可能不包含语音噪声,对于本发明实施例,为了提高用户的语音识别精度,需要判断采集的用户语音序列中是否包含语音噪声,如果包含语音噪声,则需要对用户的语音序列进行降噪处理,以便提高用户的语音识别精度,具体进行降噪处理时,可以根据语音噪声的种类选择合适的降噪处理策略对语音噪声进行处理,以达到最优的降噪效果,本发明实施例主要适用于语音噪声的处理,本发明实施例的执行主体为能够对语音噪声进行处理的装置或者设备,可以设置在客户端或者服务器一侧。
具体地,获取用户在某场景下的一段语音序列,在判断该语音序列中是否包含语音噪声之前,需要对获取的用户语音序列进行预处理,具体包括预加重处理、分帧处理和加窗函数处理,由此得到预处理后的语音序列,并将预处理后的语音序列作为待识别的语音序列,以便判断待识别的语音序列中是否包含语音噪声,如果待识别的语音序列中不包含语音噪声,则直接对待识别的语音序列进行语音识别;如果待识别的语音序列中包含语音噪声,则需要进一步确定所包含需要噪声的种类,以便根据确定的语音噪声的种类,选择合适的降噪处理策略进行降噪处理,从而达到最优的降噪效果。
102、对所述语音序列进行噪音识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别。
其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同,此外,不同场景下语音噪声的种类不同,例如,在街道旁采集的语音噪声的种类与工厂中采集的语音噪声的种类不同,对于本发明实施例,为了判断待识别的语音序列中是否包含语音噪声,将待识别的语音序列输入至预设噪声识别模型进行噪声识别,该预设噪声识别模型具体可以为第一预设神经网络模型,在利用第一预设神经网络模型识别语音噪声的过程中,第一预设神经网络模型中的隐藏层会提取待识别的语音序列对应的语音特征,进而根据提取的语音特征判断待识别的语音序列中是否包含语音噪声,如果待识别的语音序列中不包含语音噪声,则直接对提取的语音特征进行语音识别;如果待识别的语音序列中包含语音噪声,则将提取的语音特征输入至预设的噪声分类模型进行噪声分类,所述噪声分类模型具体可以为第二预设神经网络模型,具体进行噪声分类时,利用第二预设神经网络模型中的隐藏层提取语音噪声对应的噪声特征,进而根据提取的噪声特征确定待识别的语音序列中所包含的语音噪声对应的噪声种类,以便根据确定的噪声种类,选择合适的降噪处理策略对待识别的语音序列进行降噪处理,以达到在场景下最优的降噪效果。
103、基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理。
其中,不同种类的语音噪声所适用的最优降噪处理策略不同,例如,针对来自街道旁的语音噪声,由于街道旁的噪声随机性比较大,且噪声的频谱范围较宽,因此可以采用自适应滤波器进行降噪;针对来自工厂中的语音噪声,由于工厂中的语音噪声大多是车间的机器加工噪声,噪声的随机性较小,而且噪声的频谱范围较窄,因此可以采用自适应陷波器进行降噪处理,对于本方实施例,根据确定的语音噪声对应的噪声类别,从预设降噪策略库中选择该噪声类别对应的降噪处理策略,并将其确定为最优降噪处理策略,之后利用该最优降噪处理策略对待识别的语音序列中的语音噪声进行降噪处理,从而针对不同场景下的语音噪声,均能够达到最优降噪处理效果,避免采用统一的降噪处理策略,影像语音噪声的降噪处理效果。
本发明实施例提供的一种语音噪声的处理方法,与目前针对不同种类的语音噪声均采用同种降噪策略进行降噪处理的方式相比,本发明能够获取待识别的语音序列;并对所述语音序列进行噪音识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别,其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同;与此同时,基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理,由此通过将噪声分类模型与多个噪声生成模型联合进行训练,从而使得本发明中的噪声分类模型能够对不同场景下语音噪声的种类进行识别,进而能够根据确定的噪声类别,选择最优的降噪处理策略对语音噪声进行处理,能够达到最优的降噪处理效果。
进一步的,为了更好的说明上述语音噪声的处理过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种语音噪声的处理方法,如图2所示,所述方法包括:
201、获取预设语音样本库中的真实语音序列以及多个随机语音序列,并对所述真实语音序列进行聚类处理,得到不同聚类类别下的真实语音序列。
其中,多个随机语音序列可以服从高斯分布,真实语音序列为在不同场景中采集的用户的真实语音序列,该真实语音序列经过降噪处理,不存在噪声,可以直接进行语音识别,在本发明实施例中,希望利用多个随机语音序列和多个噪声生成模型,模拟用户在不同场景下的真实语音序列,由此生成不同场景下的语音噪声,进而依据生成的不同场景下的语音噪声和不同场景下的真实语音序列,分别构建噪声识别模型和噪声分类模型,以达到能够对语音噪声进行识别和分类的目的。
对于本发明实施例,获取预设样本库中用户的真实语音序列,该真实语音序列来自于不同场景,为了利用不同场景下的真实语音序列和随机语音序列,构建噪声识别模型和噪声分类模型,需要先将预设样本库中的真实语音序列进行聚类处理,基于此,步骤201具体包括:根据预设的欧式距离算法计算不同真实语音序列之间的欧式距离;基于所述欧式距离,对所述真实语音序列进行聚类处理,得到不同聚类类别下的真实语音序列。由于不同场景下的语音序列较为相似,将预设样本库中的语音序列进行聚类处理,得到不同聚类类别下的真实语音序列,并确定不同聚类类别下的真实语音序列所对应的场景,进而能够确定不同场景下的真实语音序列。
具体地,根据预设的欧式距离算法分别计算不同真实语音序列之间的欧式距离,根据计算的欧式距离对真实语音序列进行聚类处理,得到不同聚类类别下的真实语音序列,进而通过提取不同聚类类别下的真实语音序列对应的语音特征,确定不同聚类类别下的真实语音序列对应的场景,例如,确定真实语音序列1-10为在街道旁采集的语音序列,语音序列11-20为在工厂中采集的语音序列,由此能够确定不同场景下的真实语音序列。
202、根据所述多个随机语音序列和所述不同聚类类别下的真实语音序列,构建所述噪声分类模型和所述多个噪声生成模型。
对于本发明实施例,为了构建噪声分类模型和多个噪声生成模型,步骤202具体包括:分别构建初始噪声分类模型和多个初始噪声生成模型;根据所述多个随机语音序列和所述不同聚类类别下的真实语音序列,对所述初始噪声分类模型和所述多个初始噪声生成模型进行联合迭代训练,构建所述噪声分类模型和所述多个噪声生成模型。进一步地,为了能够对语音噪声进行识别,还需要构建噪声识别模型,所述分别构建初始噪声分类模型和多个初始噪声生成模型,包括:分别构建初始噪声识别模型,初始噪声分类模型和多个初始噪声生成模型。
基于此,所述根据所述多个随机语音序列和所述不同聚类类别下的真实语音序列,对所述初始噪声分类模型和所述多个初始噪声生成模型进行联合迭代训练,构建所述噪声分类模型和所述多个噪声生成模型,包括:将所述多个随机语音序列分别输入至所述多个初始噪声生成模型,生成不同种类的语音噪声;将生成的语音噪声和所述真实语音序列分别输入至所述初始噪声噪声识别模型进行噪声识别,得到初始噪声识别结果;提取初始噪声识别结果中语音噪声对应的语音特征,并将其输入至所述初始噪声分类模型进行噪声分类,得到初始噪声分类结果;基于所述初始噪声识别结果和所述初始噪声分类结果,分别构建噪声识别准确度损失函数和噪声分类准确度损失函数;根据噪声识别准确度损失函数和噪声分类准确度损失函数,对所述初始噪声识别模型、所述初始噪声分类模型和所述多个初始噪声生成模型进行联合迭代训练,分别构建噪声识别模型、所述噪声分类模型和所述多个噪声生成模型。其中,预设噪声生成模型采用卷积神经网络。
具体地,通过将不同种类的语音噪声和不同聚类类别下的真实语音序列分别输入至初始噪声识别模型进行噪声识别,得到初始噪声识别结果,之后提取初始识别结果中语音噪声对应的语音特征,将其输入至预设初始噪声分类模型进行噪声分类,得到噪声分类结果,并根据噪声分类结果和噪声识别结果,分别构建噪声识别准确度损失函数和噪声分类准确度损失函数,具体公式如下:
Figure BDA0002741981950000081
Figure BDA0002741981950000082
其中,Lc为噪声识别准确度损失函数,Lc为噪声分类准确度损失韩式,zi为语音噪声,xi为真实语音序列,D代表预设噪声识别模型,G代表预设噪声生成模型,c代表噪声分类模型,为了保证噪声生成模型所生成的语音噪声与真实语音序列更接近,增加噪声识别模型的识别难度,噪声生成模型与噪声识别模型的优化方向是相反的,即噪声生成模型需要最小化预设噪声识别模型的准确率,因此其优化方向是最小化Lc-Ls,而噪声分类模型的训练目的是最大化分类噪声的准确率,因此其优化方向是最大化Lc+Ls,由此通过上述两个优化方程,能够不断对初始噪声生成模型、初始噪声识别模型和初始噪声分类模型进行联合训练,构建噪声生成模型,噪声识别模型和噪声分类模型。
203、获取待识别的语音序列。
其中,待识别的语音序列为从某场景下获取的用户语音序列,该语音序列中可能包含语音噪声,也可能不包含语音噪声,为了确保后续的语音识别结果,如果待识别的语音序列中包含语音噪声,需要对语音噪声进行降噪进行降噪处理,在对语音噪声进行降噪处理时,为提高语音噪声的降噪处理效果,可以进一步对语音噪声的种类进行识别,以便根据语音噪声的种类选择合适的降噪处理策略对其进行降噪处理。
204、对所述语音序列进行噪音识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别。
其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同。对于本发明实施例,为了确定语音噪声对应的噪声种类,步骤204具体包括:对所述语音序列进行语音特征提取,得到所述语音序列对应的语音特征;基于所述语音特征,判断所述语音序列中是否包含语音噪声;若包含语音噪声,则基于提取的语音特征,利用所述噪声分类模型确定所述语音噪声对应的噪声类别。
具体地,将待识别的语音序列输入至噪声识别模型进行噪声识别,在噪声识别的过程中,预设噪声识别模型中的隐藏层会提取待识别的语音序列对应的语音特征,基于提取的语音特征判定待识别的语音序列中是否包含语音噪声,若包含语音噪声,则将提取的语音特征输入至所述噪声分类模型进行噪声分类,以确定语音噪声对应的噪声类别。
205、基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理。
对于本方实施例,根据确定的语音噪声对应的噪声类别,从预设降噪策略库中选择该噪声类别对应的降噪处理策略,并将其确定为最优降噪处理策略,之后利用该最优降噪处理策略对待识别的语音序列中的语音噪声进行降噪处理,从而能够针对不同场景下的语音噪声,均能够达到最优降噪处理效果,避免采用统一的降噪处理策略,影像语音噪声的降噪处理效果。
本发明实施例提供的另一种语音噪声的处理方法,与目前针对不同种类的语音噪声均采用同种降噪策略进行降噪处理的方式相比,本发明能够获取待识别的语音序列;并对所述语音序列进行噪音识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别,其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同;与此同时,基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理,由此通过将噪声分类模型与多个噪声生成模型联合进行训练,从而使得本发明中的噪声分类模型能够对不同场景下语音噪声的种类进行识别,进而能够根据确定的噪声类别,选择最优的降噪处理策略对语音噪声进行处理,能够达到最优的降噪处理效果。
进一步地,作为图1的具体实现,本发明实施例提供了一种语音噪声的处理装置,如图3所示,所述装置包括:获取单元31、确定单元32和降噪单元33。
所述获取单元31,可以用于获取待识别的语音序列。所述获取单元31是本装置中获取待识别的语音序列的主要功能模块。
所述确定单元32,可以用于对所述语音序列进行噪音识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别,其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同。所述确定单元32是本装置中对所述语音序列进行噪音识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别的主要功能模块,也是核心模块。
所述降噪单元33,可以用于基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理。所述降噪单元33是本装置中基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理的主要功能模块。
进一步地,为了确定所述语音噪声对应的噪声类别,如图4所示,所述确定单元32,包括提取模块321、判断模块322和确定模块323。
所述提取模块321,可以用于对所述语音序列进行语音特征提取,得到所述待识别语音序列对应的语音特征。
所述判断模块322,可以用于基于所述语音特征,判断所述语音序列中是否包含语音噪声。
所述确定模块323,可以用于若包含语音噪声,则基于提取的语音特征,利用所述噪声分类模型确定所述语音噪声对应的噪声类别。
进一步地,为了构建预设噪声分类模型和多个噪声生成模型,所述装置还包括:聚类单元34和构建单元35。
所述获取单元31,还可以用于获取预设语音样本库中的真实语音序列以及多个随机语音序列。
所述聚类单元34,可以用于对所述真实语音序列进行聚类处理,得到不同聚类类别下的真实语音序列。
所述构建单元35,可以用于根据所述多个随机语音序列和所述不同聚类类别下的真实语音序列,构建所述噪声分类模型和所述多个噪声生成模型。
进一步地,为了对真实语音序列进行聚类处理,所述聚类单元34,包括:计算模块341和聚类模块342。
所述计算模块341,可以用于根据预设的欧式距离算法计算不同真实语音序列之间的欧式距离。
所述聚类模块342,可以用于基于所述欧式距离,对所述真实语音序列进行聚类处理,得到不同聚类类别下的真实语音序列。
进一步地,为了构建噪声分类模型和多个噪声生成模型,所述构建单元35,包括:第一构建模块351和第二构建模块352。
所述第一构建模块351,可以用于分别构建初始噪声分类模型和多个初始噪声生成模型。
所述第二构建模块352,可以用于根据所述多个随机语音序列和所述不同聚类类别下的真实语音序列,对所述初始噪声分类模型和所述多个初始噪声生成模型进行联合迭代训练,构建所述噪声分类模型和所述多个噪声生成模型。
进一步地,所述第二构建模块352,包括:生成子模块、识别子模块、分类子模块和构建子模块。
所述生成子模块,可以用于将所述多个随机语音序列分别输入至所述多个初始噪声生成模型,生成不同种类的语音噪声。
所述识别子模块,可以用于将生成的的语音噪声和所述真实语音序列分别输入至所述初始噪声噪声识别模型进行噪声识别,得到初始噪声识别结果。
所述分类子模块,可以用于提取初始噪声识别结果中语音噪声对应的语音特征,并将其输入至所述初始噪声分类模型进行噪声分类,得到初始噪声分类结果。
所述构建子模块,可以用于基于所述初始噪声识别结果和所述初始噪声分类结果,分别构建噪声识别准确度损失函数和噪声分类准确度损失函数。
所述构建子模块,还可以用于根据噪声识别准确度损失函数和噪声分类准确度损失函数,对所述初始噪声识别模型、所述初始噪声分类模型和所述多个初始噪声生成模型进行联合迭代训练,分别构建噪声识别模型、所述噪声分类模型和所述多个噪声生成模型。
需要说明的是,本发明实施例提供的一种语音噪声的处理装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待识别语音序列;获取待识别的语音序列;对所述语音序列进行噪音识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别,其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同;基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理。
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取待识别的语音序列;对所述语音序列进行噪音识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别,其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同;基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理。
通过本发明的技术方案,本发明能获取待识别的语音序列;并对所述语音序列进行噪音识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别,其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同;与此同时,基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理,由此通过将噪声分类模型与多个噪声生成模型联合进行训练,从而使得本发明中的噪声分类模型能够对不同场景下语音噪声的种类进行识别,进而能够根据确定的噪声类别,选择最优的降噪处理策略对语音噪声进行处理,能够达到最优的降噪处理效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种语音噪声的处理方法,其特征在于,包括:
获取待识别的语音序列;
对所述语音序列进行噪音识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别,其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同;
基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理。
2.根据权利要求1所述的方法,所述若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别,包括:
对所述语音序列进行语音特征提取,得到所述语音序列对应的语音特征;
基于所述语音特征,判断所述语音序列中是否包含语音噪声;
若包含语音噪声,则基于提取的语音特征,利用所述噪声分类模型确定所述语音噪声对应的噪声类别。
3.根据权利要求1所述的方法,其特征在于,在所述获取待识别的语音序列之前,所述方法还包括:
获取预设语音样本库中的真实语音序列以及多个随机语音序列;
对所述真实语音序列进行聚类处理,得到不同聚类类别下的真实语音序列;
根据所述多个随机语音序列和所述不同聚类类别下的真实语音序列,构建所述噪声分类模型和所述多个噪声生成模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述真实语音序列进行聚类处理,得到不同聚类类别下的真实语音序列,包括:
根据预设的欧式距离算法计算不同真实语音序列之间的欧式距离;
基于所述欧式距离,对所述真实语音序列进行聚类处理,得到不同聚类类别下的真实语音序列。
5.根据权利要求3所述的方法,其特征在于,所述根据所述多个随机语音序列和所述不同聚类类别下的真实语音序列,建预所述噪声分类模型和所述多个噪声生成模型,包括:
分别构建初始噪声分类模型和多个初始噪声生成模型;
根据所述多个随机语音序列和所述不同聚类类别下的真实语音序列,对所述初始噪声分类模型和所述多个初始噪声生成模型进行联合迭代训练,构建所述噪声分类模型和所述多个噪声生成模型。
6.根据权利要求5所述的方法,其特征在于,所述分别构建初始噪声分类模型和多个初始噪声生成模型,包括:
分别构建初始噪声识别模型,初始噪声分类模型和多个初始噪声生成模型;
所述根据所述多个随机语音序列和所述不同聚类类别下的真实语音序列,对所述初始噪声分类模型和所述多个初始噪声生成模型进行联合迭代训练,构建所述噪声分类模型和所述多个噪声生成模型,包括:
将所述多个随机语音序列分别输入至所述多个初始噪声生成模型,生成不同种类的语音噪声;
将生成的的语音噪声和所述真实语音序列分别输入至所述初始噪声噪声识别模型进行噪声识别,得到初始噪声识别结果;
提取初始噪声识别结果中语音噪声对应的语音特征,并将其输入至所述初始噪声分类模型进行噪声分类,得到初始噪声分类结果;
基于所述初始噪声识别结果和所述初始噪声分类结果,分别构建噪声识别准确度损失函数和噪声分类准确度损失函数;
根据噪声识别准确度损失函数和噪声分类准确度损失函数,对所述初始噪声识别模型、所述初始噪声分类模型和所述多个初始噪声生成模型进行联合迭代训练,分别构建噪声识别模型、所述噪声分类模型和所述多个噪声生成模型。
7.根据权利要求3-6任一项所述的方法,其特征在于,所述多个随机语音序列服从高斯分布。
8.一种语音噪声的处理装置,其特征在于,包括:
获取单元,用于获取待识别的语音序列;
确定单元,用于对所述语音序列进行噪声识别,若所述语音序列中包含语音噪声,则利用预设的噪声分类模型确定所述语音噪声对应的噪声类别,其中,所述噪声分类模型是与多个噪声生成模型联合训练得到的,不同噪声生成模型所生成的语音噪声的种类不同;
降噪单元,用于基于所述噪声类别,确定所述语音噪声对应的最优降噪处理策略,并利用所述最优降噪处理策略对所述语音噪声进行降噪处理。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011153509.1A 2020-10-26 2020-10-26 语音噪声的处理方法、装置、计算机设备及存储介质 Active CN112201270B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011153509.1A CN112201270B (zh) 2020-10-26 2020-10-26 语音噪声的处理方法、装置、计算机设备及存储介质
PCT/CN2020/136367 WO2021189981A1 (zh) 2020-10-26 2020-12-15 语音噪声的处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011153509.1A CN112201270B (zh) 2020-10-26 2020-10-26 语音噪声的处理方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112201270A true CN112201270A (zh) 2021-01-08
CN112201270B CN112201270B (zh) 2023-05-23

Family

ID=74011358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011153509.1A Active CN112201270B (zh) 2020-10-26 2020-10-26 语音噪声的处理方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN112201270B (zh)
WO (1) WO2021189981A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118571241B (zh) * 2024-08-02 2024-09-27 深圳波洛斯科技有限公司 一种基于dnn降噪技术的窗口对讲系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1542737A (zh) * 2003-03-12 2004-11-03 ��ʽ����Ntt����Ħ 语音识别噪声自适应系统、方法及程序
US20080270127A1 (en) * 2004-03-31 2008-10-30 Hajime Kobayashi Speech Recognition Device and Speech Recognition Method
EP2154679A2 (en) * 1997-12-24 2010-02-17 Mitsubishi Denki Kabushiki Kaisha Method and apparatus for speech coding
CN101783998A (zh) * 2008-12-22 2010-07-21 奥迪康有限公司 基于用户当前认知负荷的估计运行听力仪器的方法及助听器系统
CN103219011A (zh) * 2012-01-18 2013-07-24 联想移动通信科技有限公司 降噪方法、装置与通信终端
CN104575510A (zh) * 2015-02-04 2015-04-29 深圳酷派技术有限公司 降噪方法、降噪装置和终端
CN109471853A (zh) * 2018-09-18 2019-03-15 平安科技(深圳)有限公司 数据降噪方法、装置、计算机设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710490B (zh) * 2009-11-20 2012-01-04 安徽科大讯飞信息科技股份有限公司 语音评测的噪声补偿方法及装置
US8874441B2 (en) * 2011-01-19 2014-10-28 Broadcom Corporation Noise suppression using multiple sensors of a communication device
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2154679A2 (en) * 1997-12-24 2010-02-17 Mitsubishi Denki Kabushiki Kaisha Method and apparatus for speech coding
CN1542737A (zh) * 2003-03-12 2004-11-03 ��ʽ����Ntt����Ħ 语音识别噪声自适应系统、方法及程序
US20080270127A1 (en) * 2004-03-31 2008-10-30 Hajime Kobayashi Speech Recognition Device and Speech Recognition Method
CN101783998A (zh) * 2008-12-22 2010-07-21 奥迪康有限公司 基于用户当前认知负荷的估计运行听力仪器的方法及助听器系统
CN103219011A (zh) * 2012-01-18 2013-07-24 联想移动通信科技有限公司 降噪方法、装置与通信终端
CN104575510A (zh) * 2015-02-04 2015-04-29 深圳酷派技术有限公司 降噪方法、降噪装置和终端
CN109471853A (zh) * 2018-09-18 2019-03-15 平安科技(深圳)有限公司 数据降噪方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118571241B (zh) * 2024-08-02 2024-09-27 深圳波洛斯科技有限公司 一种基于dnn降噪技术的窗口对讲系统

Also Published As

Publication number Publication date
WO2021189981A1 (zh) 2021-09-30
CN112201270B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN111339990A (zh) 一种基于人脸特征动态更新的人脸识别系统和方法
JP2008542911A (ja) メトリック埋め込みによる画像比較
KR19990010210A (ko) 대용량 패턴 정합 장치 및 방법
CN113611315B (zh) 基于轻量化卷积神经网络的声纹识别方法和装置
CN108197669A (zh) 卷积神经网络的特征训练方法及装置
CN110705584A (zh) 情绪识别方法、装置、计算机装置及存储介质
CN114266894A (zh) 一种图像分割方法、装置、电子设备及存储介质
CN114663685A (zh) 一种行人重识别模型训练的方法、装置和设备
CN112084895A (zh) 一种基于深度学习的行人重识别方法
CN112151052B (zh) 语音增强方法、装置、计算机设备及存储介质
CN114333062A (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
CN114090401A (zh) 处理用户行为序列的方法及装置
CN113627241A (zh) 一种用于行人重识别的背景抑制方法与系统
CN114004364A (zh) 采样优化方法、装置、电子设备及存储介质
CN116071625B (zh) 深度学习模型的训练方法、目标检测方法及装置
CN110263196B (zh) 图像检索方法、装置、电子设备及存储介质
CN112201270B (zh) 语音噪声的处理方法、装置、计算机设备及存储介质
CN111339973A (zh) 一种对象识别方法、装置、设备及存储介质
CN116430317A (zh) 一种辐射源调制样式与个体识别方法及系统
CN112767462B (zh) 基于脊谷特征与深度特征描述符的点云单点对齐方法
CN115270891A (zh) 一种信号对抗样本的生成方法、装置、设备及存储介质
CN114841287A (zh) 分类模型的训练方法、图像分类方法及装置
CN114218428A (zh) 音频数据聚类方法、装置、设备及存储介质
CN112489678A (zh) 一种基于信道特征的场景识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant