CN111243619A - 语音信号分割模型的训练方法、装置和计算机设备 - Google Patents
语音信号分割模型的训练方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN111243619A CN111243619A CN202010011573.XA CN202010011573A CN111243619A CN 111243619 A CN111243619 A CN 111243619A CN 202010011573 A CN202010011573 A CN 202010011573A CN 111243619 A CN111243619 A CN 111243619A
- Authority
- CN
- China
- Prior art keywords
- mel frequency
- voice
- processing
- spectrogram
- human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 95
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012549 training Methods 0.000 title claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 112
- 238000005070 sampling Methods 0.000 claims abstract description 37
- 238000003062 neural network model Methods 0.000 claims abstract description 21
- 238000002372 labelling Methods 0.000 claims abstract description 8
- 238000001228 spectrum Methods 0.000 claims description 102
- 238000012795 verification Methods 0.000 claims description 102
- 238000010586 diagram Methods 0.000 claims description 78
- 230000005236 sound signal Effects 0.000 claims description 51
- 230000000875 corresponding effect Effects 0.000 claims description 39
- 238000012937 correction Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 13
- 230000002596 correlated effect Effects 0.000 claims description 12
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 4
- 238000003672 processing method Methods 0.000 abstract description 8
- 230000007613 environmental effect Effects 0.000 description 4
- 230000003321 amplification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本申请揭示了一种语音信号分割模型的训练方法、装置,声音信号的处理方法和装置,以及计算机设备和存储介质,其中训练方法将各语音信号样本的第一梅尔频谱图进行上采样和下采样处理,得到多张不同级别的衍生梅尔频谱图,然后进行数据标注,得到具有多个梅尔频谱图的训练用的样本集,利用样本集中的样本对预设的深度神经网络模型进行训练,得到语音信号分割模型,利用该语音信号分割模型即可以将待处理的语音信号中的人声和背景音准确的分离。即,进行不同细节级别的梅尔频谱图生成及数据的标注,基于图像语义分割的深度神经网络模型训练,从而可以对各类场景的背景噪声进行有效分离,提取出更纯净的人声信号,进而提高声纹识别的准确率和鲁棒性。
Description
技术领域
本申请涉及到声音信号的处理领域,特别是涉及到一种语音信号分割模型的训练方法、装置和计算机设备。
背景技术
日常生活中,各种语音中均带有背景噪声,背景噪音在语音信号上是不可逆的叠加,通过频率滤波器、谱减法等常用方法降噪,会造成人声信号的损失,也就是说,通过现有的方法无法将语音信号中人声和背景噪声准确的分离。
发明内容
本申请的主要目的为提供一种语音信号分割模型的训练方法、装置和计算机设备,旨在解决现有技术中无法将语音信号中人声和背景噪声准确的分离的技术问题。
为了实现上述发明目的,本申请提出一种语音信号分割模型的训练方法,包括:
获取语音信号样本,其中,所述语音信号样本包括多个;
将各所述语音信号样本分别处理成与其对应的第一梅尔频谱图;
对各所述第一梅尔频谱图进行预设级别的上采样处理和下采样处理,使每一张所述第一梅尔频谱图衍生出与其对应的多张不同级别的衍生梅尔频谱图;
接收对每一张所述衍生梅尔频谱图的数据标注,得到梅尔频谱图样本集,其中,所述数据标注是每一张衍生梅尔频谱图上的不同信号被标注的人声标记或背景音标记;
利用所述梅尔频谱图样本集对预设的基于图像语义分割的深度神经网络模型中进行训练,得到所述语音信号分割模型,所述语音信号分割模型用于提取梅尔频谱图中的人声频谱图。
本申请还提供一种语音信号的处理方法,使用如上述语音信号分割模型的训练方法训练得到的语音信号分割模型,所述处理方法包括:
获取待处理的语音信号;
将所述待处理的语音信号处理成第二梅尔频谱图;
将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的第一人声频谱图。
进一步地,将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的人声频谱图的步骤之后,包括:
将所述第二梅尔频谱图进行预设的上采样和下采样处理,得到多张上采样梅尔频谱图和多张下采样梅尔频谱图;
将多张上采样梅尔频谱图和多张下采样梅尔频谱图分别输入到所述语音信号分割模型中进行处理,得到对应多张上采样梅尔频谱图和多张下采样梅尔频谱图的多张第二人声频谱图;
将所述第一人声频谱图和多张所述第二人声频谱图进行汇总处理,得带第三人声频谱图。
进一步地,将所述第一人声频谱图和多张所述第二人声频谱图进行汇总处理,得带第三人声频谱图的步骤之后,包括:
将所述第三人声频谱图输入到预设的声纹识别模型中进行声纹识别。
进一步地,将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的第一人声频谱图的步骤之后,包括:
将所述第一人声频谱图输入到人声修正模型进行修正处理。
进一步地,所述人声修正模型的训练方法,包括:
获取不同人在无背景音下的多个第一验证声音信号,以及在有背景音的环境下的多个第二验证声音信号;其中,同一人的第一验证声音信号和第二验证声音信号相互关联;
分别将多个所述第一验证声音信号和多个所述第二验证声音信号分别处理成梅尔频谱图后输入到所述语音信号分割模型中进行处理,得到多个所述第一验证声音信号对应的多个第一验证人声频谱图和多个所述第二验证声音信号对应的多个第二验证人声频谱图;其中,同一人的第一验证人声频谱图与第二验证人声频谱图相互关联;
将多个所述第一验证人声频谱图和多个多个第二验证人声频谱图作为训练样本输入到预设的神经网络模型中,进行将所述第二验证人声频谱图向着与其关联的第一验证人声频谱图修正的训练,得到所述人声修正模型。
本申请还提供一种语音信号分割模型的训练装置,包括:
第一获取单元,用于获取语音信号样本,其中,所述语音信号样本包括多个;
第一处理单元,用于将各所述语音信号样本分别处理成与其对应的第一梅尔频谱图;
采样单元,用于对各所述第一梅尔频谱图进行预设级别的上采样处理和下采样处理,使每一张所述第一梅尔频谱图衍生出与其对应的多张不同级别的衍生梅尔频谱图;
标注单元,用于接收对每一张所述衍生梅尔频谱图的数据标注,得到梅尔频谱图样本集,其中,所述数据标注是每一张衍生梅尔频谱图上的不同信号被标注的人声标记或背景音标记;
训练单元,用于利用所述梅尔频谱图样本集对预设的基于图像语义分割的深度神经网络模型中进行训练,得到所述语音信号分割模型,所述语音信号分割模型用于提取梅尔频谱图中的人声频谱图。
本申请还提供一种语音信号的处理装置,使用如上述语音信号分割模型的训练方法训练得到的语音信号分割模型,所述处理装置包括:
第二获取单元,用于获取待处理的语音信号;
第二处理单元,用于将所述待处理的语音信号处理成第二梅尔频谱图;
信号分隔单元,用于将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的第一人声频谱图。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请中,将各语音信号样本的第一梅尔频谱图进行上采样和下采样处理,得到多张不同级别的衍生梅尔频谱图,然后进行数据标注,从而得到具有多个梅尔频谱图的训练用的样本集,然后利用样本集中的样本对预设的深度神经网络模型进行训练,得到语音信号分割模型,利用该语音信号分割模型即可以将待处理的语音信号中的人声和背景音准确的分离。即,进行不同细节级别的梅尔频谱图生成及数据的标注,基于图像语义分割的深度神经网络模型训练,从而可以对各类场景的背景噪声进行有效分离,提取出更纯净的人声信号,并且分离出的频谱图结果可以直接进入声纹模型中处理,提高声纹识别时的准确率和鲁棒性。整个过程更高效快速,并且降低了信号损失。
附图说明
图1为本申请一实施例的语音信号分割模型的训练方法的流程示意图;
图2为本申请一实施例的语音信号的处理方法的流程示意图;
图3为本申请一实施例的语音信号分割模型的训练装置的结构程示意图;
图4为本申请一实施例的语音信号的处理装置的流程示意图;
图5为本申请一实施例的计算机设备的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,一种语音信号分割模型的训练方法,包括:
S11、获取语音信号样本,其中,所述语音信号样本包括多个;
S12、将各所述语音信号样本分别处理成与其对应的第一梅尔频谱图;
S13、对各所述第一梅尔频谱图进行预设级别的上采样处理和下采样处理,使每一张所述第一梅尔频谱图衍生出与其对应的多张不同级别的衍生梅尔频谱图;
S14、接收对每一张所述衍生梅尔频谱图的数据标注,得到梅尔频谱图样本集,其中,所述数据标注是每一张衍生梅尔频谱图上的不同信号被标注的人声标记或背景音标记;
S15、利用所述梅尔频谱图样本集对预设的基于图像语义分割的深度神经网络模型中进行训练,得到所述语音信号分割模型,所述语音信号分割模型用于提取梅尔频谱图中的人声频谱图。
如上述步骤S11所述,上述语音信号样本是指带有人声和背景噪音的语音信号,背景噪音是指人在发出人声时,所处环境的环境音。上述语音样本信号中的背景噪音可以是不同环境产生的,比如操场的环境音、地铁站的环境音、公交车上的环境音等等。
如上述步骤S12所述,上述将语音信号样本处理成与其对应的第一梅尔频谱图是声音信号处理的公知技术,再此不在赘述。上述“第一”仅为与下文的其他梅尔频谱图进行区别,无特殊含义。
如上述步骤S13所述,上述上采样是指对梅尔频谱图进行信号放大,下采样是指对梅尔频谱图进行信号缩小,而信号放大或信号缩小的比率则对应则不同的级别。因为每一张梅尔频谱图均会进行预设级别的上采样处理和下采样处理,所以每一张梅尔频谱图会衍生出与其对应的多张不同细节级别的衍生梅尔频谱图,从而可以得到大量的衍生梅尔频谱图。
如上述步骤S14所述,上述数据标注的过程一般是通过人工进行标注的,如工作人员对其认为是人声的信号位置标记1,对其认为是背景噪音的信号标记0等,其中,1代表人声标记,0代表背景音标记等。在其它实施例,也可以使用其他的标记对人声信号和背景音信号进行区分。这些被数据标注的衍生梅尔频谱图就形成了梅尔频谱图样本集。
如上述步骤S15所述,上述基于图像语义分割的深度神经网络模型可以为RefineNet深度模型,训练RefineNet深度模型的过程是一种监督学习的过程,在此不在赘述。利用同一语音信号的不同细节级别的梅尔频谱图,可以体现不同细节级别的特征,从而进行高效的语义分割,高层次的特征有助于频谱图不同区域的分类识别,低层次的特征有助于找到更加清晰细节的分割边界,从而是最终的语音信号分割模型可以准确的提取人声频谱图。
本申请中,对不同细节级别的衍生梅尔频谱图生成及数据的标注,基于图像语义分割的深度神经网络模型训练,从而可以对各类场景的背景噪声进行有效分离,提取出更纯净的人声信号,进而提高声纹识别时的准确率和鲁棒性。
参照图2,本申请实施例提供一种语音信号的处理方法,使用如上述实施例中的方法训练得到的语音信号分割模型,所述处理方法包括:
S21、获取待处理的语音信号;
S22、将所述待处理的语音信号处理成第二梅尔频谱图;
S23、将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的第一人声频谱图。
在本实施例中,待处理的语音信号是一段语音信号。第二梅尔频谱图中的第二仅为用于区分名词使用,并无特殊的含义。因为上述的语音信号分割模型是通过上述语音信号分割模型的训练方法训练而得到,所以可以准确的将待处理的语音信号中人声分割出来,得到与其对应的人声频谱图。在另一个实施例中,上述待处理的语音信号也可以是多个,可以通过上述处理方法同时处理多个待处理的语音信号。
在一个实施例中,上述将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的人声频谱图的步骤S23之后,包括:
S24、将所述第二梅尔频谱图进行预设的上采样和下采样处理,得到多张上采样梅尔频谱图和多张下采样梅尔频谱图;
S25、将多张上采样梅尔频谱图和多张下采样梅尔频谱图分别输入到所述语音信号分割模型中进行处理,得到对应多张上采样梅尔频谱图和多张下采样梅尔频谱图的多张第二人声频谱图;
S26、将所述第一人声频谱图和多张所述第二人声频谱图进行汇总处理,得带第三人声频谱图。
在本实施例中,是将同一个第二梅尔频谱图进行上采集处理和下采集处理,得到不同细节级别的梅尔频谱图,然后将这些不同细节级别的梅尔频谱图分别输入到所述语音信号分割模型中进行处理,即会得到基本相同,但是存在细微差别的多张第二人声频谱图,然后将这些第二人声频谱图和第一人声频谱图进行汇总处理,得到修正后的第三人声频谱图,第三人声频谱图中的人声信号损失相对于第一人声图谱中的人声信号损失更少。在一个具体实施例中,第一人声频谱图和多张所述第二人声频谱图进行汇总处理的方法为:通过现有的图像对比方法,分别提取第二人声频谱图与第一人声频谱图的区别,然后将这些区别叠加到第一人声频谱图上,得到上述第三人声频谱图。叠加顺序可为随机顺序叠加,也可以是按照上采样级别最高的上采样梅尔频谱图对应的第二人声频谱图的区别开始依次叠加到第一人声频谱图上等顺序。
在一个实施例中,上述将所述第一人声频谱图和多张所述第二人声频谱图进行汇总处理,得带第三人声频谱图的步骤S26之后,包括:
S27、将所述第三人声频谱图输入到预设的声纹识别模型中进行声纹识别。
在本实施例中,因为现有的声纹识别模型本身就是基于语音的梅尔频谱图的训练而得到的,所以可以直接将第三人声频谱图输入到预设的声纹识别模型中,无需对上述第三人声频谱图进行在处理,提高声纹识别的效率。又因为第三人声频谱图的人声信号损失小,进一步地提高声纹识别的准确性和鲁棒性。
在一个实施例中,上述将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的第一人声频谱图的步骤S23之后,包括:
S28、将所述第一人声频谱图输入到人声修正模型进行修正处理。
在本实施例中,上述人声修正模型是对第一人声频谱图进一步地修正的神经网络模型,人声修正模型的训练方法可以为:获取不同人在无背景音下的多个第一验证声音信号,以及在有背景音的环境下的多个第二验证声音信号;其中,同一人的第一验证声音信号和第二验证声音信号相互关联;分别将多个所述第一验证声音信号和多个所述第二验证声音信号分别处理成梅尔频谱图后输入到上述的语音信号分割模型中进行处理,得到多个所述第一验证声音信号对应的多个第一验证人声频谱图和多个所述第二验证声音信号对应的多个第二验证人声频谱图;其中,同一人的第一验证人声频谱图与第二验证人声频谱图相互关联;将多个所述第一验证人声频谱图和多个多个第二验证人声频谱图作为训练样本输入到预设的神经网络模型中,进行将所述第二验证人声频谱图向着与其关联的第一验证人声频谱图修正的训练,得到所述人声修正模型。利用上述人声修正模型,可以对第一人声频谱图进行有效修正,从而第一人声频谱图对应的无背景音接近的纯人声的频谱图,在声纹识别的过程中,地提高声纹识别的准确性和鲁棒性。
参照图3,本申请实施例提供一种语音信号分割模型的训练装置,包括:
第一获取单元11,用于获取语音信号样本,其中,所述语音信号样本包括多个;
第一处理单元12,用于将各所述语音信号样本分别处理成与其对应的第一梅尔频谱图;
采样单元13,用于对各所述第一梅尔频谱图进行预设级别的上采样处理和下采样处理,使每一张所述第一梅尔频谱图衍生出与其对应的多张不同级别的衍生梅尔频谱图;
标注单元14,用于接收对每一张所述衍生梅尔频谱图的数据标注,得到梅尔频谱图样本集,其中,所述数据标注是每一张衍生梅尔频谱图上的不同信号被标注的人声标记或背景音标记;
训练单元15,用于利用所述梅尔频谱图样本集对预设的基于图像语义分割的深度神经网络模型中进行训练,得到所述语音信号分割模型,所述语音信号分割模型用于提取梅尔频谱图中的人声频谱图。
参照图4,本申请实施例还提供一种语音信号的处理装置,使用如上述实施例中的方法训练得到的语音信号分割模型,所述处理装置包括:
第二获取单元21,用于获取待处理的语音信号;
第二处理单元22,用于将所述待处理的语音信号处理成第二梅尔频谱图;
信号分隔单元23,用于将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的第一人声频谱图。
在一个实施例中,上述处理装置还包括:
预处理单元,用于将所述第二梅尔频谱图进行预设的上采样和下采样处理,得到多张上采样梅尔频谱图和多张下采样梅尔频谱图;
输入处理单元,用于将多张上采样梅尔频谱图和多张下采样梅尔频谱图分别输入到所述语音信号分割模型中进行处理,得到对应多张上采样梅尔频谱图和多张下采样梅尔频谱图的多张第二人声频谱图;
汇总处理单元,用于将所述第一人声频谱图和多张所述第二人声频谱图进行汇总处理,得带第三人声频谱图。
在一个实施例中,上述处理装置还包括:
声纹识别单元,用于将所述第三人声频谱图输入到预设的声纹识别模型中进行声纹识别。
在一个实施例中,上述处理装置还包括
修正单元,用于将所述第一人声频谱图输入到人声修正模型进行修正处理。
在一个实施例中,上述修正单元包括:
获取模块,用于获取不同人在无背景音下的多个第一验证声音信号,以及在有背景音的环境下的多个第二验证声音信号;其中,同一人的第一验证声音信号和第二验证声音信号相互关联;
分隔模块,用于分别将多个所述第一验证声音信号和多个所述第二验证声音信号分别处理成梅尔频谱图后输入到所述语音信号分割模型中进行处理,得到多个所述第一验证声音信号对应的多个第一验证人声频谱图和多个所述第二验证声音信号对应的多个第二验证人声频谱图;其中,同一人的第一验证人声频谱图与第二验证人声频谱图相互关联;
训练模块,用于将多个所述第一验证人声频谱图和多个多个第二验证人声频谱图作为训练样本输入到预设的神经网络模型中,进行将所述第二验证人声频谱图向着与其关联的第一验证人声频谱图修正的训练,得到所述人声修正模型。
参照图5,本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本集等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音信号分割模型的训练方法,或者一种语音信号的处理方法。具体地:
一种语音信号分割模型的训练方法,包括:获取语音信号样本,其中,所述语音信号样本包括多个;将各所述语音信号样本分别处理成与其对应的第一梅尔频谱图;对各所述第一梅尔频谱图进行预设级别的上采样处理和下采样处理,使每一张所述第一梅尔频谱图衍生出与其对应的多张不同级别的衍生梅尔频谱图;接收对每一张所述衍生梅尔频谱图的数据标注,得到梅尔频谱图样本集,其中,所述数据标注是每一张衍生梅尔频谱图上的不同信号被标注的人声标记或背景音标记;利用所述梅尔频谱图样本集对预设的基于图像语义分割的深度神经网络模型中进行训练,得到所述语音信号分割模型,所述语音信号分割模型用于提取梅尔频谱图中的人声频谱图。
一种语音信号的处理方法,使用如上述方法训练得到的语音信号分割模型,所述处理方法包括:获取待处理的语音信号;将所述待处理的语音信号处理成第二梅尔频谱图;将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的第一人声频谱图。
在一个实施例中,将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的人声频谱图的步骤之后,包括:将所述第二梅尔频谱图进行预设的上采样和下采样处理,得到多张上采样梅尔频谱图和多张下采样梅尔频谱图;将多张上采样梅尔频谱图和多张下采样梅尔频谱图分别输入到所述语音信号分割模型中进行处理,得到对应多张上采样梅尔频谱图和多张下采样梅尔频谱图的多张第二人声频谱图;将所述第一人声频谱图和多张所述第二人声频谱图进行汇总处理,得带第三人声频谱图。
在一个实施例中,将所述第一人声频谱图和多张所述第二人声频谱图进行汇总处理,得带第三人声频谱图的步骤之后,包括:将所述第三人声频谱图输入到预设的声纹识别模型中进行声纹识别。
在一个实施例中,将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的第一人声频谱图的步骤之后,包括:将所述第一人声频谱图输入到人声修正模型进行修正处理。
在一个实施例中,所述人声修正模型的训练方法,包括:获取不同人在无背景音下的多个第一验证声音信号,以及在有背景音的环境下的多个第二验证声音信号;其中,同一人的第一验证声音信号和第二验证声音信号相互关联;分别将多个所述第一验证声音信号和多个所述第二验证声音信号分别处理成梅尔频谱图后输入到所述语音信号分割模型中进行处理,得到多个所述第一验证声音信号对应的多个第一验证人声频谱图和多个所述第二验证声音信号对应的多个第二验证人声频谱图;其中,同一人的第一验证人声频谱图与第二验证人声频谱图相互关联;将多个所述第一验证人声频谱图和多个多个第二验证人声频谱图作为训练样本输入到预设的神经网络模型中,进行将所述第二验证人声频谱图向着与其关联的第一验证人声频谱图修正的训练,得到所述人声修正模型。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种语音信号分割模型的训练方法,或者一种语音信号的处理方法。具体地:
一种语音信号分割模型的训练方法,包括:获取语音信号样本,其中,所述语音信号样本包括多个;将各所述语音信号样本分别处理成与其对应的第一梅尔频谱图;对各所述第一梅尔频谱图进行预设级别的上采样处理和下采样处理,使每一张所述第一梅尔频谱图衍生出与其对应的多张不同级别的衍生梅尔频谱图;接收对每一张所述衍生梅尔频谱图的数据标注,得到梅尔频谱图样本集,其中,所述数据标注是每一张衍生梅尔频谱图上的不同信号被标注的人声标记或背景音标记;利用所述梅尔频谱图样本集对预设的基于图像语义分割的深度神经网络模型中进行训练,得到所述语音信号分割模型,所述语音信号分割模型用于提取梅尔频谱图中的人声频谱图。
一种语音信号的处理方法,使用如上述方法训练得到的语音信号分割模型,所述处理方法包括:获取待处理的语音信号;将所述待处理的语音信号处理成第二梅尔频谱图;将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的第一人声频谱图。
在一个实施例中,将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的人声频谱图的步骤之后,包括:将所述第二梅尔频谱图进行预设的上采样和下采样处理,得到多张上采样梅尔频谱图和多张下采样梅尔频谱图;将多张上采样梅尔频谱图和多张下采样梅尔频谱图分别输入到所述语音信号分割模型中进行处理,得到对应多张上采样梅尔频谱图和多张下采样梅尔频谱图的多张第二人声频谱图;将所述第一人声频谱图和多张所述第二人声频谱图进行汇总处理,得带第三人声频谱图。
在一个实施例中,将所述第一人声频谱图和多张所述第二人声频谱图进行汇总处理,得带第三人声频谱图的步骤之后,包括:将所述第三人声频谱图输入到预设的声纹识别模型中进行声纹识别。
在一个实施例中,将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的第一人声频谱图的步骤之后,包括:将所述第一人声频谱图输入到人声修正模型进行修正处理。
在一个实施例中,所述人声修正模型的训练方法,包括:获取不同人在无背景音下的多个第一验证声音信号,以及在有背景音的环境下的多个第二验证声音信号;其中,同一人的第一验证声音信号和第二验证声音信号相互关联;分别将多个所述第一验证声音信号和多个所述第二验证声音信号分别处理成梅尔频谱图后输入到所述语音信号分割模型中进行处理,得到多个所述第一验证声音信号对应的多个第一验证人声频谱图和多个所述第二验证声音信号对应的多个第二验证人声频谱图;其中,同一人的第一验证人声频谱图与第二验证人声频谱图相互关联;将多个所述第一验证人声频谱图和多个多个第二验证人声频谱图作为训练样本输入到预设的神经网络模型中,进行将所述第二验证人声频谱图向着与其关联的第一验证人声频谱图修正的训练,得到所述人声修正模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种语音信号分割模型的训练方法,其特征在于,包括:
获取语音信号样本,其中,所述语音信号样本包括多个;
将各所述语音信号样本分别处理成与其对应的第一梅尔频谱图;
对各所述第一梅尔频谱图进行预设级别的上采样处理和下采样处理,使每一张所述第一梅尔频谱图衍生出与其对应的多张不同级别的衍生梅尔频谱图;
接收对每一张所述衍生梅尔频谱图的数据标注,得到梅尔频谱图样本集,其中,所述数据标注是每一张衍生梅尔频谱图上的不同信号被标注的人声标记或背景音标记;
利用所述梅尔频谱图样本集对预设的基于图像语义分割的深度神经网络模型中进行训练,得到所述语音信号分割模型,所述语音信号分割模型用于提取梅尔频谱图中的人声频谱图。
2.一种语音信号的处理方法,其特征在于,使用如权利要求1的方法训练得到的语音信号分割模型,所述处理方法包括:
获取待处理的语音信号;
将所述待处理的语音信号处理成第二梅尔频谱图;
将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的第一人声频谱图。
3.根据权利要求2所述的语音信号的处理方法,其特征在于,将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的人声频谱图的步骤之后,包括:
将所述第二梅尔频谱图进行预设的上采样和下采样处理,得到多张上采样梅尔频谱图和多张下采样梅尔频谱图;
将多张上采样梅尔频谱图和多张下采样梅尔频谱图分别输入到所述语音信号分割模型中进行处理,得到对应多张上采样梅尔频谱图和多张下采样梅尔频谱图的多张第二人声频谱图;
将所述第一人声频谱图和多张所述第二人声频谱图进行汇总处理,得带第三人声频谱图。
4.根据权利要求3所述的语音信号的处理方法,其特征在于,将所述第一人声频谱图和多张所述第二人声频谱图进行汇总处理,得带第三人声频谱图的步骤之后,包括:
将所述第三人声频谱图输入到预设的声纹识别模型中进行声纹识别。
5.根据权利要求2所述的语音信号的处理方法,其特征在于,将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的第一人声频谱图的步骤之后,包括:
将所述第一人声频谱图输入到人声修正模型进行修正处理。
6.根据权利要求5所述的语音信号的处理方法,其特征在于,所述人声修正模型的训练方法,包括:
获取不同人在无背景音下的多个第一验证声音信号,以及在有背景音的环境下的多个第二验证声音信号;其中,同一人的第一验证声音信号和第二验证声音信号相互关联;
分别将多个所述第一验证声音信号和多个所述第二验证声音信号分别处理成梅尔频谱图后输入到所述语音信号分割模型中进行处理,得到多个所述第一验证声音信号对应的多个第一验证人声频谱图和多个所述第二验证声音信号对应的多个第二验证人声频谱图;其中,同一人的第一验证人声频谱图与第二验证人声频谱图相互关联;
将多个所述第一验证人声频谱图和多个多个第二验证人声频谱图作为训练样本输入到预设的神经网络模型中,进行将所述第二验证人声频谱图向着与其关联的第一验证人声频谱图修正的训练,得到所述人声修正模型。
7.一种语音信号分割模型的训练装置,其特征在于,包括:
第一获取单元,用于获取语音信号样本,其中,所述语音信号样本包括多个;
第一处理单元,用于将各所述语音信号样本分别处理成与其对应的第一梅尔频谱图;
采样单元,用于对各所述第一梅尔频谱图进行预设级别的上采样处理和下采样处理,使每一张所述第一梅尔频谱图衍生出与其对应的多张不同级别的衍生梅尔频谱图;
标注单元,用于接收对每一张所述衍生梅尔频谱图的数据标注,得到梅尔频谱图样本集,其中,所述数据标注是每一张衍生梅尔频谱图上的不同信号被标注的人声标记或背景音标记;
训练单元,用于利用所述梅尔频谱图样本集对预设的基于图像语义分割的深度神经网络模型中进行训练,得到所述语音信号分割模型,所述语音信号分割模型用于提取梅尔频谱图中的人声频谱图。
8.一种语音信号的处理装置,其特征在于,使用如权利要求1的方法训练得到的语音信号分割模型,所述处理装置包括:
第二获取单元,用于获取待处理的语音信号;
第二处理单元,用于将所述待处理的语音信号处理成第二梅尔频谱图;
信号分隔单元,用于将所述第二梅尔频谱图输入到所述语音信号分割模型中进行处理,得到所述第二梅尔频谱图中的第一人声频谱图。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010011573.XA CN111243619B (zh) | 2020-01-06 | 2020-01-06 | 语音信号分割模型的训练方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010011573.XA CN111243619B (zh) | 2020-01-06 | 2020-01-06 | 语音信号分割模型的训练方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111243619A true CN111243619A (zh) | 2020-06-05 |
CN111243619B CN111243619B (zh) | 2023-09-22 |
Family
ID=70872358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010011573.XA Active CN111243619B (zh) | 2020-01-06 | 2020-01-06 | 语音信号分割模型的训练方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243619B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470688A (zh) * | 2021-07-23 | 2021-10-01 | 平安科技(深圳)有限公司 | 语音数据的分离方法、装置、设备及存储介质 |
CN113488063A (zh) * | 2021-07-02 | 2021-10-08 | 国网江苏省电力有限公司电力科学研究院 | 一种基于混合特征及编码解码的音频分离方法 |
CN113689837A (zh) * | 2021-08-24 | 2021-11-23 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、设备以及存储介质 |
CN113782043A (zh) * | 2021-09-06 | 2021-12-10 | 北京捷通华声科技股份有限公司 | 语音采集方法、装置、电子设备及计算机可读存储介质 |
CN114783454A (zh) * | 2022-04-27 | 2022-07-22 | 北京百度网讯科技有限公司 | 一种模型训练、音频降噪方法、装置、设备及存储介质 |
CN116030800A (zh) * | 2023-03-30 | 2023-04-28 | 南昌航天广信科技有限责任公司 | 一种音频分类识别方法、系统、计算机及可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020198706A1 (en) * | 2001-05-07 | 2002-12-26 | Yu-Hung Kao | Implementing a high accuracy continuous speech recognizer on a fixed-point processor |
CN1967657A (zh) * | 2005-11-18 | 2007-05-23 | 成都索贝数码科技股份有限公司 | 节目制作中的说话人声音自动跟踪变调系统和方法 |
US8639502B1 (en) * | 2009-02-16 | 2014-01-28 | Arrowhead Center, Inc. | Speaker model-based speech enhancement system |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN106971741A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
CN107886943A (zh) * | 2017-11-21 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种声纹识别方法及装置 |
CN108288465A (zh) * | 2018-01-29 | 2018-07-17 | 中译语通科技股份有限公司 | 智能语音切轴的方法、信息数据处理终端、计算机程序 |
CN108847249A (zh) * | 2018-05-30 | 2018-11-20 | 苏州思必驰信息科技有限公司 | 声音转换优化方法和系统 |
CN109074822A (zh) * | 2017-10-24 | 2018-12-21 | 深圳和而泰智能控制股份有限公司 | 特定声音识别方法、设备和存储介质 |
-
2020
- 2020-01-06 CN CN202010011573.XA patent/CN111243619B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020198706A1 (en) * | 2001-05-07 | 2002-12-26 | Yu-Hung Kao | Implementing a high accuracy continuous speech recognizer on a fixed-point processor |
CN1967657A (zh) * | 2005-11-18 | 2007-05-23 | 成都索贝数码科技股份有限公司 | 节目制作中的说话人声音自动跟踪变调系统和方法 |
US8639502B1 (en) * | 2009-02-16 | 2014-01-28 | Arrowhead Center, Inc. | Speaker model-based speech enhancement system |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN106971741A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
CN109074822A (zh) * | 2017-10-24 | 2018-12-21 | 深圳和而泰智能控制股份有限公司 | 特定声音识别方法、设备和存储介质 |
CN107886943A (zh) * | 2017-11-21 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种声纹识别方法及装置 |
CN108288465A (zh) * | 2018-01-29 | 2018-07-17 | 中译语通科技股份有限公司 | 智能语音切轴的方法、信息数据处理终端、计算机程序 |
CN108847249A (zh) * | 2018-05-30 | 2018-11-20 | 苏州思必驰信息科技有限公司 | 声音转换优化方法和系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113488063A (zh) * | 2021-07-02 | 2021-10-08 | 国网江苏省电力有限公司电力科学研究院 | 一种基于混合特征及编码解码的音频分离方法 |
CN113488063B (zh) * | 2021-07-02 | 2023-12-19 | 国网江苏省电力有限公司电力科学研究院 | 一种基于混合特征及编码解码的音频分离方法 |
CN113470688A (zh) * | 2021-07-23 | 2021-10-01 | 平安科技(深圳)有限公司 | 语音数据的分离方法、装置、设备及存储介质 |
CN113470688B (zh) * | 2021-07-23 | 2024-01-23 | 平安科技(深圳)有限公司 | 语音数据的分离方法、装置、设备及存储介质 |
CN113689837A (zh) * | 2021-08-24 | 2021-11-23 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、设备以及存储介质 |
CN113689837B (zh) * | 2021-08-24 | 2023-08-29 | 北京百度网讯科技有限公司 | 音频数据处理方法、装置、设备以及存储介质 |
CN113782043A (zh) * | 2021-09-06 | 2021-12-10 | 北京捷通华声科技股份有限公司 | 语音采集方法、装置、电子设备及计算机可读存储介质 |
CN114783454A (zh) * | 2022-04-27 | 2022-07-22 | 北京百度网讯科技有限公司 | 一种模型训练、音频降噪方法、装置、设备及存储介质 |
CN114783454B (zh) * | 2022-04-27 | 2024-06-04 | 北京百度网讯科技有限公司 | 一种模型训练、音频降噪方法、装置、设备及存储介质 |
CN116030800A (zh) * | 2023-03-30 | 2023-04-28 | 南昌航天广信科技有限责任公司 | 一种音频分类识别方法、系统、计算机及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111243619B (zh) | 2023-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111243619A (zh) | 语音信号分割模型的训练方法、装置和计算机设备 | |
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
Ghai et al. | Literature review on automatic speech recognition | |
CN109346086A (zh) | 声纹识别方法、装置、计算机设备和计算机可读存储介质 | |
EP0549265A2 (en) | Neural network-based speech token recognition system and method | |
CN112562634B (zh) | 多风格音频合成方法、装置、设备及存储介质 | |
CN112466287B (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
CN111081223B (zh) | 一种语音识别方法、装置、设备和存储介质 | |
Sinha et al. | Acoustic-phonetic feature based dialect identification in Hindi Speech | |
KR20220090171A (ko) | 음성 인식 장치, 프로그램 및 그것의 학습 제어 방법 | |
US11132999B2 (en) | Information processing device, information processing method, and non-transitory computer readable storage medium | |
CN113516987A (zh) | 一种说话人识别方法、装置、存储介质及设备 | |
CN112863485A (zh) | 口音语音识别方法、装置、设备及存储介质 | |
Kalinli | Tone and pitch accent classification using auditory attention cues | |
CN113658599A (zh) | 基于语音识别的会议记录生成方法、装置、设备及介质 | |
CN111696524B (zh) | 一种叠字语音识别方法及系统 | |
Pentapati et al. | Dilated Convolution and MelSpectrum for Speaker Identification using Simple Deep Network | |
Hanifa et al. | Comparative analysis on different cepstral features for speaker identification recognition | |
Yousfi et al. | Isolated Iqlab checking rules based on speech recognition system | |
EP4009629A1 (en) | Speech processing device, speech processing method, and recording medium | |
Semary et al. | Using voice technologies to support disabled people | |
Nisa et al. | A speaker identification-verification approach for noise-corrupted and improved speech using fusion features and a convolutional neural network | |
CN113409763B (zh) | 语音纠正方法、装置及电子设备 | |
Astuti et al. | Feature extraction using gaussian-mfcc for speaker recognition system | |
JP7080276B2 (ja) | 分類システム、分類方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |