CN108257592A - 一种基于长短期记忆模型的人声分割方法及系统 - Google Patents
一种基于长短期记忆模型的人声分割方法及系统 Download PDFInfo
- Publication number
- CN108257592A CN108257592A CN201810026363.0A CN201810026363A CN108257592A CN 108257592 A CN108257592 A CN 108257592A CN 201810026363 A CN201810026363 A CN 201810026363A CN 108257592 A CN108257592 A CN 108257592A
- Authority
- CN
- China
- Prior art keywords
- audio
- split
- voice
- term memory
- shot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000011218 segmentation Effects 0.000 title claims abstract description 12
- 230000007787 long-term memory Effects 0.000 title claims description 55
- 230000006403 short-term memory Effects 0.000 title 1
- 239000013598 vector Substances 0.000 claims abstract description 130
- 238000013528 artificial neural network Methods 0.000 claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 22
- 239000012634 fragment Substances 0.000 claims description 70
- 238000012545 processing Methods 0.000 claims description 60
- 238000012549 training Methods 0.000 claims description 29
- 238000001514 detection method Methods 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 210000004218 nerve net Anatomy 0.000 claims 1
- 230000000306 recurrent effect Effects 0.000 abstract description 10
- 230000015654 memory Effects 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例公开了一种基于长短期记忆模型的人声分割方法及系统,解决了现有的技术中,递归神经网络在处理过长的输入序列时,新的信息会覆盖旧的信息,导致的产生被动遗忘的技术问题。其中方法包括:S1、获取待分割音频,按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量;S2、将所述第一声学特征向量依次输入至已训练的长短期记忆模型神经网络中,逐一得到所述第一声学特征向量的d‑vector特征矢量;S3、将所述d‑vector特征矢量转换为第一标签值,并将所述第一标签值之间的差值在预设阈值之内的所述d‑vector对应的待分割音频片段按照时间顺序拼接,得到分割后的单通道人声音频文件。
Description
技术领域
本发明涉及人声分割技术领域,尤其涉及一种基于长短期记忆模型的人声分割方法及系统。
背景技术
随着信息技术的发和互联网的普及,人们获取数据的途径越来越多,而音频数据作为其中一个大类,包括了语音、音乐和其他的音频信号。由于音频数据呈现爆炸式的增长,如何管理和存储音频则是一个迫切的问题。
传统的基于文本的音频检索采用人工标注的方式,不但成本昂贵,而且效率低。而基于语音识别的检索技术虽然在效率有很大提升,但是却丢失了同样重要的说话人信息。因此,人声分割系统可以很好的弥补相应的缺陷。
因说话人分割和聚类有广泛的应用前景,近年越来越多的研究机构投入到说话人分割聚类的领域。说话人分割与聚类是美国国家标准及技术署每年举办的RT任务之一。RT被广泛定义为音转字和后设资料提取技术的综合,其目的是从语音中提取出适合人或者机器使用的信息,让人们更有效的运用大量的语音资料。在后设资料提取评比类别中,有一个项目就是说话人分割和聚类,它主要解决的是谁在何时说话的问题。而美国国家标准及技术署定义了人声分割的任务:就是在没有任何的先验知识,说话者的身份和说话人的数目都是未知的情况下,从一段录音资料中区分不同说话者的说话区段,并且一一标注出来。
目前的人声分割系统先寻找连续语音中的说话人改变点,将长语音分割成若干段短语音,之后对每段短语音提取特征,再运用机器学习中的一些聚类方法或者递归神经网络去进行聚类和合并。而现有的技术中,递归神经网络在处理过长的输入序列时,新的信息会覆盖旧的信息,导致了产生被动遗忘的技术问题。
发明内容
本发明提供了一种基于长短期记忆模型的人声分割方法及系统,解决了现有的技术中,递归神经网络在处理过长的输入序列时,新的信息会覆盖旧的信息,导致的产生被动遗忘的技术问题。
本发明提供了一种基于长短期记忆模型的人声分割方法,包括:
S1、获取待分割音频,按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量;
S2、将所述第一声学特征向量依次输入至已训练的长短期记忆模型神经网络中,逐一得到所述第一声学特征向量的d-vector特征矢量;
S3、将所述d-vector特征矢量转换为第一标签值,并将所述第一标签值之间的差值在预设阈值之内的所述d-vector对应的待分割音频片段按照时间顺序拼接,得到分割后的单通道人声音频文件。
优选地,所述步骤S1之前还包括:
S01、获取带标签的训练音频,对所述带标签的训练音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
S02、按照第二预设步长和第二预设语音窗长度依次提取所述带标签的训练音频片段的第二声学特征向量;
S03、将所述第二声学特征向量依次输入至长短期记忆模型神经网络中,并以第二声学特征向量对应的第二标签值作为寻优方向,得到已训练的长短期记忆模型神经网络。
优选地,所述步骤S1具体包括:
S11、获取待分割音频,对所述待分割音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
S12、按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量。
优选地,所述步骤S2之后,所述步骤S3之前还包括:
依次对所述d-vector特征矢量对应的待分割音频片段进行语音激活检测,得到有效待分割音频片段或无效待分割音频片段;
将所述无效待分割音频片段删除,保留有效待分割音频片段。
优选地,所述步骤S3具体包括:
将所述d-vector特征矢量转换为第一标签值,并将所述第一标签值之间的差值在预设阈值之内的所述d-vector对应的有效待分割音频片段按照时间顺序拼接,得到分割后的单通道人声音频文件。
本发明提供了一种基于长短期记忆模型的人声分割系统,包括:
处理单元,用于获取待分割音频,按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量;
输入单元,用于将所述第一声学特征向量依次输入至已训练的长短期记忆模型神经网络中,逐一得到所述第一声学特征向量的d-vector特征矢量;
拼接单元,用于将所述d-vector特征矢量转换为第一标签值,并将所述第一标签值之间的差值在预设阈值之内的所述d-vector对应的待分割音频片段按照时间顺序拼接,得到分割后的单通道人声音频文件。
优选地,本发明提供的一种基于长短期记忆模型的人声分割系统还包括:
预处理单元,用于获取带标签的训练音频,对所述带标签的训练音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
提取单元,用于按照第二预设步长和第二预设语音窗长度依次提取所述带标签的训练音频片段的第二声学特征向量;
训练单元,用于将所述第二声学特征向量依次输入至长短期记忆模型神经网络中,并以第二声学特征向量对应的第二标签值作为寻优方向,得到已训练的长短期记忆模型神经网络。
优选地,所述处理单元具体包括:
预处理子单元,用于获取待分割音频,对所述待分割音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
提取子单元,用于按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量。
优选地,本发明提供的一种基于长短期记忆模型的人声分割系统还包括:
语音激活检测单元,用于依次对所述d-vector特征矢量对应的待分割音频片段进行语音激活检测,得到有效待分割音频片段或无效待分割音频片段;
选择单元,用于将所述无效待分割音频片段删除,保留有效待分割音频片段。
优选地,拼接单元具体用于将所述d-vector特征矢量转换为第一标签值,并将所述第一标签值之间的差值在预设阈值之内的所述d-vector对应的有效待分割音频片段按照时间顺序拼接,得到分割后的单通道人声音频文件。
本发明提供了一种基于长短期记忆模型的人声分割方法,包括:S1、获取待分割音频,按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量;S2、将所述第一声学特征向量依次输入至已训练的长短期记忆模型神经网络中,逐一得到所述第一声学特征向量的d-vector特征矢量;S3、将所述d-vector特征矢量转换为第一标签值,并将所述第一标签值之间的差值在预设阈值之内的所述d-vector对应的待分割音频片段按照时间顺序拼接,得到分割后的单通道人声音频文件。
本发明利用已训练的长短期记忆模型神经网络中的输入、输出和遗忘门,选择性遗忘无效的语音信息,保留所有的有效的语音信息,解决了现有的技术中,递归神经网络在处理过长的输入序列时,新的信息会覆盖旧的信息,导致的产生被动遗忘的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种基于长短期记忆模型的人声分割方法的一个实施例的流程示意图;
图2为本发明实施例提供的一种基于长短期记忆模型的人声分割系统的一个实施例的结构示意图。
具体实施方式
本发明实施例提供了一种基于长短期记忆模型的人声分割方法及系统,解决了当前的语音情绪识别处理过程复杂,实现难度高,过准确率低,效率低的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供了一种基于长短期记忆模型的人声分割方法的一个实施例,包括:
步骤101、获取带标签的训练音频,对带标签的训练音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
需要说明的是,带标签的训练音频可以是wav格式音频文件,在提取带标签的训练音频的第二声学特征向量之前,对带标签的训练音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
第二声学特征向量具体包括MFCC特征和/或GFCC特征。
带标签的训练音频指的是已知训练音频中说话人的身份以及对该说话人预设的第二标签值。
步骤102、按照第二预设步长和第二预设语音窗长度依次提取带标签的训练音频片段的第二声学特征向量;
需要说明的是,在对带标签的训练音频进行预处理后,按照第二预设步长和第二预设语音窗长度依次提取带标签的训练音频片段的第二声学特征向量,第二预设语音窗的长度需要大于第二预设步长,例如设置第二预设语音窗的长度为25ms,第二预设步长为10ms,即在第一帧和第二帧之间存在15ms的重叠语音窗。
步骤103、将第二声学特征向量依次输入至长短期记忆模型神经网络中,并以第二声学特征向量对应的第二标签值作为寻优方向,得到已训练的长短期记忆模型神经网络;
需要说明的是,将第二声学特征向量依次输入至长短期记忆模型神经网络中,并以第二声学特征向量对应的第二标签值作为寻优方向,得到已训练的长短期记忆模型神经网络;
长短期记忆模型神经网络(Long-Short Term Memory,LSTM)是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件;
LSTM区别于递归神经网络的地方,主要就在于它在算法中加入了一个判断信息有用与否的“处理器”,这个处理器作用的结构被称为cell。
一个cell当中被放置了三扇门,分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中,可以根据规则来判断是否有用。只有符合算法认证的信息才会留下,不符的信息则通过遗忘门被遗忘,这就解决了递归神经网络被动遗忘的问题;
即确定了长短期记忆模型神经网络的输入和寻优的输出,经过大量的带标签的训练音频片段对长短期记忆模型神经网络进行训练,确定LSTM的规则,得到已训练的长短期记忆模型神经网络。
步骤104、获取待分割音频,对待分割音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
需要说明的是,待分割音频可以是wav格式音频文件,在进行提取待分割音频的第一声学特征向量之前需要对待分割音频进行预处理,预处理具体包括:采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
第一声学特征向量具体包括MFCC特征和/或GFCC特征,且与第二声学特征向量一致。
步骤105、按照第一预设步长和第一预设语音窗长度依次提取待分割音频片段的第一声学特征向量;
需要说明的是,在对待分割音频进行预处理后,按照第一预设步长和第一预设语音窗长度依次提取待分割音频片段的第一声学特征向量,第一预设语音窗的长度需要大于第一预设步长,例如设置第一预设语音窗的长度为25ms,第一预设步长为10ms,即在第一帧和第二帧之间存在15ms的重叠语音窗。
步骤106、将第一声学特征向量依次输入至已训练的长短期记忆模型神经网络中,逐一得到第一声学特征向量的d-vector特征矢量;
需要说明的是,将待分割音频片段提取出的第一声学特征向量按照时间顺序依次输入至已训练的长短期记忆模型神经网络的输入门之中,根据已训练的长短期记忆模型神经网络的规则,由输出门得到第一声学特征向量的d-vector特征矢量。
步骤107、依次对d-vector特征矢量对应的待分割音频片段进行语音激活检测,得到有效待分割音频片段或无效待分割音频片段;
需要说明的是,依次对d-vector特征矢量对应的待分割音频片段进行语音激活检测,得到有效待分割音频片段或无效待分割音频片段,有效待分割音频片段指的是包括人声的待分割音频片段,而无效待分割音频片段指的是噪声的待分割音频片段。
步骤108、将无效待分割音频片段删除,保留有效待分割音频片段;
需要说明的是,将无效待分割音频片段删除,保留有效待分割音频片段,精简最终输出的音频。
步骤109、将d-vector特征矢量转换为第一标签值,并将第一标签值之间的差值在预设阈值之内的d-vector对应的有效待分割音频片段按照时间顺序拼接,得到分割后的单通道人声音频文件;
需要说明的是,将d-vector特征矢量转换为第一标签值,并将第一标签值之间的差值在预设阈值之内的d-vector对应的有效待分割音频片段按照时间顺序拼接,得到分割后的单通道人声音频文件。
本发明利用已训练的长短期记忆模型神经网络中的输入、输出和遗忘门,选择性遗忘无效的语音信息,保留所有的有效的语音信息,解决了现有的技术中,递归神经网络在处理过长的输入序列时,新的信息会覆盖旧的信息,导致的产生被动遗忘的技术问题;
利用长短期记忆模型神经网络,能够实现:
1)主动控制记忆单元中哪些维度可以遗忘,即不是将记忆单元看作整体看待,而是以更小的粒度控制特征的组合;
2)主动控制哪些维度输入或者输出,解决了常数误差旋转。
本发明利用长短期记忆模型神经网络训练数据,取代了传统机器学习聚类方法或者递归神经网络建立模型的过程,实现了高效和准确的聚类和分割,同时大幅度提高了鲁棒性,适应了工业界的未来需求,可对日常生活或专业场景中的多人对话进行更准确的分割。
以上为本发明实施例提供的一种基于长短期记忆模型的人声分割方法的一个实施例,以下为本发明实施例提供的一种基于长短期记忆模型的人声分割系统的一个实施例。
请参阅图2,本发明实施例提供了一种基于长短期记忆模型的人声分割系统的一个实施例,包括:
预处理单元201,用于获取带标签的训练音频,对带标签的训练音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
提取单元202,用于按照第二预设步长和第二预设语音窗长度依次提取带标签的训练音频片段的第二声学特征向量;
训练单元203,用于将第二声学特征向量依次输入至长短期记忆模型神经网络中,并以第二声学特征向量对应的第二标签值作为寻优方向,得到已训练的长短期记忆模型神经网络;
处理单元204,用于获取待分割音频,按照第一预设步长和第一预设语音窗长度依次提取待分割音频片段的第一声学特征向量;
处理单元204具体包括:
预处理子单元2041,用于获取待分割音频,对待分割音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
提取子单元2042,用于按照第一预设步长和第一预设语音窗长度依次提取待分割音频片段的第一声学特征向量。
输入单元205,用于将第一声学特征向量依次输入至已训练的长短期记忆模型神经网络中,逐一得到第一声学特征向量的d-vector特征矢量;
语音激活检测单元206,用于依次对d-vector特征矢量对应的待分割音频片段进行语音激活检测,得到有效待分割音频片段或无效待分割音频片段;
选择单元207,用于将无效待分割音频片段删除,保留有效待分割音频片段;
拼接单元208,用于将d-vector特征矢量转换为第一标签值,并将第一标签值之间的差值在预设阈值之内的d-vector对应的有效待分割音频片段按照时间顺序拼接,得到分割后的单通道人声音频文件。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于长短期记忆模型的人声分割方法,其特征在于,包括:
S1、获取待分割音频,按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量;
S2、将所述第一声学特征向量依次输入至已训练的长短期记忆模型神经网络中,逐一得到所述第一声学特征向量的d-vector特征矢量;
S3、将所述d-vector特征矢量转换为第一标签值,并将所述第一标签值之间的差值在预设阈值之内的所述d-vector对应的待分割音频片段按照时间顺序拼接,得到分割后的单通道人声音频文件。
2.根据权利要求1所述的基于长短期记忆模型的人声分割方法,其特征在于,所述步骤S1之前还包括:
S01、获取带标签的训练音频,对所述带标签的训练音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
S02、按照第二预设步长和第二预设语音窗长度依次提取所述带标签的训练音频片段的第二声学特征向量;
S03、将所述第二声学特征向量依次输入至长短期记忆模型神经网络中,并以第二声学特征向量对应的第二标签值作为寻优方向,得到已训练的长短期记忆模型神经网络。
3.根据权利要求2所述的基于长短期记忆模型的人声分割方法,其特征在于,所述步骤S1具体包括:
S11、获取待分割音频,对所述待分割音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
S12、按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量。
4.根据权利要求1所述的基于长短期记忆模型的人声分割方法,其特征在于,所述步骤S2之后,所述步骤S3之前还包括:
依次对所述d-vector特征矢量对应的待分割音频片段进行语音激活检测,得到有效待分割音频片段或无效待分割音频片段;
将所述无效待分割音频片段删除,保留有效待分割音频片段。
5.根据权利要求4所述的基于长短期记忆模型的人声分割方法,其特征在于,所述步骤S3具体包括:
将所述d-vector特征矢量转换为第一标签值,并将所述第一标签值之间的差值在预设阈值之内的所述d-vector对应的有效待分割音频片段按照时间顺序拼接,得到分割后的单通道人声音频文件。
6.一种基于长短期记忆模型的人声分割系统,其特征在于,包括:
处理单元,用于获取待分割音频,按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量;
输入单元,用于将所述第一声学特征向量依次输入至已训练的长短期记忆模型神经网络中,逐一得到所述第一声学特征向量的d-vector特征矢量;
拼接单元,用于将所述d-vector特征矢量转换为第一标签值,并将所述第一标签值之间的差值在预设阈值之内的所述d-vector对应的待分割音频片段按照时间顺序拼接,得到分割后的单通道人声音频文件。
7.根据权利要求6所述的基于长短期记忆模型的人声分割系统,其特征在于,还包括:
预处理单元,用于获取带标签的训练音频,对所述带标签的训练音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
提取单元,用于按照第二预设步长和第二预设语音窗长度依次提取所述带标签的训练音频片段的第二声学特征向量;
训练单元,用于将所述第二声学特征向量依次输入至长短期记忆模型神经网络中,并以第二声学特征向量对应的第二标签值作为寻优方向,得到已训练的长短期记忆模型神经网络。
8.根据权利要求7所述的基于长短期记忆模型的人声分割系统,其特征在于,所述处理单元具体包括:
预处理子单元,用于获取待分割音频,对所述待分割音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
提取子单元,用于按照第一预设步长和第一预设语音窗长度依次提取所述待分割音频片段的第一声学特征向量。
9.根据权利要求6所述的基于长短期记忆模型的人声分割系统,其特征在于,还包括:
语音激活检测单元,用于依次对所述d-vector特征矢量对应的待分割音频片段进行语音激活检测,得到有效待分割音频片段或无效待分割音频片段;
选择单元,用于将所述无效待分割音频片段删除,保留有效待分割音频片段。
10.根据权利要求9所述的基于长短期记忆模型的人声分割系统,其特征在于,拼接单元具体用于将所述d-vector特征矢量转换为第一标签值,并将所述第一标签值之间的差值在预设阈值之内的所述d-vector对应的有效待分割音频片段按照时间顺序拼接,得到分割后的单通道人声音频文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810026363.0A CN108257592A (zh) | 2018-01-11 | 2018-01-11 | 一种基于长短期记忆模型的人声分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810026363.0A CN108257592A (zh) | 2018-01-11 | 2018-01-11 | 一种基于长短期记忆模型的人声分割方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108257592A true CN108257592A (zh) | 2018-07-06 |
Family
ID=62726104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810026363.0A Pending CN108257592A (zh) | 2018-01-11 | 2018-01-11 | 一种基于长短期记忆模型的人声分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108257592A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109300470A (zh) * | 2018-09-17 | 2019-02-01 | 平安科技(深圳)有限公司 | 混音分离方法和混音分离装置 |
CN109346103A (zh) * | 2018-10-30 | 2019-02-15 | 交通运输部公路科学研究所 | 一种用于公路隧道交通事件的音频检测方法 |
CN109616097A (zh) * | 2019-01-04 | 2019-04-12 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
CN110210483A (zh) * | 2019-06-13 | 2019-09-06 | 上海鹰瞳医疗科技有限公司 | 医疗图像病变区域分割方法、模型训练方法和设备 |
CN110473554A (zh) * | 2019-08-08 | 2019-11-19 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
CN110706694A (zh) * | 2019-09-26 | 2020-01-17 | 成都数之联科技有限公司 | 一种基于深度学习的语音端点检测方法及系统 |
CN110910891A (zh) * | 2019-11-15 | 2020-03-24 | 复旦大学 | 基于长短时记忆神经网络的说话人分段标注方法及装置 |
CN111048099A (zh) * | 2019-12-16 | 2020-04-21 | 随手(北京)信息技术有限公司 | 声音源的识别方法、装置、服务器及存储介质 |
CN111145765A (zh) * | 2019-12-31 | 2020-05-12 | 苏州思必驰信息科技有限公司 | 一种音频处理方法、装置、电子设备及存储介质 |
CN112382282A (zh) * | 2020-11-06 | 2021-02-19 | 北京五八信息技术有限公司 | 一种语音去噪处理方法、装置、电子设备及存储介质 |
WO2022116487A1 (zh) * | 2020-12-01 | 2022-06-09 | 平安科技(深圳)有限公司 | 基于生成对抗网络的语音处理方法、装置、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426835A (zh) * | 2011-08-30 | 2012-04-25 | 华南理工大学 | 一种基于支持向量机模型的开关柜局部放电信号识别方法 |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
CN106448684A (zh) * | 2016-11-16 | 2017-02-22 | 北京大学深圳研究生院 | 基于深度置信网络特征矢量的信道鲁棒声纹识别系统 |
WO2017076211A1 (zh) * | 2015-11-05 | 2017-05-11 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
CN106782507A (zh) * | 2016-12-19 | 2017-05-31 | 平安科技(深圳)有限公司 | 语音分割的方法及装置 |
CN106952644A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
KR101807961B1 (ko) * | 2016-06-07 | 2017-12-11 | 한양대학교 산학협력단 | Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치 |
CN107492382A (zh) * | 2016-06-13 | 2017-12-19 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
-
2018
- 2018-01-11 CN CN201810026363.0A patent/CN108257592A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426835A (zh) * | 2011-08-30 | 2012-04-25 | 华南理工大学 | 一种基于支持向量机模型的开关柜局部放电信号识别方法 |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
WO2017076211A1 (zh) * | 2015-11-05 | 2017-05-11 | 阿里巴巴集团控股有限公司 | 基于语音的角色分离方法及装置 |
KR101807961B1 (ko) * | 2016-06-07 | 2017-12-11 | 한양대학교 산학협력단 | Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치 |
CN107492382A (zh) * | 2016-06-13 | 2017-12-19 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
CN106448684A (zh) * | 2016-11-16 | 2017-02-22 | 北京大学深圳研究生院 | 基于深度置信网络特征矢量的信道鲁棒声纹识别系统 |
CN106782507A (zh) * | 2016-12-19 | 2017-05-31 | 平安科技(深圳)有限公司 | 语音分割的方法及装置 |
CN106952644A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
Non-Patent Citations (1)
Title |
---|
严勤: "《语音信号处理与识别》", 31 December 2015 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109300470A (zh) * | 2018-09-17 | 2019-02-01 | 平安科技(深圳)有限公司 | 混音分离方法和混音分离装置 |
CN109346103A (zh) * | 2018-10-30 | 2019-02-15 | 交通运输部公路科学研究所 | 一种用于公路隧道交通事件的音频检测方法 |
CN109346103B (zh) * | 2018-10-30 | 2023-03-28 | 交通运输部公路科学研究所 | 一种用于公路隧道交通事件的音频检测方法 |
CN109616097A (zh) * | 2019-01-04 | 2019-04-12 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
CN109616097B (zh) * | 2019-01-04 | 2024-05-10 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
CN110210483B (zh) * | 2019-06-13 | 2021-05-11 | 上海鹰瞳医疗科技有限公司 | 医疗图像病变区域分割方法、模型训练方法和设备 |
CN110210483A (zh) * | 2019-06-13 | 2019-09-06 | 上海鹰瞳医疗科技有限公司 | 医疗图像病变区域分割方法、模型训练方法和设备 |
CN110473554A (zh) * | 2019-08-08 | 2019-11-19 | Oppo广东移动通信有限公司 | 音频校验方法、装置、存储介质及电子设备 |
CN110706694A (zh) * | 2019-09-26 | 2020-01-17 | 成都数之联科技有限公司 | 一种基于深度学习的语音端点检测方法及系统 |
CN110910891A (zh) * | 2019-11-15 | 2020-03-24 | 复旦大学 | 基于长短时记忆神经网络的说话人分段标注方法及装置 |
CN110910891B (zh) * | 2019-11-15 | 2022-02-22 | 复旦大学 | 基于长短时记忆深度神经网络的说话人分段标注方法 |
CN111048099A (zh) * | 2019-12-16 | 2020-04-21 | 随手(北京)信息技术有限公司 | 声音源的识别方法、装置、服务器及存储介质 |
CN111145765A (zh) * | 2019-12-31 | 2020-05-12 | 苏州思必驰信息科技有限公司 | 一种音频处理方法、装置、电子设备及存储介质 |
CN112382282A (zh) * | 2020-11-06 | 2021-02-19 | 北京五八信息技术有限公司 | 一种语音去噪处理方法、装置、电子设备及存储介质 |
WO2022116487A1 (zh) * | 2020-12-01 | 2022-06-09 | 平安科技(深圳)有限公司 | 基于生成对抗网络的语音处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108257592A (zh) | 一种基于长短期记忆模型的人声分割方法及系统 | |
US10692500B2 (en) | Diarization using linguistic labeling to create and apply a linguistic model | |
US10902843B2 (en) | Using recurrent neural network for partitioning of audio data into segments that each correspond to a speech feature cluster identifier | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
CN110910891B (zh) | 基于长短时记忆深度神经网络的说话人分段标注方法 | |
CN110211565A (zh) | 方言识别方法、装置及计算机可读存储介质 | |
CN108630193A (zh) | 语音识别方法及装置 | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
CN109767756A (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
CN110782902A (zh) | 音频数据确定方法、装置、设备和介质 | |
Rabiee et al. | Persian accents identification using an adaptive neural network | |
CN111613249A (zh) | 一种语音分析方法和设备 | |
CN115063155B (zh) | 一种数据标注方法、装置、计算机设备及存储介质 | |
Chittaragi et al. | Sentence-based dialect identification system using extreme gradient boosting algorithm | |
KR101925248B1 (ko) | 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치 | |
Rana et al. | Effect of windowing on the calculation of MFCC statistical parameter for different gender in Hindi speech | |
Arbajian et al. | Segment-removal based stuttered speech remediation | |
Gereg et al. | Semi-automatic processing and annotation of meeting audio recordings | |
Thi et al. | An Automatic Pipeline For Building Emotional Speech Dataset | |
EP3989224A1 (en) | Selection of speech segments for training classifiers for detecting emotional valence from input speech signals | |
CN111933187B (zh) | 情感识别模型的训练方法、装置、计算机设备和存储介质 | |
Ismail et al. | Kamrupi dialect identification using GMM | |
Gunawan et al. | Development of Language Identification using Line Spectral Frequencies and Learning Vector Quantization Networks | |
Johnson et al. | Towards improving the performance of speaker recognition systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180706 |