CN111429935A - 一种语音话者分离方法和装置 - Google Patents
一种语音话者分离方法和装置 Download PDFInfo
- Publication number
- CN111429935A CN111429935A CN202010131005.3A CN202010131005A CN111429935A CN 111429935 A CN111429935 A CN 111429935A CN 202010131005 A CN202010131005 A CN 202010131005A CN 111429935 A CN111429935 A CN 111429935A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- segments
- feature
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 29
- 238000001914 filtration Methods 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 60
- 238000000034 method Methods 0.000 claims description 26
- 239000012634 fragment Substances 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000001052 transient effect Effects 0.000 abstract description 26
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000001514 detection method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明提供了一种语音话者分离方法和装置,涉及语音识别技术领域。本发明实施例中,在对语音片段聚类之前,通过预先设置的预设噪音过滤参数对语音片段进行过滤,由于瞬态噪声与话者语音之间有着明显的不同,因此,可以通过合适的预设噪音过滤参数将大部分瞬态噪声过滤,保证第一语音集合中大部分为不同话者的语音片段,从而提升了后续第一语音特征提取以及语音片段聚类的准确性,正确分离不同话者语音,提升了语音话者分离技术的鲁棒性。
Description
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语音话者分离方法和装置。
背景技术
在通话、语音识别、声纹识别等场景中,通常需要区分不同语音输入对应的话者身份,或在输入的多人语音中仅接收某个特定说话人的语音。因此,在实际应用中,当输入的是多人语音时,就需要通过话者分离技术分离不同说话人的语音。
当输入的音频信噪比较高时,可以通过对语音特定长度分段、逐段特征提取、依据特征聚类的方式分离不同话者的语音。但是,当输入的音频信噪比低、背景干扰噪声如键盘敲击声、开关门声、风声较多时,会影响语音特征提取的结果,从而严重干扰语音聚类的准确性,降低话者分离的鲁棒性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音话者分离方法和装置。
依据本发明的第一方面,提供了一种语音话者分离方法,该方法包括:
获取待处理的音频数据;
根据静音期对所述音频数据进行分段处理,获得至少一个语音片段;
将符合预设噪声过滤参数的语音片段归为第一语音集合;
提取所述第一语音集合中的语音片段的第一语音特征;
根据所述第一语音特征对所述第一语音集合中的语音片段进行聚类,得到聚类结果;
根据所述聚类结果,分离所述第一语音集合中不同话者的语音片段。
依据本发明的第二方面,提供了一种语音话者分离装置,所述装置包括:
数据获取模块,用于获取待处理的音频数据;
数据分段模块,用于根据静音期对所述音频数据进行分段处理,获得至少一个语音片段;
参数过滤模块,用于将符合预设噪声过滤参数的语音片段归为第一语音集合;
特征提取模块,用于提取所述第一语音集合中的语音片段的第一语音特征;
数据聚类模块,用于根据所述第一语音特征对所述第一语音集合中的语音片段进行聚类,得到聚类结果;
语音分离模块,用于根据所述聚类结果,分离所述第一语音集合中不同话者的语音片段。
本发明实施例中,在对语音片段聚类之前,通过预先设置的预设噪音过滤参数对语音片段进行过滤,由于瞬态噪声与话者语音之间有着明显的不同,因此,可以通过合适的预设噪音过滤参数将大部分瞬态噪声过滤,保证第一语音集合中大部分为不同话者的语音片段,从而提升了后续第一语音特征提取以及语音片段聚类的准确性,正确分离不同话者语音,提升了语音话者分离技术的鲁棒性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种语音话者分离方法的步骤流程图;
图2是本发明实施例提供的另一种语音话者分离方法的步骤流程图;
图3是本发明实施例提供的一种语音话者分离装置的框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种语音话者分离方法的步骤流程图,如图1所示,该方法可以包括:
步骤101、获取待处理的音频数据。
本发明实施例应用于需要分离不同话者输入语音的场景,其中,话者可以为多人电话会议、视频会议场景下的说话人、发言人等,也可以是多人语音环境中单人声纹识别的对象等。因此,获取到的待处理的音频数据中应至少包括两个话者的音频数据,除此外由于音频采集设备的硬件条件、采集环境的采集条件等影响,待处理的音频数据中还可能包括环境杂音、采集设备杂音等噪音,可能影响对音频数据的话者分离过程。
步骤102、根据静音期对所述音频数据进行分段处理,获得至少一个语音片段。
本发明实施例中,对于音频数据可以先进行分段处理,将音频数据分为至少一个语音片段,使得每一个语音片段中尽量只包括一个话者的语音,或者只包括噪音,从而提高后续聚类的准确度。可选地,由于切换不同的话者时,语音的输入可能会出现停顿,从而使得音频数据中存在可识别的静音期,因此,可以通过静音期对音频数据进行分段处理,从而得到仅包括一个话者的语音片段。在具体应用中,可以通过静音活动检测VAD(VoiceActivity Detection)或者也称静音端点检测、静音边界检测的技术,在音频数据中识别、消除长时间的静音期,从而获得不同的语音片段。为了提升音频数据分段的准确性可以采用最小分析窗口,即在音频数据中截取可能的最小时间片段进行静音期的识别和消除,以获得更准确的语音片段。
步骤103、将符合预设噪声过滤参数的语音片段归为第一语音集合。
本发明实施例中,可以预先设定一个预设噪声过滤参数,该预设噪声过滤参数用于过滤语音片段中的瞬态噪声,其中,瞬态噪声为音频数据中常见的噪声数据,具有持续时间短、宽带频谱的特点,对语音数据的处理会产生严重影响。可选地,可以基于瞬态噪声持续时间短的特性,统计分析不同瞬态噪声时间长度,从而设置合适的时间值为预设噪声过滤参数,将时间长度大于或等于该时间值的语音片段确定为符合预设噪声过滤参数,归为第一语音集合,使得第一语音集合中仅包括过滤瞬态噪声后的语音片段。预设噪声过滤参数只需能够区分话者语音的语音片段以及瞬态噪声的语音片段即可,也可以利用瞬态噪声的宽频特性,统计分析瞬态噪声的宽带频谱以设置预设噪声过滤参数,本发明实施例对此不做具体限定。
步骤104、提取所述第一语音集合中的语音片段的第一语音特征。
本发明实施例中,可以提取第一语音集合中每一个语音片段的第一语音特征,第一语音特征是从语音片段中提取的能代表语音特征的信息。实际应用中可以通过梅尔频率倒谱等现有话者分离技术提取第一语音特征,其中,梅尔频率倒谱是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换,梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统,通过梅尔频率倒谱求得的第一语音集合中语音片段的梅尔频率倒谱系数即为该语音片段对应的特征向量,也就是第一语音特征。
可选地,第一语音特征还可以包括语音片段的短时平均能量、短时平均幅度、短时平均过零率、共振峰、声门波、语速等,只要能够代表不同语音片段的特征即可,本发明实施例中对提取第一语音特征的方法以及具体第一语音特征种类不作具体限制。
本发明实施例中,可选地,还可以将提取到的特征向量通过机器学习算法进一步提取,从而获得对应的抽象特征向量作为第一语音特征,如基于GMM(Gaussian MixtureModel,高斯混合模型)得到的均值超矢量进一步提取得到的ivector(Identity-Vector,i向量)语音特征、通过TDNN(Time Delay Neural Network,时延神经网络)提取得到的xvector(x向量)语音特征,通过DNN(Deep Neural Networks,深度神经网络)提取得到的dvector(d向量)语音特征等。
步骤105、根据所述第一语音特征对所述第一语音集合中的语音片段进行聚类,得到聚类结果。
本发明实施例中,根据第一语音特征对第一语音集合中的语音片段进行聚类,可选地,可以计算不同语音片段对应特征向量的距离,如特征向量通过PLDA(ProbabilisticLinear Discriminant Analysis,概率线性判别式分析)打分得到的距离,或特征向量间的余弦距离等,将距离小于预设聚类距离的第一语音特征对应的语音片段聚为一个类别,从而获得不同语音片段对应的至少两个类别为聚类结果。
步骤106、根据所述聚类结果,分离所述第一语音集合中不同话者的语音片段。
本发明实施例中,在确定聚类结果后,可以获取不同的类别以及每一个类别下的语音片段,其中,由于根据不同语音片段的第一语音特征进行聚类,因此得到的每一个类别中仅包括第一语音特征高度相似或相近的语音片段,在过滤瞬态噪音、消除干扰的情况下,可以认为得到的聚类结果准确性较高。一个类别仅包括一个话者的语音片段,此时,不同类别下的语音片段即为分离的不同话者的语音片段。
另外,在电话会议、视频会议等场景中,可选地,每一个话者发言时可以形成发言记录,当有发言记录的话者的数量与聚类结果中类别的数量不对应时,可以认为聚类结果不准确,并重新对语音片段进行特征提取、聚类等;在声纹识别的场景中,当不同类别的语音片段中第一语音特征均与识别对象历史语音特征不匹配时,可以认为没有采集到的话者的音频数据,或话者的音频数据被错误分配,此时,可以提示话者重新输入音频数据,或对语音片段重新提取特征、聚类等。
综上所述,本发明实施例中,在对语音片段聚类之前,通过预先设置的预设噪音过滤参数对语音片段进行过滤,由于瞬态噪声与话者语音之间有着明显的不同,因此,可以通过合适的预设噪音过滤参数将大部分瞬态噪声过滤,保证第一语音集合中大部分为不同话者的语音片段,从而提升了后续第一语音特征提取以及语音片段聚类的准确性,正确分离不同话者语音,提升了语音话者分离技术的鲁棒性。
图2是本发明实施例提供的另一种语音话者分离方法的步骤流程图,如图2所示,该方法可以包括:
步骤201、获取待处理的音频数据;
步骤202、根据静音期对所述音频数据进行分段处理,获得至少一个语音片段;
步骤203、将符合预设噪声过滤参数的语音片段归为第一语音集合;
步骤204、提取所述第一语音集合中的语音片段的第一语音特征;
步骤205、根据所述第一语音特征对所述第一语音集合中的语音片段进行聚类,得到聚类结果;
步骤206、根据所述聚类结果,分离所述第一语音集合中不同话者的语音片段。
本发明实施例中,步骤201至步骤206的说明内容可参考步骤101至步骤106的说明内容,在此不再赘述。
可选地,步骤205之后,该方法还可以包括:
步骤2051、将不符合所述预设噪声过滤参数的语音片段归为第二语音集合。
本发明实施例中,除了将符合预设噪声过滤参数的语音片段归为第一语音集合外,还可以将不符合预设噪声过滤参数的语音片段,如时间长度小于该时间值的语音片段归为第二语音集合,因此,第二语音集合中包括的是大多数瞬态噪声的语音片段。但是,也有可能出现误判的情况,如第二语音集合中除了瞬态噪声的语音片段外,还可能包括时间长度较短的话者语音片段,或者也有可能由于分段的失误使得语音片段中既包括瞬态噪声,也包括话者的语音。
步骤2052、提取所述第二语音集合中的语音片段的第二语音特征。
本发明实施例中,可以对第二语音集合中的每一个语音片段进行第二语音特征的提取,其中,第二语音特征提取的过程类似于步骤104中对第一语音集合中语音片段的第一语音特征的提取,在此不再赘述。可选地,也可以在对音频数据分段获得语音片段后,先对所有的语音片段进行语音特征的提取,再根据预设噪声过滤参数将语音片段分为第一语音集合和第二语音集合,同时将语音片段的语音特征也分为第一语音集合对应的第一语音特征集合,以及第二语音集合对应的第二语音特征集合,从而简化音频数据的处理步骤,提升语音话者分离的效率。
步骤2053、根据所述第二语音特征和所述聚类结果,分离所述第二语音集合中不同话者的语音片段。
本发明实施例中,可以根据第一语音集合的聚类结果以及第二语音集合中语音片段的第二语音特征,分离第二语音集合中不同话者的语音片段,可选地,可以是将聚类结果中不同的类别与第二语音特征进行匹配,从而确定第二语音集合中不同语音片段可能所属的类别,以分离第二语音集合不同话者的语音片段。
可选地,步骤2053包括:
步骤S11、根据所述聚类结果中的每个类别,分别计算所述每个类别对应的类矢量。
本发明实施例中,在确定聚类结果中的类别与第二语音集合对应的第二语音特征是否匹配时,可以先计算每个类别分别对应的类矢量,类矢量即为类别对应的特征向量,可以由每一个类别下所有语音片段对应的第一语音特征来计算,可选地,可以是每一个类别下所有语音片段对应的第一语音特征的特征向量均值或加权平均值等。
步骤S12、根据所述第二语音特征与所述类矢量,分离所述第二语音集合中不同话者的语音片段。
本发明实施例中,可以将第二语音特征与类矢量进行匹配,从而确定第二语音特征匹配第一语音集合对应的聚类结果中包括的类别,以分离第二语音集合中不同话者的语音片段。
可选地,步骤S12包括:
步骤S21、分别计算所述第二语音特征与所述类矢量的匹配度。
本发明实施例中,可以分别计算所有第二语音特征与类矢量的匹配度,可选地,匹配度可以是第二语音特征的特征向量与类矢量之间的距离,距离越小匹配度越高,距离越大匹配度越低,其中,特征向量与类矢量之间的距离可以是PLDA距离或余弦距离等。
步骤S22、根据所述匹配度确定所述第二语音特征与所述类矢量的第一对应关系。
本发明实施例中,可以按照不同第二语音特征与类矢量之间的匹配度确定第二语音特征与类矢量的第一对应关系,可选地,可以是针对每一个第二语音特征,将类矢量按照匹配度进行排序,根据排序的结果确定第二语音特征与类矢量之间的第一对应关系,也可以是对每一个类矢量确定匹配度最高的第二语音特征具有第一对应关系等。
可选地,步骤S22具体包括对每一个所述第二语音特征,确定所述匹配度最高的所述类矢量与所述第二语音特征具有所述第一对应关系。
本发明实施例中,根据匹配度确定第二语音特征与类矢量的第一对应关系,可选地,可以是对每一个第二语音特征确定与匹配度最高的类矢量之间具有第一对应关系,以将所有的第二语音特征和类矢量进行关联,从而全面考虑所有的语音片段;或者,也可以设置匹配度阈值,当第二语音特征与所有类矢量中的最高匹配度无法达到匹配度阈值时,则认为该第二语音特征对应瞬态噪声的语音特征,不对该第二语音特征与类矢量进行关联,当最高匹配度达到匹配度阈值时,再对该第二语音特征与类矢量进行关联,以避免将瞬态噪声对应的第二语音特征关联到了类矢量,造成语音片段分离错误。
步骤S23、根据所述第一对应关系,确定所述第二语音集合中语音片段与聚类结果的第二对应关系。
本发明实施例中,由于第二语音特征分别对应第二语音集合中的每一个语音片段,类矢量分别对应第一语音集合聚类结果中的每一个类别,因此,根据第二语音特征与类矢量之间的第一对应关系,可以对应得出第二语音集合中每一个语音片段与聚类结果中每一个类别之间的第二对应关系。
步骤S24、根据所述第二对应关系,分离所述第二语音集合中不同话者的语音片段。
本发明实施例中,根据第二语音集合中每一个语音片段与聚类结果中每一个类别之间的第二对应关系,可以将第二语音集合中每一个语音片段归入聚类结果中对应的类别之中,从而分离第二语音集合中不同话者的语音片段,在同一类别中包含同一话者的语音片段。根据第一语音集合的聚类结果,对第二语音集合中的语音片段进行重分类,使得未参与到聚类的第二语音集合中的语音片段中的语音片段能够分到所属的类别,提高了话者语音分离的准确性。
本发明实施例中,通过语音话者分离技术仅能将音频数据中不同话者的语音分离,可选地,还可以确定不同话者与聚类结果中不同类别之间的对应关系,从而标记每个类别下语音片段的话者身份。可选地,可以获取不同话者的历史语音特征,并根据历史语音特征对不同类别下语音片段的第一语音特征进行匹配,从而确定不同话者与不同类别的对应关系,历史语音特征可以是话者历史语音数据中提取的语音特征。
可选地,在电话会议、视频会议等场景中,可以从会议名单中确定获取不同话者的身份信息,并根据该身份信息获取不同话者的历史语音特征;在单人声纹识别的场景中,可以直接获取识别对象的历史语音特征进行匹配。或者,也可以在电话会议、视频会议等场景中,确定不同发言人单独发言时采集的语音片段所处的类别,从而确定不同话者与不同类别的对应关系,根据应用场景的不同,本领域技术人员可以采用不同的方法确定话者与类别间的对应关系。
本发明实施例中,可选地,可以根据不同话者的身份信息,以及不同话者与不同类别的对应关系,对聚类结果中不同类别进行标识,从而确定不同类别下语音片段所属话者的身份信息,便于不同类别中语音片段的管理,后续再获取到待处理的音频数据时,可以根据已标识的类别对再获取到的待处理的音频数据进行话者分离,进而提升语音话者分离的效率。
以下列出本发明实施例的具体示例,以详细解释本发明实施例的实施方式,如下所示:
获取待处理的音频数据x;
采用VAD技术以及最小解析窗口,将x分段处理,获得S1,S2,…ST共T个片段;
采用现有话者分离技术对S1,S2,…ST分别进行语音特征提取,得到对应的特征序列F1,F2,…ST;
将符合预设噪声过滤参数thr的语音片段归入第一语音集合segmets1,并对应整理第一语音特征的集合Feat1;
将不符合预设噪声过滤参数thr的语音片段归入第二语音集合segments2,并对应整理第二语音特征的集合Feat2;
根据Feat1中的第一语音特征对第一语音集合中的语音片段进行聚类,获得聚类结果,为K个类别;
根据K个类别确定第一语音集合中包括K个话者的语音片段;
根据K个类别中每一个类别对应的第一语音特征分别计算每个类别对应的类矢量Ci,i=1,2,...K;
针对Feat2中每一个第二语音特征Fj计算与每一个类别Ci的距离,确定距离最小的Ci与第二语音特征Fj具有第一对应关系;
确定对应的类别与第二语音特征对应的语音片段具有第二对应关系;
确定第二语音集合segments2中的每一个语音片段Sj都被分到K个类别中对应的类别中,从而分离不同话者的语音片段。
综上所述,本发明实施例中,在对语音片段聚类之前,通过预先设置的预设噪音过滤参数对语音片段进行过滤,由于瞬态噪声与话者语音之间有着明显的不同,因此,可以通过合适的预设噪音过滤参数将大部分瞬态噪声过滤,保证第一语音集合中大部分为不同话者的语音片段,从而提升了后续第一语音特征提取以及语音片段聚类的准确性;并且,通过第一语音集合的聚类结果,对包括瞬态噪声以及可能误分的话者的语音进行分类,从而查漏补缺,进一步提升了语音话者分离技术的鲁棒性。
图3是本发明实施例提供的一种语音话者分离装置的框图,如图3所示,该装置300可以包括:
数据获取模块301,用于获取待处理的音频数据;
数据分段模块302,用于根据静音期对所述音频数据进行分段处理,获得至少一个语音片段;
参数过滤模块303,用于将符合预设噪声过滤参数的语音片段归为第一语音集合;
特征提取模块304,用于提取所述第一语音集合中的语音片段的第一语音特征;
数据聚类模块305,用于根据所述第一语音特征对所述第一语音集合中的语音片段进行聚类,得到聚类结果;
语音分离模块306,用于根据所述聚类结果,分离所述第一语音集合中不同话者的语音片段。
可选地,所述参数过滤模块303,还用于将不符合所述预设噪声过滤参数的语音片段归为第二语音集合;
所述特征提取模块304,还用于提取所述第二语音集合中的语音片段的第二语音特征;
所述语音分离模块306,还用于根据所述第二语音特征和所述聚类结果,分离所述第二语音集合中不同话者的语音片段。
可选地,所述数据聚类模块305,包括:
矢量计算子模块,用于根据所述聚类结果中的每个类别,分别计算所述每个类别对应的类矢量;
类别指定子模块,用于根据所述第二语音特征与所述类矢量,分离所述第二语音集合中不同话者的语音片段。
可选地,所述类别指定子模块,包括:
匹配度计算单元,用于分别计算所述第二语音特征与所述类矢量的匹配度;
对应关系确定单元,用于根据所述匹配度确定所述第二语音特征与所述类矢量的第一对应关系;
所述对应关系确定单元,还用于根据所述第一对应关系,确定所述第二语音集合中语音片段与聚类结果的第二对应关系;
话者指定单元,用于根据所述第二对应关系,分离所述第二语音集合中不同话者的语音片段。
可选地,所述对应关系确定单元,具体用于对每一个所述第二语音特征,确定所述匹配度最高的所述类矢量与所述第二语音特征具有所述第一对应关系。
综上所述,本发明实施例中,在对语音片段聚类之前,通过预先设置的预设噪音过滤参数对语音片段进行过滤,由于瞬态噪声与话者语音之间有着明显的不同,因此,可以通过合适的预设噪音过滤参数将大部分瞬态噪声过滤,保证第一语音集合中大部分为不同话者的语音片段,从而提升了后续第一语音特征提取以及语音片段聚类的准确性;并且,通过第一语音集合的聚类结果,对包括瞬态噪声以及可能误分的话者的语音进行分类,从而查漏补缺,进一步提升了语音话者分离技术的鲁棒性。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域技术人员易于想到的是:上述各个实施例的任意组合应用都是可行的,故上述各个实施例之间的任意组合都是本发明的实施方案,但是由于篇幅限制,本说明书在此就不一一详述了。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种语音话者分离方法,其特征在于,所述方法包括:
获取待处理的音频数据;
根据静音期对所述音频数据进行分段处理,获得至少一个语音片段;
将符合预设噪声过滤参数的语音片段归为第一语音集合;
提取所述第一语音集合中的语音片段的第一语音特征;
根据所述第一语音特征对所述第一语音集合中的语音片段进行聚类,得到聚类结果;
根据所述聚类结果,分离所述第一语音集合中不同话者的语音片段。
2.根据权利要求1所述的方法,其特征在于,所述得到聚类结果之后,所述方法还包括:
将不符合所述预设噪声过滤参数的语音片段归为第二语音集合;
提取所述第二语音集合中的语音片段的第二语音特征;
根据所述第二语音特征和所述聚类结果,分离所述第二语音集合中不同话者的语音片段。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二语音特征和所述聚类结果,分离所述第二语音集合中不同话者的语音片段,包括:
根据所述聚类结果中的每个类别,分别计算所述每个类别对应的类矢量;
根据所述第二语音特征与所述类矢量,分离所述第二语音集合中不同话者的语音片段。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第二语音特征与所述类矢量,分离所述第二语音集合中不同话者的语音片段,包括:
分别计算所述第二语音特征与所述类矢量的匹配度;
根据所述匹配度确定所述第二语音特征与所述类矢量的第一对应关系;
根据所述第一对应关系,确定所述第二语音集合中语音片段与聚类结果的第二对应关系;
根据所述第二对应关系,分离所述第二语音集合中不同话者的语音片段。
5.根据权利要求4所述的方法,其特征在于,所述根据所述匹配度确定所述第二语音特征与所述类矢量的第一对应关系,包括:
对每一个所述第二语音特征,确定所述匹配度最高的所述类矢量与所述第二语音特征具有所述第一对应关系。
6.一种语音话者分离装置,其特征在于,所述装置包括:
数据获取模块,用于获取待处理的音频数据;
数据分段模块,用于根据静音期对所述音频数据进行分段处理,获得至少一个语音片段;
参数过滤模块,用于将符合预设噪声过滤参数的语音片段归为第一语音集合;
特征提取模块,用于提取所述第一语音集合中的语音片段的第一语音特征;
数据聚类模块,用于根据所述第一语音特征对所述第一语音集合中的语音片段进行聚类,得到聚类结果;
语音分离模块,用于根据所述聚类结果,分离所述第一语音集合中不同话者的语音片段。
7.根据权利要求6所述的装置,其特征在于,
所述参数过滤模块,还用于将不符合所述预设噪声过滤参数的语音片段归为第二语音集合;
所述特征提取模块,还用于提取所述第二语音集合中的语音片段的第二语音特征;
所述语音分离模块,还用于根据所述第二语音特征和所述聚类结果,分离所述第二语音集合中不同话者的语音片段。
8.根据权利要求7所述的装置,其特征在于,所述数据聚类模块,包括:
矢量计算子模块,用于根据所述聚类结果中的每个类别,分别计算所述每个类别对应的类矢量;
类别指定子模块,用于根据所述第二语音特征与所述类矢量,分离所述第二语音集合中不同话者的语音片段。
9.根据权利要求8所述的装置,其特征在于,所述类别指定子模块,包括:
匹配度计算单元,用于分别计算所述第二语音特征与所述类矢量的匹配度;
对应关系确定单元,用于根据所述匹配度确定所述第二语音特征与所述类矢量的第一对应关系;
所述对应关系确定单元,还用于根据所述第一对应关系,确定所述第二语音集合中语音片段与聚类结果的第二对应关系;
话者指定单元,用于根据所述第二对应关系,分离所述第二语音集合中不同话者的语音片段。
10.根据权利要求9所述的装置,其特征在于,所述对应关系确定单元,具体用于对每一个所述第二语音特征,确定所述匹配度最高的所述类矢量与所述第二语音特征具有所述第一对应关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010131005.3A CN111429935B (zh) | 2020-02-28 | 2020-02-28 | 一种语音话者分离方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010131005.3A CN111429935B (zh) | 2020-02-28 | 2020-02-28 | 一种语音话者分离方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429935A true CN111429935A (zh) | 2020-07-17 |
CN111429935B CN111429935B (zh) | 2023-08-29 |
Family
ID=71547270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010131005.3A Active CN111429935B (zh) | 2020-02-28 | 2020-02-28 | 一种语音话者分离方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429935B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112017685A (zh) * | 2020-08-27 | 2020-12-01 | 北京字节跳动网络技术有限公司 | 语音生成方法、装置、设备和计算机可读介质 |
CN112053691A (zh) * | 2020-09-21 | 2020-12-08 | 广东迷听科技有限公司 | 会议辅助方法、装置、电子设备及存储介质 |
CN112634908A (zh) * | 2021-03-09 | 2021-04-09 | 北京世纪好未来教育科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN112750440A (zh) * | 2020-12-30 | 2021-05-04 | 北京捷通华声科技股份有限公司 | 一种信息处理方法及装置 |
CN113362831A (zh) * | 2021-07-12 | 2021-09-07 | 科大讯飞股份有限公司 | 一种说话人分离方法及其相关设备 |
CN114299957A (zh) * | 2021-11-29 | 2022-04-08 | 北京百度网讯科技有限公司 | 声纹分离方法、装置、电子设备以及存储介质 |
US20230087477A1 (en) * | 2021-09-23 | 2023-03-23 | Electronics And Telecommunications Research Institute | Apparatus and method for separating voice sections from each other |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0683384A (ja) * | 1992-08-31 | 1994-03-25 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 音声中の複数話者の発話区間自動検出同定装置 |
JP2010054733A (ja) * | 2008-08-27 | 2010-03-11 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 |
JP2012242590A (ja) * | 2011-05-19 | 2012-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 話者分類装置、話者分類方法、プログラム |
WO2015132798A2 (en) * | 2014-03-04 | 2015-09-11 | Indian Institute Of Technology Bombay | Method and system for consonant-vowel ratio modification for improving speech perception |
CN106953887A (zh) * | 2017-01-05 | 2017-07-14 | 北京中瑞鸿程科技开发有限公司 | 一种细粒度电台音频内容个性化组织推荐方法 |
US20170323643A1 (en) * | 2016-05-03 | 2017-11-09 | SESTEK Ses ve Ìletisim Bilgisayar Tekn. San. Ve Tic. A.S. | Method for Speaker Diarization |
CN107342077A (zh) * | 2017-05-27 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种基于因子分析的说话人分段聚类方法及系统 |
CN109243460A (zh) * | 2018-08-15 | 2019-01-18 | 浙江讯飞智能科技有限公司 | 一种自动生成基于地方方言的讯或询问笔录的方法 |
CN110265060A (zh) * | 2019-06-04 | 2019-09-20 | 广东工业大学 | 一种基于密度聚类的说话人数目自动检测方法 |
-
2020
- 2020-02-28 CN CN202010131005.3A patent/CN111429935B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0683384A (ja) * | 1992-08-31 | 1994-03-25 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 音声中の複数話者の発話区間自動検出同定装置 |
JP2010054733A (ja) * | 2008-08-27 | 2010-03-11 | Nippon Telegr & Teleph Corp <Ntt> | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 |
JP2012242590A (ja) * | 2011-05-19 | 2012-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 話者分類装置、話者分類方法、プログラム |
WO2015132798A2 (en) * | 2014-03-04 | 2015-09-11 | Indian Institute Of Technology Bombay | Method and system for consonant-vowel ratio modification for improving speech perception |
US20170323643A1 (en) * | 2016-05-03 | 2017-11-09 | SESTEK Ses ve Ìletisim Bilgisayar Tekn. San. Ve Tic. A.S. | Method for Speaker Diarization |
CN106953887A (zh) * | 2017-01-05 | 2017-07-14 | 北京中瑞鸿程科技开发有限公司 | 一种细粒度电台音频内容个性化组织推荐方法 |
CN107342077A (zh) * | 2017-05-27 | 2017-11-10 | 国家计算机网络与信息安全管理中心 | 一种基于因子分析的说话人分段聚类方法及系统 |
CN109243460A (zh) * | 2018-08-15 | 2019-01-18 | 浙江讯飞智能科技有限公司 | 一种自动生成基于地方方言的讯或询问笔录的方法 |
CN110265060A (zh) * | 2019-06-04 | 2019-09-20 | 广东工业大学 | 一种基于密度聚类的说话人数目自动检测方法 |
Non-Patent Citations (2)
Title |
---|
S. MOUSAZADEH 等: "Voice Activity Detection in Presence of Transient Noise Using Spectral Clustering", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
朱唯鑫: "多人对话场景下的说话人分割聚类研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112017685A (zh) * | 2020-08-27 | 2020-12-01 | 北京字节跳动网络技术有限公司 | 语音生成方法、装置、设备和计算机可读介质 |
CN112017685B (zh) * | 2020-08-27 | 2023-12-22 | 抖音视界有限公司 | 语音生成方法、装置、设备和计算机可读介质 |
CN112053691A (zh) * | 2020-09-21 | 2020-12-08 | 广东迷听科技有限公司 | 会议辅助方法、装置、电子设备及存储介质 |
CN112750440A (zh) * | 2020-12-30 | 2021-05-04 | 北京捷通华声科技股份有限公司 | 一种信息处理方法及装置 |
CN112750440B (zh) * | 2020-12-30 | 2023-12-29 | 北京捷通华声科技股份有限公司 | 一种信息处理方法及装置 |
CN112634908A (zh) * | 2021-03-09 | 2021-04-09 | 北京世纪好未来教育科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN112634908B (zh) * | 2021-03-09 | 2021-06-01 | 北京世纪好未来教育科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN113362831A (zh) * | 2021-07-12 | 2021-09-07 | 科大讯飞股份有限公司 | 一种说话人分离方法及其相关设备 |
US20230087477A1 (en) * | 2021-09-23 | 2023-03-23 | Electronics And Telecommunications Research Institute | Apparatus and method for separating voice sections from each other |
CN114299957A (zh) * | 2021-11-29 | 2022-04-08 | 北京百度网讯科技有限公司 | 声纹分离方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111429935B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111429935B (zh) | 一种语音话者分离方法和装置 | |
US11869261B2 (en) | Robust audio identification with interference cancellation | |
EP3590113B1 (en) | Method and apparatus for detecting spoofing conditions | |
US11386916B2 (en) | Segmentation-based feature extraction for acoustic scene classification | |
Delcroix et al. | Compact network for speakerbeam target speaker extraction | |
US20130054236A1 (en) | Method for the detection of speech segments | |
JP2006079079A (ja) | 分散音声認識システム及びその方法 | |
US20160019897A1 (en) | Speaker recognition from telephone calls | |
Jaafar et al. | Automatic syllables segmentation for frog identification system | |
Cordella et al. | A real-time text-independent speaker identification system | |
Couvreur et al. | Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models | |
Barhoush et al. | Robust automatic speaker identification system using shuffled MFCC features | |
Ahmad et al. | The impact of low-pass filter in speaker identification | |
Tahliramani et al. | Performance Analysis of Speaker Identification System With and Without Spoofing Attack of Voice Conversion | |
EP3613040A1 (en) | Speaker recognition method and system | |
Bora et al. | Speaker identification for biometric access control using hybrid features | |
CN115662464B (zh) | 一种智能识别环境噪声的方法及系统 | |
Marupaka et al. | Comparison of classification results obtained by using cyclostationary features, MFCC, proposed algorithm and development of an environmental sound classification system | |
Khatter et al. | Deep Learning based Identification of Primary Speaker in Voice-Controlled Devices | |
Sri et al. | Text And Language Independent Speaker Recognition System for Robust Environment | |
Jung et al. | Speaker diarization method of telemarketer and client for improving speech dictation performance | |
Rao et al. | Improving Speaker Recognition with Quality Indicators | |
Tuononen et al. | Automatic voice activity detection in different speech applications | |
Karthik et al. | Robust Speaker Diarization for News Broadcast | |
Srinivas et al. | Detection of Vowel-Like Speech Using Variance of Sample Magnitudes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |