CN109658951B

CN109658951B - 混合信号检测方法及系统

Info

Publication number: CN109658951B
Application number: CN201910016404.2A
Authority: CN
Inventors: 马哲; 高超
Original assignee: Beijing Thunderstone Technology Co ltd
Current assignee: Beijing Thunderstone Technology Co ltd
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2021-03-26
Anticipated expiration: 2039-01-08
Also published as: CN109658951A

Abstract

本发明提供了一种混合信号检测方法及系统，其中混合信号检测方法通过对获取的待测信号以设定时间间隔进行切片，得到多个待测时间片；然后分别将多个待测时间片进行傅氏变换，得到每个时间片对应的频域片；最后对全部频域片的频域幅值进行差异化分析，得到人声介入的时间点，从而精准地检测出人声加伴奏的混合信号。利用本发明在检测出人声加伴奏的混合信号后，在混合信号部分利用现有的根据不同声道进行分离的盲信号分离算法进行盲信号分离，即可保证进行盲信号分离的音频是有人声混合的混合音频，能更精确的分离出人声和伴奏，大大提升了利用盲信号分离算法对多声道信号进行分离的精准度。

Description

混合信号检测方法及系统

技术领域

本发明涉及音频信号处理技术领域，特别涉及一种混合信号检测方法及系统。

背景技术

盲信号(Blind Signal Separation，BSS)分离指仅从观测到的多个混合信号中恢复出独立的源信号。通常观测到的混合信号来自于多个传感器的输出，并且各个传感器的输出信号线性不相关。这里的“盲”是指：1、源信号是不可观测的；2、混合系统是事先未知的，即信号混合方法未知。

在科学研究和工程应用中，很多观测信号都可以假设成是不可见的源信号的混合。所谓的“鸡尾酒会”就是一个典型的例子，简单来讲就是当很多人(作为不同的声音源)同时在一个房间里说话时，声音信号由一组麦克风记录下来，这样每个麦克风记录的信号是所有人声音的一个混合，也就是通常所说的观测信号。如何从这组观测信号中提取每个说话者的声音信号，即源信号。如果混合系统是已知的，则以上问题就退化成简单的求混合矩阵的逆矩阵。但是在更多的情况下，无法获取有关混合系统的先验知识，这就需要从观测信号来推断这个混合矩阵，实现盲源分离。

现有的盲信号分离方法只是单纯的利用不同声道进行分离，而在KTV中，事实上只有伴奏加人声的部分是需要分离的。单纯地利用不同声道对整个信号进行分离的方法，无法识别出人声加伴奏的混合信号，容易出现较大的分离误差。

发明内容

为解决现有的盲信号分离技术无法对KTV中的人声加伴奏的混合信号进行识别以及人声分离误差较大的问题，本发明提出一种混合信号检测方法及系统，以实现更精确的混合信号检测以及多声道分离。

本发明首先利用频域检测出伴奏加人声的混合信号后，再利用现有的盲信号分离算法进行多声道分离，从而实现更精准的多声道信号分离。

本发明提供的混合信号检测方法，包括以下步骤：

获取待测信号；

将所述待测信号以设定时间间隔进行切片，得到多个待测时间片；

分别将所述多个待测时间片进行傅氏变换，得到每个时间片对应的频域片；若存在任一频域片，满足以下条件，则判定所述待测信号为混合信号：

当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值发生突变，或当前频域片的最大频域幅值相对于按时间顺序在该频域片之后所有频域片的最大幅值的均值发生突变。

作为一种可实施方式，所述获取待测信号之后，还包括：

对所述待测信号进行去噪处理。

作为一种可实施方式，当所述当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值发生突变，或当前频域片的最大频域幅值相对于按时间顺序在该频域片之后所有频域片的最大幅值的均值发生突变时，还包括：

对所述当前频域片及其对应的时间片进行检测，判断所述频域片的最大幅值是否由噪音引起，若是，则去除该噪音并继续对下一频域片进行判断；若否，则判定所述待测信号为混合信号。

作为一种可实施方式，所述当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值发生突变，包括：

所述当前频域片的最大频域幅值大于按时间顺序在该频域片之前的所有频域片的最大幅值的均值的设定倍数或约数；或，

所述当前频域片的最大频域幅值小于按时间顺序在该频域片之前的所有频域片的最大幅值的均值的设定倍数或约数。

作为一种可实施方式，所述当前频域片的最大频域幅值相对于按时间顺序在该频域片之后所有频域片的最大幅值的均值发生突变，包括：

所述当前频域片的最大频域幅值大于按时间顺序在该频域片之后所有频域片的最大幅值的均值的设定倍数或约数；或，

所述当前频域片的最大频域幅值小于按时间顺序在该频域片之后所有频域片的最大幅值的均值的设定倍数或约数。

相应地，本发明提供的混合信号检测系统，包括信号获取模块、信号切片模块、以及傅氏变换模块；

所述信号获取模块，用于获取待测信号；

所述信号切片模块，用于将所述待测信号以设定时间间隔进行切片，得到多个待测时间片；

所述傅氏变换模块，用于分别将所述多个待测时间片进行傅氏变换，得到每个时间片对应的频域片；若存在任一频域片，满足以下条件，则判定所述待测信号为混合信号：

作为一种可实施方式，本发明提供的混合信号检测系统，还包括去噪模块；

所述去噪模块用于在所述信号获取模块获取待测信号之后，对所述待测信号进行去噪处理。

作为一种可实施方式，所述傅氏变换模块包括噪音检测单元；

所述噪音监测单元，用于在所述当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值发生突变，或当前频域片的最大频域幅值相对于按时间顺序在该频域片之后所有频域片的最大幅值的均值发生突变时，对所述当前频域片及其对应的时间片进行检测，判断所述频域片的最大幅值是否由噪音引起，若是，则去除该噪音并继续对下一频域片进行判断；若否，则判定所述待测信号为混合信号。

本发明还提供一种盲信号分离方法，包括以下步骤：

利用上述任一项所述的混合信号检测方法，在歌曲中检测出人声加伴奏的混合信号；

利用盲信号分离算法对所述混合信号进行分离。

相应地，本发明还提供一种盲信号分离系统，包括混合信号检测模块和信号分离模块；

所述混合信号检测模块，用于利用上述任一项所述的混合信号检测方法，在歌曲中检测出人声加伴奏的混合信号；

所述信号分离模块，用于利用盲信号分离算法对所述混合信号进行分离。

本发明相比于现有技术的有益效果在于：

本发明提供的混合信号检测方法及系统，通过对获取的待测信号以设定时间间隔进行切片，得到多个待测时间片；然后分别将多个待测时间片进行傅氏变换，得到每个时间片对应的频域片；最后对全部频域片的频域幅值进行差异化分析，得到人声介入的时间点，从而精准地检测出人声加伴奏的混合信号。

进一步，在检测出人声加伴奏的混合信号后，在混合信号部分利用现有的根据不同声道进行分离的盲信号分离算法进行盲信号分离，这样就保证了进行盲信号分离的音频是有人声混合的混合音频，能更精确的分离出人声和伴奏，大大提升了利用盲信号分离算法对多声道信号进行分离的精准度。

附图说明

图1为本发明实施例一提供的混合信号检测方法的流程示意图；

图2为本发明实施例一提供的利用傅氏变换将时域信号变换成频域信号的原理示意图；

图3为本发明实施例一提供的一个待测时间片进行傅氏变换得到的频域片示意图；

图4为歌曲按照频域片分析出来的数据示意图；

图5为本发明实施例二提供的混合信号检测系统的结构示意图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的部分实施例，而不是全部实施例。

目前，KTV中的歌曲通常都存在伴奏。传统的单纯利用不同声道进行分离的盲信号分离方法，由于无法检测什么时候是人声加伴奏的混合信号，所以容易出现较大的分离误差。

基于此，本发明提供了一种混合信号检测方法及系统，能够准确找到歌曲的人声加伴奏的合唱部分，从而分析出该在什么地方对歌曲进行盲信号分离，以保证进行盲信号分离的音频是人声加伴奏的混合音频。

参见图1，本发明实施例一提供的混合信号检测方法，包括以下步骤：

S100、获取待测信号；

S200、将待测信号以设定时间间隔进行切片，得到多个待测时间片；

S300、分别将多个待测时间片进行傅氏变换，得到每个时间片对应的频域片，并进行混合信号检测；

若存在任一频域片，满足以下条件，则判定待测信号为混合信号：

本实施例中，步骤S100中的待测信号为接受到的歌曲的音频信号。对接收到的歌曲的音频信号进行等时间间隔采样，即可得到歌曲的多个采样歌曲片段，采样歌曲片段即为步骤S200中的待测时间片。上述设定时间间隔即对歌曲进行采样的时间间隔，可以为0.1秒、0.2秒等，优选小于0.4秒。

对待测信号进行切片后，接下来通过步骤S300分别将多个待测时间片进行傅氏变换。傅氏变换的目的是将时域信号变换成频域信号，即根据多个待测时间片得到每个时间片对应的频域片。

参见图2，原本X、Y轴分别是数组下标和数组元素，经傅氏变换变成了频率和在这个频率上的分量大小。一个时间片进行傅氏变换后得到的频域如图3所示。这些频率的分量并不是平均的，而差异是非常大的。具体地，图3中明显凸起的频域幅值是输出能量较大的频率信号，代表着在这个音频中这个信号占有很高的地位。所以，本实施例选择如图3中箭头所示的信号来提取歌曲的特征，提取出来的频率幅值为当前频域片的最大值。一首歌曲按照傅氏变换分析出来的数据如图4所示，波形变化(频域幅值)明显缩小的地方就是没有人声的片头伴奏、片中伴奏和片尾伴奏，这三段是不需要人声分离的。而中间波形变化(频域幅值)明显增大的地方就是人声加伴奏的部分，是需要进行人声分离的。

此外需要说明的是，利用傅氏变换，可以直接计算出各个频域片的频域幅值。这一技术属于现有技术，此处不再冗述。频域片的频域幅值的大小，反映了该时间点频率信号的能量大小。

本实施例取每个频域片的最高频域值作为该频域片的频域幅值。例如，可能出现的频域幅值为：78、69、71、87、93、180、200、230、202、299。低音、缓和的歌曲其频域片的频域幅值相对偏小，随着歌曲的播放，频域片的频域幅值变化很小。高亢的歌曲，其频域片的频域幅值相对偏大，但是只要没有人声介入，随着歌曲的播放，频域片的频域幅值变化也很小。无论是低音、缓和的歌曲，还是高亢的歌曲，当有人声介入后，人声加伴奏混合时的频域片的频域幅值都会出现较大的变化，而且远大于只有伴奏时的频域片的频域幅值。

基于此，步骤S300将多个待测时间片进行傅氏变换，得到每个时间片对应的频域片之后，根据频域片的频域幅值变化判断待测信号是否为混合信号。

具体地，若存在任一频域片，满足以下条件，则判定待测信号为混合信号：当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值发生突变，或当前频域片的最大频域幅值相对于按时间顺序在该频域片之后所有频域片的最大幅值的均值发生突变。

例如，当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值增大预设倍数，则可判断为发生突变。假设，按时间顺序在当前频域片之前的所有频域片的最大幅值的均值为1，当前频域片的最大频域幅值为1.5或者2，则当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值增大0.5倍或1倍，可以判断有人声介入，当前信号为混合信号。

此处，需要说明的是，由于一般KTV中人声的音频信号比较高，所以如果当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值增大0.5倍时，则可判断有人声介入。实际应运时，可根据具体的环境音频变化情况进行判断，而不限于本实施例提供的判断数值标准。

作为一种可实施方式，步骤S300中，当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值发生突变，包括：当前频域片的最大频域幅值大于按时间顺序在该频域片之前的所有频域片的最大幅值的均值的设定倍数或约数；或，当前频域片的最大频域幅值小于按时间顺序在该频域片之前的所有频域片的最大幅值的均值的设定倍数或约数。

作为另一种可实施方式，步骤S300中，当前频域片的最大频域幅值相对于按时间顺序在该频域片之后所有频域片的最大幅值的均值发生突变，包括：当前频域片的最大频域幅值大于按时间顺序在该频域片之后所有频域片的最大幅值的均值的设定倍数或约数；或，当前频域片的最大频域幅值小于按时间顺序在该频域片之后所有频域片的最大幅值的均值的设定倍数或约数。

作为一种可实施方式，在步骤S100获取待测信号之后，还包括对待测信号进行去噪处理的步骤，以进一步提高混合信号检测的精准度。

进一步地，在步骤S300中，当当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值发生突变，或当前频域片的最大频域幅值相对于按时间顺序在该频域片之后所有频域片的最大幅值的均值发生突变时，还包括以下步骤：对当前频域片及其对应的时间片进行检测，判断频域片的最大幅值是否由噪音引起，若是，则去除该噪音并继续对下一频域片进行判断；若否，则判定待测信号为混合信号。

上述判断频域片的最大幅值是否由噪音引起，可以通过以下方式实现：设当前频域片的最大频域幅值为C，当前频域片与其左右相邻频域片三者的最大频域幅值的平均值为A，当前频域片的前5个频域片的最大频域幅值的平均值为B。若A大于1.5B，且A大于1.5C，则判断当前信号不是由噪音引起的，是真正的混合信号。

上述实施方式中，取当前频域片与其左右相邻频域片的最大频域幅值的平均值，以及与当前频域片的前5个频域片的最大频域幅值的平均值作比较，是为了容错处理，尽可能的过滤音频文件的噪声，以实现更精准的检测。

本实施例通过对待检测信号的频域片的频域幅值进行差异化分析，得到人声介入的时间点，从而精准地检测出人声加伴奏的混合信号。

利用本实施例，在检测出人声加伴奏的混合信号后，只需在混合信号部分利用现有的根据不同声道进行分离的盲信号分离方法进行盲信号分离，这样就保证了进行盲信号分离的音频是有人声混合的，能更精确的分离出人声和伴奏。

基于同一发明构思，本发明实施例二还提供了一种混合信号检测系统，该系统与前述混合信号检测方法的原理相同，故该系统的实施可参照前述混合信号检测方法实现，重复之处，不再冗述。

参见图5，本发明实施例二提供的混合信号检测系统，包括信号获取模块100、信号切片模块200、以及傅氏变换模块300。其中，信号获取模块100用于获取待测信号；信号切片模块200用于将待测信号以设定时间间隔进行切片，得到多个待测时间片；傅氏变换模块300用于分别将多个待测时间片进行傅氏变换，得到每个时间片对应的频域片；若存在任一频域片，满足以下条件，则判定待测信号为混合信号：

当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值发生突变，包括：当前频域片的最大频域幅值大于按时间顺序在该频域片之前的所有频域片的最大幅值的均值的设定倍数或约数；或，当前频域片的最大频域幅值小于按时间顺序在该频域片之前的所有频域片的最大幅值的均值的设定倍数或约数。

当前频域片的最大频域幅值相对于按时间顺序在该频域片之后所有频域片的最大幅值的均值发生突变，包括：当前频域片的最大频域幅值大于按时间顺序在该频域片之后所有频域片的最大幅值的均值的设定倍数或约数；或，当前频域片的最大频域幅值小于按时间顺序在该频域片之后所有频域片的最大幅值的均值的设定倍数或约数。

进一步地，本发明实施例二提供的混合信号检测系统还包括去噪模块。去噪模块用于在信号获取模块200获取待测信号之后，对待测信号进行去噪处理。

具体地，傅氏变换模块300包括噪音检测单元。噪音监测单元用于在当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值发生突变，或当前频域片的最大频域幅值相对于按时间顺序在该频域片之后所有频域片的最大幅值的均值发生突变时，对当前频域片及其对应的时间片进行检测，判断频域片的最大幅值是否由噪音引起，若是，则去除该噪音并继续对下一频域片进行判断；若否，则判定待测信号为混合信号。

当歌曲中只有伴奏的时候，音频信号切片的频域幅值是比较缓和的，人声介入后会有很大的波动。本发明基于此，通过对待测信号的频域幅值进行差异化分析，从而得到人声介入的时间点，精准地检测出人声加伴奏的混合信号。进一步，在预先检测出人声加伴奏的混合信号后，只需在混合信号部分利用现有的盲信号分离方法进行盲信号分离，保证了进行盲信号分离的音频是有人声混合的，大大提升了多声道信号分离的精准度。

本发明实施例三还提供了一种盲信号分离方法，该方法用于对KTV中的多声道信号进行分离，包括以下步骤：

S10、利用上述实施例一提供的混合信号检测方法，在歌曲中检测出人声加伴奏的混合信号；

S20、利用盲信号分离算法对混合信号进行分离。

步骤S20中的盲信号分离算法指的是现有的单纯利用不同声道进行分离的盲信号分离算法，具体不再冗述。

本实施例通过预先检测出人声加伴奏的混合信号，然后在混合信号部分利用现有的根据不同声道进行分离的盲信号分离算法进行盲信号分离，这样就保证了进行盲信号分离的音频是有人声混合的混合音频，使得多声道信号分离更加精准。

基于同一发明构思，本发明实施例四还提供一种盲信号分离系统，包括混合信号检测模块和信号分离模块。其中，混合信号检测模块用于利用上述实施例一提供的混合信号检测方法，在歌曲中检测出人声加伴奏的混合信号；信号分离模块用于利用现有的盲信号分离算法对混合信号进行分离。

本发明通过对待测信号的时间片的频域幅值进行差异化分析，得到人声介入的时间点，从而精准地检测出人声加伴奏的混合信号。进一步，在检测出人声加伴奏的混合信号后，在混合信号部分利用现有的根据不同声道进行分离的盲信号分离算法进行盲信号分离，这样就保证了进行盲信号分离的音频是有人声混合的混合音频，能更精确的分离出人声和伴奏，大大提升了利用盲信号分离算法对多声道信号进行分离的精准度。

以上的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种混合信号检测方法，其特征在于，包括以下步骤：

获取待测信号；

分别将所述多个待测时间片进行傅氏变换，得到每个时间片对应的频域片；

若存在任一频域片，满足以下条件，则判定所述待测信号为混合信号：

当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值发生突变，或当前频域片的最大频域幅值相对于按时间顺序在该频域片之后所有频域片的最大幅值的均值发生突变；

对所述当前频域片及其对应的时间片进行检测，判断所述当前频域片的最大幅值是否由噪音引起，若是，则去除该噪音并继续对下一频域片进行判断；

若否，则判定所述待测信号为混合信号。

2.根据权利要求1所述的方法，其特征在于，所述获取待测信号之后，还包括：对所述待测信号进行去噪处理。

3.根据权利要求1至2任一项所述的方法，其特征在于，所述当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值发生突变，包括：

所述当前频域片的最大频域幅值大于按时间顺序在该频域片之前的所有频域片的最大幅值的均值的设定倍数。

4.根据权利要求1至2任一项所述的方法，其特征在于，所述当前频域片的最大频域幅值相对于按时间顺序在该频域片之后所有频域片的最大幅值的均值发生突变，包括：

所述当前频域片的最大频域幅值大于按时间顺序在该频域片之后所有频域片的最大幅值的均值的设定倍数。

5.一种混合信号检测系统，其特征在于，包括：

信号获取模块、信号切片模块、以及傅氏变换模块；

所述信号获取模块，用于获取待测信号；

所述傅氏变换模块，用于分别将所述多个待测时间片进行傅氏变换，得到每个时间片对应的频域片；若存在任一频域片，满足以下条件，则判定所述待测信号为混合信号：当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值发生突变，或当前频域片的最大频域幅值相对于按时间顺序在该频域片之后所有频域片的最大幅值的均值发生突变；

所述傅氏变换模块包括噪音检测单元；

所述噪音检测单元，用于在所述当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值发生突变，或当前频域片的最大频域幅值相对于按时间顺序在该频域片之后所有频域片的最大幅值的均值发生突变时，对所述当前频域片及其对应的时间片进行检测，判断所述当前频域片的最大幅值是否由噪音引起，若是，则去除该噪音并继续对下一频域片进行判断；若否，则判定所述待测信号为混合信号。

6.根据权利要求5所述的系统，其特征在于，还包括去噪模块；所述去噪模块用于在所述信号获取模块获取待测信号之后，对所述待测信号进行去噪处理。

7.根据权利要求5至6任一项所述的系统，其特征在于，所述当前频域片的最大频域幅值相对于按时间顺序在该频域片之前的所有频域片的最大幅值的均值发生突变，包括：

8.根据权利要求5至6任一项所述的系统，其特征在于，所述当前频域片的最大频域幅值相对于按时间顺序在该频域片之后所有频域片的最大幅值的均值发生突变，包括：