CN112216285B

CN112216285B - 多人会话检测方法、系统、移动终端及存储介质

Info

Publication number: CN112216285B
Application number: CN202010887484.1A
Authority: CN
Inventors: 张广学; 李稀敏; 叶志坚; 蔡渠棠
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2023-06-23
Anticipated expiration: 2040-08-28
Also published as: CN112216285A

Abstract

本发明提供了一种多人会话检测方法、系统、移动终端及存储介质，该方法包括：对待检测音频的音频特征进行归一化处理得到归一化特征，将归一化特征输入第一GRU网络进行会话分析得到多人会话检测结果；将音频特征、归一化特征和多人会话检测结果输入第二GRU网络进行音量特征评估得到音量评估结果；将音频特征、多人会话检测结果和音量评估结果输入第三GRU网络进行会话能量比计算，得到能量比特征；根据能量比特征确定待检测音频中会话人的个数。本发明通过该第一GRU网络、第二GRU网络和第三GRU网络的设计，能识别到多人会话对应音频段的位置，且能识别到待检测音频中对应会话人的个数和每个会话人对应的音频数据，提高了多人会话检测的准确率。

Description

多人会话检测方法、系统、移动终端及存储介质

技术领域

本发明涉及音频检测技术领域，尤其涉及一种多人会话检测方法、系统、移动终端及存储介质。

背景技术

在一些实际应用中，通常需要对一段音频进行多人会话检测，以了解这段音频中有多少人在说话，以及其中哪段话是哪个会话人说的，在一段音频中存在多个会话人的情况下，多人会话检测方法就显得尤为重要，例如，针对多人会议中出现多个不同会话人音频重叠的情况时，需要针对重叠音频进行多人会话检测，检测识别到各个会话人在重叠音频中对应的语音。

现有的多人会话检测过程中，均是采用隐马尔可夫模型(HMM)进行多人会话的检测，但由于隐马尔可夫模型对多人会话的检测正确率低下，且需要的待检测的音频数据较大，进而导致多人会话检测效率低下。

发明内容

本发明实施例的目的在于提供一种多人会话检测方法、系统、移动终端及存储介质，旨在解决现有的多人会话检测方法检测效率低下的问题。

本发明实施例是这样实现的，一种多人会话检测方法，所述方法包括：

获取待检测音频，并提取所述待检测音频的音频特征；

对所述音频特征进行归一化处理，得到归一化特征，并将所述归一化特征输入第一GRU网络进行会话分析，得到多人会话检测结果；

将所述音频特征、所述归一化特征和所述多人会话检测结果输入第二GRU网络进行音量特征评估，得到音量评估结果；

将所述音频特征、所述多人会话检测结果和所述音量评估结果输入第三GRU网络进行会话能量比计算，得到能量比特征；

根据所述能量比特征确定所述待检测音频中会话人的个数。

更进一步的，所述提取所述待检测音频的音频特征的步骤包括：

对所述待检测音频进行分帧处理，得到分帧音频；

分别提取每个所述分帧音频的mfcc特征、基音周期、过零率、能量均方根、HNR或谱平坦系数，以得到所述音频特征。

更进一步的，所述将所述归一化特征输入第一GRU网络进行会话分析的步骤包括：

根据所述第一GRU网络对所述归一化特征中的多会话人特征和单会话人特征进行分类，得到所述多人会话检测结果。

更进一步的，所述将所述音频特征、所述归一化特征和所述多人会话检测结果输入第二GRU网络进行音量特征评估的步骤包括：

控制所述第二GRU网络根据所述归一化特征和所述多人会话检测结果，获取当前训练批次中多人会话音频对应的会话人特征；

根据所述多人会话音频对应的会话人特征和所述音频特征查询多人会话特征位置；

对所述多人会话特征位置进行音量计算，得到所述音量评估结果。

更进一步的，所述将所述音频特征、所述多人会话检测结果和所述音量评估结果输入第三GRU网络进行会话能量比计算的步骤包括：

根据所述第三GRU网络获取所述待检测音频中所述多人会话特征位置对应的音频信息，得到所述多人会话音频；

根据所述多人会话检测结果获取所述待检测音频中的单人会话音频，并对所述单人会话音频和所述多人会话音频分别进行傅里叶变换，得到单人会话频谱图和多人会话频谱图；

根据所述单人会话频谱图和所述多人会话频谱图分别计算每个所述会话人的基频振幅；

计算不同所述会话人之间所述基频振幅的比值，得到所述能量比特征。

更进一步的，对所述音频特征进行归一化处理所采用的方式为线性函数归一化或0均值归一化。

本发明实施例的另一目的在于提供一种多人会话检测系统，所述系统包括：

音频特征提取模块，用于获取待检测音频，并提取所述待检测音频的音频特征；

会话分析模块，用于对所述音频特征进行归一化处理，得到归一化特征，并将所述归一化特征输入第一GRU网络进行会话分析，得到多人会话检测结果；

音量特征评估模块，用于将所述音频特征、所述归一化特征和所述多人会话检测结果输入第二GRU网络进行音量特征评估，得到音量评估结果；

会话能量比计算模块，用于将所述音频特征、所述多人会话检测结果和所述音量评估结果输入第三GRU网络进行会话能量比计算，得到能量比特征，并根据所述能量比特征确定所述待检测音频中会话人的个数。

更进一步的，所述音频特征提取模块还用于：

对所述待检测音频进行分帧处理，得到分帧音频；

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的多人会话检测方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的多人会话检测方法的步骤。

本发明实施例，通过对音频特征进行归一化处理得到归一化特征，并将归一化特征输入第一GRU网络进行会话分析的设计，能有效的识别到待检测音频中多人会话对应的音频段，通过将音频特征、归一化特征和多人会话检测结果输入第二GRU网络进行音量特征评估的设计，能有效的计算到待检测音频中不同音频段对应的音量特征，基于该音量评估结果能有效的识别到多人会话对应音频段的位置，通过将音频特征、多人会话检测结果和音量评估结果输入第三GRU网络进行会话能量比计算的设计，能有效的识别到待检测音频中不同音频段对应会话人的个数和每个会话人对应的音频数据，进而有效的提高了多人会话检测的检测效率和准确率。

附图说明

图1是本发明第一实施例提供的多人会话检测方法的流程图；

图2是本发明第二实施例提供的多人会话检测方法的流程图；

图3是本发明第三实施例提供的多人会话检测系统的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的多人会话检测方法的流程图，包括步骤：

步骤S10，获取待检测音频，并提取所述待检测音频的音频特征；

其中，该待检测音频的音频长度可以根据需求进行设置，为了提高多人会话检测效率，该待检测音频的音频长度可以设置为0.5秒、1秒或2秒等，可选的，该音频特征包括mfcc特征、基音周期、过零率、能量均方根、HNR或谱平坦系数中的一种或多种的组合。

该步骤中，当获取到该待检测音频时，对该待检测音频进行预处理，具体的，该预处理可以为预加重操作，该预加重的目的是提升待检测音频中的高频分量，在待检测音频中提升高频分量的目的主要是因为高频分量(即辅音)包含了更多的信息，而元音的频率普遍较低，通过对待检测音频进行预加重，以保持待检测音频中信号低频部分不变，提升信号的高频部分；而去加重衰减信号的低频部分，保持高频部分，即预加重的目的是提升信号中高频部分的能量，以补偿信道对高频部分衰减过大。

步骤S20，对所述音频特征进行归一化处理，得到归一化特征，并将所述归一化特征输入第一GRU网络进行会话分析，得到多人会话检测结果；

其中，通过对该音频特征进行归一化处理得到归一化特征的设计，能有效的将该音频特征映射至指定特征范围内，进而方便了对该音频特征的处理，提高了多人会话检测的检测效率，优选的，对该音频特征进行归一化处理所采用的方式为线性函数归一化或0均值归一化。

具体的，该步骤中，通过将归一化特征输入多人会话检测模型中的第一GRU网络进行会话分析，以得到多人会话检测结果，该多人会话检测模型包括第一GRU网络、第二GRU网络和第三GRU网络。

可选的，该第一GRU网络可以采用GRU 24网络，通过将所述归一化特征输入第一GRU网络进行会话分析的设计，能有效的识别到待检测音频中多人会话对应的音频段，GRU网络是一种循环神经网络，与长短期记忆网络(LSTM)相似，与LSTM网络相比，GRU网络去除掉了细胞状态，使用隐藏状态来进行信息的传递，GRU网络只包含两个门：更新门和重置门，更新门的作用类似于LSTM网络中的遗忘门和输入门，更新门决定了要忘记哪些信息以及哪些新信息需要被添加；重置门用于决定遗忘先前信息的程度，GRU网络的张量运算较少，因此，GRU网络比LSTM网络的训练更快。

该步骤中，通过将归一化特征输入第一GRU网络进行会话分析，以分析该待检测音频中是否存在多人会话音频，得到该多人会话检测结果，该多人会话检测结果中存储有该待检测音频中被识别为多人会话音频的音频数据。

步骤S30，将所述音频特征、所述归一化特征和所述多人会话检测结果输入第二GRU网络进行音量特征评估，得到音量评估结果；

其中，该音量评估结果中存储有每个多人会话音频对应的音量特征，该第二GRU网络的输入与第一GRU网络的输出相连接，该第二GRU网络可以采用GRU48网络，该音量特征评估用于计算该多人会话检测结果中被识别为多人会话音频的音频数据的音量特征。

例如，该多人会话检测结果包括音频段A和音频段B，则判定该待检测音频中的音频段A和音频段B为多人会话音频，根据该第二GRU网络分别对音频段A和音频段B进行音量特征评估，以分别计算该音频段A和音频段B对应的音量特征，得到该音量评估结果。

步骤S40，将所述音频特征、所述多人会话检测结果和所述音量评估结果输入第三GRU网络进行会话能量比计算，得到能量比特征，并根据所述能量比特征确定所述待检测音频中会话人的个数；

其中，该第三GRU网络的输入与第二GRU网络的输出相连接，该第三GRU网络可以采用GRU 96网络，该会话能量比计算用于根据该音频特征、多人会话检测结果和音量评估结果分别计算多人会话音频中每个会话人的语音能量，并基于计算得到的语音能量进行比值计算，得到该能量比特征，即该能量比特征为多人会话音频中每个会话人之间语音能量的比值；

例如，当检测到该音频段A中包括会话人a、会话人b和会话人c，则根据该音频特征和音频段A的音量特征分别计算会话人a、会话人b和会话人c在音频段A中的语音能量，得到语音能量a、语音能量b和语音能量c，则计算语音能量a、语音能量b和语音能量c之间的比值，得到该能量比特征。

具体的，该步骤中，若第三GRU网络输出的能量比特征中的比值参数数量等于1个时，则判定该待检测音频为单人会话音频，若第三GRU网络输出的能量比特征中的比值参数数量大于1个时，则判定该待检测音频中会话人的个数等于比值参数数量，例如，当第三GRU网络输出的能量比特征为语音能量a、语音能量b和语音能量c之间的比值时，则该待检测音频中的音频段A存在3个会话人。

需要说明的是，本实施例中，该多人会话检测模型有两个输出结果，第一个输出结果为该第一GRU网络针对该待检测音频中是否存在多人会话音频的判定，第二个输出结果为该第三GRU网络输出的能量比特征。

本实施例，通过对音频特征进行归一化处理得到归一化特征，并将归一化特征输入第一GRU网络进行会话分析的设计，能有效的识别到待检测音频中多人会话对应的音频段，通过将音频特征、归一化特征和多人会话检测结果输入第二GRU网络进行音量特征评估的设计，能有效的计算到待检测音频中不同音频段对应的音量特征，基于该音量评估结果能有效的识别到多人会话对应音频段的位置，通过将音频特征、多人会话检测结果和音量评估结果输入第三GRU网络进行会话能量比计算的设计，能有效的识别到待检测音频中不同音频段对应会话人的个数和每个会话人对应的音频数据，进而有效的提高了多人会话检测的检测效率和准确率。

实施例二

请参阅图2，是本发明第二实施例提供的多人会话检测方法的流程图，包括步骤：

步骤S11，获取待检测音频，并对所述待检测音频进行分帧处理，得到分帧音频；

其中，通过以每20毫秒一帧、帧移为10毫秒对待检测音频进行分帧处理，以得到该分帧音频，通过对该待检测音频进行分帧的设计，使得待检测音频中帧与帧之间的数据有部分重叠，进而可以保证减少信号的丢失，提高了待检测音频的完整性。

可选的，该步骤中，对所述待检测音频进行分帧处理得到分帧音频之后，所述方法还包括：对所述分帧音频进行加窗处理，其中，通过对该分帧音频进行加窗处理的设计，以得到一个特征参数序列组成的序列，该加窗可以加载在时域上，也可以加载在频域上，该加窗处理所使用的窗函数主要有矩形窗、汉明窗、汉宁窗；

该步骤中，由于分帧难以确保信号的周期性截断、而信号的非周期性截断会带来频谱泄漏(对于频率是F的信号，分帧分析之后应该只在频率F处有能量，其他频率分量能量为0，但是由于非周期性截断，导致在其他频率分量上也有能量，即可以看做频率从F处泄露出去了)，但是频谱泄露是不可避免的，因此，为了尽量减少泄露带来的影响，可以对分帧音频进行加窗，以防止频谱的泄露，进一步提高了该待检测音频的完整性。

步骤S21，分别提取每个所述分帧音频的mfcc特征、基音周期、过零率、能量均方根、HNR或谱平坦系数，以得到音频特征；

具体的，该步骤中，通过分别提取每个分帧音频中前12个的mfcc特征、基音周期、过零率、能量均方根、HNR或谱平坦系数，以得到音频特征。

步骤S31，对所述音频特征进行归一化处理，得到归一化特征，并根据第一GRU网络对所述归一化特征中的多会话人特征和单会话人特征进行分类，得到多人会话检测结果；

其中，该第一GRU网络用于对该归一化特征进行分类，以将归一化特征分类为多会话人特征或单会话人特征，即当该第一GRU网络对归一化特征的分类结果中存储有多会话人特征，则判定该多会话人特征对应的分帧音频为多人会话音频；

若该第一GRU网络对归一化特征的分类结果中未存储有多会话人特征，则判定所有分帧音频均不是多人会话音频，该待检测音频中不存在多人会话现象，即该待检测音频中不存才由于多人会话所导致的重叠音频。

步骤S41，控制所述第二GRU网络根据所述归一化特征和所述多人会话检测结果，获取当前训练批次中多人会话音频对应的会话人特征；

其中，根据该多人会话检测结果获取对应多人会话音频的音频特征，得到该会话人特征。

步骤S51，根据所述多人会话音频对应的会话人特征和所述音频特征查询多人会话特征位置，并对所述多人会话特征位置进行音量计算，得到所述音量评估结果；

其中，查询该多人会话音频对应的会话人特征在该音频特征中特征位置，并基于该特征位置查询该多人会话音频在待检测音频中的音频位置，以得到该多人会话特征位置；

具体的，该步骤中，通过对该待检测音频上多人会话特征位置对应的音频进行音量计算，以得到该音量评估结果。

步骤S61，将所述音频特征、所述多人会话检测结果和所述音量评估结果输入第三GRU网络进行会话能量比计算，得到能量比特征；

具体的，该步骤中，所述将所述音频特征、所述多人会话检测结果和所述音量评估结果输入第三GRU网络进行会话能量比计算的步骤包括：

步骤S71，根据所述能量比特征确定所述待检测音频中会话人的个数。

本实施例，通过根据该第一GRU网络对归一化特征进行分类的设计，能有效的识别到待检测音频中多人会话对应的音频段，通过根据多人会话音频对应的会话人特征和音频特征查询多人会话特征位置，并对多人会话特征位置进行音量计算的设计，能有效的计算到待检测音频中不同音频段对应的音量特征，基于该音量评估结果能有效的识别到多人会话对应音频段的位置，通过将音频特征、多人会话检测结果和音量评估结果输入第三GRU网络进行会话能量比计算的设计，能有效的识别到待检测音频中不同音频段对应会话人的个数和每个会话人对应的音频数据，进而有效的提高了多人会话检测的检测效率和准确率。

实施例三

请参阅图3，是本发明第三实施例提供的多人会话检测系统100的结构示意图，包括：音频特征提取模块10、会话分析模块11、音量特征评估模块12和会话能量比计算模块13，其中：

音频特征提取模块10，用于获取待检测音频，并提取所述待检测音频的音频特征。

其中，所述音频特征提取模块10还用于：对所述待检测音频进行分帧处理，得到分帧音频；

会话分析模块11，用于对所述音频特征进行归一化处理，得到归一化特征，并将所述归一化特征输入第一GRU网络进行会话分析，得到多人会话检测结果。

其中，所述会话分析模块11还用于：根据所述第一GRU网络对所述归一化特征中的多会话人特征和单会话人特征进行分类，得到所述多人会话检测结果。

音量特征评估模块12，用于将所述音频特征、所述归一化特征和所述多人会话检测结果输入第二GRU网络进行音量特征评估，得到音量评估结果。

其中，所述音量特征评估模块12还用于：控制所述第二GRU网络根据所述归一化特征和所述多人会话检测结果，获取当前训练批次中多人会话音频对应的会话人特征；

会话能量比计算模块13，用于将所述音频特征、所述多人会话检测结果和所述音量评估结果输入第三GRU网络进行会话能量比计算，得到能量比特征，并根据所述能量比特征确定所述待检测音频中会话人的个数，该能量比特征为多人会话音频中每个会话人之间语音能量的比值。

其中，所述会话能力比计算模块13还用于：根据所述第三GRU网络获取所述待检测音频中所述多人会话特征位置对应的音频信息，得到所述多人会话音频；

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的多人会话检测方法，该移动终端101可以为机器人。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

获取待检测音频，并提取所述待检测音频的音频特征；

根据所述能量比特征确定所述待检测音频中会话人的个数。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的多人会话检测系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-3中的多人会话检测方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述当前多人会话检测系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述当前多人会话检测系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多人会话检测方法，其特征在于，所述方法包括：

获取待检测音频，并提取所述待检测音频的音频特征；

根据所述能量比特征确定所述待检测音频中会话人的个数。

2.如权利要求1所述的多人会话检测方法，其特征在于，所述提取所述待检测音频的音频特征的步骤包括：

对所述待检测音频进行分帧处理，得到分帧音频；

3.如权利要求1所述的多人会话检测方法，其特征在于，所述将所述归一化特征输入第一GRU网络进行会话分析的步骤包括：

4.如权利要求1所述的多人会话检测方法，其特征在于，所述将所述音频特征、所述归一化特征和所述多人会话检测结果输入第二GRU网络进行音量特征评估的步骤包括：

5.如权利要求4所述的多人会话检测方法，其特征在于，所述将所述音频特征、所述多人会话检测结果和所述音量评估结果输入第三GRU网络进行会话能量比计算的步骤包括：

6.如权利要求1所述的多人会话检测方法，其特征在于，对所述音频特征进行归一化处理所采用的方式为线性函数归一化或0均值归一化。

7.一种多人会话检测系统，其特征在于，所述系统包括：

8.如权利要求7所述的多人会话检测系统，其特征在于，所述音频特征提取模块还用于：

对所述待检测音频进行分帧处理，得到分帧音频；

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至6任一项所述的多人会话检测方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至6任一项所述的多人会话检测方法的步骤。