CN116825088A

CN116825088A - 一种基于深度学习的会议语音检测方法及系统

Info

Publication number: CN116825088A
Application number: CN202311075062.4A
Authority: CN
Inventors: 刘艳梅
Original assignee: Shenzhen Guoshuohong Electronics Co ltd
Current assignee: Shenzhen Guoshuohong Electronics Co ltd
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-09-29
Anticipated expiration: 2043-08-25
Also published as: CN116825088B

Abstract

本发明涉及语音检测领域，特别是一种基于深度学习的会议语音检测方法及系统。可以及时高效的对会议中重点关注词汇或者热点词、敏感词进行内容搜索和收集，有利于提升会议效。通过得到声学特征语音数据，通过建立目标ResNet残差网络识别模型，利用目标ResNet残差网络识别模型对声学特征语音数据中的敏感词信息进行检测；若声学特征语音数据中有敏感词，则将声学特征语音数据输入至数据库中进行存储，敏感词至少包括事件敏感词和人物敏感词；基于目标ResNet残差网络识别模型对声学特征语音数据中的音频类别信息进行判断；若音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将会议调解指令传输至服务器或管理人员。

Description

一种基于深度学习的会议语音检测方法及系统

技术领域

本发明涉及语音检测领域，特别是一种基于深度学习的会议语音检测方法及系统。

背景技术

在日常办公环境下，越来越多的人在通过开会或者会议对其所遇见的问题进行讨论和解决，在现有技术中，会议人员在会议室或者会议环境中进行开会通常会伴随着利用录音笔或者有录音功能的设备对会议讨论的问题进行录音，然后再通过语音转换设备，转换成文字，进而生成会议纪要和会议记录。但是一般情况中，会议环境讨论的通常是急于解决的事情，容易出现会议人员争执，和需要找寻热点词和热点文章。所以如何根据会议实时讨论的事件或者情况，对这些情况，自动做出一定的决策和搜索，从而更好的帮助会议人员做出解决问题，又能保障在会议过程中对会议争执事件进行辅助调解，提高会议的效率，是现阶段丞待解决的技术问题。

发明内容

本发明的目的是为了解决上述问题，设计了一种基于深度学习的会议语音检测方法及系统。

实现上述目的本发明的技术方案为，进一步，在上述一种基于深度学习的会议语音检测方法中，所述会议语音检测方法包括以下步骤：

获取会议环境中的实时会议语音数据，将实时会议语音数据进行数据预处理，得到声学特征语音数据；

通过残差网络建立ResNet残差网络识别模型，利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝，得到初始ResNet残差网络识别模型；

将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练，得到目标ResNet残差网络识别模型；

利用所述目标ResNet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测；

若所述声学特征语音数据中有敏感词，则将所述声学特征语音数据输入至数据库中进行存储，所述敏感词至少包括事件敏感词和人物敏感词；

基于所述目标ResNet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断，所述音频类别信息至少包括争执语音信息和正常语音信息；

若所述音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将所述会议调解指令传输至服务器或管理人员。

进一步，在上述会议语音检测方法中，所述获取会议环境中的实时会议语音数据，将实时会议语音数据进行数据预处理，得到声学特征语音数据，包括：

获取会议环境中的实时会议语音，通过高通数字滤波算法对所述实时会议语音数据进行预加重处理，得到滤波会议语音数据；

将滤波会议语音数据进行分段处理，得到分帧会议语音数据，所述分帧会议语音数据的分段时间为10-30ms；

基于汉明窗函数，利用汉明窗函数对所有的分帧会议语音数据依次相乘，得到加窗会议语音数据；

利用快速傅里叶变换算法对所述加窗会议语音数据中的时域数据变换为频域数据，得到频域会议语音数据；

基于梅尔滤波器组将频域会议语音数据转化为梅尔频率会议语音数据，得到梅尔频率会议语音数据；

计算梅尔频率会议语音数据经过梅尔滤波器组后每个频谱的能量频谱，得到声学特征语音数据。

进一步，在上述会议语音检测方法中，所述通过残差网络建立ResNet残差网络识别模型，利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝，得到初始ResNet残差网络识别模型，包括：

至少通过34层卷积的残差网络建立ResNet残差网络识别模型，利用ReLU函数作为所述ResNet残差网络识别模型的激活函数；

利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝，得到初始ResNet残差网络识别模型；

所述初始ResNet残差网络识别模型至少包括输入层、输出层、卷积层、池化层、全连接层、输出层。

进一步，在上述会议语音检测方法中，所述将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练，得到目标ResNet残差网络识别模型，包括：

获取声学特征语音数据，将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练；

对所述初始ResNet残差网络识别模型中的全局平均池化层利用注意力池化层进行替换；

利用OHEM交叉熵损失函数对所述初始ResNet残差网络识别模型的损失函数，得到目标ResNet残差网络识别模型。

进一步，在上述会议语音检测方法中，所述利用所述目标ResNet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测，包括：

获取声学特征语音数据，利用目标ResNet残差网络识别模型对所述声学特征语音数据进行检测；

判断所述声学特征语音数据中是否有敏感词，若所述所述声学特征语音数据包括敏感词，则对敏感词进行判断；

所述敏感词信息进行检测还包括获取互联网中的网络热词，对声学特征语音数据中的网络热词进行检测。

进一步，在上述会议语音检测方法中，所述若所述声学特征语音数据中有敏感词，则将所述声学特征语音数据输入至数据库中进行存储，所述敏感词至少包括事件敏感词和人物敏感词，包括：

获取声学特征语音数据中的敏感词信息，若所述声学特征语音数据中包括事件敏感词；

则将所述声学特征语音数据输入至事件敏感词数据库中进行存储，并生成事件查询指令，根据所述事件查询指令利用Python对互联网数据库中包含事件敏感词的图文进行查询；

若所述声学特征语音数据中包括人物敏感词，则将所述声学特征语音数据输入至人物敏感词数据库中进行存储；

生成人物查询指令，根据所述人物查询指令利用Python对互联网数据库中包含人物敏感词的图文进行查询。

将所述人物敏感词和所述事件敏感词的图文查询结果传输至对应的会议人员。

进一步，在上述会议语音检测方法中，所述基于所述目标ResNet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断，所述音频类别信息至少包括争执语音信息和正常语音信息，包括：

获取声学特征语音数据，将所述声学特征语音数据输入至所述目标ResNet残差网络识别模型中进行识别，得到音频类别信息；

对所述音频类别信息进行判断，所述音频类别信息至少包括争执语音信息和正常语音信息；

若所述音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将所述会议调解指令传输至服务器或管理人员；

若所述音频类别信息中的争执语音信息所占比例为1-30%，则生成实时监测指令，根据实时监测指令对会议环境进行监测；

若所述音频类别信息中的正常语音信息所占比例为60-90%，则将所述声学特征语音数据输入至数据库中进行存储。

实现上述目的本发明的技术方案为，进一步，在上述一种基于深度学习的会议语音检测系统中，所述会议语音检测系统，包括：

数据处理模块，用于获取会议环境中的实时会议语音数据，将实时会议语音数据进行数据预处理，得到声学特征语音数据；

模型建立模块，用于通过残差网络建立ResNet残差网络识别模型，利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝，得到初始ResNet残差网络识别模型；

模型训练模块，用于将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练，得到目标ResNet残差网络识别模型；

敏感词检测模块，用于利用所述目标ResNet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测；

数据存储模块，用于若所述声学特征语音数据中有敏感词，则将所述声学特征语音数据输入至数据库中进行存储，所述敏感词至少包括事件敏感词和人物敏感词；

语音判断模块，用于基于所述目标ResNet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断，所述音频类别信息至少包括争执语音信息和正常语音信息；

指令传输模块，用于若所述音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将所述会议调解指令传输至服务器或管理人员。

进一步，在上述一种基于深度学习的会议语音检测系统中，所述数据处理模块包括以下子模块：

获取子模块，用于获取会议环境中的实时会议语音，通过高通数字滤波算法对所述实时会议语音数据进行预加重处理，得到滤波会议语音数据；

分帧子模块，用于将滤波会议语音数据进行分段处理，得到分帧会议语音数据，所述分帧会议语音数据的分段时间为10-30ms；

加窗子模块，用于基于汉明窗函数，利用汉明窗函数对所有的分帧会议语音数据依次相乘，得到加窗会议语音数据；

变换子模块，用于利用快速傅里叶变换算法对所述加窗会议语音数据中的时域数据变换为频域数据，得到频域会议语音数据；

转换子模块，用于基于梅尔滤波器组将频域会议语音数据转化为梅尔频率会议语音数据，得到梅尔频率会议语音数据；

计算子模块，用于计算梅尔频率会议语音数据经过梅尔滤波器组后每个频谱的能量频谱，得到声学特征语音数据。

进一步，在上述一种基于深度学习的会议语音检测系统中，所述模型建立模块包括以下子模块：

识别子模块，用于获取声学特征语音数据，将所述声学特征语音数据输入至所述目标ResNet残差网络识别模型中进行识别，得到音频类别信息；

判断子模块，用于对所述音频类别信息进行判断，所述音频类别信息至少包括争执语音信息和正常语音信息；

调解子模块，用于若所述音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将所述会议调解指令传输至服务器或管理人员；

监测子模块，用于若所述音频类别信息中的争执语音信息所占比例为1-30%，则生成实时监测指令，根据实时监测指令对会议环境进行监测；

存储子模块，用于若所述音频类别信息中的正常语音信息所占比例为60-90%，则将所述声学特征语音数据输入至数据库中进行存储。

其有益效果在于，通过获取会议环境中的实时会议语音数据，将实时会议语音数据进行数据预处理，得到声学特征语音数据；通过残差网络建立ResNet残差网络识别模型，利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝，得到初始ResNet残差网络识别模型；将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练，得到目标ResNet残差网络识别模型；利用所述目标ResNet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测；若所述声学特征语音数据中有敏感词，则将所述声学特征语音数据输入至数据库中进行存储，所述敏感词至少包括事件敏感词和人物敏感词；基于所述目标ResNet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断，所述音频类别信息至少包括争执语音信息和正常语音信息；若所述音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将所述会议调解指令传输至服务器或管理人员。可以及时高效的对会议中重点关注词汇或者热点词、敏感词进行内容搜索和收集，有利于提升会议效率，对会议中有争执的事件和有争执的人物及时生成矛盾调解指令，将矛盾调解指令传输给会议主持人员或者领导，能及时阻止会议的矛盾争执，提升会议效率的同时也增进同事之间的感情。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

图1为本发明实施例中一种基于深度学习的会议语音检测方法的第一个实施例示意图；

图2为本发明实施例中一种基于深度学习的会议语音检测方法的第二个实施例示意图；

图3为本发明实施例中一种基于深度学习的会议语音检测方法的第三个实施例示意图；

图4为本发明实施例中一种基于深度学习的会议语音检测系统的第一个实施例示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“所述”也可包括复数形式。应所述进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

下面结合附图对本发明进行具体描述，如图1所示，一种基于深度学习的会议语音检测方法，会议语音检测方法包括以下步骤：

步骤101、获取会议环境中的实时会议语音数据，将实时会议语音数据进行数据预处理，得到声学特征语音数据；

具体的，本实施例中获取会议环境中的实时会议语音，通过高通数字滤波算法对实时会议语音数据进行预加重处理，得到滤波会议语音数据；将滤波会议语音数据进行分段处理，得到分帧会议语音数据，分帧会议语音数据的分段时间为10-30ms;基于汉明窗函数，利用汉明窗函数对所有的分帧会议语音数据依次相乘，得到加窗会议语音数据；利用快速傅里叶变换算法对加窗会议语音数据中的时域数据变换为频域数据，得到频域会议语音数据；基于梅尔滤波器组将频域会议语音数据转化为梅尔频率会议语音数据，得到梅尔频率会议语音数据；计算梅尔频率会议语音数据经过梅尔滤波器组后每个频谱的能量频谱，得到声学特征语音数据。

步骤102、通过残差网络建立ResNet残差网络识别模型，利用MaskACC卷积加速滤波器对ResNet残差网络识别模型中的卷积层进行剪枝，得到初始ResNet残差网络识别模型；

具体的，本实施例中至少通过34层卷积的残差网络建立ResNet残差网络识别模型，利用ReLU函数作为ResNet残差网络识别模型的激活函数；利用MaskACC卷积加速滤波器对ResNet残差网络识别模型中的卷积层进行剪枝，得到初始ResNet残差网络识别模型；初始ResNet残差网络识别模型至少包括输入层、输出层、卷积层、池化层、全连接层、输出层。

步骤103、将声学特征语音数据输入至初始ResNet残差网络识别模型进行训练，得到目标ResNet残差网络识别模型；

具体的，本实施例中获取声学特征语音数据，将声学特征语音数据输入至初始ResNet残差网络识别模型进行训练；对初始ResNet残差网络识别模型中的全局平均池化层利用注意力池化层进行替换；利用OHEM交叉熵损失函数对初始ResNet残差网络识别模型的损失函数，得到目标ResNet残差网络识别模型。

步骤104、利用目标ResNet残差网络识别模型对声学特征语音数据中的敏感词信息进行检测；

具体的，本实施例中获取声学特征语音数据，利用目标ResNet残差网络识别模型对声学特征语音数据进行检测；判断声学特征语音数据中是否有敏感词，若声学特征语音数据包括敏感词，则对敏感词进行判断；敏感词信息进行检测还包括获取互联网中的网络热词，对声学特征语音数据中的网络热词进行检测。

步骤105、若声学特征语音数据中有敏感词，则将声学特征语音数据输入至数据库中进行存储，敏感词至少包括事件敏感词和人物敏感词；

具体的，本实施例中获取声学特征语音数据中的敏感词信息，若声学特征语音数据中包括事件敏感词；则将声学特征语音数据输入至事件敏感词数据库中进行存储，并生成事件查询指令，根据事件查询指令利用Python对互联网数据库中包含事件敏感词的图文进行查询；若声学特征语音数据中包括人物敏感词，则将声学特征语音数据输入至人物敏感词数据库中进行存储；生成人物查询指令，根据人物查询指令利用Python对互联网数据库中包含人物敏感词的图文进行查询；将人物敏感词和事件敏感词的图文查询结果传输至对应的会议人员。

步骤106、基于目标ResNet残差网络识别模型对声学特征语音数据中的音频类别信息进行判断，音频类别信息至少包括争执语音信息和正常语音信息；

具体的，本实施例中获取声学特征语音数据，将声学特征语音数据输入至目标ResNet残差网络识别模型中进行识别，得到音频类别信息；对音频类别信息进行判断，音频类别信息至少包括争执语音信息和正常语音信息；若音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将会议调解指令传输至服务器或管理人员；若音频类别信息中的争执语音信息所占比例为1-30%，则生成实时监测指令，根据实时监测指令对会议环境进行监测；若音频类别信息中的正常语音信息所占比例为60-90%，则将声学特征语音数据输入至数据库中进行存储。

步骤107、若音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将会议调解指令传输至服务器或管理人员。

其有益效果在于，通过获取会议环境中的实时会议语音数据，将实时会议语音数据进行数据预处理，得到声学特征语音数据；通过残差网络建立ResNet残差网络识别模型，利用MaskACC卷积加速滤波器对ResNet残差网络识别模型中的卷积层进行剪枝，得到初始ResNet残差网络识别模型；将声学特征语音数据输入至初始ResNet残差网络识别模型进行训练，得到目标ResNet残差网络识别模型；利用目标ResNet残差网络识别模型对声学特征语音数据中的敏感词信息进行检测；若声学特征语音数据中有敏感词，则将声学特征语音数据输入至数据库中进行存储，敏感词至少包括事件敏感词和人物敏感词；基于目标ResNet残差网络识别模型对声学特征语音数据中的音频类别信息进行判断，音频类别信息至少包括争执语音信息和正常语音信息；若音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将会议调解指令传输至服务器或管理人员。可以及时高效的对会议中重点关注词汇或者热点词、敏感词进行内容搜索和收集，有利于提升会议效率，对会议中有争执的事件和有争执的人物及时生成矛盾调解指令，将矛盾调解指令传输给会议主持人员或者领导，能及时阻止会议的矛盾争执，提升会议效率的同时也增进同事之间的感情。

本实施例中，请参阅图2，本发明实施例中一种基于深度学习的会议语音检测方法的第二个实施例，获取会议环境中的实时会议语音数据，将实时会议语音数据进行数据预处理，得到声学特征语音数据包括以下步骤：

步骤201、获取会议环境中的实时会议语音，通过高通数字滤波算法对实时会议语音数据进行预加重处理，得到滤波会议语音数据；

步骤202、将滤波会议语音数据进行分段处理，得到分帧会议语音数据，分帧会议语音数据的分段时间为10-30ms；

步骤203、基于汉明窗函数，利用汉明窗函数对所有的分帧会议语音数据依次相乘，得到加窗会议语音数据；

步骤204、利用快速傅里叶变换算法对加窗会议语音数据中的时域数据变换为频域数据，得到频域会议语音数据；

步骤205、基于梅尔滤波器组将频域会议语音数据转化为梅尔频率会议语音数据，得到梅尔频率会议语音数据；

步骤206、计算梅尔频率会议语音数据经过梅尔滤波器组后每个频谱的能量频谱，得到声学特征语音数据。

本实施例中，请参阅图3，本发明实施例中一种基于深度学习的会议语音检测方法的第三个实施例，基于目标ResNet残差网络识别模型对声学特征语音数据中的音频类别信息进行判断，音频类别信息至少包括争执语音信息和正常语音信息包括以下步骤：

步骤301、获取声学特征语音数据，将声学特征语音数据输入至目标ResNet残差网络识别模型中进行识别，得到音频类别信息；

步骤302、对音频类别信息进行判断，音频类别信息至少包括争执语音信息和正常语音信息；

步骤303、若音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将会议调解指令传输至服务器或管理人员；

步骤304、若音频类别信息中的争执语音信息所占比例为1-30%，则生成实时监测指令，根据实时监测指令对会议环境进行监测；

步骤305、若音频类别信息中的正常语音信息所占比例为60-90%，则将声学特征语音数据输入至数据库中进行存储。

上面对本发明实施例提供的一种基于深度学习的会议语音检测方法进行了描述，下面对本发明实施例的一种基于深度学习的会议语音检测系统进行描述，请参阅图4，本发明实施例中会议语音检测系统一个实施例包括：

模型建立模块，用于通过残差网络建立ResNet残差网络识别模型，利用MaskACC卷积加速滤波器对ResNet残差网络识别模型中的卷积层进行剪枝，得到初始ResNet残差网络识别模型；

模型训练模块，用于将声学特征语音数据输入至初始ResNet残差网络识别模型进行训练，得到目标ResNet残差网络识别模型；

敏感词检测模块，用于利用目标ResNet残差网络识别模型对声学特征语音数据中的敏感词信息进行检测；

数据存储模块，用于若声学特征语音数据中有敏感词，则将声学特征语音数据输入至数据库中进行存储，敏感词至少包括事件敏感词和人物敏感词；

语音判断模块，用于基于目标ResNet残差网络识别模型对声学特征语音数据中的音频类别信息进行判断，音频类别信息至少包括争执语音信息和正常语音信息；

指令传输模块，用于若音频类别信息中的争执语音信息所占比例大于正常语音信息，则生成会议调解指令，将会议调解指令传输至服务器或管理人员。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应所述了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变和改进，这些变和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于深度学习的会议语音检测方法，其特征在于，所述会议语音检测方法包括以下步骤：

2.如权利要求1所述的一种基于深度学习的会议语音检测方法，其特征在于，所述获取会议环境中的实时会议语音数据，将实时会议语音数据进行数据预处理，得到声学特征语音数据，包括：

3.如权利要求1所述的一种基于深度学习的会议语音检测方法，其特征在于，所述通过残差网络建立ResNet残差网络识别模型，利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝，得到初始ResNet残差网络识别模型，包括：

4.如权利要求1所述的一种基于深度学习的会议语音检测方法，其特征在于，所述将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练，得到目标ResNet残差网络识别模型，包括：

5.如权利要求1所述的一种基于深度学习的会议语音检测方法，其特征在于，所述利用所述目标ResNet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测，包括：

6.如权利要求1所述的一种基于深度学习的会议语音检测方法，其特征在于，所述若所述声学特征语音数据中有敏感词，则将所述声学特征语音数据输入至数据库中进行存储，所述敏感词至少包括事件敏感词和人物敏感词，包括：

生成人物查询指令，根据所述人物查询指令利用Python对互联网数据库中包含人物敏感词的图文进行查询；

7.如权利要求1所述的一种基于深度学习的会议语音检测方法，其特征在于，所述基于所述目标ResNet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断，所述音频类别信息至少包括争执语音信息和正常语音信息，包括：

8.一种基于深度学习的会议语音检测系统，其特征在于，所述会议语音检测系统包括以下模块：

9.如权利要求8所述的一种基于深度学习的会议语音检测系统，其特征在于，所述数据处理模块包括以下子模块：

10.如权利要求8所述的一种基于深度学习的会议语音检测系统，其特征在于，所述语音判断模块包括以下子模块：