CN116825088A - 一种基于深度学习的会议语音检测方法及系统 - Google Patents

一种基于深度学习的会议语音检测方法及系统 Download PDF

Info

Publication number
CN116825088A
CN116825088A CN202311075062.4A CN202311075062A CN116825088A CN 116825088 A CN116825088 A CN 116825088A CN 202311075062 A CN202311075062 A CN 202311075062A CN 116825088 A CN116825088 A CN 116825088A
Authority
CN
China
Prior art keywords
voice data
conference
information
voice
residual network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311075062.4A
Other languages
English (en)
Other versions
CN116825088B (zh
Inventor
刘艳梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Guoshuohong Electronics Co ltd
Original Assignee
Shenzhen Guoshuohong Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Guoshuohong Electronics Co ltd filed Critical Shenzhen Guoshuohong Electronics Co ltd
Priority to CN202311075062.4A priority Critical patent/CN116825088B/zh
Publication of CN116825088A publication Critical patent/CN116825088A/zh
Application granted granted Critical
Publication of CN116825088B publication Critical patent/CN116825088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及语音检测领域,特别是一种基于深度学习的会议语音检测方法及系统。可以及时高效的对会议中重点关注词汇或者热点词、敏感词进行内容搜索和收集,有利于提升会议效。通过得到声学特征语音数据,通过建立目标ResNet残差网络识别模型,利用目标ResNet残差网络识别模型对声学特征语音数据中的敏感词信息进行检测;若声学特征语音数据中有敏感词,则将声学特征语音数据输入至数据库中进行存储,敏感词至少包括事件敏感词和人物敏感词;基于目标ResNet残差网络识别模型对声学特征语音数据中的音频类别信息进行判断;若音频类别信息中的争执语音信息所占比例大于正常语音信息,则生成会议调解指令,将会议调解指令传输至服务器或管理人员。

Description

一种基于深度学习的会议语音检测方法及系统
技术领域
本发明涉及语音检测领域,特别是一种基于深度学习的会议语音检测方法及系统。
背景技术
在日常办公环境下,越来越多的人在通过开会或者会议对其所遇见的问题进行讨论和解决,在现有技术中,会议人员在会议室或者会议环境中进行开会通常会伴随着利用录音笔或者有录音功能的设备对会议讨论的问题进行录音,然后再通过语音转换设备,转换成文字,进而生成会议纪要和会议记录。但是一般情况中,会议环境讨论的通常是急于解决的事情,容易出现会议人员争执,和需要找寻热点词和热点文章。所以如何根据会议实时讨论的事件或者情况,对这些情况,自动做出一定的决策和搜索,从而更好的帮助会议人员做出解决问题,又能保障在会议过程中对会议争执事件进行辅助调解,提高会议的效率,是现阶段丞待解决的技术问题。
发明内容
本发明的目的是为了解决上述问题,设计了一种基于深度学习的会议语音检测方法及系统。
实现上述目的本发明的技术方案为,进一步,在上述一种基于深度学习的会议语音检测方法中,所述会议语音检测方法包括以下步骤:
获取会议环境中的实时会议语音数据,将实时会议语音数据进行数据预处理,得到声学特征语音数据;
通过残差网络建立ResNet残差网络识别模型,利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝,得到初始ResNet残差网络识别模型;
将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练,得到目标ResNet残差网络识别模型;
利用所述目标ResNet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测;
若所述声学特征语音数据中有敏感词,则将所述声学特征语音数据输入至数据库中进行存储,所述敏感词至少包括事件敏感词和人物敏感词;
基于所述目标ResNet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断,所述音频类别信息至少包括争执语音信息和正常语音信息;
若所述音频类别信息中的争执语音信息所占比例大于正常语音信息,则生成会议调解指令,将所述会议调解指令传输至服务器或管理人员。
进一步,在上述会议语音检测方法中,所述获取会议环境中的实时会议语音数据,将实时会议语音数据进行数据预处理,得到声学特征语音数据,包括:
获取会议环境中的实时会议语音,通过高通数字滤波算法对所述实时会议语音数据进行预加重处理,得到滤波会议语音数据;
将滤波会议语音数据进行分段处理,得到分帧会议语音数据,所述分帧会议语音数据的分段时间为10-30ms;
基于汉明窗函数,利用汉明窗函数对所有的分帧会议语音数据依次相乘,得到加窗会议语音数据;
利用快速傅里叶变换算法对所述加窗会议语音数据中的时域数据变换为频域数据,得到频域会议语音数据;
基于梅尔滤波器组将频域会议语音数据转化为梅尔频率会议语音数据,得到梅尔频率会议语音数据;
计算梅尔频率会议语音数据经过梅尔滤波器组后每个频谱的能量频谱,得到声学特征语音数据。
进一步,在上述会议语音检测方法中,所述通过残差网络建立ResNet残差网络识别模型,利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝,得到初始ResNet残差网络识别模型,包括:
至少通过34层卷积的残差网络建立ResNet残差网络识别模型,利用ReLU函数作为所述ResNet残差网络识别模型的激活函数;
利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝,得到初始ResNet残差网络识别模型;
所述初始ResNet残差网络识别模型至少包括输入层、输出层、卷积层、池化层、全连接层、输出层。
进一步,在上述会议语音检测方法中,所述将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练,得到目标ResNet残差网络识别模型,包括:
获取声学特征语音数据,将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练;
对所述初始ResNet残差网络识别模型中的全局平均池化层利用注意力池化层进行替换;
利用OHEM交叉熵损失函数对所述初始ResNet残差网络识别模型的损失函数,得到目标ResNet残差网络识别模型。
进一步,在上述会议语音检测方法中,所述利用所述目标ResNet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测,包括:
获取声学特征语音数据,利用目标ResNet残差网络识别模型对所述声学特征语音数据进行检测;
判断所述声学特征语音数据中是否有敏感词,若所述所述声学特征语音数据包括敏感词,则对敏感词进行判断;
所述敏感词信息进行检测还包括获取互联网中的网络热词,对声学特征语音数据中的网络热词进行检测。
进一步,在上述会议语音检测方法中,所述若所述声学特征语音数据中有敏感词,则将所述声学特征语音数据输入至数据库中进行存储,所述敏感词至少包括事件敏感词和人物敏感词,包括:
获取声学特征语音数据中的敏感词信息,若所述声学特征语音数据中包括事件敏感词;
则将所述声学特征语音数据输入至事件敏感词数据库中进行存储,并生成事件查询指令,根据所述事件查询指令利用Python对互联网数据库中包含事件敏感词的图文进行查询;
若所述声学特征语音数据中包括人物敏感词,则将所述声学特征语音数据输入至人物敏感词数据库中进行存储;
生成人物查询指令,根据所述人物查询指令利用Python对互联网数据库中包含人物敏感词的图文进行查询。
将所述人物敏感词和所述事件敏感词的图文查询结果传输至对应的会议人员。
进一步,在上述会议语音检测方法中,所述基于所述目标ResNet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断,所述音频类别信息至少包括争执语音信息和正常语音信息,包括:
获取声学特征语音数据,将所述声学特征语音数据输入至所述目标ResNet残差网络识别模型中进行识别,得到音频类别信息;
对所述音频类别信息进行判断,所述音频类别信息至少包括争执语音信息和正常语音信息;
若所述音频类别信息中的争执语音信息所占比例大于正常语音信息,则生成会议调解指令,将所述会议调解指令传输至服务器或管理人员;
若所述音频类别信息中的争执语音信息所占比例为1-30%,则生成实时监测指令,根据实时监测指令对会议环境进行监测;
若所述音频类别信息中的正常语音信息所占比例为60-90%,则将所述声学特征语音数据输入至数据库中进行存储。
实现上述目的本发明的技术方案为,进一步,在上述一种基于深度学习的会议语音检测系统中,所述会议语音检测系统,包括:
数据处理模块,用于获取会议环境中的实时会议语音数据,将实时会议语音数据进行数据预处理,得到声学特征语音数据;
模型建立模块,用于通过残差网络建立ResNet残差网络识别模型,利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝,得到初始ResNet残差网络识别模型;
模型训练模块,用于将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练,得到目标ResNet残差网络识别模型;
敏感词检测模块,用于利用所述目标ResNet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测;
数据存储模块,用于若所述声学特征语音数据中有敏感词,则将所述声学特征语音数据输入至数据库中进行存储,所述敏感词至少包括事件敏感词和人物敏感词;
语音判断模块,用于基于所述目标ResNet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断,所述音频类别信息至少包括争执语音信息和正常语音信息;
指令传输模块,用于若所述音频类别信息中的争执语音信息所占比例大于正常语音信息,则生成会议调解指令,将所述会议调解指令传输至服务器或管理人员。
进一步,在上述一种基于深度学习的会议语音检测系统中,所述数据处理模块包括以下子模块:
获取子模块,用于获取会议环境中的实时会议语音,通过高通数字滤波算法对所述实时会议语音数据进行预加重处理,得到滤波会议语音数据;
分帧子模块,用于将滤波会议语音数据进行分段处理,得到分帧会议语音数据,所述分帧会议语音数据的分段时间为10-30ms;
加窗子模块,用于基于汉明窗函数,利用汉明窗函数对所有的分帧会议语音数据依次相乘,得到加窗会议语音数据;
变换子模块,用于利用快速傅里叶变换算法对所述加窗会议语音数据中的时域数据变换为频域数据,得到频域会议语音数据;
转换子模块,用于基于梅尔滤波器组将频域会议语音数据转化为梅尔频率会议语音数据,得到梅尔频率会议语音数据;
计算子模块,用于计算梅尔频率会议语音数据经过梅尔滤波器组后每个频谱的能量频谱,得到声学特征语音数据。
进一步,在上述一种基于深度学习的会议语音检测系统中,所述模型建立模块包括以下子模块:
识别子模块,用于获取声学特征语音数据,将所述声学特征语音数据输入至所述目标ResNet残差网络识别模型中进行识别,得到音频类别信息;
判断子模块,用于对所述音频类别信息进行判断,所述音频类别信息至少包括争执语音信息和正常语音信息;
调解子模块,用于若所述音频类别信息中的争执语音信息所占比例大于正常语音信息,则生成会议调解指令,将所述会议调解指令传输至服务器或管理人员;
监测子模块,用于若所述音频类别信息中的争执语音信息所占比例为1-30%,则生成实时监测指令,根据实时监测指令对会议环境进行监测;
存储子模块,用于若所述音频类别信息中的正常语音信息所占比例为60-90%,则将所述声学特征语音数据输入至数据库中进行存储。
其有益效果在于,通过获取会议环境中的实时会议语音数据,将实时会议语音数据进行数据预处理,得到声学特征语音数据;通过残差网络建立ResNet残差网络识别模型,利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝,得到初始ResNet残差网络识别模型;将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练,得到目标ResNet残差网络识别模型;利用所述目标ResNet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测;若所述声学特征语音数据中有敏感词,则将所述声学特征语音数据输入至数据库中进行存储,所述敏感词至少包括事件敏感词和人物敏感词;基于所述目标ResNet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断,所述音频类别信息至少包括争执语音信息和正常语音信息;若所述音频类别信息中的争执语音信息所占比例大于正常语音信息,则生成会议调解指令,将所述会议调解指令传输至服务器或管理人员。可以及时高效的对会议中重点关注词汇或者热点词、敏感词进行内容搜索和收集,有利于提升会议效率,对会议中有争执的事件和有争执的人物及时生成矛盾调解指令,将矛盾调解指令传输给会议主持人员或者领导,能及时阻止会议的矛盾争执,提升会议效率的同时也增进同事之间的感情。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
图1为本发明实施例中一种基于深度学习的会议语音检测方法的第一个实施例示意图;
图2为本发明实施例中一种基于深度学习的会议语音检测方法的第二个实施例示意图;
图3为本发明实施例中一种基于深度学习的会议语音检测方法的第三个实施例示意图;
图4为本发明实施例中一种基于深度学习的会议语音检测系统的第一个实施例示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“所述”也可包括复数形式。应所述进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
下面结合附图对本发明进行具体描述,如图1所示,一种基于深度学习的会议语音检测方法,会议语音检测方法包括以下步骤:
步骤101、获取会议环境中的实时会议语音数据,将实时会议语音数据进行数据预处理,得到声学特征语音数据;
具体的,本实施例中获取会议环境中的实时会议语音,通过高通数字滤波算法对实时会议语音数据进行预加重处理,得到滤波会议语音数据;将滤波会议语音数据进行分段处理,得到分帧会议语音数据,分帧会议语音数据的分段时间为10-30ms;基于汉明窗函数,利用汉明窗函数对所有的分帧会议语音数据依次相乘,得到加窗会议语音数据;利用快速傅里叶变换算法对加窗会议语音数据中的时域数据变换为频域数据,得到频域会议语音数据;基于梅尔滤波器组将频域会议语音数据转化为梅尔频率会议语音数据,得到梅尔频率会议语音数据;计算梅尔频率会议语音数据经过梅尔滤波器组后每个频谱的能量频谱,得到声学特征语音数据。
步骤102、通过残差网络建立ResNet残差网络识别模型,利用MaskACC卷积加速滤波器对ResNet残差网络识别模型中的卷积层进行剪枝,得到初始ResNet残差网络识别模型;
具体的,本实施例中至少通过34层卷积的残差网络建立ResNet残差网络识别模型,利用ReLU函数作为ResNet残差网络识别模型的激活函数;利用MaskACC卷积加速滤波器对ResNet残差网络识别模型中的卷积层进行剪枝,得到初始ResNet残差网络识别模型;初始ResNet残差网络识别模型至少包括输入层、输出层、卷积层、池化层、全连接层、输出层。
步骤103、将声学特征语音数据输入至初始ResNet残差网络识别模型进行训练,得到目标ResNet残差网络识别模型;
具体的,本实施例中获取声学特征语音数据,将声学特征语音数据输入至初始ResNet残差网络识别模型进行训练;对初始ResNet残差网络识别模型中的全局平均池化层利用注意力池化层进行替换;利用OHEM交叉熵损失函数对初始ResNet残差网络识别模型的损失函数,得到目标ResNet残差网络识别模型。
步骤104、利用目标ResNet残差网络识别模型对声学特征语音数据中的敏感词信息进行检测;
具体的,本实施例中获取声学特征语音数据,利用目标ResNet残差网络识别模型对声学特征语音数据进行检测;判断声学特征语音数据中是否有敏感词,若声学特征语音数据包括敏感词,则对敏感词进行判断;敏感词信息进行检测还包括获取互联网中的网络热词,对声学特征语音数据中的网络热词进行检测。
步骤105、若声学特征语音数据中有敏感词,则将声学特征语音数据输入至数据库中进行存储,敏感词至少包括事件敏感词和人物敏感词;
具体的,本实施例中获取声学特征语音数据中的敏感词信息,若声学特征语音数据中包括事件敏感词;则将声学特征语音数据输入至事件敏感词数据库中进行存储,并生成事件查询指令,根据事件查询指令利用Python对互联网数据库中包含事件敏感词的图文进行查询;若声学特征语音数据中包括人物敏感词,则将声学特征语音数据输入至人物敏感词数据库中进行存储;生成人物查询指令,根据人物查询指令利用Python对互联网数据库中包含人物敏感词的图文进行查询;将人物敏感词和事件敏感词的图文查询结果传输至对应的会议人员。
步骤106、基于目标ResNet残差网络识别模型对声学特征语音数据中的音频类别信息进行判断,音频类别信息至少包括争执语音信息和正常语音信息;
具体的,本实施例中获取声学特征语音数据,将声学特征语音数据输入至目标ResNet残差网络识别模型中进行识别,得到音频类别信息;对音频类别信息进行判断,音频类别信息至少包括争执语音信息和正常语音信息;若音频类别信息中的争执语音信息所占比例大于正常语音信息,则生成会议调解指令,将会议调解指令传输至服务器或管理人员;若音频类别信息中的争执语音信息所占比例为1-30%,则生成实时监测指令,根据实时监测指令对会议环境进行监测;若音频类别信息中的正常语音信息所占比例为60-90%,则将声学特征语音数据输入至数据库中进行存储。
步骤107、若音频类别信息中的争执语音信息所占比例大于正常语音信息,则生成会议调解指令,将会议调解指令传输至服务器或管理人员。
其有益效果在于,通过获取会议环境中的实时会议语音数据,将实时会议语音数据进行数据预处理,得到声学特征语音数据;通过残差网络建立ResNet残差网络识别模型,利用MaskACC卷积加速滤波器对ResNet残差网络识别模型中的卷积层进行剪枝,得到初始ResNet残差网络识别模型;将声学特征语音数据输入至初始ResNet残差网络识别模型进行训练,得到目标ResNet残差网络识别模型;利用目标ResNet残差网络识别模型对声学特征语音数据中的敏感词信息进行检测;若声学特征语音数据中有敏感词,则将声学特征语音数据输入至数据库中进行存储,敏感词至少包括事件敏感词和人物敏感词;基于目标ResNet残差网络识别模型对声学特征语音数据中的音频类别信息进行判断,音频类别信息至少包括争执语音信息和正常语音信息;若音频类别信息中的争执语音信息所占比例大于正常语音信息,则生成会议调解指令,将会议调解指令传输至服务器或管理人员。可以及时高效的对会议中重点关注词汇或者热点词、敏感词进行内容搜索和收集,有利于提升会议效率,对会议中有争执的事件和有争执的人物及时生成矛盾调解指令,将矛盾调解指令传输给会议主持人员或者领导,能及时阻止会议的矛盾争执,提升会议效率的同时也增进同事之间的感情。
本实施例中,请参阅图2,本发明实施例中一种基于深度学习的会议语音检测方法的第二个实施例,获取会议环境中的实时会议语音数据,将实时会议语音数据进行数据预处理,得到声学特征语音数据包括以下步骤:
步骤201、获取会议环境中的实时会议语音,通过高通数字滤波算法对实时会议语音数据进行预加重处理,得到滤波会议语音数据;
步骤202、将滤波会议语音数据进行分段处理,得到分帧会议语音数据,分帧会议语音数据的分段时间为10-30ms;
步骤203、基于汉明窗函数,利用汉明窗函数对所有的分帧会议语音数据依次相乘,得到加窗会议语音数据;
步骤204、利用快速傅里叶变换算法对加窗会议语音数据中的时域数据变换为频域数据,得到频域会议语音数据;
步骤205、基于梅尔滤波器组将频域会议语音数据转化为梅尔频率会议语音数据,得到梅尔频率会议语音数据;
步骤206、计算梅尔频率会议语音数据经过梅尔滤波器组后每个频谱的能量频谱,得到声学特征语音数据。
本实施例中,请参阅图3,本发明实施例中一种基于深度学习的会议语音检测方法的第三个实施例,基于目标ResNet残差网络识别模型对声学特征语音数据中的音频类别信息进行判断,音频类别信息至少包括争执语音信息和正常语音信息包括以下步骤:
步骤301、获取声学特征语音数据,将声学特征语音数据输入至目标ResNet残差网络识别模型中进行识别,得到音频类别信息;
步骤302、对音频类别信息进行判断,音频类别信息至少包括争执语音信息和正常语音信息;
步骤303、若音频类别信息中的争执语音信息所占比例大于正常语音信息,则生成会议调解指令,将会议调解指令传输至服务器或管理人员;
步骤304、若音频类别信息中的争执语音信息所占比例为1-30%,则生成实时监测指令,根据实时监测指令对会议环境进行监测;
步骤305、若音频类别信息中的正常语音信息所占比例为60-90%,则将声学特征语音数据输入至数据库中进行存储。
上面对本发明实施例提供的一种基于深度学习的会议语音检测方法进行了描述,下面对本发明实施例的一种基于深度学习的会议语音检测系统进行描述,请参阅图4,本发明实施例中会议语音检测系统一个实施例包括:
数据处理模块,用于获取会议环境中的实时会议语音数据,将实时会议语音数据进行数据预处理,得到声学特征语音数据;
模型建立模块,用于通过残差网络建立ResNet残差网络识别模型,利用MaskACC卷积加速滤波器对ResNet残差网络识别模型中的卷积层进行剪枝,得到初始ResNet残差网络识别模型;
模型训练模块,用于将声学特征语音数据输入至初始ResNet残差网络识别模型进行训练,得到目标ResNet残差网络识别模型;
敏感词检测模块,用于利用目标ResNet残差网络识别模型对声学特征语音数据中的敏感词信息进行检测;
数据存储模块,用于若声学特征语音数据中有敏感词,则将声学特征语音数据输入至数据库中进行存储,敏感词至少包括事件敏感词和人物敏感词;
语音判断模块,用于基于目标ResNet残差网络识别模型对声学特征语音数据中的音频类别信息进行判断,音频类别信息至少包括争执语音信息和正常语音信息;
指令传输模块,用于若音频类别信息中的争执语音信息所占比例大于正常语音信息,则生成会议调解指令,将会议调解指令传输至服务器或管理人员。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应所述了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变和改进,这些变和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种基于深度学习的会议语音检测方法,其特征在于,所述会议语音检测方法包括以下步骤:
获取会议环境中的实时会议语音数据,将实时会议语音数据进行数据预处理,得到声学特征语音数据;
通过残差网络建立ResNet残差网络识别模型,利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝,得到初始ResNet残差网络识别模型;
将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练,得到目标ResNet残差网络识别模型;
利用所述目标ResNet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测;
若所述声学特征语音数据中有敏感词,则将所述声学特征语音数据输入至数据库中进行存储,所述敏感词至少包括事件敏感词和人物敏感词;
基于所述目标ResNet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断,所述音频类别信息至少包括争执语音信息和正常语音信息;
若所述音频类别信息中的争执语音信息所占比例大于正常语音信息,则生成会议调解指令,将所述会议调解指令传输至服务器或管理人员。
2.如权利要求1所述的一种基于深度学习的会议语音检测方法,其特征在于,所述获取会议环境中的实时会议语音数据,将实时会议语音数据进行数据预处理,得到声学特征语音数据,包括:
获取会议环境中的实时会议语音,通过高通数字滤波算法对所述实时会议语音数据进行预加重处理,得到滤波会议语音数据;
将滤波会议语音数据进行分段处理,得到分帧会议语音数据,所述分帧会议语音数据的分段时间为10-30ms;
基于汉明窗函数,利用汉明窗函数对所有的分帧会议语音数据依次相乘,得到加窗会议语音数据;
利用快速傅里叶变换算法对所述加窗会议语音数据中的时域数据变换为频域数据,得到频域会议语音数据;
基于梅尔滤波器组将频域会议语音数据转化为梅尔频率会议语音数据,得到梅尔频率会议语音数据;
计算梅尔频率会议语音数据经过梅尔滤波器组后每个频谱的能量频谱,得到声学特征语音数据。
3.如权利要求1所述的一种基于深度学习的会议语音检测方法,其特征在于,所述通过残差网络建立ResNet残差网络识别模型,利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝,得到初始ResNet残差网络识别模型,包括:
至少通过34层卷积的残差网络建立ResNet残差网络识别模型,利用ReLU函数作为所述ResNet残差网络识别模型的激活函数;
利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝,得到初始ResNet残差网络识别模型;
所述初始ResNet残差网络识别模型至少包括输入层、输出层、卷积层、池化层、全连接层、输出层。
4.如权利要求1所述的一种基于深度学习的会议语音检测方法,其特征在于,所述将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练,得到目标ResNet残差网络识别模型,包括:
获取声学特征语音数据,将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练;
对所述初始ResNet残差网络识别模型中的全局平均池化层利用注意力池化层进行替换;
利用OHEM交叉熵损失函数对所述初始ResNet残差网络识别模型的损失函数,得到目标ResNet残差网络识别模型。
5.如权利要求1所述的一种基于深度学习的会议语音检测方法,其特征在于,所述利用所述目标ResNet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测,包括:
获取声学特征语音数据,利用目标ResNet残差网络识别模型对所述声学特征语音数据进行检测;
判断所述声学特征语音数据中是否有敏感词,若所述所述声学特征语音数据包括敏感词,则对敏感词进行判断;
所述敏感词信息进行检测还包括获取互联网中的网络热词,对声学特征语音数据中的网络热词进行检测。
6.如权利要求1所述的一种基于深度学习的会议语音检测方法,其特征在于,所述若所述声学特征语音数据中有敏感词,则将所述声学特征语音数据输入至数据库中进行存储,所述敏感词至少包括事件敏感词和人物敏感词,包括:
获取声学特征语音数据中的敏感词信息,若所述声学特征语音数据中包括事件敏感词;
则将所述声学特征语音数据输入至事件敏感词数据库中进行存储,并生成事件查询指令,根据所述事件查询指令利用Python对互联网数据库中包含事件敏感词的图文进行查询;
若所述声学特征语音数据中包括人物敏感词,则将所述声学特征语音数据输入至人物敏感词数据库中进行存储;
生成人物查询指令,根据所述人物查询指令利用Python对互联网数据库中包含人物敏感词的图文进行查询;
将所述人物敏感词和所述事件敏感词的图文查询结果传输至对应的会议人员。
7.如权利要求1所述的一种基于深度学习的会议语音检测方法,其特征在于,所述基于所述目标ResNet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断,所述音频类别信息至少包括争执语音信息和正常语音信息,包括:
获取声学特征语音数据,将所述声学特征语音数据输入至所述目标ResNet残差网络识别模型中进行识别,得到音频类别信息;
对所述音频类别信息进行判断,所述音频类别信息至少包括争执语音信息和正常语音信息;
若所述音频类别信息中的争执语音信息所占比例大于正常语音信息,则生成会议调解指令,将所述会议调解指令传输至服务器或管理人员;
若所述音频类别信息中的争执语音信息所占比例为1-30%,则生成实时监测指令,根据实时监测指令对会议环境进行监测;
若所述音频类别信息中的正常语音信息所占比例为60-90%,则将所述声学特征语音数据输入至数据库中进行存储。
8.一种基于深度学习的会议语音检测系统,其特征在于,所述会议语音检测系统包括以下模块:
数据处理模块,用于获取会议环境中的实时会议语音数据,将实时会议语音数据进行数据预处理,得到声学特征语音数据;
模型建立模块,用于通过残差网络建立ResNet残差网络识别模型,利用MaskACC卷积加速滤波器对所述ResNet残差网络识别模型中的卷积层进行剪枝,得到初始ResNet残差网络识别模型;
模型训练模块,用于将所述声学特征语音数据输入至所述初始ResNet残差网络识别模型进行训练,得到目标ResNet残差网络识别模型;
敏感词检测模块,用于利用所述目标ResNet残差网络识别模型对所述声学特征语音数据中的敏感词信息进行检测;
数据存储模块,用于若所述声学特征语音数据中有敏感词,则将所述声学特征语音数据输入至数据库中进行存储,所述敏感词至少包括事件敏感词和人物敏感词;
语音判断模块,用于基于所述目标ResNet残差网络识别模型对所述声学特征语音数据中的音频类别信息进行判断,所述音频类别信息至少包括争执语音信息和正常语音信息;
指令传输模块,用于若所述音频类别信息中的争执语音信息所占比例大于正常语音信息,则生成会议调解指令,将所述会议调解指令传输至服务器或管理人员。
9.如权利要求8所述的一种基于深度学习的会议语音检测系统,其特征在于,所述数据处理模块包括以下子模块:
获取子模块,用于获取会议环境中的实时会议语音,通过高通数字滤波算法对所述实时会议语音数据进行预加重处理,得到滤波会议语音数据;
分帧子模块,用于将滤波会议语音数据进行分段处理,得到分帧会议语音数据,所述分帧会议语音数据的分段时间为10-30ms;
加窗子模块,用于基于汉明窗函数,利用汉明窗函数对所有的分帧会议语音数据依次相乘,得到加窗会议语音数据;
变换子模块,用于利用快速傅里叶变换算法对所述加窗会议语音数据中的时域数据变换为频域数据,得到频域会议语音数据;
转换子模块,用于基于梅尔滤波器组将频域会议语音数据转化为梅尔频率会议语音数据,得到梅尔频率会议语音数据;
计算子模块,用于计算梅尔频率会议语音数据经过梅尔滤波器组后每个频谱的能量频谱,得到声学特征语音数据。
10.如权利要求8所述的一种基于深度学习的会议语音检测系统,其特征在于,所述语音判断模块包括以下子模块:
识别子模块,用于获取声学特征语音数据,将所述声学特征语音数据输入至所述目标ResNet残差网络识别模型中进行识别,得到音频类别信息;
判断子模块,用于对所述音频类别信息进行判断,所述音频类别信息至少包括争执语音信息和正常语音信息;
调解子模块,用于若所述音频类别信息中的争执语音信息所占比例大于正常语音信息,则生成会议调解指令,将所述会议调解指令传输至服务器或管理人员;
监测子模块,用于若所述音频类别信息中的争执语音信息所占比例为1-30%,则生成实时监测指令,根据实时监测指令对会议环境进行监测;
存储子模块,用于若所述音频类别信息中的正常语音信息所占比例为60-90%,则将所述声学特征语音数据输入至数据库中进行存储。
CN202311075062.4A 2023-08-25 2023-08-25 一种基于深度学习的会议语音检测方法及系统 Active CN116825088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311075062.4A CN116825088B (zh) 2023-08-25 2023-08-25 一种基于深度学习的会议语音检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311075062.4A CN116825088B (zh) 2023-08-25 2023-08-25 一种基于深度学习的会议语音检测方法及系统

Publications (2)

Publication Number Publication Date
CN116825088A true CN116825088A (zh) 2023-09-29
CN116825088B CN116825088B (zh) 2023-11-07

Family

ID=88113024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311075062.4A Active CN116825088B (zh) 2023-08-25 2023-08-25 一种基于深度学习的会议语音检测方法及系统

Country Status (1)

Country Link
CN (1) CN116825088B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034953A (zh) * 2023-10-07 2023-11-10 湖南东良数智科技有限公司 一种利用个人著作库与其智能会话的系统
CN117078357A (zh) * 2023-10-08 2023-11-17 深圳市焕想科技有限公司 一种基于人工智能的电子商务数据信息处理方法及系统
CN117348436A (zh) * 2023-12-04 2024-01-05 深圳腾信百纳科技有限公司 一种基于智能手环的全屋智能控制方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675853A (zh) * 2019-09-10 2020-01-10 苏宁云计算有限公司 一种基于深度学习的情感语音合成方法及装置
CN111105788A (zh) * 2019-12-20 2020-05-05 北京三快在线科技有限公司 敏感词分数检测方法、装置、电子设备及存储介质
CN111144551A (zh) * 2019-12-27 2020-05-12 浙江大学 一种基于特征方差比的卷积神经网络通道剪枝方法
CN111243575A (zh) * 2020-01-15 2020-06-05 北京工业大学 基于扩张卷积神经网络的方言种属识别方法
CN111898591A (zh) * 2020-08-28 2020-11-06 电子科技大学 一种基于剪枝残差网络的调制信号识别方法
CN112071309A (zh) * 2020-09-17 2020-12-11 苏州上下文人工智能技术研发有限公司 网约车安全监测装置及系统
CN113488058A (zh) * 2021-06-23 2021-10-08 武汉理工大学 一种基于短语音的声纹识别方法
CN114492797A (zh) * 2022-02-16 2022-05-13 平安科技(深圳)有限公司 模型剪枝方法、装置、设备和存储介质
CN115019776A (zh) * 2022-06-09 2022-09-06 内蒙古科技大学 语音识别模型及其训练方法、语音识别方法及装置
CN115910045A (zh) * 2023-03-10 2023-04-04 北京建筑大学 一种语音唤醒词的模型训练方法和识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675853A (zh) * 2019-09-10 2020-01-10 苏宁云计算有限公司 一种基于深度学习的情感语音合成方法及装置
CN111105788A (zh) * 2019-12-20 2020-05-05 北京三快在线科技有限公司 敏感词分数检测方法、装置、电子设备及存储介质
CN111144551A (zh) * 2019-12-27 2020-05-12 浙江大学 一种基于特征方差比的卷积神经网络通道剪枝方法
CN111243575A (zh) * 2020-01-15 2020-06-05 北京工业大学 基于扩张卷积神经网络的方言种属识别方法
CN111898591A (zh) * 2020-08-28 2020-11-06 电子科技大学 一种基于剪枝残差网络的调制信号识别方法
CN112071309A (zh) * 2020-09-17 2020-12-11 苏州上下文人工智能技术研发有限公司 网约车安全监测装置及系统
CN113488058A (zh) * 2021-06-23 2021-10-08 武汉理工大学 一种基于短语音的声纹识别方法
CN114492797A (zh) * 2022-02-16 2022-05-13 平安科技(深圳)有限公司 模型剪枝方法、装置、设备和存储介质
CN115019776A (zh) * 2022-06-09 2022-09-06 内蒙古科技大学 语音识别模型及其训练方法、语音识别方法及装置
CN115910045A (zh) * 2023-03-10 2023-04-04 北京建筑大学 一种语音唤醒词的模型训练方法和识别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117034953A (zh) * 2023-10-07 2023-11-10 湖南东良数智科技有限公司 一种利用个人著作库与其智能会话的系统
CN117034953B (zh) * 2023-10-07 2023-12-19 湖南东良数智科技有限公司 一种利用个人著作库与其智能会话的系统
CN117078357A (zh) * 2023-10-08 2023-11-17 深圳市焕想科技有限公司 一种基于人工智能的电子商务数据信息处理方法及系统
CN117348436A (zh) * 2023-12-04 2024-01-05 深圳腾信百纳科技有限公司 一种基于智能手环的全屋智能控制方法及系统
CN117348436B (zh) * 2023-12-04 2024-04-26 深圳腾信百纳科技有限公司 一种基于智能手环的全屋智能控制方法及系统

Also Published As

Publication number Publication date
CN116825088B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN116825088B (zh) 一种基于深度学习的会议语音检测方法及系统
CN105022835B (zh) 一种群智感知大数据公共安全识别方法及系统
CN111506722A (zh) 基于深度学习技术的知识图谱问答方法、装置及设备
CN109325116B (zh) 一种基于深度学习的城市事件自动分类派发方法及装置
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
WO2021114841A1 (zh) 一种用户报告的生成方法及终端设备
CN112367273B (zh) 基于知识蒸馏的深度神经网络模型的流量分类方法及装置
WO2021159902A1 (zh) 年龄识别方法、装置、设备及计算机可读存储介质
CN110866110A (zh) 基于人工智能的会议纪要生成方法、装置、设备及介质
CN113488058A (zh) 一种基于短语音的声纹识别方法
CN113806588B (zh) 搜索视频的方法和装置
CN108197319A (zh) 一种基于时频局部能量的特征点的音频检索方法和系统
CN113807103A (zh) 基于人工智能的招聘方法、装置、设备及存储介质
CN116342332A (zh) 基于互联网的辅助审判方法、装置、设备及存储介质
CN111128179A (zh) 一种基于语音识别技术的智慧监管方法及系统
CN108052680A (zh) 基于数据图谱、信息图谱和知识图谱的图像数据目标识别增强方法
CN113051384B (zh) 基于对话的用户画像抽取方法及相关装置
CN114398315A (zh) 一种数据存储方法、系统、存储介质及电子设备
Huang et al. Multi-format speech biohashing based on spectrogram
CN111199050B (zh) 一种用于对病历进行自动脱敏的系统及应用
CN116205749A (zh) 电子保单信息数据管理方法、装置、设备及可读存储介质
CN115618415A (zh) 敏感数据识别方法、装置、电子设备和存储介质
CN115294987A (zh) 一种会议记录生成方法、装置、设备及存储介质
CN112966296A (zh) 基于规则配置和机器学习的敏感信息过滤方法和系统
CN112949963A (zh) 员工服务质量的评估方法、装置、存储介质和智能设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant