CN116994587A - 一种培训监管系统 - Google Patents
一种培训监管系统 Download PDFInfo
- Publication number
- CN116994587A CN116994587A CN202311244030.2A CN202311244030A CN116994587A CN 116994587 A CN116994587 A CN 116994587A CN 202311244030 A CN202311244030 A CN 202311244030A CN 116994587 A CN116994587 A CN 116994587A
- Authority
- CN
- China
- Prior art keywords
- time
- output
- sound
- input end
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 137
- 230000004927 fusion Effects 0.000 claims abstract description 43
- 230000005236 sound signal Effects 0.000 claims description 68
- 239000011159 matrix material Substances 0.000 claims description 38
- 238000013527 convolutional neural network Methods 0.000 claims description 33
- 238000012216 screening Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 description 7
- 238000000034 method Methods 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种培训监管系统,属于语音识别技术领域,本发明中通过声音提取子系统将存在讲师声音的信号段提取出来,得到多个子段声音信号,提取每个子段声音信号的频域特征和时域特征,再将频域特征和时域特征进行融合,得到融合特征,保障特征的丰富度,提高语音识别精度,通过第一解码器解码出讲师全部口语文本,在第二解码器中根据每个子段声音信号的平均幅值对融合特征进行增强,通过声音信号的幅值情况反应讲师强调的内容的重要程度,实现对重要内容的解码,得到讲师重要内容口语文本。本发明的培训监管系统不需要人工监管,自动记录讲师所讲述的全部内容和重点内容。
Description
技术领域
本发明涉及语音识别技术领域,具体涉及一种培训监管系统。
背景技术
在培训过程中,讲师所讲述的内容需要被其他人员详细的记载下来或者将重点内容记载下来,实现对所讲述的内容进行记录,便于监管培训内容。现有通常采用人工监控的方式进行记录,这种方式不仅耗时耗力,而且容易出现疏漏和错误。
随着人工智能技术的不断发展,语音识别技术在各个领域得到了广泛应用。将语音识别用于自动识别出讲师所讲述的内容,实现高效的培训监管系统。但是现有语音识别技术通常是采用语音识别模型处理语音信号的时频特征或者语音信号的频域特征,得到语音信号对应的文字信息,但是语音识别模型识别的精度取决于时频特征或者频域特征的特征丰富度,仅以时频特征或者频域特征进行语音识别,存在语音识别精度不高的问题。
发明内容
针对现有技术中的上述不足,本发明提供的一种培训监管系统解决了以下技术问题:
1、现有人工监管培训过程,存在监管时间长,且容易出现疏漏和错误的问题;
2、采用语音识别监管培训过程,存在语音识别精度不高的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种培训监管系统,包括:声音提取子系统、声音幅值提取子系统、时频转换子系统、时域信号特征提取子系统、频域信号特征提取子系统、时频特征融合子系统、第一解码器和第二解码器;
所述声音提取子系统用于从语音信号中提取出存在讲师声音的信号,得到多个子段声音信号;所述声音幅值提取子系统用于计算每个子段声音信号的平均幅值;所述时频转换子系统用于将每个子段声音信号进行时频转换,得到频域信号;所述时域信号特征提取子系统用于对每个子段声音信号提取时域特征;所述频域信号特征提取子系统用于对频域信号提取频域特征;所述时频特征融合子系统用于融合时域特征和频域特征,得到融合特征;所述第一解码器用于对融合特征进行解码,得到讲师全部口语文本;所述第二解码器用于根据子段声音信号的平均幅值对融合特征进行增强,得到增强特征,对增强特征进行解码,得到讲师重要内容口语文本。
本发明的有益效果为:语音信号中包括存在讲师声音的信号段和静默段,静默段即无声音的信号段,因此,本发明中通过声音提取子系统将存在讲师声音的信号段提取出来,得到多个子段声音信号,提取每个子段声音信号的频域特征和时域特征,再将频域特征和时域特征进行融合,得到融合特征,保障特征的丰富度,提高语音识别精度,通过第一解码器解码出讲师全部口语文本,在第二解码器中根据每个子段声音信号的平均幅值对融合特征进行增强,通过声音信号的幅值情况反应讲师强调的内容的重要程度,实现对重要内容的解码,得到讲师重要内容口语文本。本发明的培训监管系统不需要人工监管,自动记录讲师所讲述的全部内容和重点内容。
进一步地,所述声音提取子系统包括:采样单元、声音时间段筛选单元、初始声音信号筛选单元和子段声音信号筛选单元;
所述采样单元用于对语音信号进行采样处理,得到离散语音幅值数据;所述声音时间段筛选单元用于设置幅值阈值,将离散语音幅值数据中每个幅值数据与幅值阈值进行比较,找到幅值数据高于幅值阈值的时间段,得到多个声音时间段;所述初始声音信号筛选单元用于从离散语音幅值数据中找到每个声音时间段的幅值数据,得到初始声音信号;所述子段声音信号筛选单元用于根据初始声音信号对应的声音时间段长度和幅值数据,计算声音有效值,将声音有效值大于有效阈值的初始声音信号作为子段声音信号。
上述进一步地方案的有益效果为:本发明设置幅值阈值用于将离散语音幅值数据中静默段的数据丢弃,提取出存在讲师声音的信号段,得到多个声音时间段,在高于幅值阈值的幅值数据中存在异常的噪声和抖动等异常数据,因此,计算出初始声音信号的声音有效值,丢弃异常数据,即将部分声音时间段过短,但大于幅值阈值的幅值数据丢弃。
进一步地,所述计算声音有效值的公式为:
,
其中,Va为声音有效值,Amt为初始声音信号中第t时刻的幅值数据,C为初始声音信号的声音时间段长度,t为时刻的编号。
进一步地,所述时域信号特征提取子系统和频域信号特征提取子系统的结构相同,均包括:二维矩阵构建单元、卷积神经网络、注意力输出单元、矩阵运算器H1、归一化层和时间循环特征提取单元;
所述二维矩阵构建单元的输入端作为时域信号特征提取子系统或频域信号特征提取子系统的输入端,其输出端与卷积神经网络的输入端连接;所述卷积神经网络的输出端分别与矩阵运算器H1的第一输入端和注意力输出单元的输入端连接;所述矩阵运算器H1的第二输入端与注意力输出单元的输出端连接,其输出端与归一化层的输入端连接;所述时间循环特征提取单元的输入端与归一化层的输出端连接,其输出端作为时域信号特征提取子系统或频域信号特征提取子系统的输出端;所述二维矩阵构建单元用于将一维的子段声音信号或频域信号转换为二维矩阵;所述矩阵运算器H1用于将卷积神经网络的输出与注意力输出单元的输出进行哈达玛积运算。
上述进一步地方案的有益效果为:本发明中二维矩阵构建单元用于将一维的子段声音信号或频域信号转换成二维矩阵,便于卷积神经网络处理,在卷积神经网络提取特征后,设置注意力输出单元,计算出卷积神经网络的每个输出值应当施加的注意力,在矩阵运算器H1处自适应增强和削弱卷积神经网络的每个输出值,实现更灵活的映射,在归一化层处进行归一化处理,避免过拟合,通过时间循环特征提取单元考虑历史时刻的特征,提升时域信号特征提取子系统和频域信号特征提取子系统语音识别的能力,进一步地提高语音识别的精度。
进一步地,所述卷积神经网络包括:第一卷积层、第一多路径特征提取层、第二卷积层、第二多路径特征提取层和ReLU层;
所述第一卷积层的输入端作为卷积神经网络的输入端,其输出端与第一多路径特征提取层的输入端连接;所述第二卷积层的输入端与第一多路径特征提取层的输出端连接,其输出端与第二多路径特征提取层的输入端连接;所述ReLU层的输入端与第二多路径特征提取层的输出端连接,其输出端作为卷积神经网络的输出端。
进一步地,所述第一多路径特征提取层和第二多路径特征提取层的结构相同,均包括:第三卷积层、第四卷积层、第五卷积层、乘法器M1、乘法器M2和加法器A1;
所述第三卷积层的输入端分别与第四卷积层的输入端、第五卷积层的输入端和加法器A1的第一输入端连接,并作为第一多路径特征提取层或第二多路径特征提取层的输入端;所述乘法器M1的第一输入端与第三卷积层的输出端连接,其第二输入端与第四卷积层的输出端连接,其输出端与乘法器M2的第一输入端连接;所述乘法器M2的第二输入端与第五卷积层的输出端连接,其输出端与加法器A1的第二输入端连接;所述加法器A1的输出端作为第一多路径特征提取层或第二多路径特征提取层的输出端。
上述进一步地方案的有益效果为:本发明中设置两个多路径特征提取层用于充分提取特征,每个多路径特征提取层设置了多条路径用于提取特征,本发明中第三卷积层、第四卷积层和第五卷积层设置不同大小的卷积核,实现对不同特征进行提取,并通过乘法器M1和乘法器M2实现特征的融合,在加法器A1处实现将乘法器M2输出和多路径特征提取层的输入进行拼接,解决梯度消失的问题。
进一步地,所述注意力输出单元的表达式为:
,
其中,为注意力输出单元的第i个输出值,xi为卷积神经网络的第i个输出值,max{xi}为取卷积神经网络输出值的最大值,e为自然常数,i为输出值的编号。
进一步地,所述时间循环特征提取单元的表达式为:
,
,
,
其中,yt为时间循环特征提取单元第t时刻的输出,vt为归一化层第t时刻的输出,yt-1为时间循环特征提取单元第t-1时刻的输出,w1,v为归一化层第t时刻的输出vt的第一权重,w1,y为时间循环特征提取单元第t-1时刻的输出yt-1的第一权重,w2,v为归一化层第t时刻的输出vt的第二权重,w2,y为时间循环特征提取单元第t-1时刻的输出yt-1的第二权重,g1,t为第t时刻的第一中间变量,g2,t为第t时刻的第二中间变量,w1,g为第t时刻的第一中间变量g1,t的权重,w2,g为第t时刻的第二中间变量g2,t的权重,b1为第一偏置,b2为第二偏置,b3为第三偏置,为sigmoid激活函数,tanh为双曲正切激活函数。
上述进一步地方案的有益效果为:本发明设置双曲正切激活函数和sigmoid激活函数分别进行特征提取,特征提取的对象包括归一化层的输出和时间循环特征提取单元上一时刻的输出,使得时域信号特征提取子系统和频域信号特征提取子系统具备考虑临近语音信号值的能力,提高语音识别精度。
进一步地,所述时频特征融合子系统的表达式为:
,
其中,X为时频特征融合子系统输出的融合特征,AvgPool为平均池化操作,MaxPool为最大池化操作,为哈达玛积,TD为时域特征,FD为频域特征。
上述进一步地方案的有益效果为:本发明中时频特征融合子系统分别对时域特征和频域特征进行最大池化操作和平均池化操作,提取出显著特征和全局特征。
进一步地,所述对融合特征进行增强的表达式为:
,
其中,为第j个子段声音信号对应的增强特征,Xj为第j个子段声音信号对应的融合特征,/>为第j个子段声音信号的平均幅值,/>为sigmoid激活函数。
上述进一步地方案的有益效果为:本发明中子段声音信号的平均幅值越大,对融合特征进行增强的幅度越大,增强重点内容的关注度。
附图说明
图1为一种培训监管系统的系统框图;
图2为时域信号特征提取子系统和频域信号特征提取子系统的结构示意图;
图3为卷积神经网络的结构示意图;
图4为第一多路径特征提取层和第二多路径特征提取层的结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种培训监管系统,包括:声音提取子系统、声音幅值提取子系统、时频转换子系统、时域信号特征提取子系统、频域信号特征提取子系统、时频特征融合子系统、第一解码器和第二解码器;
所述声音提取子系统用于从语音信号中提取出存在讲师声音的信号,得到多个子段声音信号;所述声音幅值提取子系统用于计算每个子段声音信号的平均幅值;所述时频转换子系统用于将每个子段声音信号进行时频转换,得到频域信号;所述时域信号特征提取子系统用于对每个子段声音信号提取时域特征;所述频域信号特征提取子系统用于对频域信号提取频域特征;所述时频特征融合子系统用于融合时域特征和频域特征,得到融合特征;所述第一解码器用于对融合特征进行解码,得到讲师全部口语文本;所述第二解码器用于根据子段声音信号的平均幅值对融合特征进行增强,得到增强特征,对增强特征进行解码,得到讲师重要内容口语文本。
在本发明中第一解码器和第二解码器可采用现有技术的CTC解码器,以及神经网络类的解码器。
所述声音提取子系统包括:采样单元、声音时间段筛选单元、初始声音信号筛选单元和子段声音信号筛选单元;
所述采样单元用于对语音信号进行采样处理,得到离散语音幅值数据;所述声音时间段筛选单元用于设置幅值阈值,将离散语音幅值数据中每个幅值数据与幅值阈值进行比较,找到幅值数据高于幅值阈值的时间段,得到多个声音时间段;所述初始声音信号筛选单元用于从离散语音幅值数据中找到每个声音时间段的幅值数据,得到初始声音信号,其中,初始声音信号由一个声音时间段上的幅值数据构成;所述子段声音信号筛选单元用于根据初始声音信号对应的声音时间段长度和幅值数据,计算声音有效值,将声音有效值大于有效阈值的初始声音信号作为子段声音信号。
本发明设置幅值阈值用于将离散语音幅值数据中静默段的数据丢弃,提取出存在讲师声音的信号段,得到多个声音时间段,在高于幅值阈值的幅值数据中存在异常的噪声和抖动等异常数据,因此,计算出初始声音信号的声音有效值,丢弃异常数据,即将部分声音时间段过短,但大于幅值阈值的幅值数据丢弃。
在本实施例中,幅值阈值和有效阈值根据经验进行设置。
所述计算声音有效值的公式为:
,
其中,Va为声音有效值,Amt为初始声音信号中第t时刻的幅值数据,C为初始声音信号的声音时间段长度,t为时刻的编号。
如图2所示,所述时域信号特征提取子系统和频域信号特征提取子系统的结构相同,均包括:二维矩阵构建单元、卷积神经网络、注意力输出单元、矩阵运算器H1、归一化层和时间循环特征提取单元;
所述二维矩阵构建单元的输入端作为时域信号特征提取子系统或频域信号特征提取子系统的输入端,其输出端与卷积神经网络的输入端连接;所述卷积神经网络的输出端分别与矩阵运算器H1的第一输入端和注意力输出单元的输入端连接;所述矩阵运算器H1的第二输入端与注意力输出单元的输出端连接,其输出端与归一化层的输入端连接;所述时间循环特征提取单元的输入端与归一化层的输出端连接,其输出端作为时域信号特征提取子系统或频域信号特征提取子系统的输出端;所述二维矩阵构建单元用于将一维的子段声音信号或频域信号转换为二维矩阵;所述矩阵运算器H1用于将卷积神经网络的输出与注意力输出单元的输出进行哈达玛积运算。
本发明中二维矩阵构建单元用于将一维的子段声音信号或频域信号转换成二维矩阵,便于卷积神经网络处理,在卷积神经网络提取特征后,设置注意力输出单元,计算出卷积神经网络的每个输出值应当施加的注意力,在矩阵运算器H1处自适应增强和削弱卷积神经网络的每个输出值,实现更灵活的映射,在归一化层处进行归一化处理,避免过拟合,通过时间循环特征提取单元考虑历史时刻的特征,提升时域信号特征提取子系统和频域信号特征提取子系统语音识别的能力,进一步地提高语音识别的精度。
所述二维矩阵构建单元的表达式为:,其中,A为二维矩阵,a为一维的子段声音信号或频域信号,T为转置运算。
如图3所示,所述卷积神经网络包括:第一卷积层、第一多路径特征提取层、第二卷积层、第二多路径特征提取层和ReLU层;
所述第一卷积层的输入端作为卷积神经网络的输入端,其输出端与第一多路径特征提取层的输入端连接;所述第二卷积层的输入端与第一多路径特征提取层的输出端连接,其输出端与第二多路径特征提取层的输入端连接;所述ReLU层的输入端与第二多路径特征提取层的输出端连接,其输出端作为卷积神经网络的输出端。
如图4所示,所述第一多路径特征提取层和第二多路径特征提取层的结构相同,均包括:第三卷积层、第四卷积层、第五卷积层、乘法器M1、乘法器M2和加法器A1;
所述第三卷积层的输入端分别与第四卷积层的输入端、第五卷积层的输入端和加法器A1的第一输入端连接,并作为第一多路径特征提取层或第二多路径特征提取层的输入端;所述乘法器M1的第一输入端与第三卷积层的输出端连接,其第二输入端与第四卷积层的输出端连接,其输出端与乘法器M2的第一输入端连接;所述乘法器M2的第二输入端与第五卷积层的输出端连接,其输出端与加法器A1的第二输入端连接;所述加法器A1的输出端作为第一多路径特征提取层或第二多路径特征提取层的输出端。
本发明中设置两个多路径特征提取层用于充分提取特征,每个多路径特征提取层设置了多条路径用于提取特征,本发明中第三卷积层、第四卷积层和第五卷积层设置不同大小的卷积核,实现对不同特征进行提取,并通过乘法器M1和乘法器M2实现特征的融合,在加法器A1处实现将乘法器M2输出和多路径特征提取层的输入进行拼接,解决梯度消失的问题。
所述注意力输出单元的表达式为:
,
其中,为注意力输出单元的第i个输出值,xi为卷积神经网络的第i个输出值,max{xi}为取卷积神经网络输出值的最大值,e为自然常数,i为输出值的编号。
所述时间循环特征提取单元的表达式为:
,
,
,
其中,yt为时间循环特征提取单元第t时刻的输出,vt为归一化层第t时刻的输出,yt-1为时间循环特征提取单元第t-1时刻的输出,w1,v为归一化层第t时刻的输出vt的第一权重,w1,y为时间循环特征提取单元第t-1时刻的输出yt-1的第一权重,w2,v为归一化层第t时刻的输出vt的第二权重,w2,y为时间循环特征提取单元第t-1时刻的输出yt-1的第二权重,g1,t为第t时刻的第一中间变量,g2,t为第t时刻的第二中间变量,w1,g为第t时刻的第一中间变量g1,t的权重,w2,g为第t时刻的第二中间变量g2,t的权重,b1为第一偏置,b2为第二偏置,b3为第三偏置,为sigmoid激活函数,tanh为双曲正切激活函数。
本发明设置双曲正切激活函数和sigmoid激活函数分别进行特征提取,特征提取的对象包括归一化层的输出和时间循环特征提取单元上一时刻的输出,使得时域信号特征提取子系统和频域信号特征提取子系统具备考虑临近语音信号值的能力,提高语音识别精度。
所述时频特征融合子系统的表达式为:
,
其中,X为时频特征融合子系统输出的融合特征,AvgPool为平均池化操作,MaxPool为最大池化操作,为哈达玛积,TD为时域特征,FD为频域特征。
本发明中时频特征融合子系统分别对时域特征和频域特征进行最大池化操作和平均池化操作,提取出显著特征和全局特征。
所述对融合特征进行增强的表达式为:
,
其中,为第j个子段声音信号对应的增强特征,Xj为第j个子段声音信号对应的融合特征,/>为第j个子段声音信号的平均幅值,/>为sigmoid激活函数。
本发明中子段声音信号的平均幅值越大,对融合特征进行增强的幅度越大,增强重点内容的关注度。
本发明中,将语音信号拆分成多个子段声音信号,从而实现对每个子段声音信号的处理。
在本发明中,时域信号特征提取子系统、频域信号特征提取子系统、时频特征融合子系统、第一解码器和第二解码器进行一起训练,训练样本采用标注标签的语音信号的时域特征和频域特征,针对第一解码器标签是语音信号对应的讲师全部口语文本,针对第二解码器是语音信号对应的讲师重要内容口语文本,通过样本对本发明结构的训练,调整好结构中的权重和偏置,达到对时域信号特征提取子系统输入时域特征,对频域信号特征提取子系统输入频域特征时,第一解码器和第二解码器能输出与标签非常接近的内容,具体训练过程可采用现有技术中的梯度下降法。
在语音信号中包括存在讲师声音的信号段和静默段,静默段即无声音的信号段,因此,本发明中通过声音提取子系统将存在讲师声音的信号段提取出来,得到多个子段声音信号,提取每个子段声音信号的频域特征和时域特征,再将频域特征和时域特征进行融合,得到融合特征,保障特征的丰富度,提高语音识别精度,通过第一解码器解码出讲师全部口语文本,在第二解码器中根据每个子段声音信号的平均幅值对融合特征进行增强,通过声音信号的幅值情况反应讲师强调的内容的重要程度,实现对重要内容的解码,得到讲师重要内容口语文本。本发明的培训监管系统不需要人工监管,自动记录讲师所讲述的全部内容和重点内容。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种培训监管系统,其特征在于,包括:声音提取子系统、声音幅值提取子系统、时频转换子系统、时域信号特征提取子系统、频域信号特征提取子系统、时频特征融合子系统、第一解码器和第二解码器;
所述声音提取子系统用于从语音信号中提取出存在讲师声音的信号,得到多个子段声音信号;所述声音幅值提取子系统用于计算每个子段声音信号的平均幅值;所述时频转换子系统用于将每个子段声音信号进行时频转换,得到频域信号;所述时域信号特征提取子系统用于对每个子段声音信号提取时域特征;所述频域信号特征提取子系统用于对频域信号提取频域特征;所述时频特征融合子系统用于融合时域特征和频域特征,得到融合特征;所述第一解码器用于对融合特征进行解码,得到讲师全部口语文本;所述第二解码器用于根据子段声音信号的平均幅值对融合特征进行增强,得到增强特征,对增强特征进行解码,得到讲师重要内容口语文本。
2.根据权利要求1所述的培训监管系统,其特征在于,所述声音提取子系统包括:采样单元、声音时间段筛选单元、初始声音信号筛选单元和子段声音信号筛选单元;
所述采样单元用于对语音信号进行采样处理,得到离散语音幅值数据;所述声音时间段筛选单元用于设置幅值阈值,将离散语音幅值数据中每个幅值数据与幅值阈值进行比较,找到幅值数据高于幅值阈值的时间段,得到多个声音时间段;所述初始声音信号筛选单元用于从离散语音幅值数据中找到每个声音时间段的幅值数据,得到初始声音信号;所述子段声音信号筛选单元用于根据初始声音信号对应的声音时间段长度和幅值数据,计算声音有效值,将声音有效值大于有效阈值的初始声音信号作为子段声音信号。
3.根据权利要求2所述的培训监管系统,其特征在于,所述计算声音有效值的公式为:
,
其中,Va为声音有效值,Amt为初始声音信号中第t时刻的幅值数据,C为初始声音信号的声音时间段长度,t为时刻的编号。
4.根据权利要求1所述的培训监管系统,其特征在于,所述时域信号特征提取子系统和频域信号特征提取子系统的结构相同,均包括:二维矩阵构建单元、卷积神经网络、注意力输出单元、矩阵运算器H1、归一化层和时间循环特征提取单元;
所述二维矩阵构建单元的输入端作为时域信号特征提取子系统或频域信号特征提取子系统的输入端,其输出端与卷积神经网络的输入端连接;所述卷积神经网络的输出端分别与矩阵运算器H1的第一输入端和注意力输出单元的输入端连接;所述矩阵运算器H1的第二输入端与注意力输出单元的输出端连接,其输出端与归一化层的输入端连接;所述时间循环特征提取单元的输入端与归一化层的输出端连接,其输出端作为时域信号特征提取子系统或频域信号特征提取子系统的输出端;所述二维矩阵构建单元用于将一维的子段声音信号或频域信号转换为二维矩阵;所述矩阵运算器H1用于将卷积神经网络的输出与注意力输出单元的输出进行哈达玛积运算。
5.根据权利要求4所述的培训监管系统,其特征在于,所述卷积神经网络包括:第一卷积层、第一多路径特征提取层、第二卷积层、第二多路径特征提取层和ReLU层;
所述第一卷积层的输入端作为卷积神经网络的输入端,其输出端与第一多路径特征提取层的输入端连接;所述第二卷积层的输入端与第一多路径特征提取层的输出端连接,其输出端与第二多路径特征提取层的输入端连接;所述ReLU层的输入端与第二多路径特征提取层的输出端连接,其输出端作为卷积神经网络的输出端。
6.根据权利要求5所述的培训监管系统,其特征在于,所述第一多路径特征提取层和第二多路径特征提取层的结构相同,均包括:第三卷积层、第四卷积层、第五卷积层、乘法器M1、乘法器M2和加法器A1;
所述第三卷积层的输入端分别与第四卷积层的输入端、第五卷积层的输入端和加法器A1的第一输入端连接,并作为第一多路径特征提取层或第二多路径特征提取层的输入端;所述乘法器M1的第一输入端与第三卷积层的输出端连接,其第二输入端与第四卷积层的输出端连接,其输出端与乘法器M2的第一输入端连接;所述乘法器M2的第二输入端与第五卷积层的输出端连接,其输出端与加法器A1的第二输入端连接;所述加法器A1的输出端作为第一多路径特征提取层或第二多路径特征提取层的输出端。
7.根据权利要求4所述的培训监管系统,其特征在于,所述注意力输出单元的表达式为:
,
其中,为注意力输出单元的第i个输出值,xi为卷积神经网络的第i个输出值,max{xi}为取卷积神经网络输出值的最大值,e为自然常数,i为输出值的编号。
8.根据权利要求4所述的培训监管系统,其特征在于,所述时间循环特征提取单元的表达式为:
,
,
,
其中,yt为时间循环特征提取单元第t时刻的输出,vt为归一化层第t时刻的输出,yt-1为时间循环特征提取单元第t-1时刻的输出,w1,v为归一化层第t时刻的输出vt的第一权重,w1,y为时间循环特征提取单元第t-1时刻的输出yt-1的第一权重,w2,v为归一化层第t时刻的输出vt的第二权重,w2,y为时间循环特征提取单元第t-1时刻的输出yt-1的第二权重,g1,t为第t时刻的第一中间变量,g2,t为第t时刻的第二中间变量,w1,g为第t时刻的第一中间变量g1,t的权重,w2,g为第t时刻的第二中间变量g2,t的权重,b1为第一偏置,b2为第二偏置,b3为第三偏置,为sigmoid激活函数,tanh为双曲正切激活函数,t为时刻的编号。
9.根据权利要求1所述的培训监管系统,其特征在于,所述时频特征融合子系统的表达式为:
,
其中,X为时频特征融合子系统输出的融合特征,AvgPool为平均池化操作,MaxPool为最大池化操作,为哈达玛积,TD为时域特征,FD为频域特征。
10.根据权利要求1所述的培训监管系统,其特征在于,所述对融合特征进行增强的表达式为:
,
其中,为第j个子段声音信号对应的增强特征,Xj为第j个子段声音信号对应的融合特征,/>为第j个子段声音信号的平均幅值,/>为sigmoid激活函数,j为子段声音信号的编号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311244030.2A CN116994587B (zh) | 2023-09-26 | 2023-09-26 | 一种培训监管系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311244030.2A CN116994587B (zh) | 2023-09-26 | 2023-09-26 | 一种培训监管系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116994587A true CN116994587A (zh) | 2023-11-03 |
CN116994587B CN116994587B (zh) | 2023-12-08 |
Family
ID=88528672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311244030.2A Active CN116994587B (zh) | 2023-09-26 | 2023-09-26 | 一种培训监管系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116994587B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180068675A1 (en) * | 2016-09-07 | 2018-03-08 | Google Inc. | Enhanced multi-channel acoustic models |
US20180174575A1 (en) * | 2016-12-21 | 2018-06-21 | Google Llc | Complex linear projection for acoustic modeling |
CN113763973A (zh) * | 2021-04-30 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 音频信号增强方法、装置、计算机设备和存储介质 |
WO2023044962A1 (zh) * | 2021-09-24 | 2023-03-30 | 武汉大学 | 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置 |
CN116129881A (zh) * | 2023-01-03 | 2023-05-16 | 北京达佳互联信息技术有限公司 | 语音任务处理方法、装置、电子设备及存储介质 |
CN116503791A (zh) * | 2023-06-30 | 2023-07-28 | 腾讯科技(深圳)有限公司 | 模型的训练方法、装置、电子设备及存储介质 |
-
2023
- 2023-09-26 CN CN202311244030.2A patent/CN116994587B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180068675A1 (en) * | 2016-09-07 | 2018-03-08 | Google Inc. | Enhanced multi-channel acoustic models |
US20180174575A1 (en) * | 2016-12-21 | 2018-06-21 | Google Llc | Complex linear projection for acoustic modeling |
CN113763973A (zh) * | 2021-04-30 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 音频信号增强方法、装置、计算机设备和存储介质 |
WO2023044962A1 (zh) * | 2021-09-24 | 2023-03-30 | 武汉大学 | 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置 |
CN116129881A (zh) * | 2023-01-03 | 2023-05-16 | 北京达佳互联信息技术有限公司 | 语音任务处理方法、装置、电子设备及存储介质 |
CN116503791A (zh) * | 2023-06-30 | 2023-07-28 | 腾讯科技(深圳)有限公司 | 模型的训练方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
HARDIK B. SAILOR,等: "Filterbank learning using Convolutional Restricted Boltzmann Machine for speech recognition", 《2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
JINHUA LIN,等: "A Frequency-Domain Convolutional Neural Network Architecture Based on the Frequency-Domain Randomized Offset Rectified Linear Unit and Frequency-Domain Chunk Max Pooling Method", 《IEEE ACCESS》 * |
Also Published As
Publication number | Publication date |
---|---|
CN116994587B (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442707B (zh) | 一种基于seq2seq的多标签文本分类方法 | |
CN109299273B (zh) | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 | |
CN108319666B (zh) | 一种基于多模态舆情分析的供电服务评估方法 | |
CN110209823A (zh) | 一种多标签文本分类方法及系统 | |
CN111402891B (zh) | 语音识别方法、装置、设备和存储介质 | |
CN110767218A (zh) | 端到端语音识别方法、系统、装置及其存储介质 | |
US11056101B2 (en) | End-to-end streaming keyword spotting | |
Adi et al. | To reverse the gradient or not: An empirical comparison of adversarial and multi-task learning in speech recognition | |
Zhang et al. | Sentiment Classification Based on Piecewise Pooling Convolutional Neural Network. | |
CN105139864A (zh) | 语音识别方法和装置 | |
CN106782511A (zh) | 修正线性深度自编码网络语音识别方法 | |
US11205419B2 (en) | Low energy deep-learning networks for generating auditory features for audio processing pipelines | |
CN109712609B (zh) | 一种解决关键词识别样本不均衡的方法 | |
CN113129908B (zh) | 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统 | |
US20230031733A1 (en) | Method for training a speech recognition model and method for speech recognition | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
Huang et al. | Speech emotion recognition using convolutional neural network with audio word-based embedding | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
Ahmed et al. | CNN-based speech segments endpoints detection framework using short-time signal energy features | |
CN113889099A (zh) | 一种语音识别方法及系统 | |
CN116994587B (zh) | 一种培训监管系统 | |
CN116189671B (zh) | 一种用于语言教学的数据挖掘方法及系统 | |
Pan et al. | An efficient hybrid learning algorithm for neural network–based speech recognition systems on FPGA chip | |
CN117033961A (zh) | 一种上下文语境感知的多模态图文分类方法 | |
TW202121398A (zh) | 基於類神經網路之語音或文字文件摘要系統及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |