CN116994587A

CN116994587A - 一种培训监管系统

Info

Publication number: CN116994587A
Application number: CN202311244030.2A
Authority: CN
Inventors: 陈蓓; 汪希; 莫晋萱
Original assignee: Chengdu Aeronautic Polytechnic
Current assignee: Chengdu Aeronautic Polytechnic
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2023-11-03
Anticipated expiration: 2043-09-26
Also published as: CN116994587B

Abstract

本发明公开了一种培训监管系统，属于语音识别技术领域，本发明中通过声音提取子系统将存在讲师声音的信号段提取出来，得到多个子段声音信号，提取每个子段声音信号的频域特征和时域特征，再将频域特征和时域特征进行融合，得到融合特征，保障特征的丰富度，提高语音识别精度，通过第一解码器解码出讲师全部口语文本，在第二解码器中根据每个子段声音信号的平均幅值对融合特征进行增强，通过声音信号的幅值情况反应讲师强调的内容的重要程度，实现对重要内容的解码，得到讲师重要内容口语文本。本发明的培训监管系统不需要人工监管，自动记录讲师所讲述的全部内容和重点内容。

Description

一种培训监管系统

技术领域

本发明涉及语音识别技术领域，具体涉及一种培训监管系统。

背景技术

在培训过程中，讲师所讲述的内容需要被其他人员详细的记载下来或者将重点内容记载下来，实现对所讲述的内容进行记录，便于监管培训内容。现有通常采用人工监控的方式进行记录，这种方式不仅耗时耗力，而且容易出现疏漏和错误。

随着人工智能技术的不断发展，语音识别技术在各个领域得到了广泛应用。将语音识别用于自动识别出讲师所讲述的内容，实现高效的培训监管系统。但是现有语音识别技术通常是采用语音识别模型处理语音信号的时频特征或者语音信号的频域特征，得到语音信号对应的文字信息，但是语音识别模型识别的精度取决于时频特征或者频域特征的特征丰富度，仅以时频特征或者频域特征进行语音识别，存在语音识别精度不高的问题。

发明内容

针对现有技术中的上述不足，本发明提供的一种培训监管系统解决了以下技术问题：

1、现有人工监管培训过程，存在监管时间长，且容易出现疏漏和错误的问题；

2、采用语音识别监管培训过程，存在语音识别精度不高的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种培训监管系统，包括：声音提取子系统、声音幅值提取子系统、时频转换子系统、时域信号特征提取子系统、频域信号特征提取子系统、时频特征融合子系统、第一解码器和第二解码器；

所述声音提取子系统用于从语音信号中提取出存在讲师声音的信号，得到多个子段声音信号；所述声音幅值提取子系统用于计算每个子段声音信号的平均幅值；所述时频转换子系统用于将每个子段声音信号进行时频转换，得到频域信号；所述时域信号特征提取子系统用于对每个子段声音信号提取时域特征；所述频域信号特征提取子系统用于对频域信号提取频域特征；所述时频特征融合子系统用于融合时域特征和频域特征，得到融合特征；所述第一解码器用于对融合特征进行解码，得到讲师全部口语文本；所述第二解码器用于根据子段声音信号的平均幅值对融合特征进行增强，得到增强特征，对增强特征进行解码，得到讲师重要内容口语文本。

本发明的有益效果为：语音信号中包括存在讲师声音的信号段和静默段，静默段即无声音的信号段，因此，本发明中通过声音提取子系统将存在讲师声音的信号段提取出来，得到多个子段声音信号，提取每个子段声音信号的频域特征和时域特征，再将频域特征和时域特征进行融合，得到融合特征，保障特征的丰富度，提高语音识别精度，通过第一解码器解码出讲师全部口语文本，在第二解码器中根据每个子段声音信号的平均幅值对融合特征进行增强，通过声音信号的幅值情况反应讲师强调的内容的重要程度，实现对重要内容的解码，得到讲师重要内容口语文本。本发明的培训监管系统不需要人工监管，自动记录讲师所讲述的全部内容和重点内容。

进一步地，所述声音提取子系统包括：采样单元、声音时间段筛选单元、初始声音信号筛选单元和子段声音信号筛选单元；

所述采样单元用于对语音信号进行采样处理，得到离散语音幅值数据；所述声音时间段筛选单元用于设置幅值阈值，将离散语音幅值数据中每个幅值数据与幅值阈值进行比较，找到幅值数据高于幅值阈值的时间段，得到多个声音时间段；所述初始声音信号筛选单元用于从离散语音幅值数据中找到每个声音时间段的幅值数据，得到初始声音信号；所述子段声音信号筛选单元用于根据初始声音信号对应的声音时间段长度和幅值数据，计算声音有效值，将声音有效值大于有效阈值的初始声音信号作为子段声音信号。

上述进一步地方案的有益效果为：本发明设置幅值阈值用于将离散语音幅值数据中静默段的数据丢弃，提取出存在讲师声音的信号段，得到多个声音时间段，在高于幅值阈值的幅值数据中存在异常的噪声和抖动等异常数据，因此，计算出初始声音信号的声音有效值，丢弃异常数据，即将部分声音时间段过短，但大于幅值阈值的幅值数据丢弃。

进一步地，所述计算声音有效值的公式为：

，

其中，Va为声音有效值，Am_t为初始声音信号中第t时刻的幅值数据，C为初始声音信号的声音时间段长度，t为时刻的编号。

进一步地，所述时域信号特征提取子系统和频域信号特征提取子系统的结构相同，均包括：二维矩阵构建单元、卷积神经网络、注意力输出单元、矩阵运算器H1、归一化层和时间循环特征提取单元；

所述二维矩阵构建单元的输入端作为时域信号特征提取子系统或频域信号特征提取子系统的输入端，其输出端与卷积神经网络的输入端连接；所述卷积神经网络的输出端分别与矩阵运算器H1的第一输入端和注意力输出单元的输入端连接；所述矩阵运算器H1的第二输入端与注意力输出单元的输出端连接，其输出端与归一化层的输入端连接；所述时间循环特征提取单元的输入端与归一化层的输出端连接，其输出端作为时域信号特征提取子系统或频域信号特征提取子系统的输出端；所述二维矩阵构建单元用于将一维的子段声音信号或频域信号转换为二维矩阵；所述矩阵运算器H1用于将卷积神经网络的输出与注意力输出单元的输出进行哈达玛积运算。

上述进一步地方案的有益效果为：本发明中二维矩阵构建单元用于将一维的子段声音信号或频域信号转换成二维矩阵，便于卷积神经网络处理，在卷积神经网络提取特征后，设置注意力输出单元，计算出卷积神经网络的每个输出值应当施加的注意力，在矩阵运算器H1处自适应增强和削弱卷积神经网络的每个输出值，实现更灵活的映射，在归一化层处进行归一化处理，避免过拟合，通过时间循环特征提取单元考虑历史时刻的特征，提升时域信号特征提取子系统和频域信号特征提取子系统语音识别的能力，进一步地提高语音识别的精度。

进一步地，所述卷积神经网络包括：第一卷积层、第一多路径特征提取层、第二卷积层、第二多路径特征提取层和ReLU层；

所述第一卷积层的输入端作为卷积神经网络的输入端，其输出端与第一多路径特征提取层的输入端连接；所述第二卷积层的输入端与第一多路径特征提取层的输出端连接，其输出端与第二多路径特征提取层的输入端连接；所述ReLU层的输入端与第二多路径特征提取层的输出端连接，其输出端作为卷积神经网络的输出端。

进一步地，所述第一多路径特征提取层和第二多路径特征提取层的结构相同，均包括：第三卷积层、第四卷积层、第五卷积层、乘法器M1、乘法器M2和加法器A1；

所述第三卷积层的输入端分别与第四卷积层的输入端、第五卷积层的输入端和加法器A1的第一输入端连接，并作为第一多路径特征提取层或第二多路径特征提取层的输入端；所述乘法器M1的第一输入端与第三卷积层的输出端连接，其第二输入端与第四卷积层的输出端连接，其输出端与乘法器M2的第一输入端连接；所述乘法器M2的第二输入端与第五卷积层的输出端连接，其输出端与加法器A1的第二输入端连接；所述加法器A1的输出端作为第一多路径特征提取层或第二多路径特征提取层的输出端。

上述进一步地方案的有益效果为：本发明中设置两个多路径特征提取层用于充分提取特征，每个多路径特征提取层设置了多条路径用于提取特征，本发明中第三卷积层、第四卷积层和第五卷积层设置不同大小的卷积核，实现对不同特征进行提取，并通过乘法器M1和乘法器M2实现特征的融合，在加法器A1处实现将乘法器M2输出和多路径特征提取层的输入进行拼接，解决梯度消失的问题。

进一步地，所述注意力输出单元的表达式为：

，

其中，为注意力输出单元的第i个输出值，x_i为卷积神经网络的第i个输出值，max{xi}为取卷积神经网络输出值的最大值，e为自然常数，i为输出值的编号。

进一步地，所述时间循环特征提取单元的表达式为：

，

其中，y_t为时间循环特征提取单元第t时刻的输出，v_t为归一化层第t时刻的输出，y_t-1为时间循环特征提取单元第t-1时刻的输出，w_1,v为归一化层第t时刻的输出v_t的第一权重，w_1,y为时间循环特征提取单元第t-1时刻的输出y_t-1的第一权重，w_2,v为归一化层第t时刻的输出v_t的第二权重，w_2,y为时间循环特征提取单元第t-1时刻的输出y_t-1的第二权重，g_1,t为第t时刻的第一中间变量，g_2,t为第t时刻的第二中间变量，w_1,g为第t时刻的第一中间变量g_1,t的权重，w_2,g为第t时刻的第二中间变量g_2,t的权重，b₁为第一偏置，b₂为第二偏置，b₃为第三偏置，为sigmoid激活函数，tanh为双曲正切激活函数。

上述进一步地方案的有益效果为：本发明设置双曲正切激活函数和sigmoid激活函数分别进行特征提取，特征提取的对象包括归一化层的输出和时间循环特征提取单元上一时刻的输出，使得时域信号特征提取子系统和频域信号特征提取子系统具备考虑临近语音信号值的能力，提高语音识别精度。

进一步地，所述时频特征融合子系统的表达式为：

，

其中，X为时频特征融合子系统输出的融合特征，AvgPool为平均池化操作，MaxPool为最大池化操作，为哈达玛积，TD为时域特征，FD为频域特征。

上述进一步地方案的有益效果为：本发明中时频特征融合子系统分别对时域特征和频域特征进行最大池化操作和平均池化操作，提取出显著特征和全局特征。

进一步地，所述对融合特征进行增强的表达式为：

，

其中，为第j个子段声音信号对应的增强特征，X_j为第j个子段声音信号对应的融合特征，/>为第j个子段声音信号的平均幅值，/>为sigmoid激活函数。

上述进一步地方案的有益效果为：本发明中子段声音信号的平均幅值越大，对融合特征进行增强的幅度越大，增强重点内容的关注度。

附图说明

图1为一种培训监管系统的系统框图；

图2为时域信号特征提取子系统和频域信号特征提取子系统的结构示意图；

图3为卷积神经网络的结构示意图；

图4为第一多路径特征提取层和第二多路径特征提取层的结构示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种培训监管系统，包括：声音提取子系统、声音幅值提取子系统、时频转换子系统、时域信号特征提取子系统、频域信号特征提取子系统、时频特征融合子系统、第一解码器和第二解码器；

在本发明中第一解码器和第二解码器可采用现有技术的CTC解码器，以及神经网络类的解码器。

所述声音提取子系统包括：采样单元、声音时间段筛选单元、初始声音信号筛选单元和子段声音信号筛选单元；

所述采样单元用于对语音信号进行采样处理，得到离散语音幅值数据；所述声音时间段筛选单元用于设置幅值阈值，将离散语音幅值数据中每个幅值数据与幅值阈值进行比较，找到幅值数据高于幅值阈值的时间段，得到多个声音时间段；所述初始声音信号筛选单元用于从离散语音幅值数据中找到每个声音时间段的幅值数据，得到初始声音信号，其中，初始声音信号由一个声音时间段上的幅值数据构成；所述子段声音信号筛选单元用于根据初始声音信号对应的声音时间段长度和幅值数据，计算声音有效值，将声音有效值大于有效阈值的初始声音信号作为子段声音信号。

本发明设置幅值阈值用于将离散语音幅值数据中静默段的数据丢弃，提取出存在讲师声音的信号段，得到多个声音时间段，在高于幅值阈值的幅值数据中存在异常的噪声和抖动等异常数据，因此，计算出初始声音信号的声音有效值，丢弃异常数据，即将部分声音时间段过短，但大于幅值阈值的幅值数据丢弃。

在本实施例中，幅值阈值和有效阈值根据经验进行设置。

所述计算声音有效值的公式为：

，

如图2所示，所述时域信号特征提取子系统和频域信号特征提取子系统的结构相同，均包括：二维矩阵构建单元、卷积神经网络、注意力输出单元、矩阵运算器H1、归一化层和时间循环特征提取单元；

本发明中二维矩阵构建单元用于将一维的子段声音信号或频域信号转换成二维矩阵，便于卷积神经网络处理，在卷积神经网络提取特征后，设置注意力输出单元，计算出卷积神经网络的每个输出值应当施加的注意力，在矩阵运算器H1处自适应增强和削弱卷积神经网络的每个输出值，实现更灵活的映射，在归一化层处进行归一化处理，避免过拟合，通过时间循环特征提取单元考虑历史时刻的特征，提升时域信号特征提取子系统和频域信号特征提取子系统语音识别的能力，进一步地提高语音识别的精度。

所述二维矩阵构建单元的表达式为：，其中，A为二维矩阵，a为一维的子段声音信号或频域信号，T为转置运算。

如图3所示，所述卷积神经网络包括：第一卷积层、第一多路径特征提取层、第二卷积层、第二多路径特征提取层和ReLU层；

如图4所示，所述第一多路径特征提取层和第二多路径特征提取层的结构相同，均包括：第三卷积层、第四卷积层、第五卷积层、乘法器M1、乘法器M2和加法器A1；

本发明中设置两个多路径特征提取层用于充分提取特征，每个多路径特征提取层设置了多条路径用于提取特征，本发明中第三卷积层、第四卷积层和第五卷积层设置不同大小的卷积核，实现对不同特征进行提取，并通过乘法器M1和乘法器M2实现特征的融合，在加法器A1处实现将乘法器M2输出和多路径特征提取层的输入进行拼接，解决梯度消失的问题。

所述注意力输出单元的表达式为：

，

所述时间循环特征提取单元的表达式为：

，

本发明设置双曲正切激活函数和sigmoid激活函数分别进行特征提取，特征提取的对象包括归一化层的输出和时间循环特征提取单元上一时刻的输出，使得时域信号特征提取子系统和频域信号特征提取子系统具备考虑临近语音信号值的能力，提高语音识别精度。

所述时频特征融合子系统的表达式为：

，

本发明中时频特征融合子系统分别对时域特征和频域特征进行最大池化操作和平均池化操作，提取出显著特征和全局特征。

所述对融合特征进行增强的表达式为：

，

本发明中子段声音信号的平均幅值越大，对融合特征进行增强的幅度越大，增强重点内容的关注度。

本发明中，将语音信号拆分成多个子段声音信号，从而实现对每个子段声音信号的处理。

在本发明中，时域信号特征提取子系统、频域信号特征提取子系统、时频特征融合子系统、第一解码器和第二解码器进行一起训练，训练样本采用标注标签的语音信号的时域特征和频域特征，针对第一解码器标签是语音信号对应的讲师全部口语文本，针对第二解码器是语音信号对应的讲师重要内容口语文本，通过样本对本发明结构的训练，调整好结构中的权重和偏置，达到对时域信号特征提取子系统输入时域特征，对频域信号特征提取子系统输入频域特征时，第一解码器和第二解码器能输出与标签非常接近的内容，具体训练过程可采用现有技术中的梯度下降法。

在语音信号中包括存在讲师声音的信号段和静默段，静默段即无声音的信号段，因此，本发明中通过声音提取子系统将存在讲师声音的信号段提取出来，得到多个子段声音信号，提取每个子段声音信号的频域特征和时域特征，再将频域特征和时域特征进行融合，得到融合特征，保障特征的丰富度，提高语音识别精度，通过第一解码器解码出讲师全部口语文本，在第二解码器中根据每个子段声音信号的平均幅值对融合特征进行增强，通过声音信号的幅值情况反应讲师强调的内容的重要程度，实现对重要内容的解码，得到讲师重要内容口语文本。本发明的培训监管系统不需要人工监管，自动记录讲师所讲述的全部内容和重点内容。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种培训监管系统，其特征在于，包括：声音提取子系统、声音幅值提取子系统、时频转换子系统、时域信号特征提取子系统、频域信号特征提取子系统、时频特征融合子系统、第一解码器和第二解码器；

2.根据权利要求1所述的培训监管系统，其特征在于，所述声音提取子系统包括：采样单元、声音时间段筛选单元、初始声音信号筛选单元和子段声音信号筛选单元；

3.根据权利要求2所述的培训监管系统，其特征在于，所述计算声音有效值的公式为：

，

4.根据权利要求1所述的培训监管系统，其特征在于，所述时域信号特征提取子系统和频域信号特征提取子系统的结构相同，均包括：二维矩阵构建单元、卷积神经网络、注意力输出单元、矩阵运算器H1、归一化层和时间循环特征提取单元；

5.根据权利要求4所述的培训监管系统，其特征在于，所述卷积神经网络包括：第一卷积层、第一多路径特征提取层、第二卷积层、第二多路径特征提取层和ReLU层；

6.根据权利要求5所述的培训监管系统，其特征在于，所述第一多路径特征提取层和第二多路径特征提取层的结构相同，均包括：第三卷积层、第四卷积层、第五卷积层、乘法器M1、乘法器M2和加法器A1；

7.根据权利要求4所述的培训监管系统，其特征在于，所述注意力输出单元的表达式为：

，

8.根据权利要求4所述的培训监管系统，其特征在于，所述时间循环特征提取单元的表达式为：

，

其中，y_t为时间循环特征提取单元第t时刻的输出，v_t为归一化层第t时刻的输出，y_t-1为时间循环特征提取单元第t-1时刻的输出，w_1,v为归一化层第t时刻的输出v_t的第一权重，w_1,y为时间循环特征提取单元第t-1时刻的输出y_t-1的第一权重，w_2,v为归一化层第t时刻的输出v_t的第二权重，w_2,y为时间循环特征提取单元第t-1时刻的输出y_t-1的第二权重，g_1,t为第t时刻的第一中间变量，g_2,t为第t时刻的第二中间变量，w_1,g为第t时刻的第一中间变量g_1,t的权重，w_2,g为第t时刻的第二中间变量g_2,t的权重，b₁为第一偏置，b₂为第二偏置，b₃为第三偏置，为sigmoid激活函数，tanh为双曲正切激活函数，t为时刻的编号。

9.根据权利要求1所述的培训监管系统，其特征在于，所述时频特征融合子系统的表达式为：

，

10.根据权利要求1所述的培训监管系统，其特征在于，所述对融合特征进行增强的表达式为：

，

其中，为第j个子段声音信号对应的增强特征，X_j为第j个子段声音信号对应的融合特征，/>为第j个子段声音信号的平均幅值，/>为sigmoid激活函数，j为子段声音信号的编号。