CN110738984B

CN110738984B - 人工智能cnn、lstm神经网络语音识别系统

Info

Publication number: CN110738984B
Application number: CN201910400538.4A
Authority: CN
Inventors: 詹志超
Original assignee: Suzhou Shanchi Numerical Control System Integration Co ltd
Current assignee: Suzhou Shanchi Numerical Control System Integration Co ltd
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2020-12-11
Anticipated expiration: 2039-05-13
Also published as: CN110738984A

Abstract

本发明涉及一种人工智能CNN、LSTM神经网络语音识别系统，包括麦克风(100)、服务器(200)、卷积神经网络(300)、长短时记忆神经网络(400)、人工智能预警操作系统(500)、云计算(600)、与云数据库语音黑名单对比分析(700)、确定目标人物身份(800)、本地数据库模块(900)。本发明通过人工智能CNN、LSTM神经网络语音识别系统用麦克风采集的音频流进行分帧、加窗、降噪处理，生成短时单帧信号，进而对短时单帧信号进行一系列与语音相关的技术处理，包括关键词识别、连续语音识别、语法分析、情感分析识别；实现麦克风周边监测范围内全天候24小时不间断监控，用户可实现信息共享，提高信息资源利用率，为维护社会治安稳定加大安全保障。

Description

人工智能CNN、LSTM神经网络语音识别系统

技术领域

本发明涉及智能安防预警领域，具体涉及一种用于安防维稳的人工智能CNN、LSTM神经网络语音识别系统。

背景技术

人工智能CNN、LSTM神经网络语音识别系统是将先进的麦克风技术、中央处理器CPU、图像处理器GPU、神经网络处理器NPU、异构/可重构处理器技术、卷积神经网络技术、长短时记忆神经网络技术、AI计算机预警处理技术、AI人工智能预警操作技术、风险因素采集技术、风险因素识别技术、大数据分析技术、云计算技术、云存储技术、云数据库技术等有效的集成应用于整个人工智能CNN、LSTM神经网络语音识别系统，而建立的一种在大范围、全方位发挥作用的，实时、准确、高效的综合智能预警系统。

随着祖国西部边疆维稳的措施常态化，使边疆长期保持一个稳定的局面，保证经济能够实现快速发展，人工智能CNN、LSTM神经网络语音识别系统为从根本上解决影响长治久安的深层次问题打下良好基础。

发明内容

本发明是为了克服现有安防系统中存在语音不自动识别、监控措施有漏洞、防范不及时等问题，提出一种人工智能CNN、LSTM神经网络语音识别系统，通过麦克风对风险因素源头进行布控，实时采集风险源因素的语音信息，进行语音检测、语音目标跟踪、音频信号预处理、频谱特征提取、语音匹配与识别，把提取的语音特征数据与数据库中存储的语音特征模板进行搜索对比，根据相似程度，对身份信息进行判断，设定一个阈值，当相似度超过这一阈值，则把匹配得到的结果输出。一类是确认，是一对一(1∶1)进行频谱比较，另一类是辨认，是一对多(1∶N)进行语音匹配，也就是说在N个人中找到风险因素目标，一般的N可以是一个音频流，只要人走进识别范围就完成识别工作。

为实现上述使用人工智能CNN、LSTM神经网络语音识别系统对风险因素源头进行语音识别信息的采集、语音检测、语音目标跟踪、音频信号预处理、频谱特征提取、语音匹配与识别，再进行分级预警的目的，本发明提供如下技术方案：一种人工智能CNN、LSTM神经网络语音识别系统，包括麦克风100、服务器200、卷积神经网络300、长短时记忆神经网络400、人工智能预警操作系统500、云计算600、与云数据库语音黑名单对比分析700、确定目标人物800、本地数据库模块900，本发明通过人工智能CNN、LSTM神经网络语音识别系统对风险因素进行采集、对比分析、存储、分级报警、应对防控，实现对麦克风周边布控点进行全天候24小时监控，用户可实现信息共享，提高信息资源利用率，为维护边疆稳定加大安全保障。

本发明提供一种人工智能CNN、LSTM神经网络语音识别系统包括，麦克风(100)用于采集含有语音的音频流，并自动在语音识别过程中检测和跟踪语音，进而对检测到的语音进行一系列与语音相关的技术处理，包括语音检测、频谱特征提取、语音验证，然后将语音信号序列发送至服务器(200)。

语音信号采用网络传输：包括局域网、Interne或无线网络。所述网络传输用于麦克风向服务器发送语音信号序列。

服务器(200)包括高性能中央处理器CPU、图像处理器GPU、可编程逻辑门阵列FPGA、神经网络处理器NPU、异构/可重构处理器、卷积神经网络模块(300)、长短时记忆神经网络(400)、人工智能预警操作系统(500)、云计算(600)模块、与云数据库语音黑名单对比分析(700)模块、确定目标人物身份(800)模块、本地数据库模块(900)，所述服务器(200)用于为网络系统中客户端提供各种高性能计算的服务，服务器在人工智能预警操作系统的控制下，将与其相连的网络视频服务器、程控交换机、AI云计算服务器、AI数据库服务器、GPU云服务器、Web服务器、通讯服务器、显示器、混合矩阵、路由器、调制解调器相连接，为远程监控客户端提供集中计算、信息发布及数据管理的服务。

卷积神经网络模块(300)包括输入层、卷积层C1、卷积层C2、最大值池化层S3、卷积层C4、卷积层C5、平均值池化层S6、Dropout层，输入长短时记忆神经网络，先创建一套处理数据的脚本：第一，文字分词中文按照jieba原理分词，英语分词按照空格分词，第二，建立一个包含所有词的词典，每个词在词典里面对应一个的编号，任意一个词都可以用一个N维的向量来表示，N是词典中包含的词的个数，假设一个词在词典中的编号是i，v是表示这个词的向量，vj是向量的第j个元素，第三，把段落按字典翻译成数字，变成一个array(数组)，再将音频信号进行分帧、加窗、降噪处理，生成短时单帧信号，进而对短时单帧信号进行反傅里叶变换得到时域数据，并去除直流分量，求时域数据的功率谱，采用sinc函数低通滤波器，获取该帧的频谱包络，将得到的频谱包络特征序列输入卷积神经网络进行训练，更新卷积神经网络各层权值，对卷积神经网络卷积层C1进行初始化操作，对卷积层和Dropout的卷积核和权重进行高斯分布随机初始化，均值设为0，方差设为0.001，对偏置进行全0初始化，再对卷积神经网络进行训练。

长短时记忆神经网络(400)LSTM记忆单元包括遗忘门、输入门、输出门，LSTM用两个门来控制单元状态c的内容，一个是遗忘门，它决定了上一时刻的单元状态c_t-1有多少保留到当前时刻c_t，t-1时刻的输入h_t-1和x_t经过一个线性变换+sigmoid激活以后输出f_t，f_t再与c_t-1进行相乘得到一个中间结果，另一个是输入门，它决定了当前时刻网络的输入x_t有多少保存到单元状态c_t，t-1时刻的输入h_t-1和x_t经过另外一个线性变换+sigmoid激活以后输出l_t，同时h_t-1和x_t经过另一个线性变换+tanh激活以后，与l_t相乘得到一个中间结果，这个中间结果和上一步的中间结果相加得到c_t，所谓输出门，LSTM用输出门来控制单元状态c_t有多少输出到LSTM的当前输出值h_t，t-1时刻的输入h_t-1和x_t经过另外一个线性变换+sigmoid激活以后输出o_t，o_t与经过tanh的c_t相乘得到h_t，这里c、x、h都是向量，LSTM记忆单元时间序列数据包括语言模型、手写体识别、序列生成、机器翻译、语音分析、视频分析，这里的序列指的是时间向量序列，假设时间序列为：

X{x¹，x²，...，x^N}

时间序列模型为：

将卷积神经网络Dropout层长度为160的向量序列的输出值输入到长短时记忆神经网络运算得到一个输出，输出向量经过softmax函数进行转换，输出情感分类标签向量，看是消极情感还是积极情感。

人工智能预警操作系统(500)基于Linux操作系统架构的基础上开发的AI人工智能预警操作系统，该系统包括类脑神经网络系统、多维人机物协同互操作系统、公共安全智能化监测预警与防控系统、自主无人伺服系统、天地一体化信息网络平台系统，用于管理和控制计算机硬件、软件及数据资源的计算机运行程序，用于各级人工智能预警系统与互联网+分布式预警警亭沟通的接口，用于云计算、云存储、云数据库和人工智能预警系统、互联网+分布式预警警亭及其他软件沟通的接口，用于多维人机物协同互操作系统与移动设备和智能电视的通讯接口，用于人机界面为其它应用软件提供支持，包括类脑神经网络系统、多维人机物协同互操作系统、公共安全智能化监测预警与防控系统、自主无人伺服系统、天地一体化网络信息平台系统、智能物联与风险因素数据采集系统、风险因素管理系统，人工智能预警操作系统(500)子系统包括语音识别系统、机器视觉系统、执行器系统、认知行为系统，文件系统、进程管理、进程间通讯、内存管理、网络通讯、安全机制、驱动程序、用户界面。

云计算(600)基于开源Hadoop架构进行设计，利用集群优势进行高速运算和存储，云计算(600)包括基础设施即服务、平台即服务、软件即服务，用于计算分布式计算机上的风险因素识别模块、风险因素推理模块、风险因素评估模块、通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序，再交由多部服务器所组成的庞大系统经搜寻与海量的数据信息进行对比分析，分级推理、预警值评估，之后再将处理结果回传给用户并进行云存储。

与云数据库语音黑名单对比分析(700)模块，所述云数据库包括原始语音信息数据库、原始图像特征信息数据库、实时风险因素采集图像信息数据库、实时风险因素采集语音信息数据库、风险因素识别数据库、风险因素推理数据库、风险因素评估数据库、风险因素应对数据库、风险因素管理评价数据库、实时判断依据数据库、判断规则数据库和事故实例数据库，所述云数据库用于云计算(600)系统的集群应用，将分布式系统文件通过应用软件集合起来协同工作，为用户提供数据存储和业务访问的工作，通过设置在线数据存储模块，存储模块内储存有人脸图像黑名单、动态特征信息黑名单、生物特征信息黑名单和语音信息黑名单，将采集的人脸图像、动态特征信息、生物特征信息和语音信息与存储模块内的人脸图像黑名单、动态特征信息黑名单、生物特征信息黑名单和语音信息黑名单进行对比，如果相似度达到预设的预警值，则预警系统及时将该信息生成预警提示信息进行风险因素的推理、评估、生成预警级别报警信息、反馈给上一级预警系统进行风险管理评价。

确定目标人物身份(800)模块用于处理与云数据库语音黑名单对比分析(700)生成的预警提示信息、预警值评估、生成预警级别报警信息、生成预警信号反馈给上一级预警系统的信息，并根据云计算(600)通过与云数据库语音黑名单对比分析(700)传送的数据进行实时信息更新，用于存储所述人工智能预警系统(500)对云数据库信息查阅所生成的信息数据。

本地数据库模块(900)用于存储本级人工智能预警操作系统所生成的预警信息，用于存储向上一级人工智能预警操作系统发送的信息及反馈信息，用于存储向云计算发送的信息及反馈信息。

优选方式，所述云数据库系统包括有语音识别黑名单。

优选方式，所述网络包括局域网、Internet或无线网络。

优选方式，所述卷积神经网络激活函数为ReLU激活函数。

优选方式，所述卷积神经网络损失函数为交叉熵损失函数。

优选方式，所述麦克风为AI麦克风。

优选方式，所述云计算是基于开源Hadoop架构进行设计。

优选方式，所述云数据库：通过在线数据存储模块，在线数据存储模块基于开源Hadoop架构进行设计。

优选方式，所述云数据库分为原始语音信息数据库、原始图像特征信息数据库、实时风险因素采集图像信息数据库、实时风险因素采集语音信息数据库、风险因素识别数据库、风险因素推理数据库、风险因素评估数据库、风险因素应对数据库、风险因素管理评价数据库、实时判断依据数据库、判断规则数据库和事故实例数据库。

优选方式，所述人工智能预警操作系统基于Linux操作系统架构的基础上开发的AI人工智能预警操作系统。

优选方式，所述语音特征信息包括采集的语音频谱信息。

优选方式，所述原始语音特征信息包括存储模块储存的语音黑名单。

优选方式，所述服务器700包括高性能中央处理器CPU、图像处理器GPU、可编程逻辑门阵列FPGA、神经网络处理器NPU、异构/可重构处理器。

优选方式，所述卷积层、池化层为特征提取，所述全连接层为分类识别，激活函数ReLU为正则损失。

附图说明

图1为人工智能CNN、LSTM神经网络语音识别系统结构框图：100、麦克风；200、服务器；300、卷积神经网络；400、长短时记忆神经网络；500、人工智能预警操作系统；600、云计算；700、与云数据库人脸黑名单对比分析；800、确定目标人物身份；900、本地数据库。

图2为卷积神经网络结构示意图：输入层、卷积层C1、卷积层C2、最大值池化层S3、卷积层C4、卷积层C5、平均值池化层S6、Dropout层。

图3为长短时记忆神经网络结构示意图。

图4为卷积神经网络、长短时记忆神经网络衔接示意图。

具体实施方式

下面结合说明书附图对本发明的技术方案进行清楚、完整地描述具体实施方式。

本发明提供一种人工智能CNN、LSTM神经网络语音识别系统，如图1所示，麦克风(100)用于采集语音信号的音频流，并自动在语音中检测和跟踪目标，进而对检测到的语音进行一系列与语音相关的技术处理，包括语音检测、频谱特征单帧提取、语音验证，并通过网络将频谱单帧序列发送至服务器(200)，所述网络包括局域网、Interne或无线网络。所述网络用于麦克风向服务器发送频谱单帧序列，整体系统结构如图1所示。

服务器(200)包括高性能中央处理器CPU、图像处理器GPU、可编程逻辑门阵列FPGA、神经网络处理器NPU、异构/可重构处理器、卷积神经网络模块(300)、长短时记忆神经网络(400)、人工智能预警操作系统(500)、云计算(600)模块、与云数据库语音黑名单对比分析(700)模块、确定目标人物身份(800)模块、本地数据库模块(900)，所述服务器(200)用于为网络系统中客户端提供各种高性能计算的服务，服务器在人工智能预警操作系统的控制下，将与其相连的网络视频服务器、程控交换机、AI云计算服务器、AI数据库服务器、GPU云服务器、Web服务器、通讯服务器、显示器、混合矩阵、路由器、调制解调器相连接，为远程监控客户端提供集中计算、信息发布及数据管理的服务；所述GPU处理器用于通过网络接收麦克风发送的频谱单帧序列，并根据语音识别的方法对该序列进行处理，以判断该语音序列中人物的身份，处理内容包括语音检测、语音识别、语音属性及情感分析，所述语音检测用于在音频流中出现语音时，可以自动检测到语音，然后对语音进行单帧处理并以元数据的方式上传，在麦克风的web页面中，当同一段语音在画面中持续出现时，麦克风会根据要求分帧获取一张质量最好的小图以元数据的方式上传，所述语音识别用于在监测范围中出现语音时，可以自动检测到语音，然后将检测到的语音与黑名单中语音进行比对，当相似度大于设定的阀值时启动报警程序。所述情感分析用于对语音进行语义识别，当语音在满足一定的要求时，识别内容包括关键词识别、连续语音识别、语法分析、语义分析、情感分析识别，通过元数据上传到平台，通过SDK对接方式在web上直观查看；

所述神经网络处理器NPU用于完成卷积神经网络、长短时记忆神经网络的运算过程；

所述异构/可重构处理器用于CPU、GPU、NPU之间协同计算，彼此加速，一起同步工作。

卷积神经网络模块(300)包括输入层、卷积层C1、卷积层C2、最大值池化层S3、卷积层C4、卷积层C5、平均值池化层S6、Dropout层，首先将预处理后的语音单帧序列输入卷积神经网络进行训练，更新卷积神经网络各层权值，对卷积神经网络卷积层C1进行初始化操作，首先对卷积层和Dropout的卷积核和权重进行高斯分布随机初始化，均值设为0，方差设为1，对偏置进行全0初始化，再对卷积神经网络进行训练，步骤如下：

a)输入层：将所有语音信号进行预处理，假设每条数据记录中包含有80个时间片(数据是以20Hz的采样频率进行记录的，每个时间间隔中就包含有4秒的加速度计数据)，在每个时间间隔内，存储加速度计的x轴、y轴和z轴的三个数据。这样就得到了一个80×3的矩阵。把数据平展成长度为240的向量后输入卷积神经网络中，网络的第一层再将其变形为原始的80×3的形状；

b)1D卷积层C1：假设卷积层C1定义卷积核大小为10的滤波器，卷积神经网络在卷积层C1中学习到一个单一的特征。然后定义100个滤波器，卷积神经网络的卷积层C1中训练得到100个不同的特性，卷积层C1的输出是一个71×100的矩阵，输出矩阵的每一列都包含一个滤波器的权值，在定义内核大小并考虑输入矩阵长度的情况下，每个过滤器将包含71个权重值；

c)1D卷积层C2：卷积层C1的输出结果将被输入到卷积层C2中，在这个网络层上再次定义100个不同的滤波器进行训练，按照与卷积层C1相同的逻辑，输出矩阵的大小为62×100；

d)最大值池化层S3：为了减少输出的复杂度和防止数据的过拟合，选择大小为3的池化层，这样输出矩阵的大小为20×100；

e)1D卷积层C4：池化层S3的输出结果将被输入到卷积层C4中，在这个网络层上再次定义100个不同的滤波器进行训练，按照与卷积层C1相同的逻辑，输出矩阵的大小为11×160；

f)1D卷积层C5：卷积层C4的输出结果将被输入到卷积层C5中，在这个网络层上再次定义100个不同的滤波器进行训练，按照与卷积层C1相同的逻辑，输出矩阵的大小为2×160；

g)平均值池化层S6：为进一步避免过拟合的发生，这次的池化取神经网络中两个权重的平均值，输出矩阵的大小为1×160，每个特征检测器在神经网络的这一层中只剩下一个权重；

h)Dropout层：Dropout层会随机地为网络中的神经元赋值零权重，由于选择了0.5的比率，则50％的神经元将会是零权重，通过这种操作，网络对数据的微小变化的响应就不那么敏感了，因此，它能够进一步提高对不可见数据处理的准确性，Dropout层的输出仍然是一个1×160的矩阵，再将长度为160的向量输出值输入到长短时记忆神经网络(400)进行情感分析运算；

k)将卷积神经网络进行权值初始化，输入数据，重复步骤(a)～(h)，前向传播得到输出值，求出卷积神经网络的输出值与目标值之间的误差，当误差大于期望值时，将误差传回卷积神经网络中，用BP反向传播算法进行监督训练，求出结果与期望值的误差，再将误差一层一层的返回，计算出每一层的误差，进行权值更新，依次为Dropout层、平均值池化层S6、卷积层C5、卷积层C4、最大值池化层S3、卷积层C2、卷积层C1的误差，以求得卷积神经网络的总误差，再将误差传入卷积神经网络中，求得该各层对于总的误差应该承担多少比重，在训练卷积神经网络时，通过不断改变卷积神经网络中所有参数，使损失函数不断减小，当误差等于或小于期望值时，证明已训练出高精度的卷积神经网络模型，结束训练；

l)采集预处理后的语音频谱序列中任意一张语音频谱进行测试，通过步骤(a)～(h)得到分类结果标签向量，最大值元素所在标号表示该语音频谱为本次测试语音频谱的类别标签，实现语音识别。

X{x¹，x²，...，x^N}

时间序列模型为：

将卷积神经网络Dropout层长度为160的向量序列的输出值输入到长短时记忆神经网络运算得到一个输出，输出向量经过softmax函数进行转换，输出情感分类标签向量，看是消极情感还是积极情感；

对长短时记忆神经网络进行前向训练，步骤如下所示：

a)遗忘门的计算，公式如下所示：式1

f_t＝σ(w_f·[h_t-1，x_t]+b_f)

式1中w_f表示遗忘门的权重矩阵，[h_t-1，x_t]表示把两个向量连接成一个更长的向量，b_f表示遗忘门的偏置项，σ表示sigmoid函数，如果输入的维度式d_x，隐藏层的维度是d_h，单元状态的维度是d_c(通常d_c＝d_n)，则遗忘门的权重矩阵w_f维度是d_c×(d_h+d_x)，事实上，权重矩阵w_f都是由两个矩阵拼接而成的，一个是w_fh，它对应着输入项h_t-1，其维度为d_c×d_h，

一个是w_fx，它对应着输入项x_t，其维度为d_c×d_x，w_f可以写为，公式如下所示：

b)输入门的计算，公式如下所示：

i_t＝σ(w_i·[h_t-1，x_t]+b_i) 式2

式2中w_i表示输入门的权重矩阵，b_i表示输入门的偏置项，下面计算用于描述当前输入的单元状态

它是根据上一次的输出和本次输入来计算的，公式如下所示：

计算当前时刻的单元状态c_t，它是由上一次的单元状态c_t-1按元素乘以遗忘门f_t，再用当前输入的单元状态

按元素乘以输入门i_t，再将两个积加和产生的，公式如下所示：

符号ο表示按元素乘，这样就把LSTM关于当前的记忆

和长期的记忆c_t-1组合在一起，形成了新的单元状态c_t，由于遗忘门的控制，它可以保存很久之前的信息，由于输入门的控制，它又可以避免当前无关紧要的内容进入记忆；

c)输出门的计算，公式如下所示：

o_t＝σ(w_o·[h_t-1，x_t]+b_o) 式5

输出门它控制了长期记忆对当前输出的影响，LSTM最终的输出，是由输出门和单元状态共同确定的，公式如下所示：

d)对长短时记忆神经网络进行反向传播训练，LSTM反向传播计算每个神经元的误差项δ值，LSTM误差项的反向传播包括两个方向，一个是沿时间的反向传播，即从当前t时刻开始计算每个时刻的误差项，另一个是将误差项向上一层传播，步骤如下：

设定gate的激活函数为sigmoid函数，输出的激活函数为tanh函数，它们的导数分别为，公式如下所示：

σ′(z)＝y(1-y)

tanh′(z)＝1-y²

上式中sigmoid和tanh函数的导数都是原函数的函数，一旦计算原函数，就可以用它来计算出导数的值，LSTM需要学习的参数共有8组，分别是遗忘门的权重矩阵w_f和偏置项b_f、输入门的权重矩阵w_i和偏置项b_i、输出门的权重矩阵w_o和偏置项b_o、以及计算单元状态的权重矩阵w_c和偏置项b_c，权重矩阵的两部分在反向传播中使用不同的公式，在后续的推导中权重矩阵w_f、w_i、w_o、w_c都将被写为分开的两个矩阵：w_fh、w_fx、w_ih、w_ix、w_oh、w_ox、w_ch、w_cx；

e)按元素乘ο符号，当ο作用于两个向量时，运算公式如下所示：

当ο作用于一个向量和一个矩阵时，运算公式如下所示：

当ο作用于两个矩阵时，两个矩阵对应位置的元素相乘，公式如下所示：

当一个行向量右乘一个对角矩阵时，相当于这个行向量按元素乘矩阵对角线组成的向量，公式如下所示：

在t时刻，LSTM的输出值为h_t，定义t时刻的误差项δ_t为，公式如下所示：

假设误差项是损失函数对输出值的导数，需要定义四个加权输入对应的误差项，公式如下所示：

net_f，t＝w_f{h_t-1，x_t]+b_f

＝w_fhh_t-1+w_fxx_t+b_f

net_i，t＝w_i[h_t-1，x_t]+b_i

＝w_ihh_t-1+w_ixx_t+b_i

net_o，t＝w_o[h_t-1，x_t]+b_o

＝w_ohh_t-1+w_oxx_t+b_o

f)沿时间反向传递误差项，计算出t-1时刻的误差项δ_t-1，公式如下所示：

利用全导数公式得出式七，公式如下所示：

求式七中每个偏导数，公式如下所示：

根据式六求出：

根据式四求出：

因如下运算：

o_t＝σ(net_o，t)

net_o，t＝w_ohh_t-1+w_oxx_t+b_o

f_t＝σ(net_f，t)

net_f，t＝w_fhh_t-1+w_fxx_t+b_f

i_t＝σ(net_i，t)

net_i，t＝w_ihh_t-1+w_ixx_t+b_i

所得出偏导数，公式如下所示：

将上述偏导数带入到式七中得到式八，公式如下所示：

根据δ_o，t、δ_f，t、δ_i，t、

的定义，得到式九、式十、式十一、式十二，公式如下所示：

从式八到式十二是误差项沿时间反向传播的时刻公式，根据式八到式十二求得误差项向前传递到任意k时刻的十三公式，公式如下所示：

g)将误差项传递到上一层，假设当前为第I层，定义I-1层的误差项是误差函数对I-1层加权输入的导数，公式如下所示：

LSTM的输入x_t，公式如下所示：

上式中，f^l-1表示第I-1层的激活函数，求E对

的导数，用全导数公式将误差传递到上一层，公式如下所示：公式十四

h)权重梯度的计算，w_fh、w_ih、w_ch、w_oh的权重梯度是各个时刻梯度之和，首先求出它们在t时刻的梯度，公式如下所示：

将各个时刻的梯度加在一起，得到最终的梯度，公式如下所示：

求b_f、b_i、b_c、b_o各个时刻的偏置项梯度，公式如下所示：

将各个时刻的偏置项梯度加在一起，公式如下所示：

根据误差项，求w_fx、w_ix、w_cx、w_ox的权重梯度，公式如下所示：

i)将长短时记忆神经网络每个输出值进行均值池化，输出向量经过softmax函数进行转换，输出情感分类标签向量，最大值元素所在标号表示该频谱属于该类别标签的语音，看是消极情感还是积极情感；

j)最后使用交叉熵误差函数作为优化目标对模型进行优化，公式如下所示：

上式中，N是训练样本的个数，向量y_n是样本的标记，向量o_n是网络的输出，标记y_n是一个one-hot向量；

k)跳转到第(a)步，输入数据，重复步骤(a)～(j)，直至网络误差小于给定值，证明已训练出高精度的长短时记忆神经网络模型，结束训练；

l)采集预处理后的语音频谱序列中任意一张语音频谱进行测试，通过步骤(a)～(i)得到情感分类结果标签向量，最大值元素所在标号表示该语音频谱为本次测试语音频谱的情感类别标签，实现语音识别。

Claims

1.人工智能CNN、LSTM神经网络语音识别系统，其特征在于：包括：麦克风(100)、服务器(200)、卷积神经网络(300)、长短时记忆神经网络(400)、人工智能预警操作系统(500)、云计算(600)、与云数据库语音黑名单对比分析(700)、确定目标人物身份(800)、本地数据库模块(900)；

所述麦克风(100)用于采集到的声音信号转换为电信号，由音频电路模块接收再转换为音频数据，再将音频数据进行分帧、加窗、降噪处理，生成短时单帧信号，进而对短时单帧信号进行一系列与语音相关的技术处理，包括关键词识别、连续语音识别、语法分析、语义分析、情感分析识别；在麦克风的web页面中，当同一段语音在画面中持续出现时，麦克风会根据要求分帧获取一张质量最好的小图以元数据的方式上传；

所述本地数据库模块(900)用于存储本级人工智能预警操作系统所生成的预警信息，用于存储向上一级人工智能预警操作系统发送的信息及反馈信息，用于存储向云计算发送的信息及反馈信息；

所述卷积神经网络(300)包括输入层、卷积层C1、卷积层C2、最大值池化层S3、卷积层C4、卷积层C5、平均值池化层S6、Dropout层、输入长短时记忆神经网络，先创建一套处理数据的脚本：

第一，文字分词中文按照jieba原理分词，英语分词按照空格分词，第二，建立一个包含所有词的词典，每个词在词典里面对应一个的编号，任意一个词都可以用一个N维的向量来表示，N是词典中包含的词的个数，假设一个词在词典中的编号是i，v是表示这个词的向量，vj是向量的第j个元素，第三，把段落按字典翻译成数字，变成一个array(数组)，再将音频信号进行分帧、加窗、降噪处理，生成短时单帧信号，进而对短时单帧信号进行反傅里叶变换得到时域数据，并去除直流分量，求时域数据的功率谱，采用sinc函数低通滤波器，获取该帧的频谱包络，将得到的频谱包络特征序列输入卷积神经网络进行训练，更新卷积神经网络各层权值，对卷积神经网络卷积层C1进行初始化操作，对卷积层和Dropout层的卷积核和权重进行高斯分布随机初始化，均值设为0，方差设为0.001，对偏置进行全0初始化，再对卷积神经网络进行训练，步骤如下：

a)输入层：将所有语音信号进行预处理，假设每条数据记录中包含有80个时间片(数据是以20Hz的采样频率进行记录的，每个时间间隔中就包含有4秒的加速度计数据)，在每个时间间隔内，存储加速度计的x轴、y轴和z轴的三个数据；这样就得到了一个80×3的矩阵；

把数据平展成长度为240的向量后输入卷积神经网络中，网络的第一层再将其变形为原始的80×3的形状；

b)1D卷积层C1：假设卷积层C1定义卷积核大小为10的滤波器，卷积神经网络在卷积层C1中学习到一个单一的特征；然后定义100个滤波器，卷积神经网络的卷积层C1中训练得到100个不同的特性，卷积层C1的输出是一个71×100的矩阵，输出矩阵的每一列都包含一个滤波器的权值，在定义内核大小并考虑输入矩阵长度的情况下，每个过滤器将包含71个权重值；

k)将卷积神经网络进行权值初始化，输入数据，重复步骤(a)～(h)，前向传播得到输出值，求出卷积神经网络的输出值与目标值之间的误差，当误差大于期望值时，将误差传回卷积神经网络中，用BP反向传播算法进行监督训练，求出结果与期望值的误差，再将误差一层一层的返回，计算出每一层的误差，进行权值更新，依次为Dropout层、平均值池化层S6、卷积层C5、卷积层C4、最大值池化层S3、卷积层C2、卷积层C1的误差，以求得卷积神经网络的总误差，再将误差传入卷积神经网络中，求得各层对于总的误差应该承担的比重，在训练卷积神经网络时，通过不断改变卷积神经网络中所有参数，使损失函数不断减小，当误差等于或小于期望值时，证明已训练出高精度的卷积神经网络模型，结束训练；

l)采集预处理后的语音频谱序列中任意一张语音频谱进行测试，通过步骤(a)～(h)得到分类结果标签向量，最大值元素所在标号表示该语音频谱为本次测试语音频谱的类别标签，实现语音识别；

所述长短时记忆神经网络(400)LSTM记忆单元包括遗忘门、输入门、输出门，LSTM用两个门来控制单元状态c的内容，一个是遗忘门，它决定了上一时刻的单元状态c_t，t-1有多少保留到当前时刻c_t，t-1时刻的输入h_t-1和x_t经过一个线性变换+sigmoid激活以后输出f_t，f_t再与c_t-1进行相乘得到一个中间结果，另一个是输入门，它决定了当前时刻网络的输入x_t有多少保存到单元状态c_t，t-1时刻的输入h_t-1和x_t经过另外一个线性变换+sigmoid激活以后输出l_t，同时h_t-1和x_t经过另一个线性变换+tanh激活以后，与l_t相乘得到一个中间结果，这个中间结果和上一步的中间结果相加得到c_t，LSTM用输出门来控制单元状态c_t有多少输出到LSTM的当前输出值h_t，t-1时刻的输入h_t-1和x_t经过另外一个线性变换+sigmoid激活以后输出o_t，o_t与经过tanh的c_t相乘得到h_t，这里c、x、h都是向量，LSTM记忆单元时间序列数据包括语言模型、手写体识别、序列生成、机器翻译、语音分析、视频分析，这里的序列指的是时间向量序列，假设时间序列为：

X{x¹，x²，...x^N}

时间序列模型为：

对长短时记忆神经网络进行前向训练，步骤如下所示：

1)遗忘门的计算，公式如下所示：式1

f_t＝σ(w_f·[h_t-1，x_t]+b_f)

式1中w_f表示遗忘门的权重矩阵，[h_t-1，x_t]表示把两个向量连接成一个更长的向量，b_f表示遗忘门的偏置项，σ表示sigmoid函数，如果输入的维度式d_x，隐藏层的维度是d_h，单元状态的维度是d_c(通常d_c＝d_n)，则遗忘门的权重矩阵w_f维度是d_c×(d_h+d_x)，事实上，权重矩阵w_f都是由两个矩阵拼接而成的，一个是w_fh，它对应着输入项h_t-1，其维度为d_c×d_h，一个是w_fx，它对应着输入项x_t，其维度为d_c×d_x，w_f可以写为，公式如下所示：

2)输入门的计算，公式如下所示：

i_t＝σ(w_i·[h_t-1，x_t]+b_i) 式2

符号ο表示按元素乘，这样就把LSTM关于当前的记忆

3)输出门的计算，公式如下所示：

o_t＝σ(w_o·[h_t-1，x_t]+b_o) 式5

4)对长短时记忆神经网络进行反向传播训练，LSTM反向传播计算每个神经元的误差项δ值，LSTM误差项的反向传播包括两个方向，一个是沿时间的反向传播，即从当前t时刻开始计算每个时刻的误差项，另一个是将误差项向上一层传播，步骤如下：

σ′(z)＝y(1-y)

tanh′(z)＝1-y²

上式中sigmoid和tanh函数的导数都是原函数的函数，一旦计算原函数，就可以用它来计算出导数的值，LSTM需要学习的参数共有8组，分别是遗忘门的权重矩阵w_f和偏置项b_f、输入门的权重矩阵w_i和偏置项b_i、输出门的权重矩阵w_o和偏置项b_o、以及计算单元状态的权重矩阵w_c和偏置项b_c，权重矩阵的两部分在反向传播中使用不同的公式，在后续的推导中权重矩阵w_f、w_t、w_o、w_c都将被写为分开的两个矩阵：w_fh、w_fx、w_ih、w_ix、w_oh、w_ox、w_ch、w_cx；

5)按元素乘ο符号，当ο作用于两个向量时，运算公式如下所示：

当ο作用于一个向量和一个矩阵时，运算公式如下所示：

net_f，t＝w_f[h_t-1，x_t]+b_f

＝w_fhh_t-1+w_fxx_t+b_f

net_i，t＝w_i[h_t-1，x_t]+b_i

＝w_ihh_t-1+w_ixx_t+b_i

net_o，t＝w_o[h_t-1，x_t]+b_o

＝w_ohh_t-1+w_oxx_t+b_o

6)沿时间反向传递误差项，计算出t-1时刻的误差项δ_t-1，公式如下所示：

利用全导数公式得出式七，公式如下所示：

求式七中每个偏导数，公式如下所示：

根据式六求出：

根据式四求出：

因如下运算：

o_t＝σ(net_o，t)

net_o，t＝w_ohh_t-1+w_oxx_t+b_of_t＝σ(net_f，t)

net_f，t＝w_fhh_t-1+w_fxx_t+b_f

i_t＝σ(net_i，t)

net_i，t＝w_ihh_t-1+w_ixx_t+b_i

所得出偏导数，公式如下所示：

将上述偏导数带入到式七中得到式八，公式如下所示：

根据δ_o，t、δ_f，t、δ_t，t、

7)将误差项传递到上一层，假设当前为第I层，定义I-1层的误差项是误差函数对I-1层加权输入的导数，公式如下所示：

LSTM的输入x_t，公式如下所示：

上式中，f^I-1表示第I-1层的激活函数，求E对

8)权重梯度的计算，w_fh、w_ih、w_ch、w_oh的权重梯度是各个时刻梯度之和，首先求出它们在t时刻的梯度，公式如下所示：

求b_f、b_i、b_c、b_o各个时刻的偏置项梯度，公式如下所示：

将各个时刻的偏置项梯度加在一起，公式如下所示：

9)将长短时记忆神经网络每个输出值进行均值池化，输出向量经过softmax函数进行转换，输出情感分类标签向量，最大值元素所在标号表示该频谱属于该类别标签的语音，看是消极情感还是积极情感；

10)最后使用交叉熵误差函数作为优化目标对模型进行优化，公式如下所示：

11)跳转到第1)步，输入数据，重复步骤1)～10)，直至网络误差小于给定值，证明已训练出高精度的长短时记忆神经网络模型，结束训练；

12)采集预处理后的语音频谱序列中任意一张语音频谱进行测试，通过步骤1)～10)得到情感分类结果标签向量，最大值元素所在标号表示该语音频谱为本次测试语音频谱的情感类别标签，实现语音识别。

2.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统，其特征在于：所述服务器(200)包括高性能中央处理器CPU、图像处理器GPU、可编程逻辑门阵列FPGA、神经网络处理器NPU、异构/可重构处理器、卷积神经网络(300)、长短时记忆神经网络(400)、人工智能预警操作系统(500)、云计算(600)模块、与云数据库人脸黑名单对比分析(700)模块、确定目标人物身份(800)模块、本地数据库模块(900)，所述服务器(200)用于为网络系统中客户端提供各种高性能计算的服务，服务器在人工智能预警操作系统的控制下，将与其相连的网络视频服务器、程控交换机、AI云计算服务器、AI数据库服务器、GPU云处理器、NPU神经网络云处理器、异构/可重构云处理器、Web服务器、通讯服务器、显示器、混合矩阵、路由器、调制解调器相连接，为远程监控客户端提供集中计算、信息发布及数据管理的服务。

3.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统，其特征在于：所述人工智能预警操作系统(500)基于Linux操作系统架构的基础上开发的AI人工智能预警操作系统，该系统包括类脑神经网络系统、多维人机物协同互操作系统、公共安全智能化监测预警与防控系统、自主无人伺服系统、天地一体化信息网络平台系统，用于管理和控制计算机硬件、软件及数据资源的计算机运行程序，用于各级人工智能预警系统与互联网+分布式预警警亭沟通的接口，用于云计算、云存储、云数据库和人工智能预警系统、互联网+分布式预警警亭及其他软件沟通的接口，用于多维人机物协同互操作系统与移动设备和智能电视的通讯接口，用于人机界面为其它应用软件提供支持，包括类脑神经网络系统、多维人机物协同互操作系统、公共安全智能化监测预警与防控系统、自主无人伺服系统、天地一体化网络信息平台系统、智能物联与风险因素数据采集系统、风险因素管理系统，人工智能预警操作系统(500)子系统包括语音识别系统、机器视觉系统、执行器系统、认知行为系统，文件系统、进程管理、进程间通讯、内存管理、网络通讯、安全机制、驱动程序、用户界面。

4.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统，其特征在于：所述

5.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统，其特征在于：所述与云数据库语音黑名单对比分析(700)模块，所述云数据库包括原始语音信息数据库、原始图像特征信息数据库、实时风险因素采集图像信息数据库、实时风险因素采集语音信息数据库、风险因素识别数据库、风险因素推理数据库、风险因素评估数据库、风险因素应对数据库、风险因素管理评价数据库、实时判断依据数据库、判断规则数据库和事故实例数据库，所述云数据库用于云计算(600)系统的集群应用，将分布式系统文件通过应用软件集合起来协同工作，为用户提供数据存储和业务访问的工作，通过设置在线数据存储模块，存储模块内储存有人脸图像黑名单、动态特征信息黑名单、生物特征信息黑名单和语音信息黑名单，将采集的人脸图像、动态特征信息、生物特征信息和语音信息与存储模块内的人脸图像黑名单、动态特征信息黑名单、生物特征信息黑名单和语音信息黑名单进行对比，如果相似度达到预设的预警值，则预警系统及时将该信息生成预警提示信息进行风险因素的推理、评估、生成预警级别报警信息、反馈给上一级预警系统进行风险管理评价。

6.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统，其特征在于：所述确定目标人物身份(800)模块用于处理与云数据库语音黑名单对比分析(700)生成的预警提示信息、预警值评估、生成预警级别报警信息、生成预警信号反馈给上一级预警系统的信息，并根据云计算(600)通过与云数据库语音黑名单对比分析(700)传送的数据进行实时信息更新，用于存储所述人工智能预警系统(500)对云数据库信息查阅所生成的信息数据。