CN110738984B - 人工智能cnn、lstm神经网络语音识别系统 - Google Patents
人工智能cnn、lstm神经网络语音识别系统 Download PDFInfo
- Publication number
- CN110738984B CN110738984B CN201910400538.4A CN201910400538A CN110738984B CN 110738984 B CN110738984 B CN 110738984B CN 201910400538 A CN201910400538 A CN 201910400538A CN 110738984 B CN110738984 B CN 110738984B
- Authority
- CN
- China
- Prior art keywords
- neural network
- layer
- time
- formula
- early warning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 71
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 66
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 41
- 230000015654 memory Effects 0.000 claims abstract description 37
- 238000004458 analytical method Methods 0.000 claims abstract description 30
- 230000008451 emotion Effects 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000012544 monitoring process Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 6
- 230000009467 reduction Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 57
- 239000011159 matrix material Substances 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 40
- 238000001228 spectrum Methods 0.000 claims description 34
- 238000011176 pooling Methods 0.000 claims description 25
- 210000004027 cell Anatomy 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 22
- 238000007726 management method Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013500 data storage Methods 0.000 claims description 8
- 230000007787 long-term memory Effects 0.000 claims description 7
- 230000002265 prevention Effects 0.000 claims description 7
- IOYNQIMAUDJVEI-BMVIKAAMSA-N Tepraloxydim Chemical group C1C(=O)C(C(=N/OC\C=C\Cl)/CC)=C(O)CC1C1CCOCC1 IOYNQIMAUDJVEI-BMVIKAAMSA-N 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 claims description 3
- 230000001149 cognitive effect Effects 0.000 claims description 3
- 238000013523 data management Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 230000009191 jumping Effects 0.000 claims description 2
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000000644 propagated effect Effects 0.000 claims description 2
- 230000001902 propagating effect Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000013515 script Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种人工智能CNN、LSTM神经网络语音识别系统,包括麦克风(100)、服务器(200)、卷积神经网络(300)、长短时记忆神经网络(400)、人工智能预警操作系统(500)、云计算(600)、与云数据库语音黑名单对比分析(700)、确定目标人物身份(800)、本地数据库模块(900)。本发明通过人工智能CNN、LSTM神经网络语音识别系统用麦克风采集的音频流进行分帧、加窗、降噪处理,生成短时单帧信号,进而对短时单帧信号进行一系列与语音相关的技术处理,包括关键词识别、连续语音识别、语法分析、情感分析识别;实现麦克风周边监测范围内全天候24小时不间断监控,用户可实现信息共享,提高信息资源利用率,为维护社会治安稳定加大安全保障。
Description
技术领域
本发明涉及智能安防预警领域,具体涉及一种用于安防维稳的人工智能CNN、LSTM神经网络语音识别系统。
背景技术
人工智能CNN、LSTM神经网络语音识别系统是将先进的麦克风技术、中央处理器CPU、图像处理器GPU、神经网络处理器NPU、异构/可重构处理器技术、卷积神经网络技术、长短时记忆神经网络技术、AI计算机预警处理技术、AI人工智能预警操作技术、风险因素采集技术、风险因素识别技术、大数据分析技术、云计算技术、云存储技术、云数据库技术等有效的集成应用于整个人工智能CNN、LSTM神经网络语音识别系统,而建立的一种在大范围、全方位发挥作用的,实时、准确、高效的综合智能预警系统。
随着祖国西部边疆维稳的措施常态化,使边疆长期保持一个稳定的局面,保证经济能够实现快速发展,人工智能CNN、LSTM神经网络语音识别系统为从根本上解决影响长治久安的深层次问题打下良好基础。
发明内容
本发明是为了克服现有安防系统中存在语音不自动识别、监控措施有漏洞、防范不及时等问题,提出一种人工智能CNN、LSTM神经网络语音识别系统,通过麦克风对风险因素源头进行布控,实时采集风险源因素的语音信息,进行语音检测、语音目标跟踪、音频信号预处理、频谱特征提取、语音匹配与识别,把提取的语音特征数据与数据库中存储的语音特征模板进行搜索对比,根据相似程度,对身份信息进行判断,设定一个阈值,当相似度超过这一阈值,则把匹配得到的结果输出。一类是确认,是一对一(1∶1)进行频谱比较,另一类是辨认,是一对多(1∶N)进行语音匹配,也就是说在N个人中找到风险因素目标,一般的N可以是一个音频流,只要人走进识别范围就完成识别工作。
为实现上述使用人工智能CNN、LSTM神经网络语音识别系统对风险因素源头进行语音识别信息的采集、语音检测、语音目标跟踪、音频信号预处理、频谱特征提取、语音匹配与识别,再进行分级预警的目的,本发明提供如下技术方案:一种人工智能CNN、LSTM神经网络语音识别系统,包括麦克风100、服务器200、卷积神经网络300、长短时记忆神经网络400、人工智能预警操作系统500、云计算600、与云数据库语音黑名单对比分析700、确定目标人物800、本地数据库模块900,本发明通过人工智能CNN、LSTM神经网络语音识别系统对风险因素进行采集、对比分析、存储、分级报警、应对防控,实现对麦克风周边布控点进行全天候24小时监控,用户可实现信息共享,提高信息资源利用率,为维护边疆稳定加大安全保障。
本发明提供一种人工智能CNN、LSTM神经网络语音识别系统包括,麦克风(100)用于采集含有语音的音频流,并自动在语音识别过程中检测和跟踪语音,进而对检测到的语音进行一系列与语音相关的技术处理,包括语音检测、频谱特征提取、语音验证,然后将语音信号序列发送至服务器(200)。
语音信号采用网络传输:包括局域网、Interne或无线网络。所述网络传输用于麦克风向服务器发送语音信号序列。
服务器(200)包括高性能中央处理器CPU、图像处理器GPU、可编程逻辑门阵列FPGA、神经网络处理器NPU、异构/可重构处理器、卷积神经网络模块(300)、长短时记忆神经网络(400)、人工智能预警操作系统(500)、云计算(600)模块、与云数据库语音黑名单对比分析(700)模块、确定目标人物身份(800)模块、本地数据库模块(900),所述服务器(200)用于为网络系统中客户端提供各种高性能计算的服务,服务器在人工智能预警操作系统的控制下,将与其相连的网络视频服务器、程控交换机、AI云计算服务器、AI数据库服务器、GPU云服务器、Web服务器、通讯服务器、显示器、混合矩阵、路由器、调制解调器相连接,为远程监控客户端提供集中计算、信息发布及数据管理的服务。
卷积神经网络模块(300)包括输入层、卷积层C1、卷积层C2、最大值池化层S3、卷积层C4、卷积层C5、平均值池化层S6、Dropout层,输入长短时记忆神经网络,先创建一套处理数据的脚本:第一,文字分词中文按照jieba原理分词,英语分词按照空格分词,第二,建立一个包含所有词的词典,每个词在词典里面对应一个的编号,任意一个词都可以用一个N维的向量来表示,N是词典中包含的词的个数,假设一个词在词典中的编号是i,v是表示这个词的向量,vj是向量的第j个元素,第三,把段落按字典翻译成数字,变成一个array(数组),再将音频信号进行分帧、加窗、降噪处理,生成短时单帧信号,进而对短时单帧信号进行反傅里叶变换得到时域数据,并去除直流分量,求时域数据的功率谱,采用sinc函数低通滤波器,获取该帧的频谱包络,将得到的频谱包络特征序列输入卷积神经网络进行训练,更新卷积神经网络各层权值,对卷积神经网络卷积层C1进行初始化操作,对卷积层和Dropout的卷积核和权重进行高斯分布随机初始化,均值设为0,方差设为0.001,对偏置进行全0初始化,再对卷积神经网络进行训练。
长短时记忆神经网络(400)LSTM记忆单元包括遗忘门、输入门、输出门,LSTM用两个门来控制单元状态c的内容,一个是遗忘门,它决定了上一时刻的单元状态ct-1有多少保留到当前时刻ct,t-1时刻的输入ht-1和xt经过一个线性变换+sigmoid激活以后输出ft,ft再与ct-1进行相乘得到一个中间结果,另一个是输入门,它决定了当前时刻网络的输入xt有多少保存到单元状态ct,t-1时刻的输入ht-1和xt经过另外一个线性变换+sigmoid激活以后输出lt,同时ht-1和xt经过另一个线性变换+tanh激活以后,与lt相乘得到一个中间结果,这个中间结果和上一步的中间结果相加得到ct,所谓输出门,LSTM用输出门来控制单元状态ct有多少输出到LSTM的当前输出值ht,t-1时刻的输入ht-1和xt经过另外一个线性变换+sigmoid激活以后输出ot,ot与经过tanh的ct相乘得到ht,这里c、x、h都是向量,LSTM记忆单元时间序列数据包括语言模型、手写体识别、序列生成、机器翻译、语音分析、视频分析,这里的序列指的是时间向量序列,假设时间序列为:
X{x1,x2,...,xN}
时间序列模型为:
将卷积神经网络Dropout层长度为160的向量序列的输出值输入到长短时记忆神经网络运算得到一个输出,输出向量经过softmax函数进行转换,输出情感分类标签向量,看是消极情感还是积极情感。
人工智能预警操作系统(500)基于Linux操作系统架构的基础上开发的AI人工智能预警操作系统,该系统包括类脑神经网络系统、多维人机物协同互操作系统、公共安全智能化监测预警与防控系统、自主无人伺服系统、天地一体化信息网络平台系统,用于管理和控制计算机硬件、软件及数据资源的计算机运行程序,用于各级人工智能预警系统与互联网+分布式预警警亭沟通的接口,用于云计算、云存储、云数据库和人工智能预警系统、互联网+分布式预警警亭及其他软件沟通的接口,用于多维人机物协同互操作系统与移动设备和智能电视的通讯接口,用于人机界面为其它应用软件提供支持,包括类脑神经网络系统、多维人机物协同互操作系统、公共安全智能化监测预警与防控系统、自主无人伺服系统、天地一体化网络信息平台系统、智能物联与风险因素数据采集系统、风险因素管理系统,人工智能预警操作系统(500)子系统包括语音识别系统、机器视觉系统、执行器系统、认知行为系统,文件系统、进程管理、进程间通讯、内存管理、网络通讯、安全机制、驱动程序、用户界面。
云计算(600)基于开源Hadoop架构进行设计,利用集群优势进行高速运算和存储,云计算(600)包括基础设施即服务、平台即服务、软件即服务,用于计算分布式计算机上的风险因素识别模块、风险因素推理模块、风险因素评估模块、通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻与海量的数据信息进行对比分析,分级推理、预警值评估,之后再将处理结果回传给用户并进行云存储。
与云数据库语音黑名单对比分析(700)模块,所述云数据库包括原始语音信息数据库、原始图像特征信息数据库、实时风险因素采集图像信息数据库、实时风险因素采集语音信息数据库、风险因素识别数据库、风险因素推理数据库、风险因素评估数据库、风险因素应对数据库、风险因素管理评价数据库、实时判断依据数据库、判断规则数据库和事故实例数据库,所述云数据库用于云计算(600)系统的集群应用,将分布式系统文件通过应用软件集合起来协同工作,为用户提供数据存储和业务访问的工作,通过设置在线数据存储模块,存储模块内储存有人脸图像黑名单、动态特征信息黑名单、生物特征信息黑名单和语音信息黑名单,将采集的人脸图像、动态特征信息、生物特征信息和语音信息与存储模块内的人脸图像黑名单、动态特征信息黑名单、生物特征信息黑名单和语音信息黑名单进行对比,如果相似度达到预设的预警值,则预警系统及时将该信息生成预警提示信息进行风险因素的推理、评估、生成预警级别报警信息、反馈给上一级预警系统进行风险管理评价。
确定目标人物身份(800)模块用于处理与云数据库语音黑名单对比分析(700)生成的预警提示信息、预警值评估、生成预警级别报警信息、生成预警信号反馈给上一级预警系统的信息,并根据云计算(600)通过与云数据库语音黑名单对比分析(700)传送的数据进行实时信息更新,用于存储所述人工智能预警系统(500)对云数据库信息查阅所生成的信息数据。
本地数据库模块(900)用于存储本级人工智能预警操作系统所生成的预警信息,用于存储向上一级人工智能预警操作系统发送的信息及反馈信息,用于存储向云计算发送的信息及反馈信息。
优选方式,所述云数据库系统包括有语音识别黑名单。
优选方式,所述网络包括局域网、Internet或无线网络。
优选方式,所述卷积神经网络激活函数为ReLU激活函数。
优选方式,所述卷积神经网络损失函数为交叉熵损失函数。
优选方式,所述麦克风为AI麦克风。
优选方式,所述云计算是基于开源Hadoop架构进行设计。
优选方式,所述云数据库:通过在线数据存储模块,在线数据存储模块基于开源Hadoop架构进行设计。
优选方式,所述云数据库分为原始语音信息数据库、原始图像特征信息数据库、实时风险因素采集图像信息数据库、实时风险因素采集语音信息数据库、风险因素识别数据库、风险因素推理数据库、风险因素评估数据库、风险因素应对数据库、风险因素管理评价数据库、实时判断依据数据库、判断规则数据库和事故实例数据库。
优选方式,所述人工智能预警操作系统基于Linux操作系统架构的基础上开发的AI人工智能预警操作系统。
优选方式,所述语音特征信息包括采集的语音频谱信息。
优选方式,所述原始语音特征信息包括存储模块储存的语音黑名单。
优选方式,所述服务器700包括高性能中央处理器CPU、图像处理器GPU、可编程逻辑门阵列FPGA、神经网络处理器NPU、异构/可重构处理器。
优选方式,所述卷积层、池化层为特征提取,所述全连接层为分类识别,激活函数ReLU为正则损失。
附图说明
图1为人工智能CNN、LSTM神经网络语音识别系统结构框图:100、麦克风;200、服务器;300、卷积神经网络;400、长短时记忆神经网络;500、人工智能预警操作系统;600、云计算;700、与云数据库人脸黑名单对比分析;800、确定目标人物身份;900、本地数据库。
图2为卷积神经网络结构示意图:输入层、卷积层C1、卷积层C2、最大值池化层S3、卷积层C4、卷积层C5、平均值池化层S6、Dropout层。
图3为长短时记忆神经网络结构示意图。
图4为卷积神经网络、长短时记忆神经网络衔接示意图。
具体实施方式
下面结合说明书附图对本发明的技术方案进行清楚、完整地描述具体实施方式。
本发明提供一种人工智能CNN、LSTM神经网络语音识别系统,如图1所示,麦克风(100)用于采集语音信号的音频流,并自动在语音中检测和跟踪目标,进而对检测到的语音进行一系列与语音相关的技术处理,包括语音检测、频谱特征单帧提取、语音验证,并通过网络将频谱单帧序列发送至服务器(200),所述网络包括局域网、Interne或无线网络。所述网络用于麦克风向服务器发送频谱单帧序列,整体系统结构如图1所示。
服务器(200)包括高性能中央处理器CPU、图像处理器GPU、可编程逻辑门阵列FPGA、神经网络处理器NPU、异构/可重构处理器、卷积神经网络模块(300)、长短时记忆神经网络(400)、人工智能预警操作系统(500)、云计算(600)模块、与云数据库语音黑名单对比分析(700)模块、确定目标人物身份(800)模块、本地数据库模块(900),所述服务器(200)用于为网络系统中客户端提供各种高性能计算的服务,服务器在人工智能预警操作系统的控制下,将与其相连的网络视频服务器、程控交换机、AI云计算服务器、AI数据库服务器、GPU云服务器、Web服务器、通讯服务器、显示器、混合矩阵、路由器、调制解调器相连接,为远程监控客户端提供集中计算、信息发布及数据管理的服务;所述GPU处理器用于通过网络接收麦克风发送的频谱单帧序列,并根据语音识别的方法对该序列进行处理,以判断该语音序列中人物的身份,处理内容包括语音检测、语音识别、语音属性及情感分析,所述语音检测用于在音频流中出现语音时,可以自动检测到语音,然后对语音进行单帧处理并以元数据的方式上传,在麦克风的web页面中,当同一段语音在画面中持续出现时,麦克风会根据要求分帧获取一张质量最好的小图以元数据的方式上传,所述语音识别用于在监测范围中出现语音时,可以自动检测到语音,然后将检测到的语音与黑名单中语音进行比对,当相似度大于设定的阀值时启动报警程序。所述情感分析用于对语音进行语义识别,当语音在满足一定的要求时,识别内容包括关键词识别、连续语音识别、语法分析、语义分析、情感分析识别,通过元数据上传到平台,通过SDK对接方式在web上直观查看;
所述神经网络处理器NPU用于完成卷积神经网络、长短时记忆神经网络的运算过程;
所述异构/可重构处理器用于CPU、GPU、NPU之间协同计算,彼此加速,一起同步工作。
卷积神经网络模块(300)包括输入层、卷积层C1、卷积层C2、最大值池化层S3、卷积层C4、卷积层C5、平均值池化层S6、Dropout层,首先将预处理后的语音单帧序列输入卷积神经网络进行训练,更新卷积神经网络各层权值,对卷积神经网络卷积层C1进行初始化操作,首先对卷积层和Dropout的卷积核和权重进行高斯分布随机初始化,均值设为0,方差设为1,对偏置进行全0初始化,再对卷积神经网络进行训练,步骤如下:
a)输入层:将所有语音信号进行预处理,假设每条数据记录中包含有80个时间片(数据是以20Hz的采样频率进行记录的,每个时间间隔中就包含有4秒的加速度计数据),在每个时间间隔内,存储加速度计的x轴、y轴和z轴的三个数据。这样就得到了一个80×3的矩阵。把数据平展成长度为240的向量后输入卷积神经网络中,网络的第一层再将其变形为原始的80×3的形状;
b)1D卷积层C1:假设卷积层C1定义卷积核大小为10的滤波器,卷积神经网络在卷积层C1中学习到一个单一的特征。然后定义100个滤波器,卷积神经网络的卷积层C1中训练得到100个不同的特性,卷积层C1的输出是一个71×100的矩阵,输出矩阵的每一列都包含一个滤波器的权值,在定义内核大小并考虑输入矩阵长度的情况下,每个过滤器将包含71个权重值;
c)1D卷积层C2:卷积层C1的输出结果将被输入到卷积层C2中,在这个网络层上再次定义100个不同的滤波器进行训练,按照与卷积层C1相同的逻辑,输出矩阵的大小为62×100;
d)最大值池化层S3:为了减少输出的复杂度和防止数据的过拟合,选择大小为3的池化层,这样输出矩阵的大小为20×100;
e)1D卷积层C4:池化层S3的输出结果将被输入到卷积层C4中,在这个网络层上再次定义100个不同的滤波器进行训练,按照与卷积层C1相同的逻辑,输出矩阵的大小为11×160;
f)1D卷积层C5:卷积层C4的输出结果将被输入到卷积层C5中,在这个网络层上再次定义100个不同的滤波器进行训练,按照与卷积层C1相同的逻辑,输出矩阵的大小为2×160;
g)平均值池化层S6:为进一步避免过拟合的发生,这次的池化取神经网络中两个权重的平均值,输出矩阵的大小为1×160,每个特征检测器在神经网络的这一层中只剩下一个权重;
h)Dropout层:Dropout层会随机地为网络中的神经元赋值零权重,由于选择了0.5的比率,则50%的神经元将会是零权重,通过这种操作,网络对数据的微小变化的响应就不那么敏感了,因此,它能够进一步提高对不可见数据处理的准确性,Dropout层的输出仍然是一个1×160的矩阵,再将长度为160的向量输出值输入到长短时记忆神经网络(400)进行情感分析运算;
k)将卷积神经网络进行权值初始化,输入数据,重复步骤(a)~(h),前向传播得到输出值,求出卷积神经网络的输出值与目标值之间的误差,当误差大于期望值时,将误差传回卷积神经网络中,用BP反向传播算法进行监督训练,求出结果与期望值的误差,再将误差一层一层的返回,计算出每一层的误差,进行权值更新,依次为Dropout层、平均值池化层S6、卷积层C5、卷积层C4、最大值池化层S3、卷积层C2、卷积层C1的误差,以求得卷积神经网络的总误差,再将误差传入卷积神经网络中,求得该各层对于总的误差应该承担多少比重,在训练卷积神经网络时,通过不断改变卷积神经网络中所有参数,使损失函数不断减小,当误差等于或小于期望值时,证明已训练出高精度的卷积神经网络模型,结束训练;
l)采集预处理后的语音频谱序列中任意一张语音频谱进行测试,通过步骤(a)~(h)得到分类结果标签向量,最大值元素所在标号表示该语音频谱为本次测试语音频谱的类别标签,实现语音识别。
长短时记忆神经网络(400)LSTM记忆单元包括遗忘门、输入门、输出门,LSTM用两个门来控制单元状态c的内容,一个是遗忘门,它决定了上一时刻的单元状态ct-1有多少保留到当前时刻ct,t-1时刻的输入ht-1和xt经过一个线性变换+sigmoid激活以后输出ft,ft再与ct-1进行相乘得到一个中间结果,另一个是输入门,它决定了当前时刻网络的输入xt有多少保存到单元状态ct,t-1时刻的输入ht-1和xt经过另外一个线性变换+sigmoid激活以后输出lt,同时ht-1和xt经过另一个线性变换+tanh激活以后,与lt相乘得到一个中间结果,这个中间结果和上一步的中间结果相加得到ct,所谓输出门,LSTM用输出门来控制单元状态ct有多少输出到LSTM的当前输出值ht,t-1时刻的输入ht-1和xt经过另外一个线性变换+sigmoid激活以后输出ot,ot与经过tanh的ct相乘得到ht,这里c、x、h都是向量,LSTM记忆单元时间序列数据包括语言模型、手写体识别、序列生成、机器翻译、语音分析、视频分析,这里的序列指的是时间向量序列,假设时间序列为:
X{x1,x2,...,xN}
时间序列模型为:
将卷积神经网络Dropout层长度为160的向量序列的输出值输入到长短时记忆神经网络运算得到一个输出,输出向量经过softmax函数进行转换,输出情感分类标签向量,看是消极情感还是积极情感;
对长短时记忆神经网络进行前向训练,步骤如下所示:
a)遗忘门的计算,公式如下所示:式1
ft=σ(wf·[ht-1,xt]+bf)
式1中wf表示遗忘门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bf表示遗忘门的偏置项,σ表示sigmoid函数,如果输入的维度式dx,隐藏层的维度是dh,单元状态的维度是dc(通常dc=dn),则遗忘门的权重矩阵wf维度是dc×(dh+dx),事实上,权重矩阵wf都是由两个矩阵拼接而成的,一个是wfh,它对应着输入项ht-1,其维度为dc×dh,
一个是wfx,它对应着输入项xt,其维度为dc×dx,wf可以写为,公式如下所示:
b)输入门的计算,公式如下所示:
it=σ(wi·[ht-1,xt]+bi) 式2
符号ο表示按元素乘,这样就把LSTM关于当前的记忆和长期的记忆ct-1组合在一起,形成了新的单元状态ct,由于遗忘门的控制,它可以保存很久之前的信息,由于输入门的控制,它又可以避免当前无关紧要的内容进入记忆;
c)输出门的计算,公式如下所示:
ot=σ(wo·[ht-1,xt]+bo) 式5
输出门它控制了长期记忆对当前输出的影响,LSTM最终的输出,是由输出门和单元状态共同确定的,公式如下所示:
d)对长短时记忆神经网络进行反向传播训练,LSTM反向传播计算每个神经元的误差项δ值,LSTM误差项的反向传播包括两个方向,一个是沿时间的反向传播,即从当前t时刻开始计算每个时刻的误差项,另一个是将误差项向上一层传播,步骤如下:
设定gate的激活函数为sigmoid函数,输出的激活函数为tanh函数,它们的导数分别为,公式如下所示:
σ′(z)=y(1-y)
tanh′(z)=1-y2
上式中sigmoid和tanh函数的导数都是原函数的函数,一旦计算原函数,就可以用它来计算出导数的值,LSTM需要学习的参数共有8组,分别是遗忘门的权重矩阵wf和偏置项bf、输入门的权重矩阵wi和偏置项bi、输出门的权重矩阵wo和偏置项bo、以及计算单元状态的权重矩阵wc和偏置项bc,权重矩阵的两部分在反向传播中使用不同的公式,在后续的推导中权重矩阵wf、wi、wo、wc都将被写为分开的两个矩阵:wfh、wfx、wih、wix、woh、wox、wch、wcx;
e)按元素乘ο符号,当ο作用于两个向量时,运算公式如下所示:
当ο作用于一个向量和一个矩阵时,运算公式如下所示:
当ο作用于两个矩阵时,两个矩阵对应位置的元素相乘,公式如下所示:
当一个行向量右乘一个对角矩阵时,相当于这个行向量按元素乘矩阵对角线组成的向量,公式如下所示:
在t时刻,LSTM的输出值为ht,定义t时刻的误差项δt为,公式如下所示:
假设误差项是损失函数对输出值的导数,需要定义四个加权输入对应的误差项,公式如下所示:
netf,t=wf{ht-1,xt]+bf
=wfhht-1+wfxxt+bf
neti,t=wi[ht-1,xt]+bi
=wihht-1+wixxt+bi
neto,t=wo[ht-1,xt]+bo
=wohht-1+woxxt+bo
f)沿时间反向传递误差项,计算出t-1时刻的误差项δt-1,公式如下所示:
利用全导数公式得出式七,公式如下所示:
求式七中每个偏导数,公式如下所示:
根据式六求出:
根据式四求出:
因如下运算:
ot=σ(neto,t)
neto,t=wohht-1+woxxt+bo
ft=σ(netf,t)
netf,t=wfhht-1+wfxxt+bf
it=σ(neti,t)
neti,t=wihht-1+wixxt+bi
所得出偏导数,公式如下所示:
将上述偏导数带入到式七中得到式八,公式如下所示:
从式八到式十二是误差项沿时间反向传播的时刻公式,根据式八到式十二求得误差项向前传递到任意k时刻的十三公式,公式如下所示:
g)将误差项传递到上一层,假设当前为第I层,定义I-1层的误差项是误差函数对I-1层加权输入的导数,公式如下所示:
LSTM的输入xt,公式如下所示:
h)权重梯度的计算,wfh、wih、wch、woh的权重梯度是各个时刻梯度之和,首先求出它们在t时刻的梯度,公式如下所示:
将各个时刻的梯度加在一起,得到最终的梯度,公式如下所示:
求bf、bi、bc、bo各个时刻的偏置项梯度,公式如下所示:
将各个时刻的偏置项梯度加在一起,公式如下所示:
根据误差项,求wfx、wix、wcx、wox的权重梯度,公式如下所示:
i)将长短时记忆神经网络每个输出值进行均值池化,输出向量经过softmax函数进行转换,输出情感分类标签向量,最大值元素所在标号表示该频谱属于该类别标签的语音,看是消极情感还是积极情感;
j)最后使用交叉熵误差函数作为优化目标对模型进行优化,公式如下所示:
上式中,N是训练样本的个数,向量yn是样本的标记,向量on是网络的输出,标记yn是一个one-hot向量;
k)跳转到第(a)步,输入数据,重复步骤(a)~(j),直至网络误差小于给定值,证明已训练出高精度的长短时记忆神经网络模型,结束训练;
l)采集预处理后的语音频谱序列中任意一张语音频谱进行测试,通过步骤(a)~(i)得到情感分类结果标签向量,最大值元素所在标号表示该语音频谱为本次测试语音频谱的情感类别标签,实现语音识别。
人工智能预警操作系统(500)基于Linux操作系统架构的基础上开发的AI人工智能预警操作系统,该系统包括类脑神经网络系统、多维人机物协同互操作系统、公共安全智能化监测预警与防控系统、自主无人伺服系统、天地一体化信息网络平台系统,用于管理和控制计算机硬件、软件及数据资源的计算机运行程序,用于各级人工智能预警系统与互联网+分布式预警警亭沟通的接口,用于云计算、云存储、云数据库和人工智能预警系统、互联网+分布式预警警亭及其他软件沟通的接口,用于多维人机物协同互操作系统与移动设备和智能电视的通讯接口,用于人机界面为其它应用软件提供支持,包括类脑神经网络系统、多维人机物协同互操作系统、公共安全智能化监测预警与防控系统、自主无人伺服系统、天地一体化网络信息平台系统、智能物联与风险因素数据采集系统、风险因素管理系统,人工智能预警操作系统(500)子系统包括语音识别系统、机器视觉系统、执行器系统、认知行为系统,文件系统、进程管理、进程间通讯、内存管理、网络通讯、安全机制、驱动程序、用户界面。
云计算(600)基于开源Hadoop架构进行设计,利用集群优势进行高速运算和存储,云计算(600)包括基础设施即服务、平台即服务、软件即服务,用于计算分布式计算机上的风险因素识别模块、风险因素推理模块、风险因素评估模块、通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻与海量的数据信息进行对比分析,分级推理、预警值评估,之后再将处理结果回传给用户并进行云存储。
与云数据库语音黑名单对比分析(700)模块,所述云数据库包括原始语音信息数据库、原始图像特征信息数据库、实时风险因素采集图像信息数据库、实时风险因素采集语音信息数据库、风险因素识别数据库、风险因素推理数据库、风险因素评估数据库、风险因素应对数据库、风险因素管理评价数据库、实时判断依据数据库、判断规则数据库和事故实例数据库,所述云数据库用于云计算(600)系统的集群应用,将分布式系统文件通过应用软件集合起来协同工作,为用户提供数据存储和业务访问的工作,通过设置在线数据存储模块,存储模块内储存有人脸图像黑名单、动态特征信息黑名单、生物特征信息黑名单和语音信息黑名单,将采集的人脸图像、动态特征信息、生物特征信息和语音信息与存储模块内的人脸图像黑名单、动态特征信息黑名单、生物特征信息黑名单和语音信息黑名单进行对比,如果相似度达到预设的预警值,则预警系统及时将该信息生成预警提示信息进行风险因素的推理、评估、生成预警级别报警信息、反馈给上一级预警系统进行风险管理评价。
确定目标人物身份(800)模块用于处理与云数据库语音黑名单对比分析(700)生成的预警提示信息、预警值评估、生成预警级别报警信息、生成预警信号反馈给上一级预警系统的信息,并根据云计算(600)通过与云数据库语音黑名单对比分析(700)传送的数据进行实时信息更新,用于存储所述人工智能预警系统(500)对云数据库信息查阅所生成的信息数据。
本地数据库模块(900)用于存储本级人工智能预警操作系统所生成的预警信息,用于存储向上一级人工智能预警操作系统发送的信息及反馈信息,用于存储向云计算发送的信息及反馈信息。
Claims (6)
1.人工智能CNN、LSTM神经网络语音识别系统,其特征在于:包括:麦克风(100)、服务器(200)、卷积神经网络(300)、长短时记忆神经网络(400)、人工智能预警操作系统(500)、云计算(600)、与云数据库语音黑名单对比分析(700)、确定目标人物身份(800)、本地数据库模块(900);
所述麦克风(100)用于采集到的声音信号转换为电信号,由音频电路模块接收再转换为音频数据,再将音频数据进行分帧、加窗、降噪处理,生成短时单帧信号,进而对短时单帧信号进行一系列与语音相关的技术处理,包括关键词识别、连续语音识别、语法分析、语义分析、情感分析识别;在麦克风的web页面中,当同一段语音在画面中持续出现时,麦克风会根据要求分帧获取一张质量最好的小图以元数据的方式上传;
所述本地数据库模块(900)用于存储本级人工智能预警操作系统所生成的预警信息,用于存储向上一级人工智能预警操作系统发送的信息及反馈信息,用于存储向云计算发送的信息及反馈信息;
所述卷积神经网络(300)包括输入层、卷积层C1、卷积层C2、最大值池化层S3、卷积层C4、卷积层C5、平均值池化层S6、Dropout层、输入长短时记忆神经网络,先创建一套处理数据的脚本:
第一,文字分词中文按照jieba原理分词,英语分词按照空格分词,第二,建立一个包含所有词的词典,每个词在词典里面对应一个的编号,任意一个词都可以用一个N维的向量来表示,N是词典中包含的词的个数,假设一个词在词典中的编号是i,v是表示这个词的向量,vj是向量的第j个元素,第三,把段落按字典翻译成数字,变成一个array(数组),再将音频信号进行分帧、加窗、降噪处理,生成短时单帧信号,进而对短时单帧信号进行反傅里叶变换得到时域数据,并去除直流分量,求时域数据的功率谱,采用sinc函数低通滤波器,获取该帧的频谱包络,将得到的频谱包络特征序列输入卷积神经网络进行训练,更新卷积神经网络各层权值,对卷积神经网络卷积层C1进行初始化操作,对卷积层和Dropout层的卷积核和权重进行高斯分布随机初始化,均值设为0,方差设为0.001,对偏置进行全0初始化,再对卷积神经网络进行训练,步骤如下:
a)输入层:将所有语音信号进行预处理,假设每条数据记录中包含有80个时间片(数据是以20Hz的采样频率进行记录的,每个时间间隔中就包含有4秒的加速度计数据),在每个时间间隔内,存储加速度计的x轴、y轴和z轴的三个数据;这样就得到了一个80×3的矩阵;
把数据平展成长度为240的向量后输入卷积神经网络中,网络的第一层再将其变形为原始的80×3的形状;
b)1D卷积层C1:假设卷积层C1定义卷积核大小为10的滤波器,卷积神经网络在卷积层C1中学习到一个单一的特征;然后定义100个滤波器,卷积神经网络的卷积层C1中训练得到100个不同的特性,卷积层C1的输出是一个71×100的矩阵,输出矩阵的每一列都包含一个滤波器的权值,在定义内核大小并考虑输入矩阵长度的情况下,每个过滤器将包含71个权重值;
c)1D卷积层C2:卷积层C1的输出结果将被输入到卷积层C2中,在这个网络层上再次定义100个不同的滤波器进行训练,按照与卷积层C1相同的逻辑,输出矩阵的大小为62×100;
d)最大值池化层S3:为了减少输出的复杂度和防止数据的过拟合,选择大小为3的池化层,这样输出矩阵的大小为20×100;
e)1D卷积层C4:池化层S3的输出结果将被输入到卷积层C4中,在这个网络层上再次定义100个不同的滤波器进行训练,按照与卷积层C1相同的逻辑,输出矩阵的大小为11×160;
f)1D卷积层C5:卷积层C4的输出结果将被输入到卷积层C5中,在这个网络层上再次定义100个不同的滤波器进行训练,按照与卷积层C1相同的逻辑,输出矩阵的大小为2×160;
g)平均值池化层S6:为进一步避免过拟合的发生,这次的池化取神经网络中两个权重的平均值,输出矩阵的大小为1×160,每个特征检测器在神经网络的这一层中只剩下一个权重;
h)Dropout层:Dropout层会随机地为网络中的神经元赋值零权重,由于选择了0.5的比率,则50%的神经元将会是零权重,通过这种操作,网络对数据的微小变化的响应就不那么敏感了,因此,它能够进一步提高对不可见数据处理的准确性,Dropout层的输出仍然是一个1×160的矩阵,再将长度为160的向量输出值输入到长短时记忆神经网络(400)进行情感分析运算;
k)将卷积神经网络进行权值初始化,输入数据,重复步骤(a)~(h),前向传播得到输出值,求出卷积神经网络的输出值与目标值之间的误差,当误差大于期望值时,将误差传回卷积神经网络中,用BP反向传播算法进行监督训练,求出结果与期望值的误差,再将误差一层一层的返回,计算出每一层的误差,进行权值更新,依次为Dropout层、平均值池化层S6、卷积层C5、卷积层C4、最大值池化层S3、卷积层C2、卷积层C1的误差,以求得卷积神经网络的总误差,再将误差传入卷积神经网络中,求得各层对于总的误差应该承担的比重,在训练卷积神经网络时,通过不断改变卷积神经网络中所有参数,使损失函数不断减小,当误差等于或小于期望值时,证明已训练出高精度的卷积神经网络模型,结束训练;
l)采集预处理后的语音频谱序列中任意一张语音频谱进行测试,通过步骤(a)~(h)得到分类结果标签向量,最大值元素所在标号表示该语音频谱为本次测试语音频谱的类别标签,实现语音识别;
所述长短时记忆神经网络(400)LSTM记忆单元包括遗忘门、输入门、输出门,LSTM用两个门来控制单元状态c的内容,一个是遗忘门,它决定了上一时刻的单元状态ct,t-1有多少保留到当前时刻ct,t-1时刻的输入ht-1和xt经过一个线性变换+sigmoid激活以后输出ft,ft再与ct-1进行相乘得到一个中间结果,另一个是输入门,它决定了当前时刻网络的输入xt有多少保存到单元状态ct,t-1时刻的输入ht-1和xt经过另外一个线性变换+sigmoid激活以后输出lt,同时ht-1和xt经过另一个线性变换+tanh激活以后,与lt相乘得到一个中间结果,这个中间结果和上一步的中间结果相加得到ct,LSTM用输出门来控制单元状态ct有多少输出到LSTM的当前输出值ht,t-1时刻的输入ht-1和xt经过另外一个线性变换+sigmoid激活以后输出ot,ot与经过tanh的ct相乘得到ht,这里c、x、h都是向量,LSTM记忆单元时间序列数据包括语言模型、手写体识别、序列生成、机器翻译、语音分析、视频分析,这里的序列指的是时间向量序列,假设时间序列为:
X{x1,x2,...xN}
时间序列模型为:
将卷积神经网络Dropout层长度为160的向量序列的输出值输入到长短时记忆神经网络运算得到一个输出,输出向量经过softmax函数进行转换,输出情感分类标签向量,看是消极情感还是积极情感;
对长短时记忆神经网络进行前向训练,步骤如下所示:
1)遗忘门的计算,公式如下所示:式1
ft=σ(wf·[ht-1,xt]+bf)
式1中wf表示遗忘门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bf表示遗忘门的偏置项,σ表示sigmoid函数,如果输入的维度式dx,隐藏层的维度是dh,单元状态的维度是dc(通常dc=dn),则遗忘门的权重矩阵wf维度是dc×(dh+dx),事实上,权重矩阵wf都是由两个矩阵拼接而成的,一个是wfh,它对应着输入项ht-1,其维度为dc×dh,一个是wfx,它对应着输入项xt,其维度为dc×dx,wf可以写为,公式如下所示:
2)输入门的计算,公式如下所示:
it=σ(wi·[ht-1,xt]+bi) 式2
符号ο表示按元素乘,这样就把LSTM关于当前的记忆和长期的记忆ct-1组合在一起,形成了新的单元状态ct,由于遗忘门的控制,它可以保存很久之前的信息,由于输入门的控制,它又可以避免当前无关紧要的内容进入记忆;
3)输出门的计算,公式如下所示:
ot=σ(wo·[ht-1,xt]+bo) 式5
输出门它控制了长期记忆对当前输出的影响,LSTM最终的输出,是由输出门和单元状态共同确定的,公式如下所示:
4)对长短时记忆神经网络进行反向传播训练,LSTM反向传播计算每个神经元的误差项δ值,LSTM误差项的反向传播包括两个方向,一个是沿时间的反向传播,即从当前t时刻开始计算每个时刻的误差项,另一个是将误差项向上一层传播,步骤如下:
设定gate的激活函数为sigmoid函数,输出的激活函数为tanh函数,它们的导数分别为,公式如下所示:
σ′(z)=y(1-y)
tanh′(z)=1-y2
上式中sigmoid和tanh函数的导数都是原函数的函数,一旦计算原函数,就可以用它来计算出导数的值,LSTM需要学习的参数共有8组,分别是遗忘门的权重矩阵wf和偏置项bf、输入门的权重矩阵wi和偏置项bi、输出门的权重矩阵wo和偏置项bo、以及计算单元状态的权重矩阵wc和偏置项bc,权重矩阵的两部分在反向传播中使用不同的公式,在后续的推导中权重矩阵wf、wt、wo、wc都将被写为分开的两个矩阵:wfh、wfx、wih、wix、woh、wox、wch、wcx;
5)按元素乘ο符号,当ο作用于两个向量时,运算公式如下所示:
当ο作用于一个向量和一个矩阵时,运算公式如下所示:
当ο作用于两个矩阵时,两个矩阵对应位置的元素相乘,公式如下所示:
当一个行向量右乘一个对角矩阵时,相当于这个行向量按元素乘矩阵对角线组成的向量,公式如下所示:
在t时刻,LSTM的输出值为ht,定义t时刻的误差项δt为,公式如下所示:
假设误差项是损失函数对输出值的导数,需要定义四个加权输入对应的误差项,公式如下所示:
netf,t=wf[ht-1,xt]+bf
=wfhht-1+wfxxt+bf
neti,t=wi[ht-1,xt]+bi
=wihht-1+wixxt+bi
neto,t=wo[ht-1,xt]+bo
=wohht-1+woxxt+bo
6)沿时间反向传递误差项,计算出t-1时刻的误差项δt-1,公式如下所示:
利用全导数公式得出式七,公式如下所示:
求式七中每个偏导数,公式如下所示:
根据式六求出:
根据式四求出:
因如下运算:
ot=σ(neto,t)
neto,t=wohht-1+woxxt+boft=σ(netf,t)
netf,t=wfhht-1+wfxxt+bf
it=σ(neti,t)
neti,t=wihht-1+wixxt+bi
所得出偏导数,公式如下所示:
将上述偏导数带入到式七中得到式八,公式如下所示:
从式八到式十二是误差项沿时间反向传播的时刻公式,根据式八到式十二求得误差项向前传递到任意k时刻的十三公式,公式如下所示:
7)将误差项传递到上一层,假设当前为第I层,定义I-1层的误差项是误差函数对I-1层加权输入的导数,公式如下所示:
LSTM的输入xt,公式如下所示:
8)权重梯度的计算,wfh、wih、wch、woh的权重梯度是各个时刻梯度之和,首先求出它们在t时刻的梯度,公式如下所示:
将各个时刻的梯度加在一起,得到最终的梯度,公式如下所示:
求bf、bi、bc、bo各个时刻的偏置项梯度,公式如下所示:
将各个时刻的偏置项梯度加在一起,公式如下所示:
根据误差项,求wfx、wix、wcx、wox的权重梯度,公式如下所示:
9)将长短时记忆神经网络每个输出值进行均值池化,输出向量经过softmax函数进行转换,输出情感分类标签向量,最大值元素所在标号表示该频谱属于该类别标签的语音,看是消极情感还是积极情感;
10)最后使用交叉熵误差函数作为优化目标对模型进行优化,公式如下所示:
上式中,N是训练样本的个数,向量yn是样本的标记,向量on是网络的输出,标记yn是一个one-hot向量;
11)跳转到第1)步,输入数据,重复步骤1)~10),直至网络误差小于给定值,证明已训练出高精度的长短时记忆神经网络模型,结束训练;
12)采集预处理后的语音频谱序列中任意一张语音频谱进行测试,通过步骤1)~10)得到情感分类结果标签向量,最大值元素所在标号表示该语音频谱为本次测试语音频谱的情感类别标签,实现语音识别。
2.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统,其特征在于:所述服务器(200)包括高性能中央处理器CPU、图像处理器GPU、可编程逻辑门阵列FPGA、神经网络处理器NPU、异构/可重构处理器、卷积神经网络(300)、长短时记忆神经网络(400)、人工智能预警操作系统(500)、云计算(600)模块、与云数据库人脸黑名单对比分析(700)模块、确定目标人物身份(800)模块、本地数据库模块(900),所述服务器(200)用于为网络系统中客户端提供各种高性能计算的服务,服务器在人工智能预警操作系统的控制下,将与其相连的网络视频服务器、程控交换机、AI云计算服务器、AI数据库服务器、GPU云处理器、NPU神经网络云处理器、异构/可重构云处理器、Web服务器、通讯服务器、显示器、混合矩阵、路由器、调制解调器相连接,为远程监控客户端提供集中计算、信息发布及数据管理的服务。
3.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统,其特征在于:所述人工智能预警操作系统(500)基于Linux操作系统架构的基础上开发的AI人工智能预警操作系统,该系统包括类脑神经网络系统、多维人机物协同互操作系统、公共安全智能化监测预警与防控系统、自主无人伺服系统、天地一体化信息网络平台系统,用于管理和控制计算机硬件、软件及数据资源的计算机运行程序,用于各级人工智能预警系统与互联网+分布式预警警亭沟通的接口,用于云计算、云存储、云数据库和人工智能预警系统、互联网+分布式预警警亭及其他软件沟通的接口,用于多维人机物协同互操作系统与移动设备和智能电视的通讯接口,用于人机界面为其它应用软件提供支持,包括类脑神经网络系统、多维人机物协同互操作系统、公共安全智能化监测预警与防控系统、自主无人伺服系统、天地一体化网络信息平台系统、智能物联与风险因素数据采集系统、风险因素管理系统,人工智能预警操作系统(500)子系统包括语音识别系统、机器视觉系统、执行器系统、认知行为系统,文件系统、进程管理、进程间通讯、内存管理、网络通讯、安全机制、驱动程序、用户界面。
4.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统,其特征在于:所述
云计算(600)基于开源Hadoop架构进行设计,利用集群优势进行高速运算和存储,云计算(600)包括基础设施即服务、平台即服务、软件即服务,用于计算分布式计算机上的风险因素识别模块、风险因素推理模块、风险因素评估模块、通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻与海量的数据信息进行对比分析,分级推理、预警值评估,之后再将处理结果回传给用户并进行云存储。
5.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统,其特征在于:所述与云数据库语音黑名单对比分析(700)模块,所述云数据库包括原始语音信息数据库、原始图像特征信息数据库、实时风险因素采集图像信息数据库、实时风险因素采集语音信息数据库、风险因素识别数据库、风险因素推理数据库、风险因素评估数据库、风险因素应对数据库、风险因素管理评价数据库、实时判断依据数据库、判断规则数据库和事故实例数据库,所述云数据库用于云计算(600)系统的集群应用,将分布式系统文件通过应用软件集合起来协同工作,为用户提供数据存储和业务访问的工作,通过设置在线数据存储模块,存储模块内储存有人脸图像黑名单、动态特征信息黑名单、生物特征信息黑名单和语音信息黑名单,将采集的人脸图像、动态特征信息、生物特征信息和语音信息与存储模块内的人脸图像黑名单、动态特征信息黑名单、生物特征信息黑名单和语音信息黑名单进行对比,如果相似度达到预设的预警值,则预警系统及时将该信息生成预警提示信息进行风险因素的推理、评估、生成预警级别报警信息、反馈给上一级预警系统进行风险管理评价。
6.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统,其特征在于:所述确定目标人物身份(800)模块用于处理与云数据库语音黑名单对比分析(700)生成的预警提示信息、预警值评估、生成预警级别报警信息、生成预警信号反馈给上一级预警系统的信息,并根据云计算(600)通过与云数据库语音黑名单对比分析(700)传送的数据进行实时信息更新,用于存储所述人工智能预警系统(500)对云数据库信息查阅所生成的信息数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910400538.4A CN110738984B (zh) | 2019-05-13 | 2019-05-13 | 人工智能cnn、lstm神经网络语音识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910400538.4A CN110738984B (zh) | 2019-05-13 | 2019-05-13 | 人工智能cnn、lstm神经网络语音识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110738984A CN110738984A (zh) | 2020-01-31 |
CN110738984B true CN110738984B (zh) | 2020-12-11 |
Family
ID=69236676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910400538.4A Active CN110738984B (zh) | 2019-05-13 | 2019-05-13 | 人工智能cnn、lstm神经网络语音识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110738984B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111273288B (zh) * | 2020-03-06 | 2022-05-24 | 电子科技大学 | 一种基于长短期记忆网络的雷达未知目标识别方法 |
CN111368930B (zh) * | 2020-03-09 | 2022-11-04 | 成都理工大学 | 基于多类谱图融合与分级学习的雷达人体姿态识别方法及系统 |
CN111402860B (zh) * | 2020-03-16 | 2021-11-02 | 恒睿(重庆)人工智能技术研究院有限公司 | 一种参数管理方法、系统、介质和设备 |
CN111508495B (zh) * | 2020-05-02 | 2021-07-20 | 北京花兰德科技咨询服务有限公司 | 一种与人协作的人工智能机器人及通信方法 |
CN111583967A (zh) * | 2020-05-14 | 2020-08-25 | 西安医学院 | 一种基于话语模型的心理健康情感识别装置及其操作方法 |
CN111600667B (zh) * | 2020-05-25 | 2021-08-17 | 电子科技大学 | 一种基于cnn-lstm的频谱感知方法 |
CN111603191B (zh) * | 2020-05-29 | 2023-10-20 | 上海联影医疗科技股份有限公司 | 医学扫描中的语音降噪方法、装置和计算机设备 |
CN111882869B (zh) * | 2020-07-13 | 2022-10-04 | 大连理工大学 | 一种考虑不良天气的深度学习交通流预测方法 |
CN112070212A (zh) * | 2020-08-26 | 2020-12-11 | 江苏建筑职业技术学院 | 一种人工智能cnn、lstm神经网络动态识别系统 |
CN112151040B (zh) * | 2020-09-27 | 2023-04-28 | 湖北工业大学 | 一种基于端到端联合优化及决策的鲁棒性说话人识别方法 |
CN112348058B (zh) * | 2020-10-20 | 2022-10-11 | 华东交通大学 | 一种基于cnn-lstm网络的卫星云图分类方法和计算机可读存储介质 |
CN112466282B (zh) * | 2020-10-22 | 2023-11-28 | 北京仿真中心 | 一种面向航天专业领域的语音识别系统和方法 |
CN112598222A (zh) * | 2020-11-30 | 2021-04-02 | 河南汇祥通信设备有限公司 | 基于长短时记忆循环神经网络的综合管廊运维预测及方法 |
CN112329926A (zh) * | 2020-11-30 | 2021-02-05 | 珠海采筑电子商务有限公司 | 智能机器人的质量改善方法及系统 |
CN113225539A (zh) * | 2020-12-23 | 2021-08-06 | 全民认证科技(杭州)有限公司 | 一种基于云计算的流动人口人工智能预警系统 |
CN112698831B (zh) * | 2020-12-25 | 2022-08-09 | 昆明理工大学 | 一种代码自动生成质量评估方法 |
CN112865721B (zh) * | 2021-01-05 | 2023-05-16 | 紫光展锐(重庆)科技有限公司 | 信号处理方法、装置、设备及存储介质、芯片、模组设备 |
CN112869711B (zh) * | 2021-01-19 | 2022-06-03 | 华南理工大学 | 一种基于深度神经网络的自动睡眠分期及迁移方法 |
CN112926733B (zh) * | 2021-03-10 | 2022-09-16 | 之江实验室 | 一种语音关键词检测专用芯片 |
CN113283331B (zh) * | 2021-05-20 | 2023-11-14 | 长沙融创智胜电子科技有限公司 | 用于无人值守传感器系统的多类别目标识别方法及系统 |
CN113270196B (zh) * | 2021-05-25 | 2023-07-14 | 郑州大学 | 一种脑卒中复发风险感知与行为决策模型构建系统及方法 |
CN113382205B (zh) * | 2021-05-25 | 2022-02-15 | 特斯联科技集团有限公司 | 一种用于监视器的人工智能多源数据处理系统及方法 |
CN113422876B (zh) * | 2021-06-24 | 2022-05-10 | 广西电网有限责任公司 | 基于ai的电力客服中心辅助管理方法、系统及介质 |
CN113647825A (zh) * | 2021-08-27 | 2021-11-16 | 上海互问信息科技有限公司 | 一种基于神经网络的饮水机出水自动控制方法 |
CN113593606B (zh) * | 2021-09-30 | 2022-02-15 | 清华大学 | 音频识别方法和装置、计算机设备、计算机可读存储介质 |
CN113938310B (zh) * | 2021-10-29 | 2023-11-28 | 水利部发展研究中心 | 一种水利固定资产投资统计数据质量控制管理系统 |
CN114743554A (zh) * | 2022-06-09 | 2022-07-12 | 武汉工商学院 | 基于物联网的智能家居交互方法及装置 |
CN115460346B (zh) * | 2022-08-17 | 2024-01-23 | 山东浪潮超高清智能科技有限公司 | 一种自动调整角度的数据采集装置 |
CN117275499B (zh) * | 2023-11-17 | 2024-02-02 | 深圳波洛斯科技有限公司 | 自适应神经网络的降噪方法及相关装置 |
CN117830859B (zh) * | 2024-03-05 | 2024-05-03 | 农业农村部南京农业机械化研究所 | 基于图像处理的果树靶标自动识别方法及系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10783900B2 (en) * | 2014-10-03 | 2020-09-22 | Google Llc | Convolutional, long short-term memory, fully connected deep neural networks |
CN107229684B (zh) * | 2017-05-11 | 2021-05-18 | 合肥美的智能科技有限公司 | 语句分类方法、系统、电子设备、冰箱及存储介质 |
CN107452374B (zh) * | 2017-07-11 | 2020-05-05 | 上海交通大学 | 基于单向自标注辅助信息的多视角语言识别方法 |
CN108231067A (zh) * | 2018-01-13 | 2018-06-29 | 福州大学 | 基于卷积神经网络与随机森林分类的声音场景识别方法 |
CN108665676A (zh) * | 2018-05-16 | 2018-10-16 | 中南大学 | 用于识别危险语句的系统及其识别方法 |
CN108806667B (zh) * | 2018-05-29 | 2020-04-17 | 重庆大学 | 基于神经网络的语音与情绪的同步识别方法 |
CN109003601A (zh) * | 2018-08-31 | 2018-12-14 | 北京工商大学 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
CN109447048B (zh) * | 2018-12-25 | 2020-12-25 | 苏州闪驰数控系统集成有限公司 | 一种人工智能预警系统 |
CN109784267B (zh) * | 2019-01-10 | 2021-10-15 | 山东浪潮科学研究院有限公司 | 一种移动端多源融合图像语义内容生成系统及方法 |
-
2019
- 2019-05-13 CN CN201910400538.4A patent/CN110738984B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110738984A (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738984B (zh) | 人工智能cnn、lstm神经网络语音识别系统 | |
Chen et al. | Big data deep learning: challenges and perspectives | |
CN110956111A (zh) | 人工智能cnn、lstm神经网络步态识别系统 | |
Li et al. | Towards Discriminative Representation Learning for Speech Emotion Recognition. | |
CN110110707A (zh) | 人工智能cnn、lstm神经网络动态识别系统 | |
Suman et al. | A multi-modal personality prediction system | |
EP4198807A1 (en) | Audio processing method and device | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
SG182933A1 (en) | A data structure and a method for using the data structure | |
Henríquez et al. | Twitter sentiment classification based on deep random vector functional link | |
CN114490065A (zh) | 一种负载预测方法、装置及设备 | |
Tang et al. | A bimodal network based on Audio–Text-Interactional-Attention with ArcFace loss for speech emotion recognition | |
CN112541541B (zh) | 基于多元素分层深度融合的轻量级多模态情感分析方法 | |
Kang et al. | Pivot correlational neural network for multimodal video categorization | |
Amjad et al. | Recognizing semi-natural and spontaneous speech emotions using deep neural networks | |
Zhang et al. | Data Independent Sequence Augmentation Method for Acoustic Scene Classification. | |
Khan et al. | Advanced sequence learning approaches for emotion recognition using speech signals | |
Chinmayi et al. | Emotion Classification Using Deep Learning | |
Bai et al. | Low-rank multimodal fusion algorithm based on context modeling | |
Islam et al. | DCNN-LSTM based audio classification combining multiple feature engineering and data augmentation techniques | |
Chen | A hidden Markov optimization model for processing and recognition of English speech feature signals | |
Thasleema et al. | Time–domain non-linear feature parameter for consonant classification | |
Wu et al. | Deep community detection method for social networks | |
Zeng et al. | End-to-end Recording Device Identification Based on Deep Representation Learning | |
Subhashini Pedalanka et al. | An Enhanced Deep Neural Network-Based Approach for Speaker Recognition Using Triumvirate Euphemism Strategy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB02 | Change of applicant information |
Address after: Room 1112, building 38, Qidi Fashion Technology City, 60 Weixin Road, Suzhou Industrial Park, Suzhou, Jiangsu Province Applicant after: SUZHOU SHANCHI NUMERICAL CONTROL SYSTEM INTEGRATION Co.,Ltd. Address before: Room 923, 3 Building, Jinghui Building, 277 Yangdong Road, Suzhou Industrial Park, Jiangsu Province Applicant before: SUZHOU SHANCHI NUMERICAL CONTROL SYSTEM INTEGRATION Co.,Ltd. |
|
CB02 | Change of applicant information |