CN109285539A

CN109285539A - 一种基于神经网络的声音识别方法

Info

Publication number: CN109285539A
Application number: CN201811430315.4A
Authority: CN
Inventors: 丁岩; 牛英山; 王爽; 费顺超
Original assignee: CETC 4 Research Institute
Current assignee: CETC 4 Research Institute
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2019-01-29
Anticipated expiration: 2038-11-28
Also published as: CN109285539B

Abstract

本发明公开了一种基于神经网络的声音识别方法，该方法包括以下步骤：首先使用通常声音采样方式对声音进行功率谱变换，插入、采样等滤波算法后得到标准格式的声音样本；根据声音识别指令，确定待识别的目标声音特征；针对预先获得的查找表集合中每个查找表，将目标声音采样的每个采样点与该查找表的每个表项进行匹配，查找表集合包含多个具有不同内容的参考声音对应的查找表，每个查找表基于神经网络结构建立，每个查找表中的表项为神经网络结构的神经元；根据匹配结果，确定目标声音。应用本发明实施例所提供的技术方案，基于神经网络结构进行声音识别，模拟了人脑的学习能力，使得声音识别更加准确。

Description

一种基于神经网络的声音识别方法

技术领域

本发明涉及声音识别技术，特别是涉及一种基于神经网络的声音识别方法。

背景技术

随着计算机应用技术的快速发展，语音或者其他类型声音识别技术的应用越来越广泛，对声音识别的需求也越来越多。比如在语音控中，或者在特定场景声音事件触发中，都需要进行声音识别。

随着对人脑结构和神经网络的研究，现已经了解并逐渐探索出人脑对信息的处理及工作方式。但基于神经网络结构如何进行声音的准确识别，是目前本领域技术人员亟需解决的技术问题。

发明内容

本发明的目的是提供一种基于神经网络的声音识别方法，以基于神经网络结构对声音进行准确识别。

为解决上述技术问题，本发明提供如下技术方案：一种基于神经网络的声音识别方法，包括：

对样本声音、待识别声音进行预处理，得到样本声音频率谱、待识别声音频谱；

若声音指令为学习指令，则将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中，构建声音神经网络查找表；

若声音指令为识别指令，则将待识别声音频谱与声音神经网络查找表中节点的表项进行比对，确定声音识别结果并输出声音。

所述预处理包括：

对样本声音、待识别声音进行插值、抽取采样得到定长的声音片段；

再经过短时傅里叶变换，得到样本声音频率谱、待识别声音频谱。

所述短时傅里叶变换为：

其中，短时傅里叶变换是窗口选语音信号的标准傅里叶变换，n是窗口长度，ω是角频率，x(m)是时间点为m的声音信号序列，ω(n-m)表示窗函数，当n取值不同时，窗口w(n-m)沿着x(m)序列滑动，对声音信号进行截取，经过傅里叶变换将声音信号从时域变成频域，得到声音信号频率谱；经过变换后得到的声音频率谱的每个采样点与神经网络节点一一对应。

所述将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中，构建声音神经网络查找表，包括：

如果该样本声音频率谱为首次学习，则将其数据在L₀层对应的神经网络节点的表项中创建表项记录；

如果该样本声音频率谱为非首次学习，则对当前L_i层的神经网络节点的表项进行迭代，并在L_i+1层对应的神经网络节点的表项中创建表项记录。

所述表项记录包括：索引值index、指令opcode、频率谱数据值pvalue、学习次数study_num、时间戳timestamp、有效位valid；

所述索引值index表示样本声音频率谱的样本点编号、指令opcode表示当前频率谱数据是样本声音还是待识别声音、频率谱数据值pvalue为按照短时傅里叶变换后的数据值、学习次数study_num表示当前频率谱数据被声音神经网络记录的次数、时间戳timestamp表示最后一次记录该当前频率谱数据的时间、有效位valid表示当前频谱的数据值是否已经学习过。

所述如果该样本声音频率谱为非首次学习，则对当前L_i层的神经网络节点的表项进行迭代，并在L_i+1层对应的神经网络节点的表项中创建表项记录；包括：

根据有效位valid是否有效，若有效，则在Li层的神经网络节点表项中，将频率谱数据值pvalue的值进行累加，学习次数study_num的值加1；

否则，在L_i+1层对应的神经网络节点的表项中创建表项记录，包括vaild值置1，将指令中的pvalue值写入表项中的频率谱数据值pvalue中，学习次数study_num置1。

所述将待识别声音频谱与声音神经网络查找表中节点的表项进行比对，确定声音识别结果并输出声音，包括：

逐层深度的遍历声音神经网络查找表的所有节点，若有效位valid有效，则将待识别声音频谱的数据值与该节点对应的频率谱数据值pvalue进行比较，确定误差最小的节点的索引值index和该节点所在的深度deep；根据索引值index输出原样本声音。所述深度deep为该节点所在层的层号。

学习或识别过程中，若当前索引值index对应的时间戳timestamp在预设时间范围内没有变化，则删除该当前索引值index对应的表项内容。

本发明具有以下有益效果及优点：

1.本发明可以模糊声音长度进行比较匹配，在预处理算法中实现。

2.本发明可以任意配置神经网络节点矩阵的长度(对应频率谱采样数)与深度(对应学习深度)及每个节点表项的地址深度(对应可以学习的声音含义数)。

3.本发明有模拟人脑对记忆行为的模拟，可以根据表项中是timestamp时间戳进行缓慢遗忘。

4.本发明也可单独运用于集成电路，使用FPGA或设计成专用ASIC芯片。

5.本发明可以接入在多种系统总线，实现多种系统的硬件异构加速处理。

附图说明

图1为本发明的一种基于神经网络的声音识别方法流程图；

图2为本发明预处理中将音频采样信号从波形图转换为频率谱图；

图3为本发明中一种声音处理指令数据结构示意图；

图4为神经网络节点深度迭代示意图；

图5为神经网络节点表项矩阵图；

图6为本发明每个神经网络节点表项数据结构示意图；

图7为本发明实施实例中样本学习流程图；

图8为本发明实施实例中样本查找流程图；

图9为本发明中一种声音识别系统结构示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

如图1所示，为本发明实施例所提供的一种基于神经网络结构的声音识别方法的实施流程图，具体实施流程如下：

S110：根据声音识别指令，确定待识别的目标图像。在本发明实施例中，控制单元可以通过前端接口单元接收声音学习或者识别指令，如图2所示。图像识别指令中可以携带待识别的目标声音样本。根据声音识别指令，可以确定待识别的目标声音。

如图3所示，opcode代表操作指令，可以指示该学习或者识别指令；index代表索引，在学习指令时指定要写入表项的地址；deep代表查找的深度，在识别指令时返回查找到的深度，pvalue为频率谱信号值。

在接收到声音识别指令时，可以通过计算单元先对声音识别指令中的目标声音样本进行预处理，以达到加速及更加准确识别的目的。比如，可以对有限个时间识别样本进行插入样本或抽取样本的操作，使目标样本与本发明的查找表矩阵L0一层深度的节点数相匹配。同时使用短时傅里叶变换算法，将声音样本变换至频率谱，使声音特征区分更加明显，如图2所示。

本发明实施例所基于的神经网络结构如图4所示，为矩阵结构，矩阵的二维坐标系分别为Sn×Ln，其中每一个节点为一个神经元。在图4中，如果目标声音能量谱频率分辨率为64大小，则其每一个频率坐标可以对应[S0]至[S63]相应位置的神经元。

如图5所示，如果声音能量频率谱分辨率为64大小，则可以在L0层每一个频率坐标可以对应[S0]至[S63]相应位置的神经元，每一个神经元节点建立一张深度为N的查找表项，每一张表项如图6所示，矩阵深度Ln可以灵活配置,深度越深，代表可以容纳学习的次数越多，识别越准确。

S120：若判断声音处理指令opcode为学习指令，将目标所携带的数据按照索引index位置,将表项valid位设置成有效；将指令中pvalue的值与表项中pvalue的值进行迭代累加；同时可以向相邻两个神经网络节点的值进行有权值的迭代累加，如图3所示；并向表项内的学习次数study_num值+1；同时刷新timestamp，如图6流程所示。

S130：在步骤S120执行后，读取深度一层的神经网络节点表项，判断其表项valid值，识别该神经节点表项是否学习过，若该节点学习过，则重复执行S120步骤，直至迭代至空白节点表项，学习流程如图7所示。

S140：完成一次一个声音频率点的神经网络节点深度学习过程。

S150：若判断声音处理指令opcode为识别指令，需要对表项所有地址的表项依次读取进行比较；每次判断valid位是否有效，有效代表该表项有过学习记录；将声音频率谱样本与L0层的表项的所有地址的表项比较匹配一遍，记录下匹配最为接近的地址index值。

S160：使用S150匹配得到的地址index值向L1层(深度+1)的神经网络节点表项进行查找比较直至比较匹配至最深的未学习记录的深度值，整个识别查找过程如图8所示。

S140：完成一次一个声音频率点的神经网络节点深度匹配查找过程。

如图9所示，为本发明实施实例所提供的一种软硬件系统装置结构示意图；前端接口可以解析上层指令，与其交互的可以是通用x86架构下的PCI-E(PCI Express，新一代总线接口)，还可以是ARM架构下AXI(Advanced extensible Interface，一种总线协议)等接口。

显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种基于神经网络的声音识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于神经网络的声音识别方法，其特征在于所述预处理包括：

3.根据权利要求2所述的一种基于神经网络的声音识别方法，其特征在于所述短时傅里叶变换为：

4.按照权利要求1所述一种基于神经网络的声音识别方法，其特征在于所述将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中，构建声音神经网络查找表，包括：

5.按照权利要求4所述一种基于神经网络的声音识别方法，其特征在于所述表项记录包括：索引值index、指令opcode、频率谱数据值pvalue、学习次数study_num、时间戳timestamp、有效位valid；

6.按照权利要求4所述一种基于神经网络的声音识别方法，其特征在于所述如果该样本声音频率谱为非首次学习，则对当前L_i层的神经网络节点的表项进行迭代，并在L_i+1层对应的神经网络节点的表项中创建表项记录；包括：

7.按照权利要求1所述一种基于神经网络的声音识别方法，其特征在于所述将待识别声音频谱与声音神经网络查找表中节点的表项进行比对，确定声音识别结果并输出声音，包括：

逐层深度的遍历声音神经网络查找表的所有节点，若有效位valid有效，则将待识别声音频谱的数据值与该节点对应的频率谱数据值pvalue进行比较，确定误差最小的节点的索引值index和该节点所在的深度deep；根据索引值index输出原样本声音。

8.按照权利要求4或7所述一种基于神经网络的声音识别方法，其特征在于：学习或识别过程中，若当前索引值index对应的时间戳timestamp在预设时间范围内没有更改，则删除该当前索引值index对应的表项内容。