CN109285539A - 一种基于神经网络的声音识别方法 - Google Patents
一种基于神经网络的声音识别方法 Download PDFInfo
- Publication number
- CN109285539A CN109285539A CN201811430315.4A CN201811430315A CN109285539A CN 109285539 A CN109285539 A CN 109285539A CN 201811430315 A CN201811430315 A CN 201811430315A CN 109285539 A CN109285539 A CN 109285539A
- Authority
- CN
- China
- Prior art keywords
- sound
- neural network
- list item
- frequency spectrum
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Abstract
本发明公开了一种基于神经网络的声音识别方法,该方法包括以下步骤:首先使用通常声音采样方式对声音进行功率谱变换,插入、采样等滤波算法后得到标准格式的声音样本;根据声音识别指令,确定待识别的目标声音特征;针对预先获得的查找表集合中每个查找表,将目标声音采样的每个采样点与该查找表的每个表项进行匹配,查找表集合包含多个具有不同内容的参考声音对应的查找表,每个查找表基于神经网络结构建立,每个查找表中的表项为神经网络结构的神经元;根据匹配结果,确定目标声音。应用本发明实施例所提供的技术方案,基于神经网络结构进行声音识别,模拟了人脑的学习能力,使得声音识别更加准确。
Description
技术领域
本发明涉及声音识别技术,特别是涉及一种基于神经网络的声音识别方法。
背景技术
随着计算机应用技术的快速发展,语音或者其他类型声音识别技术的应用越来越广泛,对声音识别的需求也越来越多。比如在语音控中,或者在特定场景声音事件触发中,都需要进行声音识别。
随着对人脑结构和神经网络的研究,现已经了解并逐渐探索出人脑对信息的处理及工作方式。但基于神经网络结构如何进行声音的准确识别,是目前本领域技术人员亟需解决的技术问题。
发明内容
本发明的目的是提供一种基于神经网络的声音识别方法,以基于神经网络结构对声音进行准确识别。
为解决上述技术问题,本发明提供如下技术方案:一种基于神经网络的声音识别方法,包括:
对样本声音、待识别声音进行预处理,得到样本声音频率谱、待识别声音频谱;
若声音指令为学习指令,则将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中,构建声音神经网络查找表;
若声音指令为识别指令,则将待识别声音频谱与声音神经网络查找表中节点的表项进行比对,确定声音识别结果并输出声音。
所述预处理包括:
对样本声音、待识别声音进行插值、抽取采样得到定长的声音片段;
再经过短时傅里叶变换,得到样本声音频率谱、待识别声音频谱。
所述短时傅里叶变换为:
其中,短时傅里叶变换是窗口选语音信号的标准傅里叶变换,n是窗口长度,ω是角频率,x(m)是时间点为m的声音信号序列,ω(n-m)表示窗函数,当n取值不同时,窗口w(n-m)沿着x(m)序列滑动,对声音信号进行截取,经过傅里叶变换将声音信号从时域变成频域,得到声音信号频率谱;经过变换后得到的声音频率谱的每个采样点与神经网络节点一一对应。
所述将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中,构建声音神经网络查找表,包括:
如果该样本声音频率谱为首次学习,则将其数据在L0层对应的神经网络节点的表项中创建表项记录;
如果该样本声音频率谱为非首次学习,则对当前Li层的神经网络节点的表项进行迭代,并在Li+1层对应的神经网络节点的表项中创建表项记录。
所述表项记录包括:索引值index、指令opcode、频率谱数据值pvalue、学习次数study_num、时间戳timestamp、有效位valid;
所述索引值index表示样本声音频率谱的样本点编号、指令opcode表示当前频率谱数据是样本声音还是待识别声音、频率谱数据值pvalue为按照短时傅里叶变换后的数据值、学习次数study_num表示当前频率谱数据被声音神经网络记录的次数、时间戳timestamp表示最后一次记录该当前频率谱数据的时间、有效位valid表示当前频谱的数据值是否已经学习过。
所述如果该样本声音频率谱为非首次学习,则对当前Li层的神经网络节点的表项进行迭代,并在Li+1层对应的神经网络节点的表项中创建表项记录;包括:
根据有效位valid是否有效,若有效,则在Li层的神经网络节点表项中,将频率谱数据值pvalue的值进行累加,学习次数study_num的值加1;
否则,在Li+1层对应的神经网络节点的表项中创建表项记录,包括vaild值置1,将指令中的pvalue值写入表项中的频率谱数据值pvalue中,学习次数study_num置1。
所述将待识别声音频谱与声音神经网络查找表中节点的表项进行比对,确定声音识别结果并输出声音,包括:
逐层深度的遍历声音神经网络查找表的所有节点,若有效位valid有效,则将待识别声音频谱的数据值与该节点对应的频率谱数据值pvalue进行比较,确定误差最小的节点的索引值index和该节点所在的深度deep;根据索引值index输出原样本声音。所述深度deep为该节点所在层的层号。
学习或识别过程中,若当前索引值index对应的时间戳timestamp在预设时间范围内没有变化,则删除该当前索引值index对应的表项内容。
本发明具有以下有益效果及优点:
1.本发明可以模糊声音长度进行比较匹配,在预处理算法中实现。
2.本发明可以任意配置神经网络节点矩阵的长度(对应频率谱采样数)与深度(对应学习深度)及每个节点表项的地址深度(对应可以学习的声音含义数)。
3.本发明有模拟人脑对记忆行为的模拟,可以根据表项中是timestamp时间戳进行缓慢遗忘。
4.本发明也可单独运用于集成电路,使用FPGA或设计成专用ASIC芯片。
5.本发明可以接入在多种系统总线,实现多种系统的硬件异构加速处理。
附图说明
图1为本发明的一种基于神经网络的声音识别方法流程图;
图2为本发明预处理中将音频采样信号从波形图转换为频率谱图;
图3为本发明中一种声音处理指令数据结构示意图;
图4为神经网络节点深度迭代示意图;
图5为神经网络节点表项矩阵图;
图6为本发明每个神经网络节点表项数据结构示意图;
图7为本发明实施实例中样本学习流程图;
图8为本发明实施实例中样本查找流程图;
图9为本发明中一种声音识别系统结构示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
如图1所示,为本发明实施例所提供的一种基于神经网络结构的声音识别方法的实施流程图,具体实施流程如下:
S110:根据声音识别指令,确定待识别的目标图像。在本发明实施例中,控制单元可以通过前端接口单元接收声音学习或者识别指令,如图2所示。图像识别指令中可以携带待识别的目标声音样本。根据声音识别指令,可以确定待识别的目标声音。
如图3所示,opcode代表操作指令,可以指示该学习或者识别指令;index代表索引,在学习指令时指定要写入表项的地址;deep代表查找的深度,在识别指令时返回查找到的深度,pvalue为频率谱信号值。
在接收到声音识别指令时,可以通过计算单元先对声音识别指令中的目标声音样本进行预处理,以达到加速及更加准确识别的目的。比如,可以对有限个时间识别样本进行插入样本或抽取样本的操作,使目标样本与本发明的查找表矩阵L0一层深度的节点数相匹配。同时使用短时傅里叶变换算法,将声音样本变换至频率谱,使声音特征区分更加明显,如图2所示。
本发明实施例所基于的神经网络结构如图4所示,为矩阵结构,矩阵的二维坐标系分别为Sn×Ln,其中每一个节点为一个神经元。在图4中,如果目标声音能量谱频率分辨率为64大小,则其每一个频率坐标可以对应[S0]至[S63]相应位置的神经元。
如图5所示,如果声音能量频率谱分辨率为64大小,则可以在L0层每一个频率坐标可以对应[S0]至[S63]相应位置的神经元,每一个神经元节点建立一张深度为N的查找表项,每一张表项如图6所示,矩阵深度Ln可以灵活配置,深度越深,代表可以容纳学习的次数越多,识别越准确。
S120:若判断声音处理指令opcode为学习指令,将目标所携带的数据按照索引index位置,将表项valid位设置成有效;将指令中pvalue的值与表项中pvalue的值进行迭代累加;同时可以向相邻两个神经网络节点的值进行有权值的迭代累加,如图3所示;并向表项内的学习次数study_num值+1;同时刷新timestamp,如图6流程所示。
S130:在步骤S120执行后,读取深度一层的神经网络节点表项,判断其表项valid值,识别该神经节点表项是否学习过,若该节点学习过,则重复执行S120步骤,直至迭代至空白节点表项,学习流程如图7所示。
S140:完成一次一个声音频率点的神经网络节点深度学习过程。
S150:若判断声音处理指令opcode为识别指令,需要对表项所有地址的表项依次读取进行比较;每次判断valid位是否有效,有效代表该表项有过学习记录;将声音频率谱样本与L0层的表项的所有地址的表项比较匹配一遍,记录下匹配最为接近的地址index值。
S160:使用S150匹配得到的地址index值向L1层(深度+1)的神经网络节点表项进行查找比较直至比较匹配至最深的未学习记录的深度值,整个识别查找过程如图8所示。
S140:完成一次一个声音频率点的神经网络节点深度匹配查找过程。
如图9所示,为本发明实施实例所提供的一种软硬件系统装置结构示意图;前端接口可以解析上层指令,与其交互的可以是通用x86架构下的PCI-E(PCI Express,新一代总线接口),还可以是ARM架构下AXI(Advanced extensible Interface,一种总线协议)等接口。
显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
Claims (8)
1.一种基于神经网络的声音识别方法,其特征在于,包括:
对样本声音、待识别声音进行预处理,得到样本声音频率谱、待识别声音频谱;
若声音指令为学习指令,则将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中,构建声音神经网络查找表;
若声音指令为识别指令,则将待识别声音频谱与声音神经网络查找表中节点的表项进行比对,确定声音识别结果并输出声音。
2.根据权利要求1所述的一种基于神经网络的声音识别方法,其特征在于所述预处理包括:
对样本声音、待识别声音进行插值、抽取采样得到定长的声音片段;
再经过短时傅里叶变换,得到样本声音频率谱、待识别声音频谱。
3.根据权利要求2所述的一种基于神经网络的声音识别方法,其特征在于所述短时傅里叶变换为:
其中,短时傅里叶变换是窗口选语音信号的标准傅里叶变换,n是窗口长度,ω是角频率,x(m)是时间点为m的声音信号序列,ω(n-m)表示窗函数,当n取值不同时,窗口w(n-m)沿着x(m)序列滑动,对声音信号进行截取,经过傅里叶变换将声音信号从时域变成频域,得到声音信号频率谱;经过变换后得到的声音频率谱的每个采样点与神经网络节点一一对应。
4.按照权利要求1所述一种基于神经网络的声音识别方法,其特征在于所述将样本声音频率谱的数据加权写入逐层深度的声音神经网络节点的表项中,构建声音神经网络查找表,包括:
如果该样本声音频率谱为首次学习,则将其数据在L0层对应的神经网络节点的表项中创建表项记录;
如果该样本声音频率谱为非首次学习,则对当前Li层的神经网络节点的表项进行迭代,并在Li+1层对应的神经网络节点的表项中创建表项记录。
5.按照权利要求4所述一种基于神经网络的声音识别方法,其特征在于所述表项记录包括:索引值index、指令opcode、频率谱数据值pvalue、学习次数study_num、时间戳timestamp、有效位valid;
所述索引值index表示样本声音频率谱的样本点编号、指令opcode表示当前频率谱数据是样本声音还是待识别声音、频率谱数据值pvalue为按照短时傅里叶变换后的数据值、学习次数study_num表示当前频率谱数据被声音神经网络记录的次数、时间戳timestamp表示最后一次记录该当前频率谱数据的时间、有效位valid表示当前频谱的数据值是否已经学习过。
6.按照权利要求4所述一种基于神经网络的声音识别方法,其特征在于所述如果该样本声音频率谱为非首次学习,则对当前Li层的神经网络节点的表项进行迭代,并在Li+1层对应的神经网络节点的表项中创建表项记录;包括:
根据有效位valid是否有效,若有效,则在Li层的神经网络节点表项中,将频率谱数据值pvalue的值进行累加,学习次数study_num的值加1;
否则,在Li+1层对应的神经网络节点的表项中创建表项记录,包括vaild值置1,将指令中的pvalue值写入表项中的频率谱数据值pvalue中,学习次数study_num置1。
7.按照权利要求1所述一种基于神经网络的声音识别方法,其特征在于所述将待识别声音频谱与声音神经网络查找表中节点的表项进行比对,确定声音识别结果并输出声音,包括:
逐层深度的遍历声音神经网络查找表的所有节点,若有效位valid有效,则将待识别声音频谱的数据值与该节点对应的频率谱数据值pvalue进行比较,确定误差最小的节点的索引值index和该节点所在的深度deep;根据索引值index输出原样本声音。
8.按照权利要求4或7所述一种基于神经网络的声音识别方法,其特征在于:学习或识别过程中,若当前索引值index对应的时间戳timestamp在预设时间范围内没有更改,则删除该当前索引值index对应的表项内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811430315.4A CN109285539B (zh) | 2018-11-28 | 2018-11-28 | 一种基于神经网络的声音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811430315.4A CN109285539B (zh) | 2018-11-28 | 2018-11-28 | 一种基于神经网络的声音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109285539A true CN109285539A (zh) | 2019-01-29 |
CN109285539B CN109285539B (zh) | 2022-07-05 |
Family
ID=65173729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811430315.4A Active CN109285539B (zh) | 2018-11-28 | 2018-11-28 | 一种基于神经网络的声音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109285539B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110324702A (zh) * | 2019-07-04 | 2019-10-11 | 三星电子(中国)研发中心 | 视频播放过程中的信息推送方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0844695A (ja) * | 1994-08-02 | 1996-02-16 | Hitachi Zosen Corp | 音源の識別方法 |
US20070299671A1 (en) * | 2004-03-31 | 2007-12-27 | Ruchika Kapur | Method and apparatus for analysing sound- converting sound into information |
CN105845127A (zh) * | 2015-01-13 | 2016-08-10 | 阿里巴巴集团控股有限公司 | 语音识别方法及其系统 |
CN106529609A (zh) * | 2016-12-08 | 2017-03-22 | 郑州云海信息技术有限公司 | 一种基于神经网络结构的图像识别方法及装置 |
KR101720514B1 (ko) * | 2016-02-26 | 2017-04-11 | 서강대학교산학협력단 | Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법 |
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
-
2018
- 2018-11-28 CN CN201811430315.4A patent/CN109285539B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0844695A (ja) * | 1994-08-02 | 1996-02-16 | Hitachi Zosen Corp | 音源の識別方法 |
US20070299671A1 (en) * | 2004-03-31 | 2007-12-27 | Ruchika Kapur | Method and apparatus for analysing sound- converting sound into information |
CN105845127A (zh) * | 2015-01-13 | 2016-08-10 | 阿里巴巴集团控股有限公司 | 语音识别方法及其系统 |
KR101720514B1 (ko) * | 2016-02-26 | 2017-04-11 | 서강대학교산학협력단 | Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법 |
CN106529609A (zh) * | 2016-12-08 | 2017-03-22 | 郑州云海信息技术有限公司 | 一种基于神经网络结构的图像识别方法及装置 |
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110324702A (zh) * | 2019-07-04 | 2019-10-11 | 三星电子(中国)研发中心 | 视频播放过程中的信息推送方法和装置 |
CN110324702B (zh) * | 2019-07-04 | 2022-06-07 | 三星电子(中国)研发中心 | 视频播放过程中的信息推送方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109285539B (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109948478B (zh) | 基于神经网络的大规模非均衡数据的人脸识别方法、系统 | |
CN108171257B (zh) | 细粒度图像识别模型训练及识别方法、装置及存储介质 | |
WO2019004671A1 (ko) | 인공지능 기반 악성코드 검출 시스템 및 방법 | |
CN107221320A (zh) | 训练声学特征提取模型的方法、装置、设备和计算机存储介质 | |
CN106529609B (zh) | 一种基于神经网络结构的图像识别方法及装置 | |
CN107463954B (zh) | 一种模糊异谱图像的模板匹配识别方法 | |
CN107103903A (zh) | 基于人工智能的声学模型训练方法、装置及存储介质 | |
JP6812086B2 (ja) | 網状パターン除去システムのトレーニング方法、網状パターン除去方法、装置、機器及び媒体 | |
CN112183099A (zh) | 基于半监督小样本扩展的命名实体识别方法及系统 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
WO2021194056A1 (en) | Method for training deep learning network based on artificial intelligence and learning device using the same | |
CN111949802A (zh) | 医学领域知识图谱的构建方法、装置、设备及存储介质 | |
CN108132428A (zh) | 局部放电多源分离的方法、装置 | |
CN110619264A (zh) | 基于UNet++的微地震有效信号识别方法及装置 | |
CN106485213A (zh) | 一种利用心电信号进行自动身份识别的特征提取方法 | |
CN110619216B (zh) | 一种对抗性网络的恶意软件检测方法及系统 | |
CN109285539A (zh) | 一种基于神经网络的声音识别方法 | |
CN111368648A (zh) | 雷达辐射源个体识别方法、装置、电子设备及其存储介质 | |
CN109408175A (zh) | 通用高性能深度学习计算引擎中的实时交互方法及系统 | |
CN109034070A (zh) | 一种置换混叠图像盲分离方法及装置 | |
WO2023113372A1 (ko) | 불균형 데이터에 대한 딥러닝 분류 모델 성능을 향상시키기 위한 레이블 기반 샘플 추출 장치 및 그 방법 | |
CN116070085A (zh) | 一种基于密度聚类的井孔模式波有效频散拾取方法和装置 | |
CN115079257A (zh) | 基于融合网络的q值估计及地震衰减补偿方法 | |
CN112381056B (zh) | 一种融合多个源域的跨域行人重识别方法及系统 | |
WO2022116508A1 (zh) | 基于获取并识别噪声全景分布模型的信号分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |