CN114724553A - 一种关键词的识别方法、系统、装置及存储介质 - Google Patents

一种关键词的识别方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN114724553A
CN114724553A CN202210295370.7A CN202210295370A CN114724553A CN 114724553 A CN114724553 A CN 114724553A CN 202210295370 A CN202210295370 A CN 202210295370A CN 114724553 A CN114724553 A CN 114724553A
Authority
CN
China
Prior art keywords
hardware
neural network
parameters
determining
architecture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210295370.7A
Other languages
English (en)
Inventor
陈弟虎
杨知衡
粟涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202210295370.7A priority Critical patent/CN114724553A/zh
Publication of CN114724553A publication Critical patent/CN114724553A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供的一种关键词的识别方法、系统、装置及介质,该方法主要包括以下步骤:获取音频信号以及存储阵列的硬件约束,对所述音频信号进行预处理得到语音特征图;根据所述语音特征图进行超网络训练,训练得到候选神经网络架构,并确定所述候选神经网络架构的网络架构参数以及权重参数;根据所述硬件约束确定硬件架构参数;根据所述硬件架构参数确定框架搜索空间;在所述框架搜索空间中通过评估函数更新所述网络架构参数以及所述硬件架构参数;根据更新后的网络架构参数构、更新后的硬件架构参数以及所述权重参数建构建得到神经网络加速器框架,通过所述神经网络加速器框架输出得到目标音频中的关键词,可广泛应用于机器学习技术领域。

Description

一种关键词的识别方法、系统、装置及存储介质
技术领域
本发明涉及机器学习技术领域,尤其是一种关键词的识别方法、系统、装置及介质。
背景技术
关键词识别是指从一段音频流中识别出目标关键词的过程,目前较为流行的关键词识别系统一般会基于神经网络框架。
如图1所示,相关技术中的框架首先令音频信号通过特征提取模块等语音识别前处理,转换为特征向量组成的声谱图,然后放入神经网络中进行不断对权重参数进行训练迭代,并采用验证集推理的方式得到精度,在迭代次数或loss值等停止条件的限制下,获得一定权重下的最佳精度,最后可以将权重参数放入神经网络加速器中进行验证。其中,语音识别前处理包括了梅尔频率倒谱系数、线性预测倒谱系数等特征提取算法;常用的神经网络结构有CNN、DNN、RNN、LSTM等,由于神经网络的训练过程是通过不断反向传播实现的,所以各层之间的协调更新能使得系统更易于在全局上进行优化,识别率也较传统的隐马尔科夫模型而言有明显的优势;在获得最佳精度后,就可以将最佳权重参数与网络结构移植入神经网络加速器、嵌入式系统等硬件端,用于实际的语音识别应用。
但是,以上流程非常依赖于丰富的神经网络先验知识和抉择,并且需要针对不同的数据集、目标任务进行独立设计以得到最适合的网络结构,人工设计的关键词识别神经网络与对应的加速器需要花费大量的人力物力、需要漫长的设计周期。
同时,人工设计的神经网络很多只考虑了网络精度这一标准,并没有考虑实际场景中硬件端所面临的功耗、实时性与资源开销等问题,这导致了研究者将深度学习应用于具体任务与平台上时充满了困难与挑战。
所以,若采用传统的关键词识别神经网络框架,很难在保证低设计成本的同时得到软硬件端全局最优的结果。
发明内容
有鉴于此,为至少部分解决上述技术问题之一,本发明实施例的目的在于提供一种成本更低、效果更佳的关键词的识别方法,以及对应能够实现该方法的系统、装置以及存储介质。
一方面,本申请技术方案提供了一种关键词的识别方法,包括以下步骤:
获取音频信号以及存储阵列的硬件约束,对所述音频信号进行预处理得到语音特征图;
根据所述语音特征图进行超网络训练,训练得到候选神经网络架构,并确定所述候选神经网络架构的网络架构参数以及权重参数;
根据所述硬件约束确定硬件架构参数;
根据所述硬件架构参数确定框架搜索空间;
在所述框架搜索空间中通过评估函数更新所述网络架构参数以及所述硬件架构参数;
根据更新后的网络架构参数构、更新后的硬件架构参数以及所述权重参数建构建得到神经网络加速器框架,通过所述神经网络加速器框架输出得到目标音频中的关键词。
在本申请方案的一种可行的实施例中,所述获取音频信号以及存储阵列的硬件约束,对所述音频信号进行预处理得到语音特征图这一步骤,包括:
对所述音频信号进行预加重,然后对预加重后的音频信号进行分帧得到长时语音信号;
对所述长时语音信号进行加窗处理得到短时语音信号;
对所述短时语音信号进行快速傅里叶变换得到频率分量;
根据所述频率分量进行转换得到梅尔频率信号,对所述梅尔频率进行倒谱运算得到所述语音特征图。
在本申请方案的一种可行的实施例中,所述根据所述语音特征图进行超网络训练,训练得到候选神经网络架构,并确定所述候选神经网络架构的网络架构参数以及权重值这一步骤,包括:
生成二进制架构参数,根据所述二进制架构参数确定激活路径;
根据所述语音特征图构建得到训练集,根据所述训练集通过随机梯度下降法训练得到所述激活路径的权重参数;
固定所述权重参数,根据所述语音特征图构建得到验证集,通过所述验证集确定所述网络架构参数;
根据所述网络架构参数通过采样二值门生成候选神经网络架构。
在本申请方案的一种可行的实施例中,所述根据所述硬件架构参数确定框架搜索空间,包括以下步骤至少之一:
根据计算阵列的并行度确定框架搜索空间;
根据输入特征图的复用方式确定框架搜索空间;
根据神经网络的算子类型确定框架搜索空间。
在本申请方案的一种可行的实施例中,所述在所述框架搜索空间中通过评估函数更新所述网络架构参数以及所述硬件架构参数这一步骤,包括:
获取所述候选神经网络架构的准确度;
根据所述硬件架构参数确定硬件时延;
根据所述准确度以及所述硬件时延计算得到评估函数评分;
根据所述评估函数评分对所述网络架构参数以及所述硬件架构参数进行迭代更新。
在本申请方案的一种可行的实施例中,所述根据所述硬件架构参数确定硬件时延这一步骤包括:
根据计算延时与片外访存延时的和,确定所述硬件时延;
所述计算延时通过单层计算量之和除以有效计算并行度得到;所述片外访存延时通过总访存数据量乘以数据位宽除以带宽得到。
在本申请方案的一种可行的实施例中,所述根据更新后的网络架构参数构、更新后的硬件架构参数以及所述权重参数建构建得到神经网络加速器框架,通过所述神经网络加速器框架输出得到目标音频中的关键词这一步骤,包括:
根据更新后的网络架构参数构建得到目标神经网络;
根据更新后的硬件架构参数确定数据复用方式与计算并行度;
将所述权重参数与目标特征图数据输入至所述目标神经网络;
根据所述数据复用方式以及所述计算并行度控制所述目标神经网络进行计算。
另一方面,本申请技术方案还提供了一种关键词的识别系统,该系统包括:
信息获取单元;用于获取音频信号以及存储阵列的硬件约束;
神经网络加速器软硬件协同优化单元;用于对所述音频信号进行预处理得到语音特征图;根据所述硬件约束确定硬件架构参数;以及,根据所述语音特征图进行超网络训练,训练得到候选神经网络架构,并确定所述候选神经网络架构的网络架构参数以及权重参数;根据所述硬件架构参数确定框架搜索空间;在所述框架搜索空间中通过评估函数更新所述网络架构参数以及所述硬件架构参数;
可重构加速器设计单元;用于根据更新后的网络架构参数构、更新后的硬件架构参数以及所述权重参数建构建得到神经网络加速器框架,通过所述神经网络加速器框架输出得到目标音频中的关键词。
另一方面,本申请技术方案还提供一种关键词的识别装置,该装置包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器运行如第一方面中任一项所述的一种关键词的识别方法。
另一方面,本申请技术方案还提供一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如第一方面中任一项所述的一种关键词的识别方法。
本发明的优点和有益效果将在下面的描述中部分给出,其他部分可以通过本发明的具体实施方式了解得到:
本申请技术方案所提出的一种关键词的识别方法,分别通过神经网络架构搜索方法与可重构加速器设计体现出设计的自动化特性,并且在算法端的设计中同时考虑了神经网络的准确度与硬件架构的硬件延时等软硬件指标,使用者可以采用该方法自动且全面地获得目标任务所需的最佳神经网络结构与对应的加速器设计;方案考虑了算法端的神经网络精度与加速器端的硬件资源开销,全面地考虑了实际应用中软硬件的多项性能指标,在降低了开发成本的同时,提高了关键词识别的精确度,能够有效解决人工设计关键词识别神经网络成本高周期长的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为相关技术中所提供的关键词识别神经网络框图;
图2为本申请技术方案一种关键词的识别方法的步骤流程图;
图3为本申请技术方案中语音识别前处理的步骤流程图;
图4为本申请技术方案中超网络训练过程的步骤流程图;
图5为本申请技术方案中神经网络架构搜索的步骤流程图;
图6为本申请技术方案中软硬件协同搜索的性能评估的步骤流程图;
图7为本申请技术方案中可重构加速器设计单元的结构示意图;
图8为本申请技术方案中所提供一种关键词的识别方法的系统结构图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
基于背景技术中所指出的,在相关技术中,关键词识别神经网络框架设计过程中普遍存在着高成本与软硬件考虑不充分的缺点,本申请提出了一种面向关键词识别神经网络的软硬件协同自动优化方案。方案在算法端(软件端)与加速器端(硬件端)的设计中,分别通过神经网络架构搜索方法与可重构加速器设计体现出设计的自动化特性,并且在算法端的设计中同时考虑了神经网络的准确度与硬件架构的硬件延时等软硬件指标,使用者可以采用本方案所提供的实施例自动且全面地获得目标任务所需的最佳神经网络结构与对应的加速器设计。
一方面,本申请技术方案提供了一种关键词的识别方法;该方法主要包括步骤S100-S600:
S100、获取音频信号以及存储阵列的硬件约束,对所述音频信号进行预处理得到语音特征图;
具体在实施例中,首先,音频信号需要通过语音识别前处理转变为语音特征图,直接传入神经网络-加速器软硬件协同优化框架中。
S200、根据所述语音特征图进行超网络训练,训练得到候选神经网络架构,并确定所述候选神经网络架构的网络架构参数以及权重参数;
具体在实施例中,根据步骤S100所得到的语音特征图,实施例所提供的框架内部的神经网络架构搜索模块接收语音输入特征图的数据,开始进行超网络的训练。本实施例所采用的神经网络架构搜索不同于传统神经网络,它需要交替训练权重参数与架构参数,权重参数代表卷积计算中的权值和偏置,架构参数代表超网络中每种算子的选择率。通过反复训练与推理,该框架可以自动搜索出最佳的网络结构。
S300、根据所述硬件约束确定硬件架构参数;即通过必要的用户交互流程,获取得到对实施例架构的硬件架构参数。
具体在实施例中,由于在训练阶段需要考虑硬件指标,实施例建立了针对加速器并行度参数与复用方式的延时模型,将加速器延时作为硬件端的优化目标,和每次训练得到的推理精度一同放入评估函数中进行评估。
S400、根据所述硬件架构参数确定框架搜索空间。
具体在实施例中,针对所提出硬件需求,实施例可以选择所需的设计空间,包括计算阵列的并行度、输入特征图的复用方式与神经网络的算子类型。
S500、在所述框架搜索空间中通过评估函数更新所述网络架构参数以及所述硬件架构参数;
具体在实施例中,可以将加速器延时作为硬件端的优化目标,和每次训练得到的推理精度一同放入评估函数中进行评估。评估完成后,根据每次评估的效果优劣程度判断是否需要再次进行搜索。反复迭代上述过程后,可以得到同时考虑神经网络精度与硬件延时的最佳网络结构与最优的硬件设计方案。需要说明的是,实施例中的推理进度是当前已经训练得到(候选)神经网络架构通过测试集进行推理预测得到的精确度值。
S600、根据更新后的网络架构参数构、更新后的硬件架构参数以及所述权重参数建构建得到神经网络加速器框架,通过所述神经网络加速器框架输出得到目标音频中的关键词;
具体在实施例中,将网络结构参数与硬件设计方案传入可重构加速器设计模块中,该模块会根据硬件设计方案自动地修改加速器配置,得到对应的加速器RTL代码;同时该模块会针对搜索得到的最佳网络进行训练,并对训练后的最优权重进行量化,量化后的权值与对应的加速器模板可以用于具体的关键词语言识别应用。
如图2所示,针对本申请所提供关键词的识别方法的实施例,其完整的实施过程描述如下:
首先需要传入音频信号,通常选择为语音数据集中的.wav格式文件。然后使用者可以在算法端设置目标硬件约束,例如加速器端的DSP数量、片上缓存大小等。同时,使用者需要设置神经网络架构搜索中的超网络初始参数,包括所需的超网络层数、卷积计算通道数和初始学习率等。最后,针对硬件需求,使用者可以选择所需的设计空间,包括计算阵列的并行度、输入特征图的复用方式与神经网络的算子类型。在上述初始设定完成后,该优化框架将自动进行神经搜索工作,得到兼顾软硬件参数的最佳网络模型与最优的硬件设计方案,并传入可重构加速器模块中生成相应的加速器模板与权重参数。
需要说明的是,本申请技术方案可以将语音识别前处理修改为其他处理单元,将该优化方法应用于不同领域。并且,优化框架中的神经网络架构搜索方法与评估函数方案有很多种,可以采用不同的组合达到相似的效果。
在一些可以选择的实施例中,如图3所示,实施例方法中,语音识别前处理采用的是梅尔频率倒谱系数算法,它将音频信号转换为低维度的频域信号,能够很好地提取音频中的特征信息,传统的MFCC特征提取主要包括:预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波、取对数与离散余弦变换(DCT);进而,方法中获取音频信号以及存储阵列的硬件约束,对所述音频信号进行预处理得到语音特征图这一步骤S100,其可以包括步骤S110-S140:
S110、对所述音频信号进行预加重,然后对预加重后的音频信号进行分帧得到长时语音信号;具体在实施例中,预加重为音频添加了一个高通滤波器,使得频谱看起来更加平坦;分帧将语音序列切割为有限数量的等长短时语音序列。
S120、对所述长时语音信号进行加窗处理得到短时语音信号;其中,加窗可以使得分帧后的短时语音信号边缘平滑,保证端点的连续性。
S130、对所述短时语音信号进行快速傅里叶变换得到频率分量;快速傅里叶变换(FFT)大大减少了傅里叶变换的计算复杂度,其目的是将时域信号转换为频率分量在时间轴上的分布。需要说明的是,实施例中也可以采用如图3中所示的短时傅里叶变换(STFT)得到频率分量。
S140、根据所述频率分量进行转换得到梅尔频率信号,对所述梅尔频率进行倒谱运算得到所述语音特征图;在实施例中,为了适应人耳的听觉,需要将语音序列的实际频率转换为模拟人耳听觉的梅尔频率;由于声音信号的特征主要分布在能量谱的低频部分,为了直接获得低频信息,需要将梅尔能量取对数后做DCT倒谱运算,最后得到包含关键词特征参数的语音特征图。
在一些可以选择的实施例中,实施例方法根据所述语音特征图进行超网络训练,训练得到候选神经网络架构,并确定所述候选神经网络架构的网络架构参数以及权重值这一步骤S200,可以包括步骤S210-S240:
S210、生成二进制架构参数,根据所述二进制架构参数确定激活路径;
S220、根据所述语音特征图构建得到训练集,根据所述训练集通过随机梯度下降法训练得到所述激活路径的权重参数;
S230、固定所述权重参数,根据所述语音特征图构建得到验证集,通过所述验证集确定所述网络架构参数;
S240、根据所述网络架构参数通过采样二值门生成候选神经网络架构;
具体在实施例中,如图4所示,实施例超网络训练时采用了权重参数与架构参数反复迭代的方法,完整训练过程为:
首先取关键词识别的输入特征图数据,根据随机生成的二进制架构参数激活一条路径,同时冻结其他路径;固定架构参数后,在训练集上使用随机梯度下降法(SGD)训练这条路径的权重参数;固定训练后的权重参数,使用验证集来更新网络架构参数,通过采样二值门获得当前架构;并一直循环训练权重参数以及训练网络架构参数的步骤。
此外,如图5所示,本申请技术方案优化算法主要是在神经网络架构搜索(NAS)的基础上做改动;为此,实施例方法在据所述网络架构参数以及所述硬件架构参数确定框架搜索空间这一步骤S400中,还可以包括步骤S410-S430:
S410、根据计算阵列的并行度确定框架搜索空间;
S420、根据输入特征图的复用方式确定框架搜索空间;
S430、根据神经网络的算子类型确定框架搜索空间。
具体在实施例中,使用神经网络架构搜索框架时,需要采用搜索策略在搜索空间中对网络结构进行搜索,该结果会放入性能评估器中获得模型的准确度,随后,返回的准确度将指导搜索策略向搜索空间中更优的结构进行收敛,反复迭代后获得最优的网络结构。为了同时考虑硬件架构参数,例如:加速器参数,实施例还需要拓展框架搜索空间,即在框架搜索空间中加入加速器并行度参数、特征图的复用方式、神经网络的算子类型、片上缓存大小以及片上缓存带宽等限制。通过这种方法,可以使得神经网络搜索在考虑软硬件架构参数的同时,自动地生成神经网络结构。
在一些可以选择的实施例中,实施例方法在所述框架搜索空间中通过评估函数更新所述网络架构参数以及所述硬件架构参数这一步骤S500中,可以包括步骤S510-S540:
S510、获取所述候选神经网络架构的准确度;
S520、根据所述硬件架构参数确定硬件时延;
S530、根据所述准确度以及所述硬件时延计算得到评估函数评分;
S540、根据所述评估函数评分对所述网络架构参数以及所述硬件架构参数进行迭代更新。
具体地,如图6所示,实施例在超网络训练过程中为了同时对软件端的神经网络准确度(精度)与硬件端的延时进行评估,本发明使用了基于强化学习的评估函数;
将当前架构的硬件延时与该架构对应的神经网络精度放入强化学习的评估函数中,这样可以使得在更新架构权重时,能够同时考虑验证集推理的准确度和硬件架构搜索获得的延时:
Figure BDA0003563097130000081
其中,Reward为评估函数得分,acc为当前架构的神经网络准确度,ref_latency与latency为需要预先设置的参考硬件延时与比率,latency为当前架构的硬件延时。
更进一步地,根据所述硬件架构参数确定硬件时延这一步骤S530中,其是根据计算延时与片外访存延时的和,确定所述硬件时延;其中,计算延时通过单层计算量之和除以有效计算并行度得到;所述片外访存延时通过总访存数据量乘以数据位宽除以带宽得到。
具体地,在硬件延时模型中,总延时latency为:
latency=latencyPP+latencyMA
单层计算的延时latencyOP等于单层计算量之和TotalOperations除以有效计算并行度,即满足:
Figure BDA0003563097130000091
其中,PE为并行度,O表示单层的输出特征图,I表示单层的输入特征图,K表示卷积核,P表示加速器中各方向上的并行度。
Ow、Oh分别表示输出特征图的宽度与高度;Ic、Oc分别表示输入特征图与输出特征图的通道数量;Kw、Kh分别表示卷积核的宽度与高度;Pox、Poy、Pic、Poc分别代表输出特征图xy方向、输出通道方向、输入通道方向上的计算并行度,PE_表示PE阵列的有效利用率。即PE×PE_Utility表示有效计算并行度。
另外,片外访存延时等于总访存数据量Total Amount of Data乘以数据位宽DataWidth除以带宽Bandwidth,即满足:
Figure BDA0003563097130000092
在一些可以选择的实施例中,实施例方法根据更新后的网络架构参数构、更新后的硬件架构参数以及所述权重参数建构建得到神经网络加速器框架,通过所述神经网络加速器框架输出得到目标音频中的关键词这一步骤S600,可以包括步骤S610-S640:
S610、根据更新后的网络架构参数构构建得到目标神经网络;
S620、根据更新后的硬件架构参数确定数据复用方式与计算并行度;
S630、将所述权重参数与目标特征图数据输入至所述目标神经网络;
S640、根据所述数据复用方式以及所述计算并行度控制所述目标神经网络进行计算;
具体在实施例中,如图7所示,网络架构参数与硬件方案(硬件架构参数)将以编码的形式传入处理系统中,再通过中央处理器对加速器的可编程逻辑模块进行初始化配置。同时,权重参数会才处理系统中通过INT8的方式进行量化,得以更方便地传入加速器中进行验证。
可编程逻辑模块中的配置寄存器通过AXI-lite总线接收CPU中传来的初始化配置信号,根据硬件方案中的参数,自动修改顶层文件中的数据复用方式与计算并行度,并指引全局控制器开始控制神经网络的计算过程。从软硬件优化模块传入处理系统的最佳权重参数在量化后会通过AXI-4总线传入可编程逻辑模块的权重缓存中,在存储控制器的控制下,与数据缓存A中的输入特征图数据一起传入计算单元阵列进行神经网络的卷积计算。最后的计算结果将经过数据缓存B与外部存储传出,得到所需的关键词识别概率。
另一方面,如图8所示,本申请的技术方案还提供一种关键词的识别系统;其包括:
信息获取单元;用于获取音频信号以及存储阵列的硬件约束;
神经网络加速器软硬件协同优化单元;用于对所述音频信号进行预处理得到语音特征图;根据所述硬件约束确定硬件架构参数;以及,根据所述语音特征图进行超网络训练,训练得到候选神经网络架构,并确定所述候选神经网络架构的网络架构参数以及权重参数;根据所述硬件架构参数确定框架搜索空间;在所述框架搜索空间中通过评估函数更新所述网络架构参数以及所述硬件架构参数;
可重构加速器设计单元;用于根据更新后的网络架构参数构、更新后的硬件架构参数以及所述权重参数建构建得到神经网络加速器框架,通过所述神经网络加速器框架输出得到目标音频中的关键词。
第三方面,本申请的技术方案还提供一种关键词的识别装置,其包括至少一个处理器;至少一个存储器,该存储器用于存储至少一个程序;当至少一个程序被至少一个处理器执行,使得至少一个处理器运行如第一方面中的一种关键词的识别方法。
本发明实施例还提供了一种存储介质内存储有程序,程序被处理器执行,实现第一方面中的任意一种关键词的识别方法。
从上述具体的实施过程,可以总结出,本发明所提供的技术方案相较于现有技术存在以下优点或优势:
1.本申请技术方案提出了一种面向关键词识别神经网络的软硬件协同自动优化方法,用于解决人工设计关键词识别神经网络成本高周期长的问题。
2.本申请技术方案在神经网络架构搜索时,考虑了算法端的神经网络精度与加速器端的硬件资源开销,全面地考虑了实际应用中软硬件的多项性能指标
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种关键词的识别方法,其特征在于,包括以下步骤:
获取音频信号以及存储阵列的硬件约束,对所述音频信号进行预处理得到语音特征图;根据所述语音特征图进行超网络训练,训练得到候选神经网络架构,并确定所述候选神经网络架构的网络架构参数以及权重参数;
根据所述硬件约束确定硬件架构参数;
根据所述硬件架构参数确定框架搜索空间;
在所述框架搜索空间中通过评估函数更新所述网络架构参数以及所述硬件架构参数;
根据更新后的网络架构参数构、更新后的硬件架构参数以及所述权重参数建构建得到神经网络加速器框架,通过所述神经网络加速器框架输出得到目标音频中的关键词。
2.根据权利要求1所述的一种关键词的识别方法,其特征在于,所述获取音频信号以及存储阵列的硬件约束,对所述音频信号进行预处理得到语音特征图这一步骤,包括:
对所述音频信号进行预加重,然后对预加重后的音频信号进行分帧得到长时语音信号;
对所述长时语音信号进行加窗处理得到短时语音信号;
对所述短时语音信号进行快速傅里叶变换得到频率分量;
根据所述频率分量进行转换得到梅尔频率信号,对所述梅尔频率进行倒谱运算得到所述语音特征图。
3.根据权利要求1所述的一种关键词的识别方法,其特征在于,所述根据所述语音特征图进行超网络训练,训练得到候选神经网络架构,并确定所述候选神经网络架构的网络架构参数以及权重值这一步骤,包括:
生成二进制架构参数,根据所述二进制架构参数确定激活路径;
根据所述语音特征图构建得到训练集,根据所述训练集通过随机梯度下降法训练得到所述激活路径的权重参数;
固定所述权重参数,根据所述语音特征图构建得到验证集,通过所述验证集确定所述网络架构参数;
根据所述网络架构参数通过采样二值门生成候选神经网络架构。
4.根据权利要求1所述的一种关键词的识别方法,其特征在于,所述根据所述硬件架构参数确定框架搜索空间,包括以下步骤至少之一:
根据计算阵列的并行度确定框架搜索空间;
根据输入特征图的复用方式确定框架搜索空间;
根据神经网络的算子类型确定框架搜索空间。
5.根据权利要求1所述的一种关键词的识别方法,其特征在于,所述在所述框架搜索空间中通过评估函数更新所述网络架构参数以及所述硬件架构参数这一步骤,包括:
获取所述候选神经网络架构的准确度;
根据所述硬件架构参数确定硬件时延;
根据所述准确度以及所述硬件时延计算得到评估函数评分;
根据所述评估函数评分对所述网络架构参数以及所述硬件架构参数进行迭代更新。
6.根据权利要求5所述的一种关键词的识别方法,其特征在于,所述根据所述硬件架构参数确定硬件时延这一步骤包括:
根据计算延时与片外访存延时的和,确定所述硬件时延;
所述计算延时通过单层计算量之和除以有效计算并行度得到;所述片外访存延时通过总访存数据量乘以数据位宽除以带宽得到。
7.根据权利要求1-6任一项所述的一种关键词的识别方法,其特征在于,所述根据更新后的网络架构参数构、更新后的硬件架构参数以及所述权重参数建构建得到神经网络加速器框架,通过所述神经网络加速器框架输出得到目标音频中的关键词这一步骤,包括:
根据更新后的网络架构参数构建得到目标神经网络;
根据更新后的硬件架构参数确定数据复用方式与计算并行度;
将所述权重参数与目标特征图数据输入至所述目标神经网络;
根据所述数据复用方式以及所述计算并行度控制所述目标神经网络进行计算。
8.一种关键词的识别系统,其特征在于,所述系统包括:
信息获取单元;用于获取音频信号以及存储阵列的硬件约束;
神经网络加速器软硬件协同优化单元;用于对所述音频信号进行预处理得到语音特征图;根据所述硬件约束确定硬件架构参数;以及,根据所述语音特征图进行超网络训练,训练得到候选神经网络架构,并确定所述候选神经网络架构的网络架构参数以及权重参数;根据所述硬件架构参数确定框架搜索空间;在所述框架搜索空间中通过评估函数更新所述网络架构参数以及所述硬件架构参数;
可重构加速器设计单元;用于根据更新后的网络架构参数构、更新后的硬件架构参数以及所述权重参数建构建得到神经网络加速器框架,通过所述神经网络加速器框架输出得到目标音频中的关键词。
9.一种关键词的识别装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器运行如权利要求1-7任一项所述的一种关键词的识别方法。
10.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于运行如权利要求1-7中任一项所述的一种关键词的识别方法。
CN202210295370.7A 2022-03-24 2022-03-24 一种关键词的识别方法、系统、装置及存储介质 Pending CN114724553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210295370.7A CN114724553A (zh) 2022-03-24 2022-03-24 一种关键词的识别方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210295370.7A CN114724553A (zh) 2022-03-24 2022-03-24 一种关键词的识别方法、系统、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114724553A true CN114724553A (zh) 2022-07-08

Family

ID=82239302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210295370.7A Pending CN114724553A (zh) 2022-03-24 2022-03-24 一种关键词的识别方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114724553A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648946A (zh) * 2024-01-30 2024-03-05 南湖实验室 一种面向安全关键系统的dnn模型自动生成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648946A (zh) * 2024-01-30 2024-03-05 南湖实验室 一种面向安全关键系统的dnn模型自动生成方法

Similar Documents

Publication Publication Date Title
KR102333939B1 (ko) 절단 어텐션에 기반하는 실시간 음성 인식 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체
Liu et al. Diffsinger: Singing voice synthesis via shallow diffusion mechanism
US11081103B2 (en) Speech recognition method, apparatus, and computer readable storage medium
CN107331384A (zh) 语音识别方法、装置、计算机设备及存储介质
CN107633842A (zh) 语音识别方法、装置、计算机设备及存储介质
Pawar et al. Convolution neural network based automatic speech emotion recognition using Mel-frequency Cepstrum coefficients
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
KR101120765B1 (ko) 스위칭 상태 스페이스 모델과의 멀티모덜 변동 추정을이용한 스피치 인식 방법
CN112259089B (zh) 语音识别方法及装置
CN109147774B (zh) 一种改进的延时神经网络声学模型
JP2021501417A (ja) ニューラルアーキテクチャ検索
JP2023542685A (ja) 音声認識方法、音声認識装置、コンピュータ機器、及びコンピュータプログラム
CN114242044B (zh) 语音质量评估方法、语音质量评估模型训练方法及装置
CN114596844B (zh) 声学模型的训练方法、语音识别方法及相关设备
CN112151003A (zh) 并行语音合成方法、装置、设备以及计算机可读存储介质
CN111508469A (zh) 一种文语转换方法及装置
CN112562655A (zh) 残差网络的训练和语音合成方法、装置、设备及介质
CN114724553A (zh) 一种关键词的识别方法、系统、装置及存储介质
CN113409757A (zh) 基于人工智能的音频生成方法、装置、设备及存储介质
Sharma et al. Automatic speech recognition systems: challenges and recent implementation trends
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
CN113345454B (zh) 语音转换模型的训练、应用方法、装置、设备及存储介质
CN115171660A (zh) 一种声纹信息处理方法、装置、电子设备及存储介质
CN112633516B (zh) 性能预测和机器学习编译优化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination