CN114937449A - 一种语音关键词识别方法及系统 - Google Patents
一种语音关键词识别方法及系统 Download PDFInfo
- Publication number
- CN114937449A CN114937449A CN202110163912.0A CN202110163912A CN114937449A CN 114937449 A CN114937449 A CN 114937449A CN 202110163912 A CN202110163912 A CN 202110163912A CN 114937449 A CN114937449 A CN 114937449A
- Authority
- CN
- China
- Prior art keywords
- keyword
- sub
- feature
- voice
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 104
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000003062 neural network model Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 238000001228 spectrum Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000011002 quantification Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 19
- 238000013139 quantization Methods 0.000 description 6
- 238000012216 screening Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种语音关键词识别方法及系统,该方法包括:对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量;将所述模拟语音关键词特征向量输入到训练好的特征配置模型中,获取语音关键词识别结果,其中,所述训练好的特征配置模型是通过标记有关键词类型标签的样本模拟语音关键词特征向量和预设准确率损失阈值,对神经网络模型进行训练得到的,所述神经网络模型包括多个子网络,且每个子网络识别对应的关键词;根据所述语音关键词识别结果,将所述训练好的特征配置模型中对应的子网络执行开启和关闭操作。本发明实现了动态调整的特征可配置性,在保持准确率的前提下,进一步降低了KWS系统的功耗和计算延迟。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音关键词识别方法及系统。
背景技术
物联网(IoT)设备是承载语音交互的重要场景,图1为本发明提供的在现有技术实际应用场景中IoT设备识别不同关键词种类的示意图,如图1所示,窗帘控制器的关键词是“开窗”、“关窗”、“停止”,台灯的关键词是“开灯”、“关灯”。传统的解决方案是,从不同IoT设备采集的原始语音数据会发送到中央处理器,处理后再将结果返回,这会导致较大的延时和收发数据带来的功耗。语音关键词识唤醒(Keyword Spotting,简称KWS)模块负责实时检测用户是否说出预先设定的关键词来唤醒设备,通常该模块会被嵌入到各式IoT设备中来专门识别用户的指令,大大减少了传入到中央处理器的数据,例如只有通过KWS模块唤醒的设备才会传送数据到中央处理器进行语音识别,完成更加复杂的交互。由于关键词唤醒的场景具有有效数据稀疏、常开和实时的特点,终端设备的能源以及计算能力又受到限制,设备常开会消耗大量的能量,导致待机时间短,还会严重影响用户体验;同时设备频繁误唤醒或无响应,也会降低其可用性。面对复杂多变的语音交互环境以及不同的硬件限制,现在语音唤醒模块在实际部署中仍然存在诸多挑战。
图2为本发明提供的现有技术中采用单个神经网络的KWS芯片在实际场景中的应用示意图,如图2所示,在系统层面,传统的KWS模块是通过单个神经网络一次完成对多个关键词的识别,KWS芯片通常不可配置,完成的是单个神经网络的计算,对于不同IoT节点的特定应用来说,关键词数量和种类需求也是不一样的,因而KWS芯片上的部分处理资源容易被浪费;在算法层面,传统的特征提取部分提取的是固定的特征,对所有的关键词来说都是一样的,即从所有频带里选取一样数目的特征,然后送到神经网络进行识别,然而,全频带的特征对每个关键词来说,是有冗余度的;硬件层面,传统的数字域实现KWS系统的关键词识别,会遇到模数转换器(Analog Digital Converter,简称ADC)的瓶颈问题,图3为本发明提供的现有技术中KWS系统各模块的功耗占比示意图,如图3所示,根据KWS系统中各模块的功耗占比情况,ADC占据的功耗最大,若直接降低ADC的采样频率与量化位数,会造成识别准确率的严重下降。
因此,现在亟需一种语音关键词识别方法及系统来解决上述问题。
发明内容
针对现有技术存在的问题,本发明提供一种语音关键词识别方法及系统。
本发明提供一种语音关键词识别方法,包括:
对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量;
将所述模拟语音关键词特征向量输入到训练好的特征配置模型中,获取语音关键词识别结果,其中,所述训练好的特征配置模型是通过标记有关键词类型标签的样本模拟语音关键词特征向量和预设准确率损失阈值,对神经网络模型进行训练得到的,所述神经网络模型包括多个子网络,且每个子网络识别对应的关键词;
根据所述语音关键词识别结果,将所述训练好的特征配置模型中对应的子网络执行开启和关闭操作。
根据本发明提供的一种语音关键词识别方法,所述训练好的特征配置模型通过以下步骤训练得到:
根据标记有不同关键词类型标签的样本模拟语音关键词特征向量,构建多个训练样本集;
将每个训练样本集输入到对应的初始子网络进行训练,获取多个第一子网络,以及对应的第一关键词识别准确率;
根据预设准确率损失阈值,对每个第一关键词识别准确率进行判断,若满足预设条件,得到训练好的特征配置模型。
根据本发明提供的一种语音关键词识别方法,所述根据预设准确率损失阈值,对每个第一关键词识别准确率进行判断,若满足预设条件,得到训练好的特征配置模型,包括:
步骤S1,根据预设准确率损失阈值,对每个第一关键词识别准确率进行判断;
步骤S2,若判断获知第一关键词识别准确率小于等于所述预设准确率损失阈值,则对所述样本模拟语音关键词特征向量进行降维处理,得到降维后的样本模拟语音关键词特征向量;
步骤S3,将所述降维后的样本模拟语音关键词特征向量,输入到对应的第一子网络中进行训练,得到第二子网络和对应的第二关键词识别准确率,根据第二关键词识别准确率得到第二关键词识别准确率损失值,若判断获知第二关键词识别准确率损失值大于所述预设准确率损失阈值,得到训练好的特征配置模型;否则,将所述降维后的样本模拟语音关键词特征向量、第二子网络以及第二关键词识别准确率用于下一轮训练,重新执行步骤S2至步骤S3,直到满足当前训练过程中得到的关键词识别准确率损失值大于所述预设准确率损失阈值。
根据本发明提供的一种语音关键词识别方法,所述对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量,包括:
对待识别的模拟语音信号进行滤波处理,获取全频段的频谱信息;
基于平方器,获取所述全频段频谱信息对应的全频段能量谱信息;
基于模拟低通滤波器,对所述全频段能量谱信息进行滤波处理,获取多个频带的平均能量信息;
根据所述多个频带的平均能量信息,获取模拟语音关键词特征向量。
根据本发明提供的一种语音关键词识别方法,所述多个子网络为门控神经网络。
根据本发明提供的一种语音关键词识别方法,所述将所述模拟语音关键词特征向量输入到训练好的特征配置模型中,获取语音关键词识别结果之前,所述方法还包括:对训练好的特征配置模型的网络权重和激活值进行权值量化。
本发明还提供一种语音关键词识别系统,包括:
特征提取模块,用于对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量;
特征配置模块,用于将所述模拟语音关键词特征向量输入到训练好的特征配置模型中,获取语音关键词识别结果,其中,所述训练好的特征配置模型是通过标记有关键词类型标签的样本模拟语音关键词特征向量和预设准确率损失阈值,对神经网络模型进行训练得到的,所述神经网络模型包括多个子网络,且每个子网络识别对应的关键词;
识别结果执行模块,用于根据所述语音关键词识别结果,将所述训练好的特征配置模型中对应的子网络执行开启和关闭操作。
根据本发明提供的一种语音关键词识别系统,所述系统还包括:
训练样本集构建模块,用于根据标记有不同关键词类型标签的样本模拟语音关键词特征向量,构建多个训练样本集;
子网络关键词识别模块,将每个训练样本集输入到对应的初始子网络进行训练,获取多个第一子网络,以及对应的第一关键词识别准确率;
关键词识别准确率判断模块,用于根据预设准确率损失阈值,对每个第一关键词识别准确率进行判断,若满足预设条件,得到训练好的特征配置模型。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音关键词识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音关键词识别方法的步骤。
本发明提供的语音关键词识别方法及系统,通过对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量,然后将模拟语音关键词特征向量与特征配置模型结合,根据预设准确率损失阈值,为子网络筛选最优特征向量,获取语音关键词识别结果,然后根据语音关键词识别结果,将特征配置模型中对应的子网络执行开启和关闭操作,实现了动态调整的特征可配置性,在保持关键词识别准确率的前提下,进一步降低了KWS系统的功耗和计算延迟。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的在现有技术实际应用场景中IoT设备识别不同的关键词种类的示意图;
图2为本发明提供的现有技术中采用单个神经网络的KWS芯片在实际场景中的应用示意图;
图3为本发明提供的现有技术中KWS系统各模块的功耗占比示意图;
图4为本发明提供的语音关键词识别方法的流程示意图;
图5为本发明提供的现有技术中KWS系统的结构示意图;
图6为本发明提供的现有技术中不同特征维度对识别准确率的贡献示意图;
图7为本发明提供的特征配置模型的自动化选择特征过程和设计实例示意图;
图8为本发明提供的不同关键词对应的能量谱以及各个分布式子网络的识别准确率随不同输入特征维度的变化情况示意图;
图9为本发明提供的特征可配置的分布式网络计算架构示意图;
图10为本发明提供的语音关键词识别系统的结构示意图;
图11为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图4为本发明提供的语音关键词识别方法的流程示意图,如图4所示,本发明提供了一种语音关键词识别方法,包括:
步骤101,对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量;
步骤102,将所述模拟语音关键词特征向量输入到训练好的特征配置模型中,获取语音关键词识别结果,其中,所述训练好的特征配置模型是通过标记有关键词类型标签的样本模拟语音关键词特征向量和预设准确率损失阈值,对神经网络模型进行训练得到的,所述神经网络模型包括多个子网络,且每个子网络识别对应的关键词;
步骤103,根据所述语音关键词识别结果,将所述训练好的特征配置模型中对应的子网络执行开启和关闭操作。
图5为本发明提供的现有技术中KWS系统的结构示意图,如图5所示,KWS系统包含麦克风、模数转换器(Analog Digital Converter,简称ADC)以及KWS处理模块,其中KWS处理模块可以进一步分成特征提取、特征识别以及后端处理三部分,特征识别是采用单个的神经网络对所有关键词进行识别。首先,通过麦克风采集数据,将语音信号转换为模拟信号,之后模数转换器将模拟信号转换为数字信号,输入到KWS的处理模块中。KWS的处理模块包括语音特征提取单元、神经网络(Neural Network,简称NN)计算单元以及必要的参数的存储单元,特征提取单元是将原始的声音信号进行提取、压缩,输出语音对应的特征向量,然后NN单元根据这一特征向量进行计算,得到识别的概率,经过后端处理输出最终结果。神经网络模型是预先训练好的,并加载到KWS模块的存储器中。
在本发明中,步骤101中,语音信号被麦克风收集,转换为待识别的模拟语音信号,将待识别的模拟语音信号作为输入数据,然后将该模拟语音信号直接传送到模拟域的处理器中。模拟域首先进行的是全频特征提取,将待识别的模拟语音信号转换成特征向量,以模拟信号的形式存储,得到模拟语音关键词特征向量。
需说明的是,传统的数字域方法实现KWS系统的关键词识别,会遇到ADC的功耗瓶颈问题。此外,直接降低ADC的采样频率与量化位数还会造成准确率严重下降,本发明提出采用模拟信号域进行特征提取和神经网络模型的运算,能够避免ADC的功耗瓶颈问题。
进一步地,在步骤102中,将模拟语音关键词特征向量输入到训练好的包含神经网络的特征配置模型中,该神经网络包括多个子网络,且每个子网络识别对应的关键词。将模拟语音关键词特征向量与特征配置模型结合,然后根据预设准确率损失阈值,为每个子网络筛选最优特征向量,选取每个子网络的最优特征向量,传输到对应的子网络进行识别,通过后处理模块计算得到各个子网络对应的关键词的准确率,并比较得到准确率最大值对应的关键词,即为语音关键词识别结果。
进一步地,在步骤103中,根据语音关键词识别结果,对当前KWS系统的工作状态进行动态调整,控制语音关键词识别模型开启和关闭对应的子网络通道。例如,台灯的语音唤醒模块需要识别“开、关、未知”的关键词。根据当前时刻从语音关键词识别模型中获取的语音关键词识别结果,对台灯进行控制。若语音关键词识别结果为“开”,则对台灯执行开灯操作,此时,KWS模块是不需要再识别“开”关键词的,因而关闭“开”关键词对应的子网络;在对台灯完成开灯控制之后,下一时刻KWS模块需继续识别是否有“关”、“未知”的输入,同时开启“关”和“未知”关键词分别对应的子网络。
本发明提供的语音关键词识别方法,通过对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量,然后将模拟语音关键词特征向量与特征配置模型结合,根据预设准确率损失阈值,为子网络筛选最优特征向量,获取语音关键词识别结果,然后根据语音关键词识别结果,将特征配置模型中对应的子网络执行开启和关闭操作,实现了动态调整的特征可配置性,在保持关键词识别准确率的前提下,进一步降低了KWS系统的功耗和计算延迟。
在上述实施例的基础上,所述训练好的特征配置模型通过以下步骤训练得到:
根据标记有不同关键词类型标签的样本模拟语音关键词特征向量,构建多个训练样本集;
将每个训练样本集输入到对应的初始子网络进行训练,获取多个第一子网络,以及对应的第一关键词识别准确率;
根据预设准确率损失阈值,对每个第一关键词识别准确率进行判断,若满足预设条件,得到训练好的特征配置模型。
在本发明中,根据标记有不同关键词类型标签的样本语音关键词特征向量,构建多个训练样本集;将构建的多个训练样本集作为语音关键词识别模型的输入,先对每个训练样本集对应的初始子网络进行单独训练,用来对单个关键词进行识别,保留每个子网络独立识别关键词的能力,获取多个第一子网络以及每个第一子网络的第一关键词识别准确率。
进一步地,根据每个第一关键词识别准确率,得到每个第一关键词识别准确率损失值,例如,第一关键词识别准确率为95%,则第一关键词识别准确率损失为5%;然后再将第一关键词识别准确率损失值和预设准确率损失阈值作比较,如果没有超过预设的准确率损失阈值,则对子网络再次进行训练,若超过了预设的准确率损失阈值,则获取到每个子网络对应的最优特征向量,即获得了训练好的特征配置模型。
进一步地,将模拟语音关键词特征向量输入到训练好的特征配置模型中,为每个子网络筛选最优特征向量,选取每个子网络的最优特征向量,传输到对应的子网络进行识别,获取各个子网络对应的关键词准确率。可选地,将各个子网络的输出组合联结全连接层,平衡仲裁多个子网络的输出概率,获取最终的语音关键词识别结果。根据语音关键词识别结果,对当前KWS系统的工作状态进行动态调整,开启和关闭对应的子网络通道。
在上述实施例的基础上,所述根据预设准确率损失阈值,对每个第一关键词识别准确率进行判断,若满足预设条件,得到训练好的特征配置模型,包括:
步骤S1,根据第一关键词识别准确率,得到第一关键词识别准确率损失值,并根据预设准确率损失阈值,对每个第一关键词识别准确率进行判断;
步骤S2,若判断获知第一关键词识别准确率损失值小于等于所述预设准确率损失阈值,则对所述样本模拟语音关键词特征向量进行降维处理,得到降维后的样本模拟语音关键词特征向量;
步骤S3,将所述降维后的样本模拟语音关键词特征向量,输入到对应的第一子网络中进行训练,得到第二子网络和对应的第二关键词识别准确率,根据第二关键词识别准确率得到第二关键词识别准确率损失值,若判断获知第二关键词识别准确率损失值大于所述预设准确率损失阈值,得到训练好的特征配置模型;否则,将所述降维后的样本模拟语音关键词特征向量、第二子网络以及第二关键词识别准确率用于下一轮训练,重新执行步骤S2至步骤S3,直到满足当前训练过程中得到的关键词识别准确率损失值大于所述预设准确率损失阈值。
由于发声的原理以及发音方式,每个特定的关键词都有其最佳的识别频带,在这个最佳识别频带内的信息能够更好地表征这个关键词。
图6为本发明提供的现有技术中不同特征维度对识别准确率的贡献示意图,如图6所示,不同的特征向量维度对应的识别准确率也有所不同,提取特征结果的一部分已经能够较准确地识别关键词,因而识别特定的关键词时只对特定的频带特征进行处理,可以有效降低延时与功耗。
在本发明中,输入的语音数据会经过同一个特征提取单元得到特征向量,每个特征向量都覆盖了全频带的能量信息。对于单独的一个子网络来说,它只负责识别单独的关键词,在实际设计的系统中可以根据需要选择特征向量中最有效的几个频带的能量信息,从而减少输入特征向量中的冗余信息以及计算复杂性。
以GRU网络为例,每一帧的计算需求如下式所示:
Operations per frame=[3X×(X+H)]×2;
其中,X是输入特征的维度,H是隐藏节点的维度,减少特征维度或者隐藏节点个数可以减小计算复杂度,进而降低延时,因此,为了使子网络选择最有效的特征输入是十分必要的。
在本发明中,步骤S1中,根据第一子网络对应的第一关键词识别准确率,得到第一子网络的第一关键词识别准确率损失值,然后将第一子网络的第一关键词识别准确率损失值与预设准确率损失阈值作比较,进行特征的判断筛选。
进一步地,在步骤S2中,如果第一关键词识别准确率损失值小于等于预设准确率损失阈值,对样本模拟语音关键词特征向量进行降维处理,即去掉当前特征向量对应的最高频的能量信息,达到消除这一维度的目的,获取降维之后的样本模拟语音关键词特征向量。
进一步地,在步骤S3中,将降维后的样本模拟语音关键词特征向量输入第一子网络中继续进行训练,重新获取得到第二子网络和第二关键词识别准确率,根据第二关键词识别准确率得到第二关键词识别准确率损失值,然后再对第二关键词识别准确率损失值与预设准确率损失阈值作比较。
若判断第二关键词识别准确率损失值超过了预设准确率损失阈值,那么就保留筛选掉的特征以及当前的所有特征,即为最终筛选的最优特征向量。
若判断第二关键词识别准确率损失值未超过预设准确率损失阈值,则继续进行下一轮训练,重新执行步骤S2至步骤S3,每轮训练,都去掉当前最高品的能量信息,直到满足预设准确率损失阈值条件。
可选地,为了实现为每个小网络筛选最优特征向量,可通过自动化筛选过程来选择那些必要的特征向量。
图7为本发明提供的特征配置模型的自动化选择特征过程和设计实例示意图,如图7所示,首先,输入经过全维度特征提取的16维度的特征向量,初始时所有频带的信息都会被保留,训练单个的子网络,得到单个子网络对应的关键词识别准确率,根据该关键词识别准确率,得到该关键词识别准确率损失;随后,设置一个准确率损失阈值1%进行筛选,每轮训练,去掉当前最高频的能量信息,然后训练得到识别准确率,若准确率损失超过了设置的阈值,则保留去掉的特征以及现在的所有特征;若未超过阈值,则继续这一过程,去掉当前对应的最高频的能量信息,重新训练,直到去掉某一频带的信息后,损失的准确率超过阈值。经过多次迭代,最终获取输出维度为4的特征向量结果,即为得到的最优特征向量。
图8为本发明提供的不同关键词对应的能量谱以及各个分布式子网络的识别准确率随不同输入特征维度的变化情况示意图,参考图8中的(a),不同关键词在频谱上有不同的能量分布,这代表了不同关键词的不同特征,同时,也说明全频带的特征对于关键词识别是有冗余的。参考图8中的(b),对“yes”和“no”两个关键词来说,13维特征、11维特征分别和全频带特征有相同的识别准确率,甚至“zero”只需要5维特征。通过去除语音特征中的冗余,能够降低计算的复杂度。
在上述实施例的基础上,所述对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量,包括:
对待识别的模拟语音信号进行滤波处理,获取全频段频谱信息;
基于平方器,获取所述全频段频谱信息对应的全频段能量谱信息;
基于模拟低通滤波器,对所述全频段能量谱信息进行滤波处理,获取多个频带的平均能量信息;
根据所述多个频带的平均能量信息,获取模拟语音关键词特征向量。
在本发明中,对待识别的模拟语音信号实现了全频带的模拟域特征提取,其中,输入信号的频带能量分布是通过带通滤波器(BPF)、平方器以及模拟低通滤波器来完成,经过特征提取后,得到用模拟电流表示的16维的特征向量,分别对应着16个频带内的平均能量信息。在得到特征向量后,使用优化后的模拟计算单元来运行神经网络,有利于降低网络复杂度,同时提高识别准确率。
在上述实施例的基础上,所述子网络包括卷积神经网络、门控神经网络(GateRecurrent Unit,简称GRU)和长短期记忆网络(Long Short-Term Memory,简称LSTM)。
优选地,所述子网络为门控神经网络。采用门控神经网络能在参数规模和识别准确率方面得到优良的性能。
在上述实施例的基础上,所述将所述模拟语音关键词特征向量输入到训练好的特征配置模型中,获取语音关键词识别结果之前,所述方法还包括:对训练好的特征配置模型的网络权重和激活值进行权值量化。
在本发明中,整体的模拟域运算过程主要包含乘累加、非线性计算以及按位乘。通过芯片的调度单元,网络的权重会加载到片上存储器,接着会运行全并行的乘累加计算,这是混合信号处理,输入的权重为数字信号,而特征向量是用之前得到的模拟电流表征,前一时刻的隐藏状态ht-1是由片上的电容电压得到。为了适应模拟电路低精度的特点,对训练好的特征配置模型的网络权重和激活值分别进行了5bits的权值量化。
本发明通过系统、算法、硬件三方面的优化,实现了一个超低功耗、低延时的KWS系统,KWS系统整体的性能如表1所示。
表1
与传统的KWS系统相比,本发明提出的语音关键词识别方法,实现了16.3μW的特征提取功耗以及106μW的神经网络计算功耗,同时由于在模拟域完成计算,无ADC功耗,每一帧的关键词识别仅有22.3nJ的能耗;在延时方面,本发明实时性能较好,仅存在211μs的延时;除此以外,本发明的网络模型进行了5bits低精度量化,节省存储空间以及存取数据的功耗;本发明采用的方法实现了98.0%准确率的两关键词识别以及95.2%的三关键词识别,并且实现了动态调整的特征可配置性。
图9为本发明提供的特征可配置的分布式网络计算架构示意图,如图9所示,本发明可以实现极低功耗的特征可配置的分布式语音关键词识别,在系统层面、算法层面以及硬件层面进行了综合的优化。其中,图9中的(a)表示本发明提出的特征可配置的分布式网络计算架构,图9中的(b)表示不必要的通道可以实时关闭;图9中的(c)和(d)表示自动化选择过程以及可配置的特征连接来降低特征冗余;图9中的(e)表示模拟域的KWS处理实现消除传统处理的ADC功耗瓶颈问题。
具体工作流程为:首先,语音信号首先被麦克风收集,然后被直接传送到模拟域的处理器中,完全消除了ADC部分带来的功耗瓶颈,模拟域首先进行的是特征提取,将语音信号转换成特征向量,以模拟信号的形式存储;因为每一个关键词只需要一些频带的特征向量即可,因此最优的特征向量会被选取,然后传输到对应的神经网络计算单元中;传统的计算方式是一个神经网络计算得到多个词的准确率,而本发明是将原来的网路拆分成多个子网络,每个子网络负责识别单独的一个词语,这样不需要识别某个关键词时,就可以关闭该关键词对应的计算单元,本发明所采用的方法在提高单个子网络的识别准确率的同时,也提高网络组合后对多关键词的识别准确率,这样使得KWS系统可以灵活地开启和关闭某些子网络,降低功耗的同时不影响整体识别准确率;最后,后端处理单元计算得到各个关键词的准确率,并比较得到最大值,即为最终的语音关键词识别结果。
图10为本发明提供的语音关键词识别系统的结构示意图,如图10所示,本发明提供了一种语音关键词识别系统,包括特征提取模块1001、特征配置模块1002和识别结果执行模块1003,其中,特征提取模块1001用于对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量;特征配置模块1002用于将所述模拟语音关键词特征向量输入到训练好的特征配置模型中,获取语音关键词识别结果,其中,所述训练好的特征配置模型是通过标记有关键词类型标签的样本模拟语音关键词特征向量和预设准确率损失阈值,对神经网络模型进行训练得到的,所述神经网络模型包括多个子网络,且每个子网络识别对应的关键词;识别结果执行模块1003用于根据所述语音关键词识别结果,将所述训练好的特征配置模型中对应的子网络执行开启和关闭操作。
本发明提供的语音关键词识别系统,通过对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量,然后将模拟语音关键词特征向量与特征配置模型结合,根据预设准确率损失阈值,为子网络筛选最优特征向量,获取语音关键词识别结果,然后根据语音关键词识别结果,将特征配置模型中对应的子网络执行开启和关闭操作,实现了动态调整的特征可配置性,在保持关键词识别准确率的前提下,进一步降低了KWS系统的功耗和计算延迟。
在上述实施例的基础上,所述系统还包括训练样本集构建模块、子网络关键词识别模块和关键词识别准确率判断模块,其中,训练样本集构建模块用于根据标记有不同关键词类型标签的样本模拟语音关键词特征向量,构建多个训练样本集;子网络关键词识别模块用于将每个训练样本集输入到对应的初始子网络进行训练,获取多个第一子网络,以及对应的第一关键词识别准确率;关键词识别准确率判断模块用于根据预设准确率损失阈值,对每个第一关键词识别准确率进行判断,若满足预设条件,得到训练好的特征配置模型。
本发明提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
图11为本发明提供的电子设备的结构示意图,如图11所示,该电子设备可以包括:处理器(processor)1101、通信接口(CommunicationsInterface)1102、存储器(memory)1103和通信总线1104,其中,处理器1101,通信接口1102,存储器1103通过通信总线1104完成相互间的通信。处理器1101可以调用存储器1103中的逻辑指令,以执行语音关键词识别方法,该方法包括:对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量;将所述模拟语音关键词特征向量输入到训练好的特征配置模型中,获取语音关键词识别结果,其中,所述训练好的特征配置模型是通过标记有关键词类型标签的样本模拟语音关键词特征向量和预设准确率损失阈值,对神经网络模型进行训练得到的,所述神经网络模型包括多个子网络,且每个子网络识别对应的关键词;根据所述语音关键词识别结果,将所述训练好的特征配置模型中对应的子网络执行开启和关闭操作。
此外,上述的存储器1103中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的语音关键词识别方法,该方法包括:对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量;将所述模拟语音关键词特征向量输入到训练好的特征配置模型中,获取语音关键词识别结果,其中,所述训练好的特征配置模型是通过标记有关键词类型标签的样本模拟语音关键词特征向量和预设准确率损失阈值,对神经网络模型进行训练得到的,所述神经网络模型包括多个子网络,且每个子网络识别对应的关键词;根据所述语音关键词识别结果,将所述训练好的特征配置模型中对应的子网络执行开启和关闭操作。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的语音关键词识别方法,该方法包括:对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量;将所述模拟语音关键词特征向量输入到训练好的特征配置模型中,获取语音关键词识别结果,其中,所述训练好的特征配置模型是通过标记有关键词类型标签的样本模拟语音关键词特征向量和预设准确率损失阈值,对神经网络模型进行训练得到的,所述神经网络模型包括多个子网络,且每个子网络识别对应的关键词;根据所述语音关键词识别结果,将所述训练好的特征配置模型中对应的子网络执行开启和关闭操作。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音关键词识别方法,其特征在于,包括:
对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量;
将所述模拟语音关键词特征向量输入到训练好的特征配置模型中,获取语音关键词识别结果,其中,所述训练好的特征配置模型是通过标记有关键词类型标签的样本模拟语音关键词特征向量和预设准确率损失阈值,对神经网络模型进行训练得到的,所述神经网络模型包括多个子网络,且每个子网络识别对应的关键词;
根据所述语音关键词识别结果,将所述训练好的特征配置模型中对应的子网络执行开启和关闭操作。
2.根据权利要求1所述的语音关键词识别方法,其特征在于,所述训练好的特征配置模型通过以下步骤训练得到:
根据标记有不同关键词类型标签的样本模拟语音关键词特征向量,构建多个训练样本集;
将每个训练样本集输入到对应的初始子网络进行训练,获取多个第一子网络,以及对应的第一关键词识别准确率;
根据预设准确率损失阈值,对每个第一关键词识别准确率进行判断,若满足预设条件,得到训练好的特征配置模型。
3.根据权利要求2所述的语音关键词识别方法,其特征在于,所述根据预设准确率损失阈值,对每个第一关键词识别准确率进行判断,若满足预设条件,得到训练好的特征配置模型,包括:
步骤S1,根据第一关键词识别准确率,得到第一关键词识别准确率损失值,并根据预设准确率损失阈值,对每个第一关键词识别准确率损失值进行判断;
步骤S2,若判断获知第一关键词识别准确率损失值小于等于所述预设准确率损失阈值,则对所述样本模拟语音关键词特征向量进行降维处理,得到降维后的样本模拟语音关键词特征向量;
步骤S3,将所述降维后的样本模拟语音关键词特征向量,输入到对应的第一子网络中进行训练,得到第二子网络和对应的第二关键词识别准确率,根据第二关键词识别准确率得到第二关键词识别准确率损失值,若判断获知第二关键词识别准确率损失值大于所述预设准确率损失阈值,得到训练好的特征配置模型;否则,将所述降维后的样本模拟语音关键词特征向量、第二子网络以及第二关键词识别准确率用于下一轮训练,重新执行步骤S2至步骤S3,直到满足当前训练过程中得到的关键词识别准确率损失值大于所述预设准确率损失阈值。
4.根据权利要求1所述的语音关键词识别方法,其特征在于,所述对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量,包括:
对待识别的模拟语音信号进行滤波处理,获取全频段频谱信息;
基于平方器,获取所述全频段频谱信息对应的全频段能量谱信息;
基于模拟低通滤波器,对所述全频段能量谱信息进行滤波处理,获取多个频带的平均能量信息;
根据所述多个频带的平均能量信息,获取模拟语音关键词特征向量。
5.根据权利要求1所述的语音关键词识别方法,其特征在于,所述多个子网络为门控神经网络。
6.根据权利要求1所述的语音关键词识别方法,其特征在于,所述将所述模拟语音关键词特征向量输入到训练好的特征配置模型中,获取语音关键词识别结果之前,所述方法还包括:对训练好的特征配置模型的网络权重和激活值进行权值量化。
7.一种语音关键词识别系统,其特征在于,包括:
特征提取模块,用于对待识别的模拟语音信号进行全频带特征提取,获取模拟语音关键词特征向量;
特征配置模块,用于将所述模拟语音关键词特征向量输入到训练好的特征配置模型中,获取语音关键词识别结果,其中,所述训练好的特征配置模型是通过标记有关键词类型标签的样本模拟语音关键词特征向量和预设准确率损失阈值,对神经网络模型进行训练得到的,所述神经网络模型包括多个子网络,且每个子网络识别对应的关键词;
识别结果执行模块,用于根据所述语音关键词识别结果,将所述训练好的特征配置模型中对应的子网络执行开启和关闭操作。
8.根据权利要求7所述的语音关键词识别系统,其特征在于,所述系统还包括:
训练样本集构建模块,用于根据标记有不同关键词类型标签的样本模拟语音关键词特征向量,构建多个训练样本集;
子网络关键词识别模块,将每个训练样本集输入到对应的初始子网络进行训练,获取多个第一子网络,以及对应的第一关键词识别准确率;
关键词识别准确率判断模块,用于根据预设准确率损失阈值,对每个第一关键词识别准确率进行判断,若满足预设条件,得到训练好的特征配置模型。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音关键词识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音关键词识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110163912.0A CN114937449A (zh) | 2021-02-05 | 2021-02-05 | 一种语音关键词识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110163912.0A CN114937449A (zh) | 2021-02-05 | 2021-02-05 | 一种语音关键词识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114937449A true CN114937449A (zh) | 2022-08-23 |
Family
ID=82863216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110163912.0A Pending CN114937449A (zh) | 2021-02-05 | 2021-02-05 | 一种语音关键词识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114937449A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115188135A (zh) * | 2022-09-01 | 2022-10-14 | 广州卓腾科技有限公司 | 一种用于自助办证设备的操作方法、系统和介质 |
-
2021
- 2021-02-05 CN CN202110163912.0A patent/CN114937449A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115188135A (zh) * | 2022-09-01 | 2022-10-14 | 广州卓腾科技有限公司 | 一种用于自助办证设备的操作方法、系统和介质 |
CN115188135B (zh) * | 2022-09-01 | 2023-08-25 | 广州卓腾科技有限公司 | 一种用于自助办证设备的操作方法、系统和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN110288978B (zh) | 一种语音识别模型训练方法及装置 | |
WO2021043015A1 (zh) | 语音识别方法及装置、神经网络训练方法及装置 | |
CN108182937B (zh) | 关键词识别方法、装置、设备及存储介质 | |
CN105632486B (zh) | 一种智能硬件的语音唤醒方法和装置 | |
CN110853680B (zh) | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 | |
CN110164452A (zh) | 一种声纹识别的方法、模型训练的方法以及服务器 | |
CN109754790B (zh) | 一种基于混合声学模型的语音识别系统及方法 | |
CN108899044A (zh) | 语音信号处理方法及装置 | |
CN111540342B (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
Singh et al. | Low-complexity CNNs for acoustic scene classification | |
CN114937449A (zh) | 一种语音关键词识别方法及系统 | |
CN114842833A (zh) | 语音识别方法及相关装置、电子设备和存储介质 | |
CN112420079B (zh) | 语音端点检测方法和装置、存储介质及电子设备 | |
CN114078472A (zh) | 一种低误唤醒率的关键词计算模型的训练方法及装置 | |
CN109946538B (zh) | 一种基于磁感应信号的移动设备监控方法及系统 | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
CN110717022A (zh) | 一种机器人对话生成方法、装置、可读存储介质及机器人 | |
CN112992189B (zh) | 语音音频的检测方法及装置、存储介质及电子装置 | |
CN114927128A (zh) | 语音关键词的检测方法、装置、电子设备及可读存储介质 | |
CN112447190A (zh) | 基于混合噪声场景下的精度可控语音端点判别技术 | |
CN112712792A (zh) | 一种方言识别模型的训练方法、可读存储介质及终端设备 | |
CN114937450A (zh) | 一种语音关键词识别方法及系统 | |
CN112216286B (zh) | 语音唤醒识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |