CN111833888A - 一种语音关键词识别的近传感器处理系统、电路及方法 - Google Patents
一种语音关键词识别的近传感器处理系统、电路及方法 Download PDFInfo
- Publication number
- CN111833888A CN111833888A CN202010727505.3A CN202010727505A CN111833888A CN 111833888 A CN111833888 A CN 111833888A CN 202010727505 A CN202010727505 A CN 202010727505A CN 111833888 A CN111833888 A CN 111833888A
- Authority
- CN
- China
- Prior art keywords
- transistors
- analog
- processing
- circuit
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000012805 post-processing Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 6
- 230000003139 buffering effect Effects 0.000 claims description 2
- 230000002618 waking effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 4
- 238000005265 energy consumption Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000000131 plasma-assisted desorption ionisation Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Analogue/Digital Conversion (AREA)
- Electronic Switches (AREA)
Abstract
本公开提供了一种应用于语音关键词识别的近传感器处理的电路,包括:混合信号乘累加电路,包括:第一开关晶体管Mp、第二开关晶体管Mn、n个第一晶体管PM1、PM2、PM3...PMn、n个第二晶体管NM1、NM2、NM3...NMn、第一数字控制线第二数字控制线W0、W1、W2...Wn;其中,n≥3,所述第一晶体管PM1、PM2、PM3...PMn的宽长比为1∶2∶...∶2n‑1,所述第二晶体管NM1、NM2、NM3...PMn的宽长比为1∶2∶...∶2n‑1,可在系统识别率不变的前提下大幅提升处理速度。本公开还提供了一种应用于语音关键词识别的近传感器处理的系统及方法,可大幅降低了系统功耗。
Description
技术领域
本公开涉及语音识别领域,尤其涉及一种语音关键词识别的近传感器处理系统、电路及方法。
背景技术
随着语音识别和自然语言处理技术的发展,在现代生活中,具有便捷信息搜索功能和个人助理的语音交互功能不断增加。例如,Google助手、Apple的Siri和Amazon的Alexa受到了广泛用户的青睐并在生产生活中有着极为广泛的应用。在这些应用中,需要使用到关键字识别(Keyword Spotting,KWS)模块,通过检测预设的唤醒词,从而唤醒整个语音识别系统。作为系统的前端和启动模块,KWS模块避免了语音识别引擎的连续运行,从而极大降低了密集计算和内存消耗。但是,当将KWS模块嵌入可穿戴设备、物联网(The Internetof Things,IOT)设备以或严格限制计算资源和内存的小型专用微控制器等小型设备中时,常开检测的功耗仍然较高。因此,很难将KWS嵌入上述这些资源受限的应用场景中。
图1为现有的KWS系统的结构示意图。如图1所示,现代KWS系统在采集麦克风信号后首先进行模数转换,在数字域进行数据处理。该些基于神经网络的模型比传统的隐马尔可夫模型显著提高了准确性,降低了延迟。尽管如此,在小型设备上部署耗电且消耗内存的现代KWS系统仍然有较大的难度。为了减少KWS系统的内存占用,技术人员进行了一些评估准确率和模型尺寸的工作,但仍然需要进一步降低功耗和优化硬件架构。
连续运行的KWS系统的功耗应该低于100μW,但在传统的KWS系统中,典型的模数转换器(ADC)的功耗为560μW,占整个系统的65%。现有的改进关键词识别的工作都是在数字信号域中实现的,其中仅考虑算法改进,而不考虑处理体系结构。因此,ADC成为KWS系统的功耗瓶颈,在此条件下,研究没有数据转换器的新型处理架构以解决瓶颈问题就显得尤为重要。
发明内容
(一)要解决的技术问题
本公开提供了一种语音关键词识别的近传感器处理系统、电路及方法,以至少部分解决以上所提出的技术问题。
(二)技术方案
根据本公开的一个方面,提供了一种应用于语音关键词识别的近传感器处理的电路,包括:
混合信号乘累加电路,所述混合信号乘累加电路包括:
第一开关晶体管Mp,所述第一开关晶体管Mp为P型晶体管,第一开关晶体管Mp的源极输入电流Ip,栅极连接输入数据线W3;
第二开关晶体管Mn,所述第二开关晶体管Mn为N型晶体管,第二开关晶体管Mn的源极输入电流In,栅极连接输入数据线W3;
n个第一晶体管PM1、PM2、PM3...PMn,所述第一晶体管PM1、PM2、PM3均为P型晶体管,源极均连接至第一开关晶体管Mp的漏极;
n个第二晶体管NM1、NM2、NM3...NMn,所述第二晶体管NM1、NM2、NM3均为N型晶体管,源极均连接至第二开关晶体管Mn的漏极;所述第二晶体管NM1、NM2、NM3...NMn的漏极与第一晶体管PM1、PM2、PM3...PMn的漏极分别相连;
第二数字控制线W0、W1、W2...Wn一端分别连接至第二晶体管NM1、NM2、NM3...NMn的漏极,另一端连接至电流输出端Iout;
其中,n≥3,所述第一晶体管PM1、PM2、PM3...PMn的宽长比为1∶2∶...∶2n-1,所述第二晶体管NM1、NM2、NM3...PMn的宽长比为1∶2∶...∶2n-1。
根据本公开的实施例,所述第一晶体管PM1、PM2、PM3...PMn的栅极均连接至预定的第一偏置电压VBp,第二晶体管NM1、NM2、NM3...NMn的栅极连接至预定的第二偏置电压VBn,所述第一偏置电压VBp保持在能够满足第一晶体管PM1、PM2、PM3...PMn导通条件的电压值;第二偏置电压VBn保持在能够满足第二晶体管NM1、NM2、NM3...NMn导通条件的电压值。
根据本公开的另一个方面,提供了一种语音关键词识别的近传感器处理系统,包括:
模拟域单元,所述模拟域单元包括特征提取单元、基于神经网络的模拟处理电路及后处理单元,用于对麦克风采集的信号进行数据处理,得到语音关键词识别的似然概率,以及
数字域单元,所述数字域单元包括模数转换器,用于在被唤醒后,对所述模拟域单元输出的似然概率进行模数转换;
其中,所述基于神经网络的模拟处理电路包括如前所述的混合信号乘累加电路。
根据本公开的实施例,基于神经网络的模拟处理电路包括乘累加电路,非线性单元和逐元素乘法单元,用于对特征提取后的模拟信号特征向量进行识别处理,并计算概率分布,输出似然概率。
根据本公开的实施例,乘累加电路包括:缓冲单元,用于对电流进行缓冲,以及如前所述的混合信号乘累加电路,用于将特征提取单元提取的每个特征向量和权值相乘并将各乘积相加。
根据本公开的实施例,所述缓冲单元包括电流传输器,输入的电流向量(I1,I2,...,In)即为所述特征提取单元提取的特征向量,电流向量(11,I2,...,In)分别输入对应的电流传输器,电流传输器输出两个方向电流(Ip和In),作为混合信号乘累加电路的特征输入。
根据本公开的实施例,数字输入(W3,W2,W1,W0)作为训练好的权值输入至混合信号乘累加电路的第一数字控制线与第二数字控制线。
根据本公开的实施例,非线性单元采用sigmoid操作及Tanh操作实现。
根据本公开的实施例,所述特征提取单元包括带通滤波器、平方器和低通滤波器,用于模拟域中提取美尔频率特征。
根据本公开的实施例,后处理单元连接至模拟处理单元的输出,用于在对基于神经网络的模拟处理电路的输出进行平滑处理。
根据本公开的另一个方面,提供了一种语音关键词识别的近传感器处理芯片,包括如前所述的语音关键词识别的近传感器处理系统。
根据本公开的再一个方面,提供了一种采用如前所述的语音关键词识别的近传感器处理系统的方法,包括:
对麦克风采集的信号在模拟域进行频率特征提取,并基于神经网络对提取的频率特征向量进行模拟信号处理,及对处理后的模拟信号进行平滑处理,得到语音关键词识别的似然概率,以及
在唤醒后,对所述模拟域单元输出的似然概率进行模数转换。
(三)有益效果
从上述技术方案可以看出,本公开语音关键词识别的近传感器处理系统、电路及方法至少具有以下有益效果其中之一:
(1)本系统将数据处理单元搬移到模拟域,在模拟域对数据进行特征提取、神经网络处理及后处理,并且数字域单元在被唤醒后才工作,从而省去了数据转换这一耗能瓶颈,较大幅度降低功耗;
(2)提出了一种新的高能效混合信号乘累加电路MAC和对应的网络设计评估,可在系统识别率几乎不变的前提下大幅提升处理速度。
附图说明
图1为现有的KWS系统的结构示意图。
图2为本公开实施例语音关键词识别的近传感器处理系统的结构示意图。
图3为本公开实施例乘累加电路的结构示意图。
图4为本公开实施例混合信号乘累加电路的结构示意图。
具体实施方式
本公开提供了一种语音关键词识别的近传感器处理系统、电路和方法,该系统是基于模拟处理电路的特性提出的一个完整的近传感器关键词识别处理系统,由于系统中数据处理部分于模拟域实现,从而规避了数据转换的耗能瓶颈,降低了硬件实现成本,更减少了内存占用。此外,针对该处理系统还设计了一种新的高能效混合信号乘累加电路计算单元,可降低功耗并提升处理速度。基于上述设计的系统在测试中达到了系统级的节能效果,并且其速度是目前先进水平的71倍。
需要事先阐明的是,此处的近传感器是指系统中关键词识别的处理过程是靠近传感器端完成的,也就是说在麦克风采集声音信号后,直接在模拟域进行数据处理,识别关键词,输出似然概率,再转换为数字信号。
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
本公开某些实施例于后方将参照所附附图做更全面性地描述,其中一些但并非全部的实施例将被示出。实际上,本公开的各种实施例可以由许多不同形式实现,而不应被解释为限于此处所阐述的实施例;相对地,提供这些实施例使得本公开满足适用的法律要求。
在本公开的一个示例性实施例中,提供了一种语音关键词识别的近传感器处理系统。
图1为本公开实施例语音关键词识别的近传感器处理系统的结构示意图。如图2所示,本公开语音关键词识别的近传感器处理系统包括模拟域单元及数字域单元,其中,模拟域单元包括特征提取单元、基于神经网络的模拟处理电路及后处理单元,数字域单元包括模数转换器。由麦克风采集的信号发送至模拟域单元进行数据处理后,得到语音关键词识别的似然概率,判断所述似然概率是否大于预定阈值,若大于所述预定阈值,则认为检测到用户输入关键词,唤醒数字域单元,由数字域单元进行模数转换。
具体地,模拟域单元中的特征提取单元包括带通滤波器、平方器和低通滤波器,用于在模拟域中提取美尔频率特征。特征提取单元输出的模拟信号向量传输到神经网络。
基于神经网络的模拟处理电路用于对特征提取后的模拟信号向量进行识别处理,并计算概率分布,输出似然概率。具体地,基于神经网络的模拟处理电路包括乘累加(Multiply Accumulate,MAC)电路,非线性单元和逐元素乘法单元。输入信号经过上述单元组合后的运算输出,也即完成神经网络的计算输出。
图3为本公开实施例乘累加电路的结构示意图。如图3所示,乘累加电路包括缓冲单元和混合信号乘累加电路。其中,缓冲单元包括电流传输器,输入的电流向量(I1,I2,...,In)即为提取的特征向量,电流向量(I1,I2,...,In)分别输入对应的电流传输器,电流传输器输出两个方向电流(Ip和In),作为混合信号乘累加电路的特征输入。而数字输入(Wn3,Wn2,Wn1,Wn0)为训练好的权值同样输入至混合信号乘累加电路,混合信号乘累加电路将每个特征和权值相乘并将各乘积相加,输出的电流Iout进入非线性单元进行非线性处理。
图4为本公开实施例混合信号乘累加电路的结构示意图。如图4所示,混合信号乘累加电路包括第一开关晶体管Mp、第二开关晶体管Mn、3个第一晶体管PM1、PM2、PM3、3个第二晶体管NM1、NM2、NM3。其中,第一开关晶体管Mp、第一晶体管PM1、PM2、PM3均为P型晶体管,第二开关晶体管Mn、第二晶体管NM1、NM2、NM3均为N型晶体管。由于混合信号乘累加电路采用二进制进行计算,设置第一晶体管的宽长比(W/LPM1)∶(W/LPM2)∶(W/LPM4)为1∶2∶4,第二晶体管的宽长比(W/LNM1)∶(W/LNM2)∶(W/LNM4)也为1∶2∶4,从而满足按比例分流的要求。
可以理解的是,在一些实施例中,为了使得电流分流更加精确,可以设置更多第一晶体管与第二晶体管,例如设置4个第一晶体管与4个第二晶体管,宽长比均为1∶2∶4∶8,或设置5个第一晶体管与5个第二晶体管,宽长比均为1∶2∶4∶8∶16,以此类推。
由图4可以看出,整个混合信号乘累加电路呈对称分布。具体地,混合信号乘累加电路的输入电流(Ip和In)从两个方向输入,流入方向的电流Ip输入第一开关晶体管Mp的源极,流出方向的In输入第二开关晶体管Mn的源极。3个第一晶体管PM1、PM2、PM3的源极相连,连接到第一开关晶体管Mp的漏极,3个第二晶体管NM1、NM2、NM3的源极相连,连接到第二开关晶体管Mn的漏极,3个第一晶体管PM1、PM2、PM3的漏极与3个第二晶体管NM1、NM2、NM3的漏极分别相连。
混合信号乘累加电路的输入还包括代表输入权值正负的输入数据线W3,以及用于提供第一晶体管偏置电压的第一偏置电压VBp和提供第二晶体管偏置电压的第二偏置电压VBn。其中输入数据线W3连接至第一开关晶体管Mp和第二开关晶体管Mn的栅极,第一偏置电压VBp连接至第一晶体管PM1、PM2、PM3的栅极,第二偏置电压VBn连接至第二晶体管NM1、NM2、NM3的栅极,第一偏置电压VBp保持在能够满足第一晶体管PM1、PM2、PM3导通条件的电压值;第二偏置电压VBn保持在能够满足第二晶体管NM1、NM2、NM3导通条件的电压值。
3个第一晶体管PM1、PM2、PM3的漏极与3个第二晶体管NM1、NM2、NM3的漏极之间还连接有第一数字控制线及第二数字控制线W0、W1、W2。第一数字控制线一端分别连接至第一晶体管PM1、PM2、PM3的漏极,另一端连接至VB_io;第二数字控制线W0、W1、W2一端分别连接至第二晶体管NM1、NM2、NM3的漏极,另一端连接至电流输出端Iout。
在混合信号乘累加电路中,In和Ip是同时输入的,通过W3的高低来判断输出Iout到底是流出电流(Ip对应支路导通,In对应支路断开)还是流入电流(In对应支路导通,Ip对应支路断开),即W3为低电平,电流为正,W3为低电平,电流为负。
以正向输入电流Ip为例,晶体管的宽长比(W/LpM1)∶(W/LPM2)∶(W/LPM4)为1∶2∶4,因此输入电流Ip被分为1∶2∶4的三部分,三部分电流由数字控制线W0/W1/W2决定输出到输出电流Iout中的部分,从而达到将输入电流和权值相乘的目的。本实施例混合信号乘累加电路中,没有输出到Iout中的电流由VB_io流出或流入。例如输出电流Iout是3/4Ip,则剩下的不输出的3/4In的就由VB_i0。
示例性地,输入电流Iin为电流Ip,其对应的控制线为W3、W2、W1、W0,其中W3是符号位控制输出电流正负;比如设置权值为正1/7,则W0为高电平,W3、W2和W1均为低电平,输入电流通过PM1、PM2和PM4分流为1/7Iin、2/7Iin和4/7Iin,输出到Iout的即为1/7Iin,剩下的6/7Iin通过VB_io流出。
在另一个实施例中,设置权值为负4/7,则W3和W2为高电平,W1和W0为低电平,输入电流Iin为电流In,通过NM1、NM2和NM4分流为-1/7Iin、-2/7Iin和-4/7Iin(负号代表从后一级抽入电流),输出到Iout的即为-4/7Iin,剩下的-3/7Iin通过VB_io流入。
本实施例的乘累加电路可以无需电流-电压转换器而直接从前一阶段的特征提取中处理输入的特征,从而避免了转换带来的额外错误,提升了识别准确率,并且占用面积较小;此外乘累加电路的对称结构保证了乘操作中的高准确率和温度稳定性;乘累加电路的工作电流等于输入电流,因此不会引起乘操作中的额外功耗。
乘累加电路输出结果后传输至非线性单元。非线性单元可以采用sigmoid操作及Tanh操作实现。在数字领域中,传统的sigmoid实现通常基于求解复杂的,计算占优的功能。为了减少非线性单元的计算成本通常使用分段线性查找表。本实施例的模拟处理电路充分利用模拟电路执行特定的复杂计算,比在数字域上操作更加节能,实现方法也更简单。因此,在本实施例的非线性单元中仅用少于10个晶体管直接实现高能效的S型曲线。此外,可以用不同的晶体管参数以完全相同的方式实现非线性单元。
rt=sigmoid(Wr·[ht-1,xt])
zt=sigmoid(Wz·[ht-1,xt])
如上所示为本发明采用的神经网络完整的计算流程,其中Wr·[ht-1,xt]即为在t时刻,权重矩阵W和对应上一时刻隐层向量ht-1和当前时刻输入特征向量xt的乘累加运算;rt、zt、为计算过程中的中间变量向量。
接下来对模拟输入向量zt,ht和ht-1进行逐元素的乘法。本实施例采用低功耗模拟乘法器实现了并行逐元素乘法,循环执行以上操作直到最后一帧为止输出概率结果:
yt=Wy·ht
其中yt是通过对应权值矩阵和最后时刻的隐层向量的乘累加电路计算得出的。因此,基于这些模拟处理单元,能够实现具有高识别率和低功耗的语音关键词识别的近传感器处理系统。
由此,本公开的语音关键词识别的近传感器处理系统基于低功耗模拟域处理单元,将输入特征转换为输出似然概率。
后处理单元连接至模拟处理单元的输出,用于在进行模拟滤波后,平滑处理几帧结果,以提高置信度。
本公开的语音关键词识别的近传感器处理系统在模拟域中进行数据处理,因此可以由模拟信号处理单元直接对输入的语音信号进行分类,并输出相应识别结果关键词。因此,整个系统的待机功耗Pavg主要由麦克风和模拟域单元确定,如下所示:
Pavg=PMIC+PKWS+[PFA(1-D)+PAD]PIS
其中PMIC,PKWS,PIS分别是麦克风,KWS模块以及后端交互系统的功耗,D是关键字的占空比,PFA是误唤醒概率,PAD是唤醒识别概率。由于后端交互系统的功耗仅在数字域单元唤醒后出现,因此唤醒时的识别概率PAD和误唤醒概率PFA这两个值会影响到最后的功耗,比如识别率高误唤醒率低,就可以降低后端耗能的PIs权重,从而降低总体待机功耗。与传统实现方式相比,本公开的语音关键词识别的近传感器处理系统在保证相近的识别率的前提下可以更大程度上降低功耗。
在本公开的又一个示例性实施例中,提供了一种语音关键词识别的近传感器处理芯片。
具体地,根据上述实施例的系统,在180nm CMOS工艺下制造模拟-数字混合信号语音关键词识别的近传感器处理芯片,在5.0×2.0mm2的裸片中集成处理器和10Kb内存(GRU核心面积3.4×1.6mm2)。表1给出了仿真测试得到的系统性能对比,并给出了根据本公开实施例的芯片和目前的最佳工艺水平之间的性能对比,主要指标为处理延迟,系统功耗,内存占用量。
ADC是实现始终在线的语音关键词识别处理必不可少的,而传统工作却忽略了ADC的计算成本,并且用于音频应用的高级ADC的功耗高达560μW,于是ADC成为了整个KWS系统的功耗瓶颈。另外,特征提取的成本将消耗110μW的功耗。为了进行客观比较,考虑到神经网络处理成本,所提出仿真的本实施例的芯片的每帧能耗仅为11.2nJ,远低于传统的KWS部署方案。此外,根据本公开实施例的芯片的权值位宽为4bit,其识别率与常规浮点实现相比只损失了0.6%。综上所述,考虑整个语音关键词识别系统,根据本公开实施例的芯片可以实现81.3%的网络计算节能,并且比现有技术的速度提高71倍。
表1.NS-KWS系统性能评估比较
NC*这些模块未在对应的工作中出现。a代表系统级前仿结果,b代表测试结果。
在本公开的再一个示例性实施例中,提供了一种语音关键词识别的近传感器处理方法。对麦克风采集的信号在模拟域进行特征提取,并基于神经网络对提取的频率特征向量进行模拟信号处理,及对处理后的模拟信号进行平滑处理,得到语音关键词识别的似然概率,判断所述似然概率是否大于预定阈值,若大于所述预定阈值,则唤醒数字域单元,对所述模拟域单元输出的似然概率进行模数转换。
至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
除非有所知名为相反之意,本说明书及所附权利要求中的数值参数是近似值,能够根据通过本公开的内容所得的所需特性改变。具体而言,所有使用于说明书及权利要求中表示组成的含量、反应条件等等的数字,应理解为在所有情况中是受到「约」的用语所修饰。一般情况下,其表达的含义是指包含由特定数量在一些实施例中±10%的变化、在一些实施例中±5%的变化、在一些实施例中±1%的变化、在一些实施例中±0.5%的变化。
再者,单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。
说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词,以修饰相应的元件,其本身并不意味着该元件有任何的序数,也不代表某一元件与另一元件的顺序、或是制造方法上的顺序,该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。
此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的内容,并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。
本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的相关设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且,在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。
类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (12)
1.一种应用于语音关键词识别的近传感器处理的电路,其特征在于,包括:
混合信号乘累加电路,所述混合信号乘累加电路包括:
第一开关晶体管Mp,所述第一开关晶体管Mp为P型晶体管,第一开关晶体管Mp的源极输入电流Ip,栅极连接输入数据线W3;
第二开关晶体管Mn,所述第二开关晶体管Mn为N型晶体管,第二开关晶体管Mn的源极输入电流In,栅极连接输入数据线W3;
n个第一晶体管PM1、PM2、PM3...PMn,所述第一晶体管PM1、PM2、PM3均为P型晶体管,源极均连接至第一开关晶体管Mp的漏极;
n个第二晶体管NM1、NM2、NM3...NMn,所述第二晶体管NM1、NM2、NM3均为N型晶体管,源极均连接至第二开关晶体管Mn的漏极;所述第二晶体管NM1、NM2、NM3...NMn的漏极与第一晶体管PM1、PM2、PM3...PMn的漏极分别相连;
第二数字控制线W0、W1、W2...Wn一端分别连接至第二晶体管NM1、NM2、NM3...NMn的漏极,另一端连接至电流输出端Iout;
其中,n≥3,所述第一晶体管PM1、PM2、PM3...PMn的宽长比为1∶2∶...:2n-1,所述第二晶体管NM1、NM2、NM3...PMn的宽长比为1∶2∶...∶2n-1。
2.根据权利要求1所述的电路,其特征在于,所述第一晶体管PM1、PM2、PM3...PMn的栅极均连接至预定的第一偏置电压VBp,第二晶体管NM1、NM2、NM3...NMn的栅极连接至预定的第二偏置电压VBn,所述第一偏置电压VBp保持在能够满足第一晶体管PM1、PM2、PM3...PMn导通条件的电压值;第二偏置电压VBn保持在能够满足第二晶体管NM1、NM2、NM3...NMn导通条件的电压值。
3.一种语音关键词识别的近传感器处理系统,其特征在于,包括:
模拟域单元,所述模拟域单元包括特征提取单元、基于神经网络的模拟处理电路及后处理单元,用于对麦克风采集的信号进行数据处理,得到语音关键词识别的似然概率,以及
数字域单元,所述数字域单元包括模数转换器,用于在被唤醒后,对所述模拟域单元输出的似然概率进行模数转换;
其中,所述基于神经网络的模拟处理电路包括如权利要求1或2所述的混合信号乘累加电路。
4.根据权利要求3所述的语音关键词识别的近传感器处理系统,其特征在于,基于神经网络的模拟处理电路包括乘累加电路、非线性单元和逐元素乘法单元,用于对特征提取后的模拟信号向量进行识别处理,并计算概率分布,输出语音关键词识别的似然概率。
5.根据权利要求3所述的语音关键词识别的近传感器处理系统,其特征在于,所述乘累加电路包括:
缓冲单元,用于对电流进行缓冲,以及
如权利要求1或2所述的混合信号乘累加电路,用于将特征提取单元提取的每个特征向量和权值相乘并将各乘积相加。
6.根据权利要求5所述的语音关键词识别的近传感器处理系统,其特征在于,所述缓冲单元包括电流传输器,输入的电流向量(I1,I2,...,In)即为所述特征提取单元提取的特征向量,电流向量(I1,I2,...,In)分别输入对应的电流传输器,电流传输器输出两个方向电流(Ip和In),作为混合信号乘累加电路的特征输入。
7.根据权利要求5所述的语音关键词识别的近传感器处理系统,其特征在于,数字输入(W3,W2,W1,W0)作为训练好的权值输入至混合信号乘累加电路的第一数字控制线与第二数字控制线。
8.根据权利要求4所述的语音关键词识别的近传感器处理系统,其特征在于,非线性单元采用sigmoid操作及Tanh操作实现。
9.根据权利要求3所述的语音关键词识别的近传感器处理系统,其特征在于,所述特征提取单元包括带通滤波器、平方器和低通滤波器,用于模拟域中提取美尔频率特征。
10.根据权利要求3所述的语音关键词识别的近传感器处理系统,其特征在于,后处理单元连接至模拟处理单元的输出,用于在对基于神经网络的模拟处理电路的输出进行平滑处理。
11.一种语音关键词识别的近传感器处理芯片,其特征在于,包括如权利要求3-10任一项所述的语音关键词识别的近传感器处理系统。
12.一种采用如权利要求3-10任一项所述的语音关键词识别的近传感器处理系统的方法,其特征在于,包括:
对麦克风采集的信号在模拟域进行频率特征提取,并基于神经网络对提取的频率特征向量进行模拟信号处理,及对处理后的模拟信号进行平滑处理,得到语音关键词识别的似然概率,以及
判断所述似然概率是否大于预定阈值,若大于所述预定阈值,则唤醒数字域单元,对所述模拟域单元输出的似然概率进行模数转换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010727505.3A CN111833888B (zh) | 2020-07-24 | 2020-07-24 | 一种语音关键词识别的近传感器处理系统、电路及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010727505.3A CN111833888B (zh) | 2020-07-24 | 2020-07-24 | 一种语音关键词识别的近传感器处理系统、电路及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111833888A true CN111833888A (zh) | 2020-10-27 |
CN111833888B CN111833888B (zh) | 2022-11-11 |
Family
ID=72925730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010727505.3A Active CN111833888B (zh) | 2020-07-24 | 2020-07-24 | 一种语音关键词识别的近传感器处理系统、电路及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111833888B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112992123A (zh) * | 2021-03-05 | 2021-06-18 | 西安交通大学 | 一种语音特征提取电路及方法 |
CN113411723A (zh) * | 2021-01-13 | 2021-09-17 | 神盾股份有限公司 | 语音助理系统 |
CN114937449A (zh) * | 2021-02-05 | 2022-08-23 | 清华大学 | 一种语音关键词识别方法及系统 |
US20230058738A1 (en) * | 2021-08-18 | 2023-02-23 | Richwave Technology Corp. | Driving circuit having a switch module to be capable of turning off a conductive path |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315770A (zh) * | 2008-05-27 | 2008-12-03 | 北京承芯卓越科技有限公司 | 语音识别片上系统及采用其的语音识别方法 |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
US20170263268A1 (en) * | 2016-03-10 | 2017-09-14 | Brandon David Rumberg | Analog voice activity detection |
CN107679622A (zh) * | 2017-09-06 | 2018-02-09 | 清华大学 | 一种面向神经网络算法的模拟感知计算架构 |
CN108764467A (zh) * | 2018-04-04 | 2018-11-06 | 北京大学深圳研究生院 | 用于卷积神经网络卷积运算和全连接运算电路 |
US20190057303A1 (en) * | 2017-08-18 | 2019-02-21 | Microsoft Technology Licensing, Llc | Hardware node having a mixed-signal matrix vector unit |
CN109477938A (zh) * | 2016-06-02 | 2019-03-15 | 麻省理工学院 | 用于光学神经网络的设备和方法 |
CN110008440A (zh) * | 2019-04-15 | 2019-07-12 | 合肥恒烁半导体有限公司 | 一种基于模拟矩阵运算单元的卷积运算及其应用 |
CN111052154A (zh) * | 2017-09-07 | 2020-04-21 | 松下电器产业株式会社 | 使用非易失性半导体存储元件的神经网络运算电路 |
CN111341306A (zh) * | 2020-02-14 | 2020-06-26 | 东南大学 | 基于语音特征复用的关键词唤醒cnn的存储和计算压缩方法 |
-
2020
- 2020-07-24 CN CN202010727505.3A patent/CN111833888B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315770A (zh) * | 2008-05-27 | 2008-12-03 | 北京承芯卓越科技有限公司 | 语音识别片上系统及采用其的语音识别方法 |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
US20170263268A1 (en) * | 2016-03-10 | 2017-09-14 | Brandon David Rumberg | Analog voice activity detection |
CN109477938A (zh) * | 2016-06-02 | 2019-03-15 | 麻省理工学院 | 用于光学神经网络的设备和方法 |
US20190057303A1 (en) * | 2017-08-18 | 2019-02-21 | Microsoft Technology Licensing, Llc | Hardware node having a mixed-signal matrix vector unit |
CN107679622A (zh) * | 2017-09-06 | 2018-02-09 | 清华大学 | 一种面向神经网络算法的模拟感知计算架构 |
CN111052154A (zh) * | 2017-09-07 | 2020-04-21 | 松下电器产业株式会社 | 使用非易失性半导体存储元件的神经网络运算电路 |
CN108764467A (zh) * | 2018-04-04 | 2018-11-06 | 北京大学深圳研究生院 | 用于卷积神经网络卷积运算和全连接运算电路 |
CN110008440A (zh) * | 2019-04-15 | 2019-07-12 | 合肥恒烁半导体有限公司 | 一种基于模拟矩阵运算单元的卷积运算及其应用 |
CN111341306A (zh) * | 2020-02-14 | 2020-06-26 | 东南大学 | 基于语音特征复用的关键词唤醒cnn的存储和计算压缩方法 |
Non-Patent Citations (2)
Title |
---|
BO LIU ET AL: "n Ultra-Low Power Always-On Keyword Spotting Accelerator Using Quantized Convolutional Neural Network and Voltage-Domain Analog Switching Network-Based Approximate Computing", 《IEEE ACCESS》 * |
李桂宏,乔飞: "面向边缘智能设备的持续感知集成电路与系统", 《微纳电子与智能制造》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113411723A (zh) * | 2021-01-13 | 2021-09-17 | 神盾股份有限公司 | 语音助理系统 |
CN114937449A (zh) * | 2021-02-05 | 2022-08-23 | 清华大学 | 一种语音关键词识别方法及系统 |
CN112992123A (zh) * | 2021-03-05 | 2021-06-18 | 西安交通大学 | 一种语音特征提取电路及方法 |
US20230058738A1 (en) * | 2021-08-18 | 2023-02-23 | Richwave Technology Corp. | Driving circuit having a switch module to be capable of turning off a conductive path |
Also Published As
Publication number | Publication date |
---|---|
CN111833888B (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111833888B (zh) | 一种语音关键词识别的近传感器处理系统、电路及方法 | |
CN110838289B (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
Giraldo et al. | Vocell: A 65-nm speech-triggered wake-up SoC for 10-$\mu $ W keyword spotting and speaker verification | |
Liu et al. | A 22nm, 10.8 μ W/15.1 μ W dual computing modes high power-performance-area efficiency domained background noise aware keyword-spotting processor | |
Zheng et al. | An ultra-low power binarized convolutional neural network-based speech recognition processor with on-chip self-learning | |
Gao et al. | Real-time speech recognition for IoT purpose using a delta recurrent neural network accelerator | |
CN110364144A (zh) | 一种语音识别模型训练方法及装置 | |
CN108010515A (zh) | 一种语音端点检测和唤醒方法及装置 | |
CN111599371B (zh) | 语音增加方法、系统、装置及存储介质 | |
CN112652306B (zh) | 语音唤醒方法、装置、计算机设备和存储介质 | |
CN111583940A (zh) | 极低功耗关键词唤醒神经网络电路 | |
CN111833866A (zh) | 用于低资源设备的高准确度关键短语检测的方法和系统 | |
Liu et al. | Precision adaptive MFCC based on R2SDF-FFT and approximate computing for low-power speech keywords recognition | |
Liu et al. | An ultra-low power always-on keyword spotting accelerator using quantized convolutional neural network and voltage-domain analog switching network-based approximate computing | |
Chong et al. | A 2.5 μW KWS engine with pruned LSTM and embedded MFCC for IoT applications | |
CN111625649A (zh) | 文本处理方法、装置、电子设备及介质 | |
Benelli et al. | A low power keyword spotting algorithm for memory constrained embedded systems | |
CN113450771A (zh) | 唤醒方法、模型训练方法和装置 | |
CN114360510A (zh) | 一种语音识别方法和相关装置 | |
CN112530418B (zh) | 一种语音唤醒方法、装置及相关设备 | |
CN116597814A (zh) | 一种基于时域二值神经网络的语音唤醒方法及系统 | |
Qu et al. | Realization of embedded speech recognition module based on STM32 | |
Jia et al. | A 11.6 μ W Computing-on-Memory-Boundary Keyword Spotting Processor with Joint MFCC-CNN Ternary Quantization | |
CN113689866B (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 | |
He et al. | Background noise adaptive energy-efficient keywords recognition processor with reusable DNN and reconfigurable architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |