CN116382780A - 控制指令的识别方法、装置、存储介质及车载控制系统 - Google Patents
控制指令的识别方法、装置、存储介质及车载控制系统 Download PDFInfo
- Publication number
- CN116382780A CN116382780A CN202310465945.XA CN202310465945A CN116382780A CN 116382780 A CN116382780 A CN 116382780A CN 202310465945 A CN202310465945 A CN 202310465945A CN 116382780 A CN116382780 A CN 116382780A
- Authority
- CN
- China
- Prior art keywords
- model
- attention
- encoder unit
- word
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 75
- 238000004364 calculation method Methods 0.000 claims abstract description 46
- 230000007246 mechanism Effects 0.000 claims abstract description 28
- 238000013138 pruning Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 109
- 238000004590 computer program Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 abstract description 10
- 230000009286 beneficial effect Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30094—Condition code generation, e.g. Carry, Zero flag
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Abstract
本公开提供了一种控制指令的识别方法、装置、存储介质及车载控制系统,该识别方法包括:将控制指令划分为多个词元;将各个词元输入至第一模型,得到各个词元的特征向量,每个特征向量用于表征当前词元与其他词元之间的相关性,第一模型为基于多头注意力机制的剪枝模型,包括至少一个编码器单元,编码器单元中至少包括第一注意力模型或第二注意力模型;将特征向量输入至第二模型,以实现对控制指令的意图识别。本公开利用第一模型替代现有技术中的大规模语言模型,通过基于多头注意力机制的剪枝模型进行控制指令中各个词元的特征提取,第一模型相较于大规模语言模型需要计算的权重参数更少,数据计算量更小,更有利于在算力较小的设备上进行实现。
Description
技术领域
本公开涉及人工智能领域,特别涉及一种控制指令的识别方法、装置、存储介质及车载控制系统。
背景技术
随着人工智能领域的发展,各类自然语言处理模型广泛应用在了各个领域,方便了用户的日常生活,但是当前的主流算法主要基于大规模语言模型(例如transformer)实现自然语言理解,结合命名实体识别算法、意图识别算法等即可实现智能化的设备控制。但是上述模型适用于具有较高算力的设备中,在例如智能座舱、智能音箱等算力较小的设备中,其处理器芯片算力不足以支撑大规模语言模型的落地,影响用户的使用体验。
发明内容
本公开实施例的目的在于提供一种控制指令的识别方法、装置、存储介质及车载控制系统,用以解决现有技术中小算力设备无法支持大规模语言模型的问题。
本公开的实施例采用如下技术方案:一种控制指令的识别方法,包括:将控制指令划分为多个词元;将各个所述词元输入至第一模型,得到各个所述词元的特征向量,每个所述特征向量用于表征当前词元与其他词元之间的相关性,所述第一模型为基于多头注意力机制的剪枝模型;所述第一模型包括至少一个编码器单元,每个所述编码器单元中至少包括第一注意力模型或第二注意力模型;将所述特征向量输入至第二模型,以实现对所述控制指令的意图识别。
在一些实施例中,所述第一注意力模型至少包括:第一注意力层,所述第一注意力层用以对所述词元进行特征提取,得到所述特征向量;门控结构,所述门控结构用以调整所述第一注意力层的维度。
在一些实施例中,所述第一注意力模型被配置为执行以下操作:将所述词元对应的初始嵌入向量与第一参数矩阵和第二参数矩阵分别相乘,得到第一矩阵和第二矩阵,所述第一参数矩阵和所述第二参数矩阵的维度均为第一维度;将所述词元对应的初始嵌入向量与第三参数矩阵和第四参数矩阵分别相乘,得到第三矩阵和第四矩阵,所述第三参数矩阵和所述第四参数矩阵的维度均为第二维度,所述第二维度高于所述第一维度;将所述第一矩阵和所述第二矩阵相乘,得到相关性特征值;将所述相关性特征值依次与所述第三矩阵和第四矩阵相乘,得到所述特征向量。
在一些实施例中,所述第二注意力模型至少包括:第二注意力层,所述第二注意力层用以对所述词元进行特征提取,得到所述特征向量,所述第二注意力层具有相关性约束机制,所述相关性约束机制为在计算相关性时,每个当前词元仅计算与所述当前词元距离为i*S的至少一个词元的相关性,i=0、1、2、……,S为预设的超参数。
在一些实施例中,在所述编码器单元包括所述第二注意力模型的情况下,每个所述第二注意力模型在所有所述词元中随机选取第一数量的词元进行相关性计算,所述第一数量的值由所述超参数和所有所述词元的总数量确定;每个所述第二注意力模型之间选取所述第一数量的词元之间不完全相同。
在一些实施例中,所述编码器单元包括第一类编码器单元和第二类编码器单元;所述第一类编码器单元中包括所述第一注意力模型;所述第二类编码器单元中包括所述第二注意力模型。
在一些实施例中,所述第一模型基于以下一种方式实现:所述第一模型包括多个依次串行连接的所述第一类编码器单元;所述第一模型包括多个依次串行连接的所述第二类编码器单元;所述第一模型包括至少一个所述第一类编码器单元和至少一个所述第二类编码器单元,所述第一类编码器单元和所述第二类编码器单元依次交替串行连接;所述第一模型包括至少一个所述第一类编码器单元和至少一个所述第二类编码器单元,所有所述第一类编码器单元依次串行连接之后,与所有所述第二类编码器单元依次串行连接;或,所有所述第二类编码器单元依次串行连接之后,与所有所述第一类编码器单元依次串行连接。
本公开实施例还提供了一种控制指令的识别装置,包括:划分模块,用于将控制指令划分为多个词元;特征计算模块,用于将各个所述词元输入至第一模型,得到各个所述词元的特征向量,每个所述特征向量用于表征当前词元与其他词元之间的相关性,所述第一模型为基于多头注意力机制的剪枝模型;所述第一模型包括至少一个编码器单元,每个所述编码器单元中至少包括第一注意力模型或第二注意力模型;识别模块,用于将所述特征向量输入至第二模型,以实现对所述控制指令的意图识别。
本公开实施例还提供了一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的控制指令的识别方法的步骤。
本公开实施例还提供了一种车载控制系统,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述的控制指令的识别方法的步骤。
本公开实施例的有益效果在于:利用第一模型替代现有技术中的大规模语言模型,通过基于多头注意力机制的剪枝模型进行控制指令中各个词元的特征提取,第一模型相较于大规模语言模型需要计算的权重参数更少,数据计算量更小,更有利于在算力较小的设备上进行实现。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中带有语音控制功能的设备在接收到语音指令时的工作流程图;
图2为本公开第一实施例中控制指令的识别方法的流程图;
图3为本公开第一实施例中第一模型的结构示意图;
图4为本公开第一实施例中第一注意力模型的结构示意图;
图5为现有技术中词元之间相关性计算示意图;
图6为本公开第一实施例中词元之间相关性计算示意图;
图7为本公开第二实施例中控制指令的识别装置的结构示意图;
图8为本公开第四实施例中车载控制系统的结构示意图。
具体实施方式
此处参考附图描述本公开的各种方案以及特征。
应理解的是,可以对此处申请的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本公开的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本公开进行了描述,但本领域技术人员能够确定地实现本公开的很多其它等效形式,它们具有如权利要求的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本公开的具体实施例;然而,应当理解,所申请的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所申请的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
随着人工智能领域的发展,各类自然语言处理模型广泛应用在了各个领域,方便了用户的日常生活,但是当前的主流算法主要基于大规模语言模型(例如transformer)实现自然语言理解,结合命名实体识别算法、意图识别算法等即可实现智能化的设备控制。图1示出了目前常用的带有语音控制功能的设备在接收到语音指令时的工作流程图,设备通过接收语音控制指令,经过语音识别和意图理解后实现对相应设备的控制或功能的实现。目前常用的意图理解方式有如下两种:
(1)模板匹配;工程师根据设备使用过程预先设计一定量的固定指令,如“打开车窗”、“关闭空调”,一旦通过语音识别算法得到的语音指令与预先设定的固定指令相匹配,则执行其对应的操作,这种方法的优点在于计算速度快,部署成本低;缺点在于鲁棒性不足,如果使用者发出的指令未与模板匹配,则效果不佳;
(2)深度学习算法;通过样本数据训练得到模型,可以智能的分析使用者的真实意图,通过情绪识别、命名实体识别等方法可以解析出使用者需要控制的具体设备和对设备进行的操作,优点在于智能化程度更高,对使用者的表达方式没有约束,但是由于当前语言模型主要基于transformer结构,模型的参数量巨大,运算速度较慢,在例如智能座舱、智能音箱等算力较小的设备中,其处理器芯片算力不足以支撑大规模语言模型的落地,影响用户的使用体验。
为了解决上述问题,本公开第一实施例提供了一种控制指令的识别方法,主要应用于智能座舱、智能音箱等算力较小的设备中,其实施流程图如图2所示,主要包括步骤S10至S30:
S10,将控制指令划分为多个词元。
本实施例中的控制指令是用户输入至设备并希望设备按照指令内容实现相应功能的。该控制指令可以是语音指令或者文字指令,在该控制指令为文字指令时,其可以通过设备自身输入装置或者外接输入装置等方式输入至设备中,其所输入的文本字符集客作为词元划分的依据;若控制指令为语音指令,则可通过预设算法先将语音指令转化为文本后,再进行词元的划分。
其中,词元(token)是文本中最基本的单位,主要通过对文本进行分词处理以得到至少一个词元。在进行分词处理时,划分词语的粒度可以根据需求进行调整,例如在文本为汉字时,每个汉字都可以被划分为一个词元,若文本为英文,则可根据单词或字母进行词元划分,本实施例不进行具体限制。
S20,将各个词元输入至第一模型,得到各个词元的特征向量。
控制指令对应的至少一个词元作为输入参数被输入至第一模型中,并通过第一模型输出各个词元对应的特征向量来表示任意一个当前词元与其他词元之间的相关性,该相关性的向量表示即可作为后续意图识别模型的输入参数,使意图识别模型方便根据词元之间的相关性特点对控制指令进行实体的识别和分类操作。
第一模型为基于多头注意力机制(Multi-headed Self-attention)的剪枝模型,本实施例中的剪枝模型是指对常规transformer模型中的编码器(encoder)部分进行优化调整,使其具有更少的权重参数或更小的数据计算量,更有利于在算力较小的设备上进行实现。
图3示出了本实施例中第一模型的结构示意图,该第一模型包括至少一个编码器单元100,在编码器单元100的数量为多个时,上述多个编码器单元100依次串行连接,各个词元优先输入至第一个编码器单元100,后续编码器单元100的输入则为上一个编码器单元100的输出,最后一个编码器单元100输出的特征向量则作为第一模型的输出。
在一些实施例中,第一模型中至少应当包括一嵌入层200,用以将各个词元从文本转化为语义空间中的向量,该向量则为词元对应的初始嵌入向量input。在将各个词元输入至第一模型,以进行各个词元的特征向量计算时,实际上是指将各个词元对应的初始嵌入向量作为第一模型中编码器单元200的输入,进行多次特征提取后得到特征向量。具体地,嵌入层200至少包括文本嵌入层(token embedding)和位置编码层(position embedding),还可以包括分段编码层(segment embedding),词元经过上述层级共同编码后即可形成初始嵌入向量input。
编码器单元100中则包括注意力模型,本实施例中的注意力模型主要使用多头注意力机制形成,其可以为第一注意力模型110或第二注意力模型120,上述两种注意力模型均用于进行词元的特征提取,但二者之间通过不同的方式实现了数据计算量或权重参数的降低,下面将结合图4至图6对第一注意力模型110和第二注意力模型120进行说明。
第一注意力模型110至少应当包括第一注意力层以及门控结构,其中第一注意力层主要用于进行词元之间相关性计算,以完成特征提取,而门控结构则用于调整第一注意力层中多头注意力的维度。图4示出了第一注意力模型110的结构示意图,其中X表示词元对应的初始嵌入向量,第一注意力模型输出特征向量的计算过程可表示为:
output=(U⊙AV)W;
其中,output表示第一注意力模型110输出的特征向量,V和U为词元经过编码后得到的向量X与第三参数矩阵和第四参数矩阵相乘后得到的第三矩阵和第四矩阵,作为门控结构,其表述公式为U=φu(XWu),V=φv(XWv),φu、φv均为预设的激活函数,Wv、Wu则表示经过训练而来的权重矩阵,即第三参数矩阵和第四参数矩阵,第三参数矩阵和第四参数矩阵的维度均为第二维度;A为相关性特征值,其表述公式为:
此时,Q和K表示两个可训练的仿射变换,是词元经过编码后得到的向量X与第一参数矩阵和第二参数矩阵相乘后得到的第一矩阵和第二矩阵,其表达式为Q(X)=α1X+β1,K(X)=α2X+β2,WQ即为α1和β1,WK则为α2和β2,二者均为经过训练而来的权重矩阵,即第一参数矩阵和第二参数矩阵,第一参数矩阵和第二参数矩阵的维度为第一维度,并且第一维度低于第二维度,n为词元的总数量,s表示第一注意力层中隐藏节点(hiddensize)的数量,实际上即为本实施例中设定的第一维度的值,通常为第二维度的1/6;W则仅用于表模型中各个训练得到的权重参数,在不同公式中对应为Wu、Wv、WQ和WK。
在上述第一注意力模型的使用过程中,首先基于降维的第一参数矩阵和第二参数矩阵与初始嵌入向量X相乘得到具有第一维度的第一矩阵和第二矩阵,二者相乘后得到相关性特征值;此时由于降低了第一参数矩阵和第二参数矩阵的维度,即二者在训练和计算过程中的参数量大大降低,可能会导致相关性特征值的准确性降低,此时再进一步与具有第二维度的第三矩阵和第四矩阵依次相乘,即可得到具有第二维度的特征向量,在提升其输出结果维度的同时提升其输出的特征向量的准确性,使其可以更准确的表示词元的特征。需要注意的是,本实施例所述的第二维度可以是常规的transformer结构中原始的隐藏节点数量d,一般为768,而第一维度则通常为d的1/6,即128,实现计算量的降低;另外,第一模型中还应当包括前馈神经网络等,将特征向量的维度提升至第二维度后可以允许前馈神经网络直接进行后续计算处理。
传统的transformer结构中,单头(head)注意力中所需要计算的参数量为768*768/12*3,而头的数量h通常为12,则multi-heads所需要计算的参数量为768*768/12*3*12,之后将12个头concat后又进行了线性变换,用到了参数W,大小为768*768,那么最后multi-heads的所需要计算的参数总量:768*768/12*3*12+768*768,利用d表示多头注意力机制中原始的隐藏节点数量,即d=768,则上述参数总量可用4d2进行表示。而利用如图4所示的结构形成的第一注意力模型的总参数量为768*768/12/6*3*12+768*768=d2+ds,d的值通常为s的6倍,对比传统的权重参数量,本实施例所提供的第一注意力模型的参数量共减少了17d2/6,使第一注意力模型无论是从训练过程上还是使用过程中的维度都得到了有效的降低,进而实现参数量低、轻量化的注意力模型。
第二注意力模型120则至少包括第二注意力层,其主要作用依然是用以对词元进行特征提取得到特征向量,其进行特征提取的原理的方式可以为常规的多头注意力机制,在进行当前词元与其他词元之间的相关性计算时,常规方式如图5所示,即计算任意一个词元与其他所有词元之间的相关性;但在本实施例中,第二注意力层具有一相关性约束机制,即在进行当前词元与其他词元的相关性计算时,针对每个所述当前词元仅计算与当前词元距离为i*S的其他至少一个词元进行的相关性计算,如图6所示,其中,i=0、1、2、……,S为预设的超参数,S的值通常大于1,图6中所示的S的值为3,其实际的数值选取可以根据需求设置。本实施例通过超参数S的设置和相关性约束机制的限制,有效减少了相关性计算时的数据计算量,使其更有利于设置在小算力设备中进行控制指令特征提取的功能实现。
需要注意的是,S的选值可以结合设备的算力情况和模型的准确性进行设置,S的值越大则模型计算的相关性数量越大,需要的设备算力更高,但对应的输出结果则更准确;反之,S的值越小则模型计算的相关性数量越小,需要的设备算力更低,但对应的输出结果准确性可能会有所下降,因此超参数的设置应当保证算力需求和准确性之间的平衡,具体选值可根据实际情况确定,本实施例不进行具体限制。
在一些实施例中,由于超参数S的设置,可能会使得某些距离上的词元的相关性永远无法计算,因此在多个编码器单元100中均包括第二注意力模型120时,使每个第二注意力模型120在进行相关性计算时从所有词元中随机选取第一数量的词元进行相关性计算,第一数量的值由超参数S和所有词元的总数量确定,例如,第一数量的值可以为所有词元的总数量乘以1/S后向上取整或向下取整之后得到的整数,使每个编码器单元中随机选定的多个词元所对应进行相关性计算的其他词元可以尽可能地覆盖所有词元;本实施例中第一数量的值与所有词元的总数量之间的比值在1/4至1/2之间,通常可设定为1/3,即对应超参数S为3。同时限制在不同的编码器单元100中的第二注意力模型120所选定的词元不完全相同,以达到在降低计算量的同时,保证考虑到了尽可能多的相关性。例如,第一模型中包括三个编码器单元100,词元数量共有10个,超参数S的值为3,那么第一个编码器单元100可计算第[1、3、5]个词元的相关性,第二个编码器单元100可计算第[1、7、9]个词元的相关性,第三个编码器单元100可计算第[3、6、7]个词元的相关性。
在实际实现时,第一模型中往往包括多个编码器单元100,例如共设置6个依次串行连接的编码器单元100,将编码器单元100分为第一类编码器单元和第二类编码器单元,使第一类编码器单元包括第一注意力模型110,第二类编码器单元包括第二注意力模型120,在实现第一模型时,可以使用如下任意一种方式进行:
(1)第一模型包括多个依次串行连接的第一类编码器单元;
(2)第一模型包括多个依次串行连接的第二类编码器单元;
(3)第一模型包括至少一个第一类编码器单元和至少一个第二类编码器单元,第一类编码器单元和第二类编码器单元依次交替串行连接;以第一模型中共设置6个编码器单元为例,限定第一类编码器单元和第二类编码器单元依次进行交替的串行连接,即第一个、第三个、第五个编码器单元为使用第一注意力模型110的第一类编码器单元,第二个、第四个和第六个编码器单元为使用第二注意力模型120的第二类编码器单元;
(4)第一模型包括至少一个第一类编码器单元和至少一个第二类编码器单元,所有第一类编码器单元依次串行连接之后,与所有第二类编码器单元依次串行连接;或,所有第二类编码器单元依次串行连接之后,与所有第一类编码器单元依次串行连接;以第一模型中共设置6个编码器单元为例,可以设定第一个至第三个编码器单元为使用第一注意力模型110的第一类编码器单元,第四个至第六个编码器单元为使用第二注意力模型120的第二类编码器单元;或者设定第一个至第三个编码器单元为使用第二注意力模型120的第二类编码器单元,第四个至第六个编码器单元为使用第一注意力模型110的第一类编码器单元。
将两类编码器单元同时进行使用,可进一步提升第一模型整体输出的准确性。在实际实现过程中也可以使用其他串行连接方式,本实施例不进行限制。
进一步结合图3所示的编码器单元的结构,其还应当包括第一残差网络层130、前馈神经网络层140以及第二残差网络层150。结合图3所示的层级之间的连接情况可知,第一残差网络层130的输入为注意力模型(第一注意力模型110或第二注意力模型120)的输入和注意力模型的输出,前馈神经网络(Feed Forward)层140的输入则为第一残差网络层130的输出,第二残差网络层150的输入则为前馈神经网络层140的输出以及第一残差网络层130的输出,第二残差网络层150的则作为该编码器单元100的输出。应当了解的是,第一残差网络层130和第二残差网络层150具体计算过程均包括叠加和归一化(Add&Norm),上述第一残差网络层130、前馈神经网络层140以及第二残差网络层150均可以直接使用常规的神经网络模型进行实现,例如使用transformer模型中相应网络即可。
S30,将特征向量输入至第二模型,以实现对控制指令的意图识别。
第二模型则主要用于进行控制指令的意图识别,其可以为基于CRF结构的NER任务,第一模型输出的特征向量即为第二模型的输入参数,第二模型则根据特征向量所反馈出的词元之间的相关性对词元进行实体识别和分类,明确控制指令的实际意图。后续智能设备则可以根据第二模型输出的实体和分类情况执行相应功能或操作相应组件,以相应用户发出的控制指令。
需要注意的是,本实施例所使用的第一模型和第二模型可以通过预训练结合微调的方式进行生成。具体地,在实际使用之前,可首先基于一定量的样本数据对第一注意力模型和第二注意力模型进行融合训练,形成编码器encoder;然后在encoder的输出之后添加全连接层和softmax激活函数用于进行分类和实体识别,即得到预训练模型sptrans;随后基于应用场景对预训练模型sptrans进行微调训练即可。
本实施例利用第一模型替代现有技术中的大规模语言模型,通过基于多头注意力机制的剪枝模型进行控制指令中各个词元的特征提取,第一模型相较于大规模语言模型需要计算的权重参数更少,数据计算量更小,更有利于在算力较小的设备上进行实现。
本公开第二实施例提供了一种控制指令的识别装置,主要应用于智能座舱、智能音箱等算力较小的设备中,其结构示意图如图7所示,主要包括划分模块10、特征计算模块20以及识别模块30;其中,划分模块10用于将控制指令划分为多个词元;特征计算模块20用于将各个词元输入至第一模型,得到各个词元的特征向量,每个特征向量用于表征当前词元与其他词元之间的相关性,第一模型为基于多头注意力机制的剪枝模型;第一模型包括至少一个编码器单元,每个编码器单元中至少包括第一注意力模型或第二注意力模型;识别模块30用于将特征向量输入至第二模型,以实现对控制指令的意图识别。
具体地,第一注意力模型至少包括:第一注意力层,第一注意力层用以对词元进行特征提取,得到特征向量;门控结构,门控结构用以调整第一注意力层的维度。
在一些实施例中,特征计算模块20具体用于配置第一模型执行以下操作:将词元对应的初始嵌入向量与第一参数矩阵和第二参数矩阵分别相乘,得到第一矩阵和第二矩阵,第一参数矩阵和第二参数矩阵的维度均为第一维度;将词元对应的初始嵌入向量与第三参数矩阵和第四参数矩阵分别相乘,得到第三矩阵和第四矩阵,第三参数矩阵和第四参数矩阵的维度均为第二维度,第二维度高于第一维度;将第一矩阵和第二矩阵相乘,得到相关性特征值;将相关性特征值依次与第三矩阵和第四矩阵相乘,得到特征向量。
具体地,第二注意力模型至少包括:第二注意力层,第二注意力层用以对词元进行特征提取,得到特征向量,第二注意力层具有相关性约束机制,相关性约束机制为在计算相关性时,每个当前词元仅计算与当前词元距离为i*S的至少一个词元的相关性,i=0、1、2、……,S为预设的超参数。
具体地,在编码器单元包括第二注意力模型的情况下,每个第二注意力模型在所有词元中随机选取第一数量的词元进行相关性计算,第一数量的值由超参数和所有词元的总数量确定;每个第二注意力模型之间选取第一数量的词元之间不完全相同。
具体地,编码器单元包括第一类编码器单元和第二类编码器单元;第一类编码器单元中包括第一注意力模型;第二类编码器单元中包括第二注意力模型。第一模型基于以下一种方式实现:第一模型包括多个依次串行连接的第一类编码器单元;第一模型包括多个依次串行连接的第二类编码器单元;第一模型包括至少一个第一类编码器单元和至少一个第二类编码器单元,第一类编码器单元和第二类编码器单元依次交替串行连接;第一模型包括至少一个第一类编码器单元和至少一个第二类编码器单元,所有第一类编码器单元依次串行连接之后,与所有第二类编码器单元依次串行连接,或,所有第二类编码器单元依次串行连接之后,与所有第一类编码器单元依次串行连接。
本实施例利用第一模型替代现有技术中的大规模语言模型,通过基于多头注意力机制的剪枝模型进行控制指令中各个词元的特征提取,第一模型相较于大规模语言模型需要计算的权重参数更少,数据计算量更小,更有利于在算力较小的设备上进行实现。
本公开第三实施例提供了一种存储介质,该存储介质可安装于智能座舱、智能音箱等算力较小的设备中,其具体为计算机可读介质,存储有计算机程序,该计算机程序被处理器执行时实现本公开任意实施例提供的方法,包括如下步骤S31至S33:
S31,将控制指令划分为多个词元;
S32,将各个词元输入至第一模型,得到各个词元的特征向量,每个特征向量用于表征当前词元与其他词元之间的相关性,第一模型为基于多头注意力机制的剪枝模型;所述第一模型包括至少一个编码器单元,每个所述编码器单元中至少包括第一注意力模型或第二注意力模型;
S33,将特征向量输入至第二模型,以实现对控制指令的意图识别。
具体地,第一注意力层,所述第一注意力层用以对所述词元进行特征提取,得到所述特征向量;门控结构,所述门控结构用以调整所述第一注意力层的维度。
计算机程序在实现第一注意力模型时还被处理器执行如下步骤:将所述词元对应的初始嵌入向量与第一参数矩阵和第二参数矩阵分别相乘,得到第一矩阵和第二矩阵,所述第一参数矩阵和所述第二参数矩阵的维度均为第一维度;将所述词元对应的初始嵌入向量与第三参数矩阵和第四参数矩阵分别相乘,得到第三矩阵和第四矩阵,所述第三参数矩阵和所述第四参数矩阵的维度均为第二维度,所述第二维度高于所述第一维度;将所述第一矩阵和所述第二矩阵相乘,得到相关性特征值;将所述相关性特征值依次与所述第三矩阵和第四矩阵相乘,得到所述特征向量。
具体地,第二注意力模型至少包括:第二注意力层,第二注意力层用以对词元进行特征提取,得到特征向量,第二注意力层具有相关性约束机制,相关性约束机制为在计算相关性时,每个当前词元仅计算与当前词元距离为i*S的至少一个词元的相关性,i=0、1、2、……,S为预设的超参数。在编码器单元包括第二注意力模型的情况下,每个第二注意力模型在所有词元中随机选取第一数量的词元进行相关性计算,第一数量的值由超参数和所有词元的总数量确定;每个第二注意力模型之间选取第一数量的词元之间不完全相同。
具体地,编码器单元包括第一类编码器单元和第二类编码器单元;第一类编码器单元中包括第一注意力模型;第二类编码器单元中包括第二注意力模型;第一模型基于以下一种方式实现:第一模型包括多个依次串行连接的第一类编码器单元;第一模型包括多个依次串行连接的第二类编码器单元;第一模型包括至少一个第一类编码器单元和至少一个第二类编码器单元,第一类编码器单元和第二类编码器单元依次交替串行连接;第一模型包括至少一个第一类编码器单元和至少一个第二类编码器单元,所有第一类编码器单元依次串行连接之后,与所有第二类编码器单元依次串行连接,或,所有第二类编码器单元依次串行连接之后,与所有第一类编码器单元依次串行连接。
具体地,编码器单元中还包括:第一残差网络层,第一残差网络层的输入包括注意力模型的输入和注意力模型的输出;前馈神经网络层,前馈神经网络层的输入包括第一残差网络的输出;第二残差网络层,第二残差网络层的输入包括前馈神经网络层的输出以及第一残差网络的输出,第二残差网络层的输出为编码器单元的输出。
第一模型中还包括:嵌入层,嵌入层用于将词元转换为初始嵌入向量,嵌入层至少包括文本嵌入层和位置编码层;计算机程序被处理器执行将各个词元输入至第一模型,得到各个词元的特征向量时,具体被处理器执行如下步骤:将各个初始嵌入向量输入至编码器单元,得到各个词元的特征向量。
本实施例利用第一模型替代现有技术中的大规模语言模型,通过基于多头注意力机制的剪枝模型进行控制指令中各个词元的特征提取,第一模型相较于大规模语言模型需要计算的权重参数更少,数据计算量更小,更有利于在算力较小的设备上进行实现。
本公开的第四实施例提供了一种车载控制系统,该车载控制系统安装于智能车辆中,其可以是一具有显示屏和麦克风的电子设备,可用于实现对车辆内的设备进行控制,车载控制系统的结构示意图如图8所示,至少包括存储器1000和处理器2000,存储器1000上存储有计算机程序,处理器2000在执行存储器1000上的计算机程序时实现本公开任意实施例提供的方法。示例性的,电子设备计算机程序步骤如下S41至S43:
S41,将控制指令划分为多个词元;
S42,将各个词元输入至第一模型,得到各个词元的特征向量,每个特征向量用于表征当前词元与其他词元之间的相关性,第一模型为基于多头注意力机制的剪枝模型;所述第一模型包括至少一个编码器单元,每个所述编码器单元中至少包括第一注意力模型或第二注意力模型;
S43,将特征向量输入至第二模型,以实现对控制指令的意图识别。
具体地,第一注意力层,所述第一注意力层用以对所述词元进行特征提取,得到所述特征向量;门控结构,所述门控结构用以调整所述第一注意力层的维度。
处理器在实现第一注意力模型时还执行存储器上存储的如下计算机程序:将所述词元对应的初始嵌入向量与第一参数矩阵和第二参数矩阵分别相乘,得到第一矩阵和第二矩阵,所述第一参数矩阵和所述第二参数矩阵的维度均为第一维度;将所述词元对应的初始嵌入向量与第三参数矩阵和第四参数矩阵分别相乘,得到第三矩阵和第四矩阵,所述第三参数矩阵和所述第四参数矩阵的维度均为第二维度,所述第二维度高于所述第一维度;将所述第一矩阵和所述第二矩阵相乘,得到相关性特征值;将所述相关性特征值依次与所述第三矩阵和第四矩阵相乘,得到所述特征向量。
具体地,第二注意力模型至少包括:第二注意力层,第二注意力层用以对词元进行特征提取,得到特征向量,第二注意力层具有相关性约束机制,相关性约束机制为在计算相关性时,每个当前词元仅计算与当前词元距离为i*S的至少一个词元的相关性,i=0、1、2、……,S为预设的超参数。在编码器单元包括第二注意力模型的情况下,每个第二注意力模型在所有词元中随机选取第一数量的词元进行相关性计算,第一数量的值由超参数和所有词元的总数量确定;每个第二注意力模型之间选取第一数量的词元之间不完全相同。
具体地,编码器单元包括第一类编码器单元和第二类编码器单元;第一类编码器单元中包括第一注意力模型;第二类编码器单元中包括第二注意力模型;第一模型基于以下一种方式实现:第一模型包括多个依次串行连接的第一类编码器单元;第一模型包括多个依次串行连接的第二类编码器单元;第一模型包括至少一个第一类编码器单元和至少一个第二类编码器单元,第一类编码器单元和第二类编码器单元依次交替串行连接;第一模型包括至少一个第一类编码器单元和至少一个第二类编码器单元,所有第一类编码器单元依次串行连接之后,与所有第二类编码器单元依次串行连接,或,所有第二类编码器单元依次串行连接之后,与所有第一类编码器单元依次串行连接。
第一模型中还包括:嵌入层,嵌入层用于将词元转换为初始嵌入向量,嵌入层至少包括文本嵌入层和位置编码层;处理器在执行存储器上存储的将各个词元输入至第一模型,得到各个词元的特征向量时,具体执行如下计算机程序:将各个初始嵌入向量输入至编码器单元,得到各个词元的特征向量。
本实施例利用第一模型替代现有技术中的大规模语言模型,通过基于多头注意力机制的剪枝模型进行控制指令中各个词元的特征提取,第一模型相较于大规模语言模型需要计算的权重参数更少,数据计算量更小,更有利于在算力较小的设备上进行实现。
以上对本公开多个实施例进行了详细说明,但本公开不限于这些具体的实施例,本领域技术人员在本公开构思的基础上,能够做出多种变型和修改实施例,这些变型和修改都应落入本公开所要求保护的范围之内。
Claims (10)
1.一种控制指令的识别方法,其特征在于,包括:
将控制指令划分为多个词元;
将各个所述词元输入至第一模型,得到各个所述词元的特征向量,每个所述特征向量用于表征当前词元与其他词元之间的相关性,所述第一模型为基于多头注意力机制的剪枝模型;所述第一模型包括至少一个编码器单元,每个所述编码器单元中至少包括第一注意力模型或第二注意力模型;
将所述特征向量输入至第二模型,以实现对所述控制指令的意图识别。
2.根据权利要求1所述的识别方法,其特征在于,所述第一注意力模型至少包括:
第一注意力层,所述第一注意力层用以对所述词元进行特征提取,得到所述特征向量;
门控结构,所述门控结构用以调整所述第一注意力层的维度。
3.根据权利要求2所述的识别方法,其特征在于,所述第一注意力模型被配置为执行以下操作:
将所述词元对应的初始嵌入向量与第一参数矩阵和第二参数矩阵分别相乘,得到第一矩阵和第二矩阵,所述第一参数矩阵和所述第二参数矩阵的维度均为第一维度;
将所述词元对应的初始嵌入向量与第三参数矩阵和第四参数矩阵分别相乘,得到第三矩阵和第四矩阵,所述第三参数矩阵和所述第四参数矩阵的维度均为第二维度,所述第二维度高于所述第一维度;
将所述第一矩阵和所述第二矩阵相乘,得到相关性特征值;
将所述相关性特征值依次与所述第三矩阵和第四矩阵相乘,得到所述特征向量。
4.根据权利要求1所述的识别方法,其特征在于,所述第二注意力模型至少包括:
第二注意力层,所述第二注意力层用以对所述词元进行特征提取,得到所述特征向量,所述第二注意力层具有相关性约束机制,所述相关性约束机制为在计算相关性时,每个当前词元仅计算与所述当前词元距离为i*S的至少一个词元的相关性,i=0、1、2、……,S为预设的超参数。
5.根据权利要求4所述的识别方法,其特征在于,在所述编码器单元包括所述第二注意力模型的情况下,每个所述第二注意力模型在所有所述词元中随机选取第一数量的词元进行相关性计算,所述第一数量的值由所述超参数和所有所述词元的总数量确定;
每个所述第二注意力模型之间选取所述第一数量的词元之间不完全相同。
6.根据权利要求1所述的识别方法,其特征在于,所述编码器单元包括第一类编码器单元和第二类编码器单元;
所述第一类编码器单元中包括所述第一注意力模型;
所述第二类编码器单元中包括所述第二注意力模型。
7.根据权利要求6所述的识别方法,其特征在于,所述第一模型基于以下一种方式实现:
所述第一模型包括多个依次串行连接的所述第一类编码器单元;
所述第一模型包括多个依次串行连接的所述第二类编码器单元;
所述第一模型包括至少一个所述第一类编码器单元和至少一个所述第二类编码器单元,所述第一类编码器单元和所述第二类编码器单元依次交替串行连接;
所述第一模型包括至少一个所述第一类编码器单元和至少一个所述第二类编码器单元,所有所述第一类编码器单元依次串行连接之后,与所有所述第二类编码器单元依次串行连接;或,所有所述第二类编码器单元依次串行连接之后,与所有所述第一类编码器单元依次串行连接。
8.一种控制指令的识别装置,其特征在于,包括:
划分模块,用于将控制指令划分为多个词元;
特征计算模块,用于将各个所述词元输入至第一模型,得到各个所述词元的特征向量,每个所述特征向量用于表征当前词元与其他词元之间的相关性,所述第一模型为基于多头注意力机制的剪枝模型;所述第一模型包括至少一个编码器单元,每个所述编码器单元中至少包括第一注意力模型或第二注意力模型;
识别模块,用于将所述特征向量输入至第二模型,以实现对所述控制指令的意图识别。
9.一种可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的控制指令的识别方法的步骤。
10.一种车载控制系统,至少包括存储器、处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器在执行所述存储器上的计算机程序时实现权利要求1至8中任一项所述的控制指令的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310465945.XA CN116382780A (zh) | 2023-04-26 | 2023-04-26 | 控制指令的识别方法、装置、存储介质及车载控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310465945.XA CN116382780A (zh) | 2023-04-26 | 2023-04-26 | 控制指令的识别方法、装置、存储介质及车载控制系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116382780A true CN116382780A (zh) | 2023-07-04 |
Family
ID=86976964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310465945.XA Pending CN116382780A (zh) | 2023-04-26 | 2023-04-26 | 控制指令的识别方法、装置、存储介质及车载控制系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116382780A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765926A (zh) * | 2024-02-19 | 2024-03-26 | 上海蜜度科技股份有限公司 | 语音合成方法、系统、电子设备及介质 |
CN117765926B (zh) * | 2024-02-19 | 2024-05-14 | 上海蜜度科技股份有限公司 | 语音合成方法、系统、电子设备及介质 |
-
2023
- 2023-04-26 CN CN202310465945.XA patent/CN116382780A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765926A (zh) * | 2024-02-19 | 2024-03-26 | 上海蜜度科技股份有限公司 | 语音合成方法、系统、电子设备及介质 |
CN117765926B (zh) * | 2024-02-19 | 2024-05-14 | 上海蜜度科技股份有限公司 | 语音合成方法、系统、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Latif et al. | Deep representation learning in speech processing: Challenges, recent advances, and future trends | |
Pandey et al. | Deep learning techniques for speech emotion recognition: A review | |
Huang et al. | Decorrelated batch normalization | |
CN110021051A (zh) | 一种基于生成对抗网络通过文本指导的人物图像生成方法 | |
CN107662617B (zh) | 基于深度学习的车载交互控制算法 | |
CN110060657B (zh) | 基于sn的多对多说话人转换方法 | |
CN113609965B (zh) | 文字识别模型的训练方法及装置、存储介质、电子设备 | |
CN109271516A (zh) | 一种知识图谱中实体类型分类方法及系统 | |
CN113157919B (zh) | 语句文本方面级情感分类方法及系统 | |
CN115222566A (zh) | 国际金融与金融计量学教学用学习方法及其系统 | |
CN115147607A (zh) | 一种基于凸优化理论的抗噪声零样本图像分类方法 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN106021402A (zh) | 用于跨模态检索的多模态多类Boosting框架构建方法及装置 | |
CN116051388A (zh) | 经由语言请求的自动照片编辑 | |
Chen et al. | DST: Deformable speech transformer for emotion recognition | |
CN113297374B (zh) | 一种基于bert和字词特征融合的文本分类方法 | |
CN114360584A (zh) | 一种基于音素级的语音情感分层式识别方法及系统 | |
CN112905750A (zh) | 一种优化模型的生成方法和设备 | |
CN116701996A (zh) | 基于多元损失函数的多模态情感分析方法、系统、设备及介质 | |
CN116382780A (zh) | 控制指令的识别方法、装置、存储介质及车载控制系统 | |
CN115796029A (zh) | 基于显式及隐式特征解耦的nl2sql方法 | |
CN111104868B (zh) | 一种基于卷积神经网络特征的跨质量人脸识别方法 | |
CN107886942B (zh) | 一种基于局部惩罚随机谱回归的语音信号情感识别方法 | |
CN114372138A (zh) | 一种基于最短依存路径和bert的电力领域关系抽取的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |