CN113434108B - 语音控制指令的生成方法、装置、计算机设备及存储介质 - Google Patents
语音控制指令的生成方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113434108B CN113434108B CN202110591864.5A CN202110591864A CN113434108B CN 113434108 B CN113434108 B CN 113434108B CN 202110591864 A CN202110591864 A CN 202110591864A CN 113434108 B CN113434108 B CN 113434108B
- Authority
- CN
- China
- Prior art keywords
- spoken language
- model
- word
- language understanding
- compressing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 239000013598 vector Substances 0.000 claims abstract description 111
- 239000011159 matrix material Substances 0.000 claims description 57
- 238000007906 compression Methods 0.000 claims description 51
- 230000006835 compression Effects 0.000 claims description 45
- 238000013140 knowledge distillation Methods 0.000 claims description 32
- 238000012360 testing method Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 4
- 239000002609 medium Substances 0.000 description 20
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语音控制指令的生成方法、装置、计算机设备及存储介质。该方法包括:构建口语理解模型,口语理解模型依次包括词向量部分和语义理解部分;分别对词向量部分和语义理解部分进行压缩;使用压缩后的口语理解模型对用户的语音语言信息进行解析以生成语音控制指令。本发明实施例所提供的技术方案,通过对口语理解模型进行压缩,以使用压缩后的模型对口语理解任务进行实时推理,在保证模型召准率不受到较大影响的前提下,大幅压缩模型的大小以及推理运算量,从而提高语音控制指令生成的效率,也可以降低服务提供商的运营成本。
Description
技术领域
本发明实施例涉及智能语音交互技术领域,尤其涉及一种语音控制指令的生成方法、装置、计算机设备及存储介质。
背景技术
口语理解在移动终端上有着非常广泛的应用,其中最为人熟知的应用便是手机助手功能:口语理解模型将用户输入的语音语言信息解析成操作意图以及操作的具体参数,从而执行用户希望手机执行的操作。
目前用于移动终端设备的口语理解任务通常采用服务器端在线服务的方式,这种方式要求服务提供商提供大量的在线算力,从而需要很高的运营成本。
发明内容
本发明实施例提供一种语音控制指令的生成方法、装置、计算机设备及存储介质,以在保证模型召准率不受到较大影响的前提下,大幅压缩模型的大小以及推理运算量。
第一方面,本发明实施例提供了一种语音控制指令的生成方法,该方法包括:
构建口语理解模型,所述口语理解模型依次包括词向量部分和语义理解部分;
分别对所述词向量部分和所述语义理解部分进行压缩;
使用压缩后的所述口语理解模型对用户的语音语言信息进行解析以生成语音控制指令。
第二方面,本发明实施例还提供了一种语音控制指令的生成装置,该装置包括:
模型构建模块,用于构建口语理解模型,所述口语理解模型依次包括词向量部分和语义理解部分;
模型压缩模块,用于分别对所述词向量部分和所述语义理解部分进行压缩;
指令生成模块,用于使用压缩后的所述口语理解模型对用户的语音语言信息进行解析以生成语音控制指令。
第三方面,本发明实施例还提供了一种计算机设备,该计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的语音控制指令的生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的语音控制指令的生成方法。
本发明实施例提供了一种语音控制指令的生成方法,首先构建口语理解模型,该口语理解模型包括词向量部分和语义理解部分,然后分别对词向量部分和语义理解部分进行压缩,再使用压缩后的口语理解模型对用户的语音语言信息进行解析以生成语音控制指令。本发明实施例所提供的语音控制指令的生成方法,通过对口语理解模型进行压缩,以使用压缩后的模型对口语理解任务进行实时推理,在保证模型召准率不受到较大影响的前提下,大幅压缩模型的大小以及推理运算量,从而提高语音控制指令生成的效率,也可以降低服务提供商的运营成本。
附图说明
图1为本发明实施例一提供的语音控制指令的生成方法的流程图;
图2为本发明实施例二提供的语音控制指令的生成装置的结构示意图;
图3为本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的语音控制指令的生成方法的流程图。本实施例可适用于使用口语理解模型实时解析用户的语音语言信息以生成程序可直接处理的语音控制指令的情况,该方法可以由本发明实施例所提供的语音控制指令的生成装置来执行,该装置可以由硬件和/或软件的方式来实现,一般可集成于计算机设备中。如图1所示,具体包括如下步骤:
S11、构建口语理解模型,口语理解模型依次包括词向量部分和语义理解部分。
口语理解属于自然语言处理(Natural Language Processing,NLP)技术的范畴,其目的在于从一段口语中解析得到程序可以直接理解处理的指令与具体参数。口语理解任务一般分为两个部分,第一部分是意图分类,属于文本分类任务,在事先规定好的意图集合中,为输入的句子匹配合适的意图,第二部分是槽位填充,属于文本标注任务,将输入句子的每一个字符都根据其在句子中承担的语法成分进行标注。通过口语理解,计算机可以获取输入的语音语言信息的操作意图以及操作的具体参数,从而执行对应的响应操作。
口语理解模型可以依次包括词向量部分和语义理解部分,作为输入的语音语言信息可以依次通过词向量部分和语义理解部分得到输出的语音控制指令,在训练的过程中,可以将输出与真实结果进行比较来更新损失函数,从而根据损失函数分别更新词向量部分和语义理解部分的权值。这里构建的口语理解模型为原始模型,可以采用现有的构建方式进行构建,对此不作限制。其中,词向量部分还可以进一步细分为词库、词信息存储以及词向量表示,针对这样的结构可以提出后续的压缩方法。词库是一个String构成的列表,词信息存储部分中每一个词存储有一个独立的词向量,词向量表示时会对词语进行编号并取出对应的向量,整个词向量部分可以看作是一个Word2Vector器,是一个通过机器学习训练出来的映射模型,输入是单词,输出是词向量。语义理解部分可以使用循环神经网络(Recurrent Neural Network,RNN)来进行推理工作。
S12、分别对词向量部分和语义理解部分进行压缩。
具体的,模型压缩是指通过对原始模型的结构进行修改以达到在对模型性能不产生影响或产生极小影响的前提下,降低模型的计算复杂度与空间复杂度的目的,常用的方法有参数量化、神经元裁剪以及知识蒸馏等。口语理解模型包括词向量部分和语义理解部分,则对口语理解模型的压缩,可以分别对词向量部分和语义理解部分进行压缩。
可选的,对词向量部分进行压缩,包括:采用编码知识蒸馏方法对词向量的维度进行压缩;采用向量组合编码压缩方法对词向量的数量进行压缩。具体的,根据词向量部分的特征,可以提出一种组合压缩的方法,可以首先压缩词向量的维度,也即嵌入表达(Embedding)矩阵的宽度,减少每个词向量中的冗余信息,再压缩词向量的数量,也即嵌入表达(Embedding)矩阵的长度,以修改词向量的表达方式,由原本的直接表达改为组合表达,降低词信息存储部分中词向量的数量。具体可以采用编码知识蒸馏(EncodeDistilling)方法来压缩词向量的维度,采用向量组合编码压缩(Compressing Vectorwith Compositional Code)方法来对词向量的数量进行压缩。对词向量部分的压缩也即对相应的Embedding矩阵的压缩,并从长度和宽度两个维度来对Embedding矩阵进行压缩,其中对长度的压缩主要目的是缩减矩阵存储时和在内存中占用的空间,对宽度的压缩既可以压缩矩阵存储时和在内存中的空间占用,同时还可以加快模型的推理速度。
进一步可选的,采用编码知识蒸馏方法对词向量的维度进行压缩,包括:对口语理解模型进行训练,得到词向量部分的基准嵌入表达矩阵;在基准嵌入表达矩阵与语义理解部分之间插入一个编码层;固定基准嵌入表达矩阵,并重新对口语理解模型进行训练,得到训练后的编码层;将基准嵌入表达矩阵通过训练后的编码层以得到压缩后的嵌入表达矩阵。
词向量的维度即Embedding矩阵的宽度,而Embedding矩阵的宽度通常是指Embedding矩阵的列数,压缩Embedding矩阵的宽度意味着要使用更少的列数来表达一个词向量原有的含义。可以参考知识蒸馏(Knowledge Distilling)的思路来缩减Embedding矩阵的列数。其中,知识蒸馏是指使用一个参数规模较大的且训练较好的教师模型来辅助一个参数规模较小的学生模型进行训练,通过修改学生模型的损失函数,使得学生模型对于训练数据的推理可以获得与教师模型一样的概率分布,从而使得学生模型模仿教师模型的推理过程。在本实施例中,可以采用插入一层编码层来从大Embedding矩阵获取小Embedding矩阵的对Embedding矩阵进行知识蒸馏的思路。具体的,在训练过程中,首先可以对原始模型进行训练,以训练出一个Embedding矩阵较大且准确率表现较好的模型,将这个模型中词向量部分的Embedding矩阵作为基准Embedding矩阵。然后在基准Embedding矩阵与语义理解部分之间插入一个编码层,一个较长的词向量通过这个编码层可以转换为一个较短的词向量。再将得到的基准Embedding矩阵固定为常量,并重新对模型进行训练,从而得到训练后的编码层。在训练完成后,可以舍弃之前较大的Embedding矩阵,并使用该较大的Embedding矩阵通过训练后的编码层后生成一个较小的Embedding矩阵作为压缩后的Embedding矩阵。其中,编码层可以是一个全连接层。在使用压缩后的口语理解模型进行推理时,即可将输入的语音语言信息依次通过压缩后的Embedding矩阵和语义理解部分,以解析得到语音控制指令。
进一步可选的,采用向量组合编码压缩方法对词向量的数量进行压缩,包括:提取词向量部分的嵌入表达矩阵;确定嵌入表达矩阵对应的密码本,密码本用于存储基准词义向量;针对每个词语,使用一个编码矩阵来存储词语对应的基准词义向量;将词语对应的各个基准词义向量相加以得到词语的最终词义向量。
词向量的数量即Embedding矩阵的长度,压缩Embedding矩阵的长度意味着要用更少的向量来表达同样规模的单词表。由于在神经网络中存在大量的冗余连接,而Embedding矩阵在学习过程中也会产生大量的冗余,这些冗余主要来源于近义词之间相近的词义向量,针对这种情况,可以使用向量组合编码压缩的方法来进行压缩,该方法使用一系列密码本来存储基准词义向量,每一个基准词义向量代表了一种语义特征,意思相近的词语可以共享一个基准词义向量,同时,还使用一个编码矩阵来存储每一个词语对应的基准词义向量的编号,通过将一个词语对应的基准词义向量相加即可获得该词语对应的最终词义向量。与传统的编码方式相比,向量组合编码压缩方法采用了一段压缩编码来表示一个词语,而不是只用一个唯一的ID,其中,表示一个范围在[1,K]的整数,i=1,2,...,M,w表示词语,M表示密码本的总数,K表示一个密码本中包含的基准词义向量的个数。具体的,在本实施例中,针对上述训练好的口语理解模型,可以首先提取词向量部分的Embedding矩阵,从而确定合适的密码本以及其中存储的基准词义向量,然后使用上述向量组合编码压缩方法的计算过程替换口语理解模型中的Embedding矩阵,则在使用压缩后的口语理解模型进行推理时,针对每个词语,可以使用一个编码矩阵来存储词语对应的基准词义向量,并将各个基准词义向量相加来得到词语的最终词义向量,从而通过修改词向量的表达方式来实现压缩。
可选的,对语义理解部分进行压缩,包括:采用知识蒸馏方法对语义理解部分进行压缩,知识蒸馏方法包括单词级知识蒸馏和/或序列级知识蒸馏。语义理解部分可以是一个循环神经网络RNN,对RNN压缩的目的是压缩RNN部分的参数规模,从而既可以压缩模型的存储空间占用和计算时内存占用,同时还可以加快模型的推理速度。具体的,可以采用知识蒸馏方法来对RNN进行压缩,以保证在压缩模型规模的同时模型的召准率不会显著降低。
单词级的知识蒸馏类似于传统的CNN知识蒸馏,将语义理解部分计算出的每个分类的分数与教师模型计算出的分数相比较并计算交叉熵,从而将计算出的交叉熵作为知识蒸馏部分的损失函数。单词级知识蒸馏在seq2seq模型中可以用来使得每个单个输入的单词在学生模型上都能模仿教师模型产生相对应的输出概率分布。而序列级的知识蒸馏是将教师模型的预测结果作为真实结果并生成one-hot的概率向量后,再与学生模型的语义理解部分计算出的分数相比较并计算交叉熵,从而将计算出的交叉熵作为知识蒸馏部分的损失函数。在基于RNN的口语理解模型中,序列级的知识蒸馏相当于引入了一个新的训练集,这个训练集与原始训练集有相同的输入,但其真实值是教师模型的预测结果,这个数据集相比原始训练集,能够让学生模型学习的结果更加偏向教师模型的预测结果。
S13、使用压缩后的口语理解模型对用户的语音语言信息进行解析以生成语音控制指令。
具体的,在完成了对词向量部分和语义理解部分的压缩过程后,即可使用压缩后的口语理解模型对用户输入的语音语言信息进行解析以生成程序可以直接理解处理的语音控制指令,具体可以包括指令以及具体的操作参数等。示例性的,用户输入“发消息给小刘”,则该口语理解模型可以将该语音语言信息解析为指令“发消息”以及联系人参数“小刘”,从而便于计算机设备根据解析后的语音控制指令执行向小刘发消息的功能。
在上述技术方案的基础上,可选的,在使用压缩后的口语理解模型对用户的语音语言信息进行解析以生成语音控制指令之前,还包括:基于边云协同对口语理解模型进行压缩。进一步可选的,基于边云协同对口语理解模型进行压缩,包括:通过云端GPU服务器对口语理解模型进行压缩;将压缩后的口语理解模型发送到边缘端的测试设备上进行测试,并采集测试数据;根据测试数据指导云端GPU服务器对口语理解模型进行再一次压缩;迭代进行测试设备上的测试过程和云端GPU服务器的压缩过程,直至经过云端GPU服务器压缩后的口语理解模型无法达到预设精度的要求。
具体的,优化完成的口语理解模型最终可以部署在移动终端上进行使用,考虑移动端的部署需求,可以基于边云协同对口语理解模型进一步压缩,以充分利用边缘算力,从而保证压缩后的模型在移动终端上占用的资源符合要求。基于边云协同的压缩流程可以主要分为云端GPU服务器压缩和边缘端的测试设备性能测试两个部分,首先可以在云端GPU服务器上对已有的大规模口语理解模型进行压缩,然后将初步的压缩结果发送到边缘端的测试设备上进行测试,同时采集模型运行时的内存占用以及预测速度等测试数据,并利用这些测试数据来指导下一轮的模型压缩过程,迭代进行这些步骤直至云端GPU服务器压缩产出的口语理解模型无法达到预设精度的要求,即可将最后获得的有效口语理解模型作为压缩后的口语理解模型,从而可以将该口语理解模型部署至移动终端使用。进一步的,基于边云协同的压缩过程还可以实现多边缘端测试设备并行测试,则当采用神经元裁剪等可能会产生大量候选模型的压缩方法时,可以利用分发流程将模型分配到多台边缘端测试设备进行测试,以快速完成大量的模型评估并及时将评估结果反馈给压缩程序。
综合以上压缩手段,经测试,可以将一个存储占用为19.5MB,在安卓手机上运行时需要占用63-65MB内存,单次推理需要15-16毫秒的口语理解模型,压缩到存储占用仅为0.336MB,在安卓手机上运行时仅需占用13-14MB内存,单次推理仅需4.8-5毫秒,而在所有意图上的召回率和准确率指标降低均不超过5%。
本发明实施例所提供的技术方案,首先构建口语理解模型,该口语理解模型包括词向量部分和语义理解部分,然后分别对词向量部分和语义理解部分进行压缩,再使用压缩后的口语理解模型对用户的语音语言信息进行解析以生成语音控制指令。通过对口语理解模型进行压缩,以使用压缩后的模型对口语理解任务进行实时推理,在保证模型召准率不受到较大影响的前提下,大幅压缩模型的大小以及推理运算量,从而提高语音控制指令生成的效率,也可以降低服务提供商的运营成本。
实施例二
图2为本发明实施例二提供的语音控制指令的生成装置的结构示意图,该装置可以由硬件和/或软件的方式来实现,一般可集成于计算机设备中,用于执行本发明任意实施例所提供的语音控制指令的生成方法。如图2所示,该装置包括:
模型构建模块21,用于构建口语理解模型,口语理解模型依次包括词向量部分和语义理解部分;
模型压缩模块22,用于分别对词向量部分和语义理解部分进行压缩;
指令生成模块23,用于使用压缩后的口语理解模型对用户的语音语言信息进行解析以生成语音控制指令。
本发明实施例所提供的技术方案,首先构建口语理解模型,该口语理解模型包括词向量部分和语义理解部分,然后分别对词向量部分和语义理解部分进行压缩,再使用压缩后的口语理解模型对用户的语音语言信息进行解析以生成语音控制指令。通过对口语理解模型进行压缩,以使用压缩后的模型对口语理解任务进行实时推理,在保证模型召准率不受到较大影响的前提下,大幅压缩模型的大小以及推理运算量,从而提高语音控制指令生成的效率,也可以降低服务提供商的运营成本。
在上述技术方案的基础上,可选的,模型压缩模块22,包括:
维度压缩单元,用于采用编码知识蒸馏方法对词向量的维度进行压缩;
数量压缩单元,用于采用向量组合编码压缩方法对词向量的数量进行压缩。
在上述技术方案的基础上,可选的,维度压缩单元,包括:
模型训练子单元,用于对口语理解模型进行训练,得到词向量部分的基准嵌入表达矩阵;
编码层插入子单元,用于在基准嵌入表达矩阵与语义理解部分之间插入一个编码层;
编码层训练子单元,用于固定基准嵌入表达矩阵,并重新对口语理解模型进行训练,得到训练后的编码层;
矩阵压缩子单元,用于将基准嵌入表达矩阵通过训练后的编码层以得到压缩后的嵌入表达矩阵。
在上述技术方案的基础上,可选的,数量压缩单元,包括:
矩阵提取子单元,用于提取词向量部分的嵌入表达矩阵;
密码本确定子单元,用于确定嵌入表达矩阵对应的密码本,密码本用于存储基准词义向量;
基准词义向量确定子单元,用于针对每个词语,使用一个编码矩阵来存储词语对应的基准词义向量;
最终词义向量获得子单元,用于将词语对应的各个基准词义向量相加以得到词语的最终词义向量。
在上述技术方案的基础上,可选的,模型压缩模块22,包括:
语义理解部分压缩单元,用于采用知识蒸馏方法对语义理解部分进行压缩,知识蒸馏方法包括单词级知识蒸馏和/或序列级知识蒸馏。
在上述技术方案的基础上,可选的,该语音控制指令的生成装置,还包括:
边云协同压缩模块,用于在使用压缩后的口语理解模型对用户的语音语言信息进行解析以生成语音控制指令之前,基于边云协同对口语理解模型进行压缩。
在上述技术方案的基础上,可选的,边云协同压缩模块,包括:
模型压缩单元,用于通过云端GPU服务器对口语理解模型进行压缩;
测试单元,用于将压缩后的口语理解模型发送到边缘端的测试设备上进行测试,并采集测试数据;
重复压缩单元,用于根据测试数据指导云端GPU服务器对口语理解模型进行再一次压缩;
迭代单元,用于迭代进行测试设备上的测试过程和云端GPU服务器的压缩过程,直至经过云端GPU服务器压缩后的口语理解模型无法达到预设精度的要求。
本发明实施例所提供的语音控制指令的生成装置可执行本发明任意实施例所提供的语音控制指令的生成方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,在上述语音控制指令的生成装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例三
图3为本发明实施例三提供的计算机设备的结构示意图,示出了适于用来实现本发明实施方式的示例性计算机设备的框图。图3显示的计算机设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图3所示,该计算机设备包括处理器31、存储器32、输入装置33及输出装置34;计算机设备中处理器31的数量可以是一个或多个,图3中以一个处理器31为例,计算机设备中的处理器31、存储器32、输入装置33及输出装置34可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储器32作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的语音控制指令的生成方法对应的程序指令/模块(例如,语音控制指令的生成装置中的模型构建模块21、模型压缩模块22及指令生成模块23)。处理器31通过运行存储在存储器32中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的语音控制指令的生成方法。
存储器32可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器32可进一步包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置33可用于获取待理解的语音语言信息以及产生与计算机设备的用户设置和功能控制有关的键信号输入等。输出装置34可用于将压缩后的口语理解模型部署到移动终端上,以通过移动终端完成口语理解任务等。
实施例四
本发明实施例四还提供一种包含计算机可执行指令的存储介质,该计算机可执行指令在由计算机处理器执行时用于执行一种语音控制指令的生成方法,该方法包括:
构建口语理解模型,口语理解模型依次包括词向量部分和语义理解部分;
分别对词向量部分和语义理解部分进行压缩;
使用压缩后的口语理解模型对用户的语音语言信息进行解析以生成语音控制指令。
存储介质可以是任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语音控制指令的生成方法中的相关操作。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (9)
1.一种语音控制指令的生成方法,其特征在于,包括:
构建口语理解模型,所述口语理解模型依次包括词向量部分和语义理解部分;
分别对所述词向量部分和所述语义理解部分进行压缩;
使用压缩后的所述口语理解模型对用户的语音语言信息进行解析以生成语音控制指令;
所述对所述词向量部分进行压缩,包括:
采用编码知识蒸馏方法对词向量的维度进行压缩;
采用向量组合编码压缩方法对词向量的数量进行压缩。
2.根据权利要求1所述的语音控制指令的生成方法,其特征在于,所述采用编码知识蒸馏方法对词向量的维度进行压缩,包括:
对所述口语理解模型进行训练,得到所述词向量部分的基准嵌入表达矩阵;
在所述基准嵌入表达矩阵与所述语义理解部分之间插入一个编码层;
固定所述基准嵌入表达矩阵,并重新对所述口语理解模型进行训练,得到训练后的所述编码层;
将所述基准嵌入表达矩阵通过训练后的所述编码层以得到压缩后的嵌入表达矩阵。
3.根据权利要求1所述的语音控制指令的生成方法,其特征在于,所述采用向量组合编码压缩方法对词向量的数量进行压缩,包括:
提取所述词向量部分的嵌入表达矩阵;
确定所述嵌入表达矩阵对应的密码本,所述密码本用于存储基准词义向量;
针对每个词语,使用一个编码矩阵来存储所述词语对应的基准词义向量;
将所述词语对应的各个基准词义向量相加以得到所述词语的最终词义向量。
4.根据权利要求1所述的语音控制指令的生成方法,其特征在于,所述对所述语义理解部分进行压缩,包括:
采用知识蒸馏方法对所述语义理解部分进行压缩,所述知识蒸馏方法包括单词级知识蒸馏和/或序列级知识蒸馏。
5.根据权利要求1所述的语音控制指令的生成方法,其特征在于,在所述使用压缩后的所述口语理解模型对用户的语音语言信息进行解析以生成语音控制指令之前,还包括:
基于边云协同对所述口语理解模型进行压缩。
6.根据权利要求5所述的语音控制指令的生成方法,其特征在于,所述基于边云协同对所述口语理解模型进行压缩,包括:
通过云端GPU服务器对所述口语理解模型进行压缩;
将压缩后的所述口语理解模型发送到边缘端的测试设备上进行测试,并采集测试数据;
根据所述测试数据指导所述云端GPU服务器对所述口语理解模型进行再一次压缩;
迭代进行所述测试设备上的测试过程和所述云端GPU服务器的压缩过程,直至经过所述云端GPU服务器压缩后的所述口语理解模型无法达到预设精度的要求。
7.一种语音控制指令的生成装置,其特征在于,包括:
模型构建模块,用于构建口语理解模型,所述口语理解模型依次包括词向量部分和语义理解部分;
模型压缩模块,用于分别对所述词向量部分和所述语义理解部分进行压缩;
指令生成模块,用于使用压缩后的所述口语理解模型对用户的语音语言信息进行解析以生成语音控制指令;
所述模型压缩模块包括:
维度压缩单元,用于采用编码知识蒸馏方法对词向量的维度进行压缩;
数量压缩单元,用于采用向量组合编码压缩方法对词向量的数量进行压缩。
8.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的语音控制指令的生成方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的语音控制指令的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110591864.5A CN113434108B (zh) | 2021-05-28 | 2021-05-28 | 语音控制指令的生成方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110591864.5A CN113434108B (zh) | 2021-05-28 | 2021-05-28 | 语音控制指令的生成方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113434108A CN113434108A (zh) | 2021-09-24 |
CN113434108B true CN113434108B (zh) | 2022-10-25 |
Family
ID=77803132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110591864.5A Active CN113434108B (zh) | 2021-05-28 | 2021-05-28 | 语音控制指令的生成方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113434108B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10109273B1 (en) * | 2013-08-29 | 2018-10-23 | Amazon Technologies, Inc. | Efficient generation of personalized spoken language understanding models |
CN110096697B (zh) * | 2019-03-15 | 2022-04-12 | 华为技术有限公司 | 词向量矩阵压缩方法和装置、及获取词向量的方法和装置 |
CN110232203B (zh) * | 2019-04-22 | 2020-03-03 | 山东大学 | 知识蒸馏优化rnn短期停电预测方法、存储介质及设备 |
CN111581968A (zh) * | 2020-05-07 | 2020-08-25 | 携程计算机技术(上海)有限公司 | 口语理解模型的训练方法、识别方法、系统、设备及介质 |
CN111933115B (zh) * | 2020-10-12 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备以及存储介质 |
CN112486686A (zh) * | 2020-11-30 | 2021-03-12 | 之江实验室 | 基于云边协同的定制化深度神经网络模型压缩方法及系统 |
-
2021
- 2021-05-28 CN CN202110591864.5A patent/CN113434108B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113434108A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111198937B (zh) | 对话生成及装置、计算机可读存储介质、电子设备 | |
CN111859960B (zh) | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 | |
CN104143327B (zh) | 一种声学模型训练方法和装置 | |
KR102201936B1 (ko) | 신경망을 사용한 텍스트 세그먼트의 의존성 파스 생성 | |
CN111625634B (zh) | 词槽识别方法及装置、计算机可读存储介质、电子设备 | |
CN110689878B (zh) | 一种基于XLNet的智能语音对话意图识别方法 | |
CN113539242A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN111968618A (zh) | 语音合成方法、装置 | |
KR102315830B1 (ko) | 반지도 학습 기반 단어 단위 감정 임베딩과 lstm 모델을 이용한 대화 내에서 발화의 감정 분류 방법 | |
EP4113357A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
WO2022252904A1 (zh) | 基于人工智能的音频处理方法、装置、设备、存储介质及计算机程序产品 | |
US11615787B2 (en) | Dialogue system and method of controlling the same | |
CN115238045B (zh) | 一种生成式事件论元抽取方法、系统及存储介质 | |
CN114399995A (zh) | 语音模型的训练方法、装置、设备及计算机可读存储介质 | |
CN110955765A (zh) | 智能助理的语料构建方法、装置、计算机设备和存储介质 | |
CN113434108B (zh) | 语音控制指令的生成方法、装置、计算机设备及存储介质 | |
CN115116443A (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
CN117153142A (zh) | 一种语音信号合成方法、装置、电子设备及存储介质 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN113314108B (zh) | 语音数据的处理方法、装置、设备、存储介质和程序产品 | |
CN115050351A (zh) | 生成时间戳的方法、装置及计算机设备 | |
CN114333790A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
JP7570760B2 (ja) | 音声認識方法、音声認識装置、コンピュータ機器、及びコンピュータプログラム | |
Xiao et al. | Speeding up deep neural network based speech recognition systems. | |
KR102718582B1 (ko) | 음성을 인식하는 장치 및 방법, 음성 인식 모델을 트레이닝하는 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |