CN116992942B - 自然语言模型优化方法、装置、自然语言模型、设备和介质 - Google Patents
自然语言模型优化方法、装置、自然语言模型、设备和介质 Download PDFInfo
- Publication number
- CN116992942B CN116992942B CN202311249178.5A CN202311249178A CN116992942B CN 116992942 B CN116992942 B CN 116992942B CN 202311249178 A CN202311249178 A CN 202311249178A CN 116992942 B CN116992942 B CN 116992942B
- Authority
- CN
- China
- Prior art keywords
- natural language
- language model
- layer
- score
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000005457 optimization Methods 0.000 title claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 466
- 238000013528 artificial neural network Methods 0.000 claims abstract description 198
- 238000006467 substitution reaction Methods 0.000 claims abstract description 158
- 238000012216 screening Methods 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims description 113
- 238000011156 evaluation Methods 0.000 claims description 63
- 238000012795 verification Methods 0.000 claims description 59
- 238000004590 computer program Methods 0.000 claims description 45
- 230000002596 correlated effect Effects 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 23
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000000717 retained effect Effects 0.000 claims description 6
- 238000010200 validation analysis Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 2
- 235000019987 cider Nutrition 0.000 claims 1
- 238000013519 translation Methods 0.000 description 33
- 230000014616 translation Effects 0.000 description 33
- 238000004422 calculation algorithm Methods 0.000 description 16
- 230000007246 mechanism Effects 0.000 description 14
- 239000002096 quantum dot Substances 0.000 description 9
- 238000013019 agitation Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000005283 ground state Effects 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 4
- 241000282840 Vicugna vicugna Species 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 235000020004 porter Nutrition 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种自然语言模型优化方法、装置、自然语言模型、设备和介质。所述方法包括:获取自然语言模型,所述自然语言模型包括多层计算层;计算所述自然语言模型中每一计算层的替代性评分;筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整;重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,保留最后一次总替代性评分不小于预设终止阈值的自然语言模型。采用本方法实现了将噪声鲁棒性好和知识集中度高的计算层替换为量子神经网络来提升算力,并将其余计算层保留来保证计算结果的准确性,在显著提高计算能力的同时保证输出结果的稳定性。
Description
技术领域
本申请涉及自然语言模型技术领域,特别是涉及一种自然语言模型优化方法、装置、自然语言模型、计算机设备和存储介质。
背景技术
人工智能技术驱动的自然语言处理工具能够基于在预训练阶段所见的模式和统计规律,来生成回答,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码、写论文等任务。随自然语言模型被推出,人工智能在处理人类语言上达到了从未有过的高度。Transformer为一种深度学习架构,于2017年被谷歌提出,用于自然语言处理任务。自然语言模型(Large Language Model,LLM)目前主流方法均基于Transformer架构。然而自然语言模型普遍需要大量算力支撑,训练人工智能技术驱动的自然语言处理工具需要上万块图形处理器(GPU),训练时间以月为单位,大大限制了自然语言模型的应用和推广,也阻碍了基于自然语言模型进一步开发更大的语言模型。
量子计算的计算效率极高,且能耗较低,量子计算有望在多个领域取得突破,因而受到瞩目。在量子计算体系中,信息以量子比特的形式进行存储。量子计算硬件容易受外界环境影响,导致信息失真,即存在噪声干扰。另外处于叠加态的量子比特会随时间推移与周围的物理环境产生纠缠,导致量子比特中储存的信息丢失,这一现象称为退相干。因此由于目前的量子计算硬件存在噪声、退相干等问题,量子计算难以在短期内取代经典计算,从而如何实现能够忍受量子计算硬件缺陷,利用量子计算为自然语言模型提供算力成为亟待解决的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够忍受量子计算硬件缺陷,利用量子计算为自然语言模型提供算力的自然语言模型优化方法、装置、自然语言模型、计算机设备和存储介质。
一方面,提供一种自然语言模型优化方法,所述方法包括:
获取自然语言模型,所述自然语言模型包括多层计算层,所述计算层包括由非量子神经网络构成的注意力层和全链接层,所述注意力层和所述全链接层依次间隔设置;
计算所述自然语言模型中每一计算层的替代性评分,所述替代性评分与噪声鲁棒性评分、参数数量、节点数量及节点连接次数呈正相关,所述替代性评分与知识集中度评分呈负相关;
重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型;其中所述计算层筛选及参数调整操作包括:筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整。
在其中一个实施例中,所述计算所述自然语言模型中每一计算层的替代性评分步骤包括:
对所述自然语言模型中每一计算层的采用无监督自评估方法进行噪声鲁棒性评估,获取噪声鲁棒性评分;
统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分;
将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分;
根据每一计算层的噪声鲁棒性评分、替代价值评分及知识集中度评分计算替代性评分。
在其中一个实施例中,所述对所述自然语言模型中每一计算层的采用无监督自评估方法进行噪声鲁棒性评估,获取噪声鲁棒性评分步骤包括:
对所述自然语言模型中每一计算层设置无监督自评估方法的评估算法,所述无监督自评估方法包括BLEU评估法、METEOR评估法、ROUGE评估法、CIDEr评估法中的任一种;
对所述自然语言模型中每一计算层进行噪声鲁棒性评估,获取每一计算层的噪声鲁棒性评分。
在其中一个实施例中,所述统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分步骤包括:
统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数;
根据节点总数量及节点连接次数计算所属计算层的网络结构复杂度评分;
根据参数数量及网络结构复杂度评分计算将每一计算层替换为量子神经网络的替代价值评分。
在其中一个实施例中,所述统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分步骤包括:
统计获得的所述自然语言模型中第L层计算层的参数数量为XL,其中L为正整数;
统计获得的所述自然语言模型中第L层计算层的输入输出节点数量、隐藏节点数量及节点连接次数,根据节点数量及节点连接次数计算第L层计算层的网络结构复杂度评分HL;
根据公式VL=C1*XL+C2*HL计算将第L层计算层替换为量子神经网络的替代价值评分VL,其中C1、C2为权重系数。
在其中一个实施例中,所述将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分步骤包括:
将验证集的样本传入所述自然语言模型中前馈执行,判断每一计算层的节点是否被激活;
根据验证集的样本类型将节点被激活的计算层分类为知识层或逻辑层,所述逻辑层包括推理层、思维层、创造力层、想象力层;
当节点被激活的计算层分类为知识层时,统计每一知识层的激活节点数及总节点数,计算每一知识层的激活节点数与总节点数的比值作为知识集中度评分,所述知识层的知识集中度评分与所述替代性评分负相关,所述知识层的知识集中度评分的符号为正。
在其中一个实施例中,所述将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分步骤还包括:
当节点被激活的计算层分类为逻辑层时,统计每一逻辑层的激活节点数及总节点数,计算每一逻辑层的激活节点数与总节点数的比值作为知识集中度评分,所述逻辑层的知识集中度评分与所述替代性评分正相关,所述逻辑层的知识集中度评分的符号为负。
在其中一个实施例中,所述将验证集的样本传入所述自然语言模型中前馈执行,判断每一计算层的节点是否被激活步骤包括:
获取知识验证集及推理验证集;
将所述知识验证集和/或所述推理验证集的样本传入所述自然语言模型中前馈执行,获取每一计算层的节点的数值,当节点的数值大于预设激活判断阈值ε时则判定该节点被激活,否则判定为该节点未被激活。
在其中一个实施例中,所述根据每一计算层的噪声鲁棒性评分、替代价值评分及知识集中度评分计算替代性评分步骤包括:
获取第L层计算层的噪声鲁棒性评分RL;
获取第L层计算层的替代价值评分VL;
获取第L层计算层的知识集中度评分CL,并根据第L层计算层分类为知识层和逻辑层的结果确定第L层计算层的知识集中度评分CL的正负符号;
根据公式AL=a*RL+b*VL-c*CL计算第L层计算层的替代性评分AL,其中a、b、c是权重系数,a>b>c。
在其中一个实施例中,所述筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整步骤包括:
将所述自然语言模型中所有的计算层的替代性评分降序排列,筛选出所述自然语言模型中替代性评分最高的计算层,并用量子神经网络替换替代性评分最高的计算层;
对替换量子神经网络后的自然语言模型通过前向传播计算得到一个输出结果,将所述输出结果与预期结果对比;
若所述输出结果与预期结果存在偏差时,通过反向传播实现参数更新,直到前向传播计算的输出结果与预期结果相符合为止。
在其中一个实施例中,所述若所述输出结果与预期结果存在偏差时,通过反向传播实现参数更新,直到前向传播计算的输出结果与预期结果相符合为止步骤包括:
若所述输出结果与预期结果存在偏差时,获取所述自然语言模型中相邻两层计算层之间的待优化参数;
计算输出结果与预期结果的差值,得到各计算层之间的待优化参数的梯度公式,根据梯度公式采用反向传播方式更新所述自然语言模型的参数。
在其中一个实施例中,所述重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型步骤包括:
获取所述自然语言模型的预设终止阈值为N*δ;
通过公式计算获取当前自然语言模型的总替代性评分A,将当前自然语言模型的总替代性评分A与预设终止阈值N*δ对比;
若当前自然语言模型的总替代性评分A大于等于预设终止阈值N*δ时,重复执行筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整;
通过公式 再次计算获取当前自然语言模型的总替代性评分A,将当前自然语言模型的总替代性评分A与预设终止阈值N*δ对比,直至自然语言模型的总替代性评分A小于预设终止阈值N*δ时停止;
获取最后一次总替代性评分A大于等于预设终止阈值N*δ的自然语言模型并保存。
在其中一个实施例中,所述获取所述自然语言模型的预设终止阈值为N*δ步骤包括:
获取所述自然语言模型的计算层的总层数N;
获取每一计算层的预设替代阈值δ;
计算获得所述自然语言模型的预设终止阈值为N*δ。
在其中一个实施例中,在所述获取自然语言模型步骤之后还包括:
初始化自然语言模型,识别所述自然语言模型是否已完成预训练;
若所述自然语言模型未完成预训练,则设置权重系数a、c为0,并计算所述自然语言模型中每一计算层的替代性评分;
设置所述自然语言模型中每一计算层的预设替代阈值δ,将所述替代性评分大于所述预设替代阈值δ的所有计算层替换为量子神经网络;
对替换为量子神经网络的自然语言模型进行预训练,当达到预训练终止条件时结束训练形成已完成预训练的自然语言模型;
若所述自然语言模型已完成预训练或者在形成已完成预训练的自然语言模型时,则设置权重系数a、c不为0,执行下一步骤逐层计算所述自然语言模型中每一计算层的替代性评分。
在其中一个实施例中,所述对替换为量子神经网络的自然语言模型进行预训练,当达到预训练终止条件时结束训练形成已完成预训练的自然语言模型步骤包括:
设置对自然语言模型进行预训练的预训练终止条件为训练后的自然语言模型收敛、达到预设准确率或满足训练次数;
对替换为量子神经网络的自然语言模型进行预训练,并实时判断自然语言模型是否达到预训练终止条件;
当达到预训练终止条件时结束训练,输出已完成预训练的自然语言模型。
在其中一个实施例中,在所述保留最后一次不小于预设终止阈值的自然语言模型步骤之后还包括:
部署所保留的自然语言模型形成含有量子神经网络的自然语言模型。
另一方面,提供了一种含有量子神经网络的自然语言模型,所述含有量子神经网络的自然语言模型采用前文所述的自然语言模型优化方法形成。
另一方面,提供了一种自然语言模型优化装置,所述装置包括:
获取自然语言模型模块,用于获取自然语言模型,所述自然语言模型包括多层计算层,所述计算层包括由非量子神经网络构成的注意力层和全链接层,所述注意力层和所述全链接层依次间隔设置;
替代性评分计算模块,用于计算所述自然语言模型中每一计算层的替代性评分,所述替代性评分与噪声鲁棒性评分、参数数量、节点数量及节点连接次数呈正相关,所述替代性评分与知识集中度评分呈负相关;
量子神经网络替换模块,用于重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型;其中所述计算层筛选及参数调整操作包括:筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整。
再一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取自然语言模型,所述自然语言模型包括多层计算层,所述计算层包括由非量子神经网络构成的注意力层和全链接层,所述注意力层和所述全链接层依次间隔设置;
计算所述自然语言模型中每一计算层的替代性评分,所述替代性评分与噪声鲁棒性评分、参数数量、节点数量及节点连接次数呈正相关,所述替代性评分与知识集中度评分呈负相关;
筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整;
重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型;其中所述计算层筛选及参数调整操作包括:筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整。
又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取自然语言模型,所述自然语言模型包括多层计算层,所述计算层包括由非量子神经网络构成的注意力层和全链接层,所述注意力层和所述全链接层依次间隔设置;
计算所述自然语言模型中每一计算层的替代性评分,所述替代性评分与噪声鲁棒性评分、参数数量、节点数量及节点连接次数呈正相关,所述替代性评分与知识集中度评分呈负相关;
筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整;
重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型;其中所述计算层筛选及参数调整操作包括:筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整。
上述自然语言模型优化方法、装置、自然语言模型、计算机设备和存储介质,通过根据自然语言模型中每一计算层的噪声鲁棒性评分、参数数量、节点数量、节点连接次数和知识集中度评分计算获得替代性评分,根据计算层的替代性评分高低逐一将计算层替换为量子神经网络,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次不小于预设终止阈值的自然语言模型,从而实现了将噪声鲁棒性好和知识集中度高的计算层替换为量子神经网络来提升算力,并将实现推理、思维、创造力、想象力的计算层保留来保证计算结果的准确性,在显著提高计算能力的同时保证输出结果的稳定性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有的一种自然语言模型的简化结构示意图;
图2为本申请一个实施例中自然语言模型优化方法的流程示意图;
图3为本申请一个实施例中量子神经网络的线路示意图;
图4为本申请一个实施例中计算所述自然语言模型中每一计算层的替代性评分步骤的流程示意图;
图5为本申请一个Vicuna自然语言模型各MLP层添加噪声后的METEOR打分的测试案例;
图6为本申请一个实施例中统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分步骤的流程示意图;
图7为本申请一个实施例中将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分步骤的流程示意图;
图8为本申请一个实施例中筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整步骤的流程示意图;
图9为本申请一个实施例中若所述输出结果与预期结果存在偏差时,通过反向传播实现参数更新,直到前向传播计算的输出结果与预期结果相符合为止步骤的流程示意图;
图10为本申请一个实施例中若所述输出结果与预期结果存在偏差时,通过反向传播实现参数更新的原理示意图;
图11为本申请另一个实施例中自然语言模型优化方法的流程示意图;
图12为本申请一个实施例中对替换为量子神经网络的自然语言模型进行预训练,当达到预训练终止条件时结束训练形成已完成预训练的自然语言模型步骤的流程示意图;
图13为本申请一个实施例中自然语言模型优化装置的结构框图;
图14为本申请一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如背景技术所述,自然语言模型(LLM)指的是包含大量参数、使用大量文本数据训练的深度学习语言模型,该语言模型可以理解语言文本的含义、生成自然语言等任务,完成对人类语言的理解和回应。目前自然语言模型主要基于Transformer结构,其简化后的示意如图1所示,由依次间隔设置的注意力层和全链接层构成,模型的参数就在注意力层和全链接层之中。每个箭头对应一个特征向量,特征向量可以简单理解为一个单词。注意力层和全链接层的本质都是一种神经网络,每一根线对应一个权重参数。一般来说,神经网络的节点越多,表达能力越强。所以自然语言模型都采用较大的神经网络,目前自然语言模型的参数量普遍达到千亿量级,因此对算力要求极高。故现有技术中自然语言模型训练和推理算力不足的技术问题。
为解决上述问题,本发明实施例中创造性的提出了一种自然语言模型优化方法,将自然语言模型噪声鲁棒性量化并逐层分析,基于各层的知识集中度和噪声鲁棒性打分确定模型的计算任务分配,随后将打分阈值之上的计算层交给量子设备完成,阈值之下的层留给经典计算。如此,完成模型级别的任务分配,在量子-经典协作下完成模型的训练和推理。这样将知识集中度和噪声鲁棒性打分高于阈值的计算层交给量子设备计算,在显著提高计算能力的同时保证输出结果的稳定性;将低于阈值的部分交给经典设备计算,保证模型足够的准确性。
在一个实施例中,如图2所示,提供了一种自然语言模型优化方法,包括以下步骤:
步骤S1,获取自然语言模型,所述自然语言模型包括多层计算层,所述计算层包括由非量子神经网络构成的注意力层和全链接层,所述注意力层和所述全链接层依次间隔设置;
步骤S2,计算所述自然语言模型中每一计算层的替代性评分,所述替代性评分与噪声鲁棒性评分、参数数量、节点数量及节点连接次数呈正相关,所述替代性评分与知识集中度评分呈负相关;
步骤S3,重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型;其中所述计算层筛选及参数调整操作包括:筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整。
在步骤S1中,非量子神经网络是指卷积神经网络、循环神经网络、注意力(机制)网络以及图卷积神经网络。
卷积神经网络:通过利用局部相关性和权值共享的思想,提出了卷积神经网络(Convolutional Neural Network,简称 CNN)。随着深度学习的兴盛,卷积神经网络在计算机视觉中的表现大大地超越了其它算法模型,呈现统治计算机视觉领域之势。
循环神经网络:除了具有空间结构的数据外,序列信号也是非常常见的一种数据类型,其中一个最具代表性的序列信号就是文本数据。卷积神经网络由于缺乏记忆(Memory)机制和处理不定长序列信号的能力,并不擅长序列信号的任务。循环神经网络(Recurrent Neural Network,简称 RNN)证明非常擅长处理序列信号。后续又提出了LSTM网络,作为 RNN 的变种,它较好地克服了 RNN 缺乏长期记忆、不擅长处理长序列的问题,在自然语言处理中得到了广泛的应用。
注意力(机制)网络:随着注意力机制(Attention Mechanism)的提出,克服了RNN 训练不稳定、难以并行化等缺陷,在自然语言处理和图片生成等领域中逐渐崭露头角。注意力机制最初在图片分类任务上提出,但逐渐开始侵蚀NLP 各大任务。2017 年,Google提出了第一个利用纯注意力机制实现的网络模型Transformer,随后基于 Transformer 模型相继提出了一系列的用于机器翻译的注意力网络模型。
图卷积神经网络:图片、文本等数据具有规则的空间、时间结构,称为 EuclideanData(欧几里德数据)。卷积神经网络和循环神经网络被证明非常擅长处理这种类型的数据。而像类似于社交网络、通信网络、蛋白质分子结构等一系列的不规则空间拓扑结构的数据,它们显得力不从心。2016 年,Thomas Kipf 等人基于前人在一阶近似的谱卷积算法上提出了图卷积网络(Graph Convolution Network,GCN)模型。GCN 算法实现简单,从空间一阶邻居信息聚合的角度也能直观地理解,在半监督任务上取得了不错效果。
注意力层是基于注意力机制构建的,注意力机制是注意力机制的改进,注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制,注意力机制可以快速提取稀疏数据的重要特征,因而被广泛用于然语言处理任务,特别是机器翻译,而注意力机制是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。通过注意力机制,模型就能够有选择地关注输入序列中有用的部分,从而在解码器和编码器之间对齐。
全连接层是深度神经网络中最基本的一层,也被称作“密集连接层”或“全连接层”。在该层中,每一个神经元都与上一层的所有神经元相连,以此实现最大的信息交换和传递。全连接层的主要功能是将上一层的输出转化为下一层的输入,经过激活函数的处理后得到该层的输出。全连接层被广泛应用于图像识别、语识别、自然语言处理等领域的深度学习模型中,起到了至关重要的作用。全连接层的特点是参数数量较多,计算量较大,但可以提供更加复杂的特征表示和更高的识别准确率。
全连接层的每一个节点都与上一层所有的节点相连,从而把前边提取到的特征综合起来。全连接层是最简单的层级结构,它将前一层中所有的神经元与当前层中所有的神经元都相连。全连接层通常用于输出层,用于将前一层的特征转换为最终输出。全连接层在整个卷积神经网络中起到“分类器”的作用。
其中,VQA:Variational Quantum Algorithm,变分量子算法,又称量子神经网络(QNN)。量子神经网络(QNN)与经典的神经网络类似,也由神经元和连接组成。QNN通过一系列量子门操作实现对数据的处理,常见的量子门包括Rx,Ry,Rz等旋转门,CNOT控制门等。其中旋转门含有若干可调参数,通过调节这些参数,QNN可以实现各类特殊功能。QNN线路示意如图3所示,虚线框中的构造可以重复L次,其中Rz,Ry中含有待调参数θ,θ可随机初始化。
通过测量后得到的结果计算损失函数,并求得梯度,通过反向传播利用梯度信息修改参数,进而实现QNN网络的训练过程。
在量子计算体系中,信息以量子比特的形式进行存储。与经典比特类似,量子比特也有状态,它可以是|0>或|1>这两种基态,也可以是|0>和|1>的线性组合,称为叠加态。单量子比特的状态|ψ>可表示为:|ψ>=α|0>+β|1>;其中α和β为复数,且|α|2+|β|2=1。故单量子比特状态也可以表示成维度为2的向量(α,β)T,该向量的模长为1。对量子系统的测量操作会使系统随机地坍缩到基态,概率取决于每个基态前的系数。如对于公式|ψ>=α|0>+β|1>中的量子比特,有|α|2的概率坍缩到|0>、|β|2的概率坍缩到|1>。
当多个量子比特纠缠在一起时,对应的基态数会呈指数上升。M个量子比特纠缠的系统有2M种基态,系统状态可表示为基态的线性叠加。量子计算机储存信息的能力随比特数增加而呈指数级上升。正是利用量子比特叠加这一性质,使得量子计算在某些情况下可以远超经典计算。因此,QNN在形式上与传统神经网络相似,但其计算能力理论上是随量子比特呈指数级增长的,因此很适合为自然语言模型提供充沛的算力,承担部分计算任务。
然而,前文提到量子设备容易受外界环境影响,导致信息失真,即存在噪声干扰。另外处于叠加态的量子比特会随时间推移与周围的物理环境产生纠缠,导致量子比特中储存的信息丢失,这一现象称为退相干。由于以上原因,QNN无法全盘替代传统神经网络,只能在自然语言模型中寻找对噪声不敏感的计算部分,并承担这一部分的计算任务。
因此本申请将噪声鲁棒性好和知识集中度高的计算层替换为量子神经网络来提升算力,并将实现推理、思维、创造力、想象力的计算层保留来保证计算结果的准确性,在显著提高计算能力的同时保证输出结果的稳定性。
如图2所示,在本实施例中,在所述保留最后一次不小于预设终止阈值的自然语言模型步骤之后还包括:
步骤S4,部署所保留的自然语言模型形成含有量子神经网络的自然语言模型。
其中,含有量子神经网络的自然语言模型在下文简称为量子-经典协作大模型。
如图4所示,在本实施例中,所述计算所述自然语言模型中每一计算层的替代性评分步骤包括:
步骤S21,对所述自然语言模型中每一计算层的采用无监督自评估方法进行噪声鲁棒性评估,获取噪声鲁棒性评分;
步骤S22,统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分;
步骤S23,将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分;
步骤S24,根据每一计算层的噪声鲁棒性评分、替代价值评分及知识集中度评分计算替代性评分。
在本实施例中,所述对所述自然语言模型中每一计算层的采用无监督自评估方法进行噪声鲁棒性评估,获取噪声鲁棒性评分步骤包括:
对所述自然语言模型中每一计算层设置无监督自评估方法的评估算法,所述无监督自评估方法包括BLEU评估法、METEOR评估法、ROUGE评估法、CIDEr评估法中的任一种;
对所述自然语言模型中每一计算层进行噪声鲁棒性评估,获取每一计算层的噪声鲁棒性评分。
不同的计算任务对噪声的鲁棒性不同,模型不同位置的参数对噪声的鲁棒性也不同。本发明采用对自然语言模型逐层的参数添加高斯噪声的方式验证了不同层的噪声鲁棒性差异。为量化其差异,通过评估算法实现打分。
其中,评估算法为无监督自评估方法,无监督自评估方法包括BLEU评估法、METEOR评估法、ROUGE评估法、CIDEr评估法等。
BLEU全称为 Bilingual Evaluation Understudy(双语评估研究),意为双语评估替换,是衡量一个有多个正确输出结果的模型的精确度的评估指标。
BLEU 用于评估从一种语言翻译成另一种语言的文本的质量。这里“质量”的好坏被定义为与人类翻译结果的一致性高低。BLEU分数的计算是对于独立的翻译片段(一般是句子)而言的,通过与高质量的翻译“参照”进行比较得出。对于整个语料的得分则是所有翻译片段得分的平均。该度量方式不考虑可理解性及语法的正确性。BLEU的值介于0和1之间,越接近于1代表翻译结果越接近于“参照”。如果值为1,代表翻译“参照”中有一个与翻译结果相同(这也意味着,更多的“参照”将带来更高的分数)。BLEU使用一种修正的precision形式来比较翻译候选与多个翻译参考之间的异同,其定义是:翻译句子中的短语,出现在参考句子中的比例。首先根据n-gram划分一个短语包含单词的数量,如1-gram(unigram)就是将语料划分成1个单词的短语。然后统计这些短语出现在参考译文中的个数,最后除以划分总数,得到BLEU-1分数。Unigram的准确率可以用于衡量单词翻译的准确性,更高阶的n-gram的准确率可以用来衡量句子的流畅性。
BLEU的设计思想与评判机器翻译好坏的思想是一致的:机器翻译结果越接近专业人工翻译的结果,则越好。BLEU算法实际上在做的事:判断两个句子的相似程度。我想知道一个句子翻译前后的表示是否意思一致,显然没法直接比较,那我就拿这个句子的标准人工翻译与我的机器翻译的结果作比较,如果它们是很相似的,说明我的翻译很成功。因此,BLUE去做判断:一句机器翻译的话与其相对应的几个参考翻译作比较,算出一个综合分数。这个分数越高说明机器翻译得越好。
Rouge(recall-oriented understanding for gisting evaluation)是评估自动文摘以及机器翻译的一组指标。ROUGE评估法(自动摘要)的主要是思想是:由多个专家分别生成人工摘要,构成标准摘要集。将系统生成的自动摘要与人工生成的标准摘要相对比,通过统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量。通过多专家人工摘要的对比,提高评价系统的稳定性和健壮性。该方法现在已经成为摘要评价技术的通用标准之一。关于该算法演变评价标准有:Rouge-N、Rouge-L、Rouge-S、Rouge-W、Rouge-SU。
METEOR评估法(机器翻译、自动文摘)为基于单精度的加权调和平均数和单字召回率的METEOR度量方法,目的是解决BLEU标准中的一些固有缺陷。
METEOR扩展了BLEU有关“共现”的概念,提出了三个统计共现次数的模块:一是“绝对”模块("exact" module),即统计待测译文与参考译文中绝对一致单词的共现次数;二是“波特词干”模块(porter stem module),即基于波特词干算法计算待测译文与参考译文中词干相同的词语“变体”的共现次数,如happy和happiness将在此模块中被认定为共现词;三是“WN同义词”模块(WN synonymy module),即基于WordNet词典匹配待测译文与参考译文中的同义词,计入共现次数,如sunlight与sunshine。
同时METEOR将词序纳入评估范畴,设立基于词序变化的罚分机制,当待测译文词序与参考译文不同时,进行适当的罚分。最终基于共现次数计算准确率、召回率与F值,并考虑罚分最终得到待测译文的METEOR值。
图5展示了一个Vicuna自然语言模型各MLP层添加噪声后的METEOR打分的测试案例。MLP:Multi-Layer Perceptrons,多层感知器,即全链接神经网络。通过对Vicuna(7B)自然语言模型各MLP层逐层的参数添加高斯噪声(标准差std=0.02),用METEOR评估算法进行打分,测试不同层添加噪声后的分数变化。不同噪声下的打分对应其噪声鲁棒性R。可以看到,Vicuna模型共有32层MLP层,添加噪声后大多数层均可保证稳定,只有第2层的打分显著下降,说明这一层噪声鲁棒性差。
CIDEr(Consensuus-based Image Description Evaluation)评价标准是Vedantm在2015年计算机视觉与模式识别大会上提出来的针对图像摘要问题的度量标准。
CIDEr首先将n-grams在参考句子中的出现频率编码进来,n-gram在数据集所有图片中经常出现的图片的权重应该减少,因为其包含的信息量更少,该权重研究者通过TF-IDF计算每个n-gram的权重。将句子用n-gram表示成向量形式,每个参考句和待评测句之间通过计算TF-IDF项链的余玄距离来度量其相似性。
如图6所示,在本实施例中,所述统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分步骤包括:
步骤S221,统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数;
步骤S222,根据节点总数量及节点连接次数计算所属计算层的网络结构复杂度评分;
步骤S223,根据参数数量及网络结构复杂度评分计算将每一计算层替换为量子神经网络的替代价值评分。
在本实施例中,所述统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分步骤包括:
统计获得的所述自然语言模型中第L层计算层的参数数量为XL,其中L为正整数;
统计获得的所述自然语言模型中第L层计算层的输入输出节点数量、隐藏节点数量及节点连接次数,根据节点数量及节点连接次数计算第L层计算层的网络结构复杂度评分HL;
根据公式VL=C1*XL+C2*HL计算将第L层计算层替换为量子神经网络的替代价值评分VL,其中C1、C2为权重系数。
如图7所示,在本实施例中,所述将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分步骤包括:
步骤S231,将验证集的样本传入所述自然语言模型中前馈执行,判断每一计算层的节点是否被激活;
步骤S232,根据验证集的样本类型将节点被激活的计算层分类为知识层或逻辑层,所述逻辑层包括推理层、思维层、创造力层、想象力层;
步骤S233,当节点被激活的计算层分类为知识层时,统计每一知识层的激活节点数及总节点数,计算每一知识层的激活节点数与总节点数的比值作为知识集中度评分,所述知识层的知识集中度评分与所述替代性评分负相关,所述知识层的知识集中度评分的符号为正。
如图7所示,在本实施例中,所述将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分步骤还包括:
步骤S234,当节点被激活的计算层分类为逻辑层时,统计每一逻辑层的激活节点数及总节点数,计算每一逻辑层的激活节点数与总节点数的比值作为知识集中度评分,所述逻辑层的知识集中度评分与所述替代性评分正相关,所述逻辑层的知识集中度评分的符号为负。
一般认为知识的容错率比较低,而模糊推理的容错率较高。因此,本发明提出对知识集中度进行打分,知识集中度高的计算层仍保留经典计算,知识集中度低的计算层可采用量子神经网络。知识集中度通过将知识输入网络后各个节点的激活程度判定。所述知识层的知识集中度评分的符号为正,知识集中度评分被减形成替代性评分,知识层对应的替代性评分就会变小,也就是知识层仍保留经典计算。所述逻辑层的知识集中度评分的符号为负,知识集中度评分被减形成替代性评分,逻辑层对应的替代性评分就会变大,量子神经网络代替推理层、思维层、创造力层、想象力层等逻辑层。
在本实施例中,所述将验证集的样本传入所述自然语言模型中前馈执行,判断每一计算层的节点是否被激活步骤S231包括:
获取知识验证集及推理验证集;具体的,从百科知识库数据集随机抽取样本构成知识验证集;所述百科知识库数据集包括FEVER数据集或WoW数据集;从推理数据集随机抽取样本构成推理验证集;所述推理数据集包括QNLI数据集或E-KAR数据集;
将所述知识验证集和/或所述推理验证集的样本传入所述自然语言模型中前馈执行,获取每一计算层的节点的数值,当节点的数值大于预设激活判断阈值ε时则判定该节点被激活,否则判定为该节点未被激活。
在本实施例中,所述根据每一计算层的噪声鲁棒性评分、替代价值评分及知识集中度评分计算替代性评分步骤S24包括:
获取第L层计算层的噪声鲁棒性评分RL;
获取第L层计算层的替代价值评分VL;
获取第L层计算层的知识集中度评分CL,并根据第L层计算层分类为知识层和逻辑层的结果确定第L层计算层的知识集中度评分CL的正负符号;
根据公式AL=a*RL+b*VL-c*CL计算第L层计算层的替代性评分AL,其中a、b、c是权重系数,a>b>c。
权重系数a对应噪声鲁棒性的权重,取值范围可在[0,1]区间,a取值越大则对鲁棒性的要求越高。权重系数b对应替代价值的权重,取值范围可在[0,1]区间,取值越大反映替代价值越重要。权重系数c对应知识集中度的权重,取值范围可在[0,1]区间,取值越大反映知识集中度越重要。通常情况下三个权重的大小关系为a>b>c,反映的是噪声鲁棒性最重要,替代价值其次。
如图8所示,在本实施例中,所述筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整步骤包括:
步骤S31,将所述自然语言模型中所有的计算层的替代性评分降序排列,筛选出所述自然语言模型中替代性评分最高的计算层,并用量子神经网络替换替代性评分最高的计算层;
步骤S32,对替换量子神经网络后的自然语言模型通过前向传播计算得到一个输出结果,将所述输出结果与预期结果对比;
步骤S33,若所述输出结果与预期结果存在偏差时,通过反向传播实现参数更新,直到前向传播计算的输出结果与预期结果相符合为止。
如图9所示,在本实施例中,所述若所述输出结果与预期结果存在偏差时,通过反向传播实现参数更新,直到前向传播计算的输出结果与预期结果相符合为止步骤包括:
步骤S331,若所述输出结果与预期结果存在偏差时,获取所述自然语言模型中相邻两层计算层之间的待优化参数;
步骤S332,计算输出结果与预期结果的差值,得到各计算层之间的待优化参数的梯度公式,根据梯度公式采用反向传播方式更新所述自然语言模型的参数。
一般来说,大模型指的是采用参数量很大的神经网络组成的模型。神经网络通过前向传播计算得到一个输出结果,当此结果与预期结果有偏差时,通过反向传播实现参数更新,直到前向传播的计算结果符合预期为止。
如图10所示,图中用H1表示第一网络层,用H2表示第二网络层,其中的每个圆对应一个节点(神经元),W1为第一层待优化的参数,W2为第二层待优化的参数,W3为第三层待优化的参数。通过计算输出结果与预期结果的差值,得到各组参数W1、W2、W3之间的梯度公式,然后根据梯度公式反向传播更新参数W1、W2、W3。
本申请提出的量子-经典协作大模型是将其中某些参数层替换为量子层。以替换H2层为例,替换后由于量子计算存在噪声,因此输出结果可能不再满足预期,需要再次使用反向传播更新整个网络的参数。根据需要,可以固定参数W1,只更新参数W2和W3,也可以一起更新参数W1、W2、W3。
在本实施例中,所述重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型步骤包括:
获取所述自然语言模型的预设终止阈值为N*δ;
通过公式 计算获取当前自然语言模型的总替代性评分A,将当前自然语言模型的总替代性评分A与预设终止阈值N*δ对比;
若当前自然语言模型的总替代性评分A大于等于预设终止阈值N*δ时,重复执行筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整;
通过公式 再次计算获取当前自然语言模型的总替代性评分A,将当前自然语言模型的总替代性评分A与预设终止阈值N*δ对比,直至自然语言模型的总替代性评分A小于预设终止阈值N*δ时停止;
获取最后一次总替代性评分A大于等于预设终止阈值N*δ的自然语言模型并保存。
在本实施例中,所述获取所述自然语言模型的预设终止阈值为N*δ步骤包括:
获取所述自然语言模型的计算层的总层数N;
获取每一计算层的预设替代阈值δ;
计算获得所述自然语言模型的预设终止阈值为N*δ。
如图11所示,在另一实施例中,在所述获取自然语言模型步骤S1之后还包括:
步骤S11,初始化自然语言模型,识别所述自然语言模型是否已完成预训练;
步骤S12,若所述自然语言模型未完成预训练,则设置权重系数a、c为0,并计算所述自然语言模型中每一计算层的替代性评分;
步骤S13,设置所述自然语言模型中每一计算层的预设替代阈值δ,将所述替代性评分大于所述预设替代阈值δ的所有计算层替换为量子神经网络;
步骤S14,对替换为量子神经网络的自然语言模型进行预训练,当达到预训练终止条件时结束训练形成已完成预训练的自然语言模型;
步骤S15,若所述自然语言模型已完成预训练或者在形成已完成预训练的自然语言模型时,则设置权重系数a、c不为0,执行下一步骤S2逐层计算所述自然语言模型中每一计算层的替代性评分。
如图12所示,在本实施例中,所述对替换为量子神经网络的自然语言模型进行预训练,当达到预训练终止条件时结束训练形成已完成预训练的自然语言模型步骤包括:
步骤S141,设置对自然语言模型进行预训练的预训练终止条件为训练后的自然语言模型收敛、达到预设准确率或满足训练次数;
步骤S142,对替换为量子神经网络的自然语言模型进行预训练,并实时判断自然语言模型是否达到预训练终止条件;
步骤S143,当达到预训练终止条件时结束训练,输出已完成预训练的自然语言模型。
上述自然语言模型优化方法中,通过根据自然语言模型中每一计算层的噪声鲁棒性评分、参数数量、节点数量、节点连接次数和知识集中度评分计算获得替代性评分,根据计算层的替代性评分高低逐一将计算层替换为量子神经网络,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次不小于预设终止阈值的自然语言模型,从而实现了将噪声鲁棒性好和知识集中度高的计算层替换为量子神经网络来提升算力,并将实现推理、思维、创造力、想象力的计算层保留来保证计算结果的准确性,在显著提高计算能力的同时保证输出结果的稳定性。
应该理解的是,虽然图2、图4、图6、图7、图8、图9、图11、图12的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图4、图6、图7、图8、图9、图11、图12中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图13所示,提供了一种自然语言模型优化装置10,包括:获取自然语言模型模块1、替代性评分计算模块2、量子神经网络替换模块3。
所述获取自然语言模型模块1用于获取自然语言模型,所述自然语言模型包括多层计算层,所述计算层包括由非量子神经网络构成的注意力层和全链接层,所述注意力层和所述全链接层依次间隔设置。
所述替代性评分计算模块2用于计算所述自然语言模型中每一计算层的替代性评分,所述替代性评分与噪声鲁棒性评分、参数数量、节点数量及节点连接次数呈正相关,所述替代性评分与知识集中度评分呈负相关。
所述量子神经网络替换模块3用于重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型;其中所述计算层筛选及参数调整操作包括:筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整。
如图13所示,所述自然语言模型优化装置10还包括:部署语言模型模块4。
所述部署语言模型模块4用于部署所保留的自然语言模型形成含有量子神经网络的自然语言模型。
在本实施例中,所述计算所述自然语言模型中每一计算层的替代性评分步骤包括:
对所述自然语言模型中每一计算层的采用无监督自评估方法进行噪声鲁棒性评估,获取噪声鲁棒性评分;
统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分;
将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分;
根据每一计算层的噪声鲁棒性评分、替代价值评分及知识集中度评分计算替代性评分。
在本实施例中,所述对所述自然语言模型中每一计算层的采用无监督自评估方法进行噪声鲁棒性评估,获取噪声鲁棒性评分步骤包括:
对所述自然语言模型中每一计算层设置无监督自评估方法的评估算法,所述无监督自评估方法包括BLEU评估法、METEOR评估法、ROUGE评估法、CIDEr评估法中的任一种;
对所述自然语言模型中每一计算层进行噪声鲁棒性评估,获取每一计算层的噪声鲁棒性评分。
在本实施例中,所述统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分步骤包括:
统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数;
根据节点总数量及节点连接次数计算所属计算层的网络结构复杂度评分;
根据参数数量及网络结构复杂度评分计算将每一计算层替换为量子神经网络的替代价值评分。
在本实施例中,所述统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分步骤包括:
统计获得的所述自然语言模型中第L层计算层的参数数量为XL,其中L为正整数;
统计获得的所述自然语言模型中第L层计算层的输入输出节点数量、隐藏节点数量及节点连接次数,根据节点数量及节点连接次数计算第L层计算层的网络结构复杂度评分HL;
根据公式VL=C1*XL+C2*HL计算将第L层计算层替换为量子神经网络的替代价值评分VL,其中C1、C2为权重系数。
在本实施例中,所述将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分步骤包括:
将验证集的样本传入所述自然语言模型中前馈执行,判断每一计算层的节点是否被激活;
根据验证集的样本类型将节点被激活的计算层分类为知识层或逻辑层,所述逻辑层包括推理层、思维层、创造力层、想象力层;
当节点被激活的计算层分类为知识层时,统计每一知识层的激活节点数及总节点数,计算每一知识层的激活节点数与总节点数的比值作为知识集中度评分,所述知识层的知识集中度评分与所述替代性评分负相关,所述知识层的知识集中度评分的符号为正。
在本实施例中,所述将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分步骤还包括:
当节点被激活的计算层分类为逻辑层时,统计每一逻辑层的激活节点数及总节点数,计算每一逻辑层的激活节点数与总节点数的比值作为知识集中度评分,所述逻辑层的知识集中度评分与所述替代性评分正相关,所述逻辑层的知识集中度评分的符号为负。
在本实施例中,所述将验证集的样本传入所述自然语言模型中前馈执行,判断每一计算层的节点是否被激活步骤包括:
获取知识验证集及推理验证集;
将所述知识验证集和/或所述推理验证集的样本传入所述自然语言模型中前馈执行,获取每一计算层的节点的数值,当节点的数值大于预设激活判断阈值ε时则判定该节点被激活,否则判定为该节点未被激活。
在本实施例中,所述根据每一计算层的噪声鲁棒性评分、替代价值评分及知识集中度评分计算替代性评分步骤包括:
获取第L层计算层的噪声鲁棒性评分RL;
获取第L层计算层的替代价值评分VL;
获取第L层计算层的知识集中度评分CL,并根据第L层计算层分类为知识层和逻辑层的结果确定第L层计算层的知识集中度评分CL的正负符号;
根据公式AL=a*RL+b*VL-c*CL计算第L层计算层的替代性评分AL,其中a、b、c是权重系数,a>b>c。
在本实施例中,所述筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整步骤包括:
将所述自然语言模型中所有的计算层的替代性评分降序排列,筛选出所述自然语言模型中替代性评分最高的计算层,并用量子神经网络替换替代性评分最高的计算层;
对替换量子神经网络后的自然语言模型通过前向传播计算得到一个输出结果,将所述输出结果与预期结果对比;
若所述输出结果与预期结果存在偏差时,通过反向传播实现参数更新,直到前向传播计算的输出结果与预期结果相符合为止。
在本实施例中,所述若所述输出结果与预期结果存在偏差时,通过反向传播实现参数更新,直到前向传播计算的输出结果与预期结果相符合为止步骤包括:
若所述输出结果与预期结果存在偏差时,获取所述自然语言模型中相邻两层计算层之间的待优化参数;
计算输出结果与预期结果的差值,得到各计算层之间的待优化参数的梯度公式,根据梯度公式采用反向传播方式更新所述自然语言模型的参数。
在本实施例中,所述重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型步骤包括:
获取所述自然语言模型的预设终止阈值为N*δ;
通过公式计算获取当前自然语言模型的总替代性评分A,将当前自然语言模型的总替代性评分A与预设终止阈值N*δ对比;
若当前自然语言模型的总替代性评分A大于等于预设终止阈值N*δ时,重复执行筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整;
通过公式再次计算获取当前自然语言模型的总替代性评分A,将当前自然语言模型的总替代性评分A与预设终止阈值N*δ对比,直至自然语言模型的总替代性评分A小于预设终止阈值N*δ时停止;
获取最后一次总替代性评分A大于等于预设终止阈值N*δ的自然语言模型并保存。
在本实施例中,所述获取所述自然语言模型的预设终止阈值为N*δ步骤包括:
获取所述自然语言模型的计算层的总层数N;
获取每一计算层的预设替代阈值δ;
计算获得所述自然语言模型的预设终止阈值为N*δ。
在本实施例中,在所述获取自然语言模型步骤之后还包括:
初始化自然语言模型,识别所述自然语言模型是否已完成预训练;
若所述自然语言模型未完成预训练,则设置权重系数a、c为0,并计算所述自然语言模型中每一计算层的替代性评分;
设置所述自然语言模型中每一计算层的预设替代阈值δ,将所述替代性评分大于所述预设替代阈值δ的所有计算层替换为量子神经网络;
对替换为量子神经网络的自然语言模型进行预训练,当达到预训练终止条件时结束训练形成已完成预训练的自然语言模型;
若所述自然语言模型已完成预训练或者在形成已完成预训练的自然语言模型时,则设置权重系数a、c不为0,执行下一步骤逐层计算所述自然语言模型中每一计算层的替代性评分。
在本实施例中,所述对替换为量子神经网络的自然语言模型进行预训练,当达到预训练终止条件时结束训练形成已完成预训练的自然语言模型步骤包括:
设置对自然语言模型进行预训练的预训练终止条件为训练后的自然语言模型收敛、达到预设准确率或满足训练次数;
对替换为量子神经网络的自然语言模型进行预训练,并实时判断自然语言模型是否达到预训练终止条件;
当达到预训练终止条件时结束训练,输出已完成预训练的自然语言模型。
上述自然语言模型优化装置中,通过根据自然语言模型中每一计算层的噪声鲁棒性评分、参数数量、节点数量、节点连接次数和知识集中度评分计算获得替代性评分,根据计算层的替代性评分高低逐一将计算层替换为量子神经网络,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次不小于预设终止阈值的自然语言模型,从而实现了将噪声鲁棒性好和知识集中度高的计算层替换为量子神经网络来提升算力,并将实现推理、思维、创造力、想象力的计算层保留来保证计算结果的准确性,在显著提高计算能力的同时保证输出结果的稳定性。
关于自然语言模型优化装置的具体限定可以参见上文中对于自然语言模型优化方法的限定,在此不再赘述。上述自然语言模型优化装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
另一方面,提供了一种含有量子神经网络的自然语言模型,所述含有量子神经网络的自然语言模型采用前文所述的自然语言模型优化方法形成。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储自然语言模型优化数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种自然语言模型优化方法。
本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取自然语言模型,所述自然语言模型包括多层计算层,所述计算层包括由非量子神经网络构成的注意力层和全链接层,所述注意力层和所述全链接层依次间隔设置;
计算所述自然语言模型中每一计算层的替代性评分,所述替代性评分与噪声鲁棒性评分、参数数量、节点数量及节点连接次数呈正相关,所述替代性评分与知识集中度评分呈负相关;
筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整;
重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型;
部署所保留的自然语言模型形成含有量子神经网络的自然语言模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述计算所述自然语言模型中每一计算层的替代性评分步骤包括:
对所述自然语言模型中每一计算层的采用无监督自评估方法进行噪声鲁棒性评估,获取噪声鲁棒性评分;
统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分;
将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分;
根据每一计算层的噪声鲁棒性评分、替代价值评分及知识集中度评分计算替代性评分。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述对所述自然语言模型中每一计算层的采用无监督自评估方法进行噪声鲁棒性评估,获取噪声鲁棒性评分步骤包括:
对所述自然语言模型中每一计算层设置无监督自评估方法的评估算法,所述无监督自评估方法包括BLEU评估法、METEOR评估法、ROUGE评估法、CIDEr评估法中的任一种;
对所述自然语言模型中每一计算层进行噪声鲁棒性评估,获取每一计算层的噪声鲁棒性评分。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分步骤包括:
统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数;
根据节点总数量及节点连接次数计算所属计算层的网络结构复杂度评分;
根据参数数量及网络结构复杂度评分计算将每一计算层替换为量子神经网络的替代价值评分。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分步骤包括:
统计获得的所述自然语言模型中第L层计算层的参数数量为XL,其中L为正整数;
统计获得的所述自然语言模型中第L层计算层的输入输出节点数量、隐藏节点数量及节点连接次数,根据节点数量及节点连接次数计算第L层计算层的网络结构复杂度评分HL;
根据公式VL=C1*XL+C2*HL计算将第L层计算层替换为量子神经网络的替代价值评分VL,其中C1、C2为权重系数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分步骤包括:
将验证集的样本传入所述自然语言模型中前馈执行,判断每一计算层的节点是否被激活;
根据验证集的样本类型将节点被激活的计算层分类为知识层或逻辑层,所述逻辑层包括推理层、思维层、创造力层、想象力层;
当节点被激活的计算层分类为知识层时,统计每一知识层的激活节点数及总节点数,计算每一知识层的激活节点数与总节点数的比值作为知识集中度评分,所述知识层的知识集中度评分与所述替代性评分负相关,所述知识层的知识集中度评分的符号为正。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分步骤还包括:
当节点被激活的计算层分类为逻辑层时,统计每一逻辑层的激活节点数及总节点数,计算每一逻辑层的激活节点数与总节点数的比值作为知识集中度评分,所述逻辑层的知识集中度评分与所述替代性评分正相关,所述逻辑层的知识集中度评分的符号为负。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述将验证集的样本传入所述自然语言模型中前馈执行,判断每一计算层的节点是否被激活步骤包括:
获取知识验证集及推理验证集;
将所述知识验证集和/或所述推理验证集的样本传入所述自然语言模型中前馈执行,获取每一计算层的节点的数值,当节点的数值大于预设激活判断阈值ε时则判定该节点被激活,否则判定为该节点未被激活。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述根据每一计算层的噪声鲁棒性评分、替代价值评分及知识集中度评分计算替代性评分步骤包括:
获取第L层计算层的噪声鲁棒性评分RL;
获取第L层计算层的替代价值评分VL;
获取第L层计算层的知识集中度评分CL,并根据第L层计算层分类为知识层和逻辑层的结果确定第L层计算层的知识集中度评分CL的正负符号;
根据公式AL=a*RL+b*VL-c*CL计算第L层计算层的替代性评分AL,其中a、b、c是权重系数,a>b>c。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整步骤包括:
将所述自然语言模型中所有的计算层的替代性评分降序排列,筛选出所述自然语言模型中替代性评分最高的计算层,并用量子神经网络替换替代性评分最高的计算层;
对替换量子神经网络后的自然语言模型通过前向传播计算得到一个输出结果,将所述输出结果与预期结果对比;
若所述输出结果与预期结果存在偏差时,通过反向传播实现参数更新,直到前向传播计算的输出结果与预期结果相符合为止。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述若所述输出结果与预期结果存在偏差时,通过反向传播实现参数更新,直到前向传播计算的输出结果与预期结果相符合为止步骤包括:
若所述输出结果与预期结果存在偏差时,获取所述自然语言模型中相邻两层计算层之间的待优化参数;
计算输出结果与预期结果的差值,得到各计算层之间的待优化参数的梯度公式,根据梯度公式采用反向传播方式更新所述自然语言模型的参数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型步骤包括:
获取所述自然语言模型的预设终止阈值为N*δ;
通过公式计算获取当前自然语言模型的总替代性评分A,将当前自然语言模型的总替代性评分A与预设终止阈值N*δ对比;
若当前自然语言模型的总替代性评分A大于等于预设终止阈值N*δ时,重复执行筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整;
通过公式再次计算获取当前自然语言模型的总替代性评分A,将当前自然语言模型的总替代性评分A与预设终止阈值N*δ对比,直至自然语言模型的总替代性评分A小于预设终止阈值N*δ时停止;
获取最后一次总替代性评分A大于等于预设终止阈值N*δ的自然语言模型并保存。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述获取所述自然语言模型的预设终止阈值为N*δ步骤包括:
获取所述自然语言模型的计算层的总层数N;
获取每一计算层的预设替代阈值δ;
计算获得所述自然语言模型的预设终止阈值为N*δ。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
在所述获取自然语言模型步骤之后还包括:
初始化自然语言模型,识别所述自然语言模型是否已完成预训练;
若所述自然语言模型未完成预训练,则设置权重系数a、c为0,并计算所述自然语言模型中每一计算层的替代性评分;
设置所述自然语言模型中每一计算层的预设替代阈值δ,将所述替代性评分大于所述预设替代阈值δ的所有计算层替换为量子神经网络;
对替换为量子神经网络的自然语言模型进行预训练,当达到预训练终止条件时结束训练形成已完成预训练的自然语言模型;
若所述自然语言模型已完成预训练或者在形成已完成预训练的自然语言模型时,则设置权重系数a、c不为0,执行下一步骤逐层计算所述自然语言模型中每一计算层的替代性评分。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述对替换为量子神经网络的自然语言模型进行预训练,当达到预训练终止条件时结束训练形成已完成预训练的自然语言模型步骤包括:
设置对自然语言模型进行预训练的预训练终止条件为训练后的自然语言模型收敛、达到预设准确率或满足训练次数;
对替换为量子神经网络的自然语言模型进行预训练,并实时判断自然语言模型是否达到预训练终止条件;
当达到预训练终止条件时结束训练,输出已完成预训练的自然语言模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
在所述保留最后一次不小于预设终止阈值的自然语言模型步骤之后还包括:
部署所保留的自然语言模型形成含有量子神经网络的自然语言模型。
关于处理器执行计算机程序时实现步骤的具体限定可以参见上文中对于自然语言模型优化的方法的限定,在此不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取自然语言模型,所述自然语言模型包括多层计算层,所述计算层包括由非量子神经网络构成的注意力层和全链接层,所述注意力层和所述全链接层依次间隔设置;
计算所述自然语言模型中每一计算层的替代性评分,所述替代性评分与噪声鲁棒性评分、参数数量、节点数量及节点连接次数呈正相关,所述替代性评分与知识集中度评分呈负相关;
筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整;
重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型;
部署所保留的自然语言模型形成含有量子神经网络的自然语言模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述计算所述自然语言模型中每一计算层的替代性评分步骤包括:
对所述自然语言模型中每一计算层的采用无监督自评估方法进行噪声鲁棒性评估,获取噪声鲁棒性评分;
统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分;
将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分;
根据每一计算层的噪声鲁棒性评分、替代价值评分及知识集中度评分计算替代性评分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述对所述自然语言模型中每一计算层的采用无监督自评估方法进行噪声鲁棒性评估,获取噪声鲁棒性评分步骤包括:
对所述自然语言模型中每一计算层设置无监督自评估方法的评估算法,所述无监督自评估方法包括BLEU评估法、METEOR评估法、ROUGE评估法、CIDEr评估法中的任一种;
对所述自然语言模型中每一计算层进行噪声鲁棒性评估,获取每一计算层的噪声鲁棒性评分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分步骤包括:
统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数;
根据节点总数量及节点连接次数计算所属计算层的网络结构复杂度评分;
根据参数数量及网络结构复杂度评分计算将每一计算层替换为量子神经网络的替代价值评分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分步骤包括:
统计获得的所述自然语言模型中第L层计算层的参数数量为XL,其中L为正整数;
统计获得的所述自然语言模型中第L层计算层的输入输出节点数量、隐藏节点数量及节点连接次数,根据节点数量及节点连接次数计算第L层计算层的网络结构复杂度评分HL;
根据公式VL=C1*XL+C2*HL计算将第L层计算层替换为量子神经网络的替代价值评分VL,其中C1、C2为权重系数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分步骤包括:
将验证集的样本传入所述自然语言模型中前馈执行,判断每一计算层的节点是否被激活;
根据验证集的样本类型将节点被激活的计算层分类为知识层或逻辑层,所述逻辑层包括推理层、思维层、创造力层、想象力层;
当节点被激活的计算层分类为知识层时,统计每一知识层的激活节点数及总节点数,计算每一知识层的激活节点数与总节点数的比值作为知识集中度评分,所述知识层的知识集中度评分与所述替代性评分负相关,所述知识层的知识集中度评分的符号为正。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分步骤还包括:
当节点被激活的计算层分类为逻辑层时,统计每一逻辑层的激活节点数及总节点数,计算每一逻辑层的激活节点数与总节点数的比值作为知识集中度评分,所述逻辑层的知识集中度评分与所述替代性评分正相关,所述逻辑层的知识集中度评分的符号为负。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述将验证集的样本传入所述自然语言模型中前馈执行,判断每一计算层的节点是否被激活步骤包括:
获取知识验证集及推理验证集;
将所述知识验证集和/或所述推理验证集的样本传入所述自然语言模型中前馈执行,获取每一计算层的节点的数值,当节点的数值大于预设激活判断阈值ε时则判定该节点被激活,否则判定为该节点未被激活。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述根据每一计算层的噪声鲁棒性评分、替代价值评分及知识集中度评分计算替代性评分步骤包括:
获取第L层计算层的噪声鲁棒性评分RL;
获取第L层计算层的替代价值评分VL;
获取第L层计算层的知识集中度评分CL,并根据第L层计算层分类为知识层和逻辑层的结果确定第L层计算层的知识集中度评分CL的正负符号;
根据公式AL=a*RL+b*VL-c*CL计算第L层计算层的替代性评分AL,其中a、b、c是权重系数,a>b>c。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整步骤包括:
将所述自然语言模型中所有的计算层的替代性评分降序排列,筛选出所述自然语言模型中替代性评分最高的计算层,并用量子神经网络替换替代性评分最高的计算层;
对替换量子神经网络后的自然语言模型通过前向传播计算得到一个输出结果,将所述输出结果与预期结果对比;
若所述输出结果与预期结果存在偏差时,通过反向传播实现参数更新,直到前向传播计算的输出结果与预期结果相符合为止。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述若所述输出结果与预期结果存在偏差时,通过反向传播实现参数更新,直到前向传播计算的输出结果与预期结果相符合为止步骤包括:
若所述输出结果与预期结果存在偏差时,获取所述自然语言模型中相邻两层计算层之间的待优化参数;
计算输出结果与预期结果的差值,得到各计算层之间的待优化参数的梯度公式,根据梯度公式采用反向传播方式更新所述自然语言模型的参数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型步骤包括:
获取所述自然语言模型的预设终止阈值为N*δ;
通过公式计算获取当前自然语言模型的总替代性评分A,将当前自然语言模型的总替代性评分A与预设终止阈值N*δ对比;
若当前自然语言模型的总替代性评分A大于等于预设终止阈值N*δ时,重复执行筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整;
通过公式再次计算获取当前自然语言模型的总替代性评分A,将当前自然语言模型的总替代性评分A与预设终止阈值N*δ对比,直至自然语言模型的总替代性评分A小于预设终止阈值N*δ时停止;
获取最后一次总替代性评分A大于等于预设终止阈值N*δ的自然语言模型并保存。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述获取所述自然语言模型的预设终止阈值为N*δ步骤包括:
获取所述自然语言模型的计算层的总层数N;
获取每一计算层的预设替代阈值δ;
计算获得所述自然语言模型的预设终止阈值为N*δ。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
在所述获取自然语言模型步骤之后还包括:
初始化自然语言模型,识别所述自然语言模型是否已完成预训练;
若所述自然语言模型未完成预训练,则设置权重系数a、c为0,并计算所述自然语言模型中每一计算层的替代性评分;
设置所述自然语言模型中每一计算层的预设替代阈值δ,将所述替代性评分大于所述预设替代阈值δ的所有计算层替换为量子神经网络;
对替换为量子神经网络的自然语言模型进行预训练,当达到预训练终止条件时结束训练形成已完成预训练的自然语言模型;
若所述自然语言模型已完成预训练或者在形成已完成预训练的自然语言模型时,则设置权重系数a、c不为0,执行下一步骤逐层计算所述自然语言模型中每一计算层的替代性评分。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述对替换为量子神经网络的自然语言模型进行预训练,当达到预训练终止条件时结束训练形成已完成预训练的自然语言模型步骤包括:
设置对自然语言模型进行预训练的预训练终止条件为训练后的自然语言模型收敛、达到预设准确率或满足训练次数;
对替换为量子神经网络的自然语言模型进行预训练,并实时判断自然语言模型是否达到预训练终止条件;
当达到预训练终止条件时结束训练,输出已完成预训练的自然语言模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
在所述保留最后一次不小于预设终止阈值的自然语言模型步骤之后还包括:
部署所保留的自然语言模型形成含有量子神经网络的自然语言模型。
关于计算机程序被处理器执行时实现步骤的具体限定可以参见上文中对于自然语言模型优化的方法的限定,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Ramδus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (16)
1.一种自然语言模型优化方法,其特征在于,包括:
获取自然语言模型,所述自然语言模型包括多层计算层,所述计算层包括由非量子神经网络构成的注意力层和全链接层,所述注意力层和所述全链接层依次间隔设置;
计算所述自然语言模型中每一计算层的替代性评分,所述替代性评分与噪声鲁棒性评分、参数数量、节点数量及节点连接次数呈正相关,所述替代性评分与知识集中度评分呈负相关;
重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型;其中所述计算层筛选及参数调整操作包括:筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整;其中,所述计算所述自然语言模型中每一计算层的替代性评分步骤包括:
对所述自然语言模型中每一计算层的采用无监督自评估方法进行噪声鲁棒性评估,获取噪声鲁棒性评分;
统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分;
将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分;根据每一计算层的噪声鲁棒性评分、替代价值评分及知识集中度评分计算替代性评分;
其中所述统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分步骤包括:
统计获得的所述自然语言模型中第L层计算层的参数数量为XL,其中L为正整数;
统计获得的所述自然语言模型中第L层计算层的输入输出节点数量、隐藏节点数量及节点连接次数,根据节点数量及节点连接次数计算第L层计算层的网络结构复杂度评分HL;
根据公式VL=C1*XL+C2*HL计算将第L层计算层替换为量子神经网络的替代价值评分VL,其中C1、C2为权重系数;
其中所述根据每一计算层的噪声鲁棒性评分、替代价值评分及知识集中度评分计算替代性评分步骤包括:
获取第L层计算层的噪声鲁棒性评分RL;
获取第L层计算层的替代价值评分VL;
获取第L层计算层的知识集中度评分CL,并根据第L层计算层分类为知识层和逻辑层的结果确定第L层计算层的知识集中度评分CL的正负符号;
根据公式AL=a*RL+b*VL-c*CL计算第L层计算层的替代性评分AL,其中a、b、c是权重系数,a>b>c。
2.根据权利要求1所述的自然语言模型优化方法,其特征在于,所述对所述自然语言模型中每一计算层的采用无监督自评估方法进行噪声鲁棒性评估,获取噪声鲁棒性评分步骤包括:
对所述自然语言模型中每一计算层设置无监督自评估方法,所述无监督自评估方法包括BLEU评估法、METEOR评估法、ROUGE评估法、CIDEr评估法中的任一种;
对所述自然语言模型中每一计算层进行噪声鲁棒性评估,获取每一计算层的噪声鲁棒性评分。
3.根据权利要求1所述的自然语言模型优化方法,其特征在于,所述将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分步骤包括:
将验证集的样本传入所述自然语言模型中前馈执行,判断每一计算层的节点是否被激活;
根据验证集的样本类型将节点被激活的计算层分类为知识层或逻辑层,所述逻辑层包括推理层、思维层、创造力层、想象力层;
当节点被激活的计算层分类为知识层时,统计每一知识层的激活节点数及总节点数,计算每一知识层的激活节点数与总节点数的比值作为知识集中度评分,所述知识层的知识集中度评分与所述替代性评分负相关,所述知识层的知识集中度评分的符号为正。
4.根据权利要求3所述的自然语言模型优化方法,其特征在于,所述将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分步骤还包括:
当节点被激活的计算层分类为逻辑层时,统计每一逻辑层的激活节点数及总节点数,计算每一逻辑层的激活节点数与总节点数的比值作为知识集中度评分,所述逻辑层的知识集中度评分与所述替代性评分正相关,所述逻辑层的知识集中度评分的符号为负。
5.根据权利要求3所述的自然语言模型优化方法,其特征在于,所述将验证集的样本传入所述自然语言模型中前馈执行,判断每一计算层的节点是否被激活步骤包括:
获取知识验证集及推理验证集;
将所述知识验证集和/或所述推理验证集的样本传入所述自然语言模型中前馈执行,获取每一计算层的节点的数值,当节点的数值大于预设激活判断阈值ε时则判定该节点被激活,否则判定为该节点未被激活。
6.根据权利要求1所述的自然语言模型优化方法,其特征在于,所述筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整步骤包括:
将所述自然语言模型中所有的计算层的替代性评分降序排列,筛选出所述自然语言模型中替代性评分最高的计算层,并用量子神经网络替换替代性评分最高的计算层;
对替换量子神经网络后的自然语言模型通过前向传播计算得到一个输出结果,将所述输出结果与预期结果对比;
若所述输出结果与预期结果存在偏差时,通过反向传播实现参数更新,直到前向传播计算的输出结果与预期结果相符合为止。
7.根据权利要求6所述的自然语言模型优化方法,其特征在于,所述若所述输出结果与预期结果存在偏差时,通过反向传播实现参数更新,直到前向传播计算的输出结果与预期结果相符合为止步骤包括:
若所述输出结果与预期结果存在偏差时,获取所述自然语言模型中相邻两层计算层之间的待优化参数;
计算输出结果与预期结果的差值,得到各计算层之间的待优化参数的梯度公式,根据梯度公式采用反向传播方式更新所述自然语言模型的参数。
8.根据权利要求1所述的自然语言模型优化方法,其特征在于,所述重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型步骤包括:
获取所述自然语言模型的预设终止阈值为N*δ;
通过公式计算获取当前自然语言模型的总替代性评分A,将当前自然语言模型的总替代性评分A与预设终止阈值N*δ对比;
若当前自然语言模型的总替代性评分A大于等于预设终止阈值N*δ时,重复执行筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整;
通过公再次计算获取当前自然语言模型的总替代性评分A,将当前自然语言模型的总替代性评分A与预设终止阈值N*δ对比,直至自然语言模型的总替代性评分A小于预设终止阈值N*δ时停止;
获取最后一次总替代性评分A大于等于预设终止阈值N*δ的自然语言模型并保存。
9.根据权利要求8所述的自然语言模型优化方法,其特征在于,所述获取所述自然语言模型的预设终止阈值为N*δ步骤包括:
获取所述自然语言模型的计算层的总层数N;
获取每一计算层的预设替代阈值δ;
计算获得所述自然语言模型的预设终止阈值为N*δ。
10.根据权利要求1所述的自然语言模型优化方法,其特征在于,在所述获取自然语言模型步骤之后还包括:
初始化自然语言模型,识别所述自然语言模型是否已完成预训练;
若所述自然语言模型未完成预训练,则设置权重系数a、c为0,并计算所述自然语言模型中每一计算层的替代性评分;
设置所述自然语言模型中每一计算层的预设替代阈值δ,将所述替代性评分大于所述预设替代阈值δ的所有计算层替换为量子神经网络;
对替换为量子神经网络的自然语言模型进行预训练,当达到预训练终止条件时结束训练形成已完成预训练的自然语言模型;
若所述自然语言模型已完成预训练或者在形成已完成预训练的自然语言模型时,则设置权重系数a、c不为0,执行下一步骤逐层计算所述自然语言模型中每一计算层的替代性评分。
11.根据权利要求10所述的自然语言模型优化方法,其特征在于,所述对替换为量子神经网络的自然语言模型进行预训练,当达到预训练终止条件时结束训练形成已完成预训练的自然语言模型步骤包括:
设置对自然语言模型进行预训练的预训练终止条件为训练后的自然语言模型收敛、达到预设准确率或满足训练次数;
对替换为量子神经网络的自然语言模型进行预训练,并实时判断自然语言模型是否达到预训练终止条件;
当达到预训练终止条件时结束训练,输出已完成预训练的自然语言模型。
12.根据权利要求1所述的自然语言模型优化方法,其特征在于,在所述保留最后一次不小于预设终止阈值的自然语言模型步骤之后还包括:
部署所保留的自然语言模型形成含有量子神经网络的自然语言模型。
13.一种自然语言模型优化装置,其特征在于,所述装置包括:
获取自然语言模型模块,用于获取自然语言模型,所述自然语言模型包括多层计算层,所述计算层包括由非量子神经网络构成的注意力层和全链接层,所述注意力层和所述全链接层依次间隔设置;
替代性评分计算模块,用于计算所述自然语言模型中每一计算层的替代性评分,所述替代性评分与噪声鲁棒性评分、参数数量、节点数量及节点连接次数呈正相关,所述替代性评分与知识集中度评分呈负相关;其中,所述计算所述自然语言模型中每一计算层的替代性评分步骤包括:对所述自然语言模型中每一计算层的采用无监督自评估方法进行噪声鲁棒性评估,获取噪声鲁棒性评分;统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分;将验证集输入所述自然语言模型中,统计每一计算层的激活节点数及总节点数,计算每一计算层的激活节点数与总节点数的比值作为知识集中度评分;根据每一计算层的噪声鲁棒性评分、替代价值评分及知识集中度评分计算替代性评分;其中所述统计所述自然语言模型中每一计算层的参数数量、节点总数量及节点连接次数,计算将每一计算层替换为量子神经网络的替代价值评分步骤包括:统计获得的所述自然语言模型中第L层计算层的参数数量为XL,其中L为正整数;统计获得的所述自然语言模型中第L层计算层的输入输出节点数量、隐藏节点数量及节点连接次数,根据节点数量及节点连接次数计算第L层计算层的网络结构复杂度评分HL;根据公式VL=C1*XL+C2*HL计算将第L层计算层替换为量子神经网络的替代价值评分VL,其中C1、C2为权重系数;其中所述根据每一计算层的噪声鲁棒性评分、替代价值评分及知识集中度评分计算替代性评分步骤包括:获取第L层计算层的噪声鲁棒性评分RL;获取第L层计算层的替代价值评分VL;获取第L层计算层的知识集中度评分CL,并根据第L层计算层分类为知识层和逻辑层的结果确定第L层计算层的知识集中度评分CL的正负符号;根据公式AL=a*RL+b*VL-c*CL计算第L层计算层的替代性评分AL,其中a、b、c是权重系数,a>b>c;量子神经网络替换模块,用于重复进行计算层筛选及参数调整操作以用量子神经网络替换多个计算层,直至自然语言模型的总替代性评分小于预设终止阈值时停止,并保留最后一次总替代性评分不小于预设终止阈值的自然语言模型;其中所述计算层筛选及参数调整操作包括:筛选出所述自然语言模型中替代性评分最高的计算层并用量子神经网络替换,对替换量子神经网络后的自然语言模型进行参数调整。
14.一种含有量子神经网络的自然语言模型,其特征在于,所述含有量子神经网络的自然语言模型采用权利要求1至12中任一项所述的自然语言模型优化方法形成。
15.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述方法的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311249178.5A CN116992942B (zh) | 2023-09-26 | 2023-09-26 | 自然语言模型优化方法、装置、自然语言模型、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311249178.5A CN116992942B (zh) | 2023-09-26 | 2023-09-26 | 自然语言模型优化方法、装置、自然语言模型、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116992942A CN116992942A (zh) | 2023-11-03 |
CN116992942B true CN116992942B (zh) | 2024-02-02 |
Family
ID=88525225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311249178.5A Active CN116992942B (zh) | 2023-09-26 | 2023-09-26 | 自然语言模型优化方法、装置、自然语言模型、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992942B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117634459B (zh) * | 2024-01-24 | 2024-08-13 | 山东海量信息技术研究院 | 目标内容生成及模型训练方法、装置、系统、设备及介质 |
CN118364918A (zh) * | 2024-05-21 | 2024-07-19 | 北京潞晨科技有限公司 | 一种大语言模型的推理方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110389996A (zh) * | 2018-04-16 | 2019-10-29 | 国际商业机器公司 | 实现用于自然语言处理的全句递归神经网络语言模型 |
CN112765355A (zh) * | 2021-01-27 | 2021-05-07 | 江南大学 | 基于改进的量子行为粒子群优化算法的文本对抗攻击方法 |
CN114239545A (zh) * | 2021-11-17 | 2022-03-25 | 海信视像科技股份有限公司 | 自然语言生成方法、装置、设备、介质及产品 |
CN114461791A (zh) * | 2021-11-15 | 2022-05-10 | 哈尔滨理工大学 | 一种基于深度量子神经网络的社交文本情感分析系统 |
CN114819148A (zh) * | 2022-05-17 | 2022-07-29 | 西安电子科技大学 | 基于不确定性估计知识蒸馏的语言模型压缩方法 |
CN116662582A (zh) * | 2023-08-01 | 2023-08-29 | 成都信通信息技术有限公司 | 基于自然语言的特定领域业务知识检索方法及检索装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10133728B2 (en) * | 2015-03-20 | 2018-11-20 | Microsoft Technology Licensing, Llc | Semantic parsing for complex knowledge extraction |
US20230055991A1 (en) * | 2021-08-09 | 2023-02-23 | Samsung Electronics Co., Ltd. | System and method for interactive dialogue |
-
2023
- 2023-09-26 CN CN202311249178.5A patent/CN116992942B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110389996A (zh) * | 2018-04-16 | 2019-10-29 | 国际商业机器公司 | 实现用于自然语言处理的全句递归神经网络语言模型 |
CN112765355A (zh) * | 2021-01-27 | 2021-05-07 | 江南大学 | 基于改进的量子行为粒子群优化算法的文本对抗攻击方法 |
CN114461791A (zh) * | 2021-11-15 | 2022-05-10 | 哈尔滨理工大学 | 一种基于深度量子神经网络的社交文本情感分析系统 |
CN114239545A (zh) * | 2021-11-17 | 2022-03-25 | 海信视像科技股份有限公司 | 自然语言生成方法、装置、设备、介质及产品 |
CN114819148A (zh) * | 2022-05-17 | 2022-07-29 | 西安电子科技大学 | 基于不确定性估计知识蒸馏的语言模型压缩方法 |
CN116662582A (zh) * | 2023-08-01 | 2023-08-29 | 成都信通信息技术有限公司 | 基于自然语言的特定领域业务知识检索方法及检索装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116992942A (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368996B (zh) | 可传递自然语言表示的重新训练投影网络 | |
CN116992942B (zh) | 自然语言模型优化方法、装置、自然语言模型、设备和介质 | |
CN113688244B (zh) | 基于神经网络的文本分类方法、系统、设备及存储介质 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN112527966B (zh) | 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法 | |
Chen et al. | Deep neural networks for multi-class sentiment classification | |
Glauner | Comparison of training methods for deep neural networks | |
US20200356838A1 (en) | Method and System for Training a Machine Learning System Using Context Injection | |
CN118170668A (zh) | 一种测试用例生成方法、装置、存储介质和设备 | |
CN116384371A (zh) | 一种基于bert和依存句法联合实体及关系抽取方法 | |
Londt et al. | Evolving character-level densenet architectures using genetic programming | |
CN113806489A (zh) | 用于数据集创建的方法、电子设备和计算机程序产品 | |
CN112131363B (zh) | 自动问答方法、装置、设备及存储介质 | |
Xia | An overview of deep learning | |
KR20220155785A (ko) | 챗봇 운영 방법 및 장치 | |
Wakchaure et al. | A scheme of answer selection in community question answering using machine learning techniques | |
Arun | Connectionist symbol processing: Dead or alive? | |
US20230140702A1 (en) | Search-query suggestions using reinforcement learning | |
CN113505226B (zh) | 融合图卷积神经网络的文本情感分类系统 | |
KR20230093797A (ko) | 분류 모델에 기반하여 바꿔 쓰기 모델을 학습하는 방법, 바꿔 쓰기 모델을 이용한 텍스트 데이터의 증강 방법 및 이를 이용한 텍스트 처리 장치 | |
Kreyssig | Deep learning for user simulation in a dialogue system | |
Xu et al. | Cross-media retrieval based on pseudo-label learning and semantic consistency algorithm | |
Baskaran et al. | Text Generation using Long Short-Term Memory | |
Do | Jigsaw unintended bias in toxicity classification | |
Tang et al. | Latent graph learning with dual-channel attention for relation extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |