CN117634459A - 目标内容生成及模型训练方法、装置、系统、设备及介质 - Google Patents
目标内容生成及模型训练方法、装置、系统、设备及介质 Download PDFInfo
- Publication number
- CN117634459A CN117634459A CN202410096307.XA CN202410096307A CN117634459A CN 117634459 A CN117634459 A CN 117634459A CN 202410096307 A CN202410096307 A CN 202410096307A CN 117634459 A CN117634459 A CN 117634459A
- Authority
- CN
- China
- Prior art keywords
- natural language
- model
- quantum
- neural network
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 129
- 238000012549 training Methods 0.000 title claims abstract description 108
- 238000003058 natural language processing Methods 0.000 claims abstract description 263
- 239000013598 vector Substances 0.000 claims abstract description 89
- 238000013528 artificial neural network Methods 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000003062 neural network model Methods 0.000 claims description 234
- 238000012545 processing Methods 0.000 claims description 126
- 230000006870 function Effects 0.000 claims description 95
- 230000004913 activation Effects 0.000 claims description 75
- 238000005259 measurement Methods 0.000 claims description 44
- 238000000605 extraction Methods 0.000 claims description 28
- 238000003860 storage Methods 0.000 claims description 23
- 238000012805 post-processing Methods 0.000 claims description 22
- 238000013139 quantization Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 230000000750 progressive effect Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 230000008447 perception Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000010276 construction Methods 0.000 abstract description 6
- 239000010410 layer Substances 0.000 description 151
- 238000004364 calculation method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000002360 preparation method Methods 0.000 description 12
- 239000002096 quantum dot Substances 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000005283 ground state Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 239000012634 fragment Substances 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 239000002356 single layer Substances 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 241000157593 Milvus Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种目标内容生成及模型训练方法、装置、系统、设备及介质,应用于人工智能技术领域。其中,方法包括通过将传统神经网络至少一层替换为浅层量子神经网络的方式搭建自动生成目标内容的自然语言处理模型。利用自然语言样本,基于量子向量数据库,将量子神经网络上一层输出转换的量子态化的自然语言数据输入量子神经网络,并转换量子神经网络输出。基于自然语言处理模型的预测目标内容和真实目标内容间的内容偏差调整模型参数,直至达到训练终止条件。本发明可以解决相关技术中自然语言模型的规模受限于算力资源的问题,能够在有限算力资源的情况下,实现大规模自然语言模型的构建,进而能够处理复杂以及计算量大的自然语言生成任务。
Description
技术领域
本发明涉及人工智能技术领域,特别是涉及一种目标内容生成及模型训练方法、装置、系统、设备及介质。
背景技术
生成式人工智能技术为基于输入信息,利用算法、模型、规则自动生成并输出文本、图片、声音、视频、代码等内容的技术,也即从其数据中学习内容或对象,并运用数据生成全新、完全原创的实际工件,其中以AutoGPT(Auto Generative Pre-trainedTransformer,自动智能预训练变换网络)为代表的生成式自然语言处理模型被广泛应用。
随着各类自然语言生成任务被广泛应用至日常工作生活中,生成式语言模型的规模越来越大,生成式语言模型的训练过程和推理过程所需的算力资源也就越来越多,而对于算力资源有限的应用场景下,就导致通过传统神经网络构建的生成式语言模型的规模受限,不利于高效执行自然语言生成任务。
鉴于此,如何扩展算力资源,以利用大规模语言模型处理自然语言生成任务,是所属领域技术人员需要解决的技术问题。
发明内容
本发明提供了一种用于生成目标内容的自然语言处理模型训练方法、目标内容生成方法、装置、系统、电子设备及可读存储介质,能够扩展算力资源,利用高性能的大规模语言模型处理自然语言生成任务。
为解决上述技术问题,本发明提供以下技术方案:
本发明第一方面提供了一种用于生成目标内容的自然语言处理模型训练方法,包括:
基于目标神经网络模型和量子神经网络模型,通过将所述目标神经网络模型的至少一层替换为所述量子神经网络模型的方式,搭建用于根据用户的目标内容生成请求自动生成相应目标内容的自然语言处理模型;所述量子神经网络模型的层数小于预设层数阈值;
将自然语言样本数据集的自然语言样本输入至所述自然语言处理模型;
基于量子向量数据库,将所述量子神经网络模型的上一层输出的自然语言特征提取信息转换量子态化的自然语言数据,并将所述量子态化的自然语言数据输入至所述量子神经网络模型;
将所述量子神经网络模型输出的测量结果转换为满足预设后处理格式的自然语言特征数据;
根据所述自然语言处理模型输出的预测目标内容和所述自然语言样本对应的真实目标内容之间的内容偏差,对所述自然语言处理模型的模型参数进行调整,直至达到模型训练终止条件。
在第一种示例性的实施方式中,所述基于量子向量数据库,将所述量子神经网络模型的上一层输出的自然语言特征提取信息转换量子态化的自然语言数据,包括:
对所述自然语言处理模型的各量子神经网络模型,获取当前量子神经网络模型的上一层输出的自然语言特征提取信息;
调用量子向量数据库,并从所述量子向量数据库中选择出与所述自然语言特征提取信息满足预设相似条件的量子线路;
利用量子计算机执行所述量子线路,以制备得到量子态化的自然语言数据。
在第二种示例性的实施方式中,所述从所述量子向量数据库中选择出与所述自然语言特征提取信息满足预设相似条件的量子线路,包括:
调用目标引擎,利用目标近似搜索方法从所述量子向量数据库中选择出与所述自然语言特征提取信息的相似度大于预设相似阈值的量子线路。
在第三种示例性的实施方式中,所述利用目标近似搜索方法从所述量子向量数据库中选择出与所述自然语言特征提取信息的相似度大于预设相似阈值的量子线路,包括:
分别计算所述自然语言特征提取信息与所述量子向量数据库中各量子线路之间的内积,并选择内积最大的量子线路作为满足预设相似条件的量子线路。
在第四种示例性的实施方式中,所述将所述量子神经网络模型输出的测量结果转换为满足预设后处理格式的自然语言特征数据,包括:
将所述量子神经网络模型输出的测量结果转换为满足所述目标神经网络模型的输入格式的自然语言特征数据,并将所述自然语言特征数据输入至所述量子神经网络模型的下一层。
在第五种示例性的实施方式中,所述将所述量子神经网络模型输出的测量结果转换为满足预设后处理格式的自然语言特征数据,包括:
将所述量子神经网络模型输出的测量结果,转换为满足所述自然语言处理模型部署设备的数据处理格式的自然语言特征数据,并将所述自然语言特征数据作为所述自然语言处理模型在当前迭代下的预测目标内容。
在第六种示例性的实施方式中,所述将所述量子神经网络模型输出的测量结果转换为满足预设后处理格式的自然语言特征数据,包括:
利用量子计算机运行所述量子神经网络模型,并对所述量子态化的自然语言数据进行测量,得到测量结果。
在第七种示例性的实施方式中,所述对所述量子态化的自然语言数据进行测量,包括:
利用大于等于制备所述量子态化的自然语言数据所需的量子比特数的多个量子比特,对所述量子态化的自然语言数据进行测量。
在第八种示例性的实施方式中,所述基于目标神经网络模型和量子神经网络模型,通过将所述目标神经网络模型的至少一层替换为所述量子神经网络模型的方式,搭建用于根据用户的目标内容生成请求自动生成相应目标内容的自然语言处理模型,包括:
获取目标神经网络模型的模型架构参数;
根据所述模型架构参数确定所述目标神经网络模型的线性层和多层感知层;
将所述线性层和/或多层感知层替换为量子神经网络模型;
将替换之后的目标神经网络模型作为自然语言处理模型。
在第九种示例性的实施方式中,所述将自然语言样本数据集的自然语言样本输入至所述自然语言处理模型之前,还包括:
判断所述目标神经网络模型是否为已完成预训练的神经网络模型;
若所述目标神经网络模型已完成预训练,则利用所述自然语言样本数据集对所述自然语言处理模型进行微调处理;
若所述目标神经网络模型未完成预训练,则执行所述将自然语言样本数据集的自然语言样本输入至所述自然语言处理模型的步骤。
在第十种示例性的实施方式中,所述利用所述自然语言样本数据集对所述自然语言处理模型进行微调处理,包括:
对所述自然语言处理模型中的至少一个量子神经网络模型,为当前量子神经网络模型所在层的上一层和下一层之间设置激活函数层;
将所述当前量子神经网络模型所在层的自然语言特征输入数据和自然语言特征输出数据进行量子态化处理,得到量子态预测内容和量子态真实内容;
调用所述激活函数层的激活函数,根据所述量子态预测内容和所述量子态真实内容对所述自然语言处理模型进行微调处理。
在第十一种示例性的实施方式中,所述若所述目标神经网络模型已完成预训练,则利用所述自然语言样本数据集对所述自然语言处理模型进行微调处理,包括:
若微调后的自然语言处理模型的预测精度不符合预设模型精度条件,则对所述自然语言处理模型中的至少一个量子神经网络模型,为当前量子神经网络模型所在层的上一层和下一层之间设置包含多类激活函数的激活函数层;所述激活函数层内置第一激活函数、第二激活函数和第三激活函数;
采用渐进式激活函数的方式,对所述自然语言处理模型逐步进行微调处理,直至所述自然语言处理模型的预测精度符合预设模型精度条件。
在第十二种示例性的实施方式中,所述采用渐进式激活函数的方式,对所述自然语言处理模型逐步进行微调处理,包括:
获取所述当前量子神经网络模型所在层的第一次自然语言特征输入数据和第一次自然语言特征输出数据;
调用所述激活函数层的第一激活函数,根据所述第一次自然语言特征输入数据和所述第一次自然语言特征输出数据对所述自然语言处理模型进行一次微调处理;
获取经过一次微调后的当前量子神经网络模型所在层的第二次自然语言特征输入数据和第二次自然语言特征输出数据;
调用所述激活函数层的第二激活函数,根据所述第二次自然语言特征输入数据和所述第二次自然语言特征输出数据再次对所述自然语言处理模型进行微调处理;
获取经过两次微调后的当前量子神经网络模型所在层的第三次自然语言特征输入数据和第三次自然语言特征输出数据;
调用所述激活函数层的第三激活函数,根据所述第三次自然语言特征输入数据和所述第三次自然语言特征输出数据再次对所述自然语言处理模型进行微调处理;
将所述第三次自然语言特征输入数据和所述第三次自然语言特征输出数据行量子态化处理,得到量子态调整预测内容和量子态调整真实内容;
调用所述激活函数层,根据所述量子态调整预测内容和所述量子态调整真实内容对所述自然语言处理模型进行微调处理。
本发明第二方面提供了一种目标内容生成方法,包括:
预先利用如前任意一项所述用于生成目标内容的自然语言处理模型训练方法,训练得到自然语言处理模型;
接收用户输入的目标内容生成请求;
将所述目标内容生成请求作为提示信息,输入至所述自然语言处理模型;
根据所述自然语言处理模型的输出结果,自动生成目标内容。
在第一种示例性的实施方式中,所述将所述目标内容生成请求作为提示信息,包括:
通过解析所述目标内容生成请求,获取待处理数据;
若所述待处理数据为多模态数据,则基于每一个模态类型对应的预设数据处理方式,对所述待处理数据所包含的各模态数据进行单独处理,得到多组单模态标准数据,并将各组单模态标准数据并列输入至所述自然语言处理模型;
若所述待处理数据为单模态数据,则按照相应模态类型对应的预设数据处理方式对所述待处理数据进行处理,并将处理结果输入至所述自然语言处理模型。
在第二种示例性的实施方式中,所述目标内容生成请求为文本处理请求,所述待处理数据为待处理文本信息;所述按照相应模态类型对应的预设数据处理方式对所述待处理数据进行处理,并将处理结果输入至所述自然语言处理模型,包括:
在所述待处理文本信息的句首、句尾分别添加词标识,并将所述待处理文本信息的每个词转换为词嵌入、片段嵌入和位置嵌入的联合向量,得到标准文本输入信息;
将所述标准文本输入信息输入所述自然语言处理模型。
在第三种示例性的实施方式中,所述目标内容生成请求为图像处理请求,所述待处理数据为待处理图像;所述按照相应模态类型对应的预设数据处理方式对所述待处理数据进行处理,并将处理结果输入至所述自然语言处理模型,包括:
对所述待处理图像进行像素归一化处理,得到标准图像;
基于所述标准图像的像素参数和图像裁剪参数,将所述标准图像裁剪为多个子图块;
根据嵌入参数,对每一个子图块进行图嵌入处理,以将其转换为目标子图块;
将各目标子图块,按照预设顺序输入至所述自然语言处理模型。
本发明第三方面提供了一种用于生成目标内容的自然语言处理模型训练装置,包括:
模型搭建模块,用于基于目标神经网络模型和量子神经网络模型,通过将所述目标神经网络模型的至少一层替换为所述量子神经网络模型的方式,搭建用于根据用户的目标内容生成请求自动生成相应目标内容的自然语言处理模型;
量子态化处理模块,用于基于量子向量数据库,将自然语言样本数据集的自然语言样本输入至所述自然语言处理模型;将所述量子神经网络模型的上一层输出的自然语言特征提取信息转换量子态化的自然语言数据,并将所述量子态化的自然语言数据输入至所述量子神经网络模型;
后处理模块,用于将所述量子神经网络模型输出的测量结果转换为满足预设后处理格式的自然语言特征数据;
参数调整模块,用于根据所述自然语言处理模型输出的预测目标内容和所述自然语言样本对应的真实目标内容之间的内容偏差,对所述自然语言处理模型的模型参数进行调整,直至达到模型训练终止条件。
本发明第四方面提供了一种目标内容生成装置,包括:
模型训练模块,用于预先利用如前任意一项所述用于生成目标内容的自然语言处理模型训练方法,训练得到自然语言处理模型;
请求接收模块,用于接收用户输入的目标内容生成请求;
内容生成模块,用于将所述目标内容生成请求作为提示信息,输入至所述自然语言处理模型;根据所述自然语言处理模型的输出结果,自动生成目标内容。
本发明第五方面提供了一种电子设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述目标内容生成方法的步骤。
本发明第六方面还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前任一项所述目标内容生成方法的步骤。
本发明第七方面还提供了一种目标内容生成系统,包括第一计算机和第二计算机;所述第一计算机与所述第二计算机相连;
所述第一计算机,用于完成对自然语言处理模型的训练,并部署训练好的自然语言处理模型;当接收到用户的目标内容生成请求,调用所述自然语言处理模型自动生成相应目标内容;
所述第二计算机为量子计算机,用于执行所述第一计算机发送的量子线路,以制备得到量子态化的自然语言数据,将所述量子态化的自然语言数据输入至量子神经网络,并对所述量子态化的自然语言数据进行测量,以得到测量结果,将所述测量结果发送至所述第一计算机。
本发明提供的技术方案的优点在于,利用浅层的量子神经网络替代经典神经网络模型的某一层或某几层,浅层量子神经网络一方面噪声在忍受范围内,对量子神经网络模型的性能影响不大,另一方面通过量子神经网络实现单层模型参数的显著增加,足以为经典神经网络提供巨大的算力,为整个自然语言处理模型提供指数增长的算力,进一步提升整个自然语言处理模型的规模尺寸;此外,通过从量子向量数据库中选择量子线路实现高效的量子态制备,减少了量子计算线路深度,缓解了噪声干扰,而且由于自然语言处理模型本身具有强泛化特性,处理两个相近的输入自然语言特征向量也会得到相近的输出,因此这种近似量子态制备方法尤其适合于自然语言处理模型,生成式的于自然语言处理模型的生成结果本身也具有随机性,因而也可以承受量子噪声和向量数据库造成的误差,不会对自然语言处理模型的生成精度造成影响,从而在有限算力资源的情况下,能够利用大规模语言模型高效且快速地处理自然语言生成任务。
此外,本发明还针对用于生成目标内容的自然语言处理模型训练方法提供了相应的目标内容生成方法、实现装置、系统、电子设备及可读存储介质,进一步使得所述方法更具有实用性,所述目标内容生成方法、装置、系统、电子设备及可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
为了更清楚的说明本发明或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种用于生成目标内容的自然语言处理模型训练方法的流程示意图;
图2为本发明提供的目标神经网络模型在一示例性应用场景的框架示意图;
图3为本发明提供的量子神经网络模型在一示例性应用场景的框架示意图;
图4为本发明提供的自然语言处理模型在一示例性应用场景的框架示意图;
图5为本发明提供的自然语言处理模型在另一示例性应用场景的框架示意图;
图6为本发明提供的一种目标内容生成方法的流程示意图;
图7为本发明提供的目标内容生成方法所适用的硬件组成框架示意图;
图8为本发明提供的另一种用于生成目标内容的自然语言处理模型训练方法的流程示意图;
图9为本发明提供的用于生成目标内容的自然语言处理模型训练装置的一种具体实施方式结构图;
图10为本发明提供的目标内容生成装置的一种具体实施方式结构图;
图11为本发明提供的电子设备的一种具体实施方式结构图;
图12为本发明提供的目标内容生成系统的一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。其中,说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及二者的任何变形,意图在于覆盖不排他的包含。术语“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
随着人工智能技术的快速发展,以ChatGPT(Chat Generative Pre-trainedTransformer,聊天机器人程序)为代表的大规模语言模型因其强大的语言认知能力被广泛应用于日常工作生活中,如进行多轮对话、代码编码以及数学运算,进一步的促进大规模语言模型的相关技术的发展,生成式人工智能技术应用而生。生成式人工智能技术为基于输入信息,利用算法、模型、规则自动生成并输出文本、图片、声音、视频、代码等内容的技术,也即从其数据中学习内容或对象,并运用数据生成全新、完全原创的实际所需内容,其中以AutoGPT为代表的生成式智能体应用最为广泛。
为了更加高效地生成全新且完全原创的内容,将自然语言任务处理模型做大成为趋势,而大模型普遍需要大量算力支撑,例如训练ChatGPT预估需要上万块图形处理器,且是以月为单位的训练时间。这严重制约了的人工智能模型的进一步开发和应用,也阻碍了更大规模的自然语言处理模型的发展,不利于将自然语言处理模型应用至更加复杂的应用场景中。而量子计算因为纠缠和叠加态的作用,能够产生远超经典计算的算力资源和存储能力,被认为能在释放强大的算力。然而,目前的量子设备存在噪声等干扰,限制了量子计算的实际应用。鉴于此,本发明提供了能够克服量子噪声,并利用量子神经网络显著提升自然语言模型的规模尺寸,利用量子计算为神经网络提供更强大的算力,从而能够在有限资源的场景下训练更大规模的自然语言处理模型。
在介绍了本发明的技术方案后,下面详细的说明本发明的各种非限制性实施方式。为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有这些具体细节,本发明同样可以实施。在另外一些实例中,对于所属领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。
首先请参见图1,图1为本实施例提供的一种目标内容生成方法的流程示意图,本实施例可包括以下内容:
S101:基于目标神经网络模型和量子神经网络模型,通过将目标神经网络模型的至少一层替换为量子神经网络模型的方式,搭建用于根据用户的目标内容生成请求自动生成相应目标内容的自然语言处理模型。
在本实施例中,目标神经网络模型为任何一种传统的神经网络模型,包括但并不限制于CNN(convolutional neural network,卷积神经网络)、RNN(recurrent neuralnetwork,循环神经网络)、Transformer(变换神经网络),目标神经网络模型的网络模型结构示意图如图2所示,其中圆点对应节点(或神经元),每一根线对应一个权重参数,目标神经网络模型的同一层的多个节点可对应一个向量,将向量输入至目标神经网络模型后,通过多根带权重的线完成计算,传递给下一层。为了便于数据处理,可将目标神经网络模型的每一层的输入层的向量称为输入向量,中间层称为隐藏层,也对应一个隐藏层向量,输出层的向量称为输出向量。目标神经网络模型一般具有多层,上一层的输出作为下一层的输入,一直传递到最后一层。量子神经网络模型为由神经元和连接组成的L层网络模型,如图3所示,其通过一系列量子门操作实现对数据的处理,量子门包括如Rx、Ry、Rz等旋转门,CNOT控制门等,其中旋转门含有若干可调参数,通过调节这些参数,量子神经网络模型可以实现各类特殊功能。虚线框中的构造可以重复L次,其中Rz、Ry含有待调参数θ,这些参数可随机初始化。
对于量子神经网络所在量子计算体系中,信息以量子比特的形式进行存储,量子比特的状态包括基态和叠加态这两类,基态可为|0>或|1>,叠加态可为|0>和|1>的线性组合。单量子比特的状态|ψ>可表示为:|φ>=α|0>+β|1>。其中,α和β为复数,且|α|2+|β|2=1。由此可见,单量子比特状态也可以表示成维度为2的向量(α,β)T,该向量的模长为1。对量子系统的测量操作会使系统随机地坍缩到基态,概率取决于每个基态前的系数。如单量子比特的状态关系式中量子比特,由|α|2的概率坍缩到|0>、|β|2的概率坍缩到|1>。当多个量子比特纠缠在一起时,对应的基态数会呈指数上升。N个量子比特纠缠的系统有2N种基态,系统状态可表示为基态的线性叠加。量子计算机储存信息的能力随比特数增加而呈指数级上升。正是利用量子比特叠加这一性质,使得量子计算在某些情况下可以远超经典计算。因此,量子神经网络模型在形式上与传统神经网络相似,但其计算能力理论上是随量子比特呈指数级增长的。
基于传统神经网络模型构建的大规模的自然语言处理模型的一层的参数大致在十亿到百亿量级,而量子计算机大致可以集成数十到数百个量子比特,量子神经网络模型达到与一层神经网络模型相同量级的参数量只需要30多个量子比特,对于一台拥有50个量子比特的计算机,其参数量约等于250=1.12×1015,可以轻松超过目前基于传统神经网络模型的构建的自然语言处理模型的参数量,因此很适合为大规模的自然语言处理模型提供更强大更充沛的算力,承担部分计算任务。而由于量子设备容易受外界环境影响,也即由于存在噪声干扰导致信息失真,另外,处于叠加态的量子比特会随时间推移与周围的物理环境产生纠缠,导致量子比特中储存的信息丢失,也即发生退相干现象,所以量子计算机所能忍受的线路深度大致在几十到几百层以内。而如今的人工智能模型一般要求神经网络具有足够的深度,所以这就导致基于量子神经网络并无法全盘替代传统神经网络模型来构建自然语言处理模型。鉴于此,本步骤通过目标神经网络模型和量子神经网络模型共同搭建自然语言处理模型,可将目标神经网络模型的一层或多层替换为量子神经网络模型,换言之,先基于任何一种传统神经网络模型搭建目标神经网络模型,然后将目标神经网络模型的一层或多层替换为量子神经网络模型,替换了量子神经网络模型的目标神经网络模型即为自然语言处理模型,如图4所示,自然语言处理模型具有m层,其中第k层采用量子神经网络模型,其它层仍使用传统的神经网络模型。自然语言处理模型为生成式的模型,用于根据用户的目标内容生成请求自动生成相应目标内容,其可根据输入的内容作为提示,通过理解自然语言,然后生成新的语言内容。自然语言任务包括但并不限制于文本分类、问答、对话等,其至少应包含语言处理能力,还可包括图像处理能力等。
由于量子神经网络模型叠加多层后会由于噪声而失效,所以本实施例可采用浅层量子神经网络模型来替代目标神经网络模型的一层或多层,不同算力资源的计算设备所支持的网络模型的层数不同,在本实施例,制备不同的量子态对量子线路深度的要求不同,可根据当前量子计算机可以承受的神经网络模型的层数以及要求计算复杂度不能过高,预先确定预设层数阈值,预设层数阈值例如可为30,可将线路深度在大约30层以内的称为浅层量子线路,相应的,将量子神经网络模型的层数小于预设层数阈值认为是浅层量子神经网络模型。这样通过浅层的量子神经网络模型替代经典神经网络也即目标神经网络模型的某些层,这样构建的自然语言处理模型的噪声在忍受范围内,可以实现单层模型参数的显著增加,足以为经典神经网络模型提供巨大的算力,有利于进一步提升自然语言处理模型的尺寸。在实际应用过程中,可通过指定量子比特数目控制自然语言处理模型的放大程度。
S102:将自然语言样本数据集的自然语言样本输入至自然语言处理模型。
其中,自然语言样本数据集为用于训练自然语言处理模型的样本数据集,其所包含的自然语言样本数量可根据实际需求来确定,本发明对此不作任何限定。另外,每一个自然语言样本携带提示信息也即为用户的内容生成请求及其对应所生成内容作为标签。
S103:基于量子数据库,将量子神经网络模型的上一层输出的自然语言特征提取信息转换量子态化的自然语言数据,并将量子态化的自然语言数据输入至量子神经网络模型。
由于目标神经网络模型属于经典计算,量子神经网络模型属于量子计算,经典计算和量子计算的模式存在较大差异,执行硬件、原理均不同,因此不能直接进行结合。量子计算由于其物理特性,要求计算需要满足酉变换,所以需要采用一些映射方法将经典数据转换成量子可以处理的量子态。本步骤结合量子向量数据库将经典神经网络输出量子态化以完成映射过程。量子向量数据库包括多个浅层量子线路,也即可通过浅层量子神经网络构建量子向量数据库。首先将待替换的层前后的输入和输出量子态化,随后可通过诸如二叉树、近似最邻近算法等方法通过查询量子向量数据库等方式,将量子态化后的向量与量子向量数据库进行搜索,筛选出相似度高的向量,获取量子线路,实现为量子态化的自然语言数据在量子向量数据库中的搜索,实现高效的量子态制备,减少了量子计算线路深度,缓解了噪声干扰,实现目标神经网络模型和量子神经网络模型的可对接性。
S104:将量子神经网络模型输出的测量结果转换为满足预设后处理格式的自然语言特征数据。
在上个步骤将量子线路输入至量子神经网络模型之后,对此量子态执行量子神经网络操作,最后进行测量,并将测量结果作为输出自然语言特征,根据后续处理需要可将量子神经网络模型输出的自然语言特征进行相应的转换,预设后处理格式即为不同后续处理所对应的数据处理方式。在对量子神经网络模型进行量子态计算以及测量时,可根据实际需要灵活选择待测的量子比特和测量方法,这均不影响本发明的实现。
S105:根据自然语言处理模型输出的预测目标内容和自然语言样本对应的真实目标内容之间的内容偏差,对自然语言处理模型的模型参数进行调整,直至达到模型训练终止条件。
其中,预测目标内容为利用自然语言处理模型预测得到的内容,也即预测值,也即将自然语言样本对应的用户的内容生成请求输入至自然语言处理模型,通过自然语言处理模型对该内容生成请求进行处理,最终输出的内容作为预测目标内容。真实目标内容为自然语言样本对应的用户的内容生成请求的所生成的目标内容,也即真值。自然语言处理模型中的目标神经网络模型和量子神经网络模型均是计算损失函数,也即预测目标内容和真实目标内容之间的内容偏差,并求得梯度,通过反向传播利用梯度信息修改模型的参数,实现网络模型的训练过程。所以自然语言处理模型是通过不断缩小真值和预测值之间的差距,通过反向传播等方法更新模型参数从而实现对自然语言处理模型的训练,直至达到模型训练终止条件。模型训练终止条件可为预设迭代次数,也可为模型精度,通过执行S102-S105完成对自然语言处理模型的一次训练,然后基于调整后的模型参数,再次从S102的自然语言样本数据集中取一批自然语言样本,通过执行S102-S105再次对当前的自然语言处理模型的模型参数进行调整直至达到模型训练终止条件。以模型训练终止条件为预设迭代次数为例,将当前迭代次数达到预设次数时所得到的模型参数作为训练好的模型参数,也即此时的自然语言处理模型即为训练好的自然语言处理模型。
在本实施例提供的技术方案中,利用浅层的量子神经网络替代经典神经网络模型的某一层或某几层,浅层量子神经网络一方面噪声在忍受范围内,对量子神经网络模型的性能影响不大,另一方面通过量子神经网络实现单层模型参数的显著增加,足以为经典神经网络提供巨大的算力,为整个自然语言处理模型提供指数增长的算力,进一步提升整个自然语言处理模型的规模尺寸;此外,通过从量子向量数据库中选择量子线路实现高效的量子态制备,减少了量子计算线路深度,缓解了噪声干扰,而且由于自然语言处理模型本身具有强泛化特性,处理两个相近的输入自然语言特征向量也会得到相近的输出,因此这种近似量子态制备方法尤其适合于自然语言处理模型,生成式的于自然语言处理模型的生成结果本身也具有随机性,因而也可以承受量子噪声和向量数据库造成的误差,不会对自然语言处理模型的生成精度造成影响,从而在有限算力资源的情况下,能够利用大规模语言模型高效且快速地处理自然语言生成任务。
在上述实施例中,对于如何制备量子态化的自然语言数据的数据并不做任何限定,本实施例还提供了基于量子向量数据库将量子神经网络模型的上一层输出的自然语言特征提取信息转换量子态化的自然语言数据的一种示例性的实施方式,可包括下述内容:
对自然语言处理模型的各量子神经网络模型,获取当前量子神经网络模型的上一层输出的自然语言特征提取信息;调用量子向量数据库,并从量子向量数据库中选择出与自然语言特征提取信息满足预设相似条件的量子线路;利用量子计算机执行量子线路,以制备得到量子态化的自然语言数据。将量子神经网络模型输出的测量结果转换为满足预设后处理格式的自然语言特征数据。
其中,如将目标神经网络模型的第k层使用量子神经网络模型替换,则当前量子神经网络模型的上一层即为目标神经网络模型的第k-1层,也即将第k-1层的输出进行量子态化,对于目标神经网络模型来说,其每一层的输入是以向量形式,相应的自然语言特征提取信息的数学表示形式为向量,举例来说,自然语言特征提取信息可表示V0=[1.0,3.6,1.5,0.9],量子态化就是要将它变换成满足量子态要求的向量,量子态化可通过归一化实现,也即可以通过直接将各元素除以它们的和实现归一化,变换后的向量V'=[1.0/(1.0+3.6+1.5+0.9),3.6/(1.0+3.6+1.5+0.9),1.5/(1.0+3.6+1.5+0.9),0.9/(1.0+3.6+1.5+0.9)]=[0.378,0.514,0.214,0.129],为满足量子态化,还应将各元素开根号,最终满足量子态化的自然语言数据可表示为Vq=[0.615,0.717,0.463,0.359]。当然,所属领域技术人员可使用其他方法实现归一化处理,也可使用其他方法实现量子态化,这均不影响本发明的实现。
在本实施例中,有些量子态可以高效地制备,但任意量子态的制备是指数复杂的。因此本实施例可采用利用另一浅层量子线路近似此量子态的方法来制备,可预先将多种浅层量子线路存入量子向量数据库,示例性的,可先获取量子态的信息,将获取的量子态的信息转化为量子线路,在下一次给定量子态的自然语言数据后,可直接从量子向量数据库中调取最接近的量子态的线路,并在量子计算机上执行,实现量子态的近似制备。由于自然语言处理模型本身具有强泛化特性,处理两个相近的输入向量也会得到相近的输出,因此这种近似量子态制备方法尤其适合面向的多模态的自然语言处理模型,此外,生成式模型的生成结果本身也具有随机性,因而也可以承受量子噪声和向量数据库造成的误差。
对于自然语言处理模型来说,如图5所示,虚线框中为在量子计算机中执行的过程,也即量子计算机执行量子线路,完成量子态制备,然后利用量子计算机运行量子神经网络模型,并对量子态化的自然语言数据进行测量,得到测量结果。为了实现模型参数规模提升和自然语言处理模型的性能的提升,量子神经网络模型使用的量子比特n1应不小于制备量子态所需的量子比特n0,当n1大于n0时,量子神经网络具备更强大的表达能力,本实施例可利用大于等于制备量子态化的自然语言数据所需的量子比特数的多个量子比特,对量子态化的自然语言数据进行测量。其他部分为在经典计算机中执行的过程。基于此,当完成对量子态的自然语言数据制备后,便可将此量子态直接接入量子神经网络模型也即目标神经网络模型的第k层进行计算,完成量子计算后,通过测量读取量子态信息,并将此信息转化为后续经典计算机易于处理的向量,也即自然语言特征数据。对测量结果进行后处理,后处理出的结果即可为作为量子神经网络模型的下一层的输入也即目标神经网络模型的第k+1层的输入,还可直接作为输出结果。根据上述后续数据处理方式,可将量子神经网络模型输出的测量结果转换为满足目标神经网络模型的输入格式的自然语言特征数据,并将自然语言特征数据输入至量子神经网络模型的下一层。还可将量子神经网络模型输出的测量结果,转换为满足自然语言处理模型部署设备的数据处理格式的自然语言特征数据,并将自然语言特征数据作为自然语言处理模型在当前迭代下的预测目标内容。举例来说,测量的结果对应|0>和|1>两种可能。假设有两个量子比特,测量10000次后,测到|0>|0>态1000次,测到|0>|1>态6500次,|1>|0>态500次,|0>|0>态2000次,则可将此测量结果转化为向量Vo=[0.1,0.65,0.05,0.2],将Vo作为输入向量可直接传给目标神经网络模型的第k+1,也直接将Vo作为处理结果参与后续的损失函数计算。
示例性的,本实施例根据量子神经网络模型所在层的上一层的输出与量子向量数据库进行搜索,从而筛选出相似度高的向量,依次来获取量子线路。预设相似条件即为表明当前用户认为相似度最高的一种衡量标准。其中,可通过调用目标引擎,利用目标近似搜索方法从量子向量数据库中选择出与自然语言特征提取信息的相似度大于预设相似阈值的量子线路。预设相似阈值可根据实际需求和预设相似条件来灵活选择,本发明对此不作任何限定。例如可使用Faiss(其为一种高效的向量索引和查询引擎产品)、milvus(其为一种搜索引擎产品)等常用引擎进行向量检索,可根据量子神经网络模型所在层的上一层的输出的向量特性选择适当的近似搜索算法来进行检索。基于量子态特性,可基于内积的距离搜索算法来筛选所需求的量子线路,示例性的,分别计算自然语言特征提取信息与量子向量数据库中各量子线路之间的内积,内积越大,则证明二者越相似,所以可选择内积最大的量子线路作为满足预设相似条件的量子线路。
由上可知,本实施例通过将目标神经网络模型的待替换的层前后的输入、输出向量量子态化,并通过查询量子向量数据库的方式高效实现传统神经网络模型和量子神经网络模型的衔接,有利于提升自然语言处理模型的模型性能。
上述实施例对如何搭建自然语言处理模型并不做任何限定,本实施例还提供了一种更为简单且易于衔接的自然语言处理模型的构建,可包括下述内容:获取目标神经网络模型的模型架构参数;根据模型架构参数确定目标神经网络模型的线性层和多层感知层;将线性层和/或多层感知层替换为量子神经网络模型;将替换之后的目标神经网络模型作为自然语言处理模型。
为了提高自然语言处理模型的训练效率,基于上述实施例,本发明可以将原本完成训练的经典模型的大部分参数保持不变,只将其中的某些层用量子神经网络替代,然后对自然语言处理模型进行微调即可,可包括下述内容:
判断目标神经网络模型是否为已完成预训练的神经网络模型;若目标神经网络模型已完成预训练,则利用自然语言样本数据集对自然语言处理模型进行微调处理;若目标神经网络模型未完成预训练,则执行将自然语言样本数据集的自然语言样本输入至自然语言处理模型的步骤。
在本实施中,预训练的神经网络模型可为任何一种在大规模数据集上进行训练、且具有很强的泛化能力的模型。预训练的神经网络模型训练的神经网络算法结构包括但并不限制于CNN(Convolutional Neural Network,卷积神经网络)、RNN(Recurrent NeuralNetwork,循环神经网络)、LSTM(Long Short-Term Memory,长短期记忆网络),Clip(Contrastive Language-Image Pre-training,图文对比预训练模型),当然也可以是基于Transformer(变换神经网络)结构所构建的模型,如LLM(Large Language Model,大语言模型)、BERT(Bidirectional Encoder Representation from Transformers,双向编码器表征量)、GPT(Generative Pre-trained Transformer,生成式预训练模型),本发明在此不作限定。其中,注意力网络是指一种利用注意力机制来进行训练的网络模型,该模型通过对输入序列的每个部分赋予不同的权重,从而在输入序列中提取出更加重要的特征信息,使得模型最终得到更加精确的输出。为了提高自然语言处理模型的训练效率,可采用任意一种的预训练语言大模型,如ChatGPT、LLaMa((Large Language Model Meta ArtificialIntelligence,大型基础语言模型),其训练过程可利用大量自然语言数据采用任何一种相关技术中记载的相应模型的训练方式,这均不影响本发明的实现。自然语言任务模型将目标内容生成请求作为提示信息,依据用户提示生成要求格式的内容。
对于预训练语言模型的训练包含两个阶段,即预训练阶段和微调阶段。在预训练阶段,一般是基于大规模语料库,针对特定语言模型训练任务,训练大规模神经网络算法结构来学习实现,最终得到的大规模神经网络算法结构及参数就是预训练语言模型。在微调阶段,针对特定的任务目标(下游任务)和任务数据(下游数据)进行小规模训练,实现对预训练模型参数的微小调整,最终得到适配特定任务和数据的模型。在本实施例中,任务目标为目标内容自动生成任务,任务数据即为自然语言样本数据集,自然语言样本数据集包括多组自然语言样本,每个自然语言样本为用户的目标内容生成请求与对应所生成的目标内容。利用目标内容自动生成任务这个当前下游应用任务的数据集也即自然语言样本数据集,对如上任意一种预训练的网络模型进行微调,便可使预训练的网络模型适用于下游应用任务,也即本步骤的目标内容自动生成任务。
示例性的,本实施例还提供了利用自然语言样本数据集对自然语言处理模型进行微调处理的一种实现方式,可包括下述内容:
对自然语言处理模型中的至少一个量子神经网络模型,为当前量子神经网络模型所在层的上一层和下一层之间设置激活函数层;将当前量子神经网络模型所在层的自然语言特征输入数据和自然语言特征输出数据进行量子态化处理,得到量子态预测内容和量子态真实内容;调用激活函数层的激活函数,根据量子态预测内容和量子态真实内容对自然语言处理模型进行微调处理。
在本实施例中,量子态预测内容是指当前量子神经网络模型所在层的输出进行量子态化处理后的结果,量子态真实内容是指当前量子神经网络模型所在层的上一层的输出也即当前量子神经网络模型的输入进行量子态化处理后的结果。进一步的,为了提高最终自然语言处理模型的性能,若经过微调后的自然语言处理模型的性能并不能满足现实精度需求,如预测精度低于预设精度阈值,模型的性能评估分数低于预设分数阈值,还可对微调后的自然语言处理模型进一步进行处理,可包括下述内容:
若微调后的自然语言处理模型的预测精度不符合预设模型精度条件,则对自然语言处理模型中的至少一个量子神经网络模型,为当前量子神经网络模型所在层的上一层和下一层之间设置包含多类激活函数的激活函数层;激活函数层内置第一激活函数、第二激活函数和第三激活函数;采用渐进式激活函数的方式,对自然语言处理模型逐步进行微调处理,直至自然语言处理模型的预测精度符合预设模型精度条件。
其中,第一激活函数、第二激活函数和第三激活函数可为不同类型的激活函数,包括但并不限制于tanh(hyperbolic tangent function,双曲正切函数)激活函数、Sigmoid函数和Softmax函数(其为一种用于将一组任意实数转换为表示概率分布的实数)。采用渐进式激活函数的方式对自然语言处理模型逐步进行微调处理的过程,可包括下述内容:
获取当前量子神经网络模型所在层的第一次自然语言特征输入数据和第一次自然语言特征输出数据;调用激活函数层的第一激活函数,根据第一次自然语言特征输入数据和第一次自然语言特征输出数据对自然语言处理模型进行一次微调处理;获取经过一次微调后的当前量子神经网络模型所在层的第二次自然语言特征输入数据和第二次自然语言特征输出数据;调用激活函数层的第二激活函数,根据第二次自然语言特征输入数据和第二次自然语言特征输出数据再次对自然语言处理模型进行微调处理;获取经过两次微调后的当前量子神经网络模型所在层的第三次自然语言特征输入数据和第三次自然语言特征输出数据;调用激活函数层的第三激活函数,根据第三次自然语言特征输入数据和第三次自然语言特征输出数据再次对自然语言处理模型进行微调处理;将第三次自然语言特征输入数据和第三次自然语言特征输出数据行量子态化处理,得到量子态调整预测内容和量子态调整真实内容;调用激活函数层,根据量子态调整预测内容和量子态调整真实内容对自然语言处理模型进行微调处理。
当通过上述任意一实施例所记载的模型训练方法得到训练好的自然语言处理模型之后,还可将自然语言处理模型部署至计算资源有限的设备上,如边缘设备上,边缘设备便可执行自然语言处理任务,请参阅图6,可包括下述内容:
S601:预先训练得到自然语言处理模型。
S602:接收用户输入的目标内容生成请求。
S603:将目标内容生成请求作为提示信息,输入至自然语言处理模型。
S604:根据自然语言处理模型的输出结果,自动生成目标内容。
其中,目标内容生成请求为用户下发且用于请求生成所需内容也即目标内容的指令,所需目标内容可为任何一种形式的内容,包括但并不限制于文本、图像、语音及视频,目标内容生成请求至少包括所需生成的目标内容的信息,如生成数字人、生成三维服务器模型、生成服务器预警提示音。目标内容生成请求可为文本形式,也可为音频格式,还可为视频格式,还可为图像格式,这均不影响本发明的实现。
进一步,为了提高自然语言处理模型的实用性,本实施例的自然语言处理模型为多模态自然语言处理模型,相应的,多模态自然语言处理模型当接收到目标内容生成请求,根据自然语言任务模型对应要求的输入格式对目标内容生成请求进行相应的解析和格式转换,可包括下述内容:
通过解析目标内容生成请求,获取待处理数据;
若待处理数据为多模态数据,则基于每一个模态类型对应的预设数据处理方式,对待处理数据所包含的各模态数据进行单独处理,得到多组单模态标准数据,并将各组单模态标准数据并列输入至自然语言处理模型;
若待处理数据为单模态数据,则按照相应模态类型对应的预设数据处理方式对待处理数据进行处理,并将处理结果输入至自然语言处理模型。
在本实施例中,自然语言处理模型接收到目标内容生成请求,从目标内容生成请求中提取需要进行处理的数据也即本实施例的待处理数据,将待处理数据进行特征提取前,需要根据数据类型进行数据预处理。本实施例可预先针对不同模态的数据给出相应的处理方式。当待处理数据为多模态数据,例如待处理数据中既包括文本数据又包括声音数据还包括图像数据,可以将多模态数据分解为多个单模态数据,对每个单模态数据利用预先设置对数据处理方式进行处理。例如,将待处理数据分解为文本数据、声音数据和图像数据这三种单模态数据,对文本数据、声音数据和图像数据分别使用相应的数据处理方式进行处理,然后将各单模态数据的最终预处理结果并列输入至自然语言处理模型。而对于单模态数据,可直接根据数据类型按照相应模态类型对应的预设数据处理方式。
示例性的,本实施例还给出文本数据的一种处理方式,可包括下述内容:目标内容生成请求为文本处理请求,待处理数据为待处理文本信息,则在待处理文本信息的句首、句尾分别添加词标识,并将待处理文本信息的每个词转换为词嵌入、片段嵌入和位置嵌入的联合向量,得到标准文本输入信息,最后将标准文本输入信息输入至自然语言处理模型。举例来说,文本输入可使用Bert(Bidirectional Encoder Representation fromTransformers,基于交换网络的双向编码器表示)模型的进行预处理操作,即在句首句尾分别添加[CLS](classification,分类标识符)、[SEP](separator,分隔符)两个token(标识符),然后将每个词转换为Token embedding(词嵌入)、segment embedding(片段嵌入)以及position embedding(位置嵌入)的联合向量表达。
示例性的,本实施例还给出图像数据的一种处理方式,可包括下述内容:目标内容生成请求为图像处理请求,待处理数据为待处理图像,则对待处理图像进行像素归一化处理,得到标准图像;基于标准图像的像素参数、图像裁剪参数和嵌入参数,对标准图像进行相应处理,得到多个目标子图块;将各目标子图块,按照预设顺序输入至特征提取网络。其中,标准图像为对待处理图像进行像素归一化后所得到的图像,像素归一化是指将待处理图像的长宽的像素均统一为同一个像素值,如将待处理图像转换为横竖皆为180像素的标准图像。像素参数是指待处理图像的像素值,图像裁剪参数包括裁剪出来的图像块的总数或者是每个图像块的尺寸,嵌入参数是指进行图嵌入时所使用的参数。预设顺序可根据实际应用场景进行灵活设置,例如从左到右,从上到下的顺序。例如,可基于标准图像的像素参数和图像裁剪参数,将标准图像裁剪为多个子图块;根据嵌入参数,对每一个子图块进行图嵌入处理,以将其转换为目标子图块。举例来说,标准图像的长宽皆为180像素,可将其裁剪为36块边长为30像素的小方块,随后每个方块转换成为一个900维度的图片嵌入,每个维度代表图片中的一个像素点。之后将36个小图的嵌入按照从左到右、从上到下的顺序输入至自然语言处理模型。
示例性的,本实施例还给出音频信号数据的一种处理方式,可包括下述内容:目标内容生成请求为音频信号处理请求,待处理数据为待处理声信号,则按照声音裁剪参数,将待处理声信号裁剪为多个声音片段;提取各声音片段的声学特征,并将所有声学特征输入至特征提取网络。其中,声音裁剪参数是指用于裁剪音频信号的参数,例如以一秒为窗口裁剪为多个声音片段,声学特征可采用任何一种相关技术进行提取,如可通过计算每个声音片段的MFCC(Mel-scale Frequency Cepstral Coefficients,梅尔频谱倒谱系数)得到声学特征,这均不影响本实施例的实现。示例性的,本实施例还给出视频信号数据的一种处理方式,可包括下述内容:目标内容生成请求为视频信号处理请求,待处理数据为待处理视频,则当按照视频裁剪参数对待处理视频进行裁剪,得到图像序列;将图像序列输入至特征提取网络。其中,视频裁剪参数是指用于裁剪视频数据的参数,如可以一秒为窗口截取图片,得到一图片队列,然后将其输入至自然语言处理模型。
由上可知,本实施例支持不同模型的输入,可提升自然语言处理模型的实用性;此外,多模态的自然语言模型本身具有强泛化特性,处理两个相近的输入向量也会得到相近的输出,还能够进一步提升自然语言处理模型的性能。
需要说明的是,本发明中各步骤之间没有严格的先后执行顺序,只要符合逻辑上的顺序,则这些步骤可以同时执行,也可按照某种预设顺序执行,图1和图6只是一种示意方式,并不代表只能是这样的执行顺序。
最后,基于上述本发明的技术方案,下面结合图7对本发明的技术方案涉及的一些可能的应用场景进行举例介绍,图7为本发明提供的一种目标内容自动生成方法所适用的硬件组成框架示意图,可包括下述内容:
该硬件组成框架可以包括第一电子设备71和第二电子设备72,第一电子设备71和第二电子设备72之间通过网络73连接。第一电子设备71可预先训练好自然语言处理模型,并部署用于执行上述任意一实施例所记载的目标内容自动生成方法的处理器,第二电子设备72部署用于提供人机交互界面的用户端。第一电子设备71可通过执行预先存储的计算机程序完成上述实施例所记载的目标内容自动生成中的全部或部分步骤。如图8所示,第一电子设备71对自然语言处理模型的训练过程可包括:
S1:初始化自然语言处理模型。
获取目标神经网络模型的模型架构参数,根据模型架构参数确定第k层为多层感知机层,确定量子神经网络模型将要替换目标神经网络模型的第k层。判断目标神经网络模型是否为已完成预训练的网络神经模型,若是,则为微调过程,直接执行S2,否则,则属于预训练过程,跳转执行S4。
S2:将自然语言处理模型的第k层的输入和输出进行量子态化,并进行模型微调。
若自然语言处理模型完成预训练,则只需微调:将自然语言处理模型的第k层前后的输入、输出新增激活函数,将第k层的输入向量和输出向量进行量子态化,并在MTP(massive text pairs,大规模文本对,数据集名称)、VQA2.0(数据集名称)、MMDialog(数据集名称)等常用数据集上微调自然语言处理模型。
S3:若微调效果不佳,采用渐进式激活函数,逐步微调。
其中,在自然语言处理模型第k层的输入和输出之间加入tanh激活函数、Sigmoid函数和Softmax函数,依次对输入输出向量采用tanh激活,微调,再采用Sigmoid函数激活,再微调,再采用Softmax函数激活,再微调,最后量子态化,再微调。
S4:获取自然语言处理模型的k-1层的输出向量。
S5:调用量子向量数据库,检索与S4的输出向量最相近的目标向量,以作为量子线路。
S6:在量子计算机上执行量子线路,完成量子态制备。
S7:将量子态接入量子神经网络模型,执行量子计算过程。
S8:对量子态进行测量,获取测量结果。
S9:对测量结果进行后处理。
将处理后的向量Vo作为输出结果或将Vo作为输入向量传给第k+1层。
其中,自然语言处理模型的第k+1层通常可为注意力层。
S10:通过反向传播等方法更新自然语言处理模型的模型参数。
S11:重复S4-S10,直至完成自然语言处理模型的训练。
其中,模型终止条件可以是损失函数不再下降,也可以是完成指定数据量的训练。
当按照上述S1-S11完成对自然语言处理模型的训练之后,第一电子设备71将训练好的自然语言处理模型进行部署。根据用户输入的文本、图像等内容作为目标内容生成请求,通过对目标内容生成请求所携带的文本或图像转化为向量,将该向量输入自然语言处理模型中,也即先传输至目标神经网络模型,获得输出向量Vi;在量子向量数据库检索与输出向量Vi最接近的数据,输出量子制备线路;在量子计算机上执行量子制备线路、运行量子神经网络并测量;对测量结果进行后处理,将处理后的向量Vo作为输入向量传给多模态模型的第k+1层经典神经网络,并执行经典计算;获得针对输入内容Ci的问答对话生成输出Co。
基于上述本申请的技术方案,本发明实施例的应用场景之一,可以通过第二电子设备72与用户之间的交互来实现,在这一应用场景中,用户可通过第二电子设备72向第一电子设备71发送命令、请求和指令,如目标内容生成请求,还可通过第二电子设备72向第一电子设备71发送数据,如训练好的自然语言处理模型等,用户还可发送信息访问请求,其中,访问信息可以是通过第二电子设备72与第一电子设备71之间进行交互来进行访问第一电子设备71上的信息,或者,是用于直接访问第二电子设备72自身的信息,本实施例对此不做限定。
需要注意的是,上述应用场景仅是为了便于理解本发明的思想和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
由上可知,本实施例能够高效、高精度且低成本自动生成目标内容。
本发明还针对用于生成目标内容的自然语言处理模型训练方法及目标内容生成方法提供了相应的装置,进一步使得方法更具有实用性。其中,装置可从功能模块的角度和硬件的角度分别说明。下面对本发明提供的用于生成目标内容的自然语言处理模型训练方法装置和目标内容生成装置进行介绍,该装置用以实现本发明提供的用于生成目标内容的自然语言处理模型训练方法机目标内容生成方法,在本实施例中,用于生成目标内容的自然语言处理模型训练装置和目标内容生成装置可以包括或被分割成一个或多个程序模块,该一个或多个程序模块被存储在存储介质中,并由一个或多个处理器所执行,已完成实施例一公开的用于生成目标内容的自然语言处理模型训练方法及目标内容生成方法。本实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述目标内容生成装置和用于生成目标内容的自然语言处理模型训练装置在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能,下文描述的用于生成目标内容的自然语言处理模型训练装置与上文描述的用于生成目标内容的自然语言处理模型训练方法可相互对应参照。下文描述的目标内容生成装置与上文描述的目标内容生成方法可相互对应参照。
基于功能模块的角度,参见图9,图9为本实施例提供的用于生成目标内容的自然语言处理模型训练装置在一种具体实施方式下的结构图,该装置可包括:
模型搭建模块901,用于基于目标神经网络模型和量子神经网络模型,通过将目标神经网络模型的至少一层替换为量子神经网络模型的方式,搭建用于根据用户的目标内容生成请求自动生成相应目标内容的自然语言处理模型。
量子态化处理模块902,用于将自然语言样本数据集的自然语言样本输入至自然语言处理模型;基于量子向量数据库,将量子神经网络模型的上一层输出的自然语言特征提取信息转换量子态化的自然语言数据,并将量子态化的自然语言数据输入至所述量子神经网络模型。
后处理模块903,用于将量子神经网络模型输出的测量结果转换为满足预设后处理格式的自然语言特征数据;
参数调整模块904,用于根据自然语言处理模型输出的预测目标内容和自然语言样本对应的真实目标内容之间的内容偏差,对自然语言处理模型的模型参数进行调整,直至达到模型训练终止条件。
示例性的,在本实施例的一些实施方式中,上述量子态化处理模块902还可用于:
对自然语言处理模型的各量子神经网络模型,获取当前量子神经网络模型的上一层输出的自然语言特征提取信息;
调用量子向量数据库,并从量子向量数据库中选择出与自然语言特征提取信息满足预设相似条件的量子线路;
利用量子计算机执行量子线路,以制备得到量子态化的自然语言数据。
作为上述实施例的一种示例性的实现方式,上述量子态化处理模块902还可进一步用于:
调用目标引擎,利用目标近似搜索方法从量子向量数据库中选择出与自然语言特征提取信息的相似度大于预设相似阈值的量子线路。作为上述实施例的一种示例性的实现方式,上述量子态化处理模块902还可进一步用于:
分别计算自然语言特征提取信息与量子向量数据库中各量子线路之间的内积,并选择内积最大的量子线路作为满足预设相似条件的量子线路。
示例性的,在本实施例的另一些实施方式中,上述后处理模块903还可用于:
将量子神经网络模型输出的测量结果转换为满足目标神经网络模型的输入格式的自然语言特征数据,并将自然语言特征数据输入至量子神经网络模型的下一层。
作为与上述实施例并列的另一种实施方式,上述后处理模块903还可用于:
将量子神经网络模型输出的测量结果,转换为满足自然语言处理模型部署设备的数据处理格式的自然语言特征数据,并将自然语言特征数据作为自然语言处理模型在当前迭代下的预测目标内容。
示例性的,在本实施例的另一些实施方式中,上述量子态化处理模块902还可用于:
利用量子计算机运行量子神经网络模型,并对量子态化的自然语言数据进行测量,得到测量结果。
作为上述实施例的一种示例性的实现方式,上述量子态化处理模块902还可进一步用于:
利用大于等于制备量子态化的自然语言数据所需的量子比特数的多个量子比特,对量子态化的自然语言数据进行测量。
示例性的,在本实施例的另一些实施方式中,上述模型搭建模块901还可用于:获取目标神经网络模型的模型架构参数;
根据模型架构参数确定目标神经网络模型的线性层和多层感知层;
将线性层和/或多层感知层替换为量子神经网络模型;
将替换之后的目标神经网络模型作为自然语言处理模型。
示例性的,在本实施例的另一些实施方式中,上述参数调整模块904还可用于:
判断目标神经网络模型是否为已完成预训练的神经网络模型;
若目标神经网络模型已完成预训练,则利用自然语言样本数据集对自然语言处理模型进行微调处理;
若目标神经网络模型未完成预训练,则执行将自然语言样本数据集的自然语言样本输入至自然语言处理模型的步骤。
作为上述实施例的一种示例性的实现方式,上述参数调整模块904还可进一步用于:
对自然语言处理模型中的至少一个量子神经网络模型,为当前量子神经网络模型所在层的上一层和下一层之间设置激活函数层;
将当前量子神经网络模型所在层的自然语言特征输入数据和自然语言特征输出数据进行量子态化处理,得到量子态预测内容和量子态真实内容;
调用激活函数层的激活函数,根据量子态预测内容和量子态真实内容对自然语言处理模型进行微调处理。
作为上述实施例的另一种示例性的实现方式,上述参数调整模块904还可进一步用于:
若微调后的自然语言处理模型的预测精度不符合预设模型精度条件,则对自然语言处理模型中的至少一个量子神经网络模型,为当前量子神经网络模型所在层的上一层和下一层之间设置包含多类激活函数的激活函数层;激活函数层内置第一激活函数、第二激活函数和第三激活函数;
采用渐进式激活函数的方式,对自然语言处理模型逐步进行微调处理,直至自然语言处理模型的预测精度符合预设模型精度条件。
作为上述实施例的一种示例性的实现方式,上述参数调整模块904还可进一步用于:
获取当前量子神经网络模型所在层的第一次自然语言特征输入数据和第一次自然语言特征输出数据;
调用激活函数层的第一激活函数,根据第一次自然语言特征输入数据和第一次自然语言特征输出数据对自然语言处理模型进行一次微调处理;
获取经过一次微调后的当前量子神经网络模型所在层的第二次自然语言特征输入数据和第二次自然语言特征输出数据;
调用激活函数层的第二激活函数,根据第二次自然语言特征输入数据和第二次自然语言特征输出数据再次对自然语言处理模型进行微调处理;
获取经过两次微调后的当前量子神经网络模型所在层的第三次自然语言特征输入数据和第三次自然语言特征输出数据;
调用激活函数层的第三激活函数,根据第三次自然语言特征输入数据和第三次自然语言特征输出数据再次对自然语言处理模型进行微调处理;
将第三次自然语言特征输入数据和第三次自然语言特征输出数据行量子态化处理,得到量子态调整预测内容和量子态调整真实内容;
调用激活函数层,根据量子态调整预测内容和量子态调整真实内容对自然语言处理模型进行微调处理。
基于功能模块的角度,参见图10,图10为本实施例提供的目标内容生成装置在一种具体实施方式下的结构图,该装置可包括:
模型训练模块101,用于预先训练得到自然语言处理模型;
请求接收模块102,用于接收用户输入的目标内容生成请求;
内容生成模块103,用于将目标内容生成请求作为提示信息,输入至自然语言处理模型;根据自然语言处理模型的输出结果,自动生成目标内容。
示例性的,在本实施例的一些实施方式中,上述请求接收模块102还可以用于:
通过解析目标内容生成请求,获取待处理数据;
若待处理数据为多模态数据,则基于每一个模态类型对应的预设数据处理方式,对待处理数据所包含的各模态数据进行单独处理,得到多组单模态标准数据,并将各组单模态标准数据并列输入至自然语言处理模型;
若待处理数据为单模态数据,则按照相应模态类型对应的预设数据处理方式对待处理数据进行处理,并将处理结果输入至自然语言处理模型。
作为上述实施例的一种示例性的实现方式,上述请求接收模块102还可进一步用于:
目标内容生成请求为文本处理请求,待处理数据为待处理文本信息;
在待处理文本信息的句首、句尾分别添加词标识,并将待处理文本信息的每个词转换为词嵌入、片段嵌入和位置嵌入的联合向量,得到标准文本输入信息;
将标准文本输入信息输入自然语言处理模型。
作为上述实施例的另一种示例性的实现方式,上述请求接收模块102还可进一步用于:
目标内容生成请求为图像处理请求,待处理数据为待处理图像;
对待处理图像进行像素归一化处理,得到标准图像;
基于标准图像的像素参数和图像裁剪参数,将标准图像裁剪为多个子图块;
根据嵌入参数,对每一个子图块进行图嵌入处理,以将其转换为目标子图块;
将各目标子图块,按照预设顺序输入至自然语言处理模型。
本实施例目标内容生成装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本实施例能够在有限算力资源的情况下,实现大规模自然语言模型的构建,进而能够处理复杂以及计算量大的自然语言生成任务。
上文中提到的用于生成目标内容的自然语言处理模型训练装置和目标内容生成装置是从功能模块的角度描述,进一步的,本发明还提供一种电子设备,是从硬件角度描述。图11为本发明实施例提供的电子设备在一种实施方式下的结构示意图。如图11所示,该电子设备包括存储器110,用于存储计算机程序;处理器111,用于执行计算机程序时实现如上述任一实施例提到的目标内容生成方法的步骤和/或如上述任一实施例提到的用于生成目标内容的自然语言处理模型训练方法的步骤。
其中,处理器111可以包括一个或多个处理核心,比如4核心处理器、8核心处理器,处理器111还可为控制器、微控制器、微处理器或其他数据处理芯片等。处理器111可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable GateArray,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器111也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器111可以集成有GPU(Graphics Processing Unit,图形处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器111还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器110可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器110还可包括高速随机存取存储器以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。存储器110在一些实施例中可以是电子设备的内部存储单元,例如服务器的硬盘。存储器110在另一些实施例中也可以是电子设备的外部存储设备,例如服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器110还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器110不仅可以用于存储安装于电子设备的应用软件及各类数据,例如:执行目标内容生成方法以及用于生成目标内容的自然语言处理模型训练方法过程中的程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。本实施例中,存储器110至少用于存储以下计算机程序1101,其中,该计算机程序被处理器111加载并执行之后,能够实现前述任一实施例公开的目标内容生成方法以及用于生成目标内容的自然语言处理模型训练方法的相关步骤。另外,存储器110所存储的资源还可以包括操作系统1102和数据1103等,存储方式可以是短暂存储或者永久存储。其中,操作系统1102可以包括Windows、Unix、Linux等。数据1103可以包括但不限于自然语言处理模型以及目标内容生成结果对应的数据等。
在一些实施例中,上述电子设备还可包括有显示屏112、输入输出接口113、通信接口114或者称为网络接口、电源115以及通信总线116。其中,显示屏112、输入输出接口113比如键盘(Keyboard)属于用户接口,示例性的用户接口还可以包括标准的有线接口、无线接口等。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。通信接口114示例性的可以包括有线接口和/或无线接口,如WI-FI接口、蓝牙接口等,通常用于在电子设备与其他电子设备之间建立通信连接。通信总线116可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本领域技术人员可以理解,图11中示出的结构并不构成对该电子设备的限定,可以包括比图示更多或更少的组件,例如还可包括实现各类功能的传感器117。
本实施例电子设备的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本实施例能够在有限算力资源的情况下,实现大规模自然语言模型的构建,进而能够处理复杂以及计算量大的自然语言生成任务。
可以理解的是,如果上述实施例中的目标内容生成方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、多媒体卡、卡型存储器(例如SD或DX存储器等)、磁性存储器、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明还提供了一种可读存储介质,存储有计算机程序,计算机程序被处理器执行时如上任意一实施例目标内容生成方法的步骤。
本发明还提供了一种目标内容生成系统,参见图12,包括第一计算机121和第二计算机122;第一计算机121可与第二计算机122通过网络或通过线缆相连。
第一计算机121,用于完成对自然语言处理模型的训练,并部署训练好的自然语言处理模型;当接收到用户的目标内容生成请求,调用自然语言处理模型自动生成相应目标内容;
第二计算机122为量子计算机,用于执行第一计算机发送的量子线路,以制备得到量子态化的自然语言数据,将量子态化的自然语言数据输入至量子神经网络,并对量子态化的自然语言数据进行测量,以得到测量结果,将测量结果发送至第一计算机121。
本发明实施例目标内容生成系统的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本实施例能够在有限算力资源的情况下,实现大规模自然语言模型的构建,进而能够处理复杂以及计算量大的自然语言生成任务。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的硬件包括装置及电子设备而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本发明所提供的一种用于生成目标内容的自然语言处理模型训练方法、目标内容生成方法、装置、系统、电子设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,基于本发明中的实施例,对于本技术领域的普通技术人员来说,在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明的保护范围内。
Claims (22)
1.一种用于生成目标内容的自然语言处理模型训练方法,其特征在于,包括:
基于目标神经网络模型和量子神经网络模型,通过将所述目标神经网络模型的至少一层替换为所述量子神经网络模型的方式,搭建用于根据用户的目标内容生成请求自动生成相应目标内容的自然语言处理模型;所述量子神经网络模型的层数小于预设层数阈值;
将自然语言样本数据集的自然语言样本输入至所述自然语言处理模型;
基于量子向量数据库,将所述量子神经网络模型的上一层输出的自然语言特征提取信息转换量子态化的自然语言数据,并将所述量子态化的自然语言数据输入至所述量子神经网络模型;
将所述量子神经网络模型输出的测量结果转换为满足预设后处理格式的自然语言特征数据;
根据所述自然语言处理模型输出的预测目标内容和所述自然语言样本对应的真实目标内容之间的内容偏差,对所述自然语言处理模型的模型参数进行调整,直至达到模型训练终止条件。
2.根据权利要求1所述的用于生成目标内容的自然语言处理模型训练方法,其特征在于,所述基于量子向量数据库,将所述量子神经网络模型的上一层输出的自然语言特征提取信息转换量子态化的自然语言数据,包括:
对所述自然语言处理模型的各量子神经网络模型,获取当前量子神经网络模型的上一层输出的自然语言特征提取信息;
调用量子向量数据库,并从所述量子向量数据库中选择出与所述自然语言特征提取信息满足预设相似条件的量子线路;
利用量子计算机执行所述量子线路,以制备得到量子态化的自然语言数据。
3.根据权利要求2所述的用于生成目标内容的自然语言处理模型训练方法,其特征在于,所述从所述量子向量数据库中选择出与所述自然语言特征提取信息满足预设相似条件的量子线路,包括:
调用目标引擎,利用目标近似搜索方法从所述量子向量数据库中选择出与所述自然语言特征提取信息的相似度大于预设相似阈值的量子线路。
4.根据权利要求3所述的用于生成目标内容的自然语言处理模型训练方法,其特征在于,所述利用目标近似搜索方法从所述量子向量数据库中选择出与所述自然语言特征提取信息的相似度大于预设相似阈值的量子线路,包括:
分别计算所述自然语言特征提取信息与所述量子向量数据库中各量子线路之间的内积,并选择内积最大的量子线路作为满足预设相似条件的量子线路。
5.根据权利要求1所述的用于生成目标内容的自然语言处理模型训练方法,其特征在于,所述将所述量子神经网络模型输出的测量结果转换为满足预设后处理格式的自然语言特征数据,包括:
将所述量子神经网络模型输出的测量结果转换为满足所述目标神经网络模型的输入格式的自然语言特征数据,并将所述自然语言特征数据输入至所述量子神经网络模型的下一层。
6.根据权利要求1所述的用于生成目标内容的自然语言处理模型训练方法,其特征在于,所述将所述量子神经网络模型输出的测量结果转换为满足预设后处理格式的自然语言特征数据,包括:
将所述量子神经网络模型输出的测量结果,转换为满足所述自然语言处理模型部署设备的数据处理格式的自然语言特征数据,并将所述自然语言特征数据作为所述自然语言处理模型在当前迭代下的预测目标内容。
7.根据权利要求1所述的用于生成目标内容的自然语言处理模型训练方法,其特征在于,所述将所述量子神经网络模型输出的测量结果转换为满足预设后处理格式的自然语言特征数据,包括:
利用量子计算机运行所述量子神经网络模型,并对所述量子态化的自然语言数据进行测量,得到测量结果。
8.根据权利要求7所述的用于生成目标内容的自然语言处理模型训练方法,其特征在于,所述对所述量子态化的自然语言数据进行测量,包括:
利用大于等于制备所述量子态化的自然语言数据所需的量子比特数的多个量子比特,对所述量子态化的自然语言数据进行测量。
9.根据权利要求1所述的用于生成目标内容的自然语言处理模型训练方法,其特征在于,所述基于目标神经网络模型和量子神经网络模型,通过将所述目标神经网络模型的至少一层替换为所述量子神经网络模型的方式,搭建用于根据用户的目标内容生成请求自动生成相应目标内容的自然语言处理模型,包括:
获取目标神经网络模型的模型架构参数;
根据所述模型架构参数确定所述目标神经网络模型的线性层和多层感知层;
将所述线性层和/或多层感知层替换为量子神经网络模型;
将替换之后的目标神经网络模型作为自然语言处理模型。
10.根据权利要求1至9任意一项所述的用于生成目标内容的自然语言处理模型训练方法,其特征在于,所述将自然语言样本数据集的自然语言样本输入至所述自然语言处理模型之前,还包括:
判断所述目标神经网络模型是否为已完成预训练的神经网络模型;
若所述目标神经网络模型已完成预训练,则利用所述自然语言样本数据集对所述自然语言处理模型进行微调处理;
若所述目标神经网络模型未完成预训练,则执行所述将自然语言样本数据集的自然语言样本输入至所述自然语言处理模型的步骤。
11.根据权利要求10所述的用于生成目标内容的自然语言处理模型训练方法,其特征在于,所述利用所述自然语言样本数据集对所述自然语言处理模型进行微调处理,包括:
对所述自然语言处理模型中的至少一个量子神经网络模型,为当前量子神经网络模型所在层的上一层和下一层之间设置激活函数层;
将所述当前量子神经网络模型所在层的自然语言特征输入数据和自然语言特征输出数据进行量子态化处理,得到量子态预测内容和量子态真实内容;
调用所述激活函数层的激活函数,根据所述量子态预测内容和所述量子态真实内容对所述自然语言处理模型进行微调处理。
12.根据权利要求10所述的用于生成目标内容的自然语言处理模型训练方法,其特征在于,所述若所述目标神经网络模型已完成预训练,则利用所述自然语言样本数据集对所述自然语言处理模型进行微调处理,包括:
若微调后的自然语言处理模型的预测精度不符合预设模型精度条件,则对所述自然语言处理模型中的至少一个量子神经网络模型,为当前量子神经网络模型所在层的上一层和下一层之间设置包含多类激活函数的激活函数层;所述激活函数层内置第一激活函数、第二激活函数和第三激活函数;
采用渐进式激活函数的方式,对所述自然语言处理模型逐步进行微调处理,直至所述自然语言处理模型的预测精度符合预设模型精度条件。
13.根据权利要求12所述的用于生成目标内容的自然语言处理模型训练方法,其特征在于,所述采用渐进式激活函数的方式,对所述自然语言处理模型逐步进行微调处理,包括:
获取所述当前量子神经网络模型所在层的第一次自然语言特征输入数据和第一次自然语言特征输出数据;
调用所述激活函数层的第一激活函数,根据所述第一次自然语言特征输入数据和所述第一次自然语言特征输出数据对所述自然语言处理模型进行一次微调处理;
获取经过一次微调后的当前量子神经网络模型所在层的第二次自然语言特征输入数据和第二次自然语言特征输出数据;
调用所述激活函数层的第二激活函数,根据所述第二次自然语言特征输入数据和所述第二次自然语言特征输出数据再次对所述自然语言处理模型进行微调处理;
获取经过两次微调后的当前量子神经网络模型所在层的第三次自然语言特征输入数据和第三次自然语言特征输出数据;
调用所述激活函数层的第三激活函数,根据所述第三次自然语言特征输入数据和所述第三次自然语言特征输出数据再次对所述自然语言处理模型进行微调处理;
将所述第三次自然语言特征输入数据和所述第三次自然语言特征输出数据行量子态化处理,得到量子态调整预测内容和量子态调整真实内容;
调用所述激活函数层,根据所述量子态调整预测内容和所述量子态调整真实内容对所述自然语言处理模型进行微调处理。
14.一种目标内容生成方法,其特征在于,包括:
预先利用如权利要求1至13任意一项所述用于生成目标内容的自然语言处理模型训练方法,训练得到自然语言处理模型;
接收用户输入的目标内容生成请求;
将所述目标内容生成请求作为提示信息,输入至所述自然语言处理模型;
根据所述自然语言处理模型的输出结果,自动生成目标内容。
15.根据权利要求14所述的目标内容生成方法,其特征在于,所述将所述目标内容生成请求作为提示信息,包括:
通过解析所述目标内容生成请求,获取待处理数据;
若所述待处理数据为多模态数据,则基于每一个模态类型对应的预设数据处理方式,对所述待处理数据所包含的各模态数据进行单独处理,得到多组单模态标准数据,并将各组单模态标准数据并列输入至所述自然语言处理模型;
若所述待处理数据为单模态数据,则按照相应模态类型对应的预设数据处理方式对所述待处理数据进行处理,并将处理结果输入至所述自然语言处理模型。
16.根据权利要求15所述的目标内容生成方法,其特征在于,所述目标内容生成请求为文本处理请求,所述待处理数据为待处理文本信息;所述按照相应模态类型对应的预设数据处理方式对所述待处理数据进行处理,并将处理结果输入至所述自然语言处理模型,包括:
在所述待处理文本信息的句首、句尾分别添加词标识,并将所述待处理文本信息的每个词转换为词嵌入、片段嵌入和位置嵌入的联合向量,得到标准文本输入信息;
将所述标准文本输入信息输入所述自然语言处理模型。
17.根据权利要求15所述的目标内容生成方法,其特征在于,所述目标内容生成请求为图像处理请求,所述待处理数据为待处理图像;所述按照相应模态类型对应的预设数据处理方式对所述待处理数据进行处理,并将处理结果输入至所述自然语言处理模型,包括:
对所述待处理图像进行像素归一化处理,得到标准图像;
基于所述标准图像的像素参数和图像裁剪参数,将所述标准图像裁剪为多个子图块;
根据嵌入参数,对每一个子图块进行图嵌入处理,以将其转换为目标子图块;
将各目标子图块,按照预设顺序输入至所述自然语言处理模型。
18.一种用于生成目标内容的自然语言处理模型训练装置,其特征在于,包括:
模型搭建模块,用于基于目标神经网络模型和量子神经网络模型,通过将所述目标神经网络模型的至少一层替换为所述量子神经网络模型的方式,搭建用于根据用户的目标内容生成请求自动生成相应目标内容的自然语言处理模型;
量子态化处理模块,用于基于量子向量数据库,将自然语言样本数据集的自然语言样本输入至所述自然语言处理模型;将所述量子神经网络模型的上一层输出的自然语言特征提取信息转换量子态化的自然语言数据,并将所述量子态化的自然语言数据输入至所述量子神经网络模型;
后处理模块,用于将所述量子神经网络模型输出的测量结果转换为满足预设后处理格式的自然语言特征数据;
参数调整模块,用于根据所述自然语言处理模型输出的预测目标内容和所述自然语言样本对应的真实目标内容之间的内容偏差,对所述自然语言处理模型的模型参数进行调整,直至达到模型训练终止条件。
19.一种目标内容生成装置,其特征在于,包括:
模型训练模块,用于预先利用如权利要求1至13任意一项所述用于生成目标内容的自然语言处理模型训练方法,训练得到自然语言处理模型;
请求接收模块,用于接收用户输入的目标内容生成请求;
内容生成模块,用于将所述目标内容生成请求作为提示信息,输入至所述自然语言处理模型;根据所述自然语言处理模型的输出结果,自动生成目标内容。
20.一种电子设备,其特征在于,包括处理器和存储器,所述处理器用于执行所述存储器存储的计算机程序时实现如权利要求1至13任一项所述的用于生成目标内容的自然语言处理模型训练方法和/或如权利要求14至17任一项所述的目标内容生成方法的步骤。
21.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至13任一项所述的用于生成目标内容的自然语言处理模型训练方法和/或如权利要求14至17任一项所述的目标内容生成方法的步骤。
22.一种目标内容生成系统,其特征在于,包括第一计算机和第二计算机;所述第一计算机与所述第二计算机相连;
所述第一计算机,用于完成对自然语言处理模型的训练,并部署训练好的自然语言处理模型;当接收到用户的目标内容生成请求,调用所述自然语言处理模型自动生成相应目标内容;
所述第二计算机为量子计算机,用于执行所述第一计算机发送的量子线路,以制备得到量子态化的自然语言数据,将所述量子态化的自然语言数据输入至量子神经网络,并对所述量子态化的自然语言数据进行测量,以得到测量结果,将所述测量结果发送至所述第一计算机。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410096307.XA CN117634459A (zh) | 2024-01-24 | 2024-01-24 | 目标内容生成及模型训练方法、装置、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410096307.XA CN117634459A (zh) | 2024-01-24 | 2024-01-24 | 目标内容生成及模型训练方法、装置、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117634459A true CN117634459A (zh) | 2024-03-01 |
Family
ID=90021902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410096307.XA Pending CN117634459A (zh) | 2024-01-24 | 2024-01-24 | 目标内容生成及模型训练方法、装置、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117634459A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118114773A (zh) * | 2024-04-30 | 2024-05-31 | 山东海量信息技术研究院 | 文本生成方法、装置、设备及计算机程序产品 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961138A (zh) * | 2017-12-14 | 2019-07-02 | 北京中科寒武纪科技有限公司 | 神经网络训练方法及相关产品 |
CN113139575A (zh) * | 2021-03-18 | 2021-07-20 | 杭州电子科技大学 | 一种基于条件嵌入预训练语言模型的图像标题生成方法 |
CN115237760A (zh) * | 2022-07-08 | 2022-10-25 | 中国人民解放军战略支援部队信息工程大学 | 一种基于自然语言处理的JavaScript引擎定向模糊测试方法及系统 |
CN115374948A (zh) * | 2022-08-05 | 2022-11-22 | 北京百度网讯科技有限公司 | 量子神经网络的训练方法、数据处理方法、设备及介质 |
WO2023125857A1 (zh) * | 2021-12-30 | 2023-07-06 | 本源量子计算科技(合肥)股份有限公司 | 基于机器学习框架系统的模型训练方法及相关设备 |
CN116521918A (zh) * | 2023-05-08 | 2023-08-01 | 西南交通大学 | 一种快速搜索相似图的方法 |
WO2023173878A1 (zh) * | 2022-03-17 | 2023-09-21 | 苏州浪潮智能科技有限公司 | 一种量子神经网络训练方法和装置 |
CN116881428A (zh) * | 2023-09-06 | 2023-10-13 | 杭州华鲤智能科技有限公司 | 一种语言模型训练方法及装置 |
CN116992942A (zh) * | 2023-09-26 | 2023-11-03 | 苏州元脑智能科技有限公司 | 自然语言模型优化方法、装置、自然语言模型、设备和介质 |
CN117093496A (zh) * | 2023-09-07 | 2023-11-21 | 重庆大学 | 一种面向深度神经网络模糊测试的测试用例自动生成方法 |
CN117271780A (zh) * | 2023-11-20 | 2023-12-22 | 苏州大学 | 一种基于大语言模型自身对上下文进行压缩的方法及系统 |
CN117332823A (zh) * | 2023-11-28 | 2024-01-02 | 浪潮电子信息产业股份有限公司 | 目标内容自动生成方法、装置、电子设备及可读存储介质 |
-
2024
- 2024-01-24 CN CN202410096307.XA patent/CN117634459A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961138A (zh) * | 2017-12-14 | 2019-07-02 | 北京中科寒武纪科技有限公司 | 神经网络训练方法及相关产品 |
CN113139575A (zh) * | 2021-03-18 | 2021-07-20 | 杭州电子科技大学 | 一种基于条件嵌入预训练语言模型的图像标题生成方法 |
WO2023125857A1 (zh) * | 2021-12-30 | 2023-07-06 | 本源量子计算科技(合肥)股份有限公司 | 基于机器学习框架系统的模型训练方法及相关设备 |
WO2023173878A1 (zh) * | 2022-03-17 | 2023-09-21 | 苏州浪潮智能科技有限公司 | 一种量子神经网络训练方法和装置 |
CN115237760A (zh) * | 2022-07-08 | 2022-10-25 | 中国人民解放军战略支援部队信息工程大学 | 一种基于自然语言处理的JavaScript引擎定向模糊测试方法及系统 |
CN115374948A (zh) * | 2022-08-05 | 2022-11-22 | 北京百度网讯科技有限公司 | 量子神经网络的训练方法、数据处理方法、设备及介质 |
CN116521918A (zh) * | 2023-05-08 | 2023-08-01 | 西南交通大学 | 一种快速搜索相似图的方法 |
CN116881428A (zh) * | 2023-09-06 | 2023-10-13 | 杭州华鲤智能科技有限公司 | 一种语言模型训练方法及装置 |
CN117093496A (zh) * | 2023-09-07 | 2023-11-21 | 重庆大学 | 一种面向深度神经网络模糊测试的测试用例自动生成方法 |
CN116992942A (zh) * | 2023-09-26 | 2023-11-03 | 苏州元脑智能科技有限公司 | 自然语言模型优化方法、装置、自然语言模型、设备和介质 |
CN117271780A (zh) * | 2023-11-20 | 2023-12-22 | 苏州大学 | 一种基于大语言模型自身对上下文进行压缩的方法及系统 |
CN117332823A (zh) * | 2023-11-28 | 2024-01-02 | 浪潮电子信息产业股份有限公司 | 目标内容自动生成方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (3)
Title |
---|
张毅军等: "一种基于量子线路的支持向量机训练方案", 《物理学报》, 30 April 2023 (2023-04-30) * |
王毅;谢娟;成颖;: "结合LSTM和CNN混合架构的深度神经网络语言模型", 情报学报, no. 02, 24 February 2018 (2018-02-24) * |
陈佳临;王伶俐;: "量子并行神经网络", 计算机学报, no. 06, 19 September 2018 (2018-09-19) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118114773A (zh) * | 2024-04-30 | 2024-05-31 | 山东海量信息技术研究院 | 文本生成方法、装置、设备及计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
WO2020228376A1 (zh) | 文本处理方法、模型训练方法和装置 | |
CN111444340B (zh) | 文本分类方法、装置、设备及存储介质 | |
WO2020140487A1 (zh) | 用于智能设备的人机交互语音识别方法及系统 | |
CN111368993B (zh) | 一种数据处理方法及相关设备 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111241851A (zh) | 语义相似度确定方法、装置及处理设备 | |
CN112633010A (zh) | 基于多头注意力和图卷积网络的方面级情感分析方法及系统 | |
CN113239169B (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN108665506A (zh) | 图像处理方法、装置、计算机存储介质及服务器 | |
CN110795549B (zh) | 短文本对话方法、装置、设备及存储介质 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN112883149A (zh) | 一种自然语言处理方法以及装置 | |
KR20220130565A (ko) | 키워드 검출 방법 및 장치 | |
CN117634459A (zh) | 目标内容生成及模型训练方法、装置、系统、设备及介质 | |
WO2024098524A1 (zh) | 文本视频的互检索及模型训练方法、装置、设备及介质 | |
CN116564338B (zh) | 语音动画生成方法、装置、电子设备和介质 | |
CN114443899A (zh) | 视频分类方法、装置、设备及介质 | |
CN111767694A (zh) | 文本生成方法、装置和计算机可读存储介质 | |
DE102022131824A1 (de) | Visuelle Spracherkennung für Digitalvideos unter Einsatz generativ-adversativen Lernens | |
CN116541492A (zh) | 一种数据处理方法及相关设备 | |
CN115858756A (zh) | 基于感知情绪倾向的共情人机对话系统 | |
CN116994021A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN115424013A (zh) | 模型的训练方法、图像处理方法和设备、介质 | |
CN110991279A (zh) | 文档图像分析与识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |