CN116882450A - 问答模型的编辑方法、装置、电子设备和存储介质 - Google Patents
问答模型的编辑方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116882450A CN116882450A CN202311147845.9A CN202311147845A CN116882450A CN 116882450 A CN116882450 A CN 116882450A CN 202311147845 A CN202311147845 A CN 202311147845A CN 116882450 A CN116882450 A CN 116882450A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- model
- content
- edited
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 136
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 386
- 238000012545 processing Methods 0.000 claims abstract description 219
- 238000011156 evaluation Methods 0.000 claims abstract description 178
- 238000005457 optimization Methods 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 description 44
- 238000005516 engineering process Methods 0.000 description 22
- 238000012549 training Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 15
- 230000014509 gene expression Effects 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000012937 correction Methods 0.000 description 11
- 238000012550 audit Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000012552 review Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013441 quality evaluation Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 210000005261 ventrolateral medulla Anatomy 0.000 description 2
- 241000272194 Ciconiiformes Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了可以一种问答模型的编辑方法、装置、电子设备和存储介质,涉及大语言模型;本申请实施例可以对基础问答模型进行模型编辑处理,得到编辑后问答模型;通过编辑后问答模型,对评估指标下的测试数据中的每个测试问题内容的至少一个模态下的内容信息进行答案预测处理,确定测试问题内容对应的预测答案;针对每种评估指标的测试数据,基于测试数据中各测试问题内容对应的期望答案与预测答案,得到评估指标下的测试数据对应的识别准确率;基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标问答模型。本申请可以提高模型更新效率和输出答案的准确性。
Description
技术领域
本申请涉及计算机领域,具体涉及一种问答模型的编辑方法、装置、电子设备和存储介质。
背景技术
随着人机交互技术的发展和普及,越来越多的基于人机交互技术的智能产品应运而生,例如车载语音系统、智能音箱、智能客服、儿童陪伴机器人等产品等。这些智能产品均可以通过问答系统和用户进行聊天交流,并根据用户的问题生成相应的答案。其中,人机交互是指人与计算机之间使用某种对话语言,以一定的交互方式确定人与计算机之间的信息交换过程。
在目前的相关技术中,一般是将用户的问题输入问答模型,来生成获取相应的答案,问答模型的优化通常是对整个模型进行训练来实现的。具体地,当模型需要更新某个知识时,获取该知识下的训练样本以及其他需要保留的知识下的相关训练样本,基于这些训练样本对整个问答模型的参数进行更新,以使问答模型学习到新的知识。但是这种模型优化方法每一次训练迭代都需要对整个数据集进行处理和更新整个模型参数,会耗费大量计算资源,优化效率也较低,特别是在处理大规模数据集或者复杂模型时,训练时间会进一步增加,不利于提高模型更新效率。
发明内容
本申请实施例提供一种问答模型的编辑方法、装置、电子设备和存储介质,可以提升模型优化效率。
本申请实施例提供一种问答模型的编辑方法,包括:
获取待编辑的基础问答模型,并对基础问答模型进行模型编辑处理,得到编辑后问答模型,基础问答模型包括问题编码模块和答案解码模块;
获取针对编辑后问答模型的至少一个评估指标下的测试数据,测试数据包括至少一个测试问题内容和测试问题内容对应的期望答案,测试问题内容包括至少一个模态下的内容信息;
通过编辑后问答模型中的问题编码模块,对测试问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息;
通过编辑后问答模型中的答案解码模块,对问题编码信息进行答案预测处理,确定测试问题内容对应的预测答案;
针对每种评估指标的测试数据,基于测试数据中各测试问题内容对应的期望答案与预测答案,得到评估指标下的测试数据对应的识别准确率;
基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标问答模型,目标问答模型用于对目标问题内容进行答案预测处理,得到目标问题内容对应的答案。
本申请实施例还提供一种问答模型的编辑装置,包括:
编辑单元,用于获取待编辑的基础问答模型,并对基础问答模型进行模型编辑处理,得到编辑后问答模型,基础问答模型包括问题编码模块和答案解码模块;
获取单元,用于获取针对编辑后问答模型的至少一个评估指标下的测试数据,测试数据包括至少一个测试问题内容和测试问题内容对应的期望答案,测试问题内容包括至少一个模态下的内容信息;
编码单元,用于通过编辑后问答模型中的问题编码模块,对测试问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息;
解码单元,用于通过编辑后问答模型中的答案解码模块,对问题编码信息进行答案预测处理,确定测试问题内容对应的预测答案;
确定单元,用于针对每种评估指标的测试数据,基于测试数据中各测试问题内容对应的期望答案与预测答案,得到评估指标下的测试数据对应的识别准确率;
优化单元,用于基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标问答模型,目标问答模型用于对目标问题内容进行答案预测处理,得到目标问题内容对应的答案。
在一些实施例中,问题编码模块包括至少一个编码处理层,答案解码模块包括至少一个解码处理层;
编辑单元包括内容编辑子单元,包括:
内容编辑子单元,用于基于针对基础问答模型的待编辑的目标更新知识,对基础问答模型进行内容处理层的编辑处理,得到编辑后问答模型,内容处理层为编码处理层或解码处理层;
优化单元包括模型优化子单元,包括:
模型优化子单元,用于基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标更新知识对应的目标问答模型。
在一些实施例中,内容编辑子单元包括第一编辑子单元、第二编辑子单元和第三编辑子单元,包括:
第一编辑子单元,用于基于针对基础问答模型的待编辑的目标更新知识,从基础问答模型中选取至少一个内容处理层进行参数调整,得到编辑后问答模型;
或者,第二编辑子单元,用于基于针对基础问答模型的待编辑的目标更新知识,确定基础问答模型对应的待添加内容处理层,将待添加内容处理层添加到基础问答模型中;
或者,第三编辑子单元,用于基于针对基础问答模型的待编辑的目标更新知识,从基础问答模型中选取至少一个内容处理层进行删除,得到编辑后问答模型。
在一些实施例中,基础问答模型为具有初始知识的问答模型;
获取单元包括知识划分子单元和数据获取子单元,如下:
知识划分子单元,用于基于目标更新知识,确定初始知识中处于编辑范围之外的未更新知识;
数据获取子单元,用于根据目标更新知识下的问答数据和未更新知识下的问答数据,获取针对编辑后问答模型的至少一个评估指标下的测试数据。
在一些实施例中,至少一个评估指标包括可靠性指标、整体稳定性指标和泛化性指标;
数据获取子单元包括第一获取子单元,第二获取子单元和第三获取子单元,如下:
第一获取子单元,用于基于目标更新知识下的问答数据,确定可靠性指标下的测试数据;
第二获取子单元,用于基于未更新知识下的问答数据,生成整体稳定性指标下的测试数据;
第三获取子单元,用于基于目标更新知识下的问答数据中问题内容的语义信息,生成关联问题内容;根据关联问题内容和目标更新知识下的问答数据中问题内容对应的期望答案,生成泛化性指标下的测试数据。
在一些实施例中,至少一个评估指标下的评估指标还包括提示文本稳定性指标;提示文本稳定性指标下的测试数据包括至少一个测试文本提示信息;装置还包括第一处理单元、第二处理单元和模型测试单元,如下:
第一处理单元,用于通过基础问答模型对测试文本提示信息进行特征提取处理,得到基础问答模型输出对测试文本提示信息的第一处理结果;
第二处理单元,用于通过编辑后问答模型对测试文本提示信息进行特征提取处理,得到编辑后问答模型输出对测试文本提示信息的第二处理结果;
模型测试单元,用于根据各个测试文本提示信息对应的第一处理结果和第二处理结果,确定编辑后问答模型在提示文本稳定性指标下的测试数据对应的识别准确率。
在一些实施例中,目标更新知识下的问答数据中问题内容包括至少一个模态下的内容信息,至少一个模态下的内容信息包括图像内容信息和文本提示信息;关联问题内容包括关联图像内容信息和关联文本提示信息;
第三获取子单元包括关联图像生成子单元和关联文本生成子单元,如下:
关联图像生成子单元,用于基于图像内容信息的语义信息,生成至少一个关联图像内容信息,关联图像内容信息的语义与图像内容信息的语义关联;
关联文本生成子单元,用于基于文本提示信息的语义信息,生成至少一个关联文本提示信息,关联文本提示信息的语义与文本提示信息的语义关联。
在一些实施例中,第三获取子单元还包括内容配对子单元和数据构建子单元,如下:
内容配对子单元,用于将各个关联文本提示信息分别与图像内容信息进行配对处理,得到泛化性指标下的至少一个第一测试问题内容;将各个关联图像内容信息分别与文本提示信息进行配对处理,得到泛化性指标下的至少一个第二测试问题内容;
数据构建子单元,用于根据第一测试问题内容、第二测试问题内容和目标更新知识下的问答数据中问题内容对应的期望答案,生成泛化性指标的测试数据。
在一些实施例中,初始知识下的问答数据包括至少一个问题内容和问题内容对应的期望答案,问题内容包括至少一个模态下的内容信息,装置还包括基础编码单元和基础解码单元:
基础编码单元,用于通过基础问答模型中的问题编码模块,对问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息;
基础解码单元,用于通过基础问答模型中的答案解码模块,对问题编码信息进行答案预测处理,确定问题内容对应的预测答案,问题内容对应的预测答案与期望答案的匹配度满足预设匹配条件。
在一些实施例中,优化单元包括评估子单元和性能优化子单元,包括:
评估子单元,用于基于评估指标下的测试数据对应的识别准确率,确定编辑后问答模型在评估指标下的性能评估值;
性能优化子单元,用于基于编辑后问答模型在各个评估指标上的性能评估值,对编辑后问答模型进行优化处理,得到目标问答模型。
在一些实施例中,确定单元包括匹配计算子单元、匹配统计子单元和准确率计算子单元,包括:
匹配计算子单元,用于针对每种评估指标的测试数据,确定测试数据中各测试问题内容对应的期望答案与预测答案之间的匹配度;
匹配统计子单元,用于根据匹配度,确定满足预设匹配条件的测试数据的目标数量;
准确率计算子单元,用于根据目标数量和评估指标下的测试数据的数量,得到评估指标下的测试数据对应的识别准确率。
在一些实施例中,至少一个模态下的内容信息包括图像内容信息和文本提示信息;
编码单元包括图像编码子单元、文本提取子单元和特征融合子单元,包括:
图像编码子单元,用于采用编辑后问答模型中的问题编码模块,对图像内容信息进行编码处理,得到图像内容信息的图像编码特征;
文本提取子单元,用于对文本提示信息进行特征提取,得到文本提示信息的文本查询特征;
特征融合子单元,用于将图像编码特征和文本查询特征进行融合,得到问题编码信息。
本申请实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行本申请实施例所提供的任一种问答模型的编辑方法中的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种问答模型的编辑方法中的步骤。
本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本申请实施例所提供的任一种问答模型的编辑方法中的步骤。
本申请实施例可以获取待编辑的基础问答模型,并对基础问答模型进行模型编辑处理,得到编辑后问答模型,基础问答模型包括问题编码模块和答案解码模块;获取针对编辑后问答模型的至少一个评估指标下的测试数据,测试数据包括至少一个测试问题内容和测试问题内容对应的期望答案,测试问题内容包括至少一个模态下的内容信息;通过编辑后问答模型中的问题编码模块,对测试问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息;通过编辑后问答模型中的答案解码模块,对问题编码信息进行答案预测处理,确定测试问题内容对应的预测答案;针对每种评估指标的测试数据,基于测试数据中各测试问题内容对应的期望答案与预测答案,得到评估指标下的测试数据对应的识别准确率;基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标问答模型,目标问答模型用于对目标问题内容进行答案预测处理,得到目标问题内容对应的答案。
在本申请中,在优化基础问答模型的过程中,可以先编辑基础问答模型,得到编辑后问答模型,再通过至少一个评估指标下的测试数据,检验编辑后问答模型的识别准确率,通过各个评估指标下的测试数据对应的识别准确率,可以得到编辑后问答模型在不同评估指标下的性能表现,若编辑后问答模型的性能表现较差,对模型继续进行优化,这种模型优化方法可以避免对整个模型的参数进行更新,显著降低模型更新成本,提高模型更新效率;且基于至少一个评估指标下的测试数据来对编辑后问答模型的编辑效果进行测试,可以有效提高问答模型输出答案的准确性。由此,提升了模型优化效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的问答模型的编辑方法的场景示意图;
图1b是本申请实施例提供的问答模型的编辑方法的流程示意图;
图2a是本申请实施例提供的视觉语言问答模型的编辑场景示意图;
图2b是本申请实施例提供的视觉语言问答模型的编辑方法的流程示意图;
图2c是本申请实施例提供的整体泛化性指标下的测试数据的生成示意图;
图2d是本申请实施例提供的预算编辑策略的编辑效果示意图;
图2e是本申请实施例提供的视觉语言问答模型在编辑后的效果示意图;
图3是本申请实施例提供的问答模型的编辑装置的结构示意图;
图4是本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种问答模型的编辑方法、装置、电子设备和存储介质。
其中,该问答模型的编辑装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
在一些实施例中,该问答模型的编辑装置还可以集成在多个电子设备中,比如,问答模型的编辑装置可以集成在多个服务器中,由多个服务器来实现本申请的问答模型的编辑方法。
在一些实施例中,服务器也可以以终端的形式来实现。
例如,参考图1a,该电子设备可以获取待编辑的基础问答模型,并对基础问答模型进行模型编辑处理,得到编辑后问答模型,基础问答模型包括问题编码模块和答案解码模块;获取针对编辑后问答模型的至少一个评估指标下的测试数据,测试数据包括至少一个测试问题内容和测试问题内容对应的期望答案,测试问题内容包括至少一个模态下的内容信息;通过编辑后问答模型中的问题编码模块,对测试问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息;通过编辑后问答模型中的答案解码模块,对问题编码信息进行答案预测处理,确定测试问题内容对应的预测答案;针对每种评估指标的测试数据,基于测试数据中各测试问题内容对应的期望答案与预测答案,得到评估指标下的测试数据对应的识别准确率;基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标问答模型,目标问答模型用于对目标问题内容进行答案预测处理,得到目标问题内容对应的答案。
其中,在优化基础问答模型的过程中,可以先编辑基础问答模型,得到编辑后问答模型,再通过至少一个评估指标下的测试数据,检验编辑后问答模型的识别准确率,通过各个评估指标下的测试数据对应的识别准确率,可以得到编辑后问答模型在不同评估指标下的性能表现,若编辑后问答模型的性能表现较差,对模型继续进行优化,这种模型优化方法可以避免对整个模型的参数进行更新,显著降低模型更新成本,提高模型更新效率;且基于至少一个评估指标下的测试数据来对编辑后问答模型的编辑效果进行测试,可以有效提高问答模型输出答案的准确性。由此,提升了模型优化效率。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
人工智能(Artificial Intelligence,AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术,该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,计算机视觉(Computer Vision,CV)是利用计算机代替人眼对目标图像进行识别、测量等操作并进一步进行处理的技术。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。比如,图像着色、图像描边提取等图像处理技术。
语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术,自定驾驶技术有着广泛的应用前景。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
在本实施例中,提供了一种涉及人工智能的基于机器学习的问答模型的编辑方法,如图1b所示,该问答模型的编辑方法的具体流程可以如下:
110、获取待编辑的基础问答模型,并对基础问答模型进行模型编辑处理,得到编辑后问答模型,基础问答模型包括问题编码模块和答案解码模块。
其中,基础问答模型可以是在理解问题的意图后生成答案的模型。比如,基础问答模型可以是多模态的基础问答模型、单模态的基础问答模型等。
多模态的基础问答模型是可以处理多种数据(如文本、图像、音频等)类型的问答模型,包括文本到图像生成模型(text-to-image generation models)、问题-图像问答模型、问题-音频问答模型、问题-视频问答模型等。
文本到图像生成模型可以是大语言模型结合计算机视觉模型,用于将文本描述转换成对应的图像。
问题-图像问答模型可以从输入的问题中提取识别任务,依据识别任务从输入的图像中提取相关信息生成答案,该类型模型常用于图像的问答、视觉问答、图像描述生成等任务。
问题-音频问答模型可以将输入的音频转录为文本,并将文本与输入的问题进行匹配,然后生成答案,该类模型常用于语音识别和问答系统。
问题-视频问答模型可以对输入的视频进行和理解,并将视频内容结合输入的问题进行推理,最终生成答案,该类模型常用于视频问答、视频摘要和视频理解等任务。
单模态的基础问答模型是处理单一数据类型(文本或音频)的问答模型,包括文本问答模型、音频问答模型等。
文本问答模型是一种专门用于处理文本数据的问答模型,该模型的输入是一个文本段落和一个关于该段落的问题,通过分析理解,生成对问题的回答。
音频问答模型是一种用于处理音频数据的问答模型,该模型的输入是音频片段和问题,通过分析和理解音频内容以及问题,生成对问题的回答。
编辑后问答模型为基础问答模型经过模型编辑后对应的模型,其中,针对基础问答模型的编辑方法可以包括知识编辑器(Knowledge Editor,KE)、基于上下文知识的模型编辑方法(In-Context Knowledge Editing,IKE)、半参数编辑方法(Semi-ParametricEditing with a Retrieval-Augmented Counterfactual Model,SERAC)、利用梯度分解的模型编辑方法(Model Editor Networks with Gradient Decomposition,MEND)、模型结构编辑方法,等等。
问题编码模块为基础问答模型中用于对模型输入进行编码的模块,以使基础问答模型可以理解该模型输入,其中,模型输入是指输入至基础问答模型中,等待基础问答模型识别的数据,该模型输入可以包括至少一个模态下的内容信息。比如,模型输入可以是问题、问题和图像、问题和音频、问题和视频,等等。
答案解码模块用于解码问题编码模块输出的数据,并对其进行处理和转换,生成与模型输入对应的答案。比如,模型输入对应的答案可以是回答问题的文本、图像或音频等,还可以是回答问题的图像描述文本、回答问题的音频描述文本、回答问题的视频描述文本,等等。
在一些实施例中,为了可以编辑基础问答模型,对基础问答模型进行模型编辑处理,得到编辑后问答模型,包括:
获取预设编辑策略;
根据预设编辑策略,对基础问答模型进行编辑处理,得到编辑后问答模型。
其中,预设编辑策略为预设设置编辑基础问答模型的处理。比如,预设编辑策略可以是KE、IKE、SERAC、MEND等。
比如,可以采用任意一个预设编辑策略,编辑基础问答模型,还可以是每个预设编辑策略,分别编辑基础问答模型等。
在一些实施例中,为了在不训练基础问答模型的情况下,优化基础问答模型,基于知识编辑器,对基础问答模型进行模型编辑处理,得到编辑后问答模型,包括:
获取知识编辑器;
对基础问答模型与知识编辑器进行集成处理,得到编辑后问答模型。
知识编辑器的获取方法:1)获取针对基础问答模型的待编辑的目标更新知识,目标更新知识包括待添加的知识、待删除的错误知识和待调整的知识;2)使用知识编辑器创建一个知识图谱;3)根据应用场景,创建问题模板,问题模板是用于匹配用户输入问题并生成相应答案的模板,可以使用自然语言和占位符(如知识节点)来定义问题模版;4)将问题模版与知识图谱中的知识节点、属性和关系进行关联,以在回答问题使问题引用相关的知识;5)定义回答生成规则,使用知识编辑器定义生成答案的规则,可以使用逻辑表达式、条件语句和其他方式来描述如何根据问题模版和关联的知识生成答案;6)使用知识编辑器对问题模版、知识图谱和回答生成规则进行编辑。
在得到编辑后问答模型后,可以使用基础问答模型获取模型输入对应的初始答案,并将该初始答案作为输入提供给知识编辑器,知识编辑器可以基于已有的知识和规则对初始答案进行编辑和补充。
在一些实施例中,为了在不训练基础问答模型的情况下,优化基础问答模型输出的答案,基于上下文知识的模型编辑方法编辑基础问答模型,对基础问答模型进行模型编辑处理,得到编辑后问答模型,包括:
显示基础问答模型关联的问答界面,问答界面包括历史问答数据,历史问答数据包括历史问题内容,以及历史问题内容对应的预测答案;
基于历史问题内容对应的预测答案,在问答界面输入修正信息;
将修正信息发送至基础问答模型,以使基础问答模型依据修正信息,对历史问题内容对应的预测答案进行修正,得到修正后答案;
在问答界面显示修正后答案;
当修正后答案满足编辑需求时,通过修正后答案和历史问答数据,更新基础问答模型的初始知识。
其中,问答界面是指用户与基础问答模型进行交互和对话的界面。
历史问答数据为问答界面中用户与基础问答模型之间的对话内容,历史问答数据中历史问题内容对应的预测答案可以是错误的答案、不完整的答案、待调整的答案等。
修正信息用于对历史问答数据中答案进行进一步的探究或更详尽的解释。比如,修正信息可以要求基础问答模型删除历史问题内容对应的预测答案中的错误知识,还可以要求基础问答模型对历史问题内容对应的预测答案进行展开细说,还可以要求基础问答模型引入新的知识(比如,新的审核标准)修改历史问题内容对应的预测答案,等等。
修正后答案为依据修正信息,对历史问题内容对应的预测答案进行修正后所对应的答案。比如,修正后答案可以是满足编辑需求的答案,还可是未满足编辑需求的答案,等等。当修正后答案未满足编辑需求时,用户继续输入修正信息,以使基础问答模型可以依据当前新输入的修正信息继续对修正后答案进行修正,其中,编辑需求具体可以是新的审核标准、对答案进行准确性预测的需求等。
比如,当用户停止输入修正信息时,则指明该答案符合编辑需求,如此,可以通过修正后答案更新基础问答模型的初始知识,得到编辑后问答模型。当编辑后问答模型再次遇到与历史问题内容相同或相似的问题内容时,可以采用修正后答案对其答复。
在一些实施例中,为了在不训练基础问答模型的情况下,优化基础问答模型输出的答案,基于半参数编辑方法编辑基础问答模型,对基础问答模型进行模型编辑处理,得到编辑后问答模型,包括:
获取基础问答模型的历史问答数据,以及历史问答数据包括历史问题内容和历史问题内容对应的历史期望答案;
采用历史问答数据训练检索模块,得到训练后检索模块,训练后检索模块用于将历史问题内容与历史问题内容对应的历史期望答案关联;
对训练后检索模块与基础问答模型进行集成处理,得到编辑后问答模型。
其中,历史问答数据为用户与基础问答模型之间在当前时间之前的对话内容。
历史问题内容对应的历史期望答案为用户期望依据历史问题内容所得到的正确答案。比如,历史期望答案可以是用户依据历史问题内容标注的正确答案,还可以是基础问答模型依据历史问题内容输出的满足编辑需求(比如,现有的审核标准)的正确答案,等等。
训练后检索模块用于根据输入的问题内容,可以从大规模数据集(多个历史问题内容)中检索相关问题内容,以将相关问题内容对应的历史期望答案作为候选答案。
在一些实施例中,为了可以获取用户输入的问题内容所对应的答案,在对训练后检索模块与基础问答模型进行集成处理,得到编辑后问答模型之后,还包括:
获取用户问题内容,并通过编辑后问答模型中的训练后检索模块,从历史问题内容中确定与用户问题内容匹配的目标问题内容,以及目标问题内容对应的历史期望答案;
通过编辑后问答模型,基于历史期望答案,生成多个候选答案,候选答案与历史期望答案具有同样的表达含义;
构建与用户问题内容关联的多个背景文本,并将背景文本与待筛选答案一一对应,待筛选答案为历史期望答案和多个候选答案中的任意一个;
采用背景文本对待筛选答案进行调整处理,得到调整后待筛选答案;
对调整后待筛选答案进行反事实修改处理,得到调整后待筛选答案对应的反事实答案,反事实答案与调整后待筛选答案具有相反的表达含义;
将调整后待筛选答案与对应的反事实答案进行对比处理,得到调整后待筛选答案与对应的反事实答案在答案质量指标下的表现差异;
根据调整后待筛选答案与对应的反事实答案在各个答案质量指标下的表现差异,对调整后待筛选答案进行质量评估处理,得到调整后待筛选答案的质量评估值;
通过编辑后问答模型,根据每个调整后待筛选答案的质量评估值,从调整后待筛选答案中确定回复用户问题内容的答案。
其中,用户问题内容为用户需要通过编辑后问答模型审核的问题内容。比如,问题内容可以是问题、问题和图像、问题和音频、问题和视频等。
目标问题内容为通过训练后检索模型,检索到与用户问题内容匹配的历史问题内容。
历史期望答案为用户期望依据历史问题内容所得到的正确答案。比如,历史期望答案可以是用户依据历史问题内容标注的正确答案,还可以是基础问答模型依据历史问题内容输出的满足编辑需求的正确答案,等等。
候选答案为编辑后问答模型依据历史期望答案,生成的具有相同表达含义的文本,每个候选答案具有不同的表达方式和细节。
背景文本用于描述与用户问题内容关联的场景,可以补充用户问题内容。
比如,若用户问题内容中的问题是关于旅行目的地,则背景文本可以是用户问题内容关联的季节、预算限制或旅行目的等,若用户问题内容中的问题是关于最佳购物地,则背景文本可以是用户问题内容关联的地点、价格范围等,若用户问题内容中的问题是关于电子产品的问题,则背景文本可以是关于用户需求、品牌偏好、功能要求等。
待筛选答案为历史期望答案和多个候选答案中的任意一个。
调整后待筛选答案为待筛选答案经过对应的背景文本补充后得到的答案。
反事实答案是指与调整后待筛选答案相反的回答,与调整后待筛选答案具有相反的表达含义,以通过反事实答案揭示调整后待筛选答案可能存在的问题。
比如,若问题是“如果今天下雨,我会带伞吗”,调整后待筛选答案可以是“是的,你会带伞”,反事实答案可以是“不,你不会带伞”。
答案质量指标为评估调整后待筛选答案和反事实答案的质量指标,答案质量指标可以包括内容逻辑、客观准确性、观点立场等,准确性用于评估答案是否与实际事实相符,流畅性用于评估答案是否自然、通顺、符合语言表达习惯,相关性用于评估答案是否与用户问题内容,以及背景文本相关。
表现差异表示了调整后待筛选答案与对应的反事实答案在答案质量指标下的差异或比较结果。
比如,当答案质量指标为内容逻辑时,调整后待筛选答案与反事实答案在解释问题、论证观点、提供信息等方面的逻辑关系可能存在差异。反事实答案通常是根据假设和推断得出的,与实际情况有所不同,因此在内容逻辑上可能不如调整后待筛选答案准确或完整。
比如,当答案质量指标为客观准确性时,调整后待筛选答案与反事实答案在描述事实、提供准确信息等方面可能存在差异。反事实答案是根据设想的理想情境得出的,可能并不符合实际情况,而调整后待筛选答案通常是基于历史期望答案和候选答案生成的,更接近实际情况。
比如,当答案质量指标为观点立场时,调整后待筛选答案与反事实答案可能在表达观点、态度或立场上存在差异。反事实答案通常是通过设想一个与当前真实情况相反的情境得出的,因此可能与调整后待筛选答案在观点或立场上相反。
质量评估值可以帮助判断待筛选答案的内容逻辑、客观准确性和观点立场等方面,它可以用来衡量待筛选答案与用户问题内容中的问题之间的匹配程度,以及待筛选答案的清晰度、完整度和逻辑性等。通过对调整后待筛选答案进行质量评估,可以找到最合适的答案,并排除那些质量差、不符合预期的答案。
在一些实施例中,为了在不训练基础问答模型的情况下,优化基础问答模型输出的答案,利用梯度分解的模型编辑方法,对基础问答模型进行模型编辑处理,得到编辑后问答模型,包括:
获取针对基础问答模型的待编辑的目标更新知识,以及目标更新知识下的问答数据,目标更新知识下的问答数据包括更新问题内容,以及更新问题内容对应的期望答案,更新问题内容包括至少一个模态下的内容信息;
通过编辑后问答模型中的问题编码模块,对更新问题内容的至少一个模态下的内容信息进行编码处理,得到更新问题编码信息;
通过编辑后问答模型中的答案解码模块,对更新问题编码信息进行答案预测处理,得到更新问题内容对应的预测答案;
根据更新问题内容对应的预测答案与期望答案,确定基础问答模型的梯度信息;
根据基础问答模型的梯度信息,对基础问答模型进行内容处理层的编辑处理,得到编辑后问答模型,内容处理层为编码处理层或解码处理层。
其中,目标更新知识为更新基础问答模型所采用的知识,可以包括待添加的知识、待删除的错误知识和待调整的知识。
目标更新知识下的问答数据是指用于对基础问答模型进行更新训练的一组问答样本数据。
更新问题内容为目标更新知识下的问答数据中参与基础问答模型训练所使用的问题内容,该问题内容包括至少一个模态下的内容信息。
更新问题内容对应的期望答案是指与更新问题内容相匹配的、预先确定的正确答案。
梯度信息是指在机器学习中衡量模型参数更新方向和幅度的数值,梯度反映了损失函数在参数空间中的变化率,指示了当前参数取值的更新方向。通过沿着梯度的负方向调整参数,可以使损失函数的值逐渐减小,从而改善模型的预测能力。
通过分析梯度信息,可以确定基础问答模型中对预测答案贡献最大的参数,从而确定基础问答模型中需要编辑的区域。
比如,在基础问答模型中,分析梯度信息可以帮助确定是否需要编辑问题编码模块或答案解码模型来改善模型的预测能力。
在一些实施例中,获取待编辑的基础问答模型,包括:
当基础问答模型的输出无法满足新的审核标准,或出现错误时,可以将其作为待编辑的基础问答模型。
其中,新的审核标准为特定的要求和约束,用于限制基础问答模型的输出。
在一些实施例中,问题编码模块包括提示文本处理模块。
其中,提示文本处理模块是问题编码模块中的一个组成部分,它的主要功能是对用户提供的问题或指令进行预处理和编码,以便与模型进行交互。
120、获取针对编辑后问答模型的至少一个评估指标下的测试数据,测试数据包括至少一个测试问题内容和测试问题内容对应的期望答案,测试问题内容包括至少一个模态下的内容信息。
其中,评估指标是用于衡量编辑后问答模型相对基础问答模型的模型性能和效果的指标。比如,至少一个评估指标可以包括可靠性指标、稳定性指标、泛化性指标等。
测试数据为测试编辑后问答模型在评估指标方面所需的数据,测试数据可以包括多个测试问题内容,以及每个测试问题内容对应的期望答案。
比如,至少一个评估指标下的测试数据可以包括测试编辑后问答模型在可靠性指标、稳定性指标、泛化性指标等方面所需的数据。测试问题内容为测试编辑后问答模型所需输入的数据,包括至少一个模态下的内容信息。
比如,测试问题内容可以是问题、问题和图像、问题和音频、问题和视频等。
模态是指示数据的类型。比如,数据的模态可以包括图像、文本、音频等。
内容信息为测试问题内容的具体内容。比如,若测试问题内容包括问题,则内容信息可以是问题的具体内容,若测试问题内容包括问题和图像,则内容信息可以包括问题的具体内容和图像的具体内容,等等。
期望答案是指在回答测试问题内容时,用户期望得到的正确或合适的答案。
比如,期望答案可以是用户依据测试问题内容所标注的答案,还可以是基础问答模型依据测试问题内容所输出的符合用户期望的答案,等等。
在一些实施例中,为了可以获取测试数据,以便测试编辑后问答模型,基础问答模型为具有初始知识的问答模型;
获取针对编辑后问答模型的至少一个评估指标下的测试数据,包括:
基于目标更新知识,确定初始知识中处于编辑范围之外的未更新知识;
根据目标更新知识下的问答数据和未更新知识下的问答数据,获取针对编辑后问答模型的至少一个评估指标下的测试数据。
其中,初始知识是指基础问答模型在训练阶段接收的预先设定的数据集或语料库,以帮助基础问答模型可以理解并回答问题。
目标更新知识为更新基础问答模型所采用的知识,以改变基础问答模型的识别性能。
比如,目标更新知识可以是待添加的知识、待删除的错误知识、或者待调整的知识等,其中,待添加的知识为初始知识中未存在的知识,待删除的错误知识为初始知识中错误的知识,待调整的知识为初始知识中需要改进的旧知识等。
编辑范围是指依据目标更新知识,需要对初始知识进行编辑和更新的范围或领域。比如,编辑范围可以根据具体编辑需求而定,具体可以是图像识别、文本识别、医学、法律、科技等方面的特定领域。
比如,若基础问答模型无法正确识别图像,则编辑范围为图像识别,若基础问答模型无法正确识别文本,则编辑范围为文本识别,若基础问答模型无法正确预测医学方面的知识,则编辑范围为医学领域,等等。
未更新知识为初始知识中处于编辑范围之外的知识。比如,未更新知识可以是不需要删改的知识、不需要调整的知识等。
比如,若编辑范围为图像识别,则未更新知识为初始知识中除图像识别之外的知识,若编辑范围为文本识别,则为未更新知识为初始知识中除文本识别之外的知识,若编辑范围为医学,则为未更新知识为初始知识中除医学之外的知识,等等。
目标更新知识下的问答数据为与目标更新知识相关的问题内容以及问题内对应的期望答案。
未更新知识下的问答数据为与未更新知识相关的问题内容以及问题内容对应的期望答案。
在一些实施例中,为了可以获取基础问答模型具有的初始知识下的问答数据,初始知识下的问答数据包括至少一个问题内容和问题内容对应的期望答案,问题内容包括至少一个模态下的内容信息,方法还包括:
通过基础问答模型中的问题编码模块,对问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息;
通过基础问答模型中的答案解码模块,对问题编码信息进行答案预测处理,确定问题内容对应的预测答案,问题内容对应的预测答案与期望答案的匹配度满足预设匹配条件。
其中,匹配度是指问题内容对应的预测答案与期望答案之间的相似性,用于衡量基础问答模型针对问题内容的预测答案是否与期望答案相匹配。
预设匹配条件为预先设置的用于衡量问答模型的准确识别能力的条件。
比如,预设匹配条件可以是指匹配度超过预设值(80%等),则指示基础问答模型可以准确识别问题内容,即该问题内容以及问题内容对应的期望答案属于初始知识,在此不限定预设值的取值范围。
在一些实施例中,为了可以获取测试数据,以便测试编辑后问答模型,至少一个评估指标包括可靠性指标、整体稳定性指标和泛化性指标;
根据目标更新知识下的问答数据和未更新知识下的问答数据,获取针对编辑后问答模型的至少一个评估指标下的测试数据,包括:
基于目标更新知识下的问答数据,确定可靠性指标下的测试数据;
基于未更新知识下的问答数据,生成整体稳定性指标下的测试数据;
基于目标更新知识下的问答数据中问题内容的语义信息,生成关联问题内容;
根据关联问题内容和目标更新知识下的问答数据中问题内容对应的期望答案,生成泛化性指标下的测试数据。
其中,可靠性指标可以评估编辑后问答模型相对于基础问答模型的纠错能力,编辑后问答模型可以识别和纠正基础问答模型在回答问题内容时可能存在的错误。
整体稳定性指标可以评估编辑后问答模型对基础问答模型的准确识别能力的影响程度,用于衡量基础问答模型识别准确的问题内容是否在编辑后问答模型中依据识别准确。
泛化性指标可以评估编辑后问答模型针对相似问题内容的识别能力,其中,编辑后问答模型在识别相似数据时,具有相似或相同的预测答案。
可靠性指标下的测试数据可以是与目标更新知识相关的问题内容,以及该问题内容对应的期望答案,用于测试编辑后问答模型相对于基础问答模型的纠错能力。
比如,可靠性指标下的测试数据可以是与待添加的知识相关的问题内容,以及问题内容对应的期望答案,还可以是与待删除的错误知识相关的问题内容,以及问题内容对应的期望答案,还可以是与待调整的知识相关的问题内容,以及问题内容对应的期望答案等。
比如,问题1为“图像中展示了什么内容?”,图像1中的内容信息包括风筝1, 基础问答模型依据问题1和图像1预测得到的预测答案为“一只飞在空中的鸟”,问题1和图像1对应的期望答案为“一只飞在空中的风筝1”,即预测答案与期望答案不同,如此,问题1和图像1为目标更新知识下的问答数据中的问题内容,问题1和图像1以及对应的期望答案构成可靠性指标下的测试数据。
整体稳定性指标下的测试数据可以是与未更新知识相关的问题内容,以及该问题内容对应的期望答案,用于测试编辑后问答模型对基础问答模型的准确识别能力的影响程度。
比如,若问题内容输入至基础问答模型后,所得到的问题内容对应的预测答案与期望答案匹配,则该问题内容为与未更新知识相关的问题内容,可以作为整体性指标下的测试数据。
关联问题内容与目标更新知识下的问答数据中的问题内容具有相同或相似的语义信息。
泛化性指标下的测试数据可以是目标更新知识下的问答数据中问题内容对应的关联问题内容以及期望答案构成的测试数据,用于测试编辑后问答模型针对相似问题内容的识别能力。
比如,若目标更新知识下的问答数据中的问题内容包括问题1和图像1,问题1为“图像中展示了什么内容?”,图像1中的内容信息包括风筝1,则关联问题内容可以是问题1+图像2,图像2与图像1为两张不同的图像,但图像2中的内容信息包括风筝2,风筝2和风筝1可以具有相同的形状,也可以具有不同的风筝形状,还可以是问题2+图像1,问题2可以是“图像中呈现了什么?”,问题1和问题2都用于请求对图像所呈现的事物进行描述或解释,具有相同的表达含义,还可以是问题2+图像2,等等。
泛化性指标下的测试数据可以包括问题1和图像1对应的期望答案、问题1+图像2、问题2+图像1,以及问题2+图像2构成。
在一些实施例中,为了可以生成关联问题内容,目标更新知识下的问答数据中问题内容包括至少一个模态下的内容信息,至少一个模态下的内容信息包括图像内容信息和文本提示信息;关联问题内容包括关联图像内容信息和关联文本提示信息;
基于目标更新知识下的问答数据中问题内容的语义信息,生成关联问题内容,包括:
基于图像内容信息的语义信息,生成至少一个关联图像内容信息,关联图像内容信息的语义与图像内容信息的语义关联;
基于文本提示信息的语义信息,生成至少一个关联文本提示信息,关联文本提示信息的语义与文本提示信息的语义关联。
其中,图像内容信息是指图像中包含的视觉元素、特征和语义描述,它是对图像内容的抽象和表达,用于描述图像中的物体、场景、颜色、纹理、形状等视觉属性。
文本提示信息可以作为查询条件,用于检索和获取图像中的图像内容信息。通过将文本提示信息与图像内容进行关联,可以利用文本提示信息的语义来指导对图像中特定内容的搜索和理解。
比如,当至少一个模态下的内容信息包括图像内容信息和文本提示信息时,文本提示信息可以是“图像中展示了什么内容?”,该文本提示信息用于检索和获取图像中的图像内容信息。
关联图像内容信息是指与图像内容信息在语义上相同或相关的其他内容信息,关联图像内容信息与图像内容信息具有相同或相似的主题、对象、场景、属性或意义的信息。
比如,若图像内容信息为“一只飞在空中的风筝”,则关联图像内容信息可以是包含风筝的图像内容信息,还可以是包含“一只飞在空中的鸟”的图像内容信息,等等。
关联文本提示信息是指与文本提示信息在语义上相同或相关的其他内容信息。
比如,若文本提示信息为“图像中展示了什么内容?”,则关联文本提示信息可以是“图像中呈现了什么?”、“这张图像包含了哪些物体或场景?”、“请描述一下图像中的视觉元素和特征?”,等等。
在一些实施例中,为了便于生成测试泛化性指标的测试数据,根据关联问题内容和目标更新知识下的问答数据中问题内容对应的期望答案,生成泛化性指标的测试数据,包括:
将各个关联文本提示信息分别与图像内容信息进行配对处理,得到泛化性指标下的至少一个第一测试问题内容;
将各个关联图像内容信息分别与文本提示信息进行配对处理,得到泛化性指标下的至少一个第二测试问题内容;
根据第一测试问题内容、第二测试问题内容和目标更新知识下的问答数据中问题内容对应的期望答案,生成泛化性指标的测试数据。
其中,第一测试问题内容用于在同一图像内容信息的情况下,测试不同关联文本提示信息对预测答案的影响程度。
第二测试问题内容用于在同一文本提示信息的情况下,测试不同关联图像内容信息对预测答案的影响程度。
比如,根据图像内容信息A的语义信息,可以生成至少一个关联图像内容信息,包括关联图像内容信息a1、关联图像内容信息a2……关联图像内容信息an。根据文本提示信息B的语义信息,生成至少一个关联文本提示信息,包括关联文本提示信息b1、关联文本提示信息b2……关联文本提示信息bn。
将关联文本提示信息b1、关联文本提示信息b2……关联文本提示信息bn分别与图像内容信息A配对,得到n个第一测试问题内容。将关联图像内容信息a1、关联图像内容信息a2……关联图像内容信息an分别与文本提示信息B配对,得到n个第二测试问题内容。
130、通过编辑后问答模型中的问题编码模块,对测试问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息。
其中,问题编码信息是指对测试问题内容进行编码处理好后得到的表达形式,以使编辑后问答模型可以理解测试问题内容,并进行后续的推断或回答处理。
比如,问题编码信息可以捕捉测试问题内容中问题的关键特征、语义理解和上下文信息。它可以用于将问题与相应的回答联系起来,进行匹配或推断过程。问题编码信息的生成通常基于预训练的神经网络模型,例如使用自注意力机制(Transformer)架构的模型,在对问题进行编码时,会考虑到单词的顺序、上下文关系和语义含义。
当测试问题内容被输入到编辑后问答模型中时,问题编码模块会将问题文本转化为一个数值化的向量或其他表示形式,以便模型能够对其进行进一步处理和分析,问题编码信息提供了问题的抽象表示,使模型能够更好地理解问题,并且能够在后续的模型层中进行答案生成或匹配等任务。
在一些实施例中,考虑到输入至编辑后问答模型的内容信息可能包括问题和图像,为了使编辑后问答模型可以理解内容信息,至少一个模态下的内容信息包括图像内容信息和文本提示信息;
通过编辑后问答模型中的问题编码模块,对测试问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息,包括:
采用编辑后问答模型中的问题编码模块,对图像内容信息进行编码处理,得到图像内容信息的图像编码特征;
对文本提示信息进行特征提取,得到文本提示信息的文本查询特征;
将图像编码特征和文本查询特征进行融合,得到问题编码信息。
其中,图像编码特征是通过使用图像编码模块将图像内容信息转化为数值化的向量或特征表示,这些特征向量捕捉了图像中的关键视觉特征,如形状、纹理、颜色等,并以一种更抽象的方式表示,这些数值化的表示形式可以更好地被计算机理解和处理。
比如,图像编码特征通常由预训练的卷积神经网络(如ResNet、VGG等)或其他图像编码模型生成。这些模型经过大量的图像数据预训练,在提取图像特征方面表现出色。通过将输入的图像内容信息传递给图像编码模块,图像编码模块会对图像内容信息进行多层的卷积和池化操作,逐渐捕捉图像内容信息的低级到高级的视觉特征。最终,得到的图像编码特征是一个向量,其中每个元素代表了图像内容信息在不同层次的抽象特征。
文本查询特征是从文本提示信息中提取的数值化表示,以帮助已编辑问答模型理解问题,并推理和生成准确的答案。
问题编码信息为将图像编码特征和文本查询特征融合在一起得到的综合特征表示。
问题编码信息的作用可以包括:
(Ⅰ)、统一的特征表示:通过将图像编码特征和文本查询特征进行融合,问题编码信息提供了一个统一的特征表示,整合了图像内容信息和文本提示信息两种不同模态的信息,这样可以使得编辑后问答模型能够更全面地理解和处理问题,同时充分利用图像内容信息和文本提示信息;
(Ⅱ)、多模态融合:问题编码信息可以将图像内容信息和文本提示信息进行融合,以便编辑后问答模型能够更好地理解文本提示信息和图像内容信息之间的语义关系。通过计算图像编码特征和文本查询特征之间的相似度或注意力权重,编辑后问答模型能够关注最相关的图像内容信息并进行推理,从而提高问题回答的准确性;
(Ⅲ)、丰富的信息表示:问题编码信息融合了图像内容信息和文本提示信息,使得编辑后问答模型能够同时利用视觉和语义的特征。这样可以提供更多的线索和上下文信息,有助于编辑后问答模型更好地理解文本提示信息的意图和要求。
在一些实施例中,为了可以使编辑后问答模型可以将注意力集中放在对模型任务最有贡献的信息上,以提高模型的性能和效率,将图像编码特征和文本查询特征进行融合,得到问题编码信息,包括:
对图像编码特征进行注意力处理,得到处理后图像编码特征;
对文本查询特征进行注意力处理,得到处理后文本查询特征;
将处理后图像编码特征与处理后文本查询特征进行特征交互,得到问题编码信息。
其中,处理后图像编码特征通过应用注意力机制,对图像内容信息中的不同区域进行加权处理,将更多的注意力放在与任务相关的区域上,从而提取出更具有表现力和关联性的特征。
处理后文本查询特征通过注意力机制的加权处理,将更多的关注度放在与查询相关的信息上,从而使得模型能够更好地理解查询并提高任务的表现。
注意力机制可以是自注意力机制(self-attention)和空间注意力机制(spatialattention)等。
140、通过编辑后问答模型中的答案解码模块,对问题编码信息进行答案预测处理,确定测试问题内容对应的预测答案。
其中,测试问题内容对应的预测答案是指编辑后问答模型中的答案解码模块对问题编码信息推理和生成,从而得到的答案。
比如,通过问题编码信息提供的上下文和语义信息,答案解码模块会进行推理和计算,生成最有可能的答案。这个过程可以涉及对相关知识的理解、推断和推理,以及编辑后问答模型根据训练数据学习到的模式和规律进行答案生成。
150、针对每种评估指标的测试数据,基于测试数据中各测试问题内容对应的期望答案与预测答案,得到评估指标下的测试数据对应的识别准确率。
其中,识别准确率为衡量编辑后问答模型识别评估指标下的测试数据的准确率。
在一些实施例中,为了可以计算评估指标下的测试数据对应的识别准确率,针对每种评估指标的测试数据,基于测试数据中各测试问题内容对应的期望答案与预测答案,得到评估指标下的测试数据对应的识别准确率,包括:
针对每种评估指标的测试数据,确定测试数据中各测试问题内容对应的期望答案与预测答案之间的匹配度;
根据匹配度,确定满足预设匹配条件的测试问题内容的目标数量;
根据目标数量和评估指标下的测试数据中测试问题内容的数量,得到评估指标下的测试数据对应的识别准确率。
其中,匹配度是用于衡量测试问题内容对应期望答案与预测答案之间的相似程度的指标,可以反映预测答案是否准确地匹配了期望答案。比如,当匹配度较高,则表示预测答案与期望答案在内容上相似,当匹配度较低,则表示预测答案与期望答案在内容上存在差异或错误,等等。
预设匹配条件为预先设置的用于衡量问答模型的准确识别能力的条件。
比如,预设匹配条件可以是指匹配度超过预设值(80%等),则指示编辑后问答模型可以准确识别测试问题内容。
目标数量为评估指标下的测试数据中,匹配度满足预设匹配条件的测试问题内容的数量。
评估指标下的测试数据对应的识别准确率=目标数量/评估指标下的测试数据中测试问题内容的数量。
在一些实施例中,考虑到提示文本处理模块为处理问题的模块,为了测试基础问答模型在编辑前后,对提示文本处理模块的影响,以便继续优化编辑后问答模型,至少一个评估指标下的评估指标还包括提示文本稳定性指标;提示文本稳定性指标下的测试数据包括至少一个测试文本提示信息;方法还包括:
通过基础问答模型对测试文本提示信息进行特征提取处理,得到基础问答模型输出对测试文本提示信息的第一处理结果;
通过编辑后问答模型对测试文本提示信息进行特征提取处理,得到编辑后问答模型输出对测试文本提示信息的第二处理结果;
根据各个测试文本提示信息对应的第一处理结果和第二处理结果,确定编辑后问答模型在提示文本稳定性指标下的测试数据对应的识别准确率。
其中,提示文本稳定性指标用于衡量编辑后问答模型相对基础问答模型在处理测试文本提示信息时的差异。测试文本提示信息用于测试编辑后问答模型相对基础问答模型回答问题的能力。
第一处理结果为基础问答模型依据测试文本提示信息所生成的答案。
第二处理结果为编辑后问答模型依据测试文本提示信息所生成的答案。
比如,在测试文本提示信息对应的第一处理结果与第二处理结果之间的匹配度满足预设匹配条件时,可以指示编辑后问答模型相对基础问答模型在处理测试文本提示信息时的差异较小。
在测试文本提示信息对应的第一处理结果与第二处理结果之间的匹配度未满足预设匹配条件时,可以指示编辑后问答模型相对基础问答模型在处理测试文本提示信息时的差异较大。
如此,可以根据各个测试文本提示信息对应的第一处理结果和第二处理结果,确定编辑后问答模型在提示文本稳定性指标下的测试数据对应的识别准确率,以通过提示文本稳定性指标下的测试数据对应的识别准确率,反映编辑后问答模型相对基础问答模型在处理文本提示信息时的差异。
160、基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标问答模型,目标问答模型用于对目标问题内容进行答案预测处理,得到目标问题内容对应的答案。
其中,目标问答模型为参考各个评估指标下的测试数据对应的识别准确率,优化编辑后问答模型所得到的模型。
目标问题内容为输入至目标问答模型的问题内容,以供目标问答模型识别和回答问题内容。
目标问题内容对应的答案为目标问答模型依据目标问题内容所生成的答案。
比如,在用户需要大批量审核多个图像时,可以将问题(“请描述图像中的内容”)和图像输入至目标问答模型中,以使目标问答模型可以依据问题描述图像中的内容,以便用户审核图像,其中,问题和图像构成目标问题内容。
比如,在用户需要查询时,可以将问题(目标问题内容)输入至目标问答模型中,以使目标问答模型可以查询与问题相关的知识,并回答该问题。
比如,在用户需要给视频取标题时,可以将问题(“请总结视频的内容”)和视频输入至目标问答模型中,以使目标问答模型可以依据问题总结视频中的内容,以便用户对视频取标题,其中,问题和视频构成目标问题内容。
在一些实施例中,为了可以优化基础问答模型,问题编码模块包括至少一个编码处理层,答案解码模块包括至少一个解码处理层;
对基础问答模型进行模型编辑处理,得到编辑后问答模型,包括:
基于针对基础问答模型的待编辑的目标更新知识,对基础问答模型进行内容处理层的编辑处理,得到编辑后问答模型,内容处理层为编码处理层或解码处理层;
基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标问答模型,包括:
基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标更新知识对应的目标问答模型。
其中,编码处理层为问题编码模块中的网络层,用于将模型输入编码为基础问答模型可以理解的形式。比如,问题编码模块中的网络层可以是循环神经网络层、卷积神经网络层、注意力层等。
解码处理层为解码处理模块中的网络层,用于将接受经过编码处理层处理后得到的模型输入的表示形式,并将其转化为可读性强且准确的答案。比如,解码处理模块中的网络层可以是递归神经网络层、卷积神经网络层、注意力机制层等。
内容处理层为依据目标更新知识可以获知的基础问答模型中需要改进的网络层。
比如,由上述利用梯度分解的模型编辑方法,对基础问答模型进行模型编辑处理,得到编辑后问答模型可知,可以将目标更新知识下的问答数据中的更新问题内容输入至基础问答模型中,得到更新问题内容对应的预测答案,根据每个更新问题内容对应的预测答案与期望答案,可以得到基础问答模型的梯度信息,依据梯度信息,可以从编码处理层和解码处理层中确定内容处理层。
在一些实施例中,为了可以编辑基础问答模型,对基础问答模型进行内容处理层的编辑处理,得到编辑后问答模型,包括:
基于针对基础问答模型的待编辑的目标更新知识,从基础问答模型中选取至少一个内容处理层进行参数调整,得到编辑后问答模型;
或者,基于针对基础问答模型的待编辑的目标更新知识,确定基础问答模型对应的待添加内容处理层,将待添加内容处理层添加到基础问答模型中;
或者,基于针对基础问答模型的待编辑的目标更新知识,从基础问答模型中选取至少一个内容处理层进行删除,得到编辑后问答模型。
其中,参数调整是指在机器学习和深度学习中对基础问答模型进行优化和调整的过程。比如,可以调整内容处理层的权重、偏重、激活函数等。
在内容处理层中,权重和偏置扮演着非常重要的角色,通过调整权重和偏置的数值和分布,可以改变基础问答模型的拟合能力和表达能力。权重决定了不同特征的重要性,而偏置则能够引入基础问答模型的偏好。通过对这些参数的调整,可以使模型更好地适应输入数据和提高预测性能。
激活函数在内容处理层中起到非线性映射的作用,对于基础问答模型的表达能力和非线性建模能力至关重要。常见的激活函数包括ReLU、Sigmoid、Tanh等。通过选择合适的激活函数,并调整其参数,可以影响模型的输出范围、非线性拟合能力和模型的收敛速度。
待添加内容处理层是指在基础问答模型中根据目标更新知识的需求,确定需要添加的新的处理层,这个处理层的目的是对模型输入或答案进行特定的内容处理,以提高问答模型的性能和准确度。比如,待添加内容处理层可以是语义理解处理层、实体识别处理层、关系抽取处理层、上下文建模处理等。
语义理解处理层:这个处理层可以用于对模型输入进行更深入的语义理解和表征,它可以使用语义表示模型,如BERT(Bidirectional Encoder Representations fromTransformers)或GPT(Generative Pre-trained Transformer),来获得更丰富的语义信息,并提供更准确的问题表示。
实体识别处理层:实体识别处理层可以用于识别模型输入中的命名实体,如人名、地名、组织机构等。通过识别和标记这些实体,以使编辑后问答模型可以更好地理解问题的重点和上下文,提高答案的准确性。
关系抽取处理层:关系抽取处理层可以从模型输入中抽取出模型输入与答案之间的关系。通过识别模型输入中的关键词、短语、句子结构等信息,编辑后问答模型可以更好地理解问题的意图,并以更准确的方式生成答案。
上下文建模处理层:上下文建模处理层可以用于考虑模型输入和答案之间的上下文信息。它可以将模型输入和答案之间的关系纳入考虑,根据上下文进行信息推理和整合,从而提高编辑后问答模型的准确性。
删除的内容处理层为基础问答模型中对识别准确性产生负面影响的网络层。
比如,依据目标更新知识,可以得到基础问答模型的梯度信息,依据梯度信息,可以分析出基础问答模型中对识别准确性产生负面影响的网络层,这些网络层可能对梯度的传播和更新起到了负面作用,导致模型难以优化和收敛,从而影响了基础问答模型的性能。
在一些实施例中,为了便于优化编辑后问答模型,基于各个评估指标下的测试数据对应的识别准确率,对所述编辑后问答模型进行优化处理,得到目标问答模型,包括:
基于评估指标下的测试数据对应的识别准确率,确定编辑后问答模型在评估指标下的性能评估值;
基于编辑后问答模型在各个评估指标上的性能评估值,对编辑后问答模型进行优化处理,得到目标问答模型。
其中,性能评估值是对编辑后问答模型在不同评估指标上的表现进行量化的指标。
基于评估指标的测试数据对应的识别准确率,确定编辑后问答模型在评估指标下的性能评估值的方法:
(1)、阈值设定法:根据实际需求和评估指标的特点,设定一个阈值,将识别准确率高于或低于该阈值的模型分别标记为“优秀”或“不合格”。
(2)、数据分段法:将评估指标的取值范围划分为若干个区间,根据识别准确率所处的区间来确定性能评估值。可以根据经验或实际数据分布情况进行划分,并为每个区间分配相应的评估值。
(3)、统计回归法:通过统计分析建立识别准确率与评估指标之间的函数关系或曲线拟合。可以使用回归分析、机器学习算法等方法来找到最佳拟合曲线,从而根据识别准确率来预测或估算评估指标的性能评估值。
(4)、专家评估法:凭借专家经验和领域知识来判断识别准确率与评估指标之间的关系,并根据专家判断给出相应的性能评估值。
在一些实施例中,为了可以得到最优的目标问答模型,基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标问答模型,包括:
当基础问答模型对应多个编辑后问答模型时,基于每个编辑后问答模型在各个评估指标下的测试数据对应的识别准确率,从多个编辑后问答模型中确定待使用模型,编辑后问答模型与预设编辑策略一一对应;
基于待使用模型在各个评估指标下的测试数据对应的识别准确率,对待使用模型进行优化处理,得到目标问答模型。
其中,待使用模型是指在多个编辑后问答模型中,根据它们在各个评估指标下的测试数据对应的识别准确率,选择出一个最适合使用的模型,这个模型可以是在各个评估指标下表现最优秀的模型,或者是符合预设编辑策略的模型。
比如,分别采用KE、IKE、SERAC、MEND编辑基础问答模型,得到多个编辑后问答模型,通过至少一个评估指标下的测试数据,测试每个编辑后问答模型,可以得到每个编辑后问答模型在各个评估指标下的测试数据对应的识别准确率,以得到在各个评估指标下表现最优秀的编辑后问答模型作为待使用模型,再继续参考待使用模型在各个评估指标下的测试数据对应的识别准确率,对待使用模型进行优化处理,得到目标问答模型。
在一些实施例中,考虑到在内容播放平台可以播放多个多媒体内容,为了使内容播放平台播放的多媒体内容符合法律规定,在基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标问答模型之后,还包括:
获取待审核问题内容,待审核问题内容包括问题,以及待审核的多媒体内容;
通过目标问答模型中的问题编码模块,对待审核问题内容进行编码处理,得到待审核问题编码信息;
通过目标问答模型中的答案解码模块,对待审核问题编码信息进行答案预测处理,确定待审核问题内容对应的预测答案;
根据待审核问题内容对应的预测答案,将待审核问题内容发送至内容播放平台,以供内容播放平台播放待审核问题内容。
其中,待审核问题内容为问题,以及等待审核的多媒体内容。比如,等待审核的多媒体内容可以是待审核的视频、图像或文本等,问题可以是“待审核多媒体内容具体表达的是什么内容?”。
待审核问题编码信息是指对待审核问题内容进行编码处理后得到的表达形式,以使目标问答模型可以理解待审核问题内容,并进行后续的推断或回答处理。
待审核问题内容对应的预测答案是指目标问答模型中的答案解码模块对待审核问题编码信息推理和生成,从而得到的答案。
内容播放平台为播放多媒体内容的平台。比如,内容播放平台可以是视频播放平台、图像显示平台、文本阅读平台,等等。
比如,在将待审核的多媒体内容上传到内容播放平台前,先通过目标问答模型,预测待审核问题内容对应的预测答案,该预测答案可以描述待审核问题内容中待审核的多媒体内容所表达的主题等,根据主题,可以将待审核的多媒体内容上传到内容播放平台中,以供内容播放平台播放待审核问题内容。
由上可知,本申请实施例可以获取待编辑的基础问答模型,并对基础问答模型进行模型编辑处理,得到编辑后问答模型,基础问答模型包括问题编码模块和答案解码模块;获取针对编辑后问答模型的至少一个评估指标下的测试数据,测试数据包括至少一个测试问题内容和测试问题内容对应的期望答案,测试问题内容包括至少一个模态下的内容信息;通过编辑后问答模型中的问题编码模块,对测试问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息;通过编辑后问答模型中的答案解码模块,对问题编码信息进行答案预测处理,确定测试问题内容对应的预测答案;针对每种评估指标的测试数据,基于测试数据中各测试问题内容对应的期望答案与预测答案,得到评估指标下的测试数据对应的识别准确率;基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标问答模型,目标问答模型用于对目标问题内容进行答案预测处理,得到目标问题内容对应的答案。
由此本方案可以在优化基础问答模型的过程中,先编辑基础问答模型,得到编辑后问答模型,再通过至少一个评估指标下的测试数据,检验编辑后问答模型的识别准确率,通过各个评估指标下的测试数据对应的识别准确率,可以得到编辑后问答模型在不同评估指标下的性能表现,若编辑后问答模型的性能表现较差,对模型继续进行优化,这种模型优化方法可以避免对整个模型的参数进行更新,显著降低模型更新成本,提高模型更新效率;且基于至少一个评估指标下的测试数据来对编辑后问答模型的编辑效果进行测试,可以有效提高问答模型输出答案的准确性。由此,提升了模型优化效率。
根据上述实施例所描述的方法,以下将作进一步详细说明。
在本实施例中,将以基础问答模型属于多模态模型中的视觉语言问答模型(Vision Language Models,VLMs)为例,对本申请实施例的方法进行详细说明。
如图2a所示,视觉语言问答模型在编辑前,依据问题“图像展示了什么”,识别图像中的内容为“一只鸟飞在天空上”,然而图像的实际内容为“一只风筝飞在天空中”,通过编辑工具箱中的预设编辑策略,对视觉语言问答模型的图片编辑器和/或大规模语言模型进行编辑处理,以使编辑后的视觉语言问答模型可以准确识别图像。如图2b所示,一种视觉语言问答模型的编辑方法具体流程如下:
210、获取待编辑的视觉语言问答模型,以及编辑工具,编辑工具包括至少一个预设编辑策略。
220、从基础问答模型的视觉问答任务和图片描述任务中确定目标更新知识,目标更新知识为视觉语言问答模型无法正确预测的知识。
其中,视觉问答任务是指理解图像中的视觉内容,以及理解用于询问该图像的自然语言,随后生成这些问句的精确答案的任务。
图片描述任务是指理解图像视觉内容,随后用自然语言生成连贯且精确的图像描述的任务。
230、基于目标更新知识,采用编辑工具中的预设编辑策略对视觉语言问答模型进行模型编辑处理,得到预测编辑策略对应的编辑后视觉语言问答模型。
240、获取针对编辑后视觉语言问答模型的至少一个评估指标下的测试数据,测试数据包括至少一个测试问题内容和测试问题内容对应的期望答案,测试问题内容包括至少一个模态下的内容信息,其中,至少一个评估指标包括可靠性指标(Reliability)、提示文本稳定性指标(T-Locality)、整体稳定性指标(M-Locality)、提示文本泛化性指标(T-Generality)、整体泛化性指标(M-Generality)。
其中,可靠性指标用于衡量编辑后视觉语言问答模型可以正确理解与目标更新知识关联的问题内容,并生成正确的答案。
稳定性指标用于衡量编辑后视觉语言问答模型对初始知识中处于编辑范围之外的未更新知识的影响程度,未更新知识为初始知识中除目标更新知识以外的知识。
泛化性指标用于衡量编辑后视觉语言问答模型能够正确理解编辑范围内的数据,并生成正确的答案。
定义基础符号,规定一个视觉语言问答模型f,其模型参数是θ(主要包括两个部份θvision和θtext,分别代表视觉模块的参数和语言模块部份的参数)。目标更新知识下的问答数据中的问题内容为ie和xe分别是图片和文本。y0代表视觉语言问答模型基于ie和xe输出的错误答案,ye代表y0对应的正确答案。目标更新知识下的问答数据中的问题内容,以及问题内容对应的ye定义为Dedit。编辑后问答模型的可靠性是指利用更新后的模型参数来将视觉语言问答模型的输出从y0修正为ye,即f(ie,xe; θe)= ye,编辑后视觉语言问答模型的评估指标,一律使用M表示。
为了衡量编辑后视觉语言问答模型的可靠性,定义可靠性指标为:
Mrel=E(ie,xe, ye)~Dedit [1f(ie,xe; θe(ie,xe, ye))= ye],其中,其中θe表示的是更新后的参数,其中的改变量可以在θvision或者是在θtext。
同时为了验证编辑后视觉语言问答模型的稳定性,定义两个指标Mloctext和Mlocimage分别检验语言模块的提示文本稳定性指标和编辑后视觉语言问答模型的整体稳定性指标。具体的公式定义如下:
Mloctext=E(ie,xe, ye)~Dedit, (x,y)~Dloc-t[1f(x; θe(ie,xe, ye))= f(x;θ)];
Mlocimage=E(iv,xv, yv)~ Dloc-v,[1f(iv,xv; θe)= f(iv,xv; θ)];
其中,Dloc-t代表纯文本的测试数据集,Dloc-v代表多模态稳定性的测试数据集,(x,y)和(iv,xv, yv)代表编辑范围之外的数据,(ie,xe, ye)是编辑范围内使用的数据。
最后考虑编辑的泛化性,同样定义来两个指标Mgentext和Mgenimage来衡量编辑后问答模型在语言模块上的泛化性(提示文本泛化性指标),和编辑后视觉语言问答模型的泛化性(整体泛化性指标)。具体公式定义如下:
Mgentext=E(xr)~N(xe) [1f(ie,xr; θe)= f(ie,xe; θe)];
Mgenimage= E(ir)~N(ie) [1f(ir,xe; θe)= f(ie,xe; θe)];
其中N(xe)表示编辑范围内的文本和N(ie)表示编辑范围内的图像。
在一些实施例中,目标更新知识下的问答数据中问题内容包括至少一个模态下的内容信息,至少一个模态下的内容信息包括图像内容信息和文本提示信息;
获取针对编辑后视觉语言问答模型的至少一个整体泛化性指标下的测试数据,包括:
基于图像内容信息的语义信息,生成至少一个关联图像内容信息,关联图像内容信息的语义与图像内容信息的语义关联;
基于文本提示信息的语义信息,生成至少一个关联文本提示信息,关联文本提示信息的语义与文本提示信息的语义关联;
将各个关联文本提示信息分别与图像内容信息进行配对处理,得到提示文本泛化性指标下的至少一个第一测试问题内容;
将各个关联图像内容信息分别与文本提示信息进行配对处理,得到整体泛化性指标下的至少一个第二测试问题内容。
如图2c所示,在生成关联文本提示信息时,可以通过大规模语言模型,改写图像内容信息“你在找什么”,以得到关联文本提示信息,另外,在生成关联图像内容信息时,使视觉语言问答模型可以依据输入的标题“放各种炊具的木桌”生成关联图像内容信息,其中,提示创建用于限定关联文本提示信息和关联图像内容信息的生成。
250、通过预测编辑策略对应的编辑后视觉语言问答模型,对测试问题内容进行答案预测处理,确定测试问题内容对应的预测答案。
260、针对预测编辑策略对应的编辑后视觉语言问答模型在每种评估指标下的测试数据,基于测试数据中各测试问题内容对应的期望答案与预测答案,得到评估指标下的测试数据对应的识别准确率。
270、基于各个评估指标下的测试数据对应的识别准确率,对预测编辑策略对应的编辑后视觉语言问答模型进行优化处理,得到目标问答模型,目标问答模型用于对目标问题内容进行答案预测处理,得到目标问题内容对应的答案。
本申请提出了一种针对VLMs模型的模型编辑基准(各个评估指标下的测试数据对应的识别准确率),可以帮助模型编辑方法在视觉语言问答模型上进行编辑,并给出评估指标。本申请可以应用到以下的现实场景中。
1、多模态问答模型场景。本申请可以修正多模态问答模型在问答场景下的错误输出,对于图片或者语言理解不正确的数据,可以利用编辑多模态问答模型进行及时修正。若图片中的元素特征是多模态问答模型中所不具有的知识(即目标更新知识),可以通过模型编辑的方式给多模态问答模型添加对应的事实知识。
2、多模态审核场景。当新的审核范式加入时,可以不再需要重新训练模型,而是通过外接知识编辑器来实现添加对应的审核规则标准,可以减少资源的开销,节约成本。
3、多模态问答模型的安全场景。目前由于训练语料的庞大,其中夹杂了许多垃圾语料甚至是危害模型安全的数据,比如带有歧视,偏见,危害社会安全的一些预料。模型编辑可以训练特定的范式以识别这些不安全的数据,及时纠正多模态问答模型的输出。
本申请主要构建了多模态的一系列评估指标,并构造相关数据集:编辑视觉问答的数据集(Editing VQA,E-VQA)和编辑图像描述的数据集(Editing Image Caption,E-IC)。选择两个基础模型BLIP-2 OPT 3B和MiniGPT-4 7B,在视觉微调、语言微调、KE、MEND、SERAC和IKE的编辑策略上进行了测试。主要实验结果如表1所示,多模态泛化性结果和编辑不同模块结果如图2d所示:
表1,BLIP-2 OPT主实验结果(%),加粗数字为最佳性能。
由上述实验结果可以得出以下结论:
(1)没有利用约束稳定的模型编辑方法,在维持模型的稳定性上表现较差,比如SERAC和IKE这种外挂知识库的编辑方法。这从侧面说明了在MEND和KE这种模型上引入多模态稳定性和泛化性数据集和优化指标的重要性。
(2)在多模态问答模型上进行微调(Fine-Tuning,FT)是一个效率不太高并且模型开销很大的方式,在E-IC任务上表现额外突出。并且微调带来的灾难性遗忘问题严重,模型的稳定性差,在泛化性上,由于部份数据的过拟合,也无法做到成功编辑同一个编辑范围的数据。
在企鹅号的业务中,审核的场景非常多且复杂。如果审核范式更新会导致原有模型不再适用,导致资源的浪费和成本的增加。并且语言模型也有可能自身携带审核相关的错误事实知识,阻碍了业务的发展和性能的提升。
如图2e所示,本申请可以在多模态问答模型场景进行特定的知识编辑,可以利用在审核模型上,让审核模型更加可靠,在保持一定模型的稳定性的同时,做到提升审核模型的能力上限以及审核模型的泛化性,降低重新训练模型的成本,缩短业务的开发周期。
由上可知,本申请可以处理更复杂的数据场景,针对单模态问答模型的编辑只能够处理纯文本的数据。在多模态数据下,多模态问答模型可以处理更加丰富的场景;其次,本申请的模型编辑基准可以延伸到更多模态场景,并且能够让一些编辑方法在多模态上具有更加出色的泛化性和稳定性的表现;最后,本申请可以节约大量计算资源,模型编辑可以比重训模型或者微调模型使用更小的参数量,比如IKE就不需要更新任何参数,这极大地缩减了成本开销。
为了更好地实施以上方法,本申请实施例还提供一种问答模型的编辑装置,该问答模型的编辑装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
比如,在本实施例中,将以问答模型的编辑装置具体集成在服务器为例,对本申请实施例的方法进行详细说明。
例如,如图3所示,该问答模型的编辑装置可以包括编辑单元310、获取单元320、编码单元330、解码单元340、确定单元350以及优化单元360,如下:
(一)、编辑单元310。
编辑单元310,用于获取待编辑的基础问答模型,并对基础问答模型进行模型编辑处理,得到编辑后问答模型,基础问答模型包括问题编码模块和答案解码模块。
(二)、获取单元320。
获取单元320,用于获取针对编辑后问答模型的至少一个评估指标下的测试数据,测试数据包括至少一个测试问题内容和测试问题内容对应的期望答案,测试问题内容包括至少一个模态下的内容信息。
在一些实施例中,基础问答模型为具有初始知识的问答模型;
获取单元包括知识划分子单元和数据获取子单元,如下:
知识划分子单元,用于基于目标更新知识,确定初始知识中处于编辑范围之外的未更新知识;
数据获取子单元,用于根据目标更新知识下的问答数据和未更新知识下的问答数据,获取针对编辑后问答模型的至少一个评估指标下的测试数据。
在一些实施例中,初始知识下的问答数据包括至少一个问题内容和问题内容对应的期望答案,问题内容包括至少一个模态下的内容信息,装置还包括基础编码单元和基础解码单元:
基础编码单元,用于通过基础问答模型中的问题编码模块,对问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息;
基础解码单元,用于通过基础问答模型中的答案解码模块,对问题编码信息进行答案预测处理,确定问题内容对应的预测答案,问题内容对应的预测答案与期望答案的匹配度满足预设匹配条件。
在一些实施例中,至少一个评估指标包括可靠性指标、整体稳定性指标和泛化性指标;
数据获取子单元包括第一获取子单元,第二获取子单元和第三获取子单元,如下:
第一获取子单元,用于基于目标更新知识下的问答数据,确定可靠性指标下的测试数据;
第二获取子单元,用于基于未更新知识下的问答数据,生成整体稳定性指标下的测试数据;
第三获取子单元,用于基于目标更新知识下的问答数据中问题内容的语义信息,生成关联问题内容;根据关联问题内容和目标更新知识下的问答数据中问题内容对应的期望答案,生成泛化性指标下的测试数据。
在一些实施例中,目标更新知识下的问答数据中问题内容包括至少一个模态下的内容信息,至少一个模态下的内容信息包括图像内容信息和文本提示信息;关联问题内容包括关联图像内容信息和关联文本提示信息;
第三获取子单元包括关联图像生成子单元和关联文本生成子单元,如下:
关联图像生成子单元,用于基于图像内容信息的语义信息,生成至少一个关联图像内容信息,关联图像内容信息的语义与图像内容信息的语义关联;
关联文本生成子单元,用于基于文本提示信息的语义信息,生成至少一个关联文本提示信息,关联文本提示信息的语义与文本提示信息的语义关联。
在一些实施例中,第三获取子单元还包括内容配对子单元和数据构建子单元,如下:
内容配对子单元,用于将各个关联文本提示信息分别与图像内容信息进行配对处理,得到泛化性指标下的至少一个第一测试问题内容;
数据构建子单元,用于将各个关联图像内容信息分别与文本提示信息进行配对处理,得到泛化性指标下的至少一个第二测试问题内容;
根据第一测试问题内容、第二测试问题内容和目标更新知识下的问答数据中问题内容对应的期望答案,生成泛化性指标的测试数据。
(三)、编码单元330。
编码单元330,用于通过编辑后问答模型中的问题编码模块,对测试问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息。
在一些实施例中,至少一个模态下的内容信息包括图像内容信息和文本提示信息;
编码单元包括图像编码子单元、文本提取子单元和特征融合子单元,包括:
图像编码子单元,用于采用编辑后问答模型中的问题编码模块,对图像内容信息进行编码处理,得到图像内容信息的图像编码特征;
文本提取子单元,用于对文本提示信息进行特征提取,得到文本提示信息的文本查询特征;
特征融合子单元,用于将图像编码特征和文本查询特征进行融合,得到问题编码信息。
(四)、解码单元340。
解码单元340,用于通过编辑后问答模型中的答案解码模块,对问题编码信息进行答案预测处理,确定测试问题内容对应的预测答案。
(五)、确定单元350。
确定单元350,用于针对每种评估指标的测试数据,基于测试数据中各测试问题内容对应的期望答案与预测答案,得到评估指标下的测试数据对应的识别准确率。
在一些实施例中,至少一个评估指标下的评估指标还包括提示文本稳定性指标;提示文本稳定性指标下的测试数据包括至少一个测试文本提示信息;装置还包括第一处理单元、第二处理单元和模型测试单元,如下:
第一处理单元,用于通过基础问答模型对测试文本提示信息进行特征提取处理,得到基础问答模型输出对测试文本提示信息的第一处理结果;
第二处理单元,用于通过编辑后问答模型对测试文本提示信息进行特征提取处理,得到编辑后问答模型输出对测试文本提示信息的第二处理结果;
模型测试单元,用于根据各个测试文本提示信息对应的第一处理结果和第二处理结果,确定编辑后问答模型在提示文本稳定性指标下的测试数据对应的识别准确率。
在一些实施例中,确定单元包括匹配计算子单元、匹配统计子单元和准确率计算子单元,包括:
匹配计算子单元,用于针对每种评估指标的测试数据,确定测试数据中各测试问题内容对应的期望答案与预测答案之间的匹配度;
匹配统计子单元,用于根据匹配度,确定满足预设匹配条件的测试数据的目标数量;
准确率计算子单元,用于根据目标数量和评估指标下的测试数据的数量,得到评估指标下的测试数据对应的识别准确率。
(六)、优化单元360。
优化单元360,用于基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标问答模型,目标问答模型用于对目标问题内容进行答案预测处理,得到目标问题内容对应的答案。
在一些实施例中,问题编码模块包括至少一个编码处理层,答案解码模块包括至少一个解码处理层;
编辑单元包括内容编辑子单元,如下:
内容编辑子单元,用于基于针对基础问答模型的待编辑的目标更新知识,对基础问答模型进行内容处理层的编辑处理,得到编辑后问答模型,内容处理层为编码处理层或解码处理层;
优化单元包括模型优化子单元,包括:
模型优化子单元,用于基于各个评估指标的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标更新知识对应的目标问答模型。
在一些实施例中,内容编辑子单元包括第一编辑子单元、第二编辑子单元和第三编辑子单元,如下:
第一编辑子单元,用于基于针对基础问答模型的待编辑的目标更新知识,从基础问答模型中选取至少一个内容处理层进行参数调整,得到编辑后问答模型;
或者,第二编辑子单元,用于基于针对基础问答模型的待编辑的目标更新知识,确定基础问答模型对应的待添加内容处理层,将待添加内容处理层添加到基础问答模型中;
或者,第三编辑子单元,用于基于针对基础问答模型的待编辑的目标更新知识,从基础问答模型中选取至少一个内容处理层进行删除,得到编辑后问答模型。
在一些实施例中,优化单元包括评估子单元和性能优化子单元,包括:
评估子单元,用于基于评估指标的测试数据对应的识别准确率,确定编辑后问答模型在评估指标下的性能评估值;
性能优化子单元,用于基于编辑后问答模型在各个评估指标上的性能评估值,对编辑后问答模型进行优化处理,得到目标问答模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的问答模型的编辑装置由编辑单元获取待编辑的基础问答模型,并对基础问答模型进行模型编辑处理,得到编辑后问答模型,基础问答模型包括问题编码模块和答案解码模块;由获取单元获取针对编辑后问答模型的至少一个评估指标下的测试数据,测试数据包括至少一个测试问题内容和测试问题内容对应的期望答案,测试问题内容包括至少一个模态下的内容信息;通过编辑后问答模型中的问题编码模块,由编码单元对测试问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息;通过编辑后问答模型中的答案解码模块,由解码单元对问题编码信息进行答案预测处理,确定测试问题内容对应的预测答案;由确定单元针对每种评估指标的测试数据,基于测试数据中各测试问题内容对应的期望答案与预测答案,得到评估指标下的测试数据对应的识别准确率;由优化单元基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标问答模型,目标问答模型用于对目标问题内容进行答案预测处理,得到目标问题内容对应的答案。
由此,本申请实施例可以通过模型编辑、以及对编辑后问答模型进行至少一个评估指标的测试,来提高模型更新效率和输出答案的准确性。
本申请实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑,等等;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,等等。
在一些实施例中,该问答模型的编辑装置还可以集成在多个电子设备中,比如,问答模型的编辑装置可以集成在多个服务器中,由多个服务器来实现本申请的问答模型的编辑方法。
在本实施例中,将以本实施例的电子设备是服务器为例进行详细描述,比如,如图4所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器410、一个或一个以上计算机可读存储介质的存储器420、电源430、输入模块440以及通信模块450等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器410是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器420内的数据,执行服务器的各种功能和处理数据。在一些实施例中,处理器410可包括一个或多个处理核心;在一些实施例中,处理器410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
存储器420可用于存储软件程序以及模块,处理器410通过运行存储在存储器420的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器420还可以包括存储器控制器,以提供处理器410对存储器420的访问。
服务器还包括给各个部件供电的电源430,在一些实施例中,电源430可以通过电源管理系统与处理器410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源430还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入模块440,该输入模块440可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括通信模块450,在一些实施例中通信模块450可以包括无线模块,服务器可以通过该通信模块450的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块450可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器410会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器420中,并由处理器410来运行存储在存储器420中的应用程序,从而实现各种功能,如下:
获取待编辑的基础问答模型,并对基础问答模型进行模型编辑处理,得到编辑后问答模型,基础问答模型包括问题编码模块和答案解码模块;
获取针对编辑后问答模型的至少一个评估指标下的测试数据,测试数据包括至少一个测试问题内容和测试问题内容对应的期望答案,测试问题内容包括至少一个模态下的内容信息;
通过编辑后问答模型中的问题编码模块,对测试问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息;
通过编辑后问答模型中的答案解码模块,对问题编码信息进行答案预测处理,确定测试问题内容对应的预测答案;
针对每种评估指标的测试数据,基于测试数据中各测试问题内容对应的期望答案与预测答案,得到评估指标下的测试数据对应的识别准确率;
基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标问答模型,目标问答模型用于对目标问题内容进行答案预测处理,得到目标问题内容对应的答案。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,在优化基础问答模型的过程中,可以先编辑基础问答模型,得到编辑后问答模型,再通过至少一个评估指标下的测试数据,检验编辑后问答模型的识别准确率,通过各个评估指标下的测试数据对应的识别准确率,可以得到编辑后问答模型在不同评估指标下的性能表现,若编辑后问答模型的性能表现较差,对模型继续进行优化,这种模型优化方法可以避免对整个模型的参数进行更新,显著降低模型更新成本,提高模型更新效率;且基于至少一个评估指标下的测试数据来对编辑后问答模型的编辑效果进行测试,可以有效提高问答模型输出答案的准确性。由此,提升了模型优化效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种问答模型的编辑方法中的步骤。例如,该指令可以执行如下步骤:
获取待编辑的基础问答模型,并对基础问答模型进行模型编辑处理,得到编辑后问答模型,基础问答模型包括问题编码模块和答案解码模块;
获取针对编辑后问答模型的至少一个评估指标下的测试数据,测试数据包括至少一个测试问题内容和测试问题内容对应的期望答案,测试问题内容包括至少一个模态下的内容信息;
通过编辑后问答模型中的问题编码模块,对测试问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息;
通过编辑后问答模型中的答案解码模块,对问题编码信息进行答案预测处理,确定测试问题内容对应的预测答案;
针对每种评估指标的测试数据,基于测试数据中各测试问题内容对应的期望答案与预测答案,得到评估指标下的测试数据对应的识别准确率;
基于各个评估指标下的测试数据对应的识别准确率,对编辑后问答模型进行优化处理,得到目标问答模型,目标问答模型用于对目标问题内容进行答案预测处理,得到目标问题内容对应的答案。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序/指令,该计算机程序/指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序/指令,处理器执行该计算机程序/指令,使得该电子设备执行上述实施例中提供的问答模型的编辑方面的各种可选实现方式中提供的方法。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种问答模型的编辑方法中的步骤,因此,可以实现本申请实施例所提供的任一种问答模型的编辑方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种问答模型的编辑方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (16)
1.一种问答模型的编辑方法,其特征在于,包括:
获取待编辑的基础问答模型,并对所述基础问答模型进行模型编辑处理,得到编辑后问答模型,所述基础问答模型包括问题编码模块和答案解码模块;
获取针对所述编辑后问答模型的至少一个评估指标下的测试数据,所述测试数据包括至少一个测试问题内容和所述测试问题内容对应的期望答案,所述测试问题内容包括至少一个模态下的内容信息;
通过所述编辑后问答模型中的问题编码模块,对所述测试问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息;
通过所述编辑后问答模型中的答案解码模块,对所述问题编码信息进行答案预测处理,确定所述测试问题内容对应的预测答案;
针对每种评估指标的测试数据,基于所述测试数据中各测试问题内容对应的期望答案与预测答案,得到所述评估指标下的测试数据对应的识别准确率;
基于各个评估指标下的测试数据对应的识别准确率,对所述编辑后问答模型进行优化处理,得到目标问答模型,所述目标问答模型用于对目标问题内容进行答案预测处理,得到所述目标问题内容对应的答案。
2.根据权利要求1所述的方法,其特征在于,所述问题编码模块包括至少一个编码处理层,所述答案解码模块包括至少一个解码处理层;
所述对所述基础问答模型进行模型编辑处理,得到编辑后问答模型,包括:
基于针对所述基础问答模型的待编辑的目标更新知识,对所述基础问答模型进行内容处理层的编辑处理,得到编辑后问答模型,所述内容处理层为编码处理层或解码处理层;
所述基于各个评估指标下的测试数据对应的识别准确率,对所述编辑后问答模型进行优化处理,得到目标问答模型,包括:
基于各个评估指标下的测试数据对应的识别准确率,对所述编辑后问答模型进行优化处理,得到所述目标更新知识对应的目标问答模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述基础问答模型进行内容处理层的编辑处理,得到编辑后问答模型,包括:
基于针对所述基础问答模型的待编辑的目标更新知识,从所述基础问答模型中选取至少一个内容处理层进行参数调整,得到编辑后问答模型;
或者,基于针对所述基础问答模型的待编辑的目标更新知识,确定所述基础问答模型对应的待添加内容处理层,将所述待添加内容处理层添加到所述基础问答模型中;
或者,基于针对所述基础问答模型的待编辑的目标更新知识,从所述基础问答模型中选取至少一个内容处理层进行删除,得到编辑后问答模型。
4.根据权利要求2所述的方法,其特征在于,所述基础问答模型为具有初始知识的问答模型;
所述获取针对所述编辑后问答模型的至少一个评估指标下的测试数据,包括:
基于所述目标更新知识,确定初始知识中处于编辑范围之外的未更新知识;
根据所述目标更新知识下的问答数据和所述未更新知识下的问答数据,获取针对所述编辑后问答模型的至少一个评估指标下的测试数据。
5.根据权利要求4所述的方法,其特征在于,所述至少一个评估指标包括可靠性指标、整体稳定性指标和泛化性指标;
所述根据所述目标更新知识下的问答数据和所述未更新知识下的问答数据,获取针对所述编辑后问答模型的至少一个评估指标下的测试数据,包括:
基于所述目标更新知识下的问答数据,确定所述可靠性指标下的测试数据;
基于所述未更新知识下的问答数据,生成整体稳定性指标下的测试数据;
基于所述目标更新知识下的问答数据中问题内容的语义信息,生成关联问题内容;
根据关联问题内容和所述目标更新知识下的问答数据中问题内容对应的期望答案,生成泛化性指标下的测试数据。
6.根据权利要求5所述的方法,其特征在于,所述至少一个评估指标下的评估指标还包括提示文本稳定性指标;所述提示文本稳定性指标下的测试数据包括至少一个测试文本提示信息;所述方法还包括:
通过基础问答模型对所述测试文本提示信息进行特征提取处理,得到所述基础问答模型输出对所述测试文本提示信息的第一处理结果;
通过编辑后问答模型对所述测试文本提示信息进行特征提取处理,得到所述编辑后问答模型输出对所述测试文本提示信息的第二处理结果;
根据各个测试文本提示信息对应的第一处理结果和第二处理结果,确定所述编辑后问答模型在所述提示文本稳定性指标下的测试数据对应的识别准确率。
7.根据权利要求5所述的方法,其特征在于,所述目标更新知识下的问答数据中问题内容包括至少一个模态下的内容信息,所述至少一个模态下的内容信息包括图像内容信息和文本提示信息;所述关联问题内容包括关联图像内容信息和关联文本提示信息;
所述基于所述目标更新知识下的问答数据中问题内容的语义信息,生成关联问题内容,包括:
基于所述图像内容信息的语义信息,生成至少一个关联图像内容信息,所述关联图像内容信息的语义与所述图像内容信息的语义关联;
基于所述文本提示信息的语义信息,生成至少一个关联文本提示信息,所述关联文本提示信息的语义与所述文本提示信息的语义关联。
8.根据权利要求7所述的方法,其特征在于,所述根据关联问题内容和所述目标更新知识下的问答数据中问题内容对应的期望答案,生成泛化性指标的测试数据,包括:
将各个关联文本提示信息分别与所述图像内容信息进行配对处理,得到所述泛化性指标下的至少一个第一测试问题内容;
将各个关联图像内容信息分别与所述文本提示信息进行配对处理,得到所述泛化性指标下的至少一个第二测试问题内容;
根据所述第一测试问题内容、第二测试问题内容和所述目标更新知识下的问答数据中问题内容对应的期望答案,生成泛化性指标的测试数据。
9.根据权利要求7所述的方法,其特征在于,所述初始知识下的问答数据包括至少一个问题内容和所述问题内容对应的期望答案,所述问题内容包括至少一个模态下的内容信息,所述方法还包括:
通过所述基础问答模型中的问题编码模块,对所述问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息;
通过所述基础问答模型中的答案解码模块,对所述问题编码信息进行答案预测处理,确定所述问题内容对应的预测答案,所述问题内容对应的预测答案与期望答案的匹配度满足预设匹配条件。
10.根据权利要求1所述的方法,其特征在于,所述基于各个评估指标下的测试数据对应的识别准确率,对所述编辑后问答模型进行优化处理,得到目标问答模型,包括:
基于所述评估指标下的测试数据对应的识别准确率,确定所述编辑后问答模型在所述评估指标下的性能评估值;
基于所述编辑后问答模型在各个评估指标上的性能评估值,对所述编辑后问答模型进行优化处理,得到目标问答模型。
11.如权利要求1所述的方法,其特征在于,所述针对每种评估指标的测试数据,基于所述测试数据中各测试问题内容对应的期望答案与预测答案,得到所述评估指标下的测试数据对应的识别准确率,包括:
针对每种所述评估指标的测试数据,确定所述测试数据中各测试问题内容对应的期望答案与预测答案之间的匹配度;
根据所述匹配度,确定满足预设匹配条件的测试问题内容的目标数量;
根据所述目标数量和所述评估指标下的测试数据中测试问题内容的数量,得到所述评估指标下的测试数据对应的识别准确率。
12.如权利要求1所述的方法,其特征在于,所述至少一个模态下的内容信息包括图像内容信息和文本提示信息;
所述通过所述编辑后问答模型中的问题编码模块,对所述测试问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息,包括:
采用所述编辑后问答模型中的问题编码模块,对所述图像内容信息进行编码处理,得到所述图像内容信息的图像编码特征;
对所述文本提示信息进行特征提取,得到所述文本提示信息的文本查询特征;
将所述图像编码特征和所述文本查询特征进行融合,得到问题编码信息。
13.一种问答模型的编辑方法,其特征在于,包括:
编辑单元,用于获取待编辑的基础问答模型,并对所述基础问答模型进行模型编辑处理,得到编辑后问答模型,所述基础问答模型包括问题编码模块和答案解码模块;
获取单元,用于获取针对所述编辑后问答模型的至少一个评估指标下的测试数据,所述测试数据包括至少一个测试问题内容和所述测试问题内容对应的期望答案,所述测试问题内容包括至少一个模态下的内容信息;
编码单元,用于通过所述编辑后问答模型中的问题编码模块,对所述测试问题内容的至少一个模态下的内容信息进行编码处理,得到问题编码信息;
解码单元,用于通过所述编辑后问答模型中的答案解码模块,对所述问题编码信息进行答案预测处理,确定所述测试问题内容对应的预测答案;
确定单元,用于针对每种评估指标的测试数据,基于所述测试数据中各测试问题内容对应的期望答案与预测答案,得到所述评估指标下的测试数据对应的识别准确率;
优化单元,用于基于各个评估指标下的测试数据对应的识别准确率,对所述编辑后问答模型进行优化处理,得到目标问答模型,所述目标问答模型用于对目标问题内容进行答案预测处理,得到所述目标问题内容对应的答案。
14.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~11任一项所述的问答模型的编辑方法中的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~11任一项所述的问答模型的编辑方法中的步骤。
16.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1~11任一项所述的问答模型的编辑方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311147845.9A CN116882450B (zh) | 2023-09-07 | 2023-09-07 | 问答模型的编辑方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311147845.9A CN116882450B (zh) | 2023-09-07 | 2023-09-07 | 问答模型的编辑方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116882450A true CN116882450A (zh) | 2023-10-13 |
CN116882450B CN116882450B (zh) | 2023-12-26 |
Family
ID=88268441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311147845.9A Active CN116882450B (zh) | 2023-09-07 | 2023-09-07 | 问答模型的编辑方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116882450B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556920A (zh) * | 2023-10-23 | 2024-02-13 | 星环信息科技(上海)股份有限公司 | 一种大模型幻觉治理方法、装置、设备及存储介质 |
CN118114000A (zh) * | 2024-01-17 | 2024-05-31 | 上海歆广数据科技有限公司 | 一种基于大语言模型的智能对话引擎系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143540A (zh) * | 2020-04-03 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 智能问答方法、装置、设备及存储介质 |
CN112231448A (zh) * | 2020-12-09 | 2021-01-15 | 南京云问网络技术有限公司 | 一种文档智能问答方法和装置 |
CN114547329A (zh) * | 2022-01-25 | 2022-05-27 | 阿里巴巴(中国)有限公司 | 建立预训练语言模型的方法、语义解析方法和装置 |
CN114648021A (zh) * | 2022-03-18 | 2022-06-21 | 中国工商银行股份有限公司 | 问答模型的训练方法、问答方法及装置、设备和存储介质 |
CN115062134A (zh) * | 2022-08-17 | 2022-09-16 | 腾讯科技(深圳)有限公司 | 知识问答模型训练及知识问答方法、装置和计算机设备 |
US20220318286A1 (en) * | 2020-02-24 | 2022-10-06 | Boe Technology Group Co., Ltd. | Data updating method and apparatus, electronic device and computer readable storage medium |
CN115357728A (zh) * | 2022-08-22 | 2022-11-18 | 浙江大学 | 基于Transformer的大模型知识图谱表示方法 |
CN116561538A (zh) * | 2023-04-04 | 2023-08-08 | 厦门美柚股份有限公司 | 问答评分方法、问答评分装置、电子设备及存储介质 |
-
2023
- 2023-09-07 CN CN202311147845.9A patent/CN116882450B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220318286A1 (en) * | 2020-02-24 | 2022-10-06 | Boe Technology Group Co., Ltd. | Data updating method and apparatus, electronic device and computer readable storage medium |
CN111143540A (zh) * | 2020-04-03 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 智能问答方法、装置、设备及存储介质 |
CN112231448A (zh) * | 2020-12-09 | 2021-01-15 | 南京云问网络技术有限公司 | 一种文档智能问答方法和装置 |
CN114547329A (zh) * | 2022-01-25 | 2022-05-27 | 阿里巴巴(中国)有限公司 | 建立预训练语言模型的方法、语义解析方法和装置 |
CN114648021A (zh) * | 2022-03-18 | 2022-06-21 | 中国工商银行股份有限公司 | 问答模型的训练方法、问答方法及装置、设备和存储介质 |
CN115062134A (zh) * | 2022-08-17 | 2022-09-16 | 腾讯科技(深圳)有限公司 | 知识问答模型训练及知识问答方法、装置和计算机设备 |
CN115357728A (zh) * | 2022-08-22 | 2022-11-18 | 浙江大学 | 基于Transformer的大模型知识图谱表示方法 |
CN116561538A (zh) * | 2023-04-04 | 2023-08-08 | 厦门美柚股份有限公司 | 问答评分方法、问答评分装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
PENG WANG: "EasyEdit:An Easy-to-use Knowledge Editing Framework for Large Language Models", 《HTTPS://ARXIV.ORG/PDF/2308.07269.PDF》, pages 1 - 6 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556920A (zh) * | 2023-10-23 | 2024-02-13 | 星环信息科技(上海)股份有限公司 | 一种大模型幻觉治理方法、装置、设备及存储介质 |
CN117556920B (zh) * | 2023-10-23 | 2024-05-31 | 星环信息科技(上海)股份有限公司 | 一种大模型幻觉治理方法、装置、设备及存储介质 |
CN118114000A (zh) * | 2024-01-17 | 2024-05-31 | 上海歆广数据科技有限公司 | 一种基于大语言模型的智能对话引擎系统 |
CN118114000B (zh) * | 2024-01-17 | 2024-08-20 | 上海歆广数据科技有限公司 | 一种基于大语言模型的智能对话引擎系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116882450B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116882450B (zh) | 问答模型的编辑方法、装置、电子设备和存储介质 | |
CN112799747A (zh) | 智能助理评价、推荐方法、系统、终端及可读存储介质 | |
CN114281957A (zh) | 自然语言数据查询方法、装置、电子设备及存储介质 | |
CN116579339B (zh) | 任务执行方法和优化任务执行方法 | |
CN115964459B (zh) | 基于食品安全认知图谱的多跳推理问答方法及系统 | |
CN112131883A (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN117033602A (zh) | 一种多模态的用户心智感知问答模型的构建方法 | |
CN115310551A (zh) | 文本分析模型训练方法、装置、电子设备和存储介质 | |
CN117033721A (zh) | 一种基于法律知识图谱的法律咨询报告生成系统及方法 | |
CN117972434B (zh) | 文本处理模型的训练方法、装置、设备、介质和程序产品 | |
CN116956116A (zh) | 文本的处理方法和装置、存储介质及电子设备 | |
CN115114974A (zh) | 一种模型蒸馏方法、装置、计算机设备和存储介质 | |
CN111259668A (zh) | 阅读任务处理方法、模型训练方法、装置和计算机设备 | |
Tiwari et al. | A dynamic goal adapted task oriented dialogue agent | |
CN113705191A (zh) | 样本语句的生成方法、装置、设备及存储介质 | |
CN117453885A (zh) | 提问信息处理方法、装置、设备、存储介质及产品 | |
CN117216185A (zh) | 分发内容的评论生成方法、装置、设备及存储介质 | |
CN118261163A (zh) | 基于transformer结构的智能评价报告生成方法及系统 | |
CN116974626B (zh) | 分析序列图生成方法、装置、设备和计算机可读存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN117668199A (zh) | 一种智能客服问答预测及推荐对话生成方法及装置 | |
CN116910190A (zh) | 多任务感知模型获取方法、装置、设备及可读存储介质 | |
Acharya et al. | A survey on symbolic knowledge distillation of large language models | |
CN115269844B (zh) | 模型的处理方法、装置、电子设备和存储介质 | |
CN114663650B (zh) | 图像描述生成方法及装置、电子设备、可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |