CN117608997A - 评测方法、分类评测方法、排序评测方法及装置 - Google Patents

评测方法、分类评测方法、排序评测方法及装置 Download PDF

Info

Publication number
CN117608997A
CN117608997A CN202410062332.6A CN202410062332A CN117608997A CN 117608997 A CN117608997 A CN 117608997A CN 202410062332 A CN202410062332 A CN 202410062332A CN 117608997 A CN117608997 A CN 117608997A
Authority
CN
China
Prior art keywords
evaluation
evaluated
model
data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410062332.6A
Other languages
English (en)
Other versions
CN117608997B (zh
Inventor
关新宇
郁博文
余海洋
李永彬
黄非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202410062332.6A priority Critical patent/CN117608997B/zh
Publication of CN117608997A publication Critical patent/CN117608997A/zh
Application granted granted Critical
Publication of CN117608997B publication Critical patent/CN117608997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供评测方法、分类评测方法、排序评测方法及装置,其中评测方法包括:获取待评测任务、第一评测模型和至少两个第二评测模型,其中,待评测任务包括待评测数据和至少一个评测维度,第一评测模型的参数量大于各第二评测模型的参数量;将待评测数据和各评测维度输入第一评测模型,获得待评测数据在各评测维度对应的目标评测规则;将待评测数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的待评测数据在各评测维度对应的初始评测结果;将各初始评测结果输入第一评测模型,获得第一评测模型输出的待评测任务的目标评测结果。降低了模型调用成本,提高对待评测数据进行评测的准确性。

Description

评测方法、分类评测方法、排序评测方法及装置
技术领域
本说明书实施例涉及人工智能技术领域,特别涉及一种评测方法、一种分类评测方法、一种排序评测方法和一种评测模型训练方法。
背景技术
随着人工智能的快速发展,人工智能已经逐渐深入人们的日常生活,尤其是大模型(生成式预训练语言模型(Generative Pre-trained Transformer))的使用在各个应用领域越来越广泛,例如,在客户服务、虚拟助手、文档分析、创意生成、智能问答等领域都应用到大模型。但随着人们使用需求的提高,对人工智能的输出结果也提出了更高的要求,基于此,在获得人工智能的输出结果后,还需要对输出结果进一步评测,评测方式可以基于大模型来实现。
在实际应用中,大模型调用普遍存在着调用成本高的问题,且在评测过程中所使用的评测规则通常由人工制定,存在评测规则制定成本高的问题。又由于人工制定评测规则,会使得大模型基于评测规则进行评测时,对评测规则的理解与人工制定理解不符,从而使得评测结果质量较低。
因此,亟需一种方法来解决上述技术问题。
发明内容
有鉴于此,本说明书实施例提供了一种评测方法、一种分类评测方法、一种排序评测方法和一种评测模型训练方法。本说明书一个或者多个实施例同时涉及一种评测装置、一种分类评测装置、一种排序评测装置和一种评测模型训练装置,一种评测系统,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种评测方法,包括:
获取待评测任务、第一评测模型和至少两个第二评测模型,其中,所述待评测任务包括待评测数据和至少一个评测维度,所述第一评测模型的参数量大于各第二评测模型的参数量;
将所述待评测数据和各评测维度输入所述第一评测模型,获得所述待评测数据在各评测维度对应的目标评测规则;
将所述待评测数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测数据在各评测维度对应的初始评测结果;
将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测任务的目标评测结果。
根据本说明书实施例的第二方面,提供了一种评测装置,包括:
获取模块,被配置为获取待评测任务、第一评测模型和至少两个第二评测模型,其中,所述待评测任务包括待评测数据和至少一个评测维度,所述第一评测模型的参数量大于各第二评测模型的参数量;
第一输入模块,被配置为将所述待评测数据和各评测维度输入所述第一评测模型,获得所述待评测数据在各评测维度对应的目标评测规则;
第二输入模块,被配置为将所述待评测数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测数据在各评测维度对应的初始评测结果;
第三输入模块,被配置为将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测任务的目标评测结果。
根据本说明书实施例的第三方面,提供了一种分类评测方法,包括:
获取待评测分类任务、第一评测模型和至少两个第二评测模型,其中,所述待评测分类任务包括待评测分类数据和至少一个评测维度,所述第一评测模型的参数量大于各第二评测模型的参数量;
将所述待评测分类数据和各评测维度输入所述第一评测模型,获得所述待评测分类数据在各评测维度对应的目标评测规则;
将所述待评测分类数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测分类数据在各评测维度对应的初始评测结果;
将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测分类任务的目标评测结果;
获取预设分类阈值,并根据所述预设分类阈值和所述待评测分类任务的目标评测结果对所述待评测分类数据进行分类。
根据本说明书实施例的第四方面,提供了一种分类评测装置,包括:
分类任务获取模块,被配置为获取待评测分类任务、第一评测模型和至少两个第二评测模型,其中,所述待评测分类任务包括待评测分类数据和至少一个评测维度,所述第一评测模型的参数量大于各第二评测模型的参数量;
第一分类输入模块,被配置为将所述待评测分类数据和各评测维度输入所述第一评测模型,获得所述待评测分类数据在各评测维度对应的目标评测规则;
第二分类输入模块,被配置为将所述待评测分类数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测分类数据在各评测维度对应的初始评测结果;
第三分类输入模块,被配置为将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测分类任务的目标评测结果;
分类模块,被配置为获取预设分类阈值,并根据所述预设分类阈值和所述待评测分类任务的目标评测结果对所述待评测分类数据进行分类。
根据本说明书实施例的第五方面,提供了一种排序评测方法,包括:
获取待评测排序任务、第一评测模型和至少两个第二评测模型,其中,所述待评测排序任务包括待评测排序数据和至少一个评测维度,所述第一评测模型的参数量大于各第二评测模型的参数量;
将所述待评测排序数据和各评测维度输入所述第一评测模型,获得所述待评测排序数据在各评测维度对应的目标评测规则;
将所述待评测排序数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测排序数据在各评测维度对应的初始评测结果;
将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测排序任务的目标评测结果;
根据所述待评测排序任务的目标评测结果,对所述待评测排序数据进行排序。
根据本说明书实施例的第六方面,提供了一种排序评测装置,包括:
排序任务获取模块,被配置为获取待评测排序任务、第一评测模型和至少两个第二评测模型,其中,所述待评测排序任务包括待评测排序数据和至少一个评测维度,所述第一评测模型的参数量大于各第二评测模型的参数量;
第一排序输入模块,被配置为将所述待评测排序数据和各评测维度输入所述第一评测模型,获得所述待评测排序数据在各评测维度对应的目标评测规则;
第二排序输入模块,被配置为将所述待评测排序数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测排序数据在各评测维度对应的初始评测结果;
第三排序输入模块,被配置为将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测排序任务的目标评测结果;
排序模块,被配置为根据所述待评测排序任务的目标评测结果,对所述待评测排序数据进行排序。
根据本说明书实施例的第七方面,提供了一种评测模型训练方法,应用于云侧设备,包括:
获取第一训练样本数据和第二训练样本数据,其中,所述第一训练样本数据包括第一待评测样本、第一样本评测分值和至少一个样本评测维度,所述第二训练样本数据包括第二待评测样本、第二样本评测分值和至少一个样本评测维度;
将所述第一待评测样本、第一样本评测分值和各样本评测维度输入第一评测模型,获得所述第一评测模型输出的所述第一待评测样本在各样本评测维度对应的初始评测规则;
将所述第二待评测样本、所述第二样本评测分值、各样本评测维度和各初始评测规则输入各第二评测模型,获得各第二评测模型输出的所述第二待评测样本在各样本评测维度对应的参考评测分值;
获取预设评测阈值,并基于各参考评测分值和所述第二样本评测分值计算所述第二待评测数据在各评测维度对应的评测差异分值;
在存在评测差异分值未达到所述预设评测阈值的情况下,根据评测差异分值在所述第二训练样本数据中筛选第三训练样本数据;
基于所述第三训练样本数据、各初始评测规则和各参考评测分值,继续训练所述第一评测模型和各第二评测模型,直至评测差异分值达到所述预设评测阈值停止训练所述第一评测模型和各第二评测模型;
获取所述第一评测模型的第一模型参数和各第二评测模型的第二模型参数,并将所述第一模型参数和各第二模型参数反馈至目标终端。
根据本说明书实施例的第八方面,提供了一种评测模型训练装置,应用于云侧设备,包括:
样本数据获取模块,被配置为获取第一训练样本数据和第二训练样本数据,其中,所述第一训练样本数据包括第一待评测样本、第一样本评测分值和至少一个样本评测维度,所述第二训练样本数据包括第二待评测样本、第二样本评测分值和至少一个样本评测维度;
第一样本输入模块,被配置为将所述第一待评测样本、第一样本评测分值和各样本评测维度输入第一评测模型,获得所述第一评测模型输出的所述第一待评测样本在各样本评测维度对应的初始评测规则;
第二样本输入模块,被配置为将所述第二待评测样本、所述第二样本评测分值、各样本评测维度和各初始评测规则输入各第二评测模型,获得各第二评测模型输出的所述第二待评测样本在各样本评测维度对应的参考评测分值;
计算模块,被配置为获取预设评测阈值,并基于各参考评测分值和所述第二样本评测分值计算所述第二待评测数据在各评测维度对应的评测差异分值;
筛选模块,被配置为在存在评测差异分值未达到所述预设评测阈值的情况下,根据评测差异分值在所述第二训练样本数据中筛选第三训练样本数据;
训练模块,被配置为基于所述第三训练样本数据、各初始评测规则和各参考评测分值,继续训练所述第一评测模型和各第二评测模型,直至评测差异分值达到所述预设评测阈值停止训练所述第一评测模型和各第二评测模型;
反馈模块,被配置为获取所述第一评测模型的第一模型参数和各第二评测模型的第二模型参数,并将所述第一模型参数和各第二模型参数反馈至目标终端。
根据本说明书实施例的第九方面,提供了一种评测系统,包括第一评测模型和至少两个第二评测模型;
所述第一评测模型,用于接收待评测数据和至少一个评测维度,根据所述待评测数据和各评测维度生成所述待评测数据在各评测维度对应的目标评测规则;
目标第二评测模型,用于接收所述待评测数据和各评测维度对应的目标评测规则,根据待评测维度对应的目标评测规则,对所述待评测数据进行评测,生成所述待评测数据在所述待评测维度对应的目标候选评测结果,接收所述目标候选评测结果和各参考第二评测模型输出的参考候选评测结果,根据所述目标候选评测结果和各参考第二评测模型输出的参考候选评测结果,生成所述待评测数据在所述待评测维度对应的初始评测结果,其中,所述目标第二评测模型为各第二评测模型中的任一个,所述待评测维度为各评测维度中的任一个,参考第二评测模型为各第二评测模型中除所述目标第二评测模型之外的第二评测模型;
所述第一评测模型,还用于接收各第二评测模型生成的初始评测结果,根据各第二评测模型生成的初始评测结果,生成所述待评测数据的目标评测结果。
根据本说明书实施例的第十方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述方法的步骤。
根据本说明书实施例的第十一方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述方法的步骤。
根据本说明书实施例的第十二方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述方法的步骤。
本说明书一个实施例实现了,将生成评测规则这种难度较高的任务分配给第一评测模型进行处理,将根据各评测规则对待评测数据进行评测这种难度较低的任务分配给第二评测模型进行处理,同时,为了提高评测的准确性,部署多个第二评测模型对待评测数据进行评测,可以实现在降低模型调用成本的同时,提高对待评测数据进行评测的准确性。
附图说明
图1是本说明书一个实施例提供的一种评测方法的应用场景示意图;
图2是本说明书一个实施例提供的一种评测方法的流程图;
图3是本说明书一个实施例提供的一种获得目标评测规则的流程示意图;
图4是本说明书一个实施例提供的一种获得初始评测结果的流程示意图;
图5是本说明书一个实施例提供的一种评测方法的处理过程流程图;
图6是本说明书一个实施例提供的一种评测装置的结构示意图;
图7是本说明书一个实施例提供的一种分类评测方法的流程图;
图8是本说明书一个实施例提供的一种分类评测装置的结构示意图;
图9是本说明书一个实施例提供的一种排序评测方法的流程图;
图10是本说明书一个实施例提供的一种排序评测装置的结构示意图;
图11是本说明书一个实施例提供的一种评测模型训练方法的流程图;
图12是本说明书一个实施例提供的一种评测模型训练装置的结构示意图;
图13是本说明书一个实施例提供的一种评测系统的架构图;
图14是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本说明书一个或多个实施例中,大模型是指具有大规模模型参数的深度学习模型,通常包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model),通过大规模无标注的语料进行大模型的预训练,产出亿级以上参数的预训练模型,这种模型能适应广泛的下游任务,模型具有较好的泛化能力,例如大规模语言模型(Large Language Model, LLM)、多模态预训练模型(multi-modal pre-training model)等。
大模型在实际应用时,仅需少量样本对预训练模型进行微调即可应用于不同的任务中,大模型可以广泛应用于自然语言处理(Natural Language Processing,简称NLP)、计算机视觉等领域,具体可以应用于如视觉问答(Visual Question Answering,简称VQA)、图像描述(Image Caption,简称IC)、图像生成等计算机视觉领域任务,以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务,大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
评测维度:进行任一个待评测任务时需要考虑的维度。评测维度一般是一个名词或短语。
评测规则:评测规则是关于评测维度的具体解释,用于帮助评测模型针对评测维度来生成评测结果。
生成式预训练语言模型(Generative Pre-trained Transformer):简称大模型,生成式预训练语言模型是一种大型语言模型,是基于Transformer架构的人工神经网络,善于生成长文本。
多智能体:在人工智能领域,多智能体系统指的是由存在于共享环境中的多个信息处理和决策单元组成的系统,它们在共享环境中互动以实现相同或冲突的目标。
系统指令(system prompt):在生成式预训练语言模型的应用中,系统指令是一种特殊的提示,用于引导模型的行为。通过制定系统指令,可以在一定范围内规定大模型的风格和任务,使其对各种用例更具可定制性和适应性。
在实际应用中,大模型的应用已经深入各个领域,例如,客户服务、虚拟助手、文档分析、创意生成、智能问答等领域,但还需要对大模型的调用结果进行进一步的评测,以确定调用大模型生成结果的质量。大模型调用普遍存在着调用成本高的问题,且在评测过程中所使用的评测规则通常由人工制定,存在评测规则制定成本高的问题。又由于人工制定评测规则,会使得大模型基于评测规则进行评测时,对评测规则的理解与人工制定理解不符,从而使得评测结果质量较低。
在本说明书中,提供了一种评测方法、一种分类评测方法、一种排序评测方法和一种评测模型训练方法。本说明书同时涉及一种评测装置、一种分类评测装置、一种排序评测装置和一种评测模型训练装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了根据本说明书一个实施例提供的一种评测方法的应用场景示意图,如图1所示,以智能对话场景为例,用户在使用应用程序向人工智能发出提问后,人工智能通常会针对该用户的提问给出对应的回复。但在实际应用中,可能会出现人工智能对用户的提问出现答非所问的情况,又或者会出现人工智能所给出的答案并非是使得用户满意的答案。因此,针对上述场景,在将生成的答案提供给用户之前,或是已经将生成的答案提供给用户后,需要对用户提出的问题,以及人工智能给出的答案进行评测,以确定人工智能给出的答案的质量。
通过本说明书提供的评测方法,可以在进行评测之前,首先确定待评测数据的多个评测维度,从待评测数据中确定第一待评测数据和第二待评测数据,并通过人工标注的方式对第一待评测数据和第二待评测数据进行人工评分,以分别获得第一待评测数据和第二待评测数据在各评测维度对应的第一样本评测分值和第二样本评测分值。利用第一评测模型,基于第一待评测数据、第一样本评测分值和各评测维度,以及第二待评测数据、第二样本评测分值,生成针对待评测数据在各个评测维度对应的目标评测规则。进而,将待评测数据、各评测维度对应的目标评测规则输入至各第二评测模型,可以获得各第二评测模型输出的待评测数据在各评测维度对应的初始评测结果。最后,再将获得的各初始评测结果输入至第一评测模型,由第一评测模型对各初始评测结果进行综合处理,从而获得第一评测模型输出的待评测数据在各评测维度对应的目标评测结果。
本说明书提供的评测方法,将生成评测规则这种难度较高的任务分配给第一评测模型进行处理,将根据各评测规则对待评测数据进行评测这种难度较低的任务分配给第二评测模型进行处理,同时,为了提高评测的准确性,部署多个第二评测模型对待评测数据进行评测,可以实现在降低模型调用成本的同时,提高对待评测数据进行评测的准确性。
需要进行说明的是,上述智能对话场景仅用于对本说明书提供的评测方法进行解释说明,本说明书提供的评测方法不仅可以应用于上述智能对话场景,还可以应用于阅读理解、摘要翻译等其他需要对人工智能结果进行评测的场景。
参见图2,图2示出了根据本说明书一个实施例提供的一种评测方法的流程图,具体包括以下步骤。
步骤202:获取待评测任务、第一评测模型和至少两个第二评测模型。
其中,待评测任务,是指需要进行评测的任务,例如,智能对话场景中,待评测任务可以为针对问题对答案进行评测;阅读理解场景中,待评测任务可以为针对题目对答案进行评测;摘要翻译场景中,待评测任务可以为针对摘要原文对摘要译文进行评测等等。待评测任务包括待评测数据和至少一个评测维度。更具体地,待评测任务可以是针对大模型的输出结果进行评测的任务。
待评测数据,是指待评测任务中需要进行评测的数据。例如,智能对话场景中,待评测数据为用户提出的问题,以及人工智能给出的答案;阅读理解场景中,待评测数据为题目和题目对应的答案;摘要翻译场景中,待评测数据为摘要的原文和译文。在待评测任务为针对大模型的输出结果进行评测的任务的情况下,待评测数据则为大模型的输入数据和输出数据。例如,智能对话场景中,大模型为问答模型,待评测数据则为问答模型的输入数据,即向问答模型输入的问题,以及问答模型的输出数据,即问答模型生成的问题答案。
第一评测模型用于生成对待评测数据进行评测的评测规则,以及生成针对待评测数据的最终评测结果。第二评测模型用于根据第一评测模型生成的评测规则对待评测数据进行评测,并生成对应的评测结果。第一评测模型和第二评测模型均可以为大模型,且第一评测模型的参数量大于各第二评测模型的参数量。在实际应用中,可以将第一评测模型和各第二评测模型组成多智能体系统,以使得第一评测模型和各第二评测模型在共享环境中进行交互完成对待评测任务的评测。
由于第二评测模型的参数量小于第一评测模型的参数量,因此,调用第二评测模型的成本会比调用第一评测模型的成本低,但其评测能力也会低于第一评测模型。因此,在实际应用中,为了提高第二评测模型的评测准确性,可以在多智能体系统中部署多个第二评测模型,从而可以综合多个第二评测模型的评测结果来进行考虑。第二评测模型的数量可以根据实际应用情况进行设定,本说明书在此不做限定。
评测维度,是指对待评测任务进行评测时需要考虑的维度,例如,准确性、速度、时间等。评测维度可以根据实际应用中的用户评测需求进行确定。
具体地,获取待评测任务,且获取的待评测任务中包括需要进行评测的待评测数据,以及需要对待评测数据进行评测的多个评测维度,从而使得在后续过程中,基于待评测维度对待评测数据进行评测。
步骤204:将所述待评测数据和各评测维度输入所述第一评测模型,获得所述待评测数据在各评测维度对应的目标评测规则。
其中,目标评测规则,是指用于对待评测数据进行评测的规则,是关于评测维度的具体解释。例如,评测维度为“准确性”,则其对应的目标评测规则可以为“1.请判断生成答案是否能够回答用户问题,是否存在答非所问的情况;2.请判断生成答案中的信息是否与文档中的内容相符,有无知识幻觉的问题。”。
在对待评测数据进行评测之前,需要先生成针对待评测数据进行评测的评测规则。
在本说明书提供的一具体实施方式中,将所述待评测数据和各评测维度输入所述第一评测模型,获得所述待评测数据在各评测维度对应的目标评测规则,包括:
获取第一训练样本数据和第二训练样本数据,其中,所述第一训练样本数据包括第一待评测数据、第一样本评测分值和各评测维度,所述第二训练样本数据包括第二待评测数据、第二样本评测分值和各评测维度;
将所述第一待评测数据、第一样本评测分值和各评测维度输入第一评测模型,获得所述第一评测模型输出的所述第一待评测数据在各评测维度对应的初始评测规则;
将所述第二待评测数据、所述第二样本评测分值、各评测维度和各初始评测规则输入各第二评测模型,获得各第二评测模型输出的所述第二待评测数据在各评测维度对应的参考评测分值;
获取预设评测阈值,并基于各参考评测分值和所述第二样本评测分值计算所述第二待评测数据在各评测维度对应的评测差异分值;
在存在评测差异分值未达到所述预设评测阈值的情况下,根据评测差异分值在所述第二训练样本数据中筛选第三训练样本数据;
将所述第三训练样本数据、各初始评测规则和各参考评测分值输入所述第一评测模型,直至评测差异分值达到所述预设评测阈值,获得所述第一评测模型输出的目标评测规则。
其中,第一训练样本数据,是指用于训练第一评测模型生成初始评测规则的样本数据。第一训练样本数据包括第一待评测数据、第一待评测数据对应的第一样本评测分值和设定的用于对待评测数据进行评测的多个评测维度。第一样本评测分值,是通过对第一待评测数据进行人工评测获得的分值。
第二训练样本数据,是指用于验证第一评测模型生成的初始评测规则准确性的样本数据。第二训练样本数据包括第二待评测数据、第二待评测数据对应的第二样本评测分值和设定的用于对待评测数据进行评测的多个评测维度。第二样本评测分值,是通过对第二待评测数据进行人工评测获得的分值。第一待评测数据和第二待评测数据均为从待评测数据中随机选取的数据。
初始评测规则,是指第一评测模型基于第一样本评测分值和评测维度生成的评测规则。初始评测规则并不是最终用于对待评测数据进行评测的规则,仅用于对第二待评测数据进行评测。
参考评测分值,是指第二评测模型基于初始评测规则对第二待评测数据进行评测输出的评测分值。预设评测阈值,用于衡量参考评测分值与各待评测数据对应的样本评测分值(人工评测获得的分值)之间的差异。预设评测阈值可以是评测准确率,评测差值,Kappa系数等,或其他一致性指标。评测差异分值,用于表征参考评测分值与各待评测数据对应的样本评测分值(人工评测获得的分值)之间的差异。评测差异分值可以是评测准确率,评测差值,Kappa系数等,或其他一致性指标。
第三训练样本数据,是指第二训练样本数据中,参考评测分值与样本评测分值的差异未达到预设评测阈值的样本训练数据,也即,第二训练样本数据中,参考评测分值与样本评测分值差异较大的样本数据。第三训练样本数据包括第三待评测数据、第三待评测数据对应的第三样本评测分值和设定的用于对待评测数据进行评测的多个评测维度。
具体地,结合图3对获得目标评测规则的过程进行说明,图3示出了根据本说明书一个实施例提供的一种获得目标评测规则的流程示意图。在待评测数据中随机选取第一待评测数据和第二待评测数据,并获取第一待评测数据对应的第一样本评测分值,以及第二待评测数据对应的第二样本评测分值,进而,确定需要对待评测数据进行评测的多个评测维度。将第一待评测数据、第一样本评测分值和各评测维度输入至第一评测模型,则可以获得第一评测模型输出的第一待评测数据在各评测维度上对应的初始评测规则。由于此时获得的初始评测规则还不是最终用于对待评测数据进行评测的评测规则,因此,需要对初始评测规则的准确性进行验证。将第二待评测数据、第二样本评测分值、各评测维度和各评测维度对应的初始评测规则输入至各个第二评测模型,使得各第二评测模型分别根据各评测维度对应的初始评测规则对第二待评测数据进行评测,从而获得第二待评测数据在各待评测维度对应的参考评测分值。
进而,获取预先设定的预设评测阈值,并根据各参考评测分值和第二样本评测分值计算第二待评测数据对应的评测差异分值,并确定第二待评测数据对应的评测差异分值是否达到预设评测阈值,若第二待评测数据对应的评测差异分值达到预设评测阈值,则将初始评测规则(即当前生成的评测规则)确定为待评测数据的目标评测规则;若存在第二待评测数据对应的评测差异分值未达到预设评测阈值,则根据评测差异分值在第二训练样本数据筛选第三训练样本数据,具体可以为将未达到预设评测阈值的评测差异分值对应的第二训练样本数据确定为第三训练样本数据,也可以在未达到预设评测阈值的评测差异分值对应的第二训练样本数据中,确定预设数量的第二训练样本数据为第三训练样本数据。
最后,将第三训练样本数据、各评测维度对应的初始评测规则和各参考评测分值输入至第一评测模型,进行下一轮次评测规则的生成,直至评测差异分值均达到预设评测阈值,则将当前生成的评测规则输出为目标评测规则。
通过在待评测数据中选取第一待评测数据和第二待评测数据,使得第一评测模型基于评测维度和第一样本评测分值生成第一待评测数据对应的初始评测规则,并通过多个第二评测模型利用第二待评测数据对初始评测规则进行多轮验证,从而生成用于评测待评测数据的目标评测规则,提高目标评测规则的准确性,降低各第二评测模型对目标评测规则理解的差异。
在实际应用中,第一评测模型的数量可以为一个,也可以为多个。由于第一评测模型用于生成评测规则,在第一评测模型的数量为多个的情况下,需要对多个第一评测模型生成的评测规则均进行考虑。实现方式具体如下:
在本说明书提供的另一具体实施方式中,第一评测模型的数量为至少两个;
将所述待评测数据和各评测维度输入所述第一评测模型,获得所述待评测数据在各评测维度对应的目标评测规则,包括:
将所述待评测数据和各评测维度分别输入各第一评测模型,获得各第一评测模型输出的所述待评测数据在各评测维度对应的参考评测规则;
根据各评测维度对应的参考评测规则,确定所述待评测数据在各评测维度对应的目标评测规则。
其中,参考评测规则,是指各第一评测模型生成的评测规则,参考评测规则不是最终用于对待评测数据进行评测的目标评测规则。
具体地,在存在多个第一评测模型的情况下,获取各个第一评测模型生成的参考评测规则,可以将各个第一评测模型生成的参考评测规则都作为目标评测规则,也可以根据用户需求在各个第一评测模型生成的参考评测规则中分别选取部分参考评测规则作为目标评测规则(包括存在第一评测模型生成的参考评测规则均未被选取为目标评测规则)。
以存在两个第一评测模型为例进行说明,例如,第一评测模型A生成的参考评测规则分别为参考评测规则1、参考评测规则2和参考评测规则3,第一评测模型B生成的参考评测规则分别为参考评测规则4、参考评测规则5和参考评测规则6。则可以将参考评测规则1-6全部选取作为目标评测规则,也可以仅选取参考评测规则1-3或参考规则4-6作为目标评测规则,还可以选取参考评测规则1、参考评测规则2、参考评测规则3、参考评测规则5和参考评测规则6作为目标评测规则,其他选取示例本说明书不在此一一列举。
更进一步地,由于第二评测模型在根据评测规则对待评测数据进行评测的过程中,会针对各个评测规则得到一个评测结果,因此,可以根据各个参考评测规则对应的评测结果选取目标评测规则。例如,可以将各个参考评测规则对应的评测结果进行排序,按照评测结果由高到低的顺序在各个参考评测规则中选取预设数量的参考评测规则作为目标评测规则;或者在排序后,选取在某个评测结果之上的参考评测规则作为目标评测规则。也可以直接在各个参考评测规则中随机选取参考评测规则为目标评测规则。本说明书不对参考评测规则的选取方式做限定。
本说明书提供的评测方法,可以通过第一评测模型生成初始评测规则,再通过多个第二评测模型对生成的初始评测规则进行多轮验证,以使得第一评测模型生成目标评测规则,提高目标评测规则的准确性,降低各第二评测模型对目标评测规则理解的差异。
步骤206:将所述待评测数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测数据在各评测维度对应的初始评测结果。
在获得目标评测规则后,第二评测模型即可根据生成的目标评测规则对待评测数据进行评测。
其中,初始评测结果,是指第二评测模型输出的待评测数据在各个评测维度对应的评测结果。
在本说明书提供的一具体实施方式中,获得各第二评测模型输出的所述待评测数据在各评测维度对应的初始评测结果,包括:
目标第二评测模型根据待评测维度对应的目标评测规则,对所述待评测数据进行评测,并输出所述待评测数据在所述待评测维度对应的目标候选评测结果,其中,所述目标第二评测模型为各第二评测模型中的任一个,所述待评测维度为各评测维度中的任一个;
将所述目标候选评测结果和各参考第二评测模型输出的参考候选评测结果输入所述目标第二评测模型,获得所述目标第二评测模型输出的初始评测结果,其中,参考第二评测模型为各第二评测模型中除所述目标第二评测模型之外的第二评测模型。
其中,目标第二评测模型,是指多个第二评测模型中的任一个。待评测维度,是指多个评测维度中的任一个。目标候选评测结果,是指目标第二评测模型输出的待评测数据在待评测维度对应的评测结果,目标候选评测结果不是目标第二评测模型输出的初始评测结果。
参考第二评测模型,是指多个第二评测模型中除目标第二评测模型之外的第二评测模型。参考候选评测结果,是指参考第二评测模型输出的待评测数据在待评测维度对应的评测结果,参考候选评测结果不是参考第二评测模型输出的初始评测结果。
具体地,针对任一个第二评测模型(以目标第二评测模型为例),任一个评测维度(以待评测维度为例),将待评测数据、待评测维度对应的目标评测规则输入至目标第二评测模型,目标第二评测模型根据待评测维度对应的目标评测规则,对待评测数据进行评测,并输出待评测数据在待评测维度对应的目标候选评测结果。将目标第二评测模型输出的目标候选评测结果以及其他第二评测模型(即各参考第二评测模型)输出的参考候选评测结果一起输入至目标第二评测模型,目标第二评测模型会根据各个参考候选评测结果决定是否对目标候选评测结果进行校正,从而输出待评测数据在待评测维度的初始评测结果。
参见图4,图4示出了根据本说明书一个实施例提供的一种获得初始评测结果的流程示意图,如图4所示,以第二评测模型的数量为m个、评测维度为n为例进行解释说明。将待评测数据和评测维度n对应的目标评测规则分别输入至m个第二评测模型中,即,图4中所示的第二评测模型n-1至第二评测模型n-m,可以获得这m个第二评测模型分别输出的目标候选评测结果n-1、目标候选评测结果n-2、……目标候选评测结果n-m。将获得的目标候选评测结果n-1、目标候选评测结果n-2、……目标候选评测结果n-m,分别再输入至各个第二评测模型中,使得各个第二评测模型根据其他的目标候选评测结果确定是否需要对自身输出的目标候选评测结果进行校正,并将校正后的评测结果或无需进行校正的评测结果输出为初始评测结果,即如图4所示的初始评测结果n-1、初始评测结果n-2、……初始评测结果n-m。
进一步地,在实际应用中,各个第二评测模型输出的候选评测结果中均包含候选评测意见和候选评测分值,因此,在第二评测模型在对候选评测结果进行校正的过程中,可以根据其他第二评测模型输出的候选评测意见和候选评测分值进行校正。
在本说明书提供的一具体实施方式中,候选评测结果包括候选评测意见和候选评测分值;
获得所述目标第二评测模型输出的初始评测结果,包括:
所述目标第二评测模型根据各参考第二评测模型输出的参考候选评测意见和参考候选评测分值,判断目标候选评测意见和目标候选评测分值是否满足校正条件;
在所述目标候选评测意见和所述目标候选评测分值满足校正条件的情况下,校正所述目标候选评测意见和所述目标候选评测分值,并确定校正后的目标候选评测意见为初始评测意见,确定校正后的目标候选评测分值为初始评测分值;
在所述目标候选评测意见和所述目标候选评测分值不满足校正条件的情况下,确定所述目标候选评测意见为初始评测意见,确定所述目标候选评测分值为初始评测分值。
其中,候选评测意见,是指第二评测模型输出待评测数据在评测维度上对应的候选评测分值的评测理由。候选评测分值,即为第二评测模型输出的待评测数据在评测维度上的对应的得分。参考候选评测意见,即为参考第二评测模型输出的候选评测意见,参考候选评测分值,即为参考第二评测模型输出的候选评测分值。目标候选评测意见,即为目标第二评测模型输出的候选评测意见,目标候选评测分值,即为目标第二评测模型输出的候选评测分值。
校正条件,用于辅助第二评测模型判断是否需要对候选评测意见和候选评测分值进行更改。例如,校正条件可以为,针对任一评测维度,目标第二评测模型输出的目标候选评测意见与参考第二评测模型输出的参考候选评测意见不同,或目标第二评测模型输出的目标候选评测分值与参考第二评测模型输出的参考候选评测分值差异较大等。
初始评测意见,是指第二评测模型输出的校正后的候选评测意见或第二评测模型输出的无需进行校正的候选评测意见。初始评测分值,是指第二评测模型输出的校正后的候选评测分值或第二评测模型输出的无需进行校正的候选评测分值。
具体地,将目标候选评测结果,即目标候选评测意见和目标候选评测分值,和参考候选评测结果,即参考候选评测意见和参考候选评测分值,输入目标第二评测模型,目标第二评测模型根据各个参考候选评测意见和参考候选评测分值,判断目标候选评测意见和目标候选评测分值是否满足校正条件,例如,判断目标候选评测意见与参考候选评测意见是否存在较大差异,目标候选评测分值与参考候选评测分值是否存在较大差异等。若确定目标候选评测意见或目标候选评测分值满足校正条件,则目标第二评测模型对目标候选评测意见或目标候选评测分值进行校正,并将校正后的目标候选评测意见或校正后的目标候选评测分值作为初始评测意见和初始评测分值输出。若确定目标候选评测意见和目标候选评测分值均不满足校正条件,则目标第二评测模型无需对目标候选评测意见和目标候选评测分值进行校正,直接将目标候选评测意见和目标候选评测分值分别作为初始评测意见和初始评测分值输出即可。
通过部署多个第二评测模型,可以对各个第二评测模型输出的候选评测意见和候选评测分值进行判定和校正,以提高第二评测模型输出的初始评测意见和初始评测分值的准确性。
在实际应用中,部分用户也可能对评测效率存在需求,因此,本说明书提供的第二评测模型的数量还可以与评测维度的数量一一对应,从而认识的一个第二评测模型针对一个评测维度对待评测数据进行评测,加快评测速度,提高评测效率。
基于此,在本说明书提供的一具体实施方式中,第二评测模型的数量与所述待评测数据的评测维度存在一一对应关系;
获得各第二评测模型输出的所述待评测数据在各评测维度对应的初始评测结果,包括:
目标第二评测模型根据目标评测维度对应的目标评测规则,对所述待评测数据进行评测,并输出所述待评测数据在所述目标评测维度对应的初始评测结果,其中,所述目标第二评测模型为各第二评测模型中的任一个,所述目标评测维度为与所述目标第二评测模型存在一一对应关系的评测维度。
其中,目标评测维度,是指各评测维度中,与目标第二评测模型存在一一对应关系的评测维度。
具体地,针对第二评测模型的数量与评测维度存在一一对应的情况,目标第二评测模型可以根据与其对应的目标评测维度,确定与其对应的目标评测规则,并根据对应的目标评测规则对待评测数据进行评测。由于第二评测模型的数量与评测维度存在一一对应关系,即一个第二评测模型只负责针对一个评测维度对待评测数据进行评测,因此,第二评测模型在对待评测进行评测后,即可输出待评测数据在目标评测维度对应的初始评测结果。
通过设置第二评测模型的数量与评测维度的对应关系,可以使得第二评测模型有针对性地对待评测数据进行评测,从而无需等待其他第二评测模型的评测结果,即可获得待评测数据在对应评测维度下的初始评测结果,提高评测效率。
本说明书提供的评测方法,可以使得多个第二评测模型分别从各个评测维度对待评测数据进行评测,并结合其他第二评测模型输出的评测结果来校正自身输出的评测结果,提高评测的准确性;也可以使得第二评测模型的数量与评测维度存在对应关系,让各个第二评测模型有针对性地对待评测数据进行评测,提高评测效率。
步骤208:将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测任务的目标评测结果。
由于各个第二评测模型输出的初始评测结果均是待评测数据分别在各个评测维度下对应的评测结果,因此,还需要进一步对待评测数据在各个评测维度下对应的评测结果进行处理,并输出待评测数据在各个评测维度下的综合评测结果。
在本说明书提供的一具体实施方式中,初始评测结果包括初始评测意见和初始评测分值;
获得所述第一评测模型输出的所述待评测任务的目标评测结果,包括:
所述第一评测模型根据各初始评测意见,对各初始评测分值进行处理,输出目标评测结果。
具体地,各个第二评测模型输出的初始评测结果均包括待评测数据在各个评测维度下对应的初始评测意见和初始评测分值。因此,第一评测模型可以根据各个第二评测模型输出的初始评测意见,对各个初始评测分值进行综合,以确定待评测数据在各个评测维度下的综合分值,并将处理后的评测意见作为目标评测意见输出,将处理后的评测分值作为目标评测分值输出,从而即可获得第一评测模型输出的目标评测结果。
进一步地,在第一评测模型的数量为多个的情况下,需要对多个第一评测模型生成的目标评测结果均进行考虑。实现方式具体如下:
在本说明书提供的一具体实施方式中,将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测任务的目标评测结果,包括:
将各初始评测结果分别输入各第一评测模型,获得各第一评测模型输出的所述待评测任务的参考评测结果;
根据各参考评测结果,确定所述待评测任务的目标评测结果。
其中,参考评测结果,是指各第一评测模型输出的评测结果,参考评测结果不是最终输出的待评测数据对应的目标评测结果。
具体地,在存在多个第一评测模型的情况下,获取各个第一评测模型输出的参考评测结果,可以通过对各个参考评测结果进加权计算,将加权后的计算结果作为待评测任务的目标评测结果;可以对各参考评测分值进行求和,将求和后的分值作为待评测任务的目标评测分值,将各参考评测意见均选取为目标评测意见;还可以对各参考评测分值进行求平均值,将求平均值后的分值作为待评测任务的目标评测分值,选取部分参考评测意见为目标评测意见等。
本说明书提供的评测方法,包括:获取待评测任务、第一评测模型和至少两个第二评测模型,其中,所述待评测任务包括待评测数据和至少一个评测维度,所述第一评测模型的参数量大于各第二评测模型的参数量;将所述待评测数据和各评测维度输入所述第一评测模型,获得所述待评测数据在各评测维度对应的目标评测规则;将所述待评测数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测数据在各评测维度对应的初始评测结果;将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测任务的目标评测结果。
本说明书一实施例,实现了将生成评测规则这种难度较高的任务分配给第一评测模型进行处理,将根据各评测规则对待评测数据进行评测这种难度较低的任务分配给第二评测模型进行处理,同时,为了提高评测的准确性,部署多个第二评测模型对待评测数据进行评测,可以实现在降低模型调用成本的同时,提高对待评测数据进行评测的准确性。
下述结合附图5,以本说明书提供的评测方法在对话场景的应用为例,对所述评测方法进行进一步说明。其中,图5示出了本说明书一个实施例提供的一种评测方法的处理过程流程图,如图5所示,在对待评测数据,即文本数据<问题,答案>或文本数据<问题,答案1,答案2>等,进行评测之前,首先在待评测数据中选取第一待评测数据和第二待评测数据,例如,选取20-100条待评测数据,确定需要对待评测数据进行评测的多个评测维度(如图5所示评测维度1-n),并获取第一待评测数据对应的第一样本评测分值,第二待评测数据对应的第二样本评测分值。通过上述如图3所示的方法获得各评测维度对应的目标评测规则,获得目标评测规则的实现方式可参见上述内容,本说明书在此不再赘述。将待评测数据输入至各第二评测模型,使得各第二评测模型分别根据评测维度1对应的目标评测规则、评测维度2对应的目标评测规则……评测维度n对应的目标评测规则,对待评测数据进行评测,获得待评测数据在各评测维度对应的初始评测结果1、初始评测结果2……初始评测结果n。将初始评测结果1、初始评测结果2……初始评测结果n输入至第一评测模型,使得第一评测模型根据各初始评测结果生成待评测数据对应的目标评测结果并输出,从而获得各问题对应的答案的得分和评测意见。
与上述方法实施例相对应,本说明书还提供了评测装置实施例,图6示出了本说明书一个实施例提供的一种评测装置的结构示意图。如图6所示,该装置包括:
获取模块602,被配置为获取待评测任务、第一评测模型和至少两个第二评测模型,其中,所述待评测任务包括待评测数据和至少一个评测维度,所述第一评测模型的参数量大于各第二评测模型的参数量;
第一输入模块604,被配置为将所述待评测数据和各评测维度输入所述第一评测模型,获得所述待评测数据在各评测维度对应的目标评测规则;
第二输入模块606,被配置为将所述待评测数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测数据在各评测维度对应的初始评测结果;
第三输入模块608,被配置为将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测任务的目标评测结果。
可选的,所述第二输入模块606,进一步被配置为:
使用目标第二评测模型根据待评测维度对应的目标评测规则,对所述待评测数据进行评测,得到所述待评测数据在所述待评测维度对应的目标候选评测结果,其中,所述目标第二评测模型为各第二评测模型中的任一个,所述待评测维度为各评测维度中的任一个;
将所述目标候选评测结果和各参考第二评测模型输出的参考候选评测结果输入所述目标第二评测模型,获得所述目标第二评测模型输出的初始评测结果,其中,参考第二评测模型为各第二评测模型中除所述目标第二评测模型之外的第二评测模型。
可选的,候选评测结果包括候选评测意见和候选评测分值;
所述第二输入模块606,进一步被配置为:
所述目标第二评测模型根据各参考第二评测模型输出的参考候选评测意见和参考候选评测分值,判断目标候选评测意见和目标候选评测分值是否满足校正条件;
在所述目标候选评测意见和所述目标候选评测分值满足校正条件的情况下,校正所述目标候选评测意见和所述目标候选评测分值,并确定校正后的目标候选评测意见为初始评测意见,确定校正后的目标候选评测分值为初始评测分值;
在所述目标候选评测意见和所述目标候选评测分值不满足校正条件的情况下,确定所述目标候选评测意见为初始评测意见,确定所述目标候选评测分值为初始评测分值。
可选的,初始评测结果包括初始评测意见和初始评测分值;
所述第三输入模块608,进一步被配置为:
使用所述第一评测模型根据各初始评测意见,对各初始评测分值进行处理,得到目标评测结果。
可选的,所述第一输入模块604,进一步被配置为:
获取第一训练样本数据和第二训练样本数据,其中,所述第一训练样本数据包括第一待评测数据、第一样本评测分值和各评测维度,所述第二训练样本数据包括第二待评测数据、第二样本评测分值和各评测维度;
将所述第一待评测数据、第一样本评测分值和各评测维度输入第一评测模型,获得所述第一评测模型输出的所述第一待评测数据在各评测维度对应的初始评测规则;
将所述第二待评测数据、所述第二样本评测分值、各评测维度和各初始评测规则输入各第二评测模型,获得各第二评测模型输出的所述第二待评测数据在各评测维度对应的参考评测分值;
获取预设评测阈值,并基于各参考评测分值和所述第二样本评测分值计算所述第二待评测数据在各评测维度对应的评测差异分值;
在存在评测差异分值未达到所述预设评测阈值的情况下,根据评测差异分值在所述第二训练样本数据中筛选第三训练样本数据;
将所述第三训练样本数据、各初始评测规则和各参考评测分值输入所述第一评测模型,直至评测差异分值达到所述预设评测阈值,获得所述第一评测模型输出的目标评测规则。
可选的,第二评测模型的数量与所述待评测数据的评测维度存在一一对应关系;
所述第二输入模块606,进一步被配置为:
使用目标第二评测模型根据目标评测维度对应的目标评测规则,对所述待评测数据进行评测,得到所述待评测数据在所述目标评测维度对应的初始评测结果,其中,所述目标第二评测模型为各第二评测模型中的任一个,所述目标评测维度为与所述目标第二评测模型存在一一对应关系的评测维度。
可选的,第一评测模型的数量为至少两个;
所述第一输入模块604,进一步被配置为:
将所述待评测数据和各评测维度分别输入各第一评测模型,获得各第一评测模型输出的所述待评测数据在各评测维度对应的参考评测规则;
根据各评测维度对应的参考评测规则,确定所述待评测数据在各评测维度对应的目标评测规则。
可选的,所述第一输入模块604,进一步被配置为:
将各初始评测结果分别输入各第一评测模型,获得各第一评测模型输出的所述待评测任务的参考评测结果;
根据各参考评测结果,确定所述待评测任务的目标评测结果。
本说明书提供的评测装置,包括:获取模块,被配置为获取待评测任务、第一评测模型和至少两个第二评测模型,其中,所述待评测任务包括待评测数据和至少一个评测维度,所述第一评测模型的参数量大于各第二评测模型的参数量;第一输入模块,被配置为将所述待评测数据和各评测维度输入所述第一评测模型,获得所述待评测数据在各评测维度对应的目标评测规则;第二输入模块,被配置为将所述待评测数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测数据在各评测维度对应的初始评测结果;第三输入模块,被配置为将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测任务的目标评测结果。
本说明书一实施例,实现了将生成评测规则这种难度较高的任务分配给第一评测模型进行处理,将根据各评测规则对待评测数据进行评测这种难度较低的任务分配给第二评测模型进行处理,同时,为了提高评测的准确性,部署多个第二评测模型对待评测数据进行评测,可以实现在降低模型调用成本的同时,提高对待评测数据进行评测的准确性。
上述为本实施例的一种评测装置的示意性方案。需要说明的是,该评测装置的技术方案与上述的评测方法的技术方案属于同一构思,评测装置的技术方案未详细描述的细节内容,均可以参见上述评测方法的技术方案的描述。
参见图7,图7示出了根据本说明书一个实施例提供的一种分类评测方法的流程图,具体包括以下步骤。
步骤702:获取待评测分类任务、第一评测模型和至少两个第二评测模型。
其中,待评测分类任务,是指需要进行评测的分类任务。待评测分类任务包括待评测分类数据和至少一个评测维度。待评测分类数据,是指待评测分类任务中需要进行评测的分类数据。第一评测模型的参数量大于各第二评测模型的参数量。
步骤704:将所述待评测分类数据和各评测维度输入所述第一评测模型,获得所述待评测分类数据在各评测维度对应的目标评测规则。
步骤706:将所述待评测分类数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测分类数据在各评测维度对应的初始评测结果。
步骤708:将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测分类任务的目标评测结果。
步骤710:获取预设分类阈值,并根据所述预设分类阈值和所述待评测分类任务的目标评测结果对所述待评测分类数据进行分类。
其中,预设分类阈值,是指预先设置的用于对待分类数据进行分类的依据,表现形式为数值。
具体地,基于与上述评测方法相同的实现方式,获取待评测分类任务对应的目标评测结果,获取待评测分类任务对应的目标评测结果的实现方式均可参见上述评测方法的实现方式,本说明书在此不再赘述。在获得待评测分类任务的目标评测结果后,获取预先设置的预设分类阈值,根据预设分类阈值和目标评测结果对待评测分类数据进行分类。
例如,待评测分类任务为对问题生成答案的正误分类,则待评测分类数据为问题和问题对应的答案。在获得问题和答案对应的目标评测结果,即目标评测意见和目标评测分值后,获取预设分类阈值,根据各问题和答案对应的目标评测分值,以及预设分类阈值确定各问题对应的答案是正确的,还是错误的,从而完成待评测分类任务。
本说明书提供的分类评测方法,可以在获得待评测分类任务对应的目标评测结果后,根据预设分类阈值和目标评测结果,对待评测分类数据进行分类,提高数据分类的准确性。
与上述方法实施例相对应,本说明书还提供了分类评测装置实施例,图8示出了本说明书一个实施例提供的一种分类评测装置的结构示意图。如图8所示,该装置包括:
分类任务获取模块802,被配置为获取待评测分类任务、第一评测模型和至少两个第二评测模型,其中,所述待评测分类任务包括待评测分类数据和至少一个评测维度,所述第一评测模型的参数量大于各第二评测模型的参数量;
第一分类输入模块804,被配置为将所述待评测分类数据和各评测维度输入所述第一评测模型,获得所述待评测分类数据在各评测维度对应的目标评测规则;
第二分类输入模块806,被配置为将所述待评测分类数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测分类数据在各评测维度对应的初始评测结果;
第三分类输入模块808,被配置为将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测分类任务的目标评测结果;
分类模块810,被配置为获取预设分类阈值,并根据所述预设分类阈值和所述待评测分类任务的目标评测结果对所述待评测分类数据进行分类。
本说明书提供的分类评测装置,可以在获得待评测分类任务对应的目标评测结果后,根据预设分类阈值和目标评测结果,对待评测分类数据进行分类,提高数据分类的准确性。
上述为本实施例的一种分类评测装置的示意性方案。需要说明的是,该分类评测装置的技术方案与上述的分类评测方法的技术方案属于同一构思,分类评测装置的技术方案未详细描述的细节内容,均可以参见上述分类评测方法的技术方案的描述。
参见图9,图9示出了根据本说明书一个实施例提供的一种排序评测方法的流程图,具体包括以下步骤。
步骤902:获取待评测排序任务、第一评测模型和至少两个第二评测模型。
其中,待评测排序任务,是指需要进行评测的排序任务。待评测排序任务包括待评测排序数据和至少一个评测维度。待评测排序数据,是指待评测排序任务中需要进行评测的排序数据。第一评测模型的参数量大于各第二评测模型的参数量。
步骤904:将所述待评测排序数据和各评测维度输入所述第一评测模型,获得所述待评测排序数据在各评测维度对应的目标评测规则。
步骤906:将所述待评测排序数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测排序数据在各评测维度对应的初始评测结果。
步骤908:将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测排序任务的目标评测结果。
步骤910:根据所述待评测排序任务的目标评测结果,对所述待评测排序数据进行排序。
具体地,基于与上述评测方法相同的实现方式,获取待评测排序任务对应的目标评测结果,获取待评测排序任务对应的目标评测结果的实现方式均可参见上述评测方法的实现方式,本说明书在此不再赘述。在获得待评测排序任务的目标评测结果后,根据待评测排序数据对应的目标评测结果对待评测排序数据进行排序。具体可以根据待评测排序数据对应的目标评测分值的高低对待评测排序数据进行排序。
例如,待评测排序任务为对问题生成答案的准确性排序,则待评测排序数据为问题和问题对应的答案。在获得问题和答案对应的目标评测结果,即目标评测意见和目标评测分值后,根据各问题和答案对应的目标评测分值,按照目标评测分值的高低对各问题对应的答案进行排序,从而完成待评测排序任务。
本说明书提供的排序评测方法,可以在获得待评测排序任务对应的目标评测结果后,根据待评测排序数据的目标评测结果,对待评测排序数据进行排序,提高数据排序的准确性。
与上述方法实施例相对应,本说明书还提供了排序评测装置实施例,图10示出了本说明书一个实施例提供的一种排序评测装置的结构示意图。如图10所示,该装置包括:
排序任务获取模块1002,被配置为获取待评测排序任务、第一评测模型和至少两个第二评测模型,其中,所述待评测排序任务包括待评测排序数据和至少一个评测维度,所述第一评测模型的参数量大于各第二评测模型的参数量;
第一排序输入模块1004,被配置为将所述待评测排序数据和各评测维度输入所述第一评测模型,获得所述待评测排序数据在各评测维度对应的目标评测规则;
第二排序输入模块1006,被配置为将所述待评测排序数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测排序数据在各评测维度对应的初始评测结果;
第三排序输入模块1008,被配置为将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测排序任务的目标评测结果;
排序模块1010,被配置为根据所述待评测排序任务的目标评测结果,对所述待评测排序数据进行排序。
本说明书提供的排序评测装置,可以在获得待评测排序任务对应的目标评测结果后,根据待评测排序数据的目标评测结果,对待评测排序数据进行排序,提高数据排序的准确性。
上述为本实施例的一种排序评测装置的示意性方案。需要说明的是,该排序评测装置的技术方案与上述的排序评测方法的技术方案属于同一构思,排序评测装置的技术方案未详细描述的细节内容,均可以参见上述排序评测方法的技术方案的描述。
参见图11,图11示出了根据本说明书一个实施例提供的一种评测模型训练方法的流程图,所述评测模型训练方法应用于云侧设备,具体包括以下步骤。
步骤1102:获取第一训练样本数据和第二训练样本数据,其中,所述第一训练样本数据包括第一待评测样本、第一样本评测分值和至少一个样本评测维度,所述第二训练样本数据包括第二待评测样本、第二样本评测分值和至少一个样本评测维度。
其中,第一训练样本数据,是指用于训练第一评测模型生成初始评测规则的样本数据。第一训练样本数据包括第一待评测样本、第一待评测样本对应的第一样本评测分值和多个样本评测维度。第一样本评测分值,是通过对第一待评测样本进行人工评测获得的分值。
第二训练样本数据,是指用于验证第一评测模型生成的初始评测规则准确性的样本数据。第二训练样本数据包括第二待评测样本、第二待评测样本对应的第二样本评测分值和多个样本评测维度。第二样本评测分值,是通过对第二待评测样本进行人工评测获得的分值。第一待评测样本和第二待评测样本是从待评测样本集合中随机选取的样本数据。
步骤1104:将所述第一待评测样本、第一样本评测分值和各样本评测维度输入第一评测模型,获得所述第一评测模型输出的所述第一待评测样本在各样本评测维度对应的初始评测规则。
步骤1106:将所述第二待评测样本、所述第二样本评测分值、各样本评测维度和各初始评测规则输入各第二评测模型,获得各第二评测模型输出的所述第二待评测样本在各样本评测维度对应的参考评测分值。
步骤1108:获取预设评测阈值,并基于各参考评测分值和所述第二样本评测分值计算所述第二待评测数据在各评测维度对应的评测差异分值。
步骤1110:在存在评测差异分值未达到所述预设评测阈值的情况下,根据评测差异分值在所述第二训练样本数据中筛选第三训练样本数据。
步骤1112:基于所述第三训练样本数据、各初始评测规则和各参考评测分值,继续训练所述第一评测模型和各第二评测模型,直至评测差异分值达到所述预设评测阈值停止训练所述第一评测模型和各第二评测模型。
步骤1114:获取所述第一评测模型的第一模型参数和各第二评测模型的第二模型参数,并将所述第一模型参数和各第二模型参数反馈至目标终端。
具体地,与上述评测方法中获得目标评测规则相同的实现方式对第一评测模型和各第二评测模型进行训练,直至评测差异分值达到预设评测阈值,停止训练第一评测模型和各第二评测模型。在第一评测模型和各第二评测模型训练完成后,将训练完成的第一模型参数和各第二模型参数反馈至目标终端。
本说明书提供的评测模型训练方法,应用于云侧设备,通过使得第一评测模型基于样本评测维度和第一样本评测分值生成第一待评测样本对应的初始评测规则,并通过多个第二评测模型利用第二待评测样本对初始评测规则进行多轮验证,基于训练完成后的第一模型参数和各第二模型参数对待评测数据进行评测,提高目标评测规则的准确性,降低各第二评测模型对目标评测规则理解的差异。
与上述方法实施例相对应,本说明书还提供了评测模型训练装置实施例,图12示出了本说明书一个实施例提供的一种评测模型训练装置的结构示意图。如图12所示,该装置应用于云侧设备,包括:
样本数据获取模块1202,被配置为获取第一训练样本数据和第二训练样本数据,其中,所述第一训练样本数据包括第一待评测样本、第一样本评测分值和至少一个样本评测维度,所述第二训练样本数据包括第二待评测样本、第二样本评测分值和至少一个样本评测维度;
第一样本输入模块1204,被配置为将所述第一待评测样本、第一样本评测分值和各样本评测维度输入第一评测模型,获得所述第一评测模型输出的所述第一待评测样本在各样本评测维度对应的初始评测规则;
第二样本输入模块1206,被配置为将所述第二待评测样本、所述第二样本评测分值、各样本评测维度和各初始评测规则输入各第二评测模型,获得各第二评测模型输出的所述第二待评测样本在各样本评测维度对应的参考评测分值;
计算模块1208,被配置为获取预设评测阈值,并基于各参考评测分值和所述第二样本评测分值计算所述第二待评测数据在各评测维度对应的评测差异分值;
筛选模块1210,被配置为在存在评测差异分值未达到所述预设评测阈值的情况下,根据评测差异分值在所述第二训练样本数据中筛选第三训练样本数据;
训练模块1212,被配置为基于所述第三训练样本数据、各初始评测规则和各参考评测分值,继续训练所述第一评测模型和各第二评测模型,直至评测差异分值达到所述预设评测阈值停止训练所述第一评测模型和各第二评测模型;
反馈模块1214,被配置为获取所述第一评测模型的第一模型参数和各第二评测模型的第二模型参数,并将所述第一模型参数和各第二模型参数反馈至目标终端。
本说明书提供的评测模型训练装置,应用于云侧设备,通过使得第一评测模型基于样本评测维度和第一样本评测分值生成第一待评测样本对应的初始评测规则,并通过多个第二评测模型利用第二待评测样本对初始评测规则进行多轮验证,基于训练完成后的第一模型参数和各第二模型参数对待评测数据进行评测,提高目标评测规则的准确性,降低各第二评测模型对目标评测规则理解的差异。
上述为本实施例的一种评测模型训练装置的示意性方案。需要说明的是,该评测模型训练装置的技术方案与上述的评测模型训练方法的技术方案属于同一构思,评测模型训练装置的技术方案未详细描述的细节内容,均可以参见上述评测模型训练方法的技术方案的描述。
参见图13,图13示出了根据本说明书一个实施例提供的一种评测系统的架构图。
本说明书提供的一种评测系统实施例如下:
所述评测系统,包括第一评测模型和至少两个第二评测模型;
所述第一评测模型,用于接收待评测数据和至少一个评测维度,根据所述待评测数据和各评测维度生成所述待评测数据在各评测维度对应的目标评测规则;
目标第二评测模型,用于接收所述待评测数据和各评测维度对应的目标评测规则,根据待评测维度对应的目标评测规则,对所述待评测数据进行评测,生成所述待评测数据在所述待评测维度对应的目标候选评测结果,接收所述目标候选评测结果和各参考第二评测模型输出的参考候选评测结果,根据所述目标候选评测结果和各参考第二评测模型输出的参考候选评测结果,生成所述待评测数据在所述待评测维度对应的初始评测结果,其中,所述目标第二评测模型为各第二评测模型中的任一个,所述待评测维度为各评测维度中的任一个,参考第二评测模型为各第二评测模型中除所述目标第二评测模型之外的第二评测模型;
所述第一评测模型,还用于接收各第二评测模型生成的初始评测结果,根据各第二评测模型生成的初始评测结果,生成所述待评测数据的目标评测结果。
如图13所示,本说明书一实施例提供的评测系统,包括第一评测模型和多个第二评测模型(图13中以m个第二评测模型为例)。在实际应用中,评测系统中的第一评测模型用于根据接收到的待评测数据和需要进行评测的评测维度,生成各个评测维度对应的目标评测规则。评测系统中的m个第二评测模型可以根据第一评测模型生成的各评测维度对应的目标评测规则,对待评测数据进行各评测维度上的评测,生成待评测数据在各评测维度对应的目标候选评测结果。为了提高各第二评测模型对待评测数据进行评测的准确性,第二评测模型在生成目标候选评测结果后,还可以参考其他第二评测模型生成的目标候选评测结果,以确定其自身生成的目标候选评测结果的准确性。基于此,以图13中第二评测模型3为例(目标第二评测模型),以评测维度为“准确性”为例进行后续步骤说明。
第二评测模型3在生成待评测数据在评测维度“准确性”对应的目标候选评测结果后,可以进一步接收其自身生成的目标候选评测结果,以及第二评测模型1、第二评测模型2、第二评测模型4……第二评测模型m生成的参考候选评测结果,通过第二评测模型1、第二评测模型2、第二评测模型4……第二评测模型m生成的参考候选评测结果,判断其自身生成的目标候选评测结果是否准确,若是,第二评测模型3则将目标候选评测结果直接确定为待评测数据的初始评测结果,若否,第二评测模型3则可以对目标候选评测结果进行校正,并确定校正后的目标候选评测结果为待评测数据的初始评测结果。通过上述相同的方法,各第二评测模型可以生成待评测数据在各评测维度对应的初始评测结果。
进一步地,第一评测模型接收各第二评测模型生成的初始评测结果,并根据各初始评测结果生成待评测数据在各评测维度对应的目标评测结果。需要进行说明的是,在实际应用中,评测系统中也可以部署多个第一评测模型(图13中未示出)和多个第二评测模型进行评测,具体可以根据实际应用情况进行确定。
本说明书提供的评测系统,实现了将生成评测规则这种难度较高的任务分配给第一评测模型进行处理,将根据各评测规则对待评测数据进行评测这种难度较低的任务分配给第二评测模型进行处理,同时,为了提高评测的准确性,部署多个第二评测模型对待评测数据进行评测,可以实现在降低模型调用成本的同时,提高对待评测数据进行评测的准确性。
图14示出了根据本说明书一个实施例提供的一种计算设备1400的结构框图。该计算设备1400的部件包括但不限于存储器1410和处理器1420。处理器1420与存储器1410通过总线1430相连接,数据库1450用于保存数据。
计算设备1400还包括接入设备1440,接入设备1440使得计算设备1400能够经由一个或多个网络1460通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备1440可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterface controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)。
在本说明书的一个实施例中,计算设备1400的上述部件以及图14中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图14所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1400可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备1400还可以是移动式或静止式的服务器。
其中,处理器1420用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述评测方法、分类评测方法、排序评测方法或评测模型训练方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的评测方法、分类评测方法、排序评测方法或评测模型训练方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述评测方法、分类评测方法、排序评测方法或评测模型训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述评测方法、分类评测方法、排序评测方法或评测模型训练方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的评测方法、分类评测方法、排序评测方法或评测模型训练方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述评测方法、分类评测方法、排序评测方法或评测模型训练方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述评测方法、分类评测方法、排序评测方法或评测模型训练方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的评测方法、分类评测方法、排序评测方法或评测模型训练方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述评测方法、分类评测方法、排序评测方法或评测模型训练方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地区,根据专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (15)

1.一种评测方法,包括:
获取待评测任务、第一评测模型和至少两个第二评测模型,其中,所述待评测任务包括待评测数据和至少一个评测维度,所述第一评测模型的参数量大于各第二评测模型的参数量;
将所述待评测数据和各评测维度输入所述第一评测模型,获得所述待评测数据在各评测维度对应的目标评测规则;
将所述待评测数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测数据在各评测维度对应的初始评测结果;
将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测任务的目标评测结果。
2.如权利要求1所述的方法,获得各第二评测模型输出的所述待评测数据在各评测维度对应的初始评测结果,包括:
使用目标第二评测模型根据待评测维度对应的目标评测规则,对所述待评测数据进行评测,得到所述待评测数据在所述待评测维度对应的目标候选评测结果,其中,所述目标第二评测模型为各第二评测模型中的任一个,所述待评测维度为各评测维度中的任一个;
将所述目标候选评测结果和各参考第二评测模型输出的参考候选评测结果输入所述目标第二评测模型,获得所述目标第二评测模型输出的初始评测结果,其中,参考第二评测模型为各第二评测模型中除所述目标第二评测模型之外的第二评测模型。
3.如权利要求2所述的方法,候选评测结果包括候选评测意见和候选评测分值;
获得所述目标第二评测模型输出的初始评测结果,包括:
所述目标第二评测模型根据各参考第二评测模型输出的参考候选评测意见和参考候选评测分值,判断目标候选评测意见和目标候选评测分值是否满足校正条件;
在所述目标候选评测意见和所述目标候选评测分值满足校正条件的情况下,校正所述目标候选评测意见和所述目标候选评测分值,并确定校正后的目标候选评测意见为初始评测意见,确定校正后的目标候选评测分值为初始评测分值;
在所述目标候选评测意见和所述目标候选评测分值不满足校正条件的情况下,确定所述目标候选评测意见为初始评测意见,确定所述目标候选评测分值为初始评测分值。
4.如权利要求1所述的方法,初始评测结果包括初始评测意见和初始评测分值;
获得所述第一评测模型输出的所述待评测任务的目标评测结果,包括:
使用所述第一评测模型根据各初始评测意见,对各初始评测分值进行处理,得到目标评测结果。
5.如权利要求1所述的方法,将所述待评测数据和各评测维度输入所述第一评测模型,获得所述待评测数据在各评测维度对应的目标评测规则,包括:
获取第一训练样本数据和第二训练样本数据,其中,所述第一训练样本数据包括第一待评测数据、第一样本评测分值和各评测维度,所述第二训练样本数据包括第二待评测数据、第二样本评测分值和各评测维度;
将所述第一待评测数据、第一样本评测分值和各评测维度输入第一评测模型,获得所述第一评测模型输出的所述第一待评测数据在各评测维度对应的初始评测规则;
将所述第二待评测数据、所述第二样本评测分值、各评测维度和各初始评测规则输入各第二评测模型,获得各第二评测模型输出的所述第二待评测数据在各评测维度对应的参考评测分值;
获取预设评测阈值,并基于各参考评测分值和所述第二样本评测分值计算所述第二待评测数据在各评测维度对应的评测差异分值;
在存在评测差异分值未达到所述预设评测阈值的情况下,根据评测差异分值在所述第二训练样本数据中筛选第三训练样本数据;
将所述第三训练样本数据、各初始评测规则和各参考评测分值输入所述第一评测模型,直至评测差异分值达到所述预设评测阈值,获得所述第一评测模型输出的目标评测规则。
6.如权利要求1所述的方法,第二评测模型的数量与所述待评测数据的评测维度存在一一对应关系;
获得各第二评测模型输出的所述待评测数据在各评测维度对应的初始评测结果,包括:
使用目标第二评测模型根据目标评测维度对应的目标评测规则,对所述待评测数据进行评测,得到所述待评测数据在所述目标评测维度对应的初始评测结果,其中,所述目标第二评测模型为各第二评测模型中的任一个,所述目标评测维度为与所述目标第二评测模型存在一一对应关系的评测维度。
7.如权利要求1所述的方法,第一评测模型的数量为至少两个;
将所述待评测数据和各评测维度输入所述第一评测模型,获得所述待评测数据在各评测维度对应的目标评测规则,包括:
将所述待评测数据和各评测维度分别输入各第一评测模型,获得各第一评测模型输出的所述待评测数据在各评测维度对应的参考评测规则;
根据各评测维度对应的参考评测规则,确定所述待评测数据在各评测维度对应的目标评测规则。
8.如权利要求7所述的方法,将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测任务的目标评测结果,包括:
将各初始评测结果分别输入各第一评测模型,获得各第一评测模型输出的所述待评测任务的参考评测结果;
根据各参考评测结果,确定所述待评测任务的目标评测结果。
9.一种分类评测方法,包括:
获取待评测分类任务、第一评测模型和至少两个第二评测模型,其中,所述待评测分类任务包括待评测分类数据和至少一个评测维度,所述第一评测模型的参数量大于各第二评测模型的参数量;
将所述待评测分类数据和各评测维度输入所述第一评测模型,获得所述待评测分类数据在各评测维度对应的目标评测规则;
将所述待评测分类数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测分类数据在各评测维度对应的初始评测结果;
将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测分类任务的目标评测结果;
获取预设分类阈值,并根据所述预设分类阈值和所述待评测分类任务的目标评测结果对所述待评测分类数据进行分类。
10.一种排序评测方法,包括:
获取待评测排序任务、第一评测模型和至少两个第二评测模型,其中,所述待评测排序任务包括待评测排序数据和至少一个评测维度,所述第一评测模型的参数量大于各第二评测模型的参数量;
将所述待评测排序数据和各评测维度输入所述第一评测模型,获得所述待评测排序数据在各评测维度对应的目标评测规则;
将所述待评测排序数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测排序数据在各评测维度对应的初始评测结果;
将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测排序任务的目标评测结果;
根据所述待评测排序任务的目标评测结果,对所述待评测排序数据进行排序。
11.一种评测模型训练方法,应用于云侧设备,包括:
获取第一训练样本数据和第二训练样本数据,其中,所述第一训练样本数据包括第一待评测样本、第一样本评测分值和至少一个样本评测维度,所述第二训练样本数据包括第二待评测样本、第二样本评测分值和至少一个样本评测维度;
将所述第一待评测样本、第一样本评测分值和各样本评测维度输入第一评测模型,获得所述第一评测模型输出的所述第一待评测样本在各样本评测维度对应的初始评测规则;
将所述第二待评测样本、所述第二样本评测分值、各样本评测维度和各初始评测规则输入各第二评测模型,获得各第二评测模型输出的所述第二待评测样本在各样本评测维度对应的参考评测分值;
获取预设评测阈值,并基于各参考评测分值和所述第二样本评测分值计算所述第二待评测数据在各评测维度对应的评测差异分值;
在存在评测差异分值未达到所述预设评测阈值的情况下,根据评测差异分值在所述第二训练样本数据中筛选第三训练样本数据;
基于所述第三训练样本数据、各初始评测规则和各参考评测分值,继续训练所述第一评测模型和各第二评测模型,直至评测差异分值达到所述预设评测阈值停止训练所述第一评测模型和各第二评测模型;
获取所述第一评测模型的第一模型参数和各第二评测模型的第二模型参数,并将所述第一模型参数和各第二模型参数反馈至目标终端。
12.一种评测系统,包括第一评测模型和至少两个第二评测模型;
所述第一评测模型,用于接收待评测数据和至少一个评测维度,根据所述待评测数据和各评测维度生成所述待评测数据在各评测维度对应的目标评测规则;
目标第二评测模型,用于接收所述待评测数据和各评测维度对应的目标评测规则,根据待评测维度对应的目标评测规则,对所述待评测数据进行评测,生成所述待评测数据在所述待评测维度对应的目标候选评测结果,接收所述目标候选评测结果和各参考第二评测模型输出的参考候选评测结果,根据所述目标候选评测结果和各参考第二评测模型输出的参考候选评测结果,生成所述待评测数据在所述待评测维度对应的初始评测结果,其中,所述目标第二评测模型为各第二评测模型中的任一个,所述待评测维度为各评测维度中的任一个,参考第二评测模型为各第二评测模型中除所述目标第二评测模型之外的第二评测模型;
所述第一评测模型,还用于接收各第二评测模型生成的初始评测结果,根据各第二评测模型生成的初始评测结果,生成所述待评测数据的目标评测结果。
13.一种评测装置,包括:
获取模块,被配置为获取待评测任务、第一评测模型和至少两个第二评测模型,其中,所述待评测任务包括待评测数据和至少一个评测维度,所述第一评测模型的参数量大于各第二评测模型的参数量;
第一输入模块,被配置为将所述待评测数据和各评测维度输入所述第一评测模型,获得所述待评测数据在各评测维度对应的目标评测规则;
第二输入模块,被配置为将所述待评测数据和各评测维度对应的目标评测规则分别输入各第二评测模型,获得各第二评测模型输出的所述待评测数据在各评测维度对应的初始评测结果;
第三输入模块,被配置为将各初始评测结果输入所述第一评测模型,获得所述第一评测模型输出的所述待评测任务的目标评测结果。
14.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述方法的步骤。
15.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述方法的步骤。
CN202410062332.6A 2024-01-15 2024-01-15 评测方法、分类评测方法、排序评测方法及装置 Active CN117608997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410062332.6A CN117608997B (zh) 2024-01-15 2024-01-15 评测方法、分类评测方法、排序评测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410062332.6A CN117608997B (zh) 2024-01-15 2024-01-15 评测方法、分类评测方法、排序评测方法及装置

Publications (2)

Publication Number Publication Date
CN117608997A true CN117608997A (zh) 2024-02-27
CN117608997B CN117608997B (zh) 2024-04-30

Family

ID=89946519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410062332.6A Active CN117608997B (zh) 2024-01-15 2024-01-15 评测方法、分类评测方法、排序评测方法及装置

Country Status (1)

Country Link
CN (1) CN117608997B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608081A (zh) * 2014-11-06 2016-05-25 阿里巴巴集团控股有限公司 用于处理评测数据的方法及设备
CN109255663A (zh) * 2018-09-29 2019-01-22 北京金山安全软件有限公司 针对代币的评分方法、装置、计算机设备和存储介质
CN110807566A (zh) * 2019-09-09 2020-02-18 腾讯科技(深圳)有限公司 人工智能模型评测方法、装置、设备及存储介质
CN111881008A (zh) * 2019-12-18 2020-11-03 马上消费金融股份有限公司 一种数据评测、模型训练方法、装置、设备及存储介质
CN112416754A (zh) * 2020-11-02 2021-02-26 中关村科学城城市大脑股份有限公司 一种模型评测方法、终端、系统及存储介质
CN112487140A (zh) * 2020-11-27 2021-03-12 平安科技(深圳)有限公司 问答对话评测方法、装置、设备及存储介质
CN112818106A (zh) * 2021-02-10 2021-05-18 北京工业大学 一种生成式问答的评价方法
CN114003511A (zh) * 2021-12-24 2022-02-01 支付宝(杭州)信息技术有限公司 针对模型解释工具的评测方法和装置
CN115859065A (zh) * 2022-05-31 2023-03-28 北京中关村科金技术有限公司 模型评测方法、装置、设备及存储介质
CN115964622A (zh) * 2022-08-17 2023-04-14 名日之梦(北京)科技有限公司 用于机器学习模型的评测方法、装置及计算机存储介质
CN116126740A (zh) * 2023-04-18 2023-05-16 小米汽车科技有限公司 模型在环测试方法、装置、计算机设备及存储介质
CN116361655A (zh) * 2023-04-03 2023-06-30 携程旅游信息技术(上海)有限公司 模型训练方法、标准问题的预测方法、装置、设备及介质
CN116483733A (zh) * 2023-06-12 2023-07-25 数据堂(北京)科技股份有限公司 多维度人工智能产品评测方法及装置
CN116775843A (zh) * 2023-07-06 2023-09-19 平安科技(深圳)有限公司 问答对评测数据生成方法、装置、计算机设备及存储介质
CN117093459A (zh) * 2023-05-09 2023-11-21 上海墨百意信息科技有限公司 语言模型的评测方法、装置、电子设备及存储介质
CN117272011A (zh) * 2023-09-28 2023-12-22 北京百度网讯科技有限公司 模型测评方法、装置、电子设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0602183A (pt) * 2006-06-09 2008-01-22 Sintesis Projetos Especiais Lt sistema de avaliação

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608081A (zh) * 2014-11-06 2016-05-25 阿里巴巴集团控股有限公司 用于处理评测数据的方法及设备
CN109255663A (zh) * 2018-09-29 2019-01-22 北京金山安全软件有限公司 针对代币的评分方法、装置、计算机设备和存储介质
CN110807566A (zh) * 2019-09-09 2020-02-18 腾讯科技(深圳)有限公司 人工智能模型评测方法、装置、设备及存储介质
CN111881008A (zh) * 2019-12-18 2020-11-03 马上消费金融股份有限公司 一种数据评测、模型训练方法、装置、设备及存储介质
CN112416754A (zh) * 2020-11-02 2021-02-26 中关村科学城城市大脑股份有限公司 一种模型评测方法、终端、系统及存储介质
CN112487140A (zh) * 2020-11-27 2021-03-12 平安科技(深圳)有限公司 问答对话评测方法、装置、设备及存储介质
CN112818106A (zh) * 2021-02-10 2021-05-18 北京工业大学 一种生成式问答的评价方法
CN114003511A (zh) * 2021-12-24 2022-02-01 支付宝(杭州)信息技术有限公司 针对模型解释工具的评测方法和装置
CN115859065A (zh) * 2022-05-31 2023-03-28 北京中关村科金技术有限公司 模型评测方法、装置、设备及存储介质
CN115964622A (zh) * 2022-08-17 2023-04-14 名日之梦(北京)科技有限公司 用于机器学习模型的评测方法、装置及计算机存储介质
CN116361655A (zh) * 2023-04-03 2023-06-30 携程旅游信息技术(上海)有限公司 模型训练方法、标准问题的预测方法、装置、设备及介质
CN116126740A (zh) * 2023-04-18 2023-05-16 小米汽车科技有限公司 模型在环测试方法、装置、计算机设备及存储介质
CN117093459A (zh) * 2023-05-09 2023-11-21 上海墨百意信息科技有限公司 语言模型的评测方法、装置、电子设备及存储介质
CN116483733A (zh) * 2023-06-12 2023-07-25 数据堂(北京)科技股份有限公司 多维度人工智能产品评测方法及装置
CN116775843A (zh) * 2023-07-06 2023-09-19 平安科技(深圳)有限公司 问答对评测数据生成方法、装置、计算机设备及存储介质
CN117272011A (zh) * 2023-09-28 2023-12-22 北京百度网讯科技有限公司 模型测评方法、装置、电子设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHON, Y.;PARK, J.;KANG, J.;LEE, S.: "Design of link evaluation method to improve reliability based on linked open big data and natural language processing", INTERNATIONAL JOURNAL OF ENGINEERING AND TECHNOLOGY, vol. 7, no. 3, 31 December 2018 (2018-12-31), pages 168 - 173 *
尹宝生;苗雪雷;季铎;蔡东风;张桂平: "大规模无参考译文质量自动评测技术的研究", 沈阳航空航天大学学报, no. 01, 25 February 2012 (2012-02-25), pages 72 - 76 *
王春柳;杨永辉;赖辉源;邓霏: "基于开放域对话系统的自动化评测方法研究", 计算机应用研究, no. 05, 31 December 2020 (2020-12-31), pages 182 - 185 *

Also Published As

Publication number Publication date
CN117608997B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
WO2022095380A1 (zh) 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
CN109800306A (zh) 意图分析方法、装置、显示终端及计算机可读存储介质
CN109857865B (zh) 一种文本分类方法及系统
CN113342958B (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
CN113392640B (zh) 一种标题确定方法、装置、设备及存储介质
CN111737439A (zh) 一种问题生成方法及装置
CN116975288A (zh) 文本处理方法及文本处理模型训练方法
CN113886544A (zh) 文本匹配方法、装置、存储介质及计算机设备
CN116501858B (zh) 文本处理及数据查询方法
CN117608997B (zh) 评测方法、分类评测方法、排序评测方法及装置
CN116775820A (zh) 问答处理方法以及问答模型训练方法
CN117291185A (zh) 任务处理方法、实体识别方法及任务处理的数据处理方法
CN113538079A (zh) 一种推荐模型的训练方法及装置、一种推荐方法及装置
CN112950261A (zh) 一种用户价值的确定方法及系统
CN117540012B (zh) 文本生成方法以及系统
CN116431779B (zh) 法律领域faq问答的匹配方法、装置、存储介质及电子装置
CN118245587A (zh) 模型测试方法以及模型测试装置
CN117789099B (zh) 视频特征提取方法及装置、存储介质及电子设备
CN118014703A (zh) 基于数字化平台的可视化智能决策系统及方法
CN110619588B (zh) 一种场景演练的评估方法、装置、存储介质和智能设备
CN118210891A (zh) 基于知识微调的大语言模型可靠法律问答生成方法
CN117724941A (zh) 模型评估方法、电子设备和存储介质
CN117709464A (zh) 图像处理方法以及系统
CN117971420A (zh) 任务处理、交通任务处理以及任务处理模型训练方法
CN116186226A (zh) 业务咨询模型的训练方法、装置、训练系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant