CN113569988B

CN113569988B - 一种算法模型评测方法及系统

Info

Publication number: CN113569988B
Application number: CN202110968995.0A
Authority: CN
Inventors: 谢金璋
Original assignee: Guangzhou Pinwei Software Co Ltd
Current assignee: Guangzhou Pinwei Software Co Ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2024-04-19
Anticipated expiration: 2041-08-23
Also published as: CN113569988A

Abstract

本发明公开了一种算法模型评测方法及系统，其中方法包括以下步骤：获取语料数据，根据应用场景将所述语料数据分成若干类型的语料库；根据各个语料库分别对新、旧算法模型进行评测得到对应的评测数据；其中，所述新、旧算法模型是利用算法模型训练平台训练得到的；根据所述评测数据和预设的评测标准判断所述新算法模型是否通过评测，若通过，则将所述新算法模型进行上线；否则，根据所述评测数据改进所述新算法模型。本发明提供的方法能够直接对接算法模型训练平台，根据评测数据和预设的评测标准能对新算法模型进行线上实时评测，可以节省算法测试的时间，提高了工作效率。

Description

一种算法模型评测方法及系统

技术领域

本发明涉及软件测试技术领域，尤其是涉及一种算法模型评测方法及系统。

背景技术

现有的算法模型测试方法，通常利用在线下标注好的数据进行测试，一般不支持线上的生产数据进行实时测试；同时，算法模型的评测过程与开发过程相对独立的，算法模型的评测过程不能直接对接算法模型训练平台。

算法模型的评测完成后，需测试人员将评测报告导出再反馈给开发人员，导致算法评测的时间较长。

发明内容

本发明的目的是提供一种算法模型评测方法及系统，以解决在现有技术中不能对算法模型进行线上实时评测、算法评测时间较长的技术问题。

本发明的目的，可以通过如下技术方案实现：

一种算法模型评测方法，包括以下步骤：

获取语料数据，根据应用场景将所述语料数据分成若干类型的语料库；

根据各个语料库分别对新、旧算法模型进行评测得到对应的评测数据；其中，所述新、旧算法模型是利用算法模型训练平台训练得到的；

根据所述评测数据和预设的评测标准判断所述新算法模型是否通过评测，若通过，则将所述新算法模型进行上线；否则，根据所述评测数据改进所述新算法模型。

可选地，所述语料数据包括：

基准语料数据和生产抽取的实时语料数据，所述基准语料数据为人工标注好的语料数据。

可选地，根据各个语料库分别对新、旧算法模型进行评测得到对应的评测数据包括：

针对各个语料库分别建立相应的评测任务，设置所述评测任务的参数，执行所述评测任务以实现分别对新、旧算法模型进行评测得到对应的评测数据。

所述算法模型为意图识别模型，根据所述评测数据和预设的评测标准判断所述新算法模型是否通过评测包括：

根据所述评测数据获取新意图识别模型的准确率和新、旧意图识别模型的差异率，当所述准确率不小于第一预设阈值且所述差异率小于第二预设阈值时，表示所述新意图识别模型通过评测，否则为未通过；

其中，所述评测数据包括新、旧意图识别模型识别的意图标签，所述新意图识别模型的准确率为新意图识别模型识别正确的意图标签个数/总语料请求个数，所述差异率为新、旧意图识别模型识别的不同意图标签个数/总语料请求个数。

可选地，所述第一预设阈值为90％，所述第二预设阈值为3％。

可选地，根据所述评测数据改进所述新算法模型包括：

对所述评测数据进行交叉对比分析找出对应的坏情况语料，根据所述坏情况语料改进新算法模型，利用所述坏情况语料对改进后的新算法模型进行评测。

本发明还提供了一种算法模型评测系统，包括：

语料获取及分类模块，用于获取语料数据，根据应用场景将所述语料数据分成若干类型的语料库；

新、旧算法模型评测模块，用于根据各个语料库分别对新、旧算法模型进行评测得到对应的评测数据；其中，所述新、旧算法模型是利用算法模型训练平台训练得到的；

新算法模型判断模块，用于根据所述评测数据和预设的评测标准判断所述新算法模型是否通过评测，若通过，则将所述新算法模型进行上线；否则，根据所述评测数据改进所述新算法模型。

可选地，所述语料数据包括：

可选地，

本发明提供了一种算法模型评测方法及系统，其中方法包括以下步骤：获取语料数据，根据应用场景将所述语料数据分成若干类型的语料库；根据各个语料库分别对新、旧算法模型进行评测得到对应的评测数据；其中，所述新、旧算法模型是利用算法模型训练平台训练得到的；根据所述评测数据和预设的评测标准判断所述新算法模型是否通过评测，若通过，则将所述新算法模型进行上线；否则，根据所述评测数据改进所述新算法模型。

有鉴于此，本发明带来的有益效果是：

本发明提供的算法模型评测方法能够直接对接算法模型训练平台，利用算法模型训练平台训练得到新、旧算法模型，将语料根据应用场景不同分为多种类型的语料库，利用不同类型的语料库分别对新、旧算法模型进行评测得到对应的评测数据，评测数据能多角度地反映不同应用场景下新、旧算法模型的性能，根据评测数据和预设的评测标准能对新算法模型进行线上实时评测，可以节省算法测试的时间，提高了工作效率。

附图说明

图1为本发明的方法流程示意图；

图2为本发明的评测数据分析示例图；

图3为本发明的交叉对比分析示例图；

图4为本发明的系统结构示意图。

具体实施方式

本发明实施例提供一种算法模型评测方法及系统，以解决在现有技术中不能对算法模型进行线上实时评测、算法评测时间较长的技术问题。

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本发明中，首先需准备语料，主要包括收集用户发问的语料和对语料进行标注等预处理操作。这里的语料是指话术，例如，“我可以退货吗”就是一个语料；语料可以在生产环境中线上收集，也可以由用户线下收集，优选的实施方式，线上收集用户发问的语料，即线上收集用户询问机器人的话术。

可以人工或利用机器对语料进行标注，对语料进行标注时，将收集到的语料输入标注平台，利用算法计算语料数据的相似度，调用相应的算法对语料去重，业务人员对语料进行初步标注，初步标注后对标注进行反查，在反查的过程中需查看相似问题的多个语料，对应的标注答案是否相同，若不同，则标注者需重新标注语料，通过对语料进行去重、反查、复核等预处理操作后，确保标注的语料尽可能地准确。

在标注好的语料中选择一部分作为训练集，选择另一部分作为测试集，将训练集语料输入算法模型训练平台对新算法模型进行训练，优选的实施方式，新、旧算法模型均为意图识别算法模型，新算法模型是在旧算法模型的基础上进行改进的。

请参阅图1，本发明提供了一种算法模型评测方法的实施例，包括以下步骤：

S100：获取语料数据，根据应用场景将所述语料数据分成若干类型的语料库；

S200：根据各个语料库分别对新、旧算法模型进行评测得到对应的评测数据；其中，所述新、旧算法模型是利用算法模型训练平台训练得到的；

S300：根据所述评测数据和预设的评测标准判断所述新算法模型是否通过评测，若通过，则将所述新算法模型进行上线；否则，根据所述评测数据改进所述新算法模型。

在步骤S100中，算法评测系统获取标注好的语料，即将标注好的语料输入算法评测系统中，算法评测系统通过语料管理页面，根据应用场景的不同将语料分为若干类型的语料库。例如，将语料分为基线语料库，高频top500的语料库，新模型训练的测试语料库。值得说明的是，基线语料库是经过人工确认过的语料库，要求算法对基线语料库的识别准确率需达到既定标准(例如准确率达90％以上)；高频top500语料库是用户咨询最多的业务，涉及最核心业务，要求算法模型对高频top500语料库的识别准确率必须达到100％；新模型训练的测试语料库是算法新训练的模型，新增的人工标注好的语料，用于评估模型新算法意图标签，如新增“申请退货”意图标签，可以用新的测试语料库测试这个意图的准确率。

在步骤S200中，根据不同类型的语料库分别对新、旧算法模型进行评测得到对应的评测数据。具体的，将不同类型的语料库输入算法模型评测系统，构建多个评测任务，不同的评测任务关联不同类型的语料库。针对同一个语料库(即作为本次评测任务的测试集语料库)，分别设置新、旧算法模型进行评测的评测请求参数及请求页面地址URL，执行评测任务，即利用算法模型评测系统分别对新、旧算法模型进行评测，获得新、旧算法模型的返回结果，即得到对应的评测数据。

例如，用户输入“申请换货”时，新算法模型的评测请求参数为{“sentence”，“申请换货”}，旧算法模型的评测请求参数为{“sentence”，“申请换货”}，新算法模型的URL为http://xxx，旧算法模型的URL为http://yyy，将请求参数保存到数据库中。执行评测任务时，算法模型评测系统分别调用新、旧算法模型，通过接口返回报文，即返回新、旧算法模型对应的评测数据，将评测数据保存在数据库中。

在步骤S300中，根据所述评测数据和预设的评测标准判断所述新算法模型是否通过评测，若通过，则将所述新算法模型进行上线；否则，根据所述评测数据改进所述新算法模型。

根据评测数据能够获得新、旧算法模型的全面评测报告，例如，可以得到新、旧算法模型的意图明细报告，新、旧算法模型之间的交叉对比报告等。结合预设的评测标准判断新算法模型是否通过测试，对于不合格的新算法模型，退回算法模型训练平台重新对新算法模型进行训练；同时，评估对新、旧模型算法进行测试的测试集语料库，确定是否需对测试集语料库重新进行校准标注。

值得说明的是，本实施例中根据根据评测数据获得全面评测报告，是自动化分析过程，可以基于线上基准标注语料自动生成新、旧算法模型的分析报告，自动生成新、旧算法模型的差异对比数据报告；当自动生成报告中的准确率下降超过3％，人工介入坏情况语料(badcase)分析。

将新、旧算法模型通过接口返回的数据报文与语料标注的正确答案进行比对，比对方式主要包含：新、旧算法模型之间进行对比，新算法模型与正确答案进行对比，旧模型与正确答案进行对比等，产生多维度的对比报告，将对比结果保存到数据库中。例如，用户输入语料“我可以退货吗”，新算法模型识别的意图标签为“咨询退货”，旧算法模型识别的意图标签为“其他”，该语料标注的意图答案为“咨询退货”。新算法模型识别的意图标签与标注的意图答案相同，则表明新算法模型对该语料的意图识别正确，新算法模型识别的意图标签“咨询退货”为正确的意图标签；而旧算法对该语料的意图识别错误，旧算法模型识别的意图标签“其他”为错误的意图标签。

本次测试任务的测试集语料库的所有语料都对比完后，数据库中保存了新、旧算法模型识别的所有语料的意图标签，采用统计分析技术例如sql统计分析新、旧算法模型的评测数据。具体的，根据评测数据中的意图标签来统计分析新、旧算法模型的性能指标，例如，新算法模型的准确率、新算法模型的意图召回率、新、旧算法模型的差异率等。

其中，新算法模型的准确率＝新算法模型识别正确的意图标签个数/总语料请求个数，新算法模型的意图召回率＝新算法模型识别的某意图标签个数/标注为该意图标签的语料请求个数，新、旧算法模型的差异率＝新、旧算法模型识别的不同意图标签个数/总语料请求个数。

例如，某个测试集语料库中共20个语料，其中有10个语料的标注答案为“咨询退货”，其他10个语料的标注答案为“申请换货”。若新算法模型识别出“咨询退货”的意图标签个数为12个，且这12个中有10个语料的标注答案为“咨询退货”，识别出“申请换货”的意图标签个数为8个，则新算法模型的准确率为：18/20，新算法模型的“咨询退货”意图召回率＝12/10，新算法模型的“申请换货”意图召回率＝8/10。可见，新算法模型的准确率与某意图召回率之间是相互制约的关系，当某意图召回率大于100％时，意图召回率越大，则对应的准确率越低；当某意图召回率小于100％时，意图召回率越小，则对应的准确率越低。

本实施例中，得到新算法模型的准确率和新、旧算法模型的差异率之后，根据预设的评测标准判断新算法模型是否通过评测。优选的实施方式，根据评测数据获取新算法模型的准确率和新、旧算法模型的差异率，当新算法模型的准确率不小于第一预设阈值且新、旧算法模型的差异率小于第二预设阈值时，表示新算法模型通过评测，否则为未通过。例如，将第一预设阈值设为90％，将第二预设阈值设为3％，当新算法模型的准确率小于90％或新、旧算法模型的差异率大于3％(或小于-3％)时，新算法模型未通过评测，新、旧算法模型的差异率大于3％(或小于-3％)时需人工介入。

请参阅图2，值得说明的是，对于不同类型的语料库，新、旧算法模型的准确率可能不同，取所有语料库下的准确率的平均值作为新、旧算法模型的准确率。在新算法模型的准确率高于旧算法模型的准确率的前提下，再根据新算法模型的准确率和新、旧算法模型的差异率判断新算法模型能否通过评测。

当新算法模型未能通过评测时，对数据库中保存的新、旧算法模型的评测数据进行关联查询分析，对评测报告相应的明细数据进行交叉分析，找出对应的坏情况语料，把坏情况语料反馈给开发人员进行修复，修复完成后，利用算法模型训练平台重新训练新算法模型，然后再进行评测。在改进新算法模型的过程中，如发现一些坏情况语料是由于标注不够准确而产生问题，也可以纠正已标注的语料，即当人工标注的语料本身存在问题时，需对语料重新进行标注，从而语料标注越来越准确，语料标注最终形成闭环。

请参阅图3，新、旧算法模型均为意图识别模型，对评测报告中的明细数据进行交叉对比分析，例如，利用含有“退货”关键字的17332线上获取的语料数据，新、旧意图识别模型的对比结果为：

(1)新意图识别模型相对于旧意图识别模型，新意图标签为“其他”的有1085条，即旧意图识别模型已经识别的但新意图识别模型无法识别的意图标签有1085条，新意图识别模型将这些意图标签识别成了“其他”；

(2)新意图识别模型相对于旧意图识别模型，旧意图标签为“其他”的有1741条，即旧意图识别模型无法识别的但被新意图识别模型识别的意图标签有1741条，即旧意图识别模型中有1741条标注为“其他”的未知意图变成了新意图识别模型的可识别意图，说明新意图识别模型的性能整体趋好，新意图识别模型的准确率高于旧意图识别模型；

(3)通过横向对比，新、旧意图识别模型的差异达到3443，这个差异比较大(差异数据占比总测试语料数小于10％，准确率定的是90％，允许有10％左右的差异)，已经超过了预设的差异率标准，需要人工介入标注，将这17332条语料数据作为新意图识别模型的坏情况语料语料。

当新算法模型通过评测后，则将所述新算法模型进行上线，优选的，利用ABtest算法模型放量，将新算法模型逐渐替代旧算法模型。

本实施例提供的算法模型评测方法，能够直接对接算法模型训练平台，利用算法模型训练平台训练得到新、旧算法模型，将语料根据应用场景不同分为多种类型的语料库，利用不同类型的语料库分别对新、旧算法模型进行评测得到对应的评测数据，评测数据能多角度地反映不同应用场景下新、旧算法模型的性能，根据评测数据和预设的评测标准能对新算法模型进行线上实时评测，可以节省算法测试的时间，提高了工作效率。

本实施例提供的算法模型评测方法，可以直接对接算法模型训练平台，可以应用在具有实时线上生产数据的算法模型上，可以采用不同语料库对新、旧算法模型进行对比评测，自动生成明细报告、交叉分析报告等报告，得到的报告更实时更真实，进而减少线上、线下环境差异带来的影响。本实施例中通过交叉对比模型对新、旧算法模型进行分析对比，提取了更多的坏情况语料来优化新算法模型，能更好地提升新算法模型的准确率，减少了测试人员对新、旧算法模型对比测试的时间，减少了对新算法模型进行评测的时间。

请参阅图4，本发明还提供了一种算法模型评测系统的实施例，包括：

S1：语料获取及分类模块，用于获取语料数据，根据应用场景将所述语料数据分成若干类型的语料库；

S2：新、旧算法模型评测模块，用于根据各个语料库分别对新、旧算法模型进行评测得到对应的评测数据；其中，所述新、旧算法模型是利用算法模型训练平台训练得到的；

S3：新算法模型判断模块，用于根据所述评测数据和预设的评测标准判断所述新算法模型是否通过评测，若通过，则将所述新算法模型进行上线；否则，根据所述评测数据改进所述新算法模型。

本实施例中的语料数据包括基准语料数据和生产抽取的实时语料数据，基准语料数据为人工标注好的语料数据。

优选的实施方式，根据各个语料库分别对新、旧算法模型进行评测得到对应的评测数据包括：针对各个语料库分别建立相应的评测任务，设置所述评测任务的参数，执行所述评测任务以实现分别对新、旧算法模型进行评测得到对应的评测数据。

具体的，根据所述评测数据和预设的评测标准判断所述新算法模型是否通过评测包括：根据所述评测数据获取新算法模型的准确率和新、旧算法模型的差异率，当所述准确率不小于第一预设阈值且所述差异率小于第二预设阈值时，表示所述新算法模型通过评测，否则为未通过；

其中，所述评测数据包括新、旧算法模型识别的意图标签，所述新算法模型的准确率为新算法模型识别正确的意图标签个数/总语料请求个数，所述差异率为新、旧算法模型识别的不同意图标签个数/总语料请求个数。

本实例中，语料标注平台分别对接算法模型训练平台、算法模型评测系统，算法模型训练平台直接对接算法模型评测系统，语料收集、语料标注、语料反查后输入算法模型训练平台对新算法模型进行训练，算法模型评测系统获取语料后根据应用场景将语料若干类型的语料库，算法模型评测系统分别对新、旧算法模型进行评测获得相应的评测数据，根据评测数据和预设标准判断新算法模型是否能通过评测。当新算法模型未能通过评测时，通过交叉对比分析找出相应的坏情况语料，根据坏情况语料对新算法模型进行改进，并核查是否需对语料重新进行标注，语料标注最终形成闭环。

本实施例提供的算法模型评测系统，可以对接算法模型训练平台，支持将线上实时数据输入新、旧算法模型进行对比测试，增加了新、旧算法模型间的交叉对比能力，通过交叉对比报告对语料进行反向标注。本实施例对算法模型进行测试时，可以对新、旧算法模型进行对比测试分析，自动生成多种评测报告，能从多维度对算法模型进行评估，同时实现了线上实时进行评估，减少测试人员的时间，同时开发人员也能够利用该系统进行提测自查，可以节省测试、开发、产品等时间。

本实施例提供的算法模型评测系统，可以直接对接算法模型训练平台，可以应用在具有实时线上生产数据的算法模型上，可以采用不同语料库对新、旧算法模型进行对比评测，自动生成明细报告、交叉分析报告等报告，得到的报告更实时更真实，进而减少线上、线下环境差异带来的影响。本实施例中通过交叉对比模型对新、旧算法模型进行分析对比，提取了更多的坏情况语料来优化新算法模型，能更好地提升新算法模型的准确率，减少了测试人员对新、旧算法模型对比测试的时间，减少了对新算法模型进行评测的时间。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种算法模型评测方法，其特征在于，包括以下步骤：

根据各个语料库分别对新、旧算法模型进行评测得到对应的评测数据，包括：

针对各个语料库分别建立相应的评测任务，设置所述评测任务的参数，执行所述评测任务以实现分别对新、旧算法模型进行评测得到对应的评测数据；其中，所述新、旧算法模型是利用算法模型训练平台训练得到的；

根据所述评测数据和预设的评测标准判断所述新算法模型是否通过评测，若通过，则将所述新算法模型进行上线；否则，根据所述评测数据改进所述新算法模型；

2.根据权利要求1所述的算法模型评测方法，其特征在于，所述语料数据包括：

3.根据权利要求1所述的算法模型评测方法，其特征在于，所述第一预设阈值为90％，所述第二预设阈值为3％。

4.根据权利要求1所述的算法模型评测方法，其特征在于，根据所述评测数据改进所述新算法模型包括：

5.一种算法模型评测系统，其特征在于，包括：

新、旧算法模型评测模块，用于根据各个语料库分别对新、旧算法模型进行评测得到对应的评测数据，包括：

新算法模型判断模块，用于根据所述评测数据和预设的评测标准判断所述新算法模型是否通过评测，若通过，则将所述新算法模型进行上线；否则，根据所述评测数据改进所述新算法模型；

6.根据权利要求5所述的算法模型评测系统，其特征在于，所述语料数据包括：