CN110210294A

CN110210294A - 优化模型的评价方法、装置、存储介质及计算机设备

Info

Publication number: CN110210294A
Application number: CN201910329328.0A
Authority: CN
Inventors: 许洋; 刘鹏; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-09-06
Anticipated expiration: 2039-04-23
Also published as: CN110210294B

Abstract

本申请涉及数据处理技术领域，尤其涉及一种优化模型的评价方法、装置、存储介质及计算机设备。其中，优化模型的评价方法，包括：抓取实际生产中产生的识别数据，将识别数据输入优化模型，获得样本数据；将所述样本数据发送至标注用户进行标注；获取标注用户上传的标注信息，根据标注信息将样本数据划分为正确样本集和错误样本集；按照设定比例抽取所述正确样本集和错误样本集中的样本数据形成测试集预选数据；将测试集预选数据的样本数据添加到原始模型对应的标准测试集中形成优化测试集，并根据所述优化测试集对所述优化模型进行评价。本申请提供的方案，利用扩充后的测试集进行优化模型的评价，提高了优化模型的评价结果的准确性。

Description

优化模型的评价方法、装置、存储介质及计算机设备

技术领域

本申请涉及数据处理技术领域，具体而言，本申请涉及一种优化模型的评价方法、装置、存储介质及计算机设备。

背景技术

模型训练过程中需要用到大量的测试集，该测试集为初始测试集，当模型更新优化后，尤其是针对更新速度较快的领域，测试样本对应的输出结果有可能已经出现更新，精度不满足优化模型的需求，甚至出现与之前相反的结果，导致初始测试集不能用于优化模型的效果评估，需要重新收集测试样本集。

现有技术往往基于现有的若干样本衍生大量测试样本，该种方式收集到的测试样本容易出现覆盖不全面的问题，容易导致训练出的模型在实际应用时，例如图像识别模型在识别含有不常见文本的图片数据或者少数民族文字时，可能模型训练时缺少这方面的测试数据，导致识别模型在此类数据上的识别效果很差，利用该种不全面的测试集进行模型评价时，容易导致评价结果存在较大误差。

发明内容

本申请提供了一种优化模型的评价方法、装置、计算机可读存储介质及计算机设备，利用扩充后的测试集进行优化模型的评价，提高优化模型的评价结果的准确性。

本申请实施例首先提供了一种优化模型的评价方法，包括：

抓取实际生产中产生的识别数据，将所述识别数据输入优化模型，获得样本数据；其中，所述样本数据包括识别数据以及对应的输出信息；

将所述样本数据发送至标注用户进行标注；其中，所述标注用户对所述样本数据标注正确标注信息或错误标注信息；

获取标注用户上传的标注信息，并根据标注信息将样本数据划分为正确样本集和错误样本集；

按照设定比例抽取所述正确样本集和错误样本集中的样本数据形成测试集预选数据；

将所述测试集预选数据的样本数据添加到原始模型对应的标准测试集中形成优化测试集，并根据所述优化测试集对所述优化模型进行评价。

在一种实施例中，所述将所述样本数据发送至标注用户进行标注的步骤之前，还包括：

建立标注用户集，分别将所述样本数据发送给标注用户集中的标注用户，以便所述标注用户对所述样本数据进行正确性标注。

在一种实施例中，若样本数据的标注信息为错误标注信息，所述获取标注用户上传的标注数据的步骤，包括：

获取该样本数据的错误标注信息以及标注用户输入的该识别数据对应的正确输出信息。

在一种实施例中，所述按照设定比例抽取所述正确样本集和错误样本集中的样本数据形成测试集预选数据的步骤之后，还包括：

对错误样本集中的样本数据进行错误类型分类；

统计所述错误样本集中的错误类型及每种错误类型的出错频率；

按照所述出错频率确定每种错误类型的抽取比例。

在一种实施例中，所述按照所述出错频率确定每种错误类型的抽取比例的步骤，包括：

根据所述出错频率对各错误类型进行排序；

选取排序靠前的预设数量的错误类型作为候选错误类型，根据排序结果确定各候选错误类型的抽取比例。

在一种实施例中，所述的优化模型为OCR识别模型时，所述根据所述优化测试集对所述优化模型进行评价的步骤，包括：

将优化测试集中的样本数据输入OCR识别模型中，获得OCR识别模型对所述优化测试集中样本数据的输出结果；

判断所述输出结果、预先与同一样本数据建立关联的输出信息是否匹配；

根据所述输出结果与所述输出信息之间的匹配结果获得OCR识别模型的识别准确率。

在一种实施例中，所述按照设定比例抽取正确样本集及错误样本集中的测试样本形成测试集预选数据的步骤，包括：

所述测试集预选数据中正确样本集中的样本数据的数量大于错误测试样本集中样本数据的数量。

进一步地，本申请实施例还提供了一种优化模型的评价装置，包括：

获得样本数据模块，用于抓取实际生产中产生的识别数据，将所述识别数据输入优化模型，获得样本数据，其中，所述样本数据包括识别数据以及对应的输出信息；

标注模块，用于将所述样本数据发送至标注用户进行标注；其中，所述标注用户对所述样本数据标注正确标注信息或错误标注信息；

划分样本集模块，用于获取标注用户上传的标注信息，并根据标注信息将样本数据划分为正确样本集和错误样本集；

抽取模块，用于按照设定比例抽取所述正确样本集和错误样本集中的样本数据形成测试集预选数据；

评价模块，用于将所述测试集预选数据的样本数据添加到原始模型对应的标准测试集中形成优化测试集，并根据所述优化测试集对所述优化模型进行评价。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机指令，当所述计算机指令在计算机上运行时，使得计算机可以执行上述任一技术方案所述的优化模型的评价方法的步骤。

更进一步地，本申请实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任意一技术方案所述的优化模型的评价方法的步骤。

与现有技术相比，本申请提供的方案至少具备如下优点：

本申请实施例提供的优化模型的评价方法，抓取实际生产中产生的识别数据，将识别数据作为优化模型的输入，对识别数据进行模型识别，输出各识别数据对应的输出信息，根据各输出信息的正确性对样本数据进行标记，将标记后的样本数据划分为正确样本集以及错误样本集，按照设定比例分别抽取两个集合中的样本数据组成测试集预选数据，将该候选测试集预选数据添加到标准测试集中，大大扩充了测试样本集的数量及种类，健全了测试样本集，使得测试样本集更加健全和平衡，解决了现有测试样本片面化的问题，利用扩充后的测试样本集可以进行模型的训练和评价，本申请实施例利用扩充后的测试集进行优化模型的评价，能够获得较准确的评价结果。

本申请实施例提供的优化模型的评价方法，分别将样本数据发送给标注用户集合中的标注用户，进行标注信息的获取，即通过众包的方式进行测试样本的标注，有利于提高标注信息的准确性及获得效率。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请一个实施例提供的优化模型的评价方法的实施环境图；

图2为本申请一个实施例提供的优化模型的评价方法的流程示意图；

图3为本申请一个实施例提供的错误样本集中包括多种错误类型时，根据错误样本集中的错误类型进行抽取比例的确定的流程示意图；

图4为本申请一个实施例提供的按照所述出错频率确定每种错误类型的抽取比例的流程示意图；

图5为本申请一个实施例提供的所述优化模型为OCR模型时，根据所述优化测试集对所述优化模型进行评价的流程示意图；

图6为本申请一种实施例提供的优化模型的评价装置的结构示意图；

图7为本申请一种实施例提供的计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

图1为一个实施例中提供的优化模型的评价方法的实施环境图，在该实施环境中，包括用户终端、服务器端。

本实施例提供的优化模型的评价方法可适用于服务器端，服务器端从用户终端抓取实际生产中产生的识别数据，将所述识别数据输入优化模型，获得样本数据，其中，所述样本数据包括识别数据以及对应的输出信息；将所述样本数据发送至标注用户进行标注；其中，所述标注用户对所述样本数据标注正确标注信息或错误标注信息；获取标注用户上传的标注信息，并根据标注信息将样本数据划分为正确样本集合错误样本集；按照设定比例抽取所述正确样本集合错误样本集中的样本数据形成测试集预选数据；将所述测试集预选数据的样本数据添加到原始模型对应的标准测试集中形成优化测试集，并根据所述优化测试集对所述优化模型进行评价。

需要说明的是，用户终端可为智能手机、平板电脑、笔记本电脑、台式计算机等，服务器端可以由具有处理功能的计算机设备来实现，但并不局限于此。服务器端与用户终端可以通过蓝牙、USB(Universal Serial Bus，通用串行总线)或者其他通讯连接方式进行网络连接，本申请在此不做限制。

在一个实施例中，图2为本申请实施例提供的优化模型的评价方法的流程示意图，该优化模型的评价方法可以应用于上述的服务器端，包括如下步骤：

步骤S210，抓取实际生产中产生的识别数据，将所述识别数据输入优化模型，获得样本数据；其中，所述样本数据包括识别数据以及对应的输出信息；

步骤S220，将所述样本数据发送至标注用户进行标注；其中，所述标注用户对所述样本数据标注正确标注信息或错误标注信息；

步骤S230，获取标注用户上传的标注信息，并根据标注信息将样本数据划分为正确样本集合错误样本集；

步骤S240，按照设定比例抽取所述正确样本集合错误样本集中的样本数据形成测试集预选数据；

步骤S250，将所述测试集预选数据的样本数据添加到原始模型对应的标准测试集中形成优化测试集，并根据所述优化测试集对所述优化模型进行评价。

其中，优化模型为原始模型的优化结果，原始模型及优化模型的训练集为标准测试集。原始模型及优化模型在此不作限制，可以是识别模型、分类模型、统计模型、预测模型、检测模型等。

本申请一种实施例中，若模型为图像识别模型，如OCR模型，则抓取实际生产中产生的图片为待识别数据，抓取部分待识别数据作为识别数据，如进行身份证识别时，实际生产中产生的数据为实时采集到的身份证图片，以身份证图片作为OCR模型的识别数据。

本申请实施例中，由于实际生产中产生的识别数据是根据当前实际生产数据获得的，来源多样，且是在实际生产过程中出现的，具备实用性和实时性，利用该种方式获得的样本数据真实、种类丰富，保证样本数据的真实可靠且具有实用性。

将抓取到的识别数据输入到优化模型中，获得优化模型对所述识别数据的输出信息，将输出信息与对应的识别数据建立关联关系，并将识别数据及对应的输出信息作为样本数据，以便后续对该样本数据进行标注处理。

将所述样本数据发送至标注用户进行正确性标注，即若标注用户确定某输出信息是正确的，则标注该输出信息对应的样本数据为正确标注信息，若标注用户确定某输出信息为错误的，则该输出信息对应的样本数据为错误标注信息，而且，将该样本数据对应的标注结果进行关联，以便根据优化模型对样本数据的识别结果进行样本数据的分类。

获得标注用户上传的标注信息，所述标注信息可以是“正确”或“错误”，将标注信息为“正确”的样本数据划分为一个集合，形成正确样本集，将标注信息为“错误”的样本数据划分为错误样本集。

错误样本集中的样本数据虽然是模型识别有误的样本数据，但也可以根据这些识别有误的样本数据进行模型的调整，避免识别模型再次识别失败，因此设定比例分别从正确样本集合错误样本集中抽取部分样本数据形成测试集预选数据，该部分数据是具有标注信息的样本集，可以用作模型的训练及评价，本申请优选将测试集预选数据中的样本数据添加到原始模型对应的标准测试集中形成优化测试集，并根据所述优化测试集对所述优化模型进行评价，该评价可以是该优化模型的识别准确率。

为了更清楚本申请提供的优化模型的评价方案及其技术效果，接下来以多个实施例对其具体方案进行详细阐述。

在一种实施例中，步骤S220中的将所述样本数据发送至标注用户进行标注的步骤之前，还包括如下子步骤：建立标注用户集，分别将所述样本数据发送给标注用户集中的标注用户，以便所述标注用户对所述样本数据进行正确性标注。

其中，分别将样本数据发送给标注用户集合中的标注用户，可以根据标注用户的兴趣标签与样本数据的标签进行样本数据的分发，如：若标注用户集合中有标注用户甲及标注用户乙，标注用户甲的兴趣标签为：家居、装修、设计等，标注用户乙的兴趣标签为：技术达人、算法识别、图像识别等，若优化模型涉及图像识别领域，则样本数据的标签为图像识别，该样本数据的标签与标注用户乙的兴趣标签相匹配，则将该样本数据的标注任务发送至标注用户乙进行标注，有助于提高样本数据的标注信息的准确性及效率。

本申请实施例提供的方案是将数据样本以众包的形式发给标注用户，通过标注用户的兴趣标签进行数据样本的分发，有利于提高标注信息的准确性及获得效率。

本实施例中，若样本数据的标注信息为错误标注信息，则步骤S230中获取标注用户上传的标注数据的步骤，包括如下子步骤：获取该样本数据的错误标注信息以及标注用户输入的该识别数据对应的正确输出信息。其中，错误标注信息即该样本数据对应的标注信息为“错误”，则称该种标注信息为错误标注信息，若样本数据对应的标注信息为错误标注信息，则进一步获取该样本数据对应的正确输出信息，例如：某识别数据对应的识别结果是A，经过标注用户判断，该识别数据对应的正确识别结果为B，则该识别数据对应的样本数据的标注信息为错误标注信息，且获得标注用户输入的正确输出结果B，以便后续根据该识别数据的正确输出结果进行优化模型的评价。

步骤S240中按照设定比例抽取所述正确样本集合错误样本集中的样本数据形成测试集预选数据的步骤中，所述设定比例可以按照正确样本集与错误样本集中样本数据的数量进行同比例设定，也可以根据实际情况人为设定或随机设定。

一种实施例中，步骤S240按照设定比例抽取所述正确样本集和错误样本集中的样本数据形成测试集预选数据的步骤中，优选地，抽取正确样本集中的样本数据的数量大于错误测试样本集中样本数据的数量，即测试集预选数据中正确样本数据的数量大于错误样本数据的数量，该种限制条件能够保证生成的测试集预选数据是正向的，可以用作模型的训练过程及评价过程，与错误样本数据占多数的测试集预选数据相比，能够提高模型评价结果的准确性。

确定正确样本集及错误样本集的抽取比例之后，若错误样本集中包括多种错误类型，则根据错误样本集中的错误类型进行抽取比例的确定，其流程示意图如图3所示，包括如下子步骤：

S310，对错误样本集中的样本数据进行错误类型分类；

S320，统计所述错误样本集中的错误类型及每种错误类型的出错频率；

S330，按照所述出错频率确定每种错误类型的抽取比例。

错误样本集中的错误类型根据模型不同有不同的错误类型，以优化模型为OCR模型为例，错误类型包括：图片上仅有部分识别信息、图片上出现光斑、图片上的字/行间距过大或过小、图片上的文字类型为少数民族文字等。

首先对错误样本集中的样本数据进行错误类型分类，统计错误样本集中的错误类型及每种错误类型的出错频率，按照所述出错频率确定每种错误类型的抽取比例。

举例阐述本申请实施例的方案，若错误样本集中的错误类型有：A、B、C、D，各错误类型对应的出错频率分别为：A：60％、B：20％、C：10％、D：10％，则可以按照A：B：C：D＝6:2:1:1的比例进行抽取，该种按照错误类型的发生频次确定抽取比例的方案，使得高发的错误类型抽取的数量多，低频次发生的错误类型抽取的数量少，采用该种方式获得的测试集有利于提高利用该测试集进行训练的模型在高发错误类型上的识别精度，能够降低在高发错误类型上的识别失败率，由于该种错误类型是高发错误类型，提高该种错误类型的识别精度后，进而提高利用该测试集进行训练的模型的识别准确性。

一种实施例中，步骤S330中按照所述出错频率确定每种错误类型的抽取比例的步骤，还可以通过如下方式进行，其流程示意图如图4所示，包括如下子步骤：

S331，根据所述出错频率对各错误类型进行排序；

S332，选取排序靠前的预设数量的错误类型作为候选错误类型，根据排序结果确定各候选错误类型的抽取比例。

步骤S310获得各错误类型的出错频率，按照出错频率对各错误类型进行排序，获得排序结果，将排序结果中排名靠前的预设数量的错误类型作为候选错误类型，根据排序结果确定各候选错误类型的抽取比例。

若各错误类型的出错频率分布不均匀，如错误样本集中的错误类型为：A、B、C、D，各错误类型对应的出错频率分别为：A：60％、B：20％、C：18％、D：2％，若选取全部的错误类型进行测试样本集的组合，可能会导致错误类型D只能选取1个样本数据，因此，可以根据各错误类型的出错频率进行排序，选取排序靠前的预设数量的错误类型作为候选错误类型，如本实施例中，可以选取排序靠前的前三位错误类型作为候选错误类型，其中预设数量可以根据各错误类型的出错频率进行设定，也可以根据其他因素进行设定，本实施例中，若选定错误类型A、B、C作为候选错误类型，根据A、B、C的排序结果确定各候选错误类型的抽取比例，如可以按照37％、33％、30％的比例进行抽取各错误类型。

本申请实施例提供的方案能够解决错误类型分布极度不均匀时，如何快速确定各错误类型的抽取比例的问题，有利于提高确定每种错误类型抽取比例的效率。

一种实施例中，选取排序靠前的预设数量的错误类型作为候选错误类型，按照各错误类型的出错频率确定每种错误类型的抽取比例，结合上一示例，如：选取排名前三的错误类型A、B、C作为候选错误类型，根据各错误类型的比例A：60％、B：20％、C：18％进行抽取比例的确定。

本申请实施例提供的方案结合上述两种方案，也能够解决各错误类型分布不均匀时如何快速确定抽取比例的问题，同时按照各错误类型的出错频率进行抽取比例的确定，能够根据错误样本集中的错误类型进行针对性抽取，出错频率高的错误类型对应抽取的数量多，出错频率低的错误类型抽取的数量少，根据该种方案形成的优化测试集有利于提高优化模型的识别准确性。

一种实施例中，若上述优化模型为OCR模型时，步骤S250的根据所述优化测试集对所述优化模型进行评价的步骤，包括如下子步骤，其流程示意图如图5所示：

S510，将优化测试集中的样本数据输入OCR识别模型中，获得OCR识别模型对所述优化测试集中样本数据的输出结果；

S520，判断所述输出结果、预先与同一样本数据建立关联的输出信息是否匹配；

S530，根据所述输出结果与输出信息之间的匹配结果获得OCR识别模型的识别准确率。

OCR(Optical Character Recognition,光学字符识别)是对输入图像进行分析识别处理，获取图像中文字信息的过程，具有广泛的应用场景，例如场景图像文字识别、文档图像识别、卡证识别(如身份证、银行卡、社保卡)、票据识别等。

利用实际生产中产生的图像进行优化测试集的获取，将获得的优化测试集中的样本数据作为评价样本输入OCR识别模型中，获得OCR识别模型的输出结果，建立输入的样本数据与输出结果之间的关联，调取与所述样本数据预先建立关联的输出信息，对比同一样本数据对应的输出结果与输出信息是否匹配，调取与所述输出信息预先建立关联的标注信息，若输出信息为正确输出信息，且输出结果与输出信息相匹配，表明OCR识别模型对该样本数据识别准确，若输出信息为错误标注信息，且输出结果与输出信息相匹配，表明OCR识别模型对该样本数据识别不准确。分别统计ORC识别模型对优化测试集中各样本数据的识别结果，根据识别准确的样本数据数量与优化测试集中样本数据的总量进行对比，获得OCR识别模型的识别准确率。

以上为本申请提供的优化模型的评价方法的实施例，针对于该方法，下面阐述与其对应的优化模型的评价装置的实施例。

本申请实施例还提供了一种优化模型的评价装置，其结构示意图如图6所示，包括：获得样本数据模块610、标注模块620、划分样本集模块630、抽取模块640、评价模块650，具体如下：

获得样本数据模块610，用于抓取实际生产中产生的识别数据，将所述识别数据输入优化模型，获得样本数据，其中，所述样本数据包括识别数据以及对应的输出信息；

标注模块620，用于将所述样本数据发送至标注用户进行标注；其中，所述标注用户对所述样本数据标注正确标注信息或错误标注信息；

划分样本集模块630，用于获取标注用户上传的标注信息，并根据标注信息将样本数据划分为正确样本集和错误样本集；

抽取模块640，用于按照设定比例抽取所述正确样本集和错误样本集中的样本数据形成测试集预选数据；

评价模块650，用于将所述测试集预选数据的样本数据添加到原始模型对应的标准测试集中形成优化测试集，并根据所述优化测试集对所述优化模型进行评价。

关于上述实施例中的优化模型的评价装置，其中各个模块执行操作的具体方式已经在对应的方法的实施例中进行了详细描述，此处将不做详细阐述说明。

进一步地，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现上述任意一项所述的优化模型的评价方法的步骤。其中，所述存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random AcceSS Memory，随即存储器)、EPROM(EraSable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，存储介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器，磁盘或光盘等。

更进一步地，本申请实施例还提供一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任意一项所述的优化模型的评价方法的步骤。

图7是根据一示例性实施例示出的一种用于计算机设备700的框图。例如，计算机设备700可以被提供为一服务器。参照图7，计算机设备700包括处理组件722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理组件722的执行的指令，例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行上述优化模型的评价方法的步骤。

计算机设备700还可以包括一个电源组件726被配置为执行计算机设备700的电源管理，一个有线或无线网络接口750被配置为将计算机设备700连接到网络，和一个输入输出(I/O)接口758。计算机设备700可以操作基于存储在存储器732的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

应该理解的是，在本申请各实施例中的各功能单元可集成在一个处理模块中，也可以各个单元单独物理存在，也可以两个或两个以上单元集成于一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种优化模型的评价方法，其特征在于，包括：

2.根据权利要求1所述的优化模型的评价方法，其特征在于，所述将所述样本数据发送至标注用户进行标注的步骤之前，还包括：

3.根据权利要求2所述的优化模型的评价方法，其特征在于，若样本数据的标注信息为错误标注信息，所述获取标注用户上传的标注数据的步骤，包括：

4.根据权利要求1所述的优化模型的评价方法，其特征在于，所述按照设定比例抽取所述正确样本集和错误样本集中的样本数据形成测试集预选数据的步骤之后，还包括：

对错误样本集中的样本数据进行错误类型分类；

按照所述出错频率确定每种错误类型的抽取比例。

5.根据权利要求4所述的优化模型的评价方法，其特征在于，所述按照所述出错频率确定每种错误类型的抽取比例的步骤，包括：

根据所述出错频率对各错误类型进行排序；

6.根据权利要求1所述的优化模型的评价方法，其特征在于，所述的优化模型为OCR识别模型时，所述根据所述优化测试集对所述优化模型进行评价的步骤，包括：

7.根据权利要求1所述的优化模型的评价方法，其特征在于，所述按照设定比例抽取正确样本集及错误样本集中的测试样本形成测试集预选数据的步骤，包括：

8.一种优化模型的评价装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述权利要求1至7中任一项所述的优化模型的评价方法的步骤。

10.一种计算机设备，其特征在于，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至7中任意一项所述的优化模型的评价方法的步骤。