CN114637845A

CN114637845A - 模型测试方法、装置、设备和存储介质

Info

Publication number: CN114637845A
Application number: CN202210238123.3A
Authority: CN
Inventors: 蔡子军; 盛敏智; 郑凌厉
Original assignee: Shanghai Hongji Information Technology Co Ltd
Current assignee: Shanghai Hongji Information Technology Co Ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-06-17
Anticipated expiration: 2042-03-11
Also published as: CN114637845B

Abstract

本申请提供一种模型测试方法、装置、设备和存储介质，该方法包括：获取对待测模型配置的样本参数；根据所述样本参数生成样本文档；按照预设处理方式处理所述样本文档，生成测试文档集合；将所述测试文档集合输入所述待测模型，得到所述待测模型的识别结果数据；将所述待测模型的识别结果数据与所述样本文档中的样本数据进行比对，生成对所述待测模型的测试结果。本申请解决了现有的IDP测试方法数据收集困难、工作量大、耗时长、测试效率低下的问题。

Description

模型测试方法、装置、设备和存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种模型测试方法、装置、设备和存储介质。

背景技术

智能文档理解(Intelligent Document Processing，IDP)是智能捕获特定数据并简化文档处理活动的过程，无论要处理的是长格式文件还是电子文件，结构化文件还是非结构化文件，IDP的目标都是提取特定信息。业务数据是数字化转型的核心；不幸的是，80％的业务数据都嵌入在业务文档、图像和PDF文档等非结构化格式中，IDP技术的进步使计算机训练的算法像人类一样可以理解纸质文档，并且提取文档里的特定数据。

IDP引擎的识别准确率是衡量IDP引擎性能的重要指标。传统的IDP引擎的识别准确率的测试方法主要由人工进行，这种测试方法有以下四个方面的缺点：

1)收集测试数据时，都是从互联网或客户获取的，没办法保障数据的多样性；

2)标注数据时，人工标注数据效率耗时长；

3)人工测试时工作量大、速度慢、易出错；

4)结果的记录或汇总分析效率慢。

发明内容

本申请实施例的目的在于提供一种模型测试方法、装置、设备和存储介质，以解决现有的IDP测试方法数据收集困难、工作量大、耗时长、测试效率低下的问题。

本申请实施例第一方面提供了一种模型测试方法，包括：获取对待测模型配置的样本参数；根据所述样本参数生成样本文档；按照所述预设处理方式处理所述样本文档，生成测试文档集合；将所述测试文档集合输入所述待测模型，得到所述待测模型的识别结果数据；将所述待测模型的识别结果数据与所述样本文档中的样本数据进行比对，生成对所述待测模型的测试结果。

于一实施例中，所述根据所述样本参数生成样本文档，包括：根据所述样本参数中携带的数据类型和数据长度，生成指定格式的样本文档。

于一实施例中，所述根据所述样本参数中携带的数据类型和数据长度，生成指定格式的样本文档，包括：根据所述样本参数中携带的数据类型和数据长度，随机生成样本数据；将所述样本数据编辑在所述指定格式的样本文档中。

于一实施例中，所述数据类型包括：语言文字、数字和符号中的一个或多个，以及所述样本数据的格式。

于一实施例中，所述按照所述预设处理方式处理所述样本文档，生成测试文档集合，包括：将所述样本文档转换成目标格式的测试文档；将所述测试文档按照所述预设处理方式进行处理，得到所述测试文档集合，所述测试文档集合中包括多个具备不同显示效果的测试文档。

于一实施例中，所述预设处理方式包括：文档旋转、添加水印、转换为图片、文档模糊中的一种或多种。

于一实施例中，所述样本数据的格式为表格；所述将所述待测模型的识别结果数据与所述样本文档中的样本数据进行比对，生成对所述待测模型的测试结果，包括：根据所述样本数据生成二维数组数据，所述二维数组数据作为标注数据；将所述待测模型的识别结果数据与所述标注数据进行比对，根据比对结果生成所述待测模型的测试结果。

于一实施例中，所述将所述待测模型的识别结果数据与所述标注数据进行比对，根据比对结果生成所述待测模型的测试结果，包括：将所述识别结果数据与所述标注数据按照对应的单元格进行比对，每个单元格内的数据进行字符串比对，记录比对结果相同的单元格的数量；将所述比对结果相同的单元格的数量与所述识别结果数据中的单元格总数量之间的比例作为所述待测模型的准确率，所述准确率与所述比例呈正相关。

于一实施例中，所述将所述待测模型的识别结果数据与所述标注数据进行比对，根据比对结果生成所述待测模型的测试结果，还包括：将所述识别结果数据与所述标注数据按照字符串分布位置进行比对，将所述识别结果数据中字符串的第一位置分布与所述标注数据中字符串的第二位置分布之间的相似度作为所述待测模型的准确率，所述准确率与所述相似度呈负相关。

于一实施例中，所述样本数据的格式为表格，所述样本参数包括：指定目标表格以及所述目标表格的目标行或者目标列作为测试对象；所述样本文档中包括所述目标表格的目标行样本数据或所述目标表格的目标列样本数据；所述将所述待测模型的识别结果数据与所述样本文档中的样本数据进行比对，生成对所述待测模型的测试结果，包括：将所述识别结果数据与所述标注数据中对应的所述目标表格的目标行或者目标列进行比对，生成对所述待测模型的测试结果。

于一实施例中，还包括：当所述样本参数中包括循环次数时，按照所述循环次数循环执行所述根据所述样本参数生成样本文档，并基于所述样本文档进行模型测试比对的步骤，得到对所述待测模型的最终测试结果。

于一实施例中，所述待测模型为智能文档理解算法模型。

本申请实施例第二方面提供了一种模型测试装置，包括：获取模块，用于获取对待测模型配置的样本参数；生成模块，用于根据所述样本参数生成样本文档；处理模块，用于按照所述预设处理方式处理所述样本文档，生成测试文档集合；识别模块，用于将所述测试文档集合输入所述待测模型，得到所述待测模型的识别结果数据；比对模块，用于将所述待测模型的识别结果数据与所述样本文档中的样本数据进行比对，生成对所述待测模型的测试结果。

于一实施例中，所述生成模块用于：根据所述样本参数中携带的数据类型和数据长度，生成指定格式的样本文档。

于一实施例中，所述数据类型包括：语言文字、数字和符号中的一个或多个，以及所述样本文档中的样本数据的格式。

于一实施例中，所述处理模块用于：将所述样本文档转换成目标格式的测试文档；将所述测试文档按照所述预设处理方式进行处理，得到所述测试文档集合，所述测试文档集合中包括多个具备不同显示效果的测试文档。

于一实施例中，所述样本文档中的样本数据的格式为表格；所述比对模块用于：根据所述样本文档中的样本数据生成二维数组数据，将所述二维数组数据作为标注数据；将所述待测模型的识别结果数据与所述标注数据进行比对，根据比对结果生成所述待测模型的测试结果。

于一实施例中，所述将所述待测模型的识别结果数据与所述标注数据进行比对，根据比对结果生成所述待测模型的测试结果，包括：将所述识别结果数据与所述标注数据按照对应的单元格进行比对，每个单元格内的数据进行字符串比对，记录比对结果相同的单元格的数量；将所述数量与所述识别结果数据中的单元格总数量之间的比例作为所述待测模型的准确率，所述准确率与所述比例呈正相关。

于一实施例中，所述样本数据的格式为表格，所述样本参数包括：指定目标表格以及所述目标表格的目标行或者目标列作为测试对象；所述样本文档中包括所述目标表格的目标行样本数据或所述目标表格的目标列样本数据；所述比对模块用于：将所述识别结果数据与所述标注数据中对应的所述目标表格的目标行或者目标列进行比对，生成对所述待测模型的测试结果。

于一实施例中，还包括：循环模块，用于当所述样本参数中包括循环次数时，按照所述循环次数循环执行所述根据所述样本参数生成样本文档，并基于所述样本文档进行模型测试比对的步骤，得到对所述待测模型的最终测试结果。

于一实施例中，所述待测模型为智能文档理解算法模型。

本申请实施例第三方面提供了一种电子设备，包括：存储器，用以存储计算机程序；处理器，用以执行所述计算机程序，以实现本申请实施例第一方面及其任一实施例的方法。

本申请实施例第四方面提供了一种非暂态电子设备可读存储介质，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行本申请实施例第一方面及其任一实施例的方法。

本申请提供的模型测试方法、装置、设备和存储介质，通过对待测模型配置样本参数，基于样本参数生成对应的样本文档，然后按照预先设定的处理方式将样本文档进行不同场景下的变换处理，以模拟文档在真实场景下的多种情况，可以得到不同模拟场景下的多个测试文档组成的测试文档集合，然后将测试文档集合输入到待测模型，得到待测模型输出的识别结果数据，并将识别结果数据与样本文档的数据进行比对，即可得到对所述待测模型的测试结果，如此，只需要一份样本文档的数据就能制造出适应于不同场景下的大量测试数据，而且不需要人工去标注数据，直接读取样本文档的数据当标注，解决了现有的IDP测试方法中数据收集困难、工作量大、耗时长、测试效率低下的问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例的电子设备的结构示意图；

图2为本申请一实施例的模型测试方法的流程示意图；

图3为本申请一实施例的模型测试方法的流程示意图；

图4本申请一实施例的实际场景中采购订单的示意图；

图5本申请一实施例的模型测试装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图1中以一个处理器为例。处理器11和存储器12通过总线10连接。存储器12存储有可被处理器11执行的指令，指令被处理器11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程，以实现基于少量样本文档的数据生成适应于不同场景下的大量测试数据进行模型测试，解决了现有的IDP测试方法中数据收集困难、工作量大、耗时长、测试效率低下的问题。

于一实施例中，电子设备1可以是手机、平板电脑、笔记本电脑、台式计算机等设备。

请参看图2，其为本申请一实施例的模型测试方法，该方法可由图1所示的电子设备1来执行，以基于少量样本文档的数据生成适应于不同场景下的大量测试数据进行模型测试，提高模型测试效率。该方法包括如下步骤：

步骤201：获取对待测模型配置的样本参数。

在本步骤中，待测模型可以是用于文档或者图片识别的算法模型，比如用于提取文档中特定位置数据的IDP算法模型(即智能文档理解算法模型)，比如用来提取表单中某个表格的数据的算法模型，或者提取表单中公司名称的算法模型等。

实际场景中，对于特定的识别需求，可以预先训练特定类型的算法模型，用于识别信息。算法模型的识别准确率表征了算法模型的优劣程度，人们往往希望训练得到的算法模型能够拥有更加高的识别率，因此在算法模型训练完成后，需要对算法模型进行准确度等性能测试，以评选出更加准确的算法模型。待测模型就是需要进行性能测试的算法模型。

样本参数用于限定样本数据的基本内容和样式，并可以限定测试相关的配置，可以基于实际测试的需求、以及待测模型的测试对象属性进行设定。以用于识别表格信息的待测模型为例，样本参数比如可以是：针对哪些表格的识别进行测试、针对表格的第几列或者第几行的识别进行测试，表格中样本数据的属性等等。样本参数可以由用户通过交互界面录入到电子设备1，也可以直接从其它设备中读取得到。

以PDF数据识别算法模型为例，开始自动化测试时，可以传入样本参数包含但不限于(参数一：编辑第几个表格。参数二：编辑表格的第几列。参数三：输入数据的长度。参数四：输入数据的格式。参数五：PDF数据的预设处理方式。参数六：需要测试的总次数。)

其中参数一用来指定对哪个目标表格进行测试，参数二用来指定对目标表格的第几行第几列的识别进行测试，参数三用来限定输入表格的数据长度，参数四用来限定样本数据的数据类型，参数五用来限定生成测试文档集合时对样本文档的处理方式，参数六用来限定基于上述样本参数循环进行测试的次数。

步骤202：根据样本参数生成样本文档。

在本步骤中，样本参数限定了样本数据的基本内容和样式，因此可以基于指定的样本参数自动生成样本文档，如此无需人工去搜集样本文档，节约人工成本。

步骤203：按照预设处理方式处理样本文档，生成测试文档集合。

在本步骤中，预设处理方式是针对样本文档的处理方式，目的是用来模拟真实场景中文档的状态，预设处理方式包含但不限于：文档旋转、添加水印、转换为图片、文档模糊等。预设处理方式种类越多，处理后得到的测试文档类型就越多，就可以模拟更加丰富的实际场景文档数据。以待测模型的识别对象为PDF或图片为例，真实用户场景下，有些PDF数据有旋转、水印、转图片、图片模糊等情况，此时用户就可以设定相应的预设处理方式来处理样本文档，以得到包含模拟上述真实场景下PDF或图片形态的测试文档集合。如此，只需要一份样本数据就能制造出非常大量的测试数据，无需人工收集测试数据，提高测试效率。

步骤204：将测试文档集合输入待测模型，得到待测模型的识别结果数据。

在本步骤中，测试文档集合中包含多个测试文档，测试文档可以作为待测模型的识别对象，也就是待测模型的输入数据，待测模型会运行自身算法对测试文档进行数据识别，比如待测模型为针对PDF文档中表格信息进行提取的算法模型，则测试文档就是PDF类型的文档，将测试文档输入待测模型后，待测模型会对测试文档的特定位置的表格信息进行提取，提取出来的数据也就是待测模型的识别结果数据。

步骤205：将待测模型的识别结果数据与样本文档中的样本数据进行比对，生成对待测模型的测试结果。

在本步骤中，待测模型对测试文档的数据识别结果是否准确，需要与标注数据进行比对，如果识别结果数据和标注数据一样，则表示识别结果是正确的。在现有技术中，往往需要人工来标注用于比对的标注数据，本申请中，由于样本数据是基于预先配置的样本参数限定生成的，因此生成的样本数据是可以获知的，可以直接将样本文档中的样本数据作为用来对比的标注数据，与待测模型的识别结果数据进行比对，如果二者相同，则就说明识别结果是正确的，否则识别结果就是不正确的。以此得到待测模型的测试结果。

于一实施例中，当所述样本数据的格式为表格，所述样本参数包括：指定目标表格以及所述目标表格的目标行或者目标列作为测试对象时；所述样本文档中包括所述目标表格的目标行样本数据或所述目标表格的目标列样本数据；则步骤250具体可以包括：将所述识别结果数据与所述标注数据中对应的所述目标表格的目标行或者目标列进行比对，生成对所述待测模型的测试结果。

如果步骤201中传入的样本参数指定目标表格的第几行第几列，可以仅生成包含该指定第几行第几列的样本文档，识别的时候，就直接输出第几行第几列的识别结果，直接与样本文档对比。以PDF数据识别算法模型为例，传入样本参数(参数一：编辑第1个表格。参数二：编辑表格的第2列。参数三：输入数据的长度。参数四：输入数据的样式。参数五：PDF数据的预设处理方式。参数六：需要测试的总次数，等等。)则在步骤202中生成的样本文档和步骤203中生成的测试文档中都只包含指定第1个表格的第2列的数据。那么在步骤204输出的也是对第1个表格的第2列的数据的识别结果，步骤205中就是直接将对第1个表格的第2列的数据的识别结果与样本文档中的第1个表格的第2列的数据进行比对。如此可以通过样本参数的配置，对待测模型的特定位置识别精度进行测试。

于一实施例中，也可以基于样本参数生成包含整个目标表格的样本文档，而后续待测模型仅仅对指定的第几行第几列进行识别，结果对比时，将第几行第几列的识别结果与样本文档中目标表格的对应行列进行比对。比如上述PDF数据识别算法模型的例子中，在步骤202中生成的样本文档和步骤203中生成的测试文档中都可以包含指定第1个表格的全部数据。而在步骤204输出的仅是对第1个表格的第2列的数据的识别结果，步骤205中就是直接将对第1个表格的第2列的数据的识别结果与样本文档中的第1个表格的第2列的数据进行比对。

于一实施例中，当所述样本参数中包括循环次数时，按照所述循环次数循环执行所述根据所述样本参数生成样本文档，并基于所述样本文档进行模型测试比对的步骤，得到对所述待测模型的最终测试结果。

上述步骤201-步骤205为单次测试流程，当样本参数中指定了测试循环次数时，比如上述例子中参数六：需要的循环次数，则按照参数指定的循环次数，循环执行步骤202-步骤205，直至完成总次数的测试过程，基于循环测试得到对所述待测模型的最终测试结果。

上述模型测试方法，通过对待测模型配置样本参数，基于样本参数生成对应的样本文档，然后按照预先设定的处理方式将样本文档进行不同场景下的变换处理，以模拟文档在真实场景下的多种情况，可以得到不同模拟场景下的多个测试文档组成的测试文档集合，然后将测试文档集合输入到待测模型，得到待测模型输出的识别结果数据，并将识别结果数据与样本文档的数据进行比对，即可得到对待测模型的测试结果，如此，只需要一份样本文档的数据就能制造出适应于不同场景下的大量测试数据，而且不需要人工去标注数据，直接读取样本文档的数据当标注，解决了现有的IDP测试方法中数据收集困难、工作量大、耗时长、测试效率低下的问题。

请参看图3，其为本申请一实施例的模型测试方法，该方法可由图1所示的电子设备1来执行，以基于少量样本文档的数据生成适应于不同场景下的大量测试数据进行模型测试，提高模型测试效率。该方法包括如下步骤：

步骤301：获取对待测模型配置的样本参数。详细参见上述实施例中对步骤201的描述。

步骤302：根据样本参数中携带的数据类型和数据长度，生成指定格式的样本文档。

在本步骤中，样本参数中包含但不限于用来限定样本数据的数据类型和数据长度，数据类型用于表征样本数据的内容，数据长度用于限定样本数据的大小。

于一实施例中，数据类型包含但不限于：语言文字、数字和符号中的一个或多个，以及样本文数据的格式。语言文字可以是中文、英文字母、日文等语种的文字，符号可以是一些字符分隔符，比如：标点符号、括号、数学计算符号(例如：“+”、“-”、“*”)等。可以在运行测试前，预先建立特殊符号数据集，以便于后续可以供用户录入样本参数时使用。样本数据的格式可以是用来限定样本数据分布的格式，比如可以是表格、横排文字或竖排文字等。多样化的数据类型可以丰富样本数据的多样性，进而丰富测试数据的多样性。样本文档可以具有指定的格式，比如可以是word文档或者TXT文档等格式，样本文档的格式选择可以基于实际需求设定。

于一实施例中，步骤302具体可以包括：根据样本参数中携带的数据类型和数据长度，随机生成样本数据。将样本数据编辑在指定格式的样本文档中。

在本步骤中，以待测模型为表格信息的提取算法为例，按照样本参数中描述的数据类型，表格数据可以是由中文、字母、数字、特殊符号组成的，根据样本参数中的数据长度，随机生成样本数据。其中，中文可以根据Unicode(统一码)码中收录的2万多个汉字里随机挑选，字母可以是从大小写中随机挑选。假设样本文档指定为word文档格式，可以预先安装python-docx库文件，使用python(计算机编程语言)语言调用word接口来读取word文档，该word文档可以是空的文档，也可以是预先设置有内容的文档，然后将上述样本数据编辑在word文档中，即生成了样本文档。

样本数据是基于样本参数随机产生的，数据类型可以覆盖不同数据内容，覆盖所有的中文、字母、特殊符号。在待测模型循环测试时，每次随机产生的样本数据和样式不一样，可以保障每次测试的数据不同，进而提高测试方式的覆盖率。比如IDP提取表格特定位置的数据过程中，，对表格单元格数据的换行场景、列间距较小的场景、行间距较小的场景，很容易出现识别不准确的情况，当需要知道待测IDP算法模型对这几种场景的识别结果到底准不准时，就需要这些场景下的样本文档作为标注数据，而按照步骤302的方式产生的样本文档丰富多样，能很好的覆盖这类场景下的情况。

步骤303：将样本文档转换成目标格式的测试文档。

在本步骤中，测试文档的格式与待测模型能够识别的文档格式保持一致，因此目标格式就是待测模型能够识别的文档格式。如果待测模型是针对PDF的表格信息提取算法，则测试文档的目标格式就是PDF格式，则将步骤302中生成的word文档转为PDF文件，以保证待测模型可以正常对测试文档进行识别。

步骤304：将测试文档按照预设处理方式进行处理，得到测试文档集合，测试文档集合中包括多个具备不同显示效果的测试文档。

在本步骤中，以PDF数据识别算法模型为例，预设处理方式目的是为了模拟真实场景下多种形态的PDF文本数据或图片格式数据。在真实场景中，有些PDF文档数据有旋转、水印、转图片、图片模糊等不同的显示效果情况，为了验证待测模型对这些场景下的PDF文档识别准确率，需要具备这些场景下的测试文档作为输入。因此，可以根据步骤301中输入的参数五(PDF数据的预设处理方式)，对测试文档进行处理，比如将测试文档进行±180度的旋转处理、±50的模糊处理，生成不同的PDF文件，或者如果待测模型支持图片格式，也可以将测试文档处理成图片格式，组成最终的测试文档集合。如此，无需手动收集测试文档，即可自动生成各种场景下的测试文档集合。

当然本实施例并不仅仅适用于PDF数据识别算法模型，上述实施例仅做举例释义，本申请实施例的方案也可以适用于其他待测的算法模型。

步骤305：将测试文档集合输入待测模型，得到待测模型的识别结果数据。详细参见上述实施例中对步骤204的描述。

步骤306：根据样本数据生成二维数组数据，二维数组数据作为标注数据。

在本步骤中，当样本数据的格式为表格时，因为表格数据是由行和列两个维度限定数据，可以将步骤302中的样本文档中的表格数据按照行列分布转换为二维数组形式的数据，这个二维数组中的每一行的元素对应着表格中每一行的数据，二维数组中的每一列的元素对应着表格中每一列的数据，因此二维数组中的内容和分布格式都是已知的，因此可以将其作为本次测试的标注数据，最后会与待测模型的识别结果数据进行对比。如此，节省了人工标注成本，提高测试效率。

于一实施例中，样本数据样式也可以是普通文本，比如一张表单上的公司名称，此时，样本文档的数据就是按照行分布的数据或者按照列分布的数据，将该数据作为标注数据。

步骤307：将待测模型的识别结果数据与标注数据进行比对，根据比对结果生成待测模型的测试结果。

在本步骤中，可以通过待测模型对测试文档集合的识别结果与标注数据进行对比，计算出待测模型的准确率，比如，测试文档集合中包括多个测试文档，每一个测试文档输入到待测模型中都会输出一个识别结果数据，将该识别结果数据与该测试文档对应的样本文档进行比对后，得到一个比对结果，同理其他每个测试文档都会对应一个比对结果，组成本次测试的比对结集合，然后基于该比对结果集合统计待测模型的准确率。

也可以按照样本参数中指定的测试循环次数，每一次循环后得到一个比对结集合，在按照循环次数循环测试完成后，将得到的多个比对结果集合进行统计，得到待测模型的准确率。其中循环测试是指按照样本参数中指定的测试循环次数循环执行步骤302至步骤305。

于一实施例中，步骤307具体可以包括：将识别结果数据与标注数据按照对应的单元格进行比对，每个单元格内的数据进行字符串比对，记录比对结果相同的单元格的数量。将比对结果相同的单元格的数量与识别结果数据中的单元格总数量之间的比例作为待测模型的准确率，准确率与比例呈正相关。

也就是说基于步骤306中待测模型输出的结果，按照表格的单个单元格与标注数据的对应单元格进行对比，每个单元格的数据进行字符串对比，统计总共成功的单元格(即比对结果相同的单元格)数量，除以表格的总单元格数量，计算待测模型的准确率，单元格总量确定的情况下，成功的单元格数量越多，待测模型的识别准确率就越大。

如果在最初的用户输入的样本参数中用户指定了特定表格的特定列作为测试目标，则可以仅将识别结果中的特定列包含的单元格与标注数据对应列的单元格进行比对。

于一实施例中，步骤307具体还可以包括：将识别结果数据与标注数据按照字符串分布位置进行比对，将识别结果数据中字符串的第一位置分布与标注数据中字符串的第二位置分布之间的相似度作为待测模型的准确率，准确率与相似度呈负相关。

此处主要测试的是待测模型对于数据错位情况的识别是否准确，由于IDP提取特定位置的数据时，对表格单元格数据的换行、列间距、行间距比较敏感，字符串分布位置可以表征表格中数据的相对位置，将其与标注数据中的字符串分布位置进行比对，即可确定是否有字符串错位，如果识别结果中某个字符串的位置分布与标注数据中该字符串的位置分布之间的相似度相似度很小，说明该待测模型准确率比较低，反之准确率较高。

请参看图4，其为本申请一实施例的实际场景中采购订单的示意图，其可以作为智能文档理解算法模型的识别对象。在智能文档理解领域中，新发布一个智能文档理解算法模型后。需要评估图4中表格内容右对齐后，该算法模型对图4表格的识别结果是否会出现列数据错位的情况(比如第一列“项次”与第二列“物料代码”的数据是否混在一起)，并且测试该模型的识别准确率。采用上述模型测试方法对该模型进行测试的流程如下：

首先获取用户输入的样本参数(参数一：输入第一个表格、参数二：第一列、参数三：数据长度为(1-3)、参数四：数据类型为数字、参数五：数据样式为表格)，并指定预设处理方式为右对齐。

其中参数一，表示对第一个表格的识别进行测试，参数二表示具体对第一个表格的第一列的识别精度进行测试，然后读取最新的word文档，基于上述样本参数在word文档中编辑第一个表格，并按照参数三和参数四随机生成样本数据，将样本数据编辑在表格中，将编辑好的整个表格数据作为标注数据输出样本文档，即可得到对应的标注数据为：[["项次","随机数1-999","随机数1-999"],["物料代码","M.AG000132","M.AG000118"],["物料名称","过滤减压阀","软启动阀"],[…]]。

智能文档理解识别引擎(待测模型)输出的结果：[["项次","随机数1-999","随机数1-999"],["物料代码","M.AG000132","M.AG000118"],["物料名称","过滤减压阀","软启动阀"],[…]]。

结果对比方式是每个单元格数据对比，比如智能文档理解识别引擎输出的结果第一列是["项次","4","326"]，那么分别将智能文档理解识别引擎输出的结果"项次"，"4"，"326"与标注数据里的第一列数据对比，标注数据的第一列为：[["项次","随机数1-999","随机数1-999"]。由于本实施例的测试目的是想要知道算法模型对图4表格的识别结果是否会出现列数据错位的情况，比如会不会出现第一列“项次”与第二列“物料代码”的数据是否混在一起的情况，通过比对可得，智能文档理解识别引擎输出的结果的第一列和标注数据里的第一列都是“项次”，并且“项次”同一列的数据类型是相同的，都是数字，因此智能文档理解识别引擎对图4表格第一列的识别结果不会出现错位情况。

上述模型测试方法，只需要一份数据就能制造出非常大量的测试数据，并且测试数据可以覆盖不同数据内容，覆盖所有的中文、字母、特殊符号。针对IDP提取特定位置的数据时，对表格单元格数据的换行、列间距、行间距比较敏感，该方法制造出的测试数据能很好的覆盖这类数据。并且可以模拟用户的真实数据，不需要人工去标注数据，可扩展性强，比如需要测试其它数据的泛化性(比如日文)，只需要新建一个日文样本数据就可以了。采用全自动化方式测试IDP模型，并且每次迭代都有全面性测试数据去评估IDP的准确能力，避免数据的不均衡的情况，提高了测试的效率。

请参看图5，其为本申请一实施例的模型测试装置500，该装置可应用于图1所示的电子设备1，以基于少量样本文档的数据生成适应于不同场景下的大量测试数据进行模型测试，提高模型测试效率。该装置包括：获取模块501、生成模块502、处理模块503、识别模块504和比对模块505，各个模块的原理关系如下：

获取模块501，用于获取对待测模型配置的样本参数。

生成模块502，用于根据样本参数生成样本文档。

处理模块503，用于按照预设处理方式处理样本文档，生成测试文档集合。

识别模块504，用于将测试文档集合输入待测模型，得到待测模型的识别结果数据。

比对模块505，用于将待测模型的识别结果数据与样本文档中的样本数据进行比对，生成对待测模型的测试结果。

于一实施例中，生成模块502用于：根据样本参数中携带的数据类型和数据长度，生成指定格式的样本文档。

于一实施例中，根据样本参数中携带的数据类型和数据长度，生成指定格式的样本文档，包括：根据样本参数中携带的数据类型和数据长度，随机生成样本数据。将样本数据编辑在指定格式的样本文档中。

于一实施例中，数据类型包括：语言文字、数字和符号中的一个或多个，以及样本数据的格式。

于一实施例中，处理模块503用于：将样本文档转换成目标格式的测试文档。将测试文档按照预设处理方式进行处理，得到测试文档集合，测试文档集合中包括多个具备不同显示效果的测试文档。

于一实施例中，预设处理方式包括：文档旋转、添加水印、转换为图片、文档模糊中的一种或多种。

于一实施例中，样本数据的格式为表格。比对模块505用于：根据样本数据生成二维数组数据，二维数组数据作为标注数据。将待测模型的识别结果数据与标注数据进行比对，根据比对结果生成待测模型的测试结果。

于一实施例中，将待测模型的识别结果数据与标注数据进行比对，根据比对结果生成待测模型的测试结果，包括：将识别结果数据与标注数据按照对应的单元格进行比对，每个单元格内的数据进行字符串比对，记录比对结果相同的单元格的数量。将比对结果相同的单元格的数量与识别结果数据中的单元格总数量之间的比例作为待测模型的准确率，准确率与比例呈正相关。

于一实施例中，将待测模型的识别结果数据与标注数据进行比对，根据比对结果生成待测模型的测试结果，还包括：将识别结果数据与标注数据按照字符串分布位置进行比对，将识别结果数据中字符串的第一位置分布与标注数据中字符串的第二位置分布之间的相似度作为待测模型的准确率，准确率与相似度呈负相关。

于一实施例中，所述待测模型为智能文档理解算法模型。

上述模型测试装置500的详细描述，请参见上述实施例中相关方法步骤的描述。

本发明实施例还提供了一种非暂态电子设备可读存储介质，包括：程序，当其在电子设备上运行时，使得电子设备可执行上述实施例中方法的全部或部分流程。其中，存储介质可为磁盘、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccess Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等。存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种模型测试方法，其特征在于，包括：

获取对待测模型配置的样本参数；

根据所述样本参数生成样本文档；

按照预设处理方式处理所述样本文档，生成测试文档集合；

将所述测试文档集合输入所述待测模型，得到所述待测模型的识别结果数据；

将所述待测模型的识别结果数据与所述样本文档中的样本数据进行比对，生成对所述待测模型的测试结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述样本参数生成样本文档，包括：

根据所述样本参数中携带的数据类型和数据长度，生成指定格式的样本文档。

3.根据权利要求2所述的方法，其特征在于，所述根据所述样本参数中携带的数据类型和数据长度，生成指定格式的样本文档，包括：

根据所述样本参数中携带的数据类型和数据长度，随机生成样本数据；

将所述样本数据编辑在所述指定格式的样本文档中。

4.根据权利要求2所述的方法，其特征在于，所述数据类型包括：语言文字、数字和符号中的一个或多个，以及所述样本数据的格式。

5.根据权利要求1所述的方法，其特征在于，所述按照所述预设处理方式处理所述样本文档，生成测试文档集合，包括：

将所述样本文档转换成目标格式的测试文档；

将所述测试文档按照所述预设处理方式进行处理，得到所述测试文档集合，所述测试文档集合中包括多个具备不同显示效果的测试文档。

6.根据权利要求1所述的方法，其特征在于，所述预设处理方式包括：文档旋转、添加水印、转换为图片、文档模糊中的一种或多种。

7.根据权利要求2所述的方法，其特征在于，所述样本数据的格式为表格；所述将所述待测模型的识别结果数据与所述样本文档中的样本数据进行比对，生成对所述待测模型的测试结果，包括：

根据所述样本数据生成二维数组数据，将所述二维数组数据作为标注数据；

将所述待测模型的识别结果数据与所述标注数据进行比对，根据比对结果生成所述待测模型的测试结果。

8.根据权利要求7所述的方法，其特征在于，所述将所述待测模型的识别结果数据与所述标注数据进行比对，根据比对结果生成所述待测模型的测试结果，包括：

将所述识别结果数据与所述标注数据按照对应的单元格进行比对，每个单元格内的数据进行字符串比对，记录比对结果相同的单元格的数量；

将所述比对结果相同的单元格的数量与所述识别结果数据中的单元格总数量之间的比例作为所述待测模型的准确率，所述准确率与所述比例呈正相关。

9.根据权利要求7所述的方法，其特征在于，所述将所述待测模型的识别结果数据与所述标注数据进行比对，根据比对结果生成所述待测模型的测试结果，还包括：

将所述识别结果数据与所述标注数据按照字符串分布位置进行比对，将所述识别结果数据中字符串的第一位置分布与所述标注数据中字符串的第二位置分布之间的相似度作为所述待测模型的准确率，所述准确率与所述相似度呈负相关。

10.根据权利要求1所述的方法，其特征在于，所述样本数据的格式为表格，所述样本参数包括：指定目标表格以及所述目标表格的目标行或者目标列作为测试对象；所述样本文档中包括所述目标表格的目标行样本数据或所述目标表格的目标列样本数据；所述将所述待测模型的识别结果数据与所述样本文档中的样本数据进行比对，生成对所述待测模型的测试结果，包括：

将所述识别结果数据与所述标注数据中对应的所述目标表格的目标行或者目标列进行比对，生成对所述待测模型的测试结果。

11.根据权利要求1所述的方法，其特征在于，还包括：

当所述样本参数中包括循环次数时，按照所述循环次数循环执行所述根据所述样本参数生成样本文档，并基于所述样本文档进行模型测试比对的步骤，得到对所述待测模型的最终测试结果。

12.根据权利要求1所述的方法，其特征在于，所述待测模型为智能文档理解算法模型。

13.一种电子设备，其特征在于，包括：

存储器，用以存储计算机程序；

处理器，用以执行所述计算机程序，以实现如权利要求1至12中任一项所述的方法。