CN116204424A - 一种算法评估方法、系统、装置、客户端及服务器 - Google Patents
一种算法评估方法、系统、装置、客户端及服务器 Download PDFInfo
- Publication number
- CN116204424A CN116204424A CN202310077599.8A CN202310077599A CN116204424A CN 116204424 A CN116204424 A CN 116204424A CN 202310077599 A CN202310077599 A CN 202310077599A CN 116204424 A CN116204424 A CN 116204424A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- evaluation
- strategy
- tested
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3688—Test management for test execution, e.g. scheduling of test suites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3692—Test management for test results analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供了一种算法评估方法、系统、装置、客户端及服务器,涉及算法测试技术领域,该方法包括:获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据;基于所获取的指定评估维度指标的测试数据,确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;确定预设的与指定测试策略关联的算法评估策略,作为目标算法评估策略;按照目标算法评估策略所指示的业务结论生成方式,基于待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成待测试算法针对业务场景的业务结论。通过本方案可以提高算法评估的效率。
Description
技术领域
本发明涉及算法测试技术领域,特别是涉及一种算法评估方法、系统、装置、客户端及服务器。
背景技术
算法评估指对算法在某业务场景下的运行情况进行评估,以为后续业务提供数据支持。
为了确定算法在某业务场景下的运行情况,相关技术中主要采用人工方式进行算法评估,例如在算法训练过程中,需要对训练之后的算法利用验证数据集进行测试,以确定训练后的算法的准确率、召回率等是否满足在业务场景中运行要求,相关技术中,需要人工针对算法测试的测试数据进行分析,得到最终的验证结果。
由于相关技术中,需要人工进行算法评估,导致算法评估的效率较低。
发明内容
本发明实施例的目的在于提供一种算法评估方法、系统、装置、客户端及服务器,以提高算法评估的效率。具体技术方案如下:
第一方面,本发明实施例提供了一种算法评估方法,所述方法包括:
获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据;其中,所述指定测试策略为与所述待测试算法的业务场景匹配的测试策略,所述指定测试策略指示所述待测试算法在至少一测试配置下进行测试;所述指定评估指标为各评估指标中的至少一种;
基于所获取的指定评估指标的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;
确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;
按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
可选地,所述获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据,包括:
获取算法测试任务或离线评估任务;其中,所述算法测试任务包括算法标识、策略标识和指定评估指标;所述离线评估任务包括存储地址信息;所述存储地址信息指示离线指标数据的获取地址,所述离线指标数据为预先按照指定测试策略对待测试算法进行测试所得到的指定评估指标的指标数据;
在所获取的为所述算法测试任务的情况下,按照所述策略标识所指示的指定测试策略,对所述算法标识所指示的待测试算法进行测试,得到所述待测试算法的在所述指定评估指标下的指标数据;
在所获取的为所述离线评估任务的情况下,从所述存储地址信息所指示的获取地址中,读取所述离线指标数据。
可选地,所述获取算法测试任务或离线评估任务,包括:
展示任务生成界面;其中,所述任务生成界面包含任务类型选择框;
接收针对所述任务类型选择框的任务选择操作;
在所述任务选择操作所选择的任务类型为测试类型的情况下,展示第一子界面;其中,所述第一子界面中包含测试算法选择框、测试策略选择框和评估指标选择框;分别接收针对所述测试算法选择框、所述测试策略选择框和所述评估指标选择框的选择操作,确定所选择的算法标识、策略标识和指定评估指标;基于所选择的算法标识、策略标识和指定评估指标,生成算法测试任务;
在所述任务选择操作所选择的任务类型为离线类型的情况下,展示第二子界面;其中,所述第二子界面中包含位置选择框;接收针对所述位置选择框的选择操作,确定所选择的存储地址信息;基于所选择的存储地址信息,生成离线评估任务。
可选地,所述测试配置包括第一维度配置和第二维度配置;其中,所述第一维度配置和所述第二维度为终端硬件配置、数据类型配置中的至少一种;所述终端硬件配置指示所述待测试算法进行测试时所部署的终端信息,所述数据类型配置指示所述待测试算法进行测试时所输入的数据的类型信息;
所述基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,包括:
基于所获取的指定评估维度的测试数据,确定所述待测试算法在所述第一维度配置下,所述待测试算法的指定评估指标的指标数据随所述第二维度配置的变化的变化函数,作为所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系。
可选地,所述终端硬件配置包括终端配置和硬件配置中的至少一种;其中,所述终端配置指示所述待测试算法进行测试时的终端部署信息,所述硬件配置指示所述待测试算法进行测试时的终端包含的硬件信息;
所述数据类型配置包括数据源配置、任务数量配置以及数据格式配置中的至少一种;其中,所述数据源配置指示所述待测试算法进行测试时输入数据所属的数据源;所述任务数量配置指示所述待测试算法进行测试时同步处理的最大任务数;所述数据格式配置指示所述待测试算法进行测试时所输入数据的数据格式。
可选地,所述终端配置包括终端数量、终端类型、终端版本中的至少一种;所述硬件配置包括显卡数量、内存大小、处理器算力中至少一种;所述数据源配置包括数据源所属场景、数据源类型、数据源中的数据数量中的至少一种;所述数据格式配置包括分辨率、帧率、类型中的至少一种。
可选地,所述确定预设的与所述指定测试策略关联的算法评估策略,包括:
展示至少一算法评估策略;其中,任一算法评估策略为针对至少一测试配置和/或至少一评估指标所配置的;
接收针对所述至少一算法评估策略的选择操作,并将所述至少一算法评估策略中,该选择操作所选择的算法评估策略,作为与所述指定测试策略关联的算法评估策略。
可选地,在所述按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论之后,所述方法还包括:
展示评估展示界面;其中,所述评估展示界面中包含所述指定评估指标对应的目标图例,和/或所生成的业务结论;其中,所述目标图例为基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系所生成的图例。
可选地,所述目标算法评估策略包括算法评估模板;所述算法评估模板包含条件字段和待进行内容填充的空白字段;所述条件字段包含针对测试配置和/或评估指标进行筛选的筛选条件;
所述按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论,包括:
根据所述算法评估模板中所述条件字段包含的筛选条件,对所述待测试算法进行测试时的测试配置和/或所述待测试算法测试所得到的指定评估指标的指标数据进行筛选,得到筛选数据;
从所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系中,确定与所述筛选数据对应的指标数据和/或测试配置;
将所确定的指标数据和/或测试配置填入所述算法评估模板中的所述空白字段,得到所述待测试算法针对所述业务场景的业务结论。
可选地,所述各评估指标包括:硬件评估指标和算法评估指标中的至少一种;
所述硬件评估指标包括:硬件资源利用率、硬件功耗、硬件温度变化值中的至少一种;
所述算法评估指标包括:算法吞吐量、算法精度、响应时间中的至少一种。
第二方面,本发明实施例提供了一种算法评估方法,应用于算法评估系统中的客户端,所述算法评估系统还包括:服务器;所述方法包括:
展示任务生成界面;
接收针对所述任务生成界面的配置操作,生成算法评估任务;其中,所述算法评估任务指示获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的数据获取策略;
向所述服务器发送所述算法评估任务,以使所述服务器在接收所述算法评估任务后,基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据;基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
第三方面,本发明实施例提供了一种算法评估方法,应用于算法评估系统中的服务器,所述算法评估系统还包括:客户端;所述方法包括:
接收所述客户端生成的算法评估任务;其中,所述算法评估任务指示获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的数据获取策略;
基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据;
基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;
确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;
按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
第四方面,本发明实施例提供了一种算法评估系统,所述算法评估系统包括:客户端和服务器;
所述客户端,用于展示任务生成界面;接收针对所述任务生成界面的配置操作,生成算法评估任务;其中,所述算法评估任务指示获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的数据获取策略;向所述服务器发送所述算法评估任务;
所述服务器,用于接收所述客户端发送的算法评估任务;基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据;基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
可选地,所述任务生成界面包括任务类型选择框;针对所述任务生成界面的配置操作包括针对所述任务类型选择框的任务选择操作;
所述客户端接收针对所述任务生成界面的配置操作,生成算法评估任务,包括:
在所述任务选择操作所选择的任务类型为测试类型的情况下,展示第一子界面;其中,所述第一子界面中包含测试算法选择框、测试策略选择框和评估指标选择框;分别接收针对所述测试算法选择框、所述测试策略选择框和所述评估指标选择框的选择操作,确定所选择的算法标识、策略标识和指定评估指标;基于所选择的算法标识、策略标识和指定评估指标,生成算法测试任务,作为算法评估任务;
在所述任务选择操作所选择的任务类型为离线类型的情况下,展示第二子界面;其中,所述第二子界面中包含位置选择框;接收针对所述位置选择框的选择操作,确定所选择的存储地址信息;基于所选择的存储地址信息,生成离线评估任务,作为算法评估任务;所选择的存储地址信息指示离线指标数据的获取地址,所述离线指标数据为预先按照指定测试策略对待测试算法进行测试所得到的指定评估指标的指标数据。
可选地,所述服务器基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据,包括:
在所获取的为所述算法测试任务的情况下,按照所述策略标识所指示的指定测试策略,对所述算法标识所指示的待测试算法进行测试,得到所述待测试算法的在所述指定评估指标下的指标数据;
在所获取的为所述离线评估任务的情况下,从所选择的存储地址信息所指示的获取地址中,读取所述离线指标数据。
可选地,所述客户端,还用于在所述展示任务生成界面之后,展示至少一算法评估策略;其中,任一算法评估策略为针对至少一测试配置和/或至少一评估指标所配置的;接收针对所述至少一算法评估策略的选择操作,并将所述至少一算法评估策略中,该选择操作所选择的算法评估策略,发送至所述服务器;
所述服务器确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略,包括:
接收所述客户端所发送的算法评估策略,作为目标算法评估策略。
第五方面,本发明实施例提供了一种算法评估装置,所述装置包括:
指标数据获取模块,用于获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据;其中,所述指定测试策略为与所述待测试算法的业务场景匹配的测试策略,所述指定测试策略指示所述待测试算法在至少一测试配置下进行测试;所述指定评估指标为各评估指标中的至少一种;
对应关系确定模块,用于基于所获取的指定评估指标的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;
评估策略确定模块,用于确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;
业务结论生成模块,用于按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
第六方面,本发明实施例提供了一种算法评估装置,应用于算法评估系统中的客户端,所述算法评估系统还包括:服务器;所述装置包括:
界面展示模块,用于展示任务生成界面;
算法评估任务生成模块,用于接收针对所述任务生成界面的配置操作,生成算法评估任务;其中,所述算法评估任务指示获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的数据获取策略;
算法评估任务发送模块,用于向所述服务器发送所述算法评估任务,以使所述服务器在接收所述算法评估任务后,基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据;基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
第七方面,本发明实施例提供了一种算法评估装置,应用于算法评估系统中的服务器,所述算法评估系统还包括:客户端;所述装置包括:
任务接收模块,用于接收所述客户端生成的算法评估任务;其中,所述算法评估任务指示获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的数据获取策略;
指标获取模块,用于基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据;
关系确定模块,用于基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;
策略确定模块,用于确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;
结论生成模块,用于按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
本发明实施例还提供了一种客户端,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现上述应用于客户端的算法评估方法的步骤。
本发明实施例还提供了一种服务器,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现上述应用于服务器的算法评估方法的步骤。
本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面的算法评估方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的算法评估方法的步骤。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的算法评估方法。
本发明实施例有益效果:
本发明实施例提供的提供算法测试方法,通过获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据,该指定测试策略为与待测试算法的业务场景匹配的测试策略,且指示待测试算法在至少一测试配置下进行测试,进而确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,并按照目标算法评估策略所指示的业务结论生成方式,基于待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成待测试算法针对业务场景的业务结论,由于在得到待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据之后,可以确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,该对应关系可以反映待测试算法指定评估指标的指标数据随测试配置的变化而变化情况,进而可以利用目标算法评估策略所指示的业务结论生成方式,利用该对应关系生成针对业务场景的业务结论。可见,本方案可以利用所获取的指标数据,自动生成针对业务场景的业务结论,从而提高了算法评估的效率。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
图1为本发明实施例所提供的算法评估方法的流程图;
图2为本发明实施例中模型的全生命周期示意图;
图3为本发明实施例所提供的算法评估方法中变化函数示意图;
图4为本发明实施例所提供的算法评估方法的另一流程图;
图5为本发明实施例所提供的算法评估方法中第一子界面的示意图;
图6为本发明实施例所提供的算法评估方法中任务列表的页面的示意图;
图7为本发明实施例所提供的算法评估方法中变化函数的另一示意图
图8为本发明实施例所提供的算法评估方法中模板选择页面的示意图;
图9为本发明实施例所提供的算法评估方法中模板选择页面的另一示意图;
图10为本发明实施例所提供的算法评估方法的又一流程图;
图11为本发明实施例所提供的算法评估方法的又一流程图;
图12为本发明实施例所提供的算法评估方法的又一流程图;
图13为本发明实施例所提供的算法评估系统的结构示意图;
图14为本发明实施例所提供的算法评估装置的结构示意图;
图15为本发明实施例所提供的客户端的结构示意图;
图16为本发明实施例所提供的服务器的结构示意图;
图17为本发明实施例所提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本发明所获得的所有其他实施例,都属于本发明保护的范围。
为了提高算法评估的效率,本发明实施例提供了一种算法评估方法、系统、装置、客户端及服务器,该方法可以应用于各类电子设备中,例如,个人电脑、服务器、手机以及其他具有数据处理能力的设备。一种实现方式中,该方法可以应用于算法评估系统中,并且该方法可以通过软件、硬件或软硬件结合的方式实现。
一种实现方式中,本发明实施例所提供的算法评估方法的执行主体可以部署在算法供应方和/或算法需求方,即本发明实施例所提供的算法评估方法可以应用于部署在算法供应方和/或算法部署方的电子设备。其中,算法供应方可以为提供算法和/或模型的构建、开发、验证、部署等服务的服务商,算法需求方可以为具有算法和/或模型部署需求的需求方。
下面首先对本发明实施例所提供的算法评估方法进行介绍,该方法可以包括以下步骤:
获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据;其中,指定测试策略为与待测试算法的业务场景匹配的测试策略,指定测试策略指示待测试算法在至少一测试配置下进行测试;指定评估指标为各评估指标中的至少一种;
基于所获取的指定评估指标的测试数据,确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;
确定预设的与指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;
按照目标算法评估策略所指示的业务结论生成方式,基于待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成待测试算法针对业务场景的业务结论。
本实施例中,通过获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据,该指定测试策略为与待测试算法的业务场景匹配的测试策略,且指示待测试算法在至少一测试配置下进行测试,进而确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,并按照目标算法评估策略所指示的业务结论生成方式,基于待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成待测试算法针对业务场景的业务结论,由于在得到待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据之后,可以确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,该对应关系可以反映待测试算法指定评估指标的指标数据随测试配置的变化而变化情况,进而可以利用目标算法评估策略所指示的业务结论生成方式,利用该对应关系生成针对业务场景的业务结论。可见,本方案可以利用所获取的指标数据,自动生成针对业务场景的业务结论,从而提高了算法评估的效率。
下面结合附图对本发明实施例所提供的算法评估方法进行示例性介绍。
如图1所示,本发明实施例所提供的算法评估方法可以包括以下步骤:
S101,获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据;其中,指定测试策略为与待测试算法的业务场景匹配的测试策略,指定测试策略指示待测试算法在至少一测试配置下进行测试;指定评估指标为各评估指标中的至少一种;
根据本发明实施例所应用的电子设备部署场景的差异,本发明获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的方式可以是不同的。一种实现方式中,在本发明实施例提供的算法评估方法应用于部署在算法供应方的电子设备时,该电子设备可以在接收到算法需求方发送的评估请求之后,获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据。该评估请求可以为请求执行上述算法测试任务或离线评估任务的指令。或者,在本发明实施例提供的算法评估方法应用于部署在算法需求方的电子设备时,该电子设备可以获取算法供应方的针对待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据。可选的,算法供应方还可以在向算法需求方发送指标数据的同时,向算法需求方发送待测试算法。部署在算法需求方的电子设备在接收到待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据之后,执行后续的算法评估步骤。其中,上述算法供应方可以采用多种方式将指标数据和/或待测试算法发送至算法需求方,例如通过存储硬盘复制至部署在算法需求方的电子设备,或者通过在线传输的方式发送至部署在算法需求方的电子设备,本发明实施例对此不作具体限定。
上述待测试算法可以是针对任意业务场景所开发的算法,其可以是一个或多个AI(Artificial Intelligence,人工智能)模型或者其他类型的算法,该一个或多个算法的类型可以相同也可以不同。示例性的,待测试算法可以是针对人脸识别场景的人脸识别算法、针对语音识别场景的语音识别算法、针对文字识别场景的OCR(Optical CharacterRecognition,光学字符识别)识别算法等任意类型的神经网络算法。以待测试算法为AI模型为例,模型的构建、开发、部署及运维管理的全生命周期过程可以如图2所示,其需要经过数据处理、模型构建、模型开发、模型验证以及模型部署五个阶段。在模型验证阶段,则需要对该模型进行算法评估,以在模型部署阶段根据算法评估所的得到的针对该场景的业务结论,选择针对模型最优的方式进行部署。
任一测试策略指示一算法在至少一测试配置下进行测试,根据算法的业务场景的不同,可以预先配置不同的测试策略,例如当待测试的算法为图像识别类算法时,则测试策略指示待测试的算法从指定图像数据源获取测试时的输入数据,和/或指示待测试的算法部署在包含摄像头的终端设备中。当待测试的算法为语音识别类算法时,则测试策略指示待测试的算法从指定语音数据源获取测试时的输入数据,和/或指示待测试的算法部署在包含麦克风的终端设备中。
上述测试配置可以包括待测试算法的所部署的终端和/或待测试算法的进行测试时的输入数据。
由于针对一算法进行测试时,需要有部署该算法的终端、以及测试时作为算法输入的数据,因此,上述测试配置可以包括待测试算法的所部署的终端和/或待测试算法的进行测试时的输入数据。上述终端可以为服务器、边缘盒子、终端、板卡等电子设备,终端具备CPU(Central Processing Unit,中央处理器)、GPU(Graphics Processing Unit,图形处理器)和/或NPU(Neural-Network Processing Unit,网络处理器)等计算芯片,可用于支持算法的运行。上述测试算法所输入的数据可以为视频数据、图像数据、音频数据等任意类型的需要进行算法处理的数据。
因此,上述测试配置可以是对待测试算法进行测试的终端硬件配置和/或数据类型配置,其中,终端硬件配置可以用于指示待测试算法进行测试时所部署的终端信息;数据类型配置可以用于指示待测试算法进行测试时所输入的数据的类型信息。也就是在对待测试算法进行测试时,按照测试配置中的终端硬件配置来确定终端硬件,和/或按照数据类型配置所指示的数据的类型信息来确定测试时针对待测试算法所输入的数据,进而对待测试算法进行测试,生成待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据。
上述评估指标为所需进行算法评估的维度,其可以硬件评估指标和算法评估指标中的至少一种;其中,硬件评估指标可以包括硬件资源利用率、硬件功耗、硬件温度变化值中的至少一种;算法评估指标可以包括:算法吞吐量、算法精度、响应时间中的至少一种,其中,算法精度可以为算法准确率、算法召回率等中的至少一种。上述指定评估指标可以为上述各评估指标中的至少一种,例如指定评估指标为硬件资源利用率和算法准确率。
根据不同的需求,获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据可以是不同的。一种实现方式中,可以按照指定测试策略对待测试算法进行测试,从而得到待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据。或者,待测试算法可以为预先已测试完成的算法,此时可以通过获取离线数据的方式获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据。
在此情况下,一种实现方式中可以获取算法测试任务或离线评估任务;其中,算法测试任务包括算法标识、策略标识和指定评估指标;离线评估任务包括存储地址信息;存储地址信息指示离线指标数据的获取地址,离线指标数据为预先按照指定测试策略对待测试算法进行测试所得到的指定评估指标的指标数据;
上述算法测试任务所包括的算法标识即待测试算法的标识,策略标识即指定测试策略的标识。在所获取的为算法测试任务的情况下,则可以按照策略标识所指示的指定测试策略,对算法标识所指示的待测试算法进行测试,得到待测试算法的在指定评估指标下的指标数据;在所获取的为离线评估任务的情况下,可以从存储地址信息所指示的获取地址中,读取离线指标数据。
可见,本方案中,可以通过获取算法测试任务,按照策略标识所指示的指定测试策略,对算法标识所指示的待测试算法进行测试,得到待测试算法的在指定评估指标下的指标数据;当预先已经针对待测试算法生成了指标数据的情况下,可以通过获取离线评估任务,并从存储地址信息所指示的获取地址中,读取离线指标数据。提高了本实施例所提供的算法评估方法的灵活性。
S102,基于所获取的指定评估指标的测试数据,确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;
由于指定测试策略指示待测试算法在至少一测试配置下进行测试,在按照指定测试策略对待测试算法进行测试后,针对每一测试配置下进行测试均会得到该测试配置所对应的指标数据,因此,当获取指定评估指标的测试数据后,可以确定该测试数据对应的测试配置,进而建立指标数据与测试配置之间的对应关系,从而得到不同测试配置下待测试算法的指定评估指标,为后续生成业务结论提供生成依据。
上述指标数据与测试配置之间的对应关系可以通过数据表的形式记录,此外,还可以是以统计图的形式记录,例如,条形图、折线图、扇形图等。
S103,确定预设的与指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;
在一种实现方式中,可以预先针对不同的业务场景下的算法设置不同的算法评估策略,并将所设置的算法评估策略与该算法的业务场景匹配的测试策略建立关联关系,该关联关系同样可以以数据表的形式记录。当需要针对待测试算法进行算法评估时,则可以确定与指定测试策略关联的算法评估策略,作为目标算法评估策略。
在另一实现方式中,还可以通过展示至少一算法评估策略;例如可以展示一算法评估策略选择界面,该界面中可以包括各待选择的算法评估策略,其中,任一算法评估策略为针对至少一测试配置和/或至少一评估指标所配置的;进而接收针对至少一算法评估策略的选择操作,并将至少一算法评估策略中,该选择操作所选择的算法评估策略,作为与指定测试策略关联的算法评估策略。在该实现方式中,通过针对至少一算法评估策略的执行选择操作,来确定与指定测试策略关联的算法评估策略,可以提高用户体验。进一步的,所展示算法评估策略还可以是推荐的算法评估策略,该推荐的算法评估策略可以是针对该业务场景所预先指定的算法评估策略,还可以是针对该业务场景的热门算法评估策略,即使用次数和/或使用频率达到预设阈值的算法评估策略。
S104,按照目标算法评估策略所指示的业务结论生成方式,基于待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成待测试算法针对业务场景的业务结论。
本步骤中,在确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,和目标算法评估策略后,按照目标算法评估策略所指示的业务结论生成方式,基于该对应关系,生成待测试算法针对业务场景的业务结论。
示例性的,在测试配置为多个,且各测试配置均为终端硬件配置的情况下,则生成待测试算法针对业务场景的业务结论的方式可以为:确定各测试数据中满足预设指标条件的测试数据所对应的测试配置,进而根据该满足预设指标条件的测试数据及其对应的测试配置生成待测试算法针对业务场景的业务结论。一种实现方式中,在算法评估的目的是确定满足预设指标条件的测试数据所对应的测试配置的情况下,业务结论可以为该满足预设指标条件的测试数据对应的测试配置。
在测试配置为单个,且测试配置为终端硬件配置的情况下,算法评估的目的是确定该待测试算法在按照该终端硬件配置进行测试时的指定评估指标,则生成待测试算法针对业务场景的业务结论的方式可以为:将所得到的指定评估指标的指标数据作为该针对业务场景的业务结论。
进一步的,在一些场景中,需要对同一终端配置多个不同的算法,例如,针对同一摄像头同时配置人脸识别算法和语音识别算法,则可以在该终端中同时进行多种算法的测试,并按照上述方法分别确定该终端的每一算法的业务结论,并基于该终端的每一算法的业务结论生成待测试算法针对业务场景的业务结论,例如可以将该终端的每一算法的业务结论汇总、统计得到待测试算法针对业务场景的业务结论。此外,还存在多终端分别配置多个不同算法的场景,则可以同时针对每一终端中的多种算法进行测试,并按照上述方法针对每一终端的每一算法确定业务结论,并基于每一终端的每一算法的业务结论生成待测试算法针对业务场景的业务结论。
此外,在进行算法评估的各个阶段还可以通过埋点的方式获取累计的历史数据,其可以用于用户行为分析;用于完成算法升级策略的预评估;用于完成产品规划前的硬件资源预算;用于成本投入预评估;用于调整算法处理策略选取的评估;用于算法数据迁移、流量迁移的评估;用于算法模型轻量化、加速的处理效果进行评估等产品行为中,产生较大的数据价值。
本实施例中,由于在得到待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据之后,可以确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,该对应关系可以反映待测试算法指定评估指标的指标数据随测试配置的变化而变化情况,进而可以利用目标算法评估策略所指示的业务结论生成方式,利用该对应关系生成针对业务场景的业务结论。可见,本方案可以利用所获取的指标数据,自动生成针对业务场景的业务结论,从而提高了算法评估的效率。
可选地,在本发明的另一实施例中,测试配置可以包括第一维度配置和第二维度配置;其中,第一维度配置和第二维度为终端硬件配置、数据类型配置中的至少一种;终端硬件配置指示待测试算法进行测试时所部署的终端信息,数据类型配置指示待测试算法进行测试时所输入的数据的类型信息;
一实现方式中,上述终端硬件配置包括终端配置和硬件配置中的至少一种;其中,终端配置指示待测试算法进行测试时的终端部署信息,例如,终端配置可以包括终端数量、终端类型、终端版本等中的至少一种。上述硬件配置指示待测试算法进行测试时的终端包含的硬件信息;例如,硬件配置可以包括显卡数量、内存大小、处理器算力等中至少一种。
上述数据类型配置可以包括数据源配置、任务数量配置以及数据格式配置中的至少一种;其中,数据源配置指示待测试算法进行测试时输入数据所属的数据源,例如,数据源配置可以包括数据源所属场景、数据源类型、数据源中的数据数量中的至少一种;任务数量配置指示待测试算法进行测试时同步处理的最大任务数,当待测试算法进行测试时同步处理的任务数为多个时,各任务的输入可以为同一数据源所拉出的多个路数,当然也可以为不同数据源;数据格式配置指示待测试算法进行测试时所输入数据的数据格式,例如,在数据源类型为图像的情况下,数据格式配置可以包括分辨率、图像类型等中的至少一种;在数据源类型为视频的情况下,数据格式配置可以包括分辨率、帧率、视频类型等中的至少一种。
基于所获取的指定评估维度的测试数据,确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,包括:
基于所获取的指定评估维度的测试数据,确定待测试算法在第一维度配置下,待测试算法的指定评估指标的指标数据随第二维度配置的变化的变化函数,作为待测试算法的指定评估指标的指标数据与测试配置之间的对应关系。
在本实施例中,可以将第一维度配置固定,并设置不同的第二维度配置,从而得到待测试算法在第一维度配置下,待测试算法的指定评估指标的指标数据随第二维度配置的变化的变化函数,其中,第一维度配置和第二维度配置可以根据业务需求进行设定。
例如,需要确定待测试算法针对不同任务数量下的指定评估指标的指标数据,则第一维度配置可以是终端硬件配置,和数据类型配置中的数据源配置以及数据格式配置,第二维度配置可以是任务数量配置,从而可以确定出指定评估指标的指标数据随任务数量的变化的变化函数。
在本实施例中,还可以根据算法服务特点来设置第一维度配置、第二维度配置以及指定评估指标,例如,若待测试算法为人脸识别算法,第二维度配置可以为数据数量,第一维度配置可以为其他数据类型配置和终端硬件配置,指定评估指标可以为算法准确率、识别速度、模型算力,则可以确定待测试算法的指定评估指标的指标数据随数据数量的变化的变化函数。在实际应用过程中,可以通过选取不同图像数据量级的人脸库来实现不同数据数量的配置,例如,1000量级、1万量级、10万量级、30万量级、100万量级的人脸库。若待测试算法为语音识别算法,第二维度配置可以为数据源类型,例如,金融场景下语音的类型、艺术场景下语音的类型、IT(Internet Technology,互联网技术)场景下语音的类型等中的至少两种,第一维度配置可以为其他数据类型配置和终端硬件配置,指定评估指标可以为算法准确率,则可以确定待测试算法的准确率随数据源类型的变化的变化函数。若待测试算法为OCR识别算法,第二维度配置也可以为数据源类型,例如,电子名片类型、身份证类型、营业执照类型等中的至少两种,第一维度配置可以为其他数据类型配置和终端硬件配置,指定评估指标可以为算法准确率。
需要说明的是,还可以通过调整第一维度配置,以确定在多个第一维度配置下待测试算法的指定评估指标的指标数据随第二维度配置的变化的变化函数。例如,在第一维度配置为终端硬件配置、数据源配置、任务数量配置以及数据格式配置中的分辨率,第二维度配置为帧率的情况下,可以通过改变任务数量配置,来确定待测试算法在不同任务数量下,指定评估指标的指标数据随帧率的变化的变化函数;在第一维度配置为终端硬件配置、数据源配置、任务数量配置以及数据格式配置中的帧率,第二维度配置为分辨率的情况下,可以通过改变任务数量配置,来确定待测试算法在不同任务数量下,指定评估指标的指标数据随分辨率的变化的变化函数。
在一种实现方式中,待测试算法可以包含多个版本的算法,上述第二维度配置还可以是算法的版本,指定指标值可以为算法精度,从而得到待测试算法的算法精度随版本的变化的变化函数。进一步的,还可以通过改变第一维度配置中的数据源类型,来得到不同数据源类型下,待测试算法的算法精度随版本的变化的变化函数。该实现方式中的变化函数可以如图3所示,图3中以算法版本为横坐标、以算法精度为纵坐标,绘制了在3种数据源类型下算法精度随版本的变化的变化函数,每一数据源类型分别由一条折线图来表示。
本实施例中,可以提高算法评估的效率。进一步的,测试配置包括第一维度配置和第二维度配置,并基于所获取的指定评估维度的测试数据,确定待测试算法在第一维度配置下,待测试算法的指定评估指标的指标数据随第二维度配置的变化的变化函数,作为待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,可以反映待测试算法的指定评估指标的指标数据随不同维度的配置的变化的变化关系,丰富了生成待测试算法针对业务场景的业务结论的依据,从而可以更加全面对待测试算法进行评估。
可选地,在本发明的另一实施例中,如图4所示,上述获取算法测试任务或离线评估任务可以包括:
S401,展示任务生成界面;其中,任务生成界面包含任务类型选择框;
上述任务生成界面可以为人机交互界面,任务生成界面中包括任务类型选择框,其中,任务类型包括算法测试任务或离线评估任务。
S402,接收针对任务类型选择框的任务选择操作;
在本步骤中,可以利用上述任务类型执行任务选择操作,来选择框选择算法测试任务或离线评估任务,任务选择操作可以由测试人员或者开发人员来执行,任务选择操作可以为点选的方式,也可以为输入文字的方式,当然也可以不限于此。
接收针对任务类型选择框的任务选择操作后,在任务选择操作所选择的任务类型为测试类型的情况下,执行步骤S403,在任务选择操作所选择的任务类型为离线类型的情况下执行步骤S404。
S403,展示第一子界面;其中,第一子界面中包含测试算法选择框、测试策略选择框和评估指标选择框;分别接收针对测试算法选择框、测试策略选择框和评估指标选择框的选择操作,确定所选择的算法标识、策略标识和指定评估指标;基于所选择的算法标识、策略标识和指定评估指标,生成算法测试任务;
一种实现方式中,第一子界面可以如图5所示,测试算法选择框即图5中的“选模型”,在测试算法选择框可以选择算法标识,例如,人头检测模型;在测试策略选择框中可以选择策略标识,例如测试策略选择框可以是图5中的“选数据集”,包括:正脸的数据集、大角度的数据集、室内的数据集和室外的数据集;评估指标选择框中可以选择指定评估指标,例如图5中的“选评价指标项”,包括:准确率、平均处理时间、GPU利用率。此外,第一子界面还可以包含任务名称框,用于输入任务的名称,例如人头检测V1.1模型回归测试;任务类型选择框,用于选择任务的类型;任务执行频次选择框,包括立即执行、周期执行、触发执行、无需执行等选项;结果通知框,可以用于输入电子邮箱等联系地址,用于接收反馈的业务结论。
S404,展示第二子界面;其中,第二子界面中包含位置选择框;接收针对位置选择框的选择操作,确定所选择的存储地址信息;基于所选择的存储地址信息,生成离线评估任务。
在任务选择操作所选择的任务类型为离线类型的情况下,表明本次所要进行评估的待测试算法已预先执行测试生成了指定评估指标的指标数据。该情况下,第二子界面中包含位置选择框用于选择指定评估指标的指标数据的存储地址信息。进而,可以基于所选择的存储地址信息,读取指定评估指标的指标数据,生成离线评估任务从而执行后续的评估操作。
在生成算法测试任务或离线评估任务后,如图6展示了任务列表的页面,可以在任务列表的不同分栏中查看各任务的任务名称、任务类型、创建方式、任务状态、创建时间和操作,在操作栏中可以选择执行不同的操作,包括:启动,用于执行该评估任务;详情,用于查看该测试任务的评估结果;删除,用于删除该测试任务。
进一步的,在一种实现方式中,在生成待测试算法针对业务场景的业务结论之后还可以展示评估展示界面;其中,所述评估展示界面中包含所述指定评估指标对应的目标图例,和/或所生成的业务结论;其中,所述目标图例为基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系所生成的图例。
所述目标图例可以是任意类型的图形,其可以用于展示待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,例如,可以展示待测试算法在第一维度配置下,待测试算法的指定评估指标的指标数据随第二维度配置的变化的变化函数,实现指标的可视化,示例性的,如图7所示,图7以图形的形式展示了:人脸识别算法各评估指标随处理路数的变化的变化函数;人脸识别算法在10路输入时不同人脸库算法精度随不同人脸库量级的变化;人脸识别算法和行人检测算法平均处理时间随终端类型的变化的变化函数。在评估展示界面中还可以存在业务结论的编辑功能,以使用户自行编辑输入评价结论作为业务结论进行展示和保存。
此外,所展示的业务结论,可以以文字的形式展示,或者还可以以表格的形式展示。通过对所生成的业务结论进行展示,也可以实现对于业务结论的可视化。
在展示变化函数之前,还可以展示模板选择页面,如图8所示,在模板选择页面中可以展示任务名称,例如终端X的算法指标评估;任务类型,例如终端算法指标评估;是否选择内置模板选项,用于确定是否从内置模板列表中选择内置模板,内置模板中包含预设的展示图形,例如,折线图、柱状图、曲线图等,若选择否,还可以上传自定义图像的模板。在下面还可以预览显示效果,例如图8和图9下方所示的三个预览图像(仅起示例作用)。此外,还可以自定义所要展示的函数图像中X轴的测试配置,和Y轴所对应的指定指标,例如,X轴为人脸库的图像数量、Y轴为算法精度。针对任务类型为离线类型,如图9所示,可以在是否选择内置模板选项中选择否,进而在选数据来源选项中选择指定评估指标,例如,可以包括:准确率、平均处理时间、GPU利用率等,以及在选线型选项中选择折线或饼图来展示上述变化函数。
在一种实现方式中,算法在开发平台完成开发、训练后,还可以通过下发评估任务的方式进行算法评估,所下发的评估任务中可以包含执行该任务所需的必要参数,例如,可以包含:任务名称、任务类型、算法名、数据源标识、指定评估指标、展示模板的标识、任务执行频次、结果通知形式等。
本实施例中,可以提高算法评估的效率。进一步的,通过展示任务生成界面;其中,任务生成界面包含任务类型选择框;接收针对任务类型选择框的任务选择操作;在任务选择操作所选择的任务类型为测试类型的情况下,展示第一子界面;在任务选择操作所选择的任务类型为离线类型的情况下,展示第二子界面;可以通过展示界面更加直观且方便进行指定评估指标的指标数据的获取,提升了用户体验。
基于图4所示的实施例,根据本发明实施例所应用的电子设备部署场景的差异,本发明实施例所展示的任务生成页面、第一子页面和/或第二子页面的展示方式也可以存在区别。一种实现方式中,在本发明实施例提供的算法评估方法应用于部署在算法供应方的电子设备时,上述任务生成页面、第一子页面和/或第二子页面可以展示在前端界面中,例如该前端界面可以为网页界面,或APP(application,应用程序)界面等,在算法供应方自身或算法需求方需要对待测试算法进行测试时,可以通过前端界面中所展示该任务生成界面,生成算法测试任务或离线评估任务,进而通过第一子页面和/或第二子页面来进行任务的配置。在本发明实施例所应用的电子设备接收到配置完成的任务界面之后,可以针对所接收的任务执行相应的指标数据获取操作。进一步的,上述评估展示界面也可以由算法供应方的电子设备在生成业务结论后在前端界面进行展示。另一种方式中,在本发明实施例提供的算法评估方法应用于部署在算法需求方的电子设备时,上述任务生成页面、第一子页面和/或第二子页面还可以为部署在算法需求方的电子设备所展示页面,从而算法需求方可以在本地直接进行任务的配置,并在本地执行算法评估的过程。该情况下,评估展示界面也可以为部署在算法需求方的电子设备生成业务结论后所展示页面。
可选地,在本发明的另一实施例中,上述目标算法评估策略可以包括算法评估模板;算法评估模板包含条件字段和待进行内容填充的空白字段;条件字段包含针对测试配置和/或评估指标进行筛选的筛选条件;
在该情况下,如图10所示,上述按照目标算法评估策略所指示的业务结论生成方式,基于待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成待测试算法针对业务场景的业务结论,可以如下步骤包括:
S1001,根据算法评估模板中条件字段包含的筛选条件,对待测试算法进行测试时的测试配置和/或待测试算法测试所得到的指定评估指标的指标数据进行筛选,得到筛选数据;
上述算法评估模板中可以包含预设的文字字段以及空白字段,例如,在X终端上,输入路数为X时,算法准确率为X%、响应时间为X秒、系统资源利用率为X%,其中,表示空白字段。
条件字段包含的筛选条件可以为针对空白字段的筛选条件,也就是,筛选条件用于从对待测试算法进行测试时的测试配置和/或待测试算法测试所得到的指定评估指标的指标数据中筛选出文字和/或数字,用于填入空白字段中。
在一种实现方式中,在待测试算法应用于多个终端的情况下,指定评估指标的指标数据可以包括:待测试算法应用于每一终端时所得到的指标数据,筛选条件可以为筛选各指标数据中最大的指标,作为筛选数据。在待测试算法包含多个算法的情况下,指定评估指标的指标数据可以包括针对每一算法,对该算法进行测试时的测试配置和/或待测试算法测试所得到的指定评估指标的指标数据,筛选条件也可以为筛选针对各算法的指定评估指标中最大的指标,作为筛选数据。
在另一实现方式中,筛选条件可以为筛选特定的测试配置,例如,筛选出测试配置中的终端类型、终端版本、显卡数量、任务数量配置等中的至少一种,和/或指定评估指标中特定的评估指标,例如,算法精度、响应数据、GPU利用率等中的至少一种。
S1002,从待测试算法的指定评估指标的指标数据与测试配置之间的对应关系中,确定与筛选数据对应的指标数据和/或测试配置;
在本步骤中,在筛选数据包括至少一特定的测试配置和至少一特定的评估指标的情况下,则可以根据待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,确定与每一特定的测试配置所对应的特定的评估指标,或者,确定与每一特定的评估指标所对应的特定的测试配置。示例性的,当算法评估模板包括文字字段:“在X1终端上,输入路数为X2时,算法准确率为X3%、响应时间为X4秒、硬件资源利用率为X5%”,则针对空白X1需要筛选出测试配置中的终端类型和/或终端版本、针对空白X2、X3、X4、X5则需要确定与空白X1中的测试配置对应的指定评估指标中的算法准确率、响应时间、硬件资源利用率。筛选数据可以包括各测试配置中的终端类型和/或终端版本,各指定评估指标中的算法准确率、响应时间、硬件资源利用率,从而根据待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,确定每一测试配置对应的指定评估指标。
当算法评估模板包括文字字段:“在XX场景中,算法的准确率最高”,则筛选数据可以包括:各测试配置所对应的指定评估指标中,算法准确率中最大的指定评估指标,以及多个测试配置中的数据源类型,则可以根据待测试算法的指定评估指标的指标数据与测试配置之间的对应关系确定该指定评估指标对应的测试配置中的数据源类型。
当算法评估模板包括文字字段:“10路输入时准确率98%以上最多支持的人脸库量级为XX”,则可以从各测试配置中筛选出人脸库量级,以及从各指定评估指标中筛选出算法准确率大于98%的指定评估指标,作为筛选数据,从而根据待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,确定与筛选数据中的指定评估指标对应的测试配置中的人脸库量级,若所确定的人脸库量级为多个,还可以进一步筛选出人脸库量级中最大的数。
S1003,将所确定的指标数据和/或测试配置填入算法评估模板中的空白字段,得到待测试算法针对业务场景的业务结论。
算法评估模板中可以包含用于展示的预设的文字字段以及空白字段,在确定了指标数据和/或测试配置后,可以将所确定的指标数据和/或测试配置填入算法评估模板中的空白字段,由于算法评估模板中已存在预设的文字字段,当空白字段被填入相应的内容时,则可以得到待测试算法针对业务场景的业务结论。
本实施例中,可以提高算法评估的效率。进一步的,目标算法评估策略包括算法评估模板;算法评估模板包含条件字段和待进行内容填充的空白字段;条件字段包含针对测试配置和/或评估指标进行筛选的筛选条件;根据算法评估模板中条件字段包含的筛选条件,对待测试算法进行测试时的测试配置和/或待测试算法测试所得到的指定评估指标的指标数据进行筛选,得到筛选数据;从待测试算法的指定评估指标的指标数据与测试配置之间的对应关系中,确定与筛选数据对应的指标数据和/或测试配置;将所确定的指标数据和/或测试配置填入算法评估模板中的空白字段,得到待测试算法针对业务场景的业务结论,为生成待测试算法针对业务场景的业务结论提供了实现基础。
为了方便理解,下面结合附图对发明实施例所提供的一种算法评估方法进行示例性介绍。
如图11所示,本发明实施例所提供的算法评估方法可以应用于算法测试平台中,以算法为模型为例,模型需要先在开发平台实现模型构建、模型开发和模型训练,再向算法测试平台下发测试任务,下发测试任务的方式可以为:配置执行该任务所需的必要参数并向算法测试平台发送必要参数,或者还可以在任务生成界面、第一子界面或第二子界面中配置并生成测试任务。算法测试平台在接收到下发的测试任务后,选择验证集,即根据指定测试策略,让待测试算法在至少一测试配置下进行测试完成模型验证,生成指标数据及业务结论,以及将指标数据可视化反馈给开发平台,如以HTML(Hyper Text MarkupLanguage,超文本标记语言)链接的形式反馈。该算法测试平台还可以集成在开发平台中,使得开发人员或测试人员直接在开发平台中完成算法的测试。
在一种多终端多算法的场景中,如图12所示,在终端M1中运行有算法N1和算法N2,在终端M2中运行有算法N1和算法N2,可以将多个即数据源:测试数据源1、测试数据源2和测试数据源3分别输入终端M1中运行的算法N1和算法N2,以及终端M2中运行的算法N1和算法N2进行算法测试,可以得到针对每一终端中每一算法的算法结果数据,即指定评估指标的指标数据,进而可以针对指定评估指标中的指标X1,执行指标维度X1曲线图绘制,针对指标X2,执行指标维度X2饼图绘制,针对指标X3,执行指标维度X3柱状图绘制。进一步的,还可以根据目标算法评估策略,进行指标关系寻源,即确定筛选数据,从而形成多种业务结论,之后,将业务结论进行精准需求推送,例如,以图文分享、一键定制转发或者其他可视化呈现的方式进行业务结论的推送。
在一种实现方式中,针对不同适用场景可以按照如下表1所示的对应关系,确定评估方案,包括:测试配置(包括维度和输入源)、可视化形式,即展示评估展示界面所要展示的内容、算法评估模板。
表1
示例性的,若待测试算法为OCR识别算法,输入是100张A公司电子名片图像,每张图像上有5个字段需要识别。测试任务是选择数据集为A公司电子名片作为数据源,识别字段标签为X1、X2、X3、X4、X5。执行该测试任务,得到测试结果。测试结果可以包含:错误识别、漏识别个数、原始字符个数、识别出的字符个数、检测时间、识别时间、图片画框数等。所生成的业务结论可以为:OCR识别算法,针对A公司电子名片,识别准确率为98%,平均识别时间为0.3s。此外,OCR识别算法版本迭代测试可以在上述基础上执行。从而得到V1、V2、...、Vn版本的对比结果。
若待测试算法为行人检测,需要得到针对相同输入源(分辨率、帧率)、GPU为1~M时,路数为1~N的指标曲线和结论需求。则可以选择指定视频源、指定输入路数、算法、部署环境作为测试输入。执行测试任务:
1)GPU为1个时,输入1、2、3、...、N路时,确定算法准确率、响应时间、GPU利用率;
2)GPU为2个时,输入1、2、3、...、N路时,确定算法准确率、响应时间、GPU利用率;
3)GPU为N个时,输入1、2、3、...、N路时,确定算法准确率、响应时间、GPU利用率。
所生成的业务结论可以为:GPU配置为N时、输入路数为Y时,算法准确率为xx%、响应时间为xxs、GPU利用率为xx%。
若待测试算法为人脸识别算法,在同一部署环境下,给定量级分别为2w、10w、30w、100w的人脸库的评估指标,
测试任务可以是选择底库数量、算法、终端部署信息、底库数量、测试数据集作为输入。可选的还可以选择指定评估指标。执行测试任务:
1)2w底库下,确定人脸识别的准确率、漏识别率、误识别率、平均识别时间;
2)10w底库下,确定人脸识别的准确率、漏识别率、误识别率、平均识别时间;
3)30w底库下,确定人脸识别的准确率、漏识别率、误识别率、平均识别时间;
4)100w底库下,确定人脸识别的准确率、漏识别率、误识别率、平均识别时间。
所生成的业务结论可以为:人脸识别算法,在底库为XX时,算法准确率为XX,平均识别时间为XX;或人脸识别算法,准确率XX以上最多支持的人脸库量级为XX。
可见,本实施例对不同终端和算法的部署形式形成了标准统一的评价过程,并提供可视化指标数据展示和精准的业务结论产出,可用于算法升级、算法模型优化、算法资源评估、算法策略选取等的决策与评估过程,提升产研生产效率。并且本实施例还可以算法评估的各个阶段进行埋点,获取创建测试任务、执行测试任务、测试数据、业务结论定制、数据分享选择等历史数据。
本实施例中,由于在得到待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据之后,可以确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,该对应关系可以反映待测试算法指定评估指标的指标数据随测试配置的变化而变化情况,进而可以利用目标算法评估策略所指示的业务结论生成方式,利用该对应关系生成针对业务场景的业务结论。可见,本方案可以利用所获取的指标数据,自动生成针对业务场景的业务结论,从而提高了算法评估的效率。
本发明实施例还提供了一种算法评估方法,应用于算法评估系统中的客户端,所述算法评估系统还包括:服务器;
其中,客户端可以为任意终端设备,例如,计算机、手机等,还可以为终端设备中的软件程序,其需要具备界面显示的功能。服务器可以为网络中能对其它机器提供某些服务的计算机系统,当然,也可以为其他具有数据处理能力的电子设备。
所述方法包括:
展示任务生成界面;
接收针对所述任务生成界面的配置操作,生成算法评估任务;其中,所述算法评估任务指示获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的数据获取策略;
向所述服务器发送所述算法评估任务,以使所述服务器在接收所述算法评估任务后,基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据;基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
可选地,所述任务生成界面包括任务类型选择框;针对所述任务生成界面的配置操作包括针对所述任务类型选择框的任务选择操作;所述客户端接收针对所述任务生成界面的配置操作,生成算法评估任务,包括:
在所述任务选择操作所选择的任务类型为测试类型的情况下,展示第一子界面;其中,所述第一子界面中包含测试算法选择框、测试策略选择框和评估指标选择框;分别接收针对所述测试算法选择框、所述测试策略选择框和所述评估指标选择框的选择操作,确定所选择的算法标识、策略标识和指定评估指标;基于所选择的算法标识、策略标识和指定评估指标,生成算法测试任务,作为算法评估任务;
在所述任务选择操作所选择的任务类型为离线类型的情况下,展示第二子界面;其中,所述第二子界面中包含位置选择框;接收针对所述位置选择框的选择操作,确定所选择的存储地址信息;基于所选择的存储地址信息,生成离线评估任务,作为算法评估任务;所选择的存储地址信息指示离线指标数据的获取地址,所述离线指标数据为预先按照指定测试策略对待测试算法进行测试所得到的指定评估指标的指标数据。
可选地,所述服务器基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据,包括:
在所获取的为所述算法测试任务的情况下,按照所述策略标识所指示的指定测试策略,对所述算法标识所指示的待测试算法进行测试,得到所述待测试算法的在所述指定评估指标下的指标数据;
在所获取的为所述离线评估任务的情况下,从所选择的存储地址信息所指示的获取地址中,读取所述离线指标数据。
可选地,在所述展示任务生成界面之后,所述方法还包括:
展示至少一算法评估策略;其中,任一算法评估策略为针对至少一测试配置和/或至少一评估指标所配置的;接收针对所述至少一算法评估策略的选择操作,并将所述至少一算法评估策略中,该选择操作所选择的算法评估策略,发送至所述服务器;
所述服务器确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略,包括:
接收所述客户端所发送的算法评估策略,作为目标算法评估策略。
可选地,所述测试配置包括第一维度配置和第二维度配置;其中,所述第一维度配置和所述第二维度为终端硬件配置、数据类型配置中的至少一种;所述终端硬件配置指示所述待测试算法进行测试时所部署的终端信息,所述数据类型配置指示所述待测试算法进行测试时所输入的数据的类型信息;
所述服务器基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,包括:
基于所获取的指定评估维度的测试数据,确定所述待测试算法在所述第一维度配置下,所述待测试算法的指定评估指标的指标数据随所述第二维度配置的变化的变化函数,作为所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系。
可选地,所述方法还包括,接收所述服务器发送的所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,和/或所述服务器生成的业务结论;
基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系生成目标图例,并展示评估展示界面;其中,所述评估展示界面中包含所述指定评估指标对应的目标图例,和/或所接收的业务结论;所述目标图例为基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系所生成的图例。
可选地,所述终端硬件配置包括终端配置和硬件配置中的至少一种;其中,所述终端配置指示所述待测试算法进行测试时的终端部署信息,所述硬件配置指示所述待测试算法进行测试时的终端包含的硬件信息;
所述数据类型配置包括数据源配置、任务数量配置以及数据格式配置中的至少一种;其中,所述数据源配置指示所述待测试算法进行测试时输入数据所属的数据源;所述任务数量配置指示所述待测试算法进行测试时同步处理的最大任务数;所述数据格式配置指示所述待测试算法进行测试时所输入数据的数据格式。
可选地,所述终端配置包括终端数量、终端类型、终端版本中的至少一种;所述硬件配置包括显卡数量、内存大小、处理器算力中至少一种;所述数据源配置包括数据源所属场景、数据源类型、数据源中的数据数量中的至少一种;所述数据格式配置包括分辨率、帧率、类型中的至少一种。
可选地,所述目标算法评估策略包括算法评估模板;所述算法评估模板包含条件字段和待进行内容填充的空白字段;所述条件字段包含针对测试配置和/或评估指标进行筛选的筛选条件;所述服务器按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论,包括:
根据所述算法评估模板中所述条件字段包含的筛选条件,对所述待测试算法进行测试时的测试配置和/或所述待测试算法测试所得到的指定评估指标的指标数据进行筛选,得到筛选数据;
从所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系中,确定与所述筛选数据对应的指标数据和/或测试配置;
将所确定的指标数据和/或测试配置填入所述算法评估模板中的所述空白字段,得到所述待测试算法针对所述业务场景的业务结论。
可选地,所述各评估指标包括:硬件评估指标和算法评估指标中的至少一种;
所述硬件评估指标包括:硬件资源利用率、硬件功耗、硬件温度变化值中的至少一种;
所述算法评估指标包括:算法吞吐量、算法精度、响应时间中的至少一种。
本实施例中,由于在得到待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据之后,可以确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,该对应关系可以反映待测试算法指定评估指标的指标数据随测试配置的变化而变化情况,进而可以利用目标算法评估策略所指示的业务结论生成方式,利用该对应关系生成针对业务场景的业务结论。可见,本方案可以利用所获取的指标数据,自动生成针对业务场景的业务结论,从而提高了算法评估的效率。
本发明实施例还提供了一种算法评估方法,应用于算法评估系统中的服务器,所述算法评估系统还包括:客户端;所述方法包括:
接收所述客户端生成的算法评估任务;其中,所述算法评估任务指示获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的数据获取策略;
基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据;
基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;
确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;
按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
可选地,所述任务生成界面包括任务类型选择框;针对所述任务生成界面的配置操作包括针对所述任务类型选择框的任务选择操作;
所述客户端接收针对所述任务生成界面的配置操作,生成算法评估任务,包括:
在所述任务选择操作所选择的任务类型为测试类型的情况下,展示第一子界面;其中,所述第一子界面中包含测试算法选择框、测试策略选择框和评估指标选择框;分别接收针对所述测试算法选择框、所述测试策略选择框和所述评估指标选择框的选择操作,确定所选择的算法标识、策略标识和指定评估指标;基于所选择的算法标识、策略标识和指定评估指标,生成算法测试任务,作为算法评估任务;
在所述任务选择操作所选择的任务类型为离线类型的情况下,展示第二子界面;其中,所述第二子界面中包含位置选择框;接收针对所述位置选择框的选择操作,确定所选择的存储地址信息;基于所选择的存储地址信息,生成离线评估任务,作为算法评估任务;所选择的存储地址信息指示离线指标数据的获取地址,所述离线指标数据为预先按照指定测试策略对待测试算法进行测试所得到的指定评估指标的指标数据。
可选地,所述基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据,包括:
在所获取的为所述算法测试任务的情况下,按照所述策略标识所指示的指定测试策略,对所述算法标识所指示的待测试算法进行测试,得到所述待测试算法的在所述指定评估指标下的指标数据;
在所获取的为所述离线评估任务的情况下,从所选择的存储地址信息所指示的获取地址中,读取所述离线指标数据。
可选地,所述客户端,还用于在所述展示任务生成界面之后,展示至少一算法评估策略;其中,任一算法评估策略为针对至少一测试配置和/或至少一评估指标所配置的;接收针对所述至少一算法评估策略的选择操作,并将所述至少一算法评估策略中,该选择操作所选择的算法评估策略,发送至所述服务器;
所述确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略,包括:
接收所述客户端所发送的算法评估策略,作为目标算法评估策略。
可选地,所述测试配置包括第一维度配置和第二维度配置;其中,所述第一维度配置和所述第二维度为终端硬件配置、数据类型配置中的至少一种;所述终端硬件配置指示所述待测试算法进行测试时所部署的终端信息,所述数据类型配置指示所述待测试算法进行测试时所输入的数据的类型信息;
所述基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,包括:
基于所获取的指定评估维度的测试数据,确定所述待测试算法在所述第一维度配置下,所述待测试算法的指定评估指标的指标数据随所述第二维度配置的变化的变化函数,作为所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系。
可选地,所述终端硬件配置包括终端配置和硬件配置中的至少一种;其中,所述终端配置指示所述待测试算法进行测试时的终端部署信息,所述硬件配置指示所述待测试算法进行测试时的终端包含的硬件信息;
所述数据类型配置包括数据源配置、任务数量配置以及数据格式配置中的至少一种;其中,所述数据源配置指示所述待测试算法进行测试时输入数据所属的数据源;所述任务数量配置指示所述待测试算法进行测试时同步处理的最大任务数;所述数据格式配置指示所述待测试算法进行测试时所输入数据的数据格式。
可选地,所述终端配置包括终端数量、终端类型、终端版本中的至少一种;所述硬件配置包括显卡数量、内存大小、处理器算力中至少一种;所述数据源配置包括数据源所属场景、数据源类型、数据源中的数据数量中的至少一种;所述数据格式配置包括分辨率、帧率、类型中的至少一种。
可选地,在所述按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论之后,所述方法还包括:
接收所述服务器生成的业务结论,和所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;
基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系生成目标图例;
展示评估展示界面;其中,所述评估展示界面中包含所述目标图例,和/或所接收的业务结论。
可选地,所述目标算法评估策略包括算法评估模板;所述算法评估模板包含条件字段和待进行内容填充的空白字段;所述条件字段包含针对测试配置和/或评估指标进行筛选的筛选条件;所述按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论,包括:
根据所述算法评估模板中所述条件字段包含的筛选条件,对所述待测试算法进行测试时的测试配置和/或所述待测试算法测试所得到的指定评估指标的指标数据进行筛选,得到筛选数据;
从所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系中,确定与所述筛选数据对应的指标数据和/或测试配置;
将所确定的指标数据和/或测试配置填入所述算法评估模板中的所述空白字段,得到所述待测试算法针对所述业务场景的业务结论。
可选地,所述各评估指标包括:硬件评估指标和算法评估指标中的至少一种;
所述硬件评估指标包括:硬件资源利用率、硬件功耗、硬件温度变化值中的至少一种;
所述算法评估指标包括:算法吞吐量、算法精度、响应时间中的至少一种。
本实施例中,由于在得到待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据之后,可以确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,该对应关系可以反映待测试算法指定评估指标的指标数据随测试配置的变化而变化情况,进而可以利用目标算法评估策略所指示的业务结论生成方式,利用该对应关系生成针对业务场景的业务结论。可见,本方案可以利用所获取的指标数据,自动生成针对业务场景的业务结论,从而提高了算法评估的效率。
本发明实施例还提供了一种算法评估系统,如图13所示,该算法评估系统包括:客户端1301和服务器1302;
客户端1301,用于展示任务生成界面;接收针对所述任务生成界面的配置操作,生成算法评估任务;其中,所述算法评估任务指示获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的数据获取策略;向服务器1302发送所述算法评估任务;
服务器1302,用于接收客户端1301发送的算法评估任务;基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据;基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
可选地,所述任务生成界面包括任务类型选择框;针对所述任务生成界面的配置操作包括针对所述任务类型选择框的任务选择操作;
所述客户端接收针对所述任务生成界面的配置操作,生成算法评估任务,包括:
在所述任务选择操作所选择的任务类型为测试类型的情况下,展示第一子界面;其中,所述第一子界面中包含测试算法选择框、测试策略选择框和评估指标选择框;分别接收针对所述测试算法选择框、所述测试策略选择框和所述评估指标选择框的选择操作,确定所选择的算法标识、策略标识和指定评估指标;基于所选择的算法标识、策略标识和指定评估指标,生成算法测试任务,作为算法评估任务;
在所述任务选择操作所选择的任务类型为离线类型的情况下,展示第二子界面;其中,所述第二子界面中包含位置选择框;接收针对所述位置选择框的选择操作,确定所选择的存储地址信息;基于所选择的存储地址信息,生成离线评估任务,作为算法评估任务;所选择的存储地址信息指示离线指标数据的获取地址,所述离线指标数据为预先按照指定测试策略对待测试算法进行测试所得到的指定评估指标的指标数据。
可选地,所述服务器基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据,包括:
在所获取的为所述算法测试任务的情况下,按照所述策略标识所指示的指定测试策略,对所述算法标识所指示的待测试算法进行测试,得到所述待测试算法的在所述指定评估指标下的指标数据;
在所获取的为所述离线评估任务的情况下,从所选择的存储地址信息所指示的获取地址中,读取所述离线指标数据。
可选地,所述客户端,还用于在所述展示任务生成界面之后,展示至少一算法评估策略;其中,任一算法评估策略为针对至少一测试配置和/或至少一评估指标所配置的;接收针对所述至少一算法评估策略的选择操作,并将所述至少一算法评估策略中,该选择操作所选择的算法评估策略,发送至所述服务器;
所述服务器确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略,包括:
接收所述客户端所发送的算法评估策略,作为目标算法评估策略。
可选地,所述测试配置包括第一维度配置和第二维度配置;其中,所述第一维度配置和所述第二维度为终端硬件配置、数据类型配置中的至少一种;所述终端硬件配置指示所述待测试算法进行测试时所部署的终端信息,所述数据类型配置指示所述待测试算法进行测试时所输入的数据的类型信息;
所述服务器基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,包括:
基于所获取的指定评估维度的测试数据,确定所述待测试算法在所述第一维度配置下,所述待测试算法的指定评估指标的指标数据随所述第二维度配置的变化的变化函数,作为所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系。
可选地,所述终端硬件配置包括终端配置和硬件配置中的至少一种;其中,所述终端配置指示所述待测试算法进行测试时的终端部署信息,所述硬件配置指示所述待测试算法进行测试时的终端包含的硬件信息;
所述数据类型配置包括数据源配置、任务数量配置以及数据格式配置中的至少一种;其中,所述数据源配置指示所述待测试算法进行测试时输入数据所属的数据源;所述任务数量配置指示所述待测试算法进行测试时同步处理的最大任务数;所述数据格式配置指示所述待测试算法进行测试时所输入数据的数据格式。
可选地,所述终端配置包括终端数量、终端类型、终端版本中的至少一种;所述硬件配置包括显卡数量、内存大小、处理器算力中至少一种;所述数据源配置包括数据源所属场景、数据源类型、数据源中的数据数量中的至少一种;所述数据格式配置包括分辨率、帧率、类型中的至少一种。
可选地,所述服务器还用于:在所述按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论之后;向所述客户端发送所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,和/或所生成的业务结论;
所述客户端还用于:基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系生成目标图例,并展示评估展示界面;其中,所述评估展示界面中包含所述指定评估指标对应的目标图例,和/或所接收的业务结论。
可选地,所述目标算法评估策略包括算法评估模板;所述算法评估模板包含条件字段和待进行内容填充的空白字段;所述条件字段包含针对测试配置和/或评估指标进行筛选的筛选条件;所述服务器按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论,包括:
根据所述算法评估模板中所述条件字段包含的筛选条件,对所述待测试算法进行测试时的测试配置和/或所述待测试算法测试所得到的指定评估指标的指标数据进行筛选,得到筛选数据;
从所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系中,确定与所述筛选数据对应的指标数据和/或测试配置;
将所确定的指标数据和/或测试配置填入所述算法评估模板中的所述空白字段,得到所述待测试算法针对所述业务场景的业务结论。
可选地,所述各评估指标包括:硬件评估指标和算法评估指标中的至少一种;
所述硬件评估指标包括:硬件资源利用率、硬件功耗、硬件温度变化值中的至少一种;
所述算法评估指标包括:算法吞吐量、算法精度、响应时间中的至少一种。
本实施例中,由于在得到待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据之后,可以确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,该对应关系可以反映待测试算法指定评估指标的指标数据随测试配置的变化而变化情况,进而可以利用目标算法评估策略所指示的业务结论生成方式,利用该对应关系生成针对业务场景的业务结论。可见,本方案可以利用所获取的指标数据,自动生成针对业务场景的业务结论,从而提高了算法评估的效率。
本发明实施例还提供了一种算法评估装置,如图14所示,该装置包括:
指标数据获取模块1401,用于获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据;其中,所述指定测试策略为与所述待测试算法的业务场景匹配的测试策略,所述指定测试策略指示所述待测试算法在至少一测试配置下进行测试;所述指定评估指标为各评估指标中的至少一种;
对应关系确定模块1402,用于基于所获取的指定评估指标的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;
评估策略确定模块1403,用于确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;
业务结论生成模块1404,用于按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
可选地,所述指标数据获取模块,包括:
任务获取子模块,用于获取算法测试任务或离线评估任务;其中,所述算法测试任务包括算法标识、策略标识和指定评估指标;所述离线评估任务包括存储地址信息;所述存储地址信息指示离线指标数据的获取地址,所述离线指标数据为预先按照指定测试策略对待测试算法进行测试所得到的指定评估指标的指标数据;
测试子模块,用于在所获取的为所述算法测试任务的情况下,按照所述策略标识所指示的指定测试策略,对所述算法标识所指示的待测试算法进行测试,得到所述待测试算法的在所述指定评估指标下的指标数据;
离线指标读取子模块,用于在所获取的为所述离线评估任务的情况下,从所述存储地址信息所指示的获取地址中,读取所述离线指标数据。
可选地,任务获取子模块,包括:
第一展示单元,用于展示任务生成界面;其中,所述任务生成界面包含任务类型选择框;
任务选择操作接收单元,用于接收针对所述任务类型选择框的任务选择操作;
第二展示单元,用于在所述任务选择操作所选择的任务类型为测试类型的情况下,展示第一子界面;其中,所述第一子界面中包含测试算法选择框、测试策略选择框和评估指标选择框;分别接收针对所述测试算法选择框、所述测试策略选择框和所述评估指标选择框的选择操作,确定所选择的算法标识、策略标识和指定评估指标;基于所选择的算法标识、策略标识和指定评估指标,生成算法测试任务;
第三展示单元,用于在所述任务选择操作所选择的任务类型为离线类型的情况下,展示第二子界面;其中,所述第二子界面中包含位置选择框;接收针对所述位置选择框的选择操作,确定所选择的存储地址信息;基于所选择的存储地址信息,生成离线评估任务。
可选地,所述测试配置包括第一维度配置和第二维度配置;其中,所述第一维度配置和所述第二维度为终端硬件配置、数据类型配置中的至少一种;所述终端硬件配置指示所述待测试算法进行测试时所部署的终端信息,所述数据类型配置指示所述待测试算法进行测试时所输入的数据的类型信息;
所述对应关系确定模块,具体用于:
基于所获取的指定评估维度的测试数据,确定所述待测试算法在所述第一维度配置下,所述待测试算法的指定评估指标的指标数据随所述第二维度配置的变化的变化函数,作为所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系。
所述终端硬件配置包括终端配置和硬件配置中的至少一种;其中,所述终端配置指示所述待测试算法进行测试时的终端部署信息,所述硬件配置指示所述待测试算法进行测试时的终端包含的硬件信息;
所述数据类型配置包括数据源配置、任务数量配置以及数据格式配置中的至少一种;其中,所述数据源配置指示所述待测试算法进行测试时输入数据所属的数据源;所述任务数量配置指示所述待测试算法进行测试时同步处理的最大任务数;所述数据格式配置指示所述待测试算法进行测试时所输入数据的数据格式。
可选地,所述终端配置包括终端数量、终端类型、终端版本中的至少一种;所述硬件配置包括显卡数量、内存大小、处理器算力中至少一种;所述数据源配置包括数据源所属场景、数据源类型、数据源中的数据数量中的至少一种;所述数据格式配置包括分辨率、帧率、类型中的至少一种。
可选地,所述评估策略确定模块,包括:
评估策略展示子模块,用于展示至少一算法评估策略;其中,任一算法评估策略为针对至少一测试配置和/或至少一评估指标所配置的;
选择操作接收子模块,接收针对所述至少一算法评估策略的选择操作,并将所述至少一算法评估策略中,该选择操作所选择的算法评估策略,作为与所述指定测试策略关联的算法评估策略。
可选地,所述装置还包括:
评估展示模块,用于在所述业务结论生成模块按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论之后,展示评估展示界面;其中,所述评估展示界面中包含所述指定评估指标对应的目标图例,和/或所生成的业务结论;其中,所述目标图例为基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系所生成的图例。
可选地,所述目标算法评估策略包括算法评估模板;所述算法评估模板包含条件字段和待进行内容填充的空白字段;所述条件字段包含针对测试配置和/或评估指标进行筛选的筛选条件;所述业务结论生成模块,包括:
筛选子模块,用于根据所述算法评估模板中所述条件字段包含的筛选条件,对所述待测试算法进行测试时的测试配置和/或所述待测试算法测试所得到的指定评估指标的指标数据进行筛选,得到筛选数据;
数据确定子模块,用于从所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系中,确定与所述筛选数据对应的指标数据和/或测试配置;
业务结论生成子模块,用于将所确定的指标数据和/或测试配置填入所述算法评估模板中的所述空白字段,得到所述待测试算法针对所述业务场景的业务结论。
可选地,所述各评估指标包括:硬件评估指标和算法评估指标中的至少一种;所述硬件评估指标包括:硬件资源利用率、硬件功耗、硬件温度变化值中的至少一种;所述算法评估指标包括:算法吞吐量、算法精度、响应时间中的至少一种。
本实施例中,由于在得到待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据之后,可以确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,该对应关系可以反映待测试算法指定评估指标的指标数据随测试配置的变化而变化情况,进而可以利用目标算法评估策略所指示的业务结论生成方式,利用该对应关系生成针对业务场景的业务结论。可见,本方案可以利用所获取的指标数据,自动生成针对业务场景的业务结论,从而提高了算法评估的效率。
本发明实施例还提供了一种算法评估装置,应用于算法评估系统中的客户端,所述算法评估系统还包括:服务器;所述装置包括:
界面展示模块,用于展示任务生成界面;
算法评估任务生成模块,用于接收针对所述任务生成界面的配置操作,生成算法评估任务;其中,所述算法评估任务指示获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的数据获取策略;
算法评估任务发送模块,用于向所述服务器发送所述算法评估任务,以使所述服务器在接收所述算法评估任务后,基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据;基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
本实施例中,由于在得到待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据之后,可以确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,该对应关系可以反映待测试算法指定评估指标的指标数据随测试配置的变化而变化情况,进而可以利用目标算法评估策略所指示的业务结论生成方式,利用该对应关系生成针对业务场景的业务结论。可见,本方案可以利用所获取的指标数据,自动生成针对业务场景的业务结论,从而提高了算法评估的效率。
本发明实施例还提供了一种算法评估装置,应用于算法评估系统中的服务器,所述算法评估系统还包括:客户端;所述装置包括:
任务接收模块,用于接收所述客户端生成的算法评估任务;其中,所述算法评估任务指示获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的数据获取策略;
指标获取模块,用于基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据;
关系确定模块,用于基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;
策略确定模块,用于确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;
结论生成模块,用于按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
本实施例中,由于在得到待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据之后,可以确定待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,该对应关系可以反映待测试算法指定评估指标的指标数据随测试配置的变化而变化情况,进而可以利用目标算法评估策略所指示的业务结论生成方式,利用该对应关系生成针对业务场景的业务结论。可见,本方案可以利用所获取的指标数据,自动生成针对业务场景的业务结论,从而提高了算法评估的效率。
本发明实施例还提供了一种客户端,如图15所示,包括处理器1501和机器可读存储介质1502,机器可读存储介质1502存储有能够被处理器1501执行的机器可执行指令,处理器1501被所述机器可执行指令促使:实现上述应用于客户端的算法评估方法所述的方法步骤。
本发明实施例还提供了一种服务器,如图16所示,包括处理器1601和机器可读存储介质1602,机器可读存储介质1602存储有能够被处理器1601执行的机器可执行指令,处理器1601被所述机器可执行指令促使:实现上述应用于客户端的算法评估方法所述的方法步骤。
本发明实施例还提供了一种电子设备,如图17所示,包括处理器1701、通信接口1702、存储器1703和通信总线1704,其中,处理器1701,通信接口1702,存储器1703通过通信总线1704完成相互间的通信,
存储器1703,用于存放计算机程序;
处理器1701,用于执行存储器1703上所存放的程序时,实现上述算法评估方法所述的方法步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一算法评估方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一算法评估方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (23)
1.一种算法评估方法,其特征在于,所述方法包括:
获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据;其中,所述指定测试策略为与所述待测试算法的业务场景匹配的测试策略,所述指定测试策略指示所述待测试算法在至少一测试配置下进行测试;所述指定评估指标为各评估指标中的至少一种;
基于所获取的指定评估指标的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;
确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;
按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
2.根据权利要求1所述的方法,其特征在于,所述获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据,包括:
获取算法测试任务或离线评估任务;其中,所述算法测试任务包括算法标识、策略标识和指定评估指标;所述离线评估任务包括存储地址信息;所述存储地址信息指示离线指标数据的获取地址,所述离线指标数据为预先按照指定测试策略对待测试算法进行测试所得到的指定评估指标的指标数据;
在所获取的为所述算法测试任务的情况下,按照所述策略标识所指示的指定测试策略,对所述算法标识所指示的待测试算法进行测试,得到所述待测试算法的在所述指定评估指标下的指标数据;
在所获取的为所述离线评估任务的情况下,从所述存储地址信息所指示的获取地址中,读取所述离线指标数据。
3.根据权利要求2所述的方法,其特征在于,所述获取算法测试任务或离线评估任务,包括:
展示任务生成界面;其中,所述任务生成界面包含任务类型选择框;
接收针对所述任务类型选择框的任务选择操作;
在所述任务选择操作所选择的任务类型为测试类型的情况下,展示第一子界面;其中,所述第一子界面中包含测试算法选择框、测试策略选择框和评估指标选择框;分别接收针对所述测试算法选择框、所述测试策略选择框和所述评估指标选择框的选择操作,确定所选择的算法标识、策略标识和指定评估指标;基于所选择的算法标识、策略标识和指定评估指标,生成算法测试任务;
在所述任务选择操作所选择的任务类型为离线类型的情况下,展示第二子界面;其中,所述第二子界面中包含位置选择框;接收针对所述位置选择框的选择操作,确定所选择的存储地址信息;基于所选择的存储地址信息,生成离线评估任务。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述测试配置包括第一维度配置和第二维度配置;其中,所述第一维度配置和所述第二维度为终端硬件配置、数据类型配置中的至少一种;所述终端硬件配置指示所述待测试算法进行测试时所部署的终端信息,所述数据类型配置指示所述待测试算法进行测试时所输入的数据的类型信息;
所述基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,包括:
基于所获取的指定评估维度的测试数据,确定所述待测试算法在所述第一维度配置下,所述待测试算法的指定评估指标的指标数据随所述第二维度配置的变化的变化函数,作为所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系。
5.根据权利要求4所述的方法,其特征在于,所述终端硬件配置包括终端配置和硬件配置中的至少一种;其中,所述终端配置指示所述待测试算法进行测试时的终端部署信息,所述硬件配置指示所述待测试算法进行测试时的终端包含的硬件信息;
所述数据类型配置包括数据源配置、任务数量配置以及数据格式配置中的至少一种;其中,所述数据源配置指示所述待测试算法进行测试时输入数据所属的数据源;所述任务数量配置指示所述待测试算法进行测试时同步处理的最大任务数;所述数据格式配置指示所述待测试算法进行测试时所输入数据的数据格式。
6.根据权利要求5所述的方法,其特征在于,所述终端配置包括终端数量、终端类型、终端版本中的至少一种;所述硬件配置包括显卡数量、内存大小、处理器算力中至少一种;所述数据源配置包括数据源所属场景、数据源类型、数据源中的数据数量中的至少一种;所述数据格式配置包括分辨率、帧率、类型中的至少一种。
7.根据权利要求1-3任一项所述的方法,其特征在于,所述确定预设的与所述指定测试策略关联的算法评估策略,包括:
展示至少一算法评估策略;其中,任一算法评估策略为针对至少一测试配置和/或至少一评估指标所配置的;
接收针对所述至少一算法评估策略的选择操作,并将所述至少一算法评估策略中,该选择操作所选择的算法评估策略,作为与所述指定测试策略关联的算法评估策略。
8.根据权利要求1-3任一项所述的方法,其特征在于,在所述按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论之后,所述方法还包括:
展示评估展示界面;其中,所述评估展示界面中包含所述指定评估指标对应的目标图例,和/或所生成的业务结论;其中,所述目标图例为基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系所生成的图例。
9.根据权利要求1-3任一项所述的方法,其特征在于,所述目标算法评估策略包括算法评估模板;所述算法评估模板包含条件字段和待进行内容填充的空白字段;所述条件字段包含针对测试配置和/或评估指标进行筛选的筛选条件;
所述按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论,包括:
根据所述算法评估模板中所述条件字段包含的筛选条件,对所述待测试算法进行测试时的测试配置和/或所述待测试算法测试所得到的指定评估指标的指标数据进行筛选,得到筛选数据;
从所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系中,确定与所述筛选数据对应的指标数据和/或测试配置;
将所确定的指标数据和/或测试配置填入所述算法评估模板中的所述空白字段,得到所述待测试算法针对所述业务场景的业务结论。
10.根据权利要求1-3任一项所述的方法,其特征在于,所述各评估指标包括:硬件评估指标和算法评估指标中的至少一种;
所述硬件评估指标包括:硬件资源利用率、硬件功耗、硬件温度变化值中的至少一种;
所述算法评估指标包括:算法吞吐量、算法精度、响应时间中的至少一种。
11.一种算法评估方法,其特征在于,应用于算法评估系统中的客户端,所述算法评估系统还包括:服务器;所述方法包括:
展示任务生成界面;
接收针对所述任务生成界面的配置操作,生成算法评估任务;其中,所述算法评估任务指示获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的数据获取策略;
向所述服务器发送所述算法评估任务,以使所述服务器在接收所述算法评估任务后,基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据;基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
12.一种算法评估方法,其特征在于,应用于算法评估系统中的服务器,所述算法评估系统还包括:客户端;所述方法包括:
接收所述客户端生成的算法评估任务;其中,所述算法评估任务指示获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的数据获取策略;
基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据;
基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;
确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;
按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
13.一种算法评估系统,其特征在于,所述算法评估系统包括:客户端和服务器;
所述客户端,用于展示任务生成界面;接收针对所述任务生成界面的配置操作,生成算法评估任务;其中,所述算法评估任务指示获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的数据获取策略;向所述服务器发送所述算法评估任务;
所述服务器,用于接收所述客户端发送的算法评估任务;基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据;基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
14.根据权利要求13所述的算法评估系统,其特征在于,所述任务生成界面包括任务类型选择框;针对所述任务生成界面的配置操作包括针对所述任务类型选择框的任务选择操作;
所述客户端接收针对所述任务生成界面的配置操作,生成算法评估任务,包括:
在所述任务选择操作所选择的任务类型为测试类型的情况下,展示第一子界面;其中,所述第一子界面中包含测试算法选择框、测试策略选择框和评估指标选择框;分别接收针对所述测试算法选择框、所述测试策略选择框和所述评估指标选择框的选择操作,确定所选择的算法标识、策略标识和指定评估指标;基于所选择的算法标识、策略标识和指定评估指标,生成算法测试任务,作为算法评估任务;
在所述任务选择操作所选择的任务类型为离线类型的情况下,展示第二子界面;其中,所述第二子界面中包含位置选择框;接收针对所述位置选择框的选择操作,确定所选择的存储地址信息;基于所选择的存储地址信息,生成离线评估任务,作为算法评估任务;所选择的存储地址信息指示离线指标数据的获取地址,所述离线指标数据为预先按照指定测试策略对待测试算法进行测试所得到的指定评估指标的指标数据。
15.根据权利要求14所述的算法评估系统,其特征在于,所述服务器基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据,包括:
在所获取的为所述算法测试任务的情况下,按照所述策略标识所指示的指定测试策略,对所述算法标识所指示的待测试算法进行测试,得到所述待测试算法的在所述指定评估指标下的指标数据;
在所获取的为所述离线评估任务的情况下,从所选择的存储地址信息所指示的获取地址中,读取所述离线指标数据。
16.根据权利要求13所述的算法评估系统,其特征在于,所述客户端,还用于在所述展示任务生成界面之后,展示至少一算法评估策略;其中,任一算法评估策略为针对至少一测试配置和/或至少一评估指标所配置的;接收针对所述至少一算法评估策略的选择操作,并将所述至少一算法评估策略中,该选择操作所选择的算法评估策略,发送至所述服务器;
所述服务器确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略,包括:
接收所述客户端所发送的算法评估策略,作为目标算法评估策略。
17.一种算法评估装置,其特征在于,所述装置包括:
指标数据获取模块,用于获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据;其中,所述指定测试策略为与所述待测试算法的业务场景匹配的测试策略,所述指定测试策略指示所述待测试算法在至少一测试配置下进行测试;所述指定评估指标为各评估指标中的至少一种;
对应关系确定模块,用于基于所获取的指定评估指标的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;
评估策略确定模块,用于确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;
业务结论生成模块,用于按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
18.一种算法评估装置,其特征在于,应用于算法评估系统中的客户端,所述算法评估系统还包括:服务器;所述装置包括:
界面展示模块,用于展示任务生成界面;
算法评估任务生成模块,用于接收针对所述任务生成界面的配置操作,生成算法评估任务;其中,所述算法评估任务指示获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的数据获取策略;
算法评估任务发送模块,用于向所述服务器发送所述算法评估任务,以使所述服务器在接收所述算法评估任务后,基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据;基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
19.一种算法评估装置,其特征在于,应用于算法评估系统中的服务器,所述算法评估系统还包括:客户端;所述装置包括:
任务接收模块,用于接收所述客户端生成的算法评估任务;其中,所述算法评估任务指示获取待测试算法按照指定测试策略进行测试所得到的指定评估指标的指标数据的数据获取策略;
指标获取模块,用于基于所述算法评估任务所指示的数据获取策略,获取所述待测试算法按照所述指定测试策略进行测试所得到的所述指定评估指标的指标数据;
关系确定模块,用于基于所获取的指定评估维度的测试数据,确定所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系;
策略确定模块,用于确定预设的与所述指定测试策略关联的算法评估策略,作为目标算法评估策略;其中,任一算法评估策略指示基于测试配置和/或评估指标生成业务结论的方式;
结论生成模块,用于按照所述目标算法评估策略所指示的业务结论生成方式,基于所述待测试算法的指定评估指标的指标数据与测试配置之间的对应关系,生成所述待测试算法针对所述业务场景的业务结论。
20.一种客户端,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现权利要求11所述的方法步骤。
21.一种服务器,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现权利要求12所述的方法步骤。
22.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-10任一所述的方法步骤。
23.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-12任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310077599.8A CN116204424A (zh) | 2023-01-16 | 2023-01-16 | 一种算法评估方法、系统、装置、客户端及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310077599.8A CN116204424A (zh) | 2023-01-16 | 2023-01-16 | 一种算法评估方法、系统、装置、客户端及服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116204424A true CN116204424A (zh) | 2023-06-02 |
Family
ID=86518480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310077599.8A Pending CN116204424A (zh) | 2023-01-16 | 2023-01-16 | 一种算法评估方法、系统、装置、客户端及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116204424A (zh) |
-
2023
- 2023-01-16 CN CN202310077599.8A patent/CN116204424A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110337641A (zh) | 使用屏幕截图元数据确定应用测试结果 | |
CN112711526B (zh) | Ui测试方法、装置、设备及存储介质 | |
US10296552B1 (en) | System and method for automated identification of internet advertising and creating rules for blocking of internet advertising | |
CN110956269B (zh) | 数据模型的生成方法、装置、设备以及计算机存储介质 | |
CN111414166B (zh) | 代码的生成方法、装置、设备及存储介质 | |
CN110990053A (zh) | 机器学习方案模板的创建方法、使用方法及装置 | |
CN107729246A (zh) | 针对目标应用的辅助测试方法、装置、设备及存储介质 | |
CN109815448B (zh) | 幻灯片生成方法及装置 | |
CN109102324B (zh) | 模型训练方法、基于模型的红包物料铺设预测方法及装置 | |
JP2022028881A (ja) | 広告を自動的に生成する方法、装置、機器及びコンピュータ可読記憶媒体 | |
CN113778864A (zh) | 一种测试用例的生成方法和装置、电子设备和存储介质 | |
CN112527676A (zh) | 模型自动化测试方法、装置及存储介质 | |
CN113448862A (zh) | 软件版本测试方法、装置及计算机设备 | |
US11675756B2 (en) | Data complementing system and data complementing method | |
CN110201397B (zh) | 一种游戏资源配置方法、装置及电子设备 | |
CN112631920A (zh) | 一种测试方法、装置、电子设备及可读存储介质 | |
CN116204424A (zh) | 一种算法评估方法、系统、装置、客户端及服务器 | |
CN109447844A (zh) | 一种电子化试验报告的管理方法 | |
US20160132424A1 (en) | Simulating sensors | |
CN113506099A (zh) | 申报业务的配置系统、方法、计算机设备和存储介质 | |
CN114003567A (zh) | 数据采集的方法及相关装置 | |
JP6204923B2 (ja) | アセスメント装置、アセスメントシステム、アセスメント方法、及びプログラム | |
CN110297625B (zh) | 应用的处理方法及装置 | |
CN110308905B (zh) | 一种页面组件匹配方法及装置 | |
CN113590488B (zh) | 模拟金融数据支撑的系统测试方法与测试平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |