CN114706518A - Ai模型推理方法 - Google Patents
Ai模型推理方法 Download PDFInfo
- Publication number
- CN114706518A CN114706518A CN202210325959.7A CN202210325959A CN114706518A CN 114706518 A CN114706518 A CN 114706518A CN 202210325959 A CN202210325959 A CN 202210325959A CN 114706518 A CN114706518 A CN 114706518A
- Authority
- CN
- China
- Prior art keywords
- model
- target
- reasoning
- terminal
- platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000008569 process Effects 0.000 claims abstract description 25
- 230000004044 response Effects 0.000 claims abstract description 18
- 238000004891 communication Methods 0.000 claims description 11
- 230000006835 compression Effects 0.000 claims description 7
- 238000007906 compression Methods 0.000 claims description 7
- 230000001133 acceleration Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/0482—Interaction with lists of selectable items, e.g. menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/41—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
- G06N3/105—Shells for specifying net layout
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开一种AI模型推理方法和推理平台,涉及软件技术领域,AI模型推理平台通过Tensorrt部署至少一个AI模型;方法包括:接收第一终端发送的数据上传指令,将上传指令中的目标数据资源存储至Redis数据库;响应于从Redis数据库中检测到目标数据资源对应的数据标识码,从Redis数据库中提取目标数据资源,并确定出目标AI模型;响应于目标AI模型满足模型推理条件,对目标数据资源进行模型推理,并向第一终端下发模型推理结果。本发明通过平台可以适应多种框架模型,将终端上传的资源输入至AI推理模型中进行推理输出,且能够实现模型在线共享和更新,简化终端通过编辑脚本启动和输入的过程,提高模型推理的效率。
Description
技术领域
本申请实施例涉及软件技术领域,特别涉及一种应用于AI模型推理平台的AI模型推理方法。
背景技术
近年来,随着人工智能的快速发展,AI模型成为开发者和用户青睐的对象,通过AI模型可以实现数据资源的快速处理,一些开发者平台提供有编辑和使用的模型资源以及素材等。
相关技术中,各个平台限于技术和成本限制采用,无法实现可视化的操作和共享,用户和开发者只能通过平台下载模型后进行使用,或者对于可在线推理的模型,需要通过特定的编译环境下通过脚本输入命令行来启动、输入和推理过程,影响用户的体验和推理的效率。
发明内容
本申请提供了一种AI模型推理方法。所述技术方案如下:
一方面,提供了一种AI模型推理方法,所述方法用于AI模型推理平台,所述AI模型推理平台通过Tensorrt部署至少一个AI模型;所述方法包括:
接收第一终端发送的数据上传指令,将所述数据上传指令中的目标数据资源存储至Redis数据库;所述目标数据资源包括图片和视频中的至少一种,所述Redis数据库中包含有与所述AI模型推理平台建立通讯连接的所有终端发送的数据资源;
响应于从所述Redis数据库中检测到所述目标数据资源对应的数据标识码,从所述Redis数据库中提取所述目标数据资源,并确定出目标AI模型;所述目标数据资源为所述第一终端上传并缓存至所述Redis数据库中的数据资源;
响应于所述目标AI模型满足模型推理条件,对所述目标数据资源进行模型推理,并向所述第一终端下发模型推理结果。
另一方面,提供了一种AI模型推理方法,所述方法用于第一终端,且与AI模型推理平台建立通讯连接,所述AI模型推理平台通过Tensorrt部署至少一个AI模型;所述方法包括:
显示操作主界面,所述操作主界面中包含有AI模型列表;
响应于接收到对目标数据资源的数据上传指令,向所述AI模型推理平台上传目标数据资源,以使所述AI模型推理平台将所述目标数据资源存储至Redis数据库;所述目标数据资源包括图片和视频中的至少一种,所述Redis数据库中包含有与所述AI模型推理平台建立通讯连接的所有终端发送的数据资源;
响应于接收到所述AI模型推理平台反馈的模型推理结果,在所述操作主界面中显示输出操作控件,所述结果操作控件中包含有目标AI模型推理输出的文件资源。
上述技术方案带来的有益效果至少包括:通过提供可视化界面显示的方式为用户提供简便操作,用户可以通过点击主操作界面的方式从AI模型列表中选择需要进行推理的目标AI模型;对于AI模型推理平台,可以对接收到终端发送的目标数据资源缓存至Redis数据库中,便于后续提取和处理,且对于共享式的推理平台,可以在满足条件特定AI模型推理条件的情况下自动根据数据标识码选择进行模型推理,并将模型推理结果下发到终端进行界面化显示,而无需用户通过脚本编写操作来执行。通过可视化界面操作的方式避免了频繁的指令输入,简化终端通过编辑脚本启动和输入的过程,提高模型推理的效率。
附图说明
图1是本申请实施例提供的AI模型推理方法应用于AI模型推理平台的操作流程图;
图2是本申请实施例提供的AI模型推理平台的操作主界面的界面示意图;
图3是本申请实施例提供的第一终端显示推理输出结果的界面示意图;
图4是申请另一个实施例提供的AI模型推理方法应用于AI模型推理平台的操作流程图;
图5是申请另一个实施例提供的AI模型推理方法应用于AI模型推理平台的操作流程图;
图6是本申请实施例提供的第二终端显示模型更新的操作界面示意图;
图7是本申请实施例提供的第一终端显示第一提示信息的界面示意图;
图8是本申请实施例提供的创建AI模型的模型创建界面示意图;
图9是本申请实施例提供的模型创建成功后的界面示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在相关技术中,对于云端提供的AI推理模型,通常是采用脚本编辑和手动上传的方式通过云端模型推理,如现有的通过python的图形用户界面进行脚本编辑和云端建立连接,其需要在图形界面输入脚本信息和操作指令,确定模型后再上传资源进行模型推理,图形界面操作不友好,且脚本式编辑的方式效率低下,启动模型也需要一定时间,严重影响用户的操作效率。
图1是本申请实施例提供的AI模型推理方法应用于AI模型推理平台的操作流程图,包括如下步骤:
步骤101,在第一终端显示操作主界面,操作主界面中包含有AI模型列表。
在一种可能的实施方式中,用户通过在计算机设备上安装AI模型推理平台的应用程序或登录网址等方式与AI模型推理平台建立通讯连接。AI推理平台由多干服务器组成,该平台通过Tensorrt部署一个或多个AI推理模型,AI推理模型采用各种神经网络算法对输入的资源数据进行分析和处理,以实现特定的功能或目的。对于客户端来说,用户可以通过Web网页或程序界面显示可视化界面,便于用户操作。
示意性的,如图2所示,用户通过第一终端显示该AI模型推理平台的操作主界面,界面中显示有AI模型显示控件201,用户可以通过点击该显示控件201显示出下拉的AI模型列表210。AI模型列表210中显示有所有已上线的AI推理模型。其中,不同的AI推理模型用于实现不同的推理功能。
步骤102,响应于接收到对目标数据资源的数据上传指令,向AI模型推理平台上传目标数据资源,以使AI模型推理平台将目标数据资源存储至Redis数据库。
当用户通过主操作界面中选中模型并上传需要进行数据处理的数据资源后,计算机设备通过和云端建立的通讯连接将其上传至云端服务器。当云端服务器接收到目标数据资源后,将其缓存至Redis数据库。Redis数据库是用于进行数据缓存和保存输出文件的数据库。
需要说明的是,第一终端可以是搭载对应应用程序或登录Web网页建立连接的计算机设备、个人PC、移动终端和工作站中的任意一种,上传的目标数据资源可以是图片、视频或音频中的至少一种。
步骤103,接收第一终端发送的数据上传指令,将数据上传指令中的目标数据资源存储至Redis数据库。
当AI模型推理平台接收到第一终端发送的数据上传指令后,提取其中的目标数据资源,包括图片、视频或音频等,并存储至Redis数据库中,便于后续进行模型推理。其中,Redis数据库中包含有与AI模型推理平台建立通讯连接的所有终端发送的数据资源。
步骤104,响应于从Redis数据库中检测到目标数据资源对应的数据标识码,从Redis数据库中提取目标数据资源,并确定出目标AI模型。
由于AI模型推理平台采用在同一时间段可能接收到海量数据,因而数据库中不同终端存储的资源需要设置唯一的数据标识码,便于后续根据数据标识码提取目标数据资源和确定终端等。
Redis数据库根据预设的时间间隔读取其中存储的数据标识码,当检测到数据标识码时,表明Redis数据库中存在未处理完的数据,需要根据数据标识码提取到对应的目标数据资源和选定的目标AI模型。例如,第一终端上传图片资源到第一AI模型,通过第一AI模型进行图像识别完成人像抠图,则该步骤需要找出对应图片和需要执行的推理模型。其中,目标数据资源为第一终端上传并缓存至Redis数据库中的数据资源。
步骤105,响应于目标AI模型满足模型推理条件,对目标数据资源进行模型推理,并向第一终端下发模型推理结果。
由于AI模型推理平台为共享式操作平台,其可以对所有上传至云端的数据资源进行处理,当平台中的目标AI模型处于正常工作状态,和/或上传的数据等满足推理要求时,即满足模型推理条件,此时可以对目标数据资源进行推理,推理完成后,将模型推理结果下发到第一终端。
步骤106,响应于接收到AI模型推理平台反馈的模型推理结果,在操作主界面中显示结果操作控件,结果操作控件中包含有目标AI模型推理输出的文件资源。
如图3所示,第一终端接收到AI模型推理平台反馈的模型推理结果后,表明推理结束,在操作主界面显示结果操作控件310,结果操作控件310中包含有目标AI模型推理输出的文件资源。例如输出进行标定或图像处理后的图片和视频等。
综上所述,本申请实施例提供的AI模型推理方法和推理模型,通过提供可视化界面显示的方式为用户提供简便操作,用户可以通过点击主操作界面的方式从AI模型列表中选择需要进行推理的目标AI模型;对于AI模型推理平台,可以对接收到终端发送的目标数据资源缓存至Redis数据库中,便于后续提取和处理,且对于共享式的推理平台,可以在满足条件特定AI模型推理条件的情况下自动根据数据标识码选择进行模型推理,并将模型推理结果下发到终端进行界面化显示,而无需用户通过脚本编写操作来执行。通过可视化界面操作的方式避免了频繁的指令输入,简化终端通过编辑脚本启动和输入的过程,提高模型推理的效率。
图4是本申请另一个实施例提供的AI模型推理方法应用于AI模型推理平台的操作流程图,包括如下步骤:
步骤401,在第一终端显示操作主界面,操作主界面中包含有AI模型列表。
步骤402,接收对AI模型列表中目标AI模型的选择操作,显示数据上传控件。
步骤403,响应于接收到对数据上传控件的点击操作,将数据输入框内的目标数据资源上传至AI模型推理平台。
如图2所示,在AI模型列表中勾选AI模型1,进而在主操作页面中显示出数据上传控件220,数据上传控件220中包含有数据输入框221和确定控件222,数据输入框221用于输入目标数据资源,如图片、音频和视频。输入需要上传的内容后点击,将目标数据资源上传至AI模型推理平台。
步骤404,响应于接收到第一终端发送的目标数据资源,获取目标资源对应的UUID,并基于UUID和第一终端的账号信息生成数据标识码。
上述内容说到AI模型推理平台接收到的指令和数据资源需要缓存至Redis数据库,为了后续能够方便提取和判断,需要获取到目标数据的UUID,UUID是基于提供的API接口和时间生成的,可以确保唯一性,同时再结合帐号信息生成数据标识码。
步骤405,将目标数据资源和对应生成的数据标识码缓存至Redis数据库。
步骤406,响应于从Redis数据库中检测到数据标识码,确定数据标识码对应的目标AI模型,并获取目标AI模型的模型状态信息。
此步骤中设置的检测过程是根据预设时间设定的,云平台不断检测Redis数据库中是否存在数据标识码,当存在数据标识码时,表明存在未推理的数据资源,进而对数据标识码进行解析,确定出对应的终端和需要获取的目标数据资源。此外,为了进一步提高操作效率,在终端上传的数据上传指令中还包涵了目标AI模型的模型标识,通过其中的模型标识从AI模型库中确定出需要执行的目标AI模型,并获取到该目标模型的模型状态信息,便于后续的判断。
步骤407,当目标AI模型处于未启动该状态时,启动目标AI模型,并基于第一终端的数据标识码从Redis数据库中提取目标数据资源。
由于平台中AI模型较多,对于长时间未执行的模型处于休眠或未启动状态,而平台在确定出目标AI模型后,需要在后台通过脚本自动启动对应的目标AI模型。在启动模型的同时,基于第一终端的数据标识码从Redis数据库中提取目标数据资源,方便后续的预处理操作。对于处于启动状态的目标AI模型,直接对提取目标数据资源。
步骤408,基于目标AI模型的格式要求对目标数据资源进行预处理。
需要说明的是,为了减轻处理器压力和模型推理速度,在输入目标AI模型前或启动过程中,对目标数据资源进行预处理,预处理包括对图片资源、音频资源和视频资源进行分辨率调整、尺寸裁剪、音视频剪辑和格式转换等操作,确保最终输入至目标AI模型的数据资源符合标准,同时也能提高模型推理效率和速度。
步骤409,再次获取目标AI模型的模型状态信息,当模型状态信息指示处于模型运行状态时,通过TensorRT加速引擎加速目标AI模型的推理过程,并生成推理结果。
再次获取目标AI模型的模型状态信息,当目标AI模型已启动或启动成功后,模型状态信息指示处于正常运行状态,此时可以通过TensorRT加速引擎加速目标AI模型的推理过程。TensorRT加速引擎可以兼容在流行框架上训练的神经网络,优化神经网络计算,生成轻量级运行引擎,并且它将在这些GPU平台上最大化吞吐量,延迟和性能,并生成推理结果。
当再次获取到的目标AI模型的模型状态信息指示处于其他状态,如处于更新状态时,则需要中断模型推理过程,相应的需要根据第一终端的帐号信息下发第一提示信息。具体参考步骤506。
步骤410,向第一终端下发模型前向推理输出结果,或基于推理输出文件生成文件压缩包,并向第一终端下发压缩包的下载链接。
在一种可能的实施方式中,第一终端上传视频内容,需要通过目标AI模型对视频中的人像进行头像加框处理,通过输入到AI模型推理平台中对应的目标AI模型后,进行前向推理,输出后的视频中人像自动加框显示。而对于上传的图片资源,例如识别图像中的各种动物,选择对应的目标AI模型进行在线识别和显示。对于推理输出结果,可以将图像或音视频资源进行处理后生成原格式后下发,或者是将生成的相应文件资源打包成压缩包和下载链接,提供人性化的操作选项。
步骤411,响应于接收到AI推理平台反馈的模型推理结果,在主操作界面中显示结果操作控件,结果操作控件中包含有目标AI模型推理输出的文件资源。
如图3所示,对于推理成功后下发至第一终端的情况,第一终端在接收到反馈信息,后在主操作界面中显示结果操作控件310,结果操作控件310中可以显示有预览框311和/或下载链接框312,预览框311用于显示模型推理后的输出文件,例如图像和音视频等资源,对于批量化的文件资源或转换文件格式的资源,生成下载压缩包的下载链接框312,用户可以通过点击保存选项保存至计算机设备上。
本申请实施例中,第一终端在计算机设备上操作时,无需通过脚本编写指令启动和运行AI模型推理平台上的AI模型,而是通过在计算机设备上通过可视化操作的方式自动选择需要上传的目标数据资源和目标AI模型,推理过程中AI模型推理平台可以兼容多种框架格式的神经网络模型,并将其部署至平台进行推理加速,推理前的模型状态检测和在云端自动执行,启动过程可以对目标资源进行预处理,减轻目标AI模型的处理压力,提高推理效率;此外,推理输出结果可以通过界面显示,方便用户操作。
上述实施例中是针对无其他终端进行模型更新情况下的操作流程图,当过程中其他终端对目标AI模型进行操作或更改时,为了避免出现错误和数据的有效性,应对目标AI模型的操作权限进行限制,具体操作步骤如图5所示,为本申请另一实施例提供的AI模型推理方法应用于AI模型推理平台的操作流程图,包括如下步骤:
步骤501,在第一终端显示操作主界面,操作主界面中包含有AI模型列表。
步骤502,响应于接收到对目标数据资源的数据上传指令,向AI模型推理平台上传目标数据资源。
步骤503,响应于从Redis数据路中检测到目标数据资源对应的数据标识码,从Redis库中提取目标数据资源,并确定目标AI模型。
步骤504,第二终端向AI模型推理平台发送模型更新指令。
上述说到,Redis数据库中可能会存在海量的数据资源和对应的数据标识码,当第一终端在界面上传数据资源过程或提取目标资源过程中,第二终端选中了该目标AI模型并对其进行更新,由于本AI模型推理平台设置了优先级,模型更新指令优先级高于模型启动和模型推理指令,这是因为更新后的模型推理精度和推理效果是优于更新前的模型的,因而在接收到模型更新指令后,直接对AI模型进行更新。第二终端是和第一终端类似,且通过帐号和可视化操作界面与AI模型推理平台建立的通讯连接,并发送的更新指令。
在一种可能的实施方式中,第二终端的操作界面示意图如图6所示,用户通过第二终端在主操作界面中选中AI模型列表610中的目标AI模型的更新选项,在界面显示出的更新控件620,更新控件620中的输入框可以用于上传更新数据,在确认上传操作后,在主操作界面中显示出形如“您将选中的AI推理模型进行参数更新,更新过程无法再进行模型推理,请勿退出!”的提示信息。
步骤505,响应于接收到第二终端发送的模型更新指令,对目标AI模型的模型状态信息进行更新,并关闭提他终端对目标AI模型的操作权限。
在平台接收到模型更新指令时,会关闭其他终端对目标AI模型的操作权限,避免出现更新错误,同时中断目标AI模型的推理进程。
步骤506,向第一终端发送第一提示信息。
在更新过程中,再次获取到的模型状态信息发生改变,且无法再对目标AI模型进行其他操作,因而需要向选中目标AI模型的第一终端下发第一提示信息,用于提醒用户模型状态信息被改变。在第一终端显示的第一提示信息如图7所示。
步骤507,基于第二终端上传的更新文件进行模型更新,并在模型更新完成后重新恢复其他终端对目标AI模型的操作权限。
更新完成后,将目标AI模型的模型状态信息重新修改为正常工作状态,并恢复其他终端对目标AI模型的操作权限。对于中断的推理进程,继续接管并按照更新后的目标AI模型执行推理过程。
步骤508,当模型状态信息指示处于模型运行状态时,通过TensorRT加速引擎加速目标AI模型的推理过程,并生成推理结果。
步骤509,向第一终端下发模型前向推理输出结果,或基于推理输出文件生成文件压缩包,并向第一终端下发压缩包的下载链接。
步骤510,响应于接收到AI推理平台反馈的模型推理结果,在主操作界面中显示结果操作控件,结果操作控件中包含有目标AI模型推理输出的文件资源。
步骤511,第二终端向AI模型推理平台发送模型创建指令。
AI模型推理平台还向用户提供模型创建功能,如图2所示,主操作界面中显示有创建新模型控件202,用户可以通过第二终端点击发送模型创建指令。需要说明的是,对于平台分配权限的账户都可以在线创建新模型,例如平台运维人员和技术人员的帐号,当第一终端的帐号符合要求时同样可以操作。如图8是创建AI模型的模型创建界面示意图,模型创建界面800显示有数据上传控件801和数据输入框802;数据输入框802用于输入模型文件和配置文件,数据上传控件801用于将输入的模型文件和配置文件上传至AI模型推理平台,以使AI模型推理平台进行模型部署,并更新AI模型列表810。
步骤512,响应于接收到第二终端发送的模型创建指令,获取模型创建指令中包含的模型文件和配置文件。
步骤513,获取配置文件中的配置信息,基于配置信息对模型文件进行解析和网络重构,将重构后的AI推理模型部署至AI模型推理平台。
上传的神经网络模型文件通常为onnx格式文件,TensorRT通过解析配置文件和模型文件,将网络中无用的输出层消除以减小计算。其次对网络结构的垂直整合,即将目前主流神经网络的conv、BN、Relu三个层融合为了一个层。再次对网络的水平组合,将输入为相同张量和执行相同操作的层融合一起。最终将重构输出后的AI推理模型部署至AI模型推理平台中。平台在创建成功后需要向所有建立通讯连接的终端下发更新指令,确保平台共享的实时性。如图9所示为模型创建成功后的界面示意图。
本申请实施例提供的方法和平台,充分考虑到多人共享平台中模型更新场景,通过设置优先级的方式来中止待更新的目标AI模型的推理过程,而是对其更新优化,以实现更为精确和更优的模型性能,并关闭其他终端的操作权限,待更新完成后再恢复终止的推理进程。此外该平台还提供在线创建新模型的功能,同样通过可视化界面操作,无需调用脚本编辑,仅需将训练好的神经网络模型和配置文件上传至云端即可,通过云端进行解析和部署。本发明相较于传统的脚本编辑实现AI模型推理的方式,模型推理的效率大幅提高。
以上对本发明的较佳实施例进行了描述;需要理解的是,本发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容;因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (10)
1.一种AI模型推理方法,其特征在于,所述方法用于AI模型推理平台,所述AI模型推理平台通过Tensorrt部署至少一个AI模型;所述方法包括:
接收第一终端发送的数据上传指令,将所述数据上传指令中的目标数据资源存储至Redis数据库;所述目标数据资源包括图片和视频中的至少一种,所述Redis数据库中包含有与所述AI模型推理平台建立通讯连接的所有终端发送的数据资源;
响应于从所述Redis数据库中检测到所述目标数据资源对应的数据标识码,从所述Redis数据库中提取所述目标数据资源,并确定出目标AI模型;所述目标数据资源为所述第一终端上传并缓存至所述Redis数据库中的数据资源;
响应于所述目标AI模型满足模型推理条件,对所述目标数据资源进行模型推理,并向所述第一终端下发模型推理结果。
2.根据权利要求1所述的方法,其特征在于,所述接收第一终端发送的目标数据资源,并存储至Redis数据库,包括:
响应于接收到所述第一终端发送的所述目标数据资源,获取所述目标数据资源对应的UUID通用唯一识别码,并基于UUID和第一终端的帐号信息生成所述数据标识码;
将所述目标数据资源和对应生成的所述数据标识码缓存至所述Redis数据库。
3.根据权利要求2所述的方法,其特征在于,所述响应于从所述Redis数据库中检测到所述目标数据资源对应的数据标识码,从所述Redis数据库中提取所述目标数据资源,并确定出目标AI模型,包括:
响应于从所述Redis数据库中检测到所述数据标识码,确定所述数据标识码对应的所述目标AI模型,并获取所述目标AI模型的模型状态信息;所述模型状态信息用于表征AI推理模型的工作状态;
当所述目标AI模型处于未启动状态时,启动所述目标AI模型,并基于所述第一终端的所述数据标识码,从所述Redis数据库中提取所述目标数据资源;
基于所述目标AI模型的格式要求,对所述目标数据资源进行预处理;预处理包括对图片资源和视频资源进行分辨率调整、尺寸裁剪和格式转换中的至少一种。
4.根据权利要求3所述的方法,其特征在于,所述响应于所述目标AI模型满足模型推理条件,对所述目标数据资源进行模型推理,并向所述第一终端下发模型推理结果,包括:
再次获取所述目标AI模型的模型状态信息;
当模型状态信息指示处于模型更新状态时,向所述第一终端发送第一提示信息;其中,所述第一提示信息用于指示模型状态信息由所述第一终端外的其他终端进行模型更新时改变;
当模型状态信息指示处于运行状态时,通过TensorRT加速引擎加快所述目标AI模型的推理过程,并生成模型推结果;
向所述第一终端下发模型的前向推理输出结果;或,基于推理输出文件生成文件压缩包,并向所述第一终端下发所述文件压缩包的下载链接。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于接收到第二终端发送的模型更新指令,对目标AI模型的模型状态信息进行更新,并关闭其他终端对所述目标AI模型的操作权限;其中,模型更新指令的优先级高于模型推理指令;
基于所述第二终端上传的更新文件进行模型更新,并在模型更新完成后重新恢复其他终端对所述目标AI模型的操作权限。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
响应于接收到所述第二终端发送的模型创建指令,获取所述模型创建指令中包含的模型文件和配置文件;
获取所述配置文件中的配置信息,基于所述配置信息对所述模型文件进行解析和网络重构,并将重构后的AI推理模型部署至所述AI模型推理平台。
7.一种AI模型推理方法,其特征在于,所述方法用于第一终端,且与AI模型推理平台建立通讯连接,所述AI模型推理平台通过Tensorrt部署至少一个AI模型;所述方法包括:
显示操作主界面,所述操作主界面中包含有AI模型列表;
响应于接收到对目标数据资源的数据上传指令,向所述AI模型推理平台上传所述目标数据资源,以使所述AI模型推理平台将所述目标数据资源存储至Redis数据库;所述目标数据资源包括图片和视频中的至少一种,所述Redis数据库中包含有与所述AI模型推理平台建立通讯连接的所有终端发送的数据资源;
响应于接收到所述AI模型推理平台反馈的模型推理结果,在所述操作主界面中显示输出结果操作控件,所述结果操作控件中包含有目标AI模型推理输出的文件资源。
8.根据权利要求7所述的方法,其特征在于,所述响应于接收到对目标数据资源的数据上传指令,向所述AI模型推理平台上传目标数据资源,包括:
接收对所述AI模型列表中所述目标AI模型的选择操作,显示数据上传控件,所述数据上传控件中包含有数据输入框,用于上传数据资源;
响应于接收到对所述数据上传控件的点击操作,将数据输入框内的所述目标数据资源上传至所述AI模型推理平台。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
响应于收到所述AI模型推理平台下发的反馈指令,在所述操作主界面中显示第一提示信息,所述第一提示信息用于指示模型状态信息由所述第一终端外的其他终端进行模型更新时改变。
10.根据权利要求7所述的方法,其特征在于,所述操作主界面还显示有模型创建控件;响应于接收到对所述模型创建控件的触发操作,显示模型创建界面,所述模型创建界面显示有数据上传控件和数据输入框;所述数据输入框用于输入模型文件和配置文件,所述数据上传控件用于将输入的模型文件和配置文件上传至所述AI模型推理平台,以使所述AI模型推理平台进行模型部署,并更新所述AI模型列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210325959.7A CN114706518A (zh) | 2022-03-30 | 2022-03-30 | Ai模型推理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210325959.7A CN114706518A (zh) | 2022-03-30 | 2022-03-30 | Ai模型推理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114706518A true CN114706518A (zh) | 2022-07-05 |
Family
ID=82171051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210325959.7A Pending CN114706518A (zh) | 2022-03-30 | 2022-03-30 | Ai模型推理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114706518A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024012303A1 (zh) * | 2022-07-12 | 2024-01-18 | 维沃移动通信有限公司 | 一种ai网络模型交互方法、装置和通信设备 |
TWI842515B (zh) * | 2022-12-06 | 2024-05-11 | 旺宏電子股份有限公司 | 記憶體裝置的操作方法及記憶體裝置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414233A (zh) * | 2020-03-20 | 2020-07-14 | 京东数字科技控股有限公司 | 一种在线模型推理系统 |
CN112270410A (zh) * | 2020-10-19 | 2021-01-26 | 北京达佳互联信息技术有限公司 | 在线推理服务系统、提供在线推理服务的方法及装置 |
CN112711603A (zh) * | 2020-12-30 | 2021-04-27 | 广东粤云工业互联网创新科技有限公司 | 基于云端的工件检测方法及系统、计算机可读存储介质 |
CN113139660A (zh) * | 2021-05-08 | 2021-07-20 | 北京首都在线科技股份有限公司 | 模型推理方法、装置、电子设备及存储介质 |
CN114004328A (zh) * | 2020-07-27 | 2022-02-01 | 华为技术有限公司 | Ai模型更新的方法、装置、计算设备和存储介质 |
-
2022
- 2022-03-30 CN CN202210325959.7A patent/CN114706518A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414233A (zh) * | 2020-03-20 | 2020-07-14 | 京东数字科技控股有限公司 | 一种在线模型推理系统 |
CN114004328A (zh) * | 2020-07-27 | 2022-02-01 | 华为技术有限公司 | Ai模型更新的方法、装置、计算设备和存储介质 |
CN112270410A (zh) * | 2020-10-19 | 2021-01-26 | 北京达佳互联信息技术有限公司 | 在线推理服务系统、提供在线推理服务的方法及装置 |
CN112711603A (zh) * | 2020-12-30 | 2021-04-27 | 广东粤云工业互联网创新科技有限公司 | 基于云端的工件检测方法及系统、计算机可读存储介质 |
CN113139660A (zh) * | 2021-05-08 | 2021-07-20 | 北京首都在线科技股份有限公司 | 模型推理方法、装置、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024012303A1 (zh) * | 2022-07-12 | 2024-01-18 | 维沃移动通信有限公司 | 一种ai网络模型交互方法、装置和通信设备 |
TWI842515B (zh) * | 2022-12-06 | 2024-05-11 | 旺宏電子股份有限公司 | 記憶體裝置的操作方法及記憶體裝置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016165615A1 (zh) | 一种即时视频中的表情特效动画加载方法和电子设备 | |
CN114706518A (zh) | Ai模型推理方法 | |
CN111881401A (zh) | 基于WebAssembly的浏览器深度学习方法及系统 | |
US20230072759A1 (en) | Method and apparatus for obtaining virtual image, computer device, computer-readable storage medium, and computer program product | |
CN111667557B (zh) | 动画制作方法及装置、存储介质、终端 | |
CN112866577B (zh) | 图像的处理方法、装置、计算机可读介质及电子设备 | |
CN113486785A (zh) | 基于深度学习的视频换脸方法、装置、设备及存储介质 | |
CN113535541A (zh) | 一种测试方法、装置、存储介质和计算机设备 | |
CN111298434B (zh) | 业务处理方法、装置、设备及存储介质 | |
CN114218052A (zh) | 一种业务交互图生成方法、装置、设备及存储介质 | |
CN113572822A (zh) | 一种云终端模拟控制方法、装置、存储介质及电子设备 | |
CN114979730A (zh) | 传屏交互方法、装置、计算机设备和存储介质 | |
CN112307925A (zh) | 图像检测方法、图像显示方法、相关设备及存储介质 | |
CN117079651A (zh) | 一种基于大规模语言模型的语音交叉实时增强现实方法 | |
CN111966931A (zh) | 控件的渲染方法及装置 | |
CN116401462A (zh) | 应用于数字化共享的互动数据分析方法及系统 | |
CN113590564B (zh) | 数据存储方法、装置、电子设备及存储介质 | |
CN114095758B (zh) | 云图像截取方法、相关装置 | |
US11928762B2 (en) | Asynchronous multi-user real-time streaming of web-based image edits using generative adversarial network(s) | |
CN115686458A (zh) | 虚拟世界应用的开发方法及装置 | |
CN112702625B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN113709575B (zh) | 视频编辑处理方法、装置、电子设备及存储介质 | |
CN112165626A (zh) | 图像处理方法、资源获取方法、相关设备及介质 | |
CN112118410B (zh) | 业务处理方法、装置、终端及存储介质 | |
CN113360199A (zh) | 游戏预加载剧本的方法、装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |