CN113822322A - 图像处理模型训练方法及文本处理模型训练方法 - Google Patents
图像处理模型训练方法及文本处理模型训练方法 Download PDFInfo
- Publication number
- CN113822322A CN113822322A CN202110801987.7A CN202110801987A CN113822322A CN 113822322 A CN113822322 A CN 113822322A CN 202110801987 A CN202110801987 A CN 202110801987A CN 113822322 A CN113822322 A CN 113822322A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- information
- data
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 422
- 238000012545 processing Methods 0.000 title claims abstract description 346
- 238000000034 method Methods 0.000 title claims abstract description 190
- 230000008569 process Effects 0.000 claims description 66
- 238000012360 testing method Methods 0.000 claims description 59
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000007405 data analysis Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 88
- 238000000605 extraction Methods 0.000 description 25
- 238000004590 computer program Methods 0.000 description 24
- 230000005236 sound signal Effects 0.000 description 21
- 230000015654 memory Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 238000010801 machine learning Methods 0.000 description 16
- 239000012634 fragment Substances 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 238000003709 image segmentation Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 239000000919 ceramic Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种图像处理模型训练方法及文本处理模型训练方法,属于计算机技术领域。该方法包括:获取输入的模型配置信息,所述模型配置信息包括模型结构信息和第一图像数据信息;基于所述模型配置信息调用模型训练框架,执行如下步骤:基于所述模型结构信息创建满足所述模型结构的图像处理模型,基于所述第一图像数据信息获取第一图像数据,以及基于所述第一图像数据训练所述图像处理模型。该方法通过调用模型训练框架来创建图像处理模型和训练图像处理模型,无需用户编写图像处理模型的程序,提高了生成可使用的图像处理模型的效率。
Description
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种图像处理模型训练方法及文本处理模型训练方法。
背景技术
随着计算机技术的发展和机器学习技术的广泛应用,产生了越来越多的机器学习模型。通常在生成可使用的机器学习模型时,首先需要技术人员编写机器学习模型的程序,通过运行该程序创建该机器学习模型,然后基于训练数据训练该机器学习模型,训练完成后即可使用该机器学习模型。但是,机器学习模型的创建和训练过程需要耗费较长的时间,导致生成可使用的机器学习模型的效率较低。
发明内容
本申请实施例提供了一种图像处理模型训练方法及文本处理模型训练方法,提高了生成可使用的机器学习模型的效率。所述技术方案如下:
一方面,提供了一种图像处理模型训练方法,所述方法包括:
获取输入的模型配置信息,所述模型配置信息包括模型结构信息和第一图像数据信息,所述模型结构信息指示待训练的图像处理模型的模型结构,所述第一图像数据信息指示用于训练图像处理模型的第一图像数据;
基于所述模型配置信息调用模型训练框架,执行如下步骤:
基于所述模型结构信息创建满足所述模型结构的图像处理模型,基于所述第一图像数据信息获取所述第一图像数据,以及基于所述第一图像数据训练所述图像处理模型。
可选地,所述模型配置信息还包括模型存储路径,所述生成包含所述目标模型的模型文件之后,所述方法还包括:
在所述模型存储路径下存储所述模型文件。
另一方面,提供了一种文本处理模型训练方法,所述方法包括:
获取输入的模型配置信息,所述模型配置信息包括模型结构信息和第一文本数据信息,所述模型结构信息指示待训练的文本处理模型的模型结构,所述第一文本数据信息指示用于训练文本处理模型的第一文本数据;
基于所述模型配置信息调用模型训练框架,执行如下步骤:
基于所述模型结构信息创建满足所述模型结构的文本处理模型,基于所述第一文本数据信息获取所述第一文本数据,以及基于所述第一文本数据训练所述文本处理模型。
另一方面,提供了一种音频处理模型训练方法,所述方法包括:
获取输入的模型配置信息,所述模型配置信息包括模型结构信息和第一音频数据信息,所述模型结构信息指示待训练的音频处理模型的模型结构,所述第一音频数据信息指示用于训练音频处理模型的第一音频数据;
基于所述模型配置信息调用模型训练框架,执行如下步骤:
基于所述模型结构信息创建满足所述模型结构的音频处理模型,基于所述第一音频数据信息获取所述第一音频数据,以及基于所述第一音频数据训练所述音频处理模型。
另一方面,提供了一种模型训练方法,所述方法包括:
获取输入的模型配置信息,所述模型配置信息包括模型结构信息和训练数据信息,所述模型结构信息指示待训练模型的模型结构,所述训练数据信息指示用于训练模型的训练数据;
基于所述模型配置信息调用模型训练框架,执行如下步骤:
基于所述模型结构信息创建满足所述模型结构的目标模型,基于所述训练数据信息获取所述训练数据,以及基于所述训练数据训练所述目标模型。
另一方面,提供了一种图像处理模型训练装置,所述装置包括:
配置信息获取模块,用于获取输入的模型配置信息,所述模型配置信息包括模型结构信息和第一图像数据信息,所述模型结构信息指示待训练的图像处理模型的模型结构,所述第一图像数据信息指示用于训练图像处理模型的第一图像数据;
框架调用模块,用于基于所述模型配置信息调用模型训练框架;
第一训练模块,用于基于所述模型结构信息创建满足所述模型结构的图像处理模型,基于所述第一图像数据信息获取所述第一图像数据,以及基于所述第一图像数据训练所述图像处理模型。
可选地,所述模型训练框架包括数据读取接口,所述第一图像数据信息为所述第一图像数据的存储路径,所述第一训练模块,包括:
图像数据获取单元,用于调用所述数据读取接口,读取所述存储路径下存储的所述第一图像数据。
可选地,所述模型训练框架还包括数据解析接口,所述第一训练模块,还包括:
数据格式转换单元,用于调用所述数据解析接口,将所述第一图像数据包括的样本图像的图像格式转换为目标图像格式,所述目标图像格式为所述图像处理模型支持的图像格式。
可选地,所述模型配置信息还包括组合信息,所述组合信息指示所述图像处理模型的第一图像数据中的多个样本图像的组合方式,所述模型训练框架还包括数据组合接口,所述第一训练模块,还包括:
数据组合单元,用于调用所述数据组合接口,对所述多个所述样本图像按照所述组合信息进行组合。
可选地,所述第一训练模块,还包括:
文件格式转换单元,用于响应于存储所述第一图像数据的文件的文件格式不属于目标文件格式,调用格式转换接口,将所述文件格式转换为所述目标文件格式。
可选地,所述模型训练框架包括多个备选网络层,所述模型结构信息包括待训练的图像处理模型中的各个网络层的描述信息及所述各个网络层之间的连接关系信息,所述第一训练模块,包括:
模型创建单元,用于从所述多个备选网络层中选取符合每个所述描述信息的目标层;
所述模型创建单元,还用于将选取的多个所述目标层按照所述连接关系信息进行连接,构成所述图像处理模型。
可选地,所述多个备选网络层包括多个表示层,所述表示层用于提取输入的数据的特征,所述模型创建单元,用于基于所述模型配置信息中的表示层描述信息,从所述多个表示层中选取符合所述表示层描述信息的目标表示层。
可选地,所述多个备选网络层包括多个任务层,所述任务层用于对输入的特征进行处理,所述模型创建单元,用于基于所述模型配置信息中的任务层描述信息,从所述多个任务层中选取符合所述任务层描述信息的目标任务层。
可选地,所述模型配置信息还包括损失函数,所述第一训练模块,包括:
模型训练单元,用于调用所述图像处理模型,对所述第一图像数据进行处理,得到第一预测结果;
所述模型训练单元,还用于基于所述第一预测结果和所述损失函数,训练所述图像处理模型。
可选地,所述模型配置信息还包括第二图像数据信息,所述第二图像数据信息指示用于测试图像处理模型的第二图像数据,所述装置还包括:
模型测试模块,用于基于所述第二图像数据信息获取所述第二图像数据;
所述模型测试模块,还用于调用所述图像处理模型,对所述第二图像数据进行处理,得到第二预测结果;
所述模型测试模块,还用于基于所述第二预测结果,确定所述图像处理模型的测试结果。
可选地,所述模型配置信息还包括第三图像数据信息,所述第三图像数据信息指示待处理的第三图像数据,所述装置还包括:
模型使用模块,用于基于所述第三图像数据信息获取所述第三图像数据;
所述模型使用模块,还用于调用所述图像处理模型,对所述第三图像数据进行处理。
可选地,所述装置还包括:
模型文件生成模块,用于生成包含所述图像处理模型的模型文件。
可选地,所述装置还包括:
模型文件存储模块,用于在所述模型存储路径下存储所述模型文件。
另一方面,提供了一种文本处理模型训练装置,所述装置包括:
配置信息获取模块,用于获取输入的模型配置信息,所述模型配置信息包括模型结构信息和第一文本数据信息,所述模型结构信息指示待训练的文本处理模型的模型结构,所述第一文本数据信息指示用于训练文本处理模型的第一文本数据;
框架调用模块,用于基于所述模型配置信息调用模型训练框架;
第二训练模块,用于基于所述模型结构信息创建满足所述模型结构的文本处理模型,基于所述第一文本数据信息获取所述第一文本数据,以及基于所述第一文本数据训练所述文本处理模型。
另一方面,提供了一种音频处理模型训练装置,所述装置包括:
配置信息获取模块,用于获取输入的模型配置信息,所述模型配置信息包括模型结构信息和第一音频数据信息,所述模型结构信息指示待训练的音频处理模型的模型结构,所述第一音频数据信息指示用于训练音频处理模型的第一音频数据;
框架调用模块,用于基于所述模型配置信息调用模型训练框架;
第三训练模块,用于基于所述模型结构信息创建满足所述模型结构的音频处理模型,基于所述第一音频数据信息获取所述第一音频数据,以及基于所述第一音频数据训练所述音频处理模型。
另一方面,提供了一种模型训练装置,所述装置包括:
配置信息获取模块,用于获取输入的模型配置信息,所述模型配置信息包括模型结构信息和训练数据信息,所述模型结构信息指示待训练模型的模型结构,所述训练数据信息指示用于训练模型的训练数据;
框架调用模块,用于基于所述模型配置信息调用模型训练框架;
模型训练模块,用于基于所述模型结构信息创建满足所述模型结构的目标模型,基于所述训练数据信息获取所述训练数据,以及基于所述训练数据训练所述目标模型。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以实现如上述方面所述的图像处理模型训练方法、文本处理模型训练方法、音频处理模型训练方法或模型训练方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以实现如上述方面所述的图像处理模型训练方法、文本处理模型训练方法、音频处理模型训练方法或模型训练方法中所执行的操作。
另一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码,处理器执行所述计算机程序代码,使得所述计算机设备实现如上述方面所述的图像处理模型训练方法、文本处理模型训练方法、音频处理模型训练方法或模型训练方法中所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的方案,在获取到输入的模型配置信息后,直接基于该模型配置信息调用模型训练框架,来创建图像处理模型,对该图像处理模型进行训练,无需用户编写图像处理模型的程序,提高了创建图像处理模型的效率,且该模型训练框架还能够直接对创建的图像处理模型进行训练,从而提高了生成可使用的图像处理模型的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种模型训练方法的流程图;
图2是本申请实施例提供的另一种模型训练方法的流程图;
图3是本申请实施例提供的一种模型配置的示意图;
图4是本申请实施例提供的一种模型训练框架的示意图;
图5是本申请实施例提供的一种框架结构的示意图;
图6是本申请实施例提供的一种模型测试的流程图;
图7是本申请实施例提供的一种模型使用的流程图;
图8是本申请实施例提供的一种图像处理模型训练方法的示意图;
图9是本申请实施例提供的一种文本处理模型训练方法的示意图;
图10是本申请实施例提供的一种音频处理模型训练方法的示意图;
图11是本申请实施例提供的一种图像处理模型训练装置的结构示意图;
图12是本申请实施例提供的另一种图像处理模型训练装置的结构示意图;
图13是本申请实施例提供的一种文本处理模型训练装置的结构示意图;
图14是本申请实施例提供的一种音频处理模型训练装置的结构示意图;
图15是本申请实施例提供的一种模型训练装置的结构示意图;
图16是本申请实施例提供的一种终端的结构示意图;
图17是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可以将第一预测结果称为第二预测结果,将第二预测结果称为第一预测结果。
本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个网络层包括3个网络层,而每个网络层是指这3个网络层中的每一个网络层,任一是指这3个网络层中的任意一个,可以是第一个,可以是第二个,也可以是第三个。
为了便于理解本申请实施例,先对本申请实施例涉及到的关键词进行解释:
ML(MachineLearning,机器学习):机器学习是指用机器学习以前的经验,属于人工智能的一个分支。与传统的编程不同的是,开发人员需要预测每一个潜在的条件进行编程,一个机器学习的解决方案可以有效地基于数据来适应输出的结果。
NLP(Natural Language Processing,自然语言处理):采用计算机设备来处理、理解以及运用人类语言(如中文、英文等),属于人工智能的一个分支。
预训练:预训练是通过大量无标注的语言文本进行语言模型的训练,得到一套模型参数,利用这套参数对模型进行初始化,再根据需要实现的任务在现有语言模型的基础上进行精调。预训练的方法在自然语言处理的分类和标记任务中,都被证明拥有更好的效果。目前,热门的预训练方法包括ELMo(Embeddings from Language Models,嵌入式语言模型)、OpenAI GPT(一种语言模型)和BERT(Bidirectional Encoder Representations fromTransformers,来自变压器的双向编码器表示)等。
TFRecord(一种数据格式):TFRecord是一种二进制文件,能够更好地利用内存,TFRecord内部包含了多个tf.train.Example,而Example(举例)是protocol buffer(protobuf)数据标准的实现,在一个Example消息体中包含了一系列的tf.train.feature属性,而每一个feature是一个key-value的键值对,其中,key(键)是string类型,而value的取值有三种:bytes_list、float_list、int64_list。
Batch处理(批处理):由于GPU(Graphics Processing Unit,图像处理器)并发处理能力非常强,通过数据集需要获取一批数据集,同时传给GPU进行运算,来获得最好地利用GPU性能。
One-Hot Encoding(独热编码):使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。
本申请实施例提供的图像处理模型训练方法、文本处理模型训练方法、音频处理模型训练方法或模型训练方法应用于计算机设备,该计算机设备为终端,该终端为电脑、手机、平板电脑或者其他类型的终端,或者,该计算机设备为服务器。可选地,该服务器是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
本申请实施例中,计算机设备中安装模型训练框架,基于输入的模型配置信息调用该模型训练框架执行模型训练过程。下面对计算机设备调用模型训练框架来训练模型的过程进行说明。
图1是本申请实施例提供的一种模型训练方法的流程图。本申请实施例的执行主体为计算机设备。参见图1,该方法包括以下步骤:
101、计算机设备获取输入的模型配置信息,该模型配置信息包括模型结构信息和训练数据信息。
其中,模型配置信息为用户基于该计算机设备输入的,或者是其他计算机设备发送给该计算机设备的,本申请实施例对模型配置信息的获取方式不做限制。模型结构信息指示待训练模型的模型结构,训练数据信息指示用于训练模型的训练数据。
102、计算机设备基于模型配置信息调用模型训练框架。
计算机设备中安装有模型训练框架,该模型训练框架可用于创建模型、训练模型、测试模型、使用模型、导出模型文件或用于执行与模型相关的其他操作、计算机设备获取到模型配置信息后,自动调用该模型训练框架,以使该模型训练框架能够按照该模型配置信息来训练相应的模型。
103、计算机设备调用模型训练框架,基于模型结构信息创建满足模型结构的目标模型,基于训练数据信息获取训练数据,以及基于训练数据训练目标模型。
计算机设备调用模型训练框架,首先基于模型结构信息创建满足模型结构的目标模型,也即是计算机设备基于模型结构信息,确定待训练的目标模型的模型结构,基于该模型训练框架内部提供的模型结构来创建目标模型,然后基于训练数据信息获取训练数据,再基于训练数据训练该目标模型。
本申请实施例提供的方法,在获取到输入的模型配置信息后,直接基于该模型配置信息调用模型训练框架,来创建目标模型,对该目标模型进行训练,无需用户编写目标模型的程序,提高了创建目标模型的效率,且该模型训练框架还能够直接对创建的目标模型进行训练,从而提高了生成可使用的目标模型的效率。并且,本申请提供的模型训练框架对待训练的模型没有限制,能够训练任意类型的模型,应用范围广泛。
上述图1所示的实施例中简单介绍了模型训练过程,下面通过图2所示的实施例对调用模型训练框架,来训练目标模型的过程进行详细说明。
图2是本申请实施例提供的一种模型训练方法的流程图。本申请实施例的执行主体为计算机设备。参见图2,该方法包括以下步骤:
201、计算机设备获取输入的模型配置信息。
其中,模型配置信息包括模型结构信息和训练数据信息,该模型结构信息指示待训练的模型结构,训练数据信息指示用于训练模型的训练数据,该训练数据为任一类型的数据,例如训练数据为图像、文本、音频、视频或其他类型的数据。
在一种可能实现方式中,模型结构信息包括待训练模型中的各个网络层的描述信息及各个网络层之间的连接关系信息。其中,网络层的描述信息指示待训练模型中需使用的网络层,各个网络层之间的连接关系信息指示各个网络层之间连接。网络层包括任务层和表示层,其中表示层用于提取的输入数据的特征,任务层用于对输入的特征进行处理。
在一种可能实现方式中,模型结构信息包括至少一个表示层,可选地,模型结构信息包括多个表示层时,该多个表示层之间相互连接,例如参见图3,模型结构信息包括表示层1、表示层2和表示层3,将数据分别输入至表示层1和表示层2,再将表示层1和表示层2的输出作为表示层3的输入,将表示层3和表示层2的输出作为任务层的输入;或者该多个表示层之间互不连接,例如模型结构信息包括表示层4和表示层5,将数据分别输入至表示层4和表示层5,将表示层4和表示层5的输出作为任务层的输入。
在一种可能实现方式中,模型结构信息包至少一个任务层,可选地,模型结构信息包括多个任务层时,该多个任务层之间相互连接,例如,模型结构信息包括任务层1和任务层2,将表示层的输出作为任务层1的输入,再将任务层1的输出作为任务层2的输入,该任务层2的输出即为目标模型的输出;或者,该多个任务层之间互不连接,模型结构信息包括任务层3和任务层4,将表示层的输出分别输入至任务层3和任务层4,将任务层3和任务层4的输出作为目标模型的输出。
在一种可能实现方式中,训练数据信息为训练数据的存储路径,该存储路径为当前计算机设备中的存储路径,或者为与该计算机设备连接的其他计算机设备中的存储路径,例如,存储路径为与该计算机设备连接的云存储服务器中的存储路径。或者,训练数据信息为训练数据。可选地,训练数据信息包括一个或多个存储路径。
可选地,采用无监督学习方式训练目标模型的情况下,训练数据包括目标模型的至少一条样本输入数据;采用有监督学习方式训练目标模型的情况下,训练数据包括目标模型的至少一条样本输入数据和对应的样本结果。
在另一实施例中,参见图3所示的模型配置的框架结构,该模型配置的框架提供了获取模型配置信息的各项功能,该模型配置的框架包括结构配置功能301、数据配置功能302、运行配置功能303和训练配置功能304。其中结构配置功能301用于配置待训练模型的模型结构信息;数据配置功能302用于配置数据信息,数据配置功能302进一步包括插件名配置功能、数据列配置功能、描述文件配置功能、训练数据配置功能、测试数据配置功能和预测数据配置功能,插件名配置功能用于配置需调用的插件的插件标识,数据列配置功能用于配置组合信息,该组合信息指示数据中多条子数据的组合方式,例如,组合信息是一个配置列表,描述文件配置功能用于配置数据格式,训练数据配置功能用于配置训练数据信息,测试数据配置功能用于配置测试数据信息,预测数据配置功能用于配置测试数据信息;运行配置功能303用于配置运行模型训练框架的过程中的信息,运行配置功能303进一步包括生成文件路径配置功能、训练速度配置功能和导出模型类型配置功能,其中生成文件路径配置功能用于配置模型文件的文件存储路径,训练速度配置用于配置模型训练速度,例如配置debug处于开启状态还是关闭状态,处理开启状态时,快速训练模型,导出模型类型配置功能用于配置导出的模型文件的类型;训练配置功能304用于配置模型的训练信息,该训练配置功能304进一步包括迭代次数配置功能、优化器功能和迭代器功能,其中迭代次数配置功能用于配置训练模型的迭代次数,优化器功能用于配置训练过程中梯度下降的策略,迭代器功能用于配置训练过程中学习率动态调整的策略。
可选地,模型配置还包括自定义配置功能,即用户能够设置除上述模型配置信息之外的其他配置信息,例如,模型训练框架中不包括待训练模型中的某个网络层,则用户可通过自定义配置功能在模型训练框架中配置该网络层。也就是说,自定义配置功能能够实现一些当前的模型训练框架中不包括的内容,进一步扩展该模型训练框架的应用。
需要说明的一点是,上述待创建的目标模型为任一模型。
需要说明的另一点是,模型配置信息为用户基于当前计算机设备输入的,或者是其他计算机设备发送给该计算机设备的,本申请实施例对模型配置信息的获取方式不做限制。
202、计算机设备基于模型配置信息调用模型训练框架。
本申请实施例中,模型训练框架是计算机设备中安装的,例如,计算机设备下载模型训练框架的安装包,在该计算机设备中安装该模型训练框架。
在一种可能实现方式中,计算机设备获取到模型配置信息后,在已安装模型训练框架的情况下,自动基于模型配置信息调用模型训练框架。在未安装模型训练框架的情况下,提示用户当前计算机设备未安装模型训练框架,先安装模型训练框架,再基于模型配置信息调用该模型训练框架。
在一种可能实现方式中,模型训练框架的框架结构参见图4,该模型训练框架包括配置单元401、插件单元402、训练器403、评估器404和预测器405,该配置单元401用于存储输入的模型配置信息,该插件单元402用于为模型的创建、训练、测试和使用过程提供所需的插件。其中,插件单元402至少包括插件中心、数据加载器、数据解析器、数据采样器、模型创建层、第一创建层、第二创建层、损失函数、存储器、迭代器、优化器、评估函数和第三创建层。其中插件中心用于管理插件单元402中的各个插件,除插件中心之外的插件均能够从模型配置信息中获取相应的配置。对于各个插件的功能在下述实施例中进行详细说明。
另外,训练器403、评估器404和预测器405是对从插件中心获取的多个插件进行组合得到的。例如,训练器403是对模型创建层、第一创建层、第二创建层、第三创建层、损失函数、迭代器和优化器进行组合得到的。
203、计算机设备调用模型训练框架,基于模型结构信息创建满足模型结构的目标模型。
模型训练框架包括多个备选网络层,基于模型结构信息中各个网络层的描述信息及各个网络层之间的连接关系信息,创建目标模型。其中,描述信息用于描述对应的网络层,连接关系信息指示各个网络层之间的连接关系。
在一种可能实现方式中,描述信息指示用于创建目标模型所需的网络层,计算机设备从多个备选网络层中选取符合每个描述信息的目标层,例如,每个备选网络层具有对应的层标识,描述信息即为该层标识,计算机设备基于层标识,确定目标模型中包括的目标层。连接关系信息指示各个目标层之间如何进行连接,计算机设备将选取的多个目标层按照连接关系信息进行连接,构成目标模型,例如,描述信息为网络层1、网络层2、网络层3和网络层4对应的层标识,表示选择这四个层标识对应的网络层来创建模型,连接关系信息指示网络层1与网络层3连接,网络层2与网络层3连接,网络层3与网络层4连接,则基于该连接关系信息将网络层1、网络层2、网络层3和网络层4进行连接,得到目标模型。
在一种可能实现方式中,多个备选网络层包括多个表示层的情况下,计算机设备基于模型配置信息中的表示层描述信息,从多个表示层中选取符合表示层描述信息的目标表示层。其中,表示层描述信息用于描述对应的表示层。
在一种可能实现方式中,多个备选网络层包括多个任务层的情况下,计算机设备基于模型配置信息中的任务层描述信息,从多个任务层中选取符合任务层描述信息的目标任务层。其中,任务层描述信息用于描述对应的任务层。
其中,表示层和任务层可以是一个单独的卷积层、融合层、池化层或机器学习模型中其他的网络层,或者也可以是多个单独的网络层组合在一起得到的特征提取层、分类层或其他能够实现某些功能的网络层。本申请实施例对表示层和任务层的结构不做限制。
在一种可能实现方式中,调用模型训练框架中的第一创建层、第二创建层、第三创建层和模型创建层,基于模型结构信息,创建目标模型。即调用第一创建层,从模型训练框架包括的多个表示层中选取目标表示层,调用第二创建层,从模型训练框架包括的多个任务层中选取目标任务层,调用第三创建层,将目标表示层和目标任务层组合在一起,调用模型创建层,创建目标模型。
204、计算机设备调用模型训练框架,基于训练数据信息获取训练数据。
本申请实施例中,训练数据信息为训练数据或者为训练数据的存储路径,训练数据信息为训练数据的情况下,计算机设备直接从输入的模型配置信息中获取训练数据,训练数据信息为训练数据的存储路径的情况下,计算机设备基于该存储路径获取训练数据。
在一种可能实现方式中,训练数据信息为训练数据的存储路径,模型训练框架包括数据读取接口,计算机设备调用数据读取接口,读取存储路径下存储的训练数据。例如,数据读取接口为io_reader_base。可选地,计算机设备调用数据读取接口及该数据接口对应的数据加载器读取训练数据。
在一种可能实现方式中,目标模型支持的数据格式是固定的,例如目标模型能够处理WAV(Windows Media Audio,波形声音文件)的音频格式,而存储路径下存储的音频为MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)格式,则需要对音频进行格式转换。这种情况下,模型训练框架还包括数据解析接口,计算机设备调用数据解析接口,将训练数据的数据格式转换为目标数据格式。其中,目标数据格式为目标模型支持的数据格式,即目标数据格式为目标模型能够处理的数据格式。例如,数据解析接口为parse(解析)接口。可选地,计算机设备调用数据解析接口及该数据解析接口对应的数据解析器对训练数据进行解析。
在一种可能实现方式中,目标模型的输入不是单一的,例如目标模型为图像处理模型,该图像处理模型需要对原始图像和目标图像进行处理,以识别出目标图像与原始图像中不同的区域,此时需要输入原始图像和目标图像。这种情况下,模型训练框架还包括数据组合接口,模型配置信息还包括组合信息,组合信息指示目标模型的训练数据中的多条训练子数据的组合方式,计算机设备调用数据组合接口,对训练数据中的多条训练子数据按照组合信息进行组合。例如,样本原始图像集中包括多个样本原始图像,样本目标图像集中包括多个样本目标图像,则计算机设备基于组合信息,从多个样本原始图像中选取样本原始图像,再从多个样本目标图像中选取对应的样本目标图像,将选取的样本原始图像和样本目标图像作为目标模型的输入。例如,数据组合接口为collate(排列规则)接口。
在一种可能实现方式中,无需采用全部训练数据来训练目标模型,此时需要对训练数据进行采用,从多条训练子数据中选取用于训练目标模型的训练子数据。模型训练框架还包括数据采样接口,计算机设备调用数据采样接口,从多个训练子数据中选取用于训练目标模型的训练子数据。例如,数据采用接口为Sample(采样)接口。可选地,计算机设备调用数据采样接口及该数据采样接口对应的数据采样器对训练数据进行采样。
在一种可能实现方式中,模型训练框架还包括格式转换接口,计算机设备响应于存储训练数据的文件的文件格式不属于目标文件格式,调用格式转换接口,将文件格式转换为目标文件格式。例如,模型训练框架中数据读取接口支持的文件格式为tfrecord,则在文件格式为第三方自定义格式的情况下,先调用格式转换接口(新的io_reader接口)将文件格式转换为tfrecord,再对转换后的文件进行读取,得到训练数据。
需要说明的是,本申请实施例仅是以上述实施方式对获取训练数据的过程进行说明,在另一实施例中,在不需要对数据进行组合的情况下,无需执行调用数据组合接口的过程,在不需要对文件进行格式转换的情况下,无需执行调用格式转换接口的过程。
205、计算机设备调用模型训练框架,基于训练数据训练目标模型。
计算机设备调用模型训练框架,创建目标模型,以及获取到训练数据后,训练该目标模型。
模型配置信息还包括损失函数,在一种可能实现方式中,采用无监督学习方式训练目标模型的情况下,计算机设备调用目标模型,对训练数据包括的样本输入数据进行处理,得到第一预测结果;基于第一预测结果和损失函数,训练目标模型。也即是将第一预测结果输入至损失函数中,基于损失函数的输出结果的大小,调整目标模型的参数。
在另一种可能实现方式中,采用有监督学习方式训练目标模型的情况下,计算机设备调用目标模型,对样本输入数据进行处理,得到第一预测结果;基于第一预测结果、样本输入数据对应的样本结果和损失函数,训练目标模型。
在一种可能实现方式中,模型配置信息还包括迭代次数和学习率,计算机设备调用模型训练框架,按照该迭代次数对目标模型进行训练,直至达到该迭代次数,结束对目标模型的训练,且在训练过程中,按照该学习率,调整目标模型的参数。
需要说明的是,对于不同的目标模型,可采用不同的损失函数进行训练,本申请实施例对损失函数不做限制。
在一种可能实现方式中,本申请实施例中模型训练框架对应的框架结构参见图5,该框架结构包括配置获取单元501、第一功能单元502和第二功能单元503,配置获取单元501用于获取框架默认的模型配置信息和用户自定义的配置信息,第一功能单元502用于基于获取的配置信息,调用对应的接口来获取训练数据、创建目标模型,第二功能单元503用于基于训练器训练目标模型,计算机设备通过这三个单元能够实现上述创建模型和训练模型的过程。另外,该第一功能单元502还用于获取测试数据,第二功能单元503还用于基于评估器测试目标模型;第一功能单元502还用于获取目标数据,第二功能单元分503还用于基于预测器调用目标模型对目标数据进行预测,计算机设备通过这三个单元测试模型和基于模型进行预测的过程详见下述实施例。
其中,该配置获取单元501包括用于实现获取配置信息的模块;第一功能单元502包括用于实现数据加载功能的模块、创建模型功能的模块、训练功能的模块、评估功能的模块和存储功能的模块,其中数据加载功能包括分布式数据并行处理功能、数据并行处理功能、数据集接口的功能、采用接口的功能、数据解析接口的功能和格式转换接口的功能,模型创建功能包括表示层确定功能和任务层确定功能,该表示层确定功能至少能够确定基于计算机视觉的表示层或基于自然语言处理的表示层,该任务层确定功能至少能够实现对多个任务层的融合,训练功能包括基于优化器提供的梯度优化策略对模型进行优化的功能和基于迭代器提供的学习率调整策略对模型的学习率进行调整的功能,评估功能至少能够基于准确率、精确率、召回率对模型进行评估,存储功能至少能够提供存储路径或提供与存储路径相关的工具包;第二功能单元503包括用于实现训练器的功能的模块、评估器的功能的模块和预测器的功能的模块。
本申请实施例提供的方法,在获取到输入的模型配置信息后,直接基于该模型配置信息调用模型训练框架,来创建目标模型,对该目标模型进行训练,无需用户编写目标模型的程序,提高了创建目标模型的效率,且该模型训练框架还能够直接对创建的目标模型进行训练,从而提高了生成可使用的目标模型的效率。并且,本申请提供的模型训练框架对待训练的模型没有限制,能够训练任意类型的模型,应用范围广泛。
并且,本申请实施例中的模型配置信息指示了训练模型时所使用的各个数据接口,且指示了构建模型的各个网络层,使模型描述清晰易懂,使模型训练框架能够基于模型配置信息快速创建目标模型,以及训练目标模型。
上述图2所示的实施例仅是以调用模型训练框架训练目标模型为例进行说明,在另一实施例中,计算机设备调用模型训练框架训练目标模型之后,还能够再调用模型训练框架,基于测试数据测试目标模型。
图6是本申请实施例提供的一种模型测试方法的流程图。本申请实施例的执行主体为计算机设备。参见图6,该方法包括以下步骤:
601、计算机设备调用模型训练框架,基于测试数据信息获取测试数据。
本申请实施例中,模型配置信息包括测试数据信息,获取的测试数据用于测试该目标模型是否已训练完成。该测试数据与上述训练数据属于相同类型,例如测试数据和训练数据均为图像,或者均为文本。
计算机设备获取测试数据的过程与上述图2所示的实施例中获取训练数据的过程同理,在此不再赘述。
602、计算机设备调用模型训练框架,调用目标模型,对测试数据进行处理,得到第二预测结果。
其中,第二预测结果即是将测试数据输入目标模型后,模型的输出结果。
603、计算机设备基于第二预测结果,确定目标模型的测试结果。
计算机设备基于获取到的第二预测结果,确定该目标模型的准确率、精确率、召回率、精确率-召回率-F1、ROC(Receiver Operating Characteristic,受试者工作特征)或其他用于评价模型的指标。计算机设备基于这些指标的大小,确定目标模型的测试结果,该测试结果指示该目标模型是否训练完成可进行使用。
在一种可能实现方式中,计算机设备调用评估器,基于第二预测结果,确定目标模型的测试结果。
在一种可能实现方式中,在测试结果不满足目标条件的情况下,继续训练目标模型,在测试结果满足条件的情况下,可使用该目标模型。其中,目标条件是指目标模型对应的各项指标的大小达到参考阈值,例如准确率达到95%,精确率达到90%等。
本申请实施例提供的方法,在获取到输入的模型配置信息后,直接基于该模型配置信息调用模型训练框架,来创建目标模型,对该目标模型进行训练,无需用户编写目标模型的程序,提高了创建目标模型的效率,且该模型训练框架还能够直接对创建的目标模型进行训练,从而提高了生成可使用的目标模型的效率。并且,本申请提供的模型训练框架对待训练的模型没有限制,能够训练任意类型的模型,应用范围广泛。
并且,在训练模型之后,能够继续调用该模型训练框架完成对目标模型的测试,从而进一步提高了生成可使用的目标模型的效率。
上述图6所示的实施例仅是以调用模型训练框架测试目标模型为例进行说明,在另一实施例中,计算机设备调用模型训练框架测试目标模型之后,在测试结果符合条件时,还能够再调用模型训练框架,使用该目标模型处理数据。
图7是本申请实施例提供的一种模型使用方法的流程图。本申请实施例的执行主体为计算机设备。参见图7,该方法包括以下步骤:
701、计算机设备调用模型训练框架,基于目标数据信息获取目标数据。
本申请实施例中,模型配置信息包括目标数据信息,获取的目标数据为待处理的数据,该目标数据与上述训练数据属于相同类型,例如目标数据和训练数据均为图像,或者均为文本。
计算机设备获取目标数据的过程与上述图2所示的实施例中获取训练数据的过程同理,在此不再赘述。
702、计算机设备调用模型训练框架,调用目标模型,对目标数据进行处理。
计算机设备调用目标模型对目标数据进行处理,输出处理结果,从而实现对目标模型的使用。
在一种可能实现方式中,计算机设备调用预测器,调用目标模型,对目标数据进行处理。
在一种可能实现方式中,计算机设备训练目标模型之后,还能够生成包含目标模型的模型文件。在模型配置信息还包括模型存储路径的情况下,在模型存储路径下存储该模型文件,以使后续能够在其他计算机设备中使用该模型文件。其中,计算机设备可生产任一类型的模型文件,从而使生成的模型文件可以应用于不同的场景下。
在一种可能实现方式中,模型配置信息还包括文件类型信息,该文件类型信息至少生成的模型文件的类型,计算机设备基于该文件类型信息,生成对应类型的模型文件。
在一种可能实现方式中,生成的模型文件为Serving文件,该Serving文件包括目标模型对应的二进制文件、Serving文件的相关配置、目标模型的前后预处理的相关逻辑以及模型配置信息。其中目标模型的前后预处理的相关逻辑是指目标模型的输入在输入模型前需要进行的预处理,以及目标模型的输出需要进行的预处理。例如,model目录下存放了模型的二进制文件;model_config.yaml存放serving所需要的相关配置;transformer.py存放模型的前后预处理的相关逻辑;task.yaml存放模型配置信息。Serving文件如下所示:
需要说明的是,计算机设备生成模型文件的过程可以在训练目标模型之后执行,也可以在测试目标模型之后执行,也可以在使用目标模型之后执行,本申请实施例对生成模型文件的时机不做限制。
本申请实施例提供的方法,在获取到输入的模型配置信息后,直接基于该模型配置信息调用模型训练框架,来创建目标模型,对该目标模型进行训练,无需用户编写目标模型的程序,提高了创建目标模型的效率,且该模型训练框架还能够直接对创建的目标模型进行训练,从而提高了生成可使用的目标模型的效率。并且,本申请提供的模型训练框架对待训练的模型没有限制,能够训练任意类型的模型,应用范围广泛。
并且,在训练模型后,能够自动生成模型文件,无需技术人员编写模型文件,且生成任一类型的模型文件,便于后续将该目标模型应用于任一场景下,提高了开发效率,扩展了应用场景。
上述实施例中目标模型可以为任一模型,例如目标模型为图像处理模型、音频处理模型、文本处理模型或其他类型的模型。下面分别以目标模型为图像处理模型、文本处理模型和音频处理模型为例,对调用模型训练框架来训练模型的过程进行说明。
图8是本申请实施例提供的一种图像处理模型训练方法的流程图。本申请实施例的执行主体为计算机设备。参见图8,该方法包括以下步骤:
801、计算机设备获取输入的模型配置信息,该模型配置信息包括模型结构信息和第一图像数据信息。
步骤801与上述步骤201的实施方式同理,区别在于步骤801中获取的训练数据信息为第一图像数据信息,模型结构信息指示待训练的图像处理模型的模型结构。
其中,第一图像数据信息指示用于训练图像处理模型的第一图像数据。可选地,采用无监督学习方式训练图像处理模型的情况下,该第一图像数据包括至少一个样本图像;采用有监督学习方式训练图像处理模型的情况下,该第一图像数据包括至少一个样本图像及对应的样本结果。其中样本结果是指调用图像处理模型对样本图像进行处理后期望得到的结果,例如,图像处理模型用于提取图像中的人脸区域,则样本结果为样本图像中的样本人脸区域;图像处理模型用于对图像进行分类,则样本结果为样本图像对应的样本类别。
在一种可能实现方式中,第一图像数据信息为第一图像数据的存储路径,或者第一图像数据信息即为第一图像数据。可选地,第一图像数据信息包括一个或多个存储路径。
802、计算机设备基于模型配置信息调用模型训练框架。
步骤802与上述步骤202的实施方式同理,在此不再赘述。
803、计算机设备调用模型训练框架,基于模型结构信息创建满足模型结构的图像处理模型。
本申请实施例以图像处理模型用于提取图像中的人脸区域为例进行说明。该图像处理模型包括特征提取层、人脸识别层和图像分割层。其中,特征提取层即用于提取输入的样本图像的图像特征,人脸识别层用于对图像特征进行处理,识别出样本图像中的人脸区域,图像分割层用于从样本图像中分割出该人脸区域。
则模型结构信息包括特征提取层、人脸识别层和图像分割层的描述信息以及特征提取层、人脸识别层和图像分割层之间的连接关系信息,计算机设备从表示层中选取用于提取图像特征的特征提取层,从任务层中选取用于进行人脸识别的人脸识别层和用于进行图像分割的图像分割层,再依次将特征提取层、人脸识别层和图像分割层进行连接,从而得到图像处理模型。
需要说明的是,本申请实施例仅是以一种图像处理模型为例进行说明,在另一实施例中还可以是其他类型的图像处理模型,例如用于识别图像中的病灶区域的图像处理模型或其他图像处理模型,用户能够根据实际应用情况,设置不同的图像处理模型的模型结构信息,以使模型训练框架训练对应的图像处理模型。
804、计算机设备调用模型训练框架,基于第一图像数据信息获取第一图像数据。
在一种可能实现方式中,第一图像数据信息为第一图像数据的存储路径,计算机设备调用数据读取接口,读取该存储路径下存储的第一图像数据。
在一种可能实现方式中,计算机设备读取到第一图像数据后,调用数据解析接口,将第一图像数据包括的样本图像的图像格式转换为目标图像格式,该目标图像格式为图像处理模型支持的图像格式。例如,样本图像的图像格式为jpg格式,图像处理模型支持png格式的图像,则需要将样本图像的图像格式转换为png格式。
在一种可能实现方式中,模型配置信息还包括组合信息,该组合信息指示图像处理模型的第一图像数据中的多个样本图像的组合方式,则计算机设备读取到第一图像数据后,调用数据组合接口,对多个样本图像按照组合信息进行组合。
在一种可能实现方式中,计算机设备读取第一图像数据之前,确定存储该第一图像数据的文件的文件格式是否属于目标文件格式,在该文件格式不属于目标文件格式的情况下,调用格式转换接口,将文件格式转换为目标文件格式。
步骤804与上述步骤204的实施方式同理,区别在于步骤804中获取的是第一图像数据,在此不再对获取第一图像数据的详细过程进行赘述。
805、计算机设备调用模型训练框架,基于第一图像数据训练图像处理模型。
采用无监督学习方式训练图像处理模型的情况下,计算机设备调用图像处理模型对第一图像数据包括的样本图像进行处理,得到第一预测结果,基于第一预测结果和损失函数训练该图像处理模型。图像处理模型的训练过程与上述步骤205中的训练过程同理,在此不再赘述。
采用有监督方式训练图像处理模型的情况下,计算机设备调用图像处理模型对第一图像数据包括的样本图像进行处理,得到第一预测结果,基于第一预测结果、样本图像对应的样本结果和损失函数训练该图像处理模型。
在另一实施例中,计算机设备训练图像处理模型之后,还能够测试该图像处理模型,即计算机设备调用模型训练框架,基于第二图像数据信息获取第二图像数据,调用图像处理模型,对第二图像数据进行处理,得到第二预测结果,基于第二预测结果,确定图像处理模型的测试结果。其中,第二图像数据信息指示用于测试图像处理模型的第二图像数据,该第二图像数据用于测试图像处理模型。测试图像处理模型的实施方式与上述图6所示的模型测试方式同理,在此不再赘述。
在另一实施例中,计算机设备训练图像处理模型之后,还能够测试该图像处理模型,即计算机设备调用模型训练框架,基于第三图像数据信息获取第三图像数据,调用图像处理模型,对第三图像数据进行处理。其中,第三图像数据信息指示待处理的第三图像数据。使用图像处理模型处理第三图像数据实施方式与上述图7所示的模型使用方式同理,在此不再赘述。
本申请实施例提供的方法,在获取到输入的模型配置信息后,直接基于该模型配置信息调用模型训练框架,来创建图像处理模型,对该图像处理模型进行训练,无需用户编写图像处理模型的程序,提高了创建图像处理模型的效率,且该模型训练框架还能够直接对创建的图像处理模型进行训练,从而提高了生成可使用的图像处理模型的效率。
图9是本申请实施例提供的一种文本处理模型训练方法的流程图。本申请实施例的执行主体为计算机设备。参见图9,该方法包括以下步骤:
901、计算机设备获取输入的模型配置信息,该模型配置信息包括模型结构信息和第一文本数据信息。
步骤901与上述步骤201的实施方式同理,区别在于步骤901中获取的训练数据信息为第一文本数据信息,模型结构信息指示待训练的文本处理模型的模型结构。
其中,第一文本数据信息指示用于训练文本处理模型的第一文本数据。可选地,采用无监督学习方式训练文本处理模型的情况下,该第一文本数据包括至少一个样本文本信息;采用有监督学习方式训练文本处理模型的情况下,该第一文本数据包括至少一个样本文本信息及对应的样本结果。其中样本结果是指调用文本处理模型对样本文本信息进行处理后期望得到的结果,例如,文本处理模型用于提取文本信息中的片段,则样本结果为样本文本信息中的样本片段;文本处理模型用于对文本信息进行翻译,则样本结果为样本文本信息对应的样本翻译信息。
在一种可能实现方式中,第一文本数据信息为第一文本数据的存储路径,或者第一文本数据信息即为第一文本数据。可选地,第一文本数据信息包括一个或多个存储路径。
902、计算机设备基于模型配置信息调用模型训练框架。
步骤902与上述步骤202的实施方式同理,在此不再赘述。
903、计算机设备调用模型训练框架,基于模型结构信息创建满足模型结构的文本处理模型。
本申请实施例以文本处理模型用于提取文本信息中的目标片段为例进行说明。该文本处理模型包括特征提取层、语义识别层和片段提取层。其中,特征提取层即用于提取输入的样本文本信息的文本特征,语义别层用于对文本特征进行处理,识别出样本文本信息的语义,片段提取层用于从样本文本信息中提取出目标片段。
则模型结构信息包括特征提取层、语义识别层和片段提取层的描述信息以及特征提取层、语义识别层和片段提取层之间的连接关系信息,计算机设备从表示层中选取用于提取文本特征的特征提取层,从任务层中选取用于进行语义识别的语义识别层和用于进行片段提取的片段提取层,再依次将特征提取层、语义识别层和片段提取层进行连接,从而得到文本处理模型。
需要说明的是,本申请实施例仅是以一种文本处理模型为例进行说明,在另一实施例中还可以是其他类型的文本处理模型,例如用于将一种类型的文本信息翻译为另一种类型的文本信息的文本处理模型或其他文本处理模型,用户能够根据实际应用情况,设置不同的文本处理模型的模型结构信息,以使模型训练框架训练对应的文本处理模型。
904、计算机设备调用模型训练框架,基于第一文本数据信息获取第一文本数据。
在一种可能实现方式中,第一文本数据信息为第一文本数据的存储路径,计算机设备调用数据读取接口,读取该存储路径下存储的第一文本数据。
在一种可能实现方式中,计算机设备读取到第一文本数据后,调用数据解析接口,将第一文本数据包括的样本文本信息的文本格式转换为目标文本格式,该目标文本格式为文本处理模型支持的文本格式。
在一种可能实现方式中,模型配置信息还包括组合信息,该组合信息指示文本处理模型的第一文本数据中的多个样本文本信息的组合方式,则计算机设备读取到第一文本数据后,调用数据组合接口,对多个样本文本信息按照组合信息进行组合。
在一种可能实现方式中,计算机设备读取第一文本数据之前,确定存储该第一文本数据的文件的文件格式是否属于目标文件格式,在该文件格式不属于目标文件格式的情况下,调用格式转换接口,将文件格式转换为目标文件格式。
步骤904与上述步骤204的实施方式同理,区别在于步骤904中获取的是第一文本数据,在此不再对获取第一文本数据的详细过程进行赘述。
905、计算机设备调用模型训练框架,基于第一文本数据训练文本处理模型。
采用无监督学习方式训练文本处理模型的情况下,计算机设备调用文本处理模型对第一文本数据包括的样本文本信息进行处理,得到第一预测结果,基于第一预测结果和损失函数训练该文本处理模型。文本处理模型的训练过程与上述步骤205中的训练过程同理,在此不再赘述。
采用有监督方式训练文本处理模型的情况下,计算机设备调用文本处理模型对第一文本数据包括的样本文本信息进行处理,得到第一预测结果,基于第一预测结果、样本文本信息对应的样本结果和损失函数训练该文本处理模型。
在另一实施例中,计算机设备训练文本处理模型之后,还能够测试该文本处理模型,即计算机设备调用模型训练框架,基于第二文本数据信息获取第二文本数据,调用文本处理模型,对第二文本数据进行处理,得到第二预测结果,基于第二预测结果,确定文本处理模型的测试结果。其中,第二文本数据信息指示用于测试文本处理模型的第二文本数据,该第二文本数据用于测试文本处理模型。测试文本处理模型的实施方式与上述图6所示的模型测试方式同理,在此不再赘述。
在另一实施例中,计算机设备训练文本处理模型之后,还能够测试该文本处理模型,即计算机设备调用模型训练框架,基于第三文本数据信息获取第三文本数据,调用文本处理模型,对第三文本数据进行处理。其中,第三文本数据信息指示待处理的第三文本数据。使用文本处理模型处理第三文本数据实施方式与上述图7所示的模型使用方式同理,在此不再赘述。
本申请实施例提供的方法,在获取到输入的模型配置信息后,直接基于该模型配置信息调用模型训练框架,来创建文本处理模型,对该文本处理模型进行训练,无需用户编写文本处理模型的程序,提高了创建文本处理模型的效率,且该模型训练框架还能够直接对创建的文本处理模型进行训练,从而提高了生成可使用的文本处理模型的效率。
图10是本申请实施例提供的一种音频处理模型训练方法的流程图。本申请实施例的执行主体为计算机设备。参见图10,该方法包括以下步骤:
1001、计算机设备获取输入的模型配置信息,该模型配置信息包括模型结构信息和第一音频数据信息。
步骤1001与上述步骤201的实施方式同理,区别在于步骤1001中获取的训练数据信息为第一音频数据信息,模型结构信息指示待训练的音频处理模型的模型结构。
其中,第一音频数据信息指示用于训练音频处理模型的第一音频数据。可选地,采用无监督学习方式训练音频处理模型的情况下,该第一音频数据包括至少一个样本音频信号;采用有监督学习方式训练音频处理模型的情况下,该第一音频数据包括至少一个样本音频信号及对应的样本结果。其中样本结果是指调用音频处理模型对样本音频信号进行处理后期望得到的结果,例如,音频处理模型用于对音频信号进行去噪,则样本结果为样本音频信号对应的不包含噪声的音频信号。
在一种可能实现方式中,第一音频数据信息为第一音频数据的存储路径,或者第一音频数据信息即为第一音频数据。可选地,第一音频数据信息包括一个或多个存储路径。
1002、计算机设备基于模型配置信息调用模型训练框架。
步骤1002与上述步骤202的实施方式同理,在此不再赘述。
1003、计算机设备调用模型训练框架,基于模型结构信息创建满足模型结构的音频处理模型。
本申请实施例以音频处理模型用于去除音频信号中的噪声信号为例进行说明。该音频处理模型包括特征提取层、噪声识别层和噪声去除层。其中,特征提取层即用于提取输入的样本音频信号的音频特征,噪声识别层用于对音频特征进行处理,识别出样本音频信号中的噪声信号,噪声去除层用于从样本音频信号中提取出噪声信号,得到不包含噪声信号的目标音频信号。
则模型结构信息包括特征提取层、噪声识别层和噪声去除层的描述信息以及特征提取层、噪声识别层和噪声去除层之间的连接关系信息,计算机设备从表示层中选取用于提取音频特征的特征提取层,从任务层中选取用于进行噪声识别的噪声识别层和用于进行噪声去除的噪声去除层,再依次将特征提取层、噪声识别层和噪声去除层进行连接,从而得到音频处理模型。
需要说明的是,本申请实施例仅是以一种音频处理模型为例进行说明,在另一实施例中还可以是其他类型的音频处理模型,例如用于从音频信号中提取某个音频片段的音频处理模型、为音频信号添加水印的音频处理模型或其他音频处理模型,用户能够根据实际应用情况,设置不同的音频处理模型的模型结构信息,以使模型训练框架训练对应的音频处理模型。
1004、计算机设备调用模型训练框架,基于第一音频数据信息获取第一音频数据。
在一种可能实现方式中,第一音频数据信息为第一音频数据的存储路径,计算机设备调用数据读取接口,读取该存储路径下存储的第一音频数据。
在一种可能实现方式中,计算机设备读取到第一音频数据后,调用数据解析接口,将第一音频数据包括的样本音频信号的音频格式转换为目标音频格式,该目标音频格式为音频处理模型支持的音频格式。
在一种可能实现方式中,模型配置信息还包括组合信息,该组合信息指示音频处理模型的第一音频数据中的多个样本音频信号的组合方式,则计算机设备读取到第一音频数据后,调用数据组合接口,对多个样本音频信号按照组合信息进行组合。
在一种可能实现方式中,计算机设备读取第一音频数据之前,确定存储该第一音频数据的文件的文件格式是否属于目标文件格式,在该文件格式不属于目标文件格式的情况下,调用格式转换接口,将文件格式转换为目标文件格式。
步骤1004与上述步骤204的实施方式同理,区别在于步骤1004中获取的是第一音频数据,在此不再对获取第一音频数据的详细过程进行赘述。
1005、计算机设备调用模型训练框架,基于第一音频数据训练音频处理模型
采用无监督学习方式训练音频处理模型的情况下,计算机设备调用音频处理模型对第一音频数据包括的样本音频信号进行处理,得到第一预测结果,基于第一预测结果和损失函数训练该音频处理模型。音频处理模型的训练过程与上述步骤205中的训练过程同理,在此不再赘述。
采用有监督方式训练音频处理模型的情况下,计算机设备调用音频处理模型对第一音频数据包括的样本音频信号进行处理,得到第一预测结果,基于第一预测结果、样本音频信号对应的样本结果和损失函数训练该音频处理模型。
在另一实施例中,计算机设备训练音频处理模型之后,还能够测试该音频处理模型,即计算机设备调用模型训练框架,基于第二音频数据信息获取第二音频数据,调用音频处理模型,对第二音频数据进行处理,得到第二预测结果,基于第二预测结果,确定音频处理模型的测试结果。其中,第二音频数据信息指示用于测试音频处理模型的第二音频数据,该第二音频数据用于测试音频处理模型。测试音频处理模型的实施方式与上述图6所示的模型测试方式同理,在此不再赘述。
在另一实施例中,计算机设备训练音频处理模型之后,还能够测试该音频处理模型,即计算机设备调用模型训练框架,基于第三音频数据信息获取第三音频数据,调用音频处理模型,对第三音频数据进行处理。其中,第三音频数据信息指示待处理的第三音频数据。使用音频处理模型处理第三音频数据实施方式与上述图7所示的模型使用方式同理,在此不再赘述。
本申请实施例提供的方法,在获取到输入的模型配置信息后,直接基于该模型配置信息调用模型训练框架,来创建音频处理模型,对该音频处理模型进行训练,无需用户编写音频处理模型的程序,提高了创建音频处理模型的效率,且该模型训练框架还能够直接对创建的音频处理模型进行训练,从而提高了生成可使用的音频处理模型的效率。
另外,需要说明的是,上述图8-10所示的实施例分别应用在图像处理场景下、文本处理场景下和音频处理场景下,在另一实施例中,上述实施例能够相互结合,在至少两种场景结合的情况下,模型配置信息中的训练数据包括至少两种类型的数据,例如图像处理场景和音频处理场景相结合,则训练数据包括样本图像和样本音频信号,基于这两种类型的数据训练模型处理图像和音频信号的能力;或者,图像处理场景和文本处理场景相结合,则训练数据包括样本图像和样本文本信息,基于这两种类型的数据训练模型处理图像和文本信息的能力。
图11是本申请实施例提供的一种图像处理模型训练装置的结构示意图。参见图11,该装置包括:
配置信息获取模块1101,用于获取输入的模型配置信息,模型配置信息包括模型结构信息和第一图像数据信息,模型结构信息指示待训练的图像处理模型的模型结构,第一图像数据信息指示用于训练图像处理模型的第一图像数据;
框架调用模块1102,用于基于模型配置信息调用模型训练框架;
第一训练模块1103,用于基于模型结构信息创建满足模型结构的图像处理模型,基于第一图像数据信息获取第一图像数据,以及基于第一图像数据训练图像处理模型。
本申请实施例提供的装置,在获取到输入的模型配置信息后,直接基于该模型配置信息调用模型训练框架,来创建图像处理模型,对该图像处理模型进行训练,无需用户编写图像处理模型的程序,提高了创建图像处理模型的效率,且该模型训练框架还能够直接对创建的图像处理模型进行训练,从而提高了生成可使用的图像处理模型的效率。
可选地,模型训练框架包括数据读取接口,第一图像数据信息为第一图像数据的存储路径,参见图12,第一训练模块1103,包括:
图像数据获取单元913,用于调用数据读取接口,读取存储路径下存储的第一图像数据。
可选地,模型训练框架还包括数据解析接口,参见图12,第一训练模块1103,还包括:
数据格式转换单元923,用于调用数据解析接口,将第一图像数据包括的样本图像的图像格式转换为目标图像格式,目标图像格式为图像处理模型支持的图像格式。
可选地,模型配置信息还包括组合信息,组合信息指示图像处理模型的第一图像数据中的多个样本图像的组合方式,模型训练框架还包括数据组合接口,参见图12,第一训练模块1103,还包括:
数据组合单元933,用于调用数据组合接口,对多个所述样本图像第一图像数据中的多条训练子数据按照组合信息进行组合。
可选地,参见图12,第一训练模块1103,还包括:
文件格式转换单元943,用于响应于存储第一图像数据的文件的文件格式不属于目标文件格式,调用格式转换接口,将文件格式转换为目标文件格式。
可选地,模型训练框架包括多个备选网络层,模型结构信息包括待训练的图像处理模型中的各个网络层的描述信息及各个网络层之间的连接关系信息,参见图12,第一训练模块1103,包括:
模型创建单元953,用于从多个备选网络层中选取符合每个描述信息的目标层;
模型创建单元953,还用于将选取的多个目标层按照连接关系信息进行连接,构成图像处理模型。
可选地,多个备选网络层包括多个表示层,表示层用于提取输入的图像数据的特征,参见图12,模型创建单元953,用于基于模型配置信息中的表示层描述信息,从多个表示层中选取符合表示层描述信息的目标表示层。
可选地,多个备选网络层包括多个任务层,任务层用于对输入的特征进行处理,参见图12,模型创建单元953,用于基于模型配置信息中的任务层描述信息,从多个任务层中选取符合任务层描述信息的目标任务层。
可选地,模型配置信息还包括损失函数,参见图12,第一训练模块1103,包括:
模型训练单元963,用于调用图像处理模型,对第一图像数据进行处理,得到第一预测结果;
模型训练单元963,还用于基于第一预测结果和损失函数,训练图像处理模型。
可选地,模型配置信息还包括第二图像数据信息,第二图像数据信息指示用于测试图像处理模型的第二图像数据,参见图12,装置还包括:
模型测试模块1104,用于基于第二图像数据信息获取第二图像数据;
模型测试模块1104,还用于调用图像处理模型,对第二图像数据包括的测试图像进行处理,得到第二预测结果;
模型测试模块1104,还用于基于第二预测结果,确定图像处理模型的测试结果。
可选地,模型配置信息还包括第三图像数据信息,第三图像数据信息指示待处理的第三图像数据,参见图12,装置还包括:
模型使用模块1105,用于基于第三图像数据信息获取第三图像数据;
模型使用模块1105,还用于调用图像处理模型,对目标数据进行处理。
可选地,参见图12,装置还包括:
模型文件生成模块1106,用于生成包含图像处理模型的模型文件。
可选地,参见图12,装置还包括:
模型文件存储模块1107,用于在模型存储路径下存储模型文件。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的图像处理模型训练装置在训练图像处理模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像处理模型训练装置与图像处理模型训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图13是本申请实施例提供的一种文本处理模型训练装置的结构示意图。参见图13,该装置包括:
配置信息获取模块1301,用于获取输入的模型配置信息,模型配置信息包括模型结构信息和第一文本数据信息,模型结构信息指示待训练的文不能处理模型的模型结构,第一文本数据信息指示用于训练文本处理模型的第一文本数据;
框架调用模块1302,用于基于模型配置信息调用模型训练框架;
第二训练模块1303,用于基于模型结构信息创建满足模型结构的文本处理模型,基于第一文本数据信息获取第一文本数据,以及基于第一文本数据训练文本处理模型。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的文本处理模型训练装置在训练文本处理模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本处理模型训练装置与文本处理模型训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图14是本申请实施例提供的一种音频处理模型训练装置的结构示意图。参见图14,该装置包括:
配置信息获取模块1401,用于获取输入的模型配置信息,模型配置信息包括模型结构信息和第一音频数据信息,模型结构信息指示待训练的音频处理模型的模型结构,第一音频数据信息指示用于训练音频处理模型的第一音频数据;
框架调用模块1402,用于基于模型配置信息调用模型训练框架;
第三训练模块1403,用于基于模型结构信息创建满足模型结构的音频处理模型,基于第一音频数据信息获取第一音频数据,以及基于第一音频数据训练音频处理模型。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的音频处理模型训练装置在训练音频处理模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频处理模型训练装置与音频处理模型训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图15是本申请实施例提供的一种模型训练装置的结构示意图。参见图15,该装置包括:
配置信息获取模块1501,用于获取输入的模型配置信息,模型配置信息包括模型结构信息和训练数据信息,模型结构信息指示待训练模型的模型结构,训练数据信息指示用于训练模型的训练数据;
框架调用模块1502,用于基于模型配置信息调用模型训练框架;
模型训练模块1503,用于基于模型结构信息创建满足模型结构的目标模型,基于训练数据信息获取训练数据,以及基于训练数据训练目标模型。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的模型训练装置在训练模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的模型训练装置与模型训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行,以实现上述实施例的图像处理模型训练方法、文本处理模型训练方法、音频处理模型训练方法或模型训练方法中所执行的操作。
可选地,该计算机设备提供为终端。图16是本申请实施例提供的一种终端1600的结构示意图。终端1600包括有:处理器1601和存储器1602。
处理器1601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1601可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。在一些实施例中,处理器1601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1602中的非暂态的计算机可读存储介质用于存储至少一条计算机程序,该至少一条计算机程序用于被处理器1601所执行以实现本申请中方法实施例提供的图像处理模型训练方法、文本处理模型训练方法、音频处理模型训练方法或模型训练方法。
在一些实施例中,终端1600还可选包括有:外围设备接口1603和至少一个外围设备。处理器1601、存储器1602和外围设备接口1603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1603相连。具体地,外围设备包括:射频电路1604、显示屏1605、摄像头组件1606、音频电路1607、定位组件1608和电源1609中的至少一种。
外围设备接口1603可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1601和存储器1602。在一些实施例中,处理器1601、存储器1602和外围设备接口1603被集成在同一芯片或电路板上;在一些其他实施例中,处理器1601、存储器1602和外围设备接口1603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1605是触摸显示屏时,显示屏1605还具有采集在显示屏1605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1601进行处理。此时,显示屏1605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1605可以为一个,设置在终端1600的前面板;在另一些实施例中,显示屏1605可以为至少两个,分别设置在终端1600的不同表面或呈折叠设计;在另一些实施例中,显示屏1605可以是柔性显示屏,设置在终端1600的弯曲表面上或折叠面上。甚至,显示屏1605还可以设置成非矩形的不规则图形,也即异形屏。显示屏1605可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。
摄像头组件1606用于采集图像或视频。可选地,摄像头组件1606包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1601进行处理,或者输入至射频电路1604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1601或射频电路1604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1607还可以包括耳机插孔。
定位组件1608用于定位终端1600的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1608可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯定位系统或欧盟的伽利略定位系统的定位组件。
电源1609用于为终端1600中的各个组件进行供电。电源1609可以是交流电、直流电、一次性电池或可充电电池。当电源1609包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1600还包括有一个或多个传感器1160。该一个或多个传感器1160包括但不限于:加速度传感器1611、陀螺仪传感器1612、压力传感器1613、指纹传感器1614、光学传感器1615以及接近传感器1616。
加速度传感器1611可以检测以终端1600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1611可以用于检测重力加速度在三个坐标轴上的分量。处理器1601可以根据加速度传感器1611采集的重力加速度信号,控制显示屏1605以横向视图或纵向视图进行用户界面的显示。加速度传感器1611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1612可以检测终端1600的机体方向及转动角度,陀螺仪传感器1612可以与加速度传感器1611协同采集用户对终端1600的3D动作。处理器1601根据陀螺仪传感器1612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1613可以设置在终端1600的侧边框和/或显示屏1605的下层。当压力传感器1613设置在终端1600的侧边框时,可以检测用户对终端1600的握持信号,由处理器1601根据压力传感器1613采集的握持信号进行左右手识别或快捷操作。当压力传感器1613设置在显示屏1605的下层时,由处理器1601根据用户对显示屏1605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1614用于采集用户的指纹,由处理器1601根据指纹传感器1614采集到的指纹识别用户的身份,或者,由指纹传感器1614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1601授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1614可以被设置在终端1600的正面、背面或侧面。当终端1600上设置有物理按键或厂商Logo时,指纹传感器1614可以与物理按键或厂商Logo集成在一起。
光学传感器1615用于采集环境光强度。在一个实施例中,处理器1601可以根据光学传感器1615采集的环境光强度,控制显示屏1605的显示亮度。具体地,当环境光强度较高时,调高显示屏1605的显示亮度;当环境光强度较低时,调低显示屏1605的显示亮度。在另一个实施例中,处理器1601还可以根据光学传感器1615采集的环境光强度,动态调整摄像头组件1606的拍摄参数。
接近传感器1616,也称距离传感器,设置在终端1600的前面板。接近传感器1616用于采集用户与终端1600的正面之间的距离。在一个实施例中,当接近传感器1616检测到用户与终端1600的正面之间的距离逐渐变小时,由处理器1601控制显示屏1605从亮屏状态切换为息屏状态;当接近传感器1616检测到用户与终端1600的正面之间的距离逐渐变大时,由处理器1601控制显示屏1605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图16中示出的结构并不构成对终端1600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
可选地,该计算机设备提供为服务器。图17是本申请实施例提供的一种服务器的结构示意图,该服务器1700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)1701和一个或一个以上的存储器1702,其中,存储器1702中存储有至少一条计算机程序,该至少一条计算机程序由处理器1701加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行,以实现上述实施例的图像处理模型训练方法、文本处理模型训练方法、音频处理模型训练方法或模型训练方法中所执行的操作。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得计算机设备实现上述实施例的图像处理模型训练方法、文本处理模型训练方法、音频处理模型训练方法或模型训练方法中所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种图像处理模型训练方法,其特征在于,所述方法包括:
获取输入的模型配置信息,所述模型配置信息包括模型结构信息和第一图像数据信息,所述模型结构信息指示待训练的图像处理模型的模型结构,所述第一图像数据信息指示用于训练图像处理模型的第一图像数据;
基于所述模型配置信息调用模型训练框架,执行如下步骤:
基于所述模型结构信息创建满足所述模型结构的图像处理模型,基于所述第一图像数据信息获取所述第一图像数据,以及基于所述第一图像数据训练所述图像处理模型。
2.根据权利要求1所述的方法,其特征在于,所述模型训练框架包括数据读取接口,所述第一图像数据信息为所述第一图像数据的存储路径,所述基于所述第一图像数据信息获取所述第一图像数据,包括:
调用所述数据读取接口,读取所述存储路径下存储的所述第一图像数据。
3.根据权利要求2所述的方法,其特征在于,所述模型训练框架还包括数据解析接口,所述调用所述数据读取接口,读取所述存储路径下存储的所述第一图像数据之后,所述方法还包括:
调用所述数据解析接口,将所述第一图像数据包括的样本图像的图像格式转换为目标图像格式,所述目标图像格式为所述图像处理模型支持的图像格式。
4.根据权利要求2所述的方法,其特征在于,所述模型配置信息还包括组合信息,所述组合信息指示所述图像处理模型的第一图像数据中的多个样本图像的组合方式,所述模型训练框架还包括数据组合接口,所述调用所述数据读取接口,读取所述存储路径下存储的所述第一图像数据之后,所述方法还包括:
调用所述数据组合接口,对所述多个所述样本图像按照所述组合信息进行组合。
5.根据权利要求2所述的方法,其特征在于,所述调用所述数据读取接口,读取所述存储路径下存储的所述第一图像数据之前,所述方法还包括:
响应于存储所述第一图像数据的文件的文件格式不属于目标文件格式,调用格式转换接口,将所述文件格式转换为所述目标文件格式。
6.根据权利要求2所述的方法,其特征在于,所述模型训练框架包括多个备选网络层,所述模型结构信息包括待训练的图像处理模型中的各个网络层的描述信息及所述各个网络层之间的连接关系信息,所述基于所述模型结构信息创建满足所述模型结构的图像处理模型,包括:
从所述多个备选网络层中选取符合每个所述描述信息的目标层;
将选取的多个所述目标层按照所述连接关系信息进行连接,构成所述图像处理模型。
7.根据权利要求6所述的方法,其特征在于,所述多个备选网络层包括多个表示层,所述表示层用于提取输入的图像数据的特征,所述从所述多个备选网络层中选取符合每个所述描述信息的目标层,包括:
基于所述模型配置信息中的表示层描述信息,从所述多个表示层中选取符合所述表示层描述信息的目标表示层。
8.根据权利要求6所述的方法,其特征在于,所述多个备选网络层包括多个任务层,所述任务层用于对输入的特征进行处理,所述从所述多个备选网络层中选取符合每个所述描述信息的目标层,包括:
基于所述模型配置信息中的任务层描述信息,从所述多个任务层中选取符合所述任务层描述信息的目标任务层。
9.根据权利要求1所述的方法,其特征在于,所述模型配置信息还包括损失函数,所述基于所述第一图像数据训练所述图像处理模型,包括:
调用所述图像处理模型,对所述第一图像数据进行处理,得到第一预测结果;
基于所述第一预测结果和所述损失函数,训练所述图像处理模型。
10.根据权利要求1-9任一项所述的方法,其特征在于,所述模型配置信息还包括第二图像数据信息,所述第二图像数据信息指示用于测试图像处理模型的第二图像数据,所述基于所述第一图像数据训练所述图像处理模型之后,所述方法还包括:
基于所述第二图像数据信息获取所述第二图像数据;
调用所述图像处理模型,对所述第二图像数据进行处理,得到第二预测结果;
基于所述第二预测结果,确定所述图像处理模型的测试结果。
11.根据权利要求1-9任一项所述的方法,其特征在于,所述模型配置信息还包括第三图像数据信息,所述第三图像数据信息指示待处理的第三图像数据,所述基于所述第一图像数据训练所述图像处理模型之后,所述方法还包括:
基于所述第三图像数据信息获取所述第三图像数据;
调用所述图像处理模型,对所述第三图像数据进行处理。
12.根据权利要求1-9任一项所述的方法,其特征在于,所述基于所述第一图像数据训练所述图像处理模型之后,所述方法还包括:
生成包含所述图像处理模型的模型文件。
13.一种文本处理模型训练方法,其特征在于,所述方法包括:
获取输入的模型配置信息,所述模型配置信息包括模型结构信息和第一文本数据信息,所述模型结构信息指示待训练的文本处理模型的模型结构,所述第一文本数据信息指示用于训练文本处理模型的第一文本数据;
基于所述模型配置信息调用模型训练框架,执行如下步骤:
基于所述模型结构信息创建满足所述模型结构的文本处理模型,基于所述第一文本数据信息获取所述第一文本数据,以及基于所述第一文本数据训练所述文本处理模型。
14.一种音频处理模型训练方法,其特征在于,所述方法包括:
获取输入的模型配置信息,所述模型配置信息包括模型结构信息和第一音频数据信息,所述模型结构信息指示待训练的音频处理模型的模型结构,所述第一音频数据信息指示用于训练音频处理模型的第一音频数据;
基于所述模型配置信息调用模型训练框架,执行如下步骤:
基于所述模型结构信息创建满足所述模型结构的音频处理模型,基于所述第一音频数据信息获取所述第一音频数据,以及基于所述第一音频数据训练所述音频处理模型。
15.一种模型训练方法,其特征在于,所述方法包括:
获取输入的模型配置信息,所述模型配置信息包括模型结构信息和训练数据信息,所述模型结构信息指示待训练模型的模型结构,所述训练数据信息指示用于训练模型的训练数据;
基于所述模型配置信息调用模型训练框架,执行如下步骤:
基于所述模型结构信息创建满足所述模型结构的目标模型,基于所述训练数据信息获取所述训练数据,以及基于所述训练数据训练所述目标模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110801987.7A CN113822322B (zh) | 2021-07-15 | 2021-07-15 | 图像处理模型训练方法及文本处理模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110801987.7A CN113822322B (zh) | 2021-07-15 | 2021-07-15 | 图像处理模型训练方法及文本处理模型训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113822322A true CN113822322A (zh) | 2021-12-21 |
CN113822322B CN113822322B (zh) | 2024-08-02 |
Family
ID=78912672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110801987.7A Active CN113822322B (zh) | 2021-07-15 | 2021-07-15 | 图像处理模型训练方法及文本处理模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822322B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114663437A (zh) * | 2022-05-25 | 2022-06-24 | 苏州中科行智智能科技有限公司 | 一种深度学习模型部署方法、设备及介质 |
CN117198093A (zh) * | 2023-11-07 | 2023-12-08 | 成都工业学院 | 一种复杂地下空间智能寻车系统及方法 |
WO2024093561A1 (zh) * | 2022-11-04 | 2024-05-10 | 大唐移动通信设备有限公司 | 模型训练方法、模型测试方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325541A (zh) * | 2018-09-30 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于训练模型的方法和装置 |
CN110321891A (zh) * | 2019-03-21 | 2019-10-11 | 长沙理工大学 | 一种联合深度神经网络与聚类算法的大输液药液异物目标检测方法 |
CN111797923A (zh) * | 2020-07-03 | 2020-10-20 | 北京阅视智能技术有限责任公司 | 图像分类模型的训练方法、图像分类的方法及装置 |
WO2020258508A1 (zh) * | 2019-06-27 | 2020-12-30 | 平安科技(深圳)有限公司 | 模型超参数调整控制方法、装置、计算机设备及存储介质 |
CN112257733A (zh) * | 2019-10-25 | 2021-01-22 | 北京沃东天骏信息技术有限公司 | 一种模型迭代方法、第二电子设备及存储介质 |
CN112527383A (zh) * | 2020-12-15 | 2021-03-19 | 北京百度网讯科技有限公司 | 用于生成多任务模型的方法、装置、设备、介质和程序 |
-
2021
- 2021-07-15 CN CN202110801987.7A patent/CN113822322B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325541A (zh) * | 2018-09-30 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于训练模型的方法和装置 |
CN110321891A (zh) * | 2019-03-21 | 2019-10-11 | 长沙理工大学 | 一种联合深度神经网络与聚类算法的大输液药液异物目标检测方法 |
WO2020258508A1 (zh) * | 2019-06-27 | 2020-12-30 | 平安科技(深圳)有限公司 | 模型超参数调整控制方法、装置、计算机设备及存储介质 |
CN112257733A (zh) * | 2019-10-25 | 2021-01-22 | 北京沃东天骏信息技术有限公司 | 一种模型迭代方法、第二电子设备及存储介质 |
CN111797923A (zh) * | 2020-07-03 | 2020-10-20 | 北京阅视智能技术有限责任公司 | 图像分类模型的训练方法、图像分类的方法及装置 |
CN112527383A (zh) * | 2020-12-15 | 2021-03-19 | 北京百度网讯科技有限公司 | 用于生成多任务模型的方法、装置、设备、介质和程序 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114663437A (zh) * | 2022-05-25 | 2022-06-24 | 苏州中科行智智能科技有限公司 | 一种深度学习模型部署方法、设备及介质 |
WO2024093561A1 (zh) * | 2022-11-04 | 2024-05-10 | 大唐移动通信设备有限公司 | 模型训练方法、模型测试方法、装置及存储介质 |
CN117198093A (zh) * | 2023-11-07 | 2023-12-08 | 成都工业学院 | 一种复杂地下空间智能寻车系统及方法 |
CN117198093B (zh) * | 2023-11-07 | 2024-01-26 | 成都工业学院 | 一种复杂地下空间智能寻车系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113822322B (zh) | 2024-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815150B (zh) | 应用测试方法、装置、电子设备及存储介质 | |
CN113822322B (zh) | 图像处理模型训练方法及文本处理模型训练方法 | |
CN111262887B (zh) | 基于对象特征的网络风险检测方法、装置、设备及介质 | |
CN117063461A (zh) | 一种图像处理方法和电子设备 | |
CN108132790B (zh) | 检测无用代码的方法、装置及计算机存储介质 | |
CN111338910B (zh) | 日志数据处理、显示方法、装置、设备及存储介质 | |
CN112116690B (zh) | 视频特效生成方法、装置及终端 | |
CN111209377B (zh) | 基于深度学习的文本处理方法、装置、设备及介质 | |
CN112261491B (zh) | 视频时序标注方法、装置、电子设备及存储介质 | |
CN111738365B (zh) | 图像分类模型训练方法、装置、计算机设备及存储介质 | |
CN112230781A (zh) | 字符推荐方法、装置及存储介质 | |
CN112036492A (zh) | 样本集处理方法、装置、设备及存储介质 | |
CN111459466A (zh) | 代码生成方法、装置、设备及存储介质 | |
CN111416996B (zh) | 多媒体文件检测方法、播放方法、装置、设备及存储介质 | |
CN114371985A (zh) | 自动化测试方法、电子设备及存储介质 | |
CN114064450A (zh) | 应用程序测试方法、装置、电子设备及存储介质 | |
CN113377976B (zh) | 资源搜索方法、装置、计算机设备及存储介质 | |
CN114117206A (zh) | 推荐模型处理方法、装置、电子设备及存储介质 | |
CN110728167A (zh) | 文本检测方法、装置及计算机可读存储介质 | |
CN113763931A (zh) | 波形特征提取方法、装置、计算机设备及存储介质 | |
CN114691860A (zh) | 文本分类模型的训练方法、装置、电子设备及存储介质 | |
CN113032560B (zh) | 语句分类模型训练方法、语句处理方法及设备 | |
CN113343709B (zh) | 意图识别模型的训练方法、意图识别方法、装置及设备 | |
CN115437601A (zh) | 图像排序方法、电子设备、程序产品及介质 | |
CN113920979A (zh) | 语音数据的获取方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |