CN113191430A - 一种用于图片训练集构建的方法与设备 - Google Patents
一种用于图片训练集构建的方法与设备 Download PDFInfo
- Publication number
- CN113191430A CN113191430A CN202110475978.3A CN202110475978A CN113191430A CN 113191430 A CN113191430 A CN 113191430A CN 202110475978 A CN202110475978 A CN 202110475978A CN 113191430 A CN113191430 A CN 113191430A
- Authority
- CN
- China
- Prior art keywords
- picture
- original picture
- pictures
- original
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本申请的目的是提供一种用于图片训练集构建的方法与设备。与现有技术相比,本申请通过获取第一原始图片及第二原始图片,其中,所述第二原始图片的高大于第一原始图片,并按照从上到下的顺序将第一原始图片依次覆盖第二原始图片,生成用以训练的图片,然后将生成的多个用以训练的图片作为图片训练集中的图片。通过这种方式进行训练集的构建,能够使训练集在训练后更适用于对特定图片的识别,例如,提高对微博图片的识别效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种用于图片训练集构建的技术。
背景技术
对于微博图片的识别,例如,对于微博火灾图片的识别,一般不采用数据增强的方式,或者使用传统的数据增强方式,而在传统的数据增强方面一般采用:去均值,加入噪声,旋转等操作,并没有考虑到微博图片的特殊性,从而对于微博中出现的特殊形式的图片,无法分类或者分类效果极差。
发明内容
本申请的目的是提供一种用于图片训练集构建的方法与设备。
根据本申请的一个方面,提供了一种用于图片训练集构建的方法,其中,所述方法包括:
获取第一原始图片及第二原始图片,其中,所述第二原始图片的高大于第一原始图片;
按照从上到下的顺序将第一原始图片依次覆盖第二原始图片,生成用以训练的图片;
将生成的多个用以训练的图片作为图片训练集。
可选地,其中,所述第一原始图片为,所述第二原始图片为白色图片。
可选地,其中,所述第二原始图片为包含文字的图片,所述第一原始图片为不包含文字的图片。
可选地,其中,所述第一原始图片之间的间隙为预设像素。
可选地,其中,所述第一原始图片的宽与所述第二原始图片相同,所述第二原始图片的高为所述第一原始图片的预设倍数。
可选地,其中,所述方法还包括:
将所述图片训练集输入神经网络模型进行训练,直至所述神经网络模型的识别图片上文字的准确率达到预设阈值
根据本申请的另一方面,还提供了一种用于图片训练集构建的设备,其中,所述设备包括:
第一装置,用于获取第一原始图片及第二原始图片,其中,所述第二原始图片的高大于第一原始图片;
第二装置,用于按照从上到下的顺序将第一原始图片依次覆盖第二原始图片,生成用以训练的图片;
第三装置,用于将生成的多个用以训练的图片作为图片训练集中的图片。
根据本申请的再一方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如前述方法的操作。
与现有技术相比,本申请通过获取第一原始图片及第二原始图片,其中,所述第二原始图片的高大于第一原始图片,并按照从上到下的顺序将第一原始图片依次覆盖第二原始图片,生成用以训练的图片,然后将生成的多个用以训练的图片作为图片训练集中的图片。通过这种方式进行训练集的构建,能够使训练集在训练后更适用于对特定图片的识别,例如,提高对微博图片的识别效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种用于图片训练集构建的方法流程图;
图2示出根据本申请另一个方面的一种用于图片训练集构建的设备示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
为更进一步阐述本申请所采取的技术手段及取得的效果,下面结合附图及较佳实施例,对本申请的技术方案,进行清楚和完整的描述。
图1示出根据本申请一个方面提供的一种用于图片训练集构建的方法,该方法在设备1上执行,该方法包括以下步骤:
S11获取第一原始图片及第二原始图片,其中,所述第二原始图片的高大于第一原始图片;
S12按照从上到下的顺序将第一原始图片依次覆盖第二原始图片,生成用以训练的图片;
S13将生成的多个用以训练的图片作为图片训练集。
在本申请中,所述设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。上述设备1仅为举例其他现有的或者今后可能出现的能应用于本申请的设备1都应包含在本申请的保护范围内,在此,以引用的方式包含于此。
在该实施例中,在所述步骤S11中,设备1获取第一原始图片及第二原始图片,其中,所述第二原始图片的高大于第一原始图片。在此,所述第一原始图片和第二原始图片包括直接从网络上收集的图片,或者,从某些平台获取的图片,例如,直接从微博上获取的图片等。在此,对于所述第一原始图片和第二原始图片的获取方式在此不做任何限定。
优选地,其中,所述第二原始图片为白色图片。在该实施例中,第一原始图片可包括从网络平台上实时获取的图片或者从本地获取的图片,而第二原始图片可为裁剪的白色图片,也即第二原始图片为空白图片。优选地,其中,所述第一原始图片的宽与所述第二原始图片相同,所述第二原始图片的高为所述第一原始图片的预设倍数。例如,第一原始图片的宽为500像素,高为300像素,第二原始图片的宽为500像素,高为5*300像素点等,在此,所述第一原始图片及第二原始图片的尺寸仅为举例,不做具体限定。
优选地,其中,所述第二原始图片为包含文字的图片,所述第一原始图片为不包含文字的图片。其中,所述第一原始图片的宽与所述第二原始图片相同,所述第二原始图片的高为所述第一原始图片的预设倍数。
继续在该实施例中,在所述步骤S12中,设备1按照从上到下的顺序将第一原始图片依次覆盖第二原始图片,生成用以训练的图片。在此,可将多个第一原始图片依次覆盖第二原始图片,其中,两个相邻的第一原始图片之间可紧密相连或者有一定的间隙,优选地,其中,所述第一原始图片之间的间隙为预设像素,例如,相邻第一原始图片之间的间隙为100像素。在此,所述多个第一原始图片可为相同的第一原始图片或者不同的第一原始图片,在此,不做限定。
继续在该实施例中,在所述步骤S13中,设备1将生成的多个用以训练的图片作为图片训练集中的图片。在此,对于图片训练集可包括多张通过第一原始图片及第二原始图片生成的图片以及图片,优选地,通过第一原始图片及第二原始图片生成的图片可占据整个图片训练集的百分之二十,在此,所述百分比仅为举例,可基于实际需求进行设置。
优选地,其中,所述方法还包括:S14(未示出)将所述图片训练集输入神经网络模型进行训练,直至所述神经网络模型的识别图片上文字的准确率达到预设阈值。在该实施例中,图片训练集构建好了之后,可用于神经网络模型的训练,在此,所述神经网络模型包括但不限于任何可对图片进行识别的网络模型,在本方案中,对于具体的神经网络模型不做任何具体限定。优选地,本申请特别适用于微博火灾图片的识别。
与现有技术相比,本申请通过获取第一原始图片及第二原始图片,其中,所述第二原始图片的高大于第一原始图片,并按照从上到下的顺序将第一原始图片依次覆盖第二原始图片,生成用以训练的图片,然后将生成的多个用以训练的图片作为图片训练集中的图片。通过这种方式进行训练集的构建,能够使训练集在训练后更适用于对特定图片的识别,例如,提高对微博图片的识别效率。
根据本申请另一个方面,还提供了一种用于图片训练集构建的设备1,该设备包括以下装置:
第一装置,用于获取第一原始图片及第二原始图片,其中,所述第二原始图片的高大于第一原始图片;
第二装置,用于按照从上到下的顺序将第一原始图片依次覆盖第二原始图片,生成用以训练的图片;
第三装置,用于将生成的多个用以训练的图片作为图片训练集中的图片。
在本申请中,所述设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。上述设备1仅为举例其他现有的或者今后可能出现的能应用于本申请的设备1都应包含在本申请的保护范围内,在此,以引用的方式包含于此。
在该实施例中,设备1的第一装置获取第一原始图片及第二原始图片,其中,所述第二原始图片的高大于第一原始图片。在此,所述第一原始图片和第二原始图片包括直接从网络上收集的图片,或者,从某些平台获取的图片,例如,直接从微博上获取的图片等。在此,对于所述第一原始图片和第二原始图片的获取方式在此不做任何限定。
优选地,其中,所述第二原始图片为白色图片。在该实施例中,第一原始图片可包括从网络平台上实时获取的图片或者从本地获取的图片,而第二原始图片可为裁剪的白色图片,也即第二原始图片为空白图片。优选地,其中,所述第一原始图片的宽与所述第二原始图片相同,所述第二原始图片的高为所述第一原始图片的预设倍数。例如,第一原始图片的宽为500像素,高为300像素,第二原始图片的宽为500像素,高为5*300像素点等,在此,所述第一原始图片及第二原始图片的尺寸仅为举例,不做具体限定。
优选地,其中,所述第二原始图片为包含文字的图片,所述第一原始图片为不包含文字的图片。其中,所述第一原始图片的宽与所述第二原始图片相同,所述第二原始图片的高为所述第一原始图片的预设倍数。
继续在该实施例中,设备1的第二装置按照从上到下的顺序将第一原始图片依次覆盖第二原始图片,生成用以训练的图片。在此,可将多个第一原始图片依次覆盖第二原始图片,其中,两个相邻的第一原始图片之间可紧密相连或者有一定的间隙,优选地,其中,所述第一原始图片之间的间隙为预设像素,例如,相邻第一原始图片之间的间隙为100像素。在此,所述多个第一原始图片可为相同的第一原始图片或者不同的第一原始图片,在此,不做限定。
继续在该实施例中,设备1的第三装置将生成的多个用以训练的图片作为图片训练集中的图片。在此,对于图片训练集可包括多张通过第一原始图片及第二原始图片生成的图片以及图片,优选地,通过第一原始图片及第二原始图片生成的图片可占据整个图片训练集的百分之二十,在此,所述百分比仅为举例,可基于实际需求进行设置。
优选地,其中,所述设备还包括:第四装置(未示出)将所述图片训练集输入神经网络模型进行训练,直至所述神经网络模型的识别图片上文字的准确率达到预设阈值。在该实施例中,图片训练集构建好了之后,可用于神经网络模型的训练,在此,所述神经网络模型包括但不限于任何可对图片进行识别的网络模型,在本方案中,对于具体的神经网络模型不做任何具体限定。
此外,本申请实施例还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述方法。
本申请实施例还提供了一种用于图片训练集构建的设备,其中,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行前述方法的操作。
例如,计算机可读指令在被执行时使所述一个或多个处理器:获取第一原始图片及第二原始图片,其中,所述第二原始图片的高大于第一原始图片;按照从上到下的顺序将第一原始图片依次覆盖第二原始图片,生成用以训练的图片;将生成的多个用以训练的图片作为图片训练集。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (9)
1.一种用于图片训练集构建的方法,其中,所述方法包括:
获取第一原始图片及第二原始图片,其中,所述第二原始图片的高大于第一原始图片;
按照从上到下的顺序将第一原始图片依次覆盖第二原始图片,生成用以训练的图片;
将生成的多个用以训练的图片作为图片训练集中的图片。
2.根据权利要求1所述的方法,其中,所述第二原始图片为白色图片。
3.根据权利要求1所述的方法,其中,所述第二原始图片为包含文字的图片,所述第一原始图片为不包含文字的图片。
4.根据权利要求3所述的方法,其中,所述第一原始图片之间的间隙为预设像素。
5.根据权利要求1至4中任一项所述的方法,其中,所述第一原始图片的宽与所述第二原始图片相同,所述第二原始图片的高为所述第一原始图片的预设倍数。
6.根据权利要求1至5中任一项所述的方法,其中,所述方法还包括:
将所述图片训练集输入神经网络模型进行训练,直至所述神经网络模型的识别图片上文字的准确率达到预设阈值。
7.一种用于图片训练集构建的设备,其中,所述设备包括:
第一装置,用于获取第一原始图片及第二原始图片,其中,所述第二原始图片的高大于第一原始图片;
第二装置,用于按照从上到下的顺序将第一原始图片依次覆盖第二原始图片,生成用以训练的图片;
第三装置,用于将生成的多个用以训练的图片作为图片训练集中的图片。
8.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至6中任一项所述的方法。
9.一种用于图片训练集构建的设备,其中,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如权利要求1至6中任一项所述方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110475978.3A CN113191430A (zh) | 2021-04-29 | 2021-04-29 | 一种用于图片训练集构建的方法与设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110475978.3A CN113191430A (zh) | 2021-04-29 | 2021-04-29 | 一种用于图片训练集构建的方法与设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113191430A true CN113191430A (zh) | 2021-07-30 |
Family
ID=76980825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110475978.3A Pending CN113191430A (zh) | 2021-04-29 | 2021-04-29 | 一种用于图片训练集构建的方法与设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113191430A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170200063A1 (en) * | 2016-01-13 | 2017-07-13 | Ford Global Technologies, Llc | Low- and high-fidelity classifiers applied to road-scene images |
CN108236784A (zh) * | 2018-01-22 | 2018-07-03 | 腾讯科技(深圳)有限公司 | 模型的训练方法和装置、存储介质、电子装置 |
CN110097082A (zh) * | 2019-03-29 | 2019-08-06 | 广州思德医疗科技有限公司 | 一种训练集的拆分方法及装置 |
CN112070074A (zh) * | 2020-11-12 | 2020-12-11 | 中电科新型智慧城市研究院有限公司 | 物体检测方法、装置、终端设备和存储介质 |
-
2021
- 2021-04-29 CN CN202110475978.3A patent/CN113191430A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170200063A1 (en) * | 2016-01-13 | 2017-07-13 | Ford Global Technologies, Llc | Low- and high-fidelity classifiers applied to road-scene images |
CN108236784A (zh) * | 2018-01-22 | 2018-07-03 | 腾讯科技(深圳)有限公司 | 模型的训练方法和装置、存储介质、电子装置 |
CN110097082A (zh) * | 2019-03-29 | 2019-08-06 | 广州思德医疗科技有限公司 | 一种训练集的拆分方法及装置 |
CN112070074A (zh) * | 2020-11-12 | 2020-12-11 | 中电科新型智慧城市研究院有限公司 | 物体检测方法、装置、终端设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
PANAHI A等: "Principal component analysis with optimum order sample correlation coefficient for image enhancement", 《INTERNATIONAL JOURNAL OF REMOTE SENSING》, vol. 27, no. 16, pages 3387 - 3401 * |
王鸿严: "大规模亚洲人脸数据集的构建", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 4, pages 138 - 3214 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110458918B (zh) | 用于输出信息的方法和装置 | |
US10943145B2 (en) | Image processing methods and apparatus, and electronic devices | |
CN104281626B (zh) | 基于图片化处理的网页展示方法及网页展示装置 | |
US9235759B2 (en) | Detecting text using stroke width based text detection | |
US9396546B2 (en) | Labeling objects in image scenes | |
US11625934B2 (en) | Machine learning based end-to-end extraction of tables from electronic documents | |
CN111275784B (zh) | 生成图像的方法和装置 | |
CN111291661B (zh) | 一种屏幕中图标的文本内容的识别方法及设备 | |
WO2020186779A1 (zh) | 图片信息识别方法、装置、计算机设备和存储介质 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN110827248A (zh) | 一种电子设备屏幕区域识别方法与设备 | |
CN111507406A (zh) | 一种用于优化神经网络文本识别模型的方法与设备 | |
CN111507332A (zh) | 车辆vin码检测方法与设备 | |
CN110209863B (zh) | 用于相似图片检索的方法与设备 | |
CN114359533B (zh) | 一种基于页面文本的页码识别方法和计算机设备 | |
CN118196799A (zh) | 圆形印章文字识别方法、装置、电子设备及存储介质 | |
CN113591827B (zh) | 文本图像的处理方法、装置、电子设备及可读存储介质 | |
US20230298374A1 (en) | Method and device for determining picture with texts | |
CN112102145B (zh) | 图像处理方法及装置 | |
CN111062385A (zh) | 一种用于图像文本信息检测的网络模型构建方法与系统 | |
CN111881900A (zh) | 语料生成、翻译模型训练、翻译方法、装置、设备及介质 | |
CN113191430A (zh) | 一种用于图片训练集构建的方法与设备 | |
CN111242116B (zh) | 屏幕定位方法及装置 | |
CN111753809A (zh) | 一种用于手写签名矫正的方法与设备 | |
KR20180081303A (ko) | 뉴스 인터뷰 영상의 오버레이 텍스트 기반 인물 인덱싱 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |