CN110084276B

CN110084276B - 一种训练集的拆分方法及装置

Info

Publication number: CN110084276B
Application number: CN201910251190.7A
Authority: CN
Inventors: 朱喻
Original assignee: Guangzhou Side Medical Technology Co ltd
Current assignee: Guangzhou Side Medical Technology Co ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2021-05-25
Anticipated expiration: 2039-03-29
Also published as: CN110084276A

Abstract

本发明实施例提供一种训练集的拆分方法及装置，所述方法包括：获取用于训练预设模型的训练集；所述训练集包括二类域外训练集；所述二类域外训练集是基于无医学判断价值的原始图片、附着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的训练集；识别所述二类域外训练集中的图片特征，若判断获知所述图片特征所属的类别为第一类别，则选取与所述二类域外训练集、所述第一类别都对应的一类二级对照集对与所述第一类别对应的图片进行对照；根据对照结果拆分所述二类域外训练集。所述装置执行上述方法。本发明实施例提供的训练集的拆分方法及装置，能够提高训练集拆分的合理性。

Description

一种训练集的拆分方法及装置

技术领域

本发明实施例涉及图片处理技术领域，尤其涉及一种训练集的拆分方法及装置。

背景技术

胶囊内镜具有无痛、无伤、拍摄图像信息量大等优点，具备广泛的应用价值。

现有技术采用人工方式识别通过胶囊内镜拍摄的原始图片、并对原始图片进行分类，为了更加准确、高效地识别原始图片，需要构建模型，但是模型在使用之前通常需要进行训练，训练过程中的训练集需要进行拆分，以便模型能够更加准确地进行图片识别，但是，对于训练集的拆分，目前尚没有有效的方法。

因此，如何避免上述缺陷，提高训练集拆分的合理性，成为亟须解决的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种训练集的拆分方法及装置。

本发明实施例提供一种训练集的拆分方法，包括：

获取用于训练预设模型的训练集；所述训练集包括二类域外训练集；所述二类域外训练集是基于无医学判断价值的原始图片、附着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的训练集；

识别所述二类域外训练集中的图片特征，若判断获知所述图片特征所属的类别为第一类别，则选取与所述二类域外训练集、所述第一类别都对应的一类二级对照集对与所述第一类别对应的图片进行对照；

根据对照结果拆分所述二类域外训练集。

本发明实施例提供一种训练集的拆分装置，包括：

获取单元，用于获取用于训练预设模型的训练集；所述训练集包括二类域外训练集；所述二类域外训练集是基于无医学判断价值的原始图片、附着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的训练集；

选取单元，用于识别所述二类域外训练集中的图片特征，若判断获知所述图片特征所属的类别为第一类别，则选取与所述二类域外训练集、所述第一类别都对应的一类二级对照集对与所述第一类别对应的图片进行对照；

拆分单元，用于根据对照结果拆分所述二类域外训练集。

本发明实施例提供一种电子设备，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：

根据对照结果拆分所述二类域外训练集。

本发明实施例提供一种非暂态计算机可读存储介质，包括：

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如下方法：

根据对照结果拆分所述二类域外训练集。

本发明实施例提供的训练集的拆分方法及装置，如果判断获知二类域外训练集中的图片特征所属的类别为第一类别，则选取一类二级对照集对与第一类别对应的图片进行对照，并根据该对照结果拆分二类域外训练集，能够提高训练集拆分的合理性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明训练集的拆分方法实施例流程图；

图2(a)～图2(g)均为本发明实施例拍摄的均质整图图片的截图；

图3(a)～图3(g)均为本发明实施例拍摄的附着有部分覆盖物的图片的截图；

图4(a)～图4(h)均为本发明实施例拍摄的水线图片的截图；

图5为本发明训练集的拆分装置实施例结构示意图；

图6为本发明实施例提供的电子设备实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明训练集的拆分方法实施例流程图，如图1所示，本发明实施例提供的一种训练集的拆分方法，包括以下步骤：

S101：获取用于训练预设模型的训练集；所述训练集包括二类域外训练集；所述二类域外训练集是基于无医学判断价值的原始图片、附着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的训练集。

具体的，装置获取用于训练预设模型的训练集；所述训练集包括二类域外训练集；所述二类域外训练集是基于无医学判断价值的原始图片、附着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的训练集。需要说明的是：该原始图片是通过胶囊内镜拍摄的，对胶囊内镜的工作过程作如下说明：

·胶囊内镜从口腔进入消化道，再从肛门自然排出体外。

·胶囊内镜的电池续航力有限，其有效工作区间为口腔、食道、胃、十二指肠、小肠和大肠一部分。

·胶囊内镜的每次活动都产生域内检查图片和域外检查图片。

·域内检查图片是对消化道某一段所进行的拍摄结果。

·域外检查图片是除了域内检查图片以外，胶囊内镜顺便拍到的图片。

·全部图片均可自动识别，无需任何人工介入(包括图像预处理)。

·识别图像后，将胶囊内镜拍摄的图片分为六个大类(125个小类)，自动保存于125个图片文件夹中，其中，六个大类可以为：

第一大类：一类域外分类标签(10个类别)。

第二大类：二类域外分类标签(13个类别)。

第三大类：基于局部结构特征的第一目标图片分类标签(14个类别)。

第四大类：洞状结构第一目标图片分类标签(8个类别)。

第五大类：基于全局结构特征的第一目标图片分类标签(24个类别)。

第六大类：第二目标图片分类标签(56个类别)。

·能够自动识别口腔、食道、胃、十二指肠、小肠和大肠等消化道的不同部位。

每粒胶囊内镜每次可以拍摄的原始图片的数量可以为2000～3000张，即胶囊内镜获取到的图片集中的图片数量。

可以从医院信息系统中导出、未经任何处理的胶囊内镜拍摄的原始图片(JPG格式)。本发明实施例中的二类域外训练集对应于上述二类域外分类标签，具体说明如下：上述13个类别的二类域外分类标签包括均质整图等分别对应的子类，每个子类都包含有一定数量的、可作为训练样本的样本图片，二类域外训练集可以理解为包含有所有子类对应的所有样本图片的训练集，二类域外训练集中的样本图片可以直接确定为干扰图片，干扰图片可以理解为无法用于图片识别的图片，识别出这些图片以后，需要尽早剔除这些图片，从而减少训练预设模型过程中的运算量。需要说明的是：无医学判断价值的原始图片可以具体包括均质整图、水线图片；所述均质整图中的拍摄物外表面平坦光滑、且没有纹理、颜色均一；所述水线图片中呈现有空气和水的交界线；附着有覆盖物的原始图片可以具体包括气泡覆盖物图片、蛛网状覆盖物图片；所述气泡覆盖物图片中的拍摄物外表面被气泡覆盖、且存在反光现象；所述蛛网状覆盖物图片中的拍摄物外表面被蛛网状物覆盖。本发明实施例着重对与上述第二大类对应的二类域外训练集进行说明。

S102：识别所述二类域外训练集中的图片特征，若判断获知所述图片特征所属的类别为第一类别，则选取与所述二类域外训练集、所述第一类别都对应的一类二级对照集对与所述第一类别对应的图片进行对照。

具体的，装置识别所述二类域外训练集中的图片特征，若判断获知所述图片特征所属的类别为第一类别，则选取与所述二类域外训练集、所述第一类别都对应的一类二级对照集对与所述第一类别对应的图片进行对照。第一类别可以理解为待识别图片的图片特征与包含异常特征的图片特征不易区分，需要选取相应的一类二级对照集中的对照图片进行进一步对照，可以包括均质整图，选取包含有异常特征的整图作为对照图片，并对所述均质整图对应的图片进行对照；其中，所述异常特征包括凸起特征和/或指定颜色特征、所述均质整图中的拍摄物外表面平坦光滑、且没有纹理、颜色均一；若判断获知对照结果为一致，则拆分所述均质整图对应的图片至包含有异常特征的整图中；若判断获知对照结果为不一致，则拆分所述均质整图对应的图片至所述二类域外训练集中；即如果对照结果一致，则说明待识别图片(均质整图对应的图片)的图片特征为异常特征，因此，将这部分图片导入包含有异常特征的整图中；如果对照结果不一致，则说明待识别图片的图片特征不为异常特征，因此，将这部分图片保留在二类域外训练集中。

凸起特征可以包括肿胀、颗粒状物凸起。指定颜色特征可以包括红色、白色，不作具体限定。需要说明的是：该异常特征可以作为某些疾病诊断过程中的中间参考特征，仅仅依赖该异常特征还不足以诊断出疾病。图2(a)～图2(g)均为本发明实施例拍摄的均质整图图片的截图，如图2(a)～图2(g)所示，待检测目标部位的均质整图，具体说明如下：被拍摄对象表面平坦光滑，没有显著纹理，颜色均一，尽管拍摄质量很高，但由于内容过于单一，已经失去医学判断价值(无法判断拍摄对象所处的位置、角度、器官载体、解剖特征等)。图片的数量占比大约是5.8％，这个比例非常高。这类图片由于失去医学价值，尽管表面上不是垃圾图片，即干扰图片，但实际上和“垃圾图片”没有什么分别，后续处理过程中完全可以忽略。

进一步地，所述第一类别还包括附着有部分覆盖物的图片；相应的，所述方法还包括：选取包含有伴随覆盖物异常特征的图片作为对照图片，并对附着有部分覆盖物的图片进行对照；若判断获知对照结果为一致，则拆分附着有部分覆盖物的图片至包含有伴随覆盖物异常特征的图片中；若判断获知对照结果为不一致，则拆分附着有部分覆盖物的图片至所述二类域外训练集中。即如果对照结果一致，则说明待识别图片(附着有部分覆盖物的图片)的图片特征为异常特征，因此，将这部分图片导入伴随覆盖物异常特征的图片中；如果对照结果不一致，则说明待识别图片的图片特征不为异常特征，因此，将这部分图片保留在二类域外训练集中。图3(a)～图3(g)均为本发明实施例拍摄的附着有部分覆盖物的图片的截图，如图3(a)～图3(g)所示，拍摄内容被作为覆盖物的气泡群等部分覆盖，导致图片医学价值较低、但未覆盖的部分还有一定的医学价值。

进一步地，所述第一类别还包括水线图片；相应的，所述方法还包括：

选取包含在水线背景中的异常特征的图片作为对照图片，并对所述水线图片进行对照；若判断获知对照结果为一致，则拆分所述水线图片至包含在水线背景中的异常特征的图片中；若判断获知对照结果为不一致，则拆分所述水线图片至所述二类域外训练集中。即如果对照结果一致，则说明待识别图片(水线图片)的图片特征为异常特征，因此，将这部分图片导入包含在水线背景中的异常特征的图片中；如果对照结果不一致，则说明待识别图片的图片特征不为异常特征，因此，将这部分图片保留在二类域外训练集中。图4(a)～图4(h)均为本发明实施例拍摄的水线图片的截图，如图4(a)～图4(h)所示，图片中出现空气和水的交界线，图片结构清晰简单。暴露在空气中的部分，其内容与上述的均质整图的内容相似，没有医学价值；淹没在水面下的部分，由于被水面覆盖，也没有暴露有价值的信息，因此，整个图片也没有医学价值，可以被视为“垃圾图片”。图片数量占比大约是3.8％。

需要说明的是：一类二级对照集中包括上述包含有异常特征的整图、包含有伴随覆盖物异常特征的图片、包含在水线背景中的异常特征的图片等，选取与所述二类域外训练集、所述第一类别都对应的一类二级对照集对所述第一类别对应的图片进行对照，可以理解为：若第一类别为均质整图，则与均质整图相对应的图片为包含有异常特征的整图；若第一类别为附着有部分覆盖物的图片，则与附着有部分覆盖物的图片相对应的图片为包含有伴随覆盖物异常特征的图片；若第一类别为水线图片，则与水线图片相对应的图片为包含在水线背景中的异常特征的图片。

S103：根据对照结果拆分所述二类域外训练集。

具体的，装置根据对照结果拆分所述二类域外训练集。可参照上述说明，不再赘述。

本发明实施例提供的训练集的拆分方法，如果判断获知二类域外训练集中的图片特征所属的类别为第一类别，则选取一类二级对照集对与第一类别对应的图片进行对照，并根据该对照结果拆分二类域外训练集，能够提高训练集拆分的合理性。

在上述实施例的基础上，所述第一类别包括均质整图；相应的，所述方法包括：

选取包含有异常特征的整图作为对照图片，并对所述均质整图对应的图片进行对照；其中，所述异常特征包括凸起特征和/或指定颜色特征、所述均质整图中的拍摄物外表面平坦光滑、且没有纹理、颜色均一。

具体的，装置选取包含有异常特征的整图作为对照图片，并对所述均质整图对应的图片进行对照；其中，所述异常特征包括凸起特征和/或指定颜色特征、所述均质整图中的拍摄物外表面平坦光滑、且没有纹理、颜色均一。可参照上述实施例，不再赘述。

若判断获知对照结果为一致，则拆分所述均质整图对应的图片至包含有异常特征的整图中。

具体的，装置若判断获知对照结果为一致，则拆分所述均质整图对应的图片至包含有异常特征的整图中。可参照上述实施例，不再赘述。

若判断获知对照结果为不一致，则拆分所述均质整图对应的图片至所述二类域外训练集中。

具体的，装置若判断获知对照结果为不一致，则拆分所述均质整图对应的图片至所述二类域外训练集中。可参照上述实施例，不再赘述。

本发明实施例提供的训练集的拆分方法，通过将包含有异常特征的整图与均质整图对应的图片进行对照，进一步能够提高训练集拆分的合理性。

在上述实施例的基础上，所述第一类别还包括附着有部分覆盖物的图片；相应的，所述方法还包括：

选取包含有伴随覆盖物异常特征的图片作为对照图片，并对附着有部分覆盖物的图片进行对照。

具体的，装置选取包含有伴随覆盖物异常特征的图片作为对照图片，并对附着有部分覆盖物的图片进行对照。可参照上述实施例，不再赘述。

若判断获知对照结果为一致，则拆分附着有部分覆盖物的图片至包含有伴随覆盖物异常特征的图片中。

具体的，装置若判断获知对照结果为一致，则拆分附着有部分覆盖物的图片至包含有伴随覆盖物异常特征的图片中。可参照上述实施例，不再赘述。

若判断获知对照结果为不一致，则拆分附着有部分覆盖物的图片至所述二类域外训练集中。

具体的，装置若判断获知对照结果为不一致，则拆分附着有部分覆盖物的图片至所述二类域外训练集中。可参照上述实施例，不再赘述。

本发明实施例提供的训练集的拆分方法，通过将包含有伴随覆盖物异常特征的图片与附着有部分覆盖物的图片进行对照，进一步能够提高训练集拆分的合理性。

在上述实施例的基础上，所述第一类别还包括水线图片；相应的，所述方法还包括：

选取包含在水线背景中的异常特征的图片作为对照图片，并对所述水线图片进行对照。

具体的，装置选取包含在水线背景中的异常特征的图片作为对照图片，并对所述水线图片进行对照。可参照上述实施例，不再赘述。

若判断获知对照结果为一致，则拆分所述水线图片至包含在水线背景中的异常特征的图片中。

具体的，装置若判断获知对照结果为一致，则拆分所述水线图片至包含在水线背景中的异常特征的图片中。可参照上述实施例，不再赘述。

若判断获知对照结果为不一致，则拆分所述水线图片至所述二类域外训练集中。

具体的，装置若判断获知对照结果为不一致，则拆分所述水线图片至所述二类域外训练集中。可参照上述实施例，不再赘述。

本发明实施例提供的训练集的拆分方法，通过将包含在水线背景中的异常特征的图片与水线图片进行对照，进一步能够提高训练集拆分的合理性。

在上述实施例的基础上，所述方法还包括：

选取不包含异常特征的第一目标图片集中的图片作为二类二级对照图片，并对所属类别为第二类别的目标图片进行对照；所述目标图片包括与待检测目标部位的相似度大于预设阈值的图片。

具体的，装置选取不包含异常特征的第一目标图片集中的图片作为二类二级对照图片，并对所属类别为第二类别的目标图片进行对照；所述目标图片包括与待检测目标部位的相似度大于预设阈值的图片。预设阈值可以根据实际情况自主设置。第一目标图片集中的图片可以理解为评价待检测目标部位的标准图片。第二类别可以理解为待识别图片的图片特征与不包含异常特征的图片特征不易区分，需要选取相应的二类二级对照集中的对照图片进行进一步对照，待检测目标部位可以为胃部、由于，某些肠道图片与胃部图片较为相似，不易区分，将待识别图片与二类二级对照图片(即不包含异常特征的胃部图片)进行对照，从而识别出待识别图片是肠道图片还是胃部图片。

若判断获知对照结果为一致，则拆分所述目标图片至所述第一目标图片集中。

具体的，装置若判断获知对照结果为一致，则拆分所述目标图片至所述第一目标图片集中。参照上述举例，即如果对照结果为一致，则说明目标图片为胃部图片，即可以导入第一目标图片集中，作为评价胃部的标准图片。

若判断获知对照结果为不一致，则拆分所述目标图片至所述二类域外训练集中。

具体的，装置若判断获知对照结果为不一致，则拆分所述目标图片至所述二类域外训练集中。参照上述举例，即如果对照结果为不一致，则说明目标图片为肠道图片，即保留在二类域外训练集中，相当于干扰图片。

本发明实施例提供的训练集的拆分方法，通过将二类二级对照图片与目标图片进行对照，进一步能够提高训练集拆分的合理性。

在上述实施例的基础上，所述根据对照结果拆分所述二类域外训练集的步骤之后，所述方法还包括：

选取异常特征总集作为对照图片总集，并对所述二类域外训练集中的所有图片进行再次对照。

具体的，装置选取异常特征总集作为对照图片总集，并对所述二类域外训练集中的所有图片进行再次对照。异常特征总集可以理解为包含有所有异常特征的总集合，再次对照的目的是：避免存在异常特征图片被吸引到二类域外训练集中。

本发明实施例提供的训练集的拆分方法，进一步能够提高训练集拆分的合理性。

在上述实施例的基础上，所述并对所述二类域外训练集中的所有图片进行再次对照的步骤之后，所述方法还包括：

选取与一类域外训练集相对应的一级对照集，并采用所述一级对照集对再次对照后的二类域外训练集进行重新对照；所述一类域外训练集是基于原始图片的拍摄缺陷、与待检测目标部位无关的拍摄部位确定的训练集。

具体的，装置选取与一类域外训练集相对应的一级对照集，并采用所述一级对照集对再次对照后的二类域外训练集进行重新对照；所述一类域外训练集是基于原始图片的拍摄缺陷、与待检测目标部位无关的拍摄部位确定的训练集。所述拍摄缺陷可以包括：

全曝光图片、全黑图片、半曝光图片、局部曝光图片、结构模糊图片和细节模糊图片；其中，所述全曝光图片、所述半曝光图片和所述局部曝光图片是根据图片曝光区域的面积进行区分的；所述结构模糊图片和所述细节模糊图片是根据图片模糊区域的面积进行区分的。

所述拍摄部位可以包括：

在所述胶囊内镜入口之前拍摄的图片、在食道中拍摄的图片、口腔图片、肠道图片。

需要说明的是：在一类域外训练集拆分过程中，会有一小部分遗漏出去的图片(即本应该保留在一类域外训练集中，确需要在二类域外训练集进行拆分)，这部分图片可以在二类域外训练集中，通过一个可选的一级对照集，把它们收集下来，这个一级对照集不宜过于庞大，数量过大会导致很多二类域外训练集的图片被引导过去。

一级对照集中包括：待识别图片的图片特征(即基于原始图片的拍摄缺陷、与待检测目标部位无关的拍摄部位)与包含异常特征的图片特征不易区分的对照图片，例如模糊度对照图片(即照片中有部分模糊，还有部分清晰，可以将部分清晰的内容作为对照的基准图片)等。

将对照结果为一致的二类域外训练集中的图片拆分至所述一类域外训练集中。

具体的，装置将对照结果为一致的二类域外训练集中的图片拆分至所述一类域外训练集中。参照上述举例，即将上述一小部分遗漏出去的图片拆分至一类域外训练集中。

将对照结果为不一致的二类域外训练集中的图片拆分至所述二类域外训练集中。

具体的，装置将对照结果为不一致的二类域外训练集中的图片拆分至所述二类域外训练集中。参照上述举例，即如果不是上述一小部分遗漏出去的图片，则保留在二类域外训练集中。

图5为本发明训练集的拆分装置实施例结构示意图，如图5所示，本发明实施例提供了一种训练集的拆分装置，包括获取单元501、选取单元502和拆分单元503，其中：

获取单元501用于获取用于训练预设模型的训练集；所述训练集包括二类域外训练集；所述二类域外训练集是基于无医学判断价值的原始图片、附着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的训练集；选取单元502用于识别所述二类域外训练集中的图片特征，若判断获知所述图片特征所属的类别为第一类别，则选取与所述二类域外训练集、所述第一类别都对应的一类二级对照集对与所述第一类别对应的图片进行对照；拆分单元503用于根据对照结果拆分所述二类域外训练集。

具体的，获取单元501用于获取用于训练预设模型的训练集；所述训练集包括二类域外训练集；所述二类域外训练集是基于无医学判断价值的原始图片、附着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的训练集；选取单元502用于识别所述二类域外训练集中的图片特征，若判断获知所述图片特征所属的类别为第一类别，则选取与所述二类域外训练集、所述第一类别都对应的一类二级对照集对与所述第一类别对应的图片进行对照；拆分单元503用于根据对照结果拆分所述二类域外训练集。

本发明实施例提供的训练集的拆分装置，如果判断获知二类域外训练集中的图片特征所属的类别为第一类别，则选取一类二级对照集对与第一类别对应的图片进行对照，并根据该对照结果拆分二类域外训练集，能够提高训练集拆分的合理性。

本发明实施例提供的训练集的拆分装置具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图6为本发明实施例提供的电子设备实体结构示意图，如图6所示，所述电子设备包括：处理器(processor)601、存储器(memory)602和总线603；

其中，所述处理器601、存储器602通过总线603完成相互间的通信；

所述处理器601用于调用所述存储器602中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取用于训练预设模型的训练集；所述训练集包括二类域外训练集；所述二类域外训练集是基于无医学判断价值的原始图片、附着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的训练集；识别所述二类域外训练集中的图片特征，若判断获知所述图片特征所属的类别为第一类别，则选取与所述二类域外训练集、所述第一类别都对应的一类二级对照集对与所述第一类别对应的图片进行对照；根据对照结果拆分所述二类域外训练集。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取用于训练预设模型的训练集；所述训练集包括二类域外训练集；所述二类域外训练集是基于无医学判断价值的原始图片、附着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的训练集；识别所述二类域外训练集中的图片特征，若判断获知所述图片特征所属的类别为第一类别，则选取与所述二类域外训练集、所述第一类别都对应的一类二级对照集对与所述第一类别对应的图片进行对照；根据对照结果拆分所述二类域外训练集。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取用于训练预设模型的训练集；所述训练集包括二类域外训练集；所述二类域外训练集是基于无医学判断价值的原始图片、附着有覆盖物的原始图片、包含有消化残渣物的原始图片确定的训练集；识别所述二类域外训练集中的图片特征，若判断获知所述图片特征所属的类别为第一类别，则选取与所述二类域外训练集、所述第一类别都对应的一类二级对照集对与所述第一类别对应的图片进行对照；根据对照结果拆分所述二类域外训练集。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种训练集的拆分方法，其特征在于，包括：

选取不包含异常特征的第一目标图片集中的图片作为二类二级对照图片，并对所属类别为第二类别的目标图片进行对照；所述目标图片包括与待检测目标部位的相似度大于预设阈值的图片；

若判断获知对照结果为一致，则拆分所述目标图片至所述第一目标图片集中；

若判断获知对照结果为不一致，则拆分所述目标图片至所述二类域外训练集中；

根据对照结果拆分所述二类域外训练集。

2.根据权利要求1所述的方法，其特征在于，所述第一类别包括均质整图；相应的，所述方法包括：

选取包含有异常特征的整图作为对照图片，并对所述均质整图对应的图片进行对照；其中，所述异常特征包括凸起特征和/或指定颜色特征、所述均质整图中的拍摄物外表面平坦光滑、且没有纹理、颜色均一；

若判断获知对照结果为一致，则拆分所述均质整图对应的图片至包含有异常特征的整图中；

3.根据权利要求2所述的方法，其特征在于，所述第一类别还包括附着有部分覆盖物的图片；相应的，所述方法还包括：

选取包含有伴随覆盖物异常特征的图片作为对照图片，并对附着有部分覆盖物的图片进行对照；

若判断获知对照结果为一致，则拆分附着有部分覆盖物的图片至包含有伴随覆盖物异常特征的图片中；

4.根据权利要求3所述的方法，其特征在于，所述第一类别还包括水线图片；相应的，所述方法还包括：

选取包含在水线背景中的异常特征的图片作为对照图片，并对所述水线图片进行对照；

若判断获知对照结果为一致，则拆分所述水线图片至包含在水线背景中的异常特征的图片中；

5.根据权利要求1所述的方法，其特征在于，所述根据对照结果拆分所述二类域外训练集的步骤之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述并对所述二类域外训练集中的所有图片进行再次对照的步骤之后，所述方法还包括：

选取与一类域外训练集相对应的一级对照集，并采用所述一级对照集对再次对照后的二类域外训练集进行重新对照；所述一类域外训练集是基于原始图片的拍摄缺陷、与待检测目标部位无关的拍摄部位确定的训练集；

将对照结果为一致的二类域外训练集中的图片拆分至所述一类域外训练集中；

7.一种训练集的拆分装置，其特征在于，包括：

拆分单元，用于根据对照结果拆分所述二类域外训练集。

8.一种电子设备，其特征在于，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。