发明内容
本申请的主要目的为提供一种基于数字切片的图片分类方法、装置、计算机设备和存储介质,旨在实现准确的图片分类。
为了实现上述发明目的,本申请提出一种基于数字切片的图片分类方法,包括以下步骤:
获取数字切片,所述数字切片是采用预设的显微扫描仪对液基薄层细胞样本进行扫描而得到;
采用预设的预处理方法对所述数字切片进行预处理,从而得到数字图片;
采用预设的数字图片分类模型中的图片向量生成器对所述数字图片进行运算,从而得到所述图片向量生成器中的第一编码器进行编码而成的第一指定向量A,其中所述图片向量生成器由依次连接的第一编码器、第一译码器和第二编码器而构成;其中所述数字图片分类模型采用指定样本数据训练而成;
采用所述第一译码器对所述第一指定向量A进行译码处理,从而得到所述第一译码器输出的译码图片;
采用所述第二编码器对所述译码图片进行编码处理,从而得到所述第二编码器输出的第二指定向量B;
使用预设的相似程度计算方法,计算所述第一指定向量A和所述第二指定向量B之间的相似程度值,并判断所述相似程度值是否大于预设的相似度阈值;
若所述相似程度值大于预设的相似度阈值,则将所述数字切片确定为预设分类图片。
进一步地,所述液基薄层细胞样本在进行扫描前经过了至少两次染色处理,所述采用预设的预处理方法对所述数字切片进行预处理的步骤,包括:
获取所述数字切片中的像素点的RGB颜色模型中的红颜色通道的数值R、绿颜色通道的数值G和蓝颜色通道的数值B;
根据公式:F1=MIN{ROUND[(a1R+a2G+a3B)/H,0],P1},获取参考数值F1,其中MIN为最小值函数,ROUND为四舍五入函数,a1、a2、a3均为大于0且小于H的正数,H为大于0的整数,P1为预设的取值在范围(0,255)之内第一阈值参数;
判断所述参考数值F1的值是否等于P1;
若所述参考数值F1的值等于P1,则根据公式:F2=MAX{ROUND[(a1R+a2G+a3B)/H,0],P2},获取参考数值F2,其中MAX为最大值函数,P2为预设的取值在范围(0,255)之内第二阈值参数,并且P2大于P1;
判断所述参考数值F2的值是否等于P2;
若所述参考数值F2的值不等于P2,则将所述像素点的RGB颜色设置为预设数值。
进一步地,所述数字图片分类模型还包括第一鉴别器,所述第一鉴别器用于鉴别所述数字图片和所述译码图片是否相同,并且所述图片向量生成器与所述第一鉴别器采用相同的数据共同训练,所述采用预设的数字图片分类模型中的图片向量生成器对所述数字图片进行运算,从而得到所述图片向量生成器中的第一编码器进行编码而成的第一指定向量A,其中所述图片向量生成器由依次连接的第一编码器、第一译码器和第二编码器而构成;其中所述数字图片分类模型采用指定样本数据训练而成的步骤之前,包括:
从预设的训练样本集中提取指定样本图片,并将所述指定样本图片输入所述图片向量生成器中进行运算,从而得到所述图片向量生成器中的第一编码器输出的第一训练向量M1、第一译码器输出的中间图片和第二编码器输出的第二训练向量M2;
计算所述第一训练向量M1和所述第二训练向量M2之间的第一向量相似程度值,并且利用所述第一鉴别器,计算所述指定样本图片与所述中间图片之间的第一图片相似程度值;
判断所述第一向量相似程度值是否大于预设的向量相似程度阈值,并且判断所述第一图片相似程度值是否大于预设的图片相似程度阈值;
若所述第一向量相似程度值大于预设的向量相似程度阈值,并且所述第一图片相似程度值大于预设的图片相似程度阈值,则保持所述数字图片分类模型的参数不变,并且将所述指定样本图片从所述训练样本集中删除。
进一步地,所述计算所述指定样本图片与所述中间图片之间的第一图片相似程度值的步骤,包括:
依次对比所述指定样本图片与所述中间图片对应的像素点,并统计相同像素点的数量;
利用公式:相同像素点占比率=相同像素点的数量/所述指定样本图片中所有像素点的数量,从而得到所述相同像素点占比率;
将所述相同像素点占比率作为所述指定样本图片与所述中间图片之间的第一图片相似程度值。
进一步地,所述第一编码器和所述第二编码器均包括多个卷积层,所述数字图片分类模型还包括第二鉴别器,所述采用所述第二编码器对所述译码图片进行编码处理,从而得到所述第二编码器输出的第二指定向量B的步骤之前,包括:
获取所述第一编码器中的第m个卷积层输出的第一编码卷积图像,以及获取所述第二编码器中的第m个卷积层输出的第二编码卷积图像,其中m为大于1的整数;
将所述第一编码卷积图像和所述第二编码卷积图像输入所述第二鉴别器中进行运算,从而得到鉴别结果,其中所述鉴别结果包括相似或者不相似;
若所述鉴别结果为相似,则生成继续编码指令,所述继续编码指令用于指示利用所述第二编码器中的第m+1个卷积层对所述译码图片进行继续编码。
进一步地,所述使用预设的相似程度计算方法,计算所述第一指定向量A和所述第二指定向量B之间的相似程度值,并判断所述相似程度值是否大于预设的相似度阈值的步骤,包括:
根据公式:
计算得到所述第一指定向量A和所述第二指定向量B的相似程度值Sim,其中,Ai为所述第一指定向量A的第i个分向量的数值,Bi为所述第二指定向量B的第i个分向量的数值,所述第一指定向量A和所述第二指定向量B均包括n个分向量;
判断所述相似程度值Sim是否大于预设的相似度阈值。
进一步地,所述预设分类图片的类别可划分为晚期图片子分类或者非晚期图片子分类,所述若所述相似程度值大于预设的相似度阈值,则将所述数字切片确定为预设分类图片的步骤之后,包括:
将所述数字图片输入预设的晚期图片分类模型中进行处理,其中所述晚期图片分类模型通过预设的训练集训练得到,所述训练集仅包括晚期数字图片;
获取所述晚期图片分类模型输出的分类结果,并判断所述分类结果是否为晚期图片;
若所述分类结果为晚期图片,则将所述数字切片分类为晚期图片子分类。
本申请提供一种基于数字切片的图片分类装置,包括:
数字切片获取单元,用于获取数字切片,所述数字切片是采用预设的显微扫描仪对液基薄层细胞样本进行扫描而得到;
预处理单元,用于采用预设的预处理方法对所述数字切片进行预处理,从而得到数字图片;
第一指定向量A生成单元,用于采用预设的数字图片分类模型中的图片向量生成器对所述数字图片进行运算,从而得到所述图片向量生成器中的第一编码器进行编码而成的第一指定向量A,其中所述图片向量生成器由依次连接的第一编码器、第一译码器和第二编码器而构成;其中所述数字图片分类模型采用指定样本数据训练而成;
译码图片生成单元,用于采用所述第一译码器对所述第一指定向量A进行译码处理,从而得到所述第一译码器输出的译码图片;
第二指定向量B生成单元,用于采用所述第二编码器对所述译码图片进行编码处理,从而得到所述第二编码器输出的第二指定向量B;
相似程度值判断单元,用于使用预设的相似程度计算方法,计算所述第一指定向量A和所述第二指定向量B之间的相似程度值,并判断所述相似程度值是否大于预设的相似度阈值;
图片分类单元,用于若所述相似程度值大于预设的相似度阈值,则将所述数字切片确定为预设分类图片。
本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于数字切片的图片分类方法、装置、计算机设备和存储介质,获取数字切片;对所述数字切片进行预处理,从而得到数字图片;采用预设的数字图片分类模型中的图片向量生成器对所述数字图片进行运算,从而得到所述图片向量生成器中的第一编码器进行编码得到的第一指定向量A;采用第一译码器对所述第一指定向量A进行译码处理,从而得到所述第一译码器输出的译码图片;采用所述第二编码器对所述译码图片进行编码处理,从而得到所述第二编码器输出的第二指定向量B;计算所述第一指定向量A和所述第二指定向量B之间的相似程度值;若所述相似程度值大于预设的相似度阈值,则将所述数字切片确定为预设分类图片。从而实现了准确的图片分类。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于数字切片的图片分类方法,包括以下步骤:
S1、获取数字切片,所述数字切片是采用预设的显微扫描仪对液基薄层细胞样本进行扫描而得到;
S2、采用预设的预处理方法对所述数字切片进行预处理,从而得到数字图片;
S3、采用预设的数字图片分类模型中的图片向量生成器对所述数字图片进行运算,从而得到所述图片向量生成器中的第一编码器进行编码而成的第一指定向量A,其中所述图片向量生成器由依次连接的第一编码器、第一译码器和第二编码器而构成;其中所述数字图片分类模型采用指定样本数据训练而成;
S4、采用所述第一译码器对所述第一指定向量A进行译码处理,从而得到所述第一译码器输出的译码图片;
S5、采用所述第二编码器对所述译码图片进行编码处理,从而得到所述第二编码器输出的第二指定向量B;
S6、使用预设的相似程度计算方法,计算所述第一指定向量A和所述第二指定向量B之间的相似程度值,并判断所述相似程度值是否大于预设的相似度阈值;
S7、若所述相似程度值大于预设的相似度阈值,则将所述数字切片确定为预设分类图片。
如上述步骤S1所述,获取数字切片,所述数字切片是采用预设的显微扫描仪对液基薄层细胞样本进行扫描而得到。其中所述液基薄层细胞样本可以以任意适合于被扫描的形式存在,例如被制作成物理切片。其中所述液基薄层细胞样本可为任意类型的样本,例如为宫颈癌患者的样本。
如上述步骤S2所述,采用预设的预处理方法对所述数字切片进行预处理,从而得到数字图片。由于数字切片是对液基薄层细胞样本进行直接扫描得到的,虽然其保留了完整的信息,但是直接作为后续步骤的处理会加重计算的负担。因此本申请还对所述数字切片进行预处理,预处理的方法例如为:获取所述数字切片中的像素点的RGB颜色模型中的红颜色通道的数值R、绿颜色通道的数值G和蓝颜色通道的数值B;根据公式:F1=MIN{ROUND[(a1R+a2G+a3B)/H,0],P1},获取参考数值F1,其中MIN为最小值函数,ROUND为四舍五入函数,a1、a2、a3均为大于0且小于H的正数,H为大于0的整数,P1为预设的取值在范围(0,255)之内第一阈值参数;判断所述参考数值F1的值是否等于P1;若所述参考数值F1的值不等于P1,则根据公式:F2=MAX{ROUND[(a1R+a2G+a3B)/H,0],P2},获取参考数值F2,其中MAX为最大值函数,P2为预设的取值在范围(0,255)之内第二阈值参数,并且P2大于P1;
判断所述参考数值F2的值是否等于P2;若所述参考数值F2的值不等于P2,则将所述像素点的RGB颜色设置为预设数值。
如上述步骤S3所述,采用预设的数字图片分类模型中的图片向量生成器对所述数字图片进行运算,从而得到所述图片向量生成器中的第一编码器进行编码而成的第一指定向量A,其中所述图片向量生成器由依次连接的第一编码器、第一译码器和第二编码器而构成;其中所述数字图片分类模型采用指定样本数据训练而成。本申请采用特殊的数字图片分类模型进行图片分类,其中数字图片分类模型至少包括图片向量生成器,所述图片向量生成器由依次连接的第一编码器、第一译码器和第二编码器而构成。进一步地,所述指定样本数据仅包括已确诊的数字图片,因此所述第一编码器只能对已确诊患者的数字图片进行完全识别,而对于除已确诊的数字图片之外的其他图片进行识别时不可避免的会有信息丢失,造成第一编码器生成的第一指定向量A与第二编码器生成的第二指定向量B不相同或不相似,而已确诊的数字图片正好相反(第一编码器生成的第一指定向量A与第二编码器生成的第二指定向量B相同或相似),据此实现分类。并且由于训练时只采用了已确诊的数字图片,因此训练速度更快。其中所述分类模型可以采用任意结构,例如基于深度卷积对抗生成网络的网络结构。所述第一编码器可以为任意结构,例如为由多个卷积层构成的卷积网络,其最终输出为第一指定向量。
如上述步骤S4所述,采用所述第一译码器对所述第一指定向量A进行译码处理,从而得到所述第一译码器输出的译码图片。其中所述第一解码器可以为任意结构的解码器,但能够对所述第一指定向量A进行译码,例如包括多个卷积层和反卷积层的结构。由于第一解码器是基于第一指定向量A的译码处理,而第一指定向量A是从数字图片中提取的,若提取过程的信息损失过多,将导致译码图片与数据图片区别过大。而若数字图片是患者的数字图片,则不会有信息损失,因此译码图片与数据图片相似。
如上述步骤S5所述,采用所述第二编码器对所述译码图片进行编码处理,从而得到所述第二编码器输出的第二指定向量B。其中所述第二编码器例如为由多个卷积层构成的卷积网络,其最终输出为第二指定向量。并且所述第二编码器的结构与所述第一编码器相同,或者与所述第一编码器不相同,但能够对所述译码图片进行编码。
如上述步骤S6所述,使用预设的相似程度计算方法,计算所述第一指定向量A和所述第二指定向量B之间的相似程度值,并判断所述相似程度值是否大于预设的相似度阈值。相似程度计算方法可为任意算法,例如为:根据公式:
计算得到所述第一指定向量A和所述第二指定向量B的相似程度值Sim,其中,Ai为所述第一指定向量A的第i个分向量的数值,Bi为所述第二指定向量B的第i个分向量的数值,所述第一指定向量A和所述第二指定向量B均包括n个分向量。
如上述步骤S7所述,若所述相似程度值大于预设的相似度阈值,则将所述数字切片确定为预设分类图片。其中,若所述数字切片与所述预设分类图片对应,例如,当所述数字切片为宫颈癌患者的数字切片时,所述预设分类图片即为宫颈癌分类图片。若所述相似程度值大于预设的相似度阈值,表明由第一编码器、译码器、第二编码器的整个数据处理过程中几乎没有信息丢失,因此所述数字切片即为预设分类图片(因此若为除预设分类图片之外的其他图片,在识别时会有信息丢失,导致所述相似程度值不大于预设的相似度阈值)。
在一个实施方式中,所述液基薄层细胞样本在进行扫描前经过了至少两次染色处理,所述采用预设的预处理方法对所述数字切片进行预处理的步骤S2,包括:
S201、获取所述数字切片中的像素点的RGB颜色模型中的红颜色通道的数值R、绿颜色通道的数值G和蓝颜色通道的数值B;
S202、根据公式:F1=MIN{ROUND[(a1R+a2G+a3B)/H,0],P1},获取参考数值F1,其中MIN为最小值函数,ROUND为四舍五入函数,a1、a2、a3均为大于0且小于H的正数,H为大于0的整数,P1为预设的取值在范围(0,255)之内第一阈值参数;
S203、判断所述参考数值F1的值是否等于P1;
S204、若所述参考数值F1的值等于P1,则根据公式:F2=MAX{ROUND[(a1R+a2G+a3B)/H,0],P2},获取参考数值F2,其中MAX为最大值函数,P2为预设的取值在范围(0,255)之内第二阈值参数,并且P2大于P1;
S205、判断所述参考数值F2的值是否等于P2;
S206、若所述参考数值F2的值不等于P2,则将所述像素点的RGB颜色设置为预设数值。
如上所述,实现了采用预设的预处理方法对所述数字切片进行预处理。其中,所述液基薄层细胞样本在进行扫描前经过了至少两次染色处理,从而使液基薄层细胞样本被染为至少三种颜色(原色、第一染色使样本中的部分结构或物质被染为第一颜色、第二染色使样本中的部分结构或物质被染为第二颜色)。为了进一步使结构更清晰并且计算负担更小,本申请还将不同像素点分别设置为(0,0,0)、预设数值或者(E,E,E),其中E大于0小于255,所述预设数值例如为(255,255,255)。进一步地,当所述参考数值F1的值等于P1时,将所述像素点的RGB颜色设置为(0,0,0)。进一步地,当所述参考数值F2的值等于P2时,将所述像素点的RGB颜色设置为(E,E,E)。从而使所述数字切片呈完全的三色,使得对比更加明显,更便于减少计算量,提高处理效率。
在一个实施方式中,所述数字图片分类模型还包括第一鉴别器,所述第一鉴别器用于鉴别所述数字图片和所述译码图片是否相同,并且所述图片向量生成器与所述第一鉴别器采用相同的数据共同训练,所述采用预设的数字图片分类模型中的图片向量生成器对所述数字图片进行运算,从而得到所述图片向量生成器中的第一编码器进行编码而成的第一指定向量A,其中所述图片向量生成器由依次连接的第一编码器、第一译码器和第二编码器而构成;其中所述数字图片分类模型采用指定样本数据训练而成的步骤S3之前,包括:
S21、从预设的训练样本集中提取指定样本图片,并将所述指定样本图片输入所述图片向量生成器中进行运算,从而得到所述图片向量生成器中的第一编码器输出的第一训练向量M1、第一译码器输出的中间图片和第二编码器输出的第二训练向量M2;
S22、计算所述第一训练向量M1和所述第二训练向量M2之间的第一向量相似程度值,并且利用所述第一鉴别器,计算所述指定样本图片与所述中间图片之间的第一图片相似程度值;
S23、判断所述第一向量相似程度值是否大于预设的向量相似程度阈值,并且判断所述第一图片相似程度值是否大于预设的图片相似程度阈值;
S24、若所述第一向量相似程度值大于预设的向量相似程度阈值,并且所述第一图片相似程度值大于预设的图片相似程度阈值,则保持所述数字图片分类模型的参数不变,并且将所述指定样本图片从所述训练样本集中删除。
如上所述,实现了保持所述数字图片分类模型的参数不变,将所述指定样本图片从所述训练样本集中删除。所述数字图片分类模型还包括第一鉴别器,所述第一鉴别器用于鉴别所述数字图片和所述译码图片是否相同。其中所述第一辨别器可为任意结构,例如为一系列卷积层、池化层组成的深度卷积分类网络。所述第一辨别器仅在训练过程中起作用,用于辅助优化参数,而在数字图片分类模型进行分类的过程中,仅使用图片向量生成器即可,从而提高分类处理的速度。并且由于采用的是共同训练,因此辨别器与向量生成器的适应性更高,鲁棒性更好。若所述第一训练向量M1和所述第二训练向量M2之间的第一向量相似程度值大于预设的图片相似程度阈值,并且所述第一图片相似程度值大于预设的图片相似程度阈值,则表明当前的数字图片分类模型能够对所述指定样本图片进行正确分类,因此保持所述数字图片分类模型的参数不变,并且将所述指定样本图片从所述训练样本集中删除。
在一个实施方式中,所述计算所述指定样本图片与所述中间图片之间的第一图片相似程度值的步骤S22,包括:
S221、依次对比所述指定样本图片与所述中间图片对应的像素点,并统计相同像素点的数量;
S222、利用公式:相同像素点占比率=相同像素点的数量/所述指定样本图片中所有像素点的数量,从而得到所述相同像素点占比率;
S223、将所述相同像素点占比率作为所述指定样本图片与所述中间图片之间的第一图片相似程度值。
如上所述,实现了计算所述数字图片与所述中间图片之间的第一图片相似度值。本申请采用逐次比对像素点的方式进行判断。若所述数字图片与所述中间图片是相同的,那么相同像素点的数量应当占绝大多数,即所述相同占比趋近于1。据此,根据公式:相同像素点占比率=相同像素点的数量/所述指定样本图片中所有像素点的数量,从而得到所述相同像素点占比率,若所述相同像素点占比大于预设的占比阈值,则判定所述数字图片与所述中间图片相同。其中相同像素点的判断,可以用任意方式来判断,例如以三原色的数值差别均在预设的颜色阈值之内,则判定为相同像素点。
在一个实施方式中,所述第一编码器和所述第二编码器均包括多个卷积层,所述数字图片分类模型还包括第二鉴别器,所述采用所述第二编码器对所述译码图片进行编码处理,从而得到所述第二编码器输出的第二指定向量B的步骤S5之前,包括:
S41、获取所述第一编码器中的第m个卷积层输出的第一编码卷积图像,以及获取所述第二编码器中的第m个卷积层输出的第二编码卷积图像,其中m为大于1的整数;
S42、将所述第一编码卷积图像和所述第二编码卷积图像输入所述第二鉴别器中进行运算,从而得到鉴别结果,其中所述鉴别结果包括相似或者不相似;
S43、若所述鉴别结果为相似,则生成继续编码指令,所述继续编码指令用于指示利用所述第二编码器中的第m+1个卷积层对所述译码图片进行继续编码。
如上所述,实现了设置第二鉴别器以提高准确性。所述第一编码器与所述第二编码器的结构可以相同,也可以不同,但是均包括多个卷积层,并且优选具有相同的卷积层。其中所述第一编码器包括第m个卷积层(用于生成第一编码卷积图像),第二编码器包括第m个卷积层(用于生成第二编码卷积图像),其中m为大于1的整数,例如m=2或5。第二鉴别器与所述第一编码器与所述第二编码器信号连接,从而从所述第一编码器中获取第一编码卷积图像,并从所述第二编码器中获取第二编码卷积图像,再鉴别第一编码卷积图像与第二编码卷积图像是否相似。若不相似,表明数字图片分类模型在分类处理过程中丢失了过多的图片特征,也即所述数字图片不是患者的数字图片(原因在于:数字图片分类模型仅由患者的数字图片训练而成,因此在对非患者的数字图片进行分类处理之时,会出现图片特征丢失的情况;而对于患者的数字图片,则不会出现图片特征丢失,此时鉴别结果应为相似)。若为相似,则需要利用第二编码器继续处理,据此生成继续编码指令,所述继续编码指令用于指示利用所述第二编码器中的第m+1个卷积层对所述译码图片进行继续编码。本申请通过设置第二鉴别器,提前识别出非患者的数字图片,进一步提高分类的准确性,并且提高分类处理的效率。
在一个实施方式中,所述使用预设的相似程度计算方法,计算所述第一指定向量A和所述第二指定向量B之间的相似程度值,并判断所述相似程度值是否大于预设的相似度阈值的步骤S6,包括:
S501、根据公式:
计算得到所述第一指定向量A和所述第二指定向量B的相似程度值Sim,其中,Ai为所述第一指定向量A的第i个分向量的数值,Bi为所述第二指定向量B的第i个分向量的数值,所述第一指定向量A和所述第二指定向量B均包括n个分向量;
S502、判断所述相似程度值Sim是否大于预设的相似度阈值。
如上所述,实现了使用预设的相似程度计算方法,计算所述第一指定向量A和所述第二指定向量B之间的相似程度值,并判断所述相似程度值是否大于预设的相似度阈值。其中采用的公式为:
所述相似程度值Sim的最大值为1。当所述相似程度值Sim的数值等于1时,表明所述第一指定向量A和所述第二指定向量B最相似。当所述相似程度值Sim的数值与1差别越大,表明所述第一指定向量A和所述第二指定向量B越不相似。据此,通过判断所述相似程度值Sim是否大于预设的相似度阈值,从而确定所述第一指定向量A和所述第二指定向量B是否相似,进而确定数字图片是否是所述数字图片分类模型能够完全识别的(不丢失特征),从而确定所述数字图片是否为预设分类图片。
在一个实施方式中,所述预设分类图片的类别可划分为晚期图片子分类或者非晚期图片子分类,所述若所述相似程度值大于预设的相似度阈值,则将所述数字切片确定为预设分类图片的步骤S7之后,包括:
S71、将所述数字图片输入预设的晚期图片分类模型中进行处理,其中所述晚期图片分类模型通过预设的训练集训练得到,所述训练集仅包括晚期数字图片;
S72、获取所述晚期图片分类模型输出的分类结果,并判断所述分类结果是否为晚期图片;
S73、若所述分类结果为晚期图片,则将所述数字切片分类为晚期图片子分类。
如上所述,实现了利用晚期图片分类模型实现细分类。为了使分类结果更加精确,以利于数据的再次利用,本申请对所述数字图片进行了进一步分类。其中,所述预设分类图片的类别可划分为晚期图片子分类或者非晚期图片子分类,因此,所述数字图片可被进一步细分为晚期图片子分类或者非晚期图片子分类。所述晚期图片指被确诊为晚期症状的数字图片,所述非晚期图片子分类是被确诊为非晚期症状的数字图片(例如早期图片)。由于所述晚期图片分类模型通过预设的训练集训练得到,所述训练集仅包括晚期数字图片,因此能够胜任至少对晚期图片的分类任务。若所述分类结果为晚期图片,则将所述数字切片分类为晚期图片子分类,从而将数字切片从较为粗略的预设分类图片,进一步分类为晚期图片子分类,实现了数据的精细归类。
本申请的基于数字切片的图片分类方法,获取数字切片;对所述数字切片进行预处理,从而得到数字图片;采用预设的数字图片分类模型中的图片向量生成器对所述数字图片进行运算,从而得到所述图片向量生成器中的第一编码器进行编码得到的第一指定向量A;采用第一译码器对所述第一指定向量A进行译码处理,从而得到所述第一译码器输出的译码图片;采用所述第二编码器对所述译码图片进行编码处理,从而得到所述第二编码器输出的第二指定向量B;计算所述第一指定向量A和所述第二指定向量B之间的相似程度值;若所述相似程度值大于预设的相似度阈值,则将所述数字切片确定为预设分类图片。从而实现了准确的图片分类。
参照图2,本申请实施例提供一种基于数字切片的图片分类装置,包括:
数字切片获取单元10,用于获取数字切片,所述数字切片是采用预设的显微扫描仪对液基薄层细胞样本进行扫描而得到;
预处理单元20,用于采用预设的预处理方法对所述数字切片进行预处理,从而得到数字图片;
第一指定向量A生成单元30,用于采用预设的数字图片分类模型中的图片向量生成器对所述数字图片进行运算,从而得到所述图片向量生成器中的第一编码器进行编码而成的第一指定向量A,其中所述图片向量生成器由依次连接的第一编码器、第一译码器和第二编码器而构成;其中所述数字图片分类模型采用指定样本数据训练而成;
译码图片生成单元40,用于采用所述第一译码器对所述第一指定向量A进行译码处理,从而得到所述第一译码器输出的译码图片;
第二指定向量B生成单元50,用于采用所述第二编码器对所述译码图片进行编码处理,从而得到所述第二编码器输出的第二指定向量B;
相似程度值判断单元60,用于使用预设的相似程度计算方法,计算所述第一指定向量A和所述第二指定向量B之间的相似程度值,并判断所述相似程度值是否大于预设的相似度阈值;
图片分类单元70,用于若所述相似程度值大于预设的相似度阈值,则将所述数字切片确定为预设分类图片。
其中上述单元分别用于执行的操作与前述实施方式的基于数字切片的图片分类方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述液基薄层细胞样本在进行扫描前经过了至少两次染色处理,所述预处理单元20,包括:
颜色数值获取子单元,用于获取所述数字切片中的像素点的RGB颜色模型中的红颜色通道的数值R、绿颜色通道的数值G和蓝颜色通道的数值B;
参考数值F1获取子单元,用于根据公式:F1=MIN{ROUND[(a1R+a2G+a3B)/H,0],P1},获取参考数值F1,其中MIN为最小值函数,ROUND为四舍五入函数,a1、a2、a3均为大于0且小于H的正数,H为大于0的整数,P1为预设的取值在范围(0,255)之内第一阈值参数;
参考数值F1判断子单元,用于判断所述参考数值F1的值是否等于P1;
参考数值F2获取子单元,用于若所述参考数值F1的值等于P1,则根据公式:F2=MAX{ROUND[(a1R+a2G+a3B)/H,0],P2},获取参考数值F2,其中MAX为最大值函数,P2为预设的取值在范围(0,255)之内第二阈值参数,并且P2大于P1;
参考数值F2判断子单元,用于判断所述参考数值F2的值是否等于P2;
颜色设置子单元,用于若所述参考数值F2的值不等于P2,则将所述像素点的RGB颜色设置为预设数值。
其中上述子单元分别用于执行的操作与前述实施方式的基于数字切片的图片分类方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述数字图片分类模型还包括第一鉴别器,所述第一鉴别器用于鉴别所述数字图片和所述译码图片是否相同,并且所述图片向量生成器与所述第一鉴别器采用相同的数据共同训练,所述装置,包括:
指定样本图片提取单元,用于从预设的训练样本集中提取指定样本图片,并将所述指定样本图片输入所述图片向量生成器中进行运算,从而得到所述图片向量生成器中的第一编码器输出的第一训练向量M1、第一译码器输出的中间图片和第二编码器输出的第二训练向量M2;
第一相似程度值计算单元,用于计算所述第一训练向量M1和所述第二训练向量M2之间的第一向量相似程度值,并且利用所述第一鉴别器,计算所述指定样本图片与所述中间图片之间的第一图片相似程度值;
第一相似程度值判断单元,用于判断所述第一向量相似程度值是否大于预设的向量相似程度阈值,并且判断所述第一图片相似程度值是否大于预设的图片相似程度阈值;
指定样本图片删除单元,用于若所述第一向量相似程度值大于预设的向量相似程度阈值,并且所述第一图片相似程度值大于预设的图片相似程度阈值,则保持所述数字图片分类模型的参数不变,并且将所述指定样本图片从所述训练样本集中删除。
其中上述单元分别用于执行的操作与前述实施方式的基于数字切片的图片分类方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述第一相似程度值计算单元,包括:
相同像素点的数量统计子单元,用于依次对比所述指定样本图片与所述中间图片对应的像素点,并统计相同像素点的数量;
相同像素点占比率获取子单元,用于利用公式:相同像素点占比率=相同像素点的数量/所述指定样本图片中所有像素点的数量,从而得到所述相同像素点占比率;
第一图片相似程度值获取子单元,用于将所述相同像素点占比率作为所述指定样本图片与所述中间图片之间的第一图片相似程度值。
其中上述子单元分别用于执行的操作与前述实施方式的基于数字切片的图片分类方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述第一编码器和所述第二编码器均包括多个卷积层,所述数字图片分类模型还包括第二鉴别器,所述装置,包括:
编码卷积图像获取单元,用于获取所述第一编码器中的第m个卷积层输出的第一编码卷积图像,以及获取所述第二编码器中的第m个卷积层输出的第二编码卷积图像,其中m为大于1的整数;
鉴别结果获取单元,用于将所述第一编码卷积图像和所述第二编码卷积图像输入所述第二鉴别器中进行运算,从而得到鉴别结果,其中所述鉴别结果包括相似或者不相似;
继续编码指令生成单元,用于若所述鉴别结果为相似,则生成继续编码指令,所述继续编码指令用于指示利用所述第二编码器中的第m+1个卷积层对所述译码图片进行继续编码。
其中上述单元分别用于执行的操作与前述实施方式的基于数字切片的图片分类方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述相似程度值判断单元60,包括:
相似程度值Sim计算子单元,用于根据公式:
计算得到所述第一指定向量A和所述第二指定向量B的相似程度值Sim,其中,Ai为所述第一指定向量A的第i个分向量的数值,Bi为所述第二指定向量B的第i个分向量的数值,所述第一指定向量A和所述第二指定向量B均包括n个分向量;
相似程度值Sim判断子单元,用于判断所述相似程度值Sim是否大于预设的相似度阈值。
其中上述子单元分别用于执行的操作与前述实施方式的基于数字切片的图片分类方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述预设分类图片的类别可划分为晚期图片子分类或者非晚期图片子分类,所述装置,包括:
晚期图片分类模型处理单元,用于将所述数字图片输入预设的晚期图片分类模型中进行处理,其中所述晚期图片分类模型通过预设的训练集训练得到,所述训练集仅包括晚期数字图片;
晚期图片分类结果获取单元,用于获取所述晚期图片分类模型输出的分类结果,并判断所述分类结果是否为晚期图片;
晚期图片子分类单元,用于若所述分类结果为晚期图片,则将所述数字切片分类为晚期图片子分类。
其中上述单元分别用于执行的操作与前述实施方式的基于数字切片的图片分类方法的步骤一一对应,在此不再赘述。
本申请的基于数字切片的图片分类装置,获取数字切片;对所述数字切片进行预处理,从而得到数字图片;采用预设的数字图片分类模型中的图片向量生成器对所述数字图片进行运算,从而得到所述图片向量生成器中的第一编码器进行编码得到的第一指定向量A;采用第一译码器对所述第一指定向量A进行译码处理,从而得到所述第一译码器输出的译码图片;采用所述第二编码器对所述译码图片进行编码处理,从而得到所述第二编码器输出的第二指定向量B;计算所述第一指定向量A和所述第二指定向量B之间的相似程度值;若所述相似程度值大于预设的相似度阈值,则将所述数字切片确定为预设分类图片。从而实现了准确的图片分类。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于数字切片的图片分类方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于数字切片的图片分类方法。
上述处理器执行上述基于数字切片的图片分类方法,其中所述方法包括的步骤分别与执行前述实施方式的基于数字切片的图片分类方法的步骤一一对应,在此不再赘述。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备,获取数字切片;对所述数字切片进行预处理,从而得到数字图片;采用预设的数字图片分类模型中的图片向量生成器对所述数字图片进行运算,从而得到所述图片向量生成器中的第一编码器进行编码得到的第一指定向量A;采用第一译码器对所述第一指定向量A进行译码处理,从而得到所述第一译码器输出的译码图片;采用所述第二编码器对所述译码图片进行编码处理,从而得到所述第二编码器输出的第二指定向量B;计算所述第一指定向量A和所述第二指定向量B之间的相似程度值;若所述相似程度值大于预设的相似度阈值,则将所述数字切片确定为预设分类图片。从而实现了准确的图片分类。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于数字切片的图片分类方法,其中所述方法包括的步骤分别与执行前述实施方式的基于数字切片的图片分类方法的步骤一一对应,在此不再赘述。
本申请的计算机可读存储介质,获取数字切片;对所述数字切片进行预处理,从而得到数字图片;采用预设的数字图片分类模型中的图片向量生成器对所述数字图片进行运算,从而得到所述图片向量生成器中的第一编码器进行编码得到的第一指定向量A;采用第一译码器对所述第一指定向量A进行译码处理,从而得到所述第一译码器输出的译码图片;采用所述第二编码器对所述译码图片进行编码处理,从而得到所述第二编码器输出的第二指定向量B;计算所述第一指定向量A和所述第二指定向量B之间的相似程度值;若所述相似程度值大于预设的相似度阈值,则将所述数字切片确定为预设分类图片。从而实现了准确的图片分类。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。