CN112800259B - 一种基于边缘闭合与共性检测的图像生成方法及系统 - Google Patents

一种基于边缘闭合与共性检测的图像生成方法及系统 Download PDF

Info

Publication number
CN112800259B
CN112800259B CN202110371068.0A CN202110371068A CN112800259B CN 112800259 B CN112800259 B CN 112800259B CN 202110371068 A CN202110371068 A CN 202110371068A CN 112800259 B CN112800259 B CN 112800259B
Authority
CN
China
Prior art keywords
image
edge
text
entity
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110371068.0A
Other languages
English (en)
Other versions
CN112800259A (zh
Inventor
余放
黄崑
孙海沙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Real Esay Culture Technology Co ltd
Original Assignee
Wuhan Real Esay Culture Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Real Esay Culture Technology Co ltd filed Critical Wuhan Real Esay Culture Technology Co ltd
Priority to CN202110371068.0A priority Critical patent/CN112800259B/zh
Publication of CN112800259A publication Critical patent/CN112800259A/zh
Application granted granted Critical
Publication of CN112800259B publication Critical patent/CN112800259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Abstract

本发明公开一种基于边缘闭合与共性检测的图像生成方法及系统,所述方法包括:获取输入的文本,对文本进行文本要素筛选;将筛选出的文本要素分别输入图像搜索引擎,输出相应的图像搜索结果;从中筛选出多个有效图像,对各个图像进行边缘检测,得到边缘检测图像;采用最近邻探测连接的方式对边缘检测图像中的实体进行边缘闭合操作,得到具有封闭边缘的实体;对图像中的所有实体按对应的封闭边缘进行裁剪操作,得到备选纯实体图像;通过无监督图像分类算法对备选纯实体图像进行分类,统计各个类别的图像总数,将图像总数最多的类别中的图像作为对应文本要素的语义图像。本发明可基于文本生成符合常理、背景为透明或纯色的高质量、纯实体语义图像。

Description

一种基于边缘闭合与共性检测的图像生成方法及系统
技术领域
本发明属于文本-图像生成技术领域,具体涉及一种基于像素闭合与共性检测的图像语义分割方法及系统、设备、存储介质。
背景技术
在内容生产领域,高效生产IP决定了以IP生产为核心业务的企业竞争力。但由于IP生产是典型的创造型工作,近十年高速发展的深度学习技术并不能很好的适应“创造”的任务。深度学习在图像方面的应用,以机器视觉领域为主,而文字转静止图像任务是一类典型的信息量增加,要求神经网络具有创造能力的人工智能技术。其底层原理是利用含有卷积神经网络或循环神经网络或各种形式的生成式网络对图像的像素信息进行训练,生成神经网络模型,模型将参数化的经验保存在神经网络各个节点内,从而具有预测或是生成新的相同模式图像的能力。
机器视觉技术目前在图像的分类识别问题上发挥较好,但是在图像生成任务上离市场应用还有一段距离,主要问题表现在:1.在图像风格变换上严重依赖输入像素的训练,并且生成的图像具有较强原图像模式的风格;2.在纯图像生成上,生成分辨率较低图像有较好效果,但是对于标准分辨率和高分辨率图像生成的图像效果模糊,目前无还法进入市场应用领域;3.生成的图像有可能不符合人类日常视觉理解。
就目前而言,由各种生成式深度神经网络创造的图像还不能达到满足市场应用的技术能力,生成标清且符合物理规律的合理图像仍较为困难,且这类任务需要耗费大量的人工标定标签成本和训练成本。
而现存的基于语义-图像分割技术的语义图像生成方式依赖训练,训练样本需要大量的人工像素级图像标定工作,造成每一个样本的人工标定标签的的工作量都较普通深度学习更大,在应用领域难以付出如此规模的人力成本。现存的弱监督学习语义分割技术仍然部分依赖对图像进行人工像素级的染色标定。现存的无监督语义分割技术则是完全依赖生成仿真空间的生成实例,仿真实例与真实空间的各个要素并非同分布,因此也无法有效用于真实图片中要素的提取。
发明内容
有鉴于此,本发明提出了一种基于像素闭合与共性检测的图像图像生成方法及系统、设备、存储介质,用于解决现有文本-图像生成技术中人工标定和训练繁琐、无法根据文本生成合理的语义图像的问题。
本发明第一方面,公开一种基于边缘闭合与共性检测的图像生成方法,所述方法包括:
获取输入的文本,对文本进行文本要素筛选;
将筛选出的文本要素分别输入图像搜索引擎,输出相应的图像搜索结果;
对于同一文本要素对应的搜索结果,从中筛选出多个有效图像,对各个图像进行边缘检测,得到边缘检测图像;
设定动态扫描半径,基于动态扫描半径,采用最近邻探测连接的方式对边缘检测图像中的实体进行边缘闭合操作,得到具有封闭边缘的实体;
对图像中的所有实体按对应的封闭边缘进行裁剪操作,将裁剪分割出的图像作为备选纯实体图像;
通过无监督图像分类算法对备选纯实体图像进行分类,统计各个类别的图像总数,将图像总数最多的类别中的图像作为对应文本要素的语义图像。
优选的,所述对文本进行文本要素筛选具体为:
对输入的文本进行分词、去停用词处理,进行词性标注;
设定筛选文本要素的关键原则,筛选出满足所述关键原则的文本要素,所述关键原则包括:文本语义在现实场景中能够可视化,或者文本语义不可视但该语义伴随着其他可视化的实体同时出现在现实场景中。
优选的,所述采用最近邻的探测连接方式对图像中的实体进行边缘闭合操作,得到封闭边缘具体为:
分别对各个实体编号,为同一实体的边缘像素标记相同的像素ID;
提取边缘检测图像中一个连续边缘的端点作为基准点,以基准点为圆心、以设定的动态扫描半径向外迭代扫描搜索,每次迭代过程中均进行扫描区域的连接判定,筛选出另一个连续边缘上与基准点具有相同的像素ID的端点像素,对两个端点之间的间断像素点进行线性填充连接;当扫描区域内所有端点已连接且每次线性填充连接之后组成的连续边缘的弧线长度均大于填充连接之前的两个连续边缘的端点之间的最大直线距离时,结束本次扫描,完成一组边缘闭合操作;
重复以上边缘闭合操作,直到每个实体的边缘像素沿着实体轮廓围成一个封闭区域。
优选的,所述对两个端点之间的间断像素点进行线性填充连接具体为:
设以连续边缘i的某一基准端点 (x i ,y i )为圆心、以r i 为半径向外搜索到的第一个满足搜索条件的端点为
Figure 364723DEST_PATH_IMAGE001
,两者之间的距离为D i ,当满足
Figure 915790DEST_PATH_IMAGE002
且(x i ,y i )与
Figure 997010DEST_PATH_IMAGE001
的像素ID相同的条件时,以坐标(x i ,y i )为起点,以向量
Figure 989237DEST_PATH_IMAGE003
为方向,以D i 为长度线性填充原本空缺的边缘像素。
优选的,所述动态扫描半径根据当前连续边缘的边缘长度和上一次边缘闭合操作填充的连接像素与之前已存在的边缘像素形成的孤立交叉点个数设定;
r i (t)表示边缘it次迭代扫描时的扫描半径,其动态变化过程如下:
Figure 746977DEST_PATH_IMAGE004
其中,r i (0)表示以处在边缘i上的基准点为圆心进行第一次扫描时的初始半径,函数s(l i )是一个关于边缘i的长度l i 的尺度函数,c 0表示第一次扫描前设置的初始参数;c t-1表示第t-1次扫描后进行端点连接操作时填充的连接像素与之前已存在的边缘像素形成的孤立交叉点个数,ab为可调节系数。
优选的,所述每次迭代过程中均进行扫描区域的连接判定具体为:
当扫描区域无端点时,以半径最大值进行重新扫描,若扫描区域内仍无有效端点,则对系数ab进行调节,或调节尺度函数的系数,以提高半径上限;
当扫描区域出现1个与基准点具有相同ID的另一个连续边缘的端点时,直接进行连接操作;
当扫描区域出现多个与基准点具有相同ID的另一个连续边缘的端点时,选择距离最近的端点进行连接操作或根据具体情况设置选取规则后进行连接操作。
优选的,所述无监督图像分类算法包括无监督的DCN网络、基于DCN网络的深度聚类算法、基于信息不变性的无监督聚类卷积神经网络IIC-CNN分类器。
本发明第二方面,公开一种基于边缘闭合与共性检测的图像生成系统,所述系统包括:
文本处理模块:获取输入的文本,对文本进行文本要素筛选;
图像搜索模块:将筛选出的文本要素分别输入图像搜索引擎,输出相应的图像搜索结果,对于同一文本要素对应的搜索结果,筛选出多个有效图像;
边缘闭合模块:对各个图像进行边缘检测,设定动态扫描半径,基于动态扫描半径,采用最近邻探测连接的方式对边缘检测图像中的实体进行边缘闭合操作,得到具有封闭边缘的实体;
图像分割模块:对图像中的所有实体按对应的封闭边缘进行裁剪操作,将裁剪分割出的图像作为备选纯实体图像;
语义标定模块:通过无监督图像分类算法对备选纯实体图像进行分类,统计各个类别的图像总数将图像总数最多的类别中的图像作为对应文本要素的语义图像。
本发明第三方面,提出一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如本发明第一方面所述的方法。
本发明第四方面,提出一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明第一方面所述的方法。本发明相对于现有技术具有以下有益效果:
1)本发明基于输入的文本进行文本要素筛选,对文本要素进行网络图片搜索,利用文本要素网络图片搜索结果具有相同共性特征的原理,结合语义-图像分割技术从网络图片搜索结果中识别出与文本要素相对应的纯背景实体图像,实现了由文本输入到语义图像要素的输出,不要需要繁琐的标定和训练即可基于文本生成符合常理、背景为透明或纯色的纯实体图像,且具有较高的图像质量;
2)本发明通过对网络图像进行边缘检测,设定动态扫描半径扫描不连续的边缘缺口,通过最近邻探测连接方式进行对边缘缺口进行边缘自动闭合;本发明的边缘自动闭合具有动态调节机制,可以随着封闭结果动态调节扫描半径,从而实施不同的封闭精度与填充粒度,使得封闭区域在算法后期能够逐渐趋近于更高的实体像素覆盖精度,避免出现不同缺口之间或者实体之间像素缠绕、粘连等不合理连接现象;本发明的边缘闭合不涉及求导等复杂运算,可降低计算复杂度,能够快速、批量线性处理,适用于大规模图像数据集的边缘闭合;
3)本发明通过无监督图像分类算法对备选纯实体图像进行分类,将图像总数最多的类别中的图像作为对应文本要素的语义图像,通过无监督学习实现了语义-图像分割,本发明不需要提前建立语义-图像索引库,不依赖人工标定标签的训练数据集,具有较强的泛化性,适用于几乎所有现实中可视的文本-图像要素;本发明在耗费较少系统运算资源的情况下生产出的图像或图形具有应用级的可识别性,符合人类日常视觉理解。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于边缘闭合与共性检测的图像生成方法的流程示意图;
图2为本发明边缘闭合操作的流程示意图;
图3为本发明基于边缘闭合与共性检测的图像生成系统结构示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
本发明提出一种文本输入到语义图像要素输出的方法及系统、设备、存储介质,基于像素自动闭合技术与文本-图像要素语义共性检测机制,能够以文本要素作为输入,输出一个与输入文本语义对应、边缘已经像素级分割的图像实体素材,妙地实现无监督地图像实体语义分割,从而实现与文本对应的图像生成。
如图1所示,本发明提出一种基于边缘闭合与共性检测的图像生成方法,对输入文本进行文本处理,对文本搜索到的图像进行图像处理,最后进行无监督图像分类,输出与输入文本对应的语义图像。所述方法包括如下步骤:
S1、获取输入的文本,对文本进行文本要素筛选;
文本要素是指文本语义对应的能够以可视化方式展现的实体。通常这些实体可以以数字媒体的形式加以表现,例如图像文件中的“猫”,视频文件中的“汽车”。所述步骤S1具体包括如下分步骤:
S11、文本预处理步骤,对输入的文本进行分词、去停用词处理,进行词性标注;
对于输入的文本,首先需要进行文本实体要素分割,对英文文本按空格处逐词划分即可。对于中文文本,采用现有各类分词算法也可有效将句子拆分为词语,在拆分处进行划分即可。对拆分后文本选取合适的停用词词表去除停用词,留下适用于具体任务的纯要素的词语。停用词词表可以采用现存的各个语种的经典停用词(例如中文中的“的”,英文中的“the”,或者标点符号),亦可以根据具体任务,自行定义或修改停用词表。文本被分离成一系列不含停用词的单独的词汇,此时需要将词汇按照具体任务进行词性标注,词性标注的方式可以直接通过定制化的电子词典索引文件进行数据库式的标注,也可以采用词性标注算法进性结合上下文的词性分析标注。
S12、文本要素筛选步骤,设定筛选文本要素的关键原则,筛选出满足所述关键原则的文本要素;
中文或英文中可视化的实体以名词为主,适合成为语义要素的首选词性,但这并不限定名词是唯一成为语义要素的词性,在不同任务和语种中,可能出现多种复杂情况,但是在多数语种中名词是最具有成为要素条件的词性。根据具体词性并参照如下原则选择作为语义实体要素的词汇是本过程的一个特征。所述关键原则包括:文本语义在现实场景中能够可视化,例如“小猫”,“汽车”;或者文本语义不可视但该语义伴通常随着其他可视化的实体同时出现在现实场景中,例如“微风”不可视,但是通常伴随着树叶的飘动。
S13、文本要素的收集与归纳步骤,对分离出的作为要素的文本进行收集以进行备用,要素的搜集与归纳方式可根据具体任务来进行定义,例如直接将提取出的文本要素添加到数组中,亦可以将他们赋予索引归纳进字典或集合中。字典索引可以是该词语在文本中出现的次数,亦可以是位置信息等。
S2、将筛选出的文本要素分别输入图像搜索引擎,输出相应的图像搜索结果;
S3、对于同一文本要素对应的搜索结果,从中筛选出多个有效图像,对各个图像进行边缘检测,得到边缘检测图像;
从中筛选出多个有效图像的筛选条件为:搜索结果总数大于预设阈值且从中随机选取的图像具备共性特征。所述共性特征包括:1.图像包含表示与语义对应实体的像素排列;2.图像包含表示实体以外的伴随实体的像素排列。本发明对图像进行特征提取,以进行共性特征检测。
具体的,设定一个阈值α>0;
当图片搜索输出的结果数量大于等于α且随机选取的图片具备共性特征时认为该文本要素是有效的,称为标准文本要素;标准文本要素具有两个性质:1.每个词语要素在互联网中有大量的语义-图像搜索结果;2.同一词语要素的绝大多数对应图像搜索结果中都包含该词语语义的图像要素或相应特征。一个标准要素文本与其语义-图像搜索结果是一对多的关系,借助常用的搜索引擎以及合理的正则表达式搜索,一个标准要素文本可以搜索出海量的图片结果,并且结果中都包含该文本的图像要素,即图片具备共性特征。
若图片搜索输出的结果数量少于α时,认为该文本要素是无效的,需要人工处理。若该要素实体为新产生的事物,图像素材较少,则对该文本加上新实体标签,留作以后处理或进行排除。若该要素是由于文本要素提取不当造成,则返回步骤S11的停用词列表,进行停用修正。例如将词语“地方”作为输入,而该中文词汇并无对应现实实体。
若输出图像未通过共性特征检测,则判定要素词汇特征性不强,则对该文本加上无特征标签,留作以后处理或进行排除。
利用现存各类边缘检测算法对筛选出的有效图像进行边缘检测,提取出图像的边缘特征,分离出图像中实体的边缘像素。
S4、设定动态扫描半径,基于动态扫描半径,采用最近邻探测连接的方式对边缘检测图像中的实体进行边缘闭合操作,得到具有封闭边缘的实体;
由于一张图片中可能包含多种实体,每个实体的边缘都是一种特征形式,通过边缘检测可以确定其中各个实体的边缘,但是这些边缘不一定是闭合的,这样就不能让算法在像素层面上严格的区分出实体像素在整幅画面中所占领的区域。
步骤S4具体包括如下分步骤:
S41、分离所有边缘像素,计算从图像中抽取出来的各个连续边缘的长度l i ,分别对各个实体编号,为同一实体的边缘像素标记相同的像素ID;边缘长度l i 可以通过几何距离计算,亦可以通过统计像素个数方式进行,此处的长度指的是对长度的一种度量,本发明中不做限定。
S42、提取边缘检测图像中一个连续边缘的端点作为基准点,以基准点为圆心、以设定的动态扫描半径为半径向外迭代扫描搜索,360度扫描周围出现的其他连续边缘的端点。
对边缘进行填充的目的是使边缘闭合,而当扫描半径大小不合适或图像边缘处于较为复杂的局部区域时,填充的边缘像素就会出现异常,其中包含:
1)填充后边缘像素出现交叉;
2)填充后边缘像素出现间断性重合;
3)填充后边缘像素出现扭曲缠绕现象。
边缘像素出现交叉这说明出现了一个以上的实体边缘,而边缘闭合操作都是针对单个实体而言的,所以当出现交叉点时,可以认为是异常连接。同理当边缘发生间断性重合时,说明边缘像素纠缠在一起,连接不合理。而当边缘像素扭曲缠绕时,则说明出现了更为严重对的填充不合理现象。虽然各种填充不合理现象在宏观上看表现各不相同,但是在局部像素层面会表现出相同的拓扑共性,即孤立且重合像素数量增多。孤立的重合像素数量增多说明重合像素不是以边缘局部相切的形式展现的,暗示连接发生错误的可能性增大。因此本发明的扫描半径设计成能够根据每轮探测具体情况调节探测范围的动态形式,以减少异常连接。
作为本发明的一个实施例,动态扫描半径可根据当前连续边缘的边缘长度和上一次边缘闭合操作填充的连接像素与之前已存在的边缘像素(包括之前已填充连接的像素)形成的孤立交叉点个数设定。
r i (t)表示边缘it次迭代扫描时的扫描半径,其动态变化过程如下:
Figure 332810DEST_PATH_IMAGE004
其中,r i (0)表示以处在边缘i上的基准点为圆心进行第一次扫描时的初始半径,函数s(l i )是一个关于边缘i的长度l i 的尺度函数,c 0表示第一次扫描前设置的初始参数;c t-1表示第t-1次扫描后进行端点连接操作时填充的连接像素与之前已存在的边缘像素形成的孤立交叉点个数,ab为可调节系数。
S43、每次迭代过程中均进行扫描区域的连接判定,筛选出另一个连续边缘上与基准点具有相同的像素ID的端点像素,对两个端点之间的间断像素点进行线性填充连接;
所述每次迭代过程中均进行扫描区域的连接判定的具体过程为:
当扫描区域无端点时,以半径最大值进行重新扫描,若扫描区域内仍无有效端点,则对系数ab进行调节,或调节尺度函数
Figure 76776DEST_PATH_IMAGE005
的系数,以提高半径上限;
当扫描区域出现1个与基准点具有相同ID的另一个连续边缘的端点时,直接进行连接操作;
当扫描区域出现多个与基准点具有相同ID的另一个连续边缘的端点时,选择距离最近的端点进行连接操作或根据具体情况设置选取规则后进行连接操作。
所述对两个端点之间的间断像素点进行线性填充连接的具体过程为:设以连续边缘i的某一基准端点
Figure 313722DEST_PATH_IMAGE006
为圆心、以r i 为半径向外搜索到的第一个满足搜索条件的端点为
Figure 852151DEST_PATH_IMAGE007
,两者之间的距离为
Figure 925280DEST_PATH_IMAGE008
,当满足
Figure 472936DEST_PATH_IMAGE009
Figure 564389DEST_PATH_IMAGE010
Figure 414664DEST_PATH_IMAGE011
的像素ID相同的条件时,以坐标
Figure 834144DEST_PATH_IMAGE012
为起点,以向量
Figure 44546DEST_PATH_IMAGE013
为方向,以
Figure 865871DEST_PATH_IMAGE014
为长度线性填充原本空缺的边缘像素。
S44、当扫描区域内所有端点已连接且每次线性填充连接之后组成的连续边缘的弧线长度均大于填充连接之前的两个连续边缘的端点之间的最大直线距离时,结束本次扫描,完成一组边缘闭合操作;
S45、重复以上步骤S42~S44的边缘闭合操作,直到每个实体的边缘像素沿着实体轮廓大致围成一个封闭区域。上述过程是基于连续边缘的端点像素进行的线性连接操作,当图像有多个边缘实体时,可同时标记多个基准点,同时由各个基准点出发扫描周围区域进行并行式的现象连接操作,单个线性连接对计算资源的消耗较低,适用于大规模并行化处理。
上述边缘闭合方法只是本发明提出的自动闭合方法一个的实施例,不排除其他自动闭合的方法。本发明自动闭合操作唯一的特征是,用尽可能短且自然的像素组成的线段(直线或曲线)连接边缘的间断端点,使边缘成为一个覆盖实体像素且封闭的区域。边缘像素可能会出现多个缺口的现象,每一个缺口的一个端点都可以定位一个基准端点,本发明基于动态扫描半径,采取最近邻的探测方式,可以尽可能的保障缺口之间得到正确的像素填补,而不会出现某一缺口的端点像素连接到另一缺口的端点上。
本发明的边缘闭合方法具有动态调节机制,可以随着封闭结果动态调节,实施不同的封闭精度,与填充粒度,使得封闭区域在算法后期能够逐渐趋近于更高的实体像素覆盖精度。此外,本发明的边缘闭合方法不涉及求导等复杂运算,能够快速线性处理,适用于大规模图像数据集的边缘闭合。
S5、对图像中的所有实体按对应的封闭边缘进行裁剪操作,将裁剪分割出的图像保存作为备选纯实体图像。
由于实体图像已经按边缘分割,对图像中的实体按封闭边缘进行裁剪操作,即可抠出像素级的实体素材,图像为PNG等支持透明色的图像或图形文件,其中实体封闭区域内保留图像实体原像素分布,封闭区域之外背景像素统一变换为特定纯色。
S6、通过无监督图像分类算法对备选纯实体图像进行分类,统计各个类别的图像总数,将图像总数最多的类别中的图像作为与文本要素对应的语义图像。
所述无监督图像分类算法包括无监督的DCN网络、基于DCN网络的深度聚类算法、基于信息不变性的无监督聚类卷积神经网络IIC-CNN分类器。
无监督图像分类算法是端对端的设计,可以实现图片的输入以及符合指定分类数的图像分类标签输出。在本发明中,无监督图像分类算法并未执行过去的典型图像分类任务,这是由于其输入的图像是备选纯实体图像,每一幅图只含有单个实体,并且背景是纯色无任何噪声,不会对算法造成任何干扰。因此由于对输入端的图像进行了严格控制,统一了输入端的图像范式,分类准确率得到较大幅的提升。实验结果显示在无监督的DCN网络上,以备选纯实体图像作为输入的图像分类已经能够达到92%以上的分类准确率。而基于DCN网络的深度聚类技术能进一步将无监督分类准确率提升到94%以上。在基于信息不变性的无监督聚类卷积神经网络IIC-CNN分类器上,这一准确率提升到98.7%以上,远远高于普通图像的分类准确率,完全适用于工业应用场景。
同时,在本发明网络图片搜索机制下,当分类数设置为2时可实现语义分类,即可分为:符合语义类与其他类。这是由于网络搜索出的图片都是与输入语义存在关联的,输入的图片样本中至少包含着一个符合文本语义的实体要素,而本步骤恰好是识别出这一个符合语义的图像实体,因此其他实体全部可归为其他类,与输入语义无关。
当分类数设置为大于2时,备选实体纯图像中必然存在对应于搜索文本语义的实体图像占比最大现象,这是因为基于文本要素实体搜索出的图像多数是与该语义存在关联的,包含着相应的图像实体的共同特性。这意味着上诉过程中具有特征共性最多的那一类别,或者说分类后样本数量多的那一类大概率对应着搜索文本,也即是输入语义。
在这个类别里的每一张实体纯图像都可以直接按输入语义进行标定,并且其分割任务完成,这样便形成了一张边缘按像素分割好,且语义标定完毕的图像实体素材。特别的,当替换背景纯色为透明色时,任何一个实体图像都可以直接作为图层素材应用到相关任务中,进行修改或直接使用。
这种机制确保了在原理层面,无监督图像分类算法都不用关注类别的语义标签是什么。因为通过前述过程,分类出的样本量更大的那一个类别大概率对应着输入语义。这种方法直接将语义分割问题转化为算法复杂度更小的且不需要预训练的边缘检测问题,有效的降低了计算复杂性。并且通过前述方法生成的实体纯图片又天然适合作为现存主流无监督图像分类算法的新的更加合适的输入形式,有效提高了分类准确率。
与所述方法实施例相对应,本发明还提出一种基于边缘闭合与共性检测的图像生成系统,请参阅图3,所述系统包括:
文本处理模块10:获取输入的文本,对文本进行文本要素筛选;
图像搜索模块20:将筛选出的文本要素分别输入图像搜索引擎,输出相应的图像搜索结果,对于同一文本要素对应的搜索结果,筛选出多个有效图像;
边缘闭合模块30:对各个图像进行边缘检测,设定动态扫描半径,基于动态扫描半径,采用最近邻探测连接的方式对边缘检测图像中的实体进行边缘闭合操作,得到具有封闭边缘的实体;
图像分割模块40:对图像中的所有实体按对应的封闭边缘进行裁剪操作,将裁剪分割出的图像作为备选纯实体图像;
语义标定模块50:通过无监督图像分类算法对备选纯实体图像进行分类,统计各个类别的图像总数将图像总数最多的类别中的图像作为对应文本要素的语义图像。
本发明还公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现本发明前述的方法。
本发明还公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明实施例所述方法的全部或部分步骤。所述存储介质包括:U盘、移动硬盘、只议存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以分布到多个网络单元上。可以根据实际的衙要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于边缘闭合与共性检测的图像生成方法,其特征在于,所述方法包括:
获取输入的文本,对文本进行文本要素筛选;所述文本要素是指文本语义对应的能够以可视化方式展现的实体;
将筛选出的文本要素分别输入图像搜索引擎,输出相应的图像搜索结果;
对于同一文本要素对应的搜索结果,从中筛选出多个有效图像,对各个图像进行边缘检测,得到边缘检测图像;所述从中筛选出多个有效图像的筛选条件为:搜索结果总数大于预设阈值且从中随机选取的图像具备共性特征;所述共性特征包括:
Figure 982083DEST_PATH_IMAGE001
图像包含表示与语义对应实体的像素排列;
Figure 368065DEST_PATH_IMAGE002
图像包含表示实体以外的伴随实体的像素排列;
设定动态扫描半径,基于动态扫描半径,采用最近邻探测连接的方式对边缘检测图像中的实体进行边缘闭合操作,得到具有封闭边缘的实体;
对图像中的所有实体按对应的封闭边缘进行裁剪操作,将裁剪分割出的图像作为备选纯实体图像;
通过无监督图像分类算法对备选纯实体图像进行分类,统计各个类别的图像总数,将图像总数最多的类别中的图像作为对应文本要素的语义图像。
2.根据权利要求1所述基于边缘闭合与共性检测的图像生成方法,其特征在于,所述对文本进行文本要素筛选具体为:
对输入的文本进行分词、去停用词处理,进行词性标注;
设定筛选文本要素的关键原则,筛选出满足所述关键原则的文本要素,所述关键原则包括:文本语义在现实场景中能够可视化,或者文本语义不可视但该语义伴随着其他可视化的实体同时出现在现实场景中。
3.根据权利要求1所述基于边缘闭合与共性检测的图像生成方法,其特征在于,所述采用最近邻的探测连接方式对图像中的实体进行边缘闭合操作,得到封闭边缘具体为:
分别对各个实体编号,为同一实体的边缘像素标记相同的像素ID;提取边缘检测图像中一个连续边缘的端点作为基准点,以基准点为圆心、以设定的动态扫描半径向外迭代扫描搜索,每次迭代过程中均进行扫描区域的连接判定,筛选出另一个连续边缘上与基准点具有相同的像素ID的端点像素,对两个端点之间的间断像素点进行线性填充连接;当最大扫描区域内所有端点已连接且每次线性填充连接之后组成的连续边缘的弧线长度均大于填充连接之前的两个连续边缘的端点之间的最大直线距离时,结束本次扫描,完成一组边缘闭合操作;
重复以上边缘闭合操作,直到每个实体的边缘像素沿着实体轮廓围成一个封闭区域。
4.根据权利要求3所述基于边缘闭合与共性检测的图像生成方法,其特征在于,所述对两个端点之间的间断像素点进行线性填充连接具体为:
设以连续边缘i的某一基准端点 (x i ,y i )为圆心、以r i 为半径向外搜索到的第一个满足搜索条件的端点为
Figure 226430DEST_PATH_IMAGE003
,两者之间的距离为D i ,当满足
Figure 90481DEST_PATH_IMAGE004
且(x i ,y i )与
Figure 498329DEST_PATH_IMAGE003
的像素ID相同的条件时,以坐标(x i ,y i )为起点,以向量
Figure 789633DEST_PATH_IMAGE005
为方向,以D i 为长度线性填充原本空缺的边缘像素。
5.根据权利要求1所述基于边缘闭合与共性检测的图像生成方法,其特征在于,所述动态扫描半径根据当前连续边缘的边缘长度和上一次边缘闭合操作填充的连接像素与之前已存在的边缘像素形成的孤立交叉点个数设定;
r i (t)表示边缘it次迭代扫描时的扫描半径,其动态变化过程如下:
Figure 135294DEST_PATH_IMAGE006
其中,r i (0)表示以处在边缘i上的基准点为圆心进行第一次扫描时的初始半径,函数s(l i )是一个关于边缘i的长度l i 的尺度函数,c 0表示第一次扫描前设置的初始参数;c t-1表示第t-1次扫描后进行端点连接操作时填充的连接像素与之前已存在的边缘像素形成的孤立交叉点个数,ab为可调节系数。
6.根据权利要求5所述基于边缘闭合与共性检测的图像生成方法,其特征在于,所述每次迭代过程中均进行扫描区域的连接判定具体为:
当扫描区域无端点时,以半径最大值进行重新扫描,若扫描区域内仍无有效端点,则对系数ab进行调节,或调节尺度函数s(l i )的系数,以提高半径上限;
当扫描区域出现1个与基准点具有相同ID的另一个连续边缘的端点时,直接进行连接操作;
当扫描区域出现多个与基准点具有相同ID的另一个连续边缘的端点时,选择距离最近的端点进行连接操作或根据具体情况设置选取规则后进行连接操作。
7.根据权利要求1所述基于边缘闭合与共性检测的图像生成方法,其特征在于,所述无监督图像分类算法包括无监督的DCN网络、基于DCN网络的深度聚类算法、基于信息不变性的无监督聚类卷积神经网络IIC-CNN分类器。
8.一种基于边缘闭合与共性检测的图像生成系统,其特征在于,所述系统包括:
文本处理模块:获取输入的文本,对文本进行文本要素筛选;所述文本要素是指文本语义对应的能够以可视化方式展现的实体;
图像搜索模块:将筛选出的文本要素分别输入图像搜索引擎,输出相应的图像搜索结果,对于同一文本要素对应的搜索结果,筛选出多个有效图像;所述筛选出多个有效图像的筛选条件为:搜索结果总数大于预设阈值且从中随机选取的图像具备共性特征;所述共性特征包括:
Figure 927670DEST_PATH_IMAGE001
图像包含表示与语义对应实体的像素排列;
Figure 65390DEST_PATH_IMAGE002
图像包含表示实体以外的伴随实体的像素排列;
边缘闭合模块:对各个图像进行边缘检测,设定动态扫描半径,基于动态扫描半径,采用最近邻探测连接的方式对边缘检测图像中的实体进行边缘闭合操作,得到具有封闭边缘的实体;
图像分割模块:对图像中的所有实体按对应的封闭边缘进行裁剪操作,将裁剪分割出的图像作为备选纯实体图像;
语义标定模块:通过无监督图像分类算法对备选纯实体图像进行分类,统计各个类别的图像总数,将图像总数最多的类别中的图像作为对应文本要素的语义图像。
9.一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如权利要求1~7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现权利要求1~7任一项所述的方法。
CN202110371068.0A 2021-04-07 2021-04-07 一种基于边缘闭合与共性检测的图像生成方法及系统 Active CN112800259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110371068.0A CN112800259B (zh) 2021-04-07 2021-04-07 一种基于边缘闭合与共性检测的图像生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110371068.0A CN112800259B (zh) 2021-04-07 2021-04-07 一种基于边缘闭合与共性检测的图像生成方法及系统

Publications (2)

Publication Number Publication Date
CN112800259A CN112800259A (zh) 2021-05-14
CN112800259B true CN112800259B (zh) 2021-06-29

Family

ID=75816377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110371068.0A Active CN112800259B (zh) 2021-04-07 2021-04-07 一种基于边缘闭合与共性检测的图像生成方法及系统

Country Status (1)

Country Link
CN (1) CN112800259B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114782472B (zh) * 2022-06-22 2022-10-14 杭州三坛医疗科技有限公司 一种ct图像的分割方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276461B (zh) * 2008-03-07 2011-11-02 北京航空航天大学 一种利用边缘特征的视频文本增强方法
US20090313239A1 (en) * 2008-06-16 2009-12-17 Microsoft Corporation Adaptive Visual Similarity for Text-Based Image Search Results Re-ranking
CN103778227B (zh) * 2014-01-23 2016-11-02 西安电子科技大学 从检索图像中筛选有用图像的方法
CN104252710A (zh) * 2014-09-02 2014-12-31 江苏大学 基于动态阈值的Susan算子彩色图像边缘检测方法
CN104268227B (zh) * 2014-09-26 2017-10-10 天津大学 基于逆向k近邻的图像搜索中高质量相关样本自动选取法
CN112257445B (zh) * 2020-10-19 2024-01-26 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法

Also Published As

Publication number Publication date
CN112800259A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN112966691B (zh) 基于语义分割的多尺度文本检测方法、装置及电子设备
CN110796031A (zh) 基于人工智能的表格识别方法、装置及电子设备
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN111160350B (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN111401353B (zh) 一种数学公式的识别方法、装置及设备
CN113673338B (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
CN110180186A (zh) 一种地形图转换方法及系统
CN113780486B (zh) 一种视觉问答的方法、装置及介质
CN116258719A (zh) 基于多模态数据融合的浮选泡沫图像分割方法和装置
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN109034248A (zh) 一种基于深度学习的含噪声标签图像的分类方法
CN113947161A (zh) 一种基于注意力机制的多标签文本分类方法及系统
CN115311463A (zh) 类别引导多尺度解耦的海洋遥感图像文本检索方法及系统
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及系统
CN113158674A (zh) 一种人工智能领域文档关键信息抽取方法
CN112800259B (zh) 一种基于边缘闭合与共性检测的图像生成方法及系统
Liu et al. Cloud detection using super pixel classification and semantic segmentation
CN114330234A (zh) 版面结构分析方法、装置、电子设备和存储介质
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN113888505A (zh) 一种基于语义分割的自然场景文本检测方法
CN117076455A (zh) 一种基于智能识别的保单结构化存储方法、介质及系统
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN115879002A (zh) 一种训练样本生成方法、模型训练方法及装置
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant