CN113821663A - 图像处理方法、装置、设备及计算机可读存储介质 - Google Patents
图像处理方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113821663A CN113821663A CN202110655189.8A CN202110655189A CN113821663A CN 113821663 A CN113821663 A CN 113821663A CN 202110655189 A CN202110655189 A CN 202110655189A CN 113821663 A CN113821663 A CN 113821663A
- Authority
- CN
- China
- Prior art keywords
- preset
- special effect
- image
- semantic
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 239000000463 material Substances 0.000 claims abstract description 507
- 230000000694 effects Effects 0.000 claims abstract description 190
- 238000012545 processing Methods 0.000 claims abstract description 134
- 238000012216 screening Methods 0.000 claims abstract description 89
- 238000000034 method Methods 0.000 claims abstract description 85
- 230000008569 process Effects 0.000 claims description 45
- 239000002994 raw material Substances 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 24
- 238000001914 filtration Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 23
- 239000000523 sample Substances 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 230000006978 adaptation Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 230000002040 relaxant effect Effects 0.000 claims description 3
- 230000001976 improved effect Effects 0.000 abstract description 26
- 238000005516 engineering process Methods 0.000 abstract description 20
- 238000013473 artificial intelligence Methods 0.000 abstract description 18
- 230000014509 gene expression Effects 0.000 abstract description 18
- 238000013461 design Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 3
- 241000972773 Aulopiformes Species 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000019515 salmon Nutrition 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 240000002234 Allium sativum Species 0.000 description 1
- 244000144730 Amygdalus persica Species 0.000 description 1
- 244000241235 Citrullus lanatus Species 0.000 description 1
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 1
- 241001137251 Corvidae Species 0.000 description 1
- 241001247287 Pentalinon luteum Species 0.000 description 1
- 235000006040 Prunus persica var persica Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 235000004611 garlic Nutrition 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000013049 sediment Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/535—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种图像处理方法、装置、设备及计算机可读存储介质,涉及人工智能技术;方法包括:基于预设结构类别,对获取的待处理文字图像进行文字结构拆解,得到至少一个文字结构;根据预设筛选规则,对至少一个文字结构进行筛选,得到标志性结构;获取待处理文字图像中的语义信息并进行语义扩展,得到扩展语义信息;基于标志性结构与扩展语义信息,与预设素材库中的至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到特效素材;使用特效素材对待处理文字图像中的标志性结构进行覆盖,得到特效文字图像。通过本申请,能够提高生成特效文字图像的效率,并提高特效文字图像的表现效果。
Description
技术领域
本申请涉及人工智能技术,尤其涉及一种图像处理方法、装置、设备及计算机可读存储介质。
背景技术
目前,互联网的信息流产品如公众号图文、商品广告等,经常通过大量的广告图、信息流头图等来丰富其产品表现力,如图1与图2所示的文字与图片素材相结合的特效文字图像。这类特效文字图像通常需要设计师手动进行设计和生产,效率较低;并且,设计师所能提供的特效字的设计方案也有限,因此,目前的特效文字图的生成方法的效率较低,生成的特效文字图像的形式不够丰富,表现效果较差。
发明内容
本申请实施例提供一种图像处理方法、装置、设备及计算机可读存储介质,能够提高生成特效文字图像的效率,并提高特效文字图像的表现效果。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种图像处理方法,包括:
基于预设结构类别,对获取的待处理文字图像进行文字结构拆解,得到至少一个文字结构;
根据预设筛选规则,对所述至少一个文字结构进行筛选,得到标志性结构;
获取所述待处理文字图像中的语义信息并进行语义扩展,得到扩展语义信息;
基于所述标志性结构与所述扩展语义信息,与预设素材库中的至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到特效素材;
使用所述特效素材对所述待处理文字图像中的所述标志性结构进行覆盖,得到特效文字图像。
本申请实施例提供一种图像处理装置,包括:。
结构识别模块,用于基于预设结构类别,对获取的待处理文字图像进行文字结构拆解,得到至少一个文字结构;
筛选模块,用于根据预设筛选规则,对所述至少一个文字结构进行筛选,得到标志性结构;
语义模块,用于获取所述待处理文字图像中的语义信息并进行语义扩展,得到扩展语义信息;
匹配模块,用于基于所述标志性结构与所述扩展语义信息,与预设素材库中的至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到特效素材;
覆盖模块,用于使用所述特效素材对所述待处理文字图像中的所述标志性结构进行覆盖,得到特效文字图像。
上述装置中,所述预设筛选规则中的每条规则对应有预设的规则优先级,所述预设筛选规则包括以下至少之一:
标志性结构占据所述待处理文字图像的面积比例,大于或等于预设面积占比阈值;
标志性结构的数量,小于或等于第一预设数量阈值;
标志性结构为所述预设结构类别中的预设结构;
标志性结构位于所述待处理文字图像中的预设区域。
上述装置中,所述图像处理装置还包括调整模块,所述调整模块,用于当所述标志性结构的数量小于第二预设数量阈值时,对所述预设筛选规则进行调整,得到调整筛选规则;所述第二预设数量阈值小于所述第一预设数量阈值;所述调整筛选规则用于对所述预设筛选规则进行动态放宽处理,以增加根据所述调整筛选规则得到的标志性结构的数量;根据所述调整筛选规则,对所述至少一个文字结构重新进行筛选,得到所述标志性结构;其中,所述动态放宽处理包括:减少使用的规则数量和减小预设筛选规则中的预设面积占比阈值中的至少一个。
上述装置中,所述语义模块,还用于对所述待处理文字图像进行文字内容识别,得到所述待处理文字图像对应的字符序列;对所述字符序列进行分词处理,得到至少一个词语;对所述至少一个词语进行词义扩展,得到每个词语对应的至少一个扩展词;将所述每个词语与其对应的所述至少一个扩展词均作为所述扩展语义信息。
上述装置中,所述语义模块,还用于对于所述至少一个词语中的每个词语,计算所述每个词语与预设词向量库中每个预设词向量的相似度;将相似度大于或等于预设相似度阈值的预设词向量作为所述每个词语对应的扩展词,得到所述至少一个扩展词。
上述装置中,所述匹配模块,还用于从所述至少一个素材中,确定与所述标志性结构匹配的待匹配素材集合;对于所述待匹配素材集合中每个待匹配素材,根据预设结构匹配权重与所述每个待匹配素材对应的结构信息中的预测概率,计算所述每个待匹配素材对应的结构分数;结合预设语义匹配权重,计算所述每个待匹配素材的内容标签与所述扩展语义信息的相似性,得到所述每个待匹配素材对应的语义分数;基于所述结构分数与所述语义分数,从所述待匹配素材集合中筛选得到所述特效素材。
上述装置中,所述内容标签为至少一个识别内容,每个识别内容包含标签置信度,所述匹配模块,还用于对于所述每个待匹配素材,从所述至少一个内容标签中确定出标签置信度大于或等于预设置信度阈值的候选内容标签;计算所述候选内容标签与所述扩展语义信息的相似性,得到所述每个待匹配素材对应的所述语义分数。
上述装置中,所述匹配模块,还用于根据所述预设素材库中的所述每个素材的结构信息中对应所述标志性结构的预测概率,结合预设结构匹配权重,计算所述每个素材对应的结构分数;结合预设语义匹配权重,计算所述每个素材的内容标签与所述扩展语义信息的相似性,得到所述每个素材对应的语义分数;基于所述结构分数与所述语义分数,从所述预设素材库中筛选得到所述特效素材。
上述装置中,所述图像处理装置还包括素材处理模块,所述素材处理模块,用于所述基于所述标志性结构与所述扩展语义信息,与预设素材库中的至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到特效素材之前,根据所述预设结构类别,对原始素材进行分类预测,得到所述原始素材对应的所述至少一种结构的所述至少一个预测概率;当所述至少一个预测概率中的最大的预测概率大于预设概率阈值时,对所述原始素材进行图像内容识别,得到所述原始素材对应的内容标签;将所述原始素材对应的所述至少一种结构的所述至少一个预测概率作为所述结构信息,将所述原始素材及其对应的所述结构信息与所述内容标签,存入所述预设素材库。
上述装置中,所述素材处理模块,还用于获取所述原始素材的素材颜色信息,以及所述原始素材的适配区域中的至少一个;将所述素材颜色信息与所述适配区域中的至少一个,与所述原始素材及其对应的所述结构信息以及所述内容标签,存入所述预设素材库。
上述装置中,所述匹配模块,还用于根据所述结构分数与所述语义分数,从所述预设素材库中筛选得到候选素材集合;获取所述标志性结构对应的颜色信息,或者获取所述待处理文字图像的背景颜色信息,作为待匹配颜色信息;根据每个候选素材的适配区域与素材颜色信息中的至少一个,在所述候选素材集合中,筛选出与所述标志性结构占据的区域中的至少一个匹配的候选素材,作为所述特效素材。
上述装置中,所述匹配模块,还用于对所述结构分数与所述语义分数进行求和或平均计算,得到所述预设素材库中每个素材对应的综合分数;基于综合分数,从所述预设素材库中筛选得到所述特效素材。
上述装置中,所述素材处理模块,还用于对于所述预设结构类别中每种结构,从原始素材库中获取所述每种结构对应的预设样本数量的原始素材,得到样本素材集合;利用所述样本素材集合,对初始多分类神经网络进行模型训练,得到结构分类模型;利用所述结构分类模型,对所述原始素材库中的剩余原始素材进行分类,得到所述剩余原始素材对应的所述至少一种结构的所述至少一个预测概率,从而完成对所述原始素材的分类。
上述装置中,所述结构识别模块,还用于基于所述预设结构类别,对所述待处理文字图像进行目标检测,预测出所述预设结构类别对应的多个图像区域;其中,每个图像区域包含至少一个区域置信度;所述至少一个区域置信度表征所述每个图像区域对应于所述预设结构类别中至少一种结构的至少一个概率;将大于或等于预设结构置信度阈值的区域置信度对应的结构,作为所述待处理文字图像中的所述至少一个文字结构。
上述装置中,所述每个图像区域包含位置信息;所述覆盖模块,还用于对所述特效素材进行图像预处理,得到预处理后的特效素材;按照所述位置信息,将所述预处理后的特效素材覆盖在所述标志性结构占据的图像区域上,得到所述特效文字图像;其中,所述图像预处理包括:缩放处理与旋转处理中的至少一种;所述缩放处理用于根据所述标志性结构占据的图像区域调整所述特效素材的大小。
上述装置中,所述匹配模块,还用于将标志性结构与扩展语义信息,与预设素材库中的至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到多个备选素材;将所述多个备选素材中的任意备选素材作为所述特效素材;
所述图像处理装置还包括更换模块,所述更换模块,用于所述使用所述特效素材对所述待处理文字图像中的所述标志性结构进行覆盖,得到特效文字图像之后,当接收到特效文字图像更换指令时,根据所述多个备选素材中的其余素材生成新的特效文字图像。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的图像处理方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的图像处理方法。
本申请实施例具有以下有益效果:
本申请实施例通过对待处理文字图像进行文字结构拆解,并从拆解得到的至少一个文字结构中自动筛选出标志性结构,实现了从待处理文字图像中自动识别出具有代表性的结构如汉字笔画,节约了通过人工从待处理文字图像中选择出代表性笔画的成本,提高了文字结构选择的处理效率,进而提高了生成特效文字图像的效率。并且,本申请通过对待处理文字图像中语义信息进行扩展,可以使得根据扩展语义信息匹配出更加丰富的素材,提高了特效文字图像的表现效果。进一步的,本申请实施例通过将标志性结构与扩展语义信息在预设素材库中进行自动匹配,节约了通过人力对海量素材进行筛选的成本,提高了匹配效率,进一步提高了特效文字图像的生成效率,同时可以将素材匹配范围扩大到整个素材库,从而可以在更大的匹配范围内选择出表现效果更好的特效素材,进一步提高了特效文字图像的表现效果。
附图说明
图1是本申请实施例提供的特效文字图像的一个可选的效果示意图;
图2是本申请实施例提供的特效文字图像的一个可选的效果示意图;
图3是本申请实施例提供的图像处理系统架构的一个可选的结构示意图;
图4是本申请实施例提供的图像处理装置的一个可选的结构示意图;
图5是本申请实施例提供的图像处理方法的一个可选的流程示意图;
图6是本申请实施例提供的部分文字结构的效果示意图;
图7是本申请实施例提供的图像处理方法的一个可选的流程示意图;
图8是本申请实施例提供的通过结构分类模型对原始素材进行分类预测的过程示意图;
图9是本申请实施例提供的素材示意图;
图10是本申请实施例提供的图像处理方法的一个可选的流程示意图;
图11是本申请实施例提供的图像处理方法的一个可选的流程示意图;
图12是本申请实施例提供的图像处理方法在实际的应用场景中的示例性应用过程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
2)计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
3)机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
4)设计图源文件:如使用Photoshop或Sketch等设计软件设计的源文件,其中包含各个图层的元素及其位置、大小等信息。
5)画布:指设计图的可视区域,画布的大小也是图片的大小。
6)图层/元素:设计图是由诸多元素按前后顺序一层一层的叠放在一起组合构成的。每一层即为图层。元素指文字、图形、图片甚至表格等等,分布在各个图层中。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能中计算机视觉的图像处理等技术,具体通过如下实施例进行说明。
目前,通过人工来进行特效文字图像的设计会产生较高的实现成本,且人力能够生成的图片有限,设计师难以广泛地涉猎到素材库中的海量素材,从而导致制作的特效文字图像的设计方案较为单一,不够丰富多样,表现效果较差。并且,不同设计师的设计规范难以统一,无法保证设计质量符合规范,需要进行后期审查管控,进一步增加了实现成本,降低了生产效率。
本申请实施例提供一种图像处理方法、装置、设备和计算机可读存储介质,能够提高生成特效文字图像的效率,并提高特效文字图像的表现效果,下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。下面,将说明电子设备实施为服务器时的示例性应用。
参见图3,图3是本申请实施例提供的图像处理系统100的一个可选的架构示意图,为实现支撑一个特效文字图像生成应用,终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
终端400用于通过功能入口接收用户输入的待处理文字图像,将待处理文字图像通过网络300发送给服务器200。在图形界面410(示例性示出了图形界面410-1和图形界面410-2)显示特效文字图像生成应用的功能入口,如APP的功能菜单或网页应用入口。服务器200用于基于预设结构类别,对获取的待处理文字图像进行文字结构拆解,得到至少一个文字结构;根据预设筛选规则,对至少一个文字结构进行筛选,得到标志性结构;获取待处理文字图像中的语义信息并进行语义扩展,得到扩展语义信息;在数据库500的预设素材库中,将标志性结构与扩展语义信息,与至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到特效素材;使用特效素材对待处理文字图像中的标志性结构进行覆盖,得到特效文字图像。服务器200将特效文字图像发送给终端400,并通过图形界面410向用户呈现特效文字图像,也即对待处理文字图像进行特效美化的效果。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例中不做限制。
参见图4,图4是本申请实施例提供的服务器200的结构示意图,图4所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图4示出了存储在存储器250中的图像处理装置255,其可以是程序和插件等形式的软件,包括以下软件模块:结构识别模块2551、筛选模块2552、语义模块2553、匹配模块2554和覆盖模块2555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的图像处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件。
将结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的图像处理方法。
参见图5,图5是本申请实施例提供的图像处理方法的一个可选的流程示意图,将结合图5示出的步骤进行说明。
S101、基于预设结构类别,对获取的待处理文字图像进行文字结构拆解,得到至少一个文字结构。
本申请实施例提供的图像处理方法可以应用于在互联网、内容资讯、电商、企业商务、金融保险、教育培训、生活服务、泛娱乐等全行业场景中,进行海报、广告图、自媒体配图、宣传视频等内容创作的场景。
本申请实施例中,图像处理装置可以直接获取用户输入的待处理文字图像,也可以根据用户输入的字体、字号、文字内容、背景图等参数信息,生成对应的待处理文字图像。待处理文字图像为包含文字的图像文件。
本申请实施例中,为了实现从待处理文字图像中检测得到至少一个文字结构,图像处理装置可以根据预设结构类别中的每种结构,示例性地,当待处理文字图像中的文字为汉字时,预设结构类别中可以包括“丶”、“丿”、“丨”等多种笔画的结构,图像处理装置可以收集包含预设结构类别的样本图像集,根据样本图像集对初始目标检测神经网络模型进行迭代训练,得到笔画识别模型。进而,图像处理装置可以利用预训练的笔画识别模型,基于预设结构类别,对待处理文字图像进行目标检测,预测出预设结构类别对应的多个图像区域。其中,每个图像区域包含:至少一个区域置信度;至少一个区域置信度表征每个图像区域对应于预设结构类别中至少一种结构的至少一个概率。图像处理装置可以根据每个图像区域的区域置信度信息,将区域置信度大于或等于预设结构置信度阈值的图像区域,作为识别出的文字结构,从而得到至少一个文字结构。
在一些实施例中,笔画识别模型可以是卷积神经网络(Convolutional NeuralNetworks,CNN)模型,示例性地,可以是快速目标检测卷积神经网络(Fast Region CNN,Fast-RCNN)模型,也可以是其他神经网络模型,具体的根据实际情况进行选择,本申请实施例不作限定。
本申请实施例中,图像处理装置也可以利用图像处理中的图像分割算法以及图像匹配算法,对获取的待处理文字图像进行文字结构拆解,得到至少一个文字结构,具体的根据实际情况进行选择,本申请实施例不作限定。
本申请实施例中,预设结构类别可以包含中文如汉字的笔画,也可以包含英语的字母轮廓形状,也可以包含其他语种的文字结构。或者,中文的预设结构类别中,还可以包含偏旁或部首;预设结构类别还可以根据常用的自行定义,具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,如图6所示,图6示出了图像处理装置对包含“立春”的待处理文字图像进行文字结构拆解得到的部分文字结构,如图6中的61-64所示。
S102、根据预设筛选规则,对至少一个文字结构进行筛选,得到标志性结构。
本申请实施例中,图像处理装置可以根据预设筛选规则,从至少一个文字结构中选择出具有代表性的笔画作为标志性结构,以基于标志性结构进行特效美化,生成特效文字图像。
在一些实施例中,预设筛选规则可以包括以下至少之一:
标志性结构占据所述待处理文字图像的面积比例大于或等于预设面积占比阈值;标志性结构的数量小于或等于第一预设数量阈值;标志性结构为预设结构类别中的预设结构;标志性结构位于所述待处理文字图像中的预设区域。
在一些实施例中,预设面积占比阈值可以为30%,也即将笔画在待处理文字图像中的面积占比是否大于或等于30%作为一条规则。也可以设置为其他数值的占比阈值,具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,第一预设数量阈值可以是对单个文字中标志性结构的数量进行筛选的阈值,比如当第一预设数量阈值为1时,在待处理文字图像中包含的每个文字中,至多选取一个笔画作为标志性结构;第一预设数量阈值也可以是对多个文字中标志性结构的数量进行筛选的阈值。比如对于包含多个文字的待处理图像,当第一预设数量阈值为2时,表征最多选取两个文字的标志性结果。第一预设数量阈值也可以设置为其他数值,具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,预设结构可以是预设结构类别中的任意指定结构,如可以将方形笔画结构作为预设筛选规则中的预设结构,具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,预设区域可以是标志性结构在待处理文字图像中所处的区域,比如可以将待处理文字图像中文字的左侧作为预设区域,具体的可以根据实际情况进行选择,本申请实施例不作限定。
本申请实施例中,图像处理装置单独通过上述预设筛选规则中的一条规则,对至少一个文字结构进行筛选;也可以对预设筛选规则中的每条规则预设不同的权重或规则优先级,根据优先级对至少一个文字结构进行逐级筛选;图像处理装置也可以根据实际情况,选择预设筛选规则其中的任意几条进行组合,根据组合后的筛选规则对至少一个文字结构进行筛选,具体的根据实际情况进行选择,本申请实施例不作限定。
需要说明的是,在一些实施例中,当根据预设筛选规则得到的标志性结构的数量不足,如标志性结构的数量小于预设第二数量阈值时,图像处理装置可以对预设筛选规则进行调整,如对预设筛选规则进行适当放宽,得到调整筛选规则。这里,第二预设数量阈值小于第一预设数量阈值。进而,图像处理装置可以根据调整筛选规则,对至少一个文字结构部分重新进行筛选,得到标志性结构。
在一些实施例中,调整筛选规则用于对预设筛选规则进行动态放宽处理,以增加根据调整筛选规则得到的标志性结构的数量,其中,动态放宽处理可以包括:减少使用的规则数量和减小预设筛选规则中的预设面积占比阈值中的至少一个。示例性地,对于减少使用的规则数量,图像处理装置可以随机减去一个使用的规则,也可以根据每条规则对应的预设的优先级,减去优先级较低的规则。具体的放宽策略可以根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,上述动态放宽处理的过程可以是根据调整筛选规则筛选到的标志性结构的数量进行自动地、持续地动态调整的过程。示例性地,当根据调整筛选规则筛选得到的标志性结构数量仍然小于第二预设数量阈值时,图像处理装置可以在调整筛选规则的基础上进行进一步的放宽,得到新的调整筛选规则,根据新的调整筛选规则对至少一个文字结构重新进行筛选,直至筛选出合适的标志性结构。
这里,通过动态放宽处理,可以提高筛选标志性文字结构的灵活性。
S103、获取待处理文字图像中的语义信息并进行语义扩展,得到扩展语义信息。
本申请实施例中,标志性结构属于形状维度,图像处理装置可以从待处理文字图像中,获取文字内容的语义信息并进行语义扩展,得到语义内容维度的扩展语义信息。
在一些实施例中,图像处理装置可以对待处理文字图像进行文字内容识别,得到待处理文字图像对应的字符序列;图像处理装置对字符序列进行分词处理,得到至少一个词语;图像处理装置对至少一个词语进行词义扩展,得到每个词语对应的至少一个扩展词;图像处理装置将每个词语与其对应的至少一个扩展词均作为扩展语义信息。
示例性地,图像处理装置可以采用jieba等通用python库,使用逆文档频率技术对从待处理文字图像中识别出的字符序列进行分词,如将“谷雨时节”分为“谷雨”和“时节”两个词语。图像处理装置可以通过词向量技术,对“谷雨”一词进行词义扩展,扩展出如“雨水”、“作物”、“水果”、“大蒜”等相关词汇作为至少一个扩展词。或者,对于“立春”一词,可以扩展出“喜鹊”、“桃花”等相关词汇作为至少一个扩展词。或者,对于“水果”一词,可以扩展出“西瓜”、“苹果”等等一系列相关词作为至少一个扩展词。
在一些实施例中,图像处理装置对至少一个词语进行词义扩展,得到每个词语对应的至少一个扩展词的过程,可以通过以下过程来实现:
图像处理装置对于至少一个词语中的每个词语,计算每个词语与预设词向量库中每个预设词向量的相似度;将相似度大于或等于预设相似度阈值的预设词向量作为每个词语对应的扩展词,得到至少一个扩展词。
在一些实施例中,预设词向量库可以是AI Lab开源的Tencent_AILab_ChineseEmbedding库,也可以是其他词向量库。图像处理装置计算每个词语与预设词向量库中每个预设词向量的相似度的方法可以是余弦相似性算法,也可以使用Gensim和Annoy等自然语言处理框架载入词向量库后,输出每个词语与每个预设词向量的相似度,还可以是其他相似度算法,具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,词向量库的数据内容可以如表1所示。
表1
表1中,对于输入的词语,词向量库中可以包含多个与之相关的预设词向量,即相似词。
这里,需要说明的是,S103与S101-S102对应的过程是并列关系,可以在S101-S102的之前或之后执行,或与S101-S102同时执行,本申请实施例不限定上述两个过程的执行顺序。
S104、基于标志性结构与扩展语义信息,与预设素材库中的至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到特效素材。
本申请实施例中,标志性结构表征了形状维度的信息,扩展语义信息表征了语义内容维度的信息,图像处理装置可以根据标志性结构与扩展语义信息,在预设素材库的至少一个素材中进行匹配,从中挑选出形状维度与语义内容维度均匹配的素材,作为特效素材。
本申请实施例中,预设素材库中的每个素材包含结构信息与内容标签,其中,结构信息包含每个素材对应于预设结构类别中至少一种结构的至少一个预测概率,内容标签包含素材对应的素材内容信息。图像处理装置可以将标志性结构与扩展语义信息,与每个素材的结构信息与内容标签进行相应地对比,在预设素材库中进行匹配,得到特效素材。
本申请实施例中,图像处理装置可以各种不同的预设匹配策略,在预设素材库中进行匹配。示例性地,图像处理装置可以预设根据扩展语义信息进行匹配的权重大于根据标志性结构进行匹配的权重,以使匹配得到的特效素材与文字内容不违和。或者,图像处理装置也可以对根据扩展语义信息与根据标志性结构匹配设置不同的优先级,以实现根据扩展语义信息匹配的初步筛选结果进行标志性结构匹配,或根据标志性结构的初步筛选结果进行扩展语义信息匹配。或者,图像处理装置也可以基于相似度计算每个素材相对于扩展语义信息的语义匹配分数,以及相对于标志性结构的结构匹配分数,基于语义匹配分数和结构匹配分数进行一系列运算处理得到综合分数,根据综合分数来筛选出特效素材。或者,图像处理装置也可以基于更多维度,如颜色维度或位置维度,筛选出颜色与待处理文字图像整体颜色一致,或者更适合显示在标志性结构所在区域的素材。或者,图像处理装置可以根据实际情况设置不同的匹配阈值来进行筛选等等,具体的根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,图像处理装置也可以对上述的各个策略进行组合,根据组合策略进行匹配,具体的匹配策略可以根据实际情况进行灵活的设置和选择,本申请实施例不作限定。
S105、使用特效素材对待处理文字图像中的标志性结构进行覆盖,得到特效文字图像。
本申请实施例中,图像处理装置可以将图片形式的特效素材,覆盖在待处理文字图像中标志性架构所对应的位置,将文字结构中的标志性结构替换为特效素材代,得到能够呈现出文字与图像相结合表现效果的特效文字图像。
在一些实施例中,待处理文字图像可以是包含多个图层的设计图源文件,标志性结构可以是某一图层如图层2中的元素,图像处理装置可以在S101中通过目标检测进行文字结构拆解的过程,得到目标检测输出的每个图像区域的位置信息,进而得到标志性结构对应的位置信息。在一些实施例中,标志性结构对应的位置信息可以是标志性结构各个顶点的坐标。图像处理装置根据标志性结构各个顶点的坐标,将特效素材放置在图层2的上一级图层中的对应位置,以实现在画布中使用特效素材对待处理图像的标志性结构进行覆盖,得到特效文字图像。
在一些实施例中,图像处理装置在使用特效素材对标志性结构进行覆盖之前,会先对特效素材进行预处理,得到预处理后的特效素材,以完善覆盖后的特效文字图像的呈现效果。图像处理装置可以按照位置信息,将预处理后的特效素材覆盖在标志性结构占据的图像区域作上,得到特效文字图像;其中,图像预处理包括:缩放处理与旋转处理中的至少一种。
本申请实施例中,缩放处理用于根据待处理图像区域调整特效素材的大小,示例性地,图像处理装置可以将特效素材的各个顶点调整至超过标志性结构的顶点位置,以对标志性结构进行完全覆盖。旋转处理用于调整特效素材的角度和方向,示例性地,图像处理装置可以通过特征点匹配方法,确定标志性结构的轮廓与特效素材的轮廓之间的匹配特征点,根据匹配特征点对特效素材与标志性结构进行对齐,从而对特效素材的放置角度进行调整,使其与整体文字的搭配更加协调。
可以理解的是,本申请实施例通过对待处理文字图像进行文字结构拆解,并从拆解得到的至少一个文字结构中自动筛选出标志性结构,实现了从待处理文字图像中自动识别出具有代表性的结构如汉字笔画,节约了通过人工从待处理文字图像中选择出代表性笔画的成本,提高了文字结构选择的处理效率,进而提高了生成特效文字图像的效率。并且,本申请通过对待处理文字图像中语义信息进行扩展,可以使得根据扩展语义信息匹配出更加丰富的素材,提高了特效文字图像的表现效果。进一步的,本申请实施例通过将标志性结构与扩展语义信息在预设素材库中进行自动匹配,节约了通过人力对海量素材进行筛选的成本,提高了匹配效率,进一步提高了特效文字图像的生成效率,同时可以将素材匹配范围扩大到整个素材库,从而可以在更大的匹配范围内选择出表现效果更好的特效素材,进一步提高了特效文字图像的表现效果。
在一些实施例中,图像处理装置可以在预设素材库中,将标志性结构与扩展语义信息,与至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到多个备选素材,从而可以根据多个备选素材生成多种不同设计方案的特效文字图像。图像处理装置可以将多个备选素材存入备用素材池,对于当前的特效文字图像处理过程,将备用素材池中的任意一张素材作为特效素材生成特效文字图像。当用户对当前生成的特效文字图像不满意时,可以通过预设的人机交互接口发出特效文字图像更换指令,图像处理装置可以在接收到特效文字图像更换指令时,根据多个备选素材中的其余素材来生成新的特效文字图像。
可以理解的是,本申请实施例提供的图像处理方法可以部署在图像编辑在线工具或在文案图像生产平台中,根据用户提交到平台或工具中的待处理文字图像快速生成美化后的特效文字图像,大大提高了图像编辑和处理的效率。并且,如果用户不满意当前生成的特效文字图像的设计方案,还可以再次利用本申请实施例提供的方法重新更换设计方案,提高了特效文字图像生成的灵活性,丰富了特效文字图像的表现效果。
在一些实施例中,基于图5,S104之前,图像处理装置还可以如图7所示,通过执行S001-S003来得到预设素材库,将结合各步骤进行说明。
S001、根据预设结构类别,对原始素材进行分类预测,得到原始素材对应的至少一种结构的至少一个预测概率。
本申请实施例中,在根据原始素材库中的大量原始素材新建预设素材库,或者少量原始素材需要入库到已有的预设素材库的情况下,图像处理装置可以根据预设结构类别,待处理的每个原始素材进行分类预测,得到每个原始素材对应的至少一种结构的至少一个预测概率。
在一些实施例中,图像处理装置可以利用预训练的多分类神经网络模型,实现对原始素材的分类预测。图像处理装置可以获取样本素材集合,每个样本素材带有对应的属于预设结构类别的某个结构的标注结果。示例性地,预设结构类别为汉字笔画类别时,圆形的素材的标注结果可以是“口”的结构或“田”的结构,从左到右倾斜的素材的标注结果可以是“丶”的结构。图像处理装置可以利用样本素材集合,对初始多分类神经网络进行模型训练,根据每轮训练中初始多分类神经网络对样本素材的预测结果与标注结果的误差,迭代地调整初始多分类神经网络的网络参数,直至初始多分类神经网络的分类识别精度达到预设训练目标时,得到结构分类模型。
本申请实施例中,图像处理装置可以从原始素材库的外部来源中获取样本素材集合,也可以利用原始素材库中的原始素材,对于预设结构类别中每种结构,从原始素材库中获取每种结构对应的预设样本数量的原始素材,得到素材样本集合。图像处理装置可以利用素材样本集合,对初始多分类神经网络进行模型训练,得到结构分类模型;并利用训练得到的结构分类模型,对原始素材库中的剩余原始素材进行分类,得到剩余原始素材对应的至少一种结构的至少一个预测概率,从而完成对原始素材的分类。
在一些实施例中,上述通过结构分类模型对原始素材进行分类预测的过程可以如图8所示。图像处理装置可以获取与预设结构类别中每种结构对应的多个样本素材,得到样本素材集合,使用样本素材集合对初始CNN分类网络进行预训练,得到CNN分类网络。CNN分类网络中可以包含以预训练权重为参数的卷积层、池化层与激活层,可以对原始素材库中的海量原始素材进行分类预测,得到每个原始素材对应的分类概率分布,即每个原始素材对应的至少一种结构的至少一个预测概率。
在一些实施例中,图8中CNN分类网络的卷积层可以是MobileNet,也可以是其他类型的卷积网络层,具体的根据实际情况进行选择,本申请实施例不作限定。
S002、当至少一个预测概率中的最大的预测概率大于预设概率阈值时,对原始素材进行图像内容识别,得到原始素材对应的内容标签。
本申请实施例中,当分类预测得到的原始素材相对于至少一种结构的至少一个预测概率中,最大预测概率大于预设概率阈值时,说明该原始素材与文字结构的形状相似,可以作为用于替代文字结构的预设素材。图像处理装置可以进一步对该原始素材进行图像内容识别,得到原始素材对应的内容标签。
在一些实施例中,图像处理装置可以利用人工智能的图像识别方法,识别出原始素材中包含的内容。如图9所示,从三文鱼寿司的素材可以识别出“日料,寿司,三文鱼,…”等等内容,图像处理装置可以根据识别出的内容对原始素材打上相应的内容标签。示例性地,通过图像识别模型对素材进行内容识别,可以得到如下代码形式的识别内容:
在一些实施例中,图像处理装置根据识别出的内容对原始素材打上相应的内容标签之前,可以先对识别出的内容进行去重,并在内容标签中标注每个识别内容对应的置信度,如((塔楼,81),(夜晚,79)…)等等。
S003、将原始素材对应的至少一种结构的至少一个预测概率作为结构信息,将原始素材及其对应的结构信息与内容标签,存入预设素材库。
可以理解的是,本申请实施例中,通过自动筛选适用于替代文字结构的素材,并对素材进行结构信息与内容标签的识别,构建得到素材库,可以沉淀素材,并极大提高素材的复用程度,并且有利于根据每个素材的结构信息与内容标签进行快速匹配,从而提高了特效文字图像的生成效率。
在一些实施例中,基于图7,图像处理装置还可以执行S201-S202,将结合各步骤进行说明。
S201、获取原始素材的素材颜色信息,以及原始素材的适配区域中的至少一个。
本申请实施例中,图像处理装置可以获取原始素材的RGB通道、灰度或亮度信息中的至少一种,作为素材颜色信息;以及/或者,图像处理装置可以根据原始素材的结构信息,得到原始素材在文字中的适配区域,从而得到原始素材的素材颜色信息,以及原始素材在文字中的适配区域中的至少一个。
示例性地,对于结构“日”,可以在“春”字中位于下方区域,也可以在“晷”字中位于上方区域,因此,对于结构“日”相关的原始素材,图像处理装置可以根据其具体的形状细节等信息,识别出其在文字中适配的显示区域,从而得到原始素材的适配区域。
S202、将素材颜色信息与适配区域中的至少一个,与原始素材及其对应的结构信息以及内容标签,存入预设素材库。
本申请实施例中,图像处理装置可以将素材颜色信息与适配区域中的至少一个,与原始素材及其对应的结构信息以及内容标签,存入预设素材库,以便后续可以根据相应的颜色维度、位置维度中的至少一种、以及形状维度和内容维度维度,对预设素材库中的素材进行匹配。
可以理解的是,本申请实施例中,还可以从颜色维度和位置维度进一步丰富预设素材库的信息,以提高在预设素材库中进行素材匹配的灵活性。
在一些实施例中,参见图10,图10是本申请实施例提供的图像处理方法的一个可选的流程示意图,基于图5,S104可以通过执行S301-S304来实现,将结合各步骤进行说明。
S301、从至少一个素材中,确定与标志性结构匹配的待匹配素材集合。
本申请实施例中,结构信息表征每个素材对应于预设结构类别中至少一种结构的至少一个预测概率,图像处理装置可以根据标志性结构,在预设素材库的每个素材的结构信息中确定出与标志性结构对应的预测概率,将标志性结构对应的预测概率大于预设结构匹配阈值的至少一个素材,作为待匹配素材集合。
示例性地,当标志性结构为笔画“丿”或者“日”时,图像处理装置可以在预设素材库中,将相对于“丿”或“日”结构的预测概率大于50%的至少一个素材作为待匹配素材集合。
S302、对于待匹配素材集合中每个待匹配素材,根据预设结构匹配权重与每个待匹配素材对应的结构信息中的预测概率,计算每个待匹配素材对应的结构分数。
本申请实施例中,标志性结构在每个待匹配素材的结构信息中对应的预测概率可能是不同的,图像处理装置可以根据标志性结构在每个待匹配素材的结构信息中对应的预测概率与预设结构匹配权重,计算出每个待匹配素材对应的结构分数。
S303、结合预设语义匹配权重,计算每个待匹配素材的内容标签与扩展语义信息的相似性,得到每个待匹配素材对应的语义分数。
本申请实施例中,图像处理装置可以根据向量相似度计算方式,计算每个待匹配素材的内容标签与扩展语义信息的相似程度值,即相似性。图像处理装置将相似性结合预设语义匹配权重,得到每个待匹配素材对应的结构分数。
在一些实施例中,每个素材的内容标签包含至少一个识别内容,每个识别内容包含该识别内容对应的置信度,作为标签置信度,对于每个待匹配素材,图像处理装置可以从至少一个内容标签中确定出标签置信度大于或等于预设置信度阈值的候选内容标签;计算候选内容标签与扩展语义信息的相似性,得到每个待匹配素材对应的语义分数。也即图像处理装置可以从至少一个识别内容中筛选出置信度高的识别内容进行语义分数的计算,以提高计算效率。示例性地,预设置信度阈值可以为50%,也可以预设为其他数值,具体地根据实际情况进行选择,本申请实施例不作限定。
在一些实施例中,预设语义匹配权重可以大于预设结构匹配权重,也可以根据实际情况进行其他设置,本申请实施例不作限定。
S304、基于结构分数与语义分数,从待匹配素材集合中筛选得到特效素材。
本申请实施例中,图像处理装置可以基于得到的结构分数与语义分数,进行综合筛选,从待匹配素材集合中筛选得到特效素材。
在一些实施例中,图像处理装置可以对结构分数与语义分数进行求和或平均计算,得到综合分数,将待匹配素材集合中综合分数最高的待匹配素材作为特效素材。
在一些实施例中,图像处理装置也可以在得到综合分数之后,将综合分数大于预设总分数阈值至少一个待匹配素材作为候选素材,在候选素材中,根据结构分数和语义分数各自具体的值进行二次筛选,比如选择语义分数最高的候选素材作为特效素材等等。
这里,需要说明的是,当图像处理装置根据上述预设结构匹配阈值、预设置信度阈值、与预设总分数阈值筛选得到的待匹配素材、候选内容标签或候选素材的数量过少,不满足筛选要求时,可以通过与S102中类似的动态放宽处理过程,对上述预设结构匹配阈值、预设置信度阈值、与预设总分数阈值进行动态放宽,以保证得到更准确的筛选结果。
在一些实施例中,图像处理装置也可以基于结构分数与语义分数,结合素材的素材颜色信息与适配区域,从待匹配素材集合中筛选得到特效素材。具体的可根据实际情况对上述筛选方法进行组合、选择或变形,本申请实施例不作限定。
可以理解的是,本申请实施例中,通过使用标志性结构与扩展语义信息在预设素材库中进行自动匹配,在素材选择时覆盖预设素材库中的海量素材,提高了特效文字图像生成的效率与丰富程度。
在一些实施例中,参见图11,图11是本申请实施例提供的图像处理方法的一个可选的流程示意图,基于图5,S104还可以通过执行S401-S403来实现,将结合各步骤进行说明。
S401、根据预设素材库中的每个素材的结构信息中对应标志性结构的预测概率,结合预设结构匹配权重,计算每个素材对应的结构分数。
S402、结合预设语义匹配权重,计算每个素材的内容标签与扩展语义信息的相似性,得到每个素材对应的语义分数。
本申请实施例中,对于预设素材库中每个素材,图像处理装置可以根据标志性结构在每个素材的结构信息中对应的预测概率,结合预设结构匹配权重,计算所述每个素材对应的结构分数;同时,结合预设语义匹配权重,在预设素材库的全集范围内,计算每个素材的内容标签与扩展语义信息的相似性,得到每个素材对应的语义分数。
本申请实施例中,图像处理装置计算结构分数与语义分数的过程与S301和S302中的过程类似,此处不再赘述。
S403、基于结构分数与语义分数,从预设素材库中筛选得到特效素材。
本申请实施例中,图像处理装置可以对结构分数与语义分数进行求和或平均计算,得到预设素材库中每个素材对应的综合分数;基于综合分数,从预设素材库中筛选得到特效素材。S403是在预设素材库的全集范围内,通过与S304中类似的过程,来进行特效素材的筛选,此处不再赘述。
在一些实施例中,基于上述S201-S203,S403可以通过执行S4031-S4033来实现,将结合各步骤进行说明。
S4031、根据结构分数与语义分数,从预设素材库中筛选得到候选素材集合。
本申请实施例中,基于上述S401-S403中获取到的素材颜色信息与适配区域中的至少一个,图像处理装置在预设素材库中进行筛选时,可以先根据结构分数与语义分数进行筛选,得到初步筛选对应的候选素材集合。
S4032、获取标志性结构对应的颜色信息,或者获取待处理文字图像的背景颜色信息,作为待匹配颜色信息。
本申请实施例中,图像处理装置可以获取标志性结构对应的颜色信息,或者获取待处理文字图像的背景颜色信息,作为待匹配颜色信息,以使得通过待匹配颜色信息匹配得到的特效素材,能与对应的文字或整体的待处理文字图像的颜色保持一致。
S4033、根据每个候选素材的适配区域与素材颜色信息中的至少一个,在候选素材集合中,筛选出与标志性结构占据的区域中的至少一个匹配的候选特征素材,作为特效素材。
本申请实施例中,图像处理装置可以根据每个候选素材的适配区域与素材颜色信息中的至少一个,对候选素材集合进行进一步筛选,筛选出与标志性结构占据的区域中的至少一个匹配的候选特征素材,作为特效素材。
可以理解的是,图像处理装置还可以从颜色和位置的维度,对素材进行进一步筛选得到特效素材,从而进一步提高根据特效素材生成文字特效图像的表现效果。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。如图12所示,本申请实施例在实际的应用场景中的示例性应用过程可以包含主要过程和辅助过程,其中,主要过程包括:
S501、接收待处理文字图像。
S501中,接收用户输入的需要转为特效字的文字图像,作为待处理文字图像。
S502、训练关键笔画标注器,并通过关键笔画标注器逐字识别关键笔画。
S502中,训练得到关键笔画标注器,即笔画识别模型;并使用预训练的关键笔画标注器,对待处理文字图像中包含的每一个文字进行笔画拆解与识别,得到至少一个笔画,即至少一个文字结构。这里,S502的执行过程与S101描述一致,此处不再赘述。
S503、过滤并选择关键笔画。
S503中,根据预设筛选规则,对识别到的至少一个笔画进行过滤,选择出关键笔画,即标志性文字结构。这里,S503的执行过程与S102描述一致,此处不再赘述。
S504、对待处理文字图像进行分词。
S504中,与S502并列地,对对待处理图像中的文字进行分词,得到至少一个词语。
S505、拓展词义。
S505中,根据词向量相似度计算方法,进行对分词得到的至少一个词语进行词义拓展,得到扩展语义信息。这里S504和S505的执行过程与S103描述一致,此处不再赘述。
S506、匹配素材。
S506中,根据关键笔画和扩展语义信息在素材库中自动匹配素材,得到特效素材。这里S506的执行过程与S104描述一致,此处不再赘述。
S507、放置特效素材。
S507中,将特效素材放置在关键笔画对应的图像区域,覆盖关键笔画,得到特效文字图像。
S508、输出特效文字图像。
这里,S507和S508的执行过程与S105描述一致,此处不再赘述。
本申请实施例在图12的辅助过程中,示出了预设素材库的构建方法,如下:
S601、获取海量的原始素材。
S601中,可以从版权图库和设计师的沉淀积累的素材图片中获取海量的原始素材。
S602、对素材内容进行识别。
S602中,通过人工智能的图像识别模型,对原始素材的素材内容进行识别,根据识别结果为每个原始素材打上至少一个内容标签。这里,S602的执行过程跟S002描述一致,此处不再赘述。
S603、对素材形状进行分类。
S603中,通过预训练的结构分类模型,根据素材的形状对原始素材进行分类,得到每个原始素材对应于至少一种结构的至少一个概率。这里,S603的执行过程跟S001描述一致,此处不再赘述。
S604、构建预设素材库。
S604中,将打上内容标签,并带有对应于至少一种结构的至少一个概率的原始素材入库,从而构建得到预设素材库。这里,S604的执行过程跟S003描述一致,此处不再赘述。
可以理解的是,本申请实施例中,通过关键笔画与扩展语义信息在素材库中进行自动匹配选取特效素材,可以极大地提高素材的复用率,解决人工精力有限,无法在设计时涉猎海量素材的问题,并且,通过对待处理文字图像进行关键笔画识别与特效素材覆盖,实现了通过机器自动生成特效文字图像,极大地降低了设计成本,提高了特效文字图像的生成效率。并且,利用扩展出的多个词义以及海量素材库,通过机器自动进行笔画挑选和素材匹配替换,可以在保证符合设计规范的基础上,选择出更加丰富多样特效素材来生成特效文字图像,提高特效文字图像的表现效果。并且,通过构建素材库,可以沉淀素材,并极大提高素材的复用程度。
下面继续说明本申请实施例提供的图像处理装置255的实施为软件模块的示例性结构,在一些实施例中,如图4所示,存储在存储器250的图像处理装置255中的软件模块可以包括:
结构识别模块2551,用于基于预设结构类别,对获取的待处理文字图像进行文字结构拆解,得到至少一个文字结构;
筛选模块2552,用于根据预设筛选规则,对所述至少一个文字结构进行筛选,得到标志性结构;
语义模块2553,用于获取所述待处理文字图像中的语义信息并进行语义扩展,得到扩展语义信息;
匹配模块2554,用于基于所述标志性结构与所述扩展语义信息,与预设素材库中的至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到特效素材;
覆盖模块2555,用于使用所述特效素材对所述待处理文字图像中的所述标志性结构进行覆盖,得到特效文字图像。
在一些实施例中,所述预设筛选规则中的每条规则对应有预设的规则优先级,所述预设筛选规则包括以下至少之一:
标志性结构占据所述待处理文字图像的面积比例,大于或等于预设面积占比阈值;
标志性结构的数量,小于或等于第一预设数量阈值;
标志性结构为所述预设结构类别中的预设结构;
标志性结构位于所述待处理文字图像中的预设区域。
在一些实施例中,所述图像处理装置还包括调整模块,所述调整模块,用于当所述标志性结构的数量小于第二预设数量阈值时,对所述预设筛选规则进行调整,得到调整筛选规则;所述第二预设数量阈值小于所述第一预设数量阈值;所述调整筛选规则用于对所述预设筛选规则进行动态放宽处理,以增加根据所述调整筛选规则得到的标志性结构的数量;根据所述调整筛选规则,对所述至少一个文字结构重新进行筛选,得到所述标志性结构;其中,所述动态放宽处理包括:减少使用的规则数量和减小预设筛选规则中的预设面积占比阈值中的至少一个。
在一些实施例中,所述语义模块2553,还用于对所述待处理文字图像进行文字内容识别,得到所述待处理文字图像对应的字符序列;对所述字符序列进行分词处理,得到至少一个词语;对所述至少一个词语进行词义扩展,得到每个词语对应的至少一个扩展词;将所述每个词语与其对应的所述至少一个扩展词均作为所述扩展语义信息。
在一些实施例中,所述语义模块2553,还用于对于所述至少一个词语中的每个词语,计算所述每个词语与预设词向量库中每个预设词向量的相似度;将相似度大于或等于预设相似度阈值的预设词向量作为所述每个词语对应的扩展词,得到所述至少一个扩展词。
在一些实施例中,所述匹配模块2554,还用于从所述至少一个素材中,确定与所述标志性结构匹配的待匹配素材集合;对于所述待匹配素材集合中每个待匹配素材,根据预设结构匹配权重与所述每个待匹配素材对应的结构信息中的预测概率,计算所述每个待匹配素材对应的结构分数;结合预设语义匹配权重,计算所述每个待匹配素材的内容标签与所述扩展语义信息的相似性,得到所述每个待匹配素材对应的语义分数;基于所述结构分数与所述语义分数,从所述待匹配素材集合中筛选得到所述特效素材。
在一些实施例中,所述内容标签为至少一个识别内容,每个识别内容包含标签置信度;所述匹配模块2554,还用于对于所述每个待匹配素材,从所述至少一个内容标签中确定出标签置信度大于或等于预设置信度阈值的候选内容标签;计算所述候选内容标签与所述扩展语义信息的相似性,得到所述每个待匹配素材对应的所述语义分数。
在一些实施例中,所述匹配模块2554,还用于根据所述预设素材库中的所述每个素材的结构信息中对应所述标志性结构的预测概率,结合预设结构匹配权重,计算所述每个素材对应的结构分数;结合预设语义匹配权重,计算所述每个素材的内容标签与所述扩展语义信息的相似值,得到所述每个素材对应的语义分数;基于所述结构分数与所述语义分数,从所述预设素材库中筛选得到所述特效素材。
在一些实施例中,所述图像处理装置还包括素材处理模块,所述素材处理模块,用于所述基于所述标志性结构与所述扩展语义信息,在预设素材库中进行匹配,得到特效素材之前,根据所述预设结构类别,对原始素材进行分类预测,得到所述原始素材对应的所述至少一种结构的所述至少一个预测概率;当所述至少一个预测概率中的最大的预测概率大于预设概率阈值时,对所述原始素材进行图像内容识别,得到所述原始素材对应的内容标签;将所述原始素材对应的所述至少一种结构的所述至少一个预测概率作为所述结构信息,将所述素材颜色信息与所述适配区域中的至少一个,与所述原始素材及其对应的所述结构信息以及所述内容标签,存入所述预设素材库。
在一些实施例中,所述素材处理模块,还用于获取所述原始素材的素材颜色信息,以及所述原始素材的适配区域中的至少一个;将所述原始素材及其对应的所述素材颜色信息与所述适配区域中的至少一个,以及所述结构信息与所述内容标签,存入所述预设素材库。
在一些实施例中,所述匹配模块2554,还用于根据所述结构分数与所述语义分数,从所述预设素材库中筛选得到候选素材集合;获取所述标志性结构对应的颜色信息,或者获取所述待处理文字图像的背景颜色信息,作为待匹配颜色信息;根据每个候选素材的适配区域与素材颜色信息中的至少一个,在所述候选素材集合中,筛选出与所述标志性结构占据的区域中的至少一个匹配的候选素材,作为所述特效素材。
在一些实施例中,所述匹配模块2554,还用于对所述结构分数与所述语义分数进行求和或平均计算,得到所述预设素材库中每个素材对应的综合分数;基于综合分数,从所述预设素材库中筛选得到所述特效素材。
在一些实施例中,所述素材处理模块,还用于对于所述预设结构类别中每种结构,从原始素材库中获取所述每种结构对应的预设样本数量的原始素材,得到样本素材集合;利用所述样本素材集合,对初始多分类神经网络进行模型训练,得到结构分类模型;利用所述结构分类模型,对所述原始素材库中的剩余原始素材进行分类,得到所述剩余原始素材对应的所述至少一种结构的所述至少一个预测概率,从而完成对所述原始素材的分类。
在一些实施例中,所述结构识别模块2551,还用于基于所述预设结构类别,对所述待处理文字图像进行目标检测,预测出所述预设结构类别对应的多个图像区域;其中,每个图像区域包含至少一个区域置信度;所述至少一个区域置信度表征所述每个图像区域对应于所述预设结构类别中至少一种结构的至少一个概率;将大于或等于预设结构置信度阈值的区域置信度对应的结构,作为所述待处理文字图像中的所述至少一个文字结构。
在一些实施例中,所述每个图像区域包含位置信息;所述覆盖模块2555,还用于对所述特效素材进行图像预处理,得到预处理后的特效素材;按照所述位置信息,将所述预处理后的特效素材覆盖在所述标志性结构占据的图像区域上,得到所述特效文字图像;其中,所述图像预处理包括:缩放处理与旋转处理中的至少一种;所述缩放处理用于根据所述标志性结构占据的图像区域调整所述特效素材的大小。
在一些实施例中,所述匹配模块2554,还用于将标志性结构与扩展语义信息,与预设素材库中的至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到多个备选素材;将所述多个备选素材中的任意备选素材作为所述特效素材;
所述图像处理装置还包括更换模块,所述更换模块,用于所述使用所述特效素材对所述待处理文字图像中的所述标志性结构进行覆盖,得到特效文字图像之后,当接收到特效文字图像更换指令时,根据所述多个备选素材中的其余素材生成新的特效文字图像。
需要说明的是,以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图5、7、11、12中示出的方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,本申请实施例通过对待处理文字图像中的进行文字结构拆解,并从拆解得到的至少一个文字结构中自动筛选出标志性结构,实现了对文字中具有代表性的结构如笔画等的自动识别,进而基于识别到的标志性结构,结合扩展语义信息,从预设素材库中匹配得到特效素材,从而极大地节省了人力成本,大大提高了特效文字图像的生成效率,并且能够通过对语义信息的扩展,筛选出更加丰富多样的特效素材,提高了特效文字图像的表现效果。并且,利用扩展出的多个词义以及海量素材库,通过机器自动进行笔画挑选和素材匹配替换,可以在保证符合设计规范的基础上,选择出更加丰富多样特效素材来生成特效文字图像,提高特效文字图像的表现效果。并且,通过构建素材库,可以沉淀素材,并极大提高素材的复用程度。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (15)
1.一种图像处理方法,其特征在于,包括:
基于预设结构类别,对获取的待处理文字图像进行文字结构拆解,得到至少一个文字结构;
根据预设筛选规则,对所述至少一个文字结构进行筛选,得到标志性结构;
获取所述待处理文字图像中的语义信息并进行语义扩展,得到扩展语义信息;
基于所述标志性结构与所述扩展语义信息,与预设素材库中的至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到特效素材;
使用所述特效素材对所述待处理文字图像中的所述标志性结构进行覆盖,得到特效文字图像。
2.根据权利要求1所述的方法,其特征在于,所述预设筛选规则中的每条规则对应有预设的规则优先级,所述预设筛选规则包括以下至少之一:
标志性结构占据所述待处理文字图像的面积比例,大于或等于预设面积占比阈值;
标志性结构的数量,小于或等于第一预设数量阈值;
标志性结构为所述预设结构类别中的预设结构;
标志性结构位于所述待处理文字图像中的预设区域。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述标志性结构的数量小于第二预设数量阈值时,对所述预设筛选规则进行调整,得到调整筛选规则;所述第二预设数量阈值小于所述第一预设数量阈值;所述调整筛选规则用于对所述预设筛选规则进行动态放宽处理,以增加根据所述调整筛选规则得到的标志性结构的数量;
根据所述调整筛选规则,对所述至少一个文字结构重新进行筛选,得到所述标志性结构;
其中,所述动态放宽处理包括:减少使用的规则数量和减小预设筛选规则中的预设面积占比阈值中的至少一个。
4.根据权利要求1所述的方法,其特征在于,所述获取所述待处理文字图像中的语义信息并进行语义扩展,得到扩展语义信息,包括:
对所述待处理文字图像进行文字内容识别,得到所述待处理文字图像对应的字符序列;
对所述字符序列进行分词处理,得到至少一个词语;
对所述至少一个词语进行词义扩展,得到每个词语对应的至少一个扩展词;
将所述每个词语与其对应的所述至少一个扩展词均作为所述扩展语义信息;
其中,所述对所述至少一个分词进行词义扩展,得到至少一个扩展词,包括:
对于所述至少一个词语中的每个词语,计算所述每个词语与预设词向量库中每个预设词向量的相似度;
将相似度大于或等于预设相似度阈值的预设词向量作为所述每个词语对应的扩展词,得到所述至少一个扩展词。
5.根据权利要求1所述的方法,其特征在于,所述基于所述标志性结构与所述扩展语义信息,与预设素材库中的至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到特效素材,包括以下任意一种:
从所述至少一个素材中,确定与所述标志性结构匹配的待匹配素材集合;
对于所述待匹配素材集合中每个待匹配素材,根据预设结构匹配权重与所述每个待匹配素材对应的结构信息中的预测概率,计算所述每个待匹配素材对应的结构分数;
结合预设语义匹配权重,计算所述每个待匹配素材的内容标签与所述扩展语义信息的相似性,得到所述每个待匹配素材对应的语义分数;
基于所述结构分数与所述语义分数,从所述待匹配素材集合中筛选得到所述特效素材;
或者,
根据所述预设素材库中的所述每个素材的结构信息中对应所述标志性结构的预测概率,结合预设结构匹配权重,计算所述每个素材对应的结构分数;
结合预设语义匹配权重,计算所述每个素材的内容标签与所述扩展语义信息的相似性,得到所述每个素材对应的语义分数;
基于所述结构分数与所述语义分数,从所述预设素材库中筛选得到所述特效素材。
6.根据权利要求5所述的方法,其特征在于,所述内容标签为至少一个识别内容,每个识别内容包含标签置信度;
所述结合预设语义匹配权重,计算所述每个待匹配素材的内容标签与所述扩展语义信息的相似性,得到所述每个待匹配素材对应的语义分数,包括:
对于所述每个待匹配素材,从所述至少一个内容标签中确定出标签置信度大于或等于预设置信度阈值的候选内容标签;
计算所述候选内容标签与所述扩展语义信息的相似性,得到所述每个待匹配素材对应的所述语义分数。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述基于所述标志性结构与所述扩展语义信息,与预设素材库中的至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到特效素材之前,所述方法还包括:
根据所述预设结构类别,对原始素材进行分类预测,得到所述原始素材对应的所述至少一种结构的所述至少一个预测概率;
当所述至少一个预测概率中的最大的预测概率大于预设概率阈值时,对所述原始素材进行图像内容识别,得到所述原始素材对应的内容标签;
将所述原始素材对应的所述至少一种结构的所述至少一个预测概率作为所述结构信息,将所述原始素材及其对应的所述结构信息与所述内容标签,存入所述预设素材库。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取所述原始素材的素材颜色信息,以及所述原始素材的适配区域中的至少一个;
将所述素材颜色信息与所述适配区域中的至少一个,与所述原始素材及其对应的所述结构信息以及所述内容标签,存入所述预设素材库;
所述基于所述结构分数与所述语义分数,从所述预设素材库中筛选得到所述特效素材,包括:
根据所述结构分数与所述语义分数,从所述预设素材库中筛选得到候选素材集合;
获取所述标志性结构对应的颜色信息,或者获取所述待处理文字图像的背景颜色信息,作为待匹配颜色信息;
根据每个候选素材的适配区域与素材颜色信息中的至少一个,在所述候选素材集合中,筛选出与所述标志性结构占据的区域中的至少一个匹配的候选素材,作为所述特效素材。
9.根据权利要求7所述的方法,其特征在于,所述根据所述预设结构类别,对原始素材进行分类预测,得到所述原始素材对应的所述至少一种结构的所述至少一个预测概率,包括:
对于所述预设结构类别中每种结构,从原始素材库中获取所述每种结构对应的预设样本数量的原始素材,得到样本素材集合;
利用所述样本素材集合,对初始多分类神经网络进行模型训练,得到结构分类模型;
利用所述结构分类模型,对所述原始素材库中的剩余原始素材进行分类,得到所述剩余原始素材对应的所述至少一种结构的所述至少一个预测概率,从而完成对所述原始素材的分类。
10.根据权利要求1所述的方法,其特征在于,所述基于预设结构类别,对获取的待处理文字图像进行文字结构拆解,得到至少一个文字结构,包括:
基于所述预设结构类别,对所述待处理文字图像进行目标检测,预测出所述预设结构类别对应的多个图像区域;其中,每个图像区域包含至少一个区域置信度;所述至少一个区域置信度表征所述每个图像区域对应于所述预设结构类别中至少一种结构的至少一个概率;
将大于或等于预设结构置信度阈值的区域置信度对应的结构,作为所述待处理文字图像中的所述至少一个文字结构。
11.根据权利要求10所述的方法,其特征在于,所述每个图像区域包含位置信息;所述使用所述特效素材对所述待处理文字图像中的所述标志性结构进行覆盖,得到特效文字图像,包括:
对所述特效素材进行图像预处理,得到预处理后的特效素材;
按照所述位置信息,将所述预处理后的特效素材覆盖在所述标志性结构占据的图像区域上,得到所述特效文字图像;其中,所述图像预处理包括:
缩放处理与旋转处理中的至少一种;所述缩放处理用于根据所述标志性结构占据的图像区域调整所述特效素材的大小。
12.根据权利要求1-6任一项所述的方法,其特征在于,所述基于所述标志性结构与所述扩展语义信息,与预设素材库中的至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到特效素材,包括:
将标志性结构与扩展语义信息,与预设素材库中的至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到多个备选素材;
将所述多个备选素材中的任意备选素材作为所述特效素材;
所述使用所述特效素材对所述待处理文字图像中的所述标志性结构进行覆盖,得到特效文字图像之后,所述方法还包括:
当接收到特效文字图像更换指令时,根据所述多个备选素材中的其余素材生成新的特效文字图像。
13.一种图像处理装置,其特征在于,包括:
结构识别模块,用于基于预设结构类别,对获取的待处理文字图像进行文字结构拆解,得到至少一个文字结构;
筛选模块,用于根据预设筛选规则,对所述至少一个文字结构进行筛选,得到标志性结构;
语义模块,用于获取所述待处理文字图像中的语义信息并进行语义扩展,得到扩展语义信息;
匹配模块,用于基于所述标志性结构与所述扩展语义信息,与预设素材库中的至少一个素材中每个素材对应的结构信息与内容标签进行匹配,得到特效素材;
覆盖模块,用于使用所述特效素材对所述待处理文字图像中的所述标志性结构进行覆盖,得到特效文字图像。
14.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110655189.8A CN113821663A (zh) | 2021-06-11 | 2021-06-11 | 图像处理方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110655189.8A CN113821663A (zh) | 2021-06-11 | 2021-06-11 | 图像处理方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113821663A true CN113821663A (zh) | 2021-12-21 |
Family
ID=78923864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110655189.8A Pending CN113821663A (zh) | 2021-06-11 | 2021-06-11 | 图像处理方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113821663A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114741550A (zh) * | 2022-06-09 | 2022-07-12 | 腾讯科技(深圳)有限公司 | 图像搜索方法、装置、电子设备和计算机可读存储介质 |
CN114880057A (zh) * | 2022-04-22 | 2022-08-09 | 北京三快在线科技有限公司 | 图像显示方法、装置、终端、服务器及存储介质 |
-
2021
- 2021-06-11 CN CN202110655189.8A patent/CN113821663A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880057A (zh) * | 2022-04-22 | 2022-08-09 | 北京三快在线科技有限公司 | 图像显示方法、装置、终端、服务器及存储介质 |
CN114741550A (zh) * | 2022-06-09 | 2022-07-12 | 腾讯科技(深圳)有限公司 | 图像搜索方法、装置、电子设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
Shi et al. | Can a machine generate humanlike language descriptions for a remote sensing image? | |
CN114155543B (zh) | 神经网络训练方法、文档图像理解方法、装置和设备 | |
US10032072B1 (en) | Text recognition and localization with deep learning | |
Dewi et al. | Weight analysis for various prohibitory sign detection and recognition using deep learning | |
CN111160335A (zh) | 基于人工智能的图像水印处理方法、装置及电子设备 | |
CN109783635A (zh) | 使用机器学习和模糊匹配自动分层分类文档和标识元数据 | |
CN114904270B (zh) | 虚拟内容的生成方法及装置、电子设备、存储介质 | |
CN112819686A (zh) | 基于人工智能的图像风格处理方法、装置及电子设备 | |
CN113761153B (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
CN114283350B (zh) | 视觉模型训练和视频处理方法、装置、设备及存储介质 | |
US9569698B2 (en) | Method of classifying a multimodal object | |
CN114283351A (zh) | 视频场景分割方法、装置、设备及计算机可读存储介质 | |
CN113821663A (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN103745201A (zh) | 一种节目识别方法及装置 | |
CN115564469A (zh) | 广告创意选取和模型训练方法、装置、设备及存储介质 | |
CN111126243B (zh) | 一种图像数据检测方法、装置以及计算机可读存储介质 | |
JP5433396B2 (ja) | マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法 | |
CN116935170A (zh) | 视频处理模型的处理方法、装置、计算机设备和存储介质 | |
CN113434722B (zh) | 图像分类方法、装置、设备及计算机可读存储介质 | |
CN115935049A (zh) | 基于人工智能的推荐处理方法、装置及电子设备 | |
CN112101154B (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
CN111400524B (zh) | 一种基于ai的可变尺度地质图文本矢量化方法及系统 | |
CN116361502A (zh) | 一种图像检索方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |