CN110706310A - 一种图文融合方法、装置及电子设备 - Google Patents
一种图文融合方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110706310A CN110706310A CN201910783866.7A CN201910783866A CN110706310A CN 110706310 A CN110706310 A CN 110706310A CN 201910783866 A CN201910783866 A CN 201910783866A CN 110706310 A CN110706310 A CN 110706310A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- parameter
- typesetting
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims description 26
- 230000000007 visual effect Effects 0.000 claims abstract description 132
- 238000000034 method Methods 0.000 claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 57
- 230000004927 fusion Effects 0.000 claims abstract description 28
- 238000009826 distribution Methods 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims description 49
- 238000009877 rendering Methods 0.000 claims description 47
- 238000003860 storage Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 230000009545 invasion Effects 0.000 claims description 10
- 238000004040 coloring Methods 0.000 claims description 9
- 239000000758 substrate Substances 0.000 claims 4
- 230000000694 effects Effects 0.000 abstract description 15
- 238000004422 calculation algorithm Methods 0.000 description 68
- 238000001514 detection method Methods 0.000 description 61
- 238000004891 communication Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 22
- 238000007726 management method Methods 0.000 description 15
- 238000003708 edge detection Methods 0.000 description 12
- 238000010295 mobile communication Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 210000004027 cell Anatomy 0.000 description 10
- 230000005484 gravity Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000010521 absorption reaction Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 230000010339 dilation Effects 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 4
- 230000003628 erosive effect Effects 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000007797 corrosion Effects 0.000 description 2
- 238000005260 corrosion Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 102000008186 Collagen Human genes 0.000 description 1
- 108010035532 Collagen Proteins 0.000 description 1
- 108010010803 Gelatin Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 229920001436 collagen Polymers 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 229920000159 gelatin Polymers 0.000 description 1
- 239000008273 gelatin Substances 0.000 description 1
- 235000019322 gelatine Nutrition 0.000 description 1
- 235000011852 gelatine desserts Nutrition 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图文融合方法、装置及电子设备,涉及数字图像处理技术领域,可以在将文本排版至图像时,使得文本最小化地遮挡图像中的显著特征,以及使得文本排版至第一图像后,获得较佳的视觉平衡程度,从而获得较佳的排版效果。采用本申请的方法,首先可以确定出多个候选的文本模板以及对应的多个文本在图像中的排版位置,使得排版至图像中的文本不会遮挡图像中特征值较高的视觉显著主体,例如人脸、建筑物等。然后根据文本以不同文本模板以及在图像中对应的排版位置排版至图像时,文本遮挡的像素点的特征值的大小,以及排版有该文本的图像中各个区域的像素点的特征值分布的平衡程度等,确定文本最终的文本模板以及文本在图像中的排版位置。
Description
技术领域
本申请实施例涉及数字图像处理技术领域,尤其涉及一种图文融合方法、装置及电子设备。
背景技术
随着多媒体技术和互联网络技术的快速发展,文字与图像的融合排版使用越来越广泛。例如,手机的锁屏壁纸、应用(Application,APP)启动时的广告视频等、视频窗口的悬浮广告框等。
在进行文本与图像的融合排版时,如何使文本准确地避开图像中的显著主体(如人脸、花、建筑等),以及如何在避开显著主体的文本的候选区域,选取文本排版的较佳方式,是需要解决的问题。
发明内容
本申请实施例提供一种图文融合方法,可以在将文本排版至图像时获得较佳的排版效果。
为达到上述目的,本申请实施例采用如下技术方案:
第一方面,提供一种图文融合方法,该方法包括:获取第一图像和待排版至该第一图像的第一文本;确定该第一图像中各个像素点的特征值;其中,一个像素点的特征值用于表征该一个像素点被用户关注的可能性的高低,像素点的特征值越高,该像素点被用户关注的可能性越高;根据第一文本,以及该第一图像中各个像素点的特征值,确定第一文本在第一图像的多个第一排版版式;其中,第一文本按照每个第一排版版式排版至该第一图像时,该第一文本不遮挡特征值大于第一阈值的像素点;根据多个第一排版版式的代价参数,从该多个第一排版版式中确定出第二排版版式;其中,一个第一排版版式的代价参数用于表征第一文本按照该第一排版版式排版至第一图像时,第一文本遮挡的像素点的特征值的大小,以及排版有第一文本的第一图像中各个区域的像素点的特征值分布的平衡程度;按照该第二排版版式将第一文本排版至第一图像,得到第二图像。
上述第一方面提供的技术方案,可以确定出多个候选的文本模板以及对应的多个文本在图像中的排版位置,使得排版至图像中的文本不会遮挡图像中特征值较高的视觉显著主体,例如人脸、建筑物等。然后根据文本以不同文本模板以及在图像中对应的排版位置排版至图像时,文本遮挡的像素点的特征值的大小,以及排版有该文本的图像中各个区域的像素点的特征值分布的平衡程度等,确定文本最终的文本模板以及文本在图像中的排版位置,获得较佳的排版效果。
在一种可能的实现方式中,确定第一图像中各个像素点的特征值,包括:确定该第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数;其中,一个像素点的视觉显著参数用于表征该一个像素点是视觉显著性特征对应的像素点的可能性的高低,一个像素点的人脸特征参数用于表征该一个像素点是人脸对应的像素点的可能性的高低,一个像素点的边缘特征参数用于表征该一个像素点是物体轮廓对应的像素点的可能性的高低,一个像素点的文本特征参数用于表征该一个像素点是文本对应的像素点的可能性的高低;分别对确定出的第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定第一图像中各个像素点的特征值。可以综合考虑视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数,以及每一个参数对应的特征被用户关注的可能性程度,确定每一个像素点的特征值。使得根据该特征值确定出的文本的排版位置不遮挡显著特征的可能性更高。
在一种可能的实现方式中,在分别对确定出的第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定该第一图像中各个像素点的特征值之前,该方法还包括:分别根据确定出的第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数生成至少两个特征图;每一个特征图中各个像素点的像素值为对应像素点的对应参数;分别对确定出的该第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定该第一图像中各个像素点的特征值,包括:对上述至少两个特征图中各个像素点的像素值进行加权求和,确定该第一图像中各个像素点的特征值。通过对分别用于表征视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数的特征图中的至少两个,结合每一个参数对应的特征被用户关注的可能性程度进行加权求和,确定每一个像素点的特征值。使得根据该特征值确定出的文本的排版位置不遮挡显著特征的可能性更高。
在一种可能的实现方式中,根据第一文本,以及第一图像中各个像素点的特征值,确定第一文本在该第一图像的多个第一排版版式,包括:根据该第一文本以一个或多个文本模板排版时该第一文本的文本框的大小,以及该第一图像中各个像素点的特征值,确定多个第一排版版式。通过综合分析第一文本以不同文本模板排版时,所占区域的大小,以及第一图像中各个像素点的特征值,可以保证第一文本在确定的文本的排版位置排版时,不遮挡第一图像中的显著特征。
在一种可能的实现方式中,该方法还包括:获取一个或多个文本模板,每个文本模板规定了文本的行间距、行宽、字号、字体、文字粗细、对齐方式、装饰线位置和装饰线粗细中的至少一种。本申请支持第一文本以不同的文本模板排版,灵活度高,图文融合效果更好。
在一种可能的实现方式中,根据多个第一排版版式的代价参数,从该多个第一排版版式中确定出第二排版版式,包括:确定第一文本分别按照上述多个第一排版版式排版至第一图像时,该第一文本的文本框遮挡第一图像的图像区域的纹理特征参数,该纹理特征参数用于表征所述图像区域对应的图像中纹理特征的多少;从多个第一排版版式中,选择出纹理特征参数小于第二阈值的图像区域对应的多个第一排版版式;根据选择出的每个第一排版版式的代价参数,从选择出的多个第一排版版式中确定出第二排版版式。通过舍弃纹理复杂区域用作文本排版位置,可以避免该区域的纹理特征对第一文本显著性的影响,以及避免第一文本排版至该区域时,对该区域纹理特征的遮挡。
在一种可能的实现方式中,该方法还包括:针对多个第一排版版式中每个第一排版版式,执行步骤a、步骤b和步骤c中的至少两个以及步骤d,以得到每个第一排版版式的代价参数;步骤a:计算第一文本按照一个第一排版版式排版至第一图像时,该第一文本的文本入侵参数;该文本入侵参数是第一参数与第二参数的比值;第一参数是所述第一文本遮挡第一图像的图像区域中各个像素点的特征值之和;第二参数是图像区域的面积,或者,第二参数是图像区域中像素点的总数,或者,第二参数是图像区域中像素点的总数与预设数值的乘积;步骤b、计算该第一文本按照一个第一排版版式排版至第一图像时,该第一文本的视觉空间占用参数;该视觉空间占用参数用于表征图像区域中特征值小于第三阈值的像素点的比例;步骤c:计算该第一文本按照一个第一排版版式排版至第一图像时,该第一文本的视觉平衡参数;该视觉平衡参数用于表征第一文本对排版有该第一文本的第一图像中各个区域的像素点的特征值分布的平衡程度的影响程度;步骤d、根据计算出的第一文本的文本入侵参数、视觉空间占用参数和视觉平衡参数中的至少两个,计算一个第一排版版式的代价参数。通过综合考虑第一文本以不同候选排版版式排版时,第一文本遮挡图像区域特征值的具体情况,以及第一文本对第一图像中各个区域的像素点的特征值分布的平衡程度的影响程度,可以从多个候选排版版式中确定出较佳的排版版式。
在一种可能的实现方式中,根据计算出的第一文本的文本入侵参数、视觉空间占用参数和视觉平衡参数中的至少两个,计算一个第一排版版式的代价参数,包括:采用Ti=λ1*Es(Li)+λ2*Eu(Li)+λ3*En(Li),或者,Ti=(λ1*Es(Li)+λ2*Eu(Li))*En(Li),或者,Ti=Es(Li)*Eu(Li)*En(Li)计算该一个第一排版版式的代价参数Ti;其中,Es(Li)为第一文本按照该一个第一排版版式排版至第一图像时,第一文本的文本入侵参数,Eu(Li)为第一文本按照该一个第一排版版式排版至第一图像时,第一文本的视觉空间占用参数,En(Li)为第一文本按照该一个第一排版版式排版至第一图像时,第一文本的视觉平衡参数;λ1、λ2和λ3分别为Es(Li)、Eu(Li)和En(Li)对应的权重参数。通过采用上述计算方法,综合考虑第一文本以不同候选排版版式排版时,第一文本遮挡图像区域特征值的具体情况,计算得每个候选排版版式对应的代价参数。
在一种可能的实现方式中,根据多个第一排版版式的代价参数,从多个第一排版版式中确定出第二排版版式,包括:确定多个第一排版版式的代价参数中,最小的代价参数对应的第一排版版式为第二排版版式。通过确定代价参数最小值对应的候选排版版式为最终的文本排版版式,可以最大程度的确保第一文本排版至第一图像后的美学效果。
在一种可能的实现方式中,该方法还包括:确定第一文本的颜色参数;该第一文本的颜色参数为第一文本按照第二排版版式排版至第一图像时,第一图像被第一文本遮挡的图像区域的主色的衍生颜色;该主色的衍生颜色是指与主色色相相同,但是色调,饱和度和明度与主色的HSV不同的颜色;根据第一文本的颜色参数,对第二图像中的第一文本着色,获得第三图像。通过以第一文本可能遮挡第一图像的图像区域的主色的衍生颜色对第一文本着色,可以使第一文本排版至第一图像后,其颜色与背景图像更加协调,显示更加清晰。
在一种可能的实现方式中,第一图像被该第一文本遮挡的图像区域的主色是基于第一文本按照第二排版版式排版至第一图像时,第一图像被第一文本遮挡的图像区域的三原色光RGB在HSV空间中的色调、饱和度和明度确定的;该主色为该图像区域中色相占比最高的色相。通过根据第一文本可能遮挡第一图像的图像区域的色调、饱和度和明度确定该图像区域的主色,进而可以根据图像区域的主色的衍生颜色对第一文本着色,使第一文本排版至第一图像后,其颜色与背景图像更加协调,显示更加清晰。
在一种可能的实现方式中,该方法还包括:若满足以下条件1和条件2中的至少一个,确定对该第二图像进行渲染处理;条件1:第一文本按照第二排版版式排版至该第一图像后,第一文本遮挡该第一图像的图像区域的纹理特征参数大于第四阈值;该纹理特征参数用于表征图像区域对应的图像中纹理特征的多少;条件2:图像区域的主色占比小于第五阈值;在所第二图像上覆盖蒙版图层;或者,确定蒙版参数,根据确定的蒙版参数处理所述第二图像;或者,对第一文本进行投影渲染。通过蒙版渲染或者投影渲染,可以提高第一文本的清晰度和显著性。
在一种可能的实现方式中,该方法还包括:若满足以下条件1和条件2中的至少一个,确定对该第三图像进行渲染处理;条件1:第一文本按照第二排版版式排版至该第一图像后,第一文本遮挡该第一图像的图像区域的纹理特征参数大于第四阈值;该纹理特征参数用于表征图像区域对应的图像中纹理特征的多少;条件2:图像区域的主色占比小于第五阈值;在所第三图像上覆盖蒙版图层;或者,确定蒙版参数,根据确定的蒙版参数处理所述第三图像;或者,对第一文本进行投影渲染。通过蒙版渲染或者投影渲染,可以提高第一文本的清晰度和显著性。
第二方面,提供一种图文融合装置,该装置包括:信息获取单元,用于获取第一图像和待排版至该第一图像的第一文本;分析单元,用于确定该第一图像中各个像素点的特征值;其中,一个像素点的特征值用于表征该一个像素点被用户关注的可能性的高低,像素点的特征值越高,该像素点被用户关注的可能性越高;以及,根据第一文本,以及该第一图像中各个像素点的特征值,确定第一文本在第一图像的多个第一排版版式;其中,第一文本按照每个第一排版版式排版至该第一图像时,该第一文本不遮挡特征值大于第一阈值的像素点;以及,根据多个第一排版版式的代价参数,从该多个第一排版版式中确定出第二排版版式;其中,一个第一排版版式的代价参数用于表征第一文本按照该第一排版版式排版至第一图像时,第一文本遮挡的像素点的特征值的大小,以及排版有第一文本的第一图像中各个区域的像素点的特征值分布的平衡程度;处理单元,按照该第二排版版式将第一文本排版至第一图像,得到第二图像。
上述第二方面提供的装置,可以确定出多个候选的文本模板以及对应的多个文本在图像中的排版位置,使得排版至图像中的文本不会遮挡图像中特征值较高的视觉显著主体,例如人脸、建筑物等。然后根据文本以不同文本模板以及在图像中对应的排版位置排版至图像时,文本遮挡的像素点的特征值的大小,以及排版有该文本的图像中各个区域的像素点的特征值分布的平衡程度等,确定文本最终的文本模板以及文本在图像中的排版位置,获得较佳的排版效果。
在一种可能的实现方式中,分析单元确定第一图像中各个像素点的特征值,包括:分析单元确定该第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数;其中,一个像素点的视觉显著参数用于表征该一个像素点是视觉显著性特征对应的像素点的可能性的高低,一个像素点的人脸特征参数用于表征该一个像素点是人脸对应的像素点的可能性的高低,一个像素点的边缘特征参数用于表征该一个像素点是物体轮廓对应的像素点的可能性的高低,一个像素点的文本特征参数用于表征该一个像素点是文本对应的像素点的可能性的高低;分析单元分别对确定出的第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定第一图像中各个像素点的特征值。可以综合考虑视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数,以及每一个参数对应的特征被用户关注的可能性程度,确定每一个像素点的特征值。使得根据该特征值确定出的文本的排版位置不遮挡显著特征的可能性更高。
在一种可能的实现方式中,在分析单元分别对确定出的第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定该第一图像中各个像素点的特征值之前,该分析单元还用于:分别根据确定出的第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数生成该第一图像的至少两个特征图;每一个特征图中各个像素点的像素值为对应像素点的对应参数;分别对确定出的该第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定该第一图像中各个像素点的特征值,包括:对上述至少两个特征图中各个像素点的像素值进行加权求和,确定该第一图像中各个像素点的特征值。通过对分别用于表征视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数的特征图中的至少两个,结合每一个参数对应的特征被用户关注的可能性程度进行加权求和,确定每一个像素点的特征值。使得根据该特征值确定出的文本的排版位置不遮挡显著特征的可能性更高。
在一种可能的实现方式中,分析单元根据第一文本,以及第一图像中各个像素点的特征值,确定第一文本在该第一图像的多个第一排版版式,包括:分析单元根据该第一文本以一个或多个文本模板排版时该第一文本的文本框的大小,以及该第一图像中各个像素点的特征值,确定多个第一排版版式。通过综合分析第一文本以不同文本模板排版时,所占区域的大小以及第一图像中各个像素点的特征值,可以保证第一文本在确定的文本的排版位置排版时,不遮挡第一图像中的显著特征。在一种可能的实现方式中,该信息获取单元还用于:获取一个或多个文本模板,每个文本模板规定了文本的行间距、行宽、字号、字体、文字粗细、对齐方式、装饰线位置和装饰线粗细中的至少一种。本申请支持第一文本以不同的文本模板排版,灵活度高,图文融合效果更好。
在一种可能的实现方式中,分析单元根据多个第一排版版式的代价参数,从该多个第一排版版式中确定出第二排版版式,包括:分析单元确定第一文本分别按照上述多个第一排版版式排版至第一图像时,该第一文本的文本框遮挡第一图像的图像区域的纹理特征参数,该纹理特征参数用于表征所述图像区域对应的图像中纹理特征的多少;分析单元从多个第一排版版式中,选择出纹理特征参数小于第二阈值的图像区域对应的多个第一排版版式;根据选择出的每个第一排版版式的代价参数,从选择出的多个第一排版版式中确定出第二排版版式。通过舍弃纹理复杂区域用作文本排版位置,可以避免该区域的纹理特征对第一文本显著性的影响,以及避免第一文本排版至该区域时,对该区域纹理特征的遮挡。
在一种可能的实现方式中,分析单元还用于:针对多个第一排版版式中每个第一排版版式,执行步骤a、步骤b和步骤c中的至少两个以及步骤d,以得到每个第一排版版式的代价参数;步骤a:计算第一文本按照一个第一排版版式排版至第一图像时,该第一文本的文本入侵参数;该文本入侵参数是第一参数与第二参数的比值;第一参数是所述第一文本遮挡第一图像的图像区域中各个像素点的特征值之和;第二参数是图像区域的面积,或者,第二参数是图像区域中像素点的总数,或者,第二参数是图像区域中像素点的总数与预设数值的乘积;步骤b、计算该第一文本按照一个第一排版版式排版至第一图像时,该第一文本的视觉空间占用参数;该视觉空间占用参数用于表征图像区域中特征值小于第三阈值的像素点的比例;步骤c:计算该第一文本按照一个第一排版版式排版至第一图像时,该第一文本的视觉平衡参数;该视觉平衡参数用于表征第一文本对排版有该第一文本的第一图像中各个区域的像素点的特征值分布的平衡程度的影响程度;步骤d、根据计算出的第一文本的文本入侵参数、视觉空间占用参数和视觉平衡参数中的至少两个,计算一个第一排版版式的代价参数。通过综合考虑第一文本以不同候选排版版式排版时,第一文本遮挡图像区域特征值的具体情况,以及第一文本对第一图像中各个区域的像素点的特征值分布的平衡程度的影响程度,可以从多个候选排版版式中确定出较佳的排版版式。
在一种可能的实现方式中,分析单元根据计算出的第一文本的文本入侵参数、视觉空间占用参数和视觉平衡参数中的至少两个,计算一个第一排版版式的代价参数,包括:分析单元采用Ti=λ1*Es(Li)+λ2*Eu(Li)+λ3*En(Li),或者,Ti=(λ1*Es(Li)+λ2*Eu(Li))*En(Li),或者,Ti=Es(Li)*Eu(Li)*En(Li)计算该一个第一排版版式的代价参数Ti;其中,Es(Li)为第一文本按照该一个第一排版版式排版至第一图像时,第一文本的文本入侵参数,Eu(Li)为第一文本按照该一个第一排版版式排版至第一图像时,第一文本的视觉空间占用参数,En(Li)为第一文本按照该一个第一排版版式排版至第一图像时,第一文本的视觉平衡参数;λ1、λ2和λ3分别为Es(Li)、Eu(Li)和En(Li)对应的权重参数。通过采用上述计算方法,综合考虑第一文本以不同候选排版版式排版时,第一文本遮挡图像区域特征值的具体情况,计算得每个候选排版版式对应的代价参数。
在一种可能的实现方式中,分析单元根据多个第一排版版式的代价参数,从多个第一排版版式中确定出第二排版版式,包括:分析单元确定多个第一排版版式的代价参数中,最小的代价参数对应的第一排版版式为第二排版版式。通过确定代价参数最小值对应的候选排版版式为最终的文本排版版式,可以最大程度的确保第一文本排版至第一图像后的美学效果。
在一种可能的实现方式中,分析单元还用于:确定第一文本的颜色参数;该第一文本的颜色参数为第一文本按照第二排版版式排版至第一图像时,第一图像被第一文本遮挡的图像区域的主色的衍生颜色;该主色的衍生颜色是指与主色色相相同,但是色调,饱和度和明度与主色的HSV不同的颜色;以及根据第一文本的颜色参数,对第二图像中的第一文本着色,获得第三图像。通过以第一文本可能遮挡第一图像的图像区域的主色的衍生颜色对第一文本着色,可以使第一文本排版至第一图像后,其颜色与背景图像更加协调,显示更加清晰。
在一种可能的实现方式中,第一图像被该第一文本遮挡的图像区域的主色是基于第一文本按照第二排版版式排版至第一图像时,第一图像被第一文本遮挡的图像区域的三原色光RGB在HSV空间中的色调、饱和度和明度确定的;该主色为该图像区域中色相占比最高的色相。通过根据第一文本可能遮挡第一图像的图像区域的色调、饱和度和明度确定该图像区域的主色,进而可以根据图像区域的主色的衍生颜色对第一文本着色,使第一文本排版至第一图像后,其颜色与背景图像更加协调,显示更加清晰。
在一种可能的实现方式中,分析单元还用于:若满足以下条件1和条件2中的至少一个,确定对该第二图像进行渲染处理;条件1:第一文本按照第二排版版式排版至该第一图像后,第一文本遮挡该第一图像的图像区域的纹理特征参数大于第四阈值;该纹理特征参数用于表征图像区域对应的图像中纹理特征的多少;条件2:图像区域的主色占比小于第五阈值;处理单元还用于,在所第二图像上覆盖蒙版图层;或者,确定蒙版参数,根据确定的蒙版参数处理所述第二图像;或者,对第一文本进行投影渲染。通过蒙版渲染或者投影渲染,可以提高第一文本的清晰度和显著性。
在一种可能的实现方式中,分析单元还用于:若满足以下条件1和条件2中的至少一个,确定对该第三图像进行渲染处理;条件1:第一文本按照第二排版版式排版至该第一图像后,第一文本遮挡该第一图像的图像区域的纹理特征参数大于第四阈值;该纹理特征参数用于表征图像区域对应的图像中纹理特征的多少;条件2:图像区域的主色占比小于第五阈值;处理单元还用于,在所第三图像上覆盖蒙版图层;或者,确定蒙版参数,根据确定的蒙版参数处理所述第三图像;或者,对第一文本进行投影渲染。通过蒙版渲染或者投影渲染,可以提高第一文本的清晰度和显著性。
第三方面,提供一种电子设备,该电子设备包括:信息获取单元,用于获取第一图像和待排版至该第一图像的第一文本;分析单元,用于确定该第一图像中各个像素点的特征值;其中,一个像素点的特征值用于表征该一个像素点被用户关注的可能性的高低,像素点的特征值越高,该像素点被用户关注的可能性越高;以及,根据第一文本,以及该第一图像中各个像素点的特征值,确定第一文本在第一图像的多个第一排版版式;其中,第一文本按照每个第一排版版式排版至该第一图像时,该第一文本不遮挡特征值大于第一阈值的像素点;以及,根据多个第一排版版式的代价参数,从该多个第一排版版式中确定出第二排版版式;其中,一个第一排版版式的代价参数用于表征第一文本按照该第一排版版式排版至第一图像时,第一文本遮挡的像素点的特征值的大小,以及排版有第一文本的第一图像中各个区域的像素点的特征值分布的平衡程度;处理单元,按照该第二排版版式将第一文本排版至第一图像,得到第二图像。
上述第三方面提供的电子设备,可以确定出多个候选的文本模板以及对应的多个文本在图像中的排版位置,使得排版至图像中的文本不会遮挡图像中特征值较高的视觉显著主体,例如人脸、建筑物等。然后根据文本以不同文本模板以及在图像中对应的排版位置排版至图像时,文本遮挡的像素点的特征值的大小,以及排版有该文本的图像中各个区域的像素点的特征值分布的平衡程度等,确定文本最终的文本模板以及文本在图像中的排版位置,获得较佳的排版效果。
在一种可能的实现方式中,分析单元确定第一图像中各个像素点的特征值,包括:分析单元确定该第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数;其中,一个像素点的视觉显著参数用于表征该一个像素点是视觉显著性特征对应的像素点的可能性的高低,一个像素点的人脸特征参数用于表征该一个像素点是人脸对应的像素点的可能性的高低,一个像素点的边缘特征参数用于表征该一个像素点是物体轮廓对应的像素点的可能性的高低,一个像素点的文本特征参数用于表征该一个像素点是文本对应的像素点的可能性的高低;分析单元分别对确定出的第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定第一图像中各个像素点的特征值。可以综合考虑视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数,以及每一个参数对应的特征被用户关注的可能性程度,确定每一个像素点的特征值。使得根据该特征值确定出的文本的排版位置不遮挡显著特征的可能性更高。
在一种可能的实现方式中,在分析单元分别对确定出的第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定该第一图像中各个像素点的特征值之前,该分析单元还用于:分别根据确定出的第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数生成至少两个特征图;每一个特征图中各个像素点的像素值为对应像素点的对应参数;分别对确定出的该第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定该第一图像中各个像素点的特征值,包括:对上述至少两个特征图中各个像素点的像素值进行加权求和,确定该第一图像中各个像素点的特征值。通过对分别用于表征视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数的特征图中的至少两个,结合每一个参数对应的特征被用户关注的可能性程度进行加权求和,确定每一个像素点的特征值。使得根据该特征值确定出的文本的排版位置不遮挡显著特征的可能性更高。
在一种可能的实现方式中,分析单元根据第一文本,以及第一图像中各个像素点的特征值,确定第一文本在该第一图像的多个第一排版版式,包括:分析单元根据该第一文本以一个或多个文本模板排版时该第一文本的文本框的大小,以及该第一图像中各个像素点的特征值,确定多个第一排版版式。通过综合分析第一文本以不同文本模板排版时,所占区域的大小,以及第一图像中各个像素点的特征值,可以保证第一文本在确定的文本的排版位置排版时,不遮挡第一图像中的显著特征。
在一种可能的实现方式中,该信息获取单元还用于:获取一个或多个文本模板,每个文本模板规定了文本的行间距、行宽、字号、字体、文字粗细、对齐方式、装饰线位置和装饰线粗细中的至少一种。本申请支持第一文本以不同的文本模板排版,灵活度高,图文融合效果更好。
在一种可能的实现方式中,分析单元根据多个第一排版版式的代价参数,从该多个第一排版版式中确定出第二排版版式,包括:分析单元确定第一文本分别按照上述多个第一排版版式排版至第一图像时,该第一文本的文本框遮挡第一图像的图像区域的纹理特征参数,该纹理特征参数用于表征所述图像区域对应的图像中纹理特征的多少;分析单元从多个第一排版版式中,选择出纹理特征参数小于第二阈值的图像区域对应的多个第一排版版式;根据选择出的每个第一排版版式的代价参数,从选择出的多个第一排版版式中确定出第二排版版式。通过舍弃纹理复杂区域用作文本排版位置,可以避免该区域的纹理特征对第一文本显著性的影响,以及避免第一文本排版至该区域时,对该区域纹理特征的遮挡。
在一种可能的实现方式中,分析单元还用于:针对多个第一排版版式中每个第一排版版式,执行步骤a、步骤b和步骤c中的至少两个以及步骤d,以得到每个第一排版版式的代价参数;步骤a:计算第一文本按照一个第一排版版式排版至第一图像时,该第一文本的文本入侵参数;该文本入侵参数是第一参数与第二参数的比值;第一参数是所述第一文本遮挡第一图像的图像区域中各个像素点的特征值之和;第二参数是图像区域的面积,或者,第二参数是图像区域中像素点的总数,或者,第二参数是图像区域中像素点的总数与预设数值的乘积;步骤b、计算该第一文本按照一个第一排版版式排版至第一图像时,该第一文本的视觉空间占用参数;该视觉空间占用参数用于表征图像区域中特征值小于第三阈值的像素点的比例;步骤c:计算该第一文本按照一个第一排版版式排版至第一图像时,该第一文本的视觉平衡参数;该视觉平衡参数用于表征第一文本对排版有该第一文本的第一图像中各个区域的像素点的特征值分布的平衡程度的影响程度;步骤d、根据计算出的第一文本的文本入侵参数、视觉空间占用参数和视觉平衡参数中的至少两个,计算一个第一排版版式的代价参数。通过综合考虑第一文本以不同候选排版版式排版时,第一文本遮挡图像区域特征值的具体情况,以及第一文本对第一图像中各个区域的像素点的特征值分布的平衡程度的影响程度,可以从多个候选排版版式中确定出较佳的排版版式。
在一种可能的实现方式中,分析单元根据计算出的第一文本的文本入侵参数、视觉空间占用参数和视觉平衡参数中的至少两个,计算一个第一排版版式的代价参数,包括:分析单元采用Ti=λ1*Es(Li)+λ2*Eu(Li)+λ3*En(Li),或者,Ti=(λ1*Es(Li)+λ2*Eu(Li))*En(Li),或者,Ti=Es(Li)*Eu(Li)*En(Li)计算该一个第一排版版式的代价参数Ti;其中,Es(Li)为第一文本按照该一个第一排版版式排版至第一图像时,第一文本的文本入侵参数,Eu(Li)为第一文本按照该一个第一排版版式排版至第一图像时,第一文本的视觉空间占用参数,En(Li)为第一文本按照该一个第一排版版式排版至第一图像时,第一文本的视觉平衡参数;λ1、λ2和λ3分别为Es(Li)、Eu(Li)和En(Li)对应的权重参数。通过采用上述计算方法,综合考虑第一文本以不同候选排版版式排版时,第一文本遮挡图像区域特征值的具体情况,计算得每个候选排版版式对应的代价参数。
在一种可能的实现方式中,分析单元根据多个第一排版版式的代价参数,从多个第一排版版式中确定出第二排版版式,包括:分析单元确定多个第一排版版式的代价参数中,最小的代价参数对应的第一排版版式为第二排版版式。通过确定代价参数最小值对应的候选排版版式为最终的文本排版版式,可以最大程度的确保第一文本排版至第一图像后的美学效果。
在一种可能的实现方式中,分析单元还用于:确定第一文本的颜色参数;该第一文本的颜色参数为第一文本按照第二排版版式排版至第一图像时,第一图像被第一文本遮挡的图像区域的主色的衍生颜色;该主色的衍生颜色是指与主色色相相同,但是色调,饱和度和明度与主色的HSV不同的颜色;以及根据第一文本的颜色参数,对第二图像中的第一文本着色,获得第三图像。通过以第一文本可能遮挡第一图像的图像区域的主色的衍生颜色对第一文本着色,可以使第一文本排版至第一图像后,其颜色与背景图像更加协调,显示更加清晰。
在一种可能的实现方式中,第一图像被该第一文本遮挡的图像区域的主色是基于第一文本按照第二排版版式排版至第一图像时,第一图像被第一文本遮挡的图像区域的三原色光RGB在HSV空间中的色调、饱和度和明度确定的;该主色为该图像区域中色相占比最高的色相色。通过根据第一文本可能遮挡第一图像的图像区域的色调、饱和度和明度确定该图像区域的主色,进而可以根据图像区域的主色的衍生颜色对第一文本着色,使第一文本排版至第一图像后,其颜色与背景图像更加协调,显示更加清晰。
在一种可能的实现方式中,分析单元还用于:若满足以下条件1和条件2中的至少一个,确定对该第二图像进行渲染处理;条件1:第一文本按照第二排版版式排版至该第一图像后,第一文本遮挡该第一图像的图像区域的纹理特征参数大于第四阈值;该纹理特征参数用于表征图像区域对应的图像中纹理特征的多少;条件2:图像区域的主色占比小于第五阈值;处理单元还用于,在所第二图像上覆盖蒙版图层;或者,确定蒙版参数,根据确定的蒙版参数处理所述第二图像;或者,对第一文本进行投影渲染。通过蒙版渲染或者投影渲染,可以提高第一文本的清晰度和显著性。
在一种可能的实现方式中,分析单元还用于:若满足以下条件1和条件2中的至少一个,确定对该第三图像进行渲染处理;条件1:第一文本按照第二排版版式排版至该第一图像后,第一文本遮挡该第一图像的图像区域的纹理特征参数大于第四阈值;该纹理特征参数用于表征图像区域对应的图像中纹理特征的多少;条件2:图像区域的主色占比小于第五阈值;处理单元还用于,在所第三图像上覆盖蒙版图层;或者,确定蒙版参数,根据确定的蒙版参数处理所述第三图像;或者,对第一文本进行投影渲染。通过蒙版渲染或者投影渲染,可以提高第一文本的清晰度和显著性。
第四方面,提供一种图文融合装置,该装置包括:存储器,用于存储一个或多个计算机程序;处理器,用于执行存储器存储的一个或多个计算机程序,使得该图文融合装置实现如第一方面任一种可能的实现方式中的图文融合方法。
第五方面,提供一种电子设备,该电子设备包括:存储器,用于存储一个或多个计算机程序;处理器,用于执行存储器存储的一个或多个计算机程序,使得该图文融合装置实现如第一方面任一种可能的实现方式中的图文融合方法。
第六方面,提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机执行指令,该计算机执行指令被处理器执行时实现如第一方面任一种可能的实现方式中的图文融合方法。
第七方面,提供一种芯片系统,该芯片系统包括处理器、存储器,存储器中存储有指令;所述指令被所述处理器执行时,实现如第一方面任一种可能的实现方式中的图文融合方法。该芯片系统可以由芯片构成,也可以包含芯片和其他分立器件。
第八方面,提供一种计算机程序产品,提供一种计算机程序产品,当其在计算机上运行时,使得第一方面任一种可能的实现方式中的图文融合方法。例如,该计算机可以是至少一个存储节点。
附图说明
图1为本申请实施例提供的一种图文融合示例图;
图2为本申请实施例提供的一种电子设备硬件结构示意图;
图3为本申请实施例提供的一种图文融合应用场景示例;
图4为本申请实施例提供的另一种图文融合应用场景示例;
图5为本申请实施例提供的再一种图文融合应用场景示例;
图6为本申请实施例提供的一种图文融合方法流程图;
图7为本申请实施例提供的一种相同图像对应不同文本的示例图;
图8为本申请实施例提供的一种显著区域特征图生成过程示例图;
图9为本申请实施例提供的另一种显著区域特征图生成过程示例图;
图10为本申请实施例提供的一种视觉显著性特征图生成过程示意图;
图11为本申请实施例提供的一种人脸检测算法流程图;
图12为本申请实施例提供的一种边缘检测算法流程图;
图13为本申请实施例提供的一种文本检测算法流程图;
图14为本申请实施例提供的一种JSON格式的排版规格示例图;
图15为本申请实施例提供的一种文本框排版位置示意图;
图16为本申请实施例提供的几种文字模板示例图;
图17为本申请实施例提供的几种候选排版版式示例图;
图18为本申请实施例提供的一种确定第二排版版式的方法流程图;
图19为本申请实施例提供的另一种确定第二排版版式的方法流程图;
图20为本申请实施例提供的另一种图文融合方法流程图;
图21为本申请实施例提供的几种图文融合图像对比图;
图22为本申请实施例提供的一种电子设备结构示意图。
具体实施方式
本申请实施例提供一种图文融合方法,该方法可以应用于将文本排版至图像(如第一图像)中,实现图文融合的过程中。可以理解,将文本排版至图像后,通常情况下该文本会遮挡图像的一部分区域。通过本申请实施例的方法将文本排版至图像后,排版至图像中的文本,不会遮挡图像中的显著特征。示例性的,如图1所示,第一图像为包括建筑物特征的图像,待排版至第一图像的文本为主题为“乡野一瞥”的文本。采用本申请实施例的图文融合方法可以将主题为“乡野一瞥”的文本排版至包括建筑物特征的第一图像中的合适位置,使得文本最小化地遮挡图像中的显著特征,进一步地还可以使得文本排版至第一图像后,获得较佳的视觉平衡程度。
其中,显著特征是指被用户关注的可能性较高的图像特征。例如,显著特征可以包括人脸特征、人体特征、建筑物特征、事物特征(如动物特征、树木特征、花朵特征等)、文字特征、河流特征和山川特征等。如图1所示,显著特征为建筑物特征。
需要说明的是,本申请实施例的图文融合方法可以应用于能够提供图像展示的终端类电子设备。包括桌面型设备、膝上型设备、手持型设备、可穿戴设备等。例如,应用于手机、平板电脑、个人计算机、智能相机、上网本、个人数字助理(Personal DigitalAssistant,PDA)、智能手表、AR(增强现实)/VR(虚拟现实)设备等。
或者,本申请实施例的图文融合方法还可以应用于具备或不具备图像展示功能的图像处理装置或服务器类电子设备(例如,应用服务器)等。本申请实施例对执行本申请实施例的图文融合方法的电子设备的具体类型和结构等不作限定。
请参考图2,如图2所示,为本申请实施例提供的一种终端类电子设备200的硬件结构示意图。如图2所示,电子设备200可以包括处理器210,存储器(包括外部存储器接口220和内部存储器221),通用串行总线(universal serial bus,USB)接口230,充电管理模块240,电源管理模块241,电池242,天线1,天线2,移动通信模块250,无线通信模块260,音频模块270,扬声器270A,受话器270B,麦克风270C,耳机接口270D,传感器模块280,按键290,马达291,指示器292,摄像头293,显示屏294,以及用户标识模块(subscriberidentification module,SIM)卡接口295等。其中,传感器模块280可以包括压力传感器280A,陀螺仪传感器280B,气压传感器280C,磁传感器280D,加速度传感器280E,距离传感器280F,接近光传感器280G,指纹传感器280H,重力传感器280I,温度传感器280J,触摸传感器280K,环境光传感器280L和骨传导传感器280M等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备200的具体限定。在本申请另一些实施例中,电子设备200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器210可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器210中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器210中的存储器为高速缓冲存储器。该存储器可以保存处理器210刚用过或循环使用的指令或数据。如果处理器210需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器210的等待时间,因而提高了系统的效率。
在一些实施例中,处理器210可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器210可以包含多组I2C总线。处理器210可以通过不同的I2C总线接口分别耦合触摸传感器280K,充电器,闪光灯,摄像头293等。例如:处理器210可以通过I2C接口耦合触摸传感器280K,使处理器210与触摸传感器280K通过I2C总线接口通信,实现电子设备200的触摸功能。
MIPI接口可以被用于连接处理器210与显示屏294,摄像头293等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器210和摄像头293通过CSI接口通信,实现电子设备200的拍摄功能。处理器210和显示屏294通过DSI接口通信,实现电子设备200的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器210与摄像头293,显示屏294,无线通信模块260,音频模块270,传感器模块280等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口230是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口230可以用于连接充电器为电子设备200充电,也可以用于电子设备200与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备200的结构限定。在本申请另一些实施例中,电子设备200也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块240用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块240可以通过USB接口230接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块240可以通过电子设备200的无线充电线圈接收无线充电输入。充电管理模块240为电池242充电的同时,还可以通过电源管理模块241为电子设备供电。
电源管理模块241用于连接电池242,充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入,为处理器210,内部存储器221,显示屏294,摄像头293,和无线通信模块260等供电。电源管理模块241还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块241也可以设置于处理器210中。在另一些实施例中,电源管理模块241和充电管理模块240也可以设置于同一个器件中。
电子设备200的无线通信功能可以通过天线1,天线2,移动通信模块250,无线通信模块260,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备200中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块250可以提供应用在电子设备200上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块250可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块250可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块250还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块250的至少部分功能模块可以被设置于处理器210中。在一些实施例中,移动通信模块250的至少部分功能模块可以与处理器210的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器270A,受话器270B等)输出声音信号,或通过显示屏294显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器210,与移动通信模块250或其他功能模块设置在同一个器件中。
无线通信模块260可以提供应用在电子设备200上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块260可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块260经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器210。无线通信模块260还可以从处理器210接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备200的天线1和移动通信模块250耦合,天线2和无线通信模块260耦合,使得电子设备200可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备200通过GPU,显示屏294,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏294和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器210可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。在本申请实施例中,电子设备200可以通过GPU完成图文融合,可以通过显示屏294显示图文融合后的图像。
显示屏294用于显示图像,视频等。显示屏294包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备200可以包括1个或N个显示屏294,N为大于1的正整数。
电子设备200可以通过ISP,摄像头293,视频编解码器,GPU,显示屏294以及应用处理器等实现拍摄功能。
ISP用于处理摄像头293反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头293中。
摄像头293用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备200可以包括1个或N个摄像头293,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备200在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备200可以支持一种或多种视频编解码器。这样,电子设备200可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备200的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口220可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备200的存储能力。外部存储卡通过外部存储器接口220与处理器210通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器221可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备200使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器221可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器210通过运行存储在内部存储器221的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备200的各种功能应用以及数据处理。
电子设备200可以通过音频模块270,扬声器270A,受话器270B,麦克风270C,耳机接口270D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块270用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块270还可以用于对音频信号编码和解码。在一些实施例中,音频模块270可以设置于处理器210中,或将音频模块270的部分功能模块设置于处理器210中。
扬声器270A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备200可以通过扬声器270A收听音乐,或收听免提通话。
受话器270B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备200接听电话或语音信息时,可以通过将受话器270B靠近人耳接听语音。
麦克风270C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风270C发声,将声音信号输入到麦克风270C。电子设备200可以设置至少一个麦克风270C。在另一些实施例中,电子设备200可以设置两个麦克风270C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备200还可以设置三个,四个或更多麦克风270C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口270D用于连接有线耳机。耳机接口270D可以是USB接口230,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器280A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器280A可以设置于显示屏294。压力传感器280A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器280A,电极之间的电容改变。电子设备200根据电容的变化确定压力的强度。当有触摸操作作用于显示屏294,电子设备200根据压力传感器280A检测所述触摸操作强度。电子设备200也可以根据压力传感器280A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
按键290包括开机键,音量键等。按键290可以是机械按键。也可以是触摸式按键。电子设备200可以接收按键输入,产生与电子设备200的用户设置以及功能控制有关的键信号输入。
马达291可以产生振动提示。马达291可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏294不同区域的触摸操作,马达291也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器292可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口295用于连接SIM卡。SIM卡可以通过插入SIM卡接口295,或从SIM卡接口295拔出,实现和电子设备200的接触和分离。电子设备200可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口295可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口295可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口295也可以兼容不同类型的SIM卡。SIM卡接口295也可以兼容外部存储卡。电子设备200通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备200采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备200中,不能和电子设备200分离。
本申请实施例中的图文融合方法均可以在具有上述硬件结构的电子设备或者具有类似结构的电子设备中实现。例如,该电子设备可以是手机、平板电脑、个人计算机或上网本等。
在本申请实施例中,电子设备将文本排版至第一图像后,得到的图文融合图像(例如第二图像或第三图像),可以直接在该电子设备的显示屏上展示,也可以作为其他用途,本申请对此不作限定。同样的,若该图文融合方法应用于其他类型的电子设备,例如,服务器类电子设备,该服务器类电子设备得到的图文融合图像可以推送至终端类电子设备的显示屏上展示,也可以作为其他用途。
请参考以下示例,以下几种示例为本申请实施例得到的图文融合图像的几种可能的应用场景示例:
示例1:图文融合图像作为电子设备壁纸。例如,锁屏壁纸、主界面壁纸或聊天界面背景等。
如图3中的(a)所示,为图文融合图像作为手机的锁屏壁纸的示例。如图3中的(b)所示,为图文融合图像作为手机的主界面壁纸的示例。如图3中的(c)所示,为图文融合图像作为手机的微信聊天界面背景的示例。
示例2:图文融合图像作为应用启动页或引导页。例如,应用启动时的界面。
可以理解的是,启动页,也可以称为闪屏页。启动页的设计可以有效利用应用初始化过程中的空白界面,增强用户对应用能够快速启动并立即投入使用的感知度,进而增强应用启动时的用户体验。例如,可以在启动页进行品牌展现、广告、活动等展示,展示方式可以为静态图片、动态图片、动画等多种方式。由于应用的初始化时间一般不会超过5秒,因此启动页的控制时长也通常不超过5秒。如图4中的(a)所示,为图文融合图像作为APP启动页的示例,该APP的启动页控制时长为3秒(seconds,s)。
可以理解的是,引导页是用于引导用户学习应用用法或了解应用作用的页面,其核心在于“引导”二字。引导页一般会出现在全新概念的应用上,或是产品的迭代之后。如图4中的(b)所示,为图文融合图像应用于APP引导页的示例。其中,该APP的引导页由3张引导图片构成(如图4中的(c)所示),手机响应于用户在触摸屏的向左/向右的滑动操作,可以切换引导图片。
示例3:图文融合图像应用于应用界面中。例如,视频播放窗口的悬浮广告框。
例如,当手机检测到视频播放暂停按钮被点击时,手机可以在视频播放窗口显示悬浮广告框停的界面上,图5所示。
示例4:图文融合图像展示在传统图像传播媒介上。例如,展示在报纸、杂志、电视或户外广告位等。
对于该示例,可参考常规的传统传播媒介上的图像展示,本申请实施例这里不予赘述。
需要说明的是,上述示例1~示例4仅作为几种图文融合图像(如第二图像或第三图像)可能的应用场景示例。该图文融合图像还可以应用于其他场景,本申请实施例对此不作限定。
以下以本申请实施例的图文融合方法应用于具有图2所示硬件结构的手机为例,对本申请实施例提供的图文融合方法进行具体阐述。
可以理解的,本申请实施例中,手机可以执行本申请实施例中的部分或全部步骤,这些步骤或操作仅是示例,本申请实施例还可以执行其它操作或者各种操作的变形。此外,各个步骤可以按照本申请实施例呈现的不同的顺序来执行,并且有可能并非要执行本申请实施例中的全部操作。
如图6所示,本申请实施例的图文融合方法可以包括S601-S605:
S601、手机获取第一图像和待排版至第一图像的第一文本。
其中,第一图像为待添加文本的图像。第一文本为待排版至第一图像的文字。该第一文本可以与第一图像的图像内容相对应。
可以理解的是,第一文本与第一图像的图像内容相对应,是指第一文本可以用来对第一图像中的图像信息进行解释、说明;或者第一文本与第一图像中的图像信息描述的主体一致;或者第一文本与第一图像中的图像信息所传达的意境相通。如图6所示,第一图像为包括月亮图像特征和埃菲尔铁塔图像特征的图像,第一文本可以是主题为“皎皎白玉盘”的文本,该文本的内容包括:“被埃菲尔铁塔遮挡了一半的满月,就像犹抱琵琶半遮面的羞涩女孩儿。@壹刻传媒”。可知,图6中主题为“皎皎白玉盘”的文本是对图6中的第一图像中的图像信息的解释和说明。
在一些实施例中,第一图像与第一文本可以是手机从第三方获取的。例如,手机周期性地从手机厂商的服务器获取第一图像以及第一文本。
或者,第一图像可以是手机本地拍摄的图片,第一文本可以是手机接收用户自定义的文字。例如,第一图像是手机接收用户的图片选择操作,确定的图像;第一文本是手机接收到的用户输入的文字。本申请实施例对第一图像和第一文本数的具体来源不作限定。
在一些实施例中,第一图像可以仅对应一套文本数据。例如,图1中包括建筑物特征的图像仅对应主题为“乡野一瞥”的文本。在这种情况下,手机获取的第一文本即该主题为“乡野一瞥”的文本。
在另一些实施例中,第一图像可以对应多套文本数据。例如,图7中的(a)和图7中的(b)对应的第一图像是相同的,但是对应的文本数据却不同。
当第一图像对应多套文本数据时,在手机获取第一文本时,具体是获取该多套文本数据中的哪一套。可以根据第一图像与每一套文本数据的匹配度的排名确定,也可以是随机确定的,还可以是按照某一次序确定。对此,本申请实施例不作限定。
例如,在制作如图4中的(c)所示的引导页时,手机可以先获取第一图像和主题为“懂你”的文本数据,然后采用本申请实施例的图文融合方法将主题为“懂你”的文本数据排版至第一图像,得到第一张引导页。然后依次获取主题为“时尚”和“信赖”的文本数据,并依次采用本申请实施例的图文融合方法得到第二张引导页、第三张引导页、第四张引导页和第五引导页等。
S602、手机确定第一图像中各个像素点的特征值。
其中,一个像素点的特征值用于表征该像素点被用户关注的可能性的高低。该像素点的特征值越高,则该像素点被用户关注的可能性越高。
在一些实施例中,手机确定第一图像中各个像素点的特征值,可以包括:手机通过对第一图像进行特征检测,确定第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数;然后,手机对确定出的第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定第一图像中各个像素点的特征值。
其中,特征检测用于识别图像中的图像特征。例如,识别图像中的人脸特征、人体特征、建筑物特征、事物特征(如动物特征、树木特征、花朵特征等)、文字特征、河流特征和山川特征等。
或者,手机可以在对第一图像进行特征检测后,分别获取第一图像的第一特征图、第二特征图、第三特征图和第四特征图中的至少两个特征图。其中,第一特征图中各个像素点的像素值为对应像素点的视觉显著参数,第二特征图中各个像素点的像素值为对应像素点的人脸特征参数,第三特征图中各个像素点的像素值为对应像素点的边缘特征参数,第四特征图中各个像素点的像素值为对应像素点的文本特征参数。
对应的,手机可以对第一特征图、第二特征图、第三特征图和第四特征图中的至少两个特征图进行加权求和,得到第一图像的特征图。其中,第一图像的特征图中,各个像素点的像素值表征该像素点被用户关注的可能性的高低。
可以理解的是,手机对第一特征图、第二特征图、第三特征图和第四特征图进行加权求和,得到第一图像的特征图,具体可以包括:手机对第一特征图、第二特征图、第三特征图和第四特征图中的至少两个特征图中各个像素点的像素值进行加权求和,确定第一图像中各个像素点的特征值;然后,根据第一图像中各个像素点的特征值得到第一图像的特征图。
示例性的,在本申请实施例中,手机可以采用视觉显著性检测算法对第一图像进行视觉显著性特征检测,确定第一图像中各个像素点的视觉显著参数。可以理解的是,视觉显著性检测算法的原理是通过计算图像中像素之间的差异来确定视觉显著性特征。手机通过视觉显著性检测算法可以获取人类视觉系统关注的图像特征。如图8中的(a)所示,为一种第一图像示例。手机采用视觉显著性区域检测算法对第一图像进行视觉显著性特征检测,得到第一特征图(如图8中的(b)所示)。又如,如图9中的(a)所示,为一种第一图形示例。手机采用视觉显著性区域检测算法对第一图像进行视觉显著性特征检测,得到第一特征图(如图9中的(b)所示)。其中,图8中的(b)和图9中的(b)中,每个像素的亮度用于标识该像素点的图像特征的特征值,亮度越大则代表该像素点的图像特征特征值越大。
其中,本申请实施例中,视觉显著性检测算法具体可以为基于多特征的吸收马尔科夫链的视觉显著性检测算法,基于全局颜色对比的视觉显著性检测算法,将角点凸包和贝叶斯推断相结合的视觉显著性检测算法,或者可以为基于深度学习(例如基于卷积神经网络)的视觉显著性检测算法等,本申请实施例对此不作限定。
示例性的,如图10所示,为本申请实施例提供的一种基于多特征的吸收马尔科夫链的视觉显著性检测算法流程图。如图10所示,该算法主要分为两步:第一步是提取图像的超像素及其特征,第二步是基于提取的超像素及特征建立马尔科夫链。其中,在第一步,可以采用简单线性迭代分割(Simple linear iterative clustering,SLIC)算法将第一图像分割为若干超像素。然后,将超像素中的所有像素点的颜色拟合成CIELab三维正态分布,并加入每个像素点在4个方向(0°,45°,90°和135°)的方向值拟合得到四维正态分布特征。在第二步,由于人类在观察图像时是以区域为基本单位的。借鉴这种视觉特性,基于多特征的吸收马尔科夫链的视觉显著性检测算法可以以超像素为基本处理单位。对图像所有超像素建立联系,然后使用最终的平稳分布作为第一特征图。
其中,在图10所示的获取的第一特征图中,可以理解的是,第一特征图中相对亮的像素点对应的是第一图像的显著特征,越亮则代表该像素被用户视觉关注的可能性越高。
示例性的,在本申请实施例中,手机可以采用人脸检测算法对第一图像进行人脸特征检测,确定第一图像中各个像素点的人脸特征参数。可以理解的是,人脸检测算法用于检测图像中的人脸特征。如图9所示,手机采用人脸检测算法对图9中的(a)所示的第一图像进行人脸检测,得到第二特征图(如图9中的(c)所示)。其中,如图9中的(c)中,亮度较大的像素点分布区域对应的是第一图像中的人脸区域。又如,如图8所示,手机采用人脸检测算法对图8中的(a)所示的第一图像进行人脸检测,发现该图像中无人脸,因此,得到的第二特征图(如图8中的(c)所示)中无人脸特征。
其中,本申请实施例中,人脸检测算法具体可以为计算机视觉人脸检测算法(例如,基于方向梯度直方图(Histogram of oriented Gradients,HOG)的人脸检测算法),或者可以为基于深度学习(例如基于卷积神经网络)的人脸检测算法等,本申请实施例对此不作限定。
示例性的,如图11所示,为本申请实施例提供的一种基于HOG的人脸检测算法流程图。如图11所示,在获取第一图像后,可以先对第一图像进行图像归一化。其中,图像归一化是指对图像进行一系列标准的处理变换,使该图像变换为一固定标准形式的过程,该标准图像称作归一化图像。该归一化图像对平移、旋转、缩放等仿射变换具有不变特性。然后采用一阶微分计算归一化图像的图像梯度。接着,对归一化图像进行HOG块划分,对划分后的HOG结构中的每一个单元格绘制梯度直方图,然后对每一个单元格的梯度直方图进行规定权重的投影。然后,对每个单元格块的特征向量进行归一化处理,使得每个单元格块的特征向量空间对光照,阴影和边缘变化具有具有不变特性。最后,将所有HOG块的直方图向量组合成一个HOG特征向量,得到第一图像的HOG特征向量,即为第二特征图。
示例性的,在本申请实施例中,手机可以采用边缘检测算法对第一图像进行边缘特征检测,确定第一图像中各个像素点的边缘特征参数。可以理解的是,边缘检测算法可以用于提取图像中纹理复杂的区域(如,草地、树林、山、和水波等)提的边缘梯度特征。如图8所示,手机采用边缘检测算法对图8中的(a)所示的第一图像进行边缘检测,得到第三特征图(如图8中的(d)所示)。该第三特征图用于标识第一图像中埃菲尔铁塔的结构纹理。又如,如图9所示,手机采用边缘检测算法对图9中的(a)所示的第一图像进行边缘检测,得到的第三特征图(如图9中的(d)所示)。该第三特征图用于标识第一图像中的人体轮廓。
其中,本申请实施例中,边缘检测算法具体可以为拉普拉斯算子、Canny算法、Prewitt算子或者索贝尔(Sobel)算子等,本申请实施例对此不作限定。
示例性的,如图12所示,为本申请实施例提供的一种基于Canny算法的边缘检测算法流程图。Canny算法是一种先平滑再求导的方法。如图12所示,采用Canny算法可以先使用高斯滤波器对第一图像进行平滑处理。其中,平滑处理是指对图像进行减噪(例如,抑制图像噪声、抑制干扰高频等),使得图像亮度平缓渐变,减小突变梯度,改善图像质量。在获取无噪声第一图像后,可以采用一阶偏导的有限差分计算无噪声第一图像中边缘的梯度幅值和方向。然后,对无噪声第一图像中边缘的梯度幅值进行非极大值抑制。最后,采用双阈值算法检测和连接边缘,得到第三特征图。
示例性的,在本申请实施例中,手机可以采用文本检测算法对第一图像进行文本特征检测,确定第一图像中各个像素点的文本特征参数。可以理解的是,文本检测算法可以用于提取图像(例如日历、节气相关的图像,广告、海报等图像)中存在的文字或者字符特征。如图8所示,手机采用文本检测算法对图8中的(a)所示的第一图像进行文本检测,得到第四特征图(如图8中的(e)所示)。又如,如图9所示,手机采用文本检测算法对图9中的(a)所示的第一图像进行文本检测,得到第四特征图(如图9中的(e)所示)。由于图8中的(a)与图9中的(a)所示的第一图像示例中均不包含文字,因此得到的图8中的(e)和图9中的(e)中均无文本特征。
其中,本申请实施例中,文本检测算法具体可以为基于计算机梯度以及膨胀与腐蚀操作的文本检测算法,或者可以为基于深度学习(例如基于卷积神经网络)的文本检测算法等,本申请实施例对此不作限定。
示例性的,如图13所示,为本申请实施例提供的一种基于计算机梯度以及膨胀与腐蚀操作的文本检测算法流程图。如图13所示,基于计算机梯度以及膨胀与腐蚀操作的文本检测算法可以先对第一图像灰度化处理,用于降低计算量。然后计算灰度图的梯度特征,并将梯度特征二值化,然后使用图像膨胀与腐蚀操作对二值化的梯度特征进行处理,若有图像区域的梯度特征满足给定阈值,可认为该区域为文本特征区域。采用上述方法可以得到文本特征图。
需要说明的是,本申请实施例中如图10所示的基于多特征的吸收马尔科夫链的视觉显著性检测算法,如图11所示的基于HOG的人脸检测算法,如图12所示的基于Canny算法的边缘检测算法以及如图13所示的基于计算机梯度以及膨胀与腐蚀操作的文本检测算法,仅作为几种计算示例。本申请实施例对具体的视觉显著性检测算法、人脸检测算法、边缘检测算法和文本检测算法不作限定。
另外,本申请实施例对于图10所示的基于多特征的吸收马尔科夫链的视觉显著性检测算法,如图11所示的基于HOG的人脸检测算法,如图12所示的基于Canny算法的边缘检测算法以及如图13所示的基于计算机梯度以及膨胀与腐蚀操作的文本检测算法中的具体处理细节也不做限定,上述算法及过程还可以有其他变形,关于上述算法的具体细节及处理过程等,可以参考常规技术中的细节及处理过程等,本申请实例这里不予赘述。
在本申请实施例中,示例性的,若手机确定出了第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数,手机对第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数进行加权求和,确定第一图像中各个像素点的特征值,可以通过以下公式实现:
Fc(x,y)=α*Fsal(x,y)+β*Fface(x,y)+γ*Fedge(x,y)+η*Ftext(x,y)。
其中,Fc(x,y)是第一图像中像素点(x,y)的特征值,Fsal(x,y)是第一图像中像素点(x,y)的视觉显著参数,Fface(x,y)是第一图像中像素点(x,y)的人脸特征参数,Fedge(x,y)是第一图像中像素点(x,y)的边缘特征参数,Ftext(x,y)是第一图像中像素点(x,y)的文本特征参数。α、β、γ和η分别为视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数对应的权重参数。
在本申请实施例中,α、β、γ和η的具体值可以视不同参数的重要程度而定。示例性,视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数的重要程度排名可以为:人脸特征参数>文本特征参数>视觉显著参数>边缘特征参数。在这种情况下,示例性的,α、β、γ和η可以分别设置为0.2、0.4、0.1和0.3。或者,视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数的重要程度排名可以为:人脸特征参数=文本特征参数>视觉显著参数>边缘特征参数。在这种情况下,示例性的,α、β、γ和η可以分别设置为0.2、0.4、0和0.4。其中,γ为0也可以理解为在确定第一图像中各个像素点的特征值时,不考虑边缘特征参数。
在本申请实施例中,每一个像素点的Fc(x,y),对应到第一图像的特征图(如图8中的(f)和图9中的(f))中。其像素点(x,y)的明暗程度,代表该像素点的Fc(x,y)值大小。亮度越大则代表该像素点(x,y)的Fc(x,y)值越大。
S603、手机根据第一文本,以及第一图像中各个像素点的特征值,确定第一文本在第一图像的多个第一排版版式。
可以理解的是,第一排版版式即上文中所述的候选排版版式。其中,第一排版版式至少用于表征第一文本的文本模板和第一文本排版至第一图像的位置。
其中,文本模板至少可以规定以下中的一种或多种:文本主题和文本正文的行间距、行宽、字号、字体、文字粗细、对齐方式、排版形式,以及装饰线位置和装饰线粗细程度等。其中,排版形式至少可以包括竖版和横版等。
在一些实施例中,文本模板可以以对象简谱(JavaScript Object Notation,JSON)格式、可扩展标记语言(Extensible Markup Language,XML)格式、代码片段或者其他文本格式保存,本申请实施例对此不作限定。
如图14所示,为本申请实施例提供的一种JSON格式的排版规格示例图。
在一些实施例中,本申请实施例中的多个文本模板可以是预先设计好的,保存在手机中,或者存储在手机厂商的服务器中。或者,对于第二图像的其他应用场景实施例,文本模板还可以存储在其他对应位置,本申请实施例对此不作限定。
在本申请实施例中,第一文本排版至第一图像的位置用于表征第一文本按照第一排版版式排版至第一图像时,第一文本位于第一图像的相对位置。该第一文本排版至第一图像的位置至少可以包括:左上、右上、居中、左下、右下、顶部居中和底部居中等中的任一种。示例性的,如图15所示,为本申请实施例提供的一种第一文本排版至第一图像的位置示意图。如图15所示,第一文本排版至第一图像的位置为“左下”。
在一些实施例中,第一文本排版至第一图像的位置可以为默认排版位置。其中,默认排版位置为预设排版位置,默认排版位置可以为左上、右上、居中、左下、右下、顶部居中和底部居中等排版位置中的任一种。
在本申请实施例中,手机可以根据第一文本以某一文本模板排版时,该第一文本的文本框的大小,结合第一图像中各个像素点的特征值(或者第一图像的特征图),确定第一文本排版至第一图像的位置,使得该第一文本不遮挡第一图像中特征值大于第一阈值的像素点。
可以理解的是,第一图像中特征值大于第一阈值的像素点对应的图像特征为上文中的显著特征,即被用户关注的可能性较大的图像特征。因此,手机确定的第一文本排版至第一图像的位置,可以使得第一文本不遮挡第一图像中的显著特征。
由于手机以某一文本模板排版时,符合上述条件的排版位置可能会有多个。另外第一文本在以不同的文本模板排版时,该第一文本的文本框的大小不同。如图16中的(a)、图16中的(b)和图16中的(c)所示,示出了本申请实施例提供的几种第一文本以不同文本模板排版的示例图。因此第一文本以不同文本模板排版排版至第一图像的位置也可能不同。因此,手机可以确定出第一文本排版至第一图像的多个排版位置。对应的,手机便确定了多个第二排版版式。
示例性的,以图8中的(f)所示的第一图像的特征图为例,介绍手机确定的多个候选排版版式(即多个第一排版版式)。如图17所示,手机根据图8中的(a)所示的第一图像,结合待融合的第一文本,可以确定出3个候选排版版式:候选排版版式1(如图17中的(a)所示)、候选排版版式2(如图17中的(b)所示)和候选排版版式3(如图17中的(c)所示)。
在如图17所示的情况下,手机需要进一步从候选排版版式1、候选排版版式2和候选排版版式3中确定出第一文本的最优排版版式,即手机执行S604。
S604、手机根据多个第一排版版式的代价参数,从该多个第一排版版式中确定出第二排版版式。
其中,一个第一排版版式的代价参数用于表征第一文本按照该排版版式在第一图像排版时,第一文本遮挡的像素点的特征值的大小,以及排版有第一文本的第一图像中各个区域的像素点的特征值分布的平衡程度。
在一些实施例中,手机可以将多个第一排版版式中,能够使得第一文本以某一第一排版版式排版至第一图像时,第一文本遮挡的像素点的特征值最小,以及排版有第一文本的第一图像中各个区域的像素点的特征值分布最均衡的第一排版版式为第二排版版式。
S605、手机按照第二排版版式将第一文本排版至第一图像,得到第二图像。
在一些实施例中,如图18所示,手机根据多个第一排版版式的代价参数,从该多个第一排版版式中确定出第二排版版式(即S604),可以包括S1801-S1806:
S1801、手机确定第一文本按照一个第一排版版式排版至第一图像时,第一文本的文本框遮挡第一图像的图像区域。
其中,排版版式i为手机确定出的任一个第一排版版式。
S1802、手机计算上述图像区域的纹理特征参数。
其中,上述图像区域的纹理特征参数用于用于表征该图像区域对应的图像中纹理特征的多少。
在一种可能的实现方式中,手机可以先获取该图像区域对应的灰度图像。然后计算该灰度图像的纹理特征参数。
其中,灰度图像是指经过灰度化处理获得的图像。该处理用于降低计算量。灰度化处理后的图像可以呈现出白→灰→黑的分布。灰度值为0的像素点显示为白色,灰度值为255的像素点显示为黑色。
示例性的,手机可以基于灰度共生矩阵的角二阶矩、对比度、熵等,或者图像区域对应的图像灰度与梯度的方差计算图像区域的纹理特征参数。或者,可以参考上文中边缘特征检测算法计算,以及其他常规的边缘特征检测算法或纹理特征检测算法,这里不作赘述。
S1803、手机判断第一文本遮挡的图像区域对应的图像的纹理特征参数是否大于第二阈值。若第一文本遮挡的图像区域对应的图像的纹理特征参数小于第二阈值,手机执行S1804。若第一文本遮挡的图像区域对应的图像的纹理特征参数大于第二阈值,手机舍弃排版版式i,令i+1,重新执行S1801,直至针对每一个第一排版版式执行完成S1801-S1803。
其中,第二阈值为预设阈值。示例性的,第二阈值为125。可以理解的是,对于第一文本遮挡的图像区域对应的图像的纹理特征参数大于125的第一排版版式,可以认为该图像区域的纹理特征过于复杂,若将第一文本排版至此处,可能会同时影响纹理特征和第一文本的展示。在这种情况下,手机可以放弃采用该第一排版版式排版第一文本。
S1804、手机计算第一文本按照排版版式i排版至第一图像时,第一文本的文本入侵参数、视觉空间占用参数和视觉平衡参数中的至少两种。
其中,第一文本的文本入侵参数是第一参数与第二参数的比值。第一参数是第一文本遮挡第一图像的图像区域中各个像素点的特征值之和。第二参数是图像区域的面积,或者,第二参数是图像区域中像素点的总数,或者,第二参数是图像区域中像素点的总数与预设数值的乘积。
示例性的,可以根据公式计算第一文本按照排版版式i排版至第一图像时,第一文本的文本入侵参数Es(Li)。其中,R(L)为第一文本以排版版式i排版至第一图像时,第一文本遮挡第一图像的图像区域。x,y分别为第一文本遮挡第一图像的图像区域内,像素点的横坐标和竖坐标。Fc(x,y)为像素点(x,y)的特征值。
第一文本的视觉空间占用参数用于表征图像区域中特征值小于第三阈值的像素点的比例。
示例性的,可以根据公式计算第一文本按照排版版式i排版至第一图像时,第一文本的视觉空间占用参数Eu(Li)。其中,Im(xy)为第一文本以排版版式i排版至第一图像后,第一文本遮挡第一图像的图像区域内像素点的像素值,t为第一图像中的最大特征值。
第一文本的视觉平衡参数用于表征第一文本对排版有该第一文本的第一图像中各个区域的像素点的特征值分布的平衡程度的影响程度。
示例性的,可以根据公式En(Li)=b1+b2+b3计算第一文本按照排版版式i排版至第一图像时,第一文本的视觉平衡参数En(Li)。其中b1为第一文本以排版版式i排版至第一图像时,第一文本遮挡第一图像的图像区域的特征图的图像重心与第一图像的特征图的图像重心之间的距离。b2为第一文本以排版版式i排版至第一图像时,第一文本遮挡第一图像的图像区域的图像中心与第一图像中心之间的距离。b3为第一文本以排版版式i排版至第一图像时,第一文本遮挡第一图像的图像区域的图像中心与第一文本遮挡第一图像的图像区域的特征图的图像重心之间的距离。
其中,图像重心(Xc,Yc)可以根据公式和公式计算得到。示例性的,以图17中的(c)所示的候选排版版式为例,P1为第一文本以排版版式i排版至第一图像时,第一文本遮挡第一图像的图像区域的特征图的图像重心。P2为第一图像的特征图的图像重心。P3为第一文本以排版版式i排版至第一图像时,第一文本遮挡第一图像的图像区域的图像中心。P4为第一图像的图像中心。可以得到对于图17中的(c)所示的候选排版版式,b1为P1与P2的距离,b2为P1与P4的距离,b3为P1与P3的距离。同样的方法,可以计算得到每一个候选排版版式对应的b1、b2和b3,进而得到每一个候选排版版式的视觉平衡参数En(Li)。
S1805、手机根据计算出的第一文本的文本入侵参数、视觉空间占用参数和视觉平衡参数中的至少两个,计算多个第一排版版式的代价参数。
在一些实施例中,手机可以采用以下公式1、公式2或公式3中的任一个计算排版版式i的代价参数。
公式1:Ti=λ1*Es(Li)+λ2*Eu(Li)+λ3*En(Li)。
公式2:Ti=(λ1*Es(Li)+λ2*Eu(Li))*En(Li)。
公式3:Ti=Es(Li)*Eu(Li)*En(Li)。
其中,λ1、λ2和λ3分别为所述Es(Li)、所述Eu(Li)和所述En(Li)对应的权重参数。用于标识所述Es(Li)、所述Eu(Li)和所述En(Li)的相对重要程度。因此,λ1、λ2和λ3的取值范围可以为0~1中的任一数值。其中,某一权重参数为0,也可以理解为在确定第一排版版式的代价参数时,不考虑该权重参数对应的参数。例如,λ1为0,则可以理解为在确定第一排版版式的代价参数时,不考虑第一文本的文本入侵参数。
需要注意的是,本申请实施例中,手机针对每个第一排版版式,采用相同的代价参数计算公式(如上述公式1,公式2或者公式3)计算其代价参数。例如,手机可以采用上述公式1,计算每个第一排版版式的代价参数。
在本申请实施例中,在手机计算得到每一个第一排版版式的视觉代价Ti之后,手机执行S1806。
S1806、手机确定多个第一排版版式的代价参数中,最小的代价参数对应的第一排版版式为第二排版版式。
在一些实施例中,在S1801之前,手机还可以执行:
S1807、手机判断排版版式i是否为默认排版版式(例如:底部居中)。
若排版版式i为默认排版版式,手机可以直接执行S1804。若排版版式i不是默认排版版式,手机可以继续执行S1801。如图19所示。
在一些实施例中,本申请实施例的图文融合方法还可以包括:手机确定第一文本的颜色参数。
在一些实施例中,手机可以在S605之前,确定第一文本的颜色参数。在这种情况下,在S605之后,手机可以根据第一文本的颜色参数,对第二图像中的第一文本着色,获得第三图像。或者,S605还可以为:手机按照第二排版版式,以及第一文本的颜色参数,将第一文本排版至所第一图像,得到第二图像。
在另一些实施例中,手机可以在S605之后,确定第一文本的颜色参数。在这种情况下,在手机确定第一文本的颜色参数之后,手机可以根据第一文本的颜色参数,对第二图像中的第一文本着色,获得第三图像。
其中,第一文本的颜色参数用于对第一文本中每个文字进行着色。
在一些实施例中,手机可以先根据第一文本按照第二排版版式排版至第一图像时,第一图像被第一文本遮挡的图像区域的三原色光RGB的色调、饱和度和明度,确定该图像区域的主色。然后,将该主色的HSV衍生颜色作为第一文本的颜色参数。
其中,RGB色彩模式是工业界的一种颜色标准,是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色。HSV是根据颜色的直观特性创建的一种颜色空间,也称六角锥体模型(Hexcone Model)。该六角锥体模型中颜色的参数至少可以包括:色调(H),饱和度(S)和明度(V)。
在本申请实施例中,图像区域的主色为所述图像区域对应的图像中色相占比最高的色相。该图像区域的主色可以通过统计色相直方图确定。具体的色相直方图统计技术,可以参考常规统计技术,本申请实施例不作赘述。
在本申请实施例中,主色的衍生颜色是指与主色色相相同,但是色调,饱和度和明度与主色的HSV不同的颜色。
在一些实施例中,第一文本按照第二排版版式排版至第二图像后,对于由于第一文本遮挡的图像区域的纹理过于复杂,或者色调过于复杂等原因导致的第一文本显示模糊,或者显示不够突出的问题。如图20所示,本申请实施例的图文融合方法还可以包括:
S2001、手机判断是否需要对第二图像进行渲染处理。
或者,对于上文中的第三图像,手机判断是否需要对第三图像进行渲染处理。其中,渲染处理至少可以包括蒙版渲染和投影渲染中的至少一种。
在一些实施例中,手机可以根据是否满足以下条件中的至少一种判断是否需要对第二图像或第三图像进行渲染处理:
条件1:第一文本按照第二排版版式排版至第一图像后,第一文本遮挡第一图像的图像区域的纹理特征参数大于第四阈值。
其中,所述纹理特征参数用于表征该图像区域对应的图像中纹理特征的多少。对于纹理特征参数的计算方法,可以参考上文中的边缘特征检测算法,或者其他常规的边缘特征检测算法或纹理特征检测算法,这里不作赘述。
条件2:第一文本按照第二排版版式排版至第一图像后,第一文本遮挡第一图像的图像区域的主色占比小于第五阈值。
其中,第一图像的主色占比可以通过统计第一图像的色相直方图确定。具体的色相直方图统计技术,可以参考常规统计技术,本申请实施例不作赘述。
可以理解的是,若第一文本遮挡第一图像的图像区域的纹理特征参数大于预设值,表示该图像区域的纹理较复杂,可能会影响文字的突出性。以及若第一文本遮挡第一图像的图像区域的主色占比小于预设阈值,表示该图像区域的色调复杂,也可能也会影响文字的突出性。在这种情况下,手机可以对第二图像进行渲染处理,突出第二图像中第一文本。
若手机满足条件1和条件2中的至少一种,手机执行S2002。
S2002、手机对第二图像进行蒙版渲染或者投影渲染。
其中,手机对第二图像进行蒙版渲染具体是指手机对第二图像中第一文本的文字框区域进行蒙版渲染。手机对第二图像进行投影渲染具体是指手机对第二图像中第一文本的文字添加文字阴影。
在一些实施例中,手机对第二图像进行蒙版渲染可以包括:手机在第二图像上覆盖蒙版图层。具体的,手机可以在第二图像中第一文本的文字框区域上覆盖蒙版图层。
在本申请实施例中,蒙版图层的生成方法可以包括:在第二图像中第一文本的文字框的大小基础上,分别向上、下、左、右中的至少一个方向扩展尺寸H1,确定蒙版图层的尺寸。然后,以透明度阈值1→透明度阈值2→透明度阈值3的顺序进行透明度处理,获得蒙版图层。其中,可以以从上到下、从左到右、从下到上或者从右到左等渐变方向进行透明度处理。具体的渐变方向,可以视具体的排版版式而定。例如,第二排版版式为顶部居中,则可以以从上到下的渐变方向进行透明度处理。本申请实施例对此不作限定。
在另一些实施例中,手机对第二图像进行蒙版渲染可以包括:手机确定蒙版参数,然后手机根据确定的蒙版参数处理第二图像。
在本申请实施例中,蒙版参数至少可以包括蒙版尺寸和蒙版透明度参数。其中,蒙版尺寸可以根据以下方法确定:在第二图像中第一文本的文字框的大小基础上,分别向上、下、左、右中的至少一个方向扩展尺寸H1,即为蒙版尺寸。
在本申请实施例中,蒙版透明度参数可以根据以下方法确定:以透明度阈值1→透明度阈值2→透明度阈值3的顺序确定蒙版透明度参数。其中,可以以从上到下、从左到右、从下到上或者从右到左等渐变方向确定蒙版透明度参数。具体的渐变方向,可以视具体的排版版式而定。例如,第二排版版式为顶部居中,则可以以从上到下的渐变方向确定蒙版透明度参数。本申请实施例对此不作限定。
通过蒙版处理的方法,可以保证图文融合图像中文字的突出性,保证文字清晰可读。如图21所示,为本申请实施例提供的几种图文融合图像对比图。例如,图21中的(b1)采用了本申请实施例的排版方法,其相比于图21中的(a1)所采用现有排版方法排版的图像,文本框设置位置更加科学、文字的突出性更强。又如,图21中的(b2)采用了本申请实施例的排版方法,其相比于图21中的(a2)所采用现有排版方法排版的图像,图文颜色的冲突性更小,文字的突出性更强。
在一些实施例中,手机对第二图像进行投影渲染可以包括:手机确定文字投影参数,然后手机根据确定的文字投影参数处理第二图像。
在本申请实施例中,文字投影参数至少可以包括投影颜色、投影位移和投影模糊数值等。其中,投影颜色可以与文字颜色一致。投影位移可以为预设的位移参数。投影模糊数值可以是预设的模糊数值,示例性的,投影模糊数值可以随着不同位移位置渐变。对于文字投影参数的具体确定方法和方式,可以参考常规的投影渲染技术,本申请实施例不作限定。
可以理解的是,电子设备为了实现上述任一个实施例的功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以对电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
比如,以采用集成的方式划分各个功能模块的情况下,如图22所示,为本申请实施例提供的一种电子设备的结构示意图。该电子设备可以包括信息获取单元2210、分析单元2220和处理单元2230。
其中,信息获取单元2210可以用于支持电子设备执行上述步骤S601,以及获取多个文本模板,和/或用于本文所描述的技术的其他过程;分析单元2220可以用于支持电子设备执行上述步骤S602、S603、S604和S2001;或采集第一数据,和/或用于本文所描述的技术的其他过程;处理单元2230用于支持电子设备执行上述步骤S605和S2002,和/或用于本文所描述的技术的其他过程。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
需要说明的是,上述电子设备还可以包括射频电路。具体的,电子设备可以通过射频电路进行无线信号的接收和发送。通常,射频电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频电路还可以通过无线通信和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统、通用分组无线服务、码分多址、宽带码分多址、长期演进、电子邮件、短消息服务等。
在一种可选的方式中,当使用软件实现数据传输时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地实现本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
结合本申请实施例所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于探测装置中。当然,处理器和存储介质也可以作为分立组件存在于探测装置中。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的用户设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (30)
1.一种图文融合方法,其特征在于,所述方法包括:
获取第一图像和待排版至所述第一图像的第一文本;
确定所述第一图像中各个像素点的特征值;其中,一个像素点的特征值用于表征所述一个像素点被用户关注的可能性的高低,所述像素点的特征值越高,所述像素点被用户关注的可能性越高;
根据所述第一文本,以及所述第一图像中各个像素点的特征值,确定所述第一文本在所述第一图像的多个第一排版版式;其中,所述第一文本按照每个第一排版版式排版至所述第一图像时,所述第一文本不遮挡特征值大于第一阈值的像素点;
根据所述多个第一排版版式的代价参数,从所述多个第一排版版式中确定出第二排版版式;其中,第一排版版式的代价参数用于表征所述第一文本按照所述第一排版版式排版至所述第一图像时,所述第一文本遮挡的像素点的特征值的大小,以及排版有所述第一文本的第一图像中各个区域的像素点的特征值分布的平衡程度;
按照所述第二排版版式将所述第一文本排版至所述第一图像,得到第二图像。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一图像中各个像素点的特征值,包括:
确定所述第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数;其中,一个像素点的视觉显著参数用于表征所述一个像素点是视觉显著性特征对应的像素点的可能性的高低,所述一个像素点的人脸特征参数用于表征所述一个像素点是人脸对应的像素点的可能性的高低,所述一个像素点的边缘特征参数用于表征所述一个像素点是物体轮廓对应的像素点的可能性的高低,所述一个像素点的文本特征参数用于表征所述一个像素点是文本对应的像素点的可能性的高低;
分别对确定出的所述第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定所述第一图像中各个像素点的特征值。
3.根据权利要求2所述的方法,其特征在于,在所述分别对确定出的所述第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定所述第一图像中各个像素点的特征值之前,所述方法还包括:
分别根据确定出的所述第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数生成至少两个特征图;每一个所述特征图中各个像素点的像素值为对应像素点的对应参数;
所述分别对确定出的所述第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定所述第一图像中各个像素点的特征值,包括:
对所述至少两个特征图中各个像素点的像素值进行加权求和,确定所述第一图像中各个像素点的特征值。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述根据所述第一文本,以及所述第一图像中各个像素点的特征值,确定所述第一文本在所述第一图像的多个第一排版版式,包括:
根据所述第一文本以一个或多个文本模板排版时所述第一文本的文本框的大小,以及所述第一图像中各个像素点的特征值,确定所述多个第一排版版式。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取所述一个或多个文本模板,每个所述文本模板规定了文本的行间距、行宽、字号、字体、文字粗细、对齐方式、装饰线位置和装饰线粗细中的至少一种。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述根据所述多个第一排版版式的代价参数,从所述多个第一排版版式中确定出第二排版版式,包括:
确定所述第一文本分别按照所述多个第一排版版式排版至所述第一图像时,所述第一文本的文本框遮挡所述第一图像的图像区域的纹理特征参数,所述纹理特征参数用于表征所述图像区域对应的图像中纹理特征的多少;
从所述多个第一排版版式中,选择出纹理特征参数小于第二阈值的图像区域对应的多个第一排版版式;
根据选择出的每个第一排版版式的代价参数,从所述选择出的多个第一排版版式中确定出所述第二排版版式。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括:
针对所述多个第一排版版式中每个第一排版版式,执行步骤a、步骤b和步骤c中的至少两个以及步骤d,以得到所述每个第一排版版式的代价参数;
步骤a:计算所述第一文本按照一个第一排版版式排版至所述第一图像时,所述第一文本的文本入侵参数;所述文本入侵参数是第一参数与第二参数的比值;所述第一参数是所述第一文本遮挡所述第一图像的图像区域中各个像素点的特征值之和;所述第二参数是所述图像区域的面积,或者,所述第二参数是所述图像区域中像素点的总数,或者,所述第二参数是所述图像区域中像素点的总数与预设数值的乘积;
步骤b、计算所述第一文本按照一个第一排版版式排版至所述第一图像时,所述第一文本的视觉空间占用参数;所述视觉空间占用参数用于表征所述图像区域中特征值小于第三阈值的像素点的比例;
步骤c:计算所述第一文本按照一个第一排版版式排版至所述第一图像时,所述第一文本的视觉平衡参数;所述视觉平衡参数用于表征所述第一文本对排版有所述第一文本的第一图像中各个区域的像素点的特征值分布的平衡程度的影响程度;
步骤d、根据计算出的所述第一文本的文本入侵参数、视觉空间占用参数和视觉平衡参数中的至少两个,计算所述一个第一排版版式的代价参数。
8.根据权利要求7所述的方法,其特征在于,所述根据计算出的所述第一文本的文本入侵参数、视觉空间占用参数和视觉平衡参数中的至少两个,计算所述一个第一排版版式的代价参数,包括:
采用
Ti=λ1*Es(Li)+λ2*Eu(Li)+λ3*En(Li),或者,
Ti=(λ1*Es(Li)+λ2*Eu(Li))*En(Li),或者,
Ti=Es(Li)*Eu(Li)*En(Li)
计算所述一个第一排版版式的代价参数Ti;
其中,Es(Li)为所述第一文本按照所述一个第一排版版式排版至所述第一图像时,所述第一文本的文本入侵参数,Eu(Li)为所述第一文本按照所述一个第一排版版式排版至所述第一图像时,所述第一文本的视觉空间占用参数,En(Li)为所述第一文本按照所述一个第一排版版式排版至所述第一图像时,所述第一文本的视觉平衡参数;λ1、λ2和λ3分别为所述Es(Li)、所述Eu(Li)和所述En(Li)对应的权重参数。
9.根据权利要求8所述的方法,其特征在于,所述根据所述多个第一排版版式的代价参数,从所述多个第一排版版式中确定出第二排版版式,包括:
确定所述多个第一排版版式的代价参数中,最小的代价参数对应的第一排版版式为第二排版版式。
10.根据权利要求1-9中任一项所述的方法,其特征在于,所述方法还包括:
确定第一文本的颜色参数;所述第一文本的颜色参数为所述第一文本按照所述第二排版版式排版至所述第一图像时,所述第一图像被所述第一文本遮挡的图像区域的主色的衍生颜色;所述主色的衍生颜色是指与主色色相相同,但是色调,饱和度和明度与主色的HSV不同的颜色;
根据所述第一文本的颜色参数,对所述第二图像中的所述第一文本着色,获得第三图像。
11.根据权利要求10所述的方法,其特征在于,
所述第一图像被所述第一文本遮挡的图像区域的主色是基于所述第一文本按照所述第二排版版式排版至所述第一图像时,所述第一图像被所述第一文本遮挡的图像区域的三原色光RGB在HSV空间中的色调、饱和度和明度确定的;所述主色为所述图像区域中占比最高的色相。
12.根据权利要求1-9任一项所述的方法,其特征在于,所述方法还包括:
若满足以下条件1和条件2中的至少一个,确定对所述第二图像进行渲染处理;
条件1:所述第一文本按照所述第二排版版式排版至所述第一图像后,所述第一文本遮挡所述第一图像的图像区域的纹理特征参数大于第四阈值;所述纹理特征参数用于表征所述图像区域对应的图像中纹理特征的多少;
条件2:所述图像区域的主色占比小于第五阈值;
在所述第二图像上覆盖蒙版图层;或者,确定蒙版参数,根据确定的所述蒙版参数处理所述第二图像;或者,对所述第一文本进行投影渲染。
13.根据权利要求10或11所述的方法,其特征在于,所述方法还包括:
若满足以下条件1和条件2中的至少一个,确定对所述第三图像进行渲染处理;
条件1:所述第一文本按照所述第二排版版式排版至所述第一图像后,所述第一文本遮挡所述第一图像的图像区域的纹理特征参数大于第四阈值;所述纹理特征参数用于表征所述图像区域对应的图像中纹理特征的多少;
条件2:所述图像区域的主色占比小于第五阈值;
在所述第三图像上覆盖蒙版图层;或者,确定蒙版参数,根据确定的所述蒙版参数处理所述第三图像;或者,对所述第一文本进行投影渲染。
14.一种图文融合装置,其特征在于,所述装置包括:
信息获取单元,用于获取第一图像和待排版至所述第一图像的第一文本;
分析单元,用于确定所述第一图像中各个像素点的特征值;其中,一个像素点的特征值用于表征所述一个像素点被用户关注的可能性的高低,所述像素点的特征值越高,所述像素点被用户关注的可能性越高;以及,
根据所述第一文本,以及所述第一图像中各个像素点的特征值,确定所述第一文本在所述第一图像的多个第一排版版式;其中,所述第一文本按照每个第一排版版式排版至所述第一图像时,所述第一文本不遮挡特征值大于第一阈值的像素点;以及,
根据所述多个第一排版版式的代价参数,从所述多个第一排版版式中确定出第二排版版式;其中,一个第一排版版式的代价参数用于表征所述第一文本按照所述第一排版版式排版至所述第一图像时,所述第一文本遮挡的像素点的特征值的大小,以及排版有所述第一文本的第一图像中各个区域的像素点的特征值分布的平衡程度;
处理单元,用于按照所述第二排版版式将所述第一文本排版至所述第一图像,得到第二图像。
15.根据权利要求14所述的装置,其特征在于,所述分析单元确定所述第一图像中各个像素点的特征值,包括:
所述分析单元确定所述第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数;其中,一个像素点的视觉显著参数用于表征所述一个像素点是视觉显著性特征对应的像素点的可能性的高低,所述一个像素点的人脸特征参数用于表征所述一个像素点是人脸对应的像素点的可能性的高低,所述一个像素点的边缘特征参数用于表征所述一个像素点是物体轮廓对应的像素点的可能性的高低,所述一个像素点的文本特征参数用于表征所述一个像素点是文本对应的像素点的可能性的高低;
所述分析单元分别对确定出的所述第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定所述第一图像中各个像素点的特征值。
16.根据权利要求15所述的装置,其特征在于,在所述分析单元分别对确定出的所述第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定所述第一图像中各个像素点的特征值之前,所述分析单元还用于:
分别根据确定出的所述第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数生成至少两个特征图;每一个所述特征图中各个像素点的像素值为对应像素点的对应参数;
所述分别对确定出的所述第一图像中各个像素点的视觉显著参数,人脸特征参数,边缘特征参数和文本特征参数中的至少两个参数进行加权求和,确定所述第一图像中各个像素点的特征值,包括:
对所述至少两个特征图中各个像素点的像素值进行加权求和,确定所述第一图像中各个像素点的特征值。
17.根据权利要求14-16任一项所述的装置,其特征在于,所述分析单元根据所述第一文本,以及所述第一图像中各个像素点的特征值,确定所述第一文本在所述第一图像的多个第一排版版式,包括:
所述分析单元根据所述第一文本以所述一个或多个文本模板排版时所述第一文本的文本框的大小,以及所述第一图像中各个像素点的特征值,确定所述多个第一排版版式。
18.根据权利要求17所述的装置,其特征在于,所述信息获取单元还用于:
获取所述一个或多个文本模板,每个所述文本模板规定了文本的行间距、行宽、字号、字体、文字粗细、对齐方式、装饰线位置和装饰线粗细中的至少一种。
19.根据权利要求14-18任一项所述的装置,其特征在于,所述分析单元根据所述多个第一排版版式的代价参数,从所述多个第一排版版式中确定出第二排版版式,包括:
所述分析单元确定所述第一文本分别按照所述多个第一排版版式排版至所述第一图像时,所述第一文本的文本框遮挡所述第一图像的图像区域的纹理特征参数,所述纹理特征参数用于表征所述图像区域对应的图像中纹理特征的多少;
所述分析单元从所述多个第一排版版式中,选择出纹理特征参数小于第二阈值的图像区域对应的多个第一排版版式;
所述分析单元根据选择出的每个第一排版版式的代价参数,从所述选择出的多个第一排版版式中确定出所述第二排版版式。
20.根据权利要求14-19任一项所述的装置,其特征在于,所述分析单元还用于:
针对所述多个第一排版版式中每个第一排版版式,执行步骤a、步骤b和步骤c中的至少两个以及步骤d,以得到所述每个第一排版版式的代价参数;
步骤a:计算所述第一文本按照一个第一排版版式排版至所述第一图像时,所述第一文本的文本入侵参数;所述文本入侵参数是第一参数与第二参数的比值;所述第一参数是所述第一文本遮挡所述第一图像的图像区域中各个像素点的特征值之和;所述第二参数是所述图像区域的面积,或者,所述第二参数是所述图像区域中像素点的总数,或者,所述第二参数是所述图像区域中像素点的总数与预设数值的乘积;
步骤b、计算所述第一文本按照一个第一排版版式排版至所述第一图像时,所述第一文本的视觉空间占用参数;所述视觉空间占用参数用于表征所述图像区域中特征值小于第三阈值的像素点的比例;
步骤c:计算所述第一文本按照一个第一排版版式排版至所述第一图像时,所述第一文本的视觉平衡参数;所述视觉平衡参数用于表征所述第一文本对排版有所述第一文本的第一图像中各个区域的像素点的特征值分布的平衡程度的影响程度;
步骤d、根据计算出的所述第一文本的文本入侵参数、视觉空间占用参数和视觉平衡参数中的至少两个,计算所述一个第一排版版式的代价参数。
21.根据权利要求20所述的装置,其特征在于,所述分析单元根据计算出的所述第一文本的文本入侵参数、视觉空间占用参数和视觉平衡参数中的至少两个,计算所述一个第一排版版式的代价参数,包括:
所述分析单元采用
Ti=λ1*Es(Li)+λ2*Eu(Li)+λ3*En(Li),或者,
Ti=(λ1*Es(Li)+λ2*Eu(Li))*En(Li),或者,
Ti=Es(Li)*Eu(Li)*En(Li)
计算所述一个第一排版版式的代价参数Ti;
其中,Es(Li)为所述第一文本按照所述一个第一排版版式排版至所述第一图像时,所述第一文本的文本入侵参数,Eu(Li)为所述第一文本按照所述一个第一排版版式排版至所述第一图像时,所述第一文本的视觉空间占用参数,En(Li)为所述第一文本按照所述一个第一排版版式排版至所述第一图像时,所述第一文本的视觉平衡参数;λ1、λ2和λ3分别为所述Es(Li)、所述Eu(Li)和所述En(Li)对应的权重参数。
22.根据权利要求21所述的装置,其特征在于,所述分析单元根据所述多个第一排版版式的代价参数,从所述多个第一排版版式中确定出第二排版版式,包括:
所述分析单元确定所述多个第一排版版式的代价参数中,最小的代价参数对应的第一排版版式为第二排版版式。
23.根据权利要求14-22任一项所述的装置,其特征在于,所述处理单元还用于:
确定第一文本的颜色参数;所述第一文本的颜色参数为所述第一文本按照所述第二排版版式排版至所述第一图像时,所述第一图像被所述第一文本遮挡的图像区域的主色的衍生颜色;所述主色的衍生颜色是指与主色色相相同,但是色调,饱和度和明度与主色的HSV不同的颜色;以及
根据所述第一文本的颜色参数,对所述第二图像中的所述第一文本着色,获得第三图像。
24.根据权利要求23所述的装置,其特征在于,
所述第一图像被所述第一文本遮挡的图像区域的主色是基于所述第一文本按照所述第二排版版式排版至所述第一图像时,所述第一图像被所述第一文本遮挡的图像区域三原色光RGB在HSV空间中的色调、饱和度和明度确定的;所述主色为所述图像区域中色相占比最高的色相。
25.根据权利要求14-22任一项所述的装置,其特征在于,所述分析单元还用于:
若满足以下条件1和条件2中的至少一个,确定对所述第二图像进行渲染处理;
条件1:所述第一文本按照所述第二排版版式排版至所述第一图像后,所述第一文本遮挡所述第一图像的图像区域的纹理特征参数大于第四阈值;所述纹理特征参数用于表征所述图像区域对应的图像中纹理特征的多少;
条件2:所述图像区域的主色占比小于第五阈值;
所述处理单元还用于,在所述第二图像上覆盖蒙版图层;或者,确定蒙版参数,根据确定的所述蒙版参数处理所述第二图像;或者,对所述第一文本进行投影渲染。
26.根据权利要求23或24所述的装置,其特征在于,所述分析单元还用于:
若满足以下条件1和条件2中的至少一个,确定对所述第三图像进行渲染处理;
条件1:所述第一文本按照所述第二排版版式排版至所述第一图像后,所述第一文本遮挡所述第一图像的图像区域的纹理特征参数大于第四阈值;所述纹理特征参数用于表征所述图像区域对应的图像中纹理特征的多少;
条件2:所述图像区域的主色占比小于第五阈值;
所述处理单元还用于,在所述第三图像上覆盖蒙版图层;或者,确定蒙版参数,根据确定的所述蒙版参数处理所述第三图像;或者,对所述第一文本进行投影渲染。
27.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储一个或多个计算机程序;
处理器,用于执行所述存储器存储的一个或多个计算机程序,使得所述电子设备实现如权利要求1-13任一项所述的图文融合方法。
28.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机执行指令,所述计算机执行指令被处理电路执行时实现如权利要求1-13任一项所述的图文融合方法。
29.一种芯片系统,其特征在于,所述芯片系统包括处理器、存储器,所述存储器中存储有指令;所述指令被所述处理器执行时,实现如权利要求1-13任一项所述的图文融合方法。
30.一种计算机程序产品,所述计算机程序产品包括程序指令,所述程序指令被执行时,以实现权利要求1-13任一项所述的图文融合方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910783866.7A CN110706310B (zh) | 2019-08-23 | 2019-08-23 | 一种图文融合方法、装置及电子设备 |
PCT/CN2020/106900 WO2021036715A1 (zh) | 2019-08-23 | 2020-08-04 | 一种图文融合方法、装置及电子设备 |
EP20858455.7A EP3996046A4 (en) | 2019-08-23 | 2020-08-04 | METHOD AND DEVICE FOR IMAGE-TEXT MERGING AND ELECTRONIC DEVICE |
US17/634,002 US20220319077A1 (en) | 2019-08-23 | 2020-08-04 | Image-text fusion method and apparatus, and electronic device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910783866.7A CN110706310B (zh) | 2019-08-23 | 2019-08-23 | 一种图文融合方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110706310A true CN110706310A (zh) | 2020-01-17 |
CN110706310B CN110706310B (zh) | 2021-10-22 |
Family
ID=69193924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910783866.7A Active CN110706310B (zh) | 2019-08-23 | 2019-08-23 | 一种图文融合方法、装置及电子设备 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220319077A1 (zh) |
EP (1) | EP3996046A4 (zh) |
CN (1) | CN110706310B (zh) |
WO (1) | WO2021036715A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111311554A (zh) * | 2020-01-21 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 图文内容的内容质量确定方法、装置、设备及存储介质 |
CN111859893A (zh) * | 2020-07-30 | 2020-10-30 | 广州云从洪荒智能科技有限公司 | 图文排版方法、装置、设备及介质 |
WO2021036715A1 (zh) * | 2019-08-23 | 2021-03-04 | 华为技术有限公司 | 一种图文融合方法、装置及电子设备 |
CN113362424A (zh) * | 2020-03-04 | 2021-09-07 | 阿里巴巴集团控股有限公司 | 图像合成、商品广告图像合成方法、设备及存储介质 |
CN113989404A (zh) * | 2021-11-05 | 2022-01-28 | 北京字节跳动网络技术有限公司 | 图片处理方法、装置、设备、存储介质和程序产品 |
CN114429637A (zh) * | 2022-01-14 | 2022-05-03 | 北京百度网讯科技有限公司 | 一种文档分类方法、装置、设备及存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158875B (zh) * | 2021-04-16 | 2022-07-01 | 重庆邮电大学 | 基于多模态交互融合网络的图文情感分析方法及系统 |
CN113591972B (zh) * | 2021-07-28 | 2024-07-19 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备以及存储介质 |
CN115619696B (zh) * | 2022-11-07 | 2024-08-27 | 湖南师范大学 | 一种基于结构相似性与l2范数优化的图像融合方法 |
CN117761075B (zh) * | 2023-11-13 | 2024-07-23 | 江苏嘉耐高温材料股份有限公司 | 一种长寿命功能材料的微孔分布形态检测系统、方法 |
CN118212326B (zh) * | 2024-05-21 | 2024-09-03 | 腾讯科技(深圳)有限公司 | 视觉文本生成方法、装置、设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013005366A1 (ja) * | 2011-07-05 | 2013-01-10 | パナソニック株式会社 | アンチエイリアス画像生成装置およびアンチエイリアス画像生成方法 |
CN102890826A (zh) * | 2011-08-12 | 2013-01-23 | 北京多看科技有限公司 | 一种扫描版文档重排版的方法 |
US20160180161A1 (en) * | 2014-12-23 | 2016-06-23 | Lenovo (Singapore) Pte. Ltd. | Displaying and inserting handwriting words over existing typeset |
CN107103635A (zh) * | 2017-03-20 | 2017-08-29 | 中国科学院自动化研究所 | 图像排版配色方法 |
CN109117713A (zh) * | 2018-06-27 | 2019-01-01 | 淮阴工学院 | 一种全卷积神经网络的图纸版面分析与文字识别方法 |
CN109643222A (zh) * | 2018-05-29 | 2019-04-16 | 优视科技新加坡有限公司 | 版面元素的处理方法、装置、存储介质及电子设备/终端/服务器 |
CN110009712A (zh) * | 2019-03-01 | 2019-07-12 | 华为技术有限公司 | 一种图文排版方法及其相关装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100530242C (zh) * | 2007-09-14 | 2009-08-19 | 北大方正集团有限公司 | 一种图文的自动排版方法 |
US20110173532A1 (en) * | 2010-01-13 | 2011-07-14 | George Forman | Generating a layout of text line images in a reflow area |
US9626768B2 (en) * | 2014-09-30 | 2017-04-18 | Microsoft Technology Licensing, Llc | Optimizing a visual perspective of media |
CN109493399B (zh) * | 2018-09-13 | 2023-05-02 | 北京大学 | 一种图文结合的海报生成方法和系统 |
US11189066B1 (en) * | 2018-11-13 | 2021-11-30 | Adobe Inc. | Systems and methods of learning visual importance for graphic design and data visualization |
CN110706310B (zh) * | 2019-08-23 | 2021-10-22 | 华为技术有限公司 | 一种图文融合方法、装置及电子设备 |
-
2019
- 2019-08-23 CN CN201910783866.7A patent/CN110706310B/zh active Active
-
2020
- 2020-08-04 US US17/634,002 patent/US20220319077A1/en active Pending
- 2020-08-04 WO PCT/CN2020/106900 patent/WO2021036715A1/zh unknown
- 2020-08-04 EP EP20858455.7A patent/EP3996046A4/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013005366A1 (ja) * | 2011-07-05 | 2013-01-10 | パナソニック株式会社 | アンチエイリアス画像生成装置およびアンチエイリアス画像生成方法 |
CN102890826A (zh) * | 2011-08-12 | 2013-01-23 | 北京多看科技有限公司 | 一种扫描版文档重排版的方法 |
US20160180161A1 (en) * | 2014-12-23 | 2016-06-23 | Lenovo (Singapore) Pte. Ltd. | Displaying and inserting handwriting words over existing typeset |
CN107103635A (zh) * | 2017-03-20 | 2017-08-29 | 中国科学院自动化研究所 | 图像排版配色方法 |
CN109643222A (zh) * | 2018-05-29 | 2019-04-16 | 优视科技新加坡有限公司 | 版面元素的处理方法、装置、存储介质及电子设备/终端/服务器 |
CN109117713A (zh) * | 2018-06-27 | 2019-01-01 | 淮阴工学院 | 一种全卷积神经网络的图纸版面分析与文字识别方法 |
CN110009712A (zh) * | 2019-03-01 | 2019-07-12 | 华为技术有限公司 | 一种图文排版方法及其相关装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021036715A1 (zh) * | 2019-08-23 | 2021-03-04 | 华为技术有限公司 | 一种图文融合方法、装置及电子设备 |
CN111311554A (zh) * | 2020-01-21 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 图文内容的内容质量确定方法、装置、设备及存储介质 |
CN111311554B (zh) * | 2020-01-21 | 2023-09-01 | 腾讯科技(深圳)有限公司 | 图文内容的内容质量确定方法、装置、设备及存储介质 |
CN113362424A (zh) * | 2020-03-04 | 2021-09-07 | 阿里巴巴集团控股有限公司 | 图像合成、商品广告图像合成方法、设备及存储介质 |
CN111859893A (zh) * | 2020-07-30 | 2020-10-30 | 广州云从洪荒智能科技有限公司 | 图文排版方法、装置、设备及介质 |
CN111859893B (zh) * | 2020-07-30 | 2021-04-09 | 广州云从洪荒智能科技有限公司 | 图文排版方法、装置、设备及介质 |
CN113989404A (zh) * | 2021-11-05 | 2022-01-28 | 北京字节跳动网络技术有限公司 | 图片处理方法、装置、设备、存储介质和程序产品 |
CN113989404B (zh) * | 2021-11-05 | 2024-06-25 | 北京字节跳动网络技术有限公司 | 图片处理方法、装置、设备、存储介质和程序产品 |
CN114429637A (zh) * | 2022-01-14 | 2022-05-03 | 北京百度网讯科技有限公司 | 一种文档分类方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20220319077A1 (en) | 2022-10-06 |
WO2021036715A1 (zh) | 2021-03-04 |
EP3996046A1 (en) | 2022-05-11 |
EP3996046A4 (en) | 2022-10-19 |
CN110706310B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110706310B (zh) | 一种图文融合方法、装置及电子设备 | |
CN111179282B (zh) | 图像处理方法、图像处理装置、存储介质与电子设备 | |
CN112262563B (zh) | 图像处理方法及电子设备 | |
CN112712470B (zh) | 一种图像增强方法及装置 | |
CN110471606B (zh) | 输入方法及电子设备 | |
CN113170037B (zh) | 一种拍摄长曝光图像的方法和电子设备 | |
CN114579016A (zh) | 一种共享输入设备的方法、电子设备及系统 | |
CN113810764B (zh) | 视频编辑方法和视频编辑装置 | |
CN113747058B (zh) | 基于多摄像头的图像内容屏蔽方法和装置 | |
CN111447389A (zh) | 视频生成方法、装置、终端及存储介质 | |
CN112700377A (zh) | 图像泛光处理方法及装置、存储介质 | |
CN115641867B (zh) | 语音处理方法和终端设备 | |
CN113395441A (zh) | 图像留色方法及设备 | |
CN113096022B (zh) | 图像虚化处理方法、装置、存储介质与电子设备 | |
CN111105474A (zh) | 字体绘制方法、装置、计算机设备及计算机可读存储介质 | |
CN114445522A (zh) | 笔刷效果图生成方法、图像编辑方法、设备和存储介质 | |
CN115701129B (zh) | 一种图像处理方法及电子设备 | |
CN114677291B (zh) | 一种图像处理方法、装置及相关设备 | |
CN116193275B (zh) | 视频处理方法及相关设备 | |
CN117745620B (zh) | 一种图像处理方法及电子设备 | |
CN111064994B (zh) | 视频图像处理方法及装置、存储介质 | |
WO2024082976A1 (zh) | 文本图像的ocr识别方法、电子设备及介质 | |
CN114911546A (zh) | 图像显示方法、电子设备及存储介质 | |
CN116304396A (zh) | 页面渲染方法、装置、电子设备及存储介质 | |
CN115658191A (zh) | 一种生成主题壁纸的方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |