CN116522400B - 图像处理方法和终端设备 - Google Patents
图像处理方法和终端设备 Download PDFInfo
- Publication number
- CN116522400B CN116522400B CN202310796828.1A CN202310796828A CN116522400B CN 116522400 B CN116522400 B CN 116522400B CN 202310796828 A CN202310796828 A CN 202310796828A CN 116522400 B CN116522400 B CN 116522400B
- Authority
- CN
- China
- Prior art keywords
- box
- image
- text
- nickname
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 95
- 238000012545 processing Methods 0.000 claims abstract description 62
- 230000015654 memory Effects 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 41
- 238000004891 communication Methods 0.000 description 35
- 230000006854 communication Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 25
- 238000007726 management method Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 20
- 238000001514 detection method Methods 0.000 description 15
- 230000011218 segmentation Effects 0.000 description 13
- 230000005236 sound signal Effects 0.000 description 13
- 238000012937 correction Methods 0.000 description 12
- 238000010295 mobile communication Methods 0.000 description 12
- 210000000988 bone and bone Anatomy 0.000 description 9
- 230000004044 response Effects 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000007639 printing Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 241000219000 Populus Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002138 osteoinductive effect Effects 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请提供了一种图像处理方法和终端设备,有利于提高对隐私信息遮挡的精确度,避免用户隐私信息的泄露,进而提高用户体验。该方法包括:在检测到用户对第一图像开启自动打码操作的情况下,通过对第一图像进行文字识别,得到第一图像的文本位置信息和文本内容信息;对文本内容信息进行文字隐私信息检测,得到至少一个文字隐私位置信息;通过网络模型对第一图像进行区域预测,得到第一图像的昵称标题位置信息;利用文本位置信息对昵称标题位置信息进行修正,得到修正后的昵称标题位置信息;基于修正后的昵称标题位置信息和至少一个文字隐私信息位置,对第一图像进行处理,得到第二图像,第二图像不显示昵称、标题、以及预设文字。
Description
技术领域
本申请涉及终端技术领域,尤其涉及一种图像处理方法和终端设备。
背景技术
随着社交网络的发展,很多用户喜欢将终端设备的图像分享给其他用户或者分享至社交网络。用户分享的图像中可能会包含一些用户的隐私信息,如,头像、昵称、联系方式、银行账号或者身份证号等信息。在分享图像时,若用户不想让其他用户知道的图像中的某些隐私信息,可以通过终端设备对图像进行遮挡处理,以防止隐私信息泄露。
目前,用户可以通过人工选择马赛克以对图像中的隐私信息进行遮挡处理,然而这种方式用户操作不便。在相关技术中,终端设备上配置有自动打码功能,终端设备可以响应于用户的自动打码操作,对图像上的这些隐私信息进行自动打码,打码例如可以是使用马赛克或卡通头像对图像中的隐私信息进行遮挡。
然而,上述自动打码的方式对隐私信息的遮挡精确度低,可能会导致用户的隐私信息泄露。
发明内容
本申请提供了一种图像处理方法和终端设备,有利于提高对隐私信息遮挡的精确度,避免用户隐私信息的泄露,进而提高用户体验。
第一方面,提供了一种图片处理方法,应用于终端设备。该方法包括:在检测到用户对第一图像开启自动打码操作的情况下,通过对第一图像进行文字识别,得到第一图像的文本位置信息和文本内容信息,文本位置信息包括第一图像中的文本在第一图像中的位置信息;对文本内容信息进行文字隐私信息检测,得到至少一个文字隐私位置信息;通过网络模型对第一图像进行区域预测,得到第一图像的昵称标题位置信息,昵称标题位置信息包括第一图像中的昵称和/或标题在第一图像中的位置信息;利用文本位置信息对昵称标题位置信息进行修正,得到修正后的昵称标题位置信息;基于修正后的昵称标题位置信息和至少一个文字隐私信息位置,对第一图像进行处理,得到第二图像,第二图像不显示昵称、标题、以及预设文字。
本申请提供的图像处理方法,应用于终端设备,通过在检测到用户对第一图像开启自动打码操作的情况下,对第一图像中的文字信息进行文字识别得到文本位置信息和文本内容信息,对文本内容信息文字隐私信息检测,得到文字隐私位置信息;通过网络模型对图像进行区域预测,得到第一图像中的昵称标题位置信息,利用文本位置信息对昵称标题位置信息进行修正,得到修正后的昵称标题位置信息,最后,基于修正后的昵称标题位置信息和文字信息位置信息,对第一图像进行处理,使处理后的图像不显示昵称、标题、以及预设文字。这样,通过位置修正得到的昵称标题位置信息更加准确,有利于提高对图像中的隐私信息遮挡的精确度,避免用户隐私信息的泄露,进而提高用户体验。
具体地,终端设备可以采用OCR技术识别第一图像中的文字信息,在识别出文字信息之后,记录该文字信息在第一图像中的位置以及该文字信息对应的文本内容。
应理解,第一图像中可能包括多个文本内容信息。文字隐私信息可以包括邮箱、地址、电话号码、身份证号码、快递单号、航班号、网址等隐私信息。
终端设备可以通过多种方式对文本内容信息进行文字隐私信息检测。
在一种可能的实现方式中,终端设备可以基于预设文字信息对上述文本内容信息进行文字隐私信息检测。预设文字信息可以是预设的关键字、预设的关键词、或者预设格式的文字信息。
示例性地,文本内容信息中包括身份证号码,预设文字信息可以是身份证号码格式(即预设格式)的文字信息。终端设备在检测该文本内容信息时,基于身份证号码格式检测出该文本内容信息中的文字隐私信息为身份证号码。
在另一可能的实现方式中,终端设备可以基于实体识别模型对上述文本内容信息进行文字隐私信息检测。实体识别模型可以是双向长短期记忆条件随机场(bi-directional long short-term memory conditional random fields,BiLSTM-CRF)模型。
示例性地,文本内容信息中包括身份证号码,终端设备基于实体识别模型对该文字内容信息进行检测,得到该文本内容信息中的文字隐私信息为身份证号码。
应理解,该预设文字为上述的文字隐私位置信息对应的文字内容。
具体地,对第一图像进行处理可以是打码处理或者遮挡处理。例如,通过对第一图像中的昵称、标题、以及预设文字进行马赛克处理,或者采用卡通图像遮挡第一图像中的昵称、标题、以及预设文字。
结合第一方面,在第一方面的某些实现方式中,文本位置信息包括至少一个文本框的位置信息,昵称标题位置信息包括至少一个昵称框的位置信息和/或至少一个标题框的位置信息;利用文本位置信息对昵称标题位置信息进行修正,得到修正后的昵称标题位置信息,包括:基于至少一个昵称框的位置信息和/或至少一个标题框的位置信息、以及至少一个文本框的位置信息,判断至少一个文本框中是否存在第一文本框与目标框处于相同位置,目标框为至少一个昵称框中的第一昵称框和/或至少一个标题框中的第一标题框;若至少一个文本框中存在第一文本框与目标框处于相同位置,利用第一文本框的位置信息对目标框的位置信息进行修正,得到修正后的昵称标题位置信息。
通过判断第一文本框与目标框是否处于相同位置,在处于相同的情况下才利用第一文本框修正目标框,可以提高对目标框的修正精确度。
应理解,该文本框可以是第一图像中的昵称文本框、标题文本框、对话内容文本框、或背景图像的文本框中的一个或多个。可选地,文本框的形状可以为矩形,该文本框的位置信息可以通过矩形的四个顶点的坐标来表示。示例性地,以第一图像的左下顶点为原点,其中一个文本框的位置信息可以通过坐标组{(291,1180),(291,1150),(475,1150),(475,1180)}来表示。
还应理解,上述昵称标题位置信息包括至少一个昵称框的位置信息和/或至少一个标题框的位置信息,每个标题框的位置信息通过一组坐标点表示,每个昵称框的位置信息通过一组坐标点表示。
昵称标题位置信息包括第一图像中的昵称和/或标题在第一图像中的位置信息,具体有以下几种情况:
情况1:第一图像仅包括昵称信息。
情况2:第一图像仅包括标题信息。
情况3:第一图像同时包括标题信息和昵称信息。
结合第一方面,在第一方面的某些实现方式中,判断至少一个文本框中是否存在第一文本框与目标框处于相同位置,包括:判断至少一个文本框中的每个文本框与至少一个昵称框中的每一个昵称框是否存在重叠部分,和/或,判断每个文本框与至少一个标题框中的每一个标题框是否存在重叠部分;若至少一个文本框中存在第一文本框与目标框存在重叠部分,计算第一文本框与目标框之间的重叠面积;基于重叠面积和目标框的面积,判断第一文本框与目标框是否处于相同位置。
结合第一方面,在第一方面的某些实现方式中,基于重叠面积和目标框的面积,判断第一文本框与目标框是否处于相同位置,包括:在重叠面积除以目标框的面积之比大于或等于预设阈值的情况下,确定第一文本框与目标框处于相同位置。
通过使重叠面积除与目标框的面积之比大于或等于预设阈值,可以更加准确的判断出目标框和第一文本框是否处于相同位置,有利于后续提高对目标框的修正精确度。
结合第一方面,在第一方面的某些实现方式中,至少一个文本框中的每个文本框的位置信息通过一组坐标点表示,至少一个昵称框中的每个昵称框通过一组坐标点表示;判断至少一个文本框中的每个文本框与至少一个昵称框中的每一个昵称框是否存在重叠部分,包括:基于每个文本框的坐标点,计算每个文本框的表达式;基于每个昵称框的坐标点,计算每个昵称框的表达式;基于每个文本框的表达式和每个昵称框的表达式,判断每个文本框和每个昵称框是否存在交集区域;若至少一个文本框中存在第一文本框与至少一个昵称框中的第一昵称框存在交集区域,确定第一文本框与第一昵称框存在重叠部分,并将第一昵称框确定为目标框。
结合第一方面,在第一方面的某些实现方式中,至少一个文本框中的每个文本框的位置信息通过一组坐标点表示,至少一个标题框中的每个标题框的位置信息通过一组坐标点表示;判断每个文本框与至少一个标题框中的每一个标题框是否存在重叠部分,包括:基于每个文本框的坐标点,计算每个文本框的表达式;基于每个标题框的坐标点,计算每个标题框的表达式;基于每个文本框的表达式和每个标题框的表达式,判断每个文本框和每个标题框是否存在交集区域;若至少一个文本框中存在第一文本框与至少一个标题框中的第一标题框存在交集区域,确定第一文本框与第一标题框存在重叠部分,并将第一标题框确定为目标框。
结合第一方面,在第一方面的某些实现方式中,第一文本框的位置信息通过一组坐标点表示,目标框的位置信息通过一组坐标点表示,修正后的昵称标题位置信息通过一组坐标点表示;利用第一文本框的位置信息对目标框的位置信息进行修正,得到修正后的昵称标题位置信息,包括:基于第一文本框的坐标点,计算第一文本框的表达式;基于目标框的坐标点,计算目标框的表达式;基于第一文本框的表达式和目标框的表达式,计算第一文本框和目标框的并集区域的坐标点;基于并集区域的坐标点确定修正后的昵称标题位置信息。
结合第一方面,在第一方面的某些实现方式中,基于并集区域的坐标点确定修正后的昵称标题位置信息,包括:基于并集区域的坐标点,计算并集区域的最小外接矩形的坐标点;将最小外接矩形的坐标点确定为修正后的昵称标题位置信息。
结合第一方面,在第一方面的某些实现方式中,通过网络模型对第一图像进行区域预测,得到第一图像的昵称标题位置信息,包括:将第一图像输入网络模型中,得到第一图像中的昵称标题的像素信息;基于昵称标题的像素信息,计算第一图像的昵称标题位置信息。
可选地,上述网络模型可以是语义分割网络预测模型。终端设备将第一图像输入到语义分割网络预测模型中,得到该第一图像的掩膜图,掩膜图中包括背景像素信息和昵称标题像素信息。终端设备根据该掩膜图中的昵称标题像素信息,计算得到掩膜图中的昵称标题位置信息,并将该掩膜图中的昵称标题位置信息作为第一图像的昵称标题位置信息。
通过网络模型预测,提高对图像中的昵称标题位置的预测准确度。
结合第一方面,在第一方面的某些实现方式中,对第一图像进行处理之前,上述方法还包括:通过网络模型对第一图像进行区域预测,得到第一图像的头像位置信息;对第一图像进行处理,得到第二图像,包括:基于第一图像的头像位置信息,对第一图像进行处理,得到第二图像,第二图像不显示头像。
结合第一方面,在第一方面的某些实现方式中,通过网络模型对第一图像进行区域预测,得到第一图像的头像位置信息,包括:将第一图像输入网络模型中,得到第一图像中的头像的像素信息;基于头像的像素信息,计算第一图像的头像位置信息。
可选地,上述网络模型可以是语义分割网络预测模型。终端设备将第一图像输入语义分割网络预测模型中,得到该第一图像的掩膜图,掩膜图中包括背景像素信息和头像像素信息。终端设备根据该掩膜图中的头像像素信息,计算得到掩膜图中的头像位置信息,并将该掩膜图中的头像位置信息作为第一图像的头像位置信息。
通过网络模型预测,提高对图像中的头像位置的预测准确度。
结合第一方面,在第一方面的某些实现方式中,在通过网络模型对第一图像进行区域预测之前,上述方法还包括:获取样本图像集和样本图像集的标注信息,标注信息包括样本图像集中的每张图像包括头像、昵称、以及标题在对应图像中的实际位置信息;基于样本图像集和标注信息进行模型训练,得到网络模型。
结合第一方面,在第一方面的某些实现方式中,在检测到用户对第一图像开启自动打码操作之前,方上述法还包括:响应于用户对第一图像的编辑操作,显示第一界面,第一界面包括自动打码按钮;对第一图像进行文字识别,包括:响应于用户对自动打码按钮的点击操作,对第一图像进行文字识别。
通过在第一界面设置自动打码按钮,用户可以一键对第一图像中的隐私信息进行打码,简化了用户操作。
应理解,用户对第一图像的编辑操作,显示第一界面,可以是:终端设备响应于用户的截屏操作,显示第一图像的缩略图;用户点击第一图像的缩略图,终端设备响应于用户的点击操作,显示第一界面。用户对第一图像的编辑操作,显示第一界面,也可以是:终端设备响应于用户对第一图像的看图操作,显示包括第一图像的看图界面;用户在该看图界面选择“编辑”按钮,终端设备响应于用户的选择操作,显示第一界面。
结合第一方面,在第一方面的某些实现方式中,上述方法还包括:显示第二图像。
结合第一方面,在第一方面的某些实现方式中,显示第一界面,包括:在第一图像为预设界面的图像的情况下,响应于用户对第一图像的编辑操作,显示第一界面。
结合第一方面,在第一方面的某些实现方式中,预设界面为聊天界面。
结合第一方面,在第一方面的某些实现方式中,预设界面为预设应用的界面。
第二方面,提供了一种终端设备,用于执行上述第一方面中任一种可能的实现方式中的方法。具体地,该终端设备包括用于执行上述第一方面中任一种可能的实现方式中的方法的模块。
在一种设计中,该终端设备可以包括执行上述第一方面中所描述的方法/操作/步骤/动作所一一对应的模块,该模块可以是硬件电路,也可是软件,也可以是硬件电路结合软件实现。
第三方面,提供了一种终端设备,包括:处理器和存储器,该处理器用于读取存储器中存储的指令,以执行上述第一方面中的任一种可能实现方式中的方法。
可选地,处理器为一个或多个,存储器为一个或多个。
可选地,存储器可以与处理器集成在一起,或者存储器与处理器分离设置。
在具体实现过程中,存储器可以为非瞬时性(non-transitory)存储器,例如只读存储器(read only memory,ROM),其可以与处理器集成在同一块芯片上,也可以分别设置在不同的芯片上,本申请实施例对存储器的类型以及存储器与处理器的设置方式不做限定。
上述第三方面中的终端设备可以是一个芯片,该处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于该处理器之外,独立存在。
第四方面,提供了一种计算机程序产品,计算机程序产品包括:计算机程序(也可以称为代码,或指令),当计算机程序被运行时,使得计算机执行上述第一方面中的任一种可能实现方式中的方法。
第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序(也可以称为代码,或指令)当其在计算机上运行时,使得计算机执行上述第一方面中的任一种可能实现方式中的方法。
附图说明
图1是本申请实施例的终端设备的结构示意图;
图2是本申请实施例的终端设备的软件结构框图;
图3是手机分屏状态下初始图像和打码后的图像的对比示意图;
图4是手机不分屏状态下初始图像和打码后的图像的对比示意图;
图5是本申请实施例提供的一种图像处理方法的示意性流程图;
图6是本申请实施例提供的对截屏图像进行文字识别的图像变化示意图;
图7是本申请实施例提供的对截屏图像进行文字隐私信息检测的图像变化示意图;
图8是本申请实施例提供的对截屏图像进行区域预测的图像变化示意图;
图9是本申请实施例提供的对截屏图像中的昵称标题框进行修正的图像变化示意图;
图10是本申请实施例提供的对截屏图像进行处理的图像变化示意图;
图11是本申请实施例提供的文本框、昵称框、以及修正后的昵称框的位置关系示意图;
图12是本申请实施例提供的一种终端设备的示意性框图;
图13是本申请实施例提供的另一种终端设备的示意性框图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
需要说明的是,本申请中,“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。
此外,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a、b和c中的至少一项(个),可以表示:a,或b,或c,或a和b,或a和c,或b和c,或a、b和c,其中a,b,c可以是单个,也可以是多个。
在本申请实施例中,“当……时”、“在……的情况下”、“若”以及“如果”等描述均指在某种客观情况下设备会做出相应的处理,并非是限定时间,且也不要求设备在实现时一定要有判断的动作,也不意味着存在其它限定。
为了更好的理解本申请实施例中的终端设备,下面结合图1对本申请实施例的终端设备的硬件结构进行详细说明。
图1为本申请实施例提供的终端设备100的结构示意图。如图1所示,终端设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universalserial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对终端设备100的具体限定。在本申请另一些实施例中,终端设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现终端设备100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现终端设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现终端设备100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为终端设备100充电,也可以用于终端设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他终端设备,例如AR设备等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对终端设备100的结构限定。在本申请另一些实施例中,终端设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过终端设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为终端设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
终端设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。终端设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在终端设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在终端设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,终端设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得终端设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC ,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system ,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
终端设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,终端设备100可以包括1个或N个显示屏194,N为大于1的正整数。
终端设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP 用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,终端设备100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当终端设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。终端设备100可以支持一种或多种视频编解码器。这样,终端设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network ,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现终端设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展终端设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储终端设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行终端设备100的各种功能应用以及数据处理。
终端设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。终端设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当终端设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。终端设备100可以设置至少一个麦克风170C。在另一些实施例中,终端设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,终端设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动终端设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。终端设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,终端设备100根据压力传感器180A检测所述触摸操作强度。终端设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定终端设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定终端设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性地,当按下快门,陀螺仪传感器180B检测终端设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消终端设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,终端设备100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。终端设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当终端设备100是翻盖机时,终端设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测终端设备100在各个方向上(一般为三轴)加速度的大小。当终端设备100静止时可检测出重力的大小及方向。还可以用于识别终端设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。终端设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,终端设备100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。终端设备100通过发光二极管向外发射红外光。终端设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定终端设备100附近有物体。当检测到不充分的反射光时,终端设备100可以确定终端设备100附近没有物体。终端设备100可以利用接近光传感器180G检测用户手持终端设备100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。终端设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测终端设备100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。终端设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,终端设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,终端设备100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,终端设备100对电池142加热,以避免低温导致终端设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,终端设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控器件”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于终端设备100的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。终端设备100可以接收按键输入,产生与终端设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和终端设备100的接触和分离。终端设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,终端设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在终端设备100中,不能和终端设备100分离。终端设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android系统为例,示例性说明终端设备100的软件结构。
图2为本申请实施例的终端设备100的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(android runtime)和系统库,以及内核层。
应用程序层可以包括一系列应用程序包。如图2所示,应用程序包可以包括相机,日历,地图,电话,音乐,设置,邮箱,视频,以及截图等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。如图2所示,应用程序框架层可以包括窗口鉴别器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器,输入管理器,包管理器等。
窗口鉴别器用于存储标志位状态、建立快照以及鉴别用户的手势操作。快照可以用于存储信息,例如安装包名称等信息。鉴别用户的手势操作,具体地,可以为判断用户的手势操作是否与预设手势操作相同。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供终端设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,终端设备振动,指示灯闪烁等。
输入管理器用于获取和传递用户的多种输入信息。示例性地,可以接收用户的操作手势,并将操作手势发送至桌面启动器。
包管理器用于管理终端设备中安装的各种应用程序的安装包,例如音乐、视频、导航等应用程序的安装包。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(media libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如: MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图、图像渲染、合成和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层用于驱动硬件,使得硬件工作。内核层至少包含显示驱动,屏幕驱动、图像处理器(graphics processing unit,GPU)驱动、摄像头、以及传感器驱动等,本申请实施例对此不做限制。例如,屏幕驱动可以驱动屏幕亮屏或息屏。
本申请实施例的终端设备具体可以为手机、平板、电脑等,本申请实施例对此不作限定。
为便于理解,首先对本申请实施例所涉及的术语进行简单介绍。
1、截屏(screenshot或screen grab)
截屏也可以称为屏幕截取画面、屏幕截图。截屏是由终端设备截取的显示在屏幕或其他显示设备上的图像。通常截屏的操作方式可以有多种,以手机为例,例如,用户可以通过同时按住手机的音量减小键(“-”)和锁屏键对手机的显示界面截屏。再例如,用户也可以通过系统的截屏控件对手机的显示界面截屏。再例如,用户可以通过截屏软件对计算机的显示界面截屏。
2、光学字符识别(optical character recognition,OCR)
对文本资料的图片进行分析识别处理,获取文字及版面信息的过程。
3、实体识别(entity identification)
在一段文本中,将预先定义好的实体信息识别出来。实体信息例如可以是人名、邮箱、地址、电话、身份证号码、快递单号、航班号、网址。
4、自然语言理解(NLU,natural language understanding)
NLU是所有支持机器理解文本内容的方法模型或任务的总称。简单来说,使计算机理解自然语言(即人类语言文字)。
5、语义分割
语义分割是指将图像中的目标对象和其他区域分离的方法。
6、掩膜(mask)
将图像进行语义分割可以得到图像的掩膜图。在图像处理领域,将图像中的目标对象所在的区域赋值,使得该区域与图像中的其他区域的赋值不同,这样使得目标对象能够与图像中的其他区域区分,便于后续对图像的渲染处理。目标对象可以是指图像中的图像、文字等。
随着社交网络的发展,很多用户喜欢将终端设备的图像分享给其他用户或者分享至社交网络。用户分享的图像中可能会包含一些用户的隐私信息,如,头像、昵称、联系方式、银行账号或者身份证号等信息。
在分享图像时,若用户不想让其他用户知道的图像中的某些隐私信息,用户可以在图像上对这些隐私信息逐个进行遮挡处理,以防止隐私信息泄露。遮挡处理例如可以是使用马赛克或卡通头像对图像中的隐私信息进行遮挡,遮挡处理也可以称为打码处理。然而,用户在使用马赛克或卡通头像等方式遮挡图像中的隐私信息时,需要人工选择马赛克或卡通头像遮挡的位置。
上述方法中用户的操作较为麻烦,相关技术中提供一些图像处理方法以解决上述问题,具体为:在截屏图像的编辑页面设置一键打码按钮,用户点击该按钮,终端设备响应于用户的点击操作,自动对截屏图像中的隐私信息进行打码,显示打码后的图像。具体内部实现过程为:终端设备通过OCR文字识别得到图像中的文字隐私信息,通过像素匹配的方法得到图像中的头像隐私信息。接着,对文字隐私信息、标题、图像隐私信息进行遮挡处理,以保护图像中的全部隐私信息。
然而,上述相关技术提供的图像处理方法,终端设备对部分隐私信息(例如昵称)可能无法识别出,导致终端设备对该标题和该部分文字隐私信息遮挡遗漏,造成隐私信息的暴露。
下面以手机为例对上述相关技术进行介绍。
示例性地,图3示出了手机分屏状态下初始图像和打码后的图像的对比示意图。图3的a为初始图像,该初始图像中包括两个聊天窗口,左边聊天窗口为A应用程序的聊天界面,左边聊天窗口顶部中间显示标题“XXX集团(500)”,聊天窗口中间显示用户1和用户2的对话内容、用户1的头像、用户1的昵称“上海-23pro-小庆”、用户2的头像、以及用户2的昵称“成都-23pro-小王。右边聊天窗口显示B应用程序的聊天界面。右边聊天窗口顶部中间显示标题“三年级群聊(58)”,聊天窗口中间显示用户3和用户4的对话内容、用户3的头像、用户3的昵称“小红爸爸-张三”、用户4的头像、以及用户4的昵称“小明爸爸-李四。在终端设备对该图像打码后,打码后的图像如图3的b所示。图3的b是对图3的a中的部分区域(图3的b中所示的阴影区域)遮挡之后的图像。
示例性地,图4示出了在手机不分屏状态下原图像和打码图像的对比示意图。图4的a为初始图像,该初始图像中包括一个聊天窗口,该聊天窗口顶部中间显示标题“XXX集团(500)”,聊天窗口中间显示用户1的头像、用户1的昵称“上海-23pro-小庆”、以及用户1的聊天内容“请大家将钱转入账户6227 XXX 220,如有疑问请致电,联系电话:177XXXX3321”,用户2的头像、用户2的昵称“成都-23pro-小王”、以及用户2的聊天内容“为什么呀”,用户3的头像、用户3的昵称“北京-23pro-小杨”、以及用户3的聊天内容“啊,不要”。在终端设备对该图像打码后,打码后的图像如图4的b所示。图4的b是对图4的a中的部分区域(图4的b中所示的阴影区域)遮挡之后的图像。
可以看出,上述图3中的左边聊天窗口的标题“XXX集团(500)”、右边聊天窗口的标题“三年级群聊(58)”、右边聊天窗口中用户3的昵称“小红爸爸-张三”、以及用户4的昵称“小明爸爸-李四”等隐私信息未被遮挡,图4中的用户1至用户3的头像,用户2的昵称“成都-23pro-小王等隐私信息未被遮挡。即通过相关技术提供的图像处理方法,可能会导致终端设备对部分隐私信息遮挡遗漏,造成隐私信息的暴露。
为此,本申请实施例提供了一种图像处理方法和终端设备,在检测到用户对截屏图像开启自动打码操作的情况下,通过对截屏图像中的文字信息进行文字识别得到文本位置信息和文本内容信息,对文本内容信息文字隐私信息检测,得到文字隐私位置信息;通过网络模型对截屏图像进行区域预测,得到截屏图像中的昵称标题位置信息,利用文本位置信息对昵称标题位置信息进行修正,得到修正后的昵称标题位置信息,最后,基于修正后的昵称标题位置信息和文字信息位置信息截屏图像中的昵称、标题、以及预设文字进行遮挡处理。这样,通过位置修正,得到的昵称标题位置信息更加准确,有利于提高对图像中的隐私信息遮挡的精确度,避免用户隐私信息的泄露,进而提高用户体验。
下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立实现,也可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图5是本申请实施例提供的一种图像处理方法500的示意性流程图。该方法500所涉及的终端设备的硬件结构可以如图1所示,软件结构可以如图2所示。
S501,在检测到用户对第一图像开启自动打码操作的情况下,终端设备对第一图像进行文字识别,得到第一图像的文本位置信息和文本内容信息。
具体地,该文本位置信息包括第一图像中的文本在第一图像中的位置信息。终端设备可以采用OCR技术识别第一图像中的文字信息,在识别出文字信息之后,记录该文字信息在第一图像中的位置以及该文字信息对应的文本内容。
应理解,该文本位置信息包括至少一个文本框的位置信息。每个文本框的位置信息可以通过一组坐标点表示。该文本框可以是第一图像中的昵称文本框、标题文本框、对话内容文本框、或背景图像的文本框中的一个或多个。
可选地,文本框的形状可以为矩形,该文本框的位置信息可以通过矩形的四个顶点的坐标来表示。示例性地,以第一图像的左下顶点为原点,其中一个文本框的位置信息可以通过坐标组{(291,1180),(291,1150),(475,1150),(475,1180)}来表示。
S502,终端设备对文本内容信息进行文字隐私信息检测,得到至少一个文字隐私信息位置。
应理解,第一图像中可能包括多个文本内容信息,一个文本框中的文字信息为一个文本内容信息。文字隐私信息可以包括邮箱、地址、电话号码、身份证号码、快递单号、航班号、网址等隐私信息。
终端设备可以通过多种方式对文本内容信息进行文字隐私信息检测。
在一种可能的实现方式中,终端设备可以基于预设文字信息对上述文本内容信息进行文字隐私信息检测。预设文字信息可以是预设的关键字、预设的关键词、或者预设格式的文字信息。
示例性地,文本内容信息中包括身份证号码,预设文字信息可以是身份证号码格式(即预设格式)的文字信息。终端设备在检测该文本内容信息时,基于身份证号码格式检测出该文本内容信息中的文字隐私信息为身份证号码。
在另一可能的实现方式中,终端设备可以基于实体识别模型对上述文本内容信息进行文字隐私信息检测。实体识别模型可以是双向长短期记忆条件随机场(bi-directional long short-term memory conditional random fields,BiLSTM-CRF)模型。
示例性地,文本内容信息中包括身份证号码,终端设备基于实体识别模型对该文字内容信息进行检测,得到该文本内容信息中的文字隐私信息为身份证号码。
S503,终端设备通过网络模型对第一图像进行区域预测,得到第一图像的昵称标题位置信息,昵称标题位置信息包括第一图像中的昵称和/或标题在第一图像中的位置信息。
应理解,上述昵称标题位置信息包括至少一个昵称框的位置信息和/或至少一个标题框的位置信息,每个标题框的位置信息通过一组坐标点表示,每个昵称框的位置信息通过一组坐标点表示。
昵称标题位置信息包括第一图像中的昵称和/或标题在第一图像中的位置信息,具体有以下几种情况:
情况1:第一图像仅包括昵称信息。
情况2:第一图像仅包括标题信息。
情况3:第一图像同时包括标题信息和昵称信息。
可选地,终端设备可以将第一图像输入网络模型中,得到第一图像中的头像的昵称标题像素信息,并基于该昵称标题像素信息,计算第一图像的昵称标题位置信息。
可选地,区域预测也可以称为版面分割。上述网络模型可以是语义分割网络预测模型。终端设备将第一图像输入到语义分割网络预测模型中,得到该第一图像的掩膜图,掩膜图中包括背景像素信息和昵称标题像素信息。终端设备根据该掩膜图中的昵称标题像素信息,计算得到掩膜图中的昵称标题位置信息,并将该掩膜图中的昵称标题位置信息作为第一图像的昵称标题位置信息。
S504,终端设备利用文本位置信息对昵称标题位置信息进行修正,得到修正后的昵称标题位置信息。
可选地,在上述至少一个文本框中存在第一文本框与目标框处于相同位置的情况下,终端设备基于第一文本框的坐标点,计算第一文本框的表达式;基于目标框的坐标点,计算目标框的表达式;基于第一文本框的表达式和目标框的表达式,计算第一文本框和目标框的并集区域的坐标点;将该并集区域的坐标点确定为修正后的昵称标题位置信息。该目标框为至少一个昵称框中的第一昵称框和/或至少一个标题框中的第一标题框。
可选地,第一文本框上的多个离散点的坐标可以通过第一文本框的表达式得到,目标框上的多个离散点的坐标可以通过目标框的表达式得到。终端设备基于第一文本框的坐标点,计算第一文本框区域的表达式,第一文本框内的点的坐标可以通过第一文本框区域的表达式得到。基于目标框的坐标点,终端设备计算目标框对应的区域的表达式,目标框内点的坐标可以通过目标框区域的表达式得到。示例性地,基于第一文本框的表达式和目标框的表达式,终端设备计算第一文本框和目标框的并集区域的坐标点,具体可以为:终端设备通过利用GetCrossPoint函数计算第一文本框和目标框的交点坐标。终端设备再通过IsPointInpolygon函数计算得到:包含在第一文本框上且不包含在目标框内的点的坐标和包含在目标框上且不包含第一文本框内的点的坐标。最后,终端设备通过ClockwiseSortPoints函数对交点坐标、包含在第一文本框上且不包含在目标框内的点的坐标、以及包含在目标框上且不包含第一文本框内的点的坐标进行顺时针或逆时针排序,得到第一文本框和目标框的并集区域的坐标点。
可选地,终端设备基于并集区域的坐标点,计算该并集区域的最小外接矩形的坐标点;将该最小外接矩形的坐标点确定为修正后的昵称标题位置信息。
可选地,终端设备可以利用minAreaRect函数计算该并集区域的最小外接矩形的坐标点。
S505,终端设备基于修正后的昵称标题位置信息和至少一个文字隐私信息位置,对第一图像进行处理,得到第二图像,第二图像不显示昵称、标题、以及预设文字。
应理解,该预设文字为上述的文字隐私位置信息对应的文字内容。
具体地,终端设备对第一图像进行处理可以是打码处理或者遮挡处理。例如,通过对第一图像中的昵称、标题、以及预设文字进行马赛克处理,或者采用卡通图像遮挡第一图像中的昵称、标题、以及预设文字。
在一种可能的实现方式中,终端设备可以显示第二图像供用户查看,示例性地,终端设备对第一图像进行处理,得到打码的图层。最后通过终端设备的表面管理器将打码的图层与第一图像的图层进行融合,在终端设备显示第二图像。其中,表面管理器可以为如图2所示的软件架构中系统库的表面管理器。
在另一种可能的实现方式中,终端设备可以将处理得到的第二图像发送至其他设备,本申请实施例对终端设备是否显示第二图像不做限定。
本申请实施例提供的图像处理方法,通过在检测到用户对第一图像开启自动打码操作的情况下,对第一图像中的文字信息进行文字识别得到文本位置信息和文本内容信息,对文本内容信息文字隐私信息检测,得到文字隐私位置信息;通过网络模型对图像进行区域预测,得到第一图像中的昵称标题位置信息,利用文本位置信息对昵称标题位置信息进行修正,得到修正后的昵称标题位置信息,最后,基于修正后的昵称标题位置信息和文字信息位置信息,对第一图像进行处理,使处理后的图像不显示昵称、标题、以及预设文字。这样,通过位置修正得到的昵称标题位置信息更加准确,有利于提高对图像中的隐私信息遮挡的精确度,避免用户隐私信息的泄露,进而提高用户体验。
作为一个可选的实施例,上述S504,终端设备利用文本位置信息对昵称标题位置信息进行修正,得到修正后的昵称标题位置信息,包括:基于至少一个昵称框的位置信息和/或至少一个标题框的位置信息、以及至少一个文本框的位置信息,判断至少一个文本框中是否存在第一文本框与目标框处于相同位置,目标框为至少一个昵称框中的第一昵称框和/或至少一个标题框中的第一标题框;若至少一个文本框中存在第一文本框与目标框处于相同位置,利用第一文本框的位置信息对目标框的位置信息进行修正,得到修正后的昵称标题位置信息。
通过判断第一文本框与目标框是否处于相同位置,在处于相同的情况下才利用第一文本框修正目标框,可以提高对目标框的修正精确度。
可选地,基于上述S503中的三种情况,终端设备判断至少一个文本框中是否存在第一文本框与目标框处于相同位置,对应包括有三种情况:
情况1:第一图像仅包括至少一个昵称框。例如,第一图像中包括至少一个对话框,一个对话框对应有一个昵称信息。
终端设备判断至少一个文本框中的每个文本框与至少一个昵称框中的每一个昵称框是否存在重叠部分,若至少一个文本框中存在第一文本框与第一昵称框存在重叠部分,计算第一文本框与第一昵称框之间的重叠面积;基于重叠面积和第一昵称框的面积,终端设备判断第一文本框与目标框是否处于相同位置。
可选地,每个文本框的位置信息通过一组坐标点表示,基于每个文本框的坐标点,终端设备计算每个文本框的表达式。每个昵称框通过一组坐标点表示,基于每个昵称框的坐标点,终端设备计算每个昵称框的表达式。基于每个文本框的表达式和每个昵称框的表达式,终端设备判断每个文本框和每个昵称框是否存在交集区域。若至少一个文本框中存在第一文本框与至少一个昵称框中的第一昵称框存在交集区域,终端设备确定第一文本框与第一昵称框存在重叠部分。
可选地,每个文本框上的多个离散点的坐标可以通过每个文本框的表达式得到,每个昵称框上的多个离散点的坐标可以通过每个昵称框的表达式得到。基于每个文本框的表达式和每个昵称框的表达式,终端设备判断每个文本框和每个昵称框是否存在交集区域,具体可以为:终端设备通过利用GetCrossPoint函数计算每一个文本框和每一个昵称框的交点坐标。若文本框和昵称框存在交点坐标,终端设备确定存在交点坐标的文本框和昵称框存在交集区域。
可选地,终端设备基于每个文本框的坐标点,计算每个文本框区域的表达式,每个文本框内的点的坐标可以通过每个文本框区域的表达式得到。终端设备基于每个昵称框的坐标点,计算每个昵称框区域的表达式,每个昵称框区域内的点的坐标可以通过每个昵称框区域的表达式得到。终端设备计算第一文本框与第一昵称框之间的重叠面积,包括:终端设备通过IsPointInpolygon函数计算得到:包含在第一文本框上且包含在第一昵称框内的点和包含在第一昵称框上且包含第一文本框内的点。最后,终端设备通过ClockwiseSortPoints函数对上述交点坐标、包含在第一文本框上且包含在第一昵称框内的点的坐标、以及包含在第一昵称框上且包含第一文本框内的点进行顺时针或逆时针排序,得到第一文本框和第一昵称框的交集区域的坐标点。终端设备将该交集区域的坐标点围成的面积确定为第一文本框与第一昵称框的重叠面积。
可选地,在重叠面积除以目标框(第一昵称框)的面积之比大于或等于预设阈值的情况下,终端设备确定第一文本框与目标框处于相同位置。否则,第一文本框与目标框处于不同位置。
通过使重叠面积除与目标框的面积之比大于或等于预设阈值,可以更加准确的判断出目标框和第一文本框是否处于相同位置,有利于后续提高对目标框的修正精确度。
情况2:第一图像仅包括至少一个标题框。例如,第一图像中包括至少一个聊天窗口,一个聊天窗口对应有一个标题。
终端设备判断至少一个文本框中的每个文本框与至少一个标题框中的每一个标题框是否存在重叠部分,若至少一个文本框中存在第一文本框与目标框存在重叠部分,计算第一文本框与目标框之间的重叠面积。终端设备基于重叠面积和目标框的面积,判断第一文本框与目标框是否处于相同位置。
可选地,每个文本框的位置信息通过一组坐标点表示,基于每个文本框的坐标点,终端设备计算每个文本框的表达式。每个标题框通过一组坐标点表示,基于每个标题框的坐标点,终端设备计算每个标题框的表达式。基于每个文本框的表达式和每个标题框的表达式,终端设备判断每个文本框和每个标题框是否存在交集区域。若至少一个文本框中存在第一文本框与至少一个标题框中的第一标题框存在交集区域,终端设备确定第一文本框与第一标题框存在重叠部分。
应理解,终端设备判断至少一个文本框中的每个文本框与至少一个标题框中的每一个标题框是否存在重叠部分的方式与上述终端设备判断至少一个文本框中的每个文本框与至少一个昵称框中的每一个昵称框是否存在重叠部分的方式相似,此处不再赘述。
还应理解,终端设备计算第一文本框与第一昵称框之间的重叠面积的方法与终端设备计算第一文本框与第一标题框之间的重叠面积的方法相似,此处不再赘述。
可选地,在重叠面积除以目标框(第一标题框)的面积之比大于或等于预设阈值的情况下,确定第一文本框与目标框处于相同位置。否则,第一文本框与目标框处于不同位置。
情况3:第一图像中同时包括至少一个标题框和至少一个昵称框。
在一种可能的情况下,第一文本框同时与第一标题框和第一昵称框存在重叠部分。终端设备判断至少一个文本框中的每个文本框与至少一个标题框中的每一个标题框是否存在重叠部分。终端设备判断至少一个文本框中的每个文本框与至少一个昵称框中的每一个昵称框是否存在重叠部分。若至少一个文本框中存在第一文本框与第一标题框存在重叠部分,至少一个文本框中存在第一文本框与第一昵称框存在重叠部分,终端设备计算第一文本框与第一标题框之间的重叠面积和第一文本框与第一昵称框之间的重叠面积。终端设备基于第一文本框与第一标题框之间的重叠面积和第一标题框的面积判断第一文本框与第一文本框是否处于相同位置,基于第一文本框与第一昵称框之间的重叠面积和第一昵称框的面积判断第一文本框与第一昵称框是否处于相同位置。
应理解,终端设备判断至少一个文本框中的每个文本框与至少一个标题框中的每一个标题框是否存在重叠部分的方式、终端设备判断至少一个文本框中的每个文本框与至少一个昵称框中的每一个昵称框是否存在重叠部分的方式与上述终端设备判断至少一个文本框中的每个文本框与至少一个昵称框中的每一个昵称框是否存在重叠部分的方式相似,此处不再赘述。
还应理解,终端设备计算第一文本框与第一标题框之间的重叠面积和第一文本框与第一昵称框之间的重叠面积的方法,与终端设备计算第一文本框与第一标题框之间的重叠面积的方法相似,此处不再赘述。
在这种情况下,目标框可以包括第一文本框和第一昵称框。
可选地,终端设备可以计算第一文本框与第一昵称框之间的重叠面积除以第一昵称框的面积得到第一面积比值,计算第一文本框与第一标题框之间的重叠面积除以第一标题框的面积得到第二面积比值。在第一面积比值和第二面积比值均大于或等于预设阈值的情况下,终端设备比较第一面积比值和第二面积比值。在第一面积比值大于第二面积比值的情况下,终端设备可以确定第一文本框与第一昵称框处于相同位置,否则,确定第一文本框与第一标题框处于相同位置。在第一面积比值大于或等于预设阈值、且第二面积比值小于预设阈值的情况下,终端设备确定第一文本框与第一昵称框处于相同位置。在第二面积比值大于或等于预设阈值、且第一面积比值小于预设阈值的情况下,终端设备确定第一文本框与第一标题框处于相同位置。在第一面积比值和第二面积比值均小于预设阈值的情况下,终端设备确定第一文本框与目标框(第一标题框和第一昵称框)均处于不同位置。
作为一个可选的实施例,上述方法还包括:终端设备通过网络模型对第一图像进行区域预测,得到第一图像的头像位置信息;基于第一图像的头像位置信息,对第一图像进行处理,得到第二图像,第二图像不显示头像。
通过网络模型预测,可以提高对图像中的头像位置的预测准确度。
可选地,上述方法还包括:终端设备将第一图像输入网络模型中,得到第一图像中的头像的像素信息;基于头像的像素信息,计算第一图像的头像位置信息。
可选地,上述网络模型可以是语义分割网络预测模型。终端设备将第一图像输入语义分割网络预测模型中,得到该第一图像的掩膜图,掩膜图中包括背景像素信息和头像像素信息。终端设备根据该掩膜图中的头像像素信息,计算得到掩膜图中的头像位置信息,并将该掩膜图中的头像位置信息作为第一图像的头像位置信息。
作为一个可选的实施例,上述方法还包括:终端设备获取样本图像集和样本图像集的标注信息,标注信息包括样本图像集中的每张图像包括头像、昵称、以及标题在对应图像中的实际位置信息;基于样本图像集和标注信息进行模型训练,得到网络模型。
应理解,上述样本图像集中的图像可以是在网络上下载的或者是在终端设备的截屏得到的。在获得样本图像集中的图像后,对每张图像上头像、昵称、以及标题在对应图像中的实际位置信息的位置进行人工标注,得到样本图像集的标注信息。
可选地,网络模型的训练过程可以为:将样本图像集作为网络模型的输入,得到样本图像集中每张图像的预测信息,该预测信息包括头像、昵称、以及标题的预测位置信息;比较实际位置信息和预测位置信息。在实际位置信息和预测位置信息的差值大于或等于预设阈值的情况下,继续基于样本图像集对网络模型进行上述训练过程,直至实际位置信息和预测位置信息的差值小于预设阈值的情况下,得到上述网络模型。
上述网络模型可以是终端设备自己训练的,也可以是其他设备(例如服务器)训练好发送至终端设备的,还可以是终端设备在使用时从服务器获取的,本申请实施例对此不作限定。
作为一个可选的实施例,上述方法还包括:响应于用户对第一图像的编辑操作,终端设备显示第一界面,该第一界面显示自动打码按钮;在用户点击该自动打码的按钮后,终端设备响应于用户对自动打码按钮的点击操作,显示第二图像。
通过在第一界面设置自动打码按钮,用户可以一键对第一图像中的隐私信息进行打码,简化了用户操作。
应理解,用户对第一图像的编辑操作,终端设备显示第一界面,可以是:终端设备响应于用户的截屏操作,显示第一图像的缩略图;用户点击第一图像的缩略图,终端设备响应于用户的点击操作,显示第一界面。用户对第一图像的编辑操作,终端设备显示第一界面,也可以是:终端设备响应于用户对第一图像的看图操作,显示包括第一图像的看图界面。用户在该看图界面选择“编辑”按钮,响应于用户的选择操作,终端设备显示第一界面。
可选地,上述方法还包括:在第一图像为预设界面的图像的情况下,响应于用户对第一图像的编辑操作,终端设备显示第一界面。
可选地,在用户对第一图像的编辑之前,上述方法还包括:终端设备响应于用户的截屏操作,获取截屏界面对应的应用的应用标识信息和该应用所处的界面信息,并将该应用标识信息和该应用所处的界面信息作为该截屏得到的图像(也可以称为截屏图像,也即上述第一图像)的场景标签保存在终端设备中。应用标识信息可以是应用ID或者应用包名,应用所处的界面信息可以包括聊天界面和非聊天界面。聊天界面可以包括群聊界面和私聊界面,本申请对此不做限定。示例性地,场景标签中的应用标识信息可以为“weixin.com”,应用所处的界面信息可以为“聊天界面”,该场景标签表示该第一图像是来自微信的聊天界面。响应于用户对第一图像的编辑操作,终端设备显示第一界面,包括:终端设备响应于用户对截屏图像的编辑操作,基于该截屏图像的场景标签信息判断截屏图像是否为预设界面的图像。在该截屏图像为预设界面的情况下,终端设备显示第一界面。
可选地,该预设界面可以为聊天界面。上述该预设界面也可以为预设应用的界面,该预设应用可以为具备聊天功能的应用。
在一种可能的实现方式中,用户在终端设备的屏幕上进行三指滑动操作,终端设备的窗口鉴别器鉴别用户手势,在该手势与截屏手势相同的情况下,通过截图功能对终端设备的当前界面进行截图。终端设备响应于用户的截图操作,显示第一图像的缩略图。用户点击第一图像的缩略图,终端设备响应于用户的点击操作,判断该第一界面为预设应用的预设界面,终端设备通过视图系统在第一界面显示自动打码按钮,用户点击该自动打码按钮后,终端设备对第一图像进行像素模糊处理,得到打码的图层,最后通过表面管理器将打码的图层与第一图像的图层进行融合,在终端设备显示第二图像。其中,截图、窗口鉴别器、视图系统、以及表面管理器可以如图2所示。
下面,以第一图像是手机中的聊天界面的截屏图像为例,结合图6至图10对本申请的图像处理方法进行详细描述。
图6示出了对截屏图像进行文本识别的图像变化示意图。图6的a为初始图像(即上述第一图像),该初始图像中包括一个聊天窗口,该聊天窗口顶部中间显示标题“XXX集团(500)”。聊天窗口区域上方居中显示时间标签“昨天11:31”。聊天窗口区域中间显示用户1的头像、用户1的昵称“上海-23pro-小庆”、以及用户1的聊天内容“请大家将钱转入账户6227 XXX 220,如有疑问请致电,联系电话:177XXXX3321”。用户2的头像、用户2的昵称“成都-23pro-小王”、以及用户2的聊天内容“为什么呀”。用户3的头像、用户3的昵称“北京-23pro-小杨”、以及用户3的聊天内容“啊,不要”。聊天窗口区域右下方显示“加油同事”的聊天背景文字。终端设备对该初始图像进行文字检测,文本识别结果如图6的b所示。图6的b和图6的a内容相同,图6的b中,包括多个虚线框,多个虚线框为文本识别得到的多个文本框,一个虚线框的四个顶点的坐标为该虚线框对应文本的文本位置信息,一个虚线框所包围的文字即为该虚线框对应文本的文本内容信息。
图7示出了对截屏图像进行文字隐私信息检测的图像变化示意图。图7的a是文本识别结果的示意图(即上述的图6的b)。终端设备基于该文本识别结果对进行文字隐私信息检测,文字隐私信息检测结果如图7的b所示。图7的b和图7的a内容相同,图7的b中,文字“6227 XXX 220”和“177XXXX3321”分别通过虚线框包围,即为检测出的文字隐私信息。一个虚线框的四个顶点的坐标为该虚线框对应文本的文字隐私位置信息。
图8示出了对截屏图像进行区域预测的图像变化示意图。图8的a为初始图像(即上述的图6的a)。将该初始图像输入到网络模型中,得到的掩膜图如图8的b所示。图8的b中,矩形为昵称或标题区域,正方形为头像区域。基于该掩膜图确定的昵称标题区域和头像区域在初始图像中的显示如图8的c所示(也即初始图像区域预测结果示意)。在图8的c中,虚线框即为通过掩膜图确定的昵称标题区域和头像区域。其中,确定出的头像区域包括:用户1的头像、用户2的头像、以及用户3的头像对应的区域。确定出的标题区域包括:“XXX集团(500)”标题文字对应的区域。确定出的昵称区域包括:用户1的昵称“上海-23pro-小庆”、用户2的昵称“成都-23pro-小王”、以及用户3的昵称“北京-23pro-”的文字对应的区域。
可以看出,对用户3的昵称中“小杨”对应的区域未被预测出来。
图9示出了对截屏图像中的昵称标题框进行区域修正变化示意图。图9的a是文字识别结果的示意图(即上述的图6的b)。图9的b是初始图像区域预测结果的示意图(即上述的图8的c)。终端设备基于文字识别结果修正区域预测结果,得到图9的c。在图9的c中,修正后的昵称标题区域和头像区域为虚线框所包围的区域。具体包括:用户1的头像、用户2的头像、以及用户3的头像对应的头像区域。 “XXX集团(500)”标题文字对应的标题区域。用户1的昵称“上海-23pro-小庆”、用户2的昵称“成都-23pro-小王”、以及用户3的昵称“北京-23pro-小杨”的文字对应的昵称区域。
可以看出,通过区域修正后,用户3的昵称“北京-23pro-小杨”的文字对应的区域被修正完整。
图10示出了对截屏图像进行处理的图像变化示意图。图10的a是文字隐私信息检测结果的示意图(即上述的图7的b)。图10的b是昵称标题区域修正结果的示意图(即上述的图9的c)。终端设备基于文字隐私信息检测结果、昵称标题区域修正结果、头像区域测结果对截屏图像进行打码处理后,得到图10的c。在图10的c中,阴影部分即为打码区域。
下面对本申请提供的图像处理方法的完整过程进行描述。
该方法包括下列步骤:
步骤一:终端设备获取截屏图像。
该截屏图像可以是用户在终端设备上通过截屏操作得到的,也可以是用户在终端设备上进行截屏操作后保存在终端设备中的,本申请对此不做限定。
步骤二:终端设备对截屏图像进行文字识别,得到文本内容和文本框的位置。
具体地,文本框可以是包围多行文本的线条框,也可以是包围一行文本的线条框。文本框的位置可以通过文本框上的点的坐标来表示。例如,文本框可以是四边形,该文本框可以通过四边形的四个顶点的坐标来表示。文本框可以是图中的虚线框。文本内容可以是文本框中的文字内容,例如,文本框内容可以是图6的b所示的虚线框中的“加油同事”或虚线框中的“XXX集团(500)”。
步骤三:终端设备对文本内容进行文字隐私信息检测,得到文字隐私位置信息。
应理解,文字隐私信息可以包括邮箱、地址、电话、身份证号码、快递单号、航班号、网址等信息。
步骤四:终端设备对该截屏图像进行版面分割,得到昵称标题框的位置和头像框的位置。其中,昵称标题框对应为截屏图像中的昵称框和/或标题框。
具体地,终端设备将该截屏图像输入到预设的语义分割预测模型中,得到该截屏图像的掩膜(mask)图。该掩膜图包括昵称标题像素信息、头像像素信息、以及背景像素信息。终端设备基于昵称标题像素信息确定昵称标题框的位置,基于头像像素信息确定头像框的位置。昵称标题框的位置可以通过昵称标题框上的点的坐标来表示。头像框的位置可以通过头像框上的点的坐标来表示。
步骤五:终端设备基于上述文本框的位置,对昵称标题框的位置进行修正,得到修正后的昵称标题框的位置。
可选地,上述截屏图像中包括多个文本框,多个文本框构成文本框集合。上述截屏图像可能包括多个昵称框和/或标题框,该多个昵称框和/或标题框构成昵称标题框集合。终端设备遍历比较文本框集合中的每一个文本框的所有点的坐标和昵称标题框集合中每一个昵称框或标题框的所有点的坐标。在文本框集合中存在第一文本框与目标框存在相同坐标点的情况下,终端设备第一文本框和目标框相交。该目标框为昵称框标题框集合中的第一昵称框和/或第一标题框。接着,终端设备计算目标框与第一文本框的交点、包含在目标框上且位于在第一文本框内的点、以及包含在第一文本框上且位于目标框内的点。接着,终端设备将该交点、包含在目标框上且位于在第一文本框内的点、以及包含在第一文本框上且位于目标框内的点,围城一个封闭区域(也可以称为第一文本框和目标框的交集区域),将该封闭区域的面积作为目标框和第一文本框的相交面积。接着,终端设备计算该相交面积除以第一文本框的面积的比值,在该比值大于预设阈值的情况下,终端设备目标框和第一文本框为确定处于相同位置。接着,终端设备计算包含在目标框上且不在第一文本框内的点、包含在第一文本框上且不在目标框内的点。接着,终端设备将上述交点、包含在目标框上且不在第一文本框内的点、以及包含在第一文本框上且不在目标框内的点围城一个封闭区域(也可以称为第一文本框和目标框的并集区域),将该封闭区域的最小外接矩形的坐标点作为修正后的昵称标题的位置信息。
示例性地,截图图像中的文本框集合为A集合,A集合的元素包括文本框1、文本框2、文本框3、以及文本框4。文本框1的位置可以通过坐标为{(200,500),(200,550),(600,550),(600,500)}表示,文本框2的位置可以通过坐标为{(291,1150),(291,1180),(475,1180),(475,1150)}表示,文本框3的位置可以通过坐标为{(290,300),(291,350),(470,350),(470,300)}表示,文本框4的位置可以通过坐标为{(291,700),(291,750),(475,750),(475,700)}表示。截图图像中的昵称标题框集合为B集合,B集合的元素包括昵称框1、昵称框2、以及标题框1。昵称框1的位置可以通过坐标为{(300,498),(300,545),(607,545),(607,498)}表示,昵称框2的位置可以通过坐标为{(290,800),(290,850),(475,850),(475,800)}表示,标题框1的位置可以通过坐标为{(291,1300),(291,1330),(475,1330),(475,1300)}表示。通过文本框1的位置坐标信息可以确定出文本框1上多个离散点的坐标。同理,通过文本框2~4的位置坐标信息可以确定出文本框2~4上多个离散点的坐标。通过昵称框1、昵称框2、以及标题框1的位置坐标可以确定出昵称框1、昵称框2、以及标题框1上多个离散点的坐标。遍历比较A集合的元素和B集合的元素。确定文本框1和昵称框1处于相同位置,不存在与文本框2~4处于相同位置的昵称框和标题框。通过文本框1的位置信息修正昵称框1的位置信息,得到修正后的昵称框1的位置信息,即为修正后的昵称标题框的位置信息。
图11示出了文本框、昵称框、以及修正后的昵称框的位置关系,如图11所示,左上的矩形框为文本框1,文本框1的位置信息可以通过坐标{A(200,500),B(200,550),C(600,550),D(600,500)}来表示。右下的矩形框为昵称框1,昵称框1的位置信息可以通过坐标{E(300,498),F(300,545),G(607,545),H(607,498)}来表示。粗线矩形框为修正后的昵称框1,修正后的昵称框1的位置坐标可以通过坐标{Q(200,498),B(200,550),P(607,550),H(607,498)}来表示,也即修正后的昵称标题框。
步骤六:终端设备基于文字隐私位置信息、修正后的昵称标题位置信息、头像位置信息、以及对截屏图像中的预设文字、昵称、标题、以及头像进行打码处理。
上文结合图3至图11,详细描述了本申请实施例的图像处理方法,下面将结合图12和图13,详细描述本申请实施例的终端设备。
图12是本申请实施例提供的终端设备1200,该终端设备1200包括:处理模块1201。该终端设备1200用于实现上述方法中终端设备对应的步骤。
处理模块1201,用于对第一图像进行文字识别,得到第一图像的文本位置信息和文本内容信息,文本位置信息包括第一图像中的文本在第一图像中的位置信息;用于对文本内容信息进行文字隐私信息检测,得到至少一个文字隐私位置信息;用于通过网络模型对第一图像进行区域预测,得到第一图像的昵称标题位置信息,昵称标题位置信息包括第一图像中的昵称和/或标题在第一图像中的位置信息;用于利用文本位置信息对昵称标题位置信息进行修正,得到修正后的昵称标题位置信息;用于基于修正后的昵称标题位置信息和至少一个文字隐私信息位置,对第一图像进行处理,得到第二图像,第二图像不显示昵称、标题、以及预设文字。
可选地,文本位置信息包括至少一个文本框的位置信息,昵称标题位置信息包括至少一个昵称框的位置信息和/或至少一个标题框的位置信息;处理模块1201还用于:基于至少一个昵称框的位置信息和/或至少一个标题框的位置信息、以及至少一个文本框的位置信息,判断至少一个文本框中是否存在第一文本框与目标框处于相同位置,目标框为至少一个昵称框中的第一昵称框和/或至少一个标题框中的第一标题框;若至少一个文本框中存在第一文本框与目标框处于相同位置,利用第一文本框的位置信息对目标框的位置信息进行修正,得到修正后的昵称标题位置信息。
可选地,处理模块1201还用于:判断至少一个文本框中的每个文本框与至少一个昵称框中的每一个昵称框是否存在重叠部分,和/或,判断每个文本框与至少一个标题框中的每一个标题框是否存在重叠部分;若至少一个文本框中存在第一文本框与目标框存在重叠部分,计算第一文本框与目标框之间的重叠面积;基于重叠面积和目标框的面积,判断第一文本框与目标框是否处于相同位置。
可选地,处理模块1201还用于:在重叠面积除以目标框的面积之比大于或等于预设阈值的情况下,确定第一文本框与目标框处于相同位置。
可选地,至少一个文本框中的每个文本框的位置信息通过一组坐标点表示,至少一个昵称框中的每个昵称框通过一组坐标点表示;处理模块1201还用于:基于每个文本框的坐标点,计算每个文本框的表达式;基于每个昵称框的坐标点,计算每个昵称框的表达式;基于每个文本框的表达式和每个昵称框的表达式,判断每个文本框和每个昵称框是否存在交集区域;若至少一个文本框中存在第一文本框与至少一个昵称框中的第一昵称框存在交集区域,确定第一文本框与第一昵称框存在重叠部分,并将第一昵称框确定为目标框。
可选地,至少一个文本框中的每个文本框的位置信息通过一组坐标点表示,至少一个标题框中的每个标题框的位置信息通过一组坐标点表示;处理模块1201还用于:基于每个文本框的坐标点,计算每个文本框的表达式;基于每个标题框的坐标点,计算每个标题框的表达式;基于每个文本框的表达式和每个标题框的表达式,判断每个文本框和每个标题框是否存在交集区域;若至少一个文本框中存在第一文本框与至少一个标题框中的第一标题框存在交集区域,确定第一文本框与第一标题框存在重叠部分,并将第一标题框确定为目标框。
可选地,第一文本框的位置信息通过一组坐标点表示,目标框的位置信息通过一组坐标点表示,修正后的昵称标题位置信息通过一组坐标点表示;处理模块1201还用于:基于第一文本框的坐标点,计算第一文本框的表达式;基于目标框的坐标点,计算目标框的表达式;基于第一文本框的表达式和目标框的表达式,计算第一文本框和目标框的并集区域的坐标点;基于并集区域的坐标点确定修正后的昵称标题位置信息。
可选地,处理模块1201还用于:基于并集区域的坐标点,计算并集区域的最小外接矩形的坐标点;将最小外接矩形的坐标点确定为修正后的昵称标题位置信息。
可选地,处理模块1201还用于:将第一图像输入网络模型中,得到第一图像中的昵称标题的像素信息;基于昵称标题的像素信息,计算第一图像的昵称标题位置信息。
可选地,处理模块1201还用于:通过网络模型对第一图像进行区域预测,得到第一图像的头像位置信息;对第一图像进行处理,得到第二图像,包括:基于第一图像的头像位置信息,对第一图像进行处理,得到第二图像,第二图像不显示头像。
可选地,处理模块1201还用于:将第一图像输入网络模型中,得到第一图像中的头像的像素信息;基于头像的像素信息,计算第一图像的头像位置信息。
可选地,处理模块1201还用于:获取样本图像集和样本图像集的标注信息,标注信息包括样本图像集中的每张图像包括头像、昵称、以及标题在对应图像中的实际位置信息;基于样本图像集和标注信息进行模型训练,得到网络模型。
可选地,上述终端设备还包括显示模块1202,显示模块1202用于:响应于用户对第一图像的编辑操作,显示第一界面,第一界面包括自动打码按钮;上述处理模块1201还用于:响应于用户对自动打码按钮的点击操作,对第一图像进行文字识别。
可选地,上述显示模块1202用于:显示第二图像。
可选地,上述显示模块1202用于:在第一图像为预设界面的图像的情况下,响应于用户对第一图像的编辑操作,显示第一界面。
可选地,预设界面为聊天界面。
可选地,预设界面为预设应用的界面。
应理解,这里的终端设备1200以功能模块的形式体现。这里的术语“模块”可以指应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中,本领域技术人员可以理解,终端设备1200可以具体为上述实施例中的终端设备,终端设备1200可以用于执行上述方法实施例中与终端设备对应的各个流程和/或步骤,为避免重复,在此不再赘述。
上述终端设备1200具有实现上述方法中终端设备执行的相应步骤的功能;上述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。例如,上述显示模块1202可以用于实现上述显示模块对应的用于执行发送动作的各个步骤和/或流程。
在本申请的实施例,图12中的终端设备1200也可以是芯片或者芯片系统,例如:片上系统(system on chip,SOC)。对应的,显示模块1202可以是该芯片的显示电路,在此不做限定。
图13示出了本申请实施例提供的另一种终端设备1300。该终端设备1300包括处理器1301、收发器1302和存储器1303。其中,处理器1301、收发器1302和存储器1303通过内部连接通路互相通信,该存储器1303用于存储指令,该处理器1301用于执行该存储器1303存储的指令,以控制该收发器1302发送信号和/或接收信号。
应理解,终端设备1300可以具体为上述实施例中的终端设备,并且可以用于执行上述方法实施例中与终端设备对应的各个步骤和/或流程。可选地,该存储器1303可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。该处理器1301可以用于执行存储器中存储的指令,并且当该处理器1301执行存储器中存储的指令时,该处理器1301用于执行上述与该终端设备对应的方法实施例的各个步骤和/或流程。该收发器1302可以包括发射器和接收器,该发射器可以用于实现上述收发器对应的用于执行发送动作的各个步骤和/或流程,该接收器可以用于实现上述收发器对应的用于执行接收动作的各个步骤和/或流程。
应理解,在本申请实施例中,该处理器可以是中央处理单元(central processingunit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器执行存储器中的指令,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质用于存储计算机程序,该计算机程序用于实现上述实施例中与终端设备对应的方法。
本申请还提供了一种计算机程序产品,该计算机程序产品包括计算机程序(也可以称为代码,或指令),当该计算机程序在计算机上运行时,该计算机可以执行上述实施例所示的终端设备对应的方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应所述以权利要求的保护范围为准。
Claims (15)
1.一种图像处理方法,其特征在于,应用于终端设备,所述方法包括:
在第一图像为聊天界面的图像的情况下,响应于用户对所述第一图像的编辑操作,显示第一界面,所述第一界面包括自动打码按钮;
响应于所述用户对所述自动打码按钮的点击操作,对所述第一图像进行文字识别,得到所述第一图像的文本位置信息和文本内容信息,所述文本位置信息包括所述第一图像中的文本在所述第一图像中的位置信息;
对所述文本内容信息进行文字隐私信息检测,得到至少一个文字隐私位置信息,所述文字隐私信息包括邮箱、地址、电话号码、身份证号码、快递单号、航班号、网址中的一种或多种;
通过网络模型对所述第一图像进行区域预测,得到所述第一图像的昵称标题位置信息,所述昵称标题位置信息包括所述第一图像中的昵称和标题在所述第一图像中的位置信息;
利用所述文本位置信息对所述昵称标题位置信息进行修正,得到修正后的昵称标题位置信息;
基于所述修正后的昵称标题位置信息和所述至少一个文字隐私位置信息,对所述第一图像进行处理,得到第二图像,所述第二图像不显示昵称、标题、以及预设文字,所述预设文字为至少一个文字隐私位置信息对应的文字内容。
2.根据权利要求1所述的方法,其特征在于,所述文本位置信息包括至少一个文本框的位置信息,所述昵称标题位置信息包括至少一个昵称框的位置信息和/或至少一个标题框的位置信息;
所述利用所述文本位置信息对所述昵称标题位置信息进行修正,得到修正后的昵称标题位置信息,包括:
基于所述至少一个昵称框的位置信息和/或至少一个标题框的位置信息、以及所述至少一个文本框的位置信息,判断所述至少一个文本框中是否存在第一文本框与目标框处于相同位置,所述目标框为所述至少一个昵称框中的第一昵称框和/或所述至少一个标题框中的第一标题框;
若所述至少一个文本框中存在所述第一文本框与所述目标框处于相同位置,利用所述第一文本框的位置信息对所述目标框的位置信息进行修正,得到所述修正后的昵称标题位置信息。
3.根据权利要求2所述的方法,其特征在于,所述判断所述至少一个文本框中是否存在第一文本框与目标框处于相同位置,包括:
判断所述至少一个文本框中的每个文本框与所述至少一个昵称框中的每一个昵称框是否存在重叠部分,和/或,判断所述每个文本框与所述至少一个标题框中的每一个标题框是否存在重叠部分;
若所述至少一个文本框中存在第一文本框与所述目标框存在重叠部分,计算所述第一文本框与所述目标框之间的重叠面积;
基于所述重叠面积和所述目标框的面积,判断所述第一文本框与所述目标框是否处于相同位置。
4.根据权利要求3所述的方法,其特征在于,所述基于所述重叠面积和所述目标框的面积,判断所述第一文本框与所述目标框是否处于相同位置,包括:
在所述重叠面积除以所述目标框的面积之比大于或等于预设阈值的情况下,确定所述第一文本框与所述目标框处于相同位置。
5.根据权利要求3所述的方法,其特征在于,所述至少一个文本框中的每个文本框的位置信息通过一组坐标点表示,所述至少一个昵称框中的每个昵称框通过一组坐标点表示;
所述判断所述至少一个文本框中的每个文本框与所述至少一个昵称框中的每一个昵称框是否存在重叠部分,包括:
基于所述每个文本框的坐标点,计算所述每个文本框的表达式;
基于所述每个昵称框的坐标点,计算所述每个昵称框的表达式;
基于所述每个文本框的表达式和所述每个昵称框的表达式,判断所述每个文本框和所述每个昵称框是否存在交集区域;
若所述至少一个文本框中存在所述第一文本框与所述至少一个昵称框中的所述第一昵称框存在交集区域,确定所述第一文本框与所述第一昵称框存在重叠部分,并将所述第一昵称框确定为所述目标框。
6.根据权利要求3所述的方法,其特征在于,所述至少一个文本框中的每个文本框的位置信息通过一组坐标点表示,所述至少一个标题框中的每个标题框的位置信息通过一组坐标点表示;
所述判断所述每个文本框与所述至少一个标题框中的每一个标题框是否存在重叠部分,包括:
基于所述每个文本框的坐标点,计算所述每个文本框的表达式;
基于所述每个标题框的坐标点,计算所述每个标题框的表达式;
基于所述每个文本框的表达式和所述每个标题框的表达式,判断所述每个文本框和所述每个标题框是否存在交集区域;
若所述至少一个文本框中存在所述第一文本框与所述至少一个标题框中的所述第一标题框存在交集区域,确定所述第一文本框与所述第一标题框存在重叠部分,并将所述第一标题框确定为所述目标框。
7.根据权利要求2所述的方法,其特征在于,所述第一文本框的位置信息通过一组坐标点表示,所述目标框的位置信息通过一组坐标点表示,所述修正后的昵称标题位置信息通过一组坐标点表示;
所述利用所述第一文本框的位置信息对所述目标框的位置信息进行修正,得到所述修正后的昵称标题位置信息,包括:
基于所述第一文本框的坐标点,计算所述第一文本框的表达式;
基于所述目标框的坐标点,计算所述目标框的表达式;
基于所述第一文本框的表达式和所述目标框的表达式,计算所述第一文本框和所述目标框的并集区域的坐标点;
基于所述并集区域的坐标点确定所述修正后的昵称标题位置信息。
8.根据权利要求7所述的方法,其特征在于,所述基于所述并集区域的坐标点确定所述修正后的昵称标题位置信息,包括:
基于所述并集区域的坐标点,计算所述并集区域的最小外接矩形的坐标点;
将所述最小外接矩形的坐标点确定为所述修正后的昵称标题位置信息。
9.根据权利要求1所述的方法,其特征在于,所述通过网络模型对所述第一图像进行区域预测,得到所述第一图像的昵称标题位置信息,包括:
将所述第一图像输入所述网络模型中,得到所述第一图像中的昵称标题的像素信息;
基于所述昵称标题的像素信息,计算所述第一图像的昵称标题位置信息。
10.根据权利要求1所述的方法,其特征在于,所述对所述第一图像进行处理之前,所述方法还包括:
通过所述网络模型对所述第一图像进行区域预测,得到所述第一图像的头像位置信息;
所述对所述第一图像进行处理,得到第二图像,包括:
基于所述第一图像的头像位置信息,对所述第一图像进行处理,得到第二图像,所述第二图像不显示头像。
11.根据权利要求10所述的方法,其特征在于,通过网络模型对所述第一图像进行区域预测,得到所述第一图像的头像位置信息,包括:
将所述第一图像输入所述网络模型中,得到所述第一图像中的头像的像素信息;
基于所述头像的像素信息,计算所述第一图像的头像位置信息。
12.根据权利要求1所述的方法,其特征在于,在通过网络模型对所述第一图像进行区域预测之前,所述方法还包括:
获取样本图像集和所述样本图像集的标注信息,所述标注信息包括所述样本图像集中的每张图像包括头像、昵称、以及标题在对应图像中的实际位置信息;
基于所述样本图像集和所述标注信息进行模型训练,得到所述网络模型。
13.根据权利要求1所述的方法,其特征在于,所述方法还包括:
显示所述第二图像。
14.一种终端设备,其特征在于,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储计算机程序,当所述处理器调用所述计算机程序时,使得所述终端设备执行如权利要求1至13任一所述的方法。
15.一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序包括用于实现如权利要求1至13任一所述的方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310796828.1A CN116522400B (zh) | 2023-07-03 | 2023-07-03 | 图像处理方法和终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310796828.1A CN116522400B (zh) | 2023-07-03 | 2023-07-03 | 图像处理方法和终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116522400A CN116522400A (zh) | 2023-08-01 |
CN116522400B true CN116522400B (zh) | 2024-05-14 |
Family
ID=87390639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310796828.1A Active CN116522400B (zh) | 2023-07-03 | 2023-07-03 | 图像处理方法和终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116522400B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021350A (zh) * | 2014-05-13 | 2014-09-03 | 小米科技有限责任公司 | 隐私信息隐藏方法及装置 |
CN107145800A (zh) * | 2017-05-31 | 2017-09-08 | 北京小米移动软件有限公司 | 隐私信息保护方法及装置、终端及存储介质 |
CN111652144A (zh) * | 2020-06-03 | 2020-09-11 | 广东小天才科技有限公司 | 基于目标区域融合的题目分割方法、装置、设备和介质 |
CN111666940A (zh) * | 2020-06-05 | 2020-09-15 | 厦门美图之家科技有限公司 | 聊天截图内容处理方法、装置、电子设备和可读存储介质 |
CN113536374A (zh) * | 2021-07-15 | 2021-10-22 | 荣耀终端有限公司 | 图像隐私的保护方法及电子设备 |
CN114040048A (zh) * | 2021-09-24 | 2022-02-11 | 荣耀终端有限公司 | 一种隐私保护方法及电子设备 |
-
2023
- 2023-07-03 CN CN202310796828.1A patent/CN116522400B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021350A (zh) * | 2014-05-13 | 2014-09-03 | 小米科技有限责任公司 | 隐私信息隐藏方法及装置 |
CN107145800A (zh) * | 2017-05-31 | 2017-09-08 | 北京小米移动软件有限公司 | 隐私信息保护方法及装置、终端及存储介质 |
CN111652144A (zh) * | 2020-06-03 | 2020-09-11 | 广东小天才科技有限公司 | 基于目标区域融合的题目分割方法、装置、设备和介质 |
CN111666940A (zh) * | 2020-06-05 | 2020-09-15 | 厦门美图之家科技有限公司 | 聊天截图内容处理方法、装置、电子设备和可读存储介质 |
CN113536374A (zh) * | 2021-07-15 | 2021-10-22 | 荣耀终端有限公司 | 图像隐私的保护方法及电子设备 |
CN114040048A (zh) * | 2021-09-24 | 2022-02-11 | 荣耀终端有限公司 | 一种隐私保护方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116522400A (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11669242B2 (en) | Screenshot method and electronic device | |
EP3923634A1 (en) | Method for identifying specific position on specific route and electronic device | |
CN115866121B (zh) | 应用界面交互方法、电子设备和计算机可读存储介质 | |
EP3859561A1 (en) | Method for processing video file, and electronic device | |
CN113542485B (zh) | 一种通知处理方法、电子设备及计算机可读存储介质 | |
US20230254550A1 (en) | Video Synthesis Method and Apparatus, Electronic Device, and Storage Medium | |
CN113641271B (zh) | 应用窗口的管理方法、终端设备及计算机可读存储介质 | |
CN110138999B (zh) | 一种用于移动终端的证件扫描方法及装置 | |
EP3882793A1 (en) | Electronic device control method and electronic device | |
WO2020024108A1 (zh) | 一种应用图标的显示方法及终端 | |
CN113542580B (zh) | 去除眼镜光斑的方法、装置及电子设备 | |
CN112150499B (zh) | 图像处理方法及相关装置 | |
CN114089932B (zh) | 多屏显示方法、装置、终端设备及存储介质 | |
CN112541861B (zh) | 图像处理方法、装置、设备及计算机存储介质 | |
CN116048358B (zh) | 悬浮球的控制方法和相关装置 | |
CN110286975B (zh) | 一种前景元素的显示方法和电子设备 | |
CN114283195A (zh) | 生成动态图像的方法、电子设备及可读存储介质 | |
CN113723397B (zh) | 一种截屏方法及电子设备 | |
CN116389884B (zh) | 缩略图显示方法及终端设备 | |
WO2023000746A1 (zh) | 增强现实视频的处理方法与电子设备 | |
CN116263971B (zh) | 图像帧的预测方法、电子设备及计算机可读存储介质 | |
CN117724863A (zh) | 一种目标信号处理方法和电子设备 | |
US20230125072A1 (en) | Photo preview method, electronic device, and storage medium | |
CN116522400B (zh) | 图像处理方法和终端设备 | |
CN116527266A (zh) | 数据归集方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |