CN111428067B - 公文图片获取方法、装置及电子设备 - Google Patents

公文图片获取方法、装置及电子设备 Download PDF

Info

Publication number
CN111428067B
CN111428067B CN202010205115.XA CN202010205115A CN111428067B CN 111428067 B CN111428067 B CN 111428067B CN 202010205115 A CN202010205115 A CN 202010205115A CN 111428067 B CN111428067 B CN 111428067B
Authority
CN
China
Prior art keywords
picture
detected
score
pictures
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010205115.XA
Other languages
English (en)
Other versions
CN111428067A (zh
Inventor
田红星
徐家伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhongfu Information Technology Co Ltd
Original Assignee
Nanjing Zhongfu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhongfu Information Technology Co Ltd filed Critical Nanjing Zhongfu Information Technology Co Ltd
Priority to CN202010205115.XA priority Critical patent/CN111428067B/zh
Publication of CN111428067A publication Critical patent/CN111428067A/zh
Application granted granted Critical
Publication of CN111428067B publication Critical patent/CN111428067B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种公文图片获取方法、装置及电子设备,涉及图像处理技术领域,该方法包括:将流经目标网络的所有图片作为待检测图片;对待检测图片进行尺寸预处理,以使待检测图片满足预设尺寸条件;对尺寸预处理后的待检测图片进行特征提取和直线检测,得到待检测图片的颜色特征和直线数量;根据颜色特征和直线数量确定待检测图片的预测得分,并将预测得分满足预设得分阈值的待检测图片确定为公文图片。本发明可以从大量的网络图片中自动筛选出公文图片,提升了公文图片的筛选效率。

Description

公文图片获取方法、装置及电子设备
技术领域
本发明涉及图像处理技术领域,尤其是涉及一种公文图片获取方法、装置及电子设备。
背景技术
随着信息技术的飞速发展,信息交换和传播的方式也各式各样,诸如以图片的方式传播信息,由于互联网环境复杂导致输入的图片数量较多且内容种类繁杂,但是,通常只有其中的少数公文图片或文字图片中含有一些有用信息,当需要从互联网图片中获取有用信息时,首先需要从数量庞大的图片中筛选出公文图片。然而,现有图片过滤或公文图片识别技术中大多数仅针对广告图片进行过滤,并不针对非公文图片进行类型判定以及过滤;且来自互联网的图片的质量参差不齐,采集方式多种多样,导致对图片的分类产生不同程度影响。因此,如何从数量庞大的互联网图片中快速筛选出公文图片成为需要解决的问题。
发明内容
本发明实施例的目的在于提供一种公文图片获取方法、装置及电子设备,可以从大量的网络图片中自动筛选出公文图片,提升了公文图片的筛选效率。
第一方面,本发明实施例提供了一种公文图片获取方法,包括:将流经目标网络的所有图片作为待检测图片;对所述待检测图片进行尺寸预处理,以使所述待检测图片满足预设尺寸条件;对尺寸预处理后的所述待检测图片进行特征提取和直线检测,得到所述待检测图片的颜色特征和直线数量;根据所述颜色特征和直线数量确定待检测图片的预测得分;将所述预测得分满足预设得分阈值的待检测图片确定为公文图片。
在可选的实施方式中,所述将流经目标网络的所有图片作为待检测图片的步骤包括:基于互联网检测器获取流经所述目标网络的图片;其中,所述检测器设置于所述目标网络中;将获取到的图片作为待检测图片。
在可选的实施方式中,所述对所述待检测图片进行尺寸预处理的步骤,包括:将所述待检测图片中大于预设最大尺寸的图片缩小为预设尺寸的图片;将所述待检测图片中小于预设最小尺寸的图片剔除。
在可选的实施方式中,所述对尺寸预处理后的所述待检测图片进行特征提取和直线检测,得到所述待检测图片的颜色特征和直线数量的步骤,包括:将尺寸预处理后的所述待检测图片的像素信息转换为颜色空间模型,并从所述颜色空间模型中提取所述待检测图片的颜色特征;利用预设的直线检测算法对所述待检测图片进行直线检测,得到所述待检测图片中的直线数量;其中,所述预设的直线检测算法包括概率霍夫变换或霍夫变换。
在可选的实施方式中,所述颜色特征包括颜色数量和该颜色所占比例;所述根据所述颜色特征和直线数量确定待检测图片的预测得分的步骤,包括:根据所述颜色特征构建所述待检测图片的颜色直方图;将所述待检测图片的颜色直方图与预设的公文图片的颜色直方图进行相似度计算,得到所述待检测图片的第一得分;其中,所述预设的公文图片的颜色直方图是通过统计多个公文图片的颜色直方图得到的;根据所述待检测图片的直线数量确定待检测图片的第二得分;计算所述第一得分和所述第二得分的加权平均值,得到所述待检测图片的预测得分。
在可选的实施方式中,所述根据所述待检测图片的直线数量确定待检测图片的第二得分的步骤,包括:当所述待检测图片的直线数量大于预设直线数量时,设置所述第二得分为1;当所述待检测图片的直线数量不大于所述预设直线数量时,设置所述第二得分为0;其中,所述预设直线数量为50。
在可选的实施方式中,所述第一得分的权重为0.6,所述第二得分的权重为0.4。
第二方面,本发明实施例提供了一种公文图片获取装置,包括:图片获取模块,用于将流经目标网络的所有图片作为待检测图片;尺寸处理模块,用于对所述待检测图片进行尺寸预处理,以使所述待检测图片满足预设尺寸条件;图像处理模块,用于对尺寸预处理后的所述待检测图片进行特征提取和直线检测,得到所述待检测图片的颜色特征和直线数量;分数确定模块,用于根据所述颜色特征和直线数量确定待检测图片的预测得分;公文图片确定模块,用于将所述预测得分满足预设得分阈值的待检测图片确定为公文图片。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如第一方面所述的方法的步骤。
第四方面,本发明实施例提供了一种计算机可读介质,其中,所述计算机可读介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使所述处理器实现如第一方面所述的方法。
本发明实施例提供了一种公文图片获取方法、装置及电子设备,该方法包括:首先将流经目标网络的所有图片作为待检测图片;然后对待检测图片进行尺寸预处理,以使待检测图片满足预设尺寸条件;再对尺寸预处理后的待检测图片进行特征提取和直线检测,得到待检测图片的颜色特征和直线数量;最后根据颜色特征和直线数量确定待检测图片的预测得分;并将预测得分满足预设得分阈值的待检测图片确定为公文图片。该方法通过提取待检测图片的颜色特征和直线数量,并根据颜色特征和直线数量对待检测图片确定待检测图片的预测得分,将满足分数要求的图片作为公文图片,可以实现从数量庞大的互联网图片中自动筛选出公文图片,提升了公文图片的筛选效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种公文图片获取方法流程图;
图2为本发明实施例提供的一种待检测图像的预测得分计算流程图;
图3为本发明实施例提供的一种公文图片获取装置结构示意图;
图4为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到如何从数量庞大的互联网图片中快速筛选出公文图片的问题,本发明实施例提供了一种公文图片获取方法、装置及电子设备,可以应用于对于公文图片的自动快速筛选。
本发明实施例提供了一种公文图片获取方法,参见如图1所示的公文图片获取方法流程图,该方法可以由电子设备诸如移动终端或计算机执行,该方法主要包括以下步骤S102~步骤S108:
步骤S102:将流经目标网络的所有图片作为待检测图片。
将需要进行图片过滤筛选的网络作为目标网络,上述待检测图片的获取方式可以为:基于互联网检测器获取流经目标网络的图片,其中,上述检测器设置于目标网络中。将获取到的图片作为待检测图片。上述检测器可以实时获取流经目标网络的所有图片,在需要对目标网络的图片进行筛选分类或从目标网络的图片中获取有用信息时,诸如相关部门对互联网环境进行网络审查时,将上述检测器获取到的待检测图片进行存储,以作为待检测图像进行处理。
步骤S104:对待检测图片进行尺寸预处理,以使待检测图片满足预设尺寸条件。
对待检测图片进行尺寸检测,并基于待检测图片的尺寸对待检测图片进行粗过滤,将不满足预设尺寸条件的图片从待检测图片中剔除,或对不满足预设尺寸条件的待检测图片进行尺寸缩放,以使待检测图片满足预设尺寸条件。
步骤S106:对尺寸预处理后的待检测图片进行特征提取和直线检测,得到待检测图片的颜色特征和直线数量。
对于粗过滤后的待检测图片进行颜色特征提取,同时,对于粗过滤后的待检测图片进行灰度化及二值化处理,以检测待检测图片中的直线数量,并进行倾斜校正,该直线数量是待检测图片中相同颜色的像素构成的直线。
在一种具体的实施方式中,可以将尺寸预处理后的待检测图片的像素信息转换为颜色空间模型,并从颜色空间模型中提取待检测图片的颜色特征;利用预设的直线检测算法对待检测图片进行直线检测,得到待检测图片中的直线数量;其中,预设的直线检测算法包括概率霍夫变换或霍夫变换。
步骤S108:根据颜色特征和直线数量确定待检测图片的预测得分,并将预测得分满足预设得分阈值的待检测图片确定为公文图片。
由于公文图片(或文字图片)与其他类型图片(诸如带有景物图或人像图的广告图片)的颜色特征和直线数量是存在差异的,基于待检测图片的颜色特征和图片中的直线数量可以确定待检测图片的预测得分,改预测得分的大小可以表示待检测图片为公文图片的概率大小,当预测得分满足预设得分阈值时,即待检测图片大概率为公文图片,将预测得分满足预设得分阈值的待检测图片确定为公文图片。诸如,上述预设得分阈值可以是0.5,当待检测图片的预测得分为0.8时,将待检测图片确定为公文图片,即待检测图片中含有文字。
本实施例提供的上述公文图片获取方法,通过提取待检测图片的颜色特征和直线数量,并根据颜色特征和直线数量对待检测图片确定待检测图片的预测得分,将满足分数要求的图片作为公文图片,可以实现从数量庞大的互联网图片中自动筛选出公文图片,提升了公文图片的筛选效率。
为了提升筛选公文图片的准确性,本实施例提供了对待检测图片进行尺寸预处理的具体实施方式:将待检测图片中大于预设最大尺寸的图片缩小为预设尺寸的图片;将待检测图片中小于预设最小尺寸的图片剔除。为了防止待检测图片过大,进而影响筛选公文图片的准确性,可以将待检测图片中大于预设最大尺寸的图片缩小为预设尺寸的图片,诸如,上述预设最大尺寸(该尺寸可以是图片的长或宽的分辨率大小)可以是800,当待检测图像的长度或宽度(分辨率)大于800时,将待检测图片缩小为小于800的任意预设尺寸。由于上述待检测图片中可能存在诸如表情包等无用图片,将待检测图片中小于预设最小尺寸的图片剔除,诸如,上述预设最小尺寸可以是50~100之间的任意数值。
为了得到待检测图片准确的预测得分,本实施例提供了根据颜色特征和直线数量确定待检测图片的预测得分的实施方式,参见如图2所示的待检测图像的预测得分计算流程图,具体可参照如下步骤S202~步骤S208执行:
S202:根据颜色特征构建待检测图片的颜色直方图。
上述颜色特征包括颜色数量和该颜色所占比例,通过提取待检测图片的颜色特征,构建待检测图片的颜色直方图。
S204:将待检测图片的颜色直方图与预设的公文图片的颜色直方图进行相似度计算,得到待检测图片的第一得分;其中,预设的公文图片的颜色直方图是通过统计多个公文图片的颜色直方图得到的。
上述预设的公文图片的颜色直方图是依据统计学原理,对已知的公文图片的颜色直方图的规律进行统计分析,得到公文图片的颜色直方图应有的颜色分布范围(包括颜色种类数量和颜色比例分布),将待检测图片的颜色直方图与预设的公文图片的颜色直方图进行相似度计算,得到待检测图片的第一得分,以根据待检测图片的颜色直方图计算待检测图片为公文图片的概率大小。上述预设的公文图片的颜色直方图也可以作为标准的公文图片的颜色直方图,为了保证该标准的公文图片的颜色直方图更接近准确,需要使用大量的公文图片的颜色直方图得到。
S206:根据待检测图片的直线数量确定待检测图片的第二得分。
根据待检测图片的直线数量对待检测图片进行打分,其中,当待检测图片的直线数量大于预设直线数量时,设置第二得分为1;当待检测图片的直线数量不大于预设直线数量时,设置第二得分为0;其中,上述预设直线数量可以为50,还可以是其他经过试验得到的合理数值诸如45~55的任意数值。
S208:计算第一得分和第二得分的加权平均值,得到待检测图片的预测得分。
计算上述第一得分和第二得分的加权平均值,诸如,上述第一得分的权重可以是0.6,上述第二得分的权重可以是0.4,上述预测得分的计算方式可以是:y=0.6*x1+0.4*x2,其中,x1为第一得分,x2为第二得分。诸如,当上述第一得分为1,上述第二得分为0时,上述待检测图片的预测得分为0.6。
本实施例提供的上述公文图片获取方法,通过根据待检测图片的颜色直方图和直线数量,对待检测图片进行打分,并将满足分数要求的图片作为公文图片,可以从目标网络中自动筛选出公文图片,提升了公文图片筛选的准确率。
对应于上述公文图片获取方法,本实施例提供了一种公文图片获取装置,参见如图3所示的公文图片获取装置结构示意图,该装置包括:
图片获取模块31,用于将流经目标网络的所有图片作为待检测图片;
尺寸处理模块32,用于对待检测图片进行尺寸预处理,以使待检测图片满足预设尺寸条件;
图像处理模块33,用于对尺寸预处理后的待检测图片进行特征提取和直线检测,得到待检测图片的颜色特征和直线数量;
公文图片确定模块34,用于根据颜色特征和直线数量确定待检测图片的预测得分,并将预测得分满足预设得分阈值的待检测图片确定为公文图片。
本实施例提供的上述公文图片获取装置,通过提取待检测图片的颜色特征和直线数量,并根据颜色特征和直线数量对待检测图片确定待检测图片的预测得分,将满足分数要求的图片作为公文图片,可以实现从数量庞大的互联网图片中自动筛选出公文图片,提升了公文图片的筛选效率。
在一种实施方式中,上述图片获取模块31,进一步用于基于互联网检测器获取流经目标网络的图片;其中,检测器设置于目标网络中;将获取到的图片作为待检测图片。
在一种实施方式中,上述尺寸处理模块32,进一步用于将待检测图片中大于预设最大尺寸的图片缩小为预设尺寸的图片;将待检测图片中小于预设最小尺寸的图片剔除。
在一种实施方式中,上述图像处理模块33,进一步用于将尺寸预处理后的待检测图片的像素信息转换为颜色空间模型,并从颜色空间模型中提取待检测图片的颜色特征;利用预设的直线检测算法对待检测图片进行直线检测,得到待检测图片中的直线数量;其中,预设的直线检测算法包括概率霍夫变换或霍夫变换。
在一种实施方式中,上述颜色特征包括颜色数量和该颜色所占比例;上述公文图片确定模块34,进一步用于根据颜色特征构建待检测图片的颜色直方图;将待检测图片的颜色直方图与预设的公文图片的颜色直方图进行相似度计算,得到待检测图片的第一得分;其中,预设的公文图片的颜色直方图是通过统计多个公文图片的颜色直方图得到的;根据待检测图片的直线数量确定待检测图片的第二得分;计算第一得分和第二得分的加权平均值,得到待检测图片的预测得分。
在一种实施方式中,上述公文图片确定模块34,进一步用于当待检测图片的直线数量大于预设直线数量时,设置第二得分为1;当待检测图片的直线数量不大于预设直线数量时,设置第二得分为0;其中,预设直线数量为50。
在一种实施方式中,上述第一得分的权重为0.6,第二得分的权重为0.4。
本实施例提供的上述公文图片获取装置,通过根据待检测图片的颜色直方图和直线数量,对待检测图片进行打分,并将满足分数要求的图片作为公文图片,可以从目标网络中自动筛选出公文图片,提升了公文图片筛选的准确率。
本实施例所提供的装置,其实现原理及产生的技术效果和前述实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例提供了一种电子设备,如图4所示的电子设备结构示意图,电子设备包括处理器41、存储器42,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例提供的方法的步骤。
参见图4,电子设备还包括:总线44和通信接口43,处理器41、通信接口43和存储器42通过总线44连接。处理器41用于执行存储器42中存储的可执行模块,例如计算机程序。
其中,存储器42可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线44可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器42用于存储程序,所述处理器41在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器41中,或者由处理器41实现。
处理器41可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等。还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器42,处理器41读取存储器42中的信息,结合其硬件完成上述方法的步骤。
本发明实施例提供了一种计算机可读介质,其中,所述计算机可读介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使所述处理器实现上述实施例所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种公文图片获取方法,其特征在于,包括:
将流经目标网络的所有图片作为待检测图片;
对所述待检测图片进行尺寸预处理,以使所述待检测图片满足预设尺寸条件;
对尺寸预处理后的所述待检测图片进行特征提取和直线检测,得到所述待检测图片的颜色特征和直线数量;
根据所述颜色特征和直线数量确定待检测图片的预测得分,并将所述预测得分满足预设得分阈值的待检测图片确定为公文图片;
其中,所述根据所述颜色特征和直线数量确定待检测图片的预测得分的步骤,包括:
根据所述颜色特征构建所述待检测图片的颜色直方图;
将所述待检测图片的颜色直方图与预设的公文图片的颜色直方图进行相似度计算,得到所述待检测图片的第一得分;其中,所述预设的公文图片的颜色直方图是通过统计多个公文图片的颜色直方图得到的;
根据所述待检测图片的直线数量确定待检测图片的第二得分;
计算所述第一得分和所述第二得分的加权平均值,得到所述待检测图片的预测得分。
2.根据权利要求1所述的方法,其特征在于,所述将流经目标网络的所有图片作为待检测图片的步骤包括:
基于互联网检测器获取流经所述目标网络的图片;其中,所述检测器设置于所述目标网络中;
将获取到的图片作为待检测图片。
3.根据权利要求1所述的方法,其特征在于,所述对所述待检测图片进行尺寸预处理的步骤,包括:
将所述待检测图片中大于预设最大尺寸的图片缩小为预设尺寸的图片;
将所述待检测图片中小于预设最小尺寸的图片剔除。
4.根据权利要求1所述的方法,其特征在于,所述对尺寸预处理后的所述待检测图片进行特征提取和直线检测,得到所述待检测图片的颜色特征和直线数量的步骤,包括:
将尺寸预处理后的所述待检测图片的像素信息转换为颜色空间模型,并从所述颜色空间模型中提取所述待检测图片的颜色特征;
利用预设的直线检测算法对所述待检测图片进行直线检测,得到所述待检测图片中的直线数量;其中,所述预设的直线检测算法包括概率霍夫变换或霍夫变换。
5.根据权利要求1所述的方法,其特征在于,其中,所述颜色特征包括颜色数量和该颜色所占比例。
6.根据权利要求5所述的方法,其特征在于,所述根据所述待检测图片的直线数量确定待检测图片的第二得分的步骤,包括:
当所述待检测图片的直线数量大于预设直线数量时,设置所述第二得分为1;
当所述待检测图片的直线数量不大于所述预设直线数量时,设置所述第二得分为0;其中,所述预设直线数量为50。
7.根据权利要求5所述的方法,其特征在于,所述第一得分的权重为0.6,所述第二得分的权重为0.4。
8.一种公文图片获取装置,其特征在于,包括:
图片获取模块,用于将流经目标网络的所有图片作为待检测图片;
尺寸处理模块,用于对所述待检测图片进行尺寸预处理,以使所述待检测图片满足预设尺寸条件;
图像处理模块,用于对尺寸预处理后的所述待检测图片进行特征提取和直线检测,得到所述待检测图片的颜色特征和直线数量;
公文图片确定模块,用于根据所述颜色特征和直线数量确定待检测图片的预测得分,并将所述预测得分满足预设得分阈值的待检测图片确定为公文图片;
其中,所述公文图片确定模块,具体用于根据所述颜色特征构建所述待检测图片的颜色直方图;将所述待检测图片的颜色直方图与预设的公文图片的颜色直方图进行相似度计算,得到所述待检测图片的第一得分;其中,所述预设的公文图片的颜色直方图是通过统计多个公文图片的颜色直方图得到的;根据所述待检测图片的直线数量确定待检测图片的第二得分;计算所述第一得分和所述第二得分的加权平均值,得到所述待检测图片的预测得分。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-7任一项所述的方法。
10.一种计算机可读介质,其特征在于,所述计算机可读介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,所述计算机可执行指令促使所述处理器实现权利要求1-7任一项所述的方法。
CN202010205115.XA 2020-03-20 2020-03-20 公文图片获取方法、装置及电子设备 Active CN111428067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010205115.XA CN111428067B (zh) 2020-03-20 2020-03-20 公文图片获取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010205115.XA CN111428067B (zh) 2020-03-20 2020-03-20 公文图片获取方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111428067A CN111428067A (zh) 2020-07-17
CN111428067B true CN111428067B (zh) 2023-09-01

Family

ID=71548467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010205115.XA Active CN111428067B (zh) 2020-03-20 2020-03-20 公文图片获取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111428067B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077603A (zh) * 2014-07-14 2014-10-01 金陵科技学院 类地重力场环境下室外场景单目视觉空间识别方法
CN104966051A (zh) * 2015-06-03 2015-10-07 中国科学院信息工程研究所 一种文档图像的版式识别方法
CN105046198A (zh) * 2015-06-12 2015-11-11 上海修源网络科技有限公司 一种车道检测方法
CN106326822A (zh) * 2015-07-07 2017-01-11 北京易车互联信息技术有限公司 车道线检测的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077603A (zh) * 2014-07-14 2014-10-01 金陵科技学院 类地重力场环境下室外场景单目视觉空间识别方法
CN104966051A (zh) * 2015-06-03 2015-10-07 中国科学院信息工程研究所 一种文档图像的版式识别方法
CN105046198A (zh) * 2015-06-12 2015-11-11 上海修源网络科技有限公司 一种车道检测方法
CN106326822A (zh) * 2015-07-07 2017-01-11 北京易车互联信息技术有限公司 车道线检测的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨毅宇.图片检索在网络敏感信息实时预警系统中的应用.《中国优秀硕士学位论文全文数据库 信息科技辑》.2012,(第7期),第I138-2183页. *

Also Published As

Publication number Publication date
CN111428067A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
US10896349B2 (en) Text detection method and apparatus, and storage medium
CN110276767B (zh) 图像处理方法和装置、电子设备、计算机可读存储介质
CN110569899B (zh) 坝面缺陷分类模型训练方法及装置
CN110348294B (zh) Pdf文档中图表的定位方法、装置及计算机设备
CN111382704B (zh) 基于深度学习的车辆压线违章判断方法、装置及存储介质
JP5775225B2 (ja) マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出
CN109886928B (zh) 一种目标细胞标记方法、装置、存储介质及终端设备
CN107203765B (zh) 敏感图像检测方法和装置
CN112487848B (zh) 文字识别方法和终端设备
CN110991310B (zh) 人像检测方法、装置、电子设备及计算机可读介质
CN111899243A (zh) 一种图像清晰度评价方法、设备和计算机可读存储介质
CN115273115A (zh) 一种文档元素标注方法、装置、电子设备和存储介质
CN113129298B (zh) 文本图像的清晰度识别方法
CN116612103A (zh) 一种基于机器视觉的建筑结构裂缝智能检测方法及其系统
CN113076961B (zh) 一种图像特征库更新方法、图像检测方法和装置
CN111311573B (zh) 枝条确定方法、装置及电子设备
CN117218672A (zh) 一种基于深度学习的病案文字识别方法及系统
CN111428067B (zh) 公文图片获取方法、装置及电子设备
CN110992299B (zh) 一种检测浏览器兼容性的方法及装置
CN113537253B (zh) 一种红外图像目标检测方法、装置、计算设备及存储介质
CN114743205A (zh) 一种图像篡改检测方法和装置
CN112395993A (zh) 基于监控视频数据的遮挡船只检测方法、装置及电子设备
CN114627456A (zh) 一种票据文本信息检测方法、装置及系统
CN111709943B (zh) 一种工件超视野识别方法、装置、存储介质及电子设备
CN116468973B (zh) 用于低照度图像的目标检测模型的训练方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant