CN114638596A - 一种自然资源业务流程审查方法、系统、设备和介质 - Google Patents

一种自然资源业务流程审查方法、系统、设备和介质 Download PDF

Info

Publication number
CN114638596A
CN114638596A CN202210498518.7A CN202210498518A CN114638596A CN 114638596 A CN114638596 A CN 114638596A CN 202210498518 A CN202210498518 A CN 202210498518A CN 114638596 A CN114638596 A CN 114638596A
Authority
CN
China
Prior art keywords
information
file
checked
examination
review
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210498518.7A
Other languages
English (en)
Other versions
CN114638596B (zh
Inventor
黎海波
黄滢冰
邓少平
徐启恒
蔡从建
刘利园
李园
陶然
曾宝逊
吴锦全
黄泽鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou China Dci Co ltd
Original Assignee
Guangzhou China Dci Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou China Dci Co ltd filed Critical Guangzhou China Dci Co ltd
Priority to CN202210498518.7A priority Critical patent/CN114638596B/zh
Publication of CN114638596A publication Critical patent/CN114638596A/zh
Application granted granted Critical
Publication of CN114638596B publication Critical patent/CN114638596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Remote Sensing (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种自然资源业务流程审查方法、系统、设备和介质,能够有效提升自然资源业务流程审批的效率与科学性。一种自然资源业务流程审查方法,包括:获取待审查文件,提取所述待审查文件的批文信息和地理信息;获取审查有效信息,根据所述审查有效信息对所述待审查文件的批文信息执行一致性审查;构建项目规模分类模型,将通过一致性审查后的所述待审查文件输入到所述项目规模分类模型中,识别所述待审查文件的项目规模;根据所述待审查文件的项目规模,采用相应的空间分析方法对所述待审查文件的地理信息执行空间分析审查。

Description

一种自然资源业务流程审查方法、系统、设备和介质
技术领域
本发明涉及流程审查技术领域,更具体地,涉及一种自然资源业务流程审查方法、系统、设备和介质。
背景技术
在自然资源业务办理、审批、管理过程中,业务申报资料所上传的附件材料,其展示的内容对业务审查、判别有着至关重要的作用。目前,在附件材料的符合性检查、审查信息的读取判别、表单的录入以及案件入库管理等过程中,仍采取人工的方式,工作量大,智能化水平不高。
自然资源业务审查与审批过程中,主要的技术审查工作环节均需对项目地理要素进行空间分析。随着地理信息技术的发展,空间分析方法渐趋多样化,每一种方法适用的场景及对象有所不同。目前各种业务审查和审批,在涉及空间分析方法时均只采用单一方法,遇到复杂的审查业务时,单一的空间分析方法效率低、不稳定,甚至会因为分析负载过大导致服务奔溃的现象。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷,提供一种自然资源业务流程审查方法、系统、设备和介质,有效提升自然资源业务流程审批的效率与科学性。
本发明采取的技术方案是,一种自然资源业务流程审查方法,包括:
获取待审查文件,提取所述待审查文件的批文信息和地理信息;
获取审查有效信息,根据所述审查有效信息对所述待审查文件的批文信息执行一致性审查;
构建项目规模分类模型,将通过一致性审查后的所述待审查文件输入到所述项目规模分类模型中,识别所述待审查文件的项目规模;
根据所述待审查文件的项目规模,采用相应的空间分析方法对所述待审查文件的地理信息执行空间分析审查。
进一步地,所述待审查文件的批文信息包括印章信息、日期信息和关键词信息;
所述提取所述待审查文件的批文信息,包括:
基于HSV色彩识别技术,提取所述待审查文件中预设颜色印章,并基于边缘提取和霍夫检测,对所述预设颜色印章进行处理得到所述印章信息;
基于OCR文字识别技术,识别所述待审查文件中的文本信息,并从文本信息中提取所述日期信息和所述关键词信息。
进一步地,所述获取审查有效信息,根据所述审查有效信息对所述待审查文件的批文信息执行一致性审查,包括:
获取印章审查有效信息,根据印章审查有效信息对所述印章信息进行比对,若比对成功则所述印章信息通过一致性审查;
获取日期审查有效信息,根据日期审查有效信息对所述日期信息进行比对,若比对成功则所述日期信息通过一致性审查;
获取关键词审查有效信息,根据关键词审查有效信息对所述关键词信息进行比对,若比对成功则所述关键词信息通过一致性审查。
进一步地,所述从文本信息中提取日期信息,包括:
在所述文本信息的行区域中,筛选文本字数少于等于预设字数的文本和/或文本长度小于预设长度的文本等于作为候选日期;
在所述候选日期中,筛选符合预设日期格式的文本作为日期信息。
进一步地,所述从文字信息中提取关键词信息,包括:
基于FastR-CNN网络提取目标文本区域,
基于卷积循环神经网络,对所述目标文本区域内的文字内容进行识别得到关键词信息。
进一步地,所述构建项目规模分类模型,包括:
基于XGBoost算法库,提取每个训练样本的特征值,并标记每个所述训练样本执行空间分析检查所需的分析耗时;
根据所述训练样本的特征值和分析耗时对项目规模分类模型进行训练;
所述特征值包括所述地理信息中的项目面积、地块数。
进一步地,所述待审查文件的项目规模包括大型项目、中型项目和小型项目,
所述根据所述待审查文件的项目规模,采用相应的空间分析方法对所述待审查文件的地理信息执行空间分析审查,包括:
当识别出所述待审查文件的项目规模为大型项目时,采用FME空间分析方法对所述待审查文件的地理信息执行空间分析;
当识别出所述待审查文件的项目规模为中型项目时,采用GP空间分析方法对所述待审查文件的地理信息执行空间分析;
当识别出所述待审查文件的项目规模为小型项目时,采用Rest API空间分析方法对所述待审查文件的地理信息执行空间分析。
本发明采取的另一种技术方案是,一种自然资源业务流程审查系统,包括:
提取模块,用于获取待审查文件,提取所述待审查文件的批文信息和地理信息;
有效审查模块,用于获取审查有效信息,根据所述审查有效信息对所述待审查文件的批文信息执行一致性审查;
分类模块,用于构建项目规模分类模型,将通过一致性审查后的所述待审查文件输入到所述项目规模分类模型中,识别所述待审查文件的项目规模;
空间审查模块,用于根据所述待审查文件的项目规模,采用相应的空间分析方法对所述待审查文件的地理信息执行空间分析审查。
本发明采取的另一种技术方案是,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的自然资源业务流程审查方法的步骤。
本发明采取的另一种技术方案是,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的自然资源业务流程审查方法的步骤。
与现有技术相比,本发明的有益效果为:通过对待审查文件的批文信息中印章信息、日期信息和关键词信息进行智能化审查,解决了目前在行政审批中检查和读取审批文件时,大量依靠人工,智能化水平低下的问题,实现基于纸质材料的识别提取,有效提升自然资源行政审批的效率与科学性,实现全省自然资源政务工作的全面智能化;并且,自动将待审查文件的业务根据项目规模进行分类,快速选择与项目规模相应的空间分析方法,高效完成对待审查文件的地理信息的空间分析,进一步提升业务审查和审批速度。
附图说明
图1为本发明一种自然资源业务流程审查方法流程图。
图2为提取到的红色印章图像。
图3为中值滤波处理后的印章图像。
图4为腐蚀处理后印章图像。
图5为边缘提取处理后的印章图像。
图6为霍夫检测处理后的印章图像。
具体实施方式
自然资源数据作为体现国土空间架构和骨骼的载体,在国民经济和社会发展过程中发挥着重要的作用,是科学有效地布局生产、生活、生态空间的重要信息基础。随着云计算、大数据、物联网等信息化新技术的快速发展,使海量数据的采集、清理与存储具备了技术条件,建设统一开放的国土空间大数据资源体系成为可能。当前,自然资源空间基础数据已初具规模,大数据的建设已有雄厚的基础,但是在自然资源业务流程办理、审批、管理过程中还面临着以下问题:
一、自然资源行政审批人工依赖性强、工作效率低、智能化水平不高;
二、业务审查和审批种类繁多,均采用统一空间分析方法,缺乏针对业务复杂程度进行分类,以及根据业务复杂度来自动选择相应的空间分析方法。
因此,本发明针对自然资源业务审查,人工依赖性强、智能化水平低下的问题,开展创新性文字图片智能识别与知识图谱聚合算法的辅助审批技术研究,依靠深度学习和人工智能算法,实现基于纸质材料的关键业务信息识别提取与自然资源行政审批表单智能填报,有效提升自然资源行政审批的效率与科学性,实现全省自然资源政务工作的全面智能化;
针对自然资源各种业务审查和审批复杂度不一,均采用相同的空间分析流程,造成分析效率低,性能不稳的问题,本发明创新性地采用集成学习技术对使用效果样本数据进行监督学习,将地理空间信息分析划分为前端、后台以及中间件分析,形成梯度增强决策树以及由此形成的随机森林模型,以此为依据对所有地理信息空间分析进行分类,并使用新生成样本数据持续学习完善模型,提升地理空间分析效率。
实施例1
如图1所示,一种自然资源业务流程审查方法,包括以下步骤:
步骤S100、获取待审查文件,提取所述待审查文件的批文信息和地理信息;
用户通过自然资源多层级一体化管理的智能政务审批系统,将纸质版业务资料上传至系统,系统对部分审查业务标准化可实现智能化的申报审批,业务资料可为批文类资料、或证照类资料、或非批文类资料、或非证照类资料等等,所上传的业务资料在本实施例中被称为待审查文件,其中,一方面,在对待审查文件进行自动审查时,具体需要对审查待审查文件中的印章、日期、是否包含关键词、落款等多种批文信息进行一致性审查,从而确定所上传的待审查文件是否符合申报条件;另一方面,在确定符合申报条件后,在技术审查工作环节均需对待审查文件的项目地理信息进行空间分析,通过项目规模分类模型对待审查文件进行分类后,采用对应的空间分析方法对地理信息进行空间分析,减轻系统分析压力,提升地理空间分析效率,加快审批速度。
在本实施例步骤S100中,具体地,所述待审查文件的批文信息包括印章信息、日期信息和关键词信息,分别对印章信息、日期信息和关键词信息进行识别提取的步骤为:
基于HSV色彩空间模型,提取所述待审查文件中预设颜色印章,并基于边缘提取和霍夫检测,对所述预设颜色印章进行处理得到所述印章信息;
印章在加盖的时候可能因为用力是否均匀、印章上印泥多寡以及所使用印泥色度差异等原因,而导致印文出现轮廓颜色浓淡不一致,字体饱满度不一致,甚至出现部分模糊、残缺等一系列问题;印章经常并非加盖在干干净净的白纸上,所以在进行印章提取作业时,程序经常要面对的是一个噪声很大的待测图像;而且,许多人盖印时习惯将印章加盖在自己名字上方。这些各种各样的情况都使得印文图案并非完全独立、不受影响地出现在纸张当中,因此,在审查待审查文件中的印章信息时,这些问题对机器的正常识别可能造成较大干扰,大大增加了印章提取和识别作业的复杂程度。
对印章信息进行提取,主要包括色彩空间变换、图像去噪、边缘检测和霍夫检测四个步骤,
第一,以现有的红色印章为例,可以利用在色彩空间模型中红色值远大于其它颜色值这一思路将红色印章部分提取出来,本实施例采用HSV色彩空间模型,色调H(Hue,颜色属性)、饱和度S(Saturation,颜色深浅)、亮度V(Value,灰度)是面对不同色彩时人体视觉感知到的三种基本差异量;反过来用这三个感知分量也可以描述任意一种颜色;并将建立在这三个基本参量上的色彩模型称为HSV色彩空间模型。HSV色彩空间模型中,不同颜色有不同的取值范围,红色的HSV范围为[0-10,43-255,46-255]以及[156-180,43-255,46-255],将这部分颜色的像素点抽出点即可抽取出红色的图像,抽取出红色图像后,将红色转换为灰度图,印章图像的提取和转换过程如图2所示。
第二,经过HSV色彩空间变换得到的印章图像还是不够理想,可能存在椒盐、底纹、线条等噪声,所以提取后还必须对提取结果进行去噪修正。本实施例采用中值滤波和形态学操作中的腐蚀对印章图像进行去噪处理,中值滤波不仅可以去除孤点噪声,而且可以保持图像的边缘特性,不会使图像产生显著的模糊。在一定条件下,其可以克服线性滤波器处理图像细节模糊的问题,而且它对滤除脉冲干扰和图像扫描噪声非常有效。形态学操作中的腐蚀可以沿着物体边界移除像素并缩小物体的大小,增强图像的特征。
中值滤波的基本思想是,把局部区域的像素按灰度等级进行排序,取该领域中灰度的中值作为当前像素的灰度值。中值滤波的步骤为:(1)将滤波模板(含有若干个点的滑动窗口)在图像中漫游,并将模板中心与图中某个像素位置重合;(2)读取模板中各对应像素的灰度值;(3)将这些灰度值从小到大排列;(4)取这一列数据的中间数据,将其赋给对应模板中心位置的像素。经过中值滤波后的印章图像的灰度效果如图3所示,经过腐蚀后的印章图像如图4所示。
第三, 印章圆环与白色背景形成鲜明对比,在计算机视觉中,梯度急剧变化,可以抽取印章的轮廓,具体流程如下:
首先,图像降噪。梯度算子可以用于增强图像,本质上是通过增强边缘轮廓来实现的,也就是说是可以检测到边缘的。但是,它们受噪声的影响都很大。那么要先去除噪声,因为噪声就是灰度变化很大的地方,所以容易被识别为伪边缘。
其次,计算图像梯度,得到可能边缘。因为梯度是灰度变化明显的地方,而边缘也是灰度变化明显的地方。这一步只能得到可能的边缘,因为灰度变化的地方可能是边缘,也可能不是边缘,这一步就有了所有可能是边缘的集合。
然后,非极大值抑制。通常灰度变化的地方都比较集中,将局部范围内的梯度方向上,灰度变化最大的保留下来,其它的不保留,这样可以剔除掉一大部分的点。将有多个像素宽的边缘变成一个单像素宽的边缘。即“胖边缘”变成“瘦边缘”。
最后,双阈值筛选。通过非极大值抑制后,仍然有很多的可能边缘点,进一步的设置一个双阈值,即低阈值(low),高阈值(high)。灰度变化大于high的,设置为强边缘像素,低于low的剔除。在low和high之间的设置为弱边缘。进一步判断,如果其领域内有强边缘像素,保留,如果没有,剔除。
经过以上四步,可以显示出印章圆环的轮廓以及内部文字的大致轮廓,边缘提取后的印章图像如图5所示。
第四,虽然边缘检测得到了很多轮廓,但印章的轮廓是圆,印章内的字体或图案不 是圆,因此,本实施例采用霍夫检测的目的是检测印章的轮廓圆,确定印章的圆心和半径。 具体的检测过程为:通过圆方程
Figure 368861DEST_PATH_IMAGE002
,得到𝑎,𝑏,𝑟,通过这3个参数锁定 一个半径为𝑟,圆心在(𝑎,𝑏)的圆;转换直角坐标到参数空间(𝑎,𝑏,𝑟),当
Figure 895657DEST_PATH_IMAGE004
中𝑥、𝑦和𝑟明确时,(𝑎,𝑏)的轨迹变成了半径为𝑟,圆心在(𝑥,𝑦) 的圆,当无法确定𝑟时,(𝑎,𝑏,𝑟)变为顶点在(𝑥,𝑦)的圆锥。𝑥−𝑦坐标系中一个圆边界的 多个点,对应于𝑎−𝑏−𝑟坐标系的多个圆锥;这些点在原图像中位于同一个圆上,转换后的多 个圆锥将交会在同一点上。进行交点数量的统计局部,先取值最大的交点,其坐标对应着𝑥 −𝑦坐标系中的半径𝑟和圆心(𝑎,𝑏)。
经过以上霍夫检测步骤,可以确定印章的圆心和半径,确定后的印章图像如图6所示。
本实施例经过HSV色彩空间模型提取红色印章、中值滤波和腐蚀对印章进行去噪和增强、边缘检测提取印章轮廓、以及霍夫检测确定印章圆心和半径的一系列提取和识别操作后,可以确定印章信息。
对日期信息进行提取,需要对待审查文件的落款处的日期的有效性进行审查,从而判断待审查文件的有效性,利用OCR文字识别技术进行识别提取的过程为:
基于OCR文字识别技术,识别所述待审查文件中的文本信息,并从文本信息中提取所述日期信息。
使用OCR文字识别技术将待审查文件中所有文本转换为文字后,从文本信息中提取日期信息,包括:在所述文本信息的行区域中,筛选文本字数少于等于预设字数的文本和/或文本长度小于预设长度的文本等于作为候选日期;在所述候选日期中,筛选符合预设日期格式的文本作为日期信息。
具体地,在提取日期信息中,本实施例具体可通过三个方面对文本进行筛选,找到符合条件的日期,(1)首先,根据相关公文印制规定,成文时间右空4字,加盖印章应上距正文2mm~4mm,端正、居中下压成文时间,印章用红色,当印章下弧无文字时,采用下套方式,即仅以下弧压在成文时间上;当印章下弧有文字时,采用中套方式,即印章中心线压在成文时间上。通过对大量公文日期进行分析,发现日期位置与印章位置往往有交叉。所以首先根据位置,筛选出所有与印章有交叉的文本,但是这种方式并不一定准确,因为部分审批文件的公章会盖在正文上,导致识别错误。(2)从文本字数分析,日期所在行的文本字数往往比较少,大约11个字,从文本长度分析,日期所在行的文本长度一般小于印章直径的2倍。根据这个规律,筛选出字数较少且长度较短的文本区域作为候选日期。(3)从日期格式分析,日期往往有固定的格式,目前存在2种格式的日期,分别为“2010年12月22日”与“二〇一〇年十二月二十二日”,依据这种规则,从文本筛选出符合“XXXX年XX月XXX日”的文本作为最终日期。
经过以上三个方面可以筛选出符合条件的日期信息,由于部分审批文件的公章会盖在正文导致日期识别有误的情况,也可仅采用后面两种方法确定符合条件的日期信息。
对关键词信息进行提取,在待审查文件中,往往包含一些特定的、与业务判别结果高度相关的关键词,例如不存在未批先用、报批材料齐全,将这些文字检测出来将提高业务审批效率。利用OCR文字识别技术进行识别提取的过程为:
基于OCR文字识别技术,识别所述待审查文件中的文本信息,并从文本信息中提取所述关键词信息。
使用OCR文字识别技术将待审查文件中所有文本转换为文字后,从文本信息中提取关键词信息,包括:
基于FastR-CNN网络提取目标文本区域,
基于卷积循环神经网络,对所述目标文本区域内的文字内容进行识别得到关键词信息。
在提取关键词前,首先要进行文本区域提取。本实施例具体采用FastR-CNN网络进行文本区域提取,FastR-CNN是建立在快速区域卷积网络方法的基础之上,其通过利用深度卷积网络对所要检测对象的目标特征进行科学合理的有效提取和分类,能够有效提高检测效率。相较于传统的检测技术,FastR-CNN中采用了多项创新性技术,不仅能够提高训练和测试速度,而且还能在一定程度上提高检测精度。
可以理解的是,FastR-CNN网络进行区域提取的过程包括:整个FastR-CNN网络根据其功能的不同,主要可以分为两个部分,即RPN和FastR-CNN。FasterR-CNN采用辅助生成样本的RPN(RegionProposalNetworks)网络,将算法结构分为两个部分,先由RPN网络判断候选框是否为目标,再经分类定位的多任务损失判断目标类型,整个网络流程都能共享卷积神经网络提取的的特征信息,节约计算成本,且解决FastR-CNN算法生成正负样本候选框速度慢的问题,同时避免候选框提取过多导致算法准确率下降。对于受限场景的文字检测,FasterR-CNN的表现较为出色,可以通过多次检测确定不同粒度的文本区域。其中的RPN是一种全卷积的网络形式,所输入的数据主要是图像类型。在RPN卷积中的1至ReLU5层主要是通用结构部分,主要是由5个卷积层、2个池化层以及2个归一化层,按照一定的排列顺序组成的,所采用的激活函数主要是ReLU,窗口在FasterR-CNN中起着重要的作用。在FasterR-CNN的默认配置中,图像的位置有9个窗口。在RPN之后,得到了不同大小的候选区域,不同大小的区域表示不同大小的CNN特征图。接下来需要创建一个有效的结构来处理具有不同大小的特征,感兴趣区域池可以通过将特征映射缩小到相同的大小来简化问题。与具有固定大小的最大池化不同,感兴趣区域池将输入特征图划分为固定数量的大致相等的区域,然后在每个区域上应用最大池化。在固定的ROI池输出作为输入的情况下,最终分类器和回归器的体系结构可以有很多选择。
在提取到关键词所在的目标文本区域后,进一步对目标文本区域内的文字内容进行识别,得到关键词信息,本实施例主要采用卷积循环神经网络对关键词信息进行识别提取。
可以理解的是,卷积循环神经网络(CRNN)提取文字内容的过程包括:CRNN集成了CNN和RNN两种网络的优点。这种方法可以像CNN一样学习图像的特征表示,而不需要对字符进行切割,从而避免了文本切割对识别造成的影响,同时也可以像RNN一样对序列字符进行识别,直接得到识别结果。CRNN的网络结构包含三个部分:卷积层、循环层和转换层,依次从下往上组成。卷积层可以实现对图像中的特征序列提取,用来对字符的描述,其中卷积层的最顶层就是形成的序列特征,然后将这些卷积特征输入到循环层,对这些序列进行预测,最后转换层对预测的序列进行最终的序列识别结果。
经过以上FastR-CNN网络和卷积循环神经网络可以确定关键词信息。
步骤S200、获取审查有效信息,根据所述审查有效信息对所述待审查文件的批文信息执行一致性审查;
具体地,获取印章审查有效信息,根据印章审查有效信息对所述印章信息进行比对,若比对成功则所述印章信息通过一致性审查;
获取日期审查有效信息,根据日期审查有效信息对所述日期信息进行比对,若比对成功则所述日期信息通过一致性审查;
获取关键词审查有效信息,根据关键词审查有效信息对所述关键词信息进行比对,若比对成功则所述关键词信息通过一致性审查。
在自然资源业务审批系统中,预先存储有印章审查有效信息、日期审查有效信息和关键词审查有效信息,印章审查有效信息是指待审查文件中的印章信息为具备审批权力的政务部门的公章或其它法律有效章;日期审查有效信息是指待审查文件中的落款日期为具备法律效力的日期,并以此判断待审查文件是否有效;关键词审查有效信息可以根据审批流程具体设置,比如在待审查文件中增加不存在未批先用、报批材料齐全等关键词信息,可以提高业务审批效率。
通过对提取到的待审查文件中的印章信息、日期信息和关键词信息与预先存储的印章审查有效信息、日期审查有效信息和关键词审查有效信息进行一一比对判断后,判断待审查文件中的印章信息、日期信息和关键词信息是否符合申报要求,若符合申报要求则待审查文件通过一致性审查,若不符合申报要求,则反馈给申报人使其进行申报资料的补正操作等。
步骤S300、构建项目规模分类模型,将通过一致性审查后的所述待审查文件输入到所述项目规模分类模型中,识别所述待审查文件的项目规模。
目前在自然资源业务审查与审批过程中,涉及对项目地理信息进行空间分析方法时只采用单一方法,当遇到复杂的审查业务,单一的空间分析方法效率低、不稳定,甚至会因为分析负载过大导致服务崩溃,不利于系统对文件的审查。本实施例根据历史数据归纳业务审查涉及的空间分析方法,采用集成学习技术对使用效果样本数据进行监督学习,形成梯度增强决策树(GBDT)以及由此形成的随机森林模型,自动将待审查文件根据项目规模进行分类,进而快速选择相应的空间分析方法,并使用新生成样本数据持续学习完善模型,提升业务审查和审批速度。
通过构建项目规模分类模型,分类识别出待审查文件的项目规模,其中,构建项目规模分类模型的具体步骤包括:
基于XGBoost算法库,提取每个训练样本的特征值,并标记每个所述训练样本执行空间分析检查所需的分析耗时;
根据所述训练样本的特征值和分析耗时对项目规模分类模型进行训练;
所述特征值包括所述地理信息中的项目面积、地块数和坐标点数。
可以理解的是,梯度增强决策树是回归树,调整后也可以用于分类。回归树总体流程类似于分类树,区别在于,回归树的每一个节点都会得一个预测值,以项目空间分析耗时为例,决策树每个节点预测值等于这个节点的所有项目空间分析耗时平均值。分枝时穷举所有特征值(项目面积、地块数、坐标点数)的每个阈值,并找最好的分割点,衡量最优的标准是最小化平方误差(分类树为最大信息熵)。通过最小化平方误差能够找到最可靠的分枝依据。分枝直到每个叶子节点上项目的空间分析耗时都唯一或者达到预设的终止条件(如节点个数上限)。
可以理解的是,XGBoost是一个优化的分布式梯度增强算法库,特点是高效灵活的实现梯度增强决策树。它是在梯度增强框架下实现机器学习算法。XGBoost是对梯度增强决策算法的改进,求解损失函数极值时使用了牛顿法,将损失函数泰勒展开到二阶,另外损失函数中加入了正则化项。训练时的目标函数由两部分构成,第一部分为梯度提升算法损失,第二部分为正则化项。损失函数定义为:
Figure 423590DEST_PATH_IMAGE006
其中n为训练函数样本数,l是对单个样本的损失,假设它为凸函数,
Figure 744850DEST_PATH_IMAGE008
为模型对 训练样本的预测值,
Figure 154972DEST_PATH_IMAGE010
为训练样本的真实标签值。正则化项定义了模型的复杂程度:
Figure 423142DEST_PATH_IMAGE012
其中,γ和λ为设置的参数,w为决策树所有叶子节点值形成的向量,T为叶子节点数。
经过以上XGBoost算法库,采用样本数据中的特征值包括项目面积、地块数,样本数据中的标签值包括分析耗时,利用特征值和标签值训练得到项目规模分类模型。经实际训练结果得到,在经过10000次训练后,精度不再下降,由此导出决策分类树作为项目规模分类模型。
步骤S400、根据所述待审查文件的项目规模,采用相应的空间分析方法对所述待审查文件的地理信息执行空间分析审查。
根据项目规模分类模型分类得到的所述待审查文件的项目规模包括大型项目、中型项目和小型项目,将待审查文件输入到项目规模分类模型后,识别得到待审查文件的项目规模,
当识别出所述待审查文件的项目规模为大型项目时,采用FME空间分析方法对所述待审查文件的地理信息执行空间分析;
当识别出所述待审查文件的项目规模为中型项目时,采用GP空间分析方法对所述待审查文件的地理信息执行空间分析;
当识别出所述待审查文件的项目规模为小型项目时,采用Rest API空间分析方法对所述待审查文件的地理信息执行空间分析。
可以理解的是,FME的英文全拼是Feature Manipulate Engine,作为GIS数据转换平台,它能够实现100多种数据格式(模型)的相互转换。如果从技术层面上说,FME 不再将数据转换问题看作是从一种格式到另一种格式的变换,而是完全致力于将GIS 要素同构化并向用户提供组件以使用户能够将数据处理为所需的表达方式。事实上,许多GIS用户为了在同一系统中获得不同的数据表达方式,也使用FME来操纵数据。FME 也提供一套空间分析方案,能够有效的处理复杂的空间分析计算。FME分析的优点是对大型复杂型项目进行分析时速度较快,缺点是系统启动时间较慢,对小型项目分析时间反而速度没有前两种方案快。另外FME的节点数有限,不能同时展开多个项目的分析,必须排队处理。
可以理解的是,GP服务,即Geoprocessing Service,意为地理处理服务,是将Arctoolbox中的工具或ModelBuilder中创建的工具发布为服务,以供Arcgis API ForJavascript调用工具服务,辅助分析处理功能进行开发。本实施例所说的GP服务是指某些指定的分析模型而制定分析服务,如土地规划分析模型,基本农田压覆分析模型等。GP 服务的优点是处理大型项目空间分析时较快,缺点是过于依赖arcgis 服务器,当项目过多时必须依靠arcgis服务器自身的负载均衡来减轻服务器的计算压力,适合处理中型规模的项目。
可以理解的是,REST API 也称为 RESTful API,是遵循 REST 架构规范的应用编程接口。应用编程接口(API)是一组用于构建和集成应用软件的定义和协议。可以把它们当做信息提供者和信息用户之间的合同——建立消费者(呼叫)所需的内容和制作者(响应)要求的内容。ArcGIS 平台提供了丰富的REST风格的web服务,以ArcGIS REST API方式对外提供,我们通过ArcGISREST API可以访问地图服务、要素服务、影像服务、地理处理服务等多种类型的Web服务,这些服务可以来自Portal、online或是Arcgis server。本实施例所用的Rest API 服务是指使用Arcgis 提供的各种基础的空间计算服务,再通过组合,封装为空间分析服务。Rest API 的优点在于体量较轻,可以部署在任何一台服务器上,由于其使用的是基础的空间计算服务,从软件层面上更容易处理arcgis服务器的负载均衡,如可以对请求做排队处理,或者多线程处理。对简单图形处理的速度非常快,消耗资源较少。适合处理简单小型项目(占项目的大多数)。
经实验验证,本实施例根据待审查文件的项目规模复杂度自动进行空间分析匹配的技术方案,具备以下的效果:
1.空间分析速度得到极大提升
在自然资源行政审批的空间审查工作中,单个图层的平均分析时长由原来的26秒缩短至10.5秒,分析耗时缩短约60%,空间分析速度得到了极大的提升。
2.系统处理能力明显增强
目前整个平台共有地图服务1099层,其中各地市州地图服务中现状类服务和规划类服务使用频率最高,此两类图层分析服务平均每日使用达到610次,所有图层分析使用平均每日达到1300多次,系统的空间图层分析能力明显增强。
实施例2
本发明还提供另一种优选实施方式是,一种自然资源业务流程审查系统,包括:
提取模块,用于获取待审查文件,提取所述待审查文件的批文信息和地理信息;
有效审查模块,用于获取审查有效信息,根据所述审查有效信息对所述待审查文件的批文信息执行一致性审查;
分类模块,用于构建项目规模分类模型,将通过一致性审查后的所述待审查文件输入到所述项目规模分类模型中,识别所述待审查文件的项目规模;
空间审查模块,用于根据所述待审查文件的项目规模,采用相应的空间分析方法对所述待审查文件的地理信息执行空间分析审查。
本实施例一种自然资源业务流程审查系统是实施例1方法对应的系统,具体可参考实施例1中自然资源业务流程审查方法内容。
本发明还提供另一种优选实施方式是,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述的自然资源业务流程审查方法的步骤。
本发明还提供另一种优选实施方式是,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的自然资源业务流程审查方法的步骤。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种自然资源业务流程审查方法,其特征在于,包括:
获取待审查文件,提取所述待审查文件的批文信息和地理信息;
获取审查有效信息,根据所述审查有效信息对所述待审查文件的批文信息执行一致性审查;
构建项目规模分类模型,将通过一致性审查后的所述待审查文件输入到所述项目规模分类模型中,识别所述待审查文件的项目规模;
根据所述待审查文件的项目规模,采用相应的空间分析方法对所述待审查文件的地理信息执行空间分析审查。
2.根据权利要求1所述的一种自然资源业务流程审查方法,其特征在于,
所述待审查文件的批文信息包括印章信息、日期信息和关键词信息;
所述提取所述待审查文件的批文信息,包括:
基于HSV色彩识别技术,提取所述待审查文件中预设颜色印章,并基于边缘提取和霍夫检测,对所述预设颜色印章进行处理得到所述印章信息;
基于OCR文字识别技术,识别所述待审查文件中的文本信息,并从文本信息中提取所述日期信息和所述关键词信息。
3.根据权利要求2所述的一种自然资源业务流程审查方法,其特征在于,
所述获取审查有效信息,根据所述审查有效信息对所述待审查文件的批文信息执行一致性审查,包括:
获取印章审查有效信息,根据印章审查有效信息对所述印章信息进行比对,若比对成功则所述印章信息通过一致性审查;
获取日期审查有效信息,根据日期审查有效信息对所述日期信息进行比对,若比对成功则所述日期信息通过一致性审查;
获取关键词审查有效信息,根据关键词审查有效信息对所述关键词信息进行比对,若比对成功则所述关键词信息通过一致性审查。
4.根据权利要求2所述的一种自然资源业务流程审查方法,其特征在于,
所述从文本信息中提取日期信息,包括:
在所述文本信息的行区域中,筛选文本字数少于等于预设字数的文本和/或文本长度小于预设长度的文本等于作为候选日期;
在所述候选日期中,筛选符合预设日期格式的文本作为日期信息。
5.根据权利要求2所述的一种自然资源业务流程审查方法,其特征在于,
从文本信息中提取关键词信息,包括:
基于FastR-CNN网络提取目标文本区域,
基于卷积循环神经网络,对所述目标文本区域内的文字内容进行识别得到关键词信息。
6.根据权利要求1所述的一种自然资源业务流程审查方法,其特征在于,
所述构建项目规模分类模型,包括:
基于XGBoost算法库,提取每个训练样本的特征值,并标记每个所述训练样本执行空间分析检查所需的分析耗时;
根据所述训练样本的特征值和分析耗时对项目规模分类模型进行训练;
所述特征值包括所述地理信息中的项目面积、地块数。
7.根据权利要求6所述的一种自然资源业务流程审查方法,其特征在于,
所述待审查文件的项目规模包括大型项目、中型项目和小型项目,
所述根据所述待审查文件的项目规模,采用相应的空间分析方法对所述待审查文件的地理信息执行空间分析审查,包括:
当识别出所述待审查文件的项目规模为大型项目时,采用FME空间分析方法对所述待审查文件的地理信息执行空间分析;
当识别出所述待审查文件的项目规模为中型项目时,采用GP空间分析方法对所述待审查文件的地理信息执行空间分析;
当识别出所述待审查文件的项目规模为小型项目时,采用Rest API空间分析方法对所述待审查文件的地理信息执行空间分析。
8.一种自然资源业务流程审查系统,其特征在于,包括:
提取模块,用于获取待审查文件,提取所述待审查文件的批文信息和地理信息;
有效审查模块,用于获取审查有效信息,根据所述审查有效信息对所述待审查文件的批文信息执行一致性审查;
分类模块,用于构建项目规模分类模型,将通过一致性审查后的所述待审查文件输入到所述项目规模分类模型中,识别所述待审查文件的项目规模;
空间审查模块,用于根据所述待审查文件的项目规模,采用相应的空间分析方法对所述待审查文件的地理信息执行空间分析审查。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的自然资源业务流程审查方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的自然资源业务流程审查方法的步骤。
CN202210498518.7A 2022-05-09 2022-05-09 一种自然资源业务流程审查方法、系统、设备和介质 Active CN114638596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210498518.7A CN114638596B (zh) 2022-05-09 2022-05-09 一种自然资源业务流程审查方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210498518.7A CN114638596B (zh) 2022-05-09 2022-05-09 一种自然资源业务流程审查方法、系统、设备和介质

Publications (2)

Publication Number Publication Date
CN114638596A true CN114638596A (zh) 2022-06-17
CN114638596B CN114638596B (zh) 2022-09-02

Family

ID=81953317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210498518.7A Active CN114638596B (zh) 2022-05-09 2022-05-09 一种自然资源业务流程审查方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN114638596B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118035461A (zh) * 2024-01-18 2024-05-14 广州市城市规划勘测设计研究院有限公司 一种用地批报的知识图谱式问答方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147807A (zh) * 2011-03-10 2011-08-10 南京信息工程大学 基于gis的海量雷电数据时空分析方法
US8620686B1 (en) * 2013-04-08 2013-12-31 Geodimensional Decision Group, LLC Method for dynamic geospatial analysis with collaborative decision making
CN111178718A (zh) * 2019-12-19 2020-05-19 海南大学 公平竞争审查方法、服务器、系统及存储介质
CN112380658A (zh) * 2019-07-29 2021-02-19 汕头市创新勘测设计有限公司 国土空间规划一张图管理系统
CN112966139A (zh) * 2021-02-26 2021-06-15 苍穹数码技术股份有限公司 数据处理方法、装置、电子设备和计算机存储介质
CN113485977A (zh) * 2021-05-12 2021-10-08 浙江浙地自然资源规划设计有限公司 一种基于arcgis自然资源空间数据分析和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147807A (zh) * 2011-03-10 2011-08-10 南京信息工程大学 基于gis的海量雷电数据时空分析方法
US8620686B1 (en) * 2013-04-08 2013-12-31 Geodimensional Decision Group, LLC Method for dynamic geospatial analysis with collaborative decision making
CN112380658A (zh) * 2019-07-29 2021-02-19 汕头市创新勘测设计有限公司 国土空间规划一张图管理系统
CN111178718A (zh) * 2019-12-19 2020-05-19 海南大学 公平竞争审查方法、服务器、系统及存储介质
CN112966139A (zh) * 2021-02-26 2021-06-15 苍穹数码技术股份有限公司 数据处理方法、装置、电子设备和计算机存储介质
CN113485977A (zh) * 2021-05-12 2021-10-08 浙江浙地自然资源规划设计有限公司 一种基于arcgis自然资源空间数据分析和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KONG YUNFENG ETAL: "A Web-based Geographic Hypermedia System:", 《GEO-SPATIAL INFORMATION SCIENCE》 *
杨俊 等: "基于地理处理服务的自然资源资产审计系统设计与实现", 《审计月刊》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118035461A (zh) * 2024-01-18 2024-05-14 广州市城市规划勘测设计研究院有限公司 一种用地批报的知识图谱式问答方法、系统、设备及介质

Also Published As

Publication number Publication date
CN114638596B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN110059694B (zh) 电力行业复杂场景下的文字数据的智能识别方法
CN110516208B (zh) 一种针对pdf文档表格提取的系统及方法
CN111738064B (zh) 一种雾霾图像的雾浓度识别方法
CN109154978B (zh) 用于检测植物疾病的系统和方法
US10445557B2 (en) Learning pixel visual context from object characteristics to generate rich semantic images
CN103577475B (zh) 一种图片自动化分类方法、图片处理方法及其装置
CN103518224B (zh) 用于分析微生物生长的方法
CN109583425A (zh) 一种基于深度学习的遥感图像船只集成识别方法
CN110675368B (zh) 一种融合图像分割与分类的细胞图像语义分割方法
CN111027297A (zh) 一种对图像型pdf财务数据关键表格信息的处理方法
CN114092389A (zh) 一种基于小样本学习的玻璃面板表面缺陷检测方法
CN113505865B (zh) 一种基于卷积神经网络的片材表面缺陷图像识别处理方法
CN108830877A (zh) 岩心体视显微图像定量描述方法
CN113205085B (zh) 一种图像识别方法和装置
CN113761259A (zh) 一种图像处理方法、装置以及计算机设备
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN110097136A (zh) 基于神经网络的图像分类方法
CN110990617B (zh) 一种图片标记方法、装置、设备及存储介质
CN111414951B (zh) 用于图像的细分类方法及装置
CN114638596B (zh) 一种自然资源业务流程审查方法、系统、设备和介质
CN115294377A (zh) 一种道路裂缝的识别系统及方法
CN112419278A (zh) 一种基于深度学习的实木地板分类方法
CN115457327A (zh) 基于视觉的烤后烟烟叶部位分类方法、装置及电子设备
CN113361530A (zh) 使用交互手段的图像语义精准分割及优化方法
CN112445849B (zh) 一种报表分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant