CN111815108A - 一种电网工程设计变更与现场签证审批单的评价方法 - Google Patents

一种电网工程设计变更与现场签证审批单的评价方法 Download PDF

Info

Publication number
CN111815108A
CN111815108A CN202010480414.4A CN202010480414A CN111815108A CN 111815108 A CN111815108 A CN 111815108A CN 202010480414 A CN202010480414 A CN 202010480414A CN 111815108 A CN111815108 A CN 111815108A
Authority
CN
China
Prior art keywords
examination
approval
text
image
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010480414.4A
Other languages
English (en)
Inventor
顾闻
陈凯玲
史松峰
韩东
徐雪莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Shanghai Electric Power Co Ltd
Original Assignee
State Grid Shanghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Shanghai Electric Power Co Ltd filed Critical State Grid Shanghai Electric Power Co Ltd
Priority to CN202010480414.4A priority Critical patent/CN111815108A/zh
Publication of CN111815108A publication Critical patent/CN111815108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种电网工程设计变更与现场签证审批单的评价方法,包括以下步骤:S1:获取电网工程设计变更与现场签证的审批单图像,进行预处理;S2:对审批单图像中的文字信息进行文字识别;S3:获取标准电子审批单中的文字信息;S4:根据搜索定位条件,分别从审批单图像和标准电子审批单中搜索得到对应的文字信息;S5:重复步骤S4,直至完成所有文字的文本相似度计算;S6:比较计算得到的各文本相似度是否均达到设定阈值,若是,则审批单评价结果为合格,否则审批单评价结果为不合格,与现有技术相比,本发明具有实现审批单智能评价,提高审查效率等优点。

Description

一种电网工程设计变更与现场签证审批单的评价方法
技术领域
本发明涉及电网设计变更审批领域,尤其是涉及一种电网工程设计变更与现场签证审批单的评价方法。
背景技术
设计变更是指工程实施过程中因设计或非设计原因引起的对施工图设计文件的改变。设计原因是指设计单位施工图成品文件中存在问题和错误;非设计原因是指工程建设施工现场、外部条件发生了改变,或建设管理单位、项目法人单位的要求发生了改变。从合同的角度看,不论因为什么原因导致的设计变更,必须首先由一方提出,因此可以分为发包人提出的原设计变更和承包人提出的原设计变更两种。
其中设计变更与现场签证审批流程主要分为三个阶段:提出、审批和执行。具体流程一般是由业主项目部开始提出设计变更与现场签证申请,由建设管理单位审批是否符合条件,再到省公司级单位基建管理部门负责审批,最终到国网基建部审批,审批全部通过后最终执行设计变更与现场签证。
第一,一般设计变更与现场签证发生后,提出单位应及时通知相关单位,建设管理单位组织各单位7天内完成审批。第二,重大设计变更与现场签证发生后,提出单位应及时通知相关单位,经建设管理单位审核上报省公司级单位,由省公司级单位组织各单位14天内完成审批。第三,设计变更与现场签证批准后,由监理单位下发现场执行。
目前,纸质文件仍是国网企业文件的主要形式,成功地实现国网企业纸质文件的数字化处理对于工程项目的数字化具有十分重要的意义。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种提高审批单评价效率和智能化的电网工程设计变更与现场签证审批单的评价方法。
本发明的目的可以通过以下技术方案来实现:
一种电网工程设计变更与现场签证审批单的评价方法,包括以下步骤:
S1:获取电网工程设计变更与现场签证的审批单图像,进行预处理;
S2:对审批单图像中的文字信息进行文字识别;
S3:获取标准电子审批单中的文字信息;
S4:根据搜索定位条件,分别从审批单图像和标准电子审批单中搜索得到对应的文字信息;
S5:重复步骤S4,直至完成所有文字的文本相似度计算;
S6:比较计算得到的各文本相似度是否均达到设定阈值,若是,则审批单评价结果为合格,否则审批单评价结果为不合格。
所述的文字信息包括标准字体文字信息、手写字体文字信息和图章文字信息。
所述的步骤S2具体包括:
S21:采用Python的PIL库和pylab库,分别切割出含有标准字体和手写字体的目标图像;
S22:利用CFS连通域分割法,将目标图像中的每个文字进行字符切分,生成单个文字的图像;
S23:通过Open CV对图章进行抠图,提取审批单图像中的红色部分;
S24:利用文字识别API对包含标准字体和手写字体的图像进行文字识别;
S24:利用Python的第三方库,实现word文件的写入与存储,得到word格式的电子审批单中的文字信息。
所述的标准电子审批单中为word版电子审批单,所述的步骤S3具体包括:采用Hierarchical版面切割方法对标准电子审批单进行切割,获取审批单图像中手写字体、标准字体和盖章对应的文字信息。
所述的搜索定位条件包括第一定位关键词和第二定位关键词。
所述的步骤S4具体包括:
S41:同时并列搜索第一定位关键词和第二定位关键词,获取审批单图像和标准电子审批单中的同一文字信息;
S42:分别提取审批单图像文字信息和标准电子审批单文字信息中的动词序列;
S43:基于动词序列计算审批单图像文字信息和标准电子审批单文字信息的语法相似度f1
S44:计算纸审批单图像文字信息和标准电子审批单文字信息的语义相似度f2
S45:结合语法相似度f1和语义相似度f2,计算审批单图像文字信息和标准电子审批单文字信息的文本相似度f。
所述的步骤S43具体包括:
S431:将审批单图像文字信息和标准电子审批单文字信息的动词序列分别作为特征字符串;
S432:获取审批单图像文字信息特征字符串到标准电子审批单文字信息特征字符串的公共子串个数,记为第一公共子串个数;
S433:获取标准电子审批单文字信息特征字符串到审批单图像文字信息特征字符串的公共子串个数,记为第二公共子串个数;
S434:选取第一公共子串个数和第二公共子串个数中最大公共子串个数,作为实际公共子串个数;
S435:利用实际公共子串个数,计算第一文本与第二文本的语法相似度f1
所述的语义相似度f2通过基于语义空间向量模型的TF-IDF计算。
所述的语法相似度f1的计算公式为:
Figure BDA0002517137620000031
其中,c为实际公共子串个数,a为审批单图像文字信息的动词序列中动词的个数,b为标准电子审批单文字信息的动词序列中动词的个数;
所述的文本相似度计算式为:
f=α*f1+β*f2
其中,α为语法加权系数,其值优选为0.4,β为语义加权系数,其值优选为0.6,该值根据文中语法结构、语义结构在度量文本相似性时的权重确定。
所述的设定阈值包括文字部分阈值和数字部分阈值,所述的文字部分阈值的取值为90%,所述的数字部分阈值的取值为100%。
与现有技术相比,本发明具有以下优点:
1)本发明将审批单中的文字信息分为标准字体、手写字体和盖章,并分别对不同的文字信息采用不同的方式进行文字提取识别,能够提高识别准确率和识别效率;
2)本发明通过设置两个定位关键词,并通过同时并列的形式,对文字信息进行搜索定位,可以准确定位得到同一文字信息,提高审批单评价的可靠性;
3)本发明通过基于动词的文本相似度计算方法,提取文字信息的文本特征串,结合串匹配算法,计算出文本语法相似度f1,并根据IFIDF方法,利用语义主题作为向量空间的维度提取文本的特征向量,计算出语义相似性f2,算法简单,提高审批单评价的计算速度和精度;
4)本发明根据文字信息内容为文字还是数字,设置不同的阈值,符合实际情况,提高审批单评价的可靠性和实用性。
附图说明
图1为本发明方法步骤示意图;
图2为审批单文字信息识别的整体流程图;
图3为语法相似度计算过程示意图;
图4为语义相似度计算过程示意图;
图5为实施例中文本A到文本B的公共子串个数示意图;
图6为实施例中文本B到文本A的公共子串个数示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
实施例
如图1所示,本发明提供一种电网工程设计变更与现场签证审批单的评价方法,包括以下步骤:
S1:获取电网工程设计变更与现场签证的审批单图像,进行预处理;
S2:对审批单图像中的文字信息进行文字识别,具体包括:
S21:采用Python的PIL库和pylab库,分别切割出含有标准字体和手写字体的目标图像;
S22:利用CFS连通域分割法,将目标图像中的每个文字进行字符切分,生成单个文字的图像;
S23:通过Open CV对图章进行抠图,提取审批单图像中的红色部分;
S24:利用文字识别API对包含标准字体和手写字体的图像进行文字识别;
S24:利用Python的第三方库,实现word文件的写入与存储,得到word格式的电子审批单中的文字信息;
S3:获取标准电子审批单中的文字信息;
S4:根据搜索定位条件,分别从审批单图像和标准电子审批单中搜索得到对应的文字信息,具体包括:
S41:同时并列搜索第一定位关键词和第二定位关键词,获取审批单图像和标准电子审批单中的同一文字信息;
S42:分别提取审批单图像文字信息和标准电子审批单文字信息中的动词序列;
S43:基于动词序列计算审批单图像文字信息和标准电子审批单文字信息的语法相似度f1
S44:计算纸审批单图像文字信息和标准电子审批单文字信息的语义相似度f2
S45:结合语法相似度f1和语义相似度f2,计算审批单图像文字信息和标准电子审批单文字信息的文本相似度f;
S5:重复步骤S4,直至完成所有文字的文本相似度计算;
S6:比较计算得到的各文本相似度是否均达到设定阈值,若是,则审批单评价结果为合格,否则审批单评价结果为不合格,设定阈值包括文字部分阈值和数字部分阈值,所述的文字部分阈值的取值为90%,所述的数字部分阈值的取值为100%。
纸质设计变更审批单中需要进行审查的内容主要包括三类,分别是标准字体、手写字体和盖章。对于它们的智能审查,标准字体、手写字体与盖章的智能审查需要先进行文字识别,然后进行风险评价。
由于设计变更与现场签证审批单中含有较多的盖章,所以标准字体、手写字体和签章需要分开进行审查,将照相机拍摄的相片中的这三类字体分别裁剪出来,得到标准字体文字信息、手写字体文字信息和图章文字信息。如图2所示,设计变更与现场签证审批单的文字识别包括七个模块,分别为图像采集模块、图像预处理模块、图像裁剪模块、版面分析模块、字符切分模块、文字识别模块和识别信息生成word模块。
其中,版面分析是指对标准电子合同进行分割,切割出含有文字信息的部分,本发明中采用Hierarchical版面切分方法。Hierarchical版面切分方法包括top-down切分方法和bottom-up切分方法,本实施例中优选采用top-down方法,top-down切分方法是将整个版面作为对象,通过对整个版面的信息分析,利用此结果对文档依次进行切分。这种方法简单粗暴,对文档可以快速的拆分,由于工作中遇到的图像都是单纯地含有文字信息,Hierarchical版面切分方法不但不会水土不服,而且由于自身应对复杂版面设计的不足,反而更加能在工作中提高效率。
字符切分的目的是将裁剪后的目标图像中的每个文字切割出来,生成单个文字的图像。如若此过程文字切分不准确,那么系统将很难获取准确的文字特征,这样一来文字识别会出现很大偏差。在实际应用中会有很多因素干扰从而使切分工作复杂化,例如字体不同,大小不一,或者二值化处理后的清晰程度,都将对整个识别结果产生千差万别的影响。但这些因素干扰较小,最大干扰为照片获取时光源造成的扫描件清晰程度以及摄像头对焦清晰度,这些会对二值化后的图像产生或多或少的影响。字符切分有很多算法,本发明选择CFS连通域分割法,其原理为假定每个文字都由一个单独的连通域组成,换言之就是无粘连,找到一个黑色像素并开始判断,直到所有相连的黑色像素都被遍历标记过后即可判断出这个文字的分割位置。
文字识别选择采用Tesseract文字识别引擎或者OCR文字识别服务中提供的文字识别API,识别出来的文字需要利用Python储存以便最终评价合同使用,Python的第三方库可以实现word文件的写入与存储。
在纸质设计变更与现场签证审批单被转化为word文件,原本即为word文件的标准电子设计变更与现场签证审批单经过版面分析切割出含有需要评价的部分之后,在此基础上,需要在这两个经过裁剪与转化后形成的word文件中搜索出同一待评价项,方便后续相似度比对。本发明采用的方法是,为两份文件上的每一个待评价项设置相同的定位关键词段进行搜索。由于设计变更与现场签证审批单内容简单,通过两个定位关键词即可完成搜索定位。根据分析,设计变更与现场签证审批单各个待评价项的搜索定位条件见表1。
表1设计变更与现场签证审批单待评价项的搜索定位条件及标准内容
Figure BDA0002517137620000061
Figure BDA0002517137620000071
在两个经过裁剪与转化后形成的word文件中分别搜索出同一待评价项后,通过计算文本相似度进行评价,文本相似度的计算一共包括三大部分,一是通过提取动词,对两篇文本进行语法相似度f1的计算,二是通过提取特征项,利用TF-IDF加权法进行语义相似度f2的计算,最后是将语法相似度f1和语义相似度f2结合,得到文本相似度f。
(一)通过提取动词,对两篇文本进行语法相似度f1的计算,具体包括以下步骤:
S431:将审批单图像文字信息和标准电子审批单文字信息的动词序列分别作为特征字符串;
S432:获取审批单图像文字信息特征字符串到标准电子审批单文字信息特征字符串的公共子串个数,记为第一公共子串个数;
S433:获取标准电子审批单文字信息特征字符串到审批单图像文字信息特征字符串的公共子串个数,记为第二公共子串个数;
S434:选取第一公共子串个数和第二公共子串个数中最大公共子串个数,作为实际公共子串个数;
S435:利用实际公共子串个数,计算审批单图像文字信息与标准电子审批单文字信息的语法相似度f1
如图3所示,假定审批单图像文字信息与标准电子审批单文字信息分别为文本A和文本B,在分别获得动词序列后,可以将动词序列看作一个字符串,得到文本A特征字符串和文本B特征字符串,两个动词序列的相似性可以通过计算两个特征字符串的公共子串的个数来获得,假设文本A的动词序列为V1、V2、V3、V2和V4,文本B的动词序列为V1、V3、V2和V4。则文本A特征字符串到文本B特征字符串的公共子串个数如图5所示,文本B特征字符串到文本A特征字符串公共子串的个数如图6所示。由图5和图6可得,文本A特征字符串到文本B特征字符串的公共子串个数为3,文本B特征字符串到文本A特征字符串的公共子串个数为4,取两者中大的公共子串个数作为实际公共子串个数,得到实际公共子串个数为4。
最后通过语法相似度f1的计算公式计算,其计算公式为:
Figure BDA0002517137620000081
其中,c为实际公共子串个数,a为审批单图像文字信息的动词序列中动词的个数,b为标准电子审批单文字信息的动词序列中动词的个数。
(二)通过提取特征项,利用TF-IDF加权法进行语义相似度f2的计算,具体包括以下步骤:
S441:基于语义向量空间模型,构建语义主题空间P中的特征项向量表;
其中S441具体包括:
S4411:确定语义向量空间模型中使用的语义主题集合VT={τ12,…,τd},确定语义主题空间P;
S4412:确定语义向量空间模型中非语义主题的文本特征项,记为集合VN
S4413:将语义主题和特征项表示为集合V,以集合的元素为结点,元素之间的语义关系为边,组织语义关联图G=〈V,E>;
S4414:根据语义关联图G=〈V,E>,确定所有语义主题对应的向量;
S4415:计算各个特征项的向量表示,构建语义主题空间P中的特征项向量表。
S442:分别提取审批单图像文字信息和标准电子审批单文字信息中所有的特征项,得到审批单图像文字信息特征项集合和标准电子审批单文字信息特征项集合;
S443:分别统计审批单图像文字信息特征项集合和标准电子审批单文字信息特征项集合中各特征项的出现次数;
S444:利用特征项向量表,获取审批单图像文字信息特征项集合和标准电子审批单文字信息特征项集合中各特征项对应的特征项向量;
S445:根据特征项向量,计算审批单图像文字信息对应的特征向量和标准电子审批单文字信息对应的特征向量,并分别做标准化处理,得到审批单图像文字信息特征向量和标准电子审批单文字信息特征向量;
审批单图像文字信息对应的特征向量
Figure BDA0002517137620000091
的计算式为:
Figure BDA0002517137620000092
其中,fi,k为审批单图像文字信息特征项集合中第k个特征项出现的次数,n为审批单图像文字信息中所有特征项的个数,
Figure BDA0002517137620000093
为审批单图像文字信息特征项集合中第k个特征项在语义主题空间P中对应的特征项向量;
标准电子审批单文字信息对应的特征向量
Figure BDA0002517137620000094
的计算式为:
Figure BDA0002517137620000095
其中,fj,k为标准电子审批单文字信息特征项集合中第k个特征项出现的次数,m为标准电子审批单文字信息中所有特征项的个数,
Figure BDA0002517137620000096
标准电子审批单文字信息特征项集合中第k个特征项在语义主题空间P中对应的特征项向量。
S446:根据审批单图像文字信息特征向量和标准电子审批单文字信息特征向量,计算审批单图像文字信息和标准电子审批单文字信息的语义相似度f2
语义相似度f2的计算式为:
Figure BDA0002517137620000097
Figure BDA0002517137620000098
Figure BDA0002517137620000099
其中,
Figure BDA00025171376200000910
为审批单图像文字信息特征向量,
Figure BDA00025171376200000911
为标准电子审批单文字信息特征向量,wi,j为审批单图像文字信息特征向量与标准电子审批单文字信息特征向量之间的夹角。
如图4所示,度量语义相似性可以参考信息检索中的向量模型。向量空间模型的基本思想是以向量来表示文本,可以选择字、词语或者词组作为特征项,本实施例中,优选选择词语作为特征项,同时用词语的相对词频表示向量的分量。
VSM的TF-IDF相似度计算方法,以词语作为文本的特征项,忽略近义词和同义异形词的替换问题,使得计算结果的精准度降低。利用语义词典可以有效解决这个问题。根据语义词典提供的相关词语概念的信息,作为词语相似度的度量,常用的语义词典主要有同义词词林和知网。以语义主题作为向量空间的维度提取特征向量,采用基于语料库统计的方法,首先需要选择一组词的特征,然后将每个词与这组词的特征进行比较,得到一个相关特征向量,通过计算向量的夹角余弦来计算相似度。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种电网工程设计变更与现场签证审批单的评价方法,其特征在于,包括以下步骤:
S1:获取电网工程设计变更与现场签证的审批单图像,进行预处理;
S2:对审批单图像中的文字信息进行文字识别;
S3:获取标准电子审批单中的文字信息;
S4:根据搜索定位条件,分别从审批单图像和标准电子审批单中搜索得到对应的文字信息;
S5:重复步骤S4,直至完成所有文字信息的文本相似度计算;
S6:比较计算得到的各文本相似度是否均达到设定阈值,若是,则审批单评价结果为合格,否则审批单评价结果为不合格。
2.根据权利要求1所述的一种电网工程设计变更与现场签证审批单的评价方法,其特征在于,所述的文字信息包括标准字体文字信息、手写字体文字信息和图章文字信息。
3.根据权利要求2所述的一种电网工程设计变更与现场签证审批单的评价方法,其特征在于,所述的步骤S2具体包括:
S21:采用Python的PIL库和pylab库,分别切割出含有标准字体和手写字体的目标图像;
S22:利用CFS连通域分割法,将目标图像中的每个文字进行字符切分,生成单个文字的图像;
S23:通过Open CV对图章进行抠图,提取审批单图像中的红色部分;
S24:利用文字识别API对包含标准字体和手写字体的图像进行文字识别;
S24:利用Python的第三方库,实现word文件的写入与存储,得到word格式的电子审批单中的文字信息。
4.根据权利要求3所述的一种电网工程设计变更与现场签证审批单的评价方法,其特征在于,所述的标准电子审批单中为word版电子审批单,所述的步骤S3具体包括:采用Hierarchical版面切割方法对标准电子审批单进行切割,获取审批单图像中手写字体、标准字体和盖章对应的文字信息。
5.根据权利要求2所述的一种电网工程设计变更与现场签证审批单的评价方法,其特征在于,所述的搜索定位条件包括第一定位关键词和第二定位关键词。
6.根据权利要求5所述的一种电网工程设计变更与现场签证审批单的评价方法,其特征在于,所述的步骤S4具体包括:
S41:同时并列搜索第一定位关键词和第二定位关键词,获取审批单图像和标准电子审批单中的同一文字信息;
S42:分别提取审批单图像文字信息和标准电子审批单文字信息中的动词序列;
S43:基于动词序列计算审批单图像文字信息和标准电子审批单文字信息的语法相似度f1
S44:计算纸审批单图像文字信息和标准电子审批单文字信息的语义相似度f2
S45:结合语法相似度f1和语义相似度f2,计算审批单图像文字信息和标准电子审批单文字信息的文本相似度f。
7.根据权利要求6所述的一种电网工程设计变更与现场签证审批单的评价方法,其特征在于,所述的步骤S43具体包括:
S431:将审批单图像文字信息和标准电子审批单文字信息的动词序列分别作为特征字符串;
S432:获取审批单图像文字信息特征字符串到标准电子审批单文字信息特征字符串的公共子串个数,记为第一公共子串个数;
S433:获取标准电子审批单文字信息特征字符串到审批单图像文字信息特征字符串的公共子串个数,记为第二公共子串个数;
S434:选取第一公共子串个数和第二公共子串个数中最大公共子串个数,作为实际公共子串个数;
S435:利用实际公共子串个数,计算第一文本与第二文本的语法相似度f1
8.根据权利要求7所述的一种电网工程设计变更与现场签证审批单的评价方法,其特征在于,所述的语义相似度f2通过基于语义空间向量模型的TF-IDF计算。
9.根据权利要求8所述的一种电网工程设计变更与现场签证审批单的评价方法,其特征在于,所述的语法相似度f1的计算公式为:
Figure FDA0002517137610000021
其中,c为实际公共子串个数,a为审批单图像文字信息的动词序列中动词的个数,b为标准电子审批单文字信息的动词序列中动词的个数;
所述的文本相似度计算式为:
f=α*f1+β*f2
其中,α为语法加权系数,其值优选为0.4,β为语义加权系数,其值优选为0.6,该值根据文中语法结构、语义结构在度量文本相似性时的权重确定。
10.根据权利要求1所述的一种电网工程设计变更与现场签证审批单的评价方法,其特征在于,所述的设定阈值包括文字部分阈值和数字部分阈值,所述的文字部分阈值的取值为90%,所述的数字部分阈值的取值为100%。
CN202010480414.4A 2020-05-30 2020-05-30 一种电网工程设计变更与现场签证审批单的评价方法 Pending CN111815108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010480414.4A CN111815108A (zh) 2020-05-30 2020-05-30 一种电网工程设计变更与现场签证审批单的评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010480414.4A CN111815108A (zh) 2020-05-30 2020-05-30 一种电网工程设计变更与现场签证审批单的评价方法

Publications (1)

Publication Number Publication Date
CN111815108A true CN111815108A (zh) 2020-10-23

Family

ID=72847852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010480414.4A Pending CN111815108A (zh) 2020-05-30 2020-05-30 一种电网工程设计变更与现场签证审批单的评价方法

Country Status (1)

Country Link
CN (1) CN111815108A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114140072A (zh) * 2021-11-29 2022-03-04 国网福建省电力有限公司 一种变更签证模块装置
CN114565749A (zh) * 2022-02-21 2022-05-31 国网上海市电力公司 一种电力建设现场签证文档关键内容识别方法及系统
CN115526605A (zh) * 2022-10-21 2022-12-27 金恒智控管理咨询集团股份有限公司 基于企业内部控制管理的审批方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104468120A (zh) * 2014-11-26 2015-03-25 北京数字认证股份有限公司 一种实现电子签章的方法和系统
CN107133571A (zh) * 2017-04-11 2017-09-05 上海众开信息科技有限公司 一种将纸质发票自动生成财务报表的系统及方法
CN107944809A (zh) * 2016-10-12 2018-04-20 北京地厚云图科技有限公司 设计变更、工程洽商或现场签证任务交互方法和装置
CN110163478A (zh) * 2019-04-18 2019-08-23 平安科技(深圳)有限公司 一种合同条款的风险审查方法及装置
CN110246197A (zh) * 2019-05-21 2019-09-17 北京奇艺世纪科技有限公司 验证码字符生成方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104468120A (zh) * 2014-11-26 2015-03-25 北京数字认证股份有限公司 一种实现电子签章的方法和系统
CN107944809A (zh) * 2016-10-12 2018-04-20 北京地厚云图科技有限公司 设计变更、工程洽商或现场签证任务交互方法和装置
CN107133571A (zh) * 2017-04-11 2017-09-05 上海众开信息科技有限公司 一种将纸质发票自动生成财务报表的系统及方法
CN110163478A (zh) * 2019-04-18 2019-08-23 平安科技(深圳)有限公司 一种合同条款的风险审查方法及装置
CN110246197A (zh) * 2019-05-21 2019-09-17 北京奇艺世纪科技有限公司 验证码字符生成方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘小军等: ""一种用于中文文本查重的双因子相似度算法"", 《计算机仿真》, no. 12, pages 1 - 5 *
马泽: ""OCR文字识别技术在不动产数据整合中的应用——以广东省清远市清新区为例"", 《中国优秀硕士学位论文全文数据库基础科学辑》, no. 12, pages 1 - 3 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114140072A (zh) * 2021-11-29 2022-03-04 国网福建省电力有限公司 一种变更签证模块装置
CN114565749A (zh) * 2022-02-21 2022-05-31 国网上海市电力公司 一种电力建设现场签证文档关键内容识别方法及系统
CN115526605A (zh) * 2022-10-21 2022-12-27 金恒智控管理咨询集团股份有限公司 基于企业内部控制管理的审批方法及系统
CN115526605B (zh) * 2022-10-21 2024-03-08 金恒智控管理咨询集团股份有限公司 基于企业内部控制管理的审批方法及系统

Similar Documents

Publication Publication Date Title
CN112100426B (zh) 基于视觉和文本特征的通用表格信息检索的方法与系统
CN109446885B (zh) 一种基于文本的元器件识别方法、系统、装置和存储介质
CN111815108A (zh) 一种电网工程设计变更与现场签证审批单的评价方法
CN107193796B (zh) 一种舆情事件检测方法及装置
US12118813B2 (en) Continuous learning for document processing and analysis
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
CN115905563A (zh) 船舶现场监督知识图谱的构建方法、装置及电子设备
CN118096452B (zh) 一种案件辅助审判方法、装置、终端设备及介质
CN117271716A (zh) 一种基于生成式语言模型的法律法规问答系统及构建方法
US12118816B2 (en) Continuous learning for document processing and analysis
CN111104503A (zh) 一种建筑工程质量验收规范问答系统及其构建方法
TW202207109A (zh) 工程專案文件管理方法與系統
Hirayama et al. Development of template-free form recognition system
CN111950875A (zh) 一种合同智能评审方法
CN111881695A (zh) 一种审计知识的检索方法及装置
Rastogi et al. Information extraction from document images via fca-based template detection and knowledge graph rule induction
CN111815109A (zh) 一种基于图像处理的电网工程合同评价方法
CN111814457B (zh) 一种电网工程合同文本生成方法
CN117077680A (zh) 问答意图识别方法及装置
CN114417860A (zh) 一种信息检测方法、装置及设备
CN113836941A (zh) 一种合同导航方法及装置
Hyun et al. Image recommendation for automatic report generation using semantic similarity
CN110909538A (zh) 问答内容的识别方法、装置、终端设备及介质
Chakraborty et al. TransDocAnalyser: A framework for offline semi-structured handwritten document analysis in the legal domain
CN118503729B (zh) 一种基于行业多模态特征数据的智能合规性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination