CN113704181B - 一种基于python的标准和规程与图集有效性检验方法 - Google Patents

一种基于python的标准和规程与图集有效性检验方法 Download PDF

Info

Publication number
CN113704181B
CN113704181B CN202110782683.0A CN202110782683A CN113704181B CN 113704181 B CN113704181 B CN 113704181B CN 202110782683 A CN202110782683 A CN 202110782683A CN 113704181 B CN113704181 B CN 113704181B
Authority
CN
China
Prior art keywords
python
atlas
library
procedure
based standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110782683.0A
Other languages
English (en)
Other versions
CN113704181A (zh
Inventor
王振
杨巍
郭智杰
张昆
韩琪
史大新
杨玲玲
孙宇
闫倩倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Coal Handan Design Engineering Co ltd
China Coal Tianjin Design Engineering Co ltd
Original Assignee
China Coal Handan Design Engineering Co ltd
China Coal Tianjin Design Engineering Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Coal Handan Design Engineering Co ltd, China Coal Tianjin Design Engineering Co ltd filed Critical China Coal Handan Design Engineering Co ltd
Priority to CN202110782683.0A priority Critical patent/CN113704181B/zh
Publication of CN113704181A publication Critical patent/CN113704181A/zh
Application granted granted Critical
Publication of CN113704181B publication Critical patent/CN113704181B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Stored Programmes (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

本发明公开了一种基于python的标准和规程与图集有效性检验方法,属于软件信息技术领域,该方法包括以下几个步骤,首先,利用python的thinker库制作可视化界面,实现多行文字输入与office或wps办公文件导入;其次,利用re库实现对文本的正则表达式操作,实现文字及文件中关键信息识别;然后,利用python的逻辑判断语句对检索结果与关键信息进行对比,最后,手动替换异常项目,利用互联网资源实现规范(标准、规程)与图集类出版物的自动化有效性检验,具有检测速度快、准确度高、可操作性强的特点,信息来源依托于互联网公开的信息,没有本地数据库,省去了数据库维护成本。

Description

一种基于python的标准和规程与图集有效性检验方法
技术领域
本发明涉及软件信息技术领域,更具体地说,涉及一种基于python的标准和规程与图集有效性检验方法。
背景技术
常规情况下,设计文件或资料管理文件中规范(标准、规程)与图集有效性检验的工作流程为人工识别上述出版物,在政府、组织及企业网站中进行检索,利用检索结果与设计文件中规范(标准、规程)与图集信息对比,信息一致时,即为有效出版物,信息不一致时,根据检索结果,人工替换设计文件中相关信息。
此种方式需要耗费大量精力去识别文件中出版物信息,并耗费时间在互联网上检索、对比信息,并且极易出现误判。特别是文件管理人员,公司内存储大量的规范(标准、规程)与图集类出版物,每年均要定期检验有效性,以一个30人体量的部门为例,上述出版物可达300余项,受限于人工效率与网络延时,完成全部检索,大约耗时8个小时,根据三体系质量管理办法,检查人需要耗费相同时间进行重复检验。长时间枯燥的工作极易造成精力分散,难以保证正确率。
规范(标准、规程)与图集类出版物数量与种类十分庞大,更新周期不确定,并且随着技术进步与热点局势需要,新出版物的发行也难预计,采用传统的本地数据库存储出版物有效信息的方式,维护成本极高,中、小企业难以承受。有鉴于此,需要一种可以实现有效识别出版物信息、数据依托于联网,能够做到自动识别、自动检索、自动对比的方法。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种基于python的标准和规程与图集有效性检验方法,它可以实现利用互联网资源实现规范(标准、规程)与图集类出版物的自动化有效性检验,具有检测速度快、准确度高、可操作性强的特点,信息来源依托于互联网公开的信息,没有本地数据库,省去了数据库维护成本。
为解决上述问题,本发明采用如下的技术方案:
一种基于python的标准和规程与图集有效性检验方法,包括以下几个步骤:
1)利用thinker库实现可视化的文件与文本输入;
2)利用openpyxl库实现对电子表格文件中内容读取与修改操作;
3)利用docx库实现对电子文档文件中内容读取与修改操作;
4)利用thinker库实现多行文字读取与替换操作;
5)根据国家出版物公开信息中规范(标准、规程)与图集类出版物命名原则,编制信息识别正则表达式,利用re库实现对文本的正则表达式操作,实现在文本中识别规范(标准、规程)与图集类出版物关键信息的字符串;
6)利用bs4、requests网址解析库,在政府、组织及企业的公开网站中检索正则表达式识别的关键信息,利用python逻辑判断语句实现识别信息与检索结果对比;
7)对比结果一致时,利用python循环结构,循环执行5)、6)步骤,直至全部对比检验完毕;
8)对比不一致时,执行2)、3)、4)步骤,人工手动利用thinker库、openpyxl库、docx库实现正则表达式所选区域字符的替换,再将替换后的规范(标准、规程)利用python循环结构,继续循环执行4)、5)步骤,直至全部对比检验完毕。
作为本发明的一种优选方案,所述步骤1)中利用python的thinker库制作可视化界面,可视化界面中具有文字输入、文件导入模块,实现多行文字输入与office或wps办公文件导入。
作为本发明的一种优选方案,所述步骤5)中根据国家出版物公开信息,规范(标准、规程)与图集类出版物一般遵循“编号”+“名称”为命名原则,编号一般以汉语拼音字母、发行时间、阿拉伯数字卷册的组合进行编制,名称一般以数字、英文、汉字、国际单位的组合进行编制,利用上述原则,将利用python的正则表达式库re对文本进行正则表达式编制,实现文字及文件中关键信息识别。
作为本发明的一种优选方案,所述步骤6)中关键信息、检索结果、对比结论均通过thinker库在可视化界面中予以显示,并对异常项目进行标注。
作为本发明的一种优选方案,所述步骤6)中对于检索出的作废出版物,利用条件python的if……else判断语句进行甄别,甄别为作废时,利用正则表达式识别的“编号”信息去除发行年份后,再次检索,以查找的现行版本。
作为本发明的一种优选方案,所述步骤8)中利用thinker库的鼠标事件绑定功能,双击异常项实现文字、文件中内容替换。
作为本发明的一种优选方案,所述步骤7)和步骤8)中利用python的for循序语句实现正则表达式筛选信息遍历,最后一项内容对比检验完成后,退出循环,否则继续循环。
作为本发明的一种优选方案,所述步骤2)中的文件格式为.xlsx。
作为本发明的一种优选方案,所述步骤3)中的文件格式为.docx。
作为本发明的一种优选方案,所述步骤8)中对比不一致时,选择不替换会直接结束校检循环。
相比于现有技术,本发明的优点在于:
本发明可以利用互联网资源实现规范(标准、规程)与图集类出版物的自动化有效性检验,具有检测速度快、准确度高、可操作性强的特点,信息来源依托于互联网公开的信息,没有本地数据库,省去了数据库维护成本。
附图说明
图1为本发明的工作流程图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”、“顶/底端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容理解的更加透彻全面。需要说明的是,当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例:
请参阅图1,一种基于python的标准和规程与图集有效性检验方法,包括以下几个步骤:
1)利用thinker库实现可视化的文件与文本输入;
利用python的thinker库制作可视化界面,可视化界面中具有文字输入、文件导入模块,实现多行文字输入与office或wps办公文件导入,适用于不同版本的规范(标准、规程)的导入,从而提高本发明的适用范围,提高实用性。
2)利用openpyxl库实现对电子表格文件(文件格式为.xlsx)中内容读取与修改操作;
3)利用docx库实现对电子文档文件(文件格式为.docx)中内容读取与修改操作;
4)利用thinker库实现多行文字读取与替换操作;
5)根据国家出版物公开信息中规范(标准、规程)与图集类出版物命名原则,编制信息识别正则表达式,利用re库实现对文本的正则表达式操作,实现在文本中识别规范(标准、规程)与图集类出版物关键信息的字符串;
根据国家出版物公开信息,规范(标准、规程)与图集类出版物一般遵循“编号”+“名称”为命名原则,编号一般以汉语拼音字母、发行时间、阿拉伯数字卷册的组合进行编制,名称一般以数字、英文、汉字、国际单位的组合进行编制,利用上述原则,将利用python的正则表达式库re对文本进行正则表达式编制,实现文字及文件中关键信息识别。
6)利用bs4、requests网址解析库,在政府、组织及企业的公开网站中检索正则表达式识别的关键信息,利用python逻辑判断语句实现识别信息与检索结果对比;
对于检索出的作废出版物,利用条件python的if……else判断语句进行甄别,甄别为作废时,利用正则表达式识别的“编号”信息去除发行年份后,再次检索,以查找的现行版本,利用作废出版物快速查找处现行版本,提高检索效率。
关键信息、检索结果、对比结论均通过thinker库在可视化界面中予以显示,并对异常项目进行标注,利用可视化界面直接显示关键信息、检索结果、对比结论更加直观,便于工作人员根据结果进行操作。
7)对比结果一致时,利用python循环结构,循环执行5)、6)步骤,直至全部对比检验完毕;
利用python的for循序语句实现正则表达式筛选信息遍历,最后一项内容对比检验完成后,退出循环,否则继续循环。
8)对比不一致时,执行2)、3)、4)步骤,人工手动利用thinker库、openpyxl库、docx库实现正则表达式所选区域字符的替换,再将替换后的规范(标准、规程)利用python循环结构,继续循环执行4)、5)步骤,直至全部对比检验完毕,选择不替换会直接结束校检循环。
利用thinker库的鼠标事件绑定功能,双击异常项实现文字、文件中内容替换。
利用thinker库实现可视化的文件与文本输入,利用python的正则表达式库re进行正则表达式编制,实现文字及文件中关键信息识别,然后利用互联网资源实现规范(标准、规程)与图集类出版物的自动化有效性检验,全过程只有替换环节需要人工干预,其余环节均可依靠程序自动执行。本发明具有检测速度快、准确度高、可操作性强的特点,信息来源依托于互联网公开的信息,没有本地数据库,省去了数据库维护成本。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其改进构思加以等同替换或改变,都应涵盖在本发明的保护范围内。

Claims (10)

1.一种基于python的标准和规程与图集有效性检验方法,其特征在于,包括以下几个步骤:
1)利用thinker库实现可视化的文件与文本输入;
2)利用openpyxl库实现对电子表格文件中内容读取与修改操作;
3)利用docx库实现对电子文档文件中内容读取与修改操作;
4)利用thinker库实现多行文字读取与替换操作;
5)根据国家出版物公开信息中规范与图集类出版物命名原则,编制信息识别正则表达式,利用re库实现对文本的正则表达式操作,实现在文本中识别规范与图集类出版物关键信息的字符串;
6)利用bs4、requests网址解析库,在政府、组织及企业的公开网站中检索正则表达式识别的关键信息,利用python逻辑判断语句实现识别信息与检索结果对比;
7)对比结果一致时,利用python循环结构,循环执行5)、6)步骤,直至全部对比检验完毕;
8)对比不一致时,执行2)、3)、4)步骤,人工手动利用thinker库、openpyxl库、docx库实现正则表达式所选区域字符的替换,再将替换后的规范利用python循环结构,继续循环执行4)、5)步骤,直至全部对比检验完毕。
2.根据权利要求1所述的一种基于python的标准和规程与图集有效性检验方法,其特征在于:所述步骤1)中利用python的thinker库制作可视化界面,可视化界面中具有文字输入、文件导入模块,实现多行文字输入与office或wps办公文件导入。
3.根据权利要求1所述的一种基于python的标准和规程与图集有效性检验方法,其特征在于:所述步骤5)中根据国家出版物公开信息,规范与图集类出版物遵循“编号”+“名称”为命名原则,编号以汉语拼音字母、发行时间、阿拉伯数字卷册的组合进行编制,名称以数字、英文、汉字、国际单位的组合进行编制,利用上述原则,将利用python的正则表达式库re对文本进行正则表达式编制,实现文字及文件中关键信息识别。
4.根据权利要求1所述的一种基于python的标准和规程与图集有效性检验方法,其特征在于:所述步骤6)中关键信息、检索结果、对比结论均通过thinker库在可视化界面中予以显示,并对异常项目进行标注。
5.根据权利要求1所述的一种基于python的标准和规程与图集有效性检验方法,其特征在于:所述步骤6)中对于检索出的作废出版物,利用条件python的if……else判断语句进行甄别,甄别为作废时,利用正则表达式识别的“编号”信息去除发行年份后,再次检索,以查找的现行版本。
6.根据权利要求1所述的一种基于python的标准和规程与图集有效性检验方法,其特征在于:所述步骤8)中利用thinker库的鼠标事件绑定功能,双击异常项实现文字、文件中内容替换。
7.根据权利要求1所述的一种基于python的标准和规程与图集有效性检验方法,其特征在于:所述步骤7)和步骤8)中利用python的for循序语句实现正则表达式筛选信息遍历,最后一项内容对比检验完成后,退出循环,否则继续循环。
8.根据权利要求1所述的一种基于python的标准和规程与图集有效性检验方法,其特征在于:所述步骤2)中的文件格式为.xlsx。
9.根据权利要求1所述的一种基于python的标准和规程与图集有效性检验方法,其特征在于:所述步骤3)中的文件格式为.docx。
10.根据权利要求1所述的一种基于python的标准和规程与图集有效性检验方法,其特征在于:所述步骤8)中对比不一致时,选择不替换会直接结束校检循环。
CN202110782683.0A 2021-07-12 2021-07-12 一种基于python的标准和规程与图集有效性检验方法 Active CN113704181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110782683.0A CN113704181B (zh) 2021-07-12 2021-07-12 一种基于python的标准和规程与图集有效性检验方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110782683.0A CN113704181B (zh) 2021-07-12 2021-07-12 一种基于python的标准和规程与图集有效性检验方法

Publications (2)

Publication Number Publication Date
CN113704181A CN113704181A (zh) 2021-11-26
CN113704181B true CN113704181B (zh) 2024-01-30

Family

ID=78648479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110782683.0A Active CN113704181B (zh) 2021-07-12 2021-07-12 一种基于python的标准和规程与图集有效性检验方法

Country Status (1)

Country Link
CN (1) CN113704181B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115237863B (zh) * 2022-09-22 2023-01-10 中建电子商务有限责任公司 一种基于wps加载项的excel数据导入方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674250A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 一种文本匹配方法、装置、计算机系统及可读存储介质
CN112948610A (zh) * 2021-02-25 2021-06-11 杭州欧若数网科技有限公司 图查询语言的结果行为验证方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120110003A1 (en) * 2010-11-03 2012-05-03 Microsoft Corporation Conditional execution of regular expressions
WO2021086837A1 (en) * 2019-10-29 2021-05-06 Woolly Labs, Inc. Dba Vouched System and methods for authentication of documents

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674250A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 一种文本匹配方法、装置、计算机系统及可读存储介质
CN112948610A (zh) * 2021-02-25 2021-06-11 杭州欧若数网科技有限公司 图查询语言的结果行为验证方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Python语言的Web数据挖掘与分析研究;杨迎;;现代信息科技;第3卷(第23期);63-65 *

Also Published As

Publication number Publication date
CN113704181A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
US10169337B2 (en) Converting data into natural language form
US10423649B2 (en) Natural question generation from query data using natural language processing system
US9646077B2 (en) Time-series analysis based on world event derived from unstructured content
CN104715064B (zh) 一种实现在网页上标注关键词的方法和服务器
US11354501B2 (en) Definition retrieval and display
US20140006429A1 (en) Generation of technical description of report from functional description of report
US9852217B2 (en) Searching and ranking of code in videos
US10970466B2 (en) Inserting links that aid action completion
US20160063062A1 (en) Code searching and ranking
EP4030300A1 (en) Test cycle optimization using contextual association mapping
US9535822B1 (en) User interface area coverage
US20140282396A1 (en) Computerized system and method for extracting business rules from source code
CN113704181B (zh) 一种基于python的标准和规程与图集有效性检验方法
Abebe et al. Automated identifier completion and replacement
CN113064811B (zh) 基于工作流的自动化测试方法、装置以及电子设备
TWI818713B (zh) 用於自動地將用語指派至文本文件之電腦實施方法、電腦程式產品及電腦系統
Margarov et al. Plagiarism detection system for Armenian language
CN113138926B (zh) 一种网络服务接口评测方法和装置
Benko Language Code Switching in Web Corpora.
Zakaria Measuring Typographical Errors in Online Catalogs of Academic Libraries Using Ballard’s List: A Case Study from Egypt
US10268674B2 (en) Linguistic intelligence using language validator
Kahil Functionality analysis and information retrieval in electronic document management systems
Dirk Riehle et al. A comparison study of open source license crawler
Vitale et al. Using Deep Learning to Automatically Improve Code Readability
Varga et al. Multilingual extraction and editing of concept strings for the legal domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant