CN116303870A - 一种用于燃气管网数据治理的气量值映射方法与系统 - Google Patents
一种用于燃气管网数据治理的气量值映射方法与系统 Download PDFInfo
- Publication number
- CN116303870A CN116303870A CN202310275477.XA CN202310275477A CN116303870A CN 116303870 A CN116303870 A CN 116303870A CN 202310275477 A CN202310275477 A CN 202310275477A CN 116303870 A CN116303870 A CN 116303870A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- gas
- value
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000013507 mapping Methods 0.000 title claims abstract description 35
- 238000013523 data management Methods 0.000 title claims abstract description 26
- 238000003058 natural language processing Methods 0.000 claims abstract description 32
- 238000012216 screening Methods 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000013500 data storage Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 11
- 238000012958 reprocessing Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013506 data mapping Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 239000007789 gas Substances 0.000 description 104
- 238000005516 engineering process Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- WKBOTKDWSSQWDR-UHFFFAOYSA-N Bromine atom Chemical compound [Br] WKBOTKDWSSQWDR-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- GDTBXPJZTBHREO-UHFFFAOYSA-N bromine Substances BrBr GDTBXPJZTBHREO-UHFFFAOYSA-N 0.000 description 1
- 229910052794 bromium Inorganic materials 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000003345 natural gas Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Remote Sensing (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于燃气管网数据治理的气量值映射方法与系统,包括:数据导取模块:手动或自动导取气量值数据;自然语言处理模块:用于对导取的用气量点数据文本字段数据进行自然语言处理NLP;本发明通过数据导取模块、自然语言处理模块、相似度计算模块、数据筛选模块、高精地图搜索模块、属性填充模块和数据保存模块配合,涵盖了GIS点和气量值无法通过公共ID精准的未知情况,相较于人工匹配,考虑的方面更多,匹配结果更加准确,大量节省了人工时间成本,GIS点数据和气量值相似度不满足阈值的数据,可通过高精地图自动新增GIS点的创新思路,缩短GIS点与气量值的映射时间并提高了实施的可行性。
Description
技术领域
本发明属于城市燃气管网数据治理技术领域,具体涉及一种用于燃气管网数据治理的气量值映射方法与系统。
背景技术
GIS,即地理信息系统,是能源行业必备的信息处理系统。以城市燃气行业为例,庞大复杂的城市天然气管网系统,连接着数以万计的用户和调压设施,一般以点表和线表构成管网拓扑数据,数据源自于多种来源,包括但不限于:分析仪(色谱等)、流量计(涡轮、超声波、毫米波等)、加溴计、传感器、设备(保压、压力远传、燃气物联)等。
拓扑数据以点表和线表构成。前者代表拓扑中各种类型的节点,点表中包含节点的ID、位置名称、类型、坐标等属性信息;后者代表连接节点的管道,线表中包含管道的ID、管长、管径、壁厚、坐标等属性信息。
气量值数据表在燃气中指的是包含流量值和压力值、ID、地址、公司名称、街道、小区、合同号等属性信息的数据表。
在管网拓扑中,节点类型一般有气源、用户、调压站、阀门、堵头、阀门井、阀井、球阀等,一般是边界点才有对应的流量值和压力值。边界点指的是连接一根管道的节点(一般情况下是终端用户、气源),终端用户对应的气量值数据一般是流量值,气源对应的气量值数据是压力值和流量值。
如果要利用管网的拓扑数据(即GIS数据)进行仿真计算要用到GIS拓扑中边界点的气量值数据,所以要将GIS点数据和气量值数据匹配起来,保证每个边界点有准确的气量值数据,可以大幅提高仿真计算精度。
现实情况是,燃气公司提供的气量值的数据表的ID和拓扑点表数据(ID不同,导致无法直接匹配各节点的压力值和流量值,而人工匹配不但效率低,而且错误率高。因此,构建一种基于文本相似度和高精地图坐标拾取的点表和气量值数据表映射系统,快速的将GIS点和气量值数据匹配成功,以提高对城市燃气管网拓扑进行赋值及仿真计算的效率。
但是,由述两种对数据表映射方式存在以下缺点:
1.人工检查缺时:当数据量很大时,人工手动映射犯错率和漏查率较高;
2.使用GIS点数据和气量值数据公共ID去做表的内连接匹配:
使用场景受到较大限制:仅限二者都有公共ID字段并全部能匹配上的情况,无法解决最普遍出现的ID缺失和ID无法匹配的问题。
因此,本申请提出一种基于文本相似度技术和高精地图坐标相结合的城市燃气管网气量值映射方法与系统来解决上述问题。
发明内容
本发明的目的在于提供用于燃气管网数据治理的气量值映射方法与系统,通过数据导取模块、自然语言处理模块、相似度计算模块、数据筛选模块、高精地图搜索模块、属性填充模块和数据保存模块配合,使其考虑的方面更多,匹配结果更加准确,大量节省了人工时间成本,点表数据和气量值表相似度不满足阈值的数据,可通过高精地图自动新增GIS点的创新思路,缩短点表与气量值表的映射时间并提高了实施的可行性,以解决上述背景技术中提出的问题。
为实现上述目的,本发明采用了如下技术方案:
一种用于燃气管网数据治理的气量值映射方法,包括如下步骤:
第一步、通过数据导取模块手动或自动导取气量值数据;
第二步、通过自然语言处理模块对导取的用气量点数据文本字段数据进行自然语言处理NLP;
第三步、通过相似度计算模块计算用气量点数据文本数据的相似度;
第四步、通过数据筛选模块将相似度计算模块计算后的数据相似度值大于等于X的数据筛选出来作为第一轮输出结果保存到数据库中,相似度小于X的数据加入高精地图搜索模块中进行再次处理;
第五步、通过高精地图搜索模块将相似度小于X的数据通过高精地图地址检索的方法来新增气量点数据使其完全匹配;
第六步、通过属性填充模块为高精地图搜索模块中的高精地图坐标拾取系统搜索得到的用户作为新的GIS点添加属性值保证与原始GIS数据的属性一致;
第七步、通过数据保存模块将属性填充模块最终匹配到的数据入库保存。
优选的,所述数据导取模块在数据上传时,由于燃气公司导出的气量值数据,文件字段名和预先实现的GIS点和气量值数据映射系统中字段不一致,无法进行后面的各个模块,所以要将气量值数据导入系统中,并导入字段配置信息,最终系统会将起气量值数据格式化成可用的数据。
优选的,所述自然语言处理模块在对气量值数据中的文本字段数据处理时,包括如下步骤:
S1、将气量值表中的所有文本字段拼接为一个新的文本字段,即new_text;
S2、使用分词语法对new_text进行分词处理得到语料,即Intermediate_text;
S3、将TF-IDF算法和Word2vec模型融合后对Intermediate_text处理,得到气量值表空间向量GV;
S4、对点表中的所有文本字段同样做拼接、分词和融合算法的处理,得到点表空间向量NV。
优选的,所述相似度计算模块是使用GV和NV之间相似度得到相似度值,相似度值的取值是GV和NV夹角的余弦值作为衡量两个个体之间差异的大小,即把1设为相同,0设为不同,相似度的值就是在0-1之间,相似度值越接近于1说明GIS点数据和气量点数据匹配程度越高。
优选的,所述数据筛选模块在筛选时由于相似度值的取值范围为0-1,越趋近于0说明两条文本越不相似,为了保证通过文本相似度匹配的精度更高,将阈值大于等于X的数据作为匹配成功的数据,将阈值小于X的数据作为不是匹配成功的数据作为下一模块的输入进行再次处理。
优选的,所述高精地图搜索模块是将气量值数据通过高精地图坐标拾取系统搜索得到的用户作为新的GIS点;由于数据筛选模块处理后剩余相似度值小于X的数据,通过高精地图地址检索的方法来新增气量点数据使其完全匹配,高精地图能够精准的通过模糊的GIS点名称精准的搜索到精准地址。
优选的,所述属性填充模块在填充时由于高精地图搜索到的数据只有地址和经纬度没有压力和流量属性,故通过人工和燃气公司合作为高精地图搜索到的数据填充属性,使其保证和原始气量数据一致性。
基于以上叙述的一种用于燃气管网数据治理的气量值映射方法,本发明还提供一种用于燃气管网数据治理的气量值映射系统,包括:
数据导取模块:手动或自动导取气量值数据;
自然语言处理模块:用于对导取的用气量点数据文本字段数据进行自然语言处理NLP;
相似度计算模块:用于计算用气量点数据文本数据的相似度;
数据筛选模块:将相似度计算模块计算后的数据相似度值大于等于X的数据筛选出来作为第一轮输出结果保存到数据库中,相似度小于X的数据加入高精地图搜索模块中进行再次处理;
高精地图搜索模块:用于将相似度小于X的数据通过高精地图地址检索的方法来新增气量点数据使其完全匹配;
属性填充模块:用于为高精地图搜索模块中的高精地图坐标拾取系统搜索得到的用户作为新的GIS点添加属性值保证与原始GIS数据的属性一致;
数据保存模块:用于将属性填充模块最终匹配到的数据入库保存。
基于以上叙述的一种用于燃气管网数据治理的气量值映射方法,本发明还提供一种芯片,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行。
本发明提出的一种用于燃气管网数据治理的气量值映射方法及系统,与现有技术相比,具有以下优点:
本发明通过数据导取模块、自然语言处理模块、相似度计算模块、数据筛选模块、高精地图搜索模块、属性填充模块和数据保存模块配合,涵盖了GIS点和气量值无法通过公共ID精准的未知情况,相较于人工匹配,考虑的方面更多,匹配结果更加准确,大量节省了人工时间成本,GIS点数据和气量值相似度不满足阈值的数据,可通过高精地图自动新增GIS点的创新思路,缩短GIS点与气量值的映射时间并提高了实施的可行性。
附图说明
图1为本发明的流程框图;
图2为本发明的自然语言处理模块在对气量值数据中的文本字段数据处理流程框图;
图3为本发明具体实施例2的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1-2,本发明提供了一种用于燃气管网数据治理的气量值映射方法,包括如下步骤:
第一步、通过数据导取模块手动或自动导取气量值数据;
所述数据导取模块在数据上传时,由于燃气公司导出的气量值数据,文件字段名和预先实现的GIS点和气量值数据映射系统中字段不一致,无法进行后面的各个模块,所以要将气量值数据导入系统中,并导入字段配置信息,最终系统会将起气量值数据格式化成可用的数据。
第二步、通过自然语言处理模块对导取的用气量点数据文本字段数据进行自然语言处理NLP;
所述自然语言处理模块在对气量值数据中的文本字段数据处理时,包括如下步骤:
S1、将气量值表中的所有文本字段拼接为一个新的文本字段,即new_text;
S2、使用分词语法对new_text进行分词处理得到语料,即Intermediate_text;
S3、将TF-IDF算法和Word2vec模型融合后对Intermediate_text处理,得到气量值表空间向量GV;
S4、对点表中的所有文本字段同样做拼接、分词和融合算法的处理,得到点表空间向量NV。
第三步、通过相似度计算模块计算用气量点数据文本数据的相似度;
所述相似度计算模块是使用GV和NV之间相似度得到相似度值,相似度值的取值是GV和NV夹角的余弦值作为衡量两个个体之间差异的大小,即把1设为相同,0设为不同,相似度的值就是在0-1之间,相似度值越接近于1说明GIS点数据和气量点数据匹配程度越高。
第四步、通过数据筛选模块将相似度计算模块计算后的数据相似度值大于等于X的数据筛选出来作为第一轮输出结果保存到数据库中,相似度小于X的数据加入高精地图搜索模块中进行再次处理,其中X的取值范围可为0-1;
所述数据筛选模块在筛选时由于相似度值的取值范围为0-1,越趋近于0说明两条文本越不相似,为了保证通过文本相似度匹配的精度更高,将阈值大于等于X的数据作为匹配成功的数据,将阈值小于X的数据作为不是匹配成功的数据作为下一模块的输入进行再次处理。
第五步、通过高精地图搜索模块将相似度小于X的数据通过高精地图地址检索的方法来新增气量点数据使其完全匹配;
所述高精地图搜索模块是将气量值数据通过高精地图坐标拾取系统搜索得到的用户作为新的GIS点;由于数据筛选模块处理后剩余相似度值小于X的数据,通过高精地图地址检索的方法来新增气量点数据使其完全匹配,高精地图能够精准的通过模糊的GIS点名称精准的搜索到精准地址。
第六步、通过属性填充模块为高精地图搜索模块中的高精地图坐标拾取系统搜索得到的用户作为新的GIS点添加属性值保证与原始GIS数据的属性一致;
所述属性填充模块在填充时由于高精地图搜索到的数据只有地址和经纬度没有压力和流量属性,故通过人工和燃气公司合作为高精地图搜索到的数据填充属性,使其保证和原始气量数据一致性。
第七步、通过数据保存模块将属性填充模块最终匹配到的数据入库保存。
基于以上叙述的一种用于燃气管网数据治理的气量值映射方法,本发明还提供一种用于燃气管网数据治理的气量值映射系统,包括:
数据导取模块:手动或自动导取气量值数据;
自然语言处理模块:用于对导取的用气量点数据文本字段数据进行自然语言处理NLP;
相似度计算模块:用于计算用气量点数据文本数据的相似度;
数据筛选模块:将相似度计算模块计算后的数据相似度值大于等于X的数据筛选出来作为第一轮输出结果保存到数据库中,相似度小于X的数据加入高精地图搜索模块中进行再次处理;
高精地图搜索模块:用于将相似度小于X的数据通过高精地图地址检索的方法来新增气量点数据使其完全匹配;
属性填充模块:用于为高精地图搜索模块中的高精地图坐标拾取系统搜索得到的用户作为新的GIS点添加属性值保证与原始GIS数据的属性一致;
数据保存模块:用于将属性填充模块最终匹配到的数据入库保存。
基于以上叙述的一种用于燃气管网数据治理的气量值映射方法,本发明还提供一种芯片,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行。
实施例2
如图3所示,基于实施例1提供的用于燃气管网数据治理的气量值映射方法及系统,本申请依据城市燃气管网业务经验、历史数据统计结合,设定X=0.6,下面以实际城市燃气公司进行气量值映射,结果如下:
如下表格所示为数据导取模块导取的燃气公司的气量数据:
公司代码描述 | 客户名称 | 压力 | 流量 |
AA燃气有限公司 | 张三 | 1000 | 1.2 |
AA燃气有限公司 | XXB有限责任公司 | 1052 | 1.8 |
自然语言处理模块对气量值数据文本字段拼接处理流程详见下表:
自然语言处理模块对气量值数据文本字段拼接字段分词处理流程如下表:
自然语言处理模块对气量值数据文本字段拼接字段分司结果向量表示,如下表格所示:
相似度计算模块的相似度计算结果详见数据如下表所示:
数据筛选模块:将相似度计算模块计算后的数据相似度值大于等于0.6的数据筛选出来作为第一轮输出结果保存到数据库中,相似度小于0.6的数据加入高精地图搜索模块中进行再次处理;
将相似度值大于等于0.6的数据筛选出来作为系统第一轮输出结果保存到数据库中,详见如下数据表:
相似度下小于0.6的数据气量值数据加入高精地图数据表中,详见如下数据表:
公司代码描述 | 客户名称 | 压力 | 流量 |
AA燃气有限公司 | 张三 | 1000 | 1.2 |
所述数据筛选模块在筛选时由于相似度值的取值范围为0-1,越趋近于0说明两条文本越不相似,为了保证通过文本相似度匹配的精度更高,所以我们将阈值大于等于0.6的数据作为匹配成功的数据,将阈值小于0.6的数据作为不是匹配成功的数据作为下一模块的输入进行再次处理。
高精地图搜索模块:用于将相似度小于0.6的数据通过高精地图地址检索的方法来新增气量点数据使其完全匹配;
所述高精地图搜索模块是将气量值数据通过高精地图坐标拾取系统搜索得到的用户作为新的GIS点;由于数据筛选模块处理后剩余相似度值小于0.6的数据,通过高精地图地址检索的方法来新增气量点数据使其完全匹配,高精地图能够精准的通过模糊的GIS点名称精准的搜索到精准地址。
通过高精地图搜索得到新的GIS点数据作为匹配结果数据表如下所示:
公司代码描述 | 客户名称 | 压力 | 流量 | 新的GIS点ID |
AA燃气有限公司 | 张三 | 1000 | 1.2 | 1001 |
采用高精地图搜索的方法不仅搜索速度快,还能有通过模糊名称搜索到精确的地址。
属性填充模块:搜索得到的用户新的GIS点添加属性值数据表如下表所示:
综上所述,通过数据导取模块、自然语言处理模块、相似度计算模块、数据筛选模块、高精地图搜索模块、属性填充模块、数据保存模块,基本上涵盖了GIS点和气量值无法通过公共ID精准的未知情况,相较于人工匹配,考虑的方面更多,匹配结果更加准确,大量节省了人工时间成本,GIS点数据和气量值相似度不满足阈值的数据,可通过高精地图自动新增GIS点的创新思路,缩短GIS点与气量值的映射时间并提高了实施的可行性。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种用于燃气管网数据治理的气量值映射方法,其特征在于:包括如下步骤:
第一步、通过数据导取模块手动或自动导取气量值数据;
第二步、通过自然语言处理模块对导取的用气量点数据文本字段数据进行自然语言处理NLP;
第三步、通过相似度计算模块计算用气量点数据文本数据的相似度;
第四步、通过数据筛选模块将相似度计算模块计算后的数据相似度值大于等于X的数据筛选出来作为第一轮输出结果保存到数据库中,相似度小于X的数据加入高精地图搜索模块中进行再次处理;
第五步、通过高精地图搜索模块将相似度小于X的数据通过高精地图地址检索的方法来新增气量点数据使其完全匹配;
第六步、通过属性填充模块为高精地图搜索模块中的高精地图坐标拾取系统搜索得到的用户作为新的GIS点添加属性值保证与原始GIS数据的属性一致;
第七步、通过数据保存模块将属性填充模块最终匹配到的数据入库保存。
2.根据权利要求1所述的一种用于燃气管网数据治理的气量值映射方法,其特征在于:所述数据导取模块在数据上传时,由于燃气公司导出的气量值数据,文件字段名和预先实现的GIS点和气量值数据映射系统中字段不一致,无法进行后面的各个模块,所以要将气量值数据导入系统中,并导入字段配置信息,最终系统会将起气量值数据格式化成可用的数据。
3.根据权利要求2所述的一种用于燃气管网数据治理的气量值映射方法,其特征在于:所述自然语言处理模块在对气量值数据中的文本字段数据处理时,包括如下步骤:
S1、将气量值表中的所有文本字段拼接为一个新的文本字段,即new_text;
S2、使用分词语法对new_text进行分词处理得到语料,即Intermediate_text;
S3、将TF-IDF算法和Word2vec模型融合后对Intermediate_text处理,得到气量值表空间向量GV;
S4、对点表中的所有文本字段同样做拼接、分词和融合算法的处理,得到点表空间向量NV。
4.根据权利要求3所述的一种用于燃气管网数据治理的气量值映射方法,其特征在于:所述相似度计算模块是使用GV和NV之间相似度得到相似度值,相似度值的取值是GV和NV夹角的余弦值作为衡量两个个体之间差异的大小,即把1设为相同,0设为不同,相似度的值就是在0-1之间,相似度值越接近于1说明GIS点数据和气量点数据匹配程度越高。
5.根据权利要求4所述的一种用于燃气管网数据治理的气量值映射方法,其特征在于:所述数据筛选模块在筛选时由于相似度值的取值范围为0-1,越趋近于0说明两条文本越不相似,为了保证通过文本相似度匹配的精度更高,所以我们将阈值大于等于X的数据作为匹配成功的数据,将阈值小于X的数据作为不是匹配成功的数据作为下一模块的输入进行再次处理。
6.根据权利要求5所述的一种用于燃气管网数据治理的气量值映射方法,其特征在于:所述高精地图搜索模块是将气量值数据通过高精地图坐标拾取系统搜索得到的用户作为新的GIS点;由于数据筛选模块处理后剩余相似度值小于X的数据,通过高精地图地址检索的方法来新增气量点数据使其完全匹配,高精地图能够精准的通过模糊的GIS点名称精准的搜索到精准地址。
7.根据权利要求6所述的一种用于燃气管网数据治理的气量值映射方法,其特征在于:所述属性填充模块在填充时由于高精地图搜索到的数据只有地址和经纬度没有压力和流量属性,故通过人工和燃气公司合作为高精地图搜索到的数据填充属性,使其保证和原始气量数据一致性。
8.一种用于燃气管网数据治理的气量值映射系统,基于权利要求1-7任意一项所述的一种用于燃气管网数据治理的气量值映射方法,其特征在于:包括:
数据导取模块:手动或自动导取气量值数据;
自然语言处理模块:用于对导取的用气量点数据文本字段数据进行自然语言处理NLP;
相似度计算模块:用于计算用气量点数据文本数据的相似度;
数据筛选模块:将相似度计算模块计算后的数据相似度值大于等于X的数据筛选出来作为第一轮输出结果保存到数据库中,相似度小于X的数据加入高精地图搜索模块中进行再次处理;
高精地图搜索模块:用于将相似度小于X的数据通过高精地图地址检索的方法来新增气量点数据使其完全匹配;
属性填充模块:用于为高精地图搜索模块中的高精地图坐标拾取系统搜索得到的用户作为新的GIS点添加属性值保证与原始GIS数据的属性一致;
数据保存模块:用于将属性填充模块最终匹配到的数据入库保存。
9.一种芯片,基于权利要求1-7任意一项所述的一种用于燃气管网数据治理的气量值映射方法,其特征在于,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310275477.XA CN116303870A (zh) | 2023-03-21 | 2023-03-21 | 一种用于燃气管网数据治理的气量值映射方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310275477.XA CN116303870A (zh) | 2023-03-21 | 2023-03-21 | 一种用于燃气管网数据治理的气量值映射方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116303870A true CN116303870A (zh) | 2023-06-23 |
Family
ID=86802827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310275477.XA Pending CN116303870A (zh) | 2023-03-21 | 2023-03-21 | 一种用于燃气管网数据治理的气量值映射方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116303870A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271500A (zh) * | 2023-11-21 | 2023-12-22 | 上海叁零肆零科技有限公司 | 燃气管网节点的数据修复方法及相关装置 |
-
2023
- 2023-03-21 CN CN202310275477.XA patent/CN116303870A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271500A (zh) * | 2023-11-21 | 2023-12-22 | 上海叁零肆零科技有限公司 | 燃气管网节点的数据修复方法及相关装置 |
CN117271500B (zh) * | 2023-11-21 | 2024-02-13 | 上海叁零肆零科技有限公司 | 燃气管网节点的数据修复方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
CN111274811B (zh) | 地址文本相似度确定方法以及地址搜索方法 | |
CN104572645B (zh) | 兴趣点数据关联方法及装置 | |
CN110442603B (zh) | 地址匹配方法、装置、计算机设备及存储介质 | |
CN109255564B (zh) | 一种取件点地址推荐方法及装置 | |
US11681927B2 (en) | Analyzing geotemporal proximity of entities through a knowledge graph | |
CN110674419B (zh) | 地理信息检索方法、装置、电子设备及可读存储介质 | |
CN111382212B (zh) | 关联地址获取方法、装置、电子设备及存储介质 | |
CN111858649B (zh) | 一种基于本体映射的异构数据融合方法 | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和系统 | |
CN105608113B (zh) | 判断文本中poi数据的方法及装置 | |
CN111324679A (zh) | 地址信息的处理方法、装置和系统 | |
CN109284446A (zh) | 一种poi信息融合方法 | |
CN111666425B (zh) | 基于语义知识的汽配件搜索方法 | |
CN111325022A (zh) | 识别层级地址的方法和装置 | |
CN116303870A (zh) | 一种用于燃气管网数据治理的气量值映射方法与系统 | |
CN110659433A (zh) | Poi价值评估的方法、装置、设备和计算机存储介质 | |
CN116414823A (zh) | 一种基于分词模型的地址定位方法和装置 | |
CN114579882A (zh) | 地址查询方法、获取地理编码预测模型的方法及对应装置 | |
Cheng et al. | Quickly locating POIs in large datasets from descriptions based on improved address matching and compact qualitative representations | |
CN113626437A (zh) | 一种海量矢量数据快速查询方法及系统 | |
CN111125550A (zh) | 兴趣点分类方法、装置、设备及存储介质 | |
CN115712667B (zh) | 一种图数据融合分析方法、装置及存储介质 | |
CN110210020B (zh) | 通讯地址标准化的系统及其方法 | |
CN109213940A (zh) | 大数据下实现用户位置计算的方法、存储介质、设备及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |