CN115828111A

CN115828111A - 一种污染源的数据管理方法、数据管理系统以及电子设备

Info

Publication number: CN115828111A
Application number: CN202211518186.0A
Authority: CN
Inventors: 刘术军; 常伟; 梁必文; 康庆; 万鹏; 彭道发; 易枭奇
Original assignee: Shenzhen Bowo Wisdom Technology Co ltd
Current assignee: Shenzhen Bowo Wisdom Technology Co ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-21

Abstract

本发明涉及环境监管技术领域，具体涉及一种污染源的数据管理方法、数据管理系统以及电子设备。本方案通过获取多个目标数据，其中，目标数据包括污染源数据和业务数据，然后根据行政区划对多个目标数据进行分组，得到行政区划对应的数据组；再对数据组内每两个目标数据的同一维度的数据项进行相似度计算，得到数据组内每两个目标数据之间的综合相似度值；然后通过计算数据组内每两个目标数据之间的综合相似度值；将综合相似度值满足预设条件的两个目标数据进行关联或者确定为重复数据。通过采用上述方法，有效解决对当前污染源数据和业务数据中重复数据的识别，实现污染源数据与业务数据的有效关联。

Description

一种污染源的数据管理方法、数据管理系统以及电子设备

技术领域

本发明涉及环境监管技术领域，具体涉及一种污染源的数据管理方法、数据管理系统以及电子设备。

背景技术

环境管理业物中，污染源是核心管理对象，也是串联起各类业务的主体。在实际环境信息化业务建设过程当中尚未建立统一污染源管理的机制，环境部推动的固定源管理模式也还没能发挥作用，特别是已建的信息系统，几乎都没能和污染源信息关联起来。

目前，现有的企业通过建设数据中台或大数据平台，数据中台或大数据平台的核心模块是建立污染源一企一档，基于业务系统关联的数据来呈现污染源的全生命周期数据，对于目前的污染源数据和业务信息数据，是通过冗余重复数据消除的方法，即基于不同数据在同样位置的文字的相同程度，来判断污染源数据和业务信息数据中是否存在重复文字，若是，则将污染源数据和业务信息数据进行串联。但是采用此方法对于重复文字的识别率低，并且无法对多特征的数据进行识别，使得污染源数据和业务信息数据无法有效串联起来。

发明内容

本发明提供了一种污染源的数据管理方法、数据管理系统以及电子设备，解决了现有技术中对污染源数据和业务信息数据中重复数据的识别率低的问题。

根据第一方面，一种实施例中提供一种污染源的数据管理方法,包括：

获取多个目标数据，所述多个目标数据包括多个污染源数据和/或多个业务数据；每个所述污染源数据和业务数据中均包括多个维度的数据项，所述多个维度的数据项包括：公司名称、公司地址、企业信用代码、法人姓名和联系方式中的多个；

根据行政区划对所述多个目标数据进行分组，得到行政区划对应的数据组；

对数据组内每两个目标数据的同一维度的数据项进行相似度计算，得到数据组内每两个目标数据之间多个维度的数据项的相似度值；

基于各个维度的数据项预设的权重占比以及所述多个维度的数据项的相似度值，得到数据组内每两个目标数据之间的综合相似度值；

分别判断每两个目标数据之间的综合相似度值是否满足预设条件，若是则将这两个目标数据关联或确定为重复数据。

在一种能够实现的实施方式中，所述获取多个目标数据，包括：

获取多个污染源信息以及多个业务污染源信息；

按预设的数据格式将所述污染源信息转换为污染源数据，按预设的数据格式将所述业务污染源信息转换为业务数据；所述污染源数据和所述业务数据分别用于进行重复数据的识别。

在一种能够实现的实施方式中，所述对数据组内每两个目标数据的同一维度的数据项进行相似度计算，包括：

对数据组内每两个目标数据的公司名称和公司地址分别采用第一相似度记算方法进行相似度计算；

对数据组内每两个目标数据的企业信用代码、法人姓名和联系方式分别采用第二相似度计算方法进行相似度计算；所述第二相似度计算方法的计算量低于第一相似度记算方法。

在一种能够实现的实施方式中，所述方法还包括：

对于不同行政区划对应的数据组，通过多进程运算并行对不同数据组内每两个目标数据的同一维度的数据项进行相似度计算。

在一种能够实现的实施方式中，所述基于各个维度的数据项预设的权重占比以及所述多个维度的数据项的相似度值，得到数据组内每两个目标数据之间的综合相似度值，包括：

根据不同维度数据项预设的权重占比确定每个维度的数据项的相似度的权重相似度值；

将目标数据所有维度的数据项的权重相似度值进行求和，得到所述目标数据的综合相似度值。

在一种能够实现的实施方式中，所述分别判断每两个目标数据之间的综合相似度值是否满足预设条件，包括：

分别将每两个目标数据之间的综合相似度值与预设的经验参考值进行对比，若所述综合相似度值大于或等于所述预设的经验参考值，则确定目标数据之间的综合相似度值满足预设条件，若所述综合相似度值小于所述预设的经验参考值，则确定目标数据之间的综合相似度值不满足预设条件。

在一种能够实现的实施方式中，所述分别判断每两个目标数据之间的综合相似度值是否满足预设条件，若是则将这两个目标数据关联或确定为重复数据，包括：

所述数据组包括污染源数据和业务数据；分别判断每个污染源数据和业务数据组合的综合相似度值是否满足预设条件，若是则将所述污染源数据和业务数据进行关联；和/或，

所述数据组包括多个污染源数据；分别判断每两个污染源数据之间的综合相似度值是否满足预设条件，若是则保留数据项信息最全的一个污染源数据，删除另一个污染源数据；和/或，

所述数据组包括多个业务数据；分别判断每两个业务数据之间的综合相似度值是否满足预设条件，若是则保留数据项信息最全的一个业务数据，删除另一个业务数据。

根据第二方面，一种实施例中提供一种污染源的数据管理系统，包括：

获取模块，用于获取多个目标数据，所述多个目标数据包括多个污染源数据和/或多个业务数据；每个所述污染源数据和业务数据中均包括多个维度的数据项，所述多个维度的数据项包括：公司名称、公司地址、企业信用代码、法人姓名和联系方式中的多个；

分组模块，用于根据行政区划对所述多个目标数据进行分组，得到行政区划对应的数据组；

相似度计算模块，用于对数据组内每两个目标数据的同一维度的数据项进行相似度计算，得到数据组内每两个目标数据之间多个维度的数据项的相似度值；

综合相似度计算模块，用于基于各个维度的数据项预设的权重占比以及所述多个维度的数据项的相似度值，得到数据组内每两个目标数据之间的综合相似度值；

处理模块，用于分别判断每两个目标数据之间的综合相似度值是否满足预设条件，若是则将这两个目标数据关联或确定为重复数据。

根据第三方面，一种实施例中提供一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述方法的步骤。

根据第四方面，一种实施例中提供一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行实现所述方法的步骤。

据上述实施例的一种污染源的数据管理方法、数据管理系统以及电子设备，通过获取多个目标数据，其中，目标数据包括污染源数据和业务数据，并且，污染源数据和业务数据均包括有多个维度的数据项，然后根据行政区划对多个目标数据进行分组，得到行政区划对应的数据组；再对数据组内每两个目标数据的同一维度的数据项进行相似度计算，得到数据组内每两个目标数据之间的综合相似度值；然后通过计算数据组内每两个目标数据之间的综合相似度值；将综合相似度值满足预设条件的两个目标数据进行关联或者确定为重复数据。通过采用上述方法，能够有效解决对当前污染源数据和业务数据中重复数据的识别，并且还能够提高污染源数据和业务数据之间是否能够关联的准确率，实现污染源数据与业务数据的有效关联。

附图说明

图1为一种实施例提供的污染源的数据管理方法的流程图；

图2为一种实施例的获取目标数据的流程图；

图3为一种实施例提供的相似度计算流程图；

图4为一种实施例提供的综合相似度计算流程图；

图5一种实施例提供的污染源的数据管理系统结构框图。

附图标记：1、获取模块；2、分组模块；3、相似度计算模块；4、综合相似度计算模块；5、处理模块。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

对于环保行业，污染源作为其中最重要的主数据，需要被很好地管理起来，因此，为了便于更好地管理中的污染源数据，就需要将各个业务部门业务系统中的业务数据与污染源系统中的污染源数据进行关联，以便于能够有针对性的对固定源进行治理。针对目前尚未健全的污染源管理机制，本方案提供了一种污染源的数据管理方法、数据管理系统，能够很好的对重复的污染源数据以及业务数据进行识别并进行压缩处理，还能够有效地将重复的污染源数据以及业务数据进行关联。

根据第一方面，一种实施例中提供一种污染源的数据管理方法,请参考图1，包括：

步骤100：通过获取模块获取多个目标数据，多个目标数据包括多个污染源数据和/或多个业务数据；每个污染源数据和业务数据中均包括多个维度的数据项，多个维度的数据项包括：公司名称、公司地址、企业信用代码、法人姓名和联系方式中的多个。

本实施例中，获取模块获取的目标数据中可以包括多个污染源数据，也可以包括多个业务数据，还以包括多个污染源数据和多个业务数据，其中，每个污染源数据包括多个维度的数据项，即公司名称、公司地址、企业信用代码、法人姓名和联系方式中的多个；每个业务数据包括多个维度的数据项，即公司名称、公司地址、企业信用代码、法人姓名和联系方式中的多个。

具体请参考图2，目标数据的获取具体包括如下步骤：

步骤101：获取多个污染源信息以及多个业务污染源信息。

通过从第二次全国污染源普查数据中获取污染源信息，从政府或者企业的业务系统中获取业务信息，其中，业务污染源信息用于表征对各类污染源进行监管的项目类型，例如，建设项目信息、环境信访信息、固定废物、行政处罚信息、排污许可证信息、污染源在线数据、VOC污染源等都属于业务污染源信息，每个业务污染源信息中都包括有企业名称、统一社会信用代码、法人、法人联系电话和企业地址等多种信息。同样，每个污染源信息中也包括有企业名称、统一社会信用代码、法人、法人联系电话和企业地址等多种信息。

步骤102：按预设的数据格式将污染源信息转换为污染源数据，按预设的数据格式将业务污染源信息转换为业务数据；污染源数据和业务数据分别用于进行重复数据的识别。

在对污染源数据和业务数据分别进行重复数据的识别之前需要先将获取的污染源信息以及业务污染源信息进行格式转换，将污染源信息以及业务污染源信息转换成系统能够识别的数据。在实际使用过程中，可以使用JSON对污染源信息以及业务污染源信息进行转换，具体的，将污染源信息以及业务污染源信息存储在JSON中，通过解析JSON来获取需要进行相似度计算的数据，将污染源信息转换为污染源数据，将业务污染源信息转换为业务数据。

步骤200：通过分组模块根据行政区划对多个目标数据进行分组，得到行政区划对应的数据组。

具体的，由于目标数据量比较庞大，直接对其进行重复数据的识别会导致系统的计算量增大，因此，分组模块将目标数据按照行政区划进行分组，得到每个行政区划对应的数据组，每个数据组中可以包括有多个污染源数据或包括有多个业务数据，还可以是既包括有污染源数据又包括有业务数据。

步骤300：通过相似度计算模块对数据组内每两个目标数据的同一维度的数据项进行相似度计算，得到数据组内每两个目标数据之间多个维度的数据项的相似度值。

在将多个目标数据按照行政区划进行分组后，通过相似度计算模块对每个数据组内每两个目标数据的同一维度的数据项进行相似度计算，其中每两个目标数据可以是污染源数据和污染源数据，也可以是业务数据和业务数据，还可以是污染源数据和业务数据。由于污染源数据和业务数据中均包括有多个维度的数据项，因此，需要对每两个目标数据中每个维度的数据项进行相似度计算，进而得到数据组内每两个目标数据之间多个维度的数据项的相似度值。

请参考图3，对数据组内每两个目标数据的同一维度的数据项进行相似度计算的方法具体包括：

步骤301：对数据组内每两个目标数据的公司名称和公司地址分别采用第一相似度计算方法进行相似度计算。

具体的，由于公司名称和公司地址这两个维度分别对应的字段信息之间重复数据的识别相对比较复杂，因此就需要采用针对复杂字段信息相似度识别率高的计算方法进行相似度计算，比如采用编辑距离相似度计算方法，以此提高公司名称和公司地址这两个维度的相似度的计算准确率。

步骤302：对数据组内每两个目标数据的企业信用代码、法人姓名和联系方式分别采用第二相似度计算方法进行相似度计算；第二相似度计算方法的计算量低于第一相似度记算方法。

对于企业信用代码、法人姓名和联系方式这三个维度相似度的计算，由于企业信用代码、法人姓名和联系方式分别对应的字段信息相对比较简单，因此只需要采用普通的相似度计算方法进行相似度计算即可，例如，通过将两个目标数据的企业信用代码、法人姓名和联系方式分别进行一一对比即可。

如此，针对不同维度相似度对比的复杂程度，通过合理选用不同的相似度计算方法，可以很大程度的提高两目标数据之间相似度计算的准确率。

此外，作为本实施例的进一步改进，在对于不同行政区划对应的数据组，通过多进程运算并行对不同数据组内每两个目标数据的同一维度的数据项进行相似度计算。同时，还能够同步对同一个数据组内每两个目标数据的每个维度的数据项进行相似度计算，计算出每两个目标数据的多个维度数据项的相似度。本实施例中，通过采用多进程运算，可以同时实现对不同行政区划的数据组内每两个目标数据的同一维度的数据项的相似度计算，可以实现对海量数据高效识别，且相互之间互不干扰，指数级提升海量数据的比对速度。

步骤400：通过综合相似度计算模块基于各个维度的数据项预设的权重占比以及多个维度的数据项的相似度值，得到数据组内每两个目标数据之间的综合相似度值。

对于目标数据中重复数据的判断，在实际操作当中，由于目标数据中对于各个维度数据项的需求程度不同，因此，在对目标数据中的重复数据进行计算的过程当中，还需要考虑各个维度数据项的权重，采用综合相似度计算模块通过各个维度的数据项预设的权重占比以及多个维度的数据项的相似度值共同确定数据组内每两个目标数据之间的综合相似度值。基于经验判断得出不同维度数据项之间的权重排序一般为：统一社会信用代码、公司名称、公司地址、法人姓名、联系方式。需说明，上述不同维度数据项之间的权重排序会根据目标数据的维度缺失情况依照上述排序进行动态调整。

请参考图4，对于数据组内每两个目标数据之间的综合相似度值的计算方法具体包括：

步骤401：根据不同维度数据项预设的权重占比确定每个维度的数据项的相似度的权重相似度值。

基于上述维度数据项权重排序，得到不同维度数据项的权重占比，将数据组内每两个目标数据之间同一维度的数据项的相似度值分别乘以该维度的权重占比，得到数据组内每两个目标数据之间每个维度的数据项的相似度的权重相似度值。

步骤402：将目标数据所有维度的数据项的权重相似度值进行求和，得到目标数据的综合相似度值。

然后再对每两个目标数据的所有维度的数据项的权重相似度值进行求和，得到每两个目标数据的综合相似度值，综合相似度值用于判断两个目标数据之间的相似程度，综合相似度值越大，两个目标数据越相似。

步骤500：处理模块分别判断每两个目标数据之间的综合相似度值是否满足预设条件，若是则将这两个目标数据关联或确定为重复数据。

在得到每两个目标数据的综合相似度值后，还要判断每两个目标数据之间的综合相似度值是否满足预设条件，具体的包括：

分别将每两个目标数据之间的综合相似度值与预设的经验参考值进行对比，若综合相似度值大于或等于预设的经验参考值，则确定目标数据之间的综合相似度值满足预设条件，则说明两个目标数据相似，也即两个目标数据为重复数据。若综合相似度值小于预设的经验参考值，则确定目标数据之间的综合相似度值不满足预设条件，则说明两个目标数据不相似，也即两个目标数据不是重复数据，以便于完全剔除不可能相似的数据。

在一种能够实现的实施方式中，分别判断每两个目标数据之间的综合相似度值是否满足预设条件，若是则将这两个目标数据关联或确定为重复数据，具体包括以下情况：

当数据组包括污染源数据和业务数据时；分别判断每个污染源数据和业务数据组合的综合相似度值是否满足预设条件，若是则将污染源数据和业务数据进行关联。

具体的，系统将每两个目标数据进行综合相似度计算，其中每两个目标数据为污染源数据和业务数据，通过计算出每两个目标数据为污染源数据和业务数据的综合相似度值，然后将每两个污染源数据和业务数据的综合相似度值与预设的经验参考值进行对比，若综合相似度值大于或等于预设的经验参考值，则确定每两个污染源数据和业务数据之间的综合相似度值满足预设条件，则说明两个污染源数据和业务数据相似，也即该两个污染源数据和业务数据之间能够关联。同时将综合相似度值小于预设的经验参考值每两个污染源数据和业务数据进行剔除。

当数据组包括多个污染源数据；分别判断每两个污染源数据之间的综合相似度值是否满足预设条件，若是则保留数据项信息最全的一个污染源数据，删除另一个污染源数据。

具体的，系统将每两个目标数据进行综合相似度计算，其中每两个目标数据为两个污染源数据，通过计算出每两个污染源数据的综合相似度值，然后将每两个污染源数据的综合相似度值与预设的经验参考值进行对比，若综合相似度值大于或等于预设的经验参考值，则确定每两个污染源数据之间的综合相似度值满足预设条件，则说明两个污染源数据相似，也即两个污染源数据为重复数据，保留其中信息最全的一个污染源数据，删除另外一件重复的污染源数据。将综合相似度值小于预设的经验参考值每两个污染源数据进行剔除。

数据组包括多个业务数据；分别判断每两个业务数据之间的综合相似度值是否满足预设条件，若是则保留数据项信息最全的一个业务数据，删除另一个业务数据。

具体的，系统将每两个目标数据进行综合相似度计算，其中每两个目标数据为两个业务数据，通过计算出每两个业务数据的综合相似度值，然后将每两个业务数据的综合相似度值与预设的经验参考值进行对比，若综合相似度值大于或等于预设的经验参考值，则确定每两个业务数据之间的综合相似度值满足预设条件，则说明两个业务数据相似，也即两个业务数据为重复数据，保留其中信息最全的一个业务数据，删除另外一件重复的业务数据。将综合相似度值小于预设的经验参考值每两个业务数据进行剔除。

根据第二方面，请参考图5，一种实施例中提供一种污染源的数据管理系统，包括：

获取模块1，用于获取多个目标数据，多个目标数据包括多个污染源数据和/或多个业务数据；每个污染源数据和业务数据中均包括多个维度的数据项，多个维度的数据项包括：公司名称、公司地址、企业信用代码、法人姓名和联系方式中的多个。

分组模块2，用于根据行政区划对多个目标数据进行分组，得到行政区划对应的数据组。

相似度计算模块3，用于对数据组内每两个目标数据的同一维度的数据项进行相似度计算，得到数据组内每两个目标数据之间多个维度的数据项的相似度值。

综合相似度计算模块4，用于基于各个维度的数据项预设的权重占比以及多个维度的数据项的相似度值，得到数据组内每两个目标数据之间的综合相似度值。

处理模块5，用于分别判断每两个目标数据之间的综合相似度值是否满足预设条件，若是则将这两个目标数据关联或确定为重复数据。

本实施例的污染源的数据管理系统包括获取模块1、分组模块2、相似度计算模块3、综合相似度计算模块4以及处理模块5，并且获取模块1、分组模块2、相似度计算模块3、综合相似度计算模块4以及处理模块5用以实现方法实施例的上述功能，本实施例在此不做过多赘述。

根据第三方面，一种实施例中提供一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法实施例的步骤，本实施例在此不做过多赘述。

根据第四方面，一种实施例中提供一种计算机可读存储介质，存储介质上存储有计算机程序，计算机程序被处理器执行实现上述方法实施例的步骤，本实施例在此不做过多赘述。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种污染源的数据管理方法,其特征在于，包括：

2.如权利要求1所述的污染源的数据管理方法，其特征在于，所述获取多个目标数据，包括：

获取多个污染源信息以及多个业务污染源信息；

3.如权利要求1所述的污染源的数据管理方法，其特征在于，所述对数据组内每两个目标数据的同一维度的数据项进行相似度计算，包括：

4.如权利要求1所述的污染源的数据管理方法，其特征在于，所述方法还包括：

5.如权利要求1所述的污染源的数据管理方法，其特征在于，所述基于各个维度的数据项预设的权重占比以及所述多个维度的数据项的相似度值，得到数据组内每两个目标数据之间的综合相似度值，包括：

6.如权利要求1所述的污染源的数据管理方法，其特征在于，所述分别判断每两个目标数据之间的综合相似度值是否满足预设条件，包括：

7.如权利要求1所述的污染源的数据管理方法，其特征在于，所述分别判断每两个目标数据之间的综合相似度值是否满足预设条件，若是则将这两个目标数据关联或确定为重复数据，包括：

8.一种污染源的数据管理系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述方法的步骤。

10.一种计算机可读存储介质，所述存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行实现如权利要求1-7中任一项所述方法的步骤。