CN114896963B

CN114896963B - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN114896963B
Application number: CN202210797402.3A
Authority: CN
Inventors: 李鑫鹏; 杨沛; 李成志; 马瑜琼
Original assignee: Beijing Bailian Intelligent Technology Co ltd
Current assignee: Beijing Bailian Intelligent Technology Co ltd
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-11-04
Anticipated expiration: 2042-07-08
Also published as: CN114896963A

Abstract

本发明信号处理技术领域，提供一种数据处理方法、装置、电子设备及存储介质，该方法包括：基于目标数据与被匹配数据的提取项内容分别提取出第一主体信息和第二主体信息，确定第一主体信息和第二主体信息之间的编辑距离；确定第一主体信息和第二主体信息各自对应的关联内容，基于关联内容确定关联相似度；确定第一主体信息和第二主体信息各自对应的备注内容；根据提取项内容、编辑距离、关联相似度和备注内容确定第一主体信息和第二主体信息属于同一主体后，根据目标数据和被匹配数据确定补充数据；根据补充数据对目标数据进行数据完善，并删除被匹配数据，使多个数据源实现关联从而补全数据的各个纬度信息，减少无用重复的数据。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本发明涉及信号处理技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

在不同领域下的业务数据统计过程中，统计得到的数据可能会形成不同的数据源，由于数据统计的维度不同，导致不同数据源中的相同数据出现重复或各自缺少关键的信息，为此，导致不同数据源的数据统计效果不够统一，不够准确。

发明内容

针对现有技术存在的问题，本发明提供一种数据处理方法、装置、电子设备及存储介质。

第一方面，本发明提供一种数据处理方法，包括：

基于目标数据与被匹配数据的提取项内容分别提取出第一主体信息和第二主体信息，确定第一主体信息和第二主体信息之间的编辑距离，其中，所述编辑距离表征第一主体信息和第二主体信息之间的差异度；

确定第一主体信息和第二主体信息各自对应的关联内容，基于关联内容确定关联相似度；

确定第一主体信息和第二主体信息各自对应的备注内容；

根据所述提取项内容、所述编辑距离、所述关联相似度和所述备注内容确定所述第一主体信息和所述第二主体信息属于同一主体后，根据所述目标数据和所述被匹配数据确定补充数据；

根据所述补充数据对所述目标数据进行数据完善，并删除所述被匹配数据。

在一个实施例中，根据所述提取项内容、所述编辑距离、所述关联相似度和所述备注内容确定所述第一主体信息和所述第二主体信息属于同一主体，包括：

确定所述编辑距离小于第一阈值，且所述关联相似度大于第二阈值，以及所述备注内容相同，则所述第一主体信息和所述第二主体信息属于同一主体。

在一个实施例中，所述根据所述目标数据和所述被匹配数据确定补充数据，包括：

确定所述目标数据的第一内容项，以及所述被匹配数据的第二内容项；

根据所述第一内容项和所述第二内容项，确定待补充项，所述待补充项为所述第一内容项和所述第二内容项之间的差异项；

将所述待补充项对应的内容作为补充数据。

在一个实施例中，所述方法还包括对数据完善后的目标数据的各个内容项采用预设数据格式进行修正，所述内容项包括所述第一内容项和所述待补充项。

第二方面，本发明提供一种数据处理装置，包括：

提取模块，用于基于目标数据与被匹配数据的提取项内容分别提取出第一主体信息和第二主体信息，确定第一主体信息和第二主体信息之间的编辑距离，其中，所述编辑距离表征第一主体信息和第二主体信息之间的差异度；

关联模块，用于确定第一主体信息和第二主体信息各自对应的关联内容，基于关联内容确定关联相似度；

备注模块，用于确定第一主体信息和第二主体信息各自对应的备注内容；

确定模块，用于根据所述提取项内容、所述编辑距离、所述关联相似度和所述备注内容确定所述第一主体信息和所述第二主体信息属于同一主体后，根据所述目标数据和所述被匹配数据确定补充数据；

处理模块，用于根据所述补充数据对所述目标数据进行数据完善，并删除所述被匹配数据。

第三方面，本发明提供一种电子设备，包括存储器和存储有计算机程序的存储器，所述处理器执行所述程序时实现第一方面所述数据处理方法的步骤。

第四方面，本发明提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行第一方面所述数据处理方法的步骤。

本发明提供的数据处理方法、电子设备及存储介质，通过根据文本数据的提取项内容、编辑距离、关联相似度和备注内容确定不同数据属于同一条数据后，对数据进行修正及补充，解决在多个数据源的情况下内部数据重复混乱或缺失各类关键信息的问题，使多个数据源实现关联从而补全数据的各个纬度信息，减少无用重复的数据。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的数据处理方法的流程示意图；

图2是本发明提供的数据处理装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1~图3描述本发明的数据处理方法、装置、电子设备及存储介质。

图1示出了本发明一种数据处理方法的流程示意图，参见图1，该方法包括：

11、基于目标数据与被匹配数据的提取项内容分别提取出第一主体信息和第二主体信息，确定第一主体信息和第二主体信息之间的编辑距离，其中，编辑距离表征第一主体信息和第二主体信息之间的差异度；

12、确定第一主体信息和第二主体信息各自对应的关联内容，基于关联内容确定关联相似度；

13、确定第一主体信息和第二主体信息各自对应的备注内容；

14、根据提取项内容、编辑距离、关联相似度和备注内容确定第一主体信息和第二主体信息属于同一主体后，根据目标数据和被匹配数据确定补充数据；

15、根据补充数据对目标数据进行数据完善，并删除被匹配数据。

针对步骤11~步骤15，需要说明的是，在本发明中，在不同领域下的业务数据统计过程中，统计得到的数据可能会形成不同的数据源，由于数据统计的维度不同，导致不同数据源中的相同数据出现重复或各自缺少关键的信息，为此，要将不同的数据源中的文本数据进行融合，已筛除重复数据，更正错误数据及补充遗漏数据。例如城市规划中各门店的统计数据，或是企业中各员工的统计数据，等等。

在本发明中，不同的数据源中存在多条数据，每条数据基于对应数据源的统计维度或统计规则而构成。在这里，统计维度在每条数据中可相当于某一内容项。例如门店的数据，可包含多个内容项，如门店名称、门店店主、所属街道、联系电话、主营项目等。例如企业员工的数据，可包含多个内容项，如企业名称、部门名称、员工姓名、联系电话、工作内容等。

在本发明中，首先要判断各数据之间是否表征同一条数据，为此，要从多个内容项中确定用来提取判断数据是否表征同一条数据的信息，故选取的一个内容项作为提取项。例如将门店数据中的门店名称作为提取项。例如将员工姓名作为提取项。

在本发明中，对两两数据进行分析，需要一个作为参考数据，在这里，这个数据作为目标数据，该目标数据在一定程度上是相对较准确的数据，但可能会缺少一些关键信息。相应地，与目标数据进行比对的数据作为被匹配数据。

在本发明中，根据目标数据和被匹配数据的提取项内容的分析处理，可以提取出主体信息。为了区分描述，目标数据对应第一主体信息，被匹配数据对应第二主体信息。

例如两个门店名称分别为“老妈拉面店”和“老马拉面店”，两个门店名称提取的主体信息分别为“老妈”和“老马”。

例如两个员工姓名分别为“吴某花”和“武某华”，两个员工姓名提取的主体信息分别为“吴某花”和“武某华”。

在本发明中，确定第一主体信息和第二主体信息之间的编辑距离。对于数据文本来说，编辑距离表征第一主体信息和第二主体信息之间的差异度。即主体信息之间的文本差异数。例如上述的主体信息为“老妈”和“老马”，编辑距离为1。例如上述的主体信息为“吴某花”和“武某华”，编辑距离为2。

在本发明中，由于每条数据可能会存在错误信息、缺失信息，为此，如果从数据本身具有的信息为依据对数据之间进行比对，可能会造成比对不够精准。故要确定第一主体信息和第二主体信息各自对应的关联内容，从关联内容中对数据之间的相同或相似特性进行判断。该判断过程可基于关联内容确定第一主体信息和第二主体信息之间的关联相似度。

例如“老妈拉面店”和“老马拉面店”，主体信息“老妈”和“老马”各自对应的关联内容，可以是各店面所在位置的周边信息，例如附近一定范围内的其他建筑的信息。

例如“老妈拉面店”的周边建筑分别为ABCDE，“老马拉面店”的周边建筑分别为ABCDE，此时，关联相似度高。

例如“老妈拉面店”的周边建筑分别为ABCDE，“老马拉面店”的周边建筑分别为CDEFG，此时，关联相似度相对低一些。

例如“吴某花”的部门同事分别为小明、小凤、小星，“武某华”的部门同事分别为小明、小凤、小星，此时，关联相似度高。

例如“吴某花”的部门同事分别为小明、小凤、小星，“武某华”的部门同事分别为小鹏、小伟、小特，此时，关联相似度低。

在本发明中，对于每一条数据，除了与自身密切相关的基础数据内容外，还可配置用于辅助匹配的关联内容，在这里，该关联内容作为备注内容。例如“老妈拉面店”的备注内容为老板亲戚的电话号码，或是距离“辖区”派出所的距离。例如“吴某花”的备注内容是家属的电话号码，或是住所地位置。另外，又例如“老妈拉面店”是一个连锁品牌，其备注内容可以是经营该连锁品牌的经营主体单位名称。也就是说，相同业务类型的每条数据可设置辅助的内容项，该内容项用于对每条数据判断是否相同的辅助标准。例如辅助的内容项是家属的电话号码。

在本发明中，目标数据和被匹配数据的“各类数据内容”均获取之后，然后根据提取项内容、编辑距离、关联相似度和备注内容确定第一主体信息和第二主体信息属于同一主体后，根据目标数据和被匹配数据确定补充数据，即从被匹配数据中将目标数据不具有的内容项的内容，以及基于被匹配数据中的某些内容项对目标数据中相同内容项的内容进行纠正，该缺少的内容项的内容和纠正的内容作为补充数据。

例如“老妈拉面店”和“老马拉面店”属于同一主体信息，由于“老妈拉面店”属于目标数据，“老马拉面店”属于被匹配数据，且“老马拉面店”属于正确的数据，为此，需要将“老妈拉面店”修改为“老马拉面店”。“老妈拉面店”所属于的目标数据中包括abcde五项内容，“老马拉面店”所属于的被匹配数据中包含abdfg五项内容，为此，需要将fg两项内容补充到“老妈拉面店”所属于的目标数据中。

例如“吴某花”和“武某华”属于同一主体信息，由于“吴某花”属于目标数据，“武某华”属于被匹配数据，且“吴某花”属于正确的数据，故“吴某花”所在提取项内容不变。“吴某花”所属于的目标数据中包括abcde五项内容，“武某华”所属于的被匹配数据中包含abcde五项内容，为此，“吴某花”所属于的目标数据中不增加新的内容项内容。

本发明提供的数据处理方法，通过根据文本数据的提取项内容、编辑距离、关联相似度和备注内容确定不同数据属于同一条数据后，对数据进行修正及补充，解决在多个数据源的情况下内部数据重复混乱或缺失各类关键信息的问题，使多个数据源实现关联从而补全数据的各个纬度信息，减少无用重复的数据。

在上述方法的进一步方法中，主要是对根据提取项内容、编辑距离、关联相似度和备注内容确定第一主体信息和第二主体信息属于同一主体的处理过程的解释说明，具体如下：

确定编辑距离小于第一阈值，且关联相似度大于第二阈值，以及备注内容相同，则第一主体信息和第二主体信息属于同一主体。

对此，以具体实例对上述判断过程进行解释说明，如下：

例如第一阈值为2，“老妈拉面店”与“老马拉面店”的编辑距离为1，符合要求。“老马烩面店”和“老妈拉面店”的编辑距离为2，不符合要求。

例如第二阈值为0.8，“老妈拉面店”的周边建筑分别为ABCDE，“老马拉面店”的周边建筑分别为ABCDE，此时，关联相似度为1，符合要求。

例如“老妈拉面店”所在辖区派出所名称为城南派出所，“老马拉面店”所在辖区派出所名称为城南派出所。

由此可知，“老马拉面店”和“老妈拉面店”属于同一主体，为此，需要将“老马拉面店”和“老妈拉面店”各自所属于的数据进行重组，得到新的数据。

本发明进一步的方法，通过配置不同的判断条件，对多个数据是否是同一数据的判断更精准，更贴合数据统计的实际情况。

在上述方法的进一步方法中，主要是对根据目标数据和被匹配数据确定补充数据的处理过程进行解释说明，具体如下：

确定目标数据的第一内容项，以及被匹配数据的第二内容项；

根据第一内容项和第二内容项，确定待补充项，待补充项为第一内容项和第二内容项之间的差异项；

将待补充项对应的内容作为补充数据。

对此，需要说明的是，在本发明中，每条数据均具备除去上述提取项的多个内容项。例如一个门店的数据还可以包含多个内容项，如门店名称、门店店主、所属街道、联系电话、主营项目等。在这里，确定目标数据的第一内容项，以及被匹配数据的第二内容项。

然后根据第一内容项和第二内容项，确定待补充项，待补充项为第一内容项和第二内容项之间的差异项。这里的差异项，可以是同一内容项的内容有差异的项，也可以是第一内容项所不具备的项。例如目标数据的内容项分别为abcdef，被匹配数据的内容项分别为bcdefhj。此时，经比较之后，待补充项为hj。hj对应的内容作为补充数据，将补充数据和待补充项补入到目标数据中即可。

另外，当机遇待补充数据对目标数据进行内容项补充之后，还需对数据完善后的目标数据的各个内容项采用预设数据格式进行修正，该多个内容项包括第一内容项和待补充项。比如对内容项的内容进行简繁转换，英文统一大小写，特殊字符过滤，去除无意义符号等。

本发明的进一步方法，使多个数据源实现关联从而补全数据的各个纬度信息，减少无用重复的数据。

图2示出了本发明提供的一种数据处理装置的流程示意图，参见图2，该装置包括提取模块21、关联模块22、备注模块23、确定模块24和处理模块25，其中：

提取模块21，用于基于目标数据与被匹配数据的提取项内容分别提取出第一主体信息和第二主体信息，确定第一主体信息和第二主体信息之间的编辑距离，其中，编辑距离表征第一主体信息和第二主体信息之间的差异度；

关联模块22，用于确定第一主体信息和第二主体信息各自对应的关联内容，基于关联内容确定关联相似度；

备注模块23，用于确定第一主体信息和第二主体信息各自对应的备注内容；

确定模块24，用于根据提取项内容、编辑距离、关联相似度和备注内容确定第一主体信息和第二主体信息属于同一主体后，根据目标数据和被匹配数据确定补充数据；

处理模块25，用于根据补充数据对目标数据进行数据完善，并删除被匹配数据。

在上述装置的进一步装置中，确定模块在根据提取项内容、编辑距离、关联相似度和备注内容确定第一主体信息和第二主体信息属于同一主体的处理过程中，具体用于：

在上述装置的进一步装置中，确定模块在根据目标数据和被匹配数据确定补充数据的处理过程中，具体用于：

将待补充项对应的内容作为补充数据。

在上述装置的进一步装置中，装置还包括修正模块，用于对数据完善后的目标数据的各个内容项采用预设数据格式进行修正，内容项包括第一内容项和待补充项。

由于本发明实施例所述装置与上述实施例所述方法的原理相同，对于更加详细的解释内容在此不再赘述。

需要说明的是，本发明实施例中可以通过硬件处理器（hardware processor）来实现相关功能模。

本发明提供的数据处理装置，通过根据文本数据的提取项内容、编辑距离、关联相似度和备注内容确定不同数据属于同一条数据后，对数据进行修正及补充，解决在多个数据源的情况下内部数据重复混乱或缺失各类关键信息的问题，使多个数据源实现关联从而补全数据的各个纬度信息，减少无用重复的数据。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器（processor）31、通信接口（Communication Interface）32、存储器（memory）33和通信总线34，其中，处理器31，通信接口32，存储器33通过通信总线34完成相互间的通信。处理器31可以调用存储器33中的计算机程序，以执行数据处理方法的步骤，例如包括：基于目标数据与被匹配数据的提取项内容分别提取出第一主体信息和第二主体信息，确定第一主体信息和第二主体信息之间的编辑距离，其中，编辑距离表征第一主体信息和第二主体信息之间的差异度；确定第一主体信息和第二主体信息各自对应的关联内容，基于关联内容确定关联相似度；确定第一主体信息和第二主体信息各自对应的备注内容；根据提取项内容、编辑距离、关联相似度和备注内容确定第一主体信息和第二主体信息属于同一主体后，根据目标数据和被匹配数据确定补充数据；根据补充数据对目标数据进行数据完善，并删除被匹配数据。

此外，上述的存储器33中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，RandomAccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行数据处理方法的步骤，例如包括：基于目标数据与被匹配数据的提取项内容分别提取出第一主体信息和第二主体信息，确定第一主体信息和第二主体信息之间的编辑距离，其中，编辑距离表征第一主体信息和第二主体信息之间的差异度；确定第一主体信息和第二主体信息各自对应的关联内容，基于关联内容确定关联相似度；确定第一主体信息和第二主体信息各自对应的备注内容；根据提取项内容、编辑距离、关联相似度和备注内容确定第一主体信息和第二主体信息属于同一主体后，根据目标数据和被匹配数据确定补充数据；根据补充数据对目标数据进行数据完善，并删除被匹配数据。

另一方面，本申请实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行数据处理方法的步骤，例如包括：基于目标数据与被匹配数据的提取项内容分别提取出第一主体信息和第二主体信息，确定第一主体信息和第二主体信息之间的编辑距离，其中，编辑距离表征第一主体信息和第二主体信息之间的差异度；确定第一主体信息和第二主体信息各自对应的关联内容，基于关联内容确定关联相似度；确定第一主体信息和第二主体信息各自对应的备注内容；根据提取项内容、编辑距离、关联相似度和备注内容确定第一主体信息和第二主体信息属于同一主体后，根据目标数据和被匹配数据确定补充数据；根据补充数据对目标数据进行数据完善，并删除被匹配数据。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器（例如软盘、硬盘、磁带、磁光盘（MO）等）、光学存储器（例如CD、DVD、BD、HVD等）、以及半导体存储器（例如ROM、EPROM、EEPROM、非易失性存储器（NANDFLASH）、固态硬盘（SSD））等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，包括：

确定第一主体信息和第二主体信息各自对应的备注内容；

根据所述补充数据对所述目标数据进行数据完善，并删除所述被匹配数据；

其中，根据所述提取项内容、所述编辑距离、所述关联相似度和所述备注内容确定所述第一主体信息和所述第二主体信息属于同一主体，包括：

2.根据权利要求1所述的数据处理方法，其特征在于，所述根据所述目标数据和所述被匹配数据确定补充数据，包括：

将所述待补充项对应的内容作为补充数据。

3.根据权利要求2所述的数据处理方法，其特征在于，所述方法还包括对数据完善后的目标数据的各个内容项采用预设数据格式进行修正，所述内容项包括所述第一内容项和所述待补充项。

4.一种数据处理装置，其特征在于，包括：

确定模块，用于基于确定所述编辑距离小于第一阈值，且所述关联相似度大于第二阈值，以及所述备注内容相同，确定所述第一主体信息和所述第二主体信息属于同一主体后，根据所述目标数据和所述被匹配数据确定补充数据；

5.根据权利要求4所述的数据处理装置，其特征在于，所述确定模块在根据所述目标数据和所述被匹配数据确定补充数据的处理过程中，具体用于：

将所述待补充项对应的内容作为补充数据。

6.根据权利要求5所述的数据处理装置，其特征在于，所述装置还包括修正模块，用于对数据完善后的目标数据的各个内容项采用预设数据格式进行修正，所述内容项包括所述第一内容项和所述待补充项。

7.一种电子设备，包括处理器和存储有计算机程序的存储器，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3任一项所述数据处理方法的步骤。

8.一种处理器可读存储介质，其特征在于，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行权利要求1至3任一项所述数据处理方法的步骤。