CN109800215B

CN109800215B - 一种对标处理的方法、装置、计算机存储介质及终端

Info

Publication number: CN109800215B
Application number: CN201811598897.7A
Authority: CN
Inventors: 张毅然; 王健伟
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Zhizhi Heshu Technology Co ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2020-11-24
Anticipated expiration: 2038-12-26
Also published as: CN109800215A

Abstract

一种对标处理的方法、装置、计算机存储介质及终端，包括：构建待对标处理的各目标表的第一特征向量；对构建的第一特征向量进行聚类运算；根据聚类运算结果，对属于同一聚类簇的目标表进行融合，获得对应于各聚类簇的宽表；根据原始表与获得的各宽表的相似度信息，从获得的所有宽表中选择其中一个作为用于对标处理的标准表。本发明实施例提升了原始表的对标效率。

Description

一种对标处理的方法、装置、计算机存储介质及终端

技术领域

本文涉及但不限于数据处理技术，尤指一种对标处理的方法、装置、计算机存储介质及终端。

背景技术

标准化是数据治理流程中提升治理效率的重要手段，是实现公安、金融、工业等领域半自动化数据治理的关键步骤。在数据治理中，原始表表示公安、金融等各领域最初收集的数据源中的数据，如公安行业统计的“卡口车辆信息表”等，目标表是指分析原始表数据并从中提取的有价值的信息，比如实体人信息、车辆信息等。原始表数据一般是杂乱、冗余的，因此原始表数据量大，在数据治理过程中提取标准表较难。一般的数据治理主要通过人工方法从原始表提取有价值的字段组成目标表，处理过程繁琐；比如要研究“嫌疑人”，就需要手工从原始表抽取“嫌疑人”的相关信息，要研究“嫌疑车辆”又需要手工从原始表抽取“嫌疑车辆”的相关信息，即每次都要重新从原始表抽取不同的信息，工作效率非常低。

标准化就是简化上述过程的一种方法，它旨在将行业内积累的目标表构建一个通用的标准库，标准库保存了领域内很多通用的标准表。当一个新项目到来时，由于同一领域内的业务逻辑相近，可以大概率的在标准库匹配到需要构建的目标表，可以直接使用匹配到的标准表中已构建好的字段来映射原始表中的相关字段，从而缩短人工构建目标表及目标表字段的耗时。

上述标准化过程主要通过将多个项目中配置的标准表进行聚合，构成一个容量庞大的标准库，虽然能覆盖领域内绝大多数业务逻辑，但是会出现标准表重复出现的冗余问题，导致标准库无节制地扩大，影响对标效率。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种对标处理的方法、装置、计算机存储介质及终端，能够提升对标效率。

本发明实施例提供了一种对标处理的方法，

构建待对标处理的各目标表的第一特征向量；

对构建的第一特征向量进行聚类运算；

根据聚类运算结果，对属于同一聚类簇的目标表进行融合，获得对应于各聚类簇的宽表；

根据原始表与获得的各宽表的相似度信息，从获得的所有宽表中选择其中一个作为用于对标处理的标准表；

根据选择的标准表进行原始表的对标处理；

其中，所述对标处理包括：使用选择的标准表中已构建的字段映射原始表中的相关字段。

可选的，所述构建待对标的各目标表的第一特征向量包括：

对所有目标表包含的字段均进行分词处理，获得包含所有分词的词典；

根据获得的词典对各目标表进行词频统计，获得对应于各目标表的词频向量；

对获得的各词频向量分别进行预处理后，构建对应于各目标表的所述第一特征向量；

其中，所述预处理包括：归一化处理。

可选的，所述对构建的第一特征向量进行聚类运算之前，所述方法还包括：

根据预设策略确定所述聚类运算的聚类中心数；

其中，所述聚类中心数与所述目标表包含的种类数成正比。

可选的，所述对属于同一聚类簇的目标表进行融合包括：

对属于同一聚类簇中的所述目标表，进行数据项的去重和合并处理后，获得对应于当前聚类簇的宽表。

可选的，所述从获得的所有宽表中选择其中一个作为用于对标处理的标准表包括：

确定所述原始表的第二特征向量，各宽表的第三特征向量；

计算确定的所述第二特征向量与各所述第三特征向量的相似度；

选择相似度取值最大时，该相似度取值对应的宽表作为用于对标处理的标准表。

另一方面，本发明实施例还提供一种对标处理的装置，包括：构建单元、聚类单元、融合单元和确定单元；其中，

构建单元用于：构建待对标处理的各目标表的第一特征向量；

聚类单元用于：对构建的第一特征向量进行聚类运算；

融合单元用于：根据聚类运算结果，对属于同一聚类簇的目标表进行融合，获得对应于各聚类簇的宽表；

确定单元用于：根据原始表与获得的各宽表的相似度信息，从获得的所有宽表中选择其中一个作为用于对标处理的标准表；

根据选择的标准表进行原始表的对标处理；

可选的，所述构建单元具体用于：

其中，所述预处理包括：归一化处理。

可选的，所述装置还包括预设单元，用于：

根据预设策略确定所述聚类运算的聚类中心数；

其中，所述聚类中心数与所述目标表包含的种类数成正比。

可选的，所述融合单元具体用于：

根据聚类运算结果，对属于同一聚类簇中的所述目标表，进行数据项的去重和合并处理后，获得对应于当前聚类簇的宽表。

可选的，所述确定单元具体用于：

确定所述原始表的第二特征向量，各宽表的第三特征向量；

再一方面，本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行上述对标处理的方法。

还一方面，本发明实施例还提供一种终端，包括：存储器和处理器；其中，

处理器被配置为执行存储器中的程序指令；

程序指令在处理器读取执行以下操作：

构建待对标处理的各目标表的第一特征向量；

对构建的第一特征向量进行聚类运算；

根据选择的标准表进行原始表的对标处理；

与相关技术相比，本申请技术方案包括：构建待对标处理的各目标表的第一特征向量；对构建的第一特征向量进行聚类运算；根据聚类运算结果，对属于同一聚类簇的目标表进行融合，获得对应于各聚类簇的宽表；根据原始表与获得的各宽表的相似度信息，从获得的所有宽表中选择其中一个作为用于对标处理的标准表。本发明实施例提升了原始表的对标效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例对标处理的方法的流程图；

图2为本发明实施例对标处理的装置的结构框图；

图3为本发明应用示例的方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明实施例对标处理的方法的流程图，如图1所示，包括：

步骤101、构建待对标处理的各目标表的第一特征向量；

可选的，本发明实施例构建待对标的各目标表的第一特征向量包括：

其中，所述预处理包括：归一化处理。

步骤102、对构建的第一特征向量进行聚类运算；

可选的，对构建的第一特征向量进行聚类运算之前，本发明实施例方法还包括：

根据预设策略确定所述聚类运算的聚类中心数；

其中，所述聚类中心数与所述目标表包含的种类数成正比。

步骤103、根据聚类运算结果，对属于同一聚类簇的目标表进行融合，获得对应于各聚类簇的宽表；

可选的，本发明实施例对属于同一聚类簇的目标表进行融合包括：

步骤104、根据原始表与获得的各宽表的相似度信息，从获得的所有宽表中选择其中一个作为用于对标处理的标准表。

可选的，本发明实施例方法还包括：

根据选择确定的标准表进行原始表的对标处理。

可选的，本发明实施例方法还包括：

进行原始表的对标处理时，如果对标处理需补充的数据项与原始表数据项的比值大于预设比例阈值时，按照预设步长减少聚类中心数，直至对标处理需补充的数据项与原始表数据项的比值小于或等于预设比例阈值时停止。

可选的，本发明实施例方法从获得的所有宽表中选择其中一个作为用于对标处理的标准表包括：

确定所述原始表的第二特征向量，各宽表的第三特征向量；

需要说明的是，本发明实施例第二特征向量和第三特征向量的确定方式可以参照第一特征向量的确定方式获得，在此不做赘述。

图2为本发明实施例对标处理的装置的结构框图，如图2所示，包括：构建单元、聚类单元、融合单元和确定单元；其中，

可选的，本发明实施例构建单元具体用于：

其中，所述预处理包括：归一化处理。

聚类单元用于：对构建的第一特征向量进行聚类运算；

可选的，本发明实施例装置还包括预设单元，用于：

根据预设策略确定所述聚类运算的聚类中心数；

其中，所述聚类中心数与所述目标表包含的种类数成正比。

可选的，本发明实施例融合单元具体用于：

确定单元用于：根据原始表与获得的各宽表的相似度信息，从获得的所有宽表中选择其中一个作为用于对标处理的标准表。

可选的，本发明实施例还包括：

根据选择确定的标准表进行原始表的对标处理。

可选的，本发明实施例还包括：

可选的，本发明实施例确定单元具体用于：

确定所述原始表的第二特征向量，各宽表的第三特征向量；

本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行上述对标处理的方法。

本发明实施例还提供一种终端，包括：存储器和处理器；其中，

处理器被配置为执行存储器中的程序指令；

程序指令在处理器读取执行以下操作：

构建待对标处理的各目标表的第一特征向量；

对构建的第一特征向量进行聚类运算；

根据原始表与获得的各宽表的相似度信息，从获得的所有宽表中选择其中一个作为用于对标处理的标准表。

以下通过应用示例对本发明实施例方法进行清楚详细的说明，应用示例仅用于陈述本发明，并不用于限定本发明的保护范围。

应用示例

本发明应用示例目标表可以包括指定领域需要进行对标处理的项目积累的目标表，假设目标表的个数为N，目标表用t₁,t₂,t₃,…t_n(n∈[1,N])表示。图3为本发明应用示例的方法流程图，如图3所示，包括：

步骤301、对每个目标表的所有字段进行分词，获得包含所有目标表的分词的词典；本发明应用示例词典用W表示，用w₁,w₂,…w_W表示词典中包含的分词；

步骤302、对每个目标表进行词频统计，获得对应于目标表的词频向量；本发明应用示例词频向量可以表示为

其中w是词典W中的一个词，

是词w在表t_n中出现的次数。

步骤303、对获得的各词频向量进行预处理后，获得相应的第一特征向量；本发明应用示例预处理包括归一化处理；本发明应用示例获得的词频向量只是一种词频计数，每个维度上的值范围是不确定的，通过归一化可以把向量的每个维度压到统一的范围内，防止某个向量因为计数过大造成对计算的结果影响过于显著，从而导致其他向量不能对计算产生影响；本发明实施例第一特征向量可以表示为：

步骤304、根据目标表的种类数确定聚类中心数，根据聚类中心数从所有目标表中随机选择聚类中心数的目标表作为聚类中心；本发明应用示例聚类中心数可以由本领域技术人员根据经验分析确定，可以根据对标结果进行分析调整。

步骤305、根据确定的聚类中心进行聚类运算；本发明应用示例通过欧式距离的计算公式计算每个表到聚类中心的欧式距离，聚类运算包括不断迭代调整聚类中心向量的运算；迭代调整聚类中心的过程；欧式距离的计算公式可以参照下式：

步骤306、根据聚类运算的结果，对每一个聚类簇中的目标表进行融合，获得对应于各聚类簇的宽表；本发明应用示例，获得的宽表通过d_k进行标识，融合的目标表之间相同字段只保留一个，不同字段则全部保留；本发明应用示例宽表d_k的第三特征向量以聚类中心V^k来表示。本发明应用示例融合过程包括：去重和合并。

步骤307、对需要进行对标处理的原始表，构建原始表的第二特征向量；本发明应用示例第二特征向量用V^o表示。

步骤308、计算第二特征向量和各宽表的第三特征向量的相似度；本发明应用示例相似度计算公式可以表示为：

步骤309、将计算获得的相似度取值进行排序，选择最大相似度取值的宽表作为与原始表对标的标准表；

步骤310、根据选择的用于对标处理的标准表，进行原始表的对标处理；本发明应用示例对标处理包括从原始表快速抽取目标表，以进行后续各种数据分析应用的接入。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的每个模块/单元可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种对标处理的方法，其特征在于，包括：

构建待对标处理的各目标表的第一特征向量；

对构建的第一特征向量进行聚类运算；

根据选择的标准表进行原始表的对标处理；

2.根据权利要求1所述的方法，其特征在于，所述构建待对标的各目标表的第一特征向量包括：

其中，所述预处理包括：归一化处理。

3.根据权利要求1或2所述的方法，其特征在于，所述对构建的第一特征向量进行聚类运算之前，所述方法还包括：

根据预设策略确定所述聚类运算的聚类中心数；

其中，所述聚类中心数与所述目标表包含的种类数成正比。

4.根据权利要求1所述的方法，其特征在于，所述对属于同一聚类簇的目标表进行融合包括：

5.根据权利要求1、2或4所述的方法，其特征在于，所述从获得的所有宽表中选择其中一个作为用于对标处理的标准表包括：

确定所述原始表的第二特征向量，各宽表的第三特征向量；

6.一种对标处理的装置，其特征在于，包括：构建单元、聚类单元、融合单元和确定单元；其中，

聚类单元用于：对构建的第一特征向量进行聚类运算；

根据选择的标准表进行原始表的对标处理；

7.根据权利要求6所述的装置，其特征在于，所述构建单元具体用于：

其中，所述预处理包括：归一化处理。

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括预设单元，用于：

根据预设策略确定所述聚类运算的聚类中心数；

其中，所述聚类中心数与所述目标表包含的种类数成正比。

9.根据权利要求6所述的装置，其特征在于，所述融合单元具体用于：

10.根据权利要求6、7或9所述的装置，其特征在于，所述确定单元具体用于：

确定所述原始表的第二特征向量，各宽表的第三特征向量；

11.一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～5中任一项所述的对标处理的方法。

12.一种终端，包括：存储器和处理器；其中，

处理器被配置为执行存储器中的程序指令；

程序指令在处理器读取执行以下操作：

构建待对标处理的各目标表的第一特征向量；

对构建的第一特征向量进行聚类运算；

根据选择的标准表进行原始表的对标处理；