CN109783483A

CN109783483A - 一种数据整理的方法、装置、计算机存储介质及终端

Info

Publication number: CN109783483A
Application number: CN201811634064.1A
Authority: CN
Inventors: 张毅然; 于阳
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-21

Abstract

一种数据整理的方法、装置、计算机存储介质及终端，包括：确定预设的映射库中是否包含与需对标的原始表对应的标准表；预设的映射库中未包含与需对标的原始表对应的标准表时，根据中文表名确定对应于需对标的原始表的标准表；其中，所述映射库中存储有：在前确定的原始表及对应于原始表的标准表。本发明实施例通过查询映射库，降低了确定与原始表对标的标准表的运算量，提升了对标效率。

Description

一种数据整理的方法、装置、计算机存储介质及终端

技术领域

本文涉及但不限于信息处理技术，尤指一种数据整理的方法、装置、计算机存储介质及终端。

背景技术

在数据整理任务中，标准化是提高原始表数据整理效率和质量的一种重要手段。通常在进行正式的数据整理之前，需要根据不同领域中制定的标准构建标准表库。比如，在公安领域，有国标、部标、省标等标准。

从原始表到标准表的整理过程通常有以下方法；第一种方法是直接人工定义目标表的字段，包括从原始表抽取相关的字段信息；第二种方法是提前构建一个标准字段库，对原始表进行数据整理的时候从标准字段库查找对应的字段，如果存在，则直接对标；如果不存在，则需要手工新建字段；第三种方法是提前构建标准表库和标准字段库，通过相似度算法寻找与原始表最相似的标准表，进而进行表的对标。

上述方法中，第一种方法精度高但效率低下；第二种方法只考虑标准字段并未考虑标准表，而特定领域的数据整理任务都是具有相应的标准的，如公安领域；第三种方法中，如何快速精准地找到标准库中与之对应的标准表，成为影响标准化过程的效率和质量的关键；一般的，基于获得的原始表的原始表名(包括中文名、英文名，由于表英文名不具备统一的命名规范，只用表中文名进行对标)，计算原始表名与目标表库中每个标准表的标准表名的相似度。对所有标准表，按照标准表名与原始表名的相似度值，进行从高到低排序，取标准表名与原始表名相似度值最大的标准表作为原始表的标准表。基于这种方法，每个原始表都需要重复计算其原始表名与所有标准表的标准表名相似度，使得整个数据整理过程的效率受制于原始表、标准表库的规模，以及相似度算法的复杂度，影响了数据整理的效率。例如，来源于A的“人口信息表”已经计算出对标于标准表库中的标准表“人口登记信息表”，而来源于B的“人口信息表”可能与A的“人口信息表”具有相同或者极为相似的字段列表，但是仍然需要重新计算该原始表与所有标准表的相似度，造成大量计算资源的浪费，影响数据整理的效率。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供一种数据整理的方法、装置、计算机存储介质及终端，能够降低确定对标于原始表的标准表的计算量，提升数据整理效率。

本发明实施例提供了一种数据整理的方法，包括：

确定预设的映射库中是否包含与需对标的原始表对应的标准表；

预设的映射库中未包含与需对标的原始表对应的标准表时，根据中文表名确定对应于需对标的原始表的标准表；

其中，所述映射库中存储有：在前确定的原始表及对应于原始表的标准表。

可选的，所述确定预设的映射库中是否包含与需对标的原始表对应的标准表包括：

查询所述映射库中是否包含第一中文表名与需对标的原始表相同的已存储的原始表；

所述映射库中包含第一中文表名与需对标的原始表相同的已存储的原始表时，将已存储的第一中文表名与需对标的原始表相同的已存储的原始表所对应的标准表，作为需对标的原始表所对应的标准表。

可选的，所述根据中文表名确定对应于需对标的原始表的标准表包括：

获取需对标的原始表的第一中文表名的第一特征向量；

获取各种类标准表的第二中文表名的第二特征向量；

计算获取的第一特征向量与各第二特征向量的相似度分值；

根据计算得到的相似度分值确定与需对标的原始表对应的标准表。

可选的，所述获取各种类标准表的第二中文表名的第二特征向量包括：将标准表按照预设的分类策略进行分类后，对各分类中的标准表分别通过以下处理获得对应的第二特征向量：

对当前分类的标准表的第二中文表名进行分词处理，获得当前分类标准表的第二中文表名的关键词；

对分词获得的第二中文表名的关键词分别进行预处理后，构建当前分类标准表的关键词词库；

对当前分类标准表中的各标准表，分别通过词频统计方式确定相应的第二特征向量；

其中，所述预处理包括：去除重复词和/或停用词的处理。

可选的，所述根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括：

按照预设策略从相似度分值大于预设的相似度阈值的标准表中确定其中一个标准表，作为与需对标的原始表对应的标准表。

可选的，所述根据中文表名确定与需对标的原始表对应的标准表后，所述方法还包括：

在所述映射库中添加确定的与所述需对标的原始表对应的标准表的映射信息。

另一方面，本发明实施例还提供一种数据整理的装置，包括：判断单元和确定单元；其中，

判断单元用于：确定预设的映射库中是否包含与需对标的原始表对应的标准表；

确定单元用于：预设的映射库中未包含与需对标的原始表对应的标准表时，根据中文表名确定对应于需对标的原始表的标准表；

可选的，所述判断单元用于：

可选的，所述确定单元具体用于：

获取需对标的原始表的第一中文表名的第一特征向量；

获取各种类标准表的第二中文表名的第二特征向量；

计算获取的第一特征向量与各第二特征向量的相似度分值；

可选的，所述确定单元用于获取各种类标准表的第二中文表名的第二特征向量包括：将标准表按照预设的分类策略进行分类后，对各分类中的标准表分别通过以下处理获得对应的第二特征向量：

其中，所述预处理包括：去除重复词和/或停用词的处理。

可选的，所述确定单元用于根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括：

可选的，所述装置还包括更新单元：

再一方面，本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行上述数据整理的方法。

还一方面，本发明实施例还提供一种终端，包括：存储器和处理器；其中，

处理器被配置为执行存储器中的程序指令；

程序指令在处理器读取执行以下操作：

与相关技术相比，本申请技术方案包括：确定预设的映射库中是否包含与需对标的原始表对应的标准表；预设的映射库中未包含与需对标的原始表对应的标准表时，根据中文表名确定对应于需对标的原始表的标准表；其中，所述映射库中存储有：在前确定的原始表及对应于原始表的标准表。本发明实施例通过查询映射库，降低了确定与原始表对标的标准表的运算量，提升了对标效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例数据整理的方法的流程图；

图2为本发明实施例数据整理的装置的结构框图；

图3为本发明应用实施例识别原始表对应的标准表的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为本发明实施例数据整理的方法的流程图，如图1所示，包括：

步骤101、确定预设的映射库中是否包含与需对标的原始表对应的标准表；

可选的，本发明实施例确定预设的映射库中是否包含与需对标的原始表对应的标准表包括：

步骤102、预设的映射库中未包含与需对标的原始表对应的标准表时，根据中文表名确定对应于需对标的原始表的标准表；

可选的，本发明实施例根据中文表名确定对应于需对标的原始表的标准表包括：

获取需对标的原始表的第一中文表名的第一特征向量；

获取各种类标准表的第二中文表名的第二特征向量；

计算获取的第一特征向量与各第二特征向量的相似度分值；

需要说明的是，本发明实施例获取需对标的原始表的第一中文表名的第一特征向量的方法与相关技术中已有的获取方法可以相同。

可选的，本发明实施例获取各种类标准表的第二中文表名的第二特征向量包括：将标准表按照预设的分类策略进行分类后，对各分类中的标准表分别通过以下处理获得对应的第二特征向量：

其中，所述预处理包括：去除重复词和/或停用词的处理。

需要说明的是，本发明实施例标准表的分类可以参照相关技术中已有的分类标准进行分类；通过分类后的标准表构建各分类标准表的关键词词库，与相关技术中以所有标准表的中文名称构建关键词词库方式相比，可以提升后续相似度计算的准确度。

可选的，本发明实施例根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括：

可选的，根据中文表名确定与需对标的原始表对应的标准表后，本发明实施例方法还包括：

图2为本发明实施例数据整理的装置的结构框图，如图2所示，包括：判断单元和确定单元；其中，

可选的，本发明实施例判断单元用于：

可选的，本发明实施例确定单元具体用于：

获取需对标的原始表的第一中文表名的第一特征向量；

获取各种类标准表的第二中文表名的第二特征向量；

计算获取的第一特征向量与各第二特征向量的相似度分值；

可选的，本发明实施例确定单元用于获取各种类标准表的第二中文表名的第二特征向量包括：将标准表按照预设的分类策略进行分类后，对各分类中的标准表分别通过以下处理获得对应的第二特征向量：

其中，所述预处理包括：去除重复词和/或停用词的处理。

可选的，本发明实施例确定单元用于根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括：

可选的，本发明实施例装置还包括更新单元：

本发明实施例还提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行上述数据整理的方法。

本发明实施例还提供一种终端，包括：存储器和处理器；其中，

处理器被配置为执行存储器中的程序指令；

程序指令在处理器读取执行以下操作：

以下通过应用示例对本发明实施例方法进行清楚详细的说明，应用示例仅用于陈述本发明，并不用于限定本发明的保护范围。

应用示例

本发明应用示例在不断的数据整理任务中，通过已经完成了对标的原始数据表及其对标成功的标准表的映射，实现已有原始表或者相似原始表的快速对标。

本发明应用示例假设有N张标准表，一共有M种类别；例如、依据《公安数据资源目录技术规范》行业类别代码表分类要求，将标准表分为法院、检察院、公安、供水、供电等类。本发明应用示例用c₁，c₂，c₃，...，c_m(m∈[1，M])分别表示M种类别中的每一种类别；用t₁，t₂，t₃，...，t_n(n∈[1，N])分别表示N张标准表中的每一张表，t_i表示第i张标准表；用o表示一个新的原始表；用K＝(k₁，k₂，...，k_i，...)表示原始表到标准表的映射库，其中，o_p表示原始表p，k_i＝(o_p，t_q)表示原始表p与标准表q的映射；

对已构建的标准库的所有标准表的中文表名进行分词，对于每个类别c_m，由于中文表名的关键词差异较大，因此对每个类别的标准表的中文名称的关键词单独构建词库，去除重复词和停用词，并采用词频统计的方法提取特征向量最终将M个类别向量组合成标准表的特征向量，V＝{v₁v₂，...，v_M}。

对于原始表o，根据中文表名查询映射库中是否存在对应于原始表的标准表，即是否存在对应于原始表的映射k_i＝(o，t_i)。如果存在原始表o的映射，则找到原始表o对应的标准表t_i，对标成功；

如果根据中文表名找不到原始表o对应的标准表，则构建原始表o的特征向量，其中，表示原始表o的中文表名的特征向量中的第i维：

通过余弦定理计算原始表(需对标的原始表)中文表名的特征向量与各标准表名的特征向量的相似度分值：

本发明应用示例设定一系列相似度阈值θ＝(θ₁，θ₂，...，θ_H)；其中，H表示相似度阈值等级层数，从1到H相似度阈值等级提高，即要求原始表与标准表具有更高的相似度。例如，用户根据需求选不同的相似度阈值，当选择较大的相似度阈值如90％时，则系统推荐与原始表对标的标准表数量较少，但较准确；当选择较小的阈值如选60％，则系统推荐的与原始表对标的标准表数量较多，用户根据实际情况选择相应的标准表。可选的，用户可以根据原始表对标标准表的数量，为每个原始表选择一个相似度阈值，当score＞θ_i时，对所有符合条件的标准表进行相似度从高到底排序，将相似度最大的Δ个标准表推荐给用户，其中，Δ的取值不宜过大，否则推荐的标准表与原始表差别较大；例如，Δ可以等于5；

本发明应用示例确定原始表与标准表的映射关系时，将原始表的原始表名及对应的标准表的标准表名添加到映射库中，实现映射库数据的不断积累，当映射库规模足够大时，对标过程命中概率会逐步增加，数据表的对标效率会逐步提高。

图3为本发明应用实施例识别原始表对应的标准表的流程图，如图3所示，包括：

步骤301、获取标准表的中文名称；

步骤302、对标准表的中文名称进行分词；

步骤303、对各种类的标准表的中文名称进行分词统计，构建各种类标准表的中文名称的关键词库；

步骤304、根据构建的各种类标准表的中文名称的关键词库，生成各标准表的特征向量

步骤305、根据所有标准表的中文名称的特征向量组合生成特征向量集合V＝{v₁v₂，...，v_M}；

步骤306、获取到需要对标的原始表，提取原始表的中文名称的特征向量；

步骤307、根据原始表的中文表名访问映射库，确定映射库中是否存在对应于原始表的标准表；

步骤308、映射库中存在与需对标的原始表对应的标准表时，确定该标准表与原始表对标；

步骤309、映射库中不存在与原始表对应的标准表时，计算需对标的原始表的中文表名的特征向量与各标准表的标准表名的特征向量的相似度分值；

步骤310、获得的相似度分值大于预设的相似度阈值时，从相似度分值大于相似度阈值的标准表中确定一个与原始表对应的标准表，并将确定的与原始表对应的标准表添加到映射库中；本发明实施例相似度阈值当选择较大的相似度阈值如90％时，则与原始表对标的标准表数量较少，但较准确；当选择较小的相似度阈值如选60％，则与原始表对标的标准表数量较多，用户根据实际情况选择相应的标准表。

可选的，本发明实施例可以对计算获得的相似度分值进行排序并对相似度进行排序，选择最大相似度分值的标准表用于对标原始表；

可选的，获得的最大相似度分值小于或等于预设的相似度阈值时，本发明可以采用相关技术确定与需对标的原始表对应的标准表；例如、采用人工方式确定与需对标的原始表对应的标准表。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的每个模块/单元可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明不限制于任何特定形式的硬件和软件的结合。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种数据整理的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定预设的映射库中是否包含与需对标的原始表对应的标准表包括：

所述映射库中包含第一中文表名均与需对标的原始表相同的已存储的原始表时，将已存储的第一中文表名与需对标的原始表相同的已存储的原始表所对应的标准表，作为需对标的原始表所对应的标准表。

3.根据权利要求1所述的方法，其特征在于，所述根据中文表名确定对应于需对标的原始表的标准表包括：

获取需对标的原始表的第一中文表名的第一特征向量；

获取各种类标准表的第二中文表名的第二特征向量；

计算获取的第一特征向量与各第二特征向量的相似度分值；

4.根据权利要求3所述的方法，其特征在于，所述获取各种类标准表的第二中文表名的第二特征向量包括：将标准表按照预设的分类策略进行分类后，对各分类中的标准表分别通过以下处理获得对应的第二特征向量：

其中，所述预处理包括：去除重复词和/或停用词的处理。

5.根据权利要求4所述的方法，其特征在于，所述根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括：

6.根据权利要求1～5任一项所述的方法，其特征在于，所述根据中文表名确定与需对标的原始表对应的标准表后，所述方法还包括：

7.一种数据整理的装置，其特征在于，包括：判断单元和确定单元；其中，

8.根据权利要求7所述的装置，其特征在于，所述判断单元用于：

9.根据权利要求7所述的装置，其特征在于，所述确定单元具体用于：

获取需对标的原始表的第一中文表名的第一特征向量；

获取各种类标准表的第二中文表名的第二特征向量；

计算获取的第一特征向量与各第二特征向量的相似度分值；

10.根据权利要求9所述的装置，其特征在于，所述确定单元用于获取各种类标准表的第二中文表名的第二特征向量包括：将标准表按照预设的分类策略进行分类后，对各分类中的标准表分别通过以下处理获得对应的第二特征向量：

其中，所述预处理包括：去除重复词和/或停用词的处理。

11.根据权利要求10所述的方法，其特征在于，所述确定单元用于根据计算得到的相似度分值确定与需对标的原始表对应的标准表包括：

12.根据权利要求7～11任一项所述的装置，其特征在于，所述装置还包括更新单元：

13.一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～6中任一项所述的数据整理的方法。

14.一种终端，包括：存储器和处理器；其中，

处理器被配置为执行存储器中的程序指令；

程序指令在处理器读取执行以下操作：