CN110532267A

CN110532267A - 字段的确定方法、装置、存储介质及电子装置

Info

Publication number: CN110532267A
Application number: CN201910803702.6A
Authority: CN
Inventors: 张�杰; 罗华刚; 李犇; 吴信东
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2019-12-03

Abstract

本发明提供了一种字段的确定方法、装置、存储介质及电子装置，包括：分别确定原始字段与多个预设字段的相似度，其中，所述相似度用于指示所述原始字段中包括的原始特征与所述预设字段中包括的对应于所述原始特征的预设特征的相似度，所述原始特征的数量为至少两个；基于确定的多组所述相似度从所述多个预设字段中确定与所述原始字段匹配的目标字段。通过本发明，解决了通过人工进行数据表及其字段的映射方式，效率和准确率低的问题，进而达到了提高效率和准确率的效果。

Description

字段的确定方法、装置、存储介质及电子装置

技术领域

本发明涉及通信领域，具体而言，涉及一种字段的确定方法、装置、存储介质及电子装置。

背景技术

在金融、公安、电信、交通、零售等各类行业中，往往需要将源业务系统中结构化数据库里的各个数据表及其字段(以下简称“源系统”)映射到行业主题数据模型中(以下简称“主题库”)，往往需要将源系统中数据片段打散后重新组合后映射到主体库中。主题库的存在，目的是想尽量使得主题库保持结构稳定，屏蔽源系统数据结构变化对下游工作造成的影响，并且便于下游任务做统计分析、大屏展示等相关的工作。

现有的技术方案通常是由熟悉源系统的工程师根据源系统的数据字典手工建立映射关系，人工的方式，工作量巨大，造成了人力资源的大量消耗，而且容易出错，缺乏自动化辅助工具。

针对相关技术中，通过人工进行数据表及其字段的映射方式，效率和准确率低的问题，尚不存在一个有效的解决方案。

发明内容

本发明实施例提供了一种字段的确定方法、装置、存储介质及电子装置，以至少解决相关技术中通过人工进行数据表及其字段的映射方式，效率和准确率低的问题。

根据本发明的一个实施例，提供了一种字段的确定方法，包括：分别确定原始字段与多个预设字段的相似度，其中，所述相似度用于指示所述原始字段中包括的原始特征与所述预设字段中包括的对应于所述原始特征的预设特征的相似度，所述原始特征的数量为至少两个；基于确定的多组所述相似度从所述多个预设字段中确定与所述原始字段匹配的目标字段。

可选地，分别确定原始字段与多个预设字段的相似度包括：通过如下方式确定所述原始字段与所述多个预设字段中包括的第一预设字段的第一相似度：对所述原始字段进行特征提取，得到至少两个所述原始特征；将至少两个所述原始特征与所述第一预设字段中包括的与各原始特征对应的第一预设特征进行匹配，以得到所述第一相似度。

可选地，在将至少两个所述原始特征与所述第一预设字段中包括的与各原始特征对应的第一预设特征进行匹配，以得到所述第一相似度之前，所述方法还包括：对所述第一预设字段进行特征提取，得到所述第一预设特征，其中，所述第一预设特征的数量为多个。

可选地，基于确定的多组所述相似度从所述多个预设字段中确定与所述原始字段匹配的目标字段包括：使用第一模型对多组所述相似度进行分析，基于分析结果确定所述多个预设字段中与所述原始字段匹配的所述目标字段，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：原始字段与多个预设字段的多组相似度。

可选地，确定所述多个预设字段中与所述原始字段匹配的所述目标字段，包括：在通过所述第一模型计算得到的多个匹配值中确定最大匹配值对应的预设字段为所述目标字段。

可选地，在基于确定的多组所述相似度从所述多个预设字段中确定与所述原始字段匹配的目标字段之后，所述方法还包括：将与所述原始字段中对应的数据存储在所述目标字段中。

根据本发明的另一个实施例，提供了一种字段的确定装置，包括：第一确定模块，用于分别确定原始字段与多个预设字段的相似度，其中，所述相似度用于指示所述原始字段中包括的原始特征与所述预设字段中包括的对应于所述原始特征的预设特征的相似度，所述原始特征的数量为至少两个；第二确定模块，用于基于确定的多组所述相似度从所述多个预设字段中确定与所述原始字段匹配的目标字段。

可选地，所述第一确定模块还用于通过如下方式确定所述原始字段与所述多个预设字段中包括的第一预设字段的第一相似度：对所述原始字段进行特征提取，得到至少两个所述原始特征；将至少两个所述原始特征与所述第一预设字段中包括的与各原始特征对应的第一预设特征进行匹配，以得到所述第一相似度。

可选地，所述装置还包括：提取模块，用于在将至少两个所述原始特征与所述第一预设字段中包括的与各原始特征对应的第一预设特征进行匹配，以得到所述第一相似度之前，对所述第一预设字段进行特征提取，得到所述第一预设特征，其中，所述第一预设特征的数量为多个。

可选地，所述第二确定模块还包括：分析单元，用于使用第一模型对多组所述相似度进行分析，基于分析结果确定所述多个预设字段中与所述原始字段匹配的所述目标字段，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：原始字段与多个预设字段的多组相似度。

根据本发明的又一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，由于分别确定原始字段与多个预设字段的相似度，其中，相似度用于指示原始字段中包括的原始特征与预设字段中包括的对应于原始特征的预设特征的相似度，原始特征的数量为至少两个；基于确定的多组所述相似度从多个预设字段中确定与原始字段匹配的目标字段。因此，可以解决通过人工进行数据表及其字段的映射方式，效率和准确率低的问题，达到提高效率和准确率的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种字段的确定方法的移动终端的硬件结构框图；

图2是根据本发明实施例的字段的确定的流程图；

图3是根据本发明实施例的字段特征提取示意图；

图4是根据本发明实施例的字段的确定装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种字段的确定方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的字段的确定方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端的字段的确定方法，图2是根据本发明实施例的字段的确定的流程图，如图2所示，该流程包括如下步骤：

步骤S202，分别确定原始字段与多个预设字段的相似度，其中，所述相似度用于指示所述原始字段中包括的原始特征与所述预设字段中包括的对应于所述原始特征的预设特征的相似度，所述原始特征的数量为至少两个；

其中，原始字段是源业务系统中结构化数据库里的各个数据表中的字段，预设字段是行业主题数据模型中的字段。

步骤S204，基于确定的多组所述相似度从所述多个预设字段中确定与所述原始字段匹配的目标字段。

通过上述步骤，由于分别确定原始字段与多个预设字段的相似度，其中，相似度用于指示原始字段中包括的原始特征与预设字段中包括的对应于原始特征的预设特征的相似度，原始特征的数量为至少两个；基于确定的多组所述相似度从多个预设字段中确定与原始字段匹配的目标字段。因此，可以解决通过人工进行数据表及其字段的映射方式，效率和准确率低的问题，达到提高效率和准确率的效果。

可选地，上述步骤的执行主体可以为终端等，但不限于此。

在一个可选实施例，分别确定原始字段与多个预设字段的相似度包括：通过如下方式确定所述原始字段与所述多个预设字段中包括的第一预设字段的第一相似度：对所述原始字段进行特征提取，得到至少两个所述原始特征；将至少两个所述原始特征与所述第一预设字段中包括的与各原始特征对应的第一预设特征进行匹配，以得到所述第一相似度。在本实施例中，如图3所示是根据本发明实施例的字段特征提取示意图。原始数据表是源系统中的数据表，原始数据表中包括多个字段，依次选取原始数据表中的每个字段。在本实施例中，以选取的原始字段为原始字段i为例，提取原始字段i的特征，得到原始特征1和原始特征2。在图3中模板数据表对应的是主题库中的数据表，模板数据表中所包含的预设字段1、预设字段2、预设字段M对应第一预设字段，模板数据表中的所有预设字段进行特征提取，每个预设字段所包含的特征均为预设特征1和预设特征2。其中，原始特征1与预设特征2相对应，原始特征2与预设特征2相对应。将原始字段i的原始特征1分别与预设字段1、预设字段2、预设字段M的预设特征1进行相似度计算，将原始字段i的原始特征2分别与预设字段1、预设字段2、预设字段M的预设特征2进行相似度计算。具体的字段特征可以包括：字段本身的特征、字段的上下文特征以及主键或外键所关联的其它表格的特征。其中，字段本身的特征包括：字段的数据类型、字段的取值分布、取值的字面信息、字段名的字面信息、所属表格的表格名、数据字典中的中文名、数据字典中的描述文本等；字段的上下文特征包括同一数据表中与字段相邻的其它字段的本身特征或相邻字段在主题库中的数据表的位置。主键或外键所关联的其它表格的特征表示的是在字段为数据表的主键或外键的情况下，其所关联的其它表格的特征。

在一个可选实施例，在将至少两个所述原始特征与所述第一预设字段中包括的与各原始特征对应的第一预设特征进行匹配，以得到所述第一相似度之前，所述方法还包括：对所述第一预设字段进行特征提取，得到所述第一预设特征，其中，所述第一预设特征的数量为多个。在本实施例中，如图3所示，对模板数据表中的预设字段进行特征提取，例如，预设字段1进行特征提取得到预设特征1和预设特征2。在图3中所提取的特征的数量和种类可以根据实际情况而定。

在一个可选实施例，基于确定的多组所述相似度从所述多个预设字段中确定与所述原始字段匹配的目标字段包括：使用第一模型对多组所述相似度进行分析，基于分析结果确定所述多个预设字段中与所述原始字段匹配的所述目标字段，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：原始字段与多个预设字段的多组相似度。在本实施例中，以图3所示的原始字段i与模板数据表中的预设字段1、预设字段2、预设字段M进行匹配为例。假设，原始字段i中的原始特征1与预设字段1中的预设特征1相似度为0.2，原始字段i中的原始特征2与预设字段1中的预设特征2相似度为0.3，那么以{0.2，0.3}表示原始字段i与预设字段1的相似度，以此类推，假设原始字段i与预设字段2的相似度为{0.25，0.25}，原始字段i与预设字段M的相似度为{0.3，0.2}。由此可以看出，原始字段i与预设字段1、预设字段2、预设字段M中预设特征1和预设特征2的相似度总和是相等的，区别仅在于原始字段中的原始特征与不同的预设字段中相应的预设特征的相似度不同。此种情况下，无法确定原始字段i与模板数据表中的哪个字段更匹配。或者，还存在下列情况，原始字段i与预设字段1的相似度为{0.9,0.005}，原始字段i与预设字段2的相似度为{0.001，0.92}，原始字段与预设字段的相似度总和不同，但是对应特征之间的相似度差距很大，无法确定以哪个特征的相似度为标准确定原始特征与预设特征之间的匹配程度。在本实施例中，通过人工智能算法对多组相似度进行分析，确定与原始字段最匹配的预设字段。在上述例子中，将原始字段i与预设字段1的相似度{0.2，0.3}，原始字段i与预设字段2的相似度为{0.25，0.25}，原始字段i与预设字段M的相似度为{0.3，0.2}输入到人工智能模型，即可得到原始字段i与预设字段1、预设字段2和预设字段M中的哪个字段更匹配，确定最匹配的预设字段为目标字段。

在一个可选实施例，确定所述多个预设字段中与所述原始字段匹配的所述目标字段，包括：在通过所述第一模型计算得到的多个匹配值中确定最大匹配值对应的预设字段为所述目标字段。在本实施例中，人工智能模型输出原始字段i分别与不同预设字段的匹配值，确定匹配值最大的预设字段为目标字段。

在一个可选实施例，在基于确定的多组所述相似度从所述多个预设字段中确定与所述原始字段匹配的目标字段之后，所述方法还包括：将与所述原始字段中对应的数据存储在所述目标字段中。在本实施例中，在模板数据表中确定出目标字段后，将原始字段下对应的数据转移或者复制到目标字段下。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读的存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种字段的确定装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本发明实施例的字段的确定装置的结构框图，如图3所示，该装置包括：第一确定模块42，用于分别确定原始字段与多个预设字段的相似度，其中，所述相似度用于指示所述原始字段中包括的原始特征与所述预设字段中包括的对应于所述原始特征的预设特征的相似度，所述原始特征的数量为至少两个；第二确定模块44，用于基于确定的多组所述相似度从所述多个预设字段中确定与所述原始字段匹配的目标字段。

在一个可选实施例，所述第一确定模块还用于通过如下方式确定所述原始字段与所述多个预设字段中包括的第一预设字段的第一相似度：对所述原始字段进行特征提取，得到至少两个所述原始特征；将至少两个所述原始特征与所述第一预设字段中包括的与各原始特征对应的第一预设特征进行匹配，以得到所述第一相似度。

在一个可选实施例，所述装置还包括：提取模块，用于在将至少两个所述原始特征与所述第一预设字段中包括的与各原始特征对应的第一预设特征进行匹配，以得到所述第一相似度之前，对所述第一预设字段进行特征提取，得到所述第一预设特征，其中，所述第一预设特征的数量为多个。

在一个可选实施例，所述第二确定模块还包括：分析单元，用于使用第一模型对多组所述相似度进行分析，基于分析结果确定所述多个预设字段中与所述原始字段匹配的所述目标字段，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：原始字段与多个预设字段的多组相似度。

在一个可选实施例，所述第二确定模块还用于在通过所述第一模型计算得到的多个匹配值中确定最大匹配值对应的预设字段为所述目标字段。

在一个可选实施例，所述装置还用于，在基于确定的多组所述相似度从所述多个预设字段中确定与所述原始字段匹配的目标字段之后，将与所述原始字段中对应的数据存储在所述目标字段中。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，分别确定原始字段与多个预设字段的相似度，其中，所述相似度用于指示所述原始字段中包括的原始特征与所述预设字段中包括的对应于所述原始特征的预设特征的相似度，所述原始特征的数量为至少两个；

S2，基于确定的多组所述相似度从所述多个预设字段中确定与所述原始字段匹配的目标字段。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种字段的确定方法，其特征在于，包括：

分别确定原始字段与多个预设字段的相似度，其中，所述相似度用于指示所述原始字段中包括的原始特征与所述预设字段中包括的对应于所述原始特征的预设特征的相似度，所述原始特征的数量为至少两个；

基于确定的多组所述相似度从所述多个预设字段中确定与所述原始字段匹配的目标字段。

2.根据权利要求1所述的方法，其特征在于，分别确定原始字段与多个预设字段的相似度包括：

通过如下方式确定所述原始字段与所述多个预设字段中包括的第一预设字段的第一相似度：

对所述原始字段进行特征提取，得到至少两个所述原始特征；

将至少两个所述原始特征与所述第一预设字段中包括的与各原始特征对应的第一预设特征进行匹配，以得到所述第一相似度。

3.根据权利要求2所述的方法，其特征在于，在将至少两个所述原始特征与所述第一预设字段中包括的与各原始特征对应的第一预设特征进行匹配，以得到所述第一相似度之前，所述方法还包括：

对所述第一预设字段进行特征提取，得到所述第一预设特征，其中，所述第一预设特征的数量为多个。

4.根据权利要求1所述的方法，其特征在于，基于确定的多组所述相似度从所述多个预设字段中确定与所述原始字段匹配的目标字段包括：

使用第一模型对多组所述相似度进行分析，基于分析结果确定所述多个预设字段中与所述原始字段匹配的所述目标字段，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：原始字段与多个预设字段的多组相似度。

5.一种字段的确定装置，其特征在于，包括：

第一确定模块，用于分别确定原始字段与多个预设字段的相似度，其中，所述相似度用于指示所述原始字段中包括的原始特征与所述预设字段中包括的对应于所述原始特征的预设特征的相似度，所述原始特征的数量为至少两个；

第二确定模块，用于基于确定的多组所述相似度从所述多个预设字段中确定与所述原始字段匹配的目标字段。

6.根据权利要求5所述的装置，其特征在于，所述第一确定模块还用于通过如下方式确定所述原始字段与所述多个预设字段中包括的第一预设字段的第一相似度：对所述原始字段进行特征提取，得到至少两个所述原始特征；将至少两个所述原始特征与所述第一预设字段中包括的与各原始特征对应的第一预设特征进行匹配，以得到所述第一相似度。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

提取模块，用于在将至少两个所述原始特征与所述第一预设字段中包括的与各原始特征对应的第一预设特征进行匹配，以得到所述第一相似度之前，对所述第一预设字段进行特征提取，得到所述第一预设特征，其中，所述第一预设特征的数量为多个。

8.根据权利要求5所述的装置，其特征在于，所述第二确定模块还包括：

分析单元，用于使用第一模型对多组所述相似度进行分析，基于分析结果确定所述多个预设字段中与所述原始字段匹配的所述目标字段，其中，所述第一模型为使用多组数据通过机器学习训练出的，所述多组数据中的每组数据均包括：原始字段与多个预设字段的多组相似度。

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。