CN115827645B

CN115827645B - 一种跨业务领域的字段匹配方法、装置及存储介质

Info

Publication number: CN115827645B
Application number: CN202310116397.XA
Authority: CN
Inventors: 孙庆伟; 尹明君
Original assignee: CHANJET INFORMATION TECHNOLOGY CO LTD
Current assignee: CHANJET INFORMATION TECHNOLOGY CO LTD
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-04-18
Anticipated expiration: 2043-02-15
Also published as: CN115827645A

Abstract

本发明提出了一种跨业务领域的字段匹配方法、装置及存储介质，涉及数据安全技术领域，该方法包括：用户将数据表上传至数据库系统，所述数据库系统接收到所述数据表后将所述数据表的表头进行解析获得N个领域字段；将所述N个领域字段基于历史匹配关系与所述数据库系统的数据字段相匹配，匹配成功M个字段；将匹配未成功的N‑M个字段基于字典匹配规则进行匹配，匹配成功P个字段；将匹配未成功的N‑M‑P个字段基于统计概率在所述数据库系统中与所述数据表相同领域的数据字段相匹配，匹配成功K个字段；判断N‑M‑P‑K是否大于0，如果是，对剩余的N‑M‑P‑K在数据库系统中所有领域的数据字段相匹配。本发明提高了字段的匹配准确率。

Description

一种跨业务领域的字段匹配方法、装置及存储介质

技术领域

本发明涉及数据安全技术领域，具体涉及一种跨业务领域的字段匹配方法、装置及存储介质。

背景技术

现有技术中，在一些特定的软件中，需用户上传个人第三方来源的文档，例如Excel。此类文档的表头行大多存在领域特点、以及用户个人习惯称呼。但软件中对这类标题都有较为专业的领域称呼。所以需要特定的字段匹配方法去将用户的文档标题与软件系统的文档标题做上对应，该对应关系将在下文中称为匹配。

例如银行单据，发票账单等，上传的文档中客户方称为发票号，系统中为发票号码，需要将发票号与发票号码做为对应，这样才能将发票号列的数据录入到发票号码中。

开发的系统需要具有以下性能：

1、记忆性：某些用户存在自己的特殊叫法，不能完全按照现有规则进行约束，此时需要为用户记录之前的习惯。

2、顺序性：用户单据的字段顺序是不一致的，无法根据顺序去与系统中的字段进行适配

3、特殊性：由于庞大的用户，也有着各自的习惯，很难将所有用户的叫法都汇集成规律

4、行业区分：对于一些财务软件来说，内部不同的行业对一些专业的系统字段叫法不一，用户的称呼也更加不一致，极大的扩充了不稳定性，也会让一部分在该领域规则成立的对应关系在另一个领域规则中不成立。

因此，现有技术在字段对应过程中，容易出现对应错误，导致数据复制错误，进而影响后续系统性能。

发明内容

本发明针对上述现有技术中一个或多个技术缺陷，提出了如下技术方案。

一种跨业务领域的字段匹配方法，该方法包括：

解析步骤，用户将数据表上传至数据库系统，所述数据库系统接收到所述数据表后将所述数据表的表头进行解析获得N个领域字段；

历史匹配步骤，将所述N个领域字段基于历史匹配关系与所述数据库系统的数据字段相匹配，匹配成功M个字段；

规则匹配步骤，将匹配未成功的N-M个字段基于字典匹配规则进行匹配，匹配成功P个字段；

统计匹配步骤，将匹配未成功的N-M-P个字段基于统计概率在所述数据库系统中与所述数据表相同领域的数据字段相匹配，匹配成功K个字段；

全领域匹配步骤，判断N-M-P-K是否大于0，如果是，对剩余的N-M-P-K在数据库系统中所有领域的数据字段相匹配，其中，N≥1，M≥1，P≥1，K≥1。

更进一步地，所述数据表为excel格式的数据表，所述表头为所述数据表的第一行数据。

更进一步地，将所述N个领域字段基于历史匹配关系与所述数据库系统的数据字段相匹配的操作为：获取所述用户的用户ID，基于所述用户ID获取所述用户的上传历史记录，将所述N个领域字段在所述上传历史记录中进行检索命中M个历史字段记录，使用所述M个历史字段记录作为索引在历史匹配关系中进行匹配，匹配成功M个字段，所述历史匹配关系中记录了所述用户上传的历史字段记录与数据库系统的数据字段的对应关系。

更进一步地，将匹配未成功的N-M个字段基于字典匹配规则进行匹配的操作为：对所述N个领域字段进行语义分析以确定所述数据表的所属领域，基于所属领域加载对应领域的字典，将匹配未成功的N-M个字段基于匹配规则进行逐一匹配，如果一个字段在所述字典中得到一个匹配结果，将该匹配结果作为成功匹配结果，如果一个字段在所述字典中得到多个匹配结果，计算该多个匹配结果与匹配未成功的字段的语义近似度，将近似度最大的匹配结果作为成功匹配结果，所述匹配规则为正则规则。

更进一步地，将匹配未成功的N-M-P个字段基于统计概率在所述数据库系统中与所述数据表相同领域的数据字段相匹配的操作为：

基于所述数据表的领域加载字段匹配概率矩阵，所述字段匹配概率矩阵通过统计所述用户的领域字段与数据库的数据字段的历史匹配记录进行构建，所述字段匹配概率矩阵中的每个数据表示每个领域字段与每个数据字段的匹配概率，基于所述字段匹配概率矩阵获取匹配未成功的N-M-P个字段中的每一个字段与每个数据字段的匹配概率，将匹配概率从大到小排序前Sn位的数据字段记录为一元匹配概率PA=P(Yi|x1)，其中x1表示N-M-P个字段中的一个字段，Yi表示与该字段x1匹配概率大到小排序前Sn位的数据字段；

计算二元匹配概率PB=p*P(Yj|(x1,xm))，其中，xm是N-M-P个字段中的与x1不同的字段，p为二元匹配概率调节因子，其中，p=IDF*Hm/Ht，其中，IDF=log(数据表总数/(出现该(x1,xm)组合的文档数)+1)，基于PB选取该(x1,xm)组合字段匹配概率大到小排序前Sm位的数据字段Yj；

计算融合概率P=αPA+βPB，将融合概率值最大的数据字段作为匹配成功的数据字段，其中，α、β为权重值，Ht为系统中的总租户数量，Hm为数据表存在该(x1,xm)组合的租户个数。

本发明还提出了一种跨业务领域的字段匹配装置，该装置包括：

解析单元，用户将数据表上传至数据库系统，所述数据库系统接收到所述数据表后将所述数据表的表头进行解析获得N个领域字段；

历史匹配单元，将所述N个领域字段基于历史匹配关系与所述数据库系统的数据字段相匹配，匹配成功M个字段；

规则匹配单元，将匹配未成功的N-M个字段基于字典匹配规则进行匹配，匹配成功P个字段；

统计匹配单元，将匹配未成功的N-M-P个字段基于统计概率在所述数据库系统中与所述数据表相同领域的数据字段相匹配，匹配成功K个字段；

全领域匹配单元，判断N-M-P-K是否大于0，如果是，对剩余的N-M-P-K在数据库系统中所有领域的数据字段相匹配，其中，N≥1，M≥1，P≥1，K≥1。

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于：本发明的一种跨业务领域的字段匹配方法、装置及存储介质，该方法包括：解析步骤S101，用户将数据表上传至数据库系统，所述数据库系统接收到所述数据表后将所述数据表的表头进行解析获得N个领域字段；历史匹配步骤S102，将所述N个领域字段基于历史匹配关系与所述数据库系统的数据字段相匹配，匹配成功M个字段；规则匹配步骤S103，将匹配未成功的N-M个字段基于字典匹配规则进行匹配，匹配成功P个字段；统计匹配步骤S104，将匹配未成功的N-M-P个字段基于统计概率在所述数据库系统中与所述数据表相同领域的数据字段相匹配，匹配成功K个字段；全领域匹配步骤S105，判断N-M-P-K是否大于0，如果是，对剩余的N-M-P-K在数据库系统中所有领域的数据字段相匹配，其中，N≥1，M≥1，P≥1，K≥1。本发明中，为了解决背景技术中的缺陷，通过逐步匹配的方式，将用户上传数据表的字段对应到数据库系统中的数据字段，从而将数据表的中的数据复制到数据库对应的字段中，首先，所述数据库系统接收到所述数据表后将所述数据表的表头进行解析获得N个领域字段，然后，将所述N个领域字段基于历史匹配关系与所述数据库系统的数据字段相匹配，匹配成功M个字段，此时，如果N=M，则退出后续的匹配，否则，将匹配未成功的N-M个字段基于字典匹配规则进行匹配，匹配成功P个字段，如果N-M-P=0，则退出后续匹配，否则，将匹配未成功的N-M-P个字段基于统计概率在所述数据库系统中与所述数据表相同领域的数据字段相匹配，匹配成功K个字段，如果N-M-P-K大于0，则对剩余的N-M-P-K在数据库系统中所有领域的数据字段相匹配，从而使得所有字段进行匹配成功，如果还有匹配不成功的字段，则让用户通过手工进行匹配，从而提高了字段的匹配准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种跨业务领域的字段匹配方法的流程图。

图2是根据本发明的实施例的一种跨业务领域的字段匹配装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种跨业务领域的字段匹配方法，该方法包括：

解析步骤S101，用户将数据表上传至数据库系统，所述数据库系统接收到所述数据表后将所述数据表的表头进行解析获得N个领域字段；

历史匹配步骤S102，将所述N个领域字段基于历史匹配关系与所述数据库系统的数据字段相匹配，匹配成功M个字段；

规则匹配步骤S103，将匹配未成功的N-M个字段基于字典匹配规则进行匹配，匹配成功P个字段；

统计匹配步骤S104，将匹配未成功的N-M-P个字段基于统计概率在所述数据库系统中与所述数据表相同领域的数据字段相匹配，匹配成功K个字段；

全领域匹配步骤S105，判断N-M-P-K是否大于0，如果是，对剩余的N-M-P-K在数据库系统中所有领域的数据字段相匹配，其中，N≥1，M≥1，P≥1，K≥1。

本发明中，为了解决背景技术中的缺陷，通过逐步匹配的方式，将用户上传数据表的字段对应到数据库系统中的数据字段，从而将数据表的中的数据复制到数据库对应的字段中，首先，所述数据库系统接收到所述数据表后将所述数据表的表头进行解析获得N个领域字段，然后，将所述N个领域字段基于历史匹配关系与所述数据库系统的数据字段相匹配，匹配成功M个字段，此时，如果N=M，则退出后续的匹配，否则，将匹配未成功的N-M个字段基于字典匹配规则进行匹配，匹配成功P个字段，如果N-M-P=0，则退出后续匹配，否则，将匹配未成功的N-M-P个字段基于统计概率在所述数据库系统中与所述数据表相同领域的数据字段相匹配，匹配成功K个字段，如果N-M-P-K大于0，则对剩余的N-M-P-K在数据库系统中所有领域的数据字段相匹配，从而使得所有字段进行匹配成功，如果还有匹配不成功的字段，则让用户通过手工进行匹配，从而提高了字段的匹配准确率，这是本发明的一个重要发明点。

在一个实施例中，所述数据表为excel格式的数据表，当然也可以是其他数据格式的数据表，所述表头为所述数据表的第一行数据，也可以是前几行数据，数据表头的解析后可以存储在一个文本文档中，或其他格式的文档中。

在一个实施例中，将所述N个领域字段基于历史匹配关系与所述数据库系统的数据字段相匹配的操作为：获取所述用户的用户ID，基于所述用户ID获取所述用户的上传历史记录，将所述N个领域字段在所述上传历史记录中进行检索命中M个历史字段记录，使用所述M个历史字段记录作为索引在历史匹配关系中进行匹配，匹配成功M个字段，所述历史匹配关系中记录了所述用户上传的历史字段记录与数据库系统的数据字段的对应关系。即由于用户的个性化匹配行为，为了保留用户的习惯，保存用户上传字段与系统字段的对应关系（即用户所最终确定选择的结果），当用户再次上传文档可进行历史匹配，确认该用户是否上传过文档，进而提高匹配效率。

本发明中，可以记录用户上传的历史记录，可以基于历史记录进行字段的匹配，因为在历史记录反应了同一用户的字段定义规则，这样提高了匹配的效率及准确度，这是本发明中的另一个重要发明点。

在一个实施例中，将匹配未成功的N-M个字段基于字典匹配规则进行匹配的操作为：对所述N个领域字段进行语义分析以确定所述数据表的所属领域，基于所属领域加载对应领域的字典，将匹配未成功的N-M个字段基于匹配规则进行逐一匹配，如果一个字段在所述字典中得到一个匹配结果，将该匹配结果作为成功匹配结果，如果一个字段在所述字典中得到多个匹配结果，计算该多个匹配结果与匹配未成功的字段的语义近似度，将近似度最大的匹配结果作为成功匹配结果，所述匹配规则为正则规则。

本发明中，还构建了领域字典，将匹配未成功的N-M个字段基于匹配规则进行逐一匹配，如果一个字段在所述字典中得到一个匹配结果，将该匹配结果作为成功匹配结果，如果一个字段在所述字典中得到多个匹配结果，计算该多个匹配结果与匹配未成功的字段的语义近似度，将近似度最大的匹配结果作为成功匹配结果，匹配规则可以使用正则规则进行匹配，语义相似度可以采用余弦距离的方式进行计算，从而提高了匹配准确度，这是本发明的另一个重要发明点。

在一个实施例中，将匹配未成功的N-M-P个字段基于统计概率在所述数据库系统中与所述数据表相同领域的数据字段相匹配的操作为：

基于所述数据表的领域加载字段匹配概率矩阵，所述字段匹配概率矩阵通过统计所述用户的领域字段与数据库的数据字段的历史匹配记录进行构建，所述字段匹配概率矩阵中的每个数据表示每个领域字段与每个数据字段的匹配概率，基于所述字段匹配概率矩阵获取匹配未成功的N-M-P个字段中的每一个字段与每个数据字段的匹配概率，将匹配概率从大到小排序前Sn位的数据字段记录为一元匹配概率PA=P(Yi|x1)，其中x1表示N-M-P个字段中的一个字段，Yi表示与该字段x1匹配概率大到小排序前Sn位的数据字段，例如，通过一元概率计算出X1对应的Y最优解为Y1,Y2,Y3，即排序前三位（Sn=3）的数据字段；

计算二元匹配概率PB=p*P(Yj|(x1,xm))，其中，xm是N-M-P个字段中的与x1不同的字段，p为二元匹配概率调节因子，其中，p=IDF*Hm/Ht，其中，IDF=log(数据表总数/(出现该(x1,xm)组合的文档数)+1)，基于PB选取该(x1,xm)组合字段匹配概率大到小排序前Sm位的数据字段Yj；例如，通过二元概率同样会得到一些最优解，如Y2,Y3,Y4，此时Sm=3。

计算融合概率P=αPA+βPB，将融合概率值最大的数据字段作为匹配成功的数据字段，比如，计算出来数据字段Y2的融合概率最大，将其作为匹配成功的数据字段，其中，α、β为对应的权重值，可以通过机器学习的方式设置，也可以基于经验设置，Ht为系统中的总租户数量，Hm为数据表存在该(x1,xm)组合的租户个数。

本发明通过一元概率及二元概率的计算方式计算最为匹配的字段，提高了字段匹配的准确率，且引入了为二元匹配概率调节因子，该因子基于IDF值及租户的数量、组合字段出现数据表的租户数量进行计算，客观上反映了字段匹配的规律，提高了字段匹配的可靠性，这是本发明的重要发明点之另一。

图2示出了本发明的一种跨业务领域的字段匹配装置，该装置包括：

解析单元201，用户将数据表上传至数据库系统，所述数据库系统接收到所述数据表后将所述数据表的表头进行解析获得N个领域字段；

历史匹配单元202，将所述N个领域字段基于历史匹配关系与所述数据库系统的数据字段相匹配，匹配成功M个字段；

规则匹配单元203，将匹配未成功的N-M个字段基于字典匹配规则进行匹配，匹配成功P个字段；

统计匹配单元204，将匹配未成功的N-M-P个字段基于统计概率在所述数据库系统中与所述数据表相同领域的数据字段相匹配，匹配成功K个字段；

全领域匹配单元205，判断N-M-P-K是否大于0，如果是，对剩余的N-M-P-K在数据库系统中所有领域的数据字段相匹配，其中，N≥1，M≥1，P≥1，K≥1。

本发明一个实施例中提出了一种计算机存储介质，所述计算机存储介质上存储有计算机程序，当所述计算机存储介质上的计算机程序被处理器执行时实现上述的方法，该计算机存储介质可以是硬盘、DVD、CD、闪存等等存储器。

本发明的为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的装置。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种跨业务领域的字段匹配方法，其特征在于，该方法包括：

历史匹配步骤，将所述N个领域字段基于历史匹配关系与所述数据库系统的数据字段相匹配，匹配成功M个字段，其包括：获取所述用户的用户ID，基于所述用户ID获取所述用户上传的历史字段记录，将所述N个领域字段在所述上传的历史字段记录中进行检索命中M个历史字段记录，使用所述M个历史字段记录作为索引在历史匹配关系中进行匹配，匹配成功M个字段，所述历史匹配关系中记录了所述用户上传的历史字段记录与数据库系统的数据字段的对应关系；

2.根据权利要求1的方法，其特征在于，所述数据表为excel格式的数据表，所述表头为所述数据表的第一行数据。

3.根据权利要求2的方法，其特征在于，将匹配未成功的N-M个字段基于字典匹配规则进行匹配的操作为：对所述N个领域字段进行语义分析以确定所述数据表的所属领域，基于所属领域加载对应领域的字典，将匹配未成功的N-M个字段基于匹配规则进行逐一匹配，

如果一个字段在所述字典中得到一个匹配结果，将该匹配结果作为成功匹配结果；

如果一个字段在所述字典中得到多个匹配结果，计算该多个匹配结果与匹配未成功的字段的语义近似度，将近似度最大的匹配结果作为成功匹配结果；

所述匹配规则为正则规则。

4.根据权利要求3的方法，其特征在于，将匹配未成功的N-M-P个字段基于统计概率在所述数据库系统中与所述数据表相同领域的数据字段相匹配的操作为：

5.一种跨业务领域的字段匹配装置，其特征在于，该装置包括：

历史匹配单元，将所述N个领域字段基于历史匹配关系与所述数据库系统的数据字段相匹配，匹配成功M个字段，其包括：获取所述用户的用户ID，基于所述用户ID获取所述用户上传的历史字段记录，将所述N个领域字段在所述上传的历史字段记录中进行检索命中M个历史字段记录，使用所述M个历史字段记录作为索引在历史匹配关系中进行匹配，匹配成功M个字段，所述历史匹配关系中记录了所述用户上传的历史字段记录与数据库系统的数据字段的对应关系；

6.根据权利要求5的装置，其特征在于，所述数据表为excel格式的数据表，所述表头为所述数据表的第一行数据。

7.根据权利要求6的装置，其特征在于，将匹配未成功的N-M个字段基于字典匹配规则进行匹配的操作为：对所述N个领域字段进行语义分析以确定所述数据表的所属领域，基于所属领域加载对应领域的字典，将匹配未成功的N-M个字段基于匹配规则进行逐一匹配，

所述匹配规则为正则规则。

8.一种计算机存储介质，所述计算机存储介质上存储有计算机程序，当所述计算机存储介质上的计算机程序被处理器执行时，实现权利要求1-4任一项所述的方法。