CN116975697B

CN116975697B - 一种主数据管理方法、系统、设备及介质

Info

Publication number: CN116975697B
Application number: CN202311238578.6A
Authority: CN
Inventors: 吴肖峻; 陈国平
Original assignee: Guangdong Saboway Information Technology Co ltd
Current assignee: Guangdong Saboway Information Technology Co ltd
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2023-12-15
Anticipated expiration: 2043-09-25
Also published as: CN116975697A

Abstract

本发明涉及一种主数据管理方法、系统、设备及介质，属于互联网服务技术领域。本发明包括数据获取模块、数据处理模块、模型构建模块、综合输出模块、中央控制模块、数据存储模块，通过中央控制模块控制数据获取模块获取原始消费信息，并将原始消费信息传输到数据处理模块，通过中央控制模块控制数据处理模块将原始消费信息进行数据清洗和分词处理得到消费信息，将消费信息传输到模型构建模块，模型构建模块接收到消费信息后对消费信息进行训练得到消费信息分类模型，由中央控制模块控制综合输出模块输出消费信息分类模型综合度，为消费信息主数据管理提供管理方法及管理方法评估，针对消费信息实现主数据管理，统一消费信息主数据管理规范。

Description

一种主数据管理方法、系统、设备及介质

技术领域

本发明属于互联网服务技术领域，具体涉及一种主数据管理方法、系统、设备及介质。

背景技术

主数据管理是一种数据管理方法，旨在维护和管理组织内部的核心数据，确保其准确性、一致性和完整性。随着各行各业出台的消费活动的数量迅猛增长，消费信息量随着消费活动的积累不断扩大，逐渐形成了大规模的基础数据。然而，面对消费信息量的不断扩大，目前还没有一种主数据管理是针对消费信息而形成的，导致庞大的消费信息无法得到合理的规范，从而也无法得到有效的利用。

发明内容

为解决现有技术中存在的上述问题，本发明提供了一种主数据管理方法、系统、设备及介质，通过获取原始消费信息，将原始消费信息进行数据清洗和分词处理得到消费信息，预设所述消费信息的群体特征表现为名称－业务－产业，将所述群体特征表现通过外键方式建立连接，最后，基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型，并通过计算机器学习指标评估所述消费信息分类模型的综合度，为消费信息主数据管理提供管理方法及管理方法评估，针对消费信息实现主数据管理，统一消费信息主数据管理规范。

本发明的目的可以通过以下技术方案实现：

一种主数据管理方法，包括如下步骤：

S1：获取原始消费信息，所述原始消费信息携带获取标识信息，所述获取标识信息包括单次查询请求标识信息和批量导入请求标识信息；

S2：将所述原始消费信息进行数据清洗和分词处理得到消费信息，所述数据清洗包括对所述原始消费信息进行去干扰字符和特征补全；

S3：将所述消费信息的群体特征表现通过外键方式建立连接，所述群体特征表现为名称－业务－产业；

S4：基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型；

S5：通过计算机器学习指标评估所述消费信息分类模型的综合度。

优选地，所述步骤S1具体包括：

判断携带单次查询请求标识信息的原始消费信息是否在数据库中，是，则返回第一预消费信息，所述第一预消费信息携带现有消费信息标识信息，否，则返回第二预消费信息，所述预消费信息携带更新消费信息标识信息；

在所述数据库中创建返回所述第二预消费信息的原始消费信息；

对携带批量导入请求标识信息的原始消费信息进行数据校验，判断是否通过消费信息字段检查，是，则返回第三预消费信息，所述第三预消费信息携带消费信息字段通过检查标识信息，否，则返回第一错误信息，所述第一错误信息携带消费信息字段未通过检查标识信息；

判断返回第三预消费信息的原始消费信息是否符合一致性操作，是，则返回一致性操作信息，所述一致性操作信息携带一致操作标识信息，否，则返回第二错误信息，所述第二错误信息携带分歧操作标识信息，所述一致性操作包括统计所述原始消费信息行数、导入MySQL以及查询行数，若所述原始消费信息行数和所述数据库存储行数一致则符合所述一致性操作；

在所述数据库中创建返回所述第三预消费信息的原始消费信息和返回所述一致性操作信息的原始消费信息。

优选地，所述步骤S2具体包括清洗所述原始消费信息中的特殊字符及标点符号，通过ElasticSearch搜索引擎配合ik_max_word根据原始消费信息的来源补全所述原始消费信息得到所述消费信息。

优选地，所述步骤S3具体包括：

根据所述群体特征表现分别建立名称表、业务表和产业表；

定义名称字段为所述名称表的主键，定义所述名称字段为所述业务表的外键，所述业务表与所述名称表通过所述名称字段建立连接，所述名称字段为所述名称表和所述业务表共同的字段；

定义业务字段为所述业务表的主键，定义所述业务字段为所述产业表的外键，所述产业表与所述业务表通过所述业务字段建立连接，所述业务字段为所述业务表和所述产业表共同的字段；

定义产业字段为所述产业表的主键，定义所述产业字段为所述名称表的外键，所述名称表与所述产业表通过所述产业字段建立连接，所述产业字段为所述产业表和所述名称表共同的字段。

优选地，所述步骤S4的具体实现方法为：

通过DataLoader将所述消费信息进行数据装载转换为消费数据；

通过optimizer在所述RoBERTa算法中添加消费数据分类层；

根据所述消费数据在所述消费数据分类层中通过epoch训练得到所述消费信息分类模型。

优选地，所述步骤S5的具体实现方法为：

计算所述消费信息分类模型准确度A，计算公式为：，其中，TP为正确预测正类消费信息样本数，TN为正确预测为负类消费信息样本数，FP为错误预测正类消费信息样本数，FN为错误预测为负类消费信息样本数；

计算所述消费信息分类模型精确度P，计算公式为：；

计算所述消费信息分类模型召回度R，计算公式为：；

根据所述消费信息分类模型精确度和所述消费信息分类模型召回度计算所述机器学习指标评估所述消费信息分类模型的综合度，计算公式为：。

一种主数据管理系统，所述主数据管理系统应用于上述主数据管理方法，包括：

数据获取模块，用于获取原始消费信息，所述原始消费信息携带获取标识信息，所述获取标识信息包括单次查询请求标识信息和批量导入请求标识信息；

数据处理模块，用于将所述原始消费信息进行数据清洗和分词处理得到消费信息，所述数据清洗包括对所述原始消费信息进行去干扰字符和特征补全；

模型构建模块，用于预设所述消费信息的群体特征表现为名称－业务－产业，将所述群体特征表现通过外键方式建立连接，基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型；

综合输出模块，用于通过计算机器学习指标评估所述消费信息分类模型的综合度；

中央控制模块，用于通过单片机控制各个模块正常工作；

数据存储模块，用于存放所述数据库并存储各个模块所产生的数据。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述主数据管理方法。

一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行上述主数据管理方法。

本发明的有益效果为：

（1）通过ElasticSearch搜索引擎配合ik_max_word根据原始消费数据来源补全原始消费数据得到消费信息，提高主数据库的检索效率并实现相似消费信息的快速召回；

通过将所述消费信息的群体特征表现通过外键方式建立连接，并通过基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型，提高了消费信息主数据分类的有效性及综合性。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明的方法流程示意图。

具体实施方式

为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如下。

请参阅图1，一种主数据管理方法，包括如下步骤：

步骤S1涉及判断携带单次查询请求标识信息的原始消费信息是否在数据库中，是，则返回第一预消费信息，所述第一预消费信息携带现有消费信息标识信息，否，则返回第二预消费信息，所述预消费信息携带更新消费信息标识信息；

步骤S2具体包括清洗所述原始消费信息中的特殊字符及标点符号，通过ElasticSearch搜索引擎配合ik_max_word根据所述原始消费信息的来源补全所述原始消费信息得到消费信息。

在步骤S3中，所述消费信息的群体特征表现通过外键方式建立连接，所述群体特征表现为名称－业务－产业根据名称表、业务表和产业表，并且业务表和产业表将分别包含与名称表关联的外键。定义名称字段为所述名称表的主键，定义所述名称字段为所述业务表的外键，所述业务表与所述名称表通过所述名称字段建立连接，所述名称字段为所述名称表和所述业务表共同的字段；定义业务字段为所述业务表的主键，定义所述业务字段为所述产业表的外键，所述产业表与所述业务表通过所述业务字段建立连接，所述业务字段为所述业务表和所述产业表共同的字段；定义产业字段为所述产业表的主键，定义所述产业字段为所述名称表的外键，所述名称表与所述产业表通过所述产业字段建立连接，所述产业字段为所述产业表和所述名称表共同的字段。

在步骤S4中，根据消费信息创建一个数据集，并通过DataLoader将所述消费信息进行数据装载转换为消费数据，通过optimizer = AdamW()在所述RoBERTa算法中添加消费数据分类层，根据所述消费数据在所述消费数据分类层中通过for epoch in range(3)进行3个epoch训练得到所述消费信息分类模型。

在步骤S5中，通过计算所述消费信息分类模型准确度A，其中，TP为正确预测正类消费信息样本数，TN为正确预测为负类消费信息样本数，FP为错误预测正类消费信息样本数，FN为错误预测为负类消费信息样本数，通过/>计算所述消费信息分类模型精确度P，通过/>计算所述消费信息分类模型召回度R，最后，根据所述消费信息分类模型精确度和所述消费信息分类模型召回度通过计算机器学习指标F1分数评估所述消费信息分类模型的综合度，计算公式为：/>。

模型构建模块，用于将所述消费信息的群体特征表现通过外键方式建立连接，所述群体特征表现为名称－业务－产业，基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型；

综合输出模块，用于通过计算机器学习指标评估所述消费信息分类模型的综合度。

中央控制模块，用于通过单片机控制各个模块正常工作；

本发明的工作原理及使用流程：

通过中央控制模块控制数据获取模块获取原始消费信息，并将原始消费信息传输到数据处理模块，通过中央控制模块控制数据处理模块将所述原始消费信息进行数据清洗和分词处理得到消费信息，并将消费信息传输到模型构建模块，模型构建模块接收到消费信息后用于将所述消费信息的群体特征表现通过外键方式建立连接，并基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型，由中央控制模块控制综合输出模块输出消费信息分类模型综合度。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线，或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种主数据管理方法，其特征在于，包括如下步骤：

S5：通过计算机器学习指标评估所述消费信息分类模型的综合度；

所述步骤S1具体包括：

判断所述携带单次查询请求标识信息的原始消费信息是否在数据库中，是，则返回第一预消费信息，所述第一预消费信息携带现有消费信息标识信息，否，则返回第二预消费信息，所述预消费信息携带更新消费信息标识信息；

对所述携带批量导入请求标识信息的原始消费信息进行数据校验，判断是否通过消费信息字段检查，是，则返回第三预消费信息，所述第三预消费信息携带消费信息字段通过检查标识信息，否，则返回第一错误信息，所述第一错误信息携带消费信息字段未通过检查标识信息；

在所述数据库中创建返回所述第三预消费信息的原始消费信息和返回所述一致性操作信息的原始消费信息；

所述步骤S3具体包括：

根据所述群体特征表现分别建立名称表、业务表和产业表；

定义产业字段为所述产业表的主键，定义所述产业字段为所述名称表的外键，所述名称表与所述产业表通过所述产业字段建立连接，所述产业字段为所述产业表和所述名称表共同的字段；

所述步骤S4的具体实现方法为：

通过DataLoader将所述消费信息进行数据装载转换为消费数据；

通过optimizer在所述RoBERTa算法中添加消费数据分类层；

2.根据权利要求1所述的主数据管理方法，其特征在于，所述步骤S2具体包括清洗所述原始消费数据特殊字符及标点符号，通过ElasticSearch搜索引擎配合ik_max_word根据所述原始消费数据来源补全所述原始消费数据得到所述消费信息。

3.根据权利要求1所述的主数据管理方法，其特征在于，所述步骤S5的具体实现方法为：

计算所述消费信息分类模型精确度P，计算公式为：；

计算所述消费信息分类模型召回度R，计算公式为：；

4.一种主数据管理系统，其特征在于，所述主数据管理系统应用于如权利要求1-3任一项所述的主数据管理方法，包括：

模型构建模块，用于预设所述消费信息的群+

体特征表现为名称－业务－产业，将所述群体特征表现通过外键方式建立连接，基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型；

中央控制模块，用于通过单片机控制各个模块正常工作；

5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-3任一项所述的主数据管理方法。

6.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-3任一项所述的主数据管理方法。