CN116975697B - 一种主数据管理方法、系统、设备及介质 - Google Patents
一种主数据管理方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN116975697B CN116975697B CN202311238578.6A CN202311238578A CN116975697B CN 116975697 B CN116975697 B CN 116975697B CN 202311238578 A CN202311238578 A CN 202311238578A CN 116975697 B CN116975697 B CN 116975697B
- Authority
- CN
- China
- Prior art keywords
- consumption information
- information
- consumption
- original
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013523 data management Methods 0.000 title abstract description 24
- 238000013145 classification model Methods 0.000 claims abstract description 39
- 238000004140 cleaning Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims abstract description 7
- 238000013500 data storage Methods 0.000 claims abstract description 4
- 230000014509 gene expression Effects 0.000 claims description 13
- 238000012558 master data management Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000007689 inspection Methods 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008676 import Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013524 data verification Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims 1
- 238000007726 management method Methods 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种主数据管理方法、系统、设备及介质,属于互联网服务技术领域。本发明包括数据获取模块、数据处理模块、模型构建模块、综合输出模块、中央控制模块、数据存储模块,通过中央控制模块控制数据获取模块获取原始消费信息,并将原始消费信息传输到数据处理模块,通过中央控制模块控制数据处理模块将原始消费信息进行数据清洗和分词处理得到消费信息,将消费信息传输到模型构建模块,模型构建模块接收到消费信息后对消费信息进行训练得到消费信息分类模型,由中央控制模块控制综合输出模块输出消费信息分类模型综合度,为消费信息主数据管理提供管理方法及管理方法评估,针对消费信息实现主数据管理,统一消费信息主数据管理规范。
Description
技术领域
本发明属于互联网服务技术领域,具体涉及一种主数据管理方法、系统、设备及介质。
背景技术
主数据管理是一种数据管理方法,旨在维护和管理组织内部的核心数据,确保其准确性、一致性和完整性。随着各行各业出台的消费活动的数量迅猛增长,消费信息量随着消费活动的积累不断扩大,逐渐形成了大规模的基础数据。然而,面对消费信息量的不断扩大,目前还没有一种主数据管理是针对消费信息而形成的,导致庞大的消费信息无法得到合理的规范,从而也无法得到有效的利用。
发明内容
为解决现有技术中存在的上述问题,本发明提供了一种主数据管理方法、系统、设备及介质,通过获取原始消费信息,将原始消费信息进行数据清洗和分词处理得到消费信息,预设所述消费信息的群体特征表现为名称-业务-产业,将所述群体特征表现通过外键方式建立连接,最后,基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型,并通过计算机器学习指标评估所述消费信息分类模型的综合度,为消费信息主数据管理提供管理方法及管理方法评估,针对消费信息实现主数据管理,统一消费信息主数据管理规范。
本发明的目的可以通过以下技术方案实现:
一种主数据管理方法,包括如下步骤:
S1:获取原始消费信息,所述原始消费信息携带获取标识信息,所述获取标识信息包括单次查询请求标识信息和批量导入请求标识信息;
S2:将所述原始消费信息进行数据清洗和分词处理得到消费信息,所述数据清洗包括对所述原始消费信息进行去干扰字符和特征补全;
S3:将所述消费信息的群体特征表现通过外键方式建立连接,所述群体特征表现为名称-业务-产业;
S4:基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型;
S5:通过计算机器学习指标评估所述消费信息分类模型的综合度。
优选地,所述步骤S1具体包括:
判断携带单次查询请求标识信息的原始消费信息是否在数据库中,是,则返回第一预消费信息,所述第一预消费信息携带现有消费信息标识信息,否,则返回第二预消费信息,所述预消费信息携带更新消费信息标识信息;
在所述数据库中创建返回所述第二预消费信息的原始消费信息;
对携带批量导入请求标识信息的原始消费信息进行数据校验,判断是否通过消费信息字段检查,是,则返回第三预消费信息,所述第三预消费信息携带消费信息字段通过检查标识信息,否,则返回第一错误信息,所述第一错误信息携带消费信息字段未通过检查标识信息;
判断返回第三预消费信息的原始消费信息是否符合一致性操作,是,则返回一致性操作信息,所述一致性操作信息携带一致操作标识信息,否,则返回第二错误信息,所述第二错误信息携带分歧操作标识信息,所述一致性操作包括统计所述原始消费信息行数、导入MySQL以及查询行数,若所述原始消费信息行数和所述数据库存储行数一致则符合所述一致性操作;
在所述数据库中创建返回所述第三预消费信息的原始消费信息和返回所述一致性操作信息的原始消费信息。
优选地,所述步骤S2具体包括清洗所述原始消费信息中的特殊字符及标点符号,通过ElasticSearch搜索引擎配合ik_max_word根据原始消费信息的来源补全所述原始消费信息得到所述消费信息。
优选地,所述步骤S3具体包括:
根据所述群体特征表现分别建立名称表、业务表和产业表;
定义名称字段为所述名称表的主键,定义所述名称字段为所述业务表的外键,所述业务表与所述名称表通过所述名称字段建立连接,所述名称字段为所述名称表和所述业务表共同的字段;
定义业务字段为所述业务表的主键,定义所述业务字段为所述产业表的外键,所述产业表与所述业务表通过所述业务字段建立连接,所述业务字段为所述业务表和所述产业表共同的字段;
定义产业字段为所述产业表的主键,定义所述产业字段为所述名称表的外键,所述名称表与所述产业表通过所述产业字段建立连接,所述产业字段为所述产业表和所述名称表共同的字段。
优选地,所述步骤S4的具体实现方法为:
通过DataLoader将所述消费信息进行数据装载转换为消费数据;
通过optimizer在所述RoBERTa算法中添加消费数据分类层;
根据所述消费数据在所述消费数据分类层中通过epoch训练得到所述消费信息分类模型。
优选地,所述步骤S5的具体实现方法为:
计算所述消费信息分类模型准确度A,计算公式为:,其中,TP为正确预测正类消费信息样本数,TN为正确预测为负类消费信息样本数,FP为错误预测正类消费信息样本数,FN为错误预测为负类消费信息样本数;
计算所述消费信息分类模型精确度P,计算公式为:;
计算所述消费信息分类模型召回度R,计算公式为:;
根据所述消费信息分类模型精确度和所述消费信息分类模型召回度计算所述机器学习指标评估所述消费信息分类模型的综合度,计算公式为:。
一种主数据管理系统,所述主数据管理系统应用于上述主数据管理方法,包括:
数据获取模块,用于获取原始消费信息,所述原始消费信息携带获取标识信息,所述获取标识信息包括单次查询请求标识信息和批量导入请求标识信息;
数据处理模块,用于将所述原始消费信息进行数据清洗和分词处理得到消费信息,所述数据清洗包括对所述原始消费信息进行去干扰字符和特征补全;
模型构建模块,用于预设所述消费信息的群体特征表现为名称-业务-产业,将所述群体特征表现通过外键方式建立连接,基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型;
综合输出模块,用于通过计算机器学习指标评估所述消费信息分类模型的综合度;
中央控制模块,用于通过单片机控制各个模块正常工作;
数据存储模块,用于存放所述数据库并存储各个模块所产生的数据。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述主数据管理方法。
一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行上述主数据管理方法。
本发明的有益效果为:
(1)通过ElasticSearch搜索引擎配合ik_max_word根据原始消费数据来源补全原始消费数据得到消费信息,提高主数据库的检索效率并实现相似消费信息的快速召回;
通过将所述消费信息的群体特征表现通过外键方式建立连接,并通过基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型,提高了消费信息主数据分类的有效性及综合性。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
图1为本发明的方法流程示意图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如下。
请参阅图1,一种主数据管理方法,包括如下步骤:
S1:获取原始消费信息,所述原始消费信息携带获取标识信息,所述获取标识信息包括单次查询请求标识信息和批量导入请求标识信息;
S2:将所述原始消费信息进行数据清洗和分词处理得到消费信息,所述数据清洗包括对所述原始消费信息进行去干扰字符和特征补全;
S3:将所述消费信息的群体特征表现通过外键方式建立连接,所述群体特征表现为名称-业务-产业;
S4:基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型;
S5:通过计算机器学习指标评估所述消费信息分类模型的综合度。
步骤S1涉及判断携带单次查询请求标识信息的原始消费信息是否在数据库中,是,则返回第一预消费信息,所述第一预消费信息携带现有消费信息标识信息,否,则返回第二预消费信息,所述预消费信息携带更新消费信息标识信息;
在所述数据库中创建返回所述第二预消费信息的原始消费信息;
对携带批量导入请求标识信息的原始消费信息进行数据校验,判断是否通过消费信息字段检查,是,则返回第三预消费信息,所述第三预消费信息携带消费信息字段通过检查标识信息,否,则返回第一错误信息,所述第一错误信息携带消费信息字段未通过检查标识信息;
判断返回第三预消费信息的原始消费信息是否符合一致性操作,是,则返回一致性操作信息,所述一致性操作信息携带一致操作标识信息,否,则返回第二错误信息,所述第二错误信息携带分歧操作标识信息,所述一致性操作包括统计所述原始消费信息行数、导入MySQL以及查询行数,若所述原始消费信息行数和所述数据库存储行数一致则符合所述一致性操作;
在所述数据库中创建返回所述第三预消费信息的原始消费信息和返回所述一致性操作信息的原始消费信息。
步骤S2具体包括清洗所述原始消费信息中的特殊字符及标点符号,通过ElasticSearch搜索引擎配合ik_max_word根据所述原始消费信息的来源补全所述原始消费信息得到消费信息。
在步骤S3中,所述消费信息的群体特征表现通过外键方式建立连接,所述群体特征表现为名称-业务-产业根据名称表、业务表和产业表,并且业务表和产业表将分别包含与名称表关联的外键。定义名称字段为所述名称表的主键,定义所述名称字段为所述业务表的外键,所述业务表与所述名称表通过所述名称字段建立连接,所述名称字段为所述名称表和所述业务表共同的字段;定义业务字段为所述业务表的主键,定义所述业务字段为所述产业表的外键,所述产业表与所述业务表通过所述业务字段建立连接,所述业务字段为所述业务表和所述产业表共同的字段;定义产业字段为所述产业表的主键,定义所述产业字段为所述名称表的外键,所述名称表与所述产业表通过所述产业字段建立连接,所述产业字段为所述产业表和所述名称表共同的字段。
在步骤S4中,根据消费信息创建一个数据集,并通过DataLoader将所述消费信息进行数据装载转换为消费数据,通过optimizer = AdamW()在所述RoBERTa算法中添加消费数据分类层,根据所述消费数据在所述消费数据分类层中通过for epoch in range(3)进行3个epoch训练得到所述消费信息分类模型。
在步骤S5中,通过计算所述消费信息分类模型准确度A,其中,TP为正确预测正类消费信息样本数,TN为正确预测为负类消费信息样本数,FP为错误预测正类消费信息样本数,FN为错误预测为负类消费信息样本数,通过/>计算所述消费信息分类模型精确度P,通过/>计算所述消费信息分类模型召回度R,最后,根据所述消费信息分类模型精确度和所述消费信息分类模型召回度通过计算机器学习指标F1分数评估所述消费信息分类模型的综合度,计算公式为:/>。
一种主数据管理系统,所述主数据管理系统应用于上述主数据管理方法,包括:
数据获取模块,用于获取原始消费信息,所述原始消费信息携带获取标识信息,所述获取标识信息包括单次查询请求标识信息和批量导入请求标识信息;
数据处理模块,用于将所述原始消费信息进行数据清洗和分词处理得到消费信息,所述数据清洗包括对所述原始消费信息进行去干扰字符和特征补全;
模型构建模块,用于将所述消费信息的群体特征表现通过外键方式建立连接,所述群体特征表现为名称-业务-产业,基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型;
综合输出模块,用于通过计算机器学习指标评估所述消费信息分类模型的综合度。
中央控制模块,用于通过单片机控制各个模块正常工作;
数据存储模块,用于存放所述数据库并存储各个模块所产生的数据。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述主数据管理方法。
一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行上述主数据管理方法。
本发明的工作原理及使用流程:
通过中央控制模块控制数据获取模块获取原始消费信息,并将原始消费信息传输到数据处理模块,通过中央控制模块控制数据处理模块将所述原始消费信息进行数据清洗和分词处理得到消费信息,并将消费信息传输到模型构建模块,模型构建模块接收到消费信息后用于将所述消费信息的群体特征表现通过外键方式建立连接,并基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型,由中央控制模块控制综合输出模块输出消费信息分类模型综合度。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线,或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (6)
1.一种主数据管理方法,其特征在于,包括如下步骤:
S1:获取原始消费信息,所述原始消费信息携带获取标识信息,所述获取标识信息包括单次查询请求标识信息和批量导入请求标识信息;
S2:将所述原始消费信息进行数据清洗和分词处理得到消费信息,所述数据清洗包括对所述原始消费信息进行去干扰字符和特征补全;
S3:将所述消费信息的群体特征表现通过外键方式建立连接,所述群体特征表现为名称-业务-产业;
S4:基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型;
S5:通过计算机器学习指标评估所述消费信息分类模型的综合度;
所述步骤S1具体包括:
判断所述携带单次查询请求标识信息的原始消费信息是否在数据库中,是,则返回第一预消费信息,所述第一预消费信息携带现有消费信息标识信息,否,则返回第二预消费信息,所述预消费信息携带更新消费信息标识信息;
在所述数据库中创建返回所述第二预消费信息的原始消费信息;
对所述携带批量导入请求标识信息的原始消费信息进行数据校验,判断是否通过消费信息字段检查,是,则返回第三预消费信息,所述第三预消费信息携带消费信息字段通过检查标识信息,否,则返回第一错误信息,所述第一错误信息携带消费信息字段未通过检查标识信息;
判断返回第三预消费信息的原始消费信息是否符合一致性操作,是,则返回一致性操作信息,所述一致性操作信息携带一致操作标识信息,否,则返回第二错误信息,所述第二错误信息携带分歧操作标识信息,所述一致性操作包括统计所述原始消费信息行数、导入MySQL以及查询行数,若所述原始消费信息行数和所述数据库存储行数一致则符合所述一致性操作;
在所述数据库中创建返回所述第三预消费信息的原始消费信息和返回所述一致性操作信息的原始消费信息;
所述步骤S3具体包括:
根据所述群体特征表现分别建立名称表、业务表和产业表;
定义名称字段为所述名称表的主键,定义所述名称字段为所述业务表的外键,所述业务表与所述名称表通过所述名称字段建立连接,所述名称字段为所述名称表和所述业务表共同的字段;
定义业务字段为所述业务表的主键,定义所述业务字段为所述产业表的外键,所述产业表与所述业务表通过所述业务字段建立连接,所述业务字段为所述业务表和所述产业表共同的字段;
定义产业字段为所述产业表的主键,定义所述产业字段为所述名称表的外键,所述名称表与所述产业表通过所述产业字段建立连接,所述产业字段为所述产业表和所述名称表共同的字段;
所述步骤S4的具体实现方法为:
通过DataLoader将所述消费信息进行数据装载转换为消费数据;
通过optimizer在所述RoBERTa算法中添加消费数据分类层;
根据所述消费数据在所述消费数据分类层中通过epoch训练得到所述消费信息分类模型。
2.根据权利要求1所述的主数据管理方法,其特征在于,所述步骤S2具体包括清洗所述原始消费数据特殊字符及标点符号,通过ElasticSearch搜索引擎配合ik_max_word根据所述原始消费数据来源补全所述原始消费数据得到所述消费信息。
3.根据权利要求1所述的主数据管理方法,其特征在于,所述步骤S5的具体实现方法为:
计算所述消费信息分类模型准确度A,计算公式为:,其中,TP为正确预测正类消费信息样本数,TN为正确预测为负类消费信息样本数,FP为错误预测正类消费信息样本数,FN为错误预测为负类消费信息样本数;
计算所述消费信息分类模型精确度P,计算公式为:;
计算所述消费信息分类模型召回度R,计算公式为:;
根据所述消费信息分类模型精确度和所述消费信息分类模型召回度计算所述机器学习指标评估所述消费信息分类模型的综合度,计算公式为:。
4.一种主数据管理系统,其特征在于,所述主数据管理系统应用于如权利要求1-3任一项所述的主数据管理方法,包括:
数据获取模块,用于获取原始消费信息,所述原始消费信息携带获取标识信息,所述获取标识信息包括单次查询请求标识信息和批量导入请求标识信息;
数据处理模块,用于将所述原始消费信息进行数据清洗和分词处理得到消费信息,所述数据清洗包括对所述原始消费信息进行去干扰字符和特征补全;
模型构建模块,用于预设所述消费信息的群+
体特征表现为名称-业务-产业,将所述群体特征表现通过外键方式建立连接,基于RoBERTa算法对所述消费信息进行训练得到消费信息分类模型;
综合输出模块,用于通过计算机器学习指标评估所述消费信息分类模型的综合度;
中央控制模块,用于通过单片机控制各个模块正常工作;
数据存储模块,用于存放所述数据库并存储各个模块所产生的数据。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-3任一项所述的主数据管理方法。
6.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-3任一项所述的主数据管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311238578.6A CN116975697B (zh) | 2023-09-25 | 2023-09-25 | 一种主数据管理方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311238578.6A CN116975697B (zh) | 2023-09-25 | 2023-09-25 | 一种主数据管理方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116975697A CN116975697A (zh) | 2023-10-31 |
CN116975697B true CN116975697B (zh) | 2023-12-15 |
Family
ID=88480038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311238578.6A Active CN116975697B (zh) | 2023-09-25 | 2023-09-25 | 一种主数据管理方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975697B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739855A (zh) * | 2018-12-28 | 2019-05-10 | 第四范式(北京)技术有限公司 | 实现数据表拼接及自动训练机器学习模型的方法和系统 |
CN112269816A (zh) * | 2020-11-10 | 2021-01-26 | 浪潮云信息技术股份公司 | 一种政务预约事项相关性检索方法 |
CN113781074A (zh) * | 2020-05-22 | 2021-12-10 | 治略资讯整合股份有限公司 | 消费数据处理方法与系统 |
CN113920366A (zh) * | 2021-10-15 | 2022-01-11 | 美林数据技术股份有限公司 | 一种基于机器学习的综合加权主数据识别方法 |
CN114722204A (zh) * | 2022-04-18 | 2022-07-08 | 首都经济贸易大学 | 多标签文本分类方法及装置 |
US11450225B1 (en) * | 2021-10-14 | 2022-09-20 | Quizlet, Inc. | Machine grading of short answers with explanations |
-
2023
- 2023-09-25 CN CN202311238578.6A patent/CN116975697B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739855A (zh) * | 2018-12-28 | 2019-05-10 | 第四范式(北京)技术有限公司 | 实现数据表拼接及自动训练机器学习模型的方法和系统 |
CN113781074A (zh) * | 2020-05-22 | 2021-12-10 | 治略资讯整合股份有限公司 | 消费数据处理方法与系统 |
CN112269816A (zh) * | 2020-11-10 | 2021-01-26 | 浪潮云信息技术股份公司 | 一种政务预约事项相关性检索方法 |
US11450225B1 (en) * | 2021-10-14 | 2022-09-20 | Quizlet, Inc. | Machine grading of short answers with explanations |
CN113920366A (zh) * | 2021-10-15 | 2022-01-11 | 美林数据技术股份有限公司 | 一种基于机器学习的综合加权主数据识别方法 |
CN114722204A (zh) * | 2022-04-18 | 2022-07-08 | 首都经济贸易大学 | 多标签文本分类方法及装置 |
Non-Patent Citations (2)
Title |
---|
Database mining:A performance per-spective;AGRAWAL R et al;《IEEE Transactions on knowledge and Data Engineerin》(第5期);第914-925页 * |
MIMIC数据库申请、导入、结构关系及查询;宋伟伦 等;《中国循证心血管医学杂志》(第10期);第11-15页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116975697A (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20150178623A1 (en) | Automatically Generating Test/Training Questions and Answers Through Pattern Based Analysis and Natural Language Processing Techniques on the Given Corpus for Quick Domain Adaptation | |
CA3098802A1 (en) | Systems and methods for generating a contextually and conversationally correct response to a query | |
CN111078780A (zh) | 一种ai优化数据治理的方法 | |
CN112328761B (zh) | 一种意图标签设置方法、装置、计算机设备及存储介质 | |
CN111475525A (zh) | 基于结构化查询语言的脱敏方法、及其相关设备 | |
CN111400297A (zh) | 基于Hadoop的海量数据数据质量校验方法 | |
CN110377631B (zh) | 案件信息处理方法、装置、计算机设备和存储介质 | |
CN112650858B (zh) | 应急协助信息的获取方法、装置、计算机设备及介质 | |
CN112199512B (zh) | 面向科技服务的事理图谱构建方法、装置、设备及存储介质 | |
CN112258144B (zh) | 基于自动构建目标实体集的政策文件信息匹配和推送方法 | |
WO2023279684A1 (zh) | 一种基于命名规则和缓存机制的知识图谱构建的操作方法 | |
CN116049359A (zh) | 一种基于文档内容分析的查重算法 | |
CN106933824A (zh) | 在多个文档中确定与目标文档相似的文档集合的方法和装置 | |
CN107748748A (zh) | 水利水电技术标准全文检索系统 | |
CN113032642A (zh) | 针对目标对象的数据处理方法、装置、介质及电子设备 | |
CN116975697B (zh) | 一种主数据管理方法、系统、设备及介质 | |
CN110956030B (zh) | 变电站远动机组态配置信息比对方法及系统 | |
Waltinger et al. | Usi answers: Natural language question answering over (semi-) structured industry data | |
CN109408592B (zh) | 一种决策型分布式数据库系统中ai的特征工程知识库及其实现方法 | |
CN114925757A (zh) | 多源威胁情报融合方法、装置、设备和存储介质 | |
Chen et al. | Research on knowledge graph modeling method for financial audit of power grid enterprises | |
CN110569061A (zh) | 一种基于大数据的软件工程知识库的自动化构建系统 | |
US10169074B2 (en) | Model driven optimization of annotator execution in question answering system | |
CN115952203B (zh) | 数据查询方法、设备、系统及存储介质 | |
CN114444509B (zh) | 命名实体识别模型的测试方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |