CN114861818A - 基于人工智能的主数据匹配方法、装置、设备及存储介质 - Google Patents

基于人工智能的主数据匹配方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114861818A
CN114861818A CN202210583221.0A CN202210583221A CN114861818A CN 114861818 A CN114861818 A CN 114861818A CN 202210583221 A CN202210583221 A CN 202210583221A CN 114861818 A CN114861818 A CN 114861818A
Authority
CN
China
Prior art keywords
data
matched
target
main data
probability value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210583221.0A
Other languages
English (en)
Inventor
沈伟进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202210583221.0A priority Critical patent/CN114861818A/zh
Publication of CN114861818A publication Critical patent/CN114861818A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及人工智能技术领域,揭示了一种基于人工智能的主数据匹配方法、装置、设备及存储介质,其中方法包括:将待匹配属性值集输入预设的算法分类模型中进行主数据分类,得到待匹配数据对应的各个候选主数据;将待匹配数据和每个候选主数据组成数据对,作为待评估数据对;对每个待评估数据对进行匹配概率值计算;从各个匹配概率值中查找大于预设的概率阈值的各个匹配概率值,作为候选概率值集;从候选概率值集中查找最大的匹配概率值,作为命中概率值,将命中概率值对应的候选主数据作为目标主数据;根据待匹配数据和目标主数据更新主数据对应关系表。从而实现了自动化进行主数据匹配,提高了确定的目标主数据的准确性。

Description

基于人工智能的主数据匹配方法、装置、设备及存储介质
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种基于人工智能的主数据匹配方法、装置、设备及存储介质。
背景技术
在企业、政府部门等组织中,为了提升效率,针对各种项目、管理需求开发多种多样的系统,这些系统相互隔离,而且这些系统的开发时间不同,组织在不同时间对主数据的认知和规划不同,各个系统的系统间数据结构和数据值的不一致,导致各个系统的主数据难以匹配,系统之间的对接需要开发人员修改系统,增加了系统对接的成本。
发明内容
本申请的主要目的为提供一种基于人工智能的主数据匹配方法、装置、设备及存储介质,旨在解决各个系统的系统间数据结构和数据值的不一致,导致各个系统的主数据难以匹配的技术问题。
为了实现上述发明目的,本申请提出一种基于人工智能的主数据匹配方法,所述方法包括:
获取待匹配数据和所述待匹配数据对应的待匹配属性值集;
将所述待匹配属性值集输入预设的算法分类模型中进行主数据分类,得到所述待匹配数据对应的各个候选主数据;
将所述待匹配数据和每个所述候选主数据组成数据对,作为待评估数据对;
对每个所述待评估数据对进行匹配概率值计算;
从各个所述匹配概率值中查找大于预设的概率阈值的各个所述匹配概率值,作为候选概率值集;
从所述候选概率值集中查找最大的所述匹配概率值,作为命中概率值,将所述命中概率值对应的所述候选主数据作为目标主数据;
根据所述待匹配数据和所述目标主数据更新主数据对应关系表。
进一步的,所述将所述待匹配属性值集输入预设的算法分类模型中进行主数据分类,得到所述待匹配数据对应的各个候选主数据的步骤之前,还包括:
获取多个训练样本和初始分类模型,其中,所述初始分类模型是根据基于距离的分类算法得到的模型;
采用各个所述训练样本,对所述初始分类模型进行主数据分类训练;
将训练结束的所述初始分类模型作为所述算法分类模型。
进一步的,所述获取多个训练样本和初始分类模型的步骤之前,还包括:
获取标准映射集,其中,所述标准映射集表述的是标准对象和属性值集之间的映射关系;
从所述标准映射集中获取一个所述标准对象,作为第一对象;
将所述标准映射集中的与所述第一对象对应的所述属性值集,作为所述第一对象对应的所述训练样本的属性值样本集,并且将所述第一对象作为所述第一对象对应的所述训练样本的主数据标签;
根据所述标准映射集获取扩充映射集;
从所述扩充映射集中获取一个非标准对象,作为第二对象;
将所述扩充映射集中的与所述第二对象对应的所述属性值集,作为所述第二对象对应的所述训练样本的所述属性值样本集,并且将所述扩充映射集中的与所述第二对象对应的所述标准对象,作为所述第二对象对应的所述训练样本的所述主数据标签。
进一步的,所述对每个所述待评估数据对进行匹配概率值计算的步骤,包括:
将每个所述待评估数据对输入预设的概率匹配器进行表述同一对象的概率预测,得到每个所述待评估数据对对应的所述匹配概率值,其中,所述概率匹配器是基于匹配概率估计算法训练得到的模型。
进一步的,所述获取待匹配数据和所述待匹配数据对应的待匹配属性值集的步骤,包括:
从目标业务系统对应的数据源中获取数据,作为待分析数据;
采用所述目标业务系统对应的目标主数据提取配置中的每个主字段配置,从所述待分析数据中提取一个字段值,作为所述待匹配数据;
采用所述目标主数据提取配置中的与所述待匹配数据对应的属性值提取规则,从所述待分析数据中提取与所述待匹配数据对应的各个属性值,作为所述待匹配数据对应的所述待匹配属性值集。
进一步的,所述根据所述待匹配数据和所述目标主数据更新主数据对应关系表的步骤,包括:
获取所述目标主数据对应的目标数据标识、所述待匹配数据对应的待匹配数据源标识;
将所述目标主数据、所述目标数据标识、所述待匹配数据和所述待匹配数据源标识进行关联,得到待存储关联数据;
将所述待存储关联数据存储到所述主数据对应关系表中;
对所述主数据对应关系表按数据源标识进行子表划分,得到多个单数据源对应表;
将目标对应表发送给所述目标对应表对应的所述数据源标识对应的数据源,其中,所述目标对应表是任一个所述单数据源对应表。
进一步的,所述将所述目标主数据、所述目标数据标识、所述待匹配数据和所述待匹配数据源标识进行关联,得到待存储关联数据的步骤,包括:
获取所述目标主数据对应的目标使用条件,其中,所述目标使用条件包括:生命周期和使用背景;
将所述目标使用条件、所述目标主数据、所述目标数据标识、所述待匹配数据和所述待匹配数据源标识进行关联,得到所述待存储关联数据。
本申请还提出了一种基于人工智能的主数据匹配装置,所述装置包括:
数据获取模块,用于获取待匹配数据和所述待匹配数据对应的待匹配属性值集;
候选主数据确定模块,用于将所述待匹配属性值集输入预设的算法分类模型中进行主数据分类,得到所述待匹配数据对应的各个候选主数据;
待评估数据对确定模块,用于将所述待匹配数据和每个所述候选主数据组成数据对,作为待评估数据对;
匹配概率值确定模块,用于对每个所述待评估数据对进行匹配概率值计算;
候选概率值集确定模块,用于从各个所述匹配概率值中查找大于预设的概率阈值的各个所述匹配概率值,作为候选概率值集;
目标主数据确定模块,用于从所述候选概率值集中查找最大的所述匹配概率值,作为命中概率值,将所述命中概率值对应的所述候选主数据作为目标主数据;
主数据对应关系表更新模块,用于根据所述待匹配数据和所述目标主数据更新主数据对应关系表。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于人工智能的主数据匹配方法、装置、设备及存储介质,其中方法将所述待匹配属性值集输入预设的算法分类模型中进行主数据分类,得到所述待匹配数据对应的各个候选主数据;将所述待匹配数据和每个所述候选主数据组成数据对,作为待评估数据对;对每个所述待评估数据对进行匹配概率值计算;从各个所述匹配概率值中查找大于预设的概率阈值的各个所述匹配概率值,作为候选概率值集;从所述候选概率值集中查找最大的所述匹配概率值,作为命中概率值,将所述命中概率值对应的所述候选主数据作为目标主数据;根据所述待匹配数据和所述目标主数据更新主数据对应关系表。从而实现了自动化进行主数据匹配,不需开发人员修改系统;通过算法分类模型对待匹配数据对应的待匹配属性值集进行主数据分类,基于人工智能提高了分类的准确性,而且充分考虑了各个属性值,进一步提高了分类的准确性;通过对待匹配数据和候选主数据组成的数据对进行匹配概率值,从而实现对数据对是否代表同一个对象进行了评估,提高了确定的目标主数据的准确性;而且实现在基于属性值集之间相似性判断的基础上,再对数据对象之间的相似性进行判断,通过两个角度的相似性判断,提高了确定的目标主数据的准确性。
附图说明
图1为本申请一实施例的基于人工智能的主数据匹配方法的流程示意图;
图2为本申请一实施例的基于人工智能的主数据匹配装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例中提供一种基于人工智能的主数据匹配方法,所述方法包括:
S1:获取待匹配数据和所述待匹配数据对应的待匹配属性值集;
S2:将所述待匹配属性值集输入预设的算法分类模型中进行主数据分类,得到所述待匹配数据对应的各个候选主数据;
S3:将所述待匹配数据和每个所述候选主数据组成数据对,作为待评估数据对;
S4:对每个所述待评估数据对进行匹配概率值计算;
S5:从各个所述匹配概率值中查找大于预设的概率阈值的各个所述匹配概率值,作为候选概率值集;
S6:从所述候选概率值集中查找最大的所述匹配概率值,作为命中概率值,将所述命中概率值对应的所述候选主数据作为目标主数据;
S7:根据所述待匹配数据和所述目标主数据更新主数据对应关系表。
本实施例实现了自动化进行主数据匹配,不需开发人员修改系统;通过算法分类模型对待匹配数据对应的待匹配属性值集进行主数据分类,基于人工智能提高了分类的准确性,而且充分考虑了各个属性值,进一步提高了分类的准确性;通过对待匹配数据和候选主数据组成的数据对进行匹配概率值,从而实现对数据对是否代表同一个对象进行了评估,提高了确定的目标主数据的准确性;而且实现在基于属性值集之间相似性判断的基础上,再对数据对象之间的相似性进行判断,通过两个角度的相似性判断,提高了确定的目标主数据的准确性。
对于S1,可以获取用户输入的待匹配数据和所述待匹配数据对应的待匹配属性值集,也可以从数据库中获取待匹配数据和所述待匹配数据对应的待匹配属性值集,还可以从第三方应用(比如,其他应用系统的数据存储空间)中获取待匹配数据和所述待匹配数据对应的待匹配属性值集。
待匹配数据,是需要匹配出主数据的数据对象。
待匹配属性值集,是待匹配数据对应的属性值集。属性值集中包括多个属性值,每个属性值对应一个属性。比如,当所述待匹配数据是姓名时,待匹配属性值集中对应的属性的取值范围包括:性别、年龄、身份证号码、手机号码、籍贯。
对于S2,将所述待匹配属性值集输入预设的算法分类模型中进行主数据分类,将分类得到的每个主数据作为一个候选主数据。
其中,所述算法分类模型,是基于分类算法训练得到的模型。所述算法分类模型用于属性值集之间的相似性进行的分类预测。
所述算法分类模型是预测性模型,也就是说,所述算法分类模型将直接告知所述待匹配属性值集应该被分为哪个主数据下。
主数据,英文名称为MD Master Data,是系统间共享数据(比如,客户、供应商、账户和组织部门相关数据)。
对于S3,将所述待匹配数据和每个所述候选主数据组成数据对,将组成的每个数据对作为一个待评估数据对。
也就是说,所述待评估数据对与所述候选主数据一一对应。
对于S4,对所述待评估数据对中的所述待匹配数据和所述候选主数据之间进行是否代表同一个数据对象的概率计算,将计算得到的概率作为匹配概率值。也就是说,匹配概率值评估的是两个数据对象之间的相似性,其中,两个数据对象分别是所述待匹配数据和所述候选主数据。
对于S5,从各个所述匹配概率值中查找大于预设的概率阈值的各个所述匹配概率值,将查找出的各个所述匹配概率值作为候选概率值集。
对于S6,从所述候选概率值集中查找最大的所述匹配概率值,将查找出的所述匹配概率值作为命中概率值,将所述命中概率值对应的所述候选主数据作为目标主数据,从而在满足大于预设的概率阈值的情况下将相似度最大的所述候选主数据作为目标主数据,提高了确定的目标主数据的准确性。
对于S7,将所述待匹配数据和所述目标主数据作为关联数据,并且将该关联数据更新到所述主数据对应关系表。
主数据对应关系表包括:原数据对象和主数据。
可以理解的是,所述主数据对应关系表用于向各个应用提供对可信数据的访问,其中,可以通过直接读取、数据服务,或者通过向事务性、仓储分析性数据存储的复制馈送,提供对可信数据的访问。
通过所述主数据对应关系表,所有的系统都可以访问相同的客户名单、地理位置代码、业务单位名单、交付选择、零件清单、会计成本中心代码、政府税号。
在一个实施例中,上述将所述待匹配属性值集输入预设的算法分类模型中进行主数据分类,得到所述待匹配数据对应的各个候选主数据的步骤之前,还包括:
S21:获取多个训练样本和初始分类模型,其中,所述初始分类模型是根据基于距离的分类算法得到的模型;
S22:采用各个所述训练样本,对所述初始分类模型进行主数据分类训练;
S23:将训练结束的所述初始分类模型作为所述算法分类模型。
本实施例通过对根据基于距离的分类算法得到的模型进行主数据分类训练,以作为算法分类模型,因是根据包含多个属性值的属性值集进行主数据分类,基于距离的分类算法将准确的衡量两个属性值集之间的距离,从而提高了训练得到的算法分类模型的准确性。
对于S21,可以获取用户输入的多个训练样本和初始分类模型,也可以从数据库中获取多个训练样本和初始分类模型,还可以从第三方应用中获取多个训练样本和初始分类模型。
所述训练样本中包含:属性值样本集和主数据标签。属性值样本集是同一数据对象对应的多个属性值的集合。主数据标签,是对属性值样本集对应的主数据的准确标定结果。
可选的,所述初始分类模型是基于KNN算法得到的模型。
KNN算法,英文名称为K-nearest neighbors,该算法的思路为:如果一个样本在特征空间中的k个最相似(即特征空间中最临近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
对于S22,基于深度学习方法,采用各个所述训练样本,对所述初始分类模型进行主数据分类训练,从而使所述初始分类模型学习到将每个属性值集映射到目标类别(主数据)。
可以理解的是,目标类别是离散型的数据。
对于S23,当所述初始分类模型的损失值收敛于预设数值时,意味着所述初始分类模型的训练结束,此时的所述初始分类模型是达到预期的性能目标的模型,因此,直接将训练结束的所述初始分类模型作为所述算法分类模型。
在一个实施例中,上述获取多个训练样本和初始分类模型的步骤之前,还包括:
S211:获取标准映射集,其中,所述标准映射集表述的是标准对象和属性值集之间的映射关系;
S212:从所述标准映射集中获取一个所述标准对象,作为第一对象;
S213:将所述标准映射集中的与所述第一对象对应的所述属性值集,作为所述第一对象对应的所述训练样本的属性值样本集,并且将所述第一对象作为所述第一对象对应的所述训练样本的主数据标签;
S214:根据所述标准映射集获取扩充映射集;
S215:从所述扩充映射集中获取一个非标准对象,作为第二对象;
S216:将所述扩充映射集中的与所述第二对象对应的所述属性值集,作为所述第二对象对应的所述训练样本的所述属性值样本集,并且将所述扩充映射集中的与所述第二对象对应的所述标准对象,作为所述第二对象对应的所述训练样本的所述主数据标签。
本实施例实现根据标准映射集确定多个训练样本,然后根据所述标准映射集获取扩充映射集,再根据扩充映射集确定多个训练样本,丰富了训练样本,为提高训练的模型的泛化性提供了基础。
对于S211,可以获取用户输入的标准映射集,也可以从数据库中获取标准映射集,还可以从第三方应用中获取标准映射集。
标准映射集,是人为从整个组织角度定义的标准对象和属性值集之间的映射关系。标准对象,是组织中的所有系统都使用的主数据。
标准映射集,是人为根据组织的业务场景和管理模式定义的,从而实现从组织的战略上进行统一定义。
所述标准映射集包括:标准对象和属性值集。标准对象,也就是数据对象。
对于S212,从所述标准映射集中获取任一个所述标准对象,将获取的所述标准对象作为第一对象。
对于S213,将所述标准映射集中的与所述第一对象对应的所述属性值集,作为所述第一对象对应的所述训练样本的属性值样本集,并且将所述第一对象作为所述第一对象对应的所述训练样本的主数据标签,从而实现根据标准映射集生成训练样本。
可以理解的是,重复执行步骤S212至步骤S213,即可实现根据所述标准映射集中的每条记录(包括标准对象和属性值集)生成一个训练样本。
对于S214,根据所述标准映射集获取用户输入的扩充映射集。
扩充映射集包括:非标准对象、属性值集和标准对象。非标准对象,是数据对象。非标准对象是组织中的部分系统使用的数据对象。
对于S215,从所述扩充映射集中获取任一个非标准对象,作为第二对象;
对于S216,将所述扩充映射集中的与所述第二对象对应的所述属性值集,作为所述第二对象对应的所述训练样本的所述属性值样本集,并且将所述扩充映射集中的与所述第二对象对应的所述标准对象,作为所述第二对象对应的所述训练样本的所述主数据标签,从而实现将根据标准映射集扩充的扩充映射集生成训练样本,提高了训练样本的多样性。
在一个实施例中,上述对每个所述待评估数据对进行匹配概率值计算的步骤,包括:
S41:将每个所述待评估数据对输入预设的概率匹配器进行表述同一对象的概率预测,得到每个所述待评估数据对对应的所述匹配概率值,其中,所述概率匹配器是基于匹配概率估计算法训练得到的模型。
本实施例采用基于匹配概率估计算法训练得到的模型进行表述同一对象的概率预测,通过人工智能进行预测,有利于提高预测的准确性。
对于S41,将每个所述待评估数据对输入预设的概率匹配器进行表述同一对象的概率预测,将预测得到的每个概率值作为一个所述匹配概率值。
可以理解的是,概率匹配器不依赖于规则,因此结果可能是非确定性的,然后概率可以根据经验进行细化,因此概率匹配器能够在分析更多数据时提高其匹配精度。
在一个实施例中,上述获取待匹配数据和所述待匹配数据对应的待匹配属性值集的步骤,包括:
S11:从目标业务系统对应的数据源中获取数据,作为待分析数据;
S12:采用所述目标业务系统对应的目标主数据提取配置中的每个主字段配置,从所述待分析数据中提取一个字段值,作为所述待匹配数据;
S13:采用所述目标主数据提取配置中的与所述待匹配数据对应的属性值提取规则,从所述待分析数据中提取与所述待匹配数据对应的各个属性值,作为所述待匹配数据对应的所述待匹配属性值集。
本实施例首先从目标业务系统对应的数据源中获取数据,采用所述目标业务系统对应的目标主数据提取配置,从提取的数据中提取待匹配数据和所述待匹配数据对应的待匹配属性值集,实现了自动化进行待匹配数据和所述待匹配数据对应的待匹配属性值集的获取,提高了本申请的自动化程度,提高了主数据匹配的效率。
对于S11,从目标业务系统对应的数据源中获取数据,将获取的数据作为待分析数据。
对于S12,配置库中包括:业务系统标识和主数据提取配置。业务系统标识,可以是业务系统名称、业务系统ID等唯一标识一个业务系统的数据。业务系统,是向组织内部和/或外部提供业务服务的系统。主数据提取配置包括:主字段配置和属性值提取规则。主字段配置包括:字段标识。字段标识,可以是字段名称、字段ID等唯一标识一个字段的数据。属性值提取规则包括:多个属性值提取正则表达式。属性值提取正则表达式用于从一条数据记录中提取属性值。可以理解的是,属性值提取规则还可以采用深度学习的模型,在此不做限定。
其中,首先采用所述目标业务系统对应的业务系统标识从配置库中查找主数据提取配置,作为目标主数据提取配置,然后根据所述目标主数据提取配置中的每个主字段配置,从所述待分析数据中提取一个字段值,将提取到的一个字段值作为所述待匹配数据。
对于S13,采用所述目标主数据提取配置中的与所述待匹配数据对应的主字段配置对应的属性值提取规则,从所述待分析数据中提取与所述待匹配数据对应的各个属性值,将提取的各个属性值作为所述待匹配数据对应的所述待匹配属性值集。
在一个实施例中,上述根据所述待匹配数据和所述目标主数据更新主数据对应关系表的步骤,包括:
S71:获取所述目标主数据对应的目标数据标识、所述待匹配数据对应的待匹配数据源标识;
S72:将所述目标主数据、所述目标数据标识、所述待匹配数据和所述待匹配数据源标识进行关联,得到待存储关联数据;
S73:将所述待存储关联数据存储到所述主数据对应关系表中;
S74:对所述主数据对应关系表按数据源标识进行子表划分,得到多个单数据源对应表;
S75:将目标对应表发送给所述目标对应表对应的所述数据源标识对应的数据源,其中,所述目标对应表是任一个所述单数据源对应表。
本实施例将所述目标主数据、所述目标数据标识、所述待匹配数据和所述待匹配数据源标识进行关联存储到所述主数据对应关系表中,然后将所述主数据对应关系表按数据源标识进行子表划分,最后将各个子表分发到各个数据源,从而有利于各个数据源对应的业务系统根据收到的子表提供统一的业务服务。
对于S71,从预设的主数据列表中获取所述目标主数据对应的主数据标识作为目标数据标识;可以从数据库中获取所述待匹配数据对应的数据源标识,作为待匹配数据源标识。
主数据列表包括:主数据和主数据标识。
主数据标识是主数据ID,用于唯一标识一个主数据。
对于S72,将所述目标主数据、所述目标数据标识、所述待匹配数据和所述待匹配数据源标识进行关联,将关联得到的数据作为待存储关联数据。
对于S73,将所述待存储关联数据存储到所述主数据对应关系表中,从而完成了待匹配数据与主数据的准确对应关系的记录。
对于S74,对所述主数据对应关系表按数据源标识进行子表划分,将划分得到的每个子表作为一个单数据源对应表。
对于S75,将任一个所述单数据源对应表作为所述目标对应表;将目标对应表发送给所述目标对应表对应的所述数据源标识对应的数据源。
在一个实施例中,上述将所述目标主数据、所述目标数据标识、所述待匹配数据和所述待匹配数据源标识进行关联,得到待存储关联数据的步骤,包括:
S721:获取所述目标主数据对应的目标使用条件,其中,所述目标使用条件包括:生命周期和使用背景;
S722:将所述目标使用条件、所述目标主数据、所述目标数据标识、所述待匹配数据和所述待匹配数据源标识进行关联,得到所述待存储关联数据。
本实施例将所述目标使用条件、所述目标主数据、所述目标数据标识、所述待匹配数据和所述待匹配数据源标识进行关联,从而有利于将目标主数据的使用条件和待匹配数据关联,有利于业务系统能根据收到的单数据源对应表快速的进行统一的主数据服务。
对于S721,从主数据列表中获取所述目标主数据对应的使用条件作为目标使用条件。
生命周期是使用主数据的时间范围。
使用背景是使用主数据的要求。
对于S722,将所述目标使用条件、所述目标主数据、所述目标数据标识、所述待匹配数据和所述待匹配数据源标识进行关联,将关联得到的数据作为所述待存储关联数据。
参照图2,本申请还提出了一种基于人工智能的主数据匹配装置,所述装置包括:
数据获取模块100,用于获取待匹配数据和所述待匹配数据对应的待匹配属性值集;
候选主数据确定模块200,用于将所述待匹配属性值集输入预设的算法分类模型中进行主数据分类,得到所述待匹配数据对应的各个候选主数据;
待评估数据对确定模块300,用于将所述待匹配数据和每个所述候选主数据组成数据对,作为待评估数据对;
匹配概率值确定模块400,用于对每个所述待评估数据对进行匹配概率值计算;
候选概率值集确定模块500,用于从各个所述匹配概率值中查找大于预设的概率阈值的各个所述匹配概率值,作为候选概率值集;
目标主数据确定模块600,用于从所述候选概率值集中查找最大的所述匹配概率值,作为命中概率值,将所述命中概率值对应的所述候选主数据作为目标主数据;
主数据对应关系表更新模块700,用于根据所述待匹配数据和所述目标主数据更新主数据对应关系表。
本实施例实现了自动化进行主数据匹配,不需开发人员修改系统;通过算法分类模型对待匹配数据对应的待匹配属性值集进行主数据分类,基于人工智能提高了分类的准确性,而且充分考虑了各个属性值,进一步提高了分类的准确性;通过对待匹配数据和候选主数据组成的数据对进行匹配概率值,从而实现对数据对是否代表同一个对象进行了评估,提高了确定的目标主数据的准确性;而且实现在基于属性值集之间相似性判断的基础上,再对数据对象之间的相似性进行判断,通过两个角度的相似性判断,提高了确定的目标主数据的准确性。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存基于人工智能的主数据匹配方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的主数据匹配方法。所述基于人工智能的主数据匹配方法,包括:获取待匹配数据和所述待匹配数据对应的待匹配属性值集;将所述待匹配属性值集输入预设的算法分类模型中进行主数据分类,得到所述待匹配数据对应的各个候选主数据;将所述待匹配数据和每个所述候选主数据组成数据对,作为待评估数据对;对每个所述待评估数据对进行匹配概率值计算;从各个所述匹配概率值中查找大于预设的概率阈值的各个所述匹配概率值,作为候选概率值集;从所述候选概率值集中查找最大的所述匹配概率值,作为命中概率值,将所述命中概率值对应的所述候选主数据作为目标主数据;根据所述待匹配数据和所述目标主数据更新主数据对应关系表。
本实施例实现了自动化进行主数据匹配,不需开发人员修改系统;通过算法分类模型对待匹配数据对应的待匹配属性值集进行主数据分类,基于人工智能提高了分类的准确性,而且充分考虑了各个属性值,进一步提高了分类的准确性;通过对待匹配数据和候选主数据组成的数据对进行匹配概率值,从而实现对数据对是否代表同一个对象进行了评估,提高了确定的目标主数据的准确性;而且实现在基于属性值集之间相似性判断的基础上,再对数据对象之间的相似性进行判断,通过两个角度的相似性判断,提高了确定的目标主数据的准确性。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于人工智能的主数据匹配方法,包括步骤:获取待匹配数据和所述待匹配数据对应的待匹配属性值集;将所述待匹配属性值集输入预设的算法分类模型中进行主数据分类,得到所述待匹配数据对应的各个候选主数据;将所述待匹配数据和每个所述候选主数据组成数据对,作为待评估数据对;对每个所述待评估数据对进行匹配概率值计算;从各个所述匹配概率值中查找大于预设的概率阈值的各个所述匹配概率值,作为候选概率值集;从所述候选概率值集中查找最大的所述匹配概率值,作为命中概率值,将所述命中概率值对应的所述候选主数据作为目标主数据;根据所述待匹配数据和所述目标主数据更新主数据对应关系表。
上述执行的基于人工智能的主数据匹配方法,实现了自动化进行主数据匹配,不需开发人员修改系统;通过算法分类模型对待匹配数据对应的待匹配属性值集进行主数据分类,基于人工智能提高了分类的准确性,而且充分考虑了各个属性值,进一步提高了分类的准确性;通过对待匹配数据和候选主数据组成的数据对进行匹配概率值,从而实现对数据对是否代表同一个对象进行了评估,提高了确定的目标主数据的准确性;而且实现在基于属性值集之间相似性判断的基础上,再对数据对象之间的相似性进行判断,通过两个角度的相似性判断,提高了确定的目标主数据的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于人工智能的主数据匹配方法,其特征在于,所述方法包括:
获取待匹配数据和所述待匹配数据对应的待匹配属性值集;
将所述待匹配属性值集输入预设的算法分类模型中进行主数据分类,得到所述待匹配数据对应的各个候选主数据;
将所述待匹配数据和每个所述候选主数据组成数据对,作为待评估数据对;
对每个所述待评估数据对进行匹配概率值计算;
从各个所述匹配概率值中查找大于预设的概率阈值的各个所述匹配概率值,作为候选概率值集;
从所述候选概率值集中查找最大的所述匹配概率值,作为命中概率值,将所述命中概率值对应的所述候选主数据作为目标主数据;
根据所述待匹配数据和所述目标主数据更新主数据对应关系表。
2.根据权利要求1所述的基于人工智能的主数据匹配方法,其特征在于,所述将所述待匹配属性值集输入预设的算法分类模型中进行主数据分类,得到所述待匹配数据对应的各个候选主数据的步骤之前,还包括:
获取多个训练样本和初始分类模型,其中,所述初始分类模型是根据基于距离的分类算法得到的模型;
采用各个所述训练样本,对所述初始分类模型进行主数据分类训练;
将训练结束的所述初始分类模型作为所述算法分类模型。
3.根据权利要求2所述的基于人工智能的主数据匹配方法,其特征在于,所述获取多个训练样本和初始分类模型的步骤之前,还包括:
获取标准映射集,其中,所述标准映射集表述的是标准对象和属性值集之间的映射关系;
从所述标准映射集中获取一个所述标准对象,作为第一对象;
将所述标准映射集中的与所述第一对象对应的所述属性值集,作为所述第一对象对应的所述训练样本的属性值样本集,并且将所述第一对象作为所述第一对象对应的所述训练样本的主数据标签;
根据所述标准映射集获取扩充映射集;
从所述扩充映射集中获取一个非标准对象,作为第二对象;
将所述扩充映射集中的与所述第二对象对应的所述属性值集,作为所述第二对象对应的所述训练样本的所述属性值样本集,并且将所述扩充映射集中的与所述第二对象对应的所述标准对象,作为所述第二对象对应的所述训练样本的所述主数据标签。
4.根据权利要求1所述的基于人工智能的主数据匹配方法,其特征在于,所述对每个所述待评估数据对进行匹配概率值计算的步骤,包括:
将每个所述待评估数据对输入预设的概率匹配器进行表述同一对象的概率预测,得到每个所述待评估数据对对应的所述匹配概率值,其中,所述概率匹配器是基于匹配概率估计算法训练得到的模型。
5.根据权利要求1所述的基于人工智能的主数据匹配方法,其特征在于,所述获取待匹配数据和所述待匹配数据对应的待匹配属性值集的步骤,包括:
从目标业务系统对应的数据源中获取数据,作为待分析数据;
采用所述目标业务系统对应的目标主数据提取配置中的每个主字段配置,从所述待分析数据中提取一个字段值,作为所述待匹配数据;
采用所述目标主数据提取配置中的与所述待匹配数据对应的属性值提取规则,从所述待分析数据中提取与所述待匹配数据对应的各个属性值,作为所述待匹配数据对应的所述待匹配属性值集。
6.根据权利要求1所述的基于人工智能的主数据匹配方法,其特征在于,所述根据所述待匹配数据和所述目标主数据更新主数据对应关系表的步骤,包括:
获取所述目标主数据对应的目标数据标识、所述待匹配数据对应的待匹配数据源标识;
将所述目标主数据、所述目标数据标识、所述待匹配数据和所述待匹配数据源标识进行关联,得到待存储关联数据;
将所述待存储关联数据存储到所述主数据对应关系表中;
对所述主数据对应关系表按数据源标识进行子表划分,得到多个单数据源对应表;
将目标对应表发送给所述目标对应表对应的所述数据源标识对应的数据源,其中,所述目标对应表是任一个所述单数据源对应表。
7.根据权利要求6所述的基于人工智能的主数据匹配方法,其特征在于,所述将所述目标主数据、所述目标数据标识、所述待匹配数据和所述待匹配数据源标识进行关联,得到待存储关联数据的步骤,包括:
获取所述目标主数据对应的目标使用条件,其中,所述目标使用条件包括:生命周期和使用背景;
将所述目标使用条件、所述目标主数据、所述目标数据标识、所述待匹配数据和所述待匹配数据源标识进行关联,得到所述待存储关联数据。
8.一种基于人工智能的主数据匹配装置,其特征在于,所述装置包括:
数据获取模块,用于获取待匹配数据和所述待匹配数据对应的待匹配属性值集;
候选主数据确定模块,用于将所述待匹配属性值集输入预设的算法分类模型中进行主数据分类,得到所述待匹配数据对应的各个候选主数据;
待评估数据对确定模块,用于将所述待匹配数据和每个所述候选主数据组成数据对,作为待评估数据对;
匹配概率值确定模块,用于对每个所述待评估数据对进行匹配概率值计算;
候选概率值集确定模块,用于从各个所述匹配概率值中查找大于预设的概率阈值的各个所述匹配概率值,作为候选概率值集;
目标主数据确定模块,用于从所述候选概率值集中查找最大的所述匹配概率值,作为命中概率值,将所述命中概率值对应的所述候选主数据作为目标主数据;
主数据对应关系表更新模块,用于根据所述待匹配数据和所述目标主数据更新主数据对应关系表。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202210583221.0A 2022-05-25 2022-05-25 基于人工智能的主数据匹配方法、装置、设备及存储介质 Pending CN114861818A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210583221.0A CN114861818A (zh) 2022-05-25 2022-05-25 基于人工智能的主数据匹配方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210583221.0A CN114861818A (zh) 2022-05-25 2022-05-25 基于人工智能的主数据匹配方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114861818A true CN114861818A (zh) 2022-08-05

Family

ID=82641662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210583221.0A Pending CN114861818A (zh) 2022-05-25 2022-05-25 基于人工智能的主数据匹配方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114861818A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952471A (zh) * 2023-03-13 2023-04-11 北京中兵数字科技集团有限公司 融合不同数据源的数据的方法、装置、计算设备和介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952471A (zh) * 2023-03-13 2023-04-11 北京中兵数字科技集团有限公司 融合不同数据源的数据的方法、装置、计算设备和介质

Similar Documents

Publication Publication Date Title
CN110457431B (zh) 基于知识图谱的问答方法、装置、计算机设备和存储介质
US11232141B2 (en) Method and device for processing an electronic document
CN111160017A (zh) 关键词抽取方法、话术评分方法以及话术推荐方法
CN109063108B (zh) 搜索排序方法、装置、计算机设备和存储介质
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN112000822B (zh) 多媒体资源排序方法、装置、电子设备及存储介质
CN113934830A (zh) 文本检索模型训练、问答检索方法、装置、设备及介质
CN112015747B (zh) 数据上传方法及装置
CN111309881A (zh) 智能问答中未知问题处理方法、装置、计算机设备和介质
CN112699923A (zh) 文档分类预测方法、装置、计算机设备及存储介质
CN113254687B (zh) 图像检索、图像量化模型训练方法、装置和存储介质
CN111782595A (zh) 海量文件管理方法、装置、计算机设备和可读存储介质
CN112685475A (zh) 报表查询方法、装置、计算机设备及存储介质
CN114492601A (zh) 资源分类模型的训练方法、装置、电子设备及存储介质
CN111083054B (zh) 路由配置处理方法、装置、计算机设备和存储介质
CN115495553A (zh) 查询文本排序方法、装置、计算机设备及存储介质
CN114861818A (zh) 基于人工智能的主数据匹配方法、装置、设备及存储介质
US10866944B2 (en) Reconciled data storage system
CN114328942A (zh) 关系抽取方法、装置、设备、存储介质和计算机程序产品
CN111460268B (zh) 数据库查询请求的确定方法、装置和计算机设备
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
CN112579755A (zh) 基于人工智能和云计算的信息应答方法及信息互动平台
CN114756671A (zh) 文章推荐方法、装置、计算机设备及存储介质
CN111190576B (zh) 基于文字识别的组件集展示方法、装置和计算机设备
CN113946365A (zh) 页面识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination