CN110955781A - 一种模型训练方法、装置、实现对标处理的方法及装置 - Google Patents

一种模型训练方法、装置、实现对标处理的方法及装置 Download PDF

Info

Publication number
CN110955781A
CN110955781A CN201911111324.1A CN201911111324A CN110955781A CN 110955781 A CN110955781 A CN 110955781A CN 201911111324 A CN201911111324 A CN 201911111324A CN 110955781 A CN110955781 A CN 110955781A
Authority
CN
China
Prior art keywords
benchmarking
chinese
source table
configuration data
mapping configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911111324.1A
Other languages
English (en)
Inventor
张静
徐大磊
张晓波
冯亚东
刘振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911111324.1A priority Critical patent/CN110955781A/zh
Publication of CN110955781A publication Critical patent/CN110955781A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种模型训练方法、装置、实现对标处理的方法及装置,实现对标处理的方法包括:获取预设数量的映射配置数据;对获取的映射配置数据进行特征提取,获得对标特征;根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;根据获得的对标模型对标准化数据进行自动对标处理;其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。本发明实施例提取对标特征后,基于对标特征训练获得对标模型,实现了标准化数据的自动对标,提升了对标速度和准确度。

Description

一种模型训练方法、装置、实现对标处理的方法及装置
技术领域
本文涉及但不限于知识图谱技术,尤指一种模型训练方法、装置、实现对标处理的方法及装置。
背景技术
目前,多数知识图谱的构建一般涉及非标准化和标准化的多源数据,构建知识图谱包括对多源数据进行标准化处理、对标准化处理后的数据进行对标等过程;图1为相关技术构建知识图谱的流程图,如图1所示,包括:步骤101、对多源数据进行标准化处理,获得标准化数据;步骤102、对标准化数据进行手动对标,获得映射配置数据;其中,对标包括源表中文名和目标表中文名、源表英文名和目标表英文名、源表字段中文含义和目标表字段中文含义、以及源表字段英文名和目标表字段英文名的对标;步骤103、根据获得的映射配置数据,通过计算机引擎确定实体、实体属性、实体间关系及实体轨迹数据等,实现知识图谱构建。
在数据源种类多、数据量大时,相关技术中对标过程存在以下问题:1、手动对标,效率低、耗时长;2、人为对标容易发生错漏,影响准确率;此外,对标过程需要技术人员具备专业业务能力,因此,无法通过引入大量技术人员的方式来提升对比效率。
综上,如何提升对标速度和准确度,成为构建知识图谱过程中有待解决的问题。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供一种模型训练方法、装置、实现对标处理的方法及装置,能够提升对标速度和准确度。
本发明实施例还提供一种模型训练方法,包括:
获取预设数量的映射配置数据;
对获取的映射配置数据进行特征提取,获得对标特征;
根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;
其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。
在一种示例性实施例中,所述对获取的映射配置数据进行特征提取之后,所述模型训练方法还包括:
对获得的所述对标特征进行预处理;
所述预处理包括空值和/或异常值处理。
在一种示例性实施例中,所述根据映射配置数据对提取获得的对标特征进行训练,包括:
根据所述预设配置信息遍历确定对标特征之间的对标关系;
根据确定的所述对标特征之间的对标关系,获得用于自动对标的对标模型。
在一种示例性实施例中,所述根据所述预设配置信息遍历确定对标特征之间的映射关系,包括:
所述对标特征包括所述源表中文名和所述目标表中文名时,对每一个源表中文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表中文名对标的所有目标表中文名,建立当前源表中文名与所有对标的目标表的中文名之间的对标关系;
所述对标特征包括所述源表英文名和所述目标表英文名时,对每一个所述源表英文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表英文名对标的所有目标表英文名,建立当前源表英文名与所有对标的目标表的英文名之间的对标关系;
所述对标特征包括所述源表字段中文含义和所述目标表字段中文含义时,对每一个所述源表字段中文含义,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表字段中文含义对标的所有目标表字段中文含义,建立当前源表字段中文与所有对标的目标表字段中文含义之间的对标关系;
所述对标特征包括所述源表字段英文名和所述目标表字段英文名时,对每一个所述源表字段英文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表字段英文名对标的所有目标表字段英文名,建立当前源表字段英文名与所有对标的目标表字段英文名之间的对标关系。
在一种示例性实施例中,所述根据映射配置数据对提取获得的对标特征进行训练,包括:
由极端梯度提升(XGBoost)算法,根据所述映射配置数据遍历确定对标特征之间的对标关系;
根据确定的所述对标特征之间的对标关系,构建用于自动对标的对标模型。
另一方面,本发明实施例还提供了一种实现对标处理的方法,包括:
获取预设数量的映射配置数据;
对获取的映射配置数据进行特征提取,获得对标特征;
根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;
根据获得的对标模型对标准化数据进行自动对标处理;
其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。
在一种示例性实施例中,所述对未对标的源数据进行自动对标处理后,所述方法还包括:
根据接收到的外部指令,判断自动对标处理获得的映射配置数据是否准确;
判断出所述映射配置数据准确时,存储准确的映射配置数据;
判断出所述映射配置数据错误时,根据接收的编辑指令对错误的所述映射配置数据进行校正,并存储校正后的所述映射配置数据。
在一种示例性实施例中,所述判断自动对标处理获得的映射配置数据是否准确后,所述方法还包括:
按照预设策略将判断出的准确的所述映射配置数据作为正样本,错误的所述映射配置数据作为负样本;
根据获得的所述正样本和所述负样本,对所述对标模型进行更新训练。
再一方面,本发明实施例还提供一种模型训练装置,包括:获取单元、特征提取单元及训练单元;其中,
获取单元用于:获取预设数量的映射配置数据;
特征提取单元用于:对获取的映射配置数据进行特征提取,获得对标特征;
训练单元用于:根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;
其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。
还一方面,本发明实施例还提供一种实现对标处理的装置,包括:获取单元、特征提取单元、训练单元及对标单元;其中,
获取单元用于:获取预设数量的映射配置数据;
特征提取单元用于:对获取的映射配置数据进行特征提取,获得对标特征;
训练单元用于:根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;
对标单元用于:根据获得的对标模型对标准化数据进行自动对标处理;
其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。
与相关技术相比,本申请技术方案包括:实现对标处理的方法包括:获取预设数量的映射配置数据;对获取的映射配置数据进行特征提取,获得对标特征;根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;根据获得的对标模型对标准化数据进行自动对标处理;其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。本发明实施例提取对标特征后,基于对标特征训练获得对标模型,实现了标准化数据的自动对标,提升了对标速度和准确度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为相关技术构建知识图谱的流程图;
图2为本发明实施例模型训练方法的流程图;
图3为本发明实施例实现对标处理的方法的流程图;
图4为本发明实施例模型训练装置的结构框图;
图5为本发明实施例实现对标处理的装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2为本发明实施例模型训练方法的流程图,如图2所示,包括:
步骤201、获取预设数量的映射配置数据;
本发明实施例,映射配置数据包括通过手动对标获得的数据,手动对标包括:对源表和目标表,建立源表中文名与目标表中文名、源表英文名与目标表英文名、源表字段中文含义与目标表字段中文含义、及源表字段英文名与目标表字段英文名的对标;映射配置数据的数量,可以由本领域技术人员根据对标涉及数据的复杂程度进行分析确定,一般的,对标涉及数据越复杂,用于训练对标模型的预设配置数据越多。
步骤202、对获取的映射配置数据进行特征提取,获得对标特征;
步骤203、根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;
其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。
在一种示例性实施例中,获取预设数量的映射配置数据之前,本发明实施例方法还包括:获取包括结构化数据和非结构化数据在内的多源数据;其中,结构化数据主要包括关系型数据库数据,Hadoop分布式文件系统(HDFS)文件系统数据等;非结构化数据包括文本数据;对多源数据进行标准化处理,标准化处理包括:对结构化数据的标准化处理和对非结构化数据进行标准化处理;其中,对结构化数据进行标准化处理包括:对结构化数据进行归并、清洗后,导入大数据平台;分析并剔除结构化数据中无法核验或对知识图谱没有帮助的数据;对多源数据中的相同数据做归一化处理,并进行数据清洗。对非机构化数据进行标准化处理包括:合并文本数据,并将合并的文本数据导入大数据平台;基于标准的词库,采用自然语言处理技术从文本数据中提取关键词;将提取的关键词转化成结构化数据;对转换获得的结构化数据进行清洗、和归一化处理。对标准化处理获得的标准化数据进行对标后,可获得映射配置数据。
在一种示例性实施例中,所述对获取的映射配置数据进行特征提取之后,本发明实施例模型训练方法还包括:
对获得的所述对标特征进行预处理;
所述预处理包括空值和/或异常值处理。
需要说明的是,本领域技术人员根据对标特征的信息特点,确定和调整预处理事项。
在一种示例性实施例中,所述根据映射配置数据对提取获得的对标特征进行训练,包括:
根据所述预设配置信息遍历确定对标特征之间的对标关系;
根据确定的所述对标特征之间的对标关系,获得用于自动对标的对标模型。
在一种示例性实施例中,所述根据所述预设配置信息遍历确定对标特征之间的映射关系,包括:
所述对标特征包括所述源表中文名和所述目标表中文名时,对每一个源表中文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表中文名对标的所有目标表中文名,建立当前源表中文名与所有对标的目标表的中文名之间的对标关系;
所述对标特征包括所述源表英文名和所述目标表英文名时,对每一个所述源表英文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表英文名对标的所有目标表英文名,建立当前源表英文名与所有对标的目标表的英文名之间的对标关系;
所述对标特征包括所述源表字段中文含义和所述目标表字段中文含义时,对每一个所述源表字段中文含义,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表字段中文含义对标的所有目标表字段中文含义,建立当前源表字段中文与所有对标的目标表字段中文含义之间的对标关系;
所述对标特征包括所述源表字段英文名和所述目标表字段英文名时,对每一个所述源表字段英文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表字段英文名对标的所有目标表字段英文名,建立当前源表字段英文名与所有对标的目标表字段英文名之间的对标关系。
在一种示例性实施例中,所述根据映射配置数据对提取获得的对标特征进行训练,包括:
由极端梯度提升(XGBoost)算法,根据所述映射配置数据遍历确定对标特征之间的对标关系;根据确定的所述对标特征之间的对标关系,构建用于自动对标的对标模型。
本申请技术方案包括:获取预设数量的映射配置数据;对获取的映射配置数据进行特征提取,获得对标特征;根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。本发明实施例基于对标特征训练获得对标模型,为实现标准化数据的自动对标提供了技术支持。
图3为本发明实施例实现对标处理的方法的流程图,如图3所示,包括:
步骤301、获取预设数量的映射配置数据;
本发明实施例,映射配置数据包括通过手动对标获得的数据,手动对标包括:对源表和目标表,建立源表中文名与目标表中文名、源表英文名与目标表英文名、源表字段中文含义与目标表字段中文含义、及源表字段英文名与目标表字段英文名的对标;映射配置数据的数量,可以由本领域技术人员根据对标涉及数据的复杂程度进行分析确定,一般的,对标涉及数据越复杂,用于训练对标模型的预设配置数据越多。
步骤302、对获取的映射配置数据进行特征提取,获得对标特征;
步骤303、根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;
步骤304、根据获得的对标模型对标准化数据进行自动对标处理;
其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。
在一种示例性实施例中,所述对获取的映射配置数据进行特征提取之后,本发明实施例方法还包括:
对获得的所述对标特征进行预处理;
所述预处理包括空值和/或异常值处理。
需要说明的是,本领域技术人员根据对标特征的信息特点,确定和调整预处理事项。
在一种示例性实施例中,所述根据映射配置数据对提取获得的对标特征进行训练,包括:
根据所述预设配置信息遍历确定对标特征之间的对标关系;
根据确定的所述对标特征之间的对标关系,获得用于自动对标的对标模型。
在一种示例性实施例中,所述根据所述预设配置信息遍历确定对标特征之间的映射关系,包括:
所述对标特征包括所述源表中文名和所述目标表中文名时,对每一个源表中文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表中文名对标的所有目标表中文名,建立当前源表中文名与所有对标的目标表的中文名之间的对标关系;
所述对标特征包括所述源表英文名和所述目标表英文名时,对每一个所述源表英文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表英文名对标的所有目标表英文名,建立当前源表英文名与所有对标的目标表的英文名之间的对标关系;
所述对标特征包括所述源表字段中文含义和所述目标表字段中文含义时,对每一个所述源表字段中文含义,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表字段中文含义对标的所有目标表字段中文含义,建立当前源表字段中文与所有对标的目标表字段中文含义之间的对标关系;
所述对标特征包括所述源表字段英文名和所述目标表字段英文名时,对每一个所述源表字段英文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表字段英文名对标的所有目标表字段英文名,建立当前源表字段英文名与所有对标的目标表字段英文名之间的对标关系。
在一种示例性实施例中,所述根据映射配置数据对提取获得的对标特征进行训练,包括:
由极端梯度提升(XGBoost)算法,根据所述映射配置数据遍历确定对标特征之间的对标关系;根据确定的所述对标特征之间的对标关系,构建用于自动对标的对标模型。
在一种示例性实施例中,所述对未对标的源数据进行自动对标处理后,本发明实施例方法还包括:
根据接收到的外部指令,判断自动对标处理获得的映射配置数据是否准确;
判断出所述映射配置数据准确时,存储准确的映射配置数据;
判断出所述映射配置数据错误时,根据接收的编辑指令对错误的所述映射配置数据进行校正,并存储校正后的所述映射配置数据。
在一种示例性实施例中,所述判断自动对标处理获得的映射配置数据是否准确后,本发明实施例方法还包括:
按照预设策略将判断出的准确的所述映射配置数据作为正样本,错误的所述映射配置数据作为负样本;
根据获得的所述正样本和所述负样本,对所述对标模型进行更新训练。
在一种示例性实施例中,获得映射配置数据后,本发明实施例方法还包括:
应用大数据组件的存储及计算引擎,调用映射配置数据,按照国标和/或部标编写的数据标准化程序,通过数据标准化程序确定实体、实体属性、实体间的关系及实体轨迹信息,进行知识图谱的构建。
本发明实施例应用大数据组件的存储和计算引擎,进一步提升了数据处理效率,降低了构建知识图谱的时间。
本发明实施例通过在提取对标特征后,通过确定对标特征之间的对标关系建立了对标模型;对标准化数据,可以基于对标模型中包含的对标特征之间的对标关系进行自动对标处理;通过自动对标处理,降低了对标过程的时间消耗;通过自动对标,避免了对标错漏,提升了对标的准确率,降低了对操作人员业务能力的要求。进一步的,采用大数据组件的存储和计算引擎,进一步提升数据治理的速率。
与相关技术相比,本申请技术方案包括:实现对标处理的方法包括:获取预设数量的映射配置数据;对获取的映射配置数据进行特征提取,获得对标特征;根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;根据获得的对标模型对标准化数据进行自动对标处理;其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。本发明实施例提取对标特征后,基于对标特征训练获得对标模型,实现了标准化数据的自动对标,提升了对标速度和准确度。
图4为本发明实施例模型训练装置的结构框图,如图4所示,包括:获取单元、特征提取单元及训练单元;其中,
获取单元用于:获取预设数量的映射配置数据;
特征提取单元用于:对获取的映射配置数据进行特征提取,获得对标特征;
训练单元用于:根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;
其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。
在一种示例性实施例中,本发明实施例装置还包括预处理单元,用于:
对获得的所述对标特征进行预处理;
所述预处理包括空值和/或异常值处理。
需要说明的是,本领域技术人员根据对标特征的信息特点,确定和调整预处理事项。
在一种示例性实施例中,所述训练单元具体用于:
根据所述预设配置信息遍历确定对标特征之间的对标关系;
根据确定的所述对标特征之间的对标关系,获得用于自动对标的对标模型。
在一种示例性实施例中,所述训练单元用于根据所述预设配置信息遍历确定对标特征之间的映射关系,包括:
所述对标特征包括所述源表中文名和所述目标表中文名时,对每一个源表中文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表中文名对标的所有目标表中文名,建立当前源表中文名与所有对标的目标表的中文名之间的对标关系;
所述对标特征包括所述源表英文名和所述目标表英文名时,对每一个所述源表英文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表英文名对标的所有目标表英文名,建立当前源表英文名与所有对标的目标表的英文名之间的对标关系;
所述对标特征包括所述源表字段中文含义和所述目标表字段中文含义时,对每一个所述源表字段中文含义,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表字段中文含义对标的所有目标表字段中文含义,建立当前源表字段中文与所有对标的目标表字段中文含义之间的对标关系;
所述对标特征包括所述源表字段英文名和所述目标表字段英文名时,对每一个所述源表字段英文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表字段英文名对标的所有目标表字段英文名,建立当前源表字段英文名与所有对标的目标表字段英文名之间的对标关系。
在一种示例性实施例中,所述训练单元具体用于:
由极端梯度提升(XGBoost)算法,根据所述映射配置数据遍历确定对标特征之间的对标关系;
根据确定的所述对标特征之间的对标关系,构建用于自动对标的对标模型。
本申请技术方案包括:获取预设数量的映射配置数据;对获取的映射配置数据进行特征提取,获得对标特征;根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。本发明实施例基于对标特征训练获得对标模型,为实现标准化数据的自动对标提供了技术支持。
图5为本发明实施例实现对标处理的装置的结构框图,如图5所示,包括:获取单元、特征提取单元、训练单元及对标单元;其中,
获取单元用于:获取预设数量的映射配置数据;
特征提取单元用于:对获取的映射配置数据进行特征提取,获得对标特征;
训练单元用于:根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;
对标单元用于:根据获得的对标模型对标准化数据进行自动对标处理;
其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。
在一种示例性实施例中,本发明实施例装置还包括预处理单元,用于:
对获得的所述对标特征进行预处理;
所述预处理包括空值和/或异常值处理。
需要说明的是,本领域技术人员根据对标特征的信息特点,确定和调整预处理事项。
在一种示例性实施例中,所述训练单元具体用于:
根据所述预设配置信息遍历确定对标特征之间的对标关系;
根据确定的所述对标特征之间的对标关系,获得用于自动对标的对标模型。
在一种示例性实施例中,所述训练单元用于根据所述预设配置信息遍历确定对标特征之间的映射关系,包括:
所述对标特征包括所述源表中文名和所述目标表中文名时,对每一个源表中文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表中文名对标的所有目标表中文名,建立当前源表中文名与所有对标的目标表的中文名之间的对标关系;
所述对标特征包括所述源表英文名和所述目标表英文名时,对每一个所述源表英文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表英文名对标的所有目标表英文名,建立当前源表英文名与所有对标的目标表的英文名之间的对标关系;
所述对标特征包括所述源表字段中文含义和所述目标表字段中文含义时,对每一个所述源表字段中文含义,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表字段中文含义对标的所有目标表字段中文含义,建立当前源表字段中文与所有对标的目标表字段中文含义之间的对标关系;
所述对标特征包括所述源表字段英文名和所述目标表字段英文名时,对每一个所述源表字段英文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表字段英文名对标的所有目标表字段英文名,建立当前源表字段英文名与所有对标的目标表字段英文名之间的对标关系。
在一种示例性实施例中,所述训练单元具体用于:
由极端梯度提升(XGBoost)算法,根据所述映射配置数据遍历确定对标特征之间的对标关系;
根据确定的所述对标特征之间的对标关系,构建用于自动对标的对标模型。
在一种示例性实施例中,本发明实施例装置还包括判断处理单元,用于:
根据接收到的外部指令,判断自动对标处理获得的映射配置数据是否准确;
判断出所述映射配置数据准确时,存储准确的映射配置数据;
判断出所述映射配置数据错误时,根据接收的编辑指令对错误的所述映射配置数据进行校正,并存储校正后的所述映射配置数据。
在一种示例性实施例中,本发明实施例装置还包括更新模型单元,用于:
按照预设策略将判断出的准确的所述映射配置数据作为正样本,错误的所述映射配置数据作为负样本;
根据获得的所述正样本和所述负样本,对所述对标模型进行更新训练。
在一种示例性实施例中,获得映射配置数据后,本发明实施例装置可以应用大数据组件的存储及计算引擎,调用映射配置数据,按照国标和/或部标编写的数据标准化程序,通过数据标准化程序确定实体、实体属性、实体间的关系及实体轨迹信息,进行知识图谱的构建。应用大数据组件的存储和计算引擎,可以进一步提升数据处理效率,降低了构建知识图谱的时间。
本发明实施例通过在提取对标特征后,通过确定对标特征之间的对标关系建立了对标模型;对标准化数据,可以基于对标模型中包含的对标特征之间的对标关系进行自动对标处理;通过自动对标处理,降低了对标过程的时间消耗;通过自动对标,避免了对标错漏,提升了对标的准确率,降低了对操作人员业务能力的要求。进一步的,采用大数据组件的存储和计算引擎,进一步提升数据治理的速率。
与相关技术相比,本申请技术方案包括:获取预设数量的映射配置数据;对获取的映射配置数据进行特征提取,获得对标特征;根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;根据获得的对标模型对标准化数据进行自动对标处理;其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。本发明实施例提取对标特征后,基于对标特征训练获得对标模型,实现了标准化数据的自动对标,提升了对标速度和准确度。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练方法。
本发明实施例还提供一种终端,包括:存储器和处理器,所述存储中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
所述计算机程序被所述处理器执行时实现如上述模型训练方法。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述实现对标处理的方法。
本发明实施例还提供一种终端,包括:存储器和处理器,所述存储中保存有计算机程序;其中,
处理器被配置为执行存储器中的计算机程序;
所述计算机程序被所述处理器执行时实现如上述实现对标处理的方法。
“本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。”

Claims (10)

1.一种模型训练方法,包括:
获取预设数量的映射配置数据;
对获取的映射配置数据进行特征提取,获得对标特征;
根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;
其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。
2.根据权利要求1所述的模型训练方法,其特征在于,所述对获取的映射配置数据进行特征提取之后,所述模型训练方法还包括:
对获得的所述对标特征进行预处理;
所述预处理包括空值和/或异常值处理。
3.根据权利要求1或2所述的模型训练方法,其特征在于,所述根据映射配置数据对提取获得的对标特征进行训练,包括:
根据所述预设配置信息遍历确定对标特征之间的对标关系;
根据确定的所述对标特征之间的对标关系,获得用于自动对标的对标模型。
4.根据权利要求3所述的模型训练方法,其特征在于,所述根据所述预设配置信息遍历确定对标特征之间的映射关系,包括:
所述对标特征包括所述源表中文名和所述目标表中文名时,对每一个源表中文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表中文名对标的所有目标表中文名,建立当前源表中文名与所有对标的目标表的中文名之间的对标关系;
所述对标特征包括所述源表英文名和所述目标表英文名时,对每一个所述源表英文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表英文名对标的所有目标表英文名,建立当前源表英文名与所有对标的目标表的英文名之间的对标关系;
所述对标特征包括所述源表字段中文含义和所述目标表字段中文含义时,对每一个所述源表字段中文含义,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表字段中文含义对标的所有目标表字段中文含义,建立当前源表字段中文与所有对标的目标表字段中文含义之间的对标关系;
所述对标特征包括所述源表字段英文名和所述目标表字段英文名时,对每一个所述源表字段英文名,分别进行以下处理:根据所述预设配置信息,遍历确定与当前源表字段英文名对标的所有目标表字段英文名,建立当前源表字段英文名与所有对标的目标表字段英文名之间的对标关系。
5.根据权利要求3所述的模型训练方法,其特征在于,所述根据映射配置数据对提取获得的对标特征进行训练,包括:
由极端梯度提升XGBoost算法,根据所述映射配置数据遍历确定对标特征之间的对标关系;
根据确定的所述对标特征之间的对标关系,构建用于自动对标的对标模型。
6.一种实现对标处理的方法,包括:
获取预设数量的映射配置数据;
对获取的映射配置数据进行特征提取,获得对标特征;
根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;
根据获得的对标模型对标准化数据进行自动对标处理;
其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。
7.根据权利要求6所述的装置,其特征在于,所述对未对标的源数据进行自动对标处理后,所述方法还包括:
根据接收到的外部指令,判断自动对标处理获得的映射配置数据是否准确;
判断出所述映射配置数据准确时,存储准确的映射配置数据;
判断出所述映射配置数据错误时,根据接收的编辑指令对错误的所述映射配置数据进行校正,并存储校正后的所述映射配置数据。
8.根据权利要求7所述的方法,其特征在于,所述判断自动对标处理获得的映射配置数据是否准确后,所述方法还包括:
按照预设策略将判断出的准确的所述映射配置数据作为正样本,错误的所述映射配置数据作为负样本;
根据获得的所述正样本和所述负样本,对所述对标模型进行更新训练。
9.一种模型训练装置,包括:获取单元、特征提取单元及训练单元;其中,
获取单元用于:获取预设数量的映射配置数据;
特征提取单元用于:对获取的映射配置数据进行特征提取,获得对标特征;
训练单元用于:根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;
其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。
10.一种实现对标处理的装置,包括:获取单元、特征提取单元、训练单元及对标单元;其中,
获取单元用于:获取预设数量的映射配置数据;
特征提取单元用于:对获取的映射配置数据进行特征提取,获得对标特征;
训练单元用于:根据映射配置数据对提取获得的对标特征进行训练,获得用于自动对标的对标模型;
对标单元用于:根据获得的对标模型对标准化数据进行自动对标处理;
其中,所述对标特征包括以下一项或任意组合:源表中文名、目标表中文名、源表英文名、目标表英文名、源表字段中文含义、目标表字段中文含义、源表字段英文名、目标表字段英文名。
CN201911111324.1A 2019-11-14 2019-11-14 一种模型训练方法、装置、实现对标处理的方法及装置 Pending CN110955781A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911111324.1A CN110955781A (zh) 2019-11-14 2019-11-14 一种模型训练方法、装置、实现对标处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911111324.1A CN110955781A (zh) 2019-11-14 2019-11-14 一种模型训练方法、装置、实现对标处理的方法及装置

Publications (1)

Publication Number Publication Date
CN110955781A true CN110955781A (zh) 2020-04-03

Family

ID=69977264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911111324.1A Pending CN110955781A (zh) 2019-11-14 2019-11-14 一种模型训练方法、装置、实现对标处理的方法及装置

Country Status (1)

Country Link
CN (1) CN110955781A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199372A (zh) * 2020-09-24 2021-01-08 中国建设银行股份有限公司 映射关系匹配方法和装置以及计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787282A (zh) * 2016-03-24 2016-07-20 国家卫生计生委统计信息中心 一种医疗数据字典自动标准化的方法与系统
CN106484785A (zh) * 2016-09-19 2017-03-08 济南浪潮高新科技投资发展有限公司 一种高效的自动匹配数据字段映射的方法
CN109584975A (zh) * 2018-11-21 2019-04-05 金色熊猫有限公司 医疗数据标准化处理方法及装置
CN109783483A (zh) * 2018-12-29 2019-05-21 北京明略软件系统有限公司 一种数据整理的方法、装置、计算机存储介质及终端
WO2019148960A1 (zh) * 2018-02-05 2019-08-08 华为技术有限公司 一种数据分析装置、系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787282A (zh) * 2016-03-24 2016-07-20 国家卫生计生委统计信息中心 一种医疗数据字典自动标准化的方法与系统
CN106484785A (zh) * 2016-09-19 2017-03-08 济南浪潮高新科技投资发展有限公司 一种高效的自动匹配数据字段映射的方法
WO2019148960A1 (zh) * 2018-02-05 2019-08-08 华为技术有限公司 一种数据分析装置、系统及方法
CN109584975A (zh) * 2018-11-21 2019-04-05 金色熊猫有限公司 医疗数据标准化处理方法及装置
CN109783483A (zh) * 2018-12-29 2019-05-21 北京明略软件系统有限公司 一种数据整理的方法、装置、计算机存储介质及终端

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199372A (zh) * 2020-09-24 2021-01-08 中国建设银行股份有限公司 映射关系匹配方法和装置以及计算机可读介质

Similar Documents

Publication Publication Date Title
CN110083639B (zh) 一种基于聚类分析的数据血缘智能溯源的方法及装置
WO2020082579A1 (zh) 一种风险审批方法、装置、存储介质和服务器
US20160357789A1 (en) Repairing corrupted references
CN110852107A (zh) 一种关系提取方法、装置、及存储介质
CN110110320B (zh) 自动合同审查方法、装置、介质以及电子设备
CN111723728A (zh) 基于双向交互网络的行人搜索方法、系统、装置
CN112989990B (zh) 医疗票据识别方法、装置、设备及存储介质
CN111340584A (zh) 一种资金方的确定方法、装置、设备及存储介质
CN110955781A (zh) 一种模型训练方法、装置、实现对标处理的方法及装置
WO2021121019A1 (zh) 一种sim卡分配方法、装置、服务器和计算机可读存储介质
CN111274821B (zh) 一种命名实体识别数据标注质量评估方法及装置
CN113032258A (zh) 一种电子地图的测试方法、装置、电子设备及存储介质
CN111400282B (zh) 数据处理策略调整方法、装置、设备及存储介质
CN114721943A (zh) 测试范围的确定方法和装置
CN111651466B (zh) 数据采样方法及装置
US10908888B2 (en) Enhanceable cross-domain rules engine for unmatched registry entries filtering
CN110517010A (zh) 一种数据处理方法、系统及存储介质
CN111415749A (zh) 信息处理方法、信息处理装置和计算机可读存储介质
CN113382090B (zh) 一种基于异构数据的数据共享方法及系统
US20080307395A1 (en) Providing Registration of a Communication
CN112948403B (zh) 一种用于自动更新房源数据的方法和装置
CN114124738B (zh) 基于服务交互图的云环境服务故障概率计算方法、系统及终端
CN110246064B (zh) 一种事实关系确定方法及装置
CN114579677A (zh) 一种车辆驶入驶出区域的分析方法及装置、存储介质
CN116028633A (zh) 知识图谱校验方法、装置、设备、可读介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200403