CN110955805A - 一种基于映射关系的数据自动化处理方法 - Google Patents

一种基于映射关系的数据自动化处理方法 Download PDF

Info

Publication number
CN110955805A
CN110955805A CN201911309901.8A CN201911309901A CN110955805A CN 110955805 A CN110955805 A CN 110955805A CN 201911309901 A CN201911309901 A CN 201911309901A CN 110955805 A CN110955805 A CN 110955805A
Authority
CN
China
Prior art keywords
mapping
data
standard
mapping relation
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911309901.8A
Other languages
English (en)
Other versions
CN110955805B (zh
Inventor
刘朝
夏扬
杨莉美
谢晶晶
陈羽棋
欧燕林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Academy Of Big Data Co ltd
Original Assignee
Chongqing Academy Of Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Academy Of Big Data Co ltd filed Critical Chongqing Academy Of Big Data Co ltd
Priority to CN201911309901.8A priority Critical patent/CN110955805B/zh
Publication of CN110955805A publication Critical patent/CN110955805A/zh
Application granted granted Critical
Publication of CN110955805B publication Critical patent/CN110955805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于映射关系的数据自动化处理方法,S1:导入基础标准数据,并根据基础标准数据建立标准映射关系;S2:在标准映射关系的基础上自定义映射规则;S3:自动检测标准映射关系版本情况,根据分类映射等级颗粒度,对步骤S1标准映射关系和步骤S2中的自定义映射规则进行集合运算和文本匹配,自动生成新版标准映射关系的映射规则,并显示差异映射规则;S4:导入目标处理数据,目标处理数据基于自定义映射规则进行处理,自定义映射规则调用步骤S3中新版标准映射关系以及差异映射关系;S5:执行脚本处理,输出处理结果。

Description

一种基于映射关系的数据自动化处理方法
技术领域
本发明涉及信息技术相关领域,尤其涉及一种基于映射关系的数据自动化处理方法。
背景技术
在大数据时代,数据被称之为“数字经济的新石油”,为了让数据产生价值,需要高效地获取、处理、挖掘和应用数据。因此数据处理成为大数据产业的重要组成部分。
现阶段在数据处理时,映射关系分类众多,为了提高效率,一般处理规则不变情况下,会通过定时脚本自动处理,但是对于同一目标数据处理规则会随着基础标准的变化而改变,特别是涉及到基础标准之间有映射关系,层级较多,条目数量庞大,新配置映射规则成本太高
发明内容
针对上述现有技术的不足,本专利申请所要解决的技术问题是:如何提供一种效率高、输出结果准确的基于映射关系的数据自动化处理方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于映射关系的数据自动化处理方法,包括以下步骤:
S1:导入基础标准数据,并根据基础标准数据建立标准映射关系;
S2:在标准映射关系的基础上自定义映射规则;
S3:自动检测标准映射关系版本情况,根据分类映射等级颗粒度,对步骤S1标准映射关系和步骤S2中的自定义映射规则进行集合运算和文本匹配,自动生成新版标准映射关系的映射规则,并显示差异映射规则;
S4:导入目标处理数据,目标处理数据基于自定义映射规则进行处理,自定义映射规则调用步骤S3中新版标准映射关系以及差异映射关系;
S5:执行脚本处理,输出处理结果。
进一步的,在步骤S1和步骤S4中,导入的基础标准数据以及目标处理数据均为结构化或半结构化的数据库表,其中均必须包含描述映射左集合的字段以及数据库主键这两个字段。
进一步的,步骤S4中,差异映射关系为标准映射关系与自定义映射规则之间的差异表现,其中体现在:映射增加、映射减少、分类表述变化和映射转移。
进一步的,步骤S3中,进行自定义映射规则与标准映射关系的集合运算和文本匹配是采用以下算法:
Figure BDA0002324231370000021
A∩B={e|e∈A且e∈B}。
进一步的,步骤S3中,字符串A表示所述标准映射关系的所有分类条目的集合,字符串B表示所述自定义映射规则中所有分类条目的集合。
进一步的,还包括编辑距离算法,计算字符串A转化为字符串B所需要的最少操作数。
进一步的,步骤S1和步骤S4中将基础标准数据导入标准映射关系以及目标处理数据导入自定义映射规则中时,均将数据文件分为多个数据块,将所述数据块存储在数据服务器上,数据服务器对数据块进行处理、存储以及调用。
进一步的,步骤S5中执行脚本处理,形成数据item编码和映射结果字段,其中数据item编码和映射结果字段为结构化一对一映射的数据。
有益效果:
通过针对自定义映射规则与标准映射关系之间的差异化处理,使得在对目标数据进行处理时能够不断的调用标准映射时间,相较于全部重新自定义映射关系,提升了处理的效率,另外,在对目标数据处理时,相当于已经对目标数据中的部分数据以及映射关系进行了提前处理,前移了处理时间,同时使得标准映射关系得到不断地重用和更新;通过不断的使用过程中,在处理的数据结果中带有当前自定义映射规则的版本信息,能够实现数据回溯和对比。
附图说明:
图1为本发明所述基于映射关系的数据自动化处理方法的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种基于映射关系的数据自动化处理方法,包括以下步骤:
S1:导入基础标准数据,并根据基础标准数据建立标准映射关系;
S2:在标准映射关系的基础上自定义映射规则;
S3:自动检测标准映射关系版本情况,根据分类映射等级颗粒度,对步骤S1标准映射关系和步骤S2中的自定义映射规则进行集合运算和文本匹配,自动生成新版标准映射关系的映射规则,并显示差异映射规则;
S4:导入目标处理数据,目标处理数据基于自定义映射规则进行处理,自定义映射规则调用步骤S3中新版标准映射关系以及差异映射关系;
S5:执行脚本处理,输出处理结果。
本实施例中,在步骤S1和步骤S4中,导入的基础标准数据以及目标处理数据均为结构化或半结构化的数据库表,其中均必须包含描述映射左集合的字段以及数据库主键这两个字段。
这样,符合映射的基本规则和流程,便于对数据进行快速处理。
进一步的,步骤S4中,差异映射关系为标准映射关系与自定义映射规则之间的差异表现,其中体现在:映射增加、映射减少、分类表述变化和映射转移。
能够快速的表现出自定义映射规则与标准映射关系的差异,在对目标数据进行处理时,可以快速准确的进行差异映射关系的处理,避免复杂的重新全部自定义操作,提升了效率。
进一步的,步骤S3中,进行自定义映射规则与标准映射关系的集合运算和文本匹配是采用以下算法:
Figure BDA0002324231370000041
其中,集合差集运算可以计算出不同版本各粒度分类条目新增或删除项。
A∩B={e|e∈A且e∈B}。
其中,集合并运算可以计算不版本不同分类映射差异,显示前后版本映射变换(转移)。
进一步的,步骤S3中,字符串A表示所述标准映射关系的所有分类条目的集合,字符串B表示所述自定义映射规则中所有分类条目的集合。
进一步的,还包括编辑距离算法,计算字符串A转化为字符串B所需要的最少操作数。
进一步的,步骤S1和步骤S4中将基础标准数据导入标准映射关系以及目标处理数据导入自定义映射规则中时,均将数据文件分为多个数据块,将所述数据块存储在数据服务器上,数据服务器对数据块进行处理、存储以及调用。
进一步的,步骤S5中执行脚本处理,形成数据item编码和映射结果字段,其中数据item编码和映射结果字段为结构化一对一映射的数据。
有益效果:
通过针对自定义映射规则与标准映射关系之间的差异化处理,使得在对目标数据进行处理时能够不断的调用标准映射时间,相较于全部重新自定义映射关系,提升了处理的效率,另外,在对目标数据处理时,相当于已经对目标数据中的部分数据以及映射关系进行了提前处理,前移了处理时间,同时使得标准映射关系得到不断地重用和更新;通过不断的使用过程中,在处理的数据结果中带有当前自定义映射规则的版本信息,能够实现数据回溯和对比。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于映射关系的数据自动化处理方法,其特征在于,包括以下步骤:
S1:导入基础标准数据,并根据基础标准数据建立标准映射关系;
S2:在标准映射关系的基础上自定义映射规则;
S3:自动检测标准映射关系版本情况,根据分类映射等级颗粒度,对步骤S1标准映射关系和步骤S2中的自定义映射规则进行集合运算和文本匹配,自动生成新版标准映射关系的映射规则,并显示差异映射规则;
S4:导入目标处理数据,目标处理数据基于自定义映射规则进行处理,自定义映射规则调用步骤S3中新版标准映射关系以及差异映射关系;
S5:执行脚本处理,输出处理结果。
2.根据权利要求1所述的基于映射关系的数据自动化处理方法,其特征在于,在步骤S1和步骤S4中,导入的基础标准数据以及目标处理数据均为结构化或半结构化的数据库表,其中均必须包含描述映射左集合的字段以及数据库主键这两个字段。
3.根据权利要求2所述的基于映射关系的数据自动化处理方法,其特征在于,步骤S4中,差异映射关系为标准映射关系与自定义映射规则之间的差异表现,其中体现在:映射增加、映射减少、分类表述变化和映射转移。
4.根据权利要求3所述的基于映射关系的数据自动化处理方法,其特征在于,步骤S3中,进行自定义映射规则与标准映射关系的集合运算和文本匹配是采用以下算法:
Figure FDA0002324231360000011
A∩B={e|e∈A且e∈B}。
5.根据权利要求4所述的基于映射关系的数据自动化处理方法,其特征在于,步骤S3中,字符串A表示所述标准映射关系的所有分类条目的集合,字符串B表示所述自定义映射规则中所有分类条目的集合。
6.根据权利要求5所述的基于映射关系的数据自动化处理方法,其特征在于,还包括编辑距离算法,计算字符串A转化为字符串B所需要的最少操作数。
7.据权利要求6所述的基于映射关系的数据自动化处理方法,其特征在于,步骤S1和步骤S4中将基础标准数据导入标准映射关系以及目标处理数据导入自定义映射规则中时,均将数据文件分为多个数据块,将所述数据块存储在数据服务器上,数据服务器对数据块进行处理、存储以及调用。
8.据权利要求7所述的基于映射关系的数据自动化处理方法,其特征在于,步骤S5中执行脚本处理,形成数据item编码和映射结果字段,其中数据item编码和映射结果字段为结构化一对一映射的数据。
CN201911309901.8A 2019-12-18 2019-12-18 一种基于映射关系的数据自动化处理方法 Active CN110955805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911309901.8A CN110955805B (zh) 2019-12-18 2019-12-18 一种基于映射关系的数据自动化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911309901.8A CN110955805B (zh) 2019-12-18 2019-12-18 一种基于映射关系的数据自动化处理方法

Publications (2)

Publication Number Publication Date
CN110955805A true CN110955805A (zh) 2020-04-03
CN110955805B CN110955805B (zh) 2023-08-25

Family

ID=69982492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911309901.8A Active CN110955805B (zh) 2019-12-18 2019-12-18 一种基于映射关系的数据自动化处理方法

Country Status (1)

Country Link
CN (1) CN110955805B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046810A (zh) * 2006-05-26 2007-10-03 华为技术有限公司 自动建立关系模型的系统及其方法
CN102238593A (zh) * 2010-04-23 2011-11-09 中兴通讯股份有限公司 数据割接方法及装置
US20130297328A1 (en) * 2011-10-31 2013-11-07 General Electric Company Interface feed analyzer for code mapping
WO2015074467A1 (zh) * 2013-11-25 2015-05-28 腾讯科技(深圳)有限公司 一种数据更新方法、装置、系统及存储介质
WO2015196962A1 (en) * 2014-06-24 2015-12-30 Tencent Technology (Shenzhen) Company Limited Method and apparatus for detecting changed data
CN107220280A (zh) * 2017-04-19 2017-09-29 民政部国家减灾中心 基于区划映射的灾情信息采集上报方法及系统
CN109670177A (zh) * 2018-12-20 2019-04-23 翼健(上海)信息科技有限公司 一种基于lstm实现医学语义归一化的控制方法及控制装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046810A (zh) * 2006-05-26 2007-10-03 华为技术有限公司 自动建立关系模型的系统及其方法
WO2007137468A1 (fr) * 2006-05-26 2007-12-06 Huawei Technologies Co., Ltd. Procédé et système de création automatique de modèle relationnel
CN102238593A (zh) * 2010-04-23 2011-11-09 中兴通讯股份有限公司 数据割接方法及装置
US20130297328A1 (en) * 2011-10-31 2013-11-07 General Electric Company Interface feed analyzer for code mapping
WO2015074467A1 (zh) * 2013-11-25 2015-05-28 腾讯科技(深圳)有限公司 一种数据更新方法、装置、系统及存储介质
WO2015196962A1 (en) * 2014-06-24 2015-12-30 Tencent Technology (Shenzhen) Company Limited Method and apparatus for detecting changed data
CN107220280A (zh) * 2017-04-19 2017-09-29 民政部国家减灾中心 基于区划映射的灾情信息采集上报方法及系统
CN109670177A (zh) * 2018-12-20 2019-04-23 翼健(上海)信息科技有限公司 一种基于lstm实现医学语义归一化的控制方法及控制装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHIHLI HUNG;JIAN-JHE HUANG: "Mining rules from one-dimensional self-organizing maps" *
王钊: "基于启发式信息的多目标进化算法及其应用研究" *
黄刚,元满: "元数据驱动的异构数据模型双向映射策略" *

Also Published As

Publication number Publication date
CN110955805B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN111274391B (zh) 一种spo的抽取方法、装置、电子设备及存储介质
CN111522967B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN109992766B (zh) 提取目标词的方法和装置
US11030405B2 (en) Method and device for generating statement
CN105302803A (zh) 一种产品bom差异分析与同步更新方法
CN110019955A (zh) 一种视频标签标注方法及装置
CN107526721B (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN102122280A (zh) 一种智能提取内容对象的方法及系统
CN111209396A (zh) 实体识别模型的训练方法及实体识别方法、相关装置
CN112507098B (zh) 问题处理方法、装置、电子设备、存储介质及程序产品
CN110837568A (zh) 实体对齐方法及装置、电子设备、存储介质
CN110009045A (zh) 物联网终端的识别方法和装置
CN115309982A (zh) 一种结合知识图谱的用户画像构建方法
CN110347786A (zh) 一种语义模型的调优方法及系统
JP2009140258A (ja) 論理構造モデル作成支援プログラム、論理構造モデル作成支援装置および論理構造モデル作成支援方法
CN110765276A (zh) 知识图谱中的实体对齐方法及装置
CN112148735B (zh) 一种用于结构化表格数据知识图谱的构建方法
CN110955805A (zh) 一种基于映射关系的数据自动化处理方法
JP2018116701A (ja) 印鑑画像の処理装置、方法及び電子機器
US20090138474A1 (en) Method and apparatus for resorting a sequence of sorted strings
CN111339314A (zh) 一种三元组数据的生成方法、装置和电子设备
CN116228301A (zh) 一种目标用户的确定方法、装置、设备及介质
CN105512270A (zh) 一种确定相关对象的方法和装置
CN104765800A (zh) 一种基于大数据的高效搜索方法
CN114461886A (zh) 一种标注方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant