CN113343646B - 数据转换方法和装置 - Google Patents

数据转换方法和装置 Download PDF

Info

Publication number
CN113343646B
CN113343646B CN202110688026.XA CN202110688026A CN113343646B CN 113343646 B CN113343646 B CN 113343646B CN 202110688026 A CN202110688026 A CN 202110688026A CN 113343646 B CN113343646 B CN 113343646B
Authority
CN
China
Prior art keywords
conversion
target
rule
data
target conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110688026.XA
Other languages
English (en)
Other versions
CN113343646A (zh
Inventor
徐鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN202110688026.XA priority Critical patent/CN113343646B/zh
Publication of CN113343646A publication Critical patent/CN113343646A/zh
Application granted granted Critical
Publication of CN113343646B publication Critical patent/CN113343646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

说明书披露一种数据转换方法和装置。本说明书实施例中,将用户输入的数据转换逻辑文本输入已训练的规则生成模型,然后根据该规则生成模型输出的转换规则向量、转换参数向量和匹配矩阵,得到与该数据转换逻辑文本对应的若干目标转换规则、以及目标转换规则对应的目标转换参数,从而可以基于该目标转换规则和目标转换参数对目标数据进行数据转换。由此,用户只需要输入自然语言形式的数据转换逻辑文本,无需按照编写规范进行手工编写,既节约人力,也提高了数据转换的效率。

Description

数据转换方法和装置
技术领域
本说明书涉及大数据领域,尤其涉及一种数据转换方法和装置。
背景技术
在数据管理的相关技术中,通常涉及将源端的数据处理后再保存到目的端的情况。例如,源端可以是企业中多个部门各自的数据表,目的端可以是该企业的总数据库,为了进行统一管理和数据分析,可以将各部门各自数据表中的数据处理后再保存到总数据库中。
上述数据处理流程可以被称为ETL(Extract-Transform-Load,抽取-转换-加载),即将数据从源端经过抽取、转换、加载至目的端的过程。
一般的,用户可以向进行数据管理的平台指定转换逻辑,然后该平台根据该指定的转换逻辑从源端抽取到的源数据;再进行数据转换,比如针对源端的数据表或数据进行数据类型转换、数据替换等;再将转换后的数据输出到目的端。
然而,进行数据管理的平台对转换逻辑的格式有较为严格的规范,只能识别指定格式的转换逻辑。在相关技术中,用户可以手工编写能被平台识别的转换逻辑,但用户手工编写效率低,既浪费时间,也浪费人力。
发明内容
有鉴于此,本说明书提供一种数据转换方法和装置。
具体地,本说明书是通过如下技术方案实现的:
根据本申请的第一方面,提供一种数据转换方法,所述方法包括:
获取用户输入的针对目标数据的数据转换逻辑文本;
将所述数据转换逻辑文本作为入参输入已训练的规则生成模型,得到所述规则生成模型输出的转换规则向量、转换参数向量和匹配矩阵;
基于所述转换规则向量确定所述数据转换逻辑文本对应的若干目标转换规则;
基于所述匹配矩阵和所述转换参数向量,确定各目标转换规则对应的目标转换参数;
基于所述若干目标转换规则和各目标转换规则对应的目标转换参数对所述目标数据进行数据转换。
根据本申请的第二方面,提供一种数据转换装置,所述装置包括:
文本获取单元,用于获取用户输入的针对目标数据的数据转换逻辑文本;
结果获取单元,用于将所述数据转换逻辑文本作为入参输入已训练的规则生成模型,得到所述规则生成模型输出的转换规则向量、转换参数向量和匹配矩阵;
规则确定单元,用于基于所述转换规则向量确定所述数据转换逻辑文本对应的若干目标转换规则;
参数确定单元,用于基于所述匹配矩阵和所述转换参数向量,确定各目标转换规则对应的目标转换参数;
转换执行单元,用于基于所述若干目标转换规则和各目标转换规则对应的目标转换参数对所述目标数据进行数据转换。
根据本申请的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如第一方面所述的方法。
根据本申请的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述的方法。
本说明书一个实施例实现了,将用户输入的数据转换逻辑文本输入已训练的规则生成模型,然后根据该规则生成模型输出的转换规则向量、转换参数向量和匹配矩阵,得到与该数据转换逻辑文本对应的若干目标转换规则、以及目标转换规则对应的目标转换参数,从而可以基于该目标转换规则和目标转换参数对目标数据进行数据转换。由此,用户只需要输入自然语言形式的数据转换逻辑文本,无需按照编写规范进行手工编写,既节约人力,也提高了数据转换的效率。
附图说明
图1是本说明书一示例性实施例示出的一种应用场景示意图。
图2是本说明书一示例性实施例示出的一种数据转换方法的流程示意图。
图3是本说明书一示例性实施例示出的另一种数据转换方法的流程示意图。
图4是本说明书一示例性实施例示出的一种用于数据转换装置的一结构示意图。
图5是本说明书一示例性实施例示出的一种数据转换装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
参见图1,图1是本说明书一示例性实施例示出的一种应用场景示意图,图中数据平台即进行数据管理的平台。在一个实施例中,该数据平台可以包括源端、处理模块、目的端,该源端、处理模块和目的端可以处于同一电子设备,或者也可以处于不同电子设备,其中,处理模块可以从源端抽取数据,然后对抽取到的数据进行处理,并将处理后的数据输出到目的端。
在相关技术中,用户通常可以手工编写转换逻辑,供处理模块进行数据处理。但处理模块对转换逻辑的编写规范要求较高,需要其符合一定的格式要求,导致手工编写效率较低,既浪费时间,也浪费人力。
有鉴于此,本申请提出了一种数据转换方法,利用规则生成模型从数据转换逻辑文本中获取若干目标转换规则和目标转换参数,然后基于该目标转换规则和目标转换参数进行数据转换。
参见图2,图2是本说明书一示例性实施例示出的一种数据转换方法的流程示意图。在一个实施例中,该数据转换方法可以应用于图1所示的数据平台中的处理模块。
如图2所示,该方法包括以下步骤:
步骤S201:获取用户输入的针对目标数据的数据转换逻辑文本。
其中,目标数据可以是若干个数据表、或者数据表中的指定数据,例如数据表中的若干个行、若干个列、符合指定条件的数据等。
在一个实施例中,数据转换逻辑文本中可以包括若干个目标转换规则、以及目标转换规则对应的目标转换参数。
例如数据转换逻辑文本可以为“对表A进行去重操作后输出到表B”、“对表A增加一列常量1和一列系统时间并输出到表B”等。
其中,目标转换规则可以是显式地携带在该数据转换逻辑文本中,例如转换逻辑文本中包含该目标转换规则文本,也可以是隐式地携带,例如该转换逻辑文本中没有包含该目标转换规则文本,但隐藏指示了这一含义。例如针对“对表A的责任人身份编码列进行标准化处理”这一转换逻辑,目标转换规则包括隐式携带的目标数据的“源位置”、以及显示携带的“标准化处理”。
目标转换规则可以对应有目标转换参数,或者也可以不对应。在上述例子中,“源位置”对应的目标转换参数可以为“表A的责任人身份编码列”,“标准化处理”不与目标转换参数对应。
在一个实施例中,数据平台可以通过多种方式来获取用户输入的数据转换逻辑文本。举例来说,数据平台可以通过客户端向用户展示可视化界面,例如可以展示文本输入框,供用户输入转换逻辑文本;或者也可以展示语音输入框,供用户输入转换逻辑语音,继而数据平台可以通过语音识别等方法将该语音转换为文本。
或者,数据平台还可以获取包含数据转换逻辑文本的表格、文本文档等,然后从中解析出数据转换逻辑文本等。这里只是示例性说明,数据平台还可以通过其他方式来获取数据转换逻辑文本,本实施例不进行限定。
步骤S202:将所述数据转换逻辑文本作为入参输入已训练的规则生成模型,得到所述规则生成模型输出的转换规则向量、转换参数向量和匹配矩阵。
在一个实施例中,数据平台可以直接获取已训练好的模型,或者可以预先自行训练规则生成模型。
下面对“训练规则生成模型”的方法做简要介绍:
数据平台可以预先获取大量标准形式的数据转换逻辑、以及该标准数据转换逻辑对应的数据转换逻辑文本。可以理解的是,该标准形式的数据转换逻辑可以被数据平台识别,例如可以包括目标转换规则和目标转换参数的对应关系,而数据转换逻辑文本用户输入的自然语言形式的文本,显式或隐式携带目标转换规则和目标转换参数。
例如,数据平台可以从历史已执行的数据转换中获取标准形式的数据转换逻辑,然后在对应的备注信息、设计文档等中查找用户输入的数据转换逻辑文本,以及再进一步人工审核筛选等,形成标准形式的数据转换逻辑与数据转换逻辑文本的对应关系。
基于该对应关系,数据平台可以将标准形式的数据转换逻辑作为数据转换逻辑文本对应的真值标签,然后对默认参数的规则生成模型进行训练。可选地,该默认参数的规则生成模型可以是基于BERT(Bidirectional Encoder Representations fromTransformers,基于转换器的双向编码表征)模型架构的。在模型训练时,可以将数据转换逻辑文本作为入参输入该模型,将对应的输出结果与真值标签比较,计算损失并更新模型参数,多次迭代,直到损失满足预设条件结束训练,得到训练后的规则生成模型。
可选的,数据平台还可以对该训练后的规则生成模型再进行微调训练,举例来说,可以采用fine-tuning方式进行微调,在上述训练后的规则生成模型的基础上,加入少量的特定任务参数,例如对于分类问题在语言模型基础上加一层softmax网络,然后在新的数据(例如未使用过的标准形式的数据转换逻辑与数据转换逻辑文本的对应关系)上重新训练来进行微调。
当然,上述对模型训练过程的描述只是简要说明,具体方法可以参考相关技术,这里不再赘述。
在一个实施例中,数据平台可以将数据转换逻辑文本输入已训练的规则生成模型,得到的输出结果,该输出结果包括转换规则向量、转换参数向量和匹配矩阵。
在一个实施例中,规则生成模型可以对应一个转换规则集合,该转换规则集合中包括数据转换所涉及的所有转换规则,或者常用的多条转换规则。由此,规则生成模型输出的转换规则向量与该转换规则集合对应,转换规则向量中的每个元素分别对应转换规则集合中的一条转换规则。在一个例子中,转换规则向量中元素的顺序与转换规则在转换规则集合中的顺序一致。
在一个实施例中,转换参数向量中包括输入的数据转换逻辑文本中的各个转换参数,例如对于“对表A的责任人身份编码列进行标准化处理后输出到表C”这一数据转换逻辑文本,转换参数可以包括“表A的责任人身份编码列”、“表C”,则可以将该两个转换参数添加到转换参数向量中。
在一个实施例中,匹配矩阵可以用于指示目标转换规则与转换参数向量中的各个转换参数之间是否存在匹配关系,从而数据平台可以根据该匹配矩阵,确定目标转换规则对应的目标转换参数。
步骤S203:基于所述转换规则向量确定所述数据转换逻辑文本对应的若干目标转换规则。
在一个实施例中,转换规则向量可以对应预设的转换规则集合,转换规则向量中的每个元素分别对应转换规则集合中的一条转换规则。例如,转换规则向量中每个元素所在的顺序,可以与该元素对应的转换规则,在转换集合中的顺序一致。
在一个实施例中,转换规则向量中每个元素的取值,可以指示该元素对应的转换规则是否为目标转换规则,即转换逻辑文本中是否对应该转换规则。
例如,若该元素的取值符合第一条件,例如取值为指定值(例如0),则表示该元素对应的转换规则不为目标转换规则;若该元素的取值符合第二条件,例如取值为非指定值(例如非0),则表示该元素对应的转换规则为目标转换规则。或者也可以将取值为指定值,例如1的元素对应的转换规则确定目标转换规则。
基于此,数据平台可以依次确定转换规则向量中每个元素的取值,针对每个元素,若该元素的取值符合第二条件,则确定该元素在转换规则向量中的顺序(例如顺序为n),然后再在转换规则集合中查找与该顺序一致的转换规则(例如顺序为n的转换规则),由此,数据平台可以确定该转换规则为目标转换规则。
步骤S204:基于所述匹配矩阵和所述转换参数向量,确定各目标转换规则对应的目标转换参数。
在一个实施例中,规则生成模型输出的转换参数向量中,可以包括与目标转换规则对应的目标转换参数。
在一个实施例中,每个目标转换规则可以对应目标转换参数、或者也可以不与目标转换参数对应。例如对于目标转换规则“常量增加”,其对应的目标转换参数可以是一个常量;或者对于目标转换规则“随机数”,可以不与目标转换参数对应。
在一个实施例中,数据转换逻辑文本所对应的若干个目标转换规则,分别对应的目标转换参数可以相同、或者也可以不同,本实施例不进行限定。
在一个实施例中,匹配矩阵中的各元素的取值分别用于指示每个目标转换规则与每个转换参数之间是否存在匹配关系。若元素的取值符合预设条件,则可以确定根据该元素确定目标转换规则和目标转换参数对应。
根据匹配矩阵确定目标转换规则对应的目标转换参数的方法在下文中结合图3进行说明,这里暂不赘述。
在一个实施例中,用户可以指示目标数据的源位置标识、以及目标数据转换后的目的位置标识,该两个位置标识可以包括在用户输入的数据转换逻辑文本中。基于此,规则生成模型可以根据该数据转换逻辑文本,解析并输出目标数据的源位置标识、和目标数据转换后的目的位置标识。
后续,数据平台在执行数据转换时,可以根据该源位置标识从所述源位置获取所述目标数据,以及根据目的位置标识将转换后的目标数据输出到所述目的位置。
举例来说,对于“对表A的责任人身份编码列进行标准化处理后输出到表C”这一数据转换逻辑文本,规则生成模型可以输出源位置标识为“表A的责任人身份编码列”,输出目的位置标识为“表C”,也就是说,在执行数据转换时,获取“表A的责任人身份编码列”中的数据,并将转换后的数据输出到“表C”。
在一个实施例中,规则生成模型在实现对上述源位置标识和目的位置标识的输出时,可以将源位置和目的位置作为转换规则输出到转换规则向量中,将源位置标识和目的位置标识作为转换参数输出到所述转换参数向量中。
针对源位置作为目标转换规则。该目标转换规则可以直接为“源位置”,或者也可以详细的说明为“从源位置获取输入数据”等,可以理解的是,本实施例不对目标转换规则的具体表达进行限制,只要目标转换规则可以指示对应的目标转换参数为源位置即可(可以将该目标转换规则理解为对目标转换参数的说明)。与该目标转换规则对应的目标转换参数为源位置的标识,例如上述“表A的责任人身份编码列”。
针对目的位置作为目标转换规则。该目标转换规则可以直接为“目的位置”,或者也可以详细的说明为“向目的位置输出数据”等,可以理解的是,本实施例不对目标转换规则的具体表达进行限制,只要目标转换规则可以指示对应的目标转换参数为目的位置即可(可以将该目标转换规则理解为对目标转换参数的说明)。与该目标转换规则对应的目标转换参数为目的位置的标识,例如上述“表C”。
需要说明的是,上述实施例只是示例性说明。在实际应用中,源位置标识和目的位置标识还可以通过其他方式来输出,例如用户不在数据转换逻辑文本中携带该两个位置标识,而是单独进行指定;或者规则生成模型也可以不将该两个位置以及对应的位置标识作为目标转换规则和目标转换参数输出,而是直接通过其他方式输出,例如单独输出源位置标识和目的位置标识等。本实施例不进行限定。
步骤S205:基于所述若干目标转换规则和各目标转换规则对应的目标转换参数对所述目标数据进行数据转换。
在一个实施例中,数据平台确定数据转换逻辑文本对应的目标转换规则、以及对应的目标转换参数,可以将该目标转换规则以及对应的目标转换参数确定为标准形式的转换逻辑,也就是数据平台可以识别的转换逻辑,从而数据平台可以基于该转换逻辑对目标数据进行转换。
在一个实施例中,数据平台可以分别执行该若干目标转换规则,若该目标转换规则具有对应的目标转换参数,则根据该目标转换参数来执行目标转换规则。
需要说明的是,针对上述步骤,数据平台在根据步骤S201-S202得到转换规则向量、转换参数向量和匹配矩阵后,可以在同一电子设备上继续执行步骤S203-步骤S205,以进行数据转换;或者可以在同一电子设备继续执行步骤S203-步骤S204,然后将得到的目标转换规则和目标转换参数发送给其他电子设备,以由该电子设备执行步骤S205进行数据转换;或者还可以将该转换规则向量、转换参数向量和匹配矩阵发送给其他电子设备,以由该电子设备执行步骤S203-步骤S205进行数据转换等。总之,本实施例所示的方法可以由同一电子设备执行,或者也可以由多个电子设备执行,具体根据实际需求而定,本实施例不进行限定。
根据图2所示的实施例,数据平台可以将用户输入的数据转换逻辑文本输入已训练的规则生成模型,然后根据该规则生成模型输出的转换规则向量、转换参数向量和匹配矩阵,得到与该数据转换逻辑文本对应的若干目标转换规则、以及目标转换规则对应的目标转换参数,从而可以基于该目标转换规则和目标转换参数对目标数据进行数据转换。由此,用户只需要输入自然语言形式的转换逻辑文本,无需按照编写规范进行手工编写,既节约人力,也提高了数据转换的效率。
在一个实施例中,数据转换逻辑文本可以对应多个目标转换规则,还可以利用规则生成模型确定每个目标转换规则的执行顺序。
在一个实施例中,数据平台可以基于所述转换规则向量确定各目标转换规则的执行顺序。举例来说,转换规则向量中的各个元素分别与预设的转换规则集合中的转换规则对应,若该元素的取值符合预设条件,则该元素的取值还可以进一步指示该目标转换规则的执行顺序,例如该取值直接为执行顺序。
在一个实施例中,在确定各个目标转换规则的执行顺序后,数据平台可以按照各目标转换规则的执行顺序依次进行数据转换。在一个例子中,数据平台可以串行执行各目标转换规则,即在执行目标转换规则时,除了首次执行目标转换规则外,均对经上一次执行处理后的数据再执行目标转换规则,而不是各目标转换均对相同的数据进行处理。
下面结合一个具体的实施例来进行说明:
假设预设的转换规则集合为{源位置,目的位置,常量增加,标准化处理,对称加密,随机数,系统信息添加}。以数据转换逻辑文本为“对表A的责任人身份编码列进行标准化处理后输出到表C”为例,规则生成模型输出的转换规则向量可以为{1,3,0,2,0,0,0,},其中,该向量中的第一个元素“1”与转换规则集合中的“源位置”对应,执行顺序为1;向量中的第二个元素“3”与转换规则集合中的“目的位置”对应,执行顺序为3;向量中的第四个元素“2”与转换规则集合中的“标准化处理”对应,执行顺序为2。向量中的其他元素分别与其他转换规则对应,其取值为0,表示数据转换逻辑文本不与该几个转换规则对应,这里不再赘述。
该数据转换逻辑文本对应的目标转换规则和目标转换参数可以如表1所示:
执行顺序 目标转换规则 目标转换参数
1 源位置 表A的责任人身份编码列
2 标准化处理 /
3 目的位置 表C
表1
以表1为例,数据平台首先可以获取表A的责任人身份编码列,然后对该身份编码列中的数据进行标准化处理,继而将该标准化处理后的责任人身份编码列输出到表C。
下面结合图3来介绍“确定各目标转换规则对应的目标转换参数”的方法。
在一个实施例中,规则生成模型输出的匹配矩阵中各列与各目标转换规则一一对应;所述匹配矩阵中各行与所述转换参数向量中的各目标转换参数一一对应;所述匹配矩阵中的各元素的取值用于指示该元素对应的目标转换规则与目标转换参数之间是否存在匹配关系。
参见图3,图3是本说明书一示例性实施例示出的另一种数据转换方法的流程示意图。
如图3所示,针对每个所述目标转换规则,确定目标转换参数的方法可以包括如下步骤:
步骤S2041:基于该目标转换规则的执行顺序,在所述匹配矩阵中查找与该执行顺序对应的列。
在一个实施例中,匹配矩阵中各列与各目标转换规则一一对应。该对应关系可以是通过目标转换规则的执行顺序来确定的,即目标转换规则的执行顺序与其对应的列的位置顺序匹配。例如,若目标转换规则的执行顺序为1,则该目标转换规则与匹配矩阵中的第1列元素对应;目标转换规则的执行顺序为2,则该目标转换规则与匹配矩阵中的第2列元素对应等。
当然,上述实施例只是示例性说明,还可以通过其他方法来确定对应关系。例如,该对应关系也可以是通过目标转换规则对应的转换规则向量中的元素顺序来确定的,在根据转换规则向量确定目标转换规则后,按照目标转换规则对应的元素在向量中的先后顺序排序,然后再按照该排序后的顺序从前到后分别与匹配矩阵中的各列一一对应。
步骤S2042:在所查找到的列中,基于元素取值定位出与所述目标转换规则存在匹配关系的目标转换参数的位置。
在一个实施例中,匹配矩阵中各行与所述转换参数向量中的各目标转换参数一一对应。也就是说,针对步骤S2041所查找到的列,该列中的每一个元素分别对应一个目标转换参数,该元素的取值用于指示该元素对应的目标转换规则与目标转换参数之间是否存在匹配关系。
举例来说,若元素的取值为第一预设值(例如0),则确定目标转换规则与目标转换参数不存在对应关系;若元素的取值不为第二预设值(例如1),则确定目标转换规则与目标转换参数存在对应关系。
针对查找到的列,数据平台可以按照行顺序依次确定该列中每个元素的取值,然后若该元素的取值为第一预设值,则确定该元素对应的目标转换参数与目标转换规则对应。
步骤S2043:基于所述目标转换参数的位置,在所述转换参数向量中确定所述目标转换规则对应的目标转换参数。
在一个实施例中,匹配矩阵中各行与各目标转换参数的对应关系,可以是通过目标转换参数在转换参数向量中的位置来确定的,例如目标转换参数在转换参数向量中的位置顺序,与该目标转换参数对应的行的顺序一致。
例如,转换参数向量中包括3个目标转换参数,该3个目标转换参数按位置的先后顺序分别对应匹配矩阵中的第一行、第二行和第三行。
由此,基于步骤S2042中取值为第一预设值的元素,可以确定该元素所在的行数,然后在转换参数向量中查找位置顺序与该行数一致的目标转换参数。举例来说,若确定元素所在的行数为1,则可以确定目标转换规则对应的目标转换参数在转换参数向量中的顺序为1。
下面数据转换逻辑文本为“对表A的责任人身份编码列进行标准化处理后输出到表C”为例来进行具体介绍。
在该实施例中,转换规则集合为{源位置,目的位置,常量增加,标准化处理,对称加密,随机数,系统信息添加},则规则生成模型输出的转换规则向量可以为{1,3,0,2,0,0,0,}。
规则生成模型输出的转换参数集合可以为{表A的责任人身份编码列,表C}。
规则生成模型输出的匹配矩阵可以为:
该匹配矩阵中各列与各目标转换规则一一对应;所述匹配矩阵中各行与所述转换参数向量中的各目标转换参数一一对应。为便于理解,该对应关系可以如表2所示:
表2
如表2所示,矩阵每一列与按执行顺序排序的目标转换规则一一对应;矩阵的每一行与按在转换参数向量中位置顺序排序的目标转换参数一一对应。
针对“源位置”这一目标转换规则,对应匹配矩阵中的第1列,该第1列中的第1个元素取值为1,则可以确定“源位置”与转换参数向量中的第1个目标转换参数(即“表A的责任人身份编码列”)对应;针对“标准化处理”这一目标转换规则,对应匹配矩阵中的第2列,该第2列中各个元素取值均为0,则可以确定没有预支对应的目标转换参数;针对“目的位置”这一目标转换规则,对应匹配矩阵中的第3列,该第3列中的第2个元素取值为1,则可以确定“目的位置”与转换参数向量中的第2个目标转换参数(即“表C”)对应。
至此,可以确定各目标转换规则对应的目标转换参数,后续数据平台可以根据若干目标转换规则和各目标转换规则对应的目标转换参数来对目标数据进行数据转换。
在一个实施例中,匹配矩阵与目标转换规则和目标转换参数的对应关系,也可以是匹配矩阵中各行与各目标转换规则一一对应;匹配矩阵中各列与各目标转换规则一一对应。在此基础上,确定各目标转换规则对应的目标转换参数的方法可以参考图3所示实施例进行适应性的修改,这里不再赘述。
与前述数据转换方法的实施例相对应,本说明书还提供了数据转换装置的实施例。
本说明书数据转换装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本说明书数据转换装置所在电子设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。
图5是本说明书一示例性实施例示出的一种数据转换装置的框图。
请参考图5,所述数据转换装置500可以应用在前述图4所示的电子设备中,包括有:
文本获取单元501,用于获取用户输入的针对目标数据的数据转换逻辑文本;
结果获取单元502,用于将所述数据转换逻辑文本作为入参输入已训练的规则生成模型,得到所述规则生成模型输出的转换规则向量、转换参数向量和匹配矩阵;
规则确定单元503,用于基于所述转换规则向量确定所述数据转换逻辑文本对应的若干目标转换规则;
参数确定单元504,用于基于所述匹配矩阵和所述转换参数向量,确定各目标转换规则对应的目标转换参数;
转换执行单元505,用于基于所述若干目标转换规则和各目标转换规则对应的目标转换参数对所述目标数据进行数据转换。
可选的,所述装置还包括:顺序确定单元506,用于基于所述转换规则向量确定各目标转换规则的执行顺序;
其中,可选的,所述转换执行单元505,具体用于:按照各目标转换规则的执行顺序依次进行数据转换。
可选的,所述匹配矩阵中各列与各目标转换规则一一对应;所述匹配矩阵中各行与所述转换参数向量中的各目标转换参数一一对应;所述匹配矩阵中的各元素的取值用于指示该元素对应的目标转换规则与目标转换参数之间是否存在对应关系;
所述参数确定单元504,具体用于:
针对每个所述目标转换规则:
基于该目标转换规则的执行顺序,在所述匹配矩阵中查找与该执行顺序对应的列;
在所查找到的列中,基于元素取值定位出与所述目标转换规则存在对应关系的目标转换参数的位置;
基于所述目标转换参数的位置,在所述转换参数向量中确定所述目标转换规则对应的目标转换参数。
可选的,所述规则生成模型还用于输出目标数据的源位置标识以及目标数据转换后的目的位置标识;
其中,所述源位置标识用于指示从所述源位置获取所述目标数据;所述目的位置标识用于指示将转换后的目标数据输出到所述目的位置。
可选的,所述规则生成模型用于将源位置和目的位置作为目标转换规则输出到转换规则向量中,将源位置标识和目的位置标识作为目标转换参数输出到所述转换参数向量中。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述数据转换方法的实施例相对应,本说明书还提供一种电子设备,该电子设备包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与数据转换逻辑对应的机器可执行指令,所述处理器被促使:
获取用户输入的针对目标数据的数据转换逻辑文本;
将所述数据转换逻辑文本作为入参输入已训练的规则生成模型,得到所述规则生成模型输出的转换规则向量、转换参数向量和匹配矩阵;
基于所述转换规则向量确定所述数据转换逻辑文本对应的若干目标转换规则;
基于所述匹配矩阵和所述转换参数向量,确定各目标转换规则对应的目标转换参数;
基于所述若干目标转换规则和各目标转换规则对应的目标转换参数对所述目标数据进行数据转换。
可选的,所述处理器还被促使:
基于所述转换规则向量确定各目标转换规则的执行顺序;
所述基于所述若干目标转换规则和各目标转换规则对应的目标转换参数对所述目标数据进行数据转换,包括:
按照各目标转换规则的执行顺序依次进行数据转换。
可选的,所述匹配矩阵中各列与各目标转换规则一一对应;所述匹配矩阵中各行与所述转换参数向量中的各目标转换参数一一对应;所述匹配矩阵中的各元素的取值用于指示该元素对应的目标转换规则与目标转换参数之间是否存在对应关系;
所述基于所述匹配矩阵和所述转换参数向量,确定各目标转换规则对应的目标转换参数,包括:
针对每个所述目标转换规则:
基于该目标转换规则的执行顺序,在所述匹配矩阵中查找与该执行顺序对应的列;
在所查找到的列中,基于元素取值定位出与所述目标转换规则存在对应关系的目标转换参数的位置;
基于所述目标转换参数的位置,在所述转换参数向量中确定所述目标转换规则对应的目标转换参数。
可选的,所述规则生成模型还用于输出目标数据的源位置标识以及目标数据转换后的目的位置标识;
其中,所述源位置标识用于指示从所述源位置获取所述目标数据;所述目的位置标识用于指示将转换后的目标数据输出到所述目的位置。
可选的,所述规则生成模型用于将源位置和目的位置作为目标转换规则输出到转换规则向量中,将源位置标识和目的位置标识作为目标转换参数输出到所述转换参数向量中。
与前述数据转换方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取用户输入的针对目标数据的数据转换逻辑文本;
将所述数据转换逻辑文本作为入参输入已训练的规则生成模型,得到所述规则生成模型输出的转换规则向量、转换参数向量和匹配矩阵;
基于所述转换规则向量确定所述数据转换逻辑文本对应的若干目标转换规则;
基于所述匹配矩阵和所述转换参数向量,确定各目标转换规则对应的目标转换参数;
基于所述若干目标转换规则和各目标转换规则对应的目标转换参数对所述目标数据进行数据转换。
可选的,所述步骤还包括:
基于所述转换规则向量确定各目标转换规则的执行顺序;
所述基于所述若干目标转换规则和各目标转换规则对应的目标转换参数对所述目标数据进行数据转换,包括:
按照各目标转换规则的执行顺序依次进行数据转换。
可选的,所述匹配矩阵中各列与各目标转换规则一一对应;所述匹配矩阵中各行与所述转换参数向量中的各目标转换参数一一对应;所述匹配矩阵中的各元素的取值用于指示该元素对应的目标转换规则与目标转换参数之间是否存在对应关系;
所述基于所述匹配矩阵和所述转换参数向量,确定各目标转换规则对应的目标转换参数,包括:
针对每个所述目标转换规则:
基于该目标转换规则的执行顺序,在所述匹配矩阵中查找与该执行顺序对应的列;
在所查找到的列中,基于元素取值定位出与所述目标转换规则存在对应关系的目标转换参数的位置;
基于所述目标转换参数的位置,在所述转换参数向量中确定所述目标转换规则对应的目标转换参数。
可选的,所述规则生成模型还用于输出目标数据的源位置标识以及目标数据转换后的目的位置标识;
其中,所述源位置标识用于指示从所述源位置获取所述目标数据;所述目的位置标识用于指示将转换后的目标数据输出到所述目的位置。
可选的,所述规则生成模型用于将源位置和目的位置作为目标转换规则输出到转换规则向量中,将源位置标识和目的位置标识作为目标转换参数输出到所述转换参数向量中。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (12)

1.一种数据转换方法,其特征在于,所述方法包括:
获取用户输入的针对目标数据的数据转换逻辑文本;
将所述数据转换逻辑文本作为入参输入已训练的规则生成模型,得到所述规则生成模型输出的转换规则向量、转换参数向量和匹配矩阵;
基于所述转换规则向量确定所述数据转换逻辑文本对应的若干目标转换规则;
基于所述匹配矩阵和所述转换参数向量,确定各目标转换规则对应的目标转换参数;
基于所述若干目标转换规则和各目标转换规则对应的目标转换参数对所述目标数据进行数据转换。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述转换规则向量确定各目标转换规则的执行顺序;
所述基于所述若干目标转换规则和各目标转换规则对应的目标转换参数对所述目标数据进行数据转换,包括:
按照各目标转换规则的执行顺序依次进行数据转换。
3.根据权利要求2所述的方法,其特征在于,所述匹配矩阵中各列与各目标转换规则一一对应;所述匹配矩阵中各行与所述转换参数向量中的各目标转换参数一一对应;所述匹配矩阵中的各元素的取值用于指示该元素对应的目标转换规则与目标转换参数之间是否存在对应关系;
所述基于所述匹配矩阵和所述转换参数向量,确定各目标转换规则对应的目标转换参数,包括:
针对每个所述目标转换规则:
基于该目标转换规则的执行顺序,在所述匹配矩阵中查找与该执行顺序对应的列;
在所查找到的列中,基于元素取值定位出与所述目标转换规则存在对应关系的目标转换参数的位置;
基于所述目标转换参数的位置,在所述转换参数向量中确定所述目标转换规则对应的目标转换参数。
4.根据权利要求1所述的方法,其特征在于,所述规则生成模型还用于输出目标数据的源位置标识以及目标数据转换后的目的位置标识;
其中,所述源位置标识用于指示从所述源位置获取所述目标数据;所述目的位置标识用于指示将转换后的目标数据输出到所述目的位置。
5.根据权利要求4所述的方法,其特征在于,所述规则生成模型用于将源位置和目的位置作为目标转换规则输出到转换规则向量中,将源位置标识和目的位置标识作为目标转换参数输出到所述转换参数向量中。
6.一种数据转换装置,其特征在于,所述装置包括:
文本获取单元,用于获取用户输入的针对目标数据的数据转换逻辑文本;
结果获取单元,用于将所述数据转换逻辑文本作为入参输入已训练的规则生成模型,得到所述规则生成模型输出的转换规则向量、转换参数向量和匹配矩阵;
规则确定单元,用于基于所述转换规则向量确定所述数据转换逻辑文本对应的若干目标转换规则;
参数确定单元,用于基于所述匹配矩阵和所述转换参数向量,确定各目标转换规则对应的目标转换参数;
转换执行单元,用于基于所述若干目标转换规则和各目标转换规则对应的目标转换参数对所述目标数据进行数据转换。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
顺序确定单元,用于基于所述转换规则向量确定各目标转换规则的执行顺序;
所述转换执行单元,具体用于:按照各目标转换规则的执行顺序依次进行数据转换。
8.根据权利要求7所述的装置,其特征在于,所述匹配矩阵中各列与各目标转换规则一一对应;所述匹配矩阵中各行与所述转换参数向量中的各目标转换参数一一对应;所述匹配矩阵中的各元素的取值用于指示该元素对应的目标转换规则与目标转换参数之间是否存在对应关系;
所述参数确定单元,具体用于:
针对每个所述目标转换规则:
基于该目标转换规则的执行顺序,在所述匹配矩阵中查找与该执行顺序对应的列;
在所查找到的列中,基于元素取值定位出与所述目标转换规则存在对应关系的目标转换参数的位置;
基于所述目标转换参数的位置,在所述转换参数向量中确定所述目标转换规则对应的目标转换参数。
9.根据权利要求6所述的装置,其特征在于,所述规则生成模型还用于输出目标数据的源位置标识以及目标数据转换后的目的位置标识;
其中,所述源位置标识用于指示从所述源位置获取所述目标数据;所述目的位置标识用于指示将转换后的目标数据输出到所述目的位置。
10.根据权利要求9所述的装置,其特征在于,所述规则生成模型用于将源位置和目的位置作为目标转换规则输出到转换规则向量中,将源位置标识和目的位置标识作为目标转换参数输出到所述转换参数向量中。
11.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-5中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1-5中任一项所述的方法。
CN202110688026.XA 2021-06-21 2021-06-21 数据转换方法和装置 Active CN113343646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110688026.XA CN113343646B (zh) 2021-06-21 2021-06-21 数据转换方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110688026.XA CN113343646B (zh) 2021-06-21 2021-06-21 数据转换方法和装置

Publications (2)

Publication Number Publication Date
CN113343646A CN113343646A (zh) 2021-09-03
CN113343646B true CN113343646B (zh) 2023-08-25

Family

ID=77478309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110688026.XA Active CN113343646B (zh) 2021-06-21 2021-06-21 数据转换方法和装置

Country Status (1)

Country Link
CN (1) CN113343646B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779937A (zh) * 2021-09-27 2021-12-10 平安资产管理有限责任公司 基于人工智能的文本内容转换方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446962A (zh) * 2008-12-31 2009-06-03 中国建设银行股份有限公司 一种数据转换方法、装置及数据处理系统
CN104007984A (zh) * 2014-06-20 2014-08-27 中国银行股份有限公司 一种转换数据的方法及装置
CN106708791A (zh) * 2017-01-04 2017-05-24 竹间智能科技(上海)有限公司 数据格式转换方法及装置
CN110851519A (zh) * 2019-11-18 2020-02-28 上海新炬网络信息技术股份有限公司 基于nlp自然语言通过etl工具进行数据处理的方法
CN111026916A (zh) * 2019-12-10 2020-04-17 北京百度网讯科技有限公司 文本描述的转换方法、装置、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10120844B2 (en) * 2014-10-23 2018-11-06 International Business Machines Corporation Determining the likelihood that an input descriptor and associated text content match a target field using natural language processing techniques in preparation for an extract, transform and load process
US11106861B2 (en) * 2019-02-01 2021-08-31 Sap Se Logical, recursive definition of data transformations

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446962A (zh) * 2008-12-31 2009-06-03 中国建设银行股份有限公司 一种数据转换方法、装置及数据处理系统
CN104007984A (zh) * 2014-06-20 2014-08-27 中国银行股份有限公司 一种转换数据的方法及装置
CN106708791A (zh) * 2017-01-04 2017-05-24 竹间智能科技(上海)有限公司 数据格式转换方法及装置
CN110851519A (zh) * 2019-11-18 2020-02-28 上海新炬网络信息技术股份有限公司 基于nlp自然语言通过etl工具进行数据处理的方法
CN111026916A (zh) * 2019-12-10 2020-04-17 北京百度网讯科技有限公司 文本描述的转换方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Farmakiotou D,Karkaletsis V,Koutsias J,et al..Rule-based named entity recognition for Greek financial texts.Proc of the International Conference on Computational Lexicography and Multimedia Dictionaries COMLEX2000.2000,全文. *

Also Published As

Publication number Publication date
CN113343646A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN109388807B (zh) 电子病历命名实体识别的方法、装置及存储介质
CN110457431B (zh) 基于知识图谱的问答方法、装置、计算机设备和存储介质
CN110059320B (zh) 实体关系抽取方法、装置、计算机设备和存储介质
US11232141B2 (en) Method and device for processing an electronic document
CN110555372A (zh) 数据录入方法、装置、设备及存储介质
CN111222305A (zh) 一种信息结构化方法和装置
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN112084746A (zh) 一种实体识别方法、系统、存储介质及设备
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN111950279A (zh) 实体关系的处理方法、装置、设备及计算机可读存储介质
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN112507118A (zh) 信息分类抽取方法、装置和电子设备
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN108170708B (zh) 一种车辆实体识别方法、电子设备、存储介质、系统
CN110866042A (zh) 表格智能查询方法、装置及计算机可读存储介质
CN113343646B (zh) 数据转换方法和装置
CN113190702A (zh) 用于生成信息的方法和装置
CN109359176A (zh) 数据提取方法、装置、计算机设备和存储介质
CN113220828A (zh) 意图识别模型处理方法、装置、计算机设备及存储介质
CN111898378A (zh) 政企客户的行业分类方法和装置、电子设备、存储介质
CN110956043A (zh) 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质
CN114780688A (zh) 基于规则匹配的文本质检方法、装置、设备及存储介质
CN115017256A (zh) 电力数据处理方法、装置、电子设备及存储介质
CN115292008A (zh) 用于分布式系统的事务处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant