CN116756125B - 描述信息生成方法、装置、电子设备和计算机可读介质 - Google Patents

描述信息生成方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN116756125B
CN116756125B CN202311016631.8A CN202311016631A CN116756125B CN 116756125 B CN116756125 B CN 116756125B CN 202311016631 A CN202311016631 A CN 202311016631A CN 116756125 B CN116756125 B CN 116756125B
Authority
CN
China
Prior art keywords
field
description information
database
information
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311016631.8A
Other languages
English (en)
Other versions
CN116756125A (zh
Inventor
王哲
赵梓荣
舒光斌
陈子怡
高立人
杨思喆
史勇
岳丰
方兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Citic Securities Co ltd
Original Assignee
Citic Securities Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Citic Securities Co ltd filed Critical Citic Securities Co ltd
Priority to CN202311016631.8A priority Critical patent/CN116756125B/zh
Publication of CN116756125A publication Critical patent/CN116756125A/zh
Application granted granted Critical
Publication of CN116756125B publication Critical patent/CN116756125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例公开了描述信息生成方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:确定目标字段的字段关联信息集合;根据字段关联信息集合,确定是否存在候选字段描述信息集合;响应于存在候选字段描述信息集合,对候选字段描述信息集合中的每个候选字段描述信息进行信息标准化处理,以生成标准化后字段描述信息,得到标准化后字段描述信息集合;根据目标字段、字段关联信息集合、标准化后字段描述信息集合和预先训练的描述信息生成模型,生成目标字段对应的字段描述信息。该实施方式实现了字段描述信息的自动生成,大大降低了信息的更新成本,以及侧面降低了数据库的使用和维护成本。

Description

描述信息生成方法、装置、电子设备和计算机可读介质
技术领域
本公开的实施例涉及计算机技术领域,具体涉及描述信息生成方法、装置、电子设备和计算机可读介质。
背景技术
随着计算机相关技术的发展和普及,随之产生的数据也在呈井喷式增加。数据库作为数据的常用储存手段,是数据存储和使用的基石。对于常见的关系型数据库,其往往有多张数据表构成,每张数据表往往包含至少一个数据库字段。目前,在数据表生成时,由于数据库字段对应的字段描述信息为可选内容,因此,往往不会添加数据库字段对应的字段描述信息。
然而,发明人发现,当采用上述方式时,经常会存在如下技术问题:
第一,数据表来源往往不同,同时数据表数量也在不断增加,采用人工方式进行字段描述信息更新,信息更新成本较大,而当缺乏字段描述信息时,会增加数据库的使用和维护成本;
第二,数据库字段往往是依据字段设计规则命名,不同的数据库往往对应不同的字段设计规则,在进行字段描述信息的生成时,仅依赖于待字段描述信息生成的数据库字段,由于缺乏字段特征,往往会导致生成的字段描述信息不够准确。
该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了描述信息生成方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种描述信息生成方法,该方法包括:确定目标字段的字段关联信息集合,其中,上述目标字段是待生成对应字段描述信息的数据库字段;根据上述字段关联信息集合,确定是否存在候选字段描述信息集合;响应于存在上述候选字段描述信息集合,对上述候选字段描述信息集合中的每个候选字段描述信息进行信息标准化处理,以生成标准化后字段描述信息,得到标准化后字段描述信息集合;根据上述目标字段、上述字段关联信息集合、上述标准化后字段描述信息集合和预先训练的描述信息生成模型,生成上述目标字段对应的字段描述信息。
第二方面,本公开的一些实施例提供了一种描述信息生成装置,装置包括:第一确定单元,被配置成确定目标字段的字段关联信息集合,其中,上述目标字段是待生成对应字段描述信息的数据库字段;第二确定单元,被配置成根据上述字段关联信息集合,确定是否存在候选字段描述信息集合;信息标准化处理单元,被配置成响应于存在上述候选字段描述信息集合,对上述候选字段描述信息集合中的每个候选字段描述信息进行信息标准化处理,以生成标准化后字段描述信息,得到标准化后字段描述信息集合;生成单元,被配置成根据上述目标字段、上述字段关联信息集合、上述标准化后字段描述信息集合和预先训练的描述信息生成模型,生成上述目标字段对应的字段描述信息。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的描述信息生成方法,降低了数据库的使用和维护成本。具体来说,造成数据库的使用和维护成本较高的原因在于:数据表来源往往不同,同时数据表数量也在不断增加,采用人工方式进行字段描述信息更新,信息更新成本较大,而当缺乏字段描述信息时,会增加数据库的使用和维护成本。实践中,字段描述信息作为数据库字段的解释性信息,其又有助数据库使用人员和维护人员对于数据库中的数据表的表间结构理解、数据库字段理解,对于数据库的使用和维护意义重大。而在实际场景中,根据使用需求,往往会设置多个数据库,不同的数据库往往会包含数量、内容不一的数据表。由于不同数据库往往对应不同的数据库设计方,同时不同数据库的构建时间往往也不同、且不同数据库往往依据不同的数据库设计规则进行设计。此外,数据库随着使用,其包含的数据表的内容、数据表的数量也在不断增加。导致采用人工的方式进行字段描述信息更新,信息更新成本极大,侧面增加了数据库的使用和维护成本。基于此,本公开的一些实施例的描述信息生成方法,首先,确定目标字段的字段关联信息集合,其中,上述目标字段是待生成对应字段描述信息的数据库字段。通过与目标字段向关联的字段关联信息集合,可以增加针对目标字段的字段理解。其次,根据上述字段关联信息集合,确定是否存在候选字段描述信息集合。实践中,部分字段关联信息可能存在相对应的字段描述信息,由于字段关联信息与目标字段之间存在内容关联,因此,字段关联信息对应的字段描述信息(候选字段描述信息)有助于丰富目标字段对应的字段特征。接着,响应于存在上述候选字段描述信息集合,对上述候选字段描述信息集合中的每个候选字段描述信息进行信息标准化处理,以生成标准化后字段描述信息,得到标准化后字段描述信息集合。实践中,不同的字段关联信息往往属于不同的数据库,导致字段关联信息对应的字段描述信息(候选字段描述信息)往往对应不同的字段描述规则,因此,需要对候选字段描述信息进行信息标准化处理。最后,根据上述目标字段、上述字段关联信息集合、上述标准化后字段描述信息集合和预先训练的描述信息生成模型,生成上述目标字段对应的字段描述信息。由此实现了字段描述信息的自动生成,大大降低了信息的更新成本,以及侧面降低了数据库的使用和维护成本。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的描述信息生成方法的一些实施例的流程图;
图2是数据库字段流向图的示意图;
图3是数据库字段流向图的部分示意图;
图4是数据库字段流向图的又一部分示意图;
图5是根据本公开的描述信息生成装置的一些实施例的结构示意图;
图6是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
参考图1,示出了根据本公开的描述信息生成方法的一些实施例的流程100。该描述信息生成方法,包括以下步骤:
步骤101,确定目标字段的字段关联信息集合。
在一些实施例中,描述信息生成方法的执行主体(例如,计算设备)可以确定目标字段的字段关联信息集合。其中,目标字段可以是待生成对应字段描述信息的数据库字段。字段描述信息可以是上述目标字段对应的字段解释性信息。例如,目标字段可以是“CompanyName”。目标字段对应的字段描述信息可以是“单位名称”。字段关联信息可以是与目标字段存在字段关联关系的信息。例如,字段关联信息可以是与目标字段存在语义近似的数据库字段。实践中,上述执行主体可以通过相似度计算的方式,确定目标字段对应的字段关联信息集合。
需要说明的是,上述计算设备可以是硬件,也可以是软件。当计算设备为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当计算设备体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。应该理解,计算设备的数目根据实现需要,可以具有任意数目。
可选地,字段关联信息集合可以包括:血缘型字段信息和近义词型字段信息集合。其中,血缘型字段信息可以表征与目标字段存在血缘关系的数据库字段。近义词型字段信息可以表征与目标字段存在语义近似的数据库字段。上述血缘型字段信息包括:血缘字段集合和字段流向描述信息。血缘字段表征与目标字段存在血缘关系的数据库字段。字段流向描述信息表征目标字段和血缘字段之间的血缘流向。实践中,字段流向描述信息可以通过邻接矩阵的方式表示。
在一些实施例的一些可选的实现方式中,上述执行主体确定目标字段的字段关联信息集合,可以包括以下步骤:
第一步,获取与上述目标字段关联的数据调度信息集合。
其中,数据调度信息集合中的数据调度信息包括:数据操作语句。数据操作语句可以是与目标字段关联的SQL(Structured Query Language,结构化查询语言)语句。实践中,数据操作语句可以是数据查询语句。
作为示例,由于在进行ODS(Operational Data Store,操作性数据)调度过程中,会生成调度相关信息,因此,上述执行主体可以通过解析调度相关信息,得到数据调度信息。其中,调度相关信息可以包括:调度操作任务名称、源数据表名称、目标数据表名称和数据操作语句。例如,调度相关信息A可以是:{调度任务名称:TaskA,源数据表名称:TableA,目标数据表名称:TableB,数据操作语句:QueryA}。具体的,调度相关信息A可以是通过数据操作语句“QueryA”,以实现从数据表“TableA”到数据表“TableB”的ODS调度。
第二步,对上述数据调度信息集合中的每个数据调度信息包括的数据操作语句进行语句解析,以生成解析后数据调度信息,得到解析后数据调度信息集合。
其中,解析后数据调度信息集合中的解析后数据调度信息记录有数据表之间的数据库字段的映射关系。解析后数据调度信息可以是JSON(JavaScript Object Notation)结构的信息。实践中,由于数据操作语句涉及数据表之间的数据操作,因此,上述执行主体可以通过SQL语句解析的方式,抽取得到数据操作语句所对应的数据库字段和所涉及的数据表。
第三步,根据上述解析后数据调度信息集合,生成数据库字段流向图。
其中,数据库字段流向图表征不同数据表之间的数据库字段的流向关系。数据库字段流向图对应有至少一个末端数据表。末端数据表是上述数据库字段流向图对应的至少一个数据表中的出度值为零的数据表。实践中,由于ODS调度可能涉及多个数据表之间的数据调度,因此,上述执行主体可以根据解析后数据调度信息记录的数据表之间的数据库字段的映射关系,生成数据库字段流向图。其中,数据库字段流向图为有向图。
作为示例,如图2所示的数据库字段流向图的示意图,其中,图2所示的数据库字段流向图对应的至少一个数据表包括:“TableA”、“TableB”、“TableC”、“TableD”、“TableE”、“TableF”和“TableG”。其中,因为“TableG”的出度为0,因此“TableG”为末端数据表。其中,“TableA”在解析后数据调度信息集合中所涉及的数据库字段包括:“JYQR”字段、“WTSL”字段、“CDSL”字段和“KHH”字段。“TableB”在解析后数据调度信息集合中所涉及的数据库字段包括:“KHH”字段和“CJJE”字段。“TableC”在解析后数据调度信息集合中所涉及的数据库字段包括:“WTBS”字段、“SJCDSL”字段、“SJWTSL”字段和“JYQR”字段。“TableD”在解析后数据调度信息集合中所涉及的数据库字段包括:“JYQR”字段、“SJWTSL”字段、“SJCDSL”字段和“KHH”字段。“TableE”在解析后数据调度信息集合中所涉及的数据库字段包括:“ZCJBS”字段和“ZCJJE”字段。“TableE”在解析后数据调度信息集合中所涉及的数据库字段包括:“ZCJBS”字段和“ZCJJE”字段。“TableG”在解析后数据调度信息集合中所涉及的数据库字段包括:“交易日期”字段、“客户”字段、“委托笔数”字段、“实际撤单数量”字段、“实际委托数量”、“成交笔数”和“成交金额”。数据库字段流向图中的数据库字段之间的有向线段表征数据库字段的流向。例如,“TableE”中的“ZCJJE”字段可以是“TableB”中的“CJJE”字段的数据源。“TableG”中的“成交金额”字段可以是“TableE”中的“ZCJJE”字段的数据源。
第四步,根据末端数据表对应的入度值,对上述至少一个末端数据表进行降序表排序,得到末端数据表序列。
作为示例,进一步参考图2,其中,“TableA”的入度值为0。“TableB”的入度值为0。“TableC”的入度值为3。“TableD”的入度值为2。“TableE”的入度值为1。“TableF”的入度值为1。“TableG”的入度值为12。其中,由于图2所示的数据库字段流向图仅包含1个末端数据表,因此得到的末端数据表序列为[“TableG”]。
作为又一示例,参考图3所示的数据库字段流向图的部分示意图,其中,图3所示的数据库字段流向图包括2个末端数据表:“TableH”和“TableI”。其中,“TableH”在解析后数据调度信息集合中所涉及的数据库字段包括:“FiledA”字段、“FiledB”字段和“FiledC”字段。“TableI”在解析后数据调度信息集合中所涉及的数据库字段包括:“FiledD”字段、“FiledE”字段和“FiledH”字段。其中,“TableH”的入度值为3。“TableI”的入度值为3。因此,得到的末端数据表序列可以是[“TableH”,“TableI”]。
作为再一示例,参考图3所示的数据库字段流向图的部分示意图,其中,图3所示的数据库字段流向图包括2个末端数据表:“TableH”和“TableI”。其中,“TableH”在解析后数据调度信息集合中所涉及的数据库字段包括:“FiledA”字段、“FiledB”字段和“FiledC”字段。“TableI”在解析后数据调度信息集合中所涉及的数据库字段包括:“FiledD”字段、“FiledE”字段、“FiledH”字段、“FiledI”字段和“FiledJ”字段。其中“TableH”的入度值为3。“TableI”的入度值为6。因此,得到的末端数据表序列可以是[“TableI”,“TableH”]。
第五步,响应于确定末端数据表序列满足目标条件,将上述末端数据表序列中位于首位置的末端数据表,确定为目标末端数据表。
其中,目标条件是末端数据表序列中仅包含一个对应的入度值为最大值的末端数据表。
第六步,响应于确定上述末端数据表序列不满足上述目标条件,确定上述末端数据表序列中的前目标数量个末端数据表,作为候选末端数据表序列。
其中,目标数量可以是末端数据表序列中对应的入度值为最大值的末端数据表的数量。
第七步,从上述候选末端数据表序列中随机选取候选末端数据表,作为目标末端数据表。
作为示例,候选末端数据表序可以是[“TableH”,“TableI”]。因此,上述执行主体可以从“TableH”和“TableI”中随机选取一个末端数据表作为目标末端数据表。例如,目标末端数据表可以是“TableH”。
第八步,剔除上述数据库字段流向图对应的至少一个末端数据表中、非上述目标末端数据表的末端数据表,得到更新后数据字段流向图。
第九步,对上述更新后数据字段流向图进行图遍历,生成上述血缘字段集合。
其中,血缘字段集合中的血缘字段可以是更新后数据字段流向图中的、与目标字段存在数据流动关系的数据库字段。
作为示例,目标字段可以是“TableA”中的“CDSL”字段。血缘字段集合可以包括:“TableC”中的“SJCDSL”字段和“TableG”中的“实际撤单数量”字段。
第十步,根据上述更新后数据字段流向图的图结构,生成上述字段流向描述信息。
实践中,由于更新后数据字段流向图为图结构,因此,上述执行主体可以将更新后数据字段流向图对应的临接矩阵,作为上述字段流向描述信息。
在一些实施例的一些可选的实现方式中,上述执行主体确定目标字段的字段关联信息集合,还可以包括以下步骤:
第一步,获取候选近义数据库字段集合。
其中,上述执行主体可以通过有线连接,或无线连接的方式,获取上述候选近义数据库字段集合。上述候选近义数据库字段是预先构建的数据库字段表中的数据库字段。数据库字段表可以是用于存储、从不同数据库中收集的数据库字段的数据表。
需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
第二步,对于上述候选近义数据库字段集合中的每个候选近义数据库字段,执行以下变换步骤:
第一子步骤,确定上述候选近义数据库字段的数据库字段类型。
其中,数据库字段类型包括:第一数据库字段类型、第二数据库字段类型、第三数据库字段类型和第四数据库字段类型。其中,第一数据库字段类型表征候选近义数据库字段是由拼音构成的字段,例如,“JiaoYiRiQi”字段。第二数据库字段类型表征候选近义数据库字段是由英文单词构成的字段,例如,“TransactionDate”字段。第三数据库字段类型表征候选近义数据库字段是由拼音缩写构成的字段,例如“JYRQ”字段。第四数据库字段表征候选近义数据库字段是由英文缩写构成的字段,例如,“TD”字段。实践中,上述执行主体可以通过模板匹配的方式,确定候选近义数据库字段的数据库字段类型。
第二子步骤,响应于确定上述数据库字段类型为第一数据库字段类型或第二数据库字段类型,根据上述数据库字段类型,对上述候选近义数据库字段进行字段转换,得到转换后近义数据库字段组。
其中,转换后近义数据库字段组中的转换后近义数据库字段对应的数据库字段类型,是除候选近义数据库字段的数据库字段类型以外的其余三种数据库字段类型。
实践中,第一数据库字段类型的候选近义数据库字段和第二数据库字段类型的候选近义数据库字段,均可以通过首字母提取的方式,得到对应的第三数据库字段类型的转换后近义数据库字段和第四数据库字段类型的转换后近义数据库字段。
实践中,首先,第一数据库字段类型的候选近义数据库字段可以先根据含义转换为第二数据库字段类型的转换后近义数据库字段。然后,对第二数据库字段类型的转换后近义数据库字段,采用首字母提取的方式,得到第四数据库字段类型的转换后近义数据库字段。
实践中,首先,第二数据库字段类型的候选近义数据库字段可以先根据含义转换为第一数据库字段类型的转换后近义数据库字段。然后,对第一数据库字段类型的转换后近义数据库字段,采用首字母提取的方式,得到第三数据库字段类型的转换后近义数据库字段。
第三子步骤,响应于确定上述数据库字段类型为第三数据库字段类型或第四数据库字段类型,根据上述候选近义数据库字段,进行数据库字段预测,生成预测后数据库字段。
实践中,上述执行主体可以通过BERT模型,根据上述候选近义数据库字段,进行数据库字段预测,生成预测后数据库字段。实践中,当候选近义数据库字段为第三数据库字段类型时,得到的预测后数据库字段的数据库字段类型为第一数据库字段类型。当候选近义数据库字段为第四数据库字段类型时,得到的预测后数据库字段的数据库字段类型为第二数据库字段类型。
第四子步骤,对上述预测后数据库字段进行字段转换,得到上述转换后近义数据库字段组。
转换后近义数据库字段组的生成方式可以参见第二子步骤,再次不再赘述。
第五子步骤,分别确定上述目标字段和上述候选近义数据库字段的字段语义特征,得到目标字段语义特征和候选近义数据库字段语义特征。
实践中,上述执行主体可以通过TextCNN模型,分别对上述目标字段和上述候选近义数据库字段进行字段语义特征提取,得到目标字段语义特征和候选近义数据库字段语义特征。
第六子步骤,确定上述转换后近义数据库字段组中的每个转换后近义数据库字段的字段语义特征,以生成转换后近义数据库字段语义特征,得到转换后近义数据库字段语义特征集合。
实践中,上述执行主体还可以通过TextCNN模型,对转换后近义数据库字段进行字段语义特征提取,得到转换后近义数据库字段语义特征。
第七子步骤,根据上述目标字段语义特征、候选近义数据库字段语义特征和转换后近义数据库字段语义特征集合,生成字段相似度。
实践中,上述执行主体可以通过以下公式确定字段相似度:S=A×B+A×C1+A×C2+A×C3。其中,S表示字段相似度。A表示目标字段语义特征。B表示候选近义数据库字段语义特征。C1表示转换后近义数据库字段语义特征集合中的第1个转换后近义数据库字段语义特征。C2表示转换后近义数据库字段语义特征集合中的第2个转换后近义数据库字段语义特征。C3表示转换后近义数据库字段语义特征集合中的第3个转换后近义数据库字段语义特征。
第八子步骤,响应于确定上述字段相似度大于等于预设相似度阈值,将上述候选近义数据库字段和上述转换后近义数据库字段组,确定为上述候选近义数据库字段对应的近义词型字段信息。
步骤102,根据字段关联信息集合,确定是否存在候选字段描述信息集合。
在一些实施例中,上述执行主体可以根据字段关联信息集合,确定是否存在候选字段描述信息集合。其中,候选字段描述信息可以是字段关联信息对应的字段描述信息。实践中,部分数据库中的数据库字段可能存在对应的字段描述信息,因此,上述执行主体可以以字段关联信为检索词,以确定字段关联信息是否存在对应的字段描述信息,当存在时,将字段关联信息对应的字段描述信息,确定为字段描述信息。
作为示例,字段关联信息可以是“TableD”中的“SJCDSL”字段,上述执行主体可以通过以下SQL语句,确定“SJCDSL”字段的候选字段描述信息:
SELECT COLUMN_COMMENT
FROM INFORMATION_SCHEMA.COLUMNS
WHERE TABLE_NAME = ‘TableD’ AND TABLE_SCHEMA = ‘DB1’。
步骤103,响应于存在候选字段描述信息集合,对候选字段描述信息集合中的每个候选字段描述信息进行信息标准化处理,以生成标准化后字段描述信息,得到标准化后字段描述信息集合。
在一些实施例中,响应于存在候选字段描述信息集合,上述执行主体可以对候选字段描述信息集合中的每个候选字段描述信息进行信息标准化处理,以生成标准化后字段描述信息,得到标准化后字段描述信息集合。其中,标准化后字段描述信息可以是信息标准化后的候选字段描述信息。
作为示例,上述执行主体可以对候选字段描述信息进行以句子为粒度,进行语句提取,得到语句列表,作为标准化后字段描述信息集合。
在一些实施例的一些可选的实现方式中,响应于存在上述候选字段描述信息集合,上述执行主体对上述候选字段描述信息集合中的每个候选字段描述信息进行信息标准化处理,以生成标准化后字段描述信息,可以包括以下步骤:
第一步,根据预先设置的停用字符表,通过字符匹配的方式对上述候选字段描述信息进行符号剔除,以生成符号剔除后的候选字段描述信息。
其中,停用字符表是用于剔除无用字符的字符表。停用字符表中的停用字符根据对应的停用频次采用哈夫曼树结构存储。实践中,由于停用字符的停用频次往往不同。例如,停用字符A为句号。停用字符B为破折号。由于句号的出现次数往往远大于破折号的出现次数,因此,句号对应的停用频次往往大于破折号对应的停用次数,而停用字符表往往存在大量的停用字符,因此,根据停用频次,采用哈夫曼树结构存储停用字符,在进行字符匹配时可以大大提高匹配速度。
第二步,确定上述候选字段描述信息对应的字符编码集信息。
字符编码集信息表征候选字段描述信息对应的字符集。例如,字符编码集信息可以是GB2312字符集。
第三步,响应于确定上述字符编码集信息与预设字符编码集信息不一致,根据上述预设字符编码集信息,对上述候选字段描述信息进行信息重编码,得到编码后字段描述信息,作为上述候选字段描述信息对应的标准化后字段描述信息。
实践中,预设字符编码集信息对应的字符集可以是UTF-8字符集。具体的上述执行主体可以通过以下代码,对上述候选字段描述信息进行信息重编码,得到编码后字段描述信息:
EncodeText = Text.encode('UTF-8'),其中,“Text”表示候选字段描述信息。“EncodeText”表示标准化后字段描述信息。
步骤104,根据目标字段、字段关联信息集合、标准化后字段描述信息集合和预先训练的描述信息生成模型,生成目标字段对应的字段描述信息。
在一些实施例中,上述执行主体可以根据目标字段、字段关联信息集合、标准化后字段描述信息集合和预先训练的描述信息生成模型,生成目标字段对应的字段描述信息。其中,描述信息生成模型可以是用于生成目标字段对应的字段描述信息的模型。实践中,描述信息生成模型可以是GPT(Generative Pre-trained Transformer,生成式预训练)模型。
作为示例,首先,上述执行主体可以将目标字段、字段关联信息集合、标准化后字段描述信息集合进行拼接,得到拼接后信息。然后,上述执行主体可以将拼接后信息输入上述描述信息生成模型,得到上述目标字段对应的字段描述信息。
可选地,描述信息生成模型可以包括:字段特征提取模型、字段描述信息特征提取模型、字段值特征提取模型、第一控制器、第二控制器和信息预测模型。上述第一控制器用于控制是否启用上述字段描述信息提取模型。上述第二控制器用于控制是否启用上述字段值特征提取模型。其中,字段特征提取模型可以包括:K个串行连接的卷积层和K/2个最大池化层。其中,K大于等于2、且K为偶数。字段特征提取模型中的每2个卷积层后连接有1个最大池化层。例如,字段特征提取模型可以包括:4个卷积层和2个最大池化层,分别为卷积层A、卷积层B、最大池化层A、卷积层C、卷积层D和最大池化层B。字段描述信息特征提取模型可以采用包括:M个Transformer层。其中,M大于等于4。其中,Transformer层包括1个基于多头注意力机制的特征提取层、1个残差层和1个归一化层。字段值特征提取模型包括:1个字段值标准化层。其中,字段值标准化层用于对字段值进行字段值标准化。信息预测模型采用GPT-3模型。
在一些实施例的一些可选的实现方式中,上述执行主体根据上述目标字段、上述字段关联信息集合、上述标准化后字段描述信息集合和预先训练的描述信息生成模型,生成上述目标字段对应的字段描述信息,可以包括以下步骤:
第一步,通过上述字段特征提取模型,对上述目标字段和上述字段关联信息集合中的字段关联信息进行字段特征提取,以生成第一字段特征和第二字段特征集合。
其中,第一字段特征是上述目标字段对应的字段特征。第二字段特征是字段关联信息对应的字段特征。实践中,上述执行主体可以创建多个线程,加载字段特征提取模型,以实现对目标字段和上述字段关联信息集合中的字段关联信息进行并行字段特征提取。
第二步,通过上述第一控制器,启用上述字段描述信息特征提取模型。
实践中,例如,当存在上述字段描述信息集合时,上述执行主体可以主动触发上述第一控制器,以启动上述字段描述信息特征提取模型。又如,上述第一控制器可以采用信息探测的方式,确定是否存在字段描述信息集合,当存在时,启动上述字段描述信息特征提取模型。
第三步,响应于启用成功,通过上述字段描述信息特征提取模型,对上述标准化后字段描述信息集合中的标准化后字段描述信息进行字段描述信息特征提取,得到字段描述信息特征集合。
实践中,当字段描述信息特征提取模型被成功加载时,可以表征启用成功。
第四步,确定是否存在上述目标字段对应的字段值,以及确定是否存在上述字段关联信息集合中的字段关联信息对应的字段值。
实践中,上述执行主体可以通过数据库查询的方式,通过SQL语句,确定是否存在上述目标字段对应的字段值,以及确定是否存在上述字段关联信息集合中的字段关联信息对应的字段值。
第五步,响应于存在上述目标字段对应的字段值、且存在上述字段关联信息集合中的字段关联信息对应的字段值,获取第一字段值组和第二字段值组集合,以及通过上述第二控制器启用上述字段值特征提取模型。
其中,第一字段值是上述目标字段对应的字段值。第二字段值是字段关联信息对应的字段值。第一字段值组中的第一字段值的数量和第二字段值组中的第二字段值的数量相同。例如,第一字段值组中的第一字段值的数量可以是10个。通过获取有限个第一字段值或第二字段值,可以减少数据库的读取压力,同时,降低字段值特征提取模型的数据处理量。此外,第一字段值组中的第一字段值的数量和第二字段值组中的第二字段值的数量相同,能够保证数据对齐一致。通过上述第二控制器启用上述字段值特征提取模型的具体方式可以参见第一控制器的启用方式,再此不再赘述。
第六步,响应于启用成功,通过上述字段值特征提取模型,对上述第一字段值组和上述第二字段值组集合中的第二字段值组进行字段值特征提取,以生成第一字段值特征和第二字段值特征集合。
第七步,根据上述第一字段特征、第二字段特征集合、上述字段描述信息特征集合、上述第一字段值特征、上述第二字段值特征集合和上述信息预测模型,生成可选字段描述信息列表。
其中,上述执行主体可以将第一字段特征、第二字段特征集合、上述字段描述信息特征集合、上述第一字段值特征和上述第二字段值特征集合拼接后,输入上述信息预测模型,得到上述可选字段描述信息列表。可选字段描述信息列表可以包括信息预测模型输出的、针对目标字段的、不同置信度的字段描述信息。
第八步,将上述可选字段描述信息列表中对应的置信度为目标值的可选字段描述信息,确定为上述字段描述信息。
其中,目标值可以是可选字段描述信息列表包括的可选字段描述信息对应的最大置信度。
可选地,上述方法还包括:
第一步,响应于不存在上述候选字段描述信息集合,通过上述第一控制器,停用上述字段描述信息提取模型。
第二步,响应于不存在上述目标字段对应的字段值、且不存在上述字段关联信息集合中的字段关联信息对应的字段值,通过上述第二控制器,停用上述字段值特征提取模型。
第三步,响应于停用成功,根据上述目标字段、上述字段特征提取模型和上述信息预测模型,生成上述字段描述信息。
实践中,首先,上述执行主体可以字段特征提取模型对目标字段进行字段特征提取,得到第一字段特征。然后,上述执行主体可以将第一字段特征输入上述信息预测模型,得到上述字段描述信息。在此种情形下,生成的字段描述信息的精准度弱于上述第一步至第八步的字段描述信息的生成方式,但能够保证字段描述信息的正常生成。
步骤104中的“可选地”和“在一些实施例的一些可选的实现方式中”的内容,作为本公开的一个发明点,解决了背景技术提及的技术问题二,即,“数据库字段往往是依据字段设计规则命名,不同的数据库往往对应不同的字段设计规则,在进行字段描述信息的生成时,仅依赖于待字段描述信息生成的数据库字段,由于缺乏字段特征,往往会导致生成的字段描述信息不够准确”。实践中,数据库字段可以是采用拼音缩写或英文缩写方式,其信息熵较低,同时,不同数据源的数据库字段往往对应不同的字段设计规则,导致仅依赖于数据库字段本身,难以有效且准确的生成字段描述信息。基于此,本公开设计了描述信息生成模型。通过结合目标字段相关的字段关联信息、字段关联信息对应的候选字段描述信息,以及目标字段和字段关联信息对应的字段值,大大丰富了字段特征。具体的,考虑到字段关联信息、候选字段描述信息和字段值往往对应不同的数据格式,因此,本公开的描述信息生成模型采用模块化设计,即针对字段关联信息、候选字段描述信息和字段值分别设计不同的模型用于特征提取。首先,考虑到目标字段和字段关联信息均为数据库字段,因此可以采用相同的特征提取方式进行特征提取,即通过K个串行连接的卷积层和K/2个最大池化层进行针对目标字段和字段关联信息的文本特征提取。其次,考虑到字段描述信息为数据库字段的解释性信息,信息复杂度高于目标字段和字段关联信息的信息复杂度,因此采用包含有M个Transformer层的字段描述信息特征提取模型进行特征提取。通过更多层数的Transformer层可以有效地捕捉更长的记忆信息。接着,考虑到字段值本身为数值型特征,因此无需再过度地进行特征提取,由此,字段值特征提取模型仅通过包括的1个字段值标准化层进行字段值的标准化,以保证不同字段值处于相同的尺度空间。最后,采用信息预测模型对根据上述第一字段特征、第二字段特征集合、上述字段描述信息特征集合、上述第一字段值特征和上述第二字段值特征集合进行特征融合,以及字段描述信息预测。此外,考虑到极端情况下,字段描述信息和字段值并不一定能够得到,因此,本公开通过第一控制器和第二控制器控制字段描述信息提取模型和字段值特征提取模型的启用。通过此种方式,大大提高了生成的字段描述信息的准确度。
可选地,上述方法还包括:
第一步,对上述字段描述信息添加信息标识,得到目标字段描述信息。
其中,上述信息标识用于标识字段描述信息的生成方式。信息标识可以是“*”。例如,字段描述信息可以是“单位名称”。目标字段描述信息可以是“*单位名称”。通过添加信息标识可以有效地区分字段描述信息是否是自动生成的。
第二步,根据上述目标字段描述信息,对上述目标字段进行自动字段更新。
实践中,上述执行主体可以通过目标字段描述信息,对目标字段对应的“COLUMN_COMMENT”字段进行值更新。
第三步,响应于接收到针对上述目标字段描述信息的信息更新请求,执行以下处理步骤:
第一子步骤,根据上述信息更新请求包括的请求对象标识,确定修改权限信息。
其中,信息更新请求可以是针对目标字段描述信息进行信息更改的请求。实践中,由于自动生成的字段描述信息可能存在描述错误的情况,因此,本公开采用被被动式的更新方式,即当使用用户发现字段描述信息错误时,可以发起信息更新请求。上述修改权限信息表征上述请求对象标识对应的对象是否拥有对上述目标字段的字段更新权限。
第二子步骤,响应于确定上述修改权限信息表征上述请求对象标识对应的对象拥有对上述目标字段的字段更新权限,将上述目标字段对应的可选字段描述信息列表发送至目标终端。
其中,上述目标终端是发送上述信息更新请求的终端。实践中,当数据库中的数据表被错误更改时,可能会影响数据库的使用,因此,通过目标终端统一对字段描述信息进行更新,降低了数据库因数据表错误更改所可能存在异常的概率。可选字段描述信息列表可以是信息预测模型生成的可选字段描述信息列表。
第三子步骤,响应于接收到上述目标终端发送的已选字段描述信息,根据上述已选字段描述信息,对上述目标字段进行更新。
实践中,上述执行主体可以通过已选字段描述信息,对目标字段对应的“COLUMN_COMMENT”字段进行值更新。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的描述信息生成方法,降低了数据库的使用和维护成本。具体来说,造成数据库的使用和维护成本较高的原因在于:数据表来源往往不同,同时数据表数量也在不断增加,采用人工方式进行字段描述信息更新,信息更新成本较大,而当缺乏字段描述信息时,会增加数据库的使用和维护成本。实践中,字段描述信息作为数据库字段的解释性信息,其又有助数据库使用人员和维护人员对于数据库中的数据表的表间结构理解、数据库字段理解,对于数据库的使用和维护意义重大。而在实际场景中,根据使用需求,往往会设置多个数据库,不同的数据库往往会包含数量、内容不一的数据表。由于不同数据库往往对应不同的数据库设计方,同时不同数据库的构建时间往往也不同、且不同数据库往往依据不同的数据库设计规则进行设计。此外,数据库随着使用,其包含的数据表的内容、数据表的数量也在不断增加。导致采用人工的方式进行字段描述信息更新,信息更新成本极大,侧面增加了数据库的使用和维护成本。基于此,本公开的一些实施例的描述信息生成方法,首先,确定目标字段的字段关联信息集合,其中,上述目标字段是待生成对应字段描述信息的数据库字段。通过与目标字段向关联的字段关联信息集合,可以增加针对目标字段的字段理解。其次,根据上述字段关联信息集合,确定是否存在候选字段描述信息集合。实践中,部分字段关联信息可能存在相对应的字段描述信息,由于字段关联信息与目标字段之间存在内容关联,因此,字段关联信息对应的字段描述信息(候选字段描述信息)有助于丰富目标字段对应的字段特征。接着,响应于存在上述候选字段描述信息集合,对上述候选字段描述信息集合中的每个候选字段描述信息进行信息标准化处理,以生成标准化后字段描述信息,得到标准化后字段描述信息集合。实践中,不同的字段关联信息往往属于不同的数据库,导致字段关联信息对应的字段描述信息(候选字段描述信息)往往对应不同的字段描述规则,因此,需要对候选字段描述信息进行信息标准化处理。最后,根据上述目标字段、上述字段关联信息集合、上述标准化后字段描述信息集合和预先训练的描述信息生成模型,生成上述目标字段对应的字段描述信息。由此实现了字段描述信息的自动生成,大大降低了信息的更新成本,以及侧面降低了数据库的使用和维护成本。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种描述信息生成装置的一些实施例,这些装置实施例与图1所示的那些方法实施例相对应,该描述信息生成装置具体可以应用于各种电子设备中。
如图5所示,一些实施例的描述信息生成装置500包括:第一确定单元501、第二确定单元502、信息标准化处理单元503和生成单元504。其中,第一确定单元501,被配置成确定目标字段的字段关联信息集合,其中,上述目标字段是待生成对应字段描述信息的数据库字段;第二确定单元502,被配置成根据上述字段关联信息集合,确定是否存在候选字段描述信息集合;信息标准化处理单元503,被配置成响应于存在上述候选字段描述信息集合,对上述候选字段描述信息集合中的每个候选字段描述信息进行信息标准化处理,以生成标准化后字段描述信息,得到标准化后字段描述信息集合;生成单元504,被配置成根据上述目标字段、上述字段关联信息集合、上述标准化后字段描述信息集合和预先训练的描述信息生成模型,生成上述目标字段对应的字段描述信息。
可以理解的是,该描述信息生成装置500中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于描述信息生成装置500及其中包含的单元,在此不再赘述。
下面参考图6,其示出了适于用来实现本公开的一些实施例的电子设备(例如,计算设备)600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器602中的程序或者从存储装置608加载到随机访问存储器603中的程序而执行各种适当的动作和处理。在随机访问存储器603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、只读存储器602以及随机访问存储器603通过总线604彼此相连。输入/输出接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从只读存储器602被安装。在该计算机程序被处理装置601执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:确定目标字段的字段关联信息集合,其中,上述目标字段是待生成对应字段描述信息的数据库字段;根据上述字段关联信息集合,确定是否存在候选字段描述信息集合;响应于存在上述候选字段描述信息集合,对上述候选字段描述信息集合中的每个候选字段描述信息进行信息标准化处理,以生成标准化后字段描述信息,得到标准化后字段描述信息集合;根据上述目标字段、上述字段关联信息集合、上述标准化后字段描述信息集合和预先训练的描述信息生成模型,生成上述目标字段对应的字段描述信息。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一确定单元、第二确定单元、信息标准化处理单元和生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,第二确定单元还可以被描述为“根据上述字段关联信息集合,确定是否存在候选字段描述信息集合的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (5)

1.一种描述信息生成方法,包括:
确定目标字段的字段关联信息集合,其中,所述目标字段是待生成对应字段描述信息的数据库字段,所述字段关联信息集合包括:血缘型字段信息和近义词型字段信息集合,所述血缘型字段信息包括:血缘字段集合和字段流向描述信息;
根据所述字段关联信息集合,确定是否存在候选字段描述信息集合;
响应于存在所述候选字段描述信息集合,对所述候选字段描述信息集合中的每个候选字段描述信息进行信息标准化处理,以生成标准化后字段描述信息,得到标准化后字段描述信息集合;
根据所述目标字段、所述字段关联信息集合、所述标准化后字段描述信息集合和预先训练的描述信息生成模型,生成所述目标字段对应的字段描述信息,
其中,所述确定目标字段的字段关联信息集合,包括:
获取与所述目标字段关联的数据调度信息集合,其中,所述数据调度信息集合中的数据调度信息包括:数据操作语句;
对所述数据调度信息集合中的每个数据调度信息包括的数据操作语句进行语句解析,以生成解析后数据调度信息,得到解析后数据调度信息集合,其中,所述解析后数据调度信息集合中的解析后数据调度信息记录有数据表之间的数据库字段的映射关系;
根据所述解析后数据调度信息集合,生成数据库字段流向图,其中,所述数据库字段流向图表征不同数据表之间的数据库字段的流向关系,所述数据库字段流向图对应有至少一个末端数据表,其中,末端数据表是所述数据库字段流向图对应的至少一个数据表中的出度值为零的数据表;
根据末端数据表对应的入度值,对所述至少一个末端数据表进行降序表排序,得到末端数据表序列;
响应于确定末端数据表序列满足目标条件,将所述末端数据表序列中位于首位置的末端数据表,确定为目标末端数据表;
响应于确定所述末端数据表序列不满足所述目标条件,确定所述末端数据表序列中的前目标数量个末端数据表,作为候选末端数据表序列;
从所述候选末端数据表序列中随机选取候选末端数据表,作为目标末端数据表;
剔除所述数据库字段流向图对应的至少一个末端数据表中、非所述目标末端数据表的末端数据表,得到更新后数据字段流向图;
对所述更新后数据字段流向图进行图遍历,生成所述血缘字段集合;
根据所述更新后数据字段流向图的图结构,生成所述字段流向描述信息;
获取候选近义数据库字段集合,其中,所述候选近义数据库字段是预先构建的数据库字段表中的数据库字段;
对于所述候选近义数据库字段集合中的每个候选近义数据库字段,执行以下变换步骤:
确定所述候选近义数据库字段的数据库字段类型;
响应于确定所述数据库字段类型为第一数据库字段类型或第二数据库字段类型,根据所述数据库字段类型,对所述候选近义数据库字段进行字段转换,得到转换后近义数据库字段组;
响应于确定所述数据库字段类型为第三数据库字段类型或第四数据库字段类型,根据所述候选近义数据库字段,进行数据库字段预测,生成预测后数据库字段;
对所述预测后数据库字段进行字段转换,得到所述转换后近义数据库字段组;
分别确定所述目标字段和所述候选近义数据库字段的字段语义特征,得到目标字段语义特征和候选近义数据库字段语义特征;
确定所述转换后近义数据库字段组中的每个转换后近义数据库字段的字段语义特征,以生成转换后近义数据库字段语义特征,得到转换后近义数据库字段语义特征集合;
根据所述目标字段语义特征、候选近义数据库字段语义特征和转换后近义数据库字段语义特征集合,生成字段相似度;
响应于确定所述字段相似度大于等于预设相似度阈值,将所述候选近义数据库字段和所述转换后近义数据库字段组,确定为所述候选近义数据库字段对应的近义词型字段信息,
其中,所述响应于存在所述候选字段描述信息集合,对所述候选字段描述信息集合中的每个候选字段描述信息进行信息标准化处理,以生成标准化后字段描述信息,包括:
根据预先设置的停用字符表,通过字符匹配的方式对所述候选字段描述信息进行符号剔除,以生成符号剔除后的候选字段描述信息,其中,所述停用字符表中的停用字符根据对应的停用频次采用哈夫曼树结构存储;
确定所述候选字段描述信息对应的字符编码集信息;
响应于确定所述字符编码集信息与预设字符编码集信息不一致,根据所述预设字符编码集信息,对所述候选字段描述信息进行信息重编码,得到编码后字段描述信息,作为所述候选字段描述信息对应的标准化后字段描述信息。
2.根据权利要求1所述的方法,其中,所述方法还包括:
对所述字段描述信息添加信息标识,得到目标字段描述信息,其中,所述信息标识用于标识字段描述信息的生成方式;
根据所述目标字段描述信息,对所述目标字段进行自动字段更新;
响应于接收到针对所述目标字段描述信息的信息更新请求,执行以下处理步骤:
根据所述信息更新请求包括的请求对象标识,确定修改权限信息,其中,所述修改权限信息表征所述请求对象标识对应的对象是否拥有对所述目标字段的字段更新权限;
响应于确定所述修改权限信息表征所述请求对象标识对应的对象拥有对所述目标字段的字段更新权限,将所述目标字段对应的可选字段描述信息列表发送至目标终端,其中,所述目标终端是发送所述信息更新请求的终端;
响应于接收到所述目标终端发送的已选字段描述信息,根据所述已选字段描述信息,对所述目标字段进行更新。
3.一种描述信息生成装置,包括:
第一确定单元,被配置成确定目标字段的字段关联信息集合,其中,所述目标字段是待生成对应字段描述信息的数据库字段,所述字段关联信息集合包括:血缘型字段信息和近义词型字段信息集合,所述血缘型字段信息包括:血缘字段集合和字段流向描述信息;
第二确定单元,被配置成根据所述字段关联信息集合,确定是否存在候选字段描述信息集合;
信息标准化处理单元,被配置成响应于存在所述候选字段描述信息集合,对所述候选字段描述信息集合中的每个候选字段描述信息进行信息标准化处理,以生成标准化后字段描述信息,得到标准化后字段描述信息集合;
生成单元,被配置成根据所述目标字段、所述字段关联信息集合、所述标准化后字段描述信息集合和预先训练的描述信息生成模型,生成所述目标字段对应的字段描述信息,
其中,所述确定目标字段的字段关联信息集合,包括:
获取与所述目标字段关联的数据调度信息集合,其中,所述数据调度信息集合中的数据调度信息包括:数据操作语句;
对所述数据调度信息集合中的每个数据调度信息包括的数据操作语句进行语句解析,以生成解析后数据调度信息,得到解析后数据调度信息集合,其中,所述解析后数据调度信息集合中的解析后数据调度信息记录有数据表之间的数据库字段的映射关系;
根据所述解析后数据调度信息集合,生成数据库字段流向图,其中,所述数据库字段流向图表征不同数据表之间的数据库字段的流向关系,所述数据库字段流向图对应有至少一个末端数据表,其中,末端数据表是所述数据库字段流向图对应的至少一个数据表中的出度值为零的数据表;
根据末端数据表对应的入度值,对所述至少一个末端数据表进行降序表排序,得到末端数据表序列;
响应于确定末端数据表序列满足目标条件,将所述末端数据表序列中位于首位置的末端数据表,确定为目标末端数据表;
响应于确定所述末端数据表序列不满足所述目标条件,确定所述末端数据表序列中的前目标数量个末端数据表,作为候选末端数据表序列;
从所述候选末端数据表序列中随机选取候选末端数据表,作为目标末端数据表;
剔除所述数据库字段流向图对应的至少一个末端数据表中、非所述目标末端数据表的末端数据表,得到更新后数据字段流向图;
对所述更新后数据字段流向图进行图遍历,生成所述血缘字段集合;
根据所述更新后数据字段流向图的图结构,生成所述字段流向描述信息;
获取候选近义数据库字段集合,其中,所述候选近义数据库字段是预先构建的数据库字段表中的数据库字段;
对于所述候选近义数据库字段集合中的每个候选近义数据库字段,执行以下变换步骤:
确定所述候选近义数据库字段的数据库字段类型;
响应于确定所述数据库字段类型为第一数据库字段类型或第二数据库字段类型,根据所述数据库字段类型,对所述候选近义数据库字段进行字段转换,得到转换后近义数据库字段组;
响应于确定所述数据库字段类型为第三数据库字段类型或第四数据库字段类型,根据所述候选近义数据库字段,进行数据库字段预测,生成预测后数据库字段;
对所述预测后数据库字段进行字段转换,得到所述转换后近义数据库字段组;
分别确定所述目标字段和所述候选近义数据库字段的字段语义特征,得到目标字段语义特征和候选近义数据库字段语义特征;
确定所述转换后近义数据库字段组中的每个转换后近义数据库字段的字段语义特征,以生成转换后近义数据库字段语义特征,得到转换后近义数据库字段语义特征集合;
根据所述目标字段语义特征、候选近义数据库字段语义特征和转换后近义数据库字段语义特征集合,生成字段相似度;
响应于确定所述字段相似度大于等于预设相似度阈值,将所述候选近义数据库字段和所述转换后近义数据库字段组,确定为所述候选近义数据库字段对应的近义词型字段信息,
其中,所述响应于存在所述候选字段描述信息集合,对所述候选字段描述信息集合中的每个候选字段描述信息进行信息标准化处理,以生成标准化后字段描述信息,包括:
根据预先设置的停用字符表,通过字符匹配的方式对所述候选字段描述信息进行符号剔除,以生成符号剔除后的候选字段描述信息,其中,所述停用字符表中的停用字符根据对应的停用频次采用哈夫曼树结构存储;
确定所述候选字段描述信息对应的字符编码集信息;
响应于确定所述字符编码集信息与预设字符编码集信息不一致,根据所述预设字符编码集信息,对所述候选字段描述信息进行信息重编码,得到编码后字段描述信息,作为所述候选字段描述信息对应的标准化后字段描述信息。
4.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至2中任一所述的方法。
5.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至2中任一所述的方法。
CN202311016631.8A 2023-08-14 2023-08-14 描述信息生成方法、装置、电子设备和计算机可读介质 Active CN116756125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311016631.8A CN116756125B (zh) 2023-08-14 2023-08-14 描述信息生成方法、装置、电子设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311016631.8A CN116756125B (zh) 2023-08-14 2023-08-14 描述信息生成方法、装置、电子设备和计算机可读介质

Publications (2)

Publication Number Publication Date
CN116756125A CN116756125A (zh) 2023-09-15
CN116756125B true CN116756125B (zh) 2023-10-27

Family

ID=87951728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311016631.8A Active CN116756125B (zh) 2023-08-14 2023-08-14 描述信息生成方法、装置、电子设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN116756125B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017162026A1 (zh) * 2016-03-21 2017-09-28 阿里巴巴集团控股有限公司 生成描述信息的方法及装置
CN109582691A (zh) * 2018-11-15 2019-04-05 百度在线网络技术(北京)有限公司 用于控制数据查询的方法和装置
WO2023040499A1 (zh) * 2021-09-16 2023-03-23 支付宝(杭州)信息技术有限公司 知识图谱数据融合
CN115934855A (zh) * 2022-11-29 2023-04-07 广发银行股份有限公司 一种全链路字段级血缘解析方法、系统、设备及存储介质
CN116069838A (zh) * 2021-11-02 2023-05-05 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017162026A1 (zh) * 2016-03-21 2017-09-28 阿里巴巴集团控股有限公司 生成描述信息的方法及装置
CN109582691A (zh) * 2018-11-15 2019-04-05 百度在线网络技术(北京)有限公司 用于控制数据查询的方法和装置
WO2023040499A1 (zh) * 2021-09-16 2023-03-23 支付宝(杭州)信息技术有限公司 知识图谱数据融合
CN116069838A (zh) * 2021-11-02 2023-05-05 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN115934855A (zh) * 2022-11-29 2023-04-07 广发银行股份有限公司 一种全链路字段级血缘解析方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN116756125A (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
US11417131B2 (en) Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network
US10891272B2 (en) Declarative language and visualization system for recommended data transformations and repairs
US10055410B1 (en) Corpus-scoped annotation and analysis
CN112711581B (zh) 医疗数据校验方法、装置、电子设备及存储介质
US10956381B2 (en) Data migration system
CN111159220B (zh) 用于输出结构化查询语句的方法和装置
US11120086B2 (en) Toponym disambiguation
US20220284174A1 (en) Correcting content generated by deep learning
US20230237277A1 (en) Aspect prompting framework for language modeling
US20210191938A1 (en) Summarized logical forms based on abstract meaning representation and discourse trees
US20220035998A1 (en) Obtaining supported decision trees from text for medical health applications
US11669679B2 (en) Text sequence generating method and apparatus, device and medium
CN111078825A (zh) 结构化处理方法、装置、计算机设备及介质
CN111415747A (zh) 电子病历的构建方法及装置
US11645452B2 (en) Performance characteristics of cartridge artifacts over text pattern constructs
CN108563645B (zh) His系统的元数据翻译方法和装置
CN116756125B (zh) 描述信息生成方法、装置、电子设备和计算机可读介质
US11928437B2 (en) Machine reading between the lines
US11599725B2 (en) Acquiring new definitions of entities
CN113393288A (zh) 订单处理信息生成方法、装置、设备和计算机可读介质
US20200073928A1 (en) Method and Apparatus for Updating Information
CN116737870B (zh) 上报信息存储方法、装置、电子设备和计算机可读介质
US11294907B2 (en) Domain query execution using user-provided definition
US11586822B2 (en) Adaptation of regular expressions under heterogeneous collation rules
US20220114189A1 (en) Extraction of structured information from unstructured documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant