CN116975044B - 质检规则确定方法、装置、设备和存储介质 - Google Patents

质检规则确定方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN116975044B
CN116975044B CN202311222061.8A CN202311222061A CN116975044B CN 116975044 B CN116975044 B CN 116975044B CN 202311222061 A CN202311222061 A CN 202311222061A CN 116975044 B CN116975044 B CN 116975044B
Authority
CN
China
Prior art keywords
quality inspection
inspection rule
information
target
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311222061.8A
Other languages
English (en)
Other versions
CN116975044A (zh
Inventor
郑扬勇
柳宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunli Intelligent Technology Co ltd
Original Assignee
Yunli Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunli Intelligent Technology Co ltd filed Critical Yunli Intelligent Technology Co ltd
Priority to CN202311222061.8A priority Critical patent/CN116975044B/zh
Publication of CN116975044A publication Critical patent/CN116975044A/zh
Application granted granted Critical
Publication of CN116975044B publication Critical patent/CN116975044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/2448Query languages for particular applications; for extensibility, e.g. user defined types
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Stored Programmes (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种质检规则确定方法、装置、设备和存储介质,涉及数据质量管理技术领域,所述方法包括:响应用户的第一操作指令,获取待质检表;基于所述待质检表,确定目标提示信息;将所述目标提示信息输入生成式大语言模型,输出所述目标提示信息对应的第一质检规则建议信息;基于所述第一质检规则建议信息,确定所述待质检表对应的目标质检规则。本发明可提高目标质检规则的创建效率和配置效率,确保目标质检规则的全面性。

Description

质检规则确定方法、装置、设备和存储介质
技术领域
本发明涉及数据质量管理技术领域,尤其涉及一种质检规则确定方法、装置、设备和存储介质。
背景技术
数据中台中包括依据企业特有的业务模式和组织架构,构建的持续不断把数据变成资产并服务于业务的机制,数据中台需要具备数据汇聚整合、数据提纯加工、数据服务可视化、数据价值变现4个核心能力,便于企业员工和客户等应用数据。
数据中台中包括数据质量管理(Data Quality Management)功能,通过配置质检规则,对各数据表中的数据进行质检,及时发现数据质量问题,以纠正数据质量问题,形成高质量的数据资产。
然而,在配置质检规则时,一般由操作人员人工创建各数据表对应的质检规则,且各数据表对应的业务领域不同,各数据表的字段信息较多,往往需要对表级或字段级设置多个质检规则,人工创建质检规则容易遗漏且效率较低。
发明内容
本发明提供一种质检规则确定方法、装置、设备和存储介质,用以解决现有技术中人工创建质检规则容易遗漏且效率较低的缺陷,提高目标质检规则的创建效率和配置效率,确保目标质检规则的全面性。
本发明提供一种质检规则确定方法,包括:
响应用户的第一操作指令,获取待质检表;
基于所述待质检表,确定目标提示信息;
将所述目标提示信息输入生成式大语言模型,输出所述目标提示信息对应的第一质检规则建议信息;
基于所述第一质检规则建议信息,确定所述待质检表对应的目标质检规则。
根据本发明提供的质检规则确定方法,所述基于所述待质检表,确定目标提示信息,包括:
基于所述待质检表对应的表格信息,确定第一提示信息;
响应用户的第二操作指令,获取目标语法信息;
将所述第一提示信息和所述目标语法信息进行拼接,确定所述目标提示信息。
根据本发明提供的质检规则确定方法,所述表格信息包括:表名信息和所述待质检表中各字段对应的字段信息;
所述基于所述待质检表对应的表格信息,确定第一提示信息,包括:
基于所述表名信息,确定领域提示信息;
基于各所述字段信息,确定所述待质检表中各字段对应的质检规则提示信息;
将所述领域提示信息和所有质检规则提示信息进行拼接,确定所述第一提示信息。
根据本发明提供的质检规则确定方法,所述基于所述第一质检规则建议信息,确定所述待质检表对应的目标质检规则,包括:
识别所述第一质检规则建议信息中的分隔符;
基于所述分隔符,从所述第一质检规则建议信息中确定第二质检规则建议信息;
基于所述第二质检规则建议信息,确定所述待质检表对应的目标质检规则。
根据本发明提供的质检规则确定方法,所述基于所述第二质检规则建议信息,确定所述待质检表对应的目标质检规则,包括:
获取预设关联表;
基于所述预设关联表,确定所述目标语法信息对应的目标解析器,所述预设关联表中包括语法信息与解析器的对应关系;
基于所述目标解析器对所述第二质检规则建议信息进行解析,确定所述待质检表对应的目标质检规则。
根据本发明提供的质检规则确定方法,所述基于所述目标解析器对所述第二质检规则建议信息进行解析,确定所述待质检表对应的目标质检规则,包括:
基于所述目标解析器对所述第二质检规则建议信息进行解析,得到质检规则清单信息;
将所述质检规则清单信息发送至终端,所述终端用于显示所述质检规则清单信息;
响应用户的第三操作指令,基于所述质检规则清单信息,确定所述待质检表对应的目标质检规则。
根据本发明提供的质检规则确定方法,所述方法还包括:
响应用户的第四操作指令,在数据中台中配置所述目标质检规则,并将所述目标质检规则保存至质检规则库。
本发明还提供一种质检规则确定装置,包括:
获取模块,用于响应用户的第一操作指令,获取待质检表;
第一确定模块,用于基于所述待质检表,确定目标提示信息;
输出模块,用于将所述目标提示信息输入生成式大语言模型,输出所述目标提示信息对应的第一质检规则建议信息;
第二确定模块,用于基于所述第一质检规则建议信息,确定所述待质检表对应的目标质检规则。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述质检规则确定方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述质检规则确定方法。
本发明提供的质检规则确定方法、装置、设备和存储介质,通过获取待质检表,并根据待质检表确定目标提示信息,之后将目标提示信息输入生成式大语言模型,输出第一质检规则建议信息,并根据第一质检规则建议信息,确定该待质检表对应的目标质检规则,实现目标质检规则的自动创建,提高目标质检规则的创建效率和配置效率,确保目标质检规则的全面性,降低对操作人员的专业度要求,提高普适性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术提供的质检规则配置方法的流程示意图;
图2是现有技术提供的质检规则配置界面的界面示意图;
图3是本发明实施例提供的质检规则确定方法的流程示意图之一;
图4是本发明实施例提供的获取待质检表的界面示意图;
图5是本发明实施例提供的质检规则确定方法的流程示意图之二;
图6是本发明实施例提供的质检规则确定方法的流程示意图之三;
图7是本发明实施例提供的质检规则确定装置的结构示意图;
图8是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是现有技术提供的质检规则配置方法的流程示意图,如图1所示,现有技术中,在进行质检规则配置时,在获取数据中台中的数据表后,读取该数据表的表格信息,响应数据质量管理员的操作,可开启质检规则配置界面,该质检规则配置界面如图2所示。之后,由数据质量管理员进行质检规则的创建和配置,并将质检规则保存至质检规则库中。然而,人工创建质检规则和配置质检规则的效率较低,且较为片面,容易遗漏数据表中的字段信息。
针对上述问题,本申请实施例提供一种质检规则确定方法,图3是本发明实施例提供的质检规则确定方法的流程示意图之一,如图3所示,该方法包括:
步骤310、响应用户的第一操作指令,获取待质检表。
具体的,数据中台是一种用于集中收集、整合、存储、管理、处理和共享企业内外所有数据资源,且建立在大数据技术基础上的平台。数据中台强调数据的一致性、标准化、可重用性和可共享性,旨在解决企业内部数据孤岛问题,推进数字化转型和数据驱动的企业运营管理。通过数据中台,企业可以实现数据资产的高效利用和增值,促进各个业务部门之间以及企业内部和外部的数据共享与协作,实现数据资产规模化增长和重复利用。数据中台中除数据质量管理系统之外,还包括数据存储系统,该数据存储系统用于存储、管理和访问数据。该数据存储系统可以支持多种数据类型和格式,该数据类型可以包括结构化数据、半结构化数据和非结构化数据。此外,数据存储系统还应该具有可扩展性、高性能、可靠性和安全性等特点,以满足企业不断增长的数据存储和处理需求。可选的,该数据存储系统可以包括关系型数据库、列式数据库、文件系统和分布式文件系统等。
用户在登录数据质量管理系统后,可调用数据存储系统,获取待质检表。示例地,图4是本发明实施例提供的获取待质检表的界面示意图,如图4所示,在用户打开数据质量管理系统中的数据表质检页面后,可通过输入数据表英文名、数据表中文名、是否已质检和质检结果等生成查询指令,通过该查询指令可调用数据存储系统,获取待质检表。在查询结果中包括的数据表为至少两张的情况下,用户可从多张数据表中确定待质检表。
步骤320、基于所述待质检表,确定目标提示信息。
具体的,在确定待质检表后,可通过读取待质检表的表格信息,确定目标提示信息prompt。
进一步的,图5是本发明实施例提供的质检规则确定方法的流程示意图之二,如图5所示,所述基于所述待质检表,确定目标提示信息,包括:
基于所述待质检表对应的表格信息,确定第一提示信息;
响应用户的第二操作指令,获取目标语法信息;
将所述第一提示信息和所述目标语法信息进行拼接,确定所述目标提示信息。
具体的,该待质检表对应的所述表格信息包括:表名信息和所述待质检表中各字段对应的字段信息,该字段信息一般包括表头和数据记录两部分,表头用于表征待质检表的列和每列对应的数据含义,数据记录则用于表征实际的数据值。通过获取表头,可确定第一提示信息。在响应用户的第二操作指令后,确定目标语法信息,将第一提示信息和目标语法信息进行拼接后,可确定目标提示信息prompt。
可选的,上述表头可以包括列名、数据类型、约束条件、可空性和备注信息等,其中:
列名表示每列数据的名称,描述了该列或者该字段表示的数据含义,待质检表中的一列可以为一个字段。数据类型:可以包括整数、浮点数、布尔型、字符串和日期等。约束条件为对数据表中的数据进行限制的条件,例如非空、唯一、外键等。可空性用于表示该列是否可以为空。备注信息可以包括数据的默认值、枚举值和注释等。
需要说明的是,该目标语法信息用于规定生成式大语言模型根据目标提示信息prompt,如何组织语言和表达信息,并生成第一质检规则建议信息的规则,该目标语法信息确定了第一质检规则建议信息的结构和组成,具体可以包括句子结构、词汇、标点符号和语法规则等。该目标语法信息可以包括:SQL/SQL92 Where表达式语法、Spring ExpressionLanguage(SpEL)表达式语法、Java Expression Language (JEXL)表达式语法和GroovyScript语法等。
进一步的,所述基于所述待质检表对应的表格信息,确定第一提示信息,包括:
基于所述表名信息,确定领域提示信息;
基于各所述字段信息,确定所述待质检表中各字段对应的质检规则提示信息;
将所述领域提示信息和所有质检规则提示信息进行拼接,确定所述第一提示信息。
具体的,在获取待质检表的表格信息后,通过表名信息,可确定该待质检表对应的领域提示信息,该表名信息对应的语言可以为汉语、英语、法语和俄语等,本发明实施例对此不作限制。若该表名信息为汉语,可提取表名信息中的关键词,获取该待质检表对应的领域提示信息,若该表名信息为汉语以外的其他语种,可先对该表名信息进行翻译,之后再对译文进行关键词提取,以获取该待质检表对应的领域提示信息。针对各字段信息,可分别确定各列对应的列名、数据类型、约束条件、可空性和备注信息等,并将各列对应的列名、数据类型、约束条件、可空性和备注信息等确定为各列对应的质检规则提示信息,并将该领域提示信息和所有的质检规则提示信息进行拼接后,得到第一提示信息。此外,本发明实施例对字段信息的语言也不作限制,可以根据该字段信息的译文,确定第一提示信息。
示例地,以该待质检表为水利行业防汛应急专题表为例,可获取该水利行业防汛应急专题表的表名信息为dwd_flood_control,且该水利行业防汛应急专题表中的列名包括:ID、station_code、station_name、water_level、flow_rate、rainfall、pt_date、create_time和update_time,根据表名、数据类型、列名、列名对应的译文、约束条件、可空性和备注信息,可确定第一提示信息。此外,响应用户的第二操作指令,确定目标语法信息为SQL WHERE语法,将第一提示信息和第二操作指令拼接后,可得到目标提示信息prompt为:给出水利行业防汛应急专题表的所有数据质检规则。水利行业防汛应急专题表表名为dwd_flood_control,包含如下字段:ID类型为BIGINT描述为“主键ID”,station_code类型为STRING描述为“测站编码”,station_name类型为STRING描述为“测站名称”,water_level类型为DOUBLE描述为“水位,值范围<1000”,flow_rate类型为DOUBLE描述为“流量,值范围<500”,rainfall类型为DOUBLE描述为“降雨量,值范围小于<200”,pt_date类型为STRING描述为“分区,格式为yyyyMM,表示数据的时间”,create_time类型为TIMESTAMP描述为“数据创建时间”,update_time类型为TIMESTAMP描述为“数据更新时间”。
步骤330、将所述目标提示信息输入生成式大语言模型,输出所述目标提示信息对应的第一质检规则建议信息。
具体的,在确定上述目标提示信息prompt后,可调用生成式大语言模型,将该目标提示信息prompt输入该生成式大语言模型,该生成式大语言模型可根据目标提示信息prompt,学习目标提示信息prompt中设计的语言规则,进而生成符合语法和语义规则的第一质检规则建议信息。示例地,将上述目标提示信息prompt输入该生成式大语言模型后,该生成式大语言模型输出的第一质检规则建议信息为:
1.主键ID (id) 不能为空不能重复: id S NOT NULL AND COUNTd) = COUNT(DISTINCT id);
2.测站编码 (station code) 不能为空: station code IS NOT NULL;
3.测站名称 (station name) 不能为空: station name IS NOT NULL;
4.水位 (water level) 必须小于1000: water level<1000;
5.流量 (flow rate) 必须小于500: flow rate<500;
6.降雨量 (rainfall) 必须小于200: rainfall<200;
7.分区(pt date) 格式必须为yyyyMM: REGEXP CONTAINS(pt date,d4(0[1-9]1[0-2])$);
8.数据创建时间 (create time) 不能为空: create time IS NOT NULL;
9.数据更新时间 (update time) 不能为空: update time IS NOT NULL。
可选的,上述第一质检规则建议信息中各建议信息中的阈值可以是从待质检表的字段信息中获取的,还可以是该生成式大语言模型根据样本数据生成的。
需要说明的是,该生成式大语言模型是指能够生成自然语言的模型,通过对大量样本数据进行训练,从而学习到语言的规则和模式,并能够生成符合语法和语义规则的自然语言文本。生成式大语言模型广泛应用于自然语言处理、语音识别、智能客服、自动翻译等领域。该生成式大语言模型可以包括文心一言和讯飞星火等。该生成式大语言模型的样本数据可以为通过互联网、公开数据库、书籍、新闻、文章等渠道获取的数据。
可选的,在获取样本数据后,可对该样本数据进行预处理,预处理可以包括去除无用的特殊字符、统一大小写、分词和去除停用词等。
可选的,该生成式大语言模型的调用方式可以包括:REST API、命令行界面(CLI)或在线平台,其中,REST API是一种远程调用方式,可以使用任何支持HTTP请求的编程语言通过发送REST请求来调用该生成式大语言模型。在该生成式大语言模型提供命令行界面(CLI)的情况下,开发人员可以在终端中使用命令调用该生成式大语言模型。或者,通过浏览器等在线平台直接访问该生成式大语言模型。
可选的,上述编程语言可以包括Python、Java和JavaScript等。
步骤340、基于所述第一质检规则建议信息,确定所述待质检表对应的目标质检规则。
具体的,在得到第一质检规则建议信息后,基于该生成式大语言模型的精准度考虑,还需进一步从第一质检规则建议信息中确定待质检表的目标质检规则,便于将该目标质检规则自动配置后保存至数据中台的质检规则库中。
进一步的,所述基于所述第一质检规则建议信息,确定所述待质检表对应的目标质检规则,包括:
识别所述第一质检规则建议信息中的分隔符;
基于所述分隔符,从所述第一质检规则建议信息中确定第二质检规则建议信息;
基于所述第二质检规则建议信息,确定所述待质检表对应的目标质检规则。
具体的,可通过调用该生成式大语言模型的API接口,获取第一质检规则建议信息,以上述第一质检规则建议信息中的“5.流量 (flow rate) 必须小于500: flow rate<500”为例,该第一质检规则建议信息中,以“:”作为分隔符,分隔符之前为质检规则建议的描述,分隔符之后为对应的质检规则建议的表达式,因此,识别该分隔符后,将分隔符之后的表达式确定为第二质检规则建议信息。在确定第二质检规则建议信息后,根据分隔符之前的描述,确定描述信息、列名和数据类型,再结合第二质检规则建议信息和表名,可得到该第一质检规则建议信息对应的质检规则记录,根据该质检规则记录,该质检规则记录可以为:
{
"tableName":"dwd flood control"
"description":"流量 (flow rate) 必须小于500"
"parameterKey": "flow rate"
"parameterValueType":"double"
"parameterValue": "flow rate<500"
}。
其中,tableName表示表名,description表示描述信息,parameterKey表示列名,parameterValueType表示数据类型,parameterValue表示质检规则建议对应的表达式。在确定所有质检规则记录后,可进一步确定目标质检规则,便于后续进行自动配置,提高质检规则的创建效率和配置效率。
进一步的,所述基于所述第二质检规则建议信息,确定所述待质检表对应的目标质检规则,包括:
获取预设关联表;
基于所述预设关联表,确定所述目标语法信息对应的目标解析器,所述预设关联表中包括语法信息与解析器的对应关系;
基于所述目标解析器对所述第二质检规则建议信息进行解析,确定所述待质检表对应的目标质检规则。
具体的,由于该第二质检规则建议信息是该生成式大语言模型根据用户指示的目标语法信息生成的,因此,在确定第二质检规则建议信息后,首先获取包括语法信息和解析器的对应关系的预设关联表,并在预设关联表中匹配该目标语法信息,进而确定该目标语法信息对应的目标解析器,例如,在目标语法信息为SQL/SQL92 Where时,可从预设关联表中获取目标解析器为SQL AST,根据该目标解析器对该第二质检规则进行循环解析,以确定最终的目标质检规则。
可选的,预设关联表中的语法信息与解析器的对应关系可以包括:SQL/SQL92Where表达式语法对应的解析器或解析库为SQL AST;Spring Expression Language(SpEL)表达式语法对应的解析器或解析库为Spring Expression Jar包;Java ExpressionLanguage (JEXL)表达式语法对应的解析器或解析库为Apache CommonJEXL Jar包;GroovyScript语法对应的解析器或解析库为Groovy Script Engine包。
进一步的,所述基于所述目标解析器对所述第二质检规则建议信息进行解析,确定所述待质检表对应的目标质检规则,包括:
基于所述目标解析器对所述第二质检规则建议信息进行解析,得到质检规则清单信息;
将所述质检规则清单信息发送至终端,所述终端用于显示所述质检规则清单信息;
响应用户的第三操作指令,基于所述质检规则清单信息,确定所述待质检表对应的目标质检规则。
具体的,通过对各第二质检规则建议信息进行解析,并根据分隔符之前的质检规则建议的描述,生成各第二质检规则建议信息的质检规则记录,该质检规则记录中包括质检规则配置界面中的各参数值。根据各参数值,可生成质检规则清单信息,该质检规则清单信息中包括各字段对应的解析值和对应的描述。在生成该质检规则清单信息后,发送至终端进行批量显示,便于用户确认各条质检规则建议是否正确,若正确,则将该质检规则建议确定为质检规则,最终确定该待质检表对应的目标质检规则。
可选的,如图6所示,质检规则清单信息中包括该待质检表对应的至少一条质检规则记录,若用户确认质检规则记录X正确且需要配置该质检规则记录X对应的目标质检规则,则在质检规则清单信息中应用字段进行勾选。在用户确认过程中,可点击查看,跳转至该条质检规则记录X对应的质检规则配置界面,已确定质检规则配置界面中的各参数值是否正确。
进一步的,所述方法还包括:
响应用户的第四操作指令,在数据中台中配置所述目标质检规则,并将所述目标质检规则保存至质检规则库。
具体的,在用户确定目标质检规则后,响应用户的第四操作指令,根据确定的目标质检规则,在数据中台中自动填充质检规则配置界面的各参数值,并将该目标质检规则保存至质检规则库中,实现质检规则的自动配置,提高质检规则的配置效率。
本发明实施例提供的质检规则确定方法,通过获取待质检表,并根据待质检表确定目标提示信息,之后将目标提示信息输入生成式大语言模型,输出第一质检规则建议信息,并根据第一质检规则建议信息,确定该待质检表对应的目标质检规则,实现目标质检规则的自动创建,提高目标质检规则的创建效率和配置效率,确保目标质检规则的全面性,降低对操作人员的专业度要求,提高普适性。
下面对本发明提供的质检规则确定装置进行描述,下文描述的质检规则确定装置与上文描述的质检规则确定方法可相互对应参照。
本发明实施例还提供一种质检规则确定装置,图7是本发明实施例提供的质检规则确定装置的结构示意图,如图7所示,该质检规则确定装置700包括:获取模块710、第一确定模块720、输出模块730和第二确定模块740,其中:
获取模块710,用于响应用户的第一操作指令,获取待质检表;
第一确定模块720,用于基于所述待质检表,确定目标提示信息;
输出模块730,用于将所述目标提示信息输入生成式大语言模型,输出所述目标提示信息对应的第一质检规则建议信息;
第二确定模块740,用于基于所述第一质检规则建议信息,确定所述待质检表对应的目标质检规则。
本发明实施例提供的质检规则确定装置,通过获取待质检表,并根据待质检表确定目标提示信息,之后将目标提示信息输入生成式大语言模型,输出第一质检规则建议信息,并根据第一质检规则建议信息,确定该待质检表对应的目标质检规则,实现目标质检规则的自动创建,提高目标质检规则的创建效率和配置效率,确保目标质检规则的全面性,降低对操作人员的专业度要求,提高普适性。
可选的,第一确定模块720,具体用于:
基于所述待质检表对应的表格信息,确定第一提示信息;
响应用户的第二操作指令,获取目标语法信息;
将所述第一提示信息和所述目标语法信息进行拼接,确定所述目标提示信息。
可选的,所述表格信息包括:表名信息和所述待质检表中各字段对应的字段信息。
可选的,第一确定模块720,具体用于:
基于所述表名信息,确定领域提示信息;
基于各所述字段信息,确定所述待质检表中各字段对应的质检规则提示信息;
将所述领域提示信息和所有质检规则提示信息进行拼接,确定所述第一提示信息。
可选的,第二确定模块740,具体用于:
识别所述第一质检规则建议信息中的分隔符;
基于所述分隔符,从所述第一质检规则建议信息中确定第二质检规则建议信息;
基于所述第二质检规则建议信息,确定所述待质检表对应的目标质检规则。
可选的,第二确定模块740,具体用于:
获取预设关联表;
基于所述预设关联表,确定所述目标语法信息对应的目标解析器,所述预设关联表中包括语法信息与解析器的对应关系;
基于所述目标解析器对所述第二质检规则建议信息进行解析,确定所述待质检表对应的目标质检规则。
可选的,第二确定模块740,具体用于:
基于所述目标解析器对所述第二质检规则建议信息进行解析,得到质检规则清单信息;
将所述质检规则清单信息发送至终端,所述终端用于显示所述质检规则清单信息;
响应用户的第三操作指令,基于所述质检规则清单信息,确定所述待质检表对应的目标质检规则。
可选的,该质检规则确定装置700还包括:配置模块,该配置模块具体用于:
响应用户的第四操作指令,在数据中台中配置所述目标质检规则,并将所述目标质检规则保存至质检规则库。
图8是本发明实施例提供的电子设备的结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行质检规则确定方法,该方法包括:
响应用户的第一操作指令,获取待质检表;
基于所述待质检表,确定目标提示信息;
将所述目标提示信息输入生成式大语言模型,输出所述目标提示信息对应的第一质检规则建议信息;
基于所述第一质检规则建议信息,确定所述待质检表对应的目标质检规则。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的质检规则确定方法,该方法包括:
响应用户的第一操作指令,获取待质检表;
基于所述待质检表,确定目标提示信息;
将所述目标提示信息输入生成式大语言模型,输出所述目标提示信息对应的第一质检规则建议信息;
基于所述第一质检规则建议信息,确定所述待质检表对应的目标质检规则。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的质检规则确定方法,该方法包括:
响应用户的第一操作指令,获取待质检表;
基于所述待质检表,确定目标提示信息;
将所述目标提示信息输入生成式大语言模型,输出所述目标提示信息对应的第一质检规则建议信息;
基于所述第一质检规则建议信息,确定所述待质检表对应的目标质检规则。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种质检规则确定方法,其特征在于,包括:
响应用户的第一操作指令,获取待质检表;
基于所述待质检表,确定目标提示信息;
将所述目标提示信息输入生成式大语言模型,输出所述目标提示信息对应的第一质检规则建议信息;
基于所述第一质检规则建议信息,确定所述待质检表对应的目标质检规则;
所述基于所述待质检表,确定目标提示信息,包括:
基于所述待质检表对应的表格信息,确定第一提示信息;
响应用户的第二操作指令,获取目标语法信息;
将所述第一提示信息和所述目标语法信息进行拼接,确定所述目标提示信息;
所述表格信息包括:表名信息和所述待质检表中各字段对应的字段信息;
所述基于所述待质检表对应的表格信息,确定第一提示信息,包括:
基于所述表名信息,确定领域提示信息;
基于各所述字段信息,确定所述待质检表中各字段对应的质检规则提示信息;
将所述领域提示信息和所有质检规则提示信息进行拼接,确定所述第一提示信息;
所述基于所述第一质检规则建议信息,确定所述待质检表对应的目标质检规则,包括:
识别所述第一质检规则建议信息中的分隔符;
基于所述分隔符,从所述第一质检规则建议信息中确定第二质检规则建议信息;
基于所述第二质检规则建议信息,确定所述待质检表对应的目标质检规则;
所述基于所述第二质检规则建议信息,确定所述待质检表对应的目标质检规则,包括:
获取预设关联表;
基于所述预设关联表,确定所述目标语法信息对应的目标解析器,所述预设关联表中包括语法信息与解析器的对应关系;
基于所述目标解析器对所述第二质检规则建议信息进行解析,确定所述待质检表对应的目标质检规则。
2.根据权利要求1所述的质检规则确定方法,其特征在于,所述基于所述目标解析器对所述第二质检规则建议信息进行解析,确定所述待质检表对应的目标质检规则,包括:
基于所述目标解析器对所述第二质检规则建议信息进行解析,得到质检规则清单信息;
将所述质检规则清单信息发送至终端,所述终端用于显示所述质检规则清单信息;
响应用户的第三操作指令,基于所述质检规则清单信息,确定所述待质检表对应的目标质检规则。
3.根据权利要求1所述的质检规则确定方法,其特征在于,所述方法还包括:
响应用户的第四操作指令,在数据中台中配置所述目标质检规则,并将所述目标质检规则保存至质检规则库。
4.一种质检规则确定装置,其特征在于,包括:
获取模块,用于响应用户的第一操作指令,获取待质检表;
第一确定模块,用于基于所述待质检表,确定目标提示信息;
输出模块,用于将所述目标提示信息输入生成式大语言模型,输出所述目标提示信息对应的第一质检规则建议信息;
第二确定模块,用于基于所述第一质检规则建议信息,确定所述待质检表对应的目标质检规则;
第一确定模块,具体用于:
基于所述待质检表对应的表格信息,确定第一提示信息;
响应用户的第二操作指令,获取目标语法信息;
将所述第一提示信息和所述目标语法信息进行拼接,确定所述目标提示信息;
所述表格信息包括:表名信息和所述待质检表中各字段对应的字段信息;
第一确定模块,还用于:
基于所述表名信息,确定领域提示信息;
基于各所述字段信息,确定所述待质检表中各字段对应的质检规则提示信息;
将所述领域提示信息和所有质检规则提示信息进行拼接,确定所述第一提示信息;
第二确定模块,具体用于:
识别所述第一质检规则建议信息中的分隔符;
基于所述分隔符,从所述第一质检规则建议信息中确定第二质检规则建议信息;
基于所述第二质检规则建议信息,确定所述待质检表对应的目标质检规则;
第二确定模块,还用于:
获取预设关联表;
基于所述预设关联表,确定所述目标语法信息对应的目标解析器,所述预设关联表中包括语法信息与解析器的对应关系;
基于所述目标解析器对所述第二质检规则建议信息进行解析,确定所述待质检表对应的目标质检规则。
5.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-3任一项所述质检规则确定方法。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3任一项所述质检规则确定方法。
CN202311222061.8A 2023-09-21 2023-09-21 质检规则确定方法、装置、设备和存储介质 Active CN116975044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311222061.8A CN116975044B (zh) 2023-09-21 2023-09-21 质检规则确定方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311222061.8A CN116975044B (zh) 2023-09-21 2023-09-21 质检规则确定方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN116975044A CN116975044A (zh) 2023-10-31
CN116975044B true CN116975044B (zh) 2023-12-22

Family

ID=88476927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311222061.8A Active CN116975044B (zh) 2023-09-21 2023-09-21 质检规则确定方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN116975044B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020034526A1 (zh) * 2018-08-17 2020-02-20 深圳壹账通智能科技有限公司 保险录音的质检方法、装置、设备和计算机存储介质
CN111177176A (zh) * 2019-11-18 2020-05-19 腾讯科技(深圳)有限公司 数据检测方法、装置及存储介质
CN112685383A (zh) * 2020-12-25 2021-04-20 山东众阳健康科技集团有限公司 一种基于规则组件的业务规则批量生成方法及系统
CN112783882A (zh) * 2021-01-22 2021-05-11 卓尔购信息科技(武汉)有限公司 一种大数据质检方法、系统、存储介质及设备
CN113051262A (zh) * 2021-04-30 2021-06-29 中国银行股份有限公司 一种数据质检方法、装置、设备及存储介质
CN114240160A (zh) * 2021-12-17 2022-03-25 挂号网(杭州)科技有限公司 电子病历的质控方法、装置、电子设备及存储介质
CN115221893A (zh) * 2022-09-21 2022-10-21 中国电子信息产业集团有限公司 基于规则与语义分析的质检规则自动化配置方法及装置
WO2023011140A1 (zh) * 2021-08-02 2023-02-09 四川省林业和草原调查规划院(四川省林业和草原生态环境监测中心) 森林资源一张图质检逻辑规则更新方法、系统及云平台

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020034526A1 (zh) * 2018-08-17 2020-02-20 深圳壹账通智能科技有限公司 保险录音的质检方法、装置、设备和计算机存储介质
CN111177176A (zh) * 2019-11-18 2020-05-19 腾讯科技(深圳)有限公司 数据检测方法、装置及存储介质
CN112685383A (zh) * 2020-12-25 2021-04-20 山东众阳健康科技集团有限公司 一种基于规则组件的业务规则批量生成方法及系统
CN112783882A (zh) * 2021-01-22 2021-05-11 卓尔购信息科技(武汉)有限公司 一种大数据质检方法、系统、存储介质及设备
CN113051262A (zh) * 2021-04-30 2021-06-29 中国银行股份有限公司 一种数据质检方法、装置、设备及存储介质
WO2023011140A1 (zh) * 2021-08-02 2023-02-09 四川省林业和草原调查规划院(四川省林业和草原生态环境监测中心) 森林资源一张图质检逻辑规则更新方法、系统及云平台
CN114240160A (zh) * 2021-12-17 2022-03-25 挂号网(杭州)科技有限公司 电子病历的质控方法、装置、电子设备及存储介质
CN115221893A (zh) * 2022-09-21 2022-10-21 中国电子信息产业集团有限公司 基于规则与语义分析的质检规则自动化配置方法及装置

Also Published As

Publication number Publication date
CN116975044A (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
US10169337B2 (en) Converting data into natural language form
US11281862B2 (en) Significant correlation framework for command translation
US8271870B2 (en) Document analysis, commenting, and reporting system
US9384187B2 (en) Document analysis, commenting, and reporting system
US20240289559A1 (en) Text reduction and analysis interface to a text generation modeling system
US20060015324A1 (en) Method and apparatus for natural language generation
US11861321B1 (en) Systems and methods for structure discovery and structure-based analysis in natural language processing models
CN107766353B (zh) 一种数据库统计信息迁移的方法和设备
CN108664546B (zh) Xml数据结构转换方法和装置
CN112487197A (zh) 基于会议记录构建知识图谱的方法、装置及处理器
US10460044B2 (en) Methods and systems for translating natural language requirements to a semantic modeling language statement
US20220012411A1 (en) Performance characteristics of cartridge artifacts over text pattern constructs
CN111611779B (zh) 辅助文本标注方法、装置、设备及其存储介质
CN116975044B (zh) 质检规则确定方法、装置、设备和存储介质
CN117539981A (zh) 一种主题数据集的构建方法、设备及介质
US20230044287A1 (en) Semantics based data and metadata mapping
CN115687075A (zh) 页面测试脚本的纠错方法及装置
CN113568692B (zh) 多语言显示方法、装置、电子设备及存储介质
CN112836477B (zh) 代码注释文档的生成方法、装置、电子设备及存储介质
US20240046214A1 (en) Systems and methods for facilitating modifications and updates to shared content
US20240242037A1 (en) Generative text model interface system
CN116991867A (zh) 一种可配置的动态sql查询方法
CN116501763A (zh) 一种数据库查询方法、系统、介质及计算机
CN118838979A (zh) 用于nl2sql模型训练的数据处理方法、装置、设备及介质
CN118193690A (zh) 答案文本生成方法、装置、电子设备及计算机介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant