CN116561390A

CN116561390A - 一种获取目标任务数据集的数据处理系统

Info

Publication number: CN116561390A
Application number: CN202310528894.0A
Authority: CN
Inventors: 袁凯; 叶新江; 方毅
Original assignee: Merit Interactive Co Ltd
Current assignee: Merit Interactive Co Ltd
Priority date: 2023-05-09
Filing date: 2023-05-09
Publication date: 2023-08-08

Abstract

本发明提供了一种获取目标任务数据集的数据处理系统，包括：目标问题语句、初始任务数据集、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现以下步骤：根据初始任务数据集，获取第一任务数据集；根据目标问题语句，获取第一关键词列表；根据第一任务数据集，获取第二任务数据集；根据第二任务数据集，获取目标任务数据集。可知本发明，对初始任务数据集进行了数据治理，获取第一任务数据集，在第一任务数据集中获取目标任务数据集，减少了数据量，并在获取目标任务数据集的过程中，对关键词进行扩展，根据关键词以及与关键词相关的词语获取目标任务数据集，有利于提高获取目标任务数据集的精准度。

Description

一种获取目标任务数据集的数据处理系统

技术领域

本发明涉及数据处理领域，特别是涉及一种获取目标任务数据集的数据处理系统。

背景技术

随着计算机技术的快速发展，对于每个任务都会存在成千上万个任务数据列表，用户无法从成千上万个任务数据列表中挑选出所需要的目标任务数据列表，因此，智能的获取目标任务数据列表是非常有必要的，现有的获取目标任务数据列表的方法大多为将数据检索语句输入信息抽取模型，获取检索语句中的实体以及实体关系，实体类型，根据实体和实体类型在数据库中进行检索；根据实体和实体关系在数据库中进行知识图谱检索，获取目标任务数据列表。

但上述方法也存在以下技术问题：

在根据实体、实体类型以及实体关系在数据库中进行检索的过程中，没有对原始的数据库进行简单的治理，检索过程中需要对数据库中所有的任务数据列表进行检索，数据量较大且在获取目标任务数据列表的过程中，没有对实体进行扩展，获取到的目标任务数据列表具有局限性，不够完整，进而降低了获取目标任务数据集的精准度。

发明内容

针对上述技术问题，本发明采用的技术方案为：

一种获取目标任务数据集的数据处理系统，包括：目标问题语句、初始任务数据集、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现以下步骤：

S100、根据初始任务数据集，获取目标问题语句对应的第一任务数据集。

S200、根据目标问题语句，获取目标问题语句对应的第一关键词列表A＝{A₁，……，A_i，……，A_m}，A_i为目标问题语句对应的第i个第一关键词，i＝1……m，m为第一关键词数量，目标问题语句为用户输入的问题语句。

S300、根据第一任务数据集，获取A对应的第二任务数据集B＝{B₁，……，B_i，……，B_m}，B_i为A_i对应的第二任务数据集；其中，在S300步骤中包括如下步骤获取B_i：

S301、将A输入到第三预设自然语言模型中，获取A对应的SQL字符串列表ZB＝{ZB₁，……，ZB_i，……，ZB_m}，ZB_i为A_i对应的SQL字符串。

S303、当i＝1时，根据ZB_i，从第一任务数据集中获取B_i。

S305、当i≠1时，根据ZB_i，从B_(i-1)中获取B_i。

S400、根据B_m，获取目标任务数据集；其中，在S400步骤中包括如下步骤：

S401、获取B_m＝{B_m1，……，B_mg，……，B_mh}，B_mg为B_m中的第g个第二任务数据列表，g＝1……h，h为B_m中的第二任务数据列表数量。

S403、根据B_m，获取B_m对应的饱和度优先级列表C_m＝{C_m1，……，C_mg，……，C_mh}，C_mg为B_mg对应的饱和度优先级，其中，C_mg符合如下条件：

C_mg＝1-C⁰ _mg/C¹ _mg，C⁰ _mg为第二任务数据列表中为NULL的数据项，C¹ _mg为第二任务数据列表中所有的数据项。

S405、当C_mg≥C时，将B_mg插入到第一关键任务数据集B¹ _m中，B¹ _m＝{B¹ _m1，……，B¹ _mx，……，B¹ _mp}，B¹ _mx为第一关键任务数据集中第x个第一关键任务数据列表，x＝1……p，p为第一关键任务数据集中第一关键任务数据列表数量，其中，C为预设饱和度优先级阈值。

S407、当p≥p⁰时，将B¹ _m发送给用户，确定第二关键任务数据集，其中，p⁰为预设第一关键任务数据列表数量。

S409、当p＜p⁰时，根据A，确定第二关键任务数据集。

本发明至少具有以下有益效果：

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种获取目标任务数据集的数据处理系统执行计算机程序的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。

本发明提供了一种获取目标任务数据集的数据处理系统，包括：目标问题语句、初始任务数据集、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现以下步骤，如图1所示：

具体地，初始任务数据集中包括若干个初始任务数据列表，其中，所述初始任务数据列表为用户指定的待处理任务的数据列表，例如，待处理任务为货物查询任务。

进一步地，每一初始任务数据列表均包括若干个字段名，每一字段名均对应若干个数据项。

具体地，在S100步骤中还通过如下步骤确定第一任务数据集：

S101、获取初始任务数据集D＝{D₁，……，D_e，……，D_f}，D_e为初始任务数据集中第e个初始任务数据列表，e＝1……f，f为初始任务数据集中的初始任务数据列表数量。

S103、对D进行数据治理，获取D对应的第一中间任务数据集D⁰＝{D⁰ ₁，……，D⁰ _e，……，D⁰ _f}，D⁰ _e为D_e对应的第一中间任务数据列表，其中，本领域技术人员知晓，现有技术中任一数据治理的方法，均属于本发明的保护范围，在此不再赘述。可以理解为：将所有的初始任务数据列表中的字段名统一标准，并给初始任务数据列表打上标签，例如：将所有初始数据列表中表示身份证号的字段名统一修改为“身份证ID”，若初始任务数据列表中的数据记录的是车辆运输货物的数据，则给所述初始任务数据列表打上“运输”的标签。

S105、根据D⁰，获取D⁰对应的第一标签列表E＝{E₁，……，E_e，……，E_f}，E_e为D⁰ _e对应的第一标签，其中，第一标签为在数据治理的过程中获取到的标签。

S107、将目标问题语句输入至第一预设自然语言模型中，获取目标问题语句对应的第二标签E⁰，其中，所述第一预设自然语言模型为用于获取标签的自然语言模型，本领域技术人员知晓，现有技术中任一可以获取标签的自然语言模型均属于本发明的保护范围，在此不再赘述。

具体地，第二标签可以理解为目标问题语句的类型，例如：运输、电力。

上述，通过初始任务数据列表对应的第一标签和问题语句对应的第二标签，可以获取第一标签和第二标签对应的词向量，进一步地，可以获取到第一标签和第二标签的标签相似度，有利于获取更加精准的第一任务数据集。

S109、根据E_e和E⁰，获取第一任务数据集。

具体地，在S109步骤中包括如下步骤：

S1091、将E_e输入到第二预设自然语言模型中，获取E_e对应的第一词向量列表F_e＝{F_e1，……，F_er，……，F_es}，F_er为E_e对应的第r个第一词向量，r＝1……s，s为第一词向量数量，可以理解为：第一词向量是第一标签生成的词向量，其中，所述第二预设自然语言模型为用于获取词向量的自然语言模型，本领域技术人员知晓，现有技术中任一可以获取词向量的自然语言模型均属于本发明的保护范围，在此不再赘述，例如：word2vec模型。

S1093、将E₀输入至第二预设自然语言模型中，获取E⁰对应的第二词向量列表F⁰＝{F⁰ ₁，……，F⁰ _r，……，F⁰ _s}，F⁰ _r为E⁰对应的第r个第二词向量，可以理解为：第二词向量是第二标签生成的词向量。

S1095、根据F_er和F⁰ _r，获取E_e与E⁰的标签相似度G⁰ _e，其中，G⁰ _e符合如下条件：

S1097、当G⁰ _e≥G¹时，将E_e对应的D⁰ _e插入到第一任务数据集中，其中，G¹为预设标签相似度阈值。

具体地，G¹的取值范围为[0.8，1]，优选地，G¹＝0.9，防止预设标签相似度阈值设置过高或过低，进而导致获取到错误的第一任务数据集。

上述，通过第一标签和第二标签的词向量获取第一标签和第二标签的标签相似度，进而能够精准的获取第一任务数据集，在第一任务数据集中获取目标任务数据集，减少了数据量且有利与提高获取目标任务数据集的精准度。

S200、根据目标问题语句，获取目标问题语句对应的第一关键词列表A＝{A₁，……，A_i，……，A_m}，A_i为目标问题语句对应的第i个第一关键词，i＝1……m，m为第一关键词数量，目标问题语句为用户输入的问题语句，其中，第一关键词为目标问题语句中的关键词，本领域技术人员知晓，现有技术中任一从问题语句中获取关键词的方法，均属于本发明的保护范围，在此不再赘述。

S300、根据第一任务数据集，获取A对应的第二任务数据集B＝{B₁，……，B_i，……，B_m}，B_i为A_i对应的第二任务数据集。

具体地，第二任务数据集中包括若干个第二任务数据列表。

具体地，B_i中的第二任务数据列表数量不大于B_(i-1)中的第二任务数据列表数量。

具体地，在S300步骤中包括如下步骤：

S301、将A输入到第三预设自然语言模型中，获取A对应的SQL字符串列表ZB＝{ZB₁，……，ZB_i，……，ZB_m}，ZB_i为A_i对应的SQL字符串，其中，在一些实施例中SQL字符串可以被其他DSL替代，也可以实现本发明的技术方案，所述第三预设自然语言模型为用于获取SQL字符串的自然语言模型，本领域技术人员知晓，现有技术中任一可以获取SQL字符串的自然语言模型均属于本发明的保护范围，在此不再赘述。

具体地，任一A_i对应的SQL字符串为查询类的SQL字符串。

S303、当i＝1时，根据ZB_i，从第一任务数据集中获取B_i，其中，本领域技术人员知晓，现有技术中任一根据SQL字符串从某一数据集中获取SQL字符串对应的数据集的方法，均属于本发明的保护范围，在此不再赘述。

S305、当i≠1时，根据ZB_i，从B_(i-1)中获取B_i。可以理解为：从B_(i-1)中获取ZB_i对应的数据集，本领域技术人员知晓，根据ZB_i，从B_(i-1)中获取B_i的方法，参照S303步骤中根据ZB_i，从第一任务数据集中获取B_i的方法，在此不再赘述。

上述，按照关键词的顺序，依次从上一个第一关键词对应的第二任务数据集中获取当前第一关键词对应的第二任务数据集，直到获取到最后一个第一关键词对应的第二任务数据集，对最后一个第一关键词对应的第二任务数据集进行处理，获取目标任务数据集，有利于提高获取目标任务数据集的精准度。

S400、根据B_m，获取目标任务数据集。

具体地，目标任务数据集包括第一关键任务数据集和第二关键任务数据集。

具体地，在S400步骤中包括如下步骤：

C_mg＝1-C⁰ _mg/C¹ _mg，C⁰ _mg为第二任务数据列表中为NULL的数据项，C¹ _mg为第二任务数据列表中所有的数据项，其中，本领域技术人员知晓，现有技术中任一获取数据列表中NULL的数据项的数量和所有数据项的数量的方法，均属于本发明的保护范围，在此不再赘述。

具体地，C的取值范围为[0.6，1]，本领域技术人员根据实际需求设置预设饱和度优先级阈值。

S407、当p≥p⁰时，将B¹ _m发送给用户，确定第二关键任务数据集，其中，p⁰为预设第一关键任务数据列表数量，本领域技术人员根据实际需求设置预设第一关键任务数据列表数量。

具体地，在S407步骤中包括如下步骤：

S4071、获取用户接收到B¹ _m后反馈的第一目标标识。

S4073、当第一目标标识为标识“0”时，确定第二关键任务数据集为NULL。

具体地，标识“0”表征为：“目标任务数据集确定无误”。

S4075、当第一目标标识为标识“1”时，更新p⁰＝p⁰+Δp，并执行S407步骤，其中，Δp为预设指定任务数据列表数量，Δp符合如下条件：

Δp＝1/2×p⁰。

具体地，标识“1”表征为：“目标任务数据集不全，需继续搜索”。

上述，通过用户反馈的第一目标标识确定第二关键任务数据集，可以提高获取第二关键任务数据集的精准度，减少资源浪费，从而有利于提高获取目标任务数据集的精准度。

S409、当p＜p⁰时，根据A，确定第二关键任务数据集。

上述，对第一关键任务数据集中的第一关键任务数据列表数量进行判断，选择相对应的处理方法，可以节约资源，进一步提高获取目标任务数据集的精准度。

具体地，在S409步骤中包括如下步骤：

S4091、获取A对应的第二关键词列表H＝{H₁，……，H_i，……，H_m}，H_i＝{H_i1，……，H_iy，……，H_yq(i)}和H_iy对应的第一预设相关度权重列表L_iy＝{L¹ _iy，……，Lⁱ _iy，……，L^m _iy}，H_iy为A_i对应的第y个第二关键词列表，y＝1……p(i)，p(i)为A_i对应的第二关键词数量，Lⁱ _iy为H_iy与A_i之间的第一预设相关度权重，其中，本领域技术人员知晓，本领域技术人员根据实际需求设置第一预设相关度权重。

S4093、获取H_iy对应的第二预设相关度权重列表P_iy＝{P¹ _iy，……，Pⁱ _iy，……，P^m _iy}，Pⁱ _iy为H_iy与A_i之间的第二预设相关度权重，其中，本领域技术人员知晓，本领域技术人员根据实际需求设置第二预设相关度权重。

S4095、根据L_iy和P_iy，获取H对应的相关度优先级列表Q_i＝{Q_i1，……，Q_iy，……，Q_iq(i)}，Q_iy为H_iy对应的相关度优先级，其中，Q_iy符合如下条件：

Q_iy＝(∑^m _a＝1(L^a _iy×P^a _iy))/m。

S4097、将A中的A_i替换为最大的且不小于Q⁰的Q_iy对应的H_iy，构建第三关键词列表，其中，Q⁰为预设的相关度优先级阈值，可以理解为，第三关键词列表DS＝{A₁，……，H_iy，……，A_m}。

具体地，Q⁰的取值范围为[0.6，1]，本领域技术人员根据实际需求设置相关度优先级阈值。

S4099、根据第三关键词列表，获取第二关键任务数据集。

上述，在获取目标任务数据集的过程中，对关键词进行扩展，根据关键词以及与关键词相关的词语获取目标任务数据集，进一步提高了获取目标任务数据集的精准度。

具体地，在S4099步骤中包括如下步骤：

S1、根据第三关键词列表，获取第二中间任务数据集，其中，本领域技术人员知晓，根据第三关键词列表获取第二中间任务数据集的方法参照根据第一关键词列表获取第一关键任务数据集的方法，在此不再赘述。

S2、将第二中间任务数据集中的第二中间任务列表按顺序插入到指定任务数据集中。

S3、获取指定任务数据集中指定任务数据列表的数量b。

S4、当p+b≥p⁰时，将第一关键任务数据集和指定任务数据集发送给用户。

S5、获取用户接收到第一关键任务数据集和指定任务数据集后反馈的第二目标标识。

S6、当第二目标标识为标识“0”时，确定指定任务数据集为第二关键任务数据集。

S7、当第二目标标识为标识“1”时，根据p⁰确定第二关键任务数据集。

具体地，在S7步骤中包括如下步骤：

S71、更新p⁰＝p⁰+Δp。

S73、更新Q_i，将最大的Q_iy从Q_i中删除，执行S4097步骤。

S8、当第二目标标识为标识“2”时，根据Q_i确定第二关键任务数据集。

具体地，标识“2”表征为：“目标任务数据集数量过多”。

具体地，在S8步骤中包括如下步骤：

S81、将指定任务数据集设置为NULL。

S83、更新Q_i，将最大的Q_iy从Q_i中删除，执行S4097步骤。

上述，对第一关键词进行扩展，获取第二关键词以及第二关键词对应的相关度优先级，通过对相关度优先级进行分析，获取第二中间任务数据集，将第二中间任务数据集中的第二中间任务数据列表按照对应的关键词的相关度插入到指定任务数据集中，获取第二关键任务数据集，进一步地获取目标任务数据集，有利于提高获取目标任务数据集的精准度。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种获取目标任务数据集的数据处理系统，其特征在于，所述系统包括：目标问题语句、初始任务数据集、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现以下步骤：

S100、根据初始任务数据集，获取目标问题语句对应的第一任务数据集；

S200、根据目标问题语句，获取目标问题语句对应的第一关键词列表A＝{A₁，……，A_i，……，A_m}，A_i为目标问题语句对应的第i个第一关键词，i＝1……m，m为第一关键词数量，目标问题语句为用户输入的问题语句；

S301、将A输入到第三预设自然语言模型中，获取A对应的SQL字符串列表ZB＝{ZB₁，……，ZB_i，……，ZB_m}，ZB_i为A_i对应的SQL字符串；

S303、当i＝1时，根据ZB_i，从第一任务数据集中获取B_i；

S305、当i≠1时，根据ZB_i，从B_(i-1)中获取B_i；

S401、获取B_m＝{B_m1，……，B_mg，……，B_mh}，B_mg为B_m中的第g个第二任务数据列表，g＝1……h，h为B_m中的第二任务数据列表数量；

C_mg＝1-C⁰ _mg/C¹ _mg，C⁰ _mg为第二任务数据列表中为NULL的数据项，C¹ _mg为第二任务数据列表中所有的数据项；

S405、当C_mg≥C时，将B_mg插入到第一关键任务数据集B¹ _m中，B¹ _m＝{B¹ _m1，……，B¹ _mx，……，B¹ _mp}，B¹ _mx为第一关键任务数据集中第x个第一关键任务数据列表，x＝1……p，p为第一关键任务数据集中第一关键任务数据列表数量，其中，C为预设饱和度优先级阈值；

S407、当p≥p⁰时，将B¹ _m发送给用户，确定第二关键任务数据集，其中，p⁰为预设第一关键任务数据列表数量；

S409、当p＜p⁰时，根据A，确定第二关键任务数据集。

2.根据根据权利要求1所述的获取目标任务数据集的数据处理系统，其特征在于，在S100步骤中还通过如下步骤确定第一任务数据集：

S101、获取初始任务数据集D＝{D₁，……，D_e，……，D_f}，D_e为初始任务数据集中第e个初始任务数据列表，e＝1……f，f为初始任务数据集中的初始任务数据列表数量；

S103、对D进行数据治理，获取D对应的第一中间任务数据集D⁰＝{D⁰ ₁，……，D⁰ _e，……，D⁰ _f}，D⁰ _e为D_e对应的第一中间任务数据列表；

S105、根据D⁰，获取D⁰对应的第一标签列表E＝{E₁，……，E_e，……，E_f}，E_e为D⁰ _e对应的第一标签，其中，第一标签为在数据治理的过程中获取到的标签；

S107、将目标问题语句输入至第一预设自然语言模型中，获取目标问题语句对应的第二标签E⁰，其中，所述第一预设自然语言模型为用于获取标签的自然语言模型；

S109、根据E_e和E⁰，获取第一任务数据集。

3.根据权利要求1所述的获取目标任务数据集的数据处理系统，其特征在于，所述目标任务数据集包括第一关键任务数据集和第二关键任务数据集。

4.根据权利要求1所述的获取目标任务数据集的数据处理系统，其特征在于，在S407步骤中包括如下步骤：

S4071、获取用户接收到B¹ _m后反馈的第一目标标识；

S4073、当第一目标标识为标识“0”时，确定第二关键任务数据集为NULL；

Δp＝1/2×p⁰。

5.根据权利要求1所述的获取目标任务数据集的数据处理系统，其特征在于，在S409步骤中包括如下步骤：

S4091、获取A对应的第二关键词列表H＝{H₁，……，H_i，……，H_m}，H_i＝{H_i1，……，H_iy，……，H_yq(i)}和H_iy对应的第一预设相关度权重列表L_iy＝{L¹ _iy，……，Lⁱ _iy，……，L^m _iy}，H_iy为A_i对应的第y个第二关键词列表，y＝1……p(i)，p(i)为A_i对应的第二关键词数量，Lⁱ _iy为H_iy与A_i之间的第一预设相关度权重；

S4093、获取H_iy对应的第二预设相关度权重列表P_iy＝{P¹ _iy，……，Pⁱ _iy，……，P^m _iy}，Pⁱ _iy为H_iy与A_i之间的第二预设相关度权重；

Q_iy＝(∑^m _a＝1(L^a _iy×P^a _iy))/m；

S4097、将A中的A_i替换为最大的且不小于Q⁰的Q_iy对应的H_iy，构建第三关键词列表，其中，Q⁰为预设的相关度优先级阈值；

S4099、根据第三关键词列表，获取第二关键任务数据集。

6.根据权利要求5所述的获取目标任务数据集的数据处理系统，其特征在于，在S4099步骤中包括如下步骤：

S1、根据第三关键词列表，获取第二中间任务数据集；

S2、将第二中间任务数据集中的第二中间任务列表按顺序插入到指定任务数据集中；

S3、获取指定任务数据集中指定任务数据列表的数量b；

S4、当p+b≥p⁰时，将第一关键任务数据集和指定任务数据集发送给用户；

S5、获取用户接收到第一关键任务数据集和指定任务数据集后反馈的第二目标标识；

S6、当第二目标标识为标识“0”时，确定指定任务数据集为第二关键任务数据集；

S7、当第二目标标识为标识“1”时，根据p⁰确定第二关键任务数据集；

7.根据权利要求6所述的获取目标任务数据集的数据处理系统，其特征在于，在S7步骤中包括如下步骤：

S71、更新p⁰＝p⁰+Δp；

S73、更新Q_i，将最大的Q_iy从Q_i中删除，执行S4097步骤。

8.根据权利要求6所述的获取目标任务数据集的数据处理系统，其特征在于，在S8步骤中包括如下步骤：

S81、将指定任务数据集设置为NULL；

S83、更新Q_i，将最大的Q_iy从Q_i中删除，执行S4097步骤。