CN116561390A - 一种获取目标任务数据集的数据处理系统 - Google Patents

一种获取目标任务数据集的数据处理系统 Download PDF

Info

Publication number
CN116561390A
CN116561390A CN202310528894.0A CN202310528894A CN116561390A CN 116561390 A CN116561390 A CN 116561390A CN 202310528894 A CN202310528894 A CN 202310528894A CN 116561390 A CN116561390 A CN 116561390A
Authority
CN
China
Prior art keywords
task data
data set
acquiring
target
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310528894.0A
Other languages
English (en)
Inventor
袁凯
叶新江
方毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Merit Interactive Co Ltd
Original Assignee
Merit Interactive Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Merit Interactive Co Ltd filed Critical Merit Interactive Co Ltd
Priority to CN202310528894.0A priority Critical patent/CN116561390A/zh
Publication of CN116561390A publication Critical patent/CN116561390A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种获取目标任务数据集的数据处理系统,包括:目标问题语句、初始任务数据集、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:根据初始任务数据集,获取第一任务数据集;根据目标问题语句,获取第一关键词列表;根据第一任务数据集,获取第二任务数据集;根据第二任务数据集,获取目标任务数据集。可知本发明,对初始任务数据集进行了数据治理,获取第一任务数据集,在第一任务数据集中获取目标任务数据集,减少了数据量,并在获取目标任务数据集的过程中,对关键词进行扩展,根据关键词以及与关键词相关的词语获取目标任务数据集,有利于提高获取目标任务数据集的精准度。

Description

一种获取目标任务数据集的数据处理系统
技术领域
本发明涉及数据处理领域,特别是涉及一种获取目标任务数据集的数据处理系统。
背景技术
随着计算机技术的快速发展,对于每个任务都会存在成千上万个任务数据列表,用户无法从成千上万个任务数据列表中挑选出所需要的目标任务数据列表,因此,智能的获取目标任务数据列表是非常有必要的,现有的获取目标任务数据列表的方法大多为将数据检索语句输入信息抽取模型,获取检索语句中的实体以及实体关系,实体类型,根据实体和实体类型在数据库中进行检索;根据实体和实体关系在数据库中进行知识图谱检索,获取目标任务数据列表。
但上述方法也存在以下技术问题:
在根据实体、实体类型以及实体关系在数据库中进行检索的过程中,没有对原始的数据库进行简单的治理,检索过程中需要对数据库中所有的任务数据列表进行检索,数据量较大且在获取目标任务数据列表的过程中,没有对实体进行扩展,获取到的目标任务数据列表具有局限性,不够完整,进而降低了获取目标任务数据集的精准度。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种获取目标任务数据集的数据处理系统,包括:目标问题语句、初始任务数据集、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:
S100、根据初始任务数据集,获取目标问题语句对应的第一任务数据集。
S200、根据目标问题语句,获取目标问题语句对应的第一关键词列表A={A1,……,Ai,……,Am},Ai为目标问题语句对应的第i个第一关键词,i=1……m,m为第一关键词数量,目标问题语句为用户输入的问题语句。
S300、根据第一任务数据集,获取A对应的第二任务数据集B={B1,……,Bi,……,Bm},Bi为Ai对应的第二任务数据集;其中,在S300步骤中包括如下步骤获取Bi
S301、将A输入到第三预设自然语言模型中,获取A对应的SQL字符串列表ZB={ZB1,……,ZBi,……,ZBm},ZBi为Ai对应的SQL字符串。
S303、当i=1时,根据ZBi,从第一任务数据集中获取Bi
S305、当i≠1时,根据ZBi,从B(i-1)中获取Bi
S400、根据Bm,获取目标任务数据集;其中,在S400步骤中包括如下步骤:
S401、获取Bm={Bm1,……,Bmg,……,Bmh},Bmg为Bm中的第g个第二任务数据列表,g=1……h,h为Bm中的第二任务数据列表数量。
S403、根据Bm,获取Bm对应的饱和度优先级列表Cm={Cm1,……,Cmg,……,Cmh},Cmg为Bmg对应的饱和度优先级,其中,Cmg符合如下条件:
Cmg=1-C0 mg/C1 mg,C0 mg为第二任务数据列表中为NULL的数据项,C1 mg为第二任务数据列表中所有的数据项。
S405、当Cmg≥C时,将Bmg插入到第一关键任务数据集B1 m中,B1 m={B1 m1,……,B1 mx,……,B1 mp},B1 mx为第一关键任务数据集中第x个第一关键任务数据列表,x=1……p,p为第一关键任务数据集中第一关键任务数据列表数量,其中,C为预设饱和度优先级阈值。
S407、当p≥p0时,将B1 m发送给用户,确定第二关键任务数据集,其中,p0为预设第一关键任务数据列表数量。
S409、当p<p0时,根据A,确定第二关键任务数据集。
本发明至少具有以下有益效果:
本发明提供了一种获取目标任务数据集的数据处理系统,包括:目标问题语句、初始任务数据集、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:根据初始任务数据集,获取第一任务数据集;根据目标问题语句,获取第一关键词列表;根据第一任务数据集,获取第二任务数据集;根据第二任务数据集,获取目标任务数据集。可知本发明,对初始任务数据集进行了数据治理,获取第一任务数据集,在第一任务数据集中获取目标任务数据集,减少了数据量,并在获取目标任务数据集的过程中,对关键词进行扩展,根据关键词以及与关键词相关的词语获取目标任务数据集,有利于提高获取目标任务数据集的精准度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种获取目标任务数据集的数据处理系统执行计算机程序的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。
本发明提供了一种获取目标任务数据集的数据处理系统,包括:目标问题语句、初始任务数据集、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤,如图1所示:
S100、根据初始任务数据集,获取目标问题语句对应的第一任务数据集。
具体地,初始任务数据集中包括若干个初始任务数据列表,其中,所述初始任务数据列表为用户指定的待处理任务的数据列表,例如,待处理任务为货物查询任务。
进一步地,每一初始任务数据列表均包括若干个字段名,每一字段名均对应若干个数据项。
具体地,在S100步骤中还通过如下步骤确定第一任务数据集:
S101、获取初始任务数据集D={D1,……,De,……,Df},De为初始任务数据集中第e个初始任务数据列表,e=1……f,f为初始任务数据集中的初始任务数据列表数量。
S103、对D进行数据治理,获取D对应的第一中间任务数据集D0={D0 1,……,D0 e,……,D0 f},D0 e为De对应的第一中间任务数据列表,其中,本领域技术人员知晓,现有技术中任一数据治理的方法,均属于本发明的保护范围,在此不再赘述。可以理解为:将所有的初始任务数据列表中的字段名统一标准,并给初始任务数据列表打上标签,例如:将所有初始数据列表中表示身份证号的字段名统一修改为“身份证ID”,若初始任务数据列表中的数据记录的是车辆运输货物的数据,则给所述初始任务数据列表打上“运输”的标签。
S105、根据D0,获取D0对应的第一标签列表E={E1,……,Ee,……,Ef},Ee为D0 e对应的第一标签,其中,第一标签为在数据治理的过程中获取到的标签。
S107、将目标问题语句输入至第一预设自然语言模型中,获取目标问题语句对应的第二标签E0,其中,所述第一预设自然语言模型为用于获取标签的自然语言模型,本领域技术人员知晓,现有技术中任一可以获取标签的自然语言模型均属于本发明的保护范围,在此不再赘述。
具体地,第二标签可以理解为目标问题语句的类型,例如:运输、电力。
上述,通过初始任务数据列表对应的第一标签和问题语句对应的第二标签,可以获取第一标签和第二标签对应的词向量,进一步地,可以获取到第一标签和第二标签的标签相似度,有利于获取更加精准的第一任务数据集。
S109、根据Ee和E0,获取第一任务数据集。
具体地,在S109步骤中包括如下步骤:
S1091、将Ee输入到第二预设自然语言模型中,获取Ee对应的第一词向量列表Fe={Fe1,……,Fer,……,Fes},Fer为Ee对应的第r个第一词向量,r=1……s,s为第一词向量数量,可以理解为:第一词向量是第一标签生成的词向量,其中,所述第二预设自然语言模型为用于获取词向量的自然语言模型,本领域技术人员知晓,现有技术中任一可以获取词向量的自然语言模型均属于本发明的保护范围,在此不再赘述,例如:word2vec模型。
S1093、将E0输入至第二预设自然语言模型中,获取E0对应的第二词向量列表F0={F0 1,……,F0 r,……,F0 s},F0 r为E0对应的第r个第二词向量,可以理解为:第二词向量是第二标签生成的词向量。
S1095、根据Fer和F0 r,获取Ee与E0的标签相似度G0 e,其中,G0 e符合如下条件:
S1097、当G0 e≥G1时,将Ee对应的D0 e插入到第一任务数据集中,其中,G1为预设标签相似度阈值。
具体地,G1的取值范围为[0.8,1],优选地,G1=0.9,防止预设标签相似度阈值设置过高或过低,进而导致获取到错误的第一任务数据集。
上述,通过第一标签和第二标签的词向量获取第一标签和第二标签的标签相似度,进而能够精准的获取第一任务数据集,在第一任务数据集中获取目标任务数据集,减少了数据量且有利与提高获取目标任务数据集的精准度。
S200、根据目标问题语句,获取目标问题语句对应的第一关键词列表A={A1,……,Ai,……,Am},Ai为目标问题语句对应的第i个第一关键词,i=1……m,m为第一关键词数量,目标问题语句为用户输入的问题语句,其中,第一关键词为目标问题语句中的关键词,本领域技术人员知晓,现有技术中任一从问题语句中获取关键词的方法,均属于本发明的保护范围,在此不再赘述。
S300、根据第一任务数据集,获取A对应的第二任务数据集B={B1,……,Bi,……,Bm},Bi为Ai对应的第二任务数据集。
具体地,第二任务数据集中包括若干个第二任务数据列表。
具体地,Bi中的第二任务数据列表数量不大于B(i-1)中的第二任务数据列表数量。
具体地,在S300步骤中包括如下步骤:
S301、将A输入到第三预设自然语言模型中,获取A对应的SQL字符串列表ZB={ZB1,……,ZBi,……,ZBm},ZBi为Ai对应的SQL字符串,其中,在一些实施例中SQL字符串可以被其他DSL替代,也可以实现本发明的技术方案,所述第三预设自然语言模型为用于获取SQL字符串的自然语言模型,本领域技术人员知晓,现有技术中任一可以获取SQL字符串的自然语言模型均属于本发明的保护范围,在此不再赘述。
具体地,任一Ai对应的SQL字符串为查询类的SQL字符串。
S303、当i=1时,根据ZBi,从第一任务数据集中获取Bi,其中,本领域技术人员知晓,现有技术中任一根据SQL字符串从某一数据集中获取SQL字符串对应的数据集的方法,均属于本发明的保护范围,在此不再赘述。
S305、当i≠1时,根据ZBi,从B(i-1)中获取Bi。可以理解为:从B(i-1)中获取ZBi对应的数据集,本领域技术人员知晓,根据ZBi,从B(i-1)中获取Bi的方法,参照S303步骤中根据ZBi,从第一任务数据集中获取Bi的方法,在此不再赘述。
上述,按照关键词的顺序,依次从上一个第一关键词对应的第二任务数据集中获取当前第一关键词对应的第二任务数据集,直到获取到最后一个第一关键词对应的第二任务数据集,对最后一个第一关键词对应的第二任务数据集进行处理,获取目标任务数据集,有利于提高获取目标任务数据集的精准度。
S400、根据Bm,获取目标任务数据集。
具体地,目标任务数据集包括第一关键任务数据集和第二关键任务数据集。
具体地,在S400步骤中包括如下步骤:
S401、获取Bm={Bm1,……,Bmg,……,Bmh},Bmg为Bm中的第g个第二任务数据列表,g=1……h,h为Bm中的第二任务数据列表数量。
S403、根据Bm,获取Bm对应的饱和度优先级列表Cm={Cm1,……,Cmg,……,Cmh},Cmg为Bmg对应的饱和度优先级,其中,Cmg符合如下条件:
Cmg=1-C0 mg/C1 mg,C0 mg为第二任务数据列表中为NULL的数据项,C1 mg为第二任务数据列表中所有的数据项,其中,本领域技术人员知晓,现有技术中任一获取数据列表中NULL的数据项的数量和所有数据项的数量的方法,均属于本发明的保护范围,在此不再赘述。
S405、当Cmg≥C时,将Bmg插入到第一关键任务数据集B1 m中,B1 m={B1 m1,……,B1 mx,……,B1 mp},B1 mx为第一关键任务数据集中第x个第一关键任务数据列表,x=1……p,p为第一关键任务数据集中第一关键任务数据列表数量,其中,C为预设饱和度优先级阈值。
具体地,C的取值范围为[0.6,1],本领域技术人员根据实际需求设置预设饱和度优先级阈值。
S407、当p≥p0时,将B1 m发送给用户,确定第二关键任务数据集,其中,p0为预设第一关键任务数据列表数量,本领域技术人员根据实际需求设置预设第一关键任务数据列表数量。
具体地,在S407步骤中包括如下步骤:
S4071、获取用户接收到B1 m后反馈的第一目标标识。
S4073、当第一目标标识为标识“0”时,确定第二关键任务数据集为NULL。
具体地,标识“0”表征为:“目标任务数据集确定无误”。
S4075、当第一目标标识为标识“1”时,更新p0=p0+Δp,并执行S407步骤,其中,Δp为预设指定任务数据列表数量,Δp符合如下条件:
Δp=1/2×p0
具体地,标识“1”表征为:“目标任务数据集不全,需继续搜索”。
上述,通过用户反馈的第一目标标识确定第二关键任务数据集,可以提高获取第二关键任务数据集的精准度,减少资源浪费,从而有利于提高获取目标任务数据集的精准度。
S409、当p<p0时,根据A,确定第二关键任务数据集。
上述,对第一关键任务数据集中的第一关键任务数据列表数量进行判断,选择相对应的处理方法,可以节约资源,进一步提高获取目标任务数据集的精准度。
具体地,在S409步骤中包括如下步骤:
S4091、获取A对应的第二关键词列表H={H1,……,Hi,……,Hm},Hi={Hi1,……,Hiy,……,Hyq(i)}和Hiy对应的第一预设相关度权重列表Liy={L1 iy,……,Li iy,……,Lm iy},Hiy为Ai对应的第y个第二关键词列表,y=1……p(i),p(i)为Ai对应的第二关键词数量,Li iy为Hiy与Ai之间的第一预设相关度权重,其中,本领域技术人员知晓,本领域技术人员根据实际需求设置第一预设相关度权重。
S4093、获取Hiy对应的第二预设相关度权重列表Piy={P1 iy,……,Pi iy,……,Pm iy},Pi iy为Hiy与Ai之间的第二预设相关度权重,其中,本领域技术人员知晓,本领域技术人员根据实际需求设置第二预设相关度权重。
S4095、根据Liy和Piy,获取H对应的相关度优先级列表Qi={Qi1,……,Qiy,……,Qiq(i)},Qiy为Hiy对应的相关度优先级,其中,Qiy符合如下条件:
Qiy=(∑m a=1(La iy×Pa iy))/m。
S4097、将A中的Ai替换为最大的且不小于Q0的Qiy对应的Hiy,构建第三关键词列表,其中,Q0为预设的相关度优先级阈值,可以理解为,第三关键词列表DS={A1,……,Hiy,……,Am}。
具体地,Q0的取值范围为[0.6,1],本领域技术人员根据实际需求设置相关度优先级阈值。
S4099、根据第三关键词列表,获取第二关键任务数据集。
上述,在获取目标任务数据集的过程中,对关键词进行扩展,根据关键词以及与关键词相关的词语获取目标任务数据集,进一步提高了获取目标任务数据集的精准度。
具体地,在S4099步骤中包括如下步骤:
S1、根据第三关键词列表,获取第二中间任务数据集,其中,本领域技术人员知晓,根据第三关键词列表获取第二中间任务数据集的方法参照根据第一关键词列表获取第一关键任务数据集的方法,在此不再赘述。
S2、将第二中间任务数据集中的第二中间任务列表按顺序插入到指定任务数据集中。
S3、获取指定任务数据集中指定任务数据列表的数量b。
S4、当p+b≥p0时,将第一关键任务数据集和指定任务数据集发送给用户。
S5、获取用户接收到第一关键任务数据集和指定任务数据集后反馈的第二目标标识。
S6、当第二目标标识为标识“0”时,确定指定任务数据集为第二关键任务数据集。
S7、当第二目标标识为标识“1”时,根据p0确定第二关键任务数据集。
具体地,在S7步骤中包括如下步骤:
S71、更新p0=p0+Δp。
S73、更新Qi,将最大的Qiy从Qi中删除,执行S4097步骤。
S8、当第二目标标识为标识“2”时,根据Qi确定第二关键任务数据集。
具体地,标识“2”表征为:“目标任务数据集数量过多”。
具体地,在S8步骤中包括如下步骤:
S81、将指定任务数据集设置为NULL。
S83、更新Qi,将最大的Qiy从Qi中删除,执行S4097步骤。
上述,对第一关键词进行扩展,获取第二关键词以及第二关键词对应的相关度优先级,通过对相关度优先级进行分析,获取第二中间任务数据集,将第二中间任务数据集中的第二中间任务数据列表按照对应的关键词的相关度插入到指定任务数据集中,获取第二关键任务数据集,进一步地获取目标任务数据集,有利于提高获取目标任务数据集的精准度。
本发明提供了一种获取目标任务数据集的数据处理系统,包括:目标问题语句、初始任务数据集、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:根据初始任务数据集,获取第一任务数据集;根据目标问题语句,获取第一关键词列表;根据第一任务数据集,获取第二任务数据集;根据第二任务数据集,获取目标任务数据集。可知本发明,对初始任务数据集进行了数据治理,获取第一任务数据集,在第一任务数据集中获取目标任务数据集,减少了数据量,并在获取目标任务数据集的过程中,对关键词进行扩展,根据关键词以及与关键词相关的词语获取目标任务数据集,有利于提高获取目标任务数据集的精准度。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims (8)

1.一种获取目标任务数据集的数据处理系统,其特征在于,所述系统包括:目标问题语句、初始任务数据集、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:
S100、根据初始任务数据集,获取目标问题语句对应的第一任务数据集;
S200、根据目标问题语句,获取目标问题语句对应的第一关键词列表A={A1,……,Ai,……,Am},Ai为目标问题语句对应的第i个第一关键词,i=1……m,m为第一关键词数量,目标问题语句为用户输入的问题语句;
S300、根据第一任务数据集,获取A对应的第二任务数据集B={B1,……,Bi,……,Bm},Bi为Ai对应的第二任务数据集;其中,在S300步骤中包括如下步骤获取Bi
S301、将A输入到第三预设自然语言模型中,获取A对应的SQL字符串列表ZB={ZB1,……,ZBi,……,ZBm},ZBi为Ai对应的SQL字符串;
S303、当i=1时,根据ZBi,从第一任务数据集中获取Bi
S305、当i≠1时,根据ZBi,从B(i-1)中获取Bi
S400、根据Bm,获取目标任务数据集;其中,在S400步骤中包括如下步骤:
S401、获取Bm={Bm1,……,Bmg,……,Bmh},Bmg为Bm中的第g个第二任务数据列表,g=1……h,h为Bm中的第二任务数据列表数量;
S403、根据Bm,获取Bm对应的饱和度优先级列表Cm={Cm1,……,Cmg,……,Cmh},Cmg为Bmg对应的饱和度优先级,其中,Cmg符合如下条件:
Cmg=1-C0 mg/C1 mg,C0 mg为第二任务数据列表中为NULL的数据项,C1 mg为第二任务数据列表中所有的数据项;
S405、当Cmg≥C时,将Bmg插入到第一关键任务数据集B1 m中,B1 m={B1 m1,……,B1 mx,……,B1 mp},B1 mx为第一关键任务数据集中第x个第一关键任务数据列表,x=1……p,p为第一关键任务数据集中第一关键任务数据列表数量,其中,C为预设饱和度优先级阈值;
S407、当p≥p0时,将B1 m发送给用户,确定第二关键任务数据集,其中,p0为预设第一关键任务数据列表数量;
S409、当p<p0时,根据A,确定第二关键任务数据集。
2.根据根据权利要求1所述的获取目标任务数据集的数据处理系统,其特征在于,在S100步骤中还通过如下步骤确定第一任务数据集:
S101、获取初始任务数据集D={D1,……,De,……,Df},De为初始任务数据集中第e个初始任务数据列表,e=1……f,f为初始任务数据集中的初始任务数据列表数量;
S103、对D进行数据治理,获取D对应的第一中间任务数据集D0={D0 1,……,D0 e,……,D0 f},D0 e为De对应的第一中间任务数据列表;
S105、根据D0,获取D0对应的第一标签列表E={E1,……,Ee,……,Ef},Ee为D0 e对应的第一标签,其中,第一标签为在数据治理的过程中获取到的标签;
S107、将目标问题语句输入至第一预设自然语言模型中,获取目标问题语句对应的第二标签E0,其中,所述第一预设自然语言模型为用于获取标签的自然语言模型;
S109、根据Ee和E0,获取第一任务数据集。
3.根据权利要求1所述的获取目标任务数据集的数据处理系统,其特征在于,所述目标任务数据集包括第一关键任务数据集和第二关键任务数据集。
4.根据权利要求1所述的获取目标任务数据集的数据处理系统,其特征在于,在S407步骤中包括如下步骤:
S4071、获取用户接收到B1 m后反馈的第一目标标识;
S4073、当第一目标标识为标识“0”时,确定第二关键任务数据集为NULL;
S4075、当第一目标标识为标识“1”时,更新p0=p0+Δp,并执行S407步骤,其中,Δp为预设指定任务数据列表数量,Δp符合如下条件:
Δp=1/2×p0
5.根据权利要求1所述的获取目标任务数据集的数据处理系统,其特征在于,在S409步骤中包括如下步骤:
S4091、获取A对应的第二关键词列表H={H1,……,Hi,……,Hm},Hi={Hi1,……,Hiy,……,Hyq(i)}和Hiy对应的第一预设相关度权重列表Liy={L1 iy,……,Li iy,……,Lm iy},Hiy为Ai对应的第y个第二关键词列表,y=1……p(i),p(i)为Ai对应的第二关键词数量,Li iy为Hiy与Ai之间的第一预设相关度权重;
S4093、获取Hiy对应的第二预设相关度权重列表Piy={P1 iy,……,Pi iy,……,Pm iy},Pi iy为Hiy与Ai之间的第二预设相关度权重;
S4095、根据Liy和Piy,获取H对应的相关度优先级列表Qi={Qi1,……,Qiy,……,Qiq(i)},Qiy为Hiy对应的相关度优先级,其中,Qiy符合如下条件:
Qiy=(∑m a=1(La iy×Pa iy))/m;
S4097、将A中的Ai替换为最大的且不小于Q0的Qiy对应的Hiy,构建第三关键词列表,其中,Q0为预设的相关度优先级阈值;
S4099、根据第三关键词列表,获取第二关键任务数据集。
6.根据权利要求5所述的获取目标任务数据集的数据处理系统,其特征在于,在S4099步骤中包括如下步骤:
S1、根据第三关键词列表,获取第二中间任务数据集;
S2、将第二中间任务数据集中的第二中间任务列表按顺序插入到指定任务数据集中;
S3、获取指定任务数据集中指定任务数据列表的数量b;
S4、当p+b≥p0时,将第一关键任务数据集和指定任务数据集发送给用户;
S5、获取用户接收到第一关键任务数据集和指定任务数据集后反馈的第二目标标识;
S6、当第二目标标识为标识“0”时,确定指定任务数据集为第二关键任务数据集;
S7、当第二目标标识为标识“1”时,根据p0确定第二关键任务数据集;
S8、当第二目标标识为标识“2”时,根据Qi确定第二关键任务数据集。
7.根据权利要求6所述的获取目标任务数据集的数据处理系统,其特征在于,在S7步骤中包括如下步骤:
S71、更新p0=p0+Δp;
S73、更新Qi,将最大的Qiy从Qi中删除,执行S4097步骤。
8.根据权利要求6所述的获取目标任务数据集的数据处理系统,其特征在于,在S8步骤中包括如下步骤:
S81、将指定任务数据集设置为NULL;
S83、更新Qi,将最大的Qiy从Qi中删除,执行S4097步骤。
CN202310528894.0A 2023-05-09 2023-05-09 一种获取目标任务数据集的数据处理系统 Pending CN116561390A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310528894.0A CN116561390A (zh) 2023-05-09 2023-05-09 一种获取目标任务数据集的数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310528894.0A CN116561390A (zh) 2023-05-09 2023-05-09 一种获取目标任务数据集的数据处理系统

Publications (1)

Publication Number Publication Date
CN116561390A true CN116561390A (zh) 2023-08-08

Family

ID=87489374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310528894.0A Pending CN116561390A (zh) 2023-05-09 2023-05-09 一种获取目标任务数据集的数据处理系统

Country Status (1)

Country Link
CN (1) CN116561390A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118114639A (zh) * 2024-03-12 2024-05-31 上海频准激光科技有限公司 一种获取目标半导体制冷片的数据列表的数据处理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118114639A (zh) * 2024-03-12 2024-05-31 上海频准激光科技有限公司 一种获取目标半导体制冷片的数据列表的数据处理系统
CN118114639B (zh) * 2024-03-12 2024-11-08 上海频准激光科技有限公司 一种获取目标半导体制冷片的数据列表的数据处理系统

Similar Documents

Publication Publication Date Title
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
CN110532397B (zh) 基于人工智能的问答方法、装置、计算机设备及存储介质
CN115563287B (zh) 一种获取关联对象的数据处理系统
CN110569328B (zh) 实体链接方法、电子装置及计算机设备
CN109063108B (zh) 搜索排序方法、装置、计算机设备和存储介质
CN111209396A (zh) 实体识别模型的训练方法及实体识别方法、相关装置
CN116561388A (zh) 一种获取标签的数据处理系统
CN110019955A (zh) 一种视频标签标注方法及装置
CN113627182B (zh) 数据匹配方法、装置、计算机设备及存储介质
CN112685475A (zh) 报表查询方法、装置、计算机设备及存储介质
Sayers et al. Building customized data pipelines using the entrez programming utilities (eUtils)
CN116561390A (zh) 一种获取目标任务数据集的数据处理系统
CN112364169B (zh) 基于nlp的wifi识别方法、电子设备和介质
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN112380445B (zh) 数据查询方法、装置、设备和存储介质
CN113836272A (zh) 关键信息的展示方法、系统、计算机设备及可读存储介质
US11797551B2 (en) Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method
CN115544215B (zh) 一种关联对象的获取方法、介质及设备
CN113590811A (zh) 文本摘要生成方法、装置、电子设备及存储介质
CN117971873A (zh) 一种生成结构化查询语言sql的方法、装置及电子设备
CN116756325B (zh) 一种获取标签的数据处理系统
CN114416954B (zh) 文本检索方法、装置、设备及存储介质
CN109144999B (zh) 一种数据定位方法、装置及存储介质、程序产品
US20040098412A1 (en) System and method for clustering a set of records
CN112597208A (zh) 企业名称检索方法、企业名称检索装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination