CN116451678B - 数据关系识别及数据表整合方法 - Google Patents
数据关系识别及数据表整合方法 Download PDFInfo
- Publication number
- CN116451678B CN116451678B CN202310710545.0A CN202310710545A CN116451678B CN 116451678 B CN116451678 B CN 116451678B CN 202310710545 A CN202310710545 A CN 202310710545A CN 116451678 B CN116451678 B CN 116451678B
- Authority
- CN
- China
- Prior art keywords
- data
- relationship
- text
- indication
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 230000010354 integration Effects 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 207
- 238000012360 testing method Methods 0.000 claims abstract description 109
- 238000012216 screening Methods 0.000 claims abstract description 19
- 238000012805 post-processing Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 5
- 238000013095 identification testing Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 58
- 238000010276 construction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本说明书实施例提供数据关系识别及数据表整合方法,其中所述数据关系识别方法包括:获取待处理数据集和多种预设的关系识别任务;利用预先训练的关系识别模型,分别训练得到各关系识别任务对应的候选指示集;利用关系识别模型,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本;根据目标指示文本和待处理数据集,构建目标提示文本;利用关系识别模型,对目标提示文本进行关系识别,获得待处理数据集中数据序列间的数据关系。利用关系识别模型,训练并测试得到能被准确理解的目标指示文本,构建得到对应的目标提示文本,提升数据关系识别的准确度。
Description
技术领域
本说明书实施例涉及数据处理技术领域,特别涉及一种数据关系识别方法。
背景技术
随着计算机技术的发展,通过大规模样本数据训练得到的关系识别模型,因为其出色的自然语言文本的理解能力,准确完成文本生成、问答、对话等功能。
目前,关系识别模型通过输入的指示文本(Instruction),完成对应的任务。在数据关系识别领域,基于数据关系识别的指示文本和多个数据序列,构建得到提示文本,利用预先训练的关系识别模型,对提示文本进行关系识别,获得多个数据序列之间的数据关系。
然而,由于关系识别模型对于自然语言文本的理解能力限制,对于包含不同指示文本的提示文本,得到的识别结果的准确度存在巨大差异,例如,指导文本为“请完成以下数据序列的数据关系识别”或者“请找出有关系的数据序列”,前者相比于后者被关系识别模型更充分地理解,实现了更为准确的关系识别,得到的关系识别结果不同。如何确定更能被关系识别模型准确理解的指示文本,构建得到准确的提示文本,实现准确度更高的数据关系识别,是一个亟需解决的技术问题。
发明内容
有鉴于此,本说明书实施例提供了一种数据关系识别方法。本说明书一个或者多个实施例同时涉及一种数据表整合方法,一种数据关系识别装置,一种数据表整合装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
本说明书中一个实施例提供了一种数据关系识别方法,包括:
获取待处理数据集和多种预设的关系识别任务;
利用预先训练的关系识别模型,分别训练得到各关系识别任务对应的候选指示集;
利用关系识别模型,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本;
根据目标指示文本和待处理数据集,构建目标提示文本;
利用关系识别模型,对目标提示文本进行关系识别,获得待处理数据集中数据序列间的数据关系。
本说明书一个或多个实施例中,获取待处理数据集和多种预设的关系识别任务;利用预先训练的关系识别模型,分别训练得到各关系识别任务对应的候选指示集;利用关系识别模型,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本;根据目标指示文本和待处理数据集,构建目标提示文本;利用关系识别模型,对目标提示文本进行关系识别,获得待处理数据集中数据序列间的数据关系。利用关系识别模型,先训练得到各关系识别任务对应的候选指示集,再对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本,确定能被关系识别模型准确理解的目标指示文本,进而自动构建得到适应于待处理数据集的目标提示文本来完成数据关系识别,解决了利用关系识别模型进行关系识别中,难以针对待处理数据集针对性地选择提示文本的问题,实现了准确度更高的数据关系识别。
附图说明
图1是本说明书一个实施例提供的一种数据关系识别方法的流程图;
图2是本说明书一个实施例提供的一种数据表整合方法的流程图;
图3是本说明书一个实施例提供的一种数据关系识别方法的流程示意图;
图4是本说明书一个实施例提供的一种数据关系识别方法的前端示意图;
图5是本说明书一个实施例提供的一种应用于数据湖的数据关系识别方法的处理过程流程图;
图6是本说明书一个实施例提供的一种应用于数据湖的数据关系识别方法的处理过程流程图;
图7是本说明书一个实施例提供的一种数据关系识别装置的结构示意图;
图8是本说明书一个实施例提供的一种数据表整合装置的结构示意图;
图9是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本说明书一个或多个实施例中出现的大模型,是指具有大规模模型参数的深度学习模型,通常包含上亿、上百亿,甚至上千亿的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model),通过大规模无标注的语料进行大模型的预训练,产出亿级以上参数的预训练模型,这种模型能适应广泛的下游任务,模型具有较好的泛化能力,例如大语言模型(Large Language Model, LLM)、多模态预训练模型(multi-modal pre-trainingmodel)等。大模型在实际应用时,仅需少量样本对预训练模型进行微调即可应用于不同的任务中,大模型可以广泛应用于自然语言处理(Natural Language Processing,简称NLP)、计算机视觉等领域,具体可以应用于如视觉问答(Visual Question Answering,简称VQA)、图像描述(Image Caption,简称IC)、图像生成等计算机视觉领域任务,以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务,大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
大语言模型(Large Language Models,LLMs):是指使用大量文本数据训练得到的文本处理模型,生成自然语言文本或理解自然语言文本的含义。大语言模型可以执行多种自然语言的文本处理任务,如文本分类、问答、对话等。大语言模型可以理解为一种集成了多种功能的大规模神经网络模型,例如,文本分类、文本生成、实体识别、图像分类、图像生成等。需要说明的是,大语言模型主要是基于输入的提示文本执行对应的目标处理任务,但并不限定大语言模型只能基于纯文本执行目标处理任务,也可以基于图像、视频、音频等不同模态的数据执行目标处理任务,得到多种模态的文本处理结果。
提示文本(Prompt):是一种利用自然语言来指导或激发大语言模型执行目标处理任务的范式文本。提示文本由指示文本(Instruction)、示例文本(Demos)和待处理文本(Question)组成。指示文本(Instruction):用于指示大语言模型执行目标处理任务的自然语言文本。示例文本(Demos):用于协助大语言模型从特定角度理解目标处理任务,得到更为准确的任务执行结果。待处理文本(Question):为目标处理任务对应的待处理文本,是目标处理任务的执行对象。
数据湖(Datalake):一种面向多数据源的数据存储架构,集中存储、处理和保护大量结构化、半结构化和非结构化数据,是一种集中存储区。
自动提示文本工程(APE,Auto Prompt Engineer):自动生成与选择提示文本,可以理解为一种大语言模型黑盒的输入优化方法。
置信度上界算法(UCB,The Upper Confidence Bound Algorithm):一种强化学习领域基于探索与利用平衡的搜索算法,可以通过少量的有效采样完成搜索,即多采样置信度高的样本,少采样或者不采样置信度低的样本,不断逼近真实的置信度上界。
目前,为了准确度高的数据关系,主要通过对待处理数据本身进行处理,再确定数据序列之间的数据关系。例如,计算待处理数据中数据序列之间的交集,确定数据序列之间的数据关系,又例如,对数据序列进行嵌入编码(Embedding),得到嵌入特征向量,基于嵌入特征向量之间的向量相似度,确定数据序列之间的数据关系,还例如,对数据序列进行深度特征提取,基于深度特征向量之间的向量相似度,确定数据序列之间的数据关系,还例如,计算数据序列之间的编辑距离,确定数据序列之间的数据关系。
然而,上述方法并没有关注提示文本的优化,没有充分考虑到在关系识别模型对于自然语言文本的理解能力限制下,对于包含不同指示文本的提示文本,得到的识别结果的准确度存在巨大差异,造成识别得到的数据关系准确度不足的问题。
针对上述问题,本说明书提供了一种数据关系识别方法,本说明书同时涉及一种数据表整合方法,一种数据关系识别装置,一种数据表整合装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本说明书一个实施例提供的一种数据关系识别方法的流程图,包括如下具体步骤:
步骤102:获取待处理数据集和多种预设的关系识别任务。
本说明书实施例应用于具有提示文本构建和数据关系识别功能的应用、网页或者小程序的客户端或者服务端。该客户端或者服务端上部署有关系识别模型或者关系识别模型的应用程序编程接口(API,Application Programming Interface)。
待处理数据集为待执行数据关系识别的数据集合,待处理数据集包括多个数据序列,任一数据序列由至少一个数据组成,待处理数据集中数据可以为同一结构的数据,也可以为不同结构的数据,还可以为半结构化数据或者非结构化数据,在此不作限定。例如,待处理数据集为数据湖,数据湖包含多个数据表,任一数据表包含多个数据序列(数据行或者数据列),任一序列由至少一个数据组成。关系识别任务为预先设置的多种处理逻辑的识别数据关系的处理任务,包括直接识别任务和间接识别任务,多个关系识别任务可以理解为多种数据组织形式。直接识别任务为直接识别数据序列之间是否有数据关系的处理任务,即关系识别模型直接输出数据序列之间是否具有数据关系,间接识别任务为间接识别数据序列之间是否有数据关系的处理任务,即关系识别模型输出数据序列的数据特征,再根据数据特征确定数据序列之间是否有数据关系。
需要说明的是,本说明书实施例应用于客户端的情况下,步骤102的具体方式可以为直接识别用户输入的待处理数据集和多种预设的关系识别任务,也可以为接收用户输入的数据获取指令,从存储端获取得到待处理数据集和多种预设的关系识别任务,还可以为上述两种方式的结合。本说明书实施例应用于服务端的情况下,步骤102的具体方式可以为直接接收客户端发送的用户输入的待处理数据集和多种预设的关系识别任务,也可以为接收客户端发送的数据获取指令,从存储端获取得到待处理数据集和多种预设的关系识别任务,还可以为上述两种方式的结合。
示例性地,在文本处理平台的服务端上部署有关系识别模型,用户登录文本处理平台的网页客户端,用户在网页客户端上输入8种预设的关系识别任务并发送数据获取指令,服务端接收到数据获取指令,从存储端获取得到待处理数据集,其中,待处理数据集包含10张数据表,任一数据表中包含20个数据序列,任一数据序列包括100个数据。
获取待处理数据集和多种预设的关系识别任务。为后续训练得到候选指示集提供了多种处理逻辑对应的处理任务,为后续构建目标提示文本提供了数据基础。
步骤104:利用预先训练的关系识别模型,分别训练得到各关系识别任务对应的候选指示集。
关系识别模型为具有数据关系识别功能的大语言模型,关系识别模型基于输入的提示文本,理解并进行关系识别任务,获得数据序列之间的数据关系。关系识别模型包括但不限于:生成式大语言模型和变换式大语言模型。在关系识别模型的模型规模达到一定大小的情况下,认定其为一种大语言模型。为了让关系识别模型进行关系识别任务,需要将关系识别任务对应的提示文本输入关系识别模型,即需要用指示文本、示例文本和待处理文本构建得到提示文本。各关系识别任务对应的候选指示集为各关系识别任务对应的多个候选指示文本的集合,例如,关系识别任务包括直接识别任务和间接识别任务,直接识别任务对应3个候选指示文本“识别以下两个数据序列之间是否具有数据关系,若是,输出“存在关系”,若否,输出“不存在关系”。”,“确认以下两个数据序列是否相关联,若是,输出“存在关系”,若否,输出“不存在关系”。”和“在以下两个数据序列存在数据关系的情况下,输出“存在关系”,否则输出“不存在关系”。”,这3个候选指示文本组成直接识别任务对应的候选指示集,同理,间接识别任务对应5个候选指示文本,这5个候选指示文本组成间接识别任务对应的候选指示集。
利用预先训练的关系识别模型,分别训练得到各关系识别任务对应的候选指示集,具体方式为:获取各关系识别任务对应的初始指示文本,基于各初始指示文本构建对应的初始提示文本,利用关系识别模型,基于初始提示文本,对初始指示文本进行训练,得到各关系识别任务对应的候选指示集。其中,训练过程具体为:利用关系识别模型,对初始提示文本进行关系识别,获得数据序列间的预测数据关系,基于数据序列间的预测数据关系和标签数据关系,得到第一置信度,基于第一置信度调整初始指示文本,直至达到预设训练结束条件,得到各关系识别任务对应的候选指示集。
需要说明的是,步骤104中训练可以理解为训练得到多个准确对应的关系识别任务的候选指示文本,可以较准确表达关系识别任务的处理逻辑,但不一定能被关系识别模型准确理解。
示例性地,获取8种关系识别任务对应的20个初始指示文本,基于20个初始指示文本构建对应的20个初始提示文本,利用关系识别模型,对20个初始提示文本对应的数据序列进行关系识别,获得20个数据序列间的预测数据关系,基于20个数据序列间的预测数据关系和标签数据关系,得到20个第一置信度,基于20个第一置信度调整初始指示文本,直至达到预设置信度阈值,得到8种各关系识别任务对应的候选指示集(包含20个候选指示文本)。
利用预先训练的关系识别模型,分别训练得到各关系识别任务对应的候选指示集。训练得到准确对应关系识别任务的候选指示集,为后续确定目标指示文本提供了指示文本集合。
步骤106:利用关系识别模型,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本。
目标指示文本为候选指示集中准确引导关系识别模型理解对应的关系识别任务的指示文本,目标指示文本与待处理数据集之间具有针对性,可以理解为针对关系识别模型的最适合待处理数据集的指示文本,引导关系识别模型可以准确理解关系识别任务,完成对待处理数据集中数据序列间的数据关系的准确识别。例如,直接识别任务对应候选指示集中包括3个候选指示文本“识别以下两个数据序列之间是否具有数据关系,若是,输出“存在关系”,若否,输出“不存在关系”。”,“确认以下两个数据序列是否相关联,若是,输出“存在关系”,若否,输出“不存在关系”。”和“在以下两个数据序列存在数据关系的情况下,输出“存在关系”,否则输出“不存在关系”。”,虽然这3个候选指示文本都表达了相同的关系识别任务,但对于关系识别模型而言,理解得到的关系识别任务存在差异。在经过关系识别测试,确认“识别以下两个数据序列之间是否具有数据关系,若是,输出“存在关系”,若否,输出“不存在关系”。”这一候选指示文本可以准确引导关系识别模型理解对应的关系识别任务的指示文本,确定为目标指示文本。预设条件为预先设定的测试候选指示文本的测试条件,预设条件测试候选指示文本是否能准确引导关系识别模型理解对应的关系识别任务。例如,数据关系测试的置信度。在确定了目标指示文本的同时,也确定了目标关系识别任务。目标关系识别任务为目标指示文本对应的关系识别任务。例如,候选指示集中包含3种关系识别任务(关系识别任务1、关系识别任务2和关系识别任务3),任一种关系识别任务下具有5个候选指示文本(关系识别任务1:候选指示文本1、候选指示文本2、候选指示文本3、候选指示文本4、候选指示文本5;关系识别任务2:候选指示文本6、候选指示文本7、候选指示文本8、候选指示文本9、候选指示文本10;关系识别任务3:候选指示文本11、候选指示文本12、候选指示文本13、候选指示文本14、候选指示文本15),从候选指示集的15个候选指示文本中测试确定目标指示文本为候选指示文本12,确定目标关系识别任务为关系识别任务3。
利用关系识别模型,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本,具体方式为:基于各候选指示集中各候选指示文本,构建对应的候选提示文本,利用关系识别模型,对候选提示文本进行关系识别,从各候选指示集中确定目标指示文本。其中,关系识别的具体方式为:利用关系识别模型,对候选提示文本进行关系识别,获得数据序列间的预测数据关系,基于数据序列间的预测数据关系和标签数据关系,得到第二置信度,基于第二置信度,从各候选指示集中确定目标指示文本。
示例性地,基于8种各关系识别任务对应的候选指示集20个候选指示文本,构建8组候选提示文本(每组20个候选提示文本),利用关系识别模型,对8组候选提示文本进行关系识别,获得数据序列间的预测数据关系,基于8组数据序列间的预测数据关系和标签数据关系,得到8组第二置信度,基于8组第二置信度,从8组候选指示集中确定对应的目标指示文本。
利用关系识别模型,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本。确定能被关系识别模型准确理解的目标指示文本,为后续构建能被关系识别模型准确理解的目标提示文本奠定了基础。
步骤108:根据目标指示文本和待处理数据集,构建目标提示文本。
目标提示文本为包含目标指示文本的提示文本,由于目标指示文本为候选指示集中准确引导关系识别模型理解对应的关系识别任务的指示文本,所以目标提示文本也与待处理数据集之间具有针对性,可以理解为最适合待处理数据集的提示文本,引导关系识别模型可以准确理解关系识别任务,完成对待处理数据集中数据序列间的数据关系的准确识别。目标提示文本还包含示例文本和待处理文本,其中,待处理文本为包含关系识别任务的待处理数据集的自然语言文本,示例文本为包含关系识别示例的示例自然语言文本,用于协助大语言模型从特定角度理解目标处理任务,其中,关系识别示例可以在待处理数据集中确定,也可以从待处理数据集外确定。例如,目标指示文本为“Check if these twocolumns are compatible。”示例文本为:“示例文本1:Input:table_caption:pte_atm;column_name:atomtype; values:|as|se|ca|br|cl|VERSUStable_caption:mutagenesis_atom; column_name:element; values:|b|i|o|c|b|。Output:YES。示例文本2:Input:table_caption:student-mat; column_name:paid; values:|yes|yes|no|yes|yes|VERSUStable_caption:language; column_name:countrycodes; values:|LV|PY BR|ZA|KZ|MD|。Output:NO。示例文本3:Input:table_caption:cars; column_name:transmission; values:|automatic|automatic|mechanical|automatic|automatic|VERSUStable_caption:dataSpotifyClass; column_name:song_title; values:|Huarache Lights|No Woman|Strandbar (disko)|Come Alive (Dry Bones)|Lonely Boy|。Output:NO。”待处理文本为:“Input:table_caption:netflix_titles; column_name:rating; values:|NR|PG-13|PG|TV-PG|TV-G|VERSUStable_caption:countries_and_continents; column_name:MARC; values:|tc|ci|lu|lu|si|。”。
根据目标指示文本和待处理数据集,构建目标提示文本,具体方式为:根据待处理数据集和目标指示文本对应的目标关系识别任务,构建对应的示例文本和待处理文本,拼接目标指示文本、示例文本和待处理文本,得到目标提示文本。例如,目标关系识别任务为直接关系识别任务,则示例文本为“Input:数据序列A和数据序列B:A1|A2|A3|B1|B2|B3。数据序列C和数据序列D:C1|C2|C3|D1|D2|D3。Output:存在关系|不存在关系。”又例如,目标关系识别任务为间接关系识别任务,则示例文本为“Input:数据序列A和数据序列B:A1|A2|A3|B1|B2|B3。数据序列C和数据序列D:C1|C2|C3|D1|D2|D3。Output:标签1|标签2。”
需要说明的是,本说明书中构建指示文本、示例文本、待处理文本和提示文本,可以利用预先训练的生成式神经网络模型(例如,生成式大语言模型)直接生成,也可以为利用预先确定的文本生成模板生成得到,还可以为人为构建得到,在此不作限定。
示例性地,根据待处理数据集(10张数据表,任一数据表中包含20个数据序列,任一数据序列包括100个数据)和目标关系识别任务“直接关系识别任务”,构建对应的示例文本和待处理文本,拼接目标指示文本、示例文本和待处理文本,得到目标提示文本。
根据目标指示文本、目标关系识别任务和待处理数据集,构建目标提示文本。得到了能引导关系识别模型准确理解对应的关系识别任务的目标提示文本,为后续进行关系识别奠定了基础。
步骤110:利用关系识别模型,对目标提示文本进行关系识别,获得待处理数据集中数据序列间的数据关系。
数据序列间的数据关系为数据序列之间的数据关联关系,关联关系包括但不限于:数据序列来自同一数据源,数据序列为同质数据列和数据序列之间存在高相关性。例如,来自同一数据表、同一数据库和同一数据对象等;例如,相同数据源,不同版本的数据序列1的键(Key)为“NAME”,数据序列2的键为“NM”,两者来自同一数据源,又例如,数据序列3的值(Value)为双浮点类型数值,数据序列4的值为单浮点类型数值,两者为同质数据序列,例如,数据序列5为月计车辆故障数,数据序列6为周计车辆故障数,两者存在高相关性。
利用关系识别模型,对目标提示文本进行关系识别,获得待处理数据集中数据序列间的数据关系,具体方式为:将目标提示文本输入预先训练的关系识别模型,执行各关系识别任务,获得待处理数据集中数据序列间的数据关系。需要说明的是,关系识别模型可以部署在客户端或者服务端,在此情况下,直接输入和输出,也可以通过调用部署在客户端或者服务端的应用程序编程接口进行输入和输出。
示例性地,将上述目标提示文本输入预先训练的关系识别模型,进行关系识别任务,获得待处理数据集中200个数据序列间的数据关系:(数据序列1-数据序列2:存在关系;数据序列1-数据序列3:存在关系……)。
本说明书实施例中,获取待处理数据集和多种预设的关系识别任务;利用预先训练的关系识别模型,分别训练得到各关系识别任务对应的候选指示集;利用关系识别模型,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本;根据目标指示文本和待处理数据集,构建目标提示文本;利用关系识别模型,对目标提示文本进行关系识别,获得待处理数据集中数据序列间的数据关系。利用关系识别模型,先训练得到各关系识别任务对应的候选指示集,再对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本,确定能被关系识别模型准确理解的目标指示文本,进而自动构建得到适应于待处理数据集的目标提示文本来完成数据关系识别,解决了利用关系识别模型进行关系识别中,难以针对待处理数据集的针对性选择提示文本的问题,实现了准确度更高的数据关系识别。
本说明书一种可选实施例中,步骤108包括如下具体步骤:根据待处理数据集中各数据序列的数据类型,确定各数据序列对应的目标指示文本;根据各数据序列和对应的目标指示文本,构建对应的目标提示文本。
不同数据类型的数据序列对应更能准确引导关系识别模型理解对应的关系识别任务的目标指示文本,需要根据数据类型确定对应的目标指示文本,完成适应于该数据类型的数据序列的关系识别,提升了关系识别的准确度。例如,在待处理数据集中数据序列中数据长度小于1.2的情况下,确定数据序列为短数据序列,短数据序列更能在间接识别任务中被理解,更适应于间接识别任务的指示文本构建得到的提示文本,在数据序列中数据长度大于等于1.2的情况下,确定数据序列为长数据序列,长数据序列更能在直接识别任务中被理解,更适应于直接识别任务的指示文本构建得到的提示文本。确定短数据序列对应的目标关系识别任务为间接识别任务,目标指示文本为间接识别任务的指示文本,确定长数据序列对应的目标关系识别任务为直接识别任务,目标指示文本为直接识别任务的指示文本。
根据各数据序列和对应的目标指示文本,构建对应的目标提示文本,具体方式为:根据各数据序列和目标指示文本对应的目标关系识别任务,构建得到对应的示例文本和待处理文本,拼接各数据序列对应的目标指示文本、示例文本和待处理文本,得到对应的目标提示文本。其中,构建示例文本和待处理文本的具体方式参见上述步骤108的具体方式,在此不再赘述。
示例性地,根据待处理数据集中200个数据序列的数据长度,确定短数据序列对应的目标指示文本,确定长数据序列对应的目标指示文本,根据200个数据序列和目标指示文本对应的目标关系识别任务,构建得到对应的示例文本和待处理文本,拼接200个数据序列对应的目标指示文本、示例文本和待处理文本,得到对应的目标提示文本。
本说明书实施例中,根据数据序列的数据类型,确定更能准确引导关系识别模型理解对应的关系识别任务的目标指示文本,进而构建得到更能准确引导关系识别模型理解对应的关系识别任务的目标提示文本,实现了准确度更高的数据关系识别。
本说明书一种可选实施例中,步骤106包括如下具体步骤:基于各候选指示集中候选指示文本,生成各初始数据序列对应的候选提示文本;利用关系识别模型,对各候选提示文本进行关系识别,确定各初始数据序列间的预测数据关系;基于各初始数据序列间的预测数据关系和标签数据关系,确定各候选指示文本的置信度;基于各候选指示文本的置信度,确定目标指示文本。
初始数据序列为待处理数据集中部分数据序列,初始数据序列用于测试候选指示文本是否能准确引导关系识别模型理解对应的关系识别任务。预测数据关系为关系识别模型确定的各初始数据序列间的数据关系。标签数据关系为测试集中各初始数据序列间预先标注的数据关系。
各候选指示文本的置信度为各候选指示文本对于关系识别模型理解关系识别任务的引导衡量数值,即引导关系识别模型准确理解关系识别模型,则置信度高,不能引导关系识别模型准确理解关系识别模型,则置信度低。具体是通过预测数据关系和标签数据关系之间的差异度计算得到的。
基于各候选指示集中候选指示文本,生成各初始数据序列对应的候选提示文本,具体方式为:基于各初始数据序列和对应的关系识别任务,生成示例文本和待处理文本,拼接各候选指示集中候选指示文本、示例文本和待处理文本,得到各初始数据序列对应的候选提示文本。
利用关系识别模型,对各初始候选提示文本进行关系识别,确定各初始数据序列间的预测数据关系,具体方式为:将各初始候选提示文本输入关系识别模型,进行关系识别任务,获得各初始数据序列间的预测数据关系。基于各候选指示文本的置信度,确定目标指示文本,具体方式为:根据各候选指示文本的置信度,确定大于预设阈值的候选指示文本为目标指示文本。
示例性地,确定待处理数据集中20个数据序列为初始数据序列,基于各初始数据序列和对应的关系识别任务,生成示例文本和待处理文本,拼接8种关系识别任务对应的候选指示集20个候选指示文本、示例文本和待处理文本,得到8组候选提示文本(每组20个候选提示文本),将各候选提示文本输入关系识别模型,进行关系识别任务,获得20个初始数据序列间的预测数据关系,基于各初始数据序列间的预测数据关系和标签数据关系,确定各候选指示文本的置信度,根据各候选指示文本的置信度,确定大于预设阈值的候选指示文本为目标指示文本。
本说明书实施例中,基于预测数据关系和标签数据关系,确定各候选指示文本置信度,根据各候选指示文本的置信度,从各候选指示集中确定更适应关系识别模型的目标指示文本和目标关系识别任务,更为准确地确定能被关系识别模型准确理解的目标指示文本,为后续构建能被关系识别模型准确理解的目标提示文本奠定了基础。
本说明书一种可选实施例中,其中,多种预设的关系识别任务包括直接识别任务和/或间接识别任务;
对应地,步骤104包括如下具体步骤:利用预先训练的关系识别模型,分别训练得到直接识别任务对应的候选指示集和/或间接识别任务对应的候选指示集。
直接识别任务为直接识别数据序列之间是否有数据关系的处理任务,即关系识别模型直接输出数据序列之间是否具有数据关系。间接识别任务为间接识别数据序列之间是否有数据关系的处理任务,即关系识别模型输出数据序列的数据特征,再根据数据特征确定数据序列之间是否有数据关系。例如,输出数据序列的数据源,输出数据序列的数据表,输出数据序列的数据对象,输出数据序列的数据类别。
利用预先训练的关系识别模型,分别训练得到直接识别任务对应的候选指示集和/或间接识别任务对应的候选指示集,具体方式为:获取直接识别任务和/或间接识别任务对应的初始指示文本,基于各初始指示文本构建对应的初始提示文本,利用关系识别模型,基于初始提示文本,对初始提示文本进行训练,得到直接识别任务对应的候选指示集和/或间接识别任务对应的候选指示集。其中,训练的具体方式参见步骤104的说明。
示例性地,获取3种直接识别任务对应的6个初始指示文本和5种间接识别任务对应的14个初始指示文本,基于各初始指示文本构建对应的初始提示文本,利用关系识别模型,基于初始提示文本,对初始提示文本进行训练,得到3种直接识别任务对应的候选指示集和5种间接识别任务对应的候选指示集。
本说明书实施例中,实现了不同关系识别任务,针对地训练得到候选指示文本集,为后续确定针对性的目标指示文本奠定了基础。
本说明书一种可选实施例中,利用关系识别模型,对各候选提示文本进行关系识别,确定各初始数据序列间的预测数据关系,包括如下具体步骤:利用关系识别模型,对直接识别任务对应的候选指示集中各候选提示文本进行关系识别,确定各初始数据序列间的预测数据关系。
利用关系识别模型,对直接识别任务对应的候选指示集中各候选提示文本进行关系识别,确定各初始数据序列间的预测数据关系,具体方式为:基于各候选指示文本构建对应的候选提示文本,将各候选提示文本输入关系识别模型,进行直接识别任务,获得各初始数据序列间的预测数据关系。
示例性地,基于20个候选指示文本构建对应的候选提示文本,将20个候选提示文本输入关系识别模型,进行直接识别任务,获得各初始数据序列间的预测数据关系。
本说明书实施例中,针对直接识别任务,得到对应的预测数据关系,保证准确地确定置信度,确定能被关系识别模型准确理解的目标指示文本。
本说明书一种可选实施例中,利用关系识别模型,对各候选提示文本进行关系识别,确定各初始数据序列间的预测数据关系,包括如下具体步骤:利用关系识别模型,对间接识别任务对应的候选指示集中各候选提示文本进行数据分类,确定各初始数据序列的数据类别;基于各初始数据序列的数据类别之间的相似度,确定各初始数据序列间的预测数据关系。
各初始数据序列的数据类型为关系识别模型识别得到的初始数据序列中数据的对象类型,为一种类型标签。例如,初始数据序列1中数据的对象类型为用户A的用户数据,初始数据序列2中数据的对象类型为用户B的用户数据。又例如,初始数据序列3中数据的对象数据为各用户所在地,初始数据序列4中数据的对象数据为各用户IP地址。
利用关系识别模型,对间接识别任务对应的候选指示集中各候选提示文本进行数据分类,确定各初始数据序列的数据类别,具体方式为:基于各候选指示文本构建对应的候选提示文本,将各候选提示文本输入关系识别模型,进行间接识别任务,获得测试集中各初始数据序列的数据类别。
示例性地,基于20个候选指示文本构建对应的候选提示文本,将20个候选提示文本输入关系识别模型,进行间接识别任务,获得各初始数据序列的数据类别,基于各初始数据序列的数据类别之间的相似度,确定各初始数据序列间的预测数据关系。
本说明书实施例中,针对间接识别任务,得到对应的预测数据类型,再基于数据类型之间的相似度,保证准确地确定置信度,确定能被关系识别模型准确理解的目标指示文本。
本说明书一种可选实施例中,基于各初始数据序列间的预测数据关系和标签数据关系,确定各候选指示文本的置信度,包括如下具体步骤:利用置信度上界算法,基于多次采样得到的初始数据序列间的预测数据关系和标签数据关系,确定各候选指示文本的置信度。
因为测试要经过多轮迭代,在初始数据序列数量较大的情况下,每次迭代都重新预测测试集中所有数据序列间的预测数据关系,效率不足,同时也会引入置信度较低的候选指示文本参与迭代,因而,需要对各候选指示文本进行有选择性的采样,完成更有效的置信度计算。本说明书实施例中,利用置信度上界算法,采样得到更有效的数据序列。
示例性地,利用置信度上界算法,基于各初始数据序列间的预测数据关系和标签数据关系,确定8种各关系识别任务对应的候选指示集20个候选指示文本的置信度。
本说明书实施例中,利用置信度上界算法,基于多次采样得到的初始数据序列间的预测数据关系和标签数据关系,确定各候选指示文本的置信度,提升了置信度的准确度,提升了后续确定目标指示文本的准确度,提升了测试效率和关系识别效率。
本说明书一可选实施例中,待处理数据集包括训练集和测试集,训练集和测试集为从待处理数据集中采样预设比例的数据序列进行关系标注得到。
相应地,步骤104包括如下具体步骤:利用预先训练的关系识别模型,基于训练集,分别训练得到各关系识别任务对应的候选指示集;相应地,步骤106包括如下具体步骤:利用关系识别模型,基于测试集,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本。
待处理数据集包括训练集和测试集,本说明书实施例中,待处理数据集的数据量较大,无法直接进行测试,确定目标指示文本,需要从待处理数据集中采样预设比例的数据序列得到训练集和测试集。训练集为用于训练指示文本的样本数据集合,测试集为用于测试指示文本的样本数据集合。为了保证后续确定的目标识别文本与待处理数据集之间的针对性,训练集和测试集之间相互独立(无交集)。训练集和测试集包括多个数据序列,各数据序列之间标注有标签数据关系,包括存在关系或者不存在关系。例如,待处理数据集包含10张数据表,任一数据表中包含20个数据列,任一数据列包括100个数据,从200个数据列中各抽取3个数据,得到600个数据得到训练集(400个数据,200个数据列)和测试集(200个数据,200个数据列),训练集和测试集中200个数据列之间标注有标签数据关系(存在关系或者不存在关系)。
利用预先训练的关系识别模型,基于训练集,分别训练得到各关系识别任务对应的候选指示集,具体方式为:获取各关系识别任务对应的初始指示文本,基于训练集和各初始指示文本构建对应的初始提示文本,利用关系识别模型,基于初始提示文本,对初始指示文本进行训练,得到各关系识别任务对应的候选指示集。其中,训练的具体方式参见上述步骤104的说明。利用关系识别模型,基于测试集,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本,具体方式为:基于测试集和各候选指示集中各候选指示文本,构建对应的候选提示文本,利用关系识别模型,对候选提示文本进行关系识别,从各候选指示集中确定目标指示文本。其中,关系识别的具体方式参见上述步骤106的说明。
需要说明的是,关系识别测试是测试候选指示集的多个候选指示文本中能准确被关系识别模型理解,并执行对应关系识别任务,因而,需要用独立于构建候选指示集的测试集进行测试。
示例性地,待处理数据集包含10张数据表,任一数据表中包含20个数据序列,任一数据序列包括100个数据,从200个数据序列中各抽取3个数据,得到600个数据得到训练集(400个数据,200个数据序列)和测试集(200个数据,200个数据序列),训练集和测试集中200个数据序列之间标注有标签数据关系(存在关系或者不存在关系)。获取8种关系识别任务对应的20个初始指示文本,基于训练集和20个初始指示文本构建对应的20个初始提示文本,利用关系识别模型,基于20个初始提示文本,对初始指示文本进行训练,得到8种关系识别任务对应的候选指示集。基于测试集和8种各关系识别任务对应的候选指示集20个候选指示文本,构建8组候选提示文本(每组20个候选提示文本),利用关系识别模型,对8组候选提示文本进行关系识别,从8组候选指示集中确定对应的目标指示文本。
本说明书实施例汇总,利用待处理数据集中采样的预设比例数据序列,得到的训练集和测试集,提升了确定目标指示文本的效率,并且训练集和测试集都采样自待处理数据集,通过训练和测试,更为准确地确定了针对于待处理数据集的目标指示文本。
本说明书一可选实施例中,在利用预先训练的关系识别模型,基于训练集,分别训练得到各关系识别任务对应的候选指示集之前,还包括如下具体步骤:采用预设划分规则,对训练集和测试集分别进行划分,得到多个训练子集和多个测试子集;相应地,利用预先训练的关系识别模型,基于训练集,分别训练得到各关系识别任务对应的候选指示集,包括如下具体步骤:利用预先训练的关系识别模型,基于第一训练子集,分别训练得到第一训练子集下各关系识别任务对应的候选指示子集,其中,第一训练子集为多个训练子集中的任一个;基于各候选指示子集,构建第一训练子集对应的候选指示集;相应地,利用关系识别模型,基于测试集,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本,包括如下具体步骤:利用关系识别模型,基于第一训练子集对应的候选指示集,对第一测试子集进行关系识别测试,从第一训练子集对应的候选指示集中,确定第一训练子集对应的指示文本,其中,第一测试子集与第一训练子集的划分类型相同;整合各训练子集对应的指示文本和关系识别任务,得到目标指示文本。
一般地,待处理数据集包括大量的数据,包括多种不同数据源、不同数据结构的数据,直接按照预设比例采样得到训练集和测试集,造成了训练集和测试集中数据序列分布差异度(方差)大,导致训练和测试存在较大偏差,例如,出现假阴性(0 Negative)判断。因而,需要利用预设划分规则进行合理划分。
预设划分规则为预先设定的数据集合的划分规则,包括:根据数据序列的特征或者数据序列中数据特征,数据序列的特征可以为数据序列的差异度(方差)、数据序列的长度、数据序列的形式(键值对,三元组等)等,数据序列中数据的特征可以为数据类型(数据长度、数据格式:字符串或者数值等)、数据的模态等。第一训练子集为用于训练指示文本的样本数据子集合,第一测试子集为用于测试指示文本的样本数据子集合,第一训练子集为多个训练子集中的任一个,第一测试子集为多个测试子集中的与第一测试子集对应的测试子集,第一训练子集和第一测试子集的划分类型相同。
采用预设划分规则,对训练集和测试集分别进行划分,得到多个训练子集和多个测试子集,具体方式为:根据数据序列的特征或者数据序列中数据特征,对训练集和测试集分别进行划分,得到多个训练子集和多个测试子集。利用预先训练的关系识别模型,基于第一训练子集,分别训练得到第一训练子集下各关系识别任务对应的候选指示子集,具体方式为:获取各关系识别任务对应的初始指示文本,基于第一训练子集和各初始指示文本构建对应的初始提示文本,利用关系识别模型,基于初始提示文本,对初始指示文本进行训练,得到基于第一训练子集对应的候选指示集。其中,训练的具体方式参见上述步骤104的说明。利用关系识别模型,基于第一训练子集对应的候选指示集,对第一测试子集进行关系识别测试,从第一训练子集对应的候选指示集中,确定第一训练子集对应的指示文本和关系识别任务,具体方式为:基于各候选指示集中各候选指示文本和第一测试子集,构建对应的候选提示文本,利用关系识别模型,对候选提示文本进行关系识别,从第一训练子集对应的候选指示集中,确定第一训练子集对应的指示文本,确定指示文本对应的关系识别任务。其中,关系识别的具体方式参见上述步骤106的说明。
示例性地,根据数据序列中数据特征,对训练集和测试集分别进行划分,得到10个训练子集和10个测试子集,获取8种关系识别任务对应的20个初始指示文本,基于第一训练子集和20个初始指示文本构建对应的20个初始提示文本,利用关系识别模型,基于20个初始提示文本,对20个初始指示文本进行训练,得到基于第一训练子集对应的8种各关系识别任务对应的候选指示集(20个候选指示文本),8种各关系识别任务对应的候选指示集20个候选指示文本,构建第一训练子集对应的8个候选指示集(20个候选指示文本),基于8个候选指示集中20个候选指示文本和第一测试子集,构建对应的候选提示文本,利用关系识别模型,对候选提示文本进行关系识别,从第一训练子集对应的候选指示集中,确定第一训练子集对应的指示文本和关系识别任务,整合10个训练子集对应的指示文本,得到目标指示文本和目标指示文本对应的目标关系识别任务。
本说明书实施例中,有效消除了训练集和测试集中数据序列分布差异度,提升了训练和测试的准确度,提升了确定的目标提示文本和目标指示文本对应的目标关系识别任务的准确度。
本说明书一种可选实施例中,对训练集和测试集进行划分,得到至少一个训练子集和至少一个训练子集对应的测试子集,包括如下具体步骤:根据训练集和测试集中数据序列的数据类型,对训练集和测试集分别进行划分,得到多个训练子集和多个测试子集。
数据序列的数据类型为数据序列中数据的特征类型,包括:数据长度、数据格式和数据结构等。例如,在数据序列中数据长度小于1.2的情况下,确定数据序列为短数据序列,在数据序列中数据长度大于等于1.2的情况下,确定数据序列为长数据序列。
示例性地,对训练集和测试集分别进行划分,在数据序列中数据长度小于1.2的情况下,确定数据序列为短数据序列,在数据序列中数据长度大于等于1.2的情况下,确定数据序列为长数据序列,得到10个训练子集和10个测试子集。
本说明书实施例中,有效消除了训练集和测试集中数据序列在数据类型上分布差异度,提升了训练和测试的准确度,提升了确定的目标提示文本的准确度。
本说明书一种可选实施例中,利用预先训练的关系识别模型,基于训练集,分别训练得到各关系识别任务对应的候选指示集,包括如下具体步骤:基于各关系识别任务,构建对应的初始指示文本;根据各初始指示文本和训练集,构建对应的初始提示文本;利用预先训练的关系识别模型,对各初始提示文本进行关系识别,确定训练集中各数据序列间的预测数据关系;基于各数据序列间的预测数据关系和标签数据关系,调整初始指示文本,得到各关系识别任务对应的候选指示集。
本说明书实施例中应用了自动提示文本工程的方法,完成了候选指示集的构建。
初始指示文本为待训练的指示文本,初始指示文本和各关系识别任务对应。例如,初始指示文为“判断以下两种数据之间是否具有数据关系,若是,输出“存在关系”,若否,输出“不存在关系”。”,在训练过程中对其中的“判断”和“两种数据”进行了调整,得到了对应的候选指示文本为:“识别以下两个数据序列之间是否具有数据关系,若是,输出“存在关系”,若否,输出“不存在关系”。”。初始提示文本为包含初始指示文本的提示文本。
基于各关系识别任务,构建对应的初始指示文本,可以为利用文本生成模型(例如,具有文本生成功能的关系识别模型)进行构建,也可以利用文本生成模板进行构建,在此不做限定。
根据各初始指示文本和训练集,构建对应的初始提示文本,具体方式为:根据训练集,构建示例文本和待处理文本,拼接各初始指示文本、示例文本和待处理文本,得到对应的初始提示文本。利用预先训练的关系识别模型,对各初始提示文本进行关系识别,确定训练集中各数据序列间的预测数据关系,具体方式为:将各初始提示文本输入预先训练的关系识别模型,进行对应的关系识别任务,获得训练集中各数据序列间的预测数据关系。基于各数据序列间的预测数据关系和标签数据关系,调整初始指示文本,得到各关系识别任务对应的候选指示集,具体方式为:基于各数据序列间的预测数据关系和标签数据关系,确定各初始指示文本的置信度,基于各初始指示文本的置信度,调整初始指示文本,得到各关系识别任务对应的候选指示集。其中,基于置信度,调整文本,具体方式为:以提升置信度为目标,调整初始指示文本。
示例性地,基于8种关系识别任务,利用关系识别模型,生成对应的20个初始指示文本,根据训练集,构建示例文本和待处理文本,拼接各初始指示文本、示例文本和待处理文本,得到对应的20个初始提示文本,将20个初始提示文本输入预先训练的关系识别模型,进行对应的关系识别任务,获得20组训练集中各数据序列间的预测数据关系,基于各数据序列间的预测数据关系和标签数据关系,确定20个初始指示文本的置信度,基于20个初始指示文本的置信度,调整对应的20个初始指示文本,得到8种各关系识别任务对应的候选指示集(20个候选指示文本)。
本说明书实施例中,应用自动提示文本工程的方法,完成了候选指示集的构建,训练得到更准确对应关系识别任务的候选指示集,为后续确定目标指示文本提供了指示文本集合。
参见图2,图2示出了本说明书一个实施例提供的一种数据表整合方法的流程图,包括如下具体步骤:
步骤202:获取多张初始数据表和多种预设的关系识别任务。
步骤204:利用预先训练的关系识别模型,分别训练得到各关系识别任务对应的候选指示集。
步骤206:利用关系识别模型,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本。
步骤208:根据目标指示文本和多张初始数据表中数据序列,构建目标提示文本。
步骤210:利用关系识别模型,对目标提示文本进行关系识别,获得数据序列间的数据关系。
步骤212:根据数据序列间的数据关系,整合多张初始数据表,得到目标数据表。
由于多张初始数据表可能有不同的数据来源、不同的数据字段命名规则,导致存在数据关系的数据序列在不同的初始数据表中,占用了多余的存储空间,给数据使用带来不便。
本说明书实施例应用于具有提示文本构建、数据关系识别和数据表整合功能的应用、网页或者小程序的客户端或者服务端。该客户端或者服务端上部署有关系识别模型或者关系识别模型的应用程序编程接口(API,Application Programming Interface)。
初始数据表为待整合存储有数据序列的数据表,初始数据表为数据库(例如,数据湖)中的数据表。目标数据表为整合得到的数据表,目标数据表中数据序列数目小于等于初始数据表中数据序列数目。数据整合可以为对存在数据关系的数据序列去重,也可以为对存在数据关系的数据序列进行筛选,在此不作限定。
本说明书实施例中,步骤302至步骤310的具体方式已在上述步骤102至步骤110中详细说明,在此不再赘述。
示例性地,在文本处理平台的服务端上部署有关系识别模型,用户登录文本处理平台的网页客户端,用户在网页客户端输入初始数据表的表名和数据表整合任务,客户端生成数据表整合请求并发送至服务端,服务端接收到该数据表整合请求,从存储端获取得到表名对应的10张初始数据表,任一初始数据表中包含20个数据序列,任一数据序列包括100个数据。获取8种关系识别任务对应的20个初始指示文本,基于20个初始指示文本构建对应的20个初始提示文本,利用关系识别模型,对20个初始提示文本对应的数据序列进行关系识别,获得20个数据序列间的预测数据关系,基于20个数据序列间的预测数据关系和标签数据关系,得到20个第一置信度,基于20个第一置信度调整初始指示文本,直至达到预设置信度阈值,得到8种各关系识别任务对应的候选指示集(包含20个候选指示文本)。基于8种各关系识别任务对应的候选指示集20个候选指示文本,构建8组候选提示文本(每组20个候选提示文本),利用关系识别模型,对8组候选提示文本进行关系识别,获得数据序列间的预测数据关系,基于8组数据序列间的预测数据关系和标签数据关系,得到8组第二置信度,基于8组第二置信度,从8组候选指示集中确定对应的目标指示文本。根据待处理数据集(10张数据表,任一数据表中包含20个数据序列,任一数据序列包括100个数据)和目标关系识别任务“直接关系识别任务”,构建对应的示例文本和待处理文本,拼接目标指示文本、示例文本和待处理文本,得到目标提示文本。将上述目标提示文本输入预先训练的关系识别模型,进行关系识别任务,获得待处理数据集中200个数据序列间的数据关系:(数据序列1-数据序列2:存在关系;数据序列1-数据序列3:存在关系……)。根据数据关系,整合10张初始数据表,得到1张目标数据表,并将该目标数据表从服务端发送至客户端,反馈给用户。
本说明书实施例中,获取多张初始数据表和多种预设的关系识别任务;利用预先训练的关系识别模型,分别训练得到各关系识别任务对应的候选指示集;利用关系识别模型,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本;根据目标指示文本和多张初始数据表中数据序列,构建目标提示文本;利用关系识别模型,对目标提示文本进行关系识别,获得数据序列间的数据关系;根据数据序列间的数据关系,整合多张初始数据表,得到目标数据表。利用关系识别模型,先训练得到各关系识别任务对应的候选指示集,再对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本,确定能被关系识别模型准确理解的目标指示文本,进而自动构建得到适应于多张初始数据表的目标提示文本来完成数据关系识别,解决了利用关系识别模型进行关系识别中,难以针对多张初始数据表针对性地选择提示文本的问题,实现了准确度更高的数据关系识别,进而实现了准确度更高的数据表整合,节省了存储成本。
本说明书一种可选实施例中,在步骤312之后,还包括如下具体步骤:将目标数据表反馈至用户;在接收到用户发送的针对目标数据表的后处理指令的情况下,对本地记录的目标数据表进行后处理。
后处理为对目标数据表进一步的操作处理。后处理包括数据表更新处理和数据表管理处理。数据表更新处理包括增加数据序列处理、删除数据序列处理、修改数据序列处理、增加数据处理、删除数据处理和修改数据处理等。数据表管理处理包括数据表备份处理、可视化处理、数据分析处理和统计处理等。后处理指令为用户发送的执行后处理的操作指令。
示例性地,将目标数据表反馈至用户,在接收到用户发送的针对目标数据表的可视化处理和数据分析处理的情况下,对本地记录的目标数据表进行可视化处理和数据分析处理。
将目标数据表反馈至用户;在接收到用户发送的针对目标数据表的后处理指令的情况下,对本地记录的目标数据表进行后处理。增强了和用户之间的交互性,满足了用户的数据表整合需求,提升了用户体验。
图3示出了本说明书一个实施例提供的一种数据关系识别方法的流程示意图,如图3所示:
目标提示文本是基于确定的目标提示模板构建得到的,具体处理流程如下:开始,待处理数据集中采样预设比例的数据序列进行关系标注,采用预设划分规则,对训练集和测试集分别进行划分,得到多个训练子集和多个测试子集,选出一个训练子集和测试子集,选出一种关系识别任务,利用预先训练的关系识别模型,基于该训练子集,分别训练得到该训练子集下该关系识别任务对应的候选指示子集,判断是否还有未选择的关系识别任务类型,若是,返回执行选出一种关系识别任务的步骤,若否,基于各候选指示子集,构建该训练子集下各关系识别任务对应的候选指示集,利用关系识别模型,基于该训练子集对应的候选指示集,对该测试子集进行关系识别测试,利用置信度上界算法,从该训练子集对应的候选指示集中,确定该训练子集对应的指示文本与关系识别任务类型,判断是否还有未选择的训练子集,若是,返回执行选出一个训练子集和测试子集,若否,整合各训练子集对应的指示文本,得到目标指示文本,确定目标提示文本模板,结束。
图4示出了本说明书一个实施例提供的一种数据关系识别方法的前端示意图,如图4所示:
在文本处理平台的前端界面中,包括对话区域、“+新建对话”控件、历史文本处理任务列表(历史文本处理任务1、历史文本处理任务2和历史文本处理任务3)、对话输入框、发送空间和取消控件。用户在对话输入框输入提示文本、多个待处理文本、多个参考文本和对应的参考结果,执行上述图1实施例中步骤102至步骤106,获得一个提示文本:“指示文本: Check if these two columns are compatible。示例文本:示例文本1:Input:table_caption:pte_atm; column_name:atomtype; values:|as|se|ca|br|cl|VERSUStable_caption:mutagenesis_atom; column_name:element; values:|b|i|o|c|b|。Output:YES。示例文本2:Input:table_caption:student-mat; column_name:paid; values:|yes|yes|no|yes|yes|VERSUStable_caption:language; column_name:countrycodes; values:|LV|PY BR|ZA|KZ|MD|。Output:NO。示例文本3:Input:table_caption:cars; column_name:transmission; values:|automatic|automatic|mechanical|automatic|automatic|VERSUStable_caption:dataSpotifyClass; column_name:song_title; values:|Huarache Lights|No Woman|Strandbar (disko)|Come Alive (Dry Bones)|Lonely Boy|。Output:NO。待处理文本:Input:table_caption:netflix_titles; column_name:rating; values:|NR|PG-13|PG|TV-PG|TV-G|VERSUStable_caption:countries_and_continents; column_name:MARC; values:|tc|ci|lu|lu|si|。”,用户点选发送控件,将该提示文本发送给文本处理平台上部署的文本处理模型,文本处理模型,对提示文本执行数据湖上数据序列的数据关系识别任务,获得对应的文本处理结果“YES”,将该文本处理结果反馈给用户,上述提示文本和文本处理结果在对话区域中显示。
下述结合图5,以本说明书提供的数据关系识别方法在数据检索场景的应用为例,对所述数据关系识别模型进行进一步说明。其中,图5示出了本说明书一个实施例提供的一种应用于数据湖的数据关系识别方法的处理过程流程图,具体包括以下步骤:
步骤502:接收用户发送的输入数据。步骤504:根据输入数据对应的数据序列和待检索数据集中数据序列间的数据关系,确定与数据序列存在数据关系的目标数据序列,数据关系基于数据关系识别方法预先识别得到。步骤506:将目标数据序列中的目标数据反馈至用户。
本说明书实施例应用于具有数据检索功能的应用、网页或者小程序的服务端,服务端本地记录有预先利用关系识别模型识别得到的待检索数据集中数据序列间的数据关系,该服务端上还存储有待检索数据集。
输入数据为用于数据检索的索引数据,目标数据为数据检索的检索结果。本说明书实施例与上述图1实施例处于同一发明构思,具体实施方式可以参见上述图1实施例中的具体方式,在此不再赘述。
示例性地,接收用户发送的输入数据:终端A的IP地址,根据输入数据对应的数据序列“终端的IP地址表”和待检索数据集中数据序列间的数据关系,确定与数据序列存在数据关系的目标数据序列“终端所在地表”,数据关系基于数据关系识别方法预先识别得到,返回目标数据序列中的目标数据“终端A所在地”至用户。
本说明书实施例中,接收用户发送的输入数据,根据输入数据对应的数据序列和待检索数据集中数据序列间的数据关系,确定与数据序列存在数据关系的目标数据序列,数据关系基于数据关系识别方法预先识别得到,返回目标数据序列中的目标数据至用户。预先根据,构建得到适应于待处理数据集的目标提示文本完成了数据关系识别,根据高准确度的数据关系识别,检索得到了更准确地对应于输入数据的目标数据序列中的目标数据,并将目标数据返回用户,提升了用户体验。
下述结合附图6,以本说明书提供的数据关系识别方法在数据湖的应用为例,对所述数据关系识别方法进行进一步说明。其中,图6示出了本说明书一个实施例提供的一种应用于数据湖的数据关系识别方法的处理过程流程图,具体包括以下步骤:
步骤602:获取数据湖中的待处理数据集,其中,待处理数据集中采样预设比例的数据序列进行关系标注;步骤604:采用预设划分规则,对训练集和测试集分别进行划分,得到多个训练子集和多个测试子集;步骤606:选出一个训练子集和测试子集;步骤608:选出一种关系识别任务;步骤610:利用预先训练的关系识别模型,基于该训练子集,分别训练得到该训练子集下该关系识别任务对应的候选指示子集;步骤612:判断是否还有未选择的关系识别任务类型;若是,返回执行步骤608;若否,执行步骤614;步骤614:基于各候选指示子集,构建该训练子集下各关系识别任务对应的候选指示集;步骤616:利用关系识别模型,基于该训练子集对应的候选指示集,对该测试子集进行关系识别测试,利用置信度上界算法,从该训练子集对应的候选指示集中,确定该训练子集对应的指示文本与关系识别任务类型;步骤618:判断是否还有未选择的训练子集;若是,返回执行步骤606;若否,执行步骤620;步骤620:整合各训练子集对应的指示文本,得到目标指示文本和目标指示文本对应的目标关系识别任务,确定目标提示文本模板;步骤622:基于目标关系识别任务和目标提示文本模板,构建目标提示文本;步骤624:利用关系识别模型,对目标提示文本进行关系识别,获得待处理数据集中数据序列间的数据关系。
本说明书实施例中,数据湖中的待处理数据集包括训练集和测试集,利用关系识别模型,先基于训练集,训练得到包括多个关系识别任务对应指示文本的候选指示集,再基于候选指示集,在测试集上进行关系识别测试,确定更能被关系识别模型准确理解的目标指示文本和目标关系识别任务,进而自动构建得到适应于待处理数据集的目标提示文本来完成数据关系识别,解决了利用关系识别模型上进行关系识别中,待处理数据集的针对性提示文本选择问题,实现了准确度更高的数据关系识别。
与上述方法实施例相对应,本说明书还提供了数据关系识别装置实施例,图7示出了本说明书一个实施例提供的一种数据关系识别装置的结构示意图。如图7所示,该装置包括:
第一获取模块702,被配置为获取待处理数据集和多种预设的关系识别任务;第一训练模块704,被配置为利用预先训练的关系识别模型,分别训练得到各关系识别任务对应的候选指示集;第一测试模块706,被配置为利用关系识别模型,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本;第一构建模块708,被配置为根据目标指示文本和待处理数据集,构建目标提示文本;第一识别模块710,被配置为利用关系识别模型,对目标提示文本进行关系识别,获得待处理数据集中数据序列间的数据关系。
可选地,第一构建模块708被进一步配置为:根据待处理数据集中各数据序列的数据类型,确定各数据序列对应的目标指示文本;根据各数据序列和对应的目标指示文本,构建对应的目标提示文本。
可选地,第一测试模块706被进一步配置为:基于各候选指示集中候选指示文本,生成各初始数据序列对应的候选提示文本;利用关系识别模型,对各候选提示文本进行关系识别,确定各初始数据序列间的预测数据关系;基于各初始数据序列间的预测数据关系和标签数据关系,确定各候选指示文本的置信度;基于各候选指示文本的置信度,确定目标指示文本。
可选地,其中,多种预设的关系识别任务包括直接识别任务和/或间接识别任务;相应地,第一训练模块704被进一步配置为:利用预先训练的关系识别模型,分别训练得到直接识别任务对应的候选指示集和/或间接识别任务对应的候选指示集。
可选地,第一测试模块706被进一步配置为:利用关系识别模型,对基于直接识别任务对应的候选指示集所生成的各候选提示文本进行关系识别,确定各初始数据序列间的预测数据关系。
可选地,第一测试模块706被进一步配置为:利用关系识别模型,对基于间接识别任务对应的候选指示集所生成的各候选提示文本进行数据分类,确定各初始数据序列的数据类别;基于各初始数据序列的数据类别之间的相似度,确定各初始数据序列间的预测数据关系。
可选地,第一测试模块706被进一步配置为:利用置信度上界算法,基于各初始数据序列间的预测数据关系和标签数据关系,确定各候选指示文本的置信度。
可选地,其中,待处理数据集包括训练集和测试集,训练集和测试集为从待处理数据集中采样预设比例的数据序列进行关系标注得到;相应地,第一训练模块704被进一步配置为:利用预先训练的关系识别模型,基于训练集,分别训练得到各关系识别任务对应的候选指示集;
相应地,第一测试模块706被进一步配置为:利用关系识别模型,基于测试集,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本。
可选地,该装置还包括:划分模块,被配置为采用预设划分规则,对训练集和测试集分别进行划分,得到多个训练子集和多个测试子集;相应地,第一训练模块704被进一步配置为:利用预先训练的关系识别模型,基于第一训练子集,分别训练得到第一训练子集下各关系识别任务对应的候选指示子集,其中,第一训练子集为多个训练子集中的任一个;基于各候选指示子集,构建第一训练子集对应的候选指示集;相应地,第一测试模块706被进一步配置为:利用关系识别模型,基于第一训练子集对应的候选指示集,对第一测试子集进行关系识别测试,从第一训练子集对应的候选指示集中,确定第一训练子集对应的指示文本,其中,第一测试子集与第一训练子集的划分类型相同;整合各训练子集对应的指示文本和关系识别任务,得到目标指示文本。
可选地,第一训练模块704被进一步配置为:基于各关系识别任务,构建对应的初始指示文本;根据各初始指示文本和训练集,构建对应的初始提示文本;利用预先训练的关系识别模型,对各初始提示文本进行关系识别,确定训练集中各数据序列间的预测数据关系;基于各数据序列间的预测数据关系和标签数据关系,调整初始提示文本,得到各关系识别任务对应的候选指示集。
本说明书实施例中,利用关系识别模型,先训练得到各关系识别任务对应的候选指示集,再对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本,确定能被关系识别模型准确理解的目标指示文本,进而自动构建得到适应于待处理数据集的目标提示文本来完成数据关系识别,解决了利用关系识别模型进行关系识别中,难以针对待处理数据集针对性地选择提示文本的问题,实现了准确度更高的数据关系识别。
上述为本实施例的一种数据关系识别装置的示意性方案。需要说明的是,该数据关系识别装置的技术方案与上述的数据关系识别方法的技术方案属于同一构思,数据关系识别装置的技术方案未详细描述的细节内容,均可以参见上述数据关系识别方法的技术方案的描述。
与上述方法实施例相对应,本说明书还提供了数据表整合装置实施例,图8示出了本说明书一个实施例提供的一种数据表整合装置的结构示意图。如图8所示,该装置包括:
第二获取模块802,被配置为获取多张初始数据表和多种预设的关系识别任务;第二训练模块804,被配置为利用预先训练的关系识别模型,分别训练得到各关系识别任务对应的候选指示集;第二测试模块806,被配置为利用关系识别模型,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本;第二构建模块808,被配置为根据目标指示文本和多张初始数据表中数据序列,构建目标提示文本;第二识别模块810,被配置为利用关系识别模型,对目标提示文本进行关系识别,获得数据序列间的数据关系;整合模块812,被配置为根据数据序列间的数据关系,整合多张初始数据表,得到目标数据表。
可选地,该装置还包括:后处理模块,被配置为将目标数据表反馈至用户;在接收到用户发送的针对目标数据表的后处理指令的情况下,对本地记录的目标数据表进行后处理。
本说明书实施例中,利用关系识别模型,先训练得到各关系识别任务对应的候选指示集,再对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本,确定能被关系识别模型准确理解的目标指示文本,进而自动构建得到适应于多张初始数据表的目标提示文本来完成数据关系识别,解决了利用关系识别模型进行关系识别中,难以针对多张初始数据表针对性地选择提示文本的问题,实现了准确度更高的数据关系识别,进而实现了准确度更高的数据表整合,节省了存储成本。
上述为本实施例的一种数据表整合装置的示意性方案。需要说明的是,该数据表整合装置的技术方案与上述的数据表整合方法的技术方案属于同一构思,数据表整合装置的技术方案未详细描述的细节内容,均可以参见上述数据表整合方法的技术方案的描述。
图9示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接,数据库950用于保存数据。
计算设备900还包括接入设备940,接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterface controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)。
在本说明书的一个实施例中,计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图9所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备900可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
其中,处理器920用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述数据关系识别方法或者数据表整合方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的数据关系识别方法和数据表整合方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述数据关系识别方法或者数据表整合方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述数据关系识别方法或者数据表整合方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据关系识别方法和数据表整合方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据关系识别方法或者数据表整合方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述数据关系识别方法或者数据表整合方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的数据关系识别方法和数据表整合方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述数据关系识别方法或者数据表整合方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地区,根据专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (13)
1.一种数据关系识别方法,包括:
获取待处理数据集和多种预设的关系识别任务;
利用预先训练的关系识别模型,分别训练得到各关系识别任务对应的候选指示集;
利用所述关系识别模型,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本,其中,包括:基于所述各候选指示集中候选指示文本,生成各初始数据序列对应的候选提示文本,利用所述关系识别模型,对各候选提示文本进行关系识别,确定所述各初始数据序列间的预测数据关系,基于所述各初始数据序列间的预测数据关系和标签数据关系,确定所述各候选指示文本的置信度,基于所述各候选指示文本的置信度,确定目标指示文本;
根据所述目标指示文本和所述待处理数据集,构建目标提示文本;
利用所述关系识别模型,对所述目标提示文本进行关系识别,获得所述待处理数据集中数据序列间的数据关系。
2.根据权利要求1所述的方法,所述根据所述目标指示文本和所述待处理数据集,构建目标提示文本,包括:
根据所述待处理数据集中各数据序列的数据类型,确定所述各数据序列对应的目标指示文本;
根据所述各数据序列和对应的目标指示文本,构建对应的目标提示文本。
3.根据权利要求1所述的方法,其中,所述多种预设的关系识别任务包括直接识别任务和/或间接识别任务;
所述利用预先训练的关系识别模型,分别训练得到各关系识别任务对应的候选指示集,包括:
利用预先训练的关系识别模型,分别训练得到所述直接识别任务对应的候选指示集和/或所述间接识别任务对应的候选指示集。
4.根据权利要求3所述的方法,所述利用所述关系识别模型,对各候选提示文本进行关系识别,确定所述各初始数据序列间的预测数据关系,包括:
利用所述关系识别模型,对基于所述直接识别任务对应的候选指示集所生成的各候选提示文本进行关系识别,确定所述各初始数据序列间的预测数据关系。
5.根据权利要求3所述的方法,所述利用所述关系识别模型,对各候选提示文本进行关系识别,确定所述各初始数据序列间的预测数据关系,包括:
利用所述关系识别模型,对基于所述间接识别任务对应的候选指示集所生成的各候选提示文本进行数据分类,确定所述各初始数据序列的数据类别;
基于所述各初始数据序列的数据类别之间的相似度,确定所述各初始数据序列间的预测数据关系。
6.根据权利要求1所述的方法,所述基于所述各初始数据序列间的预测数据关系和标签数据关系,确定所述各候选指示文本的置信度,包括:
利用置信度上界算法,基于各初始数据序列间的预测数据关系和标签数据关系,确定所述各候选指示文本的置信度。
7.根据权利要求1-6任一项所述的方法,其中,所述待处理数据集包括训练集和测试集,所述训练集和所述测试集为从所述待处理数据集中采样预设比例的数据序列进行关系标注得到;
所述利用预先训练的关系识别模型,分别训练得到各关系识别任务对应的候选指示集,包括:
利用预先训练的关系识别模型,基于所述训练集,分别训练得到各关系识别任务对应的候选指示集;
所述利用所述关系识别模型,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本,包括:
利用所述关系识别模型,基于所述测试集,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本。
8.根据权利要求7所述的方法,在所述利用预先训练的关系识别模型,基于所述训练集,分别训练得到各关系识别任务对应的候选指示集之前,还包括:
采用预设划分规则,对所述训练集和所述测试集分别进行划分,得到多个训练子集和多个测试子集;
所述利用预先训练的关系识别模型,基于所述训练集,分别训练得到各关系识别任务对应的候选指示集,包括:
利用预先训练的关系识别模型,基于第一训练子集,分别训练得到所述第一训练子集下各关系识别任务对应的候选指示子集,其中,所述第一训练子集为所述多个训练子集中的任一个;
基于各候选指示子集,构建所述第一训练子集对应的候选指示集;
所述利用所述关系识别模型,基于所述测试集,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本,包括:
利用所述关系识别模型,基于所述第一训练子集对应的候选指示集,对第一测试子集进行关系识别测试,从所述第一训练子集对应的候选指示集中,确定所述第一训练子集对应的指示文本,其中,所述第一测试子集与所述第一训练子集的划分类型相同;
整合各训练子集对应的指示文本和关系识别任务,得到目标指示文本。
9.根据权利要求7所述的方法,所述利用预先训练的关系识别模型,基于所述训练集,分别训练得到各关系识别任务对应的候选指示集,包括:
基于各关系识别任务,构建对应的初始指示文本;
根据各初始指示文本和所述训练集,构建对应的初始提示文本;
利用预先训练的关系识别模型,对各初始提示文本进行关系识别,确定所述训练集中各数据序列间的预测数据关系;
基于所述各数据序列间的预测数据关系和标签数据关系,调整所述初始提示文本,得到各关系识别任务对应的候选指示集。
10.一种数据表整合方法,包括:
获取多张初始数据表和多种预设的关系识别任务;
利用预先训练的关系识别模型,分别训练得到各关系识别任务对应的候选指示集;
利用所述关系识别模型,对各候选指示集中的候选指示文本进行筛选,确定符合预设识别条件的目标指示文本,其中,包括:基于所述各候选指示集中候选指示文本,生成各初始数据序列对应的候选提示文本,利用所述关系识别模型,对各候选提示文本进行关系识别,确定所述各初始数据序列间的预测数据关系,基于所述各初始数据序列间的预测数据关系和标签数据关系,确定所述各候选指示文本的置信度,基于所述各候选指示文本的置信度,确定目标指示文本;
根据所述目标指示文本和所述多张初始数据表中数据序列,构建目标提示文本;
利用所述关系识别模型,对所述目标提示文本进行关系识别,获得所述数据序列间的数据关系;
根据所述数据序列间的数据关系,整合所述多张初始数据表,得到目标数据表。
11.根据权利要求10所述的方法,在所述根据所述数据序列间的数据关系,整合所述多张初始数据表,得到目标数据表之后,还包括:
将所述目标数据表反馈至用户;
在接收到用户发送的针对所述目标数据表的后处理指令的情况下,对本地记录的所述目标数据表进行后处理。
12.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述方法的步骤。
13.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310710545.0A CN116451678B (zh) | 2023-06-15 | 2023-06-15 | 数据关系识别及数据表整合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310710545.0A CN116451678B (zh) | 2023-06-15 | 2023-06-15 | 数据关系识别及数据表整合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116451678A CN116451678A (zh) | 2023-07-18 |
CN116451678B true CN116451678B (zh) | 2023-11-14 |
Family
ID=87132404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310710545.0A Active CN116451678B (zh) | 2023-06-15 | 2023-06-15 | 数据关系识别及数据表整合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116451678B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885716A (zh) * | 2016-09-29 | 2018-04-06 | 腾讯科技(深圳)有限公司 | 文本识别方法及装置 |
US10388274B1 (en) * | 2016-03-31 | 2019-08-20 | Amazon Technologies, Inc. | Confidence checking for speech processing and query answering |
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN112446459A (zh) * | 2019-08-28 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 数据识别、模型构建与训练、特征提取方法、系统及设备 |
CN113468891A (zh) * | 2021-07-27 | 2021-10-01 | 支付宝(杭州)信息技术有限公司 | 文本处理方法以及装置 |
CN115438658A (zh) * | 2022-11-08 | 2022-12-06 | 浙江大华技术股份有限公司 | 一种实体识别方法、识别模型的训练方法和相关装置 |
CN116127046A (zh) * | 2023-03-03 | 2023-05-16 | 北京百度网讯科技有限公司 | 生成式大语言模型训练方法、基于模型的人机语音交互方法 |
CN116127080A (zh) * | 2021-11-11 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 描述对象的属性值提取方法及相关设备 |
CN116245086A (zh) * | 2022-12-05 | 2023-06-09 | 阿里巴巴(中国)有限公司 | 文本处理方法、模型训练方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230112921A1 (en) * | 2021-10-01 | 2023-04-13 | Google Llc | Transparent and Controllable Human-Ai Interaction Via Chaining of Machine-Learned Language Models |
-
2023
- 2023-06-15 CN CN202310710545.0A patent/CN116451678B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10388274B1 (en) * | 2016-03-31 | 2019-08-20 | Amazon Technologies, Inc. | Confidence checking for speech processing and query answering |
CN107885716A (zh) * | 2016-09-29 | 2018-04-06 | 腾讯科技(深圳)有限公司 | 文本识别方法及装置 |
WO2020001373A1 (zh) * | 2018-06-26 | 2020-01-02 | 杭州海康威视数字技术股份有限公司 | 一种本体构建方法及装置 |
CN112446459A (zh) * | 2019-08-28 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 数据识别、模型构建与训练、特征提取方法、系统及设备 |
CN113468891A (zh) * | 2021-07-27 | 2021-10-01 | 支付宝(杭州)信息技术有限公司 | 文本处理方法以及装置 |
CN116127080A (zh) * | 2021-11-11 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 描述对象的属性值提取方法及相关设备 |
CN115438658A (zh) * | 2022-11-08 | 2022-12-06 | 浙江大华技术股份有限公司 | 一种实体识别方法、识别模型的训练方法和相关装置 |
CN116245086A (zh) * | 2022-12-05 | 2023-06-09 | 阿里巴巴(中国)有限公司 | 文本处理方法、模型训练方法和系统 |
CN116127046A (zh) * | 2023-03-03 | 2023-05-16 | 北京百度网讯科技有限公司 | 生成式大语言模型训练方法、基于模型的人机语音交互方法 |
Non-Patent Citations (3)
Title |
---|
Tongshuang Wu,et al..ScatterShot: Interactive In-context Example Curation for Text Transformation.《In 28th International Conference on Intelligent User Interfaces (IUI ’23)》.2023,全文. * |
复杂表格数据化中的单元格语义关系识别研究;林鑫 等;《数字图书馆论坛》;全文 * |
大语言模型背景下情报研究的数字化应对策略及实践场景;杨倩 等;《竞争情报》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116451678A (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
CN111651474B (zh) | 一种自然语言至结构化查询语言的转换方法及系统 | |
CN113065358B (zh) | 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法 | |
CN110717324A (zh) | 裁判文书答案信息提取方法、装置、提取器、介质和设备 | |
CN113806482A (zh) | 视频文本跨模态检索方法、装置、存储介质和设备 | |
CN112732871A (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
CN112100401A (zh) | 面向科技服务的知识图谱构建方法、装置、设备及存储介质 | |
CN116049397A (zh) | 基于多模态融合的敏感信息发现并自动分类分级方法 | |
CN116579339A (zh) | 任务执行方法和优化任务执行方法 | |
CN111444677A (zh) | 基于大数据的阅读模型优化方法、装置、设备及介质 | |
CN117132923A (zh) | 视频分类方法、装置、电子设备及存储介质 | |
CN117235605B (zh) | 一种基于多模态注意力融合的敏感信息分类方法及装置 | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
CN117093686A (zh) | 智能问答匹配方法、装置、终端及存储介质 | |
CN116451678B (zh) | 数据关系识别及数据表整合方法 | |
CN115759085A (zh) | 基于提示模型的信息预测方法、装置、电子设备及介质 | |
CN115438142B (zh) | 一种对话式交互数据分析报告系统 | |
CN112528674B (zh) | 文本处理方法、模型的训练方法、装置、设备及存储介质 | |
CN115358473A (zh) | 基于深度学习的电力负荷预测方法及预测系统 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN114969347A (zh) | 缺陷查重实现方法、装置、终端设备及存储介质 | |
CN114780700A (zh) | 基于机器阅读理解的智能问答方法、装置、设备及介质 | |
CN112732423A (zh) | 流程迁移方法、装置、设备及介质 | |
CN118132738B (zh) | 针对桥梁检评文本的抽取式问答方法 | |
CN117992925B (zh) | 基于多源异构数据和多模态数据的风险预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |