CN116467500A - 数据关系识别、自动问答、查询语句生成方法 - Google Patents

数据关系识别、自动问答、查询语句生成方法 Download PDF

Info

Publication number
CN116467500A
CN116467500A CN202310714357.5A CN202310714357A CN116467500A CN 116467500 A CN116467500 A CN 116467500A CN 202310714357 A CN202310714357 A CN 202310714357A CN 116467500 A CN116467500 A CN 116467500A
Authority
CN
China
Prior art keywords
data
sequence
original
guide
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310714357.5A
Other languages
English (en)
Other versions
CN116467500B (zh
Inventor
王海滨
王耀华
孙修宇
丁博麟
周靖人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202310714357.5A priority Critical patent/CN116467500B/zh
Publication of CN116467500A publication Critical patent/CN116467500A/zh
Application granted granted Critical
Publication of CN116467500B publication Critical patent/CN116467500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供数据关系识别、自动问答、查询语句生成方法,其中所述数据关系识别方法包括:获取原始标注序列组和引导标注序列组,其中,原始标注序列组包括原始数据序列和原始数据序列对应的原始标签序列,引导标注序列组包括引导数据序列和引导数据序列对应的引导标签序列,原始数据序列和引导数据序列中分别包括至少两个数据源中的数据;将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,其中,引导标注序列组用于引导数据关系识别模型对原始数据序列进行预测;根据原始标签序列和预测标签序列,确定数据关系识别结果。缩短了任务逻辑链路,降低了任务难度,提高了数据关系识别的效率。

Description

数据关系识别、自动问答、查询语句生成方法
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种数据关系识别方法。
背景技术
随着计算机技术的发展,企业和个人用户产生的数据呈爆炸式增长。数据湖(DataLake)是一个以原始格式存储数据的存储系统,用于存储、处理和保护大量结构化、半结构化和非结构化数据。如何发现数据湖中的数据关系逐渐成为研究重点。
目前,通常可以采用对两列数据取交集的方法识别数据湖中的数据是否有关联关系,然而,上述方法需要读取两列的全部数据,数据读取开销较大,导致数据关系识别效率极低,因此,亟需一种高效的数据关系识别方案。
发明内容
根据本说明书实施例的第一方面,提供了一种数据关系识别方法,包括:获取原始标注序列组和引导标注序列组,其中,原始标注序列组包括原始数据序列和原始数据序列对应的原始标签序列,引导标注序列组包括引导数据序列和引导数据序列对应的引导标签序列,原始数据序列和引导数据序列中分别包括至少两个数据源中的数据;将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,其中,引导标注序列组用于引导数据关系识别模型对原始数据序列进行预测;根据原始标签序列和预测标签序列,确定数据关系识别结果。
本说明书一个实施例提供的数据关系识别方法,获取原始标注序列组和引导标注序列组,其中,原始标注序列组包括原始数据序列和原始数据序列对应的原始标签序列,引导标注序列组包括引导数据序列和引导数据序列对应的引导标签序列,原始数据序列和引导数据序列中分别包括至少两个数据源中的数据;将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,其中,引导标注序列组用于引导数据关系识别模型对原始数据序列进行预测;根据原始标签序列和预测标签序列,确定数据关系识别结果。通过将数据关系识别任务转换为序列标注任务,充分利用了数据关系识别模型的语义理解能力和泛化能力,从而实现无需训练数据关系识别模型就可以完成数据关系识别任务的目的,缩短了任务逻辑链路,并且降低了任务难度,提高了数据关系识别的效率。
附图说明
图1是本说明书一个实施例提供的一种数据关系识别系统的架构图;
图2是本说明书一个实施例提供的另一种数据关系识别系统的架构图;
图3是本说明书一个实施例提供的一种数据关系识别方法的流程图;
图4是本说明书一个实施例提供的一种数据查询方法的流程图;
图5是本说明书一个实施例提供的一种查询语句生成方法的流程图;
图6是本说明书一个实施例提供的一种自动问答方法的流程图;
图7是本说明书一个实施例提供的一种数据关系识别方法的处理过程流程图;
图8是本说明书一个实施例提供的另一种数据关系识别方法的处理过程流程图;
图9是本说明书一个实施例提供的一种自动问答界面的界面示意图;
图10是本说明书一个实施例提供的一种数据关系识别装置的结构示意图;
图11是本说明书一个实施例提供的一种自动问答装置的结构示意图;
图12是本说明书一个实施例提供的一种查询语句生成装置的结构示意图;
图13是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本说明书一个或多个实施例中,大模型是指具有大规模模型参数的深度学习模型,通常包含上亿、上百亿、上千亿、上万亿甚至十万亿以上的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model),通过大规模无标注的语料进行大模型的预训练,产出亿级以上参数的预训练模型,这种模型能适应广泛的下游任务,模型具有较好的泛化能力,例如大规模语言模型(LLM,Large Language Model)、多模态预训练模型(multi-modal pre-training model)等。
大模型在实际应用时,仅需少量样本对预训练模型进行微调即可应用于不同的任务中,大模型可以广泛应用于自然语言处理(Natural Language Processing,简称NLP)、计算机视觉等领域,具体可以应用于如视觉问答(Visual Question Answering,简称VQA)、图像描述(Image Caption,简称IC)、图像生成等计算机视觉领域任务,以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务,大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
数据湖:数据湖是一个集中存储区,用于存储、处理和保护大量结构化、半结构化和非结构化数据,数据湖中的数据来源多样、数据形式各异。数据湖可以非常快速地摄取数据,然后在用户访问时动态准备数据。
数据关系识别:数据关系识别也可以称为数据关系发现、联合关系发现(joindiscovery),数据关系识别是对数据湖研究的一个重要方面,应用价值广泛。
随着计算机技术的发展,企业和个人用户产生的数据呈爆炸式增长。数据湖(DataLake)是一个以原始格式存储数据的存储系统,用于存储、处理和保护大量结构化、半结构化和非结构化数据,因此,数据湖逐渐成为数据的重要组织形式。如何发现数据湖中的数据关系逐渐成为研究重点。
目前,通常可以采用以下几种方式进行数据关系识别:第一种,对两列数据取交集的方法识别数据湖中的数据是否有关联关系,也即是否是相关的(joinable)。第二种,采用列嵌入(column embedding)的方法计算两列数据之间的相似度,相似度高的认为有关联关系。第三种,将两列数据转换为词向量,词向量足够相似即可认为两列数据之间具有相似度。
然而,上述方案仅仅是在词表面进行匹配,缺乏对数据之间的语义知识理解,需要读取两列的全部数据,数据读取开销较大,导致数据关系识别效率极低,对于分布敏感的数据,可能存在漏判的情况。并且,需要针对数据关系识别任务单独训练单一的模型,导致数据关系识别成本较大。
为了解决上述问题,本说明书实施例将大模型应用到数据湖中的数据关系识别任务,提供了一种数据关系识别方法,获取原始标注序列组和引导标注序列组,其中,原始标注序列组包括原始数据序列和原始数据序列对应的原始标签序列,引导标注序列组包括引导数据序列和引导数据序列对应的引导标签序列,原始数据序列和引导数据序列中分别包括至少两个数据源中的数据;将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,其中,引导标注序列组用于引导数据关系识别模型对原始数据序列进行预测;根据原始标签序列和预测标签序列,确定数据关系识别结果。通过将数据关系识别任务转换为序列标注任务,充分利用了数据关系识别模型的语义理解能力和泛化能力,从而实现无需训练数据关系识别模型就可以完成数据关系识别任务的目的,缩短了任务逻辑链路,并且降低了任务难度,提高了数据关系识别的效率。
在本说明书中,提供了一种数据关系识别方法,本说明书同时涉及一种自动问答方法,一种查询语句生成方法,一种数据关系识别装置,一种自动问答装置,一种查询语句生成装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本说明书一个实施例提供的一种数据关系识别系统的架构图,数据关系识别系统可以包括客户端100和服务端200;客户端100,用于向服务端200发送数据关系识别请求;服务端200,用于响应于数据关系识别请求,获取原始标注序列组和引导标注序列组,其中,原始标注序列组包括原始数据序列和原始数据序列对应的原始标签序列,引导标注序列组包括引导数据序列和引导数据序列对应的引导标签序列,原始数据序列和引导数据序列中分别包括至少两个数据源中的数据;将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,其中,引导标注序列组用于引导数据关系识别模型对原始数据序列进行预测;根据原始标签序列和预测标签序列,确定数据关系识别结果;向客户端100发送数据关系识别结果;客户端100,还用于接收服务端200发送的数据关系识别结果。
应用本说明书实施例的方案,通过将数据关系识别任务转换为序列标注任务,充分利用了数据关系识别模型的语义理解能力和泛化能力,从而实现无需训练数据关系识别模型就可以完成数据关系识别任务的目的,缩短了任务逻辑链路,并且降低了任务难度,提高了数据关系识别的效率。
参见图2,图2示出了本说明书一个实施例提供的另一种数据关系识别系统的架构图,数据关系识别系统可以包括多个客户端100以及服务端200。多个客户端100之间通过服务端200可以建立通信连接,在数据关系识别场景中,服务端200即用来在多个客户端100之间提供数据关系识别服务,多个客户端100可以分别作为发送端或接收端,通过服务端200实现通信。用户通过客户端100可与服务端200进行交互以接收其它客户端100发送的数据,或将数据发送至其它客户端100等。在数据关系识别场景中,可以是用户通过客户端100向服务端200发布数据流,服务端200根据该数据流生成数据关系识别,并将数据关系识别推送至其他建立通信的客户端中。其中,客户端100与服务端200之间通过网络建立连接。网络为客户端100与服务端200之间提供了通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。客户端100所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端200。
客户端100可以为浏览器、APP(Application,应用程序)、或网页应用如H5(HyperText Markup Language5,超文本标记语言第5版)应用、或轻应用(也被称为小程序,一种轻量级应用程序)或云应用等,客户端100可以基于服务端200提供的相应服务的软件开发工具包(SDK,Software Development Kit),如基于实时通信(RTC,Real TimeCommunication)SDK开发获得等。客户端100可以部署在电子设备中,需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等,如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用,例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
服务端200可以包括提供各种服务的服务器,例如为多个客户端提供通信服务的服务器,又如为客户端上使用的模型提供支持的用于后台训练的服务器,又如对客户端发送的数据进行处理的服务器等。需要说明的是,服务端200可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content DeliveryNetwork)以及大数据和人工智能平台等基础云计算服务的云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
值得说明的是,本说明书实施例中提供的数据关系识别方法一般由服务端执行,但是,在本说明书的其它实施例中,客户端也可以与服务端具有相似的功能,从而执行本说明书实施例所提供的数据关系识别方法。在其它实施例中,本说明书实施例所提供的数据关系识别方法还可以是由客户端与服务端共同执行。
参见图3,图3示出了本说明书一个实施例提供的一种数据关系识别方法的流程图,具体包括以下步骤:
步骤302:获取原始标注序列组和引导标注序列组,其中,原始标注序列组包括原始数据序列和原始数据序列对应的原始标签序列,引导标注序列组包括引导数据序列和引导数据序列对应的引导标签序列,原始数据序列和引导数据序列中分别包括至少两个数据源中的数据。
本说明书一个或多个实施例中,对于大模型而言,数据关系识别任务是不常见的任务,为了利用大模型对数据关系识别任务进行处理,可以通过提示工程(PromptEngineering),在给定大模型不变的情况下,通过提示信息使得大模型可以处理数据关系识别任务,输出数据关系识别结果。也即,可以获取原始标注序列组和引导标注序列组,将引导标注序列组作为提示信息引导大模型处理数据关系识别任务。
具体地,原始标注序列组是指由原始数据序列和原始标签序列构成的序列组。引导标注序列组是由引导数据序列和引导标签序列构成的序列组。引导标注序列组可以是一个,也可以是多个,本说明书实施例对引导标注序列组的数量不作任何限定。
原始数据序列是由来自至少两个数据源的原始数据构成的序列。至少两个数据源中的数据可能相关,也可能无关。原始标签序列是由原始数据序列中各原始数据的原始标签构成的序列。原始数据的原始标签用于标识原始数据,原始标签可以是原始数据的数据源,也可以是原始数据的数据存储位置,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
引导数据序列是由来自至少两个数据源的引导数据构成的序列。引导标签序列是由引导数据序列中各引导数据的引导标签构成的序列。引导数据的引导标签用于标识引导数据,引导标签可以是引导数据的数据源,也可以是引导数据的数据存储位置,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
实际应用中,获取原始标注序列组和引导标注序列组的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中,可以接收用户输入的原始标注序列组和引导标注序列组。本说明书另一种可能的实现方式中,可以从至少两个数据源中获取数据构建原始标注序列组和引导标注序列组。
本说明书一种可选的实施例中,以至少两个数据源包括第一数据源和第二数据源为例,上述获取原始标注序列组和引导标注序列组,可以包括以下步骤:
根据第一数据源和第二数据源中的数据构建原始数据序列,并根据第一数据源和第二数据源中的数据构建引导数据序列;
根据原始数据序列中各原始数据的原始标签构建原始标签序列,并根据引导数据序列中各引导数据的引导标签构建引导标签序列,其中,各原始数据和原始标签序列中的各原始标签一一对应,各引导数据和引导标签序列中的各引导标签一一对应;
根据原始数据序列和原始标签序列构建原始标注序列组,并根据引导数据序列和引导标签序列构建引导标注序列组。
具体地,第一数据源和第二数据源是不同的两个数据源。例如,第一数据源可以是表1中的列C1,第二数据源可以是表2中的列C2。
实际应用中,根据第一数据源和第二数据源中的数据构建原始数据序列,并根据第一数据源和第二数据源中的数据构建引导数据序列的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
本说明书第一种可能的实现方式中,可以从第一数据源和第二数据源中随机选择原始数据构建原始数据序列,从第一数据源和第二数据源中随机选择引导数据构建引导数据序列,也即,原始数据序列和引导数据序列中的数据量可以不同。
示例性地,假设第一数据源中的数据包括“A、B、C、D、E、F、G”,第二数据源中的数据包括“a、b、c、d、e、f”。从第一数据源中随机选择原始数据“B”,从第二数据源中随机选择原始数据“c”,根据原始数据“B”和原始数据“c”构建原始数据序列为{B,c}。从第一数据源中随机选择引导数据“E、F”,从第二数据源中随机选择引导数据“f”,根据引导数据“E、F”和引导数据“f”构建引导数据序列为{E,F,f}。
本说明书第二种可能的实现方式中,可以从第一数据源和第二数据源中选择共第一预设数量的引导数据构建引导数据序列,同样,可以从第一数据源和第二数据源中选择共第一预设数量的原始数据构建原始数据序列,也即,原始数据序列和引导数据序列中的数据量相同,但原始数据序列和引导数据序列中,来自不同数据源的数据量可以不同。
本说明书第三种可能的实现方式中,可以从第一数据源和第二数据源中分别选择第二预设数量的原始数据,根据分别选择的原始数据构建原始数据序列,从第一数据源和第二数据源中分别选择第二预设数量的引导数据,根据分别选择的引导数据构建引导数据序列,也即,原始数据序列和引导数据序列中的数据量相同,且原始数据序列和引导数据序列中,来自不同数据源的数据量也相同。
应用本说明书实施例的方案,无需用户输入原始数据序列和引导数据序列,减少了数据传输量,提高了用户使用体验度。
本说明书一种可选的实施例中,以构建得到的原始数据序列和引导数据序列中的数据量相同为例,上述根据第一数据源和第二数据源中的数据构建原始数据序列,并根据第一数据源和第二数据源中的数据构建引导数据序列,可以包括以下步骤:
从第一数据源和第二数据源中提取第一预设数量的原始数据,并从第一数据源和第二数据源中提取第一预设数量的引导数据;
根据第一预设数量的原始数据构建原始数据序列,并根据第一预设数量的引导数据构建引导数据序列。
具体地,原始数据是指原始数据序列中的数据,引导数据是指引导数据序列中的数据。原始数据序列中原始数据的数据量为第一预设数量,引导数据序列中引导数据的数据量为第一预设数量,第一预设数量具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
需要说明的是,从第一数据源和第二数据源中提取第一预设数量的原始数据,从第一数据源和第二数据源中提取第一预设数量的引导数据时,可以随机提取,还可以根据数据存储顺序提取,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
进一步地,根据第一预设数量的原始数据构建原始数据序列,根据第一预设数量的引导数据构建引导数据序列时,可以根据提取顺序构建原始数据序列和引导数据序列,也可以对提取的原始数据和引导数据进行乱序处理,并根据乱序处理后的引导数据构建引导数据序列,根据乱序处理后的原始数据构建原始数据序列。
示例性地,假设第一预设数量为4,第一数据源中的数据包括“A、B、C、D、E、F、G”,第二数据源中的数据包括“a、b、c、d、e、f”。从第一数据源和第二数据源中提取第一预设数量的原始数据“A、B、C、d”,并从第一数据源和第二数据源中提取第一预设数量的引导数据“F、G、e、f”。根据第一预设数量的原始数据“A、B、C、d”构建原始数据序列为{A,B,C,d},并根据第一预设数量的引导数据“F、G、e、f”构建引导数据序列为{F,G,e,f}。
应用本说明书实施例的方案,实现了原始数据序列和引导数据序列等长,使得数据关系识别模型可以更好地基于引导标注序列组学习处理原始数据序列,提高了数据关系识别结果的准确性。并且,由于原始数据序列和引导数据序列中包括至少两个数据源中的部分数据,无需读取至少两个数据源中的所有数据,降低了数据读取开销,提高了数据关系识别的效率。
本说明书另一种可选的实施例中,以构建得到的原始数据序列和引导数据序列中的数据量相同,且来着不同数据源的数据量也相同为例,上述根据第一数据源和第二数据源中的数据构建原始数据序列,并根据第一数据源和第二数据源中的数据构建引导数据序列,可以包括以下步骤:
从第一数据源中提取第二预设数量的第一原始数据,并从第二数据源中提取第二预设数量的第二原始数据;
从第一数据源中提取第二预设数量的第一引导数据,并从第二数据源中提取第二预设数量的第二引导数据;
根据第一原始数据和第二原始数据构建原始数据序列,并根据第一引导数据和第二引导数据构建引导数据序列。
具体地,第一原始数据是指原始数据序列中来自第一数据源的数据,第二原始数据是指原始数据序列中来自第二数据源的数据。第一引导数据是指引导数据序列中来自第一数据源的数据,第二引导数据是指引导数据序列中来自第二数据源的数据。第二预设数量具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
需要说明的是,从第一数据源中提取第二预设数量的第一原始数据、从第二数据源中提取第二预设数量的第二原始数据、从第一数据源中提取第二预设数量的第一引导数据、从第二数据源中提取第二预设数量的第二引导数据的方式,可以随机提取,还可以根据数据存储顺序提取,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
进一步地,根据第一原始数据和第二原始数据构建原始数据序列,并根据第一引导数据和第二引导数据构建引导数据序列时,可以根据提取顺序构建原始数据序列和引导数据序列,也可以对提取的第一原始数据、第二原始数据、第一引导数据和第二引导数据进行乱序处理,并根据乱序处理后的第一引导数据和乱序处理后的第二引导数据构建引导数据序列,根据乱序处理后的第一原始数据和乱序处理后的第二原始数据构建原始数据序列。
示例性地,假设第二预设数量为2,第一数据源中的数据包括“A、B、C、D、E、F、G”,第二数据源中的数据包括“a、b、c、d、e、f”。从第一数据源中提取第二预设数量的第一原始数据“A、C”,并从第二数据源中提取第二预设数量的第二原始数据“d、e”;从第一数据源中提取第二预设数量的第一引导数据“E、G”,并从第二数据源中提取第二预设数量的第二引导数据“b、c”;根据第一原始数据“A、C”和第二原始数据“d、e”构建原始数据序列为{A,C,d,e},并根据第一引导数据“E、G”和第二引导数据“b、c”构建引导数据序列为{E,G,b,c}。
应用本说明书实施例的方案,由于原始数据序列和引导数据序列中来自不同数据源的数据是等量的,从而使得数据关系识别模型在学习处理时,不偏向任一数据源,提高了数据关系识别结果的准确性。并且,由于原始数据序列和引导数据序列中包括至少两个数据源中的部分数据,无需读取至少两个数据源中的所有数据,降低了数据读取开销,提高了数据关系识别的效率。
实际应用中,根据原始数据序列中各原始数据的原始标签构建原始标签序列,并根据引导数据序列中各引导数据的引导标签构建引导标签序列的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能的实现方式中,可以直接根据原始数据序列中各原始数据的原始标签构建原始标签序列,并根据引导数据序列中各引导数据的引导标签构建引导标签序列。示例性地,假设第一数据源中的数据包括“A、B、C、D、E、F、G”,第二数据源中的数据包括“a、b、c、d、e、f”。原始数据序列为{A,C,d,e},引导数据序列为{E,G,b,c}。原始数据序列中原始数据的原始标签为数据源,引导数据序列中引导数据的引导标签为数据源,则原始标签序列为{第一数据源,第一数据源,第二数据源,第二数据源},引导标签序列为{第一数据源,第一数据源,第二数据源,第二数据源}。
本说明书另一种可能的实现方式中,为了避免数据关系识别模型认为标签序列是固定格式的,可以对原始数据序列和引导数据序列中的数据进行乱序处理,其中,乱序处理可以理解为顺序打散,进一步构建原始标签序列和引导标签序列,也即,上述根据原始数据序列中各原始数据的原始标签构建原始标签序列,并根据引导数据序列中各引导数据的引导标签构建引导标签序列之前,还可以包括以下步骤:
对原始数据序列进行乱序处理,并对引导数据序列进行乱序处理,获得乱序处理后的原始数据序列和乱序处理后的引导数据序列;
根据原始数据序列中各原始数据的原始标签构建原始标签序列,并根据引导数据序列中各引导数据的引导标签构建引导标签序列,可以包括以下步骤:
根据乱序处理后的原始数据序列中各原始数据的原始标签构建原始标签序列,并根据乱序处理后的引导数据序列中各引导数据的引导标签构建引导标签序列。
示例性地,假设第一数据源中的数据包括“A、B、C、D、E、F、G”,第二数据源中的数据包括“a、b、c、d、e、f”。原始数据序列为{A,C,d,e},引导数据序列为{E,G,b,c}。原始数据序列中原始数据的原始标签为数据源,引导数据序列中引导数据的引导标签为数据源。随机打散原始数据序列中原始数据的顺序,获得乱序处理后的原始数据序列为{A,d,C,e},随机打散引导数据序列中引导数据的顺序,获得乱序处理后的引导数据序列为{E,b,c,G}。则原始标签序列为{第一数据源,第二数据源,第一数据源,第二数据源},引导标签序列为{第一数据源,第二数据源,第二数据源,第一数据源}。
应用本说明书实施例的方案,通过乱序处理,避免数据关系识别模型认为标签序列是固定格式的,提高了数据关系识别结果的精确性。
步骤304:将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,其中,引导标注序列组用于引导数据关系识别模型对原始数据序列进行预测。
本说明书一个或多个实施例中,获取原始标注序列组和引导标注序列组之后,进一步地,可以将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列。
具体地,数据关系识别模型为自然语言的深度学习模型,也即大模型。数据关系识别模型包括但不限于生成式预训练语言模型(GPT,Generative Pre-trainedTransformer)、双向编码语言模型(BERT,Bidirectional Encoder Representations fromTransformers)、文本到文本转换模型(T5,Transfer Text-to-Text Transformer ),数据关系识别模型具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
引导标注序列组中的引导数据序列和引导标签序列可以理解为引导数据关系识别模型的标注样例,而原始标注序列组中的原始数据序列可以理解为待标注序列,也即数据关系识别模型的标注对象,原始标签序列可以理解为待标注序列的真实标注信息,原始标签序列用于和数据关系识别模型输出的预测标签序列进行比较,从而确定数据关系识别结果。
需要说明的是,由于数据关系识别模型具有情境学习(In-context-learning)能力,也即数据关系识别模型可以从少量的输入样例中学习如何处理任务。具体地,向数据关系识别模型输入问题和答案的样例,再输入另外的问题,数据关系识别模型就能输出符合样例逻辑的答案。
若引导标注序列组中不同引导标签对应的引导数据是不相关的,则数据关系识别模型可以学习到引导数据序列中的引导数据对应的数据标签具体是什么,从而对原始数据序列进行准确预测。若引导标注序列组中不同引导标签对应的引导数据是相关的,也即引导标签不同的引导数据很像,则数据关系识别模型可以学习到将引导数据标记成任一引导标签均可以,从而无法对原始数据序列进行准确预测。因此,可以将数据关系识别任务转换为序列标注(Sequence Labeling/Tagging)任务,利用数据关系识别模型的序列标注能力,在数据湖上进行数据关系识别,为数据湖构建关联结构。
步骤306:根据原始标签序列和预测标签序列,确定数据关系识别结果。
本说明书一个或多个实施例中,获取原始标注序列组和引导标注序列组,将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列之后,进一步地,可以根据原始标签序列和预测标签序列,确定数据关系识别结果。
应用本说明书实施例的方案,通过将数据关系识别任务转换为序列标注任务,充分利用了数据关系识别模型的语义理解能力和泛化能力,从而实现无需训练数据关系识别模型就可以完成数据关系识别任务的目的,缩短了任务逻辑链路,并且降低了任务难度,提高了数据关系识别的效率。
实际应用中,根据原始标签序列和预测标签序列,确定数据关系识别结果的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。本说明书一种可能实现的方式中,可以对比原始标签序列和预测标签序列,在对比结果为不同的情况下,直接确定至少两个数据源中的数据相关,也即,上述根据原始标签序列和预测标签序列,确定数据关系识别结果,可以包括以下步骤:
在原始标签序列和预测标签序列相同的情况下,确定至少两个数据源中的数据不相关;
在原始标签序列和预测标签序列不同的情况下,确定至少两个数据源中的数据相关。
具体地,数据相关是指至少两个数据源中的数据存在关联关系,如数据类型相关、数据内容相关、数据格式相关。数据不相关是指至少两个数据源中的数据不存在关联关系,如数据类型不相关、数据内容不相关、数据格式不相关。
需要说明的是,对比原始标签序列和预测标签序列,若原始标签序列和预测标签序列相同,则说明数据关系识别模型可以准确识别出原始数据序列中各原始数据的标签,原始数据序列中来自各数据源的数据是不相关的,进一步确定至少两个数据源中的数据不相关。若原始标签序列和预测标签序列不同,则说明数据关系识别模型不能准确识别出原始数据序列中各原始数据的标签,原始数据序列中来自各数据源的数据是相关的,进一步确定至少两个数据源中的数据相关。
示例性地,假设第一数据源是表1中的列C1:country codes,第二数据源是表2中的列C2:city codes。C1中的内容是国家缩写“ZM,PG,BF,CI,CN,CA,LK,PG,PL,BJ”,C2中的内容是城市缩写“LVA,AGO,ALB,LSO,BEL,CHL,GTM,STP,CRI,PRT”。从C1和C2中提取数据构建若干个引导标注序列组,每个引导标注序列组都要在C1和C2中采样,比如在C1中采样CI、LK,在C2中采样ALB、LSO。然后将采样得到的数据打散后组成引导数据序列:ALB| LK| LSO|CI。引导数据序列对应的引导标签序列为:city codes| country codes| city codes|country codes。同样地,从C1和C2中提取数据构建原始标注序列组,比如在C1中采样ZM、PG,在C2中采样AGO、STP。然后将采样得到的数据打散后组成原始数据序列:PG| AGO| STP|ZM。原始数据序列对应的原始标签序列为:country codes| city codes| city codes|country codes。将引导标注序列组和原始数据序列输入数据关系识别模型,由数据关系识别模型对原始数据序列进行标注。原始标签序列用于判断数据关系识别模型输出的预测标签序列是否正确,不会输入给数据关系识别模型。由于引导标注序列提供了参考样例,并且国家缩写和城市缩写数据之间没有关联,数据关系识别模型可以预测出正确的标签country codes| city codes| city codes| country codes。由于原始标签序列和预测标签序列相同,可以确定country codes和city codes不相关。
示例性地,假设第一数据源是表1中的列C1:country codes,第二数据源是表2中的列C3:Country。C1中的内容是国家缩写“ZM,PG,BF,CI,CN,CA,LK,PG,PL,BJ”,C3中的内容是国家缩写“CD,EF,GH,UV,KL,MN,YZ”。从C1和C3中提取数据构建若干个引导标注序列组,每个引导标注序列组都要在C1和C3中采样,比如在C1中采样CI、LK,在C3中采样YZ、KL。然后将采样得到的数据打散后组成引导数据序列:KL| LK| YZ| CI。引导数据序列对应的引导标签序列为:Country| country codes| Country| country codes。同样地,从C1和C3中提取数据构建原始标注序列组,比如在C1中采样ZM、PG,在C3中采样GH、UV。然后将采样得到的数据打散后组成原始数据序列:PG| GH| UV| ZM。原始数据序列对应的原始标签序列为:country codes| Country| Country| country codes。将引导标注序列组和原始数据序列输入数据关系识别模型,由数据关系识别模型对原始数据序列进行标注。原始标签序列用于判断数据关系识别模型输出的预测标签序列是否正确,不会输入给数据关系识别模型。虽然引导标注序列组提供了参考样例,但引导数据序列中都是国家缩写,数据关系识别模型并不能区分另外的国家缩写来自于C1还是C3,数据关系识别模型输出的预测标签序列为country codes| country codes| Country| Country。由于原始标签序列和预测标签序列不同,可以确定country codes和Country相关。
应用本说明书实施例的方案,通过将数据关系识别任务转换为序列标注任务,充分利用了数据关系识别模型的语义理解能力和泛化能力,从而实现无需训练数据关系识别模型就可以完成数据关系识别任务的目的,缩短了任务逻辑链路,并且降低了任务难度,提高了数据关系识别的效率。
本说明书另一种可能的实现方式中,可以对比原始标签序列和预测标签序列,在对比结果为不同的情况下,确定不同的原始标签和预测标签,进一步确定数据关系识别结果,也即,上述在原始标签序列和预测标签序列不同的情况下,确定至少两个数据源中的数据相关,可以包括以下步骤:
在原始标签序列和预测标签序列不同的情况下,从原始标签序列和预测标签序列中获取互不相同的目标原始标签和目标预测标签;
确定目标原始标签对应的数据源和目标预测标签对应的数据源中的数据相关。
需要说明的是,原始数据序列中的原始数据可能来自多个数据源。若原始标签序列和预测标签序列不同,可以直接确定原始数据序列中原始数据对应的各数据源均相关。进一步还可以从原始标签序列和预测标签序列中获取互不相同的目标原始标签和目标预测标签,从而确定具体相关的数据源。
实际应用中,从原始标签序列和预测标签序列中获取互不相同的目标原始标签和目标预测标签时,可以根据原始标签序列和预测标签序列中的标签顺序,一一对比原始标签和预测标签,从而确定互不相同的目标原始标签和目标预测标签。示例性地,假设原始标签序列为{数据源1,数据源2,数据源3,数据源1,数据源2,数据源3},预测标签序列为{数据源1,数据源2,数据源1,数据源3,数据源2,数据源3},对比原始标签序列和预测标签序列,确定原始标签序列和预测标签序列不同。
本说明书一种可能的实现方式中,可以直接确定数据源1、数据源2以及数据源3中的数据相关。本说明书另一种可能的实现方式中,可以从原始标签序列{数据源1,数据源2,数据源3,数据源1,数据源2,数据源3}和预测标签序列{数据源1,数据源2,数据源1,数据源3,数据源2,数据源3}中获取互不相同的两组目标原始标签和目标预测标签,这两组互不相同的目标原始标签和目标预测标签分别为“数据源3-数据源1”和“数据源1-数据源3”,则可以确定数据源1和数据源3中的数据相关。
应用本说明书实施例的方案,在原始标签序列和预测标签序列不同的情况下,从原始标签序列和预测标签序列中获取互不相同的目标原始标签和目标预测标签;确定目标原始标签对应的数据源和目标预测标签对应的数据源中的数据相关,提高了数据关系识别结果的准确性。
值得说明的是,本说明书实施例提供的数据关系识别方法,可以支撑不同下游任务的特征工程环节,下游任务包括但不限于搜索、广告、推荐任务,还可以支持结构化查询语言(SQL,Structured Query Language)辅助预测任务,数据关系识别方法的应用场景具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
本说明书一种可选的实施例中,上述根据原始标签序列和预测标签序列,确定数据关系识别结果之后,还可以包括以下步骤:
向客户端发送数据关系识别结果,以使客户端向用户展示数据关系识别结果。
实际应用中,客户端向用户展示数据关系识别结果的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
本说明书一种可能的实现方式中,客户端可以只向用户展示数据关系识别结果,也即至少两个数据源中的数据是否相关。
本说明书另一种可能的实现方式中,客户端可以同时向用户展示数据关系识别结果以及原始数据序列,使得用户可以准确知道数据关系识别结果是对至少两个数据源中的哪些数据识别获得的。
应用本说明书实施例的方案,向客户端发送数据关系识别结果,以使客户端向用户展示数据关系识别结果,使得用户可以准确获得原始数据序列对应的数据关系识别结果,增加了与用户之间的交互,提高了用户满意度。
本说明书另一种可选的实施例中,根据原始标签序列和预测标签序列,确定数据关系识别结果之后,可以向客户端发送数据关系识别结果,以使客户端向用户展示数据关系识别结果,此时,用户可以根据数据关系识别结果自行进行数据处理,也可以基于客户端展示的数据关系识别结果发送后处理请求,也即,上述向客户端发送数据关系识别结果之后,还可以包括以下步骤:
接收用户基于数据关系识别结果发送的后处理请求;
根据后处理请求对至少两个数据源中的数据进行处理,获得处理结果。
需要说明的是,后处理请求是指在获得数据关系识别结果之后,用户基于数据关系识别结果发送的处理请求。后处理请求所请求处理的后处理任务有多种,例如数据关系识别任务、针对至少两个数据源的数据处理任务。其中,针对至少两个数据源的数据处理任务可以是数据删除任务、数据存储任务等等,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
实际应用中,接收用户基于数据关系识别结果发送的后处理请求之后,可以确定后处理请求对应的后处理任务,进一步对后处理任务进行处理,获得处理结果。
示例性地,假设数据关系识别结果为至少两个数据源中的数据不相关,接收用户基于数据关系识别结果发送的后处理请求1为“删除至少两个数据源中的数据”,则可以执行后处理请求,删除至少两个数据源中的数据。假设接收用户基于数据关系识别结果发送的后处理请求2为“请求重新进行数据关系识别”,则可以重新获取原始标注序列组和引导标注序列组,将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,根据原始标签序列和预测标签序列,确定数据关系识别结果。
应用本说明书实施例的方案,接收用户基于数据关系识别结果发送的后处理请求;根据后处理请求对至少两个数据源中的数据进行处理,获得处理结果,增加了与用户之间的交互,提高了用户满意度。
下述结合附图4,以本说明书提供的数据关系识别方法在数据查询场景的应用为例,对所述数据关系识别方法进行进一步说明。其中,图4示出了本说明书一个实施例提供的一种数据查询方法的流程图,具体包括以下步骤:
步骤402:接收用户发送的数据查询请求,其中,数据查询请求携带待查询数据,待查询数据携带数据标签。
步骤404:根据待查询数据和至少一个候选数据源中的候选数据,构建原始标注序列组和引导标注序列组,其中,原始标注序列组包括原始数据序列和原始数据序列对应的原始标签序列,引导标注序列组包括引导数据序列和引导数据序列对应的引导标签序列,原始数据序列和引导数据序列中分别包括待查询数据和候选数据。
步骤406:将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,其中,引导标注序列组用于引导数据关系识别模型对原始数据序列进行预测。
步骤408:根据原始标签序列和预测标签序列,确定待查询数据对应的目标关联数据,并将目标关联数据反馈给用户。
具体地,数据查询请求的请求目的是查询与待查询数据相关的目标关联数据。候选数据源中的候选数据可以是数据湖中的结构化数据、半结构化数据和非结构化数据,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
需要说明的是,步骤402至步骤408的实现方式与步骤302至步骤306的实现方式相同,本说明书实施例便不再进行赘述。
应用本说明书实施例的方案,充分利用了数据关系识别模型的语义理解能力和泛化能力,无需训练数据关系识别模型就可以根据待查询数据从候选数据源中确定待查询数据对应的目标关联数据,缩短了任务逻辑链路,并且降低了任务难度,提高了数据查询的效率。
实际应用中,根据原始标签序列和预测标签序列,确定待查询数据对应的目标关联数据的方式有多种,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
本说明书一种可能的实现方式中,可以直接将原始数据序列中的候选数据作为待查询数据对应的目标关联数据,也即,上述根据原始标签序列和预测标签序列,确定待查询数据对应的目标关联数据,可以包括以下步骤:
在原始标签序列和预测标签序列不同的情况下,将候选数据作为待查询数据对应的目标关联数据。
需要说明的是,若原始标签序列和预测标签序列不同,则说明数据关系识别模型不能分辨原始数据序列中的数据来自于候选数据还是待查询数据,也即候选数据为与待查询数据相关,因此,可以直接将候选数据作为待查询数据对应的目标关联数据。
应用本说明书实施例的方案,在原始标签序列和预测标签序列不同的情况下,将候选数据作为待查询数据对应的目标关联数据,实现了高效、准确地确定待查询数据对应的目标关联数据。
本说明书另一种可能的实现方式中,候选数据源为多个;可以先确定与待查询数据相关的关联数据源,进一步将关联数据源中的数据确定为待查询数据对应的目标关联数据,也即,上述根据原始标签序列和预测标签序列,确定待查询数据对应的目标关联数据,可以包括以下步骤:
在原始标签序列和预测标签序列不同的情况下,确定与待查询数据存在关联关系的关联数据源;
将关联数据源中的数据确定为待查询数据对应的目标关联数据。
需要说明的是,原始数据序列中的原始数据可能来自多个数据源。若原始标签序列和预测标签序列不同,可以从原始标签序列和预测标签序列中获取互不相同的目标原始标签和目标预测标签,从而根据目标原始标签和目标预测标签确定存在关联关系的关联数据源。
进一步地,由于关联数据源中除候选数据之外,可能还包括其他数据,因此,可以将关联数据源中的各数据均确定为待查询数据对应的目标关联数据。
应用本说明书实施例的方案,在原始标签序列和预测标签序列不同的情况下,确定与待查询数据存在关联关系的关联数据源;将关联数据源中的数据确定为待查询数据对应的目标关联数据,使得目标关联数据更加全面,进一步提高了数据查询的准确性。
下述结合附图5,以本说明书提供的数据关系识别方法在查询语句生成场景的应用为例,对所述数据关系识别方法进行进一步说明。其中,图5示出了本说明书一个实施例提供的一种查询语句生成方法的流程图,具体包括以下步骤:
步骤502:接收用户发送的查询语句生成请求,其中,查询语句生成请求携带待查询数据,待查询数据携带数据标签。
步骤504:根据待查询数据和至少一个候选数据源中的候选数据,构建原始标注序列组和引导标注序列组,其中,原始标注序列组包括原始数据序列和原始数据序列对应的原始标签序列,引导标注序列组包括引导数据序列和引导数据序列对应的引导标签序列,原始数据序列和引导数据序列中分别包括待查询数据和候选数据。
步骤506:将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,其中,引导标注序列组用于引导数据关系识别模型对原始数据序列进行预测。
步骤508:根据原始标签序列和预测标签序列,确定待查询数据对应的目标关联数据。
步骤510:根据待查询数据和目标关联数据,生成目标查询语句。
需要说明的是,步骤502至步骤508的实现方式与步骤302至步骤306的实现方式相同,本说明书实施例便不再进行赘述。
实际应用中,由于数据湖场景中,查询语句所查询数据的来源可能各不一样,以表格为例,各表格之间可能没有建立主外键关系,因此,查询语句所查询的范围是有限的。通过本说明书实施例提供的数据关系识别方法,可以预测候选数据中是否存在与待查询数据相关的目标关联数据,若存在有关系的目标关联数据,则说明待查询数据和目标关联数据具有主外键关系,进一步地,可以将目标关联数据作为连接(join)子句,生成目标查询语句,目标查询语句的查询范围即为待查询数据以及目标关联数据。
示例性地,假设用户输入的查询语句生成请求携带了一个待查询表格(Table)名,通过上述查询语句生成方法,可以确定与待查询表格相关的目标表格以及两个表格做连接的列名,进一步生成目标查询语句。
应用本说明书实施例的方案,充分利用了数据关系识别模型的语义理解能力和泛化能力,无需训练数据关系识别模型就可以根据待查询数据从候选数据源中确定待查询数据对应的目标关联数据,进一步根据待查询数据和目标关联数据生成目标查询语句,缩短了任务逻辑链路,降低了任务难度,提高了生成目标查询语句的效率。同时,用户可以使用目标查询语句进行数据查询,扩大了目标查询语句的查询范围。
实际应用中,根据待查询数据和目标关联数据,生成目标查询语句之后,可以直接将目标查询语句反馈给用户。进一步地,还可以通过目标查询语句进行数据查询,将目标查询语句对应的查询结果反馈给用户,也即,上述根据待查询数据和目标关联数据,生成目标查询语句之后,还可以包括以下步骤:
执行目标查询语句,获得目标查询语句对应的查询结果;
将查询结果反馈给用户。
应用本说明书实施例的方案,执行目标查询语句,获得目标查询语句对应的查询结果;将查询结果反馈给用户。由于目标查询语句中包括目标关联数据,执行目标查询语句,使得获得的查询结果更加全面。
下述结合附图6,以本说明书提供的数据关系识别方法在智能问答场景的应用为例,对所述数据关系识别方法进行进一步说明。其中,图6示出了本说明书一个实施例提供的一种自动问答方法的流程图,具体包括以下步骤:
步骤602:接收第一问题处理请求,其中,第一问题处理请求携带待处理数据。
步骤604:基于待处理数据确定原始标注序列组和引导标注序列组,其中,原始标注序列组包括原始数据序列和原始数据序列对应的原始标签序列,引导标注序列组包括引导数据序列和引导数据序列对应的引导标签序列,原始数据序列和引导数据序列中分别包括至少两个数据源中的数据。
步骤606:将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,其中,引导标注序列组用于引导数据关系识别模型对原始数据序列进行预测。
步骤608:根据原始标签序列和预测标签序列,确定待处理数据对应的第一答复结果。
需要说明的是,步骤602至步骤608的实现方式与上述步骤302至步骤306的实现方式相同,本说明书实施例便不再进行赘述。
具体地,待处理数据可以来自一个数据源,也可以来自至少两个数据源。第一答复结果可以是待处理数据的数据关系识别结果,还可以是待处理数据对应的目标关联数据,也可以是待处理数据对应的目标查询语句,第一答复结果具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
本说明书一种可能的实现方式中,待处理数据可以是一个数据源中的数据,接收第一问题处理请求之后,可以根据待处理数据和至少一个候选数据源中的候选数据,确定原始标注序列组和引导标注序列组,将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,根据原始标签序列和预测标签序列,确定待处理数据对应的目标关联数据。可选地,确定待处理数据对应的目标关联数据之后,还可以根据待处理数据和目标关联数据生成目标查询语句。
本说明书另一种可能的实现方式中,待处理数据可以是至少两个数据源中的数据,接收第一问题处理请求之后,可以从待处理数据中确定原始标注序列组和引导标注序列组,将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,根据原始标签序列和预测标签序列,确定待处理数据对应的数据关系识别结果。
应用本说明书实施例的方案,充分利用了数据关系识别模型的语义理解能力和泛化能力,无需训练数据关系识别模型就可以进行自动问答任务,缩短了任务逻辑链路,降低了任务难度,提高了任务处理效率。
本说明书一种可选的实施例中,上述根据原始标签序列和预测标签序列,确定待处理数据对应的第一答复结果之后,还可以包括以下步骤:
向客户端发送第一答复结果,以使客户端向用户展示第一答复结果;
接收用户基于第一答复结果发送的第二问题处理请求,并对第二问题处理请求进行处理,获得第二答复结果。
需要说明的是,“向客户端发送第一答复结果,以使客户端向用户展示第一答复结果”的实现方式与上述“向客户端发送数据关系识别结果,以使客户端向用户展示数据关系识别结果”的实现方式相同,本说明书实施例便不再进行赘述。
进一步地,用户可以根据客户端展示的第一答复结果自行进行数据处理,也可以基于第一答复结果发送第二问题处理请求。第二问题处理请求所请求处理的任务有多种,例如数据关系识别任务、针对至少两个数据源的数据处理任务。其中,针对至少两个数据源的数据处理任务可以是数据查询任务、数据删除任务、数据存储任务等等。第二答复结果可以是第二问题处理请求携带的待处理数据的数据关系识别结果,还可以是第二问题处理请求携带的待处理数据对应的目标关联数据,也可以是第二问题处理请求携带的待处理数据对应的目标查询语句,第二答复结果具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
实际应用中,对用户基于第一答复结果发送的第二问题处理请求进行处理,获得第二答复结果之后,一种可能的实现方式中,可以将第二答复结果反馈给用户,由用户对比第一答复结果和第二答复结果,获得对比结果。另一种可能的实现方式中,可以接收用户发送的答复结果对比指令,对比第一答复结果和第二答复结果,并将对比结果发送至用户。
进一步地,若第一问题处理请求和第二问题处理请求相同,对比结果为第一答复结果和第二答复结果不同,则说明数据关系识别模型的准确度较差,可以对数据关系识别模型的模型参数进行调整,从而使得数据关系识别模型更加精准;若第一问题处理请求和第二问题处理请求相同,对比结果为第一答复结果和第二答复结果相同,则说明数据关系识别模型的准确度较高,无需对数据关系识别模型进行调整。
应用本说明书实施例的方案,向客户端发送第一答复结果,以使客户端向用户展示第一答复结果;接收用户基于第一答复结果发送的第二问题处理请求,并对第二问题处理请求进行处理,获得第二答复结果,增加了与用户之间的交互,提高了用户满意度。
参见图7,图7示出了本说明书一个实施例提供的一种数据关系识别方法的处理过程流程图,具体包括以下步骤:
步骤702:从第一数据源中提取第二预设数量的第一原始数据,并从第二数据源中提取第二预设数量的第二原始数据。
步骤704:从第一数据源中提取第二预设数量的第一引导数据,并从第二数据源中提取第二预设数量的第二引导数据。
步骤706:根据第一原始数据和第二原始数据构建原始数据序列,并根据第一引导数据和第二引导数据构建引导数据序列。
步骤708:对原始数据序列进行乱序处理,并对引导数据序列进行乱序处理,获得乱序处理后的原始数据序列和乱序处理后的引导数据序列。
步骤710:根据乱序处理后的原始数据序列中各原始数据的原始标签构建原始标签序列,并根据乱序处理后的引导数据序列中各引导数据的引导标签构建引导标签序列。
步骤712:根据乱序处理后的原始数据序列和原始标签序列构建原始标注序列组,并根据乱序处理后的引导数据序列和引导标签序列构建引导标注序列组。
步骤714:将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,其中,引导标注序列组用于引导数据关系识别模型对原始数据序列进行预测。
步骤716:在原始标签序列和预测标签序列相同的情况下,确定至少两个数据源中的数据不相关。
步骤718:在原始标签序列和预测标签序列不同的情况下,确定至少两个数据源中的数据相关。
需要说明的是,步骤702至步骤718的实现方式与步骤302至步骤306的实现方式相同,本说明书实施例便不再进行赘述。
应用本说明书实施例的方案,通过将数据关系识别任务转换为序列标注任务,充分利用了数据关系识别模型的语义理解能力和泛化能力,从而实现无需训练数据关系识别模型就可以完成数据关系识别任务的目的,对数据的分布更加鲁棒,缩短了任务逻辑链路,并且降低了任务难度。并且,由于原始数据序列和引导数据序列中包括至少两个数据源中的部分数据,无需读取至少两个数据源中的所有数据,降低了数据读取开销,提高了数据关系识别的效率。
参见图8,图8示出了本说明书一个实施例提供的另一种数据关系识别方法的处理过程流程图。
数据关系识别任务:给定两个不同表中的两个列C1、C2以及这两列中的数据,判断这两个列在结构化查询语句中是否可以做连接(join),也即这两个列是否可以构成主外键关系。
实际应用中,数据关系识别任务的处理方式有多种,一种可能的实现方式中,可以直接采样两个列中的数据,并将两个列中的数据输入给数据关系识别模型,由数据关系识别模型预测这两个列的数据是否能够做连接。
另一种可能的实现方式中,如图8所示,可以从两列数据C1和C2中采样数据形成数据序列,根据数据序列的数据来源生成标签序列,其中,数据序列包括若干个引导数据序列和原始数据序列,标签序列包括若干个引导数据序列对应的引导标签序列和原始数据序列对应的原始标签序列,原始数据序列和原始标签序列可以构成原始标注序列组,若干个引导数据序列和对应的引导标签序列可以构成若干个引导标注序列组;
将引导标注序列组和原始数据序列输入数据关系识别模型,利用数据关系识别模型的情境学习能力对原始数据序列进行标注,获得原始数据序列对应的预测标签序列;
判断预测标签序列是否相同,若预测标签序列和原始标签序列相同,也即数据关系识别模型输出的预测标签序列是正确的,则说明数据关系识别模型可以基于引导标注序列组进行情境学习,C1和C2的数据很容易被区分开来,C1和C2不相关,在结构化查询语句中不能做连接,C1和C2不能构成主外键关系;
若预测标签序列和原始标签序列不相同,也即数据关系识别模型输出的预测标签序列是错误的,则说明数据关系识别模型无法基于引导标注序列组进行的情境学习,C1和C2的数据很难被区分开来,C1和C2相关,二者可能有很多相同或相近的数据,在结构化查询语句中可以做连接,C1和C2可以构成主外键关系。
需要说明的是,数据关系识别模型进行情境学习的过程,就是利用语义信息来关联引导标注序列组还有输出之间的联系。例如,引导标注序列组中包括国家缩写的样例,并标记为country codes,输入数据关系识别模型的原始数据序列中存在样例中没有的缩写。由于数据关系识别模型在训练时已经见过了大量语料,因此,数据关系识别模型可以通过语义理解识别到原始数据序列中的缩写为国家缩写。进一步,数据关系识别模型确定引导标注序列组中其他的国家缩写被标记为country codes,则将原始数据序列中的缩写标记为country codes。但是,如果引导标注序列组中两个数据源是相关的,一个数据源的国家缩写被标记为country codes,另一个数据源的国家缩写被标记为Country,此时,数据关系识别模型会认为原始数据序列中的缩写可以标记成country codes和Country,无法正确标记原始数据序列中的缩写。
实际应用中,引导标注序列组和原始标注序列组可以通过以下方式构建:
构建若干个引导标注序列组:构造每个引导标注序列组时,分别在C1和C2中随机抽取等量的若干个数据,如从C1和C2中各抽取k个数据,随机抽取的若干个数据组成引导数据序列。引导数据序列对应的引导标签序列为C1和C2组成的标签序列,如果数据是从C1中抽取的,其标签就标记成C1,如果数据是从C2中抽取的,其标签就标记成C2。
构建原始标注序列组:在C1和C2中等量、随机抽取和引导数据序列(共2k个数据),组成原始数据序列。原始数据序列对应的原始标签序列为C1和C2组成的标签序列,如果数据是从C1中抽取的,其标签就标记成C1,如果数据是从C2中抽取的,其标签就标记成C2。
参见图9,图9示出了本说明书一个实施例提供的一种自动问答界面的界面示意图。自动问答界面分为问题处理请求输入界面和答复结果展示界面。问题处理请求输入界面中包括问题处理请求输入框、“确定”控件以及“取消”控件。答复结果展示界面中包括答复结果展示框。
用户通过客户端显示的问题处理请求输入框输入问题处理请求,其中,问题处理请求携带待处理数据,点选“确定”控件,服务端接收客户端发送的问题处理请求,基于待处理数据确定原始标注序列组和引导标注序列组,将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,根据原始标签序列和预测标签序列,确定待处理数据对应的答复结果,并将答复结果发送至客户端。客户端在答复结果展示框中显示答复结果。
实际应用中,用户对控件进行操作的方式包括点击、双击、触控、鼠标悬停、滑动、长按、语音控制或摇一摇等任一方式,具体根据实际情况进行选择,本说明书实施例对此不作任何限定。
与上述数据关系识别方法实施例相对应,本说明书还提供了数据关系识别装置实施例,图10示出了本说明书一个实施例提供的一种数据关系识别装置的结构示意图。如图10所示,该装置包括:
获取模块1002,被配置为获取原始标注序列组和引导标注序列组,其中,原始标注序列组包括原始数据序列和原始数据序列对应的原始标签序列,引导标注序列组包括引导数据序列和引导数据序列对应的引导标签序列,原始数据序列和引导数据序列中分别包括至少两个数据源中的数据;
第一输入模块1004,被配置为将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,其中,引导标注序列组用于引导数据关系识别模型对原始数据序列进行预测;
第一确定模块1006,被配置为根据原始标签序列和预测标签序列,确定数据关系识别结果。
可选地,至少两个数据源包括第一数据源和第二数据源;获取模块1002,进一步被配置为根据第一数据源和第二数据源中的数据构建原始数据序列,并根据第一数据源和第二数据源中的数据构建引导数据序列;根据原始数据序列中各原始数据的原始标签构建原始标签序列,并根据引导数据序列中各引导数据的引导标签构建引导标签序列,其中,各原始数据和原始标签序列中的各原始标签一一对应,各引导数据和引导标签序列中的各引导标签一一对应;根据原始数据序列和原始标签序列构建原始标注序列组,并根据引导数据序列和引导标签序列构建引导标注序列组。
可选地,获取模块1002,进一步被配置为从第一数据源和第二数据源中提取第一预设数量的原始数据,并从第一数据源和第二数据源中提取第一预设数量的引导数据;根据第一预设数量的原始数据构建原始数据序列,并根据第一预设数量的引导数据构建引导数据序列。
可选地,获取模块1002,进一步被配置为从第一数据源中提取第二预设数量的第一原始数据,并从第二数据源中提取第二预设数量的第二原始数据;从第一数据源中提取第二预设数量的第一引导数据,并从第二数据源中提取第二预设数量的第二引导数据;根据第一原始数据和第二原始数据构建原始数据序列,并根据第一引导数据和第二引导数据构建引导数据序列。
可选地,该装置还包括:第一处理模块,被配置为对原始数据序列进行乱序处理,并对引导数据序列进行乱序处理,获得乱序处理后的原始数据序列和乱序处理后的引导数据序列;获取模块1002,进一步被配置为根据乱序处理后的原始数据序列中各原始数据的原始标签构建原始标签序列,并根据乱序处理后的引导数据序列中各引导数据的引导标签构建引导标签序列。
可选地,第一确定模块1006,进一步被配置为在原始标签序列和预测标签序列相同的情况下,确定至少两个数据源中的数据不相关;在原始标签序列和预测标签序列不同的情况下,确定至少两个数据源中的数据相关。
可选地,该装置还包括:第一发送模块,被配置为向客户端发送数据关系识别结果,以使客户端向用户展示数据关系识别结果。
可选地,该装置还包括:第二处理模块,被配置为接收用户基于数据关系识别结果发送的后处理请求;根据后处理请求对至少两个数据源中的数据进行处理,获得处理结果。
可选地,数据关系识别模型为自然语言的深度学习模型。
应用本说明书实施例的方案,通过将数据关系识别任务转换为序列标注任务,充分利用了数据关系识别模型的语义理解能力和泛化能力,从而实现无需训练数据关系识别模型就可以完成数据关系识别任务的目的,缩短了任务逻辑链路,并且降低了任务难度,提高了数据关系识别的效率。
上述为本实施例的一种数据关系识别装置的示意性方案。需要说明的是,该数据关系识别装置的技术方案与上述的数据关系识别方法的技术方案属于同一构思,数据关系识别装置的技术方案未详细描述的细节内容,均可以参见上述数据关系识别方法的技术方案的描述。
与上述自动问答方法实施例相对应,本说明书还提供了自动问答装置实施例,图11示出了本说明书一个实施例提供的一种自动问答装置的结构示意图。如图11所示,该装置包括:
第一接收模块1102,被配置为接收第一问题处理请求,其中,第一问题处理请求携带待处理数据;
第二确定模块1104,被配置为基于待处理数据确定原始标注序列组和引导标注序列组,其中,原始标注序列组包括原始数据序列和原始数据序列对应的原始标签序列,引导标注序列组包括引导数据序列和引导数据序列对应的引导标签序列,原始数据序列和引导数据序列中分别包括至少两个数据源中的数据;
第二输入模块1106,被配置为将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,其中,引导标注序列组用于引导数据关系识别模型对原始数据序列进行预测;
第三确定模块1108,被配置为根据原始标签序列和预测标签序列,确定待处理数据对应的第一答复结果。
可选地,该装置还包括:第三处理模块,被配置为向客户端发送第一答复结果,以使客户端向用户展示第一答复结果;接收用户基于第一答复结果发送的第二问题处理请求,并对第二问题处理请求进行处理,获得第二答复结果。
应用本说明书实施例的方案,充分利用了数据关系识别模型的语义理解能力和泛化能力,无需训练数据关系识别模型就可以进行自动问答任务,缩短了任务逻辑链路,降低了任务难度,提高了任务处理效率。
上述为本实施例的一种自动问答装置的示意性方案。需要说明的是,该自动问答装置的技术方案与上述的自动问答方法的技术方案属于同一构思,自动问答装置的技术方案未详细描述的细节内容,均可以参见上述自动问答方法的技术方案的描述。
与上述查询语句生成方法实施例相对应,本说明书还提供了查询语句生成装置实施例,图12示出了本说明书一个实施例提供的一种查询语句生成装置的结构示意图。如图12所示,该装置包括:
第二接收模块1202,被配置为接收用户发送的查询语句生成请求,其中,查询语句生成请求携带待查询数据,待查询数据携带数据标签;
构建模块1204,被配置为根据待查询数据和至少一个候选数据源中的候选数据,构建原始标注序列组和引导标注序列组,其中,原始标注序列组包括原始数据序列和原始数据序列对应的原始标签序列,引导标注序列组包括引导数据序列和引导数据序列对应的引导标签序列,原始数据序列和引导数据序列中分别包括待查询数据和候选数据;
第三输入模块1206,被配置为将引导标注序列组和原始数据序列输入数据关系识别模型,获得原始数据序列对应的预测标签序列,其中,引导标注序列组用于引导数据关系识别模型对原始数据序列进行预测;
第四确定模块1208,被配置为根据原始标签序列和预测标签序列,确定待查询数据对应的目标关联数据;
生成模块1210,被配置为根据待查询数据和目标关联数据,生成目标查询语句。
应用本说明书实施例的方案,充分利用了数据关系识别模型的语义理解能力和泛化能力,无需训练数据关系识别模型就可以根据待查询数据从候选数据源中确定待查询数据对应的目标关联数据,进一步根据待查询数据和目标关联数据生成目标查询语句,缩短了任务逻辑链路,降低了任务难度,提高了生成目标查询语句的效率。同时,用户可以使用目标查询语句进行数据查询,扩大了目标查询语句的查询范围。
上述为本实施例的一种查询语句生成装置的示意性方案。需要说明的是,该查询语句生成装置的技术方案与上述的查询语句生成方法的技术方案属于同一构思,查询语句生成装置的技术方案未详细描述的细节内容,均可以参见上述查询语句生成方法的技术方案的描述。
图13示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备1300的部件包括但不限于存储器1310和处理器1320。处理器1320与存储器1310通过总线1330相连接,数据库1350用于保存数据。
计算设备1300还包括接入设备1340,接入设备1340使得计算设备1300能够经由一个或多个网络1360通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备1340可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Card))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,Wireless LocalArea Networks)无线接口、全球微波互联接入(Wi-MAX,World Interoperability forMicrowave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Field Communication)接口,等等。
在本说明书的一个实施例中,计算设备1300的上述部件以及图13中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图13所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1300可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备1300还可以是移动式或静止式的服务器。
其中,处理器1320用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述数据关系识别方法或者自动问答方法或者查询语句生成方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的数据关系识别方法、自动问答方法和查询语句生成方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述数据关系识别方法或者自动问答方法或者查询语句生成方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述数据关系识别方法或者自动问答方法或者查询语句生成方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据关系识别方法、自动问答方法和查询语句生成方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据关系识别方法或者自动问答方法或者查询语句生成方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述数据关系识别方法或者自动问答方法或者查询语句生成方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的数据关系识别方法、自动问答方法和查询语句生成方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述数据关系识别方法或者自动问答方法或者查询语句生成方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种数据关系识别方法,包括:
获取原始标注序列组和引导标注序列组,其中,所述原始标注序列组包括原始数据序列和所述原始数据序列对应的原始标签序列,所述引导标注序列组包括引导数据序列和所述引导数据序列对应的引导标签序列,所述原始数据序列和所述引导数据序列中分别包括至少两个数据源中的数据;
将所述引导标注序列组和所述原始数据序列输入数据关系识别模型,获得所述原始数据序列对应的预测标签序列,其中,所述引导标注序列组用于引导所述数据关系识别模型对所述原始数据序列进行预测;
根据所述原始标签序列和所述预测标签序列,确定数据关系识别结果。
2.根据权利要求1所述的方法,所述至少两个数据源包括第一数据源和第二数据源;
所述获取原始标注序列组和引导标注序列组,包括:
根据所述第一数据源和所述第二数据源中的数据构建原始数据序列,并根据所述第一数据源和所述第二数据源中的数据构建引导数据序列;
根据所述原始数据序列中各原始数据的原始标签构建原始标签序列,并根据所述引导数据序列中各引导数据的引导标签构建引导标签序列,其中,所述各原始数据和所述原始标签序列中的各原始标签一一对应,所述各引导数据和所述引导标签序列中的各引导标签一一对应;
根据所述原始数据序列和所述原始标签序列构建原始标注序列组,并根据所述引导数据序列和所述引导标签序列构建引导标注序列组。
3.根据权利要求2所述的方法,所述根据所述第一数据源和所述第二数据源中的数据构建原始数据序列,并根据所述第一数据源和所述第二数据源中的数据构建引导数据序列,包括:
从所述第一数据源和所述第二数据源中提取第一预设数量的原始数据,并从所述第一数据源和所述第二数据源中提取第一预设数量的引导数据;
根据所述第一预设数量的原始数据构建原始数据序列,并根据所述第一预设数量的引导数据构建引导数据序列。
4.根据权利要求2所述的方法,所述根据所述第一数据源和所述第二数据源中的数据构建原始数据序列,并根据所述第一数据源和所述第二数据源中的数据构建引导数据序列,包括:
从所述第一数据源中提取第二预设数量的第一原始数据,并从所述第二数据源中提取第二预设数量的第二原始数据;
从所述第一数据源中提取第二预设数量的第一引导数据,并从所述第二数据源中提取第二预设数量的第二引导数据;
根据所述第一原始数据和所述第二原始数据构建原始数据序列,并根据所述第一引导数据和所述第二引导数据构建引导数据序列。
5.根据权利要求2所述的方法,所述根据所述原始数据序列中各原始数据的原始标签构建原始标签序列,并根据所述引导数据序列中各引导数据的引导标签构建引导标签序列之前,还包括:
对所述原始数据序列进行乱序处理,并对所述引导数据序列进行乱序处理,获得乱序处理后的原始数据序列和乱序处理后的引导数据序列;
所述根据所述原始数据序列中各原始数据的原始标签构建原始标签序列,并根据所述引导数据序列中各引导数据的引导标签构建引导标签序列,包括:
根据所述乱序处理后的原始数据序列中各原始数据的原始标签构建原始标签序列,并根据所述乱序处理后的引导数据序列中各引导数据的引导标签构建所述引导标签序列。
6.根据权利要求1所述的方法,所述根据所述原始标签序列和所述预测标签序列,确定数据关系识别结果,包括:
在所述原始标签序列和所述预测标签序列相同的情况下,确定所述至少两个数据源中的数据不相关;
在所述原始标签序列和所述预测标签序列不同的情况下,确定所述至少两个数据源中的数据相关。
7.根据权利要求1所述的方法,所述根据所述原始标签序列和所述预测标签序列,确定数据关系识别结果之后,还包括:
向客户端发送所述数据关系识别结果,以使所述客户端向用户展示所述数据关系识别结果。
8.根据权利要求7所述的方法,所述向客户端发送所述数据关系识别结果之后,还包括:
接收用户基于所述数据关系识别结果发送的后处理请求;
根据所述后处理请求对所述至少两个数据源中的数据进行处理,获得处理结果。
9.根据权利要求1所述的方法,所述数据关系识别模型为自然语言的深度学习模型。
10.一种自动问答方法,包括:
接收第一问题处理请求,其中,所述第一问题处理请求携带待处理数据;
基于所述待处理数据确定原始标注序列组和引导标注序列组,其中,所述原始标注序列组包括原始数据序列和所述原始数据序列对应的原始标签序列,所述引导标注序列组包括引导数据序列和所述引导数据序列对应的引导标签序列,所述原始数据序列和所述引导数据序列中分别包括至少两个数据源中的数据;
将所述引导标注序列组和所述原始数据序列输入数据关系识别模型,获得所述原始数据序列对应的预测标签序列,其中,所述引导标注序列组用于引导所述数据关系识别模型对所述原始数据序列进行预测;
根据所述原始标签序列和所述预测标签序列,确定所述待处理数据对应的第一答复结果。
11.根据权利要求10所述的方法,所述根据所述原始标签序列和所述预测标签序列,确定所述待处理数据对应的第一答复结果之后,还包括:
向客户端发送所述第一答复结果,以使所述客户端向用户展示所述第一答复结果;
接收用户基于所述第一答复结果发送的第二问题处理请求,并对所述第二问题处理请求进行处理,获得第二答复结果。
12.一种查询语句生成方法,包括:
接收用户发送的查询语句生成请求,其中,所述查询语句生成请求携带待查询数据,所述待查询数据携带数据标签;
根据所述待查询数据和至少一个候选数据源中的候选数据,构建原始标注序列组和引导标注序列组,其中,所述原始标注序列组包括原始数据序列和所述原始数据序列对应的原始标签序列,所述引导标注序列组包括引导数据序列和所述引导数据序列对应的引导标签序列,所述原始数据序列和所述引导数据序列中分别包括待查询数据和所述候选数据;
将所述引导标注序列组和所述原始数据序列输入数据关系识别模型,获得所述原始数据序列对应的预测标签序列,其中,所述引导标注序列组用于引导所述数据关系识别模型对所述原始数据序列进行预测;
根据所述原始标签序列和所述预测标签序列,确定所述待查询数据对应的目标关联数据;
根据所述待查询数据和所述目标关联数据,生成目标查询语句。
13.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至9任意一项或者权利要求10至11任意一项或者权利要求12所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至9任意一项或者权利要求10至11任意一项或者权利要求12所述方法的步骤。
CN202310714357.5A 2023-06-15 2023-06-15 数据关系识别、自动问答、查询语句生成方法 Active CN116467500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310714357.5A CN116467500B (zh) 2023-06-15 2023-06-15 数据关系识别、自动问答、查询语句生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310714357.5A CN116467500B (zh) 2023-06-15 2023-06-15 数据关系识别、自动问答、查询语句生成方法

Publications (2)

Publication Number Publication Date
CN116467500A true CN116467500A (zh) 2023-07-21
CN116467500B CN116467500B (zh) 2023-11-03

Family

ID=87177420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310714357.5A Active CN116467500B (zh) 2023-06-15 2023-06-15 数据关系识别、自动问答、查询语句生成方法

Country Status (1)

Country Link
CN (1) CN116467500B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110168515A (zh) * 2016-09-15 2019-08-23 英国天然气控股有限公司 用于分析数据关系以支持查询执行的系统
WO2021184468A1 (zh) * 2020-03-18 2021-09-23 中国科学院深圳先进技术研究院 行为识别方法、装置、设备及介质
CN113434542A (zh) * 2021-06-24 2021-09-24 平安国际智慧城市科技股份有限公司 数据关系识别方法、装置、电子设备及存储介质
US11132988B1 (en) * 2020-10-22 2021-09-28 PolyAI Limited Dialogue system, a dialogue method, and a method of training
US20210342532A1 (en) * 2020-05-04 2021-11-04 International Business Machines Corporation Cognitive issue description and multi-level category recommendation
WO2022032471A1 (zh) * 2020-08-11 2022-02-17 香港中文大学(深圳) 一种神经网络模型的训练方法、装置、存储介质及设备
CN114356990A (zh) * 2021-12-30 2022-04-15 中国人民解放军海军工程大学 基于迁移学习的基地命名实体识别系统及方法
CN114722069A (zh) * 2022-04-07 2022-07-08 平安科技(深圳)有限公司 语言转换方法和装置、电子设备及存储介质
CN114757176A (zh) * 2022-05-24 2022-07-15 上海弘玑信息技术有限公司 一种获取目标意图识别模型的方法以及意图识别方法
WO2023045691A1 (zh) * 2021-09-22 2023-03-30 腾讯科技(深圳)有限公司 对象识别方法、装置、电子设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110168515A (zh) * 2016-09-15 2019-08-23 英国天然气控股有限公司 用于分析数据关系以支持查询执行的系统
WO2021184468A1 (zh) * 2020-03-18 2021-09-23 中国科学院深圳先进技术研究院 行为识别方法、装置、设备及介质
US20210342532A1 (en) * 2020-05-04 2021-11-04 International Business Machines Corporation Cognitive issue description and multi-level category recommendation
WO2022032471A1 (zh) * 2020-08-11 2022-02-17 香港中文大学(深圳) 一种神经网络模型的训练方法、装置、存储介质及设备
US11132988B1 (en) * 2020-10-22 2021-09-28 PolyAI Limited Dialogue system, a dialogue method, and a method of training
CN113434542A (zh) * 2021-06-24 2021-09-24 平安国际智慧城市科技股份有限公司 数据关系识别方法、装置、电子设备及存储介质
WO2023045691A1 (zh) * 2021-09-22 2023-03-30 腾讯科技(深圳)有限公司 对象识别方法、装置、电子设备及存储介质
CN114356990A (zh) * 2021-12-30 2022-04-15 中国人民解放军海军工程大学 基于迁移学习的基地命名实体识别系统及方法
CN114722069A (zh) * 2022-04-07 2022-07-08 平安科技(深圳)有限公司 语言转换方法和装置、电子设备及存储介质
CN114757176A (zh) * 2022-05-24 2022-07-15 上海弘玑信息技术有限公司 一种获取目标意图识别模型的方法以及意图识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PENGFEI LIU: "Pre-train, prompt,and Predict:A Systematic Survey of prompting Methods in Natural Language Processing", ARXIV, pages 1 - 46 *

Also Published As

Publication number Publication date
CN116467500B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN111368548A (zh) 语义识别方法及装置、电子设备和计算机可读存储介质
US11030405B2 (en) Method and device for generating statement
CN117573842B (zh) 文档检索方法以及自动问答方法
CN116595154B (zh) 任务处理方法以及自动问答方法
CN116501858B (zh) 文本处理及数据查询方法
CN113159187B (zh) 分类模型训练方法及装置、目标文本确定方法及装置
CN116050405A (zh) 文本处理、问答文本处理及文本处理模型训练方法
CN116975288A (zh) 文本处理方法及文本处理模型训练方法
CN116303558A (zh) 查询语句生成方法、数据查询方法及生成模型训练方法
CN117971420A (zh) 任务处理、交通任务处理以及任务处理模型训练方法
CN117093864A (zh) 文本生成模型训练方法以及装置
CN116467500B (zh) 数据关系识别、自动问答、查询语句生成方法
CN116186220A (zh) 信息检索方法、问答处理方法、信息检索装置及系统
CN114942981A (zh) 问答查询方法、装置、电子设备及计算机可读存储介质
CN117633540B (zh) 样本数据构建方法及装置
CN117648079B (zh) 任务处理、代码补全、代码问答及任务处理模型训练方法
CN118410152B (zh) 信息处理方法、问答方法及问答系统
CN118227770B (zh) 任务处理方法、法律问答方法及任务处理模型训练方法
CN118377887B (zh) 自动问答方法
CN118170928A (zh) 分析信息生成方法以及财报分析信息生成方法
CN118429658B (zh) 信息抽取方法以及信息抽取模型训练方法
CN116522014B (zh) 数据处理方法及装置
CN117972047A (zh) 文档检索方法以及自动问答方法
CN118350463B (zh) 问答模型训练方法、文本处理方法及奖励模型训练方法
CN118093851A (zh) 任务处理方法、自动问答方法以及法律任务处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant