CN117370373A - 数据处理方法、装置、电子设备及存储介质 - Google Patents
数据处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117370373A CN117370373A CN202311352106.3A CN202311352106A CN117370373A CN 117370373 A CN117370373 A CN 117370373A CN 202311352106 A CN202311352106 A CN 202311352106A CN 117370373 A CN117370373 A CN 117370373A
- Authority
- CN
- China
- Prior art keywords
- natural language
- text
- sample
- target
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims description 86
- 239000013598 vector Substances 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 24
- 238000002372 labelling Methods 0.000 claims description 23
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 16
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 230000009286 beneficial effect Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 14
- 238000003058 natural language processing Methods 0.000 description 11
- 230000003340 mental effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 235000002198 Annona diversifolia Nutrition 0.000 description 3
- 241000282842 Lama glama Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种数据处理方法、装置、电子设备及存储介质。上述方法包括获取待处理自然语言文本,待处理自然语言文本包括具有查询意图的待处理描述文本、以及用于限定查询范围的待处理数据库表信息;以待处理自然语言文本为输入,利用目标预测模型输出对应的目标预测结果,目标预测结果包括目标结构化查询语言语句和目标思维链信息,目标思维链信息基于目标结构化查询语言语句中的关键词构成。本申请有利于兼顾转化自然语言查询为结构化查询语言语句的效率、准确度和可解释性。本申请实施例可应用于云技术、人工智能、智慧交通、智慧娱乐等各种场景。
Description
技术领域
本申请涉及互联网通信技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
一些场景需要利用结构化查询语言(Structured Query Language,SQL)语句进行查询,而结构化查询语言语句的构建存在技术门槛。相关技术中,常通过制定规则,并利用所制定的规则将用户输入的自然语言查询进行结构化查询语言语句转化,进而实现相关场景下的查询。然而,制定规则依赖人工,所制定的规则也存在局限性,这影响着所获得的结构化查询语言语句的准确度。因此,需要提供更具准确度的转化自然语言查询为结构化查询语言语句的方案。
发明内容
为了解决上述提出的至少一个技术问题,本申请提供了一种数据处理方法、装置、电子设备及存储介质:
根据本申请的第一方面,提供了一种数据处理方法,其特征在于,所述方法包括:
获取待处理自然语言文本,所述待处理自然语言文本包括具有查询意图的待处理描述文本、以及用于限定查询范围的待处理数据库表信息;
以所述待处理自然语言文本为输入,利用目标预测模型输出对应的目标预测结果,所述目标预测结果包括目标结构化查询语言语句和目标思维链信息,所述目标思维链信息基于所述目标结构化查询语言语句中的关键词构成,所述目标预测模型基于多个样本自然语言文本进行训练、并在训练中基于所述样本自然语言文本对应的预测结果和标注数据之间的差异调整预设模型的参数而获得,所述样本自然语言文本对应的标注数据包括所述样本自然语言文本对应的样本结构化查询语言语句和样本思维链信息,所述预设模型包括生成式预训练模型。
根据本申请的第二方面,提供了一种数据处理装置,其特征在于,所述装置包括:
获取模块:用于获取待处理自然语言文本,所述待处理自然语言文本包括具有查询意图的待处理描述文本、以及用于限定查询范围的待处理数据库表信息;
预测模块:用于以所述待处理自然语言文本为输入,利用目标预测模型输出对应的目标预测结果,所述目标预测结果包括目标结构化查询语言语句和目标思维链信息,所述目标思维链信息基于所述目标结构化查询语言语句中的关键词构成,所述目标预测模型基于多个样本自然语言文本进行训练、并在训练中基于所述样本自然语言文本对应的预测结果和标注数据之间的差异调整预设模型的参数而获得,所述样本自然语言文本对应的标注数据包括所述样本自然语言文本对应的样本结构化查询语言语句和样本思维链信息,所述预设模型包括生成式预训练模型。
根据本申请的第三方面,提供了一种电子设备,所述电子设备包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述至少一个处理器加载并执行以实现如第一方面所述的数据处理方法。
根据本申请的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如第一方面所述的数据处理方法。
根据本申请的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如第一方面所述的数据处理方法。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
实施本申请,具有以下有益效果:
本申请提供了一种转化自然语言查询为结构化查询语言语句的方案。本申请以待处理自然语言文本为输入,利用目标预测模型输出目标结构化查询语言语句和目标思维链信息。目标预测模型基于多个样本自然语言文本训练获得,目标预测模型具有高泛化能力,有利于提高转化自然语言查询为结构化查询语言语句的效率、适应性和可靠性。作为训练的基础的预设模型包括生成式预训练模型,可以借助生成式预训练模型提高训练获得目标预测模型的便捷性,可以提高训练速度,可以在保证训练效果的同时降低对于样本自然语言文本的数量要求。同时,目标思维链信息与目标结构化查询语言语句一道输出,目标思维链信息的存在可以提高目标结构化查询语言语句的可解释性和易读性,这样有助于对目标结构化查询语言语句进行异常分析,进而有助于对模型进行校正。
根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1示出根据本申请实施例的一种应用环境示意图;
图2示出根据本申请实施例的一种数据处理方法的流程示意图;
图3示出根据本申请实施例的模型训练的流程示意图;
图4示出根据本申请实施例的利用预设模型输出样本自然语言文本对应的预测结果的流程示意图;
图5示出根据本申请实施例的获取多个样本自然语言文本的流程示意图;
图6示出根据本申请实施例的装置框图;
图7示出根据本申请实施例的模型训练的数据流向示意图;
图8也示出根据本申请实施例的模型训练的流程示意图;
图9示出根据本申请实施例的模型应用的流程示意图;
图10示出根据本申请实施例的应用目标预测模型进行数据输入的界面示意图;
图11示出根据本申请实施例的应用目标预测模型输出目标结构化查询语言语句的界面示意图;
图12示出根据本申请实施例的电子设备示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
另外,为了更好地说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
文本预训练模型(Text Pretrained Model):是一种通过在大规模未标记文本数据上进行自监督训练来学习丰富的文本表示的深度学习模型。这些模型基于大规模的语料库(如互联网文本等)进行训练,以学习单词、短语和句子的语义关系,并将其表示为分布式向量。这种表示允许理解自然语言中的语义、句法和语境,从而在多个自然语言处理(NLP)任务中产生较好的性能。
GPT(Generative Pretrained Transformer):是一系列文本预训练模型,包括GPT、GPT-2和GPT-3。它们使用Transformer架构进行预训练,其中模型通过自回归语言建模任务来学习生成文本的能力。GPT属于Decoder Only(仅解码器)架构。GPT模型在多个NLP任务上展现了强大的生成和理解能力。
LLaMA:是一种大语言模型,它包括多个模型,这些模型的参数从70亿到650亿不等。其中LLaMA 2是一种可用于商业应用的开源AI模型。
思维链(Chain-of-thought,CoT),指的是一系列有逻辑关系的思考步骤,形成一个完整的思考过程。人在日常生活中,随时随地都会用思维链来解决问题,比如工作、读书经常用到的思维导图,就是为了尽可能全面拆解步骤,不忽略重要细节,从而充分地考虑问题。这种步骤分解的方式用在提示学习中,就被称为思维链提示。将大语言模型的推理过程,分解成一个个步骤,直观地展现出来。这样开发人员可以在LLM(Large LanguageModel,大语言模型)推理出现错误时,及时地修复。相当于让AI模型做分析题,而不是“填空题”,要把推理过程详细说清楚,按步骤得分,最后给出答案。
请参阅图1,图1示出根据本申请实施例的应用环境示意图,应用环境中可以包括终端10和服务器端20。终端10与服务器端20可以通过有线或无线通信方式进行直接或间接地连接。目标对象(比如目标用户)通过终端10向服务器端20发送文本转化请求。服务器端20基于接收到的文本转化请求获取待处理自然语言文本,待处理自然语言文本包括具有查询意图的待处理描述文本、以及用于限定查询范围的待处理数据库表信息;然后,以待处理自然语言文本为输入,利用目标预测模型输出对应的目标预测结果,目标预测结果包括目标结构化查询语言语句和目标思维链信息,目标思维链信息基于目标结构化查询语言语句中的关键词构成。
所用到的目标预测模型是通过下述步骤训练获得的:1)获取预设模型和多个样本自然语言文本,样本自然语言文本对应的标注数据包括样本自然语言文本对应的样本结构化查询语言语句和样本思维链信息,预设模型包括生成式预训练模型;2)以样本自然语言文本为输入,利用预设模型输出样本自然语言文本对应的预测结果;3)基于样本自然语言文本对应的预测结果和标注数据之间的差异,对预设模型进行参数调整,以得到目标预测模型。其中,需要说明的是,图1仅仅是一种示例。
终端10可以是智能手机、电脑(如台式电脑、平板电脑、笔记本电脑)、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、数字助理、智能语音交互设备(如智能音箱)、智能可穿戴设备、智能家电、车载终端等类型的实体设备。终端10的操作系统可以是安卓系统(Android系统)、iOS系统(是由苹果公司开发的移动操作系统)、linux系统(一种操作系统)、Microsoft Windows系统(微软视窗操作系统)等。终端10上可以安装有客户端,如视频客户端、浏览器客户端、信息流客户端、终端管理客户端、导航客户端等。
服务器端20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。其中服务器可以包括有网络通信单元、处理器和存储器等等。
在实际应用中,通过本申请实施例提供的训练步骤训练获得目标预测模型的服务器端可以是服务器端A,通过本申请实施例提供的数据处理方法处理待处理自然语言文本的服务器端可以是服务器端B,服务器端A和服务器端B可以指示同一服务器端,也可以指示不同的两个服务器端。另外,也可以由客户端利用本地保存的目标预测模型处理待处理图像。
本申请实施例提供的数据处理方法可以应用于相关互联网产品,以处理待处理自然语言文本获得目标结构化查询语言语句。通过转化自然语言查询为结构化查询语言语句,可以提高分析结构化查询语言语句的效果。图10、11示出了相关互联网产品应用本申请实施例转化自然语言查询为结构化查询语言语句的界面示意图。
本申请实施例提供的数据处理方法可以用到有关人工智能(ArtificialIntelligence,AI)和自然语言处理(Nature Language processing,NLP)的技术。其中人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。自然语言处理是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。自然语言处理任务可以由预训练模型处理。人工智能领域模型训练的重要技术,预训练模型,即是从NLP领域的大语言模型发展而来。经过微调,大语言模型可以广泛应用于处理文本处理、语义理解、机器翻译等任务。
需要说明的是,对于与用户信息存在关联关系的待处理描述文本、目标结构化查询语言语句等,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
图2示出根据本申请实施例的一种数据处理方法的流程示意图,如图2所示,该数据处理方法可以由电子设备执行,该电子设备可以是终端或服务器端,该方法包括:
S201:获取待处理自然语言文本,所述待处理自然语言文本包括具有查询意图的待处理描述文本、以及用于限定查询范围的待处理数据库表信息;
在本申请实施例中,电子设备获取待处理自然语言文本。待处理自然语言文本包括具有查询意图的待处理描述文本、以及用于限定查询范围的待处理数据库表信息。待处理自然语言文本是采用自然语言为主的文本,自然语言通常是指一种自然地随文化演化的语言,自然语言可以是汉语、英语等。作为待处理自然语言文本的一个构成要素,待处理描述文本是采用自然语言的文本。待处理描述文本是一个采用自然语言的查询语句,该查询语句用于描述至少一个查询条件。比如,查询语句是“帮我查询xx年xx月xx日这一天所有登录客户端的对象”。在至少一个查询条件是多个查询条件的情况下,每一查询条件指示一个查询类别。结合上述示例,“xx年xx月xx日”是时间类别的查询条件,“登录客户端”是操作类别的查询条件。查询类别的设置可以根据需要灵活设置。比如,设置类别1-3,类别1-3是三个大类。若查询语句描述了三个查询条件,那么可以查询条件1对应类别1,查询条件2对应类别2,查询条件3对应类别3。进一步的,作为大类的类别1还包括两个小类,分别是类别11和类别12。若查询语句描述了四个查询条件,那么可以查询条件1对应类别11,查询条件2对应类别12,查询条件3对应类别2,查询条件4对应类别3。
作为待处理自然语言文本的另一个构成要素,待处理数据库表信息限定了查询范围,该查询范围指示待查询的数据库表,该查询范围中满足上述查询条件的数据即是查询目标。待处理数据库表信息用于通过指引文本表征待查询的数据库表的基础信息。可以理解,待处理数据库表信息包括至少一个组合,每一组合包括一个指引文本和一个基础信息,指引文本用于给予基础信息以解释说明。指引文本是采用自然语言的文本。基础信息可以采用待查询的数据库表的原始用语。
以利用指引文本i解释说明基础信息i为例,1)对于“表名0:db_user.t_user_info”,其中“表名0”可以是指引文本i,“db_user.t_user_info”可以是基础信息i。此时指引文本i对于基础信息i的解释说明是:“db_user.t_user_info”是“表名0”。2)对于“表名0:db_user.t_user_info;表含义:对象信息表”,其中“表名0”以及“表含义:对象信息表”可以是指引文本i,“db_user.t_user_info”可以是基础信息i。此时指引文本i对于基础信息i的解释说明是:“db_user.t_user_info”是“表名0”,且该表是对象信息表。3)对于“表字段:字段名|类型|含义;user_id|int|对象ID”,其中“表字段:字段名|类型|含义”可以是指引文本i,“user_id|int|对象ID”可以是基础信息i。此时指引文本i对于基础信息i的解释说明是:“user_id”作为一个表字段,“user_id”是该表字段的字段名,“int”是该表字段的类型,“对象ID”是该表字段的含义。
S202:以所述待处理自然语言文本为输入,利用目标预测模型输出对应的目标预测结果,所述目标预测结果包括目标结构化查询语言语句和目标思维链信息,所述目标思维链信息基于所述目标结构化查询语言语句中的关键词构成。
在本申请实施例中,以待处理自然语言文本为输入,电子设备利用目标预测模型输出对应的目标预测结果。目标预测结果包括目标结构化查询语言语句和目标思维链信息。目标结构化查询语言语句和目标思维链信息是通过目标预测结果转化待处理自然语言文本的结果。目标结构化查询语言语句能够被用于一些场景下的查询。SQL是一门用于访问和处理数据库的标准的计算机语言,用来访问和操作数据库系统。在数据库上执行的大部分操作都可以由SQL语句完成。也就是说,目标结构化查询语言语句是按照SQL的语言规范构成,同时目标结构化查询语言语句能够实现待处理自然语言文本的查询目的。结合前述步骤S201中“待处理描述文本是一个采用自然语言的查询语句,该查询语句用于描述至少一个查询条件”和“待处理数据库表信息限定了查询范围,该查询范围指示待查询的数据库表”,可以由目标结构化查询语言语句在待查询的数据库表上执行操作以找到满足查询条件的数据。
目标思维链信息基于目标结构化查询语言语句中的关键词构成。目标思维链信息采用结构化查询语言。可以理解,在目标预测模型进行预测的过程中,先生成了目标思维链信息;然后,以目标思维链信息为模板生成了目标结构化查询语言语句;再者,输出作为结果的目标结构化查询语言语句和目标思维链信息。目标思维链信息用于指导目标结构化查询语言语句的生成。这里从待处理自然语言文本到目标思维链信息,实现了自然语言到结构化查询语言的转换;再从目标思维链信息到目标结构化查询语言语句,则在结构化查询语言维度实现了更细节查询信息的补充。由此,通过目标图像处理模型可以获得对应的目标结构化查询语言语句和目标思维链信息,可以提高获得的目标预测结果的效率、准确度。
若利用目标结构化查询语言语句去进行查询发生异常(如不能在待查询的数据库表上执行操作,能在待查询的数据库表上执行操作但不能实现待处理自然语言文本的查询目的),或者确认目标结构化查询语言语句不符合预设检测规则,那么可以确定目标结构化查询语言语句是异常语句。电子设备在接收到的反馈信息指示所述目标结构化查询语言语句是异常语句的情况下,确定所述目标结构化查询语言语句对应的校正语句;然后,基于所述校正语句的思维链信息和所述目标思维链信息之间的差异生成调参指引信息,所述调参指引信息用于引导对所述目标预测模型进行参数调整。目标结构化查询语言语句是异常语句,校正语句则是正确语句。利用校正语句去进行查询不发生异常,或者确认校正语句符合预设检测规则。调参指引信息源于可以校正语句的思维链信息和目标思维链信息之间的差异,而目标思维链信息用于指导目标结构化查询语言语句的生成,调参指引信息对于引导目标预测模型进行参数调整以优化模型性能有较好的作用。当然,这里获得校正语句的思维链信息的依据与获得样本结构化查询语言语句的样本思维链信息的依据相同。
下面将对目标预测模型进行详细说明。所述目标预测模型基于多个样本自然语言文本进行训练、并在训练中基于所述样本自然语言文本对应的预测结果和标注数据之间的差异调整预设模型的参数而获得,所述样本自然语言文本对应的标注数据包括所述样本自然语言文本对应的样本结构化查询语言语句和样本思维链信息,所述预设模型包括生成式预训练模型。
如图3、7、8所示,所述目标预测模型通过下述步骤训练获得:
S301:获取所述预设模型和所述多个样本自然语言文本;
S302:以所述样本自然语言文本为输入,利用所述预设模型输出所述样本自然语言文本对应的预测结果;
S303:基于所述样本自然语言文本对应的预测结果和标注数据之间的差异,对所述预设模型进行参数调整,以得到所述目标预测模型。
样本自然语言文本包括具有查询意图的样本描述文本、以及用于限定查询范围的样本数据库表信息。对于样本自然语言文本,可以参考前述步骤S201中对于待处理自然语言文本的记载,不再赘述。作为样本自然语言文本对应的标注数据,样本结构化查询语言语句和样本思维链信息可以分别参考前述步骤S202中有关目标结构化查询语言语句和目标思维链信息的内容,不再赘述。
示例性的,多个样本自然语言文本是N个多个样本自然语言文本,样本自然语言文本i是N个样本自然语言文本中的第i个样本自然语言文本,i的取值范围是1-N。将样本自然语言文本i输入预设模型。由预设模型基于样本自然语言文本i输出对应的预测结果i,预测结果i包括指示结构化查询语言语句的结果i1和指示思维链信息的结果i2。样本自然语言文本i对应的标注数据包括样本自然语言文本i对应的样本结构化查询语言语句i和样本思维链信息i。
可以以预测结果i这一整体与标注数据这一整体之间的差异作为目标差异,进而利用目标差异对预设模型进行参数调整。在利用目标差异对预设模型进行参数调整时,可以基于目标差异构建损失函数,然后采用损失函数对预设模型进行参数调整。
也可以以结果i1与样本结构化查询语言语句i之间的差异作为第一差异,以结果i2与样本思维链信息i之间的差异作为第一差异,进而利用第一差异、第二差异对预设模型进行参数调整。在利用第一差异、第二差异对预设模型进行参数调整时,可以基于第一差异和第二差异构建损失函数,然后采用损失函数对预设模型进行参数调整。所构建的损失函数中可以根据历史反馈等为两类差异配置不同的权重系数。
需要说明的是,每一自然语言文本输入模型后得到对应的预测结果,进而得到每一样本自然语言文本对应的预测结果与标注数据之间的差异。在训练获得目标预测模型的过程中,可以涉及至少一次模型参数调整,每一次模型参数调整的依据是对应样本批次中每一样本自然语言文本对应的预测结果与标注数据之间的差异。一个样本批次可以是多个样本自然语言文本中的全部,也可以是多个样本自然语言文本中的部分。在实际应用中,可以将多个样本自然语言文本切分成训练集、验证集、测试集,样本占比分别是80%、10%、10%,可参考图8。
模型训练是不断进行的,目标预测模型可以是上一次训练的结果,也可以是下一次训练的基础。目标预测模型是经训练得到的具有高泛化能力的模型,利用目标预测模型预测结构化查询语言语句和思维链信息,可以提高预测适应性和可靠性。
在一个实施例中,如图4所示,所述预设模型还包括文本处理网络,所述生成式预训练模型采用解码结构,所述以所述样本自然语言文本为输入,利用所述预设模型输出所述样本自然语言文本对应的预测结果,包括:
S401:利用所述文本处理网络对所述样本自然语言文本进行向量转换,以输出文本向量;
S402:利用所述生成式预训练模型对所述文本向量进行解码,得到所述样本自然语言文本对应的预测结果。
预设模型包括文本处理网络和采用解码结构的生成式预训练模型,。输入预测模型的数据依次经过文本处理网络和生成式预训练模型。这里采用解码结构的生成式预训练模型可以称为文本生成式预训练模型,可参考图8。它主要用于生成文本,如执行机器翻译、文本摘要等任务。样本自然语言文本输入预测模型后,先由文本处理网络对样本自然语言文本进行向量转换,输出对应的文本向量;再由生成式预训练模型对文本向量进行解码,输出样本自然语言文本对应的预测结果。通过转化文本向量能够表达样本自然语言文本的语义,文本向量更适于生成式预训练模型以解码器机制的学习输出文本形式的预测结果,这样保证了模型训练的有效性、便捷性和效率。
示例性的,对于解码器机制,以Decoder Only结构为例,它的输入是一个特定的编码(也可以称为上下文向量)和已知的起始标记(例如"start"标记)。解码器通过自回归方式逐步生成文本的下一个标记,直到生成终止标记(例如"end"标记)或达到最大长度限制。上述文本向量可以对应这里的输入,上述样本自然语言文本对应的预测结果可以对应这里最终生成的文本。在实际应用中,Decoder Only结构可以根据任务的要求和数据集的特点进行调整和扩展。例如,可以添加额外的层或模块以加强解码过程。图7示出了模型训练的数据流向,可以将采用解码结构的生成式预训练模型视作预设模型的重要组成部分。模型的输入包括具有查询意图的待处理描述文本(如图7中的问题)、以及用于限定查询范围的待处理数据库表信息(如图7中的表名和表字段),模型的输出包括结构化查询语言语句和思维链信息。
进一步的,所述生成式预训练模型包括向量转化层和文本预测层,所述利用所述生成式预训练模型对所述文本向量进行解码,得到所述样本自然语言文本对应的预测结果,可以包括下述步骤:首先,利用所述向量转化层基于预设注意力机制将所述文本向量转化为目标向量;然后,利用所述文本预测层基于所述目标向量和预设字符库信息确定所述样本自然语言文本对应的预测结果。
对于上述“由生成式预训练模型对文本向量进行解码,输出样本自然语言文本对应的预测结果”,这里提供了更细节的实现方式。注意力机制的应用,可以提高解码阶段对于重要向量信息的关注,有利于进一步提高模型性能。预设字符库和应用注意力机制获得的目标向量的结合,可以为样本自然语言文本对应的预测结果的获得提供兼顾准确度和便捷性的技术支持。
预设注意力机制用于引导实现目标向量是文本向量中的重要向量信息。比如,样本自然语言文本包括多个文本片段,文本向量包括多个子向量,多个子向量与多个文本片段一一对应。考虑到样本自然语言文本的构成,不同构成要素可以有不同的注意力权重,同一构成要素中的不同类别息也可以有不同的注意力权重。预设注意力机制可以利用注意力权重实现重要向量信息的捕捉,进而通过融合等方式获得目标向量。
对于基于目标向量和预设字符库信息确定样本自然语言文本对应的预测结果。可以理解,如果将目标向量视作一个字向量,将预设字符库信息视作整个字库的向量。将字向量与整个字库的向量做乘积,找出与字向量最接近的那一个字,这个字也即预测结果。相应的,预设字符库信息用于指示字符库中的所有字符组合,也即多个字符串。通过做乘积找到与目标向量最接近的字符串,这个字符串也即预测结果。可参考下式:
y=softmax(Wh+b)
其中,y表示预测结果。softmax是激活函数,用于计算概率。W表示上述预设字符库信息,W可以是所有字符组合的向量权重矩阵。h表示上述目标向量。b是偏置向量。可以通过损失函数来对该式进行优化,其中损失函数如下:
L(y′,y)=--∑k=yk′log(yk)
其中,损失函数是一个交叉熵函数,yk′是第k的字符的真实值,yk是第k的字符的预测值。
在一个实施例中,如图5所示,所述获取所述多个样本自然语言文本,包括:
S501:获取多个第一自然语言文本,所述第一自然语言文本包括具有查询意图的候选描述文本、以及用于限定查询范围的候选数据库表信息;
S502:从所述多个第一自然语言文本中确定出至少一个第二自然语言文本;
S503:分别对每一所述第二自然语言文本进行文本片段维度的更新,得到每一所述第二自然语言文本对应的第三自然语言文本,所述文本片段维度的更新包括以下至少之一:更新所述候选描述文本中表征查询条件的文本片段、更新所述候选数据库表信息中的表名、更新所述候选数据库表信息中的表字段;
S504:基于所述多个第一自然语言文本和每一所述第二自然语言文本对应的第三自然语言文本,得到所述多个样本自然语言文本。
这里提供了样本自然语言文本的获得方式,可以基于有限的第一自然语言文本进行丰富,以保证样本自然语言文本的数量。这样的样本获得方式,便捷高效,有助于提高模型训练的效率,以及通过丰富的样本提高训练获得的模型的鲁棒性。
对于第一自然语言文本,可以参考前述步骤S201中对于待处理自然语言文本的记载,不再赘述。第一自然语言文本可以直接作为样本自然语言文本。对于从多个第一自然语言文本中确定出的第二自然语言文本,它是获得第三自然语言文本的改造基础,改造获得的第三自然语言文本则可以直接作为样本自然语言文本。可以将每一第一自然语言文本均作为一个第二自然语言文本;也可以选择多个第一自然语言文本中的部分第一自然语言文本来作为第二自然语言文本,选择方式可以是随机选择,也可以结合第一自然语言文本的获取时间、获取渠道等信息进行基于预设抽取规则的抽取。
在对第二自然语言文本进行构造时,可以对其中的文本片段进行更新。例如,第一自然语言文本i包括候选描述文本i和候选数据库表信息i。若第一自然语言文本i被确定为第二自然语言文本,那么第二自然语言文本j包括候选描述文本i和候选数据库表信息i。那么,1)可以对候选描述文本i中表征查询条件的文本片段进行更新。若候选描述文本i包括至少两个条件片段,每一条件片段对应一个查询条件,可以对至少两个条件片段均进行更新,也可以对至少两个条件片段中的部分条件片段进行更新。更新后的查询条件可以是同类查询条件,也即利用同类查询条件替换掉原来的查询条件。在实际应用中,可以更新时间类别的查询条件。2)可以对候选数据库表信息i中的表名进行更新。当存在至少两个表名时,可以对至少两个表名均进行更新,也可以对至少两个表名中的部分表名进行更新。更新后的表名一般是随机生成的表名,也即利用随机生成的表名替换掉原来的表名。3)可以对候选数据库表信息i中的表字段进行更新。当存在至少两个表字段时,可以对至少两个表字段均进行更新,也可以对至少两个表字段中的部分表字段进行更新。更新后的表字段一般是随机生成的表字段,也即利用随机生成的表字段替换掉原来的表字段。需要说明的是,上述2)和3)中更新的表名和表字段主要是“待查询的数据库表的基础信息”,可以参考前述步骤S201中的相关记载。
在第二自然语言文本j作为改造基础时,可以进行至少一种改造。在每一种改造存在差异的情况下,每一种改造指示不同的第三自然语言文本。也就是说,第二自然语言文本j可以对应至少一个第三自然语言文本。不同中改造的差异可以通过在上述三种更新方式上的涉及有无和涉及程度体现。
在实际应用中,考虑到样本自然语言文本对应的标注数据也依赖于样本自然语言文本本身。若第一自然语言文本本来存在对应的标注数据,那么相较于第一自然语言文本,第三自然语言文本对应的标注数据可以以其改造基础的第二自然语言文本对应的标注数据为基础进行适应性调整。以更新时间类别的查询条件为例,若更新“20230924”为“20190511”,那么可以将原来标注数据中的候选结构化查询语言语句“Select*from log_db.t_log where log_date=20230924”更新为“Select*from log_db.t_log where log_date=20190511”
此外,对于与样本自然语言文本对应的样本结构化查询语言语句可以通过人工获得,也可以借助相关模型获得。以query表示样本自然语言文本、以SQL表示样本结构化查询语言语句为例,将query输入相关模型,可以获得SQL。相关模型可以是文本生成式模型。
在一个实施例中,所述方法还包括基于样本结构化查询语言语句获得样本思维链信息,该过程可以包括下述步骤:首先,对于每一所述样本结构化查询语言语句,对所述样本结构化查询语言语句进行关键词提取,得到多个样本关键词,所述关键词提取包括以下至少之一:提取命令动词、提取子句名、提取运算符、提取函数名、提取表名;然后,按照所述样本结构化查询语言语句的结构对所述多个样本关键词进行排列,得到对应的所述样本思维链信息。
这里提供了样本思维链信息的获得方式。以样本结构化查询语言语句为基础,以关键词为筛选条件,以样本结构化查询语言语句的结构为规范,给出了获得样本思维链信息的依据,这样有利于提高对于样本思维链信息进行维护的有效性和针对性。对于不同的业务需求,可以制定不同的获得样本思维链信息的依据。比如,基于历史反馈,相关业务的目标结构化查询语言语句一般较复杂、目标结构化查询语言语句的异常概率大于阈值,可以设置能够获取更全局的样本思维链信息的依据。这样的依据可以引导获取种类更丰富、数量更多的关键词,以提高样本思维链信息在模型参数调整上的参与度,进而提高模型训练效果。相应的,若基于历史反馈,相关业务的目标结构化查询语言语句一般较简单、目标结构化查询语言语句的异常概率小于阈值,可以设置能够获取更简洁的样本思维链信息的依据。这样的依据可以引导获取重要种类、更少数量的关键词,以提高获得样本思维链信息的效率,进而提高模型训练的效率。
在实际应用中,作为关键词的命令动词可以包括select等,作为关键词的子句名可以包括from、where、group by、order by、limit等,作为关键词的运算符可以包括join等,作为关键词的函数名可以包括max、min、collect_set、from_unixtime、length等。所获得的样本思维链信息可以参考下述示例:select from(select from db_user.t_user_info where)join(select from db_order.t_order_info where)。
另外,也可以借助大模型来实现样本思维链信息的获得。以query表示样本自然语言文本、以SQL表示样本结构化查询语言语句为例,采用chatgpt、llama作为所用大模型,将query和SQL输入所用大模型,以实现样本思维链信息的获得。具体可以如下:
用户:你是一个数据标注助手,帮忙标注思维链。
标注思维链的示例如下:
示例1:{query1}{SQL1},思维链如下:{思维链1}
示例2:{query2}{SQL2},思维链如下:{思维链2}
示例3:{query3}{SQL3},思维链如下:{思维链3}
现在{query}{SQL}请写出对应的思维链
本申请实施例提供的数据处理方案可以采用文本生成预训练模型(如LLaMA2、GPT3)作为待训练的预设模型的基础、主干。文本生成预训练模型的模型参数可以选择经训练好的参数,模型结构采用Decoder Only结构,它由多层Transformer层组成。Transformer层可以对应上述向量转化层,可以基于预设注意力机制将文本向量转化为目标向量。训练中可以使tesnorflow或者pytorch等深度学习框架。相应的,对于经过训练的模型,可以通过tensorflow模型文件或者pytorch模型文件进行保存,可参考图8。
在利用模型处理待处理自然语言文本时,可以使用tensorflow或pytorch等深度学习框架加载对应的模型文件,进而使用模型基于待处理自然语言文本进行目标结构化查询语言语句和目标思维链信息的预测,可参考图9。
以下为输入模型的待处理自然语言文本:
帮我查询20120731这一天日活跃时长超过3小时的对象及其购买订单情况。
可能使用到的表如下:
表名0:db_user.t_user_info
表含义:对象信息表
表字段:字段名|类型|含义
user_id|int|对象ID
name|string|对象名
time|int|时长
表名1:db_order.t_order_info
表含义:订单信息表
表字段:字段名|类型|含义
order_id|int|订单ID
user_id|int|对象ID
order_date|string|下单日期,格式为YYYYMMDD
amount|double|订单金额
以下为模型输出的目标结构化查询语言语句:
/>
以下为模型输出的目标思维链信息:
select from(select from db_user.t_user_info where)join(select fromdb_order.t_order_info where)
思维链有助于展示数据分析的逻辑过程。
一般目标预测模型将目标思维链信息与目标结构化查询语言语句拼接起来,形成新的文本生成目标,拼接的形式如下(不限于这种形式):
思路:{目标思维链信息}
生成的SQL:{目标结构化查询语言语句}
文本生成式预训练模型能够捕捉上下文语义、具有大规模数据的学习能力,并具备迁移学习和强悍的生成文本的能力。将文本生成式预训练模型引入到TEXT2SQL领域,只需要用少量样本微调模型,就可以生成效果较好的SQL。利用文本预训练模型的强大文本生成能力,自动对齐自然语言文本与SQL语句逻辑,可以解决了语义理解不准、复杂语义无法理解、生成效果较差的问题。也适用于处理复杂的自然语言查询,降低受到干扰和噪音的影响。对于少见或没有训练数据的查询形式(如查询语句中存在语法、歧义和上下文问题的情况),也具有较好的适应性。同时,思维链的应用可以提高SQL语句生成的逻辑性与可解释性。
由以上本申请实施例提供的技术方案可见,本申请实施例提供了一种转化自然语言查询为结构化查询语言语句的方案。本申请实施例以待处理自然语言文本为输入,利用目标预测模型输出目标结构化查询语言语句和目标思维链信息。目标预测模型基于多个样本自然语言文本训练获得,目标预测模型具有高泛化能力,有利于提高转化自然语言查询为结构化查询语言语句的效率、适应性和可靠性。作为训练的基础的预设模型包括生成式预训练模型,可以借助生成式预训练模型提高训练获得目标预测模型的便捷性,可以提高训练速度,可以在保证训练效果的同时降低对于样本自然语言文本的数量要求。同时,目标思维链信息与目标结构化查询语言语句一道输出,目标思维链信息的存在可以提高目标结构化查询语言语句的可解释性和易读性,这样有助于对目标结构化查询语言语句进行异常分析,进而有助于对模型进行校正。
本申请实施例还提供了一种数据处理装置,如图6所示,该数据处理装置60包括:
获取模块601:用于获取待处理自然语言文本,所述待处理自然语言文本包括具有查询意图的待处理描述文本、以及用于限定查询范围的待处理数据库表信息;
预测模块602:用于以所述待处理自然语言文本为输入,利用目标预测模型输出对应的目标预测结果,所述目标预测结果包括目标结构化查询语言语句和目标思维链信息,所述目标思维链信息基于所述目标结构化查询语言语句中的关键词构成,所述目标预测模型基于多个样本自然语言文本进行训练、并在训练中基于所述样本自然语言文本对应的预测结果和标注数据之间的差异调整预设模型的参数而获得,所述样本自然语言文本对应的标注数据包括所述样本自然语言文本对应的样本结构化查询语言语句和样本思维链信息,所述预设模型包括生成式预训练模型。
在一个实施例中,所述目标预测模型通过下述步骤训练获得:获取所述预设模型和所述多个样本自然语言文本;以所述样本自然语言文本为输入,利用所述预设模型输出所述样本自然语言文本对应的预测结果;基于所述样本自然语言文本对应的预测结果和标注数据之间的差异,对所述预设模型进行参数调整,以得到所述目标预测模型。
在一个实施例中,所述预设模型还包括文本处理网络,所述生成式预训练模型采用解码结构,所述以所述样本自然语言文本为输入,利用所述预设模型输出所述样本自然语言文本对应的预测结果,包括:利用所述文本处理网络对所述样本自然语言文本进行向量转换,以输出文本向量;利用所述生成式预训练模型对所述文本向量进行解码,得到所述样本自然语言文本对应的预测结果。
在一个实施例中,所述生成式预训练模型包括向量转化层和文本预测层,所述利用所述生成式预训练模型对所述文本向量进行解码,得到所述样本自然语言文本对应的预测结果,包括:利用所述向量转化层基于预设注意力机制将所述文本向量转化为目标向量;利用所述文本预测层基于所述目标向量和预设字符库信息确定所述样本自然语言文本对应的预测结果。
在一个实施例中,所述获取所述多个样本自然语言文本,包括:获取多个第一自然语言文本,所述第一自然语言文本包括具有查询意图的候选描述文本、以及用于限定查询范围的候选数据库表信息;从所述多个第一自然语言文本中确定出至少一个第二自然语言文本;分别对每一所述第二自然语言文本进行文本片段维度的更新,得到每一所述第二自然语言文本对应的第三自然语言文本,所述文本片段维度的更新包括以下至少之一:更新所述候选描述文本中表征查询条件的文本片段、更新所述候选数据库表信息中的表名、更新所述候选数据库表信息中的表字段;基于所述多个第一自然语言文本和每一所述第二自然语言文本对应的第三自然语言文本,得到所述多个样本自然语言文本。
在一个实施例中,所述装置还包括信息获得模块,所述信息获得模块:用于对于每一所述样本结构化查询语言语句,对所述样本结构化查询语言语句进行关键词提取,得到多个样本关键词,所述关键词提取包括以下至少之一:提取命令动词、提取子句名、提取运算符、提取函数名、提取表名;按照所述样本结构化查询语言语句的结构对所述多个样本关键词进行排列,得到对应的所述样本思维链信息。
在一个实施例中,所述装置还包括参数调整模块,所述参数调整模块:用于在接收到的反馈信息指示所述目标结构化查询语言语句是异常语句的情况下,确定所述目标结构化查询语言语句对应的校正语句;基于所述校正语句的思维链信息和所述目标思维链信息之间的差异生成调参指引信息,所述调参指引信息用于引导对所述目标预测模型进行参数调整。
需要说明的,所述装置实施例中的装置与方法实施例基于同样的发明构思。
在一些实施例中,本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。
本申请实施例还提供了一种电子设备,所述电子设备包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述至少一个处理器加载并执行以实现上述方法。
电子设备可以被提供为终端、服务器或其它形态的设备。
图12示出根据本申请实施例的一种电子设备的框图。参照图12,电子设备1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令。此外,处理组件1922被配置为执行指令,以执行上述方法。
电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理,一个有线或无线网络接口1950被配置为将电子设备1900连接到网络,和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。
本申请可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本申请的各个方面的至少一条指令或至少一段程序。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的至少一条指令或至少一段程序可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收至少一条指令或至少一段程序,并转发该至少一条指令或至少一段程序,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的至少一条指令或至少一段程序可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,上述编程语言包括面向对象的编程语言—诸如Smalltalk、C+等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。至少一条指令或至少一段程序可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用至少一条指令或至少一段程序的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行至少一条指令或至少一段程序,从而实现本申请的各个方面。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由至少一条指令或至少一段程序实现。
该至少一条指令或至少一段程序可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把该至少一条指令或至少一段程序存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把至少一条指令或至少一段程序加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,上述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标准的功能也可以以不同于附图中所标准的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取待处理自然语言文本,所述待处理自然语言文本包括具有查询意图的待处理描述文本、以及用于限定查询范围的待处理数据库表信息;
以所述待处理自然语言文本为输入,利用目标预测模型输出对应的目标预测结果,所述目标预测结果包括目标结构化查询语言语句和目标思维链信息,所述目标思维链信息基于所述目标结构化查询语言语句中的关键词构成,所述目标预测模型基于多个样本自然语言文本进行训练、并在训练中基于所述样本自然语言文本对应的预测结果和标注数据之间的差异调整预设模型的参数而获得,所述样本自然语言文本对应的标注数据包括所述样本自然语言文本对应的样本结构化查询语言语句和样本思维链信息,所述预设模型包括生成式预训练模型。
2.根据权利要求1所述的方法,其特征在于,所述目标预测模型通过下述步骤训练获得:
获取所述预设模型和所述多个样本自然语言文本;
以所述样本自然语言文本为输入,利用所述预设模型输出所述样本自然语言文本对应的预测结果;
基于所述样本自然语言文本对应的预测结果和标注数据之间的差异,对所述预设模型进行参数调整,以得到所述目标预测模型。
3.根据权利要求2所述的方法,其特征在于,所述预设模型还包括文本处理网络,所述生成式预训练模型采用解码结构,所述以所述样本自然语言文本为输入,利用所述预设模型输出所述样本自然语言文本对应的预测结果,包括:
利用所述文本处理网络对所述样本自然语言文本进行向量转换,以输出文本向量;
利用所述生成式预训练模型对所述文本向量进行解码,得到所述样本自然语言文本对应的预测结果。
4.根据权利要求3所述的方法,其特征在于,所述生成式预训练模型包括向量转化层和文本预测层,所述利用所述生成式预训练模型对所述文本向量进行解码,得到所述样本自然语言文本对应的预测结果,包括:
利用所述向量转化层基于预设注意力机制将所述文本向量转化为目标向量;
利用所述文本预测层基于所述目标向量和预设字符库信息确定所述样本自然语言文本对应的预测结果。
5.根据权利要求2所述的方法,其特征在于,所述获取所述多个样本自然语言文本,包括:
获取多个第一自然语言文本,所述第一自然语言文本包括具有查询意图的候选描述文本、以及用于限定查询范围的候选数据库表信息;
从所述多个第一自然语言文本中确定出至少一个第二自然语言文本;
分别对每一所述第二自然语言文本进行文本片段维度的更新,得到每一所述第二自然语言文本对应的第三自然语言文本,所述文本片段维度的更新包括以下至少之一:更新所述候选描述文本中表征查询条件的文本片段、更新所述候选数据库表信息中的表名、更新所述候选数据库表信息中的表字段;
基于所述多个第一自然语言文本和每一所述第二自然语言文本对应的第三自然语言文本,得到所述多个样本自然语言文本。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对于每一所述样本结构化查询语言语句,对所述样本结构化查询语言语句进行关键词提取,得到多个样本关键词,所述关键词提取包括以下至少之一:提取命令动词、提取子句名、提取运算符、提取函数名、提取表名;
按照所述样本结构化查询语言语句的结构对所述多个样本关键词进行排列,得到对应的所述样本思维链信息。
7.根据权利要求1所述的方法,其特征在于,所述以所述待处理自然语言文本为输入,利用目标预测模型输出对应的目标预测结果之后,所述方法还包括:
在接收到的反馈信息指示所述目标结构化查询语言语句是异常语句的情况下,确定所述目标结构化查询语言语句对应的校正语句;
基于所述校正语句的思维链信息和所述目标思维链信息之间的差异生成调参指引信息,所述调参指引信息用于引导对所述目标预测模型进行参数调整。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块:用于获取待处理自然语言文本,所述待处理自然语言文本包括具有查询意图的待处理描述文本、以及用于限定查询范围的待处理数据库表信息;
预测模块:用于以所述待处理自然语言文本为输入,利用目标预测模型输出对应的目标预测结果,所述目标预测结果包括目标结构化查询语言语句和目标思维链信息,所述目标思维链信息基于所述目标结构化查询语言语句中的关键词构成,所述目标预测模型基于多个样本自然语言文本进行训练、并在训练中基于所述样本自然语言文本对应的预测结果和标注数据之间的差异调整预设模型的参数而获得,所述样本自然语言文本对应的标注数据包括所述样本自然语言文本对应的样本结构化查询语言语句和样本思维链信息,所述预设模型包括生成式预训练模型。
9.一种电子设备,其特征在于,所述电子设备包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述至少一个处理器加载并执行以实现如权利要求1-7任意一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-7任意一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311352106.3A CN117370373A (zh) | 2023-10-18 | 2023-10-18 | 数据处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311352106.3A CN117370373A (zh) | 2023-10-18 | 2023-10-18 | 数据处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117370373A true CN117370373A (zh) | 2024-01-09 |
Family
ID=89403646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311352106.3A Pending CN117370373A (zh) | 2023-10-18 | 2023-10-18 | 数据处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117370373A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118070811A (zh) * | 2024-04-16 | 2024-05-24 | 江苏微皓智能科技有限公司 | 基于自然语言理解的信息交互方法、装置、设备及介质 |
CN118071543A (zh) * | 2024-04-17 | 2024-05-24 | 国网天津市电力公司滨海供电分公司 | 一种用电安全评估方法、系统、存储介质和设备 |
-
2023
- 2023-10-18 CN CN202311352106.3A patent/CN117370373A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118070811A (zh) * | 2024-04-16 | 2024-05-24 | 江苏微皓智能科技有限公司 | 基于自然语言理解的信息交互方法、装置、设备及介质 |
CN118071543A (zh) * | 2024-04-17 | 2024-05-24 | 国网天津市电力公司滨海供电分公司 | 一种用电安全评估方法、系统、存储介质和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102401942B1 (ko) | 번역품질 평가 방법 및 장치 | |
US11288593B2 (en) | Method, apparatus and device for extracting information | |
CN107491534B (zh) | 信息处理方法和装置 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN117370373A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN109241286B (zh) | 用于生成文本的方法和装置 | |
US20170270120A1 (en) | Question transformation in question answer systems | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
US11501655B2 (en) | Automated skill tagging, knowledge graph, and customized assessment and exercise generation | |
US9953027B2 (en) | System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning | |
EP4145303A1 (en) | Information search method and device, electronic device, and storage medium | |
CN110738056B (zh) | 用于生成信息的方法和装置 | |
CN114154518A (zh) | 数据增强模型训练方法、装置、电子设备及存储介质 | |
US9984063B2 (en) | System and method for automatic, unsupervised paraphrase generation using a novel framework that learns syntactic construct while retaining semantic meaning | |
CN114580383A (zh) | 日志分析模型训练方法、装置、电子设备以及存储介质 | |
CN116913278B (zh) | 语音处理方法、装置、设备和存储介质 | |
CN116644180A (zh) | 文本匹配模型的训练方法、训练系统和文本标签确定方法 | |
CN112925889B (zh) | 自然语言处理方法、装置、电子设备和存储介质 | |
CN115273856A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN111459959B (zh) | 用于更新事件集合的方法和装置 | |
CN114429629A (zh) | 图像处理方法、装置、可读存储介质及电子设备 | |
CN113343668B (zh) | 选择题解题方法、装置、电子设备及可读存储介质 | |
CN118170795A (zh) | 数据查询方法、装置、存储介质及电子设备 | |
CN117291196A (zh) | 语音翻译的方法、装置、电子设备和介质 | |
CN117744662A (zh) | 用于处理提示信息的方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |