CN116501858A - 文本处理及数据查询方法 - Google Patents
文本处理及数据查询方法 Download PDFInfo
- Publication number
- CN116501858A CN116501858A CN202310744206.4A CN202310744206A CN116501858A CN 116501858 A CN116501858 A CN 116501858A CN 202310744206 A CN202310744206 A CN 202310744206A CN 116501858 A CN116501858 A CN 116501858A
- Authority
- CN
- China
- Prior art keywords
- text
- texts
- data
- target
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 362
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000003672 processing method Methods 0.000 claims abstract description 34
- 238000005070 sampling Methods 0.000 claims description 10
- 230000001149 cognitive effect Effects 0.000 abstract description 16
- 230000004927 fusion Effects 0.000 abstract description 9
- 238000013519 translation Methods 0.000 description 37
- 238000010276 construction Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 241000282326 Felis catus Species 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 241000251468 Actinopterygii Species 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000010354 integration Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/197—Version control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供文本处理及数据查询方法,其中所述文本处理方法包括:获取指示文本、多个待处理文本、多个参考文本和对应的参考结果,其中,多个待处理文本包括针对目标处理任务的不同自然语言描述信息;基于多个参考文本和对应的参考结果,构建示例文本;根据指示文本、示例文本和多个待处理文本,构建提示文本;利用预先训练的文本处理模型,对提示文本执行目标处理任务,获得文本处理结果。利用文本处理模型,对多个角度的提示文本执行目标处理任务,通过多个不同角度认知目标处理任务,进行了融合判断,消除了认知偏差,提升了文本处理结果的准确度,构建一个提示文本来执行多个角度的目标处理任务,降低了文本处理的成本。
Description
技术领域
本说明书实施例涉及文本处理技术领域,特别涉及一种文本处理方法。
背景技术
随着计算机技术的发展,通过大规模样本数据训练得到的文本处理模型,因为其出色的自然语言文本的理解能力,准确完成文本生成、问答、对话等功能,被广泛应用于数据查询、商品推荐、情感分析、文本分类、实体识别等项目领域。
目前,文本处理模型通过输入的提示文本(Prompt),完成对应的任务。提示文本中包含有指示文本(Instruction)、示例文本(Demos)和待处理文本(Question)。具体地,基于指示文本确定需要实现的目标处理任务,给出示例文本用于让文本处理模型理解所要实现的处理内容和处理结果,根据待处理文本确定具体的处理对象,以此让文本处理模型对提示文本执行目标处理任务,获得文本处理结果。为了提升文本处理结果的准确度,需要对提示文本进行优化,例如,对所要完成的目标处理任务进行拆分,得到多个目标处理子任务,进而构建多个目标处理子任务对应的提示文本来进行文本处理,得到文本处理结果,又例如,在提示文本中添加逻辑分析任务,依据逻辑分析结果进行文本处理,获得文本处理结果。
但是,这样的方式只能让文本处理模型从单一角度来完成目标处理任务,在文本处理模型对目标处理任务存在认知偏差的情况下,导致利用文本处理模型,对提示文本执行目标处理任务,影响文本处理结果的准确度。同时,构建包含多个待处理文本、多个参考文本和对应的参考结果的多个提示文本,来执行多个角度的目标处理任务,增加了文本处理的成本,因此,亟需一种高准确度且低成本的文本处理方法。
发明内容
有鉴于此,本说明书实施例提供了一种文本处理方法。本说明书一个或者多个实施例同时涉及一种数据查询方法,一种文本处理装置,一种数据查询装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
本说明书一个实施例中提供了一种文本处理方法,包括:
获取指示文本、多个待处理文本、多个参考文本和对应的参考结果,其中,多个待处理文本包括针对目标处理任务的不同自然语言描述信息;
基于多个参考文本和对应的参考结果,构建示例文本;
根据指示文本、示例文本和多个待处理文本,构建提示文本;
利用预先训练的文本处理模型,对提示文本执行目标处理任务,获得文本处理结果。
本说明书一个或多个实施例中,获取指示文本、多个待处理文本、多个参考文本和对应的参考结果,其中,多个待处理文本包括针对目标处理任务的不同自然语言描述信息;基于多个参考文本和对应的参考结果,构建示例文本;根据指示文本、示例文本和多个待处理文本,构建提示文本;利用预先训练的文本处理模型,对提示文本执行目标处理任务,获得文本处理结果。根据多个待处理文本,以及包含多个参考文本和对应的参考结果的示例文本,构建得到多个角度的提示文本,利用文本处理模型,对多个角度的提示文本执行目标处理任务,使得文本处理模型通过多个不同角度认知目标处理任务,进行了融合判断,消除了文本处理模型的认知偏差,提升了文本处理结果的准确度,同时,构建包含多个待处理文本、多个参考文本和对应的参考结果的一个提示文本,来执行多个角度的目标处理任务,降低了文本处理的成本。
附图说明
图1是本说明书一个实施例提供的一种文本处理方法的流程图;
图2是本说明书一个实施例提供的一种数据查询方法的流程图;
图3是本说明书一个实施例提供的一种文本处理方法的流程示意图;
图4是本说明书一个实施例提供的一种文本处理方法对应的文本处理平台的前端示意图;
图5是本说明书一个实施例提供的一种数据查询方法对应的文本处理平台的前端示意图;
图6是本说明书一个实施例提供的一种应用于商品推荐的文本处理方法的处理过程流程图;
图7是本说明书一个实施例提供的一种应用于数据来源判断的文本处理方法的处理过程流程图;
图8是本说明书一个实施例提供的一种文本处理装置的结构示意图;
图9是本说明书一个实施例提供的一种数据查询装置的结构示意图;
图10是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本说明书一个或多个实施例中出现的大模型,是指具有大规模模型参数的深度学习模型,通常包含上亿、上百亿,甚至上千亿的模型参数。大模型又可以称为基石模型/基础模型(Foundation Model),通过大规模无标注的语料进行大模型的预训练,产出亿级以上参数的预训练模型,这种模型能适应广泛的下游任务,模型具有较好的泛化能力,例如大规模语言模型(Large Language Model, LLM)、多模态预训练模型(multi-modal pre-training model)等。大模型在实际应用时,仅需少量样本对预训练模型进行微调即可应用于不同的任务中,大模型可以广泛应用于自然语言处理(Natural Language Processing,简称NLP)、计算机视觉等领域,具体可以应用于如视觉问答(Visual Question Answering,简称VQA)、图像描述(Image Caption,简称IC)、图像生成等计算机视觉领域任务,以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务,大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
大语言模型(Large Language Models,LLMs):是指使用大量文本数据训练得到的文本处理模型,生成自然语言文本或理解自然语言文本的含义。大语言模型可以执行多种自然语言的文本处理任务,如文本分类、问答、对话等。 大语言模型可以理解为一种集成了多种功能的大规模神经网络模型,例如,文本分类、文本生成、实体识别、图像分类、图像生成等。需要说明的是,大语言模型主要是基于输入的提示文本执行对应的目标处理任务,但并不限定大语言模型只能基于纯文本执行目标处理任务,也可以基于图像、视频、音频等不同模态的数据执行目标处理任务,得到多种模态的文本处理结果。
提示文本(Prompt):是一种利用自然语言来指导或激发大规模语言模型执行目标处理任务的范式文本。提示文本由指示文本(Instruction)、示例文本(Demos)和待处理文本(Question)组成。指示文本(Instruction):用于指示大规模语言模型执行目标处理任务的自然语言文本。
示例文本(Demos):用于协助大规模语言模型从特定角度理解目标处理任务,得到更为准确的任务执行结果。待处理文本(Question):为目标处理任务对应的待处理文本,是目标处理任务的执行对象。
数据湖(Datalake):一种面向多数据源的数据存储架构,存储有多种不同结构的数据。
利用文本处理模型,对包含一组参考文本和参考结果的提示文本执行目标处理任务,由于文本处理模型可能存在理解偏差,文本处理结果存在一定的随机性,文本处理结果的准确度不足。例如,对于数据湖中数据序列的关系识别任务,提示文本为:“指示文本:如果以下两个数据序列来自同一数据源,则输出“是”,否则输出“不是”。示例文本:示例文本序列:表格A中第23列和表格B中第37列的混合数据序列为:|Hi|No|xx|no|Yes not often|。示例结果序列:不是。表格I中第11列和表格J中第33列的混合数据序列为:|DNK|ISR|LES|BFA|NOR|。”,只包含一组数据序列和数据关系的提示文本。针对上述问题,目前,为了提升文本处理结果的准确度,可以对提示文本进行优化,例如,对所要完成的目标处理任务进行拆分,得到多个目标处理子任务,进而构建多个目标处理子任务对应的提示文本来进行文本处理,得到文本处理结果,又例如,在提示文本中添加逻辑分析任务,依据逻辑分析结果进行文本处理,获得文本处理结果。也可以执行多次目标处理任务,可以有效降低文本处理模型的理解偏差,实现鲁棒性更高,稳定性更高的文本处理,得到准确度更高的文本处理结果,但由于要对输入的提示文本进行反复构建,并转换为可以被文本处理模型理解的文本特征向量(tokens),多次执行提升了文本处理的成本。
针对上述问题,本说明书中提供了一种文本处理方法,本说明书同时涉及一种数据查询方法,一种文本处理装置,一种数据查询装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本说明书一个实施例提供的一种文本处理方法的流程图,包括如下具体步骤:
步骤102:获取指示文本、多个待处理文本、多个参考文本和对应的参考结果,其中,多个待处理文本包括针对目标处理任务的不同自然语言描述信息。
本说明书实施例应用于具有提示文本构建和文本处理功能的应用、网页或者小程序的客户端或者服务端。该客户端或者服务端上部署有文本处理模型或者文本处理模型的应用程序编程接口(API,Application Programming Interface)。
目标处理任务为利用自然语言文本实现的处理任务,包括但不限于:关系识别任务、数据查询任务、商品推荐任务、翻译任务、问答任务、情感分析任务、文本分类任务、实体识别任务。指示文本为针对于目标处理任务的自然语言文本指令,用于指示文本处理模型执行目标处理任务的自然语言文本。例如,对于翻译任务,指示文本为“将以下文本翻译为中文”,又例如,对于排序任务,指示文本为“将以下数据按照从小到大的顺序排序”。待处理文本为包含目标处理任务的待处理对象的自然语言文本,待处理对象可以为文本,也可以为数字、字符串、图像、视频、音频等多模态的数据。例如,对于翻译任务,待处理文本为“英文单词为:enthusiasm”,例如,对于排序任务,待处理文本为“数组为:(1044,347,762,888,907)”。待处理文本包括针对目标处理任务的不同自然语言描述信息,不同自然语言描述信息为针对目标处理任务的自然语言描述的不同元素信息,可以为不同的词法和句法,包括但不限于:不同的描述词、不同的文本生成规则和不同的自然语言等。例如,对于翻译任务,待处理文本可以有“待翻译的词语为:enthusiasm”、 “英文单词为:enthusiasm”、“英文词汇为:enthusiasm”和“待翻译文本为:enthusiasm”共4个。参考文本为针对目标处理任务的参考执行对象,参考结果为针对目标处理任务的参考执行结果。参考文本与参考结果相对应,参考文本和参考结果用于协助文本处理模型从特定角度理解目标处理任务,包括但不限于:文本内容和文本数据。参考文本和参考结果可以为人工构建的,也可以为利用文本处理模型生成的,还可以为历史处理任务的输入和输出,在此不作限定。一般地,文本处理模型在执行目标处理任务过程中,是通过问答形式实现的,参考文本可以理解为一种问题,参考结果可以理解为一种问题的答复。例如,对于翻译任务,参考文本为“cat;dog”,对应的参考结果为“猫;狗”,又例如,对于排序任务,参考文本为“(4,3,2,1,5)”,参考结果为“(1,2,3,4,5)”。参考文本和参考结果用于构建示例文本,示例文本和待处理文本在文本形式上一致,示例文本作为示例引导文本处理模型准确理解待处理文本,进而准确执行待处理文本对应的目标处理任务。
需要说明的是,本说明书实施例应用于客户端的情况下,步骤102的具体方式可以为直接识别用户输入的初始待处理文本,根据待处理文本中的待处理对象生成指示文本,并确定多个参考文本和对应的参考结果,对初始待处理文本进行构建,得到多个待处理文本,也可以为接收用户输入数据获取指令,从存储端获取得到的指示文本、多个待处理文本、多个参考文本和对应的参考结果。本说明书实施例应用于服务端的情况下,步骤102的具体方式可以为直接接收客户端发送的用户输入的一个初始待处理文本,根据待处理文本中的待处理对象生成指示文本,并确定多个参考文本和对应的参考结果,对初始待处理文本进行构建,得到多个待处理文本,也可以为接收客户端发送的数据获取请求,从存储端获取得到的指示文本、多个待处理文本、多个参考文本和对应的参考结果,在此不作限定。获取多个待处理文本,具体方式为:获取目标处理任务,基于针对目标处理任务的不同自然语言描述信息,构建得到多个待处理文本。
示例性地,在文本处理平台的服务端上部署有文本处理模型,用户登录文本处理平台的网页客户端,目标处理任务为数据湖中数据序列的关系识别任务,用户在该网页客户端上输入:1个待处理文本:表格G中第7列和表格H中第9列的混合数据序列为:|ETH|IBA|TTO|IBY|BGD|,生成指示文本:“如果以下两个数据序列来自同一数据源,则输出“是”,否则输出“不是””,并确定预先存储的8张数据湖中的数据表格(表格A-H):8张表格中包括多个数据序列和对应的数据关系(“是”或者“不是”),对初始待处理文本进行构建,得到3个待处理文本:“表格G中第7列和表格H中第9列的混合数据序列为:|ETH|IBA|TTO|IBY|BGD|。”、“表格G中第7列和表格H中第9列的混合数据序列为:|DNK|ISR|LES|BFA|NOR|。”和“表格G中第7列和表格H中第9列的混合数据序列为|BAN|ABW|UKR|SMR|。”。
获取指示文本、多个待处理文本、多个参考文本和对应的参考结果,其中 ,多个待处理文本包括针对目标处理任务的不同自然语言描述信息,为后续构建示例文本和提示文本提供了数据基础。
步骤104:基于多个参考文本和对应的参考结果,构建示例文本。
示例文本为包含参考文本和对应的参考结果的示例自然语言文本,示例文本和待处理文本在文本形式上一致,用于协助大规模语言模型从特定角度理解目标处理任务,示例文本为多个。在示例文本包含多个参考文本和对应的参考结果的情况下,使得大规模语言模型可以通过多个不同角度理解目标处理任务。例如,对于翻译任务,示例文本为“待翻译的词语为: cat,翻译结果为:猫,待翻译的词语为:dog,翻译结果为:狗”,又例如,对于排序任务,示例文本为“待排序的数组为:(4,3,2,1,5),排序结果为:(1,2,3,4,5)”。
基于多个参考文本和对应的参考结果,构建示例文本,具体方式为:基于多个参考文本,构建示例文本序列,基于多个参考文本对应的参考结果,构建示例结果序列,基于示例文本序列和示例结果序列,构建示例文本。其中,示例文本序列为至少一个参考文本组成的文本序列,示例结果序列为至少一个参考结果组成的结果序列,本说明书实施例中,一个示例文本包括一组示例文本序列和示例结果序列。
示例性地,基于8张数据表格中各数据序列(包括表格A中第23列,表格B中第37列,表格C中第12列,表格D中第7列,表格E中第20列,表格F中第13列),构建示例文本序列:“|Hi|No|xx|no|Yes not often|”、“|Yao|Bechar|Tarragona|Sevastopo|Belfair|”和“|西北区域|A地区|Mr.Kiss and Tell|Gentle Rogue|What Got You Here Won't Get YouThere: How Successful People Become Even More Successful?|”,基于各数据序列对应的数据关系,构建3个示例结果序列:不是,是,不是,基于上述示例文本序列和示例结果序列,构建示例文本:“示例文本序列:表格A中第23列和表格B中第37列的混合数据序列为:|Hi|No|xx|no|Yes not often|。表格C中第12列和表格D中第7列的混合数据序列为:|Yao|Bechar|Tarragona|Sevastopo|Belfair|。表格E中第20列和表格F中第13列的混合数据序列为:|西北区域|A地区|Mr Kiss and Tell|Gentle Rogue|What Got You Here Won'tGet You There: How Successful People Become Even More Successful?|示例结果序列:|不是|是|不是|。”。
基于多个参考文本和对应的参考结果,构建示例文本,实现了构建不同角度的示例文本。
步骤106:根据指示文本、示例文本和多个待处理文本,构建提示文本。
提示文本为输入目标处理模型的范式文本,用于指导或者激发大规模语言模型执行目标处理任务。例如,对于翻译任务,提示文本为:“指示文本:将以下文本翻译为中文。示例文本:待翻译的词语为: cat,翻译结果为:猫。待处理文本:待翻译的词语为:enthusiasm”,又例如,对于排序任务,提示文本为:“指示文本:将以下数据按照从小到大的顺序排序。示例文本:待排序的数组为:(4,3,2,1,5),排序结果为:(1,2,3,4,5)。待处理文本:数组为:(1044,347,762,888,907)”。
根据指示文本、示例文本和多个待处理文本,构建提示文本,具体方式为:基于指示文本、示例文本和多个待处理文本,拼接得到提示文本。
示例性地,基于指示文本“如果以下两个数据序列来自同一数据源,则输出“是”,否则输出“不是””、示例文本“示例文本序列:表格A中第23列和表格B中第37列的混合数据序列为:|Hi|No|xx|no|Yes not often|。表格C中第12列和表格D中第7列的混合数据序列为:|Yao|Bechar|Tarragona|Sevastopo|Belfair|。表格E中第20列和表格F中第13列的混合数据序列为:|西北区域|A地区|Mr Kiss and Tell|Gentle Rogue|What Got You HereWon't Get You There: How Successful People Become Even More Successful?|示例结果序列:|不是|是|不是|。”和3个待处理文本“表格G中第7列和表格H中第9列的混合数据序列为:|ETH|IBA|TTO|IBY|BGD|。”、“表格I中第11列和表格J中第33列的混合数据序列为:|DNK|ISR|LES|BFA|NOR|。”和“表格K中第2列和表格L中第41列的混合数据序列为:|BEN|BAN|ABW|UKR|SMR|。”,拼接得到提示文本:“指示文本:如果以下两个数据序列来自同一数据源,则输出“是”,否则输出“不是”。示例文本:示例文本序列:表格A中第23列和表格B中第37列的混合数据序列为:|Hi|No|xx|no|Yes not often|。表格C中第12列和表格D中第7列的混合数据序列为:|Yao|Bechar|Tarragona|Sevastopo|Belfair|。表格E中第20列和表格F中第13列的混合数据序列为:|西北区域|A地区|Mr Kiss and Tell|Gentle Rogue|WhatGot You Here Won't Get You There: How Successful People Become Even MoreSuccessful?|示例结果序列:|不是|是|不是|。待处理文本:表格G中第7列和表格H中第9列的混合数据序列为:|ETH|IBA|TTO|IBY|BGD|。表格G中第7列和表格H中第9列的混合数据序列为:|DNK|ISR|LES|BFA|NOR|。表格G中第7列和表格H中第9列的混合数据序列为:|BAN|ABW|UKR|SMR|。”。
根据指示文本、示例文本和多个待处理文本,构建提示文本,构建得到多个角度的提示文本,为后续文本处理模型通过多个不同角度认知并执行目标处理任务奠定了文本数据基础,构建包含多个待处理文本、多个参考文本和对应的参考结果的一个提示文本,降低了提示文本的构建成本。
步骤108:利用预先训练的文本处理模型,对提示文本执行目标处理任务,获得文本处理结果。
文本处理模型为具有文本处理功能的神经网络模型,文本处理模型基于输入的提示文本,理解并执行目标处理任务,得到文本处理结果。文本处理模型包括但不限于:生成式神经网络模型和变换式神经网络模型。在文本处理模型的模型规模达到一定大小的情况下,认定为一种大规模语言模型。本说明书实施例中以生成式的大规模语言模型为例进行说明。文本处理结果为文本处理模型执行文本处理任务,对应于待处理对象的执行结果,是文本处理模型的输出数据。例如,对于上述的翻译任务,文本处理结果为“翻译结果为:激情”,又例如,对于上述的排序任务,文本处理结果为“排序结果为:(347,762,888,907,1044)”。
利用预先训练的文本处理模型,对提示文本执行目标处理任务,获得文本处理结果,具体方式为:将提示文本输入预先训练的文本处理模型,执行目标处理任务,获得文本处理结果。需要说明的是,文本处理模型可以部署在客户端或者服务端,在此情况下,直接输入,也可以部署应用程序编程接口在客户端或者服务端,在此情况下,调用应用程序编程接口进行输入。
综上,步骤102至步骤106可以认为是一种利用文本处理模型执行目标处理任务的前置技术方案,即一种提示文本构建的技术方案。
示例性地,将上述提示文本输入预先训练的生成式大规模语言模型,执行数据湖中数据序列的关系识别任务,获得文本处理结果:“是”。
本说明书实施例中,获取指示文本、多个待处理文本、多个参考文本和对应的参考结果,其中,多个待处理文本包括针对目标处理任务的不同自然语言描述信息;基于多个参考文本和对应的参考结果,构建示例文本;根据指示文本、示例文本和多个待处理文本,构建提示文本;利用预先训练的文本处理模型,对提示文本执行目标处理任务,获得文本处理结果。根据多个待处理文本,以及包含多个参考文本和对应的参考结果的示例文本,构建得到多个角度的提示文本,利用文本处理模型,对多个角度的提示文本执行目标处理任务,使得文本处理模型通过多个不同角度认知目标处理任务,进行了融合判断,消除了文本处理模型的认知偏差,提升了文本处理结果的准确度,同时,构建包含多个待处理文本、多个参考文本和对应的参考结果的一个提示文本,来执行多个角度的目标处理任务,降低了文本处理的成本。
本说明书一种可选实施例中,步骤108包括如下具体步骤:利用预先训练的文本处理模型,对提示文本执行目标处理任务,获得多个待处理文本对应的结果序列;对结果序列进行解析,获得文本处理结果。
由于提示文本中包含多个待处理文本,是为了使得文本处理模型通过多个不同角度理解目标处理任务,因而,会在其中一个或多个角度出现理解偏差,如果直接输出,会得到准确度不足的文本处理结果。在此情况下,可以在对文本处理模型的输出进行解析后,获得准确度更高的文本处理结果。
多个待处理文本对应的结果序列为多个结果内容组成的序列,其中,结果内容与各待处文本对应,为文本处理模型的直接输出,例如,对于翻译任务,4个待处理任务为:“待翻译的词语为:enthusiasm”、 “英文单词为:enthusiasm”、“英文词汇为:enthusiasm”和“待翻译文本为:enthusiasm”,对应的结果内容为“翻译结果为:激情”、“翻译结果为:激情”、“翻译结果为:激情”和“翻译结果为:热度”,结果序列为:“翻译结果为:激情”;“翻译结果为:激情”;“翻译结果为:激情”;“翻译结果为:热度”。
利用预先训练的文本处理模型,对提示文本执行目标处理任务,获得多个待处理文本对应的结果序列,具体方式为,将提示文本输入预先训练的文本处理模型,执行目标处理任务,获得多个待处理文本对应的结果内容组成的结果序列。对结果序列进行解析,获得文本处理结果,具体方式为:对结果序列的序列特征进行解析,获得文本处理结果。其中,序列特征包括序列中各元素的分布信息,序列长度,序列中各元素之间的差异度等。
示例性地,将上述提示文本输入预先训练的生成式大规模语言模型,执行数据湖中数据序列的关系识别任务,获得3个待处理文本对应的结果内容组成的结果序列:“是;不是;是”,对结果序列中3个结果内容的分布信息进行解析,获得文本处理结果:“是”。
本说明书实施例中,利用预先训练的文本处理模型,对提示文本执行目标处理任务,获得多个待处理文本对应的结果序列,对结果序列进行解析,获得文本处理结果,降低了不同角度的提示文本带来的不同角度的理解偏差,进一步提升了文本处理结果的准确度。
本说明书一种可选实施例中,其中,结果序列包括多个结果内容;
对应地,对结果序列进行解析,获得文本处理结果,包括如下具体步骤:统计结果序列中多个结果内容的分布信息,确定文本处理结果。
多个结果内容的分布信息为多个结果内容的数量分布信息,例如,对于翻译任务,4个待处理任务为:“待翻译的词语为:enthusiasm”、 “英文单词为:enthusiasm”、“英文词汇为:enthusiasm”和“待翻译文本为:enthusiasm”,对应的结果序列为:“翻译结果为:激情”;“翻译结果为:激情”;“翻译结果为:激情”;“翻译结果为:热度”,4个结果内容的分布信息为:“翻译结果为:激情”数量为3个,“翻译结果为:热度”数量为1个。
统计结果序列中多个结果内容的分布信息,确定文本处理结果,具体方式为:统计结果序列中多个结果内容的分布信息,确定数量最多的结果内容为文本处理结果。
示例性地,3个待处理文本对应的结果内容组成的结果序列:“是;不是;是”,统计结果序列中3个结果内容的分布信息:“是”数量为2个,“不是”数量为1个,确定数量最多的结果内容“是”为文本处理结果。
本说明书实施例中,统计结果序列中多个结果内容的分布信息,确定文本处理结果,更有效地降低了不同角度的提示文本带来的不同角度的理解偏差,进一步提升了文本处理结果的准确度。
本说明书一种可选实施例中,步骤104包括如下具体步骤:基于多个参考文本,构建预设长度的示例文本序列,并基于多个参考文本对应的参考结果,构建预设长度的示例结果序列;
基于示例文本序列和示例结果序列,构建示例文本。
示例文本序列为至少一个参考文本组成的文本序列,例如,对于翻译任务,3个参考文本(“cat”、“dog”和“fish”)组成示例文本序列:“cat”;“dog”;“fish”。示例结果序列为至少一个参考结果组成的结果序列,例如,3个参考结果(“猫”、“狗”和“鱼”)组成示例结果序列:“猫”;“狗”;“鱼”。由于参考文本和参考结果为对应的,构建预设长度的示例文本序列和示例结果序列,保证后续构建得到的提示文本可以被文本处理模型正确理解,进一步避免出现理解偏差。示例文本序列和示例结果序列的预设长度可以一致,也可以不一致,在此不作限定。其中,可以将多个参考文本都用于构建示例文本序列,也可以从多个参考文本中选择至少一个参考文本用于构建示例文本序列,示例结果序列同理。
基于多个参考文本,构建预设长度的示例文本序列,并基于多个参考文本对应的参考结果,构建预设长度的示例结果序列,具体方式为:基于多个参考文本,拼接得到预设长度的示例文本序列,并基于多个参考文本对应的参考结果,拼接得到预设长度的示例结果序列。基于示例文本序列和示例结果序列,构建示例文本,具体方式为:基于示例文本序列和示例结果序列,生成包括针对目标处理任务的不同自然语言描述信息的示例文本。示例文本与待处理文本在自然语言描述上对应,可以更为有效地降低文本处理模型对于目标处理任务的理解偏差。
示例性地,预设长度为5,基于8张数据表格中各数据序列(包括表格A中第23列,表格B中第37列,表格C中第12列,表格D中第7列,表格E中第20列,表格F中第13列),拼接得到示例文本序列:“|Hi|No|xx|no|Yes not often|”、“|Yao|Bechar|Tarragona|Sevastopo|Belfair|”和“|西北区域|A地区|Mr Kiss and Tell|Gentle Rogue|What Got You HereWon't Get You There: How Successful People Become Even More Successful?|”,并基于各数据序列对应的数据关系,拼接得到示例结果序列:不是|是|不是,基于上述示例文本序列和示例结果序列,生成包括针对目标处理任务的不同自然语言描述信息的示例文本:“示例文本序列:表格A中第23列和表格B中第37列的混合数据序列为:|Hi|No|xx|no|Yes not often|。表格C中第12列和表格D中第7列的混合数据序列为:|Yao|Bechar|Tarragona|Sevastopo|Belfair|。表格E中第20列和表格F中第13列的混合数据序列为:|西北区域|A地区|Mr Kiss and Tell|Gentle Rogue|What Got You Here Won't Get YouThere: How Successful People Become Even More Successful?|示例结果序列:|不是|是|不是|。”和3个待处理文本“表格G中第7列和表格H中第9列的混合数据序列为:|ETH|IBA|TTO|IBY|BGD|。”、“表格G中第7列和表格H中第9列的混合数据序列为:|DNK|ISR|LES|BFA|NOR|。”和“表格G中第7列和表格H中第9列的混合数据序列为:|BAN|ABW|UKR|SMR|。”。
本说明书实施例中,保证后续构建得到的提示文本可以被文本处理模型正确理解,进一步避免出现理解偏差,进一步提升了文本处理结果的准确度。
本说明书一种可选实施例中,基于多个参考文本,构建预设长度的示例文本序列,并基于多个参考文本对应的参考结果,构建预设长度的示例结果序列,包括如下具体步骤:从多个参考文本中提取预设数目的参考文本,构建预设长度的示例文本序列;从多个参考文本对应的参考结果中确定预设数目的参考文本对应的参考结果,构建预设长度的示例结果序列。
目前,提示文本中只包含一个示例文本,且示例文本都是一个参考文本和一个对应的参考结果组成的。这样的示例文本只能让文本处理模型从单一角度来完成目标处理任务,在文本处理模型对目标处理任务存在认知偏差的情况下,导致利用文本处理模型,对提示文本执行目标处理任务,影响文本处理结果的准确度。本说明书实施例中,示例文本为M个,任一示例文本中包含一个预设长度的示例文本序列和一个预设长度的示例结果序列,一个示例文本序列由N1个参考文本组成,一个示例结果序列由 N2个参考结果组成。即:将多个示例文本序列视为一个 参考文本,将多个示例结果序列视为一个参考结果。在步骤102获取到的参考文本和参考结果分布,可以让文本处理模型从多种角度理解目标处理任务,并融合处理待处理对象,同时,这种构建示例文本的方式,可以让文本处理模型针对多个待处理文本输出对应的结果内容,实现结果集成。
在参考文本和参考结果数目较大的情况下,如果直接将全部的参考文本和参考结果都用于构建提示文本,增加了提示文本的数据量,增加了构建成本,且不符合文本处理模型的输入数据量限制,可以对其进行提取后再构建示例文本序列和示例结果序列,降低提示文本的构建成本,保证文本处理的可行性。例如,重复调用N次,则占用的文本特征向量(tokens)为N*指示文本+ N*示例文本+ N*待处理文本,增加了成本,降低了处理效率。我们的方案通过共享指示文本,使用了1*指示文本+ N*示例文本+ N*待处理文本、由此可以看出N次重复调用节省了N-1个指示文本的文本特征向量(tokens),降低了成本,提升了处理效率。
预设数目为预先设定的提取数目,由于示例文本序列和示例结果序列的预设长度是确定的,预设数目直接决定了预设长度,因而预设数据与预设长度对应。示例文本序列和示例结果序列的预设长度可以一致,也可以不一致,因而,提取参考文本的预设数目和提取参考结果的预设数目可以一致,也可以不一致。
从多个参考文本中提取预设数目的参考文本,构建预设长度的示例文本序列,具体方式为:从多个参考文本中提取预设数目的参考文本,拼接得到预设长度的示例文本序列。从多个参考文本对应的参考结果中确定预设数目的参考文本对应的参考结果,构建预设长度的示例结果序列,具体方式为:从多个参考文本对应的参考结果中确定预设数目的参考文本对应的参考结果,拼接得到预设长度的示例结果序列。
示例性地,从8张数据表格中各数据序列中提取5个的数据序列,拼接得到3个长度为5的2个示例文本序列:“|Hi|No|xx|no|Yes not often|”、“|Yao|Bechar|Tarragona|Sevastopo|Belfair|”和“|西北区域|A地区|Mr Kiss and Tell|Gentle Rogue|What GotYou Here Won't Get You There: How Successful People Become Even MoreSuccessful?|”,从8张数据表格中各数据序列对应的数据关系确定1个数据关系,拼接得到预设长度的3个示例结果序列:不是|是|不是。
本说明书实施例中,通过提取预设数目的参考文本和参考结果,来构建预设长度的示例文本序列和示例结果序列,得到示例文本,降低提示文本的构建成本,提升了处理效率,保证文本处理的可行性,同时,预设数目的参考文本和参考结果,使得示例文本序列和示例结果序列包含了更多的示例内容,进而构建出不同角度的示例文本,得到不同角度的提示文本,可以让文本处理模型从多种角度理解目标处理任务,并融合处理待处理对象,实现了结果集成,从更多角度理解目标处理任务,提升了文本处理结果的准确度。
本说明书一种可选实施例中,步骤104包括如下具体步骤:基于多个参考文本和对应的参考结果,构建第一预设数目的示例文本;对应地,步骤106包括如下具体步骤:从多个待处理文本中提取得到第二预设数目的待处理文本;将指示文本、第一预设数目的示例文本和第二预设数目的待处理文本进行拼接,获得提示文本。
目前,构建一个包含一组参考文本和参考结果的示例文本,再基于一套指示文本、示例文本和待处理文本,构建提示文本。利用文本处理模型,对这样的提示文本执行目标处理任务,由于文本处理模型可能存在理解偏差,文本处理结果存在一定的随机性,文本处理结果的准确度不足。因而,在一个提示文本中包含多套指示文本,示例文本和待处理文本,这样的提示文本不仅仅是将多套提示文本并行输入文本处理模型,并且,让文本处理模型学习到了各提示文本之间的关联,从多个角度理解目标处理任务。文本处理模型执行目标处理任务是基于输入的提示文本,在提示文本包含多套提示文本的情况下,实现融合理解多套提示文本,让文本处理模型从多个角度理解目标处理任务的同时,更深入理解了目标处理任务。
基于多个参考文本和对应的参考结果,构建第一预设数目的示例文本,具体方式为:基于多个参考文本和对应的参考结果,构建第一预设数目的示例文本序列和对应的示例结果序列,基于第一预设数目的示例文本序列和对应的示例结果序列,构建第一预设数目的示例文本。
示例性地,预设数目为3,基于8张数据表格中各数据序列(包括表格A中第23列,表格B中第37列,表格C中第12列,表格D中第7列,表格E中第20列,表格F中第13列),拼接得到3个示例文本序列:“|Hi|No|xx|no|Yes not often|”、“|Yao|Bechar|Tarragona|Sevastopo|Belfair|”和“|西北区域|A地区|Mr Kiss and Tell|Gentle Rogue|What Got You HereWon't Get You There: How Successful People Become Even More Successful?|”,并基于各数据序列对应的数据关系,拼接得到3个示例结果序列:|不是|是|不是|,基于上述3组示例文本序列和示例结果序列,生成包括针对目标处理任务的不同自然语言描述信息的3个示例文本:“示例文本序列:表格A中第23列和表格B中第37列的混合数据序列为:|Hi|No|xx|no|Yes not often|。表格C中第12列和表格D中第7列的混合数据序列为:|Yao|Bechar|Tarragona|Sevastopo|Belfair|。表格E中第20列和表格F中第13列的混合数据序列为:|西北区域|A地区|Mr Kiss and Tell|Gentle Rogue|What Got You Here Won't Get YouThere: How Successful People Become Even More Successful?|示例结果序列:|不是|是|不是|。”和3个待处理文本“表格G中第7列和表格H中第9列的混合数据序列为:|ETH|IBA|TTO|IBY|BGD|。”、“表格I中第11列和表格J中第33列的混合数据序列为:|DNK|ISR|LES|BFA|NOR|。”和“表格K中第2列和表格L中第41列的混合数据序列为:|BEN|BAN|ABW|UKR|SMR|。” 从多个待处理文本中提取得到3个待处理文本,将指示文本、3个示例文本和3个待处理文本进行拼接,获得提示文本:“指示文本:如果以下两个数据序列来自同一数据源,则输出“是”,否则输出“不是”。示例文本:示例文本序列:表格A中第23列和表格B中第37列的混合数据序列为:|Hi|No|xx|no|Yes not often|。表格C中第12列和表格D中第7列的混合数据序列为:|Yao|Bechar|Tarragona|Sevastopo|Belfair|。表格E中第20列和表格F中第13列的混合数据序列为:|西北区域|A地区|Mr Kiss and Tell|Gentle Rogue|What Got YouHere Won't Get You There: How Successful People Become Even More Successful?|示例结果序列:|不是|是|不是|。待处理文本:表格G中第7列和表格H中第9列的混合数据序列为:|ETH|IBA|TTO|IBY|BGD|。表格G中第7列和表格H中第9列的混合数据序列为:|DNK|ISR|LES|BFA|NOR|。表格G中第7列和表格H中第9列的混合数据序列为:|BAN|ABW|UKR|SMR|。”。
本说明书实施例中,融合理解多套提示文本,让文本处理模型从多个角度理解目标处理任务的同时,更深入理解了目标处理任务,进一步提升了文本处理结果的准确度。
本说明书一种可选实施例中,步骤102中获取多个待处理文本,包括如下具体步骤:获取目标处理任务;确定针对目标处理任务的至少一个自然语言描述词;基于至少一个自然语言描述词,构建多个待处理文本。
自然语言描述词为组成待处理文本的自然语言词语,包括:待处理对象的自然语言描述词和待处理对象相关信息的自然语言描述词,用于描述目标处理任务的待处理对象。例如,对于翻译任务,自然语言描述词包括:待翻译对象的自然语言描述词(enthusiasm)和待翻译对象相关信息的自然语言描述词(待翻译词汇为:)。
确定针对目标处理任务的至少一个自然语言描述词,具体方式为:根据目标处理任务的待处理对象,确定针对目标处理任务的至少一个自然语言描述词。基于至少一个自然语言描述词,构建多个待处理文本,具体方式为:基于至少一个自然语言描述词,生成多个待处理文本。
示例性地,获取目标处理任务,其中,目标处理任务为数据湖中数据序列的关系识别任务,根据关系识别任务的待处理对象:8张数据湖的数据表格中数据,从数据表格各数据序列中确定针对关系识别的15个数据。基于15个自然语言描述词,生成3个待处理文本:“表格G中第7列和表格H中第9列的混合数据序列为:|ETH|IBA|TTO|IBY|BGD|。”、“表格G中第7列和表格H中第9列的混合数据序列为:|DNK|ISR|LES|BFA|NOR|。”和“表格G中第7列和表格H中第9列的混合数据序列为:|BEN|BAN|ABW|UKR|SMR|。”。
本说明书实施例中,得到了更详细描述目标处理任务的待处理文本,使得文本处理模型从多个不同角度理解目标处理任务,提升了文本处理模型对目标处理任务的理解,得到准确度更高的文本处理结果。
本说明书一种可选实施例中,确定针对目标处理任务的至少一个自然语言描述词,包括如下具体步骤:获得目标处理任务对应的自然语言描述词表;从自然语言描述词表中,随机采样得到针对目标处理任务的至少一个自然语言描述词。
一般地,在待处理对象数量较大,对应的自然语言描述词数量较大的情况下,若将全部的自然语言描述词都用于待处理文本的一次构建,待处理文本的数据量较大,增加了提示文本的数据量,增加了构建成本,且不符合文本处理模型的输入数据量限制,需要自然语言描述词进行随机采样。例如,待处理对象为数据表,数据表包含大量的数据,需要对数据进行随机采样后,再构建待处理文本。
自然语言描述表为用于组成待处理文本的自然语言描述词的样本表,例如,对于数据表的数据序列之间的关系识别任务,自然语言描述词为数据表中的数据,自然语言描述表为该数据表。又例如,对于翻译任务,自然语言描述词表包括:待翻译文本、待翻译词汇、英文单词、英文词汇,随机采样至少一个自然语言描述词,生成待处理文本。
示例性地,获取目标处理任务对应的数据表:8张数据湖的数据表格,从8张数据表格各数据序列中随机采样得到针对目标处理任务的15个数据:ETH、IBA、TTO、IBY、BGD、DNK、ISR、LES、BFA、NOR、BEN、BAN、ABW、UKR和SMR。
本说明书实施例中,获得目标处理任务对应的自然语言描述词表,从自然语言描述词表中,随机采样得到针对目标处理任务的至少一个自然语言描述词,提升了文本处理的可行性。
本说明书一种可选实施例中,基于至少一个自然语言描述词,构建多个待处理文本,包括如下具体步骤:基于至少一个自然语言描述词,采用多种文本生成规则,生成多个待处理文本。
文本生成规则为预先确定的生成待处理文本的自然语言规则,包括但不限于:词法规则、句法规则和数据采样规则。例如,对于关系识别任务,采用2种数据采样规则(从前往后顺序采样和从后往前逆序采样),从数据序列A和数据序列B采样得到2组各5个数据:|ETH|IBA|TTO|IBY|BGD|和|DNK|ISR|LES|BFA|NOR|,生成2个待处理文本:表格G中第7列和表格H中第9列的混合数据序列为:|ETH|IBA|TTO|IBY|BGD|。表格G中第7列和表格H中第9列的总计有:|DNK|ISR|LES|BFA|NOR|。又例如,对于翻译任务,采样2种词法规则,生成2个待处理文本:英文单词为:enthusiasm;待翻译的词语为:enthusiasm。
基于至少一个自然语言描述词,采用多种文本生成规则,生成多个待处理文本,可以为直接利用文本处理模型,基于多种文本生成规则生成,也可以为人工生成,还可以为基于多种文本生成规则对应的文本生成模板生成,在此不作限定。需要说明的是,采用多种文本生成规则生成多个待处理文本,相当于对一个待处理文本进行了多种方式的构建。
示例性地,基于针对目标处理任务的15个数据:ETH、IBA、TTO、IBY、BGD、DNK、ISR、LES、BFA、NOR、BEN、BAN、ABW、UKR和SMR,采用3种文本生成规则,生成3个待处理文本:表格G中第7列和表格H中第9列的混合数据序列为:|ETH|IBA|TTO|IBY|BGD|。表格G中第7列和表格H中第9列的总计有:|DNK|ISR|LES|BFA|NOR|。表格G中第7列和表格H中第9列的数据含有:|BEN|BAN|ABW|UKR|SMR|。
本说明书实施例中,进一步得到了更丰富文本规则的待处理文本,使得文本处理模型从多个不同角度理解目标处理任务,进一步提升了文本处理模型对目标处理任务的理解,得到准确度更高的文本处理结果。
本说明书一种可选实施例中,在步骤106之后,还包括如下具体步骤:将提示文本发送至用户,以供用户对提示文本进行后处理。
后处理为对提示文本进一步的操作处理。后处理为对提示文本的文本内容进行更新处理,包括:修改处理和扩充处理。
示例性地,提示文本为:“指示文本:将以下数据按照从小到大的顺序排序。示例文本:待排序的数组为:(4,3,2,1,5),排序结果为:(1,2,3,4,5)。待处理文本:数组为:(1044,347,762,888,907)”,将该提示文本发送至用户,用户对提示文本进行修改处理,将“将以下数据按照从小到大的顺序排序”修改为“将以下数据按照从大到小的顺序排序”,得到后处理的提示文本:“指示文本:将以下数据按照从大到小的顺序排序。示例文本:待排序的数组为:(4,3,2,1,5),排序结果为:(1,2,3,4,5)。待处理文本:数组为:(1044,347,762,888,907)”,或者,对待处理文本中的数组进行扩充,得到后处理的提示文本:“指示文本:将以下数据按照从大到小的顺序排序。示例文本:待排序的数组为:(4,3,2,1,5),排序结果为:(1,2,3,4,5)。待处理文本:数组为:(1044,347,762,888,907,1020,1044)”。
本说明书实施例中,将提示文本发送至用户,以供用户对提示文本进行后处理。提升了文本处理方法的处理灵活性,更适应于用户的处理需求,提升了用户体验。
本说明书一种可选实施例中,在步骤106之后,还包括如下具体步骤:基于预设的场景信息,对提示文本进行分类;相应地,步骤106包括如下具体步骤:基于目标场景信息,获取目标场景信息对应类型的目标提示文本;利用预先训练的文本处理模型,对目标提示文本执行所述目标处理任务,获得文本处理结果。
预设的场景信息为预先设定的针对不同类型处理任务的任务场景信息。例如,预设的场景信息1为关系识别场景,预设的场景信息2为翻译场景,预设的场景信息为排序场景。一个使用场景下对应有至少一种提示文本,可以直接基于该场景确定对应的提示文本。目标场景信息为对应于目标处理任务的场景信息。目标提示文本为对应于目标场景信息的处理任务类型的提示文本。例如,目标场景信息为翻译场景,目标提示文本为:“指示文本:将以下文本翻译为中文。示例文本:待翻译的词语为:……,翻译结果为:……。待处理文本:待翻译的词语为:……”。可以理解,这里的获取目标提示文本用提示文本模板生成的。
基于预设的场景信息,对提示文本进行分类,具体方式为:基于预设的场景信息,对提示文本进行分类,确定分类后的提示文本对应的提示文本模板。其中,确定提示文本模板可以是利用预先设置的文本模板提取算法提取得到的,也可以为利用神经网络模型学习到的,在此不作限定。基于目标场景信息,获取目标场景信息对应类型的目标提示文本,具体方式为:基于目标场景信息,确定目标场景信息对应类型的提示文本模板,根据提示文本模板,生成目标提示文本。其中,根据提示文本模板,生成目标提示文本,可以为用模板填充的方式生成的,也可以为利用预先设置的文本生成算法生成的,例如,具有文本生成功能的神经网络模型生成的。
示例性地,基于预设的5种场景信息(翻译场景、排序场景、数据查询场景、商品推荐场景和关系识别场景),对提示文本进行分类,确定分类后的提示文本对应的提示文本模板:翻译场景模板、排序场景模板、数据查询场景模板、商品推荐场景模板和关系识别场景模板,用户选择了目标场景为一种商品推荐场景,基于商品推荐场景,确定商品推荐场景对应类型的商品推荐场景模板,根据商品推荐场景模板,生成目标提示文本。
本说明书实施例中,避免了每次进行文本处理都要重新生成提示文本,提升了提示文本的生成效率,提升了文本处理的效率,提升了用户体验。
参见图2,图2示出了本说明书一个实施例提供的一种数据查询方法的流程图,包括如下具体步骤:
步骤202:获取指示文本、多个待处理文本、多个参考数据序列、多个参考查询语句和对应的参考数据关系,其中,多个待处理文本包括针对目标查询任务的不同目标数据;
步骤204:基于多个参考数据序列、多个参考查询语句和对应的参考数据关系,构建示例文本;
步骤206:根据指示文本、示例文本和多个待处理文本,构建数据查询提示文本;
步骤208:利用预先训练的数据查询模型,对数据查询提示文本执行目标查询任务,得到目标数据对应的查询语句,其中,查询语句用于查询目标数据。
本说明书实施例应用于具有提示文本构建和数据查询功能的应用、网页或者小程序的客户端或者服务端。该客户端或者服务端上部署有数据查询模型或者数据查询模型的应用程序编程接口(API,Application Programming Interface)。
在数据查询任务中,需要人工编写大量的查询语句,对目标数据进行查询,基于本说明书实施例辅助生成查询语句,用于直接查询,提升了数据查询效率。
目标查询任务为利用自然语言实现的数据查询任务,通过自然语言确定初始数据序列对应的查询语句,完成对目标数据的查询。数据查询模型为具有查询语句确定功能的神经网络模型。目标数据信息为查询索引,包括:目标数据的存储位置、目标数据的字段名和目标数据的查询条件等。查询语句为一种数据查询的编程语句。目标数据为查询结果,为存储在数据库中数据表的数据序列。例如,提示文本为“指示文本:从目标表格中获取目标字段的数据序列。示例文本:目标字段为:222;目标字段为:333;目标字段为:444;目标表格为:Table_B;目标表格为:Table_C;目标表格为:Table_D;查询语句为:Select 222 fromTable_B;查询语句为:Select 333 from Table_C;查询语句为:Select 444 from Table_D。待处理文本为:从A表格中获取字段名为111的数据序列,从数据表A中获取关键字为111的数据序列,从数据表A中获取字段111的数据序列”,获得的查询语句为“Select 111 fromTable_A”。
本说明书实施例与上述图1实施例出于同一发明构思,步骤202至步骤208的具体方式参见上述步骤102至步骤108,在此不再赘述。
本说明书实施例中,获取指示文本、多个待处理文本、多个参考数据序列、多个参考查询语句和对应的参考数据关系,其中,多个待处理文本包括针对目标查询任务的不同目标数据;基于多个参考数据序列、多个参考查询语句和对应的参考数据关系,构建示例文本;根据指示文本、示例文本和多个待处理文本,构建数据查询提示文本;利用预先训练的数据查询模型,对提示文本执行目标查询任务,得到目标数据对应的查询语句,其中,查询语句用于查询目标数据。根据多个待处理文本,以及包含多个参考数据序列、多个参考查询语句和对应的参考数据关系的示例文本,构建得到多个角度的数据查询提示文本,利用数据查询模型,对多个角度的数据查询提示文本执行目标查询任务,使得数据查询模型通过多个不同角度认知目标查询任务,进行了融合判断,消除了数据查询模型的认知偏差,提升了目标数据对应的查询语句的准确度,进而提升了数据查询的准确度和效率,同时,构建包含多个待处理文本、多个参考数据序列、多个参考查询语句和对应的参考数据关系的一个数据查询提示文本,来执行多个角度的目标查询任务,降低了数据查询的成本。
本说明书一种可选实施例中,步骤202包括如下具体步骤:接收用户发送的数据查询请求,其中,数据查询请求包括针对目标查询任务的初始待处理文本;根据初始待处理文本,生成对应的指示文本和多个待处理文本,并获取多个参考数据序列、多个参考查询语句和对应的参考数据关系;相应地,在步骤208之后,还包括如下具体步骤:根据查询语句,从数据库中查询得到目标数据;将目标数据反馈至用户。
数据查询请求为目标查询任务对应的指令请求。初始待处理文本为针对目标查询任务,在一种特定文本生成规则下的待处理文本,为用户直接输入的待处理文本。
根据初始待处理文本,生成对应的指示文本和多个待处理文本,具体方式为:确定初始待处理文本对应的目标查询任务,根据目标查询任务,利用文本生成算法,生成对应的指示文本和多个待处理文本。其中,文本生成算法可以是文本处理模型的文本生成功能模组,也可以为预设的多种文本生成规则对应的文本生成模板,在此不作限定。根据初始待处理文本,获取多个参考数据序列、多个参考查询语句和对应的参考数据关系,具体方式为:确定初始待处理文本对应的目标查询任务,获取预先存储的目标查询任务对应的多个数据序列、多个查询语句和对应的数据关系,确定为参考数据序列、参考查询语句和对应的参考数据关系。预先存储的目标查询任务对应的多个数据序列、多个查询语句和对应的数据关系,可以为人为选择设置的,也可以为历史数据,在此不作限定。根据查询语句,从数据库中查询得到目标数据,具体方式为:运行查询语句,从数据库中查询得到目标数据。
示例性地,用户在客户端上直接输入针对目标查询任务的初始待处理文本:“查询数据表A中叫111的数据序列”。确定初始待处理文本对应的目标查询任务,根据目标查询任务,利用文本生成算法,生成对应的指示文本“从目标表格中获取目标字段的数据序列”和3个待处理文本“从A表格中获取字段名为111的数据序列”,“从数据表A中获取关键字为111的数据序列”和“从数据表A中获取字段111的数据序列”。确定初始待处理文本对应的目标查询任务,获取预先存储的目标查询任务对应的3对数据序列(“222”、“333”和“444”,“Table_B”、“Table_C”和“Table_D”)、3个查询语句(Select 222 from Table_B、Select333 from Table_C和Select 444 from Table_D)和对应的数据关系,确定为参考数据序列、参考查询语句和对应的参考数据关系。确定查询语句为“Select 111 from Table_A”,运行查询语句,从表格数据库中查询得到字段名为111的目标数据:“|11102|11107|11127|”。具体参见下述图5的前端示意图。
本说明书实施例中,响应于用户的查询请求,在初始待处理文本的基础上,自动构建得到目标查询任务对应的目标提示文本,确定了查询语句后自动完成数据查询,降低了数据查询的难度,提升了数据查询的效率和适用性,提升了用户体验。
图3示出了本说明书一个实施例提供的一种文本处理方法的流程示意图,如图3所示:
文本处理方法的流程如下:开始,从多个参考文本中提取N个参考文本,构建示例文本序列,从多个参考文本对应的参考结果中确定N个参考文本对应的参考结果,构建示例结果序列,基于示例文本序列和示例结果序列,构建示例文本,示例文本数量加一,判断示例文本数量是否小于M个,若是,返回执行从多个参考文本中提取N个参考文本,构建示例文本序列的步骤,若否,对于待处理文本采样N次,作为询问文本处理模型的待处理文本,对文本处理模型输出的待处理文本对应的结果序列进行解析,获得文本处理结果,结束。
图4示出了本说明书一个实施例提供的一种文本处理方法对应的文本处理平台的前端示意图,如图4所示:
在文本处理平台的前端界面中,包括对话区域、“+新建对话”控件、历史文本处理任务列表(历史文本处理任务1、历史文本处理任务2和历史文本处理任务3)、对话输入框、发送空间和取消控件。用户在对话输入框输入提示文本、多个待处理文本、多个参考文本和对应的参考结果,执行上述图1实施例中步骤102至步骤106,获得一个提示文本:“指示文本:如果以下两个数据序列来自同一数据源,则输出“是”,否则输出“不是”。示例文本:示例文本序列:表格A中第23列和表格B中第37列的混合数据序列为:|Hi|No|xx|no|Yes notoften|。表格C中第12列和表格D中第7列的混合数据序列为:|Yao|Bechar|Tarragona|Sevastopo|Belfair|。表格E中第20列和表格F中第13列的混合数据序列为:|西北区域|A地区|Mr Kiss and Tell|Gentle Rogue|What Got You Here Won't Get You There: HowSuccessful People Become Even More Successful?|示例结果序列:|不是|是|不是|。待处理文本:表格G中第7列和表格H中第9列的混合数据序列为:|ETH|IBA|TTO|IBY|BGD|。表格G中第7列和表格H中第9列的混合数据序列为:|DNK|ISR|LES|BFA|NOR|。表格G中第7列和表格H中第9列的混合数据序列为:|BEN|BAN|ABW|UKR|SMR|。”,用户点选发送控件,将该提示文本发送给文本处理平台上部署的文本处理模型,文本处理模型,对提示文本执行数据湖上数据序列的数据关系识别任务,获得对应的文本处理结果“是”,将该文本处理结果反馈给用户,上述一个提示文本和文本处理结果在对话区域中显示。
图5示出了本说明书一个实施例提供的一种数据查询方法对应的文本处理平台的前端示意图,如图5所示:
在文本处理平台的前端界面中,包括对话区域、“+新建对话”控件、历史文本处理任务列表(历史文本处理任务1、历史文本处理任务2和历史文本处理任务3)、对话输入框、发送空间和取消控件。用户在对话输入框输入初始待处理文本:“查询数据表A中叫111的数据序列”。执行上述图2实施例中步骤202至步骤206,获得一个提示文本,反馈给用户:“建议的提示文本如下:指示文本:从目标表格中获取目标字段的数据序列。示例文本:目标字段为:222;目标字段为:333;目标字段为:444;目标表格为:Table_B;目标表格为:Table_C;目标表格为:Table_D;查询语句为:Select 222 from Table_B;查询语句为:Select 333from Table_C;查询语句为:Select 444 from Table_D。待处理文本:从A表格中获取字段名为111的数据序列,从数据表A中获取关键字为111的数据序列,从数据表A中获取字段111的数据序列。”。用户输入该提示文本:“指示文本:从目标表格中获取目标字段的数据序列。示例文本:目标字段为:222;目标字段为:333;目标字段为:444;目标表格为:Table_B;目标表格为:Table_C;目标表格为:Table_D;查询语句为:Select 222 from Table_B;查询语句为:Select 333 from Table_C;查询语句为:Select 444 from Table_D。待处理文本:从A表格中获取字段名为111的数据序列,从数据表A中获取关键字为111的数据序列,从数据表A中获取字段111的数据序列。”。反馈查询语句:Select 111 from Table_A。用户输入:“运行该查询语句”。根据查询语句,从数据库中查询得到目标数据,将目标数据反馈至用户:“目标数据为:|11102|11107|11127|”。
下述结合附图6,以本说明书提供的文本处理方法在商品推荐的应用为例,对所述文本处理方法进行进一步说明。其中,图6示出了本说明书一个实施例提供的一种应用于商品推荐的文本处理方法的处理过程流程图,包括如下具体步骤:步骤602:获取指示文本,多个待处理文本,多个参考用户信息、多个参考商品信息和多个关联关系,其中,多个待处理文本包括针对目标推荐任务的不同用户信息和商品信息,关联关系为多个参考用户信息与多个参考商品信息之间的关联关系;步骤604:基于多个参考用户信息、多个参考商品信息和多个关联关系,构建示例文本;步骤606:根据指示文本、示例文本和多个待处理文本,构建提示文本;步骤608:利用预先训练的关系识别模型,对提示文本执行目标推荐任务,确定各用户信息对应的商品信息,并将各商品信息发送至对应的用户。
本说明书实施例应用于具有提示文本构建和商品推荐功能的应用、网页或者小程序的客户端或者服务端。该客户端或者服务端上部署有关系识别模型或者关系识别模型的应用程序编程接口(API,Application Programming Interface)。
参考用户信息为针对商品推荐任务的参考用户的用户信息,参考商品信息为针对商品推荐任务的参考商品的商品信息,参考用户信息和参考商品信息之间具有关联关系。用户信息为待推荐商品的目标用户的用户信息,商品信息为待推荐商品的商品信息。例如,参考用户信息为20岁大学生、25岁职场人士和18岁高中生,参考商品信息为电子产品A、电子产品B和电子产品C,两组信息之间具有关联关系,以此作为参考,构建示例文本,进而得到提示文本:“指示文本:为目标用户推荐目标商品。示例文本:20岁大学生和电子产品A之间是否有关联关系;25岁职场人士和电子产品B之间是否有关联关系;18岁大学生和电子产品C之间是否有关联关系,是;是;是。待处理文本为:一个24岁年轻人具有关联关系的商品有?”,让关系识别模型理解年轻人和电子产品之间具有关联关系,进而在执行商品推荐任务时,在用户信息为24岁年轻人的情况下,推荐电子产品。
本说明书实施例与上述图1实施例出于同一发明构思,步骤602至步骤608的具体方式参见上述步骤102至步骤108,在此不再赘述。
本说明书实施例中,根据多个待处理文本,以及包含多个参考用户信息、多个参考商品信息和多个关联关系的示例文本,构建得到多个角度的提示文本,利用关系识别模型,对多个角度的提示文本执行目标推荐任务,使得关系识别模型通过多个不同角度认知目标推荐任务,进行了融合判断,消除了关系识别模型的认知偏差,提升了确定各用户信息对应的商品信息的准确度,并准确地将各商品信息发送至对应的用户,提升了用户体验,同时,构建包含多个待处理文本、多个参考用户信息、多个参考商品信息和多个关联关系的一个提示文本,来执行多个角度的目标推荐任务,降低了商品推荐的成本。
下述结合附图7,以本说明书提供的文本处理方法在数据来源判断的应用为例,对所述文本处理方法进行进一步说明。其中,图7示出了本说明书一个实施例提供的一种应用于数据来源判断的文本处理方法的处理过程流程图,包括如下具体步骤:
步骤702:接收用户在文本识别平台的网页客户端上输入的一个初始待处理文本,其中,初始待处理文本包括目标数据。
本说明书实施例应用于具有提示文本构建和文本处理功能的网页服务端。该服务端上部署有文本处理模型。
步骤704:生成一个指示文本,并对初始待处理文本进行构建,得到多个待处理文本。
步骤706:根据目标数据,获取预先存储的多个数据序列和对应的数据来源关系。
步骤708:从多个数据序列中提取第一预设数目的数据,构建第二预设数目的示例数据序列。
步骤710:从多个数据来源关系中确定第一预设数目的数据对应的数据来源关系,构建第二预设数目的示例结果序列。
步骤712:基于第二预设数目的示例数据序列和第二预设数目的示例结果序列,构建第二预设数目的示例文本。
步骤714:从多个待处理文本中提取得到第一预设数目的待处理文本。
步骤716:将指示文本、第二预设数目的示例文本和第一预设数目的待处理文本进行拼接,获得一个提示文本。
步骤718:利用预先训练的文本处理模型,对该提示文本执行数据来源关系识别任务,获得第一预设数目的待处理文本对应的数据来源关系序列。
步骤720:统计数据来源关系序列中多个结果内容的分布信息,确定目标数据间的数据来源关系结果。
步骤722:将数据来源关系结果发送至文本识别平台的网页客户端。
本说明书实施例中,根据第一预设数目待处理文本,以及第二预设数目的包含多个数据序列和对应的数据来源关系的示例文本,构建得到多个角度的提示文本,利用文本处理模型,对多个角度的提示文本执行数据来源关系识别任务,使得文本处理模型通过多个不同角度认知数据来源关系识别任务,进行了融合判断,消除了文本处理模型的认知偏差,提升了数据来源判断结果的准确度,同时,构建包含多个待处理文本、多个参考文本和对应的参考结果的一个提示文本,来执行多个角度的数据来源判断结果,降低了成本,提升了效率。
与上述方法实施例相对应,本说明书还提供了文本处理装置实施例,图8示出了本说明书一个实施例提供的一种文本处理装置的结构示意图。如图8所示,该装置包括:
第一获取模块802,被配置为获取指示文本、多个待处理文本、多个参考文本和对应的参考结果,其中,多个待处理文本包括针对目标处理任务的不同自然语言描述信息;
第一示例文本构建模块804,被配置为基于多个参考文本和对应的参考结果,构建示例文本;第一提示文本构建模块806,被配置为根据指示文本、示例文本和多个待处理文本,构建提示文本;处理模块808,被配置为利用预先训练的文本处理模型,对提示文本执行目标处理任务,获得文本处理结果。
可选地,处理模块808被进一步配置为:利用预先训练的文本处理模型,对提示文本执行目标处理任务,获得多个待处理文本对应的结果序列;对结果序列进行解析,获得文本处理结果。
可选地,第一示例文本构建模块804被进一步配置为:基于多个参考文本,构建预设长度的示例文本序列,并基于多个参考文本对应的参考结果,构建预设长度的示例结果序列;基于示例文本序列和示例结果序列,构建示例文本。
可选地,第一示例文本构建模块804被进一步配置为:从多个参考文本中提取预设数目的参考文本,构建预设长度的示例文本序列;从多个参考文本对应的参考结果中确定预设数目的参考文本对应的参考结果,构建预设长度的示例结果序列。
可选地,第一示例文本构建模块804被进一步配置为:基于多个参考文本和对应的参考结果,构建第一预设数目的示例文本;对应地,第一提示文本构建模块806被进一步配置为:从多个待处理文本中提取得到第二预设数目的待处理文本;将指示文本、第一预设数目的示例文本和第二预设数目的待处理文本进行拼接,获得提示文本。
可选地,第一获取模块802被进一步配置为:获取目标处理任务;确定针对目标处理任务的至少一个自然语言描述词;基于至少一个自然语言描述词,构建多个待处理文本。
可选地,第一获取模块802被进一步配置为:获得目标处理任务对应的自然语言描述词表;从自然语言描述词表中,随机采样得到针对目标处理任务的至少一个自然语言描述词。
可选地,第一获取模块802被进一步配置为:基于至少一个自然语言描述词,采用多种文本生成规则,生成多个待处理文本。
可选地,该装置还包括:后处理模块,被配置为将提示文本发送至用户,以供用户对提示文本进行后处理。
可选地,该装置还包括:分类模块,被配置为基于预设的场景信息,对提示文本进行分类;
相应地,处理模块808被进一步配置为:基于目标场景信息,获取目标场景信息对应类型的目标提示文本;利用预先训练的文本处理模型,对目标提示文本执行目标处理任务,获得文本处理结果。
本说明书实施例中,根据多个待处理文本,以及包含多个参考文本和对应的参考结果的示例文本,构建得到多个角度的提示文本,利用文本处理模型,对多个角度的提示文本执行目标处理任务,使得文本处理模型通过多个不同角度认知目标处理任务,进行了融合判断,消除了文本处理模型的认知偏差,提升了文本处理结果的准确度,同时,构建包含多个待处理文本、多个参考文本和对应的参考结果的一个提示文本,来执行多个角度的目标处理任务,降低了文本处理的成本。
与上述方法实施例相对应,本说明书还提供了数据查询装置实施例,图9示出了本说明书一个实施例提供的一种数据查询装置的结构示意图。如图9所示,该装置包括:
第二获取模块902,被配置为获取指示文本、多个待处理文本、多个参考数据序列、多个参考查询语句和对应的参考数据关系,其中,多个待处理文本包括针对目标查询任务的不同目标数据;第二示例文本构建模块904,被配置为基于多个参考数据序列、多个参考查询语句和对应的参考数据关系,构建示例文本;第二提示文本构建模块906,被配置为根据指示文本、示例文本和多个待处理文本,构建数据查询提示文本;查询模块908,被配置为利用预先训练的数据查询模型,对数据查询提示文本执行目标查询任务,得到目标数据对应的查询语句,其中,查询语句用于查询目标数据。
可选地,接收用户发送的数据查询请求,其中,数据查询请求包括针对目标查询任务的初始待处理文本;根据初始待处理文本,生成对应的指示文本和多个待处理文本,并获取多个参考数据序列、多个参考查询语句和对应的参考数据关系;相应地,该装置还包括:数据查询模块,被配置为根据查询语句,从数据库中查询得到目标数据;将目标数据反馈至用户。
本说明书实施例中,根据多个待处理文本,以及包含多个参考数据序列、多个参考查询语句和对应的参考数据关系的示例文本,构建得到多个角度的数据查询提示文本,利用数据查询模型,对多个角度的数据查询提示文本执行目标查询任务,使得数据查询模型通过多个不同角度认知目标查询任务,进行了融合判断,消除了数据查询模型的认知偏差,提升了目标数据对应的查询语句的准确度,进而提升了数据查询的准确度和效率,同时,构建包含多个待处理文本、多个参考数据序列、多个参考查询语句和对应的参考数据关系的一个数据查询提示文本,来执行多个角度的目标查询任务,降低了数据查询的成本。
上述为本实施例的一种数据查询装置的示意性方案。需要说明的是,该数据查询装置的技术方案与上述的数据查询方法的技术方案属于同一构思,数据查询装置的技术方案未详细描述的细节内容,均可以参见上述数据查询方法的技术方案的描述。
图10示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备1000的部件包括但不限于存储器1010和处理器1020。处理器1020与存储器1010通过总线1030相连接,数据库1050用于保存数据。
计算设备1000还包括接入设备1040,接入设备1040使得计算设备1000能够经由一个或多个网络1060通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备1040可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterface controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)。
在本说明书的一个实施例中,计算设备1000的上述部件以及图10中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图10所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1000可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备1000还可以是移动式或静止式的服务器。
其中,处理器1020用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述文本处理方法或者数据查询方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本处理方法和数据查询方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本处理方法或者数据查询方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述文本处理方法或者数据查询方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本处理方法和数据查询方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本处理方法或者数据查询方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述文本处理方法或者数据查询方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的文本处理方法和数据查询方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述文本处理方法或者数据查询方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地区,根据专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (14)
1.一种文本处理方法,包括:
获取指示文本、多个待处理文本、多个参考文本和对应的参考结果,其中,所述多个待处理文本包括针对目标处理任务的不同自然语言描述信息;
基于所述多个参考文本和对应的参考结果,构建示例文本;
根据所述指示文本、所述示例文本和所述多个待处理文本,构建提示文本;
利用预先训练的文本处理模型,对所述提示文本执行所述目标处理任务,获得文本处理结果。
2.根据权利要求1所述的方法,所述利用预先训练的文本处理模型,对所述提示文本执行所述目标处理任务,获得文本处理结果,包括:
利用预先训练的文本处理模型,对所述提示文本执行所述目标处理任务,获得所述多个待处理文本对应的结果序列;
对所述结果序列进行解析,获得文本处理结果。
3.根据权利要求1或2所述的方法,所述基于所述多个参考文本和对应的参考结果,构建示例文本,包括:
基于所述多个参考文本,构建预设长度的示例文本序列,并基于所述多个参考文本对应的参考结果,构建所述预设长度的示例结果序列;
基于所述示例文本序列和所述示例结果序列,构建示例文本。
4.根据权利要求3所述的方法,所述基于所述多个参考文本,构建预设长度的示例文本序列,并基于所述多个参考文本对应的参考结果,构建所述预设长度的示例结果序列,包括:
从所述多个参考文本中提取预设数目的参考文本,构建预设长度的示例文本序列;
从所述多个参考文本对应的参考结果中确定所述预设数目的参考文本对应的参考结果,构建所述预设长度的示例结果序列。
5.根据权利要求1所述的方法,所述基于所述多个参考文本和对应的参考结果,构建示例文本,包括:
基于所述多个参考文本和对应的参考结果,构建第一预设数目的示例文本;
对应地,所述根据所述指示文本、所述示例文本和所述多个待处理文本,构建提示文本,包括:
从所述多个待处理文本中提取得到第二预设数目的待处理文本;
将所述指示文本、所述第一预设数目的示例文本和所述第二预设数目的待处理文本进行拼接,获得提示文本。
6.根据权利要求1所述的方法,所述获取多个待处理文本,包括:
获取目标处理任务;
确定针对所述目标处理任务的至少一个自然语言描述词;
基于所述至少一个自然语言描述词,构建多个待处理文本。
7.根据权利要求6所述的方法,所述确定针对所述目标处理任务的至少一个自然语言描述词,包括:
获得所述目标处理任务对应的自然语言描述词表;
从所述自然语言描述词表中,随机采样得到针对所述目标处理任务的至少一个自然语言描述词。
8.根据权利要求6或7所述的方法,所述基于所述至少一个自然语言描述词,构建多个待处理文本,包括:
基于所述至少一个自然语言描述词,采用多种文本生成规则,生成多个待处理文本。
9.根据权利要求1所述的方法,在所述根据所述指示文本、所述示例文本和所述多个待处理文本,构建提示文本之后,还包括:
将所述提示文本发送至用户,以供所述用户对所述提示文本进行后处理。
10.根据权利要求1所述的方法,在所述根据所述指示文本、所述示例文本和所述多个待处理文本,构建提示文本之后,还包括:
基于预设的场景信息,对所述提示文本进行分类;
所述利用预先训练的文本处理模型,对所述提示文本执行所述目标处理任务,获得文本处理结果,包括:
基于目标场景信息,获取所述目标场景信息对应类型的目标提示文本;
利用预先训练的文本处理模型,对所述目标提示文本执行所述目标处理任务,获得文本处理结果。
11.一种数据查询方法,包括:
获取指示文本、多个待处理文本、多个参考数据序列、多个参考查询语句和对应的参考数据关系,其中,所述多个待处理文本包括针对目标查询任务的不同目标数据;
基于所述多个参考数据序列、所述多个参考查询语句和对应的参考数据关系,构建示例文本;
根据所述指示文本、所述示例文本和所述多个待处理文本,构建数据查询提示文本;
利用预先训练的数据查询模型,对所述数据查询提示文本执行所述目标查询任务,得到所述目标数据对应的查询语句,其中,所述查询语句用于查询目标数据。
12.根据权利要求11所述的方法,所述获取指示文本、多个待处理文本、多个参考数据序列、多个参考查询语句和对应的参考数据关系,包括:
接收用户发送的数据查询请求,其中,所述数据查询请求包括针对目标查询任务的初始待处理文本;
根据所述初始待处理文本,生成对应的指示文本和多个待处理文本,并获取多个参考数据序列、多个参考查询语句和对应的参考数据关系;
在所述得到所述目标数据对应的查询语句之后,还包括:
根据所述查询语句,从数据库中查询得到所述目标数据;
将所述目标数据反馈至所述用户。
13.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310744206.4A CN116501858B (zh) | 2023-06-21 | 2023-06-21 | 文本处理及数据查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310744206.4A CN116501858B (zh) | 2023-06-21 | 2023-06-21 | 文本处理及数据查询方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116501858A true CN116501858A (zh) | 2023-07-28 |
CN116501858B CN116501858B (zh) | 2023-11-14 |
Family
ID=87316835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310744206.4A Active CN116501858B (zh) | 2023-06-21 | 2023-06-21 | 文本处理及数据查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116501858B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217238A (zh) * | 2023-11-09 | 2023-12-12 | 成都理工大学 | 一种基于大型语言模型的智能交互系统及方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180081861A1 (en) * | 2016-09-22 | 2018-03-22 | Abbyy Infopoisk Llc | Smart document building using natural language processing |
US20180157641A1 (en) * | 2016-12-07 | 2018-06-07 | International Business Machines Corporation | Automatic Detection of Required Tools for a Task Described in Natural Language Content |
CN111522944A (zh) * | 2020-04-10 | 2020-08-11 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备以及存储介质 |
CN113505219A (zh) * | 2021-06-15 | 2021-10-15 | 北京三快在线科技有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
CN114238629A (zh) * | 2021-11-29 | 2022-03-25 | 鹏城实验室 | 一种基于自动提示推荐的语言处理方法、装置及终端 |
CN115145812A (zh) * | 2022-06-28 | 2022-10-04 | 北京百度网讯科技有限公司 | 测试用例生成方法、装置、电子设备和存储介质 |
US20220350965A1 (en) * | 2021-08-13 | 2022-11-03 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for generating pre-trained language model, electronic device and storage medium |
CN115391527A (zh) * | 2022-08-23 | 2022-11-25 | 中国电信股份有限公司 | 基于提示学习的意图识别方法、问答方法及装置 |
CN115496166A (zh) * | 2022-10-24 | 2022-12-20 | 深圳壹账通智能科技有限公司 | 多任务处理方法、装置、电子设备及存储介质 |
CN115757718A (zh) * | 2022-11-07 | 2023-03-07 | 阿里巴巴(中国)有限公司 | 文本生成方法及装置 |
CN116050405A (zh) * | 2022-12-26 | 2023-05-02 | 阿里巴巴(中国)有限公司 | 文本处理、问答文本处理及文本处理模型训练方法 |
-
2023
- 2023-06-21 CN CN202310744206.4A patent/CN116501858B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180081861A1 (en) * | 2016-09-22 | 2018-03-22 | Abbyy Infopoisk Llc | Smart document building using natural language processing |
US20180157641A1 (en) * | 2016-12-07 | 2018-06-07 | International Business Machines Corporation | Automatic Detection of Required Tools for a Task Described in Natural Language Content |
CN111522944A (zh) * | 2020-04-10 | 2020-08-11 | 北京百度网讯科技有限公司 | 用于输出信息的方法、装置、设备以及存储介质 |
CN113505219A (zh) * | 2021-06-15 | 2021-10-15 | 北京三快在线科技有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
US20220350965A1 (en) * | 2021-08-13 | 2022-11-03 | Beijing Baidu Netcom Science Technology Co., Ltd. | Method for generating pre-trained language model, electronic device and storage medium |
CN114238629A (zh) * | 2021-11-29 | 2022-03-25 | 鹏城实验室 | 一种基于自动提示推荐的语言处理方法、装置及终端 |
CN115145812A (zh) * | 2022-06-28 | 2022-10-04 | 北京百度网讯科技有限公司 | 测试用例生成方法、装置、电子设备和存储介质 |
CN115391527A (zh) * | 2022-08-23 | 2022-11-25 | 中国电信股份有限公司 | 基于提示学习的意图识别方法、问答方法及装置 |
CN115496166A (zh) * | 2022-10-24 | 2022-12-20 | 深圳壹账通智能科技有限公司 | 多任务处理方法、装置、电子设备及存储介质 |
CN115757718A (zh) * | 2022-11-07 | 2023-03-07 | 阿里巴巴(中国)有限公司 | 文本生成方法及装置 |
CN116050405A (zh) * | 2022-12-26 | 2023-05-02 | 阿里巴巴(中国)有限公司 | 文本处理、问答文本处理及文本处理模型训练方法 |
Non-Patent Citations (2)
Title |
---|
SHICHENG XU 等: "Match-Prompt: Improving Multi-task Generalization Ability for Neural Text Matching via Prompt Learning", ACM, pages 2290 * |
王飞鸿;: "自动生成知识库的设计和应用探索", 科技资讯, no. 14, pages 15 - 18 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117217238A (zh) * | 2023-11-09 | 2023-12-12 | 成都理工大学 | 一种基于大型语言模型的智能交互系统及方法 |
CN117217238B (zh) * | 2023-11-09 | 2024-01-30 | 成都理工大学 | 一种基于大型语言模型的智能交互系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116501858B (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027327B (zh) | 机器阅读理解方法、设备、存储介质及装置 | |
US20210232761A1 (en) | Methods and systems for improving machine learning performance | |
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN111368049B (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN110633577B (zh) | 文本脱敏方法以及装置 | |
CN110781276A (zh) | 文本抽取方法、装置、设备及存储介质 | |
US20210125516A1 (en) | Answer training device, answer training method, answer generation device, answer generation method, and program | |
CN112527998A (zh) | 一种答复推荐方法、答复推荐装置及智能设备 | |
CN116501858B (zh) | 文本处理及数据查询方法 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN117077792B (zh) | 一种基于知识图谱生成提示数据的方法及装置 | |
CN116975288A (zh) | 文本处理方法及文本处理模型训练方法 | |
CN113220854A (zh) | 机器阅读理解的智能对话方法及装置 | |
CN116701636A (zh) | 一种数据分类方法、装置、设备及存储介质 | |
CN115906818A (zh) | 语法知识预测方法、装置、电子设备和存储介质 | |
CN115934904A (zh) | 文本处理方法以及装置 | |
CN115658845A (zh) | 一种适用于开源软件供应链的智能问答方法及装置 | |
CN114969347A (zh) | 缺陷查重实现方法、装置、终端设备及存储介质 | |
CN113537263A (zh) | 二分类模型的训练方法及装置、实体链接方法及装置 | |
CN113806475A (zh) | 信息回复方法、装置、电子设备和存储介质 | |
CN117573842B (zh) | 文档检索方法以及自动问答方法 | |
CN116467500A (zh) | 数据关系识别、自动问答、查询语句生成方法 | |
CN115688800A (zh) | 一种语义表征方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |